CN110826520A

CN110826520A - 一种基于改进YOLOv3-tiny算法的港口抓斗检测方法

Info

Publication number: CN110826520A
Application number: CN201911115118.8A
Authority: CN
Inventors: 张文明; 刘向阳; 李海滨; 杜雨航
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-02-21
Anticipated expiration: 2039-11-14
Also published as: CN110826520B

Abstract

本发明提供一种基于改进YOLOv3‑tiny算法的港口抓斗检测方法，包括：将图像提取装置正对抓斗安装，并将其设置为跟随抓斗的工作模式；采集港口抓斗的图像数据，获取网络训练样本以及测试样本；利用测距传感器、角度传感器测得水平面与垂直面的大臂旋转角度信息和抓斗所在的三维信息共同确定了抓斗的唯一位置信息；利用改进YOLOv3‑tiny算法对网络模型进行训练，获得抓斗检测模型；利用训练后的抓斗检测模型权重对测试集的图片以及港口作业视频进行测试，并得到测试结果。本发明在抓斗运行的过程中提高了作业速度，缩短循环周期，自动实现对抓斗位置的实时检测，使得作业效率得到提高的同时又节省了人力资本，在港口作业方面具有很大的价值与意义。

Description

一种基于改进YOLOv3-tiny算法的港口抓斗检测方法

技术领域

本发明涉及港口抓斗检测方法，具体而言涉及一种基于改进YOLOv3-tiny算法的港口抓斗检测方法。

背景技术

近几年，随着港口行业的蓬勃发展，港口吞吐量不断加大，2018年中国港口完成货物吞吐量143.51亿吨，足以说明港口码头对装卸干散货的需求之大。随着科学技术的发展，如何使得港口散货装卸设备自动化将是未来的发展趋势。

目前采用的方法大多是人为在操控，即驾驶员坐在门机驾驶室内，通过肉眼观察抓斗是否到达要抓取干散货或者释放干散货的合适位置，由人来判断何时下放或升起抓斗上的钢丝绳。那么就会存在以下问题：第一，由于人眼距离货物比较远，在释放抓斗时容易过放，一次作业循环浪费几秒钟，多次循环作业加起来就浪费了大量时间，产生大量的无用功。第二，由于司机长期作业会导致人眼疲劳从而导致误判，也会出现过放问题，这对企业的发展是不利的，因为除了耗时耗力又会增加公司的输入成本。那么如何精确检测出抓斗的位置，使得抓斗装卸货物更高效一些，便成了港口行业急需解决的问题。有人提出固定装货地点A、卸货地点B，然后通过角度传感器测得角度变化，使得抓斗到定点A或B再执行相应的开闭斗操作。可是它存在以下两点问题：第一，地点固定，没有灵活性，而且定点的面积有限，如果太大，开闭斗还需要人为来控制，没有节省人力资本。第二：在抓斗移动的过程中，速度特别慢，否则无法实现定点开闭斗，这就导致时间成本不但没有节省，反而增加了。

发明内容

根据上述提出的港口装卸干散货的作业过程中由于人眼观察抓斗所导致的钢丝绳过放现象，提出了一种新的解决办法，利用计算机视觉中的目标检测技术代替传统人眼去观察抓斗的方式，自动实现对抓斗位置的实时检测和跟踪，替代了传统的肉眼去看的方式，既节省了人力资本，又提高了工作效率。

本发明采用的技术手段如下：

一种基于改进YOLOv3-tiny算法的港口抓斗检测方法，包括：

S1、将图像提取装置正对抓斗安装，并将其设置为跟随抓斗的工作模式；

S2、采集港口抓斗的图像数据，获取网络训练样本以及测试样本；

S3、利用测距传感器、角度传感器测得水平面与垂直面的大臂旋转角度信息和抓斗所在的三维信息共同确定了抓斗的唯一位置信息；

S4、利用改进YOLOv3-tiny算法对网络模型进行训练，获得抓斗检测模型；

S5、利用训练后的抓斗检测模型权重对测试集的图片以及港口作业视频进行测试，并得到测试结果。

较现有技术相比，本发明具有以下优点：

本发明使用改进后的YOLOv3-tiny算法，较原始算法在性能上有显著提升，改进后的检测算法MAP达到了90.91％，速度接近每秒66帧，较原始算法MAP值提高了12.34％，召回率高达91.07％，较原始召回率提高了12.5％，而且误检率为0，满足港口对抓斗检测实时性的同时，提高了对抓斗检测的精确度，避免了因人眼误判产生抓斗过放的现象。

同时，在抓斗运行的过程中允许其在可控范围内进行甩动，提高了作业速度，缩短循环周期，自动实现对抓斗位置的实时检测，这种替代传统人眼去看的方式使得作业效率得到提高的同时又节省了人力资本。

因此本专利的发明在港口作业方面具有很大的价值与意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明港口抓斗检测方法流程图。

图2为数据集中对图片的标注图。

图3为voc_label.py中需要修改的部分。

图4为原YOLOv3-tiny的网络结构图。

图5为本发明的算法网络结构图。

图6为改进的网络中所引入的SPP模块图。

图7为标准卷积图。

图8为标准卷积的升维图。

图9为深度卷积图。

图10为逐点卷积图。

图11为逐点卷积的升维图。

图12为反转残差模块图。

图13为激活函数LReLU图。

图14为改进的结构中所引入的反转残差模块图。

图15为抓斗上方大臂图。

图16网络训练过程中的平均损失变化曲线。

图17为网络训练过程中的平均交并比变化曲线。

图18为本发明改进的算法对抓斗视频的检测效果图。

图19为本发明改进的算法对抓斗测试集单张图片的检测效果图。

图20为为本发明改进的算法对测试集测试结果图。

图21为原模型算法对测试集测试结果图。

图22为识别正确的抓斗图。

图23为识别错误的抓斗图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明提供了一种基于改进YOLOv3-tiny算法的港口抓斗检测方法，包括：

S1、将图像提取装置正对抓斗安装，并将其设置为跟随抓斗的工作模式。优选地，选取型号为DS-2CD3T56WD-I8的网络摄像机，并将其置于抓斗正方跟随抓斗作业的拍摄方式。

S2、采集港口抓斗的图像数据，获取网络训练样本以及测试样本。优选地，将数据集制作成VOC2007格式，首先通过步骤1中的摄像头采集几段抓斗作业的视频，然后通过软件Free Video to JPG Converter截取其中部分帧作为要训练和测试的图片，再通过标注软件labelmg对所有图片进行标注，其中标注类别为单类别grab，然后再利用darknet源程序中的脚本文件voc_label.py，其中修改sets和classes部分，将之前的xml标注文件进行归一化处理并转化为txt格式，将其作为抓斗数据集标签。

S3、利用测距传感器、角度传感器测得水平面与垂直面的大臂旋转角度信息和抓斗所在的三维信息共同确定了抓斗的唯一位置信息。

S4、利用改进YOLOv3-tiny算法对网络模型进行训练，获得抓斗检测模型。优选地，截取原YOLOv3-tiny网络的前15层作为改进后网络的backbone，保留的backbone由9个卷积层和6个最大池化层组合形成，在改进后的网络中保留了原来的两个YOLO检测层，引入了深度可分离卷积，减少了大量计算量，并在First YOLO检测层前加入了一个空间金字塔池化模块，改进的网络中通过两个反转残差模块的堆叠，加深了网络深度，提高检测性能，其中改进的结构中将原反转残差模块中除最后的逐点卷积外的激活函数relu6用函数LReLU进行替换，解决当输入小于0时无法进行梯度更新的现象。进一步地，下载YOLO官网上YOLOv3-tiny的权重，截取前15层作为改进后网络的预训练权重，然后基于改进后的网络使用训练数据集中的图片进行训练、微调，进而得到对于抓斗检测效果达到最佳的权重参数，网络训练迭代次数小于1000时，学习率从0开始随着迭代次数的增加逐渐变大，直到迭代次数达到1000时，学习率增加到0.001，之后采用policy＝step的策略，设置当迭代次数达到100000次和110000次时，学习率分别降至为0.0001和0.00001，采取random＝1的方式，对抓斗图片进行随机多尺度训练。为了减小显存压力，设置subdivisions＝2，将60张图片分两次进行前向传播。

S5、利用训练后的抓斗检测模型权重对测试集的图片以及港口作业视频进行测试，并得到测试结果。具体地，利用训练出来的模型权重对港口作业视频进行测试，并得到测试结果，检测速度接近66FPS，识别准确度为100％，并且给出实时的坐标位置信息。

将本发明改进后的算法与原算法进行测试结果对比，改进后的YOLOv3-tiny算法较原始算法在性能上有显著提升，检测精度提高了6.4％，召回率高达91.07％，较原始召回率提高了12.5％，MAP达到了90.91％，较原始算法MAP值提高了12.34％，改进后的网络漏检相对较少，而且不存在误检，改进后的网络既保证了对抓斗检测的实时性，又进一步提高了对抓斗检测的准确度，使得改进后的网络检测性能达到最佳，实现代替人眼观察抓斗作业的方式，解决由于人眼观察所带来的抓斗过放现象，节省了人力资本，提高了工作效率。

下面通过具体实施例对本发明的技术方案做进一步说明。

实施例1

结合图1，本发明所述的基于改进YOLOv3-tiny算法的港口抓斗检测方法步骤如下：

步骤1，选取合适的摄像头并进行现场安装。

由于港口独特的作业环境，选择适合现场抓斗检测的摄像头显得尤为重要。由于作业环境的复杂性，港口摄像头的选型需要满足以下几点要求：

1)抗震性能。作业时门机臂会有震动，可能会导致相机拍摄画面不清晰。

2)防水性能。由于安装在室外，不得不考虑天气情况，万一下雨怎么办。

3)工作温度范围。一般-30°到60°即可。

4)抗电磁干扰。码头电气设备多，功率大，强大的电磁干扰经常会影响摄像头成像。

5)对光照强度的敏感程度要小。

根据以上要求并综合实际情况选择了型号为DS-2CD3T56WD-I8的网络摄像机。

为了实时跟踪抓斗，检测其实时位置，所以将其安装在抓斗的正上方位置，由相机自带的机械结构固定在门机臂上，镜头垂直向下放置。作业过程中要保证相机不能变焦，否则无法建立统一的坐标系，将失去参考价值。

步骤2，利用步骤1中的摄像头采集现场门机抓斗作业视频，并制作数据集。

将数据集制作成VOC2007格式。首先通过步骤1中的摄像头采集几段抓斗作业的视频，然后通过软件Free Video to JPG Converter截取其中部分帧作为要训练和测试的图片，再通过标注软件labelmg对所有图片进行标注，如图2所示，既要给出类别信息又要框住其位置，从而形成所示的xml格式的标注文件，然后将其置于Annotations文件夹中，同时将所有原图片置于JPEGImages文件夹下，用python程序将本次实验的图片分为训练集201张和测试集56张并保存为train.txt和test.txt。最后再利用darknet源程序中的脚本文件voc_label.py，其中修改sets和classes部分，如图3所示，将之前的xml标注文件进行归一化处理并转化为txt格式，将其作为抓斗数据集标签。

步骤3，对YOLOv3-tiny网络结构进行改进。

截取如图4所示的原YOLOv3-tiny网络的前15层作为改进后网络的backbone，保留的backbone由9个卷积层和6个最大池化层组合形成，池化层降低了卷积层输出的特征向量，减少参数量的同时也不易出现过拟合，提高模型的鲁棒性。原来的两个YOLO检测层保留，但为了不失速度的同时提高检测精度，本发明在改进后的网络中引入了空间金字塔池化模块和深度可分离卷积以及反转残差模块的堆叠，改进后的整体网络结构如图5所示。具体步骤如下：

步骤3.1，在First YOLO检测层前加入一个空间金字塔池化模块(SPP)，加入的SPP模块如图6所示。SPP模块由三个平行的最大池化层、一个卷积层和route层组合形成。其中池化核尺寸大小分别为5x5、9x9、13x13，步长均为1。输入的特征图通过1x1卷积层以及不同大小的最大池化核作用，提取了不同角度的特征，形成了带有不同感受野的特征图，然后通过route层将前面获得的特征图进行通道维度上的拼接，进而提取到更多有用的多尺度信息。池化操作使得数据的维度降低，将较低层次的特征组合为较高层次的特征，通过融合，提高了语义信息，可以使得模型检测的准确率提高。

步骤3.2，原YOLOv3-tiny算上最大池化层，一共24层，网络深度较浅，所以仅仅通过加入一个SPP模块来提高检测性能是不够的，所以可通过加深网络层数进一步提高抓斗检测的效果。但是随着网络深度的增加，势必会带来计算量的加大，进而影响到实时性能，所以本发明引入了深度可分离卷积。这种卷积不同于普通的卷积，它将图像区域与通道分开考虑，对于不同的输入通道采取不同的卷积核分别进行卷积。如图7-8所示，从5×5×3的输入特征图经过普通卷积方式转换形成输出为3×3×256的输出特征图的过程中，在输入特征图没有零填充的情况下，256个3x3x3大小的卷积核移动了3x3次，计算量的消耗为256x3x 3x 3x 3x 3＝62208次乘法计算。而如果用深度可分离卷积实现同样的变换将会大大减少计算量。深度可分离卷积由深度卷积和逐点卷积两个操作组合完成。如图9-11所示，深度卷积用3个3x3x1的不同卷积核取代了原来3x3x3的标准卷积核，并没有同时考虑通道和区域，而是分别在每个通道上进行各自的卷积操作，收集每个通道的空间特征，从而得到一个具有3通道的3x3大小的输出特征图，在此之后应用逐点卷积，即采用1x1的标准卷积核将深度卷积输出的特征图进行组合，采集了每个点的信息，进而来产生新的特征，通过增加卷积核的个数，达到和之前普通卷积方式一样的输出结果，在深度卷积操作中，计算量由三个3x3x1的卷积核移动3x3次产生，进行了3x3x3x1x3x3＝243次乘法计算。在逐点卷积操作中，由256个1x1x3的普通卷积核移动3x3次产生，进行了256x1x1x3x3x3＝6912次乘法，总计算量为：6912+243＝7155次乘法，相比于普通卷积操作，减少了将近8.7倍的计算消耗。所以改进的结构中通过引入深度可分离卷积以降低计算量。

步骤3.3随着改进的网络层数的加深，可能会带来退化问题，本发明考虑在原YOLOv3-tiny的网络结构中加入2个反转残差模块。结合附图12进行说明，即先用1x1的卷积核进行升维，然后用步骤3.2中的3x3深度卷积核进行特征提取，最后用1x1的逐点卷积将其维度降到与输入特征图相同的维度并进行元素相加，构成残差似的连接。由于原反转残差模块除最后的逐点卷积外使用的激活函数是relu6，计算公式为：

relu6(x)＝min(max(x,0),6)∈[0,6]

式中，当输入小于0时，输出恒为0，反向传播时无法进行梯度更新，容易造成神经元死亡的现象。所以在改进的结构中将原反转残差模块中除最后的逐点卷积外的激活函数relu6用函数LReLU进行替换，计算公式为：

式中，当输入小于0时，是有输出的，取决于其系数a，a取0.1，函数图像如图13所示。改进后的反转残差模块如图14所示。

步骤4，由于摄像头垂直向下拍摄，正下方为抓斗，作业过程中，随着门机大臂的旋转、移动，相机和抓斗是一起移动的，这样从相机获得的二维坐标信息X、Y与测距传感器所测得的钢丝绳长度形成的深度信息Z一起构成三维坐标信息，但此时信息并不唯一，如图15所示，此时A、B、C三点在正上方摄像头与传感器所获得的绳长信息组合下所形成的三维信息是相同的。但通过再加上大臂垂直面上的旋转角度1、2、3便唯一确定了抓斗所在的空间位置。当抓斗以某一种状态比如1所对应的角度在同一水平面移动时此时的位置信息又是不唯一的，需要角度传感器测量水平旋转角度，通过水平面与垂直面的大臂旋转角度信息和抓斗所在的X、Y、Z信息共同确定了抓斗在空间中的唯一位置信息。

步骤5，用本发明改进后的网络对抓斗进行网络训练。

下载YOLO官网上YOLOv3-tiny的权重，截取前15层作为改进后网络的预训练权重，然后基于改进后的网络使用训练数据集中的图片进行训练、微调，进而得到对于抓斗检测效果达到最佳的权重参数。本实施例的部分训练参数的设置如表1所示。

表1网络参数表

迭代次数小于1000时，学习率从0开始随着迭代次数的增加逐渐变大，直到迭代次数达到1000时，学习率增加到0.001。为了得到更好的收敛效果，之后采用policy＝step的策略，设置当迭代次数达到100000次和110000次时，学习率分别降至为0.0001和0.00001。表1中的旋转角度、饱和度、曝光量以及色调为数据增强参数，用来生成更多的训练样本。表1中的抖动因子作为一种数据增强手段，通过随机调整宽高比的范围增加噪声来抑制过拟合。输入图片馈送入改进的网络后，采取random＝1的方式，对抓斗图片进行随机多尺度训练。为了减小显存压力，设置subdivisions＝2，将60张图片分两次进行前向传播。在训练过程中，保存算法各项指标的训练日志，并根据日志信息绘制相应曲线，并根据曲线变化选取合适的权重作为最终的测试权重。平均损失以及平均交并比随着迭代次数的增加其变化曲线分别如图16-17所示。

步骤6，进行模型测试。

步骤6.1，利用步骤5训练出来的模型权重对港口作业视频进行测试，并得到测试结果。本实施例改进的算法对视频的测试结果如图18所示，检测速度接近66FPS，识别准确度为100％，并且给出实时的坐标位置信息。

步骤6.2，利用步骤5训练出来的模型权重对测试集的单张图片进行测试，结果如图19所示，对测试集所有图片进行测试并得到本实施例的测试结果，如图20所示。原模型对测试集进行测试的结果如图21所示。

步骤6.3，将本发明改进后的算法与原算法进行测试结果对比。

测试指标MAP值的计算按照Pascal VOC2007的计算标准，即IOU阈值设置为0.5时的测试结果，当抓斗的预测框与真实框的交并比大于等于50％时，视为匹配正确，检测出来的抓斗是正确的，即TP，如图22所示。否则检测出来的抓斗是错误的，即FP，如图23所示。根据测试结果计算抓斗检测的精确率以及召回率，计算公式如下：

将本发明改进后的算法与原算法进行测试结果对比，如表2所示。

表2结果对比

改进后的YOLOv3-tiny算法较原始算法在性能上有显著提升，检测精度提高了6.4％，召回率高达91.07％，较原始召回率提高了12.5％，MAP达到了90.91％，较原始算法MAP值提高了12.34％，改进后的网络漏检相对较少，而且不存在误检。说明本实施例改进后的网络通过空间金字塔池化模块和深度可分离卷积的引入，以及改进的反转残差模块的堆叠，实现加深网络深度的同时，既保证了对抓斗检测的实时性，又进一步提高了对抓斗检测的准确度，使得改进后的网络检测性能达到最佳。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于改进YOLOv3-tiny算法的港口抓斗检测方法，其特征在于，包括：

2.根据权利要求1所述的港口抓斗检测方法，其特征在于，步骤S2中采集港口抓斗的图像数据包括：

对所述图像提取装置采集的抓斗作业视频截取，并随机提取训练图片和测试图片；

对所有图片进行单类别标注，并对其进行格式转化得到抓斗数据集标签。

3.根据权利要求2所述的港口抓斗检测方法，其特征在于，步骤S4中所述利用改进YOLOv3-tiny算法对网络模型进行训练包括：

S401、截取原YOLOv3-tiny网络的前15层作为改进后网络的backbone，所述backbone由9个卷积层和6个最大池化层组合形成，在改进后的网络中保留两个YOLO检测层，引入深度可分离卷积，并在First YOLO检测层前加入一个空间金字塔池化模块，在改进结构中将原反转残差模块中除最后的逐点卷积外的激活函数relu6用函数LReLU进行替换；

S402、截取原结构中的前15层作为改进后网络的预训练权重，然后基于改进后的网络使用训练样本中的图片进行训练和调整，从而得到抓斗检测性能最佳的权重参数。

4.根据权利要求3所述的港口抓斗检测方法，其特征在于，当网络训练迭代次数小于1000时，学习率从0开始随着迭代次数的增加逐渐变大；当网络训练迭代次数大于1000时，学习率增加到0.001，当迭代次数达到100000次时，学习率分别降至为0.0001；当迭代次数达到110000次时，学习率降至0.00001。

5.根据权利要求3或4所述的港口抓斗检测方法，其特征在于，对抓斗图片进行随机多尺度训练。