CN112580585A

CN112580585A - 一种基于堆叠稠密网络的挖掘机目标检测方法及装置

Info

Publication number: CN112580585A
Application number: CN202011584453.5A
Authority: CN
Inventors: 毛亮; 郭子豪
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Polytechnic
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-30

Abstract

本发明提供了一种基于堆叠稠密网络的挖掘机目标检测方法及装置，所述方法包括：将多个预设的深度可分离卷积网络进行堆叠以构建得到基础网络；采用多个预设的CCB模块构建多尺度特征提取网络；根据所述基础网络、所述多尺度特征提取网络以及预设的损失函数进行构建得到目标检测网络模型，并利用获取到的训练数据对所述目标检测网络模型进行训练；将待检测挖掘机图像输入至训练好的目标检测网络模型，输出挖掘机目标区域。本发明有效减少了模型大小和运算量以提高检测运行效率，同时有效提高了检测能力。

Description

一种基于堆叠稠密网络的挖掘机目标检测方法及装置

技术领域

本发明涉及目标检测技术领域，尤其是涉及一种基于堆叠稠密网络的挖掘机目标检测方法及装置。

背景技术

为实现现场实时监测违法用地现象，国土执法部门已对重点违法用地易发区域通过视频进行了监控。由于传统的视频监控智能化程度低，人力成本高，另外会由于监控人员容易疲劳懈怠导致未及时发现违法用地情况。因此，利用计算机视觉和深度学习的方法，对土地间作业挖掘机目标进行监测是及时发现违法用地现象的重要手段，并能够为工程项目管理人员及时提供施工现场的重要管理信息。

已公开成果[基于颜色及投影特征的挖掘机图像分割算法]中只利用颜色特征对挖掘机进行分割，无法对背景复杂的挖掘机进行有效分割；公开成果[基于机器视觉的铲斗目标检测]中利用帧差法和高斯混合建模法，实现铲斗目标检测，但该方法只适应单一场景下的运动目标检测，无法对复杂场景且静止的挖掘机目标进行检测。

近年来，基于深度学习的目标检测方法，相比传统的目标检测方法，基于卷积网络的目标检测方法由于不需要手动设计特征，直接通过深层卷积网络结构自动学习图像的高阶特征，极大地提升了对象检测任务的精度。这类方法一般分为基于候选区域的方法和基于回归的方法。其中基于候选区域的方法主要包括Fast R-CNN、Faster R-CNN和R-FCN，这类方法虽然准确，但计算成本很高，检测速度慢；而基于回归的方法主要包括YOLO和SSD，这类方法具有较好的检测速度和精度，因而得到了广泛的应用。

现有技术方案SSD算法由基础网络和多尺度特征提取网络组成，如图2所示：基础网络为VGG16，在图像分类领域具有很高分类精度且去除其分类层的网络；多尺度特征提取网络为在基础网络基础上增加的用于目标检测的卷积网络结构，这些层的尺寸逐渐减小从而可以进行多尺度预测。其中，VGG16由六种不同级别的网络，深度从11层到19层不等。VGG16卷积核的感受野块为3×3，这是捕获左/右，上/下和中心特征的最小尺寸。在其中一个结构中使用了1×1的卷积核，这可以看作对输入通道的线性变换。卷积核的步长固定为1，对3×3的卷积层进行1像素的填充使得卷积层输入的空间分辨率保持不变。空间池化通过5个最大池化层在一些卷积层后操作，像素窗大小为2×2，步长为2。不同的结构中卷积层的深度不同，其后接着3个全连接层。前两个全连接层每层有4096个通道，第三层执行1000路ILSVRC分类并因此包含1000个通道，即每类对应一个通道，最后一层是Softmax层。所有隐藏层都包含ReLU层。在实际应用中，由于VGG16网络模型存在参数众多，运行内存占用量过大，且在特征提取过程中占用了大部分运行时间，在内存容量和计算资源有限的嵌入式设备上运行效率较低，甚至出现无法运行的情况。

多尺度特征提取网络采用了6组不同尺度的特征图。如图2所示，SSD利用了38×38、19×19、10×10、5×5、3×3和1×1的特征图进行预测，对这六层特征图取不同尺寸的候选框，以提高检测精度。尽管SSD采用多尺度特征提取网络在特征图上实现类似图像金字塔的效果，有利于多尺度目标检测，但存在小目标检测能力弱的问题。

发明内容

本发明旨在提供一种基于堆叠稠密网络的挖掘机目标检测方法及装置，以解决上述技术问题，从而减少模型大小和运算量以提高检测运行效率，同时有效提高检测能力。

为了解决上述技术问题，本发明提供了一种基于堆叠稠密网络的挖掘机目标检测方法，包括：

将多个预设的深度可分离卷积网络进行堆叠以构建得到基础网络；

采用多个预设的CCB模块构建多尺度特征提取网络；

根据所述基础网络、所述多尺度特征提取网络以及预设的损失函数进行构建得到目标检测网络模型，并利用获取到的训练数据对所述目标检测网络模型进行训练；

将待检测挖掘机图像输入至训练好的目标检测网络模型，输出挖掘机目标区域。

进一步地，所述基础网络由四个密集阶段的网络结构构成，其中，第一个密集阶段由4个深度可分离卷积网络堆叠而成，第二个密集阶段、第三个密集阶段、第四个密集阶段分别由6个深度可分离卷积网络堆叠而成。

进一步地，每一所述深度可分离卷积网络包括三个通道，其中，每一通道依次由卷积层、BN层、深度可分离卷积层、BN层、激活函数层构成，同一深度可分离卷积网络中三个通道的深度可分离卷积层的分辨率分别为1×1、3×3、5×5。

进一步地，每一所述CCB模块由卷积层、BN层、反卷积层、Eltwise Sum层、激活函数层、卷积层、BN层、激活函数层构成。

进一步地，所述利用获取到的训练数据对所述目标检测网络模型进行训练，具体为：

对获取到的训练数据进行预处理，利用预处理后的训练数据对所述目标检测网络模型进行训练；其中，所述预处理包括裁剪、翻转、缩放中的一种或多种。

为了解决相同的技术问题，本发明还提供了一种基于堆叠稠密网络的挖掘机目标检测装置，包括：

第一构建模块，用于将多个预设的深度可分离卷积网络进行堆叠以构建得到基础网络；

第二构建模块，用于采用多个预设的CCB模块构建多尺度特征提取网络；

模型训练模块，用于根据所述基础网络、所述多尺度特征提取网络以及预设的损失函数进行构建得到目标检测网络模型，并利用获取到的训练数据对所述目标检测网络模型进行训练；

目标检测模块，用于将待检测挖掘机图像输入至训练好的目标检测网络模型，输出挖掘机目标区域。

与现有技术相比，本发明具有如下有益效果：

附图说明

图1是本发明一实施例提供的基于堆叠稠密网络的挖掘机目标检测方法的流程示意图；

图2是本发明一实施例提供的现有技术基于深度学习的目标检测方法所采用的网络模型示意图；

图3是本发明一实施例提供的网络模型结构示意图；

图4是本发明一实施例提供的网络模型结构示意图；

图5是本发明一实施例提供的CCB模块结构示意图；

图6是本发明一实施例提供的基于堆叠稠密网络的挖掘机目标检测方法的流程示意图；

图7是本发明一实施例提供的基于堆叠稠密网络的挖掘机目标检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明实施例提供了一种基于堆叠稠密网络的挖掘机目标检测方法，包括步骤：

S1、将多个预设的深度可分离卷积网络进行堆叠以构建得到基础网络。

S2、采用多个预设的CCB模块构建多尺度特征提取网络。

S3、根据所述基础网络、所述多尺度特征提取网络以及预设的损失函数进行构建得到目标检测网络模型，并利用获取到的训练数据对所述目标检测网络模型进行训练。

S4、将待检测挖掘机图像输入至训练好的目标检测网络模型，输出挖掘机目标区域。

基于上述方案，为便于更好的理解本发明实施例提供的基于堆叠稠密网络的挖掘机目标检测方法，以下进行详细说明：

本发明实施例以轻量化堆叠稠密网络构建基础网络，然后设计一种新的CCB(Context Connection Block)特征融合模块，将Conv9与Conv8、Conv7、Conv5进行融合，以增强上下文信息，提高特征表达能力和目标检测精度。其中CCB模块，对38×38、19×19、10×10和5×5中每种尺度的最后一层Conv5、Conv7、Conv8和高层语义信息特征图Conv9进行特征图相融合，并加入BN层，统一进行归一化处理，增加低层特征提取能力；再通过CCB的输出到不同尺度38×38、19×19、10×10和5×5的特征图M1、M2、M3、M4中实现归一化到256维通道，最后和Conv10、Conv12共6层卷积层一起输出到NMS作为每类检测框的候选框，实现较高检测精度的目的，同时又保证较小的模型和较高的运行效率，适合应用到存储和计算资源有限的移动设备中。

另外，DW(Depthwise Separable Convolution)表示深度分离卷积处理单元，它的最上层为深度分离卷积层，3×3卷积核，紧接着为BN(Batch Normalization)层、激活层ReLU和1×1点卷积层，再接着是BN层和激活函数ReLU。网络结构中的基础网络中的卷积操作部分换成DW，通过深度可分离卷积操作，将标准卷积核进行分解，获取目标的初始特征，紧接着仍然是一系列逐渐变小的卷积层，获取不同尺度下的目标特征，同时并引入两个超参数：宽度乘数和分辨率乘数，大大地减少输入输出的通道数和输入输出特征图的大小，同样也实现了减少参数量和计算量，实现了轻量化的处理。

1、基础网络设计：

本技术方案运用基于深度可分离卷积的多路稠密结构，也被称为mDDB(multipleDepthwise Dense Block)，将深度可分离卷积网络进行堆叠，同时将网络的浅层信息不断地传递至深层，融合上下图文信息，为深层卷积层带来了更加准确的挖掘机的位置信息。如图3所示，基础网络由4个密集阶段的网络结构构成，每个阶段堆叠了不同数量的mDDB网络模块，第1个密集阶段中叠堆了4个mDDB模块，在第2至第4个密集阶段分别叠堆了6个mDDB模块，每个密集阶段中对通道数进行不同比例的压缩，第1至第4的通道数分别为32、48、64和80。密集阶段中mDDB模块的通道数随着网络深度的加深而增加。

其结构如图3-4所示，每一个多路DDB结构都带有一个增长率，即卷积的通道数，本技术方案将其设置为32。首先将特征输入，其中三路通过1×1卷积将输入通道压缩为增长率，其后跟随一个Batch Normalization来提高网络的收敛能力，再分别用1×1，3×3、5×5的深度可分离卷积做特征提取，其后跟随Batch Normalization和非线性函数RELU用于提高网络的非线性特征，最终将这三路的输出添加到原输入的通道上，从而得到最终的输出，并作为下一个多路DDB的输入。

2、多尺度特征提取网络：

在多尺度特征提取网络中，采用6个特征网络层作为目标检测的输出，分别为Conv5、Conv7、Conv8、Conv9、Conv10、Conv12，其特征图的分辨率为38×38、19×19、10×10、5×5、3×3和1×1。

其中CCB模块，如图5所示，将输入的浅层特征通过一个核为3*3，步长为1，输出为256通道的卷积层卷积后，再利用BN层进行操作，与经过反卷积层的深层特征，通过EltwiseSum层进行融合，最后再由一个相同参数的卷积层卷积后输出融合后的特征图。与DSSD[1]方法一样，利用反卷积层操作，可放大特征维数，有效将浅层和深层的特征图进行融合，但DSSD使用求点积Eltwise Product层操作，相比CCB模块的Eltwise Sum层操作，计算资源要求较高，实时性也较差。CCB模块中BN层，不仅增强特征的辨别能力，还可以加快模型的收敛速度和缓解了深层网络中“梯度弥散”的问题，使得训练深层网络模型更加容易和稳定。因此，通过利用上下文信息，CCB模块可以有效地效地克服小目标检测性能较差的问题。

3、损失函数：

本技术方案中使用的损失函数与SSD方法一样，同样在训练时会同时对位置和目标种类进行回归，其损失函数L是置信损失和位置损失之和，表达式如下：

式中：N是与参照物体框匹配的默认框个数；L_conf(z,c)为置信损失，L_loc(z,l,g)为位置损失；z为默认框与不同类别的参照物体框的匹配结果；c为预测物体框的置信度；l为预测物体框的位置信息；g为标注物体框的位置信息；α为权衡置信损失和位置损失的参数，一般设置为1。

4、网络训练时参数设置：

本技术方案用大量标注好的图片训练基于堆叠稠密的挖掘机目标检测网络模型，用训练得到的最终模型检测目标类别和位置信息。

训练前，先对训练数据进行预处理，这种预处理包括对图像的随机裁剪、翻转、缩放等，这样的处理除增加训练数据量外，可以增加数据的随机性，有利于得到更加稳定的模型。

训练时，利用在公共数据集PASCAL VOC上已预训练好的DDB网络，采用迁移学习的方法，迁移到挖掘机目标数据集上进行微调，不仅克服不同数据集之间的差异性，还会快速的收敛于邻域很小的损失值。然后，使用随机梯度下降法，对网络模型以端到端的方式进行训练。

网络模型的其他参数均以Xavier的方式初始化，对不同尺度的特征图使用与SSD方法类似的锚点框选择策略，默认使用4种固定长宽比的边界框，具体为{1，1，2，1/2}，mini-batch大小为20，冲量为0.9，权值的衰减系数为0.0005，最大迭代次数为16万次，其中前4万次学习率为10–2，接着4万次学习率为10–3，再次调整学习率为10–4迭代4万次，最后以10–5的学习率迭代4万次，最终选取训练中获得精度最高的模型。

在算法实现过程中，由于采用随机初始化权值需要花费大量的时间将模型损失值收敛于稳定值，因此本文在模型的初始化中，对共享的卷积层以Xavier进行随机初始化方法，降低随机设置初始权值带来的网络不稳定性。

最后将图片输入到训练好的模型中进行离线训练和在线目标检测的技术路线，如图6所示。

需要说明的是，本发明实施例的关键点如下：

1.挖掘机目标检测算法以堆叠稠密网络mDDB构建基础网络，然后设计一种新的CCB(Context Connection Block)特征融合模块，将Conv9与Conv8、Conv7、Conv5进行融合，以增强上下文信息，提高特征表达能力和目标检测精度。

2.CCB模块，对38×38、19×19、10×10和5×5中每种尺度的最后一层Conv5、Conv7、Conv8和高层语义信息特征图Conv9进行特征图相融合，并加入BN层，统一进行归一化处理，增加低层特征提取能力；再通过CCB的输出到不同尺度38×38、19×19、10×10和5×5的特征图M1、M2、M3、M4中实现归一化到256维通道，最后和Conv10、Conv12共6层卷积层一起输出到NMS作为每类检测框的候选框，实现较高检测精度的目的，同时又保证较小的模型和较高的运行效率，适合应用到存储和计算资源都非常有限的移动端设备或嵌入式芯片中。

与现有技术相比，本发明具有如下有益效果：

本发明采用轻量化堆叠稠密DDB网络，同时设计一种新的CCB(ContextConnection Block)特征融合模块，增强上下文信息，提高特征表达能力，并且极大地减少模型大小和运算量，保持非常可观的检测性能。

需要说明的是，对于以上方法或流程实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本发明实施例所必须的。

请参见图7，为了解决相同的技术问题，本发明还提供了一种基于堆叠稠密网络的挖掘机目标检测装置，包括：

第一构建模块1，用于将多个预设的深度可分离卷积网络进行堆叠以构建得到基础网络；

第二构建模块2，用于采用多个预设的CCB模块构建多尺度特征提取网络；

模型训练模块3，用于根据所述基础网络、所述多尺度特征提取网络以及预设的损失函数进行构建得到目标检测网络模型，并利用获取到的训练数据对所述目标检测网络模型进行训练；

目标检测模块4，用于将待检测挖掘机图像输入至训练好的目标检测网络模型，输出挖掘机目标区域。

可以理解的是上述装置项实施例，是与本发明方法项实施例相对应的，本发明实施例提供的一种基于堆叠稠密网络的挖掘机目标检测装置，可以实现本发明任意一项方法项实施例提供的基于堆叠稠密网络的挖掘机目标检测方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于堆叠稠密网络的挖掘机目标检测方法，其特征在于，包括：

采用多个预设的CCB模块构建多尺度特征提取网络；

2.根据权利要求1所述的基于堆叠稠密网络的挖掘机目标检测方法，其特征在于，所述基础网络由四个密集阶段的网络结构构成，其中，第一个密集阶段由4个深度可分离卷积网络堆叠而成，第二个密集阶段、第三个密集阶段、第四个密集阶段分别由6个深度可分离卷积网络堆叠而成。

3.根据权利要求1所述的基于堆叠稠密网络的挖掘机目标检测方法，其特征在于，每一所述深度可分离卷积网络包括三个通道，其中，每一通道依次由卷积层、BN层、深度可分离卷积层、BN层、激活函数层构成，同一深度可分离卷积网络中三个通道的深度可分离卷积层的分辨率分别为1×1、3×3、5×5。

4.根据权利要求1所述的基于堆叠稠密网络的挖掘机目标检测方法，其特征在于，每一所述CCB模块由卷积层、BN层、反卷积层、Eltwise Sum层、激活函数层、卷积层、BN层、激活函数层构成。

5.根据权利要求1所述的基于堆叠稠密网络的挖掘机目标检测方法，其特征在于，所述利用获取到的训练数据对所述目标检测网络模型进行训练，具体为：

6.一种基于堆叠稠密网络的挖掘机目标检测装置，其特征在于，包括：

7.根据权利要求6所述的基于堆叠稠密网络的挖掘机目标检测装置，其特征在于，所述基础网络由四个密集阶段的网络结构构成，其中，第一个密集阶段由4个深度可分离卷积网络堆叠而成，第二个密集阶段、第三个密集阶段、第四个密集阶段分别由6个深度可分离卷积网络堆叠而成。

8.根据权利要求6所述的基于堆叠稠密网络的挖掘机目标检测装置，其特征在于，每一所述深度可分离卷积网络包括三个通道，其中，每一通道依次由卷积层、BN层、深度可分离卷积层、BN层、激活函数层构成，同一深度可分离卷积网络中三个通道的深度可分离卷积层的分辨率分别为1×1、3×3、5×5。

9.根据权利要求6所述的基于堆叠稠密网络的挖掘机目标检测装置，其特征在于，每一所述CCB模块由卷积层、BN层、反卷积层、Eltwise Sum层、激活函数层、卷积层、BN层、激活函数层构成。

10.根据权利要求6所述的基于堆叠稠密网络的挖掘机目标检测装置，其特征在于，所述利用获取到的训练数据对所述目标检测网络模型进行训练，具体为：