CN114782538B

CN114782538B - 一种应用于灌装领域兼容不同桶型视觉定位方法

Info

Publication number: CN114782538B
Application number: CN202210677223.6A
Authority: CN
Inventors: 霍箭东; 王玲; 邱天衡; 张超; 孟令书
Original assignee: Changchun Lanzhou Technology Co ltd; Changchun Rongcheng Intelligent Equipment Manufacturing Co ltd
Current assignee: Changchun Lanzhou Technology Co ltd; Changchun Rongcheng Intelligent Equipment Manufacturing Co ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-16
Anticipated expiration: 2042-06-16
Also published as: CN114782538A

Abstract

本发明公开了一种应用于灌装领域兼容不同桶型视觉定位方法，基于YOLOv5，使用跨层加权级联的路径聚合网络和并行通道空间注意力模块来提高网络的回归精度和收敛速度，并引入Ghost相关模块降低网络的复杂度，构建一种具有更高识别精度的目标检测网络模型YOLO‑G，通过非极大值抑制来获取桶口和桶盖位置信息，利用图神经网络的推理学习能力，通过金字塔结构融合多尺度特征，实现尺度自适应桶口和桶盖识别定位。在YOLO‑G网络模型的搜索模块中融合空洞神经网络，扩大卷积感受野，增强输出特征多样性，实现自然光下的多桶型，多尺度桶口、桶盖以及桶口、桶盖和桶面颜色近似的情况下的精准识别和定位。

Description

一种应用于灌装领域兼容不同桶型视觉定位方法

技术领域

本发明涉及视觉寻址定位技术领域，特别是涉及一种应用于灌装领域兼容不同桶型视觉定位方法。

背景技术

在灌装领域，非自然光下视觉寻址定位技术得到广泛应用，此技术需在非自然光的特定条件下使用，设备成本高昂，应用受限。因此，自然光下视觉寻址定位技术成为研究方向。但是，部分生产企业使用二次用桶（旧桶），桶质量参差不齐，另外，由于IBC桶、镀锌桶的桶盖和桶顶面颜色一致，都给自然光下视觉定位桶的桶口、桶盖带来了新的挑战。

自2016年Joseph提出You Only Look Once(YOLOv1)以来，更轻更快的单阶段目标检测方法开启了目标检测的新纪元。经过不断更新迭代，现已推出了YOLOv5，按照模型大小递增可分为s、m、l、x，各模型仅在网络的深度和宽度上有所不同。由于自然光下的图像受光线强弱的影响较大，使用YOLOv5s图像识别方法无法对桶口和桶盖进行精准定位。特别当灌装容器桶口和桶盖的颜色和桶面颜色近似或者一样的情况下，YOLOv5s图像识别算法对桶口和桶盖的边界分割精准度不高。使用更深的YOLOv5m、YOLOv5l等又会受到硬件的制约，均难以满足对实时性和目标框回归准确率要求都很高的场景。

为了更好地提取检测目标的特征，许多优秀的卷积神经网络被应用于Backbone中，如VGG 、ResNet等，但这些网络训练和预测的代价太大，用于YOLO网络的特征提取会使其失去实时性，无法满足工业应用的要求。

发明内容

本发明的目的是提出一种应用于灌装领域兼容不同桶型视觉定位方法，基于YOLOv5，使用跨层加权级联的路径聚合网络(Weighted connections across layers-PathAggregation Network，简称WCAL-PAN)和并行通道空间注意力模块（Parallel ChannelSpatial Attention Module，简称PCSAM）来提高网络的回归精度和收敛速度，并引入Ghost相关模块降低网络的复杂度，构建一种对一般数据集轻量化和具有更高识别精度的目标检测网络模型YOLO-G，解决上述自然光下桶视觉定位不精准的技术问题。

为实现上述目的，本发明提供如下技术方案：一种应用于灌装领域兼容不同桶型视觉定位方法，包括：S10，使用图像采集软件获取不同光照强度下的各种桶型图像；S20，使用标注工具对获取的桶图像数据进行标注，构建自然光下桶图像数据集；S30，对不同光照强度下的桶图像进行预处理，增强桶图像的边缘特征；S40，基于YOLOv5网络进行改进得到YOLO-G网络：S41，使用跨层加权级联的路径聚合网络WCAL-PAN来提高YOLOv5网络的回归精度；S42，使用并行通道空间注意力模块PCSAM来提高YOLOv5网络的收敛速度；基于得到的YOLO-G网络对桶图像进行特征提取，使用并行注意力机制加强图像特征，提升桶口和桶盖识别定位的鲁棒性；S50，使用构建的所述自然光下桶图像数据集训练自然光下视觉定位网络模型；S60，将灌装设备实时获取的桶图像输入所述S50中得到的视觉定位网络模型中，识别桶口和桶盖图像特征，实现桶口和桶盖的精准定位。

进一步地，所述S41中，使用所述跨层加权级联的路径聚合网络WCAL-PAN提高YOLOv5网络的回归精度的方法为：S411，在PANet结构中加入跨层级联的加权融合结构，将细节信息传递到深层网络；S412，向上加深金字塔的深度，并对应增加YOLOv5网络的Head部分的检测层，在四种尺度下进行检测；S413，使用双线性插值法替换现有YOLOv5采用的最邻近插值法进行上采样。

进一步地，所述S411具体的方法为：在同一尺寸的输入、输出节点间加入跨层加权连接；在特征融合过程中直接采用concat操作按通道进行特征融合；对于其它层的节点，相邻路径上采用concat操作进行特征融合、不相邻路径上采用加权add操作进行特征融合。

进一步地，所述S412具体的方法为：将YOLOv5网络的FPN结构由3层加深为4层，为了匹配4层FPN结构的深度，并增加Detect部分的检测层，依次对所述4层FPN结构输出的特征图进行目标检测，所述跨层加权融合仅用于两个中间层，对于顶层和底层，直接将两部分特征图按通道进行拼接。

进一步地，所述S42中，使用所述并行通道空间注意力模块PCSAM提高YOLOv5网络的收敛速度的方法为：在YOLOv5网络Backbone中的每个卷积模块插入所述并行通道空间注意力模块PCSAM，对特征图同时提取空间和通道注意力特征，赋予通道注意力模块和空间注意力模块相同的优先级，根据图像特征，通过学习的方式赋予通道注意力和空间注意力权重，然后进行加权融合，提取混合域特征信息，同时通过shortCut控制残差连接，使用简便的归一化除法保证训练的稳定性。

进一步地，所述S40中还包括以GhostConv作为基本卷积模块，通过廉价的线性变换生成更多的特征图，使用GhostBottleneck替换掉原有的残差块，对整个网络进行轻量化处理。

与现有技术相比本发明的有益效果是：本发明提供的一种应用于灌装领域兼容不同桶型视觉定位方法。

使用跨层加权级联的路径聚合网络（WCAL-PAN）提高了YOLOv5网络的回归精度，将桶图像的细节信息传递到深层网络，加深金字塔深度的同时增加Head部分的检测层，使锚框的铺设间隔更加合理，改进上采样方法，减少桶口和桶盖特征损失。

使用并行通道空间注意力模块（PCSAM），对桶口和桶盖特征图同时提取通道和空间注意力特征，使用自学习的方法来确定通道和空间注意力特征的权重，然后进行加权融合，提高网络收敛速度的同时，加强了对桶口和桶盖目标边界的回归能力，进而提高桶口和桶盖定位准确率。

使用Ghost卷积替换改进YOLOv5算法中的部分卷积Conv，对整个网络进行轻量化处理，降低模型对硬件的要求，以更少的参数量、更快的速度获得更好的桶口和桶盖图像识别定位效果。

通过非极大值抑制来获取桶口和桶盖位置信息，利用图神经网络的推理学习能力，通过金字塔结构融合多尺度特征，实现尺度自适应桶口和桶盖识别定位。在所述YOLO-G网络模型的搜索模块中融合空洞神经网络，扩大卷积感受野，增强输出特征多样性，实现桶口、桶盖和桶面颜色近似情况下目标对象的精准识别和定位，现了自然光下的多桶型，多尺度桶口、桶盖以及桶口、桶盖和桶面颜色近似的情况下的工业图像精准识别和定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种应用于灌装领域兼容不同桶型视觉定位方法流程图。

图2是本发明中一般特征融合过程示意图。

图3是本发明中跨层级联特征融合过程示意图。

图4是本发明中FPN结构示意图。

图5是本发明中PCSAM结构示意图。

图6是本发明中Ghost卷积与一般卷积对比图。

图7是本发明中Ghost系列模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图1是本发明实施例提供一种应用于灌装领域兼容不同桶型视觉定位方法流程图，包括以下步骤。

S10，使用图像采集软件获取不同光照强度下的各种桶型图像，包括二次用桶图像、IBC桶图像以及镀锌桶图像。

S20，使用标注工具对获取的各种桶型图像数据进行标注，构建自然光下桶图像数据集。

S30，对不同光照强度下的桶图像进行预处理，对光线较暗的图像进行增强操作，增强桶图像的桶口、桶盖的边缘特征。

S40，基于YOLOv5网络进行改进得到YOLO-G网络。

S41，使用跨层加权级联的路径聚合网络WCAL-PAN来提高YOLOv5网络的回归精度。

S411，在PANet结构中加入跨层级联的加权融合结构，将细节信息传递到深层网络；所述S411具体的方法为：在同一尺寸的输入、输出节点间加入跨层加权连接。通过跨层级联，可以在几乎不增加计算量的同时，融合到目标的浅层细节信息。在特征融合过程中，由于顶层和底层的节点仅有一条输入边，对细节信息的损失较小，为了减小模型的复杂度，所以直接采用concat操作按通道进行特征融合，过程如图2所示。

对于其它层的节点，相邻路径上采用concat操作进行特征融合、不相邻路径上采用加权add操作进行特征融合，add操作既可以减少计算量，也可以减少无效浅层信息的融合，见计算公式（1）：

。

式中χ_i表示每个要进行融合的特征图，u_i是该特征图的权重，可通过学习进行更新，∈是一个类似于偏置项的很小的数字 (≤10^-3)。将权重标准化到0-1之间，提高训练的速度的同时，可以防止训练不稳定的情况发生。依据公式(1)，对于某一中间层的特征融合方式如图3所示。

在图2和图3中，给定某层输入特征图

，自顶向下路径对应层的特征图

，自底向上路径对应层的特征图

，“*”表示concat操作， “+”表示add操作,weight₁、weight₂分别是两条路径上特征图融合的权重值。

从两图中可以看出，顶层和底层输出节点的特征融合采用的是concat操作；而中间层节点的特征融合的过程中首先经历了concat操作，之后与经过通道对齐后的输入层进行加权add操作。最终在输出节点得到的特征图是含有桶口、桶盖细节、边缘和高级语义信息的复合特征图。为了便于理解，以中间层P4为例，各路径上输出的计算如公式(2)、(3)所示：

，式中，

表示第k层的输入，

表示自顶向下路径中第k层中间节点的输出，

表示自底向上路径中第k层输出节点的输出。

S412，向上加深金字塔的深度，并对应增加YOLOv5网络的Head部分的检测层，在四种尺度下进行检测；基于所述S411，将现有的YOLOv5的3层FPN加深为4层，依次为P3、P4、P5、P6；同时增加Detect部分的检测层，分别命名为tiny、small、medium、large，依次对所述P3、P4、P5、P6输出的桶图像特征图进行桶口、桶盖目标检测，所述跨层加权融合仅仅用于两个中间层P4、P5，对于顶层P6和底层P3，直接将两部分桶图像特征图按通道进行拼接；基于改进点所述S411和S412，本实施例采用的FPN结构简化版如图4所示。

图4中虚线即为跨层级联，跨层加权融合仅仅用于两个中间层P4、P5，对于顶层P6和底层P3，由于信息流动造成的损失不多，考虑到模型的运行效率，本实施例直接将两部分桶图像特征图按通道进行拼接。

S413，使用双线性插值法替换现有YOLOv5采用的最邻近插值法进行上采样，二者复杂度仅仅是常数级的差距，相对于精确度的提升，带来的计算开销是可以接受的。

所述WCAL-PAN结构使得深层网络可以学习到桶图像的浅层特征，使得网络各层次语义信息融合得更加合理充分，提高模型在高交并比下的检测精度。

S42，使用并行通道空间注意力模块PCSAM来提高YOLOv5网络的收敛速度；基于得到的YOLO-G网络对桶图像进行特征提取，使用并行注意力机制加强图像特征，强化桶口和桶盖信息，弱化桶面信息，提取桶口和桶盖特征，提升桶口和桶盖识别定位的鲁棒性，具体方法为：在YOLOv5网络Backbone中的每个卷积模块插入所述并行通道空间注意力模块 PCSAM，对桶口和桶盖特征图同时提取空间和通道注意力特征，赋予通道注意力模块和空间注意力模块相同的优先级，根据桶口和桶盖图像特征，通过学习的方式赋予通道注意力和空间注意力权重，然后进行加权融合，提取混合域桶口和桶盖特征信息，结构如图5所示。对于输入特征图

，通道注意力模块和空间注意力模块输出的计算如公式(4)、 (5)所示：

，式中，

为通道注意力模块的输出，

为空间注意力模块的输出， σ表示sigmoid函数，MLP表示包含两个全连接层和ReLU激活函数的多层感知机，f^7×7表示一个卷积核大小为7×7的卷积运算。基于公式(4)、(5)，PCSAM输出公式如(6)、(7)、(8)所示：

。

式中，F_C和F_S分别为通道和空间注意力特征图，

表示元素乘法，在该过程中，M_C和M_S被沿着通道和空间维度进行广播。F_Out是对两种类型的特征图进行加权融合的结果。

同时通过shortCut控制残差连接，使用简便的归一化除法保证训练的稳定性。PCSAM不仅使模型对GPU更加友好，并且能够从对等的角度获取一维通道和二维空间的注意力信息，使预测出的目标框更加贴合桶口和桶盖的轮廓，更加有针对性的提取图片特征，提升图像识别效果。

加入所述PCSAM后，网络对目标的感兴趣程度提升了，进一步使网络具备了关注重点信息的能力。相较于CBAM机制，网络对检测目标重点特征的关注区域的覆盖度和关注程度都获得了提升，能够帮助卷积网络在桶口和桶盖与桶面颜色近似的情况提取到更加关键的桶口和桶盖特征信息，提升模型的检测效果。

S43，以GhostConv作为基本卷积模块，通过廉价的线性变换生成更多的特征图，使用GhostBottleneck替换掉原有的残差块，对整个网络进行轻量化处理。

GhostNet的基本思想是根据特征图之间的联系，把一般卷积拆分为两步，图6给出一般卷积和Ghost卷积对比示意图，Ghost模块总的来说包含一个少量卷积、一个总体恒等映射和m×(s-1)个线性运算。首先通过一般卷积生成少量特征图，然后将得到的特征图进行廉价线性操作生成Ghost特征图，最后将两组特征图按通道进行拼接，生成足够多的特征图以匹配给定的输出通道数。

对于输入

，一般卷积的输出

可以表示为

，其中

表示卷积核大小为k×k的C×n个卷积运算，b表示偏置项。一般卷积的FLOPs可表示为

。Ghost卷积采用分步策略，计算如公式(9)、(10)所示：

。

其中少量卷积结果

表示对输入X经过一般卷积

后生成的m个特征图(m《 n)；之后将m个特征图逐个进行线性操作，每个特征图均生成s个特征图，共生成

个特征图。

表示对第一步卷积中生成的第i 个特征图

进行第j个线性操作，

表示一个直接的特征恒等映射。为了保证CPU或GPU 的高效性和实用性，设每个线性操作的卷积核大小均为d×d，则一般卷积和Ghost卷积的速度比可用公式(11)进行计算：

。

由化简结果可得一般卷积的计算量大致为Ghost卷积的s倍，同理可计算出参数量也近似为s倍。Ghost卷积是一个更轻、更快的模块，使用Ghost卷积替换了YOLOv5中的部分一般卷积，替换后的Conv、Bottleneck和C3三种主要模块结构如图7所示。

图7中，K表示卷积核大小，act表示是否有非线性激活函数层， act=False表示未含有非线性激活函数，DWConv为逐通道卷积。轻量化后的模型在保证准确率降低最少的条件下，大大减少了参数量和计算量，提升了网络的运行速度，表1为输入尺寸为640×640的图像在全部使用Ghost系列模块替换后的网络与YOLOv5s模型的对比结果。

表1对比结果

由表1可以看出，替换后网络计算量减少了52.7%，参数量减少了51.9%，模型大小减少了52%，目标检测速度提升了18%，实验结果证明了使用Ghost模块对网络进行轻量化的有效性，而参数量和计算量的大幅降低能够有效减小模型训练和预测对硬件的要求，使模型更适配于实际的工业应用。所述Ghost结构使得网络的复杂度得以降低，能够弥补所述PCSAM和WCAL-PAN引入后所带来的计算量和参数量的上升。

基于YOLOv5，使用跨层加权级联的路径聚合网络WCAL-PAN和并行通道空间注意力模块PCSAM来提高网络的回归精度和收敛速度，并引入Ghost相关模块降低网络的复杂度，构建的一种对一般数据集轻量化和具有更高识别精度的目标检测网络模型YOLO-G的网络结构如表2所示。

表2 YOLO-G算法架构图

其中，“from”表示该层模块对应的输入层，-1表示上一层。“Add”表示WCAL-PAN中跨层加权相加模块，“Ghost”表示该层引入了Ghost模块。 “Simple”标记的模块表示不添加PCSAM机制。

S50，使用构建的所述自然光下桶图像数据集训练视觉定位网络模型。

S60，向所述S50中得到的自然光下视觉定位网络模型中输入从灌装设备实时获取的自然光下桶图像，根据语义特征自适应生成用于预测桶口和桶盖的候选框，通过非极大值抑制来获取桶口和桶盖位置信息，利用图神经网络的推理学习能力，通过金字塔结构融合多尺度特征，实现尺度自适应桶口和桶盖识别定位。

在所述YOLO-G网络模型的搜索模块中融合空洞神经网络，扩大卷积感受野，增强输出特征多样性，实现桶口、桶盖和桶面颜色近似情况下目标对象的精准识别和定位。

以上对本发明所提供的一种应用于灌装领域兼容不同桶型视觉定位方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种应用于灌装领域兼容不同桶型视觉定位方法，其特征在于，包括：

S10，使用图像采集软件获取不同光照强度下的各种桶型图像；

S20，使用标注工具对获取的桶图像数据进行标注，构建桶图像数据集；

S30，对不同光照强度下的桶图像进行预处理，增强桶图像的边缘特征；

S40，基于YOLOv5网络进行改进得到YOLO-G网络：S41，提高YOLOv5网络的回归精度,S411，在PANet结构中加入跨层级联的加权融合结构，将细节信息传递到深层网络；S412，向上加深金字塔的深度，并对应增加YOLOv5网络的Head部分的检测层，在四种尺度下进行检测；S413，使用双线性插值法替换现有YOLOv5采用的最邻近插值法进行上采样；S42，提高YOLOv5网络的收敛速度, 在YOLOv5网络Backbone中的每个卷积模块插入改进的轻量级卷积注意力模块CSAM，对特征图同时提取空间和通道注意力特征，赋予通道注意力模块和空间注意力模块相同的优先级，根据图像特征，通过学习的方式赋予通道注意力和空间注意力权重，然后进行加权融合，提取混合域特征信息，同时通过shortCut控制残差连接，使用简便的归一化除法保证训练的稳定性；基于得到的YOLO-G网络对桶图像进行特征提取，使用并行注意力机制加强图像特征，提升桶口和桶盖识别定位的鲁棒性；

S50，使用构建的桶图像数据集训练视觉定位网络模型；

S60，将灌装设备实时获取的桶图像输入所述S50中得到的视觉定位网络模型中，识别桶口和桶盖图像特征，实现桶口和桶盖的精准定位。

2.根据权利要求1所述的一种应用于灌装领域兼容不同桶型视觉定位方法，其特征在于，所述S411具体的方法为：在同一尺寸的输入、输出节点间加入跨层加权连接；在特征融合过程中直接采用concat操作按通道进行特征融合；对于其它层的节点，相邻路径上采用concat操作进行特征融合、不相邻路径上采用加权add操作进行特征融合。

3.根据权利要求1所述的一种应用于灌装领域兼容不同桶型视觉定位方法，其特征在于，所述S412具体的方法为：将YOLOv5网络的FPN结构由3层加深为4层，为了匹配4层FPN结构的深度，并增加Detect部分的检测层，依次对所述4层FPN结构输出的特征图进行目标检测，所述跨层加权融合仅用于两个中间层，对于顶层和底层，直接将两部分特征图按通道进行拼接。

4.根据权利要求1所述的一种应用于灌装领域兼容不同桶型视觉定位方法，其特征在于，所述S40中还包括以GhostConv作为基本卷积模块，通过廉价的线性变换生成更多的特征图，使用GhostBottleneck替换掉原有的残差块，对整个网络进行轻量化处理。