CN114782538A - 一种应用于灌装领域兼容不同桶型视觉定位方法 - Google Patents

一种应用于灌装领域兼容不同桶型视觉定位方法 Download PDF

Info

Publication number
CN114782538A
CN114782538A CN202210677223.6A CN202210677223A CN114782538A CN 114782538 A CN114782538 A CN 114782538A CN 202210677223 A CN202210677223 A CN 202210677223A CN 114782538 A CN114782538 A CN 114782538A
Authority
CN
China
Prior art keywords
barrel
network
yolov5
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210677223.6A
Other languages
English (en)
Other versions
CN114782538B (zh
Inventor
霍箭东
王玲
邱天衡
张超
孟令书
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Lanzhou Technology Co ltd
Changchun Rongcheng Intelligent Equipment Manufacturing Co ltd
Original Assignee
Changchun Lanzhou Technology Co ltd
Changchun Rongcheng Intelligent Equipment Manufacturing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Lanzhou Technology Co ltd, Changchun Rongcheng Intelligent Equipment Manufacturing Co ltd filed Critical Changchun Lanzhou Technology Co ltd
Priority to CN202210677223.6A priority Critical patent/CN114782538B/zh
Publication of CN114782538A publication Critical patent/CN114782538A/zh
Application granted granted Critical
Publication of CN114782538B publication Critical patent/CN114782538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种应用于灌装领域兼容不同桶型视觉定位方法,基于YOLOv5,使用跨层加权级联的路径聚合网络和并行通道空间注意力模块来提高网络的回归精度和收敛速度,并引入Ghost相关模块降低网络的复杂度,构建一种具有更高识别精度的目标检测网络模型YOLO‑G,通过非极大值抑制来获取桶口和桶盖位置信息,利用图神经网络的推理学习能力,通过金字塔结构融合多尺度特征,实现尺度自适应桶口和桶盖识别定位。在YOLO‑G网络模型的搜索模块中融合空洞神经网络,扩大卷积感受野,增强输出特征多样性,实现自然光下的多桶型,多尺度桶口、桶盖以及桶口、桶盖和桶面颜色近似的情况下的精准识别和定位。

Description

一种应用于灌装领域兼容不同桶型视觉定位方法
技术领域
本发明涉及视觉寻址定位技术领域,特别是涉及一种应用于灌装领域兼容不同桶型视觉定位方法。
背景技术
在灌装领域,非自然光下视觉寻址定位技术得到广泛应用,此技术需在非自然光的特定条件下使用,设备成本高昂,应用受限。因此,自然光下视觉寻址定位技术成为研究方向。但是,部分生产企业使用二次用桶(旧桶),桶质量参差不齐,另外,由于IBC桶、镀锌桶的桶盖和桶顶面颜色一致,都给自然光下视觉定位桶的桶口、桶盖带来了新的挑战。
自2016年Joseph提出You Only Look Once(YOLOv1)以来,更轻更快的单阶段目标检测方法开启了目标检测的新纪元。经过不断更新迭代,现已推出了YOLOv5,按照模型大小递增可分为s、m、l、x,各模型仅在网络的深度和宽度上有所不同。由于自然光下的图像受光线强弱的影响较大,使用YOLOv5s图像识别方法无法对桶口和桶盖进行精准定位。特别当灌装容器桶口和桶盖的颜色和桶面颜色近似或者一样的情况下,YOLOv5s图像识别算法对桶口和桶盖的边界分割精准度不高。使用更深的YOLOv5m、YOLOv5l等又会受到硬件的制约,均难以满足对实时性和目标框回归准确率要求都很高的场景。
为了更好地提取检测目标的特征,许多优秀的卷积神经网络被应用于Backbone中,如VGG 、ResNet等,但这些网络训练和预测的代价太大,用于YOLO网络的特征提取会使其失去实时性,无法满足工业应用的要求。
发明内容
本发明的目的是提出一种应用于灌装领域兼容不同桶型视觉定位方法,基于YOLOv5,使用跨层加权级联的路径聚合网络(Weighted connections across layers-PathAggregation Network,简称WCAL-PAN)和并行通道空间注意力模块(Parallel ChannelSpatial Attention Module,简称PCSAM)来提高网络的回归精度和收敛速度,并引入Ghost相关模块降低网络的复杂度,构建一种对一般数据集轻量化和具有更高识别精度的目标检测网络模型YOLO-G,解决上述自然光下桶视觉定位不精准的技术问题。
为实现上述目的,本发明提供如下技术方案:一种应用于灌装领域兼容不同桶型视觉定位方法,包括:S10,使用图像采集软件获取不同光照强度下的各种桶型图像;S20,使用标注工具对获取的桶图像数据进行标注,构建自然光下桶图像数据集;S30,对不同光照强度下的桶图像进行预处理,增强桶图像的边缘特征;S40,基于YOLOv5网络进行改进得到YOLO-G网络:S41,使用跨层加权级联的路径聚合网络WCAL-PAN来提高YOLOv5网络的回归精度;S42,使用并行通道空间注意力模块PCSAM来提高YOLOv5网络的收敛速度;基于得到的YOLO-G网络对桶图像进行特征提取,使用并行注意力机制加强图像特征,提升桶口和桶盖识别定位的鲁棒性;S50,使用构建的所述自然光下桶图像数据集训练自然光下视觉定位网络模型;S60,将灌装设备实时获取的桶图像输入所述S50中得到的视觉定位网络模型中,识别桶口和桶盖图像特征,实现桶口和桶盖的精准定位。
进一步地,所述S41中,使用所述跨层加权级联的路径聚合网络WCAL-PAN提高YOLOv5网络的回归精度的方法为:S411,在PANet结构中加入跨层级联的加权融合结构,将细节信息传递到深层网络;S412,向上加深金字塔的深度,并对应增加YOLOv5网络的Head部分的检测层,在四种尺度下进行检测;S413,使用双线性插值法替换现有YOLOv5采用的最邻近插值法进行上采样。
进一步地,所述S411具体的方法为:在同一尺寸的输入、输出节点间加入跨层加权连接;在特征融合过程中直接采用concat操作按通道进行特征融合;对于其它层的节点,相邻路径上采用concat操作进行特征融合、不相邻路径上采用加权add操作进行特征融合。
进一步地,所述S412具体的方法为:将YOLOv5网络的FPN结构由3层加深为4层,为了匹配4层FPN结构的深度,并增加Detect部分的检测层,依次对所述4层FPN结构输出的特征图进行目标检测,所述跨层加权融合仅用于两个中间层,对于顶层和底层,直接将两部分特征图按通道进行拼接。
进一步地,所述S42中,使用所述并行通道空间注意力模块PCSAM提高YOLOv5网络的收敛速度的方法为:在YOLOv5网络Backbone中的每个卷积模块插入所述并行通道空间注意力模块PCSAM,对特征图同时提取空间和通道注意力特征,赋予通道注意力模块和空间注意力模块相同的优先级,根据图像特征,通过学习的方式赋予通道注意力和空间注意力权重,然后进行加权融合,提取混合域特征信息,同时通过shortCut控制残差连接,使用简便的归一化除法保证训练的稳定性。
进一步地,所述S40中还包括以GhostConv作为基本卷积模块,通过廉价的线性变换生成更多的特征图,使用GhostBottleneck替换掉原有的残差块,对整个网络进行轻量化处理。
与现有技术相比本发明的有益效果是:本发明提供的一种应用于灌装领域兼容不同桶型视觉定位方法。
使用跨层加权级联的路径聚合网络(WCAL-PAN)提高了YOLOv5网络的回归精度,将桶图像的细节信息传递到深层网络,加深金字塔深度的同时增加Head部分的检测层,使锚框的铺设间隔更加合理,改进上采样方法,减少桶口和桶盖特征损失。
使用并行通道空间注意力模块(PCSAM),对桶口和桶盖特征图同时提取通道和空间注意力特征,使用自学习的方法来确定通道和空间注意力特征的权重,然后进行加权融合,提高网络收敛速度的同时,加强了对桶口和桶盖目标边界的回归能力,进而提高桶口和桶盖定位准确率。
使用Ghost卷积替换改进YOLOv5算法中的部分卷积Conv,对整个网络进行轻量化处理,降低模型对硬件的要求,以更少的参数量、更快的速度获得更好的桶口和桶盖图像识别定位效果。
通过非极大值抑制来获取桶口和桶盖位置信息,利用图神经网络的推理学习能力,通过金字塔结构融合多尺度特征,实现尺度自适应桶口和桶盖识别定位。在所述YOLO-G网络模型的搜索模块中融合空洞神经网络,扩大卷积感受野,增强输出特征多样性,实现桶口、桶盖和桶面颜色近似情况下目标对象的精准识别和定位,现了自然光下的多桶型,多尺度桶口、桶盖以及桶口、桶盖和桶面颜色近似的情况下的工业图像精准识别和定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种应用于灌装领域兼容不同桶型视觉定位方法流程图。
图2是本发明中一般特征融合过程示意图。
图3是本发明中跨层级联特征融合过程示意图。
图4是本发明中FPN结构示意图。
图5是本发明中PCSAM结构示意图。
图6是本发明中Ghost卷积与一般卷积对比图。
图7是本发明中Ghost系列模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1是本发明实施例提供一种应用于灌装领域兼容不同桶型视觉定位方法流程图,包括以下步骤。
S10,使用图像采集软件获取不同光照强度下的各种桶型图像,包括二次用桶图像、IBC桶图像以及镀锌桶图像。
S20,使用标注工具对获取的各种桶型图像数据进行标注,构建自然光下桶图像数据集。
S30,对不同光照强度下的桶图像进行预处理,对光线较暗的图像进行增强操作,增强桶图像的桶口、桶盖的边缘特征。
S40,基于YOLOv5网络进行改进得到YOLO-G网络。
S41,使用跨层加权级联的路径聚合网络WCAL-PAN来提高YOLOv5网络的回归精度。
S411,在PANet结构中加入跨层级联的加权融合结构,将细节信息传递到深层网络;所述S411具体的方法为:在同一尺寸的输入、输出节点间加入跨层加权连接。通过跨层级联,可以在几乎不增加计算量的同时,融合到目标的浅层细节信息。在特征融合过程中,由于顶层和底层的节点仅有一条输入边,对细节信息的损失较小,为了减小模型的复杂度,所以直接采用concat操作按通道进行特征融合,过程如图2所示。
对于其它层的节点,相邻路径上采用concat操作进行特征融合、不相邻路径上采 用加权add操作进行特征融合,add操作既可以减少计算量,也可以减少无效浅层信息的融 合,见计算公式(1):
Figure 705169DEST_PATH_IMAGE001
式中χi表示每个要进行融合的特征图,ui是该特征图的权重,可通过学习进行更新,∈是一个类似于偏置项的很小的数字 (≤10-3)。将权重标准化到0-1之间,提高训练的速度的同时,可以防止训练不稳定的情况发生。依据公式(1),对于某一中间层的特征融合方式如图3所示。
在图2和图3中,给定某层输入特征图
Figure 109999DEST_PATH_IMAGE002
,自顶向下路径对应层的特征 图
Figure 166948DEST_PATH_IMAGE003
,自底向上路径对应层的特征图
Figure 356621DEST_PATH_IMAGE004
,“*”表示concat操作, “+”表示add操作,weight1、weight2分别是两条路径上特征图融合的权重值。
从两图中可以看出,顶层和底层输出节点的特征融合采用的是concat操作;而中 间层节点的特征融合的过程中首先经历了concat操作,之后与经过通道对齐后的输入层进 行加权add操作。最终在输出节点得到的特征图是含有桶口、桶盖细节、边缘和高级语义信 息的复合特征图。为了便于理解,以中间层P4为例,各路径上输出的计算如公式(2)、(3)所 示:
Figure 630345DEST_PATH_IMAGE005
,式中,
Figure 71822DEST_PATH_IMAGE006
表示第k层的输入,
Figure 373490DEST_PATH_IMAGE007
表示自顶向下路径中第k层中间节点的输出,
Figure 110895DEST_PATH_IMAGE008
表示自底 向上路径中第k层输出节点的输出。
S412,向上加深金字塔的深度,并对应增加YOLOv5网络的Head部分的检测层,在四种尺度下进行检测;基于所述S411,将现有的YOLOv5的3层FPN加深为4层,依次为P3、P4、P5、P6;同时增加Detect部分的检测层,分别命名为tiny、small、medium、large,依次对所述P3、P4、P5、P6输出的桶图像特征图进行桶口、桶盖目标检测,所述跨层加权融合仅仅用于两个中间层P4、P5,对于顶层P6和底层P3,直接将两部分桶图像特征图按通道进行拼接;基于改进点所述S411和S412,本实施例采用的FPN结构简化版如图4所示。
图4中虚线即为跨层级联,跨层加权融合仅仅用于两个中间层P4、P5,对于顶层P6和底层P3,由于信息流动造成的损失不多,考虑到模型的运行效率,本实施例直接将两部分桶图像特征图按通道进行拼接。
S413,使用双线性插值法替换现有YOLOv5采用的最邻近插值法进行上采样,二者复杂度仅仅是常数级的差距,相对于精确度的提升,带来的计算开销是可以接受的。
所述WCAL-PAN结构使得深层网络可以学习到桶图像的浅层特征,使得网络各层次语义信息融合得更加合理充分,提高模型在高交并比下的检测精度。
S42,使用并行通道空间注意力模块PCSAM来提高YOLOv5网络的收敛速度;基于得 到的YOLO-G网络对桶图像进行特征提取,使用并行注意力机制加强图像特征,强化桶口和 桶盖信息,弱化桶面信息,提取桶口和桶盖特征,提升桶口和桶盖识别定位的鲁棒性,具体 方法为:在YOLOv5网络Backbone中的每个卷积模块插入所述并行通道空间注意力模块 PCSAM,对桶口和桶盖特征图同时提取空间和通道注意力特征,赋予通道注意力模块和空间 注意力模块相同的优先级,根据桶口和桶盖图像特征,通过学习的方式赋予通道注意力和 空间注意力权重,然后进行加权融合,提取混合域桶口和桶盖特征信息,结构如图5所示。对 于输入特征图
Figure 373380DEST_PATH_IMAGE009
,通道注意力模块和空间注意力模块输出的计算如公式(4)、 (5)所示:
Figure 743182DEST_PATH_IMAGE010
,式中,
Figure 7679DEST_PATH_IMAGE011
为通道注意力模块的输出,
Figure 680100DEST_PATH_IMAGE012
为空间注意力模块的输出, σ表示sigmoid函数,MLP表示包含两个全连接层和ReLU激活函数的多层感知机,f7×7表示一 个卷积核大小为7×7的卷积运算。基于公式(4)、(5),PCSAM输出公式如(6)、(7)、(8)所示:
Figure 288936DEST_PATH_IMAGE013
Figure 862697DEST_PATH_IMAGE014
Figure 748744DEST_PATH_IMAGE015
式中,FC和FS分别为通道和空间注意力特征图,
Figure 716700DEST_PATH_IMAGE016
表示元素乘法,在该过程中,MC和MS被沿着通道和空间维度进行广播。FOut是对两种类型的特征图进行加权融合的结果。
同时通过shortCut控制残差连接,使用简便的归一化除法保证训练的稳定性。PCSAM不仅使模型对GPU更加友好,并且能够从对等的角度获取一维通道和二维空间的注意力信息,使预测出的目标框更加贴合桶口和桶盖的轮廓,更加有针对性的提取图片特征,提升图像识别效果。
加入所述PCSAM后,网络对目标的感兴趣程度提升了,进一步使网络具备了关注重点信息的能力。相较于CBAM机制,网络对检测目标重点特征的关注区域的覆盖度和关注程度都获得了提升,能够帮助卷积网络在桶口和桶盖与桶面颜色近似的情况提取到更加关键的桶口和桶盖特征信息,提升模型的检测效果。
S43,以GhostConv作为基本卷积模块,通过廉价的线性变换生成更多的特征图,使用GhostBottleneck替换掉原有的残差块,对整个网络进行轻量化处理。
GhostNet的基本思想是根据特征图之间的联系,把一般卷积拆分为两步,图6给出一般卷积和Ghost卷积对比示意图,Ghost模块总的来说包含一个少量卷积、一个总体恒等映射和m×(s-1)个线性运算。首先通过一般卷积生成少量特征图,然后将得到的特征图进行廉价线性操作生成Ghost特征图,最后将两组特征图按通道进行拼接,生成足够多的特征图以匹配给定的输出通道数。
对于输入
Figure 186734DEST_PATH_IMAGE017
,一般卷积的输出
Figure 898338DEST_PATH_IMAGE018
可以表示为
Figure 638892DEST_PATH_IMAGE019
,其中
Figure 777749DEST_PATH_IMAGE020
表示卷积核大小为k×k的C×n个卷积运算,b表示偏置项。一般卷积 的FLOPs可表示为
Figure 361177DEST_PATH_IMAGE021
。Ghost卷积采用分步策略,计算如公式(9)、(10)所 示:
Figure 987724DEST_PATH_IMAGE022
其中少量卷积结果
Figure 848364DEST_PATH_IMAGE023
表示对输入X经过一般卷积
Figure 158122DEST_PATH_IMAGE024
后生成的m个特征图(m《 n);之后将m个特征图逐个进行线性操作,每个 特征图均生成s个特征图,共生成
Figure 602748DEST_PATH_IMAGE025
个特征图。
Figure 656154DEST_PATH_IMAGE026
表示对第一步卷积中生成的第i 个特征图
Figure 371301DEST_PATH_IMAGE027
进行第j个线性操作,
Figure 851961DEST_PATH_IMAGE028
表示一个直接的特征恒等映射。为了保证CPU或GPU 的高效性和实用性,设每个线性操作的卷积核大小均为d×d,则一般卷积和Ghost卷积的速 度比可用公式(11)进行计算:
Figure 521233DEST_PATH_IMAGE029
Figure 378330DEST_PATH_IMAGE030
Figure 947983DEST_PATH_IMAGE031
Figure 973446DEST_PATH_IMAGE032
由化简结果可得一般卷积的计算量大致为Ghost卷积的s倍,同理可计算出参数量也近似为s倍。Ghost卷积是一个更轻、更快的模块,使用Ghost卷积替换了YOLOv5中的部分一般卷积,替换后的Conv、Bottleneck和C3三种主要模块结构如图7所示。
图7中,K表示卷积核大小,act表示是否有非线性激活函数层, act=False表示未含有非线性激活函数,DWConv为逐通道卷积。轻量化后的模型在保证准确率降低最少的条件下,大大减少了参数量和计算量,提升了网络的运行速度,表1为输入尺寸为640×640的图像在全部使用Ghost系列模块替换后的网络与YOLOv5s模型的对比结果。
表1对比结果
Figure 21692DEST_PATH_IMAGE033
由表1可以看出,替换后网络计算量减少了52.7%,参数量减少了51.9%,模型大小减少了52%,目标检测速度提升了18%,实验结果证明了使用Ghost模块对网络进行轻量化的有效性,而参数量和计算量的大幅降低能够有效减小模型训练和预测对硬件的要求,使模型更适配于实际的工业应用。所述Ghost结构使得网络的复杂度得以降低,能够弥补所述PCSAM和WCAL-PAN引入后所带来的计算量和参数量的上升。
基于YOLOv5,使用跨层加权级联的路径聚合网络WCAL-PAN和并行通道空间注意力模块PCSAM来提高网络的回归精度和收敛速度,并引入Ghost相关模块降低网络的复杂度,构建的一种对一般数据集轻量化和具有更高识别精度的目标检测网络模型YOLO-G的网络结构如表2所示。
表2 YOLO-G算法架构图
Figure 416901DEST_PATH_IMAGE034
其中,“from”表示该层模块对应的输入层,-1表示上一层。“Add”表示WCAL-PAN中跨层加权相加模块,“Ghost”表示该层引入了Ghost模块。 “Simple”标记的模块表示不添加PCSAM机制。
S50,使用构建的所述自然光下桶图像数据集训练视觉定位网络模型。
S60,向所述S50中得到的自然光下视觉定位网络模型中输入从灌装设备实时获取的自然光下桶图像,根据语义特征自适应生成用于预测桶口和桶盖的候选框,通过非极大值抑制来获取桶口和桶盖位置信息,利用图神经网络的推理学习能力,通过金字塔结构融合多尺度特征,实现尺度自适应桶口和桶盖识别定位。
在所述YOLO-G网络模型的搜索模块中融合空洞神经网络,扩大卷积感受野,增强输出特征多样性,实现桶口、桶盖和桶面颜色近似情况下目标对象的精准识别和定位。
以上对本发明所提供的一种应用于灌装领域兼容不同桶型视觉定位方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (6)

1.一种应用于灌装领域兼容不同桶型视觉定位方法,其特征在于,包括:
S10,使用图像采集软件获取不同光照强度下的各种桶型图像;
S20,使用标注工具对获取的桶图像数据进行标注,构建桶图像数据集;
S30,对不同光照强度下的桶图像进行预处理,增强桶图像的边缘特征;
S40,基于YOLOv5网络进行改进得到YOLO-G网络:S41,使用跨层加权级联的路径聚合网络WCAL-PAN来提高YOLOv5网络的回归精度;S42,使用并行通道空间注意力模块PCSAM来提高YOLOv5网络的收敛速度;基于得到的YOLO-G网络对桶图像进行特征提取,使用并行注意力机制加强图像特征,提升桶口和桶盖识别定位的鲁棒性;
S50,使用构建的所述自然光下桶图像数据集训练视觉定位网络模型;
S60,将灌装设备实时获取的桶图像输入所述S50中得到的视觉定位网络模型中,识别桶口和桶盖图像特征,实现桶口和桶盖的精准定位。
2.根据权利要求1所述的一种应用于灌装领域兼容不同桶型视觉定位方法,其特征在于,所述S41中,使用所述跨层加权级联的路径聚合网络WCAL-PAN提高YOLOv5网络的回归精度的方法为:
S411,在PANet结构中加入跨层级联的加权融合结构,将细节信息传递到深层网络;S412,向上加深金字塔的深度,并对应增加YOLOv5网络的Head部分的检测层,在四种尺度下进行检测;S413,使用双线性插值法替换现有YOLOv5采用的最邻近插值法进行上采样。
3.根据权利要求2所述的一种应用于灌装领域兼容不同桶型视觉定位方法,其特征在于,所述S411具体的方法为:在同一尺寸的输入、输出节点间加入跨层加权连接;在特征融合过程中直接采用concat操作按通道进行特征融合;对于其它层的节点,相邻路径上采用concat操作进行特征融合、不相邻路径上采用加权add操作进行特征融合。
4.根据权利要求2所述的一种应用于灌装领域兼容不同桶型视觉定位方法,其特征在于,所述S412具体的方法为:将YOLOv5网络的FPN结构由3层加深为4层,为了匹配4层FPN结构的深度,并增加Detect部分的检测层,依次对所述4层FPN结构输出的特征图进行目标检测,所述跨层加权融合仅用于两个中间层,对于顶层和底层,直接将两部分特征图按通道进行拼接。
5.根据权利要求1所述的一种应用于灌装领域兼容不同桶型视觉定位方法,其特征在于,所述S42中,使用所述并行通道空间注意力模块PCSAM提高YOLOv5网络的收敛速度的方法为:
在YOLOv5网络Backbone中的每个卷积模块插入所述并行通道空间注意力模块PCSAM,对特征图同时提取空间和通道注意力特征,赋予通道注意力模块和空间注意力模块相同的优先级,根据图像特征,通过学习的方式赋予通道注意力和空间注意力权重,然后进行加权融合,提取混合域特征信息,同时通过shortCut控制残差连接,使用简便的归一化除法保证训练的稳定性。
6.根据权利要求1所述的一种应用于灌装领域兼容不同桶型视觉定位方法,其特征在于,所述S40中还包括以GhostConv作为基本卷积模块,通过廉价的线性变换生成更多的特征图,使用GhostBottleneck替换掉原有的残差块,对整个网络进行轻量化处理。
CN202210677223.6A 2022-06-16 2022-06-16 一种应用于灌装领域兼容不同桶型视觉定位方法 Active CN114782538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210677223.6A CN114782538B (zh) 2022-06-16 2022-06-16 一种应用于灌装领域兼容不同桶型视觉定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210677223.6A CN114782538B (zh) 2022-06-16 2022-06-16 一种应用于灌装领域兼容不同桶型视觉定位方法

Publications (2)

Publication Number Publication Date
CN114782538A true CN114782538A (zh) 2022-07-22
CN114782538B CN114782538B (zh) 2022-09-16

Family

ID=82420655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210677223.6A Active CN114782538B (zh) 2022-06-16 2022-06-16 一种应用于灌装领域兼容不同桶型视觉定位方法

Country Status (1)

Country Link
CN (1) CN114782538B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116259050A (zh) * 2023-05-11 2023-06-13 长春融成智能设备制造股份有限公司 灌装桶标签文字定位识别方法、装置、设备及检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800770A (zh) * 2018-12-28 2019-05-24 广州海昇计算机科技有限公司 一种实时目标检测的方法、系统及装置
CN109919925A (zh) * 2019-03-04 2019-06-21 联觉(深圳)科技有限公司 印刷电路板智能检测方法、系统、电子装置及存储介质
CN110020615A (zh) * 2019-03-20 2019-07-16 阿里巴巴集团控股有限公司 对图片进行文字提取及内容识别的方法和系统
CN110163127A (zh) * 2019-05-07 2019-08-23 国网江西省电力有限公司检修分公司 一种由粗到细的视频目标行为识别方法
US20200175053A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN113674247A (zh) * 2021-08-23 2021-11-19 河北工业大学 一种基于卷积神经网络的x射线焊缝缺陷检测方法
US20210385426A1 (en) * 2018-10-16 2021-12-09 Advertima Ag A calibration method for a recording device and a method for an automatic setup of a multi-camera system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210385426A1 (en) * 2018-10-16 2021-12-09 Advertima Ag A calibration method for a recording device and a method for an automatic setup of a multi-camera system
US20200175053A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
CN109800770A (zh) * 2018-12-28 2019-05-24 广州海昇计算机科技有限公司 一种实时目标检测的方法、系统及装置
CN109919925A (zh) * 2019-03-04 2019-06-21 联觉(深圳)科技有限公司 印刷电路板智能检测方法、系统、电子装置及存储介质
CN110020615A (zh) * 2019-03-20 2019-07-16 阿里巴巴集团控股有限公司 对图片进行文字提取及内容识别的方法和系统
CN110163127A (zh) * 2019-05-07 2019-08-23 国网江西省电力有限公司检修分公司 一种由粗到细的视频目标行为识别方法
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN113674247A (zh) * 2021-08-23 2021-11-19 河北工业大学 一种基于卷积神经网络的x射线焊缝缺陷检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116259050A (zh) * 2023-05-11 2023-06-13 长春融成智能设备制造股份有限公司 灌装桶标签文字定位识别方法、装置、设备及检测方法
CN116259050B (zh) * 2023-05-11 2023-07-25 长春融成智能设备制造股份有限公司 灌装桶标签文字定位识别方法、装置、设备及检测方法

Also Published As

Publication number Publication date
CN114782538B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
Liu et al. AFNet: Adaptive fusion network for remote sensing image semantic segmentation
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN108375379A (zh) 基于变异的双重dqn的快速路径规划方法及移动机器人
CN115485741A (zh) 用于图像分割的神经网络模型
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
Sun et al. Underwater image enhancement with reinforcement learning
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN116524419B (zh) 基于时空解耦与自注意力差分lstm的视频预测方法、系统
CN114782538B (zh) 一种应用于灌装领域兼容不同桶型视觉定位方法
CN114973071B (zh) 基于长短期时序特征的无监督视频目标分割方法及系统
CN115272670A (zh) 一种基于掩膜注意交互的sar图像舰船实例分割方法
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
Singh et al. Iml-gcn: Improved multi-label graph convolutional network for efficient yet precise image classification
Ruan et al. Dual‐Path Residual “Shrinkage” Network for Side‐Scan Sonar Image Classification
CN117392387A (zh) 一种基于小波变换与上下文联系的无监督域适应分割方法
Song et al. STC-Flow: Spatio-temporal context-aware optical flow estimation
CN116863437A (zh) 车道线检测模型训练方法、装置、设备、介质及车辆
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
Li et al. Semantic prior-driven fused contextual transformation network for image inpainting
CN113807417B (zh) 基于深度学习视野自选择网络的密集匹配方法及系统
Guo et al. An unsupervised optical flow estimation for LiDAR image sequences
CN118172390B (zh) 一种基于深度学习的目标跟踪方法
CN114373118B (zh) 基于改进yolov4的水下目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant