CN114445617B - 一种基于深度学习的工件目标识别方法 - Google Patents
一种基于深度学习的工件目标识别方法 Download PDFInfo
- Publication number
- CN114445617B CN114445617B CN202111611355.0A CN202111611355A CN114445617B CN 114445617 B CN114445617 B CN 114445617B CN 202111611355 A CN202111611355 A CN 202111611355A CN 114445617 B CN114445617 B CN 114445617B
- Authority
- CN
- China
- Prior art keywords
- feature map
- layer
- size
- multiplied
- characteristic diagram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 230000006872 improvement Effects 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 190
- 238000011176 pooling Methods 0.000 claims description 71
- 238000013527 convolutional neural network Methods 0.000 claims description 41
- 230000004913 activation Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 30
- 238000003062 neural network model Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 244000179970 Monarda didyma Species 0.000 description 1
- 235000010672 Monarda didyma Nutrition 0.000 description 1
- 240000004674 Papaver rhoeas Species 0.000 description 1
- 235000007846 Papaver rhoeas Nutrition 0.000 description 1
- 241000220324 Pyrus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 235000021017 pears Nutrition 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的工件目标识别方法,通过在mask R‑CNN基础上改进而得到Mobile‑Mask R‑CNN进行目标识别,具有三个改进点:一、mask R‑CNN的ResNet网络被MobileNetV3子网络替换,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建;二、对Mask R‑CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R‑CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入mask R‑CNN的全连接层进行分类和回归;优点是识别速度和识别精度均较高,鲁棒性较强。
Description
技术领域
本发明涉及一种工件目标识别方法,尤其是涉及一种基于深度学习的工件目标识别方法。
背景技术
随着“中国制造2025”的不断推进,智能化工业机器人的应用场合变得更加广泛。例如,越来越多的企业将以往工厂中通过员工手动完成的分拣任务交给机器人去完成,大大节约了企业的劳动成本,提高了产品的生产效率,从而提高公司的经济效益。而其中,视觉识别检测系统与机器人技术相结合作为机器人智能化主要手段之一,也是实现机器人智能分拣抓取的核心技术。
在实际生产工况中,物体除了被置于各种背景下,还会受到各种其他的诸如环境的影响。视觉识别检测系统采用深度学习的方式识别图像,需要具有良好的鲁棒性,以实现能够在遮挡下以及较多噪声下都能准确识别的目的。目前已出现了多种图像识别方法,比如,肖武艺采用轻量级的卷积神经网络MobileNetV2这一轻量化网络应用在移动端或嵌入式的设备中,该网络具有结构简单,需求计算力小的特点,资源消耗低,小尺寸,推理速度较快等优势,因此能很好的平衡准确度和模型大小的问题,但是对于无遮挡和小面积遮挡(30%以下)的准确率分别不足90%和85%,且不能分别识别出有多个目标工件的图像,鲁棒性不强。在对其他特定物体的目标识别上,虞晓霞等人改进LeNet-5模型对禁飞区的无人机进行目标识别,较传统的LeNet-5网络有提升。然而对于遮挡下以及小目标的情况下并未进行研究。孟欣欣采用ResNet152+FPN+Classier的Mask R-CNN对香梨进行识别,能有效对遮挡下的物体识别,然而存在的问题是识别的时间过长。
现有的对于图像中物体识别的研究基本都存在识别速度慢,对遮挡下的物体识别准确率不高以及鲁棒性不强的问题。而对于工件识别而言,识别速度和识别精度的提高和较强的鲁棒性有利于保障生产中的效率,都是在机器设备中所要满足的要求。
鉴此,设计一种识别速度和识别精度均较高,鲁棒性较强的基于深度学习的工件目标识别方法,对于提高工件检测效率和检测精度具有重要意义。
发明内容
本发明所要解决的技术问题是提供一种识别速度和识别精度均较高,鲁棒性较强的基于深度学习的工件目标识别方法。
本发明解决上述技术问题所采用的技术方案为:一种基于深度学习的工件目标识别方法,通过构建工件的图片数据集对神经网络模型进行训练,然后采用神经网络模型对待识别的工件图片进行推理,得出标出工件位置和预测类别的工件图片输出,将所述的神经网络模型称为Mobile-Mask R-CNN,所述的Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到,所述的Mobile-Mask R-CNN相对于所述的mask R-CNN,除了以下三个改进点之外,其他结构保持不变,三个改进点具体为:一、mask R-CNN的ResNet网络被MobileNetV3子网络替换,即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建;二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归。
所述的MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成,每个所述的MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层,将五个所述的的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层;所述的第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现,所述的第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现,所述的第一瓶颈层的SEnet网络用于赋予了所述的MobilenetV3子网络注意力机制,所述的第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现,所述的第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现,所述的第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现,所述的第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现,所述的第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现,所述的第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现,所述的第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现,所述的第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现,所述的第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;将图片的尺寸采用长度×宽度×通道数来表示,待识别工件的原始图片的尺寸为M×M×3,其中,M=2n,n为大于等于9的整数;所述的第一瓶颈层的升维卷积层接入待识别工件的原始图片,并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充,生成尺寸为M×M×64的第一特征图输出,第一特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的深度卷积层接入第一特征图,并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理,生成尺寸为M×M×64的第二特征图输出,第二特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图,并对第二特征图进行全局平均池化,得到大小为1×1×64的第三特征图输出,第三特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的第一全连接层接入第三特征图,并对第三特征图进行处理,得到大小为1×1×64的第四特征图输出,第四特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的第二全连接层接入第四特征图,并对第四特征图进行处理,得到大小为1×1×64的第五特征图输出,第五特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图,并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接,生成尺寸为M×M×64的第六特征图输出;所述的第一瓶颈层的残差连接层接入第一特征图和第六特征图,并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出;所述的第一瓶颈层的最大池化层接入第七特征图,并对第七特征图进行池化,生成尺寸为M/2×M/2×64的特征图输出,将此时生成的特征图称为C1;所述的第二瓶颈层的升维卷积层接入C1,并通过256个大小为1×1卷积核对C1进行通道扩充,生成尺寸为M/2×M/2×256的第八特征图输出,第八特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的深度卷积层接入第八特征图,并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理,生成尺寸为M/2×M/2×256的第九特征图输出,第九特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图,并对第九特征图进行全局平均池化,得到大小为1×1×256的第十特征图输出,第十特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的第一全连接层接入第十特征图,并对第十特征图进行处理,得到大小为1×1×256的第十一特征图输出,第十一特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图,并对第十一特征图进行处理,得到大小为1×1×256的第十二特征图输出,第十二特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图,并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/2×M/2×256的第十三特征图输出;所述的第二瓶颈层的残差连接层接入第八特征图和第十三特征图,并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出;所述的第二瓶颈层的最大池化层接入第十四特征图,并对第十四特征图进行池化,生成尺寸为M/4×M/4×256的特征图输出,将此时生成的特征图称为C2;所述的第三瓶颈层的升维卷积层接入C2,并通过512个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/4×M/4×512的第十五特征图输出,第十五特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的深度卷积层接入第十五特征图,并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理,生成尺寸为M/4×M/4×512的第十六特征图输出,第十六特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图,并对第十六特征图进行全局平均池化,得到大小为1×1×512的第十七特征图输出,第十七特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图,并对第十七特征图进行处理,得到大小为1×1×512的第十八特征图输出,第十八特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图,并对第十八特征图进行处理,得到大小为1×1×512的第十九特征图输出,第十九特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图,并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/4×M/4×512的第二十特征图输出;所述的第三瓶颈层的残差连接层接入第十五特征图和第二十特征图,并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出;所述的第三瓶颈层的最大池化层接入第二十一特征图,并对第二十一特征图进行池化,生成尺寸为M/8×M/8×512的特征图输出,将此时生成的特征图称为C3;所述的第四瓶颈层的升维卷积层接入C3,并通过1024个大小为1×1卷积核对C3进行通道扩充,生成尺寸为M/8×M/8×1024的第二十二特征图输出,第二十二特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的深度卷积层接入第二十二特征图,并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理,生成尺寸为M/8×M/8×1024的第二十三特征图输出,第二十三特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图,并对第二十三特征图进行全局平均池化,得到大小为1×1×1024的第二十四特征图输出,第二十四特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图,并对第二十四特征图进行处理,得到大小为1×1×1024的第二十五特征图输出,第二十五特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图,并对第二十五特征图进行处理,得到大小为1×1×1024的第二十六特征图输出,第二十六特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图,并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/8×M/8×1024的第二十七特征图输出;所述的第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图,并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出;所述的第四瓶颈层的最大池化层接入第二十八特征图,并对第二十八特征图进行池化,生成尺寸为M/16×M/16×1024的特征图输出,将此时生成的特征图称为C4;所述的第五瓶颈层的升维卷积层接入C4,并通过2048个大小为1×1卷积核对C4进行通道扩充,生成尺寸为M/16×M/16×2048的第二十九特征图输出,第二十九特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的深度卷积层接入第二十九特征图,并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理,生成尺寸为M/16×M/16×2048的第三十特征图输出,第三十特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图,并对第三十特征图进行全局平均池化,得到大小为1×1×2048的第三十一特征图输出,第三十一特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图,并对第三十一特征图进行处理,得到大小为1×1×2048的第三十二特征图输出,第三十二特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图,并对第三十二特征图进行处理,得到大小为1×1×2048的第三十三特征图输出,第三十三特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图,并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/16×M/16×2048的第三十四特征图输出;所述的第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图,并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出;所述的第五瓶颈层的最大池化层接入第三十五特征图,并对第三十五特征图进行池化,生成尺寸为M/32×M/32×2048的特征图输出,将此时生成的特征图称为C5;C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中,FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图,将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4,将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2, P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中,RPN网络确定工件可能存在的区域,利用ROIAlign运算生成大小为9×9提议框将该区域标注出来,将提议框区域的特征图称为第三十六特征图,再利用大小为3×3,扩张率R为2的空洞卷积核对第三十六特征图进行分处理,生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归,得到识别结果。该结构中, MobileNetV3子网络利用多个瓶颈层生成的特征图,能够在生成的特征图中将工件部分凸显,此外结合FPN网络,能将不同尺度的特征融合,从而将生成的可能存在工件区域的提议框准确度提升,利用FPN网络将计算量重心集种在工件区域,减少背景的干扰,提高提议框的精度,ROIAlign运算生成9×9的提议框,有利于提高对小工件的识别精度,同时采用空洞卷积减少了全连接层神经元个数,保证精度的同时减小计算量。
与现有技术相比,本发明的优点在于通过在mask R-CNN基础上进行改进而得到用于工件目标识别的Mobile-Mask R-CNN,Mobile-Mask R-CNN相对于mask R-CNN,除了以下三个改进点之外,其他结构保持不变,三个改进点具体为:一、mask R-CNN的ResNet网络被MobileNetV3子网络替换,即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建;二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归,本发明通过MobileNetV3子网络与mask R-CNN的FPN相结合,生成的特征图中具有所要识别的工件区域较多的包括尺度等的信息,识别精度较高,且鲁棒性较强,同时其使得Mask R-CNN网络能工件有更准确的识别精度,同时MobieNetV3子网络通过MobileNetV3的瓶颈层来构建,MobileNetV3的瓶颈层分组卷积和点卷积处理方式,能大大减小计算量,提升识别的速度。
附图说明
图1为现有的Mask R-CNN的结构图;
图2为现有的MobileNetV3的瓶颈层的结构图;
图3为本发明的基于深度学习的工件目标识别方法中Mobile-Mask R-CNN的SEnet网络的结构图;
图4为本发明的基于深度学习的工件目标识别方法中Mobile-Mask R-CNN的FPN网络的结构图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
实施例:一种基于深度学习的工件目标识别方法,通过构建工件的图片数据集对神经网络模型进行训练,然后采用神经网络模型对待识别的工件图片进行推理,得出标出工件位置和预测类别的工件图片输出,将神经网络模型称为Mobile-Mask R-CNN,Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到,mask R-CNN的结构如图1所示,Mobile-Mask R-CNN相对于mask R-CNN,除了以下三个改进点之外,其他结构保持不变,三个改进点具体为:一、mask R-CNN的ResNet网络被MobileNetV3子网络替换,即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建,MobileNetV3的瓶颈层的结构图如图2所示;二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入maskR-CNN的全连接层进行分类和回归。
本实施例中,MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成,每个MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层,将五个的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层;第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现,第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现,第一瓶颈层的SEnet网络用于赋予了MobilenetV3子网络注意力机制,第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现,第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现,第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现,第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现,第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现,第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现,第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现,第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现,第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;每个瓶颈层的SEnet网络的结构图如土3所示;
将图片的尺寸采用长度×宽度×通道数来表示,待识别工件的原始图片的尺寸为M×M×3,其中,M=2n,n为大于等于9的整数;第一瓶颈层的升维卷积层接入待识别工件的原始图片,并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充,生成尺寸为M×M×64的第一特征图输出,第一特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的深度卷积层接入第一特征图,并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理,生成尺寸为M×M×64的第二特征图输出,第二特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图,并对第二特征图进行全局平均池化,得到大小为1×1×64的第三特征图输出,第三特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的SEnet网络的第一全连接层接入第三特征图,并对第三特征图进行处理,得到大小为1×1×64的第四特征图输出,第四特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的SEnet网络的第二全连接层接入第四特征图,并对第四特征图进行处理,得到大小为1×1×64的第五特征图输出,第五特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图,并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接,生成尺寸为M×M×64的第六特征图输出;第一瓶颈层的残差连接层接入第一特征图和第六特征图,并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出;第一瓶颈层的最大池化层接入第七特征图,并对第七特征图进行池化,生成尺寸为M/2×M/2×64的特征图输出,将此时生成的特征图称为C1;第二瓶颈层的升维卷积层接入C1,并通过256个大小为1×1卷积核对C1进行通道扩充,生成尺寸为M/2×M/2×256的第八特征图输出,第八特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的深度卷积层接入第八特征图,并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理,生成尺寸为M/2×M/2×256的第九特征图输出,第九特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图,并对第九特征图进行全局平均池化,得到大小为1×1×256的第十特征图输出,第十特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的SEnet网络的第一全连接层接入第十特征图,并对第十特征图进行处理,得到大小为1×1×256的第十一特征图输出,第十一特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图,并对第十一特征图进行处理,得到大小为1×1×256的第十二特征图输出,第十二特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图,并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/2×M/2×256的第十三特征图输出;第二瓶颈层的残差连接层接入第八特征图和第十三特征图,并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出;第二瓶颈层的最大池化层接入第十四特征图,并对第十四特征图进行池化,生成尺寸为M/4×M/4×256的特征图输出,将此时生成的特征图称为C2;第三瓶颈层的升维卷积层接入C2,并通过512个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/4×M/4×512的第十五特征图输出,第十五特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的深度卷积层接入第十五特征图,并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理,生成尺寸为M/4×M/4×512的第十六特征图输出,第十六特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图,并对第十六特征图进行全局平均池化,得到大小为1×1×512的第十七特征图输出,第十七特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图,并对第十七特征图进行处理,得到大小为1×1×512的第十八特征图输出,第十八特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图,并对第十八特征图进行处理,得到大小为1×1×512的第十九特征图输出,第十九特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图,并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/4×M/4×512的第二十特征图输出;第三瓶颈层的残差连接层接入第十五特征图和第二十特征图,并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出;第三瓶颈层的最大池化层接入第二十一特征图,并对第二十一特征图进行池化,生成尺寸为M/8×M/8×512的特征图输出,将此时生成的特征图称为C3;第四瓶颈层的升维卷积层接入C3,并通过1024个大小为1×1卷积核对C3进行通道扩充,生成尺寸为M/8×M/8×1024的第二十二特征图输出,第二十二特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的深度卷积层接入第二十二特征图,并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理,生成尺寸为M/8×M/8×1024的第二十三特征图输出,第二十三特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图,并对第二十三特征图进行全局平均池化,得到大小为1×1×1024的第二十四特征图输出,第二十四特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图,并对第二十四特征图进行处理,得到大小为1×1×1024的第二十五特征图输出,第二十五特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图,并对第二十五特征图进行处理,得到大小为1×1×1024的第二十六特征图输出,第二十六特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图,并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/8×M/8×1024的第二十七特征图输出;第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图,并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出;第四瓶颈层的最大池化层接入第二十八特征图,并对第二十八特征图进行池化,生成尺寸为M/16×M/16×1024的特征图输出,将此时生成的特征图称为C4;第五瓶颈层的升维卷积层接入C4,并通过2048个大小为1×1卷积核对C4进行通道扩充,生成尺寸为M/16×M/16×2048的第二十九特征图输出,第二十九特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的深度卷积层接入第二十九特征图,并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理,生成尺寸为M/16×M/16×2048的第三十特征图输出,第三十特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图,并对第三十特征图进行全局平均池化,得到大小为1×1×2048的第三十一特征图输出,第三十一特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图,并对第三十一特征图进行处理,得到大小为1×1×2048的第三十二特征图输出,第三十二特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图,并对第三十二特征图进行处理,得到大小为1×1×2048的第三十三特征图输出,第三十三特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图,并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/16×M/16×2048的第三十四特征图输出;第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图,并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出;第五瓶颈层的最大池化层接入第三十五特征图,并对第三十五特征图进行池化,生成尺寸为M/32×M/32×2048的特征图输出,将此时生成的特征图称为C5; C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中,FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图,将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4,将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2, P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中,RPN网络的结构图如图4所示,RPN网络确定工件可能存在的区域,利用ROIAlign运算生成大小为9×9提议框将该区域标注出来,将提议框区域的特征图称为第三十六特征图,再利用大小为3×3,扩张率R为2的空洞卷积核对第三十六特征图进行分处理,生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归,得到识别结果。
Claims (1)
1.一种基于深度学习的工件目标识别方法,通过构建工件的图片数据集对神经网络模型进行训练,然后采用神经网络模型对待识别的工件图片进行推理,得出标出工件位置和预测类别的工件图片输出,其特征在于将所述的神经网络模型称为Mobile-Mask R-CNN,所述的Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到,所述的Mobile-MaskR-CNN相对于所述的mask R-CNN,除了以下三个改进点之外,其他结构保持不变,三个改进点具体为:一、mask R-CNN的ResNet网络被MobileNetV3子网络替换,即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建;二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归;
所述的MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成,每个所述的MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层,将五个所述的的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层;所述的第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现,所述的第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现,所述的第一瓶颈层的SEnet网络用于赋予了所述的MobilenetV3子网络注意力机制,所述的第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现,所述的第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现,所述的第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现,所述的第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现,所述的第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现,所述的第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现,所述的第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现,所述的第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现,所述的第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;
将图片的尺寸采用长度×宽度×通道数来表示,待识别工件的原始图片的尺寸为M×M×3,其中,M=2n,n为大于等于9的整数;所述的第一瓶颈层的升维卷积层接入待识别工件的原始图片,并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充,生成尺寸为M×M×64的第一特征图输出,第一特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的深度卷积层接入第一特征图,并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理,生成尺寸为M×M×64的第二特征图输出,第二特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图,并对第二特征图进行全局平均池化,得到大小为1×1×64的第三特征图输出,第三特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的第一全连接层接入第三特征图,并对第三特征图进行处理,得到大小为1×1×64的第四特征图输出,第四特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的第二全连接层接入第四特征图,并对第四特征图进行处理,得到大小为1×1×64的第五特征图输出,第五特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图,并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接,生成尺寸为M×M×64的第六特征图输出;所述的第一瓶颈层的残差连接层接入第一特征图和第六特征图,并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出;所述的第一瓶颈层的最大池化层接入第七特征图,并对第七特征图进行池化,生成尺寸为M/2×M/2×64的特征图输出,将此时生成的特征图称为C1;所述的第二瓶颈层的升维卷积层接入C1,并通过256个大小为1×1卷积核对C1进行通道扩充,生成尺寸为M/2×M/2×256的第八特征图输出,第八特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的深度卷积层接入第八特征图,并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理,生成尺寸为M/2×M/2×256的第九特征图输出,第九特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图,并对第九特征图进行全局平均池化,得到大小为1×1×256的第十特征图输出,第十特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的第一全连接层接入第十特征图,并对第十特征图进行处理,得到大小为1×1×256的第十一特征图输出,第十一特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图,并对第十一特征图进行处理,得到大小为1×1×256的第十二特征图输出,第十二特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图,并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/2×M/2×256的第十三特征图输出;所述的第二瓶颈层的残差连接层接入第八特征图和第十三特征图,并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出;所述的第二瓶颈层的最大池化层接入第十四特征图,并对第十四特征图进行池化,生成尺寸为M/4×M/4×256的特征图输出,将此时生成的特征图称为C2;所述的第三瓶颈层的升维卷积层接入C2,并通过512个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/4×M/4×512的第十五特征图输出,第十五特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的深度卷积层接入第十五特征图,并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理,生成尺寸为M/4×M/4×512的第十六特征图输出,第十六特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图,并对第十六特征图进行全局平均池化,得到大小为1×1×512的第十七特征图输出,第十七特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图,并对第十七特征图进行处理,得到大小为1×1×512的第十八特征图输出,第十八特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图,并对第十八特征图进行处理,得到大小为1×1×512的第十九特征图输出,第十九特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图,并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/4×M/4×512的第二十特征图输出;所述的第三瓶颈层的残差连接层接入第十五特征图和第二十特征图,并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出;
所述的第三瓶颈层的最大池化层接入第二十一特征图,并对第二十一特征图进行池化,生成尺寸为M/8×M/8×512的特征图输出,将此时生成的特征图称为C3;所述的第四瓶颈层的升维卷积层接入C3,并通过1024个大小为1×1卷积核对C3进行通道扩充,生成尺寸为M/8×M/8×1024的第二十二特征图输出,第二十二特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的深度卷积层接入第二十二特征图,并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理,生成尺寸为M/8×M/8×1024的第二十三特征图输出,第二十三特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图,并对第二十三特征图进行全局平均池化,得到大小为1×1×1024的第二十四特征图输出,第二十四特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图,并对第二十四特征图进行处理,得到大小为1×1×1024的第二十五特征图输出,第二十五特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图,并对第二十五特征图进行处理,得到大小为1×1×1024的第二十六特征图输出,第二十六特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图,并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/8×M/8×1024的第二十七特征图输出;所述的第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图,并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出;所述的第四瓶颈层的最大池化层接入第二十八特征图,并对第二十八特征图进行池化,生成尺寸为M/16×M/16×1024的特征图输出,将此时生成的特征图称为C4;所述的第五瓶颈层的升维卷积层接入C4,并通过2048个大小为1×1卷积核对C4进行通道扩充,生成尺寸为M/16×M/16×2048的第二十九特征图输出,第二十九特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的深度卷积层接入第二十九特征图,并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理,生成尺寸为M/16×M/16×2048的第三十特征图输出,第三十特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图,并对第三十特征图进行全局平均池化,得到大小为1×1×2048的第三十一特征图输出,第三十一特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图,并对第三十一特征图进行处理,得到大小为1×1×2048的第三十二特征图输出,第三十二特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图,并对第三十二特征图进行处理,得到大小为1×1×2048的第三十三特征图输出,第三十三特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图,并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/16×M/16×2048的第三十四特征图输出;所述的第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图,并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出;所述的第五瓶颈层的最大池化层接入第三十五特征图,并对第三十五特征图进行池化,生成尺寸为M/32×M/32×2048的特征图输出,将此时生成的特征图称为C5;C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中,FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图,将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4,将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2,P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中,RPN网络确定工件可能存在的区域,利用ROIAlign运算生成大小为9×9提议框将该区域标注出来,将提议框区域的特征图称为第三十六特征图,再利用大小为3×3,扩张率R为2的空洞卷积核对第三十六特征图进行分处理,生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归,得到识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111611355.0A CN114445617B (zh) | 2021-12-27 | 2021-12-27 | 一种基于深度学习的工件目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111611355.0A CN114445617B (zh) | 2021-12-27 | 2021-12-27 | 一种基于深度学习的工件目标识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114445617A CN114445617A (zh) | 2022-05-06 |
CN114445617B true CN114445617B (zh) | 2024-05-31 |
Family
ID=81364289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111611355.0A Active CN114445617B (zh) | 2021-12-27 | 2021-12-27 | 一种基于深度学习的工件目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445617B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647817A (zh) * | 2019-08-27 | 2020-01-03 | 江南大学 | 基于MobileNet V3的实时人脸检测方法 |
CN111178236A (zh) * | 2019-12-27 | 2020-05-19 | 清华大学苏州汽车研究院(吴江) | 一种基于深度学习的车位检测方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
WO2021155308A1 (en) * | 2020-01-29 | 2021-08-05 | Boston Polarimetrics, Inc. | Systems and methods for pose detection and measurement |
CN113379699A (zh) * | 2021-06-08 | 2021-09-10 | 上海电机学院 | 基于深度学习的输电线路绝缘子缺陷检测方法 |
WO2021252712A1 (en) * | 2020-06-10 | 2021-12-16 | Ancestry.Com Operations Inc. | Systems and methods for identifying and segmenting objects from images |
-
2021
- 2021-12-27 CN CN202111611355.0A patent/CN114445617B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN110647817A (zh) * | 2019-08-27 | 2020-01-03 | 江南大学 | 基于MobileNet V3的实时人脸检测方法 |
CN111178236A (zh) * | 2019-12-27 | 2020-05-19 | 清华大学苏州汽车研究院(吴江) | 一种基于深度学习的车位检测方法 |
WO2021155308A1 (en) * | 2020-01-29 | 2021-08-05 | Boston Polarimetrics, Inc. | Systems and methods for pose detection and measurement |
WO2021252712A1 (en) * | 2020-06-10 | 2021-12-16 | Ancestry.Com Operations Inc. | Systems and methods for identifying and segmenting objects from images |
CN113379699A (zh) * | 2021-06-08 | 2021-09-10 | 上海电机学院 | 基于深度学习的输电线路绝缘子缺陷检测方法 |
Non-Patent Citations (2)
Title |
---|
Application of Yolo on Mask Detection Task;Ren Liu et al.;《 2021 IEEE 13th International Conference on Computer Research and Development (ICCRD)》;20210309;第130-136页 * |
深度学习目标检测方法综述;赵永强;饶元;董世鹏;张君毅;;中国图象图形学报;20200415(第04期);第629-654页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114445617A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103530590B (zh) | Dpm二维码识别系统 | |
US20220198688A1 (en) | Laser coarse registration method, device, mobile terminal and storage medium | |
CN110569875B (zh) | 一种基于特征复用的深度神经网络目标检测方法 | |
CN106595485A (zh) | 一种基于协同克里金的机械臂绝对定位误差估计方法 | |
US11801600B1 (en) | Terminal force soft-sensing method of hydraulic manipulator | |
EP3937077B1 (en) | Lane marking detecting method, apparatus, electronic device, storage medium, and vehicle | |
CN109291657B (zh) | 基于卷积神经网络航天结构件工业物联标识激光打码系统 | |
CN114117926A (zh) | 一种基于联邦学习的机器人协同控制算法 | |
CN115139283B (zh) | 基于随机标记点阵的机器人手眼标定方法 | |
CN114445617B (zh) | 一种基于深度学习的工件目标识别方法 | |
CN115331199A (zh) | 障碍物的检测方法、装置、电子设备及存储介质 | |
CN114493549A (zh) | 一种基于大数据分析的建筑工程造价评估管理系统 | |
CN110175372B (zh) | 一种基于母面特征参数的包络面表征方法 | |
CN113001069A (zh) | 一种六关节机器人的焊缝跟踪方法 | |
CN104680021A (zh) | 求解污染物后向轨迹的方法及其系统 | |
CN107330934A (zh) | 低维度的集束调整计算方法与系统 | |
CN110705650A (zh) | 一种基于深度学习的钣金布局方法 | |
CN114051207B (zh) | 信号干扰下超宽带精确定位方法、装置及电子设备 | |
CN115861563A (zh) | 一种图拓扑刚性点云配准的三维重建方法 | |
CN113681549B (zh) | 一种基于三维数据分析的机器人抓取方法及系统 | |
CN115082897A (zh) | 一种改进smoke的单目视觉3d车辆目标实时检测方法 | |
CN113822933B (zh) | 一种基于ResNeXt的智能机器人抓取方法 | |
CN110267193B (zh) | 基于马尔科夫决策过程模型的车辆位置跟踪方法 | |
CN109870905B (zh) | 一种多机器人事件驱动通信的分布式优化方法 | |
CN113538675A (zh) | 一种为激光点云计算注意力权重的神经网络及训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |