CN114445617A - 一种基于深度学习的工件目标识别方法 - Google Patents

一种基于深度学习的工件目标识别方法 Download PDF

Info

Publication number
CN114445617A
CN114445617A CN202111611355.0A CN202111611355A CN114445617A CN 114445617 A CN114445617 A CN 114445617A CN 202111611355 A CN202111611355 A CN 202111611355A CN 114445617 A CN114445617 A CN 114445617A
Authority
CN
China
Prior art keywords
layer
feature map
feature
size
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111611355.0A
Other languages
English (en)
Other versions
CN114445617B (zh
Inventor
朱江英
汪仕宇
陆东超
王桥会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Yunsheng Intelligent Software Co ltd
NINGBO YUNSHENG INTELLIGENT TECHNOLOGY CO LTD
Original Assignee
Ningbo Yunsheng Intelligent Software Co ltd
NINGBO YUNSHENG INTELLIGENT TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Yunsheng Intelligent Software Co ltd, NINGBO YUNSHENG INTELLIGENT TECHNOLOGY CO LTD filed Critical Ningbo Yunsheng Intelligent Software Co ltd
Priority to CN202111611355.0A priority Critical patent/CN114445617B/zh
Priority claimed from CN202111611355.0A external-priority patent/CN114445617B/zh
Publication of CN114445617A publication Critical patent/CN114445617A/zh
Application granted granted Critical
Publication of CN114445617B publication Critical patent/CN114445617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的工件目标识别方法,通过在mask R‑CNN基础上改进而得到Mobile‑Mask R‑CNN进行目标识别,具有三个改进点:一、mask R‑CNN的ResNet网络被MobileNetV3子网络替换,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建;二、对Mask R‑CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R‑CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入mask R‑CNN的全连接层进行分类和回归;优点是识别速度和识别精度均较高,鲁棒性较强。

Description

一种基于深度学习的工件目标识别方法
技术领域
本发明涉及一种工件目标识别方法,尤其是涉及一种基于深度学习的工件目标识别方法。
背景技术
随着“中国制造2025”的不断推进,智能化工业机器人的应用场合变得更加广泛。例如,越来越多的企业将以往工厂中通过员工手动完成的分拣任务交给机器人去完成,大大节约了企业的劳动成本,提高了产品的生产效率,从而提高公司的经济效益。而其中,视觉识别检测系统与机器人技术相结合作为机器人智能化主要手段之一,也是实现机器人智能分拣抓取的核心技术。
在实际生产工况中,物体除了被置于各种背景下,还会受到各种其他的诸如环境的影响。视觉识别检测系统采用深度学习的方式识别图像,需要具有良好的鲁棒性,以实现能够在遮挡下以及较多噪声下都能准确识别的目的。目前已出现了多种图像识别方法,比如,肖武艺采用轻量级的卷积神经网络MobileNetV2这一轻量化网络应用在移动端或嵌入式的设备中,该网络具有结构简单,需求计算力小的特点,资源消耗低,小尺寸,推理速度较快等优势,因此能很好的平衡准确度和模型大小的问题,但是对于无遮挡和小面积遮挡(30%以下)的准确率分别不足90%和85%,且不能分别识别出有多个目标工件的图像,鲁棒性不强。在对其他特定物体的目标识别上,虞晓霞等人改进LeNet-5模型对禁飞区的无人机进行目标识别,较传统的LeNet-5网络有提升。然而对于遮挡下以及小目标的情况下并未进行研究。孟欣欣采用ResNet152+FPN+Classier的Mask R-CNN对香梨进行识别,能有效对遮挡下的物体识别,然而存在的问题是识别的时间过长。
现有的对于图像中物体识别的研究基本都存在识别速度慢,对遮挡下的物体识别准确率不高以及鲁棒性不强的问题。而对于工件识别而言,识别速度和识别精度的提高和较强的鲁棒性有利于保障生产中的效率,都是在机器设备中所要满足的要求。
鉴此,设计一种识别速度和识别精度均较高,鲁棒性较强的基于深度学习的工件目标识别方法,对于提高工件检测效率和检测精度具有重要意义。
发明内容
本发明所要解决的技术问题是提供一种识别速度和识别精度均较高,鲁棒性较强的基于深度学习的工件目标识别方法。
本发明解决上述技术问题所采用的技术方案为:一种基于深度学习的工件目标识别方法,通过构建工件的图片数据集对神经网络模型进行训练,然后采用神经网络模型对待识别的工件图片进行推理,得出标出工件位置和预测类别的工件图片输出,将所述的神经网络模型称为Mobile-Mask R-CNN,所述的Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到,所述的Mobile-Mask R-CNN相对于所述的mask R-CNN,除了以下三个改进点之外,其他结构保持不变,三个改进点具体为:一、mask R-CNN的ResNet网络被MobileNetV3子网络替换,即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建;二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归。
所述的MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成,每个所述的MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层,将五个所述的的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层;所述的第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现,所述的第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现,所述的第一瓶颈层的SEnet网络用于赋予了所述的MobilenetV3子网络注意力机制,所述的第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现,所述的第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现,所述的第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现,所述的第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现,所述的第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现,所述的第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现,所述的第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现,所述的第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现,所述的第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;将图片的尺寸采用长度×宽度×通道数来表示,待识别工件的原始图片的尺寸为M×M×3,其中,M=2n,n为大于等于9的整数;所述的第一瓶颈层的升维卷积层接入待识别工件的原始图片,并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充,生成尺寸为M×M×64的第一特征图输出,第一特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的深度卷积层接入第一特征图,并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理,生成尺寸为M×M×64的第二特征图输出,第二特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图,并对第二特征图进行全局平均池化,得到大小为1×1×64的第三特征图输出,第三特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的第一全连接层接入第三特征图,并对第三特征图进行处理,得到大小为1×1×64的第四特征图输出,第四特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的第二全连接层接入第四特征图,并对第四特征图进行处理,得到大小为1×1×64的第五特征图输出,第五特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图,并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接,生成尺寸为M×M×64的第六特征图输出;所述的第一瓶颈层的残差连接层接入第一特征图和第六特征图,并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出;所述的第一瓶颈层的最大池化层接入第七特征图,并对第七特征图进行池化,生成尺寸为M/2×M/2×64的特征图输出,将此时生成的特征图称为C1;所述的第二瓶颈层的升维卷积层接入C1,并通过256个大小为1×1卷积核对C1进行通道扩充,生成尺寸为M/2×M/2×256的第八特征图输出,第八特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的深度卷积层接入第八特征图,并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理,生成尺寸为M/2×M/2×256的第九特征图输出,第九特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图,并对第九特征图进行全局平均池化,得到大小为1×1×256的第十特征图输出,第十特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的第一全连接层接入第十特征图,并对第十特征图进行处理,得到大小为1×1×256的第十一特征图输出,第十一特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图,并对第十一特征图进行处理,得到大小为1×1×256的第十二特征图输出,第十二特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图,并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/2×M/2×256的第十三特征图输出;所述的第二瓶颈层的残差连接层接入第八特征图和第十三特征图,并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出;所述的第二瓶颈层的最大池化层接入第十四特征图,并对第十四特征图进行池化,生成尺寸为M/4×M/4×256的特征图输出,将此时生成的特征图称为C2;所述的第三瓶颈层的升维卷积层接入C2,并通过512个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/4×M/4×512的第十五特征图输出,第十五特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的深度卷积层接入第十五特征图,并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理,生成尺寸为M/4×M/4×512的第十六特征图输出,第十六特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图,并对第十六特征图进行全局平均池化,得到大小为1×1×512的第十七特征图输出,第十七特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图,并对第十七特征图进行处理,得到大小为1×1×512的第十八特征图输出,第十八特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图,并对第十八特征图进行处理,得到大小为1×1×512的第十九特征图输出,第十九特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图,并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/4×M/4×512的第二十特征图输出;所述的第三瓶颈层的残差连接层接入第十五特征图和第二十特征图,并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出;所述的第三瓶颈层的最大池化层接入第二十一特征图,并对第二十一特征图进行池化,生成尺寸为M/8×M/8×512的特征图输出,将此时生成的特征图称为C3;所述的第四瓶颈层的升维卷积层接入C3,并通过1024个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/8×M/8×1024的第二十二特征图输出,第二十二特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的深度卷积层接入第二十二特征图,并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理,生成尺寸为M/8×M/8×1024的第二十三特征图输出,第二十三特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图,并对第二十三特征图进行全局平均池化,得到大小为1×1×1024的第二十四特征图输出,第二十四特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图,并对第二十四特征图进行处理,得到大小为1×1×1024的第二十五特征图输出,第二十五特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图,并对第二十五特征图进行处理,得到大小为1×1×1024的第二十六特征图输出,第二十六特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图,并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/8×M/8×1024的第二十七特征图输出;所述的第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图,并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出;所述的第四瓶颈层的最大池化层接入第二十八特征图,并对第二十八特征图进行池化,生成尺寸为M/16×M/16×1024的特征图输出,将此时生成的特征图称为C4;所述的第五瓶颈层的升维卷积层接入C4,并通过2048个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/16×M/16×2048的第二十九特征图输出,第二十九特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的深度卷积层接入第二十九特征图,并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理,生成尺寸为M/16×M/16×2048的第三十特征图输出,第三十特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图,并对第三十特征图进行全局平均池化,得到大小为1×1×2048的第三十一特征图输出,第三十一特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图,并对第三十一特征图进行处理,得到大小为1×1×2048的第三十二特征图输出,第三十二特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图,并对第三十二特征图进行处理,得到大小为1×1×2048的第三十三特征图输出,第三十三特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图,并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/16×M/16×2048的第三十四特征图输出;所述的第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图,并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出;所述的第五瓶颈层的最大池化层接入第三十五特征图,并对第三十五特征图进行池化,生成尺寸为M/32×M/32×2048的特征图输出,将此时生成的特征图称为C5;
C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中,FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图,将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4,将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2,P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中,RPN网络确定工件可能存在的区域,利用ROIAlign运算生成大小为9×9提议框将该区域标注出来,将提议框区域的特征图称为第三十六特征图,再利用大小为3×3,扩张率R为2的空洞卷积核对第三十六特征图进行分处理,生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归,得到识别结果。该结构中,MobileNetV3子网络利用多个瓶颈层生成的特征图,能够在生成的特征图中将工件部分凸显,此外结合FPN网络,能将不同尺度的特征融合,从而将生成的可能存在工件区域的提议框准确度提升,利用FPN网络将计算量重心集种在工件区域,减少背景的干扰,提高提议框的精度,ROIAlign运算生成9×9的提议框,有利于提高对小工件的识别精度,同时采用空洞卷积减少了全连接层神经元个数,保证精度的同时减小计算量。
与现有技术相比,本发明的优点在于通过在mask R-CNN基础上进行改进而得到用于工件目标识别的Mobile-Mask R-CNN,Mobile-Mask R-CNN相对于mask R-CNN,除了以下三个改进点之外,其他结构保持不变,三个改进点具体为:一、mask R-CNN的ResNet网络被MobileNetV3子网络替换,即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建;二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归,本发明通过MobileNetV3子网络与mask R-CNN的FPN相结合,生成的特征图中具有所要识别的工件区域较多的包括尺度等的信息,识别精度较高,且鲁棒性较强,同时其使得Mask R-CNN网络能工件有更准确的识别精度,同时MobieNetV3子网络通过MobileNetV3的瓶颈层来构建,MobileNetV3的瓶颈层分组卷积和点卷积处理方式,能大大减小计算量,提升识别的速度。
附图说明
图1为现有的Mask R-CNN的结构图;
图2为现有的MobileNetV3的瓶颈层的结构图;
图3为本发明的基于深度学习的工件目标识别方法中Mobile-Mask R-CNN的SEnet网络的结构图;
图4为本发明的基于深度学习的工件目标识别方法中Mobile-Mask R-CNN的FPN网络的结构图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
实施例:一种基于深度学习的工件目标识别方法,通过构建工件的图片数据集对神经网络模型进行训练,然后采用神经网络模型对待识别的工件图片进行推理,得出标出工件位置和预测类别的工件图片输出,将神经网络模型称为Mobile-Mask R-CNN,Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到,mask R-CNN的结构如图1所示,Mobile-Mask R-CNN相对于mask R-CNN,除了以下三个改进点之外,其他结构保持不变,三个改进点具体为:一、mask R-CNN的ResNet网络被MobileNetV3子网络替换,即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建,MobileNetV3的瓶颈层的结构图如图2所示;二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入maskR-CNN的全连接层进行分类和回归。
本实施例中,MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成,每个MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层,将五个的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层;第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现,第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现,第一瓶颈层的SEnet网络用于赋予了MobilenetV3子网络注意力机制,第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现,第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现,第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现,第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现,第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现,第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现,第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现,第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现,第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;每个瓶颈层的SEnet网络的结构图如土3所示;
将图片的尺寸采用长度×宽度×通道数来表示,待识别工件的原始图片的尺寸为M×M×3,其中,M=2n,n为大于等于9的整数;第一瓶颈层的升维卷积层接入待识别工件的原始图片,并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充,生成尺寸为M×M×64的第一特征图输出,第一特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的深度卷积层接入第一特征图,并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理,生成尺寸为M×M×64的第二特征图输出,第二特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图,并对第二特征图进行全局平均池化,得到大小为1×1×64的第三特征图输出,第三特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的SEnet网络的第一全连接层接入第三特征图,并对第三特征图进行处理,得到大小为1×1×64的第四特征图输出,第四特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的SEnet网络的第二全连接层接入第四特征图,并对第四特征图进行处理,得到大小为1×1×64的第五特征图输出,第五特征图每个通道具有一个特征图,共64个特征图;第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图,并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接,生成尺寸为M×M×64的第六特征图输出;第一瓶颈层的残差连接层接入第一特征图和第六特征图,并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出;第一瓶颈层的最大池化层接入第七特征图,并对第七特征图进行池化,生成尺寸为M/2×M/2×64的特征图输出,将此时生成的特征图称为C1;第二瓶颈层的升维卷积层接入C1,并通过256个大小为1×1卷积核对C1进行通道扩充,生成尺寸为M/2×M/2×256的第八特征图输出,第八特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的深度卷积层接入第八特征图,并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理,生成尺寸为M/2×M/2×256的第九特征图输出,第九特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图,并对第九特征图进行全局平均池化,得到大小为1×1×256的第十特征图输出,第十特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的SEnet网络的第一全连接层接入第十特征图,并对第十特征图进行处理,得到大小为1×1×256的第十一特征图输出,第十一特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图,并对第十一特征图进行处理,得到大小为1×1×256的第十二特征图输出,第十二特征图每个通道具有一个特征图,共256个特征图;第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图,并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/2×M/2×256的第十三特征图输出;第二瓶颈层的残差连接层接入第八特征图和第十三特征图,并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出;第二瓶颈层的最大池化层接入第十四特征图,并对第十四特征图进行池化,生成尺寸为M/4×M/4×256的特征图输出,将此时生成的特征图称为C2;第三瓶颈层的升维卷积层接入C2,并通过512个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/4×M/4×512的第十五特征图输出,第十五特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的深度卷积层接入第十五特征图,并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理,生成尺寸为M/4×M/4×512的第十六特征图输出,第十六特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图,并对第十六特征图进行全局平均池化,得到大小为1×1×512的第十七特征图输出,第十七特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图,并对第十七特征图进行处理,得到大小为1×1×512的第十八特征图输出,第十八特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图,并对第十八特征图进行处理,得到大小为1×1×512的第十九特征图输出,第十九特征图每个通道具有一个特征图,共512个特征图;第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图,并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/4×M/4×512的第二十特征图输出;第三瓶颈层的残差连接层接入第十五特征图和第二十特征图,并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出;第三瓶颈层的最大池化层接入第二十一特征图,并对第二十一特征图进行池化,生成尺寸为M/8×M/8×512的特征图输出,将此时生成的特征图称为C3;第四瓶颈层的升维卷积层接入C3,并通过1024个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/8×M/8×1024的第二十二特征图输出,第二十二特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的深度卷积层接入第二十二特征图,并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理,生成尺寸为M/8×M/8×1024的第二十三特征图输出,第二十三特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图,并对第二十三特征图进行全局平均池化,得到大小为1×1×1024的第二十四特征图输出,第二十四特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图,并对第二十四特征图进行处理,得到大小为1×1×1024的第二十五特征图输出,第二十五特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图,并对第二十五特征图进行处理,得到大小为1×1×1024的第二十六特征图输出,第二十六特征图每个通道具有一个特征图,共1024个特征图;第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图,并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/8×M/8×1024的第二十七特征图输出;第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图,并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出;第四瓶颈层的最大池化层接入第二十八特征图,并对第二十八特征图进行池化,生成尺寸为M/16×M/16×1024的特征图输出,将此时生成的特征图称为C4;第五瓶颈层的升维卷积层接入C4,并通过2048个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/16×M/16×2048的第二十九特征图输出,第二十九特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的深度卷积层接入第二十九特征图,并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理,生成尺寸为M/16×M/16×2048的第三十特征图输出,第三十特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图,并对第三十特征图进行全局平均池化,得到大小为1×1×2048的第三十一特征图输出,第三十一特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图,并对第三十一特征图进行处理,得到大小为1×1×2048的第三十二特征图输出,第三十二特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图,并对第三十二特征图进行处理,得到大小为1×1×2048的第三十三特征图输出,第三十三特征图每个通道具有一个特征图,共2048个特征图;第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图,并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/16×M/16×2048的第三十四特征图输出;第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图,并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出;第五瓶颈层的最大池化层接入第三十五特征图,并对第三十五特征图进行池化,生成尺寸为M/32×M/32×2048的特征图输出,将此时生成的特征图称为C5;C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中,FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图,将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4,将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2,P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中,RPN网络的结构图如图4所示,RPN网络确定工件可能存在的区域,利用ROIAlign运算生成大小为9×9提议框将该区域标注出来,将提议框区域的特征图称为第三十六特征图,再利用大小为3×3,扩张率R为2的空洞卷积核对第三十六特征图进行分处理,生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归,得到识别结果。

Claims (2)

1.一种基于深度学习的工件目标识别方法,通过构建工件的图片数据集对神经网络模型进行训练,然后采用神经网络模型对待识别的工件图片进行推理,得出标出工件位置和预测类别的工件图片输出,其特征在于将所述的神经网络模型称为Mobile-Mask R-CNN,所述的Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到,所述的Mobile-MaskR-CNN相对于所述的mask R-CNN,除了以下三个改进点之外,其他结构保持不变,三个改进点具体为:一、mask R-CNN的ResNet网络被MobileNetV3子网络替换,即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入,MobileNetV3子网络通过MobileNetV3的瓶颈层来构建;二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改,使其用于生成大小为9×9的提议框;三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归,而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归。
2.根据权利要求1所述的一种基于深度学习的工件目标识别方法,其特征在于所述的MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成,每个所述的MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层,将五个所述的的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层;所述的第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现,所述的第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现,所述的第一瓶颈层的SEnet网络用于赋予了所述的MobilenetV3子网络注意力机制,所述的第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现,所述的第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现,所述的第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现,所述的第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现,所述的第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现,所述的第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现,所述的第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;所述的第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现,所述的第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现,所述的第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层;
将图片的尺寸采用长度×宽度×通道数来表示,待识别工件的原始图片的尺寸为M×M×3,其中,M=2n,n为大于等于9的整数;所述的第一瓶颈层的升维卷积层接入待识别工件的原始图片,并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充,生成尺寸为M×M×64的第一特征图输出,第一特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的深度卷积层接入第一特征图,并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理,生成尺寸为M×M×64的第二特征图输出,第二特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图,并对第二特征图进行全局平均池化,得到大小为1×1×64的第三特征图输出,第三特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的第一全连接层接入第三特征图,并对第三特征图进行处理,得到大小为1×1×64的第四特征图输出,第四特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的第二全连接层接入第四特征图,并对第四特征图进行处理,得到大小为1×1×64的第五特征图输出,第五特征图每个通道具有一个特征图,共64个特征图;所述的第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图,并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接,生成尺寸为M×M×64的第六特征图输出;所述的第一瓶颈层的残差连接层接入第一特征图和第六特征图,并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出;所述的第一瓶颈层的最大池化层接入第七特征图,并对第七特征图进行池化,生成尺寸为M/2×M/2×64的特征图输出,将此时生成的特征图称为C1;所述的第二瓶颈层的升维卷积层接入C1,并通过256个大小为1×1卷积核对C1进行通道扩充,生成尺寸为M/2×M/2×256的第八特征图输出,第八特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的深度卷积层接入第八特征图,并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理,生成尺寸为M/2×M/2×256的第九特征图输出,第九特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图,并对第九特征图进行全局平均池化,得到大小为1×1×256的第十特征图输出,第十特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的第一全连接层接入第十特征图,并对第十特征图进行处理,得到大小为1×1×256的第十一特征图输出,第十一特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图,并对第十一特征图进行处理,得到大小为1×1×256的第十二特征图输出,第十二特征图每个通道具有一个特征图,共256个特征图;所述的第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图,并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/2×M/2×256的第十三特征图输出;所述的第二瓶颈层的残差连接层接入第八特征图和第十三特征图,并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出;所述的第二瓶颈层的最大池化层接入第十四特征图,并对第十四特征图进行池化,生成尺寸为M/4×M/4×256的特征图输出,将此时生成的特征图称为C2;所述的第三瓶颈层的升维卷积层接入C2,并通过512个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/4×M/4×512的第十五特征图输出,第十五特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的深度卷积层接入第十五特征图,并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理,生成尺寸为M/4×M/4×512的第十六特征图输出,第十六特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图,并对第十六特征图进行全局平均池化,得到大小为1×1×512的第十七特征图输出,第十七特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图,并对第十七特征图进行处理,得到大小为1×1×512的第十八特征图输出,第十八特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图,并对第十八特征图进行处理,得到大小为1×1×512的第十九特征图输出,第十九特征图每个通道具有一个特征图,共512个特征图;所述的第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图,并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/4×M/4×512的第二十特征图输出;所述的第三瓶颈层的残差连接层接入第十五特征图和第二十特征图,并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出;所述的第三瓶颈层的最大池化层接入第二十一特征图,并对第二十一特征图进行池化,生成尺寸为M/8×M/8×512的特征图输出,将此时生成的特征图称为C3;所述的第四瓶颈层的升维卷积层接入C3,并通过1024个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/8×M/8×1024的第二十二特征图输出,第二十二特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的深度卷积层接入第二十二特征图,并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理,生成尺寸为M/8×M/8×1024的第二十三特征图输出,第二十三特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图,并对第二十三特征图进行全局平均池化,得到大小为1×1×1024的第二十四特征图输出,第二十四特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图,并对第二十四特征图进行处理,得到大小为1×1×1024的第二十五特征图输出,第二十五特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图,并对第二十五特征图进行处理,得到大小为1×1×1024的第二十六特征图输出,第二十六特征图每个通道具有一个特征图,共1024个特征图;所述的第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图,并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/8×M/8×1024的第二十七特征图输出;所述的第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图,并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出;所述的第四瓶颈层的最大池化层接入第二十八特征图,并对第二十八特征图进行池化,生成尺寸为M/16×M/16×1024的特征图输出,将此时生成的特征图称为C4;所述的第五瓶颈层的升维卷积层接入C4,并通过2048个大小为1×1卷积核对C2进行通道扩充,生成尺寸为M/16×M/16×2048的第二十九特征图输出,第二十九特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的深度卷积层接入第二十九特征图,并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理,生成尺寸为M/16×M/16×2048的第三十特征图输出,第三十特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图,并对第三十特征图进行全局平均池化,得到大小为1×1×2048的第三十一特征图输出,第三十一特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图,并对第三十一特征图进行处理,得到大小为1×1×2048的第三十二特征图输出,第三十二特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图,并对第三十二特征图进行处理,得到大小为1×1×2048的第三十三特征图输出,第三十三特征图每个通道具有一个特征图,共2048个特征图;所述的第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图,并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接,生成尺寸为M/16×M/16×2048的第三十四特征图输出;所述的第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图,并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出;所述的第五瓶颈层的最大池化层接入第三十五特征图,并对第三十五特征图进行池化,生成尺寸为M/32×M/32×2048的特征图输出,将此时生成的特征图称为C5;C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中,FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图,将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4,将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2,P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中,RPN网络确定工件可能存在的区域,利用ROIAlign运算生成大小为9×9提议框将该区域标注出来,将提议框区域的特征图称为第三十六特征图,再利用大小为3×3,扩张率R为2的空洞卷积核对第三十六特征图进行分处理,生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归,得到识别结果。
CN202111611355.0A 2021-12-27 一种基于深度学习的工件目标识别方法 Active CN114445617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111611355.0A CN114445617B (zh) 2021-12-27 一种基于深度学习的工件目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111611355.0A CN114445617B (zh) 2021-12-27 一种基于深度学习的工件目标识别方法

Publications (2)

Publication Number Publication Date
CN114445617A true CN114445617A (zh) 2022-05-06
CN114445617B CN114445617B (zh) 2024-05-31

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647817A (zh) * 2019-08-27 2020-01-03 江南大学 基于MobileNet V3的实时人脸检测方法
CN111178236A (zh) * 2019-12-27 2020-05-19 清华大学苏州汽车研究院(吴江) 一种基于深度学习的车位检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
WO2021155308A1 (en) * 2020-01-29 2021-08-05 Boston Polarimetrics, Inc. Systems and methods for pose detection and measurement
CN113379699A (zh) * 2021-06-08 2021-09-10 上海电机学院 基于深度学习的输电线路绝缘子缺陷检测方法
WO2021252712A1 (en) * 2020-06-10 2021-12-16 Ancestry.Com Operations Inc. Systems and methods for identifying and segmenting objects from images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN110647817A (zh) * 2019-08-27 2020-01-03 江南大学 基于MobileNet V3的实时人脸检测方法
CN111178236A (zh) * 2019-12-27 2020-05-19 清华大学苏州汽车研究院(吴江) 一种基于深度学习的车位检测方法
WO2021155308A1 (en) * 2020-01-29 2021-08-05 Boston Polarimetrics, Inc. Systems and methods for pose detection and measurement
WO2021252712A1 (en) * 2020-06-10 2021-12-16 Ancestry.Com Operations Inc. Systems and methods for identifying and segmenting objects from images
CN113379699A (zh) * 2021-06-08 2021-09-10 上海电机学院 基于深度学习的输电线路绝缘子缺陷检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REN LIU ET AL.: "Application of Yolo on Mask Detection Task", 《 2021 IEEE 13TH INTERNATIONAL CONFERENCE ON COMPUTER RESEARCH AND DEVELOPMENT (ICCRD)》, 9 March 2021 (2021-03-09), pages 130 - 136 *
赵永强;饶元;董世鹏;张君毅;: "深度学习目标检测方法综述", 中国图象图形学报, no. 04, 15 April 2020 (2020-04-15), pages 629 - 654 *

Similar Documents

Publication Publication Date Title
Adarsh et al. YOLO v3-Tiny: Object Detection and Recognition using one stage improved model
US20220011122A1 (en) Trajectory prediction method and device
CN110569875B (zh) 一种基于特征复用的深度神经网络目标检测方法
CN113807399B (zh) 一种神经网络训练方法、检测方法以及装置
EP3937077B1 (en) Lane marking detecting method, apparatus, electronic device, storage medium, and vehicle
Zhao et al. Autonomous live working robot navigation with real‐time detection and motion planning system on distribution line
CN111311702B (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN110866900A (zh) 水体颜色识别方法及装置
CN110634127A (zh) 一种输电线路防震锤目标检测与缺陷识别方法及装置
Zhang et al. Discrete time convolution for fast event-based stereo
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN115329683A (zh) 航空行李在线装载规划方法、装置、设备及介质
Luo et al. Dense-tnt: Efficient vehicle type classification neural network using satellite imagery
Zhong et al. Transformer-based models and hardware acceleration analysis in autonomous driving: A survey
CN114445617A (zh) 一种基于深度学习的工件目标识别方法
He et al. Classification of metro facilities with deep neural networks
CN116170746B (zh) 基于深度注意力机制和几何信息的超宽带室内定位方法
CN114445617B (zh) 一种基于深度学习的工件目标识别方法
CN110705650A (zh) 一种基于深度学习的钣金布局方法
Tang et al. Adjacency-based culling for continuous collision detection
CN115718958A (zh) 一种多标签学习的机械结构智能设计系统及其方法
CN114821508A (zh) 基于隐式上下文学习的道路三维目标检测方法
CN114359907A (zh) 语义分割方法、车辆控制方法、电子设备及存储介质
Lai et al. Aircraft Target Detection Based on Attention Mechanism and Faster R-CNN
CN110689071A (zh) 一种基于结构化高阶特征的目标检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant