CN114445617B

CN114445617B - 一种基于深度学习的工件目标识别方法

Info

Publication number: CN114445617B
Application number: CN202111611355.0A
Authority: CN
Inventors: 朱江英; 汪仕宇; 陆东超; 王桥会
Original assignee: Ningbo Yunsheng Intelligent Software Co ltd; NINGBO YUNSHENG INTELLIGENT TECHNOLOGY CO LTD
Current assignee: Ningbo Yunsheng Intelligent Software Co ltd; NINGBO YUNSHENG INTELLIGENT TECHNOLOGY CO LTD
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2024-05-31
Anticipated expiration: 2041-12-27
Also published as: CN114445617A

Abstract

本发明公开了一种基于深度学习的工件目标识别方法，通过在mask R‑CNN基础上改进而得到Mobile‑Mask R‑CNN进行目标识别，具有三个改进点：一、mask R‑CNN的ResNet网络被MobileNetV3子网络替换，MobileNetV3子网络通过MobileNetV3的瓶颈层来构建；二、对Mask R‑CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改，使其用于生成大小为9×9的提议框；三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R‑CNN的全连接层进行分类和回归，而是先进行空洞卷积后再输入mask R‑CNN的全连接层进行分类和回归；优点是识别速度和识别精度均较高，鲁棒性较强。

Description

一种基于深度学习的工件目标识别方法

技术领域

本发明涉及一种工件目标识别方法，尤其是涉及一种基于深度学习的工件目标识别方法。

背景技术

随着“中国制造2025”的不断推进，智能化工业机器人的应用场合变得更加广泛。例如，越来越多的企业将以往工厂中通过员工手动完成的分拣任务交给机器人去完成，大大节约了企业的劳动成本，提高了产品的生产效率，从而提高公司的经济效益。而其中，视觉识别检测系统与机器人技术相结合作为机器人智能化主要手段之一，也是实现机器人智能分拣抓取的核心技术。

在实际生产工况中，物体除了被置于各种背景下，还会受到各种其他的诸如环境的影响。视觉识别检测系统采用深度学习的方式识别图像，需要具有良好的鲁棒性，以实现能够在遮挡下以及较多噪声下都能准确识别的目的。目前已出现了多种图像识别方法，比如，肖武艺采用轻量级的卷积神经网络MobileNetV2这一轻量化网络应用在移动端或嵌入式的设备中，该网络具有结构简单，需求计算力小的特点，资源消耗低，小尺寸，推理速度较快等优势，因此能很好的平衡准确度和模型大小的问题，但是对于无遮挡和小面积遮挡（30%以下）的准确率分别不足90%和85%，且不能分别识别出有多个目标工件的图像，鲁棒性不强。在对其他特定物体的目标识别上，虞晓霞等人改进LeNet-5模型对禁飞区的无人机进行目标识别，较传统的LeNet-5网络有提升。然而对于遮挡下以及小目标的情况下并未进行研究。孟欣欣采用ResNet152+FPN+Classier的Mask R-CNN对香梨进行识别，能有效对遮挡下的物体识别，然而存在的问题是识别的时间过长。

现有的对于图像中物体识别的研究基本都存在识别速度慢，对遮挡下的物体识别准确率不高以及鲁棒性不强的问题。而对于工件识别而言，识别速度和识别精度的提高和较强的鲁棒性有利于保障生产中的效率，都是在机器设备中所要满足的要求。

鉴此，设计一种识别速度和识别精度均较高，鲁棒性较强的基于深度学习的工件目标识别方法，对于提高工件检测效率和检测精度具有重要意义。

发明内容

本发明所要解决的技术问题是提供一种识别速度和识别精度均较高，鲁棒性较强的基于深度学习的工件目标识别方法。

本发明解决上述技术问题所采用的技术方案为：一种基于深度学习的工件目标识别方法，通过构建工件的图片数据集对神经网络模型进行训练，然后采用神经网络模型对待识别的工件图片进行推理，得出标出工件位置和预测类别的工件图片输出，将所述的神经网络模型称为Mobile-Mask R-CNN，所述的Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到，所述的Mobile-Mask R-CNN相对于所述的mask R-CNN，除了以下三个改进点之外，其他结构保持不变，三个改进点具体为：一、mask R-CNN的ResNet网络被MobileNetV3子网络替换，即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入，MobileNetV3子网络通过MobileNetV3的瓶颈层来构建；二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改，使其用于生成大小为9×9的提议框；三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归，而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归。

所述的MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成，每个所述的MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层，将五个所述的的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层；所述的第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现，所述的第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现，所述的第一瓶颈层的SEnet网络用于赋予了所述的MobilenetV3子网络注意力机制，所述的第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；所述的第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现，所述的第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现，所述的第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；所述的第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现，所述的第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现，所述的第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；所述的第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现，所述的第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现，所述的第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；所述的第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现，所述的第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现，所述的第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；将图片的尺寸采用长度×宽度×通道数来表示，待识别工件的原始图片的尺寸为M×M×3，其中，M=2ⁿ，n为大于等于9的整数；所述的第一瓶颈层的升维卷积层接入待识别工件的原始图片，并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充，生成尺寸为M×M×64的第一特征图输出，第一特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的深度卷积层接入第一特征图，并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理，生成尺寸为M×M×64的第二特征图输出，第二特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图，并对第二特征图进行全局平均池化，得到大小为1×1×64的第三特征图输出，第三特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的SEnet网络的第一全连接层接入第三特征图，并对第三特征图进行处理，得到大小为1×1×64的第四特征图输出，第四特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的SEnet网络的第二全连接层接入第四特征图，并对第四特征图进行处理，得到大小为1×1×64的第五特征图输出，第五特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图，并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接，生成尺寸为M×M×64的第六特征图输出；所述的第一瓶颈层的残差连接层接入第一特征图和第六特征图，并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出；所述的第一瓶颈层的最大池化层接入第七特征图，并对第七特征图进行池化，生成尺寸为M/2×M/2×64的特征图输出，将此时生成的特征图称为C1；所述的第二瓶颈层的升维卷积层接入C1，并通过256个大小为1×1卷积核对C1进行通道扩充，生成尺寸为M/2×M/2×256的第八特征图输出，第八特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的深度卷积层接入第八特征图，并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理，生成尺寸为M/2×M/2×256的第九特征图输出，第九特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图，并对第九特征图进行全局平均池化，得到大小为1×1×256的第十特征图输出，第十特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的SEnet网络的第一全连接层接入第十特征图，并对第十特征图进行处理，得到大小为1×1×256的第十一特征图输出，第十一特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图，并对第十一特征图进行处理，得到大小为1×1×256的第十二特征图输出，第十二特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图，并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/2×M/2×256的第十三特征图输出；所述的第二瓶颈层的残差连接层接入第八特征图和第十三特征图，并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出；所述的第二瓶颈层的最大池化层接入第十四特征图，并对第十四特征图进行池化，生成尺寸为M/4×M/4×256的特征图输出，将此时生成的特征图称为C2；所述的第三瓶颈层的升维卷积层接入C2，并通过512个大小为1×1卷积核对C2进行通道扩充，生成尺寸为M/4×M/4×512的第十五特征图输出，第十五特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的深度卷积层接入第十五特征图，并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理，生成尺寸为M/4×M/4×512的第十六特征图输出，第十六特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图，并对第十六特征图进行全局平均池化，得到大小为1×1×512的第十七特征图输出，第十七特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图，并对第十七特征图进行处理，得到大小为1×1×512的第十八特征图输出，第十八特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图，并对第十八特征图进行处理，得到大小为1×1×512的第十九特征图输出，第十九特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图，并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/4×M/4×512的第二十特征图输出；所述的第三瓶颈层的残差连接层接入第十五特征图和第二十特征图，并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出；所述的第三瓶颈层的最大池化层接入第二十一特征图，并对第二十一特征图进行池化，生成尺寸为M/8×M/8×512的特征图输出，将此时生成的特征图称为C3；所述的第四瓶颈层的升维卷积层接入C3，并通过1024个大小为1×1卷积核对C3进行通道扩充，生成尺寸为M/8×M/8×1024的第二十二特征图输出，第二十二特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的深度卷积层接入第二十二特征图，并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理，生成尺寸为M/8×M/8×1024的第二十三特征图输出，第二十三特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图，并对第二十三特征图进行全局平均池化，得到大小为1×1×1024的第二十四特征图输出，第二十四特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图，并对第二十四特征图进行处理，得到大小为1×1×1024的第二十五特征图输出，第二十五特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图，并对第二十五特征图进行处理，得到大小为1×1×1024的第二十六特征图输出，第二十六特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图，并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/8×M/8×1024的第二十七特征图输出；所述的第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图，并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出；所述的第四瓶颈层的最大池化层接入第二十八特征图，并对第二十八特征图进行池化，生成尺寸为M/16×M/16×1024的特征图输出，将此时生成的特征图称为C4；所述的第五瓶颈层的升维卷积层接入C4，并通过2048个大小为1×1卷积核对C4进行通道扩充，生成尺寸为M/16×M/16×2048的第二十九特征图输出，第二十九特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的深度卷积层接入第二十九特征图，并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理，生成尺寸为M/16×M/16×2048的第三十特征图输出，第三十特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图，并对第三十特征图进行全局平均池化，得到大小为1×1×2048的第三十一特征图输出，第三十一特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图，并对第三十一特征图进行处理，得到大小为1×1×2048的第三十二特征图输出，第三十二特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图，并对第三十二特征图进行处理，得到大小为1×1×2048的第三十三特征图输出，第三十三特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图，并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/16×M/16×2048的第三十四特征图输出；所述的第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图，并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出；所述的第五瓶颈层的最大池化层接入第三十五特征图，并对第三十五特征图进行池化，生成尺寸为M/32×M/32×2048的特征图输出，将此时生成的特征图称为C5；C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中，FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图，将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4，将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2， P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中，RPN网络确定工件可能存在的区域，利用ROIAlign运算生成大小为9×9提议框将该区域标注出来，将提议框区域的特征图称为第三十六特征图，再利用大小为3×3，扩张率R为2的空洞卷积核对第三十六特征图进行分处理，生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归，得到识别结果。该结构中， MobileNetV3子网络利用多个瓶颈层生成的特征图，能够在生成的特征图中将工件部分凸显，此外结合FPN网络，能将不同尺度的特征融合，从而将生成的可能存在工件区域的提议框准确度提升，利用FPN网络将计算量重心集种在工件区域，减少背景的干扰，提高提议框的精度，ROIAlign运算生成9×9的提议框，有利于提高对小工件的识别精度，同时采用空洞卷积减少了全连接层神经元个数，保证精度的同时减小计算量。

与现有技术相比，本发明的优点在于通过在mask R-CNN基础上进行改进而得到用于工件目标识别的Mobile-Mask R-CNN，Mobile-Mask R-CNN相对于mask R-CNN，除了以下三个改进点之外，其他结构保持不变，三个改进点具体为：一、mask R-CNN的ResNet网络被MobileNetV3子网络替换，即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入，MobileNetV3子网络通过MobileNetV3的瓶颈层来构建；二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改，使其用于生成大小为9×9的提议框；三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归，而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归，本发明通过MobileNetV3子网络与mask R-CNN的FPN相结合，生成的特征图中具有所要识别的工件区域较多的包括尺度等的信息，识别精度较高，且鲁棒性较强，同时其使得Mask R-CNN网络能工件有更准确的识别精度，同时MobieNetV3子网络通过MobileNetV3的瓶颈层来构建，MobileNetV3的瓶颈层分组卷积和点卷积处理方式，能大大减小计算量，提升识别的速度。

附图说明

图1为现有的Mask R-CNN的结构图；

图2为现有的MobileNetV3的瓶颈层的结构图；

图3为本发明的基于深度学习的工件目标识别方法中Mobile-Mask R-CNN的SEnet网络的结构图；

图4为本发明的基于深度学习的工件目标识别方法中Mobile-Mask R-CNN的FPN网络的结构图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

实施例：一种基于深度学习的工件目标识别方法，通过构建工件的图片数据集对神经网络模型进行训练，然后采用神经网络模型对待识别的工件图片进行推理，得出标出工件位置和预测类别的工件图片输出，将神经网络模型称为Mobile-Mask R-CNN，Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到，mask R-CNN的结构如图1所示，Mobile-Mask R-CNN相对于mask R-CNN，除了以下三个改进点之外，其他结构保持不变，三个改进点具体为：一、mask R-CNN的ResNet网络被MobileNetV3子网络替换，即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入，MobileNetV3子网络通过MobileNetV3的瓶颈层来构建，MobileNetV3的瓶颈层的结构图如图2所示；二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改，使其用于生成大小为9×9的提议框；三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归，而是先进行空洞卷积后再输入maskR-CNN的全连接层进行分类和回归。

本实施例中，MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成，每个MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层，将五个的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层；第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现，第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现，第一瓶颈层的SEnet网络用于赋予了MobilenetV3子网络注意力机制，第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现，第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现，第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现，第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现，第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现，第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现，第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现，第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现，第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；每个瓶颈层的SEnet网络的结构图如土3所示；

将图片的尺寸采用长度×宽度×通道数来表示，待识别工件的原始图片的尺寸为M×M×3，其中，M=2ⁿ，n为大于等于9的整数；第一瓶颈层的升维卷积层接入待识别工件的原始图片，并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充，生成尺寸为M×M×64的第一特征图输出，第一特征图每个通道具有一个特征图，共64个特征图；第一瓶颈层的深度卷积层接入第一特征图，并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理，生成尺寸为M×M×64的第二特征图输出，第二特征图每个通道具有一个特征图，共64个特征图；第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图，并对第二特征图进行全局平均池化，得到大小为1×1×64的第三特征图输出，第三特征图每个通道具有一个特征图，共64个特征图；第一瓶颈层的SEnet网络的第一全连接层接入第三特征图，并对第三特征图进行处理，得到大小为1×1×64的第四特征图输出，第四特征图每个通道具有一个特征图，共64个特征图；第一瓶颈层的SEnet网络的第二全连接层接入第四特征图，并对第四特征图进行处理，得到大小为1×1×64的第五特征图输出，第五特征图每个通道具有一个特征图，共64个特征图；第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图，并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接，生成尺寸为M×M×64的第六特征图输出；第一瓶颈层的残差连接层接入第一特征图和第六特征图，并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出；第一瓶颈层的最大池化层接入第七特征图，并对第七特征图进行池化，生成尺寸为M/2×M/2×64的特征图输出，将此时生成的特征图称为C1；第二瓶颈层的升维卷积层接入C1，并通过256个大小为1×1卷积核对C1进行通道扩充，生成尺寸为M/2×M/2×256的第八特征图输出，第八特征图每个通道具有一个特征图，共256个特征图；第二瓶颈层的深度卷积层接入第八特征图，并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理，生成尺寸为M/2×M/2×256的第九特征图输出，第九特征图每个通道具有一个特征图，共256个特征图；第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图，并对第九特征图进行全局平均池化，得到大小为1×1×256的第十特征图输出，第十特征图每个通道具有一个特征图，共256个特征图；第二瓶颈层的SEnet网络的第一全连接层接入第十特征图，并对第十特征图进行处理，得到大小为1×1×256的第十一特征图输出，第十一特征图每个通道具有一个特征图，共256个特征图；第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图，并对第十一特征图进行处理，得到大小为1×1×256的第十二特征图输出，第十二特征图每个通道具有一个特征图，共256个特征图；第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图，并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/2×M/2×256的第十三特征图输出；第二瓶颈层的残差连接层接入第八特征图和第十三特征图，并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出；第二瓶颈层的最大池化层接入第十四特征图，并对第十四特征图进行池化，生成尺寸为M/4×M/4×256的特征图输出，将此时生成的特征图称为C2；第三瓶颈层的升维卷积层接入C2，并通过512个大小为1×1卷积核对C2进行通道扩充，生成尺寸为M/4×M/4×512的第十五特征图输出，第十五特征图每个通道具有一个特征图，共512个特征图；第三瓶颈层的深度卷积层接入第十五特征图，并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理，生成尺寸为M/4×M/4×512的第十六特征图输出，第十六特征图每个通道具有一个特征图，共512个特征图；第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图，并对第十六特征图进行全局平均池化，得到大小为1×1×512的第十七特征图输出，第十七特征图每个通道具有一个特征图，共512个特征图；第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图，并对第十七特征图进行处理，得到大小为1×1×512的第十八特征图输出，第十八特征图每个通道具有一个特征图，共512个特征图；第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图，并对第十八特征图进行处理，得到大小为1×1×512的第十九特征图输出，第十九特征图每个通道具有一个特征图，共512个特征图；第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图，并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/4×M/4×512的第二十特征图输出；第三瓶颈层的残差连接层接入第十五特征图和第二十特征图，并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出；第三瓶颈层的最大池化层接入第二十一特征图，并对第二十一特征图进行池化，生成尺寸为M/8×M/8×512的特征图输出，将此时生成的特征图称为C3；第四瓶颈层的升维卷积层接入C3，并通过1024个大小为1×1卷积核对C3进行通道扩充，生成尺寸为M/8×M/8×1024的第二十二特征图输出，第二十二特征图每个通道具有一个特征图，共1024个特征图；第四瓶颈层的深度卷积层接入第二十二特征图，并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理，生成尺寸为M/8×M/8×1024的第二十三特征图输出，第二十三特征图每个通道具有一个特征图，共1024个特征图；第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图，并对第二十三特征图进行全局平均池化，得到大小为1×1×1024的第二十四特征图输出，第二十四特征图每个通道具有一个特征图，共1024个特征图；第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图，并对第二十四特征图进行处理，得到大小为1×1×1024的第二十五特征图输出，第二十五特征图每个通道具有一个特征图，共1024个特征图；第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图，并对第二十五特征图进行处理，得到大小为1×1×1024的第二十六特征图输出，第二十六特征图每个通道具有一个特征图，共1024个特征图；第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图，并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/8×M/8×1024的第二十七特征图输出；第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图，并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出；第四瓶颈层的最大池化层接入第二十八特征图，并对第二十八特征图进行池化，生成尺寸为M/16×M/16×1024的特征图输出，将此时生成的特征图称为C4；第五瓶颈层的升维卷积层接入C4，并通过2048个大小为1×1卷积核对C4进行通道扩充，生成尺寸为M/16×M/16×2048的第二十九特征图输出，第二十九特征图每个通道具有一个特征图，共2048个特征图；第五瓶颈层的深度卷积层接入第二十九特征图，并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理，生成尺寸为M/16×M/16×2048的第三十特征图输出，第三十特征图每个通道具有一个特征图，共2048个特征图；第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图，并对第三十特征图进行全局平均池化，得到大小为1×1×2048的第三十一特征图输出，第三十一特征图每个通道具有一个特征图，共2048个特征图；第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图，并对第三十一特征图进行处理，得到大小为1×1×2048的第三十二特征图输出，第三十二特征图每个通道具有一个特征图，共2048个特征图；第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图，并对第三十二特征图进行处理，得到大小为1×1×2048的第三十三特征图输出，第三十三特征图每个通道具有一个特征图，共2048个特征图；第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图，并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/16×M/16×2048的第三十四特征图输出；第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图，并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出；第五瓶颈层的最大池化层接入第三十五特征图，并对第三十五特征图进行池化，生成尺寸为M/32×M/32×2048的特征图输出，将此时生成的特征图称为C5； C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中，FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图，将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4，将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2， P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中，RPN网络的结构图如图4所示，RPN网络确定工件可能存在的区域，利用ROIAlign运算生成大小为9×9提议框将该区域标注出来，将提议框区域的特征图称为第三十六特征图，再利用大小为3×3，扩张率R为2的空洞卷积核对第三十六特征图进行分处理，生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归，得到识别结果。

Claims

1.一种基于深度学习的工件目标识别方法，通过构建工件的图片数据集对神经网络模型进行训练，然后采用神经网络模型对待识别的工件图片进行推理，得出标出工件位置和预测类别的工件图片输出，其特征在于将所述的神经网络模型称为Mobile-Mask R-CNN，所述的Mobile-Mask R-CNN通过在mask R-CNN基础上进行改进而得到，所述的Mobile-MaskR-CNN相对于所述的mask R-CNN，除了以下三个改进点之外，其他结构保持不变，三个改进点具体为：一、mask R-CNN的ResNet网络被MobileNetV3子网络替换，即通过MobileNetV3子网络将待识别工件的原始图片转换为相应的特征图后作为FPN网络的输入，MobileNetV3子网络通过MobileNetV3的瓶颈层来构建；二、对Mask R-CNN的RPN网络中用于生成大小为7×7的提议框的ROIAlign运算进行修改，使其用于生成大小为9×9的提议框；三、ROIAlign运算生成的提议框区域的特征图不直接输入mask R-CNN的全连接层进行分类和回归，而是先进行空洞卷积后再输入mask R-CNN的全连接层进行分类和回归；

所述的MobileNetV3子网络由五个依次连接的MobileNetV3的瓶颈层构成，每个所述的MobileNetV3的瓶颈层分别包括升维卷积层、深度卷积层、SEnet网络、残差连接层和最大池化层，将五个所述的的MobileNetV3的瓶颈层分别称为第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层；所述的第一瓶颈层的升维卷积层通过64个大小为1×1卷积核实现，所述的第一瓶颈层的深度卷积层通过64个大小为3×3的单通道的卷积核实现，所述的第一瓶颈层的SEnet网络用于赋予了所述的MobilenetV3子网络注意力机制，所述的第一瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；所述的第二瓶颈层的升维卷积层通过256个大小为1×1卷积核实现，所述的第二瓶颈层的深度卷积层通过256个大小为3×3的单通道的卷积核实现，所述的第二瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；所述的第三瓶颈层的升维卷积层通过512个大小为1×1卷积核实现，所述的第三瓶颈层的深度卷积层通过512个大小为3×3的单通道的卷积核实现，所述的第三瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；所述的第四瓶颈层的升维卷积层通过1024个大小为1×1卷积核实现，所述的第四瓶颈层的深度卷积层通过1024个大小为3×3的单通道的卷积核实现，所述的第四瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；所述的第五瓶颈层的升维卷积层通过2048个大小为1×1卷积核实现，所述的第五瓶颈层的深度卷积层通过2048个大小为3×3的单通道的卷积核实现，所述的第五瓶颈层的SEnet网络包括全局平均池化层、激活函数为ReLU的第一全连接层、激活函数为hard-Swish的第二全连接层和SENet输出层；

将图片的尺寸采用长度×宽度×通道数来表示，待识别工件的原始图片的尺寸为M×M×3，其中，M=2ⁿ，n为大于等于9的整数；所述的第一瓶颈层的升维卷积层接入待识别工件的原始图片，并通过64个大小为1×1卷积核对待识别工件的原始图片进行通道扩充，生成尺寸为M×M×64的第一特征图输出，第一特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的深度卷积层接入第一特征图，并通过64个大小为3×3的卷积核对第一特征图中64个通道的特征图一一对应进行卷积处理，生成尺寸为M×M×64的第二特征图输出，第二特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的SEnet网络的全局平均池化层接入第二特征图，并对第二特征图进行全局平均池化，得到大小为1×1×64的第三特征图输出，第三特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的SEnet网络的第一全连接层接入第三特征图，并对第三特征图进行处理，得到大小为1×1×64的第四特征图输出，第四特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的SEnet网络的第二全连接层接入第四特征图，并对第四特征图进行处理，得到大小为1×1×64的第五特征图输出，第五特征图每个通道具有一个特征图，共64个特征图；所述的第一瓶颈层的SEnet网络的SENet输出层接入第二特征图和第五特征图，并将第二特征图和第五特征图中64个通道的特征图一一对应相乘后进行拼接，生成尺寸为M×M×64的第六特征图输出；所述的第一瓶颈层的残差连接层接入第一特征图和第六特征图，并将第一特征图和第六特征图中相同位置处的像素相加后得到尺寸仍然为M×M×64的第七特征图输出；所述的第一瓶颈层的最大池化层接入第七特征图，并对第七特征图进行池化，生成尺寸为M/2×M/2×64的特征图输出，将此时生成的特征图称为C1；所述的第二瓶颈层的升维卷积层接入C1，并通过256个大小为1×1卷积核对C1进行通道扩充，生成尺寸为M/2×M/2×256的第八特征图输出，第八特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的深度卷积层接入第八特征图，并通过256个大小为3×3的卷积核对第八特征图中256个通道的特征图一一对应进行卷积处理，生成尺寸为M/2×M/2×256的第九特征图输出，第九特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的SEnet网络的全局平均池化层接入第九特征图，并对第九特征图进行全局平均池化，得到大小为1×1×256的第十特征图输出，第十特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的SEnet网络的第一全连接层接入第十特征图，并对第十特征图进行处理，得到大小为1×1×256的第十一特征图输出，第十一特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的SEnet网络的第二全连接层接入第十一特征图，并对第十一特征图进行处理，得到大小为1×1×256的第十二特征图输出，第十二特征图每个通道具有一个特征图，共256个特征图；所述的第二瓶颈层的SEnet网络的SENet输出层接入第九特征图和第十二特征图，并将第九特征图和第十二特征图中256个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/2×M/2×256的第十三特征图输出；所述的第二瓶颈层的残差连接层接入第八特征图和第十三特征图，并将第八特征图和第十三特征图中相同位置处的像素相加后得到尺寸仍然为M/2×M/2×256的第十四特征图输出；所述的第二瓶颈层的最大池化层接入第十四特征图，并对第十四特征图进行池化，生成尺寸为M/4×M/4×256的特征图输出，将此时生成的特征图称为C2；所述的第三瓶颈层的升维卷积层接入C2，并通过512个大小为1×1卷积核对C2进行通道扩充，生成尺寸为M/4×M/4×512的第十五特征图输出，第十五特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的深度卷积层接入第十五特征图，并通过512个大小为3×3的卷积核对第十五特征图中512个通道的特征图一一对应进行卷积处理，生成尺寸为M/4×M/4×512的第十六特征图输出，第十六特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的SEnet网络的全局平均池化层接入第十六特征图，并对第十六特征图进行全局平均池化，得到大小为1×1×512的第十七特征图输出，第十七特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的SEnet网络的第一全连接层接入第十七特征图，并对第十七特征图进行处理，得到大小为1×1×512的第十八特征图输出，第十八特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的SEnet网络的第二全连接层接入第十八特征图，并对第十八特征图进行处理，得到大小为1×1×512的第十九特征图输出，第十九特征图每个通道具有一个特征图，共512个特征图；所述的第三瓶颈层的SEnet网络的SENet输出层接入第十六特征图和第十九特征图，并将第十六特征图和第十九特征图中512个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/4×M/4×512的第二十特征图输出；所述的第三瓶颈层的残差连接层接入第十五特征图和第二十特征图，并将第十五特征图和第二十特征图中相同位置处的像素相加后得到尺寸仍然为M/4×M/4×512的第二十一特征图输出；

所述的第三瓶颈层的最大池化层接入第二十一特征图，并对第二十一特征图进行池化，生成尺寸为M/8×M/8×512的特征图输出，将此时生成的特征图称为C3；所述的第四瓶颈层的升维卷积层接入C3，并通过1024个大小为1×1卷积核对C3进行通道扩充，生成尺寸为M/8×M/8×1024的第二十二特征图输出，第二十二特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的深度卷积层接入第二十二特征图，并通过1024个大小为3×3的卷积核对第二十二特征图中1024个通道的特征图一一对应进行卷积处理，生成尺寸为M/8×M/8×1024的第二十三特征图输出，第二十三特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的SEnet网络的全局平均池化层接入第二十三特征图，并对第二十三特征图进行全局平均池化，得到大小为1×1×1024的第二十四特征图输出，第二十四特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的SEnet网络的第一全连接层接入第二十四特征图，并对第二十四特征图进行处理，得到大小为1×1×1024的第二十五特征图输出，第二十五特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的SEnet网络的第二全连接层接入第二十五特征图，并对第二十五特征图进行处理，得到大小为1×1×1024的第二十六特征图输出，第二十六特征图每个通道具有一个特征图，共1024个特征图；所述的第四瓶颈层的SEnet网络的SENet输出层接入第二十三特征图和第二十六特征图，并将第二十三特征图和第二十六特征图中1024个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/8×M/8×1024的第二十七特征图输出；所述的第四瓶颈层的残差连接层接入第二十二特征图和第二十七特征图，并将第二十二特征图和第二十七特征图中相同位置处的像素相加后得到尺寸仍然为M/8×M/8×1024的第二十八特征图输出；所述的第四瓶颈层的最大池化层接入第二十八特征图，并对第二十八特征图进行池化，生成尺寸为M/16×M/16×1024的特征图输出，将此时生成的特征图称为C4；所述的第五瓶颈层的升维卷积层接入C4，并通过2048个大小为1×1卷积核对C4进行通道扩充，生成尺寸为M/16×M/16×2048的第二十九特征图输出，第二十九特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的深度卷积层接入第二十九特征图，并通过2048个大小为3×3的卷积核对第二十九特征图中2048个通道的特征图一一对应进行卷积处理，生成尺寸为M/16×M/16×2048的第三十特征图输出，第三十特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的SEnet网络的全局平均池化层接入第三十特征图，并对第三十特征图进行全局平均池化，得到大小为1×1×2048的第三十一特征图输出，第三十一特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的SEnet网络的第一全连接层接入第三十一特征图，并对第三十一特征图进行处理，得到大小为1×1×2048的第三十二特征图输出，第三十二特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的SEnet网络的第二全连接层接入第三十二特征图，并对第三十二特征图进行处理，得到大小为1×1×2048的第三十三特征图输出，第三十三特征图每个通道具有一个特征图，共2048个特征图；所述的第五瓶颈层的SEnet网络的SENet输出层接入第三十特征图和第三十三特征图，并将第三十特征图和第三十三特征图中2048个通道的特征图一一对应相乘后进行拼接，生成尺寸为M/16×M/16×2048的第三十四特征图输出；所述的第五瓶颈层的残差连接层接入第二十九特征图和第三十四特征图，并将第二十九特征图和第三十四特征图中相同位置处的像素相加后得到尺寸仍然为M/16×M/16×2048的第三十五特征图输出；所述的第五瓶颈层的最大池化层接入第三十五特征图，并对第三十五特征图进行池化，生成尺寸为M/32×M/32×2048的特征图输出，将此时生成的特征图称为C5；C2、C3、C4、C5作为FPN网络的输入特征图输入FPN网络中，FPN网络输出尺寸分别为M/4×M/4×256、M/8×M/8×256、M/16×M/16×256和M/32×M/32×256的特征图，将尺寸为M/4×M/4×256的特征图称为P5、尺寸为M/8×M/8×256的特征图称为P4，将尺寸为M/16×M/16×256的特征图称为P3、尺寸为M/32×M/32×256的特征图称为P2，P5、P4、P3和P2作为RPN网络的输入特征图输入RPN网络中，RPN网络确定工件可能存在的区域，利用ROIAlign运算生成大小为9×9提议框将该区域标注出来，将提议框区域的特征图称为第三十六特征图，再利用大小为3×3，扩张率R为2的空洞卷积核对第三十六特征图进行分处理，生成尺寸为5×5×256的第三十七特征图输出至全连接层进行分类和回归，得到识别结果。