CN114494272A - 一种基于深度学习的金属零件快速分割方法 - Google Patents
一种基于深度学习的金属零件快速分割方法 Download PDFInfo
- Publication number
- CN114494272A CN114494272A CN202210157462.9A CN202210157462A CN114494272A CN 114494272 A CN114494272 A CN 114494272A CN 202210157462 A CN202210157462 A CN 202210157462A CN 114494272 A CN114494272 A CN 114494272A
- Authority
- CN
- China
- Prior art keywords
- network
- graph
- convolution
- layer
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的金属零件快速分割方法,包括:通过Labelme图像标注工具建立金属零件数据集;输入单张图像,使用基于FPN网络的物体检测算法预测感兴趣目标区域和候选框坐标(x,y,w,h),采用Resnet‑50及特征金字塔作为基础网络来获取整张输入图像的特征;将感兴趣目标区域建模为另两个重叠图层,分别为Top Layer和Bottom Layer,并进行卷积操作以进一步提取特征;使用RoI Align算法根据物体检测框位置,在整张图片特征图内准确抠取感兴趣目标区域的特征子图,将其作为双图卷积神经网络的输入并用于最终的物体分割;根据自定义的损失函数,更新模型参数,迭代上述步骤,计算是否达到预设精度。
Description
技术领域
本发明涉及工业机器视觉领域,尤其是涉及一种基于深度学习的金属零件快速分割方法。
背景技术
在工业生产过程中,需要大量的零件识别定位,定位精度以及实时性的好坏已经成为提高产品生产质量和效率的重要一环。近年来随着人工智能、深度学习的发展,不断涌现出大批优秀的目标检测框架,譬如YOLO、SSD、Faster-CNN等。金属零件分割属于实例分割(Instance Segementation),它是图像及视频场景理解的基础任务,该任务将物体检测和语义分割有机结合,不仅需要预测出输入图像的每一个像素点是否属于物体,还需将不同的物体所包含的像素点区分开。以Mask R-CNN为代表的实例分割方法通常遵循先检测再分割的范例,即先获取感兴趣目标检测框,然后对区域内的像素进行mask提取,并在COCO数据集取得了领先性能。我们注意到大多数后续改进算法如PANet、HTC、BlendMask、CenterMask等等均着重与设计更好的网络骨干、高低层特征的融合机制或级联结构,而忽视了对掩膜预测分支的作用。事实上,很多大面积的实例分割错误都由于同一Rol中包含的重叠物体混淆了不同物体的真实轮廓,特别是当遮挡和被遮挡目标都属于相同类别或者它们的纹理颜色相似。
实例分割属于计算机视觉基本任务之一,但是其在工业领域尤其在面对金属零件分割时应用较少,主要存在以下几个原因:(1)有的零件结构复杂,零件之间遮挡严重,会导致分割不准确;(2)金属零件颜色纹理信息单一,增大了零件的分割难度;(3)在金属零件分割任务中,缺乏专用的已标注数据集,而标注数据集的质量往往决定分割模型的质量。
发明内容
为解决上述技术问题,本发明提出一种基于深度学习的金属零件快速分割方法,具体是采用一种基于two-stage检测算法的实例分割网络,通过显示建模自然地将遮挡和被遮挡物体的边界解耦,并在物体边界和mask预测的同时考虑遮挡关系的相互影响。
本发明的目的可以通过以下技术方案来实现:一种基于深度学习的金属零件快速分割方法,包括以下步骤:
S1、通过Labelme图像标注工具建立金属零件数据集;
S2、输入单张图像,使用基于FPN网络的物体检测算法预测感兴趣目标区域和候选框坐标(x,y,w,h),采用Resnet-50及特征金字塔作为基础网络来获取整张输入图像的特征;
S3、将感兴趣目标区域建模为另两个重叠图层,分别为Top Layer和BottomLayer,并进行卷积操作以进一步提取特征;
S4、使用Rol Align算法根据物体检测框位置,在整张图片特征图内准确抠取感兴趣目标区域的特征子图,将其作为双图卷积神经网络的输入并用于最终的物体分割;
S5、根据自定义的损失函数,更新模型参数,迭代上述步骤,计算是否达到预设精度,若达到预设精度,则输出分割结果,反之,重复步骤S2至S4;
所述步骤S4中,由级联状的双图卷积神经网络组成实例分割网络:
a、第一个图层对感兴趣目标区域内遮挡物体的形状和外观进行显示建模,该层图卷积网络包含有四层,分别为卷积层、图卷积层以及末尾的两个卷积,第一个图卷积网络输入感兴趣目标区域特征,输出感兴趣目标框中遮挡物体的边界和掩膜;
b、第二个图层结合第一个图卷积网络已经提取的遮挡物体信息,具体做法是将步骤S2中得到的感兴趣目标区域特征与经过第一个图卷积网络中最后一层卷积后的特征相加,得到新的特征,并将其作为第二个图卷积网络的输入,最终输出感兴趣目标区域内被遮挡目标物体的分割结果,第二个图卷积网络与第一个图卷积网络结构相同,构成级联网络关系;
c、使用非局部算子操作进行图卷积层的实现。
进一步地,所述步骤S2中对FPN网络进行参数设置:使用尺寸为3*3的卷积核在特征图上进行滑动卷积操作,每一次操作生成一个256维的特征向量,将特征向量输入分类层和回归层进行零件目标分类任务和零件位置框回归任务。
进一步地,卷积时,每个滑动窗口中心生成五种尺寸和两种长宽比的锚点;根据待识别零件在图像中的占比特点,设置锚点尺寸为0.5、长宽比为1或2共42种尺寸的滑动窗口。
与现有技术相比,本发明具有如下优点:本发明所提出的复杂遮挡下的图像分割算法,基于已有的双阶段分割模型,将传统的单个的全卷积掩膜预测分支网络替换成由双图层级联构成的图神经网络模型,在感兴趣目标区域中,前图层Top Layer建模输出遮挡物体的位置和形状,后图层Bottom Layer在前图层基础上最终输出相应的被遮挡物体的掩膜(mask),从而让实例分割算法在遮挡情况下仍然能够保持高性能和服务器端的高速度,进而使得能够在金属零件数据集上取得更细的分割边界,提高了分割性能。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1是本发明的方法流程示意图;
图2是目前通常的FPN网络结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例对本发明做进一步的说明。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
如图1所示,一种基于深度学习的金属零件快速分割方法,包括以下步骤:
S1、通过Labelme图像标注工具建立金属零件数据集;
S2、输入单张图像,使用基于FPN网络(参见图2所示的FPN网络结构图)的物体检测算法预测感兴趣目标区域(RoI)和候选框坐标(x,y,w,h),采用Resnet-50及特征金字塔作为基础网络来获取整张输入图像的特征;
S3、将感兴趣目标区域建模为另两个重叠图层,分别为Top Layer和BottomLayer,并进行卷积操作以进一步提取特征;
S4、使用RoI Align算法根据物体检测框位置,在整张图片特征图内准确抠取感兴趣目标区域的特征子图,将其作为双图卷积神经网络的输入并用于最终的物体分割;
S5、根据自定义的损失函数,更新模型参数,迭代上述步骤,计算是否达到预设精度,若达到预设精度,则输出分割结果,反之,重复步骤S2至S4。
上述步骤S4中,是由级联状的双图卷积神经网络组成实例分割网络:
a、第一个图层也就是Top Layer对感兴趣目标区域内遮挡物体的形状和外观进行显示建模,该层图卷积网络包含有四层,分别为卷积层(卷积核大小为3*3)、图卷积层(non-local layer)以及末尾的两个卷积(卷积核大小为3*3),第一个图卷积网络输入感兴趣目标区域特征,输出感兴趣目标框中遮挡物体的边界和掩膜;
b、第二个图层也就是Bottom Layer结合第一个图卷积网络已经提取的遮挡物体信息(包括遮挡物的boundary和mask),具体做法是将步骤S2中得到的感兴趣目标区域特征与经过第一个图卷积网络中最后一层卷积后的特征相加,得到新的特征,并将其作为第二个图卷积网络的输入,最终输出感兴趣目标区域内被遮挡目标物体的分割结果,第二个图卷积网络与第一个图卷积网络结构相同,构成级联网络关系;
c、为了减少模型的参数量,本发明使用非局部算子(Non-local operator)操作进行图卷积层的实现,具体包含三个卷积核大小为1*1的卷积层以及softmax算子,其将图像空间中像素点根据对应特征向量的相似度有效关联起来,实现输入目标区域特征的重新聚合,能较好解决同一个物体的像素点在空间上被遮挡截断导致不连续的问题。
上述分割算法将遮挡物体与被遮挡目标物体关系同时考虑进来,能有效地区分遮挡物体与被遮挡目标物体的相邻物体边界,最终输出感兴趣目标区域内被遮挡目标物体的分割结果。
整个实例分割网络可以用一个多任务的损失函数端到端地表示:
上述步骤S2中对FPN网络进行如下参数设置:使用尺寸为3*3的卷积核在特征图上进行滑动卷积操作,每一次操作生成一个256维的特征向量,将特征向量输入分类层和回归层进行零件目标分类任务和零件位置框回归任务。
在卷积时,每个滑动窗口中心生成五种尺寸和两种长宽比的锚点;根据待识别零件在图像中的占比特点,设置锚点尺寸为0.5、长宽比为1或2共42种尺寸的滑动窗口。
值得注意的是,RoI Align算法使用双线性内插的方法获得坐标为浮点数像素点上的像素值,在遍历预选框和生成单元之前不做量化,最后采用双线性差值的方法获得每个单元8个位置坐标,并进行最大池化操作,RoI Align算法的反向传播公式为:
这里,xi表示池化前特征图上的像素点;yrj表示池化后的第r个候选区域的第j个点;i*(r,j)表示点yrj像素值的来源(最大池化的时候选出的最大像素值所在点的坐标);xi*(r,j)是一个浮点数的坐标位置(前向传播时计算出来的采样点),在池化前的特征图中,每一个与xi*(r,j)横纵坐标均小于1的点都应该接受与此对应的点yrj回传的梯度;d(i,i*(r,j))表示这两点之间的距离,Δh、Δw分别表示xi与xi(r,j)横纵坐标的差值。
本发明基于已有的双阶段分割模型,将传统的单个的全卷积掩膜预测分支网络替换成由双图层级联构成的图神经网络模型,在感兴趣目标区域(RoI)中,前图层建模输出遮挡物体的位置和形状,后图层在前图层基础上最终输出相应的被遮挡物体的掩膜(mask),从而让实例分割算法在遮挡情况下仍然能够保持高性能和服务器端的高速度。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (3)
1.一种基于深度学习的金属零件快速分割方法,其特征在于,包括:
S1、通过Labelme图像标注工具建立金属零件数据集;
S2、输入单张图像,使用基于FPN网络的物体检测算法预测感兴趣目标区域和候选框坐标(x,y,w,h),采用Resnet-50及特征金字塔作为基础网络来获取整张输入图像的特征;
S3、将感兴趣目标区域建模为另两个重叠图层,分别为Top Layer和Bottom Layer,并进行卷积操作以进一步提取特征;
S4、使用RoI Align算法根据物体检测框位置,在整张图片特征图内准确抠取感兴趣目标区域的特征子图,将其作为双图卷积神经网络的输入并用于最终的物体分割;
S5、根据自定义的损失函数,更新模型参数,迭代上述步骤,计算是否达到预设精度,若达到预设精度,则输出分割结果,反之,重复步骤S2至S4;
所述步骤S4中,由级联状的双图卷积神经网络组成实例分割网络:
a、第一个图层对感兴趣目标区域内遮挡物体的形状和外观进行显示建模,该层图卷积网络包含有四层,分别为卷积层、图卷积层以及末尾的两个卷积,第一个图卷积网络输入感兴趣目标区域特征,输出感兴趣目标框中遮挡物体的边界和掩膜;
b、第二个图层结合第一个图卷积网络已经提取的遮挡物体信息,具体做法是将步骤S2中得到的感兴趣目标区域特征与经过第一个图卷积网络中最后一层卷积后的特征相加,得到新的特征,并将其作为第二个图卷积网络的输入,最终输出感兴趣目标区域内被遮挡目标物体的分割结果,第二个图卷积网络与第一个图卷积网络结构相同,构成级联网络关系;
c、使用非局部算子操作进行图卷积层的实现。
2.根据权利要求1所述的一种基于深度学习的金属零件快速分割方法,其特征在于,步骤S2中对FPN网络进行参数设置:使用尺寸为3*3的卷积核在特征图上进行滑动卷积操作,每一次操作生成一个256维的特征向量,将特征向量输入分类层和回归层进行零件目标分类任务和零件位置框回归任务。
3.根据权利要求2所述的一种基于深度学习的金属零件快速分割方法,其特征在于,卷积时,每个滑动窗口中心生成五种尺寸和两种长宽比的锚点;根据待识别零件在图像中的占比特点,设置锚点尺寸为0.5、长宽比为1或2共42种尺寸的滑动窗口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210157462.9A CN114494272A (zh) | 2022-02-21 | 2022-02-21 | 一种基于深度学习的金属零件快速分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210157462.9A CN114494272A (zh) | 2022-02-21 | 2022-02-21 | 一种基于深度学习的金属零件快速分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114494272A true CN114494272A (zh) | 2022-05-13 |
Family
ID=81483297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210157462.9A Pending CN114494272A (zh) | 2022-02-21 | 2022-02-21 | 一种基于深度学习的金属零件快速分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494272A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239657A (zh) * | 2022-07-18 | 2022-10-25 | 无锡雪浪数制科技有限公司 | 一种基于深度学习目标分割的工业零件增量识别方法 |
-
2022
- 2022-02-21 CN CN202210157462.9A patent/CN114494272A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239657A (zh) * | 2022-07-18 | 2022-10-25 | 无锡雪浪数制科技有限公司 | 一种基于深度学习目标分割的工业零件增量识别方法 |
CN115239657B (zh) * | 2022-07-18 | 2023-11-21 | 无锡雪浪数制科技有限公司 | 一种基于深度学习目标分割的工业零件增量识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377445B (zh) | 模型训练方法、替换图像背景的方法、装置和电子系统 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
Saxena et al. | Make3d: Learning 3d scene structure from a single still image | |
Zhu et al. | Targeting accurate object extraction from an image: A comprehensive study of natural image matting | |
Li et al. | An overlapping-free leaf segmentation method for plant point clouds | |
US20150332117A1 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
JP2018045693A (ja) | 動画像背景除去方法及び動画像背景除去システム | |
CN110751195B (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
Zhang et al. | Critical regularizations for neural surface reconstruction in the wild | |
Holzmann et al. | Semantically aware urban 3d reconstruction with plane-based regularization | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
Zhang et al. | Automatic object removal with obstructed façades completion using semantic segmentation and generative adversarial inpainting | |
Qin et al. | Automatic skin and hair masking using fully convolutional networks | |
US20220405899A1 (en) | Generating image masks from digital images via color density estimation and deep learning models | |
CN114494272A (zh) | 一种基于深度学习的金属零件快速分割方法 | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN114359228A (zh) | 物体表面缺陷检测方法、装置、计算机设备和存储介质 | |
CN112614149A (zh) | 基于实例分割的语义合成方法 | |
CN112084855A (zh) | 一种基于改进ransac方法对视频流的外点剔除方法 | |
JP2005352718A (ja) | 代表画像選択装置,代表画像選択方法および代表画像選択プログラム | |
Sbai et al. | Unsupervised image decomposition in vector layers | |
CN110490877B (zh) | 基于Graph Cuts的双目立体图像对目标分割方法 | |
CN113096105A (zh) | 一种基于有向稀疏采样的手机屏幕缺陷检测方法 | |
Ghafarianzadeh et al. | Efficient, dense, object-based segmentation from RGBD video | |
GB2585722A (en) | Image manipulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |