CN111126407A - 一种基于单独编码网络的机械零件语义分割方法 - Google Patents
一种基于单独编码网络的机械零件语义分割方法 Download PDFInfo
- Publication number
- CN111126407A CN111126407A CN201911338055.2A CN201911338055A CN111126407A CN 111126407 A CN111126407 A CN 111126407A CN 201911338055 A CN201911338055 A CN 201911338055A CN 111126407 A CN111126407 A CN 111126407A
- Authority
- CN
- China
- Prior art keywords
- convolutional layer
- linear unit
- layer
- shaping linear
- pooling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000011218 segmentation Effects 0.000 title claims abstract description 52
- 238000011176 pooling Methods 0.000 claims abstract description 57
- 238000007493 shaping process Methods 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 4
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 25
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241000532927 Lagerstroemia Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011089 mechanical engineering Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于单独编码网络的机械零件语义分割方法,该分割方法利用单独编码模型对单个或多个待分割机械零件进行单独编码实现语义分割。本发明利用单独编码模型对单个或多个待分割机械零件进行单独编码,从而实现了机械零件的语义分割,提高了语义分割精度和并集度量上的平均交并比。四个空间金字塔池化(ASPP)分支中每一层最后一个卷积层的输出数量为2,以获得各个机械零件的二元预测。
Description
技术领域
本发明涉及一种基于单独编码网络的机械零件语义分割方法。
背景技术
在自然场景中目标的语义分割是计算机视觉研究领域中的基本问题。此外,语义分割在自动机器人导航、自动驾驶车辆、安全监控以及工业自动化的高科技领域中也起着重要作用。
在实际工业检测领域中,机械零件的语义分割是一项具有巨大挑战性的工作。首先,由相机捕获的机械零件通常存在着较大动态的外观和尺度变化,这些是由制造现场的照明和观察距离的变化而引起的。机械零件的外观和尺度变化将不可避免地在精度方面抑制图像分割性能。其次,典型的生产线通常需要在不同的过程中处理多种类型的零件。因此,对于能够捕获不同类型机械零件的单独特征信息系统是非常有吸引力的。通过这种方式,特定部分的语义分割模块可以容易地安装在当前处理阶段并且在完成时将其卸载。
2012年,Krizhevsky等人开发了网络架构,计算机视觉领域的一个重大突破是使用卷积网络,几乎将对象识别的错误率减少一半。从那时起,基于卷积神经网络的语义分割算法一直是传统手工制作方法的流行替代方法。Shelhamer等提出了一个完全卷积网络,它产生端到端任意大小图像的语义分割。
最近,具有多孔卷积和全连接的条件随机场(CRF)模型架构,以在多个尺度上捕获图像上下文信息。刘静提出一种协同去卷积神经网络(C-DCNN)来共同模拟图像的语义和几何属性,以便相互促进。迈克尔等人认为语义显著性分割可以通过将其重新构造为简单而直观的基于像素对的连通性预测任务来有效地解决。刘紫薇等通过将高阶关系和标签上下文混合结合到马尔科夫随机场(MRF)中来解决语义分割,通过提出卷积神经网络(CNN)来解决MRF,即深度解析网络(DPN),其在单个网络中实现确定性的端到端计算。所提出的视觉控制系统包括视觉感知模块,物体姿态估计模块,数据论证模块和机器人操纵器控制器。
在过去的几年中,对机械工程领域中的位移、振动以及制造物体的精确定位进行了重大改进。基于期望最大化的统计学习算法,以自适应地模拟工业机器人的目标运动模式,补偿缓慢的视觉反馈。Beberniss等人提出了三维数字图像相关性,用于各种随机振动的高速测量。冯等人开发了一种基于视觉的结构位移响应监测的成本效益应用,通过使用一系列加速度计来验证其固有频率和模式形状的准确性,进行了比较测试。Librantz等人采用多层感知器(MLP)技术对抛光塑料模具表面的几种损伤进行分类。Jia等人利用深度神经网络(DNN)来研究海量数据中复杂的非线性关系,用于故障特征挖掘和旋转机械的智能诊断。最近,Sobie等人比较了基于统计特征的方法和卷积神经网络的轴承故障分类。赵等人提出了一种实时方法来对视频监控的移动物体进行分割和分类。Kwak等人提出了用于自动检查OLED面板中椒盐缺陷的统计控制图技术。桑托斯等人利用基于立体视觉的系统同时校准投影矩阵和全运动估计,以测量大型结构的位移。王等人将包括几何背景和物理背景在内的高级信息纳入飞机表面和地下裂缝的自动检测。最近,为了减少手动注释的耗时和费力,TakuyaKiyokawa提出了一种完全自动化的注释方法,无需任何人工干预。
然而,通常基于处理结构化制造条件的特定程序的现有方法可能不可避免地导致精确衰减以及不受约束的周围环境的严重动态变化的影响,导致语义分割精度低。
发明内容
本发明在此的目的在于提供一种语义分割精度高、并集度量上的平均交并比高的基于单独编码网络的机械零件语义分割方法。
为实现本发明的目的,在此提供的基于单独编码网络的机械零件语义分割方法利用单独编码模型对单个或多个待分割机械零件进行单独编码实现语义分割。
进一步的,所述单独编码模型包括:
卷积层conv(l,o,h,p),用于对待分割机械零件进行特征的提取,l表示卷积层的内核,o表示卷积层的输出数量,h表示卷积层扩张因子,p表示卷积层的填充;
池化层(l,s,p),用于对所述卷积层提取的特征进行分区采样,形成包含待分割机械零件特征的小矩阵,l和s表示池化层的步幅,p表示池化层的填充;
整形线性单元,用于判定函数和整个神经网络的非线性特性;
损失目标函数,用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异。
进一步的,所述单独编码模型包括具有不同深度和尺度的第一单独编码网络模型、第二单独编码网络模型、第三单独编码网络模型、第四单独编码网络模型、第五单独编码网络模型和第六单独编码网络模型;所述第一单独编码网络模型、所述第二单独编码网络模型、所述第三单独编码网络模型、所述第四单独编码网络模型、所述第五单独编码网络模型和所述第六单独编码网络模型包括:
卷积层conv(l,o,h,p),用于对待分割机械零件进行特征的提取,l表示卷积层的内核,o表示卷积层的输出数量,h表示卷积层扩张因子,p表示卷积层的填充;
池化层(l,s,p),用于对所述卷积层提取的特征进行分区采样,形成包含待分割机械零件特征的小矩阵,l和s表示池化层的步幅,p表示池化层的填充;
整形线性单元,用于判定函数和整个神经网络的非线性特性;
损失目标函数,用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异。
在一些实施方式中,所述第一单独编码网络模型结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
在一些实施方式中,所述第二单独编码网络模型结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
在一些实施方式中,所述第三单独编码网络模型结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
在一些实施方式中,所述第四单独编码网络模型由两个并行分支组成,第一分支的结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第二分支的结构为:卷积层(3,64,32,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
在一些实施方式中,所述第五单独编码网络模型由三个并行分支组成,第一分支的结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第二分支的结构为:卷积层(3,64,32,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第三分支的结构为:卷积层(3,64,64,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
在一些实施方式中,所述第六单独编码网络模型由三个并行分支组成,第一分支的结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)–卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第二分支的结构为:卷积层(3,64,32,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)–卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第三分支的机构为:卷积层(3,64,64,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)–卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
本发明使用的单独编码模型包括了六个单独编码网络模型,每个单独编码网络模型为独立的数据处理模型,可以单独对待分割机械零件进行语义定义。
本发明的有益效果包括:
本发明利用单独编码模型对单个或多个待分割机械零件进行单独编码,从而实现了机械零件的语义分割,提高了语义分割精度和并集度量上的平均交并比。
四个空间金字塔池化(ASPP)分支中每一层最后一个卷积层的输出数量为2,以获得各个机械零件的二元预测。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明提供的第一单独编码网络模型对待分割机械零件进行训练的过程图;
图2为本发明提供的第二单独编码网络模型对待分割机械零件进行训练的过程图;
图3为本发明提供的第三单独编码网络模型对待分割机械零件进行训练的过程图;
图4为本发明提供的第四单独编码网络模型对待分割机械零件进行训练的过程图;
图5为本发明提供的第五单独编码网络模型对待分割机械零件进行训练的过程图;
图6为本发明提供的第六单独编码网络模型对待分割机械零件进行训练的过程图;
图1-图6单独编码网络IEnet-i的训练;在像素精度,回复率和Jaccard方面,说明了三种类型的精度度量,阴影区域对应于在十类机械零件的所有训练图像上平均标准偏差值。
具体实施方式
本发明提供的基于单独编码网络的机械零件语义分割方法利用单独编码模型对单个或多个待分割机械零件进行单独编码实现语义分割。
其中单独编码模型在此采用的是包括:
卷积层conv(l,o,h,p),用于对待分割机械零件进行特征的提取,l表示卷积层的内核,o表示卷积层的输出数量,h表示卷积层扩张因子,p表示卷积层的填充;
池化层(l,s,p),用于对所述卷积层提取的特征进行分区采样,形成包含待分割机械零件特征的小矩阵,l和s表示池化层的步幅,p表示池化层的填充;
整形线性单元,用于判定函数和整个神经网络的非线性特性;
损失目标函数,用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异。
给出一组M×N维训练图像X={x 1 ,...,x K }及其相应标签Y∈R M×N×K×C ,其中K是训练样本的数量,C是机械零件类的数量。对于第c类机械零件的单独编码来说,在存在第c类机械零件{(x c ,y c )}={(x k ,y k )|∃y k =c,∀k∈K}的条件下提取训练样本对,注释样本的选择性地抑制激发被背景标签为0的其他C-1类标签所代替。因此,对于每一类机械零件c∈{1,...,C},存在一组Kc单独编码训练对。
给定提取的训练样本对,特定类别机械零件的分层特征通过轻量权重和有效卷积范例计算进行单独编码。因为模型参数可以有效地改变为单一类别而不与其他类别纠缠的损失目标函数。为此,对于每类训练对,本发明提供的语义分割方法采用单独编码模型包括具有不同深度和尺度的第一单独编码网络模型、第二单独编码网络模型、第三单独编码网络模型、第四单独编码网络模型、第五单独编码网络模型和第六单独编码网络模型;第一单独编码网络模型、第二单独编码网络模型、第三单独编码网络模型、第四单独编码网络模型、第五单独编码网络模型和第六单独编码网络模型包括:
卷积层conv(l,o,h,p),用于对待分割机械零件进行特征的提取,l表示卷积层的内核,o表示卷积层的输出数量,h表示卷积层扩张因子,p表示卷积层的填充;
池化层(l,s,p),用于对所述卷积层提取的特征进行分区采样,形成包含待分割机械零件特征的小矩阵,l和s表示池化层的步幅,p表示池化层的填充;
整形线性单元,用于判定函数和整个神经网络的非线性特性;
损失目标函数,用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异。
第一单独编码网络模型(IEnet-1)、第二单独编码网络模型(IEnet-2)、第三单独编码网络模型(IEnet-3)、第四单独编码网络模型(IEnet-4)、第五单独编码网络模型(IEnet-5)和第六单独编码网络模型(IEnet-6),分别含有3,5,7,9,13和19个权重层。每种类型的单独编码网络模型(IEnet)的fc,i(Xc,Wi)的输入是一组尺寸为360×480的图像Xc,其包含第c类机械零件。
在此,IEnet-1的模型结构是一个轻量级权重模型,具有以下结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
为了便于更深层次地表示每类机械部件,IEnet-2的模型结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
IEnet-3的模型结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。IEnet-3的模型结构在IEnet-2模型结构基础上增加两个权重层,使IEnet-3具有更深层的堆栈,提高了分割精度。
IEnet-4由两个并行分支组成,其结构与IEnet-2相同,但前两个卷积层中具有不同的扩张因子h=0和h=32,详见表1。
表1 IEnet-4模型结构
IEnet-5由三个并行分支组成,除了在前三个卷积层中的不同扩张因子h=0,h=32和h=64之外,与IEnet-2具有相同的体系结构,详见表2。
表2 IEnet-5模型结构
IEnet-6的由三个并行分支组成,并且IEnet-6的每个分支都添加了两个卷积层和一个池化层,详见表3。
表3 IEnet-6模型结构
通过IEnet-4、IEnet-5和IEnet-6实现了对待分割机械零件不同的图像帧中以不同的比例捕获,以便在多个分类中捕获待分割机械零件,更精准地进行分割。
本文在此结合以下实验更好地说明本发明提供的语义分割方法具有更好地语义分割效果。
本文实验中的测试图像语义分割性能通过三个指标来衡量,包括像素精度、回复率和Jaccard相似性训练指数,Jaccard指数也称为交并比。
在本文实验中,我们提供了一个非常具有挑战性的新数据集,其中包含4227个图像,这些图像是在具有复杂动态范围的无约束场景中捕获的。该数据集包含十种类型的机械零件,这些零件通常出现在制造和装配现场。为简洁起见,我们使用缩写KUST-MPDS-10-4227来表示由我们的小组注释的数据集。数据集中十种类型的机械零件分别是轴承、螺丝刀、齿轮、钳子、扳手、螺栓、螺母、垫圈、锤子和锉刀。数据集中的图像随机抽取并分为三组:训练集、验证集和测试集,分别由2582,592和1226副图像组成。RGB颜色平均值为[134.1140.5126.9]。单类集的验证和测试列表长度分别为[586510776754133323867]和[13216320214916188735710299]。单独编码集的验证和测试列表长度分别为[737411687889812010639124]和[158190220174192198241193106221]。
本文提供的数据集包含单类和多类集,分别包含3424和803副图像。单类集合中的每副图像仅包含这十种类型的机械零件中一种,而多类集合中的每副图像包含至少两种类型的待分割机械零件。使用选择性抑制来提取单类机械零件,以形成具有二元真实注释的单独编码数据集。KUST-MPDS-10-4227中单类集和多类单独编码集的训练、验证和测试集中的机械零件图像分布如表4所示。
表4机械零件图像在KUST-MPDS-10-4227的训练、验证和测试集中的分布
KUST-MPDS-10-4227的单独编码数据集包含4227个图像,其中2582个图像用于训练IEnet。在训练期间,批处理图像大小设置为6,学习率策略选择为“poly”,功率设置为0.9,基本学习率固定为1e-3。使用软最大损失函数训练每个IEnet模型,进行10000次迭代。对每个IEnet-i类使用相同的实验设置,i∈{1,...,6}。所有IEnet模型参数Wi的权重用高斯分布进行初始化,标准偏差为0.001。每种IEnet模型的训练过程分别如图1-6所示。
由图1-图6所示,IEnet-i的这些度量指标,i∈{1,...,6}在训练过程中表现出相似的整体趋势。特别是,准确度指标在第一次2000次迭代中获得快速增长,并且软最大损失函数在此期间迅速降低。在2000次迭代之后,随着迭代次数的增加,每个IEnet模型在精度度量方面表现出稳定的提升。经过10000次迭代后,IEnet-5的性能优于其他IEnet架构,在准确率(98.40%),回复率(81.57%)和Jaccard指数(78.21%)方面取得了最高的总体得分。在此迭代点,IEnet-5的软最大损失也在单独编码过程中达到所有IEnet架构中0.0469的最低值。
在第一阶段,分割精度随着网络深度的增加而增加,从IEnet-1中的3层(Jaccard=66.59%)到IEnet-2中的5层(Jaccard = 69.18%);在第二阶段,准确度网络深度从IEnet-2中的5层增加到IEnet-3中的7层(Jaccard = 53.43%)。其中第一阶段是指待分割机械零件经IEnet-1和IEnet-1分割;第二阶段是指待分割机械零件经IEnet-2和IEnet-3分割。
对于机械零件的多尺度表示,在IEnet-5中捕获三个尺度特征导致比单尺度(IEnet-2)和两个尺度(IEnet-4)的图像训练具有更好的结果。在8000次迭代中,IEnet-5模型在整个训练过程中所有网络架构中的准确度= 98.65%,回复率= 84.70%和Jaccard =80.96%方面产生最高的单独编码精度。始终如一的最低损失误差也证实了IEnet-5对机械零件单独编码的有效性。通过比较IEnet-6的多尺度分割精度和IEnet-5的多尺度分割精度,表明了本发明提供的语义分割方法中利用单独编码模型对待分割机械零件进行语义分割更精准。
本文中采用“L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A.L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets,atrous convolution, and fully connected crfs. IEEE Trans. Pattern Anal. Mach.Intell., 40(4):834–848, 2018”中记载的“DeepLab方法”进行语义分割得到的像素精度和Jaccard指数的分割性能与本发明提供的语义分割方法获得的像素精度和Jaccard指数进行定量性能比较,对较结果如表5所示。
表5本发明提供的语义分割方法与现有语义分割方法之间的定量性能比较结果表
如表5所示。在随机初始化条件下,本发明提供的方法比Deeplab方法获得了更好的性能。比较本文提出方法的和Deeplab方法在验证集的像素精度和Jaccard指数方面带来了额外的平均4.1432%和4.4744%的改善,而比较本文提出方法的和Deeplab方法在测试集像素精度和Jaccard方面带来了额外的平均29.9465%和29.8712%的改进。
表5中的数据经实验获得,本文中实验中使用了DeepLab方法的默认设置,只是批量大小固定为5个图像。另外,选择四个空间金字塔池化(ASPP)分支中每一层最后一个卷积层的输出数量为2,以获得各个机械零件的二元预测。
表5中所得数据是本发明提供的语义分割方法中的IEnet-5进行的语义分割得到,为了与公平比较,Deeplab方法其中迭代次数固定为8000,选择KUST-MPDS-10-4227的每个单独训练子集上训练的DeepLab模型进行8000次迭代,每个训练的DeepLab的模型大小架构大约是151.2MB。
本文记载的“‘惩罚’网络的预测结果和真实结果之间的差异”的具体含义:度量网络模型预测值与真实值的误差,降低网络模型的复杂度,避免过拟合。
本文记载的待分割机械零件以图像形式被语义分割。
本公开已由上述相关实施例加以描述,然而上述实施例仅为实施本公开的范例。必需指出的是,已揭露的实施例并未限制本公开的范围。相反,在不脱离本公开的精神和范围内所作的变动与润饰,均属本公开的专利保护范围。
Claims (9)
1.一种基于单独编码网络的机械零件语义分割方法,其特征在于:该分割方法利用单独编码模型对单个或多个待分割机械零件进行单独编码实现语义分割。
2.根据权利要求1所述的基于单独编码网络的机械零件语义分割方法,其特征在于:所述单独编码模型包括:
卷积层conv(l,o,h,p),用于对待分割机械零件进行特征的提取,l表示卷积层的内核,o表示卷积层的输出数量,h表示卷积层扩张因子,p表示卷积层的填充;
池化层(l,s,p),用于对所述卷积层提取的特征进行分区采样,形成包含待分割机械零件特征的小矩阵,l和s表示池化层的步幅,p表示池化层的填充;
整形线性单元,用于判定函数和整个神经网络的非线性特性;
损失目标函数,用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异。
3.根据权利要求1所述的基于单独编码网络的机械零件语义分割方法,其特征在于:所述单独编码模型包括具有不同深度和尺度的第一单独编码网络模型、第二单独编码网络模型、第三单独编码网络模型、第四单独编码网络模型、第五单独编码网络模型和第六单独编码网络模型;所述第一单独编码网络模型、所述第二单独编码网络模型、所述第三单独编码网络模型、所述第四单独编码网络模型、所述第五单独编码网络模型和所述第六单独编码网络模型包括:
卷积层conv(l,o,h,p),用于对待分割机械零件进行特征的提取,l表示卷积层的内核,o表示卷积层的输出数量,h表示卷积层扩张因子,p表示卷积层的填充;
池化层(l,s,p),用于对所述卷积层提取的特征进行分区采样,形成包含待分割机械零件特征的小矩阵,l和s表示池化层的步幅,p表示池化层的填充;
整形线性单元,用于判定函数和整个神经网络的非线性特性;
损失目标函数,用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异。
4.根据权利要求3所述的基于单独编码网络的机械零件语义分割方法,其特征在于:所述第一单独编码网络模型结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
5.根据权利要求3所述的基于单独编码网络的机械零件语义分割方法,其特征在于:所述第二单独编码网络模型结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
6.根据权利要求3所述的基于单独编码网络的机械零件语义分割方法,其特征在于:所述第三单独编码网络模型结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
7.权利要求3所述的基于单独编码网络的机械零件语义分割方法,其特征在于:所述第四单独编码网络模型由两个并行分支组成,第一分支的结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第二分支的结构为:卷积层(3,64,32,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
8.权利要求3所述的基于单独编码网络的机械零件语义分割方法,其特征在于:所述第五单独编码网络模型由三个并行分支组成,第一分支的结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第二分支的结构为:卷积层(3,64,32,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第三分支的结构为:卷积层(3,64,64,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
9.权利要求3所述的基于单独编码网络的机械零件语义分割方法,其特征在于:所述第六单独编码网络模型由三个并行分支组成,第一分支的结构为:卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)–卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第二分支的结构为:卷积层(3,64,32,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)–卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数;第三分支的机构为:卷积层(3,64,64,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)–卷积层(3,64,0,1)-整形线性单元-卷积层(3,16,0,1)-整形线性单元-池化层(3,2,0)-卷积层(3,2,0,1)-损失目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911338055.2A CN111126407B (zh) | 2019-12-23 | 2019-12-23 | 一种基于单独编码网络的机械零件语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911338055.2A CN111126407B (zh) | 2019-12-23 | 2019-12-23 | 一种基于单独编码网络的机械零件语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126407A true CN111126407A (zh) | 2020-05-08 |
CN111126407B CN111126407B (zh) | 2022-07-01 |
Family
ID=70501306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911338055.2A Active CN111126407B (zh) | 2019-12-23 | 2019-12-23 | 一种基于单独编码网络的机械零件语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126407B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989699A (zh) * | 2021-09-30 | 2022-01-28 | 哈尔滨工业大学 | 基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451601A (zh) * | 2017-07-04 | 2017-12-08 | 昆明理工大学 | 基于时空上下文全卷积网络的运动工件识别方法 |
CN107481244A (zh) * | 2017-07-04 | 2017-12-15 | 昆明理工大学 | 一种工业机器人视觉语义分割数据库制作方法 |
CN107767380A (zh) * | 2017-12-06 | 2018-03-06 | 电子科技大学 | 一种基于全局空洞卷积的高分辨率复合视野皮肤镜图像分割方法 |
US20180253622A1 (en) * | 2017-03-06 | 2018-09-06 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
US20190050667A1 (en) * | 2017-03-10 | 2019-02-14 | TuSimple | System and method for occluding contour detection |
CN109635742A (zh) * | 2018-12-13 | 2019-04-16 | 深源恒际科技有限公司 | 一种车辆图像定损中的子部件损伤识别方法 |
CN109766994A (zh) * | 2018-12-25 | 2019-05-17 | 华东师范大学 | 一种自然语言推理的神经网络架构 |
US20190273948A1 (en) * | 2019-01-08 | 2019-09-05 | Intel Corporation | Method and system of neural network loop filtering for video coding |
-
2019
- 2019-12-23 CN CN201911338055.2A patent/CN111126407B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180253622A1 (en) * | 2017-03-06 | 2018-09-06 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
US20190050667A1 (en) * | 2017-03-10 | 2019-02-14 | TuSimple | System and method for occluding contour detection |
CN107451601A (zh) * | 2017-07-04 | 2017-12-08 | 昆明理工大学 | 基于时空上下文全卷积网络的运动工件识别方法 |
CN107481244A (zh) * | 2017-07-04 | 2017-12-15 | 昆明理工大学 | 一种工业机器人视觉语义分割数据库制作方法 |
CN107767380A (zh) * | 2017-12-06 | 2018-03-06 | 电子科技大学 | 一种基于全局空洞卷积的高分辨率复合视野皮肤镜图像分割方法 |
CN109635742A (zh) * | 2018-12-13 | 2019-04-16 | 深源恒际科技有限公司 | 一种车辆图像定损中的子部件损伤识别方法 |
CN109766994A (zh) * | 2018-12-25 | 2019-05-17 | 华东师范大学 | 一种自然语言推理的神经网络架构 |
US20190273948A1 (en) * | 2019-01-08 | 2019-09-05 | Intel Corporation | Method and system of neural network loop filtering for video coding |
Non-Patent Citations (8)
Title |
---|
HUANJING YUE: "IENet: Internal and External Patch Matching ConvNet for Web Image Guided Denoising", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
LIANG-CHIEH CHEN: "DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs", <DOI 10.1109/TPAMI.2017.2699184> * |
YINHUI ZHANG (张印辉): "Foreground object extraction through motion segmentation", 《CHINESE OPTICS LETTERS》 * |
YINHUI ZHANG: "Agnostic attribute segmentation of dynamic scenes with limited spatio-temporal resolution", 《PATTERN RECOGNITIONPATTERN RECOGNITION 91 (2019)》 * |
冬仔11: "金字塔池化系列的理解SPP、ASPP", 《HTTPS://BLOG.CSDN.NET/M0_37798080/ARTICLE/DETAILS/103163397》 * |
卞贤掌等: "基于语义分割的增强现实图像配准技术", 《电子技术与软件工程》 * |
张印辉: "基于隐马尔科夫森林后验概率准确推理的多尺度图像分割", 《中国激光》 * |
易盟等: "基于改进全卷积神经网络的航拍图像语义分类方法", 《计算机工程》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989699A (zh) * | 2021-09-30 | 2022-01-28 | 哈尔滨工业大学 | 基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111126407B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491880B (zh) | 基于神经网络的物体分类和位姿估计方法 | |
Melekhov et al. | Dgc-net: Dense geometric correspondence network | |
CN109190752B (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
Labbé et al. | Megapose: 6d pose estimation of novel objects via render & compare | |
Yuan-Fu | A deep learning model for identification of defect patterns in semiconductor wafer map | |
CN110717526A (zh) | 一种基于图卷积网络的无监督迁移学习方法 | |
CN111652292B (zh) | 一种基于ncs、ms的相似物体实时检测方法及系统 | |
Makantasis et al. | Deep learning based human behavior recognition in industrial workflows | |
CN114627383B (zh) | 一种基于度量学习的小样本缺陷检测方法 | |
CN108171249B (zh) | 一种基于rgbd数据的局部描述子学习方法 | |
CN115578426B (zh) | 一种基于稠密特征匹配的室内服务机器人重定位方法 | |
CN111476835B (zh) | 多视角图像一致性的无监督深度预测方法、系统、装置 | |
Xu et al. | You only group once: Efficient point-cloud processing with token representation and relation inference module | |
CN115100574A (zh) | 基于融合图卷积网络与Transformer网络的动作识别方法及系统 | |
Rios et al. | Feature visualization for 3D point cloud autoencoders | |
CN113033547A (zh) | 一种基于MobileNetV2的焊接状态分类方法 | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN109919215B (zh) | 基于聚类算法改进特征金字塔网络的目标检测方法 | |
CN111126407B (zh) | 一种基于单独编码网络的机械零件语义分割方法 | |
Tian et al. | Real-time semantic segmentation network based on lite reduced atrous spatial pyramid pooling module group | |
CN110544249A (zh) | 一种面向任意角度机箱装配视觉检测的卷积神经网络质量鉴别方法 | |
Wu et al. | Unsupervised joint 3d object model learning and 6d pose estimation for depth-based instance segmentation | |
CN113223037B (zh) | 一种面向大规模数据的无监督语义分割方法及系统 | |
CN111209879B (zh) | 基于深度圈视图的无监督3d物体识别与检索方法 | |
Wang et al. | SO-PERM: Pose Estimation and Robust Measurement for Small Objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |