CN115690668A - 基于图像语义分割算法的损伤识别技术 - Google Patents
基于图像语义分割算法的损伤识别技术 Download PDFInfo
- Publication number
- CN115690668A CN115690668A CN202110835829.3A CN202110835829A CN115690668A CN 115690668 A CN115690668 A CN 115690668A CN 202110835829 A CN202110835829 A CN 202110835829A CN 115690668 A CN115690668 A CN 115690668A
- Authority
- CN
- China
- Prior art keywords
- neural network
- image
- deep neural
- feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006378 damage Effects 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 title claims abstract description 22
- 238000005516 engineering process Methods 0.000 title claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000011156 evaluation Methods 0.000 claims abstract description 37
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 238000011068 loading method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 45
- 238000003062 neural network model Methods 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 41
- 238000012360 testing method Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000003902 lesion Effects 0.000 claims description 8
- 238000002360 preparation method Methods 0.000 claims description 8
- 238000011084 recovery Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 239000011800 void material Substances 0.000 claims description 4
- 239000000919 ceramic Substances 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 239000007769 metal material Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 9
- 239000000523 sample Substances 0.000 description 11
- 230000009466 transformation Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 239000012468 concentrated sample Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
基于图像语义分割算法的损伤识别技术,步骤包括:(1)采集待识别图像样本,进行数据预处理,并标记所有原图像,构建图像语义分割数据集,然后划分数据集;(2)搭建深度卷积神经网络,所述深度卷积神经网络包括特征提取模块、特征扩张模块、高层次语义上下文提取模块、注意力门控单元;(3)利用梯度反向传播算法和梯度下降优化算法在训练集上训练深度卷积神经网络,用性能评估函数评估模型性能,将达到预设指标且性能最佳的卷积神经网络的参数保存;(4)将步骤(3)保存的参数加载到所述深度卷积神经网络中,输入待识别图像,显示输出的分割结果图。
Description
技术领域
本发明属于损伤智能识别领域,具体是一种基于图像语义分割算法的损伤识别技术,是深度神经网络模型和对数据集的预处理方法在损伤智能识别领域的工程应用。
背景技术
损伤是金属、陶瓷、玻璃等材料由于应力或者温度、湿度等环境因素的作用下所产生的瑕疵;随着现代化、工业化进程不断推进,现代建筑、桥梁、道路、铁轨等基础设施,以及发动机、机床等工业设施的规模越来越庞大,这些设施的表面或内部出现损伤往往是影响其正常运转和使用的重要原因;因此,损伤检测识别工作对于设施的维护、保持其正常运行,以及预防潜在的安全隐患具有重要意义;
最早的损伤识别方法,是由专业人员纯人工肉眼观察找出损伤;这种方法需要耗费大量的人力资源,而且由于人眼分辨能力有限,容易受到环境因素的影响以及工作人员的个人原因,损伤识别的效率低下,且存在遗漏,最重要的是识别结果通常仅仅描述是否存在损伤,而并不对损伤的位置和所在像素区域进行描述;
随着计算机科学与技术的发展,基于计算机图像处理的方法受益于计算机强大而又高速的计算能力,具有识别速度快,特定应用场景下识别精度高的特点;其原理通常是使用摄像头等计算机传感设备进行待检测物体图像采集,然后使用阈值分割、滤波、边缘检测等方法进行损伤识别;基于计算机图像处理的损伤识别方法一般分为三个步骤;第一,目标图像的采集、筛选、标注、增强、去噪、滤波、复原、直方图分析等预处理操作;第二,用边缘检测和阈值分割等关键算法提取图像的特征信息;第三,在第二步得到的结果的基础,用核心算法确定损伤位置和形态;
采用支持向量机、决策树、聚类以及随机森林等机器学习方法对待检测图像进行分类,实现了高精度的损伤分类、分割;但是这一类方法不同于数据驱动的深度学习算法,这些方法需要大量先验知识,诸如:金属材料损伤识别中,基于待识别图像中正常区域和损伤区域亮度、对比度等特征的不同进行识别;基于机器学习的方法做出决策依赖的通常是一些低层次的语义特征,例如:亮度、对比度、形状、纹理、位置等,而没有提取和利用更高层次的语义特征,这导致了识别的结果的好坏很大程度依赖于所选用的机器学习算法的基础先验知识在应用的场景是否适用;同时,这类方法往往只能做出图像分类级别的识别,也就是只能判断一张待识别图像中是否有损伤,而对于损伤的位置,甚至损伤区域所占的像素等无法给出预测;
自卷积神经网络算法提出以来,深度学习技术迎来了又一次蓬勃发展,相继涌现出一批批优秀的算法,不断提高图像分类、图像语义分割、图像目标检测、实例分割等主要领域的最高研究水平,也不断地刷新诸多公开的著名数据集,例如:ImageNet、Pascal VOC、coco、cityscape等上的最高成绩;与传统的机器学习算法相比,深度学习算法对于数据和计算机硬件资源有更高的依赖性,同时,目前深度学习算法的复杂度大、可解释性差、其提取和利用更多的高层语义特征;基于深度卷积神经网络的损伤识别方法,与基于传统机器学习的损伤识别方法类似,处理的对象都是计算机图像或者视频,同样需要先通过摄像头等传感设备收集数据;然后,通过重复堆叠的卷积、池化、非线性激活、批归一化等操作实现卷积神经网络结构,逻辑上可以划分为输入层、隐藏层、输出层三部分;从功能上,又可以划分为特征提取部分和实现特定任务功能,如分类、分割、检测的分类器、分割器、检测器,分别实现对损伤的分类、损伤区域的像素级分割以及损伤位置的检测;这类方法对与数据和计算资源依赖;数据集中样本的标记精度决定了最终模型所能达到的精度上限;数据集中样本的分布和数量影响最终模型的泛化能力和鲁棒性;计算资源,主要指GPU的数量和CUDA算力,直接影响模型的训练速度,以及实际应用时模型处理图像和视频的速度。
发明内容
本发明的目的在于提出了一种精度更高,速度更快,占用内存和处理机资源更少的基于图像语义分算法的损伤智能识别技术,本发明技术方案的设计思路如下:
分为四个阶段,分别为1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;
1)数据准备阶段的步骤包括:
1.1)数据采集:用特定传感设备采集目标应用场景下的待识别图像,所述目标应用场景包括但是不限于路面损伤识别、金属材料表面损伤识别、陶瓷制品损伤识别,所述传感设备包括但不限于摄像机、扫描仪等具有拍摄功能的各种图像采集设备;
1.2)图像清洗:将步骤1.1)得到的图像逐个进行筛选,去除非正常拍摄图像和重复图像;
1.3)图像标注:对步骤1.2)得到的所有图像逐个进行语义分割标注;所述语义分割标注是指通过图像标注工具,生成和原图像分辨率相同的标签图像;所述标签图像中各个位置的像素点的像素值用于表示原图像中对应位置的像素点所属类别;在进行语义分割标注前需先确定损伤类别的总数,并赋予每个损伤类一个唯一的类别标签值;所述类别标签值和所述标签图像中像素点的像素值之间是一对一关系;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照合适比例划分为训练集和测试集;所述合适比例包括但不限于训练集样本量比测试集样本量等于8比2、9比1;训练集可以再次划分出一个子集作为验证集,也可以不划分验证集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入所述深度神经网络模型中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于所述深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法对所述深度神经网络模型中可训练参数进行调整;所述模型优化算法包括但是不限于Adam、SGD、RMSprop、Adagrad;模型优化过程的学习率、权重衰减率等超参数通过手动搜索、随机搜索、网格搜索等方式获得;模型训练过程中可选择性地使用学习率衰减、权重衰减、早停等策略中的一种或者多种;数据集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;对每一个批次样本通过各种动态数据增强策略进行数据增强,防止过拟合,提升模型的泛化能力和鲁棒性;所述动态数据集增强策略包括但不限于随机仿射变换、亮度变换、随机擦除、mixup策略、cutmix策略、ricap策略、cutout策略;
2.2.2)如果数据集划分步骤中划分出了验证集,那么每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)重复步骤2.2.1)和2.2.2),并持续保存所述深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
3.2)将步骤2.2.3)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.3)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取待识别图像;从摄像设备读取图像帧或者从存储器中的视频中读取图像帧,也可以从存储器中直接读取图像;
4.2)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到所述深度神经网络模型中,模型的输出就是所述图像帧对应的标签图像的预测值;从上述标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域;
所述特征提取子模块:经典的图像分类神经网络去除全连接层之后的骨干网络;所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络;上述骨干网络通常由几个特征提取阶段组成,上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成;所述特征提取阶段输出的特征向量相比于输入的特征向量,空间尺寸缩减一半,通道数扩大一倍;
所述特征扩张子模块:通常由几个特征恢复阶段组成,上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成;通过上采样操作将输入的特征向量的空间尺寸扩大,恢复到原输入图像的空间尺寸大小;所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值;所述特征恢复阶段输出的特征向量相比于输入的特征向量,空间尺寸扩大一倍,通道数缩减一半;
所述高层次语义上下文提取模块:分为两个阶段;第一个阶段,对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量,使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合,记为第一个阶段的特征向量;然后通过并行的多路池化操作,提取所述第一个阶段的特征向量的各个局部的全局上下文信息,之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息,进行特征融合;
所述注意力门控单元:上一个特征扩张模块的输出特征和与空间尺寸对应的特征提取模块跳跃连接特征在通道维度上堆叠作为本特征扩张模块的输入;在通道堆叠之前,将所述输出特征和所述跳跃连接特征分别作为门控信号和输入信号输入到注意力门控单元中,注意力门控单元内部先用通道调整卷积将门控信号和输入信号的通道数调整为Fint,通过矩阵加法融合特征,再通过通道调整卷积将通道数调整为1,经过sigmoid函数将值域调整到0和1之间,作为空间注意力图谱,最后将空间注意力图谱和输入信号的各个通道的特征图逐元素相乘,对输入信号中关键的特征区域做激励,非关键特征作抑制;所述通道调整卷积是指卷积核长宽都为1,卷积步长为1的卷积;所述Fint是过渡通道数,一般取值为输入信号通道数的一半;
所述的基于图像语义分割算法的损伤识别技术,其特征是所述损失函数是区域相关损失函数或者带权交叉熵损失函数;所述区域相关损失函数包括但不限于IoU Loss、Dice Loss、Tversky loss;
p表示每批次中所有待识别图像中的所有像素的预测类别概率,
q表示每批次中所有待识别图像对应的标签图像中的所有像素的真实类别;
所述性能评估函数包括但不限于:像素准确率PA、平均交并比MIoU、频权交并比FWIoU、Dice系数;
公式中:
k表示待识别图像中的像素的类别数,
Pii表示真正,真正即为每批次待识别图像中的像素预测类别概率最大的类别和待识别图像对应的标签图像中的像素的真实类别相同的像素的总数;
Pij为假正,假正即为每批次待识别图像中的像素预测类别概率最大的类别为j类和待识别图像对应的标签图像中的像素的真实类别为i类的像素的总数;
Pji为假负,假负即为每批次待识别图像中的像素预测类别概率最大的类别为i类和待识别图像对应的标签图像中的像素的真实类别为j类的像素的总数;
本发明的有益效果为:
1)本技术方案实现了智能实时损伤识别,可以取代或者辅助人工实现识别;
2)本技术方案整合使用高层次语义上下文提取模块和注意力门控单元;借助高层次语义上下文提取模块扩大模型感受野的同时整合各个局部的全局信息;通过注意力门控单元对跳跃连接特征作注意力加持,激励关键特征区域而抑制非关键特征区域;
附图说明
图1是本方法实施例的流程示意图;
图2是本方法神经网络模型结构图;
具体实施方式
实施例1
本实例为工业机床损伤识别,分为四个阶段,分别为1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;需要说明的是下述的损伤类别包括裂纹、凹坑、烧伤;也包括无损伤的类别,即背景类;下述的损失函数是带权交叉熵,性能评估函数为频权交并比FWIoU;
1)数据准备阶段的步骤包括:
1.1)数据采集:用摄像机,孔探摄像头采集工业机床表面和内部的原图像;
1.2)图像清洗:将步骤1.1)得到的图像逐个进行筛选,去除非正常拍摄图像和重复图像;
1.3)图像标注:对步骤1.2)得到的所有图像使用Labelme工具逐个进行语义分割标注;类别总数为4,背景类、裂纹类、凹坑类、烧伤类的类别标签值分别为0、1、2、3;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照8:1:1的比例划分为训练集、验证集和测试集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入深度神经网络模型中,将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法Adam对深度神经网络模型中可训练参数进行调整;模型优化过程的学习率、权重衰减率等超参数通过网格搜索的方式获得;模型训练过程中使用学习率衰减、权重衰减、早停策略;数据集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;训练过程中对每个批次的样本采用各种放射变换、亮度变换、mixup策略、ricap策略进行动态数据增强;
2.2.2)每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入深度神经网络中,将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)重复步骤2.2.1)和2.2.2),并持续保存深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
3.2)将步骤2.2.3)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.3)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取待识别图像;从摄像设备读取图像帧或者从存储器中的视频中读取图像帧,也可以从存储器中直接读取图像;
4.2)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到深度神经网络模型中,模型的输出就是图像帧对应的标签图像的预测值;从标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域;
上述特征提取子模块:经典的图像分类神经网络去除全连接层之后的骨干网络;所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络;上述骨干网络通常由几个特征提取阶段组成,上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成;所述特征提取阶段输出的特征向量相比于输入的特征向量,空间尺寸缩减一半,通道数扩大一倍;
上述特征扩张子模块:通常由几个特征恢复阶段组成,上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成;通过上采样操作将输入的特征向量的空间尺寸扩大,恢复到原输入图像的空间尺寸大小;所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值;所述特征恢复阶段输出的特征向量相比于输入的特征向量,空间尺寸扩大一倍,通道数缩减一半;
上述高层次语义上下文提取模块:分为两个阶段;第一个阶段,对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量,使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合,记为第一个阶段的特征向量;然后通过并行的多路池化操作,提取所述第一个阶段的特征向量的各个局部的全局上下文信息,之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息,进行特征融合;
上述注意力门控单元:上一个特征扩张模块的输出特征和与空间尺寸对应的特征提取模块跳跃连接特征在通道维度上堆叠作为本特征扩张模块的输入;在通道堆叠之前,将所述输出特征和所述跳跃连接特征分别作为门控信号和输入信号输入到注意力门控单元中,注意力门控单元内部先用通道调整卷积将门控信号和输入信号的通道数调整为Fint,通过矩阵加法融合特征,再通过通道调整卷积将通道数调整为1,经过sigmoid函数将值域调整到0和1之间,作为空间注意力图谱,最后将空间注意力图谱和输入信号的各个通道的特征图逐元素相乘,对输入信号中关键的特征区域做激励,非关键特征作抑制;所述通道调整卷积是指卷积核长宽都为1,卷积步长为1的卷积;所述Fint是过渡通道数,一般取值为输入信号通道数的一半;
实施例2
本实例为水泥路面损伤识别,分为四个阶段,分别为1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;需要说明的是下述的损伤类别包括裂纹、凹坑;也包括无损伤的类别,即背景类;下述的损失函数是Dice Loss,性能评估函数为MIoU;
1)数据准备阶段的步骤包括:
1.1)数据采集:用摄像机采集道路表面的原图像;
1.2)图像清洗:将步骤1.1)得到的图像逐个进行筛选,去除非正常拍摄图像和重复图像;
1.3)图像标注:对步骤1.2)得到的所有图像使用Labelme工具逐个进行语义分割标注;类别总数为3,背景类、裂纹类、凹坑类的类别标签值分别为0、1、2;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照8:1:1的比例划分为训练集、验证集和测试集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入深度神经网络模型中,将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法Adam对深度神经网络模型中可训练参数进行调整;模型优化过程的学习率、权重衰减率等超参数通过网格搜索的方式获得;模型训练过程中使用学习率衰减、权重衰减、早停策略;数据集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;训练过程中对每个批次的样本采用各种放射变换、亮度变换、mixup策略、cutout策略、cutmix策略进行动态数据增强;
2.2.2)每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入深度神经网络中,将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)重复步骤2.2.1)和2.2.2),并持续保存深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
3.2)将步骤2.2.3)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.3)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取待识别图像;从摄像设备读取图像帧或者从存储器中的视频中读取图像帧,也可以从存储器中直接读取图像;
4.2)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到深度神经网络模型中,模型的输出就是图像帧对应的标签图像的预测值;从标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域;
上述特征提取子模块:经典的图像分类神经网络去除全连接层之后的骨干网络;所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络;上述骨干网络通常由几个特征提取阶段组成,上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成;所述特征提取阶段输出的特征向量相比于输入的特征向量,空间尺寸缩减一半,通道数扩大一倍;
上述特征扩张子模块:通常由几个特征恢复阶段组成,上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成;通过上采样操作将输入的特征向量的空间尺寸扩大,恢复到原输入图像的空间尺寸大小;所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值;所述特征恢复阶段输出的特征向量相比于输入的特征向量,空间尺寸扩大一倍,通道数缩减一半;
上述高层次语义上下文提取模块:分为两个阶段;第一个阶段,对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量,使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合,记为第一个阶段的特征向量;然后通过并行的多路池化操作,提取所述第一个阶段的特征向量的各个局部的全局上下文信息,之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息,进行特征融合;
上述注意力门控单元:上一个特征扩张模块的输出特征和与空间尺寸对应的特征提取模块跳跃连接特征在通道维度上堆叠作为本特征扩张模块的输入;在通道堆叠之前,将所述输出特征和所述跳跃连接特征分别作为门控信号和输入信号输入到注意力门控单元中,注意力门控单元内部先用通道调整卷积将门控信号和输入信号的通道数调整为Fint,通过矩阵加法融合特征,再通过通道调整卷积将通道数调整为1,经过sigmoid函数将值域调整到0和1之间,作为空间注意力图谱,最后将空间注意力图谱和输入信号的各个通道的特征图逐元素相乘,对输入信号中关键的特征区域做激励,非关键特征作抑制;所述通道调整卷积是指卷积核长宽都为1,卷积步长为1的卷积;所述Fint是过渡通道数,一般取值为输入信号通道数的一半;
本发明未尽事宜为公知技术;
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围;凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (3)
1.基于图像语义分割算法的损伤识别技术,其特征在于:包括1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;
1)数据准备阶段的步骤包括:
1.1)数据采集:用特定传感设备采集目标应用场景下的待识别图像,所述目标应用场景包括但是不限于路面损伤识别、金属材料表面损伤识别、陶瓷制品损伤识别,所述传感设备包括但不限于照相机、扫描仪等具有拍摄功能的各种图像采集设备;
1.2)图像清洗:将步骤1.1)得到的图像逐个进行筛选,去除非正常拍摄图像和重复图像;
1.3)图像标注:对步骤1.2)得到的所有图像逐个进行语义分割标注;所述语义分割标注是指通过图像标注工具,生成和原图像分辨率相同的标签图像;所述标签图像中各个位置的像素点的像素值用于表示原图像中对应位置的像素点所属类别;在进行语义分割标注前需先确定损伤类别的总数,并赋予每个损伤类一个唯一的类别标签值;所述类别标签值和所述标签图像中像素点的像素值之间是一对一关系;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照合适比例划分为训练集和测试集;所述合适比例包括但不限于训练集样本量比测试集样本量等于8比2、9比1;训练集可以再次划分出一个子集作为验证集,也可以不划分验证集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入所述深度神经网络模型中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于所述深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法对所述深度神经网络模型中可训练参数进行调整;所述模型优化算法包括但是不限于Adam、SGD、RMSprop、Adagrad;模型优化过程的学习率、权重衰减率等超参数通过手动搜索、随机搜索、网格搜索等方式获得;模型训练过程中可选择性地使用学习率衰减、权重衰减、早停等策略中的一种或者多种;数据集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;
2.2.2)如果数据集划分步骤中划分出了验证集,那么每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)重复步骤2.2.1)和2.2.2),并持续保存所述深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
3.2)将步骤2.2.3)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.3)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取待识别图像;从摄像设备读取图像帧或者从存储器中的视频中读取图像帧,也可以从存储器中直接读取图像;
4.2)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、注意力门控单元;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到所述深度神经网络模型中,模型的输出就是所述图像帧对应的标签图像的预测值;从上述标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域。
2.权利要求1中所述的深度神经网络,其特征是:
1)特征提取子模块:经典的图像分类神经网络去除全连接层之后的骨干网络;所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络;上述骨干网络通常由几个特征提取阶段组成,上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成;所述特征提取阶段输出的特征向量相比于输入的特征向量,空间尺寸缩减一半,通道数扩大一倍;
2)特征扩张子模块:通常由几个特征恢复阶段组成,上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成;通过上采样操作将输入的特征向量的空间尺寸扩大,恢复到原输入图像的空间尺寸大小;所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值;所述特征恢复阶段输出的特征向量相比于输入的特征向量,空间尺寸扩大一倍,通道数缩减一半;
3)高层次语义上下文提取模块:分为两个阶段;第一个阶段,对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量,使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合,记为第一个阶段的特征向量;然后通过并行的多路池化操作,提取所述第一个阶段的特征向量的各个局部的全局上下文信息,之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息,进行特征融合;
4)注意力门控单元:上一个特征扩张模块的输出特征和与空间尺寸对应的特征提取模块跳跃连接特征在通道维度上堆叠作为本特征扩张模块的输入;在通道堆叠之前,将所述输出特征和所述跳跃连接特征分别作为门控信号和输入信号输入到注意力门控单元中,注意力门控单元内部先用通道调整卷积将门控信号和输入信号的通道数调整为Fint,通过矩阵加法融合特征,再通过通道调整卷积将通道数调整为1,经过sigmoid函数将值域调整到0和1之间,作为空间注意力图谱,最后将空间注意力图谱和输入信号的各个通道的特征图逐元素相乘,对输入信号中关键的特征区域做激励,非关键特征作抑制;所述通道调整卷积是指卷积核长宽都为1,卷积步长为1的卷积;所述Fint是过渡通道数,一般取值为输入信号通道数的一半。
3.根据权利要求1所述的基于图像语义分割算法的损伤识别技术,其特征是所述损失函数是区域相关损失函数或者带权交叉熵损失函数;所述区域相关损失函数包括但不限于IoU Loss、Dice Loss、Tversky loss;所述性能评估函数包括但不限于:像素准确率PA、平均交并比MIoU、频权交并比FWIoU、Dice系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110835829.3A CN115690668A (zh) | 2021-07-23 | 2021-07-23 | 基于图像语义分割算法的损伤识别技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110835829.3A CN115690668A (zh) | 2021-07-23 | 2021-07-23 | 基于图像语义分割算法的损伤识别技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115690668A true CN115690668A (zh) | 2023-02-03 |
Family
ID=85044420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110835829.3A Pending CN115690668A (zh) | 2021-07-23 | 2021-07-23 | 基于图像语义分割算法的损伤识别技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115690668A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116989510A (zh) * | 2023-09-28 | 2023-11-03 | 广州冰泉制冷设备有限责任公司 | 一种结霜检测与热气融霜相结合的智能化制冷方法 |
CN117764995A (zh) * | 2024-02-22 | 2024-03-26 | 浙江首鼎视介科技有限公司 | 基于深度神经网络算法的胆胰成像系统及方法 |
-
2021
- 2021-07-23 CN CN202110835829.3A patent/CN115690668A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116989510A (zh) * | 2023-09-28 | 2023-11-03 | 广州冰泉制冷设备有限责任公司 | 一种结霜检测与热气融霜相结合的智能化制冷方法 |
CN117764995A (zh) * | 2024-02-22 | 2024-03-26 | 浙江首鼎视介科技有限公司 | 基于深度神经网络算法的胆胰成像系统及方法 |
CN117764995B (zh) * | 2024-02-22 | 2024-05-07 | 浙江首鼎视介科技有限公司 | 基于深度神经网络算法的胆胰成像系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ali et al. | Structural crack detection using deep convolutional neural networks | |
Deng et al. | Vision based pixel-level bridge structural damage detection using a link ASPP network | |
CN110569738B (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN114155474A (zh) | 基于视频语义分割算法的损伤识别技术 | |
CN115690668A (zh) | 基于图像语义分割算法的损伤识别技术 | |
CN111753682A (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
Sofla et al. | Road extraction from satellite and aerial image using SE-Unet | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
Wan et al. | LFRNet: Localizing, focus, and refinement network for salient object detection of surface defects | |
CN115187530A (zh) | 超声自动乳腺全容积图像的识别方法、装置、终端及介质 | |
CN113988147A (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
Zhang et al. | Spatial–temporal gray-level co-occurrence aware CNN for SAR image change detection | |
Kuchi et al. | A machine learning approach to detecting cracks in levees and floodwalls | |
CN113326846B (zh) | 一种基于机器视觉的桥梁表观病害快速检测方法 | |
CN111008630A (zh) | 一种基于弱监督学习的目标定位方法 | |
CN113378642A (zh) | 一种对农村违法占地建筑物进行检测的方法 | |
Li et al. | Incremental learning of infrared vehicle detection method based on SSD | |
Wang et al. | FPA-DNN: a forward propagation acceleration based deep neural network for ship detection | |
Lu et al. | An iterative classification and semantic segmentation network for old landslide detection using high-resolution remote sensing images | |
Al-Shammri et al. | A Combined Method for Object Detection under Rain Conditions Using Deep Learning | |
Rong et al. | Weakly supervised text attention network for generating text proposals in scene images | |
Li et al. | Small Target Detection Algorithm Based on Two-Stage Feature Extraction | |
Jung et al. | Color, edge, and pixel-wise explanation of predictions based on interpretable neural network model | |
Dahirou et al. | Face Detection with Viola Jones Algorithm | |
Gan et al. | Road damage detection and classification based on M2det |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20230203 |
|
WD01 | Invention patent application deemed withdrawn after publication |