CN114155474A - 基于视频语义分割算法的损伤识别技术 - Google Patents
基于视频语义分割算法的损伤识别技术 Download PDFInfo
- Publication number
- CN114155474A CN114155474A CN202111513075.6A CN202111513075A CN114155474A CN 114155474 A CN114155474 A CN 114155474A CN 202111513075 A CN202111513075 A CN 202111513075A CN 114155474 A CN114155474 A CN 114155474A
- Authority
- CN
- China
- Prior art keywords
- neural network
- deep neural
- feature
- model
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 21
- 238000005516 engineering process Methods 0.000 title claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 238000011156 evaluation Methods 0.000 claims abstract description 37
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 96
- 238000013528 artificial neural network Methods 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 48
- 238000003062 neural network model Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 230000003902 lesion Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000002360 preparation method Methods 0.000 claims description 8
- 238000011084 recovery Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 239000011800 void material Substances 0.000 claims description 4
- 239000000919 ceramic Substances 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 239000007769 metal material Substances 0.000 claims description 2
- 230000006735 deficit Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 230000003287 optical effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
基于视频语义分割算法的损伤识别技术,步骤包括:(1)采集待识别视频样本,将视频帧按时序保存作为原图像,进行数据预处理,并标记所有原图像,构建视频语义分割数据集,然后划分数据集;(2)搭建深度卷积神经网络,所述深度卷积神经网络包括特征提取模块、特征扩张模块、高层次语义上下文提取模块、特征传播模块;(3)利用梯度反向传播算法和梯度下降优化算法在训练集上训练深度卷积神经网络,用性能评估函数评估网络性能,将达到预设指标且性能最佳的卷积神经网络参数保存;(4)将步骤(3)保存的参数加载到所述深度卷积神经网络中,输入从本地或者光学传感设备中读取到的视频帧,显示输出的分割结果图。
Description
技术领域
本发明属于损伤智能识别领域,具体是一种基于视频语义分割算法的损伤识别技术,是深度神经网络模型和对数据集的预处理方法在损伤智能识别领域的工程应用。
背景技术
损伤是金属、陶瓷、玻璃等材料由于应力或者温度、湿度等环境因素的影响所产生的瑕疵;随着计算机科学的蓬勃发展,损伤识别方法从最早的人工观测损伤识别过渡到依靠电子设备实现的智能损伤识别;避免了纯人工损伤识别方法的诸多弊端,诸如损伤识别的效率低下,且存在遗漏,识别结果通常仅仅描述是否存在损伤,而并不对损伤的位置和所在像素区域进行描述;
目前,基于深度学习的损伤识别方法,研究对象多为计算机图像,通过深度卷积神经网络实现对损伤图像的分类、检测、分割;但是实际应用中,对待检测的器械或者基础设施全方位拍摄图像,然后进行检测的方法显然费时费力,甚至可能花费的总时间比人工肉眼检测还要长;更常用也更实际的方法是通过摄像头采集视频数据,然后通过深度学习算法对视频进行处理,对视频中的损伤进行分类、分割、检测;
由于视频可以被看作是连续的图像帧的集合,对于视频的处理可以通过对视频帧所有帧进行逐帧处理,间接实现对视频的处理;显然,这样的方法存在许多问题;第一,将视频视作孤立的图像,忽略了视频的时间上下文信息,没有利用视频的连续帧之间的关联信息,对于可能存在的冗余帧没有采用更廉价的处理手段;第二,一段总长N分钟,FPS为24的视频,帧数为1440N,可见视频帧的数量往往是巨大的,采用逐帧处理的方法实时性差;处理速度慢导致帧率过低,在视觉效果上往往是卡顿的;第三,视频中帧质量无法保证,存在一些帧未聚焦、拍摄角度或者拍摄目标的动作过于稀少,这不仅会影响神经网络的训练,影响神经网络参数的收敛速度,而且也影响神经网络的实际使用;由于无法充分学习到稀有帧的特征,所以在实际应用中遇到这样的帧处理的结果不理想;
当下,视频语义分割的两个主要的困难分别为准确度和实时性不可兼得、视频数据标注耗时耗力;现有的公开的视频语义分割数据集中,大多数都仅仅标注了一部分帧;通常是每个小片段有一帧带有标注,而其他的帧都没有标注。
发明内容
本发明的目的在于提出了一种精度更高,速度更快,占用内存和处理机资源更少的基于视频语义分割算法的损伤智能识别技术,本发明技术方案的设计思路如下:
分为四个阶段,分别为1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;
1)数据准备阶段的步骤包括:
1.1)数据采集:用特定传感设备采集目标应用场景下的待识别视频,所述目标应用场景包括但是不限于路面损伤识别、金属材料表面损伤识别、陶瓷制品损伤识别,所述传感设备包括但不限于摄像机、扫描仪等具有拍摄功能的各种视频采集设备;
1.2)视频清洗:将步骤1.1)得到的视频逐帧进行筛选,去除非正常拍摄视频帧和重复视频帧;将清洗过的所有视频帧作为原图像保存,同时保存所有视频帧之间的时序关系;所述时序关系是指视频帧在视频中时间上的先后顺序关系;
1.3)视频帧标注:对步骤1.2)得到的所有视频帧逐个进行语义分割标注;在进行语义分割标注前需先确定损伤类别的总数,并赋予每个损伤类一个唯一的类别标签值;所述语义分割标注是指通过图像标注工具,生成和原图像分辨率相同的标签图像;所述标签图像中各个位置的像素点的像素值表示原图像中对应位置的像素点所属类别;所述类别标签值和所述标签图像中像素点的像素值之间是一对一关系;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照合适比例划分为训练集和测试集;所述合适比例包括但不限于训练集样本量比测试集样本量等于8比2、9比1;训练集可以再次划分出一个子集作为验证集,也可以不划分验证集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入所述深度神经网络模型中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于所述深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法对所述深度神经网络模型中可训练参数进行调整;训练集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;
2.2.2)如果存在验证集,那么每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入所述深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)所述模型优化算法包括但是不限于Adam、SGD、RMSprop、Adagrad;模型优化过程涉及的超参数,包括但不限于学习率、权重衰减率;模型训练过程中可选择性地使用学习率衰减、权重衰减、早停等策略中的一种或者多种;通过手动搜索、随机搜索、网格搜索等方式获得设计超参数确定实验,重复步骤2.2.1)和2.2.2),找出最优的超参数组合;
2.2.4)如果存在验证集,则将验证集中所有样本扩充到训练集中,所述扩充操作完成后,验证集视为不存在;再次执行步骤2.2.1) ,并在训练过程中持续保存所述深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
3.2)将步骤2.2.4)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.4)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取视频,直接从摄像头等设备中读取视频,或者从保存到本地的视频中读取视频;
4.2)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到所述深度神经网络模型中,模型的输出就是所述图像帧对应的标签图像的预测值;从上述标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域;
所述特征提取子模块:经典的图像分类神经网络去除全连接层之后的骨干网络;所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络;上述骨干网络通常由几个特征提取阶段组成,上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成;所述特征提取阶段输出的特征向量相比于输入的特征向量,空间尺寸缩减一半,通道数扩大一倍;
所述特征扩张子模块:通常由几个特征恢复阶段组成,上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成;通过上采样操作将输入的特征向量的空间尺寸扩大,恢复到原输入图像的空间尺寸大小;所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值;所述特征恢复阶段输出的特征向量相比于输入的特征向量,空间尺寸扩大一倍,通道数缩减一半;
所述高层次语义上下文提取模块:分为两个阶段;第一个阶段,对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量,使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合,记为第一个阶段的特征向量;然后通过并行的多路池化操作,提取所述第一个阶段的特征向量的各个局部的全局上下文信息,之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息,进行特征融合;
所述特征传播模块:与一般的自注意力机制类似;总体流程是,先通过多层感知机编码计算获得前N帧的K、V向量以及当前帧的Q、V向量,然后通过矩阵点积计算当前帧的Q向量和前N帧的K向量之间的相似度,之后除以K向量的通道数的平方根进行尺度调整,最后通过softmax归一化,结果作为前N帧的V向量的权重,之后求前N帧的V向量的带权和,得到了前N帧传播到当前帧的特征向量;最后和当前帧的V向量之间通过矩阵加法实现特征融合;所述N取值范围为正整数集合;
所述的基于图像语义分割算法的损伤识别技术,其特征是所述损失函数是区域相关损失函数或者带权交叉熵损失函数;所述区域相关损失函数包括但不限于IoU Loss、Dice Loss、Tversky loss;
p表示每批次中所有待识别图像中的所有像素的预测类别概率,
q表示每批次中所有待识别图像对应的标签图像中的所有像素的真实类别;
所述性能评估函数包括但不限于:像素准确率PA、平均交并比MIoU、频权交并比FWIoU、Dice系数;
公式中:
k表示待识别图像中的像素的类别数,
Pii表示真正,真正即为每批次待识别图像中的像素预测类别概率最大的类别和待识别图像对应的标签图像中的像素的真实类别相同的像素的总数;
Pij为假正,假正即为每批次待识别图像中的像素预测类别概率最大的类别为j类和待识别图像对应的标签图像中的像素的真实类别为i类的像素的总数;
Pji为假负,假负即为每批次待识别图像中的像素预测类别概率最大的类别为i类和待识别图像对应的标签图像中的像素的真实类别为j类的像素的总数;
本发明的有益效果为:
1)本技术方案实现了智能实时损伤识别,可以取代或者辅助人工实现识别;
2)本技术方案通过注意力传播模块,充分利用相邻视频帧之间的关联信息,与逐帧处理的方法相比精度更高;
3)本技术方案中采用了模型压缩的方法,缩减了模型规模、参数量和浮点操作次数,因而速度更快,投入运行所需占用内存和处理机资源更少;
附图说明:
图1是本方法实施例的流程示意图;
图2是本方法神经网络模型结构图;
具体实施方式:
如图1,本具体实施方式的两个实施例分别为:
实施例1
本实例为工业机床损伤识别,分为四个阶段,分别为1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;需要说明的是下述的损伤类别包括裂纹、凹坑、烧伤;也包括无损伤的类别,即背景类;下述的损失函数是Dice Loss,性能评估函数为MIoU;
1)数据准备阶段的步骤包括:
1.1)数据采集:用摄像机和孔探摄像头采集工业机床表面和内部的视频;
1.2)视频清洗:将步骤1.1)得到的视频逐帧进行筛选,去除非正常拍摄视频帧和重复视频帧;将清洗过的所有视频帧作为原图像保存,同时保存所有视频帧之间的时序关系;所述时序关系是指视频帧在视频中时间上的先后顺序关系;
1.3)视频帧标注:对步骤1.2)得到的所有原图像使用Labelme工具逐个进行语义分割标注;类别总数为4,背景类、裂纹类、凹坑类、烧伤类的类别标签值分别为0、1、2、3;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照8:1:1的比例划分为训练集、验证集和测试集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入所述深度神经网络模型中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于所述深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法对所述深度神经网络模型中可训练参数进行调整;训练集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;
2.2.2)如果存在验证集,那么每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入所述深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)所述模型优化算法包括但是不限于Adam、SGD、RMSprop、Adagrad;模型优化过程涉及的超参数,包括但不限于学习率、权重衰减率;模型训练过程中可选择性地使用学习率衰减、权重衰减、早停等策略中的一种或者多种;通过手动搜索、随机搜索、网格搜索等方式获得设计超参数确定实验,重复步骤2.2.1)和2.2.2),找出最优的超参数组合;
2.2.4)如果存在验证集,则将验证集中所有样本扩充到训练集中,所述扩充操作完成后,验证集视为不存在;再次执行步骤2.2.1) ,并在训练过程中持续保存所述深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
3.2)将步骤2.2.3)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.3)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取视频,直接从摄像头等设备中读取视频,或者从保存到本地的视频中读取视频;
4.2)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到深度神经网络模型中,模型的输出就是图像帧对应的标签图像的预测值;从标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域;
上述特征提取子模块:经典的图像分类神经网络去除全连接层之后的骨干网络;所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络;上述骨干网络通常由几个特征提取阶段组成,上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成;所述特征提取阶段输出的特征向量相比于输入的特征向量,空间尺寸缩减一半,通道数扩大一倍;
上述特征扩张子模块:通常由几个特征恢复阶段组成,上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成;通过上采样操作将输入的特征向量的空间尺寸扩大,恢复到原输入图像的空间尺寸大小;所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值;所述特征恢复阶段输出的特征向量相比于输入的特征向量,空间尺寸扩大一倍,通道数缩减一半;
上述高层次语义上下文提取模块:分为两个阶段;第一个阶段,对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量,使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合,记为第一个阶段的特征向量;然后通过并行的多路池化操作,提取所述第一个阶段的特征向量的各个局部的全局上下文信息,之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息,进行特征融合;
上述特征传播模块:与一般的自注意力机制类似;总体流程是,先通过多层感知机编码计算获得前N帧的K、V向量以及当前帧的Q、V向量,然后通过矩阵点积计算当前帧的Q向量和前N帧的K向量之间的相似度,之后除以K向量的通道数的平方根进行尺度调整,最后通过softmax归一化,结果作为前N帧的V向量的权重,之后求前N帧的V向量的带权和,得到了前N帧传播到当前帧的特征向量;最后和当前帧的V向量之间通过矩阵加法实现特征融合;所述N取值范围为正整数集合;
实施例2
本实例为水泥路面损伤识别,分为四个阶段,分别为1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;需要说明的是下述的损伤类别包括裂纹、凹坑;也包括无损伤的类别,即背景类;下述的损失函数是Dice Loss,性能评估函数为FWIoU;
1)数据准备阶段的步骤包括:
1.1)数据采集:用摄像机或车载摄像头采集道路表面的视频;
1.2)视频清洗:将步骤1.1)得到的视频逐帧进行筛选,去除非正常拍摄视频帧和重复视频帧;将清洗过的所有视频帧作为原图像保存,同时保存所有视频帧之间的时序关系;所述时序关系是指视频帧在视频中时间上的先后顺序关系;
1.3)视频帧标注:对步骤1.2)得到的所有图像使用Labelme工具逐个进行语义分割标注;类别总数为3,背景类、裂纹类、凹坑类的类别标签值分别为0、1、2;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照8:1:1的比例划分为训练集、验证集和测试集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入所述深度神经网络模型中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于所述深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法对所述深度神经网络模型中可训练参数进行调整;训练集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;
2.2.2)如果存在验证集,那么每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入所述深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)所述模型优化算法包括但是不限于Adam、SGD、RMSprop、Adagrad;模型优化过程涉及的超参数,包括但不限于学习率、权重衰减率;模型训练过程中可选择性地使用学习率衰减、权重衰减、早停等策略中的一种或者多种;通过手动搜索、随机搜索、网格搜索等方式获得设计超参数确定实验,重复步骤2.2.1)和2.2.2),找出最优的超参数组合;
2.2.4)如果存在验证集,则将验证集中所有样本扩充到训练集中,所述扩充操作完成后,验证集视为不存在;再次执行步骤2.2.1) ,并在训练过程中持续保存所述深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
3.2)将步骤2.2.4)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.4)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取视频,直接从摄像头等设备中读取视频,或者从保存到本地的视频中读取视频;
4.2)搭建深度神经网络,如图2所示,分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到深度神经网络模型中,模型的输出就是图像帧对应的标签图像的预测值;从标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域;
上述特征提取子模块:经典的图像分类神经网络去除全连接层之后的骨干网络;所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络;上述骨干网络通常由几个特征提取阶段组成,上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成;所述特征提取阶段输出的特征向量相比于输入的特征向量,空间尺寸缩减一半,通道数扩大一倍;
上述特征扩张子模块:通常由几个特征恢复阶段组成,上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成;通过上采样操作将输入的特征向量的空间尺寸扩大,恢复到原输入图像的空间尺寸大小;所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值;所述特征恢复阶段输出的特征向量相比于输入的特征向量,空间尺寸扩大一倍,通道数缩减一半;
上述高层次语义上下文提取模块:分为两个阶段;第一个阶段,对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量,使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合,记为第一个阶段的特征向量;然后通过并行的多路池化操作,提取所述第一个阶段的特征向量的各个局部的全局上下文信息,之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息,进行特征融合;
上述特征传播模块:与一般的自注意力机制类似;总体流程是,先通过多层感知机编码计算获得前N帧的K、V向量以及当前帧的Q、V向量,然后通过矩阵点积计算当前帧的Q向量和前N帧的K向量之间的相似度,之后除以K向量的通道数的平方根进行尺度调整,最后通过softmax归一化,结果作为前N帧的V向量的权重,之后求前N帧的V向量的带权和,得到了前N帧传播到当前帧的特征向量;最后和当前帧的V向量之间通过矩阵加法实现特征融合;所述N取值范围为正整数集合;
本发明未尽事宜为公知技术;
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围;凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (3)
1.基于视频语义分割算法的损伤识别技术,其特征在于:包括1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;
1)数据准备阶段的步骤包括:
1.1)数据采集:用特定传感设备采集目标应用场景下的待识别视频,所述目标应用场景包括但是不限于路面损伤识别、金属材料表面损伤识别、陶瓷制品损伤识别,所述传感设备包括但不限于摄像机、扫描仪等具有拍摄功能的各种视频采集设备;
1.2)视频清洗:将步骤1.1)得到的视频逐帧进行筛选,去除非正常拍摄视频帧和重复视频帧;将清洗过的所有视频帧作为原图像保存,同时保存所有视频帧之间的时序关系;所述时序关系是指视频帧在视频中时间上的先后顺序关系;
1.3)视频帧标注:对步骤1.2)得到的所有视频帧逐个进行语义分割标注;在进行语义分割标注前需先确定损伤类别的总数,并赋予每个损伤类一个唯一的类别标签值;所述语义分割标注是指通过图像标注工具,生成和原图像分辨率相同的标签图像;所述标签图像中各个位置的像素点的像素值表示原图像中对应位置的像素点所属类别;所述类别标签值和所述标签图像中像素点的像素值之间是一对一关系;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照合适比例划分为训练集和测试集;所述合适比例包括但不限于训练集样本量比测试集样本量等于8比2、9比1;训练集可以再次划分出一个子集作为验证集,也可以不划分验证集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入所述深度神经网络模型中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于所述深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法对所述深度神经网络模型中可训练参数进行调整;训练集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;
2.2.2)如果存在验证集,那么每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入所述深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)所述模型优化算法包括但是不限于Adam、SGD、RMSprop、Adagrad;模型优化过程涉及的超参数,包括但不限于学习率、权重衰减率;模型训练过程中可选择性地使用学习率衰减、权重衰减、早停等策略中的一种或者多种;通过手动搜索、随机搜索、网格搜索等方式获得设计超参数确定实验,重复步骤2.2.1)和2.2.2),找出最优的超参数组合;
2.2.4)如果存在验证集,则将验证集中所有样本扩充到训练集中,所述扩充操作完成后,验证集视为不存在;再次执行步骤2.2.1) ,并在训练过程中持续保存所述深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
3.2)将步骤2.2.4)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.4)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取视频,直接从摄像头等设备中读取视频,或者从保存到本地的视频中读取视频;
4.2)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到所述深度神经网络模型中,模型的输出就是所述图像帧对应的标签图像的预测值;从上述标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域。
2.权利要求1中所述的深度神经网络,其特征是:
1)特征提取子模块:经典的图像分类神经网络去除全连接层之后的骨干网络;所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络;上述骨干网络通常由几个特征提取阶段组成,上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成;所述特征提取阶段输出的特征向量相比于输入的特征向量,空间尺寸缩减一半,通道数扩大一倍;
2)特征扩张子模块:通常由几个特征恢复阶段组成,上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成;通过上采样操作将输入的特征向量的空间尺寸扩大,恢复到原输入图像的空间尺寸大小;所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值;所述特征恢复阶段输出的特征向量相比于输入的特征向量,空间尺寸扩大一倍,通道数缩减一半;
3)高层次语义上下文提取模块:分为两个阶段;第一个阶段,对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量,使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合,记为第一个阶段的特征向量;然后通过并行的多路池化操作,提取所述第一个阶段的特征向量的各个局部的全局上下文信息,之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息,进行特征融合;
4)特征传播模块:与一般的自注意力机制类似;总体流程是,先通过多层感知机编码计算获得前N帧的K、V向量以及当前帧的Q、V向量,然后通过矩阵点积计算当前帧的Q向量和前N帧的K向量之间的相似度,之后除以K向量的通道数的平方根进行尺度调整,最后通过softmax归一化,结果作为前N帧的V向量的权重,之后求前N帧的V向量的带权和,得到了前N帧传播到当前帧的特征向量;最后和当前帧的V向量之间通过矩阵加法实现特征融合;所述N取值范围为正整数集合。
3. 权利要求1所述的视频语义分割算法的损伤识别技术,其特征是所述损失函数是区域相关损失函数或者带权交叉熵损失函数;所述区域相关损失函数包括但不限于IoULoss、Dice Loss、Tversky loss;所述性能评估函数包括但不限于:像素准确率PA、平均交并比MIoU、频权交并比FWIoU、Dice系数、交并比IoU。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111513075.6A CN114155474A (zh) | 2021-12-12 | 2021-12-12 | 基于视频语义分割算法的损伤识别技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111513075.6A CN114155474A (zh) | 2021-12-12 | 2021-12-12 | 基于视频语义分割算法的损伤识别技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114155474A true CN114155474A (zh) | 2022-03-08 |
Family
ID=80450801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111513075.6A Pending CN114155474A (zh) | 2021-12-12 | 2021-12-12 | 基于视频语义分割算法的损伤识别技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155474A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581425A (zh) * | 2022-03-10 | 2022-06-03 | 四川大学 | 一种基于深度神经网络的心肌段缺损图像处理方法 |
CN115294282A (zh) * | 2022-08-19 | 2022-11-04 | 中国矿业大学 | 三维场景重建中增强特征融合的单目深度估计系统及其方法 |
CN116456184A (zh) * | 2023-06-19 | 2023-07-18 | 北京博点智合科技有限公司 | 一种调整摄像头安装点位的方法、装置、设备及存储介质 |
CN117726624A (zh) * | 2024-02-07 | 2024-03-19 | 北京长木谷医疗科技股份有限公司 | 一种视频流下实时腺样体病变智能识别评估方法及装置 |
-
2021
- 2021-12-12 CN CN202111513075.6A patent/CN114155474A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581425A (zh) * | 2022-03-10 | 2022-06-03 | 四川大学 | 一种基于深度神经网络的心肌段缺损图像处理方法 |
CN115294282A (zh) * | 2022-08-19 | 2022-11-04 | 中国矿业大学 | 三维场景重建中增强特征融合的单目深度估计系统及其方法 |
CN116456184A (zh) * | 2023-06-19 | 2023-07-18 | 北京博点智合科技有限公司 | 一种调整摄像头安装点位的方法、装置、设备及存储介质 |
CN116456184B (zh) * | 2023-06-19 | 2023-09-08 | 北京博点智合科技有限公司 | 一种调整摄像头安装点位的方法、装置、设备及存储介质 |
CN117726624A (zh) * | 2024-02-07 | 2024-03-19 | 北京长木谷医疗科技股份有限公司 | 一种视频流下实时腺样体病变智能识别评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111461190B (zh) | 一种基于深度卷积神经网络的非均衡船舶分类方法 | |
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
CN114155474A (zh) | 基于视频语义分割算法的损伤识别技术 | |
CN113436169B (zh) | 一种基于半监督语义分割的工业设备表面裂纹检测方法及系统 | |
CN111028217A (zh) | 一种基于全卷积神经网络的图像裂缝分割方法 | |
CN113516012A (zh) | 一种基于多层级特征融合的行人重识别方法及系统 | |
CN110610210B (zh) | 一种多目标检测方法 | |
CN111680705B (zh) | 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 | |
CN114973032A (zh) | 一种基于深度卷积神经网络的光伏板热斑检测方法及装置 | |
CN111753682A (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN110599459A (zh) | 基于深度学习的地下管网风险评估云系统 | |
Hussain et al. | A simple and efficient deep learning-based framework for automatic fruit recognition | |
CN115019103A (zh) | 基于坐标注意力群组优化的小样本目标检测方法 | |
CN115690668A (zh) | 基于图像语义分割算法的损伤识别技术 | |
CN114092467A (zh) | 一种基于轻量化卷积神经网络的划痕检测方法及系统 | |
CN114170422A (zh) | 一种煤矿井下图像语义分割方法 | |
CN114399763A (zh) | 一种单样本与小样本微体古生物化石图像识别方法及系统 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN116912670A (zh) | 基于改进yolo模型的深海鱼类识别方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN115661932A (zh) | 一种垂钓行为检测方法 | |
Jia et al. | A Novel Fault Inspection Method of Steel Plate Surface | |
CN110599460A (zh) | 基于混合卷积神经网络的地下管网检测评估云系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220308 |