CN114155474A

CN114155474A - 基于视频语义分割算法的损伤识别技术

Info

Publication number: CN114155474A
Application number: CN202111513075.6A
Authority: CN
Inventors: 菅政
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-12-12
Filing date: 2021-12-12
Publication date: 2022-03-08

Abstract

基于视频语义分割算法的损伤识别技术，步骤包括：(1)采集待识别视频样本，将视频帧按时序保存作为原图像，进行数据预处理，并标记所有原图像，构建视频语义分割数据集，然后划分数据集；(2)搭建深度卷积神经网络，所述深度卷积神经网络包括特征提取模块、特征扩张模块、高层次语义上下文提取模块、特征传播模块；(3)利用梯度反向传播算法和梯度下降优化算法在训练集上训练深度卷积神经网络，用性能评估函数评估网络性能，将达到预设指标且性能最佳的卷积神经网络参数保存；(4)将步骤(3)保存的参数加载到所述深度卷积神经网络中，输入从本地或者光学传感设备中读取到的视频帧，显示输出的分割结果图。

Description

基于视频语义分割算法的损伤识别技术

技术领域

本发明属于损伤智能识别领域，具体是一种基于视频语义分割算法的损伤识别技术，是深度神经网络模型和对数据集的预处理方法在损伤智能识别领域的工程应用。

背景技术

损伤是金属、陶瓷、玻璃等材料由于应力或者温度、湿度等环境因素的影响所产生的瑕疵；随着计算机科学的蓬勃发展，损伤识别方法从最早的人工观测损伤识别过渡到依靠电子设备实现的智能损伤识别；避免了纯人工损伤识别方法的诸多弊端，诸如损伤识别的效率低下，且存在遗漏，识别结果通常仅仅描述是否存在损伤，而并不对损伤的位置和所在像素区域进行描述；

目前，基于深度学习的损伤识别方法，研究对象多为计算机图像，通过深度卷积神经网络实现对损伤图像的分类、检测、分割；但是实际应用中，对待检测的器械或者基础设施全方位拍摄图像，然后进行检测的方法显然费时费力，甚至可能花费的总时间比人工肉眼检测还要长；更常用也更实际的方法是通过摄像头采集视频数据，然后通过深度学习算法对视频进行处理，对视频中的损伤进行分类、分割、检测；

由于视频可以被看作是连续的图像帧的集合，对于视频的处理可以通过对视频帧所有帧进行逐帧处理，间接实现对视频的处理；显然，这样的方法存在许多问题；第一，将视频视作孤立的图像，忽略了视频的时间上下文信息，没有利用视频的连续帧之间的关联信息，对于可能存在的冗余帧没有采用更廉价的处理手段；第二，一段总长N分钟，FPS为24的视频，帧数为1440N，可见视频帧的数量往往是巨大的，采用逐帧处理的方法实时性差；处理速度慢导致帧率过低，在视觉效果上往往是卡顿的；第三，视频中帧质量无法保证，存在一些帧未聚焦、拍摄角度或者拍摄目标的动作过于稀少，这不仅会影响神经网络的训练，影响神经网络参数的收敛速度，而且也影响神经网络的实际使用；由于无法充分学习到稀有帧的特征，所以在实际应用中遇到这样的帧处理的结果不理想；

当下，视频语义分割的两个主要的困难分别为准确度和实时性不可兼得、视频数据标注耗时耗力；现有的公开的视频语义分割数据集中，大多数都仅仅标注了一部分帧；通常是每个小片段有一帧带有标注，而其他的帧都没有标注。

发明内容

本发明的目的在于提出了一种精度更高，速度更快，占用内存和处理机资源更少的基于视频语义分割算法的损伤智能识别技术，本发明技术方案的设计思路如下：

分为四个阶段，分别为1）数据准备阶段、2）模型训练阶段、3）模型测试阶段、4）实际应用阶段；

1）数据准备阶段的步骤包括：

1.1）数据采集：用特定传感设备采集目标应用场景下的待识别视频，所述目标应用场景包括但是不限于路面损伤识别、金属材料表面损伤识别、陶瓷制品损伤识别，所述传感设备包括但不限于摄像机、扫描仪等具有拍摄功能的各种视频采集设备；

1.2）视频清洗：将步骤1.1）得到的视频逐帧进行筛选，去除非正常拍摄视频帧和重复视频帧；将清洗过的所有视频帧作为原图像保存，同时保存所有视频帧之间的时序关系；所述时序关系是指视频帧在视频中时间上的先后顺序关系；

1.3）视频帧标注：对步骤1.2）得到的所有视频帧逐个进行语义分割标注；在进行语义分割标注前需先确定损伤类别的总数，并赋予每个损伤类一个唯一的类别标签值；所述语义分割标注是指通过图像标注工具，生成和原图像分辨率相同的标签图像；所述标签图像中各个位置的像素点的像素值表示原图像中对应位置的像素点所属类别；所述类别标签值和所述标签图像中像素点的像素值之间是一对一关系；标注完成之后，每张图像和其对应的标签图像作为一个样本，所有的样本共同构成了一个数据集；

1.4）数据集划分：对步骤1.3）得到的数据集进行划分；原图像和其对应的标签图像作为一个样本，也是划分的最小单元；将数据集按照合适比例划分为训练集和测试集；所述合适比例包括但不限于训练集样本量比测试集样本量等于8比2、9比1；训练集可以再次划分出一个子集作为验证集，也可以不划分验证集；

2）模型训练阶段的步骤包括：

2.1）搭建深度神经网络；所述深度神经网络可以分为四个模块，依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块；

2.2）训练深度神经网络：

2.2.1）将训练集中所有样本的原图像分批输入所述深度神经网络模型中，将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中，得到损失值和评估指标值；然后计算损失值对于所述深度神经网络模型中各个可训练参数的梯度；然后通过模型优化算法对所述深度神经网络模型中可训练参数进行调整；训练集中所有样本分批进行上述训练过程，所有批次结束后视作一个轮次；

2.2.2）如果存在验证集，那么每经过一个或者几个训练轮次，将所有验证集中样本的原图像分批输入所述深度神经网络中，将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中，得到损失值和评估指标值；

2.2.3）所述模型优化算法包括但是不限于Adam、SGD、RMSprop、Adagrad；模型优化过程涉及的超参数,包括但不限于学习率、权重衰减率；模型训练过程中可选择性地使用学习率衰减、权重衰减、早停等策略中的一种或者多种；通过手动搜索、随机搜索、网格搜索等方式获得设计超参数确定实验,重复步骤2.2.1)和2.2.2)，找出最优的超参数组合；

2.2.4）如果存在验证集，则将验证集中所有样本扩充到训练集中，所述扩充操作完成后，验证集视为不存在；再次执行步骤2.2.1) ,并在训练过程中持续保存所述深度神经网络模型的最优参数；

3）模型测试阶段的步骤包括：

3.1）搭建深度神经网络；所述深度神经网络可以分为四个模块，依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块；

3.2）将步骤2.2.4）中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估；

3.3）将所有测试集中样本的原图像分批输入深度神经网络中，将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中，得到损失值和评估指标值；

3.4）重复步骤3.2）、3.3），评估步骤2.2.4）中保存的所有模型参数，选出损失值最低或者评估指标值最高的参数供实际使用阶段使用；

4）实际应用阶段的步骤包括：

4.1）读取视频，直接从摄像头等设备中读取视频，或者从保存到本地的视频中读取视频；

4.2）搭建深度神经网络；所述深度神经网络可以分为四个模块，依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块；

4.3）将步骤3.4）中保存的模型参数加载到搭建好的深度神经网络模型中准备使用；

4.4）将4.1）中读取到的图像帧进行预处理之后输入到所述深度神经网络模型中，模型的输出就是所述图像帧对应的标签图像的预测值；从上述标签图像的预测值中可以获得以下信息：图像帧中是否含有损伤；含有哪些类型的损伤；损伤的位置；损伤所在的像素区域；

所述特征提取子模块：经典的图像分类神经网络去除全连接层之后的骨干网络；所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络；上述骨干网络通常由几个特征提取阶段组成，上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成；所述特征提取阶段输出的特征向量相比于输入的特征向量，空间尺寸缩减一半，通道数扩大一倍；

所述特征扩张子模块：通常由几个特征恢复阶段组成，上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成；通过上采样操作将输入的特征向量的空间尺寸扩大，恢复到原输入图像的空间尺寸大小；所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值；所述特征恢复阶段输出的特征向量相比于输入的特征向量，空间尺寸扩大一倍，通道数缩减一半；

所述高层次语义上下文提取模块：分为两个阶段；第一个阶段，对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量，使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合，记为第一个阶段的特征向量；然后通过并行的多路池化操作，提取所述第一个阶段的特征向量的各个局部的全局上下文信息，之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息，进行特征融合；

所述特征传播模块：与一般的自注意力机制类似；总体流程是，先通过多层感知机编码计算获得前N帧的K、V向量以及当前帧的Q、V向量，然后通过矩阵点积计算当前帧的Q向量和前N帧的K向量之间的相似度，之后除以K向量的通道数的平方根进行尺度调整，最后通过softmax归一化，结果作为前N帧的V向量的权重，之后求前N帧的V向量的带权和，得到了前N帧传播到当前帧的特征向量；最后和当前帧的V向量之间通过矩阵加法实现特征融合；所述N取值范围为正整数集合；

所述的基于图像语义分割算法的损伤识别技术，其特征是所述损失函数是区域相关损失函数或者带权交叉熵损失函数；所述区域相关损失函数包括但不限于IoU Loss、Dice Loss、Tversky loss；

p表示每批次中所有待识别图像中的所有像素的预测类别概率，

q表示每批次中所有待识别图像对应的标签图像中的所有像素的真实类别；

所述性能评估函数包括但不限于：像素准确率PA、平均交并比MIoU、频权交并比FWIoU、Dice系数；

公式中：

k表示待识别图像中的像素的类别数，

P_ii表示真正，真正即为每批次待识别图像中的像素预测类别概率最大的类别和待识别图像对应的标签图像中的像素的真实类别相同的像素的总数；

P_ij为假正，假正即为每批次待识别图像中的像素预测类别概率最大的类别为j类和待识别图像对应的标签图像中的像素的真实类别为i类的像素的总数；

P_ji为假负，假负即为每批次待识别图像中的像素预测类别概率最大的类别为i类和待识别图像对应的标签图像中的像素的真实类别为j类的像素的总数；

本发明的有益效果为：

1）本技术方案实现了智能实时损伤识别，可以取代或者辅助人工实现识别；

2）本技术方案通过注意力传播模块，充分利用相邻视频帧之间的关联信息，与逐帧处理的方法相比精度更高；

3）本技术方案中采用了模型压缩的方法，缩减了模型规模、参数量和浮点操作次数，因而速度更快，投入运行所需占用内存和处理机资源更少；

附图说明：

图1是本方法实施例的流程示意图；

图2是本方法神经网络模型结构图；

具体实施方式：

如图1，本具体实施方式的两个实施例分别为：

实施例1

本实例为工业机床损伤识别，分为四个阶段，分别为1）数据准备阶段、2）模型训练阶段、3）模型测试阶段、4）实际应用阶段；需要说明的是下述的损伤类别包括裂纹、凹坑、烧伤；也包括无损伤的类别，即背景类；下述的损失函数是Dice Loss，性能评估函数为MIoU；

1）数据准备阶段的步骤包括：

1.1）数据采集：用摄像机和孔探摄像头采集工业机床表面和内部的视频；

1.3）视频帧标注：对步骤1.2）得到的所有原图像使用Labelme工具逐个进行语义分割标注；类别总数为4，背景类、裂纹类、凹坑类、烧伤类的类别标签值分别为0、1、2、3；标注完成之后，每张图像和其对应的标签图像作为一个样本，所有的样本共同构成了一个数据集；

1.4）数据集划分：对步骤1.3）得到的数据集进行划分；原图像和其对应的标签图像作为一个样本，也是划分的最小单元；将数据集按照8：1：1的比例划分为训练集、验证集和测试集；

2）模型训练阶段的步骤包括：

2.1）搭建深度神经网络，如图2所示，分为四个模块，依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块；

2.2）训练深度神经网络：

3）模型测试阶段的步骤包括：

3.1）搭建深度神经网络，如图2所示，分为四个模块，依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块；

3.2）将步骤2.2.3）中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估；

3.3）将所有测试集中样本的原图像分批输入深度神经网络中，将深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中，得到损失值和评估指标值；

3.4）重复步骤3.2）、3.3），评估步骤2.2.3）中保存的所有模型参数，选出损失值最低或者评估指标值最高的参数供实际使用阶段使用；

4）实际应用阶段的步骤包括：

4.2）搭建深度神经网络，如图2所示，分为四个模块，依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块；

4.4）将4.1）中读取到的图像帧进行预处理之后输入到深度神经网络模型中，模型的输出就是图像帧对应的标签图像的预测值；从标签图像的预测值中可以获得以下信息：图像帧中是否含有损伤；含有哪些类型的损伤；损伤的位置；损伤所在的像素区域；

上述特征提取子模块：经典的图像分类神经网络去除全连接层之后的骨干网络；所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络；上述骨干网络通常由几个特征提取阶段组成，上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成；所述特征提取阶段输出的特征向量相比于输入的特征向量，空间尺寸缩减一半，通道数扩大一倍；

上述特征扩张子模块：通常由几个特征恢复阶段组成，上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成；通过上采样操作将输入的特征向量的空间尺寸扩大，恢复到原输入图像的空间尺寸大小；所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值；所述特征恢复阶段输出的特征向量相比于输入的特征向量，空间尺寸扩大一倍，通道数缩减一半；

上述高层次语义上下文提取模块：分为两个阶段；第一个阶段，对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量，使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合，记为第一个阶段的特征向量；然后通过并行的多路池化操作，提取所述第一个阶段的特征向量的各个局部的全局上下文信息，之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息，进行特征融合；

上述特征传播模块：与一般的自注意力机制类似；总体流程是，先通过多层感知机编码计算获得前N帧的K、V向量以及当前帧的Q、V向量，然后通过矩阵点积计算当前帧的Q向量和前N帧的K向量之间的相似度，之后除以K向量的通道数的平方根进行尺度调整，最后通过softmax归一化，结果作为前N帧的V向量的权重，之后求前N帧的V向量的带权和，得到了前N帧传播到当前帧的特征向量；最后和当前帧的V向量之间通过矩阵加法实现特征融合；所述N取值范围为正整数集合；

实施例2

本实例为水泥路面损伤识别，分为四个阶段，分别为1）数据准备阶段、2）模型训练阶段、3）模型测试阶段、4）实际应用阶段；需要说明的是下述的损伤类别包括裂纹、凹坑；也包括无损伤的类别，即背景类；下述的损失函数是Dice Loss，性能评估函数为FWIoU；

1）数据准备阶段的步骤包括：

1.1）数据采集：用摄像机或车载摄像头采集道路表面的视频；

1.3）视频帧标注：对步骤1.2）得到的所有图像使用Labelme工具逐个进行语义分割标注；类别总数为3，背景类、裂纹类、凹坑类的类别标签值分别为0、1、2；标注完成之后，每张图像和其对应的标签图像作为一个样本，所有的样本共同构成了一个数据集；

2）模型训练阶段的步骤包括：

2.2）训练深度神经网络：

3）模型测试阶段的步骤包括：

4）实际应用阶段的步骤包括：

本发明未尽事宜为公知技术；

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围；凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.基于视频语义分割算法的损伤识别技术，其特征在于：包括1）数据准备阶段、2）模型训练阶段、3）模型测试阶段、4）实际应用阶段；

1）数据准备阶段的步骤包括：

2）模型训练阶段的步骤包括：

2.2）训练深度神经网络：

3）模型测试阶段的步骤包括：

4）实际应用阶段的步骤包括：

4.4）将4.1）中读取到的图像帧进行预处理之后输入到所述深度神经网络模型中，模型的输出就是所述图像帧对应的标签图像的预测值；从上述标签图像的预测值中可以获得以下信息：图像帧中是否含有损伤；含有哪些类型的损伤；损伤的位置；损伤所在的像素区域。

2.权利要求1中所述的深度神经网络，其特征是：

1）特征提取子模块：经典的图像分类神经网络去除全连接层之后的骨干网络；所述图像分类神经网络包括但是不限于VGG系列网络、ResNet系列网络、DenseNet系列网络、MobileNet系列网络；上述骨干网络通常由几个特征提取阶段组成，上述特征提取阶段由级联的卷积、批正则化、非线性激活以及池化操作组成；所述特征提取阶段输出的特征向量相比于输入的特征向量，空间尺寸缩减一半，通道数扩大一倍；

2）特征扩张子模块：通常由几个特征恢复阶段组成，上述特征恢复阶段由级联的卷积、批正则化、非线性激活以及上采样操作组成；通过上采样操作将输入的特征向量的空间尺寸扩大，恢复到原输入图像的空间尺寸大小；所述的上采样操作包括但不限于转置卷积、最近邻插值、线性插值、双线性插值；所述特征恢复阶段输出的特征向量相比于输入的特征向量，空间尺寸扩大一倍，通道数缩减一半；

3）高层次语义上下文提取模块：分为两个阶段；第一个阶段，对输入的特征向量通过并行的多路级联的空洞卷积提取各个高层次的特征向量，使用向量加法将输入的特征向量和各个高层次的特征向量进行特征融合，记为第一个阶段的特征向量；然后通过并行的多路池化操作，提取所述第一个阶段的特征向量的各个局部的全局上下文信息，之后按照通道维度堆叠所述第一个阶段的特征向量和全局上下文信息，进行特征融合；

4）特征传播模块：与一般的自注意力机制类似；总体流程是，先通过多层感知机编码计算获得前N帧的K、V向量以及当前帧的Q、V向量，然后通过矩阵点积计算当前帧的Q向量和前N帧的K向量之间的相似度，之后除以K向量的通道数的平方根进行尺度调整，最后通过softmax归一化，结果作为前N帧的V向量的权重，之后求前N帧的V向量的带权和，得到了前N帧传播到当前帧的特征向量；最后和当前帧的V向量之间通过矩阵加法实现特征融合；所述N取值范围为正整数集合。

3. 权利要求1所述的视频语义分割算法的损伤识别技术，其特征是所述损失函数是区域相关损失函数或者带权交叉熵损失函数；所述区域相关损失函数包括但不限于IoULoss、Dice Loss、Tversky loss；所述性能评估函数包括但不限于：像素准确率PA、平均交并比MIoU、频权交并比FWIoU、Dice系数、交并比IoU。