CN114612456A

CN114612456A - 一种基于深度学习的钢坯自动语义分割识别方法

Info

Publication number: CN114612456A
Application number: CN202210278396.0A
Authority: CN
Inventors: 张利欣; 南清荣; 徐正光
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-10
Anticipated expiration: 2042-03-21
Also published as: CN114612456B

Abstract

本发明涉及一种基于深度学习的钢坯自动语义分割识别方法，包括以下步骤：步骤S1、数据集准备，获得不同运动状态以及不同形态的钢坯图像，进行预处理和标注，建立原始数据集；步骤S2、构建语义分割网络模型；步骤S3、训练步骤S2中的语义分割网络模型；步骤S4、测试步骤，将待测图像输入到训练所得的语义分割网络模型，得到分割结果。本发明分割网络的骨干网络使用了轻量型网络，同时应用了非对称卷积和空洞卷积，在保持训练精度和推理速度的同时，获得了更大的感受野；其次通过多尺度特征提取和融合，加强了各级特征图之间的信息交互，提高模型的分割性能；最后在解码部分应用密集上采样策略，避免上采样时的信息丢失，进一步提高模型的分割精度。

Description

一种基于深度学习的钢坯自动语义分割识别方法

技术领域

本申请涉及图像处理与计算机视觉领域，具体涉及一种基于深度学习技术的钢坯自动语义分割识别方法。

背景技术

红外成像测温技术具有测量范围广、抗干扰能力强、非接触测量等特点，在工业、军事等领域广泛应用。获取加热炉内钢坯的表面温度一直是冶金工业应用研究的热点，随着红外测温技术的发展，使得加热炉钢坯表面温度的获取成为可能，而如何准确分割出炉口的钢坯图像是提取温度的关键环节，由于红外图像是通过“测量”物体向外辐射的热量而获得的，与可见光图像相比，红外图像存在分辨率较差，对比度和信噪比低等缺点，因此，红外图像的处理方法成为红外测温的关键。

在加热炉钢坯的红外测温实践中，发现对于一些粘连目标的边缘分割使用传统的阈值分割、边缘检测、区域法等基本都是利用图像的低级特征，如颜色、纹理和形状等信息，对于钢坯红外图像的分割效果不尽理想。近年来，随着计算机处理技术的快速发展，深度学习技术在图像识别、语义分割、目标检测等领域有了更加广泛的应用。区别于传统的分割方式，基于深度学习的语义分割的目标是预测图像中每个像素的类标签，通过大量样本的训练来自动学习各种场景下的特征，因此，具有更好的泛化能力和稳健性。现有的深度学习方法包括如下几种：

1)FCN网络结构

全卷积网络(Fully Convolutional Networks，FCN)是UC Berkeley的JonathanLong等人于2015年在Fully Convolutional Networks for Semantic Segmentation一文中提出的用于图像语义分割的一种框架。整体的网络结构分为两个部分：全卷积部分和反卷积部分。其中全卷积部分借用了一些经典的CNN网络(如AlexNet，VGG，GoogLeNet等)，并把最后的全连接层换成卷积，用于提取特征，形成热点图；反卷积部分则是将小尺寸的特征图上采样得到原尺寸的语义分割图像。FCN网络避免了由于使用像素块而带来的重复存储和计算卷积的问题，相比于传统的基于CNN网络更加高效，但也存在得到的结构不够精细的问题，对于图像的细节不够敏感，同时忽略了像素分类分割方法中的空间规整步骤，缺乏空间一致性。

2)UNet网络结构

Unet网络的典型特点是，它是U型对称结构，左侧是卷积层，右侧是上采样层，包含4个convolutional layer和对应的4个up sampling layer。Unet网络的每个卷积层得到的特征图都会concatenate到对应的上采样层，从而实现对每层特征图都有效使用到后续计算中。这样，同其他的一些网络结构比如FCN比较，Unet避免了直接在高级特征图中进行监督和损失计算，而是结合了低级特征图中的特征，从而可以使得最终所得到的特征图中既包含了高层特征，也包含很多的低层特征，实现了不同尺度下的特征融合，提高模型的结果精确度。但UNet网络的参数量较大，很难实现实时性的分割。

3)实时语义分割

目前提高网络分割速度的方法主要有以下几种途径，一是通过减少输入图像的分辨率来加快网络的预测速度，如BiseNet、DFANet等，但会在一定程度上丢失空间信息，尤其是边缘信息；二是通过压缩特征图的通道来减少计算消耗，如ENet、SegNet等，而通过这种方式会降低网络的特征提取能力；三是通过更少的下采样以追求更高的预测速度，如ESPNet、ERFNet等，这些网络有一个明显的缺陷是无法实现足够的感受野。

在冶金领域，获取加热炉内钢坯的表面温度一直是冶金工业应用研究的热点，随着红外测温技术的发展，使得加热炉钢坯表面温度的获取成为可能，而如何准确分割出炉口的钢坯图像是提取温度的关键环节，传统的方法存在红外图像分辨率低、目标图像检测方法精度低、检测速度慢等问题。

发明内容

为了解决上述技术问题，本发明提出了一种基于深度学习技术的钢坯自动分割识别方法，基于多尺度特征融合的实时分割网络模型，以解决现有方法在红外图像上识别效果不佳的问题，以及满足工业生产中实时性和准确性的要求。

本发明的技术方案为：一种基于深度学习技术的钢坯自动语义分割识别方法，包括以下步骤：

步骤S1、数据集准备，获得不同运动状态以及不同形态的钢坯图像，对获得的钢坯图像进行预处理，并对预处理后的钢坯图像进行标注，建立原始数据集；

步骤S2、构建语义分割网络模型，包括骨干网络、多尺度空间池化模块和密集上采样模块；

步骤S3、训练步骤S2中的构建的语义分割网络模型；

步骤S4、测试步骤，将待测图像输入到训练所得的语义分割网络模型，得到分割结果。

所述步骤S1中，以钢铁生产工业现场的监控视频为原始数据，通过在视频中截取关键帧，获得不同运动状态以及不同形态的钢坯图像；对获得的钢坯图像进行中心裁剪，获得图像中央预定尺寸区域，对其进行标注，建立原始数据集；将原始数据集分为训练、验证和测试数据集。

进一步的，所述步骤S2，包含如下子步骤：

步骤S21、骨干网络主体采用采用了轻量型网络，包括4个残差结构，其中前两个残差结构是标准的残差块，后两个残差结构同时应用了非对称卷积和空洞卷积，4个残差结构分别输出对应的特征图；

步骤S22、生成多尺度特征，利用步骤S21中骨干网络提取的特征图，进行多级池化，提取多尺度特征；

步骤S23、融合多尺度特征，将步骤S21和步骤S22中得到的特征图按相同分辨率进行聚合，使用卷积核大小为3的深度分离卷积进行特征融合；步骤S24、将步骤S23特征融合后的特征图进行密集上采样。

进一步的，所述步骤S22具体包括：

在主体网络的每个残差块后进行不同尺度的池化操作，产生不同尺度的特征图，为扩大感受野，提取更加丰富的特征信息，使用池化操作为步长s＝2^j，卷积核大小为

k＝2s+1＝2^1+j+1,j∈[1,3]，j为池化等级 (1)

对第一个特征图进行3级空间池化，生成3个尺度的特征图，第二个特征图的池化等级为2，生成2个尺度的特征图,第三个特征图化等级为1，生成1个尺寸的特征图。

进一步的，所述步骤S24具体包括：

设输入特征图尺寸和通道为N×N×C，经卷积后将特征图通道数扩大一倍，尺寸不变，通道为2N，最后再经过像素重组到2N×2N×C/2。

有益效果

本发明的技术方案中，分割网络的骨干网络使用了轻量型网络ResNet-18，同时应用了非对称卷积和空洞卷积，在保持训练精度和推理速度的同时，获得了更大的感受野；

其次通过多尺度特征提取和融合，加强了各级特征图之间的信息交互，提高模型的分割性能；

最后在解码部分应用密集上采样策略，避免上采样时的信息丢失，进一步提高模型的分割精度。本发明提出的分割方法在分割精度和效率上表现优异，在GTX2080Ti上实现了80fps的检测速度和94.12％mIoU。

附图说明

图1为本发明中构建的整体网络模型结构；

图2为本发明的骨干网络结构；

图3为本发明的密集上采样模块结构；

图4为本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

根据本发明的一个实施例，提出一种基于深度学习技术的钢坯自动语义分割识别方法，如图1、4所示，包括训练步骤和测试步骤；

所述的训练步骤主要包括以下3个步骤：

本实施例中以钢铁生产工业现场的监控视频为原始数据，通过在视频中截取关键帧，获得不同运动状态以及不同形态的钢坯图像；对获得的钢坯图像进行中心裁剪，获得图像中央尺寸为512×512的区域，对其进行标注，建立原始数据集；按照7：2：1的比例将原始数据集分为训练、验证和测试数据集。

如图1所示，语义分割网络的结构主要包括骨干网络、多尺度空间池化和密集上采样模块。

步骤S21、构建语义分割网络的骨干网络。如图2所示，骨干网络的主体结构采用轻量型网络ResNet-18，主要包括4个残差结构，其中前两个残差结构是标准的残差块，包含两个3×3的卷积，后两个残差结构同时应用了非对称卷积和空洞卷积，将标准残差块中的3×3卷积分解为5×1和1×5的连续卷积，空洞率为2。

为了方便描述，将Resblock_1输出的特征图(尺寸为128×128)、Resblock_2输出的特征图(尺寸为64×64)、Resblock_3输出的特征图(尺寸为32×32)、Resblock_4输出的特征图(尺寸为16×16)记为特征图res_1,res_2,res_3,res_4。

S22、提取多尺度特征。利用步骤S21中获取的特征图，进行多尺度空间池化，获取多尺度特征，具体是在主体网络的每个残差块后进行不同尺度的池化操作，产生不同尺度的特征图。为扩大感受野，提取更加丰富的特征信息，使用池化操作为步长s＝2^j，卷积核大小为

k＝2s+1＝2^1+j+1,j∈[1,3]，j为池化等级 (1)

对特征图res_1进行3级空间池化，生成3个尺度的特征图(尺寸分别为64×64，32×32，16×16)，如图1所示，为方便描述，分别记为b1_SP_1,b1_SP_2,b1_SP_3,特征图res_2的池化等级为2，生成的特征图记为b2_SP_1,b2_SP_2,特征图res_3的池化等级为1，生成尺寸为16×16的特征图，记为b3_SP_1。

S23、多尺度特征融合。将步骤S21和步骤22中获得的特征图按相同尺寸进行聚合，由于聚合后的通道数很多，为减少计算量，使用卷积核大小为3的深度分离卷积进行融合。通过合并骨干网络内不同层中提取的特征信息，加强了低层空间信息与高层语义信息的交互，从而提高网络的精度。

S24、对步骤S23融合后的特征图进行密集上采样。

如图3所示，本发明设置有密集上采样模块，本发明通过密集上采样策略减少上采样时的信息丢失，保留更多的图像特征信息，提高分割准确率。所述密集上采样的过程具体为：设输入特征图尺寸和通道为N×N×C，经卷积后将特征图通道数扩大一倍，尺寸不变，通道为2N，最后再经过像素重组(Pixel Shuffle)到2N×2N×C/2。

这种方式将特征图长宽尺寸上的损失通过通道维度来弥补，避免了在上采样时的信息损失，并且如图1所示，上采样后的特征图会与步骤S21、S22中具有相同尺寸的特征图进行聚合。

步骤S3、训练步骤S2中构建的语义分割网络模型；

步骤S31、对训练集中的数据通过随机翻转、随机缩放裁剪和随机旋转的方式进行增广，具体地，随机翻转概率为0.5，随机缩放的范围为原图像的0.8到1.5倍之间，裁剪尺寸为512×512，缩放后尺寸不足的补0，随机旋转的角度为-10到10度之间。

步骤S32、以交叉熵损失函数为网络训练的损失函数，使用Adam优化器进行网络参数调整，初始学习率设置为0.0001。

步骤S4、测试步骤，将待测图像输入到训练所得的语义分割网络模型，得到分割结果测试步骤。

输入测试集图像，在已经训练好的分割网络模型进行一次前向运算，输出预测的分割结果。

本发明的语义分割网络模型的原理和过程主要是：通过轻量型骨干网络和深度可分离卷积减少网络参数量，加快模型推理速度，实现分割的实时性，以及使用空洞卷积和非对称卷积获得较大的图像感受野，更加充分结合图像的上下文信息。非对称卷积是将标准的二维卷积分解为两个一维的卷积，即将传统的n×n卷积分解为n×1和1×n卷积，这种方式具有两个优势：①增加了网络的非线性，提高了网络的判别能力；②减少了网络参数和计算量。空洞卷积可以看成带孔的卷积，其基本原理是在普通卷积核的每个像素之间插入孔(即值为0的像素)，以不增加网络参数数量的形式增大了感受野。

此外本发明通过多尺度特征融合方式提升网络各级特征图之间的信息交互，加强网络的多尺度表达能力。具体是在主体网络的每个残差块后进行不同尺度的池化操作，产生不同尺度的特征图，最后将具有相同分辨率的特征图进行聚合，通过合并骨干网络内不同层中提取的特征信息，加强了低层空间信息与高层语义信息的交互，从而提高网络的精度。在语义分割网络的解码部分应用密集上采样策略，进一步避免了在解码时的信息丢失，使得分割精度进一步提高。

本发明提出的分割识别方法在分割精度和效率上表现优异，在GTX2080Ti上实现了80fps的检测速度和94.12％mIoU。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于深度学习的钢坯自动语义分割识别方法，其特征在于，包括以下步骤：

步骤S3、训练步骤S2中构建的语义分割网络模型；

2.如权利要求1所述的一种基于深度学习的钢坯自动语义分割识别方法，其特征在于，

3.如权利要求1所述的一种基于深度学习的钢坯自动语义分割识别方法，其特征在于，所述步骤S2，包含如下子步骤：

步骤S23、融合多尺度特征，将步骤S21和步骤S22中得到的特征图按相同分辨率进行聚合，使用卷积核大小为3的深度分离卷积进行特征融合；

步骤S24、将步骤S23特征融合后的特征图进行密集上采样。

4.如权利要求3所述的一种基于深度学习的钢坯自动语义分割识别方法，其特征在于，所述步骤S22具体包括：

k＝2s+1＝2^1+j+1,j∈[1,3]，j为池化等级 (1)

5.如权利要求3所述的一种基于深度学习的钢坯自动语义分割识别方法，其特征在于，所述步骤S24具体包括：

6.如权利要求1所述的一种基于深度学习的钢坯自动语义分割识别方法，其特征在于，所述步骤S3、训练步骤S2中构建的语义分割网络模型，具体包括：

步骤S31、对训练集中的数据通过随机翻转、随机缩放裁剪和随机旋转的方式进行增广，所述随机翻转概率为0.5，随机缩放的范围为原图像的0.8到1.5倍之间，裁剪尺寸为512×512，缩放后尺寸不足的补0，随机旋转的角度为-10到10度之间；