CN114419081B

CN114419081B - 一种图像语义分割方法、系统及可读存储介质

Info

Publication number: CN114419081B
Application number: CN202210312991.1A
Authority: CN
Inventors: 郭波; 张渴望; 王家辉
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-06-21
Anticipated expiration: 2042-03-28
Also published as: CN114419081A

Abstract

本发明提出一种图像语义分割方法、系统及可读存储介质，该方法包括如下步骤：获取待训练图像，对待训练图像进行特征提取以得到多个待训练特征区域，根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集；然后构建融合神经网络模型，利用第一数据集对融合神经网络模型进行训练以得到训练后的融合神经网络模型；最后将预测区域图像输入至训练后的融合神经网络模型中进行预测，以得到模型预测结果。本发明提升了卷积神经网络对细节轮廓的提取能力，提高了分割区域的识别效果。

Description

一种图像语义分割方法、系统及可读存储介质

技术领域

本发明涉及计算机图像处理技术领域，特别涉及一种图像语义分割方法、系统及可读存储介质。

背景技术

在计算机图像处理领域中，图像语义分割融合了传统图像分割以及图像分类两个任务，目的是为了识别图像每个像素区域的类别，以最终获得具有标注的图像。

当前图像语义分割神经网络主要包括全卷积神经网络（Fully convolutionalnetworks，FCN）以及递归神经网络（Recurrent Neural Networks，RNN）。传统语义分割受限于计算机的计算能力，只能提取出图像的一些低级特征，无法得到广泛应用。在全卷积神经网络理论诞生之后，语义分割得到了巨大的突破，众多模型也逐渐应用于语义分割之中。例如，卷积神经网络VGG16、残差网络ResNet以及轻量化网络MobileNet等。其中，残差网络ResNet解决了深层网络梯度爆炸与消失的问题，轻量化网络MobileNet提出了一种轻量化的可应用于移动设备的模型。

然而，对于一些复杂工业环境中拍摄的图像，其灰度分布不均、噪声点较多。通过上述模型分割出的图像结果精度低、偏移大、线条间断、无法满足实时性要求等问题，难以应用于实际工业领域之中。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种图像语义分割方法、系统及可读存储介质，以解决现有模型分割出的图像结果精度低、偏移大、线条间断、无法满足实时性要求等问题。

本发明实施例提出一种图像语义分割方法，其中，所述方法包括如下步骤：

步骤一、获取待训练图像；

步骤二、对所述待训练图像进行特征提取以得到多个待训练特征区域，根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集；

步骤三、构建融合神经网络模型，利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型；

步骤四、将预测区域图像输入至所述训练后的融合神经网络模型中进行预测，以得到模型预测结果；

在所述步骤二中，对所述待训练图像进行特征提取的方法包括：

对所述待训练图像进行预处理操作，其中预处理操作包括灰度变换以及高斯滤波变换；

对预处理操作后的所述待训练图像，采用带有动态权值分配机制的边缘提取算子分别进行边缘提取以得到四张边缘提取图像，其中所述带有动态权值分配机制的边缘提取算子包括边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt以及边缘提取算子Log；

根据四张所述边缘提取图像计算得到灰度均值图像

；

根据所述灰度均值图像

计算得到每个所述边缘提取图像对应的标准差

以及变差系数

。

本发明提出一种图像语义分割方法，获取待训练图像，对待训练图像进行特征提取以得到多个待训练特征区域，根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集；然后构建融合神经网络模型，利用第一数据集对融合神经网络模型进行训练以得到训练后的融合神经网络模型；最后将预测区域图像输入至训练后的融合神经网络模型中进行预测，以得到模型预测结果。本发明提升了卷积神经网络对细节轮廓的提取能力，提高了分割区域的识别效果。

所述图像语义分割方法，其中，所述灰度均值图像

表示为：

，

分别表示四张边缘提取图像；

所述标准差

表示为：

，

表示任一个边缘提取图像，

表示边缘提取图像的行数，

表示边缘提取图像的列数，

表示对边缘提取图像的图像灰度值进行求和操作；

所述变差系数

表示为：

，

表示对边缘提取图像中各像素值求解得到的像素均值；

。

所述图像语义分割方法，其中，在所述步骤二中，在计算得到了每个所述边缘提取图像的变差系数

之后，所述方法还包括：

根据所述变差系数

计算得到中间变差系数

；

根据所述中间变差系数

进行归一化以得到每个边缘提取算子的权重

，并根据每个边缘提取算子的权重

计算得到最终权重参数

；

其中，中间变差系数

表示为：

每个边缘提取算子的权重

表示为：

其中，

为边缘提取算子Canny的权重，

为边缘提取算子Sobel的权重，

为边缘提取算子Prewitt的权重，

为边缘提取算子Log的权重；

所述最终权重参数

表示为：

其中，

表示边缘提取图像中像素点的位置，

，

，C、S、P、L的数值由边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt、边缘提取算子Log处理边缘提取图片在

处的灰度值决定；当灰度值大于0时，C、S、P、L的数值取值均为2；当灰度值小于0时，C、S、P、L的数值取值均为1。

所述图像语义分割方法，其中，在所述步骤二中，在计算得到了最终权重参数

之后，所述方法还包括：

当判断到所述最终权重参数

大于等于零，则确定像素点

为1；

当判断到所述最终权重参数

小于零，则确定像素点

为0；

在完成像素点

的检测判断之后，对其它每一像素点进行遍历检测判断，以最终确定得到图像分辨率

，并在

位置的像素点处结束，以得到所述待训练特征区域。

所述图像语义分割方法，其中，在所述步骤三中，所述融合神经网络模型包括ResNet50神经网络模型以及MobileNetV2神经网络模型，所述方法还包括如下步骤：

分别从所述ResNet50神经网络模型以及所述MobileNetV2神经网络模型中提取5层特征，其中ResNet50神经网络模型与MobileNetV2神经网络模型中的5层特征均用于多尺度特征融合；

对ResNet50神经网络模型中的5层特征以及MobileNetV2神经网络模型中的5层特征依次进行上采样、卷积以及多尺度特征融合，直至融合完所有底层特征，以得到训练后的融合神经网络模型。

所述图像语义分割方法，其中，训练后的融合神经网络模型的训练流程的公式表示为：

其中，

表示从ResNet50神经网络模型以及MobileNetV2神经网络模型中提取出的5层特征，

表示上采样操作，

表示卷积操作，

表示多尺度特征融合操作。

所述图像语义分割方法，其中，对所述融合神经网络模型进行训练的方法中，包括前向传播以及反向传播两部分；

其中在反向传播时，对上采样层、卷积层以及多尺度特征融合层进行权重更新，进行权重更新的权重值公式表示为：

其中，

表示在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元，

代表在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元的当前权重值，

表示在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元的下一个权重值，

代表学习率，

表示人工标注标签处的灰度值，

表示经融合神经网络模型处理得到的图像的灰度值，

表示偏微分操作。

本发明还提出一种图像语义分割系统，其中，所述系统执行如上所述的方法，所述系统包括：

图像获取模块，用于获取待训练图像；

特征提取模块，用于对所述待训练图像进行特征提取以得到多个待训练特征区域，根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集；

模型训练模块，用于构建融合神经网络模型，利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型；

结果输出模块，用于将预测区域图像输入至所述训练后的融合神经网络模型中进行预测，以得到模型预测结果；

其中，所述特征提取模块还用于：

根据四张所述边缘提取图像计算得到灰度均值图像

；

根据所述灰度均值图像

计算得到每个所述边缘提取图像对应的标准差

以及变差系数

。

本发明还提出一种可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上所述的图像语义分割方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明第一实施例提出的图像语义分割方法的流程图；

图2为本发明中带有动态权重分配机制的边缘提取方法的原理示意图；

图3为本发明中使用的带有动态权重分配机制的边缘提取方法与使用Canny边缘提取算子处理结果的对比图；

图4为本发明中Conv Block模块与Identity Block模块的结构示意图；

图5为本发明中Res-Mobile Net模型的结构示意图；

图6为本发明第二实施例提出的图像语义分割方法的流程图；

图7为本发明第二实施例中焊接图像使用带有动态权重分配机制的边缘提取方法后的结果对比图；

图8为本发明训练过程中准确率与损失函数值的变化曲线；

图9为本发明第二实施例中使用不同模型对焊接图像进行预测的对比图；

图10为本发明第二实施例中数据集标签图像示例图；

图11为本发明第三实施例中图像语义分割系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

实施例一：

请参阅图1至图5，本发明第一实施例提出一种图像语义分割方法，其中，所述方法包括如下步骤：

S101、获取待训练图像。

具体地，待训练图像一般是指由相机拍摄出的图像。日常生活中相机拍摄出来的图像一般是彩色RGB图像，RGB图像由三个通道R、G、B（red、green、blue）所组成，每个通道根据人眼所能识别的范围设为256个数值，即0~255。

S102、对所述待训练图像进行特征提取以得到多个待训练特征区域，根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集。

其中，对所述待训练图像进行特征提取的方法包括：

S1021a、对所述待训练图像进行预处理操作，其中预处理操作包括灰度变换以及高斯滤波变换。

需要说明的是，当上述待训练图像属于RGB图像时，若直接放入融合神经网络模型中进行训练将产生大量的运算量。因此可通过灰度变换的方式来减小运算量。

其中，灰度图像使用不同的亮度来表示，能够保存原始RGB图像的信息。灰度变换对原图进行从上到小、从左到右的逐像素计算，将每个像素点的三通道数值代入灰度变换公式之中进行计算，得到的结果即为灰度值。具体的，灰度变化公式包括分量法、最大值法、平均值法以及加权平均法。最常用的方法为加权平均法，加权平均法根据人眼对不同颜色的敏感程度，对不同通道的数值赋予不同大小的系数，相乘后叠加便得到灰度值。

另一方面，在实际拍摄的图像中，或多或少都存在着一些噪声点，尤其对于一些不良的拍摄条件下的图像。而一些噪声点的灰度值又与目标物体较为接近，可能对最终的结果产生影响，因此需要对图像进行降噪处理。

其中，常用的降噪方式一般包括中值滤波、均值滤波、高斯滤波以及双边滤波等。高斯滤波采用3*3的模板对图像进行卷积，以模板中点为原点赋予模板内其他各点坐标，将坐标带入二维正态分布函数内求得系数矩阵。在对系数矩阵进行归一化处理后，与图像模板覆盖位置灰度值相乘，叠加后的数值便为高斯滤波处理后中心点的灰度值。

S1021b、对预处理操作后的所述待训练图像，采用带有动态权值分配机制的边缘提取算子分别进行边缘提取以得到四张边缘提取图像，其中所述带有动态权值分配机制的边缘提取算子包括边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt以及边缘提取算子Log。

在此需要说明的是，边缘提取算子往往利用灰度值不连续的性质，在灰度值突变的地方分割出边缘。通常分为一阶算子与二阶算子，其中一阶算子包括Sobel、Canny以及Prewitt等，二阶算子包括Laplace与Log。但是每种算子并不是适用所有场合的，例如Canny算子在一些情况复杂的图像中容易识别出许多无关的区域，影响到最后的精度、Sobel算子有时检测不出一些复杂的边。

在本实施例中，所采用的边缘提取算子为带有动态权值分配机制的边缘提取算子。

S1021c、根据四张所述边缘提取图像计算得到灰度均值图像

。

具体的，灰度均值图像

表示为：

其中，

分别表示四张边缘提取图像。

S1021d、根据所述灰度均值图像

计算得到每个所述边缘提取图像对应的标准差

以及变差系数

。

具体的，上述的标准差

表示为：

其中，

表示任一个边缘提取图像，

表示边缘提取图像的行数，

表示边缘提取图像的列数，

表示对边缘提取图像的图像灰度值进行求和操作；

上述的变差系数

表示为：

其中，

表示对边缘提取图像中各像素值求解得到的像素均值；

。

进一步的，在计算得到了每个所述边缘提取图像的变差系数

之后，所述方法还包括：

S1022a、根据所述变差系数

计算得到中间变差系数

。

其中，中间变差系数

表示为：

S1022b、根据所述中间变差系数

进行归一化以得到每个边缘提取算子的权重

，并根据每个边缘提取算子的权重

计算得到最终权重参数

。

每个边缘提取算子的权重

表示为：

其中，

为边缘提取算子Canny的权重，

为边缘提取算子Sobel的权重，

为边缘提取算子Prewitt的权重，

为边缘提取算子Log的权重。

最终权重参数

表示为：

其中，

表示边缘提取图像中像素点的位置，

，

请参阅图2所示，为一种带有动态权重分配机制的边缘提取算子的方法原理图。作为更清晰的阐述，将

分别设定为0.4、0.2、0.2、0.2。图2中分析可知：

若四种算子处理图像时，在1位置处均存在边缘，则：

，故该点为边缘；

若四种算子处理图像时，在2位置处时，四张图像均不存在边缘，则：

，故该点非边缘；

若四种算子处理图像时，在8位置处时，三张图像存在边缘而一张图像不存在边缘，则：

，该点仍为边缘；

最后，若四种算子处理图像时，在9位置处时，权重最大的Canny算子处理图像存在边缘，而其它三种算子均显示无边缘存在，则：

，该点不存在边缘，因此避免了Canny边缘提取算子的误判。

进一步的，在计算得到了最终权重参数

之后，所述方法还包括：

S1023a、当判断到所述最终权重参数

大于等于零，则确定像素点

为1；

S1023b、当判断到所述最终权重参数

小于零，则确定像素点

为0；

S1023c、在完成像素点

，并在

位置的像素点处结束，以得到所述待训练特征区域。

请参阅图3所示，为使用该边缘提取方法与使用Canny算子分别对一张蘑菇图像进行处理后的结果。从图3中可以看出：Canny算子将环境中的一些不属于目标边缘像素点也误判为边缘，使用该方法后在保留边缘信息的同时减少了非边缘点数量，提高了图像的精度。

当前已有的图像语义分割模型与方法，往往通过训练由预处理图像和人工标注标签所组成的数据集来求得模型参数。但图像中大量的复杂信息会增大模型训练的难度，最后分割出的图像也存在精度低、线条间断的缺点。本发明将图像输入特征提取系统，得到包含有待训练特征区域的图像，能够减少大量的无用信息。此外，将含有待训练特征区域的图像与对应的标签图像作为数据集放入模型之中进行训练，最后能够取得到高精度的结果。

S103、构建融合神经网络模型，利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型。

在本步骤中，融合神经网络模型包括ResNet50神经网络模型以及MobileNetV2神经网络模型，该方法包括如下步骤：

S1031、分别从所述ResNet50神经网络模型以及所述MobileNetV2神经网络模型中提取5层特征，其中ResNet50神经网络模型与MobileNetV2神经网络模型中的5层特征均用于多尺度特征融合。

S1032、对ResNet50神经网络模型中的5层特征以及MobileNetV2神经网络模型中的5层特征依次进行上采样、卷积以及多尺度特征融合，直至融合完所有底层特征，以得到训练后的融合神经网络模型。

训练后的融合神经网络模型的训练流程的公式表示为：

其中，

表示上采样操作，

表示卷积操作，

表示多尺度特征融合操作。

需要指出的是，在融合神经网络模型进行训练的方法中，包括前向传播以及反向传播两部分；

其中，

代表学习率，

表示人工标注标签处的灰度值，

表示经融合神经网络模型处理得到的图像的灰度值，

表示偏微分操作。

具体地，Res-Mobile Net神经网络模型以ResNet50神经网络模型与MobileNetV2神经网络模型为基础（参阅图5）。

其中，ResNet50为一种残差网络，将靠前若干层的某一层输出数据跳过多层直接连接到后面数据层的输入部分，有效解决了由于网络深度加深而产生的学习效率变低和准确度无法提升的问题。ResNet50中主要存在两种卷积方式：Conv Block与Identity Block，其中Conv Block用于改变网络的维度，Identity Block用于增加网络的深度。

请参阅图4，Conv Block模块对输入层进行两次连续的卷积、BN算法（BatchNormalization）优化以及ReLu激活，并再一次进行卷积与BN算法优化得到特征图形A。同时输入层再次进行一次卷积与BN算法优化后与特征图形A进行跳级相加得到特征图像B，特征图像B再次激活后输出结果；Identity Block流程与Conv Block类似，但输入没有进行卷积等操作而是直接通过shortcut连接。

需要注意的是，shortcut与下面所述的跳级结构相似但并不相同，跳级结构为不同层之间进行多尺度特征融合，而shortcut为ResNet与MobileNet模型中同一层中的连接。

ResNet50神经网络模型首先对输入进行补零、卷积、BN算法优化、ReLu函数激活以及最大池化，然后中间夹杂着四个层。四个层均由Conv Block与Identity Block所组成，首先第一个层在Conv Block后进行两次连续的Identity Block增加深度、第二个层在ConvBlock后进行三次连续的Identity Block、第三个层在Conv Block后进行五次连续的Identity Block、第四个层在Conv Block后进行两次连续的Identity Block。

进一步的，对于轻量化的MobileNetV2神经网络模型，其深度可分离卷积减少了大量的模型参数。在残差结构的基础上引入了倒残差结构，先升高维度后降低维度以增强梯度的传播，显著减少内存的占用。在每一层之间采用BN算法进行优化后使用ReLu6激活函数进行激活。但在模型最后采用Linear代替ReLu6，防止特征被破坏。

在倒残差结构中，不同于ResNet50神经网络模型的先降低维度后升高维度，先使用1*1卷积升高维度，后使用1*1卷积降低维度，能够减少丢失的信息。1*1卷积升高维度和3*3卷积提取特征后均使用BN算法进行优化，接着使用ReLu6激活函数进行激活。最后，升高维度的卷积只需要进行BN算法优化，然后输出结果。当strides为1且输入与输出大小相同时需要将本层输出与输入进行shortcut连接。

具体地，MobileNettV2神经网络模型中使用了ReLu6激活函数以保证足够的精度。因为MobileNetV2在移动端等低精度（常为float16与int8）设备中，如果不对激活函数ReLu加以限制，低精度的移动端设备将无法精确描述大范围数值。因此采用ReLu6激活函数进行激活，其改进在于对传统ReLu函数增加了一个限制，当大于一定数值时限制为6。但在本发明模型中的上采样过程为计算机训练，因此将上采样中的激活函数改为ReLu，可获得更高精度的预测图像。

上述ResNet与MobileNet中均使用到了BN算法，BN属于一种归一化网络层，能够加速梯度下降算法训练的速度以及提高网络的泛化能力。

综上，ResNet50神经网络模型具有网络层数深以及特征提取能力强的特点。MobileNetV2具有轻量化的特点，Res-Mobile Net模型将两个模型进行了融合，使最后分割的结果能够结合两种模型各自的优点。

请参阅图5，Res-Mobile Net模型训练过程分为前向传播和反向传播。前向传播过程首先赋予ResNet50模型与MobileNetV2模型一个初始的权重并将其锁定不改变，两个模型分别通过上采样操作不断恢复原图像的尺寸，同时借助跳级结构补充细节，实现多层多尺度特征的融合。最后恢复至原图尺寸后进行融合操作结合两个模型的优点，输出一张预测的图像。

具体的，Res-Mobile Net神经网络模型结构如下：

首先提取ResNet50模型中post_relu、conv4_block6_1_relu、conv3_block4_ 1_relu、conv2_block3_1_relu、conv1_conv五个层；

对ResNet50模型中post_relu层上采样得到x1：Conv2D Transpose3 *3*720 -Padding-relu-strides=2；

在x1层进行卷积，得到x2：

Conv2D3*3*512-Padding-relu-strides=3；

在x2层与ResNet50模型中conv4_block6_1_relu进行融合操作，得到x3层：

Add(x2,conv4_block6_1_relu)

在x3层进行上采样得到x4：

Conv2DTranspose3*3*256-Padding-relu-strides=2；

在x4层进行卷积得x5：

Conv2D3*3*128-Padding-relu-strides=3；

在x5层与ResNet50模型中conv3_block4_1_relu进行融合操作，得到x6层：

Add(x5，conv3_block4_1_relu)

在x6层进行上采样得到x7：

Conv2DTranspose3*3*144-Padding-relu-strides=2；

在x6层进行卷积得x7：

Conv2D3*3*256-Padding-relu-strides=3；

在x7层进行上采样得到x8：

Conv2DTranspose3*3*96-Padding-relu-strides=2；

在x8层进行卷积得x9：

Conv2D3*3*64-Padding-relu-strides=3；

在x9层与ResNet50模型中conv1_conv进行融合操作，得到x10层：

Add(x5,conv1_conv)

在x10层进行上采样得到x11：

Conv2DTranspose3*3*3-Padding-relu-strides=2；

提取MobileNetV2模型中block_1_expand_relu、block_3_expand_relu、block_6_expand_relu、block_13_expand_relu、block_16_project五个层；

对MobileNetV2模型中block_16_project层上采样得到x12：Conv2DTranspose3*3*576-Padding-relu-strides=2；

在x12层进行卷积，得到x13：

Conv2D3*3*576-Padding-relu-strides=3；

在x13层与MobileNetV2模型中block_13_expand_relu进行融合操作，得到x14层：

Add(x14,block_13_expand_relu)

在x14层进行上采样得到x15：

Conv2DTranspose3*3*192-Padding-relu-strides=2；

在x15层与MobileNetV2模型中block_6_expand_relu进行融合操作，得到x16层：

Add(x15,block_6_expand_relu)

在x16层进行上采样得到x17：

Conv2DTranspose3*3*144-Padding-relu-strides=2；

在x17层进行卷积得x18：

Conv2D3*3*114-Padding-relu-strides=3；

在x18层与MobileNetV2模型中block_3_expand_relu进行融合操作，得到x19层：

Add(x18,block_3_expand_relu)

在x19层进行上采样得到x20：

Conv2DTranspose3*3*96-Padding-relu-strides=2；

在x20层进行卷积得x21：

Conv2D3*3*96-Padding-relu-strides=3；

在x21层进行上采样得到x22：

Conv2DTranspose3*3*3-Padding-relu-strides=2；

在x22层x11层进行融合操作，得到x23层：

Add(x22,x11)

在x23层进行上采样得到preditcion层：

Conv2DTranspose3*3*3-Padding-softmax-strides=1；

其中relu代表激活函数：线性整流函数，softmax代表激活函数：归一化指数函数，strides=3代表步长为3，strides=2代表步长为2，strides=1代表步长为1，Padding代表补零操作，Conv2DTranspose(a*b*c)代表上采样卷积核为a*b*c的上采样层，Conv2D(a*b*c)代表卷积核为a*b*c的卷积层。

S104、将预测区域图像输入至所述训练后的融合神经网络模型中进行预测，以得到模型预测结果。

在本步骤中，将目标图像放大/缩小到指定大小。放入步骤S103已训练好的模型中得到最终结果。

实施例二：

请参阅图6至图10，本发明第二实施例提出一种图像语义分割方法，以从焊接图像中分割焊缝图像为例来具体阐述本发明的方法，该方法具体包括步骤S201至步骤S204。

S201、利用工业相机在焊接过程采集图像，以获得待训练图像。

其中，所获得的待训练图像为彩色RGB图像，大小为550*156。

S202、对所述待训练图像进行特征提取，以得到包含焊缝区域的特征区域图像数据集。

其中，进行特征提取的操作包括预处理以及边缘提取两个过程，预处理包括灰度变换以及高斯滤波变换。

灰度变换具体指对一张图像进行从上到下、从左到右的逐像素的运算，通过灰度变换公式对每一个像素点的三通道数值进行乘积求和。其中灰度变换采用的是加权平均法，具体公式如下：

其中，

分别为图像在第

位置处的像素点红色、绿色、蓝色三个通道的数值，

为图像在

处的灰度值。

高斯滤波处理是指用一个高斯核对图像进行平面卷积，将高斯核内相对坐标带入二维高斯分布函数中求得系数矩阵，归一化后与对应灰度值相乘，得到高斯滤波处理后的图像。

其中，高斯核一般为3*3的矩阵，二维高斯分布函数具体公式如下：

式中，

为二维高斯分布函数，

分别为高斯核所选中图像区域内以中心为原点的相对坐标数值，

为方差。

进一步的，边缘提取方法首先分别使用Canny、Sobel、Prewitt、Log四种算子对图像进行初步边缘提取，然后利用变差系数

值计算得到四种算子的权重，再逐像素点遍历后确定出最终的边缘图像。

在焊接图像中焊缝区域比较微弱，使用Sobel等算子无法识别出部分边缘，也无法直接分割出焊缝区域。通过该方法得到的四种算子的权重分别为：0.4124(Canny)、0.1316(Sobel)、0.1339(Prewitt)、0.3221(Log)。

请参阅图7所示，为使用一种带有动态权值分配机制的边缘提取方法对焊缝图像进行边缘提取的结果。从图7中分析可知：使用Sobel算子与Prewitt算子无法对目标边缘右侧焊缝进行精准识别，而Canny算子能够较好的识别。通过计算后Canny算子被赋予了最高的权重，而Sobel算子得到了最低的权重。因此，最终得到的边缘图像能够保留所需要的特征区域，同时去除较多的噪声点，有利于最终焊缝的识别。

S203、构建融合神经网络模型，并利用包含焊缝区域的特征区域图像数据集对融合神经网络模型进行训练以得到训练好的融合神经网络模型。

请参阅图5所示，为本发明所使用的模型结构。其中，图中b1、b2、b3、b4、b5分别代表ResNet50中的post_relu、conv4_block6_1_relu、conv3_block4_1_relu、conv2_block3_1_relu、conv1_conv五个层；b11、b12、b13、b14、b15分别代表MobileNetV2中的block_1_expand_relu、block_3_expand_relu、block_6_expand_relu、block_13_expand_relu、block_16_project五个层。

融合神经网络模型由ResNet50和MobileNetV2两个主要的模块所组成，通过融合将两个模型的结构进行优化。其中，ResNet50模块与MobileNetV2模块同时开始训练，其训练过程分为前向传播与反向传播两个过程，前向传播通过预设参数进行输出，反向传播根据损失函数及优化器进行参数调整。

MobileNetV2前向传播过程主要由17个bottleneck层所组成，每个层都含有一个倒残差结构。首先，升高维度后尺寸大小的公式如下：

对升高维度后图像进行卷积后的大小公式如下：

最后降低维度后尺寸大小的公式如下：

式中，

为升高维度后的输出结果，

为卷积后的输出结果，

为降低维度后的输出结果，

为ReLu6激活函数，

为图像的高、宽以及通道数，

为维度升高的倍数，

为维度降低的倍数，

表示卷积核步长。

在倒残差结构中，在进行1*1卷积升高维度和3*3卷积提取特征后使用BN算法优化，接着使用ReLu6激活函数进行激活。最后升高维度的卷积只需要进行BN算法优化，然后输出结果。

其中，ReLu6的表达公式如下：

式中

为取

中的最大值，

为ReLu激活函数的值，

表示激活函数。

BN算法通过变换重构思想引入可学习参数

和

，在前向传播中求得均值与方差后，通过归一化操作将均值变为0，方差变为1。需要注意的是，反向传播中的BN算法相比更为复杂，但在本发明中模型参数是锁定的，因此反向传播修改的是上采样过程中的参数。

上采样过程需要从融合神经网络模型中抽出指定的层，其中必须包括模型的输出层，然后将输出层进行不断地上采样操作恢复尺寸，同时融合其它的层以提高预测图像的精度。

ResNet50模型内部主要由四个层组成，每一个层均首先由Conv Block模块改变大小，然后使用若干个连续的Identity Block模块加深模型。其中，Conv Block公式如下：

Identity Block公式如下：

式中，

分别表示Conv Block模块的两个输出，

表示Conv Block模块的最后输出，

为BN算法优化，

表示卷积操作，

表示连续的卷积操作、BN算法优化以及ReLu激活过程，

为求和函数，

表示对操作重复2次，

分别表示Identity Block模块的两个输出，

表示IdentityBlock模块的最后输出，

表示输入。

MobileNetV2的上采样过程与上述ResNet50相同，最终上采样结束后模型输出

。

前向传播过程中最后需要将上述两个模块的输出结果进行融合，得到Res-MobileNet最终的输出结果，融合公式如下：

式中，

通过Res-Mobile Net模块进行特征融合后的输出结果，

表示ResNet50模型部分对应输出的特征图像，

表示MobileNetV2模型部分对应输出的特征图像。

进一步的，对反向传播而言，反向传播中的权重更新只发生在除ResNet50，MobileNetV2神经网络模型以外的上采样层、卷积层以及多尺度特征融合层中。

反向传播中的损失函数表示为：

式中，

为图像的尺寸，

分别表示预测值与实际值。

计算出损失函数值后，利用Adam优化器进行梯度下降寻求全局最优解，以对权重值进行更新。

其中，Adam优化器的优化流程如下：

初始化学习率

=0.001、平滑常数

=0.9,0.999、可学习参数

；

不断按照公式更新参数，直至可学习参数

收敛，具体公式如下：

式中，

为循环更新的次数，

为计算梯度，

为梯度求解，

与

均为累计梯度，

与

均为累计梯度的平方，

为带参数的随机目标函数；

接下来求解更新参数所需要的偏差纠正数值，公式如下：

最后利用

与

去更新参数，公式如下：

式中，

的数值为

，

表示累计梯度中间值，

表示累积梯度的平方的中间值，

表示权重值。

最后，待训练到达一定次数后停止训练并且保存权重。

请参阅图8所示，为训练过程中的损失函数数值以及精确度变化曲线。损失函数在前15次训练中下降十分缓慢，但是训练在15次到22次之间开始快速的下降。在第23次到40次开始损失函数缓慢逐渐减少并趋于稳定，最终在0.062左右维持稳定；准确度数值与损失函数类似，也即在刚开始训练的15次中稳定在一个数值，在15次训练到23次之间快速上升，最终在97.41%附近收敛。可以得出本发明提出的Res-Mobile Net模型具有精度高的特点。

S204、将预测区域图像输入训练好的融合神经网络模型之中，获得模型预测结果。

请参阅图9所示为预测的结果图，分别展示了使用Res-Mobile Net、ResNet50、MobileNetV2、VGG16四个模型使用同样的数据集训练相同的次数后的预测结果。从图9中可以看出：

使用MobileNetV2分割的图像线条间断现象严重；ResNet50分割的图像对焊缝分割不够完整，仍有部分未进行分离、存在弯曲现象，大幅度降低了精度；VGG16模型线条不够连续、错误分割的点也较多，并且部分图像右侧焊缝没有分割出来；使用Res-Mobile Net分割的图像线条连续、焊缝图像完整、并且没有错误分割的点影响精度，能够有效精确分割出焊缝边缘图像。图像预测时间平均为0.123秒，能够满足工业实时性的要求。

请参阅图10所示，为本发明数据集标签图像示例。数据集标签图像制作是对若干待训练特征区域进行人工标注标签，人工标注标签指人工逐像素绘制待训练特征区域目标精确轮廓；

每个目标轮廓可以由直线、曲线进行勾画，得到封闭的区域；

人工标注后将标注的封闭区域数据进行栅格化，其中目标轮廓颜色为红色（255,0,0），封闭区域内部为绿色（0,255,0），封闭区域外部为蓝色（0,0,255）。

综上，焊接图像是本发明所述的一种拍摄于非理想环境的图像，该类型图像灰度值分布不均匀、噪声点较多，使用传统的边缘提取算子无法获得精确的焊缝图像。而用一些模型如VGG16、ResNet50、MobileNetV2也无法精确的得到焊缝图像，因此无法应用于实际工业领域之中。本发明使用一种新的数据集，即边缘提取图像与对应标签所组成的数据集；通过Res-Mobile Net进行训练，得到了高精度、线条连续的焊缝图像，预测速度也能够满足实时性的要求。

实施例三：

请参阅图11，本发明第三实施例提出一种图像语义分割系统，其中，所述系统执行如上所述的方法，所述系统包括：

图像获取模块，用于获取待训练图像；

结果输出模块，用于将预测区域图像输入至所述训练后的融合神经网络模型中进行预测，以得到模型预测结果。

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。