CN111461130A

CN111461130A - 一种高精度图像语义分割算法模型及分割方法

Info

Publication number: CN111461130A
Application number: CN202010281360.9A
Authority: CN
Inventors: 王磊; 吴伟龙; 周建品; 李争
Original assignee: Shiyan Intelligent Technology Guangzhou Co ltd
Current assignee: Shiyan Intelligent Technology Guangzhou Co ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-07-28
Anticipated expiration: 2040-04-10
Also published as: CN111461130B

Abstract

本发明涉及一种高精度图像语义分割算法模型及分割方法，所述模型为了全局信息在多级融合过程中的损失，对目标细节不确定性进行建模，可以很大程度上消除图像噪声干扰及图像局部信息较少导致的细节不确定性，从而提升目标边缘的语义分割精度。所述分割方法基于所述分割算法模型来实现，所述分割方法降低了卷积神经网络识别细节特征的难度，提升了卷积神经网络对细节的建模能力和建模精度，能有效识别目标的细节结构及特征，降低遮挡和图像质量等因素对语义分割照成的干扰。

Description

一种高精度图像语义分割算法模型及分割方法

技术领域

本发明涉及图像语义分割技术领域，更具体地，涉及一种高精度图像语义分割算法模型及分割方法。

背景技术

近年来，基于深度学习网络的机器学习算法得到了快速的发展。其中，深度卷积神经网络已被成功应用于人脸识别，车牌识别等领域。然而，现有的深度卷积神经网络在对细节识别精度要求较高的领域(比如工业零件测量，高精度地图制作，医疗影像分析等领域)的成功应用案例仍然较少。其主要原因在于现有的深度卷积神经网络对目标边界等细节的识别精度较差，其识别结果容易受遮挡以及图像局部细节缺失等因素的影响。

使用深度神经网络进行图像细节的精准分类和识别的主要难点在于图像数据中的噪声干扰以及局部图像局部信息较少。在遮挡情况下，局部细节则完全缺失。现有的卷积神经网络多采用多尺度特征融合来提升神经网络对细节的识别能力。多尺度渐进特征融合是一种常用的特征融合技术，但是全局信息会在多级融合的过程中逐渐丢失。同时，现有的图像语义分割算法缺乏对目标形状特征进行学习和推理的能力。在图像噪声干扰及图像局部信息较少等因素导致目标细节不确定时，边缘无法被正确恢复。

发明内容

本发明为克服上述现有技术所述的目标边缘的语义分割精度不够高的缺陷，提供一种高精度图像语义分割算法模型及分割方法。

所述模型以PSPNet作为骨架网络，模型中PSPNet的第一层(conv1)被替换为：

conv3x3x64-BN-ReLU-conv3x3x64-BN-ReLU-conv3x3x128-BN-ReLU

其中，BN表示批标准化，ReLU表示线性整流函数，conv3x3x64表示卷积核为3x3x64的卷积层，conv3x3x128表示卷积核为3x3x128的卷积层。第一个conv3x3x64的卷积移动步长为2，其他卷积层的步长为1。

优选地，所述模型中PSPNet的第一层中第一个conv3x3x64的卷积移动步长为2，其他卷积层的步长为1。

优选地，所述模型采用复合多尺度特征融合结构；

所述结构采用PSPNet-resnet101在8，4,2,1等四个尺度的特征作为输入，输出2倍尺度的融合特征；

其中8,4,2尺度的输入特征分别为conv5_4,conv2_x,conv1_3/ReLU。

优选地，所述模型在融合的特征上采用了一个金字塔池化层，即将融合特征重采样到1,2,3,6等4个尺度，获得4个不同尺度的特征，每个特征分别经过数层卷积处理之后再重采样到原始特征长宽，最后堆叠4个特征得到输出特征。

优选地，所述模型采用一对多的模式建模，即在一次前向传播的过程中生成多个可能的预测结果，选择损失函数值最低的预测结果进行后向传播训练。

优选地，所述多模态建模过程为：首先从随机数中生成N个特征图，然后将这N个特征图和现有的数据特征进行叠加，使用叠加后的特征进行分类。

优选地，所述模型在res5,res4b22,b21,b20这4层中使用了注意力机制。

优选地，所述模型的推理层采用以下网络结构：

conv3x3-BN-ReLU-dropout-conv1x1-CELoss

其中CELoss为交叉熵损失函数。

本发明还提供一种高精度图像语义分割方法，所述方法基于所述的高精度图像语义分割算法模型来实现，所述方法包括以下步骤：

S1:对若干个目标图像进行人工标注真值处理，所述标注真值指人工绘制的图像中每个目标的精确轮廓；

每个目标轮廓由若干个多边形表示；

人工标注完成后将标注的多边形数据栅格化，得到和目标图像长宽相同的真值图像；

其中属于目标的像素值为1，否则为0；

S2:利用训练数据集中的数据来训练本发明所述模型，直到系统收敛，即平滑过后的损失函数在一定的训练轮数中保持不变；

S3:使用S2训练完成的模型识别目标图像，生成目标语义分割结果。

与现有技术相比，本发明技术方案的有益效果是：本发明所述模型为了全局信息在多级融合过程中的损失，对目标细节不确定性进行建模，可以很大程度上消除图像噪声干扰及图像局部信息较少导致的细节不确定性，从而提升目标边缘的语义分割精度。

本发明所述方法降低了卷积神经网络识别细节特征的难度，提升了卷积神经网络对细节的建模能力和建模精度，能有效识别目标的细节结构及特征，降低遮挡和图像质量等因素对语义分割照成的干扰。

附图说明

图1为实施例1所述高精度图像语义分割算法模型结构示意图。

图2为渐进多尺度融合结构示意图。

图3为多模态建模结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本发明提供一种高精度图像语义分割算法模型，如图1所示，所述模型主要包括以下模块：

(1)基础网络。

本实施例采用修改后的PSPNet作为骨架网络。PSPNet的第一层(conv1)被替换为：

conv3x3x64-BN-ReLU-conv3x3x64-BN-ReLU-conv3x3x128-BN-ReLU

其中，BN表示批标准化，ReLU表示线性整流函数，conv3x3x64表示卷积核为3x3x64的卷积层，conv3x3x128表示卷积核为3x3x128的卷积层。第一个conv3x3x64的卷积移动步长为2，其他卷积层的步长为1。修改过后的模型比原始模型在图像2倍尺度(特征长宽为原始图像的1/2)下具有更多的卷积层。在后续由上至下的渐进多尺度融合中可在2倍尺度时获取更优的特征。

(2)复合多尺度特征融合结构。

这个结构采用了从粗到精的渐进融合模式。其相邻两个尺度间的渐进融合网络结构设计参见图2。此结构采用PSPNet-resnet101在8，4,2,1等四个尺度的特征作为输入，输出2倍尺度的融合特征。其中8,4,2尺度的输入特征分别为conv5_4,conv2_x,conv1_3/ReLU。

为了补偿粗分辨率的信息在渐进多尺度融合的过程中丢失的情况，本文在融合的特征上采用了一个金字塔池化层，即将融合特征重采样到1,2,3,6等4个尺度，获得4个不同尺度的特征，每个特征分别经过数层卷积处理之后再重采样到原始特征长宽，最后堆叠4个特征得到输出特征。

(3)多模态建模。

多模态建模用于对数据分析中的不确定性进行建模。这种不确定可能来源于遮挡，局部噪声，局部数据缺失等问题。此模型采用一对多的模式，即在一次前向传播的过程中生成多个可能的预测结果，选择损失函数值最低的预测结果进行后向传播训练。首先从随机数中生成N个特征图，然后将这N个特征图和现有的数据特征进行叠加，使用叠加后的特征进行分类。具体结构见图3。

(4)注意力机制。

注意力机制的使用可以扩大相应卷积层的FOV(field-of-view)，可以使神经网络学习并选择有用的区域进行特征计算。在res5,res4b22,b21,b20这4层中使用了注意力机制。

(5)推理层。

推理层采用以下网络结构：conv3x3-BN-ReLU-dropout-conv1x1-CELoss，其中CELoss为交叉熵损失函数。

实施例2：

本实施例提供一种高精度图像语义分割方法，所述方法基于实施例1所述的高精度图像语义分割算法模型来实现，所述方法包括以下步骤：

S1：对若干个目标图像进行人工标注真值处理，所述标注真值指人工绘制的图像中每个目标的精确轮廓；

每个目标轮廓由若干个多边形表示；

其中属于目标的像素值为1，否则为0；

S2：利用训练数据集中的数据来训练实施例1所述模型，直到系统收敛，即平滑过后的损失函数在一定的训练轮数中保持不变；

S3：使用S2训练完成的模型识别目标图像，生成目标语义分割结果。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种高精度图像语义分割算法模型，所述模型以PSPNet作为骨架网络，其特征在于，所述模型中PSPNet的第一层(conv1)被替换为：

conv3x3x64-BN-ReLU-conv3x3x64-BN-ReLU-conv3x3x128-BN-ReLU

其中，BN表示批标准化，ReLU表示线性整流函数，conv3x3x64表示卷积核为3x3x64的卷积层，conv3x3x128表示卷积核为3x3x128的卷积层；第一个conv3x3x64的卷积移动步长为2，其他卷积层的步长为1。

2.根据权利要求1所述的高精度图像语义分割算法模型，其特征在于，所述模型中PSPNet的第一层中第一个conv3x3x64的卷积移动步长为2，其他卷积层的步长为1。

3.根据权利要求2所述的高精度图像语义分割算法模型，其特征在于，所述模型采用复合多尺度特征融合结构；

所述结构采用PSPNet-resnet101在8，4,2,1四个尺度的特征作为输入，输出2倍尺度的融合特征；

其中8,4,2尺度的输入特征分别为conv5_4,conv2_x,conv1_3/ReLU。

4.根据权利要求3所述的高精度图像语义分割算法模型，其特征在于，所述模型在融合的特征上采用了一个金字塔池化层，即将融合特征重采样到1,2,3,6四个尺度，获得4个不同尺度的特征，每个特征分别经过数层卷积处理之后再重采样到原始特征长宽，最后堆叠4个特征得到输出特征。

5.根据权利要求4所述的高精度图像语义分割算法模型，其特征在于，所述模型采用多模态建模，具体为一对多的模式建模，即在一次前向传播的过程中生成多个可能的预测结果，选择损失函数值最低的预测结果进行后向传播训练。

6.根据权利要求4或5所述的高精度图像语义分割算法模型，其特征在于，所述多模态建模的过程为：首先从随机数中生成N个特征图，然后将这N个特征图和现有的数据特征进行叠加，使用叠加后的特征进行分类。

7.根据权利要求6所述的高精度图像语义分割算法模型，其特征在于，所述模型在res5,res4b22,b21,b20这4层中使用了注意力机制。

8.根据权利要求7所述的高精度图像语义分割算法模型，其特征在于，所述模型的推理层采用以下网络结构：

conv3x3-BN-ReLU-dropout-conv1x1-CELoss

其中CELoss为交叉熵损失函数。

9.一种基于权利要求8所述的高精度图像语义分割算法模型的分割方法，其特征在于，所述方法包括以下步骤：

每个目标轮廓由若干个多边形表示；

其中属于目标的像素值为1，否则为0；

S2:利用训练数据集中的数据来训练权利要求8所述模型，直到系统收敛；