CN111612802B

CN111612802B - 一种基于现有图像语义分割模型的再优化训练方法及应用

Info

Publication number: CN111612802B
Application number: CN202010359715.1A
Authority: CN
Inventors: 颜成钢; 胡友鹏; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-06-20
Anticipated expiration: 2040-04-29
Also published as: CN111612802A

Abstract

本发明公开了一种基于现有图像语义分割模型的再优化训练方法及应用。本发明对图像语义分割神经网络模型的最后一层输出，对接近语义边缘的所有像素截取所预测的概率最高的若干个预测标签，通过再优化模型进行特征距离测算，取最近的标签作为该像素的修正预测标签，从而达到提高语义分割预测准确率的目的。本发明提出了基于再识别的边界偏差消除方法，消除了语义边缘邻近区域的不确定性，是对成熟的图像语义分割模型的一次改进。再优化模型专注于语义边缘的修正任务。另外只针对图像语义边缘区域进行优化，在更加具有针对性的前提下，还不会给模型带来过重的运算时间和空间的负担。

Description

一种基于现有图像语义分割模型的再优化训练方法及应用

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于现有图像语义分割模型的再优化训练方法及应用。

背景技术

图像语义分割问题是图像识别领域地一大研究内容，目标是将图像以像素为单位进行分割成不同语义信息的图像区域，其中每个语义区域都有相应的语义标签(如桌子、墙面、树木、人、道路等)，可应用于无人驾驶、医疗影像分析、机器人领域。

近年来由于深度学习技术的兴起，图像语义分割也从传统的手工方法变为了以卷积神经网络为主流的解决方案，来进行图像特征的提取与像素级的分类。其中全卷积网络由于能够较好地保留像素的位置信息，扩散卷积使得像素感知域扩大以融合更多的上下文信息，均得到了较为广泛的应用。然而这些技术的采用并没有完全解决语义分割问题，尤其对于复杂、高迷惑性和低质量地图片场景。

现有的图像语义分割方法在上下文信息、细节感知等方面表现出了良好的性能。近年来各种方法之间的系统融合更是成为了主流。如基于边缘信息融合的Gated-SCNN模型、融入注意力机制的DANet模型、具有很好综合表现的DeepLab系列模型等。但是对于靠近边缘像素的分类误差上述模型均没有得到很好的解决。但现有的主流方法生成的预测图像与原始图像的像素差异主要集中在接近语义边界的边缘部分。通过对靠近边缘的像素进行了进一步优化，可以提高图像语义分割的效果。

以上技术背景内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术。

发明内容

本发明针对分割边缘像素与误分类模型的高相关度特点，提出了一种基于现有图像语义分割模型的再优化训练方法及应用。对图像语义分割神经网络模型的最后一层输出，对接近语义边缘的所有像素截取所预测的概率最高的若干个预测标签，通过再优化模型进行特征距离测算，取最近的标签作为该像素的修正预测标签，从而达到提高语义分割预测准确率的目的。

本发明的目的通过以下的技术方案实现：

一种基于现有图像语义分割模型的再优化训练方法，用于训练图像语义分割模型的基于边缘修正的再优化模型，所述方法包括：

步骤1、针对带语义标签的图像及其标签进行预处理；

步骤2、对语义标签矩阵进行边缘检测，筛选语义边缘像素,并延伸筛选语义近边界像素；

步骤3、通过Backbone模型与空洞空间金字塔池化的再优化模型，进行特征融合，得出所有近边界像素的语义特征数据集合；

步骤4、对近边界像素的语义特征数据集，从中随机选取某标签的真例两个，假例一个，计算真例之间特征向量的距离和真假例之间特征向量的距离，若后者减去前者大于冗余量且训练轮数未达到预设值，则对再优化模型进行下一轮训练；若小于等于冗余量且训练轮数未达到预设值，则根据差值对再优化模型通过反向传播算法进行参数修正；若训练轮数达到预设值，结束训练。

步骤5、对最终的语义分割数据集按照标签类别取均值作为该标签的特征向量，组成标签特征向量集合。

一种基于现有图像语义分割模型的再优化训练方法的应用，将经过再优化训练方法得到的再优化图像语义分割模型对图像进行语义分割，具体包括如下步骤：

P1、对输入图像直接进行滤波与正则化处理；

P2、将图像输入矩阵输入到现有基础语义分割深度学习模型，获得语义预测图像及具有每个像素的标签偏好的输出矩阵；

P3、基于具有每个像素的标签偏好的输出矩阵进行偏好排序，得到最有可能的N个标签构成的Top-N预测矩阵；

P4、对语义分割深度学习模型输出的结果，同S2同样的步骤提取近边界像素，

P5、将Top-N预测矩阵的近边界像素的可能预测的N个标签与标签特征向量集合中对应的标签测量距离，取最小距离的标签覆盖深度学习模型输出的语义预测图像，得到输出语义图像。

本发明有益效果如下：

本发明提出了基于再识别的边界偏差消除方法，消除了语义边缘邻近区域的不确定性，是对成熟的图像语义分割模型的一次改进。原模型和和再优化模型各自具有针对性，前者专注于细节和全局信息的融合利用，后者专注于语义边缘的修正任务。另外只针对图像语义边缘区域进行优化，在更加具有针对性的前提下，还不会给模型带来过重的运算时间和空间的负担。

附图说明

图1是本发明提供的图像语义分割模型的基于边缘修正的再优化模型部分的训练方法流程示意图；

图2是本发明提供的图像语义分割模型的基于边缘修正的再优化模型的实施流程示意图。

具体实施方式

以下内容结合附图和具体实施方式对本发明进行进一步说明。

本发明旨在提供一种基于现有图像语义分割模型的再优化训练方法及应用，用于语义边界偏差消除，降低了边缘邻近区域的不确定性。对图像语义分割神经网络模型的最后一层输出，对接近语义边缘的所有像素截取所预测的概率最高的若干个预测标签，通过再优化模型进行特征距离测算，取最近的标签作为该像素的修正预测标签，从而达到提高语义分割预测准确率的目的。

为此，本发明的具体实施方式提供了一种基于现有图像语义分割模型，以及对该模型进行在优化的训练方式，以及与基础语义分割模型相融合进行图像语义分割的具体示例。

如图1所述，本发明核心的一种基于现有图像语义分割模型的再优化训练方法，具体方式如下：

步骤1、针对语义分割数据集中带语义标签的彩色图像img_W×H×3进行预处理，包括图像的随机放缩(0.5～2倍)裁切、水平翻转、滤波以及正则化的操作，得到图像矩阵img_w×h×3；针对语义分割书数据集中带语义标签的语义图像label_W×H进行随机放缩(0.5～2倍)裁切、水平翻转的操作，得到语义标签矩阵label_w×h；将得到的图像矩阵img_w×h×3和语义标签矩阵label_w×h作为训练数据；其中W,H是原彩色图像和语义图像的长宽，其中w,h是预处理后彩色图像和语义图像的长宽。

步骤2、对语义标签矩阵label_w×h采用Canny边缘检测算子进行边缘提取，得到语义边界图像，再基于语义边界图像的边界点向外延伸，得到语义近边界图像矩阵edge_w×h,edge_w×h为bool型矩阵，其中True所对应的位置代表近边界像素的位置。

步骤3、通过Backbone模型与基于空洞空间金字塔池化(ASPP,AtrousSpatialPyramidPooling)的再优化模型，进行特征融合得出语义近边界像素集合的语义特征数据集合；

其中Backbone模型用于图像矩阵img_w×h×3和语义标签矩阵label_w×h进行特征提取,得到特征。常用的有ResNet模型、Xception模型或者轻量级的mobileNet模型；

使用空洞空间金字塔池化的方法对Backbone模型输出的特征实现多尺度特征融合，得到融合特征图；

通过双向线性插值恢复融合特征图的大小，得到恢复后的特征矩阵Feature_w×h×C,其中C为特征向量长度(即特征矩阵的深度)；进而提取特征矩阵Feature_w×h×C中近边界像素(即edge_w×h为True的位置)的语义特征数据集{(Feat_i,Label_i)|Feat_i∈R^1×C,i＜n且i∈N}；其中，Label_i指代第i个近边界像素在语义标签矩阵label_w×h中对应的的标签编号；Feat_i是第i个近边界像素在特征矩阵Feature_w×h×C中对应的特征向量。

步骤4、从语义特征数据集{(Feat_i,Label_i)|Feat_i∈R^1×C,i＜n且i∈N}中随机选取标签j的真例(即所对应的特征向量)两个：T₁、T₂；假例(即标签不是j的语义特征数据的特征向量)一个：F₀，计算真例之间特征向量的距离distance(T₁,T₂)和真假例之间特征向量的距离distance(T₁,F₀)；

若distance(T₁,F₀)-distance(T₁,T₂)≤Δ，则根据距离的差值，对再优化模型通过反向传播算法进行参数修正，然后重新执行步骤3获取更新后的语义特征数据集{(Feat_i,Label_i)|Feat_i∈R^1×C,i＜n且i∈N}。然后判断重复训练次数是否达到预设值，若没达到，则重复该步骤S4(即重新随机选取标签的两个真例和一个假例，进行真例之间特征向量的距离distance(T₁,T₂)和真假例之间特征向量的距离distance(T₁,F₀)后再判断距离差值)。

若distance(T₁,F₀)-distance(T₁,T₂)＞Δ，则直接判断重复训练次数是否达到预设值，若没达到，则重复该步骤S4(即重新随机选取标签的两个真例和一个假例，进行真例之间特征向量的距离distance(T₁,T₂)和真假例之间特征向量的距离distance(T₁,F₀)后再判断距离差值)。

否则训练轮数达到预设值，结束训练。

步骤5、对语义特征数据集{(Feat_i,Label_i)|Feat_i∈R^1×C,i＜n且i∈N}，对每种标签的所有元素对应特征向量取均值，得到标签特征向量集合{E_j|j＜L且j∈N,E∈R^1×C}，其中j代表标签的类别，L为所有标签的数量，E_j代表标签j对应的特征向量。

图2为本发明其中一实施例提供的一种基于现有图像语义分割模型的再优化训练方法后，再优化模型的应用。对图2所述示例的运作流程详细介绍如下：

P1、对输入图像直接进行滤波与正则化处理，得到图像输入矩阵图像矩阵img_W×H×3。

P2、将图像输入矩阵输入到现有基础语义分割深度学习模型，获得语义预测矩阵Predict_W×H×M，其中M为标签的类别数，矩阵坐标为(i,j,k)的元素值表示图像上坐标为(i,j)的像素属于第k个标签的概率。同时获得预测语义图像Pred_W×H。

P3、语义预测矩阵Predict_W×H×M根据第三维(即标签的类别数)的元素值进行降序排列，取最大的N个值的下标(即对应标签)组成Top-N预测矩阵Top_W×H×N，矩阵前两维坐标为(i,j)的第N个元素值，表示该图像位置最可能的标签情况，这里N可以根据实际效果调整。

P4、预测语义图像Pred_W×H根据步骤2的实现过程，即采用Canny边缘检测算子对预测语义图像进行边缘提取，得到语义边界图像，再基于语义边界图像的边界点向外延伸，得到语义近边界图像矩阵edge_w×h,edge_w×h为bool型矩阵，其中True所对应的位置代表近边界像素的位置。

P5、将预测矩阵Top_W×H×N的近边缘像素(即edge_w×h为True的位置)所以预测的5个标签分别与标签特征向量集合{E_j|j＜L且j∈N,E∈R^1×C}{E_j|j＜L且j∈N,E∈R^1×C}中对应标签的特征向量计算距离，将距离最小的标签覆盖预测语义图像Pred_W×H中对应位置，得到输出语义图像Output_W×H。

应当注意，本发明的上述实施实例仅为清楚的说明本发明所作的举例，并非是对本发明的实施方式的限定，在说明本发明的某些特征或者方案时所使用的特殊术语不应当用于表示在这里重新定义该术语以限制与该术语相关的本发明的某些特定特点、特征或者方案。

Claims

1.一种基于现有图像语义分割模型的再优化训练方法，其特征在于包括如下步骤：

步骤1、针对带语义标签的图像及其标签进行预处理，得到的图像矩阵img_w×h×3和语义标签矩阵label_w×h，并作为训练数据

步骤2、对语义标签矩阵label_w×h采用Canny边缘检测算子进行边缘提取，得到语义边界图像，再基于语义边界图像的边界点向外延伸，得到语义近边界图像矩阵edge_w×h；

步骤3、通过Backbone模型与基于空洞空间金字塔池化的再优化模型，进行特征融合得出语义近边界像素的语义特征数据集合；

Backbone模型用于图像矩阵img_w×h×3和语义标签矩阵label_w×h进行特征提取,得到特征，包括ResNet模型、Xception模型或者轻量级的mobileNet模型；

通过双向线性插值恢复融合特征图的大小，得到恢复后的特征矩阵Feature_w×h×C,其中C为特征向量长度；进而提取特征矩阵Feature_w×h×C中近边界像素的语义特征数据集{(Feat_i,Label_i)|Feat_i∈R^1×C,i＜n且i∈N}；其中，Label_i指代第i个近边界像素在语义标签矩阵label_w×h中对应的的标签编号；Feat_i是第i个近边界像素在特征矩阵Feature_w×h×C中对应的特征向量；

步骤4、从语义特征数据集{(Feat_i,Label_i)|Feat_i∈R^1×C,i＜n且i∈N}中随机选取标签j的真例两个：T₁、T₂；假例一个：F₀，计算真例之间特征向量的距离distance(T₁,T₂)和真假例之间特征向量的距离distance(T₁,F₀)；

若distance(T₁,F₀)-distance(T₁,T₂)≤Δ，则根据距离的差值，对再优化模型通过反向传播算法进行参数修正，然后重新执行步骤3获取更新后的语义特征数据集{(Feat_i,Label_i)|Feat_i∈R^1×C,i＜n且i∈N}；然后判断重复训练次数是否达到预设值，若没达到，则重复该步骤4；

若distance(T₁,F₀)-distance(T₁,T₂)＞Δ，则直接判断重复训练次数是否达到预设值，若没达到，则重复该步骤4；

否则训练轮数达到预设值，结束训练；

2.根据权利要求1所述的一种基于现有图像语义分割模型的再优化训练方法，其特征在于步骤1具体实现如下：

针对语义分割数据集中带语义标签的彩色图像img_W×H×3进行预处理，包括图像的随机放缩裁切、水平翻转、滤波以及正则化的操作，得到图像矩阵img_w×h×3；针对语义分割数据集中带语义标签的语义图像label_W×H进行随机放缩裁切、水平翻转的操作，得到语义标签矩阵label_w×h；将得到的图像矩阵img_w×h×3和语义标签矩阵label_w×h作为训练数据；其中W,H是原彩色图像和语义图像的长宽，其中w,h是预处理后彩色图像和语义图像的长宽。

3.根据权利要求1或2所述的一种基于现有图像语义分割模型的再优化训练方法，其特征在于步骤2中：edge_w×h为bool型矩阵，其中True所对应的位置代表近边界像素的位置。

4.根据权利要求3所述的一种基于现有图像语义分割模型的再优化训练方法的应用方法，其特征在于将经过再优化训练方法得到的再优化图像语义分割模型对图像进行语义分割，具体包括如下步骤：

P1、对输入图像直接进行滤波与正则化处理，得到图像输入矩阵图像矩阵img_W×H×3；

P2、将图像输入矩阵输入到现有基础语义分割深度学习模型，获得语义预测矩阵Predict_W×H×M，其中M为标签的类别数，矩阵坐标为(i,j,k)的元素值表示图像上坐标为(i,j)的像素属于第k个标签的概率；同时获得预测语义图像Pred_W×H；

P3、语义预测矩阵Predict_W×H×M根据第三维的元素值进行降序排列，取最大的N个值的下标组成Top-N预测矩阵Top_W×H×N，矩阵前两维坐标为(i,j)的第N个元素值，表示该图像位置最可能的标签情况，这里N根据实际效果调整；

P4、预测语义图像Pred_W×H根据步骤2的实现过程，即采用Canny边缘检测算子对预测语义图像进行边缘提取，得到语义边界图像，再基于语义边界图像的边界点向外延伸，得到语义近边界图像矩阵edge_w×h,edge_w×h为bool型矩阵，其中True所对应的位置代表近边界像素的位置；

P5、将预测矩阵Top_W×H×N的近边缘像素所以预测的5个标签分别与标签特征向量集合{E_j|j＜L且j∈N,E∈R^1×C}{E_j|j＜L且j∈N,E∈R^1×C}中对应标签的特征向量计算距离，将距离最小的标签覆盖预测语义图像Pred_W×H中对应位置，得到输出语义图像Output_W×H。