CN111340047B

CN111340047B - 基于多尺度特征与前背景对比的图像语义分割方法及系统

Info

Publication number: CN111340047B
Application number: CN202010126217.2A
Authority: CN
Inventors: 潘昌琴; 林涵阳; 刘刚; 唐伟; 邓政华; 李伟; 卓丽栋; 张路; 刘华杰
Original assignee: Jiangsu Start Dima Data Processing Co ltd
Current assignee: Jiangsu Start Dima Data Processing Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-05-11
Anticipated expiration: 2040-02-28
Also published as: CN111340047A

Abstract

本发明涉及一种基于多尺度特征与前背景对比的图像语义分割方法及系统。该方法首先图像进行预处理后，然后进行特征编码，接着优化编码过程中的浅层特征，再结合前两者基于像素重排技术利用密集连接进行特征解码得到语义分割概率图，完成语义分割模型的核心神经网络搭建；接着基于搭建的核心神经网络，对标注数据集进行数据增强，计算语义分割损失及辅助的边缘检测损失用于迭代更新网络中的参数直至收敛，完成模型的训练；最后结合搭建的核心神经网络和训练好的网络参数，从得到的语义分割概率图中的每个位置选取概率最大的一项作为该像素位置的分类，得到最后的语义分割结果。本发明方法有利于提高图像语义分割的准确性和鲁棒性，本发明系统可用于自定义保单系统，用于实现用户上传保单封面图像的图像质量增强与美化，以及敏感图像过滤等。

Description

基于多尺度特征与前背景对比的图像语义分割方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于多尺度特征与前背景对比的图像语义分割方法及系统。

背景技术

图像语义分割是人工智能领域中计算机视觉的一个重要分支，是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别，使其与图像本身的视觉表示内容一致，所以图像语义分割任务也被称为像素级的图像分类任务。

由于图像语义分割与图像分类有一定的相似性，所以各式各样的图像分类网络常常在剔除最后的全连接层后，作为图像语义分割网络的主干网，并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征，最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下，图像语义分割的难度要更高，因为它不仅需要全局的上下文信息，还需要结合精细的局部信息来确定每个像素点的类别，所以常常利用主干网来提取较为全局的特征，然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征，所以常常把前者称为编码网络，后者称为解码网络。同时在编码过程中，为了能更好捕获不同大小物体的特征，常常结合不同感受野和尺度信息，其中最具有代表性的是带孔空间金字塔池化和空间金字塔池化技术。然而前者由于采取了大比率的扩张卷积导致信息利用率低，后者采取池化导致特征的空间信息丢失，同时两者均没能考虑到前背景的相关性。在现有的语义分割方法中，解码过程中一般都使用转置卷积或者双线性插值等方法将特征逐级扩大，因此特征尺寸是逐级递增的，无法有效地对重建特征进行特征重用。而且在这过程中常常会加入浅层特征来优化解码过程，但没有对浅层特征设计一个明确的优化目标，因此在重建过程中修复细节的能力稍显不足。

发明内容

本发明的目的在于提供一种基于多尺度特征与前背景对比的图像语义分割方法，该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

为实现上述目的，本发明的技术方案是：一种基于多尺度特征与前背景对比的图像语义分割方法，包括如下步骤：

步骤A：首先对输入图像进行预处理，然后进行编码得到F_enc，接着优化编码过程中的浅层特征得到

和

最后结合F_enc和

进行解码得到语义分割概率图P_ss，完成语义分割模型的核心神经网络搭建；

步骤B：基于步骤A搭建的核心神经网络，利用标注数据集迭代更新网络中的参数直至收敛，完成模型的训练；

步骤C：结合步骤A搭建的核心神经网络和步骤B中训练好的网络参数，从得到的语义分割概率图P_ss中的每个位置选取概率最大的一项作为该像素位置的分类，得到最后的语义分割结果。

进一步的，在所述步骤A中，首先对输入图像进行预处理，然后进行编码得到F_enc，接着优化编码过程中的浅层特征得到

和

最后结合F_enc和

进行解码得到语义分割概率图P_ss，完成语义分割模型的核心神经网络搭建，包括如下步骤：

步骤A1：预处理输入图像，对其进行标准化，即针对每张输入图像的每个通道，在原像素值的基础上减去各自的像素平均值；

步骤A2：首先用卷积网络处理步骤A1中得到的标准化图像，然后获取具有多尺度前背景对比表示的编码特征F_enc；

步骤A3：选取步骤A2中卷积网络处理的中间层特征进行二次优化得到

和

步骤A4：基于像素重排技术和密集连接结构，结合F_enc和

进行解码得到语义分割概率图P_ss，完成语义分割模型的核心神经网络搭建。

进一步的，在所述步骤A2中，首先用卷积网络处理步骤A1中得到的标准化图像，然后获取具有多尺度前背景对比表示的编码特征F_enc，包括以下步骤：

步骤A21：使用卷积神经网络提取特征F_base；

步骤A22：使用具有不同扩张比率的扩张卷积分别处理特征F_base得到多个不同级别的前景上下文表示特征；扩张比率越大，得到的特征级别越高；其中扩张卷积的公式如下：

y_dc[m]＝∑x_dc[m_dc+r_dc·k_dc]w_dc[k_dc]

其中，x_dc与y_dc分别为卷积前后的值，m_dc与k_dc分别为图像和卷积核的位置坐标，w_dc为权重卷积核，r_dc为带孔卷积的比率；

步骤A23：使用具有不同划分区域数的平均池化操作处理特征F_base得到多个不同级别的背景上下文表示特征；划分的区域越小，得到的特征级别越高；然后再分别用双线性插值缩放特征到原始输入大小；其中池化尺寸d_p可通过输入特征尺寸λ和划分区域数p由如下公式计算得到：

步骤A24：将步骤A22中得到前景上下文表示特征分别减去步骤A23中得到的背景上下文表示特征，得到多个对比上下文特征；

步骤A25：将步骤A24中计算得到的全部对比上下文特征和F_base在通道维度上进行拼接，然后通过卷积核为1的卷积操作对其进行特征降维，最后利用随机失活技术处理提升泛化性能，得到多尺度前背景对比表示特征作为最终的编码特征F_enc。

进一步的，在所述步骤A3中，选取步骤A2中卷积网络处理的中间层特征进行二次优化得到

和

包括以下步骤：

步骤A31：从步骤A2中的卷积网络中选择尺寸大于编码特征F_enc的中间层特征

其中步长os表示

与F_enc的尺寸比例；

步骤A32：用由预激活的残差块和一个3×3卷积构成的适配卷积单元处理

得到边界优化特征

公式如下：

其中基础块f_bb由批量标准化、激活函数和3×3卷积组成，

为经过预激活残差块的处理结果；

步骤A33：对于得到的边界优化特征

同样用适配卷积单元处理得到融合优化特征

步骤A34：选取不同的步长os重复步骤A32和步骤A33，得到多对

和

进一步的，在所述步骤A4中，基于像素重排技术和密集连接结构，结合F_enc和

进行解码得到语义分割概率图P_ss，完成语义分割模型的核心神经网络搭建，包括以下步骤：

步骤A41：先使用1×1卷积对待解码特征F_enc进行降维，然后用适配卷积单元处理；

步骤A42：将步骤A41中经适配卷积单元处理得到的特征和具有相同尺寸的

进行拼接，然后用适配卷积单元处理；

步骤A43：陆续用3×3卷积和1×1卷积进行处理后，然后与步骤A41中的待解码特征F_enc进行拼接；

步骤A44：对步骤A43中得到的特征进行像素重排得到更大尺寸的特征，即在特征中的每个位置按通道分别取r_h·r_w个数进行分组，然后重新排列为通道数为1，高宽分别为r_h和r_w的特征，其中r_h和r_w分别为重排后高宽缩放系数；

步骤A45：将步骤A44获得的解码特征与双线性插值缩放后的F_enc进行拼接作为新的待解码特征，重复步骤A41至A44直至无剩余

最后在分别用步骤A41、步骤A43处理并用双线性到原输入图像尺寸大小后，使用softmax函数计算语义分割概率图P_ss，计算公式如下：

其中，σ_c为c类别的概率，e为自然指数，γ_c和γ_k分别表示类别为c和k的未激活特征值，C为总类别数。

进一步的，在所述步骤B中，基于步骤A搭建的核心神经网络，利用标注数据集迭代更新网络中的参数直至收敛，完成模型的训练，包括以下步骤：

步骤B1：利用已存在参数或者随机初始化模型参数；

步骤B2：使用随机缩放和随机裁剪对输入图像进行数据增强；

步骤B3：基于步骤A搭建的核心神经网络进行前向计算；

步骤B4：将步骤A中得到的

特征使用双线性插值上采样到其中最大的一个特征尺寸，然后拼接后使用1×1卷积，并使用sigmoid函数激活得到边缘概率图P_ed，计算公式如下：

其中，σ为概率，e为自然指数，γ表示未激活特征值；

步骤B5：利用训练集的语义分割标注计算边缘检测标注，计算公式如下：

其中，y_edge(i,j)和

为坐标(i,j)位置的边缘标注和语义标注，(i_u,j_u)表示(i,j)坐标下的8邻域U₈中的一组坐标，sgn()为符号函数；

步骤B6：利用语义分割和边缘两者的概率图与其对应标注，分别计算像素级的交叉熵，得到对应语义分割损失L_ss和辅助监督的边缘损失L_ed，然后计算加权和损失L：

L＝L_ss+αL_ed

其中，α为L_ed在最终损失中所占的权重；

步骤B7：基于随机梯度下降优化算法，以最小化加权和损失为目标，利用反向传播更新模型参数；

步骤B8：重复步骤B2至步骤B7，直至模型收敛后完成模型的训练，保存训练得到的模型参数。

本发明还提供了一种基于多尺度特征与前背景对比的图像语义分割系统，包括：

核心网络模块，用于搭建模型的核心网络结构，包括编码子模块、解码子模块以及边界优化子模块；首先对输入图像进行预处理，然后通过编码子模块进行编码得到F_enc，接着通过边界优化子模块优化编码过程中的浅层特征得到

和

最后通过解码子模块结合F_enc和

模型训练模块，用于训练模型，得到优秀的网络模型参数并保存，包括参数初始化子模块、数据增强子模块、核心网络子模块、损失计算子模块以及参数更新子模块；首先，通过参数初始化子模块初始化模型参数，然后通数据增强子模块对输入图像进行数据增强，接着通过核心网络结构基于核心网络模块搭建的核心神经网络进行前向计算，而后通过损失计算子模块及参数更新子模块，对核心网络子模块的核心神经网络进行参数的更新；

图像分割模块，用于对图像语义分割的概率图P_ss进行进一步处理得到最后的语义分割结果，包括参数加载子模块、核心网络子模块、输出子模块；通过参数加载子模块加载模型训练模块得到的参数至核心网络模块搭建的核心神经网络，经由核心网络子模块对图像语义分割的概率图P_ss处理后，由输出子模块输出最后的语义分割结果。

相较于现有技术，本发明具有以下有益效果：本发明首先在编码网络中的卷积网过后基于多尺度前背景对比进行特征编码，针对性地从多种感受野下提取前背景对比特征，可以在保证信息利用率的同时不丢失特征的空间信息，同时前背景对比特征也使得特征更具有辨别度，并以交叉匹配的方式进行上下文信息的重用，有效降低了模型复杂度。然后在浅层特征优化部分中，利用两段式优化以及辅助边缘监督，有效增强了边界信息的学习和利用。最后在解码网络结合优化的浅层特征，巧妙地利用像素重排的方式自然地让各级重建特征的尺寸统一起来，从而可以在各级解码特征之间建立密集连接，利用密集网的方式针对性地对分辨率重建过程中的特征进行更有效地重用。与现有方法相比，本发明能获取更具有辨别度的上下文对比特征，既拥有较大的信息利用率也维持了空间信息，在浅层特征优化过程中对边界细节信息的学习进行辅助监督，并在前后加入缓冲的优化部分，可以更好地学习边界信息并用于更好地提高不同物体间的分割能力，解码过程中利用像素重排的方式自然而巧妙地在各级解码特征之间建立密集连接，可以有效地对所有解码特征进行重用，使得最后的语义分割结果更准确且鲁棒。本发明系统可用于自定义保单系统，用于实现用户上传保单封面图像的图像质量增强与美化，以及敏感图像过滤等。

附图说明

图1为本发明实施例的方法实现流程图。

图2是本发明实施例的系统结构示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了基于多尺度特征与前背景对比的图像语义分割方法，如图1所示，包括以下步骤：

步骤A：首先图像进行预处理后，然后进行编码得到F_enc，接着优化编码过程中的浅层特征得到

和

最后结合前两者进行解码得到语义分割概率图P_ss，完成语义分割模型的核心神经网络搭建；

步骤A21：使用卷积神经网络(本实施例中采用了应用扩张卷积的残差网络)提取特征F_base；

步骤A22：使用具有不同扩张比率的扩张卷积分别处理特征F_base得到多个不同级别的前景上下文表示特征(本实施例采取孔率为2，5，8，16的四个前景上下文表示特征)。扩张比率越大，得到的特征级别越高。其中扩张卷积的公式如下：

y_dc[m]＝∑x_dc[m_dc+r_dc·k_dc]w_dc[k_dc]

步骤A23：使用具有不同划分区域数的平均池化操作处理特征F_base得到多个不同级别的背景上下文表示特征(本实施例采取划分区域数为6，3，2，1的四个背景上下文表示特征)。划分的区域越小，得到的特征级别越高。然后再分别用双线性插值缩放特征到原始输入大小。其中池化尺寸d_p可通过输入特征尺寸λ和划分区域数p由如下公式计算得到：

步骤A24：将步骤A22中得到前景上下文表示特征分别减去步骤A23中得到的背景上下文表示特征，得到多个对比上下文特征(本实施例从总共16对匹配中只采取10对匹配，其中的前景上下文特征级别都不大于背景上下文特征级别)；

步骤A25：将步骤A24中计算得到的全部对比上下文特征和F_base在通道维度上进行拼接，然后通过卷积核为1的卷积操作对其进行特征降维，最后利用随机失活技术处理提升泛化性能(本实施例中采取的随机失活概率为0.5)，得到多尺度前背景对比表示特征作为最终的编码特征F_enc。

和

其中步长os表示

与F_enc的尺寸比例；

得到边界优化特征

公式如下：

其中基础块f_bb由批量标准化、激活函数和3×3卷积组成，

为经过预激活残差块的处理结果；

步骤A33：对于得到的边界优化特征

同样用适配卷积单元处理得到融合优化特征

步骤A34：选取不同的步长os重复步骤A32和步骤A33，得到多对

和

(本实施例中采取的os为4，2)。

步骤A4：基于像素重排技术和密集连接结构，结合F_enc和

步骤A42：将步骤A41中得到的特征和具有相同尺寸的

进行拼接，然后用适配卷积单元处理；

步骤A44：对步骤A43中得到的特征进行像素重排得到更大尺寸的特征，即在特征中的每个位置按通道分别取r_h·r_w个数进行分组，然后重新排列为通道数为1，高宽分别为r_h和r_w的特征，其中r_h和r_w分别为重排后高宽缩放系数(本实施例中r_h和r_w同为2)；

步骤A45：将获得的解码特征与双线性插值缩放后的F_enc进行拼接作为新的待解码特征，重复步骤A41至A44直至无剩余

步骤B1：利用已存在参数或者随机初始化模型参数；

步骤B3：并基于步骤A搭建的核心神经网络进行前向计算；

步骤B4：将步骤A中得到的多个

特征都使用双线性插值上采样到其中最大的一个特征尺寸，然后拼接后使用1×1卷积，并使用sigmoid函数激活得到边缘概率图P_ed，计算公式如下：

其中，σ为概率，e为自然指数，γ表示未激活特征值；

其中，y_edge(i,j)和

L＝L_ss+αL_ed

其中，α为L_ed在最终损失中所占的权重(本实施例中α为1)；

本发明还提供了一种基于多尺度特征与前背景对比的图像语义分割系统，如图2所示，包括：

和

最后通过解码子模块结合F_enc和

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于多尺度特征与前背景对比的图像语义分割方法，其特征在于，包括如下步骤：

和

最后结合F_enc和

步骤C：结合步骤A搭建的核心神经网络和步骤B中训练好的网络参数，从得到的语义分割概率图P_ss中的每个位置选取概率最大的一项作为像素位置的分类，得到最后的语义分割结果；

在所述步骤A中，首先对输入图像进行预处理，然后进行编码得到F_enc，接着优化编码过程中的浅层特征得到

和

最后结合F_enc和

和

步骤A4：基于像素重排技术和密集连接结构，结合F_enc和

在所述步骤A2中，首先用卷积网络处理步骤A1中得到的标准化图像，然后获取具有多尺度前背景对比表示的编码特征F_enc，包括以下步骤：

步骤A21：使用卷积神经网络提取特征F_base；

y_dc[m]＝∑x_dc[m_dc+r_dc·k_dc]w_dc[k_dc]

2.根据权利要求1所述的基于多尺度特征与前背景对比的图像语义分割方法，其特征在于，在所述步骤A3中，选取步骤A2中卷积网络处理的中间层特征进行二次优化得到

和

包括以下步骤：

其中步长os表示

与F_enc的尺寸比例；

得到边界优化特征

公式如下：

其中基础块f_bb由批量标准化、激活函数和3×3卷积组成，

为经过预激活残差块的处理结果；

步骤A33：对于得到的边界优化特征

同样用适配卷积单元处理得到融合优化特征

步骤A34：选取不同的步长os重复步骤A32和步骤A33，得到多对

和

3.根据权利要求1所述的基于多尺度特征与前背景对比的图像语义分割方法，其特征在于，在所述步骤A4中，基于像素重排技术和密集连接结构，结合F_enc和

进行拼接，然后用适配卷积单元处理；

4.根据权利要求1所述的基于多尺度特征与前背景对比的图像语义分割方法，其特征在于，在所述步骤B中，基于步骤A搭建的核心神经网络，利用标注数据集迭代更新网络中的参数直至收敛，完成模型的训练，包括以下步骤：

步骤B1：利用已存在参数或者随机初始化模型参数；

步骤B3：基于步骤A搭建的核心神经网络进行前向计算；

步骤B4：将步骤A中得到的

其中，σ为概率，e为自然指数，γ表示未激活特征值；

其中，y_edge(i,j)和

L＝L_ss+αL_ed

其中，α为L_ed在最终损失中所占的权重；

5.一种基于多尺度特征与前背景对比的图像语义分割系统，其特征在于，包括：

和

最后通过解码子模块结合F_enc和

进行解码得到语义分割概率图P_ss，完成语义分割模型的核心神经网络搭建；包括如下步骤：

和

步骤A4：基于像素重排技术和密集连接结构，结合F_enc和

步骤A21：使用卷积神经网络提取特征F_base；

y_dc[m]＝∑x_dc[m_dc+r_dc·k_dc]w_dc[k_dc]

步骤A25：将步骤A24中计算得到的全部对比上下文特征和F_base在通道维度上进行拼接，然后通过卷积核为1的卷积操作对其进行特征降维，最后利用随机失活技术处理提升泛化性能，得到多尺度前背景对比表示特征作为最终的编码特征F_enc；