CN114463187B

CN114463187B - 基于聚合边缘特征的图像语义分割方法及系统

Info

Publication number: CN114463187B
Application number: CN202210387576.2A
Authority: CN
Inventors: 田辉; 刘其开; 徐飞; 郭玉刚; 张志翔
Original assignee: Hefei High Dimensional Data Technology Co ltd
Current assignee: Hefei High Dimensional Data Technology Co ltd
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-06-17
Anticipated expiration: 2042-04-14
Also published as: CN114463187A

Abstract

本发明特别涉及一种基于聚合边缘特征的图像分割方法，包括：特征提取模块，用于提取图像的浅层特征；特征融合模块，用于对浅层特征进行特征融合；上采样模块，用于对融合后的特征进行卷积降维操作，并对降维后的特征图进行上采样双线性插值处理得到与输入图尺寸相同的特征图；显著目标边缘图生成模块，用于对上采样模块输出的特征图进行相加，并对相加后的特征图进行可视化处理得到预测的显著目标边缘图。通过此网络可以有效的提取显著目标，以PC屏幕为例，我们的显著目标就是屏幕的边缘，而非所有线段，建立该网络并完成训练后，训练好的网络就能可靠的提取出显著目标边缘，提取结果中噪点少，保证后续对屏幕的识别更加准确。

Description

基于聚合边缘特征的图像语义分割方法及系统

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于聚合边缘特征的图像语义分割方法及系统。

背景技术

目前计算机视觉技术应用于多个场景，包括图像分类、目标检测、三维重建以及语义分割等领域。随着互联网通信快速发展，智能化产品的竞争力需要更高级语义场景理解的技术突破。因此，语义分割作为计算机视觉的核心问题，能够帮助越来越多的产品自动高效地理解图像或影像中相关的知识或语义，从而达到智能化目标，减小人为的交互操作并提升客户的舒适感。当前这些产品已广泛应用于自动驾驶、人机交互、计算摄影学、图像搜索引擎、增强现实等领域。

计算机视觉中语义分割问题本质上是从粗糙推理逐渐到精细化推理的过程。刚开始要追溯到分类问题，即粗略地预测输入样本中的物体类别，之后就是目标物体的定位与检测，这不仅预测物体的类别，并且给出关于各类别空间位置的额外信息，比如中心点或物体区域的边框。在此基础上，语义分割可以理解为在检测领域上的细粒度预测，将测试图像输入分割网络，使预测的热图大小和输入图像保持一致，通道数等于类别数，分别代表了各空间位置属于各类别的概率，即可以逐像素地进行分类。

深度学习算法已成为语义分割技术的主流方向，且取得了重要突破和进展。全卷积网络FCN成为了深度学习技术应用于语义分割问题的基石，它可以接受任意尺寸的输入图像，通过若干个反卷积层对编码网络的最后一个卷积的特征图（feature map）进行上采样解码，使它恢复到输入图像相同的尺寸，从而可以对每一个像素都产生一个预测，同时保留了原始输入图像中的空间信息。随后在FCN网络的基础上，第一阶段衍生了多种语义分割模型，如编解码之间具有跳跃连接的对称网络U-Net，引入扩张卷积和使用条件随机场CRF进行后处理优化的DeepLab系列网络以及结合上下文信息进行特征融合的ParseNet。第二阶段随着Transformer模型结构应用于视觉领域，提升了关键区域和感兴趣对象的特征辨识能力，在诸多视觉任务中取得较好的表现。

虽然现有的语义分割在几个常见的应用和数据场景的技术突破越来越大，但在特定场景或应用下，单目标语义分割的效果和实用性有待提高，比如对于电脑PC屏幕的分割场景受部分遮挡以及光照等复杂因素的影响，其分割效果并不是很理想，并且在现有的模型结构下提升有限。

为了解决现有技术中屏幕分割效果不佳的情况，东北大学于2021年7月29日提交的专利申请《基于自适应特征融合的边缘感知图像语义分割方法》（申请号：2021108646799），其公开了一种基于自适应特征融合的边缘感知图像语义分割方法，是一种以残差网络为基础的新的语义分割方法，是一个双分支网络结构模型，包括边缘分支和语义分支，其中，边缘分支从语义分支的浅层部分被引出，语义分支采用了编码解码结构。在边缘分支中，加入的多尺度交叉融合操作通过叠加空洞率不同的空洞卷积获取图像多尺度特征，同时各个分支之间的交叉融合可以进一步提升多尺度特征的鲁棒性，在语义分支中基于空间注意力机制对深层特征和浅层特征进行融合，可以在获得浅层特征中含有的丰富空间信息的同时，过滤其含有的大量噪声；最后对语义分支特征和边缘分支特征进行融合，进一步优化分割效果。此方案中，通过引入双分支网络，分别对图像中目标边缘特征和目标区域特征进行提取，最后再取交集，这样可以得到更加准确的分割效果。此案中，所采用的的边缘分支特征提取方案噪声很多，比如对PC屏幕进行边缘提取时，由于屏幕边缘多为直线，而图像中其他物体也常出现直线边缘，故而导致边缘分支特征提取的不准确，进一步影响最终的目标提取。

中国地质大学（武汉）申请的专利《基于双流深度网络的农田识别方法、装置及存储介质》（申请号：2021114441870）中，同样采用了边缘检测网络和语义分割网络对目标进行识别，该方案中采用的是基于DexiNed的农田边缘检测网络，同样会存在上述不足。

发明内容

本发明的首要目的在于提供一种基于聚合边缘特征的图像分割方法，能够准确的提取出显著目标边缘特征。

为实现以上目的，本发明采用的技术方案为：一种基于聚合边缘特征的图像分割方法，包括：特征提取模块，用于提取图像的浅层特征得到不同尺度的浅层特征图

；特征融合模块，用于对特征图

进行特征融合得到特征图

；上采样模块，用于对特征图

进行卷积降维操作得到单通道特征图

，并对单通道特征图

进行上采样双线性插值处理得到与输入图尺寸相同的特征图

，其中

；显著目标边缘图生成模块，用于对特征图

进行相加，并对相加后的特征图进行可视化处理得到预测的显著目标边缘图。

本发明的第二个目的在于提供一种基于聚合边缘特征的图像分割方法，提高识别出的显著目标边缘的精确性。

为实现以上目的，本发明采用的技术方案为：一种基于聚合边缘特征的图像分割方法，包括如下步骤：获取第一训练集；按照前述的方法构建第一网络；利用所述的第一训练集对所述的第一网络进行训练，训练完成后得到训练好的第一网络；将待检测图像输入训练好的第一网络得到预测的显著目标边缘图，该图中显著目标边框轮廓与背景区域相异。

与现有技术相比，上述分割网络和分割方法存在以下技术效果：通过提取浅层特征，并进行特征融合，再利用上采样双线性插值处理，可以有效的提取显著目标，比如对于PC屏幕来说，我们的显著目标就是屏幕的边缘，而非所有线段，建立该网络后，我们只需要利用标记好显著目标的图像集对其进行训练，训练好的网络就能可靠的提取出显著目标边缘，提取结果中噪点少，保证后续对屏幕的识别更加准确。

本发明的第三个目的在于提供一种基于聚合边缘特征的图像语义分割方法，能够更加准确的分割出所需目标。

为实现以上目的，本发明采用的技术方案为：一种基于聚合边缘特征的PC屏幕语义分割方法，包括如下步骤：获取第一训练集和第二训练集；按照前述的方法构建第一网络，构建基于语义分割的第二网络；利用所述的第一训练集对所述的第一网络进行训练，训练完成后得到训练好的第一网络；利用所述的第二训练集对所述的第二网络进行训练，训练完成后得到训练好的第二网络；将待检测图像分别输入训练好的第一网络、第二网络，得到预测的显著目标边缘图、预测热图，预测的显著目标边缘图中显著目标边框轮廓与背景区域相异，预测热图中目标区域与背景区域相异；计算预测的显著目标边缘图中显著目标边框轮廓内的区域和预测热图中目标区域的交集，并将此交集作为待检测图像的目标区域输出。

本发明的第四个目的在于提供一种基于聚合边缘特征的图像语义分割系统，能够更加准确的分割出所需目标。

为实现以上目的，本发明采用的技术方案为：一种基于聚合边缘特征的图像语义分割系统，包括第一网络模块、第二网络模块以及图像处理模块；所述的第一网络模块中存储有训练好的第一网络用于对待检测图像进行处理得到预测的显著目标边缘图，该图中显著目标边框轮廓与背景区域相异，第一网络按照前述的方法构建；所述的第二网络模块中存储有训练好的第二网络用于对待检测图像进行处理得到预测热图，该图中目标区域与背景区域相异；图像处理模块用于计算预测的显著目标边缘图中显著目标边框轮廓内的区域和预测热图中目标区域的交集并将此交集作为待检测图像的目标区域输出。

与现有技术相比，本发明存在以下技术效果：通过由前述网络结构构成的第一网络来提取显著目标边缘，能够准确的提取出目标的显著边缘特征；再通过基于语义分割的第二网络来提取目标区域，最后对两者进行融合，得到更准确的分割效果；由于边缘特征提取更加准确，再后面进行融合时得到的最终分割效果也更加精确。

附图说明

图1是本发明中基于聚合边缘特征的图像分割网络结构图；

图2是本发明中基于聚合边缘特征的图像分割方法流程图；

图3是本发明中基于聚合边缘特征的图像语义分割方法流程图；

图4是本发明中基于聚合边缘特征的图像语义分割网络结构图；

图5是本发明中基于聚合边缘特征的图像语义分割系统框图。

具体实施方式

下面结合图1至图5，对本发明做进一步详细叙述。

参阅图1，本发明公开了一种基于聚合边缘特征的图像分割方法，包括：特征提取模块，用于提取图像的浅层特征得到不同尺度的浅层特征图

；特征融合模块，用于对特征图

进行特征融合得到特征图

；上采样模块，用于对特征图

进行卷积降维操作得到单通道特征图

，并对单通道特征图

进行上采样双线性插值处理得到与输入图尺寸相同的特征图

，其中

；显著目标边缘图生成模块，用于对特征图

进行相加，并对相加后的特征图进行可视化处理得到预测的显著目标边缘图。通过提取浅层特征，并进行特征融合，再利用上采样双线性插值处理，可以有效的提取显著目标，比如对于PC屏幕来说，我们的显著目标就是屏幕的边缘，而非所有线段，建立该网络后，我们只需要利用标记好显著目标的图像集对其进行训练，训练好的网络就能可靠的提取出显著目标边缘，提取结果中噪点少，保证后续对屏幕的识别更加准确。

特征融合的方案有很多，本发明中优选地，所述的特征融合模块按如下步骤对特征图

进行特征融合得到特征图

包括：对特征图

进行卷积处理得到特征图

，特征图

与特征图

相比通道数减少但尺寸不变；对特征图

进行上采样双线性插值处理得到特征图

，特征图

与特征图

相比通道数不变且尺寸与特征图

相同；取特征图

的部分通道与特征图

进行叠加得到特征图

，特征图

和特征图

通道数不变且尺寸相同；对特征图

进行卷积处理得到特征图

，特征图

与特征图

相比通道数减少但尺寸不变；以此类推，得到特征图

。以图1为例，这里的N等于3，我们先得到特征图

，再通过特征图

和特征图

的融合得到特征图

，再通过特征图

和特征图

的融合得到特征图

，通过上述步骤，我们可以更加精准地实现显著目标边缘的提取，噪点非常少。

进一步地，所述的单通道特征图

和特征图

的尺寸相同，特征图

通道数为1；对特征图

进行相加即将N个特征图中相同位置的特征值相加，可视化处理包括：对相加后的特征图进行归一化操作得到概率分布矩阵；按照设定阈值对概率分布矩阵进行二值化处理即得到预测的显著目标边缘图。通过该步骤，可以方便的从不同尺度的浅层特征图中提取出特征图

，进而实现显著目标边框轮廓与背景区域的分类。

本发明还公开了一种基于聚合边缘特征的图像分割方法，包括如下步骤：获取第一训练集，收集多张图像并对每张图像进行像素级的分类标注，若目标为屏幕，则标注的即为屏幕边缘轮廓；按照前述的方法构建第一网络；利用所述的第一训练集对所述的第一网络进行训练，训练完成后得到训练好的第一网络；将待检测图像输入训练好的第一网络得到预测的显著目标边缘图，该图中显著目标边框轮廓与背景区域相异。需要注意的是，对不同的目标进行识别时，尽量建立各自对应的第一网络，比如，我们常用的对PC屏幕进行分割，那么我们第一训练集中多为包括屏幕的图像，训练得到的第一网络也仅用于提取PC屏幕的显著边缘特征，而不能用于提取其他目标的边缘特征。

参阅图3和图4，本发明还公开了一种基于聚合边缘特征的图像语义分割方法，包括如下步骤：获取第一训练集和第二训练集；按照前述的方法构建第一网络，构建基于语义分割的第二网络；利用所述的第一训练集对所述的第一网络进行训练，训练完成后得到训练好的第一网络；利用所述的第二训练集对所述的第二网络进行训练，训练完成后得到训练好的第二网络；将待检测图像分别输入训练好的第一网络、第二网络，得到预测的显著目标边缘图、预测热图，预测的显著目标边缘图中显著目标边框轮廓与背景区域相异，预测热图中目标区域与背景区域相异；计算预测的显著目标边缘图中显著目标边框轮廓内的区域和预测热图中目标区域的交集，并将此交集作为待检测图像的目标区域输出。通过由前述网络结构构成的第一网络来提取显著目标边缘，能够准确的提取出目标的显著边缘特征；再通过基于语义分割的第二网络来提取目标区域，最后对两者进行融合，得到更准确的分割效果；由于边缘特征提取更加准确，再后面进行融合时得到的最终分割效果也更加精确。此处的思路与背景技术中提及的两篇专利文献中的方案类似，不同的是，这里采用的是我们前面述及的第一网络进行显著目标边缘轮廓的提取。

参阅图4，进一步地，为了进一步优化第一网络和第二网络，尽可能的增加这两个网络模型的关联性且减少网络模型的复杂程度，本发明中将第一网络和第二网络融合在一起，具体地，所述第二网络为U-Net网络，其包括编码器和解码器；编码器包括M个卷积池化层，其前N层构成第一网络的特征提取模块，且N＜M，这个N一般取值为2-3，并且与编码器的层数成正比；第二网络训练时编码器前N层参数固定，这样可以更加快速的完成融合后网络模型的训练。

在训练时，第一数据集是人工标记的显著目标边缘轮廓图，并采用交叉熵损失来作为损失函数对第一网络进行优化。第二数据集是人工标记的屏幕热图，并采用focalloss损失来作为损失函数对第二网络进行优化微调，focal loss损失就是在交叉熵损失的基础上加一个权重系数来度量难分类和易分类样本对总损失的贡献。交叉熵损失和focalloss损失常用于分类问题中，是深度学习中应用最广泛的损失函数，因此这里不再对这两种损失函数的具体公式或计算细节做更多阐述。

参阅图5，本发明还公开了一种基于聚合边缘特征的图像语义分割系统，包括第一网络模块、第二网络模块以及图像处理模块；所述的第一网络模块中存储有训练好的第一网络用于对待检测图像进行处理得到预测的显著目标边缘图，该图中显著目标边框轮廓与背景区域相异；所述的第二网络模块中存储有训练好的第二网络用于对待检测图像进行处理得到预测热图，该图中目标区域与背景区域相异，第一网络按照前述的方法构建；图像处理模块用于计算预测的显著目标边缘图中显著目标边框轮廓内的区域和预测热图中目标区域的交集并将此交集作为待检测图像的目标区域输出。第一网络模块和第二网络模块分别用于实现第一网络和第二网络的处理功能，图像处理模块用于对两个网络模块输出的图像进行综合判断，从而可以得到更准确的目标区域。

本发明还公开了一种计算机可读存储介质和一种电子设备。其中，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的基于聚合边缘特征的图像分割方法或基于聚合边缘特征的图像语义分割方法。一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序时，实现如前所述的基于聚合边缘特征的图像分割方法或基于聚合边缘特征的图像语义分割方法。

Claims

1.一种基于聚合边缘特征的图像分割方法，其特征在于：包括：

特征提取模块，用于提取图像的浅层特征得到不同尺度的浅层特征图

；

特征融合模块，用于对特征图

进行特征融合得到特征图

；

上采样模块，用于对特征图

进行卷积降维操作得到单通道特征图

，并对单通道特征图

进行上采样双线性插值处理得到与输入图尺寸相同的特征图

，其中

；

显著目标边缘图生成模块，用于对特征图

进行相加，并对相加后的特征图进行可视化处理得到预测的显著目标边缘图；

所述的特征融合模块按如下步骤对特征图

进行特征融合得到特征图

包括：

对特征图

进行卷积处理得到特征图

，特征图

与特征图

相比通道数减少但尺寸不变；

对特征图

进行上采样双线性插值处理得到特征图

，特征图

与特征图

相比通道数不变且尺寸与特征图

相同；

取特征图

的部分通道与特征图

进行叠加得到特征图

，特征图

和特征图

通道数不变且尺寸相同；

对特征图

进行卷积处理得到特征图

，特征图

与特征图

相比通道数减少但尺寸不变；

以此类推，得到特征图

。

2.如权利要求1所述的基于聚合边缘特征的图像分割方法，其特征在于：所述的单通道特征图

和特征图

的尺寸相同，特征图

通道数为1；对特征图

进行相加即将N个特征图中相同位置的特征值相加，可视化处理包括：

对相加后的特征图进行归一化操作得到概率分布矩阵；

按照设定阈值对概率分布矩阵进行二值化处理即得到预测的显著目标边缘图。

3.一种基于聚合边缘特征的图像分割方法，其特征在于：包括如下步骤：

获取第一训练集；

按照权利要求1中的方法构建第一网络；

利用所述的第一训练集对所述的第一网络进行训练，训练完成后得到训练好的第一网络；

将待检测图像输入训练好的第一网络得到预测的显著目标边缘图，该图中显著目标边框轮廓与背景区域相异。

4.一种基于聚合边缘特征的图像语义分割方法，其特征在于：包括如下步骤：

获取第一训练集和第二训练集；

按照权利要求1中的方法构建第一网络，构建基于语义分割的第二网络；

利用所述的第二训练集对所述的第二网络进行训练，训练完成后得到训练好的第二网络；

将待检测图像分别输入训练好的第一网络、第二网络，得到预测的显著目标边缘图、预测热图，预测的显著目标边缘图中显著目标边框轮廓与背景区域相异，预测热图中目标区域与背景区域相异；

计算预测的显著目标边缘图中显著目标边框轮廓内的区域和预测热图中目标区域的交集，并将此交集作为待检测图像的目标区域输出。

5.如权利要求4所述的基于聚合边缘特征的图像语义分割方法，其特征在于：所述第二网络为U-Net网络，其包括编码器和解码器；编码器包括M个卷积池化层，其前N层构成第一网络的特征提取模块，且N＜M；第二网络训练时编码器前N层参数固定。

6.如权利要求5所述的基于聚合边缘特征的图像语义分割方法，其特征在于：所述的第一网络训练时使用交叉熵损失进行优化，第二网络训练时使用focal loss损失进行优化微调。

7.一种基于聚合边缘特征的图像语义分割系统，其特征在于：包括第一网络模块、第二网络模块以及图像处理模块；所述的第一网络模块中存储有训练好的第一网络用于对待检测图像进行处理得到预测的显著目标边缘图，该图中显著目标边框轮廓与背景区域相异，第一网络按照权利要求1中的方法构建；所述的第二网络模块中存储有训练好的第二网络用于对待检测图像进行处理得到预测热图，该图中目标区域与背景区域相异；图像处理模块用于计算预测的显著目标边缘图中显著目标边框轮廓内的区域和预测热图中目标区域的交集并将此交集作为待检测图像的目标区域输出。

8.一种计算机可读存储介质，其特征在于：其上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-3中任一项所述的基于聚合边缘特征的图像分割方法或4-6中任一项所述的基于聚合边缘特征的图像语义分割方法。

9.一种电子设备，其特征在于：包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-3中任一项所述的基于聚合边缘特征的图像分割方法或4-6中任一项所述的基于聚合边缘特征的图像语义分割方法。