CN113869396A

CN113869396A - 基于高效注意力机制的pc屏幕语义分割方法

Info

Publication number: CN113869396A
Application number: CN202111127462.6A
Authority: CN
Inventors: 田辉; 刘其开; 郭玉刚; 张志翔
Original assignee: Hefei High Dimensional Data Technology Co ltd
Current assignee: Hefei High Dimensional Data Technology Co ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-31

Abstract

本发明特别涉及一种基于高效注意力机制的PC屏幕语义分割方法，包括如下步骤：S100、利用编解码模块以及Transformer自适应模块构建网络模型，编解码模块用于对输入的图像进行处理得到特征图，Transformer自适应模块用于对特征图进行校正；S200、利用数据集和损失函数对网络模型进行训练；S300、将待分割的图片导入训练好的网络模型中进行识别得到分割后的图像。这里通过设置编解码模块，采用常规分割模型进行训练，可以实现对普通样本的精确分类，在此基础上，共享之前训练好的编解码模块，并增加Transformer自适应模块进行参数优化，从而可以使分类器动态地适应测试样本，进而提高模型对类内特征差异较大的样本的分类精度。

Description

基于高效注意力机制的PC屏幕语义分割方法

技术领域

本发明涉及计算机图像识别技术领域，特别涉及一种基于高效注意力机制的PC屏幕语义分割方法。

背景技术

目前，计算机视觉技术应用于多个场景，包括图像分类、目标检测、三维重建以及语义分割等领域。随着互联网通信快速发展，智能化产品的竞争力需要更高级的语义场景理解的技术突破。因此，语义分割作为计算机视觉的核心问题，能够帮助越来越多的产品自动高效地理解图像或影像中相关的知识或语义，从而达到智能化目标，减小人为的交互操作以及提升客户的舒适感。当前这些产品已广泛应用于自动驾驶、人机交互、计算摄影学、图像搜索引擎、增强现实等领域。

计算机视觉中语义分割问题本质上是从粗糙推理逐渐到精细化推理的过程。刚开始要追溯到分类问题，即粗略地预测输入样本中的物体类别，之后就是目标物体的定位与检测，这不仅预测物体的类别，并且给出关于各类别空间位置的额外信息，比如中心点或物体区域的边框。在此基础上，语义分割可以理解为在检测领域上的细粒度预测，将测试图像输入分割网络，使预测的热图大小和输入图片保持一致，通道数等于类别数，分别代表了各空间位置属于各类别的概率，即可以逐像素地进行分类。

深度学习算法是目前语义分割技术的主流方向，且取得了重要突破和进展，最为突出的落地便是无人驾驶技术。虽然现有的语义分割在几个常见的应用和数据场景的技术突破越来越大，但在小样本的语义分割以及特定应用下单目标语义分割的研究和工作并不多见，在商业应用中，语义分割技术在产品的实际落地中主要受深度模型的性能和硬件以及大规模数据集的获取成本等多个因素的影响。

全卷积网络FCN成为了深度学习技术应用于语义分割问题的基石，它可以接受任意尺寸的输入图像，通过若干个反卷积层对编码网络的最后一个卷积的特征图（featuremap）进行上采样解码，使它恢复到输入图像相同的尺寸，从而可以对每一个像素都产生一个预测，同时保留了原始输入图像中的空间信息。随后在FCN网络的基础上，衍生了多种语义分割模型，如编解码之间具有跳跃连接的对称网络U-net,引入扩张卷积和使用条件随机场CRF进行后处理优化的DeepLab系列网络以及结合上下文信息进行特征融合的ParseNet。这些算法模型，都存在如下不足：其一，过渡依赖带标签数据，获取数据成本较大；其二，对于内差异较大的样本分割效果不好，泛化能力不足。

发明内容

本发明的目的在于提供一种基于高效注意力机制的PC屏幕语义分割方法，提高对类内特征差异较大的样本进行分类的精度。

为实现以上目的，本发明采用的技术方案为：一种基于高效注意力机制的PC屏幕语义分割方法，包括如下步骤：S100、利用编解码模块以及Transformer自适应模块构建网络模型，编解码模块用于对输入的图像进行处理得到特征图，Transformer自适应模块用于对特征图进行校正；S200、利用数据集和损失函数对网络模型进行训练；S300、将待分割的图片导入训练好的网络模型中进行识别得到分割后的图像。

与现有技术相比，本发明存在以下技术效果：这里通过设置编解码模块，采用常规分割模型进行训练，可以实现对普通样本的精确分类，在此基础上，共享之前训练好的编解码模块，并增加Transformer自适应模块进行参数优化，从而可以使分类器动态地适应测试样本，进而提高模型对类内特征差异较大的样本的分类精度。

附图说明

图1是本发明的网络模型图；

图2是对编解码模块进行训练的结构示意图；

图3是对Transformer自适应模块训练的结构示意图；

图4是本发明中Transformer自适应模块的模型图；

图5是原图与其对应的热图。

具体实施方式

下面结合图1至图5，对本发明做进一步详细叙述。

参阅图1，一种基于高效注意力机制的PC屏幕语义分割方法，包括如下步骤：S100、利用编解码模块以及Transformer自适应模块构建网络模型，编解码模块用于对输入的图像进行处理得到特征图，Transformer自适应模块用于对特征图进行校正；S200、利用数据集和损失函数对网络模型进行训练；S300、将待分割的图片导入训练好的网络模型中进行识别得到分割后的图像。这里通过设置编解码模块，采用常规分割模型进行训练，可以实现对普通样本的精确分类，在此基础上，共享之前训练好的编解码模块，并增加Transformer自适应模块进行参数优化，从而可以使分类器动态地适应测试样本，进而提高模型对类内特征差异较大的样本的分类精度。

由编解码模块和Transformer自适应模块构成的网络模型结构有很多种，本发明中采用如下方案：所述的步骤S100中，网络模型由编解码模块、Transformer自适应模块串联而成，编解码模块的输入端即网络模型的输入端，编解码模块和Transformer自适应模块的输出端连接线性分类器，线性分类器用于对特征图进行分类得到热图，线性分类器的输出端即网络模型的输出端。本网络模型中，在进行训练时，需要将编解码模块的输出端连接线性分类器，以方便对编解码模块进行训练；当网络模型训练完毕投入使用时，编解码模块无需连接线性分类器，其只与Transformer自适应模块相连。

为了能够方便的对网络模型进行训练，本发明中选用了两组样本集，其中，第一组样本集为含有完整屏幕的样本，第二组样本集为含有部分屏幕或屏幕倾斜的样本。利用两组不同的样本集，可以分别对编解码模块和Transformer自适应模块进行训练，具体地，所述的数据集包括第一组样本集和第二组样本集，步骤S200中包括如下步骤：S220、利用第一组样本集训练编码器和解码器，更新编码器和解码器的网络参数；S230、固定编码器和解码器的网络参数，利用第二组样本集训练Transformer自适应模块，更新Transformer自适应模块的网络参数。对于这种由多种模块组合而成的网络模型，若直接进行训练，会比较复杂，不易进行参数调整，故本发明中，采用多阶段的训练方式，逐一训练编解码模块和Transformer自适应模块，从而可以方便的完成网络模型的训练，且训练得到的网络模型对屏幕分割效果非常好。

进一步地，所述的数据集包括公开样本集，步骤S220之前还包括如下步骤：S210、利用公开样本集对编解码模块进行预训练，用于初始化编解码模块的参数。这里先使用公开样本集进行预训练，能够达到赋予模型先验信息的作用，可以加快网络模型训练的收敛速度。

上述公开样本集可以是PASCAL数据集，第一组样本集和第二组样本集可以在日常办公场景中用相机或者手机采集不同光线条件以及背景的PC屏幕数据，然后利用开源工具labelme进行样本像素级的类别标注，生成对应的标签热图，标签分为两类，背景，类别为0，屏幕区域（不带边框），类别为1，如图5所示，图5中，左边是原图，右边是热图（附图中展示的是黑白图，实际上是彩色图），灰色区域对应的即为屏幕（彩色图中灰色区域显示的是红色）。

参阅图2，进一步地，所述的编解码模块包括编码器和解码器，编码器由多个卷积层、池化层以及shuffleNet Unit模块堆叠的特征提取网络组成，解码器由多个转置卷积以及普通卷积层组成，编解码模块是一种较为成熟的网络模块，其结构可参考论文SHUFFLESEG:REAL-TIME SEMANTIC SEGMENTATION NETWORK中的描述。对编解码模块的训练包括如下步骤：S211、将原图输入至编解码模块中；S212、编解码模块输出与原图大小一致的第一特征图；S213、线性分类器对第一特征图进行处理得到第一预测热图；S214、根据第一预测热图以及原图对应的标记热图计算第一损失函数，并根据第一损失函数对编解码模块的网络进行优化；步骤S210中，即利用公开样本集中的所有图片执行步骤S211-S214；步骤S220中，即利用第一组样本集中所有图片执行步骤S211-S214。通过以上步骤，可以方便的对编解码模块进行训练。其中，步骤S210是对编解码模块进行预训练，初始化编解码模块的参数；第一组样本集，用于训练微调编解码模块，此阶段仅更新编解码模块的网络参数，不考虑Transformer自适应模块，其训练的结构示意图如图2所示。进行此阶段训练时，编解码模块的输出结果直接通过线性分类器进行处理得到第一预测热图，不输出至Transformer自适应模块，也不会对Transformer自适应模块进行调整。

参阅图3，进一步地，利用公开样本集和第一组样本集对编解码模块将编解码模块训练完成以后，此时编解码模块一定具备对屏幕进行分割的能力，但此时的编解码模块只对含完整PC屏幕的图片有较好的分割能力，对于一些特殊情况，分割效果一般，为了进一步提高其对类内特征差异较大的样本的分割能力，我们还对Transformer自适应模块进行训练，其具体的训练步骤如下：S231、固定编解码模块的网络参数，对第二组样本集中所有图片依次执行如下步骤S232-S234；S232、将原图输入至编解码模块中，编解码模块输出与原图大小一致的第一特征图；S233、将第一特征图输入至Transformer自适应模块中，Transformer自适应模块输出第二特征图；S234、线性分类器对第二特征图进行处理得到第二预测热图，根据第二预测热图以及原图对应的标记热图计算第二损失函数，并根据第二损失函数对Transformer自适应模块的网络进行优化。进行此阶段训练时，虽然图片也会经过编解码模块处理，但编解码模块在上一个训练步骤完成后，网络参数已经被固定，此阶段可以很方便的对Transformer自适应模块的网络参数进行训练和优化。并且，在此阶段训练过程中，编解码模块输出的第一特征图是作为Transformer自适应模块的输入的。

参阅图4，Transformer是2017年的一篇论文《Attention is All You Need》提出的一种模型架构，这篇论文里只针对机器翻译这一种场景做了实验，全面击败了当时的SOTA，并且由于encoder端是并行计算的，训练的时间被大大缩短了。它开创性的思想，颠覆了以往序列建模和RNN划等号的思路，现在被广泛应用于NLP的各个领域。本发明中，利用Transformer自适应模块进一步提高对PC屏幕语义分割的效果，具体地，所述的Transformer自适应模块包括查询矩阵、键矩阵、值矩阵、线性映射层以及多头注意力模块组成，第一特征图按如下步骤处理得到第二特征图：A、对第一特征图进行分块得到块样本序列；B、将块样本序列分别与查询矩阵、键矩阵、值矩阵相乘得到新的矩阵Q、K、V；C、将新矩阵Q进行转置并和K相乘后，再乘以一个常数，做softmax操作，最后乘上V矩阵后输出至多头注意力模块中，线性映射层主要是一些矩阵的点乘以及softmax归一化等操作，不包含学习参数；D、多头注意力模块由多个自注意力模块构成，每个模块分别提取注重输入样本中不同区域重要的特征；E、归一化层对提取后的矩阵进行归一化操作后与键矩阵的输出特征图进行残差连接即可得到第二特征图。

在进行网络模型训练时，我们都需要构建语义分割损失函数，这样就可以根据损失函数来对网络参数进行调优。

交叉熵损失是较为常见的一种损失函数，其公式如下：

；

其中，p表示预测样本属于类别1的概率，p的取值范围为0-1，y表示标签类别，我们可以用以下公式描述交叉熵。

，其中，

；

一般可以通过引入损失权重系数

表示正负样本的比例对总损失的贡献大小，其形式如下：

，该公式可以控制正负样本的权重，但没法控制容易分类和难分类样本的权重，于是本发明中，所述的第一损失函数和第二损失函数均为focalloss，其公式如下：

；

式中，

为调制参数，用于控制减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本。引入focal loss作为损失函数后，训练得到的网络模型进行PC屏幕语音分割时，效果更佳。

Claims

1.一种基于高效注意力机制的PC屏幕语义分割方法，其特征在于：包括如下步骤：

S100、利用编解码模块以及Transformer自适应模块构建网络模型，编解码模块用于对输入的图像进行处理得到特征图，Transformer自适应模块用于对特征图进行校正；

S200、利用数据集和损失函数对网络模型进行训练；

S300、将待分割的图片导入训练好的网络模型中进行识别得到分割后的图像。

2.如权利要求1所述的基于高效注意力机制的PC屏幕语义分割方法，其特征在于：所述的步骤S100中，网络模型由编解码模块、Transformer自适应模块串联而成，编解码模块的输入端即网络模型的输入端，编解码模块和Transformer自适应模块的输出端连接线性分类器，线性分类器用于对特征图进行分类得到热图，线性分类器的输出端即网络模型的输出端。

3.如权利要求2所述的基于高效注意力机制的PC屏幕语义分割方法，其特征在于：所述的数据集包括第一组样本集和第二组样本集，步骤S200中包括如下步骤：

S220、利用第一组样本集训练编码器和解码器，更新编码器和解码器的网络参数；

S230、固定编码器和解码器的网络参数，利用第二组样本集训练Transformer自适应模块，更新Transformer自适应模块的网络参数。

4.如权利要求3所述的基于高效注意力机制的PC屏幕语义分割方法，其特征在于：所述的数据集包括公开样本集，步骤S220之前还包括如下步骤：

S210、利用公开样本集对编解码模块进行预训练，用于初始化编解码模块的参数。

5.如权利要求4所述的基于高效注意力机制的PC屏幕语义分割方法，其特征在于：所述的编解码模块包括编码器和解码器，编码器由多个卷积层、池化层以及shuffleNet Unit模块堆叠的特征提取网络组成，解码器由多个转置卷积以及普通卷积层组成，对编解码模块的训练包括如下步骤：

S211、将原图输入至编解码模块中；

S212、编解码模块输出与原图大小一致的第一特征图；

S213、线性分类器对第一特征图进行处理得到第一预测热图；

S214、根据第一预测热图以及原图对应的标记热图计算第一损失函数，并根据第一损失函数对编解码模块的网络进行优化；

步骤S210中，即利用公开样本集中的所有图片执行步骤S211-S214；步骤S220中，即利用第一组样本集中所有图片执行步骤S211-S214。

6.如权利要求5所述的基于高效注意力机制的PC屏幕语义分割方法，其特征在于：对Transformer自适应模块的训练包括如下步骤：

S231、固定编解码模块的网络参数，对第二组样本集中所有图片依次执行如下步骤S232-S234；

S232、将原图输入至编解码模块中，编解码模块输出与原图大小一致的第一特征图；

S233、将第一特征图输入至Transformer自适应模块中，Transformer自适应模块输出第二特征图；

S234、线性分类器对第二特征图进行处理得到第二预测热图，根据第二预测热图以及原图对应的标记热图计算第二损失函数，并根据第二损失函数对Transformer自适应模块的网络进行优化。

7.如权利要求6所述的基于高效注意力机制的PC屏幕语义分割方法，其特征在于：所述的Transformer自适应模块包括查询矩阵、键矩阵、值矩阵、线性映射层以及多头注意力模块组成，第一特征图按如下步骤处理得到第二特征图：

A、对第一特征图进行分块得到块样本序列；

B、将块样本序列分别与查询矩阵、键矩阵、值矩阵相乘得到新的矩阵Q、K、V；

C、将新矩阵Q进行转置并和K相乘后，再乘以一个常数，做softmax操作，最后乘上V矩阵后输出至多头注意力模块中；

D、多头注意力模块由多个自注意力模块构成，每个模块分别提取注重输入样本中不同区域重要的特征；

E、归一化层对提取后的矩阵进行归一化操作后与键矩阵的输出特征图进行残差连接即可得到第二特征图。

8.如权利要求7所述的基于高效注意力机制的PC屏幕语义分割方法，其特征在于：所述的第一损失函数和第二损失函数均为focal loss，其公式如下：

；

；

式中：

为调制参数，用于控制减少易分类样本的权重；p表示预测样本属于类别1的概率，p的取值范围为0-1，y表示标签类别。

9.如权利要求8所述的基于高效注意力机制的PC屏幕语义分割方法，其特征在于：所述的第一组样本集为含有完整屏幕的样本，第二组样本集为含有部分屏幕或屏幕倾斜的样本。