CN111667495A

CN111667495A - 一种图像场景解析方法和装置

Info

Publication number: CN111667495A
Application number: CN202010512952.7A
Authority: CN
Inventors: 李司同; 张樯; 李斌; 赵凯; 赵文超
Original assignee: Beijing Institute of Environmental Features
Current assignee: Beijing Institute of Environmental Features
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2020-09-15

Abstract

本发明公开一种图像场景解析方法，涉及图像处理领域；该方法的一个具体实施方式包括：预先训练用于执行图像场景解析的残差网络；其中，残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层；基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层；自注意力模块用于对特征图数据重加权并将重加权后的数据与特征图数据拼接；1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出；将目标图像输入训练完成的所述残差网络中，得到目标图像各像素对应的场景。该实施方式可提供一种运算量较小、推断速度较快同时准确率不会明显降低的场景解析方法。

Description

一种图像场景解析方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像场景解析方法和装置。

背景技术

场景解析是计算机视觉中一个高层次的问题，其主要目标是预测图片中每个像素的类别，从而理解图片中的场景。目前解决场景解析问题的主流方法是基于深度卷积神经网络的方法，经典框架有全卷积网络(FCN)，Encoder-Decoder框架等。为了准确预测每个像素的类别，网络需要融合不同位置像素的信息。常见的融合方式有金字塔池化、空洞卷积和自注意力机制等。其中自注意力机制用于捕获长距离关系，大部分自注意力机制采取的是squeeze-and-excite模式，即首先经过squeeze对特征图进行聚合，得到精简后的信息，再通过excite把精简后的信息分发到每个位置，实现对不同位置信息的重加权，从而捕捉长距离依赖关系。

自注意力机制的具体实现方式有很多种，因为squeeze和excite两个步骤都有多种具体形式。不同形式的实现导致算法的空间复杂度、推断速度及准确率都各不相同。一般地，现有技术中的自注意力模块的运算量非常大。在实际应用中，需要根据需求同时考虑算法的准确率、推断速度及占用内存情况等多个因素。对于无人机图像的场景解析，主要需要分割出天空场景以便下一步在天空场景中检测出无人机。这种场景下对推断速度要求比较高，现有技术无法满足，因此需要提供一种运算量较小、推断速度较快同时准确率不会降低太多的场景解析方法。

发明内容

本发明要解决的技术问题在于，针对现有技术中的缺陷，提供一种运算量较小、推断速度较快同时准确率不会明显降低的场景解析方法。

为了解决上述技术问题，本发明提供了一种图像场景解析方法。

本发明实施例的图像场景解析方法包括：预先训练用于执行图像场景解析的残差网络；其中，所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层；所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层；自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接；所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出；在自注意力模块中，输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据；通过主成分分析方法对所述键数据进行降维，计算降维后的键数据与所述索引数据的相似度并将该相似度标准化，将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据；将目标图像输入训练完成的所述残差网络中，得到目标图像各像素对应的场景。

优选地，所述通过主成分分析方法对所述键数据进行降维，包括：将所述键数据转换为N行M列的初始矩阵；将初始矩阵的每一行进行零均值化处理；确定经零均值化处理的初始矩阵的协方差矩阵；获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量；获取最大的K个特征值以及相应的特征向量，将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵；将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K；其中，N为通道数，M为所述特征图数据的宽度和高度的乘积，K为小于M的正整数。

优选地，所述预先训练用于执行图像场景解析的残差网络，包括：获取包括多个训练样本的训练集；其中，每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果；利用该训练集训练所述残差网络。

优选地，所述标准化是通过softmax函数实现的；所述自注意力模块为非局部模块non-local block；所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。

本发明还提供一种图像场景解析装置。

本发明实施例的图像场景解析装置可包括：训练单元，用于预先训练用于执行图像场景解析的残差网络；其中，所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层；所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层；自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接；所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出；在自注意力模块中，输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据；通过主成分分析方法对所述键数据进行降维，计算降维后的键数据与所述索引数据的相似度并将该相似度标准化，将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据；解析单元，用于将目标图像输入训练完成的所述残差网络中，得到目标图像各像素对应的场景。

优选地，所述装置可进一步包括降维单元，其用于：将所述键数据转换为N行M列的初始矩阵；将初始矩阵的每一行进行零均值化处理；确定经零均值化处理的初始矩阵的协方差矩阵；获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量；获取最大的K个特征值以及相应的特征向量，将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵；将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K；其中，N为通道数，M为所述特征图数据的宽度和高度的乘积，K为小于M的正整数。

优选地，训练单元可进一步用于：获取包括多个训练样本的训练集；其中，每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果；利用该训练集训练所述残差网络。

可选地，所述标准化是通过softmax函数实现的；所述自注意力模块为非局部模块non-local block；所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。

本发明还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现所述图像场景解析方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现所述图像场景解析方法。

实施本发明的图像场景解析方法和装置，具有以下有益效果：在无人机图像的场景解析中，主要需要分割出天空场景以便下一步在天空场景中检测出无人机。这种场景下对推断速度要求比较高，而对准确率的要求可以稍微降低一些。因此在自注意力模块的设计上需要降低聚合后信息的维度，使得信息得到充分压缩，从而达到提速的目的。本发明实施例中，在常见语义分割框架的基础上加入一个自注意力模块，达到系统的准确率和推断速度之间的折中，使得在系统的准确率可以接受的条件下尽可能提速。为了降低聚合信息的维度，提高处理速度，采用主成分分析(PCA)方法对特征图进行降维，再以降维后的向量作为基底进行加权求和，实现长距离依赖的捕捉。

附图说明

图1是本发明实施例中图像场景解析方法的主要步骤示意图；

图2是现有技术中非局部模块non-local block的原理示意图；

图3是本发明实施例中非局部模块non-local block的原理示意图；

图4是本发明实施例中残差网络的结构示意图；

图5是本发明实施例中图像场景解析方法的具体实现步骤示意图；

图6是本发明实施例中图像场景解析装置的主要部分示意图；

图7a是本发明实施例中图像场景解析效果示意图中的预测结果；

图7b是本发明实施例中图像场景解析效果示意图中的标注真值图；

图7c是本发明实施例中图像场景解析效果示意图中的原图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中图像场景解析方法的主要步骤示意图，如图1所示，本发明实施例的图像场景解析方法可具体按照以下步骤执行：

步骤S101：预先训练用于执行图像场景解析的残差网络。

具体地，上述残差网络可以包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层。其中，自注意力模块用于捕获图像中长距离的相互依赖的特征。实际应用中，实际中经常使用的自注意力模块是non-local block(非局部模块)，其原理如图2所示。

即对于输入数据x∈R^C×H×W(R表示实数，C表示通道数，H表示高度，W表示宽度)，首先用3个1*1卷积核W_v、W_k、W_q(其中v表示值value，k表示键key，q表示索引query)把输入数据变换到嵌入空间，如下式所示：

v＝W_v(x),k＝W_k(x),q＝W_q(x)

上式中的v为值数据，k为键数据，q为索引数据。此后计算k和q之间的相似度矩阵S：

S＝k^T×q

其中，T表示转置。

对于v中的每个位置，attention模块的输出如下:

o＝v*Softmax(S)

最终输出结果如下：

Y＝cat(W_z(o),X)

其中，cat表示特征融合运算。

以上就是常规non-local attention模块的计算流程。

常规non-local attention模块的主要问题是计算量较大，时间和空间复杂度都非常高。为了降低运算量，提高推断速度，我们提出了改进的attention模块。Non-localattention模块把特征图上的所有像素点作为基底，而这些基底之间可能存在冗余，造成时间和空间复杂度过大。如果对特征图上的所有像素进行降维，以降维后的K个像素点作为基底，就可以大大降低时间和空间复杂度。降维的方法有很多种，其中一种简单的线性降维方法是主成分分析(PCA)。

主成分分析的目标是通过线性投影，把高维空间中的数据映射到低维空间中表示，并期望在投影的维度上方差最大。从而使用较小的数据维度保留尽可能多的原维度上的特性。PCA需要从原始空间中顺序地找到一组相互正交的K个坐标轴，使得这些方向上包含最大的差异性，而忽略掉方差几乎为0的特征维度。

在具体实现上，想要得到K个方差最大的方向，首先需要明确该降维问题的优化目标：将一组N维向量降为K维，目标是选择K个单位正交基，使得原始数据变换到这组基上后各数据点之间的协方差为0，方差尽可能大。假设原始数据X的协方差矩阵为C，P为转换矩阵，转换后的矩阵为Y＝PX，则Y的协方差矩阵D的计算公式为D＝PCP^T，要求D满足对角化。此时优化目标变成寻找一个矩阵P，使得D是一个对角矩阵，且对角元素从小到大排列，则P的前K行就是要寻找的基。利用简单的线性代数知识可以发现P是协方差矩阵C特征分解后按特征值从大到小把对应的特征向量按行排列取前K行得到的矩阵。因此可以总结得到PCA的以下算法步骤：

首先，将键数据转换为N行M列的初始矩阵(N为通道数，M为所述特征图数据的宽度和高度的乘积，K为小于M的正整数)。之后，将初始矩阵的每一行进行零均值化处理，零均值化指的是首先确定每一行的平均值，之后计算每一数据与平均值的差值。此后，确定经零均值化处理的初始矩阵的协方差矩阵，并获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量；接着，获取最大的K个特征值以及相应的特征向量，将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵；最后，将变换矩阵与初始矩阵相乘从而将键数据的维度从M降到K。

图3是本发明实施例中非局部模块non-local block的原理示意图，如图3所示，通过PCA对特征图数进行分解得到K个基按行组成的矩阵φ∈R^K*M，求出每个基与q的归一化后的相似度S：

S＝Softmax(Φ*q)

然后求出attention层的输出O：

O＝S*v^T

最终得到的输出Y为：

Y＝cat(W_z(OT),X)

其中，OT表示O的转置。以上就是把聚合后的特征分发到各个位置，重新加权之后的结果。

图4是本发明实施例中残差网络的结构示意图，如图4所示，上述残差网络可以包括依次连接的输入层(input)、含有多个卷积层的基本网络层(base network)、特征图层(feature map)、自注意力模块(attention block)、1*1卷积层(1*1conv)和输出层(output)。具体地，所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层；自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接；所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出。

残差网络的主干部分可以根据具体需要选择不同的网络，如加入空洞空间金字塔池化(ASPP)模块等。分割图片比较简单时可以采用较为轻量级的主干，分割任务较为复杂时则采用更深的网络和更多模块来提高网络容量。

通过以上说明可以理解，在自注意力模块中，输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据；通过主成分分析方法对所述键数据进行降维，计算降维后的键数据与所述索引数据的相似度并将该相似度标准化(可通过softmax函数实现)，将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据。

具体应用中，残差网络可以通过以下方式进行训练：首先获取包括多个训练样本的训练集；其中，每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果；之后利用该训练集训练所述残差网络。

步骤S102：将目标图像输入训练完成的所述残差网络中，得到目标图像各像素对应的场景。

在本步骤中，可以利用训练完成的上述残差网络直接获取目标图像中每一像素对应的场景。例如，在无人机图像中，一般有天空、地面物体、无人机三种场景，则上述目标图像和可见光图像为具有天空、地面物体和/或无人机的图像。

图5是本发明实施例中图像场景解析方法的具体实现步骤示意图，如图5所示，输入图像之后，首先通过多个卷积层提取特征，得到特征图数据。之后对特征图数据进行PCA降维，并计算重加权权重。此后将重加权数据与特征图数据拼接得到聚合后的特征，最后获得最终的预测结果。

根据本发明实施例的技术方案，在无人机图像的场景解析中，主要需要分割出天空场景以便下一步在天空场景中检测出无人机。这种场景下对推断速度要求比较高，而对准确率的要求可以稍微降低一些。因此在自注意力模块的设计上需要降低聚合后信息的维度，使得信息得到充分压缩，从而达到提速的目的。本发明实施例中，在常见语义分割框架的基础上加入一个自注意力模块，达到系统的准确率和推断速度之间的折中，使得在系统的准确率可以接受的条件下尽可能提速。为了降低聚合信息的维度，提高处理速度，采用主成分分析(PCA)方法对特征图进行降维，再以降维后的向量作为基底进行加权求和，实现长距离依赖的捕捉。

图6是本发明实施例中图像场景解析装置的主要部分示意图，如图6所示，本发明实施例中图像场景解析装置600可以包括训练单元601和解析单元602。

其中，训练单元601可用于预先训练用于执行图像场景解析的残差网络；其中，所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层；所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层；自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接；所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出；在自注意力模块中，输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据；通过主成分分析方法对所述键数据进行降维，计算降维后的键数据与所述索引数据的相似度并将该相似度标准化，将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据。解析单元602可用于将目标图像输入训练完成的所述残差网络中，得到目标图像各像素对应的场景。

在本发明实施例中，所述装置600可进一步包括降维单元，其用于：将所述键数据转换为N行M列的初始矩阵；将初始矩阵的每一行进行零均值化处理；确定经零均值化处理的初始矩阵的协方差矩阵；获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量；获取最大的K个特征值以及相应的特征向量，将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵；将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K；其中，N为通道数，M为所述特征图数据的宽度和高度的乘积，K为小于M的正整数。

作为一个优选方案，训练单元601可进一步用于：获取包括多个训练样本的训练集；其中，每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果；利用该训练集训练所述残差网络。

此外，在本发明实施例中，所述标准化是通过softmax函数实现的；所述自注意力模块为非局部模块non-local block；所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。

以下说明本发明的具体实验情况。实验所用的数据集是自己采集的无人机数据集，分割的类别共有天空、地物和无人机三类。算法的主要任务是分割出图片中的天空区域以便进行下一步应用。训练集有3064张图片，验证集有511张图片。

通过实验结果对比可以发现，本发明方法能够实现相对准确的天空及地物分割。算法的客观评价指标包括衡量准确率的mIoU及衡量速度的FPS。为了体现算法在速度和准确率上的改进，可以首先实现一个baseline方法，即在网络中加入一个attention模块，把所有的像素点作为基。在这种情况下，验证集上的mIoU为0.8326，推断速度方面对于大小为1080*1920的输入图片处理一张需要11s。而在采用改进的attention模块后，网络在验证集上的mIoU为0.8483，推断速度为每张5s。可以发现本发明方法在提升推断速度的同时，不但没有降低分割准确率，反而使准确率略有提升。这也说明了传统的attention机制中基底存在大量冗余，反而会对学习权重造成一定干扰。

本发明的相关软件代码采用pytorch编程实现。

本发明针对可见光图片的天空和地物分割问题，可以在提升推断速度的同时保证分割的准确率，以下对相关参数设置进行描述：从采集的所有天空地物分割的可见光图片中随机选取3064张图片作为原始的训练库。在输入网络前对图片进行预处理，包括归一化，缩放，填充，裁剪，翻转等。之后，对于验证集中的图片，在推断时输入网络前只进行归一化和填充。降维的维数K设置为64，初始学习率设置为0.009，缩放后的图片尺寸为513*513。

图7a是本发明实施例中图像场景解析效果示意图中的预测结果(下方的低灰度部分即无人机)，图7b是本发明实施例中图像场景解析效果示意图中的标注真值图，图7c是本发明实施例中图像场景解析效果示意图中的原图。在这三幅图中，横纵坐标的单位都是像素。

在本发明实施例中，还提供一种电子设备，其包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现前述图像场景解析方法。

此外，在本发明实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现前述图像场景解析方法。

综上所述，根据本发明实施例的技术方案，在无人机图像的场景解析中，主要需要分割出天空场景以便下一步在天空场景中检测出无人机。这种场景下对推断速度要求比较高，而对准确率的要求可以稍微降低一些。因此在自注意力模块的设计上需要降低聚合后信息的维度，使得信息得到充分压缩，从而达到提速的目的。本发明实施例中，在常见语义分割框架的基础上加入一个自注意力模块，达到系统的准确率和推断速度之间的折中，使得在系统的准确率可以接受的条件下尽可能提速。为了降低聚合信息的维度，提高处理速度，采用主成分分析(PCA)方法对特征图进行降维，再以降维后的向量作为基底进行加权求和，实现长距离依赖的捕捉。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像场景解析方法，其特征在于，包括：

预先训练用于执行图像场景解析的残差网络；其中，

所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层；

所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层；自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接；所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出；

在自注意力模块中，输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据；通过主成分分析方法对所述键数据进行降维，计算降维后的键数据与所述索引数据的相似度并将该相似度标准化，将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据；以及

将目标图像输入训练完成的所述残差网络中，得到目标图像各像素对应的场景。

2.根据权利要求1所述的图像场景解析方法，其特征在于，所述通过主成分分析方法对所述键数据进行降维，包括：

将所述键数据转换为N行M列的初始矩阵；

将初始矩阵的每一行进行零均值化处理；

确定经零均值化处理的初始矩阵的协方差矩阵；

获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量；

获取最大的K个特征值以及相应的特征向量，将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵；

将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K；其中，

N为通道数，M为所述特征图数据的宽度和高度的乘积，K为小于M的正整数。

3.根据权利要求1所述的图像场景解析方法，其特征在于，所述预先训练用于执行图像场景解析的残差网络，包括：

获取包括多个训练样本的训练集；其中，每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果；

利用该训练集训练所述残差网络。

4.根据权利要求3所述的图像场景解析方法，其特征在于，

所述标准化是通过softmax函数实现的；

所述自注意力模块为非局部模块non-localblock；

所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。

5.一种图像场景解析装置，其特征在于，包括：

训练单元，用于预先训练用于执行图像场景解析的残差网络；其中，

解析单元，用于将目标图像输入训练完成的所述残差网络中，得到目标图像各像素对应的场景。

6.根据权利要求5所述的图像场景解析装置，其特征在于，所述装置进一步包括降维单元，其用于：

将所述键数据转换为N行M列的初始矩阵；

将初始矩阵的每一行进行零均值化处理；

确定经零均值化处理的初始矩阵的协方差矩阵；

7.根据权利要求5所述的图像场景解析装置，其特征在于，训练单元进一步用于：

利用该训练集训练所述残差网络。

8.根据权利要求7所述的图像场景解析装置，其特征在于，

所述标准化是通过softmax函数实现的；

所述自注意力模块为非局部模块non-localblock；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。