CN113657534A

CN113657534A - 一种基于注意力机制的分类方法及装置

Info

Publication number: CN113657534A
Application number: CN202110975281.2A
Authority: CN
Inventors: 李世明
Original assignee: Beijing Jingwei Hirain Tech Co Ltd
Current assignee: Beijing Jingwei Hirain Tech Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-16
Anticipated expiration: 2041-08-24
Also published as: CN113657534B

Abstract

本发明提供的基于注意力机制的分类方法及装置，对于待处理的计算机视觉数据，能够利用加入注意力机制的神经网络模型对其进行类型识别，由于该注意力机制能够提升神经网络模型各层所输出的显著性最低的特征图的显著性，这就可以将计算机视觉数据中表现性最低的特征变为更有显著性的特征，从而提升分类的准确性。

Description

一种基于注意力机制的分类方法及装置

技术领域

本申请涉及人工智能计算机视觉技术领域，更具体地说，涉及一种基于注意力机制的分类方法及装置。

背景技术

近年来，深度学习在激光雷达的感知技术上应用日渐成熟，许多基于深度学习模型的激光雷达物体检测和分割技术被提出。然而，激光雷达数据较为稀疏，其特征少，这就导致类别的识别性能差。

为解决由于特征少导致类别识别难的问题，现阶段主要采用添加注意力机制的方案。现有的应用于计算机视觉的注意力机制方式，大多以神经网络SE-net为基础作进一步展开和开发，而SE-net的目标是，提高对信息性特征(显著特征)的敏感性，以便可以在后续网络中更多得加以利用，并抑制信息性较低的特征，这就需要在较好的满足以下两个前提条件的情况下才能取得较好的注意力机制结果：其一，网络的特征间的差异较大，即学习到的特征本身就有很大的不同；其二，网络的特征学习有所偏倚，即一部分特征容易学的好、另一部分特征不容易学到。

但在学习过程中，如果某个对象的特征学习都比较均匀，此时SE-net也无法提高性能。并且在实际工程开发时，很多情况下并不能满足上述两个前提条件，导致现有注意力机制在性能提升上不能达到较好的分类效果。

发明内容

有鉴于此，为解决上述问题，本发明提供一种基于注意力机制的分类方法及装置，技术方案如下：

一种基于注意力机制的分类方法，所述方法包括：

获取待处理的计算机视觉数据；

调取预先训练得到的加入注意力机制的神经网络模型，并利用所述神经网络模型对所述计算机视觉数据进行类别识别，所述注意力机制能够提升所述神经网络模型各层所输出的显著性最低的特征图的显著性。

可选的，所述神经网络模型中的所述注意力机制，包括：

获取神经网络模型连续两层中输出层所输出的多个特征图；

针对所述多个特征图中的每个特征图，将该特征图的通道与其他特征图的通道间欧式距离之和作为该特征图的通道的距离值，其中，通道与特征图一一对应；

将距离值最小的通道确定为几何中位数通道；

对所述几何中位数通道所对应特征图进行注意力计算得到新特征图。

可选的，所述对所述几何中位数通道所对应特征图进行注意力计算得到新特征图，包括：

对所述几何中位数通道和除所述几何中位数通道以外的非几何中位数通道进行掩码设置，以区分所述几何中位数通道和所述非几何中位数通道；

计算所述几何中位数通道的注意力系数；

利用所述注意力系数对所述几何中位数通道所对应的特征图进行放大得到新特征图。

可选的，所述计算所述几何中位数通道的注意力系数，包括：

分别对所述几何中位数通道和所述非几何中位数通道的特征图进行全局平均池化，以获得所述几何中位数通道的池化值和所述非几何中位数通道的池化值；

根据所述几何中位数通道的池化值和所述非几何中位数通道的池化值，计算所述几何中位数通道的注意力系数。

可选的，所述方法还包括：

对所述几何中位数通道所对应的新特征图、以及所述非几何中位数通道所对应的特征图，进行空间点的注意力计算。

可选的，所述进行空间点的注意力计算，包括：

计算所述几何中位数通道所对应的新特征图和所述非几何中位数通道所对应的特征图在空间点的几何中位数矩阵和最大值矩阵；

拼接所述几何中位数矩阵和所述最大值矩阵，并将拼接结果输入至全连接层；

获取所述全连接层的输出结果，并将所述输出结果送入sigmoid激活函数得到所述空间点的注意力矩阵；

基于所述注意力矩阵分别调整所述几何中位数通道所对应的新特征图和所述非几何中位数通道所对应的特征图。

一种基于注意力机制的分类装置，所述装置包括：

数据获取模块，用于获取待处理的计算机视觉数据；

类别识别模块，用于调取预先训练得到的加入注意力机制的神经网络模型，并利用所述神经网络模型对所述计算机视觉数据进行类别识别，所述注意力机制能够提升所述神经网络模型各层所输出的显著性最低的特征图的显著性。

可选的，所述类别识别模块在所述神经网络模型中的所述注意力机制，包括：

获取神经网络模型连续两层中输出层所输出的多个特征图；针对所述多个特征图中的每个特征图，将该特征图的通道与其他特征图的通道间欧式距离之和作为该特征图的通道的距离值，其中，通道与特征图一一对应；将距离值最小的通道确定为几何中位数通道；对所述几何中位数通道所对应特征图进行注意力计算得到新特征图。

可选的，所述类别识别模块对所述几何中位数通道所对应特征图进行注意力计算得到新特征图，包括：

对所述几何中位数通道和除所述几何中位数通道以外的非几何中位数通道进行掩码设置，以区分所述几何中位数通道和所述非几何中位数通道；计算所述几何中位数通道的注意力系数；利用所述注意力系数对所述几何中位数通道所对应的特征图进行放大得到新特征图。

可选的，所述类别识别模块计算所述几何中位数通道的注意力系数，包括：

分别对所述几何中位数通道和所述非几何中位数通道的特征图进行全局平均池化，以获得所述几何中位数通道的池化值和所述非几何中位数通道的池化值；根据所述几何中位数通道的池化值和所述非几何中位数通道的池化值，计算所述几何中位数通道的注意力系数。

相较于现有技术，本发明实现的有益效果为：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的基于注意力机制的分类方法的方法流程图；

图2为本发明实施例提供的基于注意力机制的分类方法的部分方法流程图；

图3为本发明实施例提供的基于注意力机制的分类方法的再一部分方法流程图；

图4为本发明实施例提供的基于注意力机制的分类方法的又一部分方法流程图；

图5为本发明实施例提供的基于注意力机制的分类方法的另一部分方法流程图；

图6为本发明实施例提供的基于注意力机制的分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种基于注意力机制的分类方法，该方法的方法流程图如图1所示，包括如下步骤：

S10，获取待处理的计算机视觉数据。

本发明实施例提供的计算机视觉数据为可以为视频数据，还可以为图像数据，本发明实施例对此不做限定。

S20，调取预先训练得到的加入注意力机制的神经网络模型，并利用神经网络模型对计算机视觉数据进行类别识别，注意力机制能够提升神经网络模型各层所输出的显著性最低的特征图的显著性。

本发明实施例中，神经网络模型中任意连续的两层间都加入注意力机制，这就可以提升神经网络的表达能力，对于计算机视觉数据做类别识别时，可以在通道域对显著性不高的通道进行强化，实现空间域注意力的提升，因此识别结果更加准确可靠。

具体实现过程中，神经网络模型中的注意力机制，包括如下步骤，方法流程图如图2所示：

S201，获取神经网络模型连续两层中输出层所输出的多个特征图。

本发明实施例中，对于任意神经网络模型的任意连续的两层间都加入注意力机制。假设连续两层中分别为第一网络层和第二网络层，第一网络层的输出为第二网络层的输入，则可以对第一网络层输出的多个特征图执行本发明，以提升神经网络模型的注意力性能。

另外，本发明实施例中多个特征图是针对某样本图像的，即第一网络层将对样本图像进行多个通道的特征提取，以得到各通道的特征图。以彩色图像为例，R、G、B可以作为特征提取时的三个通道，第一网络层可以分别提取R、G、B通道下的特征图。

并且，特征图中记录有样本图像在各空间点(即像素点)的特征值，特征值则能够表征对于特征的强弱反应程度。以R通道的特征图为例，其中的特征值即表征对于红色特征的强弱反应程度，特征值越大、反应程度则越强。

S202，针对多个特征图中的每个特征图，将该特征图的通道与其他特征图的通道间欧式距离之和作为该特征图的通道的距离值，其中，通道与特征图一一对应。

本发明实施例中，对于多个通道中的各通道，都需要计算其与其他通道间的距离值。

具体的，继续以彩色图像为例，R、G、B三个通道具有各自的特征图，以R通道为例，在计算其距离值时，可以分别计算R通道和G通道的欧式距离、以及R通道和B通道的欧式距离，将两个欧式距离之和作为R通道的距离值。

而在计算欧式距离时，以R通道和G通道为例，可以对R通道的特征图与G通道的特征图做差，以获得R通道和G通道在各空间点的特征值差量，进一步将所有空间点的特征值差量之和作为R通道和G通道为例的欧式距离。

S203，将距离值最小的通道确定为几何中位数通道。

本发明实施例中，采用几何中位数的思想确定特征显著性最低的通道，即几何中位数通道。可以设置筛选几何中位数通道的相关条件，比如设置距离值的筛选区间、以及筛选数量等，对此不做限定。

继续以彩色图像为例，假设R、G、B三个通道中R通道为几何中位数通道，则第一网络层中红色特征的显著性最低。此时如果样本图像中目标对象的红色特征显著，一旦以该红色特征作为识别目标对象的基础，由于R通道的特征显著性低，就会导致神经网络模型对于目标对象的识别能力差、甚至识别错误。

S204，对几何中位数通道所对应特征图进行注意力计算得到新特征图。

本发明实施例中，为提升几何中位数通道的特征显著性，可以对几何中位数通道的特征图进行注意力计算，以放大特征图。对于同一空间点，新特征图中的特征值要高于注意力计算之前的原特征图中的特征值。

具体实现过程中，步骤S204“对几何中位数通道所对应特征图进行注意力计算得到新特征图”可以采用如下步骤，方法流程图如图3所示：

S2041，对几何中位数通道和除几何中位数通道以外的非几何中位数通道进行掩码设置，以区分几何中位数通道和非几何中位数通道。

本发明实施例中，将几何中位数通道的掩码设置为1、除几何中位数通道以外的其他通道的掩码设置为0。掩码为1，则表示需要在后续步骤中执行计算；掩码为0，则表示可以忽略。这就可以便于进行并行和加速计算，无需其他逻辑判断即可仅对几何中位数通道使能注意力机制。

反之，若不进行掩码设置，则需要将几何中位数通道的特征图移动至其他区域空间内使能注意力机制，在使能完成后，再移动至第一网络层和第二网络层间。这就无法实现神经网络模型的自动执行。

继续以彩色图像为例，假设R、G、B三个通道中R通道为几何中位数通道，则掩码设置为[1,0,0]。

S2042，计算几何中位数通道的注意力系数。

本发明实施例中，几何中位数通道的注意力系数的取值范围可以为(1,2)，该注意力系数能够将几何中位数通道的特征图中各空间点的特征值放大，类似于在该几何中位数通道引入噪声，加大该几何中位数通道的更新量，从而引导神经网络模型在该几何中位数通道进行更显著的学习。

具体实现过程中，步骤S2042“计算几何中位数通道的注意力系数”可以采用如下步骤：

分别对几何中位数通道和非几何中位数通道的特征图进行全局平均池化，以获得几何中位数通道的池化值和非几何中位数通道的池化值；根据几何中位数通道的池化值和非几何中位数通道的池化值，计算几何中位数通道的注意力系数。

本发明实施例中，继续彩色图像为例，假设R、G、B三个通道中R通道为几何中位数通道，则G通道和B通道均属于非几何中位数通道。对于R、G、B三个通道，可以分别对这三个通道的特征图进行全局平均池化，以得到各通道的池化值。

进一步，可以采用以下公式计算几何中位数通道的注意力系数：

其中，c_i表示几何中位数通道的池化值，几何中位数通道位于第i个通道；

表示几何中位数通道的池化值和非几何中位数通道的池化值的均值；

表示几何中位数通道的池化值和非几何中位数通道的池化值的方差根；ε表示预设的常数，数值非常小，防止除数为零；s_i表示中间系数；k_i表示几何中位数通道的注意力系数。

S2043，利用注意力系数对几何中位数通道所对应的特征图进行放大得到新特征图。

本发明实施例中，对于几何中位数通道的特征图，将其中各空间点的特征值分别与注意力系数相乘，以放大各特征值，从而获得新特征图。

继续彩色图像为例，假设R、G、B三个通道中R通道为几何中位数通道，则将R通道的特征图中各空间点的特征值分别与R通道的注意力系数相乘，以此增强第一网络层中红色特征的显著性。

在其他一些实施例中，为使神经网络模型的表达更加具有多样性，在识别性能上更加鲁棒，本发明实施例在针对通道的注意力机制的基础上，对每一个空间点都学习进行注意力的关注，在图2的基础上还包括如下步骤，方法流程图如图4所示：

S205，对几何中位数通道所对应的新特征图、以及非几何中位数通道所对应的特征图，进行空间点的注意力计算。

本发明实施例中，可以采用基于几何中位数和其他特征的空间注意力方式，对于多个通道的特征图在各空间点的特征值进行调整，空间点的调整系数的取值范围可以为(0,1)，特征图中各空间点的特征值与调整系数相乘完成调整。

具体实现过程中，步骤S205中“进行空间点的注意力计算”可以采用如下步骤，方法流程图如图5所示：

S2051，计算几何中位数通道所对应的新特征图和非几何中位数通道所对应的特征图在空间点的几何中位数矩阵和最大值矩阵。

本发明实施例中，继续彩色图像为例，假设R、G、B三个通道中R通道为几何中位数通道，则对于彩色图像的各空间点，可以分别获取该空间点在R通道的特征图、G通道的特征图、B通道的特征图中对应的特征值，进而确定三个特征值中的几何中位数和最大值。

遍历完所有空间点，则可以分别获得由不同空间点的几何中位数组成的几何中位数矩阵、以及由不同空间点的最大值组成的最大值矩阵。

S2052，拼接几何中位数矩阵和最大值矩阵，并将拼接结果输入至全连接层。

本发明实施例中，可以采用Z型拼接方式，将几何中位数矩阵G和最大值矩阵M拼接为一个一维矩阵，即两个矩阵内部各行按照由左至右的次序放入一维矩阵、而下一行的最左侧的数值与上一行最右侧的数值相邻放入一维矩阵，此外，最大值矩阵第一行最左侧的数值与几何中位数矩阵最后一行的最右侧的数值相邻放入一维矩阵。

几何中位数矩阵G和最大值矩阵M拼接结束，将所得到的一维矩阵输入至一个或多个全连接层中，由(最后一个)全连接层输出一个维度与特征图尺寸相同的矩阵J。

S2053，获取全连接层的输出结果，并将输出结果送入sigmoid激活函数得到空间点的注意力矩阵。

本发明实施例中，将矩阵J送入sigmoid激活函数，得到注意力矩阵L，该注意力矩阵的维度也与特征图尺寸相同，其包含样本图像各空间点的调整系数。

S2054，基于注意力矩阵分别调整几何中位数通道所对应的新特征图和非几何中位数通道所对应的特征图。

本发明实施例中，对于几何中位数通道的新特征图、以及非几何中位数通道的特征图来说，可以将其中各空间点的特征值分别与注意力矩阵中相应空间点的调整系数相乘，以调整各特征值，得到带空间注意力机制的特征图。

由此，通过引入空间注意力机制，能够使各特征图中不同空间点加入权重因素，神经网络模型最终的识别不仅关注到RGB通道，还关注到不同空间点。比如，目标对象在样本图像中所占的图像面积较小，仅采用通道域的注意力机制识别较为困难，而引入空间注意力机制后，则实现对空间域注意力的提升，更关注目标对象所在区域的识别，神经网络模型识别也更为可靠。

基于上述实施例提供的基于注意力机制的分类方法，本发明实施例则对应提供执行上述基于注意力机制的分类方法的装置，该装置的结构示意图如图6所示：

数据获取模块10，用于获取待处理的计算机视觉数据。

类别识别模块20，用于调取预先训练得到的加入注意力机制的神经网络模型，并利用神经网络模型对计算机视觉数据进行类别识别，注意力机制能够提升神经网络模型各层所输出的显著性最低的特征图的显著性。

可选的，类别识别模块20在神经网络模型中的注意力机制，包括：

获取神经网络模型连续两层中输出层所输出的多个特征图；针对多个特征图中的每个特征图，将该特征图的通道与其他特征图的通道间欧式距离之和作为该特征图的通道的距离值，其中，通道与特征图一一对应；将距离值最小的通道确定为几何中位数通道；对几何中位数通道所对应特征图进行注意力计算得到新特征图。

可选的，类别识别模块20对几何中位数通道所对应特征图进行注意力计算得到新特征图，包括：

对几何中位数通道和除几何中位数通道以外的非几何中位数通道进行掩码设置，以区分几何中位数通道和非几何中位数通道；计算几何中位数通道的注意力系数；利用注意力系数对几何中位数通道所对应的特征图进行放大得到新特征图。

可选的，类别识别模块20计算几何中位数通道的注意力系数，包括：

可选的，类别识别模块20，还用于：

对几何中位数通道所对应的新特征图、以及除几何中位数通道以外的非几何中位数通道所对应的特征图，进行空间点的注意力计算。

可选的，类别识别模块20进行空间点的注意力计算，包括：

计算几何中位数通道所对应的新特征图和非几何中位数通道所对应的特征图在空间点的几何中位数矩阵和最大值矩阵；拼接几何中位数矩阵和最大值矩阵，并将拼接结果输入至全连接层；获取全连接层的输出结果，并将输出结果送入sigmoid激活函数得到空间点的注意力矩阵；基于注意力矩阵分别调整几何中位数通道所对应的新特征图和非几何中位数通道所对应的特征图。

需要说明的是，本发明实施例中各模块的细化功能可以参见上述方法实施例的相应公开部分，在此不再赘述。

本发明实施例提供的一种基于注意力机制的分类方法及装置，采用几何中位数的思想确定特征显著性最低的通道，以此寻找表现性最低的特征，进而通过对该特征进行注意力计算，使得该特征在训练过程中逐步变为更有显著性的特征；同时采用了基于几何中位数和其他特征的空间注意力方式，对每一个空间点都学习进行注意力的关注，使得网络表达更加具有多样性，在识别性能上更加鲁棒。

以上对本发明所提供的一种基于注意力机制的分类方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注意力机制的分类方法，其特征在于，所述方法包括：

获取待处理的计算机视觉数据；

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型中的所述注意力机制，包括：

获取神经网络模型连续两层中输出层所输出的多个特征图；

将距离值最小的通道确定为几何中位数通道；

3.根据权利要求2所述的方法，其特征在于，所述对所述几何中位数通道所对应特征图进行注意力计算得到新特征图，包括：

计算所述几何中位数通道的注意力系数；

4.根据权利要求3所述的方法，其特征在于，所述计算所述几何中位数通道的注意力系数，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述几何中位数通道所对应的新特征图、以及除所述几何中位数通道以外的非几何中位数通道所对应的特征图，进行空间点的注意力计算。

6.根据权利要求5所述的方法，其特征在于，所述进行空间点的注意力计算，包括：

7.一种基于注意力机制的分类装置，其特征在于，所述装置包括：

数据获取模块，用于获取待处理的计算机视觉数据；

8.根据权利要求7所述的装置，其特征在于，所述类别识别模块在所述神经网络模型中的所述注意力机制，包括：

9.根据权利要求8所述的装置，其特征在于，所述类别识别模块对所述几何中位数通道所对应特征图进行注意力计算得到新特征图，包括：

10.根据权利要求9所述的装置，其特征在于，所述类别识别模块计算所述几何中位数通道的注意力系数，包括：