CN113435578A

CN113435578A - 基于互注意力的特征图编码方法、装置及电子设备

Info

Publication number: CN113435578A
Application number: CN202110712501.2A
Authority: CN
Inventors: 戴大伟; 庄志国; 徐嘉; 王春杰; 夏书银; 朱宏飞; 王国胤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24
Anticipated expiration: 2041-06-25
Also published as: CN113435578B

Abstract

本发明属于图像处理领域，具体涉及一种基于互注意力的特征图编码方法、装置及电子设备，所述方法包括获取待处理的特征图，将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量；通过第一向量和第二向量计算所有特征图之间的互注意力得分情况，利用卷积模块对特征图进行重新编码；本发明将不同特征图信息按一定注意力权重进行融合，使得重新编码后的特征图所包含的信息更加全面且有效，即在编码过程中，所含信息越丰富的输入特征图在重编码后的特征图中保留所占的比重就会越大，能够充分挖掘出特征图的信息。

Description

基于互注意力的特征图编码方法、装置及电子设备

技术领域

本发明属于图像处理领域，具体涉及一种基于特征图之间互注意力对特征图进行重新编码的方法、装置及电子设备。

背景技术

图像作为人类感知事物的视觉基础，是人类从外界获得信息的重要依据和感知外界的重要方式，在此背景下，通过各种方式对图像进行处理使得图像中包含的信息越来越精确和丰富显得愈发重要。近些年来，随着深度学习技术的快速发展，深度神经网络在图像处理等领域也得到了广泛使用。

尽管深度神经网络在图像处理等领域取得了重大突破，但就效率和准确性来说，深度神经网络对图像的处理识别相比于人类的视觉感知仍有很多不足。人类对外部环境的感知是有条件的，能够通过视觉注意力机制有选择地获得需要重点关注的目标区域，而后对该区域投入更多注意力资源以获取更多所需要关注目标的细节信息，仅就这一点来说，标准的神经网络图像处理相比于人类的视觉感知还有不小的差距。目前来说，已有一些工作将注意力机制引入到深度神经网络中来。比如，通过结合注意力机制，RNN等深度神经网络可以进行端到端的训练和预测，在机器翻译和文本识别领域都有着独特的优势；语音识别经典模型CTC，在基于注意力机制的编码器-解码器结构中由于注意力机制建立了语音和单词的对应关系，取得了很好的效果。

在图像处理领域，已有的深度神经网络进行特征图编码的工作大多是直接通过卷积捕局部信息，而就像视频帧序列中前后帧图片存在关联性一样，时序图片提取的特征图之间也可能存在时序性的关联，即特征图之间的相互影响。仅通过卷积进行特征图编码的机制没有计算特征图之间的相互影响权重，导致特征信息不够全面，没有充分挖掘出特征信息之间的关系。

发明内容

为解决现有技术存在的问题，本发明提出一种基于互注意力的特征图编码方法、装置及电子设备，并利用特征图之间相互注意力的得分情况，来对每一张特征图进行重新编码，让在重新编码后的每张特征图中都包含更加丰富的信息。

在本发明的第一方面，本发明提供了一种基于互注意力的特征图编码方法，所述方法包括获取待处理的特征图，将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量；通过第一向量和第二向量计算所有特征图之间的互注意力得分情况，利用卷积模块对特征图进行重新编码。

进一步的，所述将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量包括通过卷积模块的若干层卷积层提取出特征图的特征信息，将所述特征信息经过线性操作后编码成两个相同且维度可调的第一向量和第二向量。

进一步的，所述通过第一向量和第二向量计算所有特征图之间的互注意力得分情况包括通过公式W_ij＝q_i·k_j ^T计算所有特征图之间的互注意力得分情况；其中，W_ij表示第i个特征图与第j个特征图之间的互注意力得分；q_i表示第i个特征图的第一向量；k_j表示第j个特征图的第二向量；T表示矩阵转置，n表示特征图个数，且i,j＝1,..,n。

进一步的，所述利用卷积模块对特征图进行重新编码包括对输入特征图按如下公式进行重新编码：

其中，M_i表示第i个重新编码后的特征图；W_ij表示第i个特征图与第j个特征图之间的互注意力得分；M_j表示第j个编码前的特征图；n表示特征图个数，且i,j＝1,..,n。

优选的，在利用卷积模块对特征图进行重新编码之后还包括将重新编码后的特征图作为下一卷积模块的输入，并继续编码为两个相同且维度可调的第一向量和第二向量，通过第一向量和第二向量计算所有特征图之间的互注意力得分情况，利用卷积模块对特征图进行重新编码。

在本发明的第二方面，本发明还提供了一种基于互注意力的特征图编码装置，包括：

特征图采集模块，用于获取待处理的特征图；

第一卷积模块，用于对待处理的每个特征图编码为两个相同且维度可调的第一向量和第二向量；

互注意力计算模块，用于通过第一向量和第二向量计算所有特征图之间的互注意力得分情况；

第二卷积模块，用于对待处理的特征图重新编码为新的特征图。

进一步的，所述第一卷积模块包括卷积单元和线性单元；通过若干卷积单元提取出特征图的特征信息，将所述特征信息经过线性单元编码成两个相同且维度可调的第一向量和第二向量。

进一步的，所述互注意力计算模块通过公式W_ij＝q_i·k_j ^T计算所有特征图之间的互注意力得分情况；其中，W_ij表示第i个特征图与第j个特征图之间的互注意力得分；q_i表示第i个特征图的第一向量；k_j表示第j个特征图的第二向量；T表示矩阵转置，n表示特征图个数，且i,j＝1,..,n。

进一步的，所述第二卷积模块对输入特征图按如下公式进行重新编码：

在本发明的第三方面，本发明还提供了一种电子设备，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明第一方面所述的一种基于互注意力的特征图编码方法。

本发明的有益效果：

本发明在重新编码特征图的过程中，将输入特征图经过卷积模块编码为两个向量，而后通过计算所有特征图之间的互注意力得分，对输入特征图进行重新编码。通过求得所有特征图之间相互的注意力信息，将不同特征图信息按一定注意力权重进行融合，使得重新编码后的特征图所包含的信息更加全面且有效，即在编码过程中，所含信息越丰富的输入特征图在重编码后的特征图中保留所占的比重就会越大。此外，编码过程增加的计算开销也十分有限，能够保证本发明的编码方案的可行性。

附图说明

图1是本发明实施例中基于互注意力的特征图编码方法流程图；

图2是本发明实施例中特征图经卷积模块编码得到第一和第二向量的结构图；

图3是本发明实施例中利用互注意力得分对特征图进行重编码的结构图；

图4是本发明一个实施例中基于重编码获取特征图间互注意力对特征图进行更新流程图；

图5是本发明优选实施例中基于重编码获取特征图间互注意力对特征图进行更新流程图；

图6是本发明实施例中一种基于互注意力的特征图编码装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对现有特征图编码机制所存在的问题，将特征图降到向量层次，能够简化计算量，并且能够得到特征图之间的注意力，再通过各自所占权重进行重新编码特征图，这种方式能够充分挖掘出特征信息之间的关系的同时，还能够保证计算量不大。

图1是本发明实施例中一种基于互注意力的特征图编码方法流程图，如图1所示，所述编码方法包括：

101、获取待处理的特征图；

在本步骤中，所述待处理的特征图是指待编码的特征图，所述特征图是卷积神经网络(Convolutional Neural Networks，CNN)中卷积层的输出结果，在每个卷积层，数据都是以三维形式存在的。因此可以看成许多个二维图片叠在一起，其中每一个称为一个特征图。在输入层，如果是灰度图片，那就只有一个特征图；如果是彩色图片，一般就是3个特征图(红绿蓝)。层与层之间会有若干个卷积核(kernel)，上一层和每个特征图跟每个卷积核做卷积，都会产生下一层的一个特征图。

102、将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量；

图2是本发明实施例中特征图经卷积模块编码得到第一和第二向量的结构图，如图2所示，将待处理的每个特征图M经过卷积模块编码为两个相同的可设定维度的第一向量q和第二向量k；首先，假设这里有n个特征图，对每一个特征图通过卷积模块分别进行卷积操作得到d个特征图，对这d个特征图进行线性操作得到d维向量；这d维向量分别编码得到每一个特征图的第一向量q_i和每一个特征图的第二向量k_i；且i＝1,..,n。

其中，第一向量q和第二向量k实质上是同一个向量，可以将第二向量k通过第一向量q复制而来，也可以将第一向量q通过第二向量k复制而来；这两个向量的维度、元素都完全相同。

103、通过第一向量和第二向量计算所有特征图之间的互注意力得分情况；

图3是本发明实施例中利用互注意力得分对特征图进行重编码的结构图，如图3所示，将n个第二向量进行转置操作后与n个第一向量对应相乘后W_ij＝q_i·k_j ^T得到一个n×n维的注意力权重矩阵，其中W_ij表示第i个特征图与第j个特征图之间的互注意力得分；q_i表示第i个特征图的第一向量；k_j表示第j个特征图的第二向量；T表示矩阵转置，n表示特征图个数，且i,j＝1,..,n。所有特征图的所有第一向量和第二向量就能够组成n×n维的注意力权重矩阵。

104、利用卷积模块对特征图进行重新编码。

将该注意力权重矩阵归一化后与原特征图相乘后

得到新特征图。

在一个实施例中，图4是本发明一个实施例中基于重编码获取特征图间互注意力对特征图进行更新流程图，如图4所示，更新过程中，卷积模块输出至自注意力编码模块，利用所述自注意力编码模块对特征图更新，再次利用卷积模块进行下一轮更新。

在一个优选实施例中，图5是本发明优选实施例中基于重编码获取特征图间互注意力对特征图进行更新流程图，如图5所示，更新过程中，卷积模块输出至自注意力编码模块，利用所述自注意力编码模块对特征图更新，再次利用卷积模块进行下一轮更新，直至满足需求。

其中，通过计算所有特征图之间的互注意力得分情况对输入特征图进行重新编码的过程包括：

S1：将每个特征图经过卷积模块编码为两个相同的可设定维度的向量q_i和k_i；

S2：通过公式W_ij＝q_i·k_j ^T(i,j＝1,..,n)计算所有特征图之间的互注意力得分情况；

S3：对输入特征图按如下公式进行重新编码：

S4：将重新编码后的特征图作为下一卷积模块的输入，按需求迭代S1～S3操作。

图6是本发明实施例中一种基于互注意力的特征图编码装置结构图，如图6所示，所述特征图编码装置包括：

特征图采集模块，用于获取待处理的特征图；

所述第一卷积模块包括卷积单元和线性单元；通过若干卷积单元提取出特征图的特征信息，将所述特征信息经过线性单元编码成两个相同且维度可调的第一向量和第二向量。

所述互注意力计算模块通过公式W_ij＝q_i·k_j ^T计算所有特征图之间的互注意力得分情况；其中，W_ij表示第i个特征图与第j个特征图之间的互注意力得分；q_i表示第i个特征图的第一向量；k_j表示第j个特征图的第二向量；T表示矩阵转置，n表示特征图个数，且i,j＝1,..,n。

所述第二卷积模块对输入特征图按如下公式进行重新编码：

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请还提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器耦合连接的存储器。

其中，所述存储器存储有计算机程序，所述计算机程序能够被所述至少一个处理器执行，以实现如本申请第一方面所述的一种时序数据对抗样本生成方法。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random accessmemory，NVRAM)。存储器存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器控制电子设备的操作，处理器还可以称为中央处理单元(centralprocessing unit，CPU)。具体的应用中，电子设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(applicationspecific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

接收器可用于接收输入的数字或字符信息，以及产生与电子设备的相关设置以及功能控制有关的信号输入，发射器可包括显示屏等显示设备，发射器可用于通过外接接口输出数字或字符信息。

本申请实施例中，处理器，用于执行前述步骤101-104或201-204中电子设备所执行的基于互注意力的特征图编码方法。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于互注意力的特征图编码方法，其特征在于，所述方法包括获取待处理的特征图，将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量；通过第一向量和第二向量计算所有特征图之间的互注意力得分情况，利用卷积模块对特征图进行重新编码。

2.根据权利要求1所述的一种基于互注意力的特征图编码方法，其特征在于，所述将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量包括通过卷积模块的若干层卷积层提取出特征图的特征信息，将所述特征信息经过线性操作后编码成两个相同且维度可调的第一向量和第二向量。

3.根据权利要求1所述的一种基于互注意力的特征图编码方法，其特征在于，所述通过第一向量和第二向量计算所有特征图之间的互注意力得分情况包括通过公式W_ij＝q_i·k_j ^T计算所有特征图之间的互注意力得分情况；其中，W_ij表示第i个特征图与第j个特征图之间的互注意力得分；q_i表示第i个特征图的第一向量；k_j表示第j个特征图的第二向量；T表示矩阵转置，n表示特征图个数，且i,j＝1,..,n。

4.根据权利要求1所述的一种基于互注意力的特征图编码方法，其特征在于，所述利用卷积模块对特征图进行重新编码包括对输入特征图按如下公式进行重新编码：

5.根据权利要求1所述的一种基于互注意力的特征图编码方法，其特征在于，在利用卷积模块对特征图进行重新编码之后还包括将重新编码后的特征图作为下一卷积模块的输入，并继续编码为两个相同且维度可调的第一向量和第二向量，通过第一向量和第二向量计算所有特征图之间的互注意力得分情况，利用卷积模块对特征图进行重新编码。

6.一种基于互注意力的特征图编码装置，其特征在于，包括：

特征图采集模块，用于获取待处理的特征图；

7.根据权利要求6所述的一种基于互注意力的特征图编码装置，其特征在于，所述第一卷积模块包括卷积单元和线性单元；通过若干卷积单元提取出特征图的特征信息，将所述特征信息经过线性单元编码成两个相同且维度可调的第一向量和第二向量。

8.根据权利要求6所述的一种基于互注意力的特征图编码装置，其特征在于，所述互注意力计算模块通过公式W_ij＝q_i·k_j ^T计算所有特征图之间的互注意力得分情况；其中，W_ij表示第i个特征图与第j个特征图之间的互注意力得分；q_i表示第i个特征图的第一向量；k_j表示第j个特征图的第二向量；T表示矩阵转置，n表示特征图个数，且i,j＝1,..,n。

9.根据权利要求6所述的一种基于互注意力的特征图编码装置，其特征在于，所述第二卷积模块对输入特征图按如下公式进行重新编码：

10.一种电子设备，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1～5任一项所述的一种基于互注意力的特征图编码方法。