CN113762251B

CN113762251B - 一种基于注意力机制的目标分类方法及系统

Info

Publication number: CN113762251B
Application number: CN202110943944.2A
Authority: CN
Inventors: 柴象飞; 郭娜; 张路; 刘鹏飞; 秦浩峰
Original assignee: Huiying Medical Technology Beijing Co ltd
Current assignee: Huiying Medical Technology Beijing Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2024-05-10
Anticipated expiration: 2041-08-17
Also published as: CN113762251A

Abstract

本发明公开了一种基于注意力机制的目标分类方法，涉及神经网络技术领域。包括：获取待分类图像的步骤；将待分类图像输入到卷积神经网络，提取待分类图像的特征，通过注意力矩阵块对得到的特征图进行处理，根据处理后的特征图得到至少一个目标分类结果的步骤。本发明适用于图像中目标物的分类，通过加入注意力机制，使用注意力矩阵块对特征图进行处理，抑制与目标分类相关性低的特征表达，激励与目标相关性大的特征表达，从而更有效地利用全局信息对目标类型进行预测，抑制无关信息对分类结果的干扰，提高目标分类的准确性。此外，本发明不需要对目标周围的局部图像做切割操作，因而不存在图像切割相关的问题，处理过程更加简洁，效率更高。

Description

一种基于注意力机制的目标分类方法及系统

技术领域

本发明涉及神经网络技术领域，尤其涉及一种基于注意力机制的目标分类方法及系统。

背景技术

深度学习网络在各个领域的应用越来越多，目前，可以使用深度学习网络实现对图像中的目标进行识别和分类。

然而，目标的尺寸依据识别的具体事物决定，当目标的尺寸差异较大时，以同一尺寸切割图块，如果选取的尺寸较大，会出现同一图块中存在多个不同类型目标的情况，在这种情况下，图块内不同类型的目标会干扰最终分类结果；如果选取的尺寸较小，大的目标会被分割到不同的图块中，则对该大目标的分类也会不准确，因为输入到深度学习网络中的信息只包含该大目标的一部分信息。

而如果对大尺寸目标以较大的尺寸切割图块，小尺寸目标以较小的尺寸切割图块，按现有方案，在输入学习网络之前需要将图块尺寸调整到一致，而在调整过程中将会引入更多的噪声，从而对最终分类结果造成影响，影响分类的准确性。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于注意力机制的目标分类方法及系统。

本发明解决上述技术问题的技术方案如下：

一种基于注意力机制的目标分类方法，包括：

获取待分类图像的步骤；

将所述待分类图像输入到卷积神经网络，提取所述待分类图像的特征，通过注意力矩阵块对得到的特征图进行处理，根据处理后的特征图得到至少一个目标分类结果的步骤。

本发明解决上述技术问题的另一种技术方案如下：

一种基于注意力机制的目标分类系统，包括：采集设备、处理设备和显示设备，其中：

所述采集设备用于获取待分类图像；

所述处理设备用于将所述待分类图像输入到卷积神经网络，提取所述待分类图像的特征，通过注意力矩阵块对得到的特征图进行处理，根据处理后的特征图得到至少一个目标分类结果；

所述显示设备用于显示所述待分类图像的至少一个目标分类结果。

本发明的有益效果是：本发明提供的方法及系统，适用于图像中目标物的分类，通过加入注意力机制，使用注意力矩阵块对特征图进行处理，抑制与目标分类相关性低的特征表达，激励与目标相关性大的特征表达，从而更有效地利用全局信息对目标类型进行预测，抑制无关信息对分类结果的干扰，提高目标分类的准确性。此外，本发明不需要对目标周围的局部图像做切割操作，因而不存在图像切割相关的问题，处理过程更加简洁，效率更高。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明目标分类方法的实施例提供的流程示意图；

图2为本发明目标分类方法的实施例提供的卷积神经网络结构示意图；

图3为本发明目标分类方法的其他实施例提供的注意力层结构示意图；

图4为本发明目标分类方法的其他实施例提供的注意力矩阵块计算过程示意图；

图5为本发明目标分类系统的实施例提供的结构框架示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明目标分类方法的实施例提供的流程示意图，该目标分类方法基于注意力机制实现，包括：

S1，获取待分类图像。

需要说明的是，待分类图像可以为包含目标的影响数据，目标指的是需要分类的事物，例如，可以为摄像机拍摄的植物、卫星图像中的车辆或肺部CT中的结节等，以肺部CT中的结节为例，可以分类为恶性结节、良性结节以及非结节，以摄像机拍摄的植物为例，可以分类为叶、茎和花朵等。

S2，将待分类图像输入到卷积神经网络。

需要说明的是，卷积神经网络的结构可以根据实际需求设置，例如，可以为CNN特征提取网络，具体地，可以选择VGG、InceptionNet、Resnet等网络。卷积神经网络的输入可以为待分类图像，输出可以为每个目标的分类结果。

如图2所示，提供了一种示例性的卷积神经网络结构示意图，下面结合图2对用于目标分类的卷积神经网络结构进行说明。

卷积神经网络包括：多个卷积结构，每个卷积结构包括：3层卷积层C、注意力层A和池化层P，卷积结构的数量可以根据实际需求设置，每个卷积结构依次连接，图中给出了3个卷积结构，注意力层A设置在3层卷积层C与池化层P之间。

还包括：多个采样结构，每个采样结构包括：上采样层U和3层卷积层C，采样结构的数量可以根据实际需求设置，每个卷采样结构依次连接，并连接在最后一个卷积结构的输出，图中给出了3个采样结构。

在最后一个采样结构的输出还可以设置softmax层S，用于确定每个像素属于分类类别中的哪一个。

应理解，上述实施方式中，将注意力层加在了池化层之前，也可以根据实际需要将注意力层添加在其他合适的位置。

其中，卷积层C可以使用Batchnorm加速神经网络的收敛速度及稳定性，注意力层用来抑制无关信息对分类结果的影响。

将待分类图像输入到卷积神经网络后，卷积神经网络对图像进行了如步骤S3～S5的过程。

S3，提取待分类图像的特征。

需要说明的是，提取的特征可以包括多个维度，例如，可以为C、D、W、H，其中，C表示通道维，D表示深度维，H表示高度维，W表示宽度维。

例如，可以通过上述实施例提供的卷积神经网络中的卷积层提取待分类图像的特征。

S4，通过注意力矩阵块对得到的特征图进行处理。

例如，可以通过上述实施例提供的卷积神经网络中的注意力层对提取到的特征图进行处理。

应理解，本领域技术人员可以根据实际需求选择具体的处理过程，例如，可以将注意力矩阵块与特征图相乘，完成处理。

S5，根据处理后的特征图得到至少一个目标分类结果。

应理解，本发明是以分割的思想做分类，因此可以同时对待分类图像中的多个目标体进行识别和分类，例如，假设某个待分类图像中包含3个待分类的目标，那么最终得到的分类结果就是这3个目标的类别。

下面以对肺部CT序列中的结节进行分类为例，进行进一步说明。

卷积神经网络的输入为整个肺部CT序列及其所包含肺内结节的中心点坐标，输出为对肺内所有结节良恶性的判断。

首先，通过CNN特征提取网络，从整肺CT中提取特征。经过特征提取网络后特征维度为C、D、W、H。

然后，CNN特征提取网络通过卷积层和下采样池化层进行特征提取，通过注意力层抑制无关信息对分类结果的影响，具体地，通过注意力层完成注意力矩阵的计算。

然后，通过上采样层处理，得到丰富高分辨率信息，最后经过softmax层确定每个像素对应的是“恶性结节”、“良性结节”和“背景”中的哪种，网络输出包含上述三种类型的语义分割图。

最后，根据输入的结节中心点坐标，参考中心点附近区域像素的分类结果，评比得到该结节最可能的结节类别，并剔除“背景”像素。

最后输出结果是输入的每个结节对应的结节类别。

应理解，以上仅为本发明的一种可能的示例性应用，当应用在上述领域时，可以将肺内CT图像作为输入，充分利用病人肺内CT中的所有信息，对结节的类型进行预测。由于本发明不需要对结节周围的局部图像做切割操作，因而不存在结节图块切割相关的问题，预处理程序更加简洁。并且通过引入注意力机制，抑制与结节分类相关性低的特征表达，激励与结节相关性大的特征表达，从而更有效地利用全局信息对结节类型进行预测，并且抑制无关信息对分类结果的干扰。

下面以对植物的部位进行分类为例，进行进一步说明。

卷积神经网络的输入为包含多个植物的图像序列及其所包含各个部位的中心点坐标，输出为每个部位对应的类别的分类结果。

首先，通过CNN特征提取网络，从包含多个植物的图像序列中提取特征。经过特征提取网络后特征维度为C、D、W、H。

然后，通过上采样层处理，得到丰富高分辨率信息，最后经过softmax层确定每个像素对应的是“根”、“茎”、“叶”和“背景”中的哪种，网络输出包含上述四种类型的语义分割图。

最后，根据输入的各个部位的中心点坐标，参考中心点附近区域像素的分类结果，评比得到该部位最可能的类别，并剔除“背景”像素。

最后输出结果是输入的植物的每个部位对应的分类类别。

本发明提供的方法，适用于图像中目标物的分类，通过加入注意力机制，使用注意力矩阵块对特征图进行处理，抑制与目标分类相关性低的特征表达，激励与目标相关性大的特征表达，从而更有效地利用全局信息对目标类型进行预测，抑制无关信息对分类结果的干扰，提高目标分类的准确性。此外，本发明不需要对目标周围的局部图像做切割操作，因而不存在图像切割相关的问题，处理过程更加简洁，效率更高。

可选地，在一些可能的实施方式中，通过注意力矩阵块对得到的特征图进行处理，具体包括：

分别在每个尺度依据特征图的全部维度对特征图进行分块，每个尺度对应一组分块结果；

分别计算每组分块结果中每个特征块的注意力矩阵块，并将每组分块结果的全部注意力矩阵块进行融合，得到完整的注意力矩阵块；

对全部组的完整的注意力矩阵块进行加权平均，得到融合的多尺度特征注意力矩阵；

将特征图与融合的多尺度特征注意力矩阵逐元素相乘，完成对特征图的处理。

例如，如图3所示，提供了一种示例性的注意力层结构示意图，可以设置为n种尺度，n的取值可以根据实际需求设置，对于每种尺度，可以按照维度进行分块。

之后，可以对每个尺度的注意力矩阵块进行融合，由于不同分块得到的注意力矩阵块可能会有重叠，因此可以用三维高斯函数融合成完整的注意力矩阵，得到每个尺度的完整的注意力矩阵块。通过对全部的注意力矩阵块进行加权平均，得到完整的注意力矩阵，权值可以为预先设置的可学习参数。

应理解，按照维度进行分块的过程可以使用高斯滑窗实现，分块滑动步长可以小于对应维度的分块尺寸，通过使用多尺度高斯滑窗方法，能够提高注意力矩阵的精细程度，从而更好地预测目标的类型。

可选地，在一些可能的实施方式中，将每组分块结果的全部注意力矩阵块进行融合，得到完整的注意力矩阵块，具体包括：

使用三维高斯函数将每组分块结果的全部注意力矩阵块融合成完整的注意力矩阵块。

具体地，对每个注意力矩阵块，用三维高斯函数对其预测结果加权平均，距离块中心近的预测结果获得的权值较大，距离块中心远的预测结果获得的权值较小。

可选地，在一些可能的实施方式中，分别计算每组分块结果中每个特征块的注意力矩阵块，具体包括：

针对每组分块结果中的每个特征块，对所有维度进行池化操作，得到每个维度的一维向量；

根据可学习参数向量对每个维度的一维向量进行处理，得到每个维度的注意力向量；

将每个维度的注意力向量依次相乘，并对维度进行相应的拓展，得到每个特征块的注意力矩阵块。

如图4所示，提供了一种示例性的注意力矩阵块计算过程示意图，对特征块进行池化操作，只保留一个维度，如图所示4，以维度为CDHW的特征块为例，分别得到通道维、深度维、高度维和宽度维，其中，通道维有1*C个向量，深度维有1*D个向量，高度维有1*H个向量，宽度维有1*W个向量，然后，每个维度得到的向量乘F(W)得到注意力向量，W是可学习参数向量，并且是被相应维度上的矩阵块共享的。F(W)是W的某种变换，例如，可以是简单线性变换也可以是多层神经网络。

最后，将不同注意力向量依次相乘，并扩展相应维度，最终得到输入特征图块对应的注意力矩阵块。

例如，可以先将转换后的通道维向量与转换后的深度维向量相乘，扩展为C*D的二维矩阵，然后再将C*D的二维矩阵与转换后的高度维向量相乘，扩展为C*D*H的矩阵，再将C*D*H矩阵与转换后的宽度维向量相乘，得到当前特征块的注意力矩阵块。

可选地，在一些可能的实施方式中，根据可学习参数向量对每个维度的一维向量进行处理，得到每个维度的注意力向量，具体包括：

对可学习参数向量进行预设变换，得到变换结果；

将每个维度的一维向量乘变换结果得到每个维度的注意力向量。

可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

如图5所示，为本发明目标分类系统的实施例提供的结构框架示意图，该目标分类系统基于注意力机制实现，包括：采集设备10、处理设备20和显示设备30，其中：

采集设备10用于获取待分类图像；

处理设备20用于将待分类图像输入到卷积神经网络，提取待分类图像的特征，通过注意力矩阵块对得到的特征图进行处理，根据处理后的特征图得到至少一个目标分类结果；

显示设备30用于显示待分类图像的至少一个目标分类结果。

本发明提供的系统，适用于图像中目标物的分类，通过加入注意力机制，使用注意力矩阵块对特征图进行处理，抑制与目标分类相关性低的特征表达，激励与目标相关性大的特征表达，从而更有效地利用全局信息对目标类型进行预测，抑制无关信息对分类结果的干扰，提高目标分类的准确性。此外，本发明不需要对目标周围的局部图像做切割操作，因而不存在图像切割相关的问题，处理过程更加简洁，效率更高。

可选地，在一些可能的实施方式中，处理设备20包括：处理器和神经芯片，神经芯片上布置有卷积神经网络，其中：

处理器用于将待分类图像输入到卷积神经网络中提取特征；

神经芯片用于分别在每个尺度依据特征图的全部维度对特征图进行分块，每个尺度对应一组分块结果；分别计算每组分块结果中每个特征块的注意力矩阵块，并将每组分块结果的全部注意力矩阵块进行融合，得到完整的注意力矩阵块；对全部组的完整的注意力矩阵块进行加权平均，得到融合的多尺度特征注意力矩阵；将特征图与融合的多尺度特征注意力矩阵逐元素相乘，完成对特征图的处理。

可选地，在一些可能的实施方式中，神经芯片具体用于使用三维高斯函数将每组分块结果的全部注意力矩阵块融合成完整的注意力矩阵块。

可选地，在一些可能的实施方式中，神经芯片包括：池化单元和注意力学习单元，其中：

池化单元用于针对每组分块结果中的每个特征块，对所有维度进行池化操作，得到每个维度的一维向量；

注意力学习单元用于根据可学习参数向量对每个维度的一维向量进行处理，得到每个维度的注意力向量；将每个维度的注意力向量依次相乘，并对维度进行相应的拓展，得到每个特征块的注意力矩阵块。

可选地，在一些可能的实施方式中，注意力学习单元具体用于对可学习参数向量进行预设变换，得到变换结果；将每个维度的一维向量乘变换结果得到每个维度的注意力向量。

需要说明的是，上述各实施方式是与在先方法实施例对应的产品实施例，对于产品实施方式的说明可以参考上述各方法实施方式中的对应说明，在此不再赘述。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于注意力机制的目标分类方法，其特征在于，包括：

获取待分类图像的步骤；

将所述待分类图像输入到卷积神经网络，提取所述待分类图像的特征，通过注意力矩阵块对得到的特征图进行处理，根据处理后的特征图得到至少一个目标分类结果的步骤；

通过注意力矩阵块对得到的特征图进行处理，具体包括：

分别在每个尺度依据特征图的全部维度对所述特征图进行分块，每个尺度对应一组分块结果；

将所述特征图与所述融合的多尺度特征注意力矩阵逐元素相乘，完成对所述特征图的处理。

2.根据权利要求1所述的基于注意力机制的目标分类方法，其特征在于，将每组分块结果的全部注意力矩阵块进行融合，得到完整的注意力矩阵块，具体包括：

3.根据权利要求1或2所述的基于注意力机制的目标分类方法，其特征在于，分别计算每组分块结果中每个特征块的注意力矩阵块，具体包括：

4.根据权利要求3所述的基于注意力机制的目标分类方法，其特征在于，根据可学习参数向量对每个维度的一维向量进行处理，得到每个维度的注意力向量，具体包括：

对可学习参数向量进行预设变换，得到变换结果；

将每个维度的一维向量乘所述变换结果得到每个维度的注意力向量。

5.一种基于注意力机制的目标分类系统，其特征在于，包括：采集设备、处理设备和显示设备，其中：

所述采集设备用于获取待分类图像；

所述处理设备包括：处理器和神经芯片，所述神经芯片上布置有卷积神经网络，其中：

所述处理器用于将所述待分类图像输入到所述卷积神经网络中提取特征；

所述神经芯片用于分别在每个尺度依据所述特征图的全部维度对所述特征图进行分块，每个尺度对应一组分块结果；分别计算每组分块结果中每个特征块的注意力矩阵块，并将每组分块结果的全部注意力矩阵块进行融合，得到完整的注意力矩阵块；对全部组的完整的注意力矩阵块进行加权平均，得到融合的多尺度特征注意力矩阵；将所述特征图与所述融合的多尺度特征注意力矩阵逐元素相乘，完成对所述特征图的处理；

6.根据权利要求5所述的基于注意力机制的目标分类系统，其特征在于，所述神经芯片具体用于使用三维高斯函数将每组分块结果的全部注意力矩阵块融合成完整的注意力矩阵块。

7.根据权利要求5或6所述的基于注意力机制的目标分类系统，其特征在于，所述神经芯片包括：池化单元和注意力学习单元，其中：

所述池化单元用于针对每组分块结果中的每个特征块，对所有维度进行池化操作，得到每个维度的一维向量；

所述注意力学习单元用于根据可学习参数向量对每个维度的一维向量进行处理，得到每个维度的注意力向量；将每个维度的注意力向量依次相乘，并对维度进行相应的拓展，得到每个特征块的注意力矩阵块。

8.根据权利要求7所述的基于注意力机制的目标分类系统，其特征在于，所述注意力学习单元具体用于对可学习参数向量进行预设变换，得到变换结果；将每个维度的一维向量乘所述变换结果得到每个维度的注意力向量。