CN115035545A

CN115035545A - 一种基于改进自注意力机制的目标检测方法及装置

Info

Publication number: CN115035545A
Application number: CN202210570185.4A
Authority: CN
Inventors: 柏慧屏; 刘小青; 俞益洲; 李一鸣; 乔昕; 潘晶; 应汉宁; 蔡秀军
Original assignee: Zhejiang University ZJU; Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Zhejiang University ZJU; Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-09-09
Anticipated expiration: 2042-05-24
Also published as: CN115035545B

Abstract

本发明提供一种基于改进自注意力机制的目标检测方法及装置。所述方法包括：获取3D医学图像；将所述图像输入到3D卷积神经网络进行特征提取；将得到的特征图在维度通道分成两个特征图，并将两个特征图分别沿横向和纵向划分为n个和m个相同的方块，然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作；将两个自注意力机制的输出拼接后进行特征融合，并将融合特征输入分类器，得到目标类别及位置大小。本发明由于采用改进的自注意力机制，即横向自注意力机制操作和纵向自注意力机制，提高了感受野，降低了内存占有量和计算量，提高了运行速度。

Description

一种基于改进自注意力机制的目标检测方法及装置

技术领域

本发明属于医学影像技术领域，具体涉及一种基于改进自注意力机制的目标检测方法及装置。

背景技术

近年来，目标检测技术在图像处理领域取得了巨大成功。基于深度学习技术，学者们提出了多种目标检测算法。从结构上来看，主要分为两大类：一类算法是基于候选区域的，如R-CNN，FastR-CNN和FasterR-CNN等；另一类是无候选区域的单阶段方法，如CenterNet，SSD等。相比于自然图像领域，在医学图像中，病变区域与整个图像相比可能非常小；而且通常图像结构复杂，仅根据单帧图像无法判断病灶。因此，在自然图像领域效果很好的2D目标检测方法在医学图像上通常无法达到预期效果。而如果在医学图像上采用全卷积网络，利用3D卷积获取上下文信息，则通常感受野不够大，而且显存占用很高。另外，为了快速地扩大感受野，CNN中往往使用大量的下采样操作，这使得最终得到的包含语义特征的特征图分辨率较低，不利于小物体检测。

自注意力是目前应用最广泛的注意力机制之一。自注意力是基于特征图本身的关注而提取的注意力。对于卷积而言，卷积核的设置限制了感受野的大小，导致网络往往需要多层的堆叠才能关注到整个特征图。而自注意的优势就是它的关注是全局的，它能通过简单的查询与赋值就能获取到特征图的全局空间信息。对于自注意力机制来说，相当于模型自己决定感受野的形状和类型。然而自注意力机制通常是针对2D的，没有办法像3D卷积一样融合3维信息。为此，本发明提出一种改进的自注意力机制模型，能够利用图像的3维信息提高目标检测精度。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种基于改进自注意力机制的目标检测方法及装置。

为了实现上述目的，本发明采用以下技术方案。

第一方面，本发明提供一种改进自注意力机制的目标检测方法，包括以下步骤：

获取维度为1*D*H*W的3D医学图像，D、H、W分别为深度、高度和宽度；

将所述图像输入到3D卷积神经网络进行特征提取，得到一个维度为C*D*H*W的特征图，C为通道数；

将所述特征图分成两个C/2*D*H*W的特征图，并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块，然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作；

将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合，并将融合特征输入分类器，得到目标类别及位置大小。

进一步地，所述医学图像为CT或MRI。

进一步地，横向自注意力机制操作表示为：

输入为：

输出为：

式中，

分别为沿Q、K、V的投影矩阵，均为可学习参数，Q、K、V分别为查询向量、键向量和值向量。

更进一步地，纵向自注意力机制操作表示为：

输入为：

输出为：

式中，

更进一步地，横向自注意力机制和纵向自注意力机制的输出拼接后得到：

Attention＝concat(head₁,head₂,…,head_k,…,head_C)W⁰

式中，k＝1,2,…,C，W⁰为可学习参数，W⁰∈R^C*C。

进一步地，所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。

第二方面，本发明提供一种基于改进自注意力机制的目标检测装置，包括：

图像获取模块，用于获取维度为1*D*H*W的3D医学图像，D、H、W分别为深度、高度和宽度；

特征提取模块，用于将所述图像输入到3D卷积神经网络进行特征提取，得到一个维度为C*D*H*W的特征图，C为通道数；

自注意力模块，用于将所述特征图分成两个C/2*D*H*W的特征图，并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块，然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作；

目标分类模块，用于将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合，并将融合特征输入分类器，得到目标类别及位置大小。

进一步地，所述医学图像为CT或MRI。

进一步地，横向自注意力机制操作表示为：

输入为：

输出为：

式中，

更进一步地，纵向自注意力机制操作表示为：

输入为：

输出为：

式中，

Attention＝concat(head₁,head₂,…,head_k,…,head_C)W⁰

式中，k＝1,2,…,C，W⁰为可学习参数，W⁰∈R^C*C。

与现有技术相比，本发明具有以下有益效果。

本发明通过获取3D医学图像，将所述图像输入到3D卷积神经网络进行特征提取，将得到的特征图在维度通道分成两个特征图，并将两个特征图分别沿横向和纵向划分为n个和m个相同的方块，然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作，将两个自注意力机制的输出拼接后进行特征融合，并将融合特征输入分类器，得到目标类别及位置大小，实现了目标的自动检测和定位。本发明由于采用改进的自注意力机制，即横向自注意力机制操作和纵向自注意力机制，提高了感受野，降低了内存占有量和计算量，提高了运行速度。

附图说明

图1为本发明实施例一种基于改进自注意力机制的目标检测方法的流程图。

图2为本发明实施例网络结构示意图。

图3为金字塔结构示意图。

图4为增加位置编码权重的自注意力机制示意图。

图5为本发明实施例一种基于改进自注意力机制的目标检测装置的方框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种基于改进自注意力机制的目标检测方法的流程图，包括以下步骤：

步骤101，获取维度为1*D*H*W的3D医学图像，D、H、W分别为深度、高度和宽度；

步骤102，将所述图像输入到3D卷积神经网络进行特征提取，得到一个维度为C*D*H*W的特征图，C为通道数；

步骤103，将所述特征图分成两个C/2*D*H*W的特征图，并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块，然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作；

步骤104，将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合，并将融合特征输入分类器，得到目标类别及位置大小。

本实施例中，步骤101主要用于获取3D医学图像。所述医学图像可以是计算机体层摄影(Computed Tomography，简称CT)，也可以是磁共振成像(Magnetic ResonanceImaging，简称MRI)等等。3D图像也称为立体图像，其空间大小用三个维度的尺寸长、宽、高决定。3D医学图像的尺寸一般用深度D、高度H和宽度W三个维度的尺寸表示。

本实施例中，步骤102主要用于进行特征提取。本实施例通过将获得的3D医学图像输入到一个或多个3D卷积神经网络(或类似resnet的残差结构)实现特征提取，得到一个维度为C*D*H*W的特征图。卷积神经网络CNN是基于生物学上的感受野机制提出来的。CNN是一种前馈神经网络，但与一般的全连接前馈神经网络不同的是，它的卷积层具有局部连接和权重共享的特性，因此能够大大减小权重参数的数量，从而减小模型的复杂程度和提高运行速度。一个典型的CNN是由卷积层、汇聚层(或池化层、下采样层)、全连接层交叉堆叠而成的。卷积层的作用是通过卷积核与输入图像的卷积运算提取一个局部区域的特征，不同的卷积核相当于不同的特征提取器。汇聚层的作用是进行特征选择，降低特征数量，从而进一步减少参数数量。全连接层用于对得到的不同特征进行融合。二维卷积是在单通道的一帧图像上进行滑窗操作，输入是高度H*宽度W的二维矩阵。三维卷积输入多了深度D这个维度，输入是高度H*宽度W*深度D的三维矩阵。

本实施例中，步骤103主要用于对获得的特征图进行改进的自注意力机制操作。注意力机制是在计算机能力有限的情况下，借鉴人脑的注意力机制，只关心一些关键的信息输入进行处理，来提高神经网络的效率。注意力机制的计算可分为两步：一是在所有输入信息上计算注意力分布；二是根据注意力分布计算输入信息的加权求和。自注意力机制是注意力机制的变体，只有一个输入，将序列中的每个单元和该序列中的所有单元进行注意力计算，减少了对外部信息的依赖，有利于捕捉数据或特征的内部相关性。自注意力机制是利用三个可学习的变量将输入线性映射为K、Q与V，然后将Q与K相乘得到K对Q的注意力权重后，利用归一化的权重和V来生成输入的上下文信息。自注意力机制的优势是通过简单的查询与赋值就能获取到特征图的全局空间信息。对于自注意力机制来说，相当于模型自己决定感受野是怎样的形状和类型。然而自注意力机制通常只针对2D图像特征，不能像3D卷积一样融合3维信息。为此，本实施例提出一种改进的自注意力机制，将输入特征图在通道维度一分为二，得到两个C/2*D*H*W的特征图，对这两个特征图分别从纵向和横向划分出n个和m个相同大小的小方块，大小分别为D*C/2*H/n*W和D*C/2*H*W/m。浅层特征图，方块比较窄；深层特征图，方块稍微宽一些，在实际中，对于前3层特征图，H/n和W/m一般取1、2、7。然后分别对两个特征图进行横向自注意力机制操作和纵向自注意力机制操作，如图2所示。

值得说明的是，划分结果的n和m可以不等，但须保证H/n＝W/m。由于输入图像一般为正方形，即H＝W，因此一般情况下n＝m。

本实施例提出的改进的自注意力机制，将自注意力机制的n*m个方块变为n+m个方块，使计算量大大减小，运行速度明显提高。通过把特征图分成两部分并进行不同的自注意力机制，能够明显扩展每个区域的感受野。另外，本实施例两个方向(横纵)的自注意力机制并行运算，可进一步提高速度。

本实施例中，步骤104主要用于基于特征融合得到目标类别和位置。对横、纵向自注意力机制的输出进行拼接，再对拼接后的特征图作3D卷积，融合3D方向的信息，并进行下采样，得到金字塔结构的特征图。将金字塔中的每个分支接上一个分类层和一个回归层，从而得到目标类别和检测框(表示目标位置大小)。如图3所示。

作为一可选实施例，所述医学图像为CT或MRI。

本实施例对输入医学图像进行了限定。本实施例中，医学图像可以是CT，也可以是MRI。CT和MRI是最常用的两种医学影像。两种图像各有优劣，CT图像具有较高的密度分辨力，在密度分辨率上，CT具有较高的优势。MRI图像具有较高的软组织分辨力，在显示中枢神经系统及关节内结构与病变方面明显优于CT。

作为一可选实施例，横向自注意力机制操作表示为：

输入为：

输出为：

式中，

分别为Q、K、V的投影矩阵，均为可学习参数，Q、K、V分别为查询向量、键向量和值向量。

本实施例给出了横向自注意力机制的计算方法。横向自注意力机制的计算方法与一般的自注意力机制的计算方法相同，所不同的是输入变量为横向划分后的n个小方块，即

作为一可选实施例，纵向自注意力机制操作表示为：

输入为：

输出为：

式中，

本实施例给出了纵向自注意力机制的计算方法。纵向自注意力机制的计算方法与一般的自注意力机制的计算方法相同，所不同的是输入变量为纵向划分后的m个小方块，即

作为一可选实施例，横向自注意力机制和纵向自注意力机制的输出拼接后得到：

Attention＝concat(head₁,head₂,…,head_k,…,head_C)W⁰

式中，k＝1,2,…,C，W⁰为可学习参数，W⁰∈R^C*C。

本实施例给出了横向自注意力机制的输出与纵向自注意力机制的输出拼接后的特征向量表达式。两个自注意力机制的输出在通道维度上叠加，得到一个维度为C*D*H*W的特征图。

作为一可选实施例，所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。

本实施例是对自注意力机制的又一改进。一般的自注意力机制不考虑输入序列中各个方块的位置信息，相当于将各个方块的位置打乱后“一视同仁”，得到的权重与位置无关，但实际上不同位置的图像特征所起的作用不同。为此，本实施例在横向自注意力机制和纵向自注意力机制操作中均增加了位置编码权重，如图4所示。具体地，在原自注意力机制权重的基础上加一个位置编码权重，表示如下：

输入为x＝(x₁,x₂,…,x_N)，输出为z＝(z₁,z₂,…,z_N)，其中：

式中，

为z_i的第k个元素，

为原自注意力权重，为位置编码权重，

是一个可学习参数。

本实施例通过增加一个位置编码权重，可使自注意力机制更有效地提取图像特征，从而提高目标检测的精度。

图5为本发明实施例一种基于改进自注意力机制的目标检测装置的组成示意图，所述装置包括：

图像获取模块11，用于获取维度为1*D*H*W的3D医学图像，D、H、W分别为深度、高度和宽度；

特征提取模块12，用于将所述图像输入到3D卷积神经网络进行特征提取，得到一个维度为C*D*H*W的特征图，C为通道数；

自注意力模块13，用于将所述特征图分成两个C/2*D*H*W的特征图，并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块，然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作；

目标分类模块14，用于将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合，并将融合特征输入分类器，得到目标类别及位置大小。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。后面的实施例也是如此，均不再展开说明。

作为一可选实施例，所述医学图像为CT或MRI。

作为一可选实施例，横向自注意力机制操作表示为：

输入为：

输出为：

式中，

作为一可选实施例，纵向自注意力机制操作表示为：

输入为：

输出为：

式中，

Attention＝concat(head₁,head₂,…,head_k,…,head_C)W⁰

式中，k＝1,2,…,C，W⁰为可学习参数，W⁰∈R^C*C。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。