CN114120030A

CN114120030A - 基于注意力机制的医学图像处理方法及相关设备

Info

Publication number: CN114120030A
Application number: CN202111283140.0A
Authority: CN
Inventors: 安虹; 石军; 王朝晖; 易会特; 赵敏帆; 韩文廷
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-03-01

Abstract

本申请提出了一种基于注意力机制的医学图像处理方法及相关设备，在获取待分类对象的三维医学图像后，将其输入特征提取模型进行特征提取，输出三维医学图像的三维特征图；其中，该特征提取模型是基于双重注意力机制对三维残差卷积网络进行训练得到的，且双重注意力机制包括通道注意力机制和深度注意力机制，以使特征提取模型能够提取三维医学图像的深层次的语义特征信息，提高三维特征图的准确性和全面性，这样，将对三维特征图进行池化处理，得到的目标特征向量输入分类模型，可以快速且精准得到三维医学图像的类别信息。

Description

基于注意力机制的医学图像处理方法及相关设备

技术领域

本申请主要涉及图像处理技术领域，更具体地说是涉及一种基于注意力机制的医学图像处理方法及相关设备。

背景技术

随着各种图像处理技术的发展，对医学图像的处理和分析研究也越来越多。如新型冠状病毒肺炎(Corona Virus Disease 2019，COVID-19，简称“新冠肺炎”)疫情，为了及时且准确检测出感染新冠肺炎的患者，通常是检测肺部的计算机断层扫描(CT)图像，利用人工智能技术(Artificial Intelligence，AI)中的深度学习/机器学习算法，对CT图像进行分析，确定出各CT图像所属类别，以辅助医护人员确定病因并给出合适的治疗方案。

然而，目前图像识别模型对CT图像分类识别精准度往往比较低，影响了基于目标区域识别结果的辅助诊断可靠性。因此，如何高精准度识别CT图像所属类别成为本领域重要研究方向之一。

发明内容

有鉴于此，本申请提出了一种基于注意力机制的医学图像处理方法，所述方法包括：

获取待分类对象的三维医学图像；

将所述三维医学图像输入特征提取模型进行特征提取，输出所述三维医学图像的三维特征图；其中，所述特征提取模型是基于双重注意力机制对三维残差卷积网络进行训练得到的；所述双重注意力机制包括通道注意力机制和深度注意力机制；

对所述三维特征图进行池化处理，得到所述三维医学图像的目标特征向量；

将所述目标特征向量输入分类模型进行分类预测，输出所述三维医学图像的类别信息。

可选的，所述对所述三维特征图进行归一化处理，得到所述三维医学图像的目标特征向量，包括：

将所述三维特征图输入全局平均池化层进行下采样处理，得到目标特征向量。

可选的，所述将所述三维医学图像输入特征提取模型进行特征提取，输出所述三维医学图像的三维特征图，包括：

将所述三维医学图像输入三维残差卷积网络进行特征提取，得到所述待分类对象的第一特征图；

依据通道注意力机制，对所述第一特征图的通道特征进行校准处理，得到第二特征图；

依据深度注意力机制，对所述第二特征图进行细粒度特征提取，得到所述三维医学图像的三维特征图。

可选的，所述三维残差卷积网络的第一个卷积层的卷积核尺寸为3*7*7，且步长为1*2*2。

可选的，在所述特征提取模型进行训练过程中，通过预设数据增强方式对调取的训练样本进行增加处理，利用增加后的训练样本进行模型训练；

其中，所述预设数据增强方式是指水平垂直翻转、平移、缩放和随机旋转之中的一种或多种组合的数据增强方式。

可选的，所述获取待分类对象的三维医学图像，包括：

接收医学影像设备发送的待分类对象的计算机断层扫描CT图像；所述 CT图像是医学数字成像和通信DICOM格式的三维图像；

按照预设的各向同性分辨率，对所述CT图像进行重采样，得到具有预设尺寸的三维医学图像。

可选的，所述将所述目标特征向量输入分类模型进行分类预测，输出所述三维医学图像的类别信息，包括：

将所述目标特征向量输入分类模型进行分类预测，得到所述三维医学图像的类别预测结果；其中，所述分类预测结果是基于最大类别概率确定的；

调用预设损失函数，获取所述类别预测结果的损失值；

若所述损失值未满足预设条件，依据所述损失值，通过梯度下降方式，调整所述特征提取模型和/或分类模型相应的模型参数，以利用具有调整后的模型参数的特征提取模型或分类模型继续对所述三维医学图像进行处理；

若所述损失值满足所述预设条件，利用所述类别预测结果，确定所述待分类对象的类别信息。

本申请还提出了一种基于注意力机制的医学图像处理装置，所述装置包括：

三维医学图像获取模块，用于获取待分类对象的三维医学图像；

特征提取模块，用于将所述三维医学图像输入特征提取模型进行特征提取，输出所述三维医学图像的三维特征图；其中，所述特征提取模型是基于双重注意力机制对三维残差卷积网络进行训练得到的；所述双重注意力机制包括通道注意力机制和深度注意力机制；

目标特征向量得到模块，用于对所述三维特征图进行池化处理，得到所述三维医学图像的目标特征向量；

分类预测模块，用于将所述目标特征向量输入分类模型进行分类预测，输出所述三维医学图像的类别信息。

本申请还提出了一种计算机设备，所述计算机设备包括：

通信模块；

存储器，用于存储实现如上述的基于注意力机制的医学图像处理方法的程序；

处理器，用于加载执行所述存储器存储的程序，以实现如上述的基于注意力机制的医学图像处理方法。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，其特征碍于，所述计算机程序被处理器加载执行，实现如上述的基于注意力机制的医学图像处理方法。

由此可见，本申请提出了一种基于注意力机制的医学图像处理方法及相关设备，在获取待分类对象的三维医学图像后，将其输入特征提取模型进行特征提取，输出三维医学图像的三维特征图；其中，该特征提取模型是基于双重注意力机制对三维残差卷积网络进行训练得到的，且双重注意力机制包括通道注意力机制和深度注意力机制，以使特征提取模型能够提取三维医学图像的深层次的语义特征信息，提高三维特征图的准确性和全面性，这样，将对三维特征图进行池化处理，得到的目标特征向量输入分类模型，可以快速且精准得到三维医学图像的类别信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提出的基于注意力机制的医学图像处理方法的一可选示例的流程示意图；

图2为本申请提出的基于注意力机制的医学图像处理方法中，获取特征图的特征提取模型的一可选示例的结构示意图；

图3为本申请提出的基于注意力机制的医学图像处理方法中，采用的通道注意力机制的一可选示例的结构示意图；

图4为本申请提出的基于注意力机制的医学图像处理方法中，采用的深度注意力机制的一可选示例的结构示意图；

图5为本申请提出的基于注意力机制的医学图像处理方法的又一可选示例的流程示意图；

图6为本申请提出的基于注意力机制的医学图像处理方法的又一可选示例的流程示意图；

图7为本申请提出的基于注意力机制的医学图像处理装置的一可选示例的结构示意图；

图8为适用于本申请提出的基于注意力机制的医学图像处理方法的计算机设备的一可选示例的硬件结构示意图。

具体实施方式

针对背景技术部分的描述，目前用于医学图像分析的深度学习技术，通常是基于深度卷积神经网络训练得到图像识别模型，将采集到的肺部的CT(计算机断层扫描)图像进行目标区域识别，确定肺部中目标区域(如病灶区域，或用于确定病灶的器官区域等)及其类别。但由于新冠肺炎和普通肺炎的CT 图像特征非常接近，现有这种通用的图像识别模型往往无法精准识别CT图像中目标区域及其类别，即医学图像识别准确性较低，容易干扰医生对输出的 CT图像的目标区域的诊断结果的准确性，耽误患者治疗。

对此，本申请提出基于注意力机制的医学图像处理方法，采用ResNet(残差网络)的残差连接的技术构思，来构建图像识别模型的卷积网络，从而抑制模型训练过程中的梯度弥散现象，提高训练模型的可靠性和效率。而且，利用注意力机制所具有的提高网络性能和精度的特性，增加对CT图像中语义特征的提取能力，从而使卷积网络能够提取到不同层次的上下文信息，以提升深度神经网络的性能，进一步提高模型输出的可靠性和精准度，这样，基于该模型可以高精准度、高效率实现对待处理的各CT图像的处理，得到准确性更高的CT图像识别结果。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合，也就是说，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

结合上文对本申请提出的基于注意力机制的医学图像处理方法的技术构思的相关描述，下面将结合如新冠肺炎、普通肺炎等不同类型肺炎识别场景这一应用示例，来详细说明本申请提出的基于注意力机制的医学图像处理方法，其包括但并不局限于下文各实施例描述的实现方法。

参照图1，为本申请提出的基于注意力机制的医学图像处理方法的一可选示例的流程示意图，该方法可以适用于计算机设备，该计算机设备可以是服务器，或者是具有一定数据处理能力的终端设备。该服务器可以是独立的物理服务器，也可以是多个物理服务器集成的服务器集群，还可以是具有云计算能力的云服务器等；该终端设备可以包括但并不局限于：智能手机、平板电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digitalassistant，PDA)、增强现实技术(Augmented Reality，AR)设备、虚拟现实(Virtual Reality，VR)设备、机器人、台式计算机等，本申请对计算机设备的设备类型不做限制，可视情况而定。

如图1所示，本实施例提出的基于注意力机制的医学图像处理方法可以包括但并不局限于以下步骤：

步骤S11，获取待分类对象的三维医学图像；

在医学应用领域，为了确定患者的肺部等内部器官的疾病类型，可以利用医学成像设备获取该器官的医学影像，之后，通过对医学影像进行分析，确定其包含的如病灶区域等目标区域及其类别信息，即确定所属哪一种疾病。因此，结合上文对本申请技术方案的相关描述，待分类对象可以包括肺部，通过CT扫描设备对肺部进行三维CT扫描，可以得到三维CT图像即三维医学图像，再将其发送至计算机设备进行图像分析。

需要说明，关于三维医学图像的类型及其获取方式，包括但并不局限于上文描述的方法。

步骤S12，将三维医学图像输入特征提取模型进行特征提取，输出三维医学图像的三维特征图；其中，特征提取模型是基于双重注意力机制对三维残差卷积网络进行训练得到的；且双重注意力机制包括通道注意力机制和深度注意力机制，本申请对这两种注意力机制的运算原理不做详述。

为了识别三维医学图像中的肺部区域属于哪一类疾病的图像，如新冠肺炎的CT图像、普通肺炎的CT图像、健康肺部的CT图像等，可以基于人工智能技术中的合适算法对待识别的三维医学图像进行特征提取，以获取详细、全面且突出其所属类别特征的特征图。

因此，在上述特征提取过程中，本申请希望可以增加对三维医学图像的语义特征的提取能力，得到满足应用需求的三维特征图。所以，本申请在预先配置用于特征提取的卷积网络时，采用了残差连接的设计思路，且引入了双重注意力机制，来提高该卷积网络的特征提取能力。参照图2所示的特征提取模型的结构示意图，该特征提取模型可以依次包括卷积层、通道注意力机制和深度注意力机制，该深度注意力机制可以包括但并不局限于挤压激励注意力(squeeze excitation attention，SE-Attention)机制，实现三维医学图像的特征图的局部特征提取，本申请对各注意力机制结构不做限制，可视情况而定。

本申请实施例中，三维残差卷积网络可以是ResNet18，本申请对该三维残差网络的数据处理原理不做详述，通过在所有卷积层中应用残差连接，可以避免模型训练过程中出现梯度消失问题，提高模型训练效率和可靠性，本申请对模型训练实现过程不做详述。

计算机视觉(computer vision)中的注意力机制(attention)的主要是要让系统把注意力放在感兴趣的地方，如本申请中采集到的肺部的三维医学图像中待识别的目标对象，如肺部区域、肺部的病灶区域等。基于此，本申请提出采用双重注意力机制对三维医学图像的特征图进行处理，能够从中提取出所需到的关键特征信息，以实现该图像的精准分类识别。

对于上述通道注意力机制和深度注意力机制，可以将这两个注意力机制串联，在实际应用中，对于卷积网络输出的特征图，可以先基于通道注意力机制进行校准处理，如图3所示的基于通道注意力机制的运算原理示意示意图，可以基于通道注意力机制，对卷积层输出的特征图的通道级特征进行校准，解耦不同通道之间的关联度。

之后，参照图4所示的深度注意力机制的运算原理示意图，可以基于深度注意力机制(如上述挤压激励注意力机制、空间注意力机制等)对上述校准后的特征图进行深度层次特征的校准，得到所需的三维特征图。可见，该三维特征图相对于卷积网络输出的特征图所包含的特征信息更加全面、准确，有利于提高三维医学图像的分类识别效率和准确性。

需要说明，本申请对上述双重注意力机制对输入的特征图的校准实现过程不做详述，可以依据双重注意力机制的工作原理确定。基于上述分析，本申请通过上述基于深度学习的注意力机制对接收到的特征图中深层次特征进行细化处理后，能够得到符合输入图像的三维特征，以用于区分不同切片对应特征的重要程度，即注意力权重，本申请对各特征的注意力权重的获取过程不做详述。

步骤S13，对三维特征图进行池化处理，得到三维医学图像的目标特征向量；

步骤S14，将目标特征向量输入分类模型进行分类预测，输出三维医学图像的类别信息。

按照上文描述的方法，得到三维特征图后，为了方便后续分类预测，可以对该三维特征图进行池化处理，实现方法本申请不做限制，可视情况而定。

本申请实施例中，分类模型可以结合上述特征提取模型进行预训练，该分类模型可以基于分类函数，如softmax等，对目标特征向量进行分类预测，获得其可能属于一种或多种类别的类别概率，将最大类别概率对应的类别确定三维医学图像所属的目标类别，即得到三维医学图像的类别信息，如确定三维图像的特征符合哪种肺炎类型的肺部三维图像等，关于如何利用softmax进行分类预测的实现过程本申请不做详述。

在又一些实施例中，由于三维医学图像中，除了待分类对象外，还可能包含其他区域，即便是包含的待分类对象，依据不同疾病的病理常识，其也可以划分成多个区域，如左肺、右肺以及肺部内的各种气管、血管、神经等，本申请对待分类对象包含的待分类区域位置和数量不做限制，可视情况而定。

基于此，为了更加精准定位病灶区域及其类别，本申请在得到目标特征向量后，将其输入分类模型，可以依据该目标特征向量对三维医学图像进行分割处理，确定该三维医学图像包含的一个或多个目标区域，以及该目标区域的分类信息。

参照图5，为本申请提出的基于注意力机制的医学图像处理方法的又一可选示例的流程示意图，本实施例可以是对上述实施例描述的基于注意力机制的医学图像处理方法的一可选细化实现方法，但并不局限于本实施例描述的这种细化实现方法，且该方法仍可以由服务器或电子设备等计算机设备执行。如图5所示，本实施例提出的基于注意力机制的医学图像处理方法可以包括但并不局限于以下步骤：

步骤S21，接收医学影像设备发送的待分类对象的计算机断层扫描CT图像；

本申请实施例中，上述CT图像可以是DICOM(Digital Imaging andCommunications in Medicine，医学数字成像和通信)格式的三维图像，该 DICOM通常会定义质量能满足临床需要的可用于数据交换的医学图像格式，本申请对医学成像设备如何获取该DICOM格式的CT图像的过程不做详述。

步骤S22，按照预设的各向同性分辨率，对CT图像进行重采样，得到具有预设尺寸的三维医学图像；

在医学领域，CT图像的各向同性分辨率可以是指该CT图像在XYZ坐标系下，X、Y、Z三个方向上的空间分辨率相同或差值小于阈值(较小数值，即三个方向的分辨率基本相同)，本申请通过预设固定的各向分辨率，对接收到的原始的CT图像进行重采样，来消除由于不同方向的采样操作不一致所带来的分辨率不一致，降低图像分类识别可靠性和准确性的技术问题。需要说明，本申请对步骤S22的重采样实现方法不做限制。

为了方便后续模型对三维医学图像处理，对于重采样后得到的CT图像，可以通过填充或裁剪等方式，将其处理为预设尺寸的三维医学图像，该预设尺寸可以依据模型训练时所获取的训练样本的尺寸确定，如64x224x224等，本申请对该预设尺寸的数值不做限制，可以依据实际情况进行灵活配置调整。

基于此，在本申请模型训练过程中，对于直接调取或采集到的训练CT图像，可以按照上文描述的方法进行处理，得到具有各向同性分辨率和预设尺寸的训练样本，采用HDF5(HierarchicalData Format Version 5，层次性数据格式第五版)格式对所得训练样本进行存储，用于实现特征提取模型、分类模型等模型训练。

可以理解，对于医学成像设备直接拍摄到的CT图像，可能因医学成像设备自身或所处拍摄环境的干扰等因素，导致拍摄的某一幅或多幅CT图像不规范，对此，为了保证所得三维医学图像可靠，可以对医学成像设备直接采集到的CT图像进行清洗预处理，剔除不符合预设要求的CT图像，再对符合预设要求的CT图像按照上文描述方式进行处理，得到三维医学图像。该预设要求可以包括图像的清晰度、完整性、格式等方面的要求，本申请对其内容不做限制，可以应用需求进行预先配置。

步骤S23，将三维医学图像输入三维残差卷积网络进行特征提取，得到待分类对象的第一特征图；

结合上文实施例对特征提取模型的相关描述，本申请可以基于如Pytorch等合适的软硬件环境，利用获取的训练样本实现模型的迭代训练，本申请对迭代训练方法不做限制。其中，在模型训练过程，可以预先配置迭代最大次数等训练终止条件，这样，在统计得到的迭代训练次数达到该迭代最大次数，可以终止训练，将本次训练得到的网络结构确定为特征提取模型，但并不局限于这种训练终止条件，也可以通过检测模型输出结果的损失值是否稳定、是否达到最小等，来确定是否终止训练等，可以依据应用需求确定模型训练的训练终止条件，本申请实施例在此不做详述。

在利用卷积网络对三维医学图像进行特征提取过程中，本申请提出将残差连接应用于该卷积网络，如采用ResNet-18作为整个模型的主干网络，可以将三维残差卷积网络的第一个卷积层的卷积核尺寸设计为3*7*7，且步长设计为1*2*2，并移除三维残差网络中的最大池化层，以保留该三维医学图像中更大的特征分辨率，关于三维残差卷积网络如何通过对三维医学图像进行逐层卷积处理，得到第一特征图的实现方法，本申请实施例在此不做详述。

需要说明，关于三维残差卷积网络中卷积核侧尺寸，及其进行特征提取时的步长包括但并不局限于上文举例，可视情况进行灵活配置。且在三维残差卷积网络包括多个卷积层的情况下，多个卷积层的卷积层尺寸可以相同，也可以不同，本申请可以依据图像处理需求确定。

步骤S24，依据通道注意力机制，对第一特征图的通道特征进行校准处理，得到第二特征图；

步骤S25，依据深度注意力机制，对第二特征图进行细粒度特征提取，得到三维医学图像的三维特征图；

本申请提出在三维残差卷积网络中引入双重注意力机制，结合上图3和图4所示的运算原理示意，基于双重注意力机制，可以对该三维残差卷积网络输出的特征图从空间、深层语义、特定区域(局部区域)等方面进行校准，即考虑第一特征图中各通道之间的空间特征相关性，对第一特征图的各通道特征进行校准处理，得到第二特征图，再对高层语义特征进行细化校准，得到三维特征图，本申请对如何基于双重注意力机制对卷积层输出的第一特征图进行校准处理的实现过程不做详述。

步骤S26，将三维特征图输入全局平均池化层进行下采样处理，得到目标特征向量；

本申请实施例中，全局平均池化层(Global Average Pooling)可以对输入的三维特征图进行全局均值池化处理，以减小网络参数，避免过拟合，输出表示类别特征的待分类三维特征图。本申请对全局均值池化处理的实现过程不做详述。

步骤S27，将目标特征向量输入分类模型进行分类预测，输出三维医学图像的类别信息。

其中，分类模型可以是基于softmax函数构建的分类器，其可以利用输入的目标特征向量，对三维医学特征进行分类预测，如确定三维医学图像或其包含的目标区域属于不同类型的概率，将最大概率对应的类型确定为三维医学图像的目标类别，即类别信息。本申请对分类预测的实现过程不做详述。

在本申请实施例中，经过池化处理得到待分类目标特征向量后，可以进一步利用全连接层(fully connected layers，FC)对待分类目标特征向量进行融合处理，得到供softmax等分类函数进行分类预测的目标特征向量，实现过程本申请不做详述。由此可见，本申请上述分类模型可以包括全连接层和softmax函数，该softmax函数可以目标特征向量归一化处理成(0,1)范围内的数值，由此表征三维医学图像或其目标区域属于相应类别的概率，通常情况下，该概率值越大说明该三维医学图像属于相应类别的可能越大。

在又一些实施例中，也可以将全局平均池化层的输出结果，直接输入分类模型进行分类预测，不用配置全连接层，以简化网络结构，这种情况下，可以由全局平均池化层实现深度特征的融合处理，得到用于输入归一化指数函数softmax的目标特征向量。

基于上述分析，在实际应用中，上述特征提取模型的引入双重注意力机制的三维残差卷积网络、全局平均池化层、全连接层以及softmax函数可以构成图像识别模型，实现对输入的三维医学图像的分类识别，得到类别信息。该图像识别模型可以在合适的软硬件环境下，基于GPU(Graphics Processing Unit，图形处理器)实现模型的迭代训练。

其中，在迭代训练之前，对于初始网络模型可以配置合适的超参数，本申请对该超参数内容不做限制，且为了防止过拟合，提高学习效率，可以通过预设数据增强方式对调取的训练样本进行增加处理，利用增加后的训练样本进行模型训练；其中，预设数据增强方式可以是指水平垂直翻转、平移、缩放和随机旋转等方式中的一种或多种组合的数据增强方式。本申请对训练样本的在线随机数据增强处理方法不做详述。

且，在迭代训练过程中，可以调用如交叉熵损失函数等，获取每次训练模型输出结果的损失值，之后，可以利用如Adam优化算法(即一种随机梯度下降算法的扩展式，工作原理不做详述)对模型进行优化处理，在该优化处理过程，可以预先配置初始学习率(如le-3，即0.001等)，以使Adam优化算法可以依据该初始学习率，实现模型优化处理，即使用梯度下降的学习了调整模型参数，以提高模型输出结果的可靠性和准确性，本申请对模型优化实现过程不做详述。

其中，在模型迭代训练过程中，对于所需训练样本的批量大小可以依据硬件加速卡确定，本申请对此不做限制。

另外，对于训练得到包含上文各部分的图像识别模型，可以利用测试样本对其性能进行测试评估，如依据准确度、特异性、敏感性等一个或多个指标，对模型分类结果进行评估测试，以确定训练所得图像识别模型是否满足要求，若不满足可以继续按照上文描述的方式对模型进行迭代训练，直至满足这些指标要求。本申请对模型测试实现过程不做详述，且包括但并不局限于本申请实施例描述的这种测试实现方法。

可以理解，为了提高上述图像识别模型的分类识别可靠性，在获取训练样本过程中，可以1:1:1比例(并不局限于该比例关系)，获取总共不少于4000 例(但并不局限于该数值)新冠肺炎患者、普通肺炎患者以及正常人的胸部 CT图像作为训练样本集，之后，可以按照上文描述的方法，对训练样本集中的训练样本进行预处理后，实现对初始模型的迭代训练，得到所需的图像识别模型。

基于上述分析，参照图6，为本申请提出的基于注意力机制的医学图像处理方法的又一可选示例的流程示意图，可以是对上述实施例描述的基于注意力机制的医学图像处理方法的又一可选细化实现方法，本实施例可以对上文各实施例描述的将目标特征向量输入分类模型进行分类预测，输出三维医学图像的类别信息的实现过程进行细化描述，但并不局限于本实施例描述的细化实现方法，且关于目标特征向量的获取过程，可以参照上文实施例相应部分的描述，本实施例不做赘述。

如图6所示，本申请实施例描述的提出的三维医学图像的类别信息的获取方法可以包括但并不局限于以下：

步骤31，将三维医学图像的目标特征向量输入分类模型进行分类预测，得到三维医学图像的类别预测结果；

其中，分类预测结果是基于最大类别概率确定的，关于分类预测的实现过程可以参照但并不局限于上文实施例相应部分的描述，本实施例不做赘述。

步骤32，调用预设损失函数，获取类别预测结果的损失值；

本申请实施例中，该预设损失函数可以包括但并不局限于交叉熵损失函数，可以依据应用需求进行配置，以尽可能减小模型输出分类结果和实际类别之间的差距，实现最小化损失，本申请对损失函数的计算原理不做详述。

步骤33，检测该损失值是否满足预设条件；若否，进入步骤S34；若是，执行步骤S35；

其中，预设条件可以是上述模型训练的训练终止条件，在本申请实施例中，其可以包括但并不局限于损失值达到最小值或预设损失阈值等，可视情况而定，本申请对该预设条件的内容不做限制。

步骤S34，依据该损失值，通过梯度下降方式，调整特征提取模型和/或分类模型相应的模型参数，以利用具有调整后的模型参数的特征提取模型或分类模型继续对三维医学图像进行处理；

关于步骤S34描述的模型优化实现方法，可以参照但并不局限于上文实施例相应部分的描述，本实施例在此不做赘述。

步骤35，利用类别预测结果，确定待分类对象的类别信息。

结合上述各实施例的描述，本申请采用双重注意力机制进行特征提取，增加了卷积神经网络对不同层次图像语义特征的提取能力，对区别性特征更加敏感，提高了模型性能；且在模型训练过程中，采用数据增加方式对训练样本进行预处理，减轻了模型网络的过拟合，提升了模型的泛化能力和学习速度，提高了分类精准度。

参照图7，为本申请提出的基于注意力机制的医学图像处理装置的一可选示例的结构示意图，该装置可以包括：

三维医学图像获取模块11，用于获取待分类对象的三维医学图像；

特征提取模块12，用于将所述三维医学图像输入特征提取模型进行特征提取，输出所述三维医学图像的三维特征图；其中，所述特征提取模型是基于双重注意力机制对三维残差卷积网络进行训练得到的；所述双重注意力机制包括通道注意力机制和深度注意力机制；

目标特征向量得到模块13，用于对所述三维特征图进行池化处理，得到所述三维医学图像的目标特征向量；

分类预测模块14，用于将所述目标特征向量输入分类模型进行分类预测，输出所述三维医学图像的类别信息。

可选的，目标特征向量得到模块13可以包括：

下采样单元，用于将所述三维特征图输入全局平均池化层进行下采样处理，得到目标特征向量。

可选的，上述特征提取模块12可以包括：

第一特征图得到单元，用于将所述三维医学图像输入三维残差卷积网络进行特征提取，得到所述待分类对象的第一特征图；

第二特征图得到单元，用于依据通道注意力机制，对所述第一特征图的通道特征进行校准处理，得到第二特征图；

三维特征图得到单元，用于依据深度注意力机制，对所述第二特征图进行细粒度特征提取，得到所述三维医学图像的三维特征图。

本申请实施例中，上述三维残差卷积网络的第一个卷积层的卷积核尺寸为3*7*7，且步长为1*2*2，但并不局限于此。

在又一些实施例中，上述装置还可以包括：

模型训练模块，用于通过预设数据增强方式对调取的训练样本进行增加处理，利用增加后的训练样本进行模型训练；其中，预设数据增强方式是指水平垂直翻转、平移、缩放和随机旋转之中的一种或多种组合的数据增强方式。

可选的，上述三维医学图像获取模块11可以包括：

CT图像接收单元，用于接收医学影像设备发送的待分类对象的计算机断层扫描CT图像；所述CT图像是医学数字成像和通信DICOM格式的三维图像；

重采样单元，用于按照预设的各向同性分辨率，对所述CT图像进行重采样，得到具有预设尺寸的三维医学图像。

可选的，上述分类预测模块14可以包括：

分类预测单元，用于将所述目标特征向量输入分类模型进行分类预测，得到所述三维医学图像的类别预测结果；其中，所述分类预测结果是基于最大类别概率确定的；

损失值获取单元，用于调用预设损失函数，获取所述类别预测结果的损失值；

模型优化单元，用于在损失值未满足预设条件的情况下，依据所述损失值，通过梯度下降方式，调整所述特征提取模型和/或分类模型相应的模型参数，以利用具有调整后的模型参数的特征提取模型或分类模型继续对所述三维医学图像进行处理；

类型信息确定单元，用于在损失值满足所述预设条件的情况下，利用所述类别预测结果，确定所述待分类对象的类别信息。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种计算机可读存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的基于注意力机制的医学图像处理方法的各个步骤，具体实现过程可以参照上述实施例相应部分的描述，本实施例不做赘述。

参照图8，为适用于本申请提出的基于注意力机制的医学图像处理方法的计算机设备的一可选示例的硬件结构示意图，如图8所示，该计算机设备可以包括：通信模块21、存储器22及处理器23，其中：

通信模块21、存储器22和处理器23的数量均可以为至少一个，且通信模块21、存储器22和处理器23均可以连接通信总线，以通过该通信总线实现相互之间的数据交互，具体实现过程可以依据具体应用场景的需求确定，本申请不做详述。

通信模块21可以包括能够利用无线通信网络实现数据交互的通信模块，如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS 模块等，该通信模块21还可以包括实现计算机设备内部组成部件之间的数据交互的通信接口，如USB接口、串/并口等，本申请对该通信模块21包含的具体内容不做限定。

在本申请实施例中，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器23，可以为中央处理器(CentralProcessing Unit，CPU)、特定应用集成电路(application-specificintegrated circuit，ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

在本实施例实际应用中，存储器22可以用于存储实现上述任一方法实施例描述的基于注意力机制的医学图像处理方法的程序；处理器23可以加载并执行存储器22中存储的程序，以实现本申请上述任一方法实施例提出的基于注意力机制的医学图像处理方法的各个步骤，具体实现过程可以参照上文相应实施例相应部分的描述，不再赘述。

应该理解的是，图8所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中，计算机设备可以包括比图8所示的更多或更少的部件，或者组合某些部件，可以依据该计算机设备的产品类型确定，如该计算机设备为上文列举的终端设备，该计算机设备还可以包括如感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、图像采集器(如摄像头)、拾音器等至少一个设备；如显示器、扬声器、振动机构、灯等至少一个输出设备等，本申请在此不做一一列举。

其中，在计算机设备为上述终端设备的情况下，可以由终端设备采集对待分类对象扫描，得到三维医学图像，再按照上文描述的基于注意力机制的医学图像处理方法，实现三维医学图像的分类识别，如识别肺部的三维医学图像中肺部区域的特征属于哪种肺炎特征，包括但并不局限于肺炎图像类别的识别应用场景；在又一些实施例中，终端设备也可以接收其他医学成像设备采集并发送的三维医学图像，本申请对此不做限定，可以视情况而定。

而在计算机设备为服务器的情况下，通常可以由具有三维图像采集功能的医学成像设备，获取待分类对象的三维医学图像直接或间接发送至服务器，由服务器执行上述实施例描述的基于注意力机制的医学图像处理方法，得到满足应用需求的待分类对象的类别识别，反馈至预设终端进行展示，辅助实现对待分类对象的疾病诊断、确定治疗方案等，具体实现过程本申请在此不做详述。

最后，需要说明的是，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注意力机制的医学图像处理方法，其特征在于，所述方法包括：

获取待分类对象的三维医学图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述三维特征图进行池化处理，得到所述三维医学图像的目标特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述三维医学图像输入特征提取模型进行特征提取，输出所述三维医学图像的三维特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述三维残差卷积网络的第一个卷积层的卷积核尺寸为3*7*7，且步长为1*2*2。

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述特征提取模型进行训练过程中，通过预设数据增强方式对调取的训练样本进行增加处理，利用增加后的训练样本进行模型训练；

6.根据权利要求1-4任一项所述的方法，其特征在于，所述获取待分类对象的三维医学图像，包括：

接收医学影像设备发送的待分类对象的计算机断层扫描CT图像；所述CT图像是医学数字成像和通信DICOM格式的三维图像；

7.根据权利要求1-4任一项所述的方法，其特征在于，所述将所述目标特征向量输入分类模型进行分类预测，输出所述三维医学图像的类别信息，包括：

调用预设损失函数，获取所述类别预测结果的损失值；

8.一种基于注意力机制的医学图像处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

通信模块；

存储器，用于存储实现如权利要求1-7任一项所述的基于注意力机制的医学图像处理方法的程序；

处理器，用于加载执行所述存储器存储的程序，以实现如权利要求1-7任一项所述的基于注意力机制的医学图像处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征碍于，所述计算机程序被处理器加载执行，实现如权利要求1-7任一项所述的基于注意力机制的医学图像处理方法。