CN112598024B

CN112598024B - 一种基于深度多示例学习和自注意力的医学图像分类方法

Info

Publication number: CN112598024B
Application number: CN202011394327.3A
Authority: CN
Inventors: 袁立明; 李贞亮; 温显斌; 徐海霞
Original assignee: Tianjin University of Technology; Tiandy Technologies Co Ltd
Current assignee: Tianjin University of Technology; Tiandy Technologies Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-08-09
Anticipated expiration: 2040-12-03
Also published as: CN112598024A

Abstract

本发明公开了一种基于深度多示例学习和自注意力的医学图像分类方法，涉及医学图像处理技术，该方法包括：对医学图像进行预处理，产生多示例学习中的示例包；利用卷积神经网络提取包中示例特征；基于自注意力机制构造特征提取模块，学习示例间的依赖关系；使用特征池化模块聚合包中示例特征，得到包级特征向量；将包级特征向量作为分类器的输入，产生输入图像的预测标记。本发明通过卷积网络捕获待识别图像的局部细节特征，利用自注意力机制学习待识别图像的全局结构特征，两种特征互为补充，提高了整个网络的分类性能和稳定性，此外，通过引入可训练的池化算子，进一步增强了网络的可解释性。

Description

一种基于深度多示例学习和自注意力的医学图像分类方法

技术领域

本发明涉及医学图像处理技术，具体涉及一种基于深度多示例学习和自注意力的医学图像分类方法。

背景技术

近年来，深度学习方法在诸多人工智能领域已远远超越了传统的浅层机器学习方法，对学术界和工业界产生了广泛而深刻的影响。在图像分类领域，深度监督学习方法取得了前所未有的成功，在诸多大型图像分类任务中展现出不亚于人类的识别和分类能力，其中一个关键驱动力是大量有确切标注的样本数据。然而，在实际应用中对样本进行大量细致的标注往往是极为困难的，例如，在医学图像分析中，获取病灶的具体位置常常是费时费力的，多数情况下仅能获得图像的整体标注信息(良性/恶性)或大致的感兴趣区域；此外，特定分类任务的数据规模往往较小，若采用监督学习方法直接对其进行建模，容易出现过拟合现象，导致模型的泛化能力较差。因此，能够应对此类任务的弱监督学习模型逐渐引起了研究者的关注，弱监督学习模型仅依赖粗粒度标记即可完成图像的分类任务。

多示例学习是一种典型的弱监督学习范式，以示例包为基本处理单元。利用多示例学习技术对医学图像进行分类，可将每张图像视为一个示例包，其中每个示例对应图像的一个局部区域，通过学习示例特征进而构造整个包的表征来实现包与其标记的映射关系。大多数现有方法假设包内示例独立同分布，但实际应用中同一包内示例间往往存在某种关联，例如，医学图像的不同局部区域间常蕴含着重要的上下文信息，因而示例特征学习过程中考虑包的结构信息有利于设计出更合理的分类模型并取得更好的分类效果。

发明内容

本发明提出一种基于深度多示例学习和自注意力的医学图像分类方法，解决现有方法因忽视图像的全局结构信息而导致的分类性能较低等问题，为医学图像分类提供一种新的基于深度多示例学习网络的解决方案。

本发明提供一种基于深度多示例学习和自注意力的医学图像分类方法，包括：

预处理步骤，对医学图像进行预处理，产生多示例学习中的示例包；

特征构造步骤，利用卷积神经网络提取示例特征，捕获图像的局部细节信息；

特征提取步骤，基于自注意力机制构造特征提取模块，学习示例间的依赖关系，捕获图像的全局结构信息；

特征池化步骤，基于注意力机制构造特征池化模块，利用该模块聚合包中示例，得到示例包的包级特征向量；

类别预测步骤，使用一个带Sigmoid激活函数的全连接层作为分类器，对包级特征向量进行分类，产生输入图像的预测标记。

优选的，所述预处理步骤具体为：

对医学图像进行均匀分割，或者使用滑动窗口进行滑动分割，得到若干尺寸相同的图像块；根据待分类图像的具体特点，有选择地剔除没有价值的图像块；将分割自同一图像的图像块打包为一个示例包。

优选的，所述特征构造步骤具体为：

使用两个带ReLU激活函数的卷积层提取图像块特征，其中每个卷积层后接1个最大池化层过滤特征信息；调整特征图尺寸，按行优先原则转换为固定长度的特征向量；经过特征提取后，一个示例包由一组特征向量组成，记为X。

优选的，所述特征提取步骤具体为：

利用三个映射矩阵

对示例包

进行变换，得到查询项Q、键项K、值项V；使用如下自注意力模块提取示例间关系：

Att(Q，K，V；ω)＝ω(QK^T)X，

其中

d_i、d_o分别表示该层的输入输出维度，d_o＝d_i/2，α-entmax激活函数的具体形式为：

其中

指单机概率，

是在α≥1条件下的Tsallis熵的连续族，当α＝1时，α-entmax退化为SoftMax。

优选的，所述特征池化步骤具体为：

利用映射矩阵

对更新后的示例包Z(其内示例已包含可描述包的结构信息的特征)进行变换，得到ZW^Z并将其作为键项和值项，则给定查询项Q，利用如下注意力模块对包中示例进行聚合：

其中激活函数使用α-entmax函数，查询项Q和映射矩阵W^Z是可学习参数，超参数k和d_o分别决定输出向量的数量和维度，本发明选取k＝1，即将示例包池化为一个包级特征向量。

优选的，所述特征提取步骤还包括：

利用诱导点原理来改进自注意力模型，即利用诱导点作为中间的过渡变量来大幅降低自注意力运算的时间复杂度，改进后的模块可描述为：

其中诱导点I和映射矩阵W^X是可训练参数。

本发明与现有方法相比具有如下优点：

1)本发明采用深度多示例神经网络对粗粒度标记的医学图像进行分类，有效解决现有深度监督学习网络依赖大规模、细粒度标注数据等问题。

2)本发明利用卷积网络和自注意力模块提取图像的多示例特征，其中卷积网络用于提取图像的局部细节特征，自注意力模块用于提取图像的全局结构特征，两种特征互为补充，共同作用，有利于提高模型的分类性能和健壮性。

3)本发明提出一种基于注意力机制的可学习的多示例池化算子，该算子具有极高的灵活性，在提高模型分类性能的同时能够增强模型的可解释性。

附图说明

为了使本发明实施例中的技术方案更加清楚明确，下面将对实施例或现有技术描述中所需要使用的附图做简要介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于深度多示例学习和自注意力的医学图像分类方法的流程示意图；

图2为本发明实施例提供的点乘注意力运算的结构示意图；

图3为本发明实施例提供的自注意力模型的结构示意图；

图4为本发明实施例提供的的基于注意力的池化模型结构示意图；

图5为本发明实施例提供的诱导自注意力模型的结构示意图。

具体实施方式

以下将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、明确的描述。示例性的，具体实施方式以医学图像分类为例进行说明。显然，所描述的实例仅仅用于解释本发明，并非用于限定本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及其他任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

参照图1，其示出了本发明实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法的流程示意图，可以包括以下步骤：

S11预处理步骤，对医学图像进行预处理，产生多示例学习中的示例包，示例包的标记与图像的标记保持一致；

S12特征构造步骤，利用卷积神经网络提取示例特征，捕捉图像的局部细节信息；

S13特征提取步骤，基于自注意力机制构造特征提取模块，学习示例间的依赖关系，捕捉图像的全局结构信息；

S14特征池化步骤，基于注意力机制构造特征池化模块，利用该模块聚合包中示例，得到示例包的包级特征向量；

S15类别预测步骤，使用一个带Sigmoid激活函数的全连接层作为分类器，对包级特征向量进行分类，产生输入图像的预测标记。

需要说明的是，步骤S11需要预先完成，步骤S12至步骤S15构成端到端的深度多示例神经网络。

上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中，所述预处理步骤，可以包括：

上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中，所述特征构造步骤，可以包括：

上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中，所述特征提取步骤，可以包括：

如图2和3所示，利用三个映射矩阵

对示例包

进行变换，得到查询项Q、键项K、值项V；使用如下自注意力模型提取示例间关系：

Att(Q，K，V；ω)＝ω(QK^T)X，

其中

其中

指单机概率，

上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中，所述特征池化步骤，可以包括：

如图4所示，利用映射矩阵

上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中，所述特征提取步骤，还可以包括：

利用诱导点原理来改进自注意力模型，即利用诱导点作为中间的过渡变量来大幅降低自注意力运算的时间复杂度，改进后的模型可描述为：

其中诱导点I和映射矩阵W^X是可训练参数，改进后的模型结构如图5所示。

此外，本发明实施例在3个真实医学图像数据集UCSB breast、Messidor、Coloncancer上对本发明实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法进行测试。为了验证本申请方法的分类性能，我们使用交叉验证作为评估方法，在3个数据集上，均采用不同的随机种子进行5次10折交叉验证，并报告5次实验的平均分类准确率。

参阅表1，本发明给出了所提基于深度多示例学习和自注意力的医学图像分类方法和Att.Net、Gated Att.Net、Set Transformer方法在UCSB breast、Messidor、Coloncancer医学图像数据集上的实验结果对比表，其中衡量指标为平均分类准确率和标准差。实验结果表明，本发明所提基于深度多示例学习和自注意力的医学图像分类方法在三个数据集上都取得了最佳的实验效果，表明本发明方法具有较好的稳定性和适用性。

表1.各种方法在UCSB breast、Messidor、Colon cancer数据集上的分类准确率

方法	UCSB breast	Messidor	Colon cancer
				Att.Net	0.867±0.127	0.690±0.044	0.872±0.122
Gated Att.Net	0.874±0.137	0.697±0.040	0.868±0.119
				Set Transformer	0.887±0.106	0.702±0.037	0.900±0.089
SA-MIL(本发明方法)	0.891±0.072	0.726±0.035	0.910±0.070
				ISA-MIL(本发明方法)	0.871±0.105	0.718±0.041	0.920±0.077

以上所描述的实例仅仅用于阐述本发明的技术方案，使本领域的任何技术人员能够实现或使用本发明。对于本领域技术人员来讲，这些实施例的各种修改方式都是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。