CN115100467A

CN115100467A - 一种基于核注意力网络的病理全切片图像分类方法

Info

Publication number: CN115100467A
Application number: CN202210713528.8A
Authority: CN
Inventors: 郑钰山; 姜志国; 谢凤英; 张浩鹏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-23

Abstract

本发明公开了一种基于核注意力网络的病理全切片图像分类方法，包括：利用卷积神经网络结合滑窗法分块提取病理肿瘤数据集中的病理全切片图像底层特征，组成图像特征矩阵；根据滑窗法提取病理全切片的图像块特征，利用kmeans算法进行特征位置聚类，获得锚点掩码集合；构建核注意力网络；将图像特征矩阵和锚点掩码集合作为核注意力网络的输入，病理全切片图像的类别标签作为输出，进行训练；采用训练后的核注意力网络，对需要进行分析的肿瘤数字病理全切片图像进行分类识别。该方法通过提升模型对组织病理全切片图像结构的描述能力，进而提高下游肿瘤分级分类任务的精度和速度。

Description

一种基于核注意力网络的病理全切片图像分类方法

技术领域

本发明属于数字图像处理与医学交叉领域，涉及数字病理全切片图像处理领域，特别涉及一种基于核注意力网络的病理全切片图像分类方法。

背景技术

恶性肿瘤是人类健康的一大威胁。组织病理检查是以组织石蜡切片为载体，以病理医生为核心的诊断科学，是恶性肿瘤诊断的“金标准”。然而，肿瘤种类繁多、组织形态变化复杂等客观因素，决定了病理医生培养难，能够独立诊断成长周期长等现状。我国是癌症高发人口大国，但我国病理医生和病理诊断资源尚存较大缺口，病理医生工作量繁重，综合诊断质量难以保证，不能满足人民群众健康需要。在这一背景下，利用计算机科学、人工智能方法研究肿瘤病理辅助于诊断方法，对推动我国肿瘤诊疗技术进步，加强病理诊断质量控制，改善我国肿瘤诊疗现状具有重要意义。

石蜡切片经自动显微镜(切片扫描仪)成像后转化为在计算中存储的数字病理全切片图像，是基于人工智能算法的组织病理自动识别与肿瘤辅助诊断的主要载体。然而，数字病理全切片图像在高倍率下成像，使其像素分辨率远超自然场景数字图像。受限于计算机软硬件条件，现有算法难以直接套用到数字病理全切片图像中。因此，主流数字病理全切片图像分析一般采用两阶段框架：第一阶段利用卷积神经网络等结合滑窗法分块提取病理切片底层特征(或表征提取)，组成特征方阵(feature cube)，从而压缩数字病理全切片图像数据量；第二阶段在特征方阵建立算法模型实现全切片图像的分析。

近年来，随着Transformer模型的快速发展，基于Vision Transformer(Vit)的图像分类模型被大量应用于数字病理全切片图像分析的第二阶段，已被验证优于卷积神经网络、图卷积网络等相关算法，在未来一段时间将是该领域的主流算法。

但是Vit模型用于数字病理全切片图像分析时存在两个问题：

1)Vit模型对图像结构信息的描述是通过网格分块后进行位置嵌入编码(positional embedding)实现的，该方法是针对自然场景图像识别数据集(如ImageNet)的特点设计的。此类数据集中的图像形状和尺寸均相同(如ImageNet中的图像分辨率为224×224)，保证了Vit模型的每个输入点(token)接收的位置编码表达的位置信息一致，这是Vit能够描述图像结构信息的前提。但是，病理全切片图像的尺寸并不统一，其中包含的组织区域(即前景区域)形状和尺寸也不相同，使得通过滑窗法提取的组织区域特征数量存在显著的切片差异，特征在全切片中的位置信息也不能保证与Vit模型的位置编码保持一致。该问题使Vit模型难以有效的捕捉病理全切片图像中组织的结构信息，致使Vit在需要依赖结构信息的肿瘤细粒度分析任务中表现不佳，进而无法更准确的分析病理全切片图像。

2)Vit模型中的主要组成部分是自注意力模块，该模块的计算复杂与输入点(token)的数量，也即所提取全切片特征的数量成二次正相关。Vit用于全切片分析时需要建立5000甚至上万个输入点，与自然场景图像中常用的196个输入点相比，计算量高出2～3个数量级，为基于Vit的数字病理全切片分析模型的训练和部署造成了困难。

综上，需要提出新方法，解决原有Vit模型应用于数字病理图像分析时在结构描述和计算复杂度方面存在的问题，并进一步解决难以准确分析病理全切片图像的问题。

发明内容

本发明的目的在于提供一种基于核注意力网络的病理全切片图像分类方法，该方法可解决现有框架的不足、并解决无法准确分析病理全切片图像的问题。

为实现上述目的，本发明采取的技术方案为：

本发明提供一种基于核注意力网络的病理全切片图像分类方法，包括：

利用卷积神经网络结合滑窗法分块提取病理肿瘤数据集中的病理全切片图像底层特征，组成图像特征矩阵；

根据所述滑窗法提取所述病理全切片的图像块特征，利用kmeans算法进行特征位置聚类，获得锚点掩码集合；

构建核注意力网络；所述核注意力网络由归一化层、核注意力模块和前馈网络堆叠而成；

将所述图像特征矩阵和锚点掩码集合作为所述核注意力网络的输入，病理全切片图像的类别标签作为输出，进行训练；

采用训练后的所述核注意力网络，对需要进行分析的肿瘤数字病理全切片图像进行分类识别。

进一步地，利用卷积神经网络结合滑窗法分块提取病理肿瘤数据集中的病理全切片图像底层特征，组成图像特征矩阵；包括：

利用阈值法获得病理肿瘤数据集中的病理全切片图像的前景区域；所述前景区域为组织区域掩码；

将所述组织区域掩码作为参照，结合滑窗法将前景区域分割成等尺寸的图像块；

利用卷积神经网络提取所述图像块的特征，并记录所述图像块的特征在所述病理全切片图像中的行列位置，形成特征方阵；

将所述特征方阵进行重排，获得二维特征矩阵，表示为

其中n_p表示组织区域被分割成图像块的数量，d_f表示CNN提取特征的维数。

进一步地，所述卷积神经网络包括：ResNet，EfficientNet和DenseNet；所述卷积神经网络的训练方法包括：

1)采用ImageNet数据集训练；

2)采用病理图像数据集有监督、弱监督和/或自监督训练。

进一步地，根据所述滑窗法提取所述病理全切片的图像块特征，利用kmeans算法进行特征位置聚类，获得锚点掩码集合；包括：

将滑窗法获得的图像块x_i在病理全切片图像中的行列位置记作p(x_i)＝(m_i,n_i)^T，将切片中所有图像块的位置数据记作集合P＝{p(x_i),i＝1,2,…,n_p}；

利用kmeans算法将所述集合P中的点聚为K类，得到K个聚类中心；

对每个聚类中心在所述集合P中选定聚类其最近的点作为一个锚点使用；获得所有锚点集合C＝{c_k＝(m_k,n_k),k＝1,2…,K}；

计算每个锚点位置与图像块位置直径的距离权重，将所述距离权重作为锚点位置掩码使用，获得锚点掩码集合。

进一步地，计算每个锚点位置与图像块位置直径的距离权重，采用如下公式：

其中，e表示自然底数，δ为类高斯模型的尺度参数，用于控制掩码的作用范围，m_ki(δ)表示第k个锚点和第i个图像块在尺度参数δ下的距离权重；p(x_i)表示图像块x_i在病理全切片图像中的行列位置；c_k表示第k个锚点的位置；将m_ki(δ)排列为矩阵

称为锚点位置掩码，将多层次掩码表示为集合M＝{M⁽ⁿ⁾＝M(δ_n),n＝1,2…,N}，其中N表示掩码层级的数量。

进一步地，将所述图像特征矩阵和锚点掩码集合作为所述核注意力网络的输入，所述核注意力模块的计算过程包括：

a)在信息收集过程中，各锚点位置通过交叉注意力计算收集其近邻区域的信息，表示为：

其中，

表示可训练参数，n表示掩码层级的数量，M⁽ⁿ⁾表示多层次掩码集合，⊙表示哈达玛内积运算，

smax表示行softmax函数；X⁽⁰⁾＝σ(W^peX^T+b^pe)+D，其中σ表示全连接神经网络的激活函数,W^pe和b^pe表示该层网络的可训练参数；

表示核特征，由随机初始化获得的可训练参数组成；

b)信息分发过程中，各锚点将综合后的信息分发给其近邻的区域，用公式表示为：

M^T(n)表示M⁽ⁿ⁾的转置；

c)信息汇总过程中，各锚点将信息发送给分类节点，用于形成全切片图像的表征，用公式表示为：

核注意力网络在N次堆叠后，将分类节点对应的输出r作为全切片图像的整体表征使用，在其后建立分类层实现全切片图像的分类。

与现有技术相比，本发明具有如下有益效果：

一种基于核注意力网络的病理全切片图像分类方法，包括：利用卷积神经网络结合滑窗法分块提取病理肿瘤数据集中的病理全切片图像底层特征，组成图像特征矩阵；根据滑窗法提取病理全切片的图像块特征，利用kmeans算法进行特征位置聚类，获得锚点掩码集合；构建核注意力网络；将图像特征矩阵和锚点掩码集合作为核注意力网络的输入，病理全切片图像的类别标签作为输出，进行训练；采用训练后的核注意力网络，对需要进行分析的肿瘤数字病理全切片图像进行分类识别。该方法通过提升模型对组织病理全切片图像结构的描述能力，进而提高下游肿瘤分级分类任务的精度和速度。

附图说明

图1为基于核注意力网络的病理全切片图像分类方法流程图；

图2为基于核注意力网络的病理全切片图像分类方法的原理图；

图3为包含4个尺度的掩码示意图；

图4为核注意力网络结构图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照图1所示，本发明提供的一种基于核注意力网络的病理全切片图像分类方法，包括：

S10、利用卷积神经网络结合滑窗法分块提取病理肿瘤数据集中的病理全切片图像底层特征，组成图像特征矩阵；

S20、根据所述滑窗法提取所述病理全切片的图像块特征，利用kmeans算法进行特征位置聚类，获得锚点掩码集合；

S30、构建核注意力网络；所述核注意力网络由归一化层、核注意力模块和前馈网络堆叠而成；

S40、将所述图像特征矩阵和锚点掩码集合作为所述核注意力网络的输入，病理全切片图像的类别标签作为输出，进行训练；

S50、采用训练后的所述核注意力网络，对需要进行分析的肿瘤数字病理全切片图像进行分类识别。

该方法通过在组织区域范围内自适应的选择锚点，并为锚点创建层次化区域掩码，来描述组织病理全切片图像的结构信息。相应的，构建了核注意力网络核注意力模块，通过核(kernel)与图像块描述点(token)之前的交叉注意计算，让核注意力网络能够学习到不同类型病理全切片图像组织结构间的差异，从而更好的实现病理全切片图像的分类；同时用交叉注意力计算代替传统Vit中的自注意力计算，使网络对于token数量的计算复杂度从二次相关下降为线性相关，计算效率大幅提高。

如图2所示，本发明提出的一种基于核注意力网络的病理全切片图像分类方法，在保证模型近线性计算复杂度的前提下，提升模型对组织病理全切片图像结构的描述能力，进而提高下游肿瘤分级分类任务的精度和速度，下面结合附图，具体来说：

实时步骤如下：

1.全切片图像特征提取

准备好病理肿瘤数据集，其中包括病理全切片图像，如图2中(a)所示。

1.1利用阈值法获得病理全切片图像的前景区域，即组织区域掩码，如图2中(e)所示；然后组织区域掩码为参照，结合滑窗法将前景区域分割成等大小的图像块，如图2中(b)所示。

1.2利用卷积神经网络(CNN)提取上述图像块的特征，并记录特征在全切片图像中的行列位置，形成特征方阵，如图2中(c)所示。该卷积神经网络包括但不限于ResNet，EfficientNet、DenseNet，网络的训练方法包括但不限于：ImageNet数据集与训练、病理图像数据集有监督、弱监督或自监督训练。优选的，建议采用病理图像数据集自监督训练的EfficientNet-b0结构，该结构包含参数量远小于其他网络结构，同时所提特征有更高的辨识度。

1.3将特征排列为二维特征矩阵，表示为

其中n_p表示组织区域被分割成图像块的数量，d_f表示CNN提取特征的维数，如图2中(d)所示。

2.组织区域锚点生成与掩码创建

2.1将滑窗特征提取所得图像块特征x_i在全切片图像中的行列位置记作p(x_i)＝(m_i,n_i)^T，m表示行、n表示列。将切片中所有图像块的位置数据记作集合P＝{p(x_i),i＝1,2,…,n_p}。利用kmeans算法将P中的点聚为K类，得到K个聚类中心，进而对每个聚类中心，在上述集合P中选定距离其最近的点作为一个锚点(Anchor)使用，所有锚点数据记为集合C＝{c_k＝(m_k,n_k),k＝1,2…,K}，如图2中(f)所示。锚点数量为K，与聚类中心数量相同。

2.2计算每个锚点位置与图像块位置之间的距离权重，用到公式：

其中，e表示自然底数，δ为类高斯模型的尺度参数，用于控制掩码的作用范围，m_ki(δ)表示第k个锚点和第i个图像块在尺度参数δ下的距离权重。p(x_i)表示图像块x_i在病理全切片图像中的行列位置；c_k表示第k个锚点的位置。将m_ki(δ)排列为矩阵

作为锚点位置掩码使用，掩码示意图见图2中(g)。为了便于表述，将多层次掩码表示为集合M＝{M⁽ⁿ⁾＝M(δ_n),n＝1,2…,N}，其中N表示掩码层级的数量，此处n取值为1到N。如图3所示，为包含N＝4尺度的掩码示例图，其中

表示每个掩码覆盖图像块的数量期望，例如可设定

3.核注意力网络构建

核注意力网络(Kernel attention Transformer,KAT)结构如图4所示，其主体结构由层归一化(LayerNorm)、核注意力模块(KAmodule)、前馈网络(Feed Forward)堆叠而成。

KAT以上述步骤1.3的特征矩阵X和步骤2.2的掩码集合M为输入；另外针对上述步骤2.1集合C中的每个锚点位置建立核(kernel)向量，创建矩阵

并利用神经网络中常用初始化方法对其进行随机初始化，后在网络训练过程中作为可选连参数持续优化，并在训练后的推理阶段保持不变；同时创建用于分类节点

和位置编码

基于以上输入，核注意力模块的计算流程可分为以下三步：

3.1信息收集过程

该过程中，各锚点位置通过交叉注意力计算收集其近邻区域的信息，用公式表示为：

其中，

为可训练参数，⊙表示哈达玛内积运算，

表示温度系数，smax表示行softmax函数。特别地X⁽⁰⁾＝σ(W^peX^T+b^pe)+D，其中σ表示全连接神经网络的激活函数,W^pe和b^pe为该层网络的可训练参数。

3.2信息分发过程

该过程中，各锚点将综合后的信息分发给其近邻的区域，用公式表示为：

M^T(n)表示M⁽ⁿ⁾的转置；

3.3信息汇总过程

该过程中，各锚点将信息发送给分类节点，用于形成全切片图像的表征，用公式表示为：

KAT网络在N次堆叠后，将分类节点对应的输出r作为全切片图像的整体表征使用，在其后建立分类层即可实现全切片图像的分类，用到公式

z＝smax(W^zr+b^z) (5)

其中,W^z和b^z为该层网络的可训练参数。

为了便于表述，将KAT网络的计算过程表示为：

z＝KAT(X,M) (6)

4.网络的训练和推理

4.1通过上述步骤1-2的流程将训练集中的数字病理全切片图像转化为特征X和锚点掩码M，将训练集中第i张全切片图像的特征和掩码表示为X_i和M_i，则第i张全切片图像经KAT网络的过程可以表示为：

以子宫内膜癌病理切片图像分类为例，令数据集中第i张子宫内膜癌全切片图像类别标签为y_i，其中y_i∈{0,1,2,3,4}，0～4分别代表：良性子宫肿瘤、高分化子宫内膜腺癌、中分化子宫内膜腺癌、低分化子宫内腺癌、浆液性子宫内膜癌，则KAT网络的训练可在z_i与y_i交叉熵损失约束下，通过端到端训练完成。具体训练方法和Vit等模型相同，此处不再赘述。

5.网络训练完成后可利用上述步骤1-3的流程实现对新采集的数字病理全切片图像的分类，从而实现肿瘤的辅助诊断。

本发明提供的基于核注意力网络的病理全切片图像分类方法，在子宫内膜癌病理数据集(共有2650张切片，包含良性子宫肿瘤、高分化子宫内膜腺癌、中分化子宫内膜腺癌、低分化子宫内腺癌、浆液性子宫内膜癌5种类型)，以及胃癌数据集(共有2040张切片，包炎症、低级别上皮内瘤变、高级别上皮内瘤变、中分化腺癌、印戒细胞癌、粘液腺癌6种类型)中进行了验证。在采用BYOL自监督学习方法训练的EfficientNet-b0网络作为特征提取器时，KAT网络对子宫内膜癌核胃癌亚种分类的精度以及与其他方法比结果如表1和表2所示，其中第一列Vit模型表示Google提出的Vision Transformer图像分类模型、Nystromformer模式是基于Vit模型提出的一个自注意力线性近似模型、PatchGCN模型是基于全切片图像分块构造图卷积网络的图像分类模型、TransMIL模型是以Nystromformer为骨干结构，结合了病理图像空间近邻关系的图像分类模型、LAGE-Net模型是综合考虑全切片图结构和组织边缘距离信息的图像分类模型)，第二列为分类的平均精度(Average precision)，第三列为各类受试者工作特征曲线下面积(Area under receiver operating characteristiccurve,AUC)的宏观平均值，第四列为AUC的微观平均值，第五列为使用GPU进行计算时每秒钟能够处理的切片数量，表中指标越高代表模型性能越好。由结果可见本发明基于KAT的分类方法在两个数据集上的绝大多数指标超过其他对比方法，同时保持了较高的分类精度和推理速度。该结果证明了本发明的方法先进性，其在该领域有广泛的应用价值和商业价值。

表1子宫内膜癌病理全切片数据集5分类指标对比

表2胃癌病理全切片数据集6分类指标对比

方法名称	平均精度	MacroAUC	MicroAUC	推理速度(切片/秒)
					Vit	0.765	0.780	0.938	33.3
Nystromformer	0.819	0.784	0.935	71.7
					PatchGCN	0.797	0.810	0.939	15.7
TransMIL	0.824	0.791	0.944	64.7
					LAGE-Net	0.775	0.814	0.951	28.9
KAT(本发明)	0.819	0.855	0.955	61.2

本发明提供的基于核注意力网络的病理全切片图像分类方法，可解决现有框架的不足、并解决无法准确分析病理全切片图像的问题；通过提升模型对组织病理全切片图像结构的描述能力，进而提高下游肿瘤分级分类任务的精度和速度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于核注意力网络的病理全切片图像分类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于核注意力网络的病理全切片图像分类方法，其特征在于，利用卷积神经网络结合滑窗法分块提取病理肿瘤数据集中的病理全切片图像底层特征，组成图像特征矩阵；包括：

将所述特征方阵进行重排，获得二维特征矩阵，表示为

3.根据权利要求2所述的一种基于核注意力网络的病理全切片图像分类方法，其特征在于，所述卷积神经网络包括：ResNet，EfficientNet和DenseNet；所述卷积神经网络的训练方法包括：

1)采用ImageNet数据集训练；

2)采用病理图像数据集有监督、弱监督和/或自监督训练。

4.根据权利要求2所述的一种基于核注意力网络的病理全切片图像分类方法，其特征在于，根据所述滑窗法提取所述病理全切片的图像块特征，利用kmeans算法进行特征位置聚类，获得锚点掩码集合；包括：

将滑窗法获得的图像块x_i在病理全切片图像中的行列位置记作p(x_i)＝(m_i，n_i)^T，将切片中所有图像块的位置数据记作集合P＝{p(x_i)，i＝1，2，...，n_p}；

对每个聚类中心在所述集合P中选定聚类其最近的点作为一个锚点使用；获得所有锚点集合C＝{c_k＝(m_k，n_k)，k＝1，2...，K}；

5.根据权利要求4所述的一种基于核注意力网络的病理全切片图像分类方法，其特征在于，计算每个锚点位置与图像块位置直径的距离权重，采用如下公式：

称为锚点位置掩码，将多层次掩码表示为集合M＝{M⁽ⁿ⁾＝M(δ_n)，n＝1，2...，N}，其中N表示掩码层级的数量。

6.根据权利要求5所述的一种基于核注意力网络的病理全切片图像分类方法，其特征在于，将所述图像特征矩阵和锚点掩码集合作为所述核注意力网络的输入，所述核注意力模块的计算过程包括：

其中，

smax表示行softmax函数；X⁽⁰⁾＝σ(W^peX^T+b^pe)，其中σ表示全连接神经网络的激活函数，W^pe和b^pe表示该层网络的可训练参数；

表示核特征，由随机初始化获得的可训练参数组成；

M^T(n)表示M⁽ⁿ⁾的转置；