CN114188020A

CN114188020A - 一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法

Info

Publication number: CN114188020A
Application number: CN202111483944.5A
Authority: CN
Inventors: 丁鑫; 廖雪洪; 余淑琦; 王连生; 王志华
Original assignee: Zhongshan Hospital Xiamen University
Current assignee: Zhongshan Hospital Xiamen University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-15

Abstract

本发明公开了一种基于Transformer‑MIL的甲状腺乳头状癌淋巴结转移预测方法，该方法包括以下步骤：S1、利用轻量级ViT网络提取WSI中patch的特征；S2、采用基于聚类的策略选择关键性patches；S3、构建Transformer‑MIL模型，通过多头自注意机制从多个方面学习实例之间的关系，将实例级特征嵌入到包表示中；S4、结合甲状腺乳头状集和淋巴结转移数据集，通过互知识蒸馏帮助Transformer‑MIL模型学习预测淋巴结转移；该发明通过构建Transformer‑MIL模型，更好地将实例级特征嵌入到包表示中，并充分利用了肿瘤细胞和淋巴结转移细胞之间的形态学相似性，以注意力图为媒介传递两个数据集之间的关系知识，从而提高了淋巴结转移组织病理学图像的预测准确性。

Description

一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法

技术领域

本发明涉及生物技术领域，具体涉及一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法。

背景技术

对于癌症患者，淋巴结转移决定了他们淋巴结清扫的范围，也是主要的独立预后因素之一。术前准确预测癌症患者的淋巴结状态，对避免过度治疗，减少术后并发症具有重要意义。多项研究表明，术前CT影像组学有助于实现癌症患者淋巴结状态的个体化预测，但这些研究往往利用的是肿瘤影像组学特征或结合少量临床病理特征，如CT报告中的淋巴结状态、血清生物标志物、TNM分期等。

随着组织病理学图像分析成为肿瘤诊断的重要手段，越来越多的基于多实例学习的组织病理学图像分析算法被提出。然而，现今在组织病理学图像领域有效地部署MIL仍然是一个具有挑战性的问题，目前提出的MIL方法通常基于实例预测选择多个分数最高和最低的实例，但在组织病理学图像分析任务中，阳性和阴性patches数量极不平衡，这导致标准多实例(SMI)假设不能得到满足，根据预测分数选择的极端实例不能很好地代表WSI。

发明内容

本发明提供了一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，该方法通过构建Transformer-MIL模型，更好地将实例级特征嵌入到包表示中，并充分利用了肿瘤细胞和淋巴结转移细胞之间的形态学相似性，以注意力图为媒介传递两个数据集之间的关系知识，从而提高了淋巴结转移组织病理学图像的预测准确性。

为实现上述目的，本发明采用以下技术方案：

一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，该方法包括以下步骤：

S1、利用轻量级ViT网络提取WSI中patch的特征；

S2、采用基于聚类的策略选择关键性patches；

S3、构建Transformer-MIL模型，通过多头自注意机制从多个方面学习实例之间的关系，将实例级特征嵌入到包表示中；

S4、结合甲状腺乳头状集和淋巴结转移数据集，通过互知识蒸馏帮助Transformer-MIL模型学习预测淋巴结转移。

优选地，步骤S1的具体过程为：

S11、将WSI切割成512×512的非重叠patches，并移除没有组织细胞的patches；

S12、降低ViT特征提取器的深度和维度，得到轻量级的特征提取器Tiny-ViT并对其进行训练；

S13、通过训练好的特征提取器Tiny-ViT将大小为512×512的patches提取为312维的特征向量。

优选地，步骤S2的具体过程为：

S21、通过K-means聚类算法将WSI中的所有patch级特征聚类为10个类别；

S22、根据每个类别中的patches数量与patches总数的比例，总共提取200个patch级特征代表slide级特征。

优选地，步骤S3的具体过程为：

S31、构建由聚类嵌入模块、Transformer编码器和分类头三部分组成的Transformer-MIL模型；

S32、聚类嵌入模块按照类别重新排列patches；

S33、将重新排列的patches输入到Transformer编码器之前，将所有类别合并在一起；

S34、对于Transformer编码器，使用N个重复的编码器模块将200个实例级特征嵌入到包表示中。

优选地，步骤S34中每个所述编码器模块由一个多头自注意力模块MHA、一个具有残差连接的前馈网络FFN和两层归一化LN层组成，即:

Block(X_i)＝A+FFN(LN(A))

A＝X_i-1+MHA(LN(X_i-1))

其中，X_i是第i个编码器块后的特征映射，X₀是聚类嵌入后的200个实例级特征向量，将一个可学习模块嵌入用作分类标记；所述编码器模块中的多头自注意力模块通过多次使用key-value attention来实现嵌入，其定义如下：

MHA(Q，K，V)＝Concat(Head₁，…，Head_M)W^O

其中，映射是参数矩阵

d_model是Transformer-MIL模型的特征嵌入维度；Q、K和V是一组查询、键和值的矩阵，M是注意头的数量，d_k是键和查询的维度，d_V是值的维度；在获得包的表示之后，通过由两个隐藏层组成的多层感知机MLP将其映射到最终预测。

优选地，步骤S4的具体过程为：

S41、将两个具有相同结构的Transformer-MIL模型分别在甲状腺乳头状癌数据集和甲状腺乳头状癌的淋巴结转移数据集上训练，其中每个Transformer-MIL模型只接受一类数据集的标签的直接监督；

S42、在训练过程中，每个网络不仅显式地从当前数据集中获取知识，而且隐式地从另一个数据集中吸收知识；

S43、通过步骤S42中相互学习模式，Transformer-MIL模型以显式和隐式的方式探索包的嵌入；

S44、将实例级特征嵌入为包的表示后，通过由两个隐藏层组成的多层感知机MLP预测淋巴结转移。

优选地，步骤S43中对于显式学习，通过计算模型生成的预测和输入标签的类加权交叉熵损失获得更新梯度，即：

L_t→t＝β₀(1-y^t)log(1-p^tt)+β₁y^tlog(p^tt)

L_l→l＝β₀(1-y^l)log(1-p^ll)+β₁yⁱlog(p^ll)

其中，y^t和y^l分别是甲状腺乳头状癌数据集和淋巴结转移数据集的标签，p^tt是输入甲状腺乳头状癌数据集mod el^t的预测概率，p^ll是输入淋巴结转移数据集mod el^l的预测概率；在甲状腺乳头状癌数据集和淋巴结转移数据集中，标签为0的数据多于标签为1的数据，将类别权重[β₀,β₁]添加到损失计算中。

优选地，步骤S43中对于隐式学习，仅对Transformer-MIL模型的前两个编码器块应用知识蒸馏，即：

其中，

是由mod el^t中的第i个编码器块对输入的淋巴结转移数据集生成的注意力图，

是由mod el^l中的第i个编码器块对输入的淋巴结转移数据集生成的注意力图；从两个模型的注意图中计算均方误差MSE损失，从淋巴结转移数据集中得到mod el^t学习的知识L_l→t，L_t→l同理；

训练整个框架的总目标为：

L_t＝(1-α)L_t→t+αL_l→t

L_l＝(1-α)L_l→l+αL_t→l

其中，α是蒸馏损失的权重，在训练过程中，通过计算L_t和L_l同时更新L_t→l和model^l。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明提供一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，首先提出了一个高效的Transformer引导的组织病理学图像淋巴结转移预测框架，该框架有助于patch级特征提取、关键性patch选择和patch聚合，并优于其他最近的WSI预测方法；接着，提出了基于Tiny-ViT和聚类的实例选择方法，这种组合不仅可以从WSI中选择具有代表性的patches，而且可以大大节省特征提取器的训练和推理时间；然后，提出了一种具有创新性的ES-MIL方法，即Transformer-MIL模型，通过多头自注意机制从多个方面学习实例之间的关系，从而更好地将实例级特征嵌入到包表示中；最后，提出了互知识蒸馏AMKD，充分利用了肿瘤细胞和淋巴结转移细胞之间的形态学相似性，以注意力图为媒介传递两个数据集之间的关系知识，从而提高了淋巴结转移组织病理学图像的预测准确性。

附图说明

图1为本发明的流程框图；

图2为本发明的关键性patch选择、Transformer-MIL聚合和基于注意力的互知识蒸馏的流程示意图，其中，n是WSI中包含组织信息的patches数量，k是关键性的patch级特征向量的数量；

图3为本发明的Transformer-MIL模型的结构示意图；

图4为本发明的基于注意力的互知识蒸馏中隐式学习的结构示意图；

图5为本发明的混淆矩阵分析图；

图6为本发明的基于聚类的实例选择方法选择的关键性patch图；

图7为本发明的预测分数最高的前10个patch图；

图8为本发明的使用不同的特征提取器在WSI中对结果进行聚类(聚为10类)，其中，(a)来自淋巴结转移数据集的WSI，(b)癌区预测，(c)Tiny-ViT的聚类结果，(d)ResNet18的聚类结果，(e)ResNet50的聚类结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实例仅仅用以解释本发明，并不用于限定本发明。

在本发明中需要说明的是，术语“上”“下”“左”“右”“竖直”“水平”“内”“外”等均为基于附图所示的方位或位置关系，仅仅是为了便于描述本发明和简化描述，而不是指示或暗示本发明的装置或元件必须具有特定的方位，因此不能理解为对本发明的限制。

实施例

如图1至图8所示，本发明公开了一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，该方法包括以下步骤：

S1、利用轻量级ViT网络提取WSI中patch的特征；

步骤S1的具体过程为：

S13、通过训练好的特征提取器Tiny-ViT将大小为512×512的patches提取为312维的特征向量；

S2、采用基于聚类的策略选择关键性patches；

步骤S2的具体过程为：

S22、根据每个类别中的patches数量与patches总数的比例，总共提取200个patch级特征代表slide级特征；

步骤S3的具体过程为：

S32、聚类嵌入模块按照类别重新排列patches；

S34、对于Transformer编码器，使用N个重复的编码器模块将200个实例级特征嵌入到包表示中；

步骤S34中每个所述编码器模块由一个多头自注意力模块MHA、一个具有残差连接的前馈网络FFN和两层归一化LN层组成，即:

Block(Xi)＝A+FFN(LN(A))

A＝X_i-1+MHA(LN(X_i-1))

MHA(Q，H，V)＝Concat(Head₁，…，Head_M)W^O

其中，映射是参数矩阵

d_model是Transformer-MIL模型的特征嵌入维度；Q、K和V是一组查询、键和值的矩阵，M是注意头的数量，d_k是键和查询的维度，d_V是值的维度；在获得包的表示之后，通过由两个隐藏层组成的多层感知机MLP将其映射到最终预测；

S4、结合甲状腺乳头状集和淋巴结转移数据集，通过互知识蒸馏帮助Transformer-MIL模型学习预测淋巴结转移；

步骤S4的具体过程为：

步骤S43中对于显式学习，通过计算模型生成的预测和输入标签的类加权交叉熵损失获得更新梯度，即：

L_t→t＝β₀(1-y^t)log(1-p^tt)+β₁y^tlog(p^tt)

L_l→l＝β₀(1-y^l)log(1-p^ll)+β₁y^llog(p^ll)

其中，y^t和y^l分别是甲状腺乳头状癌数据集和淋巴结转移数据集的标签，p^tt是输入甲状腺乳头状癌数据集mod el^t的预测概率，p^ll是输入淋巴结转移数据集mod el^l的预测概率；在甲状腺乳头状癌数据集和淋巴结转移数据集中，标签为0的数据多于标签为1的数据，将类别权重[β₀,β₁]添加到损失计算中；

步骤S43中对于隐式学习，仅对Transformer-MIL模型的前两个编码器块应用知识蒸馏，即：

其中，

训练整个框架的总目标为：

L_t＝(1-α)L_t→t+αL_l→t

L_l＝(1-α)L_l→l+αL_t→l

其中，α是蒸馏损失的权重，在训练过程中，通过计算L_t和L_l同时更新L_t→l和model^l；

实验对比评估：

数据集以及实验设置

本文收集了病理科595例甲状腺乳头状癌的淋巴结转移病例，此研究已获得医院机构伦理审查委员会的批准，并获得患者的同意。用苏木精和曙红对每个病例的切片进行染色，并用扫描仪(EasyScan 102，Motic，中国)以20倍的放大率和0.5um/pixel的分辨率进行扫描。每张幻灯片图像都附有阳性或阴性的标签。阳性和阴性病例分别为210例和385例。为了训练特征提取器，80例WSIs由一位有10年经验的病理学家用多边形轮廓标注，该轮廓环绕癌区。然后，对剩余的515张WSI进行五折交叉验证，以评估本发明基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法。对于相关的甲状腺乳头状癌的WSI，还收集了相对较多的数据，包括687例，病理学家还注释了80个WSI的癌区，以训练特征提取程序。

在特征提取器的训练阶段，将癌症区域标注的WSIs划分为大小为512×512pixels的patches，并根据癌症区域的标注得到patch级别的标签。

将这些patches随机分为训练集和测试集，以评估patch级分类器的准确性。淋巴结转移的训练集和测试集的patches数分别为310000和51200。

实现细节

使用PyTorch库在Python中实现了整个流水线，包括实例级特征提取器Tiny-ViT、基于Transformer的完全可训练嵌入式MIL模型Transformer-MIL和基于注意力的互知识蒸馏AMKD。将patches的大小调整为224×224pixels，并使用Adam优化器用于训练Tiny-ViT和Transformer-MIL。为了解决slide分类阶段的类别不平衡问题，计算了类加权交叉熵损失，以避免在模型训练中忽略WSI较少的类。

评价指标

在实验中，使用接受者工作特征曲线下的面积(ROCAUC)以及精确率、召回率和F1分数来评估本发明基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法和其他先进方法的性能。具体而言，这些指标定义为：

其中，TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性,ROCAUC在比较不同方法的性能时更为全面。

表1：本发明基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法和其他先进方法的比较结果

model	ROCAUC	Precision	Recall	F1 score
					MAXMIN-Layer	91.18	79.01	82.23	80.49
GCN	92.70	93.60	80.27	86.06
					Attention-MIL	94.76	81.02	84.27	82.59
GatedAttention-MIL	94.83	80.50	86.07	83.13
					DeepAttnMISL	94.85	84.22	85.94	85.02
RNN	95.60	89.30	82.74	85.89
					DSMIL	95.74	85.18	97.71	85.88
Transformer-MIL	97.20	88.05	89.91	88.94
					Transformer-MIL(AMKD)	98.42	95.82	92.05	93.64

表1展示了本发明基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法和其他先进方法的比较，其他先进方法包括MAXMIN-Layer，GCN，Attention-MIL，GatedAttention-MIL，DeepAttnMISL，RNN，DSMIL。从表中可以看出，本发明基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法优于其他先进方法。

MAXMIN-Layer是Courtiol等人提出的IS-MIL方法。根据特征提取器生成的实例级预测，选择了几个具有最大和最小预测分数的patches，然后将实例级预测合并输入到全连接网络，得到slide级预测结果。与其他方法相比，MAXMIN-Layer的预测效果最差，ROCAUC仅为91.18％。这是因为MAXMIN-Layer没有使用低维实例级特征向量，并且在学习过程中没有适当注意不同的实例。Zhao等人将实例作为图节点，计算实例之间的欧氏距离作为图中的边缘信息，并通过图卷积网络(GCN)将实例特征嵌入到包的表示中，与使用注意机制学习实例之间的关系相比，该方法通过判断欧几里德距离来确定实例之间的关系是有限且不灵活的。Attention-MIL和GatedAttention-MIL是基于Ilse等人提出的注意力模块和门控注意力模块的ES-MIL，在学习复杂关系时，注意力模块中的非线性tanh(·)不是有效的，因此增加了门控机制来提高学习复杂关系的能力。Yao等人提出的DeepAttnMISL设计了一个孪生MI-FCN网络，该网络提取每个簇的特征向量作为簇的特征向量，然后使用注意模块为簇的特征向量分配权重，该方法利用同一簇特征向量的相似性，将注意力模块的输入从大量的实例级特征向量转换为多个簇级特征向量，使注意力模块发挥更好的作用。与三种模型中使用的注意力模块相比，Transformer-MIL中使用的多头自注意力模块能够更有效地捕捉输入实例中远距离相互依赖的特征，因此在多实例学习任务中比GatedAttention-MIL和Attention-MIL获得更好的效果。尽管RNN也可以捕获长距离相互依赖的特征，但需要根据序列顺序进行计算，并且可以通过多步骤信息积累将两者联系起来。随着距离的增加，有效捕获的概率会降低。Li等人提出的DSMIL首先通过最大池化选择癌变可能性最大的实例作为关键实例，然后通过计算其他实例与关键实例之间的距离来获得分配给该实例的权重，最后结合这两种方法给出了包级预测。除了本发明提出的Transformer-MIL外，DSMIL在所有其他先进方法中表现最好，ROCAUC为95.74％。从表1可以看出，即使没有AMKD，本发明提出的Transformer-MIL仍然达到最佳性能，ROCAUC高达97.20％。使用AMKD后，Transformer-MIL的ROCAUC从原来的增加到98.42％。

此外，为了更全面地进行比较，在图5显示了一些方法的混淆矩阵。可以看出，本发明提出的Transformer-MIL(AMKD)方法明显优于其他方法。

方法分析

关键性实例选择的定性评价

图6显示了基于聚类选择的10个关键性patches(每类一个patch)。K-means聚类模块从多个方面将patch级特征向量划分为10类，从而使所选patches更加多样化。相比之下，根据预测分数选择的patches分布是极端的，不能很好地代表整个WSI，如图7所示。在基于预测的实例选择方法中，为了选择更具鉴别能力的patches，往往需要花费大量资源来训练一个分类精度较高的特征提取器。实验表明，在基于聚类的实例选择方法中，由于过于注重patch的标签，分类精度高的特征提取器不利于选择有鉴别能力的patches。因此绘制了由不同特征提取器提取的patch级特征的聚类结果，如图8所示。ResNet50具有最高的patch级预测精度，提取的patch级特征聚类后主要分为两类，其中一类与癌区非常相似。随着特征抽取器的patch级预测精度的降低，其聚类分布将变得更加均衡。Tiny ViT的patch级预测精度最低，但提取的patch级特征的聚类分布最均衡。对于均衡的聚类分布，基于聚类的实例选择所选择的patches将更加多样化。对于不平衡的聚类分布，基于聚类的实例选择和基于预测的实例选择得到的patches是相似的。综上所述，基于聚类的实例选择不仅可以选择各种具有代表性的patches，而且不依赖于高精度的特征提取器。

轻量级特征提取器Tiny-ViT的效率

表2：特征提取器的消融实验

model	FLOPs	params	Acc_P	AUC_S	F1score
						Tiny-ViT	0.968G	4.972M	86.44	97.20	88.94
ResNet18	1.820G	12.407M	90.44	95.82	90.11
						ResNet50	4.112G	26.311M	91.50	95.03	83.11

为了进一步证明轻量级特征提取器Tiny-ViT的有效性，选择了ResNet18、ResNet50和Tiny-ViT作为特征提取器，研究ES-MIL方法的预测结果与特征提取器复杂度之间的关系。通过实验发现，预测精度较高的特征提取器提取的patch级特征在输入Transformer-MIL后，其slide分类精度较差。如表2所示，ResNet50的Acc_P(patch级别分类精度)明显高于ResNet18和Tiny-ViT。然而，当不同特征提取器提取的特征输入到Transformer-MIL中时，发现ResNet50提取的patch级特征的AUC_S(slide级ROCAUC)最差。结合图8所示的三种特征提取器提取的特征聚类结果，与其他特征提取器相比，Tiny-ViT在特征提取过程中极大地保留了patches的原始特征，因此本发明中的Tiny-ViT可以达到更佳的性能效果。

利用相关数据集的有效性

表3：知识蒸馏方法的消融实验

KDmethod	ROCAUC	Precision	Recall	F1score
					AKD	98.04	94.11	90.93	92.30
AMKD	98.42	95.82	92.05	93.64
					PMKD	97.31	93.08	90.42	91.64

除了基于注意力的互知识蒸馏(AMKD)之外，本发明还实现了单向的基于注意力的知识蒸馏(AKD)和基于预测的互知识蒸馏(PMKD)。因为本发明的任务是预测甲状腺乳头状癌的淋巴结转移，在AKD中，只有mod el^l从mod el^t中获得隐式知识。如表3所示，AKD在ROCAUC上比AMKD低0.40％。虽然本发明的任务是预测淋巴结转移，但在单向知识蒸馏中，mod el^l同时学习了甲状腺乳头状癌及其淋巴结转移的两个分类任务，而mod el^t只学习了甲状腺乳头状癌的分类，这将削弱两个模型之间的知识相关性，不能更好地提高分类效果。在PMKD中，本发明使模型相互学习最终的预测，以获得隐式知识。在这三种方法中，PMKD对Transformer-MIL的提升是最弱的，因为与从注意力图获得的patch关系知识相比，仅从预测结果获得的知识非常有限。

表4：知识蒸馏数据集的消融实验

KD dataset	ROCAUC	Precision	Recall	F1 score
					PTC	98.42	95.82	92.05	93.64
PCam	97.98	93.32	91.51	92.32

此外，为了验证“原发肿瘤中癌细胞形态与淋巴结转移相似”这一独特病理关系的作用，本发明选择了公共胃癌组织病理学图像数据集(PCam)和甲状腺乳头状癌数据集(PTC)进行消融实验。如表4所示，使用胃癌数据集辅助训练的模型在ROCAUC上仅增加了0.78\％，而使用甲状腺乳头状癌数据集辅助训练的模型在ROCAUC上增加了1.22\％。可见，这种病理关系在AMKD中起着重要作用。

综上所述，本发明提出了一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，用于检测甲状腺乳头状癌的淋巴结转移。首先，提出了一种新的关键性patch选择策略，即轻量级特征抽取器Tiny-ViT和基于聚类的实例选择策略，可以选择更多样化、更具代表性的patches进行slide的嵌入，大大节省了训练资源。然后，提出了一个基于Transformer的多实例学习模型Transformer-MIL，它是一个完全可训练的ES-MIL模型。最后，提出了基于注意力的互知识蒸馏(AMKD)，使模型能够从另一个相关数据集中学习隐式知识。在评估过程中，本发明的方法在测试集上达到98.42％的ROCAUC，与其他先进的方法相比，本发明的方法表现出优异的性能，这表明本发明可为未来的组织病理学图像分析提供了一种更有效的多实例学习方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，其特征在于，该方法包括以下步骤：

S1、利用轻量级ViT网络提取WSI中patch的特征；

S2、采用基于聚类的策略选择关键性patches；

2.如权利要求1所述的基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，其特征在于，步骤S1的具体过程为：

3.如权利要求2所述的基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，其特征在于，步骤S2的具体过程为：

4.如权利要求3所述的基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，其特征在于，步骤S3的具体过程为：

S32、聚类嵌入模块按照类别重新排列patches；

5.如权利要求4所述的基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，其特征在于，步骤S34中每个所述编码器模块由一个多头自注意力模块MHA、一个具有残差连接的前馈网络FFN和两层归一化LN层组成，即:

Block(X_i)＝A+FFN(LN(A))

A＝X_i-1+MHA(LN(X_i-1))

MHA(Q，K，V)＝Concat(Head₁，…，Head_M)W^o

其中，映射是参数矩阵

6.如权利要求5所述的基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，其特征在于，步骤S4的具体过程为：

7.如权利要求6所述的基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，其特征在于，步骤S43中对于显式学习，通过计算模型生成的预测和输入标签的类加权交叉熵损失获得更新梯度，即：

L_t→t＝-β₀(1-y^t)log(1-p^tt)+β₁y^tlog(p^tt)

L_l→l＝β₀(1-y^l)log(1-p^ll)+β₁y^llog(p^ll)

其中，y^t和y^l分别是甲状腺乳头状癌数据集和淋巴结转移数据集的标签，p^tt是输入甲状腺乳头状癌数据集model^t的预测概率，p^ll是输入淋巴结转移数据集model^l的预测概率；在甲状腺乳头状癌数据集和淋巴结转移数据集中，标签为0的数据多于标签为1的数据，将类别权重[β₀,β₁]添加到损失计算中。

8.如权利要求7所述的基于Transformer-MIL的甲状腺乳头状癌淋巴结转移预测方法，其特征在于，步骤S43中对于隐式学习，仅对Transformer-MIL模型的前两个编码器块应用知识蒸馏，即：

其中，

是由model^t中的第i个编码器块对输入的淋巴结转移数据集生成的注意力图，

是由model^l中的第i个编码器块对输入的淋巴结转移数据集生成的注意力图；从两个模型的注意图中计算均方误差MSE损失，从淋巴结转移数据集中得到model^t学习的知识L_l→t，L_t→l同理；

训练整个框架的总目标为：

L_t＝(1-α)L_t→t+αL_l→t

L_l＝(1-α)L_l→l+αL_t→l