CN117237733A - 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法 - Google Patents

一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法 Download PDF

Info

Publication number
CN117237733A
CN117237733A CN202311269042.0A CN202311269042A CN117237733A CN 117237733 A CN117237733 A CN 117237733A CN 202311269042 A CN202311269042 A CN 202311269042A CN 117237733 A CN117237733 A CN 117237733A
Authority
CN
China
Prior art keywords
full
encoder
supervision
breast cancer
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311269042.0A
Other languages
English (en)
Inventor
张建新
高程阳
孙鉴
丁雪妍
刘斌
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202311269042.0A priority Critical patent/CN117237733A/zh
Publication of CN117237733A publication Critical patent/CN117237733A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于自监督和弱监督方法相结合的多示例乳腺癌全切片病理图像分类方法,包括:该方法分为MoBY自监督对比学习和基于Transformer的弱监督多示例学习两个阶段。第一阶段,利用对比学习策略在大量无标签数据上进行训练。选择Swin Transformer作为骨干模型,通过自注意力机制和层次化的特征表示,更好地适应不同乳腺癌病理图像的变化和差异,初步学习乳腺癌病理图像的组织特征。第二阶段,利用第一阶段的权重初始化模型,采用多示例学习方法将每张全切片图像视为一个包,将生成的小切片视为包中的示例。通过多示例学习方法选择每张全切片图像中概率最大的Top‑n示例来优化模型,以降低类别不均衡产生的影响。然后将筛选出的关键示例通过Transformer编码器构建聚合器,以更有效地探索所选乳腺癌示例之间的相关性,并自适应地突出最独特的示例特征。

Description

一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法
技术领域
本发明涉及乳腺癌全切片病理图像分类领域,具体涉及一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法。
背景技术
组织病理学图像分析在临床乳腺癌诊断、预后分析和治疗反应预测方面具有重要意义。近年来,全切片病理图像的引入推动了深度学习技术在乳腺癌组织病理图像分析中的应用。
目前,基于深度学习的全切片图像分类方法面临两大主要挑战。首先,WSI具有极高的分辨率(100,000×100,000像素以上),无法直接输入深度学习模型。其次,细粒度手工标注成本较高,传统监督学习方法无法应对。基于多示例学习的弱监督学习方法和基于自监督学习的方法成为解决这些问题的有效方案。现有用于全切片病理图像分析的多示例学习方法可大致分为基于嵌入和基于示例的方法。然而,由于弱监督方法只能提供有限的监督信息,导致这些方法的性能受限。在基于嵌入的方法中,模型主要根据包级损失进行训练,因此在完成包级分类后,模型难以找到触发分类器的关键示例。而在基于关键示例的方法中,伪标签的选取可能存在错误,导致分类器性能不够稳定。此外,在针对全切片乳腺癌病理图像的自监督方法中存在严重类别不平衡的问题,即切分后的切片中阴性样本的数量远远超过阳性样本,导致现有的自监督模型更加偏向于阴性样本,无法有效地学习不同类别的特征。
发明内容
根据现有技术存在的问题,本发明公开了一种基于自监督和弱监督相结合的多示例乳腺癌全切片病理图像分类方法,具体包括如下步骤:
获取乳腺癌全切片病理图像数据集和其对应的全切片标签信息,将该数据集按一定比例划分为训练集、验证集和测试集;
对全切片病理图像进行预处理时,通过反阈值二值化操作生成图像前景组织区域的二进制掩模。利用区域阈值对检测到的背景区域进行过滤,仅保留近似轮廓,并从该区域中生成一系列不重叠的切片,用于模型的训练与验证;
通过融合自监督对比学习框架与弱监督多示例学习框架实现乳腺癌全切片病理图像的分类。第一阶段,以Swin Transformer为骨干模型,采用对比学习的策略进行特征提取。其中来自在线编码器采用梯度更新的方式进行更新参数;来自目标编码器采用动量更新的方式进行更新,其更新策略为:
θk←mθk+(1-m)θq
其中θk表示目标编码器,θq表示在线编码器,m为动量值,默认初始值为0.99。在训练中,使用点积运算来衡量不同样本的相似性。这是通过计算在线编码器生成的查询向量q与目标编码器中的编码向量队列K=[K1,K2,…,KN]之间的相关性来实现的。将相关性较高的样本作为正样本、相关性较低的样本作为负样本,以对比损失为目标,通过最小化正样本距离和最大化负样本距离,使模型能够自动学习有价值的特征表示,对比损失计算公式如下所示:
Lq为对比损失值,γ是温度系数,K是关键字队列的大小,ko表示来自正样本的目标特征,ki是关键字队列中的目标特征;
第二阶段中,利用一阶段最优权重初始化二阶段网络,然后采用弱监督多示例学习的方法从每张全切片图像中选取关键示例的特征,考虑特征的空间信息和切片之间的相关性,使用Transformer编码器自适应地聚集特征;在第二阶段,采用基于弱监督多示例学习的方法实现模型优化。通过图像块划分将输入图片分割成4×4的局部窗口,通过卷积操作或线性变换转换为固定维度的图像块向量,并为每个图像块向量添加位置编码以保留空间信息。将图像块向量输入到连续的Swin Transformer块中,实现窗口之间的信息传递,低分辨率窗口共享参数并与高分辨率窗口交互。其中连续的Swin Transformer块计算为:
经过多层Transformer编码器后,得到的特征表示通过全局池化层或全局平均池化层进行压缩,生成固定长度的特征向量。最后,通过Softmax函数将特征向量映射为预测类别的概率分布。据预测概率选择概率最大的示例作为具有代表性的示例,训练SwinTransformer模型。采用弱监督多示例学习方法训练得到的权重,用于预测每张全切片乳腺癌病理图像中阳性示例的概率。预测概率最高的前n个示例被选作Transformer编码器的输入。Transformer编码器的维度与N的数量相匹配。为了得到相应的查询向量(Query,Q)、键向量(Key,K)和值向量(Value,V),对输入特征向量进行线性投影,并通过与三个不同的权重矩阵进行点积运算。计算公式如下所示:
Q=WqX,K=WkX,V=WvX
使用注意力权重与对应的值向量相乘,计算输入向量的自注意力得分。具体计算公式如下所示:
通过自注意力模块,捕捉图像中不同区域之间的重要关联性。多头自注意力通过多个不同的线性变换被投影到多个不同的子空间中,在每个子空间上中分别计算关联权重,并将得到的加权表示进行拼接形成最终的表示:
MultiHead(Q,K,V)=Concat(SA1,...,SAh)Wo
其中Wo是投影矩阵,h表示特征空间的个数。经过上述Transformer编码器即可完成特征融合实现包级别分类。
将训练集中的切片数据输入到第一阶段模型中,对其进行训练和验证,并在每次迭代中进行网络参数的更新。根据验证集的结果,确定第一阶段编码器中的最佳权重。随后,利用这些最佳权重来初始化第二阶段模型,并使用数据包级标签来进一步优化第二阶段模型,并基于最优验证集精度保存第二阶段模型的最佳权重。
根据验证集中的最优权重,在测试集上对该两阶段模型的性能进行评估。
由于采用了上述技术方案,通过采用自监督和弱监督相结合的策略,本研究提出了一种基于多示例乳腺癌全切片病理图像分类方法。该方法利用自监督对比学习框架,充分利用未标注的病理图像切片内部结构信息。为了解决类别不平衡问题,进一步采用了基于多示例学习的弱监督方法对模型进行优化,以获得具备强大表征能力的示例级特征提取器。最后通过Transformer编码器加强所选示例之间的相关性,自适应地聚集关键示例特征,从而进一步提高了乳腺癌全切片病理图像分类准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图
图2为本发明中的全切片病理图像预处理流程图
图3为本发明中的模型总体结构图
图4为本发明中的自监督训练模型结构图
图5为本发明中的特征融合结构图
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的是一种基于自监督和弱监督相结合的多示例乳腺癌全切片病理图像分类方法,具体包括如下步骤:
S1:获取Camelyon-16乳腺癌全切片病理图像数据集和其对应的包级标签,该数据集用于检测苏木精和伊红(H&E)染色的乳腺癌淋巴结是否转移,共有399张全切片病理图像Dataset=[W1,W2,......,W399]。本方法中将该数据集以2:1:1的比例划分为训练集、验证集和测试集,训练集用于模型训练,验证集用于选取模型的最佳权重,测试集用于测试模型的性能;
S12:通过预处理方法逐切片进行筛选,去除其中的大量的背景区域,并从组织区域中生成一系列512×512大小的切片;
S13:将训练集中全部切片输入到自监督模型中进行训练,不使用任何标签;
S14:使用基于多示例学习的弱监督方法进一步调整自监督的模型,仅使用包级标签;
S15:从每张全切片图像中选取出n个概率最大的示例,输入到Transformer编码器中进行示例特征的融合;
S16:得到全切片图像的包级表示,并根据该结果不断更新编码器的参数。
S2:预处理过程如图2所示,读取全切片病理图像,对图像应用颜色空间转换函数,将其转换成灰度图;通过反阈值二值化操作为每一张全切片图像乳腺癌图像生成前景组织区域的二进制掩模。利用区域阈值对检测到的背景区域进行过滤,仅保留近似轮廓,并对该区域进行网格化的划分,生成一系列不重叠的切片,为了进一步减少计算量,本研究只保留组织区域占图像面积40%以上的切片,Wi=[Pi1,Pi2,......,Pin],其中n为每张全尺寸乳腺癌病理图像中切片的个数。
S3:模型整体架构如图3所示,通过采用自监督对比学习和基于多示例学习的弱监督方法相结合的策略,以获得具备强大表征能力的示例级特征提取器,并通过Transformer编码器加强所选示例之间的相关性,自适应地聚集关键示例特征,完成乳腺癌全切片病理图像的分类。
S31:将训练集中的全部切片输入到基于MoBY的自监督框架中进行训练,不使用任何标签。如图4所示,该框架采用对比学习策略,采用对比学习的策略进行特征提取。其中来自在线编码器采用梯度更新的方式进行更新参数;来自目标编码器采用动量更新的方式进行更新,其更新策略为:
θk←mθk+(1-m)θq
其中θk表示目标编码器,θq表示在线编码器,m为动量值,默认初始值为0.99。在训练过程中,作用在原始图像上,通过数据增强形成两张经过增强的新图像[x1,x2],两者互为正样本。训练时,同一批次内其它图像存入队列中,队列中的样本皆为x1或x2的负样本。在训练过程中,使用点积计算来度量正负样本相似性。这涉及在线编码器生成的查询向量q和目标编码器中的编码向量队列K=[K1,K2,…,KN]之间的相关性。具体公式如下所示:
Lq为对比损失值,γ是温度系数,K是关键字队列的大小,ko表示来自正样本的目标特征,ki是关键字队列中的目标特征;通过对比学习的策略将图片映射到某个投影空间,并在这个空间内拉近正例的距离,推远负例间的距离,以此来学习病理图像内部的结构信息。
S32:利用一阶段的自监督权重初始化二阶段网络的编码器,并利用基于多实例学习的弱监督模型使用包级标签进行进一步优化。具体而言,若该全切片图像被标记为阳性,则其中至少有一个被认为是阳性的切片;反之,全切片图像被标记为阴性,则认为其中所有切片都为阴性。在该模型中首先选择一些关键示例并为其分配包级伪标签,通过有监督的方式训练示例级分类器。然后通过迭代更新关键示例和分类器的伪标签来不断地训练特征提取器,最终通过全局平均池化生成切片的特征向量。
S33:通过使用Softmax函数计算全部示例为阳性的概率并对其进行排序,选取其中的概率最大的前n个关键示例Z=[Z1,Z2,......,Zn]代表该张全切片图像;
S34:如图5所示,将筛选出的关键示例作为Transformer编码器的输入,以加强特征的空间信息和切片之间的相关性,自适应地聚集特征形成包级特征向量。其中Transformer编码器的输入维度d为n。为了得到相应的查询向量(Query,Q)、键向量(Key,K)和值向量(Value,V),对输入特征向量进行线性投影,并通过与三个不同的权重矩阵进行点积运算。计算公式如下所示:
Q=WqX,K=WkX,V=WvX
使用注意力权重与对应的值向量相乘,计算输入向量的自注意力得分。具体计算公式如下所示:
通过自注意力模块,捕捉图像中不同区域之间的重要关联性。多头自注意力通过多个不同的线性变换被投影到多个不同的子空间中,在每个子空间上中分别计算关联权重,并将得到的加权表示进行拼接形成最终的表示:
MultiHead(Q,K,V)=Concat(SA1,...,SAh)Wo
其中Wo是投影矩阵,h表示特征空间的个数,共使用两个Transformer编码器模块,在每个块中,隐藏层维度设置为2048,h设为32。经过上述Transformer编码器即可完成特征融合实现包级别分类。
S4:使用Camelyon-16训练集中的全切片病理图像与包级标签对本网络进行迭代训练,该训练过程包括网络特征的前向传播和误差的反向传播。首先使用训练集来训练和验证第一阶段网络,并在每次迭代中更新网络参数。根据验证集的结果,确定第一阶段编码器的最优权重。接下来,采用这些最优权重来初始化第二阶段网络,并利用数据包级别的标签进一步调整和优化第二阶段网络。最终,根据验证集的最佳精度来保存第二阶段网络的最优权重。
S5:使用最优权重初始化本网络模型,在测试集上对两阶段乳腺癌全切片病理图像分类网络的性能进行评估。实施过程中,分别采用准确率(ACC)和曲线下面积(AUC)等指标来综合衡量本模型的性能。实验结果表明,与最先进的多示例学习方法相比,其在Camelyon-16数据集上展现出了较强的竞争力,ACC和AUC最高可到达为97.67%和96.94%。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法,其特征在于包括:
获取乳腺癌全切片病理图像数据集和其对应的全切片标签信息,将该数据集按一定比例划分为训练集、验证集和测试集;
对全切片病理图像数据集进行预处理,采用反阈值二值化方法生成图像前景组织区域的二进制掩模,利用区域阈值对检测到的背景区域进行过滤,仅保留近似轮廓,并从该区域中生成一系列不重叠的切片用于模型的训练与验证;
构建自监督对比学习框架与弱监督多示例学习框架相结合的两阶段乳腺癌全切片病理图像分类网络:第一阶段利用基于MoBY的对比学习框架充分学习无标签切片的特征信息;第二阶段采用弱监督多示例学习的方法从每张全切片图像中选取关键示例的特征,考虑特征的空间信息和切片之间的相关性,使用Transformer编码器自适应地聚集特征完成全切片病理图像的分类;
将训练集中的切片数据输入到第一阶段模型中,对其进行训练和验证,并在每次迭代中进行网络参数的更新,根据验证集的结果,确定第一阶段编码器中的最佳权重,利用最佳权重来初始化第二阶段模型,并使用数据包级标签来优化第二阶段模型,并基于最优验证集精度保存第二阶段模型的最佳权重;
根据验证集中的最优权重,在测试集上对该两阶段乳腺癌全切片病理图像分类网络的性能进行评估。
2.根据权利要求1所述的方法,其特征在于:在第一阶段,以Swin Transformer为骨干模型,采用对比学习策略进行特征提取,采用梯度更新的方式对在线分支的编码器进行更新参数,采用动量更新的方式对目标分支编码器进行更新,其更新策略为:
θk←mθk+(1-m)θq
其中θk表示目标编码器,θq表示在线编码器,m为动量值,默认初始值为0.99,在训练中,使用点积运算来衡量不同样本的相似性,这是通过计算在线编码器生成的查询向量q与目标编码器中的编码向量队列K=[K1,K2,…,KN]之间的相关性来实现的,将相关性较高的样本标记为正样本,较低的标记为负样本,然后使用对比损失来优化模型,这个过程旨在缩小正样本之间的距离,同时扩大负样本之间的距离,以帮助模型自动学习有价值的特征表示,对比损失的具体公式如下:
Lq为对比损失值,γ是温度系数,K是关键字队列的大小,ko表示来自正样本的目标特征,ki是关键字队列中的目标特征。
3.根据权利要求2所述的方法,其特征在于:在第二阶段,采用基于弱监督多示例学习方法对两阶段乳腺癌全切片病理图像分类网络进行优化,通过图片划分将输入图片分割成局部窗口,通过卷积操作或线性变换转换为固定维度的图像块向量,并为每个图像块向量添加位置编码从而保留空间信息,将图像块向量输入到连续的Swin Transformer块中从而对窗口之间的信息进行传递,低分辨率窗口共享参数并与高分辨率窗口交互,其中连续的Swin Transformer块计算为:
经过多层Transformer编码器后,得到的特征表示通过全局池化层或全局平均池化层进行压缩,生成固定长度的特征向量,通过Softmax函数将特征向量映射为预测类别的概率分布,据预测概率选择概率最大的示例作为具有代表性的示例,训练Swin Transformer模型。
4.根据权利要求3所述的方法,其特征在于:采用弱监督多示例学习方法训练得到的权重,用于预测每张全切片乳腺癌病理图像中阳性示例的概率,预测概率最高的前n个示例被选作Transformer编码器的输入,Transformer编码器的维度与输入维度相匹配,为了得到相应的查询向量(Query,Q)、键向量(Key,K)和值向量(Value,V),对输入特征向量进行线性投影,并通过与三个不同的权重矩阵进行点积运算,计算公式如下所示:
Q=WqX,K=WkX,V=WvX
使用注意力权重与对应的值向量相乘,计算输入向量的自注意力得分,具体计算公式如下所示:
捕捉图像中不同区域之间的重要关联性,多头自注意力通过多个不同的线性变换被投影到多个不同的子空间中,在每个子空间上中分别计算关联权重,并将得到的加权表示进行拼接形成最终的表示:
MultiHead(Q,K,V)=Concat(SA1,...,SAh)Wo
其中Wo是投影矩阵,h表示特征空间的个数,经过上述Transformer编码器完成特征融合实现包级别分类。
CN202311269042.0A 2023-09-27 2023-09-27 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法 Pending CN117237733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311269042.0A CN117237733A (zh) 2023-09-27 2023-09-27 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311269042.0A CN117237733A (zh) 2023-09-27 2023-09-27 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法

Publications (1)

Publication Number Publication Date
CN117237733A true CN117237733A (zh) 2023-12-15

Family

ID=89098146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311269042.0A Pending CN117237733A (zh) 2023-09-27 2023-09-27 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法

Country Status (1)

Country Link
CN (1) CN117237733A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476240A (zh) * 2023-12-28 2024-01-30 中国科学院自动化研究所 少样本的疾病预测方法及装置
CN117788836A (zh) * 2024-02-23 2024-03-29 中国第一汽车股份有限公司 图像处理方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476240A (zh) * 2023-12-28 2024-01-30 中国科学院自动化研究所 少样本的疾病预测方法及装置
CN117476240B (zh) * 2023-12-28 2024-04-05 中国科学院自动化研究所 少样本的疾病预测方法及装置
CN117788836A (zh) * 2024-02-23 2024-03-29 中国第一汽车股份有限公司 图像处理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109948693B (zh) 基于超像素样本扩充和生成对抗网络高光谱图像分类方法
CN110443818B (zh) 一种基于涂鸦的弱监督语义分割方法与系统
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
Peng et al. Self-paced joint sparse representation for the classification of hyperspectral images
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
Springenberg et al. Improving deep neural networks with probabilistic maxout units
CN113221641B (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN117237733A (zh) 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法
CN109766858A (zh) 结合双边滤波的三维卷积神经网络高光谱影像分类方法
CN112800876B (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN114821164A (zh) 基于孪生网络的高光谱图像分类方法
CN111783841A (zh) 基于迁移学习和模型融合的垃圾分类方法、系统及介质
CN109598220A (zh) 一种基于多元输入多尺度卷积的人数统计方法
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN112861915A (zh) 一种基于高级语义特征无锚框非合作目标检测方法
CN116704431A (zh) 水污染的在线监测系统及其方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN115410088A (zh) 一种基于虚拟分类器的高光谱图像领域自适应方法
CN114926693A (zh) 基于加权距离的sar图像小样本识别方法及装置
CN117078007A (zh) 一种融合尺度标签的多尺度风控系统及其方法
CN113887656B (zh) 一种联合深度学习与稀疏表示的高光谱图像分类方法
CN115661539A (zh) 一种嵌入不确定性信息的少样本图像识别方法
CN115410059A (zh) 基于对比损失的遥感图像部分监督变化检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination