CN115700794A - 基于四重级联域适应机制的组织病理学图像分类方法 - Google Patents

基于四重级联域适应机制的组织病理学图像分类方法 Download PDF

Info

Publication number
CN115700794A
CN115700794A CN202211437766.7A CN202211437766A CN115700794A CN 115700794 A CN115700794 A CN 115700794A CN 202211437766 A CN202211437766 A CN 202211437766A CN 115700794 A CN115700794 A CN 115700794A
Authority
CN
China
Prior art keywords
sample
source domain
domain
samples
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211437766.7A
Other languages
English (en)
Inventor
李勇明
徐晋
王品
颜芳
宋焱翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202211437766.7A priority Critical patent/CN115700794A/zh
Publication of CN115700794A publication Critical patent/CN115700794A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及生物医疗信息处理中的智能诊断技术领域,具体公开了一种基于四重级联域适应机制的组织病理学图像分类方法,通过搭建卷积神经网络进行特征迁移,综合卷积神经网络中不同深度提取的特征,构建八重异构样本空间,并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐,流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能,满足乳腺癌组织病理图像的分类要求,且具有较强的鲁棒性,自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入,具有较高的准确性和稳定性,在临床诊断中显示出巨大的潜力。

Description

基于四重级联域适应机制的组织病理学图像分类方法
技术领域
本发明涉及生物医疗信息处理中的智能诊断技术领域,尤其涉及基于四重级联域适应机制的组织病理学图像分类方法。
背景技术
乳腺癌是目前对女性健康危害最严重的疾病之一,其患病率超过8%,居于女性恶性肿瘤之首。由于确切的致病原因尚不清楚,乳腺癌的早期发现和诊断变得非常重要。尽早确诊不仅能够降低治疗成本和病程,更能有效地提高患者的存活率。现阶段,乳腺癌的诊断主要依赖专门的病理学家对组织病理图像的分析。然而,对组织病理学图片进行人工标注需要病理学家具有相当的经验,且存在耗时长,易误诊等缺陷。因此,计算机辅助诊断(CAD)成为病理学家缩短诊断时间、提高诊断敏感性和特异性的有效工具。
与传统的机器学习方法相比,卷积神经网络(CNN)能够从原始图像中挖掘和学习具有代表性和区分性的信息。它在医学图像诊断领域,特别是在组织病理学图像领域有着广泛的应用。但CNN的固有特性决定了它的训练需要大量的标记图像。带标签样本数量低将导致过拟合、泛化能力差等一系列问题。由于组织病理学图像的标记昂贵且难以获得,于是提出了利用有限的标记图像将信息从源域转移到目标域的迁移学习方法。其中领域自适应方法能够考虑两个领域之间的相似性,在不同的样本特征分布情况下完成分类任务。
尽管近期研究在细胞分类算法方面取得了进展,但由于组织病理学图像中细胞的不规则,重叠以及染色不均等问题,准确的分类仍然是一个挑战。此外,各种算法的性能还受到特征设计和选择的限制,大多只考虑网络中的高层特征,浪费了大量的细胞结构信息,表现欠佳。
发明内容
本发明提供基于四重级联域适应机制的组织病理学图像分类方法,解决的技术问题在于:如何综合利用卷积神经网络中不同深度的特征,以解决组织病理学图像分类问题。
为解决以上技术问题,本发明提供基于四重级联域适应机制的组织病理学图像分类方法,包括步骤:
S1、构建由正常和病变的组织病理学图像组成的样本数据库,并将所述样本数据库分为用于训练的源域训练样本和目标域训练样本,以及用于测试的测试样本,所述源域训练样本全部带有标签,所述目标域训练样本少部分带有标签;
S2、搭建卷积神经网络,并利用公开的图像数据集对其进行预训练,使其满足特征提取要求,得到预训练模型;
S3、将所述预训练模型作为特征提取层进行迁移,与四重级联域适应机制和新的全连接分类器重构为分类模型;
S4、利用所述源域训练样本和所述目标域训练样本对所述分类模型进行训练;
S5、利用所述测试样本对训练后的所述分类模型进行测试,获取预测结果。
进一步地,在训练过程中,所述步骤S3中的所述四重级联域适应机制描述为步骤:
S31、将所述源域训练样本和所述目标域训练样本输入所述预训练模型提取低阶、中阶和高阶特征并进行特征融合,得到源域融合样本FS和目标域融合样本FT
S32、对所述源域融合样本FS进行融合特征聚类得到源域融合聚类包络样本μS,并将所述源域融合聚类包络样本μS与所述源域融合样本FS进行聚类包络对齐得到源域融合对齐样本F′S
S33、对所述源域融合对齐样本F′S和所述目标域融合样本FT进行流形融合对齐,后进行流形投影,得到源域融合投影样本
Figure BDA0003943214320000021
和目标域融合投影样本
Figure BDA0003943214320000022
S34、对所述源域融合投影样本
Figure BDA0003943214320000031
进行融合投影特征聚类得到源域融合聚类投影样本
Figure BDA0003943214320000032
并将所述源域融合聚类投影样本
Figure BDA0003943214320000033
与所述源域融合投影样本
Figure BDA0003943214320000034
进行二次聚类包络对齐,得到源域融合投影对齐样本
Figure BDA0003943214320000035
S35、将所述源域融合投影对齐样本
Figure BDA0003943214320000036
与所述目标域融合投影样本
Figure BDA0003943214320000037
进行流形聚类包络对齐。
进一步地,在训练过程中,所述分类模型的损失函数表示为:
Figure BDA0003943214320000038
Figure BDA0003943214320000039
其中,LC(FS,μ)表示步骤S32中对所述源域融合样本FS进行融合特征聚类的损失,μ表示本次聚类的簇中心;
Figure BDA00039432143200000310
表示步骤S34中对所述源域融合投影样本
Figure BDA00039432143200000311
进行融合投影特征聚类的损失,
Figure BDA00039432143200000312
表示本次聚类的簇中心;
Figure BDA00039432143200000313
表示所述四重级联域适应机制的损失,LCEA(FSS)表示步骤32中将所述源域融合聚类包络样本μS与所述源域融合样本FS进行聚类包络对齐的损失,LMCFA(F′S,FT)表示步骤S33中对所述源域融合对齐样本F′S和所述目标域融合样本FT进行流形融合对齐的损失,
Figure BDA00039432143200000314
表示将所述源域融合聚类投影样本
Figure BDA00039432143200000315
与所述源域融合投影样本
Figure BDA00039432143200000316
进行二次聚类包络对齐的损失,
Figure BDA00039432143200000317
表示步骤S35中将所述源域融合投影对齐样本
Figure BDA00039432143200000318
与所述目标域融合投影样本
Figure BDA00039432143200000319
进行流形聚类包络对齐的损失,α表示四重级联域适应损失函数的平衡系数;
Figure BDA00039432143200000320
表示步骤S35中进行流形聚类包络对齐中流形投影的损失;
L(XS,YS,XTl,YTl)=L(XS,YS)+L(XTl,YTl)表示源域和目标域的交叉熵损失函数和,其中,源域的交叉熵损失
Figure BDA00039432143200000321
目标域的交叉熵损失
Figure BDA0003943214320000041
c表示图片类别的数量,
Figure BDA0003943214320000042
Figure BDA0003943214320000043
分别表示源域和目标域第m种类别的第i张样本,
Figure BDA0003943214320000044
Figure BDA0003943214320000045
表示源域和目标域第m种类别的第i张样本的真实标签,
Figure BDA0003943214320000046
表示源域样本预测为真实的概率,
Figure BDA0003943214320000047
表示目标域样本预测为真实的概率。
进一步地,在步骤S2中,使用K-means算法进行融合特征聚类,先选中k个样本点充当各个簇的初始中心点{μ12,...,μk},即源域融合聚类包络样本,然后迭代重复以下两步骤:
1)计算所有样本点与各个簇中心之间的距离,然后把样本点划入最近的簇ci中:
Figure BDA0003943214320000048
其中,Fi代表生成的融合样本特征F中的第i个特征样本点,μj代表第j个初始中心点;
2)重新计算簇中心μj
Figure BDA0003943214320000049
其中,
Figure BDA00039432143200000410
为簇ci的样本数量;
当达到最大迭代次数或者样本分配无变化时则聚类结束;
最终,将源域融合样本聚类成k个簇c1,c2,...,ck,同时保证聚类损失函数LC最小化:
Figure BDA00039432143200000411
其中,||·||表示范数。
进一步地,在所述步骤S32中,损失LCEA(FSS)表示为:
Figure BDA00039432143200000412
其中,
Figure BDA00039432143200000413
Figure BDA00039432143200000414
表示所述源域融合样本FS中一对随机的样本特征,
Figure BDA00039432143200000415
表示所述源域融合聚类包络样本μS中一对随机的样本特征,nS表示所述源域融合样本FS的数量,nμ表示所述源域融合聚类包络样本μS的聚类中心的数量,Θ(·)代表高斯核函数,表示为:
Figure BDA0003943214320000051
其中,x和y表示两个样本,σ表示局部作用范围参数。
进一步地,在所述步骤S33中,损失LMCFA(F′S,FT)表示为:
Figure BDA0003943214320000052
其中,
Figure BDA0003943214320000053
Figure BDA0003943214320000054
表示所述源域融合对齐样本F′S中一对随机的样本特征,
Figure BDA0003943214320000055
Figure BDA0003943214320000056
表示所述目标域融合样本FT中一对随机的样本特征,nT表示所述目标域融合样本FT的数量。
进一步地,在所述步骤S34中,损失
Figure BDA0003943214320000057
表示为:
Figure BDA0003943214320000058
将所述源域融合聚类投影样本
Figure BDA0003943214320000059
与所述源域融合投影样本
Figure BDA00039432143200000510
进行二次聚类包络对齐,具体表示为:
Figure BDA00039432143200000511
其中,
Figure BDA00039432143200000512
表示所述源域融合投影样本
Figure BDA00039432143200000513
中一对随机的样本特征,
Figure BDA00039432143200000514
表示所述源域融合聚类投影样本
Figure BDA00039432143200000515
中一对随机的样本特征,
Figure BDA00039432143200000516
表示所述源域融合聚类投影样本
Figure BDA00039432143200000517
的聚类中心的数量。
进一步地,在所述步骤S35中,
Figure BDA00039432143200000518
表示为:
Figure BDA00039432143200000519
其中,
Figure BDA0003943214320000061
Figure BDA0003943214320000062
表示源域融合投影对齐样本
Figure BDA0003943214320000063
中的一对样本特征,
Figure BDA0003943214320000064
表示所述目标域融合投影样本
Figure BDA0003943214320000065
中相邻的一对样本特征,WMP表示流形投影矩阵,
Figure BDA0003943214320000066
为W的对角矩阵,L=D-W定义为D与W的差值矩阵,
Figure BDA0003943214320000067
表示二范数的平方,Tr(·)表示矩阵的迹,W代表原始空间中样本间的近邻矩阵,表示为:
Figure BDA0003943214320000068
Fi和Fj是两个融合样本特征,σ是局部作用范围参数,n表示特征总数。
进一步地,在所述步骤S35中,
Figure BDA0003943214320000069
表示为:
Figure BDA00039432143200000610
其中,
Figure BDA00039432143200000611
表示所述源域融合投影对齐样本
Figure BDA00039432143200000612
中一对随机的样本特征。
进一步地,在所述步骤S1中,所述组织病理学图像采用不同格式和分辨率的乳腺癌组织病理学图像;
在步骤S2中,所述预训练模型采用VGG模型,所述公开的图像数据集采用ImageNet数据集;
在所述步骤S3中,所述全连接分类器包含全连接层、批量规范化层和舍弃层;所述批量规范化层用于实现批量规范,使其输出均值为0,方差为1;所述舍弃层用于减少神经元个数以防止过拟合;
在所述步骤S5中,所述分类模型输出的分类结果为正常细胞图像标签或情况异常图像标签两种情况。
本发明提供的基于四重级联域适应机制的组织病理学图像分类方法,搭建卷积神经网络进行特征迁移,综合卷积神经网络中不同深度提取的特征,构建八重异构样本空间(包括源域融合样本空间和目标域融合样本空间,源域融合聚类包络样本空间,源域融合投影样本空间和目标域融合投影样本空间,源域融合投影聚类包络样本空间,源域融合投影对齐样本空间和融合投影对齐样本空间),并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐,流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能,满足乳腺癌组织病理图像的分类要求,且具有较强的鲁棒性,自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入,具有较高的准确性和稳定性,在临床诊断中显示出巨大的潜力。
附图说明
图1是本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法的流程图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法,如图1所示,在本实施例中,包括步骤:
S1、构建由正常和病变的组织病理学图像组成的样本数据库,并将样本数据库分为用于训练的源域训练样本和目标域训练样本,以及用于测试的测试样本,源域训练样本全部带有标签,目标域训练样本少部分带有标签;
S2、搭建卷积神经网络,并利用公开的图像数据集对其进行预训练,使其满足特征提取要求,得到预训练模型;
S3、将预训练模型作为特征提取层进行迁移,与四重级联域适应机制和新的全连接分类器重构为分类模型;
S4、利用源域训练样本和目标域训练样本对分类模型进行训练;
S5、利用测试样本对训练后的分类模型进行测试,获取预测结果。
在步骤S1中:
样本数据库内包含用于训练和测试的源域和目标域样本为正常和癌症乳腺组织病理学图像,被划分成采样块并经过一系列图像预处理操作;
样本数据库中,源域训练样本全部带有标签,目标域训练样本少部分带有标签;
样本数据库中的组织病理学图像可以接受JPEG、PNG或TIF格式的,不同分辨率的RGB彩色图像。
在步骤S2中:
预训练模型采用卷积神经网络模型,可包括常见的VGG模型、GoogleNet模型、ResNet等各种卷积神经模型,本实施例中的预训练模型定义为BreNet,由五个卷积模块和一个全连接模块组成。每一个卷积模块包含两个卷积层和一个池化层。全连接模块包含三层全连接层。卷积层的每个输出特征图是由多个输入特征图和内核进行卷积而来。池化层是通过核函数对前一层的输出进行池化处理。全连接层是通过权重连接所有神经元。
本实施例利用ImageNet数据集对搭建的神经网络模型进行预训练,使其满足特征提取要求,与四重级联域适应机制和新的全连接分类器重构为满足乳腺癌组织病理学图像分类任务的完整分类模型。
在步骤S3中,全连接分类器包含全连接层、批量规范化层和舍弃层;批量规范化层用于实现批量规范,使其输出均值为0,方差为1;舍弃层用于减少神经元个数以防止过拟合。
在步骤S3中,四重级联域适应机制描述为步骤:
S31、将源域训练样本和目标域训练样本输入预训练模型提取低阶、中阶和高阶特征并进行特征融合,得到源域融合样本FS和目标域融合样本FT
S32、对源域融合样本FS进行融合特征聚类得到源域融合聚类包络样本μS,并将源域融合聚类包络样本μS与源域融合样本FS进行聚类包络对齐得到源域融合对齐样本F′S
S33、对源域融合对齐样本F′S和目标域融合样本FT进行流形融合对齐,后进行流形投影,得到源域融合投影样本
Figure BDA0003943214320000091
和目标域融合投影样本
Figure BDA0003943214320000092
S34、对源域融合投影样本
Figure BDA0003943214320000093
进行融合投影特征聚类得到源域融合聚类投影样本
Figure BDA0003943214320000094
并将源域融合聚类投影样本
Figure BDA0003943214320000095
与源域融合投影样本
Figure BDA0003943214320000096
进行二次聚类包络对齐,得到源域融合投影对齐样本
Figure BDA0003943214320000097
S35、将源域融合投影对齐样本
Figure BDA0003943214320000098
与目标域融合投影样本
Figure BDA0003943214320000099
进行流形聚类包络对齐。
所谓的四重级联域适应包括两次聚类包络对齐,流形融合对齐和流形聚类包络域自适应。
在步骤S31中,通过级联从BreNet不同层下采样的平均池化特征,使用多层特征融合丰富分类信息量:
Figure BDA00039432143200000910
其中,
Figure BDA00039432143200000911
代表拼接操作。GAP(·)代表全局平均池化操作。F代表生成的融合样本特征。Ω代表不同特征深度。Nl代表池化操作后的特征通道数。
Figure BDA00039432143200000912
是网络第l层的特征输出,表述为:
Figure BDA00039432143200000913
其中,f(·)是非线性激活函数。
Figure BDA00039432143200000914
是第l层的权重矩阵。
Figure BDA00039432143200000915
是线性的偏差矩阵。
在该步骤S32中,使用K-means算法进行无监督融合特征聚类,先选中k个样本点充当各个簇的初始中心点{μ12,...,μk},即源域融合聚类包络样本,然后迭代重复以下两步骤:
1)计算所有样本点与各个簇中心之间的距离,然后把样本点划入最近的簇ci中:
Figure BDA00039432143200000916
其中,Fi代表生成的融合样本特征F中的第i个特征样本点,μj代表第j个初始中心点;
2)重新计算簇中心μj
Figure BDA0003943214320000101
其中,
Figure BDA0003943214320000102
为簇ci的样本数量;
当达到最大迭代次数或者样本分配无变化时则聚类结束;
最终,将源域融合样本聚类成k个簇c1,c2,...,ck,同时保证聚类损失函数LC最小化:
Figure BDA0003943214320000103
其中,||·||表示范数。
在步骤S32中,使用聚类包络对齐(CEA)准则来度量源域融合聚类包络样本空间和源域融合样本空间得到源域融合对齐样本F′S
Figure BDA0003943214320000104
其中,
Figure BDA0003943214320000105
Figure BDA0003943214320000106
表示源域融合样本FS中一对随机的样本特征,
Figure BDA0003943214320000107
表示源域融合聚类包络样本μS中一对随机的样本特征,nS表示源域融合样本FS的数量,nμ表示源域融合聚类包络样本μS的聚类中心的数量,Θ(·)代表高斯核函数,表示为:
Figure BDA0003943214320000108
其中,x和y表示两个样本,σ表示局部作用范围参数。
在步骤S33中,使用流形聚类特征融合对齐(MCFA)准则(流形融合对齐)来度量源域融合对齐样本空间和目标域融合样本空间:
Figure BDA0003943214320000109
其中,
Figure BDA00039432143200001010
Figure BDA00039432143200001011
表示源域融合对齐样本F′S中一对随机的样本特征,
Figure BDA00039432143200001012
Figure BDA00039432143200001013
表示目标域融合样本FT中一对随机的样本特征,nT表示目标域融合样本FT的数量。
将融合样本特征进行流形投影,减少融合特征的冗余度。低维空间中的融合投影样本特征
Figure BDA0003943214320000111
可以表示为:
Figure BDA0003943214320000112
其中,fMP(·)是一个单调递增的激活函数,用于保证投影前后的特征间距离成正比。WMP是流形投影矩阵。从而得到源域融合投影样本
Figure BDA0003943214320000113
和目标域融合投影样本
Figure BDA0003943214320000114
在步骤S34中,源域融合投影样本
Figure BDA0003943214320000115
经K-means聚类后得到源域融合聚类投影样本
Figure BDA0003943214320000116
其聚类损失函数LC2表示为:
Figure BDA0003943214320000117
然后,利用流形重构方法通过进一步重构公共子空间来最小化源域和目标域之间的流形投影融合特征分布的发散性。将源域融合聚类投影样本
Figure BDA0003943214320000118
与源域融合投影样本
Figure BDA0003943214320000119
进行二次聚类包络对齐,得到源域融合投影对齐样本
Figure BDA00039432143200001110
Figure BDA00039432143200001111
其中,
Figure BDA00039432143200001112
表示源域融合投影样本
Figure BDA00039432143200001113
中一对随机的样本特征,
Figure BDA00039432143200001114
表示源域融合聚类投影样本
Figure BDA00039432143200001115
中一对随机的样本特征,
Figure BDA00039432143200001116
表示源域融合聚类投影样本
Figure BDA00039432143200001117
的聚类中心的数量。
在步骤S5中,将源域融合投影对齐样本
Figure BDA00039432143200001118
与目标域融合投影样本
Figure BDA00039432143200001119
进行流形聚类包络对齐,表示为:
Figure BDA00039432143200001120
其中,
Figure BDA00039432143200001121
表示源域融合投影对齐样本
Figure BDA00039432143200001122
中一对随机的样本特征。
在步骤S35中,流形投影正则项
Figure BDA00039432143200001123
表示为:
Figure BDA0003943214320000121
其中,
Figure BDA0003943214320000122
Figure BDA0003943214320000123
表示源域融合投影对齐样本
Figure BDA0003943214320000124
中的一对样本特征,
Figure BDA0003943214320000125
表示目标域融合投影样本
Figure BDA0003943214320000126
中相邻的一对样本特征,WMP表示流形投影矩阵,
Figure BDA0003943214320000127
为W的对角矩阵,L=D-W定义为D与W的差值矩阵,
Figure BDA0003943214320000128
表示二范数的平方,Tr(·)表示矩阵的迹,W代表原始空间中样本间的近邻矩阵,表示为:
Figure BDA0003943214320000129
Fi和Fj是两个融合样本特征,σ是局部作用范围参数,n表示特征总数。在训练过程中,分类模型的损失函数表示为:
Figure BDA00039432143200001210
Figure BDA00039432143200001211
其中,LC(FS,μ)表示步骤S32中对源域融合样本FS进行融合特征聚类的损失,μ表示本次聚类的簇中心;
Figure BDA00039432143200001212
表示步骤S34中对源域融合投影样本
Figure BDA00039432143200001213
进行融合投影特征聚类的损失,
Figure BDA00039432143200001214
表示本次聚类的簇中心;
Figure BDA00039432143200001215
重级联域适应机制的损失,LCEA(FSS)表示步骤32中将源域融合聚类包络样本μS与源域融合样本FS进行聚类包络对齐的损失,LMCFA(F′S,FT)表示步骤S33中对源域融合对齐样本F′S和目标域融合样本FT进行流形融合对齐的损失,
Figure BDA00039432143200001216
表示将源域融合聚类投影样本
Figure BDA00039432143200001217
与源域融合投影样本
Figure BDA00039432143200001218
进行二次聚类包络对齐的损失,
Figure BDA00039432143200001219
表示步骤S35中将源域融合投影对齐样本
Figure BDA00039432143200001220
与目标域融合投影样本
Figure BDA00039432143200001221
进行流形聚类包络对齐的损失,α表示四重级联域适应损失函数
Figure BDA0003943214320000131
的平衡系数;
Figure BDA0003943214320000132
表示步骤S35中进行流形聚类包络对齐中流形投影的损失;
L(XS,YS,XTl,YTl)=L(XS,YS)+L(XTl,YTl)表示源域和目标域的交叉熵损失函数和,其中,源域的交叉熵损失
Figure BDA0003943214320000133
目标域的交叉熵损失
Figure BDA0003943214320000134
c表示图片类别的数量,
Figure BDA0003943214320000135
Figure BDA0003943214320000136
分别表示源域和目标域第m种类别的第i张样本,
Figure BDA0003943214320000137
Figure BDA0003943214320000138
表示源域和目标域第m种类别的第i张样本的真实标签,
Figure BDA0003943214320000139
表示源域样本预测为真实的概率,
Figure BDA00039432143200001310
表示目标域样本预测为真实的概率。最后综合一张乳腺癌组织病理图像下的所有采样块级别分类结果得到图片级别分类结果。假设每个检测样本x被切割为n个采样块,每个采样块的网络输出为s,则该图像的分类结果为:
Figure BDA00039432143200001311
其中,||sij||表示第i个采样块属于第j类的概率,
Figure BDA00039432143200001312
表示所有采样块属于第j类的概率,该值最大时图像将被预测为第j类。
具体实施时,使用三个乳腺癌组织病理学图像数据集:两个公共数据集和一个私人数据集。实验的主要部分是在两个公共数据集上进行。最后使用私人数据集验证了该方法的鲁棒性。公共数据集BreakHis提供了7909个乳腺组织切片,分辨率为700×460。病理图像采用40×、100×、200×、400×四种放大倍数,由病理学家进行标注。另一个公共数据库ICIAR-2018包含400张乳腺活检图像,分辨率为2048×1536。根据每幅图像中主要的癌症类型,显微图像被标记为正常、良性、原位癌或浸润性癌。为了满足分类的要求,将其中的四个类别合并为良性和恶性两个类别。私人数据集中包含134张分辨率为512×512的乳腺组织病理学图像。其中包括正常细胞、癌变初期细胞和恶性细胞,也合并为良性和恶性两类。实验结果:超过94%的F1-score和超过92%的准确率。
综上,本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法,搭建卷积神经网络进行特征迁移,综合卷积神经网络中不同深度提取的特征,构建八重异构样本空间(包括源域融合样本空间和目标域融合样本空间,源域融合聚类包络样本空间,源域融合投影样本空间和目标域融合投影样本空间,源域融合投影聚类包络样本空间,源域融合投影对齐样本空间和融合投影对齐样本空间),并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐,流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能,满足乳腺癌组织病理图像的分类要求,且具有较强的鲁棒性,自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入,具有较高的准确性和稳定性。该方法对三个乳腺癌组织病理学图像数据集进行测试,实验结果(超过94%的F1-score和超过92%的准确率)证实了该方法的有效性和鲁棒性,在临床诊断中显示出巨大的潜力。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,包括步骤:
S1、构建由正常和病变的组织病理学图像组成的样本数据库,并将所述样本数据库分为用于训练的源域训练样本和目标域训练样本,以及用于测试的测试样本,所述源域训练样本全部带有标签,所述目标域训练样本少部分带有标签;
S2、搭建卷积神经网络,并利用公开的图像数据集对其进行预训练,使其满足特征提取要求,得到预训练模型;
S3、将所述预训练模型作为特征提取层进行迁移,与四重级联域适应机制和新的全连接分类器重构为分类模型;
S4、利用所述源域训练样本和所述目标域训练样本对所述分类模型进行训练;
S5、利用所述测试样本对训练后的所述分类模型进行测试,获取预测结果。
2.根据权利要求1所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在训练过程中,所述步骤S3中的所述四重级联域适应机制描述为步骤:
S31、将所述源域训练样本和所述目标域训练样本输入所述预训练模型提取低阶、中阶和高阶特征并进行特征融合,得到源域融合样本FS和目标域融合样本FT
S32、对所述源域融合样本FS进行融合特征聚类得到源域融合聚类包络样本μS,并将所述源域融合聚类包络样本μS与所述源域融合样本FS进行聚类包络对齐得到源域融合对齐样本F′S
S33、对所述源域融合对齐样本F′S和所述目标域融合样本FT进行流形融合对齐,后进行流形投影,得到源域融合投影样本
Figure FDA0003943214310000011
和目标域融合投影样本
Figure FDA0003943214310000012
S34、对所述源域融合投影样本
Figure FDA0003943214310000013
进行融合投影特征聚类得到源域融合聚类投影样本
Figure FDA0003943214310000021
并将所述源域融合聚类投影样本
Figure FDA0003943214310000022
与所述源域融合投影样本
Figure FDA0003943214310000023
进行二次聚类包络对齐,得到源域融合投影对齐样本
Figure FDA0003943214310000024
S35、将所述源域融合投影对齐样本
Figure FDA0003943214310000025
与所述目标域融合投影样本
Figure FDA0003943214310000026
进行流形聚类包络对齐。
3.根据权利要求2所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在训练过程中,所述分类模型的损失函数表示为:
Figure FDA0003943214310000027
Figure FDA0003943214310000028
其中,LC(FS,μ)表示步骤S32中对所述源域融合样本FS进行融合特征聚类的损失,μ表示本次聚类的簇中心;
Figure FDA0003943214310000029
表示步骤S34中对所述源域融合投影样本
Figure FDA00039432143100000210
进行融合投影特征聚类的损失,
Figure FDA00039432143100000211
表示本次聚类的簇中心;
Figure FDA00039432143100000212
表示所述四重级联域适应机制的损失,LCEA(FSS)表示步骤32中将所述源域融合聚类包络样本μS与所述源域融合样本FS进行聚类包络对齐的损失,LMCFA(F′S,FT)表示步骤S33中对所述源域融合对齐样本F′S和所述目标域融合样本FT进行流形融合对齐的损失,
Figure FDA00039432143100000213
表示将所述源域融合聚类投影样本
Figure FDA00039432143100000214
与所述源域融合投影样本
Figure FDA00039432143100000215
进行二次聚类包络对齐的损失,
Figure FDA00039432143100000216
表示步骤S35中将所述源域融合投影对齐样本
Figure FDA00039432143100000217
与所述目标域融合投影样本
Figure FDA00039432143100000218
进行流形聚类包络对齐的损失,α表示四重级联域适应损失函数
Figure FDA00039432143100000219
的平衡系数;
Figure FDA00039432143100000220
表示步骤S35中进行流形聚类包络对齐中流形投影的损失;
L(XS,YS,XTl,YTl)=L(XS,YS)+L(XTl,YTl)表示源域和目标域的交叉熵损失函数和,其中,源域的交叉熵损失
Figure FDA0003943214310000031
目标域的交叉熵损失
Figure FDA0003943214310000032
c表示图片类别的数量,
Figure FDA0003943214310000033
Figure FDA0003943214310000034
分别表示源域和目标域第m种类别的第i张样本,
Figure FDA0003943214310000035
Figure FDA0003943214310000036
表示源域和目标域第m种类别的第i张样本的真实标签,
Figure FDA0003943214310000037
表示源域样本预测为真实的概率,
Figure FDA0003943214310000038
表示目标域样本预测为真实的概率。
4.根据权利要求3所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在步骤S2中,使用K-means算法进行融合特征聚类,先选中k个样本点充当各个簇的初始中心点{μ12,...,μk},即源域融合聚类包络样本,然后迭代重复以下两步骤:
1)计算所有样本点与各个簇中心之间的距离,然后把样本点划入最近的簇ci中:
Figure FDA0003943214310000039
其中,Fi代表生成的融合样本特征F中的第i个特征样本点,μj代表第j个初始中心点;
2)重新计算簇中心μj
Figure FDA00039432143100000310
其中,
Figure FDA00039432143100000311
为簇ci的样本数量;
当达到最大迭代次数或者样本分配无变化时则聚类结束;
最终,将源域融合样本聚类成k个簇c1,c2,...,ck,同时保证聚类损失函数LC最小化:
Figure FDA00039432143100000312
其中,||·||表示范数。
5.根据权利要求4所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在所述步骤S32中,损失LCEA(FSS)表示为:
Figure FDA0003943214310000041
其中,
Figure FDA0003943214310000042
Figure FDA0003943214310000043
表示所述源域融合样本FS中一对随机的样本特征,
Figure FDA0003943214310000044
表示所述源域融合聚类包络样本μS中一对随机的样本特征,nS表示所述源域融合样本FS的数量,nμ表示所述源域融合聚类包络样本μS的聚类中心的数量,Θ(·)代表高斯核函数。
6.根据权利要求5所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在所述步骤S33中,损失LMCFA(F′S,FT)表示为:
Figure FDA0003943214310000045
其中,
Figure FDA0003943214310000046
Figure FDA0003943214310000047
表示所述源域融合对齐样本F′S中一对随机的样本特征,
Figure FDA0003943214310000048
Figure FDA0003943214310000049
表示所述目标域融合样本FT中一对随机的样本特征,nT表示所述目标域融合样本FT的数量。
7.根据权利要求6所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在所述步骤S34中,损失
Figure FDA00039432143100000410
表示为:
Figure FDA00039432143100000411
将所述源域融合聚类投影样本
Figure FDA00039432143100000412
与所述源域融合投影样本
Figure FDA00039432143100000413
进行二次聚类包络对齐,具体表示为:
Figure FDA00039432143100000414
其中,
Figure FDA00039432143100000415
表示所述源域融合投影样本
Figure FDA00039432143100000416
中一对随机的样本特征,
Figure FDA00039432143100000417
表示所述源域融合聚类投影样本
Figure FDA0003943214310000051
中一对随机的样本特征,
Figure FDA0003943214310000052
表示所述源域融合聚类投影样本
Figure FDA0003943214310000053
的聚类中心的数量。
8.根据权利要求6所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在所述步骤S35中,
Figure FDA0003943214310000054
表示为:
Figure FDA0003943214310000055
其中,
Figure FDA0003943214310000056
Figure FDA0003943214310000057
表示源域融合投影对齐样本
Figure FDA0003943214310000058
中的一对样本特征,
Figure FDA0003943214310000059
表示所述目标域融合投影样本
Figure FDA00039432143100000510
中相邻的一对样本特征,WMP表示流形投影矩阵,W代表原始空间中样本间的近邻矩阵,
Figure FDA00039432143100000511
为W的对角矩阵,L=D-W定义为D和W的差值矩阵,
Figure FDA00039432143100000512
表示二范数的平方,Tr(·)表示矩阵的迹。
9.根据权利要求8所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在所述步骤S35中,
Figure FDA00039432143100000513
表示为:
Figure FDA00039432143100000514
其中,
Figure FDA00039432143100000515
表示所述源域融合投影对齐样本
Figure FDA00039432143100000516
中一对随机的样本特征。
10.根据权利要求1~9任一项所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于:
在所述步骤S1中,所述组织病理学图像采用不同格式和分辨率的乳腺癌组织病理学图像;
在步骤S2中,所述预训练模型采用VGG模型,所述公开的图像数据集采用ImageNet数据集;
在所述步骤S3中,所述全连接分类器包含全连接层、批量规范化层和舍弃层;所述批量规范化层用于实现批量规范,使其输出均值为0,方差为1;所述舍弃层用于减少神经元个数以防止过拟合;
在所述步骤S5中,所述分类模型输出的分类结果为正常细胞图像标签或情况异常图像标签两种情况。
CN202211437766.7A 2022-11-15 2022-11-15 基于四重级联域适应机制的组织病理学图像分类方法 Pending CN115700794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211437766.7A CN115700794A (zh) 2022-11-15 2022-11-15 基于四重级联域适应机制的组织病理学图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211437766.7A CN115700794A (zh) 2022-11-15 2022-11-15 基于四重级联域适应机制的组织病理学图像分类方法

Publications (1)

Publication Number Publication Date
CN115700794A true CN115700794A (zh) 2023-02-07

Family

ID=85121181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211437766.7A Pending CN115700794A (zh) 2022-11-15 2022-11-15 基于四重级联域适应机制的组织病理学图像分类方法

Country Status (1)

Country Link
CN (1) CN115700794A (zh)

Similar Documents

Publication Publication Date Title
Saxena et al. Machine learning methods for computer-aided breast cancer diagnosis using histopathology: a narrative review
CN111191660B (zh) 一种基于多通道协同胶囊网络的结肠癌病理学图像分类方法
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN108898160B (zh) 基于cnn和影像组学特征融合的乳腺癌组织病理学分级方法
CN113469119B (zh) 基于视觉转换器和图卷积网络的宫颈细胞图像分类方法
CN114372531A (zh) 一种基于自注意力特征融合的胰腺癌病理图像分类方法
CN112270666A (zh) 基于深度卷积神经网络的非小细胞肺癌病理切片识别方法
CN113378792B (zh) 融合全局和局部信息的弱监督宫颈细胞图像分析方法
CN113706487A (zh) 基于自监督特征小样本学习的多器官分割方法
CN113095409A (zh) 基于注意力机制和权值共享的高光谱图像分类方法
JP7312510B1 (ja) 腫瘍微小環境を考慮した全スライド病理画像分類システム及び構築方法
CN108765374A (zh) 一种宫颈涂片图像中异常核区域筛查的方法
CN113344044A (zh) 一种基于领域自适应的跨物种医疗影像分类方法
CN114266717A (zh) 一种基于Inception模块的并行胶囊网络宫颈癌细胞检测方法
Kurmi et al. Microscopic images classification for cancer diagnosis
CN114530222A (zh) 一种基于多组学和影像数据融合的癌症患者分类系统
CN117036288A (zh) 一种面向全切片病理图像的肿瘤亚型诊断方法
CN116128855A (zh) 一种基于病理图像特征检测肿瘤蛋白标记物表达水平算法
CN110136113B (zh) 一种基于卷积神经网络的阴道病理图像分类方法
CN114820481A (zh) 基于转换器的肺癌组织病理全切片egfr状态预测方法
CN112733859B (zh) 一种组织病理学图像的深度迁移半监督域自适应分类方法
CN110210562B (zh) 基于深度网络和稀疏Fisher矢量的图像分类方法
Xiang et al. Segmentation method of multiple sclerosis lesions based on 3D‐CNN networks
CN116188428A (zh) 一种桥接多源域自适应的跨域组织病理学图像识别方法
Yan et al. Two and multiple categorization of breast pathological images by transfer learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination