CN115700794A - 基于四重级联域适应机制的组织病理学图像分类方法 - Google Patents
基于四重级联域适应机制的组织病理学图像分类方法 Download PDFInfo
- Publication number
- CN115700794A CN115700794A CN202211437766.7A CN202211437766A CN115700794A CN 115700794 A CN115700794 A CN 115700794A CN 202211437766 A CN202211437766 A CN 202211437766A CN 115700794 A CN115700794 A CN 115700794A
- Authority
- CN
- China
- Prior art keywords
- sample
- source domain
- domain
- samples
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及生物医疗信息处理中的智能诊断技术领域,具体公开了一种基于四重级联域适应机制的组织病理学图像分类方法,通过搭建卷积神经网络进行特征迁移,综合卷积神经网络中不同深度提取的特征,构建八重异构样本空间,并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐,流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能,满足乳腺癌组织病理图像的分类要求,且具有较强的鲁棒性,自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入,具有较高的准确性和稳定性,在临床诊断中显示出巨大的潜力。
Description
技术领域
本发明涉及生物医疗信息处理中的智能诊断技术领域,尤其涉及基于四重级联域适应机制的组织病理学图像分类方法。
背景技术
乳腺癌是目前对女性健康危害最严重的疾病之一,其患病率超过8%,居于女性恶性肿瘤之首。由于确切的致病原因尚不清楚,乳腺癌的早期发现和诊断变得非常重要。尽早确诊不仅能够降低治疗成本和病程,更能有效地提高患者的存活率。现阶段,乳腺癌的诊断主要依赖专门的病理学家对组织病理图像的分析。然而,对组织病理学图片进行人工标注需要病理学家具有相当的经验,且存在耗时长,易误诊等缺陷。因此,计算机辅助诊断(CAD)成为病理学家缩短诊断时间、提高诊断敏感性和特异性的有效工具。
与传统的机器学习方法相比,卷积神经网络(CNN)能够从原始图像中挖掘和学习具有代表性和区分性的信息。它在医学图像诊断领域,特别是在组织病理学图像领域有着广泛的应用。但CNN的固有特性决定了它的训练需要大量的标记图像。带标签样本数量低将导致过拟合、泛化能力差等一系列问题。由于组织病理学图像的标记昂贵且难以获得,于是提出了利用有限的标记图像将信息从源域转移到目标域的迁移学习方法。其中领域自适应方法能够考虑两个领域之间的相似性,在不同的样本特征分布情况下完成分类任务。
尽管近期研究在细胞分类算法方面取得了进展,但由于组织病理学图像中细胞的不规则,重叠以及染色不均等问题,准确的分类仍然是一个挑战。此外,各种算法的性能还受到特征设计和选择的限制,大多只考虑网络中的高层特征,浪费了大量的细胞结构信息,表现欠佳。
发明内容
本发明提供基于四重级联域适应机制的组织病理学图像分类方法,解决的技术问题在于:如何综合利用卷积神经网络中不同深度的特征,以解决组织病理学图像分类问题。
为解决以上技术问题,本发明提供基于四重级联域适应机制的组织病理学图像分类方法,包括步骤:
S1、构建由正常和病变的组织病理学图像组成的样本数据库,并将所述样本数据库分为用于训练的源域训练样本和目标域训练样本,以及用于测试的测试样本,所述源域训练样本全部带有标签,所述目标域训练样本少部分带有标签;
S2、搭建卷积神经网络,并利用公开的图像数据集对其进行预训练,使其满足特征提取要求,得到预训练模型;
S3、将所述预训练模型作为特征提取层进行迁移,与四重级联域适应机制和新的全连接分类器重构为分类模型;
S4、利用所述源域训练样本和所述目标域训练样本对所述分类模型进行训练;
S5、利用所述测试样本对训练后的所述分类模型进行测试,获取预测结果。
进一步地,在训练过程中,所述步骤S3中的所述四重级联域适应机制描述为步骤:
S31、将所述源域训练样本和所述目标域训练样本输入所述预训练模型提取低阶、中阶和高阶特征并进行特征融合,得到源域融合样本FS和目标域融合样本FT;
S32、对所述源域融合样本FS进行融合特征聚类得到源域融合聚类包络样本μS,并将所述源域融合聚类包络样本μS与所述源域融合样本FS进行聚类包络对齐得到源域融合对齐样本F′S;
进一步地,在训练过程中,所述分类模型的损失函数表示为:
表示所述四重级联域适应机制的损失,LCEA(FS,μS)表示步骤32中将所述源域融合聚类包络样本μS与所述源域融合样本FS进行聚类包络对齐的损失,LMCFA(F′S,FT)表示步骤S33中对所述源域融合对齐样本F′S和所述目标域融合样本FT进行流形融合对齐的损失,表示将所述源域融合聚类投影样本与所述源域融合投影样本进行二次聚类包络对齐的损失,表示步骤S35中将所述源域融合投影对齐样本与所述目标域融合投影样本进行流形聚类包络对齐的损失,α表示四重级联域适应损失函数的平衡系数;
L(XS,YS,XTl,YTl)=L(XS,YS)+L(XTl,YTl)表示源域和目标域的交叉熵损失函数和,其中,源域的交叉熵损失目标域的交叉熵损失c表示图片类别的数量,和分别表示源域和目标域第m种类别的第i张样本,和表示源域和目标域第m种类别的第i张样本的真实标签,表示源域样本预测为真实的概率,表示目标域样本预测为真实的概率。
进一步地,在步骤S2中,使用K-means算法进行融合特征聚类,先选中k个样本点充当各个簇的初始中心点{μ1,μ2,...,μk},即源域融合聚类包络样本,然后迭代重复以下两步骤:
1)计算所有样本点与各个簇中心之间的距离,然后把样本点划入最近的簇ci中:
其中,Fi代表生成的融合样本特征F中的第i个特征样本点,μj代表第j个初始中心点;
2)重新计算簇中心μj:
当达到最大迭代次数或者样本分配无变化时则聚类结束;
最终,将源域融合样本聚类成k个簇c1,c2,...,ck,同时保证聚类损失函数LC最小化:
其中,||·||表示范数。
进一步地,在所述步骤S32中,损失LCEA(FS,μS)表示为:
其中,和表示所述源域融合样本FS中一对随机的样本特征,表示所述源域融合聚类包络样本μS中一对随机的样本特征,nS表示所述源域融合样本FS的数量,nμ表示所述源域融合聚类包络样本μS的聚类中心的数量,Θ(·)代表高斯核函数,表示为:
其中,x和y表示两个样本,σ表示局部作用范围参数。
进一步地,在所述步骤S33中,损失LMCFA(F′S,FT)表示为:
其中,和表示源域融合投影对齐样本中的一对样本特征,表示所述目标域融合投影样本中相邻的一对样本特征,WMP表示流形投影矩阵,为W的对角矩阵,L=D-W定义为D与W的差值矩阵,表示二范数的平方,Tr(·)表示矩阵的迹,W代表原始空间中样本间的近邻矩阵,表示为:
进一步地,在所述步骤S1中,所述组织病理学图像采用不同格式和分辨率的乳腺癌组织病理学图像;
在步骤S2中,所述预训练模型采用VGG模型,所述公开的图像数据集采用ImageNet数据集;
在所述步骤S3中,所述全连接分类器包含全连接层、批量规范化层和舍弃层;所述批量规范化层用于实现批量规范,使其输出均值为0,方差为1;所述舍弃层用于减少神经元个数以防止过拟合;
在所述步骤S5中,所述分类模型输出的分类结果为正常细胞图像标签或情况异常图像标签两种情况。
本发明提供的基于四重级联域适应机制的组织病理学图像分类方法,搭建卷积神经网络进行特征迁移,综合卷积神经网络中不同深度提取的特征,构建八重异构样本空间(包括源域融合样本空间和目标域融合样本空间,源域融合聚类包络样本空间,源域融合投影样本空间和目标域融合投影样本空间,源域融合投影聚类包络样本空间,源域融合投影对齐样本空间和融合投影对齐样本空间),并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐,流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能,满足乳腺癌组织病理图像的分类要求,且具有较强的鲁棒性,自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入,具有较高的准确性和稳定性,在临床诊断中显示出巨大的潜力。
附图说明
图1是本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法的流程图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法,如图1所示,在本实施例中,包括步骤:
S1、构建由正常和病变的组织病理学图像组成的样本数据库,并将样本数据库分为用于训练的源域训练样本和目标域训练样本,以及用于测试的测试样本,源域训练样本全部带有标签,目标域训练样本少部分带有标签;
S2、搭建卷积神经网络,并利用公开的图像数据集对其进行预训练,使其满足特征提取要求,得到预训练模型;
S3、将预训练模型作为特征提取层进行迁移,与四重级联域适应机制和新的全连接分类器重构为分类模型;
S4、利用源域训练样本和目标域训练样本对分类模型进行训练;
S5、利用测试样本对训练后的分类模型进行测试,获取预测结果。
在步骤S1中:
样本数据库内包含用于训练和测试的源域和目标域样本为正常和癌症乳腺组织病理学图像,被划分成采样块并经过一系列图像预处理操作;
样本数据库中,源域训练样本全部带有标签,目标域训练样本少部分带有标签;
样本数据库中的组织病理学图像可以接受JPEG、PNG或TIF格式的,不同分辨率的RGB彩色图像。
在步骤S2中:
预训练模型采用卷积神经网络模型,可包括常见的VGG模型、GoogleNet模型、ResNet等各种卷积神经模型,本实施例中的预训练模型定义为BreNet,由五个卷积模块和一个全连接模块组成。每一个卷积模块包含两个卷积层和一个池化层。全连接模块包含三层全连接层。卷积层的每个输出特征图是由多个输入特征图和内核进行卷积而来。池化层是通过核函数对前一层的输出进行池化处理。全连接层是通过权重连接所有神经元。
本实施例利用ImageNet数据集对搭建的神经网络模型进行预训练,使其满足特征提取要求,与四重级联域适应机制和新的全连接分类器重构为满足乳腺癌组织病理学图像分类任务的完整分类模型。
在步骤S3中,全连接分类器包含全连接层、批量规范化层和舍弃层;批量规范化层用于实现批量规范,使其输出均值为0,方差为1;舍弃层用于减少神经元个数以防止过拟合。
在步骤S3中,四重级联域适应机制描述为步骤:
S31、将源域训练样本和目标域训练样本输入预训练模型提取低阶、中阶和高阶特征并进行特征融合,得到源域融合样本FS和目标域融合样本FT;
S32、对源域融合样本FS进行融合特征聚类得到源域融合聚类包络样本μS,并将源域融合聚类包络样本μS与源域融合样本FS进行聚类包络对齐得到源域融合对齐样本F′S;
所谓的四重级联域适应包括两次聚类包络对齐,流形融合对齐和流形聚类包络域自适应。
在步骤S31中,通过级联从BreNet不同层下采样的平均池化特征,使用多层特征融合丰富分类信息量:
在该步骤S32中,使用K-means算法进行无监督融合特征聚类,先选中k个样本点充当各个簇的初始中心点{μ1,μ2,...,μk},即源域融合聚类包络样本,然后迭代重复以下两步骤:
1)计算所有样本点与各个簇中心之间的距离,然后把样本点划入最近的簇ci中:
其中,Fi代表生成的融合样本特征F中的第i个特征样本点,μj代表第j个初始中心点;
2)重新计算簇中心μj:
当达到最大迭代次数或者样本分配无变化时则聚类结束;
最终,将源域融合样本聚类成k个簇c1,c2,...,ck,同时保证聚类损失函数LC最小化:
其中,||·||表示范数。
在步骤S32中,使用聚类包络对齐(CEA)准则来度量源域融合聚类包络样本空间和源域融合样本空间得到源域融合对齐样本F′S:
其中,和表示源域融合样本FS中一对随机的样本特征,表示源域融合聚类包络样本μS中一对随机的样本特征,nS表示源域融合样本FS的数量,nμ表示源域融合聚类包络样本μS的聚类中心的数量,Θ(·)代表高斯核函数,表示为:
其中,x和y表示两个样本,σ表示局部作用范围参数。
在步骤S33中,使用流形聚类特征融合对齐(MCFA)准则(流形融合对齐)来度量源域融合对齐样本空间和目标域融合样本空间:
其中,和表示源域融合投影对齐样本中的一对样本特征,表示目标域融合投影样本中相邻的一对样本特征,WMP表示流形投影矩阵,为W的对角矩阵,L=D-W定义为D与W的差值矩阵,表示二范数的平方,Tr(·)表示矩阵的迹,W代表原始空间中样本间的近邻矩阵,表示为:
重级联域适应机制的损失,LCEA(FS,μS)表示步骤32中将源域融合聚类包络样本μS与源域融合样本FS进行聚类包络对齐的损失,LMCFA(F′S,FT)表示步骤S33中对源域融合对齐样本F′S和目标域融合样本FT进行流形融合对齐的损失,表示将源域融合聚类投影样本与源域融合投影样本进行二次聚类包络对齐的损失,表示步骤S35中将源域融合投影对齐样本与目标域融合投影样本进行流形聚类包络对齐的损失,α表示四重级联域适应损失函数的平衡系数;
L(XS,YS,XTl,YTl)=L(XS,YS)+L(XTl,YTl)表示源域和目标域的交叉熵损失函数和,其中,源域的交叉熵损失目标域的交叉熵损失c表示图片类别的数量,和分别表示源域和目标域第m种类别的第i张样本,和表示源域和目标域第m种类别的第i张样本的真实标签,表示源域样本预测为真实的概率,表示目标域样本预测为真实的概率。最后综合一张乳腺癌组织病理图像下的所有采样块级别分类结果得到图片级别分类结果。假设每个检测样本x被切割为n个采样块,每个采样块的网络输出为s,则该图像的分类结果为:
具体实施时,使用三个乳腺癌组织病理学图像数据集:两个公共数据集和一个私人数据集。实验的主要部分是在两个公共数据集上进行。最后使用私人数据集验证了该方法的鲁棒性。公共数据集BreakHis提供了7909个乳腺组织切片,分辨率为700×460。病理图像采用40×、100×、200×、400×四种放大倍数,由病理学家进行标注。另一个公共数据库ICIAR-2018包含400张乳腺活检图像,分辨率为2048×1536。根据每幅图像中主要的癌症类型,显微图像被标记为正常、良性、原位癌或浸润性癌。为了满足分类的要求,将其中的四个类别合并为良性和恶性两个类别。私人数据集中包含134张分辨率为512×512的乳腺组织病理学图像。其中包括正常细胞、癌变初期细胞和恶性细胞,也合并为良性和恶性两类。实验结果:超过94%的F1-score和超过92%的准确率。
综上,本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法,搭建卷积神经网络进行特征迁移,综合卷积神经网络中不同深度提取的特征,构建八重异构样本空间(包括源域融合样本空间和目标域融合样本空间,源域融合聚类包络样本空间,源域融合投影样本空间和目标域融合投影样本空间,源域融合投影聚类包络样本空间,源域融合投影对齐样本空间和融合投影对齐样本空间),并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐,流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能,满足乳腺癌组织病理图像的分类要求,且具有较强的鲁棒性,自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入,具有较高的准确性和稳定性。该方法对三个乳腺癌组织病理学图像数据集进行测试,实验结果(超过94%的F1-score和超过92%的准确率)证实了该方法的有效性和鲁棒性,在临床诊断中显示出巨大的潜力。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,包括步骤:
S1、构建由正常和病变的组织病理学图像组成的样本数据库,并将所述样本数据库分为用于训练的源域训练样本和目标域训练样本,以及用于测试的测试样本,所述源域训练样本全部带有标签,所述目标域训练样本少部分带有标签;
S2、搭建卷积神经网络,并利用公开的图像数据集对其进行预训练,使其满足特征提取要求,得到预训练模型;
S3、将所述预训练模型作为特征提取层进行迁移,与四重级联域适应机制和新的全连接分类器重构为分类模型;
S4、利用所述源域训练样本和所述目标域训练样本对所述分类模型进行训练;
S5、利用所述测试样本对训练后的所述分类模型进行测试,获取预测结果。
2.根据权利要求1所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在训练过程中,所述步骤S3中的所述四重级联域适应机制描述为步骤:
S31、将所述源域训练样本和所述目标域训练样本输入所述预训练模型提取低阶、中阶和高阶特征并进行特征融合,得到源域融合样本FS和目标域融合样本FT;
S32、对所述源域融合样本FS进行融合特征聚类得到源域融合聚类包络样本μS,并将所述源域融合聚类包络样本μS与所述源域融合样本FS进行聚类包络对齐得到源域融合对齐样本F′S;
3.根据权利要求2所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在训练过程中,所述分类模型的损失函数表示为:
表示所述四重级联域适应机制的损失,LCEA(FS,μS)表示步骤32中将所述源域融合聚类包络样本μS与所述源域融合样本FS进行聚类包络对齐的损失,LMCFA(F′S,FT)表示步骤S33中对所述源域融合对齐样本F′S和所述目标域融合样本FT进行流形融合对齐的损失,表示将所述源域融合聚类投影样本与所述源域融合投影样本进行二次聚类包络对齐的损失,表示步骤S35中将所述源域融合投影对齐样本与所述目标域融合投影样本进行流形聚类包络对齐的损失,α表示四重级联域适应损失函数的平衡系数;
4.根据权利要求3所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于,在步骤S2中,使用K-means算法进行融合特征聚类,先选中k个样本点充当各个簇的初始中心点{μ1,μ2,...,μk},即源域融合聚类包络样本,然后迭代重复以下两步骤:
1)计算所有样本点与各个簇中心之间的距离,然后把样本点划入最近的簇ci中:
其中,Fi代表生成的融合样本特征F中的第i个特征样本点,μj代表第j个初始中心点;
2)重新计算簇中心μj:
当达到最大迭代次数或者样本分配无变化时则聚类结束;
最终,将源域融合样本聚类成k个簇c1,c2,...,ck,同时保证聚类损失函数LC最小化:
其中,||·||表示范数。
10.根据权利要求1~9任一项所述的基于四重级联域适应机制的组织病理学图像分类方法,其特征在于:
在所述步骤S1中,所述组织病理学图像采用不同格式和分辨率的乳腺癌组织病理学图像;
在步骤S2中,所述预训练模型采用VGG模型,所述公开的图像数据集采用ImageNet数据集;
在所述步骤S3中,所述全连接分类器包含全连接层、批量规范化层和舍弃层;所述批量规范化层用于实现批量规范,使其输出均值为0,方差为1;所述舍弃层用于减少神经元个数以防止过拟合;
在所述步骤S5中,所述分类模型输出的分类结果为正常细胞图像标签或情况异常图像标签两种情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211437766.7A CN115700794A (zh) | 2022-11-15 | 2022-11-15 | 基于四重级联域适应机制的组织病理学图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211437766.7A CN115700794A (zh) | 2022-11-15 | 2022-11-15 | 基于四重级联域适应机制的组织病理学图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115700794A true CN115700794A (zh) | 2023-02-07 |
Family
ID=85121181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211437766.7A Pending CN115700794A (zh) | 2022-11-15 | 2022-11-15 | 基于四重级联域适应机制的组织病理学图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115700794A (zh) |
-
2022
- 2022-11-15 CN CN202211437766.7A patent/CN115700794A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saxena et al. | Machine learning methods for computer-aided breast cancer diagnosis using histopathology: a narrative review | |
CN111191660B (zh) | 一种基于多通道协同胶囊网络的结肠癌病理学图像分类方法 | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN108898160B (zh) | 基于cnn和影像组学特征融合的乳腺癌组织病理学分级方法 | |
CN113469119B (zh) | 基于视觉转换器和图卷积网络的宫颈细胞图像分类方法 | |
CN114372531A (zh) | 一种基于自注意力特征融合的胰腺癌病理图像分类方法 | |
CN112270666A (zh) | 基于深度卷积神经网络的非小细胞肺癌病理切片识别方法 | |
CN113378792B (zh) | 融合全局和局部信息的弱监督宫颈细胞图像分析方法 | |
CN113706487A (zh) | 基于自监督特征小样本学习的多器官分割方法 | |
CN113095409A (zh) | 基于注意力机制和权值共享的高光谱图像分类方法 | |
JP7312510B1 (ja) | 腫瘍微小環境を考慮した全スライド病理画像分類システム及び構築方法 | |
CN108765374A (zh) | 一种宫颈涂片图像中异常核区域筛查的方法 | |
CN113344044A (zh) | 一种基于领域自适应的跨物种医疗影像分类方法 | |
CN114266717A (zh) | 一种基于Inception模块的并行胶囊网络宫颈癌细胞检测方法 | |
Kurmi et al. | Microscopic images classification for cancer diagnosis | |
CN114530222A (zh) | 一种基于多组学和影像数据融合的癌症患者分类系统 | |
CN117036288A (zh) | 一种面向全切片病理图像的肿瘤亚型诊断方法 | |
CN116128855A (zh) | 一种基于病理图像特征检测肿瘤蛋白标记物表达水平算法 | |
CN110136113B (zh) | 一种基于卷积神经网络的阴道病理图像分类方法 | |
CN114820481A (zh) | 基于转换器的肺癌组织病理全切片egfr状态预测方法 | |
CN112733859B (zh) | 一种组织病理学图像的深度迁移半监督域自适应分类方法 | |
CN110210562B (zh) | 基于深度网络和稀疏Fisher矢量的图像分类方法 | |
Xiang et al. | Segmentation method of multiple sclerosis lesions based on 3D‐CNN networks | |
CN116188428A (zh) | 一种桥接多源域自适应的跨域组织病理学图像识别方法 | |
Yan et al. | Two and multiple categorization of breast pathological images by transfer learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |