CN115700794A

CN115700794A - 基于四重级联域适应机制的组织病理学图像分类方法

Info

Publication number: CN115700794A
Application number: CN202211437766.7A
Authority: CN
Inventors: 李勇明; 徐晋; 王品; 颜芳; 宋焱翼
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-02-07

Abstract

本发明涉及生物医疗信息处理中的智能诊断技术领域，具体公开了一种基于四重级联域适应机制的组织病理学图像分类方法，通过搭建卷积神经网络进行特征迁移，综合卷积神经网络中不同深度提取的特征，构建八重异构样本空间，并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐，流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能，满足乳腺癌组织病理图像的分类要求，且具有较强的鲁棒性，自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入，具有较高的准确性和稳定性，在临床诊断中显示出巨大的潜力。

Description

基于四重级联域适应机制的组织病理学图像分类方法

技术领域

本发明涉及生物医疗信息处理中的智能诊断技术领域，尤其涉及基于四重级联域适应机制的组织病理学图像分类方法。

背景技术

乳腺癌是目前对女性健康危害最严重的疾病之一，其患病率超过8％，居于女性恶性肿瘤之首。由于确切的致病原因尚不清楚，乳腺癌的早期发现和诊断变得非常重要。尽早确诊不仅能够降低治疗成本和病程，更能有效地提高患者的存活率。现阶段，乳腺癌的诊断主要依赖专门的病理学家对组织病理图像的分析。然而，对组织病理学图片进行人工标注需要病理学家具有相当的经验，且存在耗时长，易误诊等缺陷。因此，计算机辅助诊断(CAD)成为病理学家缩短诊断时间、提高诊断敏感性和特异性的有效工具。

与传统的机器学习方法相比，卷积神经网络(CNN)能够从原始图像中挖掘和学习具有代表性和区分性的信息。它在医学图像诊断领域，特别是在组织病理学图像领域有着广泛的应用。但CNN的固有特性决定了它的训练需要大量的标记图像。带标签样本数量低将导致过拟合、泛化能力差等一系列问题。由于组织病理学图像的标记昂贵且难以获得，于是提出了利用有限的标记图像将信息从源域转移到目标域的迁移学习方法。其中领域自适应方法能够考虑两个领域之间的相似性，在不同的样本特征分布情况下完成分类任务。

尽管近期研究在细胞分类算法方面取得了进展，但由于组织病理学图像中细胞的不规则，重叠以及染色不均等问题，准确的分类仍然是一个挑战。此外，各种算法的性能还受到特征设计和选择的限制，大多只考虑网络中的高层特征，浪费了大量的细胞结构信息，表现欠佳。

发明内容

本发明提供基于四重级联域适应机制的组织病理学图像分类方法，解决的技术问题在于：如何综合利用卷积神经网络中不同深度的特征，以解决组织病理学图像分类问题。

为解决以上技术问题，本发明提供基于四重级联域适应机制的组织病理学图像分类方法，包括步骤：

S1、构建由正常和病变的组织病理学图像组成的样本数据库，并将所述样本数据库分为用于训练的源域训练样本和目标域训练样本，以及用于测试的测试样本，所述源域训练样本全部带有标签，所述目标域训练样本少部分带有标签；

S2、搭建卷积神经网络，并利用公开的图像数据集对其进行预训练，使其满足特征提取要求，得到预训练模型；

S3、将所述预训练模型作为特征提取层进行迁移，与四重级联域适应机制和新的全连接分类器重构为分类模型；

S4、利用所述源域训练样本和所述目标域训练样本对所述分类模型进行训练；

S5、利用所述测试样本对训练后的所述分类模型进行测试，获取预测结果。

进一步地，在训练过程中，所述步骤S3中的所述四重级联域适应机制描述为步骤：

S31、将所述源域训练样本和所述目标域训练样本输入所述预训练模型提取低阶、中阶和高阶特征并进行特征融合，得到源域融合样本F_S和目标域融合样本F_T；

S32、对所述源域融合样本F_S进行融合特征聚类得到源域融合聚类包络样本μ_S，并将所述源域融合聚类包络样本μ_S与所述源域融合样本F_S进行聚类包络对齐得到源域融合对齐样本F′_S；

S33、对所述源域融合对齐样本F′_S和所述目标域融合样本F_T进行流形融合对齐，后进行流形投影，得到源域融合投影样本

和目标域融合投影样本

S34、对所述源域融合投影样本

进行融合投影特征聚类得到源域融合聚类投影样本

并将所述源域融合聚类投影样本

与所述源域融合投影样本

进行二次聚类包络对齐，得到源域融合投影对齐样本

S35、将所述源域融合投影对齐样本

与所述目标域融合投影样本

进行流形聚类包络对齐。

进一步地，在训练过程中，所述分类模型的损失函数表示为：

其中，L_C(F_S,μ)表示步骤S32中对所述源域融合样本F_S进行融合特征聚类的损失，μ表示本次聚类的簇中心；

表示步骤S34中对所述源域融合投影样本

进行融合投影特征聚类的损失，

表示本次聚类的簇中心；

表示所述四重级联域适应机制的损失，L_CEA(F_S,μ_S)表示步骤32中将所述源域融合聚类包络样本μ_S与所述源域融合样本F_S进行聚类包络对齐的损失，L_MCFA(F′_S,F_T)表示步骤S33中对所述源域融合对齐样本F′_S和所述目标域融合样本F_T进行流形融合对齐的损失，

表示将所述源域融合聚类投影样本

与所述源域融合投影样本

进行二次聚类包络对齐的损失，

表示步骤S35中将所述源域融合投影对齐样本

与所述目标域融合投影样本

进行流形聚类包络对齐的损失，α表示四重级联域适应损失函数的平衡系数；

表示步骤S35中进行流形聚类包络对齐中流形投影的损失；

L(X_S,Y_S,X_Tl,Y_Tl)＝L(X_S,Y_S)+L(X_Tl,Y_Tl)表示源域和目标域的交叉熵损失函数和，其中，源域的交叉熵损失

目标域的交叉熵损失

c表示图片类别的数量，

和

分别表示源域和目标域第m种类别的第i张样本，

和

表示源域和目标域第m种类别的第i张样本的真实标签，

表示源域样本预测为真实的概率，

表示目标域样本预测为真实的概率。

进一步地，在步骤S2中，使用K-means算法进行融合特征聚类，先选中k个样本点充当各个簇的初始中心点{μ₁,μ₂,...,μ_k}，即源域融合聚类包络样本，然后迭代重复以下两步骤：

1)计算所有样本点与各个簇中心之间的距离，然后把样本点划入最近的簇c_i中：

其中，F_i代表生成的融合样本特征F中的第i个特征样本点，μ_j代表第j个初始中心点；

2)重新计算簇中心μ_j：

其中，

为簇c_i的样本数量；

当达到最大迭代次数或者样本分配无变化时则聚类结束；

最终，将源域融合样本聚类成k个簇c₁,c₂,...,c_k，同时保证聚类损失函数L_C最小化：

其中，||·||表示范数。

进一步地，在所述步骤S32中，损失L_CEA(F_S,μ_S)表示为：

其中，

和

表示所述源域融合样本F_S中一对随机的样本特征，

表示所述源域融合聚类包络样本μ_S中一对随机的样本特征，n_S表示所述源域融合样本F_S的数量，n_μ表示所述源域融合聚类包络样本μ_S的聚类中心的数量，Θ(·)代表高斯核函数，表示为：

其中，x和y表示两个样本，σ表示局部作用范围参数。

进一步地，在所述步骤S33中，损失L_MCFA(F′_S,F_T)表示为：

其中，

和

表示所述源域融合对齐样本F′_S中一对随机的样本特征，

和

表示所述目标域融合样本F_T中一对随机的样本特征，n_T表示所述目标域融合样本F_T的数量。

进一步地，在所述步骤S34中，损失

表示为：

将所述源域融合聚类投影样本

与所述源域融合投影样本

进行二次聚类包络对齐，具体表示为：

其中，

表示所述源域融合投影样本

中一对随机的样本特征，

表示所述源域融合聚类投影样本

中一对随机的样本特征，

表示所述源域融合聚类投影样本

的聚类中心的数量。

进一步地，在所述步骤S35中，

表示为：

其中，

和

表示源域融合投影对齐样本

中的一对样本特征，

表示所述目标域融合投影样本

中相邻的一对样本特征，W_MP表示流形投影矩阵，

为W的对角矩阵，L＝D-W定义为D与W的差值矩阵，

表示二范数的平方，Tr(·)表示矩阵的迹，W代表原始空间中样本间的近邻矩阵，表示为：

F_i和F_j是两个融合样本特征，σ是局部作用范围参数，n表示特征总数。

进一步地，在所述步骤S35中，

表示为：

其中，

表示所述源域融合投影对齐样本

中一对随机的样本特征。

进一步地，在所述步骤S1中，所述组织病理学图像采用不同格式和分辨率的乳腺癌组织病理学图像；

在步骤S2中，所述预训练模型采用VGG模型，所述公开的图像数据集采用ImageNet数据集；

在所述步骤S3中，所述全连接分类器包含全连接层、批量规范化层和舍弃层；所述批量规范化层用于实现批量规范，使其输出均值为0，方差为1；所述舍弃层用于减少神经元个数以防止过拟合；

在所述步骤S5中，所述分类模型输出的分类结果为正常细胞图像标签或情况异常图像标签两种情况。

本发明提供的基于四重级联域适应机制的组织病理学图像分类方法，搭建卷积神经网络进行特征迁移，综合卷积神经网络中不同深度提取的特征，构建八重异构样本空间(包括源域融合样本空间和目标域融合样本空间，源域融合聚类包络样本空间，源域融合投影样本空间和目标域融合投影样本空间，源域融合投影聚类包络样本空间，源域融合投影对齐样本空间和融合投影对齐样本空间)，并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐，流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能，满足乳腺癌组织病理图像的分类要求，且具有较强的鲁棒性，自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入，具有较高的准确性和稳定性，在临床诊断中显示出巨大的潜力。

附图说明

图1是本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法的流程图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法，如图1所示，在本实施例中，包括步骤：

S1、构建由正常和病变的组织病理学图像组成的样本数据库，并将样本数据库分为用于训练的源域训练样本和目标域训练样本，以及用于测试的测试样本，源域训练样本全部带有标签，目标域训练样本少部分带有标签；

S3、将预训练模型作为特征提取层进行迁移，与四重级联域适应机制和新的全连接分类器重构为分类模型；

S4、利用源域训练样本和目标域训练样本对分类模型进行训练；

S5、利用测试样本对训练后的分类模型进行测试，获取预测结果。

在步骤S1中：

样本数据库内包含用于训练和测试的源域和目标域样本为正常和癌症乳腺组织病理学图像，被划分成采样块并经过一系列图像预处理操作；

样本数据库中，源域训练样本全部带有标签，目标域训练样本少部分带有标签；

样本数据库中的组织病理学图像可以接受JPEG、PNG或TIF格式的，不同分辨率的RGB彩色图像。

在步骤S2中：

预训练模型采用卷积神经网络模型，可包括常见的VGG模型、GoogleNet模型、ResNet等各种卷积神经模型，本实施例中的预训练模型定义为BreNet，由五个卷积模块和一个全连接模块组成。每一个卷积模块包含两个卷积层和一个池化层。全连接模块包含三层全连接层。卷积层的每个输出特征图是由多个输入特征图和内核进行卷积而来。池化层是通过核函数对前一层的输出进行池化处理。全连接层是通过权重连接所有神经元。

本实施例利用ImageNet数据集对搭建的神经网络模型进行预训练，使其满足特征提取要求，与四重级联域适应机制和新的全连接分类器重构为满足乳腺癌组织病理学图像分类任务的完整分类模型。

在步骤S3中，全连接分类器包含全连接层、批量规范化层和舍弃层；批量规范化层用于实现批量规范，使其输出均值为0，方差为1；舍弃层用于减少神经元个数以防止过拟合。

在步骤S3中，四重级联域适应机制描述为步骤：

S31、将源域训练样本和目标域训练样本输入预训练模型提取低阶、中阶和高阶特征并进行特征融合，得到源域融合样本F_S和目标域融合样本F_T；

S32、对源域融合样本F_S进行融合特征聚类得到源域融合聚类包络样本μ_S，并将源域融合聚类包络样本μ_S与源域融合样本F_S进行聚类包络对齐得到源域融合对齐样本F′_S；

S33、对源域融合对齐样本F′_S和目标域融合样本F_T进行流形融合对齐，后进行流形投影，得到源域融合投影样本

和目标域融合投影样本

S34、对源域融合投影样本

进行融合投影特征聚类得到源域融合聚类投影样本

并将源域融合聚类投影样本

与源域融合投影样本

进行二次聚类包络对齐，得到源域融合投影对齐样本

S35、将源域融合投影对齐样本

与目标域融合投影样本

进行流形聚类包络对齐。

所谓的四重级联域适应包括两次聚类包络对齐，流形融合对齐和流形聚类包络域自适应。

在步骤S31中，通过级联从BreNet不同层下采样的平均池化特征，使用多层特征融合丰富分类信息量：

其中，

代表拼接操作。GAP(·)代表全局平均池化操作。F代表生成的融合样本特征。Ω代表不同特征深度。N_l代表池化操作后的特征通道数。

是网络第l层的特征输出，表述为：

其中，f(·)是非线性激活函数。

是第l层的权重矩阵。

是线性的偏差矩阵。

在该步骤S32中，使用K-means算法进行无监督融合特征聚类，先选中k个样本点充当各个簇的初始中心点{μ₁,μ₂,...,μ_k}，即源域融合聚类包络样本，然后迭代重复以下两步骤：

2)重新计算簇中心μ_j：

其中，

为簇c_i的样本数量；

当达到最大迭代次数或者样本分配无变化时则聚类结束；

其中，||·||表示范数。

在步骤S32中，使用聚类包络对齐(CEA)准则来度量源域融合聚类包络样本空间和源域融合样本空间得到源域融合对齐样本F′_S：

其中，

和

表示源域融合样本F_S中一对随机的样本特征，

表示源域融合聚类包络样本μ_S中一对随机的样本特征，n_S表示源域融合样本F_S的数量，n_μ表示源域融合聚类包络样本μ_S的聚类中心的数量，Θ(·)代表高斯核函数，表示为：

其中，x和y表示两个样本，σ表示局部作用范围参数。

在步骤S33中，使用流形聚类特征融合对齐(MCFA)准则(流形融合对齐)来度量源域融合对齐样本空间和目标域融合样本空间：

其中，

和

表示源域融合对齐样本F′_S中一对随机的样本特征，

和

表示目标域融合样本F_T中一对随机的样本特征，n_T表示目标域融合样本F_T的数量。

将融合样本特征进行流形投影，减少融合特征的冗余度。低维空间中的融合投影样本特征

可以表示为：

其中，f_MP(·)是一个单调递增的激活函数，用于保证投影前后的特征间距离成正比。W_MP是流形投影矩阵。从而得到源域融合投影样本

和目标域融合投影样本

在步骤S34中，源域融合投影样本

经K-means聚类后得到源域融合聚类投影样本

其聚类损失函数L_C2表示为：

然后，利用流形重构方法通过进一步重构公共子空间来最小化源域和目标域之间的流形投影融合特征分布的发散性。将源域融合聚类投影样本

与源域融合投影样本

进行二次聚类包络对齐，得到源域融合投影对齐样本

其中，

表示源域融合投影样本

中一对随机的样本特征，

表示源域融合聚类投影样本

中一对随机的样本特征，

表示源域融合聚类投影样本

的聚类中心的数量。

在步骤S5中，将源域融合投影对齐样本

与目标域融合投影样本

进行流形聚类包络对齐，表示为：

其中，

表示源域融合投影对齐样本

中一对随机的样本特征。

在步骤S35中，流形投影正则项

表示为：

其中，

和

表示源域融合投影对齐样本

中的一对样本特征，

表示目标域融合投影样本

中相邻的一对样本特征，W_MP表示流形投影矩阵，

为W的对角矩阵，L＝D-W定义为D与W的差值矩阵，

F_i和F_j是两个融合样本特征，σ是局部作用范围参数，n表示特征总数。在训练过程中，分类模型的损失函数表示为：

其中，L_C(F_S,μ)表示步骤S32中对源域融合样本F_S进行融合特征聚类的损失，μ表示本次聚类的簇中心；

表示步骤S34中对源域融合投影样本

进行融合投影特征聚类的损失，

表示本次聚类的簇中心；

重级联域适应机制的损失，L_CEA(F_S,μ_S)表示步骤32中将源域融合聚类包络样本μ_S与源域融合样本F_S进行聚类包络对齐的损失，L_MCFA(F′_S,F_T)表示步骤S33中对源域融合对齐样本F′_S和目标域融合样本F_T进行流形融合对齐的损失，

表示将源域融合聚类投影样本

与源域融合投影样本

进行二次聚类包络对齐的损失，

表示步骤S35中将源域融合投影对齐样本

与目标域融合投影样本

进行流形聚类包络对齐的损失，α表示四重级联域适应损失函数

的平衡系数；

表示步骤S35中进行流形聚类包络对齐中流形投影的损失；

目标域的交叉熵损失

c表示图片类别的数量，

和

分别表示源域和目标域第m种类别的第i张样本，

和

表示源域和目标域第m种类别的第i张样本的真实标签，

表示源域样本预测为真实的概率，

表示目标域样本预测为真实的概率。最后综合一张乳腺癌组织病理图像下的所有采样块级别分类结果得到图片级别分类结果。假设每个检测样本x被切割为n个采样块，每个采样块的网络输出为s，则该图像的分类结果为：

其中，||s_ij||表示第i个采样块属于第j类的概率，

表示所有采样块属于第j类的概率，该值最大时图像将被预测为第j类。

具体实施时，使用三个乳腺癌组织病理学图像数据集:两个公共数据集和一个私人数据集。实验的主要部分是在两个公共数据集上进行。最后使用私人数据集验证了该方法的鲁棒性。公共数据集BreakHis提供了7909个乳腺组织切片，分辨率为700×460。病理图像采用40×、100×、200×、400×四种放大倍数，由病理学家进行标注。另一个公共数据库ICIAR-2018包含400张乳腺活检图像，分辨率为2048×1536。根据每幅图像中主要的癌症类型，显微图像被标记为正常、良性、原位癌或浸润性癌。为了满足分类的要求，将其中的四个类别合并为良性和恶性两个类别。私人数据集中包含134张分辨率为512×512的乳腺组织病理学图像。其中包括正常细胞、癌变初期细胞和恶性细胞，也合并为良性和恶性两类。实验结果：超过94％的F1-score和超过92％的准确率。

综上，本发明实施例提供的基于四重级联域适应机制的组织病理学图像分类方法，搭建卷积神经网络进行特征迁移，综合卷积神经网络中不同深度提取的特征，构建八重异构样本空间(包括源域融合样本空间和目标域融合样本空间，源域融合聚类包络样本空间，源域融合投影样本空间和目标域融合投影样本空间，源域融合投影聚类包络样本空间，源域融合投影对齐样本空间和融合投影对齐样本空间)，并对不同样本空间中的特征进行四重级联域适应(包括两次聚类包络对齐，流形融合对齐和流形聚类包络域自适应)。本方法仅使用少量带标签数据对模型进行训练即可大幅提升分类性能，满足乳腺癌组织病理图像的分类要求，且具有较强的鲁棒性，自适应性和抗过拟合性能。本方法能够允许不同格式和分辨率的图像输入，具有较高的准确性和稳定性。该方法对三个乳腺癌组织病理学图像数据集进行测试，实验结果(超过94％的F1-score和超过92％的准确率)证实了该方法的有效性和鲁棒性，在临床诊断中显示出巨大的潜力。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。