CN116385373A

CN116385373A - 结合稳定学习与混合增强的病理学图像分类方法及系统

Info

Publication number: CN116385373A
Application number: CN202310252563.9A
Authority: CN
Inventors: 曹欣; 汪志伟; 赵凤军; 苏临之
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-07-04

Abstract

本发明属于医学图像处理和深度学习技术领域，公开了一种结合稳定学习与混合增强的病理学图像分类方法及系统，获取病理学图像数据集，将病理学图像数据集划分为训练集、验证集、测试集以及外部验证集，并对病理学图像数据集进行预处理；构建结合稳定学习和混合增强的深度学习网络并利用训练集进行训练，利用验证集获得最优的深度学习网络模型；将测试集和外部验证集输入至最优的深度学习网络模型中，输出病理学图像分类结果。本发明利用拟合较好的病理学图像分类模型，有效改善传统模型的过拟合问题和对域偏移数据识别能力弱的问题，提升了独立同分布数据的识别精度，提高了病理学图像分类模型的鲁棒性和泛化能力以及病理学图像的诊断准确率。

Description

结合稳定学习与混合增强的病理学图像分类方法及系统

技术领域

本发明属于医学图像处理和深度学习技术领域，尤其涉及一种结合稳定学习与混合增强的病理学图像分类方法及系统。

背景技术

目前，病理学图像分类对于提高医疗质量、加速疾病诊断和治疗、促进医学研究等方面都有着重要的意义，然而随着病理学应用的爆炸性增长，世界范围内，病理学家的稀缺性对高效、准确、便捷的子宫内膜医疗提出了严峻挑战。计算机辅助诊断为病理学图像提供了一个自动化的替代方案，提高了病理学家的工作效率，它主要利用特征工程的机器学习方法或端到端的深度学习方法，然而，这些方法通常是基于训练和测试数据是相同和独立分布的假设，这种假设在现实中并不总是成立的，当训练数据和测试数据的概率分布不同，即产生了域偏移时，模型的性能往往会下降，导致疾病诊断的不准确。因此，增强模型的泛化能力和鲁棒性，改善域偏移数据带来的影响对于疾病的诊断具有重要意义，也成为了研究人员重点关注的问题。利用特征工程的机器学习在小样本数据集上表现良好，然而，这些算法严重依赖手工制作的特征和专业领域知识。端到端的深度学习方法可以自动处理更复杂的数据和模式，无需手动提取特征。利用特征工程的机器学习方法或端到端的深度学习方法尽管性能令人满意，但它们通常基于i.i.d假设。

由于切片厚度、存储时间、人口学特征和数据采集方法的差异，病理图像之间的质量、颜色、风格和分辨率可能存在差异。这可能会导致域偏移，从而导致原始模型在识别由图像损坏或对抗性噪声引起的域偏移数据时表现不佳。导致疾病诊断的不准确。

单域泛化方法仅使用一个源域来学习一种模型，该模型可以识别分布不同的目标域中的常见模式和特征。单域泛化方法通常作为域偏移问题的通用解决方案，例如自我挑战表征学习、混合增强、深度稳定学习网络。具体来说，自我挑战表征学习通过在训练期间重复消除主要特征，并强制网络激活与标签相关的剩余特征，提高了卷积神经网络对域偏移数据的泛化。混合增强通过数据增强操作结合一致性损失提高模型的鲁棒性和不确定性度量。深度稳定学习网络通过样本加权消除相关和不相关特征之间的统计相关性，从而提高深度模型的泛化能力。它们在计算机视觉图像上取得了令人满意的性能，这些图像包含相对容易区分的对象(例如房屋、人或动物)，并包含与对象形成鲜明对比的背景。然而在病理学图像中，不同组织之间的区别依赖于更复杂的特征，例如从全局(腺体与间质比例)到局部(细胞结构异型)的特征。当直接将这些方法应用于病理学图像时，病理学图像和计算机视觉图像之间的巨大差异可能会导致它们的性能不是最优。

通过上述分析，现有技术存在的问题及缺陷为：现有利用特征工程的机器学习方法或端到端的深度学习方法通常基于训练和测试数据是相同和独立分布假设，这种假设在现实中并不总是成立；当训练数据和测试数据的概率分布不同，即产生了域偏移时，模型的性能往往会下降，导致疾病诊断的不准确。目前先进的单域泛化方法在病理学图像分析方面处于起步阶段，当直接将现有的单域泛化方法应用于病理学图像时，病理学图像和计算机视觉图像之间的巨大差异可能会导致它们有一定的局限性。

发明内容

针对现有技术存在的问题，本发明提供了一种结合稳定学习与混合增强的病理学图像分类方法及系统。

本发明是这样实现的，一种结合稳定学习与混合增强的病理学图像分类方法，结合稳定学习与混合增强的病理学图像分类方法包括：获取病理学图像数据集，将病理学图像数据集划分为训练集、验证集、测试集以及外部验证集，并对病理学图像数据集进行预处理；构建结合稳定学习和混合增强的深度学习网络并利用训练集进行训练，利用验证集获得最优深度学习网络模型；将测试集和外部验证集输入最优深度学习网络模型中，输出病理学图像分类结果。

进一步，结合稳定学习与混合增强的病理学图像分类方法包括以下步骤：

步骤一，获取两个包含相同类别但制备时间不同的病理学图像数据集，将第一个数据集按照一定比例划分得到训练集、验证集以及测试集，将第二个数据集作为外部验证集，并对数据集进行预处理；

步骤二，构建稳定学习网络和混合增强模块，并构建结合稳定学习和混合增强的深度学习网络；

步骤三，使用训练集对网络进行训练，在训练过程中利用验证集对网络进行验证并选取网络模型；

步骤四，将测试集和外部验证集输入选取好的网络模型中，得到病理学图像分类结果。

进一步，步骤一中的对病理学图像数据集进行预处理包括：

将病理学图像数据集中的每一幅图像调整尺寸大小至224像素*224像素，用于匹配深度学习网络的输入大小。

进一步，步骤二中的构建稳定学习网络和混合增强模块，并构建结合稳定学习和混合增强的深度学习网络，包括：

(1)搭建稳定学习网络；

稳定学习网络包含特征提取器f、分类器g以及样本加权模块，其中网络通过样本加权模块消除在表征空间中特征之间的依赖性，并通过随机傅里叶特征测量特征之间的一般独立性；在训练阶段，稳定学习网络使用样本加权模块对每个批次的样本赋予权重，样本加权模块计算样本权重的同时保存全局信息。

样本X_L经过特征提取器f得到特征图Z_L＝f(X_L)，随后样本加权模块将特征图Z_L与提前保存的全局特征矩阵

连接，形成连接后的结果Z_O，则：

从全局权值矩阵

学习当前批次的样本权重W_L，其中k表示预先保存全局特征和权值的个数，它和批量大小相同：

式中，B为批量大小且

w表示样本权值且

ω_i表示每一个样本权值，它们的加和等于样本权值的个数；/>

表示特征Z_O：，i和Z_O：，j对应加权后的偏交叉协方差矩阵，它是由测量一般独立性的随机傅里叶特征(Random Fourier Features，RFF)映射函数获得的。

随后将当前批次的特征和权值与之前的全局特征和权值进行整合，则：

式中，对于每组全局信息

α_i为平滑参数用于分析全局信息，当α_i较大时用于分析全局信息中的长期记忆，α_i较小用于分析全局信息中的短期记忆；将所有

替换为/>

作为下个训练批次的初始化。

(2)搭建混合增强模块；

定义数据增强操作，包括最大化图像对比度、均衡图像的直方图、改变图像像素点的值、旋转、剪切和平移；采样k个增强链，每个增强链由一到三个随机选择的增强操作组合而成；

从增强链得到的图像通过使用元素凸组合形成增强链的结果，其中凸系数的k维向量(ω₁，ω₂，...，ω_k)是从Dirichlet(α，α，...，α)分布中随机采样的，则：

式中，(ω₁，ω₂，...，ω_k)～Dirichlet(α，α，...，α)，chain为每个增强链对输入图像X_org执行的结果；在经过增强链的图像混合后，使用跳跃连接从Beta(α，α)分布采样的第二个随机凸组合组合增强链的结果和原始图像形成增强图像X_auggmix，则：

X_augmix＝mX_org+(1-m)X_aug；

式中，m表示凸组合系数且m～Beta(α，α)。

(3)构建结合稳定学习和混合增强的深度学习网络；

对于每个批次样本的输入数据(X_L，Y_L)，X_L通过混合增强模块得到两个视图X_augmix1和X_augmix2，使得输入网络的总体视图包括三个：X_L，X_augmix1和X_augmix2；将输入的所有视图归一化到(0，1)，公式为X＝X/255.0；将每个通道标准化分布到(-1，1)，公式为X＝X-mean/std，其中mean为均值，std为标准差。

样本X_L经过特征提取器f得到特征图Z_L＝f(X_L)，经过样本加权模块计算样本权重W_L；特征图Z_L经过分类器g得到输出logits_L＝g(Z_L)并计算交叉熵损失，与样本权重W_L进行逐元素相乘得到优化特征提取器f和分类器g的第一个损失，则：

式中，B为批量大小，L(·，·)返回的是批次中每个样本的交叉熵损失，

表示批量中的样本i对应的样本权重，/>

表示批量中的样本i对应的标签。

视图X_augmix1和X_augmix2分别经过特征提取器f和分类器g得到输出logits_augmix1＝g(f(X_augmix1))和logits_augmix2＝g(f(X_augmix2))，随后计算后验分布p_L＝softmax(logits_L)、p_augmix1＝softmax(logits_augmix1)和p_augmix2＝softmax(logits_augmix2)；通过最小化原始样本X_L以及增强变体X_augmix1和X_augmix2的后验分布之间的Jensen-Shannon一致性损失JS(p_L；p_augmix1；p_augmix2)得到优化特征提取器f和分类器g的第二个损失，用于促使模型在不同的输入范围内保持稳定，则：

式中，M＝(p_L+p_augmix1+p_augmix2)/3，KL[·]表示Kullback-Leibler散度。

使用如下总损失更新特征提取器f和分类器g，则：

式中，a，b∈[0，1]且

为交叉熵损失函数，返回的是批次中整体样本的平均交叉熵损失。

进一步，步骤三中的使用训练集对网络进行训练，在训练过程中利用验证集对网络进行验证并选取网络模型包括：

(1)使用训练集对网络进行训练，将训练集输入网络中，计算总损失

并使用总损失更新特征提取器f和分类器g的参数；

(2)使用验证集进行测试并选取网络模型；

对验证集进行数据处理，包括归一化和标准化；在验证时，数据跳过样本加权模块，直接经过特征提取器f和分类器g预测输出预测标签y_pred；

式中，z为分类器的输出，C为类别数量。

将预测标签y_pred与真实标签比较计算验证集精度，并使用早停策略，当验证集精度在训练一定的轮数e不再上升时，训练停止，保存训练过程中在验证集上的最优模型。

进一步，步骤四中的将测试集和外部验证集输入选取好的网络模型中，得到病理学图像分类结果包括：

(1)将测试集和外部验证集输入到步骤三选取的模型中，数据处理包括归一化和标准化，在测试两个数据集时，数据跳过样本加权模块，直接经过特征提取器f和分类器g预测输出预测标签；

(2)计算测试集和外部验证集的分类准确率。

本发明的另一目的在于提供一种应用所述的结合稳定学习与混合增强的病理学图像分类方法的结合稳定学习与混合增强的病理学图像分类系统，结合稳定学习与混合增强的病理学图像分类系统包括：

图像数据获取模块，用于获取两个包含相同类别但制备时间不同的病理学图像数据集；

数据预处理模块，用于将第一个数据集按照一定比例划分得到训练集、验证集以及测试集，将第二个数据集作为外部验证集，并对数据集进行预处理；

网络构建模块，用于构建稳定学习网络和混合增强模块，并构建结合稳定学习和混合增强的深度学习网络；

网络训练模块，用于使用训练集对网络进行训练，在训练过程中利用验证集对网络进行验证并选取网络模型；

图像分类模块，用于将测试集和外部验证集输入选取好的网络模型中，得到病理学图像分类结果。

本发明的另一目的在于提供一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的结合稳定学习与混合增强的病理学图像分类方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的结合稳定学习与混合增强的病理学图像分类方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，信息数据处理终端用于实现所述的结合稳定学习与混合增强的病理学图像分类系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一，针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明采用结合稳定学习和混合增强的深度学习网络对病理学图像进行分类，该网络通过稳定学习来学习训练样本的权重以消除特征之间的依赖关系并改善训练数据和测试数据之间分布变化的影响，并通过混合增强提高了模型的鲁棒性和不确定性度量，提高疾病诊断的准确率。本发明得到了拟合较好的病理学图像分类模型，有效解决了现有深度学习模型对域偏移数据泛化能力弱的问题，提升了独立同分布数据的识别精度，有效地改善了疾病诊断的准确率。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明提供的结合稳定学习与混合增强的病理学图像分类方法，能够有效改善传统机器学习模型和深度学习模型的过拟合问题，不仅提升了独立同分布数据的识别精度，也改善了改善域偏移带来的影响，更好地识别域偏移数据，并提高了模型的鲁棒性和泛化能力以及病理学图像的诊断准确率。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

(1)本发明的技术方案转化后的预期收益和商业价值为：

本发明旨在改善病理学图像中的域偏移问题，它将带来许多预期收益和商业价值，提高病理学诊断的准确性和可靠性，医疗机构可以更快速地诊断和处理病例，减少病人的等待时间，提高机构的效率和生产力，也可以帮助医疗机构更好地管理医疗资源，提供更好的医疗服务，促进医疗科技的创新和发展。

(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题：

本发明改善了病理图像之间可能存在差异而导致域偏移的问题，传统的机器学习或深度学习方法并不能很好地改善域偏移这个问题，本发明使原始模型能够更加准确地识别由图像损坏或对抗性噪声引起的域偏移数据，从而使疾病诊断更准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的结合稳定学习与混合增强的病理学图像分类方法流程图；

图2是本发明实施例提供的结合稳定学习与混合增强的病理学图像分类方法原理图；

图3是本发明实施例提供的结合稳定学习与混合增强的深度学习网络结构示意图；

图4是本发明实施例提供的模型对验证集、测试集和外部验证集数据的识别流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种结合稳定学习与混合增强的病理学图像分类方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的结合稳定学习与混合增强的病理学图像分类方法包括以下步骤：

S101，获取病理学图像数据集，将病理学图像数据集划分为训练集、验证集、测试集以及外部验证集，并对数据集进行预处理；

S102，构建结合稳定学习和混合增强的深度学习网络并利用训练集进行训练，利用验证集获得最优的深度学习网络模型；

S103，将测试集和外部验证集输入至最优的深度学习网络模型中，并输出病理学图像分类结果。

作为优选实施例，如图2所示，本发明实施例提供的结合稳定学习与混合增强的病理学图像分类方法具体包括以下步骤：

(1)获取两个包含相同类别但制备时间不同的病理学图像数据集，将第一个数据集按照一定比例划分得到训练集、验证集以及测试集，将第二个数据集作为外部验证集，最后对数据集进行预处理以满足深度学习网络的输入大小；

对病理学图像数据集进行预处理的方法是将病理学图像数据集中的每一幅图像调整尺寸大小至224像素*224像素，以匹配深度学习网络的输入大小。

(2)构建稳定学习网络和混合增强模块，并构建结合稳定学习和混合增强的深度学习网络，具体包括：

(2.1)搭建稳定学习网络：

(2.1.1)搭建的稳定学习网络包含一个特征提取器f，一个分类器g以及样本加权模块，其中网络通过样本加权模块来消除在表征空间中特征之间的依赖性，并通过随机傅里叶特征来测量特征之间的一般独立性。在训练阶段，稳定学习网络使用样本加权模块对每个批次的样本赋予权重。

(2.1.2)其中样本加权模块计算样本权重的同时保存了全局信息，表述如下：

连接，形成连接后的结果Z_O，则：

从全局权值矩阵

式中，B为批量大小且

w表示样本权值矩阵且

式中，对于每组全局信息

替换为/>

作为下个训练批次的初始化。

(2.2)搭建混合增强模块；

(2.21)定义数据增强操作，包括最大化图像对比度、均衡图像的直方图、改变图像像素点的值、旋转、剪切和平移。然后采样k个增强链，每个增强链由一到三个随机选择的增强操作组合而成。

(2.22)从这些增强链得到的图像通过使用元素凸组合来形成增强链的结果，其中凸系数的k维向量(ω₁，ω₂，...，ω_k)是从Dirichlet(a，α，...，α)分布中随机采样的，表述为以下公式：

其中，(ω₁，ω₂，...，ω_k)～Dirichlet(a，α，...，α)，chain为每个增强链对输入图像X_org执行的结果。在经过增强链的图像混合后，使用“跳跃连接”通过从Beta(a，α)分布采样的第二个随机凸组合来组合增强链的结果和原始图像形成最终的增强图像X_augmix，表述为以下公式：

X_augmix＝mX_org+(1-m)X_aug

其中，m表示凸组合系数且m～Beta(α，α)。

(2.3)构建结合稳定学习和混合增强的深度学习网络(见图3)。

(2.31)对于每个批次样本的输入数据(X_L，Y_L)，X_L首先通过混合增强模块得到两个视图X_augmix1和X_augmix2，使得输入网络的总体视图有三个，即X_L，X_augmix1和X_augmix2。随后，将输入的所有视图归一化到(0，1)，表述为公式X＝X/255.0。再将每个通道标准化分布到(-1，1)，表述为公式X＝X-mean/std，其中mean为均值，std为标准差。

(2.32)样本X_L经过特征提取器f得到特征图Z_L＝f(X_L)，并经过样本加权模块计算样本权重W_L，同时特征图Z_L经过分类器g得到输出logits_L＝g(Z_L)并计算交叉熵损失，随后与样本权重W_L进行逐元素相乘得到优化特征提取器f和分类器g的第一个损失，表述为以下公式：

其中，B为批量大小，L(·，·)返回的是批次中每个样本的交叉熵损失。

(2.33)视图X_augmix1和X_augmix2分别经过特征提取器f和分类器g得到输出logits_augmix1＝g(f(X_augmix1))和logits_augmix2＝g(f(X_augmix2))，随后计算后验分布p_L＝softmax(logits_L)、p_augmix1＝softmax(logits_augmix1)和p_augmix2＝softmax(logits_augmix2)。最后通过最小化原始样本机及其增强变体X_augmix1和X_augmix2的后验分布之间的Jensen-Shannon一致性损失JS(p_L；p_augmix1；p_augmix2)得到优化特征提取器f和分类器g的第二个损失，用于促使模型在不同的输入范围内保持稳定，表述为以下公式：

其中，M＝(p_L+p_augmix1+p_augmix2)/3，KL[·]表示Kullback-Leibler散度。

(2.34)为了平衡在训练过程中稳定学习和混合增强对于网络训练的影响，本方法使用如下的总损失来更新特征提取器f和分类器g：

其中，a，b∈[0，1]且

(3)使用训练集对此网络进行训练，在训练过程中利用验证集对网络进行验证并选取网络模型；

(3.1)使用训练集对此网络进行训练，将训练集输入网络中，计算总损失

并使用总损失更新特征提取器f和分类器g的参数；

(3.2)使用验证集进行测试并选取网络模型。

(3.21)对验证集进行数据处理，方法同训练集，包括归一化和标准化，但不包括混合增强，在验证时，数据跳过样本加权模块，直接经过特征提取器f和分类器g预测输出预测标签y_pred，表述为以下公式：

其中，z为分类器的输出，C为类别数量。

(3.22)将预测标签y_pred与真实标签比较计算验证集精度，并使用早停策略，即当验证集精度在训练一定的轮数e不再上升时，训练停止，保存训练过程中在验证集上的最优模型。

(4)将测试集和外部验证集输入选取好的网络模型中，得到病理学图像分类结果，具体包括：

(4.1)将测试集和外部验证集输入到步骤(3)选取的模型中，数据处理包括归一化和标准化，在测试两个数据集时，数据跳过样本加权模块，直接经过特征提取器f和分类器g预测输出预测标签；

(4.2)计算测试集和外部验证集的分类准确率。

本发明实施例提供的网络模型对验证集、测试集和外部验证集数据的识别流程如图4所示。

本发明实施例提供的结合稳定学习与混合增强的病理学图像分类系统包括：

为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本发明作为主要算法，应用在一个子宫内膜癌计算机辅助诊断系统上上，此系统接受二维的组织病理学图像数据和标签作为训练输入，然后将训练数据送入结合稳定学习与混合增强的网络中进行训练，得到分类模型，并存储于子宫内膜癌计算机辅助诊断系统中。此系统也接受二维的组织病理学图像数据作为测试输入，然后将测试数据送入训练完成的深度学习分类模型中得到预测输出，最后，子宫内膜癌计算机辅助诊断系统输出该图像的预测类别：正常子宫内膜或子宫内膜腺癌或子宫内膜息肉或子宫内膜增生。

作为优选实施例，本发明获取了两个包含相同类别的公开的子宫内膜组织病理学图像数据集。两个数据集包含相同的类别，第二个数据集的收集时间在第一个数据集之后，并且像素大小与第一个数据集不一致。第一个数据集包含3302个数字图像补丁(640×480像素)，其中包括4类数字图像补丁，即1333张正常子宫内膜(Normal Endometrium，NE)(月经期21张、黄体期600张和卵泡期712张)，636张子宫内膜息肉(Endometrial Polyp，EP)，798张增生(516张简单增生和282张复杂增生)，以及535张子宫内膜腺癌(EndometrialAdenocarcinoma EA)。第二个数据集包含4类数字图像补丁(1280×960像素)，其中包括74张正常子宫内膜，12张子宫内膜息肉，55张增生和59张子宫内膜腺癌。

然后，将第一个数据集按8：1：1划分为训练集、验证集和测试集，将第二个数据集作为外部验证集，所有图像都被调整到224像素*224像素，以满足深度学习网络的输入大小。

(2)构建稳定学习网络和混合增强模块，并构建结合稳定学习和混合增强的深度学习网络；

(2.1)搭建稳定学习网络：

作为优选实施例，本发明使用具有ImageNet预训练权重的ResNet50网络作为特征提取器f；分类器g包含三个全连接层，其大小分别为512、512和4，在层之间使用了批量归一化(Batch Normalization，BN)和ReLU激活函数。

(2.1.2)其中样本加权模块计算样本权重的同时保存了全局信息，表述如下：样本X_L经过特征提取器f得到特征图Z_L＝f(X_L)，随后样本加权模块将特征图Z_L与提前保存的全局特征矩阵

连接，形成连接后的结果Z_O，则：

从全局权值矩阵

式中，F表示的是特征层面的偏交叉协方差矩阵的计算，B为批量大小且

w表示样本权值矩阵且/>

式中，对于每组全局信息

替换为/>

作为下个训练批次的初始化。

作为优选实施例，本发明使用的批量大小B的取值为16，α_i的取值为0.9，初始时全局特征矩阵大小为16×2048且值全为0，全局权值矩阵大小为16×1且值为1，在每次学习样本权重时，使用SGD优化器，训练轮数为20，学习率为1，动量为0.9。

(2.2)搭建混合增强模块；

(2.22)从这些增强链得到的图像通过使用元素凸组合来形成增强链的结果，其中凸系数的k维向量(ω₁，ω₂，...，ω_k)是从Dirichlet(α，α，...，α)分布中随机采样的，表述为以下公式：

其中，(ω₁，ω₂，...，ω_k)～Dirichlet(α，α，...，α)，chain为每个增强链对输入图像X_org执行的结果。在经过增强链的图像混合后，使用“跳跃连接”通过从Beta(α，α)分布采样的第二个随机凸组合来组合增强链的结果和原始图像形成最终的增强图像X_augmix，表述为以下公式：

X_augmix＝mX_org+(1-m)X_aug

其中，m表示凸组合系数且m～Beta(α，α)。

作为优选实施例，本发明使用k的取值为3，α的取值为1。

(2.3)构建结合稳定学习和混合增强的深度学习网络。

(2.31)如图3所示，对于每个批次样本的输入数据(X_L，Y_L)，X_L首先通过混合增强模块得到两个视图X_augmix1和X_augmix2，使得输入网络的总体视图有三个，即X_L，X_augmix1和X_augmix2。随后，将输入的所有视图归一化到(0，1)，表述为公式X＝X/255.0。再将每个通道标准化分布到(-1，1)，表述为公式X＝X-mean/std，其中mean为均值，std为标准差。

(2.33)视图X_augmix1和X_augmix2分别经过特征提取器f和分类器g得到输出logits_augmix1＝g(f(X_augmix1))和logits_augmix2＝g(f(X_augmix2))，随后计算后验分布p_L＝softmax(logits_L)、p_augmix1＝softmax(logits_augmix1)和p_augmix2＝softmax(logits_augmix2)。最后通过最小化原始样本X_L及其增强变体X_augmix1和X_augmix2的后验分布之间的Jensen-Shannon一致性损失JS(p_L；p_augmix1；p_augmix2)得到优化特征提取器f和分类器g的第二个损失，用于促使模型在不同的输入范围内保持稳定，表述为以下公式：

其中，a，b∈[0，1]且

作为优选实施例，本发明使用的mean的取值为0.5，std的取值为0.5，a的取值为0.75，b的取值为0.5。

(3)使用训练集对此网络进行训练，在训练过程中利用验证集对网络进行验证并选取网络模型：

并使用总损失更新特征提取器f和分类器g的参数；

(3.2)使用验证集进行测试并选取网络模型。

(3.21)对验证集进行数据处理，方法同训练集，包括归一化和标准化，但不包括混合增强，在验证时，数据跳过样本加权模块，直接经过特征提取器f和分类器g预测输出预测标签y_pred，表述为以下公式。

其中，z为分类器的输出，C为类别数量。

作为优选实施例，本发明使用的C的取值为4，e的取值为30。

(4.1)将测试集和外部验证集输入到步骤(3)选取的模型中，数据处理包括归一化和标准化，在测试两个数据集时，数据跳过样本加权模块，直接经过特征提取器f和分类器g预测输出预测标签。

(4.2)计算测试集和外部验证集的分类准确率。

评价本发明实施例提供的病理学图像分类方法的评估标准为测试集和外部验证集的准确率均值，以平衡模型对独立同分布数据和具有域偏移数据的预测精度，为了和本发明实施例作对比，采取不同值的a，b组合，包括(0，1)、(1，0)、(0，0)。当a，b＝(0，1)时，本发明和使用Augmix方案相同；当a，b＝(1，0)时，本发明和使用StableNet方案相同；当a，b＝(0，0)时，本发明和使用传统的神经网络ResNet50分类方案相同，此外，本发明还与两个单源域泛化方法CNSN和RSC作对比。如表1所示，实验结果表明，传统的网络对于外部验证集的识别精度较低，而本发明实施例提供的结合稳定学习与混合增强的病理学图像分类方法在公开子宫内膜组织病理学数据集上的测试集和外部验证集上均取得了最佳的实验结果，表明本发明的分类方法具有较好的泛化能力和鲁棒性。

表1对比实验结果

方法	验证集	测试集	外部验证集	平均值
					a＝1，b＝0(StableNet)	0.791541	0.817073	0.675	0.746036
a＝0，b＝1(Augmix)	0.779456	0.789634	0.805	0.797317
					a＝0，b＝0(ResNet50)	0.773414	0.765244	0.615	0.690122
CNSN	0.788520	0.765244	0.845	0.805122
					RSC(dropf＝1/3)	0.782477	0.807927	0.69	0.748963
a＝0.75，b＝0.5(本发明)	0.800604	0.810976	0.845	0.827988

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种结合稳定学习与混合增强的病理学图像分类方法，其特征在于，结合稳定学习与混合增强的病理学图像分类方法包括：获取病理学图像数据集，将病理学图像数据集划分为训练集、验证集、测试集以及外部验证集，并对病理学图像数据集进行预处理；构建结合稳定学习和混合增强的深度学习网络并利用训练集进行训练，利用验证集获得最优的深度学习网络模型；将测试集和外部验证集输入至最优的深度学习网络模型中，输出病理学图像分类结果。

2.如权利要求1所述的结合稳定学习与混合增强的病理学图像分类方法，其特征在于，结合稳定学习与混合增强的病理学图像分类方法包括以下步骤：

3.如权利要求2所述的结合稳定学习与混合增强的病理学图像分类方法，其特征在于，步骤一中的对病理学图像数据集进行预处理包括：

4.如权利要求2所述的结合稳定学习与混合增强的病理学图像分类方法，其特征在于，步骤二中的构建稳定学习网络和混合增强模块，并构建结合稳定学习和混合增强的深度学习网络，包括：

(1)搭建稳定学习网络；

稳定学习网络包含特征提取器f、分类器g以及样本加权模块，其中网络通过样本加权模块消除在表征空间中特征之间的依赖性，并通过随机傅里叶特征测量特征之间的一般独立性；在训练阶段，稳定学习网络使用样本加权模块对每个批次的样本赋予权重，样本加权模块计算样本权重的同时保存全局信息；

连接，形成连接后的结果Z_O，则：

从全局权值矩阵

学习当前批次的样本权重W_L，其中k表示预先保存全局特征和权值的个数,它和批量大小相同：

式中，B为批量大小且

w表示样本权值矩阵且

表示特征Z_O:,i和Z_O:,j对应加权后的偏交叉协方差矩阵，它是由测量一般独立性的随机傅里叶特征(Random Fourier Features,RFF)映射函数获得的。

式中，对于每组全局信息

α_i为平滑参数用于分析全局信息，当α_i较大时用于分析全局信息中的长期记忆，α_i较小用于分析全局信息中的短期记忆；将所有/>

替换为/>

作为下个训练批次的初始化；

(2)搭建混合增强模块；

从增强链得到的图像通过使用元素凸组合形成增强链的结果，其中凸系数的k维向量(ω₁,ω₂,…,ω_k)是从Dirichlet(α,α,...,α)分布中随机采样的，则：

式中，(ω₁,ω₂,…,ω_k)～Dirichlet(α,α,...,α)，chain为每个增强链对输入图像X_org执行的结果；在经过增强链的图像混合后，使用跳跃连接从Beta(α,α)分布采样的第二个随机凸组合组合增强链的结果和原始图像形成增强图像X_augmix，则：

X_augmix＝mX_org+(1-m)X_aug；

式中，m表示凸组合系数且m～Beta(α,α)；

(3)构建结合稳定学习和混合增强的深度学习网络；

对于每个批次样本的输入数据(X_L,Y_L)，X_L通过混合增强模块得到两个视图X_augmix1和X_augmix2，使得输入网络的总体视图包括三个：X_L,X_augmix1和X_augmix2；将输入的所有视图归一化到(0,1)，公式为X＝X/255.0；将每个通道标准化分布到(-1,1)，公式为X＝X-mean/std，其中mean为均值，std为标准差；

式中，B为批量大小，L(·,·)返回的是批次中每个样本的交叉熵损失；

视图X_augmix1和X_augmix2分别经过特征提取器f和分类器g得到输出logits_augmix1＝g(f(X_augmix1))和logits_augmix2＝g(f(X_augmix2))，随后计算后验分布p_L＝softmax(logits_L)、p_aufmix1＝softmax(logits_aufmix1)和p_aufmix2＝softmax(logits_aufmix2)；通过最小化原始样本X_L以及增强变体X_augmix1和X_augmix2的后验分布之间的Jensen-Shannon一致性损失JS(p_L；p_augmix1；p_augmix2)得到优化特征提取器f和分类器g的第二个损失，用于促使模型在不同的输入范围内保持稳定，则：

式中，M＝(p_L+p_augmix1+p_augmix2)/3，KL[·]表示Kullback-Leibler散度；

使用如下总损失更新特征提取器f和分类器g，则：

式中，a,b∈[0,1]且

5.如权利要求2所述的结合稳定学习与混合增强的病理学图像分类方法，其特征在于，步骤三中的使用训练集对网络进行训练，在训练过程中利用验证集对网络进行验证并选取网络模型包括：

并使用总损失更新特征提取器f和分类器g的参数；

(2)使用验证集进行测试并选取网络模型；

式中，z为分类器的输出，C为类别数量；

6.如权利要求2所述的结合稳定学习与混合增强的病理学图像分类方法，其特征在于，步骤四中的将测试集和外部验证集输入选取好的网络模型中，得到病理学图像分类结果包括：

(2)计算测试集和外部验证集的分类准确率。

7.一种应用如权利要求1～6任意一项所述的结合稳定学习与混合增强的病理学图像分类方法的结合稳定学习与混合增强的病理学图像分类系统，其特征在于，结合稳定学习与混合增强的病理学图像分类系统包括：

8.一种计算机设备，其特征在于，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～6任意一项所述的结合稳定学习与混合增强的病理学图像分类方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～6任意一项所述的结合稳定学习与混合增强的病理学图像分类方法的步骤。

10.一种信息数据处理终端，其特征在于，信息数据处理终端用于实现如权利要求7所述的结合稳定学习与混合增强的病理学图像分类系统。