CN116740117A

CN116740117A - 一种基于无监督域适应的胃癌病理图像分割方法

Info

Publication number: CN116740117A
Application number: CN202310686511.2A
Authority: CN
Inventors: 李庆利; 周惠惠; 王妍
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-12
Anticipated expiration: 2043-06-09
Also published as: CN116740117B

Abstract

本发明公开了一种基于无监督域适应的胃癌病理图像分割方法，包括以下步骤：获取胃癌病理的源域图像和目标域图像,并构建源域图像数据集和目标域图像数据集；对所述源域图像数据集进行判断，并基于所述源域图像数据集进行预训练，获取分割网络的预训练模型；基于所述分割网络的预训练模型构建第二mean‑teacher训练模型，实现基于所述第二mean‑teacher训练模型的无监督域适应分割训练，获取训练好的分割网络模型；采用所述训练好的分割网络模型对所述目标域图像进行预测，获取所述目标域图像数据集的像素级标注，实现基于无监督域适应的胃癌病理图像分割。

Description

一种基于无监督域适应的胃癌病理图像分割方法

技术领域

本发明属于数字图像处理技术领域，尤其涉及一种基于无监督域适应的胃癌病理图像分割方法。

背景技术

病理活检是目前诊断胃癌的“金标准”，它是指病理学家对采集得到的胃癌病理切片样本在显微镜下用肉眼进行观察，对大量细胞和组织区域进行分析识别从而做出诊断。但是这种方法不仅费时费力、还会因为病理学家的主观经验差异导致患者诊断结果不准确。因此，为了帮助病理学家建立一套客观统一的病理样本分析标准，基于全玻片数字化扫描技术(wholeslideimaging，WSI)的数字化病理分析在病理学领域得到了应用与发展。基于全玻片数字化扫描技术，将病理切片进行扫描得到高分辨率的数字病理图像，而后利用基于深度学习算法的图像处理技术对病理图像进行分类、检测、分割等分析，辅助病理学家进行进一步的组织分级或量化分析。

目前深度学习算法在数字化病理分析的三大主流任务之一—图像分割任务，能够帮助病理学家准确高效地识别与定位感兴趣区域，降低病理学家阅片难度，辅助病理学家进行癌症分化等级，评估治疗效果，实现预后评估。然而，目前的病理图像分割方法仍然高度依赖于大量具有像素级标注的数据。医学图像数据的人工标注需要由专业人员来进行，并且像素级标注过程费时费力，收集带有大量标注的数据集来训练深度学习模型难度非常大。

除此之外，在病理切片样本的制备过程中，必不可少的环节之一是组织染色，添加染色成分可以使自然透明的组织元素变得更容易区分。然而，染色过程以及扫描仪设备的差异均会导致数字化病理图像中的组织呈现出不同的颜色外观和亮度。不同患者的组织形态比如癌细胞形态、粘连程度、面积大小等也可能出现明显差异。即使是相同组织类型的病理图像数据，所述的颜色外观、亮度以及组织形态等差异不仅会影响病理学家的分析评估，还会降低深度学习分割算法的泛化性能。

发明内容

本发明的目的是提供一种基于无监督域适应的胃癌病理图像分割方法，该方法能够利用现有的胃癌病理图像的标注信息，实现对不同来源的胃癌病理图像的像素级标注。

为实现上述目的，本发明提供了一种基于无监督域适应的胃癌病理图像分割方法，包括以下步骤：

获取胃癌病理的源域图像和目标域图像,并构建源域图像数据集和目标域图像数据集；

对所述源域图像数据集进行判断，并基于所述源域图像数据集进行预训练，获取分割网络的预训练模型；

基于所述分割网络的预训练模型构建第二mean-teacher训练模型，实现基于所述第二mean-teacher训练模型的无监督域适应分割训练，获取训练好的分割网络模型；

采用所述训练好的分割网络模型对所述目标域图像进行预测，获取所述目标域图像数据集的像素级标注，实现基于无监督域适应的胃癌病理图像分割。

可选的，获取所述胃癌病理的源域图像和目标域图像,并构建所述源域图像数据集和所述目标域图像数据集包括：

将带有像素级标注的胃癌病理图像作为所述胃癌病理的源域图像，基于若干所述胃癌病理的源域图像构建所述源域图像数据集；

将无标注的胃癌病理图像数据作为所述胃癌病理的目标域图像，基于若干所述胃癌病理的目标域图像构建所述目标域图像数据集。

可选的，对所述源域图像数据集进行判断，并基于所述源域图像数据集进行预训练，获取所述分割网络的预训练模型包括：

若所述源域图像数据集的像素级标注无噪音，则基于所述源域图像数据集对分割网络模型进行预训练，获取所述分割网络的预训练模型；

若所述源域图像数据集的像素级标注有噪音，构建第一mean-teacher训练模型并基于所述源域图像数据集进行预训练，获取所述分割网络的预训练模型。

可选的，基于所述源域图像数据集对所述分割网络模型进行预训练，获取所述分割网络的预训练模型包括：

将所述胃癌病理源域图像输入所述分割网络模型，计算所述分割网络模型的输出和所述源域图像标注的损失函数；

所述分割网络模型利用所述源域图像标注的损失函数进行训练，并基于所述源域图像数据集对所述分割网络模型进行预训练，直至在所述目标域图像集上预测效果最好，获取所述分割网络的预训练模型。

可选的，构建所述第一mean-teacher训练模型并基于所述源域图像数据集进行预训练，获取所述分割网络的预训练模型包括：

构建若干个结构相同的所述分割网络模型；

基于若干个所述结构相同的分割网络模型，构建所述第一mean-teacher训练模型，所述第一mean-teacher训练模型包括第一教师模型和第一学生模型；

利用所述源域图像数据集对所述第一学生模型进行训练，并利用噪声标注校正方法对源域噪声标注进行校正，预训练获取所述分割网络的预训练模型。

可选的，利用所述源域图像数据集对所述第一学生模型进行训练，并利用噪声标注校正方法对所述源域噪声标注进行校正，预训练获取所述分割网络的预训练模型包括：

基于所述源域图像数据集，获取所述源域噪声标注；

将所述源域图像数据集输入所述第一教师模型进行预测，获取所述源域图像数据集的分割概率图；

采用噪声标注校正法，基于所述分割概率图估计获取所述源域噪声标注的二值化错误掩膜；

利用所述二值化错误掩膜对所述源域噪声标注进行校正，获取校正后的标注；

所述校正后的标注对所述第一学生模型进行预训练，直至获取所述目标域图像数据集的验证集上预测效果最好的第一学生模型；

所述预测效果最好的第一学生模型为所述分割网络的预训练模型。

可选的，基于所述分割网络的预训练模型构建所述第二mean-teacher训练模型，实现基于所述第二mean-teacher训练模型的无监督域适应分割训练，获取所述训练好的分割网络模型包括：

将所述分割网络的预训练模型作为第二教师模型，构建与所述分割网络的预训练模型结构相同的第二学生模型；

基于所述第二教师模型和所述第二学生模型，构建所述第二mean-teacher训练模型；

引入动态自适应染色变换，对所述源域图像和所述目标域图像进行跨染色风格增强，获取具有目标域图像染色风格的源域图像和目标域图像；

利用所述具有目标域图像染色风格的源域图像和目标域图像对所述第二学生模型进行无监督域适应分割训练，实现基于所述第二mean-teacher训练模型的无监督域适应分割训练，获取所述目标域图像数据集上分割效果最好的第二学生模型；

所述分割效果最好的第二学生模型为所述训练好的分割网络模型。

可选的，所述第二mean-teacher训练模型包括所述第二学生模型和所述第二教师模型；

所述第二学生模型采用随机初始化进行权重初始化；

所述第二教师模型采用所述分割网络的预训练模型进行权重初始化。

可选的，采用所述训练好的分割网络模型对所述目标域图像进行预测，获取所述目标域图像数据集的像素级标注包括：

采用所述训练好的分割网络模型对目标域图像进行预测，评估所述分割网络模型性能，获得目标域图像数据集的像素级标注。

本发明具有以下有益效果：

本发明所提出的一种基于无监督域适应的胃癌病理图像分割方法，可以通过采用噪声标注校正策略减轻标注噪声对分割网络模型带来的负面影响，利用动态自适应染色变换融合不同数据集的染色信息，提高分割网络模型对染色差异的鲁棒性，同时在训练过程中根据样本分割的难易程度调整图像对网络模型训练的贡献度，提高了胃癌病理图像分割算法的分割准确性；本发明充分利用了无监督域适应训练方法，提升了算法对病理图像染色外观差异和细胞形态差异的鲁棒性，实现对不同来源以及不同批次的胃癌病理图像的准确分割，减轻了深度学习算法对人工标注的工作需求。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一种基于无监督域适应的胃癌病理图像分割方法的方法流程图；

图2为本发明实施例提出的算法基本框架图，其中(a)为基于噪声标注校正的分割网络模型预训练阶段，(b)为基于动态自适应染色变换的无监督域适应分割训练阶段。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明的目的是利用有标注的数据作为源域数据，无标注的数据作为目标域数据，使用两个域的数据共同训练出一个统计模型，最小化源域与目标域数据之间的特征分布差异，使得源域带有的标注信息能够迁移至目标域数据上，从而实现无标注目标域数据的准确分割。该方法不仅能够通过域适应的方式解决不同来源病理图像之间的图像特征分布差异，还可以通过利用额外的无标注图像数据来减轻算法对人工标注的需求，实现了数据的高效利用。

如图1所示，本实施例中提供一种基于无监督域适应的胃癌病理图像分割方法，具体包括以下步骤：

步骤一、将无标注的胃癌病理图像数据定义为目标域图像数据集，选取带有像素级标注的胃癌病理图像公开数据集作为源域图像数据集。

将无标注数据作为目标域图像数据集X_t，并将其划分为目标域图像训练集、目标域图像验证集和目标域图像测试集；

其中，为目标域数据集中的第i张图像，N_t为目标域图像数量，i为单张图像标号，R为实数集，H为图像高度，W为图像宽度。

选择带有像素级标注的胃癌病理图像公开数据集作为源域图像数据集(X_s,Y_s)，源域数据集数量与目标域训练集数量尽可能接近；

其中，为源域图像，/>为源域图像标注，N_s为源域图像数量，M表示的是图像类别数，在本实施例中，分割类别有癌细胞和正常细胞，因此M＝2。

如果源域数据集标注是准确的，则进行步骤二，如果标注是包含噪声的，则进行步骤三。

步骤二、若源域数据集标注无噪声，采用源域图像数据集对分割网络模型进行预训练。

因为源域图像数据集的标注是准确的，因此可以直接使用源域图像数据集X_s对分割网络模型进行预训练，分割网络模型选用的是DAFormer网络模型，主要包含两个部分：编码器g_θ和解码器h_θ，其中使用mit-b0作为DAFormer的主干网络；

将源域图像输入至分割网络模型中，计算网络输出和源域图像标注/>的二进制交叉熵(BCE)损失函数和Dice损失函数，其计算公式分别为式(3)和式(4)：

其中，为第i张图像的二进制交叉熵(BCE)损失函数，j为像素点索引，/>为第i张图像的Dice损失函数。

预训练阶段，分割网络模型采用式(5)所示的损失函数进行训练；

其中，为第i张图像总的损失函数，/>为第i张图像的二进制交叉熵(BCE)损失函数，/>为第i张图像的Dice损失函数。

采用源域图像数据集对分割网络模型进行预训练，直至在目标域图像验证集上预测效果最好，从而获得分割网络模型的预训练模型；

步骤三、若源域数据集标注含有噪声，构建出两个结构相同的分割网络模型共同组建成mean-teacher训练架构。其中，一个分割网络模型作为学生模型；另一个分割网络模型作为教师模型，为学生模型的预训练提供辅助作用；

利用所述源域图像数据集对mean-teacher训练架构中的学生模型进行训练，并利用噪声标注校正方法对所述源域噪声标注进行校正，预训练获取所述预训练模型。

如图2(a)所示，mean-teacher训练架构包含一个教师模型和一个学生模型，两个模型均采用步骤二的DAFormer网络模型，学生模型的编码器和解码器分别表示为和解码器/>教师模型的编码器和解码器分别表示为/>和解码器/>学生模型采用梯度反传的方式进行权重更新，教师模型采用指数移动平均方法进行权重更新，二者的模型权重初始化均采用随机初始化的方式；

预训练过程中，将源域图像数据集X_s输入至教师模型进行预测，输出得到源域图像数据集X_s对应的分割概率图

采用基于置信度学习的噪声标注校正的方法，根据分割概率图估计得到噪声标注对应的二值化错误掩膜；掩膜值为1表示在源域数据集给出的噪声标注中，该像素点的标注是错误的，掩膜值为0表示该像素点的标注是正确的；

使用二值化错误掩膜对噪声标注进行校正，获得校正后的标注用于学生模型的预训练过程；

基于置信度学习的噪声标注校正方法具体由以下步骤实现：

1)给定一张图像X，其中任意一个像素点x，当它对应的标注y＝i，但是教师网络输出的分割概率图中判定为类别c₂的概率大于设定的阈值t_j，则可以认为像素点潜在的真实标注y^*＝j，阈值t_c2的计算公式如式(6)所示；

2)对于图像X以及给定的噪声标注Y，计算对应的置信度联合矩阵C_y,y*和联合分布矩阵计算公式分别如式(7)和式(8)所示；

其中，为教师模型输出的概率图中判断像素类别为c的概率值。

3)针对每个类别i∈M，选择图像X中n·∑_j∈M:j≠i(Q_y,y*[i][j])(n为图像X的像素点总数)个置信度最低的像素点作为标注错误的像素，从而获得二值化错误掩膜X_err，掩膜值为1表示该像素点的标注是错误的，掩膜值为0表示该像素点的标注是正确的；

4)根据式(9)校正噪声标注，获得校正过后的标注Y^clean；

Y^clean＝Y+X_err·(-1)^Y(9)

其中，Y为数据集给定的噪声标注。

但是由于根据教师模型的预测结果对标注进行校正过后可能仍然存在噪声，因此在预训练过程中通过式(10)计算教师模型预测结果的置信度。置信度越高，表示教师模型对该图像的预测结果越可靠，对训练损失值的贡献度可以越高，因此使用置信度作为预训练过程损失函数的加权因子，将式(5)调整为式(11)。

其中ρ_i为第i张图像的置信度，为第i张图象的第j个像素的教师预测概率值，M为图像类别数，在本实例中M＝2；

其中，为调整过后的第i张图像总的损失函数。

预训练得到在目标域验证集上预测效果最好的学生模型作为预训练模型并且使用该模型分割生成源域图像数据集的分割掩膜作为后续训练过程的源域图像标注；

步骤四、构建一个与所述预训练模型结构一致的分割网络模型作为学生模型，所述预训练模型作为教师模型，二者共同组建成mean-teacher训练架构，实现基于mean-teacher训练架构的无监督域适应分割训练，获取训练好的分割网络模型；

如图2(b)所示，步骤四中的mean-teacher训练架构与步骤三mean-teacher训练架构中的模型权重更新方法保持一致，但是步骤四中学生模型采用随机初始化的方式进行权重初始化，教师模型采用预训练模型进行权重初始化；

引入动态自适应染色变换模块，分别对源域数据和目标域数据进行跨域染色风格增强，获得具有目标域图像染色风格的源域数据以及具有源域图像染色风格的目标域数据，具体由以下步骤实现：

1)给定一张源域图像X_s和一张目标域图像X_t，根据比尔-朗伯特转换和稀疏非负矩阵分解将其分解为对应的染色颜色矩阵W_s,W_t和染色密度矩阵H_s,H_t；其中，染色颜色矩阵表示的是每种染色剂的颜色外观，染色密度矩阵表示的是每种染色剂的密度，比尔-朗伯特定律表示为：

其中，X表示在RGB颜色空间中的病理图像，X₀是照射光强度，在实施例中X₀＝255，V是图像的光密度，W_d，H_d分别表示病理图像对应的染色颜色矩阵和染色密度矩阵。

2)根据式(13)和式(14)将W_s与W_t进行自适应混合，获得染色增强后的

其中，ρ_s，ρ_t分别为教师模型对图像X_s和图像X_t的预测置信度,计算公式如式(10)。

3)根据式(15)和式(16)对染色密度矩阵H_s，H_t进行加权，获得增强后的

引入ρ_s,ρ_t作为染色颜色矩阵和染色密度矩阵的加权因子能够实现对图像进行自适应的染色变换调整，教师模型预测的置信度越高，染色变换的程度越大。

4)使用比尔-朗伯特反变换得到染色增强后的源域图像和目标域图像/>

其中，X₀为照射光强度，为源域增强后的染色密度矩阵，/>为目标域增强后的染色密度矩阵。

引入动态自适应染色增强模块后，针对每个mini-batch，输入至学生模型进行训练的图像包括同时目标域图像X_t输入至教师模型生成伪标注/>用于监督目标域图像的训练。

在本实施例中，源域图像和目标域图像在网络模型训练过程中的监督损失函数均使用式(11)进行计算，分别表示为和/>

综上所述，本实施例的分割网络模型训练过程整体的损失函数定义为上述损失函数之和：

选取在目标域验证集上分割效果最好的学生模型为训练好的分割网络模型。

步骤五、采用训练好的分割网络模型对目标域图像进行预测，评估模型性能，获得目标域图像数据集的像素级标注。

本发明所提出的基于无监督域适应的胃癌病理图像分割方法，通过在预训练阶段引入噪声标注校正的方法，对源域图像数据集的噪声标注进行校正，减轻了图像噪声标注给网络带来的负面影响。使用无监督域适应的方法，实现自动准确地生成目标域图像的像素级标注，很大程度上减轻了人工标注数据集的工作需求。其中，使用动态自适应染色增强策略弱化了由染色带来的域差异，提升了网络对于染色颜色外观的鲁棒性。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，具体包括以下步骤：

2.如权利要求1所述的一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，获取所述胃癌病理的源域图像和目标域图像,并构建所述源域图像数据集和所述目标域图像数据集包括：

3.如权利要求2所述的一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，对所述源域图像数据集进行判断，并基于所述源域图像数据集进行预训练，获取所述分割网络的预训练模型包括：

4.如权利要求3所述的一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，基于所述源域图像数据集对所述分割网络模型进行预训练，获取所述分割网络的预训练模型包括：

5.如权利要求3所述的一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，构建所述第一mean-teacher训练模型并基于所述源域图像数据集进行预训练，获取所述分割网络的预训练模型包括：

构建若干个结构相同的所述分割网络模型；

6.如权利要求5所述的一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，利用所述源域图像数据集对所述第一学生模型进行训练，并利用噪声标注校正方法对所述源域噪声标注进行校正，预训练获取所述分割网络的预训练模型包括：

基于所述源域图像数据集，获取所述源域噪声标注；

7.如权利要求1所述的一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，基于所述分割网络的预训练模型构建所述第二mean-teacher训练模型，实现基于所述第二mean-teacher训练模型的无监督域适应分割训练，获取所述训练好的分割网络模型包括：

8.如权利要求7所述的一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，所述第二mean-teacher训练模型包括所述第二学生模型和所述第二教师模型；

所述第二学生模型采用随机初始化进行权重初始化；

9.如权利要求1所述的一种基于无监督域适应的胃癌病理图像分割方法，其特征在于，采用所述训练好的分割网络模型对所述目标域图像进行预测，获取所述目标域图像数据集的像素级标注包括：