CN112330625B

CN112330625B - 免疫组化核染色切片细胞定位多域共适应训练方法

Info

Publication number: CN112330625B
Application number: CN202011206747.4A
Authority: CN
Inventors: 亢宇鑫; 李涵生; 武卓越; 崔灿; 崔磊; 杨林
Original assignee: Hangzhou Diyingjia Technology Co ltd
Current assignee: Hangzhou Diyingjia Technology Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-03-24
Anticipated expiration: 2040-11-03
Also published as: CN112330625A

Abstract

本发明涉及一种免疫组化核染色切片细胞定位多域共适应训练方法，用于在仅有的单域标注数据集下，对细胞关键点检测模型进行充分的训练。采用源域图像和目标域图像对细胞定位模型进行训练，将源域图像和目标域图像交替输入编码器进行特征提取，对源域图像进行特征提取后得到第一特征，对目标域图像进行特征提取后得到第二特征；将第一特征和第二特征输入判别器进行特征判别；当判别器的损失函数达到设定条件时，提取到的第一特征和第二特征为域不变特征；将第一特征和第二特征交替输入解码器进行解码、激活操作得到对应的置信度图；在训练过程中，编码器和解码器通过不断迭代进行参数更新；当训练迭代次数达到指定次数时，训练结束。

Description

免疫组化核染色切片细胞定位多域共适应训练方法

技术领域

本发明涉及深度学习技术领域，特别是涉及一种免疫组化核染色切片细胞定位多域共适应训练方法。

背景技术

通常基于深度学习方法的病理辅助诊断技术是在经过单一染色剂、扫描仪等前处理后得到的数字病理切片上进行训练。但是由于市场上染色剂与扫描仪种类众多，在同一病种中，不同机构所制作的数字病理切片(尤其免疫组化核染色切片)往往具有不同的分布。因此将单一场景(源域)下训练得到的模型应用至多机构(目标域)往往由于噪声分布、数据偏差等影响导致模型的性能受到很大影响，测试效果差强人意。然而辅助诊断技术应用场景具有随机性，病理医生的空余标注时间极其有限，面对用于进行深度学习所需的大量的多域标注数据，难以保证标注的高质量。因此，对病理图像的训练数据进行多域标注基本是不可能的。而这也进一步造成，在目前现有的病理图像数据集上训练得到的关键点检测模型性能受到极大限制。因此，如何使得在仅有的单域标注数据集下，对细胞关键点检测模型进行充分的训练，是一个挑战。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种免疫组化核染色切片细胞定位多域共适应训练方法，用于在仅有的单域标注数据集下，对细胞关键点检测模型进行充分的训练。

根据本申请的一个方面，提供了一种免疫组化核染色切片细胞定位多域共适应训练方法，包括：

获取第一免疫组化核染色切片的数字病理图像作为源域图像，所述源域图像上携带有第一标注信息；

获取第二免疫组化核染色切片的数字病理图像作为目标域图像，所述目标域图像与所述源域图像大小相同；

采用所述源域图像和目标域图像对细胞定位模型进行训练，细胞定位模型包括编码器和解码器；

将所述源域图像和目标域图像交替输入所述编码器进行特征提取，细胞定位模型包括编码器和解码器；

将所述源域图像和目标域图像交替输入所述编码器进行特征提取，对源域图像进行特征提取后得到第一特征，对目标域图像进行特征提取后得到第二特征；

将所述第一特征和第二特征输入判别器进行特征判别；

当所述判别器的损失函数达到设定条件时，提取到的第一特征和第二特征为域不变特征；

将所述第一特征G_E(x_i ^s)和第二特征G_E(x_i ^t)交替输入所述解码器，经过解码、激活操作对应得到第一置信度图和第二置信度图；

对于所述第一置信度图，根据所述第一标注信息结合交叉熵进行损失计算；

对于所述第二置信度图，定位分类损失采用信息熵；在训练过程中，所述编码器、、解码器以及判别器通过不断迭代进行参数更新；

当训练迭代次数达到指定次数时，训练结束。

进一步地，还包括，采用带有第二标注信息的目标域图像对所述细胞定位模型训练过程中每一代模型及参数进行性能验证，评价指标包括F1值，将F1值最高的模型作为最优模型。

进一步地，当所述判别器的损失函数L_D逼近0.5时，提取到的第一特征

和第二特征/>

为域不变特征，所述损失函数为L_D，

进一步地，对于所述第一置信度图，定位分类损失函数L_s，

其中H,W表示第一置信度图的尺寸，j表示每幅第一置信度图中的第j个像素，C表示预测类别总数，y表示当前类别的标注值，p表示所述域不变特征经解码预测后得到的相应预测概率。

进一步地，对于所述第二置信度图，定位分类损失函数为L_t，

其中H,W表示第二置信度图的尺寸，j表示每幅第二置信度图中的第j个像素，C表示预测类别总数，y表示当前类别的标注值，p表示所述域不变特征经解码预测后得到的相应预测概率。

进一步地，所述细胞定位模型总的损失校准为：L＝L_D+L_s+L_t。

与现有技术相比，采用本申请实施例的一种免疫组化核染色切片细胞定位多域共适应训练方法，可以将风格迁移机制与关键点定位网络相结合，通过单阶段训练方法，有效地提取到域不变特征并对其进行解码，进而进行多域适应。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是多机构免疫组化核染色切片差异图；

图2是本发明预适应训练方法网络结构图；

图3是采用单域训练，经多域测试的结果图；

图4是采用本申请域适应方法训练，经多域测试结果图。

具体实施方式

下面，将参考附图详细描述本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

在病理图像中往往存在数十万个细胞，对于免疫组化核染色切片，病理医生需要对切片中的肿瘤细胞进行计数，因此有效的对肿瘤细胞进行精确定位并分类是病理医生目前渴望的辅助工具之一。细胞关键点定位网络在仅依赖点级别标注的基础上，通过卷积神经网络有效细胞核及其上下文信息并进行编码，然后将编码到的深度特征利用解码器得到置信度图，最终通过非极大值抑制等技术手段对置信度图进行分类，从而达到对细胞进行分类的效果。总体来说细胞关键点定位网络与语义分割网络类似，但是相比较于语义分割网络，需要更多的上下文信息以及局部的细粒度特征信息。同时细胞关键点定位网络对于数据集样本的特征域特别敏感，当使用单一域的数据对模型进行训练并接近拟合时，模型的参数对于多域下的图像信息是非常敏感的，噪声分布不同的影响均会导致模型性能降低。

目前风格迁移方法多用于解决域适应问题。这些方法的共性均是两阶段进行训练；首先将源域的图像作为深度网络的输入，利用对抗生成网络将源域的图像分布迁移至目标域图像分布，其次使用风格迁移后的伪目标域图像及其原有的标签进行关键点网络训练，最终在目标域的图像上进行测试。但是由于目标域图像分布不一，因此在风格迁移的过程中，网络无法有效的提取到目标域图像的共同特征，进而训练得到的细胞关键点定位、分类方法往往不精确。若对每一目标域的图像进行迁移，这样训练成本过大，且耗时较长，并非明智的选择。

免疫组化核染色切片在制作过程中，往往由于染色剂量的使用不统一、材料及数字扫描仪设备规格不一致等影响，往往会出现不同机构所制作的数字病理切片(尤其免疫组化核染色切片)具有不同的分布，如图1所示。通过这一发现我们认为使用多阶段的风格迁移方法进行模型多域共适应毫无疑问增大了训练的成本以及周期，同时效果由于风格迁移的好坏并不能得到有效的保证。本申请正是基于这一问题，提出了一种单阶段训练的细胞关键点定位多域共适应方法。

针对上述技术问题，本申请的构思是将风格迁移机制与细胞定位网络的训练相结合，在仅有的单域标注数据集下，对细胞关键点检测模型进行充分的训练。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

免疫组化核染色切片细胞定位多域共适应训练方法，包括：S10，数据获取与预处理

获取第一免疫组化核染色切片的数字病理图像作为源域图像；获取第二免疫组化核染色切片的数字病理图像作为目标域图像，所述目标域图像与所述源域图像大小相同。对所述源域图像和所述目标域图像进行数据扩充，得到N组训练数据，每组训练数据包括1个源域图像和1个目标域图像。

需要说明的是，这里获取的源域图像上带有第一标注信息，作为单域标注数据集。为了充分利用病理图像的样本数据，数据扩充至关重要。考虑到由于目标域图像分布过于杂乱、造成病理图像中的不同切片甚至相同切片中相同语义类别的区域像素差异极大。为了更大程度的适配目标域图像分布的不确定性，首先使用不同来源的数据集进行对比度增强、色彩增强等方法进行数据扩充。

S20，域不变特征提取

采用所述N组训练数据对细胞定位模型进行训练，细胞定位模型包括编码器和解码器；

将源域与目标域的图像作为细胞定位模型的输入，值得注意的是，源域图像与目标域图像采用同一个编码器来提取深度特征，编码器参数共享。细胞定位模型为残差网络，由卷积层、批标准化层、激活层及池化层组成，源域与目标域的图像交替输入至残差网络进行特征提取。对源域图像进行特征提取后得到第一特征

对目标域图像进行特征提取后得到第二特征/>

其中s，t分别表示源域与目标域，i表示第i幅图像，G_f表示编码器；

S30，域不变特征判别

在提取到源域与目标域图像的第一特征

与第二特征/>

后，利用对抗学习机制中的博弈思想，采用判别器D对两种特征进行分类，来区分特征，其中源域特征标签为1，目标域标签为0。对抗学习最终的目标是当判别器无法对两种域的特征进行有效分类，说明此时两种特征的分布已非常相似，因此该特征称为域不变特征。具体地，将所述第一特征/>

和第二特征/>

输入判别器进行特征判别；

当所述判别器的损失函数L_D趋于0.5时，表示判别器已无法区分两类特征，此时特征提取器提取到的第一特征

和第二特征/>

为域不变特征；

S40，细胞定位、分类训练并计算损失

细胞定位模型即细胞关键点定位的任务为对细胞进行定位并分类，因此需要对域不变特征进行解码得到置信度图并预测。解码器由一系列的上采样、卷积层、拼接、激活层等操作组成，最终经过解码会得到与输入图像尺寸大小相同的特征图，对特征图使用sigmoid激活操作可得到预测后的置信度图，置信度图尺寸及维度为H×W×C。

具体地，将所述第一特征

和第二特征/>

交替输入所述解码器进行解码，得到与所述源域图像对应的第一解码特征图，与所述目标域图像对应的第二解码特征图；

所述第一解码特征图进行激活操作得到第一置信度图，对所述第二解码特征图进行激活操作得到第二置信度图。

(1)源域细胞定位、分类训练并计算损失

对于源域图像，可凭借其原有的标注信息，结合交叉熵，得到反向传播的梯度。具体地，对于第一置信度图，根据所述第一标注信息结合交叉熵进行损失计算，定位分类损失为L_s：

其中H,W表示所述第一置信度图的尺寸，j表示每幅图像中的第j个像素，C表示预测类别总数，y表示当前类别的标注值，p表示所述域不变特征经解码预测后得到的相应预测概率，L_s值越趋于0，表示细胞定位及分类结果越精确。

(2)目标域细胞定位、分类训练并计算损失

对于目标域图像，由于其缺乏标注，无法在细胞定位、分类级别进行与标注信息相应的损失计算并得到反向传播的梯度并以此来训练网络。因此在对目标域图像进行损失计算时，需要考虑到预测概率的自信息，而信息熵则是考虑目标自信息的最佳之选

具体地，对于所述第二置信度图，定位分类损失函数为L_t，

细胞定位模型总的损失校准为：

L＝L_D+L_s+L_t，

在训练过程中，所述编码器、解码器以及判别器通过不断迭代进行参数更新，在参数更新时，当所述第一置信度图与所述第二置信度图均完成了损失计算，则算为一次训练结束，进行参数更新；网络的结构图如图2所示(图中标注域即为源域图像，目标域即为目标域图像)，包含源域输入图像x_i ^s及目标域输入图像x_i ^t，编码器G_E，判别器D，解码器G_D及预测层P。在训练过程中，编码器交替进行特征提取，之后对提取到的源域与目标域的特征进行判别，判别的同时，对特征进行解码及预测，得到置信度图。在参数更新时，当目标域图像与源域图像均完成了损失计算，则算为一次训练结束，进行参数更新。当训练迭代次数达到指定次数时，训练结束。最终保留编码器和解码器作为最终的细胞定位模型并用于多域测试。

S50，最优模型选取

在训练过程中，模型通过不断迭代进行参数更新。通过少量的拥有标注的目标域图像(即带有第二标注信息的目标域图像)对每一代的模型及参数进行性能验证，评价指标包括F1值，F1值越接近1表示当前模型及参数性能越优，最终将F1值最高的模型作为最优模型。当然也可以根据细胞定位、分类准确率、召回率等参数进行最有模型的判别。

最终，通过本发明的多域共适应方法对免疫组化核染色图像进行训练，可以在多域场景中均得到有效的效果。如图3和图4所示，经过域适应方法训练后，对目标域图像进行测试，相比较单域训练后的细胞关键点定位模型，可有效提取阳性肿瘤细胞以及阴性非肿瘤细胞(包含淋巴细胞、纤维细胞)的域不变特征，从而得到更精确的分类结果，各类细胞定位、分类的召回率提高了10％至20％不等，并且实验结果表明，经过多域共适应训练后，淡染细胞的特征也可以被有效提取，检出率明显增多。

还需要指出的是，在本申请的方法中，各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。