CN115393378B

CN115393378B - 一种低成本高效的细胞核图像分割方法

Info

Publication number: CN115393378B
Application number: CN202211322201.4A
Authority: CN
Inventors: 李灏峰; 楼威; 李冠彬; 韩晓光; 万翔
Original assignee: Shenzhen Research Institute of Big Data SRIBD
Current assignee: Shenzhen Research Institute of Big Data SRIBD
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-01-10
Anticipated expiration: 2042-10-27
Also published as: CN115393378A

Abstract

本发明属于公开了一种低成本高效的细胞核图像分割方法，采集无标签病理图像数据，通过基于一致性的图像样本块选择算法，筛选出少量的小尺寸的病理图像样本块由病理医生进行标注，标注之后的掩膜和选择的样本块组成样本对，作为有条件输入的基于单对训练图片的对抗生成模型的训练样本，经过模型训练，生成大量的伪样本对并加入分割训练集，所有的标注的真实样本对加上模型生成的伪样本对输入基于伪标签的半监督细胞核分割模型进行训练，得到能够精准分割病理图像细胞核的模型；在尽可能减少标注成本的前提下，通过基于一致性的图像样本块选择算法达到和大量标注相当的分割性能。

Description

一种低成本高效的细胞核图像分割方法

技术领域

本发明属于医学病理学行业中的医学图像处理技术领域，具体涉及一种低成本高效的细胞核图像分割方法。

背景技术

细胞核分割任务，是指标记出病理图像中每一个属于细胞核的像素，细胞核分割是计算机辅助诊疗系统中关键的一个环节分割出来的细胞核不仅有助于病理图像的进一步处理，也有助于病理医生诊断分析病情的发展。

细胞核分割的结果可以提供基本的细胞核视觉信息和形态学特征例如尺寸，形状或者颜色[1][2]。这些信息和特征不仅有助于病理图像的进一步处理（例如分类或者组织分割），也有助于病理医生诊断分析病情的发展（例如癌症的诊断评估和预后）。因此，细胞核分割在计算机辅助诊疗系统中是至关重要的一环。然而，病理图像复杂的背景，细胞核杂乱的分布都极大地增加了精确分割细胞核的难度。同时，训练一个精确分割细胞核的模型通常需要大量的有标注数据（细胞核的数量达到数万级别），这也显著地增加了病理医生标注的负担和时间经济成本。

目前，主流的方法[3][4]大多为全监督方法，它们能够达到较高的分割精度但是却需要大量的细胞核像素级别的标注，这既耗时又昂贵，限制了这类方法的应用范围。一些基于域适应的无监督方法[5][6]使用无标签数据利用生成模型去构建一个有标签数据集，这种方法对无标签数据的种类和形态都有一定的限制，还存在精度不高的问题。半监督方法们[7][8]利用部分有标注的图片加上大量的无标注图片参与训练能够提升模型的性能，但他们很少考虑如何高效选择样本来进行标注的问题。主动学习方法[9][10]迭代地选择一些高价值的样本进行标注。在主动学习方法中，无标签图片会被随机初始化或者预训练的模型进行不确定性的预测，随后病理学家会针对不确定性高的图片进行有针对性的标注，标注后的图片又可以参与模型的训练来预测需要标注的无标签图片，整个过程反复迭代循环。它们的效果依赖于迭代训练的模型，由于需要配合多轮模型的训练加上人工标注，时间成本也较高。

因此在模型训练之前，通过挑选有价值的样本能够最大程度地减少花费和提升效率。

基于对抗生成模型（GANs）[11][12]的方法可以进行样本生成，并且被广泛地应用在数据扩增领域；GANs可以训练一个判别器去分辨生成器生成图像的真假，进而优化生成器的性能。传统的GANs一般直接从噪声生成和目标图像类似的图片；而有条件的对抗生成模型（Conditional GANs）则可以通过输入的条件来生成和条件对应的图片，例如构建和输入文本相关的图片，或者和输入掩膜标签对应的图片。同时sinGAN[13]是一种传统的GAN，可以利用单张训练图片从噪声生成大量的相似图像。

现有技术中缺少一种利用上述理论基础，通过有条件的sinGAN（ConditionalsinGAN）来生成与构造的细胞核掩膜对应的图片，以达到数据扩增目的的一种方法。

[1] F. Clayton, “Pathologic correlates of survival in 378 lymph nodenegative infiltrating ductal breast carcinomas. mitotic count is the bestsingle predictor,” Cancer, vol. 68, no. 6, pp. 1309–1317, 1991.

[2] C. W. Elston and I. O. Ellis, “Pathological prognostic factors inbreast cancer. i. the value of histological grade in breast cancer:experience from a large study with long-term follow-up,” Histopathology, vol.19, no. 5, pp. 403–410, 1991.

[3] D. Liu, D. Zhang, Y. Song, H. Huang, and W. Cai, “Panopticfeature fusion net: A novel instance segmentation paradigm for biomedical andbiological images,” IEEE Transactions on Image Processing, vol. 30, pp. 2045–2059, 2021.

[4] N. Kumar, R. Verma, S. Sharma, S. Bhargava, A. Vahadane, and A.Sethi, “A dataset and a technique for generalized nuclear segmentation forcomputational pathology,” IEEE Transactions on Medical Imaging, vol. 36, no.7, pp. 1550–1560, 2017.

[5] D. Liu et al., “Unsupervised instance segmentation in microscopyimages via panoptic domain adaptation and task re-weighting.” in IEEEComputer Vision and Pattern Recognition Conference, 2020, pp. 4243–4252.

[6] E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell, “Adversarialdiscriminative domain adaptation,” in IEEE Computer Vision and PatternRecognition Conference, 2017, pp. 7167–7176.

[7] Y. Li, J. Chen, X. Xie, K. Ma, and Y. Zheng, “Self-loopuncertainty: A novel pseudo-label for semi-supervised medical imagesegmentation.” in MICCAI. Springer, 2020, pp. 614–623.

[8] H. Qu et al., “Weakly supervised deep nuclei segmentation usingpartial points annotation in histopathology images,” IEEE Transactions onMedical Imaging, vol. 39, no. 11, pp. 3655–3666, 2020.

[9] L. Yang, Y. Zhang, J. Chen, S. Zhang, and D. Z. Chen, “Suggestiveannotation: A deep active learning framework for biomedical imagesegmentation.” in MICCAI. Springer, 2017, pp. 399–407.

[10] Z. Zhou, J. Shin, L. Zhang, S. Gurudu, M. Gotway, and J. Liang,“Finetuning convolutional neural networks for biomedical image analysis:actively and incrementally.” in IEEE Computer Vision and Pattern RecognitionConference, 2017, pp. 7340–7351.

[11] I. Goodfellow et al., “Generative adversarial nets,” in Advancesin Neural Information Processing Systems, 2014.

[12] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein generativeadversarial networks.” in ICML. PMLR, 2017, pp. 214–223.

[13] T. R. Shaham, T. Dekel, and T. Michaeli, “SinGAN: Learning agenerative model from a single natural image.” in ICCV. IEEE, 2019, pp. 4570–4580。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供一种低成本高效的细胞核图像分割方法，在尽可能减少标注成本的前提下，通过基于一致性的图像样本块选择算法达到和大量标注相当的分割性能。

一种低成本高效的细胞核图像分割方法，包括有以下步骤：

S1，采集原始的病理图像数据集，生成原始病理图像；

S2，将原始病理图像裁切为若干小尺寸的病理图像样本块,构成小尺寸样本块；

S3，筛选出少量的小尺寸样本块，由病理医生标注生成标注掩膜，并将筛选出的少量的小尺寸样本块定义为标注样本块；

S4，每一张标注掩膜和相对应的标注样本块组成标注样本对；得到少量的标注样本对；

S5，创建一个伪掩膜构造模块，根据每一张标注掩膜生成大量的伪掩膜；

S6，将每一对标注样本对作为初始输入条件，分别创建一个有条件输入的基于单对训练图片的对抗生成网络模型——即CSinGAN模型，每个CSinGAN模型包含一个CSinGAN模型生成器，每个CSinGAN模型生成器使用一对标注好的标注样本对；

S7，将每张伪掩膜作为CSinGAN模型生成器的输入条件，生成与伪掩膜相对应的伪病理图片；

S8，根据大量的伪掩膜训练CSinGAN模型生成器，用CSinGAN模型生成器生成大量的伪病理图片；

S9，将每张伪病理图片与相对应的伪掩膜组成伪样本对；

S10，将大量的伪样本对和标注样本对组成有标注分割训练集；标注样本对为真实样本对；

S11，使用有标注分割训练集和大量的无标注病理图像对对基于伪标签的半监督细胞核分割模型进行训练，得到能够精准分割病理图像细胞核的模型。

进一步地，所述步骤S3的筛选出少量小尺寸样本块的操作中，包括以下操作内容：

S31，采样；

S32，双层聚类；

S33，分数计算：计算每一个聚类簇中所有小尺寸样本块的代表性和内部一致性分数；筛选出每个聚类簇中分数最小的一个小尺寸样本块。

进一步地，所述步骤S31中，包括以下操作内容：

从原始病理图像利用滑动窗口均匀地采样大小为

的小尺寸样本块，其中s 为4的倍数。

进一步地，所述步骤S32中，将小尺寸样本块聚集成聚类簇，按照小尺寸样本块与聚类簇中心的特征距离大小来选择代表性样本块，按照聚类簇内部各区域的小尺寸样本块的纹理和细胞核形态的相似程度来选择内部一致性样本块；

所述双层聚类共执行两次K-means聚类，即k均值聚类算法。

进一步地，所述步骤S32的双层聚类操作步骤中包括以下操作内容：

S321，第一次聚类为粗聚类，将小尺寸样本块聚类成

个聚类簇；

S322，将每一个聚类簇中的每一个小尺寸样本块再裁切成四个子区域；

S323，进行第二次聚类，得到

个聚类簇，即细聚类；

S324，经过两次聚类，最终得到

个聚类簇。

进一步地，每一次聚类使用的特征向量均为将样本块或子区域输入Imagenet预训练的ResNet50模型得到的特征。

进一步地，所述步骤S33中，包括以下操作内容：

S3301，将粗聚类得到的每一个聚类簇定义为

，每个聚类簇

中的每一个小尺寸样本块定义为

；

S3302，将第

个聚类簇

中分数最小的一个小尺寸样本块定义为

；

个聚类簇

中筛选出

个

；

S3303，计算聚类簇

聚类中心的特征向量，即该聚类簇所有特征向量的均值，定义为

；

S3304，筛选出第二轮聚类――即细聚类中拥有最多的子区域数量的聚类簇，将细聚类中拥有子区域数量最多的聚类簇定义为

；

S3305，计算聚类簇

的聚类中心c

；

S3306，计算粗每一个小尺寸样本块

的代表性距离、细代表性距离以及内部一致性距离；

粗代表性距离为每一个小尺寸样本块

离其所属的粗分割聚类簇中心的距离；

细代表性距离为每一个小尺寸样本块

的四个子区域与拥有的子区域数量最多的聚类簇中心之间的距离之和

内部一致性距离为每一个小尺寸样本块

的任意两个子区域特征距离的最大值；

S3307，按照公式（1）计算每一个聚类簇中所有小尺寸样本块的代表性和内部一致性分数；

其中

指的是特征提取器，即预训练的ResNet50模型；

都是属于小尺寸样本块

的一个子区域；

S3308，筛选出分数最小的一个小尺寸样本块；

S3309，对粗聚类的

个聚类簇筛选出

个小尺寸样本块，即筛选出

个标注样本块；

S3310，针对

个标注样本块标注生成出

个标注掩膜，得到

对标注样本对。

再进一步地，所述S6的模型训练操作步骤中，包括以下内容：

S61,创建一个伪掩膜构造模块，通过伪掩膜构造模块大量生成伪掩膜；

S611，对每一个真实掩膜，进行多种数据扩增，包括旋转、裁剪、翻转操作，得到一个扩充的细胞核掩膜集合E；

S612，对每一个真实掩膜，迭代

次生成

个伪掩膜，每次迭代生成一个伪掩膜，每次迭代包括以下内容：

S6121，另外打开一张空白图片，定义为

；

S6122，迭代Q次，从真实细胞核掩膜集合

中随机挑选Q个细胞核掩膜，填充进空白图片

中，每次迭代包括以下内容：

S61221，从真实细胞核掩膜集合

中随机挑选到第q个细胞核掩膜

时，前q-1 个细胞核掩膜填充后的中间结果为

；

S61222，对已得到的中间结果

进行膨胀操作，膨胀半径为

的最大半径；

S61223，在膨胀之后的

上随机找到一个没有细胞核的位置，将新细胞核

摆放在该位置上，得到中间结果

；

S61224，当选择出第Q个细胞核掩膜放到图片

上时，迭代结束，得到一张包含Q个细胞核掩膜的伪掩膜；

S62，将每一张伪掩膜输入CSinGAN模型生成器，生成一张伪病理图片。

再进一步地，所述步骤S62中的CSinGAN模型生成器，包括以下内容：

S621，创建新的有条件输入的基于单对训练图片的对抗生成模型，每个CSinGAN模型分别设置一个多尺度的有条件的生成器和一个多组件的判别器；多尺度的生成器定义为

，多组件的判别器定义为

；

S622，多尺度的有条件的生成器表示为公式（2）：

（2）

其中，

表示真实的标注掩膜，

表示伪掩膜；

计算最终生成图像

时，所有的

(

)均通过改变

的尺寸得到；

和

表示三通道的高斯噪声图像；

操作表示按通道维度拼接矩阵；

每一个生成器的网络结构和原始SinGAN模型的模块相同；

S623，对每个尺度的生成器和判别器都分别计算重建损失和判别损失，从而优化模型，如公式（3）所示：

) （3）

其中，第二项

为重建损失，

为生成图像，

为真实图像；

S623，多组件的判别器包括有三个子网络，多组件的判别器将输入图像分离为前景，背景和原图三类图像，通过三个子网络对三类图像分别进行判别；三个子网络的参数互相不共享；

S624，判别器的判别过程按照如下公式（4）表示：

（4）

其中，

为第n个尺度下的伪掩膜，

为真实掩膜；

表示按元素相乘操作，即：

为提取

的背景区域和前景区域；

不同的子网络

关注不同的生成区域的真实程度，从而生成和伪掩膜中细胞核位置精确对应的生成图像，即得到大量生成的伪病理图片；

为WGAN-GP 损失函数，如公式（5）所示：

(5)

其中，y为生成图像，x为真实图像；

为分别从x和y的分布的抽样的两点连成的直线上均匀采样；

为判别器，

为数学期望，

为惩罚系数。

最后，所述步骤S11中，包括以下操作内容：

S111，通过标注样本对和伪样本对训练得到Mask-RCNN模型；

S112，将Mask-RCNN模型在无标签的原始病理图像上进行第一轮预测，得到预测掩膜；

S113，将预测掩膜作为原始图像的标签加入第二轮训练；

S114，重复S112～S113，直到基于伪标签的半监督训练方法达到性能上限；

S115，停止训练；

S116，得到最终的分割模型。

本发明的有益效果为：

一种低成本高效的细胞核图像分割方法，采集无标签病理图像数据，通过基于一致性的图像样本块选择算法，筛选出少量的小尺寸的病理图像样本块由病理医生进行标注，标注之后的掩膜和选择的样本块组成样本对，作为有条件输入的基于单对训练图片的对抗生成模型的训练样本，经过模型训练，生成大量的伪样本对并加入分割训练集，所有的标注的真实样本对加上模型生成的伪样本对输入基于伪标签的半监督细胞核分割模型进行训练，得到能够精准分割病理图像细胞核的模型；在尽可能减少标注成本的前提下，通过基于一致性的图像样本块选择算法达到和大量标注相当的分割性能。

附图说明

图1是本发明实施例一低成本高效的细胞核图像分割方法流程示意图；

图2是本发明实施例一低成本高效的细胞核图像分割方法的基于一致性的图像样本块选择算法的流程示意图；

图3是本发明实施例一低成本高效的细胞核图像分割方法的基于一致性的图像样本块选择算法的计算过程示意图；

图4是图3的左半部分放大示意图；

图5是图3的右半部分放大示意图；

图6是本发明实施例一低成本高效的细胞核图像分割方法中的伪掩膜构造流程示意图；

图7是本发明实施例一低成本高效的细胞核图像分割方法中的有条件输入的基于单对训练图片的对抗生成模型；

图8是本发明实施例一低成本高效的细胞核图像分割方法生成的伪掩膜构造模块与传统方法生成的伪掩膜构造模块对比图；（a）为传统方法生成的伪掩膜构造模块，（b）为本发明实施例一低成本高效的细胞核图像分割方法生成的伪掩膜构造模块；

图9是本发明模型（5%～7%标注）与先前全监督分割方法（100%标注）定量性能比较记录；

图10是本发明各组成部件在TCGA-KUMAR数据集上的效果示意。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1～10所示，本发明提供一种低成本高效的细胞核图像分割方法，整体策划方案为：从医院或者病理研究机构获取的大尺寸的病理图像中采集无标签病理图像数据，通过基于一致性的图像样本块选择算法，筛选出少量的小尺寸的病理图像样本块由病理医生进行标注，标注之后的标注掩膜和选择出的样本块组成样本对，作为有条件输入的基于单对训练图片的对抗生成模型的输入条件，经过模型训练，生成大量的伪样本对并加入分割训练集，所有的标注的真实样本对加上模型生成的伪样本对输入基于伪标签的半监督细胞核分割模型进行训练，得到能够精准分割病理图像细胞核的模型；在尽可能减少标注成本的前提下，通过基于一致性的图像样本块选择算法达到和大量标注相当的分割性能。

具体操作步骤如下：

S1，采集原始的病理图像数据集，生成原始病理图像；

S31，采样；

从原始病理图像利用滑动窗口均匀地采样大小为

的小尺寸样本块，其中s 为4的倍数。

S32，双层聚类；

将小尺寸样本块聚集成聚类簇，按照小尺寸样本块与聚类簇中心的特征距离大小来选择代表性样本块，按照聚类簇内部各区域的小尺寸样本块的纹理和细胞核形态的相似程度来选择内部一致性样本块；

所述双层聚类共执行两次K-means聚类，即k均值聚类算法。

S321，第一次聚类为粗聚类，将小尺寸样本块聚类成

个聚类簇；

S323，进行第二次聚类，得到

个聚类簇，即细聚类；

S324，经过两次聚类，最终得到

个聚类簇。

每一次聚类使用的特征向量均为将样本块或子区域输入Imagenet预训练的ResNet50模型得到的特征。

S3301，将粗聚类得到的每一个聚类簇定义为

，每个聚类簇

中的每一个小尺寸样本块定义为

；

S3302，将第

个聚类簇

中分数最小的一个小尺寸样本块定义为

；

个聚类簇

中筛选出

个

；

S3303，计算聚类簇

；

；

S3305，计算聚类簇

的聚类中心c

；

S3306，计算粗每一个小尺寸样本块

的代表性距离、细代表性距离以及内部一致性距离；

粗代表性距离为每一个小尺寸样本块

离其所属的粗分割聚类簇中心的距离；

细代表性距离为每一个小尺寸样本块

内部一致性距离为每一个小尺寸样本块

的任意两个子区域特征距离的最大值；

其中

指的是特征提取器，即预训练的ResNet50模型；

都是属于小尺寸样本块

的一个子区域；

S3308，筛选出分数最小的一个小尺寸样本块；

S3309，对粗聚类的

个聚类簇筛选出

个小尺寸样本块，即筛选出

个标注样本块；

S3310，针对

个标注样本块标注生成出

个标注掩膜，得到

对标注样本对。

S612，对每一个真实掩膜，迭代

次生成

S6121，另外打开一张空白图片，定义为

；

S6122，迭代Q次，从真实细胞核掩膜集合

中随机挑选Q个细胞核掩膜，填充进空白图片

中，每次迭代包括以下内容：

S61221，从真实细胞核掩膜集合

中随机挑选到第q个细胞核掩膜

时，前q-1 个细胞核掩膜填充后的中间结果为

；

S61222，对已得到的中间结果

进行膨胀操作，膨胀半径为

的最大半径；

S61223，在膨胀之后的

上随机找到一个没有细胞核的位置，将新细胞核

摆放在该位置上，得到中间结果

；

S61224，当选择出第Q个细胞核掩膜放到图片

上时，迭代结束，得到一张包含Q个细胞核掩膜的伪掩膜；

CSinGAN模型生成器包括以下内容：

，多组件的判别器定义为

；

S622，多尺度的有条件的生成器表示为公式（2）：

（2）

其中，

表示真实的标注掩膜，

表示伪掩膜；

计算最终生成图像

时，所有的

(

)均通过改变

的尺寸得到；

和

表示三通道的高斯噪声图像；

操作表示按通道维度拼接矩阵；

每一个生成器的网络结构和原始SinGAN模型的模块相同；

) （3）

其中，第二项

为重建损失，

为生成图像，

为真实图像；

S624，判别器的判别过程按照如下公式（4）表示：

（4）

其中，

为第n个尺度下的伪掩膜，

为真实掩膜；

表示按元素相乘操作，即：

为提取

的背景区域和前景区域；

不同的子网络

为WGAN-GP 损失函数，如公式（5）所示：

(5)

其中，y为生成图像，x为真实图像；

为分别从x和y的分布的抽样的两点连成的直线上均匀采样；

为判别器，

为数学期望，

为惩罚系数。

S9，将每张伪病理图片与相对应的伪掩膜组成伪样本对；

S11，使用有标注分割训练集和大量的无标注病理图像对对基于伪标签的半监督细胞核分割模型进行训练，得到能够精准分割病理图像细胞核的模型；

S111，通过标注样本对和伪样本对训练得到Mask-RCNN模型；

S113，将预测掩膜作为原始图像的标签加入第二轮训练；

S115，停止训练；

S116，得到最终的分割模型。

本发明提出了一种高效利用标签的细胞核分割框架，在尽可能减少标注成本的前提下，达到和大量标注相当的分割性能：（1）为了解决现有技术需要大量标注数据的问题，本发明提出了一种基于一致性的图像样本块选择算法。该算法挑选极少量的具有高代表性和内部纹理一致性的无标签样本块进行标注。高代表性是为了使挑选出来的样本块能够尽可能代表某一类或几类具有类似纹理的病理图片，内部纹理一致性是为了减少样本生成的难度，避免复杂多变的纹理信息误导生成模型。（2）为了解决现有技术在标注较少时分割性能较差的问题，本发明提出了有条件输入的基于单对训练图片的对抗生成模型Conditional single-image GAN (CSinGAN)来对训练数据进行扩增。该模型在现有模型sinGAN[13]的基础之上，加入了伪造的分割标签图作为模型条件输入，并且构造了三个独立的针对原图，背景，前景的判别器来优化生成器。（3）为了充分利用大量的无标签数据，本发明通过和半监督方法-伪标签生成[14]的结合来利用无标签数据。实验证明本发明提出的框架利用不到百分之五的标注，在三个公开数据集上达到了接近全监督方法的性能。

[14] D.-H. Lee et al., “Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks,” in Workshop on challenges in representation learning, ICML, vol. 3, no. 2, 2013, p. 896.

本发明提出的标签高效式的细胞核图像分割框架的流程如图1所示。从上到下，首先进行无标签病理图像数据的采集从医院或者病理研究机构获取的大尺寸的病理图像中采集无标签病理图像数据，生成原始病理图像。其次，通过本发明提出的基于一致性的图像样本块选择算法，少量的小尺寸的病理图像样本块将会被选择并且由病理医生进行标注，标注之后的标注掩膜和选择的标注样本块将会组成标注样本对，即真实样本对。每一对标注样本对作为初始输入条件，将会作为本发明提出的有条件输入的基于单对训练图片的对抗生成型CSinGAN模型生成器的训练样本。经过对抗生成模型CSinGAN模型生成器的训练，得到大量的伪病理图片与伪掩膜配对构成大量的伪样本对；大量的伪样本对将会被CSinGAN模型生成器生成并且加入分割训练集。最后，所有的标注的真实样本对加上模型生成的伪样本对将会输入基于伪标签的半监督细胞核分割模型进行训练，得到能够精准分割病理图像细胞核的模型。

核心技术内容：

1、一种基于一致性的图像样本块选择算法。

2、一种伪掩膜构造方法。

3、一个有条件输入的基于单对训练图片的对抗生成网络。

4、一个针对全图，前景，背景的多组件判别器。

基于一致性的图像样本块选择算法（Consistency-based Patch Selection,CPS）：

为了定位最有益于细胞核分割任务的病理图像样本块区域，我们定义两种挑选参数。一种叫做代表性，另一种叫做内部一致性。代表性指的是被挑选样本块与整个数据集中的其他的样本块之间的关系。考虑到因为病理图像本身存在大量冗余纹理信息的原因，在将原始图像裁切为小尺寸的样本块之后，在隐空间中，一些样本块会聚集成聚类簇，我们定义离聚类簇中心特征距离越小的样本块比同簇中其他的样本块越具代表性，所述距离为欧氏距离，是选择的一般标准。这个距离越小，就最有可能能更好地代表整个聚类簇。这个与聚类中心的欧氏距离是最终选择的标准之一，最终用一个总的距离公式来取样本。

标注这些更具代表性的样本块可以有效地减少原始大数据集中的冗余现象。为了减轻对抗生成模型生成伪样本的复杂程度，我们还考虑选择内部一致性更高的样本块。内部一致性是指样本块内部各区域具有相似的纹理和细胞核形态。高内部一致性有助于减少对抗生成模型学习的难度，减少干扰，有助于模型的收敛，也能够更有效生成高质量的图片。

如图2、图3、图4、图5所示，为了挑选具有更高代表性和内部一致性的样本块，我们的样本选择算法可以分成三部分：

1）小尺寸样本块采样；

2）双层聚类；

3）分数计算。

1）在小尺寸样本块采样部分，我们从原始的无标签病理图像数据集――原始病理图像集中利用滑动窗口均匀地采样大小为

的小尺寸样本块。最终算法会从采样出来的这些小尺寸样本块中选择需要标注的样本块。

用正方形的滑动窗口以固定大小的间距裁切出正方形的图像样本块，图像样本块的边长大小为256像素或者512像素，间距一般小于裁切尺寸即可。一般取256像素或者512 像素。

最好是四的倍数，方便基于一致性的图像样本块选择算法进一步裁切。

2）在双层聚类部分执行了两次K-means[15]聚类，即两次k均值聚类算法。

第一次聚类为粗聚类，将小尺寸样本块聚类成

个聚类簇。

为了计算内部一致性，每一个聚类簇中的小尺寸样本块又会被再裁切成四个更小的子区域

进行第二次聚类得到

个聚类簇，也叫作细聚类。

每一次聚类使用的特征向量为样本块或子区域输入Imagenet[16]预训练的 ResNet50模型[17]得到的特征。经过两次聚类，最终可以得到

个聚类簇。

3）在分数计算部分，对每一个粗聚类得到的聚类簇

，k指代

和

个聚类簇中的某个，

就是指第k个聚类簇，我们会计算该簇中所有的小尺寸样本块的代表性和内部一致性分数，最终选择一个分数最小的样本块。

计算公式如图3的右半部分以及公式（1）所示。

代表聚类簇

中一个小尺寸样本块，

代表第

个聚类簇

中最终被选择的小尺寸样本块。

指的是特征提取器也就是预训练的ResNet50模型。

都是属于

的一个子区域。

计算聚类簇

聚类中心的特征向量

，也就是该聚类簇所有特征向量的均值。

在第二轮聚类――细聚类中，

指的是拥有最多的子区域数量的聚类簇。c

计算聚类簇

的聚类中心。

图3右半部分的三个距离公式分别代表了粗代表性（

离其所属的粗分割聚类簇中心的距离），细代表性（

的子区域离数量最大的细分割聚类簇中心的距离之和）以及内部一致性（

的任意两个子区域特征距离的最大值）。最终越小的分数表示样本块越具有代表性以及内部一致性。本发明的样本选择算法会为粗聚类的每一类挑选一个样本块，最终得到

个样本块。

有条件输入的基于单对训练图片的对抗生成网络（Conditional Single-imageGenerative Adversarial Network, CSinGAN）：

在得到标注好的

对小尺寸样本块之后，本发明提出了一个有条件输入的基于单对训练图片的对抗生成模型（CSinGAN模型生成器）对每一对样本块分别进行数据增强。每个CSinGAN模型生成器会使用一对标注好的样本块。

在模型训练之前，本发明还设计了一个简单高效的伪掩膜构造模块，来大量生成伪掩膜，作为CSinGAN模型生成器的条件输入。本发明提出了新的一种细胞核伪掩膜构造的模块，细胞核掩膜就是每一个细胞核对应的标签。如图6所示，得到

张标注掩膜之后，首先对所有的真实掩膜――即标注掩膜进行多种数据扩增，包括旋转，裁剪，翻转，这样得到一个扩充的细胞核掩膜集合

。接下来，算法会迭代地从真实细胞核掩膜集合――扩充的细胞核掩膜集合

中随机挑选一定数量的细胞核掩膜，填充进一个空白的图片中来构建伪掩膜。

定义选择数量为Q个，具体需要用户根据其病理图片的特点设定，细胞核密集的图像可以设大一些，稀疏的可以设小一些。

是挑选到的其中第q个，这是一个循环挑选的过程，最终挑选Q个，如图4伪掩膜构造方法所示。

将空白图片可以视为

，放了一个细胞核掩膜就是

，放了q-1个就是

；采用迭代加入新细胞核

的过程，

指的就是加入到第q个细胞核掩膜时，之前已加入q-1个细胞核掩膜的结果。对

进行膨胀，这样剩下的空白区域内放置

，确保新的

和之前的q-1个细胞核掩膜不会重叠。

为了防止构造的细胞核相互之间产生重叠，该模块在选择新细胞核

摆放位置时，会对已得到的中间结果

进行膨胀操作，膨胀半径为

的最大半径。然后，在膨胀之后的

上随机找到一个位置，将新细胞核

摆放在该位置上。

伪掩膜具体构建过程: 是一个循环随机放置标注掩膜中的真实细胞核掩膜到一张空白图片的过程。循环次数为Q，也就是最终可以放Q个细胞核掩膜到一张空白图片上。Q轮迭代后可以得到一张伪掩膜图片。

为了生成对应于伪掩膜的伪病理图片，同时利用尽可能少的训练标注，本发明提出了新的有条件输入的基于单对训练图片的对抗生成模型。该模型的目的在于，生成和输入掩膜中细胞核标签对应的伪病理图像。其结构如图7所示，该模型包含一个多尺度的有条件的生成器和一个多组件的判别器，为了解释公式，

指的是最大尺度的生成图像，

指的是第n个尺度的生成图像。生成器和判别器分别表示为

和

。多尺度的有条件的生成器可以表示为公式（2）：

（2）

其中，

和

表示真实的标注掩膜和伪掩膜。当计算最终生成图像

时，所有的

(

)都是通过改变

的尺寸得到的。m是掩膜，可以是真实掩膜也可是伪掩膜，每一层的生成器判别器都需要尺寸不同的m，从0～N尺寸增大，

就是对

进行resize得到的。

和

表示三通道的高斯噪声图像。

操作表示按通道维度拼接矩阵。每一个生成器的网络结构和原始SinGAN 模型[13]的模块相同，原始SinGAN 模型即引用的sinGAN文章中所述SinGAN 模型，其具体网络结构为五个（卷积层+正则化层+LeakyRelu激活函数）。每个尺度的生成器和判别器都会计算一个重建损失和判别损失来优化模型，如公式（3）所示：

) （3）

其中，第二项

为重建损失，

为生成图像，

则为真实图像。对于判别损失，本发明设计了一种新型的多组件的判别器。该判别器将输入图像分离为前景，背景和原图三类图像分别进行判断，即在生成器生成图像之后，输入判别器之前。判别器的输入为真实样本对（真实样本和标注掩膜）和生成样本对（生成样本和伪掩膜），判别器的目的是为了判断生成样本块是否与真实样本块相似。这里把真实样本块和生成样本块都分离成三类图像（通过其掩膜可以进行前景，背景的分离）来分别计算判别损失。判别器包含三个子网络，分别对三类图像进行判别，彼此（三个子网络）之间互不参数共享。整个判别过程可以用如下公式（4）表示：

（4）

其中，

指第n个尺度下的伪掩膜，

指真实掩膜。

指按元素相乘操作，

指的就是提取

的背景区域和前景区域。这样不同的子网络

就会关注于不同的生成区域的真实程度。这有助于生成和伪掩膜中细胞核位置精确对应的生成图像。

指的是WGAN-GP 损失函数[18]，是一种在判别器中常用的损失函数，如公式（5）所示：

(5)

其中，y和x指生成图像和真实图像。

指在分别从x和y的分布的抽样的两点连成的直线上均匀采样。

指的是判别器，

表示数学期望，

为惩罚系数。

基于伪标签的半监督训练方法：

在得到大量的生成的伪病理图片对之后，每张伪病理图片分别与相应的伪掩膜组成伪样本对。

本发明引入了基于伪标签的半监督训练方法来充分利用无标签数据。伪标签[19]方法通常使用一个预训练的模型来对无标签数据进行预测。预测出来的结果可以和原始数据结合作为一种标签参与新一轮的训练来提升模型的性能。本发明以Mask-RCNN（MRCNN）[20]为例，首先一个预训练的Mask-RCNN模型可以通过在真实样本对（标注样本对）和生成样本对（伪样本对）上训练得到Mask-RCNN模型。然后，该预训练的Mask-RCNN模型会在无标签的数据――无标签的原始病理图像上进行第一轮预测，这些预测的掩膜会作为原始图像的标签加入第二轮训练。经过几轮训练，基于伪标签的方法会达到分割性能上限，则可停止训练，得到最终的分割模型。分割性能可以描述为分割精度。分割性能上限就是指无法通过进一步的伪标签训练来提升，继续使用伪标签分割精度会不变甚至下降。

实验证明，本发明可以结合其他的半监督方法或细胞核分割模型使用来提升性能。

[15] B. Gao, Y. Yang, H. Gouk, and T. M. Hospedales, “Deep clusteringwith concrete K-means,” in International Conference on Acoustics, Speech andSignal processing (ICASSP). IEEE, 2020, pp. 4252–4256.

[16] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei,“ImageNet: A large-scale hierarchical image database,” in IEEE ComputerVision and Pattern Recognition Conference, 2009, pp. 248–255.

[17] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning forimage recognition,” in IEEE Computer Vision and Pattern RecognitionConference, 2016, pp. 770–778.

[18] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A.Courville, “Improved training of Wasserstein GANs,” in Advances in NeuralInformation Processing Systems, 2017.

[19] D.-H. Lee et al., “Pseudo-label: The simple and efficient semi-supervisedlearning method for deep neural networks,” in Workshop onchallenges in representation learning, ICML, vol. 3, no. 2, 2013, p. 896.

[20] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick, “Mask R-CNN,”in ICCV. IEEE, 2017, pp. 2961–2969.

伪掩膜构造方法：之前的伪掩膜构造方法[21]尝试从基于统计预定义的细胞核形态分布直接生成伪掩膜，例如利用统计好的半径，不规则度，刺突数来构造多边形。然而这种方法需要大量的细胞核标注来进行统计，在标注数量很少的情况下，它的伪掩膜构造效果不佳。如图8所示，本方法构造的掩膜接近真实掩膜。

[21] L. Hou, A. Agarwal, D. Samaras, T. M. Kurc, R. R. Gupta, and J.H. Saltz, “Robust histopathology image analysis: To label or to synthesize”in IEEE Computer Vision and Pattern Recognition Conference, 2019, pp. 8533–8542

如图9 所示，本发明整体框架结合先前分割方法[20][27]在使用约5%标注的情况下，在TCGA-KUMAR数据集上[28]和最强的全监督方法Hover-net[27]仅差距0.2%分割指标AJI,在TNBC数据集[22]上达到了和超过Hover-net的效果。在使用7%标注的情况下，在MoNuSeg数据集[29]上得到了略低于Hover-net约1.17% AJI的结果。这充分显示了本发明在缺少标签的病理图片分割应用场景的优势，即极大了减少了标注成本。

如图10所示，本发明各组成部件在本发明提出的细胞核分割框架中起到了至关重要的作用。CPS表示基于一致性的样本选择算法，MRCNN指的是分割模型Mask-RCNN，CSinGAN指的是有条件输入的基于单对训练图片的对抗生成模型，Plabel表示伪标签训练方法。对比a)和b)，CSinGAN方法使分割模型在TCGA-Kumar数据集上提升了1.34% AJI。比较b)和c），本发明提出的样本选择算法CPS相较随机采样方法提升了约2.83% AJI。通过d)和b)的对比实验，加入基于伪标签的半监督训练方法之后，本发明的分割性能可以进一步提升4.54%AJI。

[22] P. Naylor, M. La´e, F. Reyal, and T. Walter, “Segmentation ofnuclei in histopathology images by deep regression of the distance map,” IEEE Transactions on Medical Imaging, vol. 38, no. 2, pp. 448–459, 2018.

[23] S. E. A. Raza, L. Cheung, M. Shaban, S. Graham, D. Epstein, S.Pelengaris, M. Khan, and N. M. Rajpoot, “Micro-Net : A unified modelforsegmentation of various objects in microscopy images,” Medical ImageAnalysis, vol. 52, pp. 160–173, 2019.

[24] X. Liu, Z. Guo, J. Cao, and J. Tang, “MDC-Net : A newconvolutional neural network for nucleus segmentation in histopathologyimages with distance maps and contour information,” Computers in Biology and Medicine, p. 104543, 2021.

[25] D. Liu, D. Zhang, Y. Song, C. Zhang, F. Zhang, L. O’Donnell, andW. Cai, “Nuclei segmentation via a deep panoptic model with semantic featurefusion,” in IJCAI, 2019, pp. 861–868.

[26] D. Liu, D. Zhang, Y. Song, H. Huang, and W. Cai, “Panopticfeature fusion net: A novel instance segmentation paradigm for biomedical andbiological images,” IEEE Transactions on Image Processing, vol. 30, pp. 2045–2059, 2021.

[27] S. Graham, Q. D. Vu, S. E. A. Raza, A. Azam, Y. W. Tsang, J.T.Kwak, and N. Rajpoot, “Hover-Net:Simultaneous segmentationandclassification of nuclei in multi-tissue histology images,” Medical ImageAnalysis, vol. 58, p. 101563, 2019.

[28] N. Kumar, R. Verma, S. Sharma, S. Bhargava, A. Vahadane, and A.Sethi, “A dataset and a technique for generalized nuclear segmentation forcomputational pathology,” IEEE Transactions on Medical Imaging, vol. 36, no.7, pp. 1550–1560, 2017.

[29] N. Kumar, R. Verma, D. Anand, Y. Zhou, O. F. Onder, E.Tsougenis, H. Chen, P.-A. Heng, J. Li, Z. Hu et al., “A multi-organ nucleussegmentation challenge,” IEEE Transactions on Medical Imaging, vol. 39, no.5, pp. 1380–1391, 2019.

应用前景推广：

细胞核分割是计算机辅助诊疗系统中关键的一个环节。分割出来的细胞核不仅有助于病理图像的进一步处理，也有助于病理医生诊断分析病情的发展。

本发明可以大幅度减少病理图像细胞核分割相关的诊断研究和商业诊疗系统生产所需要的标注成本。

本发明可以挑选病理图像中有价值样本块为医学诊疗提供参考。

本发明可以为病理图像的细胞核分类和组织分割提供帮助。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种低成本高效的细胞核图像分割方法，其特征在于：包括有以下制作步骤：

S1，采集原始的病理图像数据集，生成原始病理图像；

S31，采样；

S32，双层聚类；

共执行两次K-means聚类，即k均值聚类算法；

S321，第一次聚类为粗聚类，将小尺寸样本块聚类成

个聚类簇；

S323，进行第二次聚类，得到

个聚类簇，即细聚类；

S324，经过两次聚类，最终得到

个聚类簇；

S33，分数计算：计算每一个聚类簇中所有小尺寸样本块的代表性和内部一致性分数；筛选出每个聚类簇中分数最小的一个小尺寸样本块；

S9，将每张伪病理图片与相对应的伪掩膜组成伪样本对；

S11，使用有标注分割训练集和大量的无标注病理图像对基于伪标签的半监督细胞核分割模型进行训练，得到能够精准分割病理图像细胞核的模型。

2.根据权利要求1所述低成本高效的细胞核图像分割方法，其特征在于：所述步骤S31中，包括以下操作内容：

从原始病理图像利用滑动窗口均匀地采样大小为

的小尺寸样本块，其中s为4的倍数。

3.根据权利要求1所述低成本高效的细胞核图像分割方法，其特征在于：每一次聚类使用的特征向量均为将样本块或子区域输入Imagenet预训练的ResNet50模型得到的特征。

4.根据权利要求3所述低成本高效的细胞核图像分割方法，其特征在于：所述步骤S33中，包括以下操作内容：

S3301，将粗聚类得到的每一个聚类簇定义为

，每个聚类簇

中的每一个小尺寸样本块定义为

；

S3302，将第

个聚类簇

中分数最小的一个小尺寸样本块定义为

；

个聚类簇

中筛选出

个

；

S3303，计算聚类簇

；

；

S3305，计算聚类簇

的聚类中心c

；

S3306，计算每一个小尺寸样本块

的粗代表性距离、细代表性距离以及内部一致性距离；

粗代表性距离为每一个小尺寸样本块

离其所属的粗分割聚类簇中心的距离；

细代表性距离为每一个小尺寸样本块

内部一致性距离为每一个小尺寸样本块

的任意两个子区域特征距离的最大值；

其中

指的是特征提取器，即预训练的ResNet50模型；

都是属于小尺寸样本块

的一个子区域；

S3308，筛选出分数最小的一个小尺寸样本块；

S3309，对粗聚类的

个聚类簇筛选出

个小尺寸样本块，即筛选出

个标注样本块；

S3310，针对

个标注样本块标注生成出

个标注掩膜，得到

对标注样本对。

5.根据权利要求4所述低成本高效的细胞核图像分割方法，其特征在于：

S6的模型训练操作步骤中，包括以下内容：

S611，标注掩膜为真实掩膜，对每个真实掩膜进行多种数据扩增，包括旋转、裁剪、翻转操作，得到一个扩充的细胞核掩膜集合

；

S612，对每一个真实掩膜，每次迭代生成一个伪掩膜，迭代

次生成

个伪掩膜，每次迭代包括以下内容：

S6121，另外打开一张空白图片，定义为

；

S6122，迭代Q次，从真实细胞核掩膜集合

中随机挑选Q个细胞核掩膜，填充进空白图片

中，每次迭代包括以下内容：

S61221，从真实细胞核掩膜集合

中随机挑选到第q个细胞核掩膜

时，前q-1个细胞核掩膜填充后的中间结果为

；

S61222，对已得到的中间结果

进行膨胀操作，膨胀半径为

的最大半径；

S61223，在膨胀之后的

上随机找到一个没有细胞核的位置，将新细胞核

摆放在该位置上，得到中间结果

；

S61224，当选择出第Q个细胞核掩膜放到图片

上时，迭代结束，得到一张包含Q个细胞核掩膜的伪掩膜；

6.根据权利要求5所述低成本高效的细胞核图像分割方法，其特征在于：所述步骤S62中的CSinGAN模型生成器，包括以下内容：

，多组件的判别器定义为

；

S622，多尺度的有条件的生成器表示为公式（2）：

（2）

其中，

表示真实的标注掩膜，

表示伪掩膜；

计算最终生成图像

时，所有的

(

)均通过改变

的尺寸得到；

和

表示三通道的高斯噪声图像；

操作表示按通道维度拼接矩阵；

每一个生成器的网络结构和原始SinGAN模型的模块相同；

) （3）

其中，第二项

为重建损失，

为生成图像，

为真实图像；

S624，判别器的判别过程按照如下公式（4）表示：

（4）

其中，

为第n个尺度下的伪掩膜，

为真实掩膜；

表示按元素相乘操作，即：

为提取

的背景区域和前景区域；

不同的子网络

为WGAN-GP 损失函数，如公式（5）所示：

(5)

其中，y为生成图像，x为真实图像；

为分别从x和y的分布的抽样的两点连成的直线上均匀采样；

为判别器，

为数学期望，

为惩罚系数。

7.根据权利要求6所述低成本高效的细胞核图像分割方法，其特征在于：所述步骤S11中，包括以下操作内容：

S111，通过标注样本对和伪样本对训练得到Mask-RCNN模型；

S113，将预测掩膜作为原始图像的标签加入第二轮训练；

S115，停止训练；

S116，得到最终的分割模型。