CN116580203A

CN116580203A - 一种基于视觉注意力的无监督宫颈细胞实例分割方法

Info

Publication number: CN116580203A
Application number: CN202310620910.9A
Authority: CN
Inventors: 丁博; 杨晓娜; 栗嘉鸿; 李超炜
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-11

Abstract

一种基于视觉注意力的无监督宫颈细胞实例分割方法，本发明涉及宫颈癌智能辅助诊断技术中标注数据缺失和宫颈细胞的精准分割问题。计算机智能辅助诊断技术被广泛应用，其中细胞分割技术是各种下游任务基础。深度学习模型需要大量的标注数据进行训练，而像素级的标注耗时耗力，且存在生理原因和制片原因导致的细菌、白细胞、气泡等杂质，另外宫颈细胞图像存在重叠粘连、视觉上不可分等问题。为改善这些问题，本发明提出了一种基于视觉注意力的无监督宫颈细胞实例分割方法。实验表明，该方法可以有效提升分割的准确率，减少杂质的干扰与标签不完全所导致的漏检问题。本发明应用于无标签情况下宫颈细胞的精准分割。

Description

一种基于视觉注意力的无监督宫颈细胞实例分割方法

技术领域

本发明涉及宫颈细胞质与细胞核的实例分割问题。

背景技术

宫颈癌是一种严重危害女性健康的恶性肿瘤，及时有效的筛查对于预防和治疗宫颈癌具有重要意义。然而，传统的人工筛查方法存在耗时、费力、主观性强等缺点，限制了宫颈癌筛查的大规模应用，基于深度学习的计算机辅助诊断方法可以有效的解决这一痛点。然而深度学习方法通常需要大量高精度的标注数据进行训练才能获得准确率高和泛化性好的结果，而标注数据的获取又是一项繁琐且昂贵的工作。同时，计算机辅助诊断中的分割步骤是进行各种下游任务的前提，且通过分割来计算出细胞质与细胞核的指标是量化细胞异常程度的重要手段，为癌症分级与诊断提供了强有力的可解释性。

宫颈细胞实例分割方法一方面要将每个细胞分割开，另一方面要将细胞质和细胞核分割开。由于宫颈图像中存在大量中性粒与杂质的干扰，且细胞质与细胞核的尺度差距较大，图像风格因人而异，存在大量重叠成团细胞，这都对无监督实例分割提出了挑战。本文提出了一种基于特征金字塔结构(Feature Pyramid Network，FPN)的无监督宫颈细胞分割方法，该方法由三大模块组成：伪标签生成阶段，模型训练阶段和自训练阶段。本发明提出了一种新的基于视觉注意力机制的细胞区域特征增强模块来模拟人类识别细胞的行为，具体来说是将细胞的注意力特征与多尺度特征相融合，指导网络分割细胞，并大大减轻复杂背景的干扰，提高分割的准确率；同时，由于伪标签不全的缺点，在目标检测阶段提出一种新的损失函数，使模型在训练过程中发现更多的实例，提高检测召回率。

发明内容

本发明的目的是为了解决在没有手工标注情况下的宫颈细胞的高质量实例分割任务，从而提出一种基于视觉注意力的无监督宫颈细胞实例分割方法。

上述发明目的主要是通过以下技术方案实现的：

S1、采集具有多样性的细胞图像，并进行数据增强；

通过自动扫描仪获取大量细胞图像，选取不同病人、不同机构、不同医院的图像，并将图像裁剪成尺寸为H×W的小图像，并划分为训练集、测试集与验证集，由专业人士利用标注工具标记测试集和验证集的每个细胞质与细胞核的轮廓，作为衡量模型准确程度的依据；并对所有图像进行不同程度的数据增强，包括对比度、饱和度、颜色与随机水平竖直翻转。

S2、利用伪标签生成算法得到无标签图像的标签，选取高质量目标框标签作为数据集的伪标签；

病理学染色有两种方法：巴氏染色法和苏木精-伊红(Hemotoxylin&Eosin，HE)染色法，巴氏染色法核质分明，细胞核呈深蓝色，细胞质呈粉红色或橙色；HE染色法核质分明，细胞核呈紫蓝色，细胞质呈淡红色；由此可见，细胞图像的细胞质与细胞核具有先天颜色先验、形状先验、并且细胞图像具有细胞质包含细胞核的结构先验；所以融合先验知识的伪标签生成算法充分考虑细胞的多种先验知识，得到细胞质与细胞核的伪标签，具体方法包括以下子步骤：

S2-1、使用迭代阈值分割算法，并融合颜色先验和形状先验，得到细胞核的二值掩码图，用公式表示为：

式中，N_nuclei表示所有的细胞核伪标签，P_i表示以i为阈值进行阈值分割得到的二值图，s为阈值的下限，e为阈值的上限，S为轮廓的面积，计算公式为(3)，R为轮廓的圆度，计算公式为(4)，τ_area为轮廓面积的阈值，τ_roundness为轮廓圆度的阈值；

式中，w为P_i的宽度，h为P_i的高度，L为轮廓的周长，ε为平衡因子；

S2-2、通过Otsu(Otsu thresholding algorithm，Otsu)算法求出最佳细胞质分割阈值，记作T_cyto；

S2-3、考虑到当T_cyto较大时，图像染色较浅，即实际的最佳细胞质分割阈值应更大一些，因此引入一个映射函数得到实际最佳细胞质分割阈值，公式如下：

式中，表示由Otsu算法得到的分割阈值，T_cyto表示新的细胞质分割阈值，a、b和t为平衡系数；

S2-4、将相连区域分割开来，首先使用分水岭算法对单独细胞和简单成团细胞进行分割，其中阈值为S2-3得到的最佳细胞质分割阈值；然后利用水平集算法对复杂成团细胞进行分割，以S2-1生成的细胞核掩码为种子点，通过演化函数找到成团细胞的边界点，从而得到细胞质的掩码图；

S2-5、由于细胞之间存在一种结构先验，即细胞质包含于细胞核，利用这个特性可以去除中性粒、杂质等物质，从而得到更准确细胞质和细胞核标签，选择满足公式(6)的细胞质与细胞核：

式中，X_c与Y_c表示细胞质的中心距，X_n与Y_n表示细胞核的中心距，轮廓的中心距的计算，R_c表示细胞质轮廓的半径。

S3、构建实例分割模型，并通过S1中构建的数据集和S2中生成的数据集伪标签训练实例分割模型；

S3-1、实例分割模型中的主干部分采用ResNet进行特征提取，由于细胞质与细胞核尺度差距较大，并利用特征金字塔结构(Feature pyramid network，FPN)提取多尺度语义信息，采用5个特征层检测不同尺寸的物体，特征层从大到小依次为P2、P3、P4、P5、P6；

S3-2、实例分割模型中的视觉注意力机制试图模仿人类视觉系统在分割细胞时的过程，随机选取每个高质量细胞核的一个点，通过注意力编码器得到以细胞核点为中心的细胞核注意力图像，与多尺度语义信息相融合，并融入语义解码器得到语义注意力图，使模型关注到细胞，减少背景与杂质的干扰；

S3-3、实例分割模型中的总体损失包括目标检测损失和分割损失，其中，模型训练的标签采用步骤S2中所述的伪标签生成算法生成的伪标签，由于其伪标签并不全，所以为了减轻模型的漏检缺陷，故在目标检测阶段，提出一种类别感知加权损失(Class-wiseIoU-Weighted Loss，CIWL)函数，使模型并不完全依赖于标签，并探索更多的实例，其中类别感知的设计使模型能关注到在细胞质内部的细胞核，具体损失函数为：

式中，C表示类别数，P表示预测实例的个数，IoU^max表示每个预测区域与标签的最大重叠度，其定义为公式(9)，ε表示预测与标签的重叠度阈值，L_cls表示类别损失，L_reg包括边界框回归损失和中心点回归损失；

式中，X表示预测区域，Y表示真实标签，∩表示X与Y像素点的交集，∪表示X与Y像素点的并集；

在分割阶段，采用投影损失和颜色相似度损失，可以在只有目标框标签的情况下分割出前景与背景。

S4、利用标签更新算法得到更精确的伪标签；

根据模型对训练集的重分析，选择阈值大于T、IoU大于n的预测标签替换掉在原来位置的标签，通过多次自训练不断更新标签，进而得到更精准更全面的标签，其中阈值选择规则为：

式中，表示第一轮自训练预测标签阈值，α表示阈值衰减系数，R表示自训练轮次，T表示本次自训练预测标签阈值。

S5、通过多次自训练，得到更拟合图像分布的模型参数；

S5-1、从上个训练阶段选取未完全拟合数据的模型参数，采取提前自训练的方式避免模型陷入局部最优的困境；

S5-2、将模型训练标签替换为S4中得到的更新后的伪标签；

S5-3、更改为自训练的超参数，包括预训练模型、学习率，重新进入训练阶段，并重复S3中的训练过程、S4和S5，直到模型参数较好的拟合数据。

发明效果

本发明提供了一种基于视觉注意力的无监督宫颈细胞实例分割方法。本算法首先选取大量无标签数据通过伪标签生成算法得到数据集伪标签，然后训练实例分割模型，用于对细胞质和细胞核边界位置建模，并利用提出一种新的视觉注意力机制使网络更加关注到细胞，减轻图像中多种杂质的影响，提升分割的准确率。在目标检测阶段，结合无监督任务特点，提出一种新的类别感知加权损失，可以使网络关注到更多实例，减少漏检的情况，其中的多尺度特征可以使模型关注到不同尺度的物体，更加适应于细胞质与细胞核尺度差距大的细胞图像；在分割阶段，使用投影损失和颜色相似度损失使网络在仅有目标框标注的情况下准确的区分开前景与背景。实验表明，本发明可以较精准地分割出每个细胞的细胞质与细胞核，可有效地应用于自动化计算机辅助诊断系统。

附图说明

图1为基于视觉注意力的无监督宫颈细胞实例分割方法整体结构图；

图2为伪标签生成算法图；

图3为基于视觉注意力的无监督宫颈细胞实例分割网络结构图；

图4为模型效果图。

具体实施方法

具体实施方式一：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本文提供的一种基于视觉注意力的无监督宫颈细胞实例分割方法，主要包含以下步骤：

S1、采集具有多样性的细胞图像，并进行数据增强；

S4、利用标签更新算法得到更精确的伪标签；

S5、通过多次自训练，得到更拟合图像分布的模型参数。

本发明实施例中，首先采集具有多样性的数据集，并进行不同程度的数据增强，作为无监督方法的数据集；然后，利用细胞的多种先验知识得到伪标签；构建实例分割模型，并加入人类视觉感知模块减轻复杂背景的干扰，并提高分割的准确率；同时，本发明提出了一种CIWL损失函数，使模型减少对预测中的伪负样本的惩罚，提升模型的召回率；最后通过自训练的方式进一步得到更精确的伪标签，提升模型性能。

下面对本发明实施例进行详细的说明：

如图1所示算法的实现包含步骤：

S1、采集具有多样性的细胞图像，并进行数据增强；

通过自动扫描仪获取大量细胞图像，选取不同病人、不同机构、不同医院的图像，并将图像裁剪成1024×1024的小图像，按照6：2：2划分为训练集、测试集与验证集，由专业人士利用标注工具标记测试集和验证集的每个细胞质与细胞核的轮廓，作为衡量模型准确程度的依据；并对所有图像进行不同程度的数据增强，包括对比度、饱和度、颜色与随机水平竖直翻转。

病理学染色有两种方法：巴氏染色法和苏木精-伊红(Hemotoxylin&Eosin，HE)染色法，巴氏染色法核质分明，细胞核呈深蓝色，细胞质呈粉红色或橙色；HE染色法核质分明，细胞核呈紫蓝色，细胞质呈淡红色；由此可见，细胞图像的细胞质与细胞核具有先天颜色先验、形状先验、并且细胞图像具有细胞质包含细胞核的结构先验；融合先验知识的伪标签生成算法如图2所示，充分考虑细胞的多种先验知识，得到细胞质与细胞核的伪标签，具体方法包括以下子步骤：

式中，N_nuclei表示所有的细胞核伪标签，P_i表示以i为阈值进行阈值分割得到的二值图，s为阈值的下限，e为阈值的上限，S为轮廓的面积，计算公式为(13)，R为轮廓的圆度，计算公式为(14)，τ_area为轮廓面积的阈值，τ_roundness为轮廓圆度的阈值，在本实施例中，τ_area为50，τ_roundness为0.5；

式中，w为P_i的宽度，h为P_i的高度，L为轮廓的周长，ε为平衡因子，在本实施例中，ε为10^-6；

S2-3、考虑到当T_cyto较大时，图像染色是较浅的，即实际的最佳细胞质分割阈值应更大一些，因此引入一个映射函数得到实际最佳细胞质分割阈值，公式如下：

式中，T_cyto表示由Otsu算法得到的分割阈值，a、b和t为平衡系数，在本实施例中，a为1.2，b为20，t为230；

S2-5、由于细胞之间存在一种结构先验，即细胞质包含于细胞核，利用这个特性可以去除中性粒、杂质等物质，从而得到更准确细胞质和细胞核标签，选择满足公式(15)的细胞质与细胞核：

S3-1、模型结构图如图3所示，其中实例分割模型中的主干部分采用ResNet进行特征提取，由于细胞质与细胞核尺度差距较大，并利用FPN结构提取多尺度语义信息，采用5个特征层检测不同尺寸的物体，特征层从大到小依次为P2、P3、P4、P5、P6；

S3-2、实例分割模型中的视觉注意力机制试图模仿人类视觉系统在分割细胞时的过程，随机选取每个高质量细胞核的一个点，通过注意力编码器得到以细胞核点为中心的细胞核注意力图像，与多尺度语义信息相融合，并融入语义解码器得到语义注意力图，使模型加强对细胞的关注，并减少背景与杂质的干扰；

S3-3、实例分割模型中的总体损失包括目标检测损失和分割损失，其中，模型训练的标签采用步骤S2中所述的伪标签生成算法生成的伪标签，由于其伪标签不全，所以为了减轻模型的漏检缺陷，故在目标检测阶段，提出了CIWL函数，使模型并不完全依赖于标签，并探索更多的实例，其中类别感知的设计使模型能关注到在细胞质内部的细胞核，具体损失函数为：

式中，c表示类别编号，p表示预测结果，IoU^max表示每个预测区域与标签的最大重叠度，其定义为公式(19)，ε表示预测与标签的重叠度阈值，L_cls表示类别损失，L_reg包括边界框回归损失和中心点回归损失，在本实施例中，ε为0.01；

S4、利用标签更新算法得到更精确的伪标签；

式中，表示第一轮自训练预测标签阈值，α表示阈值衰减系数，R表示自训练轮次，T表示本次自训练预测标签阈值，在本实施例中，/>为0.6，α为0.05，n为0.7。

S5、通过多次自训练，得到更拟合图像分布的模型参数；

S5-2、将模型训练标签替换为S4中得到的更新后的伪标签；

最终的实现效果如图4所示，从图中可以看出该方法适用于不同染色风格宫颈细胞图像，具有较好的准确率与泛化性。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明范围。

Claims

1.一种基于视觉注意力的无监督宫颈细胞实例分割方法，其特征在于，包含以下步骤：

S1、采集具有多样性的细胞图像，并进行数据增强；

S4、利用标签更新算法得到更精确的伪标签；

S5、通过多次自训练，得到更拟合图像分布的模型参数。

2.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法，其特征在于，步骤S1中所述的多样性数据采集和数据增强说明如下：

3.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法，其特征在于，步骤S2中所述的伪标签生成算法如下：

病理学染色有两种方法：巴氏染色法和苏木精-伊红(Hemotoxylin&Eosin，HE)染色法，巴氏染色法核质分明，细胞核呈深蓝色，细胞质呈粉红色或橙色；HE染色法核质分明，细胞核呈紫蓝色，细胞质呈淡红色；由此可见，细胞图像的细胞质与细胞核具有先天颜色先验、形状先验、并且细胞图像具有细胞质包含细胞核的结构先验；所以伪标签生成算法充分考虑细胞的多种先验知识，得到细胞质与细胞核的伪标签，具体方法包括以下子步骤：

式中，T_cyto表示由Otsu算法得到的分割阈值，a、b和t为平衡系数；

4.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法，其特征在于，步骤S3中所述的实例分割模型结构如下：

S3-3、实例分割模型中的总体损失包括目标检测损失和分割损失，其中，模型训练的标签采用步骤S2中所述的伪标签生成算法生成的伪标签，由于其伪标签不全，所以为了减轻模型的漏检缺陷，故在目标检测阶段，提出一种新的类别感知加权损失(Class-wise IoU-Weighted Loss，CIWL)函数，使模型并不完全依赖于标签，而使模型探索更多的实例，其中类别感知的设计使模型能关注到在细胞质内部的细胞核，具体损失函数为：

式中，c表示类别编号，p表示预测结果，IoU^max表示每个预测区域与标签的最大重叠度，其定义为公式(5)，ε表示预测与标签的重叠度阈值，L_cls表示类别损失，L_reg包括边界框回归损失和中心点回归损失；

5.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法，其特征在于，步骤S4中标签更新算法如下：

6.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法，其特征在于，步骤S5中的自训练的步骤如下：

S5-2、将模型训练标签替换为S4中得到的更新后的伪标签；