CN116580203A - 一种基于视觉注意力的无监督宫颈细胞实例分割方法 - Google Patents
一种基于视觉注意力的无监督宫颈细胞实例分割方法 Download PDFInfo
- Publication number
- CN116580203A CN116580203A CN202310620910.9A CN202310620910A CN116580203A CN 116580203 A CN116580203 A CN 116580203A CN 202310620910 A CN202310620910 A CN 202310620910A CN 116580203 A CN116580203 A CN 116580203A
- Authority
- CN
- China
- Prior art keywords
- label
- nucleus
- model
- training
- cytoplasm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000000007 visual effect Effects 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 239000012535 impurity Substances 0.000 claims abstract description 10
- 210000004027 cell Anatomy 0.000 claims description 64
- 210000000805 cytoplasm Anatomy 0.000 claims description 46
- 210000004940 nucleus Anatomy 0.000 claims description 40
- 210000003855 cell nucleus Anatomy 0.000 claims description 29
- 230000001086 cytosolic effect Effects 0.000 claims description 16
- 238000010186 staining Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000000638 solvent extraction Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007490 hematoxylin and eosin (H&E) staining Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 5
- 206010008342 Cervix carcinoma Diseases 0.000 abstract description 4
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 abstract description 4
- 201000010881 cervical cancer Diseases 0.000 abstract description 4
- 238000004195 computer-aided diagnosis Methods 0.000 abstract description 4
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract description 2
- 241000894006 Bacteria Species 0.000 abstract 1
- 238000013136 deep learning model Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/031—Recognition of patterns in medical or anatomical images of internal organs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
一种基于视觉注意力的无监督宫颈细胞实例分割方法,本发明涉及宫颈癌智能辅助诊断技术中标注数据缺失和宫颈细胞的精准分割问题。计算机智能辅助诊断技术被广泛应用,其中细胞分割技术是各种下游任务基础。深度学习模型需要大量的标注数据进行训练,而像素级的标注耗时耗力,且存在生理原因和制片原因导致的细菌、白细胞、气泡等杂质,另外宫颈细胞图像存在重叠粘连、视觉上不可分等问题。为改善这些问题,本发明提出了一种基于视觉注意力的无监督宫颈细胞实例分割方法。实验表明,该方法可以有效提升分割的准确率,减少杂质的干扰与标签不完全所导致的漏检问题。本发明应用于无标签情况下宫颈细胞的精准分割。
Description
技术领域
本发明涉及宫颈细胞质与细胞核的实例分割问题。
背景技术
宫颈癌是一种严重危害女性健康的恶性肿瘤,及时有效的筛查对于预防和治疗宫颈癌具有重要意义。然而,传统的人工筛查方法存在耗时、费力、主观性强等缺点,限制了宫颈癌筛查的大规模应用,基于深度学习的计算机辅助诊断方法可以有效的解决这一痛点。然而深度学习方法通常需要大量高精度的标注数据进行训练才能获得准确率高和泛化性好的结果,而标注数据的获取又是一项繁琐且昂贵的工作。同时,计算机辅助诊断中的分割步骤是进行各种下游任务的前提,且通过分割来计算出细胞质与细胞核的指标是量化细胞异常程度的重要手段,为癌症分级与诊断提供了强有力的可解释性。
宫颈细胞实例分割方法一方面要将每个细胞分割开,另一方面要将细胞质和细胞核分割开。由于宫颈图像中存在大量中性粒与杂质的干扰,且细胞质与细胞核的尺度差距较大,图像风格因人而异,存在大量重叠成团细胞,这都对无监督实例分割提出了挑战。本文提出了一种基于特征金字塔结构(Feature Pyramid Network,FPN)的无监督宫颈细胞分割方法,该方法由三大模块组成:伪标签生成阶段,模型训练阶段和自训练阶段。本发明提出了一种新的基于视觉注意力机制的细胞区域特征增强模块来模拟人类识别细胞的行为,具体来说是将细胞的注意力特征与多尺度特征相融合,指导网络分割细胞,并大大减轻复杂背景的干扰,提高分割的准确率;同时,由于伪标签不全的缺点,在目标检测阶段提出一种新的损失函数,使模型在训练过程中发现更多的实例,提高检测召回率。
发明内容
本发明的目的是为了解决在没有手工标注情况下的宫颈细胞的高质量实例分割任务,从而提出一种基于视觉注意力的无监督宫颈细胞实例分割方法。
上述发明目的主要是通过以下技术方案实现的:
S1、采集具有多样性的细胞图像,并进行数据增强;
通过自动扫描仪获取大量细胞图像,选取不同病人、不同机构、不同医院的图像,并将图像裁剪成尺寸为H×W的小图像,并划分为训练集、测试集与验证集,由专业人士利用标注工具标记测试集和验证集的每个细胞质与细胞核的轮廓,作为衡量模型准确程度的依据;并对所有图像进行不同程度的数据增强,包括对比度、饱和度、颜色与随机水平竖直翻转。
S2、利用伪标签生成算法得到无标签图像的标签,选取高质量目标框标签作为数据集的伪标签;
病理学染色有两种方法:巴氏染色法和苏木精-伊红(Hemotoxylin&Eosin,HE)染色法,巴氏染色法核质分明,细胞核呈深蓝色,细胞质呈粉红色或橙色;HE染色法核质分明,细胞核呈紫蓝色,细胞质呈淡红色;由此可见,细胞图像的细胞质与细胞核具有先天颜色先验、形状先验、并且细胞图像具有细胞质包含细胞核的结构先验;所以融合先验知识的伪标签生成算法充分考虑细胞的多种先验知识,得到细胞质与细胞核的伪标签,具体方法包括以下子步骤:
S2-1、使用迭代阈值分割算法,并融合颜色先验和形状先验,得到细胞核的二值掩码图,用公式表示为:
式中,Nnuclei表示所有的细胞核伪标签,Pi表示以i为阈值进行阈值分割得到的二值图,s为阈值的下限,e为阈值的上限,S为轮廓的面积,计算公式为(3),R为轮廓的圆度,计算公式为(4),τarea为轮廓面积的阈值,τroundness为轮廓圆度的阈值;
式中,w为Pi的宽度,h为Pi的高度,L为轮廓的周长,ε为平衡因子;
S2-2、通过Otsu(Otsu thresholding algorithm,Otsu)算法求出最佳细胞质分割阈值,记作Tcyto;
S2-3、考虑到当Tcyto较大时,图像染色较浅,即实际的最佳细胞质分割阈值应更大一些,因此引入一个映射函数得到实际最佳细胞质分割阈值,公式如下:
式中,表示由Otsu算法得到的分割阈值,Tcyto表示新的细胞质分割阈值,a、b和t为平衡系数;
S2-4、将相连区域分割开来,首先使用分水岭算法对单独细胞和简单成团细胞进行分割,其中阈值为S2-3得到的最佳细胞质分割阈值;然后利用水平集算法对复杂成团细胞进行分割,以S2-1生成的细胞核掩码为种子点,通过演化函数找到成团细胞的边界点,从而得到细胞质的掩码图;
S2-5、由于细胞之间存在一种结构先验,即细胞质包含于细胞核,利用这个特性可以去除中性粒、杂质等物质,从而得到更准确细胞质和细胞核标签,选择满足公式(6)的细胞质与细胞核:
式中,Xc与Yc表示细胞质的中心距,Xn与Yn表示细胞核的中心距,轮廓的中心距的计算,Rc表示细胞质轮廓的半径。
S3、构建实例分割模型,并通过S1中构建的数据集和S2中生成的数据集伪标签训练实例分割模型;
S3-1、实例分割模型中的主干部分采用ResNet进行特征提取,由于细胞质与细胞核尺度差距较大,并利用特征金字塔结构(Feature pyramid network,FPN)提取多尺度语义信息,采用5个特征层检测不同尺寸的物体,特征层从大到小依次为P2、P3、P4、P5、P6;
S3-2、实例分割模型中的视觉注意力机制试图模仿人类视觉系统在分割细胞时的过程,随机选取每个高质量细胞核的一个点,通过注意力编码器得到以细胞核点为中心的细胞核注意力图像,与多尺度语义信息相融合,并融入语义解码器得到语义注意力图,使模型关注到细胞,减少背景与杂质的干扰;
S3-3、实例分割模型中的总体损失包括目标检测损失和分割损失,其中,模型训练的标签采用步骤S2中所述的伪标签生成算法生成的伪标签,由于其伪标签并不全,所以为了减轻模型的漏检缺陷,故在目标检测阶段,提出一种类别感知加权损失(Class-wiseIoU-Weighted Loss,CIWL)函数,使模型并不完全依赖于标签,并探索更多的实例,其中类别感知的设计使模型能关注到在细胞质内部的细胞核,具体损失函数为:
式中,C表示类别数,P表示预测实例的个数,IoUmax表示每个预测区域与标签的最大重叠度,其定义为公式(9),ε表示预测与标签的重叠度阈值,Lcls表示类别损失,Lreg包括边界框回归损失和中心点回归损失;
式中,X表示预测区域,Y表示真实标签,∩表示X与Y像素点的交集,∪表示X与Y像素点的并集;
在分割阶段,采用投影损失和颜色相似度损失,可以在只有目标框标签的情况下分割出前景与背景。
S4、利用标签更新算法得到更精确的伪标签;
根据模型对训练集的重分析,选择阈值大于T、IoU大于n的预测标签替换掉在原来位置的标签,通过多次自训练不断更新标签,进而得到更精准更全面的标签,其中阈值选择规则为:
式中,表示第一轮自训练预测标签阈值,α表示阈值衰减系数,R表示自训练轮次,T表示本次自训练预测标签阈值。
S5、通过多次自训练,得到更拟合图像分布的模型参数;
S5-1、从上个训练阶段选取未完全拟合数据的模型参数,采取提前自训练的方式避免模型陷入局部最优的困境;
S5-2、将模型训练标签替换为S4中得到的更新后的伪标签;
S5-3、更改为自训练的超参数,包括预训练模型、学习率,重新进入训练阶段,并重复S3中的训练过程、S4和S5,直到模型参数较好的拟合数据。
发明效果
本发明提供了一种基于视觉注意力的无监督宫颈细胞实例分割方法。本算法首先选取大量无标签数据通过伪标签生成算法得到数据集伪标签,然后训练实例分割模型,用于对细胞质和细胞核边界位置建模,并利用提出一种新的视觉注意力机制使网络更加关注到细胞,减轻图像中多种杂质的影响,提升分割的准确率。在目标检测阶段,结合无监督任务特点,提出一种新的类别感知加权损失,可以使网络关注到更多实例,减少漏检的情况,其中的多尺度特征可以使模型关注到不同尺度的物体,更加适应于细胞质与细胞核尺度差距大的细胞图像;在分割阶段,使用投影损失和颜色相似度损失使网络在仅有目标框标注的情况下准确的区分开前景与背景。实验表明,本发明可以较精准地分割出每个细胞的细胞质与细胞核,可有效地应用于自动化计算机辅助诊断系统。
附图说明
图1为基于视觉注意力的无监督宫颈细胞实例分割方法整体结构图;
图2为伪标签生成算法图;
图3为基于视觉注意力的无监督宫颈细胞实例分割网络结构图;
图4为模型效果图。
具体实施方法
具体实施方式一:
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本文提供的一种基于视觉注意力的无监督宫颈细胞实例分割方法,主要包含以下步骤:
S1、采集具有多样性的细胞图像,并进行数据增强;
S2、利用伪标签生成算法得到无标签图像的标签,选取高质量目标框标签作为数据集的伪标签;
S3、构建实例分割模型,并通过S1中构建的数据集和S2中生成的数据集伪标签训练实例分割模型;
S4、利用标签更新算法得到更精确的伪标签;
S5、通过多次自训练,得到更拟合图像分布的模型参数。
本发明实施例中,首先采集具有多样性的数据集,并进行不同程度的数据增强,作为无监督方法的数据集;然后,利用细胞的多种先验知识得到伪标签;构建实例分割模型,并加入人类视觉感知模块减轻复杂背景的干扰,并提高分割的准确率;同时,本发明提出了一种CIWL损失函数,使模型减少对预测中的伪负样本的惩罚,提升模型的召回率;最后通过自训练的方式进一步得到更精确的伪标签,提升模型性能。
下面对本发明实施例进行详细的说明:
如图1所示算法的实现包含步骤:
S1、采集具有多样性的细胞图像,并进行数据增强;
通过自动扫描仪获取大量细胞图像,选取不同病人、不同机构、不同医院的图像,并将图像裁剪成1024×1024的小图像,按照6:2:2划分为训练集、测试集与验证集,由专业人士利用标注工具标记测试集和验证集的每个细胞质与细胞核的轮廓,作为衡量模型准确程度的依据;并对所有图像进行不同程度的数据增强,包括对比度、饱和度、颜色与随机水平竖直翻转。
S2、利用伪标签生成算法得到无标签图像的标签,选取高质量目标框标签作为数据集的伪标签;
病理学染色有两种方法:巴氏染色法和苏木精-伊红(Hemotoxylin&Eosin,HE)染色法,巴氏染色法核质分明,细胞核呈深蓝色,细胞质呈粉红色或橙色;HE染色法核质分明,细胞核呈紫蓝色,细胞质呈淡红色;由此可见,细胞图像的细胞质与细胞核具有先天颜色先验、形状先验、并且细胞图像具有细胞质包含细胞核的结构先验;融合先验知识的伪标签生成算法如图2所示,充分考虑细胞的多种先验知识,得到细胞质与细胞核的伪标签,具体方法包括以下子步骤:
S2-1、使用迭代阈值分割算法,并融合颜色先验和形状先验,得到细胞核的二值掩码图,用公式表示为:
式中,Nnuclei表示所有的细胞核伪标签,Pi表示以i为阈值进行阈值分割得到的二值图,s为阈值的下限,e为阈值的上限,S为轮廓的面积,计算公式为(13),R为轮廓的圆度,计算公式为(14),τarea为轮廓面积的阈值,τroundness为轮廓圆度的阈值,在本实施例中,τarea为50,τroundness为0.5;
式中,w为Pi的宽度,h为Pi的高度,L为轮廓的周长,ε为平衡因子,在本实施例中,ε为10-6;
S2-2、通过Otsu(Otsu thresholding algorithm,Otsu)算法求出最佳细胞质分割阈值,记作Tcyto;
S2-3、考虑到当Tcyto较大时,图像染色是较浅的,即实际的最佳细胞质分割阈值应更大一些,因此引入一个映射函数得到实际最佳细胞质分割阈值,公式如下:
式中,Tcyto表示由Otsu算法得到的分割阈值,a、b和t为平衡系数,在本实施例中,a为1.2,b为20,t为230;
S2-4、将相连区域分割开来,首先使用分水岭算法对单独细胞和简单成团细胞进行分割,其中阈值为S2-3得到的最佳细胞质分割阈值;然后利用水平集算法对复杂成团细胞进行分割,以S2-1生成的细胞核掩码为种子点,通过演化函数找到成团细胞的边界点,从而得到细胞质的掩码图;
S2-5、由于细胞之间存在一种结构先验,即细胞质包含于细胞核,利用这个特性可以去除中性粒、杂质等物质,从而得到更准确细胞质和细胞核标签,选择满足公式(15)的细胞质与细胞核:
式中,Xc与Yc表示细胞质的中心距,Xn与Yn表示细胞核的中心距,轮廓的中心距的计算,Rc表示细胞质轮廓的半径。
S3、构建实例分割模型,并通过S1中构建的数据集和S2中生成的数据集伪标签训练实例分割模型;
S3-1、模型结构图如图3所示,其中实例分割模型中的主干部分采用ResNet进行特征提取,由于细胞质与细胞核尺度差距较大,并利用FPN结构提取多尺度语义信息,采用5个特征层检测不同尺寸的物体,特征层从大到小依次为P2、P3、P4、P5、P6;
S3-2、实例分割模型中的视觉注意力机制试图模仿人类视觉系统在分割细胞时的过程,随机选取每个高质量细胞核的一个点,通过注意力编码器得到以细胞核点为中心的细胞核注意力图像,与多尺度语义信息相融合,并融入语义解码器得到语义注意力图,使模型加强对细胞的关注,并减少背景与杂质的干扰;
S3-3、实例分割模型中的总体损失包括目标检测损失和分割损失,其中,模型训练的标签采用步骤S2中所述的伪标签生成算法生成的伪标签,由于其伪标签不全,所以为了减轻模型的漏检缺陷,故在目标检测阶段,提出了CIWL函数,使模型并不完全依赖于标签,并探索更多的实例,其中类别感知的设计使模型能关注到在细胞质内部的细胞核,具体损失函数为:
式中,c表示类别编号,p表示预测结果,IoUmax表示每个预测区域与标签的最大重叠度,其定义为公式(19),ε表示预测与标签的重叠度阈值,Lcls表示类别损失,Lreg包括边界框回归损失和中心点回归损失,在本实施例中,ε为0.01;
式中,X表示预测区域,Y表示真实标签,∩表示X与Y像素点的交集,∪表示X与Y像素点的并集;
在分割阶段,采用投影损失和颜色相似度损失,可以在只有目标框标签的情况下分割出前景与背景。
S4、利用标签更新算法得到更精确的伪标签;
根据模型对训练集的重分析,选择阈值大于T、IoU大于n的预测标签替换掉在原来位置的标签,通过多次自训练不断更新标签,进而得到更精准更全面的标签,其中阈值选择规则为:
式中,表示第一轮自训练预测标签阈值,α表示阈值衰减系数,R表示自训练轮次,T表示本次自训练预测标签阈值,在本实施例中,/>为0.6,α为0.05,n为0.7。
S5、通过多次自训练,得到更拟合图像分布的模型参数;
S5-1、从上个训练阶段选取未完全拟合数据的模型参数,采取提前自训练的方式避免模型陷入局部最优的困境;
S5-2、将模型训练标签替换为S4中得到的更新后的伪标签;
S5-3、更改为自训练的超参数,包括预训练模型、学习率,重新进入训练阶段,并重复S3中的训练过程、S4和S5,直到模型参数较好的拟合数据。
最终的实现效果如图4所示,从图中可以看出该方法适用于不同染色风格宫颈细胞图像,具有较好的准确率与泛化性。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明范围。
Claims (6)
1.一种基于视觉注意力的无监督宫颈细胞实例分割方法,其特征在于,包含以下步骤:
S1、采集具有多样性的细胞图像,并进行数据增强;
S2、利用伪标签生成算法得到无标签图像的标签,选取高质量目标框标签作为数据集的伪标签;
S3、构建实例分割模型,并通过S1中构建的数据集和S2中生成的数据集伪标签训练实例分割模型;
S4、利用标签更新算法得到更精确的伪标签;
S5、通过多次自训练,得到更拟合图像分布的模型参数。
2.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法,其特征在于,步骤S1中所述的多样性数据采集和数据增强说明如下:
通过自动扫描仪获取大量细胞图像,选取不同病人、不同机构、不同医院的图像,并将图像裁剪成尺寸为H×W的小图像,并划分为训练集、测试集与验证集,由专业人士利用标注工具标记测试集和验证集的每个细胞质与细胞核的轮廓,作为衡量模型准确程度的依据;并对所有图像进行不同程度的数据增强,包括对比度、饱和度、颜色与随机水平竖直翻转。
3.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法,其特征在于,步骤S2中所述的伪标签生成算法如下:
病理学染色有两种方法:巴氏染色法和苏木精-伊红(Hemotoxylin&Eosin,HE)染色法,巴氏染色法核质分明,细胞核呈深蓝色,细胞质呈粉红色或橙色;HE染色法核质分明,细胞核呈紫蓝色,细胞质呈淡红色;由此可见,细胞图像的细胞质与细胞核具有先天颜色先验、形状先验、并且细胞图像具有细胞质包含细胞核的结构先验;所以伪标签生成算法充分考虑细胞的多种先验知识,得到细胞质与细胞核的伪标签,具体方法包括以下子步骤:
S2-1、使用迭代阈值分割算法,并融合颜色先验和形状先验,得到细胞核的二值掩码图,用公式表示为:
式中,Nnuclei表示所有的细胞核伪标签,Pi表示以i为阈值进行阈值分割得到的二值图,s为阈值的下限,e为阈值的上限,S为轮廓的面积,计算公式为(3),R为轮廓的圆度,计算公式为(4),τarea为轮廓面积的阈值,τroundness为轮廓圆度的阈值;
式中,w为Pi的宽度,h为Pi的高度,L为轮廓的周长,ε为平衡因子;
S2-2、通过Otsu(Otsu thresholding algorithm,Otsu)算法求出最佳细胞质分割阈值,记作Tcyto;
S2-3、考虑到当Tcyto较大时,图像染色是较浅的,即实际的最佳细胞质分割阈值应更大一些,因此引入一个映射函数得到实际最佳细胞质分割阈值,公式如下:
式中,Tcyto表示由Otsu算法得到的分割阈值,a、b和t为平衡系数;
S2-4、将相连区域分割开来,首先使用分水岭算法对单独细胞和简单成团细胞进行分割,其中阈值为S2-3得到的最佳细胞质分割阈值;然后利用水平集算法对复杂成团细胞进行分割,以S2-1生成的细胞核掩码为种子点,通过演化函数找到成团细胞的边界点,从而得到细胞质的掩码图;
S2-5、由于细胞之间存在一种结构先验,即细胞质包含于细胞核,利用这个特性可以去除中性粒、杂质等物质,从而得到更准确细胞质和细胞核标签,选择满足公式(6)的细胞质与细胞核:
式中,Xc与Yc表示细胞质的中心距,Xn与Yn表示细胞核的中心距,轮廓的中心距的计算,Rc表示细胞质轮廓的半径。
4.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法,其特征在于,步骤S3中所述的实例分割模型结构如下:
S3-1、实例分割模型中的主干部分采用ResNet进行特征提取,由于细胞质与细胞核尺度差距较大,并利用特征金字塔结构(Feature pyramid network,FPN)提取多尺度语义信息,采用5个特征层检测不同尺寸的物体,特征层从大到小依次为P2、P3、P4、P5、P6;
S3-2、实例分割模型中的视觉注意力机制试图模仿人类视觉系统在分割细胞时的过程,随机选取每个高质量细胞核的一个点,通过注意力编码器得到以细胞核点为中心的细胞核注意力图像,与多尺度语义信息相融合,并融入语义解码器得到语义注意力图,使模型关注到细胞,减少背景与杂质的干扰;
S3-3、实例分割模型中的总体损失包括目标检测损失和分割损失,其中,模型训练的标签采用步骤S2中所述的伪标签生成算法生成的伪标签,由于其伪标签不全,所以为了减轻模型的漏检缺陷,故在目标检测阶段,提出一种新的类别感知加权损失(Class-wise IoU-Weighted Loss,CIWL)函数,使模型并不完全依赖于标签,而使模型探索更多的实例,其中类别感知的设计使模型能关注到在细胞质内部的细胞核,具体损失函数为:
式中,c表示类别编号,p表示预测结果,IoUmax表示每个预测区域与标签的最大重叠度,其定义为公式(5),ε表示预测与标签的重叠度阈值,Lcls表示类别损失,Lreg包括边界框回归损失和中心点回归损失;
在分割阶段,采用投影损失和颜色相似度损失,可以在只有目标框标签的情况下分割出前景与背景。
5.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法,其特征在于,步骤S4中标签更新算法如下:
根据模型对训练集的重分析,选择阈值大于T、IoU大于n的预测标签替换掉在原来位置的标签,通过多次自训练不断更新标签,进而得到更精准更全面的标签,其中阈值选择规则为:
式中,表示第一轮自训练预测标签阈值,α表示阈值衰减系数,R表示自训练轮次,T表示本次自训练预测标签阈值。
6.如权利要求1所述的一种基于视觉注意力的无监督宫颈细胞实例分割方法,其特征在于,步骤S5中的自训练的步骤如下:
S5-1、从上个训练阶段选取未完全拟合数据的模型参数,采取提前自训练的方式避免模型陷入局部最优的困境;
S5-2、将模型训练标签替换为S4中得到的更新后的伪标签;
S5-3、更改为自训练的超参数,包括预训练模型、学习率,重新进入训练阶段,并重复S3中的训练过程、S4和S5,直到模型参数较好的拟合数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310620910.9A CN116580203A (zh) | 2023-05-29 | 2023-05-29 | 一种基于视觉注意力的无监督宫颈细胞实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310620910.9A CN116580203A (zh) | 2023-05-29 | 2023-05-29 | 一种基于视觉注意力的无监督宫颈细胞实例分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580203A true CN116580203A (zh) | 2023-08-11 |
Family
ID=87537625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310620910.9A Pending CN116580203A (zh) | 2023-05-29 | 2023-05-29 | 一种基于视觉注意力的无监督宫颈细胞实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580203A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843997A (zh) * | 2023-08-24 | 2023-10-03 | 摩尔线程智能科技(北京)有限责任公司 | 模型训练、细胞图像标注方法、装置、设备及存储介质 |
CN117576401A (zh) * | 2023-12-13 | 2024-02-20 | 南京林业大学 | 基于语义分割的无监督实例分割方法、系统、设备和介质 |
CN117876401A (zh) * | 2024-03-12 | 2024-04-12 | 江西医至初医学病理诊断管理有限公司 | 基于sam分割模型的宫颈液基薄层细胞图像分割方法 |
-
2023
- 2023-05-29 CN CN202310620910.9A patent/CN116580203A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843997A (zh) * | 2023-08-24 | 2023-10-03 | 摩尔线程智能科技(北京)有限责任公司 | 模型训练、细胞图像标注方法、装置、设备及存储介质 |
CN116843997B (zh) * | 2023-08-24 | 2024-03-19 | 摩尔线程智能科技(北京)有限责任公司 | 模型训练、细胞图像标注方法、装置、设备及存储介质 |
CN117576401A (zh) * | 2023-12-13 | 2024-02-20 | 南京林业大学 | 基于语义分割的无监督实例分割方法、系统、设备和介质 |
CN117876401A (zh) * | 2024-03-12 | 2024-04-12 | 江西医至初医学病理诊断管理有限公司 | 基于sam分割模型的宫颈液基薄层细胞图像分割方法 |
CN117876401B (zh) * | 2024-03-12 | 2024-05-03 | 江西医至初医学病理诊断管理有限公司 | 基于sam分割模型的宫颈液基薄层细胞图像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108364288B (zh) | 用于乳腺癌病理图像的分割方法和装置 | |
CN107274386B (zh) | 一种宫颈细胞液基涂片人工智能辅助阅片系统 | |
CN107256558B (zh) | 一种无监督式的宫颈细胞图像自动分割方法及系统 | |
CN112288706B (zh) | 一种自动化的染色体核型分析以及异常检测方法 | |
CN116580203A (zh) | 一种基于视觉注意力的无监督宫颈细胞实例分割方法 | |
CN110472616B (zh) | 图像识别方法、装置、计算机设备及存储介质 | |
CN109389129B (zh) | 一种图像处理方法、电子设备及存储介质 | |
CN102651128B (zh) | 一种基于采样的图像集分割方法 | |
Wan et al. | Robust nuclei segmentation in histopathology using ASPPU-Net and boundary refinement | |
CN103984958A (zh) | 宫颈癌细胞分割方法及系统 | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN111915704A (zh) | 一种基于深度学习的苹果分级识别方法 | |
CN107992874A (zh) | 基于迭代稀疏表示的图像显著目标区域提取方法及系统 | |
CN112926652B (zh) | 一种基于深度学习的鱼类细粒度图像识别方法 | |
CN110853070A (zh) | 基于显著性与Grabcut的水下海参图像分割方法 | |
CN114820579A (zh) | 一种基于语义分割的图像复合缺陷的检测方法及系统 | |
CN113160185A (zh) | 一种利用生成边界位置指导宫颈细胞分割的方法 | |
CN105354405A (zh) | 基于机器学习的免疫组化图像自动化判读系统 | |
Wen et al. | Review of research on the instance segmentation of cell images | |
CN115393375A (zh) | 荧光显微成像中明场细胞图像分割方法和装置 | |
CN108154513A (zh) | 基于双光子成像数据的细胞自动探测和分割方法 | |
US20210012088A1 (en) | Method for detection of cells in a cytological sample having at least one anomaly | |
CN113077438B (zh) | 针对多细胞核彩色图像的细胞核区域提取方法及成像方法 | |
CN117437647A (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
Khoshdeli et al. | Deep learning models delineates multiple nuclear phenotypes in h&e stained histology sections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |