CN117496512B - 宫颈tct切片的多类型细胞核标注及多任务处理方法 - Google Patents

宫颈tct切片的多类型细胞核标注及多任务处理方法 Download PDF

Info

Publication number
CN117496512B
CN117496512B CN202410000887.8A CN202410000887A CN117496512B CN 117496512 B CN117496512 B CN 117496512B CN 202410000887 A CN202410000887 A CN 202410000887A CN 117496512 B CN117496512 B CN 117496512B
Authority
CN
China
Prior art keywords
image
label
cell
detection
tct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410000887.8A
Other languages
English (en)
Other versions
CN117496512A (zh
Inventor
苏永健
孙凯翔
李胜男
潘威君
尚滨
彭铃淦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Rongyuan Fangqing Medical Technology Co ltd
Original Assignee
Guangzhou Rongyuan Fangqing Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Rongyuan Fangqing Medical Technology Co ltd filed Critical Guangzhou Rongyuan Fangqing Medical Technology Co ltd
Priority to CN202410000887.8A priority Critical patent/CN117496512B/zh
Publication of CN117496512A publication Critical patent/CN117496512A/zh
Application granted granted Critical
Publication of CN117496512B publication Critical patent/CN117496512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • G06T2207/10061Microscopic image from scanning electron microscope
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了宫颈TCT切片的多类型细胞核标注及多任务处理方法,包括以下步骤:读取宫颈TCT切片图像的原始边界框和类别并转化为实际边界框;对宫颈TCT的不同类别细胞采用不同方式获取分割掩码标签、检测边界框标签和分类标签:将获取到的分割掩码标签、检测边界框标签和分类标签转化为coco数据集类型的标签,并将coco数据集类型的标签作为多任务处理模型的训练集;将训练好的多任务处理模型对宫颈TCT切片的细胞核同时进行分割、检测和分类任务。本发明结合少量标注信息和现有分割模型,自动生成可靠的细胞核分割掩码标签、检测边界框标签和分类标签,并将其用作多任务模型的训练数据,能够同时对20种不同类型的TCT细胞核进行检测、分割等多项任务。

Description

宫颈TCT切片的多类型细胞核标注及多任务处理方法
技术领域
本发明涉及宫颈疾病的病理诊断领域,特别涉及宫颈TCT切片的多类型细胞核标注及多任务处理方法。
背景技术
现有的宫颈TCT检查主要针对单个完整细胞的检测,而无法直接定位细胞核,这限制了检测的准确性。细胞核的识别对于提高TCT检测结果的准确性非常重要。然而,细胞核的标注存在一系列问题,包括对检测人员专业技术水平的高要求、劳动强度大和耗时耗力等。
专利公告号为CN113378796B、专利权人为合肥工业大学、专利名称为“一种基于上下文建模的宫颈细胞全切片分类方法”的技术方案公布的分类方法,包括以下步骤:1.获取T类宫颈细胞全切片样本;2.构造基于Faster Rcnn网络的细胞检测和特征提取模块,对宫颈细胞全切片样本进行细胞检测和特征提取,对固定大小的细胞核图像提取特征,得到不同类型细胞全切片中的细胞核图像的特征序列;3.搭建双向长短期记忆网络和注意力机制融合的上下文建模模块;4.搭建宫颈细胞全切片分类器;5.进行宫颈细胞全切片的分类预测。
上述方案将不同类型细胞全切片进行细胞检测与细胞特征提取训练,能够有效对细胞全切片进行分类,从而有效降低了当前宫颈细胞分类方法对于细胞级别的标注代价;且通过构建双向长短期记忆网络(Bi-LSTM)和注意力机制融合的上下文建模网络,双向长短期记忆网络(Bi-LSTM)对提取到的图片特征进行深入的学习与建模,使模型能够充分利用历史信息以及当前输入,挖掘wsi上下文信息,提高了分类的准确性和精度;增加了注意力机制,能够减少无效信息的影响,提高看分类任务的精度。
但上述方案还存在以下缺点:
(1)该方法仅实现了对TCT细胞的检测和分类,无法对细胞进行分割任务。
(2)上述方法要求完全依赖人工进行标注,造成时间和人力资源的浪费。
(3)上述方法并没有给出可检测分类细胞种类数量。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供宫颈TCT切片的多类型细胞核标注及多任务处理方法,该方法结合少量标注信息和现有分割模型,自动生成可靠的细胞核分割掩码标签、检测边界框标签和分类标签,并将其用作多任务模型的训练数据,能够同时对20种不同类型的TCT细胞核进行检测、分割等多项任务。通过本发明,可以提高宫颈TCT检查的细胞分析效率和准确性,减轻了标注工作的复杂性,为医学诊断和研究提供了更强大的工具。
本发明的目的通过以下的技术方案实现:
宫颈TCT切片的多类型细胞核标注及多任务处理方法,包括以下步骤:
S1、读取宫颈TCT切片图像的原始边界框和类别并转化为实际边界框;
S2、对宫颈TCT的不同类别细胞采用不同方式获取分割掩码标签、检测边界框标签和分类标签:
对于细胞核较为明显的细胞,通过DNA_interface_v3网络模型获取其分割掩码标签、检测边界框标签和分类标签;
对于细胞核较为不明显或者无细胞核的细胞,分别根据其特性获取其分割掩码标签、检测边界框标签和分类标签;
所述细胞核较为不明显的细胞包括TRI;所述无细胞核的细胞包括ACTINO、CANDIDA;
S3、将获取到的分割掩码标签、检测边界框标签和分类标签转化为coco数据集类型的标签,并将coco数据集类型的标签作为多任务处理模型的训练集;
S4、将训练好的多任务处理模型对宫颈TCT切片的细胞核同时进行分割、检测和分类任务。
细胞核较为明显的细胞,是指边缘清晰完整、细胞核与背景的颜色对比度等差异较大的细胞。
步骤S2中,所述细胞核较为明显的细胞,包括HSIL_S,ASCUS,HSIL_M,SCC_G,HSIL_B,SCC_R,CC,LSIL_F,SC,LSIL_F_GROUP, AGC_A,AGC_B,LSIL_E,EC,PH,LSIL_E_GROUP和HSV。
步骤S2中,所述细胞核较为不明显的细胞包括TRI;所述无细胞核的细胞包括ACTINO、CANDIDA。
步骤S2中,所述DNA_interface_v3网络模型基于Xception + FPN + Unet结构,用于宫颈TCT中的细胞核分割任务;
所述DNA_interface_v3网络模型包括Xception Blocks、FPN、U-Net、输出单元;其中,
Xception Blocks:网络模型的前半部分由 Xception Blocks 组成,这些块逐渐提取宫颈TCT切片图像的特征信息,每个 Xception Block 都包含多个卷积层,BatchNormalization层和ReLU激活函数;它们在网络模型的初始部分执行卷积操作,逐渐增加通道数和分辨率;
FPN :Xception Blocks之后,网络模型执行 FPN 操作,FPN通过上采样和残差连接将来自底层特征图的信息传播到顶层特征图;
U-Net:在FPN之后,U-Net用于生成像素级的语义分割预测,U-Net包括编码器和解码器;解码器部分负责将特征图上采样到原始图像尺寸;
输出单元: 网络模型的最终输出是一个概率图,用于图像中每个像素的语义分割预测,该图经过 Sigmoid 激活函数以确保输出值在 0 到 1 之间,表示每个像素属于分割类别的概率。
步骤S2中,所述细胞核较为明显的细胞,通过以下方式获取其分割掩码标签、检测边界框标签和分类标签:
(a)对标签边界框内宫颈TCT切片图像进行预处理:读取真实的边界框,根据边界框的大小,将边界框中的图像区域平均切分为若干个小的图像块, DNA_interface_v3网络模型对图像块完成细胞核分割后,合并为一整张图像;
(b)获取标签内细胞核轮廓:首先使用DNA_interface_v3网络模型对切分的图像块进行预测,获取预测结果;然后对预测结果依次进行图像增强、直方图均衡化;接着将预测图像块进行合并,获取重合区域像素的最小值,再对合并后的图像根据每个细胞类型的不同阈值进行阈值化处理,将图像分成前景和背景,生成二值图像;最后根据图像中每个不同大小的细胞核分割掩码执行形态学操作,得到细胞核轮廓;
(c)获取细胞图像的分割掩码标签、检测边界框标签和分类标签:首先使用cv2.boundingRect函数获取每一个细胞核掩码轮廓的包围框,包括包围框的x、y坐标以及宽度和高度,将其作为检测边界标签;将获取到的每一个细胞核轮廓转化为分割掩码标签;
只有密度和数量差别的细胞合并为同一类别,共用一个类别标签;其他细胞将每个图像区域的类别作为在该区域内的类别标签。
步骤(a)中,所述图像块根据阈值将每个边进行扩展,且不会超过图像边界。
步骤S2中,所述ACTINO通过以下方式获取其分割掩码标签、检测边界框标签和分类标签:
(1)对图像进行预处理:首先将输入的彩色图像转换为灰度图像,并进行高斯模糊处理;然后使用cv2.convertScaleAbs将增强的图像转换为8位无符号整数图像,之后对增强的图像进行直方图均衡化,最后进行阈值化处理,将图像分成前景和背景,生成二值图像,得到预处理后的图像;
(2)获取ACTINO细胞轮廓:首先将二值图像取反,然后使用cv2.findContours函数寻找图像中的轮廓,这些轮廓是图像中的对象边界;最后从所有找到的轮廓中,选择面积最大的轮廓作为主要对象,这通过计算轮廓的面积并使用cv2.contourArea函数实现;最后得到ACTINO细胞轮廓;
(3)获取ACTINO细胞图像的分割掩码标签、检测边界框标签和分类标签:首先使用cv2.boundingRect函数获取主要细胞轮廓的包围框,包括包围框的x、y坐标以及宽度和高度,将其作为检测边界标签;将获取到的细胞轮廓转化为分割掩码标签;将’ ACTINO’作为其分类标签。
步骤S2中,所述CANDIDA通过以下方式获取其检测边界框标签和分类标签:
获取CANDIDA细胞图像的检测边界框标签和分类标签,将转化后的实际边界框作为检测边界标签,将’CANDIDA’作为其分类标签。
步骤S2中,所述TRI通过以下方式获取其分割掩码标签、检测边界框标签和分类标签:
(A)对图像进行预处理:首先将输入的彩色图像转换为灰度图像,然后进行高斯模糊处理;
(B)获取TRI细胞轮廓:首先,对预处理图像应用Canny边缘检测,生成边缘图像;其次,创建一个全黑的掩码并将Canny边缘检测结果作为掩码的一部分;接着进行闭合操作、直方图均衡化;之后进行阈值化处理,将图像分成前景和背景,生成二值图像;最后对二值化图像进行形态学操作,得到TRI细胞轮廓;
(C)获取ACTINO细胞图像的分割掩码标签、检测边界框标签和分类标签:首先使用cv2.boundingRect函数获取主要对象轮廓的包围框,包括包围框的x、y坐标以及宽度和高度,将其作为检测边界标签;将获取到的细胞轮廓转化为分割掩码标签;将’ ACTINO’作为其分类标签。
所述多任务处理模型,基于Maskdino模型,且在对象检测Dino模型基础上,引入一个mask prediction branch,通过query embedding来对高分辨率的pixel embedding map进行点乘,得到最终的mask预测结果。
所述多任务处理模型的训练过程如下:
首先,搭建Intel(R) Xeon(R) Silver 4316 CPU @ 2.30GHz、4张NVIDIA RTXA6000 48G GPU硬件环境,CUDA 11.3、pytorch1.10软件环境,获取用于Maskdino模型训练的TCT细胞核标注信息;设置网络的输入图像大小,并采用了包括类别损失、掩码损失、Dice损失、边界框损失和GIoU损失的多重损失函数,这些损失函数按照一定的权重进行共同加权;
由于CANDIDA细胞缺乏割掩码标签,我们采取了分阶段的策略:首先,冻结了模型的分割头部,然后单独训练分类头和检测头,使用了包含全部细胞的标注数据;当获得了对CANDIDA细胞检测结果的稳定性,才继续使用其余细胞的标注数据,共同训练了模型的分割头、检测头和分类头;将检测出来'HSIL_S','LSIL_E','LSIL_F'用KNN的方法根据目标距离和大小再进行分类,最终,获得了对全部细胞的综合预测结果,实现了同时进行分割、检测和分类任务。
同时,本发明提供:
一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现上述宫颈TCT切片的多类型细胞核标注及多任务处理方法。
一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现上述宫颈TCT切片的多类型细胞核标注及多任务处理方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提高了检测准确性:传统的宫颈TCT检查主要针对整个细胞,无法直接定位细胞核,这可能导致检测准确性的降低。而本发明的方法能够准确地定位和分割细胞核,从而提高了检测的准确性,有助于更精确地识别潜在的细胞异常。
2、本发明简化标注过程:传统的细胞核标注过程需要高水平的专业技术人员,且工作量大、费时费力。而本发明的方法通过结合现有分割模型,减轻了标注人员的工作负担,将标注过程更加高效化和自动化。
3、本发明多任务处理:现有技术只能进行单一任务,如检测或分割,而本发明的方法允许同时执行多项任务,包括细胞核的分割、检测和分类。这提高了细胞分析的全面性和效率,为医学诊断和研究提供更全面的信息。
4、本发明扩展性:本发明的方法不仅提供了对宫颈TCT检查的改进,还能够适用于多种不同类型的TCT细胞核,包括20种不同的细胞类型。这增加了方法的适用范围和通用性。
附图说明
图1为本发明所述DNA_interface_v3网络模型的结构示意图。
图2为本发明所述宫颈TCT切片的多类型细胞核标注及多任务处理方法的流程图。
图3为本发明所述DNA_interface_v3网络模型分割结果图。
图4为本发明所述Maskdino模型的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
宫颈TCT中的细胞包括以下几种,其显微镜下的特征和形态特点如下所示:
1、HSV(疱疹病毒):细胞内多核,细胞核紧密排列,核膜增厚,呈毛玻璃样外观。
2、ACTINO(放线菌):细胞形状呈"羊毛球",有平行的纤毛和锐角分支。
3、PH(非典型鳞状细胞变化 - 核周空晕增多) :表层细胞的细胞核外围有一圈细小、规则、透亮的空晕,细胞核可能轻度增大。
4、EC(子宫内膜细胞):胞浆稀少,可能含有小空泡,通常形成团状,具有典型的三维立体结构,呈桑葚样或有外围花边样。
5、CC(线索细胞):单个鳞状上皮细胞被一层球、杆菌等覆盖。
6、CANDIDA(念珠菌):菌丝染色为淡红色或蓝色,呈竹节样形态。
7、TRI(阴道毛滴虫):梨形或圆形,嗜蓝色,核淡染,梭形,核偏位。
8、ASCUS(非典型鳞状上皮细胞):单个低核浆比的细胞,核质比增高,胞核改变,细胞核为中层鳞状细胞核的1.5-3倍,核膜不规则。
9、LSIL_E(低度鳞状上皮内病变 - 表层型):单个挖空细胞,胞核周围有大而透亮、边缘不规则的空晕。
10、LSIL_E_GROUP(低度鳞状上皮内病变 - 表层型,团状):成团的挖空细胞。
11、LSIL_F(低度鳞状上皮内病变 - 表层型):单个高核浆比的非典型表层鳞状上皮细胞。
12、LSIL_F_GROUP(低度鳞状上皮内病变 - 表层型,成团):成团的高核浆比的非典型表层鳞状上皮细胞。
13、HSIL_S(高度鳞状上皮内病变 - 副基底层细胞样):单个细胞,核浆比明显增加,胞核轮廓不规则,染色质聚集,核深染,一般无核仁。
14、HSIL_B(高度鳞状上皮内病变 - 成团,数量>10):成团的高度鳞状上皮内病变细胞。
15、HSIL_M(高度鳞状上皮内病变 - 成团或簇,数量2<数量<10):成团或簇的高度鳞状上皮内病变细胞。
16、SCC_G(非角化性鳞癌细胞):非角化性鳞癌细胞。
17、SCC_R(角化性鳞癌细胞):角化性鳞癌细胞。
18、SC(正常细胞,高核浆比):单个高核浆比的正常细胞,如副基底层细胞、淋巴细胞或储备细胞。
19、AGC_A(非典型腺上皮,类似宫颈管腺上皮):形态类似宫颈管腺上皮的非典型腺上皮。
20、AGC_B(非典型腺上皮,其他形态):其他形态的非典型腺上皮。
这些描述提供了关于不同细胞类型在显微镜下的特征和形态特点的概述,这对于医学诊断和病理学研究非常重要。不同的细胞类型可能与不同的疾病或生理状态相关。
如图1,本发明训练了一个基于Xception + FPN + Unet结构的DNA_interface_v3网络模型,用于宫颈TCT中的细胞核分割任务。
这个网络包括以下关键组件:
Xception Blocks: 网络的前半部分由 Xception Blocks 组成,这些块逐渐提取图像的特征信息。每个 Xception Block 都包含多个卷积层,Batch Normalization层和ReLU激活函数。它们在网络的初始部分执行卷积操作,逐渐增加通道数和分辨率。
FPN (Feature Pyramid Network):Xception Blocks之后,网络执行 FPN 操作,它有助于将来自不同尺度的特征图合并,以便更好地理解图像的不同尺度上的特征。FPN通过上采样和残差连接将来自底层特征图的信息传播到顶层特征图。这有助于提高语义分割的准确性,因为它允许网络在不同尺度上捕获细节。
U-Net部分:在FPN之后,网络采用类似U-Net的结构,用于生成像素级的语义分割预测。U-Net结构通常包括编码器和解码器部分。在这里,编码器是前面的网络部分,而解码器部分负责将特征图上采样到原始图像尺寸。这个部分包括多个卷积层和上采样操作。
最终输出: 网络的最终输出是一个概率图,用于图像中每个像素的语义分割预测。该图经过 Sigmoid 激活函数以确保输出值在 0 到 1 之间,表示每个像素属于分割类别的概率。
尽管这个模型能够成功地分割出部分宫颈TCT图像中的细胞核,但我们也意识到它在某些方面存在一些限制。具体来说,该模型在以下几个方面存在改进的空间:
局部分割:DNA_interface_v3模型在准确分割小块区域方面表现出色,但对于较大区域分割较差,
分割边界模糊:DNA_interface_v3模型的分割结果可能存在边界模糊的问题,这使得细胞核的确切边界不够清晰。
未能分割所有细胞核:由于细胞形态特征的不同,DNA_interface_v3模型不能完全分割出所有的细胞核,如ACTINO、CANDIDA和TRI等。
为了解决这些问题,我们对标注过程进行了改进,以获得更可靠的TCT细胞核分割结果。我们根据现有图像的标注信息,将分割结果转化为可靠的细胞核的分割掩码标签、检测边界框标签和分类标签。这将为宫颈TCT细胞的多任务模型训练提供大量可靠的数据,有望改善模型的性能,使其更准确地分割和识别细胞核,尤其是对于ACTINO、CANDIDA和TRI等难以分割的细胞。这一改进有望提高我们的模型在宫颈TCT图像分析中的效果和可靠性。
如图2所示,本发明所提供的宫颈TCT切片的多类型细胞核标注及多任务处理方法,包括以下步骤:
1、读取图像的原始边界框和类别并转化为实际边界框;
2、根据不同类别细胞采用不同方式获取分割掩码标签、检测边界框标签和分类标签;
3、将获取到的分割掩码标签、检测边界框标签和分类标签转化为coco数据集类型的标签;
4、多任务模型训练。
具体展开描述如下:
1、读取图像的原始标注信息,每个标注信息的原始边界框的尺寸均为608x608图像上的标注,将原始边界框根据图像的实际尺寸进行转化,使其为准确的边界框,并获取每个边界框的类别信息;
2、对不同的类别的细胞分别进行处理:
(1)ACTINO细胞无细胞核,DNA_interface_v3网络模型无法处理,根据其形态采用以下处理方式:
(a)对图像进行预处理:首先将输入的彩色图像转换为灰度图像。其次对灰度图像进行高斯模糊处理,以降低噪声。然后使用cv2.convertScaleAbs将增强的图像转换为8位无符号整数图像。之后对增强的图像进行直方图均衡化。最后进行阈值化处理,将图像分成前景和背景,生成二值图像,得到预处理后的图像。
(b)获取ACTINO细胞轮廓:首先将二值图像取反,然后使用cv2.findContours函数寻找图像中的轮廓,这些轮廓是图像中的对象边界。最后从所有找到的轮廓中,选择面积最大的轮廓作为主要对象。这通过计算轮廓的面积并使用cv2.contourArea函数实现。最后得到ACTINO细胞轮廓。
(c)获取ACTINO细胞图像的分割掩码标签、检测边界框标签和分类标签:首先使用cv2.boundingRect函数获取主要对象轮廓的包围框(Bounding Box),包括x、y坐标以及宽度和高度,将其作为检测边界标签。将获取到的ACTINO细胞轮廓转化为分割掩码标签。将’ACTINO’作为其分类标签。
(2)由于CANDIDA细胞呈竹节样形态,无细胞核,DNA_interface_v3网络模型无法处理,故仅获取CANDIDA细胞图像的检测边界框标签和分类标签,将转化后的实际边界框作为检测边界标签,将’CANDIDA’作为其分类标签。
(3)TRI细胞核较为不明显,DNA_interface_v3网络模型无法处理,根据其形态获取完整细胞分割掩码标签、检测边界框标签和分类标签,以下处理方式:
(a)对图像进行预处理:首先将输入的彩色图像转换为灰度图像。其次对灰度图像进行高斯模糊处理,以降低噪声。
(b)获取TRI细胞轮廓:首先,对预处理图像应用Canny边缘检测,生成边缘图像。其次,创建一个全黑的掩码并将Canny边缘检测结果作为掩码的一部分。接着进行闭合操作,以填充细线条,增强掩码中的对象轮廓。然后对增强的图像进行直方图均衡化。之后进行阈值化处理,将图像分成前景和背景,生成二值图像。最后对二值化图像进行形态学操作,包括腐蚀(cv2.erode)和膨胀(cv2.dilate),以处理对象的细节。最后得到TRI细胞轮廓。
(c)获取TRI细胞图像的分割掩码标签、检测边界框标签和分类标签:
首先使用cv2.boundingRect函数获取主要对象轮廓的包围框(Bounding Box),包括x、y坐标以及宽度和高度,将其作为检测边界标签。将获取到的TRI细胞对象轮廓转化为分割掩码标签。将’TRI’作为其分类标签。
(4)HSIL_S, ASCUS, HSIL_M, SCC_G, HSIL_B, SCC_R, CC, LSIL_F, SC, LSIL_F_GROUP, CANDIDA, AGC_A, AGC_B, TRI, LSIL_E, EC, PH, ACTINO, LSIL_E_GROUP和HSV细胞核较为明显,直接使用DNA_interface_v3网络模型进行处理:
(a)对标签边界框内图像进行预处理:读取真实的边界框,根据边界框的大小,将边界框中的图像区域平均切分为小的图像块,用于使用DNA_interface_v3网络模型分割。由于DNA_interface_v3网络模型仅能准确分割小块区域,所以将图像平均切分为图像块(patch),待细胞核分割完成之后,合并为一整张图像。但是为了防止合并区域产生割裂的或不完整的掩码标签,将每个分割区域根据阈值将每个边进行扩展,本实施例的阈值设置为1.5,相当于每个边向外扩展0.5倍的边长距离,同时保证扩大后的图像块小于64x64并且不会超过图像边界。
(b)获取标签内细胞核轮廓:首先使用DNA_interface_v3网络模型对切分的图像块进行预测,获取预测结果。其次对预测结果进行图像增强操作,将像素值乘以255,然后对增强的图像进行直方图均衡化。最后将预测图像块进行合并,保证每个图像合并到对应区域,之后将每个图像的重合区域采用"minimum"的方法,获取重合区域像素的最小值,保证了细胞核预测结果的准确性。再对合并后的图像根据每个细胞类型的不同阈值进行阈值化处理,将图像分成前景和背景,生成二值图像。'HSIL_S':130,'ASCUS':150,'HSIL_M':100,'SCC_G':110,'HSIL_B':100, 'SCC_R':140,'CC':140,'LSIL_F':130,'SC':150,'LSIL_F_GROUP':100,'AGC_A':0,'AGC_B':0,'LSIL_E',150,'EC':0,'PH':160,'LSIL_E_GROUP',130,'HSV',100。最后并根据图像中每个不同大小的细胞核轮廓执行不同核心大小的腐蚀和膨胀等形态学操作,以处理图像中的细节,如图3为分割结果。
(c)获取细胞图像的分割掩码标签、检测边界框标签和分类标签:首先使用cv2.boundingRect函数获取每一个细胞核掩码轮廓的包围框(Bounding Box),包括x、y坐标以及宽度和高度,将其作为检测边界标签。将获取到的每一个细胞核轮廓转化为分割掩码标签。
合并'HSIL_S','HSIL_B'和'HSIL_M'类别为'HSIL_S'类别,合并'LSIL_E'和'LSIL_E_GROUP'类别为'LSIL_E'类别,合并'LSIL_F'和'LSIL_F_GROUP'类别为'LSIL_F'类别,由于这几个合并类别的细胞之间只有密度和数量的差别,模型分类很容易分类错误。其他细胞将每个图像区域的类别作为在该区域内的类别标签。
3、获取到的分割掩码标签、检测边界框标签和分类标签需要经过多个数据处理步骤,以便为后续模型训练做好数据准备。这个过程包括将这些标签转化为COCO数据集类型的标签,以更好地满足模型训练的需求。首先对于每个分割掩码,计算其面积,提取掩码的坐标点,并将它们转换为一维数组。然后将检测边界框标签转化成符合COCO格式的边界框表示。最后整合类别、轮廓、包围框和面积等信息,并将它们组织成符合COCO标准的JSON文件。
4、多任务模型训练:
本项目采用了Maskdino模型,这是一项综合性的目标检测和分割框架,旨在训练一个多任务模型。Maskdino整体框架如图4所示,在对象检测Dino模型基础上,引入一个mask prediction branch,通过query embedding来对高分辨率的pixel embedding map进行点乘,得到最终的mask预测结果。
首先,构建了适当的模型环境(搭建Intel(R) Xeon(R) Silver 4316 CPU @2.30GHz、4张NVIDIA RTX A6000 48G GPU硬件环境,CUDA 11.3、pytorch1.10软件环境),并利用本发明所述宫颈TCT切片的多类型细胞核标注方法获得了TCT细胞核标注信息,以用于Maskdino模型的训练。本发明设置了网络的输入图像大小为1216x1216像素,并采用了多重损失函数,包括类别损失、掩码损失、Dice损失、边界框损失和GIoU损失,这些损失函数按照权重分别为4.0、5.0、5.0、5.0和2.0进行共同加权。
由于CANDIDA细胞缺乏割掩码标签,本发明采取了分阶段的策略。首先,本发明冻结了模型的分割头部,然后单独训练分类头和检测头,使用了包含20种细胞的数据。一旦获得了对CANDIDA细胞检测结果的稳定性,我们才继续使用这些19种细胞的数据,共同训练了模型的分割头、检测头和分类头。将检测出来'HSIL_S','LSIL_E','LSIL_F'用KNN的方法根据目标距离和大小再进行分类,最终,我们成功获得了对20种细胞的综合预测结果,实现了同时进行分割、检测和分类任务。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.宫颈TCT切片的多类型细胞核标注及多任务处理方法,其特征在于,包括以下步骤:
S1、读取宫颈TCT切片图像的原始边界框和类别并转化为实际边界框;
S2、对宫颈TCT的不同类别细胞采用不同方式获取分割掩码标签、检测边界框标签和分类标签:
对于细胞核较为明显的细胞,通过DNA_interface_v3网络模型获取其分割掩码标签、检测边界框标签和分类标签;
所述DNA_interface_v3网络模型基于Xception + FPN + Unet结构,用于宫颈TCT中的细胞核分割任务;
所述DNA_interface_v3网络模型包括Xception Blocks、FPN、U-Net、输出单元;其中,
Xception Blocks:网络模型的前半部分由 Xception Blocks 组成,这些块逐渐提取宫颈TCT切片图像的特征信息,每个 Xception Block 都包含多个卷积层,BatchNormalization层和ReLU激活函数;它们在网络模型的初始部分执行卷积操作,逐渐增加通道数和分辨率;
FPN :Xception Blocks之后,网络模型执行 FPN 操作,FPN通过上采样和残差连接将来自底层特征图的信息传播到顶层特征图;
U-Net:在FPN之后,U-Net用于生成像素级的语义分割预测,U-Net包括编码器和解码器;解码器部分负责将特征图上采样到原始图像尺寸;
输出单元: 网络模型的最终输出是一个概率图,用于图像中每个像素的语义分割预测,该图经过 Sigmoid 激活函数以确保输出值在 0 到 1 之间,表示每个像素属于分割类别的概率;
对于细胞核较为不明显或者无细胞核的细胞,分别根据其特性获取其分割掩码标签、检测边界框标签和分类标签;
所述细胞核较为不明显的细胞包括TRI;所述无细胞核的细胞包括ACTINO、CANDIDA;
S3、将获取到的分割掩码标签、检测边界框标签和分类标签转化为coco数据集类型的标签,并将coco数据集类型的标签作为多任务处理模型的训练集;
S4、将训练好的多任务处理模型对宫颈TCT切片的细胞核同时进行分割、检测和分类任务。
2.根据权利要求1所述宫颈TCT切片的多类型细胞核标注及多任务处理方法,其特征在于,步骤S2中,所述细胞核较为明显的细胞,通过以下方式获取其分割掩码标签、检测边界框标签和分类标签:
(a)对标签边界框内宫颈TCT切片图像进行预处理:读取真实的边界框,根据边界框的大小,将边界框中的图像区域平均切分为若干个小的图像块, DNA_interface_v3网络模型对图像块完成细胞核分割后,合并为一整张图像;
(b)获取标签内细胞核轮廓:首先使用DNA_interface_v3网络模型对切分的图像块进行预测,获取预测结果;然后对预测结果依次进行图像增强、直方图均衡化;接着将预测图像块进行合并,获取重合区域像素的最小值,再对合并后的图像根据每个细胞类型的不同阈值进行阈值化处理,将图像分成前景和背景,生成二值图像;最后根据图像中每个不同大小的细胞核分割掩码执行形态学操作,得到细胞核轮廓;
(c)获取细胞图像的分割掩码标签、检测边界框标签和分类标签:首先使用cv2.boundingRect函数获取每一个细胞核掩码轮廓的包围框,包括包围框的x、y坐标以及宽度和高度,将其作为检测边界标签;将获取到的每一个细胞核轮廓转化为分割掩码标签;
只有密度和数量差别的细胞合并为同一类别,共用一个类别标签;其他细胞将每个图像区域的类别作为在该区域内的类别标签。
3.根据权利要求1所述宫颈TCT切片的多类型细胞核标注及多任务处理方法,其特征在于,步骤S2中,所述ACTINO通过以下方式获取其分割掩码标签、检测边界框标签和分类标签:
(1)对图像进行预处理:首先将输入的彩色图像转换为灰度图像,并进行高斯模糊处理;然后使用cv2.convertScaleAbs将增强的图像转换为8位无符号整数图像,之后对增强的图像进行直方图均衡化,最后进行阈值化处理,将图像分成前景和背景,生成二值图像,得到预处理后的图像;
(2)获取ACTINO细胞轮廓:首先将二值图像取反,然后使用cv2.findContours函数寻找图像中的轮廓,这些轮廓是图像中的对象边界;最后从所有找到的轮廓中,选择面积最大的轮廓作为主要对象,这通过计算轮廓的面积并使用cv2.contourArea函数实现;最后得到ACTINO细胞轮廓;
(3)获取ACTINO细胞图像的分割掩码标签、检测边界框标签和分类标签:首先使用cv2.boundingRect函数获取主要细胞轮廓的包围框,包括包围框的x、y坐标以及宽度和高度,将其作为检测边界标签;将获取到的细胞轮廓转化为分割掩码标签;将’ ACTINO’作为其分类标签。
4.根据权利要求1所述宫颈TCT切片的多类型细胞核标注及多任务处理方法,其特征在于,步骤S2中,所述CANDIDA通过以下方式获取其检测边界框标签和分类标签:
获取CANDIDA细胞图像的检测边界框标签和分类标签,将转化后的实际边界框作为检测边界标签,将’CANDIDA’作为其分类标签。
5.根据权利要求1所述宫颈TCT切片的多类型细胞核标注及多任务处理方法,其特征在于,步骤S2中,所述TRI通过以下方式获取其分割掩码标签、检测边界框标签和分类标签:
(A)对图像进行预处理:首先将输入的彩色图像转换为灰度图像,然后进行高斯模糊处理;
(B)获取TRI细胞轮廓:首先,对预处理图像应用Canny边缘检测,生成边缘图像;其次,创建一个全黑的掩码并将Canny边缘检测结果作为掩码的一部分;接着进行闭合操作、直方图均衡化;之后进行阈值化处理,将图像分成前景和背景,生成二值图像;最后对二值化图像进行形态学操作,得到TRI细胞轮廓;
(C)获取ACTINO细胞图像的分割掩码标签、检测边界框标签和分类标签:首先使用cv2.boundingRect函数获取主要对象轮廓的包围框,包括包围框的x、y坐标以及宽度和高度,将其作为检测边界标签;将获取到的细胞轮廓转化为分割掩码标签;将’ ACTINO’作为其分类标签。
6.根据权利要求1所述宫颈TCT切片的多类型细胞核标注及多任务处理方法,其特征在于,所述多任务处理模型,基于Maskdino模型,且在对象检测Dino模型基础上,引入一个mask prediction branch,通过query embedding来对高分辨率的pixel embedding map进行点乘,得到最终的mask预测结果。
7.根据权利要求1所述宫颈TCT切片的多类型细胞核标注及多任务处理方法,其特征在于,所述多任务处理模型的训练过程如下:
首先,搭建Intel(R) Xeon(R) Silver 4316 CPU @ 2.30GHz、4张NVIDIA RTX A600048G GPU硬件环境,CUDA 11.3、pytorch1.10软件环境,获取用于Maskdino模型训练的TCT细胞核标注信息;设置网络的输入图像大小,并采用了包括类别损失、掩码损失、Dice损失、边界框损失和GIoU损失的多重损失函数,这些损失函数按照一定的权重进行共同加权;
由于CANDIDA细胞缺乏割掩码标签,我们采取了分阶段的策略:首先,冻结了模型的分割头部,然后单独训练分类头和检测头,使用了包含全部细胞的标注数据;当获得了对CANDIDA细胞检测结果的稳定性,才继续使用其余细胞的标注数据,共同训练了模型的分割头、检测头和分类头;将检测出来'HSIL_S','LSIL_E','LSIL_F'用KNN的方法根据目标距离和大小再进行分类,最终,获得了对全部细胞的综合预测结果,实现了同时进行分割、检测和分类任务。
8.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现权利要求1至7中任一权利要求所述宫颈TCT切片的多类型细胞核标注及多任务处理方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现权利要求1至7中任一权利要求所述宫颈TCT切片的多类型细胞核标注及多任务处理方法。
CN202410000887.8A 2024-01-02 2024-01-02 宫颈tct切片的多类型细胞核标注及多任务处理方法 Active CN117496512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410000887.8A CN117496512B (zh) 2024-01-02 2024-01-02 宫颈tct切片的多类型细胞核标注及多任务处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410000887.8A CN117496512B (zh) 2024-01-02 2024-01-02 宫颈tct切片的多类型细胞核标注及多任务处理方法

Publications (2)

Publication Number Publication Date
CN117496512A CN117496512A (zh) 2024-02-02
CN117496512B true CN117496512B (zh) 2024-03-22

Family

ID=89678557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410000887.8A Active CN117496512B (zh) 2024-01-02 2024-01-02 宫颈tct切片的多类型细胞核标注及多任务处理方法

Country Status (1)

Country Link
CN (1) CN117496512B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968127A (zh) * 2020-07-06 2020-11-20 中国科学院计算技术研究所 一种基于全切片病理图像的癌灶区域识别方法及系统
WO2021076605A1 (en) * 2019-10-14 2021-04-22 Ventana Medical Systems, Inc. Weakly supervised multi-task learning for cell detection and segmentation
CN115587985A (zh) * 2022-10-14 2023-01-10 复旦大学 组织病理图像细胞核分割以及染色风格规范化方法
CN116310637A (zh) * 2023-02-17 2023-06-23 杭州医策科技有限公司 宫颈液基细胞图像的数据集生成、模型训练、图像识别系统
CN117011635A (zh) * 2022-11-29 2023-11-07 腾讯科技(深圳)有限公司 模型训练方法、图像数据处理方法、装置及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739010B (zh) * 2020-06-23 2022-06-24 珠海圣美生物诊断技术有限公司 一种检测循环异常细胞的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021076605A1 (en) * 2019-10-14 2021-04-22 Ventana Medical Systems, Inc. Weakly supervised multi-task learning for cell detection and segmentation
CN111968127A (zh) * 2020-07-06 2020-11-20 中国科学院计算技术研究所 一种基于全切片病理图像的癌灶区域识别方法及系统
CN115587985A (zh) * 2022-10-14 2023-01-10 复旦大学 组织病理图像细胞核分割以及染色风格规范化方法
CN117011635A (zh) * 2022-11-29 2023-11-07 腾讯科技(深圳)有限公司 模型训练方法、图像数据处理方法、装置及计算机设备
CN116310637A (zh) * 2023-02-17 2023-06-23 杭州医策科技有限公司 宫颈液基细胞图像的数据集生成、模型训练、图像识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Mask R-CNN 的宫颈细胞图像分割;郑杨等;《计算机时代》;20201018(第10期);第70页 *

Also Published As

Publication number Publication date
CN117496512A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN109102502B (zh) 基于三维卷积神经网络的肺结节检测方法
CN108765408B (zh) 构建癌症病理图像虚拟病例库的方法以及基于卷积神经网络的多尺度癌症检测系统
CN110245657B (zh) 病理图像相似性检测方法及检测装置
CN110472616B (zh) 图像识别方法、装置、计算机设备及存储介质
CN112508850B (zh) 基于深度学习的甲状腺细胞病理切片恶性区域的检测方法
Wan et al. Robust nuclei segmentation in histopathology using ASPPU-Net and boundary refinement
CN112446892A (zh) 一种基于注意力学习的细胞核分割方法
CN112365973B (zh) 基于对抗网络和Faster R-CNN的肺结节辅助诊断系统
CN113096096B (zh) 一种融合形态特征的显微图像骨髓细胞计数方法与系统
CN112132166A (zh) 一种数字细胞病理图像智能分析方法、系统及装置
CN112990214A (zh) 一种医学图像特征识别预测模型
CN113139977B (zh) 一种基于YOLO和U-Net的口腔曲断影像智齿分割方法
CN115601330A (zh) 一种基于多尺度空间反向注意力机制的结肠息肉分割方法
CN115409832A (zh) 一种超声影像及组学大数据的三阴性乳腺癌分类方法
CN115471701A (zh) 基于深度学习和迁移学习的肺腺癌组织学亚型分类方法
CN113077438B (zh) 针对多细胞核彩色图像的细胞核区域提取方法及成像方法
CN111047559A (zh) 一种数字病理切片异常区域快速检测的方法
CN116468690B (zh) 基于深度学习的浸润性非粘液性肺腺癌的亚型分析系统
CN113409255A (zh) 一种基于Mask R-CNN的斑马鱼形态学分类方法
CN113096080A (zh) 图像分析方法及系统
CN113222903A (zh) 一种全切片组织病理图像分析方法及系统
CN112419332A (zh) 一种面向厚层mri影像的头骨剥离方法及装置
CN117496512B (zh) 宫颈tct切片的多类型细胞核标注及多任务处理方法
CN116883341A (zh) 一种基于深度学习的肝脏肿瘤ct图像自动分割方法
CN113012167B (zh) 一种细胞核与细胞质的联合分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant