CN113838009A

CN113838009A - 一种基于半监督机制的异常细胞检测假阳性抑制方法

Info

Publication number: CN113838009A
Application number: CN202111048682.XA
Authority: CN
Inventors: 李文勇; 杜霞萍; 张立箎; 王乾; 蹇秀红; 陈巍
Original assignee: Jiangsu Disset Medical Technology Co ltd
Current assignee: Jiangsu Disset Medical Technology Co ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-24
Anticipated expiration: 2041-09-08
Also published as: CN113838009B

Abstract

本发明揭示了一种基于半监督机制的异常细胞检测假阳性抑制方法，首先，通过训练RetinaNet网络模型，以可疑细胞检测框的形式输出可疑异常细胞的检测结果，然后，根据对可疑细胞检测框的定位获得单细胞图像块，引入包含有学生模型和教师模型的半监督机制设计出基于Mean‑Teacher半监督分类网络模型，最后利用该分类网络模型对宫颈细胞视野图经RetinaNet生成的可疑异常宫颈细胞进行假阳性抑制，完成异常细胞检测假阳性抑制。本发明可以有效抑制检测后的假阳性细胞，并且可以在只有有限标记数据的情况下获得良好的性能，减少医务人员的复核工作量，提高异常细胞检测复核的工作效率。

Description

一种基于半监督机制的异常细胞检测假阳性抑制方法

【技术领域】

本发明属于细胞检测分类技术领域，特别是涉及一种基于半监督机制的异常细胞检测假阳性抑制方法。

【背景技术】

宫颈癌是女性最常见的癌症之一，若通过筛查在早期诊断和干预该疾病，则可以治愈该疾病。Thinprep细胞学检测(TCT)可帮助病理学家发现可能转变为癌症的异常宫颈鳞状细胞。通常，在筛选的单个全玻片TCT样本中，有数千个宫颈鳞状细胞。然而对于病理学人员来说在大量细胞病理样本中寻找和评估异常细胞既繁琐又耗时。因此，寻找一种实现可疑异常细胞的自动检测方法是非常必要的。

随着深度学习在图像检测和图像分类领域的发展，自动异常细胞检测已经开展了许多尝试。所有检测工作都不可避免地会产生假阳性结果。一些正常细胞被错误地归类为异常细胞，因此需要病理学家进行人工检查，以确保最终诊断结果的准确性。如果假阳性高，对病理学家来说是一个负担。

在细胞分类上，现有技术中专利号为CN201510742096.3公开了一种基于模糊积分多分类器融合的细胞图像识别方法及装置，其采用预训练的卷积神经网络CNN提取特征，并将输出特征发送到SVM分类器进行最终分类，但它的输入仅限于小的单细胞图像，这对于包含数千个细胞的TCT扫描图像来说是不切实际的；同时获得病理学家对单个细胞正异常的诊断结果是十分耗时且昂贵的。

目前所有的目标检测方法应用到异常细胞检测问题上都存在假阳性问题，即检测出的可疑细胞中既有真正异常的细胞也有正常的细胞，这给医生诊断带来了一定的干扰。传统的深度学习分类方法存在着不可解释性问题，并且需要探索其在分类性能上进一步提升的可行性。

因此，有必要研发一种基于半监督机制的异常细胞检测假阳性抑制方法来解决上述问题。

【发明内容】

本发明的主要目的在于提供一种基于半监督机制的异常细胞检测假阳性抑制方法，可以有效抑制检测后的假阳性细胞，并且可以在只有有限标记数据的情况下获得良好的性能，减少医务人员的复核工作量，提高异常细胞检测复核的工作效率。

本发明通过如下技术方案实现上述目的：一种基于半监督机制的异常细胞检测假阳性抑制方法，其包括以下步骤：

其包括以下步骤：

S1)获取第一样本集：获取宫颈细胞视野图，病理学家在宫颈细胞视野图上采用矩形框形式标注出异常宫颈细胞，得到第一样本集；

S2)异常细胞检测：将第一样本集送入目标检测RetinaNet网络中训练得到可疑细胞自动检测模型；

S3)获取第二样本集：

S31)获取宫颈细胞视野图并将其输入到所述可疑细胞自动检测模型中，输出若干带有可疑细胞框的宫颈细胞图像；

S32)以每个所述可疑细胞框的中心位置向外扩展得到若干小块细胞图像，病理学家对设定比例数量的小块细胞图像中的异常宫颈细胞进行标注，判断其小块细胞图像中包含的目的细胞是否为真正阳性的异常宫颈细胞，得到有标注数据集，剩下的其他小块细胞图像作为无标记数据集，有标注数据集与无标记数据集构成第二样本集；

S4)基于Mean-Teacher的半监督网络，利用所述第二样本集进行训练得到半监督分类模型。

进一步的，所述步骤S1)包括：

S11)获得若干张1024×1024像素大小的宫颈细胞视野图像X_i，i＝0,1,2,3,N₁；

S12)病理学家对上述宫颈细胞视野图像中的异常宫颈细胞做标注，得到第一样本集，其中标注形式为矩形框，用(x,y,w,h)表示，x、y、w、h这四个参数分别为标注矩形框的左上顶点坐标、标注矩形框的宽度、标注矩形框的高度。

进一步的，所述步骤S2)异常细胞检测包括：

S21)将所述第一样本集按设定比例划分为第一训练集和第一测试集；

S22)将第一训练集送入目标检测RetinaNet网络中，通过调节模型的初始学习率、损失函数中的α、γ参数使训练过程中的损失值收敛，完成网络训练；

S23)利用第一测试集对步骤S22)中的训练模型做筛选，得到可疑细胞自动检测模型；其中，筛选指标为map。

进一步的，所述步骤S3)获取第二样本集包括：

S311)获取若干张1024×1024像素大小的宫颈细胞视野图像，并将其送入所述可疑细胞自动检测模型中，网络将以可疑细胞框(x,y,w,h)的格式输出预测的可疑异常宫颈细胞的位置信息；

S312)在步骤S311)中的若干张1024×1024像素大小的宫颈细胞视野图上，以可疑细胞框的中心位置

为中心向外扩展，得到一批224×224像素大小的小块细胞图像；

S313)按照设定比例提取设定数量的小块细胞图像，让病理学家对小块细胞图像中的异常宫颈细胞做标记，得到有标注的数据集DL＝{(x_i,y_i)},i＝1,...,M，剩下没有标注的小块细胞图像为未标注的数据集DU＝{(x_i)},i＝M+1,...,N，其中x_i代表小块细胞图像，y_i代表该小块细胞图形所属的类别，为真正异常的宫颈细胞或者假阳性宫颈细胞；

S314)以所述步骤S312)中所获得的所有小块细胞图像为第二样本集，并将所述第二样本集按照设定比例划分为第二训练集与第二测试集，所述第二训练集按照设定的比例包含有标注的数据集和无标注的数据集，所述第二测试集均为有标注的数据集。

进一步的，所述步骤S4)包括：

S41)建立Mean-Teacher分类网络：所述Mean-Teacher分类网络包括一个教师模型和一个学生模型；

S42)Mean-Teacher分类网络的损失计算：

S421)每一个有标注信息的小块细胞图像x_i经过学生模型都会有一个输出y′_i，采用交叉熵方式计算y_i和y′_i的误差L_cls：

其中f(x_i,θ)指学生模型对于图像x_i的输出，θ为学生模型的参数；

S422)用平方差损失来计算两个教师模型和学生模型输出结果的差异L_con，

其中f(x′_i,θ′)为教师模型对于图像x′_i的输出，θ′为教师模型的参数；x′_i是对x_i进行了改变后的图像；

S423)总损失L_total：

L_total＝L_cls+L_con。

S43)网络参数设置和优化：

S431)训练网路：将所述第二样本集划分为第二训练集与第二测试集，将所述第二训练集输入到学生模型与教师模型中，训练分类网络；其中学生模型的参数经梯度的反向传播更新，教师模型的模型参数由学生模型和上一轮训练过程中的教师模型参数通过组合计算得出；

S432)测试集选取最优结果：利用所述第二测试集对训练得到的分类网络做筛选，得到分类结果最好的模型，即为假阳性抑制分类模型；其中筛选指标为衡量检测模型性能最常用的准确率、AUC、精度、F1指标。

进一步的，所述教师模型与所述学生模型均为SE-ResNeXt-50。

进一步的，所述步骤S422)中，所述改变包括色彩亮度变化与垂直水平翻转。

本发明一种基于半监督机制的异常细胞检测假阳性抑制方法，通过病理医师在宫颈细胞视野图上标注异常宫颈细胞形成第一样本集；然后构建目标检测网络RetinaNet模型，利用含有异常宫颈细胞标注的细胞视野图进行训练得到可疑细胞自动检测模型，实现可疑异常细胞的检测；其中，所述可疑细胞自动检测模型的输入为宫颈细胞视野图和视野图上异常宫颈细胞的标注，目标检测网络RetinaNet模型由分类分支和回归分支组成，所述可疑细胞自动检测模型输出检测结果，所述检测结果在宫颈细胞视野图上以可疑细胞检测框的形式呈现可疑异常宫颈细胞；最后进行假阳性抑制，获取一批宫颈细胞视野图，经过可疑细胞自动检测模型进行检测后输出带有标注信息的图像，病理医师对少量带有标注信息的图像进行进一步的判断，根据判断结果标注为异常细胞还是正常细胞，并以此作为有标注的数据集结合未经过进一步判断的但带有标注信息的图像一起作为第二样本集，采用半监督机制构建并训练得到Mean-Teacher分类网络模型，利用所述Mean-Teacher分类网络模型实现对可疑异常细胞进行更精准的分类，完成假阳性抑制。

与现有技术相比，本发明一种基于半监督机制的异常细胞检测假阳性抑制方法的有益效果在于：首先使用异常细胞检测模型检测出可疑细胞，在此基础上引入了半监督学习机制，利用少量的有标记数据和大量的无标记数据设计分类网络，完成异常细胞检测假阳性抑制，使得异常细胞检测结果更加精准、可靠。具体的，

首先，通过训练RetinaNet网络模型，以可疑细胞检测框的形式输出可疑异常细胞的检测结果，然后，根据对可疑细胞检测框的定位获得单细胞图像块，引入包含有学生模型和教师模型的半监督机制设计出基于Mean Teacher(简称MT)设的分类网络模型，其分类更加精准且性能更优；最后利用该分类网络模型对细胞视野图进行假阳性抑制，进一步的排除假阳性标记，为医务工作者的异常细胞检测复核工作减少工作量，提高工作效率；本方法在潜在的临床应用中具有重要价值，也可以进一步应用于病理图像计算机辅助诊断中的其他细胞检测任务。对于病理学图像来说，得到医生的标注是非常昂贵且费时的，本方案采用半监督的方式，利用小部分标注数据和大量未标注数据就可以获得与全标注数据相当的性能，这在病理学分类问题中是十分实用的。

【附图说明】

图1为本发明提供的异常细胞检测假阳性抑制方法的模块图。

【具体实施方式】

实施例：

请参照图1，本实施例一种基于半监督机制的异常细胞检测假阳性抑制方法，整体框架包含两个部分，一个是可疑异常宫颈细胞的自动检测，另一个是半监督分类网络，该分类网络是基于前面网络的可疑异常细胞设计的。其具体包括以下步骤：

S1)可疑细胞检测：

S11)获得若干张1024×1024像素大小的宫颈细胞视野图像X_i,i＝0,1,2,3,N₁，在实验中此图像是jpg格式。

S12)获得可疑细胞自动检测模型：

S121)将带有异常宫颈细胞标注信息的宫颈细胞视野图像即第一样本集按8：2的比例划分为第一训练集和第一测试集；

S122)将第一训练集送入通用的目标检测RetinaNet网络中，通过调节模型的初始学习率，损失函数中的α、γ参数使训练过程中的损失值收敛，完成网络训练；

S123)利用第一测试集对步骤S122)中的训练模型做筛选，得到异常细胞检测结果最好的模型，即可疑细胞自动检测模型；其中，筛选指标为衡量检测模型性能最常用的map。

S2)获得半监督分类模型：

由于假阳性在目标检测中是不可避免的，我们在普通的异常检测步骤之后加入了一个分类网络来最大可能地抑制目标检测过程中的假阳性。

S21)获取样本：

S211)获取若干张1024×1024像素大小的宫颈细胞视野图像，并将其送入步骤S1)获得的可疑细胞自动检测模型中，网络将以可疑细胞框(x,y,w,h)的格式输出预测的可疑异常宫颈细胞的位置信息；注意这里的1024大小的视野图并不是异常细胞检测步骤中的视野图，他们都是同类型的视野图，但异常细胞检测步骤中的视野图的作用只是训练一个性能优秀的检测网络；

为了区分可疑细胞自动检测模型输出的可疑异常宫颈细胞哪些是真正异常的宫颈细胞，哪些是网络预测错误的宫颈细胞，也就是假阳性的细胞，本实施例以网络输出的可疑异常宫颈细胞为对象来训练一个分类网络；

S212)在步骤S211)中的若干张1024×1024像素大小的宫颈细胞视野图上，以可疑细胞自动检测模型输出的可疑细胞框的中心位置

为中心，按照设定规则向外扩展，得到一批224×224像素大小的小块细胞图像，小块细胞图像的中心是我们要进行分类的可疑异常宫颈细胞；

S213)步骤S212)会得到数量非常庞大的小块细胞图像，按照设定比例提取设定数量的小块细胞图像，让病理学家对小块细胞图像中的异常宫颈细胞做标记，判断其小块细胞图像中包含的目的细胞是否为真正阳性的异常宫颈细胞，得到有标注的数据集DL＝{(x_i,y_i)},i＝1,...,M，剩下没有标注的小块细胞图像为未标注的数据集DU＝{(x_i)},i＝M+1,...,N，其中x_i代表小块细胞图像，y_i代表该小块细胞图形所属的类别：真正异常的宫颈细胞或者假阳性宫颈细胞；在本实施例中，

小块细胞图像作为第二样本集，将第二样本集划分为第二训练集与第二测试集，比例为7：3。其中第二训练集有标注的数据集和无标注的数据集的比例为2：8，第二测试集均为有标注图像。

全监督分类网络只能利用有标签信息的图像，给图像打标签就是判断该图像属于哪个类别，而对于病理学图像来说，得到医生对于病理学图像的标注是非常昂贵的，需要耗费大量的时间和精力；因此本实施例采用基于Mean-Teacher的半监督分类网络，半监督网络可以利用少量有标注数据和大量未标注数据提升相对于只用少量有标注数据的分类网络的分类性能。

S22)建立Mean-Teacher分类网络：Mean-Teacher分类网络由一个教师模型和一个学生模型组成，二者网络结构相同，本实施例中两者都是SE-ResNeXt-50；

S23)Mean-Teacher分类网络的损失计算：

S231)每一个有标注信息的小块细胞图像x_i经过学生模型都会有一个输出y′_i，采用交叉熵方式计算y_i和y′_i的误差L_cls：

S232)同时因为教师模型和学生模型网络结构相同，因此对于近乎相同的有标注和无标注小块细胞图像的输入，两个网络应该有一致的预测结果，本实施例用平方差损失来计算两个网络输出结果的差异L_con，

其中f(x′_i,θ′)为教师模型对于图像x′_i的输出，θ′为教师模型的参数；x′_i是对x_i进行了改变，本实施例中，所述改变为色彩亮度变化与垂直水平翻转；

S233)总损失L_total：

L_total＝L_cls+L_con。

S24)网络参数设置和优化：训练网路：将步骤S213)中划分的第二训练集输入到学生模型与教师模型中，训练分类网络；其中学生模型的参数经梯度的反向传播更新，教师模型的模型参数由学生模型和上一轮训练过程中的教师模型参数通过组合计算得出；

S25)测试集选取最优结果：利用步骤S213)中划分的第二测试集对训练得到的分类网络做筛选，得到分类结果最好的模型，即为半监督分类模型；其中筛选指标为衡量检测模型性能最常用的准确率、AUC、精度、F1等指标。

在实际应用时，获取到病人的宫颈细胞视野图后将其输入到本实施例的可疑细胞自动检测模型中，自动输出若干小块细胞图像，并自动生成掩膜，然后自动输入到假阳性抑制分类模型中，自动输出可疑异常宫颈细胞的标注以及分类结果，大大减少了病理学家标记工作量，提高了异常宫颈细胞检测的精度，有效的抑制了假阳性。

为了验证本方法的有效性，本实施例采用本方法、全监督方法FS和Mean Teacher方法三种方法进行了实验对比分析，其检测结果如表1所示。

表1三种方法结果对比

从表1可知，全监督方法实验的性能随着标记数据数量的增加而提高。使用2组标记数据和8组未标记数据的基本MT方法的性能与使用6组标记数据的全监督分类网络相当。同时，本实施例提出的具有与MT方法相同训练数据的方法可以与使用6组标记数据的全监督分类网络相媲美，这清楚地表明，我们的方法优于MT方法，并且与全监督方法相比，大大降低了标签数据准备的成本。

本实施例利用本方法对宫颈细胞图像进行了实验分析，其实验分析结果如表2所示。

表2使用抑制FP方法对宫颈细胞图像的实验结果

在实验中，我们使用每个图像的假阳性细胞数来表示FP抑制。FP₁表示每个正图像的平均假阳性细胞数，FP₀是每个阴性图像的平均假阳性细胞数，FP_avg表示每张图像的平均假阳性细胞数。

如果预测边界框和注释异常细胞的IoU小于0.5，我们将预测的“异常”细胞定义为假阳性细胞。对于正图像，每张图像的假阳性细胞数为13.95，在我们的FP抑制后数量减少到8.38；对于负图像，数字为7.98和0.75，这证明了FP抑制专门针对负图像的有效性。虽然测试数据的召回率从0.85降低到0.75，但不会影响最终的图像分类性能，因为如果病例被诊断为异常，通常会检测到足够的细胞。由于我们的FP抑制后FP的差异大大扩大，并且在实际临床测试情况下，阴性宫颈细胞图像约占90％，我们的方法可以大大减少检测错误的影响，并有助于最终诊断。

抑制之后的假阳性表2显示了抑制或不抑制后的假阳性结果。本实施例通过半监督分类网络来抑制宫颈异常细胞检测中的误报；在检测到可疑异常细胞后，我们只对置信度得分高于0.1的检测细胞进行分类，因为大量置信度得分低于0.1的细胞对临床诊断价值不大。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于半监督机制的异常细胞检测假阳性抑制方法，其特征在于：其包括以下步骤：

S3)获取第二样本集：

2.如权利要求1所述的基于半监督机制的异常细胞检测假阳性抑制方法，其特征在于：所述步骤S1)包括：

3.如权利要求2所述的基于半监督机制的异常细胞检测假阳性抑制方法，其特征在于：所述步骤S2)异常细胞检测包括：

4.如权利要求2所述的基于半监督机制的异常细胞检测假阳性抑制方法，其特征在于：所述步骤S3)获取第二样本集包括：

5.如权利要求4所述的基于半监督机制的异常细胞检测假阳性抑制方法，其特征在于：所述步骤S4)包括：

S42)Mean-Teacher分类网络的损失计算：

S423)总损失L_total：

L_total＝L_cls+L_con。

S43)网络参数设置和优化：

6.如权利要求5所述的基于半监督机制的异常细胞检测假阳性抑制方法，其特征在于：所述教师模型与所述学生模型均为SE-ResNeXt-50。

7.如权利要求5所述的基于半监督机制的异常细胞检测假阳性抑制方法，其特征在于：所述步骤S422)中，所述改变包括色彩亮度变化与垂直水平翻转。