CN113222928A - 一种尿细胞学人工智能尿路上皮癌识别系统 - Google Patents

一种尿细胞学人工智能尿路上皮癌识别系统 Download PDF

Info

Publication number
CN113222928A
CN113222928A CN202110493539.5A CN202110493539A CN113222928A CN 113222928 A CN113222928 A CN 113222928A CN 202110493539 A CN202110493539 A CN 202110493539A CN 113222928 A CN113222928 A CN 113222928A
Authority
CN
China
Prior art keywords
module
data
urine cytology
model
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110493539.5A
Other languages
English (en)
Other versions
CN113222928B (zh
Inventor
刘亿骁
金燊
常璐璠
虞巍
彭浩
沈棋
方山城
范宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University First Hospital
Original Assignee
Peking University First Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University First Hospital filed Critical Peking University First Hospital
Priority to CN202110493539.5A priority Critical patent/CN113222928B/zh
Publication of CN113222928A publication Critical patent/CN113222928A/zh
Application granted granted Critical
Publication of CN113222928B publication Critical patent/CN113222928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种尿细胞学人工智能尿路上皮癌识别系统,包括:数据分类模块,用于对预先获取的尿细胞学数据进行分类,得到尿细胞学阳性数据集和阴性数据集,并基于手术病理结果对尿细胞学阳性数据集和阴性数据集进行匹配,得到真阳性数据集、假阳性数据集、真阴性数据集和假阴性数据集;数据分组模块,用于对所述数据分类模块得到的各类数据集进行分组,得到训练‑验证集以及测试集;模型训练模块,用于对预先构建的模型进行训练,得到最终模型;模型测试和审核模块,用于对得到的最终模型进行细胞水平测试和组织水平测试;识别模块,用于对待识别的尿细胞学数据进行识别,得到识别结果。本发明可以广泛应用于细胞学病理识别领域。

Description

一种尿细胞学人工智能尿路上皮癌识别系统
技术领域
本发明属于医学技术领域,涉及一种尿细胞学识别系统,特别涉及一种基于深度学习的尿细胞学人工智能尿路上皮癌识别系统。
背景技术
尿路上皮癌是全球第四常见的恶性肿瘤。由于肾盂、输尿管、膀胱均由尿路上皮覆盖,尿路上皮癌往往不局限于单一一点而是多处同时累及,并且部分尿路上皮癌在治疗后易于复发和进展。因此,目前多主张治疗前进行彻底检查,治疗后也需要频繁复查。手术病理是尿路上皮癌诊断的金标准,但由于手术带来的创伤和耗费的资源较大,在手术前必须进行充足的检查,并论证患者尿路上皮癌高度可疑。国内外指南和共识均推荐膀胱镜和CT尿路成像(CTU)分别作为下尿路和上尿路的标准检查手段。地毯式的检查虽然有助于发现最细微的病灶,但这两种检查手段均为侵入性,价格高,且不易在基层普及。
基于尿液的非侵入性筛查方法在这些方面有优势,可分为生物标记物检测或尿细胞学检测。其中,生物标记物检测主要包括检测肿瘤细胞中特异的遗传物质、蛋白质等,目前已有6种被FDA批准用于临床。生物标记物检测的主要问题为在单独使用时特异性较低,联合使用时费用较高。因此,各国指南并没有对这种检测方式一致推荐。而尿细胞学多年来一直是筛查和监测尿路上皮癌的重要手段,由于其价格便宜且便于普及,因此,光镜显微镜下尿细胞学检查目前为各国指南所推荐。尿细胞学检查的主要问题在于敏感性较低,且检查过程依赖病理专科医生的经验。
近年来,基于深度学习的计算机视觉技术在处理视觉任务中发挥了独特优势,也出现了基于深度学习的病理检测系统。然而,从检测对象上而言,这些系统都是针对组织病理学而不是细胞病理学;从检测结果上而言,这些系统的输出结果为“有”或“无”的二分类结果,使得临床医生难以根据检测结果进行进一步解释。
在科研领域,已有探索用于细胞病理学的诊断系统。从算法上,这些系统的图像识别算法需要先分割再分类,即研究人员需要预先定义图像特征(如细胞核边缘,核浆比,细胞体积等),然后算法再对原始图像先分割再捕捉特征,因此增加了算法的步骤因而增加了累计误差,因此此类算法需要大量的训练样本(10^5-10^6个标注细胞数目)。另一方面,由于采用人为定义的图像特征,此类算法在实际中往往较脆弱,难以泛化,不符合当下靠算法本身寻找特征的计算机视觉理念。从技术上,这些研究中细胞学的制备均依赖液基薄层细胞学(Thinprep cytologic test)和全视野数字切片(Whole Slide Image)技术,并通过Paris评分系统进行诊断,然而上述技术和评分系统目前仍未全面普及。
发明内容
针对上述问题,本发明的目的是提供一种基于深度学习的尿细胞学人工智能尿路上皮癌识别系统,通过使用苏木精—伊红染色法(HE染色)100倍光学显微镜放大下的照片对初诊的潜在尿路上皮癌患者细胞进行筛查或治疗后的尿路上皮癌患者进行随访。
为实现上述目的,本发明采取以下技术方案:一种尿细胞学人工智能尿路上皮癌识别系统,其包括:数据分类模块,用于对预先获取的尿细胞学数据进行分类,得到尿细胞学阳性数据集和尿细胞学阴性数据集,同时对尿细胞学阳性数据集进行随机分配,得到训练-验证集和预测试集;数据分组模块,用于用于根据手术病理结果对预测试集和尿细胞学阴性数据集进行分组,得到测试集,所述测试集包括内测试集和额外测试集;模型训练模块,用于采用所述训练-验证集对预先构建的Faster R-CNN模型进行训练,得到最终模型;模型测试和审核模块,用于分别采用所述预测试集和测试集对所述最终模型进行细胞水平测试和组织水平测试;识别模块,用于基于测试和审核后的最终模型对待识别的尿细胞学数据进行识别,得到识别结果。
进一步,所述数据分类模块包括:数据获取模块,用于回顾性纳入单中心的尿细胞学数据,包括:尿细胞学诊断信息、诊断结果及诊断图片;第一数据分类模块,用于将确定或可疑存在肿瘤细胞的尿细胞学诊断图片划入初始尿细胞学阳性数据集,将阴性的尿细胞学诊断图片划入初始尿细胞学阴性数据集;数据筛除模块,用于对所述初始尿细胞学阴性数据集和初始尿细胞学阳性数据集中人工无法辨认的诊断图片和重复的诊断图片进行去除,得到尿细胞学阳性数据集和尿细胞学阴性数据集;数据标注模块,用于对所述尿细胞学阳性数据集进行标注,得到标注后的尿细胞学阳性数据集;数据分配模块,用于对标注后的尿细胞学阳性数据集按8:1随机分入训练-验证集和预测试集。进一步,所述数据标注模块对所述尿细胞学阳性数据集进行标注时,标注内容包括所述尿细胞学阳性数据集中各诊断图片内的阳性细胞、可疑阳性细胞以及与前两者相似度达到预设阈值的阴性细胞或细胞碎片。
进一步,所述数据分组模块包括:数据匹配模块,用于按手术病理结果进一步将所述预测试集中的尿细胞学阳性数据集和尿细胞学阴性数据集分为:真阳性数据集、假阳性数据集、真阴性数据集和假阴性数据集;第二数据分类模块,用于将所述真阳性数据集和真阴性数据集合并为内测试集,所述假阴性数据集作为额外测试集。
进一步,所述模型训练模块包括:第一图像预处理模块,用于对所述训练-验证集中的各原始诊断图片进行预处理,进而得到训练集和验证集;模型构建模块,用于建立Faster R-CNN模型,该模型的输入为训练集中的子图像,输出为子图像的识别结果、细胞评分结果;模型优化模块,用于确定损失函数,对Faster R-CNN模型的模型参数进行优化;最终模型确定模块,用于基于确定的损失函数以及训练集对建立的Faster R-CNN模型进行训练优化,并基于验证集对模型进行验证,得到训练好的最终Faster R-CNN模型。
进一步,所述图像预处理模块包括:图像裁剪模块,用于按照预设分辨率从所述训练-验证集中的各原始诊断图片中随机裁剪出多个子图像,使得每个子图像至少包含一个标注;随机分配模块,用于将得到的所有子图像按预设比例随机分入训练集和验证集;图像增强模块,用于对所述训练集中的所有子图像进行随机旋转90度、垂直翻转和水平翻转操作,以实现图像增强。
进一步,所述模型构建模块所构建的Faster R-CNN模型包括:特征提取网络、区域候选网络、分类器和模型输出模块;所述特征提取网络使用ResNet101残差网络和在ImageNet上预先训练的参数选取特征,用于从训练集的各子图像中生成特征图;所述区域候选网络用于从特征图中提取边界框内的候选区域;所述分类器用于对所述候选区域内的潜在目标进行进一步分类,将其预测为四个不同标签中的一个:确认阳性细胞、可疑阳性细胞、易被当做前两者的阴性细胞或细胞碎片以及背景细胞;所述模型输出模块用于输出所有子图像的识别结果以及细胞评分。
进一步,所述模型测试和审核模块包括第二图像预处理模块、细胞水平测试模块和组织水平测试模块;其中,所述第二图像预处理模块用于对所述预测试集、内测试集和额外测试集数据进行裁剪、随机分配和图像增强,得到各原始图像对应的所有子图像;所述细胞水平测试模块用于采用所述预测试集对应的各子图像进行细胞水平测试,并得到细胞水平测试结果;所述组织水平测试模块用于采用所述内测试集和额外测试集对应的子图像数据依次进行细胞水平测试和组织水平测试,并将所有子图像融合为整张原始诊断图片,同时给出图片评分结果。
进一步,所述模型优化模块中确定的损失函数包括分类损失和边界框回归损失,所述分类损失用于衡量是否生成可靠的预测,包括用来平衡各类标注在数量上的差异的焦点损失;所述边界框回归损失用于衡量捕捉的区域是否精确。
本发明由于采取以上技术方案,其具有以下优点:
1.本发明所建立的尿细胞学诊断模型所用尿细胞学基于传统的Papanicoulaou制备流程和评分,HE染色,100倍光学显微镜下截取的诊断照片,这三种技术目前在各级医疗机构均可实现,因而本技术没有其他技术方面的壁垒。
2.本发明采用Faster-RCNN作为基本模型,训练所需的样本量较少同时无需标注所有细胞,标注时仅需对各诊断图片内的阳性细胞、可疑阳性细胞以及易被当做前两者的阴性细胞或细胞碎片进行标注,建立的过程相对简便。
3.本发明通过建立的Faster-RCNN模型自行捕捉的特征建立细胞评分和图片评分,评分结果与临床意义关联性强,并可以用于推断诊断的“金标准”手术病理结果。
4.本发明设置有多个测试集,可以进行细胞水平和/或组织水平的测试,且组织水平结果有细胞水平结果作为基础,故本系统的表现较为可靠。
因此,本发明可以广泛应用于尿细胞学识别领域。
附图说明
图1是本发明具体实施方式流程图;
图2是本发明模型原理和训练;
图3是本发明实施例在细胞水平的表现;
图4是本发明实施例中对组织水平的表现,图4(a)为内测试集测试结果,图4 (b)为额外测试集测试结果;
图5是本发明实施例中细胞评分和图片评分的分布,图5(a)是细胞评分结果,图5(b)是内测试集的评分结果,图5(c)是额外测试集的评分结果。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明提供的一种尿细胞学人工智能尿路上皮癌识别系统,需要克服以下技术难点,包括:
1、可供模型训练的样本量较少,存在未被标注的细胞;
2、样本中的图像为2D,细胞会有前后重叠;
3、样本中的细胞放大的程度有限,很多人为可以定义的特征均丢失;
4、Papanicoulaou评分没有客观的图像特征标准;
5、以手术病理作为最终评判“金标准”,从细胞学推断组织组织学有难度;
6、检测结果需要从临床角度可以解释,即输出的结果有临床意义。
因此,本发明提供的一种尿细胞学人工智能尿路上皮癌识别系统,其包括:
数据分类模块,用于对预先获取的尿细胞学数据进行分类,得到尿细胞学阳性数据集和尿细胞学阴性数据集,同时对尿细胞学阳性数据集进行随机分配,得到训练- 验证集和预测试集;数据分组模块,用于根据手术病理结果对预测试集和尿细胞学阴性数据集进行分组,得到测试集,该测试集包括内测试集和额外测试集;模型训练模块,用于采用训练-验证集对预先构建的Faster R-CNN模型进行训练,得到最终模型;模型测试和审核模块,用于分别采用预测试集和测试集对得到的最终模型进行细胞水平测试和/或组织水平测试;识别模块,用于基于测试和审核后的最终模型对待识别的尿细胞学数据进行识别,得到识别结果。
进一步,数据分类模块包括:数据获取模块,用于回顾性纳入单中心的尿细胞学数据,包括:尿细胞学诊断信息、诊断结果及诊断图片;其中,诊断信息包括患者性别,年龄,留尿时间这些在患者行尿细胞学检查时会得到的基本信息;诊断结果是尿细胞学是“阴性”或“阳性”,即是否存在肿瘤细胞的最终判断;第一数据分类模块,用于将确定或可疑存在肿瘤细胞的尿细胞学诊断图片划入初始尿细胞学阳性数据集,将阴性的尿细胞学诊断图片划入初始尿细胞学阴性数据集;数据筛除模块,用于对初始尿细胞学阴性数据集和初始尿细胞学阳性数据集中人工无法辨认的诊断图片和重复的诊断图片进行去除,得到尿细胞学阳性数据集和尿细胞学阴性数据集;数据标注模块,用于对尿细胞学阳性数据集进行标注,得到标注后的尿细胞学阳性数据集;数据分配模块,用于对标注后的尿细胞学阳性数据集按8:1随机分入训练-验证集和预测试集。
进一步,数据标注模块用于根据Papanicoulaou评分标准对尿细胞学阳性数据集中各诊断图片内的阳性细胞、可疑阳性细胞以及易被当做前两者的阴性细胞或细胞碎片进行标注。其中,对诊断图片中的细胞进行标注时,无需采用盲法,且每个标注仅选取一个细胞即可,若存在不能单独标注的目标细胞,则进行整块标注。易被当做前两者的阴性细胞或细胞碎片是指与阳性细胞和可疑阳性细胞的相似度达到预设阈值的阴性细胞或细胞碎片。
进一步,数据分组模块包括:数据匹配模块,用于匹配预测试集以及尿细胞学阴性数据集中患者在留取尿细胞学之后的手术病理结果,按手术病理结果进一步将预测试集中的尿细胞学阳性数据集和尿细胞学阴性数据集分为:真阳性数据集、假阳性数据集、真阴性数据集和假阴性数据集。其中,真阳性数据集包含尿细胞学诊断结果阳性且手术病理结果阳性的诊断图片;假阳性数据集包含尿细胞学诊断结果阳性且手术病理结果阴性的诊断图片;真阴性数据集包含尿细胞学诊断结果阴性且手术病理结果阴性的诊断图片;假阴性数据集包含尿细胞学诊断结果阴性且手术病理结果阳性的诊断图片。第二数据分类模块,用于将真阳性数据集和真阴性数据集合并为内测试集,假阴性数据集作为额外测试集。其中,预测试集用于进行细胞水平测试,内测试集和额外测试集用于进行组织水平测试。
进一步,模型训练模块包括:第一图像预处理模块,用于对训练-验证集中的各原始诊断图片进行预处理,并基于预处理后的原始诊断图片得到训练集和验证集;模型构建模块,用于建立Faster R-CNN模型,该模型的输入为训练集中的子图像,输出为子图像的识别结果、细胞评分结果;模型优化模块,用于确定损失函数,对Faster R-CNN 模型的模型参数进行优化;最终模型确定模块,用于基于确定的损失函数以及训练集对建立的Faster R-CNN模型进行训练优化,并基于验证集对模型进行验证,得到训练好的最终Faster R-CNN模型。
进一步,所述第一图像预处理模块包括:图像裁剪模块,用于按照预设分辨率从训练-验证集中的各原始诊断图像中随机裁剪出多个子图像,使得每个子图像至少包含一个标注;随机分配模块,用于将得到的所有子图像按预设比例(例如5:1)随机分入训练集和验证集;图像增强模块,用于对训练集中的所有子图像进行随机旋转90 度、垂直翻转和水平翻转操作,以实现图像增强。
进一步,如图2所示,模型构建模块所构建的Faster R-CNN模型由三个部分组成:特征提取网络、区域候选网络、分类器和模型输出模块。其中,特征提取网络使用ResNet101残差网络和在ImageNet上预先训练的参数选取特征,用于从训练集的各子图像中生成特征图;区域候选网络用于从特征图中提取边界框(bounding box)内的候选区域(region of interest);分类器用于对候选区域内的潜在目标进行进一步分类,将其预测为四个不同标签中的一个:确认阳性细胞、可疑阳性细胞、易被当做前两者的阴性细胞或细胞碎片以及背景细胞;所述模型输出模块用于用于输出所有子图像的识别结果以及细胞评分。
进一步,模型测试和审核模块包括第二图像预处理模块、细胞水平测试模块和组织水平测试模块;其中,第二图像预处理模块用于对所述预测试集、内测试集和额外测试集数据进行裁剪、随机分配和图像增强,得到各原始图像对应的所有子图像;细胞水平测试模块用于采用预测试集对应的各子图像进行细胞水平测试,并得到细胞水平测试结果;组织水平测试模块用于采用内测试集和额外测试集对应的子图像数据依次进行细胞水平测试和组织水平测试,并将所有子图像融合为整张原始诊断图片,同时给出图片评分结果。
其中,细胞评分指的是模型对细胞进行分类时给出的对分类为肯定阳性的概率,用于定量地反映该细胞为肿瘤的可能性。图片评分定义为整张图片中最高的细胞评分分数。因此,图片评分可以反映出图片中存在肿瘤细胞的最大可能性,与组织学阳性呈正相关。因此,图片评分越高,该患者患尿路上皮癌的可能性越高。良恶性区分度最大的图片评分值即为对尿路上皮癌预测的最佳临界值。
其中,细胞水平测试用于评价模型分辨肿瘤细胞的能力。此时,病理专科医师对最终模型输出的结果进行盲法下的审核,即再次采用盲法对内测试集和额外测试集进行标注,作为参照标准。标注内容为:1)未被模型认出的确定阳性细胞;2)被模型错误作为确定阳性细胞的阴性细胞。
组织水平测试用于评价模型预测手术病理为恶性的能力。对内测试集,参照标准为匹配的手术病理;对额外测试集,参照标准为细胞水平的审核在图片水平的结果。进行组织水平测试前需先进行细胞学水平测试,以证实其结果可靠。
进一步,模型优化模块中确定的损失函数包括分类损失和边界框回归损失,其中,分类损失用于衡量是否生成可靠的预测,此项中包括用来平衡各类标注在数量上的差异的焦点损失(focal loss);边界框回归损失用于衡量捕捉的区域是否精确;且分类损失函数和边界框回归损失函数在区域候选网络中第一次使用,并在分类器中进行第二次的精细调整。
进一步,模型优化模块采用Adam优化器。
实施例1
本实施例利用北京大学第一医院泌尿外科的尿细胞学结果进行了具体实施。
1、数据分类:回顾性检索得到了单中心的尿细胞学诊断信息诊断结果及诊断图片。如图1所示,其中,尿细胞学阳性数据集442例,累计475张图片;尿细胞学阴性数据集395例,累计411张图片。匹配手术资料后:真阳性数据集23例,累计31张图片;真阴性数据集62例,累计66张图;假阴性数据集333例,累计345张图片。
2、标注:一位20年经验的泌尿亚专业病理医生对尿细胞学阳性数据集进行标注。将排除7张无法识别图片和28张重复图片后,标注了441例,累计466张图片,共计 2964个细胞,其中1364个细胞背标为“确认阳性细胞”。
3、分组:训练-验证集有尿细胞学387例,累计411张图片;预测试集有尿细胞学54例,累计55张图片。内测试集有尿细胞学85例,累计98张图片。额外测试集有尿细胞学333例,累计345张图片。
4、模型训练:使用1953张子图累计2668个标注细胞建立了本系统,该系统训练到第48轮时,验证集的总体损失函数达到最低值1.6;验证集的分类精确度达到了最高值0.77,故最终选择第48轮时的模型作为最终模型。
5、模型测试和审核:
(1)细胞水平:由于仅标注了阳性图片,可求得细胞水平的灵敏度但无法求出特异度,故使用fROC曲线进行细胞水平测试的统计。在预测试集中,病理医生的灵敏度为27%,系统在29%灵敏度时每张子图中平均将1.8个细胞错误地识别为“确定阳性细胞”。在内测试集中,病理医生灵敏度为40%,系统在41%灵敏度时每张子图中平均将 0.89个细胞错误地识别为“确定阳性细胞”。在额外测试集中,在复核后有64张阴性图片被发现有确定阳性细胞,即假阴性。额外测试集细胞水平的表现曲线比前两个曲线靠左,即要更优于前两个集合上的表现。
(2)组织水平:绘制ROC曲线统计了组织水平的表现。内测试集曲线下面积为0.90,额外测试集曲线下面积为0.93。证识本系统在不同分布模式的数据中均有不错的表现。
6、结果解释:图4中可见,在三个数据集中,细胞评分越高,系统识别的准确性均越高。图5中可见,在内测试集和额外测试集中,手术病理为良性的图片集中在40~ 55图片分数段,手术病理为恶性的图片分布于分数较高的区间。由此可见,图片评分越高,该患者患尿路上皮癌的可能性越高,临床中可以由此对系统的结果进行解释。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

Claims (9)

1.一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于包括:
数据分类模块,用于对预先获取的尿细胞学数据进行分类,得到尿细胞学阳性数据集和尿细胞学阴性数据集,同时对尿细胞学阳性数据集进行随机分配,得到训练-验证集和预测试集;
数据分组模块,用于根据手术病理结果对预测试集和尿细胞学阴性数据集进行分组,得到测试集,该测试集包括内测试集和额外测试集;
模型训练模块,用于采用所述训练-验证集对预先构建的Faster R-CNN模型进行训练,得到最终模型;
模型测试和审核模块,用于分别采用所述预测试集和测试集对所述最终模型进行细胞水平测试和组织水平测试;
识别模块,用于基于测试和审核后的最终模型对待识别的尿细胞学数据进行识别,得到识别结果。
2.如权利要求1所述的一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于:所述数据分类模块包括:
数据获取模块,用于回顾性纳入单中心的尿细胞学数据,包括:尿细胞学诊断信息、诊断结果及诊断图片;
第一数据分类模块,用于将确定或可疑存在肿瘤细胞的尿细胞学诊断图片划入初始尿细胞学阳性数据集,将阴性的尿细胞学诊断图片划入初始尿细胞学阴性数据集;
数据筛除模块,用于对所述初始尿细胞学阴性数据集和初始尿细胞学阳性数据集中人工无法辨认的诊断图片和重复的诊断图片进行去除,得到尿细胞学阳性数据集和尿细胞学阴性数据集;
数据标注模块,用于对所述尿细胞学阳性数据集进行标注,得到标注后的尿细胞学阳性数据集;
数据分配模块,用于对标注后的尿细胞学阳性数据集按8:1随机分入训练-验证集和预测试集。
3.如权利要求1所述的一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于:所述数据标注模块对所述尿细胞学阳性数据集进行标注时,标注内容包括所述尿细胞学阳性数据集中各诊断图片内的阳性细胞、可疑阳性细胞以及与前两者相似度达到预设阈值的阴性细胞或细胞碎片。
4.如权利要求1所述的一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于:所述数据分组模块包括:数据匹配模块,用于按手术病理结果进一步将所述预测试集中的尿细胞学阳性数据集和尿细胞学阴性数据集分为:真阳性数据集、假阳性数据集、真阴性数据集和假阴性数据集;第二数据分类模块,用于将所述真阳性数据集和真阴性数据集合并为内测试集,所述假阴性数据集作为额外测试集。
5.如权利要求1所述的一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于:所述模型训练模块包括:第一图像预处理模块,用于对所述训练-验证集中的各原始诊断图片进行预处理,并基于预处理后的原始诊断图片得到训练集和验证集;模型构建模块,用于建立Faster R-CNN模型,该模型的输入为训练集中的子图像,输出为子图像的识别结果、细胞评分结果;模型优化模块,用于确定损失函数,对Faster R-CNN模型的模型参数进行优化;最终模型确定模块,用于基于确定的损失函数以及训练集对建立的Faster R-CNN模型进行训练优化,并基于验证集对模型进行验证,得到训练好的最终Faster R-CNN模型。
6.如权利要求5所述的一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于:所述第一图像预处理模块包括:图像裁剪模块,用于按照预设分辨率从所述训练-验证集中的各原始诊断图片中随机裁剪出多个子图像,使得每个子图像至少包含一个标注;随机分配模块,用于将得到的所有子图像按预设比例随机分入训练集和验证集;图像增强模块,用于对所述训练集中的所有子图像进行随机旋转90度、垂直翻转和水平翻转操作,以实现图像增强。
7.如权利要求5所述的一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于:所述模型构建模块所构建的Faster R-CNN模型包括:特征提取网络、区域候选网络、分类器和模型输出模块;
所述特征提取网络使用ResNet101残差网络和在ImageNet上预先训练的参数选取特征,用于从各子图像中生成特征图;
所述区域候选网络用于从特征图中提取边界框内的候选区域;
所述分类器用于对所述候选区域内的潜在目标进行进一步分类,将其预测为四个不同标签中的一个:确认阳性细胞、可疑阳性细胞、与前两者相似度达到预设阈值的阴性细胞或细胞碎片以及背景细胞;
所述模型输出模块用于用于输出所有子图像的识别结果以及细胞评分。
8.如权利要求5所述的一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于:所述模型优化模块中确定的损失函数包括分类损失和边界框回归损失,所述分类损失用于衡量是否生成可靠的预测,包括用来平衡各类标注在数量上的差异的焦点损失;所述边界框回归损失用于衡量捕捉的区域是否精确。
9.如权利要求4所述的一种尿细胞学人工智能尿路上皮癌识别系统,其特征在于:所述模型测试和审核模块包括第二图像预处理模块、细胞水平测试模块和组织水平测试模块;其中,第二图像预处理模块用于对所述预测试集、内测试集和额外测试集数据进行裁剪、随机分配和图像增强,得到各原始图像对应的所有子图像;细胞水平测试模块用于采用预测试集对应的各子图像进行细胞水平测试,并得到细胞水平测试结果;组织水平测试模块用于采用内测试集和额外测试集对应的子图像数据依次进行细胞水平测试和组织水平测试,并将所有子图像融合为整张原始诊断图片,同时给出图片评分结果。
CN202110493539.5A 2021-05-07 2021-05-07 一种尿细胞学人工智能尿路上皮癌识别系统 Active CN113222928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110493539.5A CN113222928B (zh) 2021-05-07 2021-05-07 一种尿细胞学人工智能尿路上皮癌识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110493539.5A CN113222928B (zh) 2021-05-07 2021-05-07 一种尿细胞学人工智能尿路上皮癌识别系统

Publications (2)

Publication Number Publication Date
CN113222928A true CN113222928A (zh) 2021-08-06
CN113222928B CN113222928B (zh) 2023-09-19

Family

ID=77091218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110493539.5A Active CN113222928B (zh) 2021-05-07 2021-05-07 一种尿细胞学人工智能尿路上皮癌识别系统

Country Status (1)

Country Link
CN (1) CN113222928B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037868A (zh) * 2021-11-04 2022-02-11 杭州医策科技有限公司 图像识别模型的生成方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030172043A1 (en) * 1998-05-01 2003-09-11 Isabelle Guyon Methods of identifying patterns in biological systems and uses thereof
DE102006008509A1 (de) * 2006-02-23 2007-08-02 Siemens Ag Verfahren und Vorrichtung zur verbesserten automatischen Detektion von Auffälligkeiten in medizinischen Bilddaten
CA2534871A1 (en) * 2006-02-15 2007-08-15 The Ohio State University Research Foundation Three-gene test to differentiate malignant from benign thyroid nodules
US20130094733A1 (en) * 2010-07-23 2013-04-18 Hirokazu Nosato Region segmented image data creating system and feature extracting system for histopathological images
US20180165810A1 (en) * 2016-12-13 2018-06-14 Shanghai Sixth People's Hospital Method of automatically detecting microaneurysm based on multi-sieving convolutional neural network
CN109300530A (zh) * 2018-08-08 2019-02-01 北京肿瘤医院 病理图片的识别方法及装置
CN111160135A (zh) * 2019-12-12 2020-05-15 太原理工大学 基于改进的Faster R-cnn的尿红细胞病变识别与统计方法和系统
CN111340128A (zh) * 2020-03-05 2020-06-26 上海市肺科医院(上海市职业病防治院) 一种肺癌转移性淋巴结病理图像识别系统及方法
CN111584006A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于机器学习策略的环形rna识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030172043A1 (en) * 1998-05-01 2003-09-11 Isabelle Guyon Methods of identifying patterns in biological systems and uses thereof
CA2534871A1 (en) * 2006-02-15 2007-08-15 The Ohio State University Research Foundation Three-gene test to differentiate malignant from benign thyroid nodules
DE102006008509A1 (de) * 2006-02-23 2007-08-02 Siemens Ag Verfahren und Vorrichtung zur verbesserten automatischen Detektion von Auffälligkeiten in medizinischen Bilddaten
US20130094733A1 (en) * 2010-07-23 2013-04-18 Hirokazu Nosato Region segmented image data creating system and feature extracting system for histopathological images
US20180165810A1 (en) * 2016-12-13 2018-06-14 Shanghai Sixth People's Hospital Method of automatically detecting microaneurysm based on multi-sieving convolutional neural network
CN109300530A (zh) * 2018-08-08 2019-02-01 北京肿瘤医院 病理图片的识别方法及装置
CN111160135A (zh) * 2019-12-12 2020-05-15 太原理工大学 基于改进的Faster R-cnn的尿红细胞病变识别与统计方法和系统
CN111340128A (zh) * 2020-03-05 2020-06-26 上海市肺科医院(上海市职业病防治院) 一种肺癌转移性淋巴结病理图像识别系统及方法
CN111584006A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于机器学习策略的环形rna识别方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
LIU, YX ET AL.: "Patient specific tumor growth prediction using multimodal images", MEDICAL IMAGE ANALYSIS, vol. 18, no. 3, pages 555 - 566, XP055229740, DOI: 10.1016/j.media.2014.02.005 *
MICHAEL S. LANDAU ET AL.: "Artificial intelligence in cytopathology: a review of the literature and overview of commercial landscape", JOURNAL OF THE AMERICAN SOCIETY OF CYTOPATHOLOGY, vol. 08, no. 04, pages 230 - 241 *
ZHIHUI ZHANG ET AL.: "Developing a Machine Learning Algorithm for Identifying Abnormal Urothelial Cells: A Feasibility Study", ACTA CYTOLOGICA, vol. 65, no. 04, pages 1 - 7 *
张福玲等: "应用于CT图像肺结节检测的深度学习方法综述", 计算机工程与应用, vol. 56, no. 13, pages 20 - 32 *
李爽等: "人工智能在内镜诊断上消化道早癌领域的研究进展", 实用肿瘤学杂志, vol. 34, no. 05, pages 471 - 475 *
李青润等: "影像组学模型对自发性脑出血早期血肿扩大的预测及与常规影像征象的比较", 中国医学计算机成像杂志, vol. 27, no. 02, pages 91 - 96 *
萧艳: "癌细胞病理诊断可能出错吗", Retrieved from the Internet <URL:https://m.baidu.com/bh/m/detail/qr_7823364669703545382> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037868A (zh) * 2021-11-04 2022-02-11 杭州医策科技有限公司 图像识别模型的生成方法及装置
CN114037868B (zh) * 2021-11-04 2022-07-01 杭州医策科技有限公司 图像识别模型的生成方法及装置

Also Published As

Publication number Publication date
CN113222928B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
US11657503B2 (en) Computer scoring based on primary stain and immunohistochemistry images related application data
US11526984B2 (en) Method of computing tumor spatial and inter-marker heterogeneity
US11842483B2 (en) Systems for cell shape estimation
CN105027165B (zh) 用于数字完整载片的自动化评分的基于组织对象的机器学习系统
JP7197584B2 (ja) デジタル病理学分析結果の格納および読み出し方法
JP2018502279A (ja) 組織学画像中の核の分類
US20220351379A1 (en) Non-tumor segmentation to support tumor detection and analysis
JP5469070B2 (ja) 生物検体を処理するための複数の波長を用いる方法およびシステム
US20220351860A1 (en) Federated learning system for training machine learning algorithms and maintaining patient privacy
CN112990214A (zh) 一种医学图像特征识别预测模型
CN113261012B (zh) 处理图像的方法、装置及系统
CN114387596A (zh) 细胞病理涂片自动判读系统
CN113222928B (zh) 一种尿细胞学人工智能尿路上皮癌识别系统
Taher et al. Identification of lung cancer based on shape and color
Taher et al. Morphology analysis of sputum color images for early lung cancer diagnosis
Koss The application of PAPNET to diagnostic cytology
CN114821046B (zh) 基于细胞图像进行细胞检测和细胞核分割的方法及系统
Aiswarya et al. CANCER DETECTION USING HISTOPATHOLOGY IMAGES

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant