CN115861719B - 一种可迁移细胞识别工具 - Google Patents

一种可迁移细胞识别工具 Download PDF

Info

Publication number
CN115861719B
CN115861719B CN202310152533.0A CN202310152533A CN115861719B CN 115861719 B CN115861719 B CN 115861719B CN 202310152533 A CN202310152533 A CN 202310152533A CN 115861719 B CN115861719 B CN 115861719B
Authority
CN
China
Prior art keywords
cell
training
model
target
yolo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310152533.0A
Other languages
English (en)
Other versions
CN115861719A (zh
Inventor
吴华君
邓觅
郑小琪
朱瀚文
武建博
蔡康文
蒋文杰
庞伟雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cancer Hospital
Original Assignee
Beijing Cancer Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cancer Hospital filed Critical Beijing Cancer Hospital
Priority to CN202310152533.0A priority Critical patent/CN115861719B/zh
Publication of CN115861719A publication Critical patent/CN115861719A/zh
Application granted granted Critical
Publication of CN115861719B publication Critical patent/CN115861719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种可迁移细胞识别工具,该工具包括细胞扫描器和训练模块,细胞扫描器包括预训练模型和训练模型;训练模块包括基于HE染色图像的目标检测单元、基于指定类型目标的检测单元和基于指定类型目标的分类单元;所述的基于HE染色图像的目标检测单元用于利用HE染色图片针对YOLO在细胞领域的目标识别进行性能训练,并且对比不同参数下的模型水平;所述的基于指定类型目标的检测单元用于在焦亡细胞识别任务中,利用焦亡数据对所述的YOLOv5模型进行训练;所述的基于指定类型目标的分类单元用于训练Resnet针对特定细胞类型进行识别,并赋予YOLO识别的每个细胞检测框对应的类别。

Description

一种可迁移细胞识别工具
技术领域
本发明涉及细胞识别技术领域,具体涉及一种基于YOLO与Resnet的高精度可迁移细胞识别工具。
背景技术
细胞凋亡是一种“干净”的死亡方式,通常不会引起较强的炎症反应;而细胞坏死则相反,是一种相对较“脏”的死亡方式。免疫治疗的成功在很大程度上依赖于瘤内浸润CD8+ T细胞的高活性,而细胞焦亡导致细胞膜破裂引起的细胞内容物释放会引起细胞因子、趋化因子和其他炎症因子的聚集,从而招募CD8+T细胞、NK细胞在内的免疫细胞至肿瘤部位,即细胞的焦亡能够影响免疫治疗的作用。在本申请中,定义焦亡过程中的细胞为焦亡细胞。
细胞焦亡和其它类型的细胞死亡方式在形态上很容易区分,但目前缺乏有效的图像识别工具。本发明希望针对细胞类图片建立识别模型与流程,在研究药物对焦亡细胞生成的影响过程中,更精准的通过焦亡细胞形态学进行统计计算及后续分析。
同时除焦亡细胞识别问题之外,针对不同的临床任务,医院中许多科室都有对特定类型细胞识别与统计的需求。针对不同类型的细胞很难生成泛用性强的模型。在此情形下,针对细胞结构特征的高度相似性与细胞分类的低复杂度,本发明开发了CellScanner,基于HE染色数据预训练生成细胞识别模型,并后续针对不同任务进行快速微调,达到准确识别的效果。
因此,本发明旨在建立在线预测与微调流程,提供在线识别服务使非专业人士也能快速上手使用本发明的模型,同时针对不同来源或批次的数据提供标签修改与在线微调功能,大幅增加标注效率;并针对焦亡细胞将本发明的方案实例化,展示本发明的模型在(但不限于)焦亡细胞识别任务上的效果。
现有技术中识别焦亡细胞的方法包括以下几种:
一、通过形态变化识别焦亡细胞:
(1).通过扫描电镜观察细胞形态
(2). TUNEL染色
(3). 免疫荧光染色(GSDMD/GSDME)
二、检测焦亡相关蛋白识别焦亡细胞:
(1). q-PCR/Western Blot方法检测焦亡相关基因或蛋白的表达水平;
(2).ELISA试剂盒检测IL-1β、IL-18等炎症因子的水平;
(3).MTT法测定细胞活力;
三、基于SO-YOLO的白血细胞检测模型:
(1).利用傅里叶叠层显微成像技术获得高分辨率病理学图片;
(2).利用SO-YOLO模型对病理学图像中的血细胞进行识别。
现有技术的缺陷包括:
一、通过形态变化识别焦亡细胞的缺陷:
人工对焦亡细胞进行识别需要对高倍率下的高细胞密度组织切片进行检测,对观察者要求高并需要耗费大量时间,且结果的稳定性较低。
二、检测焦亡相关蛋白识别焦亡细胞的缺陷:
不同的焦亡细胞方法有不同的流程,但有着高复杂度的共同点,需要大量的时间对样本进行处理。处理完成后仍需通过不同的检测方法对特定蛋白质进行检测来进行焦亡细胞的鉴定。
三、基于YOLO的细胞检测模型的缺陷:
YOLO的开发主要用于目标检测,而在传统意义的目标检测任务中识别的对象范围极大(如飞机与动物等差异较大的对象),因此针对形态学上较为接近的细胞进行识别任务时准确率较低。且在焦亡细胞识别任务中,焦亡细胞与凋亡细胞的形态学上有一定程度上的包含关系,加大了识别的难度。且现有深度学习在预测的数据上有特定类型的要求,无法满足广泛用户的需要,普通YOLO模型通过小规模数据训练困难。
本申请所要解决的技术问题包括:
一、 人工识别速度慢且片面与生物化学方法成本较高。
本申请通过深度学习方法,利用公共数据集与人工标注数据集结合训练模型,快速对图像中的细胞进行识别。对原始图像在特定倍率下进行倍率切片,对每个切片进行识别,达到更加全面的识别效果。
二、 传统YOLO模型识别不准与对数据要求的局限性。
修改传统YOLO模型使用中间变量直接预测输出类别信息的模式,在传统YOLO框架中建立独立的预测模块提高识别任务的准确性。利用Teacher Forcing技巧对预测模块进行训练提高收敛速度于准确率。且利用分离的轻量预测模块,通过小数据样本结合预先准备的微调数据达到高效迁移的效果,提供网页端微调服务,供用户自行选择训练数据在线进行预测训练特定类型参数。
三、 传统YOLO模型与ResNet模型训练时间长。
模型参数从初始化状态进行训练达到基本收敛的情况一般需要较长的轮数,但针对各种病理学切片而言,细胞基本上具有较为接近的特征与轮廓,因此本申请认为,可以通过公共数据集对模型进行预训练,并通过适当的数据增强达到对不同种类病理学图片的识别效果。
本申请中部分缩略语和关键术语的定义为:
可迁移细胞识别:
利用预训练细胞识别模型与提供的预测标签达到针对特定细胞类型数据分析的高效迁移效果。
在线微调:
提供在线预测服务,为小数据量任务与特定类别细胞识别任务提供便捷。
焦亡细胞:
处于焦亡过程中的细胞。
发明内容
本发明旨在提供一种基于YOLO与ResNet的高精度可迁移细胞识别工具,包括细胞扫描器和训练模块,所述的细胞扫描器包括预训练模型和训练模型;所述的预训练模型是YOLOv5基于H&E染色数据集训练得到的细胞形态学检测器;所述的训练模型是结合YOLOv5和ResNet的精准焦亡细胞检测器;所述的训练模型用于基于H&E染色预训练的YOLOv5骨干网络,再基于焦亡细胞图像数据进行训练进一步得到的焦亡细胞图像数据的YOLOv5模型,所述的YOLOv5模型得到的焦亡细胞检测结果由ResNet进行分类检测,最终得到精准的焦亡细胞识别结果;所述的训练模块包括基于HE染色图像的目标检测单元、基于指定类型目标的检测单元和基于指定类型目标的分类单元;所述的基于HE染色图像的目标检测单元用于利用HE染色图片针对YOLO在细胞领域的目标识别进行性能训练,并且对比不同参数下的模型水平;所述的基于指定类型目标的检测单元用于在焦亡细胞识别任务中,利用焦亡数据对所述的YOLOv5模型进行训练;所述的基于指定类型目标的分类单元用于训练ResNet针对特定细胞类型进行识别,并赋予YOLO识别的每个细胞检测框对应的类别。
优选地,所述的HE染色图片为Monuseg公共数据集提供的HE染色图片。
优选地,所述的不同参数下的模型水平包括但不限于模型参数大小、训练中超参数与数据增强水平等。
优选地,所述的焦亡数据为人工标注的焦亡数据。
优选地,所述的基于指定类型目标的检测单元首先利用全图对YOLO模型参数进行训练,提取特征识别细胞的大小与位置。
优选地,通过基于HE染色图像训练出的基础模型能够快速获得YOLO指定目标训练的数据并进行训练,针对特殊细胞类型提升识别的准确率。
优选地,所述的基于指定类型目标的分类单元在训练过程中使用根据标注提取的焦亡细胞切片利用ResNet对细胞切片进行二分类任务预测,确认每一块子图的类别,完成预测任务。
优选地,所述的基于指定类型目标的分类单元在预测过程中针对YOLO模型提取的子图进行预测并最终整合结果,达到了比仅用YOLO目标同时完成多任务时更高的准确率。
优选地,所述细胞扫描器的训练分为前期的H&E预训练部分和后期的焦亡细胞识别训练部分。
优选地,所述H&E预训练部分的训练步骤为:使用H&E图像数据对YOLOv5模型进行20000轮的预训练,得到细胞识别的预训练模型,同时也得到了细胞形态学的特征提取的骨干网络。
优选地,所述焦亡细胞识别训练部分的训练步骤为:使用焦亡细胞数据集,基于H&E染色的预训练进行5000轮的微调训练,得到焦亡细胞形态学的精准检测器;同时使用ResNet数据集对ResNet进行训练,使用对正常细胞采样的方式使得正负样本均衡来训练ResNet分类器,采样方式为在数据集中所有的正常细胞中随机抽取与焦亡细胞数量个数一致的细胞,最终得到焦亡细胞形态学的精准检测器和焦亡细胞形态学的精准分类器。
优选地,所述细胞扫描器的工作步骤为:第一步、将图像数据输入到所述细胞扫描器的细胞检测器中,在置信度为0.5下检测得到所有细胞;第二步、将检测到的所有细胞的切片使用所述细胞扫描器的分类器进行分类检测。
优选地,所述的基于YOLO与ResNet的高精度可迁移细胞识别工具的在线使用框架流程包括以下步骤:
A、上传数据:上传用户数据,提交单张图片或同时提交多张图片进行预测;
B、递交预测任务:递交任务通过指定的模型完成预测任务,默认情况下使用预训练模型进行训练,后续用户执行微调后能够选择个人模型进行训练获取更精准的预测结果;
C、预测结果生成:在预测完成后,模型将调用后端的函数产生预测结果,包含细胞预测结果图、细胞数量统计、细胞尺寸对比和细胞密度;
D、模型微调:若产生的结果不够准确,用户能够选择图片作为微调训练数据,并在网页上对label进行手动矫正;最终微调后的模型将保存于个人的目录中以供使用和下载,在递交预测任务时能够选择模型参数使用。
有益效果
与现有技术相比,本发明所述的基于YOLO与ResNet的高精度可迁移细胞识别工具的有益效果是:
一、 模型参数训练——高数据利用率
本发明所述的模型同时利用三种不同数据进行训练,对不同阶段的模型在不同数据上学习不同特征。首先利用目标识别通用场景数据训练预训练泛化模型,学习目标框与物体概念。其次针对病理学图片,即组织切片进行针对性训练,针对性学习细胞位置特征。最后根据特定细胞类型的识别任务(可为用户指定),利用少量特定类型数据和预先提供的细胞数据进行微调,达到高分类准确率。
二、 高效的标注辅助能力
通过HE染色的预训练模型参数,用户能够直接对不同批次的细胞图像进行预测,并能够在线修改标签,给临床非专业编程人群提供了极大地便利。
通过HE染色数据训练出的模型参数已经能以极高的准确率识别细胞,在焦亡细胞类别能够识别部分细胞与细胞核组织,效果显著,为标注提供的便利是毋庸置疑的。
三、 高模型迁移潜力
区别于传统的YOLO模型,本发明将模型进行模块化,同时利用多种数据集训练了选框模块与预测模块并在预测中结合。得益于模块的分离,在针对不同任务的实际场景下提供较为少量的微调数据即可对模型的预测模块进行任务迁移,能够更加灵活的使用于细胞识别场景的不同人物,使得解决实际的临床问题更加简单。
如图9所示的模型训练进度中,图9所示的上方曲线(曲线1和曲线2)为mAP0.5值,下方两曲线(曲线3和曲线4)为mAP0.5:0.95值,浅色曲线(曲线2和曲线4)为初始化参数,深色曲线(曲线1和曲线3)为预训练参数。
具体来说,图9中,上方两曲线(曲线1和曲线2)为mAP0.5结果,下方两曲线(曲线3和曲线4)为mAP0.5:0.95结果,其中每组中的深色曲线(曲线1和曲线3)为根据预训练模型为默认参数训练的结果,浅色曲线(曲线2和曲线4)为随机参数为默认参数的训练结果。纵坐标为准确率指标,横坐标为训练迭代轮数,其中坐标尺度每十轮记为图中的一个点,即500代表第5000轮的结果。(mAP:mean Average Precision,即每类细胞准确率的均值;mAP0.5:iou,即交兵比的阈值为0.5时的每类准确率的均值;mAP0.5:0.95:iou从0.5到0.95以0.05为分段得到的所有结果的均值。
图10是图9中前60次迭代放大细节图。图10中,上方两曲线(曲线1和曲线2)为mAP0.5结果,下方两曲线(曲线3和曲线4)为mAP0.5:0.95结果,其中每组中的深色曲线(曲线1和曲线3)为根据预训练模型为默认参数训练的结果,浅色曲线(曲线2和曲线4)为随机参数为默认参数的训练结果。纵坐标为准确率指标,横坐标为训练迭代轮数。(mAP:meanAverage Precision,即每类细胞准确率的均值;mAP0.5:iou,即交兵比的阈值为0.5时的每类准确率的均值;mAP0.5:0.95:iou从0.5到0.95以0.05为分段得到的所有结果的均值。
在图9中,使用预训练参数与随机参数训练模型的差异并不明显,在图10中则清晰展示出了使用预训练参数训练模型能够高效的提升训练效果,更快的收敛,减少训练轮数。
从训练速度可以看出,在两种mAP标准下,经过预训练的模型都能够更快的达到基本收敛的状态,证明了HE预训练在迁移模型上有显著的功效。
四、 高应用灵活性
基于python+django建立了可视化用户运用界面,包含焦亡细胞识别基础模型预测与统计做图功能,以供用户直观获取所需的统计信息。针对可能出现的一些预测错误,网页同时提供了在线修改标签的功能,大幅减少用户所需要用于修改标签的各类工具的安装工作。同时在批次效应过于明显时,能够针对用户选择的数据提供微调功能,生成属于个人的模型参数并用于后续预测,提高准确性于运用的灵活性。
五、 高识别准确率
在与训练数据独立的测试数据集上,本申请对十种不同配置大小的模型进行了测试,如下表所示。
Figure SMS_1
能够看出使用resnet进行分类的模型准确率对比仅用yolo模型的准确率在不同指标上明显更高。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的具体实施方式一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明所述的基于YOLO与ResNet的高精度可迁移细胞识别工具的在线使用框架流程示意图。
图2是单样本细胞比例图。
图3是多样本细胞比例图。
图4是单样本细胞大小图。
图5是多样本细胞大小图。
图6是单样本有效分数图。
图7是多样本有效分数图。
图8是本申请的验证结果示意图。
图9是模型训练进度完整示意图。
图10是模型训练进展部分示意图(前60轮)。
具体实施方式
在下文中更详细地描述了本发明以有助于对本发明的理解。
本申请以yolo与resnet为基点进行结合创新,旨在建立能够灵活用于各医学成像领域的任务的通用基础模型。
本申请的训练过程分为三个部分:基于HE染色图像的目标检测、基于指定类型细胞的目标检测与指定类型细胞的细胞分类任务。在本申请中指定类型细胞以焦亡细胞为主要研究对象。
本发明所述的基于YOLO与ResNet的高精度可迁移细胞识别工具包括细胞扫描器(CellScanner)的识别框架和训练模块,所述的细胞扫描器包括预训练模型和训练模型;所述的预训练模型是YOLOv5基于H&E染色数据集训练得到的细胞形态学检测器;所述的训练模型是结合YOLOv5和RESNET的精准焦亡细胞检测器;所述的训练模型用于基于H&E染色预训练的YOLOv5骨干网络参数,再基于指定类型图像数据进行训练进一步得到的指定类型细胞图像数据的YOLOv5模型(包括但不限于焦亡细胞识别工作),所述的YOLOv5模型得到的指定类型细胞检测结果由ResNet进行分类检测,最终得到精准的细胞识别结果;所述的训练模块包括基于HE染色图像的目标检测单元、基于指定类型目标的检测单元和基于指定类型目标的分类单元;所述的基于HE染色图像的目标检测单元用于利用HE染色图片针对YOLO在细胞领域的目标识别进行性能训练,并且对比不同参数下的模型水平;所述的基于指定类型目标的检测单元用于在指定类型细胞识别任务中,利用指定类型细胞数据对所述的YOLOv5模型进行训练;所述的基于指定类型目标的分类单元用于训练Resnet针对特定细胞类型进行识别,并赋予YOLO识别的每个细胞检测框对应的类别。
优选地,所述的HE染色图片为Monuseg公共数据集提供的HE染色图片。
优选地,所述的不同参数下的模型水平包括但不限于模型参数大小、训练中超参数与数据增强水平等。
优选地,所述的焦亡数据为人工标注的焦亡数据。
优选地,所述的基于指定类型目标的检测单元首先利用全图对YOLO模型参数进行训练,提取特征识别细胞的大小与位置。
优选地,通过基于HE染色图像训练出的基础模型能够快速获得YOLO指定目标训练的数据并进行训练,针对特殊细胞类型提升识别的准确率。
优选地,所述的基于指定类型目标的分类单元在训练过程中使用根据标注提取的焦亡细胞切片利用ResNet对细胞切片进行二分类任务预测,确认每一块子图的类别,完成预测任务。
优选地,所述的基于指定类型目标的分类单元在预测过程中针对YOLO模型提取的子图进行预测并最终整合结果,达到了比仅用YOLO目标同时完成多任务时更高的准确率。
在一个具体实施例中,本发明的研究对象包括:
焦亡细胞数据:
焦亡细胞的图像数据来自于北京大学肿瘤医院2021年11月-2022年9月临床实验结果。此焦亡细胞图像数据是根据不同的药物处理方式得到的成像数据,随后由一名高年资医师对四名研究生和四名本科生进行焦亡细胞形态学的辨别指导,再由四名研究生和本科生对焦亡细胞图像数据使用labelme进行图像的标注,最后数据汇总至高年资医师对标注结果进行检验。最终获得358张具有不同批次效应(不同拍摄尺度、不同拍摄方法、不同的药物处理)的焦亡细胞数据集,本申请将焦亡细胞数据集分为焦亡细胞识别训练集(181张)、焦亡细胞识别验证集(51张)和焦亡细胞识别预测集(26张),比例约为7:2:1。同时,本申请将三个焦亡细胞数据集中对应的所有细胞裁切下来作为三个ResNet的数据集。
焦亡细胞独立测试集:
为了验证模型的鲁棒性,联合北京大学肿瘤医院,在训练数据之外,独立制作了一组焦亡细胞图像数据集,共108张,八种药物处理,其中Ctrl组8张、CP5组19张、H2.5CP5组19张、H5组9张、CP2.5组20张、H2.5组8张、HCP5组10张、HCP2.5组15张。且与之前用于训练的数据集进行同样流程的人工标注,用于后续模型的测试。
HE染色数据:
H&E染色的预训练数据集来自公共数据集,该数据集由N. Kumar等人发表在Monuseg(https://monuseg.grand-challenge.org),本申请将该预训练数据集分为H&E训练集(26张)、H&E验证集(8张)和H&E预测集(3张)。
模型构建的具体过程为:
图像标记:由一名高年资医师对四名研究生和四名本科生进行焦亡细胞形态学的辨别指导,再由四名研究生使用斯坦福大学开发的labelme标注工具进行标注,该标注工具能够在线和离线使用,可标注矩形、圆、多边形、点、线等多种类型标注,最后数据汇总至高年资医师对标注结果进行检验。
模型架构:本申请将YOLOv5与RESNET整合开发了CellScanner,CellScanner分为预训练模型和训练模型两个部分。CellScanner预训练模型是YOLOv5基于H&E染色数据集训练得到的细胞形态学检测器,这一系统(预训练模型)将极大程度地便利后续的人工标准工作,同时也获得了细胞形态学的特征提取骨干网络。CellScanner训练模型是结合YOLOv5和RESNET的精准焦亡细胞检测器:基于H&E染色预训练的YOLOv5骨干网络,再基于焦亡细胞图像数据进行训练进一步得到的焦亡细胞图像数据的YOLOv5模型,此模型得到的焦亡细胞检测结果由ResNet进行分类检测,最终得到精准的焦亡细胞识别结果。
模型训练:CellScanner是一个基于预训练的模型架构,本申请使用H&E图像数据进行预训练,使得本申请的模型在进行之后的识别任务时,只需要进行少数轮次的微调训练便可以获得很好的结果。CellScanner的训练分为前期的H&E预训练部分和后期的少轮次的焦亡细胞识别训练部分。H&E预训练部分训练步骤为:使用H&E图像数据对YOLOv5模型进行20000轮的预训练,得到细胞识别的预训练模型,此模型能够较为精准地识别出细胞,这使得后续在解决其他细胞标准时能够极大地减少人工成本,同时也得到了细胞形态学的特征提取的骨干网络。CellScanner的焦亡细胞识别训练部分训练步骤为:使用焦亡细胞数据集,基于H&E染色的预训练进行5000轮的微调训练,得到焦亡细胞形态学的精准检测器。同时使用ResNet数据集对ResNet进行训练,以往的工作对于细胞分类往往达不到很好的结果很大程度上是由于细胞的正负样本不平衡导致的,且本工作的各个数据中正常细胞数量都远大于焦亡细胞的数量,故本申请使用了对正常细胞采样的方式使得正负样本均衡来训练ResNet分类器,采样方式为在数据集中所有的正常细胞中随机抽取与焦亡细胞数量个数一致的细胞。最终得到焦亡细胞形态学的精准检测器和焦亡细胞形态学的精准分类器。模型工作步骤为:第一步将图像数据输入到CellScanner的细胞检测器中在较高置信度(置信度为0.5)下检测得到所有细胞;第二步将检测到的所有细胞的切片使用CellScanner的分类器进行分类检测。
模型在线使用框架:
如图1所示,所述的基于YOLO与Resnet的高精度可迁移细胞识别工具的在线使用框架流程包括以下步骤:
A、上传数据:上传用户数据,可以提交单张图片或同时提交多张图片进行预测;
B、递交预测任务:递交任务通过指定模型完成预测任务,默认情况下使用预训练模型进行训练,后续用户执行微调后能够选择个人模型进行训练获取更精准的预测结果;
C、预测结果生成:在预测完成后,模型将调用后端的函数产生预测结果,包含细胞预测结果图、细胞数量统计、细胞尺寸对比和细胞密度等统计量。
D、模型微调:若产生的结果不够准确,用户可以选择图片作为微调训练数据,并在网页上对label进行手动矫正。最终微调后的模型将保存于个人的目录中以供使用和下载,在递交预测任务时可以选择模型参数使用。
结果展示:
本申请所述的基于YOLO与Resnet的高精度可迁移细胞识别工具在预测结果图中展示结果。在预测结果图中,粉色框代表焦亡细胞,灰色框代表正常细胞,绿色框代表被resnet矫正后的结果(其余细胞yolo与res预测一致,使用二分类L大小yolo预测)。粉色线段代表焦亡细胞周围特定倍数半径内的正常细胞数量,用于展示细胞密度和后续计算有效分数。
细胞比例:
图2所示的饼图中分为0-1两类,1类占比6.9%,0类占比93.1%。图3中展示了四种处理多个样本的结果,其中每个boxplot代表一种处理多个样本的焦亡细胞类别占比。
图2中,lab_0与lab_1为两个类别名称示例(即lab_0表示0类,lab_1表示1类),图2的饼图展示了每个类别的占比。
图3中,横坐标表示不同实验组的名称(如CP2.5为一组包含多张图片数据),纵坐标表示焦亡细胞除以正常细胞的比值。图中每个箱线图中的每个点代表某组实验中的一张图片数据。
细胞大小:
图4所示的小提琴图代表单样本中细胞大小的尺寸,单样本中细胞大小为以长宽在全图中的比例为边长计算的面积。图5中细胞大小为边长计算后除以正常细胞的平均面积后的结果,以消除图片尺寸带来的差距。图5中包含四种处理、两种类别的细胞尺寸大小。能明显看出焦亡细胞的尺寸相较于正常细胞更大。
图4中,横坐标表示类别,纵坐标表示细胞大小,长宽都以图像中的占比为基准,两个小提琴图分别代表不同类别细胞的大小分布,图片上方标签表示lab_0对比lab_1的平均大小比值。
图5为图4的多实验版本,图5中,横坐标代表不同实验,其中每组实验左侧为lab_0,右侧为lab_1。
有效分数:
图6为有效分数图,横坐标为计算有效分数的半径,纵坐标为有效分数值。
图7为图6的多实验版本,不同线段代表左上方不同的实验。
图6所示的折线图原点分别代表半径为x倍焦亡细胞平均半径时计算得到的有效分数,用于描述焦亡细胞周围的细胞聚集情况。折线分别计算了2、4、6、8倍情况下的焦亡细胞有效分数。图7中的阴影区域代表该颜色处理下的所有样本有效分数范围。
图8为模型参数与准确率关系图。图8中,横坐标代表模型参数(经过log2变换),纵坐标为mAP0.5的结果。原点大小对应模型的参数大小。
如图8所示,在独立的19张验证结果中,本申请的5模型在IoU取0.5的情况下获得了接近0.98的成绩,相较于参数更多的yolov5X模型高出超过0.05。
优选地,所述的细胞扫描器同时利用三种不同数据进行训练,对不同阶段的模型在不同数据上学习不同特征;首先利用目标识别通用场景数据训练预训练泛化模型,学习目标框与物体概念;其次针对病理学图片,即组织切片进行针对性训练,针对性学习细胞位置特征;最后根据特定细胞类型的识别任务(可为用户指定),利用少量特定类型数据和预先提供的细胞数据进行微调,达到高分类准确率。
优选地,通过HE染色的预训练模型参数,用户能够直接对不同批次的细胞图像进行预测,并能够在线修改标签,给临床非专业编程人群提供了极大地便利。
优选地,通过HE染色数据训练出的模型参数能识别细胞,在焦亡细胞类别能够识别细胞与细胞核组织。
优选地,所述的基于YOLO与Resnet的高精度可迁移细胞识别工具将模型进行模块化,同时利用多种数据集训练了选框模块与预测模块并在预测中结合;得益于模块的分离,在针对不同任务的实际场景下提供微调数据即可对预测模块进行任务迁移,能够更加灵活的使用于细胞识别场景的不同人物,使得解决实际的临床问题更加简单。
优选地,所述的基于YOLO与Resnet的高精度可迁移细胞识别工具基于python+django建立了可视化用户运用界面,包含焦亡细胞识别基础模型预测与统计做图功能,以供用户直观获取所需的统计信息;同时通过网页提供了在线修改标签的功能,大幅减少用户所需要用于修改标签的各类工具的安装工作。同时在批次效应过于明显时,能够针对用户选择的数据提供微调功能,生成属于个人的模型参数并用于后续预测,提高准确性于运用的灵活性。
本发明通过yolov5+resnet的结构完成了指定类型(细胞焦亡)的细胞分割与识别任务。主要以识别细胞焦亡为例,但本发明所述工具的作用范围不仅限于焦亡识别而同时包含各类细胞的识别与分类任务,研究与临床应用的探索表明,识别中心母细胞同样适用。
本申请在研究过程中采用的yolo以yolov5为主体、resnet以resnet34为主体,而更换yolo版本以及分类模块resnet为其他模型也具有同样的效果,可以做为替代方案。
优选地,增加resnet的输入通道,以例如unet输出的语义分割背景为一个通道为输入叠加进入resnet能达到同样的效果。
本发明的关键技术点包括:
1、本发明通过yolov5+resnet的结构完成了指定类型(细胞焦亡)的细胞分割与识别任务。主要以识别细胞焦亡为例,且主要贡献为研究了不同模型与结构对细胞识别的影响,开发了目标识别+分类双模块结构。
2、本发明为用户提供了便捷的前段研究功能。在提供给用户在线预测功能的同时,也开发了结合用户在线修改与快速微调的功能,针对用户数据定制模型共后续研究使用。
以上描述了本发明优选实施方式,然其并非用以限定本发明。本领域技术人员对在此公开的实施方案可进行并不偏离本发明范畴和精神的改进和变化。

Claims (8)

1.一种基于YOLO与ResNet的可迁移细胞识别系统,其特征在于,所述的可迁移细胞识别系统包括细胞扫描器和训练模块,
所述的细胞扫描器包括预训练模型和训练模型;
所述的预训练模型是YOLOv5基于H&E染色数据集训练得到的细胞形态学检测器;所述的训练模型是结合YOLOv5和RESNET的精准焦亡细胞检测器;
所述的训练模型用于基于H&E染色数据集预训练的YOLOv5骨干网络,再基于焦亡细胞图像数据进行训练进一步得到的焦亡细胞图像数据的YOLOv5模型,所述的YOLOv5模型得到的焦亡细胞检测结果由ResNet进行分类检测,最终得到精准的焦亡细胞识别结果;
所述的训练模块包括基于H&E染色图像的目标检测单元、基于指定类型目标的检测单元和基于指定类型目标的分类单元;
所述的基于H&E染色图像的目标检测单元用于利用H&E染色图像针对YOLO在细胞领域的目标识别进行性能训练,并且对比不同参数下的模型水平;
所述的基于指定类型目标的检测单元用于在焦亡细胞识别任务中,利用焦亡细胞图像数据对所述的YOLOv5模型进行训练;
所述的基于指定类型目标的分类单元用于训练Resnet针对特定细胞类型进行识别,并赋予YOLO识别的每个细胞检测框对应的类别;
所述的基于指定类型目标的分类单元在预测过程中针对YOLO v5模型提取的子图进行预测并最终整合结果,达到了比仅用YOLO目标同时完成多任务时更高的准确率。
2.根据权利要求1所述的基于YOLO与ResNet的可迁移细胞识别系统,其特征在于,所述的H&E染色图像为Monuseg公共数据集提供的H&E染色图像。
3.根据权利要求1所述的基于YOLO与ResNet的可迁移细胞识别系统,其特征在于,所述的不同参数下的模型水平包括模型参数大小、训练中超参数与数据增强水平。
4.根据权利要求1所述的基于YOLO与ResNet的可迁移细胞识别系统,其特征在于,所述的焦亡细胞图像数据为人工标注的焦亡细胞图像数据。
5.根据权利要求1所述的基于YOLO与ResNet的可迁移细胞识别系统,其特征在于,所述的基于指定类型目标的检测单元首先利用全图对YOLOv5模型参数进行训练,提取特征识别细胞的大小与位置。
6.根据权利要求1所述的基于YOLO与ResNet的可迁移细胞识别系统,其特征在于,通过基于H&E染色图像训练出的基础模型能够快速获得YOLO指定目标训练的数据并进行训练,针对特殊细胞类型提升识别的准确率。
7.根据权利要求1所述的基于YOLO与ResNet的可迁移细胞识别系统,其特征在于,所述的基于指定类型目标的分类单元在训练过程中使用根据标注提取的焦亡细胞切片利用ResNet对细胞切片进行二分类任务预测,确认每一块子图的类别,完成预测任务。
8.根据权利要求1所述的基于YOLO与ResNet的可迁移细胞识别系统,其特征在于,所述的基于YOLO与ResNet的高精度可迁移细胞识别系统的在线使用框架流程包括以下步骤:
A、上传数据:上传用户数据,提交单张图片或同时提交多张图片进行预测;
B、递交预测任务:递交任务通过指定的模型完成预测任务,默认情况下使用预训练模型进行训练,后续用户执行微调后能够选择个人模型进行训练获取更精准的预测结果;
C、预测结果生成:在预测完成后,模型将调用后端的函数产生预测结果,包含细胞预测结果图、细胞数量统计、细胞尺寸对比和细胞密度;
D、模型微调:若产生的结果不够准确,用户能够选择图片作为微调训练数据,并在网页上对label进行手动矫正;最终微调后的模型将保存于个人的目录中以供使用和下载,在递交预测任务时能够选择模型参数使用。
CN202310152533.0A 2023-02-23 2023-02-23 一种可迁移细胞识别工具 Active CN115861719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310152533.0A CN115861719B (zh) 2023-02-23 2023-02-23 一种可迁移细胞识别工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310152533.0A CN115861719B (zh) 2023-02-23 2023-02-23 一种可迁移细胞识别工具

Publications (2)

Publication Number Publication Date
CN115861719A CN115861719A (zh) 2023-03-28
CN115861719B true CN115861719B (zh) 2023-05-30

Family

ID=85658713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310152533.0A Active CN115861719B (zh) 2023-02-23 2023-02-23 一种可迁移细胞识别工具

Country Status (1)

Country Link
CN (1) CN115861719B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705403A (zh) * 2019-09-19 2020-01-17 平安科技(深圳)有限公司 细胞分类方法、装置、介质及电子设备
CN111461165A (zh) * 2020-02-26 2020-07-28 上海商汤智能科技有限公司 图像识别方法、识别模型的训练方法及相关装置、设备
CN114913126A (zh) * 2021-02-08 2022-08-16 中国科学院自动化研究所 基于深度神经网络对活体细胞形态检测的方法及相关产品
CN112990015B (zh) * 2021-03-16 2024-03-19 北京智源人工智能研究院 一种病变细胞自动识别方法、装置和电子设备

Also Published As

Publication number Publication date
CN115861719A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
US20230127698A1 (en) Automated stereology for determining tissue characteristics
CN113454733B (zh) 用于预后组织模式识别的多实例学习器
CN111448582B (zh) 用于单通道全细胞分割的系统和方法
US20200388033A1 (en) System and method for automatic labeling of pathology images
CN109903284B (zh) 一种her2免疫组化图像自动判别方法及系统
CN113574534A (zh) 使用基于距离的相似性标签的机器学习
CN107111874A (zh) 用于免疫分数计算中的共表达分析的系统和方法
US20150186755A1 (en) Systems and Methods for Object Identification
US11176412B2 (en) Systems and methods for encoding image features of high-resolution digital images of biological specimens
CN113130049A (zh) 基于云服务的智能病理图像诊断系统
CN109948429A (zh) 图像分析方法、装置、电子设备及计算机可读介质
Chen et al. Deep-learning-assisted microscopy with ultraviolet surface excitation for rapid slide-free histological imaging
CN113743353B (zh) 空间、通道和尺度注意力融合学习的宫颈细胞分类方法
US20220058369A1 (en) Automated stereology for determining tissue characteristics
CN114235539A (zh) 基于深度学习的pd-l1病理切片自动判读方法及系统
Ma et al. A novel two-stage deep method for mitosis detection in breast cancer histology images
US20240320562A1 (en) Adversarial robustness of deep learning models in digital pathology
Juhong et al. Super-resolution and segmentation deep learning for breast cancer histopathology image analysis
Hu et al. Automatic detection of tuberculosis bacilli in sputum smear scans based on subgraph classification
Abbasi-Sureshjani et al. Molecular subtype prediction for breast cancer using H&E specialized backbone
Nadarajan et al. Automated multi-class ground-truth labeling of H&E images for deep learning using multiplexed fluorescence microscopy
An et al. Automated detection of tuberculosis bacilli using deep neural networks with sputum smear images
Van Buren et al. Artificial intelligence and deep learning to map immune cell types in inflamed human tissue
CN115861719B (zh) 一种可迁移细胞识别工具
Wang et al. Cellular nucleus image-based smarter microscope system for single cell analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant