CN111325103A - 一种细胞标注系统和方法 - Google Patents
一种细胞标注系统和方法 Download PDFInfo
- Publication number
- CN111325103A CN111325103A CN202010071652.XA CN202010071652A CN111325103A CN 111325103 A CN111325103 A CN 111325103A CN 202010071652 A CN202010071652 A CN 202010071652A CN 111325103 A CN111325103 A CN 111325103A
- Authority
- CN
- China
- Prior art keywords
- cell
- picture
- training
- labeling
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
Description
技术领域
本发明涉及计算机医学技术领域,具体涉及一种细胞标注系统和方法。
背景技术
骨髓细胞形态学镜检是血液学中关键诊断手段之一,常用于诊断多种病症,包括白血病、多发性骨髓瘤、淋巴瘤、贫血和全血细胞减少等病症。目前人工镜检仍然是主要的诊断方法。从拿到染色标本涂片到生成骨髓细胞检验报告,其中有一个关键的环节是在油镜下观察涂片骨髓小粒周围细胞分布均匀的区域,采用弓字形或城垛形移动计数分类200个有核细胞,边观察分类边将结果记录在纸质的有核细胞分类表或细胞计数器中。骨髓中有种类丰富的各种有核细胞,临床检查常用的有核细胞就多达49类,不常见但具有临床价值的骨髓中的有核细胞多达263类以上。不同的患者、不同厚薄的涂片、不同的区域和染色差异的标本中,细胞大小和形状变化是较大的。人工分类计数的方法需要检验人员有长期的工作经验积累和技术熟练程度才能做出高质量的检查报告,目前人工镜检的工作效率较低并且很多医院出现了形态学检验人员缺失、断层的现象。
随着人工智能技术的发展,如果通过人工智能技术能够自动识别涂片中各种细胞种类并进行计数统计,辅助医生生成骨髓细胞检验报告,就能极大的减轻了医生们的工作量。目前有很多基于深度学习的神经网络算法软件应用在外周血涂片的检查领域,对有核细胞进行三分类或者五分类,但是对有核细胞进行三分类或五分类已无法满足骨髓涂片检查的临床需求。基于深度学习的神经网络算法是一种监督型的算法,监督型算法需要对大量已标注类别和位置的细胞样本学习后才具有可临床应用的骨髓细胞检测能力。高质量的标注数据是深度神经网络实现骨髓细胞检测的前提条件,当前开源可用的骨髓细胞数据集所包含的样本都很少,并且只有细胞的类别信息而没有位置信息,难以用于学习骨髓细胞检测,例如米兰比可卡大学Scotti F等人构建的ALL-IDB数据库,其中的ALL-IDB2数据库仅限于急性淋巴细胞白血病这一种白血病类型,且只有108个样本数据,数据量很小。因此,要实现能够辅助医生生成骨髓细胞检验报告,就必须先标注用于骨髓细胞检测所需的数据集,数据集是指采集的骨髓涂片的数字化图片。骨髓细胞标注需要标注的信息包括各个需要识别细胞的位置信息和细胞类别信息。标注骨髓细胞需要专业的检验人员且标注工作繁琐需要占用大量时间,因此,需要有一种能够快速标注骨髓细胞的系统和方法。
发明内容
有鉴于此,有必要针对现有技术存在的问题,提供一种细胞标注系统和方法。本发明的技术方案为:
第一方面,本发明提供一种细胞标注方法,包括:
步骤1,获取一系列细胞图像;
步骤3,利用所述细胞检测模型和所述细胞分类模型对一张待标注细胞图像进行细胞位置和细胞类别的自动标注;
步骤4,通过人工标注方式对自动标注的标注结果进行修正,如果细胞位置信息标注有误,则将该待标注细胞图像的细胞位置修正后放入所述细胞检测模型的候选训练集中;如果细胞类别信息标注有误,则将该待标注细胞图像的细胞类别信息修正后放入所述细胞分类模型的候选训练集中;
步骤5,重复步骤3和4,直至所述候选训练集中的样本数量大于所述候选训练集的样本阈值T1,然后采用该候选训练集重新对所述细胞检测模型进行训练;以及,所述候选训练集中的样本数量大于所述候选训练集的样本阈值T2,采用该候选训练集重新对所述细胞分类模型进行训练;训练完成后清空所述候选训练集和所述候选训练集
步骤6,跳转到步骤3,继续循环进行,直到待标注细胞图像的细胞标注过程结束为止。
进一步的,所述步骤2中采用基于ImageNet数据集的预训练模型作为细胞分类模型。
进一步的,所述步骤4中通过人工标注方式对标注结果进行修正,其中细胞类别信息修正采用的是类别推荐表R,具体修正过程包括:
步骤4-1,在类别推荐表R中输入当前自动标注的细胞类别,根据类别推荐表R计算该细胞类别的前N个推荐类别供手工标注选择;所述类别推荐表R采用二维混淆矩阵,所述矩阵大小为M×M,其中M是指所述细胞分类模型的细胞分类数量,矩阵的第i行和j列的元素Ri,j表示:自动标注的细胞类别被预测为第j个细胞类别,但其真实类别为i类别的个数;当细胞的输入类别为j时,从类别推荐表R的第j列中找出数值从大到小排在前N位的行,这些行的行号即为类别j对应的前N个更高可能性的推荐类别。
步骤4-2,更新类别推荐表R,具体操作为:对于一个细胞类别,如果从j类别被修正为i类别,则将类别推荐表的元素Ri,j值加1。
进一步的,所述步骤5中重新对所述细胞检测模型进行训练,包括:
步骤5-2,找到所述图片I1中被修改位置信息对应的区域,并截取该区域,其中,被修改位置信息的区域包括漏标区域、多标区域以及调整区域,所述漏标区域、所述调整区域、所述多标区域分别构成区域图片集合Z1、Z2、Z3;将所述区域图片集合Z1和Z2添加到候选前景区域图片集合将所述区域图片集合Z3添加到候选背景区域图片集合并在所述图片I1上随机截取Nb块不包含标注框的区域添加到候选背景区域图片集合
步骤5-4-1,生成一张与所述图片I1相同尺寸的空白图片I2,以整张图片I2作为可插入矩形区域;
步骤5-4-2,按照所述候选前景区域图片集合中区域图片的尺寸大小顺序,依次插入到所述图片I2中,每插入一次区域图片,都将该区域图片从所述集合中删除,并根据其在所述图片I1中的插入位置对应更新位置信息,直到没有合适的前景区域图片可插入到剩余可插入区域;
进一步的,所述步骤5中重新对所述细胞分类模型进行训练,包括:
步骤5-1’:利用细胞分类模型候选训练集中所有细胞图片的预测类别和真实类别建立大小为M×M的图片矩阵Cc,其中M是指所述细胞分类模型的细胞分类数量,该矩阵的每个元素为细胞图片列表,矩阵元素表示原本是类别i却被识别为j的细胞图片列表;然后从每个矩阵元素的图片列表中随机挑选比例为P1的图片加入到所述细胞分类模型的难分样本训练集中,剩余的图片加入到所述分类模型的难分样本验证集中;
步骤5-2’-2,用所述训练子集训练所述细胞分类模型;
进一步的,所述类别推荐表R初始为未赋值状态,当所述细胞分类模型重新训练后,以所述分类模型验证集作为所述细胞分类模型的输入,并根据预测结果生成所述二维混淆矩阵,并将所述二维混淆矩阵赋值给所述类别推荐表R。
第二方面,本发明提供一种细胞标注系统,包括:
图像获取装置,用于获取待标注细胞图像;
标注操作装置,与所述图像获取装置连接,用于标注所述细胞图像中的所有待标注细胞的位置信息和类别信息;
标注模型训练装置,与所述标注操作装置连接,用于对标注细胞位置信息的细胞检测模型和标注细胞类别信息的细胞分类模型进行训练,以及用于对所述细胞检测模型的训练集更新、所述细胞分类模型的训练集和验证集的更新;
通讯装置,用于将所述图像获取装置、所述标注操作装置、所述标注模型训练装置连接。
本发明相对于现有方法,具有以下有益效果:本发明的细胞标注系统针对细胞检测所需训练样本的标注要求,有针对性的设计标注流程和功能,特别是建立了细胞检测模型及其训练方法和细胞分类模型及其训练方法,在手工标注少量细胞的基础上进行模型训练,能实现较高准确率的自动标注,大大提高了标注细胞的效率。并通过对训练模型的微调,提高了模型的训练效率和泛化能力。
附图说明
图1为本发明的细胞标注方法的工艺流程图。
图2为本发明的细胞标注系统的结构示意图。
图3为本发明实施例1中待标注骨髓细胞的检测结果。
图4为本发明实施例1中待标注骨髓细胞的分类结果。
图5为现有手动标注方法和本发明标注方法的结果对比图。
具体实施方式
在本发明的描述中,需要说明的是,实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
下面结合附图和具体的实施例对本发明做进一步详细说明,所述是对本发明的解释而不是限定。
实施例1
本实施例提供一种骨髓细胞标注方法,骨髓中有种类丰富的各种有核细胞,临床检查常用的有核细胞就多达49类,不常见但具有临床价值的骨髓中的有核细胞多达263类以上。不同的患者、不同厚薄的涂片、不同的区域和染色差异的标本中,细胞大小和形状变化是较大的。人工分类计数的方法需要检验人员有长期的工作经验积累和技术熟练程度才能做出高质量的检查报告,目前人工镜检的工作效率较低并且很多医院出现了形态学检验人员缺失、断层的现象。采用本发明的方法对骨髓细胞进行标注,一方面可以验证本发明方法的准确性和可靠性,另一方面对于本发明方法在其他细胞上的应用具有典型代表意义。
本实施例的细胞标注方法的总体流程如图1所示:(1)人工标注细胞的位置信息;(2)训练细胞检测模型;(3)自动标注细胞的位置信息和类别;(4)人工修正细胞的位置信息和类别;(5)根据修正的信息训练细胞检测模型和细胞分类模型,然后跳转到(3),继续循环进行,具体步骤包括:
步骤1,获取50张骨髓细胞图像;
步骤2,人工标注50张细胞图像中所有细胞的位置信息以形成细胞检测模型的训练集并采用该训练集训练细胞检测模型;以及采用基于ImageNet数据集的预训练模型作为细胞分类模型;设置类别推荐表R为未赋值状态,未赋值状态表示所有元素值均为0;
步骤3,利用所述细胞检测模型和所述细胞分类模型对一张待标注骨髓细胞图像进行细胞位置和细胞类别标注;
步骤4,通过人工标注方式对步骤3的标注结果进行修正,修改信息被添加到标注信息修改表Fc中,如果细胞位置信息标注有误,则将该待标注细胞图像的细胞位置修正后放入所述细胞检测模型的候选训练集中;如果细胞类别信息标注有误,则将该待标注细胞图像的细胞类别信息修正后放入所述细胞分类模型的候选训练集中。在本实施例中,候选训练集的样本阈值T1为10,候选训练集的样本阈值T2为20;
在步骤4中,细胞类别信息修正采用的是类别推荐表R,可以提高标注人员选择细胞类别的效率,具体修正过程包括:
步骤4-1,在类别推荐表R中输入当前自动标注的细胞类别,根据类别推荐表R计算该细胞类别的前N个推荐类别供手工标注选择。在本实施例中,N为5。所述类别推荐表R采用二维混淆矩阵,所述矩阵大小为M×M,其中M是指所述细胞分类模型的细胞分类数量,在本实施例中M为35,矩阵的第i行和j列的元素Ri,j表示:自动标注的细胞类别被预测为第j个细胞类别,但其真实类别为i类别的个数。当细胞的输入类别为j时,从类别推荐表R的第j列中找出数值从大到小排在前N位的行,这些行的行号即为类别j对应的前N个更高可能性的推荐类别。
步骤4-2,更新类别推荐表R,具体操作为:对于一个细胞类别,如果从j类别被修正为i类别,则将类别推荐表的元素Ri,j值加1。
步骤5,重复步骤3和4,直至所述候选训练集中的样本数量大于所述候选训练集的样本阈值T1时,重新对所述细胞检测模型进行训练;以及,当所述候选训练集中的样本数量大于所述候选训练集的样本阈值T2时,重新对所述细胞分类模型进行训练;训练完成后清空所述候选训练集和所述候选训练集
其中,所述重新对所述细胞检测模型进行训练,包括:
步骤5-3,根据信息修改表Fc找到图片I1中被修改位置信息对应的区域,并截取该区域对应的图片;其中,被修改位置信息的区域包括漏标的区域,多标的区域以及调整的区域;对于漏标的区域是截取标注人员补充标的矩形框区域,它们构成了区域图片集合Z1;对于调整的区域是截取调整区域,调整区域是指包含了自动标注的矩形框区域和标注人员标注的矩形框区域这两个区域的最小矩形框区域,它们构成了区域图片集合Z2;对于多标的区域是截取标注人员删除的矩形框区域,它们构成了区域图片集合Z3;将区域图片集合Z1和Z2添加到候选前景区域图片集合将区域图片集合Z3添加到候选背景区域图片集合并在图片I1随机截取Nb块(本实施例中Nb为2)不包含标注框的区域添加到候选背景区域图片集合这样可以增加背景的多样性,以确保生成待标注图片更真实;
步骤5-5,根据所述候选前景区域图片集合和所述候选背景区域图片集合生成待标注图片并将所述待标注图片加入到所述细胞检测模型的训练集中;具体包括:(1)生成一张与所述图片I1相同尺寸的空白图片I2,以整张图片I2作为可插入矩形区域;(2)按照所述候选前景区域图片集合中区域图片的尺寸大小顺序,依次插入到所述图片I2中,每插入一次区域图片,都将该区域图片从所述集合中删除,并根据其在所述图片I1中的插入位置对应更新位置信息,直到没有合适的前景区域图片可插入到剩余可插入区域(剩余可插入矩形区域是指没有插入过区域图片的矩形区域);(3)从所述候选背景区域图片集合中随机选择背景区域图片直至填满所述图片I2的剩余可插入区域;
所述重新对所述细胞分类模型进行训练,包括:
步骤5-1’:通过标注信息修改表Fc找到细胞分类模型候选训练集中所有细胞图片的预测类别(自动标注的类别)和真实类别(标注人员修改成的类别)建立大小为M×M的图片矩阵Cc,其中M是指所述细胞分类模型的细胞分类数量,在本实施例中M为35,该矩阵的每个元素为细胞图片列表(细胞图片通过切割图片得到),矩阵元素表示原本是类别i却被识别为j的细胞图片列表;然后从每个矩阵元素的图片列表中随机挑选比例为P1的图片加入到所述细胞分类模型的难分样本训练集中,剩余的图片加入到所述分类模型的难分样本验证集中。
步骤5-2’-1,从所述难分样本训练集中随机选取0.1Nm个(四舍五入取整数)未训练过的图片,从所述细胞分类模型的训练集中选取0.9Nm个(四舍五入取整数)未训练过的图片,构建一个训练子集,其中Nm表示一个训练子集的样本数目;在本实施例中,Nm为32;
步骤5-2’-2,用所述训练子集训练所述细胞分类模型;
步骤7,跳转到步骤3,继续循环进行,直到待标注细胞图像的细胞标注过程结束为止。
上述的骨髓细胞标注方法通过以下细胞标注系统实现,该标注系统包括:
图像获取装置,用于获取待标注细胞图像;
标注操作装置,与所述图像获取装置连接,用于标注所述细胞图像中的所有待标注细胞的位置信息和类别信息;
标注模型训练装置,与所述标注操作装置连接,用于对标注细胞位置信息的细胞检测模型和标注细胞类别信息的细胞分类模型进行训练,以及用于对所述细胞检测模型的训练集更新、所述细胞分类模型的训练集和验证集的更新;
通讯装置,用于将所述图像获取装置、所述标注操作装置、所述标注模型训练装置连接。
在本实施例中,标注操作装置具体包括:手动标注细胞、自动标注细胞、切割细胞、浏览标注信息、编辑标注信息等功能模块。各个功能模块的连接关系图2所示,其中手动标注细胞和自动标注细胞这二个功能模块通过通讯装置和标注模型训练装置连接。标注操作装置各个模块主要通过标注文件进行连接和协作。手动标注细胞、自动标注细胞和编辑标注信息等三个模块产生或者修改标注文件,切割细胞模块使用标注文件来切割细胞,浏览标注信息模块根据标注文件在图片上显示标注信息,编辑标注信息使用浏览标注信息在图片上显示标注信息并编辑标注信息。
手动标注细胞是指用户通过图形界面的操作为当前待标注图片生成标注信息。一张图片的标注信息包括了图片中所有被标注细胞的标注信息。一个被标注细胞的标注信息包括该细胞的位置信息和细胞的类别,细胞的位置信息是指细胞在图片上的位置,用矩形框来表示,包括了矩形框的左上角X坐标和Y坐标,矩形框的宽度W和高度H。
每一张图片的标注信息保存在一个标注文件中,该标注文件与图片的文件名相同。标注文件包含该图片中已标注细胞的标注信息、图片所属病例的编号、图片所属病例的疾病类别、图片的绝对路径和图片的相对路径。
自动标注细胞的功能和操作和手动标注细胞类似,不同的地方在于自动标注细胞可以通过细胞检测模块获取当前待标注图片的标注信息。
切割细胞是指根据细胞标注信息中的位置信息将单个细胞从图片中切割下来得到细胞图片,并且根据该细胞的类别将细胞图片保存在对应类别的文件夹,该功能用于构建细胞分类模型的训练集、验证集和测试集。
浏览标注信息是指打开指定的图片并根据该图片对应的标注文件,将标注文件中的细胞标注信息提取出来,在图片上显示相应的矩形框和细胞的类别。
编辑标注信息是在浏览标注信息的基础上可以通过新建、删除和调整矩形框的位置来修改细胞的位置信息,通过重新选择细胞的类别来修改细胞的类别信息。编辑标注信息主要是用来修改特定图片的标注信息,可以通过一系列的查找条件找到符合条件的标注文件,然后根据标注文件找到指定的图片。可以输入图片名来找到指定图片;可以输入细胞的类别名称,找到包含该类细胞的图片。修改的标注信息会保存到标注文件。
标注模型训练装置具体包括细胞检测模块、模型训练模块、类别推荐模块。
细胞检测模块包括细胞检测模型和细胞分类模型。其中细胞检测模型输入的是从标注操作端发送过来的整张待标注图片,输出的是待标注细胞的位置信息。从待标注图片中把位置信息中指定的矩形框区域截取出来(这个过程也称为分割细胞),作为待分类的细胞图片。细胞分类模型输入的是待分类的细胞图片,输出的是这些细胞图片的类别。细胞检测模块将细胞检测模型输出的位置信息和细胞分类模型输出的类别信息整合为待标注图片的标注信息。
模型训练模块包括对细胞检测模型的训练集更新、细胞分类模型的训练集和验证集的更新,以及这两个模型的训练。细胞检测模型和细胞分类模型需要经过训练后才能使用,第一批用于训练的标注样本通过手工标注产生,后续将通过结合自动标注和手动标注挑选更多有价值的标注样本更新训练集,提高细胞自动检测的性能。具体过程见标注方法步骤。
类别推荐模块的功能是输入一个细胞类别计算对应的前N个更高可能性的推荐类别。细胞分类模型对待标注细胞的分类并不能达到百分百准确,而如果自动检测的类别错误,修改类别时需要在细胞类别列表中找到正确的类别,而细胞类别列表中的类别有几十个甚至上百个,需要耗费不少精力和时间。通过类别推荐模块,推荐前N个更高可能性的类别供用户选择,将能够缩短用户标注类别的时间。类别推荐模块包含了一个类别推荐表R。
标注操作装置和标注模型训练装置可以部署在同一台电脑上运行,也可以将标注模型训练装置部署到服务器上,同时和多个标注操作装置连接并且为标注操作装置提供细胞自动检测服务。在本实施例中,标注模型训练装置部署到服务器上,能够同时和多个标注操作装置连接,使用开发语言为Python,标注操作装置和标注模型训练装置之间通过Socket通讯。在标注模型训练装置中,细胞检测模型是YoloV3检测模型,细胞分类模型是Resnet18分类模型,深度学习框架均使用Pytorch。
在本实施例中,骨髓细胞的类别包括35类,具体如下:原幼稚淋巴细胞、幼淋巴细胞、淋巴细胞、中幼红细胞、晚幼红细胞、原始粒细胞、早幼粒细胞、中幼粒细胞、晚幼粒细胞、杆状粒细胞、分叶粒细胞、单核细胞、原幼稚单核细胞、原幼稚浆细胞、浆细胞、嗜碱性粒细胞、嗜酸性粒细胞、嗜酸性中幼粒细胞、嗜酸性晚幼粒细胞、原始红细胞、早幼红细胞、退化细胞、大血小板、血小板、血小板聚集、异型淋巴细胞、P-H畸形、产板巨核细胞、巨晚幼红细胞、巨晚幼粒细胞、巨中幼红细胞、巨中幼粒细胞、颗粒巨核细胞、网状细胞和幼稚巨核细胞。
在本实施例中,共有1177张待标注图片用作细胞检测模型的数据集,其中训练集942张,测试集235张;单细胞图片共有5012张用作细胞分类模型的数据集,其中训练集3007张,验证集1002张,测试集1003张。
通过训练后细胞检测模型在测试集进行性能测试,设细胞检测得到的位置框和人工标注的位置框重合度大于0.8时,即IOU(Intersection over Union)阈值为0.8,则认为正确检测到待标注细胞。细胞检测模型在测试集中的检测准确率约为98%。检测效果如图3所示。
从待标注图片中把位置信息中指定的矩形框区域截取出来,作为待分类的细胞图片。细胞分类模型输入的是待分类的细胞图片,输出的是这些细胞图片的类别。在分类模型的测试集中平均识别准确率为85%,每类细胞的识别准确率和该类训练样本的数量有关系,例如原幼稚淋巴细胞、分叶粒细胞等训练集样本数量超过500,其测试集识别准确率都能达到95%以上,而巨晚幼红细胞和原幼稚单核细胞等训练样本数少于5张,其测试集识别的准确率接近于0。细胞类别识别准确率可以通过标注过程不断积累训练样本来提高。结合待标注细胞检测结果和细胞分类结果,即可得到骨髓细胞检测结果,如图4所示,得到了骨髓细胞的位置信息和类别信息。
根据待标注细胞检测准确率和细胞识别准确率,可知骨髓细胞检测的准确率大约为83.3%。也就是说自动标注的结果有83.3%是准确的,不需要再手动调整,随着训练样本的增加,准确率还会进一步提升。而且自动检测的位置几乎和手动标注的位置重合的,如附图5所示,所以大部分需要修改的是类别信息。再加上根据类别推荐模块所提供的前5个可能性最大的类别,即预测结果按TOP5来考虑(每个细胞给5个类别,如果真实类别属于其中一个,则认为分类正确),分类的识别准确率能到上升到93%。这样的话,又有一半左右类别识别错误的细胞可以在推荐的5类细胞内来选择正确的类别,大大缩短了标注的时间。
综上,本发明以通过提高训练样本的质量和减少训练次数来实现用更少的数据量和运算量实现训练细胞检测模型和细胞分类模型为目的,同时在手工标注阶段将位置标注和类别标注分开由相应能力的人员进行标注,结合自动标注方法,大大提高了骨髓细胞的标注效率。
在细胞检测模型方面,如果一张图片只有个别细胞的位置被修改就将该图片用于训练将浪费计算资源和训练时间,同时高质量的标注图片才能够更好提升模型的学习性能,因此要综合利用多张自动标注不完全正确的图片。为了提高训练样本的质量和减少训练次数,本发明将标注位置有误的多个区域合成一张图片,提高单张训练图片的训练价值,从而减少训练的运算量。
在细胞分类模型方面,将自动标注类别有误的样本作为难分样本,为了能够正确评估模型训练之后是否会做出同样错误的判断,提出通过建立图片矩阵的方式,将难分样本划分为难分样本训练集和难分样本验证集。同时以难分样本验证集对应的混淆矩阵初始化类别推荐表可以提高推荐类别的准确率。
在手工标注方面,细胞的位置信息比较容易标注,对人员简单培训即能大部分正确标注,标注成本较低。而对细胞类别的标注需要经验丰富的医生,这类医生数量少且工作繁忙,标注周期长和成本高。本发明的标注方法利用这个特点,首先由一般的标注人员来标注细胞的位置信息然后训练细胞检测模型,使其能够以较高的准确率自动标注细胞的位置,然后再由专业医师标注细胞类别。在标注过程中,动态训练细胞检测模型和细胞分类模型,使得在标注一部分细胞类别后就能够较高准确率地自动标注细胞,同时加上细胞类别推荐功能让医生更快速的找到正确的细胞类别,从而提高医生的标注效率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种细胞标注方法,其特征在于:包括:
步骤1,获取一系列细胞图像;
步骤3,利用所述细胞检测模型和所述细胞分类模型对一张待标注细胞图像进行细胞位置和细胞类别的自动标注;
步骤4,通过人工标注方式对自动标注的标注结果进行修正,如果细胞位置信息标注有误,则将该待标注细胞图像的细胞位置修正后放入所述细胞检测模型的候选训练集中;如果细胞类别信息标注有误,则将该待标注细胞图像的细胞类别信息修正后放入所述细胞分类模型的候选训练集中;
步骤5,重复步骤3和4,直至所述候选训练集中的样本数量大于所述候选训练集的样本阈值T1,然后采用该候选训练集重新对所述细胞检测模型进行训练;以及,所述候选训练集中的样本数量大于所述候选训练集的样本阈值T2,采用该候选训练集重新对所述细胞分类模型进行训练;训练完成后清空所述候选训练集和所述候选训练集
步骤6,跳转到步骤3,继续循环进行,直到待标注细胞图像的细胞标注过程结束为止。
2.根据权利要求1所述的一种细胞标注方法,其特征在于:所述步骤2中采用基于ImageNet数据集的预训练模型作为细胞分类模型。
3.根据权利要求1所述的一种细胞标注方法,其特征在于:所述步骤4中通过人工标注方式对标注结果进行修正,其中细胞类别信息修正采用的是类别推荐表R,具体修正过程包括:
步骤4-1,在类别推荐表R中输入当前自动标注的细胞类别,根据类别推荐表R计算该细胞类别的前N个推荐类别供手工标注选择;所述类别推荐表R采用二维混淆矩阵,所述矩阵大小为M×M,其中M是指所述细胞分类模型的细胞分类数量,矩阵的第i行和j列的元素Ri,j表示:自动标注的细胞类别被预测为第j个细胞类别,但其真实类别为i类别的个数;当细胞的输入类别为j时,从类别推荐表R的第j列中找出数值从大到小排在前N位的行,这些行的行号即为类别j对应的前N个更高可能性的推荐类别。
步骤4-2,更新类别推荐表R,具体操作为:对于一个细胞类别,如果从j类别被修正为i类别,则将类别推荐表的元素Ri,j值加1。
4.根据权利要求1所述的一种细胞标注方法,其特征在于:所述步骤5中重新对所述细胞检测模型进行训练,包括:
步骤5-2,找到所述图片I1中被修改位置信息对应的区域,并截取该区域,其中,被修改位置信息的区域包括漏标区域、多标区域以及调整区域,所述漏标区域、所述调整区域、所述多标区域分别构成区域图片集合Z1、Z2、Z3;将所述区域图片集合Z1和Z2添加到候选前景区域图片集合将所述区域图片集合Z3添加到候选背景区域图片集合并在所述图片I1上随机截取Nb块不包含标注框的区域添加到候选背景区域图片集合
步骤5-4-1,生成一张与所述图片I1相同尺寸的空白图片I2,以整张图片I2作为可插入矩形区域;
步骤5-4-2,按照所述候选前景区域图片集合中区域图片的尺寸大小顺序,依次插入到所述图片I2中,每插入一次区域图片,都将该区域图片从所述集合中删除,并根据其在所述图片I1中的插入位置对应更新位置信息,直到没有合适的前景区域图片可插入到剩余可插入区域;
6.根据权利要求3所述的一种细胞标注方法,其特征在于:所述步骤5中重新对所述细胞分类模型进行训练,包括:
步骤5-1’:利用细胞分类模型候选训练集中所有细胞图片的预测类别和真实类别建立大小为M×M的图片矩阵Cc,其中M是指所述细胞分类模型的细胞分类数量,该矩阵的每个元素为细胞图片列表,矩阵元素表示原本是类别i却被识别为j的细胞图片列表;然后从每个矩阵元素的图片列表中随机挑选比例为P1的图片加入到所述细胞分类模型的难分样本训练集中,剩余的图片加入到所述分类模型的难分样本验证集中;
9.一种细胞标注系统,其特征在于:包括:
图像获取装置,用于获取待标注细胞图像;
标注操作装置,与所述图像获取装置连接,用于标注所述细胞图像中的所有待标注细胞的位置信息和类别信息;
标注模型训练装置,与所述标注操作装置连接,用于对标注细胞位置信息的细胞检测模型和标注细胞类别信息的细胞分类模型进行训练,以及用于对所述细胞检测模型的训练集更新、所述细胞分类模型的训练集和验证集的更新;
通讯装置,用于将所述图像获取装置、所述标注操作装置、所述标注模型训练装置连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071652.XA CN111325103B (zh) | 2020-01-21 | 2020-01-21 | 一种细胞标注系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071652.XA CN111325103B (zh) | 2020-01-21 | 2020-01-21 | 一种细胞标注系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325103A true CN111325103A (zh) | 2020-06-23 |
CN111325103B CN111325103B (zh) | 2020-11-03 |
Family
ID=71168711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010071652.XA Active CN111325103B (zh) | 2020-01-21 | 2020-01-21 | 一种细胞标注系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325103B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815607A (zh) * | 2020-07-10 | 2020-10-23 | 济南大学 | 一种面向造血系统的骨髓细胞数据集构建方法及系统 |
CN112102331A (zh) * | 2020-08-26 | 2020-12-18 | 广州金域医学检验中心有限公司 | 病理切片的训练图像集获取方法、系统、设备和介质 |
CN112232327A (zh) * | 2020-12-16 | 2021-01-15 | 南京金域医学检验所有限公司 | 一种基于深度学习的抗核抗体核型判读方法与设备 |
CN112630164A (zh) * | 2020-12-23 | 2021-04-09 | 广东城市智慧物联网技术有限公司 | 一种机动车尾气检测系统 |
CN112699887A (zh) * | 2020-12-30 | 2021-04-23 | 科大讯飞股份有限公司 | 一种获得数学对象标注模型、数学对象标注的方法和装置 |
CN112884725A (zh) * | 2021-02-02 | 2021-06-01 | 杭州迪英加科技有限公司 | 针对用于细胞判别的神经网络模型输出结果的修正方法 |
CN113011306A (zh) * | 2021-03-15 | 2021-06-22 | 中南大学 | 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质 |
CN113220925A (zh) * | 2021-04-26 | 2021-08-06 | 华南师范大学 | 一种细胞图像查重方法和系统 |
CN113256717A (zh) * | 2021-05-08 | 2021-08-13 | 华南师范大学 | 一种细胞涂片辅助分析方法和系统 |
CN113409923A (zh) * | 2021-05-25 | 2021-09-17 | 济南大学 | 骨髓图像个体细胞自动标记中的纠错方法及系统 |
CN113610161A (zh) * | 2021-08-09 | 2021-11-05 | 东南数字经济发展研究院 | 一种基于图像分类技术的目标检测数据标注方法 |
CN113706519A (zh) * | 2021-09-01 | 2021-11-26 | 广州锟元方青医疗科技有限公司 | 病理细胞检测训练样本的合成方法及其装置 |
CN116108128A (zh) * | 2023-04-13 | 2023-05-12 | 华南师范大学 | 一种开放域问答系统及答案预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780498A (zh) * | 2016-11-30 | 2017-05-31 | 南京信息工程大学 | 基于逐像素点深度卷积网络上皮和基质组织自动分割方法 |
CN108346145A (zh) * | 2018-01-31 | 2018-07-31 | 浙江大学 | 一种病理切片中非常规细胞的识别方法 |
CN108764329A (zh) * | 2018-05-24 | 2018-11-06 | 复旦大学附属华山医院北院 | 一种肺癌病理图像数据集的构建方法 |
CN109300530A (zh) * | 2018-08-08 | 2019-02-01 | 北京肿瘤医院 | 病理图片的识别方法及装置 |
WO2019121555A1 (en) * | 2017-12-22 | 2019-06-27 | Ventana Medical Systems, Inc. | System and method for classifying cells in tissue images based on membrane features |
CN110199358A (zh) * | 2016-11-21 | 2019-09-03 | 森索姆公司 | 表征和识别生物结构 |
-
2020
- 2020-01-21 CN CN202010071652.XA patent/CN111325103B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110199358A (zh) * | 2016-11-21 | 2019-09-03 | 森索姆公司 | 表征和识别生物结构 |
CN106780498A (zh) * | 2016-11-30 | 2017-05-31 | 南京信息工程大学 | 基于逐像素点深度卷积网络上皮和基质组织自动分割方法 |
WO2019121555A1 (en) * | 2017-12-22 | 2019-06-27 | Ventana Medical Systems, Inc. | System and method for classifying cells in tissue images based on membrane features |
CN108346145A (zh) * | 2018-01-31 | 2018-07-31 | 浙江大学 | 一种病理切片中非常规细胞的识别方法 |
CN108764329A (zh) * | 2018-05-24 | 2018-11-06 | 复旦大学附属华山医院北院 | 一种肺癌病理图像数据集的构建方法 |
CN109300530A (zh) * | 2018-08-08 | 2019-02-01 | 北京肿瘤医院 | 病理图片的识别方法及装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815607B (zh) * | 2020-07-10 | 2022-10-14 | 济南大学 | 一种面向造血系统的骨髓细胞数据集构建方法及系统 |
CN111815607A (zh) * | 2020-07-10 | 2020-10-23 | 济南大学 | 一种面向造血系统的骨髓细胞数据集构建方法及系统 |
CN112102331A (zh) * | 2020-08-26 | 2020-12-18 | 广州金域医学检验中心有限公司 | 病理切片的训练图像集获取方法、系统、设备和介质 |
CN112102331B (zh) * | 2020-08-26 | 2024-03-29 | 广州金域医学检验中心有限公司 | 病理切片的训练图像集获取方法、系统、设备和介质 |
CN112232327A (zh) * | 2020-12-16 | 2021-01-15 | 南京金域医学检验所有限公司 | 一种基于深度学习的抗核抗体核型判读方法与设备 |
CN112630164A (zh) * | 2020-12-23 | 2021-04-09 | 广东城市智慧物联网技术有限公司 | 一种机动车尾气检测系统 |
CN112699887A (zh) * | 2020-12-30 | 2021-04-23 | 科大讯飞股份有限公司 | 一种获得数学对象标注模型、数学对象标注的方法和装置 |
CN112884725A (zh) * | 2021-02-02 | 2021-06-01 | 杭州迪英加科技有限公司 | 针对用于细胞判别的神经网络模型输出结果的修正方法 |
CN113011306A (zh) * | 2021-03-15 | 2021-06-22 | 中南大学 | 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质 |
CN113220925A (zh) * | 2021-04-26 | 2021-08-06 | 华南师范大学 | 一种细胞图像查重方法和系统 |
CN113256717A (zh) * | 2021-05-08 | 2021-08-13 | 华南师范大学 | 一种细胞涂片辅助分析方法和系统 |
CN113256717B (zh) * | 2021-05-08 | 2022-01-21 | 华南师范大学 | 一种细胞涂片辅助分析方法和系统 |
CN113409923B (zh) * | 2021-05-25 | 2022-03-04 | 济南大学 | 骨髓图像个体细胞自动标记中的纠错方法及系统 |
CN113409923A (zh) * | 2021-05-25 | 2021-09-17 | 济南大学 | 骨髓图像个体细胞自动标记中的纠错方法及系统 |
CN113610161A (zh) * | 2021-08-09 | 2021-11-05 | 东南数字经济发展研究院 | 一种基于图像分类技术的目标检测数据标注方法 |
CN113706519A (zh) * | 2021-09-01 | 2021-11-26 | 广州锟元方青医疗科技有限公司 | 病理细胞检测训练样本的合成方法及其装置 |
CN116108128A (zh) * | 2023-04-13 | 2023-05-12 | 华南师范大学 | 一种开放域问答系统及答案预测方法 |
CN116108128B (zh) * | 2023-04-13 | 2023-09-05 | 华南师范大学 | 一种开放域问答系统及答案预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111325103B (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325103B (zh) | 一种细胞标注系统和方法 | |
AU2020200835B2 (en) | System and method for reviewing and analyzing cytological specimens | |
US6148096A (en) | Specimen preview and inspection system | |
CN113454733A (zh) | 用于预后组织模式识别的多实例学习器 | |
CN112101451B (zh) | 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法 | |
WO2016094720A1 (en) | Automated flow cytometry analysis method and system | |
JP2019195304A (ja) | 画像解析方法、装置、コンピュータプログラム、及び深層学習アルゴリズムの生成方法 | |
AU2021349226B2 (en) | Critical component detection using deep learning and attention | |
Yang et al. | Pathminer: a web-based tool for computer-assisted diagnostics in pathology | |
CN110414317B (zh) | 基于胶囊网络的全自动白细胞分类计数方法 | |
US20150242676A1 (en) | Method for the Supervised Classification of Cells Included in Microscopy Images | |
Brixtel et al. | Whole slide image quality in digital pathology: review and perspectives | |
Alférez Baquero | Methodology for automatic classification of atypical lymphoid cells from peripheral blood cell images | |
Tran et al. | Blood cell count using deep learning semantic segmentation | |
CN112767349A (zh) | 一种网织红细胞识别方法和系统 | |
Priyankara et al. | An extensible computer vision application for blood cell recognition and analysis | |
CN112036334A (zh) | 待测样本中的有形成分分类方法、系统及终端 | |
EP3230887A1 (en) | Automated flow cytometry analysis method and system | |
EP3563342B1 (en) | Automated system and method for creating and executing a scoring guide to assist in the analysis of tissue specimen | |
CN114037868B (zh) | 图像识别模型的生成方法及装置 | |
CN113380318B (zh) | 人工智能辅助流式细胞术40cd免疫表型检测方法及系统 | |
CN113191141A (zh) | 问诊正则表达式生成方法、装置、设备及存储介质 | |
CN114219752B (zh) | 一种针对血清蛋白电泳的异常区域检测方法 | |
CN111684279A (zh) | 一种细胞分析方法、细胞分析装置及存储介质 | |
Bashashati et al. | A pipeline for automated analysis of flow cytometry data: preliminary results on lymphoma sub-type diagnosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |