CN113658150B - 一种基于深度学习的染色体自动分割和分类方法 - Google Patents

一种基于深度学习的染色体自动分割和分类方法 Download PDF

Info

Publication number
CN113658150B
CN113658150B CN202110970922.5A CN202110970922A CN113658150B CN 113658150 B CN113658150 B CN 113658150B CN 202110970922 A CN202110970922 A CN 202110970922A CN 113658150 B CN113658150 B CN 113658150B
Authority
CN
China
Prior art keywords
chromosome
chromosomes
image
training
contour
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110970922.5A
Other languages
English (en)
Other versions
CN113658150A (zh
Inventor
胡娜
吴晓明
祖建
胡曦
王彤
马欣越
刘红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Yanda Ludaopei Hospital Co ltd
Xian Jiaotong University
Original Assignee
Hebei Yanda Ludaopei Hospital Co ltd
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Yanda Ludaopei Hospital Co ltd, Xian Jiaotong University filed Critical Hebei Yanda Ludaopei Hospital Co ltd
Priority to CN202110970922.5A priority Critical patent/CN113658150B/zh
Publication of CN113658150A publication Critical patent/CN113658150A/zh
Application granted granted Critical
Publication of CN113658150B publication Critical patent/CN113658150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20152Watershed segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于深度学习的染色体自动分割和分类方法,包括以下步骤:获取染色体图像并使用Attention U‑Net模型过滤细胞杂质;分割染色体并裁剪出各个染色体区域图像;对获取的染色体区域提取特征并训练支持向量机、随机森林、逻辑回归分类器,采用投票法进行模型集成,进而识别重叠\粘连染色体或单条染色体;对判别为重叠\粘连染色体分别设计单独的分割模块,针对重叠染色体,利用先分离再拼接的办法分割,针对粘连染色体,利用凸缺陷点检测的方法进行分割;将标注好类型的染色体训练数据分别输入到24分类模型ResNet20、ResNet32、ResNet44模型中进行训练,然后用堆叠法进行模型集成,输出最终的染色体分类结果以及染色体核型分析图,以便进行染色体异常识别。

Description

一种基于深度学习的染色体自动分割和分类方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于深度学习的染色体自动分割和分类方法。
背景技术
染色体分析(核型分析)是生物学研究领域非常重要而且很困难的任务,染色体分析的目的就是要确定细胞或个体的染色体组成,尤其是要将其与正常结构间的差异与生理的或临床疾病关联起来。观察细胞分裂中期染色体的核型是一个很困难和繁重的过程。首先,培养样本组织的细胞,使用培养物进行切片及染色;然后在准备好的显微切片上寻找适合观察的细胞,并用摄像头以数字形式捕获,细胞遗传学人员人工按他们的形态和带型将单条染色体分离,再将它们粘贴到一个模板以产生最后的核型分析图;最后分析核型图来检查是否可能存在遗传疾病等。
针对染色体中期图像进行人工分割和分类处理主要有以下难点:(1)染色体中期图像包含较多的染色体,分割出所有的染色体需要耗费大量的时间和精力,杂质的存在和染色体之间的粘连和重叠也增加了分割工作的难度;(2)需要专业的医生花费大量的时间和精力,根据不同类别染色体的形态结构对分割后的单条染色体进行分类,而一些染色体由于玻片制作的原因导致形态结构的差异较小,使分类难度增大,分类准确度降低;(3)专业医生人才稀缺,培养时间长、成本高。本发明将染色体的分割-分类问题与图像处理、机器学习、深度学习等技术相结合,开发一套可靠的染色体自动分割-分类系统,实现染色体核型分析的自动化、智能化,整体提高染色体分割-分类的效率和准确率。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,即目前的染色体核型分析方法耗时长、效率低、准确率不足无法满足临床工作的需求,为此本发明提供一种基于深度学习的染色体自动分割和分类方法来解决人工分割和分类处理存在的难点。
本发明采用以下技术方案:
一种基于深度学习的染色体自动分割和分类方法,包括以下步骤:
S1、获取染色体图像并使用Attention U-Net模型过滤掉非染色体的细胞杂质;
S2、对S1中的染色体图像使用Attention U-Net分割出染色体的轮廓,并使用带标记的分水岭算法进行分割优化,最终裁剪出各个染色体区域图像;
S3、对S2中获取的染色体区域提取基于轮廓的关键特征,采用提取的关键特征训练支持向量机、随机森林、逻辑回归分类器,并且采用投票法对三种分类器进行模型集成,最后将染色体区域判别为重叠\粘连染色体或单条染色体;
S4、对判别为重叠\粘连染色体分别设计单独的分割模块,针对重叠染色体,利用先分离再拼接的办法分割;针对粘连染色体,利用凸缺陷点检测的方法进行分割;
S5、构建了基于ResNet20、ResNet32、ResNet44的染色体24分类模型,然后用堆叠法进行模型集成,输出最终的染色体分类结果以及核型分析图,供专业人员进行染色体异常识别。
步骤S1具体为:
S101、统一原始染色体图像尺寸、图像格式、通道数,数据增广;
S102、将含细胞等杂质的染色体图片输入到Attention U-Net网络进行训练,识别结果为对应杂质的掩膜,从而去除细胞杂质;
S103、使用中值滤波法对图像去噪。
步骤S2具体为:
S201、对染色体图像使用Attention U-Net分割出染色体的轮廓,并与原始图片进行或运算,得到带有染色体轮廓的图像;
S202、对带有染色体轮廓的图像进行二值化、形态学开运算,形态学膨胀操作得到背景区域,即染色体外部;
S203、距离变换得到前景区域,即染色体内部;
S204、前景区域减去背景区域得到未知区域;
S205、设置标记,背景和前景设为1,未知区域为0;
S206、执行分水岭得到染色体轮廓图;
S207、通过二值化、腐蚀膨胀填充细微断点;
S208、获得轮廓点集;
S209、判断并保存染色体内轮廓点;
S210、利用区域生长法制作每条染色体对应的掩膜,为了减小运算量,可以先对目标区域进行外接矩形裁剪,尽可能缩小需要遍历的区域;然后以矩形中心为种子进行填充,填充完的掩膜再原位替换回图片中;最后将掩膜依次与原图像或运算,将目标染色体分离出来;
S211、通过染色体的最小外接矩形顶点坐标,剪裁矩形区域,根据顶点坐标以及边长间的几何关系推算出矩形的旋转角度;然后旋转裁剪出来的染色体图像,使其在图片中竖直摆放。
步骤S3具体为:
S301、对提取出来的染色体进行标注,单条染色体标注为0,重叠\粘连染色体标注为1,由于重叠\粘连染色体远比单条染色体图像少,存在数据不平衡的现象,因此对非单条染色体进行数据增广;
S302、提取染色体轮廓的关键特征,包括:将所获得染色体轮廓形状拟合成凸包,计算闭合轮廓的面积和凸包面积的比值;将所获得染色体轮廓形状拟合成多边形,记录多边形的边数等特征;
S303、使用上述提取的染色体轮廓关键特征训练支持向量机、随机森林、逻辑回归分类器,并且采用投票法对三种分类器进行模型融合,判定染色体轮廓特征是否满足重叠条件,用以识别重叠\粘连染色体和单条染色体。
步骤S4具体为:
S401、针对重叠染色体的分割,首先利用Attention U-Net提取重叠区域,再使用分水岭算法将交叉重叠区域中的重叠染色体分为两组:重叠部分和非重叠部分,对所有不重叠的部分进行配对后,将它们与交叉重叠部分相结合,输出所有的单条染色体;
S402、针对粘连染色体的分割,先找到所有的凸缺陷点,然后画出分割线来消除粘连。
步骤S5具体为:
S501、模型的训练数据使用从已标注好的91组正常核型分析图中截取的单条染色体,包含44条常染色体以及XX或XY两条性染色体,一共有4184张单条染色体图片;
S502、将训练数据分别输入到ResNet20、ResNet32、ResNet44模型中进行训练,得到一个新的训练集和测试集;
S503、再用一个简单的两层全连接分类模型以真实训练集标签为标签训练,以新的训练集为特征进行训练,在新的测试集上得到最终的测试集分类准确率。
与现有技术相比,本发明至少具有以下有益效果:
将染色体核型分析问题与图像处理、机器学习、深度学习等技术相结合,开发了一种染色体自动分割-分类方法,实现染色体核型分析的自动化、智能化,整体提高染色体核型分析的效率和准确率。下面通过附图和实施例子,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的总体流程图;
图2为去除细胞杂质流程图;
图3为Attention U-Net模型结构图;
图4为分割染色体轮廓流程图;
图5为使用带标记的分水岭分割优化流程图;
图6为裁剪染色体示意图;
图7为染色体区域识别流程图;
图8为重叠染色体分割流程图;
图9为粘连染色体分割流程图;
图10为染色体24分类流程图;
图11为采用本发明方法得到的模型检验效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
请参阅图1,本发明一种基于Attention U-Net和残差网络的染色体自动分割-分类方法及系统,包括以下步骤:
S1、获取染色体图像并使用Attention U-Net模型过滤掉非染色体的细胞杂质;
S101、对600张染色体图片进行统一尺寸、归一化,由于数据量太小,因此对数据进行旋转、缩放等操作进行数据增广;
S102、去除细胞杂质;
实施过程参考图2:
S1021、数据准备:利用Labelme标注软件对染色体图像进行标注,得到标注文件JSON;
S1022、模型训练:U-net网络结构包括一个下采样的特征提取路径和一个上采样的图像恢复路径。下采样路径上是每两个3*3的卷积层后会跟一个2*2的最大池化层作为一层下采样,共4层。上述每个卷积层后面采用的是Relu激活函数,在上采样路径中,每一步会有一个2*2的反卷积层和两个3*3的卷积层(激活函数也是Relu)作为一层上采样层,共4层。最底端的下采样层和上采样层由两个卷积层连接。与此同时,每一步的上采样都会加入来自相对应下采样路径的特征图,在网络的最后一层是一个1*1的卷积层将64通道的特征向量转换为所需要的分类结果的数量。Attention Gates会抑制无关背景区域中的特征响应,而无需在网络之间裁剪ROI。从而将U-Net与Attention Gates相结合可以增加模型对前景像素的敏感度。Attention U-Net的模型结构图见图3。
将增强之后的染色体数据集800张,按照7:3的比例划分数据集为训练集和测试集,通过对训练集进行平移、旋转、翻转进行数据增强后再输入Attention U-Net,设置迭代次数为21次,学习率为0.001,一次训练2个样本。由于在图像中目标区域的像素个数一般较少,属于小面积区域,然而图像中非目标区域的像素数量却相对较多,这就造成了图像分割时各类别像素在数量上的不均衡现象。针对这种现象,使用Dice Loss作为模型训练的损失函数,公式如下:
Figure BDA0003225659760000071
其中,P、G分别表示区域P、G中的元素数量;P∩G表示图像P和G相同的元素的数量,在计算时近似为图像P和G的点乘;ε是一个用于拉普拉斯平滑处理的很小的数,取值为1,避免出现分母为0的情况。由于分割网络重点关心的是图像中的重叠区域,所以在本实验应用中,G代表标准分割图像中的重叠区域,P代表分割结果图像中的重叠区域,这样就可以有效地避免背景和目标像素的不均衡现象对模型训练的影响。最后保存训练好的网络模型的最佳参数值;
S1023、模型评估:利用训练好的模型对测试集中的数据进行测试,采用平均交并比(MIoU)为评价指标对模型测试结果进行评价,其评价指标计算公式如下:
Figure BDA0003225659760000072
其中,TP表示正样本中被正确分类的样本量;FN表示正样本中被错误分类的样本量;FP表示负样本中被错误分类的样本量;TN表示负样本中被正确分类的样本量;P表示正样本的数量;N表示负样本的数量;P+N表示正负样本的数量。MIoU是计算每一类真实值和预测值两个集合的交集和并集之比,再进行平均。模型测试得到的MIoU值为0.894;
S1024、将预测得到的掩膜与原图进行或运算就可以得到去除杂质后的染色体图像。
S2、对S1中的染色体图像使用Attention U-Net分割出染色体的轮廓,并使用带标记的分水岭算法进行分割优化,最终裁剪出各个染色体区域图像;
请参阅图4,具体步骤如下:
S201、对染色体图像使用Attention U-Net分割出染色体的轮廓,并与原始图片进行叠加;
S2011、数据准备:通过Scikit-image集成的边界识别功能绘制大致的染色体轮廓;
S2012、模型训练:通过对训练集进行平移、旋转、翻转进行数据增强后,再输入Attention U-Net,设置迭代次数为21次,学习率为0.001,一次训练2个样本,选取DiceLoss作为损失函数,最后保存训练好的网络模型的最佳参数值;
S2013、模型评估:用训练好的模型对测试集中的数据进行测试,采用平均交并比(MIoU)为评价指标对模型测试结果进行评价,得到的MIoU值为0.920;
S2014、将预测的掩膜与原图进行或运算就可以得到带有染色体轮廓的图像。
S202、分水岭分割的流程图请参阅图5。对带有染色体轮廓的图像的图像进行二值化、形态学开运算,形态学膨胀操作得到背景区域即染色体外部;
在对染色体显微图像进行研究时,由于二值图像可以较好的反映出染色体的轮廓与几何特点,并且可以作为掩膜帮助提取染色体显微图像中的目标区域即染色体,所以研究过程中经常需要对染色体显微图像进行二值化,通过二值化将图像分成背景和目标两部分。
在图像处理中,形态学操作是被广泛使用的一种操作,其中最常用的是膨胀和腐蚀。这两种操作都是通过选择不同结构的核作用于二值图像,达到对图像中目标区域形态结构的膨胀或腐蚀。先腐蚀后膨胀的操作称为开运算,主要用于断开两个区域间细小和狭窄的连接,消除毛刺等。
通过腐蚀运算移除边界像素,得到的图像中的白色区域肯定是真实前景,即靠近染色体的区域;膨胀运算使得一部分背景成为了物体到的边界,得到的图像中的黑色区域肯定是真实背景,即远离染色体的区域。
S203、距离变换得到前景区域即染色体内部;
距离变换是一种针对二值图像的操作运算,经距离变换后得到的灰度图像中,每一个像素的灰度值是该像素与其最近的背景像素点间的距离,类似于地理学上的等高线图。距离变换的算法常用的是欧氏距离。因为欧氏距离应用了连续函数的特性,因此在计算上更接近真实图像,也更精确。距离变换将二值图像中像素点间不同的位置信息转化为不同的灰度信息,由于边缘像素具有较小的灰度值,在图像中明显地与其他像素区域分开来。
S204、表示未知区域:用之前的膨胀得到的染色体背景图减去染色体前景图就得到未知区域;
S205、设置标记,背景和前景设为1,未知区域为0;
创建标记,它是一个与原始图像大小相同的矩阵,表示其中的每个区域。分水岭算法将标记的0的区域视为未知区域,将标记为1的区域视为背景区域,将标记大于1的正整数表示前景。
S206、执行分水岭得到染色体轮廓图;
对确定的前景图像进行连接组件处理,得到标记图像,根据标记图像对原图像应用分水岭算法,得到染色体轮廓图。
染色体的裁剪流程请参阅图6,具体步骤如下:
S207、通过二值化、腐蚀膨胀填充细微断点;
S208、获得轮廓点集;
利用OpenCV中findcontours函数获得轮廓点集。
S209、判断并保存染色体轮廓内轮廓点;
所有找到的闭合轮廓间的等级关系存在一个n*4的矩阵中,其中n为找到轮廓数量,行序号与轮廓点集合序号相对应。每一行包括4列整型数据,分别表示:后一个轮廓的序号、前一个轮廓的序号、子轮廓的序号、父轮廓的序号。根据定义,当3、4项分别为-1和任意不为-1的整数时该轮廓没有子轮廓有父轮廓,可以认为是一个染色体的内轮廓。将轮廓点集里所有符合条件的点逐一画在一张和原图像尺寸一样的空白图片上。
S210、利用区域生长法制作每条染色体对应的掩膜;
区域生长是指从某个像素出发,按照一定的准则,逐步加入邻近像素,当满足一定的条件时,区域生长终止。区域生长是从某个或者某些像素点出发,最后得到整个区域,进而实现目标的提取。为了减小运算量,可以先对目标区域进行外接矩形裁剪,尽可能缩小需要遍历的区域。然后以矩形中心为种子进行填充,填充完的掩膜再原位替换回图片中。最后将掩膜依次与原图像或运算,将目标染色体分离出来。
S211、通过染色体的最小外接矩形顶点坐标,剪裁矩形区域,根据顶点坐标以及边长间的几何关系推算出矩形的旋转角度,然后旋转裁剪出来的染色体图像,使其在图片中竖直摆放。
S3、对S2中获取的染色体区域提取基于轮廓的关键特征,采用提取的关键特征训练支持向量机、随机森林、逻辑回归分类器,并且采用投票法对三种分类器进行模型集成,最后将染色体区域判别为重叠\粘连染色体或单条染色体;
请参阅图7,具体步骤如下:
S301、数据准备:对提取出来的染色体区域图像进行标注,单条染色体标注为0,重叠\粘连染色体标注为1。从30张图片中共提取出1271个染色体区域,其中单条染色体区域有1202个,重叠粘连染色体有69个。由于重叠\粘连染色体远比单条染色体图像少,存在数据不平衡的现象,因此对非单条染色体进行数据增广。将图像进行旋转,水平位置平移和上下位置平移、错切变换、在长宽两个方向进行同等程度的放缩、随机对图片执行水平翻转操作。
最终重叠\粘连染色体增加到802张,解决了数据不平衡的问题。
S302、提取染色体轮廓的关键特征;
通过OpenCV的相关函数获取染色体轮廓的8个特征,分别是:(1)轮廓面积;(2)轮廓周长;(3)近似多边形的边数,一般重叠粘连染色体多边形边数接近4左右,单条染色体所拟合的多边形边数为1;(3)轮廓矩形度,矩形度是指物体的轮廓面积与最小外接矩形框面积的比值;(4)宽长比,宽长比是指最小外接矩形的长轴与短轴的比值;(5)轮廓物体面积和凸包面积比;(6)周径比的周即周长,径是指上面找到的轮廓最小外接矩形的长的一条边;(7)与轮廓物体面积相等的圆的直径;(8)轮廓的极值点。
S302、使用上述标注染色体轮廓关键特征训练分类器,然后用投票法进行模型融合提升分类准确率,判定染色体轮廓特征是否满足重叠条件,用以识别重叠\粘连染色体和单条染色体。
S3021、将增强后的数据集按照7:3的比例分为训练集和测试集,分别用支持向量机、随机森林、逻辑回归三个基模型进行训练,并用投票法将这三种模型进行模型集成。投票法是集成学习里面针对分类问题的一种结合策略,是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性,在理想情况下,投票法的预测效果优于任何一个基模型的预测效果。
S3022、利用训练好的模型对测试集中的数据进行测试,采用四个分类指标对其进行评价测试结果。分类指标分别为准确率(Accuracy),精确率(Precision),召回率(Recall)和F1分数(F1-score),其计算公式如下:
Figure BDA0003225659760000111
Figure BDA0003225659760000112
Figure BDA0003225659760000113
Figure BDA0003225659760000114
Figure BDA0003225659760000115
利用四个评价指标对模型测试结果进行评价,得到的评价指标准确率为98%、精确率为99%、召回率为97%、F1分数为98%。
S4、对判别为重叠粘连染色体分别设计单独的分割模块,针对重叠染色体,利用先分离再拼接的办法分割;针对粘连染色体,利用凸缺陷点检测的方法进行分割;
S401、针对重叠染色体的分割,请参阅图8,具体步骤如下:
首先利用Attention U-Net提取重叠区域,再使用分水岭算法将交叉重叠区域中的重叠染色体分为两组:重叠部分和非重叠部分。在对所有不重叠的部分进行分组后,将它们与交叉重叠部分相结合,输出所有的单条染色体。
S4011、数据准备:数据集包括原始图片476张,标签图像有476张,网络训练时,首先从处理获得的所有重叠染色体中随机选取15%作为测试集数据,其余85%全部作为训练集数据,然后再从训练数据中随机选取20%作为模型训练的验证集数据,并将每个染色体区域放置在尺寸为128×128的纯白色图像中心位置;
S4012、模型训练:在训练网络时选择使用一种自适应的优化器Adam,它在训练过程中能够计算出每个参数的自适应学习率,加快训练的收敛速度。其它的网络训练参数设置学习率为0.001,设置批大小为2,设置样本训练迭代数为21,在训练过程中,选取DiceLoss作为损失函数,最后保存训练好的网络模型的最佳参数值;
S4013、模型评估:考虑到对染色体区域图像中重叠区域的分割是一种图像像素级别的二分类任务,利用训练好的模型对测试集中的数据进行测试,采用MIoU对其进行评价测试,得到的MIoU值为0.721;
S4015、获取染色体的非重叠区域:将分割结果图与原图进行或运算得到非重叠区域,再对非重叠区域进行二值化;
S4016、对于每个重叠部分及其非重叠部分,首先计算所有部分的中心坐标;具体来说,在计算非重叠部分的中心坐标时,只考虑其所属重叠部分圆盘区域内的点,以避免受到形状不可预料或卷曲较大的染色体的影响。然后,从非重叠部分的每个中心到交叉重叠部分的中心连接一条直线,然后经过该中心延伸,就像从非重叠部分到重叠部分发射光线一样。如果一条延长的直线与圆盘区域中至少一个不重叠的部分相交,就可以得出结论,这两个部分属于同一条染色体。利用该算法,我们发现大多数复杂的交叉重叠染色体可以有效地分割和重建。
S402、分割粘连染色体,请参阅图9,具体步骤如下:
先找到所有的凸缺陷点,缺陷点按以下列表返回:起点、终点、最远点、到最远点的近似距离。然后根据以下条件过滤缺陷点:(1)到最远点的近似距离是否大于1;(2)该点与最远的点相比是否至少有80%的距离。在收集了所有凸性缺陷点之后,就可以通过每次简单地连接两个最近的点来连接它们。
5.构建了基于ResNet20、ResNet32、ResNet44的染色体24分类模型,然后用堆叠法进行模型集成,输出最终的染色体分类结果以及核型分析图,供专业人员进行染色体异常识别。
请参阅图10,具体步骤如下:
S501、准备数据:模型的训练数据使用从核型分析图中截取的单条染色体,包含44条常染色体以及XX或XY两条性染色体,一共有4184张单条染色体图片,在输入模型之前进行细节增强锐化染色体图像;
S502、模型构建:分类网络选取的是ResNet20、ResNet32、ResNet44模型;一般来讲,模型层数的加深有利于更好的提取特征,但是随之而来会出现训练准确率下降,错误率上升的现象,这就是所谓的“退化”问题。“退化”问题不是过拟合产生的,而是随着模型复杂度的提高,模型优化变得更加困难所致。残差网络ResNet通过跳过一层或多层,解决了CNN的“退化”问题。残差网络包含了卷积块和恒等块两种结构,ResNet20是一个20层的残差网络,模型输出的结果为该染色体是24(22+XY)类染色体中每一种的概率,其中概率最大值对应的分类即为模型预测结果,将数据集按照6:2:2的比例划分为训练集,验证集和测试集,其中学习速率初始值为0.0001。设置了100次迭代,一次训练32个样本,在训练模型之前,还定义了一个回调函数,当度量停止改进时,降低学习率。损失函数选取多分类交叉熵损失函数。
S503、模型集成:采用stacking算法进行模型集成;首先将训练数据分别输入到三个ResNet20模型中进行训练,假设ResNet20模型为Model1_1,对训练集进行训练,然后用于预测训练集和测试集的标签,分别是P1,T1;ResNet32模型为Model1_2,对训练集进行训练,训练后的模型Model1_2分别在训练集和测试集上预测,得到预测标签分别是P2,T2;ResNet34模型为Model1_3,对训练集进行训练,训练后的模型Model1_3分别在训练集和测试集上预测,得到预测标签分别是P3,T3;分别把P1,P2,P3以及T1,T2,T3合并,得到一个新的训练集和测试集。
S504、再用一个Meta-Classifier即两层全连接分类模型以真实训练集标签为标签训练,以新的训练集为特征进行训练,在新的测试集上得到最终的分类准确率为94%。
S505、对分类模型分类错误的染色体进行人工辅助,将染色体分类结果进行排列,最后输出精确的核型分析图。
本发明在一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于多特征和多分类器的骨髓细胞分类识别的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行:
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一种基于深度学习的染色体自动分割和分类方法,获取10张原始染色体图像并进行分割得到单条染色体,然后利用测试效果最好的染色体24分类模型进行检验,得到最终的模型应用效果,如表1所示,将模型应用到现实场景下,验证了本发明的准确性和可行性。
表1模型检验分类指标结果
Figure BDA0003225659760000151
Figure BDA0003225659760000161
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的改动,均落入本发明权利要求书的保护范围之内。

Claims (6)

1.一种基于深度学习的染色体自动分割和分类方法,其特征在于,包括以下步骤:
S1、获取染色体图像并使用Attention U-Net模型过滤掉非染色体的细胞杂质;
S2、对S1中的染色体图像使用Attention U-Net分割出染色体的轮廓,并使用带标记的分水岭算法进行分割优化,最终裁剪出各个染色体区域图像;
S3、对S2中获取的染色体区域提取基于轮廓的关键特征,采用提取的关键特征训练支持向量机、随机森林、逻辑回归分类器,并且采用投票法对三种分类器进行模型集成,最后将染色体区域判别为重叠\粘连染色体或单条染色体;
S4、对判别为重叠\粘连染色体分别设计单独的分割模块,针对重叠染色体,利用先分离再拼接的办法分割;针对粘连染色体,利用凸缺陷点检测的方法进行分割;
S5、构建基于ResNet20、ResNet32、ResNet44的染色体24分类模型,然后用堆叠法进行模型集成,输出最终的染色体分类结果以及核型分析图,供专业人员进行染色体异常识别。
2.根据权利要求1所述的方法,其特征在于,步骤S1具体为:
S101、统一原始染色体图像尺寸、图像格式、通道数,数据增广;
S102、将含细胞等杂质的染色体图片输入到Attention U-Net网络进行训练,识别结果为对应杂质的掩膜,从而去除细胞杂质;
S103、使用中值滤波法对图像去噪。
3.根据权利要求1所述的方法,其特征在于,步骤S2具体为:
S201、对染色体图像使用Attention U-Net分割出染色体的轮廓,并与原始图片进行或运算,得到带有染色体轮廓的图像;
S202、对带有染色体轮廓的图像进行二值化、形态学开运算,形态学膨胀操作得到背景区域,即染色体外部;
S203、距离变换得到前景区域,即染色体内部;
S204、前景区域减去背景区域得到未知区域;
S205、设置标记,背景和前景设为1,未知区域为0;
S206、执行分水岭得到染色体轮廓图;
S207、通过二值化、腐蚀膨胀填充细微断点;
S208、获得轮廓点集;
S209、判断并保存染色体内轮廓点;
S210、利用区域生长法制作每条染色体对应的掩膜,为了减小运算量,可以先对目标区域进行外接矩形裁剪,尽可能缩小需要遍历的区域;然后以矩形中心为种子进行填充,填充完的掩膜再原位替换回图片中;最后将掩膜依次与原图像或运算,将目标染色体分离出来;
S211、通过染色体的最小外接矩形顶点坐标,剪裁矩形区域,根据顶点坐标以及边长间的几何关系推算出矩形的旋转角度;然后旋转裁剪出来的染色体图像,使其在图片中竖直摆放。
4.根据权利要求1所述的方法,其特征在于,步骤S3具体为:
S301、对提取出来的染色体进行标注,单条染色体标注为0,重叠\粘连染色体标注为1,由于重叠\粘连染色体远比单条染色体图像少,存在数据不平衡的现象,因此对非单条染色体进行数据增广;
S302、提取染色体轮廓的关键特征,包括:将所获得染色体轮廓形状拟合成凸包,计算闭合轮廓的面积和凸包面积的比值;将所获得染色体轮廓形状拟合成多边形,记录多边形的边数等特征;
S303、使用上述提取的染色体轮廓关键特征训练支持向量机、随机森林、逻辑回归分类器,并且采用投票法对三种分类器进行模型融合,判定染色体轮廓特征是否满足重叠条件,用以识别重叠\粘连染色体和单条染色体。
5.根据权利要求1所述的方法,其特征在于,步骤S4具体为:
S401、针对重叠染色体的分割,首先利用Attention U-Net提取重叠区域,再使用分水岭算法将交叉重叠区域中的重叠染色体分为两组:重叠部分和非重叠部分,对所有不重叠的部分进行配对后,将它们与交叉重叠部分相结合,输出所有的单条染色体;
S402、针对粘连染色体的分割,先找到所有的凸缺陷点,然后画出分割线来消除粘连。
6.根据权利要求1所述的方法,其特征在于,步骤S5具体为:
S501、模型的训练数据使用从已标注好的91组正常核型分析图中截取的单条染色体,包含44条常染色体以及XX或XY两条性染色体,一共有4184张单条染色体图片;
S502、将训练数据分别输入到ResNet20、ResNet32、ResNet44模型中进行训练,得到一个新的训练集和测试集;
S503、再用一个简单的两层全连接分类模型以真实训练集标签为标签训练,以新的训练集为特征进行训练,在新的测试集上得到最终的测试集分类准确率。
CN202110970922.5A 2021-08-23 2021-08-23 一种基于深度学习的染色体自动分割和分类方法 Active CN113658150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110970922.5A CN113658150B (zh) 2021-08-23 2021-08-23 一种基于深度学习的染色体自动分割和分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110970922.5A CN113658150B (zh) 2021-08-23 2021-08-23 一种基于深度学习的染色体自动分割和分类方法

Publications (2)

Publication Number Publication Date
CN113658150A CN113658150A (zh) 2021-11-16
CN113658150B true CN113658150B (zh) 2022-12-09

Family

ID=78481681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110970922.5A Active CN113658150B (zh) 2021-08-23 2021-08-23 一种基于深度学习的染色体自动分割和分类方法

Country Status (1)

Country Link
CN (1) CN113658150B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170218B (zh) * 2021-12-16 2022-12-06 易构智能科技(广州)有限公司 一种染色体图像实例标签生成方法及系统
CN115222644B (zh) * 2021-12-17 2023-07-11 深圳市瑞图生物技术有限公司 染色体图像处理方法、分析设备及存储介质
CN115063412B (zh) * 2022-08-04 2022-11-29 湖南自兴智慧医疗科技有限公司 一种染色体图像拼接方法及染色体核型分析方法
CN115063411A (zh) * 2022-08-04 2022-09-16 湖南自兴智慧医疗科技有限公司 一种染色体异常区域分割检测方法和系统
CN115018831A (zh) * 2022-08-04 2022-09-06 湖南自兴智慧医疗科技有限公司 重叠染色体分离方法、系统、电子终端及可读存储介质
CN115049686B (zh) * 2022-08-15 2022-11-29 湖南自兴智慧医疗科技有限公司 一种基于辅助信息的复杂染色体区域分割方法及装置
CN115375682B (zh) * 2022-10-24 2023-01-20 湖南自兴智慧医疗科技有限公司 一种染色体罗氏易位异常检测方法、系统及存储介质
CN117934337B (zh) * 2024-03-22 2024-05-28 笑纳科技(苏州)有限公司 一种基于无监督学习用于被遮挡染色体掩膜修复的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934828B (zh) * 2019-02-28 2023-03-24 西交利物浦大学 基于Compact SegUnet自学习模型的双染色体图像切割方法
CN112215800B (zh) * 2020-09-14 2023-01-06 北京航空航天大学 基于机器学习的重叠染色体识别和分割方法
CN112288706B (zh) * 2020-10-27 2022-06-24 武汉大学 一种自动化的染色体核型分析以及异常检测方法

Also Published As

Publication number Publication date
CN113658150A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN113658150B (zh) 一种基于深度学习的染色体自动分割和分类方法
JP6710135B2 (ja) 細胞画像の自動分析方法及びシステム
CN112215800B (zh) 基于机器学习的重叠染色体识别和分割方法
CN111145188B (zh) 一种基于ResNet与UNet模型的图像分割方法
CN111145209A (zh) 一种医学图像分割方法、装置、设备及存储介质
CN106340016A (zh) 一种基于细胞显微镜图像的dna定量分析方法
CN111461068A (zh) 一种染色体中期图识别和分割方法
Kheradmand et al. Inner cell mass segmentation in human hmc embryo images using fully convolutional network
CN110110667B (zh) 一种硅藻图像的处理方法、系统及相关组件
AU2019223959B2 (en) Three-dimensional cell and tissue image analysis for cellular and sub-cellular morphological modeling and classification
CN112132827A (zh) 病理图像的处理方法、装置、电子设备及可读存储介质
Travieso et al. Pollen classification based on contour features
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN115331245A (zh) 一种基于图像实例分割的表格结构识别方法
CN111950544A (zh) 一种确定病理图像中感兴趣区域的方法及装置
WO2013148485A2 (en) Detection of tissue regions in microscope slide images
CN115775226B (zh) 基于Transformer的医学图像分类方法
CN113658199B (zh) 基于回归修正的染色体实例分割网络
CN115641317A (zh) 面向病理图像的动态知识回溯多示例学习及图像分类方法
CN114511862A (zh) 表格识别方法、装置及电子设备
Nasr-Isfahani et al. A new approach for touching cells segmentation
Dzyubachyk et al. Model-based approach for tracking embryogenesis in Caenorhabditis elegans fluorescence microscopy data
CN113450355A (zh) 一种基于多膜态ct图像和3dcnn网络提取图像特征的方法
CN109993756B (zh) 一种基于图模型与连续逐步优化的通用医学图像分割方法
Kromp et al. Machine learning framework incorporating expert knowledge in tissue image annotation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant