CN109300111B - 一种基于深度学习的染色体识别方法 - Google Patents

一种基于深度学习的染色体识别方法 Download PDF

Info

Publication number
CN109300111B
CN109300111B CN201810979111.XA CN201810979111A CN109300111B CN 109300111 B CN109300111 B CN 109300111B CN 201810979111 A CN201810979111 A CN 201810979111A CN 109300111 B CN109300111 B CN 109300111B
Authority
CN
China
Prior art keywords
chromosome
deep learning
image
model
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810979111.XA
Other languages
English (en)
Other versions
CN109300111A (zh
Inventor
秦玉磊
周磊
宋宁
杨杰
吴朝玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Diagens Biotechnology Co ltd
Original Assignee
Hangzhou Diagens Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Diagens Biotechnology Co ltd filed Critical Hangzhou Diagens Biotechnology Co ltd
Priority to CN201810979111.XA priority Critical patent/CN109300111B/zh
Publication of CN109300111A publication Critical patent/CN109300111A/zh
Priority to US17/272,254 priority patent/US11436493B2/en
Priority to PCT/CN2019/090230 priority patent/WO2020042704A1/zh
Application granted granted Critical
Publication of CN109300111B publication Critical patent/CN109300111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于深度学习的染色体识别方法,属于染色体识别技术领域。目前分析染色体的办法基本上是手工操作,检验医生首先需要大量的培训时间才能掌握识别每个染色体类型的知识,工作负担较重。即使是经验丰富的医生对病人的染色体进行分析识别,整个流程一般也需要两个星期以上,时间周期较长。并且人工识别,主观性很强,很容易受外界环境影响,准确率不高。本发明采用深度学习方法能够对染色体类型进行准确、高效识别,相比现有识别技术,能够有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用。

Description

一种基于深度学习的染色体识别方法
技术领域
本发明涉及一种基于深度学习的染色体识别方法,属于染色体识别技术领域。
背景技术
人类染色体病是由先天性的染色体数目或结构异常而引起的一系列临床症状的综合征。主要有患儿智力低下,发育迟缓,先天性畸形。同时还会造成流产,死胎等。这些对于每一个家庭都是难以承受的。然而这一症状在我国的妊娠人群中的患病率约有5%-10%,在流产胚胎中占据一半以上。并且这些数据有逐年增长的趋势,我国政府及相关机构也开始重视染色体疾病。
临床检验人染色体病的方法是通过培养体细胞再经一系列的操作得到经染色显带核型样本,再经数码拍照得到照片,然后对染色体图片进行分析识别。目前分析染色体图片的方法,基本上是手工操作,人工识别,检验医生首先需要大量的培训时间才能掌握识别每个染色体类型的知识,工作负担较重。即使是经验丰富的医生对病人的染色体进行分析识别,整个流程一般也需要两个星期以上,时间周期较长。并且人工识别,主观性很强,很容易受外界环境影响,准确率不高。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种采用深度学习方法对染色体类型进行自动、准确、高效识别,有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用,部署简单的基于深度学习的染色体识别方法。
为实现上述目的,本发明的技术方案为:
一种基于深度学习的基于深度学习的染色体识别方法,包括以下步骤:
第一步,得到独立的染色体图像;
第二步,对染色体的手工特征进行计算;
第三步,对染色体进行基本的图像处理;
第四步,建立深度学习模型;
第五步,基于深度学习模型对染色体的类型进行预测。
本发明采用深度学习方法能够对染色体类型进行自动、准确、高效识别,相比现有识别技术,能够有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用,部署简单。
作为优选技术措施,
所述第二步,包括以下步骤:
a)基于形态学操作,以及骨架提取算法来提取染色体的骨架,并计算其长度;
b)将该染色体长度,除以同一细胞内最长的染色体长度,得到相对占比长度;
c)基于单个染色体图像计算:相对外接矩形的面积占比、相对其凸包的占比、离心率。
这三个指标是衡量染色体在形态上的特征,是否面积大,是否比较凸,是否很圆。以上特征将参与最终的模型构建,创新性地在深度网络中融入手动提取的特征,使得本发明的工序流程更加合理、有序。
作为优选技术措施,第三步,包括以下步骤:
a)将染色体图像沿着最长的轴放大至bs个pixel;另一个轴等比例的放大;不同染色体的图像尺寸不一致。但是由于算法和框架对于输入图像尺寸有一致性要求,本发明将所有图像都做了统一尺寸的处理,处理规则是按照图像较长的那一轴进行放大。
b)对放大的图像填充白色像素255,至正方形bs*bs pixel的大小。由于染色体图像原本背景颜色就是白色,所以填充白色。填充白色符合染色体图像的特征,降低图像处理的难度,提升染色体识别效率。
c)训练深度网络前,对图像进行旋转、翻转数据增强操作;
d)对所有输入图像进行标准化处理,使得图像输入尽可能标准一致,网络训练更容易收敛。
作为优选技术措施,第四步,包括以下步骤:
S1,建立模型结构:主干网络模型基于ResNet残差网络结构;
S2,通过使用残差学习Residual Learning的方式,能够极大提高模型抽取特征的有效性,而且能够在避免过拟合训练样本集的情况下,构建深层次的网络,提高模型的准确率;本模型的深度为:hs层;
S3,模型的分类器采用的是MLP多层感知器网络;采取该网络的要点在于能够构建一个端到端end-to-end网络,而无需单独基于特征再训练一个SVM分类器;本模型使用了两个MLP分类器,分别针对染色体的类型识别,以及极性识别;类型识别分类器的神经元参数构成为:(ms+ns)*24;极性识别分类器的神经元参数构成为ms*2;染色体的类别分类器目的是输出24种类别的染色体的预测概率,极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率;其中ms表示来源于对残差网络提取的最后特征的个数,ns表示来源于对额外手工提取特征的个数;
S4,对于MLP的分类器神经元参数设置(ms+ns);由于在以往的染色体分类文献中,长度信息是一个很重要的判断依据。因此,本模型综合考虑了深度学习特征以及手工设计特征,在分类时综合考虑CNN结果,以及染色体的相对骨架长度、相对外接矩形的面积占比、相对其凸包的占比、离心率。这样的构建方式,既兼顾了在大规模数据集上使用深度学习带来的数据红利,又使得算法考虑的特征具有一定可解释性,这是以往文献及方法所不曾考虑的。
S5,模型的损失函数Loss Function设置为交叉熵函数Cross-Entropy Loss,其定义的数学表达式如下:
Figure GDA0002328445510000031
其中,exp(x)为exponential的缩写,即为指数函数ex
x为MLP分类器输出的结果向量,Ncls为需要预测的分类总类别数;对于染色体的类型分类,x维度为24维,Ncls=24;对于极性分类,x其维度为2维,Ncls=2;j为计数下标,用于累加x向量中每个元素x[j];
t为真实的金标准标签,对于类别分类,其值在0-23之间,代表1号染色体至Y染色体;对于极性分类,其值为0和1,代表长臂向上,长臂向下;
整个函数是对概率值取了负对数,便于求解其最小值;对数中的分式解释意义,以类别预测为例:预测的所有类别结果x[j],j=1,2,...,24中,金标准标签t对应的类别的概率;
S6,深度学习模型的训练时,使用ADAM优化器。
作为优选技术措施,第五步,包括以下步骤:
a)使用深度学习模型,其MLP分类器的分别输出类别预测的24种概率值,以及极性预测的2种概率值;大部分染色体能够以极高的置信度被准确预测;所有类别预测的概率之和为1。比如预测该染色体图片是第一类的染色体概率为0.9,第二类的概率为0.05,第三类0.05,……,则根据概率最大的原则,认为该图片是第一类染色体。
b)对于深度学习预测结果中,假设染色体被预测为类别a的概率p是所有24个类别概率中最大的,则认为该染色体属于类别a,置信度就是概率p。若p小于0.7,则认为置信度不高。对于类别置信度不高的染色体,直接基于相对长度进行查找来预测其类别;根据染色体相对1号最长染色体长度的占比,可由查表法求出该相对值最接近的染色体类别;查表法中的相对长度表,是根据标准染色体图谱的计算得到的。
作为优选技术措施,还包括第六步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数;
Figure GDA0002328445510000041
Figure GDA0002328445510000042
Figure GDA0002328445510000043
Figure GDA0002328445510000044
Figure GDA0002328445510000045
Figure GDA0002328445510000046
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
其中敏感度与召回率的定义是一样的,但是敏感度是与特异度作为一对来衡量的,精确度与召回率是作为一对来衡量的,但实际公式计算上,敏感度与召回率无差别。建立合理的指标评价系统,能够及时了解本发明的识别效果,进而能够及时对发明进行改进。
作为优选技术措施,所述bs为含有因数32、64的数字,其值取256;由于染色体图像最长可能为310个像素,且256是距离310最近的,含有因数32,64的数字,选取256pixel一方面能够满足图像尺寸要求,另一方面有利于神经网络池化(pooling)后的最终图像尺寸符合深度学习的经验规则,便于本发明的数据处理以及精准度控制。
旋转的角度控制在正负30度之间,翻转包括水平翻转和竖直翻转;水平方向翻转是扩充样本多样性,竖直方向的翻转则是改变polarity极性的标签。翻转度数不宜过大,因为需要确定极性。若旋转度数过大,则会改变长臂的方向,也就改变了极性,因此不能够旋转太大角度,旋转的角度控制在正负30度之间,正好能够满足样本多样性的要求,同时不会导致极性的改变。
作为优选技术措施,标准化的步骤是,对每张染色体图像,首先计算每张染色体图像的均值和标准差,然后根据如下公式得到标准化处理后的图:
Figure GDA0002328445510000051
其中,μ为图像均值,σ为图像标准差;Imageold为原图,Imagenew为标准化处理后的图;经过该步骤处理,所有图像理论上已经具有0均值,1标准差了。此步骤的目的是让网络的输入尽可能标准一致,使得网络训练更容易收敛。
作为优选技术措施,S1,残差网络结构基于BasicBlock基础块的残差结构进行构建,使用了4组BasicBlock,每一组中BasicBlock的数量分别为3,6,27,3;该残差基础块的目的主要是通过拟合预测输出的特征的残差来训练CNN卷积神经网络,从而不断抽取高维特征,以供最终的分类。
作为优选技术措施,S6,ADAM优化器的参数分别设置为:β1=0.9,β2=0.99;训练的学习率初始设置为0.01,随着迭代次数增加而递减;训练总迭代次数为120,批量训练的样本大小Batchsize设置为256。
所述hs=80;经过实验可知,80层是比较理想的,更多层数并不能显著提升准确率,反而会因为样本不够多而无法对更多层的网络训练充分,且更高层数的网络占用的GPU显存更多,不适宜推广。低层次的网络则会影响准确率,网络层数太少,网络对样本预测类别的拟合能力就差,对样本多样性的适应能力就差。
ms取值范围为256-4096;ns=4。ms优选256,由于神经元数目越多,训练所需要的样本就越多,占用的计算资源也越多,残差网络提取最后256个特征即256个神经元,能够满足本发明的精准度要求,同时处理速率较快,占用资源少。
与现有技术相比,本发明具有以下有益效果:
本发明采用深度学习方法能够对染色体类型进行自动、准确、高效识别,相比现有识别技术,能够有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用,部署简单。
附图说明
图1为填充白色像素的图;
图2染色体原始图;
图3为图2所示染色体图经标准化处理后的图;
图4为图3所示染色体图经随机旋转后的图;
图5为图3所示染色体图经随机翻转后的图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
一种基于深度学习的基于深度学习的染色体识别方法,包括以下步骤:
第一步,得到独立的染色体图像;
第二步,对染色体的手工特征进行计算,其包括以下步骤:
a)基于形态学操作,以及骨架提取算法来提取染色体的骨架,并计算其长度;
b)将该染色体长度,除以同一细胞内最长的染色体长度,得到相对占比长度;
c)基于单个染色体图像计算:相对外接矩形的面积占比、相对其凸包的占比、离心率。
这三个指标是衡量染色体在形态上的特征,是否面积大,是否比较凸,是否很圆。以上特征将参与最终的模型构建,创新性地在深度网络中融入手动提取的特征,使得本发明的工序流程更加合理、有序。
第三步,对染色体进行基本的图像处理,其包括以下步骤:
a)将染色体图像沿着最长的轴放大至bs个pixel;另一个轴等比例的放大;不同染色体的图像尺寸不一致。但是由于算法和框架对于输入图像尺寸有一致性要求,本发明将所有图像都做了统一尺寸的处理,处理规则是按照图像较长的那一轴进行放大。所述bs为含有因数32、64的数字,其值取256;由于染色体图像最长可能为310个像素,且256是距离310最近的,含有因数32,64的数字,选取256pixel一方面可以满足图像尺寸要求,另一方面有利于神经网络池化(pooling)后的最终图像尺寸符合深度学习的经验规则,便于本发明的数据处理以及精准度控制。
b)对放大的图像填充白色像素255,至正方形256x256pixel的大小。由于染色体图像原本背景颜色就是白色,所以填充白色,参见图1。填充白色符合染色体图像的特征,降低图像处理的难度,提升染色体识别效率。
c)训练深度网络前,对图像进行旋转、翻转数据增强操作;旋转的角度控制在正负30度之间,翻转包括水平翻转和竖直翻转;水平方向翻转是扩充样本多样性,参见图4,竖直方向的翻转则是改变polarity极性的标签,参见图5。翻转度数不宜过大,因为需要确定极性。若旋转度数过大,则会改变长臂的方向,也就改变了极性,因此不可以旋转太大角度,旋转的角度控制在正负30度之间,正好能够满足样本多样性的要求,同时不会导致极性的改变。
d)对所有输入图像进行标准化处理,使得图像输入尽可能标准一致,网络训练更容易收敛。标准化的步骤是,对每张染色体图像,首先计算每张染色体图像的均值和标准差,然后根据如下公式得到标准化处理后的图:
Figure GDA0002328445510000071
其中,μ为图像均值,σ为图像标准差;Imageold为原图,Imagenew为标准化处理后的图;经过该步骤处理,所有图像理论上已经具有0均值,1标准差了,参见图2-3。此步骤的目的是让网络的输入尽可能标准一致,使得网络训练更容易收敛。
第四步,建立深度学习模型,其包括以下步骤:
S1,建立模型结构:主干网络模型基于ResNet残差网络结构;S1,残差网络结构基于BasicBlock基础块的残差结构进行构建,使用了4组BasicBlock,每一组中BasicBlock的数量分别为3,6,27,3;该残差基础块的目的主要是通过拟合预测输出的特征的残差来训练CNN卷积神经网络,从而不断抽取高维特征,以供最终的分类。
S2,通过使用残差学习Residual Learning的方式,能够极大提高模型抽取特征的有效性,而且能够在避免过拟合训练样本集的情况下,构建深层次的网络,提高模型的准确率;本模型的深度为:80层;经过实验可知,80层是比较理想的,更多层数并不能显著提升准确率,反而会因为样本不够多而无法对更多层的网络训练充分,且更高层数的网络占用的GPU显存更多,不适宜推广。低层次的网络则会影响准确率,网络层数太少,网络对样本预测类别的拟合能力就差,对样本多样性的适应能力就差。
S3,模型的分类器采用的是MLP多层感知器网络;采取该网络的要点在于能够构建一个端到端end-to-end网络,而无需单独基于特征再训练一个SVM分类器;本模型使用了两个MLP分类器,分别针对染色体的类型识别,以及极性识别;类型识别分类器的神经元参数构成为:(ms+ns)*24;极性识别分类器的神经元参数构成为ms*2;染色体的类别分类器目的是输出24种类别的染色体的预测概率,极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率;其中ms表示来源于对残差网络提取的最后特征的个数,ns表示来源于对额外手工提取特征的个数。
ms=256;ns=4,由于神经元数目越多,训练所需要的样本就越多,占用的计算资源也越多,残差网络提取最后256个特征即256个神经元,能够满足本发明的精准度要求,同时处理速率较快,占用资源少。
S4,对于MLP的分类器神经元参数设置(ms+ns),由于在以往的染色体分类文献中,长度信息是一个很重要的判断依据。因此,本模型综合考虑了深度学习特征以及手工设计特征,在分类时综合考虑CNN结果,以及染色体的相对骨架长度、相对外接矩形的面积占比、相对其凸包的占比、离心率。这样的构建方式,既兼顾了在大规模数据集上使用深度学习带来的数据红利,又使得算法考虑的特征具有一定可解释性,这是以往文献及方法所不曾考虑的。
S5,模型的损失函数Loss Function设置为交叉熵函数Cross-Entropy Loss,其定义的数学表达式如下:
Figure GDA0002328445510000081
其中,exp(x)为exponential的缩写,即为指数函数ex
x为MLP分类器输出的结果向量,Ncls为需要预测的分类总类别数;对于染色体的类型分类,x维度为24维,Ncls=24;对于极性分类,x其维度为2维,Ncls=2;j为计数下标,用于累加x向量中每个元素x[j];
t为真实的金标准标签,对于类别分类,其值在0-23之间,代表1号染色体至Y染色体;对于极性分类,其值为0和1,代表长臂向上,长臂向下;
整个函数是对概率值取了负对数,便于求解其最小值;对数中的分式解释意义,以类别预测为例:预测的所有类别结果x[j],j=1,2,...,24中,金标准标签t对应的类别的概率;
S6,深度学习模型的训练时,使用ADAM优化器。ADAM优化器的参数分别设置为:β1=0.9,β2=0.99;训练的学习率初始设置为0.01,随着迭代次数增加而递减;训练总迭代次数为120,批量训练的样本大小Batchsize设置为256。
第五步,基于深度学习模型对染色体的类型进行预测,其包括以下步骤:
a)使用深度学习模型,其MLP分类器的分别输出类别预测的24种概率值,以及极性预测的2种概率值;大部分染色体能够极高的置信度被准确预测;所有类别预测的概率之和为1。比如预测该染色体图片是第一类的染色体概率为0.9,第二类的概率为0.05,第三类0.05,……,则根据概率最大的原则,认为该图片是第一类染色体。
b)对于深度学习预测结果中,假设染色体被预测为类别a的概率p是所有24个类别概率中最大的,则认为该染色体属于类别a,置信度就是概率p。若p小于0.7,则认为置信度不高。对于类别置信度不高的染色体,直接基于相对长度进行查找来预测其类别;根据染色体相对1号最长染色体长度的占比,可由查表法求出该相对值最接近的染色体类别;查表法中的相对长度表,是根据标准染色体图谱的计算得到的。基于长度的预测可理解为一种修正预测方法。其相对占比如下表所示:
Figure GDA0002328445510000091
第六步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数。
Figure GDA0002328445510000092
Figure GDA0002328445510000101
Figure GDA0002328445510000102
Figure GDA0002328445510000103
Figure GDA0002328445510000104
Figure GDA0002328445510000105
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
其中敏感度与召回率的定义是一样的,但是敏感度是与特异度作为一对来衡量的,精确度与召回率是作为一对来衡量的,但实际公式计算上,敏感度与召回率无差别。建立合理的指标评价系统,能够及时了解本发明的识别效果,进而能够及时对发明进行改进。
为验证本发明的识别效果,本发明自行整理并收集、标记了80254张meta-phase染色体图像,其中包括77878张正常样本,2376张异常样本。本发明基于此数据集进行开发,对于正常样本和异常样本均可识别类别和极性,具有较好的普适性generality。准确率测试结果基于测试样本集,验证方法为10折交叉验证。根据交叉验证的结果,本发明在测试样本集上可达到的性能为:
i.类别预测:
accuracy0.9803,sensitivity0.9766,specificity0.9991,precision0.9796,recall0.9766,Flscore0.9779
ii极性预测:
accuracy0.9897,sensitivity0.9895,specificity0.9895,precision0.9895,recall0.9895,F1score0.9895
从上述实验可知,本发明采用深度学习方法能够对染色体类型进行自动、准确、高效识别,相比现有识别技术,能够有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用,部署简单。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的染色体识别方法,其特征在于,包括以下步骤:
第一步,得到独立的染色体图像;
第二步,对染色体的手工特征进行计算;
第三步,对染色体进行基本的图像处理;
第四步,建立深度学习模型;
第五步,基于深度学习模型对染色体的类型进行预测;
类型预测具体包括以下步骤:
a)使用深度学习模型,其MLP分类器的分别输出类别预测的24种概率值,以及极性预测的2种概率值;大部分染色体能够以极高的置信度被准确预测;
b)对于深度学习预测结果中,类别置信度不高的染色体,直接基于相对长度进行查找来预测其类别。
2.如权利要求1所述的一种基于深度学习的染色体识别方法,其特征在于,
所述第二步,包括以下步骤:
a)基于形态学操作,以及骨架提取算法来提取染色体的骨架,并计算其长度;
b)将该染色体长度,除以同一细胞内最长的染色体长度,得到相对占比长度;
c)基于单个染色体图像计算:相对外接矩形的面积占比、相对其凸包的占比、离心率。
3.如权利要求1所述的一种基于深度学习的染色体识别方法,其特征在于,
第三步,包括以下步骤:
a)将染色体图像沿着最长的轴放大至bs个pixel;另一个轴等比例的放大;
b)对放大的图像填充白色像素;
c)训练深度网络前,对图像进行旋转、翻转数据增强操作;
d)对所有输入图像进行标准化处理,使得图像输入尽可能标准一致,网络训练更容易收敛。
4.如权利要求1所述的一种基于深度学习的染色体识别方法,其特征在于,
第四步,包括以下步骤:
S1,建立模型结构:主干网络模型基于ResNet残差网络结构;
S2,通过使用残差学习Residual Learning的方式,能够极大提高模型抽取特征的有效性,而且能够在避免过拟合训练样本集的情况下,构建深层次的网络,提高模型的准确率;本模型的深度为:hs层;
S3,模型的分类器采用的是MLP多层感知器网络;采取该网络的要点在于能够构建一个端到端end-to-end网络,而无需单独基于特征再训练一个SVM分类器;本模型使用了两个MLP分类器,分别针对染色体的类型识别,以及极性识别;类型识别分类器的神经元参数构成为:(ms+ns)*24;极性识别分类器的神经元参数构成为ms*2;染色体的类别分类器目的是输出24种类别的染色体的预测概率,极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率;其中ms表示来源于对残差网络提取的最后特征的个数,ns表示来源于对额外手工提取特征的个数;
S4,对于MLP的分类器神经元参数设置(ms+ns);
S5,模型的损失函数Loss Function设置为交叉熵函数Cross-Entropy Loss,其定义的数学表达式如下:
Figure 420693DEST_PATH_IMAGE001
其中,
Figure 440601DEST_PATH_IMAGE002
为exponential的缩写,即为指数函数
Figure 443192DEST_PATH_IMAGE003
Figure 248468DEST_PATH_IMAGE004
为MLP分类器输出的结果向量,
Figure 943892DEST_PATH_IMAGE005
为需要预测的分类总类别数;对于染色体的类型分类,
Figure 451097DEST_PATH_IMAGE004
维度为24维,
Figure 257379DEST_PATH_IMAGE006
;对于极性分类,
Figure 166429DEST_PATH_IMAGE004
其维度为2维,
Figure 767174DEST_PATH_IMAGE007
Figure 777987DEST_PATH_IMAGE008
为计数下标,用于累加
Figure 387960DEST_PATH_IMAGE004
向量中每个元素
Figure 151516DEST_PATH_IMAGE009
Figure 454322DEST_PATH_IMAGE010
为真实的金标准标签,对于类别分类,其值在0-23之间,代表1号染色体至Y染色体;对于极性分类,其值为0和1,代表长臂向上,长臂向下;
整个函数是对概率值取了负对数,便于求解其最小值;对数中的分式解释意义,以类别预测为例:预测的所有类别结果
Figure 670539DEST_PATH_IMAGE011
中,金标准标签
Figure 569356DEST_PATH_IMAGE010
对应的类别的概率;
S6,深度学习模型的训练时,使用ADAM优化器。
5.如权利要求1所述的一种基于深度学习的染色体识别方法,其特征在于,
根据染色体相对1号最长染色体长度的占比,可由查表法求出该相对值最接近的染色体类别;查表法中的相对长度表,是根据标准染色体图谱的计算得到的。
6.如权利要求1-5任一项所述的一种基于深度学习的染色体识别方法,其特征在于,还包括第六步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数;
Figure 452999DEST_PATH_IMAGE012
Figure 661126DEST_PATH_IMAGE013
Figure 364640DEST_PATH_IMAGE014
Figure 50836DEST_PATH_IMAGE015
Figure 54564DEST_PATH_IMAGE016
Figure 181396DEST_PATH_IMAGE017
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
7.如权利要求3所述的一种基于深度学习的染色体识别方法,其特征在于,
所述bs为含有因数32、64的数字,其值取256;
旋转的角度控制在正负30度之间,翻转包括水平翻转和竖直翻转;水平方向翻转是扩充样本多样性,竖直方向的翻转则是改变polarity极性的标签。
8.如权利要求7所述的一种基于深度学习的染色体识别方法,其特征在于,
标准化的步骤是,对每张染色体图像,首先计算每张染色体图像的均值和标准差,然后根据如下公式得到标准化处理后的图:
Figure 637785DEST_PATH_IMAGE018
其中,
Figure 127672DEST_PATH_IMAGE019
为图像均值,
Figure 454748DEST_PATH_IMAGE020
为图像标准差;
Figure 4678DEST_PATH_IMAGE021
为原图,
Figure 948364DEST_PATH_IMAGE022
为标准化处理后的图;经过该步骤处理,所有图像理论上已经具有0均值,1标准差了。
9.如权利要求4所述的一种基于深度学习的染色体识别方法,其特征在于,
S1,残差网络结构基于BasicBlock基础块的残差结构进行构建,使用了4组BasicBlock,每一组中BasicBlock的数量分别为3,6,27,3;该残差基础块的目的主要是通过拟合预测输出的特征的残差来训练CNN卷积神经网络,从而不断抽取高维特征,以供最终的分类。
10.如权利要求9所述的一种基于深度学习的染色体识别方法,其特征在于,
S6,ADAM优化器的参数分别设置为:
Figure 992674DEST_PATH_IMAGE023
=0.9,
Figure 439836DEST_PATH_IMAGE024
2=0.99;训练的学习率初始设置为0.01,随着迭代次数增加而递减;训练总迭代次数为120,批量训练的样本大小Batchsize设置为256;所述hs=80;ms取值范围为256-4096;ns=4。
CN201810979111.XA 2018-08-27 2018-08-27 一种基于深度学习的染色体识别方法 Active CN109300111B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810979111.XA CN109300111B (zh) 2018-08-27 2018-08-27 一种基于深度学习的染色体识别方法
US17/272,254 US11436493B2 (en) 2018-08-27 2019-06-06 Chromosome recognition method based on deep learning
PCT/CN2019/090230 WO2020042704A1 (zh) 2018-08-27 2019-06-06 一种基于深度学习的染色体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810979111.XA CN109300111B (zh) 2018-08-27 2018-08-27 一种基于深度学习的染色体识别方法

Publications (2)

Publication Number Publication Date
CN109300111A CN109300111A (zh) 2019-02-01
CN109300111B true CN109300111B (zh) 2020-05-12

Family

ID=65165558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810979111.XA Active CN109300111B (zh) 2018-08-27 2018-08-27 一种基于深度学习的染色体识别方法

Country Status (3)

Country Link
US (1) US11436493B2 (zh)
CN (1) CN109300111B (zh)
WO (1) WO2020042704A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300111B (zh) * 2018-08-27 2020-05-12 杭州德适生物科技有限公司 一种基于深度学习的染色体识别方法
WO2020168511A1 (zh) * 2019-02-21 2020-08-27 中国医药大学附设医院 染色体异常检测模型、其检测系统及染色体异常检测方法
CN110390312A (zh) * 2019-07-29 2019-10-29 北京航空航天大学 基于卷积神经网络的染色体自动分类方法和分类器
CN110533672B (zh) * 2019-08-22 2022-10-28 杭州德适生物科技有限公司 一种基于条带识别的染色体排序方法
CN110533684B (zh) * 2019-08-22 2022-11-25 杭州德适生物科技有限公司 一种染色体核型图像切割方法
US10991098B1 (en) * 2019-10-17 2021-04-27 Metasystems Hard & Software Gmbh Methods for automated chromosome analysis
CN110879996A (zh) * 2019-12-03 2020-03-13 上海北昂医药科技股份有限公司 一种染色体分裂相定位排序方法
CN111325711A (zh) * 2020-01-16 2020-06-23 杭州德适生物科技有限公司 一种基于深度学习的染色体分裂相图像质量评价方法
CN111612744A (zh) * 2020-04-30 2020-09-01 西交利物浦大学 弯曲染色体图像拉直模型生成方法、模型的应用、系统、可读存储介质及计算机设备
CN112037173B (zh) * 2020-08-04 2024-04-05 湖南自兴智慧医疗科技有限公司 染色体检测方法、装置及电子设备
CN112330652A (zh) * 2020-11-13 2021-02-05 深圳大学 基于深度学习的染色体识别方法、装置和计算机设备
CN112487941B (zh) * 2020-11-26 2023-03-14 华南师范大学 染色体簇与染色体实例的识别方法、系统和存储介质
CN113408505B (zh) * 2021-08-19 2022-06-14 北京大学第三医院(北京大学第三临床医学院) 一种基于深度学习的染色体极性识别方法和系统
CN114331031B (zh) * 2021-12-08 2022-12-09 北京华清安地建筑设计有限公司 一种建筑传统特征识别评价方法和系统
CN115220623B (zh) * 2021-12-17 2023-12-05 深圳市瑞图生物技术有限公司 染色体图像分析方法、设备及存储介质
CN115147661B (zh) * 2022-07-25 2023-07-25 浙大城市学院 一种染色体分类方法、装置、设备及可读存储介质
CN117274294B (zh) * 2023-09-18 2024-06-04 笑纳科技(苏州)有限公司 一种同源染色体分割方法
CN118430650B (zh) * 2024-07-05 2024-09-27 湘江实验室 一种染色体关键点序列预测方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4122518A (en) * 1976-05-17 1978-10-24 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Automated clinical system for chromosome analysis
US4656594A (en) * 1985-05-06 1987-04-07 National Biomedical Research Foundation Operator-interactive automated chromosome analysis system producing a karyotype
CN1259714A (zh) * 2000-01-13 2000-07-12 北京工业大学 一种自动识别人体染色体模式的动态神经元模糊计算模型
CN1957353A (zh) * 2004-02-10 2007-05-02 皇家飞利浦电子股份有限公司 用于优化基于基因组学的医学诊断测试的遗传算法
CN101520890A (zh) * 2008-12-31 2009-09-02 广东威创视讯科技股份有限公司 一种基于灰度特征图像的粘连染色体自动分割方法
CN101710417A (zh) * 2009-11-06 2010-05-19 广东威创视讯科技股份有限公司 一种染色体图像处理方法及其系统
CN104081412A (zh) * 2012-02-01 2014-10-01 文塔纳医疗系统公司 用于检测组织样本中的基因的系统
CN106340016A (zh) * 2016-08-31 2017-01-18 湖南品信生物工程有限公司 一种基于细胞显微镜图像的dna定量分析方法
CN107784324A (zh) * 2017-10-17 2018-03-09 杭州电子科技大学 基于深度残差网络的白血细胞多分类识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607202B2 (en) * 2009-12-17 2017-03-28 University of Pittsburgh—of the Commonwealth System of Higher Education Methods of generating trophectoderm and neurectoderm from human embryonic stem cells
US8605981B2 (en) * 2010-11-05 2013-12-10 Cytognomix Inc. Centromere detector and method for determining radiation exposure from chromosome abnormalities
CN104331712B (zh) 2014-11-24 2017-08-25 齐齐哈尔格林环保科技开发有限公司 一种藻类细胞图像自动分类方法
CN105957092B (zh) 2016-05-31 2018-10-30 福州大学 用于计算机辅助诊断的乳腺钼靶图像特征自学习提取方法
CN107463802A (zh) * 2017-08-02 2017-12-12 南昌大学 一种原核蛋白质乙酰化位点的预测方法
US10496924B1 (en) * 2018-08-07 2019-12-03 Capital One Services, Llc Dictionary DGA detector model
CN109300111B (zh) * 2018-08-27 2020-05-12 杭州德适生物科技有限公司 一种基于深度学习的染色体识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4122518A (en) * 1976-05-17 1978-10-24 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Automated clinical system for chromosome analysis
US4656594A (en) * 1985-05-06 1987-04-07 National Biomedical Research Foundation Operator-interactive automated chromosome analysis system producing a karyotype
CN1259714A (zh) * 2000-01-13 2000-07-12 北京工业大学 一种自动识别人体染色体模式的动态神经元模糊计算模型
CN1957353A (zh) * 2004-02-10 2007-05-02 皇家飞利浦电子股份有限公司 用于优化基于基因组学的医学诊断测试的遗传算法
CN101520890A (zh) * 2008-12-31 2009-09-02 广东威创视讯科技股份有限公司 一种基于灰度特征图像的粘连染色体自动分割方法
CN101710417A (zh) * 2009-11-06 2010-05-19 广东威创视讯科技股份有限公司 一种染色体图像处理方法及其系统
CN104081412A (zh) * 2012-02-01 2014-10-01 文塔纳医疗系统公司 用于检测组织样本中的基因的系统
CN106340016A (zh) * 2016-08-31 2017-01-18 湖南品信生物工程有限公司 一种基于细胞显微镜图像的dna定量分析方法
CN107784324A (zh) * 2017-10-17 2018-03-09 杭州电子科技大学 基于深度残差网络的白血细胞多分类识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《Classification of mouse chromosomes using artificial neural networks》;M.T. Musavi等;《Proceedings of International Conference on Neural Networks (ICNN"96)》;19961231;第2卷;第852-857页 *
《基于模糊人工神经网络的染色体识别》;郭宏宇等;《中国生物医学工程学报》;20040430;第23卷(第2期);第1节第1段,第2节第1-4段,第4节第1段 *
《基于自组织径向基网络的染色体分类》;阮晓钢;《北京工业大学学报》;19990630;第25卷(第2期);第81-86页 *
《染色体图像的增强及鉴定》;刘鸣笑;《光机电信息》;20100531;第27卷(第5期);第45-50页 *
《荧光彩色医学细胞图像分割及其染色体的提取和识别》;尹诗白等;《四川大学学报(工程科学版)》;20110630;第43卷(第S1期);第133-138页 *

Also Published As

Publication number Publication date
WO2020042704A1 (zh) 2020-03-05
US20210312285A1 (en) 2021-10-07
CN109300111A (zh) 2019-02-01
US11436493B2 (en) 2022-09-06

Similar Documents

Publication Publication Date Title
CN109300111B (zh) 一种基于深度学习的染色体识别方法
Man et al. Classification of breast cancer histopathological images using discriminative patches screened by generative adversarial networks
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
WO2021062904A1 (zh) 基于病理图像的tmb分类方法、系统及tmb分析装置
CN109492706B (zh) 一种基于循环神经网络的染色体分类预测装置
CN109190567A (zh) 基于深度卷积神经网络的异常宫颈细胞自动检测方法
CN110163069B (zh) 用于辅助驾驶的车道线检测方法
Yüzkat et al. Multi-model CNN fusion for sperm morphology analysis
CN111860106B (zh) 一种无监督的桥梁裂缝识别方法
CN112819821B (zh) 一种细胞核图像检测方法
CN106340016A (zh) 一种基于细胞显微镜图像的dna定量分析方法
CN110751644B (zh) 道路表面裂纹检测方法
Bani-Hani et al. Classification of leucocytes using convolutional neural network optimized through genetic algorithm
CN112581450B (zh) 基于膨胀卷积金字塔与多尺度金字塔的花粉检测方法
CN112508889B (zh) 一种染色体核型分析系统
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN113408505B (zh) 一种基于深度学习的染色体极性识别方法和系统
CN111815609B (zh) 基于情境感知及多模型融合的病理图像分类方法及系统
CN118115783B (zh) 基于深度学习的角膜染色分析方法及相关训练方法和系统
Jia et al. A parametric optimization oriented, AFSA based random forest algorithm: application to the detection of cervical epithelial cells
Yildiz et al. Nuclei segmentation in colon histology images by using the deep CNNs: a U-net based multi-class segmentation analysis
Wu et al. Feature masking on non-overlapping regions for detecting dense cells in blood smear image
Patra et al. Deep learning methods for scientific and industrial research
Tong et al. Cell image instance segmentation based on PolarMask using weak labels
CN109191452B (zh) 一种基于主动学习的腹腔ct图像腹膜转移自动标记方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant