CN109300111B - 一种基于深度学习的染色体识别方法 - Google Patents
一种基于深度学习的染色体识别方法 Download PDFInfo
- Publication number
- CN109300111B CN109300111B CN201810979111.XA CN201810979111A CN109300111B CN 109300111 B CN109300111 B CN 109300111B CN 201810979111 A CN201810979111 A CN 201810979111A CN 109300111 B CN109300111 B CN 109300111B
- Authority
- CN
- China
- Prior art keywords
- chromosome
- deep learning
- image
- model
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000000349 chromosome Anatomy 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013135 deep learning Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000013136 deep learning model Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 15
- 210000002569 neuron Anatomy 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000035945 sensitivity Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 210000004027 cell Anatomy 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000007306 turnover Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims 1
- 239000000835 fiber Substances 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 description 4
- 208000011359 Chromosome disease Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 206010055690 Foetal death Diseases 0.000 description 1
- 208000036626 Mental retardation Diseases 0.000 description 1
- 206010000210 abortion Diseases 0.000 description 1
- 231100000176 abortion Toxicity 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000024971 chromosomal disease Diseases 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 231100000020 developmental retardation Toxicity 0.000 description 1
- 210000003917 human chromosome Anatomy 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000036244 malformation Effects 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 230000031864 metaphase Effects 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30024—Cell structures in vitro; Tissue sections in vitro
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Geometry (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于深度学习的染色体识别方法,属于染色体识别技术领域。目前分析染色体的办法基本上是手工操作,检验医生首先需要大量的培训时间才能掌握识别每个染色体类型的知识,工作负担较重。即使是经验丰富的医生对病人的染色体进行分析识别,整个流程一般也需要两个星期以上,时间周期较长。并且人工识别,主观性很强,很容易受外界环境影响,准确率不高。本发明采用深度学习方法能够对染色体类型进行准确、高效识别,相比现有识别技术,能够有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用。
Description
技术领域
本发明涉及一种基于深度学习的染色体识别方法,属于染色体识别技术领域。
背景技术
人类染色体病是由先天性的染色体数目或结构异常而引起的一系列临床症状的综合征。主要有患儿智力低下,发育迟缓,先天性畸形。同时还会造成流产,死胎等。这些对于每一个家庭都是难以承受的。然而这一症状在我国的妊娠人群中的患病率约有5%-10%,在流产胚胎中占据一半以上。并且这些数据有逐年增长的趋势,我国政府及相关机构也开始重视染色体疾病。
临床检验人染色体病的方法是通过培养体细胞再经一系列的操作得到经染色显带核型样本,再经数码拍照得到照片,然后对染色体图片进行分析识别。目前分析染色体图片的方法,基本上是手工操作,人工识别,检验医生首先需要大量的培训时间才能掌握识别每个染色体类型的知识,工作负担较重。即使是经验丰富的医生对病人的染色体进行分析识别,整个流程一般也需要两个星期以上,时间周期较长。并且人工识别,主观性很强,很容易受外界环境影响,准确率不高。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种采用深度学习方法对染色体类型进行自动、准确、高效识别,有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用,部署简单的基于深度学习的染色体识别方法。
为实现上述目的,本发明的技术方案为:
一种基于深度学习的基于深度学习的染色体识别方法,包括以下步骤:
第一步,得到独立的染色体图像;
第二步,对染色体的手工特征进行计算;
第三步,对染色体进行基本的图像处理;
第四步,建立深度学习模型;
第五步,基于深度学习模型对染色体的类型进行预测。
本发明采用深度学习方法能够对染色体类型进行自动、准确、高效识别,相比现有识别技术,能够有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用,部署简单。
作为优选技术措施,
所述第二步,包括以下步骤:
a)基于形态学操作,以及骨架提取算法来提取染色体的骨架,并计算其长度;
b)将该染色体长度,除以同一细胞内最长的染色体长度,得到相对占比长度;
c)基于单个染色体图像计算:相对外接矩形的面积占比、相对其凸包的占比、离心率。
这三个指标是衡量染色体在形态上的特征,是否面积大,是否比较凸,是否很圆。以上特征将参与最终的模型构建,创新性地在深度网络中融入手动提取的特征,使得本发明的工序流程更加合理、有序。
作为优选技术措施,第三步,包括以下步骤:
a)将染色体图像沿着最长的轴放大至bs个pixel;另一个轴等比例的放大;不同染色体的图像尺寸不一致。但是由于算法和框架对于输入图像尺寸有一致性要求,本发明将所有图像都做了统一尺寸的处理,处理规则是按照图像较长的那一轴进行放大。
b)对放大的图像填充白色像素255,至正方形bs*bs pixel的大小。由于染色体图像原本背景颜色就是白色,所以填充白色。填充白色符合染色体图像的特征,降低图像处理的难度,提升染色体识别效率。
c)训练深度网络前,对图像进行旋转、翻转数据增强操作;
d)对所有输入图像进行标准化处理,使得图像输入尽可能标准一致,网络训练更容易收敛。
作为优选技术措施,第四步,包括以下步骤:
S1,建立模型结构:主干网络模型基于ResNet残差网络结构;
S2,通过使用残差学习Residual Learning的方式,能够极大提高模型抽取特征的有效性,而且能够在避免过拟合训练样本集的情况下,构建深层次的网络,提高模型的准确率;本模型的深度为:hs层;
S3,模型的分类器采用的是MLP多层感知器网络;采取该网络的要点在于能够构建一个端到端end-to-end网络,而无需单独基于特征再训练一个SVM分类器;本模型使用了两个MLP分类器,分别针对染色体的类型识别,以及极性识别;类型识别分类器的神经元参数构成为:(ms+ns)*24;极性识别分类器的神经元参数构成为ms*2;染色体的类别分类器目的是输出24种类别的染色体的预测概率,极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率;其中ms表示来源于对残差网络提取的最后特征的个数,ns表示来源于对额外手工提取特征的个数;
S4,对于MLP的分类器神经元参数设置(ms+ns);由于在以往的染色体分类文献中,长度信息是一个很重要的判断依据。因此,本模型综合考虑了深度学习特征以及手工设计特征,在分类时综合考虑CNN结果,以及染色体的相对骨架长度、相对外接矩形的面积占比、相对其凸包的占比、离心率。这样的构建方式,既兼顾了在大规模数据集上使用深度学习带来的数据红利,又使得算法考虑的特征具有一定可解释性,这是以往文献及方法所不曾考虑的。
S5,模型的损失函数Loss Function设置为交叉熵函数Cross-Entropy Loss,其定义的数学表达式如下:
其中,exp(x)为exponential的缩写,即为指数函数ex;
x为MLP分类器输出的结果向量,Ncls为需要预测的分类总类别数;对于染色体的类型分类,x维度为24维,Ncls=24;对于极性分类,x其维度为2维,Ncls=2;j为计数下标,用于累加x向量中每个元素x[j];
t为真实的金标准标签,对于类别分类,其值在0-23之间,代表1号染色体至Y染色体;对于极性分类,其值为0和1,代表长臂向上,长臂向下;
整个函数是对概率值取了负对数,便于求解其最小值;对数中的分式解释意义,以类别预测为例:预测的所有类别结果x[j],j=1,2,...,24中,金标准标签t对应的类别的概率;
S6,深度学习模型的训练时,使用ADAM优化器。
作为优选技术措施,第五步,包括以下步骤:
a)使用深度学习模型,其MLP分类器的分别输出类别预测的24种概率值,以及极性预测的2种概率值;大部分染色体能够以极高的置信度被准确预测;所有类别预测的概率之和为1。比如预测该染色体图片是第一类的染色体概率为0.9,第二类的概率为0.05,第三类0.05,……,则根据概率最大的原则,认为该图片是第一类染色体。
b)对于深度学习预测结果中,假设染色体被预测为类别a的概率p是所有24个类别概率中最大的,则认为该染色体属于类别a,置信度就是概率p。若p小于0.7,则认为置信度不高。对于类别置信度不高的染色体,直接基于相对长度进行查找来预测其类别;根据染色体相对1号最长染色体长度的占比,可由查表法求出该相对值最接近的染色体类别;查表法中的相对长度表,是根据标准染色体图谱的计算得到的。
作为优选技术措施,还包括第六步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数;
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
其中敏感度与召回率的定义是一样的,但是敏感度是与特异度作为一对来衡量的,精确度与召回率是作为一对来衡量的,但实际公式计算上,敏感度与召回率无差别。建立合理的指标评价系统,能够及时了解本发明的识别效果,进而能够及时对发明进行改进。
作为优选技术措施,所述bs为含有因数32、64的数字,其值取256;由于染色体图像最长可能为310个像素,且256是距离310最近的,含有因数32,64的数字,选取256pixel一方面能够满足图像尺寸要求,另一方面有利于神经网络池化(pooling)后的最终图像尺寸符合深度学习的经验规则,便于本发明的数据处理以及精准度控制。
旋转的角度控制在正负30度之间,翻转包括水平翻转和竖直翻转;水平方向翻转是扩充样本多样性,竖直方向的翻转则是改变polarity极性的标签。翻转度数不宜过大,因为需要确定极性。若旋转度数过大,则会改变长臂的方向,也就改变了极性,因此不能够旋转太大角度,旋转的角度控制在正负30度之间,正好能够满足样本多样性的要求,同时不会导致极性的改变。
作为优选技术措施,标准化的步骤是,对每张染色体图像,首先计算每张染色体图像的均值和标准差,然后根据如下公式得到标准化处理后的图:
其中,μ为图像均值,σ为图像标准差;Imageold为原图,Imagenew为标准化处理后的图;经过该步骤处理,所有图像理论上已经具有0均值,1标准差了。此步骤的目的是让网络的输入尽可能标准一致,使得网络训练更容易收敛。
作为优选技术措施,S1,残差网络结构基于BasicBlock基础块的残差结构进行构建,使用了4组BasicBlock,每一组中BasicBlock的数量分别为3,6,27,3;该残差基础块的目的主要是通过拟合预测输出的特征的残差来训练CNN卷积神经网络,从而不断抽取高维特征,以供最终的分类。
作为优选技术措施,S6,ADAM优化器的参数分别设置为:β1=0.9,β2=0.99;训练的学习率初始设置为0.01,随着迭代次数增加而递减;训练总迭代次数为120,批量训练的样本大小Batchsize设置为256。
所述hs=80;经过实验可知,80层是比较理想的,更多层数并不能显著提升准确率,反而会因为样本不够多而无法对更多层的网络训练充分,且更高层数的网络占用的GPU显存更多,不适宜推广。低层次的网络则会影响准确率,网络层数太少,网络对样本预测类别的拟合能力就差,对样本多样性的适应能力就差。
ms取值范围为256-4096;ns=4。ms优选256,由于神经元数目越多,训练所需要的样本就越多,占用的计算资源也越多,残差网络提取最后256个特征即256个神经元,能够满足本发明的精准度要求,同时处理速率较快,占用资源少。
与现有技术相比,本发明具有以下有益效果:
本发明采用深度学习方法能够对染色体类型进行自动、准确、高效识别,相比现有识别技术,能够有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用,部署简单。
附图说明
图1为填充白色像素的图;
图2染色体原始图;
图3为图2所示染色体图经标准化处理后的图;
图4为图3所示染色体图经随机旋转后的图;
图5为图3所示染色体图经随机翻转后的图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
一种基于深度学习的基于深度学习的染色体识别方法,包括以下步骤:
第一步,得到独立的染色体图像;
第二步,对染色体的手工特征进行计算,其包括以下步骤:
a)基于形态学操作,以及骨架提取算法来提取染色体的骨架,并计算其长度;
b)将该染色体长度,除以同一细胞内最长的染色体长度,得到相对占比长度;
c)基于单个染色体图像计算:相对外接矩形的面积占比、相对其凸包的占比、离心率。
这三个指标是衡量染色体在形态上的特征,是否面积大,是否比较凸,是否很圆。以上特征将参与最终的模型构建,创新性地在深度网络中融入手动提取的特征,使得本发明的工序流程更加合理、有序。
第三步,对染色体进行基本的图像处理,其包括以下步骤:
a)将染色体图像沿着最长的轴放大至bs个pixel;另一个轴等比例的放大;不同染色体的图像尺寸不一致。但是由于算法和框架对于输入图像尺寸有一致性要求,本发明将所有图像都做了统一尺寸的处理,处理规则是按照图像较长的那一轴进行放大。所述bs为含有因数32、64的数字,其值取256;由于染色体图像最长可能为310个像素,且256是距离310最近的,含有因数32,64的数字,选取256pixel一方面可以满足图像尺寸要求,另一方面有利于神经网络池化(pooling)后的最终图像尺寸符合深度学习的经验规则,便于本发明的数据处理以及精准度控制。
b)对放大的图像填充白色像素255,至正方形256x256pixel的大小。由于染色体图像原本背景颜色就是白色,所以填充白色,参见图1。填充白色符合染色体图像的特征,降低图像处理的难度,提升染色体识别效率。
c)训练深度网络前,对图像进行旋转、翻转数据增强操作;旋转的角度控制在正负30度之间,翻转包括水平翻转和竖直翻转;水平方向翻转是扩充样本多样性,参见图4,竖直方向的翻转则是改变polarity极性的标签,参见图5。翻转度数不宜过大,因为需要确定极性。若旋转度数过大,则会改变长臂的方向,也就改变了极性,因此不可以旋转太大角度,旋转的角度控制在正负30度之间,正好能够满足样本多样性的要求,同时不会导致极性的改变。
d)对所有输入图像进行标准化处理,使得图像输入尽可能标准一致,网络训练更容易收敛。标准化的步骤是,对每张染色体图像,首先计算每张染色体图像的均值和标准差,然后根据如下公式得到标准化处理后的图:
其中,μ为图像均值,σ为图像标准差;Imageold为原图,Imagenew为标准化处理后的图;经过该步骤处理,所有图像理论上已经具有0均值,1标准差了,参见图2-3。此步骤的目的是让网络的输入尽可能标准一致,使得网络训练更容易收敛。
第四步,建立深度学习模型,其包括以下步骤:
S1,建立模型结构:主干网络模型基于ResNet残差网络结构;S1,残差网络结构基于BasicBlock基础块的残差结构进行构建,使用了4组BasicBlock,每一组中BasicBlock的数量分别为3,6,27,3;该残差基础块的目的主要是通过拟合预测输出的特征的残差来训练CNN卷积神经网络,从而不断抽取高维特征,以供最终的分类。
S2,通过使用残差学习Residual Learning的方式,能够极大提高模型抽取特征的有效性,而且能够在避免过拟合训练样本集的情况下,构建深层次的网络,提高模型的准确率;本模型的深度为:80层;经过实验可知,80层是比较理想的,更多层数并不能显著提升准确率,反而会因为样本不够多而无法对更多层的网络训练充分,且更高层数的网络占用的GPU显存更多,不适宜推广。低层次的网络则会影响准确率,网络层数太少,网络对样本预测类别的拟合能力就差,对样本多样性的适应能力就差。
S3,模型的分类器采用的是MLP多层感知器网络;采取该网络的要点在于能够构建一个端到端end-to-end网络,而无需单独基于特征再训练一个SVM分类器;本模型使用了两个MLP分类器,分别针对染色体的类型识别,以及极性识别;类型识别分类器的神经元参数构成为:(ms+ns)*24;极性识别分类器的神经元参数构成为ms*2;染色体的类别分类器目的是输出24种类别的染色体的预测概率,极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率;其中ms表示来源于对残差网络提取的最后特征的个数,ns表示来源于对额外手工提取特征的个数。
ms=256;ns=4,由于神经元数目越多,训练所需要的样本就越多,占用的计算资源也越多,残差网络提取最后256个特征即256个神经元,能够满足本发明的精准度要求,同时处理速率较快,占用资源少。
S4,对于MLP的分类器神经元参数设置(ms+ns),由于在以往的染色体分类文献中,长度信息是一个很重要的判断依据。因此,本模型综合考虑了深度学习特征以及手工设计特征,在分类时综合考虑CNN结果,以及染色体的相对骨架长度、相对外接矩形的面积占比、相对其凸包的占比、离心率。这样的构建方式,既兼顾了在大规模数据集上使用深度学习带来的数据红利,又使得算法考虑的特征具有一定可解释性,这是以往文献及方法所不曾考虑的。
S5,模型的损失函数Loss Function设置为交叉熵函数Cross-Entropy Loss,其定义的数学表达式如下:
其中,exp(x)为exponential的缩写,即为指数函数ex;
x为MLP分类器输出的结果向量,Ncls为需要预测的分类总类别数;对于染色体的类型分类,x维度为24维,Ncls=24;对于极性分类,x其维度为2维,Ncls=2;j为计数下标,用于累加x向量中每个元素x[j];
t为真实的金标准标签,对于类别分类,其值在0-23之间,代表1号染色体至Y染色体;对于极性分类,其值为0和1,代表长臂向上,长臂向下;
整个函数是对概率值取了负对数,便于求解其最小值;对数中的分式解释意义,以类别预测为例:预测的所有类别结果x[j],j=1,2,...,24中,金标准标签t对应的类别的概率;
S6,深度学习模型的训练时,使用ADAM优化器。ADAM优化器的参数分别设置为:β1=0.9,β2=0.99;训练的学习率初始设置为0.01,随着迭代次数增加而递减;训练总迭代次数为120,批量训练的样本大小Batchsize设置为256。
第五步,基于深度学习模型对染色体的类型进行预测,其包括以下步骤:
a)使用深度学习模型,其MLP分类器的分别输出类别预测的24种概率值,以及极性预测的2种概率值;大部分染色体能够极高的置信度被准确预测;所有类别预测的概率之和为1。比如预测该染色体图片是第一类的染色体概率为0.9,第二类的概率为0.05,第三类0.05,……,则根据概率最大的原则,认为该图片是第一类染色体。
b)对于深度学习预测结果中,假设染色体被预测为类别a的概率p是所有24个类别概率中最大的,则认为该染色体属于类别a,置信度就是概率p。若p小于0.7,则认为置信度不高。对于类别置信度不高的染色体,直接基于相对长度进行查找来预测其类别;根据染色体相对1号最长染色体长度的占比,可由查表法求出该相对值最接近的染色体类别;查表法中的相对长度表,是根据标准染色体图谱的计算得到的。基于长度的预测可理解为一种修正预测方法。其相对占比如下表所示:
第六步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数。
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
其中敏感度与召回率的定义是一样的,但是敏感度是与特异度作为一对来衡量的,精确度与召回率是作为一对来衡量的,但实际公式计算上,敏感度与召回率无差别。建立合理的指标评价系统,能够及时了解本发明的识别效果,进而能够及时对发明进行改进。
为验证本发明的识别效果,本发明自行整理并收集、标记了80254张meta-phase染色体图像,其中包括77878张正常样本,2376张异常样本。本发明基于此数据集进行开发,对于正常样本和异常样本均可识别类别和极性,具有较好的普适性generality。准确率测试结果基于测试样本集,验证方法为10折交叉验证。根据交叉验证的结果,本发明在测试样本集上可达到的性能为:
i.类别预测:
accuracy0.9803,sensitivity0.9766,specificity0.9991,precision0.9796,recall0.9766,Flscore0.9779
ii极性预测:
accuracy0.9897,sensitivity0.9895,specificity0.9895,precision0.9895,recall0.9895,F1score0.9895
从上述实验可知,本发明采用深度学习方法能够对染色体类型进行自动、准确、高效识别,相比现有识别技术,能够有效提升染色体核型的分析效率,缩短识别排序时间,高准确率地完成染色体的自动分类和排序,同时能够有效减轻医生的工作负担,不受外界干扰,并且工序简洁、合理,可向外大规模推广应用,部署简单。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的染色体识别方法,其特征在于,包括以下步骤:
第一步,得到独立的染色体图像;
第二步,对染色体的手工特征进行计算;
第三步,对染色体进行基本的图像处理;
第四步,建立深度学习模型;
第五步,基于深度学习模型对染色体的类型进行预测;
类型预测具体包括以下步骤:
a)使用深度学习模型,其MLP分类器的分别输出类别预测的24种概率值,以及极性预测的2种概率值;大部分染色体能够以极高的置信度被准确预测;
b)对于深度学习预测结果中,类别置信度不高的染色体,直接基于相对长度进行查找来预测其类别。
2.如权利要求1所述的一种基于深度学习的染色体识别方法,其特征在于,
所述第二步,包括以下步骤:
a)基于形态学操作,以及骨架提取算法来提取染色体的骨架,并计算其长度;
b)将该染色体长度,除以同一细胞内最长的染色体长度,得到相对占比长度;
c)基于单个染色体图像计算:相对外接矩形的面积占比、相对其凸包的占比、离心率。
3.如权利要求1所述的一种基于深度学习的染色体识别方法,其特征在于,
第三步,包括以下步骤:
a)将染色体图像沿着最长的轴放大至bs个pixel;另一个轴等比例的放大;
b)对放大的图像填充白色像素;
c)训练深度网络前,对图像进行旋转、翻转数据增强操作;
d)对所有输入图像进行标准化处理,使得图像输入尽可能标准一致,网络训练更容易收敛。
4.如权利要求1所述的一种基于深度学习的染色体识别方法,其特征在于,
第四步,包括以下步骤:
S1,建立模型结构:主干网络模型基于ResNet残差网络结构;
S2,通过使用残差学习Residual Learning的方式,能够极大提高模型抽取特征的有效性,而且能够在避免过拟合训练样本集的情况下,构建深层次的网络,提高模型的准确率;本模型的深度为:hs层;
S3,模型的分类器采用的是MLP多层感知器网络;采取该网络的要点在于能够构建一个端到端end-to-end网络,而无需单独基于特征再训练一个SVM分类器;本模型使用了两个MLP分类器,分别针对染色体的类型识别,以及极性识别;类型识别分类器的神经元参数构成为:(ms+ns)*24;极性识别分类器的神经元参数构成为ms*2;染色体的类别分类器目的是输出24种类别的染色体的预测概率,极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率;其中ms表示来源于对残差网络提取的最后特征的个数,ns表示来源于对额外手工提取特征的个数;
S4,对于MLP的分类器神经元参数设置(ms+ns);
S5,模型的损失函数Loss Function设置为交叉熵函数Cross-Entropy Loss,其定义的数学表达式如下:
S6,深度学习模型的训练时,使用ADAM优化器。
5.如权利要求1所述的一种基于深度学习的染色体识别方法,其特征在于,
根据染色体相对1号最长染色体长度的占比,可由查表法求出该相对值最接近的染色体类别;查表法中的相对长度表,是根据标准染色体图谱的计算得到的。
6.如权利要求1-5任一项所述的一种基于深度学习的染色体识别方法,其特征在于,还包括第六步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数;
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
7.如权利要求3所述的一种基于深度学习的染色体识别方法,其特征在于,
所述bs为含有因数32、64的数字,其值取256;
旋转的角度控制在正负30度之间,翻转包括水平翻转和竖直翻转;水平方向翻转是扩充样本多样性,竖直方向的翻转则是改变polarity极性的标签。
9.如权利要求4所述的一种基于深度学习的染色体识别方法,其特征在于,
S1,残差网络结构基于BasicBlock基础块的残差结构进行构建,使用了4组BasicBlock,每一组中BasicBlock的数量分别为3,6,27,3;该残差基础块的目的主要是通过拟合预测输出的特征的残差来训练CNN卷积神经网络,从而不断抽取高维特征,以供最终的分类。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810979111.XA CN109300111B (zh) | 2018-08-27 | 2018-08-27 | 一种基于深度学习的染色体识别方法 |
US17/272,254 US11436493B2 (en) | 2018-08-27 | 2019-06-06 | Chromosome recognition method based on deep learning |
PCT/CN2019/090230 WO2020042704A1 (zh) | 2018-08-27 | 2019-06-06 | 一种基于深度学习的染色体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810979111.XA CN109300111B (zh) | 2018-08-27 | 2018-08-27 | 一种基于深度学习的染色体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109300111A CN109300111A (zh) | 2019-02-01 |
CN109300111B true CN109300111B (zh) | 2020-05-12 |
Family
ID=65165558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810979111.XA Active CN109300111B (zh) | 2018-08-27 | 2018-08-27 | 一种基于深度学习的染色体识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11436493B2 (zh) |
CN (1) | CN109300111B (zh) |
WO (1) | WO2020042704A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109300111B (zh) * | 2018-08-27 | 2020-05-12 | 杭州德适生物科技有限公司 | 一种基于深度学习的染色体识别方法 |
WO2020168511A1 (zh) * | 2019-02-21 | 2020-08-27 | 中国医药大学附设医院 | 染色体异常检测模型、其检测系统及染色体异常检测方法 |
CN110390312A (zh) * | 2019-07-29 | 2019-10-29 | 北京航空航天大学 | 基于卷积神经网络的染色体自动分类方法和分类器 |
CN110533672B (zh) * | 2019-08-22 | 2022-10-28 | 杭州德适生物科技有限公司 | 一种基于条带识别的染色体排序方法 |
CN110533684B (zh) * | 2019-08-22 | 2022-11-25 | 杭州德适生物科技有限公司 | 一种染色体核型图像切割方法 |
US10991098B1 (en) * | 2019-10-17 | 2021-04-27 | Metasystems Hard & Software Gmbh | Methods for automated chromosome analysis |
CN110879996A (zh) * | 2019-12-03 | 2020-03-13 | 上海北昂医药科技股份有限公司 | 一种染色体分裂相定位排序方法 |
CN111325711A (zh) * | 2020-01-16 | 2020-06-23 | 杭州德适生物科技有限公司 | 一种基于深度学习的染色体分裂相图像质量评价方法 |
CN111612744A (zh) * | 2020-04-30 | 2020-09-01 | 西交利物浦大学 | 弯曲染色体图像拉直模型生成方法、模型的应用、系统、可读存储介质及计算机设备 |
CN112037173B (zh) * | 2020-08-04 | 2024-04-05 | 湖南自兴智慧医疗科技有限公司 | 染色体检测方法、装置及电子设备 |
CN112330652A (zh) * | 2020-11-13 | 2021-02-05 | 深圳大学 | 基于深度学习的染色体识别方法、装置和计算机设备 |
CN112487941B (zh) * | 2020-11-26 | 2023-03-14 | 华南师范大学 | 染色体簇与染色体实例的识别方法、系统和存储介质 |
CN113408505B (zh) * | 2021-08-19 | 2022-06-14 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于深度学习的染色体极性识别方法和系统 |
CN114331031B (zh) * | 2021-12-08 | 2022-12-09 | 北京华清安地建筑设计有限公司 | 一种建筑传统特征识别评价方法和系统 |
CN115220623B (zh) * | 2021-12-17 | 2023-12-05 | 深圳市瑞图生物技术有限公司 | 染色体图像分析方法、设备及存储介质 |
CN115147661B (zh) * | 2022-07-25 | 2023-07-25 | 浙大城市学院 | 一种染色体分类方法、装置、设备及可读存储介质 |
CN117274294B (zh) * | 2023-09-18 | 2024-06-04 | 笑纳科技(苏州)有限公司 | 一种同源染色体分割方法 |
CN118430650B (zh) * | 2024-07-05 | 2024-09-27 | 湘江实验室 | 一种染色体关键点序列预测方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4122518A (en) * | 1976-05-17 | 1978-10-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration | Automated clinical system for chromosome analysis |
US4656594A (en) * | 1985-05-06 | 1987-04-07 | National Biomedical Research Foundation | Operator-interactive automated chromosome analysis system producing a karyotype |
CN1259714A (zh) * | 2000-01-13 | 2000-07-12 | 北京工业大学 | 一种自动识别人体染色体模式的动态神经元模糊计算模型 |
CN1957353A (zh) * | 2004-02-10 | 2007-05-02 | 皇家飞利浦电子股份有限公司 | 用于优化基于基因组学的医学诊断测试的遗传算法 |
CN101520890A (zh) * | 2008-12-31 | 2009-09-02 | 广东威创视讯科技股份有限公司 | 一种基于灰度特征图像的粘连染色体自动分割方法 |
CN101710417A (zh) * | 2009-11-06 | 2010-05-19 | 广东威创视讯科技股份有限公司 | 一种染色体图像处理方法及其系统 |
CN104081412A (zh) * | 2012-02-01 | 2014-10-01 | 文塔纳医疗系统公司 | 用于检测组织样本中的基因的系统 |
CN106340016A (zh) * | 2016-08-31 | 2017-01-18 | 湖南品信生物工程有限公司 | 一种基于细胞显微镜图像的dna定量分析方法 |
CN107784324A (zh) * | 2017-10-17 | 2018-03-09 | 杭州电子科技大学 | 基于深度残差网络的白血细胞多分类识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9607202B2 (en) * | 2009-12-17 | 2017-03-28 | University of Pittsburgh—of the Commonwealth System of Higher Education | Methods of generating trophectoderm and neurectoderm from human embryonic stem cells |
US8605981B2 (en) * | 2010-11-05 | 2013-12-10 | Cytognomix Inc. | Centromere detector and method for determining radiation exposure from chromosome abnormalities |
CN104331712B (zh) | 2014-11-24 | 2017-08-25 | 齐齐哈尔格林环保科技开发有限公司 | 一种藻类细胞图像自动分类方法 |
CN105957092B (zh) | 2016-05-31 | 2018-10-30 | 福州大学 | 用于计算机辅助诊断的乳腺钼靶图像特征自学习提取方法 |
CN107463802A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种原核蛋白质乙酰化位点的预测方法 |
US10496924B1 (en) * | 2018-08-07 | 2019-12-03 | Capital One Services, Llc | Dictionary DGA detector model |
CN109300111B (zh) * | 2018-08-27 | 2020-05-12 | 杭州德适生物科技有限公司 | 一种基于深度学习的染色体识别方法 |
-
2018
- 2018-08-27 CN CN201810979111.XA patent/CN109300111B/zh active Active
-
2019
- 2019-06-06 WO PCT/CN2019/090230 patent/WO2020042704A1/zh active Application Filing
- 2019-06-06 US US17/272,254 patent/US11436493B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4122518A (en) * | 1976-05-17 | 1978-10-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration | Automated clinical system for chromosome analysis |
US4656594A (en) * | 1985-05-06 | 1987-04-07 | National Biomedical Research Foundation | Operator-interactive automated chromosome analysis system producing a karyotype |
CN1259714A (zh) * | 2000-01-13 | 2000-07-12 | 北京工业大学 | 一种自动识别人体染色体模式的动态神经元模糊计算模型 |
CN1957353A (zh) * | 2004-02-10 | 2007-05-02 | 皇家飞利浦电子股份有限公司 | 用于优化基于基因组学的医学诊断测试的遗传算法 |
CN101520890A (zh) * | 2008-12-31 | 2009-09-02 | 广东威创视讯科技股份有限公司 | 一种基于灰度特征图像的粘连染色体自动分割方法 |
CN101710417A (zh) * | 2009-11-06 | 2010-05-19 | 广东威创视讯科技股份有限公司 | 一种染色体图像处理方法及其系统 |
CN104081412A (zh) * | 2012-02-01 | 2014-10-01 | 文塔纳医疗系统公司 | 用于检测组织样本中的基因的系统 |
CN106340016A (zh) * | 2016-08-31 | 2017-01-18 | 湖南品信生物工程有限公司 | 一种基于细胞显微镜图像的dna定量分析方法 |
CN107784324A (zh) * | 2017-10-17 | 2018-03-09 | 杭州电子科技大学 | 基于深度残差网络的白血细胞多分类识别方法 |
Non-Patent Citations (5)
Title |
---|
《Classification of mouse chromosomes using artificial neural networks》;M.T. Musavi等;《Proceedings of International Conference on Neural Networks (ICNN"96)》;19961231;第2卷;第852-857页 * |
《基于模糊人工神经网络的染色体识别》;郭宏宇等;《中国生物医学工程学报》;20040430;第23卷(第2期);第1节第1段,第2节第1-4段,第4节第1段 * |
《基于自组织径向基网络的染色体分类》;阮晓钢;《北京工业大学学报》;19990630;第25卷(第2期);第81-86页 * |
《染色体图像的增强及鉴定》;刘鸣笑;《光机电信息》;20100531;第27卷(第5期);第45-50页 * |
《荧光彩色医学细胞图像分割及其染色体的提取和识别》;尹诗白等;《四川大学学报(工程科学版)》;20110630;第43卷(第S1期);第133-138页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020042704A1 (zh) | 2020-03-05 |
US20210312285A1 (en) | 2021-10-07 |
CN109300111A (zh) | 2019-02-01 |
US11436493B2 (en) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109300111B (zh) | 一种基于深度学习的染色体识别方法 | |
Man et al. | Classification of breast cancer histopathological images using discriminative patches screened by generative adversarial networks | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
WO2021062904A1 (zh) | 基于病理图像的tmb分类方法、系统及tmb分析装置 | |
CN109492706B (zh) | 一种基于循环神经网络的染色体分类预测装置 | |
CN109190567A (zh) | 基于深度卷积神经网络的异常宫颈细胞自动检测方法 | |
CN110163069B (zh) | 用于辅助驾驶的车道线检测方法 | |
Yüzkat et al. | Multi-model CNN fusion for sperm morphology analysis | |
CN111860106B (zh) | 一种无监督的桥梁裂缝识别方法 | |
CN112819821B (zh) | 一种细胞核图像检测方法 | |
CN106340016A (zh) | 一种基于细胞显微镜图像的dna定量分析方法 | |
CN110751644B (zh) | 道路表面裂纹检测方法 | |
Bani-Hani et al. | Classification of leucocytes using convolutional neural network optimized through genetic algorithm | |
CN112581450B (zh) | 基于膨胀卷积金字塔与多尺度金字塔的花粉检测方法 | |
CN112508889B (zh) | 一种染色体核型分析系统 | |
CN106156805A (zh) | 一种样本标签缺失数据的分类器训练方法 | |
CN113408505B (zh) | 一种基于深度学习的染色体极性识别方法和系统 | |
CN111815609B (zh) | 基于情境感知及多模型融合的病理图像分类方法及系统 | |
CN118115783B (zh) | 基于深度学习的角膜染色分析方法及相关训练方法和系统 | |
Jia et al. | A parametric optimization oriented, AFSA based random forest algorithm: application to the detection of cervical epithelial cells | |
Yildiz et al. | Nuclei segmentation in colon histology images by using the deep CNNs: a U-net based multi-class segmentation analysis | |
Wu et al. | Feature masking on non-overlapping regions for detecting dense cells in blood smear image | |
Patra et al. | Deep learning methods for scientific and industrial research | |
Tong et al. | Cell image instance segmentation based on PolarMask using weak labels | |
CN109191452B (zh) | 一种基于主动学习的腹腔ct图像腹膜转移自动标记方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |