CN109300111B

CN109300111B - 一种基于深度学习的染色体识别方法

Info

Publication number: CN109300111B
Application number: CN201810979111.XA
Authority: CN
Inventors: 秦玉磊; 周磊; 宋宁; 杨杰; 吴朝玉
Original assignee: Hangzhou Diagens Biotechnology Co ltd
Current assignee: Hangzhou Diagens Biotechnology Co ltd
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2020-05-12
Anticipated expiration: 2038-08-27
Also published as: WO2020042704A1; US20210312285A1; CN109300111A; US11436493B2

Abstract

本发明公开了一种基于深度学习的染色体识别方法，属于染色体识别技术领域。目前分析染色体的办法基本上是手工操作，检验医生首先需要大量的培训时间才能掌握识别每个染色体类型的知识，工作负担较重。即使是经验丰富的医生对病人的染色体进行分析识别，整个流程一般也需要两个星期以上，时间周期较长。并且人工识别，主观性很强，很容易受外界环境影响，准确率不高。本发明采用深度学习方法能够对染色体类型进行准确、高效识别，相比现有识别技术，能够有效提升染色体核型的分析效率，缩短识别排序时间，高准确率地完成染色体的自动分类和排序，同时能够有效减轻医生的工作负担，不受外界干扰，并且工序简洁、合理，可向外大规模推广应用。

Description

一种基于深度学习的染色体识别方法

技术领域

本发明涉及一种基于深度学习的染色体识别方法，属于染色体识别技术领域。

背景技术

人类染色体病是由先天性的染色体数目或结构异常而引起的一系列临床症状的综合征。主要有患儿智力低下，发育迟缓，先天性畸形。同时还会造成流产，死胎等。这些对于每一个家庭都是难以承受的。然而这一症状在我国的妊娠人群中的患病率约有5％-10％，在流产胚胎中占据一半以上。并且这些数据有逐年增长的趋势，我国政府及相关机构也开始重视染色体疾病。

临床检验人染色体病的方法是通过培养体细胞再经一系列的操作得到经染色显带核型样本，再经数码拍照得到照片，然后对染色体图片进行分析识别。目前分析染色体图片的方法，基本上是手工操作，人工识别，检验医生首先需要大量的培训时间才能掌握识别每个染色体类型的知识，工作负担较重。即使是经验丰富的医生对病人的染色体进行分析识别，整个流程一般也需要两个星期以上，时间周期较长。并且人工识别，主观性很强，很容易受外界环境影响，准确率不高。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种采用深度学习方法对染色体类型进行自动、准确、高效识别，有效提升染色体核型的分析效率，缩短识别排序时间，高准确率地完成染色体的自动分类和排序，同时能够有效减轻医生的工作负担，不受外界干扰，并且工序简洁、合理，可向外大规模推广应用，部署简单的基于深度学习的染色体识别方法。

为实现上述目的，本发明的技术方案为：

一种基于深度学习的基于深度学习的染色体识别方法，包括以下步骤：

第一步，得到独立的染色体图像；

第二步，对染色体的手工特征进行计算；

第三步，对染色体进行基本的图像处理；

第四步，建立深度学习模型；

第五步，基于深度学习模型对染色体的类型进行预测。

本发明采用深度学习方法能够对染色体类型进行自动、准确、高效识别，相比现有识别技术，能够有效提升染色体核型的分析效率，缩短识别排序时间，高准确率地完成染色体的自动分类和排序，同时能够有效减轻医生的工作负担，不受外界干扰，并且工序简洁、合理，可向外大规模推广应用，部署简单。

作为优选技术措施，

所述第二步，包括以下步骤：

a)基于形态学操作，以及骨架提取算法来提取染色体的骨架，并计算其长度；

b)将该染色体长度，除以同一细胞内最长的染色体长度，得到相对占比长度；

c)基于单个染色体图像计算：相对外接矩形的面积占比、相对其凸包的占比、离心率。

这三个指标是衡量染色体在形态上的特征，是否面积大，是否比较凸，是否很圆。以上特征将参与最终的模型构建，创新性地在深度网络中融入手动提取的特征，使得本发明的工序流程更加合理、有序。

作为优选技术措施，第三步，包括以下步骤：

a)将染色体图像沿着最长的轴放大至bs个pixel；另一个轴等比例的放大；不同染色体的图像尺寸不一致。但是由于算法和框架对于输入图像尺寸有一致性要求，本发明将所有图像都做了统一尺寸的处理，处理规则是按照图像较长的那一轴进行放大。

b)对放大的图像填充白色像素255，至正方形bs*bs pixel的大小。由于染色体图像原本背景颜色就是白色，所以填充白色。填充白色符合染色体图像的特征，降低图像处理的难度，提升染色体识别效率。

c)训练深度网络前，对图像进行旋转、翻转数据增强操作；

d)对所有输入图像进行标准化处理，使得图像输入尽可能标准一致，网络训练更容易收敛。

作为优选技术措施，第四步，包括以下步骤：

S1，建立模型结构：主干网络模型基于ResNet残差网络结构；

S2，通过使用残差学习Residual Learning的方式，能够极大提高模型抽取特征的有效性，而且能够在避免过拟合训练样本集的情况下，构建深层次的网络，提高模型的准确率；本模型的深度为：hs层；

S3，模型的分类器采用的是MLP多层感知器网络；采取该网络的要点在于能够构建一个端到端end-to-end网络，而无需单独基于特征再训练一个SVM分类器；本模型使用了两个MLP分类器，分别针对染色体的类型识别，以及极性识别；类型识别分类器的神经元参数构成为：(ms+ns)*24；极性识别分类器的神经元参数构成为ms*2；染色体的类别分类器目的是输出24种类别的染色体的预测概率，极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率；其中ms表示来源于对残差网络提取的最后特征的个数，ns表示来源于对额外手工提取特征的个数；

S4，对于MLP的分类器神经元参数设置(ms+ns)；由于在以往的染色体分类文献中，长度信息是一个很重要的判断依据。因此，本模型综合考虑了深度学习特征以及手工设计特征，在分类时综合考虑CNN结果，以及染色体的相对骨架长度、相对外接矩形的面积占比、相对其凸包的占比、离心率。这样的构建方式，既兼顾了在大规模数据集上使用深度学习带来的数据红利，又使得算法考虑的特征具有一定可解释性，这是以往文献及方法所不曾考虑的。

S5，模型的损失函数Loss Function设置为交叉熵函数Cross-Entropy Loss，其定义的数学表达式如下：

其中，exp(x)为exponential的缩写，即为指数函数e^x；

x为MLP分类器输出的结果向量，N_cls为需要预测的分类总类别数；对于染色体的类型分类，x维度为24维，N_cls＝24；对于极性分类，x其维度为2维，N_cls＝2；j为计数下标，用于累加x向量中每个元素x[j]；

t为真实的金标准标签，对于类别分类，其值在0-23之间，代表1号染色体至Y染色体；对于极性分类，其值为0和1，代表长臂向上，长臂向下；

整个函数是对概率值取了负对数，便于求解其最小值；对数中的分式解释意义，以类别预测为例：预测的所有类别结果x[j]，j＝1，2，...，24中，金标准标签t对应的类别的概率；

S6，深度学习模型的训练时，使用ADAM优化器。

作为优选技术措施，第五步，包括以下步骤：

a)使用深度学习模型，其MLP分类器的分别输出类别预测的24种概率值，以及极性预测的2种概率值；大部分染色体能够以极高的置信度被准确预测；所有类别预测的概率之和为1。比如预测该染色体图片是第一类的染色体概率为0.9，第二类的概率为0.05，第三类0.05，……，则根据概率最大的原则，认为该图片是第一类染色体。

b)对于深度学习预测结果中，假设染色体被预测为类别a的概率p是所有24个类别概率中最大的，则认为该染色体属于类别a，置信度就是概率p。若p小于0.7，则认为置信度不高。对于类别置信度不高的染色体，直接基于相对长度进行查找来预测其类别；根据染色体相对1号最长染色体长度的占比，可由查表法求出该相对值最接近的染色体类别；查表法中的相对长度表，是根据标准染色体图谱的计算得到的。

作为优选技术措施，还包括第六步，对染色体识别结果建立评价系统，

评价指标选取为：准确率accuracy，敏感度sensitivity与特异度specificity，精确度precision与召回率recall，以及F1指数；假设分类目标只有两类，计为正例positive和负例negtive分别是：

1)TP：被正确地划分为正例的个数，即实际为正例且被深度学习模型划分为正例的实例数；

2)FP：被错误地划分为正例的个数，即实际为负例但被深度学习模型划分为正例的实例数；

3)FN：被错误地划分为负例的个数，即实际为正例但被深度学习模型划分为负例的实例数

4)TN：被正确地划分为负例的个数，即实际为负例且被深度学习模型划分为负例的实例数；

这5个评价指标的范围是0-1之间；分数越高，代表分类效果越好。

其中敏感度与召回率的定义是一样的，但是敏感度是与特异度作为一对来衡量的，精确度与召回率是作为一对来衡量的，但实际公式计算上，敏感度与召回率无差别。建立合理的指标评价系统，能够及时了解本发明的识别效果，进而能够及时对发明进行改进。

作为优选技术措施，所述bs为含有因数32、64的数字，其值取256；由于染色体图像最长可能为310个像素，且256是距离310最近的，含有因数32，64的数字，选取256pixel一方面能够满足图像尺寸要求，另一方面有利于神经网络池化(pooling)后的最终图像尺寸符合深度学习的经验规则，便于本发明的数据处理以及精准度控制。

旋转的角度控制在正负30度之间，翻转包括水平翻转和竖直翻转；水平方向翻转是扩充样本多样性，竖直方向的翻转则是改变polarity极性的标签。翻转度数不宜过大，因为需要确定极性。若旋转度数过大，则会改变长臂的方向，也就改变了极性，因此不能够旋转太大角度，旋转的角度控制在正负30度之间，正好能够满足样本多样性的要求，同时不会导致极性的改变。

作为优选技术措施，标准化的步骤是，对每张染色体图像，首先计算每张染色体图像的均值和标准差，然后根据如下公式得到标准化处理后的图：

其中，μ为图像均值，σ为图像标准差；Image_old为原图，Image_new为标准化处理后的图；经过该步骤处理，所有图像理论上已经具有0均值，1标准差了。此步骤的目的是让网络的输入尽可能标准一致，使得网络训练更容易收敛。

作为优选技术措施，S1，残差网络结构基于BasicBlock基础块的残差结构进行构建，使用了4组BasicBlock，每一组中BasicBlock的数量分别为3，6，27，3；该残差基础块的目的主要是通过拟合预测输出的特征的残差来训练CNN卷积神经网络，从而不断抽取高维特征，以供最终的分类。

作为优选技术措施，S6，ADAM优化器的参数分别设置为：β1＝0.9，β2＝0.99；训练的学习率初始设置为0.01，随着迭代次数增加而递减；训练总迭代次数为120，批量训练的样本大小Batchsize设置为256。

所述hs＝80；经过实验可知，80层是比较理想的，更多层数并不能显著提升准确率，反而会因为样本不够多而无法对更多层的网络训练充分，且更高层数的网络占用的GPU显存更多，不适宜推广。低层次的网络则会影响准确率，网络层数太少，网络对样本预测类别的拟合能力就差，对样本多样性的适应能力就差。

ms取值范围为256-4096；ns＝4。ms优选256，由于神经元数目越多，训练所需要的样本就越多，占用的计算资源也越多，残差网络提取最后256个特征即256个神经元，能够满足本发明的精准度要求，同时处理速率较快，占用资源少。

与现有技术相比，本发明具有以下有益效果：

附图说明

图1为填充白色像素的图；

图2染色体原始图；

图3为图2所示染色体图经标准化处理后的图；

图4为图3所示染色体图经随机旋转后的图；

图5为图3所示染色体图经随机翻转后的图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

第一步，得到独立的染色体图像；

第二步，对染色体的手工特征进行计算，其包括以下步骤：

第三步，对染色体进行基本的图像处理，其包括以下步骤：

a)将染色体图像沿着最长的轴放大至bs个pixel；另一个轴等比例的放大；不同染色体的图像尺寸不一致。但是由于算法和框架对于输入图像尺寸有一致性要求，本发明将所有图像都做了统一尺寸的处理，处理规则是按照图像较长的那一轴进行放大。所述bs为含有因数32、64的数字，其值取256；由于染色体图像最长可能为310个像素，且256是距离310最近的，含有因数32，64的数字，选取256pixel一方面可以满足图像尺寸要求，另一方面有利于神经网络池化(pooling)后的最终图像尺寸符合深度学习的经验规则，便于本发明的数据处理以及精准度控制。

b)对放大的图像填充白色像素255，至正方形256x256pixel的大小。由于染色体图像原本背景颜色就是白色，所以填充白色，参见图1。填充白色符合染色体图像的特征，降低图像处理的难度，提升染色体识别效率。

c)训练深度网络前，对图像进行旋转、翻转数据增强操作；旋转的角度控制在正负30度之间，翻转包括水平翻转和竖直翻转；水平方向翻转是扩充样本多样性，参见图4，竖直方向的翻转则是改变polarity极性的标签，参见图5。翻转度数不宜过大，因为需要确定极性。若旋转度数过大，则会改变长臂的方向，也就改变了极性，因此不可以旋转太大角度，旋转的角度控制在正负30度之间，正好能够满足样本多样性的要求，同时不会导致极性的改变。

d)对所有输入图像进行标准化处理，使得图像输入尽可能标准一致，网络训练更容易收敛。标准化的步骤是，对每张染色体图像，首先计算每张染色体图像的均值和标准差，然后根据如下公式得到标准化处理后的图：

其中，μ为图像均值，σ为图像标准差；Image_old为原图，Image_new为标准化处理后的图；经过该步骤处理，所有图像理论上已经具有0均值，1标准差了，参见图2-3。此步骤的目的是让网络的输入尽可能标准一致，使得网络训练更容易收敛。

第四步，建立深度学习模型，其包括以下步骤：

S1，建立模型结构：主干网络模型基于ResNet残差网络结构；S1，残差网络结构基于BasicBlock基础块的残差结构进行构建，使用了4组BasicBlock，每一组中BasicBlock的数量分别为3，6，27，3；该残差基础块的目的主要是通过拟合预测输出的特征的残差来训练CNN卷积神经网络，从而不断抽取高维特征，以供最终的分类。

S2，通过使用残差学习Residual Learning的方式，能够极大提高模型抽取特征的有效性，而且能够在避免过拟合训练样本集的情况下，构建深层次的网络，提高模型的准确率；本模型的深度为：80层；经过实验可知，80层是比较理想的，更多层数并不能显著提升准确率，反而会因为样本不够多而无法对更多层的网络训练充分，且更高层数的网络占用的GPU显存更多，不适宜推广。低层次的网络则会影响准确率，网络层数太少，网络对样本预测类别的拟合能力就差，对样本多样性的适应能力就差。

S3，模型的分类器采用的是MLP多层感知器网络；采取该网络的要点在于能够构建一个端到端end-to-end网络，而无需单独基于特征再训练一个SVM分类器；本模型使用了两个MLP分类器，分别针对染色体的类型识别，以及极性识别；类型识别分类器的神经元参数构成为：(ms+ns)*24；极性识别分类器的神经元参数构成为ms*2；染色体的类别分类器目的是输出24种类别的染色体的预测概率，极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率；其中ms表示来源于对残差网络提取的最后特征的个数，ns表示来源于对额外手工提取特征的个数。

ms＝256；ns＝4，由于神经元数目越多，训练所需要的样本就越多，占用的计算资源也越多，残差网络提取最后256个特征即256个神经元，能够满足本发明的精准度要求，同时处理速率较快，占用资源少。

S4，对于MLP的分类器神经元参数设置(ms+ns)，由于在以往的染色体分类文献中，长度信息是一个很重要的判断依据。因此，本模型综合考虑了深度学习特征以及手工设计特征，在分类时综合考虑CNN结果，以及染色体的相对骨架长度、相对外接矩形的面积占比、相对其凸包的占比、离心率。这样的构建方式，既兼顾了在大规模数据集上使用深度学习带来的数据红利，又使得算法考虑的特征具有一定可解释性，这是以往文献及方法所不曾考虑的。

其中，exp(x)为exponential的缩写，即为指数函数e^x；

S6，深度学习模型的训练时，使用ADAM优化器。ADAM优化器的参数分别设置为：β1＝0.9，β2＝0.99；训练的学习率初始设置为0.01，随着迭代次数增加而递减；训练总迭代次数为120，批量训练的样本大小Batchsize设置为256。

第五步，基于深度学习模型对染色体的类型进行预测，其包括以下步骤：

a)使用深度学习模型，其MLP分类器的分别输出类别预测的24种概率值，以及极性预测的2种概率值；大部分染色体能够极高的置信度被准确预测；所有类别预测的概率之和为1。比如预测该染色体图片是第一类的染色体概率为0.9，第二类的概率为0.05，第三类0.05，……，则根据概率最大的原则，认为该图片是第一类染色体。

b)对于深度学习预测结果中，假设染色体被预测为类别a的概率p是所有24个类别概率中最大的，则认为该染色体属于类别a，置信度就是概率p。若p小于0.7，则认为置信度不高。对于类别置信度不高的染色体，直接基于相对长度进行查找来预测其类别；根据染色体相对1号最长染色体长度的占比，可由查表法求出该相对值最接近的染色体类别；查表法中的相对长度表，是根据标准染色体图谱的计算得到的。基于长度的预测可理解为一种修正预测方法。其相对占比如下表所示：

第六步，对染色体识别结果建立评价系统，

4)TN：被正确地划分为负例的个数，即实际为负例且被深度学习模型划分为负例的实例数。

为验证本发明的识别效果，本发明自行整理并收集、标记了80254张meta-phase染色体图像，其中包括77878张正常样本，2376张异常样本。本发明基于此数据集进行开发，对于正常样本和异常样本均可识别类别和极性，具有较好的普适性generality。准确率测试结果基于测试样本集，验证方法为10折交叉验证。根据交叉验证的结果，本发明在测试样本集上可达到的性能为：

i.类别预测：

accuracy0.9803，sensitivity0.9766，specificity0.9991，precision0.9796，recall0.9766，Flscore0.9779

ii极性预测：

accuracy0.9897，sensitivity0.9895，specificity0.9895，precision0.9895，recall0.9895，F1score0.9895

从上述实验可知，本发明采用深度学习方法能够对染色体类型进行自动、准确、高效识别，相比现有识别技术，能够有效提升染色体核型的分析效率，缩短识别排序时间，高准确率地完成染色体的自动分类和排序，同时能够有效减轻医生的工作负担，不受外界干扰，并且工序简洁、合理，可向外大规模推广应用，部署简单。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的染色体识别方法，其特征在于，包括以下步骤：

第一步，得到独立的染色体图像；

第二步，对染色体的手工特征进行计算；

第三步，对染色体进行基本的图像处理；

第四步，建立深度学习模型；

第五步，基于深度学习模型对染色体的类型进行预测；

类型预测具体包括以下步骤：

a)使用深度学习模型，其MLP分类器的分别输出类别预测的24种概率值，以及极性预测的2种概率值；大部分染色体能够以极高的置信度被准确预测；

b)对于深度学习预测结果中，类别置信度不高的染色体，直接基于相对长度进行查找来预测其类别。

2.如权利要求1所述的一种基于深度学习的染色体识别方法，其特征在于，

所述第二步，包括以下步骤：

3.如权利要求1所述的一种基于深度学习的染色体识别方法，其特征在于，

第三步，包括以下步骤：

a)将染色体图像沿着最长的轴放大至bs个pixel；另一个轴等比例的放大；

b)对放大的图像填充白色像素；

c)训练深度网络前，对图像进行旋转、翻转数据增强操作；

4.如权利要求1所述的一种基于深度学习的染色体识别方法，其特征在于，

第四步，包括以下步骤：

S1，建立模型结构：主干网络模型基于ResNet残差网络结构；

S3，模型的分类器采用的是MLP多层感知器网络；采取该网络的要点在于能够构建一个端到端end-to-end网络，而无需单独基于特征再训练一个SVM分类器；本模型使用了两个MLP分类器，分别针对染色体的类型识别，以及极性识别；类型识别分类器的神经元参数构成为：（ms+ns）*24；极性识别分类器的神经元参数构成为ms*2；染色体的类别分类器目的是输出24种类别的染色体的预测概率，极性分类器目的是输出2种极性即长臂向下或者长臂向上的预测概率；其中ms表示来源于对残差网络提取的最后特征的个数，ns表示来源于对额外手工提取特征的个数；

S4，对于MLP的分类器神经元参数设置（ms+ns）；