CN114580487A

CN114580487A - 基于深度学习的染色体识别方法、装置、设备和存储介质

Info

Publication number: CN114580487A
Application number: CN202011378992.3A
Authority: CN
Inventors: 许德鹏; 刘晓康; 王雪峰; 陈齐文
Original assignee: Shenzhen Reetoo Biotechnology Co Ltd
Current assignee: Shenzhen Reetoo Biotechnology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-06-03

Abstract

本申请涉及一种基于深度学习的染色体识别方法、装置、计算机设备和存储介质。所述方法包括：对待识别的染色体图像进行二值化处理，得到染色体的二值图像；对所述二值图像进行正交投影，确定所述染色体的弯曲中心，并从所述弯曲中心处切分所述染色体图像中的染色体；将切分得到的两部分染色体转正后按照切口拼接；根据所述待识别的染色体图像和拼接后得到的图像，确定样本图像；根据所述样本图像进行深度学习训练，得到染色体分类模型；通过所述染色体分类模型，识别所述待识别的染色体图像中染色体的类别。本方案能够节省成本。

Description

基于深度学习的染色体识别方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域以及图像处理技术领域，特别是涉及一种基于深度学习的染色体识别方法、装置、设备和存储介质。

背景技术

随着科学技术的发展，各种先进的分析技术层出不穷。其中，对染色体图像进行分析在很多领域中(比如，医学领域或遗传学研究领域)，都起着非常重大的作用。

目前，对染色体图像的分析一般是人工分析，由专业人员(比如，医生或者专业的分析人员)在高倍镜下观察染色体图像，手动地将图像中染色体进行分割，再通过人工方式对分割后的染色体进行分析，比如，人工对图像中的染色体进行分类。然而，这种由专业人员手动进行染色体图像的分析，会导致操作比较繁琐，需要反复地与机器进行交互，从而导致较高地时间成本和资源交互成本。因此，传统方法存在成本过高的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够节省成本的基于深度学习的染色体识别方法、装置、计算机设备和存储介质。

一种基于深度学习的染色体识别方法，所述方法包括：

对待识别的染色体图像进行二值化处理，得到染色体的二值图像；

对所述二值图像进行正交投影，确定所述染色体的弯曲中心，并从所述弯曲中心处切分所述染色体图像中的染色体；

将切分得到的两部分染色体转正后按照切口拼接；

根据所述待识别的染色体图像和拼接后得到的图像，确定样本图像；

根据所述样本图像进行深度学习训练，得到染色体分类模型；

通过所述染色体分类模型，识别所述待识别的染色体图像中染色体的类别。

在其中一个实施例中，所述对待识别的染色体图像进行二值化处理，得到染色体的二值图像，包括：

获取标准染色体图像；

按照所述标准染色体图像的尺寸，对待识别的染色体图像进行缩放处理；

对缩放处理后的待识别的染色体图像进行二值化处理，得到染色体的二值图像。

在其中一个实施例中，所述对所述二值图像进行正交投影，确定所述染色体的弯曲中心，包括：

逐步旋转所述二值图像，并对旋转至各角度下的所述二值图像分别进行水平投影和垂直投影；

根据垂直投影向量，将所述二值图像旋转至目标角度；所述目标角度，是使所述二值图像中的染色体处于直立状态时所旋转的角度；

根据所述二值图像旋转至所述目标角度时的水平投影向量，确定所述染色体的弯曲中心。

在其中一个实施例中，所述根据所述二值图像旋转至所述目标角度时的水平投影向量，确定所述染色体的弯曲中心，包括：

从所述二值图像旋转至所述目标角度时的水平投影向量中，确定两个局部极大值；

根据所述两个局部极大值之间的区域中的全局最小值，确定所述染色体的弯曲中心。

在其中一个实施例中，所述根据所述待识别的染色体图像和拼接后得到的图像，确定样本图像，包括：

将所述待识别的染色体图像和拼接后得到的图像作为待处理的图像，对所述待处理的图像进行图像预处理，并对预处理后得到的图像中的像素进行归一化处理，得到样本图像；

其中，所述图像预处理包括以下至少一种：

利用像素点将所述待处理的图像填充为预设形状和尺寸；

通过直方图均衡化处理，对所述待处理的图像进行图像增强；

通过均值滤波对所述待处理的图像进行平滑处理；

对所述待处理的图像进行图像扩增处理。

在其中一个实施例中，所述根据所述样本图像进行深度学习训练，得到染色体分类模型，包括：

获取待训练的分类模型；所述分类模型中包括浅层卷积网络和深层卷积网络；所述深层卷积网络中包括不同结构的至少两种卷积模块，每个卷积模块通过级联多个第一卷积核替换第二卷积核，所述第一卷积核小于所述第二卷积核；

将所述样本图像输入本轮待训练的分类模型，依次经过所述浅层卷积网络和深层卷积网络进行特征提取；

基于提取的特征预测所述样本图像中染色体的类别，得到预测结果；

根据所述预测结果确定本轮的损失值，并根据所述损失值调整本轮待训练的分类模型的模型参数，并将下一轮作为本轮，返回执行将所述样本图像输入本轮待训练的分类模型的步骤，以进行迭代训练，直至迭代停止得到染色体分类模型。

在其中一个实施例中，所述损失值为基于交叉熵的难分类样本聚焦损失值；

所述方法还包括：

根据本轮的难分类样本聚焦损失值，减少下一轮训练中易分类样本图像的权重、且增加难分类样本图像的权重；

所述将下一轮作为本轮，返回执行将所述样本图像输入本轮待训练的分类模型的步骤，包括：

将下一轮作为本轮，并将权重调整后的样本图像作为待输入的样本图像，执行所述将所述样本图像输入本轮待训练的分类模型及后续训练步骤。

一种基于深度学习的染色体识别装置，所述装置包括：

二值化模块，用于对待识别的染色体图像进行二值化处理，得到染色体的二值图像；

切分模块，用于对所述二值图像进行正交投影，确定所述染色体的弯曲中心，并从所述弯曲中心处切分所述染色体图像中的染色体；

拼接模块，用于将切分得到的两部分染色体转正后按照切口拼接；

模型训练模块，用于根据所述待识别的染色体图像和拼接后得到的图像，确定样本图像；根据所述样本图像进行深度学习训练，得到染色体分类模型；

识别模块，用于通过所述染色体分类模型，识别所述待识别的染色体图像中染色体的类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请各实施例的基于深度学习的染色体识别方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下实现本申请各实施例的基于深度学习的染色体识别方法中的步骤。

上述基于深度学习的染色体识别方法、装置、计算机设备和存储介质，对待识别的染色体图像进行二值化处理，实现自动分割出染色体的二值图像，避免了繁琐地人工分割操作。对二值图像进行正交投影，确定染色体的弯曲中心，并从弯曲中心处切分染色体图像中的染色体；将切分得到的两部分染色体转正后按照切口拼接，能够自动、便捷地扩充矫直的染色体。从而根据待识别的染色体图像和拼接后得到的图像，确定样本图像，以扩充样本。进而，根据扩充后的样本图像进行深度学习训练，能够得到分类准确性较高的染色体分类模型，从而通过染色体分类模型，能够自动地、准确地识别待识别的染色体图像中染色体的类别。相较于传统方法繁琐地手动操作，节省了时间成本和资源交互成本。

附图说明

图1为一个实施例中基于深度学习的染色体识别方法的应用环境图；

图2为一个实施例中基于深度学习的染色体识别方法的流程示意图；

图3为一个实施例中弯曲状态的染色体图像的示意图；

图4为一个实施例中矫直后的染色体图像的示意图；

图5为一个实施例中染色体分类模型的结构示意图；

图6为一个实施例中基于深度学习的染色体识别装置的结构框图；

图7为另一个实施例中基于深度学习的染色体识别装置的结构框图；

图8为一个实施例中计算机设备的内部结构图；

图9为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于深度学习的染色体识别方法，可以应用于如图1所示的应用环境中。其中，计算机设备102可以获取待识别的染色体图像104，通过执行本申请各实施例中的基于深度学习的染色体识别方法，来识别染色体图像104中染色体的类别。计算机设备102可以为终端或服务器。图1中仅以终端为例进行示意说明。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于深度学习的染色体识别方法，本实施例以该方法应用于计算机设备进行举例说明，计算机设备可以是终端或服务器。可以理解的是，该方法还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤202，对待识别的染色体图像进行二值化处理，得到染色体的二值图像。

其中，待识别的染色体图像，是待识别染色体类别的图像。可以理解，待识别的染色体图像中包括染色体。染色体的二值图像，即为染色体的分割图像。在染色体的二值图像中，染色体为前景区域，图像中的非染色体区域为背景区域。

在一个实施例中，待识别的染色体图像可以是原始的染色体图像，也可以是对原始的染色体图像进行尺寸标准化处理后的染色体图像。其中，原始的染色体图像，是未处理的原始图像。尺寸标准化处理，是指将原始的染色体图像的尺寸进行标准化处理，使得处理后的染色体图像的尺寸满足标准要求。可以理解，待识别的染色体图像还可以是在原始的染色体图像的基础上进行其他预处理(比如，图像增强、去噪声等处理)后的染色体图像，而并不限定于尺寸标准化处理。

具体地，计算机设备可以获取待识别的染色体图像，并对待识别的染色体图像进行二值化分割处理，即，计算机设备可以计算分割阈值，将大于分割阈值的像素值作为前景区域，将小于分割阈值的像素值作为背景区域，从而从染色体图像中分割出染色体(染色体即为前景区域)，得到染色体的二值图像。

在一个实施例中，待识别的染色体图像可以为多个，多个即为至少两个。计算机设备可以对每个染色体图像分别执行步骤202～208。

步骤204，对二值图像进行正交投影，确定染色体的弯曲中心，并从弯曲中心处切分染色体图像中的染色体。

其中，正交投影，是指按照具有垂直关系的两个方向分别对二值图像进行投影。

可以理解，针对弯曲的染色体，计算机设备可以执行步骤204～206，以扩充对弯曲的染色体进行矫直后的染色体。对于本身不弯曲的染色体(即染色体本身形态就直)，则可以不执行步骤204～206的矫直处理，而是可以直接根据染色体图像执行步骤208，即，可以直接将该待识别的染色体图像作为样本图像。

具体地，计算机设备可以对二值图像进行逐步旋转，并在旋转过程中，对二值图像进行正交投影。计算机设备可以根据正交投影得到的投影向量，确定染色体的弯曲中心。在确定染色体的弯曲中心后，计算机设备可以从弯曲中心处，将染色体图像中的染色体切分开来，得到切分后的两部分染色体。

在一个实施例中，计算机设备可以分别对二值图像进行水平投影和垂直投影，根据水平投影向量和垂直投影向量，确定染色体的弯曲中心。可以理解，在其他实施例中，计算机设备还可以对二值图像进行其他方向上的投影，只要保证进行投影的方向具有正交(或垂直)关系即可。

步骤206，将切分得到的两部分染色体转正后按照切口拼接。

其中，转正处理，用于将切分的两部分染色体旋转至能够相互间进行竖直连接的状态。可以理解，转正的两部分染色体之间按照切口拼接后，能够得到一条形态矫直后的染色体。

具体地，计算机设备可以将切分得到的两部分染色体进行转正处理，计算机设备可以将转正后的两部分染色体按照切口进行拼接，得到形态矫直后的染色体图像。即，拼接得到的染色体图像中染色体的形态是矫直后的形态。

在一个实施例中，计算机设备可以将切分得到的两部分染色体进行旋转，使得这两部分染色体的方向或者走向相符。可以理解，方向或者走向相符的染色体就属于相互间能够竖直连接的状态，即实现了转正处理。

为了便于理解，现举例说明。比如，将两部分染色体都旋转成与水平方向夹角为30度，那么，这两部分染色体按照切口拼接，能够得到一条直的染色体。又比如，将两部分染色体都旋转成与水平方向夹角为90度(即处于直立状态)，，那么，这两部分染色体按照切口拼接，也能够得到一条直的染色体。只要保证这两部分染色体的方向或者走向相符即可，而不限定具体旋转到哪个方向。

在一个实施例中，计算机设备可以将切分得到的两部分染色体旋转至直立状态(即实现对切分得到的两部分染色体的转正处理)。可以理解，这里并不限定必须将切分得到的两部分染色体旋转至直立状态，也可以同时旋转至水平状态或者其他方向等。

为了便于理解，现结合图3和图4进行示意说明。图3为一个实施例中弯曲状态的染色体图像。将其按照弯曲中心302进行切分，可以得到304和306这两部分的染色体。将这两部分染色体转正后按照切口拼接，即可以得到如图4所示的矫直后的染色体图像。可以理解，图4中304和306这两部分染色体都处于直立状态，即都进行了转正，直接按照切口拼接即可以得到一条直的染色体。

步骤208，根据待识别的染色体图像和拼接后得到的图像，确定样本图像。

其中，拼接后得到的图像，即为拼接得到的染色体图像。

可以理解，染色体的二值图像的两个正交投影向量包含染色体的所有形态信息，因此，可以用于实现染色体的矫直，从而得到矫直后的染色体图像，进而可以根据该矫直后的染色体图像(即，拼接后得到的图像)实现数据扩充，即新增、扩充染色体图像。计算机设备可以根据待识别的染色体图像和拼接后得到的图像，确定样本图像，即实现了对样本数据的有效扩充。

具体地，计算机设备可以基于待识别的染色体图像和拼接后得到的图像，确定样本图像。

在一个实施例中，计算机设备可以直接将待识别的染色体图像和拼接后得到的图像，作为样本图像。

在一个实施例中，计算机设备也可以对待识别的染色体图像和拼接后得到的图像进行至少一种预处理，根据待识别的染色体图像、拼接后得到的图像以及预处理后的图像，确定样本图像。

在一个实施例中，预处理可以包括图像增强和图像扩增中的至少一种。比如，计算机设备可以对待识别的染色体图像和拼接后得到的图像进行图像扩增处理，或者对待识别的染色体图像和拼接后得到的图像进行图像增强，又或者，对待识别的染色体图像和拼接后得到的图像进行图像增强后，再进行图像扩增处理。对此不做限定。

步骤210，根据样本图像进行深度学习训练，得到染色体分类模型。

其中，染色体分类模型，是用于识别染色体类别的深度学习模型。

具体地，计算机设备可以将样本图像输入待训练的分类模型中，迭代地进行深度学习训练，得到染色体分类模型。

在一个实施例中，计算机设备可以先确定总的样本图像，然后基于确定的样本图像，迭代地进行深度学习训练。在其他实施例中，每轮训练都可以使用不同的样本图像，即，计算机设备可以在每轮迭代训练时，都对已知的样本图像进行至少一种预处理，生成新的样本图像，然后，基于新的样本图像和已知的样本图像来进行本轮的迭代训练。

步骤212，通过染色体分类模型，识别待识别的染色体图像中染色体的类别。

具体地，在训练得到染色体分类模型之后，计算机设备可以将待识别的染色体图像输入至染色体分类模型中，以识别染色体图像中染色体的类别。

上述基于深度学习的染色体识别方法，对待识别的染色体图像进行二值化处理，实现自动分割出染色体的二值图像，避免了繁琐地人工分割操作。对二值图像进行正交投影，确定染色体的弯曲中心，并从弯曲中心处切分染色体图像中的染色体；将切分得到的两部分染色体转正后按照切口拼接，能够自动、便捷地扩充矫直的染色体。从而根据待识别的染色体图像和拼接后得到的图像，确定样本图像，以扩充样本。进而，根据扩充后的样本图像进行深度学习训练，能够得到分类准确性较高的染色体分类模型，从而通过染色体分类模型，能够自动地、准确地识别待识别的染色体图像中染色体的类别。相较于传统方法繁琐地手动操作，提高了效率，节省了时间成本和资源交互成本。

此外，相较于传统人工分析过于主观容易受外界影响而造成分析准确性较低的问题，自动地通过染色体分类模型识别染色体图像中染色体的类别，更为客观，提高了识别准确性。

然后，通过扩充矫直的染色体来扩充样本，能够提高染色体分类模型的准确性，进一步地提高了染色体分类识别的准确性。

在一个实施例中，步骤202对待识别的染色体图像进行二值化处理，得到染色体的二值图像，包括：获取标准染色体图像；按照标准染色体图像的尺寸，对待识别的染色体图像进行缩放处理；对缩放处理后的待识别的染色体图像进行二值化处理，得到染色体的二值图像。

其中，标准染色体图像，是用于当作参考标准的染色体图像。可以理解，标准染色体图像中的染色体具备分裂完整、且清晰的特点。

具体地，计算机设备可以获取标准染色体图像；按照标准染色体图像的尺寸，对待识别的染色体图像进行缩放处理。即，缩放处理后的待识别的染色体图像的尺寸与标准染色体图像的尺寸相符。计算机设备可以对缩放处理后的待识别的染色体图像进行二值化处理，得到染色体的二值图像。可以理解，尺寸相符，可以是尺寸一致或者尺寸满足接近条件(即尺寸接近)。

在一个实施例中，标准染色体图像的尺寸可以包括长宽尺寸。

在一个实施例中，计算机设备可以将标准染色体图像的长宽作为一个标准，所有待识别的染色体图像按该标准进行缩放。

在一个实施例中，计算机设备可以根据标准染色体图像与每个待识别的染色体图像之间的长宽比，确定缩放倍数，进而按照该缩放倍数对待识别的染色体图像进行缩放处理。

在一个实施例中，计算机设备可以按照以下公式确定缩放倍数a：

其中，H_标和W_标分别为标准染色体图像的长和宽，H_原和W_原分别为待识别的染色体图像的长和宽，abs(x)为取整函数。

在一个实施例中，标准染色体图像可以是有丝分裂中期的、发育良好且像素清晰的染色体图像。具体地，用户可以基于计算机设备从所有有丝分裂中期的染色体图像中，选取一张发育良好且像素合适的图像，作为标准染色体图像。计算机设备则可以获取用户选取的该标准染色体图像。在其他实施例中，计算机设备也可以自动地对有丝分裂中期的染色体图像进行染色体完整性检测以及像素清晰度检测，从而自动从有丝分裂中期的染色体图像中，挑选标准染色体图像。对此不作限定。

可以理解，待识别的染色体图像可以为多个，多个染色体图像的尺寸很大可能存在尺寸不一致的情况，因此，可以按照标准染色体图像的尺寸，对待识别的染色体图像进行缩放处理，消除了由于图像来源不同而导致的染色体大小差异，从而提高后续处理的准确性以及降低后续因尺寸不一致导致的系统处理资源的不必要的浪费。

此外，由于标准染色体图像中染色体比较完整清晰，所以，该标准尺寸下的染色体更容易处理。所以，将待识别的染色体图像缩放为标准染色体图像的尺寸，使得基于该标准尺寸进行的处理更加的准确。

在一个实施例中，步骤204中对二值图像进行正交投影，确定染色体的弯曲中心的步骤，包括：逐步旋转二值图像，并对旋转至各角度下的二值图像分别进行水平投影和垂直投影；根据垂直投影向量，将二值图像旋转至目标角度；根据二值图像旋转至目标角度时的水平投影向量，确定染色体的弯曲中心。

其中，目标角度，是使二值图像中的染色体处于直立状态时所旋转的角度。直立状态，是指染色体处于竖直的、不偏倒的状态。

水平投影，是指将二维图像按行向y轴方向投影，相当于使用水平方向的光对二维图像进行投影。垂直投影，是指将二维图象按列向x轴方向投影，相当于使用垂直方向的光对二维图像进行投影。

具体地，计算机设备可以在0°～180°范围内，按照预设角度间隔逐步地对二值图像进行平面旋转，并对旋转至各角度下的二值图像分别进行水平投影和垂直投影。可以理解，对二值图像分别进行水平投影和垂直投影，即可以得到水平投影向量和垂直投影向量。

为了便于理解逐步旋转和投影的关系，现举例说明。假设，预设角度间隔为5°，那么，计算机设备可以每隔5°旋转二值图像。比如，第一次旋转将二值图像旋转5°，并对总共旋转了5°的二值图像进行水平投影和垂直投影。如果旋转5°后并未达到目标角度，则再对二值图像旋转5°，即总旋转角度为10°，然后再对总共旋转了10°的该二值图像进行水平投影和垂直投影。依次类推，对二值图像逐步旋转，并对旋转至各角度下的二值图像分别进行水平投影和垂直投影。

可以理解，计算机设备会根据每个角度下的二值图像的垂直投影向量，判断二值图像是否旋转至目标角度，即，是否旋转到使二值图像中的染色体处于直立状态的角度。如果没有旋转至目标角度，则继续按照预设间隔进行旋转，直至根据目标垂直投影向量，将二值图像旋转至目标角度(即，将二值图像中的染色体旋转为直立状态)。计算机设备可以计算二值图像旋转至目标角度时进行水平投影得到的水平投影向量，并根据该水平投影向量确定染色体的弯曲中心。即，根据处在直立状态下的染色体的水平投影向量，确定最窄点，将该最窄点作为该染色体的弯曲中心。

上述实施例中，通过逐步旋转二值图像，并对旋转至各角度下的二值图像分别进行水平投影和垂直投影；根据垂直投影向量和水平投影向量，能够准确地、便捷地确定染色体的弯曲中心。从而能快速、准确地对染色体矫直。

在一个实施例中，根据二值图像旋转至目标角度时的水平投影向量，确定染色体的弯曲中心，包括：从二值图像旋转至目标角度时的水平投影向量中，确定两个局部极大值；根据两个局部极大值之间的区域中的全局最小值，确定染色体的弯曲中心。

可以理解，对于弯曲的染色体来说，该染色体的头尾两端最为粗壮，位于头尾两端之间最窄的地方，即属于该染色体的弯曲中心。因此，计算机设备可以从二值图像旋转至目标角度时的水平投影向量中，确定两个局部极大值。该两个局部极大值即是染色体最为粗壮的头尾两端。计算机设备可以从两个局部极大值之间的区域中，确定全局最小值，该全局最小值即为像素最少的最窄地方，因而可以将该全局最小值，确定为染色体的弯曲中心。

上述实施例中，从处于直立状态下的染色体的水平投影向量中，确定两个局部极大值之间的区域中的全局最小值，能够准确地、便捷地确定染色体的弯曲中心。从而能快速、准确地对染色体矫直。进而实现对染色体图像快速、有效地扩充。

在一个实施例中，根据待识别的染色体图像和拼接后得到的图像，确定样本图像，包括：将待识别的染色体图像和拼接后得到的图像作为待处理的图像，对待处理的图像进行图像预处理。

可以理解，计算机设备可以对步骤202中得到的染色体的待识别的染色体图像和拼接后得到的图像进行图像预处理。

在一个实施例中，计算机设备可以对待处理的图像进行的图像预处理可以包括以下至少一种：利用像素点将待处理的图像填充为预设形状和尺寸；通过直方图均衡化处理，对待处理的图像进行图像增强；通过均值滤波对待处理的图像进行平滑处理；对待处理的图像进行图像扩增处理。

可以理解，通过均值滤波对待处理的图像进行平滑处理的这一预处理，即用于在不影响待处理的图像中的低频分量的情况下，减弱或消除待处理的图像中的高频分量。

在一个实施例中，利用像素点将待处理的图像填充为预设形状和尺寸这一预处理的具体步骤可以包括：利用像素值为255的像素点将待处理的图像(即单条染色体的二值图像)填充为预设形状，并将图像尺寸调整为预设尺寸。在一个实施例中，预设形状可以为正方形或长方形或其他形状，预设尺寸可以为200*200或者其他尺寸，对此不作限定。可以理解，通过像素点填充，能够使得图像规范统一，提高后续处理的便利性和准确性，且减少了处理资源的损耗。

可以理解，直方图均衡化处理、通过锐化滤波过滤待处理的图像中的低频分量、以及通过均值滤波对待处理的图像进行平滑处理，都属于对图像增强处理。

在一个实施例中，对待处理的图像进行图像扩增处理可以包括反转、平移、缩放、亮度变化、裁剪、改变光照、颜色变换、模糊、灰度变换，随机概率生成随机大小掩码，模拟染色体折叠遮挡现象，增加数据难度等处理中的至少一种。

在一个实施例中，图像预处理还可以包括：通过锐化滤波过滤待处理的图像中的低频分量这一预处理。即，在不影响待处理的图像中的高频分量的情况下，减弱或消除待处理的图像中的低频分量。

可以理解，计算机设备可以对待处理的图像进行上述预处理中的任意一种或多种预处理。当计算机设备需要对待处理的图像执行上述多种预处理时，可以将前一预处理的处理结果作为下一预处理的输入，从而实现对待处理的图像的多种预处理。需要说明的是，当需要执行多种预处理时，并不限定各个预处理之间的执行先后顺序。

在一个具体的实施例中，计算机设备可以利用像素点将待处理的图像填充为预设形状和尺寸，然后，通过直方图均衡化对填充后的图像进行增强。然后，通过均值滤波对锐化滤波处理后的图像进行平滑，从而实现对图像的增强处理。接着，计算机设备可以对通过上述预处理进行增强后的图像进行图像扩增。可以理解，在其他实施例中，也可以改变该实施例中的预处理执行先后顺序，从而形成新的预处理方案。在一个实施例中，在通过均值滤波对锐化滤波处理后的图像进行平滑之前，还可以通过锐化滤波过滤待处理的图像中的低频分量。

上述实施例中，对图像预处理后再进行确定样本图像，能够提高样本图像的有效性，从而提高后续基于样本图像训练的染色体分类模型的检测精度。

在一个实施例中，计算机设备可以对预处理后得到的图像中的像素进行归一化处理，得到样本图像。其中，预处理后得到图像包括预处理前的图像(即，待识别的染色体图像和拼接后得到的图像)以及预处理后新得到的图像(比如，像素点填充后的图像、图像增强后的图像和图像扩增后的图像等中的至少一种，都属于预处理后新得到的图像)。

在一个实施例中，针对每个预处理后得到的图像，计算机设备可以将该图像中每个像素点减去该图像中所有像素点的均值，然后再除以标准差，从而对该图像进行归一化、规范化处理。这样可以保证预处理后得到的所有图像分布都相似，从而使得在深度学习训练时，更容易收敛，即降低了收敛难度，进而降低了深度学习训练过程中的系统资源损耗。在其他实施例中还可以使用其他归一化方法，对预处理后得到的图像中的像素进行归一化处理。

在一个实施例中，根据样本图像进行深度学习训练，得到染色体分类模型，包括：获取待训练的分类模型；将样本图像输入本轮待训练的分类模型，依次经过浅层卷积网络和深层卷积网络进行特征提取；基于提取的特征预测样本图像中染色体的类别，得到预测结果；根据预测结果确定本轮的损失值，并根据损失值调整本轮待训练的分类模型的模型参数，并将下一轮作为本轮，返回执行将样本图像输入本轮待训练的分类模型的步骤，以进行迭代训练，直至迭代停止得到染色体分类模型。

其中，分类模型中包括浅层卷积网络和深层卷积网络。浅层卷积网络，用于进行浅层的初步特征提取。深层卷积网络，是相较于浅层卷积网络进行更深层次的特征提取。

深层卷积网络中包括不同结构的至少两种卷积模块。即，不同卷积模块具有不同的结构，从而能够扩展模型的深度和宽度，从而能够提取更深层次的特征，避免过拟合。

深层卷积网络中每个卷积模块通过级联多个第一卷积核替换第二卷积核，所述第一卷积核小于所述第二卷积核。可以理解，使用更小的卷积核替代大的卷积核，能够减少网络参数，从而能够提高模型训练效率且减少训练过程中的系统资源损耗。比如，将5x5的卷积核换成2个3*3卷积，再比如3x3卷积核换成1x3和3x1这两个卷积核，就能使用更小的核来减少网络参数。

具体地，计算机设备可以根据样本图像进行迭代地深度学习训练，在每轮迭代训练中，计算机设备可以将样本图像输入本轮待训练的分类模型，依次经过浅层卷积网络和深层卷积网络进行特征提取；基于提取的特征预测样本图像中染色体的类别，得到预测结果。计算机设备可以根据预测结果和标注结之间的差异，确定本轮的损失值。计算机设备可以根据本轮的损失值调整本轮待训练的分类模型的模型参数，并将下一轮作为本轮，返回执行将样本图像输入本轮待训练的分类模型的步骤，以进行迭代训练，直至迭代停止得到染色体分类模型。

在一个实施例中，深层卷积网络可以为InceptionV3网络(即，由Google开发的一个深层卷积网络)。深层卷积网络中包括的卷积模块可以为不同结构的Inception模块。即，本申请实施例中的深层卷积网络，是由多种不同的Inception模块结合卷积池化构成。

为了便于对染色体分类模型的结构进行理解，现结合图5进行示意说明。参照图5，染色体分类模型可以包括浅层卷积网络502和深层卷积网络504，其中，深层卷积网络504中包括A～E这5种不同的卷积模块(即Inception模块)，每个卷积模块中包括多个较小的卷积核，以减少网络参数。现结合图5描述染色体分类模型的每轮的训练步骤，先将样本图像进行尺寸放大，然后输入染色体分类模型中的浅层卷积网络502，经由502中各个卷积层进行初步卷积后，依次经深层卷积网络504中各个卷积模块进行深层卷积，将提取的特征输入至全连接层，进而预测染色体类别。

上述实施例中，基于包括浅层卷积网络和深层卷积网络的分类模型架构进行训练，能够提取深层次特征，提高模型训练准确性及模型的精度。此外，由于深层卷积网络包括不同的结构的卷积模块，从而能够扩展模型的深度和宽度，进而能够提取更深层次的特征，避免过拟合，进一步地提高了染色体分类模型的精度。

在一个实施例中，损失值为基于交叉熵的难分类样本聚焦损失值。该方法还包括：根据本轮的难分类样本聚焦损失值，减少下一轮训练中易分类样本图像的权重、且增加难分类样本图像的权重。本申请实施例中，将下一轮作为本轮，返回执行将样本图像输入本轮待训练的分类模型的步骤，包括：将下一轮作为本轮，并将权重调整后的样本图像作为待输入的样本图像，执行将样本图像输入本轮待训练的分类模型及后续训练步骤。

其中，难分类样本聚焦损失值，用于在训练中专注于难分类样本。

在一个实施例中，基于交叉熵的难分类样本聚焦损失值，可以为Focal loss函数(即，对标准的交叉熵损失函数进行修改得到的用于降低易分类样本权重的损失函数)计算出的损失值。

具体地，计算机设备除了根据本轮的难分类样本聚焦损失值调整本轮待训练的分类模型的模型参数之外，还可以根据本轮的难分类样本聚焦损失值，减少下一轮训练中易分类样本图像的权重、且增加难分类样本图像的权重，以使得在不忽略任何样本的情况下，让模型训练时更加专注在较难学习的样本上。计算机设备则可以将下一轮作为本轮，并将权重调整后的样本图像作为待输入的样本图像，返回执行将样本图像输入本轮待训练的分类模型及后续训练步骤，以进行新一轮的模型迭代训练。

在一个实施例中，计算机设备可以按照以下公式计算难分类样本聚焦损失值：

CE(P_t)＝-log(P_t)；

FL(P_t)＝(1-P_t)^αCE(P_t)。

其中，P_t为样本图像中染色体的分类概率；CE(P_t)是交叉熵；(1-P_t)^α是调节因子，α是可调节的聚焦参数；FL(P_t)为难分类样本聚焦损失值。

上述实施例中，基于难分类样本聚焦损失值，能够在不忽略任何样本的情况下，让模型训练时更加专注在较难学习的样本上，提高了模型训练的准确性，从而提高染色体分类模型的精度。

应该理解的是，虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本申请各实施例的流程图的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

如图6所示，在一个实施例中，提供了一种基于深度学习的染色体识别装置，该装置包括：二值化模块602、切分模块604、拼接模块606、模型训练模块608以及识别模块610；其中：

二值化模块602，用于对待识别的染色体图像进行二值化处理，得到染色体的二值图像。

切分模块604，用于对二值图像进行正交投影，确定染色体的弯曲中心，并从弯曲中心处切分染色体图像中的染色体。

拼接模块606，用于将切分得到的两部分染色体转正后按照切口拼接。

模型训练模块608，用于根据待识别的染色体图像和拼接后得到的图像，确定样本图像；根据样本图像进行深度学习训练，得到染色体分类模型。

识别模块610，用于将待识别的染色体图像输入染色体分类模型中，以识别染色体图像中染色体的类别。

在一个实施例中，二值化模块602还用于获取标准染色体图像；按照标准染色体图像的尺寸，对待识别的染色体图像进行缩放处理；对缩放处理后的待识别的染色体图像进行二值化处理，得到染色体的二值图像。

如图7所示，在一个实施例中，切分模块604包括：

投影模块604a，用于逐步旋转二值图像，并对旋转至各角度下的二值图像分别进行水平投影和垂直投影；根据垂直投影向量，将二值图像旋转至目标角度；目标角度，是使二值图像中的染色体处于直立状态时所旋转的角度。

弯曲中心确定模块604b，用于根据二值图像旋转至目标角度时的水平投影向量，确定染色体的弯曲中心。

在一个实施例中，弯曲中心确定模块604b还用于从二值图像旋转至目标角度时的水平投影向量中，确定两个局部极大值；根据两个局部极大值之间的区域中的全局最小值，确定染色体的弯曲中心。

在一个实施例中，模型训练模块608还用于将待识别的染色体图像和拼接后得到的图像作为待处理的图像，对待处理的图像进行图像预处理，并对预处理后得到的图像中的像素进行归一化处理，得到样本图像。其中，图像预处理包括以下至少一种：利用像素点将待处理的图像填充为预设形状和尺寸；通过直方图均衡化处理，对待处理的图像进行图像增强；通过均值滤波对待处理的图像进行平滑处理；对待处理的图像进行图像扩增处理。

在一个实施例中，模型训练模块608还用于获取待训练的分类模型；分类模型中包括浅层卷积网络和深层卷积网络；深层卷积网络中包括不同结构的至少两种卷积模块，每个卷积模块通过级联多个第一卷积核替换第二卷积核，所述第一卷积核小于所述第二卷积核；将样本图像输入本轮待训练的分类模型，依次经过浅层卷积网络和深层卷积网络进行特征提取；基于提取的特征预测样本图像中染色体的类别，得到预测结果；根据预测结果确定本轮的损失值，并根据损失值调整本轮待训练的分类模型的模型参数，并将下一轮作为本轮，返回执行将样本图像输入本轮待训练的分类模型的步骤，以进行迭代训练，直至迭代停止得到染色体分类模型。

在一个实施例中，损失值为基于交叉熵的难分类样本聚焦损失值。模型训练模块608还用于根据本轮的难分类样本聚焦损失值，减少下一轮训练中易分类样本图像的权重、且增加难分类样本图像的权重；将下一轮作为本轮，并将权重调整后的样本图像作为待输入的样本图像，执行将样本图像输入本轮待训练的分类模型及后续训练步骤。

关于基于深度学习的染色体识别装置的具体限定可以参见上文中对于基于深度学习的染色体识别方法的限定，在此不再赘述。上述基于深度学习的染色体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的染色体识别方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于深度学习的染色体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8或9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的染色体识别方法，其特征在于，所述方法包括：

将切分得到的两部分染色体转正后按照切口拼接；

2.根据权利要求1所述的方法，其特征在于，所述对待识别的染色体图像进行二值化处理，得到染色体的二值图像包括：

获取标准染色体图像；

3.根据权利要求1所述的方法，其特征在于，所述对所述二值图像进行正交投影，确定所述染色体的弯曲中心包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述二值图像旋转至所述目标角度时的水平投影向量，确定所述染色体的弯曲中心包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述待识别的染色体图像和拼接后得到的图像，确定样本图像包括：

其中，所述图像预处理包括以下至少一种：

利用像素点将所述待处理的图像填充为预设形状和尺寸；

通过均值滤波对所述待处理的图像进行平滑处理；

对所述待处理的图像进行图像扩增处理。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述样本图像进行深度学习训练，得到染色体分类模型包括：

7.根据权利要求6所述的方法，其特征在于，所述损失值为基于交叉熵的难分类样本聚焦损失值；

所述方法还包括：

所述将下一轮作为本轮，返回执行将所述样本图像输入本轮待训练的分类模型的步骤包括：

8.一种基于深度学习的染色体识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。