CN109285174A

CN109285174A - 基于众包和深度学习的染色体分割和核型分析

Info

Publication number: CN109285174A
Application number: CN201810180368.9A
Authority: CN
Inventors: M·沙玛; L·维格; S·S·卡兰德; A·斯里拉曼; R·S·M·赫巴拉古比
Original assignee: TCS
Current assignee: TCS
Priority date: 2017-07-19
Filing date: 2018-03-05
Publication date: 2019-01-29
Anticipated expiration: 2038-03-05
Also published as: AU2018201476A1; US10621474B2; JP6847883B2; US20190026604A1; EP3432198A2; EP3432198C0; EP3432198A3; CA2997579A1; CA2997579C; MX2018002666A; CN109285174B; JP2019022477A; EP3432198B1; AU2018201476B2

Abstract

核型分析中最具挑战的问题是中期扩散图像中重叠染色体的分割和分类。染色体通常以不同的弯曲程度在不同的方向上弯曲。创造基础事实努力的乏味和耗时性使得难以为训练阶段扩展基础事实。本公开提供了减少染色体分割和核型分析的认知负担的端到端解决方案。通过采用众包同时解决与众包相关的问题，减少了对专家的依赖。通过众包识别的片段被预处理以改善通过使用深度卷积网络(CNN)实现的分类。

Description

基于众包和深度学习的染色体分割和核型分析

优先权要求

本申请要求于2017年7月19日提交的第201721025674号印度专利申请的优先权。上述申请的全部内容通过引用并入本文。

技术领域

本文的实施例通常涉及细胞遗传学，并且更具体地涉及用于基于众包和深度学习的染色体分割和核型分析的系统和方法。

背景技术

中期染色体分析是细胞遗传学中利用的主要技术之一。观察中期染色体片段或易位可以指示细胞基因组的结构变化，并且通常用于诊断目的。通过在细胞扩散图像中表征个体染色体来完成在中期显微摄影的染色体的核型分析。目前，花费相当大的精力和时间来从细胞图像手动对染色体分割，并将分割的染色体分类成24种类型中的一种，或者将患病细胞分类为已知的易位类型中的一种。在这些图像中对染色体分割可能特别费力，并且通常手动完成，如果图像中存在重叠的染色体，这些染色体不易被图像处理技术分离。已经提出了许多技术来以合理的准确度从扩散图像中自动化染色体的分割和分类，但鉴于该领域的关键性，专业人员通常仍然是需要的。

发明内容

本公开的实施例提出了技术改进，作为解决上述发明人在传统系统中认识到的一个以上上述技术问题的解决方案。

在一个方面，提供了一种处理器实现的方法，包括：接收中期染色体的数字化图像；优化用于对数字化图像分割的众包，其中优化众包包括：将数字化图像划分为多个部分；同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段，其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓；分析从一个以上工作人员接收到的片段以识别并且淘汰来自众包劳动力的垃圾制作者，其中所述分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖；以及基于分析从经分析的片段中选择一组一致片段用于分类。

另一方面，提供了一种系统，包括：一个以上数据存储设备，可操作地联结到所述一个以上处理器，并且被配置为存储被配置为由所述一个以上处理器执行的指令，以：接收中期染色体的数字化图像；优化用于对数字化图像分割的众包，优化众包包括：将数字化图像划分成多个部分；同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段，其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓；分析从一个以上工作人员接收到的片段以识别并且淘汰众包劳动力中的垃圾制作者，其中分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖；以及基于分析从经分析的片段中选择一组一致片段用于分类。

在又一个方面，提供了一种计算机程序产品，其包括非暂时性计算机可读介质，所述计算机可读介质中包含有计算机可读程序，其中所述计算机可读程序在计算设备上执行时使所述计算设备：接收中期染色体的数字化图像；优化用于对数字化图像分割的众包，优化众包包括：将数字化图像划分成多个部分；同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段，其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓；分析从一个以上工作人员接收到的片段以识别并且淘汰众包劳动力中的垃圾制作者，其中分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖；以及基于分析从经分析的片段中选择一组一致片段用于分类。

在本公开的一个实施例中，所述一个以上硬件处理器还被配置为执行通过一个以上过滤步骤来分析所述片段的步骤，过滤步骤包括：淘汰与低于第一阈值的可靠性相关联的一个以上工作人员，其中所述可靠性表示工作人员的标记接近已标记片段数量的模式的次数；淘汰与低于第二阈值的质量相关联的一个以上工作人员，其中所述质量表示冲突标记、基于误解指示的标记和一贯差的分段；以及淘汰与低于第三阈值的片段数量相关联的一个以上工作人员；其中所述第一阈值、所述第二阈值和所述第三阈值是经验值。

在本公开的一个实施例中，其中所述一个以上硬件处理器还被配置为使用深度卷积神经网络(CNN)对所述一组一致片段进行分类，所述分类步骤包括：通过以下步骤矫直弯曲的染色体：将所述一致片段的图像二值化，基于二值化图像的像素值和与所述染色体相关联的紧密拟合矩形的总面积，使用白度值从所述一致片段中识别弯曲的染色体；基于所述一致片段的二值化图像上的拟合直线的斜率计算弯曲染色体的弯曲取向；计算所述弯曲染色体的弯曲中心，其中所述弯曲染色体各自包含一个沿着弯曲轴线的臂；以及对沿着弯曲轴线的臂进行拼接，重建弯曲的染色体，以获得矫直的染色体。所述一个以上硬件处理器还被配置为使用着丝粒位置和与其相关联的长度对染色体的长度进行归一化；以及使用深度CNN基于其归一化长度对染色体进行分类。

应当理解，前面的一般性描述和下面的详细描述仅仅是示例性和解释性的，并不限制所要求保护的本公开的实施例。

附图说明

根据以下参考附图的详细描述，将更好地理解本文中的实施例，其中：

图1示出根据本公开一个实施例的用于基于众包和深度学习的染色体分割和核型分析的系统的示例性框图；

图2a和图2b表示根据本公开一个实施例的用于基于众包和深度学习的染色体分割和核型分析的计算机实现的方法的示例性流程图；

图3a和图3b示出由众包劳动力在中期染色体的数字化图像中进行标记的两个示例；

图4a和图4b示出由众包劳动力在中期染色体的数字化图像的预定义区域中进行标记的两个示例；

图5示出根据本公开一个实施例的涉及矫直弯曲染色体的步骤(a至g)；

图6a和图6b示出根据本公开一个实施例的具有负斜率的向左弯曲的染色体和具有正斜率的向右弯曲的染色体；

图7示出根据本公开一个实施例的在过滤期间被淘汰的来自众包劳动力的响应的示例(a至d)；以及

图8示出根据本公开一个实施例的从众包劳动力接收的样本(a至c)注释。

本领域技术人员应该理解，本文中的任何框图表示体现本主题的原理的说明性系统的概念视图。类似地，可以理解的是，任何流程表、流程图、状态转换图、伪代码等表示可以基本上在计算机可读介质中表示并且由计算设备或处理器执行的各种过程，不管是否这样的计算设备或处理器被明确示出。

具体实施方式

参考附图描述示例性实施例。在这些图中，附图标记的最左边的数字表示该附图标记首次出现的图。在任何方便的地方，所有附图使用相同的附图标记来表示相同或相似的部分。尽管本文描述了公开的原理的示例和特征，但是在不脱离所公开的实施例的精神和范围的情况下，可以进行修改、改动和其他实现。下面的详细描述仅被认为是示例性的，真正的范围和精神由以下权利要求指示。

在阐述详细说明之前，应注意的是，无论所描述的具体实现如何，以下所有讨论本质上都是示例性的，而不是限制性的。

染色体是细胞核中含有人体遗传密码的细长绳状结构。人体有23对染色体。染色体核型分析是检测诸如唐氏综合征、爱德华兹综合征、慢性粒细胞白血病和特纳综合征等遗传异常的有用技术。这些异常可以表现为已知的染色体易位和对应于不同病症的片段的形式。核型分析是通过培养细胞和在中期分离细胞核中的染色体并将它们在载玻片上染色以允许显微摄影来进行的。最后，由专家分析染色体图像以分类和分离不同的染色体片段。尽管核型分析染色体对诊断有重要意义，但需要花费大量的人工时间和精力将来自细胞培养物的图像中的染色体分割和分类。本公开的系统和方法旨在减少在分割和分类任务期间涉及的认知负荷，并且将对专家的依赖减少为仅纠正错误(如果有的话)。

在核型分析中最具挑战的问题是中期扩散图像中重叠染色体的分割和分类，并且在文献中已经进行了许多尝试来自动化重叠染色体分割，取得的成功很有限。这可能是由于存在一些情况，诸如未分裂的簇(其可能是假阳性的另一个主要因素)和染色体碎片化(其可能会增加假阴性率，因为破裂的染色体不能用于进一步分析)。另一个难题是染色体往往在不同的方向弯曲。有一些基于视觉的方法可用于矫直染色体，但它们不适用于具有不同程度弯曲的染色体。经由显微镜图像的分割手动建立基础事实是生物医学分析的重要步骤。该任务的乏味和耗时性质使得难以为训练阶段标定基础事实。

本公开的系统和方法通过提供用于机器辅助的染色体分割和分类的端到端解决方案来解决这些难题，该解决方案组合了用于注释染色体片段的非专家人群的使用和用于对个体的染色体分类的深度分类模型。本公开的系统和方法依赖于众包平台(非专家人群)来注释染色体边界，然后提取染色体边界并将其馈送到用于核型分析的分类引擎中。特别是，在将染色体图像馈送到深度神经网络用于分类以提高分类准确性之前，执行弯曲染色体的矫直。

现在参考附图，并且更具体地参考图1至8，其中相似的附图标记在所有附图中一致地表示相应的特征，图中示出优选实施例，并且在以下示例性系统和方法的情形中描述了这些实施例。

图1示出根据本公开一个实施例的用于基于众包和深度学习的染色体分割和核型分析的系统100的示例性框图。在一个实施例中，系统100包括一个以上处理器104、(一个或若干个)通信接口设备或输入/输出(I/O)接口106，以及可操作地联结到所述一个以上处理器104的一个以上数据存储设备或存储器102。作为硬件处理器的一个以上处理器104可以被实现为一个以上微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、图形控制器、逻辑电路和/或基于操作指令操纵信号的任何设备。除其他能力之外，处理器被配置为获取并执行存储在存储器中的计算机可读指令。在一个实施例中，系统100可以在各种计算系统中实现，诸如膝上型计算机、笔记本、手持设备、工作站、大型计算机、服务器、网络云等。

I/O接口设备106可以包括各种软件和硬件接口，例如网络接口、图形用户接口等，并且可以便于多种网络N/W和协议类型内的多种通信，这些网络N/W和协议类型包括有线网络，例如LAN、电缆等，以及无线网络，诸如WLAN、蜂窝或卫星。在一个实施例中，该(一个或若干个)I/O接口设备可以包括用于将多个设备彼此连接或连接到另一个服务器的一个以上端口。

存储器102可以包括本领域已知的任何计算机可读介质，例如诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)等易失性存储器和/或诸如只读存储器(ROM)、可擦除可编程ROM、闪存、硬盘、光盘和磁带等非易失性存储器。在一个实施例中，系统100的一个以上模块(未示出)可以存储在存储器102中。

图2a和图2b图示了一个示例性流程图，该流程图示出了根据本公开一个实施例的用于基于众包和深度学习的染色体分割和核型分析的计算机实现的方法200。在一个实施例中，系统100包括可操作地联结到一个以上处理器104的一个以上数据存储设备或存储器102，并且被配置为存储被配置为由一个以上处理器104执行方法200的步骤的指令。

现在将参考图1的系统100的组件详细解释方法200的步骤。根据本公开一个实施例，一个以上处理器104被配置为在步骤202处接收中期染色体的数字化图像。根据本公开，不依赖于专家来对数字化图像分割。相反，这些方法依赖于非专业人群。募集来自CrowdFlowerTM的工作人员对给定图像中的染色体分割。分割包括，标记图像中所有染色体的轮廓或外廓。图3a和图3b示出众包劳动力在中期染色体的数字化图像中进行标记的两个示例。最初，需要一名工作人员标记图像中的所有染色体，同时通过为多名工作人员分配相同的图像来创建冗余。图3a特别示出在这种情况下看到的标记。注意到两个缺点。首先，工作人员疲于奔命，没有完成微观任务。平均而言，一名工作人员只会标记≈20条染色体。其次，由于每个工作人员只能由另外4名分配相同图像的工作人员进行交叉评估，因此混合不良。众人合作时的主要难题是识别虚假或垃圾标记，并最大限度地提高覆盖。在本公开的情形中，垃圾制作者的标记(如下文所述标识)被称为虚假或垃圾标记。因此，在本公开的实施例中，一个以上处理器104被配置为在步骤204处优化用于对数字化图像进行分割的众包。首先，在一个实施例中，在步骤204a，数字化图像被分成多个部分。在步骤204b，将多个部分中的每一个同时分配给参与众包劳动力的一个以上工作人员，以通过对所分配的部分分割来获得片段。作为分割的一部分，现在要求工作人员标记与由虚线矩形突出显示的区域相交或完全位于由虚线矩形突出显示的区域内的染色体，如图3b所示。通过同时为多个工作人员分配一个部分，确保了冗余。观察到覆盖显著地提高。但是，有几名工作人员会在虚线的边界处去掉标记。这种影响是通过非常明确的指示来解决的，这些指示为工作人员提供屏幕截图和描述染色体标记跨越边界的示例。发布这些努力后，观察到两种类型的垃圾制作者：标记大外廓来覆盖其网格中的所有染色体的工作人员，如图4a所示，以及ii)不标记/部分标记染色体的工作人员，如图4b所示。此外，一些工作人员可能会针对叠加的染色体将标记融合在一起，从而有必要识别和淘汰垃圾制作者。

相应地，在一个实施例中，一个以上处理器104被配置为在步骤204c分析从一个以上工作人员接收的片段。通过检查虚假标记、检查标记的正确性和标记最大化覆盖，此步骤有助于识别和淘汰众包工作人员中的垃圾制作者。设有m个工作人员和n个数字化图像。每幅图像可以进一步划分为t个部分，I_ij表示第i个图像的第j部分。设S_ij为为I_ij提供片段的一组工作人员。设H_k为一组元组(i，j)，表示工作人员k已分配的部分。此外，设c_ijk为第k个工作人员为I_ij标记的片段的数量。

在一个实施例中，过滤步骤可以包括淘汰与低于第一阈值的可靠性相关联的一个以上工作人员，其中可靠性表示工作人员的标记接近如下文解释那样标记的片段数量模式的次数。设C_ij为在集合S_ij上计算的c_ijk的模式。如果所有工作人员在计数上不一致，那么C_ij可能会被宣布为等于中位数，如果是平局，则可以选择较高的值。此外，根据本公开，通过下式测量工作人员的可靠性

这代表了一名工作人员与模式密切相符的次数。可靠性低于第一阈值的所有工作人员都可以被淘汰。这种过滤机制淘汰了大多数倾向于标记与真正的染色体几乎没有关联的片段的明显的垃圾制作者。

在一个实施例中，另一个过滤步骤可以包括淘汰与低于第二阈值的质量相关联的一个以上工作人员，其中质量表示冲突标记、基于误解指令的标记和一贯较差的分段，如下文所述。设O_ijkl为I_ij上由工作人员k标记的第l个片段。根据本公开，分数T(O_ijk1)在一些其他工作人员提供的最佳匹配方面被定义为如下：

因此，根据本公开，工作人员的质量可以通过他的标记的预期质量来描述，即q(k)＝E[t(O_ijkl)]。

在又一个实施例中，另一个过滤步骤可以包括淘汰与低于第三阈值的片段数量相关联的一个以上工作人员。设

1)[w₁，...，w_N]代表n个大众工作人员，

2)[a₁，......，a_M]代表要标记的图像部分，

3)Nebw(i)是工作人员i标记过的图像部分的索引，

4)Neba(j)是在区域j上工作过的工作人员的索引，

5)C_ij是工作人员i为区域j标记的染色体的数量，

6)C_j是图像区域j中染色体数量的真实值，

7)s_i是与每个工作人员相关联的标准偏差，该标准偏差控制对于该工作人员而言的标示噪声，即工作人员提供的标示是区域真实计数加方差为s_i的零均值高斯随机变量：

C_ij＝C_j+N(0,s_i)

根据本公开，将估计所有C_j和模型参数s_i的真实值。根据一个实施例，严格的期望值最大化(EM)可以如下表示。

初始化：

迭代步骤：

模型估计：

标示估计：

一旦估计出所有工作人员的噪声质量，可以淘汰噪声比平均值exp((log(s_i))+(2*var(log(s_i)))差的工作人员。

在一个实施例中，第一阈值、第二阈值和第三阈值是经验值。

一旦在步骤204c的分析之后识别并且淘汰了垃圾制作者，则在步骤204d基于最佳片段标示的分析和识别从分析的片段中选择一组一致片段用于分类。一致染色体是基于得分T(.)以贪婪的方式选择的。一旦选择了某一片段标示，将删除所有其他员工与所选择的片段标记明显重叠的标示。重复这个过程直到没有更多的片段标示被选择。

根据本公开一个实施例，一个以上处理器104还被配置为在步骤206中使用深度卷积神经网络(CNN)对一致片段组进行分类。分类步骤包括首先在步骤206a矫直弯曲的染色体，然后在步骤206b对染色体的长度进行归一化，并最终在步骤206c使用深度CNN基于归一化的长度对染色体进行分类，如下文所解释的。

在已从数字化图像分割单个染色体并且在步骤204d已经选择了一致片段之后，将它们馈送到分类器以确定染色体的类型。从光学显微镜获得的染色体图像的自动分类的主要难题之一是染色体经常以不同的取向弯曲。由于不同染色体弯曲的点和程度不同，分类问题变得更加复杂。因此，根据本公开，采用自动矫直方法来矫直弯曲的染色体。本领域已知的矫直方法对矫直高度弯曲的染色体是有效的，但对于不是那么太弯曲的染色体可能不能很好地执行。

根据本公开，所提出的矫直算法是更广泛适用的。这涉及一些预处理步骤以改善分类，如下文所述。在步骤206a，弯曲的染色体被矫直。图5示出根据本公开一个实施例的涉及矫正弯曲染色体的步骤(a至g)。为此，首先将如图5a所示的一致片段的原始图像如图5b所示进行二值化，并确定染色体的弯曲取向(图5c)，即确定特定的染色体是直的还是弯曲的。这样做所基于的事实是，与弯曲染色体的区域相比，针对直染色体的直立紧密拟合矩形包含更少的空白区域。因此，根据本公开，白度值“W”被定义为二值化染色体图像的像素值之和(因为所有黑色像素的值＝0，所以其表示白色像素的总数)与紧密拟合矩形的总面积的比率。W≥W_T的染色体被标示为直染色体，其中W_T是白度阈值，针对所考虑的数据集将其值根据经验确定为170。此外，确定弯曲染色体的弯曲方向。如图5c所示，将一条直线拟合到二值化染色体上。并且该直线的斜率的符号被用于确定染色体弯曲的方向。图6a和图6b示出根据本公开一个实施例的具有负斜率的向左弯曲的染色体和具有正斜率的向右弯曲的染色体。

在一个实施例中，预处理步骤还包括计算弯曲染色体的弯曲中心，其中诸弯曲的染色体都包含一个臂，每个臂都沿着弯曲轴线。在定位水平投影向量的最大值和最小值之前，通过应用例如Savitzky Golay滤波器来忽略可能导致不想要的局部最大值或最小值的小偏离，从而平滑水平投影向量的分布曲线。作为该步骤的结果，如图5d所示，染色体被分成两个子图像，每个子图像包含沿着弯曲轴线的一个臂，这是染色体最薄的地方。

此外，根据本公开一个实施例，将沿着弯曲轴线的染色体臂拼接起来，重建弯曲的染色体，以获得矫直的染色体。每个子图像包含大致是一个直物体的染色体的一个臂。这两个子图像被旋转以便两个臂处于相同的方向。为此，每个子图像从-90°旋转到90°，同时在每个旋转步骤处计算其垂直投影矢量。由于染色体的每个臂的特定形状，如果臂处于子图像内部的垂直位置，则垂直投影向量表现出最小宽度。以类似的方式，上臂旋转以处于垂直位置。通过裁剪对齐的上臂的下部黑色部分和对齐的下臂的上部黑色部分，并水平移动上部图像使得染色体的上部正确地位于下部上，来完成两条臂的拼接。如图5e所示，完成移位以使得上部图像的最低白色像素恰好位于下部图像的最上部白色像素的顶部。如图5e所示，在染色体臂拼接后，染色体图像的一些像素丢失。为了解决这个问题，执行重建。在该过程中，找到拼接染色体的空白部分的两个外端点(未连接)并且如图5f所示用单条直线连接。然后，如图5g所示，所包围的区域中的像素用与空像素处于同一水平高度的像素的平均值填充。这是因为染色体具有水平带。因此，矫直后染色体的同一水平高度上的像素浓淡应该是相同的。

作为经由众包分割的结果，染色体片段-图像具有不同的大小。不同染色体最明显的特征是染色体长度和着丝粒位置。为了保留该区别特征，根据本公开，在步骤206b，使用着丝粒位置和与其相关联的长度对染色体的长度进行归一化。染色体着丝粒是染色体中最薄的部分。对于直的染色体，通过找出行像素和最低的行号数来定位着丝粒，即它具有最少数量的白色像素或宽度。在弯曲染色体的情况下，弯曲中心是着丝粒位置。

当染色体弯曲时，其弯曲所朝向的表面在长度上收缩，而外表面扩张。假定物体的中轴线的长度在弯曲后保持相同的长度。在矫直染色体后，通过将从上切割线的中心到上边缘的距离和从下切割线的中心到下边缘的距离相加来计算染色体的真实长度。将23对染色体的每个核型图像的真实长度归一化为0和100之间的值。

在人类中，每个细胞通常包含23对染色体，总共46个。称为常染色体的这些对中的22对在男性和女性中都是相同的。第23对，性染色体X和Y在男性和女性中不同。根据本公开，在步骤206c，使用深度CNN基于在步骤206b获得的归一化长度对染色体进行分类。

实验结果

数据集：某数据集包含染色体重叠程度不同的400个染色图像，其中200个保留用于测试，其余的用于训练和验证。

通过考虑对照组的50个图像来评估本公开的方法的功效，其中每个图像已知包含46个染色体。然而，这个事实并没有透露给众包工作人员。每幅图像被分成9(3x3)个部分，每个工作人员需要为10个不同图像中的10个部分提供分割。

一少部分工作人员没有完成就离开了工作岗位，因此共有230名工作人员参与了分割过程。采用τ＝2和k≥3的阈值作为过滤的第一步骤。这删除了32名工作人员的贡献。此外，对其余工作人员的平均T(.)分数进行评估，并且使用0.4的阈值，其除去了额外的91名工作人员。图7示出根据本公开一个实施例的在过滤期间被淘汰的来自众包劳动力的响应的示例(a至d)。该矩形给出了分配给某个工作人员的部分的外廓。识别出的不同类型的垃圾制作者是(a)分配部分内的大标记，(b)分配部分之外的大标记，(c)不完整标记和(d)每个网格仅标记一个染色体。在淘汰垃圾制作者之后，采用步骤204d来选择一组一致片段，然而，观察到具有非常低T(.)分数的几个虚假标记未被淘汰。因此，在T(.)上使用0.1的阈值以允许在最终建议中选择分割标示。

在这些步骤之后，识别出每个图像平均35.9个染色体。图8示出根据本公开一个实施例的过滤和一致步骤后从众包员工接收的样本(a至c)注释。1800个个体染色体图像被手动注释了其染色体类型，同时保持类别平衡。这些图像中的1600个(来源于训练组中的200个完整图像)被用于训练和验证组以训练深度CNN分类器。训练后的分类器在其余的200个染色体图像上进行测试(来自测试组中的200张完整图像)。没有矫直和预处理时，获得的平均分类准确度为68.5％。但是，经过预处理，分类准确率提高到了86.7％。这些结果很有可能通过用更多注释过的训练数据进行分类而得到提高。

根据本公开，可以向医生提供界面以纠正众包分割和自动分类期间的任何错误。医生可以从界面上选择特定的染色体标记并专注于其相应的分类。如果医生(专家)在片段或分类中发现任何错误，他们可以修改这些错误并将纠正的响应保存在系统中。

因此，根据本公开，上文描述的系统和方法有助于使用众包、预处理和深度学习的组合来对染色体进行分割和分类，其中使用非专家人群从细胞图像中分割出染色体(与临床医师在核型分析过程中手动分割和注释染色体图像不同)，然后将其矫直并馈送到(分级)深层神经网络进行分类。使用本公开的系统和方法进行的实验和所获得的结果表明染色体分割和核型分析的认知负担显著降低。虚假或垃圾标记的难题以及片段标示最大化覆盖也已得到解决。此外，应用深度学习对染色体图像分类，其中对染色体片段预处理，如矫直弯曲染色体，以及对染色体长度归一化，然后将图像馈送到深度卷积网络(CNN)以进行分类，以提高分类准确性。本公开的方法和系统以端到端管线的形式提供解决方案，其产生令人鼓舞的结果，并显著降低染色体分割和核型分析的认知负担。即使在染色体弯曲的情况下，它们在计算上也不太昂贵，时间效率高，稳健且可靠。

书面描述描述了本文的主题以使得本领域任何技术人员能够制作和使用本公开的实施例。这里限定的主题实施例的范围可以包括本领域技术人员想到的其他修改。如果这些其他修改具有与权利要求的字面语言无区别的相似要素，或者如果它们包括与字面语言无实质区别的等同要素，则这些其他修改意图在其范围内。

这里限定的主题实施例的范围可以包括本领域技术人员想到的其他修改。如果这些其他修改具有与权利要求的字面语言相同的相似要素，或者如果它们包括与字面语言无实质区别的等同要素，则这些其他修改意图在其范围内。

然而，要理解的是，保护的范围扩展到这样的程序，并且除了其中具有消息的计算机可读装置之外，还包括这样的计算机可读存储装置，这种计算机可读存储装置包含程序代码装置，当程序在服务器或移动设备或任何合适的可编程设备上运行时，用于实现该方法的一个以上步骤。硬件设备可以是任何种类的可以被编程的设备，包括例如，任何类型的计算机，如服务器或个人计算机等，或其任何组合。该设备还可以包括可以是例如像专用集成电路(ASIC)、现场可编程门阵列(FPGA)等硬件装置的装置，或者可以是例如ASIC和FPGA等硬件和软件装置的组合的装置，或者至少一个微处理器和其中存储有软件模块的至少一个存储器。因此，该装置可以包括硬件装置和软件装置两者。本文描述的方法实施例可以用硬件和软件来实现。该设备还可以包括软件装置。作为替代方式，本公开的实施例可以在不同的硬件设备上实现，例如，使用多个CPU。

本文的实施例可以包括硬件和软件元件。以软件实现的实施例包括但不限于固件、常驻软件、微代码等。由包括本公开的系统的各种模块执行并在本文描述的功能可以在其他模块或其他模块的组合中实现。为了该描述的目的，计算机可用介质或计算机可读介质可以是能够包括存储、通信、传播或传输供指令执行系统、装置或设备使用或与其结合使用的程序的任何装置。本文描述的各种模块可以被实现为软件和/或硬件模块，并且可以被存储在任何类型的非暂时性计算机可读介质或其他存储设备中。非暂时性计算机可读介质的一些非限制性示例包括CD、DVD、蓝光、闪存和硬盘驱动器。

此外，尽管过程步骤、方法步骤、技术等可以按顺序描述，但是这样的过程、方法和技术可以被配置为以替代的顺序工作。换句话说，可能描述的步骤的任何次序或顺序不一定表示要求以该顺序执行这些步骤。本文描述的过程的步骤可以以任何实际的顺序执行。此外，一些步骤可以同时执行。

阐述所示步骤是为了解释所示的示例性实施例，并且应当预料到，正在进行的技术发展将改变执行特定功能的方式。这里给出这些示例的目的是为了说明而不是限制。此外，为了描述的方便，功能构建块的边界在此是任意地定义的。只要适当地执行指定的功能和关系，就可以定义替代边界。基于本文包含的教导，相关领域的技术人员可以明白替代方案(包括本文描述的那些的等同物、扩展、变化、偏差等)。这些替代方案落入所公开实施例的范围和精神内。此外，词语“包括”、“具有”、“包含”和“含有”以及其他类似形式，被认为是在意义上等同的，并且是开放性的，因为跟在这些词语中任何一个之后的一个以上项目不是意味着是这些项目或项目的穷尽列表，或者意味着仅限于列出的项目或项目。还必须注意的是，除非情形另有明确规定，否则本文和所附权利要求中所使用的单数名词以及“一”、“一个”和“该”包括复数形式。

意图是将本公开和实例仅视为示例性的，所公开的实施例的真实范围和精神由所附权利要求指示。

Claims

1.一种处理器实现的方法(200)，包括：

接收中期染色体的数字化图像(202)；

优化用于对数字化图像分割的众包(204)，优化众包包括：

将所述数字化图像划分成多个部分(204a)；

同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段，其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓(204b)；

分析从所述一个以上工作人员接收到的片段以识别并且淘汰所述众包劳动力中的垃圾制作者，其中所述分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖(204c)；以及

基于所述分析从经分析的片段中选择一组一致片段用于分类(204d)。

2.根据权利要求1所述的处理器实现的方法，其中分析所述片段的步骤包括一个以上过滤步骤，所述过滤步骤包括：

淘汰与低于第一阈值的可靠性相关联的一个以上工作人员，其中所述可靠性表示工作人员的标记接近已标记片段数量的模式的次数；

淘汰与低于第二阈值的质量相关联的一个以上工作人员，其中所述质量表示冲突标记、基于误解指示的标记和一贯差的分割；以及

淘汰与低于第三阈值的片段数量相关联的一个以上工作人员；

其中所述第一阈值、所述第二阈值和所述第三阈值是经验值。

3.根据权利要求1所述的处理器实现的方法，还包括使用深度卷积神经网络CNN对所述一组一致片段进行分类(206)，所述分类步骤包括：

通过以下步骤矫直弯曲的染色体(206a)：

将所述一致片段的图像二值化，

基于二值化图像的像素值和与所述染色体相关联的紧密拟合矩形的总面积，使用白度值从所述一致片段中识别弯曲的染色体；

基于所述一致片段的二值化图像上的拟合直线的斜率，计算所述弯曲染色体的弯曲取向；

计算所述弯曲染色体的弯曲中心，其中所述弯曲染色体各自包含一个沿着弯曲轴线的臂；以及

将所述沿着弯曲轴线的臂拼接起来，重建所述弯曲的染色体，以获得矫直的染色体；

使用着丝粒位置和与其相关联的长度对染色体的长度进行归一化(206b)；以及

使用深度CNN基于归一化长度对染色体进行分类(206c)。

4.一种系统(100)，包括：

一个以上数据存储设备(102)，可操作地联结到一个以上硬件处理器(104)并且被配置为存储被配置为由所述一个以上硬件处理器执行的指令以：

接收中期染色体的数字化图像；

优化用于对数字化图像分割的众包，优化众包包括：

将所述数字化图像划分成多个部分；

同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段，其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓；

分析从所述一个以上工作人员接收到的片段以识别并且淘汰所述众包劳动力中的垃圾制作者，其中所述分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖；以及

基于所述分析从经分析的片段中选择一组一致片段用于分类。

5.根据权利要求4所述的系统，其中所述一个以上硬件处理器还被配置为执行通过一个以上过滤步骤分析所述片段的步骤，所述过滤步骤包括：

6.根据权利要求4所述的系统，其中所述一个以上硬件处理器还被配置为使用深度卷积神经网络CNN对所述一组一致片段进行分类，所述分类步骤包括：

通过以下步骤矫直弯曲的染色体：

将所述一致片段的图像二值化，

计算所述弯曲染色体的弯曲中心，其中所述弯曲染色体各自包含一贯沿着弯曲轴线的臂；以及

使用着丝粒位置和与其相关联的长度对染色体的长度进行归一化；以及

使用深度CNN基于归一化长度对染色体进行分类。

7.一种计算机程序产品，包括非暂时性计算机可读介质，所述非暂时性计算机可读介质中包含计算机可读程序，其中所述计算机可读程序在计算设备上执行时使得所述计算设备：

接收中期染色体的数字化图像；

优化用于对数字化图像分割的众包，优化众包包括：

将所述数字化图像划分成多个部分；

8.根据权利要求7所述的计算机程序产品，其中所述计算机可读程序还使所述计算设备使用深度卷积神经网络CNN来对所述一组一致片段进行分类，所述分类步骤包括：

通过以下步骤矫直弯曲的染色体：

将所述一致片段的图像二值化，

基于所述一致片段的二值化图像上的拟合直线的斜率计算所述弯曲染色体的弯曲取向；

将所述沿着弯曲轴线的臂拼接在一起，重建所述弯曲的染色体，以获得矫直的染色体；

使用深度CNN基于归一化长度对染色体进行分类。