CN113785361A

CN113785361A - 染色体自动化分析方法

Info

Publication number: CN113785361A
Application number: CN202080031609.9A
Authority: CN
Inventors: 西格弗里德·亨塞尔曼; 托马斯·洛奇
Original assignee: Meida System Hardware And Software Co ltd
Current assignee: Meida System Hardware And Software Co ltd; Metasystems Hard and Software GmbH
Priority date: 2019-10-17
Filing date: 2020-10-19
Publication date: 2021-12-10
Also published as: US20210118135A1; CN117476112A; US10991098B1; WO2021074694A1; EP4046159A1

Abstract

一种从中期细胞图像中制备核型的自动化或半自动化的方法，所述方法具有提高的准确性，并涉及使用深度卷积神经网络进行染色体分割和染色体分类。

Description

染色体自动化分析方法

相关申请的交叉引用

本申请要求于2019年10月17日提交的发明名称为“Methods for AutomatedChromosome analysis”的美国临时申请62/916,766的优先权，本申请在此引用其全部内容。

背景技术

几十年来，染色体分析一直是遗传诊断的金标准。虽然分子方法已经变得重要，但它们不能提供生物体、器官或活组织检查的遗传状态的“全局”信息。因此，核型分析仍然是通常进行的程序，无论是作为例如在白血病诊断中的初始检测，还是确认通过分子方法获得的结果(例如在结果呈阳性后的非侵入性、基于血液的孕期分子检测)。

简化核型分析的诊断程序引起了人们极大的兴趣，特别是加速人类专家对染色体的分类。此外，有经验的细胞遗传学技术人员也越来越难找到。

虽然已经做出了各种努力来实现染色体分类的自动化，但结果的可靠性并不令人满意。例如，白血病诊断结果的局限性可能是由骨髓样本制备的染色体显带质量差造成的。一些方案需要花费大量精力来准备或调整染色体图像，如Sharma等建议的染色体拉直。基于特征分析(如沿染色体中轴线的强度分布)的染色体自动化识别的错误率通常约为65％每细胞，这意味着一大部分需要手动校正。因此，需要更准确的染色体自动化分析方法。

发明概述

本技术的一个目的是通过将深度卷积神经网络模型应用于中期或其他染色体图像以减少或消除对预处理步骤和用户干预的需要来提高核型分析的分类准确度。

本技术的另一个目的是在核型分析中提供对每个染色体主轴方向的精确估计。对于核型分析，染色体在核型图中垂直和成对排列，便于带型的比较。手动将染色体旋转到短染色体臂向上、长染色体臂向下的垂直方向，与识别染色体类型所用的时间大致相同。因此，自动化类型的分配和定向是非常可取的。

为了实现这两个目的，发明人设计了深度卷积神经网络(deep convolutionalneural network，DNN)，其接受单个染色体并可靠地分配染色体类型并同时提供染色体的方位角。发明人还设计了可用于自动化分割中期细胞的图像中的染色体图像的其他DNN。结果是从中期细胞图像到核型图的过程更加高效，该过程完全自动化或需要大大减少的用户交互。

本技术可以通过以下特征列表进一步总结。

1.一种辅助细胞的中期染色体分类的方法，所述方法包括以下步骤：

(a)提供中期细胞的数字图像；

(b)将所述图像分割成对象，从而获得所述细胞的中期染色体的数字图像；

(c)使用分类预训练的深度卷积神经网络(deep convolutional neuralnetwork，DNN)分析每个染色体图像，所述深度卷积神经网络包括用于染色体分类的第一输出层和用于染色体旋转的第二输出层，从而获得每个染色体：(i)用于分配一类染色体的概率向量和(ii)在所述中期细胞的所述数字图像中的染色体旋转角度。

2.如特征1所述的方法，其中所述中期细胞的图像中所有染色体的所述概率向量用概率矩阵表示。

3.如特征1或特征2所述的方法，其中所述中期细胞的所有染色体均在所述中期细胞的数字图像中表示。

4.如特征2或特征3所述的方法，所述方法还包括：

(d)将具有最高分配概率的染色体图像分配给该概率预测的类别；以及

(e)对具有下一个最高分配概率的染色体图像重复步骤(d)，直到来自所述中期细胞图像的所有染色体图像都已被分配，当给定类别的染色体总数达到预期，该类别的分配概率归零，或者可用于重新计算所有剩余的未分类的染色体图像。

5.如特征4所述的方法，其中具有低于用户定义阈值的分配概率的染色体图像不被自动分配，而是保持未分类。

6.如前述任一项特征所述的方法，其中对所述中期细胞进行预处理，以显示一个或多个核酸序列或一个或多个条带或在中期染色体上的位置，并使用相同的预处理对DNN进行预训练。

7.如特征6所述的方法，其中所述预处理包括进行荧光原位杂交(fluorescencein situ hybridization，FISH)，或其使用非荧光标记的变体。

8.如前任一项特征所述的方法，其中所述中期细胞为真核细胞，例如来自植物、动物、哺乳动物或人类的细胞。

9.如前任一项特征所述的方法，所述方法还包括使用自动化或交互式图像处理方法处理所述中期细胞的数字图像、和/或一个或多个中期染色体的数字图像。

10.如特征9所述的方法，其中，所述图像处理方法选自由卷积(convolution)、串联(concatenation)、丢弃(dropout)、平均池化(average pooling)、阈值化(thresholding)、应用锐化(sharpening)或平均滤波器(averaging filter)、灰度变换(gray level transformation)、归一化(normalization)、面积归一化(areanormalization)、旋转(rotation)、翻转(flipping)、随机噪声(random noise)的添加和基于阈值的分割(threshold-based segmentation)组成的组。

11.如前任一项特征所述的方法，其检测一类染色体的增加或缺失。

12.如前任一项特征所述的方法，其检测结构畸变和/或碎片。

13.如特征12所述的方法，其中所述结构畸变选自由双着丝粒染色体、环状染色体、费城染色体和其他染色体畸变组成的组。

14.如特征13所述的方法，其中所述结构的畸变选自由t(9；22)(q34；q11)、t(15；17)(q24；q21)、t(11；14)(q13；q32)、der(1；7)(q10；p10)、inv(3)(q21q26)、inv(16)(p13q22)、t(9；11)(p21；q23)、t(8；21)(q22；q22)、del(5)(q14q34)和del(5)(q21q34)组成的组。

15.如前任一项特征所述的方法，其中步骤(a)包括分析大量中期细胞的图像并且抑制或标记包含重叠染色体的中期细胞的图像。

16.如前任一项特征所述的方法，其中步骤(b)包括抑制或标记包含少于预期的中期染色体的中期细胞的图像。

17.如前任一项特征所述的方法，其中步骤(b)包括：

(i)可选地，将一个或多个图像处理步骤应用于所述中期细胞的数字图像；

(ii)使用预训练的第一分割DNN将中期细胞的数字图像分割成对象图像；

(iii)可选地，对从(ii)获得的对象图像使用一个或多个图像处理步骤；

(iv)使用预训练的第二分割DNN对从(ii)或(iii)中获得的对象进行分类，从而识别包含中期染色体图像的对象；和

(v)由(iii)中获得的中期染色体图像制备中期染色体的数字图像，其中制备的数字图像具有相等的像素数和相等的纵横比，并且适合作为步骤(c)的分类DNN的输入。

18.如特征17所述的方法，其中步骤(i)和/或步骤(iii)的图像处理方法选自卷积、串联、丢弃、平均池化、阈值化、应用锐化或平均滤波器、灰度变换、归一化、面积归一化、旋转、翻转、随机噪声的添加和基于阈值的分割组成的组。

19.如特征17或18所述的方法，其中所述第一分割DNN进行了预训练以将所述中期细胞的数字图像的像素分类为背景或伪像区域、染色体区域、染色体重叠区域或染色体轮廓。

20.如特征17或18所述的方法，其中所述第二分割DNN进行了预训练以将来自步骤(ii)或(iii)的对象分类为包含碎片、碎片+染色体、单个染色体、染色体簇或重叠染色体。

21.如特征20所述的方法，所述方法还包括实施如特征19所述的方法。

22.如前任一项特征所述的方法，所述方法还包括在步骤(a)之前，在显微镜载玻片上的大量细胞中鉴定中期细胞。

23.如前任一项特征所述的方法，所述方法还包括使用分类的中期染色体图像来制备核型图。

24.一种训练用于中期染色体分类的DNN的方法，所述方法包括以下步骤：

(a)提供大量中期染色体训练图像的集合，每个集合的图像包含来自选定细胞类型的中期细胞的所有中期染色体的预分类图像；

(b)提供包含用于染色体分类的第一输出层和用于确定染色体旋转的第二输出层的DNN；和

(c)利用所述大量中期染色体训练图像的集合训练DNN。

25.如特征24所述的方法，其中，所述训练图像的集合是核型图，并且使用至少10,000、至少50,000或至少100,000张核型图来训练所述DNN。

26.一种训练用于在中期细胞图像中分割中期染色体的DNN的方法，所述方法包括以下步骤：

(a)提供大量成对的未分割的中期细胞图像和相应的预分割成疑似含有中期染色体的对象的图像；

(b)提供能够将图像中的像素分类为对应于背景或伪像区域、染色体区域、染色体重叠区域或染色体轮廓的DNN；和

(c)用大量的成对的中期细胞图像训练DNN。

27.如特征26所述的方法，其中使用至少10,000、至少50,000或至少100,000对未分割/分割的中期细胞训练图像来训练所述DNN。

28.一种训练用于分割中期细胞图像中的中期染色体的DNN的方法，所述方法包括以下步骤：

(a)提供大量成对的预分割成疑似含有中期染色体的对象的中期细胞，和预先确认含有中期染色体对象的图像；

(b)提供能够将图像中的对象分类为包含碎片、碎片+染色体、单个染色体、染色体簇或重叠染色体的DNN；和

(c)用大量成对的的图像训练DNN。

29.如特征28所述的方法，其中使用至少10,000、至少50,000或至少100,000对训练图像来训练所述DNN。

30.一种染色体自动化或半自动化分类的系统，所述系统包括：

(i)具有数字成像装置的光学显微镜，其中所述显微镜可选地包括电动焦点和扫描台；

(ii)配置为控制电动显微镜和数字成像设备并捕获图像的计算机，以及

(iii)配置为执行特征1-23任一项所述的方法或其任意组合的软件。

附图说明

图1A-1F是描绘本技术的特征的流程图。

图1A描绘了从中期细胞鉴定到核型图制备的整个过程，包括基于深度学习的单个染色体图像分割和染色体分类，包括畸变染色体的鉴定。

图1B描绘了由两个深度卷积神经网络(DNN)进行的分类，用于从中期细胞的图像中分割染色体。第一个DNN将中期细胞图像分割为单个对象的图像，第二个DNN对对象进行分类并鉴定所对应的单个染色体。

图1C描绘了使用如图1B中所示的DNN进行染色体分割的整个过程。这个过程的终产物是一系列具有相同像素数和纵横比的染色体“块”(tile)或图像，它们可以作为染色体分类DNN的输入。

图1D描绘了可以在染色体分割的一个或多个不同阶段采用的图像处理方案。也可以应用其他图像处理技术。

图1E描绘了一种染色体分类器的训练方案。

图1F描绘了使用预训练的DNN和概率向量分析对染色体图像进行分类以生成核型图的过程。

图2A-2D显示了来自中期细胞的染色体图像及其分割。图2A显示了中期染色体的原始光学显微镜图像。图2B显示了基于阈值分割后的图像(图像处理后左侧为完整的染色体区域，右侧为分割的染色体图像)。图2C显示了交互的、39步的图像处理过程的结果，其中提取出分割染色体图像的边界。图2D显示了由第一个训练的DNN执行的表示染色体轮廓的染色体分割结果。

图3A-3B显示了用于对象分类的第二个DNN的应用。图3A显示了原始显微镜图像，图3B显示了从所述DNN获得的染色体区域与重叠区域的分类。

图4A-4B显示了包含由受过训练的染色体分类DNN鉴定的染色体畸变类别的核型图。

发明详述

本技术使用深度卷积神经网络(DNN)的集合自动化鉴定和分类染色体，减少或消除了预处理步骤和用户干预的需要，并与以前的方法相比提高了准确性。这些方法关键的方面包括使用DNN从中期细胞的图像中分割染色体图像，以及使用DNN鉴定染色体类别(包括畸变类别)和染色体旋转角度。可选地，这些方法可以由用户管理的图像细化来补充，以进一步提高准确性和/或图像质量。

图1A示出了方法学的概述。使用标准技术，在有丝分裂抑制剂(如长春碱)存在的情况下培养细胞，导致细胞停滞聚集在中期。将细胞放置在显微镜载玻片上并使用标准方法染色，例如吉姆萨(Giemsa)染色，这使得染色体及其带型在光学显微镜下可见。其他技术可用于显示染色体、部分染色体，包括单个条带或基因、核酸序列或染色体蛋白的位置。例如，寡核苷酸探针(带有荧光或非荧光标记)可用于定位基因组核酸序列，或抗体可用于显示蛋白质。此类染色载玻片上的中期细胞可由人类观察者在显微镜下或在自动化中期细胞查找器的辅助下进行鉴定。任何类型的真核细胞都可以作为染色体分析的对象，包括植物细胞、动物细胞、哺乳动物细胞和人类细胞。所述细胞也可以是代表医学病症的细胞，例如一种癌症，或已知或疑似的遗传病症，例如可遗传的遗传病。

一旦获得了一个或多个中期细胞的数字图像，就可以执行某些可选的图像处理步骤，目的是简化并提高中期细胞图像中染色体鉴定的准确性。在本技术的方法的任何阶段，任何图像处理方案，无论是自动化的还是交互式的，都可以根据需要或用户认为有帮助来使用。使用第一分割DNN在中期细胞图像中分割单个染色体图像。然后使用第二分割DNN对单个对象图像进行分类，并将那些代表单个染色体的对象呈现给染色体分类器DNN，该分类器确定研究的真核细胞中，每个染色体所预期的对应于每个可能的类别的概率，可选地包括细胞类型或已知所获取细胞的组织或生物体的症状或医学病症的已知畸变染色体的类别。该过程的最终结果是以自动化方式或由人工操作员使用分类的染色体图像制备的核型图。

通过传统方法获取中期细胞的数字图像是通过将含有细胞遗传制剂的载玻片置于手动显微镜下进行的。然后通过连接到显微镜的相机手动定位、聚焦和捕获合适的细胞。这个过程可能非常繁琐，特别是在中期细胞稀少的情况下，这在癌症患者(例如白血病患者)的核型图制备中十分常见。

获得中期细胞的一种更有效的方法是采用自动载玻片扫描平台，例如METAFER系统(MetaSystems Hard&Software GmbH，Allussheim，德国)。METAFER由电动显微镜(CarlZeiss AxioImager.Z2)、电动扫描台

数码相机(MetaSystems)、用于系统控制和图像分析的个人计算机以及带有多个托盘(Magazine)的载玻片装载机器人组成。标本通常放在1英寸×3英寸的标准载玻片上。通常，5张载玻片固定在一个载玻片架中。每个托盘可容纳16个载玻片架。支持多达10个托盘，可实现多达800张载玻片的无人看管的扫描。当从托盘中装载载玻片架时，载玻片架首先被传送到条形码读取器读取载玻片架的条码以及单个载玻片的条码。载玻片的条码是指数据文件，用于定义对每张载玻片采取的扫描操作。接下来，将载玻片架放在扫描台上并开始扫描。

METAFER也可以在没有载玻片传送系统的情况下运行。在这种情况下，载玻片架被手动放置在扫描台上，使用手持扫描仪读取条形码或通过低倍显微镜物镜成像并由METAFER软件分析。可以手动设置扫描参数作为条形码的替代方案。

扫描的第一步是自动调整光线，以确保良好的对比度。接下来是格栅焦点分析(grid focus analysis)。在扫描区域内预定义数量的格栅位置处，自动检测最佳焦点平面，并计算样品的插值焦点表面。在实际扫描过程中，系统将自动跟踪该预定的焦点表面；它将动态分析每个捕获的区域，并检测中期细胞，存储其缩略图和x、y、z坐标。扫描继续，直到检测到预设数量的中期细胞或直到扫描区域已完全扫描。所有这些步骤通常使用10倍物镜进行，该物镜提供足够的分辨率以可靠地检测中期细胞。

对于染色体分析，需要高质量的中期细胞图像。为此，METAFER系统将在下一步中更换物镜并在必要时涂抹浸镜油。基于先前生成的位置列表，然后捕获高倍率图像。由于初始粗格栅焦点不足以确保高孔径透镜在景深减小的情况下实现完美聚焦(与用于预扫描的低倍率、低数值孔径透镜相对较高的景深相比)，每个单独的高倍率图像需要重新聚焦。为每个检测到的或预选的中期细胞拍摄单独图像，单个中期细胞位于相机视野的中心。然后储存数字中期图像，用于随后的染色体分析和核型分析。

图1B显示了用于分割的DNN操作的更多细节。细胞的每个染色体图像都可以进行面积归一化，以补偿单个细胞之间的染色体大小差异。可以使用两个分开的DNN。第一个将所述中期细胞图像的每个像素分类为属于背景或伪像区域，单个染色体区域、染色体重叠区域、或者染色体轮廓。第一个DNN输出的是中期细胞或其部分的轮廓图，视野中有对象，包括单独染色体和其他可能的对象的单独轮廓。可选地，第二个DNN可以进一步处理第一个的输出以将鉴定的对象分类为对应于碎片、可能包括一个或多个染色体的碎片簇、单个染色体、染色体簇或两个或多个重叠染色体。图1C显示了使用第一个和第二个DNN以及可选的图像处理的分割过程的概况。图1D示出了如下描述的某些图像处理步骤。

在进行分类之前，染色体类别和细胞的性别是未知的。对于人类细胞，由于X染色体比Y染色体大得多，使用整个细胞的总面积或平均面积进行归一化会在男性和女性细胞之间引入系统的染色体标定误差(scaling error)。为了避免这种情况，可以对所有染色体的面积进行分选，并计算可以排除X染色体的最大面积的总和。例如，可以将10条最大的染色体相加，因为X染色体在进行面积分选的染色体顺序中是第13号，将被排除。然后可以计算细胞的所有染色体的面积比例因子，其为预定常数值与最大(例如，最大的10个)染色体面积之和的比率。

接下来，可以应用可选的锐化和/或平均滤波器。每个染色体图像的背景可以用白色像素进行扩展，从而产生例如136×136像素大小的染色体图像(“块”(tile))。这些块用作深度卷积神经网络(deep convolutional neuronal net，DNN)的输入，该网络预测染色体的类别以及在最终核型图中正确比对染色体所需的旋转角度。

染色体的分割可能很耗时，特别是存在不均匀的图像背景时。找到分开染色体的阈值通常是不可能的。在这种情况下，交互式分开步骤的数量可能非常重要。图2A-2D显示了骨髓中期细胞的典型例子。图2A显示了细胞的原始图像。图2B显示了基于阈值分割后的细胞。图2C显示了需要39次相互作用的交互式染色体分开的结果。相比之下，图2D显示了基于DNN的分割结果，它更全面地鉴定了染色体集合的各个边界。

用于染色体分割的DNN必须使用合适的图像进行训练。第一个DNN的训练使用成对的图像，其中第一个图像显示了相机捕获的原始中期细胞，第二个图像是目标图，其中每个像素都根据它是否属于背景/伪像区域、染色体区域、重叠区域或染色体的轮廓进行了标记。使用这些成对图像，可以训练DNN来学习从原始图像到目标图的映射。一种这样的DNN架构受到U-Net(doi.org/10.1007/978-3-319-24574-4_28)的启发，在编码器和解码器中具有额外的快捷连接。此外，还使用了各种图像增强，包括旋转和添加随机噪声。

下面的表1显示了未使用(第3列)和使用(第4列)基于DNN的分割后所需的交互数量的对比。每个细胞的平均交互数量从14.7减少到0.9，对应于交互步骤减少了16倍。

表1.用户干预与基于DNN的分割的比较

对于核型分析，可以对中期细胞的数字图像进行阈值化处理，以将染色体与背景分开。接下来，可能需要分开接触和重叠的染色体。核型分析软件IKAROS中的自动化和部分自动化的工具在这些步骤中为用户提供支持。骨髓来源的染色体通常很短，因此许多中期细胞不需要这个初始预处理步骤。一旦染色体作为可用的单个对象，它们将按如前所述进行面积归一化并送入DNN分类过程，然后提供核型并将其呈现给用户以进行最终检查和校正。

工作流自动化的一个中间步骤是决策已经分开的对象是否为单个染色体、染色体簇、伪像还是包括染色体和伪像的簇。发明人对VGG16-DNN(arxiv.org/abs/1409.1556)进行了迁移学习，以生成可以执行此决策的DNN。在训练期间，使用了各种图像增强，包括图像翻转和添加随机噪声。

将DNN训练为将对象分为5个不同的类别：

1.碎片

2.碎片簇(一个或多个染色体和碎片的簇)

3.单个染色体

4.染色体簇

5.染色体重叠

使用经过训练的DNN的总体准确率为98.3％。共分析了60059个对象，其中59022个被正确分类。

染色体分割产生一组分开的染色体图像，优选具有相同的像素数和一致的纵横比。例如，可以使用136×136像素的染色体图像，但只要提供足够的分辨率，也可以使用其他尺寸。这些染色体块用作染色体分类DNN的输入，可以针对所研究的细胞类型、染色方法、物种、性别和/或病理或遗传病症进行训练，包括可能存在的畸变染色体，例如部分染色体、易位、缺失、倒位等。

图1E显示了训练DNN分类器以鉴定染色体类别的过程的概况。图1F显示了使用预训练分类器DNN对单独的染色体图像进行分类并最终生成核型或核型图的过程的概况。

分类器DNN的训练依赖于大量预先分类(“标记”(tagged))的图像。由于人类基因组包含23种(女性)或24种(男性)不同的染色体类别，因此需要足够数量的图像来表示所有24种类别的染色体。通常，每类需要数千个训练样本才能实现足够可靠的DNN。例如，训练集可以包括至少1000张、至少2000张、至少5000张、至少10000张、至少50000张或至少100000张预分类的染色体图像。

在过去的30年中，计算机辅助核型分析系统已用于常规染色体分析。因此，已经生成并存档了大量预先分类的染色体图像。IKAROS核型分析系统(MetaSystems Hard andSoftware GmbH)生成的数据特别适合作为DNN训练的输入。可以从IKAROS文件中提取单独的染色体图像及其标记和类别信息，并可以将其送入训练环境。

为了提取和压缩图像信息，DNN可以利用重复的卷积块(3×3)、串联、丢弃、(1×1)“net-in-net”卷积和平均池化。为了同时预测染色体编号和旋转角度，CNN有两个不同的最终稠密层，例如分别具有24种和360种神经元。对于预测的细胞的所有染色体，染色体类别(即染色体编号)按等级分配给相应概率最高的染色体。也就是说，DNN输出每个染色体的概率向量(每个染色体有24种概率)。当获得一个细胞的所有染色体的概率向量时，根据最高概率分配染色体编号，并考虑到每个类别/编号只应存在两条染色体。

DNN针对每个对象返回一个旋转角度和一个N维的概率向量，其中N是染色体类别的数值(正常人类核型图中为24：常染色体1到22，性染色体X和Y)。然后可以使用以下算法根据分类器输出的概率向量进行染色体类别的最终分配。

P_i,j是DNN分类产生的概率矩阵，i是对象索引，j是类别索引。N_j是类别数；j＝1..23，初始为零。N₂₃是性染色体的组合类别计数(类别23和24)。执行这种分配算法的步骤如下：

1.找出所有P_i,j的最大值。如果最大概率P_k,I小于最小分配概率，则拒绝对象k和所有剩余的对象，并终止分配循环。

2.如果最大概率P_k,I大于最小分配概率，则将对象k分配到类别I。

3.然后将对象k的所有类别概率P_k,x设置为零。

4.对于I＝1..22，增加类别I的类别计数N_I。

5.对于I＝23..24，增加性染色体N₂₃的组合类别计数。

6.如果类别I的类别计数达到2(I＝1..22)，则重置所有对象该类别的概率P_x,I。

7.如果性染色体N₂₃的组合类别计数达到2，则重置所有对象的概率P_x,23和P_x,24。

8.如果仍有未分配的染色体，则转至步骤1继续分配循环。

与从1号染色体开始，寻找概率P_i,1最高的2个对象，然后寻找概率最高P_i,2的2个对象，依此类推更直接的方法(3,49％的错误率)相比，这种分配方法显著降低了分类错误率(506个细胞，包含23,276条染色体的测试数据集的错误率为2,6％)，从而将交互校正的数量减少了25％。

通过将预训练的DNN应用于未用于DNN训练的独立染色体图像集合，获得分类结果。上述预处理(例如，图像处理)步骤可以改进结果，但是是可选的并且可以省略。

本技术可以利用具有两个不同输出层的DNN，一个用于染色体编号，另一个用于旋转角度。与基于选定提取特征的传统染色体分类相比，基于DNN的分类对骨髓制品的染色体的类别分配和正确定位均提高了3倍以上(表2)，对血液制品提高了约10倍(表3)。这对应于由于交互式校正显著减少而在诊断工作流程中节约的大量时间。

表2.传统显带分类器(“旧”)和基于DNN的方法的比较，应用于骨髓制品中的染色体。

表3.传统显带分类器(“旧”)和基于DNN的方法的比较，应用于血液制品的染色体。

表4显示了DNN分类器对测试数据集的混淆矩阵，行对应正确的染色体类别，列对应DNN分类器自动确定的染色体类别。混淆矩阵对角线上的数字代表正确的类别(因为预测的染色体数＝真实的染色体数)，为了清楚起见，此处未显示(它们已设置为零)，因为提供此混淆矩阵是为了解释最常见的错误分类。不在对角线上的数字是错误分类。如果它们靠近对角线，则意味着染色体被错误分类为相邻类别。例如，第4行第5列中的数字147意味着第147条4号染色体(在962条4号染色体总数中)被错误分类为5号染色体。表中至少有一个值为50或以上的类别对以粗体和斜体显示。这些是最常见的错误，它们对应于以下染色体交换：4<->5、7<->X、8<->10、9<->10、9<->X、13<->14、14<->15、17<->18、19<->20、19<->22，21<->22。可以通过从细胞遗传学实验室捐赠的档案中收集额外的细胞核型图文件来扩展训练数据的基础，这将进一步提高DNN的可靠性，而无需整理训练数据，这是大多数DNN训练情况中的一个关键瓶颈。

	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24
																									1	0	8	2	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
2	4	0	4	1	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0
																									3	3	0	0	4	2	4	7	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0
4	1	1	3	0	147	10	2	2	3	1	0	1	0	0	0	1	0	0	0	0	1	1	0	0
																									5	1	0	2	139	0	16	7	7	1	2	0	0	0	0	0	1	1	1	2	0	0	1	1	0
6	0	1	3	17	18	0	48	8	4	5	1	0	0	0	0	0	2	0	1	0	1	0	17	0
																									7	0	0	2	1	0	31	0	12	48	7	5	2	0	0	0	1	2	0	1	0	1	5	133	0
8	0	0	0	0	7	12	12	0	43	126	3	37	2	0	0	3	0	0	1	0	1	2	42	0
																									9	0	0	0	0	1	9	47	37	0	46	43	18	1	3	1	4	1	1	2	1	2	1	63	0
10	1	0	0	1	1	6	3	138	57	0	1	43	2	3	4	1	1	0	1	0	0	0	12	0
																									11	0	1	1	0	1	5	3	1	32	5	0	8	3	0	0	0	0	1	0	0	1	1	3	0
12	0	0	2	0	0	1	3	43	12	43	2	0	8	7	1	2	0	0	1	1	0	0	1	0
																									13	0	0	0	2	0	0	1	3	1	3	0	4	0	95	47	4	4	9	1	1	0	2	0	0
14	0	0	0	1	0	1	0	1	3	6	3	4	97	0	232	4	9	18	7	0	3	3	0	1
																									15	0	0	0	0	0	0	1	3	4	4	1	0	45	236	0	6	13	32	1	1	0	0	0	0
16	0	0	0	0	0	0	0	0	2	1	0	1	3	9	4	0	9	22	8	7	0	1	0	0
																									17	0	0	0	0	0	0	1	0	0	1	1	1	2	11	11	11	0	87	4	12	1	2	0	9
18	0	0	0	0	0	0	0	0	2	1	0	1	11	26	44	9	80	0	4	3	1	1	0	19
																									19	0	0	0	3	0	1	4	1	2	0	0	0	0	0	0	1	3	3	0	79	28	62	0	8
20	0	0	0	0	0	0	2	0	0	1	0	0	0	1	2	10	11	8	74	0	4	1	0	10
																									21	0	0	0	1	0	2	3	1	3	0	0	0	2	1	0	1	3	6	29	4	0	97	0	35
22	0	0	0	0	0	2	7	5	2	0	0	1	0	1	1	6	5	3	47	7	106	0	0	23
																									23	0	0	2	2	4	21	93	22	59	17	6	4	1	0	0	1	3	0	2	1	3	7	0	0
24	0	0	0	2	1	4	7	7	3	5	0	2	0	0	0	1	7	11	9	7	35	28	0	0

表4：DNN分类器的混淆矩阵

DDN识别染色体的能力取决于用于训练它的图像。人类细胞最简单的情况是一个识别22种常染色体和2种性染色体(X和Y)的DNN。这样的DNN也能够检测数目变异，例如很有可能属于同一特定类别的三体(而不是正常核型图中的一或两个)。

在白血病诊断中经常遇到涉及不同类别染色体结构重排的染色体畸变。可以容易地训练DNN以识别常见的重排，例如导致所谓的“费城染色体”(Philadelphia Chromosome)的BCR-ABL易位。为此，需要在训练集中包含足够数量的这种重排的示例图像，并且需要相应地扩展类别的数量。

为了自动检测一些最重要的染色体结构畸变，训练了一个DNN，其中包含代表畸变染色体的额外染色体类别。如上所述进行DNN的训练。训练数据集总共包含54,634个核型图，如表5所示。

序号	畸变	核型图
			1	t(9；22)(q34；q11)	12,766
2	t(15；17)(q24；q21)	5,010
			3	t(11；14)(q13；q32)	1,845
4	der(1；7)(q10；p10)	2,377
			5	inv(3)(q21q26)	3,838
6	inv(16)(p13q22)	5,907
			7	t(9；11)(p21；q23)	2,744
8	t(8；21)(q22；q22)	5,487
			9	del(5)(q14q34)	10,497
10	del(5)(q21q34)	4,163
			总数		54,634

表5：畸变染色体检测训练集。

下表6显示了训练集中包含的畸变染色体(对于涉及两条染色体的畸变，包括了两条衍生染色体)。

表6.用于训练畸变染色体分类器的染色体。

下表7显示了一组未分类染色体的结果，包括如表5所示的10种畸变中的每种畸变的各2个细胞。比较使用两种不同训练数据集训练的DNN。

表7.畸变染色体分类结果

DNN 训练数据集

Aberr39-A 所有畸变加上大约相同数量的正常染色体

Aberr39-B 所有畸变染色体加上100,000个正常核型图

在20个畸变中，DNN正确检测到15个(DNN Aberr39-A)和16个(DNN Aberr39-A)。

图4A和4B显示了揭示出检测的畸变染色体的核型图示例。图4A显示了具有畸变t(8；21)(q22；q22)的核型图。图4B显示了导致费城染色体的BCR-ABL畸变t(9；22)(q34；q11)。

本文描述的方法可以在任何合适的计算系统中实现。计算系统可以被实现为或可以包括计算机设备，该计算机设备包括允许该计算设备运行应用层或以其他方式进行各种处理任务的硬件、软件和固件的组合。计算设备可以包括但不限于个人电脑、工作站、服务器、笔记本电脑、平板电脑、移动设备、无线设备、智能手机、可穿戴设备、嵌入式设备、基于微处理器的设备、基于微控制器的设备、可编程消费类电子产品、迷你计算机、主机计算机等及其组合。

处理任务可以由一个或多个处理器执行。可以使用各种类型的处理技术，包括单个处理器或多个处理器、中央处理器(CPU)、多核处理器、并行处理器或分布式处理器。可以提供额外的专用处理资源，例如图形(例如，图形处理器或GPU)、视频、多媒体或数学处理能力来进行某些处理任务。处理任务可以通过计算机可执行指令来实现，例如由计算设备执行的应用程序或其他程序模块。应用程序和程序模块可以包括执行特定任务或对数据进行操作的例程(routine)、子例程(subroutine)、程序(program)、脚本、驱动程序、对象、组件、数据结构等。

处理器可以包括一个或多个逻辑设备，例如小规模集成电路、可编程逻辑阵列、可编程逻辑设备、掩码编程门阵列、现场可编程门阵列(field programmable gate array，FPGA)、专用集成电路(application specific integrated circuit，ASIC)和复杂可编程逻辑设备(complex programmable logic device，CPLD)。逻辑设备可以包括但不限于算术逻辑块和运算符、寄存器(register)、有限状态机(finite state machine)、多路复用器(multiplexer)、累加器(accumulator)、比较器(comparator)、计数器(counter)、查找表(look-up table)、门(gate)、锁存器(latch)、触发器(flip-flop)、输入和输出端口(inputand output ports)、进位和出位端口(carry in and carry out ports)、奇偶校验产生器(parity generator)以及逻辑块、逻辑单元和逻辑元件(logic cell)的互连资源。

计算设备包括可以通过系统总线或以任何其他方式访问的存储器或存储装置。存储器可以存储控制逻辑、指令和/或数据。存储器可以包括临时存储器，例如缓存存储器、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、主存储器、动态随机存取存储器(DRAM)、块随机存取存储器(BRAM)和忆阻器存储元件(memristor memory cell)。存储器可以包括用于固件或微代码的存储装置，例如可编程只读存储器(PROM)和可擦除可编程只读存储器(EPROM)。存储器可包括非临时性或非易失性或持久性存储器，例如只读存储器(ROM)、一次性可编程非易失性存储器(OTPNVM)、硬盘驱动器、光学存储设备、光盘驱动器、闪存驱动器、软盘驱动器、磁带驱动器、存储芯片和忆阻器存储元件。可以在可移动存储设备上提供非临时性存储器。计算机可读介质可以包括能够编码指令和/或存储数据的任何物理介质，这些指令和/或数据随后可以被处理器用来实现本文描述的系统和方法的实施方案。物理介质可以包括软盘、光学磁盘、CD、迷你CD、DVD、HD-DVD、蓝光磁盘、硬盘驱动器、磁带驱动器、闪存或存储芯片。可以使用可以向处理器提供指令和/或数据的任何其他类型的有形、非临时性存储用于本文描述的系统和方法中。

计算设备可以包括一个或多个输入/输出接口，用于将输入和输出设备连接到计算设备的各种其他组件。输入和输出设备可以包括但不限于键盘、鼠标、操纵杆、麦克风、相机、网络摄像头、显示器、触摸屏、监视器、扫描仪、扬声器和打印机。接口可以包括通用串行总线(USB)端口、串行端口、并行端口、游戏端口等。

计算设备可以通过为计算设备提供通信能力的网络连接访问网络。网络连接使计算设备能够经由通信链路与远程设备、远程网络和远程实体的任何组合进行通信和交互。通信链路可以是任何类型的通信链路，包括但不限于有线或无线链路。例如，网络连接可以允许计算设备通过网络与远程设备进行通信，该网络可以是有线和/或无线网络，并且可以包括内网(intranet)、局域网(LAN)、企业网(enterprise-wide network)、中域网(mediumarea network)、广域网(WANS)、虚拟专用网(VPN)、互联网、蜂窝网络(cellilar network)等的任何组合。控制逻辑和/或数据可以通过网络连接传输到和传输自计算设备。网络连接可以包括调制解调器、网络接口(例如以太网卡)、通信端口、PCMCIA插槽和卡等，以能够通过通信链路传输和接收数据。收发器可包括发射和接收信号的一个或多个设备，无论是共享公共电路、外壳或电路板，还是分布在分开的电路、外壳或电路板上，并且可包括发射器-接收器。

计算设备可以包括浏览器和显示器，使用户浏览和查看由网络服务器通过通信链路提供的页面或其他内容。Web服务器、服务器和数据库可以位于相同或不同的位置，并且可以是同一计算设备、不同计算设备的一部分，或者分布在网络上。数据中心可以位于远程位置并且由计算设备通过网络访问。计算机系统可以包括分布在一个或多个网络上的架构，例如云计算架构。云计算包括但不限于用于提供例如软件即服务(software as aservice，SaaS)的分布式网络架构。

如本文所用，“主要由……组成”允许包括实质上不影响权利要求的基本和新颖特征的材料或步骤。此处对术语“包括”的任何引用，特别是在组合物的组分的描述中或在装置的元件的描述中，可以与可选的表达“主要由……组成”或“由……组成”交换使用。

参考文献

Sharma M,Saha O,Sriraman A,Hebbalaguppe R,Vig L,Karande S,“Crowdsourcing for Chromosome Segmentation and Deep Classification”,The IEEEConference on Computer Vision and Pattern Recognition(CVPR)Workshops,2017,pp.34-41

Claims

(a)提供中期细胞的数字图像；

(c)使用分类预训练的深度卷积神经网络(deep convolutional neural network，DNN)分析每个染色体图像，所述深度卷积神经网络包括用于染色体分类的第一输出层和用于染色体旋转的第二输出层，从而获得每个染色体：(i)用于分配一类染色体的概率向量和(ii)在所述中期细胞的所述数字图像中的染色体旋转角度。

2.如权利要求1所述的方法，其中所述中期细胞的图像中所有染色体的所述概率向量用概率矩阵表示。

3.如权利要求1或2所述的方法，其中所述中期细胞的所有染色体均在所述中期细胞的数字图像中表示。

4.如权利要求2或3所述的方法，所述方法还包括：

5.如权利要求4所述的方法，其中具有低于用户定义阈值的分配概率的染色体图像不被自动分配，而是保持未分类。

6.如前任一项权利要求所述的方法，其中对所述中期细胞进行预处理，以显示一个或多个核酸序列或一个或多个条带或在中期染色体上的位置，并使用相同的预处理对DNN进行预训练。

7.如权利要求6所述的方法，其中所述预处理包括进行荧光原位杂交(fluorescencein situ hybridization，FISH)，或其使用非荧光标记的变体。

8.如前任一项权利要求所述的方法，其中所述中期细胞为真核细胞，例如来自植物、动物、哺乳动物或人类的细胞。

9.如前任一项权利要求所述的方法，所述方法还包括使用自动化或交互式图像处理方法处理所述中期细胞的数字图像、和/或一个或多个中期染色体的数字图像。

10.如权利要求9所述的方法，其中，所述图像处理方法选自由卷积(convolution)、串联(concatenation)、丢弃(dropout)、平均池化(average pooling)、阈值化(thresholding)、应用锐化(sharpening)或平均滤波器(averaging filter)、灰度变换(gray level transformation)、归一化(normalization)、面积归一化(areanormalization)、旋转(rotation)、翻转(flipping)、随机噪声(random noise)的添加和基于阈值的分割(threshold-based segmentation)组成的组。

11.如前任一项权利要求所述的方法，其检测一类染色体的增加或缺失。

12.如前任一项权利要求所述的方法，其检测结构畸变和/或碎片。

13.如权利要求12所述的方法，其中所述结构畸变选自由双着丝粒染色体、环状染色体、费城染色体和其他染色体畸变组成的组。

14.如权利要求13所述的方法，其中所述结构的畸变选自由t(9；22)(q34；q11)、t(15；17)(q24；q21)、t(11；14)(q13；q32)、der(1；7)(q10；p10)、inv(3)(q21q26)、inv(16)(p13q22)、t(9；11)(p21；q23)、t(8；21)(q22；q22)、del(5)(q14q34)和del(5)(q21q34)组成的组。

15.如前任一项权利要求所述的方法，其中步骤(a)包括分析大量中期细胞的图像并且抑制或标记包含重叠染色体的中期细胞的图像。

16.如前任一项权利要求所述的方法，其中步骤(b)包括抑制或标记包含少于预期的中期染色体的中期细胞的图像。

17.如前任一项权利要求所述的方法，其中步骤(b)包括：

18.如权利要求17所述的方法，其中步骤(i)和/或步骤(iii)的图像处理方法选自卷积、串联、丢弃、平均池化、阈值化、应用锐化或平均滤波器、灰度变换、归一化、面积归一化、旋转、翻转、随机噪声的添加和基于阈值的分割组成的组。

19.如权利要求17或18所述的方法，其中所述第一分割DNN进行了预训练以将所述中期细胞的数字图像的像素分类为背景或伪像区域、染色体区域、染色体重叠区域或染色体轮廓。

20.如权利要求17或18所述的方法，其中所述第二分割DNN进行了预训练以将来自步骤(ii)或(iii)的对象分类为包含碎片、碎片+染色体、单个染色体、染色体簇或重叠染色体。

21.如权利要求20所述的方法，所述方法还包括实施如权利要求19所述的方法。

22.如前任一项权利要求所述的方法，所述方法还包括在步骤(a)之前，在显微镜载玻片上的大量细胞中鉴定中期细胞。

23.如前任一项权利要求所述的方法，所述方法还包括使用分类的中期染色体图像来制备核型图。

(c)利用所述大量中期染色体训练图像的集合训练DNN。

25.如权利要求24所述的方法，其中，所述训练图像的集合是核型图，并且使用至少10,000、至少50,000或至少100,000张核型图来训练所述DNN。

(c)用大量的成对的中期细胞图像训练DNN。

27.如权利要求26所述的方法，其中使用至少10,000、至少50,000或至少100,000对未分割/分割的中期细胞训练图像来训练所述DNN。

(c)用大量成对的的图像训练DNN。

29.如权利要求28所述的方法，其中使用至少10,000、至少50,000或至少100,000对训练图像来训练所述DNN。

(iii)配置为执行权利要求1-23任一项所述的方法或其任意组合的软件。