CN112863602B

CN112863602B - 染色体异常的检测方法、装置、计算机设备和存储介质

Info

Publication number: CN112863602B
Application number: CN202110196163.1A
Authority: CN
Inventors: 张军; 孔令印; 梁波
Original assignee: Suzhou Basecare Medical Device Co ltd
Current assignee: Suzhou Basecare Medical Device Co ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2023-07-21
Anticipated expiration: 2041-02-22
Also published as: CN112863602A

Abstract

本申请涉及一种染色体异常的检测方法、装置、计算机设备和存储介质。所述方法包括：获取待检测样本的Y染色体的基因组比对结果；对于AZF区域，通过染色体异常智能检测模型根据AZF区域的基因组比对结果，得到AZF区域的检测结果；对于非AZF区域，通过预设的拷贝数变异分析算法，根据非AZF区域的基因组比对结果得到非AZF区域的检测结果；根据AZF区域的检测结果和非AZF区域的检测结果，生成Y染色体的检测结果。采用本方法利用全基因组比对结果对染色体进行检测分析，不使用额外实验手段，可以提高染色体的检测效率、减少检测成本；基于机器学习模型和拷贝数变异分析算法对染色体的不同区域分别进行检测，可以提高检测的覆盖率和异常检测的准确性。

Description

染色体异常的检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及基因检测技术领域，特别是涉及一种染色体异常的检测方法、装置、计算机设备和存储介质。

背景技术

据世界卫生组织统计，全世界育龄夫妇约有10％-15％不孕不育，而由男性引发的不育约占30％-50％。引起男性不育的主要原因为生精障碍与输精障碍。而染色体异常、基因缺陷、病毒感染与生精组织器官异常等是导致生精障碍的主要原因。目前15％-30％的男性不育原因主要是遗传异常。克氏综合症(Klinefelter syndrome)及Y染色体微缺失(Ychromosome microdeletion，YCM)均是导致男性不育非常重要的遗传病因。YCM在健康人群中发生率约为1/4000，但在不育男性中显著升高，发生频率为2％～10％。Y染色体上AZF(azoospermia factor，无精子因子区域)区域主要参与精子发生等过程，这个区域含有大量反向重复序列，容易出现缺失，从而引起与精子发生相关基因的功能丧失，进而导致生精障碍。

目前已有大量的研究表明通过检测某些STS(Sequence-Tagged Sites，序列标志位点)标签可以判断是否存在YCM。欧洲男科学协会/欧洲分子遗传实验质控网(EAA/EMQN)在2013年发布新版本YCM检测指导。该检测指导中除了标准的6个STS位点外又加了14个扩展的STS位点，可以覆盖95％以上的AZF区域微缺失。目前不同的研究者已对这个标准进行了改进或者扩展，增加了多种STS以提高YCM检测的覆盖度。目前YCM的检测区域主要集中在AZF区域，这也是最容易发生YCM的区域。但亦有文献报道TSPY-TSPY(testis-specificprotein，睾丸特异蛋白基因)区域的微缺失与男性不育也有密切关联，故检测YCM时亦有必要增加TSPY-TSPY区域微缺失的检测。Sachdev等人认为YCM可能存在人种差异，选择太少的STS检测YCM可能会遗漏一些较常见的YCM。Rozen等人对来自5个国家的2万多个样本进行AZFc区域微缺失检测，根据其研究结果可以发现AZFc微缺失有地域差异性。Simoni等人统计了多篇研究文献，发现不同国家地区AZF微缺失有显著差异。Liu等人使用NGS(NextGeneration Sequencing，下一代测序)研究了与非梗阻性无精子症(non-obstructiveazoospermia)相关的YCM，发现有许多新的YCM分布在AZF区域内部或者外部。为了增加YCM检测的精度，YCM检测区域应该扩大至整个Y染色体常染色体部分，而检测位点之间的间距应该缩小。

相关技术中，基于STS捕获技术进行YCM检测一般使用捕获技术捕获上百个STS进行高通量测序。然后对捕获探针进行定量分析，分析过程与STS PCR(Polymerase ChainReaction，聚合酶链式反应)技术原理类似，根据STS缺失情况进行YCM缺失推断。但是，基于PCR或者捕获技术进行YCM检测无法对Y染色体全染色体进行检测，存在容易漏检的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对Y染色体进行全染色体检测，并且能够提高Y染色体异常的检测精度的染色体异常的检测方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种染色体异常的检测方法，所述方法包括：

获取待检测样本的Y染色体的基因组比对结果；

对于所述Y染色体中的无精子因子AZF区域，通过染色体异常智能检测模型根据所述AZF区域的基因组比对结果，得到所述AZF区域的检测结果；

对于所述Y染色体中的非AZF区域，通过预设的拷贝数变异分析算法，根据所述非AZF区域的基因组比对结果得到所述非AZF区域的检测结果；

根据所述AZF区域的检测结果和所述非AZF区域的检测结果，生成所述Y染色体的检测结果。

在其中一个实施例中，所述对于所述Y染色体中的无精子因子AZF区域，通过染色体异常智能检测模型根据所述AZF区域的基因组比对结果，得到所述AZF区域的检测结果，包括：

对所述AZF区域的基因组比对结果进行划分，得到多个第一区域；

对每个第一区域内的读段数进行测序随机化扣除校正和均一化处理，确定所述每个第一区域的拷贝数；

根据所述每个第一区域的拷贝数对所述Y染色体进行测序结果绘图，得到待检测图谱；

通过所述染色体异常智能检测模型对所述待检测图谱进行分类识别，得到所述AZF区域的检测结果。

在其中一个实施例中，所述染色体异常智能检测模型的训练生成方式包括：

获取染色体样本集，所述染色体样本集中包括多个已标注异常区域和异常类型的染色体异常样本；

采用所述染色体样本集对初始染色体异常智能检测模型进行训练，直至达到预设停止条件，得到所述染色体异常智能检测模型。

在其中一个实施例中，所述对每个第一区域内的读段数进行测序随机化扣除校正和均一化处理，确定所述每个第一区域的拷贝数，包括：

对所述每个第一区域内的读段数进行测序随机化扣除校正处理；

获取预设的参考区域的读段数，所述参考区域采用无拷贝数变异的区域；

根据所述每个第一区域中处理后的读段数以及所述参考区域的读段数，确定所述每个第一区域的拷贝数。

在其中一个实施例中，所述根据所述每个第一区域处理后的读段数以及所述参考区域的读段数，确定所述每个第一区域的拷贝数，包括：

获取测序随机化扣除校正后的所述读段数与所述参考区域的读段数的商；

对所获取的商进行标准化处理，得到所述每个第一区域的拷贝数。

在其中一个实施例中，所述参考区域采用以下区域中的任一个：

AZFa下游到P5上游区域且不包含AZFa区域和P5区域；

X染色体。

在其中一个实施例中，所述对于非AZF区域，通过预设的拷贝数变异分析算法，根据所述非AZF区域的基因组比对结果得到所述非AZF区域的检测结果，包括：

对所述非AZF区域的基因组比对结果进行划分，生成多个第二区域；

获取每个第二区域对应的读段数；

确定所述每个第二区域的待检测数据为对所述每个第二区域对应的读段数进行测序随机化扣除校正和均一化处理后得到的拷贝数；

通过所述拷贝数变异分析算法对所述每个第二区域对应的待检测数据进行分析，得到所述每个第二区域的检测结果。

在其中一个实施例中，所述染色体的检测结果包括异常区域以及与所述异常区域对应的异常类型；所述生成所述Y染色体的检测结果之后，还包括：

确定预设的染色体区域结构图中与所述异常区域相对应的异常位置；

将与所述异常区域对应的异常类型映射至所述异常位置处；

展示映射后的所述染色体区域结构图。

在其中一个实施例中，所述获取待检测样本的Y染色体的基因组比对结果，包括：

获取所述待检测样本的基因组测序数据，所述基因组测序数据是通过Y染色体微缺失微重复、拷贝数变异CNV、全外显子组测序WES、全基因组测序WGS、胚胎植入前的遗传学检查PGS、无创基因检查NIPT中的任一种检测项目得到的；

将所述基因组测序数据比对至参考基因组，得到所述基因组比对结果。

在其中一个实施例中，所述方法还包括：

若检测所述基因组比对结果携带聚合酶链式反应PCR重复标记，则清除所述PCR重复标记。

在其中一个实施例中，所述获取待检测样本的Y染色体的基因组比对结果之后，还包括：

屏蔽所述染色体长臂的异染色质区域和长臂末端的假常染色体区域，以及短臂末端的假常染色体区域和着丝粒N区。

第二方面，本申请实施例提供一种染色体异常的检测装置，所述装置包括：

获取模块，用于获取待检测样本的Y染色体的基因组比对结果；

AZF区域检测模块，用于对于所述Y染色体中的AZF区域，通过染色体异常智能检测模型根据所述AZF区域的基因组比对结果，得到所述AZF区域的检测结果；

非AZF区域检测模块，用于对于所述Y染色体中的非AZF区域，通过预设的拷贝数变异分析算法，根据所述非AZF区域的基因组比对结果得到所述非AZF区域的检测结果；

检测结果生成模块，用于根据所述AZF区域的检测结果和所述非AZF区域的检测结果，生成所述Y染色体的检测结果。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现第一方面任一项实施例所述的染色体异常的检测方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现第一方面任一项实施例所述的染色体异常的检测方法。

上述染色体异常的检测方法、装置、计算机设备和存储介质，获取待检测样本的基因组比对结果；对于AZF区域，通过染色体异常智能检测模型根据AZF区域的基因组比对结果，得到AZF区域的检测结果；对于非AZF区域，通过预设的拷贝数变异分析算法，根据非AZF区域的基因组比对结果得到非AZF区域的检测结果；根据AZF区域的检测结果和非AZF区域的检测结果，生成染色体异常的检测结果。通过利用全基因组比对结果对染色体进行检测分析，不使用额外实验手段，可以提高染色体的检测效率、减少检测成本；基于机器学习模型和的拷贝数变异分析算法对染色体的不同区域分别进行检测，可以提高检测的覆盖率和异常检测的准确性。

附图说明

图1为一个实施例中染色体异常的检测方法的应用环境图；

图2为一个实施例中染色体异常的检测方法的流程示意图；

图3为一个实施例中对AZF区域进行检测步骤的流程示意图；

图4为一个实施例中AZF区域的结构示意图；

图5为一个实施例中对非AZF区域进行检测步骤的流程示意图；

图6a为一个实施例中CNV测序数据的gr/gr微缺失的检测结果示意图；

图6b为一个实施例中CNV测序数据的b2/b3微缺失检测结果示意图；

图6c为一个实施例中CNV测序数据的AZFc的检测结果示意图；

图6d为一个实施例中WES测序数据的TSPY-TSPY检测结果示意图；

图6e为一个实施例中PGS测序数据的胚胎携带AZFc检测结果示意图；

图6f为一个实施例中PGS测序数据的胚胎正常的检测结果示意图；

图6g为一个实施例中NIPT测序数据的胎儿携带gr/gr微缺失的检测结果示意图；

图7为一个实施例中染色体异常的检测方法的流程示意图；

图8为一个实施例中染色体异常的检测装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的染色体异常的检测方法，可以应用于如图1所示的应用环境中。该应用环境包括终端110。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。终端110中可以预先部署有染色体异常智能检测模型(以下简称为智能检测模型)和拷贝数变异分析算法。智能检测模型可以预先采用终端110或者终端110以外的其他设备训练完成。在本申请中，染色体的异常检测特指针对Y染色体的异常检测。具体地，终端110响应于所接收的染色体检测请求，获取待检测样本的Y染色体的基因组比对结果；对于Y染色体中的AZF区域，通过智能检测模型根据AZF区域的基因组比对结果，得到AZF区域的检测结果；对于Y染色体中的非AZF区域，通过拷贝数变异分析算法，根据非AZF区域的基因组比对结果得到非AZF区域的检测结果；根据AZF区域的检测结果和非AZF区域的检测结果，生成Y染色体的检测结果。

在一个实施例中，如图2所示，提供了一种染色体异常的检测方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S210，获取待检测样本的Y染色体的基因组比对结果。

其中，待检测样本可以是各种细胞样本。基因组比对结果是指将待检测样本的基因组测序数据比对人类参考基因组(例如，hg19/hg38，human genome)得到的结果。基因组比对结果的格式可以为bam格式(BinaryAlignment/Map，一种二进制压缩格式)，或者由bam格式转换的bed格式(BrowserExtensible Data，一个可变方式的数据线，用来描述注释的数据)等。

具体地，当用户需要对待检测样本进行Y染色体检测时，可以通过终端触发Y染色体的检测请求。终端响应于Y染色体的检测请求，获取待检测样本的Y染色体的基因组比对结果。

步骤S220，对于Y染色体中的无精子因子AZF区域，通过智能检测模型根据AZF区域的基因组比对结果，得到AZF区域的检测结果。

其中，AZF区域定位于染色体Yq11(Y染色体长臂1区1带)，被分为AZFa区、AZFb区和AZFc区。而这3个区染色体分别主导精子形成过程中的不同阶段。在本申请中，针对AZF区域的检测可以是指针对AZFb区和AZFc区的检测。染色体异常可以通过拷贝数变异(CopyNumberVariant,CNV)的检测实现。拷贝数是指某基因在某一生物的基因组中的个数。拷贝数变异是由基因组发生重排而导致的,一般指长度为1kb(Kilobase，DNA的一个常用的长度单位，指某段DNA分子中含有一千个碱基对)以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。

具体地，基因组比对结果中记录了待检测样本的基因组序列在人类参考基因组序列的位置和详细的序列比对情况。终端在获取Y染色体的基因组比对结果后，获取AZF区域中的不同区对应的基因组比对结果。根据不同区对应的基因组比对结果计算得到每个区对应的拷贝数。通过智能检测模型基于对每个区对应的拷贝数进行分类识别，得到染色体是否异常的检测结果。其中，智能检测模型可以采用任一种能够进行分类识别的深度学习模型，例如CNN(ConvolutionalNeural Networks，卷积神经网络)、ANN(ArtificialNeuralNetwork，人工神经网络)等。

步骤S230，对于Y染色体中的非AZF区域，通过预设的拷贝数变异分析算法，根据非AZF区域的基因组比对结果得到非AZF区域的检测结果。

具体地，拷贝数变异分析算法不限于采用基于读段深度(read depth)的检测方法，即，根据滑动窗口读段深度指示拷贝数变异；或者采用基于双端测序pair-end的检测方法，即，根据pair-end两端之间距离与人类参考基因组上差异确认拷贝数变异；或者采用基于序列组装的检测方法，即，将读段数进行组装后寻找其与人类参考基因组之间的差异确认拷贝数变异等。

步骤S240，根据AZF区域的检测结果和非AZF区域的检测结果，生成Y染色体的检测结果。

具体地，终端对AZF区域和非AZF区域分别进行检测完成后，合并AZF区域的检测结果和非AZF区域的检测结果，生成Y染色体的检测结果。

上述染色体异常的检测方法中，通过智能检测模型根据AZF区域的基因组比对结果，得到AZF区域的检测结果；通过预设的拷贝数变异分析算法，根据非AZF区域的基因组比对结果得到非AZF区域的检测结果；根据AZF区域的检测结果和非AZF区域的检测结果，生成Y染色体的检测结果。利用全基因组比对结果对染色体进行检测分析，不使用额外实验手段，可以提高染色体的检测效率、减少检测成本；基于机器学习模型和拷贝数变异分析算法对染色体的不同区域分别进行检测，可以提高检测的覆盖率和异常检测的准确性。

在一个实施例中，对AZF区域的一种检测方法进行说明。如图3所示，在步骤S220中，对于AZF区域，通过智能检测模型根据AZF区域的基因组比对结果，得到AZF区域的检测结果，可以通过以下步骤实现：

步骤S310，对AZF区域的基因组比对结果进行划分，得到多个第一区域。

步骤S320，对每个第一区域内的读段数进行测序随机化扣除校正和均一化处理，确定每个第一区域的拷贝数。

具体地，按照预设大小(例如40kb)对AZF区域的重复序列区域进行划分，得到多个预设大小的第一区域。每个第一区域可以作为智能检测模型检测识别的锚定区域。针对每个第一区域，统计每个第一区域对应的读段数，并通过预设的计算方式根据每个第一区域的读段数计算得到每个第一区域的拷贝数(CN，CopyNumber)。

以下对第一区域中拷贝数的一种生成方式进行说明。具体地，针对每个第一区域，对每个第一区域的读段数进行测序随机化扣除校正处理。可以通过下列公式进行随机化扣除校正处理：

F＝glm(gc_i,λ,x_i)

其中，F是测序偏差校正函数，主要与区域GC含量、Y染色体上读段分布拟合的泊松分布对应的λ以及区域内读段数量相关，可以通过广义线性函数模型(glm)先拟合得到。gc_i代表第i个第一区域参考序列GC含量；x_i代表第i个第一区域内校正化后的读段数；n_i代表每个第一区域内校正后的读段数；F(gc_i,λ,x_i)代表每个第一区域的理论读段数；D_i代表每个第一区域的平均读段数。

然后，获取预设的参考区域的读段数。获取随机化扣除校正处理后的读段数与参考区域的读段数的商。对所得到的商进行标准化处理，得到每个第一区域的拷贝数。可以通过下列公式得到每个第一区域的拷贝数：

其中，N_i代表每个第一区域的拷贝数，为标准化处理后的读段数；R_i代表参考区域校正化后的读段数。

在一些可能性实施例中，参考区域可以采用无拷贝数变异的区域，例如采用AZFa下游到P5上游区域(不含AZFa区和P5区)，该区域的读段数均一且基本无拷贝数变异发生。若检测AZFa下游到P5上游区域(不含AZFa区和P5区)存在拷贝数变异，则可以采用X染色体为参考区域。

步骤S330，根据每个第一区域的拷贝数对Y染色体进行测序结果绘图，得到待检测图谱。

步骤S340，通过染色体异常智能检测模型对待检测图谱进行分类识别，得到AZF区域的检测结果。

具体地，在获取每个第一区域对应的拷贝数后，根据每个第一区域的标记以及Y染色体散点图，以区域序号x轴，拷贝数为y轴，进行Y染色体散点图绘制，得到每个第一区域对应的待检测图谱。将每个第一区域对应的待检测图谱输入至预训练的智能检测模型。通过该智能检测模型对每个第一区域的待检测图谱进行图片分类识别，得到每个类别的检测结果(可以为概率值)。将每个类别的检测结果与智能检测模型中预置的类型阈值进行匹配，得到最终分类结果以及结果可信度。示例性地，智能检测模型包括三个类别：类别A、类别B和类别C。通过智能检测模型得到某个第一区域的检测结果为类别A概率值0.8、类别B概率值0.1、类别C概率值0.1。若类别阈值为0.7，那么可以将类别A作为该区域的最终分类结果。其中，智能检测模型的分类结果中不限于包含拷贝数变异的区域以及拷贝数变异的类型。

在一些可能性实施例中，由于AZF区域存在多种重复元件，可以将重复元件与Y染色体散点图绘制在同一待检测图谱中。其中，如图4所示，Y染色体的AZF区域中存在多个重复序列区域(即重复元件)：包括8组回文序列P1～P8、b1～b4、y1～y4、g1～g3、Gr1～Gr2、r1～r4。其中，P1～P5位于AZFb区和AZFc区，P6～P8位于AZFa区和AZFb区之间(图4中未示出)，AZFa区无回文序列(图4中未示出)。Y染色体回文序列的存在使其能够对基因的突变进行自我修复，但同时也可能导致基因的丢失，引起AZF区域微缺失的发生。

本实施例中，基于深度学习模型实现染色体异常的自动化检测，无需额外的实验手段，可以提高检测的效率、减少检测的成本；通过将AZF区域进行划分和组合，形成多个特征区域，并采用智能检测模型识别出染色体的异常区域和异常类型，使得用户能够获取清楚的异常检测结果。

在一个实施例中，对智能检测模型的一种训练生成方式进行说明。智能检测模型的训练生成方式包括：获取染色体样本集，染色体样本集中包括多个已标注异常区域和异常类型的染色体异常样本；采用染色体样本集对初始智能检测模型进行训练，直至达到预设停止条件，得到智能检测模型。

具体地，如表1所示，根据已检测并且经过PCR及低通量全基因组测序验证的数据，预先设置12个类别(主要针对YCM)。

表1：染色体AZFbc不同区域及理论拷贝数

拷贝数变异类别
	OK正常
AZFb(AZFb区变异)
	b1/b3del(b1/b3缺失)
b2/b3del(b2/b3缺失)
	b2/b3dup(b2/b3重复)
b2/b4dup(b2/b4重复)
	b5/b6dup(b5/b6重复)
gr/grdel(gr/gr缺失)
	gr/grdel+b2/b4dup(gr/gr缺失+b2/b4重复)
gr/grdup(gr/gr重复)
	gr/grtetra(gr/gr四个拷贝)
gr/grtrio(gr/gr三个拷贝)
	P5P4dup(P5P4重复)

收集多个已经过PCR验证的染色体正常样本和染色体异常样本。表2示出了一个实施例中染色体样本数据表。

表2：染色体样本数据表

参照表1示出的拷贝数变异类别对每个染色体样本进行标注。参照图3对应的实施例生成每个染色体样本的待检测图谱。由于AZF存在多种重复元件，可以将重复元件与Y染色体散点图绘制在同一待检测图谱中。在对多个染色体样本处理完成后，根据该多个染色体样本生成染色体样本集。将染色体样本集按照预设比例进行划分，例如，将其中的80％作为染色体训练样本集，用于模型训练；将其中的20％作为染色体测试样本集，用于模型验证。采用染色体训练样本集对初始智能检测模型进行训练，得到使损失函数值最小的模型；采用染色体测试样本集对损失函数值最小的模型进行测试得到误差。将在染色体测试样本集中误差最小的模型作为最终使用的智能检测模型。

示例性地，智能检测模型可以采用CNN模型。使用CNN模型构建分类器Y＝f(X)。对于每个X均可以使用f(X)函数计算出其对应的分类结果。其中，Y标识与拷贝数变异类别对应的唯一性编号；X表示染色体样本对应的样本特征。

本实施例中，基于深度学习模型实现染色体异常的自动化检测，可以提高检测的效率、减少检测的成本；通过将AZF区域进行划分和组合，形成多个区域，可以定位到染色体发生异常的具体区域，使得用户能够获取清楚的异常检测结果。在实际应用过程中，采用上述方法得到的智能检测模型对2000多例全基因组样本验证，其中AZFc的检出准确度为100％，gr/gr缺失以及重复检出准确度超过99.9％，其他类型CNV检出准确度均超过99％。

在一个实施例中，对非AZF区域的检测方式进行说明。如图5所示，步骤S230，对于非AZF区域，通过预设的拷贝数变异分析算法，根据非AZF区域的基因组比对结果得到非AZF区域的检测结果，可以通过以下步骤实现：

步骤S510，对非AZF区域的基因组比对结果进行划分，生成多个第二区域。

步骤S520，获取每个第二区域对应的读段数。

步骤S530，确定每个第二区域的待检测数据为对每个第二区域对应的读段数进行测序随机化扣除校正和均一化处理后得到的拷贝数。

步骤S540，通过拷贝数变异分析算法对每个第二区域对应的待检测数据进行分析，得到每个第二区域的检测结果。

在本实施例中，非AZF区域的检测可以采用基于读段深度的检测方法，即，根据滑动窗口读段深度来指示拷贝数变异情况。基于读段深度进行拷贝数变异检测可以采用概率统计模型、机器学习等方式。概率统计的检测方法默认读段深度与CNV数目之间是线性关系，即默认测序过程是均匀的，染色体上按特定窗口进行滑动统计的读段深度是服从某种特定分布的，比如泊松分布、高斯分布等。如果出现滑动窗口的读段深度增加或者减少，则代表出现拷贝数变异。机器学习的方法不限于包括利用隐马尔可夫(HMM)、环状二元分割算法(CBS)等模型对读段深度进行处理，确定拷贝数变异区域和拷贝数变异类型。在本实施例中，优选采用机器学习方式进行拷贝数变异分析。

具体地，对于非AZF区域，按照预设大小(例如40kb)对非AZF区域的基因组比对结果进行划分，生成多个长度相同的第二区域。统计每个第二区域对应的读段数。对每个第二区域对应的读段数进行测序随机化扣除校正和均一化处理，将处理后得到的拷贝数作为后续拷贝数变异分析的待检测数据。

以下对第二区域中拷贝数的一种生成方式进行说明。具体地，针对每个第二区域，对每个第二区域的读段数进行测序随机化扣除校正处理。可以通过下列公式进行随机化扣除校正处理：

F＝glm(gc_i,λ,x_i)

其中，F是测序偏差校正函数，主要与区域GC含量，Y染色体上读段分布拟合的泊松分布对应的λ以及区域内读段数量相关，可以通过广义线性函数模型(glm)先拟合得到。gc_i代表第i个第二区域参考序列GC含量；x_i代表第i个第二区域内校正化后的读段数；n_i代表每个第二区域内校正后的读段数；F(gc_i,λ,x_i)代表每个第二区域的理论读段数；D_i代表每个第二区域的平均读段数。

然后，获取预设的参考区域的读段数。参考区域的确定方式可以参照上述实施例。获取随机化扣除校正处理后的读段数与参考区域的读段数的商。对所得到的商进行标准化处理，得到每个第二区域的拷贝数。可以通过下列公式得到每个第二区域的拷贝数：

其中，N_i代表每个第二区域的拷贝数，为标准化处理后的读段数；R_i代表参考区域校正化后的读段数。

在获取每个第二区域对应的待检测数据后，采用预先部署的拷贝数变异分析算法对所有第二区域的待检测数据进行拷贝数变异分析，得到每个第二区域的检测结果。其中，每个第二区域的检测结果包括拷贝数变异类型。拷贝数变异类型不限于包括AZFa缺失、TSPY-TSPY缺失、AZFa-AZFc缺失等。

本实施例中，通过采用拷贝数变异分析算法对非AZF区域的拷贝数变异情况进行检测，可以避免漏检的情况发生，从而提高染色体异常的检测覆盖率和准确性。

在一个实施例中，步骤S210，获取待检测样本的基因组比对结果，包括：

获取待检测样本的基因组测序数据；将基因组测序数据比对至参考基因组，得到待检测样本的基因组比对结果。

具体地，染色体异常检测的输入数据还可以是全基因组测序数据中的任意一种，包括但不限于Y染色体微缺失微重复、拷贝数变异CNV、全外显子组测序WES、全基因组测序WGS、胚胎植入前的遗传学检查PGS、无创基因检查NIPT等。当输入数据是全基因组测序数据时，输入的格式可以为FastQ格式(存储生物序列及质量评价文本格式)。若终端检测输入数据为FastQ格式，可以通过比对工具将输入的基因组测序数据比对人类参考基因组，得到待检测样本的基因组比对结果。进一步地，为了提高染色体异常检测的准确性，若终端确定比对基因组测序数据中的读段数量少于预设数量(例如5000条)，则发出提示信息并暂停染色体异常的检测程序。

本实施例中，通过将多种检测项目的基因组测序数据进行处理，可以提高染色体异常检测的通用性；通过允许多种格式的输入数据，可以提高染色异常检测方法的使用灵活性。

在一个实施例中，所述方法还包括对待检测样本的基因组比对结果进行预处理的过程。预处理不限于包括PCR重复标记的清除和预设区域的屏蔽。

具体地，为了使染色体中特殊区域的读段数不会被过滤掉，若检测待检测样本的基因组比对结果携带聚合酶链式反应PCR重复标记，则清除PCR重复标记。清除PCR重复标记可以采用预先部署的PCR清除工具完成，例如samtools(一种PCR清除工具)，sambamba(一种PCR清除工具)等。

Y染色体长臂以及短臂的末端共有约3M(millone，百万，指某段DNA分子中含有一百万个碱基对)的假常染色体区域；Y染色体近短臂末端有一着丝粒N区，长臂有约30M的异染色质区域，防止这些区域干扰染色体异常的分析，在对染色体进行检测前，可以对这些区域进行屏蔽处理。

本实施例中，通过对待检测样本的基因组比对结果进行预处理，从而避免读段数被过滤，以及避免特定区域干扰染色体异常的检测分析，可以提高染色体异常检测的准确性。

在一个实施例中，步骤S240，Y染色体的检测结果包括异常区域以及与异常区域对应的异常类型；生成Y染色体的检测结果之后，还包括：确定预设的染色体区域结构图中与异常区域相对应的异常位置；将与异常区域对应的异常类型映射至异常位置处；展示映射后的染色体区域结构图。

具体地，预先制定染色体区域结构图。在获取AZF区域的检测结果和非AZF区域的检测结果后，根据该检测结果获取拷贝数变异的异常区域以及与异常区域对应的异常类型。在染色体区域结构图中确定与异常区域相对应的异常位置。进而将与异常区域对应的异常类型映射至异常位置处。展示映射后的染色体区域结构图。图6a～图6g示例性地示出了几种映射后的染色体区域结构图。

本实施例中，通过设置染色体结构展示图，在获取染色体的检测结果后，将染色体的检测结果映射至染色体结构展示图中并展示，使得用户能够直观且清晰地获取染色体的检测结果，便于用户查看以及对检测结果进行核对。

在一个实施例中，如图7所示，提供了一种具体的染色体异常的检测方法，包括以下步骤：

步骤S702，获取待检测样本的Y染色体的基因组测序数据。

其中，Y染色体的基因组测序数据可以通过以下检测项目中的任一种得到：Y染色体微缺失微重复、拷贝数变异CNV、全外显子组测序WES、全基因组测序WGS、胚胎植入前的遗传学检查PGS、无创基因检查NIPT。待检测样本的基因组测序数据的输入格式可以是FastQ格式。

步骤S704，将基因组测序数据比对人类参考基因组，得到Y染色体的基因组比对结果。

进一步地，输入数据还可以是已比对人类参考基因组的基因组比对结果。若输入数据为基因组比对结果，则输入数据的格式可以是bam格式，或者由bam格式转换的bed格式。

步骤S706，对Y染色体的基因组测序数据进行预处理。

其中，预处理不限于包括PCR重复标记的清除和预设区域的屏蔽。预处理的具体方式可以参照上述实施例，在此不做具体阐述。

步骤S708，对于AZF区域，对AZF区域进行划分得到多个预设大小的第一区域。预设大小可以为40kb。

步骤S710，基于每个第一区域的读段数进行测序随机化扣除校正和均一化处理，得到每个第一区域的拷贝数。基于每个第一区域的拷贝数进行AZF重复元件以及测序结果绘制，得到每个第一区域的待检测图谱。其中，每个第一区域的拷贝数的具体获取方式可以参照上述实施例，在此不做具体阐述。AZF区域重复元件可以参见图4。待检测图谱的具体获取方式可以参照上述实施例，在此不做具体阐述。

步骤S712，通过CNN模型对每个第一区域的待检测图谱进行分类识别，得到每个第一区域的拷贝数变异的检测结果。其中，CNN模型的训练生成方式可以参照上述实施例，在此不做具体阐述。

步骤S714，对于非AZF区域，按照预设大小对非AZF区域的基因组比对结果进行划分，生成多个第二区域。预设大小可以为40kb。

步骤S716，确定待检测数据为对每个第二区域对应的读段数进行测序随机化扣除校正和均一化处理后得到的拷贝数。

步骤S718，通过CBS算法对每个第二区域对应的目标数据进行分析，得到每个第二区域的检测结果，作为非AZF区域的拷贝数变异的检测结果。

步骤S720，将AZF区域的检测结果和非AZF区域的检测结果映射至预设的染色体区域结构图中并展示。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种染色体异常的检测装置800，包括：获取模块802、AZF区域检测模块804、非AZF区域检测模块806和检测结果生成模块808，其中：

获取模块802，用于获取待检测样本的Y染色体的基因组比对结果；AZF区域检测模块804，用于对于Y染色体中的AZF区域，通过染色体异常智能检测模型根据AZF区域的基因组比对结果，得到AZF区域的检测结果；非AZF区域检测模块806，用于对于Y染色体中的非AZF区域，通过预设的拷贝数变异分析算法，根据非AZF区域的基因组比对结果得到非AZF区域的检测结果；检测结果生成模块808，用于根据AZF区域的检测结果和非AZF区域的检测结果，生成Y染色体的检测结果。

在一个实施例中，AZF区域检测模块804，包括：第一划分单元，用于对Y染色体中AZF区域的基因组比对结果进行划分，得到多个第一区域；拷贝数确定单元，用于对每个第一区域内的读段数进行测序随机化扣除校正和均一化处理，确定每个第一区域的拷贝数；图谱绘制单元，用于根据每个第一区域的拷贝数对Y染色体进行测序结果绘图，得到待检测图谱；分类识别单元，用于通过染色体异常智能检测模型对检测图谱进行分类识别，得到AZF区域的检测结果。

在一个实施例中，所述装置800还包括：样本集获取模块，用于获取染色体样本集，染色体样本集中包括多个已标注异常区域和异常类型的染色体异常样本；模型训练模块，用于采用染色体样本集对初始染色体异常智能检测模型进行训练，直至达到预设停止条件，得到染色体异常智能检测模型。

在一个实施例中，拷贝数确定单元，包括：校正子单元，用于对每个第一区域内的读段数进行测序随机化扣除校正处理；获取子单元，用于获取预设的参考区域的读段数，参考区域采用无拷贝数变异的区域；拷贝数确定子单元，用于根据每个第一区域中处理后的读段数以及参考区域的读段数，确定每个第一区域的拷贝数。

在一个实施例中，拷贝数确定子单元，用于获取测序随机化扣除校正后的读段数与参考区域的读段数的商；对所获取的商进行标准化处理，得到每个第一区域的拷贝数。

在一个实施例中，参考区域采用以下区域中的任一个：AZFa下游到P5上游区域且不包含AZFa区域和P5区域；X染色体。

在一个实施例中，非AZF区域检测模块806，包括：第二划分单元，用于对非AZF区域的基因组比对结果进行划分，生成多个第二区域；第二获取单元，用于获取每个第二区域对应的读段数；数据处理单元，用于确定每个第二区域的待检测数据为对每个第二区域对应的读段数进行测序随机化扣除校正和均一化处理后得到的拷贝数；拷贝数分析单元，用于通过拷贝数变异分析算法对每个第二区域对应的待检测数据进行分析，得到每个第二区域的检测结果。

在一个实施例中，染色体的检测结果包括异常区域以及与异常区域对应的异常类型；装置800还包括：位置确定模块，用于确定预设的染色体区域结构图中与异常区域相对应的异常位置；映射模块，用于将与异常区域对应的异常类型映射至异常位置处；展示模块，用于展示映射后的染色体区域结构图。

在一个实施例中，获取模块802，包括：第三获取单元，用于获取待检测样本的基因组测序数据，基因组测序数据是通过Y染色体微缺失微重复、拷贝数变异CNV、全外显子组测序WES、全基因组测序WGS、胚胎植入前的遗传学检查PGS、无创基因检查NIPT中的任一种检测项目得到的；比对单元，用于将基因组测序数据比对至参考基因组，得到待检测样本的基因组比对结果。

在一个实施例中，装置800还包括：清除模块，用于若检测待检测样本的基因组比对结果携带聚合酶链式反应PCR重复标记，则清除PCR重复标记。

在一个实施例中，装置800还包括：屏蔽模块，用于屏蔽染色体长臂的异染色质区域和长臂末端的假常染色体区域，以及短臂末端的假常染色体区域和着丝粒N区。

关于染色体异常的检测装置的具体限定可以参见上文中对于染色体异常的检测方法的限定，在此不再赘述。上述染色体异常的检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种染色体异常的检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待检测样本的Y染色体的基因组比对结果；对于Y染色体中的无精子因子AZF区域，通过染色体异常智能检测模型根据AZF区域的基因组比对结果，得到AZF区域的检测结果；对于Y染色体中的非AZF区域，通过预设的拷贝数变异分析算法，根据非AZF区域的基因组比对结果得到非AZF区域的检测结果；根据AZF区域的检测结果和非AZF区域的检测结果，生成Y染色体的检测结果。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

对Y染色体中AZF区域的基因组比对结果进行划分，得到多个第一区域；对每个第一区域内的读段数进行测序随机化扣除校正和均一化处理，确定每个第一区域的拷贝数；根据每个第一区域的拷贝数对Y染色体进行测序结果绘图，得到待检测图谱；通过染色体异常智能检测模型对待检测图谱进行分类识别，得到AZF区域的检测结果。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

获取染色体样本集，染色体样本集中包括多个已标注异常区域和异常类型的染色体异常样本；采用染色体样本集对初始染色体异常智能检测模型进行训练，直至达到预设停止条件，得到染色体异常智能检测模型。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

对每个第一区域内的读段数进行测序随机化扣除校正处理；获取预设的参考区域的读段数，参考区域采用无拷贝数变异的区域；根据每个第一区域中处理后的读段数以及参考区域的读段数，确定每个第一区域的拷贝数。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

获取测序随机化扣除校正后的读段数与参考区域的读段数的商；对所获取的商进行标准化处理，得到每个第一区域的拷贝数。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

对非AZF区域的基因组比对结果进行划分，生成多个第二区域；获取每个第二区域对应的读段数；确定每个第二区域的待检测数据为对每个第二区域对应的读段数进行测序随机化扣除校正和均一化处理后得到的拷贝数；通过拷贝数变异分析算法对每个第二区域对应的待检测数据进行分析，得到每个第二区域的检测结果。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

确定预设的染色体区域结构图中与异常区域相对应的异常位置；将与异常区域对应的异常类型映射至异常位置处；展示映射后的染色体区域结构图。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

获取待检测样本的基因组测序数据，基因组测序数据是通过Y染色体微缺失微重复、拷贝数变异CNV、全外显子组测序WES、全基因组测序WGS、胚胎植入前的遗传学检查PGS、无创基因检查NIPT中的任一种检测项目得到的；将基因组测序数据比对至参考基因组，得到基因组比对结果。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

若检测基因组比对结果携带聚合酶链式反应PCR重复标记，则清除PCR重复标记。

在一个实施例中，处理器执行计算机程序时实现以下步骤：

屏蔽染色体长臂的异染色质区域和长臂末端的假常染色体区域，以及短臂末端的假常染色体区域和着丝粒N区。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static RandomAccess Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种染色体异常的检测方法，其特征在于，所述方法包括：

获取待检测样本的Y染色体的基因组比对结果；

2.根据权利要求1所述的方法，其特征在于，所述对于所述Y染色体中的无精子因子AZF区域，通过染色体异常智能检测模型根据所述AZF区域的基因组比对结果，得到所述AZF区域的检测结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述染色体异常智能检测模型的训练生成方式包括：

4.根据权利要求2所述的方法，其特征在于，所述对每个第一区域内的读段数进行测序随机化扣除校正和均一化处理，确定所述每个第一区域的拷贝数，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述每个第一区域处理后的读段数以及所述参考区域的读段数，确定所述每个第一区域的拷贝数，包括：

6.根据权利要求4所述的方法，其特征在于，所述参考区域采用以下区域中的任一个：

AZFa下游到P5上游区域且不包含AZFa区域和P5区域；

X染色体。

7.根据权利要求1所述的方法，其特征在于，所述对于非AZF区域，通过预设的拷贝数变异分析算法，根据所述非AZF区域的基因组比对结果得到所述非AZF区域的检测结果，包括：

获取每个第二区域对应的读段数；

8.根据权利要求1所述的方法，其特征在于，所述染色体的检测结果包括异常区域以及与所述异常区域对应的异常类型；所述生成所述Y染色体的检测结果之后，还包括：

将与所述异常区域对应的异常类型映射至所述异常位置处；

展示映射后的所述染色体区域结构图。

9.根据权利要求1～8任一项所述的方法，其特征在于，所述获取待检测样本的Y染色体的基因组比对结果，包括：

10.根据权利要求1～8任一项所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1～8任一项所述的方法，其特征在于，所述获取待检测样本的Y染色体的基因组比对结果之后，还包括：

12.一种染色体异常的检测装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。