CN117409858A

CN117409858A - 胚胎植入前染色体异常的检测方法和装置

Info

Publication number: CN117409858A
Application number: CN202210800743.1A
Authority: CN
Inventors: 杨超; 鲁程成
Original assignee: Shanghai Mingyue Medical Technology Co ltd
Current assignee: Shanghai Mingyue Medical Technology Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2024-01-16

Abstract

本发明涉及一种胚胎植入前染色体异常的检测方法和装置，方法包括：获取待测样本和参考样本的全基因组测序数据，根据所述全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量；根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正，以获得每个预设区间的标准reads数；根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。本发明的方法能够保持高通量测序对于缺失、单体的检测能力，同时提高三体、四体的检测能力；能够实现在z‑score检测为整倍体染色体的数据中再进行微缺失的检测，提高胚胎非整倍体以及其他异常染色体检测的准确性。

Description

胚胎植入前染色体异常的检测方法和装置

技术领域

本发明涉及生物信息学技术领域，具体而言，涉及一种胚胎植入前染色体异常的检测方法和装置。

背景技术

胚胎是专指有性生殖而言，是指雄性生殖细胞和雌性生殖细胞结合成为合子之后，经过多次细胞分裂和细胞分化后形成的有发育成生物成体的能力的雏体。胚胎指的就是有性繁殖发展形成过程的最初阶段，从受精卵开始第一次分裂，到下一阶段发展开始前，是发育生物学最早的阶段。

细胞是生命组成的基本单位，也是全套染色体组成的基本单位。目前胚胎植入前遗传学检测都需要在单个(或多个)细胞水平进行。在单细胞水平分析染色体组成，检测染色体是否正常，亦是常见的研究方法。辅助生殖技术中，植入前胚胎检测对患者成功受孕起到关键作用。

在真核生物的细胞核中，若染色体数目发生变异，即增减一条或几条，则染色体数目不是整倍体。如二倍体缺一条染色体是单体(2n-1)，二倍体多一条染色体是三体(2n+1)。一般由于在减数分裂时一对同源染色体不分离或提前分离而形成染色体数目异常的配子，这类配子彼此结合或同正常配子结合，产生各种非整倍体细胞。

非整倍染色体与人类一些遗传疾病密切相关。最常见的如唐氏综合征，发病率约1/800，由于多了一条21号染色体所致，以及13三体和18三体综合症，分别因多出一条13号和18号染色体而出现流产等。常染色体异倍性也是引起妊娠失败而流产的一大方面原因。

性染色体数目异常会造成性别发育异常。男性多一条X染色体(47,XXY)的个体为先天性睾丸发育不全症(Klinefelter综合症)。Turner综合症又称先天性卵巢发育不全综合症，由于缺失一条X染色体，核型为45,X。

传统的检测胚胎非整倍体的方法包括荧光原位杂交(FISH)、realtime-PCR、MLPA、生物芯片等。生物芯片分为比较基因组杂交芯片和SNP芯片，已经成为异倍体检测的主要手段，但是它通量低，一次只能检测有限的胚胎，成本高，操作相对复杂。FISH和realtime-PCR作为更快速的分子生物学检测方法，已经应用于大于80％的异倍体检测中，但是它们受到方法本身探针数目的限制，都不能实现同时对所有23对染色体进行全面检测，且通量很低。

随着新一代测序技术快速发展，NGS测序在染色体检测中的应用也愈来愈多。Dennis Lo等人发展了基于Illumina GA高通量测序对母体血浆中游离核酸进行检测的方法。

然而，在实际检测中，GC含量的变化以及测序深度的不同都会对检测结果造成影响，导致检测结果对测试数据的鲁棒性不佳，加上往往只使用一种计算模型，进而易造成检测结果不准确。

如何减少胚胎非整倍体检测的准确性是胚胎染色体检测的难点。

发明内容

为了解决上述问题，减少胚胎非整倍体以及其他异常染色体检测的准确性，本发明的第一目的在于提供一种胚胎植入前染色体异常的检测方法，包括：

获取待测样本和参考样本的全基因组测序数据，根据全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量；

根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正，以获得每个预设区间的标准reads数；

根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。

本发明的一种实现方式中，每个预设区间的长度为50kb～200kb。

本发明的一种实现方式中，根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正之前包括：根据每个预设区间的原始reads数和GC含量判断预设区间是否满足预设矫正条件，筛选满足预设矫条件的预设区间；预设矫正条件是指预设区间的GC含量不为零且预设区间的原始reads数大于预设阈值。

本发明的一种实现方式中，根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正，以获得每个预设区间的标准reads数具体包括：

对于满足预设矫正条件的预设区间，根据每个预设区间的GC含量获取对应的reads数预测值，根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正，以获取每个预设区间的GC含量矫正reads数；

根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数。

本发明的一种实现方式中，根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正，以获取每个预设区间的GC含量矫正reads数具体包括：

根据每个预设区间的reads数预测值按照公式一对原始reads数进行GC含量矫正，以获取每个预设区间的GC含量矫正reads数；

公式一：

其中，cr_{GC reads}表示预设区间的GC含量矫正reads数；reads表示预设区间的原始reads数；predict_reads表示预设区间的reads数预测值；∑reads表示预设区间所在染色体上满足预设矫正条件的预设区间的原始reads数之和，lenbin表示预设区间所在的染色体上满足预设矫正条件的预设区间的数目；

本发明的一种实现方式中，根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数具体包括：

根据每个预设区间的长度获取每个预设区间对应的测序深度矫正系数；

按照公式二每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数；

公式二：

其中，cr_deepth表示预设区间的标准reads数，cr_{GC reads}表示预设区间的GC含量矫正reads数，∑cr_{GC reads}表示目标染色体各预设区间的GC含量矫正reads数之和，r表示预设区间对应的测序深度矫正系数。

本发明的一种实现方式中，根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态具体包括：

根据待测样本和参考样本的每个预设区间的标准reads数按照公式三计算目标染色体上各预设区间reads数比值的log值；

公式三：

其中，cr_deepth表示预设区间的标准reads数，∑cr_{deepth ref mean}表示所有参考样本的各染色体的各预设区间的标准reads数的平均值，log_R表示目标染色体上各预设区间reads数比值的log值；

根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态。

本发明的一种实现方式中，根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态具体包括：

计算待测样本常染色体上各预设区间reads数比值的log值的总体平均值和总体标准偏差；

将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值，按照公式四计算目标染色体的染色体分数；

公式四：

其中，Z_score表示目标染色体的染色体分数，median表示目标染色体reads数比值的log值，total_mean表示待测样本不同常染色体上各预设区间reads数比值的log值的总体平均值，total_std表示待测样本不同常染色体上各预设区间reads数比值的log值的总体标准差，n表示不同常染色体上各预设区间的数目之和；

根据目标染色体的染色体分数评估目标染色体的状态。

本发明的一种实现方式中，根据目标染色体的染色体分数评估目标染色体的状态具体包括：

根据目标染色体的染色体分数判断目标染色体的状态是否为二倍体；，若目标染色体的状态为二倍体，根据各预设区间reads数比值的log值确定目标染色体的HMM分割结果和/或CBS分割结果；

根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态。

本发明的一种实现方式中，目标染色体的状态包括染色体缺失、单体、整倍体、三体和四体中的至少一种。

本发明的第二目的在于提供一种胚胎植入前染色体异常的检测装置，包括：

测序数据获取模块：用于获取待测样本和参考样本的全基因组测序数据，根据全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量；

reads数矫正模块：用于根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正，以获得每个预设区间的标准reads数；

染色体状态评估模块：根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。

本发明还涉及一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，其特征在于，处理器执行计算机程序时实现上述方法的步骤。

本发明还涉及一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述方法的步骤。

本发明还涉及一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现上述方法的步骤。

本发明提供了一种胚胎植入前染色体异常的检测方法，通过对reads数进行GC含量矫正和测序深度矫正，在保持全基因组扩增高通量测序对于缺失、单体的检测能力的同时，提高三体，四体的检测能力；能够实现在Z_score检测为整倍体染色体的数据中再进行微缺失和/或扩增的检测，确保对胚胎染色体的全面评估提高胚胎非整倍体以及其他异常染色体的检测准确性的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种胚胎植入前染色体异常的检测方法的流程框图；

图2为本发明实施例提供的一种胚胎植入前染色体异常的检测装置的结构框图；

图3为本发明实施例提供的计算机设备的内部结构图；

图4为本发明实施例1筛选染色体状态评估条件的流程示意图；

图5为本发明实施例1使用lowess构建模型的矫正回归图，图中Y轴为GC含量，X轴为；“uncorrected”表示的点为矫正前的数据，LOWESS-row表示的曲线为矫正前数据的lowess回归曲线；“corrected”表示的点是矫正后的数据，LOWESS-cor表示的曲线为矫正后的lowess回归曲线；

图6为本发明实施例1使用HBM模型和CBS模型的染色体窗口分割拼接示意图。

具体实施方式

现将详细地提供本发明实施方式的参考，其一个或多个实例描述于下文。提供每一实例作为解释而非限制本发明。实际上，对本领域技术人员而言，显而易见的是，可以对本发明进行多种修改和变化而不背离本发明的范围或精神。例如，作为一个实施方式的部分而说明或描述的特征可以用于另一实施方式中，来产生更进一步的实施方式。

因此，旨在本发明覆盖落入所附权利要求的范围及其等同范围中的此类修改和变化。本发明的其它对象、特征和方面公开于以下详细描述中或从中是显而易见的。本领域普通技术人员应理解本讨论仅是示例性实施方式的描述，而非意在限制本发明更广阔的方面。

如上文，在实际检测中，GC含量的变化以及测序深度的不同都会对检测结果造成影响，加上常规检测过程中往往只使用一种计算模型计算染色体状态，进而易造成胚胎非整倍体以及其他异常染色体的检测准确性不高。

为了至少部分解决上述技术问题，本发明的第一方面提供了一种胚胎植入前染色体异常的检测方法，如图1所示，包括：

S10:获取待测样本和参考样本的全基因组测序数据，根据全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量；

具体地，待测样本可以是指辅助生殖技术中植入子宫前的胚胎样本，也可以是妊娠期通过有创性方法，例如，绒毛取材术、羊膜腔穿刺术和经皮脐血管穿刺，获取的胎儿细胞样本。

参考样本是指和待测样本来源相同，且染色体倍数正常即为二倍体的胚胎样本，也可以称为整倍体胚胎样本。

待测样本和参考样本均来源于哺乳动物。

如本文所用，术语“哺乳动物”包括人、虎、狼、鼠、鹿、貂、猴、貘、树懒、斑马、狗、狐、熊、象、豹子、麝、牛、狮子、熊猫、疣、猪、羚羊、驯鹿、考拉、犀牛、猞猁、穿山甲、长颈鹿、熊猫、食蚁兽、猩猩、海牛、水獭、灵猫、海豚、海象、鸭嘴兽、刺猬、北极狐、北极熊、袋鼠、犰狳、河马、海豹、鲸、鼬、兔中的任意一种二倍体动物。

预设区间是指按照一定长度将染色体划分形成的窗口区间，每个窗口区间的长度相同或者不同，一些优选的实施方案中，每个窗口区间的长度相同。

一些具体实施方案中，每个预设区间的长度为50kb～200kb。

测序数据是指二代测序数据，也称作高通量测序数据。

进一步，根据测序数据mapping到参考基因组上的比对文件可以统计每个窗口区间的窗口起始位点、未经矫正的reads数即原始reads数、每个碱基的数量、窗口区间大小，进而可以确定每个窗口区间的GC含量和测序深度等等。

S20:根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正，以获得每个预设区间的标准reads数；

一些实施方案中，为了获得更准确的检测结果，根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正，以获得每个预设区间的标准reads数之前还包括预设区间筛选步骤：

S100:根据每个预设区间的原始reads数和GC含量判断预设区间是否满足预设矫正条件，筛选满足预设矫正条件的预设区间用于获得满足预设矫正条件的预设区间的标准reads数；预设矫正条件是指预设区间的GC含量不为零且预设区间的原始reads数大于预设阈值。

具体地，预设矫正条件是指，GC含量为0且原始reads数小于5。一些具体实施方案中，获得的每个预设区间GC数值后，删除GC含量为0的窗口，将GC数值精确至0.1％用于后续步骤的计算，筛选reads数>5的窗口，也即选取GC含量不为0且reads数>5的窗口进行reads数矫正的步骤。

一些具体实施方案中，根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正，以获得每个预设区间的标准reads数具体包括：

S201:对于满足预设矫正条件的预设区间，根据每个预设区间的GC含量获取对应的reads数预测值，根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正，以获取每个预设区间的GC含量矫正reads数；

可以理解的是，reads数预测值根据lowess建立GC含量与reads数的回归模型的回归系数预测生成的reads数，GC含量矫正reads数是指根据预设区间的reads数预测值对原始reads数进行GC含量矫正后得到的reads数。

一些具体实施方案中，根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正具体包括：

公式一：

其中，cr_{GC reads}表示预设区间的GC含量矫正reads数；reads表示预设区间的原始reads数；predict_reads表示预设区间的reads数预测值；∑reads表示预设区间所在染色体上满足预设矫正条件的预设区间的原始reads数之和，lenbin表示预设区间所在的染色体上满足预设矫正条件的预设区间的数目。

S202:根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数；

需要说明的是，样本在上机测序的过程中，不能保证每次产生的数据量是一至的，进而导致在PGT-A中检测的目标数据的reads数产生变化；造成参考基因组数据，以及检测样本的数据不具有一致性，无法进行比较；为了使得不同测序深度的数据具有可比较性，可以采用类TPM值计算方法，根据预设区间的长度对不同测序深度的预设区间的GC含量矫正reads数矫正。

一些具体实施方案中，根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数具体包括：

根据每个预设区间的长度获取每个预设区间的测序深度矫正系数；

具体地，预设区间的长度和测序深度矫正系数是预先确定且一一对应的，例如，当窗口选择50k时，即预设区间的长度为50k时，r＝4*10e5；当窗口选择100k时，即预设区间的长度为100k时，r＝2*10e5；当窗口选择200k时，即预设区间的长度为200k时，r＝1*10e5；

按照公式二对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数；

公式二：

S30:根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。

具体地，目标染色体的状态包括染色体缺失、单体、整倍体、三体和四体中的至少一种，根据所有样本的各染色体的各预设区间的标准reads数可以评估每条染色体的染色体状态。

一些实施方案中，根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态具体包括：

S301:按照公式三根据待测样本和参考样本的每个预设区间的标准reads数计算目标染色体上各预设区间reads数比值的log值；

公式三：

其中，cr_deepth表示预设区间的标准reads数，∑cr_{deepth ref mean}表示各参考样本的各染色体的各预设区间的标准reads数的平均值，log_R表示目标染色体上各预设区间reads数比值的log值。

S302:用于根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态；

如本文，术语“常染色体”指染色体组中除性染色体以外的染色体。人类的23对染色体中，有22对是常染色体，余下的一对是X染色体与X染色体或X染色体与Y染色体组成的性染色体。

本发明计算过程中使用待测样本常染色体的测序数据作为计算染色体状态的总体样本，而非采用参考样本(整倍体)的测序数据。由于参考样本已经作为log值计算中的一个矫正手段使用，而使用待测样本自身作为对照，可以进一步减少样本间的差异对染色体状态检测的影响，保证在同一建库扩增条件下确定染色体的状态。

一些具体实施方案中，根据待测样本常染色体上各预设区间的标准reads数评估目标染色体的状态具体包括：

S3021:计算待测样本常染色体上各预设区间reads数比值的log值的总体平均值和总体标准偏差；

具体地，待测样本不同常染色体上各预设区间reads数比值的log值的总体平均值采用公式计算，log表示预设区间的预设区间的log值，待测样本不同常染色体上各预设区间reads数比值的log值的总体标准差采用公式/>计算。

S3022:将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值，按照公式四计算目标染色体的染色体分数；

公式四：

需要说明的是，在非整倍体检测中，各预设区间reads数比值的log值大部分可以集中分布，但还有一些数据点会分散分布，进而造成最终在计算目标染色体reads数比值的log值时的波动性，因此，在一些优选实施方案中，本发明将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值，以减少log值的波动对检测结果得影响。

S3022:根据目标染色体的染色体分数评估目标染色体的状态。

具体地，预先确定不同染色体状态对应的判断阈值范围，计算目标染色体的染色体分数后，可确定相应的染色体状态。

一些实施方案中，根据目标染色体的染色体分数评估目标染色体的状态具体包括：

S303：根据目标染色体的染色体分数判断目标染色体的状态是否为整倍体；

S304：若目标染色体的状态为整倍体，根据各预设区间reads数比值的log值确定目标染色体的HMM分割结果和/或CBS分割结果，根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态。

具体地，根据目标染色体的染色体分数评估的染色体状态是指目标染色体整条染色体的状态，一般用于判断目标染色体是否为整倍体，根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态是指整倍体染色体的局部状态，也即是指染色体局部是否缺失、正常或者局部是否出现单体、三体、四体的状态。

本发明的检测方法基于概率统计模型和基于机器学习方法两大类，基于概率统计的检测方法的假设前提是：各预设区间reads数比值的log值与染色体状态具有相应的映射关系，即测序过程获得的reads数是服从泊松分布，如果出现滑动窗口log值增加或者减少也就代表着出现不同的染色体状态；机器学习的方法主要包括利用隐马尔可夫(HMM)、圆形二元分割法(CBS)等模型对log值进行处理，以评估染色体的状态。

在对染色体进行检测时，由于在测序及分析过程中累积的误差使得log值与染色体状态之间对应关系并不准确，因此数据预处理过程中需要对此类误差进行一定的矫正。误差主要来自于GC含量偏差、测序深度的偏差、实验建库及测序过程中引入的背景噪声以及样本本身带来的误差(例如肿瘤样本中由于肿瘤的异质性以及肿瘤样本中混合有正常细胞等都会扰乱reads数的统计)。

本发明针对上述偏差干扰，对于单样本检测采用GC含量矫正消除GC含量偏差带来的干扰；对于不同批次的实验导致的测序深度的偏差，采用对样本进行测序深度矫正而消除；对于实验过程中引入的误差和噪声，利用正常参考样本进行消除，其中，正常参考样本是指染色体正常的整倍体样本，同时采用log值中位数作为目标染色体reads数比值的log值计算染色体分数，从而提高了染色体整体变异检测的准确度。

可以理解的是，本发明首先通过计算染色体分数，提高整条染色体是否异常的准确性，进一步，本发明的HMM模型被设置为具有高灵敏度根据染色体log值进行分割；而CBS模型被设置为具有较低的灵敏度，进而保持对数据的鲁棒性，染色体分数结合HMM或者CBS分割和拼接结果判断染色体局部的微缺失和/或微扩增位置，联合评估断微缺失和/或扩增的情况，提高了检测染色体异常检测的准确度。

本申请的第二方面提供了一种胚胎植入前染色体异常的检测装置，包括：

染色体状态评估模块：用于根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。

具体地，每个预设区间的长度为50kb～200kb。

一些实施方案中，reads数矫正模块具体包括：

预设区间筛选模块：用于根据每个预设区间的原始reads数和GC含量判断预设区间是否满足预设矫正条件，筛选满足预设矫正条件的预设区间；预设矫正条件是指预设区间的GC含量不为零且预设区间的原始reads数大于预设阈值。

一些实施方案中，reads数矫正单元具体包括：

GC含量矫正子单元：用于对满足预设矫正条件的预设区间，根据每个预设区间的GC含量获取对应的reads数预测值，根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正，以获取每个预设区间的GC含量矫正reads数；

测序深度矫正子单元：用于根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数。

一些实施方案中，GC含量矫正子单元具体用于根据每个预设区间的reads数预测值按照公式一对原始reads数进行GC含量矫正，以获取每个预设区间的GC含量矫正reads数；

公式一：

一些具体实施方案中，测序深度矫正子单元具体用于：根据每个预设区间的长度获取每个预设区间的测序深度矫正系数；

公式二：

其中，cr_deepth表示预设区间的标准reads数，cr_{GC reads}表示预设区间的GC含量矫正reads数，∑cr_{GC reads}表示目标染色体各预设区间的GC含量矫正reads数之和，r表示预设区间的长度对应的测序深度矫正系数。

log值计算单元：用于根据待测样本和参考样本的每个预设区间的标准reads数按照公式三计算目标染色体上各预设区间reads数比值的log值；

公式三：

其中，cr_deepth表示预设区间的标准reads数，∑cr_{deepth ref mean}表示各参考样本的各染色体的各预设区间的标准reads数的平均值，log_R表示目标染色体上各预设区间reads数比值的log值；

第一染色体状态评估单元：用于根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态。

一些实施方案中，第一染色体状态评估单元具体包括：

平均值和标准差计算子单元：用于计算待测样本常染色体上各预设区间reads数比值的log值的总体平均值和总体标准偏差；

染色体分数计算子单元：用于将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值，按照公式四计算目标染色体的染色体分数；

公式四：

其中，Z_score表示目标染色体的染色体分数，total_mean表示待测样本常染色体上各预设区间reads数比值的log值的总体平均值，total_std表示待测样本常染色体上各预设区间reads数比值的log值的总体标准差，n表示常染色体上各预设区间的数目之和；

染色体状态评估子单元：用于根据目标染色体的染色体分数评估目标染色体的状态。

一些实施方案中，染色体状态评估子单元具体用于：根据目标染色体的染色体分数判断目标染色体的状态是否为整倍体；

若目标染色体的状态为整倍体，根据各预设区间reads数比值的log值确定目标染色体的HMM分割结果和/或CBS分割结果，根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态。

关于胚胎植入前染色体异常的检测装置的具体限定可以参见上文中对于胚胎植入前染色体异常的检测方法的限定，在此不再赘述。上述胚胎植入前染色体异常的检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施方案中，提供了一种计算机设备，该计算机设备可以是服务器104，也可以是终端102，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。当该计算机设备为终端时，还包括与系统总线连接的显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种胚胎植入前染色体异常的检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请还提供了一种计算机设备。计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述胚胎植入前染色体异常的检测方法的步骤。

本申请还提供了一种计算机可读存储介质。计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述胚胎植入前染色体异常的检测方法的步骤。

本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述胚胎植入前染色体异常的检测方法的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(DynamicRandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

下面将结合实施例对本发明的实施方案进行详细描述。

实施例1

按照图4所示的流程图，采用本发明的检测方法筛选染色体状态评估条件。在获得测序下机数据后，对数据进行质控和比对，比对完成后，使用shell命令筛选sam文件中具有唯一mapping结果的reads，之后将sam文件转为bam文件，排序并建立索引。

按照选择的窗口(bin)大小使用自编脚本统计每个窗口的平均GC含量，以及每个窗口的平均reads数。获得的每个窗口GC数值后，删除GC含量为0的窗口的数据，将GC数值精确至0.1％；筛选reads数>5的窗口，进行下一步的分析。

如图5所示，使用lowess模型建立GC含量与reads数的回归模型，并根据GC含量获取相应的预测reads数即predict_reads，使用公式计算得到cr_{GC reads}。通过该步骤的计算后，GC含量导致的reads数偏畸的情况，获得了很好的矫正。

根据bin的大小使用不同的系数(例如当bin为200k时)，使用公式将每个样本的总体cr_{GC reads}数放大或缩小到100000，获得待测样本每个预设区间矫正后的cr_deepth。

该方法参考于转录组测序中的TPM计算方式，使得不同测序深度的数据具有可比较性。同理使用与上述相同的方法处理参考(整倍体)样本，获得参考样本每条染色体各预设区间的标准reads数cr_{deepth ref}，统计所有参考样本各预设区间的cr_{deepth ref}获得平均值cr_{deepth ref mean}。根据参考样本的cr_{deepth ref mean}，使用公式计算分析样本目标染色体上各预设区间reads数比值的log值，作为后续分析的输入数据。

如图5所示，使用HMM模型对每个染色体的bin进行连接与分割，HMM模型如下参数进行分析：1)首先计算样本方差，根据方差模拟标准正太分布中数值为{-2.0，-0.5，0，0.3，1.0}时的分布概率，作为HMM模型的发射向量矩阵。使用{0.03，0.15，0.64，0.15，0.03}作为HMM模型的初始分布概率。使用{[1-1/35–1/9000,1–35,1/9000,0,0],[1/8500,1-1/35-1/8500,1/35,0,0],[0,1/8500,1-2/8500,1/8500,0],[0,0,1/35,1-1/35-1/8500,1/8500],[0,0,1/90000,1/35,1-1/35-1/90000]}作为状态转移矩阵。上述数据分别代表了非整倍体的五种状态{缺失，单体，正常，三体，四体}。同时也使用CBS模型对每个染色体的bin进行连接与分割。

使用公式公式计算目标染色体的染色体分数。其中，Z_score表示目标染色体的染色体分数，median为目标染色体reads数比值的log值，total_mean为该样本自身常染色体的总体平均值，total_std为本自身常染色体的总体标准差，n为该染色体bin的数目，Z_score表示目标染色体的染色体分数。

根据Z_score对染色体的倍数进行判断，在被判断为二倍体的染色体中再对微缺失或微重复进行判断，使用HMM与CBS两种分割算法对染色体微缺失或微重复进行判断。

本实施例筛选的条件见表1：

表1

表1中上述过滤条件通过已确诊的13例染色体缺失、37例单体样本、58例整倍体样本、47例三体、17例四体样本通过本发明的的染色体检测方法进行分析得到，同时作为划定整倍体的Z_score阈值范围依据，具体地，根据表1中不同染色体状态的Z_score分值可以确定整倍体Z_score阈值范围为(-15，15)。

实施例2

使用SRR2999343数据进行分析(实施例中列出的数据均可利用SRR号在NCBI中的SRA数据库中获得)，已知该样品chr22为单体。通过实施例1的流程分析后计算的不同染色体的Z_score结果见表2，chr22染色体Z_score小于-15，被判断为染色体缺失。

表2.SRR2999343数据Z_score结果

chr	Zscore	chr	Zscore
				chr1	-5.85688	chr12	1.875781
chr2	14.43915	chr13	-6.01281
				chr3	-2.0046	chr14	1.015976
chr4	1.30624	chr15	-4.43473
				chr5	-3.80881	chr16	-2.22779
chr6	-0.08033	chr17	4.042558
				chr7	2.662373	chr18	-0.55631
chr8	3.801903	chr19	3.520778
				chr9	-4.62666	chr20	-6.37672
chr10	0.890145	chr21	-5.14804
				chr11	-10.2852	chr22	-27.2259

实施例2

使用SRR6061293数据进行分析，已知该样品chr5:8597077-23991841片段为单体。通过实施例1的流程分析后得到CBS模型分割结果见表3，HMM模型分割结果见表4。结合两种模型结果，胚胎非整倍体以及其他异常染色体检测的准确性。

表3.SRR2999343数据CBS模型分割结果

chr	start	end	log2	p_value
					chr5	8400000	16800000	-1.03086	4.15E-23
chr5	16800000	23800000	-0.72648	5.17E-16

表4SRR2999343数据HMM模型分割结果

chr	start	end	log2	p_value
					chr5	8600000	23400000	-0.92337	1.30E-37

实施例3

使用SRR3016666数据进行分析，结果见表4，Z_mean表示使用目标染色体上各预设区间的log平均值作为目标染色体reads数比值的log值计算的Z_score，Z_median表示使用目标染色体上各预设区间reads数比值的log值的中位数计算的Z_score。计算平均值与中位数两种方法在t检验后p＝0.756715109，没有显示出差异。但使用中位数进行计算，具有更好的抗波动性能。

表4.平均值与中位数在计算Z_score后的结果对比

chr	Z_mean	Z_median	chr	Z_mean	Z_median
						chr1	1.404583	3.24127121	chr12	2.103671	2.778817
chr2	2.628826	2.08265057	chr13	0.113748	1.225264
						chr3	1.900619	3.0550181	chr14	1.621408	2.009593
chr4	-34.8599	-26.99265	chr15	2.511066	2.936359
						chr5	3.007025	3.44970998	chr16	3.134253	3.125059
chr6	5.693193	4.11221684	chr17	3.1664	3.945438
						chr7	2.046426	2.41902291	chr18	-0.03355	1.627682
chr8	1.600459	1.41111792	chr19	0.422743	1.808334
						chr9	3.356726	1.84954091	chr20	2.337508	2.609263
chr10	-0.17624	2.19876075	chr21	3.606721	2.264329
						chr11	1.751775	1.57055777	chr22	0.635891	0.156799

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种胚胎植入前染色体异常的检测方法，其特征在于，包括：

获取待测样本和参考样本的全基因组测序数据，根据所述全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量；

2.根据权利要求1所述的方法，其特征在于，每个预设区间的长度为50kb～200kb。

3.根据权利要求1或2所述的方法，其特征在于，所述根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正之前包括：

根据每个预设区间的原始reads数和GC含量判断预设区间是否满足预设矫正条件，筛选满足预设矫正条件的预设区间；

所述预设矫正条件是指预设区间的GC含量不为零且预设区间的原始reads数大于预设阈值。

4.根据权利要求3所述的方法，其特征在于，所述根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正，以获得每个预设区间的标准reads数具体包括：

根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正，以获得每个预设区间的标准reads数。

5.根据权利要求4所述的方法，其特征在于，所述根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正，以获取每个预设区间的GC含量矫正reads数具体包括：

公式一：

6.根据权利要求5所述的方法，其特征在于，所述根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数具体包括：

公式二：

7.根据权利要求6所述的方法，其特征在于，根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态具体包括：

公式三：

8.根据权利要求7所述的方法，其特征在于，根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态具体包括：

公式四：

根据目标染色体的染色体分数评估目标染色体的状态。

9.根据权利要求8所述的方法，其特征在于，所述根据目标染色体的染色体分数评估目标染色体的状态具体还包括：

根据各预设区间reads数比值的log值确定目标染色体的HMM分割结果和/或CBS分割结果，根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态。

10.根据权利要求1～9任一项所述的方法，其特征在于，所述目标染色体的状态包括染色体缺失、单体、整倍体、三体和四体中的至少一种。

11.一种胚胎植入前染色体异常的检测装置，其特征在于，包括：

测序数据获取模块：用于获取待测样本和参考样本的全基因组测序数据，根据所述全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量；

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～10中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～10中任一项所述的方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1～10中任一项所述的方法的步骤。