CN109192246B

CN109192246B - 检测染色体拷贝数异常的方法、装置和存储介质

Info

Publication number: CN109192246B
Application number: CN201810651441.6A
Authority: CN
Inventors: 孙亚洲; 肖贡; 陈斌; 杜刘稳; 牛团结; 陈杰
Original assignee: Shenzhen Diagnoa Genomics Technology Co ltd
Current assignee: Shenzhen Diagnoa Genomics Technology Co ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2020-10-16
Anticipated expiration: 2038-06-22
Also published as: CN109192246A; WO2019242187A1

Abstract

本申请涉及一种检测染色体拷贝数异常的方法、系统、计算机设备和存储介质。方法包括：获取待检测的样本的测序数据作为待检测数据，确定待检测数据对应的目标物种；获取靶点数据库中存储的目标物种包含的每个染色体对应的特异性k‑mer；获取每个染色体中包含的特异性k‑mer在待检测数据中的实际出现次数；从靶点数据库中获取到每个特异性k‑mer的拷贝数；根据每个特异性k‑mer的实际出现次数和拷贝数计算得到对应的染色体的实际信号强度；将实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。通过与特异性k‑mer进行对比则能够减少比较空间，从而缩短了分析时间，提高了检测的效率。

Description

检测染色体拷贝数异常的方法、装置和存储介质

技术领域

本申请涉及基因检测技术领域，特别是涉及一种检测染色体拷贝数异常的方法、装置、计算机设备和存储介质。

背景技术

在医学和生物学领域，为了检测一个样本中是否存在染色体拷贝数异常的现象，现有的技术方案已经可以利用一个待检测的样本的基因组测序数据，通过数据分析的方法，判断样本中是否存在染色体拷贝数异常的问题。然而在目前的技术方案中，一般需要将测序数据与一个物种的全部的染色体的完整序列进行序列比对，因此需要的计算资源高，消耗时间长，消耗内存大。

发明内容

基于此，有必要针对上述技术问题，提供一种能提高检测效率的检测染色体拷贝数异常的方法、装置、计算机设备和存储介质。

一种检测染色体拷贝数异常的方法，所述方法包括：

获取待检测的样本的测序数据作为待检测数据，确定所述待检测数据对应的目标物种；

获取靶点数据库中存储的目标物种包含的每个染色体对应的特异性k-mer，所述特异性k-mer为每个染色体中的满足预设特异性条件的k-mer，所述k-mer是指长度为k的基因组序列；

获取每个染色体中包含的特异性k-mer在所述待检测数据中的实际出现次数；

从所述靶点数据库中获取到每个特异性k-mer的拷贝数，所述拷贝数是所述特异性k-mer在对应的染色体中的出现次数与该染色体上出现次数最少的特异性k-mer的出现次数的比值；

根据每个特异性k-mer的实际出现次数和拷贝数计算得到对应的染色体的实际信号强度；

将所述实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。

一种检测染色体拷贝数异常的装置，所述装置包括：

特异性k-mer获取模块，用于获取待检测的样本的测序数据作为待检测数据，确定所述待检测数据对应的目标物种；获取靶点数据库中存储的目标物种包含的每个染色体对应的特异性k-mer，所述特异性k-mer为每个染色体中的满足预设特异性条件的k-mer，所述k-mer是指长度为k的基因组序列；

实际出现次数获取模块，用于获取每个染色体中包含的特异性k-mer在所述待检测数据中的实际出现次数；

拷贝数获取模块，用于从所述靶点数据库中获取到每个特异性k-mer的拷贝数，所述拷贝数是所述特异性k-mer在对应的染色体中的出现次数与该染色体上出现次数最少的特异性k-mer的出现次数的比值；

判定模块，用于根据每个特异性k-mer的实际出现次数和拷贝数计算得到对应的染色体的实际信号强度；将所述实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。

一种计算机设备，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述检测染色体拷贝数异常的方法、装置、计算机设备和存储介质，通过确定待检测数据对应的目标物种，并获取到目标物种中的每个染色体对应的特异性k-mer后，根据特异性k-mer在待检测数据中的实际出现次数以及每个特异性k-mer的拷贝数，以此计算出每个染色体对应的实际信号强度。从而可将每个染色体的实际信号强度与对应染色体的标准置信区间进行比较，将不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。这种检测染色体拷贝数异常的方法，通过与目标物种的各个染色体中的特征靶点序列，即特异性k-mer进行比较，而特异性k-mer仅仅是整个目标物种完整基因组的一小部分，因此通过仅仅与特异性k-mer进行对比，能够减少比较空间，从而缩短了分析时间，提高了检测的效率。

附图说明

图1为一个实施例中检测染色体拷贝数异常的方法的流程示意图；

图2为一个实施例中在步骤102之前的流程示意图；

图3为另一个实施例中在步骤102之前的流程示意图；

图4为一个实施例中染色体X的特异性k-mer的拷贝数列表；

图5为一个实施例中步骤110的流程示意图；

图6为一个实施例中检测染色体拷贝数异常的方法还包括其他步骤的流程示意图；

图7A为一个实施例中正常男性样本中染色体的标准信号强度记录表；

图7B为一个实施例中正常女性样本中染色体的标准信号强度记录表；

图8为一个实施例中步骤610的流程示意图；

图9A为一个实施例中正常男性样本中染色体的标准信号强度的预设置信度值P的分布表；

图9B为一个实施例中正常女性样本中染色体的标准信号强度的预设置信度值P的分布表；

图10为另一个实施例中步骤610的流程示意图；

图11为另一个实施例中检测染色体拷贝数异常的方法还包括其他步骤的流程示意图；

图12为又一个实施例中在步骤102之前的流程示意图；

图13为一个实施例中某一特定染色体的特异性k-mer实际出现次数记录表；

图14为另一个实施例中检测染色体拷贝数异常的方法的流程示意图；

图15为一个实施例中步骤1402的流程示意图；

图16为一个实施例中人类的染色体拷贝数表；

图17为一个实施例中步骤1404的流程示意图；

图18为一个实施例中某一特定染色体的单拷贝信号强度计算表；

图19为一个实施例中各个染色体的单拷贝信号强度记录表；

图20为一个实施例中各个染色体的实际信号强度的计算表；

图21为一个实施例中检测染色体拷贝数异常的装置的结构框图；

图22个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种检测染色体拷贝数异常的方法，包括以下步骤：

步骤102，获取待检测的样本的测序数据作为待检测数据，确定待检测数据对应的目标物种。

待检测数据，指一个样本被DNA测序仪、RNA测序仪、蛋白测序等设备读取其内部包含的生物分子的序列后，设备输出的数据。DNA测序是确定DNA分子内核苷酸精确顺序的过程，它包括用于确定DNA链中腺嘌呤，鸟嘌呤，胞嘧啶和胸腺嘧啶四种碱基顺序的任何方法或技术。测序仪是指能够测量出输入的样本的序列的仪器，此处测量出的序列不仅仅包括有DNA序列，还包括蛋白、RNA等别的物质构成的序列。样本可以是可以是一滴血、一口痰、一把土等等各种形式。当获取到待检测数据后，可确定待检测数据所属的物种，即目标物种。比如当测序数据为人的基因序列时则目标物种就是人。

步骤104，获取靶点数据库中存储的目标物种包含的每个染色体对应的特异性k-mer，特异性k-mer为每个染色体中的满足预设特异性条件的k-mer，k-mer是指长度为k的基因组序列。

每个目标物种包含有一个或多个个体。每个个体中包含有一个或多个基因组，而每个基因组中包含有一个或多个染色体。因此，每个目标物种中包含有多个染色体。在靶点数据库中可以存储有预先为每个染色体建立的特征靶点序列集合，在每个染色体对应的特征靶点序列集合中包含有每个染色体对应的特异性k-mer。特异性k-mer是指从每个染色体包含的k-mer中选取的满足预设特异性条件的k-mer，即作为每个染色体对应的特异性k-mer。预设特异性条件是技术人员预先设定的条件，用于选取符合的k-mer，预设特异性条件可根据技术人员的考虑或实际项目需求而定。

k-mer是指长度为k的基因组序列，k为自然数。如果一种基因组数据中一共有a个不同的确定性字符，那么对于一个特定的k，则一共有数量为a的k次方个可能不相同的k-mer。对于DNA或RNA(核糖核酸)序列，确定性字符是指A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)、U(尿嘧啶)这五种碱基；如果是蛋白序列，确定性字符则是指确定的氨基酸字符。

步骤106，获取每个染色体中包含的特异性k-mer在待检测数据中的实际出现次数。

当获取到待检测数据后，可将待检测数据分别与每个染色体进行比较，即获取到每个染色体所对应的特征靶点序列集合中包含的特异性k-mer在待检测数据中的出现次数，即为每个特异性k-mer在待检测数据中的实际出现次数。

步骤108，从靶点数据库中获取到每个特异性k-mer的拷贝数，拷贝数是特异性k-mer在对应的染色体中的出现次数与该染色体上出现次数最少的特异性k-mer的出现次数的比值。

每个特异性k-mer的拷贝数是指该特异性k-mer在对应的染色体中的出现次数与该染色体上出现次数最少的特异性k-mer的出现次数的比值。从靶点数据库中获取到每个特异性k-mer的拷贝数时，可从靶点数据库中获取到每个染色体对应的特异性k-mer拷贝数列表，再根据每个特异性k-mer拷贝数列表获取到每个染色体中包含的特异性k-mer的拷贝数。特异性k-mer拷贝数列表预先建立存储在靶点数据库中，可在需要用到时进行调用，提升检测效率。

步骤110，根据每个特异性k-mer的实际出现次数和拷贝数计算得到对应的染色体的实际信号强度。

在获取到每个特异性k-mer在待检测数据中的实际出现次数和拷贝数后，可根据这两个参数计算得到每个特异性k-mer的实际信号强度。具体地，在获取到每个特异性k-mer的实际出现次数Ci和拷贝数Fi后，可计算得到Ci和Fi的比值，将比值作为每个特异性k-mer调整后的出现次数。如此，可计算得到每个染色体中包含的全部特异性k-mer调整后的出现次数。再计算每个染色体中包含的特异性k-mer调整后的出现次数的平均值，将该平均值作为对应的染色体的单拷贝信号强度E。当计算得到所有染色体的单拷贝信号强度E后，可计算得到所有染色体的单拷贝信号强度E的平均值M和方差SD。再将每个染色体的单拷贝信号强度与平均值M的差值除以方差SD得到的商，作为每个染色体对应的实际信号强度。即染色体的实际信号强度S_i＝(E_i-M)/SD。

步骤112，将实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。

每个染色体均有各自对应的标准置信区间，标准置信区间是指预先根据大量样本计算得到的标准信号强度区间。标准信号强度与实际信号强度实际上是同样的计算方式，但由于标准检测样本是确认为无染色体拷贝数异常的样本，因此标准信号强度是针对标准检测样本的数据，而实际信号强度则是针对待检测数据。当染色体的实际信号强度在对应染色体的标准置信区间中时，可以判断该染色体是不存在拷贝数异常的，反之，则可以判定该染色体是存在拷贝数异常的。因此，可将实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。此处，是将每个染色体的实际信号强度与对应的染色体的标准置信区间进行比较。比如，一号染色体的实际信号强度与预先建立的一号染色体的标准置信区间进行比较，二号染色体的实际信号强度与预先建立的二号染色体的标准置信区间进行比较。

通过确定待检测数据对应的目标物种，并获取到目标物种中的每个染色体对应的特异性k-mer后，根据特异性k-mer在待检测数据中的实际出现次数以及每个特异性k-mer的拷贝数，以此计算出每个染色体对应的实际信号强度。从而可将每个染色体的实际信号强度与对应染色体的标准置信区间进行比较，将不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。这种检测染色体拷贝数异常的方法，通过与目标物种的各个染色体中的特征靶点序列，即特异性k-mer进行比较，而特异性k-mer属于整个目标物种基因组的一部分，因此与特异性k-mer进行对比则能够减少比较空间，从而缩短了分析时间，提高了检测的效率。

在一个实施例中，特异性k-mer是指在染色体对应的基因组出现次数索引表中的出现次数满足预设误差条件的染色体中的k-mer。

在每个染色体对应的特征靶点序列集合中，都包含有每个染色体中满足预设特异性条件的特异性k-mer。进一步地，预设特异性条件是指，在每个染色体对应的基因组出现次数索引表中出现次数满足预设误差条件的染色体中包含的k-mer。预设误差条件是指技术人员根据实际项目需求预先设定的误差条件，误差条件可以是一个区域范围，即允许了选取作为特异性的k-mer能够存在一定的误差，而不是完全一定要满足某个严格的客观条件。

针对每个染色体，均有与该染色体对应的基因组出现次数索引表，可根据每个染色体对应的基因组出现次数索引表获知每个染色体中包含的k-mer的在该染色体中所包含的多少个基因组里出现过，即可选出在染色体的基因组出现次数索引表中的出现次数满足预设误差条件的染色体中的k-mer，将选出的k-mer作为特异性k-mer。

在选取特异性k-mer时允许了一定的误差性，因此能够在一定误差范围内较高概率地找到代表该染色体的特异性序列，从而使得在确定测序数据包含的染色体时，仅仅使用特异性序列，而不是全基因组序列。这样一个技术方案减少了处理真实待检测数据时序列比较的空间，从而缩短了分析时间，提高了检测的效率。

在一个实施例中，在上述步骤102之前，还包括以下步骤：生成与每个染色体对应的基因组出现次数索引表，基因组次数索引表记录了每个k-mer对应的染色体包含的基因组中包含有该k-mer的基因组的个数；将基因组出现次数索引表存储至与染色体对应的特征靶点序列集合。

基因组是指一个生物体内所有遗传信息，这种遗传信息以核苷酸序列形式存储。一个生物体(例如一个动植物个体、或动植物细胞、或细菌个体)的一个完整单体内的遗传物质的总和即为基因组。通常来说，在一个个体的完整基因组中，可以包含有多个染色体，而在每个染色体中，则可以包含有多个k-mer。此处使用了本领域内常用的“染色体的基因组”这个概念，指的是一个完整的染色体所包含的所有序列的总和。按照这个概念，在每个染色体对应的基因组出现次数索引表中记录了每个染色体包含的k-mer在该染色体对应的多少个基因组中出现过，即基因组次数索引表记录了每个k-mer在其所属的染色体对应的基因组中包含有该k-mer的基因组的个数。

因此在基因组次数表中实际上记录的是每个k-mer在该k-mer所在的染色体对应的多少个基因组中出现过。如果在同一个基因组中一个k-mer出现超过一次，那么在该基因组出现次数索引表中仍然只会计数一次。在获取到每个k-mer在多少个基因组中出现过的数据后，即可建立针对每个染色体对应的基因组出现次数索引表。若是一共有M个染色体，则会生成M个相对应的基因组出现次数索引表。

当每个染色体对应的基因组出现次数索引表均建立后，可将基因组出现次数索引表存储至与每个染色体对应的特征靶点序列集合，即存储至靶点数据库中，存储后，若是需要用到基因组出现次数索引表即可从靶点数据库进行数据调取，进而提高了检测的效率。

在一个实施例中，如图2所示，在上述步骤102之前，还包括以下步骤：

步骤100，从每个染色体对应的k-mer中选取满足预设特异性条件的k-mer。

步骤101，将满足预设特异性条件的k-mer存储至每个染色体对应的特征靶点序列集合中。

在靶点数据库中，存储有每个染色体对应的特征靶点序列集合，在每个特征靶点序列集合中包含有每个染色体对应的特异性k-mer。特异性k-mer是指从每个染色体包含的k-mer中选取满足预设特异性条件的k-mer。当选取出满足预设特异性条件的k-mer，即特异性k-mer，可将特异性k-mer存储至每个染色体对应的特征靶点序列集合中。这种方法即预先建立了特征靶点库，因此在检测确定染色体是否异常时，则能够直接调用需要用到特异性k-mer的数据，提高了检测的效率。

在一个实施例中，如图3所示，在步骤102之前，还包括以下步骤：

步骤302，获取靶点数据库中存储的目标物种包含的每个染色体中包含的特异性k-mer在对应染色体中的出现次数C，以及该染色体中的出现次数最少的特异性k-mer对应的出现次数作为最小出现次数Cm。

步骤304，将出现次数C与最小出现次数Cm的比值作为特异性k-mer的拷贝数。

步骤306，根据每个染色体中包含的特异性k-mer的拷贝数生成与每个染色体对应的特异性k-mer拷贝数列表。

步骤308，将特异性k-mer拷贝数列表存储至靶点数据库。

上述步骤108，包括：根据特异性k-mer拷贝数列表获取到每个特异性k-mer的拷贝数。

目标物种中包含有多个染色体，每个染色体中均包含有一个或多个特异性k-mer。可获取到每个染色体中包含的每个特异性k-mer在该染色体中的出现次数C，并获取到在该染色体中出现次数最少的特异性k-mer的出现次数，作为最小出现次数Cm。

对于每一个特异性k-mer而言，其出现次数C与该染色体上出现次数最少的k-mer的出现次数Cm的比值即为该特异性k-mer的拷贝数。在得到每个染色体中包含的全部特异性k-mer的出现次数后，即可计算得到每个特异性k-mer的拷贝数，从而生成与该染色体对应的特异性k-mer拷贝数列表。可将每个特异性k-mer拷贝数列表存储至与染色体对应的特点靶点序列集合中，便于需要使用的时候直接调用列表获取相关的数据，提高检测效率。

在需要获取每个特异性k-mer的拷贝数时，可先获取到特异性k-mer所属染色体对应的特异性k-mer拷贝数列表，从而获取到表中记录的每个特异性k-mer的拷贝数。如图4所示的染色体X的特异性k-mer的拷贝数列表，假设在染色体X中，包含有N个特异性k-mer。N个特异性k-mer在染色体X中的出现次数分别为C1、C2、....、Cn。其中有一个特异性k-mer在染色体X中的出现次数最少，记为Cm。那么N个特异性k-mer的拷贝数F分别为F1＝C1/Cm、F2＝C2/Cm、....、Fn＝Cn/Cm。出现次数最少的特异性k-mer的拷贝数则等于Cm/Cm，即出现次数最少的特异性k-mer的拷贝数为1。

在一个实施例中，如图5所示，上述步骤110，包括：

步骤502，计算每个特异性k-mer的实际出现次数与拷贝数的比值。

步骤504，计算每个染色体包含的所有特异性k-mer的实际出现次数与拷贝数的比值的均值，作为对应的染色体的单拷贝信号强度。

步骤506，根据每个染色体的单拷贝信号强度计算得到对应的染色体的实际信号强度。

获取到每个特异性k-mer在待检测数据中的实际出现次数，以及每个特异性k-mer的拷贝数，从而可获取到每个特异性k-mer的实际出现次数与拷贝数的比值。每个染色体中可以包含有多个特异性k-mer，因此可获取到每个染色体中包含的所有特异性k-mer的实际出现次数与拷贝数的比值，并获取到该比值的均值。从而每个染色体均会有对应的实际出现次数与拷贝数的比值的均值，此均值即为每个染色体的单拷贝信号强度。从而可根据每个染色体的单拷贝信号强度计算得到与每个染色体对应的实际信号强度。

在一个实施例中，根据如下公式计算得到对应的染色体的实际信号强度：

染色体的实际信号强度＝(染色体的单拷贝信号强度-M)/SD，其中M为全部的染色体的单拷贝信号强度的平均值，SD为全部的染色体的单拷贝信号强度的方差。

当得到每个染色体的单拷贝信号强度后，可计算得到全部的染色体的单拷贝信号强度的平均值M以及方差。每个染色体的实际信号强度，则为该染色体的单拷贝信号强度与平均值M的差值与方差SD的商。即每个染色体的实际信号强度＝(染色体的单拷贝信号强度-M)/SD。

在一个实施例中，如图6所示，上述检测染色体拷贝数异常的方法还包括以下步骤：

步骤602，获取预设数量的标准检测样本，标准检测样本是确认为无染色体拷贝数异常的样本。

步骤604，获取标准检测样本中每个染色体包含的特异性k-mer在待检测数据中的实际出现次数。

在对待检测数据的染色体是否存在拷贝数异常进行检测时，需要预先确定每个染色体对应的标准置信区间列表。从而可将待检测数据中的染色体与预先确定的染色体对应的标准置信区间列表进行比较，即可确定待检测数据中的染色体是否存在拷贝数异常。确定染色体对应的标准置信区间列表时，需要先获取到预设数量的标准检测样本。标准检测样本是确认为无染色体拷贝数异常的样本。预设数量是指数量可由技术人员自定义进行设置，但是应该以能满足统计学上的大样本要求为准。一般预设数量应该大于30，或大于100。获取到多个标准检测样本后，可获取到每个标准检测样本包含的染色体中的特异性k-mer在待检测数据中的实际出现次数。

步骤606，从靶点数据库中获取到标准检测样本中包含的每个染色体中每个特异性k-mer的拷贝数。

步骤608，根据标准检测样本中包含的每个特异性k-mer的实际出现次数和拷贝数得到对应的染色体的标准信号强度。

每个特异性k-mer的拷贝数是指该特异性k-mer在对应的染色体中的出现次数与该染色体上出现次数最少的特异性k-mer的出现次数的比值。从靶点数据库中获取到标准检测样本中包含的每个染色体中每个特异性k-mer的拷贝数后，可根据标准检测样本中包含的每个特异性k-mer的实际出现次数和拷贝数得到对应的染色体的标准信号强度。标准信号强度与实际信号强度的计算方式是一样的，只是标准信号强度是针对标准检测样本而言，而实际信号强度是针对待检测数据而言。在获取到每个染色体的标准信号强度后，可根据不同性别建立标准信号强度记录表。例如如果目标物种是人类，那么可以建立属于男性的标准检测样本中染色体的标准信号强度记录表和属于女性的标准检测样本中染色体的标准信号强度记录表。

如图7A所示的正常男性样本中染色体的标准信号强度记录表，和图7B所示的正常女性样本中染色体的标准信号强度记录表。在这两个表中，分别记录有男性样本中包含的染色体对应的标准信号强度记录和女性样本中包含的染色体对应的标准信号强度记录。比如，如图7A所示，样本1中的1号染色体的标准信号强度记录为S¹ ₁，2号染色体的标准信号强度记录为S¹ ₂。样本i中1号染色体的标准信号强度记录为Sⁱ ₁，样本i中2号染色体的标准信号强度记录为Sⁱ ₂。同理的，图7B中也是这样的记录方式。

步骤610，根据多个标准检测样本中的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

步骤612，根据每个染色体对应的标准置信区间，获得目标物种中包含的染色体对应的标准置信区间列表。

一个置信区间是针对某一个待估计的种群总体参数，通过获得来自于该种群的某一个随机抽样样本，计算所得的在某一个置信度时可能包括该种群总体参数的一个区间。这个置信度也被称为置信水平。此处的预设置信度值P指的是预先由技术人员设置的置信度值，一般设置为大于0.95的数值，无限接近于1但不会等于1。预设置信度值可以由技术人员在实际应用中根据需要进行调节。例如将置信度值设为95％的置信度，P即为0.95，而设置为99.9％的置信度，P即为0.999。

可根据设置好的预设置信度值确定染色体的标准信号强度的两个边界值LB和UB，则可得到与预设置信度值对应的置信区间。LB为置信区间的最小值，UB为置信区间的最大值。因此得到的置信区间实际上则为标准信号强度的区间。针对每一个染色体而言，均可得到在预设置信度值时对应的标准信号强度区间，即每个染色体的标准信号强度区间，也就是每个染色体对应的标准置信区间。而在目标物种中包含有多个染色体，因此实际上可得到目标物种中包含的染色体对应的标准置信区间列表。标准置信区间列表中则包含有各个染色体对应的标准置信区间。比如将预设置信度值P设置为0.98，那么可得到每个染色体在概率为98％时对应的标准信号强度区间。

在一个实施例中，如图8所示，上述步骤610包括：

步骤802，获取每个标准检测样本包含的每个染色体的标准信号强度。

步骤804，根据标准检测样本的性别分别计算所有标准检测样本中包含的染色体的标准信号强度的均值和方差。

步骤806，根据每个染色体在相应性别的多个标准检测样本中的标准信号强度的均值和方差，确定每个性别对应的标准检测样本中包含的染色体在预设置信度值时对应的标准置信区间。

在获取到每个标准检测样本包含的每个染色体的标准信号强度后，可计算出每一号染色体的标准信号强度的均值和方差。每一号染色体是指，每一个编号的染色体。比如获得每个标准检测样本的1号染色体的标准信号强度后，即可计算得到1号染色体的标准信号强度的均值和方差。同样，可计算得到2,3,…，22号染色体以及X、Y等染色体的标准信号强度的均值和方差。

在计算得到每个染色体对应的标准信号强度的均值和方差后，即可确定每个染色体在预设置信度值时的对应的标准置信区间，即对应的标准信号强度区间。，例如，以人为目标物种，还可以根据不同性别的标准检测样本分别建立男性样本中染色体的标准信号强度的预设置信度值P的分布表，和女性样本中染色体的标准信号强度的预设置信度值P的分布表。

如图9A所示的正常男性样本中染色体的标准信号强度的预设置信度值P的分布表。在正常男性的样本中，包含有22条常染色体和XY染色体。M^‘代表的是全部染色体的标准信号强度的平均值，SD'代表的是全部染色体的标准信号强度的方差。LB代表的是每个染色体在预设置信度值P时对应的置信区间的最小值，UB代表的是每个染色体在预设置信度值P时对应的置信区间的最大值，由置信区间的最小值和最大值即可得到对应的置信区间。如图9B所示的正常女性样本中染色体的标准信号强度的预设置信度值P的分布表。图9A和图9B的区别在于不同性别的个体的基因组有不同的染色体组成，例如在男性样本对应的图9A中，除了22条常染色体外还包括X和Y性染色体，而在女性样本中则为22条染色体与两条X性染色体。其余数据代表的含义是一样的。

在一个实施例中，标准检测样本为正常母亲怀有正常婴儿的外周血样本，外周血样本包括有正常母亲怀有正常男婴的外周血样本、正常母亲怀有正常女婴的外周血样本、正常母亲怀有正常男婴双胞胎的外周血样本、正常母亲怀有正常女婴双胞胎的外周血样本以及正常母亲怀有正常一男一女双胞胎的外周血样本。

外周血是除骨髓之外的血液。在本实施例中，正常母亲指的是该母亲的染色体拷贝数并无异常，正常婴儿指的是该婴儿的染色体拷贝数也并无异常。认定为是正常母亲或正常婴儿的标准也可由技术人员根据实际项目研究进行调整。为了建立样本数据，可获取到大量的标准检测样本，而标准检测样本可以为正常母亲怀有正常婴儿的外周血样本。鉴于母亲怀有的婴儿可为男婴也可以为女婴，且母亲也可以怀有的是双胞胎，因此外周血样本包括有正常母亲怀有正常男婴的外周血样本、正常母亲怀有正常女婴的外周血样本、正常母亲怀有正常男婴双胞胎的外周血样本、正常母亲怀有正常女婴双胞胎的外周血样本以及正常母亲怀有正常一男一女双胞胎的外周血样本。在其他情况下，标准检测样本也可以为正常母亲怀有多个正常婴儿的外周血样本。比如正常母亲怀有正常三胞胎的外周血样本，正常母亲怀有正常四胞胎的外周血样本等等多种情况。此处无需对正常母亲怀有的婴儿数量进行限制，而是可以获取到正常的母亲怀有正常婴儿的外周血样本作为标准检测样本即可。

如图10所示，上述步骤610，包括以下步骤：

步骤1002，根据正常母亲怀有正常男婴的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

步骤1004，根据正常母亲怀有正常女婴的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

步骤1006，根据正常母亲怀有正常男婴双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

步骤1008，根据正常母亲怀有正常女婴双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

步骤1010，根据正常母亲怀有正常一男一女双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

在根据每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间时，当标准检测样本不同时，则需要确定不同的标准检测样本中包含的染色体的标准信号强度。因此，上述步骤1002至步骤1010，则是根据不同的标准检测样本中包含的染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。比如当标准检测样本为正常母亲怀有正常男婴的外周血样本时，则可以根据正常母亲怀有正常男婴的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。而当标准检测样本为正常母亲怀有正常一男一女双胞胎的外周血样本时，则可以根据正常母亲怀有正常一男一女双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

在一个实施例中，上述步骤112，包括：当检测到存在有染色体对应的实际信号强度不属于与对应染色体的标准置信区间时，则将与实际信号强度对应的染色体判定为存在拷贝数异常的染色体。

经过获取到大量的标准检测样本，可计算得到目标物种的各个染色体对应的标准置信区间，即得到一个标准置信区间列表。因此可将待测数据所属的目标物种中包含的染色体的实际信号强度与预先计算得到的对应的染色体的标准置信区间进行比对。当检测到存在有染色体对应的实际信号强度不属于与对应染色体的标准置信区间时，则将与实际信号强度对应的染色体判定为存在拷贝数异常的染色体。在比对时，每个染色体与每个染色体对应的标准置信区间进行比对。比如测序数据所属的目标物种中包含的1号染色体与预先计算得到的1号染色体的标准置信区间进行比对，测序数据所属的目标物种中包含的2号染色体与预先计算得到的2号染色体的标准置信区间进行比对，以此方式对测序数据所属的目标物种中包含的全部染色体进行比对，判断是否有染色体存在拷贝数异常。

假设比对的是测序数据所属的目标物种中包含的1号染色体，则获取到预先计算得到的1号染色体对应的标准置信区间为(LB1，UB1)，则检测判断待测样本中包含的1号染色体的实际信号强度是否存在于区间(LB1，UB1)中。若是不存在，则说明1号染色体拷贝数异常；若是存在，则说明1号染色体正常，无拷贝数异常情况。

在一个实施例中，如图11所示，上述检测染色体拷贝数异常的方法还包括以下步骤：

步骤1102，根据目标物种的性别，确定每个性别对应染色体的标准置信区间列表。

步骤1104，获取待测样本的性别；

步骤1106，分别将每个染色体的实际信号强度与目标物种的对应性别的标准置信区间列表中的相对应的染色体所对应的标准置信区间进行比较。

步骤1108，当检测到存在有染色体的实际信号强度不属于对应性别的对应染色体的标准置信区间时，则将与实际信号强度对应的染色体判定为存在拷贝数异常的染色体。

在靶点数据库中存储有根据性别建立的样本中包含的染色体对应的标准置信区间列表。例如以人为例，即在靶点数据库中存储有正常男性样本中染色体的标准信号强度的预设置信度值P的分布表，在男性样本的预设置信度值P的分布表中记录有正常男性样本中包含的每个染色体在预设置信度时对应的标准置信区间。同样地，在靶点数据库中存储有正常女性样本中染色体的标准信号强度的预设置信度值P的分布表，在女性样本的预设置信度值P的分布表中记录有正常女性样本中包含的每个染色体在预设置信度时对应的标准置信区间。

对目标物种进行性别划分，即按照性别将目标物种分为与性别对应的部分。比如当目标物种为人时，则将目标物种按照性别分为男性与女性。则可以确定每个性别对应染色体的标准置信区间。在将目标物种按照性别进行划分后，可明确每个性别的目标物种中包含的染色体，从而获取到每个染色体对应的标准置信区间。比如女性的目标物种中包含有22条常染色体和两条X性染色体，那么可从靶点数据库中获取到正常女性样本中染色体的标准信号强度的预设置信度值P的分布表，从而从此表中获取到与这22条染色体以及X染色体分别对应的标准置信区间。即，当待测样本来自于女性时，则获取到女性对应的染色体的标准信号强度的预设置信度值P的分布表。也就是将女性的待测样本的各个染色体的实际信号强度与女性的标准置信区间列表中的各个染色体的标准置信区间进行比较。如此，当检测到存在有染色体的实际信号强度不属于对应性别的对应染色体的标准置信区间时，则将与实际信号强度对应的染色体判定为存在拷贝数异常的染色体。

在一个实施例中，如图12所示，在步骤102之前，还包括以下步骤：

步骤1202，获取目标物种中包含的多个染色体。

步骤1204，对目标物种中包含的多个染色体进行分类整理。

步骤1206，获取预先选取的满足预设可信度条件的高可信度基因组。

步骤1208，确定目标物种包含的各个染色体对应的高可信度基因组。

目标物种为待测样本来自的物种。比如希望对人的染色体拷贝数异常进行判断时，人是就是目标物种。目标物种可以为人，也可以是除人以外的其他物种。目标物种和非目标物种的基因组数据可以来源于NCBI(National Center for BiotechnologyInformation，美国国立生物技术信息中心)的RefSeq数据集(RefSeq参考序列数据库，美国国家生物信息技术中心提供的具有生物意义上的非冗余的基因和蛋白质序列)或其他公共或私有的基因组。所有目标物种和非目标物种的基因组综合在一起，成为全集。

一个个体的完整基因组中包含多个染色体。因此在获取到目标物种对应的不同个体的各个基因组后，则可以获取到目标物种中包含的多个染色体。由于收集到的目标物种的基因组可能有多套，即来自于同一个目标物种的不同个体或种群的不同基因组。以人类为目标物种为例，收集到的目标物种的基因组可能包括来自欧洲裔、北美印第安裔、中国汉族裔等的基因组。因此，目标物种的每一条染色体都可能包含来自于不同基因组的属于该染色体的序列。以人类为例，人类的第一号染色体可以包括欧洲裔的第一号染色体、北美印第安裔的第一号染色体、中国汉族裔的第一号染色体。此处，将目标物种的每一个相同染色体的数据整理在一起，即组成了目标物种的各个染色体的序列数据集。

再从各个染色体的序列数据集中，获取到预先选取的满足预设可信度条件的基因组，即选取满足预设可信度条件的高可信度基因组，即可确定目标物种包含的各个染色体对应的高可信度基因组。高可信度基因组是指满足预设可信度条件的基因组。当然，此处的顺序也可以进行更换。可预先从NCBI收集到大量的基因组，并对这些基因组进行筛选，选取出满足预设可信度条件的基因组作为高可信度基因组。再确定每个目标物种中包含的各个染色体的高可信度序列数据集，即将每个目标物种的所有高可信度基因组的每一个相同染色体的数据整理在一起，即组成了每个目标物种中的各个染色体的高可信度序列数据集。

在一个实施例中，满足预设可信度条件包括以下任意一种：染色体序列中包含的非确定性字符的比例低于预设比例阈值时；染色体序列中包含的属于同一条染色体的序列片段低于预设片段阈值时；将某一染色体序列与其他所有遗传关系符合预设遗传距离阈值范围的染色体序列进行序列比对，确定该染色体序列在其相近的染色体序列中的全序列平均覆盖百分比，当该平均覆盖百分比高于预设百分比值时。

对于DNA基因组来说，非确定性字符的比例是指其中含有的非ACGT字符的比例，一条DNA基因组数据如果其非ACGT字符的比例过高，那么该条数据即为疑似低可信度的基因组。对于DNA或RNA序列，非确定性字符是指除去ACGTU这几个确定性字符以外的字符；对于蛋白质序列，非确定性字符则是指除了确定的氨基酸字符以外的字符。

当基因组序列中包含的非确定性字符的比例低于预设比例阈值时，可认为该基因组满足预设可信度条件。根据一条完整的染色体所包括的序列数据片段的数目进行筛选，如果有过多的片段同属于一条染色体，那么该基因组序列即为疑似低可信度的基因组。即当一个基因组序列中包含的属于同一条染色体的序列片段低于预设片段阈值时，也可认为该基因组序列数据满足预设可信度条件。通过将某一基因组序列与其他所有遗传关系符合预设遗传距离阈值范围的基因组序列进行序列比对，以确定该基因组序列在其相近的基因组序列中的全序列平均覆盖百分比，当该平均覆盖百分比高于预设百分比值时，可认为该基因组满足预设可信度条件。遗传距离是指衡量物种间(或个体间)综合遗传差异大小的指标。

在一个实施例中，特异性k-mer中的k-mer满足以下两个条件：在与每个染色体对应的基因组出现次数索引表中的出现次数满足第一预设误差条件；在与每个染色体对应的基因组出现次数索引表中的出现次数，以及在全集的基因组出现次数索引表中的出现次数满足第二预设误差条件。某一染色体的基因组出现次数索引表记录了每个k-mer在对应的染色体包含的基因组中包含有该k-mer的基因组的个数；全集的基因组出现次数索引表记录了目标物种中每个染色体包含的k-mer在全集包含的基因组中包含有该k-mer的基因组的个数。

在靶点数据库中，每个染色体均有各自对应的特征靶点序列集合，在特征靶点序列集合中包含的特异性k-mer是指满足预设特异性条件的k-mer。预设特异性条件包括有第一预设误差条件及第二预设误差条件，当k-mer同时满足这两个条件时，即认为该k-mer满足预设特异性条件，可将该k-mer作为特异性k-mer。进一步地，k-mer在染色体对应的基因组出现次数索引表中的出现次数需要满足第一预设误差条件，且该k-mer在染色体对应的基因组出现次数索引表中的出现次数，以及在全集的基因组出现次数索引表中的出现次数满足第二预设误差条件。全集是指收集到的所有高可信度基因组组成的集合，高可信度基因组中既包含有各个目标物种的基因组，也包含有非目标物种的基因组，比如致病菌、共生菌、益生菌、人类、动物、植物等的高可信度基因组。

某一染色体的基因组出现次数索引表记录了每个k-mer在对应染色体对应的基因组中包含有该k-mer的基因组的个数。全集的基因组出现次数索引表中记录的每一个k-mer所对应的计数代表的是该k-mer一共在全集中多少个基因组中出现过。如果该k-mer在同一个基因组中出现过多次，也只会计数一次。在一个染色体的对应的基因组次数索引表中，记录了每个k-mer在对应的染色体对应的基因组中包含有该k-mer的基因组的个数，而全集的基因组出现次数索引表记录了在全集包含的基因组中包含有该k-mer的基因组的个数。

与现有技术不同的是，本实施例中的特异性k-mer的选取加入了一预设误差条件及第二预设误差条件这两个参数，因此允许了一定范围内的特异性k-mer的非特异性。如果没有这两个参数，就不能允许一定范围内的非特异性，那么针对一个染色体，往往很难找到特异性k-mer。所以通过允许一定误差的方式选取的特异性k-mer，从而建立的特点靶点序列集合，能够高概率地找到能够代表该染色体的特异性靶点。因此在确定待检测数据中包含的染色体时，则只需要与已经预先确定好待检测数据对应的目标物种中的各个染色体对应的特征靶点序列集合进行比对即可，减少了比较空间，从而缩短了分析时间，提高了检测的效率。

在一个实施例中，第一预设误差条件为：在与每个染色体对应的基因组出现次数索引表中的出现次数与对应染色体中包含的基因组的数量的比值与第一阈值的和大于等于1。

在本实施例中，第一预设误差条件是指，在染色体对应的基因组出现次数索引表中记录的出现次数与染色体对应的基因组数量的比值与第一阈值的和大于等于1。假设该染色体对应的基因组有N个，某一k-mer在该染色体对应的基因组出现次数索引表中的出现次数为C1，第一阈值为P1，那么第一预设误差条件是指，C1/N+P1≥1。第一阈值P1代表的是可接受的误差概率，可以是一个0到1之间的任意值，第一阈值可由技术人员根据实际项目进行设定。

在一个实施例中，第一阈值小于5％。

第一阈值是指可接受的误差概率，第一阈值可以是一个0到1之间的任意值，在本实施例中，可将第一阈值设为小于5％的值。

在一个实施例中，第二预设误差条件为：在与每个染色体对应的基因组出现次数索引表中的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。

在本实施例中，第二预设误差条件是指，在染色体对应的基因组出现次数索引表中记录的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。假设某一k-mer在该染色体对应的基因组出现次数索引表中的出现次数为C1，该k-mer在全集的基因组出现次数索引表中的出现次数为C2，第二阈值为P2，那么第二预设误差条件是指，C1/C2+P2≥1。第二阈值与上述的第一阈值一样，代表的是可接受的误差概率，可以是一个0到1之间的任意值，第二阈值P2同样可由技术人员根据实际项目进行设定。

在一个实施例中，第二阈值小于5％。

第二阈值与第一阈值一样，均是指可接受的误差概率，第二阈值也可以是一个0到1之间的任意值，在本实施例中，可将第二阈值设为小于5％的值。第一阈值与第二阈值可以是相等的，也可以是不等的。

在一个实施例中，在上述步骤102之前，还包括以下步骤：生成与每个染色体对应的基因组出现次数索引表，基因组次数索引表记录了每个k-mer在对应染色体对应的基因组中包含有该k-mer的基因组的个数；将基因组出现次数索引表存储至与染色体对应的特征靶点序列集合。

基因组是指一个生物体内所有遗传信息，这种遗传信息以核苷酸序列形式存储。一个生物体(例如一个动植物个体、或动植物细胞、或细菌个体)的一个完整单体内的遗传物质的总和即为基因组。在每个个体的完整基因组中，可以包含有多个染色体，而在每个染色体的基因组中，则可以包含有多个k-mer。此处使用了本领域内常用的“染色体的基因组”这个概念，指的是一个完整的染色体所包含的所有序列的总和。按照这个概念，在每个染色体对应的基因组出现次数索引表中记录了每个染色体包含的k-mer在该染色体对应的多少个基因组中出现过，即基因组次数索引表记录了每个k-mer在对应染色体对应的基因组中包含有该k-mer的基因组的个数。

因此在基因组次数表中实际上记录的是每个k-mer在该k-mer的染色体对应的多少个基因组中出现过。如果在同一个基因组中一个k-mer出现超过一次，那么在该基因组出现次数索引表中仍然只会计数一次。在获取到每个k-mer在该k-mer所在的染色体对应的多少个基因组中出现过的数据后，即可建立针对每个染色体对应的基因组出现次数索引表。若是一共有M个染色体，则会生成M个相对应的基因组出现次数索引表。当每个染色体对应的基因组出现次数索引表均建立后，可将基因组出现次数索引表存储至与每个染色体对应的特征靶点序列集合，即存储至靶点数据库中，存储后，若是需要用到基因组出现次数索引表即可从靶点数据库进行数据调取，进而提高了检测的效率。

在一个实施例中，在获取样本的测序数据之前，还包括：生成全集的基因组出现次数索引表，全集的基因组出现次数索引表记录了在全集包含的基因组中包含有该k-mer的基因组的个数；将全集的基因组出现次数索引表存储至靶点数据库。

在靶点数据库中，存储有每个染色体对应的特征靶点序列集合。在全集中包含有收集到的所有高可信度基因组，即在全集中既包含有多个待检测数据对应的目标物种的高可信度基因组，也包含有多个非待检测数据对应的目标物种高可信度基因组。获取到每个染色体中包含的每个k-mer在全集包含的多少个基因组中出现过的数据后，即可生成全集的基因组出现次数索引表。在全集的基因组出现次数索引表中记录了每个染色体包含的k-mer在全集的多少个基因组中出现过，即全集的基因组次数索引表记录了每个k-mer在全集包含的基因组中包含有该k-mer的基因组的个数。

因此在全集的基因组次数表中实际上记录的是每个k-mer在全集包含的多少个基因组中出现过，即记录的是在全部的基因组中，每个k-mer在多少个基因组中出现过，也就是计量数为基因组的数量，而不是k-mer的出现次数。如果在同一个基因组中一个k-mer出现超过一次，那么在该全集的基因组出现次数索引表中仍然只会计数一次。在获取到每个k-mer在全集的多少个基因组中出现过的数据后，即可建立针对全集的基因组出现次数索引表。全集的基因组出现次数索引表与各个染色体所对应的基因组出现次数索引表有所不同，某一染色体的基因组出现次数索引表是与染色体对应的，每一个染色体均有其对应的基因组出现次数索引表，但全集的基因组出现次数索引表则只会生成一个，针对的是全部的数据。将生成的全集的基因组出现次数索引表进行存储后，若是在对待检测数据进行检测的过程中需要用到，即可从靶点数据库进行数据调取，进而提高了检测的效率。

在一个实施例中，在上述步骤106之后，还包括：根据实际出现次数生成与染色体对应的特异性k-mer实际出现次数记录表。

在靶点数据库中，存储有每个染色体包含的特异性k-mer，当获取到待检测数据后，可将待检测数据与每个染色体的各个特异性k-mer进行比对，即获取每个特异性k-mer在该待检测数据中的实际出现次数。在获取到每个特异性k-mer在测序数据中的实际出现次数后，可根据获取的数据生成与每个染色体对应的特异性k-mer实际出现出现次数记录表。若是靶点数据库中一共有M个染色体，则会生成M个对应的特异性k-mer实际出现次数记录表，特异性k-mer实际出现次数记录表中记录的是每个染色体包含的特异性k-mer在测序数据中的实际出现次数。

如图13所示的某一特定染色体的特异性k-mer实际出现次数记录表，最左侧一列记录的是染色体X中包含的特异性k-mer，第二列中记录的是对应的特异性k-mer在测序数据中的实际出现次数，分别为C₁，C₂，…。根据特异性k-mer在测序数据中的实际出现次数生成对应的特异性k-mer实际出现次数记录表，将数据进行存储后以便后续调用，从而能够提高检测的效率。

在一个实施例中，如图14所示，提供了一种检测染色体拷贝数异常的方法，包括以下步骤：

步骤1402，建立每个染色体对应的特征靶点序列集合。

如图15所示，步骤1402，包括：

步骤1402A，高可信度基因组的收集与整理。

建立每个染色体对应的特征靶点序列集合时，需要先对高可信度基因组数据进行收集与整理。高可信度基因组既可以包括待检测数据对应的目标物种中的基因组，也包括不属于待检测数据对应的目标物种中的基因组。例如共生菌、益生菌、人类、动物、植物等的高可信度基因组。高可信度的基因组可以来源于NCBI的RefSeq数据集或其他公共或私有的高可信度基因组。

高可信度的基因组的确认和筛选方法可以通过以下这三种方式：

1、根据一条基因组数据中所含非确定性字符的比例进行筛选。例如对于DNA基因组来说，非确定性字符的比例是指其中含有的非ACGT字符的比例，一条DNA基因组数据如果其非ACGT字符的比例过高，那么该条数据即为疑似低可信度的基因组。对于DNA或RNA序列，非确定性字符是指除去ACGTU这几个确定性字符以外的字符；对于蛋白质序列，非确定性字符则是指除了确定的氨基酸字符以外的字符。

2、根据一条完整的染色体所包括的基因组数据片段的数目进行筛选，如果有过多的片段同属于一条染色体，那么该基因组即为疑似低可信度的基因组。

3、通过与该基因组遗传关系相近的(例如遗传距离小于某一阈值)多个基因组进行全基因组序列比对，确定该基因组在其相近基因组中的全基因组平均覆盖百分比，然后根据这个全基因组平均覆盖百分比进行筛选：平均覆盖百分比过低的基因组即为疑似低完成度、即低可信度的基因组。遗传距离是指衡量物种间(或个体间)综合遗传差异大小的指标。

步骤1402B，确定待检测数据对应的目标物种中各个染色体的高可信度序列数据集。

在步骤1402A中收集到的目标物种的基因组可能有多套，即来自于同一个目标物种的不同个体或种群的不同基因组。以人类为目标物种为例，收集到的目标物种的基因组可能包括来自欧洲裔、北美印第安裔、中国汉族裔等的基因组。因此，目标物种的每一条染色体都可能包含来自于不同基因组的属于该染色体的序列。以人类为例，人类的第一号染色体可以包括欧洲裔的第一号染色体、北美印第安裔的第一号染色体、中国汉族裔的第一号染色体。

此处，将目标物种的所有高可信度基因组的每一个相同染色体的数据整理在一起，即组成了目标物种的各个染色体的高可信度序列数据集。之后，将目标物种的所有染色体的高可信度序列数据集，和所有非目标物种的高可信度序列数据集汇集到一起，组成全集。即，将待检测数据对应的目标物种的所有染色体的高可信度序列数据集，和其他目标物种的所有染色体的高可信度序列数据集汇集到一起，即可组成全集。

在确定了待检测数据对应的目标物种后，确定出正常情况下待检测数据对应的目标物种的各个染色体的拷贝数的比例，以及区分常染色体和性染色体。如图16所示，以人为例，一个正常人的基因组中含有23对，共46条染色体。其中第1号到第22号染色体为常染色体，其拷贝数均为2。X和Y染色体为性染色体。正常男性只有一条X染色体和一条Y染色体。正常女性有两条X染色体，不含有Y染色体。拷贝数(copy number)是指某一种基因或某一段特定的DNA序列在单倍体基因组(haploid genome)中出现的数目。图16中所确定的信息仅仅在确定待检测数据对应的目标物种时制作一次，之后在对每一个需要进行检测的样本数据进行分析的时候都会调用图16中的信息。

步骤1402C，生成全集的基因组出现次数索引表。

使用全集，可生成全集的基因组出现次数索引表，在全集的基因组出现次数索引表中，记录有全集中包含的每个k-mer在全集的多少个基因组中出现过。k-mer是指长度为k的基因组序列，k可自行定义，一般可将范围设置在11到32之间。如果一种基因组数据中一共有a个不同的确定性字符，那么对于一个特定的k，一共有a的k次方个可能的不同k-mer。

例如，对于DNA基因组数据，DNA一共有ACGT四种不同的确定性字符，那么对于一个特定的k，一共有4的k次方个可能的不同k-mer。对于一个长度为n的基因组，其最多可能有n-k+1个不同的k-mer。但是因为一个基因组中含有重复区域，所以一般情况下一个n字符长的基因组中包含的不同k-mer会远远小于n-k+1。因此，若使用普通的k-mer计数法，在一个给定的基因组中，一个特定的k-mer可能会出现多次，并可能进行多次计数。在本实施例中建立的全集的基因组出现次数索引表中，与之前的方法不同的是，如果一个基因组中一个k-mer出现超过一次，那么在该全集的基因组出现次数索引表中仍然仅仅计数一次。因此，在由此产生的k-mer基因组出现次数索引表中一个k-mer所对应的计数即代表着该k-mer一共在全集中多少个基因组中出现过。

如果使用的是DNA或RNA基因组序列，因为核酸序列的反向互补性，一个k-mer A出现后，其反向互补序列A＇也应该被认定为已经出现，因此A和A＇都应该被记录到表中。在后续步骤中，如果针对的是DNA或RNA序列的k-mer，当一个k-mer A被提及做某种操作时，默认也认为其反向互补序列A＇也被提及并进行了相应的处理操作。

且，在本实施例中，可将目标基因组的每一个染色体作为一个物种来操作，即目标物种的每一条染色的高可信度数据集中含有的每一个单独的、能完整代表该染色体的序列，都被视为一个单独的基因组。例如，如果人为目标物种，人的第一号染色体的高可信度数据集可能包含三条数据，即欧洲裔的第一号染色体序列、北美印第安裔的第一号染色体序列、中国汉族裔的第一号染色体序列，那么欧洲裔的第一号染色体序列被视为一个完整的独立的基因组参与k-mer基因组出现次数索引表的计数，北美印第安裔的第一号染色体序列被视为一个完整的独立的基因组参与k-mer基因组出现次数索引表的计数，中国汉族裔的第一号染色体序列被视为一个完整的独立的基因组参与k-mer基因组出现次数索引表的计数。

步骤1402D，生成每个染色体对应的基因组出现次数索引表。

一个染色体的基因组出现次数索引表与上述步骤1402C中的全集的基因组出现次数索引表有所不同。全集的基因组出现次数索引表记录的是全集的，也就是一个k-mer在全集的多少个基因组中出现过，但染色体对应的基因组出现次数索引表是与每个染色体对应的，记录的是每个染色体中包含的k-mer，在该染色体对应的多少个基因组中出现过。

步骤1402E，生成每个染色体对应的特异性k-mer表。

每个染色体对应的特异性k-mer表中记录的是每个染色体中满足预设特异性条件的k-mer，即特异性k-mer。特异性k-mer是从k-mer中挑选出的符合预设特异性条件的k-mer，挑选出成为特异性k-mer的需要满足以下两个条件：

1、如果该染色体的高可信度数据集中含有N个基因组，某个k-mer在该染色体对应的基因组出现次数索引表中的出现次数为C₁。那么需要满足条件：C₁/N+P₁≥1，即在染色体对应的基因组出现次数索引表中的出现次数与染色体的高可信度数据集中包含的基因组数量的比值与第一阈值的和大于等于1，其中第一阈值P₁通常小于5％。

2、如果某个k-mer在该染色体对应的基因组出现次数索引表中的出现次数为C₁，该k-mer在全集的基因组出现次数索引表中的出现次数为C₂。那么则需要满足条件：C₁/C₂+P₂≥1，即在染色体对应的基因组出现次数索引表中的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。其中第二阈值P₂通常小于5％。

第一阈值P₁与第二阈值P₂可以相等，也可以不相等。在本实施例中，选取特异性k-mer时加入了第一阈值P₁与第二阈值P₂这两个参数，允许了在一定范围内的误差率，即允许了一定范围内的特异性k-mer的非特异性。如果没有这两个参数，则不能允许一定范围内的非特异性，那么针对某一个染色体，往往很难找到特异性k-mer。

对于一个染色体，如果发现有n个特异性k-mer，假设本步骤条件(1)中的P₁出现情况是随机分布于该染色体对应的各个基因组中的，那么实际上对于该染色体出现假阴性的概率则小于或等于P₁ ⁿ。对于足够大的n，此处可能出现的假阴性的可能性将极小。同时，如果最终实际检测到该染色体有n＇个特异性k-mer，假设本步骤条件(2)中的P₂出现情况是随机分布于非本染色体的各个其他基因组中的，那么实际上对于该染色体出现假阳性的概率则小于或等于P₁ ^n'(即P₂的n＇次方)。对于足够大的n＇，此处可能出现的假阳性的可能性将极小。假阴性率是指在测试中产生阴性测试结果的阳性的比例，即考虑到正在查找的状况存在阴性测试结果的条件概率。

因此，在计算假阳性概率时，可以对k-mer进行独立性修正。对于任意两个在特异性k-mer列表中的k-mer A和B，如果它们之间的有不少于j个字符在它们的末端重合(例如A的最末端的j个字符与B的最开始的j个字符完全一样)，那么这两个k-mer A和B就被认为是末端重合的。此处的j一般是一个大于5小于等于k-1的数值，即5＜j≤(k-1)。此处应注意在DNA或RNA序列的情况下，因为核酸序列的反向互补性，对于给定的两个特异性k-mer列表中的k-mer A和B，末端重合检测应该包括A与B，A的反相互补序列A’与B，A与B的反相互补序列B’，以及A的反相互补序列A’与B的反相互补序列B’。

将特异性k-mer列表中的所有k-mer复制到一个初始状态下的非重合特异性区域列表中，如果确认在该非重合特异性区域列表中的k-mer A和B是末端重合的，那么取能覆盖该两个特异性k-mer的最小区域(即特异性区域)C来代替这两个特异性k-mer。以此类推，重复检验整个非重合特异性区域列表每两个特异性k-mer或特异性区域的末端重合性，用能覆盖该两个特异性k-mer或特异性区域的最小区域来代替这两个特异性k-mer或特异性区域，直到没有满足条件的末端重合的特异性k-mer或特异性区域。完成该步骤后的所有保留下来的特异性k-mer或特异性区域组成最终的非重合特异性区域列表，即该表在最终状态下保留的每一个特异性k-mer或特异性区域为一个非重合特异性区域。对于假阳性和假阴性的计算，属于同一个非重合特异性区域的多个k-mer仅仅计算一次P1或P2的值。如果目标物种中有M条染色体，那么此处就会建立M个与之相对应的染色体的特异性k-mer表。

步骤1402F，生成每个染色体对应的特异性k-mer拷贝数列表。

针对待检测数据对应的目标物种中包含的每一个染色体的高可信度数据集，计算出筛选出的每一个特异性k-mer所出现的次数，即一个特异性k-mer在这个染色体的高可信度数据集的所有基因组里实际出现多少次，就记录多少次。最后，通过该染色体的所有特异性k-mer中出现次数最少的一个k-mer的出现次数，即Cm，记算出该染色体的每一个特异性k-mer的拷贝数。如果目标物种一共有M个染色体，那么此处就会建立M个与之相对应的染色体的特异性k-mer拷贝数列表。其中特异性k-mer的拷贝数为一个大于或等于1的数值。

在生成所有染色体的各自的特异性k-mer拷贝数列表后，如果有任意两个来自于不同染色体上的特异性k-merA和k-merB，它们在一套正常目标物种的数据中出现次数为Ca和Cb，且Fa和Fb分别为k-merA和k-merB在其各自染色体的特异性k-mer拷贝数列表中的数值，那么Ca/Fa和Cb/Fb的比值应为表16中的这两条染色体拷贝数的比值。

可将创建每个染色体对应的特征靶点序列集合的过程统称为模块A。模块A可以不定时的运行，以便不断的更新每个染色体对应的特征靶点序列集合，即更新靶点数据库。例如每当参考基因组数据有所更新的时候，可以运行模块A。但模块A并不需要在对每一个实际样本进行分析的时候运行或更新。

步骤1404，计算待检测数据对应的目标样本中包含的各个染色体的实际信号强度。

如图17所示，步骤1404，包括：

步骤1404A，获取待检测数据。

步骤1404B，获取特异性k-mer列表和特异性k-mer拷贝数列表。

步骤1404C，获取每个染色体中包含的特异性k-mer在待检测数据中的实际出现次数。

获取到待检测数据，并确定待检测数据对应的目标物种。调用步骤1402中生成的目标物种中各个染色体的特异性k-mer列表和特异性k-mer拷贝数列表。如果待检测数据对应的目标物种中一共有M个染色体，那么一共需要调用M个与每条染色体相对应的特异性k-mer列表和特异性k-mer拷贝数列表。再获取到目标物种中每个染色体中包含的特异性k-mer在待检测数据中的实际出现次数。可分别将特异性k-mer的出现次数记录到与其相对应的染色体的特异性k-mer实际出现次数记录表中的相应位置。即根据每个染色体中包含的特异性k-mer在待检测数据中的实际出现次数生成与染色体对应的特异性k-mer实际出现次数记录表。

步骤1404D，计算每个染色体的单拷贝信号强度E。

如图18所示的某一特定染色体的单拷贝信号强度计算表。对于某一个特定的染色体，根据特异性k-mer拷贝数列表中的数据和特异性k-mer实际出现次数记录表中的数据，可以获得任意一个属于这个特定染色体的特异性k-mer的在该套数据中的实际出现次数C'_i和拷贝数F_i。因此可以计算出该k-mer调整后的出现次数C'_i/F_i。将该染色体所有特异性k-mer的调整后的出现次数求平均值，该平均值即为该染色体的单拷贝信号强度E。

在计算得到每一个染色体的单拷贝信号强度E后，可通过如图19所示的各个染色体的单拷贝信号强度记录表，将目标物种中包含的每个染色体的单拷贝信号强度E进行记录存储。

步骤1404E，计算每个染色体的实际信号强度S。

在计算得到每个染色体的单拷贝信号强度E后，可计算出全部的单拷贝信号强度E的平均值M和方差SD。每个染色体的实际信号强度S的计算公式为：S_i＝(E_i-M)/SD。如图20所示的各个染色体的实际信号强度的计算表。一号染色体的计算公式为：S₁＝(E₁-M)/SD。其他染色体的计算公式也以此方式进行计算。

步骤1406，根据标准检测样本计算得到目标物种中包含的染色体对应的标准置信区间列表。

获取到大量标准检测样本后，可采用步骤1404中的方式计算每个标准检测样本中包含的各个染色体的实际信号强度。为了区分目标物种与标准检测样本，将标准检测样本的实际信号强度称为标准信号强度。通过步骤1404中的方式，可计算得到每个标准检测样本中包含的每个染色体的标准信号强度。可通过表格的方式记录全部的标准检测样本中包含的染色体对应的标准信号强度。进一步的，可区分性别的记录。即生成正常男性样本中染色体的标准信号强度记录表和正常女性样本中染色体的标准信号强度记录表。

对所有标准检测样本中包含的每个染色体的标准信号强度进行统计，计算出各个染色体的各个标准检测样本的标准信号强度分布的均值M’和方差SD’。假设标准检测样本为人类，有100个标准检测样本，那么则存在有100个1号染色体，100个2号染色体，…，100个22号染色。但是X和Y性染色体的具体数目则需要根据这100个人的性别确定，因此为了能达到X和Y性染色体的数量要求，对某一性别的标准检测样本的数目也应该有要求。那么对于1号染色体而言，存在有100个标准信号强度。可以根据这100个1号染色体对应的标准信号强度计算得到1号染色体的所对应的均值和方差，同样地，也计算得到其他染色体的标准信号强度的均值和方差。

从而可确定标准检测样本中包含的每个染色体在预设置信度值时对应的标准置信区间，也就是标准信号强度的区间。即获得置信度为P的置信区间的两个边界值LB和UB。LB为置信区间的最小值，UB为置信区间的最大值。此处P一般是大于0.95的数值，无限接近于1但不会等于1。在实际应用中可以根据需要对置信度进行调节。例如95％的置信度，P即为0.95，而99.9％的置信度，P即为0.999。在确定标准检测样本中每个染色体在预设置信度值时对应的标准置信区间后，即可得到目标物种的两个性别对应的染色体的实际信号强度的P置信度边界值的分布表。也就是说，可根据统计学的方式，通过对大量标准检测样本数据的染色体的标准信号强度的计算统计，可估算得到目标物种的各个染色体在预设置信度P值时对应的标准置信区间。即估算得到目标物种的在正常样本中各个染色体在预设置信度P值时对应的实际信号强度区间。

在无创产检(NIPT)的应用场景下，即通过对母体外周血中胎儿的DNA进行测序来推断胎儿的染色体拷贝数异常的情况时，因为母体外周血中胎儿的样本是与母体的样本混杂在一起的，所以上述标准检测样本也可以为：正常母亲怀有正常婴儿的外周血样本，所述外周血样本包括有正常母亲怀有正常男婴的外周血样本、正常母亲怀有正常女婴的外周血样本、正常母亲怀有正常男婴双胞胎的外周血样本、正常母亲怀有正常女婴双胞胎的外周血样本以及正常母亲怀有正常一男一女双胞胎的外周血样本。因此，在制作P置信度边界值的分布表时，也可以根据标准检测样本的不同进行表格的调整。

步骤1408，检测待检测数据中是否存在有拷贝数异常的染色体。

计算出待检测数据对应的目标物种中包含的每个染色体的实际信号强度后，可将每个染色体的实际信号强度与上述步骤1406中得到的目标物种的各个染色体在预设置信度P值时对应的标准置信区间分别进行比较。也就是说，将待检测数据对应的目标物种中包含的1号染色体的实际信号强度与1号染色体的标准置信区间进行比较。当1号染色体的实际信号强度不在1号染色体的标准置信区间内时，则可判定1号染色体是存在拷贝数异常的。反之，则可判定1号染色体是不存在拷贝数异常的。

进一步的，由于步骤1406中，是根据目标物种的不同性别建立了对应的样本中染色体的标准信号强度的预设置信度值P的分布表。因此也可将性染色体的实际信号强度与不同性别对应的预设置信度值P的分布表进行比较。具体地，使用该待测数据中计算出的X染色体的实际信号强度和Y染色体的实际信号强度，与不同性别对应的预设置信度值P的分布表中置信区间的边界值进行比较。如果该待检测数据中计算出的X染色体的实际信号强度和Y染色体的实际信号强度在正常男性样本中染色体的标准信号强度的预设置信度值P的分布表中，那么该待测数据对应的性别为男性。如果该待检测数据中计算出的X染色体的实际信号强度和Y染色体的实际信号强度在正常女性样本中染色体的标准信号强度的预设置信度值P的分布表中，那么该待测数据对应的性别为女性。如果既不在正常男性样本中染色体的标准信号强度的预设置信度值P的分布表中也不在正常女性样本中染色体的标准信号强度的预设置信度值P的分布表中的置信区间中，那么可判定为该染色体存在潜在的性染色体拷贝数异常的情况。

根据上述方式确定待检测数据对应的性别后，分别将该待检测数据中的各个染色体的实际信号强度与预设置信度值P的分布表中的各个相对应的染色体的置信区间进行比较。具体与哪个性别对应的预设置信度值P的分布表进行比较，取决于待检测数据对应的性别。如果检测到某一染色体的实际信号强度不在预设置信度值P的分布表中的置信区间内，那么则判定该染色体存在潜在的拷贝数异常的情况。此处可通过加大预设置信度值P来减小假阳性的概率。但是增大P就会增大假阴性的概率。

在本实施例中，通过确定待检测数据对应的目标物种，并获取到目标物种中的每个染色体对应的特异性k-mer后，根据特异性k-mer在待检测数据中的实际出现次数以及每个特异性k-mer的拷贝数，以此计算出每个染色体对应的实际信号强度。从而可将每个染色体的实际信号强度与对应染色体的标准置信区间进行比较，将不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。这种检测染色体拷贝数异常的方法，通过与目标物种的各个染色体中的特征靶点序列，即特异性k-mer进行比较，而特异性k-mer属于整个目标物种基因组的一部分，因此与特异性k-mer进行对比则能够减少比较空间，从而缩短了分析时间，提高了检测的效率。且本实施例中产生的目标物种的各个染色体的特征靶点是综合了目标物种中不同个体或种群的多个基因组，因此避免了“当某一套数据是来自与参考基因组的遗传关系相距较远的个体，使用全基因组比对的效果变差”的问题。在建立目标物种的各个染色体的特征靶点库的过程中包括了目标物种中不同个体或种群的多个基因组，比单一的参考基因组更有普遍适用性。并且在对一套待检测数据分析的过程中，仅仅将数据与特征靶点库内的序列相比对，大大节省了比对的空间和时间消耗。

应该理解的是，虽然图1-图20的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各个图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图21所示，提供了一种检测染色体拷贝数异常的装置，包括：

特异性k-mer获取模块2102，用于获取待检测的样本的测序数据作为待检测数据，确定待检测数据对应的目标物种；获取靶点数据库中存储的目标物种包含的每个染色体对应的特异性k-mer，特异性k-mer为每个染色体中的满足预设特异性条件的k-mer，k-mer是指长度为k的基因组序列。

实际出现次数获取模块2104，用于获取每个染色体中包含的特异性k-mer在待检测数据中的实际出现次数。

拷贝数获取模块2106，用于从靶点数据库中获取到每个特异性k-mer的拷贝数，拷贝数是特异性k-mer在对应的染色体中的出现次数与该染色体上出现次数最少的特异性k-mer的出现次数的比值。

判定模块2108，用于根据每个特异性k-mer的实际出现次数和拷贝数计算得到对应的染色体的实际信号强度；将实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体。

在一个实施例中，判定模块2108还用于计算每个特异性k-mer的实际出现次数与拷贝数的比值；计算每个染色体包含的所有特异性k-mer的实际出现次数与拷贝数的比值的均值，作为对应的染色体的单拷贝信号强度；根据每个染色体的单拷贝信号强度计算得到对应的染色体的实际信号强度。

在一个实施例中，上述检测染色体拷贝数异常的装置还包括标准置信区间列表计算模块(图中未示出)，用于获取预设数量的标准检测样本，标准检测样本是确认为无染色体拷贝数异常的样本；获取标准检测样本中每个染色体包含的特异性k-mer在待检测数据中的实际出现次数；从靶点数据库中获取到标准检测样本中包含的每个染色体中每个特异性k-mer的拷贝数；根据标准检测样本中包含的每个特异性k-mer的实际出现次数和拷贝数得到对应的染色体的标准信号强度；根据多个标准检测样本中的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；根据每个染色体对应的标准置信区间，获得目标物种中包含的染色体对应的标准置信区间列表。

在一个实施例中，上述标准置信区间列表计算模块还用于获取每个标准检测样本包含的每个染色体的标准信号强度；根据标准检测样本的性别分别计算所有标准检测样本中包含的染色体的标准信号强度的均值和方差；根据每个染色体在相应性别的多个标准检测样本中的标准信号强度的均值和方差，确定每个性别对应的标准检测样本中包含的染色体在预设置信度值时对应的标准置信区间。

在一个实施例中，标准检测样本为正常母亲怀有正常婴儿的外周血样本，外周血样本包括有正常母亲怀有正常男婴的外周血样本、正常母亲怀有正常女婴的外周血样本、正常母亲怀有正常男婴双胞胎的外周血样本、正常母亲怀有正常女婴双胞胎的外周血样本以及正常母亲怀有正常一男一女双胞胎的外周血样本。上述标准置信区间列表计算模块还用于根据正常母亲怀有正常男婴的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；根据正常母亲怀有正常女婴的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；根据正常母亲怀有正常男婴双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；根据正常母亲怀有正常女婴双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；根据正常母亲怀有正常一男一女双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

在一个实施例中，上述判定模块2108还用于当检测到存在有染色体对应的实际信号强度不属于与对应染色体的标准置信区间时，则将与实际信号强度对应的染色体判定为存在拷贝数异常的染色体。

在一个实施例中，上述检测染色体拷贝数异常的装置还包括性别划分比较模块(图中未示出)，用于根据目标物种的性别，确定每个性别对应染色体的标准置信区间列表；分别将每个染色体的实际信号强度与目标物种的对应性别的标准置信区间列表中的相对应的染色体所对应的标准置信区间进行比较；当检测到存在有染色体的实际信号强度不属于对应性别的对应染色体的标准置信区间时，则将与实际信号强度对应的染色体判定为存在拷贝数异常的染色体。

在一个实施例中，上述检测染色体拷贝数异常的装置还包括靶点序列建立模块(图中未示出)，用于获取靶点数据库中存储的目标物种包含的每个染色体中包含的特异性k-mer在对应染色体中的出现次数C，以及该染色体中的出现次数最少的特异性k-mer对应的出现次数作为最小出现次数Cm；将出现次数C与最小出现次数Cm的比值作为特异性k-mer的拷贝数；根据每个染色体中包含的特异性k-mer的拷贝数生成与每个染色体对应的特异性k-mer拷贝数列表；将特异性k-mer拷贝数列表存储至靶点数据库。

在一个实施例中，上述靶点序列建立模块还用于获取目标物种中包含的多个染色体；对目标物种中包含的多个染色体进行分类整理；获取预先选取的满足预设可信度条件的高可信度基因组；确定目标物种包含的各个染色体对应的高可信度基因组。

在一个实施例中，特异性k-mer中的k-mer满足以下两个条件：在与每个染色体对应的基因组出现次数索引表中的出现次数满足第一预设误差条件；在与每个染色体对应的基因组出现次数索引表中的出现次数，以及在全集的基因组出现次数索引表中的出现次数满足第二预设误差条件；基因组出现次数索引表记录了每个k-mer在染色体对应的基因组中包含有该k-mer的基因组的个数；全集的基因组出现次数索引表记录了目标物种中每个染色体包含的k-mer在全集包含的基因组中包含有该k-mer的基因组的个数。

在一个实施例中，第一阈值小于5％。

在一个实施例中，第二阈值小于5％。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图22所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储检测染色体拷贝数异常的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种检测染色体拷贝数异常的方法。

本领域技术人员可以理解，图22中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请任意一个实施例中提供的检测染色体拷贝数异常的方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的检测染色体拷贝数异常的方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种检测染色体拷贝数异常的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每个特异性k-mer的实际出现次数和拷贝数计算得到对应的染色体的实际信号强度，包括：

计算每个特异性k-mer的实际出现次数与拷贝数的比值；

计算每个染色体包含的所有特异性k-mer的所述比值的均值，作为对应的染色体的单拷贝信号强度；

根据每个染色体的单拷贝信号强度计算得到对应的染色体的实际信号强度。

3.根据权利要求2所述的方法，其特征在于，根据如下公式计算得到对应的染色体的实际信号强度：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取预设数量的标准检测样本，所述标准检测样本是确认为无染色体拷贝数异常的样本；

获取所述标准检测样本中每个染色体包含的特异性k-mer在所述待检测数据中的实际出现次数；

从靶点数据库中获取到所述标准检测样本中包含的每个染色体中每个特异性k-mer的拷贝数；

根据所述标准检测样本中包含的每个特异性k-mer的实际出现次数和拷贝数得到对应的染色体的标准信号强度；

根据多个标准检测样本中的每个染色体的标准信号强度确定所述染色体在预设置信度值时对应的标准置信区间；

根据每个染色体对应的标准置信区间，获得所述目标物种中包含的染色体对应的标准置信区间列表。

5.根据权利要求4所述的方法，其特征在于，所述根据多个标准检测样本中的每个染色体的标准信号强度确定所述染色体在预设置信度值时对应的标准置信区间，包括：

获取每个所述标准检测样本包含的每个染色体的标准信号强度；

根据所述标准检测样本的性别分别计算所有标准检测样本中包含的染色体的标准信号强度的均值和方差；

根据每个染色体在相应性别的多个标准检测样本中的标准信号强度的均值和方差，确定每个性别对应的标准检测样本中包含的染色体在所述预设置信度值时对应的标准置信区间。

6.根据权利要求4所述的方法，其特征在于，所述标准检测样本为正常母亲怀有正常婴儿的外周血样本，所述外周血样本包括有正常母亲怀有正常男婴的外周血样本、正常母亲怀有正常女婴的外周血样本、正常母亲怀有正常男婴双胞胎的外周血样本、正常母亲怀有正常女婴双胞胎的外周血样本以及正常母亲怀有正常一男一女双胞胎的外周血样本；

所述根据多个标准检测样本中的每个染色体的标准信号强度确定所述染色体在预设置信度值时对应的标准置信区间，包括：

根据所述正常母亲怀有正常男婴的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；

根据所述正常母亲怀有正常女婴的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；

根据所述正常母亲怀有正常男婴双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；

根据所述正常母亲怀有正常女婴双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间；

根据所述正常母亲怀有正常一男一女双胞胎的外周血样本中包含的每个染色体的标准信号强度确定染色体在预设置信度值时对应的标准置信区间。

7.根据权利要求1所述的方法，其特征在于，所述将所述实际信号强度不在对应染色体的标准置信区间内的染色体判定为存在拷贝数异常的染色体，包括：

当检测到存在有染色体对应的实际信号强度不属于对应染色体的标准置信区间时，则将与所述实际信号强度对应的染色体判定为存在拷贝数异常的染色体。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标物种的性别，确定每个性别对应染色体的标准置信区间列表；

获取待检测样本的性别；

分别将每个染色体的实际信号强度与所述目标物种的对应性别的标准置信区间列表中的相对应的染色体所对应的标准置信区间进行比较；

当检测到存在有染色体的实际信号强度不属于对应性别的对应染色体的标准置信区间时，则将与所述实际信号强度对应的染色体判定为存在拷贝数异常的染色体。

9.根据权利要求1所述的方法，其特征在于，在所述获取待检测的样本的测序数据作为待检测数据之前，还包括：

获取靶点数据库中存储的目标物种包含的每个染色体中包含的特异性k-mer在对应染色体中的出现次数C，以及该染色体中的出现次数最少的特异性k-mer对应的出现次数作为最小出现次数Cm；

将所述出现次数C与最小出现次数Cm的比值作为特异性k-mer的拷贝数；

根据每个染色体中包含的特异性k-mer的拷贝数生成与每个染色体对应的特异性k-mer拷贝数列表；

将所述特异性k-mer拷贝数列表存储至所述靶点数据库；

所述从所述靶点数据库中获取到每个特异性k-mer的拷贝数，包括：根据所述特异性k-mer拷贝数列表获取到每个特异性k-mer的拷贝数。

10.根据权利要求1所述的方法，其特征在于，在获取待检测的样本的测序数据作为待检测数据之前，还包括：

获取目标物种中包含的多个染色体；

对所述目标物种中包含的多个染色体进行分类整理；

获取预先选取的满足预设可信度条件的高可信度基因组；

确定所述目标物种包含的各个染色体对应的高可信度基因组。

11.根据权利要求10所述的方法，其特征在于，所述满足预设可信度条件包括以下任意一种：染色体序列中包含的非确定性字符的比例低于预设比例阈值时；

染色体序列中包含的属于同一条染色体的序列片段低于预设片段阈值时；

将某一染色体序列与其他所有遗传关系符合预设遗传距离阈值范围的染色体序列进行序列比对，确定该染色体序列在其相近的染色体序列中的全序列平均覆盖百分比，当该平均覆盖百分比高于预设百分比值时。

12.根据权利要求1所述的方法，其特征在于，特异性k-mer中的k-mer满足以下两个条件：

在与每个染色体对应的基因组出现次数索引表中的出现次数满足第一预设误差条件；在与每个染色体对应的基因组出现次数索引表中的出现次数，以及在全集的基因组出现次数索引表中的出现次数满足第二预设误差条件；

所述基因组出现次数索引表记录了每个k-mer在染色体对应的基因组中包含有该k-mer的基因组的个数；所述全集的基因组出现次数索引表记录了所述目标物种中每个染色体包含的k-mer在全集包含的基因组中包含有该k-mer的基因组的个数。

13.根据权利要求12所述的方法，其特征在于，第一预设误差条件为：在与每个染色体对应的基因组出现次数索引表中的出现次数与对应染色体中包含的基因组的数量的比值与第一阈值的和大于等于1。

14.根据权利要求13所述的方法，其特征在于，所述第一阈值小于5％。

15.根据权利要求12所述的方法，其特征在于，所述第二预设误差条件为：在与每个染色体对应的基因组出现次数索引表中的出现次数与在全集的基因组出现次数索引表中的出现次数的比值与第二阈值的和大于等于1。

16.根据权利要求15所述的方法，其特征在于，所述第二阈值小于5％。

17.一种检测染色体拷贝数异常的装置，其特征在于，所述装置包括：

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述方法的步骤。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。