CN109979529A

CN109979529A - Cnv检测装置

Info

Publication number: CN109979529A
Application number: CN201811623637.0A
Authority: CN
Inventors: 王云峰; 杜洋; 玄兆伶; 李大为; 梁峻彬; 陈重建
Original assignee: ANNOROAD GENETIC TECHNOLOGY (BEIJING) Co Ltd
Current assignee: Anouta gene technology (Beijing) Co.,Ltd.; BEIJING ANNOROAD MEDICAL LABORATORY Co.,Ltd.
Priority date: 2017-12-28
Filing date: 2018-12-28
Publication date: 2019-07-05
Anticipated expiration: 2038-12-28
Also published as: CN112365927A; CN112365927B; CN109979529B

Abstract

本发明涉及一种拷贝数变异检测装置，其包括：测序数据获取模块；分窗口片段化模块；基于reads数检测CNV的模块；基于unique reads数检测CNV的模块；以及模型结果汇总模块。

Description

CNV检测装置

技术领域

本发明涉及一种无创CNV检测装置，以及利用该无创CNV检测装置无创检测CNV的方法。

背景技术

基因拷贝数变异(Copy number variations,以下简称为CNV)是一类在临床上非常重要的结构变异，多数微缺失或微重复具有多态性，但也有部分缺失重复具有致病或致死性。因此在胎儿出生前识别具有致病致死性的CNV，并进行早期干预，可以降低新生儿缺陷。

现阶段无创产前基因检测(以下简称为NIPT筛查)基于新一代测序平台(NGS平台)对母体外周血进行测序分析，通过分析手段过滤系统噪音并增加胎儿信号，从而实现对染色体非整倍性进行检测。无创CNV则是基于NIPT将染色体窗口化，并对每一个窗口独立进行信号放大和显著性校验。

由于测序数据中大部分信号来自母亲，因此当存在母源CNV或胎盘嵌合时，胎儿信号容易被掩盖。另一方面，当实验体系不稳定时，GC偏移或系统噪音的干扰容易导致结果判断失准，出现假阳性或假阴性结果。胎儿浓度同样是影响结果判断的重要变量，浓度越高，结果置信度越高。

发明内容

鉴于上述现有技术中存在的不足，本发明的目的在于提供一种对CNV的检测灵敏度更高的检测装置及检测方法。

具体来说，本发明的目的是通过以下技术方案予以实现。

1.一种拷贝数变异检测装置，其包括：

测序数据获取模块，该模块基于获取的母体外周血游离DNA进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据；

分窗口片段化模块，该模块用于将所述测序数据比对到参考基因组序列，并将所述测序数据切割为等长的窗口，并使每两个相邻窗口之间存在交集，统计每个窗口的包括read、unique read(UR)、Mapability、genomic GC和/或unique reads GC的窗口参数；

基于reads数检测CNV的模块，该模块基于所述每个窗口计算Z值，计算CNV概率，以及用CNV概率估测胎儿浓度，从而判断待测样本是否被怀疑为阳性CNV，并排除母源性CNV的干扰；

基于unique reads数检测CNV的模块，根据检测分辨率规定滑动步长m，该模块基于相邻m个窗口计算平均reads(Mr)和平均GC(Mgc)，并构建窗口特异性线性回归模型，从而判断待测样本是否被怀疑为CNV；

模型结果汇总模块，该模块基于上述两个检测CNV的模块的输出结果进行比较分析输出最终结果。

2.根据项1所述的检测装置，其中，所述基于reads数检测CNV的模块包括如下子模块：

数据预处理和标准化模块，该模块用于对所述reads进行GC校正以消除文库间差异；以及在进行GC校正后进行均一化校正从而使得所有所述待测样本和背景库样本之间具有可比性；

Z检验放大信号模块，该模块利用背景库样本计算每个窗口的均值和方差，并通过Z检验计算每个窗口的Z值；

染色体切片模块，该模块利用连续性的窗口Z值对染色体进行切片处理，将状态相似的连续性窗口合并为一个待测区间，并判断该区间的包括dup、del、normal的属性；

计算Z值置信区间的模块，该模块针对所述染色体切片模块合并的每个待测区间，计算背景库样本相同区间内存在的连续窗口的Z值的中值，根据中值分布的均值和方差计算设定置信区间范围，并判断所述待测区间是否落入所述置信区间，将没有落入该置信区间的区间判断为潜在CNV区间；

计算CNV概率的模块，该模块针对所述潜在CNV区间，在背景库样本相同区间计算该区间内窗口的reads的加和，获得概率密度分布，并根据待测CNV区间的reads，计算显著性概率，并对该显著性概率进行负对数转换并和给定的阈值进行比较；

计算CNV浓度的模块，该模块针对所述潜在CNV区间，利用背景库样本相同区间的UR和真实GC进行拟合，确定该潜在CNV区间的UR、GC，并利用潜在CNV区间的UR、GC计算CNV浓度，并根据该计算的CNV浓度与胎儿真实浓度的比较来判断待测样本是否被怀疑为母源性CNV或胎盘嵌合。

3.根据项1或2所述的检测装置，其中，所述基于unique reads数检测CNV的模块包括如下子模块：

MiniModel构建模块，该模块进行消除不同文库间数据量的差异的预处理，在预处理之后，根据分辨率规定步长m，每相邻m个窗口合并为一个单元计算平均reads(Mr)和平均GC(Mgc)，并利用背景库样本计算相同区间的Mr’和Mgc’分布，并对Mr’和Mgc’进行拟合，根据待测值Mr和Mgc对应的理论值计算残差，根据残差判断窗口的包括dup、del、normal的属性，根据Mr’和Mgc’的相关性R、Mgc、以及背景数据Mr’的标准差sd计算权重，判断置信度；

染色体分段切片模块，该模块利用给定模型或算法识别来自两个不同均值的正态分布且存在显著差异的相邻区域，从而对染色体进行分段切片处理，识别CNV边界位置；

显著性评估模块，该模块针对所述切片区间，从待测样本的染色体其他区域随机抽取相同数量的窗口值，重复该过程从而确定在背景分布中真实值的显著性。

4.根据项3所述的检测装置，其中，在MiniModel构建模块中，根据待测值Mr和Mgc对应的理论值计算残差并判断置信度还包括：

针对所述每个单元，计算所有背景库样本Mr’的标准差、Mr’与Mgc’的Pearson相关系数，待测样本Mgc在背景库样本Mgc’上分布的分位数，并整合所述标准差、相关系数以及分位数来计算权重，从而判断置信度。

5.根据项1～4中任一项所述的检测装置，其中，在所述模型结果汇总模块中，如果所述待测样本存在基于reads数和Z值检测CNV的模块和基于UR数和均值检测CNV的模块所述两个模块的输出结果中均报告为目标CNV区间的部分，且在判断目标CNV区间的重合率超过设定阈值时，报告该重合区域作为CNV，如果针对待测区间在上述两个模块中的结果不一致，则输出为假阳性的结果。

6.根据项3～5中任一项所述的检测装置，在显著性评估模块中，所述过程重复10000次。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序用于执行以下步骤：

测序数据获取步骤，基于获取的母体外周血游离DNA进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据；

分窗口片段化步骤，用于将所述测序数据比对到参考基因组序列，并将所述测序数据切割为等长的窗口，并使每两个相邻窗口之间存在交集，统计每个窗口的包括read、unique read(UR)、Mapability、genomic GC和/或unique reads GC的窗口参数；

基于reads数检测CNV的步骤，基于所述每个窗口计算Z值，计算CNV概率，以及用CNV概率估测胎儿浓度，从而判断待测样本是否被怀疑为阳性CNV，并排除母源性CNV的干扰；

基于unique reads数检测CNV的步骤，根据分辨率规定滑动窗口长度m，基于相邻m个窗口计算平均reads(Mr)和平均GC(Mgc)，并构建窗口特异性线性回归模型，从而判断待测样本是否被怀疑为CNV；

模型结果汇总步骤，基于上述两个检测CNV的模块的输出结果进行比较分析输出最终结果。

8.根据项7所述的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序还用于执行以下步骤：

数据预处理和标准化步骤，该步骤用于对所述reads进行GC校正以消除文库间差异；以及在进行GC校正后进行均一化校正从而使得所有所述待测样本和背景库样本之间具有可比性；

Z检验放大信号步骤，该步骤利用背景库样本计算每个窗口的均值和方差，并通过Z检验计算每个窗口的Z值；

染色体切片步骤，该步骤利用连续性的窗口Z值对染色体进行切片处理，将状态相似的连续性窗口合并为一个待测区间，并判断该区间的包括dup、del、normal的属性；

计算Z值置信区间的步骤，该步骤针对所述染色体切片模块合并的每个待测区间，计算背景库样本相同区间内存在的连续窗口的Z值的中值，根据中值分布的均值和方差计算95％置信区间范围，并判断所述待测区间是否落入所述置信区间，将没有落入该置信区间的区间判断为潜在CNV区间；

计算CNV概率的步骤，该步骤针对所述潜在CNV区间，在背景库样本相同区间计算该区间内窗口的reads的加和，获得概率密度分布，并根据待测CNV区间的reads，计算显著性概率，并对该显著性概率进行负对数转换并和给定的阈值进行比较；

计算CNV浓度的步骤，该步骤针对所述潜在CNV区间，利用背景库样本相同区间的UR和真实GC进行拟合，确定该潜在CNV区间的UR、GC，并利用潜在CNV区间的UR、GC计算CNV浓度，并根据该计算的CNV浓度与胎儿真实浓度的比较来判断待测样本是否被怀疑为母源性CNV或胎盘嵌合。

9.根据项7所述的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序还用于执行以下步骤：

MiniModel构建步骤，该步骤进行消除不同文库间数据量的差异的预处理，在预处理之后，根据分辨率规定滑动窗口长度m，每相邻m个窗口合并为一个单元计算平均reads(Mr)和平均GC(Mgc)，并利用背景库样本计算相同区间的Mr’和Mgc’分布，并对Mr’和Mgc’进行拟合，根据待测值Mr和Mgc对应的理论值计算残差，根据残差判断窗口的包括dup、del、normal的属性，根据Mr’和Mgc’的相关性R、Mgc、以及背景数据Mr’的标准差sd计算权重，判断置信度；

染色体分段切片步骤，该步骤利用给定模型或算法识别来自两个不同均值的正态分布且存在显著差异的相邻区域，从而对染色体进行分段切片处理，识别CNV边界位置；

显著性评估步骤，该步骤针对所述切片区间，从待测样本的染色体其他区域随机抽取相同数量的窗口值，重复该过程从而确定在背景分布中真实值的显著性。

10.根据项7所述的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序还用于执行以下步骤：

如果所述待测样本存在基于reads数和Z值检测CNV的模块和基于UR数和均值检测CNV的模块所述两个模块的输出结果中均报告为目标CNV区间的部分，且在判断目标CNV区间的重合率超过设定阈值时，报告该重合区域作为CNV，如果针对待测区间在上述两个模块中的结果不一致，则输出为假阳性的结果。

11.一种拷贝数变异检测方法，其包括如下步骤：

分窗口片段化步骤，将所述测序数据比对到参考基因组序列，并将所述测序数据切割为等长的窗口，并使每两个相邻窗口之间存在交集，统计每个窗口的包括read、uniqueread(UR)、Mapability、genomic GC和/或unique reads GC的窗口参数；

基于reads数检测CNV的步骤，在该步骤中，基于所述每个窗口计算Z值，计算CNV概率，以及用CNV概率估测胎儿浓度，从而判断待测样本是否被怀疑为阳性CNV，并排除母源性CNV的干扰；

基于unique reads数检测CNV的步骤，在该步骤中，基于相邻10个窗口计算平均reads(Mr)和平均GC(Mgc)，并构建窗口特异性线性回归模型，从而判断待测样本是否被怀疑为CNV；

模型结果汇总步骤，在该步骤中，基于上述两个检测CNV的模块的输出结果进行比较分析输出最终结果。

12.根据项11所述的检测方法，其中，所述基于reads数检测CNV的步骤包括如下步骤：

13.根据项11或12所述的检测方法，其中，所述基于unique reads数检测CNV的步骤包括如下步骤：

14.根据项13所述的检测方法，其中，在MiniModel构建步骤中，根据待测值Mr和Mgc对应的理论值计算残差并判断置信度还包括：

15.根据项11～14中任一项所述的检测方法，其中，在所述模型结果汇总步骤中，如果所述待测样本存在基于reads数和Z值检测CNV的模块和基于UR数和均值检测CNV的模块所述两个模块的输出结果中均报告为目标CNV区间的部分，且在判断目标CNV区间的重合率超过设定阈值时，报告该重合区域作为CNV，如果针对待测区间在上述两个模块中的结果不一致，则输出为假阳性的结果。

16.根据项13～15中任一项所述的检测方法，在显著性评估模块中，所述过程重复10000次。

在本发明中采用N个阴性样本建立背景库，待测样本(即胎儿)与背景库比较进行显著性校验。在本发明的装置和方法中待测样本和背景库均经过相同预处理过程，主要包括染色体窗口化：每条染色体被切割成等长的窗口，每两个相邻窗口之间有交集；lowessGC校正：每条待测染色体和1号和/或2号染色体共同进行GC校正。其中1号和2号染色体相对稳定，具有较高的容积率和多样性，作为参照，可以有效评价待测染色体的缺失或重复。此外，用1号，2号染色体做参照，可以一定程度消除不同文库数据量上的差异。对于每个窗口，在背景库中计算在N个阴性样本中的均值和方差，经过三次Z检验放大信号。最后Z值大于1的窗口被认为是发生了重复，小于-1的窗口被认为发生了缺失，其余窗口则属于正常波动。同一类别的窗口被合并，最后针对合并后的窗口UR计算胎儿浓度，结合Z值和胎儿浓度过滤由于数据波动而造成的假阳性结果。所有的CNV都被匹配到DGV和OMIM数据库，输出CNV对应的注释信息，包括多态性，致病性等。

在本发明中，将整条染色体切分成窗口，可以有效避免因局部微缺失或微重复而对整条染色体的影响。每个窗口的长度为等长，窗口长度可根据测序深度计算，例如，游离DNA片段比对到每个窗口的数量不低于测序浓度下限的倒数。本发明中，优选的每个窗口的长度可以为100k，每两个相邻窗口之间存在50k的交集。

在本发明中，上述m可以为任意整数。M越小，分辨率越高，但每个合并后的bin波动性越强，稳定性降低。M越大，分辨率越低，但合并后的bin稳定性强，unique reads和GC之间的关联性越显著。例如，M的范围可以为5-20之间任意整数，对应分辨率为0.25－1M。

在本发明中，上述设定阈值用于评价两种CNV检测模块的一致性。由于两种CNV检测模块的分段模块存在差异，所以对于识别的CNV边界可能有一定偏差。设定阈值越高，对两个模块的一致性要求越严格；反之越宽松。本发明中，优选的设定阈值为50％。

在本发明中，设定置信区间可以为本领域技术人员通常采用的值或范围，例如95％或99％。

在本发明中，通过染色体分段来识别CNV边界，依赖于对不同均值的正态分布的序列数据进行分段的模型或算法。由于CNV区域的均值和临近染色体区域存在显著差异，因此利用上述给定模块可识别出CNV边界信息。

无创CNV检测不同于NIPT染色体非整倍性检测，在实验条件不稳定的情况下，数据波动等系统噪音更容易以假阳性的形式出现在结果中。当系统噪音较大时，其中一个主要特征体现为reads真实GC偏差，利用基因组GC校正并不能去除这种类型的数据波动。

如上所述，根据本发明的装置基于NIPT平台，对样本常染色体和X染色体微缺失微重复进行检测。本发明提供一种检测灵敏度更高的无创CNV检测装置，利用本发明的装置，可以降低假阳性或假阴性的出现概率，大大提高检测胎儿CNV的准确度和灵敏度。

附图说明

通过阅读下文优选的具体实施方式中的详细描述，本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

图1本发明的检测装置进行的数据分析流程。

图2采用对比例1的方法进行CNV判定的结果图。

图3采用实施例1的方法进行CNV判定的结果图。

具体实施方式

本发明中涉及如下定义。

高通量测序：高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology)，以能一次并行对几十万到几百万条DNA分子进行序列测定。

窗口(滑动窗口)：一般指基因组上的一段固定长度的区域。

背景库：由N例(一般认为>＝20例)健康人样本所组成的样本库。

Reads：read的复数，高通量测序平台产生的一段短测序片段序列。

Unique read：是指唯一比对到基因组上的reads。在测序过程中，有些reads可以同时比对到基因组多个位置，Unique read则是从所有非dup的reads中过滤掉这些多处比对的reads，剩下的就是unique read.

Mapability：对于某些窗口，短序列唯一性较低，主要原因可能是因为来自异染色质大片的重复序列或更复杂的生物学原因，此时利用利用Mapability这个参数计算每个窗口的效率并和阈值0.625比较，低于阈值的窗口不带入计算。

Genomic GC：该参数代表每个窗口对应的基因组GC，在所有文库中均相同。此外在下文所述的模型一中，该参数被用于做GC校正，目的是用于修正因GC偏好性造成的reads读数差异。

Reads GC：每个窗口中所有reads对应的GC。

Unique reads GC：代表每个窗口中unique reads对应的GC，在下述模型一中用于计算CNV的浓度；在下述模型二中，对于连续10个窗口合成的数据点P，unique reads GC用于对背景数据进行拟合，从而计算P的残差。

Dup：duplication,重复区域，代表目标CNV存在3个拷贝

Del：deletion,缺失区域，代表目标CNV存在单个拷贝

Normal：代表正常2个拷贝

真实GC：是相对于固有的genomic GC来定义的。真实GC是指unique reads对应的GC，是在测序过程和实验环境下真实体现出的序列GC信息。

本发明基于低深度全基因组测序的NIPT平台，对样本常染色体和X染色体微缺失微重复进行检测。

在一个实施例中，本发明的拷贝数变异检测装置，其包括：

测序数据获取模块、分窗口片段化模块、基于所有reads数检测CNV的模块、基于unique reads数检测CNV的模块以及模型结果汇总模块。

首先针对测序数据获取模块，该模块基于获取的母体外周血游离DNA进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据。利用该模块基于SE40对母体外周血中的混合DNA进行提取、扩增、建库、以及测序。最后通过信息分析的方法比对到染色体上，从而分析染色体的信息。其中对于母体外周血中的混合DNA进行提取、扩增、建库和测序的方法均可以采用本领域中常用的方法。

在本实施例中背景库样本的数量并不固定，可以根据不同时间段、不同试剂、不同实验条件下来确定。例如背景库样本包括1000个以上阴性样本，优选包括2000个以上阴性样本，优选包括3000个以上阴性样本，优选包括3500个以上阴性样本，进一步优选例如为4000个阴性样本。

就分窗口片段化模块而言，该模块用于将上述测序数据比对到参考基因组序列，并将所述测序数据切割为等长的窗口，并使每两个相邻窗口之间存在交集，统计每个窗口的包括read、unique read(UR)、Mapability和/或unique reads GC的窗口参数。

在本发明中，对于参考基因组序列没有限定，可以使用任何已知的人类基因组的参考序列，只要保证所有样本使用的是同一套序列做比对就可以。在一个具体的实施方案中，参考基因组序列为hg19参考序列。

就基于所有reads数检测CNV的模块而言，该模块包括以下子模块，并用于执行下述模型一。

所述基于所有reads数检测CNV的模块包括如下子模块：

数据预处理和标准化模块，该模块用于对所述所有reads进行GC校正以消除文库间差异；以及在进行GC校正后进行均一化校正从而使得所有所述待测样本和背景库样本之间具有可比性；

计算Z值置信区间的模块，该模块针对所述染色体切片模块合并的每个待测区间，计算背景库样本相同区间内存在的连续窗口的Z值的中值，根据中值分布的均值和方差计算95％置信区间范围，并判断所述待测区间是否落入所述置信区间，将没有落入该置信区间的区间判断为潜在CNV区间；

计算CNV概率的模块，该模块针对所述潜在CNV区间，在背景库样本相同区间计算该区间内窗口的全部reads的加和，获得概率密度分布，并根据待测CNV区间的全部reads，计算显著性概率，并对该显著性概率进行负对数转换并和给定的阈值进行比较；

模型一

该模型一包括如下步骤：

步骤一、数据预处理和标准化，其进一步包括如下子步骤：

(1)GC校正

在模型一中利用lowess算法对reads进行GC校正，为了消除文库间差异，客观评价染色体的波动情况，对于任一待测染色体，校正时和1号，2号染色体同时进行校正。由于1、2两条染色体发病率较低，GC覆盖范围较大，因此lowess校正时可增加结果稳定性。平滑系数f设为0.67。校正过程采用高质量reads，即unique reads/(Mapability+1)>＝0.625，然后用校正后整体均值和方差，估计低质量窗口的reads。

(2)均一化校正

为了使所有待测样本以及参考样本之间具有可比性，模型一根据GC校正后的染色体窗口reads(去除异常值)估计对应的方差，利用待测染色体的窗口reads除以标准差，从而校正到方差为1的水平。

在此，GC校正的目的是为了修正测序过程中固有的GC偏好性，修正后染色体上不同位置的reads趋向于相同水平；利用1号和2号染色体作为背景，和待测染色体一起做校正，目的是为了消除文库间差异。因为不同文库的数据量不同，但是在文库内部染色体之间的相对关系是稳定的，所以用1号，2号染色体做参照，可以一定程度消除不同文库数据量上的差异。

步骤二、Z检验放大信号

利用背景库样本计算每个窗口的均值和方差，通过Z检验计算每个窗口的Z值。每次Z检验通过收敛数据获得较小的方差，从而放大信号，Z检验过程重复三次。

步骤三、滑动窗口对染色体进行切片

为了从待测染色体上识别dup,del等CNV区间，以及其他正常区间，模型一需利用连续性的窗口Z值对染色体进行切片处理。这里采用滑动窗口法，状态相似的连续性窗口被合并为一个区间，这个区间的属性(dup，del，normal)将被进一步判断。

步骤四、计算Z值置信区间

对于切片后的每个区间，我们在背景库样本相同区间计算区间内连续窗口Z值的中值，根据中值分布的均值和方差，估计95％置信区间范围。若待测区间落在置信区间，则认为该区间为正常2个拷贝，否则可能为潜在CNV区间。

步骤五、计算CNV概率

对于潜在CNV区间，在背景库样本相同区间计算区间内窗口reads加和，获得概率密度分布，根据待测CNV区间reads，计算显著性概率，并经过负对数转换并和阈值比较。

其中，负对数转换对显著性概率P进行计算，并和阈值比较。这个阈值是通过阳性样本最低检测线定义的，即能够保证报出真阳性样本CNV区间的阈值。

步骤六、计算CNV浓度

对于CNV所在区间，利用背景库样本相同区间的UR和真实GC计算拟合线，并利用潜在CNV的UR，GC计算浓度。CNV浓度和胎儿真实浓度比较，若明显低于胎儿浓度，则认为可能是因数据波动或噪音导致的假阳性；若明显高于胎儿浓度，则怀疑是母源性CNV或嵌合。

在本文中胎儿真是浓度可以采用如下方法确定：对于男胎，真实的胎儿浓度是通过Y染色体的含量计算的；而对于女胎，可以通过母亲孕周，体重等信息衡量CNV估测的真实浓度，该估测方法不影响识别母源性CNV。

就基于unique reads数检测CNV的模块而言，该模块包括以下子模块，并用于执行下述模型二。

MiniModel构建模块，该模块进行消除不同文库间数据量的差异的预处理，在预处理之后，根据分辨率规定滑动窗口长度m，每相邻m个窗口合并计算平均reads(Mr)和平均GC(Mgc)，并利用背景库样本计算相同区间的Mr’和Mgc’分布，并对Mr’和Mgc’进行拟合，根据待测值Mr和Mgc对应的理论值计算残差，根据残差判断窗口的包括dup、del、normal的属性，根据Mr’和Mgc’的相关性R、Mgc、以及背景数据Mr’的标准差sd计算权重，判断置信度；

具体来说，该模块可以利用HaarSeg模型对染色体进行切片处理，以识别出具有相同拷贝的染色体区间，该模型中的参数breaksFdrQ通过模型自适应计算，即按照指定步长逐渐收敛，直至两次循环切片结果一致，模型达到稳定，即切片的个数不再发生变化；

显著性评估模块，该模块针对所述切片区间，从待测样本的染色体其他区域随机抽取相同数量的窗口值，重复该过程，例如重复10000次从而确定在背景分布中真实值的显著性。

模型二

该模型二包括如下步骤：

步骤一、MiniModel构建

对于待测染色体，为消除不同文库间数据量的差异，每个窗口reads均除以1号染色体窗口reads的中值。预处理之后，根据分辨率规定滑动窗口长度m，每相邻m个窗口合并计算平均reads(Mr)和平均GC(Mgc)，同时利用背景库样本计算相同区间Mr’和Mgc’分布，并利用线性回归模型进行拟合。根据待测值Mr和Mgc对应的理论值计算残差，残差越大，说明该m个窗口越可能属于dup；残差越小，说明该m个窗口越可能属于del；残差越接近0，该m个窗口越可能是正常2个拷贝；最后根据Mr’和Mgc’的相关性R，Mgc，以及背景数据Mr’的标准差sd计算权重(weight)，权重越大，置信度越高。

详细来说，首先我们对所有窗口Unique reads均除以1号染色体平均Uniquereads数，消除样本间数据量的差异。之后我们把每相邻10个窗口作为一个单元，计算在待测样本中的校正后的平均Unique reads数的Mr(即平均值)，以及对应区域的平均gc含量Mgc。同样的，我们对每个背景库样本计算相同区域所对应的Mr’,Mgc’。根据从背景库样本中计算获得的Mr’,Mgc’向量，我们通过回归分析拟合出目标区域Mr对应Mgc的拟合线，根据观测值和理论值的残差转换为浓度值，即实现了从混合信号中分离胎儿信号的目的。然而，由于低数据量测序技术的限制，以及dna片段在测序过程中的偏好性，因此Unique reads在染色体上分布并不均匀。这就意味着直接通过拟合线计算每个单元的残差，对于所有单元来说并不公平。因此我们额外还计算了每个单元上，所有背景库样本Mr’的标准差，Mr’与Mgc’的Pearson相关系数，待测样本Mgc在背景库样本Mgc’上分布的分位数，并整合这三个变量计算权重weight。标准差越大，相关系数越小，分位数越靠近边界，说明单元对应区域测序质量低，或Unique reads与gc关联性弱，因此置信度较低，所获得的权重也较小，进而消除低置信度单元对周围其他区域造成的影响。反之，置信度高的单元对应权重大，因此对结果判断的影响也较大。

在步骤一中所有片段化的区域都被分类为dup重复，del缺失，normal正常。Dup和Del最后被当做CNV报出。其中，针对该Mr’和Mgc’分布进行拟合是对背景库中参照样本进行的分析。即利用参照样本计算相同窗口区间的Mr’、Mgc’。

举例来说，1000个参考样本，应该可以在相同区间计算出1000个Mr’对应1000个Mgc’，这1000个数据点以Mgc’为横轴，Mr’为纵轴可以获得背景的散点分布，利用这个分布可以获得拟合线，拟合线上的任意位置代表当前Mgc’所对应的Mr’的理论值。

步骤二、染色体分段切片

模型二采用HaarSeg模型对染色体进行切片处理，参数breaksFdrQ通过模型自适应计算，即按照指定步长逐渐收敛，直至两次循环切片结果一致，模型达到稳定。

HaarSeg模型是用于分析ArrayCGH的分析模型，用于对染色体进行片段化区分，识别出具有相同拷贝的染色体区间。BreaksFdrQ越大，模型分辨率越高，切片越多；反之分辨率越低，切片越少。随着BreaksFdrQ变化，切片个数随之改变，指导相邻两次循环，切片个数不再变化，认为模型已经稳定，但不一定只有一个切片，只是说在不同BreaksFdrQ影响下，切片的个数不随之发生变化。针对HaarSeg模型可以参照例如：http://webee.technion.ac.il/Sites/People/YoninaEldar/Info/software/HaarSeg.htm。

步骤三、显著性评估

对于切片区间，从待测染色体其他区域随机抽取相同数量的窗口值，此过程重复10000次，从而估计在背景分布中，真实值的显著性。

如上所述，模型一统计的是所有reads的count；模型二统计的是unique reads的count。

就模型结果汇总模块而言，该模块基于上述两个检测CNV的模块的输出结果进行比较分析输出最终结果。

两模型结果汇总

根据两套模型的输出结果，若目标CNV区间在两套模型中均被报出，且重合率超过50％，则该重合区域作为CNV被报出。反之，认为该待测区间在两套模型中结果不一致，可能是假阳性结果。

实施例

以下给出实施例，对本发明进行更具体的说明，但本发明不限于这些实施例。

在下述实施例和对比例中采用孕妇外周血为2017年1月送入北京某医院的来自某孕妇的外周血，该孕妇的临床检查结果为低CNV风险，并且该孕妇在随后的跟踪过程中显示已经生产了无CNV的正常婴儿。

对比例1

对上述样本进行测序以获得待测样本的染色体测序数据以及来自背景库样本的染色体测序数据。

采用Statistical Approach to Decreasing the Error Rate of NoninvasivePrenatal Aneuploid Detection caused by Maternal Copy Number Variation(Published online 2015 Nov 4.doi:10.1038/srep16106，PMCID:PMC4632076)中记载的方法，对上述样本进行分析，具体步骤如下参照该文献中记载的方法进行，得到如图2所示的分析结果。根据该分析结果判定该样本为15号染色体长臂存在重复片段。

进行上述判断的依据为：所有窗口均经过标准化校正，因此正常二个拷贝区域和背景库信号一致，残差为服从均值为0的正态分布。因此通过95％置信区间为阈值，高于阈值的连续性窗口倾向于多拷贝，低于阈值的连续性窗口倾向于单拷贝。通过HaarSeg算法(关于HaarSeg算法可以参见：https://academic.oup.com/bioinformatics/article/24/16/i139/199827)对染色体进行切片，图中15号染色体长臂前端明显高于阈值，因此高度怀疑是一个微重复CNV区域。

实施例1

将实施例1的测序数据切割为等长的100k长度窗口，并使每两个相邻窗口之间存在50k的交集，统计每个窗口的包括read、unique read(UR)、Mapability、genomic GC和/或unique reads GC的窗口参数；

进行基于reads数的检测CNV，基于上述得到的每个窗口计算Z值，计算CNV概率，以及用CNV概率估测胎儿浓度，从而判断待测样本是否被怀疑为阳性CNV，并排除母源性CNV的干扰；在本步骤的分析结果如图3的模型一图所示，根据该结果显示模型一通过forward，backward连续差值计算，结合小波分析平滑降噪，识别出潜在CNV边界，并针对每个潜在CNV区域进行显著性评估，通过样本内和样本间比较，发现15号染色体长臂前端信号不显著，因此判断为正常二个拷贝。

进行基于unique reads数检测CNV，该模块基于相邻10个窗口计算平均reads(Mr)和平均GC(Mgc)，并构建窗口特异性线性回归模型，从而判断待测样本是否被怀疑为CNV；在本步骤的分析结果如图3的模型二图所示，根据该结果显示模型二利用Unique reads提取胎儿信号结合HaarSeg模型切片并划分区域，根据样本内波动自适应规定阈值，15号染色体长臂前端未超过阈值，因此认为是信号波动，判断为正常二个拷贝。

结果汇总，基于上述两个检测CNV的模块的输出结果进行比较分析输出最终结果，由于两个模型均判断为阴性，因此可以认为15号染色体长臂的略强信号属于系统噪音的波动，而不是真实的微重复，故判断为阴性。

其中每个步骤的具体操作方式可以参见上述说明书中所描述的方案。

根据图3可以看出，利用实施例1的方法认为上述样本的15号染色体为正常核型，与实际结果吻合。

可见本发明的方法利用多重校正和过滤标准，极大的降低了假阳性率。

Claims

1.一种拷贝数变异检测装置，其包括：

基于unique reads数检测CNV的模块，该模块基于相邻m个窗口计算平均reads(Mr)和平均GC(Mgc)，并构建窗口特异性线性回归模型，从而判断待测样本是否被怀疑为CNV；

2.根据权利要求1所述的检测装置，其中，所述基于reads数检测CNV的模块包括如下子模块：

3.根据权利要求1或2所述的检测装置，其中，所述基于unique reads数检测CNV的模块包括如下子模块：

MiniModel构建模块，该模块进行消除不同文库间数据量的差异的预处理，在预处理之后，根据分辨率规定滑动窗口长度m，每相邻m个窗口合并为一个单元计算平均reads(Mr)和平均GC(Mgc)，并利用背景库样本计算相同区间的Mr’和Mgc’分布，并对Mr’和Mgc’进行拟合，根据待测值Mr和Mgc对应的理论值计算残差，根据残差判断窗口的包括dup、del、normal的属性，根据Mr’和Mgc’的相关性R、Mgc、以及背景数据Mr’的标准差sd计算权重，判断置信度；

4.根据权利要求3所述的检测装置，其中，在MiniModel构建模块中，根据待测值Mr和Mgc对应的理论值计算残差并判断置信度还包括：

5.根据权利要求1～4中任一项所述的检测装置，其中，在所述模型结果汇总模块中，如果所述待测样本存在基于reads数和Z值检测CNV的模块和基于UR数和均值检测CNV的模块所述两个模块的输出结果中均报告为目标CNV区间的部分，且在判断目标CNV区间的重合率超过设定阈值时，报告该重合区域作为CNV，如果针对待测区间在上述两个模块中的结果不一致，则输出为假阳性的结果。

6.根据权利要求3～5中任一项所述的检测装置，在显著性评估模块中，所述过程重复10000次。

分窗口片段化步骤，用于将所述测序数据比对到参考基因组序列，并将所述测序数据切割为等长的窗口，并使每两个相邻窗口之间存在交集，统计每个窗口的包括read、uniqueread(UR)、Mapability、genomic GC和/或unique reads GC的窗口参数；

8.根据权利要求7所述的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序还用于执行以下步骤：

计算Z值置信区间的步骤，该步骤针对所述染色体切片模块合并的每个待测区间，计算背景库样本相同区间内存在的连续窗口的Z值的中值，根据中值分布的均值和方差计算设定置信区间范围，并判断所述待测区间是否落入所述置信区间，将没有落入该置信区间的区间判断为潜在CNV区间；

9.根据权利要求7所述的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序还用于执行以下步骤：

10.根据权利要求7所述的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序还用于执行以下步骤：