CN112712853A

CN112712853A - 一种无创产前检测装置

Info

Publication number: CN112712853A
Application number: CN202011629295.0A
Authority: CN
Inventors: 张静波; 王伟伟; 李小雨; 伍启熹; 王建伟; 刘倩; 唐宇
Original assignee: Beijing Usci Medical Laboratory Co ltd
Current assignee: Beijing Usci Medical Laboratory Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-27
Anticipated expiration: 2040-12-31
Also published as: CN112712853B

Abstract

本发明涉及生物信息学技术领域，具体公开了一种无创产前检测装置。所述装置包括：检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块；通过数据校正及处理模块构建动态数据库以再次重新校正不同染色体基线带来的偏差，并配合后续PCA降噪、母源CNV的识别筛选和CBS算法对窗口Z值的分割等方式，从而有效的降低了批次偏差造成的影响，避免了由于批次偏差导致的假阴或者假阳；还避免了应用待测批次样本做参考集，从而避免由于样本量少，造成的结果不准确；减少了灰区样本数量，降低了检测成本，缩短了检测周期。

Description

一种无创产前检测装置

技术领域

本发明涉及生物信息学技术领域，具体地说，涉及一种无创产前检测装置。

背景技术

无创产前检测(noninvasive prenatal testing，简称NIPT)是一项非侵入性的孕期产检技术，这项技术是建立在孕妇外周血中存在着胎儿游离的DNA这一科学发现的基础上的检测技术，具有很高的检测准确性，同时可以避免绒毛活检术、羊膜穿刺术和经腹静脉穿刺术等侵入性检测所带来的流产和宫内感染风险。

NIPT检测技术原理是通过抽取孕妇外周血，提取出血浆游离DNA，构建二代测序文库，利用二代测序仪得到孕妇血浆游离DNA的序列信息。利用Z检验方法比较染色体的含量与阴性对照集的差异，从而得到胎儿患病的风险。然而，测序试验中可以观察到批次效应,它的原因包括试验分析操作人员，时间、平台、实验室环境等。由于这些非生物因素的影响容易产生批次效应。如果不消除批次效应，对分析结果会产生很大的影响，容易造成假阴或者假阳。同时，位于灰区的样本也会增加，需对数据重新验证，从而增加检测成本及检测周期。CBS是目前检测CNV断点的主流算法之一。特点是分段结果稳定，对低浓度的断点检测灵敏性高。但是也有几个缺点：对波动较大的数据分段过于琐碎；没有提供是否属于CNV的信息；对于不同的数据需要调试不同的阈值。

因此，需要提供一种新的无创产前检测装置以解决现有技术的问题。

发明内容

针对已有的NIPT检测技术的以下缺点：

1、未考虑批次偏差的影响，造成假阴或者假阳；

2、若应用本批次样本作为对照参考集，样本数较少，导致染色体含量的SD偏大，则Z值偏小，容易造成假阴；

3、灰区样本数较大，检测成本较高及检测周期较长。

本发明提出了一种有效降低批次偏差、检测周期短、检测精度高的无创产前检测装置。

为了实现本发明的发明目的，本发明的技术方案如下：

一种无创产前检测装置，所述装置包括：检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块；

所述数据校正及处理模块：用于将待测孕妇样本基因组通过质控、窗口划分后获得的每个bin的ratio中的重复序列和群组CNV剔除后，进行GC校正和不同染色体基线带来的偏差校正，获得每个bin的含量x，并进一步根据动态数据库再次重新校正不同染色体基线带来的偏差；

所述动态数据库的构建方法如下：

根据整个待测样本批次中的t个待测样本S的每个bin的含量x对参考数据库中的所有样本R进行筛选，选择参考数据库中d(S,R_j)最小的男性样本a个和女性样本b个，组建针对本批次待测样本常染色体的动态数据库，其中男女性别比例无统计学差异，a+b不小于1000；选择参考数据库中d(S,R_j)最小的男性样本a个和女性样本b个，分别组建针对本批次待测样本性染色体的动态数据库；d(S,R_j)的计算公式如下：

其中，S代表所有待测样本，R_j代表参考数据库中的第j个样本，

代表t个待测样本中的第l个样本的第i条染色体bin的含量x的均值，

代表参考数据库中第j个样本的第i条染色体的bin的含量x的均值。

本发明优化了批次偏差校正的方法，通过特定的动态数据库构建方法获得了针对每一批次待测样本的动态数据库。利用本发明动态数据库有助于选择与批次波动类似的样本，较小批次偏差，提升阴性参考集的效果，使得检测准确性更高。其中，a+b不小于1000，可避免sd偏大，进行Z统计检验时造成假阴的情况。

为了避免一些重复序列的干扰，本发明在GC校正前对其进行了剔除(去除包含基因组串联重复及散在重复序列的bin)。另外，由于参考基因组hg19是欧洲人，在针对不同人群检测时，会存在一些种群水平上的假定CNV，本发明还对群组CNV进行了剔除。具体可通过叠加所有阴性数据库样本的窗口的reads数，以t检验法剔除离群点(群组CNV)。

除了三体信号等其他干扰因素，GC含量也会对UR ratio造成较大的影响。GC校正可采用平滑样条法(统计每个窗口bin的reads数，并计算人类参考基因组中参考样本对应窗口的GC含量，以通过平滑样条法进行GC校正)，尽可能减少误差干扰，有效地判断URratio的值是否有统计学意义上的异常。另外，不同染色体区域有不同的基线覆盖度，尽管GC校正减轻了基线差异，但是远不能消除基线之间的差异。因此，本发明还对不同染色体基线带来的偏差进行了校正。

本发明中，所述数据校正及处理模块还用于在再次重新校正不同染色体基线带来的偏差后，进行PCA降噪；

所述PCA降噪方式为：

分别针对待测样本的常染色体和性染色体，以对应的动态数据库中的每一个阴性参考集样本的数据进行矩阵构建，具体以n个阴性参考集样本的m个bin构造一个n*m的矩阵X，其中每一项都是阴性参考集样本中bin的残差x，首先将X的每一行进行中心化，即减去每行的均值，计算中心化后矩阵X的协方差矩阵XX^T，利用特征值分解矩阵得到特征值与特征向量W，将待测样本的残差x，构建1*e的矩阵T，旋转到相同的基上获得T'，T'＝TW，通过减去前k个主成分重建测试集x'；e为待测样本的bin的个数，e＝m；

k值的确定：

利用PCA降噪后数据的残差与降噪前数据的残差的比值计算信息损失量L，评估降噪后数据信息丢失的情况来确定k值，具体步骤如下：

将多例通过质控的已知核型结果的阳性样本基因组按100Kb进行窗口划分后合并临近窗口获得窗宽为2Mb的窗口，设置不同的k值，计算阳性区域的信息损失量L，损失量L的计算公式如下：

x_i代表窗宽为2Mb时的bin的ratio的均值，x′_i代表窗宽为2Mb时进行所述PCA降噪后bin的ratio的均值，N代表阳性区域为2Mb窗口的个数；当信息损失量小于0.05时，所对应的k值最终用于待测样本的PCA降噪。

本发明中，所述数据校正及处理模块进行不同染色体基线带来的偏差校正方式为：

通过计算相应数据库中全部正常对照样本的GC校正后的bin的含量的均值和标准差，构建加权线性回归模型，以对应位置校正后bin的ratio的标准差为权重，获得的残差x即为校正后的bin的含量x。

本发明中，所述数据校正及处理模块进一步用于在进行所述PCA降噪后，进行母源CNV识别并剔除不会遗传给后代的母源CNV；

具体识别方式为：当多个连续的经PCA降噪后的bin的含量x的绝对值abs(x)>0.5时，将这些bin合并确定为母源CNV位置，并计算所述母源CNV区域内所包含bin的含量的均值，即为所述母源CNV区域的杂合比hh；

具体剔除方式为：当所述母源CNV区域的杂合比hh＝1-FF时，则将所述母源CNV区域予以剔除，当hh＝1时，则将所述母源CNV区域予以保留；其中FF为待测样本的胎儿浓度。

由于母体DNA在血浆中的比例远大于胎儿的DNA，因此本发明通过设置阈值来对母体CNV进行检测。

本发明中，所述数据校正及处理模块还用于在剔除不会遗传给后代的母源CNV区域后，利用滑窗方法计算每个窗口的Z值，并利用CBS算法对每个窗口的Z值进行分割，检测CNV断点，再根据检测到的CNV断点获得分割后的CNV片段，依次计算所述分割后的CNV片段的杂合比和Z值。本发明中，Z值的计算公式如下：

其中，R_sample代表待测样本每个窗口的ratio或分割后的CNV片段的ratio，每个窗口的ratio为该窗口包含的所有100kb的bin的含量的均值，每个分割后的CNV片段的ratio为该CNV片段包含的所有窗口的bin的含量的均值，meanR_reference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的均值，sdR_reference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的标准差。

本发明中，每个窗口的窗宽为2Mb，步长为50kb。

本发明通过滑窗方法计算Z值，从而增强了异常信号，并且通过增大窗口使得数据更加稳定，从而提升了检测结果准确性。

本发明中，所述判断模块：用于根据所述数据校正及处理模块计算得到的分割后的CNV片段的杂合比和Z值进行判断；当分割后的CNV片段的杂合比超出阈值[-1/2*FF,1/2*FF]，且该分割后的CNV片段的Z值的绝对值|Z|大于等于3时，判为异常，否则判定为无异常；当判为异常后，若该分割后的CNV片段的Z值大于等于3，则判定为重复，Z值小于等于-3，则判定为缺失。

本发明中，所述检测模块：用于对孕妇外周血游离DNA进行高通量测序，获得待测孕妇样本基因组。

本发明中，所述数据质控及预处理模块：用于将测序得到的待测孕妇样本基因组去除接头及低质量的reads，然后与人类基因组hg19进行比对，剔除未比对上、重复比对及比对到多个位置的reads，仅保留唯一比对上的reads，若unique reads数大于35M，总的GC含量在38％～42％之间，则通过质控；之后，进行窗口划分，窗宽100kb，重叠区域为50kb。

由于NIPT样本测序覆盖度很低，本发明采用基于划分窗口的方法，从而来减小数据的波动并有助于进行GG校正。

本发明的有益效果至少在于：

1.应用动态数据库，有效的降低了批次偏差造成的影响，避免了由于批次偏差导致的假阴或者假阳；还避免了应用待测批次样本做参考集，从而避免由于样本量少，造成的结果不准确；

2.减少了灰区样本数量，降低了检测成本，缩短了检测周期；

3.降低了CNV检测的假阳性，提高了检测精度。

具体实施方式

下面将结合实施例对本发明的优选实施方式进行详细说明。需要理解的是以下实施例的给出仅是为了起到说明的目的，并不是用于对本发明的范围进行限制。本领域的技术人员在不背离本发明的宗旨和精神的情况下，可以对本发明进行各种修改和替换。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1

本实施例提供一种以本发明的无创产前检测装置进行染色体变异检测的方法。

所述装置包括：检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块。具体步骤如下：

1、阴性参考集构建

(1)样本选择

选取9000例孕周大于等于12周且核型分析无染色体异常的孕妇样本，男和女比例无统计学差异。提取游离DNA，按高通量方法进行基因组测序，采用单端测序方式获取读长50bp的fastq数据，所用测序平台为华大智造MGISEQ-2000基因测序仪。

(2)数据预处理

将测序数据去除带接头的reads，碱基质量小于5的碱基数大于总碱基数50％的reads，及N碱基数大于总碱基数5％的reads，保留剩余的reads。

(3)比对定位序列位置及质控

将过滤后的reads比对到人类基因组参考序列hg19上，剔除未比对上的reads，重复比对的reads，及比对到多个位置的reads，仅保留唯一比对上的reads，要求数据量大于35M。统计总的GC含量，要求GC含量在38％～42％之间。

(4)分窗统计unique reads数

将阴性参考集的每条染色体分窗统计，窗宽为100kb，滑动步长为50kb。

去除包含基因组串联重复及散在重复序列的bin，通过叠加所有阴性数据库样本的窗口的reads数，t检验法剔除离群点，以去除群组CNV所对应的bin。

(5)GC校正

统计每个窗口bin的reads数，针对人类参考基因组hg19，根据窗宽的划分，计算每个窗口对应的GC含量。利用平滑样条法分别进行校正。之后根据9000例阴性对照样本，计算每个bin的均值和标准差，构建加权线性回归模型，权重为对应位置校正后bin的ratio的标准差，从而校正不同染色体基线带来的偏差，计算出每条染色体的残差x，即为阴性对照样本校正后bin的含量。

(6)动态数据库构建

根据整个待测样本批次中的t个待测样本S的每个bin的含量x对参考数据库(阴性数据库)中的所有样本R(9000例)进行筛选，根据d(S,R_j)的计算公式，选择参考数据库中d(S,R_j)最小的男性样本500例和女性样本500例，组建针对本批次待测样本常染色体的动态数据库；选择参考数据库中d(S,R_j)最小的男性样本500例和女性样本500例，分别组建针对本批次待测样本两个性染色体的动态数据库(男、女各一个)。

d(S,R_j)的计算公式如下：

其中，通过阈值来判断待测样本的性别，所述阈值由如下方法获得：统计大量流产组织样本的h，h＝2c/(1+c)，其中，c为样本X染色体bin的ratio的均值与Y染色体bin的ratio的均值之比。根据K均值聚类方法，获得所述阈值。本实施例中所述阈值为0.025。

将待测样本X染色体和Y染色体bin的ratio的均值，代入男胎比例的计算公式h中，当h≥0.025时为男胎，否则为女胎。

分别根据所获得的常染色体的动态数据库和性染色体的动态数据库中的所有样本GC校正后的bin的ratio，计算每个bin的均值和标准差，重新构建加权线性回归模型，权重为对应位置校正后bin的ratio的标准差，分别计算出每条染色体的残差x，即为阴性对照样本重新校正后bin的含量；

(7)PCA算法提取主成分

以所获得的常染色体的动态数据库中的1000例阴性参考集样本的m个bin构造一个1000*m的矩阵X，其中每一项都是阴性参考集样本中bin的ratio，窗宽为100kb时，m为61927。首先将X的每一行进行中心化，即减去每行的均值，计算中心化后矩阵X的协方差矩阵XX^T，利用特征值分解矩阵得到常染色体的特征值与特征向量W。

分别以所获得的两个性染色体的动态数据库中的每一个阴性参考集样本以上述方法获得两个性染色体的特征值与特征向量W。

确定测试时所采用的k值：

将300例通过质控的已知核型结果的阳性样本基因组按100Kb进行窗口划分后合并临近窗口获得窗宽为2Mb的窗口，设置不同的k值，计算阳性区域的信息损失量L，损失量L的计算公式如下：

x_i代表窗宽为2Mb时的bin的ratio的均值，x′_i代表窗宽为2Mb时进行所述PCA降噪后bin的ratio的均值，N代表阳性区域为2Mb窗口的个数；当信息损失量小于0.05时，所对应的k值最终用于待测样本的PCA降噪。本实施例中最终k值确定为8。

2、从上述构建的动态数据库所对应的待测样本批次中选择待测孕妇样本，进行染色体异常分析：

(1)通过检测模块对待测孕妇样本，提取DNA，进行全基因组测序，得到fastq数据。

(2)通过数据质控及预处理模块对测序数据进行去除接头及低质量的reads、剔除非唯一比对上的reads、质控、窗口划分，具体方式与上述阴性参考集构建时的数据处理步骤(2)～(4)中所述相同。

进一步，通过数据校正及处理模块将窗口划分后获得的每个bin的ratio中的重复序列和群组CNV剔除，进行GC校正(具体方式与上述阴性参考集构建时的数据处理步骤(4)～(5)中所述相同)和不同染色体基线带来的偏差校正。

不同染色体基线带来的偏差校正方法如下：根据上述9000例阴性对照样本校正后的bin的ratio(参见阴性参考集构建时的数据处理步骤(5))，计算每个bin的均值和标准差，构建加权线性回归模型，权重为对应位置校正后bin的ratio的标准差，从而校正不同染色体基线带来的偏差，计算出每条染色体的残差x，即为待测样本校正后bin的含量。

(3)按照阴性参考集构建时的数据处理步骤(6)判断待测样本的性别。

通过数据校正及处理模块根据上述构建的动态数据库再次重新校正不同染色体基线带来的偏差。具体根据针对本批次筛选得到的常染色体的动态数据库，计算校正后的bin的ratio的均值和标准差，重新构建加权线性回归模型，权重为对应位置校正后bin的ratio的标准差，计算出每条常染色体的残差x，即为待测样本重新校正后的常染色体的每个bin的ratio。根据针对本批次筛选得到的性染色体的动态数据库进行上述同样操作，计算出待测样本性染色体的残差x，即为待测样本重新校正后的性染色体的每个bin的ratio。

(4)数据校正及处理模块根据上述阴性参考集构建时的数据处理步骤(7)得到的常染色和性染色体的特征值和特征向量W，分别将待测样本的残差x，构建1*e的矩阵T，旋转到相同的基上获得T'，T'＝TW，通过减去前8个主成分重建测试集x'，e为待测样本的bin的个数，e＝m。

(5)通过数据校正及处理模块利用发表于美国ACMG会刊《Genetics in Medicine》(August 2019 22(2)，DOI:10.1038/s41436-019-0636-5，Minghao Dang；Hanli Xu；JingboZhang,etc.)的文章《Inferring fetal fractions from read heterozygosity empowersthe noninvasive prenatal screening》所述的方法计算胎儿浓度FF。

(6)以数据校正及处理模块进行母源CNV识别并剔除不会遗传给后代的母源CNV；

具体识别、剔除方式为：当多个连续的经PCA降噪后的bin的含量x的绝对值abs(x)>0.5时，将这些bin合并确定为母源CNV位置，并计算所述母源CNV区域内所包含bin的含量的均值，即为所述母源CNV区域的杂合比hh；当所述母源CNV区域的杂合比hh＝1-FF时，则将所述母源CNV区域予以剔除，当hh＝1时，则将所述母源CNV区域予以保留；其中FF为上述步骤获得的待测样本的胎儿浓度。

以数据校正及处理模块将待测样本的每条染色体的bin按2Mb的窗宽进行合并，步长为50kb，重新划分的2Mb窗口bin的ratio为该窗口包含的所有100kb的bin的ratio的均值。计算相应动态数据库中阴性参考集样本的所有2Mb窗口bin的ratio，并计算每个2Mb窗口bin的均值及标准差。利用Z检验公式，计算每个bin的Z值。

(7)以数据校正及处理模块利用环状二元分割算法(CBS，Circular BinarySegmentation)根据上述计算的每个2Mb窗口bin的Z值识别染色体的断点，并根据断点计算每个分割后的CNV片段segment所包含的2Mb窗口bin的ratio的均值，即该分割后的CNV片段segment的ratio(该分割后的片段的杂合比)；并根据断点，计算相应动态数据库中所有阴性参考样本对应片段区域的ratio的均值和标准差，重新计算各分割后的CNV片段segment区域的Z值。

Z值的计算公式如下：

其中，R_sample代表待测样本每个窗口的ratio或分割后的CNV片段的ratio，每个窗口的ratio为该窗口包含的所有100kb的bin的含量的均值，每个分割后的CNV片段的ratio为该CNV片段包含的所有2Mb的窗口的bin的含量的均值，meanR_reference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的均值，sdR_reference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的标准差。

当计算每个窗口的Z值时，R_sample代表待测样本每个窗口的ratio，当计算各分割后的CNV片段的Z值时，R_sample代表待测样本分割后的CNV片段的ratio。

当计算的窗口或片段在常染色体上时，相应的动态数据库为上述构建的常染色体的动态数据库；当计算的窗口或片段在性染色体上时，相应的动态数据库为上述构建的性染色体的动态数据库。

(8)通过判断模块对各分割后的CNV片段进行判断，设segment片段的ratio阈值[-1/2*FF,1/2*FF]，超出阈值范围，且|Z|大于等于3时，判为染色体异常，否则判定为无染色体异常。当判为异常后，若该分割后的CNV片段的Z值大于等于3，则判定为重复，Z值小于等于-3，则判定为缺失。其中，FF为待测样本的胎儿浓度。

实施例2

本实施例利用实施例1所示的方法和对比方法对待测样本进行测试。

(1)选择20例孕妇的外周血进行检测，编号为S1-S20，核型结果显示：1名怀有21号染色体三体胎儿，其余样本均为阴性。

(2)根据本发明实施例1的方法和对比方法对这20例样本进行测试。对比方法与实施例1的方法相同，区别仅在于：不进行动态数据库的构建和使用，也不再重新校正不同染色体基线带来的偏差，采用全部阴性参考集。在对比方法中，当同一批次中|Z|大于等于3的样本数大于本批次总样本数据的一半时，且同一条染色体的Z值均偏大或者偏小时，认为存在批次偏差，不能直接判定样本的结果，需重建库验证。

表1为各待测样本以实施例1和对比方法进行检测时获得的chr13/chr18/chr21的染色体含量，即经上述检测步骤(7)CBS算法获得的分割后的CNV片段segment的ratio(R_sample)和FF。表2为各待测样本以实施例1和对比方法进行检测时获得的meanR_reference、sdR_reference。表3为各待测样本以实施例1和对比方法进行检测时获得的分割后的CNV片段(chr13/chr18/chr21)的Z值。如表3所示，S18在两种方法(实施例1和对比方法)检测下，结果一致，均为阳性。其余样本以实施例1的方法检测判定均为正常，与核型结果一致。而以对比方法进行检测判定结果出现了多处Z值异常(参见表中加粗的数据)，可能由批次偏差导致，无法对待测样本结果直接进行判断。由此可见，本发明采用动态数据库的方法可以校正样本偏差，减少假阳性或者灰区样本。

表1

表2

表3

实施例3

本实施例利用实施例1所示的方法对待测样本进行测试。

(1)选择30例孕妇的外周血进行检测，编号为T1-T30，核型结果显示：19例21号染色体三体综合征，3例18号染色体三体综合征，1例13号染色体三体综合征，7例微缺失微重复综合征。

(2)利用实施例1对各样本进行检测。

表4为23例非整倍体异常样本检测结果(参见表中加粗的数据)，全部与核型结果一致。表5为7例微缺失微重复综合征样本检测结果，全部与核型结果一致，从中可知胎儿浓度为0.052，片段大小约2M的区域也可准确检出。

表4非整倍体异常结果

样本编号	FF	ratio_chr13	ratio_chr18	ratio_chr21	Z值_chr13	Z值_chr18	Z值_chr21	核型结果
									T1	14.7％	-0.002	0.007	0.158	-0.91	2.35	37.26	T21
T2	8.7％	-0.003	-0.004	0.090	-1.32	-1.43	21.23	T21
									T3	8.1％	-0.008	-0.003	0.074	-2.18	-0.98	17.42	T21
T4	8.2％	-0.002	-0.005	0.076	-0.59	-1.79	17.98	T21
									T5	11.8％	-0.003	-0.002	0.110	-1.26	-0.52	25.98	T21
T6	6.3％	-0.001	-0.004	0.057	-0.40	-1.28	13.59	T21
									T7	7.7％	-0.001	-0.002	0.067	-0.21	-0.50	15.80	T21
T8	9.8％	0.001	-0.005	0.092	0.55	-1.55	21.85	T21
									T9	12.8％	0.000	0.000	0.119	0.12	-0.01	28.12	T21
T10	7.9％	0.001	0.000	0.077	0.35	0.05	18.09	T21
									T11	9.9％	-0.012	-0.004	0.089	-2.55	-1.40	21.11	T21
T12	14.1％	0.002	-0.004	0.171	0.71	-1.31	40.39	T21
									T13	8.9％	-0.007	-0.003	0.070	-2.56	-0.95	16.66	T21
T14	6.3％	-0.004	-0.005	0.049	-1.62	-1.71	11.56	T21
									T15	12.1％	-0.006	-0.001	0.118	-2.21	-0.30	27.97	T21
T16	7.3％	-0.003	0.000	0.080	-1.26	-0.09	18.94	T21
									T17	7.6％	-0.003	-0.002	0.067	-0.97	-0.49	15.87	T21
T18	9.1％	0.002	0.003	0.100	0.91	1.23	23.67	T21
									T19	10.6％	-0.001	0.001	0.097	-0.43	0.40	22.86	T21
T20	14.8％	-0.001	0.145	-0.006	-0.19	49.74	-1.38	T18
									T21	6.3％	-0.004	0.053	0.001	-1.53	18.18	0.22	T18
T22	6.0％	-0.006	0.047	-0.007	-2.41	16.08	-1.59	T18
									T23	9.0％	0.091	-0.005	0.000	35.65	-1.68	-0.10	T13

表5微缺失微重复样本检测结果

样本编号	染色体	起始位置	终止位置	长度	ratio	Z值	FF	缺失/重复	核型结果
										T24	chr22	18675000	21550000	2875000	0.11252	5.57	15.10％	重复	22q11重复综合征
T25	chr22	18675000	21550000	2875000	-0.04331	-3.34	5.80％	缺失	22q11缺失综合征(DiGeorge综合征)
										T26	chr22	18275000	20500000	2225000	-0.07558	-4.64	9.00％	缺失	22q11缺失综合征(DiGeorge综合征)
T27	chr22	19150000	21550000	2400000	-0.09636	-4.81	12.90％	缺失	22q11缺失综合征(DiGeorge综合征)
										T28	chr22	18600000	21550000	1950000	-0.04264	-3.12	5.20％	缺失	22q11缺失综合征(DiGeorge综合征)
T29	chr15	23700000	28725000	5025000	0.080876	3.56	10.20％	重复	15q11-q13重复综合征
										T30	chr4	100000	14225000	14125000	-0.07789	-4.95	11.30％	缺失	Wolf-Hirschhom综合征

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种无创产前检测装置，其特征在于，所述装置包括：检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块；

所述动态数据库的构建方法如下：

根据整个待测样本批次中的t个待测样本S的每个bin的含量x对参考数据库中的所有样本R进行筛选，选择参考数据库中d(S，R_j)最小的男性样本a个和女性样本b个，组建针对本批次待测样本常染色体的动态数据库，其中男女性别比例无统计学差异，a+b不小于1000；选择参考数据库中d(S，R_j)最小的男性样本a个和女性样本b个，分别组建针对本批次待测样本性染色体的动态数据库；d(S，R_j)的计算公式如下：

2.根据权利要求1所述的装置，其特征在于，所述数据校正及处理模块还用于在再次重新校正不同染色体基线带来的偏差后，进行PCA降噪；

所述PCA降噪方式为：

分别针对待测样本的常染色体和性染色体，以对应的动态数据库中的每一个阴性参考集样本的数据进行矩阵构建，具体以n个阴性参考集样本的m个bin构造一个n*m的矩阵X，其中每一项都是阴性参考集样本中bin的残差x，首先将X的每一行进行中心化，即减去每行的均值，计算中心化后矩阵X的协方差矩阵XX^T，利用特征值分解矩阵得到特征值与特征向量W，将待测样本的残差x，构建1*e的矩阵T，旋转到相同的基上获得T′，T′＝TW，通过减去前k个主成分重建测试集x′；e为待测样本的bin的个数，e＝m；

k值的确定：

3.根据权利要求2所述的装置，其特征在于，所述数据校正及处理模块进行不同染色体基线带来的偏差校正方式为：

4.根据权利要求3所述的装置，其特征在于，所述数据校正及处理模块进一步用于在进行所述PCA降噪后，进行母源CNV识别并剔除不会遗传给后代的母源CNV；

具体识别方式为：当多个连续的经PCA降噪后的bin的含量x的绝对值abs(x)＞0.5时，将这些bin合并确定为母源CNV位置，并计算所述母源CNV区域内所包含bin的含量的均值，即为所述母源CNV区域的杂合比hh；

5.根据权利要求4所述的装置，其特征在于，所述数据校正及处理模块还用于在剔除不会遗传给后代的母源CNV区域后，利用滑窗方法计算每个窗口的Z值，并利用CBS算法对每个窗口的Z值进行分割，检测CNV断点，再根据检测到的CNV断点获得分割后的CNV片段，依次计算所述分割后的CNV片段的杂合比和Z值。

6.根据权利要求5所述的装置，其特征在于，Z值的计算公式如下：

其中，R_sample代表待测样本每个窗口的ratio或分割后的CNV片段的ratio，每个窗口的ratio为该窗口包含的所有100kb的bin的含量的均值，每个分割后的CNV片段的ratio为该CNV片段包含的所有窗口的bin的含量的均值，meanR_reference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的均值，sd R_reference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的标准差。

7.根据权利要求5或6所述的装置，其特征在于，每个窗口的窗宽为2Mb，步长为50kb。

8.根据权利要求7所述的装置，其特征在于，所述判断模块：用于根据所述数据校正及处理模块计算得到的分割后的CNV片段的杂合比和Z值进行判断；当分割后的CNV片段的杂合比超出阈值[-1/2*FF，1/2*FF]，且该分割后的CNV片段的Z值的绝对值|Z|大于等于3时，判为异常，否则判定为无异常；当判为异常后，若该分割后的CNV片段的Z值大于等于3，则判定为重复，Z值小于等于-3，则判定为缺失。

9.根据权利要求8所述的装置，其特征在于，所述检测模块：用于对孕妇外周血游离DNA进行高通量测序，获得待测孕妇样本基因组。

10.根据权利要求9所述的装置，其特征在于，所述数据质控及预处理模块：用于将测序得到的待测孕妇样本基因组去除接头及低质量的reads，然后与人类基因组hg19进行比对，剔除未比对上、重复比对及比对到多个位置的reads，仅保留唯一比对上的reads，若uniquereads数大于35M，总的GC含量在38％～42％之间，则通过质控；之后，进行窗口划分，窗宽100kb，重叠区域为50kb。