CN110993024A

CN110993024A - 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置

Info

Publication number: CN110993024A
Application number: CN201911329713.1A
Authority: CN
Inventors: 单光宇; 徐冰; 张静波; 刘�文; 伍启熹; 王建伟; 刘倩; 唐宇
Original assignee: Beijing Usci Biotechnology Co ltd
Current assignee: Beijing Usci Biotechnology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-10
Anticipated expiration: 2039-12-20
Also published as: CN110993024B

Abstract

本发明提供了一种建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置。建立胎儿浓度校正模型的方法包括：获取多个已知胎儿浓度的样本的测序数据，测序数据为靶向捕获文库的测序数据；分别统计每个第一类样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到胎儿的计算浓度；根据已知胎儿浓度、计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，建立胎儿的校正浓度与计算浓度、AAAB型SNP位点的总个数及平均覆盖深度之间的关系模型，得到校正模型；AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点。利用该矫正模型能够使得到的胎儿浓度更接近真实值。

Description

建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置

技术领域

本发明涉及高通量测序技术领域，具体而言，涉及一种建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置。

背景技术

在单基因病的临床实践中，利用孕妇外周血检测胎儿浓度是一项非常重要的工作。目前常用的方法是制备产前诊断文库进行胎儿浓度定量。目前，单基因病产前检测需要同时制备两个文库：产前诊断文库和靶向捕获文库，其中，产前诊断文库用于胎儿浓度定量，靶向捕获文库用于变异检测。

这对于本来样本量就少的临床样本来说，靶向捕获测序文库的数据并未充分利用，不仅浪费了捕获文库的信息，而且还浪费了珍贵的临床样本。

然而，目前对于这一状况尚无有效的解决方案。

发明内容

本发明的主要目的在于提供一种建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置，以解决现有技术无法有效利用捕获文库的测序数据对胎儿浓度进行准确定量的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种建立胎儿浓度校正模型的方法，该方法包括：获取多个第一类样本的测序数据，第一类样本为已知胎儿浓度的样本，测序数据为靶向捕获文库的测序数据；分别统计每个第一类样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到胎儿的计算浓度；根据已知胎儿浓度、计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，建立胎儿的校正浓度与计算浓度、AAAB型SNP位点的总个数及平均覆盖深度之间的关系模型，得到校正模型；其中，AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点。

进一步地，得到校正模型包括：从AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到剩余SNP位点的总数；利用剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，计算得到有效的计算浓度；根据已知的胎儿浓度、有效的计算浓度、剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，建立胎儿的校正浓度与有效的计算浓度、剩余SNP位点的总数及剩余SNP位点的平均覆盖深度之间的关系模型，得到校正模型。

进一步地，剩余SNP位点的总数满足数量阈值，数量阈值为大于等于100，优选地，深度阈值为大于等于100×。

进一步地，利用剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，计算得到有效的计算浓度包括：按照(2*B-DP)/DP计算出剩余SNP位点中每个SNP位点的胎儿浓度值，其中DP表示支持每个SNP位点的总reads数，B-DP表示支持每个SNP位点的来源于胎儿B等位基因型的reads数，2*B-DP表示支持每个SNP位点的来源于胎儿的A和B两种等位基因型的reads数；将剩余SNP位点的胎儿浓度值的中位数，记为有效的计算浓度。

进一步地，分别统计每个第一类样本的测序数据中的AAAB型SNP位点的总个数之前，方法还包括：利用FetalQuant找出测序数据中的AAAB型SNP位点。

进一步地，校正模型为：

其中，CFF’为校正浓度，CFF为计算浓度，Counts-of-AAAB为剩余SNP位点的总数，avgdp为剩余SNP位点的平均覆盖深度。

根据本申请的第二个方面，还提供了一种胎儿浓度定量的方法，该方法包括获取待测样本的测序数据；统计待测样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到待测样本中胎儿的计算浓度；将待测样本中胎儿的计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，代入胎儿浓度的校正模型，得到待测样本中胎儿的校正浓度；其中，AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点，校正模型为上述任一种校正模型。

进一步地，统计待测样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到待测样本中胎儿的计算浓度包括：从待测样本的测序数据中的AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到待测样本中剩余SNP位点的总数；利用待测样本中剩余SNP位点的总数及待测样本中剩余SNP位点的平均覆盖深度，计算得到待测样本中胎儿的有效的计算浓度。

进一步地，待测样本中剩余SNP位点的总数满足数量阈值，数量阈值为大于等于100，优选地，深度阈值为大于等于100×。

根据本申请的第三个方面，还提供了一种建立胎儿浓度校正模型的装置，该装置包括：第一获取模块、第一统计计算模块和模型建立模块，第一获取模块，用于获取多个第一类样本的测序数据，第一类样本为已知胎儿浓度的样本，测序数据为靶向捕获文库的测序数据；第一统计计算模块，用于分别统计每个第一类样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到胎儿的计算浓度；模型建立模块，用于根据已知胎儿浓度、计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，建立胎儿的校正浓度与计算浓度、AAAB型SNP位点的总个数及平均覆盖深度之间的关系模型，得到校正模型；其中，AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点。

进一步地，第一统计计算模块包括：第一去除模块，用于从AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到剩余SNP位点的总数；第一计算浓度模块，用于利用剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，计算得到有效的计算浓度；模型建立模块用于根据已知的胎儿浓度、有效的计算浓度、剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，建立胎儿的校正浓度与有效的计算浓度、剩余SNP位点的总数及剩余SNP位点的平均覆盖深度之间的关系模型，得到校正模型。

进一步地，第一计算浓度模块包括：位点浓度模块，用于按照(2*B-DP)/DP计算出剩余SNP位点中每个SNP位点的胎儿浓度值，其中DP表示支持每个SNP位点的总reads数，B-DP表示支持每个SNP位点的来源于胎儿B等位基因型的reads数，2*B-DP表示支持每个SNP位点的来源于胎儿的A和B两种等位基因型的reads数；中位数模块，用于将剩余SNP位点的胎儿浓度值的中位数，记为有效的计算浓度。

进一步地，该装置还包括AAAB基因型筛选模块，优选为FetalQuant。

进一步地，校正模型为：

CFF'＝1.107*CFF+0.099*ln(avgdp)-0.1447

*ln(Counts-of-AAAB)+0.3948，

根据本申请的第四个方面，还提供了一种胎儿浓度定量的装置，该装置包括：第二获取模块、第二统计计算模块和校正模块，第二获取模块，用于获取待测样本的测序数据；第二统计计算模块，用于统计待测样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到待测样本中胎儿的计算浓度；校正模块，用于将待测样本中胎儿的计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，代入胎儿浓度的校正模型，得到待测样本中胎儿的校正浓度；其中，AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点，校正模型采用上述任一种建立胎儿浓度校正模型的方法建立而成。

进一步地，第二统计计算模块包括：第二去除模块，用于从待测样本的测序数据中的AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到待测样本中剩余SNP位点的总数；第二计算浓度模块，用于利用待测样本中剩余SNP位点的总数及待测样本中剩余SNP位点的平均覆盖深度，计算得到待测样本中胎儿的有效的计算浓度。

根据本申请的第五个方面，还提供了一种存储介质，该存储介质上存储有计算机可执行的程序，程序被设置为运行时，执行上述任一种建立胎儿浓度校正模型的方法，或上述任一种胎儿浓度定量的方法。

根据本申请的第六个方面，还提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，计算机程序执行上述任一种建立胎儿浓度校正模型的方法，或上述任一种胎儿浓度定量的方法。

应用本发明的技术方案，通过利用已知胎儿浓度的样本，找出按照现有的AAAB型SNP位点计算得到的胎儿浓度与此类SNP位点的总数以及平均覆盖深度这三个参数，与真实的胎儿浓度之间的关系模型，从而得到获得准确的胎儿浓度与上述三个参数之间的关系模型，该模型是对计算得到的胎儿浓度的一种矫正，因而是一种矫正模型。利用该矫正模型能够使得到的胎儿浓度更接近真实值。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的一种优选实施例中提供的建立胎儿浓度校正模型的方法的流程示意图；以及

图2示出了根据本发明的一种优选实施例中提供的胎儿浓度定量的方法的详细流程示意图；

图3示出了根据本发明的一种优选实施例中提供的建立胎儿浓度校正模型的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

现有技术中利用靶向捕获文库的测序数据检测变异，是因为靶向捕获文库中的目标序列仅占基因组很小比例，因而可以获得高深度的测序数据。而产前诊断文库是全基因组测序，测序深度相对较低，但因针对的是全基因组序列，能够获得的SNP位点很多，因而便于利用贝叶斯定理对胎儿浓度进行估算。而靶向捕获文库所能获得的SNP位点数相对较少，因而难以通过产前诊断文库的测序数据中胎儿浓度的检测方法来进行计算。虽然现有技术中也有少数通过高深度测序的靶向捕获文库的测序数据来对胎儿浓度进行定量的报道，但目前的方法得到的胎儿浓度不准确。

一方面为了改变现有主流方法需要测两个文库的数据来实现胎儿浓度的定量和变异检测，另一方面也为了提高靶向捕获文库测序数据得到的胎儿浓度的准确性，本申请对仅利用靶向捕获测序文库对胎儿浓度的定量方法进行了深入的研究，并通过对测序数据进行分析发现，目前仅想到了利用测序数据中的母亲纯合胎儿杂合的AAAB型SNP位点来进行胎儿浓度的计算，但都未发现利用此类方法计算得到的胎儿浓度存在不准确的现象。发明人经分析发现，此类方法不准确的根本原因在于，在计算胎儿浓度时，这些AAAB型SNP位点的总数目及平均测序深度对胎儿浓度的影响较大，而现有方法都未考虑其对胎儿浓度的影响。

进一步地，发明人利用一批已知胎儿浓度的靶向测序文库的测序数据，通过统计每个样本中AAAB型SNP位点的总数目、平均测序深度及计算得到的胎儿浓度，建立了准确的胎儿浓度与计算得到的胎儿浓度、每个样本中AAAB型SNP位点的总数目及平均测序深度之间的三元关系的模型。

为了进一步确认该模型的准确性，发明还利用该模型对该批样本中任一已知浓度的样本进行验证，发现利用该模型矫正后的胎儿的浓度更接近真实的胎儿浓度。因而，可以利用该模型对任一待测样本的胎儿浓度进行定量，因为任一待测样本的靶向测序数据均可以得到上述三个参数：AAAB型SNP位点的总数目、平均测序深度及计算得到的胎儿浓度。同时采用产前诊断文库的金标准(基于男胎Y染色体进行定量的方法)对胎儿浓度进行检测，发现采用该矫正模型矫正后的胎儿浓度与金标准一致。

因此，基于上研究成果，在本申请一种优选的实施例中，提供了一种建立胎儿浓度校正模型的方法，如图1所示，该方法包括：

步骤S101，获取多个第一类样本的测序数据，第一类样本为已知胎儿浓度的样本；

步骤S102，分别统计每个第一类样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到胎儿的计算浓度；其中，AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点；

步骤S103，根据已知胎儿浓度、计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，建立胎儿的校正浓度与计算浓度、AAAB型SNP位点的总个数及平均覆盖深度之间的关系模型，得到校正模型。

上述建立矫正模型的方法，通过利用已知胎儿浓度的样本，找出按照现有的AAAB型SNP位点计算得到的胎儿浓度与此类SNP位点的总数以及平均覆盖深度这三个参数，与真实的胎儿浓度之间的关系模型，从而得到获得准确的胎儿浓度与上述三个参数之间的关系模型，该模型是对计算得到的胎儿浓度的一种矫正，因而是一种矫正模型。利用该矫正模型能够使得到的胎儿浓度更接近真实值。

需要说明的是，上述实施例中，所用的测序数据都是靶向捕获文库的测序数据。具体的靶向捕获文库中的目标序列可以根据研究目的不同，涵盖不同目标基因的序列，可以是单一基因的，也可以是多个基因的。多个基因的，可以根据针对的对象的不同或研究兴趣的不同，设计成不同的基因panel。构建靶向捕获文库的方法采用现有方法即可，本申请中不做特殊限定。

上述实施例中，利用测序数据中的AAAB型SNP位点进行胎儿浓度计算得到胎儿的计算浓度的步骤，可以按照已有步骤进行计算，也可以采用已有的软件(比如FetalQuant)进行AAAB型SNP位点的查找和筛选。

具体地，在得到靶向文库的测序数据之后，按照常规流程过滤掉低质量序列，得到有效测序数据(Clean data)，然后利用BWA-mem比对软件将高通量测序序列比对到人类参考基因组上，未比对上的序列形成软截断。然后根据比对到参考基因组上的位置进行排序，并用samtools软件建立index，得到可供分析的高通量数据BAM文件。

为尽可能使所检测的SNP为真正的变异位点，在检测AAAB型SNP位点之前，需要先确定所检测的SNP位点(千人基因组中筛选的40％～60％人群变异频率的位点)，然后对每一例样本使用Samtools建立这些SNP位点的Mpileup文件，并用FetalQuant软件对Mpileup(Samtools的一个命令，用于生产Mpileup文件，该文件保存每个位置的碱基信息，亦可用于SNP和INDEL的分析。)文件进行检测，从而筛选得到到母体纯合胎儿杂合的位点(AAAB)。

为了使上述矫正模型矫正得到的胎儿的浓度更进一步接近真实值，发明人还对上述矫正模型建立过程中的参数进行了进一步的优化，发明在调整时，试图去掉其中计算得到的胎儿的最高计算浓度和最低计算浓度，但发现对矫正结果无明显影响。后来发现测序覆盖深度较低的SNP位点对矫正结果影响最大，根据研究所用数据，当去除覆盖深度低于100×的SNP位点时，得到的矫正浓度更接近真实值。

因此，在一种可选的实施例中，上述得到校正模型的步骤包括：从AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到剩余SNP位点的总数；利用剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，计算得到有效的计算浓度；根据已知的胎儿浓度、有效的计算浓度、剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，建立胎儿的校正浓度与有效的计算浓度、剩余SNP位点的总数及剩余SNP位点的平均覆盖深度之间的关系模型，得到校正模型。

一种可选的实施例中，剩余SNP位点的总数满足数量阈值，数量阈值为大于等于100，优选地，深度阈值为大于等于100×。

在上述实施例中，如果经过上述筛选后的剩余的SNP位点的总数小于上述数量阈值，比如小于100个时，此类AAAB型SNP位点较少，相应地，胎儿浓度即可视为0，直接输出矫正浓度为0即可。而当数量阈值大于等于100时，视为存在真正的AAAB型SNP位点，即可根据此类位点中各SNP位点的覆盖深度推断得到胎儿浓度，并根据剩余SNP对应的胎儿浓度的平均值或中位数记为胎儿的计算浓度。采用深度阈值大于等于100，可排除假阳性结果。

根据去除低覆盖深度的SNP位点后，即可计算出相对更准确的计算浓度。一种可选的实施例中，利用剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，计算得到有效的计算浓度包括：按照(2*B-DP)/DP计算出剩余SNP位点中每个SNP位点的胎儿浓度值，其中DP表示支持每个SNP位点的总reads数，B-DP表示支持每个SNP位点的来源于胎儿B等位基因型的reads数，2*B-DP表示支持每个SNP位点的来源于胎儿的A和B两种等位基因型的reads数；将剩余SNP位点的胎儿浓度值的中位数，记为有效的计算浓度。

一种可选的实施例中，分别统计每个第一类样本的测序数据中的AAAB型SNP位点的总个数之前，该方法还包括：利用FetalQuant软件找出测序数据中的AAAB型SNP位点。利用现有软件检测方便快捷。

本申请的上述矫正模型的建立方法，根据不同测序平台产出的测序数据、不同生物信息分析流程分析得到上述三个参数的结果，都可以得到胎儿的矫正浓度与上述三个参数之间的关系模型。

在本申请一种可选的实施例中，上述校正模型为：

CFF′＝1.107*CFF+0.099*ln(avgdp)-0.1447

*ln(Counts-of-AAAB)+0.3948，

本申请通过试验验证，采用该矫正模型得到的胎儿的矫正浓度与真实值非常接近。

实施例2

在一种优选的实施例中，本申请还提供了一种胎儿浓度定量的方法，该方法包括：获取待测样本的测序数据；统计待测样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到待测样本中胎儿的计算浓度；将待测样本中胎儿的计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，代入胎儿浓度的校正模型，得到待测样本中胎儿的校正浓度；其中，AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点，校正模型采用前述任一种方法建立而成。

在前述矫正模型已经建立的基础上，按照与模型建立相同的操作步骤对待测样本的靶向测序数据进行处理，得到该待测样本中胎儿的计算浓度、AAAB型SNP位点的总个数及平均覆盖深度三个参数的值，将其代入上述矫正模型中即可得到胎儿的矫正浓度。该胎儿浓度定量的方法得到的胎儿浓度结果更准确。

为了使待测样本的胎儿浓度结果更准确，一种可选的实施例中，统计待测样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到待测样本中胎儿的计算浓度包括：从待测样本的测序数据中的AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到待测样本中剩余SNP位点的总数；利用待测样本中剩余SNP位点的总数及待测样本中剩余SNP位点的平均覆盖深度，计算得到待测样本中胎儿的有效的计算浓度。

与模型建立方法中类似，去除低覆盖深度的SNP位点后，能够使得胎儿的矫正浓度结果更准确。

一种可选的实施例中，待测样本中剩余SNP位点的总数满足数量阈值，数量阈值为大于等于100，优选地，深度阈值为大于等于100×。

同样地，该方法在待测样本中剩余SNP位点的总数满足数量阈值的情况下输出为上述矫正模型矫正后的矫正浓度，当不满足数量阈值时，则直接输出矫正浓度为0。

实施例3

在本申请一种优选的实施例中，还提供了一种详细的基于靶向捕获测序数据进行胎儿浓度定量的方法，主要步骤如下：

1.对样本预处理并提取DNA；

2.目标区域捕获原理使用特定序列的捕获探针捕获样本的目标区域；

3.通过高通量测序法进行测序，得到样本的目标序列；

4.过滤掉低质量序列，利用本申请的判定流程进行检测。

具体步骤详见下图2。

该流程主要分为四部分：

第一部分：样本处理

样本DNA提取、加接头、杂交捕获、洗脱、富集及测序。

第二部分：数据处理

利用BWA-mem比对软件将高通量测序序列比对到人类参考基因组上，未比对上的序列形成软截断。然后根据比对到参考基因组上的位置进行排序，并用samtools软件建立index，得到可供分析的高通量数据BAM文件。

第三部分：数据过滤

1)：确定设计在panel(即多个目标基因的组合)中的单核苷酸多态性位点(从千人基因组中筛选到40％～60％人群频率的位点)；

2)：对每例样本使用samtools软件建立上述位点的mpileup文件(mpileup是Samtools的一个命令，用于生产mpileup文件，该文件保存每个位置的碱基信息，亦可用于SNP和INDEL的分析)；

3)：对mpileup文件使用FetalQuant软件进行检测，找到母体纯合胎儿杂合的位点(AAAB)；

4)：去除测序覆盖深度小于100的位点；

5)：根据每个位点按照(2*B-DP)/DP计算出每个位点推测的胎儿浓度，其中DP表示支持每个SNP位点的总reads数，B-DP表示支持每个SNP位点的来源于胎儿B等位基因型的reads数，2*B-DP表示支持每个SNP位点的来源于胎儿的A和B两种等位基因型的reads数；

6)：对所有位点的胎儿浓度取中位数得到样本的胎儿浓度。

第四部分：数据校正

提取出AAB位点的平均覆盖深度和AAAB位点总个数，利用如下三元线性回归模型得到校正后的胎儿浓度：

CFF′＝1.107*CFF+0.099*ln(avgdp)-0.1447

*ln(Counts-of-AAAB)+0.3948，

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

对应于上述方式，本申请还分别提供了一种建立胎儿浓度校正模型的装置及一种胎儿浓度定量的装置，这些装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

下面结合可选的实施例进一步说明。

实施例4

在本申请一种优选的实施例中，还提供了一种建立胎儿浓度校正模型的装置，如图3所示，该装置包括：第一获取模块20、第一统计计算模块40与模型建立模块60，其中，第一获取模块用于获取多个第一类样本的测序数据，第一类样本为已知胎儿浓度的样本，测序数据为靶向捕获文库的测序数据；第一统计计算模块用于分别统计每个第一类样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到胎儿的计算浓度；模型建立模块用于根据已知胎儿浓度、计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，建立胎儿的校正浓度与计算浓度、AAAB型SNP位点的总个数及平均覆盖深度之间的关系模型，得到校正模型；其中，AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点。

上述建立矫正模型的装置，通过利用已知胎儿浓度的样本，找出按照现有的AAAB型SNP位点计算得到的胎儿浓度与此类SNP位点的总数以及平均覆盖深度这三个参数，与真实的胎儿浓度之间的关系模型，从而得到获得准确的胎儿浓度与上述三个参数之间的关系模型，该模型是对计算得到的胎儿浓度的一种矫正，因而是一种矫正模型。利用该矫正模型能够使得到的胎儿浓度更接近真实值。

一可选实施例中，所述第一统计计算模块包括：去除模块，用于从AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到剩余SNP位点的总数；及计算浓度模块，用于利用剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，计算得到有效的计算浓度；模型建立子模块用于根据已知的胎儿浓度、有效的计算浓度、剩余SNP位点的总数及剩余SNP位点的平均覆盖深度，建立胎儿的校正浓度与有效的计算浓度、剩余SNP位点的总数及剩余SNP位点的平均覆盖深度之间的关系模型，得到校正模型。

一可选实施例中，剩余SNP位点的总数满足数量阈值，数量阈值为大于等于100，优选地，深度阈值为大于等于100×。

一可选实施例中，计算浓度模块包括：位点浓度模块，用于按照(2*B-DP)/DP计算出剩余SNP位点中每个SNP位点的胎儿浓度值，其中DP表示支持每个SNP位点的总reads数，B-DP表示支持每个SNP位点的来源于胎儿B等位基因型的reads数，2*B-DP表示支持每个SNP位点的来源于胎儿的A和B两种等位基因型的reads数；中位数模块，用于将剩余SNP位点的胎儿浓度值的中位数，记为有效的计算浓度。

一可选实施例中，该装置还包括AAAB基因型筛选模块，该模块优选为FetalQuant，可以找出测序数据中的AAAB型SNP位点。

一可选实施例中，校正模型为：

CFF′＝1.107*CFF+0.099*ln(avgdp)-0.1447

*ln(Counts-of-AAAB)+0.3948，

实施例5

在本申请一种优选的实施例中，还提供了一种胎儿浓度定量的装置，该装置包括：第二获取模块、第二统计计算模块及校正模块，其中，第二获取模块用于获取待测样本的测序数据；第二统计计算模块用于统计待测样本的测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到待测样本中胎儿的计算浓度；校正模块用于将待测样本中胎儿的计算浓度、AAAB型SNP位点的总个数及平均覆盖深度，代入胎儿浓度的校正模型，得到待测样本中胎儿的校正浓度；其中，AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点，校正模型采用上述任一种建立胎儿浓度校正模型的方法建立而成。

在前述矫正模型已经建立的基础上，按照与模型建立相同的操作步骤对待测样本的靶向测序数据进行处理，得到该待测样本中胎儿的计算浓度、AAAB型SNP位点的总个数及平均覆盖深度三个参数的值，将其代入上述矫正模型中即可得到胎儿的矫正浓度。该胎儿浓度定量的装置得到的胎儿浓度结果更准确。

一可选实施例中，第二统计计算模块包括：第二去除模块，用于从待测样本的测序数据中的AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到待测样本中剩余SNP位点的总数；第二计算浓度模块，用于利用待测样本中剩余SNP位点的总数及待测样本中剩余SNP位点的平均覆盖深度，计算得到待测样本中胎儿的有效的计算浓度。

一可选实施例中，待测样本中剩余SNP位点的总数满足数量阈值，数量阈值为大于等于100，优选地，深度阈值为大于等于100×。

本申请还提供了一种存储介质，该存储介质上存储有计算机可执行的程序，程序被设置为运行时，执行上述任一种建立胎儿浓度校正模型的方法，或上述任一种胎儿浓度定量的方法。

本申请还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，计算机程序执行上述任一种建立胎儿浓度校正模型的方法，或上述任一种胎儿浓度定量的方法。

实施例6

以下实施例的第一部分中，待检的样本是已知男胎的孕妇外周血样本。

该实施例中，主要试剂用品是市售的，信息如下：

表1：

具体步骤如下：

1.利用荧光定量计(Qubit)进行定量，其浓度为3.8ng/ul,体积为130ul；利用超声破碎仪(Covaris)对样品进行片段化，使DNA片段大小在200-400bp之间，然后利用琼脂糖凝胶电泳检测片段大小是否符合要求。

2.先将片段化的样品进行磁珠纯化，然后进行末端修复和3’端腺苷化，体系配置见下面表格，基本步骤如下：先在20℃温浴30min，其次在65℃温浴30min结束反应。

表2：

末端修复和3’端腺苷化缓冲液	7μl
		末端修复和3’端腺苷化酶混合液	3μl
DNA	50ul(500ng)

3.将上述修复后的DNA进行接头连接，接头连接体系详见下表，在20℃温浴15min。

表3：

试剂	体积
		带标签的接头	2.5μl
DNA样品	60ul
		连接反应液	30ul
连接酶	10ul
		无核酸酶的水	7.5ul

4.将上述接头连接后的产物进行磁珠纯化，然后进行PCR扩增，得到足量的带接头的DNA片段，基本步骤如下：先在98℃预变性45s，其次在98℃变性15s，然后在60℃退火30s，72℃延伸30s；重复变性退火延伸过程7次；最后在72℃延伸1min，结束反应。扩增体系见下表：

表4：

试剂	体积
		快速热启动聚合酶	25μL
扩增引物	1uL
		连上接头的DNA片段	24μL

5.对PCR扩增产物进行磁珠纯化后，利用Qubit定量得到浓度后，取出500ng扩增产物(P5接头端引物，SEQ ID NO:1:aatgatacggcgaccaccgaga，P7接头端引物，SEQ ID NO:2:caagcagaagacggcatacgag)，使用浓缩仪将扩增产物体积浓缩到4.4ul，然后进行封闭和探针杂交，杂交反应体系如下表所示：

表5:

试剂	体积
		封闭试剂混合液	5.6μl
P5、P7封闭试剂	2ul
		快速封闭试剂	5ul
RNA酶封闭试剂	2ul
		针对目标区域的生物素探针	2ul
杂交缓冲液	6ul
		无核酸酶的水	3ul
PCR扩增产物	4.4ul

杂交反应条件如下表所示：

表6：

6.使用链霉亲合素磁珠对探针结合的样品进行捕获，步骤如下：将50ul磁珠加入1.5ml离心管，置于磁力架上，弃上清，用200ul连接缓冲液清洗三遍后，使用200ul连接缓冲液重悬磁珠，将与探针杂交的样品加入磁珠，混匀仪上颠倒混匀30min，置于磁力架上，弃上清，用清洗液1清洗1遍，然后用预热到65℃的清洗液2清洗3遍，期间保证磁珠和缓冲液2的温度在65℃。最后置于磁力架上，弃上清，加入38ul无核酸酶的水，重悬磁珠。

7.将磁珠捕获到的DNA片段进行PCR扩增，扩增体系见下表，得到足量的加上接头的DNA片段，基本步骤如下：先在98℃预变性2min，其次在98℃变性30s，然后在60℃退火30s，72℃延伸1min；重复变性退火延伸过程14次；最后在72℃延伸5min，结束反应。反应体系如下所示:

表7：

试剂	体积
		高保真DNA聚合酶	1ul
扩增引物	1ul
		高保真DNA聚合酶反应混和液	10ul
单核苷酸混合液	0.5ul
		磁珠上的目标区域DNA	37.5ul

8.将得到的PCR扩增产物进行磁珠纯化，然后利用qPCR定量，利用2100进行片段大小检测。

9.测序，在基因测序仪上完成测序，测序平台将得到的光信号转化为碱基序列下机数据为fastq文件存储所有测序片段结果。

在本实施例的第二部分中，将下机数据fq文件比对上参考基因组，去除低质量序列，使用前述实施例2的检测流程进行检测。

样本检测结果为：

该例样本使用产前诊断文库确定金标准(基于男胎Y染色体检测的方法)测得的胎儿浓度为0.1453，经过本申请的流程检测得到的胎儿浓度是0.1458，达到了与金标准一致的检测能力。

实施例7

使用4例用无创产前检测男胎胎儿浓度的结果作为金标准，采用本申请的基于靶向捕获的测序数据对所有胎儿浓度进行定量检测，检测结果见下表：

表8：

样本编号	平均深度	AAAB位点个数	金标准胎儿浓度	胎儿浓度
					S1	1204.60	1855	0.13956	0.13955
S2	712.33	1421	0.12162	0.12161
					S3	664.36	1840	0.06956	0.06955
S4	749.32	1487	0.23190	0.23189

从上表结果可以看出，采用本申请的方法均可以对胎儿浓度准确定量。与使用产前诊断文库确定胎儿浓度相比，本申请的胎儿浓度定量的方法和装置可以在缺乏产前诊断文库的情况下基于靶向测序文库进行胎儿浓度定量，并且实现与产前诊断文库相当的准确性。除此之外，使用本申请的方法和装置可以不仅可以充分利用靶向测序文库的数据，还能够节省样本，使得在仅有靶向测序文库的情况下进行单基因病检测成为可能。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：为了解决信息利用不充分和浪费样本的问题，本申请发明了基于靶向捕获进行胎儿浓度定量的方法，利用申请人已有的样本测序数据中的单核苷酸多态性位点，准确识别出母亲纯合胎儿杂合(AAAB)的位点，根据本申请中设计的过滤及矫正模型，从而判定出待测血浆样本的胎儿浓度信息。

本申请集合目标区域捕获的高通量测序技术，借助设计的单核苷酸多态性位点，可以准确进行胎儿浓度定量，该方法具有高灵敏性和高特异性的特点。

本申请所提供的基于靶向捕获测序进行胎儿浓度定量的方法及装置，通过目标区域捕获技术从DNA从获取目的基因扩增产物，然后通过高通量测序方法得到其序列，通过对序列结果进行单核苷酸多态性确定，位点区分，噪音过滤等步骤实现胎儿浓度含量的确定。最后需要说明的是，本申请的方法不应用于疾病的诊断和治疗。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 北京科迅生物技术有限公司

<120> 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置

<130> PN114923YXYX

<160> 2

<170> SIPOSequenceListing 1.0

<210> 1

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(22)

<223> P5接头端引物

<400> 1

aatgatacgg cgaccaccga ga 22

<210> 2

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(22)

<223> P7接头端引物

<400> 2

caagcagaag acggcatacg ag 22

Claims

1.一种建立胎儿浓度校正模型的方法，其特征在于，所述方法包括：

获取多个第一类样本的测序数据，所述第一类样本为已知胎儿浓度的样本，所述测序数据为靶向捕获文库的测序数据；

分别统计每个所述第一类样本的所述测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到胎儿的计算浓度；

根据所述已知胎儿浓度、所述计算浓度、所述AAAB型SNP位点的总个数及所述平均覆盖深度，建立胎儿的校正浓度与所述计算浓度、所述AAAB型SNP位点的总个数及所述平均覆盖深度之间的关系模型，得到所述校正模型；

其中，所述AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点。

2.根据权利要求1所述的方法，其特征在于，得到所述校正模型包括：

从所述AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到剩余SNP位点的总数；

利用所述剩余SNP位点的总数及所述剩余SNP位点的平均覆盖深度，计算得到有效的计算浓度；

根据已知的所述胎儿浓度、有效的所述计算浓度、所述剩余SNP位点的总数及所述剩余SNP位点的平均覆盖深度，建立胎儿的校正浓度与有效的所述计算浓度、所述剩余SNP位点的总数及所述剩余SNP位点的平均覆盖深度之间的关系模型，得到所述校正模型。

3.根据权利要求2所述的方法，其特征在于，所述剩余SNP位点的总数满足数量阈值，所述数量阈值为大于等于100，优选地，所述深度阈值为大于等于100×。

4.根据权利要求2所述的方法，其特征在于，利用所述剩余SNP位点的总数及所述剩余SNP位点的平均覆盖深度，计算得到有效的计算浓度包括：

按照(2*B-DP)/DP计算出所述剩余SNP位点中每个SNP位点的胎儿浓度值，其中DP表示支持每个所述SNP位点的总reads数，B-DP表示支持每个所述SNP位点的来源于胎儿B等位基因型的reads数，2*B-DP表示支持每个所述SNP位点的来源于胎儿的A和B两种等位基因型的reads数；

将所述剩余SNP位点的所述胎儿浓度值的中位数，记为有效的所述计算浓度。

5.根据权利要求1至4中任一项所述的方法，其特征在于，分别统计每个所述第一类样本的所述测序数据中的AAAB型SNP位点的总个数之前，所述方法还包括：

利用FetalQuant找出所述测序数据中的所述AAAB型SNP位点。

6.根据权利要求2至4中任一项所述的方法，其特征在于，所述校正模型为：

CFF'＝1.107*CFF+0.099*ln(avgdp)-0.1447*ln(Counts-of-AAAB)+0.3948，

其中，CFF’为所述校正浓度，CFF为所述计算浓度，Counts-of-AAAB为所述剩余SNP位点的总数，avgdp为所述剩余SNP位点的平均覆盖深度。

7.一种胎儿浓度定量的方法，其特征在于，所述方法包括：

获取待测样本的测序数据；

统计所述待测样本的所述测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到所述待测样本中胎儿的计算浓度；

将所述待测样本中胎儿的所述计算浓度、所述AAAB型SNP位点的总个数及所述平均覆盖深度，代入胎儿浓度的校正模型，得到所述待测样本中胎儿的校正浓度；

其中，所述AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点，所述校正模型为权利要求1至6中任一项所述的方法建立的校正模型。

8.根据权利要求7所述的方法，其特征在于，统计所述待测样本的所述测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到所述待测样本中胎儿的计算浓度包括：

从所述待测样本的所述测序数据中的所述AAAB型SNP位点的所述总个数中去除覆盖深度低于深度阈值的位点，得到所述待测样本中剩余SNP位点的总数；

利用所述待测样本中所述剩余SNP位点的总数及所述待测样本中所述剩余SNP位点的平均覆盖深度，计算得到所述待测样本中胎儿的有效的计算浓度。

9.根据权利要求8所述的方法，其特征在于，所述待测样本中剩余SNP位点的总数满足数量阈值，所述数量阈值为大于等于100，优选地，所述深度阈值为大于等于100×。

10.一种建立胎儿浓度校正模型的装置，其特征在于，所述装置包括：

第一获取模块，用于获取多个第一类样本的测序数据，所述第一类样本为已知胎儿浓度的样本，所述测序数据为靶向捕获文库的测序数据；

第一统计计算模块，用于分别统计每个所述第一类样本的所述测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到胎儿的计算浓度；

模型建立模块，用于根据所述已知胎儿浓度、所述计算浓度、所述AAAB型SNP位点的总个数及所述平均覆盖深度，建立胎儿的校正浓度与所述计算浓度、所述AAAB型SNP位点的总个数及所述平均覆盖深度之间的关系模型，得到所述校正模型；

11.根据权利要求10所述的装置，其特征在于，

所述第一统计计算模块包括：

第一去除模块，用于从AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到剩余SNP位点的总数；以及

第一计算浓度模块，用于利用所述剩余SNP位点的总数及所述剩余SNP位点的平均覆盖深度，计算得到有效的所述计算浓度；

所述模型建立模块用于根据所述已知胎儿浓度、有效的所述计算浓度、所述剩余SNP位点的总数及所述剩余SNP位点的平均覆盖深度，建立胎儿的所述校正浓度与有效的所述计算浓度、所述剩余SNP位点的总数及所述剩余SNP位点的平均覆盖深度之间的关系模型，得到所述校正模型。

12.根据权利要求11所述的装置，其特征在于，所述剩余SNP位点的总数满足数量阈值，数量阈值为大于等于100，优选地，深度阈值为大于等于100×。

13.根据权利要求11所述的装置，其特征在于，所述第一计算浓度模块包括：

位点浓度模块，用于按照(2*B-DP)/DP计算出所述剩余SNP位点中每个SNP位点的胎儿浓度值，其中DP表示支持每个SNP位点的总reads数，B-DP表示支持每个SNP位点的来源于胎儿B等位基因型的reads数，2*B-DP表示支持每个SNP位点的来源于胎儿的A和B两种等位基因型的reads数；

中位数模块，用于将所述剩余SNP位点的胎儿浓度值的中位数，记为有效的所述计算浓度。

14.根据权利要求10所述的装置，其特征在于，所述装置还包括AAAB基因型筛选模块，优选为FetalQuant。

15.根据权利要求10所述的装置，其特征在于，所述校正模型为：

CFF'＝1.107*CFF+0.099*ln(avgdp)-0.1447*ln(Counts-of-AAAB)+0.3948，

16.一种胎儿浓度定量的装置，其特征在于，所述装置包括：

第二获取模块，用于获取待测样本的测序数据；

第二统计计算模块，用于统计所述待测样本的所述测序数据中的AAAB型SNP位点的总个数及平均覆盖深度，并计算得到所述待测样本中胎儿的计算浓度；

校正模块，用于将所述待测样本中胎儿的所述计算浓度、所述AAAB型SNP位点的总个数及所述平均覆盖深度，代入胎儿浓度的校正模型，得到所述待测样本中胎儿的校正浓度；

其中，所述AAAB型SNP位点是指母本为AA纯合型而胎儿为AB杂合型的SNP位点，所述校正模型采用权利要求1至6中任一项所述的建立胎儿浓度校正模型的方法建立而成。

17.根据权利要求16所述的装置，其特征在于，所述第二统计计算模块包括：

第二去除模块，用于从所述待测样本的测序数据中的AAAB型SNP位点的总个数中去除覆盖深度低于深度阈值的位点，得到待测样本中剩余SNP位点的总数；

第二计算浓度模块，用于利用所述待测样本中剩余SNP位点的总数及所述待测样本中剩余SNP位点的平均覆盖深度，计算得到所述待测样本中胎儿的有效的计算浓度。

18.根据权利要求17所述的装置，其特征在于，所述待测样本中所述剩余SNP位点的总数满足数量阈值，所述数量阈值为大于等于100，优选地，深度阈值为大于等于100×。

19.一种存储介质，所述存储介质上存储有计算机可执行的程序，其特征在于，所述程序被设置为运行时，执行权利要求1至6中任一项所述的建立胎儿浓度校正模型的方法，或权利要求7至9中任一项所述的胎儿浓度定量的方法。

20.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述计算机程序执行权利要求1至6中任一项所述的建立胎儿浓度校正模型的方法，或权利要求7至9中任一项所述的胎儿浓度定量的方法。