CN110970089A

CN110970089A - 胎儿浓度计算的预处理方法、预处理装置及其应用

Info

Publication number: CN110970089A
Application number: CN201911204467.7A
Authority: CN
Inventors: 吴梦思; 张静波; 王伟伟; 高司航; 刘�文; 伍启熹; 王建伟
Original assignee: Beijing Youxun Medical Devices Co ltd
Current assignee: Beijing Youxun Medical Devices Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-07
Anticipated expiration: 2039-11-29
Also published as: CN110970089B

Abstract

本发明提供了一种胎儿浓度计算的预处理方法、预处理装置及其应用。该预处理方法包括：获取多个样本的测序数据；利用测序数据计算每个样本在不同的分析策略下的胎儿浓度，不同的分析策略包括不同的测序reads长度和不同的测序总数据量；对多个样本在不同的分析策略下计算得到的胎儿浓度进行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。通过对在不同测序策略下得到的胎儿浓度进行多因素方差分析，获得不同测序reads长度、不同测序总数据量以及两者的交互作用与胎儿浓度计算间的相关性，进而获得相关性最高的分析策略，便于后续进行胎儿浓度计算时，采用该相关性最高的分析策略进行分析计算，提高计算的准确性。

Description

胎儿浓度计算的预处理方法、预处理装置及其应用

技术领域

本发明涉及高通量测序技术领域，具体而言，涉及一种胎儿浓度计算的预处理方法、预处理装置及其应用。

背景技术

无创产前筛查技术(NIPS)是一种通过采取孕妇静脉血，利用新一代DNA测序技术对母体外周血浆中的游离DNA片段(包括胎儿游离DNA)进行测序，通过生物信息分析得到胎儿的遗产信息，从而检测胎儿是否患有染色体遗传病(包括21/18/13号染色体以及微缺失微重复疾病)的检测手段。获得准确的胎儿浓度对于NIPS是至关重要的，尤其是对无创单基因病以及微缺失微重复综合症的临床应用而言，它是影响NIPS检测性能的非常重要的指标，低胎儿浓度很可能会导致假阴性结果以及更高的检测失败率。

目前，已经有研究报道孕周、孕龄及孕妇体重等因素与胎儿浓度计算密切相关，但是除了孕妇及胎儿的自身因素外，生物信息分析策略(包括reads长度，数据量)等主观因素也可能会影响胎儿浓度的计算。例如，当采用不同的reads长度对相同的样本进行分析时，最终得到的有效数据量，GC含量都可能会有所差异，进而影响到胎儿浓度的精确计算。

因此，急需在对胎儿浓度计算之前进行对生物信息学分析策略进行评估，以明确生物信息分析过程中可能影响胎儿浓度的因素，确定最优的生物信息分析策略，进而计算得到准确的胎儿浓度。

发明内容

本发明的主要目的在于提供一种胎儿浓度计算的预处理方法、预处理装置及其应用，以解决现有技术中胎儿浓度计算不准确的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种胎儿浓度计算的预处理方法，预处理方法包括：获取多个样本的测序数据；利用测序数据，计算每个样本在不同的分析策略下的胎儿浓度，其中，不同的分析策略包括不同的测序reads长度和不同的测序总数据量；对多个样本在不同的分析策略下计算得到的胎儿浓度进行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。

进一步地，计算每个样本在不同的分析策略下的胎儿浓度包括：对每个样本的测序数据分别按照不同的测序reads长度进行截取，得到多个不同长度的测序reads文件；从每个测序reads文件中随机抽取reads，形成不同的测序总数据量的测序reads文件；将各测序reads文件分别与参考基因组序列进行比对，获得unique reads；将每条染色体划分为多个窗口，根据比对到每个窗口内的unique reads数，分别统计X染色体和Y染色体上的unique reads数的均值mx和my；按照如下公式(1)和公式(2)计算每个样本在不同的分析策略下得到的胎儿浓度：

p＝m_y/m_x……………………(1)，

h＝2*p/(1+p)…………………(2)，

其中，h值即为每个样本在不同的分析策略下得到的胎儿浓度。

进一步地，测序reads长度为35～150bp，测序获得的总数据量为5M～12M。

进一步地，将每条染色体划分为多个窗口，根据比对到每个窗口内的uniquereads数，分别统计X染色体和Y染色体上的unique reads数的均值mx和my包括：将每条染色体划分为多个窗口，计算比对到每个窗口内的unique reads数及unique reads的GC含量；对剩余窗口内的unique reads进行标准化处理，得到每个窗口内标准化后对应的uniquereads数；分别计算X染色体和Y染色体上的unique reads数的均值m_x和m_y。

进一步地，在得到每个窗口内标准化后对应的unique reads数之后，以及分别计算X染色体和Y染色体上的unique reads数的均值m_x和m_y之前，预处理方法还包括：对所有染色体内所有窗口的GC含量进行排序，采用平滑样条法对每个窗口进行GC校正，得到校正后的对应窗口的unique reads数。

进一步地，对多个样本在不同分析策略下的胎儿浓度进行多因素方差分析，获得与胎儿浓度相关性最高的分析策略包括：确定多个样本满足多因素方差分析的以下假定前提条件：1)多个样本为随机选取且相互独立的样本；2)多个样本在不同分析策略下的胎儿浓度满足方差齐性假设；3)多个样本在不同分析策略下的胎儿浓度服从正态分布；重复执行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。

进一步地，与胎儿浓度相关性最高的分析策略为测序reads长度，在获得与胎儿浓度相关性最高的分析策略后，预处理方法还包括：计算每个样本在不同测序reads长度下各窗口的unique reads数的均数、标准差以及变异系数，以确定最优的reads长度。

根据本申请的第二个方面，还提供了一种胎儿浓度的计算方法，该计算方法包括：按照上述任一种预处理方法获得最佳分析策略；根据最佳分析策略对待分析的测序数据进行分析计算，得到胎儿浓度。

根据本申请的第三个方面，还提供了一种胎儿浓度计算的预处理装置，该预处理装置包括：获取模块、第一计算模块及分析模块，获取模块，用于获取多个样本的测序数据；第一计算模块，用于利用测序数据，计算每个样本在不同的分析策略下的胎儿浓度，其中，不同的分析策略包括不同的测序reads长度和不同的测序总数据量；分析模块，用于对多个样本在不同的分析策略下计算得到的胎儿浓度进行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。

进一步地，计算模块包括：长度截取模块、数据量模块、比对模块、统计模块及第二计算模块，长度截取模块，用于对每个样本的测序数据分别按照不同的测序reads长度进行截取，得到多个不同长度的测序reads文件；数据量模块，用于从每个测序reads文件中随机抽取reads，形成不同的测序总数据量的测序reads文件；比对模块，用于将各测序reads文件分别与参考基因组序列进行比对，获得unique reads；统计模块，用于将每条染色体划分为多个窗口，根据比对到每个窗口内的unique reads数，分别统计X染色体和Y染色体上的unique reads数的均值mx和my；第二计算模块，用于按照如下公式(1)和公式(2)计算每个样本在不同的分析策略下得到的胎儿浓度：

p＝m_y/m_x……………………(1)，

h＝2*p/(1+p)…………………(2)，

其中，h值即为每个样本在不同的分析策略下得到的胎儿浓度；

优选地，测序reads长度为35～150bp，测序获得的总数据量为5M～12M。

进一步地，统计模块包括：第一计算单元、标准化单元及第二计算单元，第一计算单元，用于将每条染色体划分为多个窗口，计算比对到每个窗口内的unique reads数及unique reads的GC含量；标准化单元，用于对剩余窗口内的unique reads进行标准化处理，得到每个窗口内标准化后对应的unique reads数；第二计算单元，用于分别计算X染色体和Y染色体上的unique reads数的均值m_x和m_y。

进一步地，预处理装置还包括：GC校正单元，用于对所有染色体内所有窗口的GC含量进行排序，采用平滑样条法对每个窗口进行GC校正，得到校正后的对应窗口的uniquereads数。

进一步地，分析模块包括：确定单元和方差分析单元，确定单元，用于确定多个样本满足多因素方差分析的以下假定前提条件：1)多个样本为随机选取且相互独立的样本；2)多个样本在不同分析策略下的胎儿浓度满足方差齐性假设；3)多个样本在不同分析策略下的胎儿浓度服从正态分布；方差分析单元，重复执行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。

进一步地，与胎儿浓度相关性最高的分析策略为测序reads长度，预处理装置还包括：长度确定单元，用于计算每个样本在不同测序reads长度下各窗口的unique reads数的均数、标准差以及变异系数，以确定最优的reads长度。

根据本申请的第四个方面，提供了一种胎儿浓度的计算装置，该计算装置包括：最佳分析策略获取模块及胎儿浓度获取模块，最佳分析策略获取模块，用于按照上述任一种预处理装置获得最佳分析策略；胎儿浓度获取模块，用于根据最佳分析策略对待分析的测序数据进行分析计算，获得胎儿浓度。

根据本申请的第五个方面，提供了一种存储介质，存储介质上存储有计算机可执行的程序，程序被设置为运行时，执行上述任一种胎儿浓度计算的预处理方法。

根据本申请的第六个方面，提供了一种电子装置，包括存储其和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一种胎儿浓度计算的预处理方法。

应用本发明的技术方案，通过利用多个样本的在不同测序策略下计算得到的胎儿浓度，进行多因素方差分析，从而获得不同测序reads长度、不同测序总数据量以及两者的交互作用与胎儿浓度计算间的相关性，从而能够获得与胎儿浓度相关性最高的分析策略，以便于后续在进行胎儿浓度计算时，采用该相关性最高的分析策略进行分析计算，提高计算的准确性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的一种优选的实施例中的胎儿浓度计算的预处理方法；

图2示出了根据本发明的一种优选的实施例中对多个样本检验是否满足正态分布的qqplot图；

图3示出了出了根据本发明的一种优选的实施例中两因素交互作用的图形分析；

图4示出了出了根据本发明的一种优选的实施例中胎儿浓度随测序长度变化的趋势；

图5示出了出了根据本发明的一种优选的实施例中每个样本每种测序长度水平目标窗口的unique reads数的变异系数变化图；以及

图6示出了根据本发明的一种优选的实施例中的胎儿浓度计算的预处理装置。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释:

Reads:高通量测序平台产生的序列称为reads，是测序读到的碱基序列片段，是测序的最小单位。

Unique reads:指在参考基因组上有唯一比对位置的reads。

如背景技术所提到的，现有技术中在利用测序数据进行生物信息学分析计算胎儿浓度时，尚没有考虑过不同的分析策略对最终得到的胎儿浓度结果的影响，为了改善这一状况，本申请提出了对不同分析策略进行评估的方案。

实施例1

一种优选的实施例中，提供了一种胎儿浓度计算的预处理方法。图1示出了该实施例中的胎儿浓度计算的预处理方法。如图1所示，该预处理方法包括：

步骤S101，获取多个样本的测序数据；

步骤S102，利用测序数据，计算每个样本在不同的分析策略下得到的胎儿浓度，其中，不同的分析策略包括不同的测序reads长度和不同的测序总数据量；

步骤S103，对多个样本在不同的分析策略下的胎儿浓度进行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。

本申请的上述预处理方法，通过利用多个样本的在不同测序策略下计算得到的胎儿浓度，进行多因素方差分析，从而获得不同测序reads长度、不同测序总数据量以及两者的交互作用与胎儿浓度计算间的相关性，从而能够获得与胎儿浓度相关性最高的分析策略，以便于后续在进行胎儿浓度计算时，采用该相关性最高的分析策略进行分析计算，提高计算的准确性。

上述利用测序数据计算每个样本在不同的分析策略下的胎儿浓度的计算方法采用已知方法进行计算即可。在一种优选实施例中，采用如下方法计算：对每个样本的测序数据分别按照不同的测序reads长度进行截取，得到多个不同长度的测序reads文件；从每个测序reads文件中随机抽取reads，形成不同的测序总数据量的测序reads文件；将各测序reads文件分别与参考基因组序列进行比对，获得unique reads；将每条染色体划分为多个窗口，根据比对到每个窗口内的unique reads数，分别统计X染色体和Y染色体上的uniquereads数的均值mx和my；按照如下公式(1)和公式(2)计算每个样本在不同的分析策略下得到的胎儿浓度：

p＝m_y/m_x……………………(1)，

h＝2*p/(1+p)…………………(2)，

根据所选的样本的测序数据中的reads的长度，可以合理设置不同的分析策略。在一种优选实施例中，测序reads长度为35～150bp，测序获得的总数据量为5M～12M。不同的分析策略，如测序长度为150bp的测序数据，则可以将测序数据中的reads按照35bp、50bp、75bp、90bp、100bp、120bp、125bp及150bp中的多个不同的长度进行分析计算胎儿浓度。而不同的长度下，又可以根据数据量的多少进行分析计算，比如5M、6M、7M、8M、9M、10M、11M或12M等多个不同的数据量进行分析计算。

上述在计算胎儿浓度的步骤中可以采用，在一种优选实施例中，将每条染色体划分多个窗口，根据比对到每个窗口内的unique reads数，分别统计X染色体和Y染色体上的unique reads数的均值mx和my包括：将每条染色体划分为多个窗口，计算比对到每个窗口内的unique reads数及unique reads的GC含量；对剩余窗口内的unique reads进行标准化处理，得到每个窗口内标准化后对应的unique reads数；分别计算X染色体和Y染色体上的unique reads数的均值m_x和m_y。

无创产前基因检测受到生物学与实验技术手段的影响，GC偏差是其中一种非常重要的影响因素，通过扩增和测序引入的GC偏差对非整倍性检测的敏感性产生了操作限制，在不同条件例如试剂组成、簇密度和温度下，GC偏差可能在样品制备和测序过程中引入，这造成对不同GC组成的DNA分子的差异取样和富含GC或少含GC的染色体的测序数据的显著偏差。为了提高敏感性和结果的可靠性，需去除GC的偏差效应。

因此，在一种优选实施例中，在得到每个窗口内标准化后对应的unique reads数之后，以及分别计算X染色体和Y染色体上的unique reads数的均值m_x和m_y之前，上述预处理方法还包括：对所有染色体内所有窗口的GC含量进行排序，采用平滑样条法对每个窗口进行GC校正，得到校正后的对应窗口的unique reads数。

在一种优选实施例中，对多个样本在不同分析策略下的胎儿浓度进行多因素方差分析，获得与胎儿浓度相关性最高的分析策略包括：确定多个样本满足多因素方差分析的以下假定前提条件：1)多个样本为随机选取且相互独立的样本；2)多个样本在不同分析策略下的胎儿浓度满足方差齐性假设；3)多个样本在不同分析策略下的胎儿浓度服从正态分布；重复执行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。

由于进行方差分析的假定前提条件为：1、各处理条件下的样本是随机的；2、各处理条件下样本相互独立；3、各处理条件下的样本来自正太分布总体；4、各处理条件下的样本不同水平下各观测变量总体方差相等，即方差齐性。

上述优选实施例通过确定符合方法分析的假定前提条件后再进行重复执行多因素方差分析。具体的确定步骤示例如下：首先，样本是随机选取的且相互独立，其次，通过R语言进行Bartlett检验评价方差是否齐性，计算得到p>0.05，满足方差齐性假设；最后通过qqplot图验证一组数据是否来自某个分布。本申请一优选实施例中，如图2所示，通过绘制qqplot图进行正态性检验，发现在自变量的各个水平下，因变量没有极端异常值，且因变量服从近似正态分布。

上述优选实施例采用了重复测量设计，每一个体作为自身对照，克服了个体间的变异，处理时可以聚焦于处理效应，且研究所需个体相对较少，分析时占用资源少，更加经济。

在一优选实施例中，通过方差分析进行差异性检验，如图3所示，发现胎儿浓度与reads长度显著相关(p＝4.1e-08)，与数据量无关(0.11)。因此，在一种优选实施例中，与胎儿浓度相关性最高的分析策略为测序reads长度，在获得与胎儿浓度相关性最高的分析策略后，上述预处理方法还包括：计算每个样本在不同测序reads长度下各窗口的uniquereads数的均数、标准差以及变异系数，以确定最优的reads长度。如图4和图5所示，当reads长度为100bp时计算得到的胎儿浓度(fetal fraction,FF)最大(图4)且变异系数(CV)最小(图5)。变异系数最小的意味着在该测序read长度下计算得到的胎儿浓度波动最小。

实施例2

本实施例提供了一种更具体的胎儿浓度计算的预处理方法，具体步骤如下：

1.随机选择20个NIPS样本，通过高通量测序获得测序片段长度为150个碱基序列的全基因组序列，并去除接头及低质量的碱基序列(fastq文件)；

2.将reads长度为150bp的碱基序列截成reads长度分别为35bp、50bp、75bp、100bp、125bp、150bp的碱基序列；

3.然后从上述得到的不同reads长度的fastq文件中随机抽取reads，得到包含不同的数据量(6M，8M，10M，12M)的fastq文件，最终每个样本将分别得到24个不同片段长度及不同数据量的fastq文件；

4.将得到的fastq文件采用统一的分析流程，分别与人类基因组hg19进行比对，比对结果去除未精确比对到基因组上的序列，得到每条染色体上唯一比对上的reads(uniquereads)；

5.数据预处理：将参考基因组的每条染色体划分成100kb片段大小的窗口，重叠区为50kb，计算比对到每个窗口内的unique reads数及reads的GC含量，忽略带有碱基N及比对unique reads数为0或异常高的窗口；然后对剩下窗口内的unique reads进行标准化，即除以该样本所有窗口的均值，得到每个窗口内标准化后对应的unique reads数；接着对所有染色体内所有窗口的GC含量进行排序，采用平滑样条法对每个窗口进行GC校正，得到校正后的对应窗口的unique reads数；最后分别统计X、Y染色体上的unique reads数的均值mx，my；

6.基于性染色体计算胎儿浓度：p＝my/mx；h＝2*p/(1+p)；h值即为该样本在该水平下的胎儿浓度；

7.分析完成后，汇总20例样本在24种条件下计算得到的胎儿浓度；然后进行方差分析，其中：自变量为reads长度(6水平)和数据量(4水平)，因变量为胎儿浓度；首先通过Bartlett检验进行方差齐性检验，绘制qqplot图检验正态性假设；最后进行重复测量多因素方差分析，获得与胎儿浓度相关性最高的因素。

分析结果如图3所示，胎儿浓度与reads长度显著相关(p＝4.1e-08),与数据量无关(0.11)；两因素间不存在相互作用。

8.计算每个样本每种水平下目标窗口的unique reads数的均数、标准差以及变异系数，帮助确定最优的reads长度。如图4和图5所示，当reads长度为100bp时计算得到的胎儿浓度最大(图4)且变异系数(CV,Coefficient of Variation)最小(图5)。

实施例3

一种可选的实施例中，还提供了一种胎儿浓度的算方法，该计算方法包括：按照上述任一预处理方法获得最佳分析策略；根据最佳分析策略对待分析的测序数据进行分析计算，得到胎儿浓度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

对应于上述方式，本申请还分别提供了一种胎儿浓度计算的预处理装置，这些装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

下面结合可选的实施例进一步说明。

实施例4

一种可选的实施例中，还提供了一种胎儿浓度计算的预处理装置，如图6所示，该预处理装置包括：获取模块10、计算模块20及分析模块30，其中，

获取模块10，用于获取多个样本的测序数据；

第一计算模块20，用于利用测序数据，计算每个样本在不同的分析策略下的胎儿浓度，其中，不同的分析策略包括不同的测序reads长度和不同的测序总数据量；

分析模块30，用于对多个样本在不同分析策略下计算得到的胎儿浓度进行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。

在一种优选的实施例中，上述第一计算模块包括：长度截取模块、数据量模块、比对模块、统计模块、第二计算模块，其中，

长度截取模块，用于对每个样本的测序数据分别按照不同的测序reads长度进行截取，得到多个不同长度的测序reads文件；

数据量模块，用于从每个测序reads文件中随机抽取reads，形成不同的测序总数据量的测序reads文件；

比对模块，用于将各测序reads文件分别与参考基因组序列进行比对，获得uniquereads；

统计模块，用于将每条染色体划分为多个窗口，根据比对到每个窗口内的uniquereads数，分别统计X染色体和Y染色体上的unique reads数的均值mx和my；

第二计算模块，用于按照如下公式(1)和公式(2)计算每个样本在不同的分析策略下得到的胎儿浓度：

p＝m_y/m_x……………………(1)，

h＝2*p/(1+p)…………………(2)，

在一种优选的实施例中，上述统计模块包括：第一计算单元、标准化单元及第二计算单元，其中，第一计算单元，用于将每条染色体划分为多个窗口，计算比对到每个窗口内的unique reads数及unique reads的GC含量；标准化单元，用于对剩余窗口内的uniquereads进行标准化处理，得到每个窗口内标准化后对应的unique reads数；第二计算单元，用于分别计算X染色体和Y染色体上的unique reads数的均值m_x和m_y。

在一种优选的实施例中，预处理装置还包括：GC校正单元，用于对所有染色体内所有窗口的GC含量进行排序，采用平滑样条法对每个窗口进行GC校正，得到校正后的对应窗口的unique reads数。

在一种优选的实施例中，分析模块包括：确定单元和方差分析单元，其中，确定单元用于确定多个样本满足多因素方差分析的以下假定前提条件：1)多个样本为随机选取且相互独立的样本；2)多个样本在不同分析策略下的胎儿浓度满足方差齐性假设；3)多个样本在不同分析策略下的胎儿浓度服从正态分布；方差分析单元，重复执行多因素方差分析，获得与胎儿浓度相关性最高的分析策略。

在一种优选的实施例中，与胎儿浓度相关性最高的分析策略为测序reads长度，预处理装置还包括：长度确定单元，用于计算每个样本在不同测序reads长度下各窗口的unique reads数的均数、标准差以及变异系数，以确定最优的reads长度。

实施例5

本实施例中，提供了一种胎儿浓度的计算装置，该计算装置包括：最佳分析策略获取模块及胎儿浓度获取模块，其中，最佳分析策略获取模块，用于按照上述任一种的预处理装置获得最佳分析策略；胎儿浓度获取模块，用于根据最佳分析策略对待分析的测序数据进行分析计算，获得胎儿浓度。

本申请还提供了一种存储介质，该存储介质上存储有计算机可执行的程序，程序被设置为运行时，执行上述任一种胎儿浓度计算的预处理方法。

本申请还提供了一种电子装置，该电子装置包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一种胎儿浓度计算的预处理方法。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：通过利用多个样本的在不同测序策略下计算得到的胎儿浓度，进行多因素方差分析，从而获得不同测序reads长度、不同测序总数据量以及两者的交互作用与胎儿浓度计算间的相关性，从而能够获得与胎儿浓度相关性最高的分析策略，以便于后续在进行胎儿浓度计算时，采用该相关性最高的分析策略进行分析计算，提高计算的准确性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种胎儿浓度计算的预处理方法，其特征在于，所述预处理方法包括：

获取多个样本的测序数据；

利用所述测序数据，计算每个所述样本在不同的分析策略下的胎儿浓度，其中，不同的所述分析策略包括不同的测序reads长度和不同的测序总数据量；

对多个所述样本在不同的所述分析策略下计算得到的所述胎儿浓度进行多因素方差分析，获得与所述胎儿浓度相关性最高的所述分析策略。

2.根据权利要求1所述的预处理方法，其特征在于，计算每个样本在不同的所述分析策略下的胎儿浓度包括：

对每个所述样本的所述测序数据分别按照不同的所述测序reads长度进行截取，得到多个不同长度的测序reads文件；

从每个所述测序reads文件中随机抽取reads，形成不同的所述测序总数据量的所述测序reads文件；

将各所述测序reads文件分别与参考基因组序列进行比对，获得unique reads；

将每条染色体划分为多个窗口，根据比对到每个所述窗口内的unique reads数，分别统计X染色体和Y染色体上的所述unique reads数的均值mx和my；

按照如下公式(1)和公式(2)计算每个所述样本在不同的所述分析策略下得到的胎儿浓度：

p＝m_y/m_x……………………(1)，

h＝2*p/(1+p)…………………(2)，

其中，h值即为每个样本在不同的所述分析策略下得到的胎儿浓度。

3.根据权利要求2所述的预处理方法，其特征在于，所述测序reads长度为35～150bp，所述测序获得的总数据量为5M～12M。

4.根据权利要求2所述的预处理方法，其特征在于，将每条染色体划分为多个窗口，根据比对到每个所述窗口内的unique reads数，分别统计X染色体和Y染色体上的所述uniquereads数的均值mx和my包括：

将每条染色体划分为多个所述窗口，计算比对到每个所述窗口内的所述unique reads数及所述unique reads的GC含量；

对剩余窗口内的所述unique reads进行标准化处理，得到每个所述窗口内标准化后对应的unique reads数；

分别计算所述X染色体和所述Y染色体上的所述unique reads数的均值m_x和m_y。

5.根据权利要求3所述的预处理方法，其特征在于，在得到每个所述窗口内标准化后对应的unique reads数之后，以及分别计算所述X染色体和所述Y染色体上的所述uniquereads数的均值m_x和m_y之前，所述预处理方法还包括：

对所有染色体内所有窗口的GC含量进行排序，采用平滑样条法对每个所述窗口进行GC校正，得到校正后的对应窗口的unique reads数。

6.根据权利要求1至5中任一项所述的预处理方法，其特征在于，对多个所述样本在所述不同分析策略下的胎儿浓度进行多因素方差分析，获得与所述胎儿浓度相关性最高的所述分析策略包括：

确定多个所述样本满足所述多因素方差分析的以下假定前提条件：1)多个所述样本为随机选取且相互独立的样本；2)多个所述样本在不同所述分析策略下的所述胎儿浓度满足方差齐性假设；3)多个所述样本在不同所述分析策略下的所述胎儿浓度服从正态分布；

重复执行所述多因素方差分析，获得与所述胎儿浓度相关性最高的所述分析策略。

7.根据权利要求6所述的预处理方法，其特征在于，与所述胎儿浓度相关性最高的所述分析策略为所述测序reads长度，在获得与所述胎儿浓度相关性最高的所述分析策略后，所述预处理方法还包括：

计算每个所述样本在不同所述测序reads长度下各所述窗口的unique reads数的均数、标准差以及变异系数，以确定最优的reads长度。

8.一种胎儿浓度的计算方法，其特征在于，所述计算方法包括：

按照权利要求1至7中任一项所述的预处理方法获得最佳分析策略；

根据所述最佳分析策略对待分析的测序数据进行分析计算，得到所述胎儿浓度。

9.一种胎儿浓度计算的预处理装置，其特征在于，所述预处理装置包括：

获取模块，用于获取多个样本的测序数据；

第一计算模块，用于利用所述测序数据，计算每个所述样本在不同的分析策略下的胎儿浓度，其中，不同的所述分析策略包括不同的测序reads长度和不同的测序总数据量；

分析模块，用于对多个所述样本在不同的所述分析策略下计算得到的胎儿浓度进行多因素方差分析，获得与所述胎儿浓度相关性最高的所述分析策略。

10.根据权利要求9所述的预处理装置，其特征在于，所述计算模块包括：

长度截取模块，用于对每个所述样本的所述测序数据分别按照不同的所述测序reads长度进行截取，得到多个不同长度的测序reads文件；

数据量模块，用于从每个所述测序reads文件中随机抽取reads，形成不同的所述测序总数据量的所述测序reads文件；

比对模块，用于将各所述测序reads文件分别与参考基因组序列进行比对，获得uniquereads；

统计模块，用于将每条染色体划分为多个窗口，根据比对到每个所述窗口内的uniquereads数，分别统计X染色体和Y染色体上的所述unique reads数的均值mx和my；

第二计算模块，用于按照如下公式(1)和公式(2)计算每个所述样本在不同的所述分析策略下得到的胎儿浓度：

p＝m_y/m_x……………………(1)，

h＝2*p/(1+p)…………………(2)，

其中，h值即为每个样本在不同的所述分析策略下得到的胎儿浓度；

优选地，所述测序reads长度为35～150bp，所述测序获得的总数据量为5M～12M。

11.根据权利要求10所述的预处理装置，其特征在于，所述统计模块包括：

第一计算单元，用于将每条染色体划分为多个所述窗口，计算比对到每个所述窗口内的所述unique reads数及所述unique reads的GC含量；

标准化单元，用于对剩余窗口内的所述unique reads进行标准化处理，得到每个所述窗口内标准化后对应的unique reads数；

第二计算单元，用于分别计算所述X染色体和所述Y染色体上的所述unique reads数的均值m_x和m_y。

12.根据权利要求11所述的预处理装置，其特征在于，所述预处理装置还包括：

GC校正单元，用于对所有染色体内所有窗口的GC含量进行排序，采用平滑样条法对每个所述窗口进行GC校正，得到校正后的对应窗口的unique reads数。

13.根据权利要求9至12中任一项所述的预处理装置，其特征在于，所述分析模块包括：

确定单元，用于确定多个所述样本满足所述多因素方差分析的以下假定前提条件：1)多个所述样本为随机选取且相互独立的样本；2)多个所述样本在不同所述分析策略下的所述胎儿浓度满足方差齐性假设；3)多个所述样本在不同所述分析策略下的所述胎儿浓度服从正态分布；

方差分析单元，重复执行所述多因素方差分析，获得与所述胎儿浓度相关性最高的所述分析策略。

14.根据权利要求13所述的预处理装置，其特征在于，与所述胎儿浓度相关性最高的所述分析策略为所述测序reads长度，所述预处理装置还包括：长度确定单元，用于计算每个所述样本在不同所述测序reads长度下各所述窗口的unique reads数的均数、标准差以及变异系数，以确定最优的reads长度。

15.一种胎儿浓度的计算装置，其特征在于，所述计算装置包括：

最佳分析策略获取模块，用于按照权利要求9至14中任一项所述的预处理装置获得最佳分析策略；

胎儿浓度获取模块，用于根据所述最佳分析策略对待分析的测序数据进行分析计算，获得所述胎儿浓度。

16.一种存储介质，所述存储介质上存储有计算机可执行的程序，其特征在于，所述程序被设置为运行时，执行权利要求1至7中任一项所述的胎儿浓度计算的预处理方法。

17.一种电子装置，包括存储其和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的胎儿浓度计算的预处理方法。