CN108229101A

CN108229101A - 基于ngs的靶向测序数据模拟方法和装置

Info

Publication number: CN108229101A
Application number: CN201711498731.3A
Authority: CN
Inventors: 党明浩; 刘珂弟; 张静波; 关永涛; 王伟伟; 刘倩; 唐宇
Original assignee: Beijing Kexun Biotechnology Co Ltd
Current assignee: Beijing Kexun Biotechnology Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-29
Anticipated expiration: 2037-12-29
Also published as: CN108229101B

Abstract

本发明公开了一种基于NGS的靶向测序数据模拟方法和装置。其中，该方法包括：确定需要生成的模拟测序深度数据集所对应的多个目标区域bin，其中，模拟测序深度数据集包括多个bin中每个bin的模拟的测序深度；确定模拟测序深度数据集的期望值；生成服从以期望值为平均值、以预设方差为方差的正态分布的第一随机数，其中，预设方差为根据实际样本预先确定的方差；生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数；根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集。本发明解决了现有技术中由于需要生成模拟的测序序列数据导致CNV检测耗时较长，占用存储空间大的技术问题。

Description

基于NGS的靶向测序数据模拟方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种基于NGS的靶向测序数据模拟方法和装置。

背景技术

拷贝数变异(CNV)是基因组结构变异的重要组成部分，是人类疾病的重要致病因素之一。目前，用来进行CNV研究的方法有：基于芯片的比较基因组杂交技术(array-basedcomparative genomic hybridization，简称ACGH)、SNP分型芯片技术和新一代测序技术(NGS)。在NGS方法中，基于测序深度(read depth)的CNV检测是使用最广泛的方法，其基于的假设是拷贝数与测序片段(reads)个数成正比。

在通过NGS技术进行测序时，需要使用的数据是海量的，现有的公开数据和实际产生的数据不足以对软件进行调参和优化，为了得到这些海量的数据，需要模拟出不同类型的数据对软件的性能进行测试和评估，开发多种软件进行数据的处理和分析。目前有文献报道的大约有30种数据模拟的软件，其中有28种是针对全基因组数据的模拟，1种是全外显子数据模拟(Wessim)，1种是靶向捕获数据模拟(CapSim)。这些现有的数据模拟软件通常以参考基因组作为输入，在参考基因组的基础上引入各种类型突变，然后结合特定的测序平台生成原始reads数据。

但是，目前的数据模拟软件综合考虑测序过程中的各个环节，力求对每个环节都进行模拟。然而考虑的环节越多，其中理论和实际的误差会逐步累积，最终的数据和原始数据存在较大差异。并且，现有的数据模拟软件都生成较为原始的reads序列数据，不仅数据量大消耗存储空间，而且生成reads序列的过程通常也是限速步骤，使软件运行速度非常缓慢，而原始reads所包含的序列信息在进行SNV检测是非常有用，而在进行基于read depth的CNV检测时几乎是无用的，因为CNV检测关注的只是reads的个数，而不关注reads的序列具体是什么。在进行下游分析时，需要从原始reads序列数据中计算得到read depth信息，这一步非常耗时。

针对现有技术中由于需要生成模拟的测序序列数据导致CNV检测耗时较长，占用存储空间大的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于NGS的靶向测序数据模拟方法和装置，以至少解决现有技术中由于需要生成模拟的测序序列数据导致CNV检测耗时较长，占用存储空间大的技术问题。

根据本发明实施例的一个方面，提供了一种基于NGS的靶向测序数据模拟方法，该方法包括：确定需要生成的模拟测序深度数据集所对应的多个目标区域bin，其中，模拟测序深度数据集包括多个bin中每个bin的模拟的测序深度；确定模拟测序深度数据集的期望值；生成服从以期望值为平均值、以预设方差为方差的正态分布的第一随机数，其中，预设方差为根据实际样本预先确定的方差；生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数，其中，多个第二随机数与多个bin的个数相同；根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集，其中，多个调整参数为根据实际样本确定的。

进一步地，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集包括：根据实际样本确定多个实际测序深度；对多个实际测序深度进行归一化处理，得到多个归一化测序深度；拟合多个归一化测序深度相对于GC含量的函数；分别计算每个bin在参考基因组中的GC含量，并带入函数，以得到多个bin的GC偏差系数；将多个bin的GC偏差系数与多个第二随机数一一对应地相乘，得到模拟测序深度数据集。

进一步地，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集包括：将多个第二随机数划分为多个集群，其中，同一集群中包括的每个第二随机数对应的bin属于同一基因；分别对每一集群生成一个随机数，得到多个第三随机数，其中，每个第三随机数服从泊松分布；对多个第三随机数进行归一化处理，得到多个第四随机数；分别将每个集群中包括的第二随机数与对应的一组第四随机数一一对应地相乘，得到模拟测序深度数据集。

进一步地，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集包括：从实际样本中选取多个样本；分别对每个样本的reads数据进行GC校正并对每个样本的reads数据进行归一化；计算多个样本在每个bin处的平均值和方差；根据多个样本在每个bin处的平均值和方差生成一个服从正态分布的第五随机数作为对应bin的系统偏差系数；将每个第二随机数与对应bin的第五随机数相乘，得到模拟测序深度数据集。

进一步地，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集包括：接收输入的期望生成拷贝数变异CNV的基因名和拷贝数cn；根据输入的期望生成CNV的基因名在多个bin中确定需要产生CNV的bin；将需要产生CNV的bin所对应的第二随机数与cn/2相乘，得到模拟测序深度数据集。

根据本发明实施例的另一方面，还提供了一种基于NGS的靶向测序数据模拟装置，该装置包括：第一确定单元，用于确定需要生成的模拟测序深度数据集所对应的多个目标区域bin，其中，模拟测序深度数据集包括多个bin中每个bin的模拟的测序深度；第二确定单元，用于确定模拟测序深度数据集的期望值；第一生成单元，用于生成服从以期望值为平均值、以预设方差为方差的正态分布的第一随机数，其中，预设方差为根据实际样本预先确定的方差；第二生成单元，用于生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数，其中，多个第二随机数与多个bin的个数相同；第三生成单元，用于根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集，其中，多个调整参数为根据实际样本确定的。

进一步地，第三生成单元包括：第一确定模块，用于根据实际样本确定多个实际测序深度；第一处理模块，用于对多个实际测序深度进行归一化处理，得到多个归一化测序深度；拟合模块，用于拟合多个归一化测序深度相对于GC含量的函数；第一计算模块，用于分别计算每个bin在参考基因组中的GC含量，并带入函数，以得到多个bin的GC偏差系数；第二计算模块，用于将多个bin的GC偏差系数与多个第二随机数一一对应地相乘，得到模拟测序深度数据集。

进一步地，第三生成单元包括：划分模块，用于将多个第二随机数划分为多个集群，其中，同一集群中包括的每个第二随机数对应的bin属于同一基因；第一生成模块，用于分别对每一集群生成一个随机数，得到多个第三随机数，其中，每个第三随机数服从泊松分布；第二处理模块，用于对多个第三随机数进行归一化处理，得到多个第四随机数；第三计算模块，用于分别将每个集群中包括的第二随机数与对应的一组第四随机数一一对应地相乘，得到模拟测序深度数据集。

进一步地，第三生成单元包括：选取模块，用于从实际样本中选取多个样本；第三处理模块，用于分别对每个样本的reads数据进行GC校正并对每个样本的reads数据进行归一化；第四计算模块，用于计算多个样本在每个bin处的平均值和方差；第二生成模块，用于根据多个样本在每个bin处的平均值和方差生成一个服从正态分布的第五随机数作为对应bin的系统偏差系数；第五计算模块，用于将每个第二随机数与对应bin的第五随机数相乘，得到模拟测序深度数据集。

进一步地，第三生成单元包括：接收模块，用于接收输入的期望生成拷贝数变异CNV的基因名和拷贝数cn；第二确定模块，用于根据输入的期望生成CNV的基因名在多个bin中确定需要产生CNV的bin；第六计算模块，用于将需要产生CNV的bin所对应的第二随机数与cn/2相乘，得到模拟测序深度数据集。

在本发明实施例中，通过确定需要生成的模拟测序深度数据集所对应的多个目标区域，其中，模拟测序深度数据集包括多个bin中每个bin的模拟的测序深度；确定模拟测序深度数据集的期望值；生成服从以期望值为平均值、以预设方差为方差的正态分布的第一随机数，其中，预设方差为根据实际样本预先确定的方差；生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数，其中，多个第二随机数与多个bin的个数相同；根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集，其中，多个调整参数为根据实际样本确定的，解决了现有技术中由于需要生成模拟的测序序列数据导致CNV检测耗时较长，占用存储空间大的技术问题，通过生成模拟的深度信息而不是测序序列数据，降低了生成模拟数据的耗时时长。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的基于NGS的靶向测序数据模拟方法的流程图；

图2是根据本发明实施例的一种可选的基于NGS的靶向测序数据模拟装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供了一种基于NGS的靶向测序数据模拟方法的实施例。

图1是根据本发明实施例的一种可选的基于NGS的靶向测序数据模拟方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，确定需要生成的模拟测序深度数据集所对应的多个目标区域bin；

步骤S102，确定模拟测序深度数据集的期望值；

步骤S103，生成服从以期望值为平均值、以预设方差为方差的正态分布的第一随机数；

步骤S104，生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数；

步骤S105，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集。

在步骤S101提供的方案中，模拟测序深度数据集为包括多个bin中每个bin的模拟的测序深度的数据集，该实施例提供的基于NGS的靶向数据模拟方法用于生成模拟测序深度数据集，也即，用于生成多个bin的模拟测序深度，而不是模拟的生成多个bin的具体的reads数据，仅需要生成reads个数(也即，测序深度)即可。生成的模拟测序深度数据集并非通过对原始数据文件中的多个bin逐一进行数据处理得到的实际的测序深度，而是根据实际样本的一些数据分布特征生成的用于模拟实际的测序深度的数据集。

可选的，多个bin的个数可以是预先确认的，例如，在该实施例通过执行应用程序实现的情况下，程序中预先设定了多个bin的个数，或者，程序调用浏览器可扩充数据(Browser Extensible Data，简称BED)类型的文件，并通过调用的BED文件确认需要生成的模拟测序深度数据集所对应的多个目标区域bin，进而确定多个bin的个数，其中，BED文件中存储有基因组位置信息，例如，一个区间或者一个位点，BED文件中的每一行都由染色体、起始位置、终止位置组成，用于表示染色体上的一段区域bin。

在步骤S102提供的方案中，模拟测序深度数据集的期望值可以是通过接收的输入数据，接收的数据用于作为待生成的模拟测序深度数据集的期望值，具体的，期望值可以是用户设置的、通过交互模块(例如，键盘、鼠标等)接收的数值。

在步骤S103提供的方案中，在确定模拟测序深度数据集的期望值之后，以期望值为平均值、以预设方差为方差，生成服从正态分布的第一随机数λ，例如，服从正态分布的随机变量X～N(μ,σ²)，λ是随机变量X的一个具体的取值，X可以取很多值，x1，x2，x3，…，λ是在X的多个可能取值中随机选取的一个数值。确定出的第一随机数λ用于作为待生成的模拟测序深度数据集的测序深度。预设方差是预先设置的方差，具体的，预设方差的值是根据实际样本确定的，例如，实际样本Y包括多个样本，根据多个样本的实际测序深度计算出方差，作为预设方差，可选的，还可以通过多组实际样本Y1，Y2，…，计算出多个方差并将多个方差的平均值作为预设方差。具体的预设方差的确定方法可以根据实际情况设定，本发明对此不作具体限制，只要预设方差是根据实际样本的测序深度的分布规律确定的数值即可。

需要说明的是，步骤S101与步骤S102的顺序是可以互换的，或者同时进行的，步骤S102在步骤S103之前执行。在执行步骤S104之前，需要执行步骤S101～步骤S103。

在步骤S104提供的方案中，生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数，多个第二随机数与多个bin的个数相同。

需要说明的是，多个第二随机数用于作为多个bin的初始模拟测序深度，为了使生成的模拟测序深度数据集更贴合实际的情况，还需要根据实际样本的数据分布特性对多个初始模拟测序深度进行调整。

进而，在步骤S105提供的方案中，根据多个调整参数分别对多个第二随机数进行调整，调整之后得到的多个数即为生成的模拟测序深度数据集。多个调整参数的个数与多个bin的个数相同，调整的具体方法是通过多个调整参数与多个第二随机数一一对应地相乘。例如，多个第二随机数的集合为{a1，b1，c1，d1，e1，f1，g1……}，多个调整参数的集合为{a2，b2，c2，d2，e2，f2，g2……}，则生成的模拟测序深度数据集为{a1a2，b1b2，c1c2，d1d2，e1e2，f1f2，g1g2……}。需要说明的是，每个调整参数可以是多种类型的系数的乘积，每种类型的系数表示根据实际样本得到的测序深度的一种分布特性。

作为一种可选的实施方式，在调整参数考虑到GC偏差的情况下，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集的步骤可以包括：根据实际样本确定多个实际测序深度，对多个实际测序深度进行归一化处理，得到多个归一化测序深度，拟合多个归一化测序深度相对于GC含量的函数，分别计算每个bin在参考基因组中的GC含量，并带入函数，以得到多个bin的GC偏差系数，将多个bin的GC偏差系数与多个第二随机数一一对应地相乘，得到模拟测序深度数据集。在拟合多个归一化测序深度相对于GC含量的函数时，一种可选的实施方式为：首先，生成归一化测序深度相对于GC含量的散点图，其次，根据散点图拟合出归一化测序深度相对于GC含量的函数。

作为一种可选的实施方式，在调整参数考虑到样本随机波动的情况下，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集的步骤可以包括：首先，将多个第二随机数划分为多个集群，其中，同一集群中包括的每个第二随机数对应的bin属于同一基因；其次，分别对每一集群生成一个随机数，得到多个第三随机数，其中，每个第三随机数服从泊松分布；第三，对多个第三随机数进行归一化处理，得到多个第四随机数；最后，分别将每个集群中包括的第二随机数与对应的一组第四随机数一一对应地相乘，得到模拟测序深度数据集。需要说明的是，每组第四随机数表示一个集群的随机波动。

作为一种可选的实施方式，在调整参数考虑到系统偏差的情况下，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集的步骤可以包括：从实际样本中选取多个样本；分别对每个样本的reads数据进行GC校正并对每个样本的reads数据进行归一化；计算多个样本在每个bin处的平均值和方差；根据多个样本在每个bin处的平均值和方差生成一个服从正态分布的第五随机数作为对应bin的系统偏差系数；将每个第二随机数与对应bin的第五随机数相乘，得到模拟测序深度数据集。

作为一种可选的实施方式，在调整参数考虑到CNV的情况下，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集的步骤可以包括：接收输入的期望生成拷贝数变异CNV的基因名和拷贝数cn；根据输入的期望生成CNV的基因名在多个bin中确定需要产生CNV的bin；将需要产生CNV的bin所对应的第二随机数与cn/2相乘，得到模拟测序深度数据集。

可选地，在上述提供的技术方案中，每个调整参数可以由以下至少一种系数的乘积组成：GC偏差系数、样本随机波动系数、系统偏差系数、CNV系数，其中，GC偏差系数可以是上述的在考虑到GC偏差的情况下确定的GC偏差系数，样本随机波动系数可以是上述的在调整参数考虑到样本随机波动的情况下确定的多组第四随机数，系统偏差系数可以是上述的在调整参数考虑到系统偏差的情况下确定的系统偏差系数，CNV系数为在调整参数考虑到CNV的情况下确定的拷贝数cn/2。在每个调整参数为至少两种系数的乘积组成的情况下，先将每个bin对应的多种调整系数一一对应相乘，得到每个bin对应的调整参数，然后通过每个bin对应的第二随机数与对应的调整参数一一相乘，得到模拟测序深度数据集。

下面结合一种可选的实施方式对上述实施例提供的基于NGS的靶向数据模拟方法的步骤进行详细说明：

步骤1，接收输入的数据，在该实施方式中，需要接收的输入数据包括：BED文件(可以通过导入文件的方式输入，包括多个bin的reads数据)，期望生成的模拟测序深度数据集的测序深度的期望值mean_depth，产生CNV的基因及拷贝数为可选输入参数。

步骤2，以mean_depth为平均数，根据实际生产样本求出方差，生成服从正态分布的多个数并在其中随机选择一个作为实际生成数据集的测序深度λ。

步骤3，确定待生成的模拟测序深度数据集中每个bin中的reads个数(reads个数也即测序深度，该处确定的每个bin的reads个数相当于待生成的模拟测序深度数据集的每个bin的初始测序深度)p。假设每个bin中的reads个数服从泊松分布，生成以λ为均值的泊松分布随机数作为每个bin中的reads个数。

步骤4，引入GC偏差系数g。根据实际样本确定实际的测序深度depth并进行归一化，记为depth_normalization，做出depth_normalization VS GC的散点图，拟合出depth_normalization相对于GC含量的函数f(GC)；计算每个bin在参考基因组中的GC含量，带入f(GC)求出样本的GC偏差系数g。

步骤5，引入样本的随机波动r。在实际生产中，经常会有因样本质量问题而使测序数据产生大范围随机波动，产生一些异常数据。采用归一化的泊松随机数来模拟这种随机波动，即r＝|Possion(m)|/m，m的大小可影响样本的波动程度，m越小样本波动程度越大，m越大样本波动程度越小，m的值可以是根据实际样本估计的值。

步骤6，引入系统偏差s。这个系统偏差从实际样本中习得，选取多个实际生产中的样本数据(优选的，样本个数大于30)，进行GC校正并将reads个数归一化，取多个样本在同一bin处的均值作为该bin处的系统偏差系数，即系统偏差系数s＝mean(normalization(GC_correction(depth)))，其中，mean表示平均值，normalization表示归一化处理，GC_correction表示GC校正处理，depth表示根据实际样本数据确定的测序深度；

步骤7，引入CNV系数cn。生成向量1^1*n作为初始的CNV系数，输入期望生成CNV的基因名及拷贝数copy_no，根据基因名确定产生CNV的bins，然后将这些bins对应的系数改为1*copy_no/2；

步骤8，最终生成的模拟测序深度数据集depth＝p*g*r*s*cn；

步骤9，如果需要生成多个样本的depth数据，则可以设置多次循环，以生成多个样本的depth数据。

需要说明的是，以上粗体表示的字母符号代表一个n*1维的向量，其中，n为多个bin的个数。

该实施例通过确定需要生成的模拟测序深度数据集所对应的多个目标区域bin，确定模拟测序深度数据集的期望值，生成服从以期望值为平均值、以预设方差为方差的正态分布的第一随机数，生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数，根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集，解决了现有技术中由于需要生成模拟的测序序列数据导致CNV检测耗时较长，占用存储空间大的技术问题，通过生成模拟的深度信息，而不是生成测序序列数据，降低了生成模拟数据的耗时时长。

需要说明的是，在附图的流程图虽然示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请还提供了一种存储介质的实施例，该实施例的存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行本发明实施例的基于NGS的靶向测序数据模拟方法。

本申请还提供了一种处理器的实施例，该实施例的处理器用于运行程序，其中，程序运行时执行本发明实施例的基于NGS的靶向测序数据模拟方法。

本申请还提供了一种基于NGS的靶向测序数据模拟装置的实施例。需要说明的是，本申请提供的基于NGS的靶向数据模拟装置的实施例可以用于执行本申请提供的基于NGS的靶向数据模拟方法的实施例。

图2是根据本发明实施例的一种可选的基于NGS的靶向测序数据模拟装置的示意图，如图2所示，该装置包括第一确定单元10，第二确定单元20，第一生成单元30，第二生成单元40和第三生成单元50，其中，第一确定单元用于确定需要生成的模拟测序深度数据集所对应的多个目标区域，其中，模拟测序深度数据集包括多个bin中每个bin的模拟的测序深度；第二确定单元用于确定模拟测序深度数据集的期望值；第一生成单元用于生成服从以期望值为平均值、以预设方差为方差的正态分布的第一随机数，其中，预设方差为根据实际样本预先确定的方差；第二生成单元用于生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数，其中，多个第二随机数与多个bin的个数相同；第三生成单元用于根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集，其中，多个调整参数为根据实际样本确定的。

该实施例通过第一确定单元确定需要生成的模拟测序深度数据集所对应的多个目标区域bin，通过第二确定单元用于确定模拟测序深度数据集的期望值，通过第一生成单元生成服从以期望值为平均值、以预设方差为方差的正态分布的第一随机数，通过第二生成单元生成以第一随机数为平均值和方差的服从泊松分布的多个第二随机数，最后通过第三生成单元根据多个调整参数分别对多个第二随机数进行调整，生成模拟测序深度数据集，解决了现有技术中由于需要生成模拟的测序序列数据导致CNV检测耗时较长，占用存储空间大的技术问题，通过生成模拟的深度信息，而不是生成测序序列数据，降低了生成模拟数据的耗时时长。

作为一种可选的实施方式，第三生成单元包括：第一确定模块，用于根据实际样本确定多个实际测序深度；第一处理模块，用于对多个实际测序深度进行归一化处理，得到多个归一化测序深度；拟合模块，用于拟合多个归一化测序深度相对于GC含量的函数；第一计算模块，用于分别计算每个bin在参考基因组中的GC含量，并带入函数，以得到多个bin的GC偏差系数；第二计算模块，用于将多个bin的GC偏差系数与多个第二随机数一一对应地相乘，得到模拟测序深度数据集。

作为一种可选的实施方式，第三生成单元包括：划分模块，用于将多个第二随机数划分为多个集群，其中，同一集群中包括的每个第二随机数对应的bin属于同一基因；第一生成模块，用于分别对每一集群生成一个随机数，得到多个第三随机数，其中，每个第三随机数服从泊松分布；第二处理模块，用于对多个第三随机数进行归一化处理，得到多个第四随机数；第三计算模块，用于分别将每个集群中包括的第二随机数与对应的一组第四随机数一一对应地相乘，得到模拟测序深度数据集。

作为一种可选的实施方式，第三生成单元包括：选取模块，用于从实际样本中选取多个样本；第三处理模块，用于分别对每个样本的reads数据进行GC校正并对每个样本的reads数据进行归一化；第四计算模块，用于计算多个样本在每个bin处的平均值和方差；第二生成模块，用于根据多个样本在每个bin处的平均值和方差生成一个服从正态分布的第五随机数作为对应bin的系统偏差系数；第五计算模块，用于将每个第二随机数与对应bin的第五随机数相乘，得到模拟测序深度数据集。

作为一种可选的实施方式，第三生成单元包括：接收模块，用于接收输入的期望生成拷贝数变异CNV的基因名和拷贝数cn；第二确定模块，用于根据输入的期望生成CNV的基因名在多个bin中确定需要产生CNV的bin；第六计算模块，用于将需要产生CNV的bin所对应的第二随机数与cn/2相乘，得到模拟测序深度数据集。

上述的装置可以包括处理器和存储器，上述单元均可以作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

上述本申请实施例的顺序不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。

其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于NGS的靶向测序数据模拟方法，其特征在于，所述方法包括：

确定需要生成的模拟测序深度数据集所对应的多个目标区域bin，其中，所述模拟测序深度数据集包括多个bin中每个bin的模拟的测序深度；

确定所述模拟测序深度数据集的期望值；

生成服从以所述期望值为平均值、以预设方差为方差的正态分布的第一随机数，其中，所述预设方差为根据实际样本预先确定的方差；

生成以所述第一随机数为平均值和方差的服从泊松分布的多个第二随机数，其中，所述多个第二随机数与所述多个bin个数相同；

根据多个调整参数分别对所述多个第二随机数进行调整，生成所述模拟测序深度数据集，其中，所述多个调整参数为根据实际样本确定的。

2.根据权利要求1所述的方法，其特征在于，根据多个调整参数分别对所述多个第二随机数进行调整，生成所述模拟测序深度数据集包括：

根据实际样本确定多个实际测序深度；

对所述多个实际测序深度进行归一化处理，得到多个归一化测序深度；

拟合所述多个归一化测序深度相对于GC含量的函数；

分别计算每个bin在参考基因组中的GC含量，并带入所述函数，以得到所述多个bin的GC偏差系数；

将所述多个bin的GC偏差系数与所述多个第二随机数一一对应地相乘，得到所述模拟测序深度数据集。

3.根据权利要求1所述的方法，其特征在于，根据多个调整参数分别对所述多个第二随机数进行调整，生成所述模拟测序深度数据集包括：

将所述多个第二随机数划分为多个集群，其中，同一集群中包括的每个第二随机数对应的bin属于同一基因；

分别对每一集群生成一个随机数，得到多个第三随机数，其中，每个第三随机数服从泊松分布；

对所述多个第三随机数进行归一化处理，得到多个第四随机数；

分别将每个集群中包括的每个第二随机数与对应集群的第四随机数相乘，得到所述模拟测序深度数据集。

4.根据权利要求1所述的方法，其特征在于，根据多个调整参数分别对所述多个第二随机数进行调整，生成所述模拟测序深度数据集包括：

从实际样本中选取多个样本；

分别对每个样本的reads数据进行GC校正并对每个样本的reads数据进行归一化；

计算所述多个样本在每个bin处的平均值和方差；

根据所述多个样本在每个bin处的平均值和方差生成一个服从正态分布的第五随机数作为对应bin的系统偏差系数；

将每个第二随机数与对应bin的第五随机数相乘，得到所述模拟测序深度数据集。

5.根据权利要求1所述的方法，其特征在于，根据多个调整参数分别对所述多个第二随机数进行调整，生成所述模拟测序深度数据集包括：

接收输入的期望生成拷贝数变异CNV的基因名和拷贝数cn；

根据所述输入的期望生成CNV的基因名在所述多个bin中确定需要产生CNV的bin；

将所述需要产生CNV的bin所对应的第二随机数与cn/2相乘，得到所述模拟测序深度数据集。

6.一种基于NGS的靶向测序数据模拟装置，其特征在于，包括：

第一确定单元，用于确定需要生成的模拟测序深度数据集所对应的多个目标区域bin，其中，所述模拟测序深度数据集包括多个bin中每个bin的模拟的测序深度；

第二确定单元，用于确定所述模拟测序深度数据集的期望值；

第一生成单元，用于生成服从以所述期望值为平均值、以预设方差为方差的正态分布的第一随机数，其中，所述预设方差为根据实际样本预先确定的方差；

第二生成单元，用于生成以所述第一随机数为平均值和方差的服从泊松分布的多个第二随机数，其中，所述多个第二随机数与所述多个bin个数相同；

第三生成单元，用于根据多个调整参数分别对所述多个第二随机数进行调整，生成所述模拟测序深度数据集，其中，所述多个调整参数为根据实际样本确定的。

7.根据权利要求6所述的装置，其特征在于，所述第三生成单元包括：

第一确定模块，用于根据实际样本确定多个实际测序深度；

第一处理模块，用于对所述多个实际测序深度进行归一化处理，得到多个归一化测序深度；

拟合模块，用于拟合所述多个归一化测序深度相对于GC含量的函数；

第一计算模块，用于分别计算每个bin在参考基因组中的GC含量，并带入所述函数，以得到所述多个bin的GC偏差系数；

第二计算模块，用于将所述多个bin的GC偏差系数与所述多个第二随机数一一对应地相乘，得到所述模拟测序深度数据集。

8.根据权利要求6所述的装置，其特征在于，所述第三生成单元包括：

划分模块，用于将多个第二随机数划分为多个集群，其中，同一集群中包括的每个第二随机数对应的bin属于同一基因；

第一生成模块，用于分别对每一集群生成一个随机数，得到多个第三随机数，其中，每个第三随机数服从泊松分布；

第二处理模块，用于对所述多个第三随机数进行归一化处理，得到多个第四随机数；

第三计算模块，用于分别将每个集群中包括的第二随机数与对应的一组第四随机数一一对应地相乘，得到所述模拟测序深度数据集。

9.根据权利要求6所述的装置，其特征在于，所述第三生成单元包括：

选取模块，用于从实际样本中选取多个样本；

第三处理模块，用于分别对每个样本的reads数据进行GC校正并对每个样本的reads数据进行归一化；

第四计算模块，用于计算所述多个样本在每个bin处的平均值和方差；

第二生成模块，用于根据所述多个样本在每个bin处的平均值和方差生成一个服从正态分布的第五随机数作为对应bin的系统偏差系数；

第五计算模块，用于将每个第二随机数与对应bin的第五随机数相乘，得到所述模拟测序深度数据集。

10.根据权利要求6所述的装置，其特征在于，所述第三生成单元包括：

接收模块，用于接收输入的期望生成拷贝数变异CNV的基因名和拷贝数cn；

第二确定模块，用于根据所述输入的期望生成CNV的基因名在所述多个bin中确定需要产生CNV的bin；

第六计算模块，用于将所述需要产生CNV的bin所对应的第二随机数与cn/2相乘，得到所述模拟测序深度数据集。