CN109390039A

CN109390039A - 一种统计dna拷贝数信息的方法、装置及存储介质

Info

Publication number: CN109390039A
Application number: CN201710685620.7A
Authority: CN
Inventors: 金鑫; 周亚峰; 李佳; 袁玉英; 陈芳; 刘强; 刘娜; 吴仁花; 张红云; 茅矛; 尹烨
Original assignee: BGI Shenzhen Co Ltd
Current assignee: Hainan Huada Gene Technology Co.,Ltd.
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2019-02-26
Anticipated expiration: 2037-08-11
Also published as: CN109390039B

Abstract

一种统计DNA拷贝数信息的方法、装置及存储介质。该方法包括：获取目标基因组的全基因组测序读段数据；将所述测序读段数据比对到参考基因组以去除未比对上的读段及重复读段；分别计算基于排列组合的染色体非整倍性评估值PECA和基于排列组合的单臂不稳定性评估值PEAI；将所述PECA值和所述PEAI值分别与各自的设定阈值比较以评估基因组拷贝数变化。本发明结合PECA和PEAI值，分别从全基因组和染色体单臂层面评估基因组拷贝数变化，能够大大降低测序和后期生物信息学分析的成本。

Description

一种统计DNA拷贝数信息的方法、装置及存储介质

技术领域

本发明涉及生物信息学技术领域，具体涉及一种统计DNA拷贝数信息的方法、装置及存储介质。

背景技术

拷贝数变异(copy number variation，CNV)是基因组结构变异的一种形式。长度介于50bp至1Mb之间。在人类基因组中，发生CNV的区域约占基因组总长度的12％。CNV能够通过改变基因剂量或染色体构象来影响基因表达，进而影响疾病的发生和发展。

基因芯片技术和深度测序技术是目前检测全基因组CNV的两种主要技术。前者主要包括比较基因组杂交芯片(comparative genomic hybridization，CGH)和SNP(singlenucleotide polymorphism)芯片。比较基因组杂交技术通过将试验样品和参照样品基因组DNA同时与微阵列芯片上的DNA探针杂交，直观地得到试验样品中基因组DNA发生变异的位点信息及拷贝数量变化信息。它可以高效、快速地分析数以千计的基因组信息，具有高通量、微型化和自动化的特点。CGH又不断演进出微阵列比较基因组杂交(Array-CGH)技术和寡核苷酸阵列比较基因组杂交(oaCGH)，芯片分辨率大大增加，是CGH的100倍以上。

比较基因组杂交芯片(CGH)技术是CNV的主要研究方法，由荧光原位杂交技术结合消减杂交技术衍生，是一种改进的染色体荧光原位杂交技术。仅需微量DNA，只需一次实验就可对基因组中所有的遗传物质增加或丢失异常进行检测分析，主要是将待测DNA与正常对照DNA用不同荧光标记，按一定比例将两者混合杂交，在荧光显微镜下检测。这种方法可以检测出DNA中的拷贝数变异并将其定位在染色体上。但是CGH主要是用来检测单一副本缺失的，所以平衡相互异位及倒位都不易被检测出来。

微阵列比较基因组杂交(Array-CGH)技术是将cDNA与aCGH预杂交做成微阵列，将待测与参照基因组DNA，用不同荧光染料标记，再在芯片上做竞争性杂交。此法可以确定相关基因，提供较为精确的定位，使得分辨率得到进一步提高，分辨率是CGH的100倍以上。Array-CGH高分辨率检测CNV是基于全基因组水平的，多应用于遗传学和肿瘤学的研究中。

SNP芯片是另一种有效检测CNV的技术，与比较基因组杂交芯片不同的是，SNP芯片不需要同时使用两个样本的DNA(实验组和对照组)和探针进行双杂交，只需单杂交即可完成；SNP芯片即可用于SNP检测，又能用于CNV分析，并且具有极高的全基因组探针物理覆盖率。

尽管目前的主流方向仍是通过不断提高微阵列的分辨率和降低其成本来达到研究和探索CNV的目的，但测序成本的大大降低，基于高通量测序结果的CNV检测方法是近年来快速发展的新领域。CNV检测的分辨率和准确率随着测序深度的增加而提高。与芯片技术相比较，在足够测序深度的条件下，可以获得更加准确的CNV的断点位置。并且通过深度测序技术可以检测基因芯片所不能检测的倒位和插入等基因组变异形式，由于深度测序技术无需设计探针，能在全基因组范同内以单个碱基的分辨率检测CNV，因而可以显著提高CNV的检测个数。因此，高通量测序技术所产生的数据可用于多个目的的研究，而基于芯片的方法所产生的数据通常只能用于单一特定目地的研究。

全基因组重测序提取基因组DNA，利用Covaris进行随机打断，电泳回收所需长度的DNA片段(0.2～5Kb)，加上接头，进行簇制备(Solexa)或E-PCR(SOLiD)，最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序。将所有测序获得的短片段(30～100bp)比对到参考基因组上。常用的比对软件有MAQ、Bowtie和BWA等。最后可利用4种不同策略检测CNV，包括读段深度法(read depth)、末端配对作图法(paired-endmapping，PEM)、读段分解法(split read)和重装配法(assembly)。

现有技术存在如下问题：比较基因组杂交技术成本高，分辨率低，该技术对于10-25kb的CNV灵敏度低。利用芯片技术检测CNV有一个共同的缺点是成本都较高。SNP芯片探针的在全基因组上的密度足够大，可在基因组中并非均衡分布，在一些重复序列和复杂的CNV区域，SNP密度是较小的，不能得到较为清晰的CNV图谱。基于高通量测序结果的CNV检测方法主要是基于双末端测序比对(paired-end mapping，PEM)结果。但是PEM的局限性在于，多种类型的CNV，包括复杂基因组区域中的大片段的插入和变异难以被检测到，且对于超过平均插入文库的插入检测有局限性，且成本过高。目前所有的技术均聚焦于基因组局部CNV(50bp和1Mb之间)的变化，忽略整个基因组或者单臂不稳定程度的评估和监测等问题。

发明内容

本发明提供一种统计DNA拷贝数信息的方法、装置及存储介质，结合基于排列组合的染色体非整倍性评估值(Permutation-based Evaluation of chromosomalaneuploidy，PECA)和基于排列组合的单臂不稳定性评估值(Permutation-basedEvaluation of arm instability，PEAI)，分别从全基因组和染色体单臂层面评估基因组拷贝数变化，能够大大降低测序和后期生物信息学分析的成本。

根据第一方面，一种实施例中提供一种统计DNA拷贝数信息的方法，包括：

获取目标基因组的全基因组测序读段数据；

将上述测序读段数据比对到参考基因组以去除未比对上的读段及重复读段；

分别计算基于排列组合的染色体非整倍性评估值PECA和基于排列组合的单臂不稳定性评估值PEAI，

其中，上述PECA值表示被分割成片段的基因组中各片段的基因组代表比例的P值经校正后的求和结果或上述求和结果的对数值，其中各片段的基因组代表比例表示该片段比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值，

上述PEAI值表示基因组中各染色体单臂的基因组代表比例的P值中数值最小的若干个P值经校正后的求和结果，其中各染色体单臂的基因组代表比例表示该染色体单臂比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值；

将上述PECA值和上述PEAI值分别与各自的设定阈值比较以评估基因组拷贝数变化。

进一步地，上述PECA值的计算公式如下：

其中，I为片段数，adjustedPvalue为各片段的基因组代表比例的P值经FDR校正后的结果。

进一步地，上述PEAI值的计算公式如下：

其中，m为所有P值中数值最小的P值的个数，adjusted P value为各染色体单臂的基因组代表比例的P值中数值最小的若干个P值经校正后的结果。

进一步地，上述m的取值为5。

进一步地，上述各片段的基因组代表比例的P值，通过如下方法获得：

将对照组所有样本的同一片段的基因组代表比例重复随机选择第一预定次数，上述P值表示所选择的基因组代表比例中大于该片段的基因组代表比例的个数与上述第一预定次数的比例。

进一步地，上述各染色体单臂的基因组代表比例的P值，通过如下方法获得：

将对照组所有样本的同一染色体单臂的基因组代表比例重复随机选择第二预定次数，上述P值表示所选择的基因组代表比例中大于该染色体单臂的基因组代表比例的个数与上述第二预定次数的比例。

进一步地，上述方法还包括：在计算PECA值和PEAI值之前，对比对后的结果进行GC校正。

根据第二方面，一种实施例中提供一种统计DNA拷贝数信息的装置，包括：

获取模块，用于获取目标基因组的全基因组测序读段数据；

比对模块，用于将上述测序读段数据比对到参考基因组以去除未比对上的读段及重复读段；

计算模块，用于分别计算基于排列组合的染色体非整倍性评估值PECA和基于排列组合的单臂不稳定性评估值PEAI，

比较模块，用于将上述PECA值和上述PEAI值分别与各自的设定阈值比较以评估基因组拷贝数变化。

根据第三方面，一种实施例中提供一种统计DNA拷贝数信息的装置，包括：

存储器，用于存储程序；

处理器，用于通过执行上述存储器存储的程序以实现如第一方面的方法。

根据第四方面，一种实施例中提供一种计算机可读存储介质，其特征在于，包括程序，上述程序能够被处理器执行以实现如第一方面的方法。

本发明结合基于排列组合的染色体非整倍性评估值和基于排列组合的单臂不稳定性评估值，分别从全基因组和染色体单臂层面评估基因组拷贝数变化，能够大大降低测序和后期生物信息学分析的成本，适用于各个涉及到DNA拷贝数变异研究的遗传研究领域，如动植物育种研究、植物演化研究、动物基因组研究等，提高了拷贝数变异检测的适用范围。

附图说明

图1为本发明一种实施例中的统计DNA拷贝数信息的方法的流程图；

图2为本发明一种实施例中各片段的基因组代表比例的P值获取方法示意图；

图3为本发明一种实施例中各染色体单臂的基因组代表比例的P值获取方法示意图；

图4为本发明一种实施例中的统计DNA拷贝数信息的装置的结构框图；

图5为本发明一个实施例中100例正常人和20例肿瘤病人外周血样本PECA值比较结果图；

图6为本发明一个实施例中100例正常人和20例肿瘤病人外周血样本NIPT检测PEAI值绝对值前五的平均值比较结果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本发明能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本发明相关的一些操作并没有在说明书中显示或者描述，这是为了避免本发明的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

如图1所示，一种实施例中提供的统计DNA拷贝数信息的方法，包括：

步骤101：获取目标基因组的全基因组测序读段数据。

目标基因组，作为测试样本基因组，或者测试样本基因组和对照样本基因组的综合，可以是肿瘤样本基因组，或动植物育种研究、植物演化研究、动物基因组研究中的任何基因组，包括异常基因组与正常基因组等，本发明没有特别限制。

步骤102：将测序读段数据比对到参考基因组以去除未比对上(unmatched)的读段及重复读段。

DNA测序数据需要比对到参考基因组上，这一步可利用现有的软件进行，如Burrows-Wheeler Aligner(BWA)、Short Oligonucleotide Analysis Package(SOAP)等。本发明对此没有特别限制。

在本发明的优选实施例中，比对后的结果bam格式文件，利用correctGCBias等进行GC校正，然后再进行后续步骤。

步骤103：分别计算基于排列组合的染色体非整倍性评估值(PECA)和基于排列组合的单臂不稳定性评估值(PEAI)。

基于排列组合的染色体非整倍性评估值(Permutation-based Evaluation ofchromosomal aneuploidy，PECA)，表示被分割成片段的基因组中各片段的基因组代表比例的P值经校正后的求和结果或上述求和结果的对数值，其中各片段的基因组代表比例表示该片段比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值。

例如，在本发明的一个实施例中，PECA值的基本原理为将基因组分割成片段(segments)，例如，每1Mbp作为一个片段，某片段的基因组代表比例(genomicrepresentation，GR)等于该片段比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值，其中“该片段比对到唯一位置的读段数”是指，对各个读段(read)而言，如果其仅在该片段有一个比对上的位置，那么该读段就被统计为“比对到唯一位置的读段”，所有这样的读段的数目，即“该片段比对到唯一位置的读段数”。在此，那些比对到多个位置的读段被排除在外。“该样本全部比对到唯一位置的读段总数”是指，对于一个特定的样本(例如测试样本)而言，该样本的所有读段中的每一个读段，如果其在各片段上仅有一个比对上的位置，那么该读段就被统计为“比对到唯一位置的读段”，所有这样的读段的数目，即“该样本全部比对到唯一位置的读段总数”。例如，在一个实施例中，如果将基因组分割成100个片段，对于第1个片段而言，如果“该片段比对到唯一位置的读段数”是m，对于某一个测试样本，“该样本全部比对到唯一位置的读段总数”是n，那么，该样本第1个片段的基因组代表比例(GR)等于m/n。因此，能够计算出每个片段的基因组代表比例(GR)值。

然后，根据基因组代表比例(GR)值计算各片段的基因组代表比例的P值，如图2所示，在本发明一个实施例中，P值通过如下方式计算：假如测试样本某一片段GR值为0.035；对照组所有样本(例如100个)的同一片段的GR值，重复随机选择10000次(在其它实施例中也可以是其它次数)，构成GR值的正态分布；在这随机选择的10000次中，GR值大于测试样本的该片段实际GR值(即0.035)的比例即为P值(如0.0003)。这种随机重复选择的方式能够最大限度地利用有限的对照组样本，不要求大量对照组样本，也能实现P值计算。

优选地，利用False Discovery Rate(FDR)对P值进行校正，然后将所有片段校正后的P值求和，所得的求和结果既可以作为在全基因组水平评估基因组拷贝数变化的依据。然而，为了比较的方便，可以对所得的求和结果进行对数运算，例如取lg对数值。因此，在本发明一个实施例中，PECA值的计算公式如下：

其中，I为片段数，adjusted Pvalue为各片段的基因组代表比例的P值经FDR校正后的结果。

基于排列组合的单臂不稳定性评估值(Permutation-based Evaluation of arminstability，PEAI)，表示基因组中各染色体单臂的基因组代表比例的P值中数值最小的若干个P值经校正后的求和结果，其中各染色体单臂的基因组代表比例表示该染色体单臂比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值。

例如，在本发明的一个实施例中，PEAI是在染色体单臂层面上评估基因组非整倍性的方法，其基本原理为：某染色体单臂的基因组代表比例(genomic representation，GR)等于该染色体单臂比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值。其中“该染色体单臂比对到唯一位置的读段数”是指，对各个读段(read)而言，如果其仅在该染色体单臂有一个比对上的位置，那么该读段就被统计为“比对到唯一位置的读段”，所有这样的读段的数目，即“该染色体单臂比对到唯一位置的读段数”。在此，那些比对到多个位置的读段被排除在外。“该样本全部比对到唯一位置的读段总数”是指，对于一个特定的样本(例如测试样本)而言，该样本的所有读段中的每一个读段，如果其在各染色体单臂上仅有一个比对上的位置，那么该读段就被统计为“比对到唯一位置的读段”，所有这样的读段的数目，即“该样本全部比对到唯一位置的读段总数”。例如，在一个实施例中，对于第1个染色体单臂而言，如果“该染色体单臂比对到唯一位置的读段数”是p，对于某一个测试样本，“该样本全部比对到唯一位置的读段总数”是q，那么，该样本第1个染色体单臂的基因组代表比例(GR)等于p/q。因此，能够计算出每个染色体单臂的基因组代表比例(GR)值。

然后，根据基因组代表比例(GR)值计算各染色体单臂的基因组代表比例的P值，如图3所示，在本发明一个实施例中，P值通过如下方式计算：

假如测试样本某一染色体单臂GR值为0.037；对照组所有样本(例如100个)的同一染色体单臂的GR值，重复随机选择10000次(在其它实施例中也可以是其它次数)，构成GR值的正态分布；在这随机选择的10000次中，GR值大于测试样本的该染色体单臂实际GR值(即0.037)的比例即为P值(如0.0045)。这种随机重复选择的方式能够最大限度地利用有限的对照组样本，不要求大量对照组样本，也能实现P值计算。

优选地，为了排除离群值干扰，降低假阳性率，取P值最小的m条单臂，利用FalseDiscovery Rate(FDR)对P值进行校正，然后将其校正后P值求平均值，以此作为最终的PEAI值。因此，在本发明一个实施例中，PEAI值的计算公式如下：

在更优选的实施例中，即m的取值为5。

本发明实施例中，PECA和PEAI计算模型分别是在基因组片段和染色体单臂两个不同维度对DNA拷贝数变异程度进行评估，两个模型的评估结果相互独立，交互验证。

步骤104：将PECA值和PEAI值分别与各自的设定阈值比较以评估基因组拷贝数变化。

PECA值的阈值和PEAI值的阈值，可以根据测试样本和对照组样本的情况依据经验设定，用于区别异常样本和正常样本。在本发明一个实施例中，PECA值的阈值是3.4，而PEAI值的阈值是0.2。

如图4所示，本发明的一种实施例提供一种统计DNA拷贝数信息的装置，包括：获取模块401，用于获取目标基因组的全基因组测序读段数据；比对模块402，用于将上述测序读段数据比对到参考基因组以去除未比对上的读段及重复读段；计算模块403，用于分别计算基于排列组合的染色体非整倍性评估值PECA和基于排列组合的单臂不稳定性评估值PEAI，其中，上述PECA值表示被分割成片段的基因组中各片段的基因组代表比例的P值经校正后的求和结果或上述求和结果的对数值，其中各片段的基因组代表比例表示该片段比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值，上述PEAI值表示基因组中各染色体单臂的基因组代表比例的P值中数值最小的若干个P值经校正后的求和结果，其中各染色体单臂的基因组代表比例表示该染色体单臂比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值；比较模块404，用于将上述PECA值和上述PEAI值分别与各自的设定阈值比较以评估基因组拷贝数变化。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，本发明的一种实施例提供一种统计DNA拷贝数信息的装置，包括：存储器，用于存储程序；处理器，用于通过执行上述存储器存储的程序以实现本发明的方法。

本发明的一种实施例提供一种计算机可读存储介质，包括程序，上述程序能够被处理器执行以实现本发明的方法。

以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例仅是示例性的，不能理解为对本发明保护范围的限制。

实施例

本实例利用20例肿瘤样本和100例正常样本基因组低深度(0.1X)测序数据，分别计算PECA值和PEAI值，验证本发明的方法可有效评估基因组层面拷贝数变化的程度。

(1)选择20例肿瘤样本外周血样本；

(2)选取100例正常人外周血样本；

(3)应用BGIseq-1000测序平台对100例正常人外周血样本和20例肿瘤样本外周血样本的DNA进行全基因组测序；

(4)对于每一例样本的测序结果，分别计算PEAI值和PECA值。

图5示出了100例正常人(Normal)和20例肿瘤(Cancer)外周血样本PECA值比较情况。与正常人样本相比较，肿瘤样本具有更低的PECA值，说明肿瘤样本的拷贝数变异更大。当PECA值<3.4时，提示肿瘤样本的全基因组拷贝数异常显著，PECA越低，异常程度越高。

图6示出了100例正常人(Normal)和20例肿瘤(Cancer)外周血样本低深度(0.1X)测序数据的PEAI值绝对值前五的平均值比较情况。与正常人样本相比较，肿瘤样本具有更低的PEAI值，说明肿瘤样本的染色体单臂水平拷贝数变异更大。当PEAI值<0.2时，提示肿瘤样本的全基因组拷贝数异常显著，PEAI越低，异常程度越高。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种统计DNA拷贝数信息的方法，其特征在于，包括：

获取目标基因组的全基因组测序读段数据；

将所述测序读段数据比对到参考基因组以去除未比对上的读段及重复读段；

其中，所述PECA值表示被分割成片段的基因组中各片段的基因组代表比例的P值经校正后的求和结果或所述求和结果的对数值，其中各片段的基因组代表比例表示该片段比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值，

所述PEAI值表示基因组中各染色体单臂的基因组代表比例的P值中数值最小的若干个P值经校正后的求和结果，其中各染色体单臂的基因组代表比例表示该染色体单臂比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值；

将所述PECA值和所述PEAI值分别与各自的设定阈值比较以评估基因组拷贝数变化。

2.根据权利要求1所述的方法，其特征在于，所述PECA值的计算公式如下：

其中，I为片段数，adjustedP value为各片段的基因组代表比例的P值经FDR校正后的结果。

3.根据权利要求1所述的方法，其特征在于，所述PEAI值的计算公式如下：

4.根据权利要求3所述的方法，其特征在于，所述m的取值为5。

5.根据权利要求1所述的方法，其特征在于，所述各片段的基因组代表比例的P值，通过如下方法获得：

将对照组所有样本的同一片段的基因组代表比例重复随机选择第一预定次数，所述P值表示所选择的基因组代表比例中大于该片段的基因组代表比例的个数与所述第一预定次数的比例。

6.根据权利要求1所述的方法，其特征在于，所述各染色体单臂的基因组代表比例的P值，通过如下方法获得：

将对照组所有样本的同一染色体单臂的基因组代表比例重复随机选择第二预定次数，所述P值表示所选择的基因组代表比例中大于该染色体单臂的基因组代表比例的个数与所述第二预定次数的比例。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：在计算PECA值和PEAI值之前，对比对后的结果进行GC校正。

8.一种统计DNA拷贝数信息的装置，其特征在于，包括：

获取模块，用于获取目标基因组的全基因组测序读段数据；

比对模块，用于将所述测序读段数据比对到参考基因组以去除未比对上的读段及重复读段；

比较模块，用于将所述PECA值和所述PEAI值分别与各自的设定阈值比较以评估基因组拷贝数变化。

9.一种统计DNA拷贝数信息的装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1至7中任一项所述的方法。