一种基于三代测序的全基因组结构变异分析方法和系统
技术领域
本发明属于基因组结构变异检测领域,具体涉及一种基于三代测序的全基因组结构变异分析方法和系统。
背景技术
基因组结构变异通常是指基因组内较大片段的插入、缺失、重复、倒位、易位以及DNA拷贝数变异(CNV)等。较之于短的序列变异(SNP、Indel等),基因组结构变异影响了更多的基因组序列(~13%),因此也在多种疾病中扮演非常重要的角色。目前,基因组结构变异的检测主要包括,oligonucleotide-based array-CGH、SNP array、MLPA、QPCR等一代测序技术,基于二代测序的Breakdancer,readdepth,delly,PIndel分析技术,基于三代测序的PBhoney,Sniffles分析技术。由于一代基于存在价格高、通量低等弊端,已经越来越不适应目前的检测需求;第二代测序技术的发展,使得SNP、Indel等遗传变异得以广泛检测。然而,由于二代测序读长短(100~150bp左右)的特点,reads不能跨过整个变异的区域,尽管使用了多种算法,基因组结构变异的检测依然存在准确率低,敏感性低的不足;三代测序技术具有读长特别长(最高可达40K以上),单碱基错误率高(15%),错误随机性好(基本不受GC含量影响)等特点,目前基于第三代的基因组结构变异检测技术(PBhoney,Sniffles等)虽然大大改善了二代技术敏感性低的问题,但准确率低的缺点依然存在。
发明内容
为了解决上述问题,本发明提供了一种基于三代测序的全基因组结构变异分析方法和系统。所述方法和系统通过整合现有的三代基因组结构变异检测技术,能有效提高低覆盖度下基因组结构变异检测的准确性和敏感性,在降低检测成本的同时保证检测结果的可靠性。
本发明的技术方案为:
一种基于三代测序的全基因组结构变异分析方法,其特征在于,包括以下流程:
1)序列拆分,将基因组的测序序列拆分成若干个用于同步分析的子序列;
2)序列比对,将每个所述子序列分别通过两种比对工具与参考基因组比对,获得的比对结果分别通过合并工具合并得到两组比对序列;
3)基因组结构变异初步检测,将所述两组比对序列中每组比对序列仅通过对应的一种结构变异分析工具进行检测,两组比对序列经分别检测后得到两组基因组结构变异初步检测结果;
4)基因组结构变异初步检测结果合并筛选:
4.1)分别将两组基因组结构变异初步检测结果转换成统一格式;
4.2)合并两组基因组结构变异初步检测结果:
4.2.1)遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列;
4.2.2)分别计算4.2.1)中所述两个缺失序列的起始位点和终止位点的均值,所述均值为4.2.1)所述判定的缺失序列的起始位点和终止位点;
4.2.3)重复4.2.1)和4.2.2)中步骤,筛选出两组基因组结构变异初步检测结果中所有缺失序列的交集;筛选出两组基因组结构变异初步检测结果中所有缺失序列的并集;
4.2.4)遍历两组基因组结构变异初步检测结果中的插入序列,判断如果两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列;
4.2.5)分别计算4.2.4)中所述两个插入序列的起始位点和终止位点的均值,所述均值为4.2.4)所述判定的插入序列的起始位点和终止位点;
4.2.6)重复4.2.4)和4.2.5)中步骤,筛选出两组基因组结构变异初步检测结果中所有插入序列的交集;筛选出两组基因组结构变异初步检测结果中所有插入序列的并集;
4.3)数据结果质控:
根据交集和并集中的基因组结构变异检测结果的比例以及该区域的覆盖度,支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;
5)基因组结构变异功能注释,利用注释工具注释基因组结构变异最终检测结果。
所述步骤2)中所述两种比对工具分别为blasr和bwa;所述步骤2)中合并工具为samtools。
所述步骤3)中通过blasr比对得到的比对序列对应的结构变异分析工具为PBhoney;所述步骤3)中通过bwa比对得到的比对序列对应的结构变异分析工具为Sniffles。
所述步骤4.1)中的统一格式为bed格式。
所述步骤5)中的注释工具为annovar。
一种基于三代测序的全基因组结构变异分析系统,其特征在于,所述基于三代测序的全基因组结构变异分析系统包括以下模块:
序列拆分模块,用于将基因组的测序序列拆分成若干个用于同步分析的子序列;
序列比对模块,包括两个并列的比对单元,所述比对单元用于所述子序列与参考基因组的比对,获得两组比对序列;
基因组结构变异初步检测模块,包括两个并列的结构变异分析单元,所述两个结构变异分析单元用于同步检测两组比对序列中的基因组结构变异,获得两组基因组结构变异初步检测结果;
基因组结构变异初步检测结果合并筛选模块,包括格式转换单元、数据分析单元、交集单元、并集单元和数据结果质控单元;
所述格式转换单元用于将两组基因组结构变异初步检测结果转换成统一格式;
所述数据分析单元用于分析基因组结构变异初步检测结果,具体为遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列;分别计算所述两个缺失序列的起始位点和终止位点的均值,所述均值为所述判定的缺失序列的起始位点和终止位点;筛选出两组基因组结构变异初步检测结果中所有缺失序列的交集结果,将所述交集结果置于交集单元中;筛选出两组基因组结构变异初步检测结果中所有缺失序列的并集结果,将所述交集结果置于并集单元中;
遍历两组基因组结构变异初步检测结果中的插入序列,判断如果两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列;分别计算所述两个插入序列的起始位点和终止位点的均值,所述均值为所述判定的插入序列的起始位点和终止位点;筛选出两组基因组结构变异初步检测结果中所有插入序列的交集结果,并将交集结果置于交集单元中;筛选出两组基因组结构变异初步检测结果中所有插入序列的并集结果,并将并集结果置于并集单元中;
所述数据结果质控单元根据交集单元和并集单元中基因组结构变异检测结果的比例以及该区域的覆盖度,支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;
基因组结构变异功能注释模块,包括注释单元,所述注释单元用于注释基因组结构变异最终检测结果。
所述两个比对单元运用的分析工具分别为blasr和bwa,分析后的数据均用合并工具samtools合并。
所述两个结构变异分析单元运用的工具分别为PBhoney和Sniffles;blasr的运用与PBhoney相对应;bwa的应用与Sniffles相对应。
所述格式转换单元转换后的统一格式为bed格式。
所述基因组结构变异功能注释模块中的注释工具为annovar。
本发明的有益效果为:
基因组的一代测序和二代测序耗时长,三代测序虽然速度得到大幅提升,但是准确度低,要得到更精准的数据需要很高的覆盖深度,成本大大提高。本发明根据两种三代测序工具测序后所得结果进行并集或交集来输出最终的结构变异分析结果,来满足准确度或灵敏度要求,特别是实现了低覆盖深度下,基因组结构变异检测结果的可靠性,提升检测速度的同时降低了检测成本。
附图说明
图1为本发明实施例1和实施例2的流程图。
图2为本发明的所述系统的结构示意图。
图3为本发明所述系统中基因组结构变异初步检测结果合并筛选模块的结构示意图。
图4为图2不同软件在实施例1样品中缺失序列检测准确率/检出率比较。
图5为不同软件在实施例1样品中插入序列检出率比较。
图6为不同软件在实施例2样品中缺失序列检测准确率/检出率比较。
图7不同软件在实施例2样品中插入序列检测准确率/检出率比较。
具体实施方式
结合附图和具体实施例,对本发明作进一步描述。
结合附图1对本发明实施例所述基于三代测序的全基因组结构变异分析方法的工作流程进行说明,详细流程如下所示:
步骤1,获得原始bam文件数据;
步骤2,将bam文件中的序列拆分,将基因组的测序序列拆分成若干个用于同步分析的子序列,即将原始reads数拆分成多个fastq文件;每个fastq文件进入步骤3和步骤4;
步骤3和步骤4同步进行,将fastq文件中的数据进行基因比对,步骤3中Fastq文件用blasr比对,比对结果文件用samtools合并;步骤4中Fastq文件用bwa比对,比对结果文件用samtools合并;
步骤3合并后的数据进入步骤5用PBhoney做基因组结构变异检测;步骤4合并后的数据进入步骤6用Sniffles做基因组结构变异检测;
步骤5获得的基因组结构变异初步检测结果进入步骤7转化成bed格式;步骤6获得的基因组结构变异初步检测结果进入步骤8转化成bed格式;
步骤9遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列,进入步骤10;步骤9判定该两个缺失序列不是同一个缺失序列时,进入步骤12;
步骤10计算被判定为同一个缺失序列的两缺失序列的起始位点和终止位点的均值,所述均值为所述判定的缺失序列的起始位点和终止位点;进入步骤11;
步骤11将步骤10筛选出的所有缺失序列合并作为缺失序列的交集结果进入步骤12;
步骤12将步骤11中缺失序列的交集结果和步骤9中判定为不是同一缺失序列的缺失序列合并,作为所有缺失序列的并集结果进入步骤13;
步骤9遍历两组基因组结构变异初步检测结果中的插入序列,如果所述两组基因组结构变异初步检测结果中两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列,进入步骤10;步骤9判定该两个缺失序列不是同一个插入序列时,进入步骤12;
步骤10计算被判定为同一个插入序列的两插入序列的起始位点和终止位点的均值,所述均值为所述判定的插入序列的起始位点和终止位点;进入步骤11;
步骤11将步骤10筛选出的所有插入序列合并作为交集结果进入步骤12;
步骤12将步骤11中交集结果和步骤9中判定为不是同一插入序列的插入序列合并,作为所有插入序列并集结果,进入步骤13
步骤13将步骤11和步骤12得到的基因组结构变异中支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;进入步骤14;
步骤14利用注释工具注释出基因组结构变异最终检测结果中基因组结构变异的不同功能类型以及其他相关信息,得到最终结果。
从图2可以看出,本发明实施例所述基于三代测序的全基因组结构变异分析系统包括序列拆分模块10,序列对比模块20,基因组结构变异初步检测模块30,基因组结构变异初步检测结果合并筛选模块40,基因组结构变异功能注释模块50。
从图3可以看出,基因组结构变异初步检测结果合并筛选模块包括格式转化单元41,格式转化单元42,数据分析单元43,交集单元44,并集单元45和数据结果质控单元46。
实施例中各模块和单元中采用了适用于三代测序超长读长的多种生物信息分析软件,具体如下:
1、Blasr比对是一个非常耗费计算资源和时间的过程,所以本系统首先将原始的测序数据按照原始reads数拆分成多个fastq文件,在比对过程中采用多个任务并行的模式,大量的节省了时间。
2、基因组结构变异PBhoney检测
2.1)Fastq文件分别用blasr比对。
2.2)比对结果文件用samtools合并,用PBhoney做基因组结构变异检测。
3、基因组结构变异Sniffles检测
3.1)Fastq文件分别用bwa比对。
3.2)比对结果文件用samtools合并,用Sniffles做基因组结构变异检测。
4、原始基因组结构变异初步检测结果合并筛选
4.1)分别将PBhoney、Sniffles结果转换成统一的bed格式,方便后续的合并与筛选。
4.2)合并PBhoney、Sniffles结果。
4.2.1)遍历PBhoney、Sniffles结果中的缺失序列,判断如果两个缺失序列重叠部分的长度占两缺失序列长度的比例大于50%,则判定该两个缺失序列为同一个缺失序列。
4.2.2)分别计算PBhoney、Sniffles缺失序列起始位点和终止位点的均值作为合并后结果的起始位点和终止位点。
4.2.3)将PBhoney、Sniffles结果中的intersection部分输出到intersection结果中;将intersection和其他结果输出到union结果中。
4.2.4)遍历PBhoney、Sniffles结果中的插入序列,判断如果两插入序列的距离小于1000bp,则认为该两个插入序列为同一个插入序列,否则则认为两插入序列不同。
4.2.5)分别计算PBhoney、Sniffles缺失序列起始位点和终止位点的均值作为合并后结果的起始位点和终止位点。
4.2.6)将PBhoney、Sniffles结果中的intersection部分输出到intersection结果中;将intersection和其他结果输出到union结果中。
4.3)数据结果质控
根据支持基因组结构变异reads的比例以及该区域的覆盖度,支持数低于20%的基因组结构变异删除。
5、基因组结构变异功能注释
本系统利用annovar注释出基因组结构变异的不同功能类型以及其他相关信息,方便用户的进一步筛选。
本系统结果分为union(并集)和intersection(交集)两种模式,union模式敏感性方面非常好,而intersection模式则在准确性方面具有极大的优势。在10X覆盖度的情况下,本发明的union模式对Indel的检出率达到75%以上,Intersection模式的准确率接近90%,用户可以根据自己的需求选择适合自己的模式。
以下通过具体实施例对本发明的结果与技术参数做详细说明。
实施例1.
样品:该样品来自本公司一个自愿捐献者,该样品有很好的一代和二代测序的研究基础,所以本实施例将该样品作为一个demo case来说明本系统的准确性。
数据分析与结果统计:
原始数据统计
表1 原始数据统计
测序base数 |
34.28G |
polymer read数 |
3.59M |
polymer read平均长度 |
9,441 |
polymer read长度N50 |
16,694 |
subread数 |
12.88M |
subread平均长度 |
2,624 |
subread平均N50 |
3,208 |
比对结果统计
通过blasr比对,最终有12.85M reads被比对到基因组(版本号hg19)上。
与标准数据比较
目前已知本实施例所用样品中长度大于200bp的缺失序列和插入序列共有2194和68个。标准结果中插入序列数量较少,该情况应该是因为一代以及二代测序技术对插入序列检测结果太差造成的。
表2 实施例1与其他软件对缺失序列检测结果比较
表3 实施例1与其他软件对插入序列检测结果比较
实施例2.
样品:该样品是本公司利用三代测序技术完成个一个全基因组测序样品。该样品的测序深度高达100X,所以该样品基因组结构变异的检测结果具有较高的可信度。本实施例将多种系统在高深度条件下检测出的基因组结构变异作为标准集,并随机挑选了10X数据做为测试数据测试本发明的准确性。
数据分析与结果统计:
本实施例测试数据统计结果如下表
表4 原始数据统计
测序base数 |
34.22G |
polymer read数 |
2.39M |
polymer read平均长度 |
14,344 |
polymer read长度N50 |
12,169 |
subread数 |
3.03M |
subread平均长度 |
11,294 |
subread平均N50 |
9,954 |
比对结果统计
通过blasr比对,最终有3.03M reads被比对到基因组(版本号hg19)上。
与标准数据比较
经过检测,该样品中共发现缺失序列和插入序列分别为2978和2950个,根据比较结果intersection的准确率可以高达90%。
表5 实施例2与其他软件对缺失序列检测结果比较
表6 实施例2与其他软件对插入序列检测结果比较
通过两个标准样品的验证,本发明在测序深度约为10X的情况下,缺失/插入的准确率和检出率分别达到90%和75%以上,将三代基因组结构变异检测准确度提高了1倍。
根据实施例1和实施例2我们可以得出本发明Union部分敏感性可以达到75%以上,Intersection部分准确性可以达到90%。
以上所述仅为本发明的较佳实施例,凡在本发明的原则之内所做的任何简单修改、等同变换与改型,仍应属于本发明的保护范围之内。