发明内容
本公开的一个方面要解决的一个技术问题是提供一种基因组结构性变异检测方法,准确性更高。
本公开的一个方面提供一种基因组结构性变异检测方法,包括:
组装步骤,将测序序列组装成骨架序列(scaffold);
比对步骤,将骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果;
提取步骤,从含有变异信息的比对结果中提取变异信息。
根据本公开的一个方面,在组装步骤之前,还包括:
优化步骤,将测序序列通过比对参考基因组进行优化处理获得优化的测序序列;
组装步骤包括:将优化的测序序列组装成骨架序列。
根据本公开的一个方面,在提取步骤之后,还包括:
验证步骤,对提取的变异信息进行验证以去除未通过验证的变异信息。
根据本公开的一个方面,验证步骤包括:
对于变异信息中长度大于等于50bp的变异,判断重复性是否小于10%,如果是,则构建变异序列,将测序序列比对上变异序列,如果变异序列的深度符合逻辑理论分布,则通过验证,否则未通过验证,去除变异;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,则构建变异序列,把测序序列比对上变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;
对于变异信息中长度小于50bp的变异,构建变异序列,通过短序列比对工具对测序序列和变异序列进行间隙比对,如果比对结果符合逻辑理论比对结果,则通过验证,否则未通过验证,去除变异。
根据本公开的一个方面,提取步骤还包括:
对含有变异信息的比对结果进行如下处理:
过滤或重新运行异常结果;和/或
过滤逻辑错误结果;和/或
去除常见结果不完整。
根据本公开的一个方面,优化步骤包括:
通过短序列比对工具将测序序列比对参考基因组获得比对序列;
优化步骤还包括:
通过短序列比对工具去除重复测序序列;
和/或
将比对上参考基因组的所有错误比对碱基置换成与参考基因组一致的碱基;
和/或
去除比对序列中平均质量低于预定值的测序序列。
根据本公开的一个方面,组装步骤包括:
将测序序列切成N-mer后构建德布鲁恩图;
根据德布鲁恩图输出重叠群(contig)和杂合序列;
运用测序得到的双端关系根据重叠群构建骨架序列;
对骨架序列进行补缺口得出最后的骨架序列。
通过本公开实施例的方法,对全基因组测序结果进行组装获得骨架序列,和参考基因组进行对比,得出与参考基因组无关的个人特有基因组,准确性高。
本公开的另一个方面要解决的一个技术问题是提供一种基因组结构性变异检测系统,准确性更高。
本公开的一个方面提供一种基因组结构性变异检测系统,包括:
组装装置,用于将测序序列组装成骨架序列(scaffold);
比对装置,用于将骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果;
提取装置,用于从含有变异信息的比对结果中提取变异信息。
根据本公开的一个方面,该系统还包括:
优化装置,用于将测序序列通过比对参考基因组进行优化处理获得优化的测序序列;
组装装置用于将优化的测序序列组装成骨架序列。
根据本公开的一个方面,该系统还包括:
验证装置,用于对提取的变异信息进行验证,去除未通过验证的变异信息。
根据本公开的一个方面,验证装置对于变异信息中长度大于等于50bp的变异,判断重复性是否小于10%,如果是,则构建变异序列,将测序序列比对上变异序列,如果变异序列的深度符合逻辑理论分布,则通过验证,否则未通过验证,去除变异;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,则构建变异序列,把测序序列比对上变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;对于变异信息中长度小于50bp的变异,构建变异序列,通过短序列比对工具对测序序列和变异序列进行间隙比对,如果比对结果符合逻辑理论比对结果,则通过验证,否则未通过验证,去除变异。
根据本公开的一个方面,提取装置包括:
变异信息过滤单元,用于对含有变异信息的比对结果进行过滤或重新运行异常结果;和/或过滤逻辑错误结果;和/或去除常见结果不完整,输出过滤后的比对结果;
变异信息提取单元,用于从变异信息过滤单元输出的过滤后的比对结果提取变异信息。
根据本公开的一个方面,优化装置包括:
对比单元,用于将测序序列比对参考基因组得到比对序列;
过滤单元,用于对比对序列进行过滤,去除比对结果中平均质量低于预定值的序列;
错误碱基置换单元,用于将比对上参考基因组的所有错误比对碱基置换成与参考基因组一致的碱基。
根据本公开的一个方面,组装装置包括:
图构建单元,用于将优化的测序序列切成N-mer后构建德布鲁恩图;
切割单元,用于对德布鲁恩图中的环状结构进行输出,切割该德布鲁恩图变成多条重叠群(contig)和杂合序列;
骨架构建单元,用于运用测序得到的双端关系根据多条重叠群构建骨架序列,对骨架序列进行补缺口得出最后的骨架序列。
本公开基因组结构性变异检测系统的实施例,通过组装装置对全基因组测序结果进行组装获得骨架序列,通过比对装置将骨架序列和参考基因组进行全局对比,得出与参考基因组无关的个人特有基因组,准确性高。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
基于组装检测结构性变异的方法和系统是一种对基因组DNA序列信息进行一系列生物信息分析的方法和进行相关分析的工具,旨在解决基因组生物信息学分析方法和工具不完善的问题。
图1示出本发明的基因组结构性变异检测方法的一个实施例的流程图。
步骤102,组装步骤。将测序序列组装成骨架序列(scaffold)。例如,把测序序列切成N-mer后构建德布鲁恩图,对德布鲁恩图中的部分环状结构进行输出,同时切割该德布鲁恩图变成多条重叠群(contig),和杂合序列;运用测序得到的双端关系对重叠群进行处理构建骨架序列。通过处理带缺口的骨架序列,对骨架序列用碱基“N”进行补缺口,得到最后的骨架序列。
步骤104,比对步骤。将骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果。例如,对步骤102得出的组装结果使用长序列比对软件与参考基因组进行全局两两比对。长序列比对软件例如是LASTZ,具体介绍可以见参考文献【Harris,R.S.Improved pairwisealignment of genomic DNA.PhD thesis,Pennsylvania State University(2007)】。
步骤106,提取步骤,从含有变异信息的比对结果中提取变异信息。变异信息包括变异位点的位置,变异类型,变异的序列等信息。
在本发明的上述实施例中,对全基因组测序结果进行组装获得骨架序列,和参考基因组进行对比,得出与参考基因组无关的个人特有基因组,准确性高。
图2示出本发明的基因组结构性变异检测方法的另一个实施例的流程图。
如图2所示,步骤202,优化步骤。将测序序列通过比对参考基因组后进行优化处理获得优化的测序序列。通过序列比对工具进行测序序列和参考基因组的比对获得比对序列,将比对序列进行优化处理,例如去重复、替换错误碱基和过滤后,转换成优化的测序序列。
例如,通过BWA软件进行测序序列和参考基因组的比对,BWA具体参数采用“aln–e0–o0”。该参数的含义为:“aln”是BWA的子功能,作用是比对;“-e”表示能进行间隙比对(gapped alignment)的间隙长度上限;“-o”表示间隙比对的间隙个数。BWA是短序列对比软件,具体介绍可以参见参考文献【Heng Li,Richard Durbin.Fast and accurateshort read alignment with Burrows-Wheeler transform.NatureBioinformatics.Vol.25no.14:1754-1760(2009)】。
对比序列的去重复处理是指去除一些重复度高的序列区域。例如,一个序列区域为ATCATCATCATCATC,包含多个ATC,将会对比对造成影响,应当排除这样的序列区域。比对序列的替换错误碱基处理为把比对上参考基因组的所有错误比对碱基置换成跟参考基因组一致的碱基。比对序列的过滤处理为去除平均质量值低于预定值X的序列;例如,参数X根据测序的平均质量值设定,质量值符合公式Q=-10*lgPe,Pe为出错概率,建议取值范围例如是[10-20],对应平均错误率为[10%-1%],默认选项是15。通过对测序序列进行优化处理,可以提高下一步处理的精度。
步骤204,组装步骤。将优化的测序序列组装成骨架序列。例如,采用华大基因研究院研发的软件Soapdenovo进行组装,具体组装参数是“-K31”,其中,参数“-K”用于设定切K-mer的值。其中Soapdenovo软件的介绍可以参见参考文献:【Li,R.et al.De novo assembly of humangenomes with massively parallel short read sequencing.Genome Res(2009)】。
步骤206,比对步骤。将骨架序列与参考基因组进行全局两两比对,得出含有变异信息的比对结果。例如,用LASTZ把骨架序列对参考基因组进行全局两两比对,其中LASTZ的具体参数为:“--strand=both--chain--ambiguousn–gapped--ydrop=20000--gap=1000,1--noentropy--format=axt”,对参考基因组建种子采用12of19。参数定义可见LASTZ软件说明文档,“--strand=both”是指正负链都比对,“—chain”是指进行链接,“—ambiguousN”是指把N作为多种碱基型处理,“—gapped”是指进行间隙比对,“—ydrop=20000”是指间隙比对罚分的阀值为20000,“--gap=1000,1”是指开一个间隙罚分1000,延长一个间隙一个碱基罚分1分,“—noentropy”是指不引入熵对高精度结果进行过滤,“–format=axt”是指结果用axt格式输出。“12of19”是比对软件LASTZ在比对的时候设置的参数。该参数表示LASTZ将比对抽象成为一块一块区域的比对,一块为19个碱基,其中只考虑软件设定的12个碱基位置,这样的参数设置有利于增加比对速度。
步骤208,提取步骤。对包含变异信息的比对结果进行过滤,提取过滤后的比对结果中的变异信息。过滤包括:(1)过滤或重新运行异常结果,(2)过滤逻辑错误结果,和(3)常见结果不完整。(1)过滤或重新运行异常结果:过滤lastz中运行不正常的结果,过滤lastz结果中注释的无意义部分,重新运行没有正常结尾标识符的lastz程序。(2)过滤逻辑错误结果:这个包括一条组装序列比对上两条或以上染色体,一条染色体的同一个位置比对上两条或者以上的组装序列,从这些结果中挑选质量较好的保留之。(3)比对结果中常常有N(ACGT均有可能)与-(比对间隙)成对出现,同时出现,应该去除这样的对。
步骤210,验证步骤。对提取的变异信息进行验证以去除未通过验证的变异信息。可以通过各种计算方法对候选的变异信息进行验证去除未通过验证的变异信息。例如,通过深度和序列切割方法进行验证。对于长度大于等于50bp的变异,首先构建变异序列,然后把测序序列比对上变异序列,若变异序列的深度符合逻辑理论分布则通过验证,否则去除;对于长度少于50bp的变异,首先构建变异序列,然后用序列比对软件例如BWA对测序短序列和变异序列进行带间隙比对,比对参数为“-e50–o1–i5”,若比对结果符合逻辑理论比对结果则通过验证,否则去除。最后合并两者得出最终结果。上述变异序列的深度符合逻辑理论分布是指,如果目标序列跟参考序列一致,应该在该区域的各个点的深度会有比较高的值,而且每个点的深度都比较接近,反之,则值比较低。
需要指出,优化步骤和验证步骤作为本发明实施例的可选步骤,可以包含其中一个或者两个。
在上述实施例中,通过对测序序列进行优化处理,可以提高下一步处理的精度。对全基因组候选结构性变异集合进行多种方法进行验证,去除未通过验证的变异信息,从而使得变异信息的假阳性低。通过实验表明,本发明实施例的方法可以得出假阳性10%以下的结构性变异集合。
图3示出本发明的基因组结构性变异检测方法的又一个实施例的流程图。
如图3所示,在步骤301,BWA比对。通过BWA软件进行测序序列和参考基因组的比对,获得对比序列。
在步骤302,BWA去重复。通过BWA软件去除重复度高的序列。
在步骤303,把错误比对碱基置换成参考序列碱基和根据质量值过滤。把比对上参考基因组的所有错误比对碱基置换成跟参考基因组一致的碱基,去除平均质量值低于预定值X的序列。
在步骤304,生成拼接的德布鲁恩图。
在步骤305,根据德布鲁恩图输出重叠群和杂合序列。
在步骤306,获得重叠群或杂合序列。后续步骤307至步骤309分别对重叠群和杂合序列进行处理。
在步骤307,切分参考序列和拼接结果序列,该处结果序列指重叠群和杂合序列。
在步骤308,拆分成多份的两两比对。将参考序列和结果序列拆分成多份,然后分别用一个来自参考序列的拆分过的小序列跟来自结果序列的小序列比对,直到所有小序列比对完。
在步骤309,纠比对错误,去逻辑错误,输出变异信息。
在步骤310,获取变异信息。
在步骤311,判断变异长度是否大于等于50bp碱基对,如果是,则继续步骤312,否则,继续步骤317
在步骤312,计算序列重复性。比较该序列的某个区域的信息与重复序列库中的信息,判断是否一致;若一致就判断该序列区域为重复序列区域。也可能整条序列都为重复序列区域。通过计算重复序列区域的长度跟整条序列的比例,就能算出序列重复性。
在步骤313,判断重复性是否少于10%,如果是,则继续步骤316,否则,继续步骤314。
在步骤314,判断变异位点延伸序列是否无重复性,如果是,则根继续步骤315。
在步骤315,得出变异序列,与参考序列进行比对。根据延伸序列比对深度特征得出验证序列,输出变异结果。
在步骤316,得出变异序列,与参考序列进行比对。如果变异序列正确,该变异序列的比对深度会比较高,且比较平均。根据深度比得出验证变异,输出变异结果。
在步骤317,得出变异序列。
在步骤318,获得带间隙的单端或双端BWA比对结果。测序序列分两种,一种是单端(single-end),一种是双端(pair-end),BWA比对的时候不同种类使用的方法不一样。具体可以参见:http://bio-bwa.sourceforge.net/bwa.shtml。
在步骤319,提取变异位点附近序列。每个变异位点会有位置信息,在参考序列中找到这个位置,把这个位置的前后一定长度的序列截取下来跟这个变异位点的变异序列连接起来,变成一个新的序列。
在步骤320,带间隙的BWA比对。BWA比对时使用-o1参数,允许目标序列与参考序列比对时存在间隙,或不存在间隙。
在步骤322,根据比对结果的间隙情况和深度分布得出验证变异,输出变异结果。
下面介绍本发明方法的多个应用例。
应用例一,人类外显子捕捉测序。
以国际人类基因组单体型图计划个体NA12156外显子测序为例(样品号:NA12156;下载地址ftp://ftp.ncbi.nlm.nih.gov/sra/static/SRX005/SRX005923)。原始数据,共11346285条短序列。
将人类外显子NA12156的测序结果用基础软件BWA工具和过滤程序软件对测序结果基于参考基因组进行过滤和优化;将过滤优化得出的序列用soapdenovo的进行组装;将组装结果使用基础软件LASTZ软件与参考基因组进行两两比对,比对结果用提取结构性变异信息软件进行过滤及去除异常结果,最后采用验证结构性变异软件通过深度和序列切割方法进行验证。对于长度大于等于50bp的变异,判断重复性是否少于10%,如果是,则构建变异序列,把测序序列比对上变异序列,若变异序列的深度符合逻辑理论分布,则通过验证,否则去除;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,构建变异序列,然后把测序序列比对上变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;对于长度少于50bp的变异,构建变异序列,然后用BWA进行带间隙比对,比对参数为-e50-o1–i5,若比对结果符合逻辑理论比对结果则通过验证,否则去除。最后合并两者得出最终结果。具体步骤如下:
第一步,优化步骤
对短序列进行优化处理(对比、去重复、替换、过滤)后,得到9303954条短序列。
第二步,组装步骤
对优化的短序列进行组装,组装结果基因组大小为218030396bp,有3941732条组装序列,组装序列最长为9042bp,N50为298bp和N90为122bp。
第三步,比对步骤
组装序列与参考基因组比对结果含有64696911对比对结果。
第四步,提取步骤
候选SV结果有37014个,大于50bp有5695,少于50bp有31253个。
第五步,验证步骤
被验证的基因组变异结果有3294个,其中在捕捉区域的有425个。其中前9个SV如下表1所示:
表1
应用例二,人类外显子捕捉测序。
该应用例以结肠癌癌变细胞的外显子测序为例(样品号:yvf090508)。原始数据共105972839条短序列(测序序列)。
第一步,优化步骤
对短序列进行优化处理(对比、去重复、替换、过滤)后,共69549590条短序列。
第二步,组装步骤
对优化的短序列进行组装,组装结果基因组大小为118938172bp,有253868条组装序列,组装序列最长为16885bp,N50为793bp和N90为170bp。
第三步,比对步骤
组装序列与参考基因组比对结果含有11882543对比对结果。
第四步,提取步骤
候选SV结果有57433个,大于50bp有12056,少于50bp有45377个。
第五步,验证步骤
被验证的SV有9377个,其中在捕捉区域的有91个,其中前13个SV如下表2所示:
表2
应用例三,微生物测序。
该应用例以一株副溶血弧菌为例(样本号:VIBydvD10poolingIAAPEI-9-1)。原始数据共5631982条短序列。
第一步,优化步骤
对短序列进行优化处理(对比、去重复、替换、过滤)后,共5213412条短序列。
第二步,组装步骤
组装结果基因组大小为5056512bp,有684条组装序列,组装序列最长为94989bp,N50为23988bp和N90为5603bp。
第三步,比对步骤
组装序列与参考基因组比对结果含有1442对比对结果。
第四步,提取步骤
候选SV结果有725个,大于50bp有196,少于50bp有529个。
第五步,验证步骤
被验证的SV有180个,其中前19个如表3所示:
表3
图4示出本发明的基因组结构性变异检测系统的一个实施例的结构图。如图4所示,该实施例的结构性变异检测系统400包括组装装置41、比对装置42和提取装置43。其中,组装装置41将测序序列组装成骨架序列(scaffold),输出骨架序列;比对装置42将组装装置41输出的骨架序列对参考基因组进行全局两两比对获得含有变异信息的比对结果;提取装置43从含有变异信息的比对结果中提取变异信息。
在上述实施例中,通过组装装置对全基因组测序结果进行组装获得骨架序列,通过比对装置将骨架序列和参考基因组进行全局对比,得出与参考基因组无关的个人特有基因组,准确性高。
图5示出本发明的基因组结构性变异检测系统的另一个实施例的结构图。和图4相比,该实施例的结构性变异检测系统400还可选地包括优化装置50和验证装置54。优化装置50将测序序列通过比对参考基因组进行优化处理获得优化的测序序列,将优化的测序序列发送给组装装置41。组装装置41将优化的测序序列组装成骨架序列(scaffold)。例如,优化装置50通过短序列比对软件将测序序列和参考基因组进行比对,获得比对序列,然后对比对序列进行去重复、替换、过滤等优化处理,获得优化的测序序列。
验证装置54对提取的变异信息进行验证,去除未通过验证的变异信息。验证装置54可以通过各种计算方法对候选的变异信息进行验证去除未通过验证的变异信息,例如,通过深度和序列切割方法进行验证。根据本发明的一个实施例,验证装置对于变异信息中长度大于等于50bp的变异,判断重复性是否小于10%,如果是,则构建变异序列,将测序序列比对上变异序列,如果变异序列的深度符合逻辑理论分布,则通过验证,否则未通过验证,去除变异;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,则构建变异序列,把测序序列比对上变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;对于变异信息中长度小于50bp的变异,构建变异序列,通过短序列比对工具对测序序列和变异序列进行间隙比对,如果比对结果符合逻辑理论比对结果,则通过验证,否则未通过验证,去除变异。
在上述实施例中,通过优化装置对测序序列进行优化处理,可以提高下一步处理的精度。通过验证装置对全基因组候选结构性变异集合进行多种方法进行验证,去除未通过验证的变异信息,从而使得变异信息的假阳性低。通过实验表明,本发明实施例的方法可以得出假阳性10%以下的结构性变异集合。
图6示出本发明的基因组结构性变异检测系统的又一个实施例的结构图。如图6所示,在该实施例的结构性变异检测系统600中,优化装置50包括对比单元501、过滤单元502和错误碱基置换单元503。组装装置41包括图构建单元411、切割单元412和骨架构建单元413。提取装置43包括变异信息过滤单元431和变异信息提取单元432。
其中,对比单元501将测序序列比对参考基因组得到比对序列;过滤单元502用于对比对序列进行过滤,去除比对队列中平均质量低于预定值的序列;错误碱基置换单元503将比对上参考基因组的所有错误比对碱基置换成与参考基因组一致的碱基。图构建单元411将优化的测序序列切成N-mer后构建德布鲁恩图;切割单元412对德布鲁恩图中的部分环状结构进行输出,切割该德布鲁恩图变成多条重叠群(contig);骨架构建单元413运用测序得到的双端关系构建骨架序列,对骨架序列进行补缺口得出最后的骨架序列。变异信息过滤单元431对含有变异信息的比对结果进行过滤或重新运行异常结果;和/或过滤逻辑错误结果;和/或去除常见结果不完整,输出过滤后的比对结果;变异信息提取单元432从变异信息过滤单元输出的过滤后的比对结果提取变异信息。
对于图4至图6中各个装置或单元的功能,可以参考上文中关于本发明方法的实施例中对应部分的说明,为简洁起见,在此不再详述。
本领域的技术人员应当理解,对于图4至图6中的各个装置,可以通过单独的计算处理设备实现,或者将其集成为一个独立的设备实现。在图4至图6中用框示出以说明它们的功能。这些功能块可以用硬件、软件、固件、中间件、微代码、硬件描述语音或者它们的任意组合来实现。举例来说,一个或者两个功能块都可以利用运行在微处理器、数字信号处理器(DSP)或任何其他适当计算设备上的代码实现。代码可以表示过程、功能、子程序、程序、例行程序、子例行程序、模块或者指令、数据结构或程序语句的任意组合。代码可以位于计算机可读介质中。计算机可读介质可以包括一个或者多个存储设备,例如,包括RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或本领域公知的其他任何形式的存储介质。计算机可读介质还可以包括编码数据信号的载波。
本领域技术人员将意识到硬件、固件和软件配置在这些情况下的可替换性,以及如何最好地实现每个特定应用地该功能。
在本发明的上述实施例中,对全基因组测序结果进行组装获得骨架序列,和参考基因组进行对比,得出与参考基因组无关的个人特有基因组,准确性高。实验数据表明,本发明实施例的方法在基因组大小为1M-3G之间均可表现出极佳的准确性。此外,通过对全基因组测序组装结果进行分析得出候选结构性变异集合,使得结果更加全面。该候选结构性变异集合,可以进行下一步分析。本发明对全基因组候选结构性变异集合进行多种其他方法进行验证,得出假阳性10%以下的结构性变异集合,阳性低。