CN103080333B - 一种基因组结构性变异检测方法和系统 - Google Patents

一种基因组结构性变异检测方法和系统 Download PDF

Info

Publication number
CN103080333B
CN103080333B CN201080068345.0A CN201080068345A CN103080333B CN 103080333 B CN103080333 B CN 103080333B CN 201080068345 A CN201080068345 A CN 201080068345A CN 103080333 B CN103080333 B CN 103080333B
Authority
CN
China
Prior art keywords
variation
comparison
sequence
genome
checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080068345.0A
Other languages
English (en)
Other versions
CN103080333A (zh
Inventor
罗锐邦
邵浩靖
林浩翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Publication of CN103080333A publication Critical patent/CN103080333A/zh
Application granted granted Critical
Publication of CN103080333B publication Critical patent/CN103080333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基因组结构性变异检测方法和系统。该方法包括:组装步骤,将测序序列组装成骨架序列(scaffold);比对步骤,将所述骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果;提取步骤,从所述含有变异信息的比对结果中提取变异信息。本发明对全基因组测序结果进行组装,得出与参考基因组无关的个人特有基因组。该基因组大小可以在1M-3G之间均可表现出极佳的准确性。本发明对全基因组测序组装结果进行分析得出候选结构性变异集合。该候选结构性变异集合,可以进行下一步分析。本发明对全基因组候选结构性变异集合进行多种其他方法进行验证,得出假阳性10%以下的结构性变异集合。

Description

一种基因组结构性变异检测方法和系统
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基因组结构性变异(Structure Variation,SV)检测方法和系统。
背景技术
结构性变异在基因组中有重要的地位,结构性变异可能导致个体基因编码改变和功能改变。随着人类基因组计划和国际单体型图计划的顺利完成,生物学家通过遗传连锁或关联分析已经定位了大量与人类疾病相关的基因组候选区域。但是,识别这些区域中的致病基因或突变需要对这些区域进行重新测序。现有的全基因组重测序分析技术成本较高,而且通过全基因组重测序分析技术得到的信息对于部分研究和个体医疗指导来说包含大量冗余信息。为了提高获得有效信息的效率,将现有基因分析技术集中在高价值的基因研究区域对于科学研究和医疗指导具有重大意义。传统的基于PCR(Polymerase Chain Reaction,聚合酶链反应)来对候选区域进行测序的方法由于耗时耗力已经无法满足研究者的要求,同时基于基因芯片的SNP(Single Nucleotide Polymorphism,单核苷酸多态性)分型技术又无法找出基因组上的稀有变异。
随着新一代高通量测序技术的出现以及测序成本的降低,如Solexa测序技术,迫切需要一种可以对基因组上感兴趣的区域进行测序从而可以识别该区域上各种突变的技术。
发明内容
本公开的一个方面要解决的一个技术问题是提供一种基因组结构性变异检测方法,准确性更高。
本公开的一个方面提供一种基因组结构性变异检测方法,包括:
组装步骤,将测序序列组装成骨架序列(scaffold);
比对步骤,将骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果;
提取步骤,从含有变异信息的比对结果中提取变异信息。
根据本公开的一个方面,在组装步骤之前,还包括:
优化步骤,将测序序列通过比对参考基因组进行优化处理获得优化的测序序列;
组装步骤包括:将优化的测序序列组装成骨架序列。
根据本公开的一个方面,在提取步骤之后,还包括:
验证步骤,对提取的变异信息进行验证以去除未通过验证的变异信息。
根据本公开的一个方面,验证步骤包括:
对于变异信息中长度大于等于50bp的变异,判断重复性是否小于10%,如果是,则构建变异序列,将测序序列比对上变异序列,如果变异序列的深度符合逻辑理论分布,则通过验证,否则未通过验证,去除变异;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,则构建变异序列,把测序序列比对上变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;
对于变异信息中长度小于50bp的变异,构建变异序列,通过短序列比对工具对测序序列和变异序列进行间隙比对,如果比对结果符合逻辑理论比对结果,则通过验证,否则未通过验证,去除变异。
根据本公开的一个方面,提取步骤还包括:
对含有变异信息的比对结果进行如下处理:
过滤或重新运行异常结果;和/或
过滤逻辑错误结果;和/或
去除常见结果不完整。
根据本公开的一个方面,优化步骤包括:
通过短序列比对工具将测序序列比对参考基因组获得比对序列;
优化步骤还包括:
通过短序列比对工具去除重复测序序列;
和/或
将比对上参考基因组的所有错误比对碱基置换成与参考基因组一致的碱基;
和/或
去除比对序列中平均质量低于预定值的测序序列。
根据本公开的一个方面,组装步骤包括:
将测序序列切成N-mer后构建德布鲁恩图;
根据德布鲁恩图输出重叠群(contig)和杂合序列;
运用测序得到的双端关系根据重叠群构建骨架序列;
对骨架序列进行补缺口得出最后的骨架序列。
通过本公开实施例的方法,对全基因组测序结果进行组装获得骨架序列,和参考基因组进行对比,得出与参考基因组无关的个人特有基因组,准确性高。
本公开的另一个方面要解决的一个技术问题是提供一种基因组结构性变异检测系统,准确性更高。
本公开的一个方面提供一种基因组结构性变异检测系统,包括:
组装装置,用于将测序序列组装成骨架序列(scaffold);
比对装置,用于将骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果;
提取装置,用于从含有变异信息的比对结果中提取变异信息。
根据本公开的一个方面,该系统还包括:
优化装置,用于将测序序列通过比对参考基因组进行优化处理获得优化的测序序列;
组装装置用于将优化的测序序列组装成骨架序列。
根据本公开的一个方面,该系统还包括:
验证装置,用于对提取的变异信息进行验证,去除未通过验证的变异信息。
根据本公开的一个方面,验证装置对于变异信息中长度大于等于50bp的变异,判断重复性是否小于10%,如果是,则构建变异序列,将测序序列比对上变异序列,如果变异序列的深度符合逻辑理论分布,则通过验证,否则未通过验证,去除变异;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,则构建变异序列,把测序序列比对上变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;对于变异信息中长度小于50bp的变异,构建变异序列,通过短序列比对工具对测序序列和变异序列进行间隙比对,如果比对结果符合逻辑理论比对结果,则通过验证,否则未通过验证,去除变异。
根据本公开的一个方面,提取装置包括:
变异信息过滤单元,用于对含有变异信息的比对结果进行过滤或重新运行异常结果;和/或过滤逻辑错误结果;和/或去除常见结果不完整,输出过滤后的比对结果;
变异信息提取单元,用于从变异信息过滤单元输出的过滤后的比对结果提取变异信息。
根据本公开的一个方面,优化装置包括:
对比单元,用于将测序序列比对参考基因组得到比对序列;
过滤单元,用于对比对序列进行过滤,去除比对结果中平均质量低于预定值的序列;
错误碱基置换单元,用于将比对上参考基因组的所有错误比对碱基置换成与参考基因组一致的碱基。
根据本公开的一个方面,组装装置包括:
图构建单元,用于将优化的测序序列切成N-mer后构建德布鲁恩图;
切割单元,用于对德布鲁恩图中的环状结构进行输出,切割该德布鲁恩图变成多条重叠群(contig)和杂合序列;
骨架构建单元,用于运用测序得到的双端关系根据多条重叠群构建骨架序列,对骨架序列进行补缺口得出最后的骨架序列。
本公开基因组结构性变异检测系统的实施例,通过组装装置对全基因组测序结果进行组装获得骨架序列,通过比对装置将骨架序列和参考基因组进行全局对比,得出与参考基因组无关的个人特有基因组,准确性高。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
图1示出本发明的基因组结构性变异检测方法的一个实施例的流程图;
图2示出本发明的基因组结构性变异检测方法的另一个实施例的流程图;
图3示出本发明的基因组结构性变异检测方法的又一个实施例的流程图;
图4示出本发明的基因组结构性变异检测系统的一个实施例的结构图;
图5示出本发明的基因组结构性变异检测系统的另一个实施例的结构图;
图6示出本发明的基因组结构性变异检测系统的又一个实施例的结构图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
基于组装检测结构性变异的方法和系统是一种对基因组DNA序列信息进行一系列生物信息分析的方法和进行相关分析的工具,旨在解决基因组生物信息学分析方法和工具不完善的问题。
图1示出本发明的基因组结构性变异检测方法的一个实施例的流程图。
步骤102,组装步骤。将测序序列组装成骨架序列(scaffold)。例如,把测序序列切成N-mer后构建德布鲁恩图,对德布鲁恩图中的部分环状结构进行输出,同时切割该德布鲁恩图变成多条重叠群(contig),和杂合序列;运用测序得到的双端关系对重叠群进行处理构建骨架序列。通过处理带缺口的骨架序列,对骨架序列用碱基“N”进行补缺口,得到最后的骨架序列。
步骤104,比对步骤。将骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果。例如,对步骤102得出的组装结果使用长序列比对软件与参考基因组进行全局两两比对。长序列比对软件例如是LASTZ,具体介绍可以见参考文献【Harris,R.S.Improved pairwisealignment of genomic DNA.PhD thesis,Pennsylvania State University(2007)】。
步骤106,提取步骤,从含有变异信息的比对结果中提取变异信息。变异信息包括变异位点的位置,变异类型,变异的序列等信息。
在本发明的上述实施例中,对全基因组测序结果进行组装获得骨架序列,和参考基因组进行对比,得出与参考基因组无关的个人特有基因组,准确性高。
图2示出本发明的基因组结构性变异检测方法的另一个实施例的流程图。
如图2所示,步骤202,优化步骤。将测序序列通过比对参考基因组后进行优化处理获得优化的测序序列。通过序列比对工具进行测序序列和参考基因组的比对获得比对序列,将比对序列进行优化处理,例如去重复、替换错误碱基和过滤后,转换成优化的测序序列。
例如,通过BWA软件进行测序序列和参考基因组的比对,BWA具体参数采用“aln–e0–o0”。该参数的含义为:“aln”是BWA的子功能,作用是比对;“-e”表示能进行间隙比对(gapped alignment)的间隙长度上限;“-o”表示间隙比对的间隙个数。BWA是短序列对比软件,具体介绍可以参见参考文献【Heng Li,Richard Durbin.Fast and accurateshort read alignment with Burrows-Wheeler transform.NatureBioinformatics.Vol.25no.14:1754-1760(2009)】。
对比序列的去重复处理是指去除一些重复度高的序列区域。例如,一个序列区域为ATCATCATCATCATC,包含多个ATC,将会对比对造成影响,应当排除这样的序列区域。比对序列的替换错误碱基处理为把比对上参考基因组的所有错误比对碱基置换成跟参考基因组一致的碱基。比对序列的过滤处理为去除平均质量值低于预定值X的序列;例如,参数X根据测序的平均质量值设定,质量值符合公式Q=-10*lgPe,Pe为出错概率,建议取值范围例如是[10-20],对应平均错误率为[10%-1%],默认选项是15。通过对测序序列进行优化处理,可以提高下一步处理的精度。
步骤204,组装步骤。将优化的测序序列组装成骨架序列。例如,采用华大基因研究院研发的软件Soapdenovo进行组装,具体组装参数是“-K31”,其中,参数“-K”用于设定切K-mer的值。其中Soapdenovo软件的介绍可以参见参考文献:【Li,R.et al.De novo assembly of humangenomes with massively parallel short read sequencing.Genome Res(2009)】。
步骤206,比对步骤。将骨架序列与参考基因组进行全局两两比对,得出含有变异信息的比对结果。例如,用LASTZ把骨架序列对参考基因组进行全局两两比对,其中LASTZ的具体参数为:“--strand=both--chain--ambiguousn–gapped--ydrop=20000--gap=1000,1--noentropy--format=axt”,对参考基因组建种子采用12of19。参数定义可见LASTZ软件说明文档,“--strand=both”是指正负链都比对,“—chain”是指进行链接,“—ambiguousN”是指把N作为多种碱基型处理,“—gapped”是指进行间隙比对,“—ydrop=20000”是指间隙比对罚分的阀值为20000,“--gap=1000,1”是指开一个间隙罚分1000,延长一个间隙一个碱基罚分1分,“—noentropy”是指不引入熵对高精度结果进行过滤,“–format=axt”是指结果用axt格式输出。“12of19”是比对软件LASTZ在比对的时候设置的参数。该参数表示LASTZ将比对抽象成为一块一块区域的比对,一块为19个碱基,其中只考虑软件设定的12个碱基位置,这样的参数设置有利于增加比对速度。
步骤208,提取步骤。对包含变异信息的比对结果进行过滤,提取过滤后的比对结果中的变异信息。过滤包括:(1)过滤或重新运行异常结果,(2)过滤逻辑错误结果,和(3)常见结果不完整。(1)过滤或重新运行异常结果:过滤lastz中运行不正常的结果,过滤lastz结果中注释的无意义部分,重新运行没有正常结尾标识符的lastz程序。(2)过滤逻辑错误结果:这个包括一条组装序列比对上两条或以上染色体,一条染色体的同一个位置比对上两条或者以上的组装序列,从这些结果中挑选质量较好的保留之。(3)比对结果中常常有N(ACGT均有可能)与-(比对间隙)成对出现,同时出现,应该去除这样的对。
步骤210,验证步骤。对提取的变异信息进行验证以去除未通过验证的变异信息。可以通过各种计算方法对候选的变异信息进行验证去除未通过验证的变异信息。例如,通过深度和序列切割方法进行验证。对于长度大于等于50bp的变异,首先构建变异序列,然后把测序序列比对上变异序列,若变异序列的深度符合逻辑理论分布则通过验证,否则去除;对于长度少于50bp的变异,首先构建变异序列,然后用序列比对软件例如BWA对测序短序列和变异序列进行带间隙比对,比对参数为“-e50–o1–i5”,若比对结果符合逻辑理论比对结果则通过验证,否则去除。最后合并两者得出最终结果。上述变异序列的深度符合逻辑理论分布是指,如果目标序列跟参考序列一致,应该在该区域的各个点的深度会有比较高的值,而且每个点的深度都比较接近,反之,则值比较低。
需要指出,优化步骤和验证步骤作为本发明实施例的可选步骤,可以包含其中一个或者两个。
在上述实施例中,通过对测序序列进行优化处理,可以提高下一步处理的精度。对全基因组候选结构性变异集合进行多种方法进行验证,去除未通过验证的变异信息,从而使得变异信息的假阳性低。通过实验表明,本发明实施例的方法可以得出假阳性10%以下的结构性变异集合。
图3示出本发明的基因组结构性变异检测方法的又一个实施例的流程图。
如图3所示,在步骤301,BWA比对。通过BWA软件进行测序序列和参考基因组的比对,获得对比序列。
在步骤302,BWA去重复。通过BWA软件去除重复度高的序列。
在步骤303,把错误比对碱基置换成参考序列碱基和根据质量值过滤。把比对上参考基因组的所有错误比对碱基置换成跟参考基因组一致的碱基,去除平均质量值低于预定值X的序列。
在步骤304,生成拼接的德布鲁恩图。
在步骤305,根据德布鲁恩图输出重叠群和杂合序列。
在步骤306,获得重叠群或杂合序列。后续步骤307至步骤309分别对重叠群和杂合序列进行处理。
在步骤307,切分参考序列和拼接结果序列,该处结果序列指重叠群和杂合序列。
在步骤308,拆分成多份的两两比对。将参考序列和结果序列拆分成多份,然后分别用一个来自参考序列的拆分过的小序列跟来自结果序列的小序列比对,直到所有小序列比对完。
在步骤309,纠比对错误,去逻辑错误,输出变异信息。
在步骤310,获取变异信息。
在步骤311,判断变异长度是否大于等于50bp碱基对,如果是,则继续步骤312,否则,继续步骤317
在步骤312,计算序列重复性。比较该序列的某个区域的信息与重复序列库中的信息,判断是否一致;若一致就判断该序列区域为重复序列区域。也可能整条序列都为重复序列区域。通过计算重复序列区域的长度跟整条序列的比例,就能算出序列重复性。
在步骤313,判断重复性是否少于10%,如果是,则继续步骤316,否则,继续步骤314。
在步骤314,判断变异位点延伸序列是否无重复性,如果是,则根继续步骤315。
在步骤315,得出变异序列,与参考序列进行比对。根据延伸序列比对深度特征得出验证序列,输出变异结果。
在步骤316,得出变异序列,与参考序列进行比对。如果变异序列正确,该变异序列的比对深度会比较高,且比较平均。根据深度比得出验证变异,输出变异结果。
在步骤317,得出变异序列。
在步骤318,获得带间隙的单端或双端BWA比对结果。测序序列分两种,一种是单端(single-end),一种是双端(pair-end),BWA比对的时候不同种类使用的方法不一样。具体可以参见:http://bio-bwa.sourceforge.net/bwa.shtml。
在步骤319,提取变异位点附近序列。每个变异位点会有位置信息,在参考序列中找到这个位置,把这个位置的前后一定长度的序列截取下来跟这个变异位点的变异序列连接起来,变成一个新的序列。
在步骤320,带间隙的BWA比对。BWA比对时使用-o1参数,允许目标序列与参考序列比对时存在间隙,或不存在间隙。
在步骤322,根据比对结果的间隙情况和深度分布得出验证变异,输出变异结果。
下面介绍本发明方法的多个应用例。
应用例一,人类外显子捕捉测序。
以国际人类基因组单体型图计划个体NA12156外显子测序为例(样品号:NA12156;下载地址ftp://ftp.ncbi.nlm.nih.gov/sra/static/SRX005/SRX005923)。原始数据,共11346285条短序列。
将人类外显子NA12156的测序结果用基础软件BWA工具和过滤程序软件对测序结果基于参考基因组进行过滤和优化;将过滤优化得出的序列用soapdenovo的进行组装;将组装结果使用基础软件LASTZ软件与参考基因组进行两两比对,比对结果用提取结构性变异信息软件进行过滤及去除异常结果,最后采用验证结构性变异软件通过深度和序列切割方法进行验证。对于长度大于等于50bp的变异,判断重复性是否少于10%,如果是,则构建变异序列,把测序序列比对上变异序列,若变异序列的深度符合逻辑理论分布,则通过验证,否则去除;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,构建变异序列,然后把测序序列比对上变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;对于长度少于50bp的变异,构建变异序列,然后用BWA进行带间隙比对,比对参数为-e50-o1–i5,若比对结果符合逻辑理论比对结果则通过验证,否则去除。最后合并两者得出最终结果。具体步骤如下:
第一步,优化步骤
对短序列进行优化处理(对比、去重复、替换、过滤)后,得到9303954条短序列。
第二步,组装步骤
对优化的短序列进行组装,组装结果基因组大小为218030396bp,有3941732条组装序列,组装序列最长为9042bp,N50为298bp和N90为122bp。
第三步,比对步骤
组装序列与参考基因组比对结果含有64696911对比对结果。
第四步,提取步骤
候选SV结果有37014个,大于50bp有5695,少于50bp有31253个。
第五步,验证步骤
被验证的基因组变异结果有3294个,其中在捕捉区域的有425个。其中前9个SV如下表1所示:
表1
应用例二,人类外显子捕捉测序。
该应用例以结肠癌癌变细胞的外显子测序为例(样品号:yvf090508)。原始数据共105972839条短序列(测序序列)。
第一步,优化步骤
对短序列进行优化处理(对比、去重复、替换、过滤)后,共69549590条短序列。
第二步,组装步骤
对优化的短序列进行组装,组装结果基因组大小为118938172bp,有253868条组装序列,组装序列最长为16885bp,N50为793bp和N90为170bp。
第三步,比对步骤
组装序列与参考基因组比对结果含有11882543对比对结果。
第四步,提取步骤
候选SV结果有57433个,大于50bp有12056,少于50bp有45377个。
第五步,验证步骤
被验证的SV有9377个,其中在捕捉区域的有91个,其中前13个SV如下表2所示:
表2
应用例三,微生物测序。
该应用例以一株副溶血弧菌为例(样本号:VIBydvD10poolingIAAPEI-9-1)。原始数据共5631982条短序列。
第一步,优化步骤
对短序列进行优化处理(对比、去重复、替换、过滤)后,共5213412条短序列。
第二步,组装步骤
组装结果基因组大小为5056512bp,有684条组装序列,组装序列最长为94989bp,N50为23988bp和N90为5603bp。
第三步,比对步骤
组装序列与参考基因组比对结果含有1442对比对结果。
第四步,提取步骤
候选SV结果有725个,大于50bp有196,少于50bp有529个。
第五步,验证步骤
被验证的SV有180个,其中前19个如表3所示:
表3
图4示出本发明的基因组结构性变异检测系统的一个实施例的结构图。如图4所示,该实施例的结构性变异检测系统400包括组装装置41、比对装置42和提取装置43。其中,组装装置41将测序序列组装成骨架序列(scaffold),输出骨架序列;比对装置42将组装装置41输出的骨架序列对参考基因组进行全局两两比对获得含有变异信息的比对结果;提取装置43从含有变异信息的比对结果中提取变异信息。
在上述实施例中,通过组装装置对全基因组测序结果进行组装获得骨架序列,通过比对装置将骨架序列和参考基因组进行全局对比,得出与参考基因组无关的个人特有基因组,准确性高。
图5示出本发明的基因组结构性变异检测系统的另一个实施例的结构图。和图4相比,该实施例的结构性变异检测系统400还可选地包括优化装置50和验证装置54。优化装置50将测序序列通过比对参考基因组进行优化处理获得优化的测序序列,将优化的测序序列发送给组装装置41。组装装置41将优化的测序序列组装成骨架序列(scaffold)。例如,优化装置50通过短序列比对软件将测序序列和参考基因组进行比对,获得比对序列,然后对比对序列进行去重复、替换、过滤等优化处理,获得优化的测序序列。
验证装置54对提取的变异信息进行验证,去除未通过验证的变异信息。验证装置54可以通过各种计算方法对候选的变异信息进行验证去除未通过验证的变异信息,例如,通过深度和序列切割方法进行验证。根据本发明的一个实施例,验证装置对于变异信息中长度大于等于50bp的变异,判断重复性是否小于10%,如果是,则构建变异序列,将测序序列比对上变异序列,如果变异序列的深度符合逻辑理论分布,则通过验证,否则未通过验证,去除变异;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,则构建变异序列,把测序序列比对上变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;对于变异信息中长度小于50bp的变异,构建变异序列,通过短序列比对工具对测序序列和变异序列进行间隙比对,如果比对结果符合逻辑理论比对结果,则通过验证,否则未通过验证,去除变异。
在上述实施例中,通过优化装置对测序序列进行优化处理,可以提高下一步处理的精度。通过验证装置对全基因组候选结构性变异集合进行多种方法进行验证,去除未通过验证的变异信息,从而使得变异信息的假阳性低。通过实验表明,本发明实施例的方法可以得出假阳性10%以下的结构性变异集合。
图6示出本发明的基因组结构性变异检测系统的又一个实施例的结构图。如图6所示,在该实施例的结构性变异检测系统600中,优化装置50包括对比单元501、过滤单元502和错误碱基置换单元503。组装装置41包括图构建单元411、切割单元412和骨架构建单元413。提取装置43包括变异信息过滤单元431和变异信息提取单元432。
其中,对比单元501将测序序列比对参考基因组得到比对序列;过滤单元502用于对比对序列进行过滤,去除比对队列中平均质量低于预定值的序列;错误碱基置换单元503将比对上参考基因组的所有错误比对碱基置换成与参考基因组一致的碱基。图构建单元411将优化的测序序列切成N-mer后构建德布鲁恩图;切割单元412对德布鲁恩图中的部分环状结构进行输出,切割该德布鲁恩图变成多条重叠群(contig);骨架构建单元413运用测序得到的双端关系构建骨架序列,对骨架序列进行补缺口得出最后的骨架序列。变异信息过滤单元431对含有变异信息的比对结果进行过滤或重新运行异常结果;和/或过滤逻辑错误结果;和/或去除常见结果不完整,输出过滤后的比对结果;变异信息提取单元432从变异信息过滤单元输出的过滤后的比对结果提取变异信息。
对于图4至图6中各个装置或单元的功能,可以参考上文中关于本发明方法的实施例中对应部分的说明,为简洁起见,在此不再详述。
本领域的技术人员应当理解,对于图4至图6中的各个装置,可以通过单独的计算处理设备实现,或者将其集成为一个独立的设备实现。在图4至图6中用框示出以说明它们的功能。这些功能块可以用硬件、软件、固件、中间件、微代码、硬件描述语音或者它们的任意组合来实现。举例来说,一个或者两个功能块都可以利用运行在微处理器、数字信号处理器(DSP)或任何其他适当计算设备上的代码实现。代码可以表示过程、功能、子程序、程序、例行程序、子例行程序、模块或者指令、数据结构或程序语句的任意组合。代码可以位于计算机可读介质中。计算机可读介质可以包括一个或者多个存储设备,例如,包括RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或本领域公知的其他任何形式的存储介质。计算机可读介质还可以包括编码数据信号的载波。
本领域技术人员将意识到硬件、固件和软件配置在这些情况下的可替换性,以及如何最好地实现每个特定应用地该功能。
在本发明的上述实施例中,对全基因组测序结果进行组装获得骨架序列,和参考基因组进行对比,得出与参考基因组无关的个人特有基因组,准确性高。实验数据表明,本发明实施例的方法在基因组大小为1M-3G之间均可表现出极佳的准确性。此外,通过对全基因组测序组装结果进行分析得出候选结构性变异集合,使得结果更加全面。该候选结构性变异集合,可以进行下一步分析。本发明对全基因组候选结构性变异集合进行多种其他方法进行验证,得出假阳性10%以下的结构性变异集合,阳性低。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (4)

1.一种基因组结构性变异检测方法,其特征在于,包括:
优化步骤,将基因组的测序序列通过比对参考基因组进行优化处理获得优化的测序序列;
组装步骤,将所述优化的基因组的测序序列组装成基因组的骨架序列;
比对步骤,将基因组的所述骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果;
提取步骤,从所述含有变异信息的比对结果中提取基因组的变异信息;
验证步骤,对所述提取的变异信息进行验证以去除未通过验证的变异信息;
其中,
所述优化步骤包括:
通过短序列比对工具将测序序列比对参考基因组获得比对序列;
通过短序列比对工具去除重复测序序列;
将比对上参考基因组的所有错误比对碱基置换成与参考基因组一致的碱基;
去除所述比对序列中平均质量低于预定值的测序序列;
所述组装步骤包括:
将所述测序序列切成N-mer后构建德布鲁恩图;
根据所述德布鲁恩图输出重叠群和杂合序列;
运用测序得到的双端关系根据重叠群构建骨架序列;
对骨架序列进行补缺口得出最后的骨架序列;
所述验证步骤包括:
对于所述变异信息中长度大于等于50bp的变异,判断重复性是否小于10%,如果是,则构建变异序列,将所述测序序列比对上所述变异序列,如果所述变异序列的深度符合逻辑理论分布,则通过验证,否则未通过验证,去除所述变异;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,则构建变异序列,把所述测序序列比对上所述变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;
对于所述变异信息中长度小于50bp的变异,构建变异序列,通过短序列比对工具对所述测序序列和所述变异序列进行间隙比对,如果比对结果符合逻辑理论比对结果,则通过验证,否则未通过验证,去除所述变异。
2.根据权利要求1所述的基因组结构性变异检测方法,其特征在于,所述提取步骤还包括:
对所述含有变异信息的比对结果进行如下处理:
过滤或重新运行异常结果;和/或
过滤逻辑错误结果;和/或
去除常见结果不完整。
3.一种基因组结构性变异检测系统,其特征在于,包括:
优化装置,用于将基因组的测序序列通过比对参考基因组进行优化处理获得优化的测序序列
组装装置,用于将所述优化的基因组的测序序列组装成基因组的骨架序列;
比对装置,用于将基因组的所述骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果;
提取装置,用于从所述含有变异信息的比对结果中提取基因组的变异信息;
验证装置,用于对所述提取的变异信息进行验证,去除未通过验证的变异信息;
其中,
所述优化装置包括:
对比单元,用于将所述测序序列比对参考基因组得到比对序列;
过滤单元,用于对所述比对序列进行过滤,去除所述比对结果中平均质量低于预定值的序列;
错误碱基置换单元,用于将比对上参考基因组的所有错误比对碱基置换成与参考基因组一致的碱基;
所述组装装置包括:
图构建单元,用于将所述优化的测序序列切成N-mer后构建德布鲁恩图;
切割单元,用于对所述德布鲁恩图中的环状结构进行输出,切割该德布鲁恩图变成多条重叠群和杂合序列;
骨架构建单元,用于运用测序得到的双端关系根据多条重叠群构建骨架序列,对骨架序列进行补缺口得出最后的骨架序列;
所述验证装置对于所述变异信息中长度大于等于50bp的变异,判断重复性是否小于10%,如果是,则构建变异序列,将所述测序序列比对上所述变异序列,如果所述变异序列的深度符合逻辑理论分布,则通过验证,否则未通过验证,去除所述变异;如果重复性大于等于10%,则判断变异位点延伸序列是否无重复性,如果是,则构建变异序列,把所述测序序列比对上所述变异序列,延伸序列比对深度特征符合逻辑理论分布则通过验证,否则去除;对于所述变异信息中长度小于50bp的变异,构建变异序列,通过短序列比对工具对所述测序序列和所述变异序列进行间隙比对,如果比对结果符合逻辑理论比对结果,则通过验证,否则未通过验证,去除所述变异。
4.根据权利要求3所述的基因组结构性变异检测系统,其特征在于,所述提取装置包括:
变异信息过滤单元,用于对所述含有变异信息的比对结果进行过滤或重新运行异常结果;和/或过滤逻辑错误结果;和/或去除常见结果不完整,输出过滤后的比对结果;
变异信息提取单元,用于从所述变异信息过滤单元输出的过滤后的比对结果提取变异信息。
CN201080068345.0A 2010-09-14 2010-09-14 一种基因组结构性变异检测方法和系统 Active CN103080333B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/001409 WO2012034251A2 (zh) 2010-09-14 2010-09-14 一种基因组结构性变异检测方法和系统

Publications (2)

Publication Number Publication Date
CN103080333A CN103080333A (zh) 2013-05-01
CN103080333B true CN103080333B (zh) 2015-06-24

Family

ID=45832006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080068345.0A Active CN103080333B (zh) 2010-09-14 2010-09-14 一种基因组结构性变异检测方法和系统

Country Status (2)

Country Link
CN (1) CN103080333B (zh)
WO (1) WO2012034251A2 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258145B (zh) * 2012-12-22 2016-06-29 中国科学院深圳先进技术研究院 一种基于De Bruijn图的并行基因拼接方法
CN103093121B (zh) * 2012-12-28 2016-01-27 深圳先进技术研究院 双向多步deBruijn图的压缩存储和构造方法
KR101770962B1 (ko) * 2013-02-01 2017-08-24 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN103714263B (zh) * 2013-12-10 2017-06-13 深圳先进技术研究院 双向多步De Bruijn图的错误双向边识别与去除方法
CN104751015B (zh) * 2013-12-30 2017-08-29 中国科学院天津工业生物技术研究所 一种基因组测序数据序列组装方法
CN103810402B (zh) * 2014-02-25 2017-01-18 北京诺禾致源生物信息科技有限公司 用于基因组的数据处理方法和装置
CN104164479B (zh) * 2014-04-04 2017-09-19 深圳华大基因科技服务有限公司 杂合基因组处理方法
CN106715711B (zh) * 2014-07-04 2021-09-17 深圳华大基因股份有限公司 确定探针序列的方法和基因组结构变异的检测方法
US20160246921A1 (en) * 2015-02-25 2016-08-25 Spiral Genetics, Inc. Multi-sample differential variation detection
CN105483244B (zh) * 2015-12-28 2019-10-22 武汉菲沙基因信息有限公司 一种基于超长基因组的变异检测方法及检测系统
WO2017181368A1 (zh) * 2016-04-20 2017-10-26 华为技术有限公司 基因组变异检测方法、装置及终端
CN109416928B (zh) * 2016-06-07 2024-02-06 伊路米纳有限公司 用于进行二级和/或三级处理的生物信息学系统、设备和方法
CN110462063B (zh) * 2017-05-23 2023-06-23 深圳华大生命科学研究院 一种基于测序数据的变异检测方法、装置和存储介质
CN110021359B (zh) * 2017-07-24 2021-05-04 深圳华大基因科技服务有限公司 一种二代和三代序列联合组装结果去冗余的方法和装置
CN110079589A (zh) * 2019-05-21 2019-08-02 中国农业科学院农业基因组研究所 一种精准获得全基因组范围内结构变异的方法
CN110349629B (zh) * 2019-06-20 2021-08-06 湖南赛哲医学检验所有限公司 一种利用宏基因组或宏转录组检测微生物的分析方法
CN111724858B (zh) * 2020-05-14 2024-06-07 东北林业大学 利用软件运行基因组序列比对修补gap的方法
CN111863135B (zh) * 2020-07-15 2022-06-07 西安交通大学 一种假阳性结构变异过滤方法、存储介质及计算设备
CN112086131B (zh) * 2020-08-18 2024-05-24 西安医学院 一种重测序数据库中假阳性变异位点的筛选方法
CN112289376B (zh) * 2020-10-26 2021-07-06 北京吉因加医学检验实验室有限公司 一种检测体细胞突变的方法及装置
CN112599193A (zh) * 2021-03-02 2021-04-02 北京橡鑫生物科技有限公司 结构变异检测模型、其构建方法和装置
CN115602244B (zh) * 2022-10-24 2023-04-28 哈尔滨工业大学 一种基于序列比对骨架的基因组变异检测方法
CN117153248B (zh) * 2023-09-05 2024-05-07 天津极智基因科技有限公司 一种基于泛基因组的基因区变异检测及可视化方法、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004097369A2 (en) * 2003-04-25 2004-11-11 Sequenom, Inc. Fragmentation-based methods and systems for de novo sequencing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004097369A2 (en) * 2003-04-25 2004-11-11 Sequenom, Inc. Fragmentation-based methods and systems for de novo sequencing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bioinformatics approaches forgenomics and post genomics applications of next-generation sequencing;Horner DS;《Brief Bioinform》;20091027;第11卷(第2期);全文 *
De novo assembly of short sequnece reads;Paszkiewicz K;《Brief Bioinform》;20100819;第11卷(第520100819期);全文 *
Metagenome fregment classification using N-mer frequency profiles;Gail Rosen;《Adv Bioinformatics》;20081116;第2008卷;全文 *

Also Published As

Publication number Publication date
WO2012034251A2 (zh) 2012-03-22
CN103080333A (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
CN103080333B (zh) 一种基因组结构性变异检测方法和系统
US11371074B2 (en) Method and system for determining copy number variation
CN108753967B (zh) 一种用于肝癌检测的基因集及其panel检测设计方法
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
CN104657628A (zh) 基于Proton的转录组测序数据的比较分析方法和系统
CN116497103A (zh) 制备测序衔接子的方法和对核酸分子进行测序的方法
EP3822975A1 (en) Variant annotation, analysis and selection tool
CN113496760B (zh) 基于第三代测序的多倍体基因组组装方法和装置
CN109994154B (zh) 一种单基因隐性遗传疾病候选致病基因的筛选装置
CN101957892B (zh) 一种全基因组复制事件的检测方法和系统
Itoh et al. Computational comparative analyses of alternative splicing regulation using full-length cDNA of various eukaryotes
CN113463202B (zh) 一种新的rna高通量测序的方法、引物组和试剂盒及其应用
CN106021993A (zh) 肿瘤外显子组测序分析系统及方法
CN105950707A (zh) 一种确定核酸序列的方法及系统
CN102899335A (zh) 一种高通量Small RNA测序获得番木瓜环斑病毒基因组序列的方法
WO2013097048A1 (zh) 基因组单核苷酸多态性位点的标记方法和装置
CN111192636A (zh) 一种适用于oligodT富集的mRNA二代测序结果分析方法
CN109524060B (zh) 一种遗传病风险提示的基因测序数据处理系统与处理方法
Lv et al. Diverse phylogenomic datasets uncover a concordant scenario of laurasiatherian interordinal relationships
CN103270175B (zh) 检测转基因外源片段插入位点的方法和系统
Lammers et al. Phylogenetic conflict in bears identified by automated discovery of transposable element insertions in low-coverage genomes
CN103805689A (zh) 一种基于特征kmer的异型性染色体序列组装方法及其应用
CN110373458B (zh) 一种地中海贫血检测的试剂盒及分析系统
Holtgräwe et al. A partially phase-separated genome sequence assembly of the Vitis rootstock ‘Börner’(Vitis riparia× Vitis cinerea) and its exploitation for marker development and targeted mapping
CN112086128B (zh) 一种适用于Sequel测序的三代全长转录组测序结果分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130423

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130423

Address after: 518083 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Applicant after: BGI Technology Solutions Co., Ltd.

Address before: North Road No. 146, building 11F-3 Industrial Zone in Yantian District of Shenzhen city of Guangdong Province in 518083

Applicant before: BGI-Shenzhen Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant