CN103080333A - 一种基因组结构性变异检测方法和系统 - Google Patents

一种基因组结构性变异检测方法和系统 Download PDF

Info

Publication number
CN103080333A
CN103080333A CN2010800683450A CN201080068345A CN103080333A CN 103080333 A CN103080333 A CN 103080333A CN 2010800683450 A CN2010800683450 A CN 2010800683450A CN 201080068345 A CN201080068345 A CN 201080068345A CN 103080333 A CN103080333 A CN 103080333A
Authority
CN
China
Prior art keywords
variation
sequence
sequencing
variation information
comparison result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800683450A
Other languages
English (en)
Other versions
CN103080333B (zh
Inventor
罗锐邦
邵浩靖
林浩翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN103080333A publication Critical patent/CN103080333A/zh
Application granted granted Critical
Publication of CN103080333B publication Critical patent/CN103080333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基因组结构性变异检测方法和系统。该方法包括:组装步骤,将测序序列组装成骨架序列(scaffold);比对步骤,将所述骨架序列对参考基因组进行全局两两比对,获得含有变异信息的比对结果;提取步骤,从所述含有变异信息的比对结果中提取变异信息。本发明对全基因组测序结果进行组装,得出与参考基因组无关的个人特有基因组。该基因组大小可以在1M-3G之间均可表现出极佳的准确性。本发明对全基因组测序组装结果进行分析得出候选结构性变异集合。该候选结构性变异集合,可以进行下一步分析。本发明对全基因组候选结构性变异集合进行多种其他方法进行验证,得出假阳性10%以下的结构性变异集合。

Description

一种基因组结构性变异检测方法和系统 技术领域
本发明涉及生物信息学技术领域, 尤其涉及一种基因组结构 性变异(Structure Variation, SV )检测方法和系统。 背景技术
结构性变异在基因组中有重要的地位, 结构性变异可能导致 个体基因编码改变和功能改变。 随着人类基因组计划和国际单体 型图计划的顺利完成, 生物学家通过遗传连锁或关联分析已经定 位了大量与人类疾病相关的基因组候选区域。 但是, 识别这些区 域中的致病基因或突变需要对这些区域进行重新测序。 现有的全 基因组重测序分析技术成本较高, 而且通过全基因组重测序分析 技术得到的信息对于部分研究和个体医疗指导来说包含大量冗余 信息。 为了提高获得有效信息的效率, 将现有基因分析技术集中 在高价值的基因研究区域对于科学研究和医疗指导具有重大意 义。 传统的基于 PCR ( Polymerase Chain Reaction, 聚合 1½反 应)来对候选区域进行测序的方法由于耗时耗力已经无法满足研 究者的要求, 同时基于基因芯片的 SNP ( Single Nucleotide Polymorphism, 单核苷酸多态性)分型技术又无法找出基因组上 的稀有变异。
随着新一代高通量测序技术的出现以及测序成本的降低, 如 Solexa 测序技术, 迫切需要一种可以对基因組上感兴趣的区域进 行测序从而可以识别该区域上各种突变的技术。 发明内容
本公开的一个方面要解决的一个技术问题是提供一种基因組 结构性变异检测方法, 准确性更高。
本公开的一个方面提供一种基因组结构性变异检测方法, 包 括:
组装步骤, 将测序序列组装成骨架序列 (scaffold );
比对步骤, 将骨架序列对参考基因组进行全局两两比对, 获 得含有变异信息的比对结果;
提取步骤, 从含有变异信息的比对结果中提取变异信息。 根据本公开的一个方面, 在组装步骤之前, 还包括: 优化步骤, 将测序序列通过比对参考基因组进行优化处理获 得优化的测序序列;
组装步骤包括: 将优化的测序序列组装成骨架序列。
根据本公开的一个方面, 在提取步骤之后, 还包括: 验证步驟, 对提取的变异信息进行验证以去除未通过验证的 变异信息。
根据本公开的一个方面, 验证步骤包括:
对于变异信息中长度大于等于 50bp 的变异, 判断重复性是 否小于 10 % , 如果是, 则构建变异序列, 将测序序列比对上变异 序列, 如果变异序列的深度符合逻辑理论分布, 则通过验证, 否 则未通过验证, 去除变异; 如果重复性大于等于 10 %, 则判断变 异位点延伸序列是否无重复性, 如果是, 则构建变异序列, 把测 序序列比对上变异序列, 延伸序列比对深度特征符合逻辑理论分 布则通过验证, 否则去除;
对于变异信息中长度小于 50bp 的变异, 构建变异序列, 通 过短序列比对工具对测序序列和变异序列进行间隙比对, 如果比 对结果符合逻辑理论比对结果, 则通过验证, 否则未通过验证, 去除变异。
根据本公开的一个方面, 提取步骤还包括: 对含有变异信息的比对结果进行如下处理:
过滤或重新运行异常结果; 和 /或
过滤逻辑错误结果; 和 /或
去除常见结果不完整。
根据本公开的一个方面, 优化步骤包括:
通过短序列比对工具将测序序列比对参考基因组获得比对序 列;
优化步骤还包括:
通过短序列比对工具去除重复测序序列;
和 /或
将比对上参考基因组的所有错误比对碱基置换成与参考基因 组一致的碱基;
和 /或
去除比对序列中平均质量低于预定值的测序序列。
根据本公开的一个方面, 组装步骤包括:
将测序序列切成 N-mer后构建德布鲁恩图;
根据德布鲁恩图输出重叠群(contig )和杂合序列;
运用测序得到的双端关系根据重叠群构建骨架序列; 对骨架序列进行补缺口得出最后的骨架序列。
通过本公开实施例的方法, 对全基因组测序结果进行组装获 得骨架序列, 和参考基因组进行对比, 得出与参考基因组无关的 个人特有基因组, 准确性高。
本公开的另一个方面要解决的一个技术问题是提供一种基因 组结构性变异检测系统, 准确性更高。
本公开的一个方面提供一种基因组结构性变异检测系统, 包 括:
组装装置, 用于将测序序列组装成骨架序列 (scaffold ); 比对装置, 用于将骨架序列对参考基因组进行全局两两比 对, 获得含有变异信息的比对结果;
提取装置, 用于从含有变异信息的比对结果中提取变异信 息。
才艮据本公开的一个方面, 该系统还包括:
优化装置, 用于将测序序列通过比对参考基因组进行优化处 理获得优化的测序序列;
组装装置用于将优化的测序序列组装成骨架序列。
根据本公开的一个方面, 该系统还包括:
验证装置, 用于对提取的变异信息进行验证, 去除未通过验 证的变异信息。
根据本公开的一个方面, 验证装置对于变异信息中长度大于 等于 50bp的变异, 判断重复性是否小于 10 %, 如果是, 则构建 变异序列, 将测序序列比对上变异序列, 如果变异序列的深度符 合逻辑理论分布, 则通过验证, 否则未通过验证, 去除变异; 如 果重复性大于等于 10 % , 则判断变异位点延伸序列是否无重复 性, 如果是, 则构建变异序列, 把测序序列比对上变异序列, 延 伸序列比对深度特征符合逻辑理论分布则通过验证, 否则去除; 对于变异信息中长度小于 50bp 的变异, 构建变异序列, 通过短 序列比对工具对测序序列和变异序列进行间隙比对, 如果比对结 果符合逻辑理论比对结果, 则通过验证, 否则未通过验证, 去除 变异。
根据本公开的一个方面, 提取装置包括:
变异信息过滤单元, 用于对含有变异信息的比对结果进行过 滤或重新运行异常结果; 和 /或过滤逻辑错误结果; 和 /或去除常 见结果不完整, 输出过滤后的比对结果;
变异信息提取单元, 用于从变异信息过滤单元输出的过滤后 的比对结果提取变异信息。
根据本公开的一个方面, 优化装置包括:
对比单元, 用于将测序序列比对参考基因组得到比对序列; 过滤单元, 用于对比对序列进行过滤, 去除比对结果中平均 质量低于预定值的序列;
错误碱基置换单元, 用于将比对上参考基因组的所有错误比 对 置换成与参考基因组一致的 。
根据本公开的一个方面, 组装装置包括:
图构建单元, 用于将优化的测序序列切成 N-mer后构建德布 鲁恩图;
切割单元, 用于对德布鲁恩图中的环状结构进行输出, 切割 该德布鲁恩图变成多条重叠群(contig )和杂合序列;
骨架构建单元, 用于运用测序得到的双端关系根据多条重叠 群构建骨架序列, 对骨架序列进行补缺口得出最后的骨架序列。
本公开基因组结构性变异检测系统的实施例, 通过组装装置 对全基因组测序结果进行组装获得骨架序列, 通过比对装置将骨 架序列和参考基因组进行全局对比, 得出与参考基因组无关的个 人特有基因组, 准确性高。 附图说明
图 1 示出本发明的基因组结构性变异检测方法的一个实施例 的流程图;
图 2 示出本发明的基因組结构性变异检测方法的另一个实施 例的流程图;
图 3 示出本发明的基因组结构性变异检测方法的又一个实施 例的流程图;
图 4示出本发明的基因组结构性变异检测系统的一个实施例 的结构图;
图 5 示出本发明的基因组结构性变异检测系统的另一个实施 例的结构图;
图 6 示出本发明的基因组结构性变异检测系统的又一个实施 例的结构图。 具体实施方式
下面参照附图对本发明进行更全面的描述, 其中说明本发明 的示例性实施例。
基于组装检测结构性变异的方法和系统是一种对基因组 DNA 序列信息进行一系列生物信息分析的方法和进行相关分析的工 具, 旨在解决基因组生物信息学分析方法和工具不完善的问题。
图 1 示出本发明的基因组结构性变异检测方法的一个实施例 的流程图。
步骤 102, 组装步骤。 将测序序列组装成骨架序列 ( scaffold )。 例如, 把测序序列切成 N-mer后构建德布鲁恩图, 对德布鲁恩图中的部分环状结构进行输出, 同时切割该德布鲁恩 图变成多条重叠群(contig ), 和杂合序列; 运用测序得到的双端 关系对重叠群进行处理构建骨架序列。 通过处理带缺口的骨架序 列, 对骨架序列用碱基 "N" 进行补缺口, 得到最后的骨架序 列。
步骤 104, 比对步骤。 将骨架序列对参考基因组进行全局两 两比对, 获得含有变异信息的比对结果。 例如, 对步骤 102得出 的组装结果使用长序列比对软件与参考基因组进行全局两两比 对。 长序列比对软件例如是 LASTZ, 具体介绍可以见参考文献 [ Harris, R.S. Improved pair ise alignment of genomic DNA. PhD thesis, Pennsylvania State University ( 2007 )】。 步骤 106, 提取步骤, 从含有变异信息的比对结果中提取变 异信息。 变异信息包括变异位点的位置, 变异类型, 变异的序列 等信息。
在本发明的上述实施例中, 对全基因组测序结果进行组装获 得骨架序列, 和参考基因组进行对比, 得出与参考基因组无关的 个人特有基因组, 准确性高。
图 2 示出本发明的基因组结构性变异检测方法的另一个实施 例的流程图。
如图 2 所示, 步骤 202, 优化步骤。 将测序序列通过比对参 考基因组后进行优化处理获得优化的测序序列。 通过序列比对工 具进行测序序列和参考基因组的比对获得比对序列, 将比对序列 进行优化处理, 例如去重复、 替换错误碱基和过滤后, 转换成优 化的测序序列。
例如, 通过 BWA软件进行测序序列和参考基因组的比对, BWA具体参数采用 "aln -e O -o O"。 该参数的含义为: "aln" 是 BWA 的子功能, 作用是比对; " -e " 表示能进行间隙比对
( gapped alignment ) 的间隙长度上限; "-o" 表示间隙比对的间 隙个数。 BWA是短序列对比软件, 具体介绍可以参见参考文献
【 Heng Li, Richard Durbin. Fast and accurate short read alignment with Burrows-Wheeler transform. Nature Bioinformatics. Vol.25 no.14: 1754-1760 ( 2009 )】。
对比序列的去重复处理是指去除一些重复度高的序列区域。 例如, 一个序列区域为 ATCATCATCATCATC, 包含多个 ATC, 将会对比对造成影响, 应当排除这样的序列区域。 比对序 列的替换错误碱基处理为把比对上参考基因组的所有错误比对碱 基置换成跟参考基因组一致的碱基。 比对序列的过滤处理为去除 平均质量值低于预定值 X 的序列; 例如, 参数 X根据测序的平 均质量值设定, 质量值符合公式 Q=-10*lgPe, Pe 为出错概率, 建议取值范围例如是 [10-20】, 对应平均错误率为 [10%-1%], 默 认选项是 15。 通过对测序序列进行优化处理, 可以提高下一步处 理的精度。
步骤 204, 组装步骤。 将优化的测序序列组装成骨架序列。 例如, 采用华大基因研究院研发的软件 Soapdenovo 进行组装, 具体组装参数是 "-K 31", 其中, 参数 " - K" 用于设定切 K- mer的值。 其中 Soapdenovo软件的介绍可以参见参考文献: 【Li, R. et al. De novo assembly of human genomes with massively parallel short read sequencing. Genome Res ( 2009 )】。
步驟 206, 比对步骤。 将骨架序列与参考基因组进行全局两 两比对, 得出含有变异信息的比对结果。 例如, 用 LASTZ把骨 架序列对参考基因组进行全局两两比对, 其中 LASTZ 的具体参 数 为 : " ~strand=both —chain — ambiguousn -gapped ― ydrop=20000 -gap=1000,l -noentropy -format=axt" , 对参考 基因组建种子采用 12οΠ9。 参数定义可见 LASTZ软件说明文档, <<-strand=both" 是指正负链都比对, "一 chain" 是指进行链接, "― ambiguousN" 是指把 N作为多种碱基型处理, "~gapped" 是指进行间隙比对, "一 ydrop=20000" 是指间隙比对罚分的阀值 为 20000, "-gap=1000,l" 是指开一个间隙罚分 1000, 延长一个 间隙一个碱基罚分 1 分, "一 noentropy" 是指不引入熵对高精度 结果进行过滤, "-format=axt " 是指结果用 axt 格式输出。
"12οΠ9" 是种子的模式为 12οΠ9。 一个种子为参考序列中按软 件设定规则选取的 19 个碱基长度的序列。 目标序列能否比对上 种子序列只考虑软件设定的种子中的 12 个碱基位置。 如果种子 区域比对上, 比对将以种子区域为起点向两个方向延伸, 直到比 对完成, 输出比对结果。 步骤 208, 提取步骤。 对包含变异信息的比对结果进行过 滤, 提取过滤后的比对结果中的变异信息。 过滤包括: (1 )过滤 或重新运行异常结果, (2 ) 过滤逻辑错误结果, 和 (3 ) 常见结 果不完整。 (1 ) 过滤或重新运行异常结果: 过滤 laste 中运行不 正常的结果, 过滤 lastz 结果中注释的无意义部分, 重新运行没 有正常结尾标识符的 lastz程序。 (2 ) 过滤逻辑错误结果: 这个 包括一条组装序列比对上两条或以上染色体, 一条染色体的同一 个位置比对上两条或者以上的组装序列, 从这些结果中挑选质量 较好的保留之。 (3 ) 比对结果中常常有 N ( ACGT 均有可能) 与 - (比对间隙)成对出现, 同时出现, 应该去除这样的对。
步骤 210, 脸证步骤。 对提取的变异信息进行验证以去除未 通过验证的变异信息。 可以通过各种计算方法对候选的变异信息 进行验证去除未通过验证的变异信息。 例如, 通过深度和序列切 割方法进行验证。 对于长度大于等于 50bp 的变异, 首先构建变 异序列, 然后把测序序列比对上变异序列, 若变异序列的深度符 合逻辑理论分布则通过验证, 否则去除; 对于长度少于 50bp 的 变异, 首先构建变异序列, 然后用序列比对软件例如 BWA对测 序短序列和变异序列进行带间隙比对, 比对参数为 "-e 50 -0 1 - i 5" , 若比对结果符合逻辑理论比对结果则通过验证, 否则去除。 最后合并两者得出最终结果。 上述变异序列的深度符合逻辑理论 分布是指, 如果目标序列跟参考序列一致, 应该在该区域的各个 点的深度会有比较高的值, 而且每个点的深度都比较接近, 反 之, 则值比较低。
需要指出, 优化步骤和验证步骤作为本发明实施例的可选步 骤, 可以包含其中一个或者两个。
在上述实施例中, 通过对测序序列进行优化处理, 可以提高 下一步处理的精度。 对全基因组候选结构性变异集合进行多种方 法进行验证, 去除未通过验证的变异信息, 从而使得变异信息的 假阳性低。 通过实验表明, 本发明实施例的方法可以得出假阳性
10%以下的结构性变异集合。
图 3 示出本发明的基因组结构性变异检测方法的又一个实施 例的流程图。
如图 3所示, 在步驟 301, BWA比对。 通过 BWA软件进行 测序序列和参考基因组的比对, 获得对比序列。
在步骤 302, BWA去重复。 通过 BWA软件去除重复度高的 序列。
在步骤 303, 把错误比对碱基置换成参考序列碱基和根据质 量值过滤。 把比对上参考基因组的所有错误比对碱基置换成跟参 考基因组一致的碱基, 去除平均质量值低于预定值 X的序列。
在步驟 304, 生成拼接的德布鲁恩图。
在步骤 305, 根据德布鲁恩图输出重叠群和杂合序列。
在步驟 306, 获得重叠群或杂合序列。 后续步骤 307 至步驟 309分别对重叠群和杂合序列进行处理。
在步骤 307, 切分参考序列和拼接结果序列, 该处结果序列 指重叠群和杂合序列。
在步骤 308, 拆分成多份的两两比对。 将参考序列和结果序 列拆分成多份, 然后分别用一个来自参考序列的拆分过的小序列 跟来自结果序列的小序列比对, 直到所有小序列比对完。
在步骤 309, 纠比对 «, 去逻辑 ^, 输出变异信息。 在步骤 310, 获取变异信息。
在步骤 311, 判断变异长度是否大于等于 50bp碱基对, 如果 是, 则继续步骤 312, 否则, 继续步骤 317
在步骤 312, 计算序列重复性。 比较该序列的某个区域的信 息与重复序列库中的信息, 判断是否一致; 若一致就判断该序列 区域为重复序列区域。 也可能整奈序列都为重复序列区域。 通过 计算重复序列区域的长度跟整条序列的比例, 就能算出序列重复 性。
在步骤 313, 判断重复性是否少于 10 % , 如果是, 则继续步 骤 316, 否则, 继续步驟 314。
在步骤 314, 判断变异位点延伸序列是否无重复性, 如果 是, 则根继续步骤 315。
在步骤 315, 得出变异序列, 与参考序列进行比对。 根据延 伸序列比对深度特征得出^ i序列, 输出变异结果。
在步驟 316, 得出变异序列, 与参考序列进行比对。 如果变 异序列正确, 该变异序列的比对深度会比较高, 且比较平均。 根 据深度比得出 变异, 输出变异结果。
在步骤 317, 得出变异序列。
在步骤 318, 获得带间隙的单端或双端 BWA 比对结果。 测 序序列分两种, 一种是单端 (single-end ), —种是双端 (pair- end ), BWA 比对的时候不同种类使用的方法不一样。 具体可以 参见: http://bio-bwa.sourceforge.net/bwa.shtml.
在步驟 319, 提取变异位点附近序列。 每个变异位点会有位 置信息, 在参考序列中找到这个位置, 把这个位置的前后一定长 度的序列截取下来跟这个变异位点的变异序列连接起来, 变成一 个新的序列。
在步驟 320, 带间隙的 BWA 比对。 BWA 比对时使用 -o 1 参数, 允许目标序列与参考序列比对时存在间隙, 或不存在间 隙。
在步骤 322, 根据比对结果的间隙情况和深度分布得出验证 变异, 输出变异结果。
下面介绍本发明方法的多个应用例。 应用例一, 人类外显子捕捉测序。
以国际人类基因组单体型图计划个体 NA12156 外显子测序 为 例 ( 样 品 号 : NA12156 ; 下 载 地 址 ftp://ftp.ncbi.nlm.nih.gov/sra/static/SRX005/SRX005923 )。 原始数 据, 共 11346285条短序列。
将人类外显子 NA12156的测序结果用基础软件 BWA工具和 过滤程序软件对测序结果基于参考基因组进行过滤和优化; 将过 滤优化得出的序列用 soapdenovo 的进行组装; 将组装结果使用 软件 LASTZ软件与参考基因组进行两两比对, 比对结果用 提取结构性变异信息软件进行过滤及去除异常结果, 最后采用验 证结构性变异软件通过深度和序列切割方法进行验证。 对于长度 大于等于 50bp的变异, 判断重复性是否少于 10 % , 如果是, 则 构建变异序列, 把测序序列比对上变异序列, 若变异序列的深度 符合逻辑理论分布, 则通过验证, 否则去除; 如果重复性大于等 于 10 %, 则判断变异位点延伸序列是否无重复性, 如果是, 构建 变异序列, 然后把测序序列比对上变异序列, 延伸序列比对深度 特征符合逻辑理论分布则通过验证, 否则去除; 对于长度少于 50bp的变异, 构建变异序列, 然后用 BWA进行带间隙比对, 比 对参数为 -e 50 -0 1 -i 5, 若比对结果符合逻辑理论比对结果则 通过验证, 否则去除。 最后合并两者得出最终结果。 具体步骤如 下:
第一步, 优化步骤
对短序列进行优化处理(对比、 去重复、 替换、 过滤)后, 得到 9303954条短序列。
第二步, 组装步骤
对优化的短序列进行组装, 组装结果基因组大小为 218030396bp, 有 3941732 条组装序列, 组装序列最长为 9042bp, N50 为 298bp 和 N90为 122bp。
第三步, 比对步骤
组装序列与参考基因组比对结果含有 64696911 对比对结 果。
第四步, 提取步骤
候选 SV结果有 37014个, 大于 50bp有 5695, 少于 50bp 有 31253个。
第五步, 验证步骤
被验证的基因组变异结果有 3294 个, 其中在捕捉区域的有
425个。 其中前 9个 SV如下表 1所示:
表 1
应用例二, 人类外显子捕捉测序。
该应用例以结肠癌癌变细胞的外显子测序为例 (样品号: yv 090508 )。 原始数据共 105972839条短序列 (测序序列)。
第一步, 优化步驟
对短序列进行优化处理(对比、 去重复、 替换、 过滤)后, 共 69549590条短序列。
第二步, 组装步骤
对优化的短序列进行组装, 组装结果基因组大小为 118938172bp , 有 253868 条组装序列, 组装序列最长为 16885bp, N50为 793bp 和 N90为 170bp。
第三步, 比对步骤
组装序列与参考基因组比对结果含有 11882543 对比对结 果。
第四步, 提取步骤
候选 SV结果有 57433个, 大于 50bp有 12056, 少于 50bp 有 45377个。
第五步, 验证步骤
被验证的 SV有 9377个, 其中在捕捉区域的有 91个, 其中 前 13个 SV如下表 2所示:
组装序列 ID 变异类型 组 装 组装序 参考基因组 染色体开始 染色体终止 变异基因 序 列 列 ID终 染色体号 型
ID 起' 止位置
始 位
1811143 Insertion 36 38 chr7 65479979 65479979 AT
1833167 Insertion 261 264 chr3 126129396 126129396 AAG
1837575 Deletion 142 142 chrl7 71800160 71800163 TGA
1848441 Insertion 17 20 chr3 46476289 46476289 CTT
1850771 Insertion 338 341 chr21 46546414 46546414 TGG 1852777 Deletion 343 343 chr7 15692332 15692335 TGG
1874031 Insertion 83 86 chrl6 88444381 88444381 GAG
1874671 Deletion 410 410 chr7 143288092 143288093 G
1881421 Insertion 368 371 chrl7 15284250 15284250 CTT
1883581 Deletion 215 215 chr6 160480888 160480896 TGGTAA
GT
1887101 Deletion 146 146 chrl9 1776928 1776931 CTC
1891753 Deletion 139 139 chrl 52078652 52078655 TCT
1896823 Deletion 363 363 chrl9 59367581 59367584 CCC
表 2
应用例三, 微生物测序。
该应 用 例 以 一株副 溶血弧菌 为 例 ( 样本号 : VIBydvDlOpoolingIAAPEI-9-l )。 原始数据共 5631982 条短序 列。
第一步, 优化步骤
对短序列进行优化处理(对比、 去重复、 替换、 过滤)后, 共 5213412条短序列。
第二步, 组装步驟
组装结果基因组大小为 5056512 bp, 有 684条组装序列, 组 装序列最长为 94989bp, N50为 23988 bp 和 N90为 5603bp。
第三步, 比对步骤
组装序列与参考基因组比对结果含有 1442对比对结果。
第四步, 提取步骤
候选 SV结果有 725个, 大于 50bp有 196, 少于 50bp有 529个。
第五步, 验证步骤
被^ i£的 SV有 180个, 其中前 19个如表 3所示: 组装序列 ID 变异类型 组装序 组 装 参考基因组染色体号 染 色体 染 色体 变 异 列 ID起 序 列 开始 终止 基 因 始位置 ID 终 型 止 位
SOOl— 4988 Deletion 623 623 Vibrio_parahaemolyticu 281201 281202 T s RIMD 1
SOOl一 4998 Deletion 164 164 Vibrio_parahaemolyticu 1336020 1336024 ATGT s RIMD 1
SOOl— 5000 Insertion 231 234 Vibrio_parahaemolyticu 949303 949303 AAA s RIMD 1
SOOl— 5030 Deletion 536 536 Vibrio_parahaemolyticu 1090795 1090796 T s RIMD 1
SOOl— 5176 Insertion 2626 2627 Vibrio— parahaemolytku 1499322 1499322 C s RIMD 1
SOOl一 5188 Deletion 2335 2335 Vibrio_parahaemolyticu 723095 723096 A s RIMD 1
SOOl— 5240 Deletion 98 98 Vibrio_parahaemolyticu 680139 680140 A s RIMD 1
SOOl一 5260 Deletion 1853 1853 Vibrio_parahaemolyticu 6768 IS 676816 A s RIMD 1
SOOl— 5348 Insertion 855 856 Vibrio_parahaemolyticu 1335062 1335062 G s RIMD 1
SOOl— 5360 Insertion 5675 5676 Vibrio_parahaemolyticu 341442 341442 T s RIMD 1 S001_5364 Deletion 35 35 Vibrio_parahaemolyticu 962113 962114 T s RI D 1
S001_5384 Insertion 5462 5463 Vibrio— parahaemolyticu 312520 312520 A s RIMD 1
S001_5388 Deletion 6105 6105 Vibrio_parahaemolyticu 667732 667733 A s RIMD 1
S001—5398 Deletion 6585 6585 Vibrio一 parahaemolyticu 996693 996694 A s RIMD 1
S001_5408 Deletion 1482 1482 Vibrio— parahaemolyticu 128682 128683 T s RIMD 1
S001—5426 Insertion 5406 5407 Vibrio— parahaemolyticu 71294 71294 T s RIMD 1
S001_5436 Deletion 8239 8239 Vibrio— parahaemolyticu 50680 50684 ACAT s RIMD 1
S001_5436 Deletion 8185 8185 Vibrio一 parahaemolyticu 50738 50739 A s RIMD 1
S001_5436 Deletion 49 49 Vibrio— parahaemolyticu 58875 58877 AT s RIMD 1
表 3 图 4示出本发明的基因组结构性变异检测系统的一个实施例 的结构图。 如图 4所示, 该实施例的结构性变异检测系统 400包 括组装装置 41、 比对装置 42和提取装置 43。 其中, 组装装置 41 将测序序列组装成骨架序列 (scaffold ), 输出骨架序列; 比对装 置 42将组装装置 41输出的骨架序列对参考基因组进行全局两两 比对获得含有变异信息的比对结果; 提取装置 43 从含有变异信 息的比对结果中提取变异信息。 在上述实施例中, 通过组装装置对全基因组测序结果进行组 装获得骨架序列, 通过比对装置将骨架序列和参考基因组进行全 局对比, 得出与参考基因组无关的个人特有基因组, 准确性高。
图 5 示出本发明的基因组结构性变异检测系统的另一个实施 例的结构图„ 和图 4相比, 该实施例的结构性变异检测系统 400 还可选地包括优化装置 50和验证装置 54。 优化装置 50将测序序 列通过比对参考基因组进行优化处理获得优化的测序序列, 将优 化的测序序列发送给组装装置 41。 组装装置 41 将优化的测序序 列组装成骨架序列 ( scaffold )。 例如, 优化装置 50通过短序列比 对软件将测序序列和参考基因组进行比对, 获得比对序列, 然后 对比对序列进行去重复、 替换、 过滤等优化处理, 获得优化的测 序序列。
验证装置 54 对提取的变异信息进行验证, 去除未通过验证 的变异信息。 验证装置 54 可以通过各种计算方法对候选的变异 信息进行验证去除未通过验证的变异信息, 例如, 通过深度和序 列切割方法进行验证。 根据本发明的一个实施例, 验证装置对于 变异信息中长度大于等于 50bp的变异, 判断重复性是否小于 10 % , 如果是, 则构建变异序列, 将测序序列比对上变异序列, 如 果变异序列的深度符合逻辑理论分布, 则通过验证, 否则未通过 臉证, 去除变异; 如果重复性大于等于 10 % , 则判断变异位点延 伸序列是否无重复性, 如果是, 则构建变异序列, 把测序序列比 对上变异序列, 延伸序列比对深度特征符合逻辑理论分布则通过 验证, 否则去除; 对于变异信息中长度小于 50bp 的变异, 构建 变异序列, 通过短序列比对工具对测序序列和变异序列进行间隙 比对, 如果比对结果符合逻辑理论比对结果, 则通过验证, 否则 未通过验证, 去除变异。
在上述实施例中, 通过优化装置对测序序列进行优化处理, 可以提高下一步处理的精度。 通过验证装置对全基因组候选结构 性变异集合进行多种方法进行验证, 去除未通过验证的变异信 息, 从而使得变异信息的假阳性低。 通过实验表明, 本发明实施 例的方法可以得出假阳性 10%以下的结构性变异集合。
图 6 示出本发明的基因组结构性变异检测系统的又一个实施 例的结构图。 如图 6 所示, 在该实施例的结构性变异检测系统 600中, 优化装置 50包括对比单元 501、 过滤单元 502和错误碱 基置换单元 503。 组装装置 41 包括图构建单元 411、 切割单元 412 和骨架构建单元 413。 提取装置 43 包括变异信息过滤单元 431和变异信息提取单元 432。
其中, 对比单元 501 将测序序列比对参考基因组得到比对序 列; 过滤单元 502 用于对比对序列进行过滤, 去除比对队列中平 均质量低于预定值的序列; 错误碱基置换单元 503将比对上参考 基因组的所有错误比对碱基置换成与参考基因组一致的碱基。 图 构建单元 411将优化的测序序列切成 N-mer后构建德布鲁恩图; 切割单元 412对德布鲁恩图中的部分环状结构进行输出, 切割该 德布鲁恩图变成多条重叠群(contig ); 骨架构建单元 413运用测 序得到的双端关系构建骨架序列, 对骨架序列进行补缺口得出最 后的骨架序列。 变异信息过滤单元 431对含有变异信息的比对结 果进行过滤或重新运行异常结果; 和 /或过滤逻辑错误结果; 和 / 或去除常见结果不完整, 输出过滤后的比对结果; 变异信息提取 单元 432从变异信息过滤单元输出的过滤后的比对结果提取变异
^息。
对于图 4至图 6中各个装置或单元的功能, 可以参考上文中 关于本发明方法的实施例中对应部分的说明, 为简洁起见, 在此 不再详述。
本领域的技术人员应当理解, 对于图 4 至图 6 中的各个装 01409
置, 可以通过单独的计算处理设备实现, 或者将其集成为一个独 立的设备实现。 在图 4至图 6中用框示出以说明它们的功能。 这 些功能块可以用硬件、 软件、 固件、 中间件、 微代码、 硬件描述 语音或者它们的任意组合来实现。 举例来说, 一个或者两个功能 块都可以利用运行在微处理器、 数字信号处理器 (DSP )或任何 其他适当计算设备上的代码实现。 代码可以表示过程、 功能、 子 程序、 程序、 例行程序、 子例行程序、 模块或者指令、 数据结构 或程序语句的任意组合。 代码可以位于计算机可读介质中。 计算 机可读介质可以包括一个或者多个存储设备, 例如, 包括 RAM 存储器、 闪存存储器、 ROM 存储器、 EPROM 存储器、 EEPROM存储器、 寄存器、 硬盘、 移动硬盘、 CD-ROM或本领 域公知的其他任何形式的存储介质。 计算机可读介质还可以包括 编码数据信号的载波。
本领域技术人员将意识到硬件、 固件和软件配置在这些情况 下的可替换性, 以及如何最好地实现每个特定应用地该功能。
在本发明的上述实施例中, 对全基因组测序结果进行组装获 得骨架序列, 和参考基因组进行对比, 得出与参考基因组无关的 个人特有基因组, 准确性高。 实猃数据表明, 本发明实施例的方 法在基因组大小为 1M-3G 之间均可表现出极佳的准确性。 此 外, 通过对全基因组测序组装结果进行分析得出候选结构性变异 集合, 使得结果更加全面。 该候选结构性变异集合, 可以进行下 一步分析。 本发明对全基因组候选结构性变异集合进行多种其他 方法进行验证, 得出假阳性 10%以下的结构性变异集合, 阳性 低。
本发明的描述是为了示例和描述起见而给出的, 而并不是无 遗漏的或者将本发明限于所公开的形式。 很多修改和变化对于本 领域的普通技术人员而言是显然的。 选择和描述实施例是为了更 好说明本发明的原理和实际应用, 并且使本领域的普通技术人员 能够理解本发明从而设计适于特定用途的带有各种修改的各种实 施例。

Claims (14)

  1. 权 利 要 求
    1. 一种基因组结构性变异检测方法, 其特征在于, 包括: 组装步骤, 将测序序列组装成骨架序列 (scaffold );
    比对步骤, 将所述骨架序列对参考基因组进行全局两两比对, 获 得含有变异信息的比对结果;
    提取步骤, 从所述含有变异信息的比对结果中提取变异信息。
  2. 2. 根据权利要求 1 所述的基因组结构性变异检测方法, 其特 征在于, 在所述组装步骤之前, 还包括:
    优化步骤, 将测序序列通过比对参考基因组进行优化处理获得优 化的测序序列;
    所述组装步骤包括:
    将所述优化的测序序列组装成骨架序列。
  3. 3. 根据权利要求 1 所述的基因组结构性变异检测方法, 其特 征在于, 在所述提取步驟之后, 还包括:
    验证步驟, 对所述提取的变异信息进行验证以去除未通过验证的 变异信息。
  4. 4. 根据权利要求 3 所述的基因组结构性变异检测方法, 其特 征在于, 所述验证步骤包括:
    对于所述变异信息中长度大于等于 50bp 的变异, 判断重复性是 否小于 10 % , 如果是, 则构建变异序列, 将所述测序序列比对上 所述变异序列, 如果所述变异序列的深度符合逻辑理论分布, 则 通过验证, 否则未通过验证, 去除所述变异; 如果重复性大于等 于 10 % , 则判断变异位点延伸序列是否无重复性, 如果是, 则构 建变异序列, 把所述测序序列比对上所述变异序列, 延伸序列比 对深度特征符合逻辑理论分布则通过验证, 否则去除;
    对于所述变异信息中长度小于 50bp 的变异, 构建变异序列, 通 过短序列比对工具对所述测序序列和所述变异序列进行间隙比 对, 如果比对结果符合逻辑理论比对结果, 则通过验证, 否则未 通过验证, 去除所述变异。
  5. 5. 根据权利要求 1 所述的基因组结构性变异检测方法, 其特 征在于, 所述提取步骤还包括:
    对所述含有变异信息的比对结果进行如下处理:
    过滤或重新运行异常结果; 和 /或
    过滤逻辑错误结果; 和 /或
    去除常见结果不完整。
  6. 6. 根据权利要求 2 所述的基因组结构性变异检测方法, 其特 征在于, 所述优化步骤包括:
    通过短序列比对工具将测序序列比对参考基因组获得比对序列; 所述优化步骤还包括:
    通过短序列比对工具去除重复测序序列;
    和 /或
    将比对上参考基因组的所有错误比对碱基置换成与参考基因组一 致的碱基;
    和 /或
    去除所述比对序列中平均质量低于预定值的测序序列。
  7. 7. 根据权利要求 1 所述的基因组结构性变异检测方法, 其特 征在于, 将所述组装步驟包括:
    将所述测序序列切成 N-mer后构建德布鲁恩图;
    根据所述德布鲁恩图输出重叠群( contig )和杂合序列; 运用测序得到的双端关系才 据重叠群构建骨架序列;
    对骨架序列进行补缺口得出最后的骨架序列。
  8. 8. 一种基因组结构性变异检测系统, 其特征在于, 包括: 组装装置, 用于将测序序列组装成骨架序列 (scaffold ); 比对装置, 用于将所述骨架序列对参考基因组进行全局两两比 对, 获得含有变异信息的比对结果;
    提取装置, 用于从所述含有变异信息的比对结果中提取变异信 息。
  9. 9. 根据权利要求 8 所述的基因组结构性变异检测系统, 其特 征在于, 还包括:
    优化装置, 用于将测序序列通过比对参考基因组进行优化处理获 得优化的测序序列;
    所述组装装置用于将所述优化的测序序列组装成骨架序列。
  10. 10. 根据权利要求 8所述的基因组结构性变异检测系统, 其特 征在于, 还包括:
    验证装置, 用于对所述提取的变异信息进行验证, 去除未通过验 证的变异信息。
  11. 11. 根据权利要求 10 所述的基因组结构性变异检测系统, 其 特征在于, 所述验证装置对于所述变异信息中长度大于等于 50bp 的变异, 判断重复性是否小于 10 % , 如果是, 则构建变异序列, 将所述测序序列比对上所述变异序列, 如果所述变异序列的深度 符合逻辑理论分布, 则通过验证, 否则未通过验证, 去除所述变 异; 如果重复性大于等于 10 %, 则判断变异位点延伸序列是否无 重复性, 如果是, 则构建变异序列, 把所述测序序列比对上所述 变异序列, 延伸序列比对深度特征符合逻辑理论分布则通过验 证, 否则去除; 对于所述变异信息中长度小于 50bp 的变异, 构 建变异序列, 通过短序列比对工具对所述测序序列和所述变异序 列进行间隙比对, 如果比对结果符合逻辑理论比对结果, 则通过 验证, 否则未通过验证, 去除所述变异。
  12. 12. 根据权利要求 8所述的基因组结构性变异检测系统, 其特 征在于, 所述提取装置包括: 变异信息过滤单元, 用于对所述含有变异信息的比对结果进行过 滤或重新运行异常结果; 和 /或过滤逻辑错误结果; 和 /或去除常 见结果不完整, 输出过滤后的比对结果;
    变异信息提取单元, 用于从所述变异信息过滤单元输出的过滤后 的比对结果提取变异信息。
  13. 13. 根据权利要求 9所述的基因组结构性变异检测系统, 其特 征在于, 所述优化装置包括:
    对比单元, 用于将所述测序序列比对参考基因组得到比对序列; 过滤单元, 用于对所述比对序列进行过滤, 去除所述比对结果中 平均质量低于预定值的序列;
    错误碱基置换单元, 用于将比对上参考基因组的所有错误比对碱 基置换成与参考基因组一致的 ½。
  14. 14. 根据权利要求 8所述的基因组结构性变异检测系统, 其特 征在于, 所述组装装置包括:
    图构建单元, 用于将所述优化的测序序列切成 N-mer后构建德布 鲁恩图;
    切割单元, 用于对所述德布鲁恩图中的环状结构进行输出, 切割 该德布鲁恩图变成多条重叠群(contig )和杂合序列;
    骨架构建单元, 用于运用测序得到的双端关系根据多条重叠群构 建骨架序列, 对骨架序列进行补缺口得出最后的骨架序列。
CN201080068345.0A 2010-09-14 2010-09-14 一种基因组结构性变异检测方法和系统 Active CN103080333B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/001409 WO2012034251A2 (zh) 2010-09-14 2010-09-14 一种基因组结构性变异检测方法和系统

Publications (2)

Publication Number Publication Date
CN103080333A true CN103080333A (zh) 2013-05-01
CN103080333B CN103080333B (zh) 2015-06-24

Family

ID=45832006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080068345.0A Active CN103080333B (zh) 2010-09-14 2010-09-14 一种基因组结构性变异检测方法和系统

Country Status (2)

Country Link
CN (1) CN103080333B (zh)
WO (1) WO2012034251A2 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714263A (zh) * 2013-12-10 2014-04-09 深圳先进技术研究院 双向多步De Bruijn图的错误双向边识别与去除方法
CN104751015A (zh) * 2013-12-30 2015-07-01 中国科学院天津工业生物技术研究所 一种基因组测序数据序列组装方法
WO2015149719A1 (zh) * 2014-04-04 2015-10-08 深圳华大基因科技服务有限公司 杂合基因组处理方法
CN105483244A (zh) * 2015-12-28 2016-04-13 武汉菲沙基因信息有限公司 一种基于超长基因组的变异检测算法及检测系统
CN106715711A (zh) * 2014-07-04 2017-05-24 深圳华大基因股份有限公司 确定探针序列的方法和基因组结构变异的检测方法
WO2018214010A1 (zh) * 2017-05-23 2018-11-29 深圳华大基因研究院 一种基于测序数据的变异检测方法、装置和存储介质
CN109416928A (zh) * 2016-06-07 2019-03-01 伊路米纳有限公司 用于进行二级和/或三级处理的生物信息学系统、设备和方法
CN110021359A (zh) * 2017-07-24 2019-07-16 深圳华大基因科技服务有限公司 一种二代序列和三代序列联合组装结果去冗余的方法和装置
CN110349629A (zh) * 2019-06-20 2019-10-18 广州赛哲生物科技股份有限公司 一种利用宏基因组或宏转录组检测微生物的分析方法
CN111724858A (zh) * 2020-05-14 2020-09-29 东北林业大学 利用软件运行基因组序列比对修补gap的方法
CN111863135A (zh) * 2020-07-15 2020-10-30 西安交通大学 一种假阳性结构变异过滤方法、存储介质及计算设备
CN112289376A (zh) * 2020-10-26 2021-01-29 深圳基因家科技有限公司 一种检测体细胞突变的方法及装置
CN112599193A (zh) * 2021-03-02 2021-04-02 北京橡鑫生物科技有限公司 结构变异检测模型、其构建方法和装置
CN115602244A (zh) * 2022-10-24 2023-01-13 哈尔滨工业大学(Cn) 一种基于序列比对骨架的基因组变异检测方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258145B (zh) * 2012-12-22 2016-06-29 中国科学院深圳先进技术研究院 一种基于De Bruijn图的并行基因拼接方法
CN103093121B (zh) * 2012-12-28 2016-01-27 深圳先进技术研究院 双向多步deBruijn图的压缩存储和构造方法
KR101770962B1 (ko) * 2013-02-01 2017-08-24 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN103810402B (zh) * 2014-02-25 2017-01-18 北京诺禾致源生物信息科技有限公司 用于基因组的数据处理方法和装置
US20160246921A1 (en) * 2015-02-25 2016-08-25 Spiral Genetics, Inc. Multi-sample differential variation detection
CN109074429B (zh) * 2016-04-20 2022-03-29 华为技术有限公司 基因组变异检测方法、装置及终端
CN110079589A (zh) * 2019-05-21 2019-08-02 中国农业科学院农业基因组研究所 一种精准获得全基因组范围内结构变异的方法
CN112086131B (zh) * 2020-08-18 2024-05-24 西安医学院 一种重测序数据库中假阳性变异位点的筛选方法
WO2024138733A1 (zh) * 2022-12-30 2024-07-04 深圳华大生命科学研究院 基因组结构变异的检测方法、系统、设备及介质
CN117153248B (zh) * 2023-09-05 2024-05-07 天津极智基因科技有限公司 一种基于泛基因组的基因区变异检测及可视化方法、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004097369A2 (en) * 2003-04-25 2004-11-11 Sequenom, Inc. Fragmentation-based methods and systems for de novo sequencing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004097369A2 (en) * 2003-04-25 2004-11-11 Sequenom, Inc. Fragmentation-based methods and systems for de novo sequencing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GAIL ROSEN: "Metagenome fregment classification using N-mer frequency profiles", 《ADV BIOINFORMATICS》, vol. 2008, 16 November 2008 (2008-11-16) *
HORNER DS: "Bioinformatics approaches forgenomics and post genomics applications of next-generation sequencing", 《BRIEF BIOINFORM》, vol. 11, no. 2, 27 October 2009 (2009-10-27) *
PASZKIEWICZ K: "De novo assembly of short sequnece reads", 《BRIEF BIOINFORM》, vol. 11, no. 520100819, 19 August 2010 (2010-08-19) *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714263A (zh) * 2013-12-10 2014-04-09 深圳先进技术研究院 双向多步De Bruijn图的错误双向边识别与去除方法
CN104751015B (zh) * 2013-12-30 2017-08-29 中国科学院天津工业生物技术研究所 一种基因组测序数据序列组装方法
CN104751015A (zh) * 2013-12-30 2015-07-01 中国科学院天津工业生物技术研究所 一种基因组测序数据序列组装方法
WO2015149719A1 (zh) * 2014-04-04 2015-10-08 深圳华大基因科技服务有限公司 杂合基因组处理方法
CN106715711A (zh) * 2014-07-04 2017-05-24 深圳华大基因股份有限公司 确定探针序列的方法和基因组结构变异的检测方法
CN105483244B (zh) * 2015-12-28 2019-10-22 武汉菲沙基因信息有限公司 一种基于超长基因组的变异检测方法及检测系统
CN105483244A (zh) * 2015-12-28 2016-04-13 武汉菲沙基因信息有限公司 一种基于超长基因组的变异检测算法及检测系统
CN109416928A (zh) * 2016-06-07 2019-03-01 伊路米纳有限公司 用于进行二级和/或三级处理的生物信息学系统、设备和方法
CN109416928B (zh) * 2016-06-07 2024-02-06 伊路米纳有限公司 用于进行二级和/或三级处理的生物信息学系统、设备和方法
CN110462063A (zh) * 2017-05-23 2019-11-15 深圳华大生命科学研究院 一种基于测序数据的变异检测方法、装置和存储介质
WO2018214010A1 (zh) * 2017-05-23 2018-11-29 深圳华大基因研究院 一种基于测序数据的变异检测方法、装置和存储介质
CN110021359B (zh) * 2017-07-24 2021-05-04 深圳华大基因科技服务有限公司 一种二代和三代序列联合组装结果去冗余的方法和装置
CN110021359A (zh) * 2017-07-24 2019-07-16 深圳华大基因科技服务有限公司 一种二代序列和三代序列联合组装结果去冗余的方法和装置
CN110349629B (zh) * 2019-06-20 2021-08-06 湖南赛哲医学检验所有限公司 一种利用宏基因组或宏转录组检测微生物的分析方法
CN110349629A (zh) * 2019-06-20 2019-10-18 广州赛哲生物科技股份有限公司 一种利用宏基因组或宏转录组检测微生物的分析方法
CN111724858A (zh) * 2020-05-14 2020-09-29 东北林业大学 利用软件运行基因组序列比对修补gap的方法
CN111724858B (zh) * 2020-05-14 2024-06-07 东北林业大学 利用软件运行基因组序列比对修补gap的方法
CN111863135A (zh) * 2020-07-15 2020-10-30 西安交通大学 一种假阳性结构变异过滤方法、存储介质及计算设备
CN112289376A (zh) * 2020-10-26 2021-01-29 深圳基因家科技有限公司 一种检测体细胞突变的方法及装置
CN112289376B (zh) * 2020-10-26 2021-07-06 北京吉因加医学检验实验室有限公司 一种检测体细胞突变的方法及装置
CN112599193A (zh) * 2021-03-02 2021-04-02 北京橡鑫生物科技有限公司 结构变异检测模型、其构建方法和装置
CN115602244A (zh) * 2022-10-24 2023-01-13 哈尔滨工业大学(Cn) 一种基于序列比对骨架的基因组变异检测方法

Also Published As

Publication number Publication date
CN103080333B (zh) 2015-06-24
WO2012034251A2 (zh) 2012-03-22

Similar Documents

Publication Publication Date Title
CN103080333A (zh) 一种基因组结构性变异检测方法和系统
US11371074B2 (en) Method and system for determining copy number variation
Pavy et al. Evaluation of gene prediction software using a genomic data set: application to Arabidopsis thaliana sequences
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
US10964408B2 (en) Method, computer-accessible medium and system for base-calling and alignment
CN113366122B (zh) 游离dna末端特征
EP3822975A1 (en) Variant annotation, analysis and selection tool
CN113496760B (zh) 基于第三代测序的多倍体基因组组装方法和装置
Scheunert et al. Can we use it? On the utility of de novo and reference-based assembly of Nanopore data for plant plastome sequencing
CN104657628A (zh) 基于Proton的转录组测序数据的比较分析方法和系统
WO2017143585A1 (zh) 对分隔长片段序列进行组装的方法和装置
Wildschutte et al. Discovery and characterization of Alu repeat sequences via precise local read assembly
Wang et al. Genomic dissection of small RNA s in wild rice (Oryza rufipogon): lessons for rice domestication
CN105950707A (zh) 一种确定核酸序列的方法及系统
Konhar et al. The complete chloroplast genome of Dendrobium nobile, an endangered medicinal orchid from north-east India and its comparison with related Dendrobium species
Pereira et al. RNA‐seq: applications and best practices
CN103270175A (zh) 检测转基因外源片段插入位点的方法和系统
Holtgräwe et al. A partially phase-separated genome sequence assembly of the Vitis rootstock ‘Börner’(Vitis riparia× Vitis cinerea) and its exploitation for marker development and targeted mapping
US20200035330A1 (en) Identification of Traits Associated with DNA Samples Using Epigenetic-Based Patterns Detected Via Massively Parallel Sequencing
CN112017731B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112086128B (zh) 一种适用于Sequel测序的三代全长转录组测序结果分析方法
CN103509800B (zh) 常染色体隐性非综合征型耳聋致病基因
CN109321646A (zh) 基于ngs读段与参考序列比对的虚拟pcr方法
Sudigyo et al. Bioinformatics pathway analysis pipeline for NGS transcriptome profile data on nasopharyngeal carcinoma
Tongnueasuk et al. TAE-ML: a random forest model for detecting RNA editing sites

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130423

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130423

Address after: 518083 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Applicant after: BGI Technology Solutions Co., Ltd.

Address before: North Road No. 146, building 11F-3 Industrial Zone in Yantian District of Shenzhen city of Guangdong Province in 518083

Applicant before: BGI-Shenzhen Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant