CN107563151A - 一种PacBio测序数据组装得到的基因组序列的纠错方法 - Google Patents

一种PacBio测序数据组装得到的基因组序列的纠错方法 Download PDF

Info

Publication number
CN107563151A
CN107563151A CN201710838912.XA CN201710838912A CN107563151A CN 107563151 A CN107563151 A CN 107563151A CN 201710838912 A CN201710838912 A CN 201710838912A CN 107563151 A CN107563151 A CN 107563151A
Authority
CN
China
Prior art keywords
sequencing datas
mistake
error correction
pacbio
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710838912.XA
Other languages
English (en)
Other versions
CN107563151B (zh
Inventor
郝美荣
詹东亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU HEYI GENE TECHNOLOGY Co Ltd filed Critical HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority to CN201710838912.XA priority Critical patent/CN107563151B/zh
Publication of CN107563151A publication Critical patent/CN107563151A/zh
Application granted granted Critical
Publication of CN107563151B publication Critical patent/CN107563151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种PacBio测序数据组装后序列的纠错方法,它包括以下步骤:步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;步骤二:提取可能存在错误的位置和对应位置的碱基类型信息;步骤三:提取可能存在错误的位置的碱基类型的覆盖深度信息;步骤四:根据可能存在错误的位置的不同碱基类型覆盖深度比较,进行基因组序列替换纠,得到新的基因组序列。本发明移除了PacBio测序数据组装序列后单碱基错误和碱基插入缺失错误,有效的提高了组装序列的准确度。

Description

一种PacBio测序数据组装得到的基因组序列的纠错方法
技术领域
本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法。
背景技术
PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的数据,在业内叫PacBio数据或PacBio测序数据;Illumina是一家美国的测序仪公司,提供第二代测序技术测序平台,他们的测序仪产生的数据,在业内叫Illumina 数据或Illumina测序数据。
PacBio第三代测序技术具有超长读长、无PCR扩增、极小GC偏向等优势,越来越多的基因组是采用三代PacBio测序数据组装。但PacBio单次测序的错误率约为 15%,目前主要采用组装前对测序数据进行纠错,组装后序列不再纠错。然而,组装后序列还存在很多错误,包括单碱基错误和碱基插入缺失错误。单碱基错误和碱基插入缺失错误都对后续分析造成很大影响,比如,如果这种错误存在于基因区域,可能导致基因预测不出来或预测出错误基因;如果错误存在于重复序列区域,可能导致序列分化时间估算错误等。
发明内容
本发明的目的是解决以上提出的问题,提供一种PacBio测序数据组装后序列的纠错方法,最大程度的减少组装序列的错误。
本发明是通过以下技术方案实现的:
本发明为一种PacBio测序数据组装得到的基因组序列的纠错方法,包括以下步骤:
步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;
步骤二:根据步骤一的比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;
步骤三:根据步骤一的比对结果文件提取可能存在错误的位置的碱基类型的覆盖深度信息;
步骤四:根据可能存在错误的位置的原碱基类型的覆盖深度与对应位置其他类型碱基的覆盖深度的比值小于0.5,对PacBio测序数据组装得到的基因组序列该位置的碱基用该位置覆盖深度最大的其他类型碱基进行替换纠错,得到新的基因组序列,反之就不替换纠错。
作为优化,所述步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。
作为优化,所述步骤二包含质控,所述质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的3%或者reads 不能完全比对上的比对信息。
作为优化,所述步骤三包含过滤,所述的过滤所述的过滤是在提取可能存在错误的位置的碱基类型的覆盖深度信息的同时去除覆盖深度低于3的错误位置信息。
作为优化,所述步骤二和步骤三中的错误的位置的碱基类型,是指单碱基错误和小于6bp的碱基插入缺失错误。
作为优化,所述步骤一中的Illumina测序数据,采用的是全基因组鸟枪法小片段构建的文库测序的数据。
作为优化,所述步骤一中的Illumina测序数据,由Hiseq2500测序仪测序而得,所述步骤一中的PacBio测序数据,由PacBio RSII测序仪测序而得。
作为优化,所述步骤一中采用的比对软件为BWA。
本发明的有益效果如下:
本发明的方法实现了PacBio测序数据组装后序列的纠错,PacBio测序数据组装序列后主要的错误(包括单碱基错误和碱基插入缺失错误)被移除,有效的提高了组装序列的准确度;因为组装序列是后续分析的基础,在后续分析中,有助于提高基因的结构预测准确度,重复序列预测的准确度,序列比较分析的准确性,明显降低了后续研究的错误风险。
附图说明
图1:本发明的主要流程示意图。
具体实施方式
下面结合附图和例子对本发明的实施例进行进一步详细说明:
本实施例为一种PacBio测序数据组装后序列的纠错方法,包括以下步骤:
步骤一:使用比对软件BWA将某一物种(比如白菜)Illumina测序数据比对到同一物种同一样品PacBio测序数据组装得到的基因组序列上。
步骤二:根据步骤一比对结果文件的第3列比对上序列名称信息,第4列的比对位置信息,第6列标记的插入缺失信息和第13列标记的比对不一致碱基信息,提取可能存在错误的位置和对应位置的碱基类型信息,比对结果文件信息格式为一般行业人员所熟知的;例如,比对结果文件第3列为Chr1,第4列为1120,第 6列为125M(完全比对上),第13列为42C82,则提取可能存在错误的位置为Chr1 的第1162碱基位置,对应位置的碱基类型信息为“C”。
步骤三:根据步骤一比对结果文件的第3列比对上序列名称信息,第4列的比对位置信息,第6列标记的插入缺失信息和第13列标记的比对不一致碱基信息,在整个比对结果文件中统计可能存在错误的位置的碱基类型的覆盖深度信息,比对结果文件信息格式为一般行业人员所熟知的;例如,统计比对序列Chr1的第1162 碱基为C的共有20条reads,没有错误的比对到该位置的reads为0条。
步骤四:根据步骤三的统计,得到比对序列Chr1的第1162碱基为C的共有20条reads,没有错误的比对到该位置的reads为0条,0/20=0,而0<0.5,则PacBio 测序数据组装得到的基因组序列的Chr1序列第1162碱基替换成“C”。
步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。
步骤二包含质控,质控在步骤一之后,步骤二提取可能存在错误的位置和对应位置的碱基类型信息之前,质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的3%或者reads不能完全比对上的比对信息。
步骤三包含过滤,过滤与提取可能存在错误的位置的碱基类型的覆盖深度信息同时进行,过滤是在提取可能存在错误的位置的碱基类型的覆盖深度信息的同时去除覆盖深度低于3的错误位置信息。
步骤二和步骤三中的错误的位置的碱基类型,是指单碱基错误和小于6bp的碱基插入缺失错误。
步骤一中的Illumina测序数据,采用的是全基因组鸟枪法小片段构建的文库测序的数据。
步骤一中的Illumina测序数据,使用的是Hiseq2500测序仪测序而得,所述步骤一中的PacBio测序数据,使用的是PacBio RSII测序仪测序而得。
PacBio是一家测序仪公司,他们的测序仪产生的数据,称为PacBio测序数据。
Illumina是一家美国的测序仪公司,他们的测序仪产生的数据,称为Illumina测序数据。
BWA是对比软件的名称,无中文名称,在行业内直接用英文表达。
以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,包括以下步骤:
步骤一:使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上;
步骤二:根据步骤一比对结果文件提取可能存在错误的位置和对应位置的碱基类型信息;
步骤三:根据步骤一比对结果文件提取可能存在错误的位置的碱基类型的覆盖深度信息;
步骤四:如果可能存在错误的位置的原碱基类型的覆盖深度与对应位置其他类型碱基的覆盖深度的比值小于0.5,则对PacBio测序数据组装得到的基因组序列该位置的碱基用该位置覆盖深度最大的其他类型碱基进行替换纠错,反之就不替换纠错。
2.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤一使用的Illumina测序数据样本DNA,与PacBio测序数据样本DNA来自同一样本的DNA。
3.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤二包含质控,所述质控是在提取出可能存在错误的位置和对应位置的碱基类型信息前去除reads比对错误数大于read长度的3%或者reads不能完全比对上的比对信息。
4.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤三包含过滤,所述过滤是在提取可能存在错误的位置的碱基类型的覆盖深度信息的同时去除覆盖深度低于3的错误位置信息。
5.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤二和步骤三中的错误的位置的碱基类型,是指单碱基错误和小于6bp的碱基插入缺失错误。
6.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤一中的Illumina测序数据,采用的是全基因组鸟枪法小片段构建的文库测序的数据。
7.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤一中的Illumina测序数据,由Hiseq2500测序仪测序而得,所述步骤一中的PacBio测序数据,由PacBio RSII测序仪测序而得。
8.根据权利要求1所述的PacBio测序数据组装得到的基因组序列的纠错方法,其特征在于,所述步骤一中采用的比对软件为BWA。
CN201710838912.XA 2017-09-18 2017-09-18 一种PacBio测序数据组装得到的基因组序列的纠错方法 Active CN107563151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710838912.XA CN107563151B (zh) 2017-09-18 2017-09-18 一种PacBio测序数据组装得到的基因组序列的纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710838912.XA CN107563151B (zh) 2017-09-18 2017-09-18 一种PacBio测序数据组装得到的基因组序列的纠错方法

Publications (2)

Publication Number Publication Date
CN107563151A true CN107563151A (zh) 2018-01-09
CN107563151B CN107563151B (zh) 2020-09-22

Family

ID=60981082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710838912.XA Active CN107563151B (zh) 2017-09-18 2017-09-18 一种PacBio测序数据组装得到的基因组序列的纠错方法

Country Status (1)

Country Link
CN (1) CN107563151B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197434A (zh) * 2018-01-16 2018-06-22 深圳市泰康吉音生物科技研发服务有限公司 去除宏基因组测序数据中人源基因序列的方法
CN108460248A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN114724632A (zh) * 2022-04-21 2022-07-08 内江师范学院 评估基因组组装完整度方法及装置
CN114937475A (zh) * 2022-04-12 2022-08-23 桂林电子科技大学 一种PacBio测序数据纠错结果的自动化评估方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和系统
US20150120210A1 (en) * 2011-12-29 2015-04-30 Bgi Tech Solutions Co., Ltd. Method and device for labelling single nucleotide polymorphism sites in genome
CN106021986A (zh) * 2016-05-24 2016-10-12 人和未来生物科技(长沙)有限公司 超低频突变分子一致性序列简并算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150120210A1 (en) * 2011-12-29 2015-04-30 Bgi Tech Solutions Co., Ltd. Method and device for labelling single nucleotide polymorphism sites in genome
CN104531848A (zh) * 2014-12-11 2015-04-22 杭州和壹基因科技有限公司 一种组装基因组序列的方法和系统
CN106021986A (zh) * 2016-05-24 2016-10-12 人和未来生物科技(长沙)有限公司 超低频突变分子一致性序列简并算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIN FAI AU 等: "Improving PacBio Long Read Accuracy by Short Read Alignment", 《PLOS ONE》 *
蒋涛 等: "一种结合单张芯片序列捕获和高通量测序技术测序外显子组的方法", 《中国科学:生命科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197434A (zh) * 2018-01-16 2018-06-22 深圳市泰康吉音生物科技研发服务有限公司 去除宏基因组测序数据中人源基因序列的方法
CN108197434B (zh) * 2018-01-16 2020-04-10 深圳市泰康吉音生物科技研发服务有限公司 去除宏基因组测序数据中人源基因序列的方法
CN108460248A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN108460248B (zh) * 2018-03-08 2022-02-22 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN114937475A (zh) * 2022-04-12 2022-08-23 桂林电子科技大学 一种PacBio测序数据纠错结果的自动化评估方法
CN114724632A (zh) * 2022-04-21 2022-07-08 内江师范学院 评估基因组组装完整度方法及装置
CN114724632B (zh) * 2022-04-21 2023-03-21 内江师范学院 评估基因组组装完整度方法及装置

Also Published As

Publication number Publication date
CN107563151B (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN107563151A (zh) 一种PacBio测序数据组装得到的基因组序列的纠错方法
Frøslev et al. Algorithm for post-clustering curation of DNA amplicon data yields reliable biodiversity estimates
Steinegger et al. Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold
Imelfort et al. GroopM: an automated tool for the recovery of population genomes from related metagenomes
EP3169806B1 (en) Systems and methods for detecting structural variants
Heckeberg et al. Systematic relationships of five newly sequenced cervid species
Schwarz et al. Molecular phylogenetics of the exoneurine allodapine bees reveal an ancient and puzzling dispersal from Africa to Australia
JP2000207492A (ja) 手書き漢字を自動的にセグメント分割し、認識するための方法およびシステム
Alexandrou et al. Evolutionary relatedness does not predict competition and co-occurrence in natural or experimental communities of green algae
CN104375665A (zh) 输入法纠错方法及装置
Hellmuth et al. From sequence data including orthologs, paralogs, and xenologs to gene and species trees
US20230151421A1 (en) Method for determining cell clonality
Arendsee et al. phylostratr: A framework for phylostratigraphy
US20230197196A1 (en) Allelotyping Methods for Massively Parallel Sequencing
CN111863127A (zh) 一种构建植物转录因子对靶基因遗传调控网络的方法
CN115631789B (zh) 一种基于泛基因组的群体联合变异检测方法
Loizides et al. Has taxonomic vandalism gone too far? A case study, the rise of the pay-to-publish model and the pitfalls of Morchella systematics
CN111485026B (zh) 一种与绵羊出生重相关的snp位点、应用、分子标记和引物
McGurk et al. Rapid evolution at the Drosophila telomere: transposable element dynamics at an intrinsically unstable locus
CN109858025A (zh) 一种地址标准化语料的分词方法及系统
Liu et al. Forensic STR allele extraction using a machine learning paradigm
JP2013172709A (ja) 塩基配列分析のための参照配列処理システム及び方法
Lu et al. scRNA‐seq data analysis method to improve analysis performance
Valouev et al. Refinement of optical map assemblies
Eckert Seeing the forest for the trees: statistical phylogeography in a changing world.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant