CN111564181B - 一种基于二代和三代ont技术进行宏基因组组装方法 - Google Patents

一种基于二代和三代ont技术进行宏基因组组装方法 Download PDF

Info

Publication number
CN111564181B
CN111564181B CN202010255667.1A CN202010255667A CN111564181B CN 111564181 B CN111564181 B CN 111564181B CN 202010255667 A CN202010255667 A CN 202010255667A CN 111564181 B CN111564181 B CN 111564181B
Authority
CN
China
Prior art keywords
generation
reads
assembly
data
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010255667.1A
Other languages
English (en)
Other versions
CN111564181A (zh
Inventor
郑洪坤
龚雪情
王凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Biomarker Technologies Co ltd
Original Assignee
Beijing Biomarker Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Biomarker Technologies Co ltd filed Critical Beijing Biomarker Technologies Co ltd
Priority to CN202010255667.1A priority Critical patent/CN111564181B/zh
Publication of CN111564181A publication Critical patent/CN111564181A/zh
Application granted granted Critical
Publication of CN111564181B publication Critical patent/CN111564181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明实施例提供一种基于二代和三代ONT技术进行宏基因组组装方法,方法包括:利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap;根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据;利用三代数据对所述组装后的数据进行自身纠错;利用二代测序继续进行纠错,得到最终的组装结果。本发明实施例先利用ONT三代测序的reads进行自身比对,找到数据间的overlap进行组装,组装后利用三代数据进行自身纠错,之后再利用二代测序继续进行纠错,从而提高组装结果的准确性。

Description

一种基于二代和三代ONT技术进行宏基因组组装方法
技术领域
本发明属于生物学技术领域,尤其涉及一种基于二代和三代ONT技术进行宏基因组组装方法。
背景技术
宏基因组学避开纯培养技术探知微生物的多样性及其功能,为我们提供了一种发现新基因、开发新的微生物活性物质和研究微生物群落结构及其功能的新技术。二代测序具有高质量的数据、较低的样品需求以及简单的操作流程等优点,但是读长短,扩增存在偏好性,为组装带来了很大的挑战。三代ONT测序实现了读长长,同时也降低了测序成本,但测序不够精准,三代ONT与二代结合将很大程度提高组装长度。
发明内容
为克服上述现有问题或者至少部分地解决上述问题,本发明实施例提供一种基于二代和三代ONT技术进行宏基因组组装方法。
本发明实施例提供了一种基于二代和三代ONT技术进行宏基因组组装方法,包括:
利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap;
根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据;
利用三代数据对所述组装后的数据进行自身纠错;
利用二代测序继续进行纠错,得到最终的组装结果。
在上述技术方案的基础上,本发明实施例还可以做如下改进。
可选的,所述利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap包括:
利用minimap2软件通过将测序数据分成多个k长度的kmer组;
采用minimizers方法从多个相邻的kmers组里挑选出z值最小的两个kmer组;
如果两个kmer组序列间具有overlap重叠部分,则这两个序列为具有相同的代表性kmer;
通过使用单链聚类的方法使具有共线性的minimizers为一组kmer;
通过求解最长递增序列问题得到最大的共线性minimizers子集,即minimap的map结果。
可选的,所述根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据包括:
利用miniasm-master软件通过检查read之间的映射关系,并去除接头和嵌合体;
基于与其他所有reads之间满足预设条件映射关系的每一条read,计算所述read的每一个碱基覆盖度,选择覆盖度不小于3的最长区域;
修剪过reads后,通过分析存在overlap的两条序列之间的map关系构建组装图;
利用miniasm方法去除transitive edges,修剪包含少于4个reads的unitigs,弹出小气泡;
将相邻的多个组装图串联合并成一个unitig,所述该unitig为多个相邻的可合并的组装图中的最大路径。
可选的,所述与其他所有reads之间满足预设条件映射关系的每一条read为长度大于2K,在相匹配的minimizers上非overlap区域长度大于100的read。
可选的,所述利用三代数据对所述组装后的数据进行自身纠错包括:
通过minimap软件找到原始三代reads和初步组装出的unitigs的映射关系;
通过Racon软件加载原始三代的reads,基于初步组装后的contigs和minimap比对后的overlap信息,进行简单过滤;
将保留下来的reads分到主干序列中没有overlap的窗口里的chunks中,进行快速的基于编辑距离的比对;
每个窗口构建一个POA图并调用所述窗口的consensus。;
通过将每个窗口的consensus拼接起来,从而得到最终的consensus。
可选的,所述基于初步组装后的contigs和minimap比对后的overlap信息,进行简单过滤包括:
每条read只保留一个overlap,且去除错误率高的overlap。
可选的,所述利用二代测序继续进行纠错,得到最终的组装结果包括:通过Bwa比对二代reads与三代reads校正后的组装结果,通过排序、合并和标记重复,建立索引得出比对结果,利用pilon软件根据比对结果对组装结果进行polish,得到最终的组装结果。
可选的,利用二代reads对三代reads矫正后的组装结果校正20次。
本发明实施例提供一种先利用ONT三代测序的reads进行自身比对,找到数据间的overlap进行组装,组装后利用三代数据进行自身纠错,之后在利用二代测序继续进行纠错,从而提高组装结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于二代和三代ONT技术进行宏基因组组装方法整体流程示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在本发明的一个实施例中提供一种基于二代和三代ONT技术进行宏基因组组装方法,图1为本发明实施例提供的基于二代和三代ONT技术进行宏基因组组装方法整体流程示意图,该方法包括:
S1,利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap;
S2,根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据;
S3,利用三代数据对所述组装后的数据进行自身纠错;
S4,利用二代测序继续进行纠错,得到最终的组装结果。
作为一个可选的实施例,所述利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap包括:
作为一个可选的实施例,利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap包括:
利用minimap2(v2.11)软件通过将测序数据分成多个k长度的kmer组,利用minimizers方法从多个相邻的kmers组里挑选出z值最小的kmers组作为具有代表性的kmer组,如果两个kmer组序列间具有overlap重叠部分,则这两个序列为具有相同的代表性kmer组。通过使用单链聚类的方法得到具有共线性的minimizers;通过求解最长递增序列问题得到最大的共线性子集,即minimap的map结果,也即找到不同数据间的重叠部分overlap。
作为一个可选的实施例,所述根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据包括:
利用miniasm-master(v0.2-r168-dirty)软件通过检查read之间的映射关系,并进行去除接头和嵌合体等处理。基于与其他所有reads之间较好的映射关系每一条read,其中,当read长度大于2K,且在相匹配的minimizers上非overlap区域长度大于100时,则该read与其他所有reads之间较好的映射关系。
对于与其他的所有reads之间具有较好映射关系的每一套read,计算每一条read的每一个碱基覆盖度,选择覆盖度不小于3的最长区域;对于修剪过的reads,通过分析两条序列之间的map关系(两个reads之间存在overlap,一条read包含另一条)构建组装图(assembly graph)。之后利用miniasm方法去除transitive edges,修剪包含少于4个reads的unitigs(tiipinh unitigs),弹出小气泡。在不影响原始组装图的连接性的情况下,将相邻的多个组装图串联合并成一个unitig(该unitig是多个相邻的可以明确合并的组装图中的最大路径),即可得到组装后的数据。
作为一个可选的实施例,利用三代数据对所述组装后的数据进行自身纠错包括:
通过minimap软件找到原始三代reads和初步组装出的unitigs的映射关系,利用Racon(v1.2.1)软件加载原始三代的reads,基于初步组装后的contigs和minimap比对后的overlap信息,先进行简单的过滤过滤方法为每条read只保留一个overlap且去除错误率高的overlap。将保留下来的reads分到主干序列中没有overlap的窗口里的chunks中,进行一个快速的基于编辑距离的比对。然后每个窗口构建一个POA图(POA graph)并调用(calling)这个窗口的consensus。最后通过将每个窗口的consensus拼接起来,从而得到最终的consensus,得到纠错后的数据。
作为一个可选的实施例,利用二代测序继续进行纠错,得到最终的组装结果包括:
利用Bwa比对二代reads与三代reads校正后的组装结果,通过排序、合并和标记重复,建立索引得出比对结果,利用pilon软件根据比对结果对组装结果进行polish,得到最终的组装结果。其中,利用二代reads对三代reads矫正后的组装结果校正20次,从而达到去除大量SNP和Indel效果,去除比例高达99.9%。
下面通过两个具体实施例来说明本发明实施例提供的基于二代和三代ONT技术进行宏基因组组装方法,具体如下。
实施例1,其中,表1为二代组装和三代组装后的数据
表1
表2为对表1(组装后的数据)中的数据进行二代矫正前和矫正后的数据
表2
snp num indel num
二代矫正前 113004 64346
二代矫正后 15 1
实施例2,其中,表3为二代组装和三代组装后的数据
表3
表4为对表3(组装后的数据)中的数据进行二代矫正前和矫正后的数据
表4
snp num indel num
二代矫正前 193001 117962
二代矫正后 35 3
本发明实施例提供的一种基于二代和三代ONT技术进行宏基因组组装方法,先利用ONT三代测序的reads进行自身比对,找到数据间的overlap进行组装,组装后利用三代数据进行自身纠错,之后在利用二代测序继续进行纠错,从而提高组装结果的准确性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于二代和三代ONT技术进行宏基因组组装方法,其特征在于,包括:
利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap;
根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据;
利用三代数据对所述组装后的数据进行自身纠错;
利用二代测序继续进行纠错,得到最终的组装结果;
所述利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap包括:
利用minimap2软件通过将测序数据分成多个k长度的kmer组;
采用minimizers方法从多个相邻的kmers组里挑选出z值最小的两个kmer组;
如果两个kmer组序列间具有overlap重叠部分,则这两个序列为具有相同的代表性kmer;
通过使用单链聚类的方法使具有共线性的minimizers为一组kmer;
通过求解最长递增序列问题得到最大的共线性minimizers子集,即minimap的map结果;
所述根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据包括:
利用miniasm-master软件通过检查read之间的映射关系,并去除接头和嵌合体;
基于与其他所有reads之间满足预设条件映射关系的每一条read,计算所述read的每一个碱基覆盖度,选择覆盖度不小于3的最长区域;
修剪过reads后,通过分析存在overlap的两条序列之间的map关系构建组装图;
利用miniasm方法去除transitive edges,修剪包含少于4个reads的unitigs,弹出小气泡;
将相邻的多个组装图串联合并成一个unitig,所述该unitig为多个相邻的可合并的组装图中的最大路径。
2.根据权利要求1所述的组装方法,其特征在于,所述与其他所有reads之间满足预设条件映射关系的每一条read为长度大于2K,在相匹配的minimizers上非overlap区域长度大于100的read。
3.根据权利要求1所述的组装方法,其特征在于,所述利用三代数据对所述组装后的数据进行自身纠错包括:
通过minimap软件找到原始三代reads和初步组装出的unitigs的映射关系;
通过Racon软件加载原始三代的reads,基于初步组装后的contigs和minimap比对后的overlap信息,进行简单过滤;
将保留下来的reads分到主干序列中没有overlap的窗口里的chunks中,进行快速的基于编辑距离的比对;
每个窗口构建一个POA图并调用所述窗口的consensus;
通过将每个窗口的consensus拼接起来,从而得到最终的consensus。
4.根据权利要求3所述的组装方法,其特征在于,所述基于初步组装后的contigs和minimap比对后的overlap信息,进行简单过滤包括:
每条read只保留一个overlap,且去除错误率高的overlap。
5.根据权利要求1所述的组装方法,其特征在于,所述利用二代测序继续进行纠错,得到最终的组装结果包括:
通过Bwa比对二代reads与三代reads校正后的组装结果,通过排序、合并和标记重复,建立索引得出比对结果,利用pilon软件根据比对结果对组装结果进行polish,得到最终的组装结果。
6.根据权利要求5所述的组装方法,其特征在于,利用二代reads对三代reads矫正后的组装结果校正20次。
CN202010255667.1A 2020-04-02 2020-04-02 一种基于二代和三代ont技术进行宏基因组组装方法 Active CN111564181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010255667.1A CN111564181B (zh) 2020-04-02 2020-04-02 一种基于二代和三代ont技术进行宏基因组组装方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010255667.1A CN111564181B (zh) 2020-04-02 2020-04-02 一种基于二代和三代ont技术进行宏基因组组装方法

Publications (2)

Publication Number Publication Date
CN111564181A CN111564181A (zh) 2020-08-21
CN111564181B true CN111564181B (zh) 2024-06-04

Family

ID=72071396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010255667.1A Active CN111564181B (zh) 2020-04-02 2020-04-02 一种基于二代和三代ont技术进行宏基因组组装方法

Country Status (1)

Country Link
CN (1) CN111564181B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133368B (zh) * 2020-10-13 2024-02-23 南开大学 一种基于三代测序技术的宏基因组测序数据的自动化分析方法
CN111968706B (zh) * 2020-10-20 2021-02-12 安诺优达基因科技(北京)有限公司 获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法
CN113611359B (zh) * 2021-08-13 2022-08-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982252A (zh) * 2012-12-05 2013-03-20 北京诺禾致源生物信息科技有限公司 一种高杂合二倍体基因组支架序列组装策略
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN106021997A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法
CN107784198A (zh) * 2016-08-26 2018-03-09 深圳华大基因科技服务有限公司 一种二代序列和三代单分子实时测序序列联合组装方法和系统
CN107895104A (zh) * 2017-11-13 2018-04-10 深圳华大基因科技服务有限公司 评估和校验三代测序的序列组装结果的方法与装置
CN108573127A (zh) * 2017-03-14 2018-09-25 深圳华大基因科技服务有限公司 一种核酸第三代测序原始数据的处理方法及其应用
CN108629156A (zh) * 2017-03-21 2018-10-09 深圳华大基因科技服务有限公司 三代测序数据纠错的方法、装置和计算机可读存储介质
CN110544510A (zh) * 2019-05-31 2019-12-06 中南大学 基于邻接代数模型及质量等级评估的contig集成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982252A (zh) * 2012-12-05 2013-03-20 北京诺禾致源生物信息科技有限公司 一种高杂合二倍体基因组支架序列组装策略
CN105303068A (zh) * 2015-10-27 2016-02-03 华中农业大学 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
CN106021997A (zh) * 2016-05-17 2016-10-12 杭州和壹基因科技有限公司 一种三代PacBio测序数据的比对方法
CN107784198A (zh) * 2016-08-26 2018-03-09 深圳华大基因科技服务有限公司 一种二代序列和三代单分子实时测序序列联合组装方法和系统
CN108573127A (zh) * 2017-03-14 2018-09-25 深圳华大基因科技服务有限公司 一种核酸第三代测序原始数据的处理方法及其应用
CN108629156A (zh) * 2017-03-21 2018-10-09 深圳华大基因科技服务有限公司 三代测序数据纠错的方法、装置和计算机可读存储介质
CN107895104A (zh) * 2017-11-13 2018-04-10 深圳华大基因科技服务有限公司 评估和校验三代测序的序列组装结果的方法与装置
CN110544510A (zh) * 2019-05-31 2019-12-06 中南大学 基于邻接代数模型及质量等级评估的contig集成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
三代测序PacBio在转录组研究中的应用;钟伟民;张兴坦;赵茜;马东娜;唐海宝;;福建农林大学学报(自然科学版);20180918(05);全文 *
基于本体参考数据的生物医学本体融合模型研究;曹春萍;张政;;计算机应用与软件;20181012(10);全文 *
复杂基因组测序技术研究进展;高胜寒;禹海英;吴双阳;王森;耿佳宁;骆迎峰;胡松年;;遗传;20181106(11);全文 *
桑氏链霉菌KJ40全基因组测序及分析;张博阳;朱天辉;韩珊;王莹;李姝江;谯天敏;;微生物学通报;20171016(04);全文 *
高通量测序中序列拼接算法的研究进展;周卫星;石海鹤;;计算机科学;20190515(05);全文 *

Also Published As

Publication number Publication date
CN111564181A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111564181B (zh) 一种基于二代和三代ont技术进行宏基因组组装方法
Salmela et al. Accurate self-correction of errors in long reads using de Bruijn graphs
Navarro et al. ST Pipeline: an automated pipeline for spatial mapping of unique transcripts
Dentinger et al. Comparing COI and ITS as DNA barcode markers for mushrooms and allies (Agaricomycotina)
CN104039982B (zh) 一种分析微生物群落组成的方法和装置
CN108573127B (zh) 一种核酸第三代测序原始数据的处理方法及其应用
Wang et al. GWAS discovery of candidate genes for yield-related traits in peanut and support from earlier QTL mapping studies
US20120197533A1 (en) Identifying rearrangements in a sequenced genome
US20120095697A1 (en) Methods for estimating genome-wide copy number variations
CN108595915B (zh) 一种基于dna变异检测的三代数据校正方法
CN110648721B (zh) 针对外显子捕获技术检测拷贝数变异的方法及装置
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
EP3616204A1 (en) Process for aligning targeted nucleic acid sequencing data
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
Nugent et al. coil: an R package for cytochrome c oxidase I (COI) DNA barcode data cleaning, translation, and error evaluation
CN112687339B (zh) 一种统计血浆dna片段测序数据中序列错误的方法和装置
CN114023381B (zh) 一种肺癌mrd融合基因判定方法、装置、存储介质及设备
CN107229842A (zh) 一种基于局部图的三代测序序列校正方法
Pan et al. Novo&Stitch: accurate reconciliation of genome assemblies via optical maps
CN115261378A (zh) 去除细胞器基因组污染序列的染色体组装方法及装置
Quinones-Valdez et al. scAllele: A versatile tool for the detection and analysis of variants in scRNA-seq
Wang et al. BAUM: improving genome assembly by adaptive unique mapping and local overlap-layout-consensus approach
Denti et al. Shark: fishing relevant reads in an RNA-Seq sample
Tang et al. MAC: merging assemblies by using adjacency algebraic model and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant