CN115198036A - 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法 - Google Patents
一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法 Download PDFInfo
- Publication number
- CN115198036A CN115198036A CN202211107292.XA CN202211107292A CN115198036A CN 115198036 A CN115198036 A CN 115198036A CN 202211107292 A CN202211107292 A CN 202211107292A CN 115198036 A CN115198036 A CN 115198036A
- Authority
- CN
- China
- Prior art keywords
- sequence
- phage
- database
- genes
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/70—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Virology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请涉及生物信息学领域,公开了一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法。通过将原始纳米孔测序数据与高通量测序数据相结合,设计了质控过滤流水线对两套测序数据分别进行质控和过滤,再在混合组装后的序列中根据噬菌体基因的特征模型鉴定出潜在的噬菌体序列,接着提取数据库中原有的细菌基因组所携带的特殊间隔序列,最后通过与数据库中提取的特殊间隔序列进行比对,挖掘对应关系,预测噬菌体对应的宿主关系。本发明实现了对纳米孔和高通量测序数据中噬菌体序列的有效挖掘与噬菌体宿主的有效预测,具有十分重要的推广应用价值。
Description
技术领域
本申请属于生物信息学技术领域,具体涉及一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法。
背景技术
噬菌体是一种特异性侵染细菌的病毒,一方面,噬菌体具有重要的生态学意义,噬菌体可以通过裂解细菌,调节细菌的种群数量;另一方面,噬菌体具有重要的潜在应用价值,噬菌体可以通过精准控制病原菌的生长,避免抗生素的大量使用带来的广泛耐药性。在污水处理领域,噬菌体也具有控制不利细菌的应用前景。
现有相关技术中,对于噬菌体鉴定和宿主预测,中国专利申请号CN201910506027.0,申请日为2019年6月12日的专利申请文件公开了一种基于高通量测序数据的溶源性噬菌体预测方法,实现了对细菌基因组中的溶源性噬菌体的有效预测。但是该发明一方面并没有考虑游离噬菌体的鉴定和宿主预测方法,另外一方面并没有涉及纳米孔测序数据的噬菌体分析方法。中国专利申请号CN201911110250.X,申请日为2019年11月14日的专利申请文件公开了一种高通量筛选噬菌体宿主谱的方法,只需1人做2天就能完成噬菌体的宿主鉴定。但是该发明一方面主要依赖传统生物培养,而非高通量测序数据,另外一方面该噬菌体宿主鉴定方法仍然耗时较长。中国专利申请号CN202010241653.4,申请日为2020年3月31日的专利申请文件公开了一种细菌中功能性前噬菌体及其位置与序列的检测方法,能够检测一种细菌中功能性前噬菌体及其位置与序列。但是该发明一方面依赖于细菌基因组,而非噬菌体基因组的测序数据,另外一方面也只考虑了高通量测序数据中的噬菌体信息挖掘。
可见,传统的噬菌体鉴定方法依赖生物培养,耗时费力,效率十分低下,难以快速获取环境样本中的噬菌体信息,且很难同时建立噬菌体与多个宿主的侵染关系。此外,随着基因组测序技术的快速发展,第三代测序技术纳米孔测序技术已经逐步在世界上进行推广,而目前针对纳米孔测序数据的噬菌体鉴定和宿主预测方法非常缺乏。
发明内容
本申请提供一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,以解决上述现有技术中的相关问题和缺陷,该方法既能同时满足纳米孔测序数据和高通量测序数据的分析要求,又能准确鉴定测序数据中的噬菌体序列,并预测噬菌体与宿主的对应关系。
本申请的第一方面,提供的基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,从待测DNA样本中获得原始纳米孔测序数据和原始高通量测序数据,随后进行噬菌体鉴定和宿主预测,包括以下步骤:
S1:设置第一质量值过滤参数,去除原始纳米孔测序数据中平均质量值低于第一质量值过滤参数的序列,得到过滤后的纳米孔序列;
S2:将过滤后的纳米孔序列进行长度分析,设置第一序列长度参数,并去除序列长度小于所述第一序列长度参数的短序列,得到质控过滤后的纳米孔长序列;
S3:将原始高通量测序数据中含有接头的序列去除,得到过滤后的高通量测序数据;
S4:将过滤后的高通量测序数据中N含量超过10%的序列去除,设置第二质量值过滤参数,并将去除后的高通量序列中超过50%的碱基质量值低于所述第二质量值过滤参数的序列再去除,得到质控过滤后的高通量短序列;
S5:将质控过滤后的纳米孔长序列和质控过滤后的高通量短序列进行混合组装,拼接出待鉴定的噬菌体序列信息,设置第二序列长度参数,并去除拼接后的序列长度小于所述第二序列长度参数的短序列,得到混合组装后的噬菌体序列;
S6:将混合组装后的噬菌体序列进行基因预测,得到待预测序列的基因特征信息;
S7:将待预测序列的基因特征信息与包含噬菌体基因特征信息的第一类数据库,以及与包含细菌基因特征信息的第二类数据库进行比对,分别获得相应的比对情况数据;
S8:对所述比对情况数据进行汇总和判定;
当待预测序列的基因特征信息中,能与第一类数据库比对上的基因数量所占比例大于等于序列中基因总量的60%时,或者能与第一类数据库比对上的基因数量大于等于能与第二类数据库比对上的基因数量时,或者能与第一类数据库比对上的基因数量所占比例大于等于10%,且能与第二类数据库比对上的基因数量所占比例小于等于40%时,所述待预测序列则被鉴定为噬菌体序列;
S9:下载含有全部细菌基因组序列信息的数据库,并从中提取现有的细菌基因组序列中的特殊间隔序列;
S10:将步骤S8中鉴定出的噬菌体序列与步骤S9中提取的特殊间隔序列进行比对,获得预测的噬菌体宿主信息。
可选的,本方法所述的质量值过滤参数为碱基质量值Q,第一质量值过滤参数为Q7,第二质量值过滤参数为Q5。
可选的,本方法设置第一序列长度参数为1000bp,第二序列长度参数为5000bp。
可选的,步骤S7中,所述第一类数据库为VPF数据库,所述第二类数据库为Pfam数据库、KEGG数据库中的任意一种或两种;步骤S8中,对所述比对情况数据进行汇总和判定,包括:待预测序列的基因特征信息中,若比对上VPF数据库的基因数量大于等于序列中基因总量的60%,则该序列被鉴定为噬菌体序列;或者,若比对上VPF数据库的基因数量大于等于比对上Pfam数据库的基因数量,则该序列被鉴定为噬菌体序列;或者,若比对上VPF数据库的基因数量大于等于序列中基因总量的10%,且比对上Pfam数据库的基因数量小于等于序列中基因总量的40%,且比对上KEGG数据库的基因数量小于等于序列中基因总量的20%,则该序列被鉴定为噬菌体序列。
可选的,步骤S9中,所述含有全部细菌基因组序列信息的数据库为NCBI数据库。
可选的,在步骤S10中,利用Blast软件将步骤S8中鉴定出的噬菌体序列与步骤S9中提取的特殊间隔序列进行比对,比对时使用的参数包括覆盖度90%、一致度97%、错误数1。
本申请的第二方面,提供上述的噬菌体鉴定和宿主预测方法在环境介质样本微生物分析中的应用。
可见,本申请的方法可以同时处理目前最新的第三代纳米孔测序数据和目前流行的第二代高通量测序数据,并能够在不经过生物培养的条件下对噬菌体进行宿主关系的快速准确大规模预测,能够实现对纳米孔和高通量测序数据中噬菌体序列的有效挖掘与噬菌体宿主的有效预测,具有十分重要的推广应用价值。
与现有技术相比,本申请的方法能够取得的有益效果具体包括:
(1)本发明是同时兼容纳米孔测序数据和高通量测序数据进行噬菌体鉴定和宿主预测的方法,纳米孔测序数据有助于鉴定到基因组长度更长、更完整的噬菌体,而高通量测序数据有助于鉴定到基因组准确度更高的噬菌体,兼容两种数据可使鉴定的噬菌体同时拥有上述两种优点。
(2)本发明的噬菌体鉴定和宿主预测方法不仅可以针对前噬菌体基因组的测序数据,也可以用于游离噬菌体基因组的测序数据。适用范围更广阔,鉴定的噬菌体数目更多,构建的噬菌体数据库更加全面。
(3)与传统生物培养鉴定噬菌体宿主的方法相比,本发明可以快速、大规模地从环境样本中鉴定噬菌体,准确预测噬菌体的宿主关系,可将噬菌体鉴定与宿主预测过程大幅缩短,在计算资源允许的情况下,可利用软件工具并行处理同时完成大量环境样本的噬菌体鉴定与宿主预测过程,且宿主预测准确率高。按照NCBI数据库中已知宿主的噬菌体进行测试,宿主预测准确率可达90%以上。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的噬菌体鉴定和宿主预测方法的流程示意图;
图2为本申请实施例的噬菌体鉴定和宿主预测方法的另一流程示意图;
图3为本申请实施例中满足三项条件而被鉴定为噬菌体序列的数量情况分布图;
图4为本申请实施例的宿主预测为硝酸菌的一条噬菌体的基因组排布图;
图5为本申请实施例的宿主预测为硝酸菌的另一条噬菌体的基因组排布图;
图6为本申请实施例的宿主预测为硝酸菌的又一条噬菌体的基因组排布图。
具体实施方式
为了使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和实施例对本申请进行详细说明。
本申请提供一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,对待测样本进行DNA的提取,并从提取的待测DNA样本中获得原始纳米孔测序数据和原始高通量测序数据,然后进行噬菌体鉴定和宿主预测。
本申请的方法步骤主要包括数据质控、噬菌体鉴定以及宿主预测。具体而言,即包括纳米孔和高通量测序数据的高效质控方法、纳米孔和高通量测序数据的快速噬菌体鉴定方法、纳米孔和高通量测序数据的准确噬菌体宿主预测方法。
本方法如图1和图2所示,具体包括以下步骤:
S1:设置第一质量值过滤参数,去除原始纳米孔测序数据中平均质量值低于第一质量值过滤参数的序列,得到过滤后的纳米孔序列。
具体地,步骤S1中,对纳米孔测序数据中的平均质量值进行测序数据的过滤。实际操作时,作为一种实施方式,可以以Q值作为质量值过滤参数,筛除平均质量值低的测序数据。Q值即碱基质量值(quality score,Q-score),在生物物理学中是碱基识别出错概率的整数映射,Q=-10*lgP,其中P为碱基识别出错的概率。Q值是纳米孔测序过程中会自动同步计算的质量值,表示碱基测序错误的概率,Q值越高说明错误率越低,测序准确率就越高;例如在本方法中,所述第一质量值过滤参数可选择Q5~Q7,对应测序正确率为70%~80%。如果Q值偏低,则会对组装效果造成不良影响,因此必须对Q值进行过滤,去除平均质量值低于一定Q值的序列。
S2:将过滤后的纳米孔序列进行长度分析,设置第一序列长度参数,并去除序列长度小于所述第一序列长度参数的短序列,得到质控过滤后的纳米孔长序列。
具体地,针对序列长度进行序列的筛选和过滤,第一序列长度参数的具体值可按照经验或者实际要求进行设定,例如可设置500~1000bp。
S3:将原始高通量测序数据中含有接头的序列去除,得到过滤后的高通量测序数据;
具体地,在本步骤中,接头是测序过程中人为添加的短序列,它的存在会影响后续的组装效果,因此需要去除序列中的接头片段。
S4:将过滤后的高通量测序数据中N含量超过10%的序列去除,设置第二质量值过滤参数,并将去除后的高通量序列中超过50%的碱基质量值低于所述第二质量值过滤参数的序列再去除,得到质控过滤后的高通量短序列。
具体地,和步骤S1类似,所述第二质量过滤参数可以以碱基质量值Q值计,例如设置为Q5~Q7,其中Q5~Q7换算成测序正确率约为70%~80%。
S5:将质控过滤后的纳米孔长序列和质控过滤后的高通量短序列进行混合组装,拼接出待鉴定的噬菌体序列信息,设置第二序列长度参数,并去除拼接后的序列长度小于所述第二序列长度参数的短序列,得到混合组装后的噬菌体序列。
具体地,本步骤中针对混合组装后的序列进行长度方面的筛选和过滤,第二序列长度参数的具体值可按照经验或者实际要求进行设定,例如可设置为5000~10000bp。
S6:将混合组装后的噬菌体序列进行基因预测,得到待预测序列的基因特征信息。
S7:将待预测序列的基因特征信息与包含噬菌体基因特征信息的第一类数据库,以及与包含细菌基因特征信息的第二类数据库进行比对,分别获得相应的比对情况数据。
具体地,所述第一类数据库为包含噬菌体基因特征信息的数据库,待预测序列的基因特征信息和该类数据库越吻合,表示待预测序列越有可能是噬菌体;反之,第二类数据库包含的是细菌基因特征信息,待预测序列的基因特征信息和该类数据库越吻合,表示待预测序列越有可能是细菌而非噬菌体。每类数据库可有多个,可从现有的各个成熟应用的数据库中进行选择。
S8:对所述比对情况数据进行汇总和判定;
当待预测序列的基因特征信息中,能与第一类数据库比对上的基因数量所占比例大于等于序列中基因总量的60%时,或者能与第一类数据库比对得上的基因数量大于等于能与第二类数据库比对上的基因数量时,或者能与第一类数据库比对得上的基因数量所占比例大于等于10%,且能与第二类数据库比对上的基因数量所占比例小于等于40%时,所述待预测序列则被鉴定为噬菌体序列。
具体地,本申请设置三项条件,满足上述三项条件其中之一的序列,即被鉴定为噬菌体序列。第一项条件表示:如果待测序列有大于等于60%的基因特征信息能与第一类数据库(即包含噬菌体基因特征信息的数据库)比对得上,则将其视为噬菌体序列。同样地,第二项条件是指如果待测序列中能与包含噬菌体基因特征信息的数据库比对得上的基因数量大于等于能与包含细菌基因特征信息的数据库比对上的基因数量时,则将其视为噬菌体序列。依次类推,第三项条件表示,如果待测序列有大于等于10%的基因特征信息能与第一类数据库(即包含噬菌体基因特征信息的数据库)比对得上,而且只有小于等于40%的基因特征信息能与第二类数据库(即包含细菌基因特征信息的数据库)比对得上,说明该序列是细菌的可能性较低,符合条件的序列即被判定为噬菌体序列。
在进行比对情况数据的判断时,满足上述三项条件其中之一的序列,即被鉴定为噬菌体序列。具体操作时,也可依次判断比对序列是否符合上述条件,得到满足上述三项条件的三组序列,被认定为是噬菌体序列;然后对这三组被鉴定为是噬菌体的序列进行汇总,去除三组中重复的序列,从而鉴定出样本中的噬菌体序列。
S9:下载含有全部细菌基因组序列信息的数据库,并从中提取现有的细菌基因组序列中的特殊间隔序列。
具体地,在本步骤中,下载的所述数据库为含有全部细菌基因组序列信息的数据库,可从本技术领域相关的成熟应用、细菌基因组序列信息最全面的数据库中做选择,例如可选择NCBI数据库;而数据库中的特殊间隔序列片段则记录了细菌在防御噬菌体感染时切下的噬菌体序列片段,包含了噬菌体与宿主的侵染关系信息。
S10:将步骤S8中鉴定出的噬菌体序列与步骤S9中获取的特殊间隔序列进行比对,得到预测的噬菌体宿主信息。
从上述步骤中可以看出,本申请提供的基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,通过将原始纳米孔测序数据与高通量测序数据相结合,设计了质控过滤流水线对两套测序数据分别进行质控和过滤,再在混合组装后的序列中根据噬菌体基因的特征模型鉴定出潜在的噬菌体序列,接着提取数据库中原有的细菌基因组所携带的特殊间隔序列,最后通过与数据库中提取的特殊间隔序列进行比对,挖掘对应关系,预测噬菌体对应的宿主关系。本发明能够实现对纳米孔和高通量测序数据中噬菌体序列的有效挖掘与噬菌体宿主的有效预测,具有十分重要的推广应用价值。
作为优选,本申请实施例所述的质量值过滤参数为碱基质量值Q,第一质量值过滤参数为Q7,第二质量值过滤参数为Q5。
具体地,其中Q5换算成测序正确率约为70%,Q7换算成测序正确率约为80%。
作为优选,本申请实施例设置第一序列长度参数为1000bp,第二序列长度参数为5000bp。
作为优选,步骤S7中,所述第一类数据库为VPF数据库、所述第二类数据库为Pfam数据库、KEGG数据库中的任意一种或两种;步骤S8中,对所述比对情况数据进行汇总和判定,包括:待测序列的基因特征信息中,若比对上VPF数据库的基因数量大于等于序列中基因总量的60%,则该序列判定为噬菌体序列;或者,若比对上VPF数据库的基因数量大于等于比对上Pfam数据库的基因数量,则该序列判定为噬菌体序列;或者,若比对上VPF数据库的基因数量大于等于序列中基因总量的10%,且比对上Pfam数据库的基因数量小于等于序列中基因总量的40%,且比对上KEGG数据库的基因数量小于等于序列中基因总量的20%,则该序列被鉴定为噬菌体序列。
具体地,在本步骤中,Pfam数据库主要包含细菌的基因特征信息,待预测序列的基因特征信息和该类数据库越吻合,表示待预测序列越有可能是细菌而非噬菌体,与Pfam数据库比对可以判断该序列为潜在细菌序列的可能性。KEGG数据库是另一个主要包含细菌基因特征信息的数据库,与KEGG数据库比对可以进一步判断该序列为潜在细菌序列的可能性。VPF数据库是一个主要包含噬菌体基因特征信息的数据库,待预测序列的基因特征信息和该数据库越吻合,表示待预测序列越有可能是噬菌体,与VPF数据库比对可以进一步判断该序列为潜在噬菌体序列的可能性。
作为优选,步骤S9中,所述含有全部细菌基因组序列信息的数据库为NCBI数据库。
具体地,在本步骤中,NCBI数据库(National Center for BiotechnologyInformation)是目前世界上规模最大的细菌基因组数据库,在这个数据库中能够获得全面完整的细菌基因组序列信息。
作为优选,在步骤S10中,利用Blast软件将步骤S8中鉴定出的噬菌体序列与步骤S9中提取的特殊间隔序列进行比对,进行比对,比对使用的参数包括覆盖度90%、一致度97%、错误数1。
具体地,Blast全称Basic Local Alignment Search Tool,即基于局部序列比对算法的搜索工具。是由美国国家生物技术信息中心(National Center for BiotechnologyInformation,NCBI)开发和管理的一套生物大分子一级结构序列比对程序。本申请的方法具体实施时,可采用Blast进行比对,使用的各参数中,设置覆盖度90%,一致度97%,错误数1。
需要说明的是,本申请的方法在具体操作时,可以使用生物信息学相关领域的各种软件加以辅助操作实施,包括本领域已成熟应用的生物学软件工具,例如采用NanoPlot、NanoFilt进行长度分析和短序列去除,使用OPERA-MS进行序列混合组装等等,在这里不作一一列举。此外也不限于使用自行编程的计算机程序进行方法上的具体实施,此处不作详述。
本申请实施例还提供一种上述噬菌体鉴定和宿主预测方法在环境介质样本微生物分析中的应用。
具体地,所述环境介质样本包括但不限于水处理技术领域中涉及到的污水、污泥样本。通过对这些样本中的微生物进行分析,判断污水或污泥样本中的噬菌体的情况,并利用预测的噬菌体宿主信息,进一步分析噬菌体及其宿主在污水系统中的环境生态学功能。
下面以具体的应用实施例,对本方法的具体操作进行进一步说明。
实施例1
从某5个污水样本中通过常规预处理和DNA提取测序步骤获得50 Gb纳米孔测序数据和100 Gb高通量测序数据,本实施例按下述步骤进行:
步骤101:使用NanoFilt软件,将50 Gb纳米孔测序数据中平均质量值低于Q7的序列去除。
步骤102:将步骤101过滤的纳米孔序列用NanoPlot进行长度分析,使用NanoFilt去除长度小于1000 bp的短序列,得到质控过滤后的纳米孔长序列。
步骤103:将100 Gb高通量测序数据中含有接头的序列使用cutadapt去除。
步骤104:将步骤103过滤的高通量测序数据中N的含量超过10%的序列使用fastp去除;并将去除后的高通量序列中超过50%的碱基质量值低于Q5的序列使用fastp去除,得到质控过滤后的高通量短序列。
步骤105:将步骤102质控过滤后的纳米孔长序列和步骤104质控过滤后的高通量短序列使用OPERA-MS进行混合组装,拼接出待鉴定的噬菌体序列信息,并使用seqkit去除拼接后长度小于5000 bp的序列,从而得到混合组装后的噬菌体序列。
步骤106:将步骤105中得到的混合组装后的噬菌体序列使用Prodigal进行基因预测,得到序列中每个基因的特征功能信息,也即基因特征信息。
步骤107:将步骤106中获得的基因特征信息与Pfam数据库使用hmmsearch进行比对;Pfam数据库主要包含细菌的基因特征信息,与Pfam数据库比对可以判断该序列为潜在细菌序列的可能性;
将步骤106中获得的基因特征信息与KEGG数据库使用diamond进行比对,KEGG数据库是另一个主要包含细菌基因特征信息的数据库,与KEGG数据库比对可以进一步判断该序列为潜在细菌序列的可能性;
将步骤106中获得的基因特征信息与VPF数据库使用hmmsearch进行比对,VPF数据库是一个主要包含噬菌体基因特征信息的数据库,与VPF数据库比对可以进一步判断该序列为潜在噬菌体序列的可能性。
步骤108:将步骤107中获得的比对情况进行汇总。
若比对上VPF的基因数量大于等于序列中基因总量的60%,则该序列会被鉴定为噬菌体序列,本实施例共鉴定出3699条噬菌体符合本条件;
若比对上VPF的基因数量大于等于比对上Pfam的基因数量,则该序列会被鉴定为噬菌体序列,本实施例共鉴定出30781条噬菌体符合本条件;
若比对上KEGG的基因数量小于等于序列中基因总量的20%,且比对上Pfam的基因数量小于等于序列中基因总量的40%,且比对上VPF的基因数量大于等于序列中基因总量的10%,则该序列会被鉴定为噬菌体序列。本实施例共鉴定出17690条噬菌体符合本条件。
如图3所示,将满足上述三个条件的噬菌体汇总,去除重复序列。本实施例中共鉴定出44270条噬菌体序列,其中691条为前噬菌体,43579条为游离噬菌体。
步骤109:下载NCBI数据库中含有的全部细菌基因组序列信息,并使用CRSIPRDetect提取NCBI Refseq V91数据库中现有的细菌基因组序列中的特殊间隔序列片段。
步骤110:将步骤108中鉴定的44270条噬菌体序列与步骤109中提取的特殊间隔序列使用Blast进行比对,使用的参数为覆盖度90%, 一致度97%, 错误数1,预测噬菌体的宿主信息。
得到的结果显示,其中326条噬菌体的宿主被预测为分枝杆菌,3条噬菌体的宿主被预测为硝酸菌。图4至图6则展示了3条宿主为硝酸菌的噬菌体基因组排布图。图4中所示的噬菌体长度约为140kbp,是三者中唯一含有tRNA基因的噬菌体;图5的噬菌体长度约为45kbp,图6的噬菌体长度约为35kbp。3条噬菌体的编码基因区域主要以假定蛋白质为主。
下方表格则显示了以NCBI Refseq V91版本数据库为基础的侵染关系测试结果。
覆盖度 | 一致度 | 错误数 | 总侵染关系数 | 假阳性侵染关系数 | 精确率 |
90% | 99% | 1 | 69352 | 5129 | 92.60% |
90% | 97% | 1 | 80853 | 5333 | 93.40% |
90% | 95% | 1 | 105507 | 13193 | 87.50% |
90% | 90% | 1 | 107195 | 14413 | 86.60% |
90% | 80% | 1 | 107208 | 14415 | 86.60% |
90% | 70% | 1 | 107208 | 14415 | 86.60% |
结果表明,当比对方法使用的参数为覆盖度90%、一致度97%、错误数1时,宿主预测的精确率可达93%。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (7)
1.一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,其特征在于,从待测DNA样本中获得原始纳米孔测序数据和原始高通量测序数据,随后进行噬菌体鉴定和宿主预测,包括以下步骤:
S1:设置第一质量值过滤参数,去除原始纳米孔测序数据中平均质量值低于第一质量值过滤参数的序列,得到过滤后的纳米孔序列;
S2:将过滤后的纳米孔序列进行长度分析,设置第一序列长度参数,并去除序列长度小于所述第一序列长度参数的短序列,得到质控过滤后的纳米孔长序列;
S3:将原始高通量测序数据中含有接头的序列去除,得到过滤后的高通量测序数据;
S4:将过滤后的高通量测序数据中N含量超过10%的序列去除,设置第二质量值过滤参数,并将去除后的高通量序列中超过50%的碱基质量值低于所述第二质量值过滤参数的序列再去除,得到质控过滤后的高通量短序列;
S5:将质控过滤后的纳米孔长序列和质控过滤后的高通量短序列进行混合组装,拼接出待鉴定的噬菌体序列信息,设置第二序列长度参数,并去除拼接后的序列长度小于所述第二序列长度参数的短序列,得到混合组装后的噬菌体序列;
S6:将混合组装后的噬菌体序列进行基因预测,得到待预测序列的基因特征信息;
S7:将待预测序列的基因特征信息与包含噬菌体基因特征信息的第一类数据库,以及与包含细菌基因特征信息的第二类数据库进行比对,分别获得相应的比对情况数据;
S8:对所述比对情况数据进行汇总和判定;
当待预测序列的基因特征信息中,能与第一类数据库比对上的基因数量所占比例大于等于序列中基因总量的60%时,或者能与第一类数据库比对上的基因数量大于等于能与第二类数据库比对上的基因数量时,或者能与第一类数据库比对上的基因数量所占比例大于等于10%,且能与第二类数据库比对上的基因数量所占比例小于等于40%时,所述待预测序列则被鉴定为噬菌体序列;
S9:下载含有全部细菌基因组序列信息的数据库,并从中提取现有的细菌基因组序列中的特殊间隔序列;
S10:将步骤S8中鉴定出的噬菌体序列与步骤S9中提取的特殊间隔序列进行比对,获得预测的噬菌体宿主信息。
2.根据权利要求1所述的噬菌体鉴定和宿主预测方法,其特征在于,质量值过滤参数为碱基质量值Q,第一质量值过滤参数为Q7,第二质量值过滤参数为Q5。
3.根据权利要求1所述的噬菌体鉴定和宿主预测方法,其特征在于,设置第一序列长度参数为1000bp,第二序列长度参数为5000bp。
4.根据权利要求1所述的噬菌体鉴定和宿主预测方法,其特征在于,步骤S7中,所述第一类数据库为VPF数据库,所述第二类数据库为Pfam数据库、KEGG数据库中的任意一种或两种;
步骤S8中,对所述比对情况数据进行汇总和判定,包括:
待预测序列的基因特征信息中,若比对上VPF数据库的基因数量大于等于序列中基因总量的60%,则该序列被鉴定为噬菌体序列;
或者,若比对上VPF数据库的基因数量大于等于比对上Pfam数据库的基因数量,则该序列被鉴定为噬菌体序列;
或者,若比对上VPF数据库的基因数量大于等于序列中基因总量的10%,且比对上Pfam数据库的基因数量小于等于序列中基因总量的40%,且比对上KEGG数据库的基因数量小于等于序列中基因总量的20%,则该序列被鉴定为噬菌体序列。
5.根据权利要求1所述的噬菌体鉴定和宿主预测方法,其特征在于,步骤S9中,所述含有全部细菌基因组序列信息的数据库为NCBI数据库。
6.根据权利要求1所述的噬菌体鉴定和宿主预测方法,其特征在于,在步骤S10中,利用Blast软件将步骤S8中鉴定出的噬菌体序列与步骤S9中提取的特殊间隔序列进行比对,比对时使用的参数包括覆盖度90%、一致度97%、错误数1。
7.权利要求1-6任一项所述的噬菌体鉴定和宿主预测方法在环境介质样本微生物分析中的应用。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211107292.XA CN115198036B (zh) | 2022-09-13 | 2022-09-13 | 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法 |
JP2023118768A JP2024041040A (ja) | 2022-09-13 | 2023-07-21 | ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211107292.XA CN115198036B (zh) | 2022-09-13 | 2022-09-13 | 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115198036A true CN115198036A (zh) | 2022-10-18 |
CN115198036B CN115198036B (zh) | 2022-12-30 |
Family
ID=83572926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211107292.XA Active CN115198036B (zh) | 2022-09-13 | 2022-09-13 | 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2024041040A (zh) |
CN (1) | CN115198036B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211628A (zh) * | 2019-06-12 | 2019-09-06 | 湖南大学 | 一种基于高通量测序数据的溶源性噬菌体预测方法 |
CN112823206A (zh) * | 2018-10-17 | 2021-05-18 | 深圳华大生命科学研究院 | 从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质 |
CN114121160A (zh) * | 2021-11-25 | 2022-03-01 | 广东美格基因科技有限公司 | 一种检测样本中宏病毒组的方法和系统 |
-
2022
- 2022-09-13 CN CN202211107292.XA patent/CN115198036B/zh active Active
-
2023
- 2023-07-21 JP JP2023118768A patent/JP2024041040A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112823206A (zh) * | 2018-10-17 | 2021-05-18 | 深圳华大生命科学研究院 | 从细菌全基因组序列中挖掘温和型噬菌体的方法、装置和存储介质 |
CN110211628A (zh) * | 2019-06-12 | 2019-09-06 | 湖南大学 | 一种基于高通量测序数据的溶源性噬菌体预测方法 |
CN114121160A (zh) * | 2021-11-25 | 2022-03-01 | 广东美格基因科技有限公司 | 一种检测样本中宏病毒组的方法和系统 |
Non-Patent Citations (4)
Title |
---|
DENIS BERTRAND等: "Hybrid metagenomic assembly enables high-resolution analysis of resistance determinants and mobile elements in human microbiomes", 《NATURE BIOTECHNOLOGY》 * |
JIE REN等: "VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data", 《MICROBIOME》 * |
LIANG CHEN等: "Short- and long-read metagenomics expand individualized structural variations in gut microbiomes", 《NATURE COMMUNICATIONS》 * |
LUIS F. CAMARILLO-GUERRERO等: "Massive expansion of human gut bacteriophage diversity", 《CELL》 * |
Also Published As
Publication number | Publication date |
---|---|
JP2024041040A (ja) | 2024-03-26 |
CN115198036B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Almeida et al. | Bioinformatics tools to assess metagenomic data for applied microbiology | |
Mangul et al. | ROP: dumpster diving in RNA-sequencing to find the source of 1 trillion reads across diverse adult human tissues | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
CN105740650A (zh) | 一种快速准确鉴定高通量基因组数据污染源的方法 | |
Saheb Kashaf et al. | Recovering prokaryotic genomes from host-associated, short-read shotgun metagenomic sequencing data | |
CN114121160B (zh) | 一种检测样本中宏病毒组的方法和系统 | |
CN114420212B (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
CN109559780A (zh) | 一种高通量测序的rna数据处理方法 | |
CN113470743A (zh) | 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法 | |
CN115662516A (zh) | 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法 | |
CN110867211A (zh) | 一种鉴定二代靶向捕获测序样本微生物污染的方法和装置 | |
CN110970091A (zh) | 标签质控的方法及装置 | |
Churcheward et al. | MAGNETO: an automated workflow for genome-resolved metagenomics | |
CN113930492A (zh) | 对被污染样品进行亲子鉴定的生物信息处理方法 | |
Lu et al. | scRNA‐seq data analysis method to improve analysis performance | |
CN115198036B (zh) | 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法 | |
CN110970093B (zh) | 一种筛选引物设计模板的方法、装置及应用 | |
CN115691679A (zh) | 一种基于二代和三代测序技术的宏病毒组分析方法 | |
CN112750501B (zh) | 一种宏病毒组流程的优化分析方法 | |
CN113564266A (zh) | Snp分型遗传标记组合、检测试剂盒及用途 | |
Collin et al. | An open-sourced bioinformatic pipeline for the processing of Next-Generation Sequencing derived nucleotide reads: Identification and authentication of ancient metagenomic DNA | |
Brown et al. | Kairos infers in situ horizontal gene transfer in longitudinally sampled microbiomes through microdiversity-aware sequence analysis | |
Coate | Beyond Transcript Concentrations: Quantifying Polyploid Expression Responses per Biomass, per Genome, and per Cell with RNA-Seq | |
CN116153411B (zh) | 多病原体探针库组合的设计方法及应用 | |
WO2013097149A1 (zh) | 估计基因组重复序列含量的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |