CN115662516A

CN115662516A - 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法

Info

Publication number: CN115662516A
Application number: CN202211393619.4A
Authority: CN
Inventors: 陈卫华; 吴英健; 高娜
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-31

Abstract

本发明公开了一种基于二代测序技术的高通量预测噬菌体宿主的分析方法，包括对测序数据分别进行质量控制，得到细菌的clean reads和病毒的clean reads，对质控后的细菌数据进行组装得到细菌contigs序列，对细菌contigs序列进行分箱，得到bins，bins进行质控和去冗余，得到非冗余的高质量宏基因组组装基因组(MAGs)并对其进行物种注释。对质控后的病毒clean reads进行组装得到病毒contigs序列，对病毒序列进行质控得到高质量的病毒contigs并对其进行噬菌体的物种注释，最后预测噬菌体及其宿主，并对预测结果进行精准性评估。本发明提出了可靠的基于二代测序技术的高通量预测噬菌体宿主的分析方法，其实现方法简单，应用范围广泛。

Description

一种基于二代测序技术的高通量预测噬菌体宿主的分析方法

技术领域

本发明涉及二代测序技术领域及噬菌体宿主预测领域，具体为一种基于二代测序技术的高通量预测噬菌体宿主的分析方法。

背景技术

2005年，罗氏推出了第一款二代测序仪罗氏454，生命科学开始进入高通量测序时代。后续随着Illumina系列测序平台的推出，极大降低了二代测序的价格，推动了高通量测序在生命科学各个研究领域的普及。虽然三代测序技术已经诞生，但是受限于高昂的测序成本和不完善的分析软件，目前二代测序依然是最主流的一种常规研究方法，被广泛应用在科研工作中。第二代测序(Next-generation sequencing，NGS)又称为高通量测序(High-throughput sequencing)，是基于PCR和基因芯片发展而来的DNA测序技术，其开创性的引入了可逆终止末端，从而实现边合成边测序(Sequencing by Synthesis)。由于在二代测序中，单个DNA分子必须扩增成由相同DNA组成的基因簇，然后进行同步复制，来增强荧光信号强度从而读出DNA序列；而随着读长增长，基因簇复制的协同性降低，导致碱基测序质量下降，这严格限制了二代测序的读长(50～250bp，最长不超过500bp)，因此，二代测序具有通量高、读长短的特点。

由于测序技术的飞速发展，相继产生了宏基因组学和病毒宏基因组学，其研究对象主要是微生物群落的细菌和病毒、类似物及其所携带的遗传信息。传统的微生物研究依赖于实验室培养，宏基因组学和病毒宏基因组学的兴起填补了无法在实验室培养的微生物研究的空白。噬菌体是一类可以侵袭细菌且导致其裂解的病毒，是地球生物圈最丰富的生物种类；作为一种可移动遗传元件，还可将遗传物质在细菌之间传播。因此，噬菌体在调节细菌的生物量、维持生物多样性、基因水平转移以及整个生物圈内的生物化学循环都有着重要作用。噬菌体的宿主范围非常窄小，通常具有特异性，主要在属或者种水平，因此可用于菌群的精准调控。研究噬菌体和菌群相互作用即噬菌体的宿主，更容易发现对健康和疾病有重要作用的菌株，为疾病治疗、药物开发提供新靶点和新工具。

针对噬菌体宿主预测的工具层出不穷，其侧重点均有不同，各有优劣，预测结果常常大相径庭。如何有效评估筛选多种预测结果进而得到更为精准的噬菌体和宿主相互作用关系，是生物信息领域一直关注并竭力解决的关键问题。虽然基于二代测序技术的单独宏基因组或病毒组分析均已比较成熟，但是如何节约科研成本，高效利用一套测序数据，同时完成细菌和病毒的基因组组装，并评估筛选更为精准的两者相互作用关系已经成为迫切需求。

发明内容

本发明的目的在于提供一种基于二代测序技术的高通量预测噬菌体宿主的分析方法，本发明提供了从二代测序数据得到噬菌体和细菌基因组并精准评估噬菌体宿主的全部流程，使得研究人员高效利用一套测序数据就能得到更全面的分析结果，也让非生物信息专业的科研人员独立完成高通量测序数据的分析。达到优化科研人员的工作效率，提高二代测序数据的重新再利用，降低科研成本的目的。本发明提出了可靠的基于二代测序技术的高通量预测噬菌体宿主的分析方法，其实现方法简单，应用范围广泛；以解决现有技术中存在的同时完成细菌和病毒的基因组组装的技术问题。

根据本发明的目的，提供了一种基于二代测序技术的高通量预测噬菌体宿主的分析方法，包括以下步骤：

(1)对原始测序数据进行质量控制、过滤、拼接组装、分箱和去冗余，得到非冗余的细菌微生物组装基因组MAGs；

步骤(1)中所述的去冗余得到MAGs，具体步骤为：

S1：过滤长度<50kb的基因组；

S2：基于原核生物的动态编程基因查找算法识别MAGs中的基因，并翻译出相应的蛋白质序列；

S3：利用基因的单拷贝性来有效的比对基因组完整度和污染度，过滤序列完整度<80％或污染度>10％的低质量细菌基因组；

S4：通过基因组距离和平均核苷酸同一性进行初级和次级聚类，选取同一簇内的最长基因组为最优基因组；

(2)从步骤(1)中得到的细菌基因，使用隐马尔可夫模型识别出单拷贝标记基因并构建进化树，最后与已知的细菌和古细菌进化树相比进行物种注释；

(3)对原始测序数据进行质量控制、过滤、拼接组装，得到病毒contigs序列，对病毒contigs进行质控得到高质量的病毒contigs；

步骤(3)中所述的对病毒contigs进行质控分析，具体步骤为：

S1：过滤长度<1.5kb的contigs；

S2：将序列与病毒基因组进行比较来估计完整性，0～5％错误匹配的被认为高质量contig，5～10％错误匹配的是中等质量contig，大于10％的错误匹配是低质量contig需要被过滤，最终保留高、中等质量的病毒contigs；

(4)计算病毒contigs的平均核苷酸一致性ANI，保留ANI>95％的contigs，通过contigs的氨基酸水平的基因与TrEMBL数据库中的病毒子集进行比较，从而对病毒进行family水平的物种注释，基于K-mer特征通过监督机器学习方法进行genus水平的物种注释，最后依据病毒的family和genus水平的注释结果，从已知的taxonomy库完善病毒contigs的其他分类水平注释；

(5)基于细菌MAGs和病毒contigs采用至少三种不同的方法预测噬菌体宿主，并对预测结果从纯净度purity指标和一致性agreement指标进行精准性评估；

步骤(5)中所述的预测噬菌体宿主的方法包括从以下四种方法中任选三种方法或采用以下四种方法：

方法1：基于CRISPR-Cas系统的噬菌体及其宿主关系预测方法；

方法2：基于序列相似性的比对以及遗传特征的机器学习分类从细菌基因组预测活性噬菌体方法；

方法3：基于动态规划算法的的噬菌体宿主预测方法；

方法4：基于病毒及其宿主寡核苷酸频率预测噬菌体宿主的方法；

步骤(5)中所述的精准性评估，具体步骤为：

S1：纯净度purity指标评估：该指标为衡量单个预测噬菌体宿主一致性的评估指标；提取一个病毒的宿主，在不同的物种水平统计最常见宿主的比例，具体计算公式为：

假设有n个病毒contigs，某一contig的预测宿主有N个，其中，i∈(1,n)，j∈(1,N)，r∈(1,7)，V_ir表示第i个病毒的第r个物种水平的第j个宿主的比例，m_ir是V_ir的最大值，即最常见宿主比例；

得到的n个在第r个物种水平的m_ir取均值即为purity，当putiry大于50％时，该病毒的宿主预测结果被保留；

S2：一致性agreement指标评估：该指标为衡量预测噬菌体宿主的方法中的两种方法之间预测宿主一致性的指标；筛选两种预测方法均存在的病毒，每个病毒在同一物种水平均有对应的m_ir，比较二者是否相同；统计所有病毒具有相同m_ir的比例即为agreement指标；所有预测方法两两比较，若两种方法的agreement指标高于5％，则保留该方法的预测宿主结果；

同时保留在纯净度purity指标评估预测结果和一致性agreement指标评估预测结果中的噬菌体宿主，被判定为噬菌体宿主。

优选地，步骤(1)中对原始测序数据进行质量控制和过滤具体为：去除adapter序列，去除N的比例大于10％的reads；基于碱基的组成及质量分布进行碱基质量分析，去除质量值Q≤30的低质量reads；质量控制后的reads基于短序列比对算法，去除碱基数超过85％比对到样本来源宿主基因组的reads，最终得到高质量的clean reads。

优选地，步骤(1)中拼接组装具体为：基于K-mer迭代的de Bruijn图的组装算法得到contigs，过滤掉长度在2.5kb以下的短序列。

优选地，步骤(1)中所述分箱具体为：使用k-medoids聚类算法进行迭代binning，得到bins。

优选地，步骤(3)中，对原始测序数据进行质量控制和过滤具体为：去除adapter序列，去除N的比例大于10％的reads；基于碱基的组成及质量分布进行碱基质量分析，去除质量值Q≤30的低质量reads；质量控制后的reads基于短序列比对算法，去除碱基数超过85％比对到细菌污染物基因组的reads，最终得到高质量的clean reads。

优选地，步骤(3)中的拼接组装具体为：基于K-mer迭代的de Bruijn图的组装算法得到contigs，过滤掉长度在1.5kb以下的短序列。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，主要具备以下的技术优点：

(1)本发明提供了从二代测序数据得到噬菌体和细菌基因组并精准评估噬菌体宿主的全部流程，使得研究人员高效利用一套测序数据就能得到更全面的分析结果，也让非生物信息专业的科研人员独立完成高通量测序数据的分析。达到优化科研人员的工作效率，提高二代测序数据的重新再利用，降低科研成本的目的。本发明提出了可靠的基于二代测序技术的高通量预测噬菌体宿主的分析方法，其实现方法简单，应用范围广泛。

(2)本发明分析数据的高效利用、分析流程更加全面，分析结果更加准确，解决了目前噬菌体宿主预测方法种类繁多预测流程不太规范的问题，为研究人员提供便利和技术支撑。

附图说明

图1是本发明流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的一些实施例的具体过程如下：

S1：对原始测序数据进行质量控制和过滤、拼接组装、分箱和去冗余，得到非冗余的高质量的细菌微生物组装基因组MAGs；

测序数据过滤(细菌)：去除adapter序列，去除N的比例大于10％的reads；基于碱基的组成及质量分布进行碱基质量分析，去除质量值Q≤30的低质量reads；质量控制后的reads基于短序列比对算法，去除碱基数超过85％比对到样本来源基因组的reads，最终得到高质量的clean reads；使用fastqc首先对原始测序数据进行评估，根据评估结果使用软件Trimmomatic和软件bowtie2进行过滤；

拼接组装：基于K-mer迭代的de Bruijn图的组装算法得到contigs，优选的，过滤掉长度在2.5kb以下的短序列，具体的使用软件megahit实现的；

分箱：使用k-medoids聚类算法进行迭代binning，得到bins，具体的使用软件MetaBAT2实现的。

步骤S1中所述的去冗余得到高质量的MAGs，具体步骤为：

a、过滤长度<50kb的基因组；

b、基于原核生物的动态编程基因查找算法识别MAGs中的基因，并翻译出相应的蛋白质序列；

c、利用基因的单拷贝性来有效的估计基因组完整度和污染度，优选的，过滤低质量细菌基因组(序列完整度<80％或污染度>10％)；

d、通过基因组距离估算和平均核苷酸同一性进行初、次级聚类，选取同一簇内的最长基因组为最优基因组。

具体的使用软件dRep实现的。

S2：从步骤S1中得到的细菌基因，使用隐马尔可夫模型识别出单拷贝标记基因并构建进化树，最后与已知的细菌、古细菌进化树相比进行物种注释，具体的使用软件GTDB-Tk实现的；

S3：对原始测序数据进行质量控制和过滤、拼接组装，得到病毒contigs序列，对病毒contigs进行质控得到高质量的病毒contigs；

所述步骤S3的对原始测序数据进行质量控制和过滤、拼接组装，得到病毒contigs序列的具体过程如下：

测序数据过滤(病毒)：去除adapter序列，去除N的比例大于10％的reads；基于碱基的组成及质量分布进行碱基质量分析，去除质量值Q≤30的低质量reads；质量控制后的reads基于短序列比对算法，去除碱基数超过85％比对到细菌等污染物基因组的reads，最终得到高质量的clean reads。具体地，使用fastqc首先对原始测序数据进行评估，根据评估结果使用软件Trimmomatic和软件bowtie2进行过滤；

拼接组装：基于K-mer迭代的de Bruijn图的组装算法得到contigs，优选的，过滤掉长度在1.5kb以下的短序列，具体的使用软件megahit实现。

步骤S3中所述的对病毒contigs进行质控分析，具体步骤为：

a、过滤长度<1.5kb的contigs，具体的使用shell语言实现；

b、将序列与公共的完整病毒基因组的进行比较来估计完整性，0～5％错误匹配的被认为高质量contig，5～10％错误匹配的是中等质量contig，大于10％的错误匹配是低质量contig需要被过滤，最终保留高、中等质量的病毒contigs，具体的使用软件CheckV实现。

S4：计算病毒contigs的平均核苷酸一致性(ANI)，保留ANI>95％的contigs,具体的使用软件FastANI实现；通过将氨基酸水平的基因与TrEMBL数据库中的病毒子集进行比对，得到family水平的注释，具体的使用软件demovir实现；基于K-mer特征通过监督机器学习方法对病毒基因组进行genus水平的物种注释，具体的使用软件VirusTaxo实现；依据病毒的family和genus水平的注释结果，从已知的taxonomy库完善病毒序列的其他分类水平注释，具体的使用R或者python语言实现。

S5：基于细菌MAGs和病毒contigs采用多种方法预测噬菌体宿主，并对预测结果从纯净度(purity)指标和一致性(agreement)指标进行精准性评估。

步骤S5中所述的预测噬菌体宿主的多种方法，包括：

a、基于CRISPR-Cas系统的噬菌体及其宿主关系预测方法，具体的使用CRISPRCasFinder实现；

b、基于序列相似性的比对以及遗传特征的机器学习分类从细菌基因组预测活性噬菌体方法，具体的使用Prophage Hunter实现；

c、基于动态规划算法的的噬菌体宿主预测方法，具体的使用blastn实现；

d、基于病毒及其宿主寡核苷酸频率预测噬菌体宿主的方法，具体的使用VirHostMatcher实现。

步骤S5中所述的精准性评估，具体步骤为：

a、purity指标：该指标为衡量单个预测噬菌体宿主一致性的评估指标。提取一个病毒的宿主，在不同的物种水平(界门纲目科属种)统计最常见宿主的比例，具体计算公式为：

假设有n个病毒contigs，某一contig的预测宿主有N个，其中，i∈(1,n)，j∈(1,N)，r∈(1,7)，V_ir表示第i个病毒的第r个物种水平的第j个宿主的比例，m_ir是V_ir的最大值，即最常见宿主比例。

得到的n个在第r个物种水平的m_ir取均值即为purity，优选的，当putiry大于50％时，该病毒的宿主预测结果被保留；

b、agreement指标：该指标为衡量两种方法之间预测宿主一致性的指标。筛选两种预测方法均存在的病毒，每个病毒在同一物种水平均有对应的m_ir，比较二者是否相同。统计所有病毒具有相同m_ir的比例即为agreement指标。所有预测方法两两比较，优选的，若某一方法与其他方法的agreement指标均低于5％，不保留该方法的预测宿主结果。

具体地，使用python或者R语言实现。

综上所述，本发明开发基于二代测序的整合多种分析工具得到更加全面且准确的噬菌体宿主分析结果，从而解决噬菌体宿主预测方法种类繁多预测流程不太规范的问题，并且分析结果更为准确。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于二代测序技术的高通量预测噬菌体宿主的分析方法，其特征在于，包括以下步骤：

步骤(1)中所述的去冗余得到MAGs，具体步骤为：

S1：过滤长度<50kb的基因组；

步骤(3)中所述的对病毒contigs进行质控分析，具体步骤为：

S1：过滤长度<1.5kb的contigs；

方法1：基于CRISPR-Cas系统的噬菌体及其宿主关系预测方法；

方法3：基于动态规划算法的的噬菌体宿主预测方法；

步骤(5)中所述的精准性评估，具体步骤为：

2.如权利要求1所述的基于二代测序技术的高通量预测噬菌体宿主的分析方法，其特征在于，步骤(1)中对原始测序数据进行质量控制和过滤具体为：去除adapter序列，去除N的比例大于10％的reads；基于碱基的组成及质量分布进行碱基质量分析，去除质量值Q≤30的低质量reads；质量控制后的reads基于短序列比对算法，去除碱基数超过85％比对到样本来源宿主基因组的reads，最终得到高质量的clean reads。

3.如权利要求1或2或所述的基于二代测序技术的高通量预测噬菌体宿主的分析方法，其特征在于，步骤(1)中拼接组装具体为：基于K-mer迭代的de Bruijn图的组装算法得到contigs，过滤掉长度在2.5kb以下的短序列。

4.如权利要求1或所述的基于二代测序技术的高通量预测噬菌体宿主的分析方法，其特征在于，步骤(1)中所述分箱具体为：使用k-medoids聚类算法进行迭代binning，得到bins。

5.如权利要求1或所述的基于二代测序技术的高通量预测噬菌体宿主的分析方法，其特征在于，步骤(3)中，对原始测序数据进行质量控制和过滤具体为：去除adapter序列，去除N的比例大于10％的reads；基于碱基的组成及质量分布进行碱基质量分析，去除质量值Q≤30的低质量reads；质量控制后的reads基于短序列比对算法，去除碱基数超过85％比对到细菌污染物基因组的reads，最终得到高质量的clean reads。

6.如权利要求1或5所述的基于二代测序技术的高通量预测噬菌体宿主的分析方法，其特征在于，步骤(3)中的拼接组装具体为：基于K-mer迭代的de Bruijn图的组装算法得到contigs，过滤掉长度在1.5kb以下的短序列。