CN109785900A

CN109785900A - 一种基于蛋白序列相似度的微生物群落功能基因分析方法

Info

Publication number: CN109785900A
Application number: CN201811520237.7A
Authority: CN
Inventors: 郭桐舟; 薛正晟; 孙子奎
Original assignee: SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Current assignee: SHANGHAI SUNNY BIOTECHNOLOGY Co.,Ltd.
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-05-21
Anticipated expiration: 2038-12-12
Also published as: CN109785900B

Abstract

本发明公开了一种基于蛋白序列相似度的微生物群落功能基因分析方法，包括如下步骤:序列除杂步骤；序列比对步骤；蛋白质序列处理步骤；蛋白质序列代表序列处理步骤；物种注释步骤。本发明的有益效果在于：分析数据相较OUT的方法更为精简：归并出的蛋白质分类单元更为集中。以氨基酸序列而非核酸序列为序列归并的依据：充分考虑到了简并性和终止密码子等等因素。针对特定功能基因目的片段时，有足够好的指向性：对目的片段以外的干扰序列可以有效剔除。

Description

一种基于蛋白序列相似度的微生物群落功能基因分析方法

技术领域

本发明涉及微生物基因分析领域，具体涉及一种基于蛋白序列相似度的微生物群落功能基因分析方法。

背景技术

微生物群落测序是指对微生物群体进行高通量测序，通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系，寻找标志性菌群或特定功能的基因。为了进一步的通过分析功能基因来分析微生物群落的一些特性。当前运用于微生物组功能基因扩增子测序研究的最常用方法，是基于序列归并和OTU(OperationalTaxonomic Unit，即可操作分类单元)划分的综合分析方法。该方法的原理是根据某一个人为设定的序列相似度阈值(最常见为97％，大致相当于分类学水平对不同的“种”[Species]进行的界定)，将来自一个或多个样本的序列进行归并，认定相似度高于该阈值的一组序列为一个OTU。但是，由于此类测序研究更侧重于基因功能的差异研究，因而直接在DNA核酸水平的解析可能并不足够，将功能基因序列翻译成氨基酸序列从而在蛋白水平进行研究是更优的选择，因此，需要引入基于OPU(Operational Protein Unit)的数据分析方法。

而现有的OTU分析方法具有如下缺陷：

(1)包括但不限于由于测序区段选择偏长、序列中存在嵌合体(chimeras)、目的片段里存在终止密码子等现象导致的数据冗余，容易界定出没必要存在的底噪OTU；

(2)片面强调在基因序列层面上的差异，忽略了蛋白质与功能层面上的同一性。例如密码子的简并性问题，在OTU划分中，可能会分属不同的OTU类群。通过对核酸序列进行有效翻译，可以进一步降低分析数据的复杂度；

(3)序列翻译过程中能够去除(矫正)由于PCR扩增引入的嵌合体序列、由于测序引入的插入/缺失导致的移码突变(Frame shift)、包含终止子的序列、非目的功能基因序列；

(4)在某些针对特定目片段的功能基因的项目中缺乏足够的指向性。

发明内容

为了克服现有技术所存在的上述缺陷，本发明的目的在于提供一种基于蛋白序列相似度的微生物群落功能基因分析方法。

为了实现本发明的目的之一，所采用的技术方案是：

一种基于蛋白序列相似度的微生物群落功能基因分析方法，包括如下步骤:

序列除杂步骤：将现有的高质量序列使用mothur进行去冗余处理，得到一组不重复的碱基序列；

序列比对步骤：查找或收集目的基因的seeds文件，使用RDPtools中的Framebot，将去重后的高质量序列同目的基因seeds文件进行比对，比对上的核酸序列会翻译成蛋白质序列；同时未比对上的序列则会剔除；

蛋白质序列处理步骤：从上述得到的蛋白质序列里剔除含有终止密码子的序列，并以90％的相似度对上述得到的蛋白质序列进行聚类，得到相似度为90％的OPU聚类单元；

蛋白质序列代表序列处理步骤：从每一个OPU中挑选一条作为该聚类单元全部蛋白质序列的代表序列，对这个代表序列数据集并进行对齐处理，随后构建系统发育树；

物种注释步骤：将蛋白质代表序列数据集同NCBI在线比对(blastp)，得到一个NCBI的检索号，并进一步通过检索号获得这条蛋白质代表序列锁对应的物种注释信息和蛋白质注释信息；结合每个序列的reads，可以得到一个可以同时反映序列量和注释信息的综合性丰度表格。

本发明的主要创新点在于：

分析数据相较OTU的方法更为精简：归并出的蛋白质分类单元更为集中。

以氨基酸序列而非核酸序列为序列归并的依据：充分考虑到了简并性和终止密码子等等因素。

针对特定功能基因目的片段时，有足够好的指向性：对目的片段以外的干扰序列可以有效剔除。

附图说明

图1为本发明的流程示意图。

图2为本发明的丰度表例图。

具体实施方式

以下通过实施例对本发明作进一步的说明，但这些实施例不得用于解释对本发明的限制。

参见图1，在步骤S101中，进行序列除杂，将现有的高质量序列进行去冗余处理，得到一组不重复的碱基序列。

在本发明实施例中，将经过前期处理得到的DNA高质量序列，剔除重复序列后即得到一组互不相同的DNA独有序列，可以用最少的序列量来记录原有DNA序列的丰富程度。优选地，使用mothur软件的unique.seqs功能，在去冗余的同时保留了序列的重复关系，方便后续统计序列丰度。

在步骤S102中，进行序列比对，将碱基序列与目的蛋白质片段进行比对，并将比对上的序列翻译成对应的蛋白质序列。

在本发明实施例中，用于比对的目的蛋白质片段的来源，可以是收集到的功能基因序列训练集、也可以是现有的功能基因数据库。优选地，针对目的基因选用Fungene网站(http://fungene.cme.msu.edu/)中的fasta格式的seeds数据集，以确保目的片段数据集在有足够好的覆盖度和代表性的同时尽可能减少总序列量，以节约比对时间。

在本发明实施例中，使用S101得到的不重复的碱基序列与目的蛋白质片段进行比对，比对不上碱基序列的进行剔除，可以比对上的碱基序列翻译成蛋白质序列后进行保留。优选地，使用RDPtools中的Framebot组件，可以直接完成比对和翻译两个步骤。由于上述获得的seeds数据集为fasta格式，在使用Framebot是需要调用参数-N。

在步骤S103中，对蛋白质序列作处理，剔除掉翻译得到的蛋白质序列中包含终止子的序列，并对剩余蛋白质序列进行聚类。

在本发明实施例中，考虑到片段中的终止子会阻断翻译，导致翻译片段与目的蛋白质片段存在较大偏差，因而在聚类之前予以剔除。作为示例地，选取相似度(similarity)90％作为翻译序列的聚类标准进行聚类操作，聚类完成后的每一个聚类单元即可称为一个OPU(Operational Protein Unit)。聚类完成后，再结合S101步骤中保留的重复关系，可以得到完整高质量序列翻译后的真实聚类结果。优选地，选择qiime软件以及qiime支持的usearch61方法，可以快速实现前述的聚类过程并将之前剔除的重复序列还原到真实的聚类结果中。

在步骤S104中，对蛋白质序列代表序列进行一系列操作，从聚类后的蛋白质序列中挑选出代表序列，进行对齐处理，并构建系统发育树。

在本发明实施例中，从每个聚类单元(也即OPU)中挑选出一条蛋白质序列，作为后续分析的OPU代表序列，对它进行一系列处理。作为示例地，使用qiime软件的pick_rep_set.py组件，设定参数-m longest，选取每个OPU中最长的一条作为该OPU的代表序列，将每个OPU的代表序列统合成一个新的OPU代表序列文件。接着使用muscle软件进行蛋白质序列对齐的操作，将对齐后的蛋白序列使用FastTree进行系统发育树的构建。优选地，在对齐操作之后，可以使用qiime软件的filter_alignment.py组件，以消除对其过程中可能出现的多余的gap位点，进一步便利系统发育树的构建。

在步骤S105中，用蛋白质代表序列参与物种注释，确定每个聚类单元所对应的物种。

在本发明实施例中，将S104步骤中得到的OPU代表序列文件，同现有的蛋白质数据库进行比对，得到每一个OPU聚类单元所对应的蛋白质指代的物种。作为示例地，将蛋白质代表序列文件提交到NCBI，使用blasp方法同数据库比对，下载并整理结果文件，可以得到物种组成关系。再结合每一个OPU单元里的序列量以及序列来源，可以整理出一个反应物种组成和序列量关系的丰度表。丰度表例图见图2。

Claims

1.一种基于蛋白序列相似度的微生物群落功能基因分析方法，包括如下步骤:

物种注释步骤：将蛋白质代表序列数据集同NCBI在线比对(blastp)，得到对应的物种注释信息和蛋白质注释信息，再结合每个序列的reads，可以得到一个涵盖序列量和注释信息的综合性丰度表格。