CN109785900A - 一种基于蛋白序列相似度的微生物群落功能基因分析方法 - Google Patents
一种基于蛋白序列相似度的微生物群落功能基因分析方法 Download PDFInfo
- Publication number
- CN109785900A CN109785900A CN201811520237.7A CN201811520237A CN109785900A CN 109785900 A CN109785900 A CN 109785900A CN 201811520237 A CN201811520237 A CN 201811520237A CN 109785900 A CN109785900 A CN 109785900A
- Authority
- CN
- China
- Prior art keywords
- sequence
- protein
- protein sequence
- similarity
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 62
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012252 genetic analysis Methods 0.000 title claims abstract description 7
- 230000000813 microbial effect Effects 0.000 title claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 10
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 6
- 108020005038 Terminator Codon Proteins 0.000 claims abstract description 5
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 5
- 238000002864 sequence alignment Methods 0.000 claims abstract description 4
- 238000013480 data collection Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 9
- 239000012634 fragment Substances 0.000 abstract description 5
- 125000003275 alpha amino acid group Chemical group 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 241000894007 species Species 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002906 microbiologic effect Effects 0.000 description 3
- 235000013601 eggs Nutrition 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 210000004885 white matter Anatomy 0.000 description 2
- QCVGEOXPDFCNHA-UHFFFAOYSA-N 5,5-dimethyl-2,4-dioxo-1,3-oxazolidine-3-carboxamide Chemical compound CC1(C)OC(=O)N(C(N)=O)C1=O QCVGEOXPDFCNHA-UHFFFAOYSA-N 0.000 description 1
- 108091093088 Amplicon Proteins 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 102000002322 Egg Proteins Human genes 0.000 description 1
- 108010000912 Egg Proteins Proteins 0.000 description 1
- 108700005443 Microbial Genes Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000014103 egg white Nutrition 0.000 description 1
- 210000000969 egg white Anatomy 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了一种基于蛋白序列相似度的微生物群落功能基因分析方法,包括如下步骤:序列除杂步骤;序列比对步骤;蛋白质序列处理步骤;蛋白质序列代表序列处理步骤;物种注释步骤。本发明的有益效果在于:分析数据相较OUT的方法更为精简:归并出的蛋白质分类单元更为集中。以氨基酸序列而非核酸序列为序列归并的依据:充分考虑到了简并性和终止密码子等等因素。针对特定功能基因目的片段时,有足够好的指向性:对目的片段以外的干扰序列可以有效剔除。
Description
技术领域
本发明涉及微生物基因分析领域,具体涉及一种基于蛋白序列相似度的微生物群落功能基因分析方法。
背景技术
微生物群落测序是指对微生物群体进行高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。为了进一步的通过分析功能基因来分析微生物群落的一些特性。当前运用于微生物组功能基因扩增子测序研究的最常用方法,是基于序列归并和OTU(OperationalTaxonomic Unit,即可操作分类单元)划分的综合分析方法。该方法的原理是根据某一个人为设定的序列相似度阈值(最常见为97%,大致相当于分类学水平对不同的“种”[Species]进行的界定),将来自一个或多个样本的序列进行归并,认定相似度高于该阈值的一组序列为一个OTU。但是,由于此类测序研究更侧重于基因功能的差异研究,因而直接在DNA核酸水平的解析可能并不足够,将功能基因序列翻译成氨基酸序列从而在蛋白水平进行研究是更优的选择,因此,需要引入基于OPU(Operational Protein Unit)的数据分析方法。
而现有的OTU分析方法具有如下缺陷:
(1)包括但不限于由于测序区段选择偏长、序列中存在嵌合体(chimeras)、目的片段里存在终止密码子等现象导致的数据冗余,容易界定出没必要存在的底噪OTU;
(2)片面强调在基因序列层面上的差异,忽略了蛋白质与功能层面上的同一性。例如密码子的简并性问题,在OTU划分中,可能会分属不同的OTU类群。通过对核酸序列进行有效翻译,可以进一步降低分析数据的复杂度;
(3)序列翻译过程中能够去除(矫正)由于PCR扩增引入的嵌合体序列、由于测序引入的插入/缺失导致的移码突变(Frame shift)、包含终止子的序列、非目的功能基因序列;
(4)在某些针对特定目片段的功能基因的项目中缺乏足够的指向性。
发明内容
为了克服现有技术所存在的上述缺陷,本发明的目的在于提供一种基于蛋白序列相似度的微生物群落功能基因分析方法。
为了实现本发明的目的之一,所采用的技术方案是:
一种基于蛋白序列相似度的微生物群落功能基因分析方法,包括如下步骤:
序列除杂步骤:将现有的高质量序列使用mothur进行去冗余处理,得到一组不重复的碱基序列;
序列比对步骤:查找或收集目的基因的seeds文件,使用RDPtools中的Framebot,将去重后的高质量序列同目的基因seeds文件进行比对,比对上的核酸序列会翻译成蛋白质序列;同时未比对上的序列则会剔除;
蛋白质序列处理步骤:从上述得到的蛋白质序列里剔除含有终止密码子的序列,并以90%的相似度对上述得到的蛋白质序列进行聚类,得到相似度为90%的OPU聚类单元;
蛋白质序列代表序列处理步骤:从每一个OPU中挑选一条作为该聚类单元全部蛋白质序列的代表序列,对这个代表序列数据集并进行对齐处理,随后构建系统发育树;
物种注释步骤:将蛋白质代表序列数据集同NCBI在线比对(blastp),得到一个NCBI的检索号,并进一步通过检索号获得这条蛋白质代表序列锁对应的物种注释信息和蛋白质注释信息;结合每个序列的reads,可以得到一个可以同时反映序列量和注释信息的综合性丰度表格。
本发明的主要创新点在于:
分析数据相较OTU的方法更为精简:归并出的蛋白质分类单元更为集中。
以氨基酸序列而非核酸序列为序列归并的依据:充分考虑到了简并性和终止密码子等等因素。
针对特定功能基因目的片段时,有足够好的指向性:对目的片段以外的干扰序列可以有效剔除。
附图说明
图1为本发明的流程示意图。
图2为本发明的丰度表例图。
具体实施方式
以下通过实施例对本发明作进一步的说明,但这些实施例不得用于解释对本发明的限制。
参见图1,在步骤S101中,进行序列除杂,将现有的高质量序列进行去冗余处理,得到一组不重复的碱基序列。
在本发明实施例中,将经过前期处理得到的DNA高质量序列,剔除重复序列后即得到一组互不相同的DNA独有序列,可以用最少的序列量来记录原有DNA序列的丰富程度。优选地,使用mothur软件的unique.seqs功能,在去冗余的同时保留了序列的重复关系,方便后续统计序列丰度。
在步骤S102中,进行序列比对,将碱基序列与目的蛋白质片段进行比对,并将比对上的序列翻译成对应的蛋白质序列。
在本发明实施例中,用于比对的目的蛋白质片段的来源,可以是收集到的功能基因序列训练集、也可以是现有的功能基因数据库。优选地,针对目的基因选用Fungene网站(http://fungene.cme.msu.edu/)中的fasta格式的seeds数据集,以确保目的片段数据集在有足够好的覆盖度和代表性的同时尽可能减少总序列量,以节约比对时间。
在本发明实施例中,使用S101得到的不重复的碱基序列与目的蛋白质片段进行比对,比对不上碱基序列的进行剔除,可以比对上的碱基序列翻译成蛋白质序列后进行保留。优选地,使用RDPtools中的Framebot组件,可以直接完成比对和翻译两个步骤。由于上述获得的seeds数据集为fasta格式,在使用Framebot是需要调用参数-N。
在步骤S103中,对蛋白质序列作处理,剔除掉翻译得到的蛋白质序列中包含终止子的序列,并对剩余蛋白质序列进行聚类。
在本发明实施例中,考虑到片段中的终止子会阻断翻译,导致翻译片段与目的蛋白质片段存在较大偏差,因而在聚类之前予以剔除。作为示例地,选取相似度(similarity)90%作为翻译序列的聚类标准进行聚类操作,聚类完成后的每一个聚类单元即可称为一个OPU(Operational Protein Unit)。聚类完成后,再结合S101步骤中保留的重复关系,可以得到完整高质量序列翻译后的真实聚类结果。优选地,选择qiime软件以及qiime支持的usearch61方法,可以快速实现前述的聚类过程并将之前剔除的重复序列还原到真实的聚类结果中。
在步骤S104中,对蛋白质序列代表序列进行一系列操作,从聚类后的蛋白质序列中挑选出代表序列,进行对齐处理,并构建系统发育树。
在本发明实施例中,从每个聚类单元(也即OPU)中挑选出一条蛋白质序列,作为后续分析的OPU代表序列,对它进行一系列处理。作为示例地,使用qiime软件的pick_rep_set.py组件,设定参数-m longest,选取每个OPU中最长的一条作为该OPU的代表序列,将每个OPU的代表序列统合成一个新的OPU代表序列文件。接着使用muscle软件进行蛋白质序列对齐的操作,将对齐后的蛋白序列使用FastTree进行系统发育树的构建。优选地,在对齐操作之后,可以使用qiime软件的filter_alignment.py组件,以消除对其过程中可能出现的多余的gap位点,进一步便利系统发育树的构建。
在步骤S105中,用蛋白质代表序列参与物种注释,确定每个聚类单元所对应的物种。
在本发明实施例中,将S104步骤中得到的OPU代表序列文件,同现有的蛋白质数据库进行比对,得到每一个OPU聚类单元所对应的蛋白质指代的物种。作为示例地,将蛋白质代表序列文件提交到NCBI,使用blasp方法同数据库比对,下载并整理结果文件,可以得到物种组成关系。再结合每一个OPU单元里的序列量以及序列来源,可以整理出一个反应物种组成和序列量关系的丰度表。丰度表例图见图2。
Claims (1)
1.一种基于蛋白序列相似度的微生物群落功能基因分析方法,包括如下步骤:
序列除杂步骤:将现有的高质量序列使用mothur进行去冗余处理,得到一组不重复的碱基序列;
序列比对步骤:查找或收集目的基因的seeds文件,使用RDPtools中的Framebot,将去重后的高质量序列同目的基因seeds文件进行比对,比对上的核酸序列会翻译成蛋白质序列;同时未比对上的序列则会剔除;
蛋白质序列处理步骤:从上述得到的蛋白质序列里剔除含有终止密码子的序列,并以90%的相似度对上述得到的蛋白质序列进行聚类,得到相似度为90%的OPU聚类单元;
蛋白质序列代表序列处理步骤:从每一个OPU中挑选一条作为该聚类单元全部蛋白质序列的代表序列,对这个代表序列数据集并进行对齐处理,随后构建系统发育树;
物种注释步骤:将蛋白质代表序列数据集同NCBI在线比对(blastp),得到对应的物种注释信息和蛋白质注释信息,再结合每个序列的reads,可以得到一个涵盖序列量和注释信息的综合性丰度表格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811520237.7A CN109785900B (zh) | 2018-12-12 | 2018-12-12 | 一种基于蛋白序列相似度的微生物群落功能基因分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811520237.7A CN109785900B (zh) | 2018-12-12 | 2018-12-12 | 一种基于蛋白序列相似度的微生物群落功能基因分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109785900A true CN109785900A (zh) | 2019-05-21 |
CN109785900B CN109785900B (zh) | 2023-05-23 |
Family
ID=66496737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811520237.7A Active CN109785900B (zh) | 2018-12-12 | 2018-12-12 | 一种基于蛋白序列相似度的微生物群落功能基因分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109785900B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808085A (zh) * | 2019-10-30 | 2020-02-18 | 安徽医科大学 | 一种基于OrthoMCL聚类结果的快速分析方法 |
CN112365929A (zh) * | 2020-10-19 | 2021-02-12 | 北京大学 | 一种基于宏基因组数据分析微生物群体感应效应的方法 |
CN113257362A (zh) * | 2021-05-24 | 2021-08-13 | 自然资源部第三海洋研究所 | 一种生物环境样品的筛选方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003019453A1 (en) * | 2001-08-23 | 2003-03-06 | Jan Biro | Novel sequence conversion methods for the production of overlappingly translated protein sequences (ots) |
WO2008000186A1 (fr) * | 2006-06-21 | 2008-01-03 | Beijing Bioway-Fortune Research Center For Gene Drugs Ltd. | Méthode d'identification d'un nouveau gène et nouveaux gènes résultants |
CN108804875A (zh) * | 2018-06-21 | 2018-11-13 | 中国科学院北京基因组研究所 | 一种利用宏基因组数据分析微生物群体功能的方法 |
-
2018
- 2018-12-12 CN CN201811520237.7A patent/CN109785900B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003019453A1 (en) * | 2001-08-23 | 2003-03-06 | Jan Biro | Novel sequence conversion methods for the production of overlappingly translated protein sequences (ots) |
WO2008000186A1 (fr) * | 2006-06-21 | 2008-01-03 | Beijing Bioway-Fortune Research Center For Gene Drugs Ltd. | Méthode d'identification d'un nouveau gène et nouveaux gènes résultants |
CN108804875A (zh) * | 2018-06-21 | 2018-11-13 | 中国科学院北京基因组研究所 | 一种利用宏基因组数据分析微生物群体功能的方法 |
Non-Patent Citations (1)
Title |
---|
何翔;吴佳鹏;焦黎静;温晓梅;王岩;欧林坚;洪义国;: "基于amoA基因扩增子高通量测序的氨氧化古菌多样性分析方法" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808085A (zh) * | 2019-10-30 | 2020-02-18 | 安徽医科大学 | 一种基于OrthoMCL聚类结果的快速分析方法 |
CN110808085B (zh) * | 2019-10-30 | 2023-03-21 | 安徽医科大学 | 一种基于OrthoMCL聚类结果的快速分析方法 |
CN112365929A (zh) * | 2020-10-19 | 2021-02-12 | 北京大学 | 一种基于宏基因组数据分析微生物群体感应效应的方法 |
CN113257362A (zh) * | 2021-05-24 | 2021-08-13 | 自然资源部第三海洋研究所 | 一种生物环境样品的筛选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109785900B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804875B (zh) | 一种利用宏基因组数据分析微生物群体功能的方法 | |
Santos et al. | Evaluating multi-locus phylogenies for species boundaries determination in the genus Diaporthe | |
CN109785900A (zh) | 一种基于蛋白序列相似度的微生物群落功能基因分析方法 | |
CN112133368A (zh) | 一种基于三代测序技术的宏基因组测序数据的自动化分析方法 | |
CN112786102B (zh) | 一种基于宏基因组学分析精准识别水体中未知微生物群落的方法 | |
CN111192630B (zh) | 一种宏基因组数据挖掘方法 | |
CN115064220A (zh) | 一种单细胞的跨物种细胞类型鉴定方法 | |
CN116144794B (zh) | 牛12k sv液相芯片及其设计方法和应用 | |
Zaharias et al. | Data, time and money: evaluating the best compromise for inferring molecular phylogenies of non-model animal taxa | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
CN105426700A (zh) | 一种批量计算基因组直系同源基因进化速率的方法 | |
Çiftçi et al. | Phylotranscriptomics reveals the reticulate evolutionary history of a widespread diatom species complex | |
CN107862177B (zh) | 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 | |
EP3961638A1 (en) | Novel method for processing sequence information about single biological unit | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
Xu et al. | Symbiont-screener: a reference-free tool to separate host sequences from symbionts for error-prone long reads | |
CN115612751A (zh) | 西瓜全基因组液相芯片及应用 | |
CN116504319A (zh) | 一种宏基因组磷元素循环注释绘图方法 | |
Chan et al. | The artefactual branch effect and phylogenetic conflict: species delimitation with gene flow in mangrove pit vipers (Trimeresurus purpureomaculatus-erythrurus complex) | |
CN112614540A (zh) | 一种粪便微生物多样性的自动化分析方法 | |
Gao et al. | Integrated phylogenomic analyses reveal recurrent ancestral large-scale duplication events in mosses | |
Kang et al. | A new metagenome binning method based on gene uniqueness | |
LU501941B1 (en) | Method for rapidly obtaining target gene family of genome-free species based on transcriptome | |
CN111128297B (zh) | 一种基因芯片的制备方法 | |
CN115862734A (zh) | 样本溶血污染的检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240517 Address after: Floor 3, No. 163, 165, 166, 167, Lane 3938, Huqingping Road, Qingpu District, Shanghai, 2017 Patentee after: SHANGHAI SUNNY BIOTECHNOLOGY Co.,Ltd. Country or region after: China Address before: 200030 floors 1 and 2, building 2, No. 218 Yindu Road, Xuhui District, Shanghai Patentee before: SHANGHAI PERSONAL BIOTECHNOLOGY Co.,Ltd. Country or region before: China |