CN110827917A - 一种基于snp鉴定个体肠道菌群类型的方法 - Google Patents

一种基于snp鉴定个体肠道菌群类型的方法 Download PDF

Info

Publication number
CN110827917A
CN110827917A CN201911075063.2A CN201911075063A CN110827917A CN 110827917 A CN110827917 A CN 110827917A CN 201911075063 A CN201911075063 A CN 201911075063A CN 110827917 A CN110827917 A CN 110827917A
Authority
CN
China
Prior art keywords
snp
species
intestinal flora
individual
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911075063.2A
Other languages
English (en)
Other versions
CN110827917B (zh
Inventor
宁康
秦季玥
朱雪
谭重阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Ezhou Institute of Industrial Technology Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911075063.2A priority Critical patent/CN110827917B/zh
Publication of CN110827917A publication Critical patent/CN110827917A/zh
Application granted granted Critical
Publication of CN110827917B publication Critical patent/CN110827917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于肠道微生物技术领域,特别涉及一种基于SNP鉴定个体肠道菌群类型的方法,包括如下步骤:S1,获得纵向序列上的个体肠道菌群的测序数据,并对所有的物种进行分析得到物种丰度表;S2,筛选肠道菌群的主要组成成分;S3,分析、挖掘肠道菌群的SNP;S4,鉴定个体肠道菌群类型,指导肠道菌群健康预警。本发明的基于SNP鉴定个体肠道菌群类型的方法基于微生物组学和生物信息学思路,分析、挖掘具有季节循序行的物种SNP位点进行研究,具有高灵敏度和选择性,并且检测通量高,能够鉴定个体肠道菌群类型,指导肠道菌群健康预警,可用于监测、评估人体的健康状况。

Description

一种基于SNP鉴定个体肠道菌群类型的方法
技术领域
本发明属于肠道微生物技术领域,特别涉及一种基于SNP鉴定个体肠道菌群类型的方法。
背景技术
人体肠道中庞大而复杂的具有动态性的微生物群落对人体自身代谢表型有深远的影响,包含古生菌、细菌、病毒和真菌,含有超过1000种微生物。人群的个体之间往往具有不同且高度可变的肠道菌群,但是,现有理论认为,人群之间同时还共有一组保守的微生物种群和基因,这可能为肠道的正常功能所必须。
人体肠道微生物主要由五类细菌和一类古生菌(广古菌门,Euryarchaeota)组成。这五类主要的细菌为:厚壁菌门(Firmicutes)、拟杆菌门(Bacteroidetes)、放线菌门(Actinobacteria)、变形菌门(Proteobacteria)和疣微菌门(Verrucomicrobia)。厚壁菌门包括瘤胃球菌属(Ruminococcus)、梭菌属(Clostridium)、乳酸菌属(Lactobacillus,其中某些菌株为益生菌)、真细菌属(Eubacterium,生产丁酸盐)、氏菌属(Roseburia)等;拟杆菌门包括拟杆菌属(Bacteroides)、普氏菌属(Prevotella)等降解复杂多糖的物种;放线菌门主要有双歧杆菌属(Bifidobacterium,某些菌株属于益生菌)[Functional interactionsbetween the gut microbiota and host metabolism,Nature 489(7415)(2012)(242-2490)]。
这些肠道微生物群落在如下几个方面发挥着重要的作用:1、清除病原体保护宿主,如通过对沙门氏菌感染的小鼠模型的研究,Endt K等发现肠道微生物不仅可以阻挡病原体的入侵,还可以在感染早期介导病原体的清除[The Microbiota Mediates PathogenClearance from the Gut Lumen after Non-Typhoidal Salmonella Diarrhea,PLOSPathogens 6(9)(2010)e1001097];双歧杆菌可以通过产生醋酸盐防止肠道病原性感染[Bifidobacteria can protect from enteropathogenic infection throughproduction of acetate,Nature 469(7331)(2011)543-547];2、介导免疫功能,比如环磷酰胺(临床上一种重要的抗癌药物)可以改变肠道微生物的组成,并且诱导某些类别的革兰氏阳性菌转移到二级淋巴器官,这些菌群可以刺激T-helper17细胞的产生,并引起记忆性免疫反应[The Intestinal Microbiota Modulates the Anticancer Immune Effects ofCyclophosphamide,Science 342(6161)(2013)971];3、调控新陈代谢过程,甚至被认为是一个被忽略的内分泌器官,如肠道微生物的组成在肥胖人群中发生改变,并且可以响应体重的改变。肥胖人群的肠道具有更多的厚壁菌门和更少的拟杆菌门,而当控制饮食使体重减轻后,拟杆菌门水平提高,这意味着拟杆菌门可能响应卡路里的摄入[Human gutmicrobes associated with obesity,Nature 444(7122)(2006)1022-1023]。
目前,普遍认为许多因素可以影响肠道微生物的物种组成和多样性,如饮食、年龄、地理位置、药物和环境物质。这些因素的影响可以是长期的,也可能是短暂的。在一项研究中发现,长期的饮食差异可以带来美国人群群体之间的肠道微生物组成差异,而个体内短期的饮食改变同样可以改变物种组成[Application of metagenomics in the humangut microbiome,World J Gastroenterol 21(3)(2015)803-814]。
随着测序技术和生物信息学分析平台的发展,微生物的物种分析有了更高的分辨率,肠道菌的研究也从传统分离培养技术研究的门水平向更高水平深入。基因组的结构变异包括单核苷酸多态性(SNP),小片段插入和删除(Indel,长度通常在50bp以下),大的结构性变异(包括长度在50bp以上的序列的插入或者删除、染色体倒位,染色体内部或染色体之间的序列易位,拷贝数变异等)。对于微生物来说,基因组的结构变异可以引起同一种微生物表型的改变,比如对抗生素抗性的改变[Impact of gyrA and parC mutations onquinolone resistance,doubling time,and supercoiling degree of Escherichiacoli,Antimicrobial Agents and Chemotherapy 43(4)(1999)868]和致病性的改变[Pathogenic adaptation of<em>Escherichia coli</em>by naturalvariation of the FimH adhesin,Proceedings of the National Academy of Sciences95(15)(1998)8922],这些可以反映微生物对环境选择压力的应答,因此对微生物进行亚种的区分是很有必要的。
因此,非常有必要运用微生物组学和生物信息学的方法,通过单核苷酸多态性(single nucleotide polymorphisms,SNP)鉴定个体肠道菌群类型,从而指导肠道菌群健康预警。
发明内容
本发明为了解决上述问题,提供一种基于SNP鉴定个体肠道菌群类型的方法,基于微生物组学和生物信息学思路,分析、挖掘具有季节循序行的物种SNP位点进行研究,具有高灵敏度和选择性,并且检测通量高,能够鉴定个体肠道菌群类型,指导肠道菌群健康预警,可用于监测、评估人体的健康状况。
本发明采用以下技术方案来实现:
一种基于SNP鉴定个体肠道菌群类型的方法,包括步骤S1~S4:
S1,获得纵向序列上的个体肠道菌群的测序数据,并对所有的物种进行分析得到物种丰度表;
进一步的,该步骤的具体操作为:下载肠道微生物全基因组测序数据,对得到的sra数据文件进行格式转化和质控处理,并对所有的物种进行分析,合并物种丰度表;
更进一步的,所述肠道微生物全基因组测序数据为Illumina HiSeq 4000的鸟枪法测序数据,来自NCBI SRA数据库;
更进一步的,对sra数据文件进行格式转化的具体操作为:使用sra tools的fastq-dump命令将原始的sra文件转换为含序列的碱基组成信息和碱基测序质量信息的fastq文件;
更进一步的,所述质控处理的具体操作为:使用Trimmomatic对原始测序数据进行质控处理,SE参数指定单端测序数据,使用ILLUMINACLIP参数去除接头,使用LEADING参数从序列头部开始去除碱基质量低于5的碱基,使用TRAILING参数从序列尾部开始去除碱基质量低于5的碱基。
S2,筛选肠道菌群的主要组成成分;
采用MetaPhlAn2软件获得步骤S1中参考序列集的物种丰度信息,挑选至少在3个样本中存在的species,使用SAMtools depth命令得到每个样本的位点深度,计算每个species的平均测序深度;挑选至少在3个样本中平均测序深度不小于10的species,计算该species在每一个样本中的SNP数量;根据species在步骤S1中的个体肠道菌群的测序数据,筛选出覆盖率不小于8的样本基因,并计算样本基因在每个样本中的SNP数目,确定肠道菌的主要组成成分以及亚种组成成分;
进一步的,确定肠道菌的主要组成成分以及亚种组成成分的方法包括绘制系统进化树或根据突变频率进行聚类分析。
更进一步的,所述绘制系统进化树的操作是:使用ASC_GTRGAMMA核酸替换模型,RAxMLHPC的'-f a'选项参数算法进行快速bootstrap分析,使用lewis方法进行ascertainment bias校正,采用随机抽样的方法组成新的序列,然后进行序列比对,该过程重复50次以上,优选的方案,该过程重复80次、100次或120次。
S3,分析、挖掘肠道菌群的SNP;
根据步骤S2确定的肠道菌的主要组成成分以及亚种组成成分,提取分布存在季节性循环模式的物种的全基因组SNP位点和相应的等位基因频率,仅考虑等位基因频率大于0.2的SNP,得到SNP频率矩阵,计算所有两两样本间的曼哈顿距离,然后基于最长距离进行层次聚类分析,挖掘具有季节性循环的SNP后,进行Wilcoxon秩和检验;
进一步的,全基因组SNP位点和相应的等位基因频率的提取操作包括:(1)比对阶段:针对151bp的序列长度,首先使用Burrows-Wheeler Aligner(BWA)对参考基因组建立索引,然后使用BWA MEM算法完成模拟数据的比对,使用-R参数添加sam文件注释信息中的RG(read group)部分,输出sam文件;(2)预处理阶段:首先使用SAMtools view命令将sam文件转化为二进制格式bam文件,再使用SAMtools sort命令将bam文件按照scaffold位置进行排序;其次,使用picard将排序后的bam文件去除重复;然后,使用SAMtools index命令对去除重复后的bam文件建立索引;最后,使用VarScan2 mpileup2snp命令对去除重复后的bam文件进行SNP-calling得到变异位点信息的vcf文件;
更进一步的,所述vcf文件的数据记录部分由以空格键分割的多列组成,前八列表示变异位点的相关信息,分别为:染色体名称或scaffold名称(针对细菌)、变异位点在染色体上的位置、变异位点在已有数据库中的ID号(当不存在时可以用“.”表示)、参考碱基、变异碱基、质量得分、是否通过过滤标准、相关信息(例如测序深度);其后每一列表示某个样本在该位点的信息(例如突变频率);
进一步的,所述层次聚类分析的步骤为:采用MetaPhlAn2软件从NCBI Genome数据库的gff(general feature format)中的参考基因组中鉴定到的marker基因,获得species水平该群落的物种组成和丰度信息,并将物种丰度表进行合并,然后提取species信息,得到所有样本在species水平的物种丰度信息。
S4,鉴定个体肠道菌群类型,指导肠道菌群健康预警;
根据步骤S3中具有季节性循环的SNP的蛋白序列映射到KEGG数据库中,进行比对,根据最高比对得分结果,获得其参与的生物路径信息,进而根据肠道菌的动态变化来指导肠道菌群健康预警。
本发明的有益效果是:
1、本发明的基于SNP鉴定个体肠道菌群类型的方法,以个体肠道菌群作为研究对象,基于微生物组学和生物信息学思路,分析、挖掘具有季节循序行的物种SNP位点进行研究,具有高灵敏度和选择性,并且检测通量高;NCBI数据库即国际生物技术信息中心,其建立的GeneBank为世界上三大生物序列信息数据库之一,本发明获取专业信息的数据库在其所属领域中具有很高的权威性和应用的普遍性。
2、通过本发明的基于SNP鉴定个体肠道菌群类型的方法,可以在理论上预测肠道菌群的动态变化,以监测、评估人体的健康状况。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的鉴定流程示意图;
图2为哈扎人肠道微生物物种组成热图;
图3为12个具有季节性循环的物种丰度分布箱线图,其中,abundance表示丰度,season表示季节;
图4为15个物种(样本覆盖率>3)的SNP数量随季节的分布图,其中,SNP density表示SNP数量,season表示季节;
图5A为基于E.hallii全基因组SNP的系统进化树图;
图5B为基于E.biforme全基因组SNP的系统进化树图;
图6A为基于E.hallii的全基因组SNP的聚类分析图;
图6B为基于E.biforme全基因组SNP的聚类分析图;
其中,图3、图4、图5A、图5B、图6A和图6B中,2013ry表示2013年旱季;2014wte表示2014年雨季;2014dry表示2014年旱季;
图7为鉴定到的基因所涉及的KEGG通路分布柱状图,其中pathway表示KEGG通路。
具体实施方式
下面将结合本发明实施例中的附图,对实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的实验材料如无特殊说明,均为市场购买得到。
实施例1
一种基于SNP鉴定个体肠道菌群类型的方法,以鉴定哈扎人肠道菌群类型为例,参考图1~7,具体鉴别步骤如下:
1)数据收集:从NCBI SRA数据库获得哈扎人肠道微生物全基因组测序数据(accession SRA582120),样本数为40,数据类型为Illumina HiSeq 4000单端测序数据,读段长度为151bp。其中2013年旱季的样本8例,2014年雨季的样本19例,2014年旱季的样本13例。再使用sra tools的fastq-dump命令将获得的sra二进制文件转化为fastq,然后使用ILLUMINACLIP参数去除接头,LEADING和TRAILING参数分别从序列头部、尾部开始去除碱基质量低于5的碱基。
2)获得肠道菌群的物种组成:首先对采用MetaPhlAn2获得步骤1中参考序列集的种丰度信息,鉴定得到116个species(unclassified:16个),根据物种丰度表,挑选丰度前40的species绘制哈扎人肠道物种组成热图(如图2)可以发现,哈扎人肠道微生物中丰度较高的物种主要为:
Faecalibacterium prausnitzii,Prevotella copri,Methanobrevibactersmithii,Eubacterium biforme和Treponema succinifaciens;
对于上述116个species,根据其至少在一个季节中丰度大于0且至少存在8个样本中筛选出33个species进行丰度季节差异的分析和Wilcoxon秩和检验(图3;表1)。
表1 33个主要物种的丰度随季节分布的Wilcoxon秩和检验结果
Figure BDA0002262172480000061
得到:33个species中,仅12个species的丰度在旱季和雨季存在显著差异,而在相邻的旱季并不显著。
在这12个species中,仅有Prevotella copri和Prevotella stercorea在雨季丰度降低。而P.copri已被证明参与葡萄糖代谢,高纤维含量的饮食会增加肠道P.copri的丰度,提示可能在全年都进食纤维类食物的情况下,雨季具有相对较少的纤维代谢(Kovatcheva-Datchary,P.,et al.,2015)。其余的10个species都在雨季展示出了较高的丰度,其中差异尤其显著的主要是R.obeum、D.formicigenerans、E.biforme、E.hallii。而物种组成丰度较高的F.prausnitzii、M.smithii、T.succinifaciens并没有显示出显著的季节性循环。表明在丰度较高的物种中,仅部分物种具有季节性循环的模式。属于厚壁菌的R.obeum和R.lactaris都在雨季存在显著更高的丰度,之前16S的研究表明在不同的季节厚壁菌门的丰度较为稳定[S.A.Smits,J.Leach,E.D.Sonnenburg,C.G.Gonzalez,J.S.Lichtman,G.Reid,R.Knight,A.Manjurano,J.Changalucha,J.E.Elias,M.G.Dominguez-Bello,J.L.Sonnenburg,Seasonal cycling in the gut microbiome ofthe Hadza hunter-gatherers of Tanzania,Science357(6353)(2017)802],这意味着通过species级别的分析,可以发现厚壁菌门的某些物种仍然存在季节性变化,甚至有的物种存在雨季丰度减少的可能。
根据这些物种至少在存在于3个样本中,从116个species中挑选出了分布较为普遍的57个species,排除:Lachnospiraceae_bacterium_4_1_37FAA和Human_adenovirus_D,其原因是,在NCBI没有找到Lachnospiraceae_bacterium_4_1_37FAA的参考基因组,因此排除;此外,本项研究仅考虑细菌,不考虑病毒,因此排除Human_adenovirus_D;
最终的参考序列集包含55个species的参考基因组,然后,使用VarScan2进行SNP鉴定,设置原始的SNP过滤标准为:位点测序深度至少为10,测序质量不小于15,得到40个样本的vcf文件;
在2013年旱季,共鉴定到765,106个SNP(8个样本),平均每个样本有95638个SNP;
在2014年雨季,647990个SNP(19个样本),平均每个样本有191999个SNP;
在2014年旱季,1892342个SNP(13个样本),平均每个样本有145564个SNP;
上述结果表明:在雨季时,哈扎人的肠道菌群具有更多的SNP,这与雨季物种多样性或雨季饮食来源多样性的增加有关;
最后,对上述55个species进行筛选,筛选标准为物种至少存在于3个样本中且平均测序深度不小于10,以保证该基因组覆盖度和测序错误率得以有效控制,获得15个主要肠道菌群的组成物种如下:
Anaerostipes hadrus、Catenibacterium mitsuokai、Coprococcus comes、Doreaformicigenerans、Eubacterium biforme、Eubacterium hallii、Eubacterium siraeum、Phascolarctobacterium succinatutens、Prevotella copri、Prevotella stercorea、Roseburia intestinalis、Roseburia inulinivorans、Ruminococcus bromii、Ruminococcus callidus和Ruminococcus obeum;
S3,通过微生物组和生物信息学方法分析、挖掘肠道菌群的SNP:将上述的15个物种进行Wilcoxon秩和检验,结果如图4和表2所示:
表2 15个物种的SNP数量随季节分布的Wilcoxon秩和检验结果
Figure BDA0002262172480000081
根据图4和表2的结果,发现有8个species的SNP数量在旱季和雨季存在显著性差异,而在相邻的旱季差异不显著(P=0.05),表明丰度的变化并不一定会引起亚种的分化,其中,A.hadrus、C.mitsuokai、C.comes、R.inulinivorans、R.bromii的丰度在雨季和旱季维持稳定;E.biforme、E.hallii、R.obeum在雨季具有更高的丰度;
4个species的SNP数量在13年旱季和14年雨季存在显著性差异,而在13年旱季和14年旱季、14年旱季和14年雨季差异不显著,这4个species分别是D.formicigenerans、E.siraeum、P.succinatutens、R.callidus;
2个species的SNP数量在三个时间段的差异均不显著,这2个species是P.copri和P.stercorea;
R.intestinalis species仅在14年旱季和14年雨季存在显著差异;
从图4中也可以看出,上述的15个物种在相邻的旱季,其SNP的数量均不存在差异性;上述的15个物种中的大多数,具体是13个物种,其SNP数量分布呈现出了在14年雨季增加,而在13年旱季和14年旱季减少的分布模式,特别的,其中8个物种在0.05水平上存在显著差异,因此得出如下结论:对于丰度维持不变的物种,更可能是别的环境因素造成了基因组的变异。
基于上述的SNP特征,以E.hallii和E.biforme这两个物种为例,进行可视化分析,使用RAxML对鉴定得到的8个species分别构建系统进化树,得到的结果如图5A和图5B所示,并调用dist函数计算8个species的SNP频率矩阵,然后使用最长距离法进行层次聚类,得到的结果如图6A和图6B所示;
上述结果表明,E.hallii和E.biforme两个物种可以清楚划为两簇:2014年雨季样本,2013年旱季与2014年旱季的样本,这表明了在2014年的雨季,这两个物种产生了新的亚种。
A.hadrus是一种可以利用乳酸,产生丁酸的梭菌,属于厚壁菌门。有研究表明,饮食中木糖醇等难消化的糖类可以促进A.hadrus丰度的增加和代谢产生丁酸能力的增强[T.Sato,S.Kusuhara,W.Yokoi,M.Ito,K.Miyazaki,Prebiotic potential of L-sorboseand xylitol in promoting the growth and metabolic activity of specificbutyrate-producing bacteria in human fecal culture,FEMS Microbiology Ecology93(1)(2016)],此处的变异可能与雨季食肉的饮食变化有关;
R.bromii在降解饮食中的抗性淀粉上发挥着关键的作用,它们编码的CAZymes范围很窄,展现出了功能上对水解淀粉的专门性[X.Ze,S.H.Duncan,P.Louis,H.J.Flint,Ruminococcus bromii is a keystone species for the degradation of resistantstarch in the human colon,The ISME Journal 6(8)(2012)1535-1543],两个物种的功能性作用均暗示代谢能力的变化。
值得关注的是,SNP数量在14年雨季存在减少的趋势的情况仅在Prevotella属的两个species存在,但是在统计水平并不显著。而这两个species在14年雨季丰度显著降低,这意味着对于P.copri和P.stercorea来说,丰度的变化并没有伴随显著的基因组变异。
S4,基于SNP特征,鉴定个体肠道菌群类型,指导肠道菌群健康预警:对于鉴定到的SNP数量分布具有季节性循环的基因,使用其蛋白序列在KEGG数据库中进行比对,并按照至少在8个样本中存在的标准过滤,得到15个species的5959个基因;
以0.05为显著水平,进行Wilcoxon秩和检验,鉴定到827个基因,在旱季和雨季存在显著性差异,而在相邻的旱季差异不显著;
以0.01为极显著水平,鉴定到83个基因,结果参见表3,在旱季和雨季存在极显著性差异,而在相邻的旱季差异不显著。
表3在0.01水平鉴定到的具有特异性SNP分布的基因信息
Figure BDA0002262172480000101
Figure BDA0002262172480000111
Figure BDA0002262172480000121
将上述鉴定到的83个基因的蛋白序列和KEGG数据库进行比对,选择最高得分的比对结果,如图7和表4所示,发现在这83个基因中,有36个基因具有已知的KEGG通路信息
表4
Figure BDA0002262172480000131
Figure BDA0002262172480000141
Figure BDA0002262172480000151
其中35个基因来自R.obeum,说明该物种通路注释信息较为丰富,同时,该物种在雨季可能具有更多更显著的基因变异,而且这些基因变异主要涉及代谢通路、多样环境中微生物的代谢通路、核糖体、碳代谢等,此外在丙酮酸代谢通路、甲烷代谢和抗生素的合成、糖酵解等通路也有分布,表明在不同的季节由于饮食等因素的变化可能导致哈扎人肠道中某些菌的相关代谢通路基因发生变异。
本发明并不限于上述实例,在本发明的权利要求书所限定的范围内,本领域技术人员不经创造性劳动即可做出的各种变形或修改均受本专利的保护。

Claims (10)

1.一种基于SNP鉴定个体肠道菌群类型的方法,其特征在于,包括如下步骤:
S1,获得纵向序列上的个体肠道菌群的测序数据,并对所有的物种进行分析得到物种丰度表;
S2,筛选肠道菌群的主要组成成分;
采用MetaPhlAn2软件获得步骤S1中参考序列集的物种丰度信息,挑选至少在3个样本中存在的species;
使用SAMtools depth命令得到每个样本的位点深度,计算每个species的平均测序深度;
挑选至少在3个样本中平均测序深度不小于10的species,计算该species在每一个样本中的SNP数量;
根据species在步骤S1中的个体肠道菌群的测序数据,筛选出覆盖率不小于8的样本基因,并计算样本基因在每个样本中的SNP数目,确定肠道菌的主要组成成分以及亚种组成成分;
S3,分析、挖掘肠道菌群的SNP;
根据步骤S2确定的肠道菌的主要组成成分以及亚种组成成分,提取分布存在季节性循环模式的物种的全基因组SNP位点和相应的等位基因频率,仅考虑等位基因频率大于0.2的SNP,得到SNP频率矩阵,计算所有两两样本间的曼哈顿距离,然后基于最长距离进行层次聚类分析,挖掘具有季节性循环的SNP后,进行Wilcoxon秩和检验;
S4,鉴定个体肠道菌群类型,指导肠道菌群健康预警;
根据步骤S3中具有季节性循环的SNP的蛋白序列映射到KEGG数据库中,进行比对,根据最高比对得分结果,获得其参与的生物路径信息,进而根据肠道菌的动态变化来指导肠道菌群健康预警。
2.根据权利要求1所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,步骤S1的具体操作为:
下载肠道微生物全基因组测序数据,对得到的sra数据文件进行格式转化和质控处理,并对所有的物种进行分析,合并物种丰度表。
3.根据权利要求2所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,所述肠道微生物全基因组测序数据为Illumina HiSeq 4000的鸟枪法测序数据,来自NCBI SRA数据库。
4.根据权利要求2所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,对sra数据文件进行格式转化的具体操作为:
使用sra tools的fastq-dump命令将原始的sra文件转换为含序列的碱基组成信息和碱基测序质量信息的fastq文件。
5.根据权利要求2所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,步骤S1中,所述质控处理的具体操作为:
使用Trimmomatic对原始测序数据进行质控处理,SE参数指定单端测序数据,使用ILLUMINACLIP参数去除接头,使用LEADING参数从序列头部开始去除碱基质量低于5的碱基,使用TRAILING参数从序列尾部开始去除碱基质量低于5的碱基。
6.根据权利要求1所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,步骤S2中,确定肠道菌的主要组成成分以及亚种组成成分的方法包括绘制系统进化树或根据突变频率进行聚类分析。
7.根据权利要求6所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,所述绘制系统进化树的操作是:
使用ASC_GTRGAMMA核酸替换模型,RAxMLHPC的'-f a'选项参数算法进行快速bootstrap分析,使用lewis方法进行ascertainment bias校正,采用随机抽样的方法组成新的序列,然后进行序列比对,该过程重复50次以上。
8.根据权利要求1所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,步骤S3中,全基因组SNP位点和相应的等位基因频率的提取操作包括:
(1)比对阶段:针对151bp的序列长度,首先使用Burrows-Wheeler Aligner对参考基因组建立索引,然后使用BWA MEM算法完成模拟数据的比对,使用-R参数添加sam文件注释信息中的RG部分,输出sam文件;
(2)预处理阶段:首先使用SAMtools view命令将sam文件转化为二进制格式bam文件,再使用SAMtools sort命令将bam文件按照scaffold位置进行排序;其次,使用picard将排序后的bam文件去除重复;然后,使用SAMtools index命令对去除重复后的bam文件建立索引;最后,使用VarScan2mpileup2snp命令对去除重复后的bam文件进行SNP-calling得到变异位点信息的vcf文件。
9.根据权利要求8所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,所述vcf文件的数据记录部分由以空格键分割的多列组成,前八列表示变异位点的相关信息,分别为:染色体名称或scaffold名称、变异位点在染色体上的位置、变异位点在已有数据库中的ID号、参考碱基、变异碱基、质量得分、是否通过过滤标准、相关信息;其后每一列表示某个样本在该位点的信息。
10.根据权利要求1所述的基于SNP鉴定个体肠道菌群类型的方法,其特征在于,步骤S3中,所述层次聚类分析的步骤为:
采用MetaPhlAn2软件从NCBI Genome数据库的gff中的参考基因组中鉴定到的marker基因,获得species水平该群落的物种组成和丰度信息,并将物种丰度表进行合并,然后提取species信息,得到所有样本在species水平的物种丰度信息。
CN201911075063.2A 2019-11-06 2019-11-06 一种基于snp鉴定个体肠道菌群类型的方法 Active CN110827917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911075063.2A CN110827917B (zh) 2019-11-06 2019-11-06 一种基于snp鉴定个体肠道菌群类型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911075063.2A CN110827917B (zh) 2019-11-06 2019-11-06 一种基于snp鉴定个体肠道菌群类型的方法

Publications (2)

Publication Number Publication Date
CN110827917A true CN110827917A (zh) 2020-02-21
CN110827917B CN110827917B (zh) 2023-10-20

Family

ID=69552849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911075063.2A Active CN110827917B (zh) 2019-11-06 2019-11-06 一种基于snp鉴定个体肠道菌群类型的方法

Country Status (1)

Country Link
CN (1) CN110827917B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710364A (zh) * 2020-05-08 2020-09-25 中国科学院深圳先进技术研究院 一种菌群标记物的获取方法、装置、终端及存储介质
CN116434840A (zh) * 2022-10-19 2023-07-14 佛山科学技术学院 一种预测猪饲料转化率的方法
CN116580772A (zh) * 2022-10-19 2023-08-11 佛山科学技术学院 一种预测猪平均日增重的方法
CN117352057A (zh) * 2023-03-28 2024-01-05 广东弘元普康医疗科技有限公司 一种菌群分布状态的评估方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050026188A1 (en) * 2003-05-30 2005-02-03 Van Kessel Andrew G. Methods of identifying, characterizing and comparing organism communities
CN105046094A (zh) * 2015-08-26 2015-11-11 深圳谱元科技有限公司 肠道菌群的检测系统及其方法和动态式数据库
US20160326574A1 (en) * 2013-11-01 2016-11-10 Washington University Methods to establish and restore normal gut microbiota function of subject in need thereof
US20170314014A1 (en) * 2015-10-19 2017-11-02 Dovetail Genomics, Llc Methods for Genome Assembly, Haplotype Phasing, and Target Independent Nucleic Acid Detection
CN107430644A (zh) * 2015-03-27 2017-12-01 遗传分析股份有限公司 用于测定胃肠道菌群失调的方法
US20180363031A1 (en) * 2015-12-04 2018-12-20 Biome Makers Inc. Microbiome based identification, monitoring and enhancement of fermentation processes and products
CN109360603A (zh) * 2018-10-25 2019-02-19 华中科技大学鄂州工业技术研究院 确定肠道细菌亚种的方法及设备
CN110144415A (zh) * 2019-04-23 2019-08-20 大连大学 一种基于肠道菌群预测引进奶牛健康和免疫力水平方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050026188A1 (en) * 2003-05-30 2005-02-03 Van Kessel Andrew G. Methods of identifying, characterizing and comparing organism communities
US20160326574A1 (en) * 2013-11-01 2016-11-10 Washington University Methods to establish and restore normal gut microbiota function of subject in need thereof
CN107430644A (zh) * 2015-03-27 2017-12-01 遗传分析股份有限公司 用于测定胃肠道菌群失调的方法
CN105046094A (zh) * 2015-08-26 2015-11-11 深圳谱元科技有限公司 肠道菌群的检测系统及其方法和动态式数据库
US20170314014A1 (en) * 2015-10-19 2017-11-02 Dovetail Genomics, Llc Methods for Genome Assembly, Haplotype Phasing, and Target Independent Nucleic Acid Detection
US20180363031A1 (en) * 2015-12-04 2018-12-20 Biome Makers Inc. Microbiome based identification, monitoring and enhancement of fermentation processes and products
CN109360603A (zh) * 2018-10-25 2019-02-19 华中科技大学鄂州工业技术研究院 确定肠道细菌亚种的方法及设备
CN110144415A (zh) * 2019-04-23 2019-08-20 大连大学 一种基于肠道菌群预测引进奶牛健康和免疫力水平方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹乐;宁康;: "昆虫肠道的宏基因组学:微生物大数据的新疆界" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710364A (zh) * 2020-05-08 2020-09-25 中国科学院深圳先进技术研究院 一种菌群标记物的获取方法、装置、终端及存储介质
WO2021223449A1 (zh) * 2020-05-08 2021-11-11 中国科学院深圳先进技术研究院 一种菌群标记物的获取方法、装置、终端及存储介质
CN111710364B (zh) * 2020-05-08 2022-02-15 中国科学院深圳先进技术研究院 一种菌群标记物的获取方法、装置、终端及存储介质
CN116434840A (zh) * 2022-10-19 2023-07-14 佛山科学技术学院 一种预测猪饲料转化率的方法
CN116580772A (zh) * 2022-10-19 2023-08-11 佛山科学技术学院 一种预测猪平均日增重的方法
CN116580772B (zh) * 2022-10-19 2024-01-30 佛山科学技术学院 一种预测猪平均日增重的方法
CN116434840B (zh) * 2022-10-19 2024-04-19 佛山科学技术学院 一种预测猪饲料转化率的方法
CN117352057A (zh) * 2023-03-28 2024-01-05 广东弘元普康医疗科技有限公司 一种菌群分布状态的评估方法及相关装置
CN117352057B (zh) * 2023-03-28 2024-05-10 广东弘元普康医疗科技有限公司 一种菌群分布状态的评估方法及相关装置

Also Published As

Publication number Publication date
CN110827917B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Wu et al. Guild-based analysis for understanding gut microbiome in human health and diseases
CN108804875B (zh) 一种利用宏基因组数据分析微生物群体功能的方法
CN110827917A (zh) 一种基于snp鉴定个体肠道菌群类型的方法
Nuccio et al. Niche differentiation is spatially and temporally regulated in the rhizosphere
Chijiiwa et al. Single-cell genomics of uncultured bacteria reveals dietary fiber responders in the mouse gut microbiota
Tanizawa et al. DFAST and DAGA: web-based integrated genome annotation tools and resources
Naser et al. Identification of lactobacilli by pheS and rpoA gene sequence analyses
Mu et al. High‐production dairy cattle exhibit different rumen and fecal bacterial community and rumen metabolite profile than low‐production cattle
Huys et al. Cellular fatty acid composition as a chemotaxonomic marker for the differentiation of phenospecies and hybridization groups in the genus Aeromonas
Jiang et al. Vibrio Clade 3.0: new Vibrionaceae evolutionary units using genome-based approach
Jeraldo et al. Capturing one of the human gut microbiome’s most wanted: reconstructing the genome of a novel butyrate-producing, clostridial scavenger from metagenomic sequence data
Arning et al. Machine learning to predict the source of campylobacteriosis using whole genome data
Praet et al. Gilliamella intestini sp. nov., Gilliamella bombicola sp. nov., Gilliamella bombi sp. nov. and Gilliamella mensalis sp. nov.: Four novel Gilliamella species isolated from the bumblebee gut
Choi et al. Pan-genomics of Lactobacillus plantarum revealed group-specific genomic profiles without habitat association
Harrison et al. Fungal microbiomes are determined by host phylogeny and exhibit widespread associations with the bacterial microbiome
Yadav et al. Cecal microbiome profile of Hawaiian feral chickens and pasture-raised broiler (commercial) chickens determined using 16S rRNA amplicon sequencing
Zhu et al. Impact of dietary fibre: starch ratio in shaping caecal archaea revealed in rabbits
Fontana et al. Designation of optimal reference strains representing the infant gut bifidobacterial species through a comprehensive multi‐omics approach
CN110734989A (zh) 一种药用植物共生微生物鉴定方法及其应用
Moerman et al. Selection on growth rate and local adaptation drive genomic adaptation during experimental range expansions in the protist Tetrahymena thermophila
Gmeiner et al. Predicting Listeria monocytogenes virulence potential using whole genome sequencing and machine learning
JP2020530310A (ja) 所望の遺伝形質に関して反芻動物を選択する方法
Silvaraju et al. Phylotype-level characterization of complex communities of Lactobacilli using a high-throughput, high-resolution phenylalanyl-tRNA synthetase (pheS) gene amplicon sequencing approach
Wongkuna et al. Taxono-genomics description of Olsenella lakotia SW165 T sp. nov., a new anaerobic bacterium isolated from cecum of feral chicken
Chen et al. Development of a Lactobacillus specific T-RFLP method to determine lactobacilli diversity in complex samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant