CN117174181A - 拉梅尔芽孢杆菌属泛基因组的分析方法 - Google Patents
拉梅尔芽孢杆菌属泛基因组的分析方法 Download PDFInfo
- Publication number
- CN117174181A CN117174181A CN202310915901.2A CN202310915901A CN117174181A CN 117174181 A CN117174181 A CN 117174181A CN 202310915901 A CN202310915901 A CN 202310915901A CN 117174181 A CN117174181 A CN 117174181A
- Authority
- CN
- China
- Prior art keywords
- genome
- analysis
- bacillus
- gene
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 241000193830 Bacillus <bacterium> Species 0.000 title claims abstract description 30
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 140
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000002068 genetic effect Effects 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 6
- 239000000304 virulence factor Substances 0.000 claims description 11
- 230000007923 virulence factor Effects 0.000 claims description 11
- 230000037353 metabolic pathway Effects 0.000 claims description 10
- 230000001018 virulence Effects 0.000 claims description 9
- 241000894006 Bacteria Species 0.000 claims description 7
- 238000003068 pathway analysis Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 238000010790 dilution Methods 0.000 claims description 4
- 239000012895 dilution Substances 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 108091026890 Coding region Proteins 0.000 abstract description 2
- 235000018102 proteins Nutrition 0.000 description 20
- 241001571332 Rummeliibacillus Species 0.000 description 14
- 241000973219 Rummeliibacillus stabekisii Species 0.000 description 14
- 241000894007 species Species 0.000 description 10
- 241000693218 Rummeliibacillus suwonensis Species 0.000 description 8
- 230000001580 bacterial effect Effects 0.000 description 8
- 108091008053 gene clusters Proteins 0.000 description 8
- 230000004060 metabolic process Effects 0.000 description 7
- 239000002773 nucleotide Substances 0.000 description 7
- 125000003729 nucleotide group Chemical group 0.000 description 7
- 230000032258 transport Effects 0.000 description 7
- 241001451093 Rummeliibacillus pycnus Species 0.000 description 6
- 101100520665 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) POC4 gene Proteins 0.000 description 6
- FUZZWVXGSFPDMH-UHFFFAOYSA-N hexanoic acid Chemical compound CCCCCC(O)=O FUZZWVXGSFPDMH-UHFFFAOYSA-N 0.000 description 6
- 241001518431 Rummeliibacillus sp. Species 0.000 description 5
- 239000004475 Arginine Substances 0.000 description 4
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 4
- 230000008436 biogenesis Effects 0.000 description 4
- 108010006464 Hemolysin Proteins Proteins 0.000 description 3
- 235000001014 amino acid Nutrition 0.000 description 3
- 230000037354 amino acid metabolism Effects 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000003228 hemolysin Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000002689 soil Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 241000194033 Enterococcus Species 0.000 description 2
- 108700039887 Essential Genes Proteins 0.000 description 2
- 108010052285 Membrane Proteins Proteins 0.000 description 2
- 102000018697 Membrane Proteins Human genes 0.000 description 2
- 108010047956 Nucleosomes Proteins 0.000 description 2
- 241001076575 Rummeliibacillus sp. TYF005 Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000023852 carbohydrate metabolic process Effects 0.000 description 2
- 150000001720 carbohydrates Chemical class 0.000 description 2
- 235000014633 carbohydrates Nutrition 0.000 description 2
- 210000000170 cell membrane Anatomy 0.000 description 2
- 210000002421 cell wall Anatomy 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- RDYMFSUJUZBWLH-UHFFFAOYSA-N endosulfan Chemical compound C12COS(=O)OCC2C2(Cl)C(Cl)=C(Cl)C1(Cl)C2(Cl)Cl RDYMFSUJUZBWLH-UHFFFAOYSA-N 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 230000000813 microbial effect Effects 0.000 description 2
- 210000001623 nucleosome Anatomy 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 101150093357 slrA gene Proteins 0.000 description 2
- 231100000331 toxic Toxicity 0.000 description 2
- 230000002588 toxic effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 108700010070 Codon Usage Proteins 0.000 description 1
- ZAQJHHRNXZUBTE-WUJLRWPWSA-N D-xylulose Chemical compound OC[C@@H](O)[C@H](O)C(=O)CO ZAQJHHRNXZUBTE-WUJLRWPWSA-N 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 206010013883 Dwarfism Diseases 0.000 description 1
- 101710146739 Enterotoxin Proteins 0.000 description 1
- 101100155531 Escherichia coli (strain K12) ispU gene Proteins 0.000 description 1
- 108091029865 Exogenous DNA Proteins 0.000 description 1
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 1
- 241000276703 Oreochromis niloticus Species 0.000 description 1
- 101710116435 Outer membrane protein Proteins 0.000 description 1
- 206010057249 Phagocytosis Diseases 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 108091027544 Subgenomic mRNA Proteins 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 230000010065 bacterial adhesion Effects 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 230000008238 biochemical pathway Effects 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000032770 biofilm formation Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 235000021256 carbohydrate metabolism Nutrition 0.000 description 1
- 230000021164 cell adhesion Effects 0.000 description 1
- 101150090177 cheY gene Proteins 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 101150036359 clpB gene Proteins 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000147 enterotoxin Substances 0.000 description 1
- 231100000655 enterotoxin Toxicity 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 101150062762 fliQ gene Proteins 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000002949 hemolytic effect Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 101150078841 pan gene Proteins 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 230000009046 primary transport Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 235000008521 threonine Nutrition 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 101150103517 uppS gene Proteins 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物信息技术领域,具体涉及拉梅尔芽孢杆菌属泛基因组的分析方法。目前拉梅尔芽孢杆菌泛基因组还未见分析和报道,本发明提供拉梅尔芽孢杆菌属泛基因组的分析方法,包括以下步骤:获取拉梅尔芽孢杆菌的蛋白质编码序列,进行泛基因组分析与计算;提取待分析的共有保守蛋白的基因序列,选取最大似然法构建系统发育树,分析不同菌株之间的遗传进化关系;将待分析的基因组序列两两组合选择,进行ANI值计算,根据ANI值衡量菌株之间相似度,从而验证系统发育树的可靠性。本发明方法具有通用性高、易用性强的优点,整个方法简单,可靠,准确度高,易于理解和使用,操作方便,并且能够提供更全面、更深入的信息。
Description
技术领域
本发明属于生物信息技术领域,具体涉及拉梅尔芽孢杆菌属泛基因组的分析方法。
背景技术
近年来关于拉梅尔芽孢杆菌(Rummeliibacillus)的应用报道逐渐增多。在NCBIGenBank已公布的拉梅尔芽孢杆菌基因组数据也在增多,而且分离来源呈现多样化。拉梅尔芽孢杆菌生活在不同的生态位中,因此面临不同的栖息地限制,它们已经进化出适应不同生态位的能力。然而,有利于拉梅尔芽孢杆菌适应不同生态位的遗传特性和基因组进化在很大程度上仍未确定。泛基因组(Pan-genome),指一个物种内所有基因组信息的总和,比单一参考基因组涵盖了更多的遗传多样性。
因此,提供一种拉梅尔芽孢杆菌属泛基因组的分析方法,对于拉梅尔芽孢杆菌的研究应用具有重要意义。
发明内容
目前拉梅尔芽孢杆菌(Rummeliibacillus)泛基因组还未见分析和报道,本发明提供一种拉梅尔芽孢杆菌属泛基因组的分析方法。
本发明技术方案如下:
拉梅尔芽孢杆菌属泛基因组的分析方法,包括以下步骤:
(1)数据获取:
从公开基因组数据库中收集获取拉梅尔芽孢杆菌的蛋白质编码基因序列数据;
(2)数据分析和计算:
将步骤(1)中的数据进行泛基因组分析与计算,绘制拉梅尔芽孢杆菌属基因组的稀释曲线,分析开闭合趋势;
(3)提取基因组共有保守蛋白的基因序列,分析菌株间的遗传进化关系:
提取拉梅尔芽孢杆菌属基因组共有保守蛋白的基因序列,将串联的基因序列用最大似然法构建系统发育树,分析不同菌株之间的遗传进化关系;
(4)验证系统发育树可靠性:
将拉梅尔芽孢杆菌属基因组序列两两组合选择,进行平均核苷酸同一性(AverageNucleotide Identity,ANI)值计算,根据ANI值衡量菌株之间相似度,验证步骤(3)中系统发育树的可靠性。
进一步地,步骤(1)中,所述公开基因组数据库包括RefSeq和/或Genbank库中分类为拉梅尔芽孢杆菌的基因组序列。
进一步地,步骤(2)中,泛基因组分析与计算软件为BPGA软件;绘制工具为快速分析细菌泛基因组谱工具PanGP软件。
进一步地,步骤(3)中,进化树构建软件包括MEGAX。
进一步地,步骤(3)中,所述共有保守蛋白的基因序列是指相似度≥50%、覆盖度≥70%的核心基因。
进一步地,步骤(3)中,还包括对待分析的拉梅尔芽孢杆菌属基因组进行蛋白质直向同源簇注释,之后提取待分析的多株拉梅尔芽孢杆菌属基因组共有保守蛋白的基因序列。
优选地,所述直向同源簇注释包括采用KEGG自动注释服务器对各个待分析菌株均进行在线KEGG代谢通路分析。
更优选地,所述在线KEGG代谢通路分析包括以下步骤:
①下载待分析菌株所有通路的结果;
②统计核心基因、辅助基因和特殊基因在各个代谢途径中数量;
③分析核心基因、辅助基因和特殊基因的具体作用。
进一步地,步骤(4)中,ANI分析工具包括Jspecies软件。
进一步地,所述拉梅尔芽孢杆菌属泛基因组的分析方法,还包括对拉梅尔芽孢杆菌属基因组进行毒力因子注释。
优选地,所述毒力因子注释包括将待分析的多株拉梅尔芽孢杆菌属基因组蛋白序列分别与毒力因子数据库进行比对,以此来确定待分析的多株拉梅尔芽孢杆菌属是否含有毒力基因。
进一步地,所述拉梅尔芽孢杆菌属泛基因组的分析方法,还包括预测拉梅尔芽孢杆菌属基因组中的可移动遗传元件,对原噬菌体序列和基因组岛进行预测。
优选地,对所述基因组岛进行预测包括:通过检测序列中的二核苷酸偏向性和移动性基因来判定基因岛及潜在的水平基因转移。
优选地,对所述原噬菌体序列进行预测包括使用噬菌体预测软件对完整原噬菌体区域进行深度分析。
有益效果:本发明提供一种拉梅尔芽孢杆菌属泛基因组的分析方法,具有通用性高、易用性强的优点,整个方法简单,可靠,准确度高,易于理解和使用,操作方便,并且能够提供更全面、更深入的信息。
附图说明
图1是实施例中Rummeliibacillus sp核心基因、辅助基因和特殊基因数量分布图;
图2是实施例中Rummeliibacillus sp泛基因组拟合特征曲线图;
图3是实施例中12株Rummeliibacillus各基因组ANI值的比较热图;
图4是实施例中12株Rummeliibacillus系统发育树;
图5是实施例中Rummeliibacillus菌株的核心基因组、辅助基因组和菌株特异性基因之间的COG类别分布图。
具体实施方式
本发明提供一种拉梅尔芽孢杆菌属泛基因组的分析方法,包括获取待分析的多株拉梅尔芽孢杆菌的蛋白质编码序列;将蛋白质编码序列导入细菌泛基因组分析软件进行泛基因组分析与计算;提取待分析的共有保守蛋白的基因序列,将串联的基因序列导入进化树构建软件,选取最大似然法构建系统发育树,分析不同菌株之间的遗传进化关系;将待分析的基因组序列导入Jspecies软件,两两组合选择,进行ANI值计算,根据ANI值衡量菌株之间相似度,从而验证系统发育树的可靠性。其具体实施方式包括以下步骤:
S1、获取待分析的多株水原拉梅尔芽孢杆菌的蛋白质编码序列,将所述蛋白质编码序列导入细菌泛基因组分析软件进行泛基因组分析与计算;同时将计算结果利用快速分析细菌泛基因组谱的工具绘制Rummeliibacillus sp基因组的稀释曲线,分析开闭合趋势;所述细菌泛基因组分析软件包括BPGA软件;所述快速分析细菌泛基因组谱的工具包括PanGP软件;
S2、根据快速分析细菌泛基因组谱的工具对Rummeliibacillus sp基因组的分析结果,提取待分析的多株Rummeliibacillus sp基因组共有保守蛋白的基因序列,之后将串联的基因序列导入进化树构建软件,选取最大似然法构建系统发育树,分析不同菌株之间的遗传进化关系;所述进化树构建软件包括MEGAX;
S3、将拉梅尔芽孢杆菌属基因组序列导入ANI分析工具,把拉梅尔芽孢杆菌属基因组序列两两组合选择,进行ANI值计算,根据ANI值衡量菌株之间相似度,从而验证步骤S2中所述系统发育树的可靠性。所述ANI分析工具包括Jspecies软件。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1
本发明实施例提供的Rummeliibacillus属泛基因组的分析方法,包括以下步骤:
首先采用BPGA进行分析,分别提取所有12株Rummeliibacillus的基因组的蛋白编码基因,然后将蛋白基因序列导入BPGA软件进行泛基因组分析与计算。同时利用PanGP软件绘制Rummeliibacillus sp基因组的稀释曲线,分析开闭合趋势。
根据泛基因组分析结果,提取12株Rummeliibacillus基因组共有保守蛋白的基因序列,即核心基因,相似度≥50%,覆盖度≥70%。之后将串联的序列导入MEGAX,选取最大似然法构建系统发育树,分析不同菌株之间的遗传进化关系。
基因组平均核苷酸同源性(Average Nucleotide Identity,ANI)是一种衡量菌株之间相似度的可靠方法。为分析12株Rummeliibacillus的分类学关系以及进一步验证基于基因组所构建的进化树的可靠性,利用Jspecies软件对12株Rummeliibacillus全基因组之间的ANI进行了分析;将12株Rummeliibacillus的基因组序列导入Jspecies软件,两两组合选择,共计132个组合进行ANI值计算。
使用egg NOG-mapper进行蛋白质直向同源簇(COG)注释。为研究Rummeliibacillus属代谢途径,采用KEGG自动注释服务器对各个菌株都进行了在线的KEGG代谢通路分析。首先,下载12个菌株所有通路的结果,再统计核心基因、辅助基因和特殊基因在各个代谢途径中数量,着重关注了Rummeliibacillus suwonensis 3B-1某些特殊的基因的分布,然后分析这些功能基因的具体作用。
将12株Rummeliibacillus sp全基因组蛋白序列分别与毒力因子数据库(VFDB,http://www.mgc.ac.cn/VFs/main.htm)进行比对,以此来确定R.suwonensis 3B-1是否含有毒力基因。
为了预测Rummeliibacillus基因组中的可移动遗传元件,对原噬菌体序列和基因组岛进行了预测。有横向起源迹象的存在某些细菌、质粒或噬菌体中的一部分基因组称为基因岛(Gis)。基因岛具有多种的生物学功能,包括抗生素抗性、致病性和离子摄取等。基因岛的GC含量和密码子选择与基因组的其余部位不同。因此,可以通过检测序列中的二核苷酸偏向性和移动性基因来判定基因岛及潜在的水平基因转移。采用Island Viewer4软件预测了Rummeliibacillus中的基因岛,该方法涉及三种方法:SIGI-HMM、孤岛路径-DIMOB和孤岛选择。原噬菌体序列用PHASTER注释。
当某些温和噬菌体侵入宿主细菌并将其核酸整合到宿主细菌的染色体中时,这种噬菌体处于整合状态,被称为原噬菌体(prophage)。为了识别Rummeliibacillus基因组中完整和不完整的原噬菌体区域,使用PHASTER软件,需要注意的是,仅对完整原噬菌体区域进行深度分析。
实验结果:
Rummeliibacillus属泛基因组特征
共有12个Rummeliibacillus sp基因组用于泛基因组分析,基因组大小在3.24至4.17Mb之间。蛋白质编码基因的平均数量为3404个,GC含量在34.40%至37.70%之间。具体看表格1。Rummeliibacillus的12个基因组中的所有蛋白质编码基因被分为8024个基因簇。其中,在12个菌株的所有基因组中发现了1550个基因簇,构成了Rummeliibacillus的核心基因组。这些基因可能代表了Rummeliibacillus的常见代谢和生理特征。辅助基因组包括3941个基因簇,由存在于两个或多个基因组中的基因组成,但并非所有研究的基因组中。每个基因组中的菌株特异性基因范围从1到600个,见图1。R.pycnus和Rummeliibacillussp.SL167具有最多的菌株特异性基因(分别为600个和419个)。然而,R.stabekisiiDSM25578和R.stabekisii NBRC104870具有最少数量的菌株特异性基因(分别为1和6)。R.suwonensis 3B-1和R.suwonensis G20分别含有184和201个特殊基因。
表1Rummeliibacillus sp基因组信息及分离来源
由于同一物种内不同菌株的微生物基因组序列迅速增加,开放和封闭基因组的存在现在可以在许多属中实现。首先,由PanGP生成的累积曲线。泛基因组大小拟合的数学公式是基于希普斯定律的幂律回归(y=AxB+C,其中y表示泛基因组的基因数量;x表示分析的基因组数量;A、B和C是拟合参数)。当0<B<1时,当添加新的分析基因组时,泛基因组的数量增加,泛基因组被认为是开放的。当B>1时,当添加新的分析基因组时,泛基因组的基因数量不会增加,可以认为是封闭的。核心基因组拟合的基因数量的数学公式是指数回归模型(y=AeBx+C,其中y表示核心基因组的基因数量;x表示分析的基因组数量;A、B和C是拟合参数)。12株Rummeliibacillus的pan-genome谱分析的拟合曲线显示,见图2,曲线的拟合指数为正,表明Rummeliibacillus的泛基因组是开放的,这表明每个添加的基因组将贡献新的基因家族,并增加泛基因组中的基因数量。开放泛基因组也表明Rummeliibacillus经历了频繁的进化事件以适应不同的环境变化。
对未知属和已知种的平均核苷酸同一性(ANI)的比较。使用BLAST在成对比较中计算基因组之间的ANI。结果如图3所示。此外,为了分析12个Rummeliibacillus sp菌株的系统发育关系,基于串联的核心基因比对构建了系统发育树,如图4所示。在系统发育树中,12个菌株被分为两个主要分支。该树大致分为两个大分支,一个分支上聚集着R.stabekisii,另一个大分支上聚集了R.suwonensis和R.pycnus,而R.pycnus则分离成一个小分支。Rummeliibacillus sp.G93和R.stabekisii NBRC 104870的ANI值达到98.75%。Rummeliibacillussp.G93与R.stabekisii DSM 25578的ANI也达到98.75%,同时,在系统发育树中,R.stabekisii NBRC 104.870和R.stabakisii DSM 25578与Rummeliibacillussp.G93在同一分支上。此外,从分离来源来看,Rummeliibacillus sp.G93和R.stabekisiiDSM 25578都来自土壤,它们的进化环境大致相似。因此,Rummeliibacillus sp.G93属于R.stabekisii。Rummeliibacillussp.TYF-LIM-RU47和R.stabekisii MERTA13的ANI值达到98.14%。同时,Rummelibacillussp.TYF-LIM-RU47与R.stabekisii MERTA13位于进化树的同一分支上,因此可以确定Rummeliibacillus sp.TYF-LIN-RU47也属于R.stabekisii。值得注意的是,在尼罗罗非鱼和腌制竹笋的内脏中也筛选了R.stabekisii。因此,可以看出,R.stabekisii生活在广泛的环境中。在另一个分支中,Rummeliibacillus sp.POC4和Rummeliibacillus sp.TYF005的ANI值为98.41%,系统发育树的同一分支进一步表明它们是同一物种。而Rummeliibacillus sp.POC4与R.pycnus、R.suwonensis 3B-1、R.suwanensis G20和Rummeliibaicillus sp.SL167的ANI值分别为80.17%、81.02%、80.97%和81.09%。这表明Rummeliibacillus sp.POC4和Rummeliibacillus sp.TYF005既不是P.pycnus也不是R.suwonensis。这可能表明它们可能属于一个新物种。泛基因组基因簇的COG分析结果如图5所示。未知功能(S)是核心基因组、副基因组和菌株特异性基因的最大类别,分别占26.7%、22.3%和29.8%。就功能性COG类别而言,核心基因组中的大多数基因对生命活动至关重要,如转录(K)(6.2%)、翻译、核小体结构和生物发生(J)(10.3%)、氨基酸运输和代谢(E)(7.6%)、能量生产和转换(C)(5.2%)、复制、重组和修复(L)(6.5%)和细胞壁/膜/包膜生物发生(M)(4.8%);对于辅助基因组,COG注释显示,最大的类别是核苷酸转运和代谢(F)(22.0%)、转录内含水平(K)(9.5%)和转运和代谢内含水平(P)(5.8%)。
在本发明的KEGG分类中,基因的主要部分与碳水化合物代谢,氨基酸代谢、辅助因子和维生素的代谢有关。对于底物转运,ATP结合盒(ABC)转运蛋白和磷酸转移酶系统(PTS)是KAAS注释的主要转运系统。在碳水化合物代谢途径中,核心基因组注释了138个基因,辅助基因组注释了195个基因,特殊基因组注释了54个基因。氨基酸代谢中,在核心基因组、辅助基因组和特殊基因组中分别注释了126,229,58个基因。通过泛基因组特征分析部分可知,R.suwanensis 3B-1在整个泛基因组中存在184个特殊基因,通过对这些基因分配的KO号分析发现该菌相比于其他菌株可能在苏氨酸、天冬氨酸、半胱氨酸等的氨基酸的代谢合成上有差异。值得注意的是,在分析的过程中发现该菌可以利用木酮糖,这可能表明R.suwanensis 3B-1有潜在利用该糖的能力,为此通过模型对这一结果进行预测验证,发现模型的确能够利用该糖生长。另外在R.suwanensis 3B-1特殊基因中发现与己酸合成的必需基因bcd,该基因与模型预测的必需基因一致,这稀少的基因表明Rummeliibacillus可能产己酸的能力不强。但在核心基因组中却发现了大量与精氨酸合成相关的基因,如arg系列的基因,nos等基因,有研究表明R.pycnus有合成精氨酸的能力,因此可推测该Rummeliibacillus其他菌株或许有着相同的特性。
将核心基因组、辅助基因组和特殊基因组的序列与VFDB数据库进行比较。在Rummeliibacillus泛基因组中,共鉴定出38种毒力基因。其中,所有菌株共有13个核心毒力基因,每个菌株中有4个独特的毒力因子。土壤中的Rummeliibacillus sp.SL167具有最多的毒力基因,携带32种。产自土壤中的侏儒酸模霉(Rummeliibacillus pycnus)的毒力基因最少,有19种。所有12种Rummeliibacillus都参与毒力因子的编码,包括粘附(flmH和slrA)、分泌系统(clpB和cdsN)、调节(cheY和lisR)、抗吞噬作用(uppS)和运动(fliQ)等。粘附相关基因可以促进粘附和生物膜形成,这是链球菌发病机制中的一个重要因素。粘附基因slrA编码许多表面蛋白。这些表面蛋白被确定为重要的毒力因子,涉及细菌对宿主细胞上皮细胞的粘附,由识别粘附基质分子的微生物表面成分介导,从而促进宿主细胞粘附和组织定植。此外,R.pycnus、Rummeliibacillus sp.POC4、R.suwonensis 3B-1和R.suwonensis G20携带三个毒性基因(cylR2、cysC1和hlyII)。Rummeliibacillus sp.TYF-LIM-RU47、R.stabekisii DSM25578、R.stabekisii MERTA13和R.stabekisii NBRC04870只含有一个毒性基因,即hlyII。其余的含有两种有毒基因(cylR2和hlyIII)。它们都有一个毒性基因hlyIII,这是一种形成孔的溶血素,是一种具有溶血活性的完整外膜蛋白。然而,肠球菌溶血素表达需要完整的CylR2、CylA、CylB等8个蛋白,缺少任意一个都不能使肠球菌溶血素表达,同样的,肠毒素单独存在时也不具有毒力。因此,可以说R.suwanensis 3B-1是一种安全菌株。为了研究Rummeliibacillus中的移动遗传元件(MGE),使用IslandViewer4(用于计算识别和可视化基因组岛的集成界面)。MGE可以介导DNA的获取,并促进细菌群基因库的扩展。Rummeliibacillus基因组中Gis的数量范围从4(R.stabekisii DSM25578和R.stabekisii NBRC-104870)到14(Rummeliibacillus sp.SL167和Rummelibacillussp.TYF005),表明Rummelibacillus存在广泛的MGEs。R.suwanensis G20的Gis总长度最大,占其基因组大小的8.22%(4.11Mb)。这些MGEs可能导致横向基因转移,Rummeliibacillus物种之间的分化主要就是是由于横向基因转移,基因组内的基因组内重排以及作为外源DNA整合到基因组中的能力。虽然核心基因编码与基本生物过程和表型特征相关的蛋白质,但适应性基因通过编码补充生化途径和附加功能显着促进物种多样性,这对于不同生态位的选择性优势至关重要。Rummeliibacillus泛基因组中适应性基因的优势使这些细菌能够栖息在各种生态位中并在各种环境中发挥作用。
此外,使用PHASTER在线服务扫描本研究中的Rummeliibacillus基因组,以获得原噬菌体序列。在搜索了12株Rummeliibacillus的原噬菌体序列后共有8个完整型原噬菌体序列,8个可疑型原噬菌体序列,26个不完整型原噬菌体序列。R.stabekisii PP9是最完整的,检测到三个假定的原噬菌体序列,包括PHAGE_Paenib_Vegas(NC_028767)(名字相同,蛋白大小不一样)和PHAGE_Aeriba_AP45(NC_048651)。然而,R.suwanensis 3B-1和R.stabekisii,Rummeliibacillus sp.DSM25578都是些不完整的,因而没有体现。PHAGE_Aeriba_AP45(NC_048651)在Rummeliibacillus sp.G93、Rummeliibacillus sp.TYF-LIM-RU47和R.stabekisii PP9中发现,表明噬菌体在菌株的进化和多样性中发挥了重要作用。本发明利用BPGA构建了Rummeliibacillus sp菌的泛基因组,统计了泛基因组的基本特征,对其系统发育做了细致地分析,同时分析了泛基因的可移动遗传元件,对其毒力因子做出详细注释以及对功能注释,特别是R.suwanensis 3B-1,做出了一定的分析,主要结果如下:
(1)泛基因基因组大小在3.24至4.17Mb之间。蛋白质编码基因的平均数量为3404个,GC含量在34.40%至37.70%之间。Rummeliibacillus sp的12个基因组中的所有蛋白质编码基因被分为8024个基因簇。其中,在12个菌株的所有基因组中发现了1550个基因簇,构成了Rummeliibacillus sp的核心基因组。辅助基因组包括3941个基因簇,特异性基因有2533个。PanGP分析表明Rummeliibacillus的泛基因组是开放的。
(2)确定了菌株Rummeliibacillus sp.G93和Rummeliibacillus sp.TYF-LIN-RU47属于R.stabekisii。确定了Rummeliibacillus sp.POC4和Rummeliibacillussp.TYF005是同一物种。Rummeliibacillus sp.POC4与Rummeliibacillus sp.TYF005既不是P.pycnus也不是R.suwanensis。这可能表明它们可能属于一个新物种。
(3)泛基因组基因簇的COG分析结果核心基因组中的大多数基因对生命活动至关重要,最高的是翻译、核小体结构和生物发生(J)(10.3%)、其次是氨基酸运输和代谢(E)(7.6%)、能量生产和转换(C)(5.2%)、复制、重组和修复(L)(6.5%)和细胞壁/膜/包膜生物发生(M)(4.8%);对于辅助基因组,最大的类别是核苷酸转运和代谢(F)(22.0%)、转录内含水平(K)(9.5%)和转运和代谢内含水平(P)(5.8%)。KEGG注释表明在碳水化合物和氨基酸代谢是注释出来基因是最多的。分析发现R.suwanensis 3B-1有着与己酸合成的特殊基因,在整个核心基因组中发现大量与精氨酸合成相关基因,表明该Rummeliibacillus sp有合成精氨酸的潜力。
(4)通过对泛基因组可移动遗传元件分析,所有12个菌株中都鉴定出了基因组岛,从4个(R.stabekisii DSM25578和R.stabekisii NBRC-104870)到14个(Rummeliibacillussp.SL167和Rummeliibacillus sp.TYF005),在12株Rummeliibacillus sp的原噬菌体序列后,共有8个完整型,8个可疑型,26个区域不完整型,这表明噬菌体在菌株的进化和多样性中发挥了重要作用。噬菌体PHAGE_Aeriba_AP45(NC_048651)(存在于Rummeliibacillussp.G93、Rummeliibacillus sp.TYF-LIM-RU47、Rummeliibacillus stabekisii PP9)可能在Rummeliibacillus菌株遗传和进化中发挥着重要作用。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.拉梅尔芽孢杆菌属泛基因组的分析方法,其特征在于:包括以下步骤:
(1)数据获取:
从公开基因组数据库中收集获取拉梅尔芽孢杆菌的蛋白质编码基因序列数据;
(2)数据分析和计算:
将步骤(1)中的数据进行泛基因组分析与计算,绘制拉梅尔芽孢杆菌属基因组的稀释曲线,分析开闭合趋势;
(3)提取基因组共有保守蛋白的基因序列,分析菌株间的遗传进化关系:
提取拉梅尔芽孢杆菌属基因组共有保守蛋白的基因序列,将基因序列用最大似然法构建系统发育树,分析不同菌株之间的遗传进化关系;
(4)验证系统发育树可靠性:
将拉梅尔芽孢杆菌属基因组序列两两组合选择,进行ANI值计算,根据ANI值衡量菌株之间相似度,验证系统发育树的可靠性。
2.根据权利要求1所述的分析方法,其特征在于:步骤(1)中,所述公开基因组数据库包括RefSeq和/或Genbank库中分类为拉梅尔芽孢杆菌的基因组序列。
3.根据权利要求1所述的分析方法,其特征在于:步骤(2)中,泛基因组分析与计算软件为BPGA软件;绘制工具为快速分析细菌泛基因组谱工具PanGP软件;步骤(3)中,进化树构建软件包括MEGAX;步骤(4)中,ANI分析工具包括Jspecies软件。
4.根据权利要求1所述的分析方法,其特征在于:步骤(3)中,所述共有保守蛋白的基因序列是指相似度≥50%、覆盖度≥70%的核心基因。
5.根据权利要求1所述的分析方法,其特征在于:步骤(3)中,还包括对待分析的拉梅尔芽孢杆菌属基因组进行蛋白质直向同源簇注释,之后提取待分析的多株拉梅尔芽孢杆菌属基因组共有保守蛋白的基因序列。
6.根据权利要求5所述的分析方法,其特征在于:所述直向同源簇注释包括采用KEGG自动注释服务器对各个待分析菌株均进行在线KEGG代谢通路分析。
7.根据权利要求6所述的分析方法,其特征在于:所述在线KEGG代谢通路分析包括以下步骤:
①下载待分析菌株所有通路的结果;
②统计核心基因、辅助基因和特殊基因在各个代谢途径中数量;
③分析核心基因、辅助基因和特殊基因的具体作用。
8.根据权利要求1~7任一项所述的分析方法,其特征在于:所述拉梅尔芽孢杆菌属泛基因组的分析方法,还包括对拉梅尔芽孢杆菌属基因组进行毒力因子注释;优选地,所述毒力因子注释包括将待分析的多株拉梅尔芽孢杆菌属基因组蛋白序列分别与毒力因子数据库进行比对,以此来确定待分析的多株拉梅尔芽孢杆菌属是否含有毒力基因。
9.根据权利要求1~8任一项所述的分析方法,其特征在于:所述拉梅尔芽孢杆菌属泛基因组的分析方法,还包括预测拉梅尔芽孢杆菌属基因组中的可移动遗传元件:对原噬菌体序列和基因组岛进行预测。
10.根据权利要求9所述的分析方法,其特征在于:对所述基因组岛进行预测包括:通过检测序列中的二核苷酸偏向性和移动性基因来判定基因岛及潜在的水平基因转移;对所述原噬菌体序列进行预测包括使用噬菌体预测软件对完整原噬菌体区域进行深度分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310915901.2A CN117174181A (zh) | 2023-07-25 | 2023-07-25 | 拉梅尔芽孢杆菌属泛基因组的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310915901.2A CN117174181A (zh) | 2023-07-25 | 2023-07-25 | 拉梅尔芽孢杆菌属泛基因组的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117174181A true CN117174181A (zh) | 2023-12-05 |
Family
ID=88942022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310915901.2A Pending CN117174181A (zh) | 2023-07-25 | 2023-07-25 | 拉梅尔芽孢杆菌属泛基因组的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117174181A (zh) |
-
2023
- 2023-07-25 CN CN202310915901.2A patent/CN117174181A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Touchon et al. | The genomic diversification of the whole Acinetobacter genus: origins, mechanisms, and consequences | |
Welker et al. | Applications of whole-cell matrix-assisted laser-desorption/ionization time-of-flight mass spectrometry in systematic microbiology | |
Hartmann et al. | Distinct trajectories of massive recent gene gains and losses in populations of a microbial eukaryotic pathogen | |
US12092645B2 (en) | Method for discriminating a microorganism | |
JP6238069B2 (ja) | 微生物の識別方法 | |
Médigue et al. | Annotation, comparison and databases for hundreds of bacterial genomes | |
Jun et al. | Identification of mammalian orthologs using local synteny | |
Brealey et al. | Dental calculus as a tool to study the evolution of the mammalian oral microbiome | |
Seth-Smith et al. | Transition from PCR-ribotyping to whole genome sequencing based typing of Clostridioides difficile | |
Almeida et al. | A unified sequence catalogue of over 280,000 genomes obtained from the human gut microbiome | |
Price et al. | Deep annotation of protein function across diverse bacteria from mutant phenotypes | |
Bansal et al. | Phylogenomic insights into diversity and evolution of nonpathogenic Xanthomonas strains associated with citrus | |
Yates et al. | The ancient salicoid genome duplication event: a platform for reconstruction of de novo gene evolution in Populus trichocarpa | |
Pinto et al. | Sequencing-based analysis of microbiomes | |
Francis et al. | Evolution of pathogenicity-associated genes in Rhizoctonia solani AG1-IA by genome duplication and transposon-mediated gene function alterations | |
Tai et al. | Selection in coastal Synechococcus (cyanobacteria) populations evaluated from environmental metagenomes | |
Shah et al. | Mass spectrometry for microbial proteomics | |
Hollister et al. | Bioinformation and’omic approaches for characterization of environmental microorganisms | |
CN117174181A (zh) | 拉梅尔芽孢杆菌属泛基因组的分析方法 | |
Ngeow et al. | Identification of new genomospecies in the Mycobacterium terrae complex | |
Chen et al. | Reannotation of hypothetical ORFs in plant pathogen Erwinia carotovora subsp. atroseptica SCRI1043 | |
Bansal et al. | Phylogenomic insights into diversity and evolution of nonpathogenic Xanthomonas strains associated with citrus. mSphere 5: e00087-20 | |
Di et al. | Rapid and high-throughput identification of recombinant bacteria with mass spectrometry assay | |
Duan et al. | A catalogue of small proteins from the global microbiome | |
Yassine et al. | ShigaPass: an in silico tool predicting Shigella serotypes from whole-genome sequencing assemblies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |