CN106951733A - 一种优化的16SrDNA高通量测序物种比对方法 - Google Patents

一种优化的16SrDNA高通量测序物种比对方法 Download PDF

Info

Publication number
CN106951733A
CN106951733A CN201710091491.9A CN201710091491A CN106951733A CN 106951733 A CN106951733 A CN 106951733A CN 201710091491 A CN201710091491 A CN 201710091491A CN 106951733 A CN106951733 A CN 106951733A
Authority
CN
China
Prior art keywords
databases
character string
information
rdna
string information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710091491.9A
Other languages
English (en)
Other versions
CN106951733B (zh
Inventor
陆敏
朱永亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou preyson Biotechnology Co.,Ltd.
Original Assignee
Suzhou Puruisen Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Puruisen Gene Technology Co Ltd filed Critical Suzhou Puruisen Gene Technology Co Ltd
Priority to CN201710091491.9A priority Critical patent/CN106951733B/zh
Publication of CN106951733A publication Critical patent/CN106951733A/zh
Application granted granted Critical
Publication of CN106951733B publication Critical patent/CN106951733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种优化的16S rDNA高通量测序物种比对方法,按照以下步骤进行:建立Greengenes数据库、RDP数据库、Silva数据库和NCBI 16S rDNA数据库;将Greengenes数据库中taxonomy信息转化为字符串信息;分别将NCBI 16S rDNA数据库,RDP数据库,Silva数据库中taxonomy信息转化为字符串信息;分别将得到的字符串信息与步骤2)中得到的字符串信息进行对比,如步骤3)中得到的字符串信息与步骤2)得到的字符串信息完全一致,则将数据库中的taxonomy信息去除,如步骤3)中得到的字符串信息与步骤步骤2)得到的字符串信息不一致,则将taxonomy信息导入到Greengenes数据库中。利用改良的序列比对方法和信息全面的比对数据库,能够从高通量数据中获得更加详实的实验结果。分析者能够根据结果找到与更多实验密切相关的菌种,有利于推进医疗、卫生、环境科学的发展。

Description

一种优化的16S rDNA高通量测序物种比对方法
技术领域
本发明涉及一种优化的16S rDNA高通量测序物种比对方法。
背景技术
随着测序技术的成熟和成本的降低,人体微生物菌群研究积累了越来越多的微生物基因序列及微生物菌群方便特征与人类健康、疾病的关系数据。但这些微生物检验序列数据、菌群特征及其与人类健康的关系等数据分散在不同的科学文献、公共数据库里,数据存储、呈现方式给不相同,很难实现不同数据来源直接数据的比较及集成归纳。有必要建立一个对不同来源的数据进行统一化处理、集中储存管理的数据库,实现以大数据为基础的数据比对及分析。
细菌中包括有三种核糖体RNA,分别为5S rRNA、16S rRNA、23S rRNA,rRNA基因由保守区和可变区组成。16S rRNA对应于基因组DNA上的一段基因序列称为16S rDNA。16SrDNA鉴定是指用利用细菌16S rDNA序列测序的方法对细菌进行种属鉴定。包括细菌基因组DNA提取、16SrDNA特异引物PCR扩增、扩增产物纯化、DNA测序、序列比对等步骤,是一种快速获得细菌种属信息的方法。16S rDNA普遍存在于原核生物中。rDNA参与生物蛋白质的合成过程,其功能是任何生物都必不可少的,而且在生物进化的漫长历程中保持不变,可看作为生物演变的时间钟。在16S rDNA分子中,既含有高度保守的序列区域,又有中度保守和高度变化的序列区域,因而它适用于进化距离不同的各类生物亲缘关系的研究。16S rDNA的相对分子量大小适中,约1540个核苷酸,便于序列分析。可变区序列因细菌不同而异,恒定区序列基本保守,所以可利用恒定区序列设计引物,将16S rDNA片段扩增出来,利用可变区序列的差异来对不同菌属、菌种的细菌进行分类鉴定。
现有技术的缺点:现有的16S rDNA高通量测序分析方法中序列比对方法和比对数据库存在不足,各数据库数据不完整、分散,导致高通量测序结果比对信息不完整,获得菌种较少,不能得到真实的实验数据结果。
发明内容
为了克服上述现有技术的缺点,本发明的目的是提供一种以基因序列为单位,将每个种所有可获得的16S rDNA基因序列进行搜集整理和多序列比对的16S rDNA高通量测序物种比对方法。
为达到上述目的,本发明采用以下技术方案一种优化的16S rDNA高通量测序物种比对方法,按照以下步骤进行:
1)、建立Greengenes数据库、RDP数据库、Silva数据库和NCBI 16s rDNA数据库;
2)、将Greengenes数据库中taxonomy信息转化为字符串信息;
3)、分别将步骤1)中的NCBI 16s rDNA数据库,RDP数据库,Silva数据库中taxonomy信息转化为字符串信息;
4)、分别将步骤3)中得到的字符串信息与步骤2)中得到的字符串信息进行对比,如步骤3)中得到的字符串信息与步骤2)得到的字符串信息完全一致,则将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息去除,如步骤3)中得到的字符串信息与步骤步骤2)得到的字符串信息不一致,则将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息导入到Greengenes数据库中形成新的Greengenes数据库。
所述步骤3)中的转化后的字符串信息首先进行格式化处理,格式化处理后的字符串信息与步骤2)中得到的字符串信息的格式相同。
所述的NCBI 16s rDNA数据库,RDP数据库,Silva数据库定期自动检索NCBI数据库,并将NCBI数据库中的数据信息导入到自身的数据库中。
所述的NCBI数据库中的数据是通过Web搜索来进行更新的。
本发明的有益效果是:利用改良的序列比对方法和信息全面的比对数据库,能够从高通量数据中获得更加详实的实验结果。分析者能够根据结果找到与更多实验密切相关的菌种,有利于推进医疗,卫生,环境科学的发展。
附图说明
图1是本发明原理示意框图;
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示的一种优化的16S rDNA高通量测序物种比对方法,按照以下步骤进行:
1)、建立Greengenes数据库、RDP数据库、Silva数据库和NCBI 16s rDNA数据库;
2)、将将Greengenes数据库中taxonomy信息转化为字符串信息;
3)、分别将步骤1)中的NCBI 16s rDNA数据库、RDP数据库、Silva数据库中taxonomy信息转化为字符串信息;
4)、分别将步骤3)中得到的字符串信息与步骤2)中得到的字符串信息进行对比,如步骤3)中得到的字符串信息与步骤2)得到的字符串信息完全一致,则将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息去除,如步骤3)中得到的字符串信息与步骤步骤2)得到的字符串信息不一致,则将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息导入到Greengenes数据库中形成新的Greengenes数据库。
所述步骤3)中的转化后的字符串信息首先进行格式化处理,格式化处理后的字符串信息与步骤2)中得到的字符串信心的格式相同。
所述的NCBI 16s rDNA数据库,RDP数据库,Silva数据库每天自动检索NCBI数据库,并将NCBI数据库中的数据信息导入到自身的数据库中。
所述的NCBI数据库中的数据是通过Web搜索来进行更新的。
具体的是,对测序序列精确的解释依赖标准数据库,目前流行的标准数据库有RDP,Greengenes及Silva.这些数据库主要是依靠一代测序的结果建立起来的,现在公用数据库中不仅有一代测序16S rDNA基因序列,用高通量测序得到的数据也越来越多,为了能更合理地组织这些日益增多的这两种技术的序列数据,本专利建立16S rDNA基因序列比对数据库(PrecisionGene Database,简称PRS-DB)。该数据库以基因序列为单位,将每个种所有可获得的16S rDNA基因序列进行搜集整理和多序列比对。数据库以Greengenes数据库为基础,通过以下的步骤进行
1)将Greengenes数据库中taxonomy信息转化为字符串信息.2)分别将NCBI 16srDNA数据库,RDP数据库,Silva数据库中taxonomy信息转化为字符串信息。3)分别将上述3个数据库的taxonomy信息与Greengenes数据库中taxonomy信息进行对比,如何完全一致,则去除。将不一致的导入到Greengenes数据库中形成新的数据库。将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中Greengenes数据库没有的的taxonomy信息进行整合,建立完善的16S rDNA基因序列比对数据库,使得在相同的比对方法下,新建立的16S rDNA基因序列比对数据库能够比对到更多的物种信息。
本方案中利用独特的方法(PrecisionGene DatabaseTool)整合NCBI中细菌16SrDNA数据库,RDP数据库和Silva数据库。该方法能够以Grengene数据库为模板,将来自不同数据库的物种信息字符串的转化形成特定的格式,从而转化为相同的格式,再通过去重的方法,分别将上述3个数据库的taxonomy信息与Greengenes数据库中taxonomy信息进行对比,如果完全一致,则去除。将不一致的导入到Greengenes数据库中形成新的数据库。去除Greengenes数据库已有的信息,仅仅保留其他各数据库特有的信息。该方法还可以每天自动检索NCBI数据库通过一段代码每天浏览NCBI官方数据库,通过上述方法比较,将新发布的数据信息导入到自己的数据库中,再形成新的数据库,及时的更新最新的物种信息。
通过上述方法得到的新的数据库(PRS-DB)含有更丰富的物种信息,相比Greengenes数据库,在6个分类水平上的数量明显增加,其中种水平的增幅达到19倍左右。从而可以得到更多更加详细的分类信息,使得科研工作者,医生能够得到精准的分析结果,达到精准治疗的效果(表1)。
表1:改进的数据库(PRS-DB)与Greengenes的区别
使用PRS-DB对16S rDNA测序数据进行比对分析的实施例:
这个例子对10个健康志愿者的粪便样品,进行16S rDNA高通量测序,得到大约800万个16S rDNA序列,在去重、质控等步骤后,使用Qiime流程,将这些序列与PRS-DB进行比对,赋予分类信息;结果发现,利用2个数据库对比10个正常人16S rDNA数据,从上面表中可以看出,PRS-DB相比Greengenes数据库虽然少了一个目(Order)的分类,但其属和种水平上的数量明显增加,其中种水平的增幅达到2倍左右,因此此实施结果可以得到更多更加详细的分类信息,发现了更多的物种,得到了精准的分析结果。
利用改良数据库进行比对可以获得更多的菌种信息,在门纲目科属种这6个分类层次上,改良的数据库对比到的结果均得到不同程度的提升,尤其是种分类水平上的。这就使得原先不能区分的种信息得以区分,为科研工作者提供更加准确的结果(表2)。
表2:10个样品与两个数据库PRS-DB、Greengenes比对获得的结果比较
以上实施例仅仅是对本发明的举例说明,并不构成对本发明的保护范围的限制,凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

Claims (4)

1.一种优化的16S rDNA高通量测序物种比对方法,其特征在于,按照以下步骤进行:
1)、建立Greengenes数据库、RDP数据库、Silva数据库和NCBI 16S rDNA数据库;
2)、将Greengenes数据库中taxonomy信息转化为字符串信息;
3)、分别将步骤1)中的NCBI 16S rDNA数据库,RDP数据库,Silva数据库中taxonomy信息转化为字符串信息;
4)、分别将步骤3)中得到的字符串信息与步骤2)中得到的字符串信息进行对比,如步骤3)中得到的字符串信息与步骤2)得到的字符串信息完全一致,则将NCBI 16S rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息去除,如步骤3)中得到的字符串信息与步骤步骤2)得到的字符串信息不一致,则将NCBI 16S rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息导入到Greengenes数据库中形成新的Greengenes数据库。
2.根据权利要求1所述的一种优化的16S rDNA高通量测序物种比对方法,其特征在于,所述步骤3)中的转化后的字符串信息首先进行格式化处理,格式化处理后的字符串信息与步骤2)中得到的字符串信心的格式相同。
3.根据权利要求1所述的一种优化的16S rDNA高通量测序物种比对方法,其特征在于,所述的NCBI 16S rDNA数据库,RDP数据库,Silva数据库定期自动检索NCBI数据库,并将NCBI数据库中的数据信息导入到自身的数据库中。
4.根据权利要求3所述的一种优化的16S rDNA高通量测序物种比对方法,其特征在于,所述的NCBI数据库中的数据是通过Web搜索来进行更新的。
CN201710091491.9A 2017-02-21 2017-02-21 一种优化的16S rDNA高通量测序物种比对方法 Active CN106951733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710091491.9A CN106951733B (zh) 2017-02-21 2017-02-21 一种优化的16S rDNA高通量测序物种比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710091491.9A CN106951733B (zh) 2017-02-21 2017-02-21 一种优化的16S rDNA高通量测序物种比对方法

Publications (2)

Publication Number Publication Date
CN106951733A true CN106951733A (zh) 2017-07-14
CN106951733B CN106951733B (zh) 2019-03-26

Family

ID=59467174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710091491.9A Active CN106951733B (zh) 2017-02-21 2017-02-21 一种优化的16S rDNA高通量测序物种比对方法

Country Status (1)

Country Link
CN (1) CN106951733B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816258A (zh) * 2020-07-20 2020-10-23 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN114373508A (zh) * 2022-01-24 2022-04-19 浙江天科高新技术发展有限公司 一种基于16S rDNA序列的菌种鉴定方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093123A (zh) * 2011-11-08 2013-05-08 北京健数通生物计算技术有限公司 病原体基因组序列数据库系统
CN103186716A (zh) * 2011-12-29 2013-07-03 上海生物信息技术研究中心 基于元基因组学的未知病原快速鉴定系统及分析方法
WO2016172643A2 (en) * 2015-04-24 2016-10-27 University Of Utah Research Foundation Methods and systems for multiple taxonomic classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093123A (zh) * 2011-11-08 2013-05-08 北京健数通生物计算技术有限公司 病原体基因组序列数据库系统
CN103186716A (zh) * 2011-12-29 2013-07-03 上海生物信息技术研究中心 基于元基因组学的未知病原快速鉴定系统及分析方法
WO2016172643A2 (en) * 2015-04-24 2016-10-27 University Of Utah Research Foundation Methods and systems for multiple taxonomic classification

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816258A (zh) * 2020-07-20 2020-10-23 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN111816258B (zh) * 2020-07-20 2023-10-31 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN114373508A (zh) * 2022-01-24 2022-04-19 浙江天科高新技术发展有限公司 一种基于16S rDNA序列的菌种鉴定方法
CN114373508B (zh) * 2022-01-24 2024-02-02 浙江天科高新技术发展有限公司 一种基于16S rDNA序列的菌种鉴定方法

Also Published As

Publication number Publication date
CN106951733B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
Nierychlo et al. MiDAS 3: an ecosystem-specific reference database, taxonomy and knowledge platform for activated sludge and anaerobic digesters reveals species-level microbiome composition of activated sludge
Kong et al. Performing skin microbiome research: a method to the madness
Konstantinidis et al. Classifying the uncultivated microbial majority: a place for metagenomic data in the Candidatus proposal
CN111816258B (zh) 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
Volant et al. SHAMAN: a user-friendly website for metataxonomic analysis from raw reads to statistical analysis
Kumar et al. Metagenomic analysis of rhizosphere microflora of oil-contaminated soil planted with barley and alfalfa
Hou et al. Variation in the soil microbial community of reclaimed land over different reclamation periods
Giraldo-Silva et al. Niche partitioning with temperature among heterocystous cyanobacteria (Scytonema spp., Nostoc spp., and Tolypothrix spp.) from biological soil crusts
CN115116624B (zh) 基于半监督迁移学习的药物敏感性预测方法和装置
Gao et al. Diversity and biocontrol potential of cultivable endophytic bacteria associated with halophytes from the West Aral Sea basin
CN106951733B (zh) 一种优化的16S rDNA高通量测序物种比对方法
Medina-Cordoba et al. Genomic characterization and computational phenotyping of nitrogen-fixing bacteria isolated from Colombian sugarcane fields
Carrieri et al. A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes
Kannan et al. Whole genome sequencing data of native isolates of Bacillus and Trichoderma having potential biocontrol and plant growth promotion activities in rice
Gryta et al. Methodological aspects of multiplex terminal restriction fragment length polymorphism-technique to describe the genetic diversity of soil bacteria, archaea and fungi
Bahuguna et al. Study on the identification methods for effective microorganisms in commercially available organic agriculture materials
Liu et al. Deterministic process dominated belowground community assembly when suffering tomato bacterial wilt disease
Su et al. Recovery of metagenome-assembled genomes from the phyllosphere of 110 rice genotypes
Wang et al. The mechanism of microbial community succession and microbial co-occurrence network in soil with compost application
Zhang et al. Composition and characteristics of soil microbial communities in cotton fields with different incidences of Verticillium wilt
CN109686406A (zh) 一种系统发生树图制作方法及系统
Gonzalez et al. On a non-discrete concept of prokaryotic species
CN115331737A (zh) 一种分析肠道菌群中致病菌和量化菌群地域特征的方法
Liu et al. The effect of human trampling activity on a soil microbial community at the urban forest park
Zhu et al. Effects of David deer grazing on soil bacterial and fungal communities in an eastern coastal wetland of China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170714

Assignee: Jiangxi Prison Gene Technology Co., Ltd.

Assignor: Suzhou puruisen Gene Technology Co Ltd

Contract record no.: 2019320010005

Denomination of invention: An Optimized Species Comparison Method for 16SrDNA High Throughput Sequencing

License type: Common License

Record date: 20190201

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215000 unit 4-b101-47, creative industrial park, No. 328, Xinghu street, Suzhou Industrial Park, Jiangsu Province

Patentee after: Suzhou preyson Biotechnology Co.,Ltd.

Address before: 215000 unit 4-b101-47, creative industrial park, No. 328, Xinghu street, Suzhou Industrial Park, Jiangsu Province

Patentee before: SUZHOU PRECISION GENE Co.,Ltd.