CN113284556A - 从动植物转录组数据中挖掘内生微生物组信息的方法 - Google Patents

从动植物转录组数据中挖掘内生微生物组信息的方法 Download PDF

Info

Publication number
CN113284556A
CN113284556A CN202110569644.2A CN202110569644A CN113284556A CN 113284556 A CN113284556 A CN 113284556A CN 202110569644 A CN202110569644 A CN 202110569644A CN 113284556 A CN113284556 A CN 113284556A
Authority
CN
China
Prior art keywords
data
transcriptome
animal
plant
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110569644.2A
Other languages
English (en)
Inventor
韩国民
王先进
邱贵萍
陈枫
程备久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Agricultural University AHAU
Original Assignee
Anhui Agricultural University AHAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Agricultural University AHAU filed Critical Anhui Agricultural University AHAU
Publication of CN113284556A publication Critical patent/CN113284556A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)

Abstract

本发明公开了从动植物转录组数据中挖掘内生微生物组信息的方法,步骤包括:(1)对宿主动植物转录组测序原始数据进行清理,以获得仅含高质量序列的转录组数据;(2)将所述转录组数据与宿主参考基因组进行比对,获得含有微生物序列的数据文件;(3)通过分析所述数据文件获得内生微生物的组成信息。本方法与利用扩增子分析或者动植物组织全基因组测序分析微生物组成信息相比,不但可以分析出各类微生物组成及含量信息,还得到以往的宿主动植物基因表达信息,节约实验研究成本。

Description

从动植物转录组数据中挖掘内生微生物组信息的方法
技术领域
本发明涉及生物高通量数据分析技术领域,具体涉及从动植物转录组数据中挖掘内生微生物组信息的方法。
背景技术
微生物在自然界几乎无处不在,例如河流、湖泊、海洋、土壤、空气、人体表面以及人类、动植物的内部。许多微生物包括细菌,古细菌和真菌等都可以生活在植物的组织中。内生菌是一种以共生或有益的方式存在于宿主植物的各种组织中或不会引起任何有害作用的微生物。少数内生菌可以增强宿主植物对非生物胁迫(例如耐热性)的耐受性,而其他内生菌则可以通过产生植物激素、溶解磷和钾、生物固氮、抑制乙烯的生物合成来促进植物的生长。另外,许多内生菌可以通过产生氨、铁载体等方式来保护植物免受微生物病原体的侵害。动物以及人体组织中也发现很多内生微生物,比如癌症组织。
现有的内生菌检测方法主要包括:(1)分离培养法检测;(2)非培养法检测。非培养法主要为:利用PCR扩增特定细菌或者真菌共有区域后结合第二代或者第三代测序技术测序,比如扩增16S rRNA、真菌ITS区域或扩增特定目的基因后测序;直接对植物组织全基因组DNA测序后,结合微生物组分析工具加以分析。利用扩增子分析,或者动植物组织全基因组测序均需要单独进行实验操作,成本较高。
发明内容
为了解决上述问题,本发明提供了一种全新的对动植物内生菌进行研究的方法,从动植物转录组数据中挖掘内生微生物组信息的方法。
本发明通过以下技术方案来实现上述目的:
从动植物转录组数据中挖掘内生微生物组信息的方法,步骤包括:
(1)对宿主动植物转录组测序原始数据进行清理,以获得仅含高质量序列的转录组数据;
(2)将所述转录组数据与宿主参考基因组进行比对,获得含有微生物序列的数据文件;
(3)通过分析所述数据文件获得内生微生物的组成信息。
进一步改进在于,步骤(1)中,利用清理软件对宿主动植物转录组测序原始数据进行清理。
进一步改进在于,所述清理软件为trimmomatic。
进一步改进在于,步骤(2)的具体操作为:使用转录组比对软件将转录组数据与宿主动植物基因组或者全部cDNA数据文件进行比对,同时区分输出比对上的植物编码基因转录组数据和未比对上的数据文件,利用其输出未比对上序列参数“--un-conc”获得未比对上的数据文件,所述数据文件中包含有一部分宿主动植物序列外,还包括表达的微生物基因片段。
进一步改进在于,所述转录组比对软件为hisat2软件或bowtie2软件。
进一步改进在于,步骤(3)中,利用微生物组解析软件,对未比对上的数据文件进行分析,结合bracken挖掘出植物内生微生物组成信息。
进一步改进在于,所述微生物组解析软件为Kraken2。
本发明的有益效果在于:本方法与利用扩增子分析或者动植物组织全基因组测序分析微生物组成信息相比,不但可以分析出各类微生物组成及含量信息,还得到以往的宿主动植物基因表达信息,节约实验研究成本。
附图说明
图1为本发明的技术方案路线图;
图2为根内生菌物种组成情况,图中,A为桑基流动图;B为内生菌组成情况结果图。
具体实施方式
下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。
实施例1
本实施例提供了一种从动植物转录组数据中挖掘内生微生物组信息的方法,如图1所示,步骤包括:
(1)宿主动植物转录组测序原始数据清理:使用开源软件trimmomatic,使用默认参数:java-jar trimmomatic-0.33.jar PE input_forward.fq.gz input_reverse.fq.gzoutput_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10LEADING:3TRAILING:3SLIDINGWINDOW:4:15MINLEN:36
(2)获得含有微生物序列的转录组数据文件
利用开源软件hisat2-build建立宿主动植物参考基因组索引文件,参考命令:hisat2-build genome.fa geome_index。利用hisat2将转录组测序文件与宿主动植物参考基因组索引文件进行对比,在分析基因表达的同时,输出未比对上的文件。参考命令:hisat2-x geome_index-1forward.fq-2reverse.fq-p 32--un-conc un-conc_$sample_name.fastq-S$sample_name.sam 2>$sample_name.log。
(3)解析微生物组成
步骤1.使用以下命令将序列数据文件与建立的包括细菌、真菌、病毒、动植物基因组的数据文件进行对比。参考命令:
cat clean_reads_without_host_DNA/*1.fastq>ALL_READS.1.fastq
cat clean_reads_without_host_DNA/*2.fastq>ALL_READS.2.fastq
kraken2--db=/ncbi_NR_NT_data/db_for_kraken2/kraken2--threads=24--paired ALL_READS.1.fastq ALL_READS.2.fastq>database.kraken
步骤2:计算输入文件序列中每个完美的序列并进行分类。参考命令:
./kmer2read_distr--seqid2taxid${KRAKEN_DB}/seqid2taxid.map--taxonomy${KRAKEN_DB}/taxonomy--kraken database.kraken--output database${READ_LEN}mers.kraken-k${KMER_LEN}-l${READ_LEN}-t${THREADS}
步骤3:生成kmer分布文件。参考命令:
generate_kmer_distribution.py-i database${READ_LEN}mers.kraken;-odatabase${READ_LEN}mers.kmer_distrib
步骤4:产生微生物分类文件和报告文件。参考命令:
#kraken2--db=${KRAKEN2_DB}--threads${THREADS}--report${SAMPLE}.kreport2${SAMPLE}>${SAMPLE}.kraken2。
以玉米根转录组数据为例,从图2A可以看出,除玉米外,转录组数据中还包括真菌、细菌、古细菌、病毒,进一步可以获得各类微生物之间的含量关系(图2B)。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.从动植物转录组数据中挖掘内生微生物组信息的方法,其特征在于:步骤包括:
(1)对宿主动植物转录组测序原始数据进行清理,以获得仅含高质量序列的转录组数据;
(2)将所述转录组数据与宿主参考基因组进行比对,获得含有微生物序列的数据文件;
(3)通过分析所述数据文件获得内生微生物的组成信息。
2.根据权利要求1所述的从动植物转录组数据中挖掘内生微生物组信息的方法,其特征在于:步骤(1)中,利用清理软件对宿主动植物转录组测序原始数据进行清理。
3.根据权利要求2所述的从动植物转录组数据中挖掘内生微生物组信息的方法,其特征在于:所述清理软件为trimmomatic。
4.根据权利要求1所述的从动植物转录组数据中挖掘内生微生物组信息的方法,其特征在于:步骤(2)的具体操作为:使用转录组比对软件将转录组数据与宿主动植物基因组或者全部cDNA数据文件进行比对,同时区分输出比对上的植物编码基因转录组数据和未比对上的数据文件,利用其输出未比对上序列参数“--un-conc”获得未比对上的数据文件,所述数据文件中包含有一部分宿主动植物序列外,还包括表达的微生物基因片段。
5.根据权利要求4所述的从动植物转录组数据中挖掘内生微生物组信息的方法,其特征在于:所述转录组比对软件为hisat2软件或bowtie2软件。
6.根据权利要求1所述的从动植物转录组数据中挖掘内生微生物组信息的方法,其特征在于:步骤(3)中,利用微生物组解析软件,对未比对上的数据文件进行分析,结合bracken挖掘出植物内生微生物组成信息。
7.根据权利要求6所述的从动植物转录组数据中挖掘内生微生物组信息的方法,其特征在于:所述微生物组解析软件为Kraken2。
CN202110569644.2A 2021-04-29 2021-05-25 从动植物转录组数据中挖掘内生微生物组信息的方法 Pending CN113284556A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021104730643 2021-04-29
CN202110473064 2021-04-29

Publications (1)

Publication Number Publication Date
CN113284556A true CN113284556A (zh) 2021-08-20

Family

ID=77281413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110569644.2A Pending CN113284556A (zh) 2021-04-29 2021-05-25 从动植物转录组数据中挖掘内生微生物组信息的方法

Country Status (1)

Country Link
CN (1) CN113284556A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464253A (zh) * 2022-03-03 2022-05-10 予果生物科技(北京)有限公司 基于长读长测序进行实时病原检测的方法、系统和应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106282165A (zh) * 2016-08-24 2017-01-04 成都罗宁生物科技有限公司 一种植物内生菌16S rRNA基因扩增方法及应用
CN108804875A (zh) * 2018-06-21 2018-11-13 中国科学院北京基因组研究所 一种利用宏基因组数据分析微生物群体功能的方法
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN110366596A (zh) * 2016-12-28 2019-10-22 埃斯库斯生物科技股份公司 用于对复杂异质群落中的完整微生物株系进行分析、确定其功能关系及相互作用以及基于此来识别和合成生物活性改性剂的方法、设备和系统
CN111627497A (zh) * 2020-05-19 2020-09-04 深圳市新合生物医疗科技有限公司 基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用
CN112259169A (zh) * 2020-11-18 2021-01-22 东北农业大学 一种从转录组数据中快速获取叶绿体基因组的方法
CN112435714A (zh) * 2020-11-03 2021-03-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106282165A (zh) * 2016-08-24 2017-01-04 成都罗宁生物科技有限公司 一种植物内生菌16S rRNA基因扩增方法及应用
CN110366596A (zh) * 2016-12-28 2019-10-22 埃斯库斯生物科技股份公司 用于对复杂异质群落中的完整微生物株系进行分析、确定其功能关系及相互作用以及基于此来识别和合成生物活性改性剂的方法、设备和系统
CN108804875A (zh) * 2018-06-21 2018-11-13 中国科学院北京基因组研究所 一种利用宏基因组数据分析微生物群体功能的方法
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN111627497A (zh) * 2020-05-19 2020-09-04 深圳市新合生物医疗科技有限公司 基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用
CN112435714A (zh) * 2020-11-03 2021-03-02 北京科技大学 一种肿瘤免疫亚型分类方法及系统
CN112259169A (zh) * 2020-11-18 2021-01-22 东北农业大学 一种从转录组数据中快速获取叶绿体基因组的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464253A (zh) * 2022-03-03 2022-05-10 予果生物科技(北京)有限公司 基于长读长测序进行实时病原检测的方法、系统和应用
CN114464253B (zh) * 2022-03-03 2023-03-10 予果生物科技(北京)有限公司 基于长读长测序进行实时病原检测的方法、系统和应用

Similar Documents

Publication Publication Date Title
Palaniveloo et al. Food waste composting and microbial community structure profiling
Gu et al. Fungi diversity from different depths and times in chicken manure waste static aerobic composting
Thies Soil microbial community analysis using terminal restriction fragment length polymorphisms
Dentinger et al. Rapid and reliable high‐throughput methods of DNA extraction for use in barcoding and molecular systematics of mushrooms
Singh et al. Taxonomic and functional annotation of gut bacterial communities of Eisenia foetida and Perionyx excavatus
Gasser et al. Ecology and characterization of polyhydroxyalkanoate-producing microorganisms on and in plants
Rasmussen et al. Fingerprinting of cyanobacteria based on PCR with primers derived from short and long tandemly repeated repetitive sequences
Stoll et al. Bacterial microbiota associated with ants of the genus Tetraponera
Frąc et al. Mycobiome composition and diversity under the long-term application of spent mushroom substrate and chicken manure
Yu et al. Succession of root-associated fungi in Pisum sativum during a plant growth cycle as examined by 454 pyrosequencing
Peruzzi et al. Microbial indication of soil health in apple orchards affected by replant disease
Van de Peppel et al. Ancestral predisposition toward a domesticated lifestyle in the termite-cultivated fungus Termitomyces
Tian et al. Biocrust microbiomes influence ecosystem structure and function in the Mu Us Sandland, northwest China
CN113284556A (zh) 从动植物转录组数据中挖掘内生微生物组信息的方法
Moura et al. Diversity of Rhizobia and importance of their interactions with legume trees for feasibility and sustainability of the tropical agrosystems
US20220177831A1 (en) Producing functional microbial consortia
Lin et al. Dynamics of Microbial Community during the Co-Composting of Swine and Poultry Manure with Spent Mushroom Substrates at an Industrial Scale
Aoki et al. Massively parallel single-cell genomics of microbiomes in rice paddies
Zhang et al. Effect of hydrogen on soil bacterial community structure in two soils as determined by terminal restriction fragment length polymorphism
Pesce et al. Draft genome sequence of the symbiotic frankia sp. strain kb5 isolated from root nodules of casuarina equisetifolia
Prabina et al. DNA amplification fingerprinting as a tool for checking genetic purity of strains in the cyanobacterial inoculum
Mesa Rhizosphere and Endosphere Bacterial Communities Survey by Metagenomics Approach
Akoijam et al. Molecular typing and distribution of filamentous heterocystous cyanobacteria isolated from two distinctly located regions in North-Eastern India
Han et al. Mining endophytic microbiome information from plant and animal transcriptome data
Xu Soil fungal communities associated with plant health as revealed by next-generation sequencing: PhD thesis-Science and Technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210820

RJ01 Rejection of invention patent application after publication