CN111243676B - 一种基于高通量测序数据的枯萎病发病预测模型及应用 - Google Patents

一种基于高通量测序数据的枯萎病发病预测模型及应用 Download PDF

Info

Publication number
CN111243676B
CN111243676B CN202010160122.2A CN202010160122A CN111243676B CN 111243676 B CN111243676 B CN 111243676B CN 202010160122 A CN202010160122 A CN 202010160122A CN 111243676 B CN111243676 B CN 111243676B
Authority
CN
China
Prior art keywords
model
soil
bacterial
sequencing data
wilt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010160122.2A
Other languages
English (en)
Other versions
CN111243676A (zh
Inventor
袁军
沈其荣
文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Agricultural University
Original Assignee
Nanjing Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Agricultural University filed Critical Nanjing Agricultural University
Priority to CN202010160122.2A priority Critical patent/CN111243676B/zh
Publication of CN111243676A publication Critical patent/CN111243676A/zh
Application granted granted Critical
Publication of CN111243676B publication Critical patent/CN111243676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出一种基于高通量测序数据的枯萎病发病预测模型及应用,通过整合不同地域、不同作物的枯萎病患病土壤和健康土壤的微生物高通量测序数据,利用机器学习方法分析患病土壤和健康土壤中细菌群落和真菌群落的特征,获取45个细菌和40个真菌的分类操作单元相对丰度特征用于辨别健康土壤和枯萎病发病土壤,并分别建立细菌模型和真菌模型,实现准确判别土壤枯萎病的发病情况,揭示枯萎病患病土壤微生物群落特征。

Description

一种基于高通量测序数据的枯萎病发病预测模型及应用
技术领域
本发明属于农业植物保护技术领域,尤其是一种基于高通量测序数据的枯萎病发病预测模型及应用。
背景技术
微生物对人类活动至关重要。土壤微生物群落与我们的生活密切相关,特别是与我们的农业实践密切相关,深刻影响农产品的质量和数量。镰刀菌枯萎病作为土传病害的典型代表,在世界范围内极大的影响农作物的生产。在田间已分离和试验了数百种对枯萎病菌和镰刀菌有抑制作用的有益微生物。镰刀菌枯萎病虽然是由尖孢镰刀菌引起的真菌病害,病原菌数量增加必然导致发病率上升。但是目前仍然无法以病原菌数量来预测病害的发生。因为不同土壤条件、土壤间微生物的相互作用均能影响发病情况。
在过去的十几年中,通过高通量测序(HTS)方法逐渐明确了镰刀菌(Fusarium)发病和健康土壤微生物群落的特征。因此,我们在全球范围内,通过公开发表的镰刀菌枯萎病相关研究获取枯萎病土壤微生物群落的原始测序数据,并考虑了方法学和技术上的缺陷,使用多种机器学习方法来分析患病或健康土壤中细菌和真菌群落的特征,并基于此构建区分枯萎病发病和健康微生物群落的分类模型。
发明内容
本发明所解决的技术问题在于提供一种基于高通量测序数据的枯萎病发病预测模型,通过整合不同地域、不同作物的枯萎病患病土壤和健康土壤的微生物高通量测序数据,利用机器学习方法分析患病土壤和健康土壤中细菌群落和真菌群落的特征,并分别建立细菌模型和真菌模型,实现准确判别土壤枯萎病的发病情况。
实现本发明目的的技术解决方案为:
一种基于高通量测序数据的枯萎病发病预测模型,包括以下步骤:
步骤1:数据收集:使用关键词从数据库中获取枯萎病相关的土壤微生物群落的测序样品登录号,进而获取枯萎病相关的土壤微生物群落的原始测序数据;
步骤2:数据处理:将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据,分别进行处理和分析;
步骤3:将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤,应用机器学习模型随机森林RF对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型:
步骤3-1:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型:
使用随机森林创建分类模型,利用RF软件包(版本号:v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将细菌群落组成的相对丰度按门、纲、目、科、属、种和OTU等级别进行建模,获得最佳预测模型的细菌分类级别;
对于每个细菌群落分类级别,将所有整合得到的细菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于细菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的分类级别;
在准确率最高的分类级别上,将步骤2中的整合的全部细菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的细菌模型;
通过交叉检验提取出来对模型影响最大的若干个OTU。
步骤3-2:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型:
利用R语言中的RF软件包(版本号:v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将真菌群落组成的相对丰度按门、纲、目、科、属、种和OTU等级别进行分类建模,获得最佳预测模型的真菌分类级别;
对于每个真菌群落分类级别,将所有整合得到的真菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于真菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的真菌分类级别;
在准确率最高的分类级别上,将步骤2中的整合的全部真菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的真菌模型。
通过交叉检验提取出来对真菌模型影响最大的若干个OTU。
进一步的,本发明的基于高通量测序数据的枯萎病发病预测模型,所述步骤1中的关键词包括枯萎病发病和健康土壤的微生物群落、枯萎病土壤微生物结构。
进一步的,本发明的基于高通量测序数据的枯萎病发病预测模型,所述步骤3中的细菌模型和真菌模型分别包含45个细菌OTU和40个真菌OTU的分类及丰度信息。
进一步的,本发明的基于高通量测序数据的枯萎病发病预测模型,所述步骤2中对测序数据的处理和分析具体包括:拼接双端原始测序数据,过滤低质量序列,并基于参考数据库聚类操作分类单元OTU,将OTU分配到微生物门类信息。
进一步的,本发明的基于高通量测序数据的枯萎病发病预测模型,所述参考数据库包括细菌参考数据库Greengene V 13.5和真菌参考数据库Unite。
一种基于上述任一的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病预测中的应用。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明的基于高通量测序数据的枯萎病发病预测模型充分考虑了细菌群落和真菌群落的特征,预测结果可靠。
2、本发明的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病发病预测中的应用操作简便,无需种植植物,只需提取土壤DNA,进行高通量测序即可。
3、本发明的基于高通量测序数据的枯萎病发病预测模型适用于所有镰刀菌枯萎病土壤的发病预测。
附图说明
图1是随机森林、支持向量机和逻辑回归建立细菌模型的ROC曲线;
图2是随机森林、支持向量机和逻辑回归建立真菌模型的ROC曲线。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
实施例1
一种基于高通量测序数据的枯萎病发病预测模型,包括以下步骤:
1、数据收集
基于已发表研究,使用关键词枯萎病群落(Fusarium wilt community)或者枯萎病结构(Fusarium wilt structure)或者枯萎病菌群(Fusarium wilt microbiome)从谷歌学术查找真菌枯萎病和微生物群落相关的研究论文,得到枯萎病相关的土壤微生物群落的测序样品登录号。大部分相关研究的原始数据存储在NCBI中,也有一部分存储在DDBJ和欧洲核酸数据库中,均可以从中获取测序数据信息。
目前NCBI上存储了大量尚未公开发表文章的数据,往往这些数据的分组及其采样信息被描述的很清楚,可通过测序数据存储登记的项目号中搜索关键词Fusarium wiltcommunity或者Fusarium wilt structure或者Fusarium wilt microbiome,获得枯萎病研究相关的土壤微生物群落的原始测序数据。
2、数据处理:将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据,分别进行处理和分析。
(1)在谷歌、NCBI、欧洲核酸数据库,日本核酸数据库上下载每个项目中全部样品的列表文件;
(2)使用prefetch工具根据list文件下载原始测序数据;
(3)使用fastq-dump工具解压数据并区分细菌真菌测序结果;
(4)使用fastqc工具结合shell脚本对测序数据进行质量评估;
(5)通过Rstudio整合Qiime+usearch+seqkit+R等工具形成两套基于Greengene V13.5(细菌)和Unite(真菌)的Pipline进行自动化原始数据处理;
(6)基于biom格式otu表格合并和qiime标准格式mapping文件合并。
3、将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤,应用机器学习模型随机森林(RF)对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型:
3-1、构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型:
1)使用机器学习算法随机森林创建了一个分类模型,该模型适用于微生物种群数据。在此基础上,利用R语言中RF软件包(版本号:v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将细菌群落组成的相对丰度按门、纲、目、科、属、种和OUT等级别进行建模,以获得最佳预测模型的细菌分类级别。
2)对于每个细菌群落分类级别,将所有整合得到的细菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于细菌模型预测。对上述过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的细菌分类级别。在准确率最高的分类级别上,将步骤2中的整合的全部细菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的细菌模型。通过交叉检验提取出来对模型影响最大的若干个OTU,一共得到45个OTU。如表1,细菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤。
3)在OTU水平上使用随机森林(重要性=TRUE,接近性=TRUE)函数对来自24个研究(758个样本)的细菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的细菌分类模型。如表1,本细菌模型获得了98.94%的高准确度。
表1细菌模型分级预测精度
3.2构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型:
1)利用R语言中RF软件包(版本号:v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将真菌群落的相对丰度分为门、纲、目、科、属、种和OTU等级别进行分类建模,获得最佳预测模型的真菌分类级别。
2)对于每个真菌群落分类级别,将所有整合得到的真菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于真菌模型预测。对上述处理进行五次重复,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的真菌分类级别。在准确率最高的分类级别上,将步骤2中的整合的全部真菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的真菌模型。通过交叉检验提取出来对真菌模型影响最大的若干个OUT,一共得到40个OTU。如表2,真菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤。与细菌类群一样,在OTU水平上建模最能清楚地区分枯萎病发病土壤和健康土壤,因此在该水平上进行进一步分析。
3)在OTU水平上利用随机森林(重要性=TRUE,接近性=TRUE)函数对来自22个研究(279个样本)的真菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的真菌分类模型,其准确率高达96.42%,见表2。
表2真菌模型分级预测精度
土壤的细菌群落和真菌群落都可以作为生物标志物来区分枯萎病发病土壤和健康土壤,为了确定这一结果我们使用随机森林(RF)、支持向量机(SVM)和逻辑回归(LR)建立了三个机器学习模型。
如图1、图2所示,图1展示了通过三种分类方法随机森林、支持向量机、逻辑回归进行枯萎病发病和健康土壤细菌群落的分类和预测,发现随机森林模型对枯萎病发病和健康土壤的细菌群落分类和预测效果最好;图2展示了通过三种分类方法随机森林、支持向量机、逻辑回归进行枯萎病发病和健康土壤真菌群落的分类和预测,发现随机森林模型对枯萎病发病和健康土壤的真菌群落分类和预测效果最好。由三种模型的ROC曲线可知,RF模型预测样本分类的准确率最高。接下来,利用细菌数据和真菌数据建立了在OTU水平上训练的模型,它们的分类准确率最高,分别为95.00%和92.00%。
三种机器学习方法建立的模型在微生物(C:细菌性,D:真菌性)群落OTU水平上的ROC曲线,其中RF模型预测样本分类准确率最高(AUC=0.98)。
实施例2
为了验证细菌模型准确性,接下来分析来自NCBI SRA数据库的13个独立的细菌数据集,包括26个枯萎病发病土壤样本和321个健康土壤样本。所有采集的样本,细菌模型的平均准确率为94.46%,患病样本的准确率为91.75%,健康样本的准确率为96.45%(见表3)。
同时,使用了来自NCBI SRA数据库的6个独立的真菌数据集,包括21个枯萎病发病土壤样本和144个健康土样本,进行真菌模型验证。真菌模型对所有采集的样本的平均准确率为93.05%,对患病样本的准确率为91.67%,对健康样本的准确率为95.25%(见表4)。
表3 NCBI数据集的细菌模型预测精度
表4 NCBI数据集的真菌模型预测精度
实施例3
土壤样品采集:于2019年4月下旬分别采集了海南、广东、北京、江苏的香蕉、黄瓜、西瓜、百合的4种不同作物的田间土壤样品。对于病虫害的土壤收集,选择了连作且遭受枯萎病至少5年的地块,同时选择了没有发生枯萎病的新植地块进行健康的土壤收集。为了避免地理因素引起的差异,健康地选择在病害地附近。每种土样取0-20cm土层20个随机土芯(直径5cm×20cm),每个小区s型取样,合为一个土样。新收集的土壤经过2毫米的筛网筛选,以清除植物碎片和可能的小动物,然后在提取DNA之前储存在-80℃。
DNA提取、基因扩增和测序:(1)使用Power Lyzer PowerSoil DNA分离试剂盒(Qiagen,德国)按照制造商的说明书进行操作。(2)PCR扩增利用引物515F和806R合成针对细菌16S rRNA基因V4区域的PCR产物,获得292bp的扩增子,针对真菌群落,利用引物ITS3-F和ITS4-R对ITS2区进行PCR扩增;(3)采用PCR扩增仪进行PCR扩增,扩增周期为:95℃5min,94℃30s,52℃30s,72℃30s,72℃10min;(4)测序由专业公司进行精准测序。
运用本发明的模型预测:细菌模型对所有样本的平均准确率为90.00%,患病样本的准确率为87.50%,健康样本的准确率为92.50%(见表5)。
真菌模型对所有样本的平均准确率为80.00%,对患病土壤样本的准确率为97.50%,对健康土壤样本的准确率为62.50%(见表6)。研究表明,细菌模型和真菌模型都可以作为生物标志物来区分枯萎病和健康土壤。
表5收集的样本的细菌模型预测精度
本发明通过将多个独立来源的镰刀菌枯萎病土壤样品的细菌数据和真菌数据结合起来,用于检测病害土壤的微生物群落和建立用于预测土壤健康程度的微生物群落模型,通过机器学习RF模型方法选择的45个细菌和40个真菌OTUs及其分类、丰度信息作为预测模型。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。

Claims (4)

1.一种基于高通量测序数据的枯萎病发病预测模型,其特征在于,包括以下步骤:
步骤1:数据收集:使用关键词从数据库中获取枯萎病相关的土壤微生物群落的测序样品登录号,进而获取枯萎病相关的土壤微生物群落的原始测序数据;
步骤2:数据处理:将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据,分别进行处理和分析:
(1)在谷歌、NCBI、欧洲核酸数据库,日本核酸数据库上下载每个项目中全部样品 的列表文件;
(2)使用prefetch工具根据list文件下载原始测序数据;
(3)使用fastq-dump工具解压数据并区分细菌真菌测序结果;
(4)使用fastqc工具结合shell脚本对测序数据进行质量评估;
(5)通过Rstudio整合Qiime+usearch+seqkit+R工具形成两套基于Greengene V 13 .5和Unite的Pipline进行自动化原始数据处理;拼接双端原始测序数据,过滤低质量序列,并基于参考数据库聚类操作分类单元OTU,将OTU分配到微生物门类信息;
(6)基于biom格式otu表格合并和qiime标准格式mapping文件合并;
步骤3:将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤,应用机器学习模型随机森林RF对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型:
步骤3-1:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型:
使用随机森林创建分类模型,利用版本号为v.4.6-14的RF软件包中的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将细菌群落组成的相对丰度按门、纲、目、科、属、种和OTU级别进行建模,获得最佳预测模型的细菌分类级别;
对于每个细菌群落分类级别,将所有整合得到的细菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于细菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的细菌分类级别;
在准确率最高的分类级别上,将步骤2中的整合的全部细菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的细菌模型;
通过交叉检验提取出来对模型影响最大的45个OUT及丰度信息,细菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤;
在OTU水平上使用随机森林函数对细菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的细菌分类模型;
步骤3-2:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型:
利用R语言中的版本号为v.4.6-14的 RF软件包中的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将真菌群落组成的相对丰度按门、纲、目、科、属、种和OTU级别进行分类建模,获得最佳预测模型的真菌分类级别;
对于每个真菌群落分类级别,将所有整合得到的真菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于真菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的真菌分类级别;
在准确率最高的分类级别上,将步骤2中的整合的全部真菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的真菌模型;
通过交叉检验提取出来对真菌模型影响最大的40个OTU及丰度信息,真菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤;
在OTU水平上利用随机森林函数对真菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的真菌分类模型。
2.根据权利要求1所述的基于高通量测序数据的枯萎病发病预测模型,其特征在于,所述步骤1中的关键词包括枯萎病发病和健康土壤的微生物群落、枯萎病土壤微生物结构。
3.根据权利要求1所述的基于高通量测序数据的枯萎病发病预测模型,其特征在于,所述参考数据库包括细菌参考数据库Greengene V 13.5和真菌参考数据库Unite。
4.一种基于权利要求1-3任一的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病发病预测中的应用。
CN202010160122.2A 2020-03-10 2020-03-10 一种基于高通量测序数据的枯萎病发病预测模型及应用 Active CN111243676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010160122.2A CN111243676B (zh) 2020-03-10 2020-03-10 一种基于高通量测序数据的枯萎病发病预测模型及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010160122.2A CN111243676B (zh) 2020-03-10 2020-03-10 一种基于高通量测序数据的枯萎病发病预测模型及应用

Publications (2)

Publication Number Publication Date
CN111243676A CN111243676A (zh) 2020-06-05
CN111243676B true CN111243676B (zh) 2024-03-22

Family

ID=70880224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010160122.2A Active CN111243676B (zh) 2020-03-10 2020-03-10 一种基于高通量测序数据的枯萎病发病预测模型及应用

Country Status (1)

Country Link
CN (1) CN111243676B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580703B (zh) * 2020-12-07 2022-07-05 昆明理工大学 一种三七病害高发期发病率预测方法
CN113435825B (zh) * 2021-05-06 2023-04-25 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) 一种基于土传病害防治的智能管理方法、系统及存储介质
CN113656565B (zh) * 2021-08-06 2024-09-24 浙江工业大学 一种基于大数据预测核心微生物组的方法
CN114496088B (zh) * 2022-01-27 2023-06-20 中国农业科学院兰州兽医研究所 一种棘球蚴病微生物标志物及其筛选方法和应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103305607A (zh) * 2013-05-22 2013-09-18 宁波大学 一种基于微生物群落变化的水产养殖病害预测方法
WO2015053803A1 (en) * 2013-10-08 2015-04-16 University Of Maryland, Baltimore Methods for distinguishing inflammatory bowel diseases using microbial community signatures
CN110675036A (zh) * 2019-09-09 2020-01-10 河海大学 一种基于随机森林优化微生物指数的高原河流生态健康评价方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103305607A (zh) * 2013-05-22 2013-09-18 宁波大学 一种基于微生物群落变化的水产养殖病害预测方法
WO2015053803A1 (en) * 2013-10-08 2015-04-16 University Of Maryland, Baltimore Methods for distinguishing inflammatory bowel diseases using microbial community signatures
CN110675036A (zh) * 2019-09-09 2020-01-10 河海大学 一种基于随机森林优化微生物指数的高原河流生态健康评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hyun Kim.《Domestication of Oryza species eco-evolutionarily shapes bacterial and fungal communities in rice seed》.《Microbiome 》.2020,第4-5页. *
林书震.《烟田土壤微生物特征及与青枯病发生关系研究》.《中国优秀硕士学位论文全文数据库》.2019,第7-53页. *

Also Published As

Publication number Publication date
CN111243676A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111243676B (zh) 一种基于高通量测序数据的枯萎病发病预测模型及应用
Vincent et al. Host associations and beta diversity of fungal endophyte communities in New Guinea rainforest trees
Cleary et al. Friend or foe? Biological and ecological traits of the European ash dieback pathogen Hymenoscyphus fraxineus in its native environment
Moragues et al. Effects of ascertainment bias and marker number on estimations of barley diversity from high-throughput SNP genotype data
Del Olmo-Ruiz et al. Interannual variation and host affiliations of endophytic fungi associated with ferns at La Selva, Costa Rica
Osorio-Guarín et al. Genome-wide association study (GWAS) for morphological and yield-related traits in an oil palm hybrid (Elaeis oleifera x Elaeis guineensis) population
Birks Challenges in the presentation and analysis of plant-macrofossil stratigraphical data
Wisitrassameewong et al. Lactarius subgenus Russularia (Basidiomycota, Russulales): novel Asian species, worldwide phylogeny and evolutionary relationships
Arstingstall et al. Capabilities and limitations of using DNA metabarcoding to study plant–pollinator interactions
Hewitt et al. The potential for mycobiont sharing between shrubs and seedlings to facilitate tree establishment after wildfire at Alaska arctic treeline
Selosse et al. Do black truffles avoid sexual harassment by linking mating type and vegetative incompatibility?
US20200357485A1 (en) System and method for nucleotide analysis
Liu et al. Host identity and phylogeny shape the foliar endophytic fungal assemblages of Ficus
Floren et al. Diversity and interactions of wood-inhabiting fungi and beetles after deadwood enrichment
Vieira et al. Aggressiveness profiling of the coffee pathogen Colletotrichum kahawae
Lajoie et al. Plant‐bacteria associations are phylogenetically structured in the phyllosphere
CN111206079A (zh) 基于微生物组测序数据和机器学习算法的死亡时间推断方法
Mongiano et al. Evolutionary trends and phylogenetic association of key morphological traits in the Italian rice varietal landscape
CN112037858A (zh) 一种确定植物主要病原菌的方法及应用
Wang et al. Variation in mycorrhizal communities and the level of mycoheterotrophy in grassland and Forest populations of Neottia ovata (Orchidaceae)
CN113744806B (zh) 一种基于纳米孔测序仪的真菌测序数据鉴定方法
Whitehouse et al. Timesweeper: accurately identifying selective sweeps using population genomic time series
CN111429971B (zh) 基于机器学习和代谢组学的岭南湿热证模式动物识别方法
Knight et al. Disease responses of hexaploid spring wheat (Triticum aestivum) culms exhibiting premature senescence (dead heads) associated with Fusarium pseudograminearum crown rot
Indumathi et al. Prediction and analysis of plant growth promoting bacteria using machine learning for millet crops

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant