CN111243676B

CN111243676B - 一种基于高通量测序数据的枯萎病发病预测模型及应用

Info

Publication number: CN111243676B
Application number: CN202010160122.2A
Authority: CN
Inventors: 袁军; 沈其荣; 文涛
Original assignee: Nanjing Agricultural University
Current assignee: Nanjing Agricultural University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2024-03-22
Anticipated expiration: 2040-03-10
Also published as: CN111243676A

Abstract

本发明提出一种基于高通量测序数据的枯萎病发病预测模型及应用，通过整合不同地域、不同作物的枯萎病患病土壤和健康土壤的微生物高通量测序数据，利用机器学习方法分析患病土壤和健康土壤中细菌群落和真菌群落的特征，获取45个细菌和40个真菌的分类操作单元相对丰度特征用于辨别健康土壤和枯萎病发病土壤，并分别建立细菌模型和真菌模型，实现准确判别土壤枯萎病的发病情况，揭示枯萎病患病土壤微生物群落特征。

Description

一种基于高通量测序数据的枯萎病发病预测模型及应用

技术领域

本发明属于农业植物保护技术领域，尤其是一种基于高通量测序数据的枯萎病发病预测模型及应用。

背景技术

微生物对人类活动至关重要。土壤微生物群落与我们的生活密切相关，特别是与我们的农业实践密切相关，深刻影响农产品的质量和数量。镰刀菌枯萎病作为土传病害的典型代表，在世界范围内极大的影响农作物的生产。在田间已分离和试验了数百种对枯萎病菌和镰刀菌有抑制作用的有益微生物。镰刀菌枯萎病虽然是由尖孢镰刀菌引起的真菌病害，病原菌数量增加必然导致发病率上升。但是目前仍然无法以病原菌数量来预测病害的发生。因为不同土壤条件、土壤间微生物的相互作用均能影响发病情况。

在过去的十几年中，通过高通量测序(HTS)方法逐渐明确了镰刀菌(Fusarium)发病和健康土壤微生物群落的特征。因此，我们在全球范围内，通过公开发表的镰刀菌枯萎病相关研究获取枯萎病土壤微生物群落的原始测序数据，并考虑了方法学和技术上的缺陷，使用多种机器学习方法来分析患病或健康土壤中细菌和真菌群落的特征，并基于此构建区分枯萎病发病和健康微生物群落的分类模型。

发明内容

本发明所解决的技术问题在于提供一种基于高通量测序数据的枯萎病发病预测模型，通过整合不同地域、不同作物的枯萎病患病土壤和健康土壤的微生物高通量测序数据，利用机器学习方法分析患病土壤和健康土壤中细菌群落和真菌群落的特征，并分别建立细菌模型和真菌模型，实现准确判别土壤枯萎病的发病情况。

实现本发明目的的技术解决方案为：

一种基于高通量测序数据的枯萎病发病预测模型，包括以下步骤：

步骤1：数据收集：使用关键词从数据库中获取枯萎病相关的土壤微生物群落的测序样品登录号，进而获取枯萎病相关的土壤微生物群落的原始测序数据；

步骤2：数据处理：将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据，分别进行处理和分析；

步骤3：将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤，应用机器学习模型随机森林RF对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型：

步骤3-1：构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型：

使用随机森林创建分类模型，利用RF软件包(版本号：v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree＝1000，其他参数保持默认，将细菌群落组成的相对丰度按门、纲、目、科、属、种和OTU等级别进行建模，获得最佳预测模型的细菌分类级别；

对于每个细菌群落分类级别，将所有整合得到的细菌测序样本随机分为两部分，一部分占全部样本的三分之二，用于模型构建，另一部分占总样本三分之一，用于细菌模型预测，这个过程重复五次，通过模型预测数据评估最佳模型，从而获得预测准确率最高的分类级别；

在准确率最高的分类级别上，将步骤2中的整合的全部细菌原始测序数据组成训练集，使用相同的模型并设置相同的参数继续训练模型，进而优化所生成的预测枯萎病发病的细菌模型；

通过交叉检验提取出来对模型影响最大的若干个OTU。

步骤3-2：构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型：

利用R语言中的RF软件包(版本号：v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree＝1000，其他参数保持默认，将真菌群落组成的相对丰度按门、纲、目、科、属、种和OTU等级别进行分类建模，获得最佳预测模型的真菌分类级别；

对于每个真菌群落分类级别，将所有整合得到的真菌测序样本随机分为两部分，一部分占全部样本的三分之二，用于模型构建，另一部分占总样本三分之一，用于真菌模型预测，这个过程重复五次，通过模型预测数据评估最佳模型，从而获得预测准确率最高的用于建模的真菌分类级别；

在准确率最高的分类级别上，将步骤2中的整合的全部真菌原始测序数据组成训练集，使用相同的模型并设置相同的参数继续训练模型，进而优化所生成的预测枯萎病发病的真菌模型。

通过交叉检验提取出来对真菌模型影响最大的若干个OTU。

进一步的，本发明的基于高通量测序数据的枯萎病发病预测模型，所述步骤1中的关键词包括枯萎病发病和健康土壤的微生物群落、枯萎病土壤微生物结构。

进一步的，本发明的基于高通量测序数据的枯萎病发病预测模型，所述步骤3中的细菌模型和真菌模型分别包含45个细菌OTU和40个真菌OTU的分类及丰度信息。

进一步的，本发明的基于高通量测序数据的枯萎病发病预测模型，所述步骤2中对测序数据的处理和分析具体包括：拼接双端原始测序数据，过滤低质量序列，并基于参考数据库聚类操作分类单元OTU，将OTU分配到微生物门类信息。

进一步的，本发明的基于高通量测序数据的枯萎病发病预测模型，所述参考数据库包括细菌参考数据库Greengene V 13.5和真菌参考数据库Unite。

一种基于上述任一的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病预测中的应用。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明的基于高通量测序数据的枯萎病发病预测模型充分考虑了细菌群落和真菌群落的特征，预测结果可靠。

2、本发明的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病发病预测中的应用操作简便，无需种植植物，只需提取土壤DNA，进行高通量测序即可。

3、本发明的基于高通量测序数据的枯萎病发病预测模型适用于所有镰刀菌枯萎病土壤的发病预测。

附图说明

图1是随机森林、支持向量机和逻辑回归建立细菌模型的ROC曲线；

图2是随机森林、支持向量机和逻辑回归建立真菌模型的ROC曲线。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

实施例1

1、数据收集

基于已发表研究，使用关键词枯萎病群落(Fusarium wilt community)或者枯萎病结构(Fusarium wilt structure)或者枯萎病菌群(Fusarium wilt microbiome)从谷歌学术查找真菌枯萎病和微生物群落相关的研究论文，得到枯萎病相关的土壤微生物群落的测序样品登录号。大部分相关研究的原始数据存储在NCBI中，也有一部分存储在DDBJ和欧洲核酸数据库中，均可以从中获取测序数据信息。

目前NCBI上存储了大量尚未公开发表文章的数据，往往这些数据的分组及其采样信息被描述的很清楚，可通过测序数据存储登记的项目号中搜索关键词Fusarium wiltcommunity或者Fusarium wilt structure或者Fusarium wilt microbiome，获得枯萎病研究相关的土壤微生物群落的原始测序数据。

2、数据处理：将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据，分别进行处理和分析。

(1)在谷歌、NCBI、欧洲核酸数据库，日本核酸数据库上下载每个项目中全部样品的列表文件；

(2)使用prefetch工具根据list文件下载原始测序数据；

(3)使用fastq-dump工具解压数据并区分细菌真菌测序结果；

(4)使用fastqc工具结合shell脚本对测序数据进行质量评估；

(5)通过Rstudio整合Qiime+usearch+seqkit+R等工具形成两套基于Greengene V13.5(细菌)和Unite(真菌)的Pipline进行自动化原始数据处理；

(6)基于biom格式otu表格合并和qiime标准格式mapping文件合并。

3、将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤，应用机器学习模型随机森林(RF)对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型：

3-1、构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型：

1)使用机器学习算法随机森林创建了一个分类模型，该模型适用于微生物种群数据。在此基础上，利用R语言中RF软件包(版本号：v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree＝1000，其他参数保持默认，将细菌群落组成的相对丰度按门、纲、目、科、属、种和OUT等级别进行建模，以获得最佳预测模型的细菌分类级别。

2)对于每个细菌群落分类级别，将所有整合得到的细菌测序样本随机分为两部分，一部分占全部样本的三分之二，用于模型构建，另一部分占总样本三分之一，用于细菌模型预测。对上述过程重复五次，通过模型预测数据评估最佳模型，从而获得预测准确率最高的用于建模的细菌分类级别。在准确率最高的分类级别上，将步骤2中的整合的全部细菌原始测序数据组成训练集，使用相同的模型并设置相同的参数继续训练模型，进而优化所生成的预测枯萎病发病的细菌模型。通过交叉检验提取出来对模型影响最大的若干个OTU，一共得到45个OTU。如表1，细菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤。

3)在OTU水平上使用随机森林(重要性＝TRUE，接近性＝TRUE)函数对来自24个研究(758个样本)的细菌原始测序数据进行训练，生成枯萎病发病土壤和健康土壤的细菌分类模型。如表1，本细菌模型获得了98.94％的高准确度。

表1细菌模型分级预测精度

3.2构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型：

1)利用R语言中RF软件包(版本号：v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree＝1000，其他参数保持默认，将真菌群落的相对丰度分为门、纲、目、科、属、种和OTU等级别进行分类建模，获得最佳预测模型的真菌分类级别。

2)对于每个真菌群落分类级别，将所有整合得到的真菌测序样本随机分为两部分，一部分占全部样本的三分之二，用于模型构建，另一部分占总样本三分之一，用于真菌模型预测。对上述处理进行五次重复，通过模型预测数据评估最佳模型，从而获得预测准确率最高的用于建模的真菌分类级别。在准确率最高的分类级别上，将步骤2中的整合的全部真菌原始测序数据组成训练集，使用相同的模型并设置相同的参数继续训练模型，进而优化所生成的预测枯萎病发病的真菌模型。通过交叉检验提取出来对真菌模型影响最大的若干个OUT，一共得到40个OTU。如表2，真菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤。与细菌类群一样，在OTU水平上建模最能清楚地区分枯萎病发病土壤和健康土壤，因此在该水平上进行进一步分析。

3)在OTU水平上利用随机森林(重要性＝TRUE，接近性＝TRUE)函数对来自22个研究(279个样本)的真菌原始测序数据进行训练，生成枯萎病发病土壤和健康土壤的真菌分类模型，其准确率高达96.42％，见表2。

表2真菌模型分级预测精度

土壤的细菌群落和真菌群落都可以作为生物标志物来区分枯萎病发病土壤和健康土壤，为了确定这一结果我们使用随机森林(RF)、支持向量机(SVM)和逻辑回归(LR)建立了三个机器学习模型。

如图1、图2所示，图1展示了通过三种分类方法随机森林、支持向量机、逻辑回归进行枯萎病发病和健康土壤细菌群落的分类和预测，发现随机森林模型对枯萎病发病和健康土壤的细菌群落分类和预测效果最好；图2展示了通过三种分类方法随机森林、支持向量机、逻辑回归进行枯萎病发病和健康土壤真菌群落的分类和预测，发现随机森林模型对枯萎病发病和健康土壤的真菌群落分类和预测效果最好。由三种模型的ROC曲线可知，RF模型预测样本分类的准确率最高。接下来，利用细菌数据和真菌数据建立了在OTU水平上训练的模型，它们的分类准确率最高，分别为95.00％和92.00％。

三种机器学习方法建立的模型在微生物(C:细菌性，D:真菌性)群落OTU水平上的ROC曲线，其中RF模型预测样本分类准确率最高(AUC＝0.98)。

实施例2

为了验证细菌模型准确性，接下来分析来自NCBI SRA数据库的13个独立的细菌数据集，包括26个枯萎病发病土壤样本和321个健康土壤样本。所有采集的样本，细菌模型的平均准确率为94.46％，患病样本的准确率为91.75％，健康样本的准确率为96.45％(见表3)。

同时，使用了来自NCBI SRA数据库的6个独立的真菌数据集，包括21个枯萎病发病土壤样本和144个健康土样本，进行真菌模型验证。真菌模型对所有采集的样本的平均准确率为93.05％，对患病样本的准确率为91.67％，对健康样本的准确率为95.25％(见表4)。

表3 NCBI数据集的细菌模型预测精度

表4 NCBI数据集的真菌模型预测精度

实施例3

土壤样品采集：于2019年4月下旬分别采集了海南、广东、北京、江苏的香蕉、黄瓜、西瓜、百合的4种不同作物的田间土壤样品。对于病虫害的土壤收集，选择了连作且遭受枯萎病至少5年的地块，同时选择了没有发生枯萎病的新植地块进行健康的土壤收集。为了避免地理因素引起的差异，健康地选择在病害地附近。每种土样取0-20cm土层20个随机土芯(直径5cm×20cm)，每个小区s型取样，合为一个土样。新收集的土壤经过2毫米的筛网筛选，以清除植物碎片和可能的小动物，然后在提取DNA之前储存在-80℃。

DNA提取、基因扩增和测序:(1)使用Power Lyzer PowerSoil DNA分离试剂盒(Qiagen，德国)按照制造商的说明书进行操作。(2)PCR扩增利用引物515F和806R合成针对细菌16S rRNA基因V4区域的PCR产物，获得292bp的扩增子，针对真菌群落，利用引物ITS3-F和ITS4-R对ITS2区进行PCR扩增；(3)采用PCR扩增仪进行PCR扩增，扩增周期为:95℃5min,94℃30s,52℃30s,72℃30s,72℃10min；(4)测序由专业公司进行精准测序。

运用本发明的模型预测：细菌模型对所有样本的平均准确率为90.00％，患病样本的准确率为87.50％，健康样本的准确率为92.50％(见表5)。

真菌模型对所有样本的平均准确率为80.00％，对患病土壤样本的准确率为97.50％，对健康土壤样本的准确率为62.50％(见表6)。研究表明，细菌模型和真菌模型都可以作为生物标志物来区分枯萎病和健康土壤。

表5收集的样本的细菌模型预测精度

本发明通过将多个独立来源的镰刀菌枯萎病土壤样品的细菌数据和真菌数据结合起来，用于检测病害土壤的微生物群落和建立用于预测土壤健康程度的微生物群落模型，通过机器学习RF模型方法选择的45个细菌和40个真菌OTUs及其分类、丰度信息作为预测模型。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进应视为本发明的保护范围。

Claims

1.一种基于高通量测序数据的枯萎病发病预测模型，其特征在于，包括以下步骤：

步骤2：数据处理：将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据，分别进行处理和分析：

（1）在谷歌、NCBI、欧洲核酸数据库，日本核酸数据库上下载每个项目中全部样品的列表文件；

（2）使用prefetch工具根据list文件下载原始测序数据；

（3）使用fastq-dump工具解压数据并区分细菌真菌测序结果；

（4）使用fastqc工具结合shell脚本对测序数据进行质量评估；

（5）通过Rstudio整合Qiime+usearch+seqkit+R工具形成两套基于Greengene V 13 .5和Unite的Pipline进行自动化原始数据处理；拼接双端原始测序数据，过滤低质量序列，并基于参考数据库聚类操作分类单元OTU，将OTU分配到微生物门类信息；

（6）基于biom格式otu表格合并和qiime标准格式mapping文件合并；

使用随机森林创建分类模型，利用版本号为v.4.6-14的RF软件包中的randomForest函数构建随机森林模型并设置参数ntree=1000，其他参数保持默认，将细菌群落组成的相对丰度按门、纲、目、科、属、种和OTU级别进行建模，获得最佳预测模型的细菌分类级别；

对于每个细菌群落分类级别，将所有整合得到的细菌测序样本随机分为两部分，一部分占全部样本的三分之二，用于模型构建，另一部分占总样本三分之一，用于细菌模型预测，这个过程重复五次，通过模型预测数据评估最佳模型，从而获得预测准确率最高的用于建模的细菌分类级别；

通过交叉检验提取出来对模型影响最大的45个OUT及丰度信息，细菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤；

在OTU水平上使用随机森林函数对细菌原始测序数据进行训练，生成枯萎病发病土壤和健康土壤的细菌分类模型；

利用R语言中的版本号为v.4.6-14的 RF软件包中的randomForest函数构建随机森林模型并设置参数ntree=1000，其他参数保持默认，将真菌群落组成的相对丰度按门、纲、目、科、属、种和OTU级别进行分类建模，获得最佳预测模型的真菌分类级别；

在准确率最高的分类级别上，将步骤2中的整合的全部真菌原始测序数据组成训练集，使用相同的模型并设置相同的参数继续训练模型，进而优化所生成的预测枯萎病发病的真菌模型；

通过交叉检验提取出来对真菌模型影响最大的40个OTU及丰度信息，真菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤；

在OTU水平上利用随机森林函数对真菌原始测序数据进行训练，生成枯萎病发病土壤和健康土壤的真菌分类模型。

2.根据权利要求1所述的基于高通量测序数据的枯萎病发病预测模型，其特征在于，所述步骤1中的关键词包括枯萎病发病和健康土壤的微生物群落、枯萎病土壤微生物结构。

3.根据权利要求1所述的基于高通量测序数据的枯萎病发病预测模型，其特征在于，所述参考数据库包括细菌参考数据库Greengene V 13.5和真菌参考数据库Unite。

4.一种基于权利要求1-3任一的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病发病预测中的应用。