CN111243676B - 一种基于高通量测序数据的枯萎病发病预测模型及应用 - Google Patents
一种基于高通量测序数据的枯萎病发病预测模型及应用 Download PDFInfo
- Publication number
- CN111243676B CN111243676B CN202010160122.2A CN202010160122A CN111243676B CN 111243676 B CN111243676 B CN 111243676B CN 202010160122 A CN202010160122 A CN 202010160122A CN 111243676 B CN111243676 B CN 111243676B
- Authority
- CN
- China
- Prior art keywords
- model
- soil
- bacterial
- sequencing data
- wilt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 57
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 57
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 22
- 239000002689 soil Substances 0.000 claims abstract description 106
- 230000001580 bacterial effect Effects 0.000 claims abstract description 72
- 241000233866 Fungi Species 0.000 claims abstract description 42
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 244000005700 microbiome Species 0.000 claims abstract description 9
- 241000894006 Bacteria Species 0.000 claims abstract description 4
- 238000012163 sequencing technique Methods 0.000 claims description 49
- 230000002538 fungal effect Effects 0.000 claims description 36
- 230000000813 microbial effect Effects 0.000 claims description 34
- 238000007637 random forest analysis Methods 0.000 claims description 34
- UHPMCKVQTMMPCG-UHFFFAOYSA-N 5,8-dihydroxy-2-methoxy-6-methyl-7-(2-oxopropyl)naphthalene-1,4-dione Chemical compound CC1=C(CC(C)=O)C(O)=C2C(=O)C(OC)=CC(=O)C2=C1O UHPMCKVQTMMPCG-UHFFFAOYSA-N 0.000 claims description 28
- 241000223218 Fusarium Species 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 11
- 241000566145 Otus Species 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 241000894007 species Species 0.000 claims description 6
- 239000000090 biomarker Substances 0.000 claims description 5
- 108020004707 nucleic acids Proteins 0.000 claims description 5
- 150000007523 nucleic acids Chemical class 0.000 claims description 5
- 102000039446 nucleic acids Human genes 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000001303 quality assessment method Methods 0.000 claims description 2
- 238000013515 script Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims 1
- 238000007477 logistic regression Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 241000196324 Embryophyta Species 0.000 description 4
- 238000012408 PCR amplification Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000007400 DNA extraction Methods 0.000 description 2
- 244000052616 bacterial pathogen Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 108020004465 16S ribosomal RNA Proteins 0.000 description 1
- 108091093088 Amplicon Proteins 0.000 description 1
- 244000241235 Citrullus lanatus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 240000008067 Cucumis sativus Species 0.000 description 1
- 235000009849 Cucumis sativus Nutrition 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 241000223221 Fusarium oxysporum Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 241000234435 Lilium Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 208000031888 Mycoses Diseases 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012272 crop production Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 244000005706 microflora Species 0.000 description 1
- 238000009335 monocropping Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出一种基于高通量测序数据的枯萎病发病预测模型及应用,通过整合不同地域、不同作物的枯萎病患病土壤和健康土壤的微生物高通量测序数据,利用机器学习方法分析患病土壤和健康土壤中细菌群落和真菌群落的特征,获取45个细菌和40个真菌的分类操作单元相对丰度特征用于辨别健康土壤和枯萎病发病土壤,并分别建立细菌模型和真菌模型,实现准确判别土壤枯萎病的发病情况,揭示枯萎病患病土壤微生物群落特征。
Description
技术领域
本发明属于农业植物保护技术领域,尤其是一种基于高通量测序数据的枯萎病发病预测模型及应用。
背景技术
微生物对人类活动至关重要。土壤微生物群落与我们的生活密切相关,特别是与我们的农业实践密切相关,深刻影响农产品的质量和数量。镰刀菌枯萎病作为土传病害的典型代表,在世界范围内极大的影响农作物的生产。在田间已分离和试验了数百种对枯萎病菌和镰刀菌有抑制作用的有益微生物。镰刀菌枯萎病虽然是由尖孢镰刀菌引起的真菌病害,病原菌数量增加必然导致发病率上升。但是目前仍然无法以病原菌数量来预测病害的发生。因为不同土壤条件、土壤间微生物的相互作用均能影响发病情况。
在过去的十几年中,通过高通量测序(HTS)方法逐渐明确了镰刀菌(Fusarium)发病和健康土壤微生物群落的特征。因此,我们在全球范围内,通过公开发表的镰刀菌枯萎病相关研究获取枯萎病土壤微生物群落的原始测序数据,并考虑了方法学和技术上的缺陷,使用多种机器学习方法来分析患病或健康土壤中细菌和真菌群落的特征,并基于此构建区分枯萎病发病和健康微生物群落的分类模型。
发明内容
本发明所解决的技术问题在于提供一种基于高通量测序数据的枯萎病发病预测模型,通过整合不同地域、不同作物的枯萎病患病土壤和健康土壤的微生物高通量测序数据,利用机器学习方法分析患病土壤和健康土壤中细菌群落和真菌群落的特征,并分别建立细菌模型和真菌模型,实现准确判别土壤枯萎病的发病情况。
实现本发明目的的技术解决方案为:
一种基于高通量测序数据的枯萎病发病预测模型,包括以下步骤:
步骤1:数据收集:使用关键词从数据库中获取枯萎病相关的土壤微生物群落的测序样品登录号,进而获取枯萎病相关的土壤微生物群落的原始测序数据;
步骤2:数据处理:将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据,分别进行处理和分析;
步骤3:将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤,应用机器学习模型随机森林RF对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型:
步骤3-1:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型:
使用随机森林创建分类模型,利用RF软件包(版本号:v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将细菌群落组成的相对丰度按门、纲、目、科、属、种和OTU等级别进行建模,获得最佳预测模型的细菌分类级别;
对于每个细菌群落分类级别,将所有整合得到的细菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于细菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的分类级别;
在准确率最高的分类级别上,将步骤2中的整合的全部细菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的细菌模型;
通过交叉检验提取出来对模型影响最大的若干个OTU。
步骤3-2:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型:
利用R语言中的RF软件包(版本号:v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将真菌群落组成的相对丰度按门、纲、目、科、属、种和OTU等级别进行分类建模,获得最佳预测模型的真菌分类级别;
对于每个真菌群落分类级别,将所有整合得到的真菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于真菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的真菌分类级别;
在准确率最高的分类级别上,将步骤2中的整合的全部真菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的真菌模型。
通过交叉检验提取出来对真菌模型影响最大的若干个OTU。
进一步的,本发明的基于高通量测序数据的枯萎病发病预测模型,所述步骤1中的关键词包括枯萎病发病和健康土壤的微生物群落、枯萎病土壤微生物结构。
进一步的,本发明的基于高通量测序数据的枯萎病发病预测模型,所述步骤3中的细菌模型和真菌模型分别包含45个细菌OTU和40个真菌OTU的分类及丰度信息。
进一步的,本发明的基于高通量测序数据的枯萎病发病预测模型,所述步骤2中对测序数据的处理和分析具体包括:拼接双端原始测序数据,过滤低质量序列,并基于参考数据库聚类操作分类单元OTU,将OTU分配到微生物门类信息。
进一步的,本发明的基于高通量测序数据的枯萎病发病预测模型,所述参考数据库包括细菌参考数据库Greengene V 13.5和真菌参考数据库Unite。
一种基于上述任一的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病预测中的应用。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明的基于高通量测序数据的枯萎病发病预测模型充分考虑了细菌群落和真菌群落的特征,预测结果可靠。
2、本发明的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病发病预测中的应用操作简便,无需种植植物,只需提取土壤DNA,进行高通量测序即可。
3、本发明的基于高通量测序数据的枯萎病发病预测模型适用于所有镰刀菌枯萎病土壤的发病预测。
附图说明
图1是随机森林、支持向量机和逻辑回归建立细菌模型的ROC曲线;
图2是随机森林、支持向量机和逻辑回归建立真菌模型的ROC曲线。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
实施例1
一种基于高通量测序数据的枯萎病发病预测模型,包括以下步骤:
1、数据收集
基于已发表研究,使用关键词枯萎病群落(Fusarium wilt community)或者枯萎病结构(Fusarium wilt structure)或者枯萎病菌群(Fusarium wilt microbiome)从谷歌学术查找真菌枯萎病和微生物群落相关的研究论文,得到枯萎病相关的土壤微生物群落的测序样品登录号。大部分相关研究的原始数据存储在NCBI中,也有一部分存储在DDBJ和欧洲核酸数据库中,均可以从中获取测序数据信息。
目前NCBI上存储了大量尚未公开发表文章的数据,往往这些数据的分组及其采样信息被描述的很清楚,可通过测序数据存储登记的项目号中搜索关键词Fusarium wiltcommunity或者Fusarium wilt structure或者Fusarium wilt microbiome,获得枯萎病研究相关的土壤微生物群落的原始测序数据。
2、数据处理:将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据,分别进行处理和分析。
(1)在谷歌、NCBI、欧洲核酸数据库,日本核酸数据库上下载每个项目中全部样品的列表文件;
(2)使用prefetch工具根据list文件下载原始测序数据;
(3)使用fastq-dump工具解压数据并区分细菌真菌测序结果;
(4)使用fastqc工具结合shell脚本对测序数据进行质量评估;
(5)通过Rstudio整合Qiime+usearch+seqkit+R等工具形成两套基于Greengene V13.5(细菌)和Unite(真菌)的Pipline进行自动化原始数据处理;
(6)基于biom格式otu表格合并和qiime标准格式mapping文件合并。
3、将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤,应用机器学习模型随机森林(RF)对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型:
3-1、构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型:
1)使用机器学习算法随机森林创建了一个分类模型,该模型适用于微生物种群数据。在此基础上,利用R语言中RF软件包(版本号:v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将细菌群落组成的相对丰度按门、纲、目、科、属、种和OUT等级别进行建模,以获得最佳预测模型的细菌分类级别。
2)对于每个细菌群落分类级别,将所有整合得到的细菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于细菌模型预测。对上述过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的细菌分类级别。在准确率最高的分类级别上,将步骤2中的整合的全部细菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的细菌模型。通过交叉检验提取出来对模型影响最大的若干个OTU,一共得到45个OTU。如表1,细菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤。
3)在OTU水平上使用随机森林(重要性=TRUE,接近性=TRUE)函数对来自24个研究(758个样本)的细菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的细菌分类模型。如表1,本细菌模型获得了98.94%的高准确度。
表1细菌模型分级预测精度
3.2构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型:
1)利用R语言中RF软件包(版本号:v.4.6-14)的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将真菌群落的相对丰度分为门、纲、目、科、属、种和OTU等级别进行分类建模,获得最佳预测模型的真菌分类级别。
2)对于每个真菌群落分类级别,将所有整合得到的真菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于真菌模型预测。对上述处理进行五次重复,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的真菌分类级别。在准确率最高的分类级别上,将步骤2中的整合的全部真菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的真菌模型。通过交叉检验提取出来对真菌模型影响最大的若干个OUT,一共得到40个OTU。如表2,真菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤。与细菌类群一样,在OTU水平上建模最能清楚地区分枯萎病发病土壤和健康土壤,因此在该水平上进行进一步分析。
3)在OTU水平上利用随机森林(重要性=TRUE,接近性=TRUE)函数对来自22个研究(279个样本)的真菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的真菌分类模型,其准确率高达96.42%,见表2。
表2真菌模型分级预测精度
土壤的细菌群落和真菌群落都可以作为生物标志物来区分枯萎病发病土壤和健康土壤,为了确定这一结果我们使用随机森林(RF)、支持向量机(SVM)和逻辑回归(LR)建立了三个机器学习模型。
如图1、图2所示,图1展示了通过三种分类方法随机森林、支持向量机、逻辑回归进行枯萎病发病和健康土壤细菌群落的分类和预测,发现随机森林模型对枯萎病发病和健康土壤的细菌群落分类和预测效果最好;图2展示了通过三种分类方法随机森林、支持向量机、逻辑回归进行枯萎病发病和健康土壤真菌群落的分类和预测,发现随机森林模型对枯萎病发病和健康土壤的真菌群落分类和预测效果最好。由三种模型的ROC曲线可知,RF模型预测样本分类的准确率最高。接下来,利用细菌数据和真菌数据建立了在OTU水平上训练的模型,它们的分类准确率最高,分别为95.00%和92.00%。
三种机器学习方法建立的模型在微生物(C:细菌性,D:真菌性)群落OTU水平上的ROC曲线,其中RF模型预测样本分类准确率最高(AUC=0.98)。
实施例2
为了验证细菌模型准确性,接下来分析来自NCBI SRA数据库的13个独立的细菌数据集,包括26个枯萎病发病土壤样本和321个健康土壤样本。所有采集的样本,细菌模型的平均准确率为94.46%,患病样本的准确率为91.75%,健康样本的准确率为96.45%(见表3)。
同时,使用了来自NCBI SRA数据库的6个独立的真菌数据集,包括21个枯萎病发病土壤样本和144个健康土样本,进行真菌模型验证。真菌模型对所有采集的样本的平均准确率为93.05%,对患病样本的准确率为91.67%,对健康样本的准确率为95.25%(见表4)。
表3 NCBI数据集的细菌模型预测精度
表4 NCBI数据集的真菌模型预测精度
实施例3
土壤样品采集:于2019年4月下旬分别采集了海南、广东、北京、江苏的香蕉、黄瓜、西瓜、百合的4种不同作物的田间土壤样品。对于病虫害的土壤收集,选择了连作且遭受枯萎病至少5年的地块,同时选择了没有发生枯萎病的新植地块进行健康的土壤收集。为了避免地理因素引起的差异,健康地选择在病害地附近。每种土样取0-20cm土层20个随机土芯(直径5cm×20cm),每个小区s型取样,合为一个土样。新收集的土壤经过2毫米的筛网筛选,以清除植物碎片和可能的小动物,然后在提取DNA之前储存在-80℃。
DNA提取、基因扩增和测序:(1)使用Power Lyzer PowerSoil DNA分离试剂盒(Qiagen,德国)按照制造商的说明书进行操作。(2)PCR扩增利用引物515F和806R合成针对细菌16S rRNA基因V4区域的PCR产物,获得292bp的扩增子,针对真菌群落,利用引物ITS3-F和ITS4-R对ITS2区进行PCR扩增;(3)采用PCR扩增仪进行PCR扩增,扩增周期为:95℃5min,94℃30s,52℃30s,72℃30s,72℃10min;(4)测序由专业公司进行精准测序。
运用本发明的模型预测:细菌模型对所有样本的平均准确率为90.00%,患病样本的准确率为87.50%,健康样本的准确率为92.50%(见表5)。
真菌模型对所有样本的平均准确率为80.00%,对患病土壤样本的准确率为97.50%,对健康土壤样本的准确率为62.50%(见表6)。研究表明,细菌模型和真菌模型都可以作为生物标志物来区分枯萎病和健康土壤。
表5收集的样本的细菌模型预测精度
本发明通过将多个独立来源的镰刀菌枯萎病土壤样品的细菌数据和真菌数据结合起来,用于检测病害土壤的微生物群落和建立用于预测土壤健康程度的微生物群落模型,通过机器学习RF模型方法选择的45个细菌和40个真菌OTUs及其分类、丰度信息作为预测模型。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。
Claims (4)
1.一种基于高通量测序数据的枯萎病发病预测模型,其特征在于,包括以下步骤:
步骤1:数据收集:使用关键词从数据库中获取枯萎病相关的土壤微生物群落的测序样品登录号,进而获取枯萎病相关的土壤微生物群落的原始测序数据;
步骤2:数据处理:将土壤微生物群落的测序数据分为细菌原始测序数据和真菌原始测序数据,分别进行处理和分析:
(1)在谷歌、NCBI、欧洲核酸数据库,日本核酸数据库上下载每个项目中全部样品 的列表文件;
(2)使用prefetch工具根据list文件下载原始测序数据;
(3)使用fastq-dump工具解压数据并区分细菌真菌测序结果;
(4)使用fastqc工具结合shell脚本对测序数据进行质量评估;
(5)通过Rstudio整合Qiime+usearch+seqkit+R工具形成两套基于Greengene V 13 .5和Unite的Pipline进行自动化原始数据处理;拼接双端原始测序数据,过滤低质量序列,并基于参考数据库聚类操作分类单元OTU,将OTU分配到微生物门类信息;
(6)基于biom格式otu表格合并和qiime标准格式mapping文件合并;
步骤3:将土壤中的细菌群落和真菌群落作为生物标志物来区分枯萎病发病土壤和健康土壤,应用机器学习模型随机森林RF对区分枯萎病发病土壤和健康土壤的细菌群落和真菌群落分别建立分类模型:
步骤3-1:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的细菌模型:
使用随机森林创建分类模型,利用版本号为v.4.6-14的RF软件包中的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将细菌群落组成的相对丰度按门、纲、目、科、属、种和OTU级别进行建模,获得最佳预测模型的细菌分类级别;
对于每个细菌群落分类级别,将所有整合得到的细菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于细菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的细菌分类级别;
在准确率最高的分类级别上,将步骤2中的整合的全部细菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的细菌模型;
通过交叉检验提取出来对模型影响最大的45个OUT及丰度信息,细菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤;
在OTU水平上使用随机森林函数对细菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的细菌分类模型;
步骤3-2:构建用于区分枯萎病发病土壤微生物群落和健康土壤微生物群落的真菌模型:
利用R语言中的版本号为v.4.6-14的 RF软件包中的randomForest函数构建随机森林模型并设置参数ntree=1000,其他参数保持默认,将真菌群落组成的相对丰度按门、纲、目、科、属、种和OTU级别进行分类建模,获得最佳预测模型的真菌分类级别;
对于每个真菌群落分类级别,将所有整合得到的真菌测序样本随机分为两部分,一部分占全部样本的三分之二,用于模型构建,另一部分占总样本三分之一,用于真菌模型预测,这个过程重复五次,通过模型预测数据评估最佳模型,从而获得预测准确率最高的用于建模的真菌分类级别;
在准确率最高的分类级别上,将步骤2中的整合的全部真菌原始测序数据组成训练集,使用相同的模型并设置相同的参数继续训练模型,进而优化所生成的预测枯萎病发病的真菌模型;
通过交叉检验提取出来对真菌模型影响最大的40个OTU及丰度信息,真菌类群在OTU水平上的建模最明显地区别于枯萎病发病土壤和健康土壤;
在OTU水平上利用随机森林函数对真菌原始测序数据进行训练,生成枯萎病发病土壤和健康土壤的真菌分类模型。
2.根据权利要求1所述的基于高通量测序数据的枯萎病发病预测模型,其特征在于,所述步骤1中的关键词包括枯萎病发病和健康土壤的微生物群落、枯萎病土壤微生物结构。
3.根据权利要求1所述的基于高通量测序数据的枯萎病发病预测模型,其特征在于,所述参考数据库包括细菌参考数据库Greengene V 13.5和真菌参考数据库Unite。
4.一种基于权利要求1-3任一的基于高通量测序数据的枯萎病发病预测模型在土壤枯萎病发病预测中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160122.2A CN111243676B (zh) | 2020-03-10 | 2020-03-10 | 一种基于高通量测序数据的枯萎病发病预测模型及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160122.2A CN111243676B (zh) | 2020-03-10 | 2020-03-10 | 一种基于高通量测序数据的枯萎病发病预测模型及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243676A CN111243676A (zh) | 2020-06-05 |
CN111243676B true CN111243676B (zh) | 2024-03-22 |
Family
ID=70880224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010160122.2A Active CN111243676B (zh) | 2020-03-10 | 2020-03-10 | 一种基于高通量测序数据的枯萎病发病预测模型及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243676B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580703B (zh) * | 2020-12-07 | 2022-07-05 | 昆明理工大学 | 一种三七病害高发期发病率预测方法 |
CN113435825B (zh) * | 2021-05-06 | 2023-04-25 | 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) | 一种基于土传病害防治的智能管理方法、系统及存储介质 |
CN113656565B (zh) * | 2021-08-06 | 2024-09-24 | 浙江工业大学 | 一种基于大数据预测核心微生物组的方法 |
CN114496088B (zh) * | 2022-01-27 | 2023-06-20 | 中国农业科学院兰州兽医研究所 | 一种棘球蚴病微生物标志物及其筛选方法和应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103305607A (zh) * | 2013-05-22 | 2013-09-18 | 宁波大学 | 一种基于微生物群落变化的水产养殖病害预测方法 |
WO2015053803A1 (en) * | 2013-10-08 | 2015-04-16 | University Of Maryland, Baltimore | Methods for distinguishing inflammatory bowel diseases using microbial community signatures |
CN110675036A (zh) * | 2019-09-09 | 2020-01-10 | 河海大学 | 一种基于随机森林优化微生物指数的高原河流生态健康评价方法 |
-
2020
- 2020-03-10 CN CN202010160122.2A patent/CN111243676B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103305607A (zh) * | 2013-05-22 | 2013-09-18 | 宁波大学 | 一种基于微生物群落变化的水产养殖病害预测方法 |
WO2015053803A1 (en) * | 2013-10-08 | 2015-04-16 | University Of Maryland, Baltimore | Methods for distinguishing inflammatory bowel diseases using microbial community signatures |
CN110675036A (zh) * | 2019-09-09 | 2020-01-10 | 河海大学 | 一种基于随机森林优化微生物指数的高原河流生态健康评价方法 |
Non-Patent Citations (2)
Title |
---|
Hyun Kim.《Domestication of Oryza species eco-evolutionarily shapes bacterial and fungal communities in rice seed》.《Microbiome 》.2020,第4-5页. * |
林书震.《烟田土壤微生物特征及与青枯病发生关系研究》.《中国优秀硕士学位论文全文数据库》.2019,第7-53页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111243676A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243676B (zh) | 一种基于高通量测序数据的枯萎病发病预测模型及应用 | |
Vincent et al. | Host associations and beta diversity of fungal endophyte communities in New Guinea rainforest trees | |
Cleary et al. | Friend or foe? Biological and ecological traits of the European ash dieback pathogen Hymenoscyphus fraxineus in its native environment | |
Moragues et al. | Effects of ascertainment bias and marker number on estimations of barley diversity from high-throughput SNP genotype data | |
Del Olmo-Ruiz et al. | Interannual variation and host affiliations of endophytic fungi associated with ferns at La Selva, Costa Rica | |
Osorio-Guarín et al. | Genome-wide association study (GWAS) for morphological and yield-related traits in an oil palm hybrid (Elaeis oleifera x Elaeis guineensis) population | |
Birks | Challenges in the presentation and analysis of plant-macrofossil stratigraphical data | |
Wisitrassameewong et al. | Lactarius subgenus Russularia (Basidiomycota, Russulales): novel Asian species, worldwide phylogeny and evolutionary relationships | |
Arstingstall et al. | Capabilities and limitations of using DNA metabarcoding to study plant–pollinator interactions | |
Hewitt et al. | The potential for mycobiont sharing between shrubs and seedlings to facilitate tree establishment after wildfire at Alaska arctic treeline | |
Selosse et al. | Do black truffles avoid sexual harassment by linking mating type and vegetative incompatibility? | |
US20200357485A1 (en) | System and method for nucleotide analysis | |
Liu et al. | Host identity and phylogeny shape the foliar endophytic fungal assemblages of Ficus | |
Floren et al. | Diversity and interactions of wood-inhabiting fungi and beetles after deadwood enrichment | |
Vieira et al. | Aggressiveness profiling of the coffee pathogen Colletotrichum kahawae | |
Lajoie et al. | Plant‐bacteria associations are phylogenetically structured in the phyllosphere | |
CN111206079A (zh) | 基于微生物组测序数据和机器学习算法的死亡时间推断方法 | |
Mongiano et al. | Evolutionary trends and phylogenetic association of key morphological traits in the Italian rice varietal landscape | |
CN112037858A (zh) | 一种确定植物主要病原菌的方法及应用 | |
Wang et al. | Variation in mycorrhizal communities and the level of mycoheterotrophy in grassland and Forest populations of Neottia ovata (Orchidaceae) | |
CN113744806B (zh) | 一种基于纳米孔测序仪的真菌测序数据鉴定方法 | |
Whitehouse et al. | Timesweeper: accurately identifying selective sweeps using population genomic time series | |
CN111429971B (zh) | 基于机器学习和代谢组学的岭南湿热证模式动物识别方法 | |
Knight et al. | Disease responses of hexaploid spring wheat (Triticum aestivum) culms exhibiting premature senescence (dead heads) associated with Fusarium pseudograminearum crown rot | |
Indumathi et al. | Prediction and analysis of plant growth promoting bacteria using machine learning for millet crops |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |