CN112580703B

CN112580703B - 一种三七病害高发期发病率预测方法

Info

Publication number: CN112580703B
Application number: CN202011437472.5A
Authority: CN
Inventors: 杨启良; 熊凯; 周平
Original assignee: Kunming University of Science and Technology
Current assignee: Yunnan Xingzhi Synergetic Agricultural Technology Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-07-05
Anticipated expiration: 2040-12-07
Also published as: CN112580703A

Abstract

本发明涉及一种三七病害高发期发病率预测方法，属于三七种植领域，所述的方法其步骤是：通过波文比采集连续三七田两年里的5‑9月中气象因子作为总样本；再随机选取全部样本的75%作为训练集；将全部样本所剩的25%作为测试集，随后获得一个基于随机森林训练中的最佳预测模型；然后利用梯度下降算法在随机森林训练的模型基础上进一步优化模型，梯度下降算法的学习率为0.01、迭代次数为400次，对第c个随机森林模型，计算目标函数关于

的负梯度，作为第c个随机森林模型的目标函数值，当第c‑1个随机森林模型中第i个样本的残差收敛时，可获得一个基于气象因子的三七病害预测模型，从而实现对三七发病率的预测。

Description

一种三七病害高发期发病率预测方法

技术领域

本发明属于三七病虫害防治领域，更具体的说涉及一种三七病害高发期发病率预测方法。

背景技术

三七(Panax notoginseng)是五加科人参属多年生草本植物，是云南白药气血康、云南白药膏等的主要成分，广泛分布于云南和广西等地。三七生长喜阴湿环境，但其生长环境对水分比较苛刻，过低的土壤水分不利于三七的生长，过高的土壤水分、空气湿度与温度容易滋生病害，每年6-8月为集中降雨期，亦为三七病害高发期。因此，研究三七病害高发期气象数据特征，获得三七病害与田间气象因子之间的关系，对三七病害的绿色防控具有重要意义。

尽管前人研究围绕光强、相对空气湿度、土壤温度与三七发病率之间的关系进行了定性描述，但降雨会改变土壤的温度和热通量、大气温湿度和太阳辐射等气象环境条件，现有研究并没有围绕气象因子进行系统的定量分析和评价。

发明内容

本发明提供一种三七病害高发期发病率预测方法，将气象因子与作物病害间的关系进行定量的研究和评价，为降低三七病害的设施环境调控和病害预警提供理论依据和技术支持。

为了解决上述问题，本发明是采用一下技术方案实现的：

(1)采集连续三七田两年里的5-9月中气象因子总样本，气象因子样本数据每0.5h采集1次，气象因子包括太阳净辐射(W/m²)，棚内温度(℃)，棚内湿度(％)，棚内土壤热通量(W/m²)，棚内饱和水蒸气压(kpa)，土壤温度(℃)，三七冠层上方温度(℃)，三七冠层上方湿度(％)，三七冠层上方土壤热通量(W/m²)，三七冠层上方饱和水蒸气压(kpa)，其分别记为X₁＝{X₁₁,X₁₂,…,X_1i}、X₂＝{X₂₁,X₂₂,…,X_2i}、X₃＝{X₃₁,X₃₂,…,X_3i}、X₄＝{X₄₁,X₄₂,…X_4i}、X₅＝{X₅₁,X₅₂,…X_5i}、X₆＝{X₆₁,X₆₂,…,X_6i}、X₇＝{X₇₁,X₇₂,…,X_7i}、X₈＝{X₈₁,X₈₂,…,X_8i}、X₉＝{X₉₁,X₉₂,…,X_9i}。(2)：对所采集数据进行随机森林训练，随机森林的最大节点数、最大树深度、最小子节点数、模型数量分别选取为1000、10、5和100，通过自助法从训练集中有放回的采样得到构建100棵树所需的100个子集即100个子模型，每个模型目标函数均为：

式中，m为样本个数，f(θ_i)为第i的三七样本的森林随机模型预测值，h(θ_i)为第i的三七样本的森林随机模型最佳预测值，y_i为第i的三七样本的真实发病率。(3)：为进一步保证预测模型的可靠性和稳定性，所以引入集成学习的概念如式所示：

式中，F_C(θ)由100个随机森林基础学习模型机模型线性组合而成，f_c(θ_n)为第c个随机森林基础学习机模型，α_c为第c个随机森林基础学习机模型的权重，因每个随机森林模型的本质是降低方差，故所有权重α_c记为1，c＝1，2，…，100为随机森林模型，θ_n为系数项。(4)：利用梯度下降算法在随机森林训练的模型基础上，进一步优化模型。梯度下降算法的学习率为0.01、迭代次数为400次。定义模型训练的目标函数，采用平方误差函数如式所示：

式中：E为平方误差。(5)：再根据梯度下降算法，对第c个随机森林模型，计算目标函数关于F_C-1(θ)的负梯度，作为第c个随机森林模型的目标函数值，如式所示：

式中，

为第c-1个随机森林模型中第i个样本的残差。(6)：当

收敛时，即梯度下降的代价函数为J(θ₀,θ₁…,θ_n)收敛，J(θ₀,θ₁…,θ_n)表示计算输出结果即经梯度下降优化后的预测三七发病率与三七真实发病率间的误差。该函数值越小表示预测值与真实值间误差越小，J(θ₀,θ₁…,θ_n)如式(8)所示：

式中，式中

为训练集中第0个特征的第i个三七样本，其中x₀＝1，θ₀,θ₁…θ_n为系数项，也称作权重，表示特征对于预测值的影响大小，用

表示最终优化模型。

所述步骤(1)中，未将三七病害高发期边界月份(逐年的5月和9月)的气象因子和三七发病率的数据作为噪点删除。

所述步骤(1)中，将每个气象因子进行1次标准归一化，以使不同气象因子间的量纲等价，且每个维度均服从均值为0、方差为1的正态分布，标准归一化定义如式所示：

式中，X为样本值，X′表示标准化后的样本值，

为样本均值，σ为样本数据的标准差。

所述步骤(2)中，三七高发期发病率在三七试验基地中随机选取30个1m×1m的区域进行统计，每5d统计1次，共计300个，每个区域的发病率为该区域发病植株数与总植株数之比，未实际统计的发病率由参数估计补齐，补齐后共计7200个。随机选取全部样本的75％作为训练集；将全部样本所剩的25％作为测试集。

所述步骤(2)中，从规模为10的特征变量集中随机选择5个变量，对于回归，采用均方差作为节点分裂标准，递归执行选取最优分枝的操作，最终获得一个基于随机森林训练的最佳预测模型。

本发明有益效果：

1)在本发明中，将数据经过随机森林构建模型后，在此基础上再用梯度下降算法进行模型优化，具有较强的非线性模拟能力、泛化能力，可以减少人为主观因素的干扰，避免传统拟合方式带来欠拟合的问题，

2)能够处理连续型、非线性变量且能较好的容忍异常值和噪声，能生成多个分类器模型，各自独立地学习和做出预测，最后结合成单预测，优于任何一个单分类的做出预测，具有相对高效而准确，

3)大幅度提高代价函数收敛速度，降低偏差，与传统上建立单个或多个气象因子回归方程的预报方法有明显区别，所构建模型能够更好地预测三七病害高发期发病率变化规律。

附图说明

图1为梯度下降算法图。

具体实施方式

为了便于本领域一般技术人员理解和实现本发明，现结合附图及具体实施例进一步描述本发明的技术方案。

实施例一、

在三七地中安装1000型波文比观测系统，连续测量三七田两年里的5-9月中气象因子总样本，气象因子样本数据每0.5h采集1次，包括太阳净辐射(W/m²)，棚内温度(℃)，棚内湿度(％)，棚内土壤热通量(W/m²)，棚内饱和水蒸气压(kpa)，土壤温度(℃)，三七冠层上方温度(℃)，三七冠层上方湿度(％)，三七冠层上方土壤热通量(W/m²)，三七冠层上方饱和水蒸气压(kpa)。三七高发期发病率在三七地中随机选取30个1m×1m的区域进行统计，在30个区域内计算得5组加权平均数，每5d统计1次，共计300个，每个区域的发病率为该区域发病植株数与总植株数之比，未实际统计的发病率由参数估计补齐，补齐后共计7200个。随机选取全部样本的75％作为训练集；将全部样本所剩的25％作为测试集。

因无法直接判断试验样本中气象因子与三七发病率之间是否存在多元共线性的问题，随机森林对多元共线性并不敏感，为此首先进行主效应分析(Principal ComponentsAnalysis,PCA)处理，为获得不同气象因子间的皮尔逊相关系数的大小，将任意一个指标(气象因子或发病率)记为变量X，将另一任意指标记为变量Y进行PCA处理，重复该步骤，至到获得所有指标两两之间的皮尔逊相关系数为止。通过主效应分析后，通过皮尔逊相关系数的大小可以反应出不同气象因子对三七病害影响的权重大小，是否有高度共线性关系以及不同气象因子间的共线性程度，皮尔逊相关系数"r(X,Y)"的取值范围为[-1,1]，取值在(0，1]间表示取值越大正相关性越强，取值在[-1,0)间取值越小负相关性越大，0值表示无相关。评价指标如下式所示。

式中Cov(X,Y)为X与Y的协方差，Var(X)为X的方差，Var(Y)为Y的方差。

对所采集数据进行随机森林训练，随机森林的最大节点数、最大树深度、最小子节点数、模型数量分别选取为1000、10、5和100，通过自助法从训练集中有放回的采样得到构建100棵树所需的100个子集即100个子模型，每个模型目标函数均为：

式中，m为样本个数，f(θ_i)为第i的三七样本的森林随机模型预测值，h(θ_i)为第i的三七样本的森林随机模型最佳预测值，y_i为第i的三七样本的真实发病率。

引入集成学习的概念如式所示：

式中，F_C(θ)由100个随机森林基础学习模型机模型线性组合而成，f_c(θ_n)为第c个随机森林基础学习机模型，α_c为第c个随机森林基础学习机模型的权重，因每个随机森林模型的本质是降低方差，故所有权重α_c记为1，c＝1，2，…，100为随机森林模型，θ_n为系数项。从规模为10的特征变量集中随机选择5个变量，对于回归，采用均方差作为节点分裂标准，递归执行选取最优分枝的操作，最终获得一个最佳的初始预测模型。

此时将测试集用于验证其习得模型性能，试验结果表明均方根误差(RMSE)为0.23，与真实值间的误差较小，表示模型拟合较好，预测效果可以被信赖，由模型预测的三七病害高发期发病率如下表所示。表中置信下限存在负值，表示负值越大，预测三七发病的可能性越低，从而将负值部分取倒数的绝对值后记为正值发病率，置信上限存在＞100％的情况，发病率超出100％越多，表示预测三七发病的可能性越大，故将其记为100％。由该表可知，预测发病率为[5,25)的频率<500次，而预测发病率为[60,80)的频率>1500次，这与三七病植株病害从侵入期到高发期感染其他植株的速度呈指数增长的现象一致

利用梯度下降算法在随机森林训练的模型基础上，进一步优化模型。梯度下降算法的学习率为0.01、迭代次数为400次。定义模型训练的目标函数，采用平方误差函数如式所示：

式中：E为平方误差。

再根据梯度下降算法，对第c个随机森林模型，计算目标函数关于F_C-1(θ)的负梯度，作为第c个随机森林模型的目标函数值，如式所示：

式中，

为第c-1个随机森林模型中第i个样本的残差。

当

收敛时，即梯度下降的代价函数为J(θ₀，θ₁…，θ_n)收敛，J(θ₀，θ₁…，θ_n)表示计算输出结果即经梯度下降优化后的预测三七发病率与三七真实发病率间的误差。该函数值越小表示预测值与真实值间误差越小，J(θ₀，θ₁…，θ_n)如式(8)所示：

式中，式中

为训练集中第0个特征的第i个三七样本，其中x₀＝1，θ₀，θ₁…θ_n为系数项，也称作权重，表示特征对于预测值的影响大小，用

表示最终优化模型。

此时将随机森林的每个输出模型导入梯度下降算法，迭代N次至代价函数收敛(由下图1可知N＝200)，此时可得使代价函数收敛的系数项θ值，此时代价函数J(θ₀，θ₁…，θ_n)值为241.003，即优化后的模型预测的三七发病率与三七真实发病率间相差1.5％。将通过梯度下降算法的集合学习的预测函数计算输出结果f_θ(x)即预测公式写为：

式中x₁为太阳净辐射，x₂为三七棚内温度，x₃为三七棚内湿度，x₄为三七棚内土壤热通量，x₅为土壤温度，x₆为三七冠层上方的温度，x₇为三七冠层上方的湿度，x₈为三七冠层上方的土壤热通量，x₉为棚内的饱和水蒸气压，x₁₀为三七冠层上方的饱和水蒸气压。

在进行田间试验测试时，模型优化后的预测发病率与三七真实发病率间相差1.5％，表明所构建模型能够较好地预测三七病害高发期发病率变化规律，这为定性、定量分析气象因子病害与三七病害之间的关系以及三七病害高发期的病害预测提供了较优的思路和方法，可为降低三七病害的设施环境调控和智能化管理提供理论依据和技术支持，在处理由于该地区气象指标在时间分布上不具备明显的决策边界、连续且非线性、单个指标在数值上具有明显的重叠性的问题上具有较好的性能。

此外，虽然本说明书按照实施方法加以描述，但具体实施方式并非仅包含这一个独立的技术方案，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种三七病害高发期发病率预测方法，其特征在于，所述的预测方法步骤如下：

步骤1.连续几年采集三七田5-9月中的气象因子数据，气象因子数据每0.5h采集1次；

步骤2.将步骤1数据分为训练集和测试集，对训练集数据进行随机森林训练；

步骤3.将每一个随机森林作为基础学习机模型，累加获得一个集成学习机模型；

步骤4.建立最终优化预测模型；

步骤5.将待测定的气象因子数据带入步骤4所得到的最终优化预测模型中，得出对应时间的三七预测发病率，从而在三七病害的高发期前进行防治；

所述的步骤1详细方法如下：连续几年采集三七田5-9月中的气象因子数据，气象因子数据每0.5h采集1次，气象因子包括太阳净辐射、棚内温度、棚内湿度、棚内土壤热通量、棚内饱和水蒸气压、土壤温度、三七冠层上方温度、三七冠层上方湿度、三七冠层上方土壤热通量、三七冠层上方饱和水蒸气压，并分别记为X1＝{X11,X12,…,X1i}、X2＝{X21,X22,…,X2i}、X3＝{X31,X32,…,X3i}、X4＝{X41,X42,…X4i}、X5＝{X51,X52,…X5i}、X6＝{X61,X62,…,X6i}、X7＝{X71,X72,…,X7i}、X8＝{X81,X82,…,X8i}、X9＝{X91,X92,…,X9i}、X10＝{X101,X102,…,X10i}；

同时连续几年采集三七田5-9月的三七发病率数据；

所述的步骤2详细方法如下：

将步骤1数据分为训练集和测试集，对训练集数据进行随机森林训练，随机森林的最大节点数、最大树深度、最小子节点数、模型数量分别选取为1000、10、5和100，通过自助法从训练集中有放回的采样得到构建n棵树所需的n个子集即n个子模型，n≥50，从气象因子中随机选择5个因子，采用均方差作为节点分裂标准，递归执行选取最优分枝的操作，获得一个最佳的随机森林模型输出；

每个模型目标函数均为：

式中，m为样本个数，f(θ_i)为第i的三七样本的森林随机模型预测值，y_i为第i的三七样本的真实发病率；

每个随机森林子模型的性能评价指标为均方根误差(Root Mean Square Error,RMSE)，评价指标如下式所示：

式中，h(θ_i)为第i的三七样本的森林随机模型最佳预测值；

当RMSE收敛时，获得第n个随机森林子模型的最优初始模型；

所述的步骤3详细方法如下：将每一个随机森林作为基础学习机模型，累加获得一个集成学习机模型，如下式所示

式中，F_C(θ)由100个随机森林基础学习模型机模型线性组合而成，f_c(θ_n)为第c个随机森林基础学习机模型，α_c为第c个随机森林基础学习机模型的权重，因每个随机森林模型的本质是降低方差，故所有权重α_c记为1，c＝1，2，…，100为随机森林模型，θ_n为系数项；

通过随机森林拟合已经将数据降维，使训练集样本量和模型复杂度相匹配，训练集和测试集的特征分布均匀，这弥补了梯度下降算法局限处，利用梯度下降算法在随机森林训练的模型基础上，进一步优化模型，梯度下降算法的学习率为

迭代次数为N次，N≥50；定义模型训练的目标函数，采用平方误差函数如式所示：

式中：E为平方误差；

式中，

为第c-1个随机森林模型中第i个样本的残差；

所述的步骤4详细方法如下：当

收敛时，即梯度下降的代价函数为J(θ₀,θ₁…,θ_n)收敛，J(θ₀,θ₁…,θ_n)表示计算输出结果，即经梯度下降优化后的预测三七发病率与三七真实发病率间的误差，该函数值越小表示预测值与真实值间误差越小，J(θ₀,θ₁…,θ_n)如下式所示：

式中，式中

表示最终优化预测模型；

此时可以将

改写为：f_θ(x)＝C+ax₁+bx₂+cx₃+dx₄+ex₅+fx₆+gx₇+hx₈+jx₉+kx₁₀

式中C为常数项，x₁为太阳净辐射，x₂为三七棚内温度，x₃为三七棚内湿度，x₄为三七棚内土壤热通量，x₅为土壤温度，x₆为三七冠层上方的温度，x₇为三七冠层上方的湿度，x₈为三七冠层上方的土壤热通量，x₉为棚内的饱和水蒸气压，x₁₀为三七冠层上方的饱和水蒸气压，a,b,c,d,e,f,g,h,j,k分别为所对应的气象因子的权重。

2.根据权利要求1所述的一种三七病害高发期发病率预测方法，其特征在于：步骤1中未将三七病害高发期边界月份5月、9月的气象因子和三七发病率的数据作为噪点删除。

3.根据权利要求2所述的一种三七病害高发期发病率预测方法，其特征在于：步骤1中将每个气象因子进行1次标准归一化，以使不同气象因子间的量纲等价，且每个维度均服从均值为0、方差为1的正态分布，标准归一化定义如式所示：

式中，X为样本值，X'表示标准化后的样本值，

为样本均值，σ为样本数据的标准差。

4.根据权利要求1所述的一种三七病害高发期发病率预测方法，其特征在于：所述步骤2中，从规模为10的特征变量集中随机选择5个变量，对于回归，采用均方差作为节点分裂标准，递归执行选取最优分枝的操作获得一个最佳的随机森林模型输出。

5.根据以上任意一条权利要求所述的一种三七病害高发期发病率预测方法，其特征在于：三七发病率数据是在三七田中随机选取若干个区域进行统计，每间隔几天统计1次，每个区域的发病率为该区域发病植株数与总植株数之比，为使发病率采集频率与气象因子采集频率对应，未实际统计的发病率由参数估计补齐。