CN114662742A

CN114662742A - 大田灌溉施肥制度动态决策方法及装置

Info

Publication number: CN114662742A
Application number: CN202210224846.8A
Authority: CN
Inventors: 于景鑫; 张钟莉莉; 张馨; 史凯丽; 郭瑞
Original assignee: Intelligent Equipment Technology Research Center of Beijing Academy of Agricultural and Forestry Sciences
Current assignee: Intelligent Equipment Technology Research Center of Beijing Academy of Agricultural and Forestry Sciences
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-24

Abstract

本发明提供一种大田灌溉施肥制度动态决策方法及装置，该方法包括：获取待决策作物生育期的环境特征，特征包括气象特征和土壤特征；将环境特征输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；其中，强化学习网络模型，根据水肥策略扩展数据集训练得到；水肥策略扩展数据集，为基于贝叶斯优化算法，对水肥策略数据集的水肥利用效率，进行水肥策略特征寻优确定最大水肥利用效率后得到；水肥策略数据集，为基于不同水肥策略种植后，得到的包括环境特征、水肥策略特征和水肥利用效率对应关系的数据集。该方法可提升最佳水肥策略的置信度，以得到最大水肥利用效率对应的水肥策略，提高最终决策得到水肥策略的真实水肥利用效率。

Description

大田灌溉施肥制度动态决策方法及装置

技术领域

本发明涉及作物种植领域，尤其涉及一种大田灌溉施肥制度动态决策方法及装置。

背景技术

在大田种植过程中，水和肥是决定农作物产量与品质的关键因素。然而，在实际生产中，通常依据当地种植管理者的经验实施水肥管理策略。例如，对水肥制度的制定通常是通过多年长期的种植试验，结合作物生长和产量，摸索出一套结合生育期的简单灌溉施肥制度，包括灌水次数，灌水量，施肥次数、施肥量等。

然而，在大田种植的条件下，水肥条件受天气的影响极为显著，例如降水是土壤含水量的重要来源，而丰水年和枯水年的降水量差异可达50％，这就使得少数年份的实验结果，难以对数十年尺度的种植过程具有明显代表性和适用性。此外，作物需水需肥量还受到种植品种、种植密度、农艺管理措施等影响，可想而知，采用一套经验参数进行灌溉施肥的准确性会受到影响，而考虑上述不同因素开展试验研究，建立全面的施肥灌溉制度工程量巨大。

仅对特定地区、作物和时间开展试验，难以覆盖地区、作物、气象差异。现有研究中，水肥制度通常来自多年实际种植试验，考虑到作物生长所需的时间、品种、农艺措施差异等，需要开展不同类型、不同周期的海量试验，而完成完整的种植过程需持续1-3年时间，耗时久体量小，数据积累难覆盖弱。此外，不同区域的小气候变化差异显著，需要在不同类型的气候条件下才能取得典型的水肥消耗特征。这使得现有的研究在有限的条件下，只能着重针对部分地区的少数主要种植作物进行研究，难以覆盖广袤农用耕地和丰富的作物品种。

发明内容

针对现有技术存在的问题，本发明提供一种大田灌溉施肥制度动态决策方法及装置。

本发明提供一种大田灌溉施肥制度动态决策方法，包括：获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征；将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；其中，所述强化学习网络模型，根据水肥策略扩展数据集训练得到；所述水肥策略扩展数据集，为基于贝叶斯优化算法，对水肥策略数据集的水肥利用效率，进行水肥策略特征寻优确定最大水肥利用效率后得到；所述水肥策略数据集，为不同气象条件和不同土壤环境下，基于不同水肥策略种植后，得到的包括环境特征、水肥策略特征和水肥利用效率对应关系的数据集。

根据本发明一个实施例的大田灌溉施肥制度动态决策方法，所述将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略之前，还包括：获取作物种在不同气象条件和不同土壤条件下，按照确定的水肥策略种植后的历史气象数据、土壤数据得到环境特征，结合水肥策略特征以及计算得到的水肥利用效率，构建所述水肥策略数据集；以水肥利用效率为优化目标，根据贝叶斯算法确定代理模型，并基于树形结构概率密度估计算法进行调整，得到最终代理模型；基于预期改进算法确定采样函数，对所述水肥策略数据集中每条环境特征对应的水肥策略进行多次迭代采样，且每次迭代选择使目标函数值增加的下一评估点进行水肥策略和水肥利用效率的更新，得到具有最大水肥利用效率和对应水肥策略特征的所述水肥策略扩展数据集。

根据本发明一个实施例的大田灌溉施肥制度动态决策方法，所述将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略之前，还包括：根据水肥策略扩展数据集，基于策略学习方法DDPG对所述强化学习网络模型进行训练。

根据本发明一个实施例的大田灌溉施肥制度动态决策方法，所述根据水肥策略扩展数据集，基于策略学习方法DDPG对所述强化学习网络模型进行训练，包括：将水肥策略扩展数据集中的每个环境特征和水肥策略特征的组合作为动作空间，将每个环境特征和水肥策略特征组合条件下对应的水肥利用效率作为状态空间，设置相应的损失函数；在DDPG的Actor部分，通过Eval网络基于当前状态选择动作，并根据损失函数更新策略网络参数θ；通过Target网络根据采样的下一个状态选择对应的最优动作，并根据Eval网络的参数θ更新Target的网络参数θ′；在DDPG的Critic部分，通过Eval网络根据当前状态和当前动作计算当前Q值，并根据损失函数更新网络参数ω；通过Target网络根据下一状态和下一动作计算下一状态的Q值，并根据Eval网络的参数ω更新Target的网络参数ω′。

根据本发明一个实施例的大田灌溉施肥制度动态决策方法，所述水肥利用效率根据作物产量、施肥量和灌水量确定。

根据本发明一个实施例的大田灌溉施肥制度动态决策方法，所述作物产量根据环境特征，基于水肥效率模型AquaCrop模型得到。

根据本发明一个实施例的大田灌溉施肥制度动态决策方法，所述水肥利用效率确定方法包括如下：

其中，Crop_yield表示作物产量，WU_total表示生育期内总用水量，NU_total表示生育期内总施肥量，FA_WU、FA_NU分别表示作物种植当地的灌溉和施肥额定值。

本发明还提供一种大田灌溉施肥制度动态决策装置，包括：输入模块，用于获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征；处理模块，用于将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；

其中，所述强化学习网络模型，根据水肥策略扩展数据集训练得到；所述水肥策略扩展数据集，为基于贝叶斯优化算法，对水肥策略数据集的水肥利用效率，进行水肥策略特征寻优确定最大水肥利用效率后得到；所述水肥策略数据集，为不同气象条件和不同土壤环境下，基于不同水肥策略种植后，得到的包括环境特征、水肥策略特征和水肥利用效率对应关系的数据集。

本发明提供的大田灌溉施肥制度动态决策方法及装置，基于历史样本的水肥策略数据集为基础，结合气象特征和土壤特征进行水肥策略的配置，可提升最佳水肥策略的置信度。另外，基于历史的水肥策略数据集进行寻优，以得到最大水肥利用效率对应的水肥策略，可使得模型基于最大水肥效率的环境特征和水肥策略数据训练得到，提高最终决策得到水肥策略的真实水肥利用效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的大田灌溉施肥制度动态决策方法的流程示意图；

图2是本发明提供的大田灌溉施肥制度动态决策装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的水肥制度不仅缺少标准化的流程，也难以针对特殊区域和气象条件形成动态决策。相比于传统的人工经验的水肥策略，通过结合气象、土壤等因素综合制定的水肥管理制度，能够提升产量最高可达40％，同时可减少超20％灌水量及减少30％肥料施用量。因此，结合气象、土壤、作物与农事管理信息制定合理的灌溉和施肥策略，能够有效提升作物生长状况及产量，降低水肥用量和人工工作量，实现高产量、高品质、水肥高效利用的“三高”目标。

下面结合图1-图3描述本发明的大田灌溉施肥制度动态决策方法及装置。图1是本发明提供的大田灌溉施肥制度动态决策方法的流程示意图，如图1所示，本发明提供大田灌溉施肥制度动态决策方法，包括：

101、获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征。

为了充分考虑水肥生长机理结合实时气候变化，形成气候智慧型灌溉施肥方法，本发明构建以气象为驱动基于海量先验知识的动态水肥制度决策方法。

首先，对于待决策水肥策略的作物，收集生育期的相关特征数据，包括气象数据和土壤数据，并进行特征提取得到对应的气象特征和土壤特征，即上述环境特征的一部分。

在一个实施例中，上述环境特征还包括生育期特征，生育期特征包括生育期开始日期和生育期天数。

在一个实施例中，气象特征包括空气温度(T)、空气湿度(H)、降水(R)、日照(S)、大气压强(P)和风速(U)、最高温度(Tx)和最低温度(Tn)特征。土壤特征包括经度X(十进制度)、纬度Y(十进制度)、高程E(m)特征以及初始土壤含水量。

具体而言，若在生育期之前进行水肥决策，可先获取生育期的气象预报数据，得到气象特征。

102、将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略。

在101之前，本发明首先收集已经种植过的实验数据，将历史长时序气象数据作为基础数据库构建基于气象驱动机理模型的水肥效率估算模型，并确定水肥利用效率(WNUE)。其中，水肥利用效率的确定方法包括根据水肥使用量与作物产量的关系确定。

例如，可基于气象驱动机理模型的水肥效率模型AquaCrop模型来实现作物水肥响应的演变模拟。得出相关条件下的作物产量估算，在基于作物产量和水肥策略对应的水灌溉量和施肥量，便可得到对应的水肥利用效率WNUE。

其中，AquaCrop模型假设作物产量(yield，Y)的高低是对作物蒸散量(evapotranspiration，ET)大小的响应结果：

式中，Y_x、Y_a分别为作物最大产量(kg/m²)和实际产量(kg/m²)。ET_x、ET_a分别为作物潜在蒸散量(mm)和实际蒸散量(mm)。ET_x指充分供水条件下的蒸散量，根据Penman-Monteith公式计算出参考蒸散量ET₀，然后再乘以对应的作物系数得到。ET_a是指实际供水情况下的蒸散量，会受水分供给不足导致的土壤水分胁迫影响。k_y为作物产量对土壤水分亏缺响应的敏感系数，随作物生育期变化。

参考作物蒸散量ET₀，计算公式为：

式中，ET₀为参考作物蒸散量，mm/d；Δ为温度—饱和水汽压关系曲线在温度T处的切线斜率，kPa/℃；R_n为净辐射，MJ/(m2·d)；G为土壤热通量，MJ/(m2·d)；T为平均温度，℃；r为干湿表常数；U₂为2m高处风速，m/s；e_s为平均饱和水汽压，kPa；e_a为实际水汽压，kPa。

AquaCrop模型以日为模拟步长，通过输入气候、作物、土壤，田间管理如灌溉、施肥及除草等数据模拟作物光合、呼吸、蒸腾等过程演变，输出冠层覆盖度(CC)、生物量(Bx)、产量(Crop_yield)等结果。其中，作物产量是作物成熟时的生物量(biomass，Bx)与收获指数(harvest index，HI)相乘得到。作物生物量则是由归一化的水分生产力即单位耗水量累积的生物量(normalized water productivity，WP*)乘以作物蒸腾量与参考蒸散量的比值得到：

式中，B_i为日地上生物量(t/hm2)；T_ri为日蒸腾量(mm)，ET_o,i为日参考蒸散量(mm)。WP^*为归一化水分生产力(gram/m2)，是将作物水分生产力除以标准蒸散条件下的作物蒸散量，根据大气实际CO2浓度、作物类型以及作物生长期和产量成熟期进行参数调整。

利用Penman-Monteith公式计算出参考蒸散量后，根据冠层覆盖度最大时的作物蒸腾系数和实际生长过程的冠层覆盖度(canopy coverage，CC)，将作物生长过程中的作物蒸腾量(transpiration，T_r)从蒸散量中分离出来，用于剔除土壤蒸发的非生产性消耗性用水干扰。此外，随着冠层扩张，需要对CC进行修订减少遮阴和冠层对空气平流对作物蒸腾的影响，其公式为：

T_r＝CC^*×Kcb_x×ET₀

Kcb_x＝K_aer×KS_sto

式中，CC^*为考虑了冠层遮阴和空气流动影响后的冠层覆盖度(％)；Kcb_x为充分供水条件下参考作物蒸散的蒸腾系数。实际作物蒸腾受土壤水分胁迫影响，表现为缺水情况下的气孔导度胁迫，KS_sto表示胁迫系数以及多水情况下的土壤通气性胁迫，K_aer表示胁迫系数。二者取值范围是[0，1]的无量纲参数，值为1时无胁迫。

冠层覆盖度随作物生长发生变化，直接影响作物的光合作用。采用指数形式表达CC的增衰变化，包括指数增长期和平稳增长期和衰落期，表达式分别为：

式中，CC为冠层覆盖度(％)；t为从出苗开始累积的时间；CC₀为初始冠层覆盖度(％)，一般取90％出苗时的平均幼苗覆盖度；CC_x为冠层覆盖度达到最大时的值(％)；CGC为冠层覆盖度增加速率(canopy growth coefficient)，表示单位生长度日冠层覆盖度的增加量(％)；CDC为冠层覆盖度衰减速率(canopy decline coefficient)，表示单位生长度日冠层覆盖度的减少量(％)。土壤水分胁迫下对CGC和CDC修正公式如式为：

CGC_adj＝Ks_exp×CGC

式中，CGC_adj和CDC_adj分别表示受水分胁迫影响的CGC和CDC，Ks_exp为水分对冠层覆盖增加的胁迫系数；

为水分对冠层覆盖减少的胁迫系数。

AquaCrop模型中，计算作物产量时，根系增长速率计算公式如下：

式中，Z为t时刻的有效根深(m)；Z_ini为根系初始深度(m)；Z_x为最大有效根深(m)；t₀为90％出苗的时间；t_x为根系达到最大有效根深的时间；t为根系生长时间。

考虑到构建的水肥策略数据集，水肥策略不是最佳水肥策略，本发明中基于贝叶斯优化算法，对水肥策略数据集的水肥利用效率，进行水肥策略特征寻优以得到最大水肥利用效率对应的水肥策略，并进行水肥策略的更新，得到水肥策略扩展数据集。再基于所生成的水肥策略扩展数据集作为总的经验池，利用强化学习算法学习水肥策略，得到训练好的强化学习网络模型。该训练好的强化学习网络模型，可针对未来生育期的环境特征，配置出最优水肥策略，使得水肥利用效率最大化。其中，水肥策略包括灌水量、施肥量、灌水天数、施肥天数等。

本发明的大田灌溉施肥制度动态决策方法，基于历史样本的水肥策略数据集为基础，结合气象特征和土壤特征进行水肥策略的配置，可提升最佳水肥策略的置信度。另外，基于历史的水肥策略数据集进行寻优，以得到最大水肥利用效率对应的水肥策略，可使得模型基于最大水肥效率的环境特征和水肥策略数据训练得到，提高最终决策得到水肥策略的真实水肥利用效率，并结合强化学习强大的学习决策能力，实现高置信度的水肥策略决策。

在一个实施例中，所述水肥利用效率根据作物产量、施肥量和灌水量确定。在一个实施例中，所述作物产量根据环境特征，基于水肥效率模型AquaCrop模型得到。上述实施例已举例说明，此处不再赘述。

在一个实施例中，所述水肥利用效率确定方法包括如下：

可以看出，本发明实施例结合了当地的灌溉和施肥额定值，即当地推荐灌溉和施肥定额，可实现水肥利用效率的准确量化，避免过度灌溉和过度施肥。

在一个实施例中，所述将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略之前，还包括：获取作物种在不同气象条件和不同土壤条件下，按照确定的水肥策略种植后的历史气象数据、土壤数据得到环境特征，结合水肥策略特征以及计算得到的水肥利用效率，构建所述水肥策略数据集；以水肥利用效率为优化目标，根据贝叶斯算法确定代理模型，并基于树形结构概率密度估计算法进行调整，得到最终代理模型；基于预期改进算法确定采样函数，对所述水肥策略数据集中每条环境特征对应的水肥策略进行多次迭代采样，且每次迭代选择使目标函数值增加的下一评估点进行水肥策略和水肥利用效率的更新，得到具有最大水肥利用效率和对应水肥策略特征的所述水肥策略扩展数据集。

本发明实施例基于气象驱动机理模型的水肥效率模型，模拟真实气象条件下不同的水肥制度配置下的产量、水肥利用效率提升的结果，利用贝叶斯优化算法作为随机优化的核心算法，探索最佳水肥制度的配置，即通过动态配置水肥策略寻找最大的水肥利用效率，提升最终的WNUE，最终整合模型所有输入输出组合，构建水肥策略扩展数据集。

在具体实施例中，模型输入参数可包括：初始土壤含水量、生育期开始日期、生育期天数、灌水次数、灌水日期、灌水量、施肥次数、施肥日期、施肥量以及对应生育期阶段的逐日气象数据，分别针对各参数设定适宜取值范围，进而通过本实施例的智能寻优算法动态生成输入策略，实现WNUE最大寻优。

具体地，采用贝叶斯优化算法作为基础全局参数优化算法，优化过程利用贝叶斯定理，使用概率代理模型拟合目标函数，根据前序采样结果选择下一个评估点快速达到最优解，表达式为：

H_i＝{(x₁，f(x₁))，…，(x_i，f(x_i))}

式中，p(f)和p(H_i∣f)分别为f的先验概率分布和似然分布，p(H_i∣f)表示在已给定观测数据合集H_i时参数f条件概率分布，即后验概率分布。

进一步，本发明采用树结构概率密度估计(tree-structured Parzen estimator，TPE)算法作为概率代理模型，式中p(H_i∣f)定义为：

式中，y^*＝min{(x₁，f(x₁))，…，(x_i，f(x_i))}，表示观测域上的最优值；l(x)为观测值x的损失函数小于y^*的密度估计，g(x)表示观测值x的损失函数大于等于y^*的密度估计。

本发明采用预期改进(expected improvement，EI)作为采样函数，选择对目标函数值有优化作用的下一个评估点，表达式为：

当p(y∣x)在y<y^*处积分为正，设置超参数x进行算法建模将产生比观测域上最优值更好的结果。

令γ＝p(y<y*)，构造：

代入式采样函数可得：

当超参数x具有最大概率l(x)和最小概率g(x)时，取得最大EI值。通过l(x)和g(x)构造样本超参数合集，以l(x)/g(x)的形式对x进行评估，在每次迭代过程中，算法返回具有最大EI值的点x^*。

通过以上算法，实现水肥策略的动态生成与模拟，根据反馈结果不断更新，过程中将生成海量的“气象-土壤-水肥策略+WNUE”数据组合对，可以json的形式整合所有数据组合，形成水肥制度扩展数据集。

本发明实施例的大田灌溉施肥制度动态决策方法，基于历史的水肥策略数据集进行寻优，以得到最大水肥利用效率对应的水肥策略，可使得模型基于最大水肥效率的环境特征和水肥策略数据训练得到，提高最终决策得到水肥策略的真实水肥利用效率。

在一个实施例中，将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略之前，还包括：根据水肥策略扩展数据集，基于策略学习方法DDPG对所述强化学习网络模型进行训练。

水肥制度扩展数据集作为总的经验回放池，利用强化学习算法学习水肥制度策略，针对未来生育期的气象数据，配置出最优水肥制度策略。

本发明所述的强化学习模型采用深度学习神经网络融合进DPG的策略学习方法(Deep Deterministic Policy Gradient，DDPG)作为核心学习决策算法。所述算法采用了异策略的“演员-评论家(Actor-Critic)”算法框架，基于双深度Q学习网络(Double deepQ-learning network，DDQN)的双网络结构用于解决收敛慢的问题。智能体与环境交互得到状态，通过神经网络得到动作策略，智能体执行策略后，得到环境的反馈，再通过强化学习的决策能力对各个策略进行评价，之后对神经网络进行更新。

在一个实施例中，所述根据水肥策略扩展数据集，基于策略学习方法DDPG对所述强化学习网络模型进行训练，包括：

将水肥策略扩展数据集中的每个环境特征和水肥策略特征的组合作为动作空间，将每个环境特征和水肥策略特征组合条件下对应的水肥利用效率作为状态空间，设置相应的损失函数；

在DDPG的Actor部分，通过Eval网络基于当前状态选择动作，并根据损失函数更新策略网络参数θ；通过Target网络根据采样的下一个状态选择对应的最优动作，并根据Eval网络的参数θ更新Target的网络参数θ′；

在DDPG的Critic部分，通过Eval网络根据当前状态和当前动作计算当前Q值，并根据损失函数更新网络参数ω；通过Target网络根据下一状态和下一动作计算下一状态的Q值，并根据Eval网络的参数ω更新Target的网络参数ω′。

所述的Actor-Critic框架中，Actor和Critic都包含2个神经网络：Eval网络和Target网络。在Actor算法框架中，Eval网络根据当前状态s_t选择动作a_t，并负责更新策略网络参数θ；Target网络根据经验池采样的下一个状态s_t+1选择下一个最优动作a_t+1，网络参数θ′从θ中更新。使用对状态和行为的评价均值作为损失函数：

L_oss＝-m_ean(Q(s_t，a_t，θ))

在Critic中，Eval网络根据状态s_t和动作a_t计算当前Q值Q(st，at)，并负责价值网络参数ω的更新；Target网络根据s_t+1和a_t+1计算下一个状态的实际Q值，网络参数ω′通过ω更新，表达式为：

Q_Target＝r_t+1+γ·Q′(s_t+1，a_t+1，ω′)

式中：γ为折扣因子，表示时间的远近对奖励的影响程度，越小表示更看重当前奖励。

进一步，采用均方差构建网络可优化的损失函数：

L_oss＝E[(Q_Target-Q(s_t，a_t，ω))²]

本发明在训练过程中引入随机噪声，将决策从确定性过程变为随机过程。ε贪婪(ε-greedy)策略实现简单，但是探索效率低下，因为是随机选择，所以也没有记忆，会造成重复探索。在DDPG中引入了Ornstein Uhlenbeck(OU)过程，OU过程是时间相关的过程，在惯性系统中探索效率更高，其连续形式如下：

dx_t＝θ(μ-x_t)dt+σdW_t

其离散形式为：

x_t-x_t-1＝θ(μ-x_t)+σW_t

式中：μ是均值，θ表示变化速率，σ表示噪声的范围，x_t是状态，W_t是维纳过程。

本发明使用经验回放池来消除输入样本间的相关性，即每次从中随机选取小批量的样本来更新神经网络。由于在经验回放池中的样本中时序差分(Temporal-difference，TD)误差越大，对反向传播的作用也越大，算法的收敛速度会更快，同时也会提高训练过程的稳定性。因此，引入经验回放的优先级，根据TD误差E_rror＝r_t+γ·Q′(s_t+1，a_t+1，ω′)-Q(s_t，a_t，ω)来衡量每个样本的学习价值，优先级高的样本更容易被选取。

在具体实施过程中，构建的强化学习的水肥策略决策模型可结合不同的输入策略进行动态决策，模型的输入参数为：初始土壤含水量、生育期开始日期、生育期天数、灌水次数、灌水日期、灌水量、施肥次数、施肥日期、施肥量以及对应生育期开始后的气象预报数据，输出为WNUE预测值，采用早停法判定最佳的水肥策略，当模型连续200次迭代后，WNUE值没有继续下降，则WNUE最高点所对应的水肥策略则为推荐的最佳配置。

下面对本发明提供的大田灌溉施肥制度动态决策装置进行描述，下文描述的大田灌溉施肥制度动态决策装置与上文描述的大田灌溉施肥制度动态决策方法可相互对应参照。

图2是本发明提供的大田灌溉施肥制度动态决策装置的结构示意图，如图2所示，该大田灌溉施肥制度动态决策装置包括：输入模块201和处理模块202。其中，输入模块201用于获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征；处理模块202用于将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；其中，所述强化学习网络模型，根据水肥策略扩展数据集训练得到；所述水肥策略扩展数据集，为基于贝叶斯优化算法，对水肥策略数据集的水肥利用效率，进行水肥策略特征寻优确定最大水肥利用效率后得到；所述水肥策略数据集，为不同气象条件和不同土壤环境下，基于不同水肥策略种植后，得到的包括环境特征、水肥策略特征和水肥利用效率对应关系的数据集。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的大田灌溉施肥制度动态决策装置，基于历史样本的水肥策略数据集为基础，结合气象特征和土壤特征进行水肥策略的配置，可提升最佳水肥策略的置信度。另外，基于历史的水肥策略数据集进行寻优，以得到最大水肥利用效率对应的水肥策略，可使得模型基于最大水肥效率的环境特征和水肥策略数据训练得到，提高最终决策得到水肥策略的真实水肥利用效率。

图3是本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行大田灌溉施肥制度动态决策方法，该方法包括：获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征；将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；其中，所述强化学习网络模型，根据水肥策略扩展数据集训练得到；所述水肥策略扩展数据集，为基于贝叶斯优化算法，对水肥策略数据集的水肥利用效率，进行水肥策略特征寻优确定最大水肥利用效率后得到；所述水肥策略数据集，为不同气象条件和不同土壤环境下，基于不同水肥策略种植后，得到的包括环境特征、水肥策略特征和水肥利用效率对应关系的数据集。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的大田灌溉施肥制度动态决策方法，该方法包括：获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征；将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；其中，所述强化学习网络模型，根据水肥策略扩展数据集训练得到；所述水肥策略扩展数据集，为基于贝叶斯优化算法，对水肥策略数据集的水肥利用效率，进行水肥策略特征寻优确定最大水肥利用效率后得到；所述水肥策略数据集，为不同气象条件和不同土壤环境下，基于不同水肥策略种植后，得到的包括环境特征、水肥策略特征和水肥利用效率对应关系的数据集。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的大田灌溉施肥制度动态决策方法，该方法包括：获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征；将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；其中，所述强化学习网络模型，根据水肥策略扩展数据集训练得到；所述水肥策略扩展数据集，为基于贝叶斯优化算法，对水肥策略数据集的水肥利用效率，进行水肥策略特征寻优确定最大水肥利用效率后得到；所述水肥策略数据集，为不同气象条件和不同土壤环境下，基于不同水肥策略种植后，得到的包括环境特征、水肥策略特征和水肥利用效率对应关系的数据集。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大田灌溉施肥制度动态决策方法，其特征在于，包括：

获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征；

将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；

2.根据权利要求1所述的大田灌溉施肥制度动态决策方法，其特征在于，所述将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略之前，还包括：

获取作物种在不同气象条件和不同土壤条件下，按照确定的水肥策略种植后的历史气象数据和土壤数据，得到环境特征，结合水肥策略特征以及计算得到的水肥利用效率，构建所述水肥策略数据集；

以水肥利用效率为优化目标，根据贝叶斯算法确定代理模型，并基于树形结构概率密度估计算法进行调整，得到最终代理模型；

基于预期改进算法确定采样函数，对所述水肥策略数据集中每条环境特征对应的水肥策略进行多次迭代采样，且每次迭代选择使目标函数值增加的下一评估点进行水肥策略和水肥利用效率的更新，得到具有最大水肥利用效率和对应水肥策略特征的所述水肥策略扩展数据集。

3.根据权利要求1所述的大田灌溉施肥制度动态决策方法，其特征在于，所述将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略之前，还包括：

根据水肥策略扩展数据集，基于策略学习方法DDPG对所述强化学习网络模型进行训练。

4.根据权利要求3所述的大田灌溉施肥制度动态决策方法，其特征在于，所述根据水肥策略扩展数据集，基于策略学习方法DDPG对所述强化学习网络模型进行训练，包括：

5.根据权利要求1所述的大田灌溉施肥制度动态决策方法，其特征在于，所述水肥利用效率根据作物产量、施肥量和灌水量确定。

6.根据权利要求5所述的大田灌溉施肥制度动态决策方法，其特征在于，所述作物产量根据环境特征，基于水肥效率模型AquaCrop模型得到。

7.根据权利要求5所述的大田灌溉施肥制度动态决策方法，其特征在于，所述水肥利用效率确定方法包括如下：

8.一种大田灌溉施肥制度动态决策装置，其特征在于，包括：

输入模块，用于获取待决策作物生育期的环境特征，所述环境特征包括气象特征和土壤特征；

处理模块，用于将所述环境特征，输入训练好的强化学习网络模型，输出最大水肥利用效率所对应的水肥策略；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述大田灌溉施肥制度动态决策方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述大田灌溉施肥制度动态决策方法的步骤。