CN111449040A

CN111449040A - 一种最小误差变量施药控制方法及系统

Info

Publication number: CN111449040A
Application number: CN202010171269.1A
Authority: CN
Inventors: 徐旻; 陈立平; 张瑞瑞; 丁晨琛; 唐青; 伊铜川; 徐刚; 段丹丹
Original assignee: Agricultural Core Technology Guangzhou Co ltd; Qingyuan Intelligent Agricultural Research Institute; Beijing Research Center of Intelligent Equipment for Agriculture
Current assignee: Agricultural Core Technology Guangzhou Co ltd; Qingyuan Intelligent Agricultural Research Institute; Beijing Research Center of Intelligent Equipment for Agriculture
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-28
Anticipated expiration: 2040-03-12
Also published as: CN111449040B

Abstract

本发明提供的最小误差变量施药控制方法及系统，包括：获取变量施药控制系统的传递函数；根据传递函数生成流速控制单位阶跃响应序列；根据流速控制单位阶跃响应序列与预期施药量的误差，构建变量施药控制系统从启动到稳态的开环误差序列；基于开环误差序列，构建系统累计施药误差函数；采用强化学习方法优化变量施药控制系统的PID参数，使累计施药误差函数的函数值最小；根据PID参数，完成施药过程的PID调节控制。本发明实施例提供的最小误差变量施药控制方法及系统，通过引用强化学习方法优化变量施药控制系统的PID参数，有效的减小了无人机在施药时自动开启喷洒的过程导致的喷洒流速误差，提高了自动喷洒作业时地头的施药均匀性。

Description

一种最小误差变量施药控制方法及系统

技术领域

本发明实施例涉及农业信息化技术领域，尤其涉及一种最小误差变量施药控制方法及系统。

背景技术

近年来，随着机械化程度及配套种植技术的逐步提高，农业机械的发展为农业现代化提供了极大的便利。其中，基于无人机的作业工具为农业现代化提供了高效、便捷的作业方法。

航空喷施作业是现代农业植保作业的重要手段，在航空施药作业领域中，无人机精准施药是未来的技术发展趋势。目前施药无人机上通常安装有小型的隔膜泵和压力喷头，具体根据作物的情况，设定每亩的喷洒药量，在无人机起飞之前设定好泵的工作电压，确定管路的固定压力，进而实现喷药流量的恒定。在飞机起飞后，遥控手目视无人机飞到作业区域后，打开喷洒开关，按设定的流量进行喷洒作业，直至作业结束。

随着图像识别和光谱探测技术被引入变量施药控制系统，在实际应用过程中，可以通过机器视觉和传感器自动识别出作物冠层和土地边界，从而在无人机进入至地头一刹那自动打开喷头进行施药。由于施药控制系统往往由控制器、电机驱动器、泵、管路等组成，导致在采用这一方式的过程中，，从开关泵指令发出到喷洒流量进入稳态，需要一段时间，进而导致植保无人机在地头处的施药量误差较大，经常出现地头漏喷严重的情况发生。

发明内容

本发明实施例提供一种最小误差变量施药控制方法及系统，用以克服现有技术在无人机施药控制方面存在的进入地头的瞬间存在的调控速度慢、施药量误差大的缺陷。

第一方面，本发明实施例提供一种最小误差变量施药控制方法，主要包括：S1：获取变量施药控制系统的传递函数；S2：根据传递函数生成流速控制单位阶跃响应序列；S3：根据流速控制单位阶跃响应序列与预期施药量的误差，构建变量施药控制系统从启动到稳态的开环误差序列；S4：基于开环误差序列，构建系统累计施药误差函数；S5：采用强化学习方法优化变量施药控制系统的PID参数，使累计施药误差函数的函数值最小；S6：根据PID参数，完成施药过程的PID调节控制。

优选地，在步骤S1中，所述获取变量施药控制系统的传递函数，包括：采用随机脉冲激励信号对变量施药控制系统进行激励，通过对获取的施药量传感器数据和施药量指令数据的分析，获取变量施药控制系统的传递函数。

优选地，所述系统累计施药误差函数为：

其中，J(k)为系统累计施药误差，W为预期施药量，a_i为第i个脉冲激励信号对应的阶跃响应，n为脉冲激励信号的总数。

优选地，在步骤S5中，所述采用强化学习方法优化所述变量施药控制系统的PID参数，使累计施药误差函数的函数值最小，具体包括：

S51：设定一组初始PID参数，该初始PID参数包括初始比例系数、初始积分系数和初始微分系数；

S52：分别以预设步长间隔分别对初始PID参数进行调节转变，建立强化学习的Q函数；

S53：基于Q函数，按预设概率，将在k时刻产生的动作增量叠加至初始PID参数上，获取在k时刻的施药量输出序列；

S54：根据施药量输出序列，计算k时刻的累计施药误差和累计施药误差变化量；

S55：若累计施药误差变化量为正，则利用k时刻的动作奖励值更新k时刻的强化学习的Q函数；

S56：依次迭代执行上述步骤S53-步骤S55，直至所述累计施药误差变化量不变，并获取此时的变量施药控制系统的PID参数。

优选地，在步骤S51中，所述设定一组初始PID参数，具体包括：确定变量施药控制系统的发散震荡临界状态，并将发散震荡临界状态时的PID参数作为初始PID参数。

优选地，在步骤S53中，获取在k时刻的施药量输出序列，具体包括：

确定在k时刻之前以及之后的多个控制周期内变量施药控制系统的输出施药量，以构建施药量输出序列。

优选地，在步骤S55中，所述若累计施药误差变化量小于或等于0，则利用k时刻的动作奖励值更新k时刻的强化学习的Q函数，具体包括：

若ΔJ(k)≤0，则R(P(k),I(k),D(k))＝1，此时获取到所述k时刻的强化学习的Q函数为：

Q(P(k),I(k),D(k))＝(1-α)Q(P(k),I(k),D(k))+γ(R(P(k),I(k),D(k))+max(Q(P(k+1),I(k+1),D(k+1))))；

其中，ΔJ(k)为k时刻的累计施药误差变化量，α为调节经验对变量施药控制系统的PID参数的影响率，γ为奖励环节对变量施药控制系统的PID参数的影响率，Q(P(k),I(k),D(k))为k时刻的强化学习的Q函数，R(P(k),I(k),D(k)为k时刻的动作奖励值。

第二方面，本发明实施例提供一种最小误差变量施药控制系统，主要包括：传递函数获取单元、流速控制单位阶跃响应序列生成单元、开环误差序列生成单元、累计施药误差函数构建单元、PID参数优化单元以及PID调节控制单元，其中：

传递函数获取单元用于获取变量施药控制系统的传递函数；

流速控制单位阶跃响应序列生成单元用于根据传递函数生成流速控制单位阶跃响应序列；

开环误差序列生成单元用于根据流速控制单位阶跃响应序列与预期施药量的误差，构建变量施药控制系统从启动到稳态的开环误差序列；

累计施药误差函数构建单元用于基于开环误差序列，构建系统累计施药误差函数；

PID参数优化单元用于采用强化学习方法优化变量施药控制系统的PID参数，使累计施药误差函数的函数值最小；

PID调节控制单元用于根据所述PID参数，完成施药过程的PID调节控制。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如第一方面任一所述的最小误差变量施药控制方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面任一所述的最小误差变量施药控制方法的步骤。

本发明实施例提供的最小误差变量施药控制方法及系统，通过引用强化学习方法优化变量施药控制系统的PID参数，有效的减小了无人机在施药时自动开启喷洒的过程导致的喷洒流速误差，提高了自动喷洒作业时地头的施药均匀性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为无人机进入作业区域地头时的施药误差示意图；

图2为本发明实施例提供的一种最小误差变量施药控制方法流程示意图；

图3为本发明实施例提供的一种变量施药控制系统的工作原理图；

图4为本发明实施例提供的一种最小误差变量施药控制系统的结构示意图；

图5为本发明实施例提供的一种电子设备的实体结构图；

图6为一种最小误差变量施药控制系统开环辨识信号仿真示意图；

图7为一种辨识模型校验结果仿真示意图；

图8为一种变量施药控制系统传递函数单位阶跃响应情况示意图；

图9为在一个完整指令周期内变量施药控制系统的指令误差序列示意图；

图10为一个完整指令周期内的变量施药控制系统指令及对应的响应示意图；

图11为2000个指令周期的变量施药控制系统跟踪响应变化过程仿真示意图；

图12为2000个指令周期的变量施药控制系统跟踪动态误差参数收敛过程仿真示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，基于将图像识别和光谱探测技术与自动变量施药控制技术相结合，所研发的无人机变量施药控制方法及装置已经广泛的服务于现代农、林业。但该技术普遍存在以下技术缺陷：当无人机进入带喷药区域内，触发喷药系统启动，一般是通过发送流量指令至施药控制系统的喷药泵。一般来说，由于施药控制系统往往由控制器、电机驱动器、泵、管路等组成，从流量指令的发出至喷洒流量进入稳态这一过程，如图1所示，根据控制系统性能的差异，最短也需要1-2秒，而由于无人机的飞行速度快，从而导致在喷洒启动过程中，无人机植保在地头处的施药量误差较大，经常出现地头漏喷严重的情况发生。

为有效的克服或部分缓解这一缺陷，本发明实施例提供一种最小误差变量施药控制方法，如图2所示，包括但不限于以下步骤：

步骤S1：获取变量施药控制系统的传递函数；

步骤S2：根据传递函数生成流速控制单位阶跃响应序列；

步骤S3：根据流速控制单位阶跃响应序列与预期施药量的误差，构建变量施药控制系统从启动到稳态的开环误差序列；

步骤S4：基于开环误差序列，构建系统累计施药误差函数；

步骤S5：采用强化学习方法优化变量施药控制系统的PID参数，使累计施药误差函数的函数值最小；

步骤S6：根据PID参数，完成施药过程的PID调节控制。

其中，变量施药系统设置于无人机上，主要用于接收流量启停以及调节的指令，而完成变量施药的控制。具体地，该变量施药系统可以包括信号接收装置、信号处理及运算器、信号传输单元以及流量控制装置(例如施药泵)等。

其中，变量施药系统的传递函数主要是用于表征该系统输入的流量启停以及调节的指令数据(例如脉冲激励信号数据)与实时喷药量的关系。

基于上述内容，在本发明实施例提供一种获取变量施药控制系统的传递函数的方法，包括但不限于：采用随机脉冲激励信号对所述变量施药控制系统进行激励，通过对获取的施药量传感器数据和施药量指令数据的分析，获取变量施药控制系统的传递函数。

具体地，在利用无人机进行施药前，通过对无人机多次随机施加脉冲激励信号进行激励，并记录每个脉冲激励信号所对应的施药量指令数据以及系统对于该脉冲激励信号的阶跃响应数据。该阶跃响应数据可以通过对施药量传感器进行监测来获取。

进一步地，通过对阶跃响应数据与施药量指令数据之间的管理关联关系，即可以构建出所述变量施药控制系统的传递函数。

进一步地，在步骤S2中，可以基于构建的变量施药控制系统的传递函数，结合无人机进入施药区域的整个过程中的脉冲激励信号曲线，即将每个脉冲激励信号输入至该传递函数，对应的获取到一系列的单位阶跃响应，所有的单位阶跃响应则可以构建成一个流速控制单位阶跃响应序列。

进一步地，在步骤S3中，在获取到流速控制单位阶跃响应序列后，将该序列中的每个单位阶跃响应分别与预期施药量作差，获取到每个单位阶跃响应的误差，该误差可以为正也可以为负，由此可以构建出变量施药控制系统从启动到稳态这一过程中的开环误差序列。

进一步地，在步骤S4中，当获取到开环误差序列后，则可以根据该序列中各误差值的分布，获取到累计施药误差函数。当施药累计误差越大，则说明在此时的施药量越偏离理想值。

基于上述实施例的内容，作为一种可选实施例，所述系统累计施药误差函数可以为：

具体地，在本发明实施例中，利用系统累计施药误差量构成的函数作为系统的评价函数，当系统累计施药误差量越趋于0时，则说明此时的施药控制系统越理想。

基于上述实施例的内容，作为一种可选实施例，在构建完成了评价模型后，进一步地，采用强化学习方法优化变量施药控制系统的PID参数，使累计施药误差函数的函数值最小。

其中，目前的PID控制方法尽管使用方便、容易实现以及稳态无静差，但由于传统的PID控制器在使用前都已经正定好了参数，无法摆脱非线性、时变、时延等未知或随机特性的影响，导致在启动或动态调节时，会存在响应慢、时延长的缺陷。

另一方面，对于复杂的控制对象，例如本发明实施例所涉及的无人喷药过程，由于受无人机的飞行速度、喷药控制装置的物理结构、控制系统的运算时间，甚至飞行时的风阻等等因素干扰，常规的PID控制器的擦书优化困难且控制效果难以达到预期的目标。因此，自适应PID控制器由于能够根据系统状态在线修改PID参数，从而改善控制性能，获得了普遍的重视。

具体的，自适应PID控制方法有：基于神经网络的自适应PID控制、基于进化算法的自适应PID控制、模糊自适应PID控制等。

其中，基于神经网络的自适应PID控制需要建立相应的神经网络模型，且需要构建一定量的预训练模型，在实际运用过程中，容易受客观条件的限制；基于进化算法的自适应PID控制，则由于计算时间长。难以实现实时。在线化额优化，尤其不使用本发明实施例中所涉及的无人机施药这一实际运用过程；而模糊自适应PID控制，则由于其对先验知识要求较多，也难以运用于本发明实施例所要解决的技术问题。

强化学习(简称RL)是一种在线学习算法，一般包括两部分构成：所处环境(又称World，简称W)以及智能体(简称Agent)。强化学习的基本思想是将整个学习的郭恒视为一个不断进行“试探-评价”的过程：通过Agent感知所处的W的状态，根据初始策略施加一个动作；环境在接收到该试动作后，其状态则会发生改变，同时提供一个奖励或者惩罚项以对原策略进行更新；最后，Agent再根据环境的当前状态以及更新后的策略选择将来的动作，并依此迭代，直至最大化收到奖励的概率。

综上所述，作为一种可选实施例，本发明实施例提供了通过采用强化学习方法优化变量施药控制系统的PID参数，即利用强化学习方法实现对于变量施药控制系统的PID参数的调节和寻优，具有收敛速度快、实时性好的特点。

具体地，在步骤S5中，所述采用强化学习方法优化所述变量施药控制系统的PID参数，使累计施药误差函数的函数值最小，具体包括但不限于以下步骤：

S56：依次迭代执行上述步骤S53-步骤S55，直至累计施药误差变化量不变，并获取此时的变量施药控制系统的PID参数。

如图3所示，整个变量施药控制系统可以包括流量设定(控制)结构、PID控制器、喷洒系统(具体包括：隔膜泵、管路、喷头等具体结构)、流速反馈量获取装置、以及Q学习模块。

其中，Q学习是强化学习所采用的一种具体的基本算法，其基本的原理是：在执行迭代时，采用状态-动作对的回报值之和maxQ作为评估值函数。其中，作为可选的方案，在本发明实施例中也可以财通其他的强化学习方法，例如TD学习、Sara学习等，但综合考虑到Q算法仅需要利用反馈的奖励更新策略(相当于仅需更新Q函数)，就能够实现整个系统的收敛性，易于实现，且收敛速度快，能够充分的满足对于无人机进入施药区域一瞬间的自动控制。

具体地，整个PID参数的优化控制过程如下：

首先，可以基于经验初步手动选定一组PID参数的大约值，即确定一组初始PID。作为一种可选的方案，其中所述的设定一组初始PID参数，可以通过以下方式实现：确定变量施药控制系统的发散震荡临界状态，并将发散震荡临界状态时的PID参数作为初始PID参数。

控制系统大致有三种状态：收敛、发散和临界状态。收敛是指稳定的控制器，被控量能稳定在一个数值上或者随SP值曲线变化。发散是指控制量会无限制增大或者减小，直到极限状态(执行结构的限制)。临界状态则是指收敛与发散这两种状态之间的过渡状态，理论上在处于临界状态时，系统振荡周期就是系统的固有振荡周期。

其中，确定变量施药控制系统的发散震荡临界状态，并获取发散震荡临界状态时的PID参数的方法可以是：先把积分时间放至最大微分时间放至零，比例度放至较大的适当值。然后慢慢地减少比例度，在外界干扰的作用下，细心观察调节器的输出信号和被调参数的变化情况；如果控制过程的曲线波动是衰减的，则把比例度继续调小，如果控制过程的曲线波动是发散的，则应把比例度调大些，直到曲线波动呈等幅振荡为止，以此得到临界振荡过程，从而得到临界比例度δ_k和临界周期T_k值。根据得到的δ_k和T_k值按临界比例度法参数计算公式表，来计算调节器的各参数值。

进一步地，在步骤S52中，在获取到初始PID参数后，以P、I、D为状态参数，分别以ΔP(k)、ΔI(k)、ΔD(k)为步长间隔转变为离散化空间序，进而建立Q学习状态空间表，进而建立强化学习的Q函数。其中，ΔP(k)、ΔI(k)、ΔD(k)为k时刻控制系统选择动作，例如可以设为±0.1的微调值。

进一步地，在步骤S53中，为了避免整个自动优化过程限于局部最优化，导致优化结果不能达到全局最优解，在本发明实施例中，按预设概率，例如20％，将在k时刻产生的随机动作增量，并将该动作增量叠加至初始PID参数上，即P(k)＝P(k-1)+ΔP(k)、I(k)＝I(k-1)+ΔI(k)、D(k)=D(k-1)+ΔD(k)，从而获取在k时刻的施药量输出序列。

作为一种可选实施例，在步骤S53中，所述获取在k时刻的施药量输出序列，可以采用如下方式实现：确定在k时刻之前以及之后的多个控制周期内变量施药控制系统的输出施药量，以构建施药量输出序列。

具体地，设A＝{a_k-4,a_k-3,a_k-2,a_k-1,a_k,a_k+1,a_k+2,a_k+3,a_k+4,a_k+5}，为k时刻前面连续5个控制周期和后面连续5个控制周期系统的施药量输出序列，其控制系统累计误差分别为：

ΔJ(k)＝J_NEXT(k)-J_LAST(k)

用ΔJ(k)表示系统在k时刻选择动作后的流速控制误差的变化量，当ΔJ(k)≤0即为正时，该动作的奖励值为R(P(k),I(k),D(k))＝1，同时更新k时刻的强化学习的Q函数Q(P(k),I(k),D(k))，具体为：

相较于目前基于强化学习进行PID参数优化方法中采用的对每个输出施药量进行独立的反馈调节，在本发明实施例中，通过对k时刻之前以及之后的多个控制周期内变量施药控制系统的输出施药量进行施药误差的平均计算，有效的提高了参数优化的精度，减小了运算量。

最后，依次迭代执行上述步骤S53-步骤S55，直至ΔJ(k)基本保持不变，结束控制系统参数优化过程。

本发明实施例提供的最小误差变量施药控制方法，通过引用强化学习方法优化变量施药控制系统的PID参数，有效的减小了无人机在施药时自动开启喷洒的过程导致的喷洒流速误差，提高了自动喷洒作业时地头的施药均匀性。

本发明实施例提供一种最小误差变量施药控制系统，如图4所示，包括但不限于：传递函数获取单元1、流速控制单位阶跃响应序列生成单元2、开环误差序列生成单元3、累计施药误差函数构建单元4、PID参数优化单元以5及PID调节控制单元6，其中：

传递函数获取单元1主要用于获取变量施药控制系统的传递函数；流速控制单位阶跃响应序列生成单元2主要用于根据传递函数生成流速控制单位阶跃响应序列；开环误差序列生成单元3主要用于根据流速控制单位阶跃响应序列与预期施药量的误差，构建变量施药控制系统从启动到稳态的开环误差序列；累计施药误差函数构建单元4主要用于基于开环误差序列，构建系统累计施药误差函数；PID参数优化单元5用于采用强化学习方法优化变量施药控制系统的PID参数，使累计施药误差函数的函数值最小；PID调节控制单元6主要用于根据PID参数，完成施药过程的PID调节控制。

需要说明的是，本发明实施例提供的最小误差变量施药控制系统，在具体运行时，可用于执行上述任一实施例中所述的最小误差变量施药控制方法，再次不作一一赘述。

本发明实施例提供的最小误差变量施药控制系统，通过引用强化学习方法优化变量施药控制系统的PID参数，有效的减小了无人机在施药时自动开启喷洒的过程导致的喷洒流速误差，提高了自动喷洒作业时地头的施药均匀性。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：获取变量施药控制系统的传递函数；根据传递函数生成流速控制单位阶跃响应序列；根据流速控制单位阶跃响应序列与预期施药量的误差，构建变量施药控制系统从启动到稳态的开环误差序列；基于开环误差序列，构建系统累计施药误差函数；采用强化学习方法优化变量施药控制系统的PID参数，使累计施药误差函数的函数值最小；根据PID参数，完成施药过程的PID调节控制。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取变量施药控制系统的传递函数；根据传递函数生成流速控制单位阶跃响应序列；根据流速控制单位阶跃响应序列与预期施药量的误差，构建变量施药控制系统从启动到稳态的开环误差序列；基于开环误差序列，构建系统累计施药误差函数；采用强化学习方法优化变量施药控制系统的PID参数，使累计施药误差函数的函数值最小；根据PID参数，完成施药过程的PID调节控制。

针对本发明实施例提供的最小误差变量施药控制方法及系统，提供下列仿真实验及数据，以充分证明其相较于现有技术，有效的减小了无人机在施药时自动开启喷洒的过程导致的喷洒流速误差，提高了自动喷洒作业时地头的施药均匀性，具体内容如下：

1、对变量施药控制系统进行建模

用于仿真的变量施药控制系统，包括传感器、MCU、功率驱动器、隔膜泵等串联组成，可通过模型辨识的方法获得变量喷洒系统的近似传递函数。运用本实施例提供的变量施药控制器产生每秒10Hz的随机流速指令作为变量施药系统输入激励信号x_t，由数据记录装置同步采集接近喷头端的施药管路压力p_t和流量f_t响应数据作为施药控制系统开环输出量，系统采样频率为100Hz。

将上述输入输出数据分为两组，一组作为辨识数据，用于计算辨识模型；另一组作为校正数据，在模型辨识完成后进行模型校核，如图6所示，图6中的左半部分为辨识信号，右半部分为校验数据。可选用1阶有滞后的传递函数描述变量喷洒控制系统近似动态模型，采用LS法对测试数据进行模型辨识，获得变量喷洒系统近似传递函数为公式1：

其辨识模型符合度为65％，实际响应数据校验结果如图7以及图8所示。

2、获取系统从开机启动到稳态的开环误差序列，以构建系统累计施药误差函数

选取周期为2秒，幅值为4升的矩形波作为指令输入，系统控制周期为0.02秒，通过数字模拟，可获得上述变量施药控制系统在一个响应周期能的指令跟踪响应序列，A＝{a₁,a₂…a_j}，j＝1,2,…100，可获得响应序列的在一个完整指令周期的响应误差，如图9所示。将这100个误差平方和作为累积误差，可作为系统跟踪误差的适应度函数(即本发明实施例提供的系统累计施药误差函数)为公式2：

3、采用强化学习方法进行控制系统PID参数调节

根据常规经验，系统初始化设置基准PID参数，并设定其大概变换范围，分别以ΔP、ΔI、ΔD为步长间隔将PID参数空间离散化，建立21*21*21的三维Q[21][21][21]状态空间表，Q的每一维空间对应一个控制参数，如公式3和公式4所示：

Q＝Q[i][j][k],{i∈[1,2,…,21],j∈[1,2,…,21],k∈[1,2,…,21]} 公式4

其中，i、j、k分别为对应维度上的中间参数。

(1)随机选择P(k),I(k),D(k)的初值，代入控制系统，执行2s，覆盖一个流速控制指令周期，记录当前指令周期累积误差量J(k)，其具体过程如图10所示。

(2)根据公式式5计算上一步PID参数的奖励值，根据当前P(k)、I(k)、D(k)并以公式6计算当前控制参数的Q[21][21][21]。并根据J(k)的反向梯度，变化情况，调整P(k)、I(k)、D(k)的增量，如公式7所示。

(3)按照30％的概率，随机调整P(k),I(k),D(k)参数，跳转到(2)进行计算，在整个参数空间中进行试探。计算J(k)，同时记录J(k)最小时的

(4)当仿真的指令周期超过N次后不在进行随机试探，控制参数按累积误差反向梯度进行收敛，控制响应误差也随着收敛，如图11以及图12所示。

通过上述仿真实验以及所提供的实验数据，充分证明了本发明实施例提供的最小误差变量施药控制方法及系统，通过引用强化学习方法优化变量施药控制系统的PID参数，能够有效的减小无人机在施药时自动开启喷洒的过程导致的喷洒流速误差，提高自动喷洒作业时地头的施药均匀性，具有可行性。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种最小误差变量施药控制方法，其特征在于，包括：

S1：获取变量施药控制系统的传递函数；

S2：根据所述传递函数生成流速控制单位阶跃响应序列；

S3：根据所述流速控制单位阶跃响应序列与预期施药量的误差，构建所述变量施药控制系统从启动到稳态的开环误差序列；

S4：基于所述开环误差序列，构建系统累计施药误差函数；

S5：采用强化学习方法优化所述变量施药控制系统的PID参数，使所述累计施药误差函数的函数值最小；

S6：根据所述PID参数，完成施药过程的PID调节控制。

2.根据权利要求1所述的最小误差变量施药控制方法，其特征在于，在步骤S1中，所述获取变量施药控制系统的传递函数，包括：

采用随机脉冲激励信号对所述变量施药控制系统进行激励，通过对获取的施药量传感器数据和施药量指令数据的分析，获取所述变量施药控制系统的传递函数。

3.根据权利要求1所述的最小误差变量施药控制方法，其特征在于，所述系统累计施药误差函数为：

4.根据权利要求1所述的最小误差变量施药控制方法，其特征在于，在步骤S5中，所述采用强化学习方法优化所述变量施药控制系统的PID参数，使所述累计施药误差函数的函数值最小，具体包括：

S51：设定一组初始PID参数，所述初始PID参数包括初始比例系数、初始积分系数和初始微分系数；

S52：分别以预设步长间隔分别对所述初始PID参数进行调节转变，建立强化学习的Q函数；

S53：基于所述Q函数，按预设概率，将在k时刻产生的动作增量叠加至所述初始PID参数上，获取在所述k时刻的施药量输出序列；

S54：根据所述施药量输出序列，计算所述k时刻的累计施药误差和累计施药误差变化量；

S55：若所述累计施药误差变化量为正，则利用所述k时刻的动作奖励值更新所述k时刻的强化学习的Q函数；

S56：依次迭代执行上述步骤S53-步骤S55，直至所述累计施药误差的变化量不变，并获取此时的变量施药控制系统的PID参数。

5.根据权利要求4所述的最小误差变量施药控制方法，其特征在于，在步骤S51中，所述设定一组初始PID参数，包括：

确定所述变量施药控制系统的发散震荡临界状态，并将在所述发散震荡临界状态时的PID参数作为所述初始PID参数。

6.根据权利要求4所述的最小误差变量施药控制方法，其特征在于，在步骤S53中，所述获取在所述k时刻的施药量输出序列，包括：

确定在所述k时刻之前以及之后的多个控制周期内所述变量施药控制系统的输出施药量，以构建所述施药量输出序列。

7.根据权利要求4所述的最小误差变量施药控制方法，其特征在于，在步骤S55中，所述若所述累计施药误差的变化量小于或等于0，则利用所述k时刻的动作奖励值更新所述k时刻的强化学习的Q函数，包括：

8.一种最小误差变量施药控制系统，其特征在于，包括：传递函数获取单元、流速控制单位阶跃响应序列生成单元、开环误差序列生成单元、累计施药误差函数构建单元、PID参数优化单元以及PID调节控制单元，其中：

所述传递函数获取单元用于获取变量施药控制系统的传递函数；

所述流速控制单位阶跃响应序列生成单元用于根据所述传递函数生成流速控制单位阶跃响应序列；

所述开环误差序列生成单元用于根据所述流速控制单位阶跃响应序列与预期施药量的误差，构建所述变量施药控制系统从启动到稳态的开环误差序列；

所述累计施药误差函数构建单元用于基于所述开环误差序列，构建系统累计施药误差函数；

所述PID参数优化单元用于采用强化学习方法优化所述变量施药控制系统的PID参数，使所述累计施药误差函数的函数值最小；

所述PID调节控制单元用于根据所述PID参数，完成施药过程的PID调节控制。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述最小误差变量施药控制方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述最小误差变量施药控制方法的步骤。