CN117109574A

CN117109574A - 一种农用运输机械覆盖路径规划方法

Info

Publication number: CN117109574A
Application number: CN202310829691.5A
Authority: CN
Inventors: 张付杰; 焦启发; 张虹; 余开军
Original assignee: Yuxi Xintianli Agricultural Equipment Manufacturing Co ltd
Current assignee: Yuxi Xintianli Agricultural Equipment Manufacturing Co ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-11-24

Abstract

本发明公开了一种农用运输机械覆盖路径规划方法，属于计算机领域，所述的农用运输机械覆盖路径规划方法包括包括如下步骤：步骤S1：获取农田DEM（数字高程模型）数据。步骤S2：确定作业数据。步骤S3：根据农田边界数据，建立栅格地图。步骤S4：建立评价函数。步骤S5：定义农用运输机覆盖路径规划问题中的智能体、环境、状态、动作、奖励回报。步骤S6：马尔可夫决策建模过程。步骤S7：神经网络模型的建立。步骤S8：训练深度强化学习算法。步骤S9：将训练好的模型应用于农用运输机路径规划。本发明能够解决传统路径规划算法是实习差的问题，并且容易拓展到不同地块地图，具有良好的泛化性能。

Description

一种农用运输机械覆盖路径规划方法

技术领域

本发明涉及农用运输机覆盖路径规划技术领域，尤其涉及一种农用运输机械覆盖路径规划方法。

背景技术

农业机械化是农业现代化的重要标志，然而尽管目前我国农业机械化成绩显著，但依然存在很多亟待解决的问题，比如不同地区的农业机械化水平差异较为明显和农机装备产业发展不平衡不充分，农机产品需求多样，农业机械科技创新能力不强等。随着农业机械化的推广，农业机械的智能化将会成为研究热点，也是“精细农业”的必然要求。

农业机械的自动导航是实现“精细农业”的基础，同时自动化路径规划是用于自动化导航系统的重要工具。在执行田间作业期间，它可以提供控制农业机器人和自动拖拉机所必须需的航路点，并且直接影响作业效果。因此，如何设计高效合理的路径规划算法是自动导航技术研究的关键。

发明内容

本发明的目的是根据农田路径规划覆盖率高的特点，利用深度强化学习方法进行农用运输机的路径规划，设计一个在尽可能短的时间内以尽可能小的消耗成本找到一个可行的最佳解决方案的覆盖路径规划算法。

为了实现上述目的，本发明是采用以下技术方案实现的：所述的规划方法包括：

步骤1：获取农田DEM数字高程模型数据，使用无人机搭载激光雷达采集农田的边界数据；

步骤2：确定作业数据；

步骤3：根据农田边界数据，建立栅格地图；

步骤4：建立评价函数；

步骤5：定义农用运输机覆盖路径规划问题中的智能体、环境、状态、动作、奖励回报；

步骤6：马尔可夫决策建模过程；

步骤7：神经网络模型的建立；

步骤8：训练深度强化学习算法；

步骤9：将训练好的模型应用于农用运输机路径规划。

进一步地，所述的步骤3根据农田边界数据，建立栅格地图，栅格地图根据车辆的大小将工作环境划分为大小相同的栅格。

进一步地，所述的步骤4建立评价函数；评价函数用于评价运输机的能量消耗，能量消耗指农用运输机按照覆盖路径规划结果行驶时的实际能耗，

平面行驶路径长度与能耗关系如下：

（1）

（2）

（3）

式中：表示路径中包含的栅格总数；/>表示地面摩擦系数；/>表示拖拉机平面行驶过程中耗能，/>，/>为农田DEM数字高程模型数据中的坐标点，G为重力加速度；/>为拖拉机受到的地面摩擦力；

农用运输机作业行驶规划转弯过程，通过转弯时间来表征拖拉机转弯消耗，转弯时间和转弯次数是成正比，通过转弯次

数来表征拖拉机转弯能耗，因此，转弯次数与能耗关系如下：

（4）

（5）

（6）

式中：表示拖拉机航向角，单位/>；/>表示作业区域与/>轴夹角，单位/>；/>表示作业宽度，单位/>；/>为拖拉机受到的地面摩擦力；

综上可得拖拉机行驶过程中总耗能可表征为：

（7）

覆盖重复率指农用运输机在执行作业任务时，完成作业路径规划时，重复规划的作业面积与规划区域总面积之间的百分比，覆盖重复率表征方式如下：

（8）

式中：表示全覆盖重复率；/>表示行驶栅格总数；/>表示作业环境模型中障碍栅格总数；表/>示栅格面积；/>表示单个栅格的长度；/>表示单个栅格的宽度。

进一步地，所述步骤5中定义农用运输机覆盖路径规划问题中的智能体，智能体是做动作或决策的载体，在本问题中智能体就是农用运输机；定义农用运输机覆盖路径规划问题中的环境，环境是智能体交互的对象，在本问题中环境就是农田数据与栅格地图；

定义农用运输机覆盖路径规划问题中的状态，状态是对当前时刻环境的概况，在问题中就是t时间的栅格坐标；

定义农用运输机覆盖路径规划问题中的动作，动作是智能体基于当前状态所做出的决策，在问题中就是栅格地图的上、下、左、右方向的运动；

定义农用运输机覆盖路径规划问题中的奖励，奖励是指在智能体执行一个动作之后，环境返回给智能体的一个数值。

进一步地，所述步骤6马尔可夫决策建模过程：

随着时间的流动，农用运输机都会从环境中接收到一个状态/>，根据这个状态/>，车辆会做出一个动作/>，然后这个动作作用于环境，车辆便会接收到一个奖励/>，并且达到新的状态，因此，实际上车辆与环境的交互产生了一个序列：

我们称之为顺序决策过程，因此可以使用马尔可夫决策过程来对该过程进行建模，模型可以由元组定义，其中/>为状态空间，/>为动作空间，/>为状态转移概率矩阵，/>为奖励函数，/>为折扣因子，

状态空间是指所有可能存在的状态的集合，记作字母

，分别代表时刻1的状态、时刻2的状态、时刻3的状态、…、时刻/>的状态，智能体当前状态/>；

动作空间是指所有可能动作的集合，记作字母

, 分别代表向上移动一个单位，向下移动一个单位，向左移动一个单位，向右移动一个单位和停在当前位置,农用运输机采取的动作/>；

状态转移是指智能体从当前时刻的状态/>转移到下一个时刻的状态/>的过程；用状态转移函数来描述状态转移，记作：

表示发生下述事件的概率：在当前状态，智能体执行动作/>，环境的状态变成/>；

通常奖励是当前状态、当前动作/>、下一时刻状态/>的函数，把奖励函数记作定义机器人的奖励函数：

在当前状态下，采取动作/>后，如果农用运输机离最终点的距离更近，则给予奖励/>，如果农用运输机离最终点的距离更远，则给予奖励/>，如果农用运输机停留在原地，则给予奖励/>，如果农用运输机和其他单位发生碰撞，则给予奖励/>，如果农用运输机到达其最终点，则给予奖励/>；

（9）

其中，代表机器人在/>时刻机器人与目标点的距离，/>

代表机器人在时刻机器人与目标点的距离；

在马尔可夫决策建模过程中，通常使用折扣回报给未来的奖励打折扣，折扣回报的定义如下：

（10）

这里的是折扣因子；折扣因子代表智能体的远见，它的大小影响未来的动作的预测回报所占的权重，/>表示智能体只看重眼前动作的回报；/>时智能体将会把未来所有动作的回报值跟眼前动作的回报看的同等重要；当/>时表示越靠前的动作影响越大，而后面的动作影响变小。

进一步地，所述的步骤7神经网络包含当前网络Q-eval和目标网络Q-target两个Q网络，其中当前网络用来根据当前的状态矩阵输出一个神经网络认为在此状态下最佳动作，目标网络根据移动机器人做完此动作后的环境给出Q-target值；

在训练过程中，当前网络的输入只有当前栅格地图的状态矩阵，输出为当前环境下各个动作相对应的Q值，移动机器人有很大概率选择Q值最大的动作；目标网络的输入为在做出所选择的动作之后栅格地图的状态矩阵，输出也为各个动作相应的Q值，选取最大的Q值作为Q-target；

当前网络和目标网络的结构相同神经网络的输入为与预处理后的栅格对应的状态矩阵，矩阵大小为 n*n 即栅格地图中栅格的个数，卷积层、全连接层、价值函数和优势函数构成了隐藏层；网络所采用的激活函数均为 ReLU 函数。

进一步地，所述的步骤9中，给农用运输机设置好起始点和目标点；中央控制器计算得到农用运输机的状态S，将状态S输入到深度强化学习网络中，得到各动作的Q值；选择Q值最大的动作作为待执行动作；中央控制器判断农业机器人的动作是否能够被执行，如果动作是可行的，则执行该动作，如果动作是不可行的，则让农用运输机停留在原地；如果农用运输机到达终点，则路径规划任务结束。

本发明有益效果：

附图说明

图1为本发明一实施例中基于深度强化学习的农用运输机械覆盖路径规划方法的流程图；

图2为本发明一实施例中农用运输机转弯时的角度图；

图3为本发明一实施例中深度强化学习的整体神经网络结构图；

图4为本发明一实施例中深度强化学习的神经网络结构图。

具体实施方式

以下将以附图公开本申请的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本申请。也就是说，在本申请内容部分实施方式中，这些实务上的细节是非必要的。此外，为简化附图起见，一些现有惯用的结构与元件在附图中将以简单示意的方式示出的。

步骤S1：获取农田DEM（数字高程模型）数据，主要有两种方式。第一种使用无人机搭载激光雷达采集农田的边界数据，第二种是使用GIS软件平台获取实际农田的边界数据。

步骤S2：确定作业数据，地头宽度、作业转弯半径、作业行距、参考坐标原点。

步骤S3：根据农田边界数据，建立栅格地图，栅格地图根据车辆的大小将工作环境划分为大小相同的栅格，使用栅格地图进行环境建模，能够简单准确地表达环境信息，便于存储与调用。

步骤S4：建立评价函数

农用运输机的覆盖路径问题为平面区域内全覆盖的路径规划问题，覆盖路径规划则要求规划出一条访问搜索空间内除障碍物外所有位置的最优路径，根据该问题的特点创建评价函数。

能量消耗指农用运输机按照覆盖路径规划结果行驶时的实际能耗。农用运输机实际能耗主要分为直线行驶能耗和转向能耗两个部分。直线行驶能耗主要与直线作业路径的距离相关，距离越大，能耗越高。转向能耗主要与农用运输机拖拉机转向次数相关，转向次数越少，转向能耗越小。

平面行驶路径长度与能耗关系如下：

（1）

（2）

（3）

式中：表示路径中包含的栅格总数；/>表示地面摩擦系数；/>表示拖拉机平面行驶过程中耗能，/>，/>为农田DEM数字高程模型数据中的坐标点，G为重力加速度。/>为拖拉机受到的地面摩擦力。

（4）

（5）

（6）

式中：表示拖拉机航向角，单位/>；/>表示作业区域与/>轴夹角，单位/>；/>表示作业宽度，单位/>；/>为拖拉机受到的地面摩擦力。

综上可得拖拉机行驶过程中总耗能可表征为：

（7）

（8）

步骤S5：定义农用运输机覆盖路径规划问题中的智能体、环境、状态、动作、奖励回报。

中央控制器对农田环境进行建模，农用运输机覆盖路径规划问题中的地图由农田本身及转弯区域组成，农用运输机从给定的起始点开始作业，通过遍历整个农田区域来达到路径规划的目的。地图被栅格化处理，并划分成规则的多个不同区域。

定义农用运输机覆盖路径规划问题中的智能体，智能体是做动作或决策的载体，在本问题中智能体就是农用运输机。定义农用运输机覆盖路径规划问题中的环境，环境是智能体交互的对象，在本问题中环境就是农田数据和栅格地图。定义农用运输机覆盖路径规划问题中的状态，状态是对当前时刻环境的概况，在问题中就是t时间的栅格坐标。定义农用运输机覆盖路径规划问题中的动作，动作是智能体基于当前状态所做出的决策，在问题中就是栅格地图的上、下、左、右方向的运动。定义农用运输机覆盖路径规划问题中的奖励，奖励是指在智能体执行一个动作之后，环境返回给智能体的一个数值，奖励往往由我们自己来定义，奖励定义得好坏对强化学习的结果有影响。

步骤S6：马尔可夫决策建模过程

根据农用运输机与农田的交互过程，将农用运输机覆盖路径规划问题成马尔可夫决策过程。

在农用运输机覆盖路径规划问题中，农用运输机与环境（农田）的交互一直存在。随着时间的流动，农用运输机都会从环境中接收到一个状态/>，根据这个状态/>，车辆会做出一个动作/>，然后这个动作作用于环境，车辆便会接收到一个奖励/>，并且达到新的状态，因此，实际上车辆与环境的交互产生了一个序列：

状态空间是指所有可能存在的状态的集合，记作字母

动作空间是指所有可能动作的集合，记作字母

（9）

其中，代表机器人在/>时刻机器人与目标点的距离，/>

代表机器人在时刻机器人与目标点的距离；

（10）

步骤S7：神经网络模型的建立

神经网络包含当前网络(Q-eval)和目标网络(Q-target)这两个Q网络，其中当前网络用来根据当前的状态矩阵输出一个神经网络认为在此状态下最佳动作，目标网络根据移动机器人做完此动作后的环境给出Q-target值。在训练过程中，当前网络的输入只有当前栅格地图的状态矩阵，输出为当前环境下各个动作相对应的Q值，移动机器人有很大概率选择Q值最大的动作。目标网络的输入为在做出所选择的动作之后栅格地图的状态矩阵，输出也为各个动作相应的Q值，选取最大的Q值作为Q-target。

当前网络和目标网络的结构相同神经网络的输入为与预处理后的栅格对应的状态矩阵，矩阵大小为 n*n 即栅格地图中栅格的个数，卷积层、全连接层、价值函数和优势函数构成了隐藏层。本文的隐藏层为三层卷积层加上两层全连接层，第一层卷积层采用的卷积核大小为 7*7，第二层和第三层的卷积核大小为 5*5。第一层全连接层的神经元个数为256 个，第二层的全连接层个数为 40 个，价值函数部分具有 1 个神经元而优势函数具有4 个神经元。网络所采用的激活函数均为 ReLU 函数。

步骤S8：训练深度强化学习算法

用随机的网络参数初始化网络/>；

来初始化目标网络/>复制相同的参数/>；

初始化经验回放池R；

对序列；e代表实际上车辆与环境的交互产生了一个序列，E为e序列经过循环后得新的序列。

获取环境初始状态；

时间步；

根据当前网络，以/>贪婪策略选择动作/>；

执行动作，获得奖励/>，环境状态变为/>；

将储存在回放池R中；

若R中数据足够，从R中采样N个数据；

对每个数据，用目标网络计算；

最小化目标损失，以此更新当前网络/>；

更新目标网络；

结束

步骤S9：将训练好的模型应用于农用运输机路径规划

将训练好的模型，应用到农用运输机覆盖路径规划问题上。给农用运输机设置好起始点和目标点。中央控制器计算得到农用运输机的状态S，将状态S输入到深度强化学习网络中，得到各动作的Q值。选择Q值最大的动作作为待执行动作；中央控制器判断农业机器人的动作是否能够被执行，如果动作是可行的，则执行该动作，如果动作是不可行的，则让农用运输机停留在原地。如果农用运输机到达终点，则路径规划任务结束。

综上所述，本发明提出一种基于深度强化学习的农用运输机械覆盖路径规划方法，田间地块的信息和目标点的信息，通过神经网络将信息提取后，利用强化学习算法训练得到一个农用运输机械覆盖路径规划方法。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种农用运输机械覆盖路径规划方法，其特征在于：所述的规划方法包括：

步骤2：确定作业数据；

步骤3：根据农田边界数据，建立栅格地图；

步骤4：建立评价函数；

步骤6：马尔可夫决策建模过程；

步骤7：神经网络模型的建立；

步骤8：训练深度强化学习算法；

步骤9：将训练好的模型应用于农用运输机路径规划。

2.根据权利要求1所述的一种农用运输机械覆盖路径规划方法，其特征在于：所述的步骤3根据农田边界数据，建立栅格地图，栅格地图根据车辆的大小将工作环境划分为大小相同的栅格。

3.根据权利要求1所述的一种农用运输机械覆盖路径规划方法，其特征在于：所述的步骤4建立评价函数；评价函数用于评价运输机的能量消耗，能量消耗指农用运输机按照覆盖路径规划结果行驶时的实际能耗，

平面行驶路径长度与能耗关系如下：

（1）

（2）

（3）

（4）

（5）

（6）

式中：表示拖拉机航向角，单位/>；/>表示作业区域与/>轴夹角，单位/>；/>表示作业宽度，单位/>； />为拖拉机受到的地面摩擦力；

综上可得拖拉机行驶过程中总耗能可表征为：

（7）

（8）

4.根据权利要求1所述的一种农用运输机械覆盖路径规划方法，其特征在于：所述步骤5中定义农用运输机覆盖路径规划问题中的智能体，智能体是做动作或决策的载体，在本问题中智能体就是农用运输机；定义农用运输机覆盖路径规划问题中的环境，环境是智能体交互的对象，在本问题中环境就是农田数据与栅格地图；

5.根据权利要求1所述的一种农用运输机械覆盖路径规划方法，其特征在于：所述步骤6马尔可夫决策建模过程：

状态空间是指所有可能存在的状态的集合，记作字母

动作空间是指所有可能动作的集合，记作字母

（9）

其中，代表机器人在/>时刻机器人与目标点的距离，/>

代表机器人在时刻机器人与目标点的距离；

（10）

6.根据权利要求1所述的一种农用运输机械覆盖路径规划方法，其特征在于：所述的步骤7神经网络包含当前网络Q-eval和目标网络Q-target两个Q网络，其中当前网络用来根据当前的状态矩阵输出一个神经网络认为在此状态下最佳动作，目标网络根据移动机器人做完此动作后的环境给出Q-target值；

7.根据权利要求1所述的一种农用运输机械覆盖路径规划方法，其特征在于：所述的步骤9中，给农用运输机设置好起始点和目标点；中央控制器计算得到农用运输机的状态S，将状态S输入到深度强化学习网络中，得到各动作的Q值；选择Q值最大的动作作为待执行动作；中央控制器判断农业机器人的动作是否能够被执行，如果动作是可行的，则执行该动作，如果动作是不可行的，则让农用运输机停留在原地；如果农用运输机到达终点，则路径规划任务结束。