CN113156979B - 基于改进的maddpg算法的护林员巡护路径规划方法和装置 - Google Patents

基于改进的maddpg算法的护林员巡护路径规划方法和装置 Download PDF

Info

Publication number
CN113156979B
CN113156979B CN202110585880.3A CN202110585880A CN113156979B CN 113156979 B CN113156979 B CN 113156979B CN 202110585880 A CN202110585880 A CN 202110585880A CN 113156979 B CN113156979 B CN 113156979B
Authority
CN
China
Prior art keywords
patrol
output
improved
action
path planning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110585880.3A
Other languages
English (en)
Other versions
CN113156979A (zh
Inventor
徐爱俊
丁鹏
李义平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang A&F University ZAFU
Original Assignee
Zhejiang A&F University ZAFU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang A&F University ZAFU filed Critical Zhejiang A&F University ZAFU
Priority to CN202110585880.3A priority Critical patent/CN113156979B/zh
Publication of CN113156979A publication Critical patent/CN113156979A/zh
Application granted granted Critical
Publication of CN113156979B publication Critical patent/CN113156979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于改进的MADDPG算法的护林员巡护路径规划方法和装置,在原MADDPG算法的基础上,修改演员网络输出层的激活函数及该网络的损失函数,并修改评论家网络的网络结构,添加门控循环单元(gated recurrent unit,GRU),使改进后的MADDPG算法适用于巡护路径规划问题,再通过栅格图法创建模拟环境,设计合适的动作和状态空间,依照相关的影响因素设置稀疏的奖励函数并塑形,最后,在模拟环境中完成多条路径规划。该路径规划方法和装置更加合理、可行、灵活,且能有效得到最优巡护路径。

Description

基于改进的MADDPG算法的护林员巡护路径规划方法和装置
技术领域
本发明属于林业保护领域,具体涉及一种基于改进的多智能体深度确定策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法的护林员巡护路径规划方法和装置。
背景技术
护林员是对其巡护区域内林业资源进行保护管理的劳务人员。长期以来,护林员在林业保护方面发挥了重要作用,为森林保护构建了一层坚固的屏障。根据各地现行的护林员管理办法以及相关数据可知现有的护林员巡护区域和路径规划方法存在许多问题。例如,护林员的巡护区域是以行政镇或行政村为单位的简单划分,未考虑巡护区域的面积大小、珍稀资源点和重要事件上报点分布情况等,使得护林员的工作量和重要巡护点覆盖率不平衡。另外,巡护路径未统一规划,护林员没有明确的巡护目标与巡护重点,会出现少巡护、绕远路、走回头路等情况。上述问题将导致护林员工作效率低、巡护情况差、浪费人力物力等。
路径规划可分为传统路径规划方法、智能路径规划方法和基于强化学习的路径规划方法。智能的路径规划方法,如文献提出的一种基于多态蚁群算法的智能轮椅路径规划方法,用于搜寻最短的智能轮椅行驶路径,在关于起始点与目标点之间寻求最短路径的研究已非常完善,但是如何在复杂环境和变数较多的问题中求解最优路径仍然是个难点。
基于强化学习的路径规划方法可以分为两类:单智能体和多智能体。虽然基于单智能体强化学习算法的路径规划方法,如文献(彭理群,罗明波,卢赫,柏跃龙.基于Q-learning的定制公交跨区域路径规划研究[J].交通运输系统工程与信息,2020,20(01):104-110)提出一种通过综合路段拥堵状态、乘客数量及居民小区位置为奖惩函数的单智能体Q-learning强化学习方法,以规划定制公交跨区域的最优路径,可以求解最短路径且在复杂环境和多因素路径规划问题中也有良好的表现,但是该方法一次仅能生成单条路径,无法在特定区域内生成多条路径最优组合,灵活性较低。
相比传统的、智能的及基于单智能体强化学习的路径规划方法,采用多智能体强化学习的方法更加适用于解决护林员巡护路径规划问题。因为护林员巡护路径规划问题不仅涉及多因素,如路径长度、障碍物、珍稀资源点、上报事件点、坡度等,而且需在巡护区域内规划多条路径,以供一位或多位护林员在一定周期内进行巡护。
发明内容
鉴于上述,本发明的目的是提供一种基于改进的MADDPG算法的护林员巡护路径规划方法和装置,以实现对巡护区域和巡护路径的公平且合理规划,以提升护林员的工作效率。
第一方面,实施例提供的一种基于改进的MADDPG算法的护林员巡护路径规划方法,包括以下步骤:
将护林员巡护路径规划问题转化为MADDPG算法学习问题,并进行问题的转化定义,包括:对巡护区域进行栅格化,将每个栅格点的坐标及对应的栅格属性作为智能体所处的状态,定义智能体在栅格化巡护区域具有的总计动作以确定输出动作的维度,依据巡护区域的属性特征定义奖励函数;
依据护林员巡护路径规划问题特性对包含演员网络和评论家网络的MADDPG算法进行改进,包括:修改演员网络输出层的激活函数为适用于离散多分类的激活函数,依据演员网络的输出动作的最大概率、输出动作的选择概率和评论家网络输出的状态-动作值构建演员网络的损失函数;在评论家网络中添加门控循环单元;
根据问题的转化定义和改进的MADDPG算法,进行改进的MADDPG算法的强化学习,依据多个智能体输出的最大概率动作值规划多个护林员的巡护路径。
第二方面,实施例提供的基于改进的MADDPG算法的护林员巡护路径规划装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实第一方面所述的基于改进的MADDPG算法的护林员巡护路径规划方法。
上述实施例提供的基于改进的MADDPG算法的护林员巡护路径规划方法和装置,在原MADDPG算法的基础上,修改演员网络输出层的激活函数及该网络的损失函数,并修改评论家网络的网络结构,添加门控循环单元(gated recurrent unit,GRU),使改进后的MADDPG算法适用于巡护路径规划问题,结合栅格图法,设计合适的动作和状态空间,通过改进的MADDPG算法的强化学习来实现对护林员巡护路径的规划,该路径规划方法和装置更加合理、可行、灵活,且能有效得到最优巡护路径。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例提供的基于改进的MADDPG算法的护林员巡护路径规划方法的流程图;
图2是一实施例提供的区域划分的示意图;
图3是一实施例提供的MADDPG算法的神经网络结构示意图;
图4是一实施例提供的改进后的评论家网络的结构示意图;
图5是一实施例提供的模拟环境的示意图;
图6是一实施例提供的动作方向示意图;
图7是一实施例提供的智能体探索度图;
图8是一实施例提供的训练过程中每回合的总奖励值。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
针对目前的林业巡护存在巡护区域划分不均匀问题和巡护路径规划不合理问题,这两个问题均会造成护林员的林业巡护效率低,且浪费巡护资源。为了解决这个技术问题,实施例提供了一种基于改进的MADDPG算法的护林员巡护路径规划方法和装置。
图1是一实施例提供的基于改进的MADDPG算法的护林员巡护路径规划方法的流程图。如图1所示,实施例提供的基于改进的MADDPG算法的护林员巡护路径规划方法,包括以下步骤:
步骤1,巡护区域的划分。
实施例中,采用新划分方法实现巡护区域的划分和护林员的分配,以保证巡护区域划分均匀性。在进行巡护区域划分之前,先进行巡护区域的栅格化。然后,将栅格化的巡护区域依据上报事件点、珍稀动植物资源点、坡度分布情况以及行政乡镇面积和分布情况进行主、次巡护区域的划分,并将主巡护区域划分多个子巡护区域,在每个巡护区域布置多个护林员。基于此,将护林员看成MADDPG算法中的智能体,依据改进的MADDPG算法进行护林员巡护路径的规划。
举例说明,将某市行政区划图栅格化为42*32的栅格图,每一个栅格实际大小约为3km*3km。然后,根据上报事件点、珍稀动植物资源点、坡度分布情况以及行政乡镇面积和分布情况,划分出3个主巡护区域,各主区域的上报事件点和珍稀动植物资源点占比约为0.34、0.34、0.32,面积比约为1:1:1,坡度分布情况也基本相似。最后,分别把3个主巡护区域细分为子巡护区域,具体划分结果如图2所示。巡护路径的规划将在子巡护区域中进行,每个主巡护区域由若干个护林员负责,护林员可以在各自负责的主巡护区域内交替巡护子巡护区域中所规划的路径,以保证公平性。
步骤2,依据护林员巡护路径规划问题特性对包含演员网络和评论家网络的MADDPG算法进行改进。
MADDPG算法是一种基于深度学习和策略梯度的应用于多智能体系统中的算法,其单个智能体的神经网络结构如图3所示。每个智能体都包含两个神经网络:演员(actor)网络和评论家(critic)网络。演员网络的功能是利用评论家网络输出的状态-动作值不断地更新网络参数,以确定智能体某状态下的最优动作。评论家网络利用时间差分误差(temporal difference error,TD error)来评价智能体某状态下动作的优劣。演员网络和评论家网络又分别包含两个神经网络:估值(evaluation)网络和目标(target)网络,这两个网络结构相同,参数不同,估值网络的参数是正常更新的,而目标网络不参与训练,其参数是根据一定周期前的估值网络的参数得到的。
图3中,s和s_分别表示输入估值网络和目标网络的智能体i的状态,a和a_分别表示输入估值网络和目标网络的所有智能体的动作。设有n个智能体,n个智能体的权重参数集为θ={θ1,θ2,...,θn},观测集为x={o1,o2,...,on},动作集为a={a1,a2,...,an},由于MADDPG算法为确定性策略选择,其确定策略集为μ={μ1,μ2,...,μn}。智能体i确定策略梯度为:
Figure BDA0003087390300000061
其中,
Figure BDA0003087390300000062
表示状态-动作值函数,其通过观测集x和动作集a确定智能体i的在某个状态选择某个动作的价值;D表示经验回放池,存储了所有智能体的经历,智能体每次随机抽取池中的一部分记忆进行训练。
演员网络通过最大化状态-动作值函数来优化网络参数,目标函数及参数更新规则分别如式(2)和式(3)所示。
Figure BDA0003087390300000063
式(3)中,α为学习率。
评论家网络通过最小化时间差分误差来优化网络参数,目标函数如式(4)所示,参数更新规则与演员网络相同
Figure BDA0003087390300000064
式(4)中,
Figure BDA0003087390300000065
μ′为目标网络的确定策略集。
目标网络的参数利用软更新策略(式(5))进行更新。
θ′i←(1-τ)θ′i+τθi (5)
式(5)中,τ<<1,以保证目标网络参数每次只进行微小更新;θ′i,θi分别为智能体i的目标网络和估值网络参数。
但是上述MADDPG算法在解决巡护路径规划问题中存在两个缺陷:
第一,MADDPG算法是解决连续动作问题的,该算法的演员网络输出的动作是连续值,而护林员巡护路径规划问题的动作空间是离散的,所以需要修改演员网络输出层的结构,使得其输出为离散的动作值。离散动作值的输出,类似于多分类问题,故将原演员网络输出层采用的激活函数转化为适用于离散多分类的激活函数,实施例中,修改演员网络输出层的激活函数为gumbel-softmax函数。利用交叉熵损失函数与状态-动作值来更新网络参数。由于动作输出不是严格的多分类问题,所以需修改传统的交叉熵损失函数,,依据演员网络的输出动作的最大概率、输出动作的选择概率构建演员网络的损失函数L为:
Figure BDA0003087390300000071
其中,yi表示演员网络输出的最大概率的动作值(一位有效编码),
Figure BDA0003087390300000072
表示演员网络输出各动作的选择概率,r表示由评论家网络输出的状态下选择动作yi的状态-动作值,i为智能体的索引,n为智能体的个数。
第二,MADDPG算法是在粒子游戏环境下进行实验的,其评论家网络的网络结构较简单,输入仅为智能体当前的状态值、执行动作值及其他智能体的执行动作值。然而,护林员巡护路径规划问题中智能体需要关注自身及其他智能体当前回合下已经历的状态,以综合反映所有智能体已行路径的优劣程度。由于每批训练中智能体经历过的状态集可以看作是变长的时间序列,一般的神经网络层无法处理该输入集,所以在原评论家网络中添加处理时间序列的GRU层,以转换所有智能体已经历的状态集,学习序列集中潜在的特征,改进后的评论家网络结构如图4所示,包括:
输入层:输入m个所有智能体经过状态填充后的状态序列X=[x1,x2,...,xm]T;m为训练集采样规模。由于智能体已经历的状态序列为变长序列,无法直接输入网络,需要以序列集中最长序列的长度L为基准填充其余序列。本文采用pad函数用-1进行填充,得样本xi∈RL×1,i∈1,2,...,m,即每个样本为L×1的矩阵;
隐藏层1:处理状态序列的门控循环单元层,设置状态序列的填充部分不参与训练以排除填充部分的影响,得到最后一步的输出
Figure BDA0003087390300000081
其中h1为GRU的神经元个数;
隐藏层2:利用concat函数连接门控循环单元层的输出H和和矩阵F,F表示当前智能体的状态集S∈Rm×1以及所有智能体执行的动作集A∈Rm×n,n为智能体个数,得到输出矩阵X1=concat(H,S,A)=[H S A];
隐藏层3和隐藏层4:分别为全连接层和归一化层,其输出分别为
Figure BDA0003087390300000082
Figure BDA0003087390300000083
其中h2和h3分别表示各层的神经元个数;
隐藏层5和隐藏层6:同隐藏层3和隐藏层4,分别为全连接层和归一化层,其输出分别为
Figure BDA0003087390300000084
Figure BDA0003087390300000085
其中h4和h5分别表示各层的神经元个数;
输出层:采用全连接层,其输出为智能体的状态-动作值,记作Y∈Rm×1
步骤3,定义动作及状态空间和环境建模。
实施例中,创建一定尺寸的栅格图为模拟环境用于巡护路径的规划。如图5所示,图5中可行路径点、障碍点、坡度点、上报事件点和珍稀动植物资源点的分布均源于实际情况。由于山林中的可行路径无法通过已有的地理信息数据获取,故需根据2017-2019年建瓯市所有护林员的全部巡护路径数据,确定图5中的黑色区域代表障碍地带,黑色区域外的代表可行地带;选取ASTGTM2东经117-119°、北纬26-28°范围内的数字高程模型数据,通过Arcgis10.5筛选出建瓯市范围内的数据并转换为坡度数据,建瓯市的坡度主要分布于2~5°之间,黄色和蓝色栅格代表坡度在2~5°之间,白色和绿色栅格代表坡度小于2°,绿色和蓝色栅格代表重要巡护点,即事件上报点和珍稀动植物资源点,红色栅格和红色圆分别代表起点和终点。
实施例中,根据巡护路径规划的需求和栅格图的特点,以每个栅格点的坐标以及栅格属性描述智能体所处的状态,定义为s=(x,y,t),式中:x和y分别代表栅格的中心横坐标和纵坐标,t代表智能体所在栅格的栅格属性。其中,每个栅格点对应的栅格属性表示地理位置的状态属性,包括障碍、坡度、巡护重点、目标点、出界。
实施例中,还定义智能体在栅格化巡护区域具有的总计动作以确定输出动作的维度。如图6所示,定义智能体在栅格化巡护区域具有的总计动作为8个动作,分别代表当前栅格点对应的前、后、左、右、左前、右前、左后、右后八个方向的前进工作,确定输出动作的维度为8。实施例中,不同运动方向分别用0-7表示。智能体每次只允许运动到相邻的栅格,若智能体运动超出模拟环境的边界,则会得到相应的惩罚。
步骤4,依据巡护区域的属性特征定义奖励函数。
奖励函数用于评估智能体在某一状态下采取各动作的优劣程度,能够指导智能体实现目标,并决定了算法的收敛速度和目标完成度。实施例中采用稀疏奖励法,但其易导致算法收敛慢甚至难以收敛等问题,因此需进一步对奖励函数进行塑形,以路径长度短、避免障碍和高坡度地带以及覆盖多的上报事件点和珍稀动植物资源点等为学习目标,并加入合理的中间奖励。实施例根据避障、覆盖巡护重点、避高坡度的优先级高低程度分别赋予不同的奖励值,即智能体不会为了覆盖巡护重点而去碰撞障碍物,但会为了覆盖巡护重点而经过高坡度点,该赋值方法增加了路径规划的合理性。具体地,依据巡护区域的属性特征定义奖励函数r为:
Figure BDA0003087390300000101
其中,s′代表下一状态,s代表智能体的状态,S表示所有智能体经历过的状态集,terminal、obstacle、out、high slope、key分别代表目标点、障碍点、出界、高坡度点和巡护重点,当s′的栅格属性为目标点时智能体得到奖励值1;当s′的栅格属性为障碍点或出界时智能体得到奖励值-0.4;当s′的栅格属性为高坡度点时奖励值为-0.2;当s′的栅格属性为巡护重点且s′不在S中时奖励值为0.3;当s′的栅格属性为为巡护重点和高坡度点且s′不在S中时奖励值为0.1;为了避免智能体出现刷分现象,即不断地经过巡护重点获取正奖励,当s′的栅格属性包含巡护重点和高坡度点且s′在S中时奖励值为-0.4;其他情况下,设定奖励值为-0.02,目的是令规划出的路径长度尽可能的短,其中,巡护重点包括上报事件点或珍稀动植物资源点。
步骤5,进行改进的MADDPG算法的强化学习,依据多个智能体输出的最大概率动作值规划多个护林员的巡护路径。
基于上述改进的MADDPG算法,定义的动作和状态空间以及奖励函数,进行改进的MADDPG算法的强化学习,以规划多个护林员的巡护路径。在具体进行强化学习时,设置网络的具体结构及训练细节,以智能体个数n=3为例进行实验研究,具体参数设置见表1。
表1网络参数
Figure BDA0003087390300000111
基于该网格参数进行强化学习,得到的实验结果为图7和图8所示。其中,图7所示的热图为前1000个回合所有智能体对模拟环境的覆盖情况,图7中横纵轴分别表示模拟环境的横纵坐标,栅格中的注释表示所有智能体经过该点总次数,可以发现智能体进行了充分的探索,经过了模拟环境中绝大部分区域,所以实验得到的最优结果具有可信度。
图8为每回合所有智能体的总奖励值曲线。如图8所示,在2000回合之前,智能体处于探索与学习阶段,所以每回合的总奖励值基本为负值且有较大波动。在2000回合到4000回合之间,智能体不断地利用已学的经验来完成任务,所以每回合的总奖励值逐渐提高,波动程度降低。4000回合后,智能体学习完毕,算法开始收敛,即智能体已找到最优路径,每回合的总奖励值稳定于6左右。
由于改进的MADDPG算法综合考虑多种因素的影响,故最优路径的长度相对较短,且能够覆盖环境中大部分的巡护重点以及避免障碍和高坡度点,获得的总奖励值较高。因此,实施例提供的基于改进的MADDPG算法的巡护员路径规划方法具有一定的可行性、合理性和灵活性。
实施例还提供了一种基于改进的MADDPG算法的护林员巡护路径规划装置,,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实现上述基于改进的MADDPG算法的护林员巡护路径规划方法,具体包括以下步骤:
步骤1,巡护区域的划分。
步骤2,依据护林员巡护路径规划问题特性对包含演员网络和评论家网络的MADDPG算法进行改进。
步骤3,定义动作及状态空间。
步骤4,依据巡护区域的属性特征定义奖励函数。
步骤5,进行改进的MADDPG算法的强化学习,依据多个智能体输出的最大概率动作值规划多个护林员的巡护路径。
实际应用中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现基于改进的MADDPG算法的护林员巡护路径规划方法步骤。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,包括以下步骤:
将护林员巡护路径规划问题转化为MADDPG算法学习问题,并进行问题的转化定义,包括:对巡护区域进行栅格化,将每个栅格点的坐标及对应的栅格属性作为智能体所处的状态,定义智能体在栅格化巡护区域具有的总计动作以确定输出动作的维度,依据巡护区域的属性特征定义奖励函数;
依据护林员巡护路径规划问题特性对包含演员网络和评论家网络的MADDPG算法进行改进,包括:修改演员网络输出层的激活函数为适用于离散多分类的激活函数,依据演员网络的输出动作的最大概率、输出动作的选择概率和评论家网络输出的状态-动作值构建演员网络的损失函数;在评论家网络中添加门控循环单元,改进后的评论家网络结构包括:输入层:输入m个所有智能体经过状态填充后的状态序列X=[x1,x2,...,xm]T
隐藏层1:处理状态序列的门控循环单元层,设置状态序列的填充部分不参与训练以排除填充部分的影响,得到最后一步的输出
Figure FDA0003747431520000011
其中h1为GRU的神经元个数;
隐藏层2:利用concat函数连接门控循环单元层的输出H和矩阵F,F表示当前智能体的状态集S∈Rm×1以及所有智能体执行的动作集A∈Rm×n,n为智能体个数,得到输出矩阵X1=concat(H,S,A)=[H S A];
隐藏层3和隐藏层4:分别为全连接层和归一化层,其输出分别为
Figure FDA0003747431520000012
Figure FDA0003747431520000013
其中h2和h3分别表示各层的神经元个数;
隐藏层5和隐藏层6:分别为全连接层和归一化层,其输出分别为
Figure FDA0003747431520000021
Figure FDA0003747431520000022
其中h4和h5分别表示各层的神经元个数;
输出层:采用全连接层,其输出为智能体的状态-动作值,记作Y∈Rm×1
根据问题的转化定义和改进的MADDPG算法,进行改进的MADDPG算法的强化学习,依据多个智能体输出的最大概率动作值规划多个护林员的巡护路径。
2.如权利要求1所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,每个栅格点对应的栅格属性表示地理位置的状态属性,包括障碍、坡度、巡护重点、目标点、出界;
定义智能体在栅格化巡护区域具有的总计动作为8个动作,分别代表当前栅格点对应的前、后、左、右、左前、右前、左后、右后八个方向的前进工作,确定输出动作的维度为8。
3.如权利要求1所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,依据巡护区域的属性特征定义奖励函数r为:
Figure FDA0003747431520000023
其中,s′代表下一状态,s代表智能体的状态,S表示所有智能体经历过的状态集,terminal、obstacle、out、high slope、key分别代表目标点、障碍点、出界、高坡度点和巡护重点,当s′的栅格属性为目标点时智能体得到奖励值1;当s′的栅格属性为障碍点或出界时智能体得到奖励值-0.4;当s′的栅格属性为高坡度点时奖励值为-0.2;当s′的栅格属性为巡护重点且s′不在S中时奖励值为0.3;当s′的栅格属性为巡护重点和高坡度点且s′不在S中时奖励值为0.1;当s′的栅格属性包含巡护重点和高坡度点且s′在S中时奖励值为-0.4;其他情况下,设定奖励值为-0.02,其中,巡护重点包括上报事件点或珍稀动植物资源点。
4.如权利要求1所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,在对MADDPG算法进行改进时,修改演员网络输出层的激活函数为gumbel-softmax函数。
5.如权利要求1所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,在对MADDPG算法进行改进时,依据演员网络的输出动作的最大概率、输出动作的选择概率构建演员网络的损失函数L为:
Figure FDA0003747431520000031
其中,yi表示演员网络输出的最大概率的动作值,
Figure FDA0003747431520000032
表示演员网络输出各动作的选择概率,r表示由评论家网络输出的状态下选择动作yi的状态-动作值,i为智能体的索引,n为智能体的个数。
6.如权利要求4所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,在对MADDPG算法进行改进时,依据演员网络的输出动作的最大概率、输出动作的选择概率构建演员网络的损失函数L为:
Figure FDA0003747431520000033
其中,yi表示演员网络输出的最大概率的动作值,
Figure FDA0003747431520000034
表示演员网络输出各动作的选择概率,r表示由评论家网络输出的状态下选择动作yi的状态-动作值,i为智能体的索引,n为智能体的个数。
7.如权利要求1~6任意一项所述的基于改进的MADDPG算法的护林员巡护路径规划方法,其特征在于,对巡护区域进行栅格化后,将栅格化的巡护区域依据上报事件点、珍稀动植物资源点、坡度分布情况以及行政乡镇面积和分布情况进行主、次巡护区域的划分,并将主巡护区域划分多个子巡护区域,在每个巡护区域布置多个护林员,将护林员看成MADDPG算法中的智能体,依据改进的MADDPG算法进行护林员巡护路径的规划。
8.一种基于改进的MADDPG算法的护林员巡护路径规划装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1~7任一项所述的基于改进的MADDPG算法的护林员巡护路径规划方法。
CN202110585880.3A 2021-05-27 2021-05-27 基于改进的maddpg算法的护林员巡护路径规划方法和装置 Active CN113156979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110585880.3A CN113156979B (zh) 2021-05-27 2021-05-27 基于改进的maddpg算法的护林员巡护路径规划方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110585880.3A CN113156979B (zh) 2021-05-27 2021-05-27 基于改进的maddpg算法的护林员巡护路径规划方法和装置

Publications (2)

Publication Number Publication Date
CN113156979A CN113156979A (zh) 2021-07-23
CN113156979B true CN113156979B (zh) 2022-09-06

Family

ID=76877916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110585880.3A Active CN113156979B (zh) 2021-05-27 2021-05-27 基于改进的maddpg算法的护林员巡护路径规划方法和装置

Country Status (1)

Country Link
CN (1) CN113156979B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578833B (zh) * 2022-05-07 2022-07-15 季华实验室 森林防火机器人巡逻方法、装置、电子设备和存储介质
JP7549176B1 (ja) 2024-05-01 2024-09-10 株式会社インターネットイニシアティブ 制御装置、制御方法、および制御システム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111245718A (zh) * 2019-12-30 2020-06-05 浙江工商大学 一种基于sdn情景感知的路由优化方法
CN111553580A (zh) * 2020-04-22 2020-08-18 浙江农林大学 基于k均值和支持向量机的护林员巡护情况的综合分析方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法
CN112231967A (zh) * 2020-09-09 2021-01-15 山东师范大学 基于深度强化学习的人群疏散仿真方法及系统
US10917355B1 (en) * 2019-08-28 2021-02-09 Honeywell International Inc. Methods, systems and apparatuses for optimizing time-triggered ethernet (TTE) network scheduling by using a directional search for bin selection
CN112417760A (zh) * 2020-11-20 2021-02-26 哈尔滨工程大学 基于竞争混合网络的舰船控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586945B2 (en) * 2019-08-06 2023-02-21 Salesforce.Com, Inc. Methods and systems for automated, intelligent application process development that recommend how to modify applications based on usage patterns of end users

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10917355B1 (en) * 2019-08-28 2021-02-09 Honeywell International Inc. Methods, systems and apparatuses for optimizing time-triggered ethernet (TTE) network scheduling by using a directional search for bin selection
CN111245718A (zh) * 2019-12-30 2020-06-05 浙江工商大学 一种基于sdn情景感知的路由优化方法
CN111553580A (zh) * 2020-04-22 2020-08-18 浙江农林大学 基于k均值和支持向量机的护林员巡护情况的综合分析方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112231967A (zh) * 2020-09-09 2021-01-15 山东师范大学 基于深度强化学习的人群疏散仿真方法及系统
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法
CN112417760A (zh) * 2020-11-20 2021-02-26 哈尔滨工程大学 基于竞争混合网络的舰船控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于行动者-评论家方法的船舶路径规划研究;王讷;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20200715;正文第25-41页 *
序列多智能体强化学习算法;史腾飞;《模式识别与人工智能》;20210331;正文第207-213页 *

Also Published As

Publication number Publication date
CN113156979A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
Wang et al. Adaptive Traffic Signal Control for large-scale scenario with Cooperative Group-based Multi-agent reinforcement learning
CN113156979B (zh) 基于改进的maddpg算法的护林员巡护路径规划方法和装置
CN111862579B (zh) 一种基于深度强化学习的出租车调度方法及系统
CN110032782B (zh) 一种城市级智能交通信号控制系统及方法
CN110991972B (zh) 一种基于多智能体强化学习的货物运输系统
US20210348928A1 (en) Multi-police-officer collaborative round-up task allocation and path planning method under constraint of road network
Li et al. Efficient and effective express via contextual cooperative reinforcement learning
CN111664852B (zh) 一种无人机路径规划方法及装置
CN113283827B (zh) 一种基于深度强化学习的两阶段无人机物流路径规划方法
CN113188547A (zh) 无人机路径规划方法、装置、控制器及存储介质
CN115481779A (zh) 一种基于联邦强化学习的卫星资源调度优化方法
Tran et al. Using Fuzzy Clustering Chaotic-based Differential Evolution to solve multiple resources leveling in the multiple projects scheduling problem
CN114781707B (zh) 针对交通工作人员调度的优化方法及系统
CN110366188B (zh) 干扰测量点部署方法、干扰测量路径规划方法及系统
Zhang Simulation Optiisation and Markov Models for Dynamic Ambulance Redeployment
CN117132069A (zh) 一种无人机集群物资投送任务分配方法及系统
CN110222133A (zh) 一种考虑景观指数的多类土地利用模拟预测方法及装置
CN111578961A (zh) 基于领导者海豚群求解不确定条件车辆路径优化算法
Moilanen Methods for reserve selection: interior point search
CN113240908B (zh) 基于蚁群交哺策略的交通网络拥堵调控方法及系统
Chakeri et al. A vehicular crowdsensing market for avs
CN108304576A (zh) 一种智能交互式的生态控制线划定方法及装置
CN113628442A (zh) 一种基于多信号灯强化学习的交通组织方案优化方法
CN116820110B (zh) 基于智能优化算法的生态环境监测任务规划方法及装置
Guo Decentralized deep reinforcement learning for network level traffic signal control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant