CN114819316A - 一种面向多智能体任务规划的复杂优化方法 - Google Patents

一种面向多智能体任务规划的复杂优化方法 Download PDF

Info

Publication number
CN114819316A
CN114819316A CN202210401273.1A CN202210401273A CN114819316A CN 114819316 A CN114819316 A CN 114819316A CN 202210401273 A CN202210401273 A CN 202210401273A CN 114819316 A CN114819316 A CN 114819316A
Authority
CN
China
Prior art keywords
agent
task
target task
agents
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210401273.1A
Other languages
English (en)
Other versions
CN114819316B (zh
Inventor
江光德
陈豪
李冬雪
何浩东
魏国强
宫树香
马靖
杜林峰
刘庆国
伍樊成
魏庆栋
周颖
粱燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
96901 Unit Of Chinese Pla
Original Assignee
96901 Unit Of Chinese Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 96901 Unit Of Chinese Pla filed Critical 96901 Unit Of Chinese Pla
Priority to CN202210401273.1A priority Critical patent/CN114819316B/zh
Publication of CN114819316A publication Critical patent/CN114819316A/zh
Application granted granted Critical
Publication of CN114819316B publication Critical patent/CN114819316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于智能体任务规划优化技术领域,特别涉及一种面向多智能体任务规划的复杂优化方法。该方法基于马尔可夫决策和博弈论理论实现,包括多目标任务分配和多智能体路径规划;多目标任务分配采用双向竞标,即由智能体竞标目标任务和由目标任务竞标智能体的循环竞标策略;多智能体交互模块包括依次连接的相关性排序单元和循环交互单元;相关性排序单元用于进行相关性排序,循环交互单元采用循环递推结构对所述相关性排序单元输出的状态量进行降维,获得数据维度与智能体数量无关的交互信息。本发明能够在多对多任务规划的高维空间获得更优的局部最优解。

Description

一种面向多智能体任务规划的复杂优化方法
技术领域
本发明属于智能体任务规划优化技术领域,特别涉及一种面向多智能体任务规划的复杂优化方法。
背景技术
任务规划是智能体完成复杂工作的必要和关键环节。智能体的任务规划主要包括任务分配、路径规划、链路使用规划、传感器使用规划,以及任务规划的检验和评估等。
多智能体路径规划是多智能体的任务规划典型应用之一,也即无冲突地寻找多个智能体从起始位置到目标位置最优路径集合的一类问题。传统的路径规划算法例如人工势场法、D*法等,虽然一定程度上构建了机器人、智能体、无人车和无人船等路径规划解决方案,但这些传统算法多集中于在结构化或近似结构化的约束场景中解决单一目标或静态目标的简单任务规划,而真实场景中通常问题更为复杂,非结构化现场环境充满着各种不确定性,甚至需要多智能体协作才能完成预定任务,直接应用现有任务规划技术时极易发生解空间探索效率低下,对危险情况估计不足,甚至目标局部成功而整体规划失败等问题。
多智能体路径规划研究的重点集中在问题的求解方式、求解效率和求解质量上。任务规划问题的求解通常是依托优化问题来求解。最优的多智能体路径规划技术主流方法包括A*类搜索、代价增长树搜索和基于冲突的搜索三大类,这些方法借助精心设计优化算法,可以获得全局最优的多智能体路径规划,但通常以空间代价与时间代价高、求解速度慢,高层次搜索冗余度高、实现难度高为代价。
近年来,随着计算技术迅猛发展,多智能体路径规划逐步应用到高度复杂真实场景,原有许多优化问题相应呈现出非线性、不可微、规模大,NP难的特点,进而导致使用上述传统最优规划方法,在面对越来越复杂的问题时显现出其局限性和不足。特别是多智能体解空间随着状态量维度的增长而指数增长,最优的多智能体路径规划只在较少应用中具有实用价值。因此,适当牺牲多智能体路径规划算法的最优性能,换取大幅提高算法的执行效率成为解决工程实际问题可行替代方案。基于此思路代表技术由基于搜索和基于规则的近似的多智能体路径规划算法。这些方法都较易于实现,但难以兼顾求解速度快与结果质量,进而限制其在实际工程中的推广应用。
为了解决上述问题,如何在保持信息表示有效性的前提下,降低待优化问题的样本维度,是应对现实场景的多对多复杂任务规划问题的关键所在。
发明内容
为了解决现有技术中多对多复杂规划问题的样本空间维度高、优化求解速度慢等问题,本发明将多智能体任务规划分为目标任务分配和多智能体路径规划,采用智能体与目标任务双向竞标实现目标任务分配,采用多智能体循环交互单元构建智能体历史经验的共享与信息交互,在兼顾求解速度与结果质量的前提下,完成多智能体任务规划。
为了实现上述目的,本发明的技术方案为:
一种面向多智能体任务规划的复杂优化方法,所述多智能体任务规划基于马尔可夫决策和博弈论理论实现,包括多目标任务分配和多智能体路径规划;
所述多目标任务分配采用双向竞标,即由智能体竞标目标任务和由目标任务竞标智能体的循环竞标策略;
记所有智能体的状态量为全局状态量
Figure 100002_DEST_PATH_IMAGE001
,所述多智能体路径规划是采用多智能体交互模块对所述全局状态量进行降维,降维后的状态量经动作决策,得到最优动作集合
Figure 100002_DEST_PATH_IMAGE002
,即最优路径规划结果;其中,
Figure 100002_DEST_PATH_IMAGE003
为第m个智能体在t时刻的状态量,
Figure 100002_DEST_PATH_IMAGE004
,其任务规划结果是获得最优动作
Figure 100002_DEST_PATH_IMAGE005
所述多智能体交互模块包括依次连接的相关性排序单元和循环交互单元;所述相关性排序单元用于进行相关性排序,所述循环交互单元采用循环递推结构对所述相关性排序单元输出的状态量进行降维,所述循环交互单元的输出记为
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
Figure 100002_DEST_PATH_IMAGE008
的拼接记为紧凑全局状态量
Figure 100002_DEST_PATH_IMAGE009
任意给定输入
Figure 100002_DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE011
,输出
Figure 100002_DEST_PATH_IMAGE012
,所述智能体m循环交互单元的循环递推结构的表达式为:
Figure 100002_DEST_PATH_IMAGE013
(1)
Figure 100002_DEST_PATH_IMAGE014
(2)
Figure 100002_DEST_PATH_IMAGE015
(3)
其中,
Figure 100002_DEST_PATH_IMAGE016
为逐元素的乘积,
Figure 100002_DEST_PATH_IMAGE017
是sigmoid函数,
Figure 100002_DEST_PATH_IMAGE018
分别为权值方阵,记
Figure 100002_DEST_PATH_IMAGE019
为循环交互单元参数,i为所述循环交互单元的循环次数索引。
所述多目标任务分配具体步骤包括:
S11:环境建模
以数字化地图构建所述多智能体任务规划的环境,描述环境中要素的坐标位置,所述要素至少包括智能体、目标点、障碍物,将智能体和目标点抽象为质点,环境中的障碍物抽象为几何区域;设智能体个数为M,目标任务个数为N,且MNn记为目标任务的索引,所述多目标任务分配的总价值P最大化为约束条件;
S12:智能体竞标目标任务
选择总价值
Figure 100002_DEST_PATH_IMAGE020
最大的方案X为智能体竞标目标任务的最优任务分配方案,X为矩阵,记为正向分配方案;
Figure 100002_DEST_PATH_IMAGE021
(4)
其中,v n 是目标任务n的执行收益,k mn 为第m个智能体对目标任务n的匹配系数,q mn 为智能体m对目标任务n成功完成的概率,其取值范围为
Figure 100002_DEST_PATH_IMAGE022
x mn 代表竞标方案矩阵X的元素,定义为:
Figure 100002_DEST_PATH_IMAGE023
(5)
x mn =1时,表示智能体m执行目标任务nx mn =0时,表示智能体m不执行目标任务n
S13:目标任务竞标智能体
选择总价值
Figure 100002_DEST_PATH_IMAGE024
最大化的方案Y为目标任务竞标智能体的最优任务分配方案,记为反向分配方案;
Figure 100002_DEST_PATH_IMAGE025
(6)
其中,u m 是智能体m对目标任务的执行收益,g nm 为第n个目标任务对智能体m的匹配系数,q nm 为目标任务n采用智能体m成功完成的概率,且q nm =q mn y nm 代表竞标方案矩阵Y的元素,定义为:
Figure 100002_DEST_PATH_IMAGE026
(7)
y mn =1时,表示目标任务n选择智能体m执行任务;y mn =0时,表示目标任务n不采用智能体m执行任务;
S14:将方案X和方案Y的转置矩阵进行逐元素比对,若对应位置的元素取值相同,则取该位置对应的智能体和目标任务作为分配结果;若对应位置的元素取值不一致,则对方案X的不一致元素记录相应的
Figure 100002_DEST_PATH_IMAGE027
值,对方案Y的不一致元素记录相应的
Figure 100002_DEST_PATH_IMAGE028
值;将所有记录的值按取值大小确定未分配智能体或目标任务的优先级,取值越大的对应的智能体与目标任务分配结果越优先被采纳,直至所有目标任务均分配了智能体。
所述多智能体路径规划具体步骤包括:
S21:初始化设置
t=0阶段,观测全局状态量
Figure 100002_DEST_PATH_IMAGE029
;设定t的上限值;遍历所有智能体,完成所有智能体的初始化,具体方法是:
对于智能体m,采用随机初始化的方式,随机生成动作策略
Figure 100002_DEST_PATH_IMAGE030
的参数
Figure 100002_DEST_PATH_IMAGE031
,并设置
Figure 100002_DEST_PATH_IMAGE032
的最优参数
Figure 100002_DEST_PATH_IMAGE033
,随机生成评判策略
Figure 100002_DEST_PATH_IMAGE034
的参数
Figure 100002_DEST_PATH_IMAGE035
,并设置
Figure 100002_DEST_PATH_IMAGE036
的最优参数
Figure 100002_DEST_PATH_IMAGE037
;随机初始化循环交互单元的所有参数
Figure 100002_DEST_PATH_IMAGE038
S22:设置从第m=0个智能体开始,逐个智能体执行步骤S23-S29;
S23:计算多智能体交互信息
将多智能体的全局状态量
Figure 167263DEST_PATH_IMAGE001
输入相关性排序单元进行相关性排序,相关性排序单元的输出是除智能体m的状态量之外的,且经排序后的其他智能体的状态量,将相关性排序单元的输出按照大至小的顺序依次输入循环交互单元按照公式(1)-(3)进行迭代,得到循环交互单元输出
Figure 100002_DEST_PATH_IMAGE039
智能体m每完成一次任务规划,将其循环交互单元参数
Figure 100002_DEST_PATH_IMAGE040
共享给下一个智能体m+1的循环交互单元,循环交互单元参数通过共享更新,即
Figure 100002_DEST_PATH_IMAGE041
(8)
式中,
Figure 100002_DEST_PATH_IMAGE042
的取值范围为[0.05,0.5];
S24:生成最优动作
Figure 100002_DEST_PATH_IMAGE043
基于动作策略生成最优动作为:
Figure 100002_DEST_PATH_IMAGE044
(9)
其中,
Figure 100002_DEST_PATH_IMAGE045
为随机噪声,
Figure 100002_DEST_PATH_IMAGE046
表示参数为
Figure 100002_DEST_PATH_IMAGE047
时的动作策略;
S25:评估路径规划结果
依据最优动作
Figure 100002_DEST_PATH_IMAGE048
,智能体m完成一次任务规划,评估此时智能体和目标任务所产生的奖励
Figure 100002_DEST_PATH_IMAGE049
,以及其下一时刻达到的状态
Figure 100002_DEST_PATH_IMAGE050
S26:获取多智能体路径规划参数优化的数据包
存储t时刻的
Figure 100002_DEST_PATH_IMAGE051
到由紧凑全局状态量、最优动作和奖励构成的任务规划历史数据库,采用随机取样方式,从历史数据库中抽取一批数据,构成多智能体路径规划参数优化数据包,数据包包含K组样本,k为样本索引,
Figure 100002_DEST_PATH_IMAGE052
,第k组样本
Figure 100002_DEST_PATH_IMAGE053
包括某一时刻的紧凑全局状态量、最优动作、奖励及其下一时刻的紧凑全局状态量;
S27:根据K个样本逐一计算智能体m的总奖励期望的目标值
Figure 100002_DEST_PATH_IMAGE054
(10)
其中,
Figure 100002_DEST_PATH_IMAGE055
表示以当前最优动作策略参数
Figure 100002_DEST_PATH_IMAGE056
计算的最优动作,
Figure 100002_DEST_PATH_IMAGE057
表示当前奖励的期望以最优的评价策略参数
Figure 100002_DEST_PATH_IMAGE058
计算,
Figure 100002_DEST_PATH_IMAGE059
Figure 100002_DEST_PATH_IMAGE060
为相邻两次多智能体路径规划奖励的权重系数;
S28:智能体m,动作策略
Figure 100002_DEST_PATH_IMAGE061
、评判策略
Figure 100002_DEST_PATH_IMAGE062
和循环交互单元参数通过最小化损失函数值L来优化
Figure 100002_DEST_PATH_IMAGE063
(11)
其中,
Figure 100002_DEST_PATH_IMAGE064
则评判策略
Figure 100002_DEST_PATH_IMAGE065
参数
Figure 100002_DEST_PATH_IMAGE066
更新为
Figure 100002_DEST_PATH_IMAGE067
,动作策略
Figure 100002_DEST_PATH_IMAGE068
的参数
Figure 100002_DEST_PATH_IMAGE069
更新为
Figure 100002_DEST_PATH_IMAGE070
Figure 100002_DEST_PATH_IMAGE071
更新为
Figure 100002_DEST_PATH_IMAGE072
Figure 100002_DEST_PATH_IMAGE073
S29:更新智能体m的动作策略
Figure 100002_DEST_PATH_IMAGE074
和评判策略
Figure 100002_DEST_PATH_IMAGE075
的最优模型参数
Figure 100002_DEST_PATH_IMAGE076
(12)
其中,
Figure 100002_DEST_PATH_IMAGE077
为更新权重,
Figure 100002_DEST_PATH_IMAGE078
所有智能体完成步骤S23-S29后,在t的上限值范围内,通过不断重复S22-S29,实现动作策略的最优模型参数的逐步优化,并以最终的
Figure 100002_DEST_PATH_IMAGE079
为动作策略
Figure 100002_DEST_PATH_IMAGE080
的最优动作,即最优路径规划结果。
优选地,所述相关性排序具体方法是:
智能体m与其他的任一智能体l的相关性通过其状态量间的距离来度量,采用
Figure 100002_DEST_PATH_IMAGE081
范数计算:
Figure 100002_DEST_PATH_IMAGE082
(13)
其中,j表示状态量
Figure 100002_DEST_PATH_IMAGE083
Figure 100002_DEST_PATH_IMAGE084
的维度索引,p一般取1或2。
本发明的有益效果:
本方法将多智能体的任务规划问题分解成目标任务分配和多智能体路径规划两个环节,采用由智能体竞标目标任务以及由目标任务竞标智能体的双向竞标方案,通过比对双向竞标方案,达到目标任务分配的整体最优配置;通过采用多智能体交互模块,构建了一种面向智能体信息交互的多智能体状态紧凑表示方法,获得数据维度与智能体数量无关的交互信息,进而降低多对多场景下的任务规划计算复杂度,同时,通过将各智能体的循环交互单元参数互相传递,实现多智能体历史经验的平等共享,使得每个智能体在有限观察数据下,借助其他智能体经验共享获得性能提升。总体来说,本发明更有利于在多对多任务规划的高维空间更易获得更优的局部最优解。
附图说明
图1为多智能体路径规划框架;
图2为本方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步具体的说明。
下面结合附图对本发明作进一步说明。
本发明的任务规划整体框架主要由三大模块组成:多智能体模块、目标任务分配模块和多智能体路径规划模块。多智能体模块可以从当前环境中观测到状态量,如环境中的目标点、障碍区和智能体自身等位置信息,以及其空间关系信息,也可以执行具体动作,并评估环境对执行动作的反馈情况,比如用奖励值作为反馈结果。然后,通过任务分配模块进行子任务的划分;路径规划模块接收到多智能体状态信息和任务分配情况后,完成各智能体的路径规划任务;而后各智能体再执行规划得出的结果,进而与环境发生新一轮的交互。后续整个框架随着智能体与环境之间周而复始地交互进行了持续更新,最终各智能体获得较优的路径规划策略。
本方法将多智能体对多目标的任务规划问题分解成两大步骤。首先,进行目标任务分配确定每个智能体负责的目标任务,即采用双向竞标的任务分配策略,考查由智能体竞标目标任务以及由目标任务竞标智能体两种竞标模式,对比相应的竞标方案,完成任务分配;其次,是在分配结果上实现每个智能体的路径规划。参照图1~图2,该技术方案包括以下步骤:
S11:环境建模
给定待求解问题,以数字化地图构建所述多智能体任务规划的环境,描述环境中要素的坐标位置,所述要素至少包括智能体、目标点、障碍物,将智能体和目标点抽象为质点,环境中的障碍物抽象为几何区域;总目标任务数为Nn记为目标任务的索引,智能体数为M,并取MN。第m个智能体在第t时刻的状态量记为
Figure DEST_PATH_IMAGE085
,其任务规划结果是获得最优的动作
Figure DEST_PATH_IMAGE086
。多智能体的任务规划即是在当前环境下,结合所有智能体状态量构成的全局状态量
Figure DEST_PATH_IMAGE087
,进行动作决策得到最优动作集合
Figure DEST_PATH_IMAGE088
。设置任务分配的总收益P取最大为约束条件。
S12:智能体竞标目标任务
选择最大化的任务执行总收益
Figure DEST_PATH_IMAGE089
的方案XX定义为矩阵,完成智能体竞标目标任务的最优分配。v n 是目标任务的执行收益,k mn 为第m个智能体对目标任务n的匹配系数,给定竞标方案X,计算智能体竞标目标任务的总收益:
Figure DEST_PATH_IMAGE090
(4)
其中,v n 是目标任务T n 的执行收益,k mn 为第m个智能体对目标任务n的匹配系数,q mn 为智能体m对目标任务n成功完成的概率,其取值范围为
Figure DEST_PATH_IMAGE091
x mn 代表竞标方案矩阵X的元素,定义为:
Figure 961036DEST_PATH_IMAGE023
(5)
x mn =1时,表示智能体m执行目标任务nx mn =0时,表示智能体m不执行目标任务n
通过选择使
Figure DEST_PATH_IMAGE092
取最大对应的矩阵X,完成智能体竞标目标任务的正向竞标过程。
S13:目标任务竞标智能体
设置目标任务选择智能体的总收益
Figure DEST_PATH_IMAGE093
取最大化为约束条件。u m 是智能体m对目标任务的执行收益,g nm 为第n个目标任务对智能体m的匹配系数。同样,目标任务对智能体的竞标过程也是最大化总收益
Figure DEST_PATH_IMAGE094
的方案选择,给定竞标方案Y,计算目标任务选择智能体总收益为:
Figure DEST_PATH_IMAGE095
(6)
其中,u m 是智能体m对目标任务的执行收益,g nm 为第n个目标任务对智能体m的匹配系数,q nm 为目标任务n采用智能体m成功完成的概率,且q nm =q mn y nm 代表竞标方案矩阵Y的元素,定义为:
Figure DEST_PATH_IMAGE096
(7)
y mn =1时,表示目标任务n选择智能体m执行任务;y mn =0时,表示目标任务n不采用智能体m执行任务;
通过选择使
Figure DEST_PATH_IMAGE097
取最大对应的矩阵Y,完成目标任务选择智能体的反向竞标过程。
S14:将方案X和方案Y的转置矩阵进行逐元素比对,若对应位置的元素取值相同,则取该位置对应的智能体和目标任务作为分配结果;若对应位置的元素取值不一致,则对方案X的不一致元素记录相应的
Figure DEST_PATH_IMAGE098
值,对方案Y的不一致元素记录相应的
Figure DEST_PATH_IMAGE099
值;将所有记录的值按取值大小确定未分配智能体或目标任务的优先级,取值越大的对应的智能体与目标任务分配结果越优先被采纳,直至所有目标任务均分配了智能体。
在步骤S11-S14的多智能体与目标任务一对一的分配结果基础上,各智能体依据自身的状态量,并结合其他所有智能体的状态量,完成最优的路径规划。即在第t时刻,观测到智能体m的状态量
Figure DEST_PATH_IMAGE100
,然后基于
Figure DEST_PATH_IMAGE101
和智能体m的动作策略
Figure DEST_PATH_IMAGE102
获得可执行的最优动作
Figure DEST_PATH_IMAGE103
,接着通过执行最优动作
Figure DEST_PATH_IMAGE104
获得环境给予智能体m的奖励
Figure DEST_PATH_IMAGE105
,并观测到最优动作执行后的新状态量,也即t+1时刻智能体m的状态量
Figure DEST_PATH_IMAGE106
。对此智能体与环境的交互过程,使用状态量
Figure DEST_PATH_IMAGE107
及其最优动作
Figure DEST_PATH_IMAGE108
所获得的总奖励期望值来评判,评判策略记为
Figure DEST_PATH_IMAGE109
。通过递推以上
Figure DEST_PATH_IMAGE110
的过程,逐步获得动作策略
Figure DEST_PATH_IMAGE111
的优化,最终智能体m的路径规划即为由动作策略
Figure DEST_PATH_IMAGE112
、状态
Figure DEST_PATH_IMAGE113
来预测最优动作
Figure DEST_PATH_IMAGE114
的过程。
考虑多智能体具有共性且之间存在合作机制,对于智能体m,本发明采用参数为
Figure DEST_PATH_IMAGE115
的循环交互单元,该单元有两个输入端和一个输出端,依次为当前信息
Figure DEST_PATH_IMAGE116
、之前交互信息
Figure DEST_PATH_IMAGE117
和当前交互信息
Figure DEST_PATH_IMAGE118
,其中下标i表示循环计数索引。该单元的循环递推结构为:
Figure DEST_PATH_IMAGE119
(1)
Figure DEST_PATH_IMAGE120
(2)
Figure DEST_PATH_IMAGE121
(3)
式中
Figure DEST_PATH_IMAGE122
为矩阵的逐元素乘积,
Figure DEST_PATH_IMAGE123
是sigmoid函数,
Figure 760015DEST_PATH_IMAGE018
分别为权值方阵。取
Figure DEST_PATH_IMAGE124
,不失一般性,记智能体m的循环交互单元所有参数为
Figure DEST_PATH_IMAGE125
。对于智能体m,将与之交互的其他M-1个智能体的状态量循环经过此单元,得到状态量的紧凑表示
Figure DEST_PATH_IMAGE126
Figure DEST_PATH_IMAGE127
Figure DEST_PATH_IMAGE128
的拼接记为智能体m的紧凑全局状态量
Figure DEST_PATH_IMAGE129
多智能体路径规划的具体实施步骤为:
S21:路径规划的初始化设置。
t=0阶段,观测全局状态量
Figure DEST_PATH_IMAGE130
;设定t的上限值;遍历所有智能体,按下述方式完成全部智能体的初始化,即对于智能体m,采用随机初始化的方式,随机生成动作策略的参数
Figure DEST_PATH_IMAGE131
,并设置
Figure DEST_PATH_IMAGE132
的最优参数
Figure DEST_PATH_IMAGE133
,随机生成评判策略
Figure DEST_PATH_IMAGE134
的参数
Figure DEST_PATH_IMAGE135
,并设置
Figure DEST_PATH_IMAGE136
的最优参数
Figure DEST_PATH_IMAGE137
;随机初始化循环交互单元的所有参数
Figure DEST_PATH_IMAGE138
S22:设置从第m = 0个智能体开始,逐个智能体执行后续步骤S23-S29,完成路径规划与多智能体路径规划模块参数的更新。
不失一般性,下面给出智能m的路径规划及多智能体路径规划模块参数的更新步骤,其他智能体的步骤与之相同。
S23:计算多智能体交互信息,获得紧凑全局状态量
Figure DEST_PATH_IMAGE139
本发明的多智能体相互协同合作通过多智能体交互子模块完成,该模块包括相关性排序单元和循环交互单元。对于智能体m,子模块输入的是全局状态量
Figure DEST_PATH_IMAGE140
,输出是隐含了交互信息的紧凑全局状态量
Figure DEST_PATH_IMAGE141
智能体m的循环交互单元输入是除智能体m之外其他智能体的状态量,这些状态量由相关性排序单元依据其与智能体m相关性进行降序排序,记l为此排序的索引,
Figure DEST_PATH_IMAGE142
。而后,相关性最大的智能体状态量用于初始化循环交互单元的之前交互信息
Figure DEST_PATH_IMAGE143
。排序索号为
Figure DEST_PATH_IMAGE144
的智能体状态量按照相关性由大至小依次送入,共经历M-2次循环交互单元的迭代。智能体m与其他的任一智能体l的相关性通过其状态量间的距离来度量,相关性采用
Figure DEST_PATH_IMAGE145
范数计算:
Figure DEST_PATH_IMAGE146
(13)
式中j表示状态量
Figure DEST_PATH_IMAGE147
Figure DEST_PATH_IMAGE148
的维度索引,p一般取1或2。循环交互单元的每次迭代关系依照式(1)-(3)递推。循环交互单元完成M-2次递推后输出是智能体的状态量依照相关性进行的紧凑表示
Figure DEST_PATH_IMAGE149
。循环交互单元中调整阀
Figure DEST_PATH_IMAGE150
控制是否忽略先前相关性弱的智能体,而关注于当前输入智能体的状态量,以便模块丢弃不相关信息,获得更紧凑的表达。调整阀
Figure DEST_PATH_IMAGE151
则控制当前的紧凑表示携带了多少相关性相对较弱的智能体状态量,以帮助模块建立多智能体的长程依存关系。在执行任务规划过程中,每完成一次任务规划,该智能体将其优化公式(11)迭代更新后的循环交互单元参数传递给其他智能体的循环交互单元,以保证各智能体以参数共享的方式快速优化参数,提升多智能体交互的性能。循环交互单元通过智能体之间的参数传递进行共享,即将当前的智能体m的循环交互单元参数传递给下一个智能体m+1:
Figure DEST_PATH_IMAGE152
(8)
式中,
Figure DEST_PATH_IMAGE153
一般取值为0.05~0.5,减小其取值可以抑制数据噪声,但也抑制了智能体之间的信息交互。
本步骤操作方式为:首先观测智能体的全局状态量
Figure DEST_PATH_IMAGE154
,再通过公式(13)进行相关性计算和降序排序;然后依据相关性由大到小依次使用循环交互单元,通过评估公式(1)-公式(3)计算得到状态量的紧凑表示
Figure DEST_PATH_IMAGE155
,进而获得紧凑全局状态量
Figure DEST_PATH_IMAGE156
S24:生成智能体的最优动作
Figure DEST_PATH_IMAGE157
基于动作策略生成最优动作为:
Figure DEST_PATH_IMAGE158
(9)
其中
Figure 475598DEST_PATH_IMAGE045
为随机噪声,其统计分布一般取标准正态分布,
Figure DEST_PATH_IMAGE159
表示参数为
Figure DEST_PATH_IMAGE160
时的动作策略。
S25:评估智能体的路径规划结果。
依据最优动作
Figure 962074DEST_PATH_IMAGE103
,智能体在环境中完成一次任务规划,评估此时智能体和目标任务所产生的奖励
Figure DEST_PATH_IMAGE161
,以及其达到的新状态
Figure DEST_PATH_IMAGE162
S26:获取多智能体路径规划模块参数优化的数据包。
存储t时刻的
Figure DEST_PATH_IMAGE163
到由紧凑全局状态量、最优动作和奖励构成的任务规划历史数据库。为了使步骤S27-S29的参数更新计算更加可靠,采用放回简单随机取样方式,从历史数据库中抽取一批数据,构成多智能体路径规划模块参数优化数据包,数据包包含K组样本,k为样本索引,
Figure DEST_PATH_IMAGE164
,第k组样本
Figure DEST_PATH_IMAGE165
包括某一时刻的紧凑全局状态量、最优动作、奖励及其下一时刻的紧凑全局状态量。
S27:根据K组样本逐一计算智能体m的总奖励期望的目标值:
Figure 4110DEST_PATH_IMAGE054
(10)
其中,
Figure DEST_PATH_IMAGE166
表示以最优动作策略参数计算的最优动作,
Figure DEST_PATH_IMAGE167
表示当前奖励的期望以最优的评价策略参数
Figure DEST_PATH_IMAGE168
计算,
Figure DEST_PATH_IMAGE169
为相邻两次多智能体路径规划奖励的权重系数,
Figure 87122DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE170
为相邻两次多智能体路径规划奖励的权重系数,
Figure DEST_PATH_IMAGE171
一般取值接近于1,以确保之前的奖励折扣后比重不至于太小而影响步骤2.8-2.9迭代结果的稳定性。
S28:智能体m、动作策略
Figure DEST_PATH_IMAGE172
、评判策略
Figure DEST_PATH_IMAGE173
和循环交互单元参数通过最小化损失函数值L来优化:
Figure DEST_PATH_IMAGE174
(11)
其中,
Figure DEST_PATH_IMAGE175
则评判策略
Figure DEST_PATH_IMAGE176
参数
Figure DEST_PATH_IMAGE177
更新为
Figure DEST_PATH_IMAGE178
,动作策略
Figure DEST_PATH_IMAGE179
的参数
Figure DEST_PATH_IMAGE180
更新为
Figure DEST_PATH_IMAGE181
Figure DEST_PATH_IMAGE182
更新为
Figure DEST_PATH_IMAGE183
,更新步长
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE185
一般取值0.001~0.2,以保迭代下参数的稳定性,并较好抑制随机采样可能引入的样本噪声。
S29:将智能体m的动作策略
Figure DEST_PATH_IMAGE186
与评判策略
Figure DEST_PATH_IMAGE187
的最优参数分别更新为:
Figure DEST_PATH_IMAGE188
(12)
式中,
Figure DEST_PATH_IMAGE189
,最优取值为0.05~0.2,以保证较好抑制随机采样可能引入的样本噪声。
同时,循环交互单元通过式(8)与其他智能体循环交互单元实现参数共享。所有智能体完成上述一次规划后,后续通过不断重复步骤S22~S29,实现规划方案的逐步优化。多智能体路径规划问题的最优解,即是以最优
Figure DEST_PATH_IMAGE190
为参数的动作策略
Figure DEST_PATH_IMAGE191
的最优动作选择。
以上关于本发明的具体描述,仅用于说明本发明而非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。

Claims (2)

1.一种面向多智能体任务规划的复杂优化方法,其特征在于,所述多智能体任务规划基于马尔可夫决策和博弈论理论实现,包括多目标任务分配和多智能体路径规划;
所述多目标任务分配采用双向竞标,即由智能体竞标目标任务和由目标任务竞标智能体的循环竞标策略;
记所有智能体的状态量为全局状态量
Figure DEST_PATH_IMAGE001
,所述多智能体路径规划是采用多智能体交互模块对所述全局状态量进行降维,降维后的状态量经动作决策,得到最优动作集合
Figure DEST_PATH_IMAGE002
,即最优路径规划结果;其中,
Figure DEST_PATH_IMAGE003
为第m个智能体在t时刻的状态量,
Figure DEST_PATH_IMAGE004
,其任务规划结果是获得最优动作
Figure DEST_PATH_IMAGE005
所述多智能体交互模块包括依次连接的相关性排序单元和循环交互单元;所述相关性排序单元用于进行相关性排序,所述循环交互单元采用循环递推结构对所述相关性排序单元输出的状态量进行降维,所述循环交互单元的输出记为
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
的拼接记为紧凑全局状态量
Figure DEST_PATH_IMAGE009
任意给定输入
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
,输出
Figure DEST_PATH_IMAGE012
,所述智能体m循环交互单元的循环递推结构的表达式为:
Figure DEST_PATH_IMAGE013
(1)
Figure DEST_PATH_IMAGE014
(2)
Figure DEST_PATH_IMAGE015
(3)
其中,
Figure DEST_PATH_IMAGE016
为逐元素的乘积,
Figure DEST_PATH_IMAGE017
是sigmoid函数,
Figure DEST_PATH_IMAGE018
分别为权值方阵,记
Figure DEST_PATH_IMAGE019
为循环交互单元参数,i为所述循环交互单元的循环次数索引;
所述多目标任务分配具体步骤包括:
S11:环境建模
以数字化地图构建所述多智能体任务规划的环境,描述环境中要素的坐标位置,所述要素至少包括智能体、目标点、障碍物,将智能体和目标点抽象为质点,环境中的障碍物抽象为几何区域;设智能体个数为M,目标任务个数为N,且MNn记为目标任务的索引,所述多目标任务分配的总价值P最大化为约束条件;
S12:智能体竞标目标任务
选择总价值
Figure DEST_PATH_IMAGE020
最大的方案X为智能体竞标目标任务的最优任务分配方案,X为矩阵,记为正向分配方案;
Figure DEST_PATH_IMAGE021
(4)
其中,v n 是目标任务n的执行收益,k mn 为第m个智能体对目标任务n的匹配系数,q mn 为智能体m对目标任务n成功完成的概率,其取值范围为[0,1],x mn 代表竞标方案矩阵X的元素,定义为:
Figure DEST_PATH_IMAGE022
(5)
x mn =1时,表示智能体m执行目标任务nx mn =0时,表示智能体m不执行目标任务n
S13:目标任务竞标智能体
选择总价值
Figure DEST_PATH_IMAGE023
最大化的方案Y为目标任务竞标智能体的最优任务分配方案,记为反向分配方案;
Figure DEST_PATH_IMAGE024
(6)
其中,u m 是智能体m对目标任务的执行收益,g nm 为第n个目标任务对智能体m的匹配系数,q nm 为目标任务n采用智能体m成功完成的概率,且q nm =q mn y nm 代表竞标方案矩阵Y的元素,定义为:
Figure DEST_PATH_IMAGE025
(7)
y mn =1时,表示目标任务n选择智能体m执行任务;y mn =0时,表示目标任务n不采用智能体m执行任务;
S14:将方案X和方案Y的转置矩阵进行逐元素比对,若对应位置的元素取值相同,则取该位置对应的智能体和目标任务作为分配结果;若对应位置的元素取值不一致,则对方案X的不一致元素记录相应的
Figure DEST_PATH_IMAGE026
值,对方案Y的不一致元素记录相应的
Figure DEST_PATH_IMAGE027
值;将所有记录的值按取值大小确定未分配智能体或目标任务的优先级,取值越大的对应的智能体与目标任务分配结果越优先被采纳,直至所有目标任务均分配了智能体;
所述多智能体路径规划具体步骤包括:
S21:初始化设置
t=0阶段,观测全局状态量
Figure DEST_PATH_IMAGE028
;设定t的上限值;遍历所有智能体,完成所有智能体的初始化,具体方法是:
对于智能体m,采用随机初始化的方式,随机生成动作策略
Figure DEST_PATH_IMAGE029
的参数
Figure DEST_PATH_IMAGE030
,并设置
Figure DEST_PATH_IMAGE031
的最优参数
Figure DEST_PATH_IMAGE032
,随机生成评判策略
Figure DEST_PATH_IMAGE033
的参数
Figure DEST_PATH_IMAGE034
,并设置
Figure DEST_PATH_IMAGE035
的最优参数
Figure DEST_PATH_IMAGE036
;随机初始化循环交互单元的所有参数
Figure DEST_PATH_IMAGE037
S22:设置从第m=0个智能体开始,逐个智能体执行步骤S23-S29;
S23:计算多智能体交互信息
将多智能体的全局状态量
Figure DEST_PATH_IMAGE038
输入相关性排序单元进行相关性排序,相关性排序单元的输出是除智能体m的状态量之外的,且经排序后的其他智能体的状态量,将相关性排序单元的输出按照大至小的顺序依次输入循环交互单元按照公式(1)-(3)进行迭代,得到循环交互单元输出
Figure DEST_PATH_IMAGE039
智能体m每完成一次任务规划,将其循环交互单元参数
Figure DEST_PATH_IMAGE040
共享给下一个智能体m+1的循环交互单元,循环交互单元参数通过共享更新,即
Figure DEST_PATH_IMAGE041
(8)
式中,
Figure DEST_PATH_IMAGE042
的取值范围为[0.05,0.5];
S24:生成最优动作
Figure DEST_PATH_IMAGE043
基于动作策略生成最优动作为:
Figure DEST_PATH_IMAGE044
(9)
其中,
Figure DEST_PATH_IMAGE045
为随机噪声,
Figure DEST_PATH_IMAGE046
表示参数为
Figure DEST_PATH_IMAGE047
时的动作策略;
S25:评估路径规划结果
依据最优动作
Figure DEST_PATH_IMAGE048
,智能体m完成一次任务规划,评估此时智能体和目标任务所产生的奖励
Figure DEST_PATH_IMAGE049
,以及其下一时刻达到的状态
Figure DEST_PATH_IMAGE050
S26:获取多智能体路径规划参数优化的数据包
存储t时刻的
Figure DEST_PATH_IMAGE051
到由紧凑全局状态量、最优动作和奖励构成的任务规划历史数据库,采用随机取样方式,从历史数据库中抽取一批数据,构成多智能体路径规划参数优化数据包,数据包包含K组样本,k为样本索引,
Figure DEST_PATH_IMAGE052
,第k组样本
Figure DEST_PATH_IMAGE053
包括某一时刻的紧凑全局状态量、最优动作、奖励及其下一时刻的紧凑全局状态量;
S27:根据K个样本逐一计算智能体m的总奖励期望的目标值
Figure DEST_PATH_IMAGE054
(10)
其中,
Figure DEST_PATH_IMAGE055
表示以当前最优动作策略参数
Figure DEST_PATH_IMAGE056
计算的最优动作,
Figure DEST_PATH_IMAGE057
表示当前奖励的期望以最优的评价策略参数
Figure DEST_PATH_IMAGE058
计算,
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
为相邻两次多智能体路径规划奖励的权重系数;
S28:智能体m,动作策略
Figure DEST_PATH_IMAGE061
、评判策略
Figure DEST_PATH_IMAGE062
和循环交互单元参数通过最小化损失函数值L来优化
Figure DEST_PATH_IMAGE063
(11)
其中,
Figure DEST_PATH_IMAGE064
则评判策略
Figure DEST_PATH_IMAGE065
参数
Figure DEST_PATH_IMAGE066
更新为
Figure DEST_PATH_IMAGE067
,动作策略
Figure DEST_PATH_IMAGE068
的参数
Figure DEST_PATH_IMAGE069
更新为
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE071
更新为
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
S29:更新智能体m的动作策略
Figure DEST_PATH_IMAGE074
和评判策略
Figure DEST_PATH_IMAGE075
的最优模型参数
Figure DEST_PATH_IMAGE076
(12)
其中,
Figure DEST_PATH_IMAGE077
为更新权重,
Figure DEST_PATH_IMAGE078
所有智能体完成步骤S23-S29后,在t的上限值范围内,通过不断重复S22-S29,实现动作策略的最优模型参数的逐步优化,并以最终的
Figure DEST_PATH_IMAGE079
为动作策略
Figure DEST_PATH_IMAGE080
的最优动作,即最优路径规划结果。
2.根据权利要求1所述的方法,其特征在于,所述相关性排序具体方法是:
智能体m与其他的任一智能体l的相关性通过其状态量间的距离来度量,采用
Figure DEST_PATH_IMAGE081
范数计算:
Figure DEST_PATH_IMAGE082
(13)
其中,j表示状态量
Figure DEST_PATH_IMAGE083
Figure DEST_PATH_IMAGE084
的维度索引,p一般取1或2。
CN202210401273.1A 2022-04-18 2022-04-18 一种面向多智能体任务规划的复杂优化方法 Active CN114819316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210401273.1A CN114819316B (zh) 2022-04-18 2022-04-18 一种面向多智能体任务规划的复杂优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210401273.1A CN114819316B (zh) 2022-04-18 2022-04-18 一种面向多智能体任务规划的复杂优化方法

Publications (2)

Publication Number Publication Date
CN114819316A true CN114819316A (zh) 2022-07-29
CN114819316B CN114819316B (zh) 2024-09-17

Family

ID=82535860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210401273.1A Active CN114819316B (zh) 2022-04-18 2022-04-18 一种面向多智能体任务规划的复杂优化方法

Country Status (1)

Country Link
CN (1) CN114819316B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438860A (zh) * 2022-09-06 2022-12-06 西安电子科技大学广州研究院 一种基于进化算法的多智能体路径规划方法
CN116305268A (zh) * 2023-03-14 2023-06-23 中国医学科学院北京协和医院 一种基于有限状态机和多目标学习的数据发布方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011281A1 (en) * 2005-06-09 2007-01-11 International Business Machines Corporation Methods, apparatus and computer programs for automated problem solving in a distributed, collaborative environment
CN112733421A (zh) * 2020-12-01 2021-04-30 南京航空航天大学 一种针对有人无人机协同对地作战的任务规划方法
CN113128705A (zh) * 2021-03-24 2021-07-16 北京科技大学顺德研究生院 一种智能体最优策略获取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011281A1 (en) * 2005-06-09 2007-01-11 International Business Machines Corporation Methods, apparatus and computer programs for automated problem solving in a distributed, collaborative environment
CN112733421A (zh) * 2020-12-01 2021-04-30 南京航空航天大学 一种针对有人无人机协同对地作战的任务规划方法
CN113128705A (zh) * 2021-03-24 2021-07-16 北京科技大学顺德研究生院 一种智能体最优策略获取方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438860A (zh) * 2022-09-06 2022-12-06 西安电子科技大学广州研究院 一种基于进化算法的多智能体路径规划方法
CN116305268A (zh) * 2023-03-14 2023-06-23 中国医学科学院北京协和医院 一种基于有限状态机和多目标学习的数据发布方法及系统
CN116305268B (zh) * 2023-03-14 2024-01-05 中国医学科学院北京协和医院 一种基于有限状态机和多目标学习的数据发布方法及系统

Also Published As

Publication number Publication date
CN114819316B (zh) 2024-09-17

Similar Documents

Publication Publication Date Title
Liang et al. Logistics-involved QoS-aware service composition in cloud manufacturing with deep reinforcement learning
CN109492814B (zh) 一种城市交通流量预测方法、系统及电子设备
Son et al. Hybrid coevolutionary programming for Nash equilibrium search in games with local optima
Boussabaine The use of artificial neural networks in construction management: a review
CN114819316A (zh) 一种面向多智能体任务规划的复杂优化方法
Parsa et al. Pabo: Pseudo agent-based multi-objective bayesian hyperparameter optimization for efficient neural accelerator design
CN112884236B (zh) 一种基于vdm分解与lstm改进的短期负荷预测方法及系统
CN112734014A (zh) 基于置信上界思想的经验回放采样强化学习方法及系统
CN113537580B (zh) 一种基于自适应图学习的公共交通客流预测方法及系统
CN114912357A (zh) 基于用户模型学习的多任务强化学习用户运营方法及系统
CN114995989A (zh) 基于自组织神经网络的多水下机器人任务分配方法及系统
Dhebar et al. Interpretable-AI policies using evolutionary nonlinear decision trees for discrete action systems
CN114004065A (zh) 基于智能算法和环境约束下的变电站工程多目标优化方法
Tian et al. A dynamic job-shop scheduling model based on deep learning.
CN115963407A (zh) 一种基于icgwo优化elm的锂电池soc估计方法
Whitman et al. Modular mobile robot design selection with deep reinforcement learning
Ming et al. Cooperative modular reinforcement learning for large discrete action space problem
CN108108554B (zh) 一种多材料车身装配顺序规划优化方法
Martinez-Soto et al. Fuzzy logic controllers optimization using genetic algorithms and particle swarm optimization
González-Rodríguez et al. A genetic solution based on lexicographical goal programming for a multiobjective job shop with uncertainty
US20030046278A1 (en) Method of robust technology design using rational robust optimization
CN116911459A (zh) 适应于虚拟电厂的多输入多输出超短期电力负荷预测方法
CN110689320A (zh) 一种基于协同进化算法的大规模多目标项目调度方法
EP4057186A1 (en) Method for providing an agent for creating a graph neural network architecture and method for creating, by an agent, a graph neural network architecture
Dai et al. Multi-objectives design optimization based on multi-objectives Gaussian processes for System-in-Package

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant