CN114819316A - 一种面向多智能体任务规划的复杂优化方法 - Google Patents
一种面向多智能体任务规划的复杂优化方法 Download PDFInfo
- Publication number
- CN114819316A CN114819316A CN202210401273.1A CN202210401273A CN114819316A CN 114819316 A CN114819316 A CN 114819316A CN 202210401273 A CN202210401273 A CN 202210401273A CN 114819316 A CN114819316 A CN 114819316A
- Authority
- CN
- China
- Prior art keywords
- agent
- task
- target task
- agents
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013439 planning Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005457 optimization Methods 0.000 title claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 52
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004387 environmental modeling Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 101100001678 Emericella variicolor andM gene Proteins 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000001351 cycling effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 230000004888 barrier function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于智能体任务规划优化技术领域,特别涉及一种面向多智能体任务规划的复杂优化方法。该方法基于马尔可夫决策和博弈论理论实现,包括多目标任务分配和多智能体路径规划;多目标任务分配采用双向竞标,即由智能体竞标目标任务和由目标任务竞标智能体的循环竞标策略;多智能体交互模块包括依次连接的相关性排序单元和循环交互单元;相关性排序单元用于进行相关性排序,循环交互单元采用循环递推结构对所述相关性排序单元输出的状态量进行降维,获得数据维度与智能体数量无关的交互信息。本发明能够在多对多任务规划的高维空间获得更优的局部最优解。
Description
技术领域
本发明属于智能体任务规划优化技术领域,特别涉及一种面向多智能体任务规划的复杂优化方法。
背景技术
任务规划是智能体完成复杂工作的必要和关键环节。智能体的任务规划主要包括任务分配、路径规划、链路使用规划、传感器使用规划,以及任务规划的检验和评估等。
多智能体路径规划是多智能体的任务规划典型应用之一,也即无冲突地寻找多个智能体从起始位置到目标位置最优路径集合的一类问题。传统的路径规划算法例如人工势场法、D*法等,虽然一定程度上构建了机器人、智能体、无人车和无人船等路径规划解决方案,但这些传统算法多集中于在结构化或近似结构化的约束场景中解决单一目标或静态目标的简单任务规划,而真实场景中通常问题更为复杂,非结构化现场环境充满着各种不确定性,甚至需要多智能体协作才能完成预定任务,直接应用现有任务规划技术时极易发生解空间探索效率低下,对危险情况估计不足,甚至目标局部成功而整体规划失败等问题。
多智能体路径规划研究的重点集中在问题的求解方式、求解效率和求解质量上。任务规划问题的求解通常是依托优化问题来求解。最优的多智能体路径规划技术主流方法包括A*类搜索、代价增长树搜索和基于冲突的搜索三大类,这些方法借助精心设计优化算法,可以获得全局最优的多智能体路径规划,但通常以空间代价与时间代价高、求解速度慢,高层次搜索冗余度高、实现难度高为代价。
近年来,随着计算技术迅猛发展,多智能体路径规划逐步应用到高度复杂真实场景,原有许多优化问题相应呈现出非线性、不可微、规模大,NP难的特点,进而导致使用上述传统最优规划方法,在面对越来越复杂的问题时显现出其局限性和不足。特别是多智能体解空间随着状态量维度的增长而指数增长,最优的多智能体路径规划只在较少应用中具有实用价值。因此,适当牺牲多智能体路径规划算法的最优性能,换取大幅提高算法的执行效率成为解决工程实际问题可行替代方案。基于此思路代表技术由基于搜索和基于规则的近似的多智能体路径规划算法。这些方法都较易于实现,但难以兼顾求解速度快与结果质量,进而限制其在实际工程中的推广应用。
为了解决上述问题,如何在保持信息表示有效性的前提下,降低待优化问题的样本维度,是应对现实场景的多对多复杂任务规划问题的关键所在。
发明内容
为了解决现有技术中多对多复杂规划问题的样本空间维度高、优化求解速度慢等问题,本发明将多智能体任务规划分为目标任务分配和多智能体路径规划,采用智能体与目标任务双向竞标实现目标任务分配,采用多智能体循环交互单元构建智能体历史经验的共享与信息交互,在兼顾求解速度与结果质量的前提下,完成多智能体任务规划。
为了实现上述目的,本发明的技术方案为:
一种面向多智能体任务规划的复杂优化方法,所述多智能体任务规划基于马尔可夫决策和博弈论理论实现,包括多目标任务分配和多智能体路径规划;
所述多目标任务分配采用双向竞标,即由智能体竞标目标任务和由目标任务竞标智能体的循环竞标策略;
记所有智能体的状态量为全局状态量,所述多智能体路径规划是采用多智能体交互模块对所述全局状态量进行降维,降维后的状态量经动作决策,得到最优动作集合,即最优路径规划结果;其中,为第m个智能体在t时刻的状态量,,其任务规划结果是获得最优动作;
所述多智能体交互模块包括依次连接的相关性排序单元和循环交互单元;所述相关性排序单元用于进行相关性排序,所述循环交互单元采用循环递推结构对所述相关性排序单元输出的状态量进行降维,所述循环交互单元的输出记为,与的拼接记为紧凑全局状态量;
所述多目标任务分配具体步骤包括:
S11:环境建模
以数字化地图构建所述多智能体任务规划的环境,描述环境中要素的坐标位置,所述要素至少包括智能体、目标点、障碍物,将智能体和目标点抽象为质点,环境中的障碍物抽象为几何区域;设智能体个数为M,目标任务个数为N,且M≥N;n记为目标任务的索引,所述多目标任务分配的总价值P最大化为约束条件;
S12:智能体竞标目标任务
x mn =1时,表示智能体m执行目标任务n;x mn =0时,表示智能体m不执行目标任务n;
S13:目标任务竞标智能体
其中,u m 是智能体m对目标任务的执行收益,g nm 为第n个目标任务对智能体m的匹配系数,q nm 为目标任务n采用智能体m成功完成的概率,且q nm =q mn ,y nm 代表竞标方案矩阵Y的元素,定义为:
y mn =1时,表示目标任务n选择智能体m执行任务;y mn =0时,表示目标任务n不采用智能体m执行任务;
S14:将方案X和方案Y的转置矩阵进行逐元素比对,若对应位置的元素取值相同,则取该位置对应的智能体和目标任务作为分配结果;若对应位置的元素取值不一致,则对方案X的不一致元素记录相应的值,对方案Y的不一致元素记录相应的值;将所有记录的值按取值大小确定未分配智能体或目标任务的优先级,取值越大的对应的智能体与目标任务分配结果越优先被采纳,直至所有目标任务均分配了智能体。
所述多智能体路径规划具体步骤包括:
S21:初始化设置
S22:设置从第m=0个智能体开始,逐个智能体执行步骤S23-S29;
S23:计算多智能体交互信息
将多智能体的全局状态量输入相关性排序单元进行相关性排序,相关性排序单元的输出是除智能体m的状态量之外的,且经排序后的其他智能体的状态量,将相关性排序单元的输出按照大至小的顺序依次输入循环交互单元按照公式(1)-(3)进行迭代,得到循环交互单元输出;
基于动作策略生成最优动作为:
S25:评估路径规划结果
S26:获取多智能体路径规划参数优化的数据包
存储t时刻的到由紧凑全局状态量、最优动作和奖励构成的任务规划历史数据库,采用随机取样方式,从历史数据库中抽取一批数据,构成多智能体路径规划参数优化数据包,数据包包含K组样本,k为样本索引,,第k组样本包括某一时刻的紧凑全局状态量、最优动作、奖励及其下一时刻的紧凑全局状态量;
S27:根据K个样本逐一计算智能体m的总奖励期望的目标值
优选地,所述相关性排序具体方法是:
本发明的有益效果:
本方法将多智能体的任务规划问题分解成目标任务分配和多智能体路径规划两个环节,采用由智能体竞标目标任务以及由目标任务竞标智能体的双向竞标方案,通过比对双向竞标方案,达到目标任务分配的整体最优配置;通过采用多智能体交互模块,构建了一种面向智能体信息交互的多智能体状态紧凑表示方法,获得数据维度与智能体数量无关的交互信息,进而降低多对多场景下的任务规划计算复杂度,同时,通过将各智能体的循环交互单元参数互相传递,实现多智能体历史经验的平等共享,使得每个智能体在有限观察数据下,借助其他智能体经验共享获得性能提升。总体来说,本发明更有利于在多对多任务规划的高维空间更易获得更优的局部最优解。
附图说明
图1为多智能体路径规划框架;
图2为本方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步具体的说明。
下面结合附图对本发明作进一步说明。
本发明的任务规划整体框架主要由三大模块组成:多智能体模块、目标任务分配模块和多智能体路径规划模块。多智能体模块可以从当前环境中观测到状态量,如环境中的目标点、障碍区和智能体自身等位置信息,以及其空间关系信息,也可以执行具体动作,并评估环境对执行动作的反馈情况,比如用奖励值作为反馈结果。然后,通过任务分配模块进行子任务的划分;路径规划模块接收到多智能体状态信息和任务分配情况后,完成各智能体的路径规划任务;而后各智能体再执行规划得出的结果,进而与环境发生新一轮的交互。后续整个框架随着智能体与环境之间周而复始地交互进行了持续更新,最终各智能体获得较优的路径规划策略。
本方法将多智能体对多目标的任务规划问题分解成两大步骤。首先,进行目标任务分配确定每个智能体负责的目标任务,即采用双向竞标的任务分配策略,考查由智能体竞标目标任务以及由目标任务竞标智能体两种竞标模式,对比相应的竞标方案,完成任务分配;其次,是在分配结果上实现每个智能体的路径规划。参照图1~图2,该技术方案包括以下步骤:
S11:环境建模
给定待求解问题,以数字化地图构建所述多智能体任务规划的环境,描述环境中要素的坐标位置,所述要素至少包括智能体、目标点、障碍物,将智能体和目标点抽象为质点,环境中的障碍物抽象为几何区域;总目标任务数为N,n记为目标任务的索引,智能体数为M,并取M≥N。第m个智能体在第t时刻的状态量记为,其任务规划结果是获得最优的动作。多智能体的任务规划即是在当前环境下,结合所有智能体状态量构成的全局状态量,进行动作决策得到最优动作集合。设置任务分配的总收益P取最大为约束条件。
S12:智能体竞标目标任务
选择最大化的任务执行总收益的方案X,X定义为矩阵,完成智能体竞标目标任务的最优分配。v n 是目标任务的执行收益,k mn 为第m个智能体对目标任务n的匹配系数,给定竞标方案X,计算智能体竞标目标任务的总收益:
x mn =1时,表示智能体m执行目标任务n;x mn =0时,表示智能体m不执行目标任务n;
S13:目标任务竞标智能体
设置目标任务选择智能体的总收益取最大化为约束条件。u m 是智能体m对目标任务的执行收益,g nm 为第n个目标任务对智能体m的匹配系数。同样,目标任务对智能体的竞标过程也是最大化总收益的方案选择,给定竞标方案Y,计算目标任务选择智能体总收益为:
其中,u m 是智能体m对目标任务的执行收益,g nm 为第n个目标任务对智能体m的匹配系数,q nm 为目标任务n采用智能体m成功完成的概率,且q nm =q mn ,y nm 代表竞标方案矩阵Y的元素,定义为:
y mn =1时,表示目标任务n选择智能体m执行任务;y mn =0时,表示目标任务n不采用智能体m执行任务;
S14:将方案X和方案Y的转置矩阵进行逐元素比对,若对应位置的元素取值相同,则取该位置对应的智能体和目标任务作为分配结果;若对应位置的元素取值不一致,则对方案X的不一致元素记录相应的值,对方案Y的不一致元素记录相应的值;将所有记录的值按取值大小确定未分配智能体或目标任务的优先级,取值越大的对应的智能体与目标任务分配结果越优先被采纳,直至所有目标任务均分配了智能体。
在步骤S11-S14的多智能体与目标任务一对一的分配结果基础上,各智能体依据自身的状态量,并结合其他所有智能体的状态量,完成最优的路径规划。即在第t时刻,观测到智能体m的状态量,然后基于和智能体m的动作策略获得可执行的最优动作,接着通过执行最优动作获得环境给予智能体m的奖励,并观测到最优动作执行后的新状态量,也即t+1时刻智能体m的状态量。对此智能体与环境的交互过程,使用状态量及其最优动作所获得的总奖励期望值来评判,评判策略记为。通过递推以上的过程,逐步获得动作策略的优化,最终智能体m的路径规划即为由动作策略、状态来预测最优动作的过程。
考虑多智能体具有共性且之间存在合作机制,对于智能体m,本发明采用参数为的循环交互单元,该单元有两个输入端和一个输出端,依次为当前信息、之前交互信息和当前交互信息,其中下标i表示循环计数索引。该单元的循环递推结构为:
式中为矩阵的逐元素乘积,是sigmoid函数,分别为权值方阵。取,不失一般性,记智能体m的循环交互单元所有参数为。对于智能体m,将与之交互的其他M-1个智能体的状态量循环经过此单元,得到状态量的紧凑表示,与的拼接记为智能体m的紧凑全局状态量。
多智能体路径规划的具体实施步骤为:
S21:路径规划的初始化设置。
在t=0阶段,观测全局状态量;设定t的上限值;遍历所有智能体,按下述方式完成全部智能体的初始化,即对于智能体m,采用随机初始化的方式,随机生成动作策略的参数,并设置的最优参数,随机生成评判策略的参数,并设置的最优参数;随机初始化循环交互单元的所有参数。
S22:设置从第m = 0个智能体开始,逐个智能体执行后续步骤S23-S29,完成路径规划与多智能体路径规划模块参数的更新。
不失一般性,下面给出智能m的路径规划及多智能体路径规划模块参数的更新步骤,其他智能体的步骤与之相同。
智能体m的循环交互单元输入是除智能体m之外其他智能体的状态量,这些状态量由相关性排序单元依据其与智能体m相关性进行降序排序,记l为此排序的索引,。而后,相关性最大的智能体状态量用于初始化循环交互单元的之前交互信息。排序索号为的智能体状态量按照相关性由大至小依次送入,共经历M-2次循环交互单元的迭代。智能体m与其他的任一智能体l的相关性通过其状态量间的距离来度量,相关性采用范数计算:
式中j表示状态量,的维度索引,p一般取1或2。循环交互单元的每次迭代关系依照式(1)-(3)递推。循环交互单元完成M-2次递推后输出是智能体的状态量依照相关性进行的紧凑表示。循环交互单元中调整阀控制是否忽略先前相关性弱的智能体,而关注于当前输入智能体的状态量,以便模块丢弃不相关信息,获得更紧凑的表达。调整阀则控制当前的紧凑表示携带了多少相关性相对较弱的智能体状态量,以帮助模块建立多智能体的长程依存关系。在执行任务规划过程中,每完成一次任务规划,该智能体将其优化公式(11)迭代更新后的循环交互单元参数传递给其他智能体的循环交互单元,以保证各智能体以参数共享的方式快速优化参数,提升多智能体交互的性能。循环交互单元通过智能体之间的参数传递进行共享,即将当前的智能体m的循环交互单元参数传递给下一个智能体m+1:
本步骤操作方式为:首先观测智能体的全局状态量,再通过公式(13)进行相关性计算和降序排序;然后依据相关性由大到小依次使用循环交互单元,通过评估公式(1)-公式(3)计算得到状态量的紧凑表示,进而获得紧凑全局状态量。
基于动作策略生成最优动作为:
S25:评估智能体的路径规划结果。
S26:获取多智能体路径规划模块参数优化的数据包。
存储t时刻的到由紧凑全局状态量、最优动作和奖励构成的任务规划历史数据库。为了使步骤S27-S29的参数更新计算更加可靠,采用放回简单随机取样方式,从历史数据库中抽取一批数据,构成多智能体路径规划模块参数优化数据包,数据包包含K组样本,k为样本索引,,第k组样本包括某一时刻的紧凑全局状态量、最优动作、奖励及其下一时刻的紧凑全局状态量。
S27:根据K组样本逐一计算智能体m的总奖励期望的目标值:
其中,表示以最优动作策略参数计算的最优动作,表示当前奖励的期望以最优的评价策略参数计算,为相邻两次多智能体路径规划奖励的权重系数,,为相邻两次多智能体路径规划奖励的权重系数,一般取值接近于1,以确保之前的奖励折扣后比重不至于太小而影响步骤2.8-2.9迭代结果的稳定性。
同时,循环交互单元通过式(8)与其他智能体循环交互单元实现参数共享。所有智能体完成上述一次规划后,后续通过不断重复步骤S22~S29,实现规划方案的逐步优化。多智能体路径规划问题的最优解,即是以最优为参数的动作策略的最优动作选择。
以上关于本发明的具体描述,仅用于说明本发明而非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。
Claims (2)
1.一种面向多智能体任务规划的复杂优化方法,其特征在于,所述多智能体任务规划基于马尔可夫决策和博弈论理论实现,包括多目标任务分配和多智能体路径规划;
所述多目标任务分配采用双向竞标,即由智能体竞标目标任务和由目标任务竞标智能体的循环竞标策略;
记所有智能体的状态量为全局状态量,所述多智能体路径规划是采用多智能体交互模块对所述全局状态量进行降维,降维后的状态量经动作决策,得到最优动作集合,即最优路径规划结果;其中,为第m个智能体在t时刻的状态量,,其任务规划结果是获得最优动作;
所述多智能体交互模块包括依次连接的相关性排序单元和循环交互单元;所述相关性排序单元用于进行相关性排序,所述循环交互单元采用循环递推结构对所述相关性排序单元输出的状态量进行降维,所述循环交互单元的输出记为,与的拼接记为紧凑全局状态量;
所述多目标任务分配具体步骤包括:
S11:环境建模
以数字化地图构建所述多智能体任务规划的环境,描述环境中要素的坐标位置,所述要素至少包括智能体、目标点、障碍物,将智能体和目标点抽象为质点,环境中的障碍物抽象为几何区域;设智能体个数为M,目标任务个数为N,且M≥N;n记为目标任务的索引,所述多目标任务分配的总价值P最大化为约束条件;
S12:智能体竞标目标任务
其中,v n 是目标任务n的执行收益,k mn 为第m个智能体对目标任务n的匹配系数,q mn 为智能体m对目标任务n成功完成的概率,其取值范围为[0,1],x mn 代表竞标方案矩阵X的元素,定义为:
x mn =1时,表示智能体m执行目标任务n;x mn =0时,表示智能体m不执行目标任务n;
S13:目标任务竞标智能体
其中,u m 是智能体m对目标任务的执行收益,g nm 为第n个目标任务对智能体m的匹配系数,q nm 为目标任务n采用智能体m成功完成的概率,且q nm =q mn ,y nm 代表竞标方案矩阵Y的元素,定义为:
y mn =1时,表示目标任务n选择智能体m执行任务;y mn =0时,表示目标任务n不采用智能体m执行任务;
S14:将方案X和方案Y的转置矩阵进行逐元素比对,若对应位置的元素取值相同,则取该位置对应的智能体和目标任务作为分配结果;若对应位置的元素取值不一致,则对方案X的不一致元素记录相应的值,对方案Y的不一致元素记录相应的值;将所有记录的值按取值大小确定未分配智能体或目标任务的优先级,取值越大的对应的智能体与目标任务分配结果越优先被采纳,直至所有目标任务均分配了智能体;
所述多智能体路径规划具体步骤包括:
S21:初始化设置
S22:设置从第m=0个智能体开始,逐个智能体执行步骤S23-S29;
S23:计算多智能体交互信息
将多智能体的全局状态量输入相关性排序单元进行相关性排序,相关性排序单元的输出是除智能体m的状态量之外的,且经排序后的其他智能体的状态量,将相关性排序单元的输出按照大至小的顺序依次输入循环交互单元按照公式(1)-(3)进行迭代,得到循环交互单元输出;
基于动作策略生成最优动作为:
S25:评估路径规划结果
S26:获取多智能体路径规划参数优化的数据包
存储t时刻的到由紧凑全局状态量、最优动作和奖励构成的任务规划历史数据库,采用随机取样方式,从历史数据库中抽取一批数据,构成多智能体路径规划参数优化数据包,数据包包含K组样本,k为样本索引,,第k组样本包括某一时刻的紧凑全局状态量、最优动作、奖励及其下一时刻的紧凑全局状态量;
S27:根据K个样本逐一计算智能体m的总奖励期望的目标值
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210401273.1A CN114819316B (zh) | 2022-04-18 | 2022-04-18 | 一种面向多智能体任务规划的复杂优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210401273.1A CN114819316B (zh) | 2022-04-18 | 2022-04-18 | 一种面向多智能体任务规划的复杂优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114819316A true CN114819316A (zh) | 2022-07-29 |
CN114819316B CN114819316B (zh) | 2024-09-17 |
Family
ID=82535860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210401273.1A Active CN114819316B (zh) | 2022-04-18 | 2022-04-18 | 一种面向多智能体任务规划的复杂优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114819316B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438860A (zh) * | 2022-09-06 | 2022-12-06 | 西安电子科技大学广州研究院 | 一种基于进化算法的多智能体路径规划方法 |
CN116305268A (zh) * | 2023-03-14 | 2023-06-23 | 中国医学科学院北京协和医院 | 一种基于有限状态机和多目标学习的数据发布方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070011281A1 (en) * | 2005-06-09 | 2007-01-11 | International Business Machines Corporation | Methods, apparatus and computer programs for automated problem solving in a distributed, collaborative environment |
CN112733421A (zh) * | 2020-12-01 | 2021-04-30 | 南京航空航天大学 | 一种针对有人无人机协同对地作战的任务规划方法 |
CN113128705A (zh) * | 2021-03-24 | 2021-07-16 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
-
2022
- 2022-04-18 CN CN202210401273.1A patent/CN114819316B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070011281A1 (en) * | 2005-06-09 | 2007-01-11 | International Business Machines Corporation | Methods, apparatus and computer programs for automated problem solving in a distributed, collaborative environment |
CN112733421A (zh) * | 2020-12-01 | 2021-04-30 | 南京航空航天大学 | 一种针对有人无人机协同对地作战的任务规划方法 |
CN113128705A (zh) * | 2021-03-24 | 2021-07-16 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438860A (zh) * | 2022-09-06 | 2022-12-06 | 西安电子科技大学广州研究院 | 一种基于进化算法的多智能体路径规划方法 |
CN116305268A (zh) * | 2023-03-14 | 2023-06-23 | 中国医学科学院北京协和医院 | 一种基于有限状态机和多目标学习的数据发布方法及系统 |
CN116305268B (zh) * | 2023-03-14 | 2024-01-05 | 中国医学科学院北京协和医院 | 一种基于有限状态机和多目标学习的数据发布方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114819316B (zh) | 2024-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Logistics-involved QoS-aware service composition in cloud manufacturing with deep reinforcement learning | |
CN109492814B (zh) | 一种城市交通流量预测方法、系统及电子设备 | |
Son et al. | Hybrid coevolutionary programming for Nash equilibrium search in games with local optima | |
Boussabaine | The use of artificial neural networks in construction management: a review | |
CN114819316A (zh) | 一种面向多智能体任务规划的复杂优化方法 | |
Parsa et al. | Pabo: Pseudo agent-based multi-objective bayesian hyperparameter optimization for efficient neural accelerator design | |
CN112884236B (zh) | 一种基于vdm分解与lstm改进的短期负荷预测方法及系统 | |
CN112734014A (zh) | 基于置信上界思想的经验回放采样强化学习方法及系统 | |
CN113537580B (zh) | 一种基于自适应图学习的公共交通客流预测方法及系统 | |
CN114912357A (zh) | 基于用户模型学习的多任务强化学习用户运营方法及系统 | |
CN114995989A (zh) | 基于自组织神经网络的多水下机器人任务分配方法及系统 | |
Dhebar et al. | Interpretable-AI policies using evolutionary nonlinear decision trees for discrete action systems | |
CN114004065A (zh) | 基于智能算法和环境约束下的变电站工程多目标优化方法 | |
Tian et al. | A dynamic job-shop scheduling model based on deep learning. | |
CN115963407A (zh) | 一种基于icgwo优化elm的锂电池soc估计方法 | |
Whitman et al. | Modular mobile robot design selection with deep reinforcement learning | |
Ming et al. | Cooperative modular reinforcement learning for large discrete action space problem | |
CN108108554B (zh) | 一种多材料车身装配顺序规划优化方法 | |
Martinez-Soto et al. | Fuzzy logic controllers optimization using genetic algorithms and particle swarm optimization | |
González-Rodríguez et al. | A genetic solution based on lexicographical goal programming for a multiobjective job shop with uncertainty | |
US20030046278A1 (en) | Method of robust technology design using rational robust optimization | |
CN116911459A (zh) | 适应于虚拟电厂的多输入多输出超短期电力负荷预测方法 | |
CN110689320A (zh) | 一种基于协同进化算法的大规模多目标项目调度方法 | |
EP4057186A1 (en) | Method for providing an agent for creating a graph neural network architecture and method for creating, by an agent, a graph neural network architecture | |
Dai et al. | Multi-objectives design optimization based on multi-objectives Gaussian processes for System-in-Package |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |