CN115576278B - 基于时态均衡分析的多智能体多任务分层连续控制方法 - Google Patents
基于时态均衡分析的多智能体多任务分层连续控制方法 Download PDFInfo
- Publication number
- CN115576278B CN115576278B CN202211210483.9A CN202211210483A CN115576278B CN 115576278 B CN115576278 B CN 115576278B CN 202211210483 A CN202211210483 A CN 202211210483A CN 115576278 B CN115576278 B CN 115576278B
- Authority
- CN
- China
- Prior art keywords
- agent
- task
- protocol
- state
- temporal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002123 temporal effect Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000011217 control strategy Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 135
- 230000006870 function Effects 0.000 claims description 37
- 230000009471 action Effects 0.000 claims description 29
- 238000011156 evaluation Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 238000005381 potential energy Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009257 reactivity Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32339—Object oriented modeling, design, analysis, implementation, simulation language
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Manufacturing & Machinery (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于时态均衡分析的多智能体多任务连续控制方法,包括步骤:基于时态逻辑构建多智能体多任务博弈模型,进行时态均衡分析并合成多智能体顶层控制策略;构建规约自动补全机制,通过增加环境假设完善有依赖关系的任务规约;构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此框架构建多智能体的连续任务控制器。本发明基于时态逻辑捕捉任务的时态属性,通过规约补全提高系统规约的可解释性以及可用性,并将其生成顶层抽象任务表征并将其应用于底层的连续系统的控制,解决了多智能体多任务连续控制上存在的可扩展性差、易陷入局部最优、奖励稀疏等实际问题。
Description
技术领域
本发明涉及多智能体多任务分层连续控制方法,尤其涉及一种基于时态均衡分析的多智能体多任务分层连续控制方法。
背景技术
多智能体系统是多个智能体在同一环境以合作或对抗的方式互动,以最大限度完成任务并实现特定目标的分布式计算系统,目前被广泛应用于复杂环境下的任务调度、资源分配、协同决策支持、自主化作战等领域。随着多智能体与物理环境之间的交互日益密切,系统在连续多任务控制问题上的复杂度也不断增加。LTL(Linear Temporal Logic,线性时态逻辑)是一种可以描述非马尔可夫的复杂规约的形式化语言,在多智能体系统中引入LTL来设计任务规约,可以捕捉环境和任务的时态属性来表达复杂任务约束,在多无人机路径规划的案例中,LTL可用于描述任务指令,如始终避开某些障碍区域(安全性)、巡回并按顺序经过某几个区域(顺序性)、途经某区域后必须到达另一区域(反应性)、最终会经过某个区域(活性)等。通过对LTL规约进行时态均衡分析可以生成多智能体的顶层控制策略,将复杂任务抽象成子任务并逐步解决。然而时态均衡分析为双指数时间复杂度,在不完美信息条件下的时态均衡分析则更为复杂。同时,子任务的学习通常涉及到连续的状态空间和动作空间,如多无人机的状态空间可为连续的传感器信号,动作空间可为连续的电机指令。近年来,强化学习的策略梯度算法逐渐成为智能体底层连续控制的核心研究方向。然而,将策略梯度算法应用在连续任务控制中存在奖励稀疏、过估计、陷入局部最优等问题,使得算法的可扩展性较差,难以用于涉及到高维度状态空间和动作空间的大规模多智能体系统中。
已知的时态均衡分析为双指数时间复杂度,而且在不完美信息条件下的时态均衡分析则更为复杂;同时,子任务的学习通常涉及到连续的状态空间和动作空间,如无人机的状态空间通常为连续的传感器信号,而动作空间通常为连续的电机指令。庞大的状态空间和动作空间的组合可能导致在使用策略梯度算法进行连续控制训练时存在收敛慢、易陷入局部最优、奖励稀疏、参数敏感等实际问题。这些问题也导致算法的可扩展性较差,难以用于涉及到高维度状态空间和动作空间的大规模多智能体系统中。因此需要解决如何进行时态均衡分析生成顶层抽象任务表征并将其应用于底层的连续系统的控制的技术问题。
发明内容
发明目的:本发明的目的是提供一种能提高多智能体系统规约的可解释性以及可用性的基于时态均衡分析的多智能体多任务分层连续控制方法。
技术方案:本发明的控制方法,包括步骤如下:
S1,基于时态逻辑构建多智能体多任务博弈模型,进行时态均衡分析并合成多智能体顶层控制策略;
S2,构建规约自动补全机制,通过增加环境假设完善有依赖关系的任务规约;
S3,构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此连接机制构建多智能体的连续任务控制器。
进一步,所述构建多智能体多任务博弈模型为:
其中,Na表示智能体集合;S和A分别表示博弈模型的状态集合以及动作集合;S0为初始状态;表示在单个状态s∈S上所有的智能体采取动作集合/>后转移到下一个状态的状态转移函数,/>表示不同智能体的动作集合的一个向量;λ∈S→2AP表示状态到原子命题的标记函数;(γi)i∈N为每个智能体i的规约;ψ表示整个系统需要完成的规约;
对每个智能体i构建不可行域使得智能体i在/>所在的集合没有偏离当前策略集合的倾向,表达式如下:
其中,中存在策略集合/>使得智能体i的所有策略σi与其他策略组合都不能满足γi;/>表示策略集合中不包含第i个智能体的策略组合;/>表示“存在”;/>表示“不符合”;
然后计算判断在这个交集中是否存在轨迹π满足(ψ∧∧i∈Wγi),并采用模型检验的方法生成每个智能体的顶层控制策略。
进一步,步骤S2中,构建规约自动补全机制的详细步骤如下:
S21,增加环境假设精化任务规约
通过选择ε∈E加入输家L的环境规约Ψ,采用反策略模式自动生成新规约能实现,表达式如下:
其中,E为环境规约集合;
生成新规约的详细步骤如下:
S211,计算原规约的取反形式的策略,为合成的有限状态转换器形式的策略;G表示从当前时刻起,规约总是为真;F表示规约在以后某个时刻会真;
S212,在有限状态转换器上设计满足形式FGΨe规约的模式;
S213,通过生成的模式生成规约并取反;
S22,对于第一智能体的任务依赖于第二智能体/>的任务,在时态均衡条件下,首先通过/>计算对所有智能体a∈N的策略,合成有限状态转换器的形式;然后基于策略设计满足形式GFΨe的模式并采用该模式生成εa′;根据步骤S21寻找所有智能体b∈M的规约精化集合εb;
然后判断对于所有的规约是否满足若满足,则完成存在依赖关系的任务规约的精化;若不满足,则迭代构建εa′及εb直至满足以下公式:
进一步,在生成新规约的情况下,对于所有的智能体在加入环境假设后规约是否合理且可实现进行判断:
若可实现,则完成规约的精化;
若合理,但是存在有智能体在加入环境假设后规约不能实现的情况,则迭代构建ε′,使得/>能实现。
进一步,步骤S3中,构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此连接机制构建多智能体的连续任务控制器的具体实现步骤如下:
S31,根据时态均衡分析,获得博弈模型中每个智能体的策略将其扩展为/>其中/> 并将其作为奖励函数用于多智能体环境的扩展马尔可夫决策过程中;多智能体环境的扩展马尔可夫决策过程的表达式如下:
其中,Na表示智能体集合;P和Q分别表示环境的状态以及多智能体采取的动作集合;h表示状态转移的概率;ζ表示T的衰减系数;表示状态转移到原子命题的标记函数;ηi表示环境在采取智能体i策略时获得的收益,为智能体i在p∈P采取动作q∈Q后转移到p′∈P,其在ηi上的状态也将从u∈Ui∪Fi转移到/>并获得奖励/>“<>”表示元组,“∪”表示并集;
S32,将ηi扩展为状态转移确定的带有衰减函数ζr的MDP形式,初始化所有的,使得当/>时,/>为0;当/>时,/>为1;
然后通过值迭代的方法确定每个状态的值函数v(u)*,并将收敛后的v(u)*作为势能函数加入到奖励函数中,则T的奖励函数r(p,q,p′)的表达式如下:
S33,每个智能体i拥有一个包含带有参数θ的动作网络μ(p∣θi),并共享一个带有参数ω评价网络针对评价网络参数ω构建损失函数J(ω),并根据网络的梯度反向传播更新网络,损失函数J(ω)的表达式如下:
其中,rt是由步骤S32计算所得的奖励值, 以及V(p∣ω,β)设计为全连接层网络分别评估状态值和动作优势,α及β分别为两个网络的参数;d为从经验回放缓冲区数据集D中随机采样的数据;
最后根据评价网络参数ω和行为网络参数θi分别对目标评价网络参数和行为网络参数进行软更新。
进一步,在采用异策略算法进行梯度更新时,根据蒙特卡罗方法估算的期望值,将随机采样的数据代入如下公式进行无偏差估计:
其中,表示微分算子。
本发明与现有技术相比,其显著效果如下:
1、时态逻辑可用于捕捉环境以及任务的时态属性来表达复杂任务约束,比如按照某个顺序来经过几个区域,即顺序性;始终避开某些障碍区域,即安全性;在到达某些区域之后必须到达另外的某些区域,即反应性;最终经过某个区域,即活性,提高了任务描述的时态属性;
2、通过精化多智能体的任务规约,提高多智能体系统规约的可解释性以及可用性;
3、通过连接顶层时态均衡策略与底层深度确定性策略梯度算法,解决了目前研究存在的可扩展性差、易陷入局部最优、奖励稀疏等实际问题。
附图说明
图1为本发明的流程图;
图2为时态均衡分析流程图;
图3为实施例中控制器的结构图;
图4为移动无人机在实施例中的规约精化过程。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步详细描述。
如图1所示,本发明的包括步骤如下:
步骤一,基于时态逻辑构建多智能体多任务博弈模型,进行时态均衡分析并合成多智能体顶层控制策略。
步骤11,首先构建多智能体多任务博弈模型:
其中,S和A分别表示博弈模型的状态集合以及动作集合;S0为初始状态集合;表示在单个状态s∈S上所有的智能体采取动作集合/>后转移到下一个状态的状态转移函数(也就是一个状态对应多个智能体动作的集合,然后再到下一个状态),/>表示不同智能体的动作集合的一个向量;λ∈S→2AP表示状态集合到原子命题的标记函数(AP:Atomic Proposition,原子命题);(γi)i∈N为智能体i的规约,Na为智能体总数(或智能体集合);ψ表示整个系统需要完成的规约。
为捕捉环境对系统的约束以及任务的时态属性,采用的形式构建每个智能体的规约γ以及整个系统需要完成的规约ψ,其中G和F为时态算子,G表示从当前时刻起,规约总是为真;F表示规约在以后某个时刻(最终)会真;“∧”表示“与”;m表示在规约中假设规约的数量(≥前GF的数量),n表示保证规约的数量(≥后GF的数量);e取值范围为[1,m],f取值范围为[1,n]。
智能体i的策略σi可表示为有限状态转换器,其中/>为与智能体i相关的状态;/>为初始状态,Fi为终止状态;ACi表示智能体i采取的动作; 表示状态转移函数;/>表示动作确定函数。
根据单个状态s以及每个智能体的策略集合即可确定博弈模型的具体轨迹可以通过判断轨迹/>是否满足智能体i的规约γi来定义其对当前策略集合的倾向/>智能体的策略集合/>符合时态均衡,当且仅当对于所有的智能体i及其对应的所有的策略σi,满足倾向/>的条件。
步骤12,然后构建时态均衡分析及策略合成模型。
对每个智能体i构建不可行域使得智能体i在/>所在的集合没有偏离当前策略集合的倾向,公式如下:
其中,中存在策略集合/>使得智能体i的所有策略σi与其他策略组合都不能满足γi;/>表示“存在”;/>表示“不符合”。/>表示策略集合中不包含第i个智能体的策略组合。
然后计算判断在这个交集中是否存在轨迹π满足(ψ∧∧i∈Wγi),并采用模型检验的方法生成每个智能体i的顶层控制策略;W表示可以满足规约的智能体集合;L表示不满足规约的智能体集合,即输家。
步骤二,构建规约自动补全机制,通过增加环境假设完善有依赖关系的任务规约。
步骤21,增加环境假设精化任务规约。
在时态均衡策略中,存在部分输家的规约不可实现的问题。因此反策略自动生成新引入的环境规约集合E的模式,可以通过选择ε∈E加入输家L的环境规约Ψ,让如公式(3)的新规约可实现。
其中,反策略模式首先计算原规约的取反形式的策略,即合成 的有限状态转换器形式的策略。
然后在有限状态转换器上设计满足形式如FGΨe规约的模式,即通过深度优先算法寻找有限状态转换器的强连接状态并将其作为符合规约的模式;通过生成的模式生成规约并取反,即生成新规约。在此情况下,判断对于所有的智能体在加入环境假设后规约是否合理且可实现,若可实现,则完成规约的精化;若合理,但是存在有智能体在加入环境假设后规约不可实现的情况,则迭代构建ε′使得/>可实现。
步骤22,精化存在依赖关系的任务规约,对于第一智能体集合的任务依赖于第二智能体集合/>的任务,在时态均衡条件下,首先通过/>计算对所有智能体a∈N的策略,合成有限状态转换器的形式;然后基于策略设计满足形式如GFΨe的模式并采用该模式生成εa′;采用上述增加环境假设精化任务规约的方法,寻找所有智能体b∈M的规约精化集合εb。然后判断对于所有的规约是否满足/>,若满足,则完成存在依赖关系的任务规约的精化;若不满足,则迭代构建εa′及εb直至满足公式(4):
其中,表示第二智能体集合N中智能体k1的第e个假设规约;表示第二智能体集合N中智能体k1的第f个保证规约;/>表示第二智能体集合M中智能体k2的第e个假设规约;/>表示第二智能体集合M中智能体k2的第f个保证规约。
步骤三,构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此框架构建多智能体的连续任务控制器,流程图如图2所示。
步骤31,根据时态均衡分析可以获得博弈模型中每个智能体的策略将其扩展为/>其中/> 并将其作为奖励函数用于多智能体环境的扩展马尔可夫决策过程中,如公式(5)所示:
其中,Na表示智能体集合;P和Q分别表示环境的状态以及多智能体采取的动作集合;h表示状态转移的概率;ζ表示T的衰减系数;表示状态转移到原子命题的标记函数;ηi表示环境在采取智能体i策略时获得的收益,即智能体i在p∈P采取动作q∈Q后转移到p′∈P,其在ηi上的状态也将从u∈Ui∪Fi转移到/>并获得奖励/>“<>”表示元组,“∪”表示并集。
步骤32,为计算T的奖励函数r(p,q,p′),将ηi扩展为状态转移确定的带有衰减函数ζr的MDP(Markov decision process,马尔科夫决策过程)形式,初始化所有的使得当时,/>为0;当/>时,/>为1;然后通过值迭代的方法确定每个状态的值函数v(u)*,即每次迭代选取/>的最大值,并将收敛后的v(u)*作为势能函数加入到奖励函数中,如公式(6)所示:
步骤33,每个智能体i拥有一个包含带有参数θ的动作网络μ(p∣θi),并共享一个带有参数ω评价网络
如图3所示,首先智能体i根据行为策略选择动作与环境互动,而环境根据基于时态均衡策略的奖励塑造方法返回对应奖励,并将此状态转移过程存入经验回放缓冲区作为数据集D;然后从数据集D中随机采样d个数据作为在线策略网络及在线Q网络的训练数据,用于动作网络与评价网络的训练。针对评价网络参数ω构建以公式(7)作为损失函数J(ω),并根据网络的梯度反向传播更新网络。
其中,rt是由步骤32计算所得的奖励值, 以及V(p∣ω,β)设计为全连接层网络分别评估状态值和动作优势,α及β分别为两个网络的参数。而动作中加入少量符合/>的随机噪声∈进行正则化防止过拟合。其中,clip为截断函数,截断范围为-c到c,/>为符合正态分布的噪声。其中/>为正态分布。
在采用异策略算法进行梯度更新时,根据蒙特卡罗方法估算的期望值,即将随机采样的数据代入公式(8)进行无偏差估计:
其中,表示微分算子。
最后根据评价网络参数ω和行为网络参数θi分别对目标评价网络参数和行为网络参数进行软更新。
本实施例中,以多无人机系统协同路径规划完成循环采集任务为例,采用两台无人机作为案例解释本发明的实现步骤。
首先无人机同处在一个被分成8个区域的空间内,并且因为安全设置不能同一时刻处在同一个区域中。每台无人机只能待在原地或者移动到相邻的单元格中。本实施例采用表示无人机Ri所处的位置,初始状态/>即无人机R1位于区域1内,无人机R2位于区域8内,如图4所示。本实施例采用时态逻辑描述任务规约,如始终避开某些障碍区域(安全性)、巡回并按顺序经过某几个区域(顺序性)、途经某区域后必须到达另一区域(反应性)、最终会经过某个区域(活性)等,其中R1和R2的任务规约分别为Φ1和Φ2。Φ1仅包含R1的初始位置、路径规划规则以及无限频繁地访问区域4的目标。Φ2包含R2的初始位置,路径规划规则以及无限频繁访问区域4的目标,同时还需要避免与R1发生碰撞。由于R1会不断访问区域4,所以R2的任务依赖于R1的任务。对于R1来说,一个成功的策略/>是从初始位置移动到2号区域,然后移动到3号区域,然后在4号区域和3号区域之间来回移动,一直这样循环下去。
以下是根据用时态逻辑描述的R1规约集合:
a)R1最终只在区域3和4之间移动:
b)R1最终是位于区域3或者4:
c)R1当前位于区域3,那么接下来就是移动到区域4,反之,若位于区域4,则向区域3移动:其中,“〇”表示下一个状态的时态算子,“∧”表示“与”;
d)R1最终位于区域3或者4后,就一直处于该位置:
e)R1的位置必然是区域1、2、3、4中的一个:
f)R1在2号区域后必然移动到3号区域,若在3号,接着必然去到区域4:
首先,根据时态均衡分析,R1与R2不可达到时态均衡,比如R1的策略为从区域1移动到目标区域4,并永远呆在那里,而在这种情况下R2的任务规约永远不能被满足。基于算法1提出的加入环境假设的规约精化方法,详见表1,可求出对于R2新增的环境规约,如下列时态逻辑规约:
g)R1应该无限经常移动出目标区域4:
h)R1绝对不能进入目标区域4:
i)若R1在目标区域4中,则下一步需要离开该区域:
其中,通过专家经验判断g)以及i)为合理的假设,因此可以将此两个规约作为环境假设加入Φ2,并作为保证加入Φ1,最后由时态均衡分析分别求得R1以及R2的顶层控制策略。
表1加入环境假设的规约精化伪代码
在得出智能体的顶层控制策略后,应用于多无人机的连续控制中。本实施例中多无人机的连续状态空间如公式(9):
P={pj∣pj=[xj,yj,zj,vj,uj,wj]} (9)
其中,j表示为第j∈N台无人机,xj、yj、zj为第j台无人机在空间坐标系中的坐标,vj、uj、wj为第j台无人机在空间上的速度。无人机的状态空间如下公式所示:
其中,σ为偏航角控制,为俯仰角控制,ω为滚转角控制。
在获得时态均衡的顶层策略之后,首先计算带有势能的奖励函数r′(p,q,p′),并将其应用于算法2-基于时态均衡策略的多智能体深度确定性策略梯度算法中,详见见表2,进行多无人机的连续控制。
表2基于时态均衡策略的多智能体深度确定性策略梯度算法伪代码
在本实施例中,每个无人机j拥有一个动作网络μ(p∣∣θj),参数为θ,并共享一个评价网络参数为ω。开始,无人机i根据策略θi与环境交互,通过基于势能函数的奖励约束返回对应奖励,并将该状态转移过程存入经验回放缓冲区作为数据集D,并随机抽取经验对评价网络以及动作网络分别进行基于策略梯度算法的网络更新。
Claims (6)
1.一种基于时态均衡分析的多智能体多任务连续控制方法,其特征在于,包括步骤如下:
S1,基于时态逻辑构建多智能体多任务博弈模型,进行时态均衡分析并合成多智能体顶层控制策略;
S2,构建规约自动补全机制,通过增加环境假设完善有依赖关系的任务规约;
S3,构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此连接机制构建多智能体的连续任务控制器。
2.根据权利要求1所述的基于时态均衡分析的多智能体多任务连续控制方法,其特征在于,步骤S1中,所述构建多智能体多任务博弈模型为:
其中,Na表示智能体集合;S和A分别表示博弈模型的状态集合以及动作集合;S0为初始状态;表示在单个状态s∈S上所有的智能体采取动作集合/>后转移到下一个状态的状态转移函数,/>表示不同智能体的动作集合的一个向量;λ∈S→2AP表示状态到原子命题的标记函数;(γi)i∈N为每个智能体i的规约;ψ表示整个系统需要完成的规约;
对每个智能体i构建不可行域使得智能体i在/>所在的集合没有偏离当前策略集合的倾向,表达式如下:
其中,中存在策略集合/>使得智能体i的所有策略σi与其他策略组合/>都不能满足γi;/>表示策略集合中不包含第i个智能体的策略组合;/>表示“存在”;/>表示“不符合”;
然后计算判断在这个交集中是否存在轨迹π满足(ψ∧∧i∈Wγi),并采用模型检验的方法生成每个智能体的顶层控制策略。
3.根据权利要求1所述的基于时态均衡分析的多智能体多任务连续控制方法,其特征在于,步骤S2中,构建规约自动补全机制的详细步骤如下:
S21,增加环境假设精化任务规约
通过选择加入输家L的环境规约Ψ,采用反策略模式自动生成新规约能实现,表达式如下:
其中,E为环境规约集合;m表示在规约中假设规约的数量,n表示保证规约的数量;e取值范围为[1,m],f取值范围为[1,n];
生成新规约的详细步骤如下:
S211,计算原规约的取反形式的策略,为合成的有限状态转换器形式的策略;G表示从当前时刻起,规约总是为真;F表示规约在以后某个时刻会真;
S212,在有限状态转换器上设计满足形式FGΨe规约的模式;
S213,通过生成的模式生成规约并取反;
S22,对于第一智能体集合的任务依赖于第二智能体集合/>的任务,在时态均衡条件下,首先通过/>计算对所有智能体a∈N的策略,合成有限状态转换器的形式;然后基于策略设计满足形式GFΨe的模式并采用该模式生成/>根据步骤S21寻找所有智能体b∈M的规约精化集合/>
然后判断对于所有的规约是否满足若满足,则完成存在依赖关系的任务规约的精化;若不满足,则迭代构建/>及/>直至满足以下公式:
其中,W为能满足规约的智能体集合;表示第二智能体集合N中智能体k1的第e个假设规约;/>表示第二智能体集合N中智能体k1的第f个保证规约;表示第二智能体集合M中智能体k2的第e个假设规约;/>表示第二智能体集合M中智能体k2的第f个保证规约。
4.根据权利要求3所述的基于时态均衡分析的多智能体多任务连续控制方法,其特征在于,在生成新规约的情况下,对于所有的智能体在加入环境假设后规约是否合理且可实现进行判断:
若可实现,则完成规约的精化;
若合理,但是存在有智能体在加入环境假设后规约不能实现的情况,则迭代构建/>使得/>能实现。
5.根据权利要求1所述的基于时态均衡分析的多智能体多任务连续控制方法,其特征在于,步骤S3中,构建顶层控制策略与底层深度确定性策略梯度算法的连接机制,并基于此连接机制构建多智能体的连续任务控制器的具体实现步骤如下:
S31,根据时态均衡分析,获得博弈模型中每个智能体的策略 将其扩展为/>其中/> 并将其作为奖励函数用于多智能体环境的扩展马尔可夫决策过程中;多智能体环境的扩展马尔可夫决策过程的表达式如下:
其中,Na表示智能体集合;P和Q分别表示环境的状态以及多智能体采取的动作集合;h表示状态转移的概率;ζ表示T的衰减系数;表示状态转移到原子命题的标记函数;ηi表示环境在采取智能体i策略时获得的收益,为智能体i在p∈P采取动作q∈Q后转移到p′∈P,其在ηi上的状态也将从u∈Ui∪Fi转移到/>并获得奖励“<>”表示元组,“∪”表示并集;
S32,将ηi扩展为状态转移确定的带有衰减函数ζr的MDP形式,初始化所有的使得当时,/>为0;当/>时,/>为1;
然后通过值迭代的方法确定每个状态的值函数v(u)*,并将收敛后的v(u)*作为势能函数加入到奖励函数中,则T的奖励函数r(p,q,p′)的表达式如下:
S33,每个智能体i拥有一个包含带有参数θ的动作网络μ(p∣θi),并共享一个带有参数ω评价网络针对评价网络参数ω构建损失函数J(ω),并根据网络的梯度反向传播更新网络,损失函数J(ω)的表达式如下:
其中,rt是由步骤S32计算所得的奖励值, 以及V(p∣ω,β)设计为全连接层网络分别评估状态值和动作优势,α及β分别为两个网络的参数;d为从经验回放缓冲区数据集D中随机采样的数据;
最后根据评价网络参数ω和行为网络参数θi分别对目标评价网络参数和行为网络参数进行软更新。
6.根据权利要求5所述的基于时态均衡分析的多智能体多任务连续控制方法,其特征在于,在采用异策略算法进行梯度更新时,根据蒙特卡罗方法估算的期望值,将随机采样的数据代入如下公式进行无偏差估计:
其中,表示微分算子。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211210483.9A CN115576278B (zh) | 2022-09-30 | 2022-09-30 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
PCT/CN2023/107655 WO2024066675A1 (zh) | 2022-09-30 | 2023-07-17 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211210483.9A CN115576278B (zh) | 2022-09-30 | 2022-09-30 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115576278A CN115576278A (zh) | 2023-01-06 |
CN115576278B true CN115576278B (zh) | 2023-08-04 |
Family
ID=84582528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211210483.9A Active CN115576278B (zh) | 2022-09-30 | 2022-09-30 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115576278B (zh) |
WO (1) | WO2024066675A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115576278B (zh) * | 2022-09-30 | 2023-08-04 | 常州大学 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
CN110502815A (zh) * | 2019-08-13 | 2019-11-26 | 华东师范大学 | 一种基于sketch的时钟约束规范语言方法 |
CN113160986A (zh) * | 2021-04-23 | 2021-07-23 | 桥恩(北京)生物科技有限公司 | 用于预测全身炎症反应综合征发展的模型构建方法及系统 |
CN113269297A (zh) * | 2021-07-19 | 2021-08-17 | 东禾软件(江苏)有限责任公司 | 一种面向时间约束的多智能体的调度方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019203214B4 (de) * | 2019-03-08 | 2022-01-20 | Robert Bosch Gmbh | Verfahren zum Betreiben eines Roboters in einem Multiagentensystem, Roboter und Multiagentensystem |
CN111340348B (zh) * | 2020-02-21 | 2022-07-26 | 北京理工大学 | 一种基于线性时序逻辑的分布式多智能体任务协作方法 |
CN113359831B (zh) * | 2021-06-16 | 2022-12-06 | 天津大学 | 基于任务逻辑调度的集群四旋翼无人机路径生成方法 |
CN114048834B (zh) * | 2021-11-05 | 2023-01-17 | 哈尔滨工业大学(深圳) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 |
CN114722946B (zh) * | 2022-04-12 | 2022-12-20 | 中国人民解放军国防科技大学 | 基于概率模型检测的无人机异步行动与协同策略合成方法 |
CN115576278B (zh) * | 2022-09-30 | 2023-08-04 | 常州大学 | 基于时态均衡分析的多智能体多任务分层连续控制方法 |
-
2022
- 2022-09-30 CN CN202211210483.9A patent/CN115576278B/zh active Active
-
2023
- 2023-07-17 WO PCT/CN2023/107655 patent/WO2024066675A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
CN110502815A (zh) * | 2019-08-13 | 2019-11-26 | 华东师范大学 | 一种基于sketch的时钟约束规范语言方法 |
CN113160986A (zh) * | 2021-04-23 | 2021-07-23 | 桥恩(北京)生物科技有限公司 | 用于预测全身炎症反应综合征发展的模型构建方法及系统 |
CN113269297A (zh) * | 2021-07-19 | 2021-08-17 | 东禾软件(江苏)有限责任公司 | 一种面向时间约束的多智能体的调度方法 |
Non-Patent Citations (1)
Title |
---|
个性化移动元搜索引擎研究与设计;何震苇;邹若晨;钟伟彬;严丽云;;电信科学(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2024066675A1 (zh) | 2024-04-04 |
CN115576278A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111098852B (zh) | 一种基于强化学习的泊车路径规划方法 | |
CN111191934B (zh) | 一种基于强化学习策略的多目标云工作流调度方法 | |
Zhu et al. | An overview of the action space for deep reinforcement learning | |
CN112308961B (zh) | 基于分层高斯混合模型的机器人快速鲁棒三维重建方法 | |
CN115576278B (zh) | 基于时态均衡分析的多智能体多任务分层连续控制方法 | |
CN114261400A (zh) | 一种自动驾驶决策方法、装置、设备和存储介质 | |
CN111523940B (zh) | 一种带负反馈的基于深度强化学习的推荐方法及系统 | |
CN114967721B (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
CN108106624A (zh) | 一种多人预约调度路径规划方法及相关装置 | |
Han et al. | Regularly updated deterministic policy gradient algorithm | |
Li et al. | A self-learning bee colony and genetic algorithm hybrid for cloud manufacturing services | |
CN111487992A (zh) | 基于深度强化学习的无人机感知与避障一体化方法及设备 | |
CN114519433A (zh) | 多智能体强化学习、策略执行方法及计算机设备 | |
CN111369075A (zh) | 运量预测方法 | |
Zhu et al. | Fast Adaptive Character Animation Synthesis Based on Greedy Algorithm | |
Wang et al. | A review of deep reinforcement learning methods and military application research | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 | |
US6120548A (en) | Method and system for estimating particle motion | |
Zhan et al. | Generative adversarial inverse reinforcement learning with deep deterministic policy gradient | |
Mishra et al. | Model-free reinforcement learning for mean field games | |
JP2009230645A (ja) | 制御器、制御方法および制御プログラム | |
Saha et al. | Learning time-series data of industrial design optimization using recurrent neural networks | |
CN114545979B (zh) | 一种基于强化学习的飞行器智能滑模编队控制方法 | |
Wang et al. | Leveraging World Model Disentanglement in Value-Based Multi-Agent Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |