CN113723012B - 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 - Google Patents
一种基于多智能体生成对抗模仿安全学习的协作围捕方法 Download PDFInfo
- Publication number
- CN113723012B CN113723012B CN202111060274.6A CN202111060274A CN113723012B CN 113723012 B CN113723012 B CN 113723012B CN 202111060274 A CN202111060274 A CN 202111060274A CN 113723012 B CN113723012 B CN 113723012B
- Authority
- CN
- China
- Prior art keywords
- agent
- state
- action
- network
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001926 trapping method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 76
- 230000008569 process Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000004088 simulation Methods 0.000 claims abstract description 4
- 239000003795 chemical substances by application Substances 0.000 claims description 187
- 230000006870 function Effects 0.000 claims description 88
- 230000009471 action Effects 0.000 claims description 77
- 238000005457 optimization Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 9
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 231100000136 action limit Toxicity 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000012938 design process Methods 0.000 abstract 1
- 230000002787 reinforcement Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 5
- 238000010367 cloning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多智能体生成对抗模仿安全学习的协作围捕方法,该方法包括:步骤1:搭建多智能体协作围捕仿真平台;步骤2:将多智能体协作围捕任务过程建立为MGP模型;步骤3:获取专家的围捕轨迹信息,并将其存入经验存储模块;步骤4:针对多智能体系统搭建轨迹判别网络、策略生成网络、值估计网络和限制估计网络;步骤5:基于多智能体生成对抗模仿安全学习对网络参数进行优化训练,得到策略生成网络和轨迹判别网络的最佳参数;步骤6:通过动作安全校正器对输出策略进行安全性校正,将校正后的策略应用于实际围捕作业任务,与现有技术相比,本发明具有简化了策略网络的设计过程和提高了算法对复杂性环境的适应能力等优点。
Description
技术领域
本发明涉及多智能体协作围捕技术领域,尤其是涉及一种基于多智能体生成对抗模仿安全学习的协作围捕方法。
背景技术
近年来,多智能体系统由于能够完成诸多单智能体无法完成的任务而受到越来越广泛的关注,作为多智能体协同任务之一的多智能体协作围捕作业问题由于有着广泛的应用前景和较高的理论难度而成为该领域的热点问题。
随着人工智能技术的发展,强化学习技术被应用于多智能体围捕作业任务,并且取得了良好的效果,之前的研究者在使用强化学习技术解决多智能体围捕作业任务时一般使用自行设定奖励函数的方法,即在给定的奖励框架下使多智能体系统按照最大化奖励函数的路线进行围捕,在这种方法中,人为地设定合适的奖励函数是一个十分耗时且富有挑战性的工作,因此该方法策略设计效率低下,尤其当多智能体系统中智能体的数量较多时,这个问题尤为突出,并且现有强化学习方法为了提高智能体对环境的认识程度,通常鼓励探索性高的策略,然而,过高的探索性可能导致智能体采取具有严重后果的危险性动作,因此,对于实际系统而言,策略的安全性尤为重要。
模仿学习方法能够避免人为设定奖励函数这一十分耗时的工作,但现有的模仿学习方法由于自身的局限性难以被应用于多智能体场景,现有的模仿学习算法主要包括两大类:行为克隆方法和逆强化学习方法,行为克隆方法的原理较为简单,其本质上是一种监督学习方法,由于误差累积等因素的影响,行为克隆方法所需要的数据量较大,难以广泛应用;逆强化学习方法可通过对状态轨迹的计算获得奖励函数的估计值,但由于逆强化学习的迭代过程中的每一步都包含通过正向强化学习寻找最优策略的过程,因而逆强化学习所需要的计算量巨大,这给策略的训练过程带来了极大的困难,行为克隆和逆强化学习方法各自存在的问题在多智能体场景中尤为突出,因此难以被应用于多智能体系统,强化学习的安全性通常使用对限制函数值的期望加以约束的方法来实现,但这种方法本质上是一种软约束方法,虽然可以提高策略的安全性,但是无法确保危险性动作不会发生,因此在实际场景中无法广泛应用。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多智能体生成对抗模仿安全学习的协作围捕方法。
本发明的目的可以通过以下技术方案实现:
一种基于多智能体生成对抗模仿安全学习的协作围捕方法,该方法包括以下步骤:
步骤1:搭建多智能体协作围捕仿真平台;
步骤2:将多智能体协作围捕任务过程建立为MGP模型;
步骤3:获取专家的围捕轨迹信息,并将其存入经验存储模块;
步骤4:针对多智能体系统分别搭建轨迹判别网络、策略生成网络、值估计网络和限制估计网络;
步骤5:基于多智能体生成对抗模仿安全学习对网络参数进行优化训练,得到策略生成网络和轨迹判别网络的最佳参数;
步骤6:通过动作安全校正器对策略生成网络的输出策略进行安全性校正,将校正后的策略应用于实际围捕作业任务。
所述的步骤2中,多智能体协作围捕作业任务的MGP模型为:
其中N为多智能体系统内追捕者的个数,为状态空间,/>为动作空间,s(b)和s(j)分别表示被追捕者和第j个追捕者所处的状态,a(b)和a(j)分别表示被追捕者和第j个追捕者所采取的动作,η(s0)∈[0,1]表示系统初始状态的概率分布,st为被追捕者和追捕者的状态联合向量,表示时刻为t时的系统状态,at为表示被追捕者和追捕者的动作联合向量,表示时刻为t时的系统动作,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,r为奖励函数,由当前状态和每个智能体的动作决定,表示时刻为t系统状态为st且每个智能体分别采取动作at时,每个智能体所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未来奖励重视情况,/>为限制函数,/>为状态限制集,表示环境对智能体所处状态的限制,/>为状态动作限制集,表示环境对智能体所处状态和采取动作的限制,/>为状态限制函数,c(s,a)为状态动作限制函数,/>为实数集。
所述的多智能体系统包括作为追捕者的智能体和作为被追捕者的智能体,即:
当i=N+1时表示智能体作为被追捕者;
当i=1,2,…,N时表示智能体作为追捕者;
所述的状态为多智能体系统完成协作围捕任务所需要的各项信息构成的向量,所述的各项信息包括每个智能体在时刻为t时的位置坐标、速度大小、速度的方向和限制函数值,根据多智能体协作围捕任务过程对其进行建模,则有:
其中,表示时刻为t时第i个智能体所处的状态,/>表示第i个智能体在时刻为t时的位置坐标,/>表示第i个智能体在时刻为t时的速度大小,/>表示第i个智能体在时刻为t时速度的方向,/>表示被追捕者和第j个追捕者坐标位置之间的欧氏距离,表示被追捕者和第j个追捕者之间速度方向的绝对差值,/>和/>分别表示被追捕者和第j个追捕者在时刻t时的限制函数值,/>表示第i个智能体在时刻t时的限制函数值。
所述的限制函数值的约束条件如下:
其中,Cth为限制函数的阈值,取Cth=0,表示围捕过程中智能体不超出给定的边界,c1和c2分别表示第i个智能体在时刻为t时水平方向上离边界的距离以及在垂直方向上离边界的距离。
所述的动作为围捕过程中第i个智能体采取的速度大小和速度方向构成的向量,根据多智能体协作围捕任务过程对动作/>进行建模,则有:
其中,表示在时刻t时第i个智能体所要采取的动作,/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的动作,/>表示在时刻t时第i个智能体采取的速度大小,和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度大小,/>表示在时刻t时第i个智能体采取的速度方向,/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度方向。
所述的步骤3中,专家的围捕轨迹信息如下:
其中,m表示轨迹的标号,k为轨迹的总数量,n为专家状态-动作-限制对的标号,Mm为第m条专家轨迹的总长度,并将所获得的k条轨迹存入存储模块中。
所述的步骤4中,轨迹判别网络针对每个追捕者搭建而成,其输入为状态-动作对输出为/>用以表示该状态-动作对是否自于专家轨迹的可信程度;
所述的策略生成网络针对每个追捕者搭建而成,其输入为时刻t时的智能体所处的状态st,输出为第j个追捕者采取的动作
所述的值估计网络针对每个追捕者搭建而成,其输入为当前时刻t智能体所处的状态st和当前时刻t除第i个智能体外其余智能体采取的动作输出为值估计网络对第i个智能体的状态价值函数的估计值;
所述的限制近似网络针对每个智能体搭建而成,其输入为时刻t时的状态-动作-限制对输出为第i个智能体在t+1时刻限制值函数的估计值。
所述的步骤5中,基于多智能体生成对抗模仿安全学习对网络参数进行优化训练过程的具体步骤如下所示:
步骤501:对轨迹判别网络策略生成网络/>值估计网络/>和限制估计网络q(st;νi)的参数进行初始化,并设定批量大小B;
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,按照当前策略生成网络产生动作,将动作采取后,从环境中得到后续状态,重复采取步骤502直到得到B个当前策略与环境交互得到的状态-动作-限制对,并将其存入存储模块/>中;
步骤503:在存储模块中随机采样批量大小B个专家状态-动作-限制对,对每一个追捕者的轨迹判别网络/>的参数ωi根据下式优化更新:
其中,E表示求解期望的符号,α1和α2为给定的超参数,α1/α2用以衡量轨迹判别网络对专家轨迹的重视程度,为状态-动作对,/>为得到的B个当前策略轨迹下的状态-动作-限制对,/>为B个专家状态-动作-限制对,/>表示该状态-动作对是否自于专家轨迹的可信程度;
步骤504:计算当前策略轨迹中每个状态-动作-限制对相对应的奖励值,并将其存入存储模块状态-动作-限制对相对应的奖励值与轨迹判别网络的输出值/>有关并通过双曲正切函数进行限制,其表达式为:
其中,rt (i)为奖励函数,由当前状态st和每个智能体的动作at决定,表示时刻为t时,系统状态为st且每个智能体分别采取动作时,各个智能体得到的奖励值,即当前策略轨迹中每个状态-动作-限制对在时刻t相对应的奖励值;
步骤505:根据每个状态-动作-限制对相对应的奖励值通过T步时序-差分误差得到每个状态-动作-限制对的优势函数的估计值,并将其存入存储模块表达式为:
其中,γ为衰减率,T为当前时刻t与当前幕结束点的时间距离,为当前策略轨迹中每个状态-动作-限制对在时刻t+k对应的奖励值,st+T-1和st-1分别表示时刻t+T-1和时刻t-1的系统状态,/>和/>分别为在时刻t+T-1和时刻t-1除第i个智能体外其余智能体采取的动作;
步骤506:将值估计网络的目标函数设为状态价值函数的采样值和值估计网络得到状态价值函数的估计值之间欧氏距离的平方的期望值,依据该目标函数对每一个追捕者的值估计网络参数φi通过下式进行梯度下降优化更新,以得到更准确的值估计网络对状态价值函数的估计值;
其中,为状态价值函数的采样值,|| ||2表示向量之间的欧氏距离;
步骤507:对策略生成网络设置目标函数,再依据下式对每个追捕者的策略生成网络参数θi进行梯度下降优化更新:
其中,A(i)(st,at)为步骤505中每个状态-动作-限制对的优势函数的估计值,λ为开始训练之前给定的一个超参数,为策略生成网络输出动作分布的熵;
步骤508:根据马尔可夫博弈过程的性质,对限制函数进行线性化处理,并根据线性化后的偏差更新每个智能体的限制估计网络q(st;νi)的参数νi:
其中,为第i个智能体t+1时刻的限制值函数的估计值,/>为第i个智能体t+1时刻的限制值函数,at表示各智能体的动作;
步骤509:使用轨迹判别网络判断当前的状态-动作-限制对是否自于专家策略,当轨迹判别网络的输出值在事先给定的目标区间中时,停止训练过程并保存训练过程所获得的参数,至此完成对专家策略轨迹的多智能体生成对抗模仿学习过程,否则重复执行步骤502至步骤508;
步骤510:训练完成后,将策略生成网络输出的每一个智能体动作基于凸优化技术中的拉格朗日对偶法进行安全性校正。
所述的步骤510中,通过求解凸优化问题进行安全性校正,凸优化问题如下所示:
其中,aopt为策略生成网络生成的动作,为安全性校正后的动作,Cth为限制函数的阈值,表示围捕过程中智能体不超出给定的边界,该凸优化问题表示选取限制条件成立时使得/>最小的aopt的取值。
所述的凸优化问题通过拉格朗日对偶法求解,得到最优解为:
与现有技术相比,本发明具有以下优点:
一、本发明提出的基于多智能体生成对抗模仿安全学习的协作围捕方法,策略训练过程采用生成对抗模仿学习进行参数优化,避免了人工设置奖励函数这项繁琐耗时的步骤;
二、由于加入了安全层,通过动作安全校正器对策略生成网络的输出策略进行安全性校正,将校正后的策略应用于实际围捕作业任务,避免了危险性动作,提高了算法对复杂性环境的适应能力。
附图说明
图1为本发明的流程示意图;
图2为本发明的多智能体协作围捕过程示意图。
图3为本发明的多智能体协作围捕算法安全性校正的过程示意图。
图4为本发明的限制函数说明示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1所示,本发明提供了一种基于多智能体生成对抗模仿安全学习的协作围捕方法,该方法具体步骤如下:
步骤1:根据追捕者和被追捕者各自与环境交互规则,构建多智能体协作围捕仿真平台;
步骤2:将多智能体围捕任务过程建立为MGP(马尔可夫博弈过程MarkovGameProce步骤)模型;
步骤3:获取专家的轨迹信息,并将其存入经验存储模块;
步骤4:搭建轨迹判别网络、策略生成网络、值估计网络和限制估计网络;
步骤5:基于多智能体生成对抗模仿安全学习对网络参数进行优化训练,得出策略生成网络和轨迹判别网络的最佳参数;
步骤6:通过动作安全校正器对策略生成网络的输出策略进行安全性校正,从而得到能够确保安全的控制策略,将校正后的策略应用于实际围捕作业任务。
步骤2中,多智能体协作围捕作业任务的MGP模型为:
其中,N为多智能体系统内追捕者的个数,为状态空间,/>为动作空间,η表示概率分布,s(b)和s(j)分别表示被追捕者和第j个追捕者所处的状态,a(b)和a(j)分别表示被追捕者所采取的动作以及第j个追捕者所采取的动作,η(s0)∈[0,1]表示系统初始状态的概率分布,st为被追捕者和追捕者的状态联合向量,表示时刻为t时的系统状态,at为表示被追捕者和追捕者的动作联合向量,表示时刻为t时的系统动作,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,r为奖励函数,由当前状态和每个智能体的动作决定,表示时刻为t系统状态为st且每个智能体分别采取动作at时,每个智能体所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未来奖励重视情况,/>为限制函数,/>为状态限制集,表示环境对智能体所处状态的限制,/>为状态动作限制集,表示环境对智能体所处状态和采取动作的限制,/>为状态限制函数,c(s,a)为状态动作限制函数,/>为实数集。
当前状态为多智能体系统完成协作围捕任务所需要的各项信息构成的向量,所需的各项信息包括:每个智能体在时刻为t时的位置坐标、每个智能体在时刻为t时的速度大小、每个智能体在时刻为t时速度的方向和每个智能体在时刻为t时的限制函数值,当前状态/>包括被追捕者的状态/>和追捕者的状态/>动作/>为第i个智能体执行的速度大小和速度方向构成的向量。
多智能体系统包括作为追捕者的智能体和作为被追捕者的智能体:当i=N+1时表示作为被追捕者的智能体;当i=1,2,…,N时表示作为追捕者的智能体,根据多智能体协作围捕任务过程对状态进行建模:
其中,表示时刻为t时第i个智能体所处的状态,/>表示第i个智能体在时刻为t时的位置坐标,/>表示第i个智能体在时刻为t时的速度大小,/>表示第i个智能体在时刻为t时速度的方向,/>表示被追捕者和第j个追捕者坐标位置之间的欧氏距离,表示被追捕者和第j个追捕者之间速度方向的绝对差值,/>和/>分别表示被追捕者和第j个追捕者在时刻t时的限制函数值,/>表示第i个智能体在时刻t时的限制函数值。
如图4所示,限制函数值的约束条件如下:
其中,Cth为限制函数的阈值,取Cth=0,表示围捕过程中智能体不超出给定的边界,c1和c2分别表示第i个智能体在时刻为t时水平方向上离边界的距离以及在垂直方向上离边界的距离。
根据多智能体协作围捕任务过程对动作进行建模:
其中,表示在时刻t时第i个智能体所要采取的动作,/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的动作,/>表示在时刻t时第i个智能体采取的速度大小,和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度大小,/>表示在时刻t时第i个智能体采取的速度方向,/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度方向,各智能体的速度方向定义如图2所示。
在步骤3中,专家的围捕轨迹信息如下:
其中,m表示轨迹的标号,k为轨迹的总数量,n为专家状态-动作-限制对的标号,Mm为第m条专家轨迹的总长度,并将所获得的k条轨迹存入存储模块中。
在步骤5中,针对每个追捕者搭建轨迹判别网络(其参数为ωi),轨迹判别网络的输入为状态-动作对/>输出为/>用以表示该状态-动作对是否来自于专家轨迹的可信程度,/>表示轨迹判别网络认为当前状态-动作对/>来自于专家轨迹,而/>表示轨迹判别网络认为当前状态-动作对/>来自于策略生成网络。
针对每个追捕者搭建策略生成网络(其参数为θi),策略生成网络的输入为当前时刻智能体所处的状态st,输出为第i个智能体所要采取的动作/>
针对每个追捕者搭建值估计网络(其参数为φi),值估计网络的输入为当前时刻智能体所处的状态st和当前时刻除第i个智能体外其余所有智能体所采取的动作/>输出为值估计网络对第i个智能体的状态价值函数的估计值。
针对每个智能体搭建限制近似网络q(st;νi)(其参数为νi),限制估计网络的输入为时刻t时的状态-动作-限制对输出为第i个智能体t+1时刻限制值函数的估计值。
在步骤5中,基于多智能体生成对抗模仿学习算法对步骤3获得的专家轨迹进行模仿学习,从而使策略生成网络输出的策略轨迹逐步逼近专家策略轨迹,多智能体系统轨迹判别网络、策略生成网络、值估计网络和限制估计网络的训练过程的具体步骤如下所示:
步骤501:对每个追捕者的轨迹判别网络策略生成网络/>值估计网络/>和限制估计网络q(st;νi)的参数进行初始化,并设定批量大小B;
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,按照当前策略生成网络产生动作,将动作执行后,从环境中得到后续状态,重复执行步骤502直到当前策略与环境交互得到的B个状态-动作-限制对,并将其存入存储模块/>中;
步骤503:在存储模块中随机采样批量大小B个专家状态-动作-限制对,对每一个追捕者的轨迹判别网络/>使用梯度法进行优化更新,更新轨迹判别网络的参数是为提高轨迹判别网络对专家轨迹和策略生成网络输出策略轨迹的鉴别能力,与之相应的目标函数也基于此设计,对轨迹判别网络/>进行参数更新的表达式如下:
其中,E表示求解期望的符号,α1和α2为给定的超参数,α1、α2用以衡量轨迹判别网络对专家轨迹的重视程度,为状态-动作对,/>为B个当前策略与环境交互产生状态-动作-限制对,/>为B个专家状态-动作-限制对,/>表示该状态-动作对是否来自于专家轨迹的可信程度;
步骤504:策略生成网络应生成与专家轨迹相似的轨迹,因此将状态-动作-限制对相对应的奖励值设定为轨迹判别网络输出值的函数,并根据该函数计算当前策略轨迹中每个状态-动作-限制对相对应的奖励值,并将计算得到的奖励值存入存储模块,该函数的表达式为:
其中,rt (i)为奖励函数,由当前状态st和每个智能体的动作at决定,表示时刻为t时,系统状态为st且每个智能体分别采取动作时,每个智能体得到的奖励值,即当前策略轨迹中每个状态-动作-限制对在时刻t相对应的奖励值;
步骤505:根据每个状态-动作-限制对相对应的奖励值通过T步时序-差分误差得到每个状态-动作-限制对的优势函数的估计值,并将其存入存储模块表达式为:
其中,γ为衰减率,T为当前时刻t与当前幕结束点的时间距离,为当前策略轨迹中每个状态-动作-限制对在时刻t+k对应的奖励值,st+T-1和st-1分别表示时刻t+T-1和时刻t-1的系统状态,/>和/>分别为在时刻t+T-1和时刻t-1除第i个智能体外其余智能体采取的动作;
步骤506:为了使每一个追捕者的值估计网络能够给出较为准确的估计值,将值估计网络的目标函数设为状态价值函数的采样值和值估计网络得到的状态价值函数估计值之间欧氏距离平方的期望值,依据该目标函数对每一个追捕者的值估计网络参数进行梯度下降优化更新:
其中,为状态价值函数的采样值,|| ||2表示向量之间的欧氏距离;
步骤507:策略生成网络的目标为使输出的策略接近于专家策略,同时为保证智能体的探索性,策略生成网络输出策略的熵应大,因此将输出策略的熵加入到策略生成网络的目标函数中,对每一个追捕者的策略生成网络使用梯度下降法进行参数的优化更新,如下所示:
其中,A(i)(st,at)为步骤505中每个状态-动作-限制对的优势函数的估计值,λ为开始训练之前给定的一个超参数,为策略生成网络输出动作分布的熵;
步骤508:根据马尔可夫博弈过程的性质,对限制函数进行线性化处理,并根据线性化后的偏差更新每个智能体的限制估计网络q(st;νi)的参数νi:
其中,为第i个智能体t+1时刻的限制值函数的估计值,/>为第i个智能体t+1时刻的限制值函数,at表示各智能体的动作;
步骤509:根据轨迹判别网络判断当前的状态-动作-限制对是否来自于专家策略,当轨迹判别网络的输出值在事先给定的目标区间中时,停止训练过程并保存训练过程所获得的参数,至此完成了对专家策略轨迹的多智能体生成对抗模仿学习过程,否则重复执行步骤2至步骤7;
步骤510:训练完成后,将策略生成网络输出的动作通过凸优化技术中的拉格朗日对偶法求解具有安全性保证的校正后动作,随后可将校正后的动作应用于实际围捕作业任务中,待求解的凸优化问题如下所示:
其中,aopt为策略生成网络生成的动作,为安全性校正后的动作,Cth为限制函数的阈值,取Cth=0,表示围捕过程中智能体不超出给定的边界。
该凸优化问题表示选取限制条件成立时使得/>最小的aopt的取值。
待求解的凸优化问题通过拉格朗日对偶法求解,得到最优解为:
/>
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (5)
1.一种基于多智能体生成对抗模仿安全学习的协作围捕方法,其特征在于,该方法包括以下步骤:
步骤1:搭建多智能体协作围捕仿真平台;
步骤2:将多智能体协作围捕任务过程建立为MGP模型;
步骤3:获取专家的围捕轨迹信息,并将其存入经验存储模块;
步骤4:针对多智能体系统分别搭建轨迹判别网络、策略生成网络、值估计网络和限制估计网络;
步骤5:基于多智能体生成对抗模仿安全学习对网络参数进行优化训练,得到策略生成网络和轨迹判别网络的最佳参数;
步骤6:通过动作安全校正器对策略生成网络的输出策略进行安全性校正,将校正后的策略应用于实际围捕作业任务;
所述的步骤2中,多智能体协作围捕作业任务的MGP模型为:
其中N为多智能体系统内追捕者的个数,为状态空间,/>为动作空间,s(b)和s(j)分别表示被追捕者和第j个追捕者所处的状态,a(b)和a(j)分别表示被追捕者和第j个追捕者所采取的动作,η(s0)∈[0,1]表示系统初始状态的概率分布,st为被追捕者和追捕者的状态联合向量,表示时刻为t时的系统状态,at为表示被追捕者和追捕者的动作联合向量,表示时刻为t时的系统动作,P(st+1|st,at)∈[0,1]表示在系统状态st采取动作at后,系统状态转移到st+1的概率,r为奖励函数,由当前状态和每个智能体的动作决定,表示时刻为t系统状态为st且每个智能体分别采取动作at时,每个智能体所能够获得的奖励值,γ为衰减率,表征智能体对当前奖励和未来奖励重视情况,/>为限制函数,/>为状态限制集,表示环境对智能体所处状态的限制,/>为状态动作限制集,表示环境对智能体所处状态和采取动作的限制,/>为状态限制函数,c(s,a)为状态动作限制函数,/>为实数;
所述的多智能体系统包括作为追捕者的智能体和作为被追捕者的智能体,即:
当i=N+1时表示智能体作为被追捕者;
当i=1,2,…,N时表示智能体作为追捕者;
所述的状态为多智能体系统完成协作围捕任务所需要的各项信息构成的向量,所述的各项信息包括每个智能体在时刻为t时的位置坐标、速度大小、速度的方向和限制函数值,根据多智能体协作围捕任务过程对其进行建模,则有:
其中,表示时刻为t时第i个智能体所处的状态,/>表示第i个智能体在时刻为t时的位置坐标,/>表示第i个智能体在时刻为t时的速度大小,/>表示第i个智能体在时刻为t时速度的方向,/>表示被追捕者和第j个追捕者坐标位置之间的欧氏距离,表示被追捕者和第j个追捕者之间速度方向的绝对差值,/>和/>分别表示被追捕者和第j个追捕者在时刻t时的限制函数值,/>表示第i个智能体在时刻t时的限制函数值;
所述的限制函数值的约束条件如下:
其中,Cth为限制函数的阈值,取Cth=0,表示围捕过程中智能体不超出给定的边界,c1和c2分别表示第i个智能体在时刻为t时水平方向上离边界的距离以及在垂直方向上离边界的距离;
所述的动作为围捕过程中第i个智能体采取的速度大小和速度方向构成的向量,根据多智能体协作围捕任务过程对其进行建模,则有:
其中,表示在时刻t时第i个智能体所要采取的动作,/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的动作,/>表示在时刻t时第i个智能体采取的速度大小,/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度大小,/>表示在时刻t时第i个智能体采取的速度方向,/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度方向;
所述的步骤3中,专家的围捕轨迹信息如下:
其中,m表示轨迹的标号,k为轨迹的总数量,n为专家状态-动作-限制对的标号,Mm为第m条专家轨迹的总长度,并将所获得的k条轨迹存入存储模块中。
2.根据权利要求1所述的一种基于多智能体生成对抗模仿安全学习的协作围捕方法,其特征在于,所述的步骤4中,轨迹判别网络针对每个追捕者搭建而成,其输入为状态-动作对输出为/>用以表示该状态-动作对是否自于专家轨迹的可信程度;
所述的策略生成网络针对每个追捕者搭建而成,其输入为时刻t时的智能体所处的状态st,输出为第j个追捕者采取的动作
所述的值估计网络针对每个追捕者搭建而成,其输入为当前时刻t智能体所处的状态st和当前时刻t除第i个智能体外其余智能体采取的动作输出为值估计网络对第i个智能体的状态价值函数的估计值;
所述的限制估计网络针对每个智能体搭建而成,其输入为时刻t时的状态-动作-限制对输出为第i个智能体在t+1时刻限制值函数的估计值。
3.根据权利要求2所述的一种基于多智能体生成对抗模仿安全学习的协作围捕方法,其特征在于,所述的步骤5中,基于多智能体生成对抗模仿安全学习对网络参数进行优化训练过程的具体步骤如下所示:
步骤501:对轨迹判别网络策略生成网络/>值估计网络/>和限制估计网络q(st;νi)的参数进行初始化,并设定批量大小B;
步骤502:根据系统初始状态的概率分布η(s0)选取初始状态s0,按照当前策略生成网络产生动作,将动作采取后,从环境中得到后续状态,重复采取步骤502直到得到B个当前策略与环境交互得到的状态-动作-限制对,并将其存入存储模块/>中;
步骤503:在存储模块中随机采样批量大小B个专家状态-动作-限制对,对每一个追捕者的轨迹判别网络/>的参数ωi根据下式优化更新:
其中,E表示求解期望的符号,α1和α2为给定的超参数,α1/α2用以衡量轨迹判别网络对专家轨迹的重视程度,为状态-动作对,/>为得到的B个当前策略轨迹下的状态-动作-限制对,/>为B个专家状态-动作-限制对,/>表示该状态-动作对是否自于专家轨迹的可信程度;
步骤504:计算当前策略轨迹中每个状态-动作-限制对相对应的奖励值,并将其存入存储模块状态-动作-限制对相对应的奖励值与轨迹判别网络的输出值/>有关并通过双曲正切函数进行限制,其表达式为:
其中,rt (i)为奖励函数,由当前状态st和每个智能体的动作at决定,表示时刻为t时,系统状态为st且每个智能体分别采取动作时,各个智能体得到的奖励值,即当前策略轨迹中每个状态-动作-限制对在时刻t相对应的奖励值;
步骤505:根据每个状态-动作-限制对相对应的奖励值通过T步时序-差分误差得到每个状态-动作-限制对的优势函数的估计值,并将其存入存储模块表达式为:
其中,γ为衰减率,T为当前时刻t与当前幕结束点的时间距离,为当前策略轨迹中每个状态-动作-限制对在时刻t+k对应的奖励值,st+T-1和st-1分别表示时刻t+T-1和时刻t-1的系统状态,/>和/>分别为在时刻t+T-1和时刻t-1除第i个智能体外其余智能体采取的动作;
步骤506:将值估计网络的目标函数设为状态价值函数的采样值和值估计网络得到状态价值函数的估计值之间欧氏距离的平方的期望值,依据该目标函数对每一个追捕者的值估计网络参数φi通过下式进行梯度下降优化更新,以得到更准确的值估计网络对状态价值函数的估计值;
其中,为状态价值函数的采样值,|| ||2表示向量之间的欧氏距离;
步骤507:对策略生成网络设置目标函数,再依据下式对每个追捕者的策略生成网络参数θi进行梯度下降优化更新:
其中,A(i)(st,at)为步骤505中每个状态-动作-限制对的优势函数的估计值,λ为开始训练之前给定的一个超参数,为策略生成网络输出动作分布的熵;
步骤508:根据马尔可夫博弈过程的性质,对限制函数进行线性化处理,并根据线性化后的偏差更新每个智能体的限制估计网络q(st;νi)的参数νi:
其中,为第i个智能体t+1时刻的限制值函数的估计值,/>为第i个智能体t+1时刻的限制值函数,at表示各智能体的动作;
步骤509:使用轨迹判别网络判断当前的状态-动作-限制对是否自于专家策略,当轨迹判别网络的输出值在事先给定的目标区间中时,停止训练过程并保存训练过程所获得的参数,至此完成对专家策略轨迹的多智能体生成对抗模仿学习过程,否则重复执行步骤502至步骤508;
步骤510:训练完成后,将策略生成网络输出的每一个智能体动作基于凸优化技术中的拉格朗日对偶法进行安全性校正。
4.根据权利要求3所述的一种基于多智能体生成对抗模仿安全学习的协作围捕方法,其特征在于,所述的步骤510中,通过求解凸优化问题进行安全性校正,凸优化问题如下所示:
其中,aopt为策略生成网络生成的动作,为安全性校正后的动作,Cth为限制函数的阈值,表示围捕过程中智能体不超出给定的边界,该凸优化问题表示选取限制条件成立时使得/>最小的aopt的取值。
5.根据权利要求4所述的一种基于多智能体生成对抗模仿安全学习的协作围捕方法,其特征在于,所述的凸优化问题通过拉格朗日对偶法求解,得到最优解为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111060274.6A CN113723012B (zh) | 2021-09-10 | 2021-09-10 | 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111060274.6A CN113723012B (zh) | 2021-09-10 | 2021-09-10 | 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723012A CN113723012A (zh) | 2021-11-30 |
CN113723012B true CN113723012B (zh) | 2024-04-30 |
Family
ID=78683221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111060274.6A Active CN113723012B (zh) | 2021-09-10 | 2021-09-10 | 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723012B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019185B (zh) * | 2022-08-03 | 2022-10-21 | 华中科技大学 | 类脑连续学习协同围捕方法、系统及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452974B1 (en) * | 2016-11-02 | 2019-10-22 | Jasmin Cosic | Artificially intelligent systems, devices, and methods for learning and/or using a device's circumstances for autonomous device operation |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
EP3690769A1 (en) * | 2019-01-31 | 2020-08-05 | StradVision, Inc. | Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning |
CN111856925A (zh) * | 2020-06-02 | 2020-10-30 | 清华大学 | 基于状态轨迹的对抗式模仿学习方法及装置 |
CN112180724A (zh) * | 2020-09-25 | 2021-01-05 | 中国人民解放军军事科学院国防科技创新研究院 | 一种在干扰条件下多智能体协同合作的训练方法及系统 |
-
2021
- 2021-09-10 CN CN202111060274.6A patent/CN113723012B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452974B1 (en) * | 2016-11-02 | 2019-10-22 | Jasmin Cosic | Artificially intelligent systems, devices, and methods for learning and/or using a device's circumstances for autonomous device operation |
EP3690769A1 (en) * | 2019-01-31 | 2020-08-05 | StradVision, Inc. | Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
CN111856925A (zh) * | 2020-06-02 | 2020-10-30 | 清华大学 | 基于状态轨迹的对抗式模仿学习方法及装置 |
CN112180724A (zh) * | 2020-09-25 | 2021-01-05 | 中国人民解放军军事科学院国防科技创新研究院 | 一种在干扰条件下多智能体协同合作的训练方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于模糊与虚拟力预测的多机器人围捕问题研究;张旭;贾磊磊;李玲;;科技视界;20160705(第19期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113723012A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492763B (zh) | 一种基于强化学习网络训练的自动泊车方法 | |
CN113255936B (zh) | 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置 | |
CN109726866A (zh) | 基于q学习神经网络的无人船路径规划方法 | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
CN114460943B (zh) | 服务机器人自适应目标导航方法及系统 | |
CN111950873A (zh) | 基于深度强化学习的卫星实时引导任务规划方法及系统 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN113392396A (zh) | 面向深度强化学习的策略保护防御方法 | |
CN113561986A (zh) | 自动驾驶汽车决策方法及装置 | |
CN113723012B (zh) | 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 | |
CN116382267B (zh) | 一种基于多模态脉冲神经网络的机器人动态避障方法 | |
CN112163671A (zh) | 一种新能源场景生成方法及系统 | |
CN107016212A (zh) | 基于动态贝叶斯网络的意图分析方法 | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
Wang et al. | Dynamic-horizon model-based value estimation with latent imagination | |
CN113919475B (zh) | 机器人技能学习的方法、装置、电子设备及存储介质 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
CN115542912A (zh) | 一种基于改进Q-learning算法的移动机器人路径规划方法 | |
CN115660052A (zh) | 一种融合后见之明思想的群体智能学习方法 | |
Chavali et al. | Modelling a Reinforcement Learning Agent For Mountain Car Problem Using Q–Learning With Tabular Discretization | |
Cao et al. | A realtime Q-Learning method for unmanned surface vehicle target tracking | |
Chen et al. | The determination of reward function in agv motion control based on dqn | |
Zuo et al. | Flight attitude simulator control system design based on model-free reinforcement learning method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |