CN115903820A - 多无人艇追逃博弈控制方法 - Google Patents

多无人艇追逃博弈控制方法 Download PDF

Info

Publication number
CN115903820A
CN115903820A CN202211507056.7A CN202211507056A CN115903820A CN 115903820 A CN115903820 A CN 115903820A CN 202211507056 A CN202211507056 A CN 202211507056A CN 115903820 A CN115903820 A CN 115903820A
Authority
CN
China
Prior art keywords
observer
game
pursuit
equation
chaser
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211507056.7A
Other languages
English (en)
Inventor
柳春
刘阳阳
王曰英
任肖强
汪小帆
孟亦真
刘晗笑
史悦
夏志伟
王星科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202211507056.7A priority Critical patent/CN115903820A/zh
Publication of CN115903820A publication Critical patent/CN115903820A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明提供了一种多无人艇追逃博弈控制方法,包括:无人艇追逃时,在追击方的控制算法中引入序贯决策,进行“自我博弈”;观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及控制器接收观测器的最优响应,根据所述最优响应重新解算追击方的最优控制,如此交替进行,形成序贯决策;在该序贯决策基础之上,设计一种新型奖励函数形式并应用强化学习控制算法,完成多无人艇围捕任务。

Description

多无人艇追逃博弈控制方法
技术领域
本发明涉及无人艇技术领域,特别涉及一种多无人艇追逃博弈控制方法。
背景技术
近年来,随着陆地燃料资源的枯竭,占据地球面积约71%的海洋战略地位随之不断提高。为充分勘探和开采海洋资源,海洋装备技术的发展不可或缺。以无人艇(包括水下航行体、水下机器人、水面无人船等)为代表的海洋智能装备是现阶段海上作业的主要载体。
集群无人舰艇是指一组编队的多个无人舰艇。近年来,集群无人舰艇的应用日益增长,目前,集群无人艇已经在诸如围捕、驱离、扫雷、反潜之类的军事领域以及诸如物资补给、地形测绘、海面营救、无人搜索之类的民事领域发挥重要作用。
但对于无人艇集群的追逃博弈控制,目前还未有比较有效的算法能够进入到实际应用。
发明内容
本发明的目的在于提供一种多无人艇追逃博弈控制方法,以解决现有的算法无法满足无人艇集群的追逃博弈控制需求的问题。
为解决上述技术问题,本发明提供一种多无人艇追逃博弈控制方法,包括:
无人艇追逃时,在追击方的控制算法中引入序贯决策,进行自我博弈;
观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及
控制器接收观测器的最优响应,并根据所述最优响应重新解算追击方的最优控制,其中执行一次或多次所述重新解算以形成序贯决策。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
协同观测器和强化学习的博弈,使得观测器作为跟随者以处理不确定性,所述不确定性包括外部干扰和建模误差;
以强化学习为控制器,形成领导者;
通过观测器与控制器的序贯博弈,使得强化学习算法能够应对外部干扰和建模误差,并达到Nash均衡,实现博弈协同围捕。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
根据避障、追踪、环绕、控制量消耗设置奖励函数;
使用互惠速度障碍法设置避障奖励,同时处理其它静态、动态障碍物的避障问题;
使用势能函数设置追踪奖励和环绕奖励,势能函数在阈值距离内,避障需求时停止势能增长。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
在多无人艇追逃博弈中,将每一个追击者设定为一个子系统;
以该子系统的观测器作为跟随者处理外部干扰和建模误差等在内的不确定性;
基于强化学习设计该子系统的控制器,形成领导者;
通过观测器增强基于强化学习设计的领导者与环境的交互,提高控制性能,反之利用控制性能的提升提高观测器的观测性能;
根据该过程,建立领导者与跟随者之间的序贯博弈图;
逃逸无人艇策略采用固有模型与策略。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤一:根据常规无人艇摇摆、偏航、滚转运动方程:
Figure BDA0003969475770000031
其中vi(t),ri(t),ψi(t),pi(t),φi(t),ui(t)且fψi(t),fφi(t)分别表示为第i个跟随无人艇的摇摆速度、偏航速度、偏航角、滚转速度、滚转角、方向舵偏角以及未知不确定性,ζ,ωn表示为阻尼比和自然频率,Tv,Tr表示为时间常数,Kdv,Kdr,Kvr,Kdp,Kvp表示为无人艇系统增益;
步骤二:根据步骤中i个跟随无人艇的摇摆、偏航、滚转运动方程,定义跟随无人艇动态方程的系统状态xi(t),角度传感器测输出yi(t)、波浪,风扰等其他因素引起的未知不确定性fi(t)分别为xi(t)=[vi(t)ri(t)ψi(t)pi(t)φi(t)]T,yi(t)=[ψi(t)φi(t)]T,fi(t)=[fψi(t)fφi(t)]T,得无人艇跟随动态方程表示如下:
Figure BDA0003969475770000032
Figure BDA0003969475770000033
将各无人艇子系统的动态方程简写为:
Figure BDA0003969475770000034
步骤三:设计无人艇子系统i的观测器,具体为:
Figure BDA0003969475770000035
其中L为观测器参数矩阵;
系统误差
Figure BDA0003969475770000041
Figure BDA0003969475770000042
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤四:为形成完整的序贯博弈过程,引入一个辅助控制律vi,使得观测器与控制器形成非协作博弈,设计如下观测器以改进步骤三中观测器的设计:
Figure BDA0003969475770000043
引入如下的性能指标函数来优化观测器性能:
Figure BDA0003969475770000044
其中ui TGvi一项代表子系统i对子观测器i的影响,且Q,R,G是对称正定矩阵,用于调节性能指标函数中各约束的之间的权重比。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤五:在追击者的序贯博弈决策中,需要首先考虑追击者i子观测器的最优响应,假定子系统i的控制律ui在博弈开始时首先初始化为容许控制,并引入如下的子观测器哈密顿函数:
Figure BDA0003969475770000045
其中
Figure BDA0003969475770000046
是性能指标对
Figure BDA0003969475770000047
的偏导数;
最优的性能指标
Figure BDA0003969475770000048
的值满足哈密顿-雅可比(HJ)等式:
Figure BDA0003969475770000049
求解等式(10)的必要条件是
Figure BDA00039694757700000410
Figure BDA00039694757700000411
理想情况下
Figure BDA00039694757700000412
此时
Figure BDA00039694757700000413
使用自适应动态规划求解,得最优的辅助控制律为:
Figure BDA0003969475770000051
将式(12)代入到式(10)所示的哈密顿-雅可比(HJ)等式中:
Figure BDA0003969475770000052
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤六:在第五步的基础上,引入如下追击者子系统i基于强化学习的控制领导者优化目标函数:
Figure BDA0003969475770000053
设计控制律
Figure BDA0003969475770000054
使得下式成立:
Figure BDA0003969475770000055
其中
Figure BDA0003969475770000056
一项减小控制量的消耗,
Figure BDA0003969475770000057
一项引入辅助控制律,以形成完整的序贯非协作博弈;δi是奖励函数,由三部分组成:分别为起局部避障作用的
Figure BDA0003969475770000058
起追踪逃逸者作用的追踪势能
Figure BDA0003969475770000059
以及起环航包围作用的环绕势能
Figure BDA00039694757700000510
L、I是对称正定矩阵,k0、k1、k2为正的超参数,考虑到在追上逃逸者之后再进行围捕,k1应当略大于k2
Figure BDA00039694757700000511
Figure BDA00039694757700000512
Figure BDA00039694757700000513
Figure BDA00039694757700000514
式(17)中,vt表示当前速度,通过判断vt是否属于互惠速度障碍法区域,从而奖励不同;
a,b,c,d,e,f是调节策略性能的恒定值,diffv表示当前无人艇的速度和期望速度的差值,ξ为当前速度下,与障碍物发生碰撞的预期最短时间;
对于式(18)和式(19),die,de0分别是当前追逐者与逃逸者之间的实际距离与期望距离,ε为可调的超参数;如果dij<α,则视为智能体之间发生了碰撞,α是一个小的正常数;所以不会出现dij=0的情况,同理不会出现die=0的情况;bij是指示函数,如式(20)所示,其中drange表示环航势能的作用距离,且drange<de0/m,m>1为常数;意味着:以当前追捕者为圆心,drange为半径的区域,当前追捕者仅与此区域内的其他追捕者发生环航围绕的势能作用;
Figure BDA0003969475770000061
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
将不等长的环境状态序列转化为等长的状态序列,使用BiGRU双向循环门控单元处理不等长环境状态序列,其中
Figure BDA0003969475770000062
表示追击者探测范围内探测到的第i个障碍物的状态信息,且oself表示当前无人艇自身的状态信息,h∈Rmx1表示经由BiGRU提取的第i个追击者探测范围内的环境状态信息;
则可将当前追击者的环境状态信息表示为:
Figure BDA0003969475770000063
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤八:使用强化学习设计控制器,强化学习算法框架采用近似策略优化算法,根据式(14)的损失函数,定义如下的动作价值函数:
Figure BDA0003969475770000064
在时间间隔(t,t+h]的局部动作奖励函数可定义为:
Figure BDA0003969475770000065
h为每次采样的时间间隔,设
Figure BDA0003969475770000066
当h→0时,近似有式(24)成立:
Figure BDA0003969475770000071
因此定义即时奖励函数如式(24)所示,则折扣回报Gt如式(25)所示,其中γ是折扣系数:
Gt=Rt+γRt+12Rt+23Rt+3+… (50)
记当前无人艇的状态为
Figure BDA0003969475770000072
动作为u,策略为π。动作价值函数Q-value和状态价值函数V-value为:
Qπ(st,ut)=Eπ(Gt|St=st,Ut=ut) (51)
Vπ(st)=Eπ(Gt|St=st) (52)
已知系统状态方程、即时奖励函数,以及状态st和动作ut信息,根据强化学习中的近似策略优化算法,对价值函数和策略函数进行拟合,并通过策略网络给出最优控制ut
步骤九:基于步骤八中产生的子系统的最优控制律
Figure BDA0003969475770000073
在步骤五中引入
Figure BDA0003969475770000074
并最小化性能指标得到最优的辅助控制律
Figure BDA0003969475770000075
并重复此序贯博弈过程,从而完成对逃逸者的追击围捕。
本发明的发明人通过研究发现,当前使用强化学习算法完成无人艇的追逃任务时,多未考虑环境不确定性,如风扰、浪扰,以及建模不确定性带来的误差,使得设计的算法难以落地应用。
其次,在使用模型依赖的纯粹控制算法处理追逃任务时,经常遇到欠驱动、非线性等困难,最优控制律往往难以求解。
另外,现有的强化学习控制技术,往往以控制目标(效果)为导向,很少考虑控制能量的消耗问题,在实际应用中,耗能最少的控制策略设计及求解仍待进一步研究。
最后,当前在追逃问题中奖励函数的设计多基于无人艇的绝对位置,未考虑相对速度、加速度等带来的碰撞风险,制约了控制效果的进一步提升,同时还需要大量的离线与在线训练。
基于以上洞察,本发明提供了一种多无人艇追逃博弈控制方法,通过在追击方的控制算法中引入序贯决策,进行“自我博弈”:面对外部干扰及系统不确定性等的未知因素,观测器是一类有效解决问题的方法,引入观测器来解决该未知因素,而后,辅助控制器提高控制效果,解决了使用强化学习算法进行追逃博弈时,由强化学习的“试错-纠正”特性带来的不确定性难以处理、算法策略难以实际应用的问题。
附图说明
图1是本发明一实施例的领导者与跟随者之间的序贯博弈示意图;
图2是本发明一实施例的基于强化学习的追击者控制算法流程图示意图;
图3是本发明一实施例的式(18)势能函数图像示意图;
图4是本发明一实施例的无人艇对障碍物的探测示意图;
图5是本发明一实施例的提取环境特征示意图;
图6是本发明一实施例的利用PPO算法输出动作ut示意图;
图7是本发明一实施例的序贯决策工作流程示意图。
具体实施方式
下面结合具体实施方式参考附图进一步阐述本发明。
应当指出,各附图中的各组件可能为了图解说明而被夸大地示出,而不一定是比例正确的。在各附图中,给相同或功能相同的组件配备了相同的附图标记。
在本发明中,除非特别指出,“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外,“布置在…上或上方”仅仅表示两个部件之间的相对位置关系,而在一定情况下、如在颠倒产品方向后,也可以转换为“布置在…下或下方”,反之亦然。
在本发明中,各实施例仅仅旨在说明本发明的方案,而不应被理解为限制性的。
在本发明中,除非特别指出,量词“一个”、“一”并未排除多个元素的场景。
在此还应当指出,在本发明的实施例中,为清楚、简单起见,可能示出了仅仅一部分部件或组件,但是本领域的普通技术人员能够理解,在本发明的教导下,可根据具体场景需要添加所需的部件或组件。另外,除非另行说明,本发明的不同实施例中的特征可以相互组合。例如,可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征,所得到的实施例同样落入本申请的公开范围或记载范围。
在此还应当指出,在本发明的范围内,“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等,而是允许一定的合理误差,也就是说,所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推,在本发明中,表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。
另外,本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出,各方法步骤可以以不同顺序执行。
以下结合附图和具体实施例对本发明提出的多无人艇追逃博弈控制方法作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
本发明的目的在于提供一种多无人艇追逃博弈控制方法,以解决现有的算法无法满足无人艇集群的追逃博弈控制需求的问题。
为实现上述目的,本发明提供了一种多无人艇追逃博弈控制方法,包括:无人艇追逃时,在追击方的控制算法中引入序贯决策,进行“自我博弈”;观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及控制器接收观测器的最优响应,根据所述最优响应重新解算追击方的最优控制,如此交替进行,形成序贯决策。
图1~7提供了本发明的实施例,本发明解决了使用强化学习算法进行追逃博弈时,由强化学习的“试错-纠正”特性带来的不确定性难以处理、算法策略难以实际应用的问题。
无人艇追逃任务中,在追击方的控制算法中引入序贯决策,进行“自我博弈”:面对外部干扰及系统不确定性等的未知因素,观测器是一类有效解决问题的方法。在本专利中,引入观测器来解决该未知因素,而后,辅助控制器提高控制效果。观测器方首先根据控制器给出的最优控制,解算出观测器方的最优响应,用以逼近追击方群体中存在的不确定性。之后,控制器接收到观测器的最优响应信息,并在此基础上重新解算追击方的最优控制,如此交替进行,形成序贯决策。在执行追逃任务时,序贯博弈方式的引入能够提高追击方的群体协作能力,从而增加追捕的成功率,减小追捕包围所需要的时间,且追捕过程更加平稳,具有更优的性能。
观测器和强化学习的博弈协同设计:综合利用观测器和强化学习控制的优点,以观测器作为跟随者处理环境不确定性;以强化学习为控制器,形成领导者。通过观测器与控制器的序贯博弈,使得设计的算法能够应对外部干扰、建模误差等不确定性因素,并达到Nash均衡,实现博弈协同围捕的目标。
更优的强化学习算法性能:由于观测器的引入,使得智能体能够不完全依赖于实际环境的观测数据,并能够产生基于模型的数据,在获得足够训练数据的同时,避免了与实际环境直接交互带来的危险性,从而保障强化学习算法的训练以及性能。
奖励函数的设计综合考虑避障、追踪、环绕、控制量消耗:使用互惠速度障碍法(Reciprocal Velocity Obstacle)RVO设计避障奖励。基于RVO的特性,设计的避障算法比传统的势能避障方法具有更优的性能,且不仅能避免和其它无人艇发生碰撞,而且可以同时处理其它静态、动态障碍物的避障问题;使用势能函数设计追踪和环绕的奖励,设计的势能函数能在较近距离,避障需求时停止势能增长。从而使得三部分奖励合理分配作用区域;由于在奖励函数的设计中考虑了控制量的消耗问题,使得设计的算法能兼顾资源节约。
在多无人艇追逃博弈中,将每一个追击者设定为一个子系统。以该子系统的观测器作为跟随者处理环境不确定性;同时,基于强化学习来设计该子系统的控制器,形成领导者。通过观测器这一跟随者增强基于强化学习设计的控制领导者与环境的交互,提高控制性能,反之,控制性能的提升能够提高观测器跟随者的观测性能。根据该过程,建立如下的领导者(子系统)与跟随者(子观测器)之间的序贯博弈图(如图1所示)。图2为设计的基于强化学习的追击者控制算法流程图,同时,逃逸无人艇策略采用固有模型与策略。
步骤一:根据常规无人艇摇摆、偏航、滚转运动方程:
Figure BDA0003969475770000111
其中vi(t),ri(t),ψi(t),pi(t),φi(t),ui(t)且fψi(t),fφi(t)分别表示为第i个跟随无人艇的摇摆速度、偏航速度、偏航角、滚转速度、滚转角、方向舵偏角以及未知不确定性,ζ,ωn表示为阻尼比和自然频率,Tv,Tr表示为时间常数,Kdv,Kdr,Kvr,Kdp,Kvp表示为无人艇系统增益。
步骤二:根据步骤中i个跟随无人艇的摇摆、偏航、滚转运动方程,定义跟随无人艇动态方程的系统状态xi(t),角度传感器可测输出yi(t)、波浪,风扰等其他因素引起的未知不确定性fi(t)分别为xi(t)=[vi(t)ri(t)ψi(t)pi(t)φi(t)]T,yi(t)=[ψi(t)φi(t)]T,fi(t)=[fψi(t)fφi(t)]T,可得无人艇跟随动态方程表示如下:
Figure BDA0003969475770000112
Figure BDA0003969475770000113
为了便于后续的阐述,本发明将各无人艇子系统的动态方程简写为:
Figure BDA0003969475770000114
步骤三:设计无人艇子系统i的观测器,具体为:
Figure BDA0003969475770000121
其中L为观测器参数矩阵;
系统误差
Figure BDA0003969475770000122
Figure BDA0003969475770000123
步骤四:为形成完整的序贯博弈过程,引入一个辅助控制律vi,使得观测器与控制器形成非协作博弈,进而,设计如下观测器以改进步骤三中观测器的设计:
Figure BDA0003969475770000124
同时,引入如下的性能指标函数来优化观测器性能:
Figure BDA0003969475770000125
其中ui TGvi一项代表子系统i对子观测器i的影响,且Q,R,G是对称正定矩阵,用于调节性能指标函数中各约束的之间的权重比。
步骤五:在追击者的序贯博弈决策中,需要首先考虑追击者i子观测器的最优响应(辅助控制律),假定子系统i的控制律ui在博弈开始时首先初始化为容许控制,并引入如下的子观测器哈密顿函数:
Figure BDA0003969475770000126
其中
Figure BDA0003969475770000127
是性能指标对
Figure BDA0003969475770000128
的偏导数。
最优的性能指标
Figure BDA0003969475770000129
的值满足哈密顿-雅可比(HJ)等式:
Figure BDA00039694757700001210
求解等式(10)的必要条件是
Figure BDA00039694757700001211
Figure BDA00039694757700001212
理想情况下
Figure BDA00039694757700001213
此时
Figure BDA00039694757700001214
使用ADP(自适应动态规划,一种根据性能指标求解最优控制律的方法)求解,可得最优的辅助控制律为:
Figure BDA0003969475770000131
将式(12)代入到式(10)所示的哈密顿-雅可比(HJ)等式中:
Figure BDA0003969475770000132
步骤六:在第五步的基础上,引入如下追击者子系统i基于强化学习的控制领导者优化目标函数:
Figure BDA0003969475770000133
设计控制律
Figure BDA0003969475770000134
使得下式成立:
Figure BDA0003969475770000135
其中
Figure BDA0003969475770000136
一项是为了减小控制量的消耗,
Figure BDA0003969475770000137
一项引入了辅助控制律,以形成完整的序贯非协作博弈。δi是奖励函数(定义为越小越好),由三部分组成:分别为起局部避障作用的
Figure BDA0003969475770000138
起追踪逃逸者作用的追踪势能
Figure BDA0003969475770000139
以及起环航包围作用的环绕势能
Figure BDA00039694757700001310
(即让追捕者在逃逸者周围围成一圈),L、I是对称正定矩阵,k0、k1、k2为正的超参数,考虑到在追上逃逸者之后再进行围捕,k1应当略大于k2
Figure BDA00039694757700001311
Figure BDA00039694757700001312
Figure BDA00039694757700001313
Figure BDA00039694757700001314
式(17)中,vt表示当前速度,通过判断vt是否属于RVO区域(速度域),从而奖励有所不同,RVO(互惠速度障碍法)是一种避障算法,它能同时考虑当前智能体的位置和相对速度,因此在避障算法中具有良好的表现,本发明根据RVO设计避障部分的奖励函数。a,b,c,d,e,f是可以调节策略性能的恒定值,diffv表示当前无人艇的速度和期望速度的差值,ξ为当前速度下,与障碍物发生碰撞的预期最短时间。对于式(18)和式(19),die,de0分别是当前追逐者(子系统)与逃逸者之间的实际距离与期望距离,ε为可调的超参数。如果dij<α,则视为智能体之间发生了碰撞,α是一个小的正常数。所以不会出现dij=0的情况,同理不会出现die=0的情况。bij是指示函数,如式(20)所示,其中drange表示环航势能的作用距离,且drange<de0/m,m>1为常数。意味着:以当前追捕者为圆心,drange为半径的区域,当前追捕者仅与此区域内的其他追捕者发生环航围绕的势能作用。
Figure BDA0003969475770000141
接下来具体解释奖励函数的三个部分:
起避障作用的RVO奖励函数
Figure BDA0003969475770000142
RVO放弃危险速度的设定可以很大程度上保证智能体之间不会发生碰撞,且该部分会与另外两个势能交叉起作用,能进一步约束较近距离的避障问题,随着智能体之间的距离变远,RVO的作用越来越小,此时主要是另外两个势能函数在起作用。
起追踪逃逸者作用的追踪势能
Figure BDA0003969475770000143
它的作用是拉近当前追捕者和逃逸者之间距离,直到保持在一个期望距离de0(此时势能为0)。式(18)的函数图像如图3所示(取de0=5):在大于5的部分:势能几乎是沿着y=x线性增长的,这样即可以避免归一化,也可以避免因势能过大导致训练困难。因为在两个智能体较远时,比如初始化时刻,追捕者与逃逸者有比较大的距离,此时势能较大,归一化后,这部分差距会变得很小,若此时追捕者和逃逸者缩短距离,得到的奖励比上一时刻增长的很小或者几乎不增加,再加上3部分的奖励函数互相交叠的作用,其实就可以视奖励为不增长,那么就不会鼓励逃逸者靠近追捕者。在小于5的部分:在(ε,5)区间由本部分的势能函数和RVO奖励共同约束,使得两个智能体距离不至于太近。但若两个智能体的距离接近到了一定程度,即(0,ε)区间,则在原势能停止增长,使用RVO奖励单独约束,避免两部分奖励的过度交叠。(在近距离的时候,多个奖励函数一起作用、相互交叠,且此时的势能增长还比较迅速,会带来未知的因素和训练困难。因此人为指定一个作用距离ε,当两个智能体之间的距离缩小到ε时,势能不再增长,而保持一个恒值,此时由RVO单独起作用。)
起包围作用的环航势能
Figure BDA0003969475770000151
大体和第2点的追踪势能一致,区别在于引入了指示函数:约束当前追捕者只需要与左右邻居进行协同,完成围绕功能。
步骤七:考虑到起避障作用的RVO奖励一项:每个追击者周围的障碍物(其他无人艇)数量不固定,如图4所示:左侧为情况1,探测范围内两个障碍物,右侧为情况2,探测范围内三个障碍物。强化学习算法中的神经网络框架无法处理不等长的环境状态序列(每次送入同一神经网络的序列,且长度不一致),需要先将不等长的环境状态序列转化为等长的状态序列。本算法使用BiGRU双向循环门控单元处理不等长环境状态序列,如图5所示。其中
Figure BDA0003969475770000152
表示追击者探测范围内探测到的第i个障碍物(其他无人艇,不包括自己)的状态信息(速度信息(vx,vy),位置信息(px,py)),且oself表示当前无人艇自身的状态信息(不包括其他无人艇),h∈Rmx1表示经由BiGRU提取的第i个追击者探测范围内的环境状态信息(即,当前无人艇一定范围内的障碍物总体特征)。
则可将当前追击者的环境状态信息表示为:
Figure BDA0003969475770000153
步骤八:使用强化学习设计控制器,强化学习算法框架采用PPO(近似策略优化算法,一种强化学习算法,具有优良性能的同时兼具很好的平稳性。通过一段时间的训练,可使得算法采用的神经网络具备以下功能:根据输入的状态信息,输出在该状态下能使得被控对象达到预期目标的最佳动作),根据式(14)的损失函数,定义如下的动作价值函数:
Figure BDA0003969475770000154
在时间间隔(t,t+h]的局部动作奖励函数可定义为:
Figure BDA0003969475770000161
h为每次采样的时间间隔,设
Figure BDA0003969475770000162
当h→0时,可近似有式(24)成立:
Figure BDA0003969475770000163
因此可定义即时奖励函数如式(24)所示,则折扣回报Gt如式(25)所示,其中γ是折扣系数:
Gt=Rt+γRt+12Rt+23Rt+3+… (77)
记当前无人艇的状态为
Figure BDA0003969475770000164
动作为u,策略为π。动作价值函数Q-value和状态价值函数V-value为:
Qπ(st,ut)=Eπ(Gt|St=st,Ut=ut) (78)
Vπ(st)=Eπ(Gt|St=st) (79)
如图6所示,已知系统状态方程(环境)、即时奖励函数,以及状态st和动作ut信息,可根据强化学习中的PPO算法,对价值函数和策略函数进行拟合,并通过策略网络给出最优控制ut
步骤九:如图7所示,基于步骤八中产生的子系统的最优控制律
Figure BDA0003969475770000165
在步骤五中引入
Figure BDA0003969475770000166
并最小化性能指标得到最优的辅助控制律
Figure BDA0003969475770000167
并重复此序贯博弈过程,从而完成对逃逸者的追击围捕。
综上,上述实施例对多无人艇追逃博弈控制方法的不同构型进行了详细说明,当然,本发明包括但不局限于上述实施中所列举的构型,任何在上述实施例提供的构型基础上进行变换的内容,均属于本发明所保护的范围。本领域技术人员可以根据上述实施例的内容举一反三。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (10)

1.一种多无人艇追逃博弈控制方法,其特征在于,包括:
无人艇追逃时,在追击方的控制算法中引入序贯决策,进行自我博弈;
观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及
控制器接收观测器的最优响应,并根据所述最优响应重新解算追击方的最优控制,其中执行一次或多次所述重新解算以形成序贯决策。
2.如权利要求1所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
协同观测器和强化学习的博弈,使得观测器作为跟随者以处理不确定性,所述不确定性包括外部干扰和建模误差;
以强化学习为控制器,形成领导者;以及
通过观测器与控制器的序贯博弈,使得强化学习算法能够应对外部干扰和建模误差,并达到Nash均衡,实现博弈协同围捕。
3.如权利要求1所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
根据避障、追踪、环绕、控制量消耗设置奖励函数;
使用互惠速度障碍法设置避障奖励,同时处理其它静态、动态障碍物的避障问题;
使用势能函数设置追踪奖励和环绕奖励,势能函数在阈值距离内,避障需求时停止势能增长。
4.如权利要求1所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
在多无人艇追逃博弈中,将每一个追击者设定为一个子系统;
以该子系统的观测器作为跟随者处理不确定性;
基于强化学习设计该子系统的控制器,形成领导者;
通过观测器增强基于强化学习设计的领导者与环境的交互,提高控制性能,反之利用控制性能的提升提高观测器的观测性能;
根据该过程,建立领导者与跟随者之间的序贯博弈图;
逃逸无人艇策略采用固有模型与策略。
5.如权利要求1所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
步骤一:根据常规无人艇摇摆、偏航、滚转运动方程:
Figure FDA0003969475760000021
其中vi(t),ri(t),ψi(t),pi(t),φi(t),ui(t)且fψi(t),fφi(t)分别表示为第i个跟随无人艇的摇摆速度、偏航速度、偏航角、滚转速度、滚转角、方向舵偏角以及未知不确定性,ζ,ωn表示为阻尼比和自然频率,Tv,Tr表示为时间常数,Kdv,Kdr,Kvr,Kdp,Kvp表示为无人艇系统增益;
步骤二:根据步骤中i个跟随无人艇的摇摆、偏航、滚转运动方程,定义跟随无人艇动态方程的系统状态xi(t),角度传感器测输出yi(t)、波浪,风扰等其他因素引起的未知不确定性fi(t)分别为xi(t)=[vi(t)ri(t)ψi(t)pi(t)φi(t)]T,yi(t)=[ψi(t)φi(t)]T,fi(t)=[fψi(t)fφi(t)]T,得无人艇跟随动态方程表示如下:
Figure FDA0003969475760000022
Figure FDA0003969475760000023
将各无人艇子系统的动态方程简写为:
Figure FDA0003969475760000024
步骤三:设计无人艇子系统i的观测器,具体为:
Figure FDA0003969475760000031
其中L为观测器参数矩阵;
系统误差
Figure FDA0003969475760000032
Figure FDA0003969475760000033
6.如权利要求5所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
步骤四:为形成完整的序贯博弈过程,引入一个辅助控制律vi,使得观测器与控制器形成非协作博弈,设计如下观测器以改进步骤三中观测器的设计:
Figure FDA0003969475760000034
引入如下的性能指标函数来优化观测器性能:
Figure FDA0003969475760000035
其中ui TGvi一项代表子系统i对子观测器i的影响,且Q,R,G是对称正定矩阵,用于调节性能指标函数中各约束的之间的权重比。
7.如权利要求6所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
步骤五:在追击者的序贯博弈决策中,需要首先考虑追击者i子观测器的最优响应,假定子系统i的控制律ui在博弈开始时首先初始化为容许控制,并引入如下的子观测器哈密顿函数:
Figure FDA0003969475760000036
其中
Figure FDA0003969475760000037
是性能指标对
Figure FDA0003969475760000038
的偏导数;
最优的性能指标
Figure FDA0003969475760000039
的值满足哈密顿-雅可比等式:
Figure FDA00039694757600000310
求解等式(10)的必要条件是
Figure FDA0003969475760000041
Figure FDA0003969475760000042
理想情况下
Figure FDA0003969475760000043
此时
Figure FDA0003969475760000044
使用自适应动态规划求解,得最优的辅助控制律为:
Figure FDA0003969475760000045
将式(12)代入到式(10)所示的哈密顿-雅可比(HJ)等式中:
Figure FDA0003969475760000046
8.如权利要求7所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
步骤六:在第五步的基础上,引入如下追击者子系统i基于强化学习的控制领导者优化目标函数:
Figure FDA0003969475760000047
设计控制律
Figure FDA0003969475760000048
使得下式成立:
Figure FDA0003969475760000049
其中
Figure FDA00039694757600000410
一项减小控制量的消耗,
Figure FDA00039694757600000411
一项引入辅助控制律,以形成完整的序贯非协作博弈;δi是奖励函数,由三部分组成:分别为起局部避障作用的
Figure FDA00039694757600000412
起追踪逃逸者作用的追踪势能
Figure FDA00039694757600000413
以及起环航包围作用的环绕势能
Figure FDA00039694757600000414
L、I是对称正定矩阵,k0、k1、k2为正的超参数,考虑到在追上逃逸者之后再进行围捕,k1应当略大于k2
Figure FDA00039694757600000415
Figure FDA00039694757600000416
Figure FDA00039694757600000417
Figure FDA0003969475760000051
式(17)中,vt表示当前速度,通过判断vt是否属于互惠速度障碍法区域,从而奖励不同;
a,b,c,d,e,f是调节策略性能的恒定值,diffv表示当前无人艇的速度和期望速度的差值,ξ为当前速度下,与障碍物发生碰撞的预期最短时间;
对于式(18)和式(19),die,de0分别是当前追逐者与逃逸者之间的实际距离与期望距离,ε为可调的超参数;如果dij<α,则视为智能体之间发生了碰撞,α是一个小的正常数;所以不会出现dij=0的情况,同理不会出现die=0的情况;bij是指示函数,如式(20)所示,其中drange表示环航势能的作用距离,且drange<de0/m,m>1为常数;意味着:以当前追捕者为圆心,drange为半径的区域,当前追捕者仅与此区域内的其他追捕者发生环航围绕的势能作用;
Figure FDA0003969475760000052
9.如权利要求8所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
将不等长的环境状态序列转化为等长的状态序列,使用BiGRU双向循环门控单元处理不等长环境状态序列,其中
Figure FDA0003969475760000053
表示追击者探测范围内探测到的第i个障碍物的状态信息,且oself表示当前无人艇自身的状态信息,h∈Rmx1表示经由BiGRU提取的第i个追击者探测范围内的环境状态信息;
则可将当前追击者的环境状态信息表示为:
Figure FDA0003969475760000054
10.如权利要求9所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
步骤八:使用强化学习设计控制器,强化学习算法框架采用近似策略优化算法,根据式(14)的损失函数,定义如下的动作价值函数:
Figure FDA0003969475760000061
在时间间隔(t,t+h]的局部动作奖励函数可定义为:
Figure FDA0003969475760000062
h为每次采样的时间间隔,设
Figure FDA0003969475760000063
当h→0时,近似有式(24)成立:
Figure FDA0003969475760000064
因此定义即时奖励函数如式(24)所示,则折扣回报Gt如式(25)所示,其中γ是折扣系数:
Gt=Rt+γRt+12Rt+23Rt+3+… (24)
记当前无人艇的状态为
Figure FDA0003969475760000065
动作为u,策略为π;动作价值函数Q-value和状态价值函数V-value为:
Qπ(st,ut)=Eπ(Gt|St=st,Ut=ut) (25)
Vπ(st)=Eπ(Gt|St=st) (26)
已知系统状态方程、即时奖励函数,以及状态st和动作ut信息,根据强化学习中的近似策略优化算法,对价值函数和策略函数进行拟合,并通过策略网络给出最优控制ut
步骤九:基于步骤八中产生的子系统的最优控制律
Figure FDA0003969475760000066
在步骤五中引入
Figure FDA0003969475760000067
并最小化性能指标得到最优的辅助控制律
Figure FDA0003969475760000068
并重复此序贯博弈过程,从而完成对逃逸者的追击围捕。
CN202211507056.7A 2022-11-29 2022-11-29 多无人艇追逃博弈控制方法 Pending CN115903820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211507056.7A CN115903820A (zh) 2022-11-29 2022-11-29 多无人艇追逃博弈控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211507056.7A CN115903820A (zh) 2022-11-29 2022-11-29 多无人艇追逃博弈控制方法

Publications (1)

Publication Number Publication Date
CN115903820A true CN115903820A (zh) 2023-04-04

Family

ID=86475883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211507056.7A Pending CN115903820A (zh) 2022-11-29 2022-11-29 多无人艇追逃博弈控制方法

Country Status (1)

Country Link
CN (1) CN115903820A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117434968A (zh) * 2023-12-19 2024-01-23 华中科技大学 一种基于分布式a2c的多无人机追逃博弈方法及系统
CN118363386A (zh) * 2024-06-18 2024-07-19 中南大学 一种无人艇集群的追逃博弈控制方法、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117434968A (zh) * 2023-12-19 2024-01-23 华中科技大学 一种基于分布式a2c的多无人机追逃博弈方法及系统
CN117434968B (zh) * 2023-12-19 2024-03-19 华中科技大学 一种基于分布式a2c的多无人机追逃博弈方法及系统
CN118363386A (zh) * 2024-06-18 2024-07-19 中南大学 一种无人艇集群的追逃博弈控制方法、设备及介质
CN118363386B (zh) * 2024-06-18 2024-09-17 中南大学 一种无人艇集群的追逃博弈控制方法、设备及介质

Similar Documents

Publication Publication Date Title
Zhao et al. Path following optimization for an underactuated USV using smoothly-convergent deep reinforcement learning
Dai et al. Adaptive leader–follower formation control of underactuated surface vehicles with guaranteed performance
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109976349B (zh) 一种含约束无人船的路径跟踪制导与控制结构的设计方法
Hadi et al. Deep reinforcement learning for adaptive path planning and control of an autonomous underwater vehicle
CN115903820A (zh) 多无人艇追逃博弈控制方法
CN108255060B (zh) 基于极限学习机的船舶动力定位自抗扰控制方法
Fan et al. Course keeping control based on integrated nonlinear feedback for a USV with pod-like propulsion
CN115016277B (zh) 一种考虑船间事件触发通信的多船分布式容错控制方法
Su et al. Fixed-time formation of AUVs with disturbance via event-triggered control
Zhuang et al. Motion control and collision avoidance algorithms for unmanned surface vehicle swarm in practical maritime environment
Zhang et al. Tracking fault-tolerant control based on model predictive control for human occupied vehicle in three-dimensional underwater workspace
CN114089749A (zh) 无人艇运动控制抗扰控制器及方法
Luo et al. Observer-based adaptive integral terminal sliding mode formation control for a vessel train with obstacle avoidance
You et al. Adaptive neural sliding mode control for heterogeneous ship formation keeping considering uncertain dynamics and disturbances
Wang et al. A greedy navigation and subtle obstacle avoidance algorithm for USV using reinforcement learning
CN117452827B (zh) 一种欠驱动无人艇轨迹跟踪控制方法
Sun et al. An anti-rolling control method of rudder fin system based on ADRC decoupling and DDPG parameter adjustment
Amendola et al. Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning
Chen et al. Approximate Optimal Adaptive Prescribed Performance Fault-Tolerant Control for Autonomous Underwater Vehicle Based on Self-Organizing Neural Networks
Fan et al. Path-Following Control of Unmanned Underwater Vehicle Based on an Improved TD3 Deep Reinforcement Learning
Zhang et al. Event-Based Affine Formation Maneuver Control for Multi-ASV Systems With Input Saturation
Yang et al. Trajectory tracking with external disturbance of bionic underwater robot based on CPG and robust model predictive control
Wang et al. Adaptive neural containment maneuvering of underactuated surface vehicles with prescribed performance and collision avoidance
CN114943168B (zh) 一种水上浮桥组合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination