CN115903820A - 多无人艇追逃博弈控制方法 - Google Patents
多无人艇追逃博弈控制方法 Download PDFInfo
- Publication number
- CN115903820A CN115903820A CN202211507056.7A CN202211507056A CN115903820A CN 115903820 A CN115903820 A CN 115903820A CN 202211507056 A CN202211507056 A CN 202211507056A CN 115903820 A CN115903820 A CN 115903820A
- Authority
- CN
- China
- Prior art keywords
- observer
- game
- pursuit
- equation
- chaser
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000006870 function Effects 0.000 claims abstract description 67
- 230000002787 reinforcement Effects 0.000 claims abstract description 34
- 230000004044 response Effects 0.000 claims abstract description 17
- 238000013459 approach Methods 0.000 claims abstract description 5
- 238000005381 potential energy Methods 0.000 claims description 31
- 101150080778 INPP5D gene Proteins 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 17
- 238000013461 design Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000003014 reinforcing effect Effects 0.000 claims description 2
- 230000009897 systematic effect Effects 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Feedback Control In General (AREA)
Abstract
本发明提供了一种多无人艇追逃博弈控制方法,包括:无人艇追逃时,在追击方的控制算法中引入序贯决策,进行“自我博弈”;观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及控制器接收观测器的最优响应,根据所述最优响应重新解算追击方的最优控制,如此交替进行,形成序贯决策;在该序贯决策基础之上,设计一种新型奖励函数形式并应用强化学习控制算法,完成多无人艇围捕任务。
Description
技术领域
本发明涉及无人艇技术领域,特别涉及一种多无人艇追逃博弈控制方法。
背景技术
近年来,随着陆地燃料资源的枯竭,占据地球面积约71%的海洋战略地位随之不断提高。为充分勘探和开采海洋资源,海洋装备技术的发展不可或缺。以无人艇(包括水下航行体、水下机器人、水面无人船等)为代表的海洋智能装备是现阶段海上作业的主要载体。
集群无人舰艇是指一组编队的多个无人舰艇。近年来,集群无人舰艇的应用日益增长,目前,集群无人艇已经在诸如围捕、驱离、扫雷、反潜之类的军事领域以及诸如物资补给、地形测绘、海面营救、无人搜索之类的民事领域发挥重要作用。
但对于无人艇集群的追逃博弈控制,目前还未有比较有效的算法能够进入到实际应用。
发明内容
本发明的目的在于提供一种多无人艇追逃博弈控制方法,以解决现有的算法无法满足无人艇集群的追逃博弈控制需求的问题。
为解决上述技术问题,本发明提供一种多无人艇追逃博弈控制方法,包括:
无人艇追逃时,在追击方的控制算法中引入序贯决策,进行自我博弈;
观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及
控制器接收观测器的最优响应,并根据所述最优响应重新解算追击方的最优控制,其中执行一次或多次所述重新解算以形成序贯决策。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
协同观测器和强化学习的博弈,使得观测器作为跟随者以处理不确定性,所述不确定性包括外部干扰和建模误差;
以强化学习为控制器,形成领导者;
通过观测器与控制器的序贯博弈,使得强化学习算法能够应对外部干扰和建模误差,并达到Nash均衡,实现博弈协同围捕。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
根据避障、追踪、环绕、控制量消耗设置奖励函数;
使用互惠速度障碍法设置避障奖励,同时处理其它静态、动态障碍物的避障问题;
使用势能函数设置追踪奖励和环绕奖励,势能函数在阈值距离内,避障需求时停止势能增长。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
在多无人艇追逃博弈中,将每一个追击者设定为一个子系统;
以该子系统的观测器作为跟随者处理外部干扰和建模误差等在内的不确定性;
基于强化学习设计该子系统的控制器,形成领导者;
通过观测器增强基于强化学习设计的领导者与环境的交互,提高控制性能,反之利用控制性能的提升提高观测器的观测性能;
根据该过程,建立领导者与跟随者之间的序贯博弈图;
逃逸无人艇策略采用固有模型与策略。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤一:根据常规无人艇摇摆、偏航、滚转运动方程:
其中vi(t),ri(t),ψi(t),pi(t),φi(t),ui(t)且fψi(t),fφi(t)分别表示为第i个跟随无人艇的摇摆速度、偏航速度、偏航角、滚转速度、滚转角、方向舵偏角以及未知不确定性,ζ,ωn表示为阻尼比和自然频率,Tv,Tr表示为时间常数,Kdv,Kdr,Kvr,Kdp,Kvp表示为无人艇系统增益;
步骤二:根据步骤中i个跟随无人艇的摇摆、偏航、滚转运动方程,定义跟随无人艇动态方程的系统状态xi(t),角度传感器测输出yi(t)、波浪,风扰等其他因素引起的未知不确定性fi(t)分别为xi(t)=[vi(t)ri(t)ψi(t)pi(t)φi(t)]T,yi(t)=[ψi(t)φi(t)]T,fi(t)=[fψi(t)fφi(t)]T,得无人艇跟随动态方程表示如下:
将各无人艇子系统的动态方程简写为:
步骤三:设计无人艇子系统i的观测器,具体为:
其中L为观测器参数矩阵;
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤四:为形成完整的序贯博弈过程,引入一个辅助控制律vi,使得观测器与控制器形成非协作博弈,设计如下观测器以改进步骤三中观测器的设计:
引入如下的性能指标函数来优化观测器性能:
其中ui TGvi一项代表子系统i对子观测器i的影响,且Q,R,G是对称正定矩阵,用于调节性能指标函数中各约束的之间的权重比。
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤五:在追击者的序贯博弈决策中,需要首先考虑追击者i子观测器的最优响应,假定子系统i的控制律ui在博弈开始时首先初始化为容许控制,并引入如下的子观测器哈密顿函数:
将式(12)代入到式(10)所示的哈密顿-雅可比(HJ)等式中:
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤六:在第五步的基础上,引入如下追击者子系统i基于强化学习的控制领导者优化目标函数:
其中一项减小控制量的消耗,一项引入辅助控制律,以形成完整的序贯非协作博弈;δi是奖励函数,由三部分组成:分别为起局部避障作用的起追踪逃逸者作用的追踪势能以及起环航包围作用的环绕势能L、I是对称正定矩阵,k0、k1、k2为正的超参数,考虑到在追上逃逸者之后再进行围捕,k1应当略大于k2;
式(17)中,vt表示当前速度,通过判断vt是否属于互惠速度障碍法区域,从而奖励不同;
a,b,c,d,e,f是调节策略性能的恒定值,diffv表示当前无人艇的速度和期望速度的差值,ξ为当前速度下,与障碍物发生碰撞的预期最短时间;
对于式(18)和式(19),die,de0分别是当前追逐者与逃逸者之间的实际距离与期望距离,ε为可调的超参数;如果dij<α,则视为智能体之间发生了碰撞,α是一个小的正常数;所以不会出现dij=0的情况,同理不会出现die=0的情况;bij是指示函数,如式(20)所示,其中drange表示环航势能的作用距离,且drange<de0/m,m>1为常数;意味着:以当前追捕者为圆心,drange为半径的区域,当前追捕者仅与此区域内的其他追捕者发生环航围绕的势能作用;
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
将不等长的环境状态序列转化为等长的状态序列,使用BiGRU双向循环门控单元处理不等长环境状态序列,其中表示追击者探测范围内探测到的第i个障碍物的状态信息,且oself表示当前无人艇自身的状态信息,h∈Rmx1表示经由BiGRU提取的第i个追击者探测范围内的环境状态信息;
则可将当前追击者的环境状态信息表示为:
可选的,在所述的多无人艇追逃博弈控制方法中,还包括:
步骤八:使用强化学习设计控制器,强化学习算法框架采用近似策略优化算法,根据式(14)的损失函数,定义如下的动作价值函数:
在时间间隔(t,t+h]的局部动作奖励函数可定义为:
因此定义即时奖励函数如式(24)所示,则折扣回报Gt如式(25)所示,其中γ是折扣系数:
Gt=Rt+γRt+1+γ2Rt+2+γ3Rt+3+… (50)
Qπ(st,ut)=Eπ(Gt|St=st,Ut=ut) (51)
Vπ(st)=Eπ(Gt|St=st) (52)
已知系统状态方程、即时奖励函数,以及状态st和动作ut信息,根据强化学习中的近似策略优化算法,对价值函数和策略函数进行拟合,并通过策略网络给出最优控制ut;
本发明的发明人通过研究发现,当前使用强化学习算法完成无人艇的追逃任务时,多未考虑环境不确定性,如风扰、浪扰,以及建模不确定性带来的误差,使得设计的算法难以落地应用。
其次,在使用模型依赖的纯粹控制算法处理追逃任务时,经常遇到欠驱动、非线性等困难,最优控制律往往难以求解。
另外,现有的强化学习控制技术,往往以控制目标(效果)为导向,很少考虑控制能量的消耗问题,在实际应用中,耗能最少的控制策略设计及求解仍待进一步研究。
最后,当前在追逃问题中奖励函数的设计多基于无人艇的绝对位置,未考虑相对速度、加速度等带来的碰撞风险,制约了控制效果的进一步提升,同时还需要大量的离线与在线训练。
基于以上洞察,本发明提供了一种多无人艇追逃博弈控制方法,通过在追击方的控制算法中引入序贯决策,进行“自我博弈”:面对外部干扰及系统不确定性等的未知因素,观测器是一类有效解决问题的方法,引入观测器来解决该未知因素,而后,辅助控制器提高控制效果,解决了使用强化学习算法进行追逃博弈时,由强化学习的“试错-纠正”特性带来的不确定性难以处理、算法策略难以实际应用的问题。
附图说明
图1是本发明一实施例的领导者与跟随者之间的序贯博弈示意图;
图2是本发明一实施例的基于强化学习的追击者控制算法流程图示意图;
图3是本发明一实施例的式(18)势能函数图像示意图;
图4是本发明一实施例的无人艇对障碍物的探测示意图;
图5是本发明一实施例的提取环境特征示意图;
图6是本发明一实施例的利用PPO算法输出动作ut示意图;
图7是本发明一实施例的序贯决策工作流程示意图。
具体实施方式
下面结合具体实施方式参考附图进一步阐述本发明。
应当指出,各附图中的各组件可能为了图解说明而被夸大地示出,而不一定是比例正确的。在各附图中,给相同或功能相同的组件配备了相同的附图标记。
在本发明中,除非特别指出,“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外,“布置在…上或上方”仅仅表示两个部件之间的相对位置关系,而在一定情况下、如在颠倒产品方向后,也可以转换为“布置在…下或下方”,反之亦然。
在本发明中,各实施例仅仅旨在说明本发明的方案,而不应被理解为限制性的。
在本发明中,除非特别指出,量词“一个”、“一”并未排除多个元素的场景。
在此还应当指出,在本发明的实施例中,为清楚、简单起见,可能示出了仅仅一部分部件或组件,但是本领域的普通技术人员能够理解,在本发明的教导下,可根据具体场景需要添加所需的部件或组件。另外,除非另行说明,本发明的不同实施例中的特征可以相互组合。例如,可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征,所得到的实施例同样落入本申请的公开范围或记载范围。
在此还应当指出,在本发明的范围内,“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等,而是允许一定的合理误差,也就是说,所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推,在本发明中,表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。
另外,本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出,各方法步骤可以以不同顺序执行。
以下结合附图和具体实施例对本发明提出的多无人艇追逃博弈控制方法作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
本发明的目的在于提供一种多无人艇追逃博弈控制方法,以解决现有的算法无法满足无人艇集群的追逃博弈控制需求的问题。
为实现上述目的,本发明提供了一种多无人艇追逃博弈控制方法,包括:无人艇追逃时,在追击方的控制算法中引入序贯决策,进行“自我博弈”;观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及控制器接收观测器的最优响应,根据所述最优响应重新解算追击方的最优控制,如此交替进行,形成序贯决策。
图1~7提供了本发明的实施例,本发明解决了使用强化学习算法进行追逃博弈时,由强化学习的“试错-纠正”特性带来的不确定性难以处理、算法策略难以实际应用的问题。
无人艇追逃任务中,在追击方的控制算法中引入序贯决策,进行“自我博弈”:面对外部干扰及系统不确定性等的未知因素,观测器是一类有效解决问题的方法。在本专利中,引入观测器来解决该未知因素,而后,辅助控制器提高控制效果。观测器方首先根据控制器给出的最优控制,解算出观测器方的最优响应,用以逼近追击方群体中存在的不确定性。之后,控制器接收到观测器的最优响应信息,并在此基础上重新解算追击方的最优控制,如此交替进行,形成序贯决策。在执行追逃任务时,序贯博弈方式的引入能够提高追击方的群体协作能力,从而增加追捕的成功率,减小追捕包围所需要的时间,且追捕过程更加平稳,具有更优的性能。
观测器和强化学习的博弈协同设计:综合利用观测器和强化学习控制的优点,以观测器作为跟随者处理环境不确定性;以强化学习为控制器,形成领导者。通过观测器与控制器的序贯博弈,使得设计的算法能够应对外部干扰、建模误差等不确定性因素,并达到Nash均衡,实现博弈协同围捕的目标。
更优的强化学习算法性能:由于观测器的引入,使得智能体能够不完全依赖于实际环境的观测数据,并能够产生基于模型的数据,在获得足够训练数据的同时,避免了与实际环境直接交互带来的危险性,从而保障强化学习算法的训练以及性能。
奖励函数的设计综合考虑避障、追踪、环绕、控制量消耗:使用互惠速度障碍法(Reciprocal Velocity Obstacle)RVO设计避障奖励。基于RVO的特性,设计的避障算法比传统的势能避障方法具有更优的性能,且不仅能避免和其它无人艇发生碰撞,而且可以同时处理其它静态、动态障碍物的避障问题;使用势能函数设计追踪和环绕的奖励,设计的势能函数能在较近距离,避障需求时停止势能增长。从而使得三部分奖励合理分配作用区域;由于在奖励函数的设计中考虑了控制量的消耗问题,使得设计的算法能兼顾资源节约。
在多无人艇追逃博弈中,将每一个追击者设定为一个子系统。以该子系统的观测器作为跟随者处理环境不确定性;同时,基于强化学习来设计该子系统的控制器,形成领导者。通过观测器这一跟随者增强基于强化学习设计的控制领导者与环境的交互,提高控制性能,反之,控制性能的提升能够提高观测器跟随者的观测性能。根据该过程,建立如下的领导者(子系统)与跟随者(子观测器)之间的序贯博弈图(如图1所示)。图2为设计的基于强化学习的追击者控制算法流程图,同时,逃逸无人艇策略采用固有模型与策略。
步骤一:根据常规无人艇摇摆、偏航、滚转运动方程:
其中vi(t),ri(t),ψi(t),pi(t),φi(t),ui(t)且fψi(t),fφi(t)分别表示为第i个跟随无人艇的摇摆速度、偏航速度、偏航角、滚转速度、滚转角、方向舵偏角以及未知不确定性,ζ,ωn表示为阻尼比和自然频率,Tv,Tr表示为时间常数,Kdv,Kdr,Kvr,Kdp,Kvp表示为无人艇系统增益。
步骤二:根据步骤中i个跟随无人艇的摇摆、偏航、滚转运动方程,定义跟随无人艇动态方程的系统状态xi(t),角度传感器可测输出yi(t)、波浪,风扰等其他因素引起的未知不确定性fi(t)分别为xi(t)=[vi(t)ri(t)ψi(t)pi(t)φi(t)]T,yi(t)=[ψi(t)φi(t)]T,fi(t)=[fψi(t)fφi(t)]T,可得无人艇跟随动态方程表示如下:
为了便于后续的阐述,本发明将各无人艇子系统的动态方程简写为:
步骤三:设计无人艇子系统i的观测器,具体为:
其中L为观测器参数矩阵;
步骤四:为形成完整的序贯博弈过程,引入一个辅助控制律vi,使得观测器与控制器形成非协作博弈,进而,设计如下观测器以改进步骤三中观测器的设计:
同时,引入如下的性能指标函数来优化观测器性能:
其中ui TGvi一项代表子系统i对子观测器i的影响,且Q,R,G是对称正定矩阵,用于调节性能指标函数中各约束的之间的权重比。
步骤五:在追击者的序贯博弈决策中,需要首先考虑追击者i子观测器的最优响应(辅助控制律),假定子系统i的控制律ui在博弈开始时首先初始化为容许控制,并引入如下的子观测器哈密顿函数:
将式(12)代入到式(10)所示的哈密顿-雅可比(HJ)等式中:
步骤六:在第五步的基础上,引入如下追击者子系统i基于强化学习的控制领导者优化目标函数:
其中一项是为了减小控制量的消耗,一项引入了辅助控制律,以形成完整的序贯非协作博弈。δi是奖励函数(定义为越小越好),由三部分组成:分别为起局部避障作用的起追踪逃逸者作用的追踪势能以及起环航包围作用的环绕势能(即让追捕者在逃逸者周围围成一圈),L、I是对称正定矩阵,k0、k1、k2为正的超参数,考虑到在追上逃逸者之后再进行围捕,k1应当略大于k2。
式(17)中,vt表示当前速度,通过判断vt是否属于RVO区域(速度域),从而奖励有所不同,RVO(互惠速度障碍法)是一种避障算法,它能同时考虑当前智能体的位置和相对速度,因此在避障算法中具有良好的表现,本发明根据RVO设计避障部分的奖励函数。a,b,c,d,e,f是可以调节策略性能的恒定值,diffv表示当前无人艇的速度和期望速度的差值,ξ为当前速度下,与障碍物发生碰撞的预期最短时间。对于式(18)和式(19),die,de0分别是当前追逐者(子系统)与逃逸者之间的实际距离与期望距离,ε为可调的超参数。如果dij<α,则视为智能体之间发生了碰撞,α是一个小的正常数。所以不会出现dij=0的情况,同理不会出现die=0的情况。bij是指示函数,如式(20)所示,其中drange表示环航势能的作用距离,且drange<de0/m,m>1为常数。意味着:以当前追捕者为圆心,drange为半径的区域,当前追捕者仅与此区域内的其他追捕者发生环航围绕的势能作用。
接下来具体解释奖励函数的三个部分:
起避障作用的RVO奖励函数RVO放弃危险速度的设定可以很大程度上保证智能体之间不会发生碰撞,且该部分会与另外两个势能交叉起作用,能进一步约束较近距离的避障问题,随着智能体之间的距离变远,RVO的作用越来越小,此时主要是另外两个势能函数在起作用。
起追踪逃逸者作用的追踪势能它的作用是拉近当前追捕者和逃逸者之间距离,直到保持在一个期望距离de0(此时势能为0)。式(18)的函数图像如图3所示(取de0=5):在大于5的部分:势能几乎是沿着y=x线性增长的,这样即可以避免归一化,也可以避免因势能过大导致训练困难。因为在两个智能体较远时,比如初始化时刻,追捕者与逃逸者有比较大的距离,此时势能较大,归一化后,这部分差距会变得很小,若此时追捕者和逃逸者缩短距离,得到的奖励比上一时刻增长的很小或者几乎不增加,再加上3部分的奖励函数互相交叠的作用,其实就可以视奖励为不增长,那么就不会鼓励逃逸者靠近追捕者。在小于5的部分:在(ε,5)区间由本部分的势能函数和RVO奖励共同约束,使得两个智能体距离不至于太近。但若两个智能体的距离接近到了一定程度,即(0,ε)区间,则在原势能停止增长,使用RVO奖励单独约束,避免两部分奖励的过度交叠。(在近距离的时候,多个奖励函数一起作用、相互交叠,且此时的势能增长还比较迅速,会带来未知的因素和训练困难。因此人为指定一个作用距离ε,当两个智能体之间的距离缩小到ε时,势能不再增长,而保持一个恒值,此时由RVO单独起作用。)
步骤七:考虑到起避障作用的RVO奖励一项:每个追击者周围的障碍物(其他无人艇)数量不固定,如图4所示:左侧为情况1,探测范围内两个障碍物,右侧为情况2,探测范围内三个障碍物。强化学习算法中的神经网络框架无法处理不等长的环境状态序列(每次送入同一神经网络的序列,且长度不一致),需要先将不等长的环境状态序列转化为等长的状态序列。本算法使用BiGRU双向循环门控单元处理不等长环境状态序列,如图5所示。其中表示追击者探测范围内探测到的第i个障碍物(其他无人艇,不包括自己)的状态信息(速度信息(vx,vy),位置信息(px,py)),且oself表示当前无人艇自身的状态信息(不包括其他无人艇),h∈Rmx1表示经由BiGRU提取的第i个追击者探测范围内的环境状态信息(即,当前无人艇一定范围内的障碍物总体特征)。
则可将当前追击者的环境状态信息表示为:
步骤八:使用强化学习设计控制器,强化学习算法框架采用PPO(近似策略优化算法,一种强化学习算法,具有优良性能的同时兼具很好的平稳性。通过一段时间的训练,可使得算法采用的神经网络具备以下功能:根据输入的状态信息,输出在该状态下能使得被控对象达到预期目标的最佳动作),根据式(14)的损失函数,定义如下的动作价值函数:
在时间间隔(t,t+h]的局部动作奖励函数可定义为:
因此可定义即时奖励函数如式(24)所示,则折扣回报Gt如式(25)所示,其中γ是折扣系数:
Gt=Rt+γRt+1+γ2Rt+2+γ3Rt+3+… (77)
Qπ(st,ut)=Eπ(Gt|St=st,Ut=ut) (78)
Vπ(st)=Eπ(Gt|St=st) (79)
如图6所示,已知系统状态方程(环境)、即时奖励函数,以及状态st和动作ut信息,可根据强化学习中的PPO算法,对价值函数和策略函数进行拟合,并通过策略网络给出最优控制ut。
综上,上述实施例对多无人艇追逃博弈控制方法的不同构型进行了详细说明,当然,本发明包括但不局限于上述实施中所列举的构型,任何在上述实施例提供的构型基础上进行变换的内容,均属于本发明所保护的范围。本领域技术人员可以根据上述实施例的内容举一反三。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。
Claims (10)
1.一种多无人艇追逃博弈控制方法,其特征在于,包括:
无人艇追逃时,在追击方的控制算法中引入序贯决策,进行自我博弈;
观测器根据控制器给出的最优控制,解算观测器的最优响应,以逼近追击方群体中的外部干扰及系统不确定性;以及
控制器接收观测器的最优响应,并根据所述最优响应重新解算追击方的最优控制,其中执行一次或多次所述重新解算以形成序贯决策。
2.如权利要求1所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
协同观测器和强化学习的博弈,使得观测器作为跟随者以处理不确定性,所述不确定性包括外部干扰和建模误差;
以强化学习为控制器,形成领导者;以及
通过观测器与控制器的序贯博弈,使得强化学习算法能够应对外部干扰和建模误差,并达到Nash均衡,实现博弈协同围捕。
3.如权利要求1所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
根据避障、追踪、环绕、控制量消耗设置奖励函数;
使用互惠速度障碍法设置避障奖励,同时处理其它静态、动态障碍物的避障问题;
使用势能函数设置追踪奖励和环绕奖励,势能函数在阈值距离内,避障需求时停止势能增长。
4.如权利要求1所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
在多无人艇追逃博弈中,将每一个追击者设定为一个子系统;
以该子系统的观测器作为跟随者处理不确定性;
基于强化学习设计该子系统的控制器,形成领导者;
通过观测器增强基于强化学习设计的领导者与环境的交互,提高控制性能,反之利用控制性能的提升提高观测器的观测性能;
根据该过程,建立领导者与跟随者之间的序贯博弈图;
逃逸无人艇策略采用固有模型与策略。
5.如权利要求1所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
步骤一:根据常规无人艇摇摆、偏航、滚转运动方程:
其中vi(t),ri(t),ψi(t),pi(t),φi(t),ui(t)且fψi(t),fφi(t)分别表示为第i个跟随无人艇的摇摆速度、偏航速度、偏航角、滚转速度、滚转角、方向舵偏角以及未知不确定性,ζ,ωn表示为阻尼比和自然频率,Tv,Tr表示为时间常数,Kdv,Kdr,Kvr,Kdp,Kvp表示为无人艇系统增益;
步骤二:根据步骤中i个跟随无人艇的摇摆、偏航、滚转运动方程,定义跟随无人艇动态方程的系统状态xi(t),角度传感器测输出yi(t)、波浪,风扰等其他因素引起的未知不确定性fi(t)分别为xi(t)=[vi(t)ri(t)ψi(t)pi(t)φi(t)]T,yi(t)=[ψi(t)φi(t)]T,fi(t)=[fψi(t)fφi(t)]T,得无人艇跟随动态方程表示如下:
将各无人艇子系统的动态方程简写为:
步骤三:设计无人艇子系统i的观测器,具体为:
其中L为观测器参数矩阵;
8.如权利要求7所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
步骤六:在第五步的基础上,引入如下追击者子系统i基于强化学习的控制领导者优化目标函数:
其中一项减小控制量的消耗,一项引入辅助控制律,以形成完整的序贯非协作博弈;δi是奖励函数,由三部分组成:分别为起局部避障作用的起追踪逃逸者作用的追踪势能以及起环航包围作用的环绕势能L、I是对称正定矩阵,k0、k1、k2为正的超参数,考虑到在追上逃逸者之后再进行围捕,k1应当略大于k2;
式(17)中,vt表示当前速度,通过判断vt是否属于互惠速度障碍法区域,从而奖励不同;
a,b,c,d,e,f是调节策略性能的恒定值,diffv表示当前无人艇的速度和期望速度的差值,ξ为当前速度下,与障碍物发生碰撞的预期最短时间;
对于式(18)和式(19),die,de0分别是当前追逐者与逃逸者之间的实际距离与期望距离,ε为可调的超参数;如果dij<α,则视为智能体之间发生了碰撞,α是一个小的正常数;所以不会出现dij=0的情况,同理不会出现die=0的情况;bij是指示函数,如式(20)所示,其中drange表示环航势能的作用距离,且drange<de0/m,m>1为常数;意味着:以当前追捕者为圆心,drange为半径的区域,当前追捕者仅与此区域内的其他追捕者发生环航围绕的势能作用;
10.如权利要求9所述的多无人艇追逃博弈控制方法,其特征在于,还包括:
步骤八:使用强化学习设计控制器,强化学习算法框架采用近似策略优化算法,根据式(14)的损失函数,定义如下的动作价值函数:
在时间间隔(t,t+h]的局部动作奖励函数可定义为:
因此定义即时奖励函数如式(24)所示,则折扣回报Gt如式(25)所示,其中γ是折扣系数:
Gt=Rt+γRt+1+γ2Rt+2+γ3Rt+3+… (24)
Qπ(st,ut)=Eπ(Gt|St=st,Ut=ut) (25)
Vπ(st)=Eπ(Gt|St=st) (26)
已知系统状态方程、即时奖励函数,以及状态st和动作ut信息,根据强化学习中的近似策略优化算法,对价值函数和策略函数进行拟合,并通过策略网络给出最优控制ut;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211507056.7A CN115903820A (zh) | 2022-11-29 | 2022-11-29 | 多无人艇追逃博弈控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211507056.7A CN115903820A (zh) | 2022-11-29 | 2022-11-29 | 多无人艇追逃博弈控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115903820A true CN115903820A (zh) | 2023-04-04 |
Family
ID=86475883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211507056.7A Pending CN115903820A (zh) | 2022-11-29 | 2022-11-29 | 多无人艇追逃博弈控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115903820A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117434968A (zh) * | 2023-12-19 | 2024-01-23 | 华中科技大学 | 一种基于分布式a2c的多无人机追逃博弈方法及系统 |
CN118363386A (zh) * | 2024-06-18 | 2024-07-19 | 中南大学 | 一种无人艇集群的追逃博弈控制方法、设备及介质 |
-
2022
- 2022-11-29 CN CN202211507056.7A patent/CN115903820A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117434968A (zh) * | 2023-12-19 | 2024-01-23 | 华中科技大学 | 一种基于分布式a2c的多无人机追逃博弈方法及系统 |
CN117434968B (zh) * | 2023-12-19 | 2024-03-19 | 华中科技大学 | 一种基于分布式a2c的多无人机追逃博弈方法及系统 |
CN118363386A (zh) * | 2024-06-18 | 2024-07-19 | 中南大学 | 一种无人艇集群的追逃博弈控制方法、设备及介质 |
CN118363386B (zh) * | 2024-06-18 | 2024-09-17 | 中南大学 | 一种无人艇集群的追逃博弈控制方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Path following optimization for an underactuated USV using smoothly-convergent deep reinforcement learning | |
Dai et al. | Adaptive leader–follower formation control of underactuated surface vehicles with guaranteed performance | |
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN109976349B (zh) | 一种含约束无人船的路径跟踪制导与控制结构的设计方法 | |
Hadi et al. | Deep reinforcement learning for adaptive path planning and control of an autonomous underwater vehicle | |
CN115903820A (zh) | 多无人艇追逃博弈控制方法 | |
CN108255060B (zh) | 基于极限学习机的船舶动力定位自抗扰控制方法 | |
Fan et al. | Course keeping control based on integrated nonlinear feedback for a USV with pod-like propulsion | |
CN115016277B (zh) | 一种考虑船间事件触发通信的多船分布式容错控制方法 | |
Su et al. | Fixed-time formation of AUVs with disturbance via event-triggered control | |
Zhuang et al. | Motion control and collision avoidance algorithms for unmanned surface vehicle swarm in practical maritime environment | |
Zhang et al. | Tracking fault-tolerant control based on model predictive control for human occupied vehicle in three-dimensional underwater workspace | |
CN114089749A (zh) | 无人艇运动控制抗扰控制器及方法 | |
Luo et al. | Observer-based adaptive integral terminal sliding mode formation control for a vessel train with obstacle avoidance | |
You et al. | Adaptive neural sliding mode control for heterogeneous ship formation keeping considering uncertain dynamics and disturbances | |
Wang et al. | A greedy navigation and subtle obstacle avoidance algorithm for USV using reinforcement learning | |
CN117452827B (zh) | 一种欠驱动无人艇轨迹跟踪控制方法 | |
Sun et al. | An anti-rolling control method of rudder fin system based on ADRC decoupling and DDPG parameter adjustment | |
Amendola et al. | Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning | |
Chen et al. | Approximate Optimal Adaptive Prescribed Performance Fault-Tolerant Control for Autonomous Underwater Vehicle Based on Self-Organizing Neural Networks | |
Fan et al. | Path-Following Control of Unmanned Underwater Vehicle Based on an Improved TD3 Deep Reinforcement Learning | |
Zhang et al. | Event-Based Affine Formation Maneuver Control for Multi-ASV Systems With Input Saturation | |
Yang et al. | Trajectory tracking with external disturbance of bionic underwater robot based on CPG and robust model predictive control | |
Wang et al. | Adaptive neural containment maneuvering of underactuated surface vehicles with prescribed performance and collision avoidance | |
CN114943168B (zh) | 一种水上浮桥组合方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |