CN110442129A - 一种多智能体编队的控制方法和系统 - Google Patents
一种多智能体编队的控制方法和系统 Download PDFInfo
- Publication number
- CN110442129A CN110442129A CN201910682131.5A CN201910682131A CN110442129A CN 110442129 A CN110442129 A CN 110442129A CN 201910682131 A CN201910682131 A CN 201910682131A CN 110442129 A CN110442129 A CN 110442129A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- intelligent body
- network
- actor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000009471 action Effects 0.000 claims abstract description 86
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 81
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 238000005457 optimization Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000005259 measurement Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 abstract description 4
- 239000003795 chemical substances by application Substances 0.000 description 55
- 238000013459 approach Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000284212 Euproctis actor Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003134 recirculating effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种多智能体编队的控制方法和系统,在获取多智能体中各个智能体的历史状态数据和历史动作数据,并通过DDPG算法构建能较好的跟环境交互,具有自学习功能,适应不确定系统的动态特性的编队优化模型,利用编队优化模型中获得对各个智能体的最优控制力,并根据所述各个智能体的最优控制力实现对所述多智能体的优化编队,相比起现有技术而言,本发明中的多智能体编队的控制方法能适应多智能体编队环境复杂多变的特性,在不同的实际场景下实现更精确编队。
Description
技术领域
本发明属于智能体编队控制领域,尤其涉及一种多智能体编队的控制方法和系统。
背景技术
多智能体控制是人们效仿自然界中群体现象而提出的问题。例如生物界昆虫、鸟和鱼群等协作捕食。共同抵御入侵者等行为,都显示出某种群体特质。随着嵌入式计算和通信能力的提高,以及分布式思想的发展,人们开始意识到多智能体系统的合作能够以更小的代价完成更复杂的任务。相比于单个智能体,多智能体系统,尤其是分布式多智能体系统,具有很多明显的优点。
编队控制是当前多智能体系统研究的热点问题,它指多个智能体组成的团队在向某个特定的目标运动的过程中,既要保持预定的几何队形,同时又要避开障碍。一般而言,编队控制借助智能体的局部邻居智能体信息实现多智能体系统的群体行为,从而解决全局性的任务。编队控制在军事、航天、工业等各个领域具有广阔的应用前景。在众多的实际应用场景中,比如卫星导航、机器人控制、搜索救援,多智能体的编队和跟踪控制是实现典型任务的必要技术。
传统的多智能体编队控制方法需要精确的环境模型,但由于环境的模型未知性、不精确性、非线性、复杂性,时变性等特征,造成现有的多智能体编队控制方法并不能对多智能体进行精确编队,从而导致智能体邻居数量改变造成的状态维度改变。
因此,亟需一种新的多智能体编队控制方法来解决现有的多智能体不能进行精确编队的技术问题。
发明内容
本发明提供了一种多智能体编队的控制方法和系统,获取多智能体中各个智能体的历史状态数据和历史动作数据,并通过DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)算法构建编队优化模型,从而解决现有的多智能体不能进行精确编队的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种多智能体编队的控制方法,包括以下步骤,
获取多智能体中各个智能体的历史状态数据和历史动作数据;
通过所述历史状态数据和历史动作数据通过DDPG算法构建以各个智能体的状态数据为输入量,以各个智能体的最优动作数据为输出量的编队优化模型;
获取待编队的多智能体的实时状态数据,并输入所述编队优化模型中求解获得各个智能体的最优动作数据;
根据所述各个智能体的最优动作数据对所述多智能体进行优化编队。
优选的,所述状态数据包括各个智能体的目标点和测量点的位置偏差数据及速度偏差数据;
所述动作数据包括对各个智能体的控制力数据,其中所述控制力数据包括导航控制力数据和编队控制力数据;
优选的,所述控制力数据计算公式如下:
其中,kα,kγ分别为编队控制力参数和导航控制力参数,且kγ<<kα、是编队控制力、是导航控制力。
优选的,所述目标点包括导航目标点和编队目标点,获取所述目标点和测量点之间的位置偏差数据和速度偏差数据,包括,
获取多智能体中各个智能体的位置数据、速度数据以及各个智能体间的连接强度数据,确定多智能体编队的目标半径,并通过目标点位置偏差计算公式和目标点速度偏差计算公式计算各个智能体的目标点和测量点之间的位置偏差数据和速度偏差数据;
其中,所述位置偏差数据计算公式为:
qerror,i,γ=qr-qi;
其中,所述目标点速度偏差数据计算公式为:
perror,i,y=pr-pi;
其中,q代表位置,p代表速度,i代表第i个智能体,j代表第j个智能体,代表
智能体i的邻居集合数据,aij(q)代表智能体i和j之间的连接强度数据,c代表多智能
体编队的目标半径数据,qr代表导航目标点位置数据,pr代表导航目标点速度,qerror,i,γ代
表智能体i和导航目标点之间的位置偏差数据,perror,i,γ代表智能体i和导航目标点之间的速度偏差数据,qerror,i,α代表智能体i和编队目标点之间的位置偏差数据,perror,i,α代表智能体i和编队目标点之间的速度偏差数据。
优选的,构建编队优化模型,包括以下步骤:
构建actor、critic、target actor和target critic网络;其中,所述actor网络以状态数据为输入量,通过动作网络函数计算出输入的状态数据所对应的动作数据作为输出量;所述critic以状态数据以及以该状态数据下的动作数据为输入量,并通过价值网络函数计算出在该状态数据下的动作数据下的评价值作为输出量;
构建仿真环境,所述仿真环境以动作数据作为输入量,通过回报值函数计算所述动作数据的回报值作为输出量;
构建actor、critic、target actor和target critic网络的更新算法;
设置actor、critic、target actor和target critic网络的探索学习策略;
获取所述历史状态数据和历史动作数据,并利用target actor和target critic网络、所述actor、critic、target actor和target critic网络的更新算法以及探索学习策略多次训练actor和critic网络,选取最优actor和critic网络作为编队优化模型。
优选的,所述回报值函数为:
其中,rq,rp,ru分别为位置偏差参数、速度偏差参数以及控制力输出参数、qerror是位置偏差、perror是速度偏差、u是控制力输出,qmax为设定的最大位置偏差的范围,pmax为设定的最大速度偏差的范围,umax为设定的最大控制力输出的范围。
优选的,通过Loss函数计算损失率L,并根据最小损失率来更新critic网络;通过计算梯度来更新actor网络;
所述损失率L的Loss函数为:
所述梯度计算公式为:
其中,L代表损失率,N代表随机抽取历史数据[st,at,rt,st+1]进行更新的个数,i为迭代变量,γ代表折扣率,si代表第i个智能体的状态,ai代表在在第i个智能体的状态数据si下计算出来的第i个智能体的动作数据,si+1代表当执行动作数据ai后状态数据由si转移si+1,ri代表在si状态数据下,采取动作数据ai对应的回报值,θQ代表价值网络参数,θμ′代表目标动作网络参数,其中,代表计算出来的梯度,θμ代表代表动作网络的网络参数,μ代表动作网络函数,si代表第i个状态,N代表随机抽取历史数据[si,ai,ri,si+1]进行更新的个数,a代表动作数据,θQ代表价值网络参数,Q(s,a|θQ)代表价值网络函数,是对于评价函数的梯度,是对于动作函数的梯度。
优选的,所述target critic网络的更新算法为:
θ0′=τθ0+(1-τ)θQ′
所述target actor网络的更新算法为:
θμ′=τθμ+(1-τ)θμ′
其中τ=0.001,θQ′代表目标价值网络参数,θQ代表价值网络参数,θμ′代表目标动作网络参数,θμ代表动作网络参数。
优选的,所述actor、critic、target actor和target critic网络的探索学习策略为中心训练边缘执行策略;所述中心训练边缘执行策略包括:
获取所有智能体的所述历史状态数据和历史动作数据来训练actor和critic网络模型,进而获取到编队优化模型;
将获取到的各个智能体的实施状态数据输入所述优化编队模型获取到各个智能体的最优动作数据,并分发给各个智能体;
各个智能体根据各自接收的最优动作数据来进行优化编队。
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明具有以下有益效果:
1、本发明中在获取多智能体中各个智能体的历史状态数据和历史动作数据,并通过DDPG算法构建能较好的跟环境交互,具有自学习功能,适应不确定系统的动态特性的编队优化模型,通过将各个智能体的实时状态数据输入编队优化模型来获得对各个智能体的最优动作数据,并根据所述各个智能体的最优动作数据实现对所述多智能体的优化编队,相比起现有技术而言,本发明中的多智能体编队的控制方法能适应多智能体编队环境复杂多变的特性,在不同的实际场景下实现更精确编队。
2、在优选方案中,本发明中选取了对各个智能体的导航控制力数据和编队控制力数据作为训练模型的动作数据和输出数据,从而将DDPG算法更好的利用在多智能体编队领域,解决现有技术中由于直接使用DDPG算法而产生的智能体邻居数量改变所造成的状态维度改变的技术问题。
3、在优选方案中,本发明中采用中心训练边缘执行策略训练模型,能加快训练模型的学习速度。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的因运动导致邻居变化,从而状态维度变化示意图;
图2为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的目标点计算示意图;
图3为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的DDPG迭代学习结构图;
图4为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的中心训练、边缘执行框架图,其中S表示状态数据,A表示动作数据,图中的训练数据接收单元和actor参数接收单元为无线接收单元,actor参数发送单元和和训练数据发送单元为无线发送单元,所述接收和发送单元用于负责在智能体之间和训练中心之间传送数据;
图5为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法和传统算法的对比结果图;
图6为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法和传统算法的对比结果图;
图7为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的最终编队控制效果图;
图8为kα,kγ是导航控制力参数和编队控制力参数调整编队的示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
注意:本发明中的动作数据包括历史动作数据和实时动作数据,所述状态数据包括历史状态数据和实时状态数据。
在本发明中actor网络指的是DDPG算法中的动作网络、critic网络指的是策略网络、target actor网络指的是目标动作网络和target critic网络指的是目标策略网络。
实施例一:
如图1所示,现有的用于多智能体编队的无模型自适应学习型分布式控制算法常常会因智能体的运动到新环境而无法适应新的环境,造成智能体邻居变化,从而状态维度变化。
因此,为了解决现有的用于多智能体编队的无模型自适应学习型分布式控制算法无法适应新的环境的技术问题,本发明公开了一种多智能体编队的控制方法,包括以下步骤,
获取多智能体中各个智能体的历史状态数据和历史动作数据;
通过所述历史状态数据和历史动作数据通过DDPG算法构建以各个智能体的状态数据为输入量,以各个智能体的最优动作数据为输出量的编队优化模型;
获取待编队的多智能体的实时状态数据,并输入所述编队优化模型中求解获得各个智能体的最优动作数据;
根据所述各个智能体的最优动作数据对所述多智能体进行优化编队。
此外,本发明还公开了一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明中多智能体编队的控制方法和系统,在获取多智能体中各个智能体的历史状态数据和历史动作数据,并通过DDPG算法构建能较好的跟环境交互,具有自学习功能,适应不确定系统的动态特性的编队优化模型,利用编队优化模型中获得对各个智能体的最优动作数据,并根据所述各个智能体的最优动作数据实现对所述多智能体的优化编队。
本发明中多智能体编队的控制方法和系统相比起现有技术而言,本发明中的多智能体编队的控制方法能适应多智能体编队环境复杂多变的特性,在不同的实际场景下实现更精确编队。
实施例二:
实施例二为实施例一的拓展实施例,其不同之处在于,对如何获取历史状态数据以及如何通过所述历史状态数据和历史动作数据通过DDPG算法构建以各个智能体的状态数据为输入量,各个智能体的控制力为输出量的编队优化模型进行细化;
其中,获取历史状态数据包括:
如图2所示,在本实施例中状态数据包括各个智能体的目标点和测量点的位置偏差数据、速度偏差数据;所述目标点包括导航目标点和编队目标点,获取所述目标点和测量点之间的位置偏差数据和速度偏差数据,包括,
获取多智能体中各个智能体的位置数据、速度数据以及各个智能体间的连接强度数据,确定多智能体编队的目标半径数据,并通过目标点位置偏差计算公式和目标点速度偏差计算公式计算各个智能体的目标点和测量点之间的位置偏差数据和速度偏差数据;
其中,所述位置偏差计算公式为:
qerror,i,γ=qr-qi;
其中,所述目标点速度偏差计算公式为:
perror,i,y=pr-pi;
其中,q代表位置,p代表速度,i代表第i个智能体,j代表第j个智能体,代表智能体i的邻居集合,aij(q)代表智能体i和j之间的连接强度数据,c代表多智能体编队的目标半径数据,qr代表导航目标点位置数据,pr代表导航目标点速度数据,qerror,i,γ代表智能体i和导航目标点之间的位置偏差数据,perror,i,γ代表智能体i和导航目标点之间的速度偏差数据,qerror,i,α代表智能体i和编队目标点之间的位置偏差数据,perror,i,α代表智能体i和编队目标点之间的速度偏差数据。
通过所述历史状态数据和历史动作数据通过DDPG算法构建以各个智能体的状态数据为输入量,各个智能体的控制力为输出量的编队优化模型,包括:
本实施例中动作数据包括对各个智能体的控制力数据,其中所述控制力数据包括导航控制力数据和编队控制力数据;
所述控制力数据输出公式如下:
其中kα,kγ是调整导航控制力参数和编队控制力参数,且kγ<<kα、是编队控制力数据、是导航控制力数据;其中kα,kγ分别为0.275,0.05,参数均是通过实验和经验调整得到,编队控制力参数kα负责某一个智能体与周围的智能体形成编队,导航控制力参数kγ是一个整体的目标,让所有的智能体聚集到一块。没有kγ会使得形成的编队是分散的,如图8的左面。但是如果kγ太大,会导致所有的智能体都聚集在一起,不能形成编队。所以kγ需要有一个比较小的值,从而不影响编队的形状,如图8的右面。
构建编队优化模型包括,
选取评价指标构建回报值函数,并构建仿真环境,所述仿真环境以动作ai作为输入量,以所述动作ai所处的状态、执行动作ai后状态si的转移状态si+1以及该动作ai的回报值ri作为输出量;其中,所述回报值函数为:
其中,rq,rp,ru分别为位置偏差参数、速度偏差参数以及控制力输出参数,rq,rp,ru分别为-10.0,-1.0,-2.0,参数均是通过实验和经验调整得到。qerror是位置偏差、perror是速度偏差、u是控制力输出;qmax、pmax以及umax根据强化学习调参经验,对回报函数进行归一化会有利于训练,所以qmax为设定的最大偏差qerror的范围,目的就是对qerror部分进行归一化。pmax是对perror归一化。umax是对u归一化。
构建actor、critic、target actor和target critic网络;其中,所述actor网络以状态数据为输入量,通过动作网络函数计算出输入的状态数据所对应的动作数据作为输出量;所述critic以状态数据以及以该状态数据下的动作数据为输入量,并通过价值网络函数计算出在该状态数据下的动作数据下的评价值作为输出量;
构建历史经验存储缓冲区;所述历史经验存储缓冲区用于存储转换历史数据
构建actor、critic、target actor、target critic网络的更新算法;
其中,通过损失率公式计算损失率,并通过最小化损失率L来更新critic网络,通过计算梯度实现更新actor网络;
所述损失率Loss计算公式为:
所述梯度计算公式为:
其中,L代表损失率,N代表随机抽取历史数据[st,at,rt,st+1]进行更新的个数,i为迭代变量,γ代表折扣率,si代表第i个智能体的状态,ai代表在在第i个智能体的状态数据si下计算出来的第i个智能体的动作数据,si+1代表当执行动作数据ai后状态数据由si转移si+1,ri代表在si状态数据下,采取动作数据ai对应的回报值,θQ代表价值网络参数,θμ′代表目标动作网络参数。其中,代表计算出来的梯度,θμ代表代表动作网络的网络参数,μ代表动作网络函数,si代表第i个状态,N代表随机抽取历史数据[st,at,rt,st+1]进行更新的个数,a代表动作数据,θQ代表价值网络参数,Q(s,a|θQ)代表价值网络函数,是对于评价函数的梯度,是对于动作函数的梯度。
所述target critic网络的更新算法为:
θ0′=τθ0+(1-τ)θQ′
所述target actor网络的更新算法为:
θμ′=τθμ+(1-τ)θμ′
其中τ=0.001,τ为更新率,τ<<1,由此构建一个收敛的神经网络;θQ′代表目标价值网络参数,θQ代表价值网络参数,θμ′代表目标动作网络参数,θμ代表动作网络参数,通过这种软更新的方式,使得网络参数不能突变,增加算法的稳定性。
获取所述历史状态数据和历史动作数据,并利用target actor和target critic网络、所述actor、critic、target actor和target critic网络的更新算法以及探索学习策略多次训练actor和critic网络模型,选取最优actor和critic网络模型作为编队优化模型;
其中如图3所示,本发明中训练模型采用迭代学习的方式,此外,本实施例采用如图4所示的中心训练边缘执行策略训练模型来加快学习速度。因为所有的智能体可以使用一个控制器的训练中心来完成编队,所以在进行控制力数据训练的时候,训练中心使用所有智能体的历史经验数据来进行训练,并将训练得到的控制器数据又会分发到各个智能体中。使用所有的智能体历史经验数据进行训练加快的训练速度,这就是中心化训练。训练之后的数据又会分发到各个智能体中,这就是边缘执行。
如图4中,所有的智能体共享一个控制器,所有的智能体根据控制器实施控制获得历史经验数据,智能体把历史经验数据发送到训练模型的训练中心,即训练模型中的actor网络中,所述历史经验数据包括历史动作数据和历史状态数据。训练中心根据获取到的所有的智能体历史经验数据进行训练,训练数据增加,从而加快了训练速度。训练中心完成一次参数迭代之后,把训练之后的参数再发送给智能体,智能体根据新获取的参数实施控制,即获取所有智能体的所述历史状态数据和历史动作数据来训练actor和critic网络模型,进而获取到编队优化模型;将获取到的各个智能体的实施状态数据输入所述优化编队模型获取到各个智能体的最优动作数据,并分发给各个智能体;各个智能体根据各自接收的最优动作数据来进行优化编队。
训练模型的具体步骤包括:
初始化actor、critic、target actor、target critic网络;其中actor,critic网络是随机初始化的,target actor,target critic网络直接拷贝actor,critic网络的参数,初始化超参数;
actor网络用于随机选取一个随机动作并下达给仿真环境执行该随机动作ai;
仿真环境执行该随机动作ai,通过回报值计算函数计算该随机动作当下状态si下的回报值,并返回新的状态si+1、回报值ri、该随机动作ai的状态si给actor网络;actor网络将新的新的状态si+1、回报值ri、该随机动作ai的状态si转化为历史数据存入历史经验存储缓冲区,作为训练actor网络和critic网络的数据集;
从历史经验存储缓冲区中,随机采样N个历史数据,作为actor网络、critic网络的一个mini-batch数据,本发明中的mini-batch是指是随机从历史数据中抽取的一小部分训练数据。
定义评价网络Loss函数:
使用target actor、target critic网络计算Loss函数关于θ的梯度,通过最小化Loss函数来更新critic网络:
更新critic网络结束后,再通过actor网络更新的算法进行actor网络的更新:
最后通过更新的critic网络的θQ和target critic网络的更新算法更新targetcritic的目标价值网络参数θQ′;通过更新的actor网络θμ和target actor网络的更新算法更新target actor的目标动作网络参数θμ′;
计算当前和编队控制力参数、导航控制力参数下的连续动作的总回报值,当总回报值达到最小值时,当前的控制策略达到最优,即该训练模型为最优模型。
当总回报值非最小值时,依据策略梯度更新策略,重新选择编队控制力参数、导航控制力参数,实施控制;循环网络更新流程,即首先更新critic评价网络,再进行actor网络的更新,最后利用更新的critic网络和actor动作网络的参数θQ和θμ对target critic网络和target actor网络的网络参数θQ′和θμ′进行更新,使得不同状态下对应的控制策略的总回报值达到最小值时,即编队控制力参数和导航控制力参数逼近最优值,该编队控制力参数和导航控制力参数下的模型为优化模型。在本发明中,最优训练模型中kα,kγ分别为0.275,0.05,参数均是通过实验和经验调整得到。
如图7所示,利用本发明中控制方法和系统对多智能体进行编队,能有效解决现有的多智能体编队的无模型自适应学习型分布式控制算法常常会因智能体的运动到新环境而无法适应新的环境,造成智能体邻居变化,从而状态维度变化。
如图5至图6所示,本发明中的用于多智能体编队的控制方法的编队结果和传统编队控制方法的编队结果相比,图5中的三张图分别是,位置(position)、速度(speed),控制力(force),图6中的三张图分别是,位置偏差、速度偏差、控制力,可以看到在DDPG和传统控制器相比会有更快的跟随速度。这是因为DDPG控制器是一个根据历史经验学习而来的复杂的网络,可以表达更复杂的状态到动作的映射关系。而传统的控制器则为认为设计的较为简单的固定的计算公式,相当于DDPG是有更多参数的复杂的控制器,只不过控制器的参数是通过历史经验学习得来的。
综上所述,本发明中在获取多智能体中各个智能体的历史状态数据和历史动作数据,并通过DDPG算法构建能较好的跟环境交互,具有自学习功能,适应不确定系统的动态特性的编队优化模型,利用编队优化模型中获得对各个智能体的最优控制力,并根据所述各个智能体的最优控制力实现对所述多智能体的优化编队,相比起现有技术而言,本发明中的多智能体编队的控制方法能适应多智能体编队环境复杂多变的特性,在不同的实际场景下实现更精确编队。
在优选方案中,本发明中选取了对各个智能体的导航控制力数据和编队控制力数据作为训练模型的动作数据和输出数据,从而将DDPG算法更好的利用在多智能体编队领域,解决现有技术中由于直接使用DDPG算法而产生的智能体邻居数量改变所造成的状态维度改变的技术问题。
在优选方案中,本发明中采用中心训练边缘执行策略训练模型,能加快训练模型的学习速度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多智能体编队的控制方法,其特征在于,包括以下步骤,
获取多智能体中各个智能体的历史状态数据和历史动作数据;
通过所述历史状态数据和历史动作数据通过DDPG算法构建以各个智能体的状态数据为输入量,以各个智能体的最优动作数据为输出量的编队优化模型;
获取待编队的多智能体的实时状态数据,并输入所述编队优化模型中求解获得各个智能体的最优动作数据;
根据所述各个智能体的最优动作数据对所述多智能体进行优化编队。
2.根据权利要求1所述的多智能体编队的控制方法,其特征在于,
所述状态数据包括各个智能体的目标点和测量点的位置偏差数据及速度偏差数据;
所述动作数据包括对各个智能体的控制力数据,其中所述控制力数据包括导航控制力数据和编队控制力数据。
3.根据权利要求1或2所述的多智能体编队的控制方法,其特征在于,所述控制力数据计算公式如下:
其中,kα,kγ分别为编队控制力参数和导航控制力参数,且kγ<<kα、是编队控制力、是导航控制力。
4.根据权利要求2所述的多智能体编队的控制方法,其特征在于,所述目标点包括导航目标点和编队目标点,获取所述目标点和测量点之间的位置偏差数据和速度偏差数据,包括,
获取多智能体中各个智能体的位置数据、速度数据以及各个智能体间的连接强度数据,确定多智能体编队的目标半径,并通过目标点位置偏差计算公式和目标点速度偏差计算公式计算各个智能体的目标点和测量点之间的位置偏差数据和速度偏差数据;
其中,所述位置偏差数据计算公式为:
qerror,i,γ=qr-qi;
其中,所述目标点速度偏差数据计算公式为:
perror,i,γ=pr-pi;
其中,q代表位置,p代表速度,i代表第i个智能体,j代表第j个智能体,代表智能体i的邻居集合数据,aij(q)代表智能体i和j之间的连接强度数据,c代表多智能体编队的目标半径数据,qr代表导航目标点位置数据,pr代表导航目标点速度,qerror,i,γ代表智能体i和导航目标点之间的位置偏差数据,perror,i,γ代表智能体i和导航目标点之间的速度偏差数据,qerror,i,α代表智能体i和编队目标点之间的位置偏差数据,perror,i,α代表智能体i和编队目标点之间的速度偏差数据。
5.根据权利要求1所述的多智能体编队的控制方法,其特征在于,构建编队优化模型,包括以下步骤:
构建actor、critic、target actor和target critic网络;其中,所述actor网络以状态数据为输入量,通过动作网络函数计算出输入的状态数据所对应的动作数据作为输出量;所述critic以状态数据以及以该状态数据下的动作数据为输入量,并通过价值网络函数计算出在该状态数据下的动作数据下的评价值作为输出量;
构建仿真环境,所述仿真环境以动作数据作为输入量,通过回报值函数计算所述动作数据的回报值作为输出量;
构建actor、critic、target actor和target critic网络的更新算法;
设置actor、critic、target actor和target critic网络的探索学习策略;
获取所述历史状态数据和历史动作数据,并利用target actor和target critic网络、所述actor、critic、target actor和target critic网络的更新算法以及探索学习策略多次训练actor和critic网络,选取最优actor和critic网络作为编队优化模型。
6.根据权利要求5所述的多智能体编队的控制方法,其特征在于,所述回报值函数为:
其中,rq,rp,ru分别为位置偏差参数、速度偏差参数以及控制力输出参数、qerror是位置偏差、perror是速度偏差、u是控制力输出,qmax为设定的最大位置偏差的范围,pmax为设定的最大速度偏差的范围,umax为设定的最大控制力输出的范围。
7.根据权利要求5所述的多智能体编队的控制方法,其特征在于,通过Loss函数计算损失率L,并根据最小损失率来更新critic网络;通过计算梯度来更新actor网络;
所述损失率L的Loss函数为:
所述梯度计算公式为:
其中,L代表损失率,N代表随机抽取历史数据[st,at,rt,st+1]进行更新的个数,i为迭代变量,γ代表折扣率,si代表第i个智能体的状态,ai代表在在第i个智能体的状态数据si下计算出来的第i个智能体的动作数据,si+1代表当执行动作数据ai后状态数据由si转移si+1,ri代表在si状态数据下,采取动作数据ai对应的回报值,θQ代表价值网络参数,θμ′代表目标动作网络参数;其中,代表计算出来的梯度,θμ代表代表动作网络的网络参数,μ代表动作网络函数,si代表第i个状态,N代表随机抽取历史数据进行更新的个数,a代表动作数据,θQ代表价值网络参数,Q(s,a|θQ)代表价值网络函数,是对于评价函数的梯度,是对于动作函数的梯度。
8.根据权利要求5所述的多智能体编队的控制方法,其特征在于,所述target critic网络的更新算法为:
θQ′=τθQ+(1-τ)θQ′
所述target actor网络的更新算法为:
θμ′=τθμ+(1-τ)θμ′
其中T=0.001,θQ′代表目标价值网络参数,θQ代表价值网络参数,θμ′代表目标动作网络参数,θμ代表动作网络参数。
9.根据权利要求5所述的多智能体编队的控制方法,其特征在于,所述actor、critic、target actor和target critic网络的探索学习策略为中心训练边缘执行策略;所述中心训练边缘执行策略包括:
获取所有智能体的所述历史状态数据和历史动作数据来训练actor和critic网络模型,进而获取到编队优化模型;
将获取到的各个智能体的实施状态数据输入所述优化编队模型获取到各个智能体的最优动作数据,并分发给各个智能体;
各个智能体根据各自接收的最优动作数据来进行优化编队。
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682131.5A CN110442129B (zh) | 2019-07-26 | 2019-07-26 | 一种多智能体编队的控制方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682131.5A CN110442129B (zh) | 2019-07-26 | 2019-07-26 | 一种多智能体编队的控制方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442129A true CN110442129A (zh) | 2019-11-12 |
CN110442129B CN110442129B (zh) | 2021-10-22 |
Family
ID=68431666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910682131.5A Active CN110442129B (zh) | 2019-07-26 | 2019-07-26 | 一种多智能体编队的控制方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442129B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112711261A (zh) * | 2020-12-30 | 2021-04-27 | 浙江大学 | 一种基于局部视野的多智能体编队规划方法 |
CN112835368A (zh) * | 2021-01-06 | 2021-05-25 | 上海大学 | 一种多无人艇协同编队控制方法及系统 |
CN112966816A (zh) * | 2021-03-31 | 2021-06-15 | 东南大学 | 一种编队包围的多智能体强化学习方法 |
CN113759902A (zh) * | 2021-08-17 | 2021-12-07 | 中南民族大学 | 多智能体局部交互路径规划方法、装置、设备及存储介质 |
CN113791612A (zh) * | 2021-08-17 | 2021-12-14 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
CN114326759A (zh) * | 2021-12-06 | 2022-04-12 | 中国农业大学 | 多智能体编队控制方法、装置及多智能体系统 |
CN115373266A (zh) * | 2022-08-11 | 2022-11-22 | 西北工业大学 | 一种绳系约束多智能体的张力预测与协同控制方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105467981A (zh) * | 2015-12-24 | 2016-04-06 | 中南大学 | 一种针对多个智能体的编队方法以及装置 |
CN105573306A (zh) * | 2015-12-31 | 2016-05-11 | 中南大学 | 一种具有盲区的多个智能体的编队方法以及装置 |
CN107450555A (zh) * | 2017-08-30 | 2017-12-08 | 唐开强 | 一种基于深度强化学习的六足机器人实时步态规划方法 |
CN107479368A (zh) * | 2017-06-30 | 2017-12-15 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
US10133275B1 (en) * | 2017-03-01 | 2018-11-20 | Zoox, Inc. | Trajectory generation using temporal logic and tree search |
CN109212476A (zh) * | 2018-09-18 | 2019-01-15 | 广西大学 | 一种基于ddpg的rfid室内定位算法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN109445456A (zh) * | 2018-10-15 | 2019-03-08 | 清华大学 | 一种多无人机集群导航方法 |
CN109523029A (zh) * | 2018-09-28 | 2019-03-26 | 清华大学深圳研究生院 | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 |
CN109540150A (zh) * | 2018-12-26 | 2019-03-29 | 北京化工大学 | 一种应用于危化品环境下多机器人路径规划方法 |
CN109726903A (zh) * | 2018-12-19 | 2019-05-07 | 中国电子科技集团公司信息科学研究院 | 基于注意力机制的分布式多智能体协同决策方法 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
-
2019
- 2019-07-26 CN CN201910682131.5A patent/CN110442129B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105467981A (zh) * | 2015-12-24 | 2016-04-06 | 中南大学 | 一种针对多个智能体的编队方法以及装置 |
CN105573306A (zh) * | 2015-12-31 | 2016-05-11 | 中南大学 | 一种具有盲区的多个智能体的编队方法以及装置 |
US10133275B1 (en) * | 2017-03-01 | 2018-11-20 | Zoox, Inc. | Trajectory generation using temporal logic and tree search |
US20190004518A1 (en) * | 2017-06-30 | 2019-01-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and system for training unmanned aerial vehicle control model based on artificial intelligence |
CN107479368A (zh) * | 2017-06-30 | 2017-12-15 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
CN107450555A (zh) * | 2017-08-30 | 2017-12-08 | 唐开强 | 一种基于深度强化学习的六足机器人实时步态规划方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN109212476A (zh) * | 2018-09-18 | 2019-01-15 | 广西大学 | 一种基于ddpg的rfid室内定位算法 |
CN109523029A (zh) * | 2018-09-28 | 2019-03-26 | 清华大学深圳研究生院 | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 |
CN109445456A (zh) * | 2018-10-15 | 2019-03-08 | 清华大学 | 一种多无人机集群导航方法 |
CN109726903A (zh) * | 2018-12-19 | 2019-05-07 | 中国电子科技集团公司信息科学研究院 | 基于注意力机制的分布式多智能体协同决策方法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN109540150A (zh) * | 2018-12-26 | 2019-03-29 | 北京化工大学 | 一种应用于危化品环境下多机器人路径规划方法 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
Non-Patent Citations (3)
Title |
---|
WANRONG HUANG: "A Deep Reinforcement Learning Approach to Preserve Connectivity for Multi-robot Systems", 《2017 10TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS (CISP-BMEI 2017)》 * |
周世正: "基于深度强化学习的多机器人协同导航", 《中国优秀硕士学位全文全文数据库-信息科技辑》 * |
秦斌: "基于多智能体系统的分布式智能控制系统框架与原型系统开发", 《计算机集成制造系统》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112068549B (zh) * | 2020-08-07 | 2022-12-16 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112068549A (zh) * | 2020-08-07 | 2020-12-11 | 哈尔滨工业大学 | 一种基于深度强化学习的无人系统集群控制方法 |
CN112711261A (zh) * | 2020-12-30 | 2021-04-27 | 浙江大学 | 一种基于局部视野的多智能体编队规划方法 |
CN112835368A (zh) * | 2021-01-06 | 2021-05-25 | 上海大学 | 一种多无人艇协同编队控制方法及系统 |
CN112966816A (zh) * | 2021-03-31 | 2021-06-15 | 东南大学 | 一种编队包围的多智能体强化学习方法 |
CN113791612B (zh) * | 2021-08-17 | 2023-10-24 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
CN113791612A (zh) * | 2021-08-17 | 2021-12-14 | 中南民族大学 | 智能体实时路径规划方法、装置、设备及存储介质 |
CN113759902A (zh) * | 2021-08-17 | 2021-12-07 | 中南民族大学 | 多智能体局部交互路径规划方法、装置、设备及存储介质 |
CN113759902B (zh) * | 2021-08-17 | 2023-10-27 | 中南民族大学 | 多智能体局部交互路径规划方法、装置、设备及存储介质 |
CN114326759A (zh) * | 2021-12-06 | 2022-04-12 | 中国农业大学 | 多智能体编队控制方法、装置及多智能体系统 |
CN114326759B (zh) * | 2021-12-06 | 2023-12-22 | 中国农业大学 | 多智能体编队控制方法、装置及多智能体系统 |
CN115373266A (zh) * | 2022-08-11 | 2022-11-22 | 西北工业大学 | 一种绳系约束多智能体的张力预测与协同控制方法 |
CN115373266B (zh) * | 2022-08-11 | 2024-04-30 | 西北工业大学 | 一种绳系约束多智能体的张力预测与协同控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110442129B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442129A (zh) | 一种多智能体编队的控制方法和系统 | |
CN110794842A (zh) | 基于势场的强化学习路径规划算法 | |
CN110083165B (zh) | 一种机器人在复杂狭窄环境下路径规划方法 | |
Wang et al. | Three-dimensional path planning for UCAV using an improved bat algorithm | |
CN104571113B (zh) | 移动机器人的路径规划方法 | |
CN103971160B (zh) | 基于复杂网络的粒子群优化方法 | |
CN107253195B (zh) | 一种运载机器人手臂操控自适应混合学习映射智能控制方法及系统 | |
Guo et al. | A new improved krill herd algorithm for global numerical optimization | |
CN109948642A (zh) | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 | |
CN110470301A (zh) | 多动态任务目标点下的无人机路径规划方法 | |
CN112469050B (zh) | 一种基于改进灰狼优化器的wsn三维覆盖增强方法 | |
CN111611749A (zh) | 基于rnn的室内人群疏散自动引导仿真方法及系统 | |
CN107179077A (zh) | 一种基于elm‑lrf的自适应视觉导航方法 | |
CN112231968A (zh) | 基于深度强化学习算法的人群疏散仿真方法及系统 | |
CN105427241A (zh) | 一种大视场显示设备的畸变校正方法 | |
CN109726676A (zh) | 自动驾驶系统的规划方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN116841317A (zh) | 一种基于图注意力强化学习的无人机集群协同对抗方法 | |
CN109948771A (zh) | 一种基于细菌觅食优化bp神经网络的态势评估算法 | |
CN108453737A (zh) | 一种基于神经网络的机器人动作轨迹获取系统及方法 | |
CN110450164A (zh) | 机器人控制方法、装置、机器人及存储介质 | |
Guan et al. | Research on path planning of mobile robot based on improved Deep Q Network | |
Kong et al. | Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Wu et al. | Improved AFSA for solving intelligent test problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |