CN114326826A - 多无人机队形变换方法及系统 - Google Patents
多无人机队形变换方法及系统 Download PDFInfo
- Publication number
- CN114326826A CN114326826A CN202210025528.9A CN202210025528A CN114326826A CN 114326826 A CN114326826 A CN 114326826A CN 202210025528 A CN202210025528 A CN 202210025528A CN 114326826 A CN114326826 A CN 114326826A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- state
- vehicle body
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 59
- 238000011426 transformation method Methods 0.000 title description 4
- 230000009471 action Effects 0.000 claims abstract description 103
- 238000000034 method Methods 0.000 claims abstract description 81
- 230000009466 transformation Effects 0.000 claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 62
- 239000013598 vector Substances 0.000 claims description 52
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 230000007246 mechanism Effects 0.000 claims description 29
- 230000004888 barrier function Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 14
- 230000007704 transition Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 239000002131 composite material Substances 0.000 claims 1
- 238000000926 separation method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 44
- 230000002787 reinforcement Effects 0.000 abstract description 18
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000005755 formation reaction Methods 0.000 description 54
- 238000011176 pooling Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及一种多无人机队形变换方法及系统,属于无人机队形变换领域。先建立适用于多无人机队形变换的马尔科夫决策模型,然后采用深度强化学习计算马尔科夫决策模型的最优解,在计算过程中,采集其他障碍物的状态以及动作信息并为其计算注意力分数,分数越高的障碍物无人机本体路径的影响越大,无人机本体在下一步动作选择中要关注此障碍并注意躲避,从而有效减小了无人机之间的碰撞发生几率。
Description
技术领域
本发明涉及无人机队形变换领域,特别是涉及一种多无人机队形变换方法及系统。
背景技术
随着无人机技术以及电子信息技术的发展,无人机的应用越来越智能化,智能移动无人机的一个重要特征是在复杂动态环境下可以进行良好的路径轨迹规划实现无人机队形变换。智能无人机队形变换是指在搜索区域内给出合理的目标函数,并在一定范围内找到目标函数的最优解,使无人机进行有序的队形变换,无人机队形变换在许多领域有着广泛的应用,如大型无人机空中表演、无人机基站的区域覆盖以及无人机救援等。
近期用于无人机队形变换的主要算法是深度强化学习(Deep ReinforcementLearning,DRL)算法。DRL是人工智能领域近年来高速发展起来的一个方向,拥有着巨大的潜力,其主要是解决智能体从感知到决策的问题,深度强化学习也为无人机智能编队变换奠定了理论基础。
深度强化学习更早的用于路径规划的研究,但是早期研究更注重静态环境中单智能体的路径规划,但是随着应用场景复杂变化,智能体将从孤立的场景扩展成多个智能体共同存在的空间。传统的无人机队形变换通常将物体视为静态障碍物,这导致了智能体预见性低,容易产生不安全或者不自然的行为。为了解决多无人机安全实现智能队形变换的问题,无人机需要关注其他无人机的动作状态进行合作规则。基于此,亟需一种能够关注其他无人机的动作状态的多无人机队形变换方法及系统。
发明内容
本发明的目的是提供一种多无人机队形变换方法及系统,通过增加注意力机制来处理动态环境中信息复杂度高和对其他无人机重要性的评估不准确的问题。
为实现上述目的,本发明提供了如下方案:
一种多无人机队形变换方法,所述方法包括:
建立适用于多无人机队形变换的马尔科夫决策模型;
基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解,具体包括:
采集邻居无人机的状态动作信息,所述邻居无人机为与无人机本体相邻的无人机;
对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理,得到所述无人机本体和所述邻居无人机的联合状态特征向量;
根据所述联合状态特征向量和所述注意力机制获得注意得分;
根据所述联合状态特征向量和所述注意得分,获得综合特征值;
利用所述综合特征值和无人机本体的状态获得状态价值函数;
利用深度价值网络算法对所述状态价值函数进行迭代更新,得到最优状态价值函数;
根据最优状态价值函数获得无人机本体的最优动作选择,无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。
本发明还提供一种多无人机队形变换系统,所述系统包括:
模型建立模型,用于针对无人机队形变换问题建立适用于多无人机队形变换的马尔科夫决策模型;
计算模块,用于基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解
其中,所述计算模块具体包括:
数据采集子模块,用于采集邻居无人机的状态动作信息,所述邻居无人机为与无人机本体相邻的无人机;
预处理子模块,用于对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理,得到所述无人机本体和所述邻居无人机的联合状态特征向量;
注意得分计算子模块,用于根据所述联合状态特征向量和所述注意力机制获得注意得分;
特征提取子模块,用于根据所述联合状态特征向量和所述注意得分,获得综合特征值;
状态价值函数获取子模块,用于利用所述综合特征值和无人机本体的状态获得状态价值函数;
训练子模块,用于利用深度价值网络算法对所述状态价值函数进行迭代更新,得到最优状态价值函数;
最优动作选择子模块,用于根据最优状态价值函数获得无人机本体的最优动作选择,无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的多无人机队形变换系统,先建立适用于多无人机队形变换的马尔科夫决策模型,然后采用深度强化学习计算马尔科夫决策模型的最优解,在计算过程中,采集其他障碍物的状态以及动作信息并为其计算注意力分数,分数越高的障碍物无人机本体路径的影响越大,无人机本体在接下来的动作选择中要关注此障碍并注意躲避,从而有效减小了无人机之间的碰撞发生几率。本发明还采用深度价值网络算法通过迭代状态值函数找到无人机到目标点的最优路径。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种多无人机队形变换方法流程图;
图2为本发明实施例1提供的信息采集和预处理过程图;
图3为本发明实施例1提供的池化过程图;
图4为本发明实施例1提供的深度价值网络(Deep Value Network)的队形变换训练过程图;
图5为本发明实施例1提供的无人机队形变换前的效果图;
图6为本发明实施例1提供的无人机队形变换后的效果图;
图7为本发明实施例1提供的多无人机三角形队形变换轨迹图;
图8为本发明实施例1提供的多无人机圆形队形变换轨迹图;
图9为本发明实施例2提供的一种多无人机队形变换系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多无人机队形变换方法及系统,通过融入注意力机制结合深度强化学习可以使无人机在智能队形变换过程中有效避障。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
本实施例提供一种多无人机队形变换方法,请参阅图1,所述方法包括:
S1、建立适用于多无人机队形变换的马尔科夫决策模型。
本发明针对多UAV动态环境中的智能队形变换问题建立适用于本环境的马尔可夫决策模型,考虑到UAV的当前动作只与上一个状态和采取的动作有关与其它时间的状态无关,因此本研究建立的马尔可夫决策模型包括:状态空间、动作空间、回报函数、状态转移概率以及折扣因子。
状态空间(State):对于动态环境中的每一个无人机(包含本体和其他无人机)设定位置p=[px,py]速度v=[vx,vy],智能体本体的观察半径为r(智能体对可观测半径r以内的障碍物进行注意分数计算)。此处需要说明的是:p=[px,py]是每个无人机坐标的通用表示方法,可以表示无人机本体和其他邻居无人机的坐标,速度v=[vx,vy]同理。
设定目标位置pg,最佳速度vpref。本实施例的过程中假设UAV经过速度vt后能立刻能够执行动作at,从而可以将vt=at将速度和动作结合。
在建立的模型中,本体无人机位于中心,x轴指向目标点。对无人机本体和与本体相邻的其他无人机进行汇总如下:
s=[p,dg,vpref,vx,vy,r]
wi=[px,py,vx,vy,ri,di,ri+r]
式中,s为无人机本体的状态集合,wi是无人机邻居的位置、速度、与无人机本体距离信息的集合,dg=||p-pg||2表示无人机到目标点的距离(向量具有大小和方向),i表示无人机到动态障碍物的临近距离。ri为动态障碍物的感知半径,ri+r表示智能体本体与动态障碍物两两互不感知的距离。
动作空间(Action):为了完整表示无人机的完整运动学特性,无人机可以向任何方向进行移动,所以将[0,2π]平均分为16个方向,并且将无人机速度离散化,将[0,vpref)区间内的速度指数分割为5个区间,从而可以得到最终的动作空间S′由80个离散的动作组成。
奖励空间(Reword):对每一个动作进行评价,考虑到无人机的体积形状问题,不能仅针对无人机与障碍物距离小于0时刻(已经发生了碰撞)进行惩罚,同时还要对碰撞和距离小于0.2的行为进行惩罚,目的是为无人机增加安全域,更加贴合现实场景的应用。
式中,at是无人机在队形变换过程中执行的动作,为无人机动作选择的回报值,回报值越大,说明无人机在队形变换过程中的可靠性越高,经过训练后无人机会趋向于选择一条无碰撞路径进行编队变换。dt为[t-Δt,t]时间段内无人机与其他无人机最小分距离。
需要说明的是,上述距离小于0.2仅是为了说明本实施例的方案而列举的一个数值,本发明并不对具体数值进行限制,此数值可根据具体情况做出调整。
状态转移概率:表示S×A→Sp的转移概率。P(st+1|st,a)表示在状态st下采取行动a(在动作空间内)状态转移到st+1的概率。
针对无人机队形变换建立了适合本发明的马尔可夫决策模型,规定了状态空间,为无人机提供了坐标,可以根据不同的坐标建立不同的无人机队形样式;设定了动作空间,其中包含无人机运动的步长和动作方向,此类信息作为算法求解过程中邻居无人机信息的输入特征向量;设定了奖励空间,针对本发明自定了奖励算法,是算法求解过程中最佳动作选择的核心,通过设定奖励与惩罚函数来根据无人机邻居信息与本体的状态来决策本体下一步的动作,通过训练使无人机本体找到一条到目标点奖励分数最高的路径,即最短且无碰撞路径。马尔科夫决策过程简化了状态转移过程中的其他影响因子以实现无人机的动作选择。
S2、基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解。
本实施例现使用python语言在深度强化学习框架pytorch搭建深度价值(DeepValue Network-DVN)网络算法,在Ubnutu18.04系统下进行训练。本实施例在深度强化学习基础上引入三个步骤,分别是:无人机信息采集和预处理过程、池化过程、最佳动作选择过程。整个过程的工作原理是:首先,将无人机邻居的信息(wi=[px,py,vx,vy,ri,di,ri+r])作为输入,用于无人机状态动作信息的采集和信息的预处理,主要包括无人机本身与其他无人机(动态障碍物信息)内部状态动作信息,然后将信息传入到池化过程中,用于处理信息采集后的信息,降低信息复杂度,并将处理之后的联合状态信息传递给最佳动作选择过程,最后的最佳动作选择应用联合状态信息和强化学习的算法对状态价值函数进行更新,对环境做出预测和探索,经过大量训练后得到最优价值函数,为无人机的动作产生一个最优策略,下面对这一过程进行详细介绍:
需要说明的是:本发明采用的方法不需要数据集进行训练,强化学习无人机编队变换的训练方法为:从起点到目标点过程中,如果下一步发生了碰撞或距离小于0.2(奖励空间已设定),那么就会给无人机的动作减分,如果下一步动作没有碰撞就会给无人机加分,经过无数次试错后,最终选择得分最高的动作,得分越高说明碰撞越少,即找到了一套最佳动作。通过离线试错,可以在线使用训练好的网络实时完成队形变换。
步骤S2具体可包括:
S21、采集邻居无人机的状态动作信息,所述邻居无人机为与无人机本体相邻的无人机。
S22、对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理,得到所述无人机本体和所述邻居无人机的联合状态特征向量。
由于如果直接收集信息复杂度很高并且计算复杂,会对之后的步骤产生影响导致结果不理想。所以本实施例给定了一个大小为L的邻域,构造一个地图张量Mi。通过地图张量Mi以无人机本体为中心,对L×L×3范围内的动态障碍物的位置和速度进行编码。
式中,w'j=(vxj,vyj,1)是其他智能体j(动态障碍物)的局部变量,δab(xj-xi,yj-yi)是一个指示函数,仅在动态障碍物相对位置在区域(a,b)内为1。
将动态障碍物的状态wi、地图张量Mi和无人机本体的状态s(State)作为第一层多层感知机的输入,进而得到无人机与动态障碍物的第一成对特征向量ei,第一成对特征向量为一个定长向量。
ei=φe(s,wi,Mi;We)
式中,φe=(·)表示ReLU激活函数,We为网络权值。
由于只有底层特征对障碍物的动作状态信息判断不够准确,因此为了提高可靠性,本发明在第一层多层感知机的基础上再增加第二层多层感知机对障碍物动作状态信息特征加强提取,即定长向量ei作为后续多层感知机的输入,得到无人机本体与动态障碍物的第二成对特征向量hi。
hi=Ψh(ei;Wh)
式中,Wh作为多层感知机的权重(也叫连接系数)。
如图2所示,MLP为多层感知机,其中ei为经过一层感知机的特征向量,后面ei作为输入再经过一层感知机作为加强特征提取。需要说明的是:第一成对特征向量ei和第二成对特征向量hi均为联合状态特征向量。
本发明引入无人机状态动作相互采集过程并对其预处理,由于直接收集信息复杂度很高,这会对之后的步骤产生影响,导致结果不理想,因此无人机状态动作信息采集的功能是对无人机状态以及动作信息的收集和预处理,减轻计算压力。
经过上述步骤S21-S22对无人机信息进行采集和预处理之后,获得了无人机本身与其他无人机(动态障碍物信息)内部状态动作信息,然后将信息传入到池化过程中,池化过程的作用是处理信息采集与预处理后传递过来的联合状态特征向量ei与hi,降低数据复杂度,并加入本发明提出的注意力机制,进行注意分数的计算。本发明利用注意力机制的最新进展,提出了一种池化方法来关注无人机队形变换过程中其他无人机对本无人机的相对重要性。池化过程主要包括下述步骤S23-S24。
S23、根据所述联合状态特征向量和所述注意力机制获得注意得分。
注意得分的计算公式为:
αi=ψα(ei,em;Wα)
式中,em是与定长ei相同长度的嵌入向量,是通过对ei-j算术平均获得的。ψα()是一个多层感知机具有ReLU激活函数和权重Wα,αi是指注意得分。
S24、根据所述联合状态特征向量和所述注意得分,获得综合特征值。
步骤S24中的联合状态特征向量指的是第二成对特征向量,将注意得分经过Softmax函数进行数值处理后,再与每一个第二成对特征向量hi进行加权线性组合,得到综合特征值c。
综合特征值为无人机与动态障碍物和动态障碍物之间动作状态以及动作的综合特征表示,即池化过程最终得到一个c表示无人机与动态障碍物和动态障碍物之间动作状态以及动作的综合特征表示,上述池化过程具体请参阅图3。
池化过程之后进入无人机动作决策过程即最佳动作选择过程,最后的最佳动作选择应用联合状态信息和强化学习的算法对状态价值函数进行更新,对环境做出预测和探索,经过大量训练后得到最优价值函数,为无人机的动作产生一个最优策略。无人机动作决策过程包括步骤S25-S27。
S25、利用所述综合特征值和无人机本体的状态获得状态价值函数。
v=fv(s,c,Wv)
式中,fv()为ReLU激活函数,权值用Wv表示。其中v是用于估计无人机规划的状态价值函数。
S26、利用深度价值网络算法对所述状态价值函数进行迭代更新,得到最优状态价值函数。
(1)使用一组模仿学习经验D进行无人机原始动作、状态的初始化,将当前value网络中的参数复制给Target-V网络,用模仿学习经验D进行经验池E的初始化;
(6)设定训练终止条件:到达终止状态st,t≥tmax步数大于设定的最大步数;
(7)停止更新状态价值函数v;
(8)训练完所有episode,返回最终的状态价值函数V*,所述最终的状态价值函数即为最优状态价值函数。深度价值网络(Deep Value Network-DVN)算法流程如图4所示。
S27、根据最优状态价值函数获得无人机本体的最优动作选择,无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。
本发明基于深度强化学习理论建立多向状态动作信息采集模型。考虑到在环境中不仅存在动态障碍物与无人机的交互,也存在动态障碍物内部交互,发明建立多向状态动作信息采集模型来降低障碍物的不确定性带来的影响。在这基础上本发明提出了一种注意力机制的深度强化学习的多无人机队形变换的方法,不同于其他方法直接通过距离来判定障碍物对无人机的影响大小。注意力机制不仅通过位置距离,还考虑了速度、未来轨迹等多方面因素,来进行判定障碍物对无人机的影响。
本发明提供的多无人机队形变换方法中加入注意力机制进行注意分数的计算。注意力机制是在池化过程中加入的,通过计算障碍物的状态和动作信息的特征向量计算出注意分数,分数越高说明障碍物对无人机本体的影响越大,无人机越要注意躲避。池化层的作用是处理采集的状态动作信息传递过来的联合状态特征向量,降低数据复杂度。
本发明还加入最优路径规划过程,规划过程作为路径规划的决策步骤,它主要包含了Deep-V-learning算法,作用是规划无人机到目标点的最短路径。
下面对本发明进行实验验证:
为了验证上述方案的有效性,用python搭建了一个范围是12*12的场景,所有无人机都分布在半径为4m的圆上,他们运动的目标都设定关于圆心对称的位置上。将本发明的自我注意力机制的深度强化学习(Self-attention Reinforcement Learning,SARL)方案与现有最优相互式避障(Optimal Reciprocal CollisionAvoidance,ORCA)方案进行对比,通过进行500例测试可以得出以下结果如下表:
表1测试数据表
表中展示了测试结果的成功率、碰撞率、平均完成任务时间(不统计碰撞和超时案例)。其中ORCA在测试中表现差,这是因为它只考虑了单个状态动作信息,忽略了内部状态动作信息,这表明一项方法中应该同时考虑到所有无人机之间状态动作信息的必要性。相比于ORCA增加了注意力机制,大幅提升的成功率证明了所设计方法的优势。
接下来展示无人机队形变换测试结果并且进行分析。设置无人机为三角形编队,目标队形为现队形相反的三角形编队,为了测试本方法的可靠性,考虑让无人机都通过中心点运动进行队形变换,目的是为了每一架无人机都能进行有效避障并且可以规划出最短路径。以6号无人机为例,起始坐标为(3,0)的位置,目标点设定在(0,3)位置上,为了让无人机队形变换都通过圆心,因此将目标点设置为圆心对称点,其他无人机的位置以及目标点也遵循此规则,队形变化前后效果分别如图5和图6所示。
图5以及图6是多无人机三角形队形变换过程的变化图,在队形变化过程中增加注意力机制,数值越大说明编号无人机对无人机本体影响大。以4号无人机的视角来看,图中5号比1号无人机离本体距离近,但是5号无人机的注意得分比1号要低,这是因为5号无人机的运动方向正在朝向远离本体的方向运动,而1号运动方向正在朝向本体方向运动,所以综合考虑了运动速度、方向、距离等因素,得出注意得分1号无人机大于5号无人机。可以看出融入注意力机制可以更加提高无人机在队形变换中路径规划过程的可靠性。
无人机编队三角形队形变换过程如图7所示,可以看出,无人机编队能够通过在线运动规划实现安全避碰,完成队形变换。
图8是无人机圆形队形变换的示意图,这里让每个无人机的目标位置都是对面,那么所有无人机到达目标点的最短路径都要经过圆心,加入注意力后无人机可以处理好选择最短路径的动作。通过截取每秒的位置并绘制在一张图上得到,通过每个位置间的距离可以看出速度。测试最终用时10.25秒达到安全达到目标地点。
本发明主要设计了基于深度强化学习的多无人机路径规划下的队形变换,增加了注意力机制来处理动态环境中信息复杂度高和对其他无人机重要性的评估不准确的问题。本发明算法主要是基于深度强化学习中的深度Q网络(deep Q-network,DQN)算法为基础;通过不断迭代状态价值函数进行网络参数更新;并且在深度学习的部分增加了注意力的机制有效的加快了网络收敛速度,也使得整个路径规划算法更高效,用时更短。本发明上述提出的多无人机路径规划术,对于多机器人协同技术的研究具有十分重要的意义。该项发明稳定可靠,可扩展性好,稳定性强,整个算法均在处理器中完成,在PC端进行可视化。使整个系统有着更高的稳定性和可靠性。总而言之随着社会需求的提高,无人机有越来越多的功能需求及应用场景,要求无人机需要拥有更强的感知、决策以及执行能力,基于无人机的感知决策的研究成为解决该问题的关键。
实施例2
本实施例提供一种多无人机队形变换系统,请参阅图9,所述系统包括:
模型建立模型M1,用于针对无人机队形变换问题建立适用于多无人机队形变换的马尔科夫决策模型;
计算模块M2,用于基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解
其中,计算模块M2具体包括:
数据采集子模块,用于采集邻居无人机的状态动作信息,所述邻居无人机为与无人机本体相邻的无人机;
预处理子模块,用于对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理,得到所述无人机本体和所述邻居无人机的联合状态特征向量;
注意得分计算子模块,用于根据所述联合状态特征向量和所述注意力机制获得注意得分;
特征提取子模块,用于根据所述联合状态特征向量和所述注意得分,获得综合特征值;
状态价值函数获取子模块,用于利用所述综合特征值和无人机本体的状态获得状态价值函数;
训练子模块,用于利用深度价值网络算法对所述状态价值函数进行迭代更新,得到最优状态价值函数;
最优动作选择子模块,用于根据最优状态价值函数获得无人机本体的最优动作选择,无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。
本发明主要具有如下优点:
(1)模拟场景验证技术:本发明提出了一种模仿复杂场景下多无人机队形变换以及有效避障的实验场景,模拟实现多无人机实现在无碰撞环境下的最短路径规划从而进行队形变换,并验证了强化学习、注意力机制、无人机避障、路径规划以及队形变换等多个关键技术,且整个平台模块化,可依据需要对算法进行替换。
(2)增加注意力分数以及可视化:本发明提出了一种基于注意力机制与深度强化学习相结合的方法,实现了无人机对目标障碍物的自主检测,为后续无人机有效避障奠定了基础。
(3)复杂场景中的应用广泛:本发明中提出的方法,能够更加贴合实际的生产生活场景,由于现实场景的复杂多变,障碍物出现的过程是随机的,因此这对无人机的有效避障提出了很大的挑战。因此,本发明融入的注意力机制对大规模无人机集群的队形变换有良好的效果。
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种多无人机队形变换方法,其特征在于,所述方法包括:
建立适用于多无人机队形变换的马尔科夫决策模型;
基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解,具体包括:
采集邻居无人机的状态动作信息,所述邻居无人机为与无人机本体相邻的无人机;
对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理,得到所述无人机本体和所述邻居无人机的联合状态特征向量;
根据所述联合状态特征向量和所述注意力机制获得注意得分;
根据所述联合状态特征向量和所述注意得分,获得综合特征值;
利用所述综合特征值和无人机本体的状态获得状态价值函数;
利用深度价值网络算法对所述状态价值函数进行迭代更新,得到最优状态价值函数;
根据最优状态价值函数获得无人机本体的最优动作选择,无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。
2.根据权利要求1所述的方法,其特征在于,所述马尔科夫决策模型具体包括:
状态空间:包括无人机本体的状态,与无人机本体相邻的其他无人机的状态,以及无人机本体和其他无人机的联合状态;
动作空间:由80个离散的动作组成,所述80个离散的动作包括由[0,2π]平均分成的16个方向以及由[0,vpref)区间的速度指数分割的5个区间,其中vpref为最佳速度;
状态转移概率:表示S×A→Sp的转移概率,P(st+1|st,a)表示在状态st下采取行动a状态转移到st+1的概率;
折扣因子:γ∈(0,1)。
3.根据权利要求1所述的方法,其特征在于,所述对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理,得到所述无人机本体和所述邻居无人机的联合状态特征向量,具体包括:
构造一个地图张量;
将所述地图张量、动态障碍物的状态以及无人机本体的状态输入到第一层多层感知机,得到无人机本体与动态障碍物的第一成对特征向量,所述第一成对特征向量为一个定长向量,所述动态障碍物为与无人机本体相邻的其他无人机;
将所述第一成对特征向量输入到第二层多层感知机,获得无人机本体与动态障碍物的第二成对特征向量,所述第一成对特征向量和所述第二成对特征向量均为联合状态特征向量。
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述联合状态特征向量和所述注意得分,获得综合特征值,具体包括:对所述第二成对特征向量和所述注意得分进行加权线性组合,得到综合特征值。
6.根据权利要求1所述的方法,其特征在于,所述利用所述综合特征值和无人机本体的状态获得状态价值函数的公式为:
v=fv(s,c,Wv)
式中,v是用于估计无人机规划的状态价值函数,fv()为ReLU激活函数,Wv表示权值,s表示无人机本体的状态。
7.根据权利要求1所述的方法,其特征在于,所述利用深度价值网络算法对所述状态价值函数进行迭代更新,得到最优状态价值函数,具体包括:
使用一组模仿学习经验D进行无人机原始动作、状态的初始化,将当前value网络中的参数复制给Target-V网络,用模仿学习经验D进行经验池E的初始化;
设定训练终止条件:到达终止状态st,t≥tmax步数大于设定的最大步数;
停止更新状态价值函数v;
训练完所有episode,返回最终的状态价值函数V*,所述最终的状态价值函数即为最优状态价值函数。
8.一种多无人机队形变换系统,其特征在于,所述系统包括:
模型建立模型,用于针对无人机队形变换问题建立适用于多无人机队形变换的马尔科夫决策模型;
计算模块,用于基于注意力机制以及深度价值网络算法计算马尔科夫决策模型的最优解
其中,所述计算模块具体包括:
数据采集子模块,用于采集邻居无人机的状态动作信息,所述邻居无人机为与无人机本体相邻的无人机;
预处理子模块,用于对无人机本体的状态动作信息以及所述邻居无人机的状态动作信息进行预处理,得到所述无人机本体和所述邻居无人机的联合状态特征向量;
注意得分计算子模块,用于根据所述联合状态特征向量和所述注意力机制获得注意得分;
特征提取子模块,用于根据所述联合状态特征向量和所述注意得分,获得综合特征值;
状态价值函数获取子模块,用于利用所述综合特征值和无人机本体的状态获得状态价值函数;
训练子模块,用于利用深度价值网络算法对所述状态价值函数进行迭代更新,得到最优状态价值函数;
最优动作选择子模块,用于根据最优状态价值函数获得无人机本体的最优动作选择,无人机本体的最优动作选择即为所述马尔科夫决策模型的最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210025528.9A CN114326826B (zh) | 2022-01-11 | 2022-01-11 | 多无人机队形变换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210025528.9A CN114326826B (zh) | 2022-01-11 | 2022-01-11 | 多无人机队形变换方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114326826A true CN114326826A (zh) | 2022-04-12 |
CN114326826B CN114326826B (zh) | 2023-06-20 |
Family
ID=81027439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210025528.9A Active CN114326826B (zh) | 2022-01-11 | 2022-01-11 | 多无人机队形变换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114326826B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114079A (zh) * | 2023-10-25 | 2023-11-24 | 中泰信合智能科技有限公司 | 一种单交叉口信号控制模型迁移至目标环境的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106406345A (zh) * | 2016-10-20 | 2017-02-15 | 天津大学 | 基于Qt的室内多无人机编队控制系统 |
CN108134980A (zh) * | 2018-01-11 | 2018-06-08 | 南京华讯方舟通信设备有限公司 | 一种适用于无人机蜂群自组织网络的快速分布式相对定位方法 |
CN108873936A (zh) * | 2018-07-09 | 2018-11-23 | 北京电子工程总体研究所 | 一种基于势博弈的飞行器自主编队方法 |
KR20190013156A (ko) * | 2017-07-31 | 2019-02-11 | 이화여자대학교 산학협력단 | 동적 네트워크에서 네트워크 형성 방법 및 장치 |
US20190049968A1 (en) * | 2017-08-10 | 2019-02-14 | Patroness, LLC | Systems and Methods for Enhanced Autonomous Operations of A Motorized Mobile System |
CN111552184A (zh) * | 2020-05-18 | 2020-08-18 | 杭州电子科技大学 | 一种全天候条件下的无人机-小车编队控制方法 |
WO2021037766A1 (en) * | 2019-08-23 | 2021-03-04 | Five AI Limited | Performance testing for robotic systems |
CN112801160A (zh) * | 2021-01-22 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于蜂窝图模型的无人机编队脆弱性分析方法及系统 |
WO2021096640A1 (en) * | 2019-11-13 | 2021-05-20 | Micron Technology, Inc. | Mixing coefficient data for processing mode selection |
CN112947581A (zh) * | 2021-03-25 | 2021-06-11 | 西北工业大学 | 基于多智能体强化学习的多无人机协同空战机动决策方法 |
CN113381797A (zh) * | 2021-05-31 | 2021-09-10 | 北方工业大学 | 一种基于广义张量压缩的无人机信息监控方法 |
-
2022
- 2022-01-11 CN CN202210025528.9A patent/CN114326826B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106406345A (zh) * | 2016-10-20 | 2017-02-15 | 天津大学 | 基于Qt的室内多无人机编队控制系统 |
KR20190013156A (ko) * | 2017-07-31 | 2019-02-11 | 이화여자대학교 산학협력단 | 동적 네트워크에서 네트워크 형성 방법 및 장치 |
US20190049968A1 (en) * | 2017-08-10 | 2019-02-14 | Patroness, LLC | Systems and Methods for Enhanced Autonomous Operations of A Motorized Mobile System |
CN108134980A (zh) * | 2018-01-11 | 2018-06-08 | 南京华讯方舟通信设备有限公司 | 一种适用于无人机蜂群自组织网络的快速分布式相对定位方法 |
CN108873936A (zh) * | 2018-07-09 | 2018-11-23 | 北京电子工程总体研究所 | 一种基于势博弈的飞行器自主编队方法 |
WO2021037766A1 (en) * | 2019-08-23 | 2021-03-04 | Five AI Limited | Performance testing for robotic systems |
WO2021096640A1 (en) * | 2019-11-13 | 2021-05-20 | Micron Technology, Inc. | Mixing coefficient data for processing mode selection |
CN111552184A (zh) * | 2020-05-18 | 2020-08-18 | 杭州电子科技大学 | 一种全天候条件下的无人机-小车编队控制方法 |
CN112801160A (zh) * | 2021-01-22 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于蜂窝图模型的无人机编队脆弱性分析方法及系统 |
CN112947581A (zh) * | 2021-03-25 | 2021-06-11 | 西北工业大学 | 基于多智能体强化学习的多无人机协同空战机动决策方法 |
CN113381797A (zh) * | 2021-05-31 | 2021-09-10 | 北方工业大学 | 一种基于广义张量压缩的无人机信息监控方法 |
Non-Patent Citations (1)
Title |
---|
OLIMPIYA SAHA等: "Real-time robot path planning around complex obstacle patterns through learning and transferring options", IEEE, pages 278 - 283 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114079A (zh) * | 2023-10-25 | 2023-11-24 | 中泰信合智能科技有限公司 | 一种单交叉口信号控制模型迁移至目标环境的方法 |
CN117114079B (zh) * | 2023-10-25 | 2024-01-26 | 中泰信合智能科技有限公司 | 一种单交叉口信号控制模型迁移至目标环境的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114326826B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | Path planning method with improved artificial potential field—a reinforcement learning perspective | |
Singla et al. | Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge | |
Zhu et al. | Deep reinforcement learning based mobile robot navigation: A review | |
Gupta et al. | Cognitive mapping and planning for visual navigation | |
Tai et al. | A deep-network solution towards model-less obstacle avoidance | |
Chen et al. | Stabilization approaches for reinforcement learning-based end-to-end autonomous driving | |
Fan et al. | Crowdmove: Autonomous mapless navigation in crowded scenarios | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
Liu et al. | A survey on deep-learning approaches for vehicle trajectory prediction in autonomous driving | |
CN112965081B (zh) | 基于融合行人信息的特征地图的模仿学习社交导航方法 | |
CN111340868B (zh) | 基于视觉深度估计的无人水下航行器自主决策控制方法 | |
You et al. | Target tracking strategy using deep deterministic policy gradient | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN108320051B (zh) | 一种基于gru网络模型的移动机器人动态避碰规划方法 | |
Huang et al. | Deductive reinforcement learning for visual autonomous urban driving navigation | |
CN113848984B (zh) | 一种无人机集群控制方法及系统 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
Kassab et al. | Real-time human-UAV interaction: New dataset and two novel gesture-based interacting systems | |
Hirose et al. | ExAug: Robot-conditioned navigation policies via geometric experience augmentation | |
Zijian et al. | Imaginary filtered hindsight experience replay for UAV tracking dynamic targets in large-scale unknown environments | |
CN114326826A (zh) | 多无人机队形变换方法及系统 | |
CN114326810A (zh) | 一种无人机在复杂动态环境下的避障方法 | |
Helble et al. | 3-d path planning and target trajectory prediction for the oxford aerial tracking system | |
CN116430891A (zh) | 一种面向多智能体路径规划环境的深度强化学习方法 | |
CN114609925B (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |