CN113625757B - 一种基于强化学习和注意力机制的无人机群调度方法 - Google Patents
一种基于强化学习和注意力机制的无人机群调度方法 Download PDFInfo
- Publication number
- CN113625757B CN113625757B CN202110924902.4A CN202110924902A CN113625757B CN 113625757 B CN113625757 B CN 113625757B CN 202110924902 A CN202110924902 A CN 202110924902A CN 113625757 B CN113625757 B CN 113625757B
- Authority
- CN
- China
- Prior art keywords
- output
- network
- state
- transducer
- unmanned aerial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 title claims abstract description 26
- 230000002787 reinforcement Effects 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 49
- 238000004088 simulation Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 32
- 230000000875 corresponding effect Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 5
- 238000000354 decomposition reaction Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于强化学习和注意力机制的无人机群调度方法,包括:步骤1,设置作为编码器的Transformer的各个超参数,获取仿真器的状态;步骤2,将状态做特征预处理之后送入Transformer编码器;步骤3,将Transformer编码器的编码输出作为指针网络解码器的输入,通过解码选出当前状态下最应该关注的单位;步骤4,神经网络的多头输出结果构造仿真平台能接受的指令,将其输入仿真平台驱动其前进。本发明通过组合注意力机制和强化学习实现了不同状态下对于无人机群中不同单位的关注,通过神经网络的多头输出实现了对于动作空间的良好分解,这一设计对于无人机群的扩容不敏感。
Description
技术领域
本发明涉及一种基于强化学习和注意力机制的无人机群调度方法。
背景技术
近年来,随着人工智能技术的迅猛发展,无人机逐步朝着小型化、智能化方向发展,因其成本低、灵活性高、隐蔽性强,被广泛应用于战场侦察、应急救援等行动中。鉴于单架无人机在续航能力、广域侦察搜索等方面的局限性,多架无人机协同组成无人机集群执行任务成为当前无人机作战应用的重要模式。较之于单架无人机,无人机集群具有明显的规模优势、协同优势等,可有效提高任务完成的可靠性。因此,提升无人机的智能化水平,让无人机能够根据环境状态而自动产生控制指令完成任务中的群体机动是当前主要的研究方向。
让无人机完成指定任务中的机动自主决策,其实质是完成从空战态势到群体动作的映射,在不同状态下执行相应的群体动作。由于无人机群在调度时面临的状态十分复杂,靠人工预编程的方法难以全面覆盖广阔的状态空间,同时也无法计算产生最优的动作决策。
强化学习是一种采用“试错”的方法与环境交互的学习方法,通过计算当前状态下执行某个动作后的累计回报的期望值大小来判断选择哪个动作能获得最优效果。而且强化学习智能体与环境交互的学习过程不需要训练样本,仅仅需要通过环境的回报值对执行的动作进行评价。将具体实际问题完成在强化学习框架下的实例化需要完成两方面的工作,首先,需要解决实际问题中动作空间的设计问题,合理的动作空间设计能降低问题的复杂度,提升学习效率,其次,需要给定环境反馈给智能体的回报函数的设计。
注意力机制是一种在自然语言处理和图像处理领域均取得优异效果的一类方法,普遍认为其能抓住不同状态表征之间的联系。在无人机群中,态势复杂,难以通过预编程的方式决定在什么样的状态之下,应该关注哪一架无人机,注意力机制通过一种可学习的方式来在不同阶段、不同状态之下关注不同的飞机,适用用于无人机调度场景中。
发明内容
发明目的:为了解决现有方案效率不够高的问题,提出了一种基于强化学习和注意力机制的无人机群的调度方法,能够在不同态势下关注不同的无人机,并且通过强化学习的方式来对这一机制进行训练,同时还给出了统一的动作空间分解框架调度无人机群,该框架对于无人机数量的改变不敏感,这增强了代码的适应性,并大大减轻了人类操纵指控的压力。
本发明方法包括以下步骤:
步骤1,根据所观测到的状态信息的维度,调整Transformer编码器(一种用于自然语言处理的高效且流行的处理模型)的输入维度和输出头的个数,并给定其他超参数,其他超参数包括编码层的个数、前馈层的维度和编码维度,通常来说编码层的个数设置为6,前馈层维度设置为2048,编码维度设置为512;
步骤2,收集仿真器给出的关于飞机状态信息,包括飞机编号id、空间横坐标x和纵坐标y、是否打开雷达干扰is_radar_on、干扰频点freq,将收集的信息经过预先编码后组装成为Transformer编码器的状态输入S=(id,x,y,is_radar_on,freq);
步骤3,将当前Transformer编码器的输出送入指针网络得到解码结果,解码结果为基于注意力机制得到的索引,也就是当前状态下最应该给予关注的目标单位的索引,并将该索引作为第一个输出头的结果;
步骤4,将Transformer编码器的输出和指针网络的输出送入下一层全连接网络得到第二个输出头,第二个输出头的输出动作代表所选动作类型是飞行或者打击;最后将Transformer编码器的输出加上第一个输出头的输出、第二个输出头的输出送入后续的全连接网络得到第三个输出头,代表所选的目标地点;根据解码得到的目标单位的索引,以及第二个输出头、第三个输出头的内容,给出无人机群的相应动作,转换为仿真平台能够接收的指令并发送给仿真平台;
步骤5,收集仿真平台返回的新状态和即时奖励信息,在收集了X(一般取值256)批次的数据之后,在PPO近端策略优化算法的框架下,得到梯度下降方向,并基于反向传播算法修正网络参数。
进一步地,所述步骤1中,输入到Transformer中的状态信息不需要经过嵌入层,这是与自然语言处理中所作的预处理不太一样的地方。
进一步地,所述步骤2中,需要对状态做出一定的编码,这属于特征工程的一部分,有利于稳定神经网络的训练,具体操作包括对空间坐标作[-1,1]区间的归一化编码、对是否打开雷达干扰作独热编码、同时保证每一架飞机的状态信息在Transformer编码器的状态输入中的位置固定,Transformer编码器的输出即可认为是在考虑了不同单位之间关联关系的基础上,对当前仿真状态的编码,它以一种可学习的方式随时纠正编码结果,因此可以认为能够挖掘出潜在映射关系。
进一步地,所述步骤3中,将当前Transformer编码器的输出送入指针网络,将输出记为(e1,…,en)=Trans(S),其中(e1,…,en)为Transformer编码器的编码输出矩阵的列向量,en表示Transformer编码器的编码输出矩阵的第n列向量;Trans代表Transformer对状态输入S所进行的操作,基于注意力机制进行解码的时候,最终希望得到一个索引序列C1,C2,…,Ci,其中Ci代表无人机群中的第i架无人机,将任务建模为在已知序列C1,C2,…,Ci-1的情形下,最大化Ci出现的后验概率指针网络通常是基于LSTM网络(长短期记忆网络)实现的,在指针网络的注意力机制中,所述任务形式化为如下公式:
其中,v,W1,W2为Transformer-PointerNet网络的可训练参数,vT为可训练参数v的转置,Transformer-PointerNet网络是Transformer编码器和指针网络合成的编码解码结构,指针网络是基于LSTM网络实现的,tanh为双曲正切激活函数,softmax是一类最大值函数,(d1,…,dm)是解码的LSTM网络每一步输出的隐状态;代表Transformer-PointerNet网络的第i个输出ei与解码的LSTM网络的第j个输出dj之间的关联分数,ui为所有/>组成的向量,即/>
注意力机制在每次解码的时候,从Transformer编码器的编码输出中得到与当前解码联系最紧密的部分,并将ui作为softmax函数(一类最大值函数)的输入,最后将最大概率对应的索引作为当前步的输出结果,注意力机制告诉目前最应该关注该单位。由于通常不希望总是选到同一个单位,因此需要综合考虑解码的历史步所选出的索引,将所有这些排除在外,在此处需要小心引入自回归掩码去除掉这些已经被选出来的单位。
进一步地,所述步骤4中,将三个输出头的动作进行组装,第一个输出头指定整体动作的主语,也就是由指针网络选出的单位去执行动作,第二个输出头指定该执行的动作,也就是到底是飞行还是攻击或者是其他动作,第三个输出头指定动作的客体,也就是最后的目标是哪,是攻击某单位,还是飞到某地点。而且每一个输出头的输出都会作为输入进入到下一个输出头中去,这一操作的必要性在于,主谓宾的每一项的内容对于下一项输出内容应该是有影响的。
进一步地,所述步骤5中,收集固定长度间隔的时间步上的对应状态st、动作at、即时价值函数rt,根据一般优势估计得到优势函数为:/>
其中t表示当前时刻,γ为价值折现因子,λ为价值衰减因子,δt=rt+γV(st+1)-V(st),δt为时序差分误差,T代表最长时间步,V(st)是价值网络对于当前状态的价值估计,V(st+1)为当前步的下一个时间步所处于状态的价值估计,损失函数Lt(θ)通过下式计算:
其中为策略损失函数,/>为价值估计损失函数,/>代表求到当前时刻为止的期望,S[πθ](st)是策略πθ之下状态st的熵损失,Vθ(st)为当前网络参数θ之下对状态st的价值函数的估计值,/>为从采样数据中得到的当前状态所对应价值函数的真实值,rt(θ)为在旧参数网络(更新之前的网络)之下的价值函数和新参数网络(更新之后的网络)下的价值函数的比值,clip为截断函数,将比值rt(θ)的值限制在1-ε和1+ε之间,ε为阈值因子,一般设置为0.2;c1,c2为待定常数,通常在算法训练过程中调整这些值以保证最终效果最佳,
将损失函数Lt(θ)对神经网络参数θ作梯度下降:得到更新后的参数θt+1,其中/>为梯度算子,α为每一次更新的步长,即学习率,重复此过程,直到算法收敛。
有益效果:本发明提供了一种针对无人机群的统一调度框架,在无人机有所增减的情况无需对代码作出过多改动;其次,本发明给出的Transformer-PoinerNet(指针网络)架构决定了无人机在面对复杂态势时如何给出相应行动,通过神经网络学习的方式对态势进行动态深入解析,而无需通过预编码的方式处理,这使得该模型有潜力应用于各种场景中。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本实施例的流程图;
图2为本实施例的网络结构示意图;
图3为本实施例的全连接神经网络的训练初期示意图;
图4为本实施例的Transformer编码器加指针网络解码器神经网络的训练初期示意图。
具体实施方式
参照图1所示的流程,本发明提供了一种基于强化学习和注意力机制的无人机群调度方法,包括以下几个步骤:
步骤1,根据所观测到的状态信息的维度,调整Transformer编码器的输入维度和输出头的个数,并给定其他超参数,包括编码层的个数、前馈层的维度、编码维度;
步骤2,收集仿真器给出的关于飞机状态的各类信息,包括飞机编号、空间坐标、是否打开雷达干扰、干扰频点,将这些信息组装成为Transformer编码器的状态输入;
步骤3,将Transformer的输出送入指针网络,给出解码结果,其输出结果为基于注意力机制得到的索引,给出当前状态下最应该给予关注的目标单位,并给出其索引。
步骤4,根据解码得到的目标单位的索引,以及其他两个输出头的内容,给出多智能体系统的相应动作,转换为仿真平台能够接收的指令发送给平台;
步骤5,收集仿真平台返回的新状态和即时奖励信息,在收集了一定批次的数据之后,在PPO算法的框架下,得到梯度下降方向,并基于反向传播算法修正网络的参数。
接着对步骤1进行详细描述。
设定场景中共有10架飞机,5架A方飞机,5架B方飞机,首先对A方5架飞机进行编号,设置Transformer参数的时候,需要根据当前所拥有的计算能力作出调整,而且需要注意的是编码维度参数需要是Transformer多头注意力中头数的整数倍。在提出Transformer的原文中编码器的结构:编码维度为512,编码层数为6,前馈层的维度为2048。本发明采用的Transformer编码器结构如图2中左半部分所示,其中shortcut层为残差连接,图2右半部分中的h1,h2,h3,…为负责解码的LSTM网络每一步的隐状态输出。
接下来在步骤2中,仿真平台给出的飞机信息包括编号、是否存活、x坐标、y坐标、航向角、雷达开关状态、雷达频点。对雷达频点作独热编码,对x坐标和y坐标、航向角作归一化处理,其余特征不作处理,这些信息拼接后作为一架飞机的特征,在每一时间步t,将5架飞机的特征拼接在一起得到状态输入st,并且送入Transformer。
然后在所述步骤3中,将当前Transformer的输出送入指针网络,基于注意力机制,在每次解码的时候,希望得到解码序列C1,C2,…,Ci,这个任务建模为,在已知序列C1,C2,…,Ci-1的情形下,得到Ci出现的概率,也就是最大化Ci的后验概率在指针网络的注意力机制中,形式化如下:
其中,(e1,…,en)为Transformer的编码输出,(d1,…,dm)是解码网络的隐状态,注意力机制在每次解码的时候,从Transformer的编码输出中得到与当前解码联系最紧密的部分,并将ui作为softmax函数的输入,最后将最大概率对应的索引作为当前步的输出结果,也就是注意力机制告诉目前最应该关注该单位。由于不希望选到同一个单位,因此需要综合考虑解码的历史步所选出的索引,将所有这些排除在外,在此处需要小心引入自回归掩码去除掉这些已经被选出来的单位。
然后在所述步骤4中,需要根据每个输出头的动作将其组装,一般来说,第一个输出头指定整体动作的主语,也就是由指针网络选出的那些单位去执行动作,第二个输出头指定该执行什么动作,也就是到底是飞行还是攻击或者是其他动作,第三个输出头指定动作的客体是谁,也就是最后的目标是哪,是攻击某单位,还是飞到某地点。而且每一个头的输出都会作为输入进入到下一个输出头中去,这一操作的必要性在于,主谓宾的每一项的内容对于下一项输出内容应该是有影响的。
然后在所述步骤5中,需要根据每个输出头的动作将其组装,一般来说,第一个输出头指定整体动作的主语,也就是由指针网络选出的那些单位去执行动作,第二个输出头指定该执行什么动作,也就是到底是飞行还是攻击或者是其他动作,第三个输出头指定动作的客体是谁,也就是最后的目标是哪,是攻击某单位,还是飞到某地点。而且每一个头的输出都会作为输入进入到下一个输出头中去,这一操作的必要性在于,主谓宾的每一项的内容对于下一项的输出内容有影响。
神经网络的训练步骤:
(1)首先根据仿真平台的输入形成状态矩阵st送入Transformer中,编码形成的隐向量ht作为后续三个输出头的初始输入;
(2)首先ht进入到指针网络,并给出动作输出头1的动作分量也就是所选单位;输出头1的结果拼接上隐状态ht作为第二个前馈层的输入,并且给出第二个动作分量/>动作输出头1和2的输出结合隐状态ht作为输入进入到第三个动作输出的前馈层,给出第三个动作分量/>最后由于演员和评论家通常共用部分网络,因此通常在输出动作的同时还需要输出值函数,隐状态ht通常会进入价值函数逼近的前馈层,并且输出对于当前状态的价值估计V(st)。
(3)将动作分量组合成完整动作并将其转换为仿真平台能够接收的指令输入仿真平台,并且获取下一个时间步的状态st+1,以及即时奖励rt。
(4)收集固定批次的数据Dt=(st,at,st+1,rt),并根据PPO算法极小化损失函数按照A2C的模式同步对于参数θ的更新,由中心学习器更新完参数之后分发给不同仿真容器的动作执行网络中去;
(5)持续以上步骤直到整体回报函数达到收敛,同时策略的熵趋于稳定。
在本实施例中,根据状态的输入,可快速达到收敛状态,并且效果明显优于单纯基于全连接层的方法,这说明基于Transformer-PointerNet的编码解码网络更能抓住一些隐层特征,如图3和图4所示,图3和图4中的横坐标为决策步,且相邻决策步之间的时间间隔相我等,纵坐标为当前时间B方战损飞机数量(图中的blue_dead_count即表示B方战损飞机数量),从图3和图4可以看出采用Transformer-PointerNet编码解码网络的模型在开始时比采用全连接网络的模型战损飞机更多,表现效果更好。
出于实用性的考虑,本发明提出了一种基于注意力机制和强化学习的无人机调度方法,并且给出了一类复杂场景之下动作空间分解的框架,适用于多智能体情形下动作空间的设计,而且对无人机群的扩容有很好的兼容性,同时基于任务反馈可以通过强化学习算法改进调度策略,大大减轻人类去操纵控制的负担。
本发明提供了一种基于强化学习和注意力机制的无人机群调度方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (5)
1.一种基于强化学习和注意力机制的无人机群调度方法,其特征在于,包括如下步骤:
步骤1,根据所观测到的状态信息的维度,调整Transformer编码器的输入维度和输出头的个数,并给定其他超参数,其他超参数包括编码层的个数、前馈层的维度和编码维度;
步骤2,收集仿真器给出的关于飞机状态信息,包括飞机编号id、空间横坐标x和纵坐标y、是否打开雷达干扰is_radar_on、干扰频点freq,将收集的信息经过预先编码后组装成为Transformer编码器的状态输入S=(id,x,y,is_radar_on,freq);
步骤3,将当前Transformer编码器的输出送入指针网络得到解码结果,解码结果为基于注意力机制得到的索引,也就是当前状态下最应该给予关注的目标单位的索引,并将该索引作为第一个输出头的结果;
步骤4,将Transformer编码器的输出和指针网络的输出送入下一层全连接网络得到第二个输出头,第二个输出头的输出动作代表所选动作类型是飞行或者打击;最后将Transformer编码器的输出加上第一个输出头的输出、第二个输出头的输出送入后续的全连接网络得到第三个输出头,代表所选的目标地点;根据解码得到的目标单位的索引,以及第二个输出头、第三个输出头的内容,给出无人机群的相应动作,转换为仿真平台能够接收的指令并发送给仿真平台;
步骤5,收集仿真平台返回的新状态和即时奖励信息,在收集了X批次的数据之后,在PPO近端策略优化算法的框架下,得到梯度下降方向,并基于反向传播算法修正网络参数。
2.根据权利要求1所述的方法,其特征在于,步骤2中,对空间坐标作[-1,1]区间的归一化编码、对是否打开雷达干扰作独热编码,同时保证每一架飞机的状态信息在Transformer编码器的状态输入中的位置固定。
3.根据权利要求2中所述的方法,其特征在于,步骤3中,将当前Transformer编码器的输出送入指针网络,将输出记为(e1,...,en)=Trans(S),其中(e1,...,en)为Transformer编码器的编码输出矩阵的列向量,Trans代表Transformer对状态输入S所进行的操作;基于注意力机制进行解码的时候,最终希望得到一个索引序列C1,C2,...,Ci,其中Ci代表无人机群中的第Ci架无人机,将任务建模为在已知序列C1,C2,...,Ci-1的情形下,最大化Ci出现的后验概率在指针网络的注意力机制中,所述任务形式化为如下公式:
其中,v,W1,W2为Transformer-PointerNet网络的可训练参数,vT为可训练参数v的转置,Transformer-PointerNet网络是Transformer编码器和指针网络合成的编码解码结构,指针网络是基于LSTM网络实现的,tanh为双曲正切激活函数,softmax是一类最大值函数,(d1,...,dm)是解码的LSTM网络每一步输出的隐状态,dm表示解码的LSTM网络第m步输出的隐状态;代表Transformer-PointerNet网络的第i个输出ei与解码的LSTM网络的第j个输出dj之间的关联分数,ui为所有/>组成的向量,即/>
4.根据权利要求3中所述的方法,其特征在于,步骤4中,将三个输出头的动作进行组装,第一个输出头指定整体动作的主语,也就是由指针网络选出的单位去执行动作;第二个输出头指定该执行的动作;第三个输出头指定动作的客体;每一个输出头的输出都会作为输入进入到下一个输出头中去。
5.根据权利要求4中所述的方法,其特征在于,步骤5中,收集固定长度间隔的时间步上的对应状态st、动作at、即时价值函数rt,得到优势函数为:
其中t表示当前时刻,γ为价值折现因子,λ为价值衰减因子,δt=rt+γV(st+1)-V(st),δt为时序差分误差,T代表最长时间步,V(st)是价值网络对于当前状态的价值估计,V(st+1)为当前步的下一个时间步所处于状态的价值估计,损失函数Lt(θ)通过下式计算:
其中 为策略损失函数, 为价值估计损失函数,/>代表求到当前时刻为止的期望,S[πθ](st)是策略πθ之下状态st的熵损失,Vθ(st)为当前网络参数θ之下对状态st的价值函数的估计值,Vt targ为从采样数据中得到的当前状态所对应价值函数的真实值,rt(θ)为在旧参数网络之下的价值函数和新参数网络下的价值函数的比值,clip为截断函数,将比值rt(θ)的值限制在1-ε和1+ε之间,ε为阈值因子;c1,c2为待定常数;
将损失函数Lt(θ)对神经网络参数θ作梯度下降:得到更新后的参数θt+1,其中/>为梯度算子,α为每一次更新的步长,重复此过程,直到算法收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110924902.4A CN113625757B (zh) | 2021-08-12 | 2021-08-12 | 一种基于强化学习和注意力机制的无人机群调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110924902.4A CN113625757B (zh) | 2021-08-12 | 2021-08-12 | 一种基于强化学习和注意力机制的无人机群调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113625757A CN113625757A (zh) | 2021-11-09 |
CN113625757B true CN113625757B (zh) | 2023-10-24 |
Family
ID=78384898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110924902.4A Active CN113625757B (zh) | 2021-08-12 | 2021-08-12 | 一种基于强化学习和注意力机制的无人机群调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113625757B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114326438B (zh) * | 2021-12-30 | 2023-12-19 | 北京理工大学 | 基于控制障碍函数的安全强化学习四旋翼控制系统及方法 |
CN114756052B (zh) * | 2022-03-31 | 2023-04-07 | 电子科技大学 | 一种基于无人机群的多目标协同追踪方法 |
CN115047907B (zh) * | 2022-06-10 | 2024-05-07 | 中国电子科技集团公司第二十八研究所 | 一种基于多智能体ppo算法的空中同构编队指挥方法 |
CN115826627A (zh) * | 2023-02-21 | 2023-03-21 | 白杨时代(北京)科技有限公司 | 一种编队指令的确定方法、系统、设备及存储介质 |
CN116592883B (zh) * | 2023-04-25 | 2024-04-30 | 三峡大学 | 一种基于注意力和循环ppo实现的导航决策方法 |
CN116933785A (zh) * | 2023-06-30 | 2023-10-24 | 国网湖北省电力有限公司武汉供电公司 | 一种基于Transformer的电子档案摘要生成方法、系统及介质 |
CN117556681B (zh) * | 2023-07-20 | 2024-03-29 | 北京师范大学 | 一种智能空战决策方法、系统及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726903A (zh) * | 2018-12-19 | 2019-05-07 | 中国电子科技集团公司信息科学研究院 | 基于注意力机制的分布式多智能体协同决策方法 |
CN110852273A (zh) * | 2019-11-12 | 2020-02-28 | 重庆大学 | 一种基于强化学习注意力机制的行为识别方法 |
CN112232478A (zh) * | 2020-09-03 | 2021-01-15 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
CN112256056A (zh) * | 2020-10-19 | 2021-01-22 | 中山大学 | 基于多智能体深度强化学习的无人机控制方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
US20200285995A1 (en) * | 2019-03-05 | 2020-09-10 | Hrl Laboratories, Llc | Robust, scalable and generalizable machine learning paradigm for multi-agent applications |
-
2021
- 2021-08-12 CN CN202110924902.4A patent/CN113625757B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726903A (zh) * | 2018-12-19 | 2019-05-07 | 中国电子科技集团公司信息科学研究院 | 基于注意力机制的分布式多智能体协同决策方法 |
CN110852273A (zh) * | 2019-11-12 | 2020-02-28 | 重庆大学 | 一种基于强化学习注意力机制的行为识别方法 |
CN112232478A (zh) * | 2020-09-03 | 2021-01-15 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
CN112256056A (zh) * | 2020-10-19 | 2021-01-22 | 中山大学 | 基于多智能体深度强化学习的无人机控制方法及系统 |
Non-Patent Citations (1)
Title |
---|
Position-Aware Communication via Self-Attention for Multi-Agent Reinforcement Learning;Tsan-Hua Shih;《2020 IEEE International Conference on Consumer Electronics-Taiwan(ICCE-Taiwan)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113625757A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113625757B (zh) | 一种基于强化学习和注意力机制的无人机群调度方法 | |
Wang et al. | Look before you leap: Bridging model-free and model-based reinforcement learning for planned-ahead vision-and-language navigation | |
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
CN112132263B (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN113268081B (zh) | 一种基于强化学习的小型无人机防控指挥决策方法及系统 | |
CN111783994A (zh) | 强化学习的训练方法和装置 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN117077727B (zh) | 基于时空注意力机制和神经常微分方程的轨迹预测方法 | |
CN113281999A (zh) | 一种基于强化学习和迁移学习的无人机自主飞行训练方法 | |
CN113625569A (zh) | 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统 | |
CN115730743A (zh) | 一种基于深度神经网络的战场作战趋势预测方法 | |
CN114077258B (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN114170454A (zh) | 基于关节分组策略的智能体元动作学习方法 | |
Ghouri et al. | Attitude control of quad-copter using deterministic policy gradient algorithms (DPGA) | |
CN113894780A (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
CN113625767A (zh) | 一种基于优选信息素灰狼算法的固定翼无人机集群协同路径规划方法 | |
CN113255893A (zh) | 一种多智能体行动策略自演进生成方法 | |
CN115047907B (zh) | 一种基于多智能体ppo算法的空中同构编队指挥方法 | |
CN114253285B (zh) | 一种多飞行器协同队形集结方法 | |
Chen et al. | Self-guided deep deterministic policy gradient with multi-actor | |
CN114020022B (zh) | 异构无人机协同打击任务规划方法及装置 | |
CN114371634B (zh) | 一种基于多级事后经验回放的无人机作战模拟仿真方法 | |
CN115984652B (zh) | 符号生成系统的训练方法、装置、电子设备和存储介质 | |
Zhou et al. | A Design Method of Fuzzy Logic Controller by Using Q Learning Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |