CN116757249A - 一种基于分布式强化学习的无人机集群策略意图识别方法 - Google Patents
一种基于分布式强化学习的无人机集群策略意图识别方法 Download PDFInfo
- Publication number
- CN116757249A CN116757249A CN202310782582.2A CN202310782582A CN116757249A CN 116757249 A CN116757249 A CN 116757249A CN 202310782582 A CN202310782582 A CN 202310782582A CN 116757249 A CN116757249 A CN 116757249A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- value
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000013528 artificial neural network Methods 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000004891 communication Methods 0.000 claims abstract description 7
- 238000012544 monitoring process Methods 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 135
- 230000008569 process Effects 0.000 claims description 17
- 230000000875 corresponding effect Effects 0.000 claims description 16
- 230000007613 environmental effect Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009189 diving Effects 0.000 claims description 9
- 230000009191 jumping Effects 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 2
- 238000004146 energy storage Methods 0.000 claims 1
- 230000002079 cooperative effect Effects 0.000 abstract description 2
- 238000011161 development Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于分布式强化学习的无人机集群策略意图识别方法,旨在通过关注竞合关系、人的意图推理和决策思维,实现高效的无人机集群协同行动;通过深度神经网络和强化学习算法进行训练和优化,能够准确识别无人机集群中个体的意图,并提升决策和执行能力;采用异步更新的多线程训练方法,提高学习效率和性能;采用灵活的奖励函数和状态空间定义适应不同任务需求;通过评估无人机的意图学习率、奖励累积值和学习算法的收敛速度等指标,监测学习进展;适用于军事作战、救援行动等领域,在无人机集群通信、协调和资源共享方面具有广泛应用价值;本发明具有实用性,为无人机集群的智能化发展提供了重要的技术支持。
Description
技术领域
本发明涉及无人机技术领域,尤其涉及一种基于分布式强化学习的无人机集群策略意图识别方法。
背景技术
无人机集群作为战术手段已经广泛应用于军事和民用领域。无人机集群可以协同工作,执行各种任务,如侦察、目标追踪、搜索救援等。然而,为了实现高效的无人机集群协同作战,需要准确识别无人机的策略型意图,即了解无人机背后的意图和决策过程。
目前,现有技术主要依靠传统的机器学习方法和规则引擎来实现对无人机集群策略型意图的识别。这些方法通常使用预定义的规则和特征工程手段来提取无人机行为特征,并进行分类或推理。然而,这些方法在面对复杂多变的战场环境时存在一些缺陷,如对新情况的适应性差、难以捕捉无人机背后的深层意图等。
此外,传统的单一智能体强化学习算法难以有效应用于无人机集群的任务规划和决策。无人机集群的复杂性和协同性要求开发适用于多智能体系统的强化学习算法。传统算法无法很好地处理多智能体之间的交互和协作问题,限制了无人机集群的整体性能和效率。
为了克服无人机集群在通信、协调和资源共享方面的挑战,以及提高任务识别和决策能力,需要开发新的方法来实现无人机集群的协同作战。分布式强化学习技术提供了一种解决方案,通过并行化训练和协同学习,使得无人机集群能够更好地实现有效的通信、协调和资源共享,以及提高任务识别和决策的性能和效率。
发明内容
针对现有技术的不足,本发明提出了一种基于分布式强化学习的无人机集群策略意图识别方法,强调关注竞合关系和人的意图背后的推理过程和决策思维,以及对环境和他人行为的理解。本方法基于分布式强化学习算法,利用多智能体系统实现无人机集群的协同决策。
一种基于分布式强化学习的无人机集群策略意图识别方法,具体包括以下步骤:
步骤1:定义无人机状态、动作以及策略网络和价值网络,由此得到分布式强化学习模型;
所述状态为无人机集群的状态空间:S={s1,s2,...,sn},其中si表示第i个无人机的状态;定义状态空间由位置信息、速度信息、能量状态、与其他无人机的相对位置以及环境感知信息构成;定义每个无人机的位置为三维坐标P=(x,y,z),其中x表示无人机在三维地图上的横坐标,y表示无人机在三维地图上的纵坐标,z表示无人机在三维地图上的垂直方向坐标;定义无人机的速度v为其在各个轴向上的运动速率,包括水平速度(vx,vy)和垂直速度vz;定义无人机的能量状态E为其当前的能量储备状况,用于衡量其执行任务的可持续性。定义与其他无人机的相对位置为Pr=[d,e],其中d表示与其他无人机之间的相对距离,e表示与其他无人机的相对方位;定义环境感知信息EP=[w,o],其中w表示天气条件,o代表障碍物分布;通过将上述状态变量组合在一起,形成了无人机集群的状态空间;
所述动作包括无人机集群的动作空间A={a1,a1,...,an}被定义为无人机集群可执行的动作集合,其中ai表示第i个无人机可执行的动作;每个无人机选择执行的形容取决于当前环境和策略目标;定义动作空间包括以下动作:
(1)移动行动:无人机选择向特定方向移动,如直飞、翻转、跳跃、俯冲、左跳、右跳、左潜、右潜;
(2)攻击行动:无人机选择执行攻击任务,包括打击目标、发射导弹、实施电子干扰等;
(3)监视行动:无人机选择执行监视任务,包括侦察、目标跟踪等;
(4)通信行动:无人机选择进行通信;
通过上述动作组合在一起,形成了无人机集群的动作空间;
所述策略网络的输入层接收无人机集群的状态信息,包括P,v,E,Pr,EP;每个状态变量作为输入层的一个节点,将状态信息转换为向量形式;定义隐藏层部分共包含四层隐藏层,每个隐藏层有128个神经元;定义输出层的神经元数量与可选的动作数量相同,假设无人机集群有K种可选的动作策略,那么输出层的大小为K;
所述价值网络的输入层与策略网络的输入层相同,隐藏层部分包含6个隐藏层,每个隐藏层有256个神经元,输出层的神经元数量为1,表示对当前状态的价值估计;
步骤2:创建多个并行的训练环境;
所述每个并行环境包含以下组件:
场景设置:设置仿真环境的地图、障碍物、目标区域以及其他环境参数,以模拟实际协同作战的场景;
无人机集群:在每个并行环境中,设置一个无人机集群,包括多架无人机,每架无人机都有自身的状态和动作;
交互接口:为无人机集群和环境之间的交互提供接口,使他们能够互相传递信息,执行动作和获取环境反馈;
步骤3:基于步骤2构建的并行环境,启动训练线程;
每个并行环境的训练线程包含以下操作:
(1)创建副本神经网络:为每个环境创建一个独立的副本神经网络,用于在训练过程中更新分布式强化学习模型参数;副本神经网络与主神经网络具有相同的网络结构,但参数是独立的;所述主神经网络包括策略网络和价值网络;
(2)初始化环境和副本神经网络:在训练线程开始时,初始化环境和副本神经网络的参数;确保每个环境和副本神经网络都处于相同的初始状态;
(3)经验收集与更新:训练线程通过与环境的交互,收集经验数据并更新副本神经网络的参数;在每个环境中,通过执行动作和观察环境的反馈,收集状态、动作、奖励和下一个状态的经验数据;然后,使用这些经验数据来计算损失函数并更新副本神经网络的参数;
(4)参数同步:每训练一个轮次,副本神经网络的参数与主神经网络进行同步,以确保所有线程中的模型参数保持一致;
步骤4:基于步骤3策略网络进行选择动作;
每个训练线程根据当前环境的状态,使用副本神经网络的策略网络部分进行推断,得到每个动作的原始分数;原始分数表示每个动作在当前状态下的优劣程度,用于后续的动作选择;
为了将原始分数转化为动作的概率分布,使用softmax函数对其进行转换;softmax函数将原始分数映射为概率分布,使得概率越高的动作被选择的可能性越大;softmax函数如下公式所示:
式中,a表示动作,a’表示所有可选动作,score表示原始分数,P为转化后的概率;
步骤5:执行步骤4选择的动作并收集经验;
每个训练线程根据选择的动作与环境进行交互;在当前环境状态下,根据策略网络选择的动作,将该动作发送给相应的无人机;无人机执行该动作,并与环境进行交互,完成特定的任务或行为;
在执行动作后,环境会提供相应的反馈;该反馈包括任务执行结果、环境状态变化、奖励信号;训练线程会观察环境的反馈,并将其作为经验;
训练线程会将执行的动作、观察到的环境反馈以及其他相关信息存储为经验,并将其存储在经验缓存中;经验缓存采用循环队列的方式进行管理;新的经验会不断替换掉最早的经验,以确保经验缓存中包含最新的和多样化的经验;
每个经验通常由当前状态、选择的动作、环境反馈、下一个状态以及奖励值组成,其中奖励值为奖励函数,根据环境的状态和动作,通过奖励函数计算出相应的奖励值;这些经验将用于后续的训练过程,用于更新策略网络和价值网络的参数;
所述奖励函数R=λ1R1+λ2R2+λ3R3;其中λ1,λ2,λ3为对应的权重系数;R1为协同奖励函数,R2为机动奖励函数,R3为意图学习奖励函数;定义一个无人机集群协调函数coordination(u),该函数根据的状态和集群中其他无人机的状态,确定无人机u采取的行动以实现协调;定义一个无人机意图学习成功概率的函数learning_progress_reward(u),该函数使用无人机成功学习到的意图预测除以总共的意图学习任务数量来计算意图学习成功率;定义Rt→t+1为第t次迭代到(t+1)次迭代选择基本动作单元的初始概率,τi为连续选择概率;定义定义R2=Rt→t+1+τi,定义
步骤6:根据步骤5收集到的经验,计算分布式强化学习模型优势函数;
根据收集到的经验数据,首先使用价值网络评估每个状态的值函数,得到状态值的估计;然后,对于每个状态和相应的动作,计算该动作的优势函数;
对于每个状态,使用价值网络评估其值函数;值函数用以下公式进行计算:
V(s)=W(s)T·θ
式中,W(s)表示状态s的特征向量,θ为价值网络的参数;
所述优势函数表示某个动作相对于平均水平的优势大小;优势函数的计算使用以下公式:
A(s,a)=Q(s,a)-v(s)
式中,A(s,a)表示状态s下选择动作a的优势函数,Q(s,a)表示状态-动作对(s,a)的值函数估计,V(s)表示状态s的值函数估计;
步骤7:计算策略网络和价值网络损失和梯度;
为了更新策略网络的参数,需要计算策略损失和价值损失,并通过梯度下降法来最小化损失函数;策略损失用于优化动作选择的策略,而价值损失用于优化状态值的估计;
根据策略网络的输出和优势函数,计算策略损失;策略损失衡量了策略网络输出的动作概率与优势函数之间的差异;策略损失的计算使用以下公式:
Lpolicy=-∑[A(s,a)*logP(a|s)]
式中,P(a|s)表示策略网络输出的动作a在状态s下的概率;
使用优势函数的平方作为价值损失,以优化价值函数的估计;价值网络损失的计算使用以下公式:
Lvalue=∑A(s,a)2
总损失的计算使用以下公式:Ltotal=Lpolicy+λLvalue,式中,λ为权衡策略损失和价值损失的超参数;
通过计算总损失,得到损失函数关于参数的梯度;然后,使用优化算法来更新策略网络的参数;梯度的计算和参数更新使用以下公式:式中,θ表示策略网络的参数,α表示学习率,/>表示损失函数关于参数的梯度;
步骤8:对策略网络和价值网络的参数进行更新;
根据计算得到的策略损失的梯度,使用优化算法来更新策略网络的参数;更新策略网络参数的公式如下:式中,θpolicy表示策略网络的参数,α表示学习率,/>表示策略损失关于策略网络参数的梯度;
更新价值网络参数的公式如下:式中,θvalue表示价值网络的参数,α表示学习率,/>表示价值损失关于价值网络参数的梯度;
重复执行上述参数更新过程,迭代地更新策略网络和价值网络的参数;每次更新时,根据新的参数值计算新的损失和梯度,并使用优化算法来更新参数;通过多次迭代,能够逐渐优化网络性能,提高无人机集群的策略型意图识别能力;
步骤9:各训练线程进行异步更新;
在步骤3各个线程训练之前,创建全局模型的副本模型作为参考;
启动多个训练线程,每个线程都有一个独立的副本神经网络,在每个训练线程中,通过执行一定的训练步骤,收集梯度信息,在每个训练步骤的末尾,将获得的梯度信息进行平均,得到一个平均梯度,将平均梯度应用到全局模型的参数上,以实现异步更新;
其中梯度平均的公式如下:
式中,i为线程的索引,为每个线程的梯度。N为线程数量。
梯度平均后,使用梯度下降的方法更新全局模型的参数,公式如下:
式中,θnew为更新后的模型参数,θold为原始的模型参数,α为学习率;
重复执行步骤5-步骤9,能够不断提升无人机集群的策略型意图识别能力,使其能够更准确地理解竞合关系、推理过程和决策思维,以及对环境和他人行为的理解。
本发明有益技术效果:
本发明提供了一种无人机集群策略型意图识别方法,通过分布式强化学习框架实现。该方法关注竞合关系、人的意图推理和决策思维,能够准确识别无人机集群中个体的意图,并实现高效的协同行动。采用深度神经网络和强化学习算法进行训练和优化,充分利用历史经验数据,提升决策和执行能力。异步更新的多线程训练方法提高了学习效率和性能,灵活的奖励函数和状态空间定义适应不同任务需求。该方法在无人机集群通信、协调和资源共享方面具有有效性,适用于军事作战、救援行动等领域。
附图说明
图1是本发明基于分布式强化学习的无人机集群策略型意图识别方法的流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明;
本发明首先定义了无人机集群的状态空间和动作空间。然后,构建了策略网络和价值网络,用于学习和预测无人机的策略和价值。策略网络根据当前状态选择动作,并将输出的原始分数转化为动作的概率分布。价值网络用于评估每个状态的价值,并计算优势函数。完成分布式强化学习模型的构建;
为了对分布式强化学习模型进行训练,创建了多个并行环境,每个环境模拟一个无人机与周围环境的交互。训练线程被创建并启动,为每个环境创建一个训练线程,并在多个线程之间实现并行训练;每个线程拥有独立的副本神经网络,用于收集经验并更新分布式强化学习模型的参数。通过执行动作并与环境交互,收集经验数据,并将其存储在经验缓存中。
根据收集到的经验数据,计算优势和值函数,用于衡量策略和价值的优劣。通过计算损失和梯度,使用优化算法更新策略网络和价值网络的参数。同时,利用异步更新的方法,将每个线程的梯度进行平均或累积,并将其应用于全局模型,实现参数的异步更新;
通过重复执行上述步骤,不断改进策略型意图识别的性能,使无人机集群能够更准确地理解竞合关系、推理过程和决策思维,以及对环境和他人行为的理解。
一种基于分布式强化学习的无人机集群策略意图识别方法,如附图1所示,具体包括以下步骤:
步骤1:定义无人机状态、动作以及策略网络和价值网络,由此得到分布式强化学习模型;
所述状态为无人机集群的状态空间:S={s1,s2,...,sn},其中si表示第i个无人机的状态;定义状态空间由位置信息、速度信息、能量状态、与其他无人机的相对位置以及环境感知信息构成;定义每个无人机的位置为三维坐标P=(x,y,z),其中x表示无人机在三维地图上的横坐标,y表示无人机在三维地图上的纵坐标,z表示无人机在三维地图上的垂直方向坐标;定义无人机的速度v为其在各个轴向上的运动速率,包括水平速度(vx,vy)和垂直速度vz;定义无人机的能量状态E为其当前的能量储备状况,用于衡量其执行任务的可持续性。定义与其他无人机的相对位置为Pr=[d,e],其中d表示与其他无人机之间的相对距离,e表示与其他无人机的相对方位;定义环境感知信息EP=[w,o],其中w表示天气条件,o代表障碍物分布;通过将上述状态变量组合在一起,形成了无人机集群的状态空间;
所述动作包括无人机集群的动作空间A={a1,a1,...,an}被定义为无人机集群可执行的动作集合,其中ai表示第i个无人机可执行的动作;每个无人机选择执行的形容取决于当前环境和策略目标;定义动作空间包括以下动作:
(1)移动行动:无人机选择向特定方向移动,如直飞、翻转、跳跃、俯冲、左跳、右跳、左潜、右潜;
(2)攻击行动:无人机选择执行攻击任务,包括打击目标、发射导弹、实施电子干扰等;
(3)监视行动:无人机选择执行监视任务,包括侦察、目标跟踪等;
(4)通信行动:无人机选择进行通信,如与其他无人机进行信息交换、传输数据等。
通过上述动作组合在一起,形成了无人机集群的动作空间;
所述策略网络的输入层接收无人机集群的状态信息,包括P,v,E,Pr,EP;每个状态变量作为输入层的一个节点,将状态信息转换为向量形式;定义隐藏层部分共包含四层隐藏层,每个隐藏层有128个神经元;定义输出层的神经元数量与可选的动作数量相同,假设无人机集群有K种可选的动作策略,那么输出层的大小为K;
所述价值网络的输入层与策略网络的输入层相同,隐藏层部分包含6个隐藏层,每个隐藏层有256个神经元,输出层的神经元数量为1,表示对当前状态的价值估计;
步骤2:创建多个并行的训练环境;
所述每个并行环境包含以下组件:
场景设置:设置仿真环境的地图、障碍物、目标区域以及其他环境参数,以模拟实际协同作战的场景;
无人机集群:在每个并行环境中,设置一个无人机集群,包括多架无人机,每架无人机都有自身的状态和动作;
交互接口:为无人机集群和环境之间的交互提供接口,使他们能够互相传递信息,执行动作和获取环境反馈;
在每个并行环境中,无人机集群根据当前状态选择动作,并将动作传递给环境。环境根据接收到的动作更新无人机集群的状态,并提供相应的反馈信息,如奖励信号(RewardSignal)和新的状态。无人机集群根据环境的反馈信息进行调整和决策,并再次选择下一个动作。这样,无人机集群与环境不断进行交互,以实现策略型意图识别和协同决策。
在每个并行环境中,环境收集无人机集群的经验数据,包括当前状态、选择的动作、获得的奖励和下一个状态。这些经验数据用于训练策略网络和价值网络。经验数据的收集可以采用回放缓冲区(Replay Buffer)等方法进行管理和存储,以便后续的训练和优化过程。
通过创建多个并行环境,本发明的方法能够实现高效的无人机集群策略型意图识别和决策学习。每个并行环境都模拟了真实场景下的协同作战情况,并通过与无人机集群的交互收集经验数据。这样,无人机集群可以在多个并行环境中并行训练,提高训练效率和算法的收敛速度,从而更好地适应不同的协同作战任务。
步骤3:基于步骤2构建的并行环境,启动训练线程;
每个并行环境的训练线程包含以下操作:
(1)创建副本神经网络(ReplicaNeural Network):为每个环境创建一个独立的副本神经网络,用于在训练过程中更新分布式强化学习模型参数;副本神经网络与主神经网络具有相同的网络结构,但参数是独立的;所述主神经网络包括策略网络和价值网络;
(2)初始化环境和副本神经网络:在训练线程开始时,初始化环境和副本神经网络的参数;确保每个环境和副本神经网络都处于相同的初始状态;
(3)经验收集与更新:训练线程通过与环境的交互,收集经验数据并更新副本神经网络的参数;在每个环境中,通过执行动作和观察环境的反馈,收集状态、动作、奖励和下一个状态的经验数据;然后,使用这些经验数据来计算损失函数并更新副本神经网络的参数;
(4)参数同步:每训练一个轮次,副本神经网络的参数与主神经网络进行同步,以确保所有线程中的模型参数保持一致;
本发明使用多线程并行训练方法,多个训练线程可以同时运行,独立地管理各自的环境和副本神经网络。每个线程在自己的环境中进行经验收集和模型更新,以提高训练效率。线程之间可以通过参数同步的方式保持模型参数的一致性。
步骤4:基于步骤3策略网络进行选择动作;
每个训练线程根据当前环境的状态,使用副本神经网络的策略网络部分进行推断,得到每个动作的原始分数;原始分数表示每个动作在当前状态下的优劣程度,用于后续的动作选择;
为了将原始分数转化为动作的概率分布,使用softmax函数对其进行转换;softmax函数将原始分数映射为概率分布,使得概率越高的动作被选择的可能性越大;softmax函数如下公式所示:
式中,a表示动作,a’表示所有可选动作,score表示原始分数,P为转化后的概率;
步骤5:执行步骤4选择的动作并收集经验;
每个训练线程根据选择的动作与环境进行交互;在当前环境状态下,根据策略网络选择的动作,将该动作发送给相应的无人机;无人机执行该动作,并与环境进行交互,完成特定的任务或行为;
在执行动作后,环境会提供相应的反馈;该反馈包括任务执行结果、环境状态变化、奖励信号;训练线程会观察环境的反馈,并将其作为经验的一部分;
训练线程会将执行的动作、观察到的环境反馈以及其他相关信息存储为经验,并将其存储在经验缓存中;经验缓存采用循环队列的方式进行管理,队列始终保持100000个经验数据;新的经验会不断替换掉最早的经验,以确保经验缓存中包含最新的和多样化的经验;
每个经验通常由当前状态、选择的动作、环境反馈、下一个状态以及奖励值组成,其中奖励值为奖励函数,根据环境的状态和动作,通过奖励函数计算出相应的奖励值;这些经验将用于后续的训练过程,用于更新策略网络和价值网络的参数;
所述奖励函数R=λ1R1+λ2R2+λ3R3;其中λ1,λ2,λ3为对应的权重系数;R1为协同奖励函数,R2为机动奖励函数,R3为意图学习奖励函数;定义一个无人机集群协调函数coordination(u),该函数根据的状态和集群中其他无人机的状态,确定无人机u采取的行动以实现协调;定义一个无人机意图学习成功概率的函数learning_progress_reward(u),该函数使用无人机成功学习到的意图预测除以总共的意图学习任务数量来计算意图学习成功率;定义Rt→t+1为第t次迭代到(t+1)次迭代选择基本动作单元的初始概率,τi为连续选择概率;定义定义R2=Rt→t+1+τi,定义
步骤6:根据步骤5收集到的经验,计算分布式强化学习模型优势函数;
根据收集到的经验数据,首先使用价值网络评估每个状态的值函数,得到状态值的估计;然后,对于每个状态和相应的动作,计算该动作的优势函数;
对于每个状态,使用价值网络评估其值函数;值函数用以下公式进行计算:
V(s)=W(s)T·θ
式中,W(s)表示状态s的特征向量,θ为价值网络的参数;
所述优势函数表示某个动作相对于平均水平的优势大小;优势函数的计算使用以下公式:
A(s,a)=Q(s,a)-v(s)
式中,A(s,a)表示状态s下选择动作a的优势函数,Q(s,a)表示状态-动作对(s,a)的值函数估计,V(s)表示状态s的值函数估计;
步骤7:计算策略网络和价值网络损失和梯度;
为了更新策略网络的参数,需要计算策略损失和价值损失,并通过梯度下降法来最小化损失函数;策略损失用于优化动作选择的策略,而价值损失用于优化状态值的估计;
根据策略网络的输出和优势函数,计算策略损失;策略损失衡量了策略网络输出的动作概率与优势函数之间的差异;策略损失的计算使用以下公式:
Lpolicy=-∑[A(s,a)*logP(a|s)]
式中,P(a|s)表示策略网络输出的动作a在状态s下的概率;
使用优势函数的平方作为价值损失,以优化价值函数的估计;价值网络损失的计算使用以下公式:
Lvalue=∑A(s,a)2
总损失的计算使用以下公式:Ltotal=Lpolicy+λLvalue,式中,λ为权衡策略损失和价值损失的超参数;
通过计算总损失,得到损失函数关于参数的梯度;然后,使用梯度下降法或其他优化算法来更新策略网络的参数;梯度的计算和参数更新使用以下公式:式中,θ表示策略网络的参数,α表示学习率,/>表示损失函数关于参数的梯度;
步骤8:对策略网络和价值网络的参数进行更新;
根据计算得到的策略损失的梯度,使用优化算法来更新策略网络的参数;更新策略网络参数的公式如下:式中,θpolicy表示策略网络的参数,α表示学习率,/>表示策略损失关于策略网络参数的梯度;
更新价值网络参数的公式如下:式中,θvalue表示价值网络的参数,α表示学习率,/>表示价值损失关于价值网络参数的梯度;
重复执行上述参数更新过程,迭代地更新策略网络和价值网络的参数;每次更新时,根据新的参数值计算新的损失和梯度,并使用优化算法来更新参数;通过多次迭代,能够逐渐优化网络性能,提高无人机集群的策略型意图识别能力;
步骤9:各训练线程进行异步更新;
在步骤3各个线程训练之前,创建全局模型的副本模型作为参考;
启动多个训练线程,每个线程都有一个独立的副本神经网络,在每个训练线程中,通过执行一定的训练步骤,收集梯度信息,在每个训练步骤的末尾,将获得的梯度信息进行平均,得到一个平均梯度,将平均梯度应用到全局模型的参数上,以实现异步更新;
其中梯度平均的公式如下:
式中,i为线程的索引,为每个线程的梯度。N为线程数量。
梯度平均后,使用梯度下降的方法更新全局模型的参数,公式如下:
式中,θnew为更新后的模型参数,θold为原始的模型参数,α为学习率;
重复执行步骤5-步骤9,能够不断提升无人机集群的策略型意图识别能力,使其能够更准确地理解竞合关系、推理过程和决策思维,以及对环境和他人行为的理解。
Claims (10)
1.一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,具体包括以下步骤:
步骤1:定义无人机状态、动作以及策略网络和价值网络,由此得到分布式强化学习模型;
步骤2:创建多个并行的训练环境;
步骤3:基于步骤2构建的并行环境,启动训练线程;
步骤4:基于步骤3策略网络进行选择动作;
步骤5:执行步骤4选择的动作并收集经验;
步骤6:根据步骤5收集到的经验,计算分布式强化学习模型优势函数;
步骤7:计算策略网络和价值网络损失和梯度;
步骤8:对策略网络和价值网络的参数进行更新;
步骤9:各训练线程进行异步更新。
2.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤1所述状态为无人机集群的状态空间:S={s1,s2,...,sn},其中si表示第i个无人机的状态;定义状态空间由位置信息、速度信息、能量状态、与其他无人机的相对位置以及环境感知信息构成;定义每个无人机的位置为三维坐标P=(x,y,z),其中x表示无人机在三维地图上的横坐标,y表示无人机在三维地图上的纵坐标,z表示无人机在三维地图上的垂直方向坐标;定义无人机的速度v为其在各个轴向上的运动速率,包括水平速度(vx,vy)和垂直速度vz;定义无人机的能量状态E为其当前的能量储备状况,用于衡量其执行任务的可持续性;定义与其他无人机的相对位置为Pr=[d,e],其中d表示与其他无人机之间的相对距离,e表示与其他无人机的相对方位;定义环境感知信息EP=[w,o],其中w表示天气条件,o代表障碍物分布;通过将上述状态变量组合在一起,形成了无人机集群的状态空间;
所述动作包括无人机集群的动作空间A={a1,a1,...,an}被定义为无人机集群可执行的动作集合,其中ai表示第i个无人机可执行的动作;每个无人机选择执行的形容取决于当前环境和策略目标;定义动作空间包括以下动作:
(1)移动行动:无人机选择向特定方向移动,如直飞、翻转、跳跃、俯冲、左跳、右跳、左潜、右潜;
(2)攻击行动:无人机选择执行攻击任务,包括打击目标、发射导弹、实施电子干扰等;
(3)监视行动:无人机选择执行监视任务,包括侦察、目标跟踪等;
(4)通信行动:无人机选择进行通信;
通过上述动作组合在一起,形成了无人机集群的动作空间;
所述策略网络的输入层接收无人机集群的状态信息,包括P,v,E,Pr,EP;每个状态变量作为输入层的一个节点,将状态信息转换为向量形式;定义隐藏层部分共包含四层隐藏层,每个隐藏层有128个神经元;定义输出层的神经元数量与可选的动作数量相同,假设无人机集群有K种可选的动作策略,那么输出层的大小为K;
所述价值网络的输入层与策略网络的输入层相同,隐藏层部分包含6个隐藏层,每个隐藏层有256个神经元,输出层的神经元数量为1,表示对当前状态的价值估计。
3.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤2所述每个并行环境包含以下组件:
场景设置:设置仿真环境的地图、障碍物、目标区域以及其他环境参数,以模拟实际协同作战的场景;
无人机集群:在每个并行环境中,设置一个无人机集群,包括多架无人机,每架无人机都有自身的状态和动作;
交互接口:为无人机集群和环境之间的交互提供接口,使他们能够互相传递信息,执行动作和获取环境反馈。
4.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤3每个并行环境的训练线程包含以下操作:
(1)创建副本神经网络:为每个环境创建一个独立的副本神经网络,用于在训练过程中更新分布式强化学习模型参数;副本神经网络与主神经网络具有相同的网络结构,但参数是独立的;所述主神经网络包括策略网络和价值网络;
(2)初始化环境和副本神经网络:在训练线程开始时,初始化环境和副本神经网络的参数;确保每个环境和副本神经网络都处于相同的初始状态;
(3)经验收集与更新:训练线程通过与环境的交互,收集经验数据并更新副本神经网络的参数;在每个环境中,通过执行动作和观察环境的反馈,收集状态、动作、奖励和下一个状态的经验数据;然后,使用这些经验数据来计算损失函数并更新副本神经网络的参数;
(4)参数同步:每训练一个轮次,副本神经网络的参数与主神经网络进行同步,以确保所有线程中的模型参数保持一致。
5.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤4具体为:
每个训练线程根据当前环境的状态,使用副本神经网络的策略网络部分进行推断,得到每个动作的原始分数;原始分数表示每个动作在当前状态下的优劣程度,用于后续的动作选择;
为了将原始分数转化为动作的概率分布,使用softmax函数对其进行转换;softmax函数将原始分数映射为概率分布,使得概率越高的动作被选择的可能性越大;softmax函数如下公式所示:
式中,a表示动作,a’表示所有可选动作,score表示原始分数,P为转化后的概率。
6.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤5具体为:
每个训练线程根据选择的动作与环境进行交互;在当前环境状态下,根据策略网络选择的动作,将该动作发送给相应的无人机;无人机执行该动作,并与环境进行交互,完成特定的任务或行为;
在执行动作后,环境会提供相应的反馈;该反馈包括任务执行结果、环境状态变化、奖励信号;训练线程会观察环境的反馈,并将其作为经验;
训练线程会将执行的动作、观察到的环境反馈以及其他相关信息存储为经验,并将其存储在经验缓存中;经验缓存采用循环队列的方式进行管理;新的经验会不断替换掉最早的经验,以确保经验缓存中包含最新的和多样化的经验;
每个经验通常由当前状态、选择的动作、环境反馈、下一个状态以及奖励值组成,其中奖励值为奖励函数,根据环境的状态和动作,通过奖励函数计算出相应的奖励值;这些经验将用于后续的训练过程,用于更新策略网络和价值网络的参数;
所述奖励函数R=λ1R1+λ2R2+λ3R3;其中λ1,λ2,λ3为对应的权重系数;R1为协同奖励函数,R2为机动奖励函数,R3为意图学习奖励函数;定义一个无人机集群协调函数coordination(u),该函数根据的状态和集群中其他无人机的状态,确定无人机u采取的行动以实现协调;定义一个无人机意图学习成功概率的函数learning_progress_reward(u),该函数使用无人机成功学习到的意图预测除以总共的意图学习任务数量来计算意图学习成功率;定义Rt →t+1为第t次迭代到(t+1)次迭代选择基本动作单元的初始概率,τi为连续选择概率;定义定义R2=Rt→t+1+τi,定义/>
7.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤6具体为:
根据收集到的经验数据,首先使用价值网络评估每个状态的值函数,得到状态值的估计;然后,对于每个状态和相应的动作,计算该动作的优势函数;
对于每个状态,使用价值网络评估其值函数;值函数用以下公式进行计算:
V(s)=W(s)T·θ
式中,W(s)表示状态s的特征向量,θ为价值网络的参数;
所述优势函数表示某个动作相对于平均水平的优势大小;优势函数的计算使用以下公式:
A(s,a)=Q(s,a)-v(s)
式中,A(s,a)表示状态s下选择动作a的优势函数,Q(s,a)表示状态-动作对(s,a)的值函数估计,V(s)表示状态s的值函数估计。
8.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤7具体为:
为了更新策略网络的参数,需要计算策略损失和价值损失,并通过梯度下降法来最小化损失函数;策略损失用于优化动作选择的策略,而价值损失用于优化状态值的估计;
根据策略网络的输出和优势函数,计算策略损失;策略损失衡量了策略网络输出的动作概率与优势函数之间的差异;策略损失的计算使用以下公式:
Lpolicy=-∑[A(s,a)*logP(a|s)]
式中,P(a|s)表示策略网络输出的动作a在状态s下的概率;
使用优势函数的平方作为价值损失,以优化价值函数的估计;价值网络损失的计算使用以下公式:
Lvalue=∑A(s,a)2
总损失的计算使用以下公式:Ltotal=Lpolicy+λLvalue,式中,λ为权衡策略损失和价值损失的超参数;
通过计算总损失,得到损失函数关于参数的梯度;然后,使用优化算法来更新策略网络的参数;梯度的计算和参数更新使用以下公式:θ=θ-α*▽θ(Ltotal),式中,θ表示策略网络的参数,α表示学习率,▽θ(Ltotal)表示损失函数关于参数的梯度。
9.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤8具体为:
根据计算得到的策略损失的梯度,使用优化算法来更新策略网络的参数;更新策略网络参数的公式如下:θpolicy=θpolicy-α*▽θpolicy(Lpolicy),式中,θpolicy表示策略网络的参数,α表示学习率,▽θpolicy(Lpolicy)表示策略损失关于策略网络参数的梯度;
更新价值网络参数的公式如下:θvalue=θvalue-α*▽θvalue(Lvalue),式中,θvalue表示价值网络的参数,α表示学习率,▽θvalue(Lvalue)表示价值损失关于价值网络参数的梯度;
重复执行上述参数更新过程,迭代地更新策略网络和价值网络的参数;每次更新时,根据新的参数值计算新的损失和梯度,并使用优化算法来更新参数;通过多次迭代,能够逐渐优化网络性能,提高无人机集群的策略型意图识别能力。
10.根据权利要求1所述的一种基于分布式强化学习的无人机集群策略意图识别方法,其特征在于,步骤9具体为:
在步骤3各个线程训练之前,创建全局模型的副本模型作为参考;
启动多个训练线程,每个线程都有一个独立的副本神经网络,在每个训练线程中,通过执行一定的训练步骤,收集梯度信息,在每个训练步骤的末尾,将获得的梯度信息进行平均,得到一个平均梯度,将平均梯度应用到全局模型的参数上,以实现异步更新;
其中梯度平均的公式如下:
式中,i为线程的索引,▽θi为每个线程的梯度;N为线程数量;
梯度平均后,使用梯度下降的方法更新全局模型的参数,公式如下:
θnew=θold-α▽θavg
式中,θnew为更新后的模型参数,θold为原始的模型参数,α为学习率;
重复执行步骤5-步骤9,能够不断提升无人机集群的策略型意图识别能力,使其能够更准确地理解竞合关系、推理过程和决策思维,以及对环境和他人行为的理解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310782582.2A CN116757249A (zh) | 2023-06-29 | 2023-06-29 | 一种基于分布式强化学习的无人机集群策略意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310782582.2A CN116757249A (zh) | 2023-06-29 | 2023-06-29 | 一种基于分布式强化学习的无人机集群策略意图识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116757249A true CN116757249A (zh) | 2023-09-15 |
Family
ID=87958859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310782582.2A Pending CN116757249A (zh) | 2023-06-29 | 2023-06-29 | 一种基于分布式强化学习的无人机集群策略意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116757249A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094376A (zh) * | 2023-10-19 | 2023-11-21 | 浪潮电子信息产业股份有限公司 | 一种任务处理方法、装置、系统、设备及可读存储介质 |
CN118503790A (zh) * | 2024-07-09 | 2024-08-16 | 中国电子科技集团公司第十五研究所 | 低空无人机集群对抗意图识别方法、装置、设备和介质 |
-
2023
- 2023-06-29 CN CN202310782582.2A patent/CN116757249A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094376A (zh) * | 2023-10-19 | 2023-11-21 | 浪潮电子信息产业股份有限公司 | 一种任务处理方法、装置、系统、设备及可读存储介质 |
CN117094376B (zh) * | 2023-10-19 | 2024-02-23 | 浪潮电子信息产业股份有限公司 | 一种任务处理方法、装置、系统、设备及可读存储介质 |
CN118503790A (zh) * | 2024-07-09 | 2024-08-16 | 中国电子科技集团公司第十五研究所 | 低空无人机集群对抗意图识别方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | A deep reinforcement learning network for traffic light cycle control | |
Liu et al. | Distributed and energy-efficient mobile crowdsensing with charging stations by deep reinforcement learning | |
CN113495578B (zh) | 一种基于数字孪生式训练的集群航迹规划强化学习方法 | |
Russell et al. | Q-decomposition for reinforcement learning agents | |
CN116757249A (zh) | 一种基于分布式强化学习的无人机集群策略意图识别方法 | |
CN111580544B (zh) | 一种基于强化学习ppo算法的无人机目标跟踪控制方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN110659796B (zh) | 一种可充电群车智能中的数据采集方法 | |
CN112947562A (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN114741886B (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
CN110673649A (zh) | 基于拓扑优化的时变信道下无人机编队一致性控制方法、系统、装置及存储介质 | |
CN116360503B (zh) | 一种无人机博弈对抗策略生成方法、系统及电子设备 | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
CN114510012A (zh) | 一种基于元动作序列强化学习的无人集群演进系统及方法 | |
CN116560409A (zh) | 基于maddpg-r的无人机集群路径规划仿真方法 | |
CN114355900A (zh) | 一种无人机与无人车结合的协同作业方法 | |
CN117890860A (zh) | 一种基于数字孪生和深度强化学习的集群协同电子干扰方法 | |
CN115097861A (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
CN114037048A (zh) | 基于变分循环网络模型的信念一致多智能体强化学习方法 | |
CN116795138A (zh) | 一种面向数据采集的多无人机智能航迹规划方法 | |
CN116128028A (zh) | 一种连续决策空间组合优化的高效深度强化学习算法 | |
Yang | Reinforcement learning for multi-robot system: A review | |
CN114326826B (zh) | 多无人机队形变换方法及系统 | |
CN115187056A (zh) | 一种考虑公平性原则的多智能体协同资源分配方法 | |
CN115334165A (zh) | 一种基于深度强化学习的水下多无人平台调度方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |