CN115562345B - 一种基于深度强化学习的无人机侦测轨迹规划方法 - Google Patents

一种基于深度强化学习的无人机侦测轨迹规划方法 Download PDF

Info

Publication number
CN115562345B
CN115562345B CN202211338476.7A CN202211338476A CN115562345B CN 115562345 B CN115562345 B CN 115562345B CN 202211338476 A CN202211338476 A CN 202211338476A CN 115562345 B CN115562345 B CN 115562345B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
detection track
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211338476.7A
Other languages
English (en)
Other versions
CN115562345A (zh
Inventor
孙健
李卓
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202211338476.7A priority Critical patent/CN115562345B/zh
Publication of CN115562345A publication Critical patent/CN115562345A/zh
Application granted granted Critical
Publication of CN115562345B publication Critical patent/CN115562345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出一种基于深度强化学习的无人机侦测轨迹规划方法,属于机器人智能决策与控制领域。首先构建无人机侦测轨迹规划的马尔科夫决策过程模型,分别得到无人机侦测轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过强化学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与待侦测信号场的分布完全未知的情况下实现无人机侦测信号场的轨迹规划,使其以最短时间获得充足信息并抵达预定目标,具有很高的实用价值。

Description

一种基于深度强化学习的无人机侦测轨迹规划方法
技术领域
本发明涉及一种基于深度强化学习的无人机侦测轨迹规划方法,属于机器人智能决策与控制技术领域。
背景技术
近年来,无人机以其性价比高、适用性广、灵活性强等特点得到了广泛应用和长足发展。然而现役无人机大多仍工作于预编程或人员操纵模式,依赖于有人在环控制,且对通信链路要求较高,大大限制了无人机的应用范围。无人机执行各项任务主要包括环境感知、轨迹规划和底层控制三个步骤,其中轨迹规划能力的提升可大大提高其自主能力、对任务环境的适应能力及工作效率。无人机轨迹规划方法大致可分为三大类:基于图搜索的方法、基于随机采样的方法和基于优化问题求解的方法。
基于图搜索的方法是将无人机工作空间的地图构建为一个图,包括节点和边,构建完成后的搜索过程是维护一个存储访问节点的容器,并不停循环移除、扩展、塞入节点三个步骤,直至搜索到终点,其中移除节点的不同方式可以了定义不同的图搜索方法,如Dijkstra算法和A*算法。基于随机采样的方法不需要遍历整个工作空间的地图,只通过对状态空间均匀随机采样来构建一个连通图,然后进行碰撞检测等,当初始点和终止点都出现在图中时采样结束,与基于图搜索的方法相比,规划效率更高。该方法包括单查询的概率路图算法(Probabilistic Road Map,PRM)、快速随机扩展树算法(Rapidly-exploringRandom Tree,RRT)、RRT-Connect算法等,以及渐近最优算法的RRT*算法等。
以上两种方法偏重于无人机的路径规划,而较少考虑轨迹规划中无人机的动力学约束。对于实际应用中的无人机轨迹规划需要考虑其动力学、能量消耗、外部威胁等多重约束及不同目标,现有研究常采用基于优化方法中的最优控制进行解析或数值求解。然而,由于无人机的工作环境常具有时空动态且其中的信号分布未知,无人机轨迹约束常由非凸泛函不等式描述且无明确表达式,使用最优控制方法求解复杂度极高且很难求得最优解。
随着人工智能技术的发展,强化学习逐渐成为一种新的轨迹规划方法。强化学习以马尔可夫决策过程为理论基础,基本思想是通过无人机与外部环境的不断交互试错,训练得到最优的轨迹规划策略。强化学习的现有研究大多将无人机的跟踪控制问题建模成马尔可夫决策过程,其中的转移概率对应无人机的动力学模型,从而实现无模型控制。
与目标跟踪任务相比,无人机侦测任务的轨迹规划问题具有更大的挑战性。在该任务中,不仅无人机的动力学模型未知,待侦测的信号场分布也完全未知且具有时空动态性。此外,由于无人机的量测信息随其轨迹不断累积,侦测任务中的信息约束则表述为时间的泛函,只能在轨迹结束时进行判断。对于该问题,使用优化问题进行数值求解需要极大的计算量,在强化学习框架下则具有奖励稀疏的难点,因此有待进一步研究解决。
发明内容
本发明的目的是克服现有技术的不足之处,提出一种基于深度强化学习的无人机侦测轨迹规划方法。本发明提出的方法不依赖无人机动力学模型和待侦测环境模型,仅以无人机位置、环境中信号场强度量测等传感器信息作为神经网络输入,以无人机角速度的控制指令为输出,训练得到无人机轨迹规划策略网络,使无人机在最短时间内获得充足的信号场相关信息并抵达预定目标位置,完成信号场侦测任务。
本发明提出的一种基于深度强化学习的无人机侦测轨迹规划方法,该方法无需无人机动力学模型与待侦测信号场分布,只需要无人机与信号场不断交互即可训练得侦测的轨迹规划策略,包括以下步骤:
1)构建无人机侦测轨迹规划的马尔科夫决策过程模型;
马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数;构建具体步骤如下:
1-1)确定状态变量;
本发明面向无人机在固定高度的信号场侦测任务,故在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量sk表达式为
sk=[xk-xr,yk-yrk,f(pk,k)]T
其中,pk=(xk,yk)表示无人机在当前时刻k的位置,θk表示惯性坐标系下无人机的航向角,f(pk,k)表示无人机在当前时刻所获得的信号场强度;(xr,yr)为无人机的目标位置;
1-2)确定控制变量;
控制变量表达式为无人机的航向角速度ak=ωk
1-3)确定转移模型;
转移模型的表达式为:
sk+1=g(sk,ak),
该转移模型表示在给定当前k时刻状态变量与控制变量,返回下一时刻的状态变量;
1-4)确定损失函数;
损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
Figure BDA0003915488830000031
其中,ρ,λ分别表示各项的权重系数,
Δd(k)=‖(xk-xr,yk-yr)′‖-‖(xk-1-xr,yk-1-yr)′‖,
Figure BDA0003915488830000032
表示无人机所获得的信息奖励,信息奖励中的cinfo(k)由估计的时空信号场得到,时空信号场采用如下偏微分方程描述:
Figure BDA0003915488830000033
其中,A是一个线性算子,∈(t)表示信号场的白噪声输入,采用有限元方法进行估计,即
Figure BDA0003915488830000041
其中,φi(p)表示一个基函数,xi(t)为基函数对应的未知参数;
f(p,t)再经过Galerkin加权残差方法及离散化处理,将偏微分方程表示的时空信号场表示为如下线性系统:
x(k+1)=Ax(k)+εd(k)
其中,A为状态转移矩阵,εd(k)为包含输入噪声及估计误差的误差项,针对该线性系统,设计信息奖励为:
cinfo(k)=Δr(G(p,k))+wλm(G(p,k)),
Δr(G(p,k))=rank(G(p,k))-rank(G(p,k-1)),
其中,G(p,k)为线性系统的可观性Gramian矩阵,λm(A)表示矩阵A的最小特征值,rank(A)表示矩阵A的秩。
2)根据步骤1)构建的马尔科夫决策过程模型建立无人机的侦测轨迹优化问题;
建立的无人机的侦测轨迹优化问题中包括确定目标函数和约束条件。
2-1)确定目标函数;
无人机的侦测轨迹优化问题的目标函数J的表达式为:
Figure BDA0003915488830000042
其中,
Figure BDA0003915488830000043
表示求均值算子,γ表示对未来损失的权重的衰减因子,0<γ<1;
2-2)确定约束条件;
无人机的侦测轨迹优化问题的约束条件的表达式为:
sk+1=g(sk,ak),k=1,...,n-1,n为终点时刻;
λm(G(p,n))≥∈
其中,a≥1表示控制变量的输入序列,λm(G(p,n))表示矩阵G(p,n)的最小特征值,物理意义为无人机到达最终时刻所获得的信息量,∈为一个给定上界。
3)设计强化学习求解算法;
设计强化学习求解算法包括构建并更新两个评价网络以及构建并更新策略网络;
3-1)构建并更新评价网络;
构建评价网络的方法为:
使用μj参数化两个评价网络
Figure BDA0003915488830000051
μj表示权重参数,j=1,2,评价网络
Figure BDA0003915488830000052
的输入为状态变量sk和控制变量ak,输出为累计损失量,累计损失量的函数表达式如下:
Figure BDA0003915488830000053
其中κ是一个权重系数,H(π(ak|sk))表示策略π(ak|sk)的熵;
更新评价网络的方法是最小化如下软贝尔曼残差;
Figure BDA0003915488830000054
其中,D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆,
Figure BDA0003915488830000055
表示目标神经网络表达式为
Figure BDA0003915488830000056
目标神经网络
Figure BDA0003915488830000057
的更新目标参数为/>
Figure BDA0003915488830000058
为使用ψ进行参数化的策略网络。
3-2)构建并更新策略网络;
构建策略网络的方法为:
采用ψ参数化一个策略网络πψ(ak|sk),ψ表示权重参数,策略网络的输入为状态变量sk,输出为控制变量ak
所述的更新策略网络的方法是最小化如下期望KL散度:
Figure BDA0003915488830000061
其中,DKL表示KL散度,Zμ(sk)为配分函数,用于归一化分布。
4)得到无人机侦测轨迹规划的具体步骤如下:
4-1)参数设置;
令评价网络和策略网络的最大训练次数M=1000,每次训练的最大更新步数T=1000,经验回放抽取的训练集大小N=256,目标神经网络的追踪比率β=0.99,评价网络与策略网络的学习率分别为αQ=0.01和αv=0.001,衰减因子为γ=0.99;
4-2)初始化;
两个评价网络和一个策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络,将初始化后的评价网络记为当前评价网络
Figure BDA0003915488830000062
Figure BDA0003915488830000063
和当前评价网络/>
Figure BDA0003915488830000064
设无人机当前位置pk,、方位角θk和目标位置pr,计算线性系统表示的信号场观测Gramian矩阵;
设空的经验队列集合R,并设置集合大小为100万;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化滞后时间计数为1,初始化时刻为0;
4-5)使用当前策略网络πψ(ak|sk)生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用损失函数计算该步转移的损失ck+1
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,ck+1,sk+1),存入经验队列D;
4-7)统计经验队列中的经验样本个数设为NR并判定:若NR≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,…,dN
4-9)使用
Figure BDA0003915488830000071
更新两个评价网络的权重参数μi,使用
Figure BDA0003915488830000072
更新策略网络权重ψ,:使用/>
Figure BDA0003915488830000073
更新目标神经网络的权重参数/>
Figure BDA0003915488830000074
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足终止条件||p(k)-pd||≤ξp和,λm≥ξ,则进入步骤4-11),无人机随机选择一个新的初始位置开始新一次的信号场侦测任务,否则返回步骤4-5);
4-11)使用m+1更新训练次数m,并进行判定:若m<M,则重新返回步骤4-2),无人机随机选择一个新的初始位置开始新一次的信号场侦测任务;否则迭代结束,将迭代终止时的当前策略网络πψ(ak|sk)作为最终的策略网络,记为
Figure BDA0003915488830000075
将状态变量输入最终策略/>
Figure BDA0003915488830000076
输出控制变量得到无人机侦测轨迹。
本发明提出的一种基于强化学习的无人机航迹跟踪控制方法,其特点及有益效果在于:
1)本发明在无人机模型未知且时空信号场分布未知的条件下实现对无人机侦测的轨迹规划。策略梯度更新方法通过无人机轨迹及传感信息的采样数据,自主学习出最优的评价网络与策略网络,该过程中不需要无人机模型的任何假设与参数,仅在马尔可夫决策过程的建模时对时空信号场进行有限元估计。
2)本发明的方法将确定性策略梯度理论与人工神经网络相结合,设计了两个评价网络和一个策略网络。评价网络用于拟合强化学习中的值函数(Q函数),策略网络在给定状态生成相应的控制策略。利用神经网络的非线性你和能力,使得在无人机模型及复杂的时空信号场分布均未知的情况下,仍可学习到理想的轨迹规划策略。同时,使用有限元估计时空信号场,并使用可观性Gramian矩阵设计奖励函数,很好地解决了奖励稀疏的问题。
3)本发明的方法的可拓展性强。本发明的方法针对宽泛的时空信号场侦测任务设计轨迹规划方法,适用于实际环境中的热信号、电磁信号等时空场,也适用于地形分布等空间场,只需要重新设定状态变量、控制输入以及损失函数,即可拓展于无人机在不同信号场的侦测任务。
4)本发明提出一种基于深度强化学习的无人机侦测轨迹规划方法,属于机器人智能决策与控制领域。首先构建无人机侦测轨迹规划的马尔科夫决策过程模型,分别得到无人机侦测轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过强化学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与待侦测信号场的分布完全未知的情况下实现无人机侦测信号场的轨迹规划,使其以最短时间获得充足信息并抵达预定目标,具有很高的实用价值。
附图说明
图1为本发明实施例中无人机二维平面内模型示意图。
图2为本发明实施例中本发明评价网络示意图。
图3为本发明实施例中本发明策略网络示意图。
图4为本发明实施例中深度强化学习架构示意图。
图5为本发明实施例中待探测信号场示意图。
图6为本发明实施例中累积奖励函数、获取信息及飞行时间变化示意图。
图7为本发明实施例中无人机在四个不同起始点的规划轨迹示意图。
图8为本发明实施例中无人机在四个不同起始点沿规划轨迹的获取信息示意图。
具体实施方式
本发明提出的一种深度强化学习的无人机侦测轨迹规划方法,下面结合附图和具体实施例进一步详细说明。
本发明提出一种基于深度强化学习的无人机侦测轨迹规划方法,首先构建无人机侦测轨迹规划的马尔科夫决策过程模型,分别得到无人机侦测轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过强化学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与待侦测信号场完全未知的情况下实现无人机侦测信号场的轨迹规划,使其以最短时间获得充足信息并抵达预定目标。
本发明提出的一种基于深度强化学习的无人机侦测轨迹规划方法,包括以下步骤:
1)构建无人机侦测轨迹规划的马尔科夫决策过程模型;
马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数;构建具体步骤如下:
1-1)确定状态变量;
本发明面向无人机在固定高度的信号场侦测任务,故在无人机所在高度建立平面直角坐标系,以其初始位置为原点,如图1所示,状态变量sk表达式为sk=[xk-xr,yk-yr,θk,f(pk,k)]T
其中,pk=(xk,yk)表示无人机在当前时刻k的位置,θk表示惯性坐标系下无人机的航向角,f(pk,k)表示无人机在当前时刻所获得的信号场强度;(xr,yr)为无人机的目标位置;
1-2)确定控制变量;
控制变量表达式为无人机的航向角速度ak=ωk
1-3)确定转移模型;
转移模型的表达式为:
Sk+1=g(sk,ak),
该转移模型表示在给定当前k时刻状态变量与控制变量,返回下一时刻的状态变量;
1-4)确定损失函数;
损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
Figure BDA0003915488830000091
其中,ρ,λ分别表示各项的权重系数,
Δd(k)=||(xk-xr,yk-yr)′||-||(xk-1-xr,yk-1-yr)′||,
Figure BDA0003915488830000101
表示无人机所获得的信息奖励,信息奖励中的cinfo(k)由估计的时空信号场得到,时空信号场采用如下偏微分方程描述:
Figure BDA0003915488830000102
其中,A是一个线性算子,∈(t)表示信号场的白噪声输入,采用有限元方法进行估计,即
Figure BDA0003915488830000103
其中,φi(p)表示一个基函数,xi(t)为基函数对应的未知参数;
f(p,t)再经过Galerkin加权残差方法及离散化处理,将偏微分方程表示的时空信号场表示为如下线性系统:
x(k+1)=Ax(k)+εd(k)
其中,A为状态转移矩阵,εd(k)为包含输入噪声及估计误差的误差项,针对该线性系统,设计信息奖励为:
cinfo(k)=Δr(G(p,k))+wλm(G(p,k)),
Δr(G(p,k))=rank(G(p,k))-rank(G(p,k-1)),
其中,G(p,k)为线性系统的可观性Gramian矩阵,λm(A)表示矩阵A的最小特征值,rank(A)表示矩阵A的秩。
2)根据步骤1)构建的马尔科夫决策过程模型建立无人机的侦测轨迹优化问题;
建立的无人机的侦测轨迹优化问题中包括确定目标函数和约束条件。
2-1)确定目标函数;
无人机的侦测轨迹优化问题的目标函数J的表达式为:
Figure BDA0003915488830000104
其中,
Figure BDA0003915488830000111
表示求均值算子,γ表示对未来损失的权重的衰减因子,0<γ<1;
2-2)确定约束条件;
无人机的侦测轨迹优化问题的约束条件的表达式为:
sk+1=g(sk,ak),k=1,…,n-1,n为终点时刻;
λm(G(p,n))≥∈
其中,ak≥1表示控制变量的输入序列,λm(G(p,n))表示矩阵G(p,n)的最小特征值,物理意义为无人机到达最终时刻所获得的信息量,∈为一个给定上界。
3)设计强化学习求解算法;
设计强化学习求解算法包括构建并更新两个评价网络以及构建并更新策略网络;
3-1)构建并更新评价网络,如图2所示;
构建评价网络的方法为:
使用μj参数化两个评价网络
Figure BDA0003915488830000112
μj表示权重参数,j=1,2,评价网络
Figure BDA0003915488830000113
的输入为状态变量sk和控制变量ak,输出为累计损失量,累计损失量的函数表达式如下:
Figure BDA0003915488830000114
其中κ是一个权重系数,H(π(ak|sk))表示策略π(ak|sk)的熵;
更新评价网络的方法是最小化如下软贝尔曼残差;
Figure BDA0003915488830000115
其中,D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆,
Figure BDA0003915488830000116
表示目标神经网络表达式为
Figure BDA0003915488830000117
目标神经网络
Figure BDA0003915488830000118
的更新目标参数为/>
Figure BDA0003915488830000119
为使用ψ进行参数化的策略网络。
3-2)构建并更新策略网络,如图3所示;
构建策略网络的方法为:
采用ψ参数化一个策略网络πψ(ak|sk),ψ表示权重参数,策略网络的输入为状态变量sk,输出为控制变量ak
所述的更新策略网络的方法是最小化如下期望KL散度:
Figure BDA0003915488830000121
其中,DKL表示KL散度,Zμ(sk)为配分函数,用于归一化分布。
4)得到无人机侦测轨迹规划的具体步骤如下:
4-1)参数设置;
令评价网络和策略网络的最大训练次数M=1000,每次训练的最大更新步数T=1000,经验回放抽取的训练集大小N=256,目标神经网络的追踪比率β=0.99,评价网络与策略网络的学习率分别为αQ=0.01和απ=0.001,衰减因子为γ=0.99;
4-2)初始化;
两个评价网络和一个策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络,将初始化后的评价网络记为当前评价网络
Figure BDA0003915488830000122
Figure BDA0003915488830000123
和当前评价网络/>
Figure BDA0003915488830000124
设无人机当前位置pk,、方位角θk和目标位置pr,计算线性系统表示的信号场观测Gramian矩阵;
设空的经验队列集合R,并设置集合大小为100万;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化滞后时间计数为1,初始化时刻为0;
4-5)使用当前策略网络πψ(ak|sk)生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用损失函数计算该步转移的损失ck+1
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,ck+1,sk+1),存入经验队列D;
4-7)统计经验队列中的经验样本个数设为NR并判定:若NR≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,…,dN
4-9)使用
Figure BDA0003915488830000131
更新两个评价网络的权重参数μi,使用
Figure BDA0003915488830000132
更新策略网络权重ψ,:使用/>
Figure BDA0003915488830000133
更新目标神经网络的权重参数/>
Figure BDA0003915488830000134
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足终止条件||p(k)-pd||≤ξp和,λm≥ξ,则进入步骤4-11),无人机随机选择一个新的初始位置开始新一次的信号场侦测任务,否则返回步骤4-5);
4-11)使用m+1更新训练次数m,并进行判定:若m<M,则重新返回步骤4-2),无人机随机选择一个新的初始位置开始新一次的信号场侦测任务;否则迭代结束,将迭代终止时的当前策略网络πψ(ak|sk)作为最终的策略网络,记为
Figure BDA0003915488830000135
将状态变量输入最终策略/>
Figure BDA0003915488830000136
输出控制变量得到无人机侦测轨迹。
图4显示了本发明提出的基于深度强化学习的无人机侦测轨迹规划方法的框架架构。本发明使用软执行者-评价者增加神经网络收敛的稳定性。在训练中,当前策略网络趋近于目标策略网络,当前评价网络趋近于目标评价网络。训练结束后,只需要当前策略网络就可以控制无人机实现期望的轨迹跟踪控制任务。
本发明方法所采用的飞行仿真环境为Pytorch框架下Python语言编写搭建;本发明方法本领域技术人员通过编程即可实现。
下面结合一个具体实施例对本发明进一步说明如下。
仿真实验
(1)仿真设置
本发明提出的方法在Pytorch框架下Python语言编写实现,从而训练和验证,本实施例中采用无人机在二维平面内的通用模型,令最大迭代次数为M=1000,每次迭代的最大实验步数T=600,经验回放抽取的训练集大小N=64,目标神经网络的追踪比率τ=0.9,评价网络与策略网络的学习率分别为αω=0.01和αθ=0.001,折现因子为γ=0.99,此外奖励函数的系数分别为:ρ=0.5、λ=0.03。图5是本实施例待探测信号场分布情况示意图。
(2)仿真结果
图6表示的是1000次训练中,奖励函数(上)、获取信息(左下)及无人机飞行时间(右下)的变化。起始阶段,无人机获得的累计奖励和获取信息很小,飞行时间为一次训练时间,随着训练次数的增加,累计奖励和获取信息逐渐变大,飞行时间减少,最后趋于稳定。
图7、图8表示的是测试结果,即用训练产生的策略网络实现无人机侦测任务下的轨迹规划。图7和图8分别显示了四个不同起始点下,规划方法得到的无人机轨迹以及对应的无人机所获取信息随时间的变化。从图7、图8的结果可以看出,无人机状态能够很快地抵达预定目标并且获取充足的信号场有关信息,即实现了未知分布信号场的探测,证明本发明提出的方法可以不依赖无人机模型和信号场分布即可产生理想的轨迹规划策略。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (7)

1.一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于包括以下步骤:
1)构建无人机侦测轨迹规划的马尔科夫决策过程模型;
2)根据步骤1)构建的马尔科夫决策过程模型建立无人机的侦测轨迹优化问题;
3)根据步骤2)建立的无人机的侦测轨迹优化问题设计强化学习求解算法;
4)将无人机的观测量输入到步骤3)设计的强化学习求解算法,得到基于深度强化学习的规划策略下的无人机侦测轨迹;
所述的步骤1)中,构建的无人机侦测轨迹规划的马尔科夫决策过程模型包括状态变量、控制变量、转移模型和损失函数;
所述的状态变量sk表达式为sk=[xk-xr,yk-yrk,f(pk,k)]T
其中,pk=(xk,yk)表示无人机在当前时刻k的位置,θk表示惯性坐标系下无人机的航向角,f(pk,k)表示无人机在当前时刻所获得的信号场强度;(xr,yr)为无人机的目标位置;
所述的控制变量表达式为无人机的航向角速度ak=ωk
所述的转移模型的表达式为:sk+1=g(sk,ak);
所述的损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
Figure FDA0004146259680000011
其中,ρ,λ分别表示各项的权重系数;
Δd(k)=‖(xk-xr,yk-yr)′‖-‖(xk-1-xr,yk-1-yr)′‖,
Figure FDA0004146259680000012
表示无人机所获得的信息奖励,信息奖励中的cinfo(k)由估计的时空信号场得到,时空信号场采用如下偏微分方程描述:
Figure FDA0004146259680000013
其中,A是一个线性算子,∈(t)表示信号场的白噪声输入,采用有限元方法进行估计,即
Figure FDA0004146259680000021
其中,φi(p)表示一个基函数,xi(t)为基函数对应的未知参数;
f(p,t)再经过Galerkin加权残差方法及离散化处理,将偏微分方程表示的时空信号场表示为如下线性系统:
x(k+1)=Ax(k)+εd(k)
其中,A为状态转移矩阵,εd(k)为包含输入噪声及估计误差的误差项,针对该线性系统,设计信息奖励为:
cinfo(k)=Δr(G(p,k))+wλm(G(p,k)),
Δr(G(p,k))=rank(G(p,k))-rank(G(p,k-1)),
其中,G(p,k)为线性系统的可观性Gramian矩阵,λm(A)表示矩阵A的最小特征值,rank(A)表示矩阵A的秩。
2.根据权利要求1所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:
所述的步骤2)中,建立的无人机的侦测轨迹优化问题中包括确定目标函数和约束条件。
3.根据权利要求2所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:
所述的目标函数J的表达式为:
Figure FDA0004146259680000022
其中,
Figure FDA0004146259680000023
表示求均值算子,γ表示对未来损失的权重的衰减因子,0<γ<1;
所述的约束条件的表达式为:
sk+1=g(sk,ak),k=1,…,n-1,n为终点时刻;
λm(G(p,n))≥∈
其中,ak≥1表示控制变量的输入序列,m(G(p,n))表示矩阵G(p,n)的最小特征值,物理意义为无人机到达最终时刻所获得的信息量,∈为一个给定上界。
4.根据权利要求1所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:
所述的步骤3)中,设计强化学习求解算法包括构建并更新两个评价网络以及构建并更新策略网络。
5.根据权利要求4所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:
所述的构建评价网络的方法为:
使用μj参数化两个评价网络
Figure FDA0004146259680000031
μj表示权重参数,j=1,2,评价网络
Figure FDA0004146259680000032
的输入为状态变量sk和控制变量ak,输出为累计损失量,累计损失量的函数表达式如下:
Figure FDA0004146259680000033
其中κ是一个权重系数,H(π(ak|sk))表示策略π(ak|sk)的熵;
所述的更新评价网络的方法是最小化如下软贝尔曼残差;
Figure FDA0004146259680000034
其中,D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆,
Figure FDA0004146259680000035
表示目标神经网络表达式为
Figure FDA0004146259680000036
目标神经网络
Figure FDA0004146259680000037
的更新目标参数为/>
Figure FDA0004146259680000038
πψ(ak|sk)为使用ψ进行参数化的策略网络。
6.根据权利要求5所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:
所述的构建策略网络的方法为:
采用ψ参数化一个策略网络πψ(ak|sk),ψ表示权重参数,策略网络的输入为状态变量sk,输出为控制变量ak
所述的更新策略网络的方法是最小化如下期望KL散度:
Figure FDA0004146259680000041
其中,DKL表示KL散度,Zμ(sk)为配分函数,用于归一化分布。
7.根据权利要求6所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:
所述的步骤4)中,得到无人机侦测轨迹的方法为:
4-1)参数设置;
令评价网络和策略网络的最大训练次数M=1000,每次训练的最大更新步数T=1000,经验回放抽取的训练集大小N=256,目标神经网络的追踪比率β=0.99,评价网络与策略网络的学习率分别为αQ=0.01和απ=0.001,衰减因子为γ=0.99;
4-2)初始化;
两个评价网络和一个策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络,将初始化后的评价网络记为当前评价网络1
Figure FDA0004146259680000042
和当前评价网络/>
Figure FDA0004146259680000043
设无人机当前位置pk,、方位角θk和目标位置pr,计算线性系统表示的信号场观测Gramian矩阵;
设空的经验队列集合R,并设置集合大小为100万;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化滞后时间计数为1,初始化时刻为0;
4-5)使用当前策略网络πψ(k|k)生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用损失函数计算该步转移的损失ck+1
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,ck+1,sk+1),存入经验队列D;
4-7)统计经验队列中的经验样本个数设为NR并判定:若NR≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,…,dN
4-9)使用
Figure FDA0004146259680000051
更新两个评价网络的权重参数μi,使用
Figure FDA0004146259680000052
更新策略网络权重ψ,:使用/>
Figure FDA0004146259680000053
更新目标神经网络的权重参数/>
Figure FDA0004146259680000054
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足终止条件||p(k)-pd||≤ξp和,λm≥ξ,则进入步骤4-11),无人机随机选择一个新的初始位置开始新一次的信号场侦测任务,否则返回步骤4-5);
4-11)使用m+1更新训练次数m,并进行判定:若m<M,则重新返回步骤4-2),无人机随机选择一个新的初始位置开始新一次的信号场侦测任务;否则迭代结束,将迭代终止时的当前策略网络πψ(ak|sk)作为最终的策略网络,记为
Figure FDA0004146259680000055
将状态变量输入最终策略
Figure FDA0004146259680000056
输出控制变量得到无人机侦测轨迹。
CN202211338476.7A 2022-10-28 2022-10-28 一种基于深度强化学习的无人机侦测轨迹规划方法 Active CN115562345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211338476.7A CN115562345B (zh) 2022-10-28 2022-10-28 一种基于深度强化学习的无人机侦测轨迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211338476.7A CN115562345B (zh) 2022-10-28 2022-10-28 一种基于深度强化学习的无人机侦测轨迹规划方法

Publications (2)

Publication Number Publication Date
CN115562345A CN115562345A (zh) 2023-01-03
CN115562345B true CN115562345B (zh) 2023-06-27

Family

ID=84768092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211338476.7A Active CN115562345B (zh) 2022-10-28 2022-10-28 一种基于深度强化学习的无人机侦测轨迹规划方法

Country Status (1)

Country Link
CN (1) CN115562345B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116301027B (zh) * 2023-02-08 2023-12-05 北京航空航天大学 一种基于安全强化学习的城市空域内无人机路径规划方法
CN116460860B (zh) * 2023-06-19 2023-10-20 中国科学技术大学 一种基于模型的机器人离线强化学习控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321B (zh) * 2018-05-30 2020-07-10 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109164821B (zh) * 2018-09-26 2019-05-07 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN110806759B (zh) * 2019-11-12 2020-09-08 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN111006693B (zh) * 2019-12-12 2021-12-21 中国人民解放军陆军工程大学 智能飞行器航迹规划系统及其方法
CN111061277B (zh) * 2019-12-31 2022-04-05 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN114840021B (zh) * 2022-04-28 2024-10-15 中国人民解放军国防科技大学 一种无人机收集数据的轨迹规划方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115562345A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN115562345B (zh) 一种基于深度强化学习的无人机侦测轨迹规划方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN103593538B (zh) 一种遗传算法优化动态递归神经网络的光纤陀螺温度漂移建模方法
CN111123963B (zh) 基于强化学习的未知环境自主导航系统及方法
Rückin et al. Adaptive informative path planning using deep reinforcement learning for uav-based active sensing
Xia et al. Neural inverse reinforcement learning in autonomous navigation
CN116820093A (zh) 基于多智能体强化学习的多车协同侦测系统轨迹规划方法
Saulnier et al. Information theoretic active exploration in signed distance fields
CN112819253A (zh) 一种无人机避障和路径规划装置及方法
CN113359448A (zh) 一种针对时变动力学的自主水下航行器轨迹跟踪控制方法
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
Cao et al. Hunting algorithm for multi-auv based on dynamic prediction of target trajectory in 3d underwater environment
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
CN108764475A (zh) 遗传小波神经网络的陀螺随机误差补偿方法及系统
CN117268391B (zh) 一种基于目标分层架构的变形飞行器智能规划方法及系统
Banerjee et al. A survey on physics informed reinforcement learning: Review and open problems
Carolina Jara Ten Kathen et al. A comparison of pso-based informative path planners for autonomous surface vehicles for water resource monitoring
Wu et al. UAV Path Planning Based on Multicritic‐Delayed Deep Deterministic Policy Gradient
CN111258219A (zh) 一种多智能体系统协同策略的反演辨识方法
CN117908565A (zh) 基于最大熵多智能体强化学习的无人机安全路径规划方法
Yang et al. Learning graph-enhanced commander-executor for multi-agent navigation
CN116907510B (zh) 一种基于物联网技术的智能化运动识别方法
CN115630566A (zh) 一种基于深度学习和动力约束的资料同化方法和系统
Cui Multi-target points path planning for fixed-wing unmanned aerial vehicle performing reconnaissance missions
Poddar et al. Tuning of GPS aided attitude estimation using evolutionary algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant