CN116520281B

CN116520281B - 一种基于ddpg的扩展目标跟踪优化方法和装置

Info

Publication number: CN116520281B
Application number: CN202310525768.XA
Authority: CN
Inventors: 陈辉; 王晓晴; 王荆宇; 张文旭
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-10-24
Anticipated expiration: 2043-05-11
Also published as: CN116520281A

Abstract

本发明公开了一种基于DDPG的扩展目标跟踪优化方法和装置，包括以下步骤：获取雷达的扩展目标量测信息；根据量测信息对扩展目标进行型凸形随机超曲面建模以及设置当前时刻选择传感器动作的策略；根据建立的凸形随机超曲面模型和所述策略，得到下一时刻扩展目标协方差；根据下一时刻扩展目标协方差设置奖励值，同时根据奖励值对策略进行更新；基于更新结果，通过DDPG算法得到雷达传感器最优移动路径。采用本发明的技术方案，对扩展目标跟踪进行传感器路径规划，从而优化目标跟踪的整体性能。

Description

一种基于DDPG的扩展目标跟踪优化方法和装置

技术领域

本发明属于雷达信号处理技术领域，具体涉及一种基于DDPG的扩展目标跟踪优化方法和装置。

背景技术

雷达是现代战争中军事情报侦察和搜集的重要手段，其中传感器控制问题在现代认知雷达目标跟踪中得到了广泛的关注与应用。在大多数目标跟踪场景中，可以控制传感器执行各种可能对测量数据的质量和信息内容产生重大影响的操作，从而影响跟踪系统的估计性能。该传感器控制动作包括改变传感器平台的位置，方向或运动等，从而可对传感器在场景中检测，跟踪和识别物体的能力产生影响。近十几年来，利用不同的传感器控制方法对目标跟踪效果进行优化已成为大多数学者的研究方向之一，例如，Zhang等针对低空机动目标跟踪会出现地形阻挡的问题，提出了一种多传感器雷达跟踪低空机动目标的非短视调度方法。等提出了一种用于联合多目标搜索和跟踪问题的传感器管理方法，采用泊松多伯努利混合滤波器进行多目标密度传播，消除了对未发现目标的单独处理，为统一搜索和跟踪方法提供了理论基础。但是，传统的传感器控制决策是由人工干预或某些确定性控制策略驱动的，但由于在复杂不确定性环境中，目标不确定性与量测不确定性时有发生，这样的情况使得传感器控制策略很难保证最优性。

发明内容

本发明旨在解决现有技术的不足，提出一种基于DDPG的扩展目标跟踪优化方法和装置，对扩展目标跟踪进行传感器路径规划，从而优化目标跟踪的整体性能。

为实现上述目的，本发明提供了如下方案：

一种基于DDPG的扩展目标跟踪优化方法，包括以下步骤：

获取雷达的扩展目标量测信息；

根据量测信息对扩展目标进行型凸形随机超曲面建模以及设置当前时刻选择传感器动作的策略；

根据建立的凸形随机超曲面模型和所述策略，得到下一时刻扩展目标协方差；

根据下一时刻扩展目标协方差设置奖励值，同时根据奖励值对策略进行更新；

基于更新结果，通过DDPG算法得到雷达传感器最优移动路径。

作为优选，根据建立的凸形随机超曲面模型和所述策略，得到下一时刻扩展目标协方差包括：

根据建立的凸形随机超曲面模型，通过DDPG算法得到扩展目标估计位置和协方差；

根据当前时刻选择传感器动作的策略，选择传感器下一时刻的动作；

根据扩展目标估计位置和协方差、以及传感器下一时刻的动作，得到下一时刻扩展目标协方差。

作为优选，根据扩展目标估计位置和协方差、以及传感器下一时刻的动作，基于UKF滤波器和RHM伪量测方程得到下一时刻扩展目标协方差。

作为优选，使用DDPG算法得到t+1时刻的雷达传感器移动位置估计值与扩展目标信息估计值，判断传感器移动后的估计效果是否优于传感器移动之前的，将判断后得到的奖励值进行更新；上述过程循环预定次数之后，通过DDPG算法得到最优的传感器移动路径，雷达根据该最优路径进行移动，使得每一时刻的扩展目标跟踪效果为最优；其中，所述扩展目标跟踪效果包含：估计轮廓的精度和估计位置的精度。

作为优选，所述扩展目标量测信息包括：扩展目标的位置、速度、加速度信息。

本发明还提供一种基于DDPG的扩展目标跟踪优化装置，包括：

获取模块，用于获取雷达的扩展目标量测信息；

处理模块，用于根据量测信息对扩展目标进行型凸形随机超曲面建模以及设置当前时刻选择传感器动作的策略；

计算模块，用于根据建立的凸形随机超曲面模型和所述策略，得到下一时刻扩展目标协方差；

更新模块，用于根据下一时刻扩展目标协方差设置奖励值，同时根据奖励值对策略进行更新；

优化模块，用于基于更新结果，通过DDPG算法得到雷达传感器最优移动路径。

作为优选，计算模块包括：

第一计算单元，用于根据建立的凸形随机超曲面模型，通过DDPG算法得到扩展目标估计位置和协方差；

选择单元，用于根据当前时刻选择传感器动作的策略，选择传感器下一时刻的动作；

第二计算单元，用于根据扩展目标估计位置和协方差、以及传感器下一时刻的动作，得到下一时刻扩展目标协方差。

作为优选，所述第二计算单元，用于根据扩展目标估计位置和协方差、以及传感器下一时刻的动作，基于UKF滤波器和RHM伪量测方程得到下一时刻扩展目标协方差。

与现有技术相比，本发明的有益效果为：

综上所述，对于连续空间中的扩展目标跟踪过程本发明实施例提出一种智能决策扩展目标跟踪优化方法，使用DDPG算法对扩展目标跟踪进行传感器路径规划，从而优化目标跟踪的整体性能。本发明实施例的主要内容是使用星凸形随机超曲面模型对扩展目标进行建模，使用无迹卡尔曼利滤波器(Unscented Kalman Filter,UKF)进行滤波跟踪，结合DDPG算法，使用协方差的迹作为奖励函数，对传感器的运动做决策规划。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于DDPG的扩展目标跟踪优化方法流程图；

图2为选择行为的策略示意图；

图3为DDPG结构图示意图；

图4为基于三种方案的传感器路径规划对比示意图；

图5为图4中第18、19、20步的目标跟踪效果放大图；其中，图5((a)为图4中第20步放大图；图5((b)为图4中第19步放大图；图5(c)为图4中第18步放大图；图5(d)为放大图的线条与符号注释；

图6为基于三种方案的目标跟踪迹的对比示意图；

图7为基于三种方案的扩展目标质心误差示意图；

图8为PG算法中一幕的奖励值变化情况示意图；

图9为DDPG算法中一幕的奖励值的变化情况示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

如图1所示，本发明实施例提供一种基于DDPG的扩展目标跟踪优化方法，包括以下步骤：

步骤S1、获取雷达的扩展目标量测信息；

步骤S2、根据量测信息对扩展目标进行型凸形随机超曲面建模以及设置当前时刻选择传感器动作的策略；

步骤S3、根据建立的凸形随机超曲面模型，得到扩展目标估计位置和协方差；

步骤S4、根据当前时刻选择传感器动作的策略，选择传感器下一时刻的动作；

步骤S5、根据扩展目标估计位置和协方差、以及传感器下一时刻的动作，基于UKF滤波器和RHM伪量测方程得到下一时刻扩展目标协方差；

步骤S6、根据下一时刻扩展目标协方差设置奖励函数，同时根据奖励函数对策略进行更新；

步骤S7、基于更新结果，通过DDPG算法得到雷达传感器最优移动路径，从而对扩展目标跟踪效果进行优化。

进一步，扩展目标跟踪优化所使用的量测信息需要从雷达上获取，首先建立雷达扩展目标跟踪数据库，将雷达检测到的t时刻的扩展目标对应的多个量测的位置、速度、加速度等信息存入数据库，基于数据库中的信息对扩展目标进行星凸形随机超曲面的建模，并且使用DDPG算法，得到t+1时刻的雷达传感器移动位置估计值与扩展目标信息估计值，判断传感器移动后的估计效果是否优于传感器移动之前的，将判断后得到的奖励值进行更新，这个过程循环一定次数之后，通过DDPG算法得到最优的传感器移动路径，雷达根据该最优路径进行移动，能够使得每一时刻的扩展目标跟踪效果(包括估计轮廓的精度、估计位置的精度等)是最优的。

t时刻扩展目标的多特征状态(含运动参数和形状参数)可表示为其中，m_t为t时刻扩展目标的质心,/>表示运动参数,p_t为目标的形状轮廓参数,则扩展目标的运动方程为：

x_t+1＝f_t(x_t)+w_t

其中，f_t(·)是系统的状态转移矩阵,w_t为过程噪声.

作为本发明实施的一种实施方式，扩展目标的量测建模过程可以分解为两步。首先,根据合理的空间分布假设建立量测源模型,并利用该模型生成扩展目标的多个量测源.其次,量测源混合传感器噪声以产生目标的多个量测,传感器量测模型可描述如下

z_t,j＝y_t,j+v_t,j

其中，y_t,j为扩展目标t时刻第j个采样点的量测源位置,z_t,j为扩展目标量测,v_t,j为量测噪声,(j＝1,…,N).

本发明实施例使用星凸形扩展目标模型算法作为目标跟踪的算法，星凸形的定义为：如果一个集合S∈R^N中的任意一点到质心的线段上的所有点仍属于该集合，则集合S所构成的形状为星凸形。则扩展目标量测源y_k,l可以表示为

其中，S(p_t)表示为星凸形扩展目标的形状，为S(p_t)的形状边界；s_t,l为一维随机变量的尺度因子，并且s_t,l∈[0,1]。

为了使计算过程更加便利，使用径向函数r(p_t,φ)对星凸形扩展目标形状S(p_t)进行参数化表示，可得

S(p_t)＝s_t,l·r(p_t,φ)·η(φ)+m_t (2)

其中，r(p_t,φ)表示t时刻目标质心与边界之间的径向函数，η(φ)＝[cos(φ),sin(φ)]^T表示方向向量，其中φ∈[0,2π]表示t的目标量测源对应的角度。

然后，利用有限傅里叶级数对r(p_t,φ)进行展开，得

由此，公式(3)可以简写为

r(p_t,φ)＝R(φ)·p_t (4)

其中，

由上，可得量测源方程为

y_t,l＝s_t,l·R(φ_t,l)·p_t·η(φ_t,l)+m_t (7)

考虑到传感器量测源有噪声的影响，将公式(7)代入传感器量测模型z_t,l＝y_t,l+v_t,l可得传感器量测源方程

z_t,l＝s_t,l·R(φ_t,l)·p_t·η(φ_t,l)+m_t+v_t,l (8)

公式(8)可进一步推导出如下伪量测方程：

利用公式(9)即可描述星凸形扩展目标的观测模型。

作为本发明实施的一种实施方式，DDPG中使用了确定性行为策略(DeterministicPolicy Gradient)，使得每一步的行为a通过函数μ可以直接得到确定的值a_t＝μ(s_t|θ^μ)，μ函数为最优行为策略，不再是一个需要采样的随机策略。

在强化学习训练过程中，为了兼顾搜索潜在的更优策略，需要为行为(action)的决策机制引入随机噪声，将action的决策从确定性的过程变为随机过程，从随机过程中采样得出action，再进行执行。

如图2所示，所述策略称为行为(behavior)策略，用β表示，该策略为使用Ornstein-Uhlenbeck(OU)随机过程作为引入的随机噪声，由于该随机过程在时序上具备良好的相关性，可以使得传感器的在确定性行为策略中也可以探索。在训练过程中，β并非为最终所需要的最优策略，仅用于生成下达给环境的action，从而获得所需要的数据库，利用该数据库对策略μ进行训练，以获得最优策略。

DDPG算法是基于Actor-Critic框架的强化学习算法，其中critic网络计算Q函数，即action-value函数，定义为在状态s_t下，采取动作a_t后，若持续执行策略μ所获得的R_t期望值，可用贝尔曼方程表示为

Q^μ(s_t,a_t)＝E[r(s_t,a_t)+γQ^μ(s_t+1,a_t+1)] (10)

公式(10)表明，Q函数使用递归方式表达，在实际情况中无法得知未来的Q值，从而使用一个神经网络对Q函数进行模拟，称为critic网络，其参数为θ^μ，此方法是对DQN算法的借鉴。

actor网络用于衡量策略μ的表现，即定义一个函数J进行衡量

其中，s是环境的状态，这些状态是基于传感器的behavior策略产生的，它们的分布函数为ρ^β；Q^μ(s,μ(s))是在每个状态下，如果都按照策略μ选择action时，能够产生的Q值。即，J_β(μ)是在s根据ρ^β分布时，Q^μ(s,μ(s))的期望值。为解决连续空间中的问题，使用另一神经网络近似策略函数，对μ函数进行模拟，其参数为θ^μ，该网络可称为actor网络，为了使参数能够更好的收敛，在此基础上建立critic target网络与actor target网络。

本作为本发明实施例的一种实施方式，发明实施例使用基于DDPG算法的最优滤波器对星凸形扩展目标进行状态估计，如图3所示，下面对基于DDPG的扩展目标跟踪传感器控制过程进行描述。

初始化目标状态与协方差阵(x_t、P_t|t)以及DDPG网络参数(θ^μ、θ^Q、θ^μ′、θ^Q′)，利用公式(1)进行一步预测得x_t+1|t、P_t+1|t。

根据当前策略μ，将t时刻传感器位置x_s,t输入Actor网络，Actor网络使用DPG得到t+1时刻的传感器动作ν_t+1

其中，为引入的随机噪声。本发明实施例设置输出动作ν_t+1为角度值，通过该角度值计算出传感器在t+1时刻的位置为

x_s,t+1(ν_t+1)＝x_s,t+α_l[cosν_t+1,sinν_t+1]^T (13)

其中，x_s,t+1(ν_t+1)为t+1时刻传感器根据动作ν_t+1所得的位置，x_s,t＝[x_s,t,y_s,t]^T，α_l为选择的步长参数，x_s,t+1(ν_t+1)＝[x_s,t+1(ν_t+1),y_s,t+1(ν_t+1)]^T。

将当前时刻传感器的状态x_s,t与Actor网络所选择的动作ν_t+1得到的传感器位置x_s,t(ν_t+1)代入RHM扩展目标最优非线性滤波器(本发明实施例采用无迹卡尔曼滤波器(Unscented Kalman Filter,UKF)求解RHM高度非线性的伪量测方程)中计算，即设有一组采样点为从[x_t+1|t,v_t,s_t]中获得，对应权重为ω_t+1,j，根据公式(11)的RHM伪量测方程，传播后的采样点可定义为

其中，为针对采样点在传感器方案ν_t+1对应下的伪量测。对状态向量和协方差阵进行更新

其中:

在星凸形扩展目标跟踪中，形状参数包含在x_t中，经过最优滤波器的一个循环更新后，会得到一个协方差阵P_t+1|t+1，该协方差阵表示系统的不确定性，随着量测的更新，不确定性会逐渐减小。因此本发明实施例设定采用协方差矩阵P_t+1|t+1的迹表达含星凸形状参数在内的扩展目标综合状态的不确定性，以此设置奖励函数为

其中，ν_t+1,0为传感器选择的动作为在原地停留。

根据奖励函数得到奖励值R_t后，执行输出的动作，得到下一时刻t+1的传感器位置(状态)为x_s,t+1，至此为一幕结束，将得到的状态、动作等数据整合为资源组{x_s,t+1(ν),x_s,t,R_t,x_s,t+1}，储存到回放缓存区H，对该幕进行循环，设置循环次数为T，循环结束后从H，对该幕进行循环，设置循环次数为T，循环结束后从H中随机抽样n个资源组计算出损失函数

其中，y_j为Critic Target网络的价值函数

价值参数的计算公式如下

其中，η为步长参数。

当数据量达到一定程度时，需要利用神经网络对上式进行逼近，使用损失函数L通过神经网络的梯度反向传播来更新Critic网络的价值参数θ^Q，将Critic网络计算出的价值函数代入Actor网络的策略梯度更新公式中，得

计算该策略梯度过后，策略参数的更新公式为

当数据量达到一定程度时，在上式基础上加入神经网络逼近策略函数，提高策略更新效率，更新过程为利用策略梯度通过神经网络的梯度反向传播来更新Actor网络的策略参数θ^μ。设置Target网络参数更新频率为C，当Actor网络与Critic网络参数的更新次数达到C时，则更新Actor Target网络与Critic Target网络中的参数

θ^μ′←τθ^μ+(1-τ)θ^μ′ (26)

θ^Q′←τθ^Q+(1-τ)θ^Q′ (27)

其中，τ为更新系数，为了使递归数据相关性降低，一般将更新系数设定为较小的值。

传统传感器管理方法大都需要建立环境模型，好模型可以提高估计性能，而坏的模型将导致分配结果变差甚至发散。因此，需要找到一个最优的实时分配方案，降低传感器管理对模型的依赖程度，并提高传感器应对环境变化的能力。强化学习中的迭代算法可给上述问题提供解决方案，虽然基于强化学习的传感器调度算法有很多，但是用于扩展目标跟踪的效果提升的算法仍然不多，因此，本发明实施例提出了基于DDPG算法的传感器调度方法，对扩展目标跟踪过程进行传感器路径规划。本发明实施例采用随机超曲面模型对目标轮廓进行估计，而随机超曲面模型可以对任意星凸形扩展目标进行建模，并且在目标真实形状与模型形状有显著不同的情况下也能够得到良好的估计效果，因此对解决目标的识别、检测以及跟踪问题都有巨大的实际价值。在此基础上加入基于强化学习的传感器管理，可使目标质心运动状态与形状的估计效果得到提升。

本发明是基于深度强化学习体系下利用DDPG对扩展目标跟踪进行传感器智能控制的算法，将未来五个时间步为一幕进行循环，用于预测下一个时间步的最优位置，其中奖励函数的设置为最重要的部分，由于目标跟踪协方差的迹可以用来衡量目标跟踪估计质心与形状的精度，本发明将使用迹来作为奖励函数，而对于其他的强化学习算法来说，例如PG，PPO，DPPO等，都可以使用该条件作为奖励函数。

仿真分析：

构造传感器控制的仿真实验，分析对比本发明实施例所提智能优化决策算法相较于其他算法在传感器路径最优决策控制上的显著效果。仿真场景设定扩展目标的采样周期为T_s＝1s，采样M＝20个时刻，扩展目标的形状参数的阶数为n_f＝11，过程噪声标准差σ_w＝0.03，量测噪声是协方差矩阵为R＝diag(0.2²,0.2²)的高斯白噪声。扩展目标在每个采样周期内产生的量测数服从均值λ＝40的泊松分布。设置扩展目标形状为十字架形，初始目标状态参数包括x,y轴方向上的位置、速度与形状参数，定义扩展目标初始形状是半径为1.5m的圆，尺度因子服从均值为0.5、方差为0.02的高斯分布，每幕循环次数为T＝100，Target网络更新频率为C＝10，抽取资源组数量为n＝30，更新系数为τ＝0.001，为方差是0.1的高斯白噪声。初始目标参数和状态协方差分别为：

x₀＝[1.5,0,…,0,10,10,10,5]^T (28)

P₀＝diag{[0.02,…,0.02,0.3,0.3,0.3,0.3]^T} (29)

根据公式(1)，设置t+1时刻每个扩展目标的状态演化模型为

其中：状态转移矩阵过程噪声协方差/> 为阶数是n_f的单位矩阵，F_t ^cv与/>分别为

在上述仿真场景下，利用星凸形扩展目标最优非线性滤波跟踪算法对扩展目标进行跟踪。本发明实施例选取三种传感器控制策略进行对比。方案一是经典的基于信息论准则的传感器控制方法，该方法利用公式(20)作为评价函数，设置上、下、左、右、左上、左下、右上、右下与原地静止9个方向，在进行每一时刻决策前，使传感器遍历所有动作，根据评价函数得出最优的移动位置。方案二设计为基于强化学习的策略梯度(Policy Gradient,PG)算法进行传感器控制的智能决策。设置步长α_l为10m，设置移动方向与方案一相同。方案三是本发明实施例所提方法，即在连续空间上基于深度强化学习进行传感器控制的最优决策，具体根据神经网络计算得出传感器每一步的最优动作ν，使用公式(13)计算出传感器最优位置。

图4为三种方案的星凸形扩展目标跟踪传感器路径规划对比图，由于都采用了传感器控制的跟踪优化策略，所以三种方案下都呈现出非常优异的星凸形扩展目标跟踪效果。

进一步通过对图4的估计特征效果图的放大，如图5中图5((a)、图5((b)、图5(c)、图5(d)所示，给出了图4中第18、19、20步的目标估计效果放大图，从放大图中可以清晰看出，本发明实施例所采用的连续空间上的深度强化学习的智能决策策略(方案三)还是体现了对于扩展目标跟踪相对更好的优化作用，即方案三对应了更为优越的星凸形扩展目标跟踪性能，这表现在对应更好的运动参数(目标质心)估计和形状轮廓细节的估计。方案一对应的估计效果最差，因为方案一使用的是离散空间中的传感器控制方法，其所决策的自由度空间有限，这导致对扩展目标多特征估计信息的优化空间有限。方案二中，由于PG算法需要在一个回合结束之后再更新参数，会使得学习的过程十分漫长，确定学习步长较为困难，设定太大时，策略可能不收敛，设定太小时策略收敛会变慢，基于PG算法规划出的路径容易出现不稳定的情况，此为该算法的一个缺点。将PG算法调整到能够收敛的状态后，可对应可观的扩展目标跟踪优化性能，但其决策空间仍旧限定在离散空间上。方案三对星凸形扩展目标的形状估计更为精确，这主要是因为DDPG算法能够非常有效的在连续决策空间上使用，显著增加了传感器控制的辨识度和精确度，从而全面提高了星凸形扩展目标跟踪的性能。

本发明实施例对三种传感器控制算法应用前后的跟踪协方差迹收敛情况也进行了对比，如图6所示，根据对比可得，基于方案一、二的目标跟踪协方差的迹大于基于方案三的目标跟踪协方差的迹，根据本发明实施例的扩展目标建模方法，运动参数和形状特征参数的估计效果联合表征在扩展目标跟踪估计的协方差的迹中，协方差迹收敛速度快的一方即为扩展目标综合跟踪性能更好的一方，所以方案三相较于其他方案具有在星凸形扩展目标跟踪上更好的优化效果，基于深度强化学习的传感器效果最优，本发明实施例算法的优越性得以充分证明。

此外，图7为经过每幕循环100次后所得的每一时刻的最优估计质心与真实质心的误差对比，该质心误差的计算方式为计算每一时刻的所有最优估计质心与真实质心之间的欧式距离，再进行求期望值的计算，将每一步的计算数据进行存储，用于最后进行对比。计算公式为

其中：l_t为t时刻的目标估计质心误差，n′为扩展目标在每个采样周期内产生的量测数，x′_t,n′、y′_t,n′为t时刻传感器经过最优路径规划后的第n′个估计质心，x_t,n′、y_t,n′为扩展目标真实质心。

从图7可以看出，三种传感器控制方案都在一定程度上优化了扩展目标的跟踪定位性能。其中，基于强化学习智能决策(PG方法)的传感器控制的质心估计误差优于基于信息论的传感器控制的跟踪优化效果。进一步的，在位置自由度连续空间经过强化学习DDPG算法进行智能决策之后，扩展目标定位跟踪性能再次得到了提升，基于深度强化学习的传感器控制算法的优越性得以充分证明。

为了将强化学习算法的学习效率数据直观化，本发明实施例提取出了在方案二与方案三的仿真实验中的其中一幕的奖励值变化情况绘制成图8，即PG算法中一幕的奖励值变化情况，由图可知方案二中的奖励值随着时间步长逐渐变大，表示PG算法与环境交互的次数越多，能够做出最优决策的次数也越多，当交互的次数足够多时，就能够得到最大的奖励值与最优的路径规划。但可以看到，取得有效的奖励值交互学习的过程还是经过了一定的历程，学习效率有进一步提高的空间。

在方案三实验中，本发明实施例同样的对某一幕中的奖励值进行了记录，图8为一幕中奖励值的变化情况。在图9所示的一幕中的奖励值的变化可以说明，所提算法的深度强化学习过程的初始阶段就非常有效，随着一幕中学习次数的增加，奖励值会逐渐趋于稳定，并且将从最开始的低奖励值通过更加高效的交互学习，最终得到最优的传感器移动位置，从而达到一个明显优于传统强化学习算法且更加平稳的高奖励值，由此可证实方案三在该实验环境下能够非常高效的使用，所得的传感器最优移动位置也更值得信赖。

实施例2：

本发明实施例还提供一种基于DDPG的扩展目标跟踪优化装置，包括：

获取模块，用于获取雷达的扩展目标量测信息，其中，所述扩展目标量测信息包括：扩展目标的位置、速度、加速度信息；

作为本发明实施例的一种实施方式，计算模块包括：

作为本发明实施例的一种实施方式，所述第二计算单元，用于根据扩展目标估计位置和协方差、以及传感器下一时刻的动作，基于UKF滤波器和RHM伪量测方程得到下一时刻扩展目标协方差。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于DDPG的扩展目标跟踪优化方法，其特征在于，包括以下步骤：

获取雷达的扩展目标量测信息；

根据量测信息对扩展目标进行星凸形随机超曲面建模以及设置当前时刻选择传感器动作的策略；

根据建立的星凸形随机超曲面模型和所述策略，得到下一时刻扩展目标协方差；

基于更新结果，通过DDPG算法得到雷达传感器最优移动路径；

其中，根据建立的星凸形随机超曲面模型和所述策略，得到下一时刻扩展目标协方差包括：

根据建立的星凸形随机超曲面模型，通过DDPG算法得到扩展目标估计位置和协方差；

2.如权利要求1所述的基于DDPG的扩展目标跟踪优化方法，其特征在于，根据扩展目标估计位置和协方差、以及传感器下一时刻的动作，基于UKF滤波器和RHM伪量测方程得到下一时刻扩展目标协方差。

3.如权利要求2所述的基于DDPG的扩展目标跟踪优化方法，其特征在于，使用DDPG算法得到^t+1时刻的雷达传感器移动位置估计值与扩展目标信息估计值，判断传感器移动后的估计效果是否优于传感器移动之前的，将判断后得到的奖励值进行更新；上述过程循环预定次数之后，通过DDPG算法得到最优的传感器移动路径，雷达根据该最优路径进行移动，使得每一时刻的扩展目标跟踪效果为最优；其中，所述扩展目标跟踪效果包含：估计轮廓的精度和估计位置的精度。

4.如权利要求3所述的基于DDPG的扩展目标跟踪优化方法，其特征在于，所述扩展目标量测信息包括：扩展目标的位置、速度、加速度信息。

5.一种基于DDPG的扩展目标跟踪优化装置，其特征在于，包括：

获取模块，用于获取雷达的扩展目标量测信息；

处理模块，用于根据量测信息对扩展目标进行星凸形随机超曲面建模以及设置当前时刻选择传感器动作的策略；

计算模块，用于根据建立的星凸形随机超曲面模型和所述策略，得到下一时刻扩展目标协方差；

优化模块，用于基于更新结果，通过DDPG算法得到雷达传感器最优移动路径；

计算模块包括：

第一计算单元，用于根据建立的星凸形随机超曲面模型，通过DDPG算法得到扩展目标估计位置和协方差；

6.如权利要求5所述的基于DDPG的扩展目标跟踪优化装置，其特征在于，所述第二计算单元，用于根据扩展目标估计位置和协方差、以及传感器下一时刻的动作，基于UKF滤波器和RHM伪量测方程得到下一时刻扩展目标协方差。

7.如权利要求6所述的基于DDPG的扩展目标跟踪优化装置，其特征在于，所述扩展目标量测信息包括：扩展目标的位置、速度、加速度信息。