CN111862165A

CN111862165A - 一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法

Info

Publication number: CN111862165A
Application number: CN202010554226.1A
Authority: CN
Inventors: 梁腾; 王天誉; 张�杰; 李骏
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-30
Anticipated expiration: 2040-06-17
Also published as: CN111862165B

Abstract

本发明涉及一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法。该方法包括以下步骤：利用传感器进行数据采集，获得原始追踪场景数据；对原始追踪场景数据进行分类，获得不同目标追踪场景下的数据；针对不同目标追踪场景下的数据，分别利用深度强化学习的方法进行多次训练直到收敛，获得最优策略，最优策略是一个神经网路，输入为卡尔曼滤波器的预测值与传感器的测量值，输出的动作为卡尔曼滤波器的更新方法；将最优策略进行线下部署，应用到实际的追踪场景进行目标追踪。本发明适用于实际传感器网络中的目标追踪，有效提高了追踪的精度。

Description

一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法

技术领域

本发明属于无线传感器网络中的目标追踪技术领域，特别是一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法。

背景技术

无线传感器网络(wireless sensor networks，简称WSNs)是由部署在检测区域内的大量微型传感器节点组成的自组织网络，目的是智能监测与感知环境中各种参数的信息，并将数据发送至上层进行分析处理。目前WSNs已经具备了广泛的应用范围，包括移动目标的导航和控制、环境监测、机器状态监测和维护、灾难恢复和医疗保健等，而目标追踪是传感器网络的一个极其重要应用[Yu G,Ren F,Ji Y,et al.The Evolution of SinkMobility Management in Wireless Sensor Networks:A Survey[J].IEEECommunications Surveys&Tutorials,2017,18(1):507-524.]。

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合的一种方法[刘全,翟建伟,章宗长,et al.深度强化学习综述[J].计算机学报,v.41；No.421(1):3-29.]，具有很强的通用性，在每个时刻智能体与环境交互得到一个高维度的观察，并利用深度强化学习的方法来感知环境，以得到具体的状态特征。同时，该方法能够基于预期回报来评价各动作的价值程度，并通过某种策略将当前状态映射为相应的动作，环境对此动作做出反应，并得到下一个时刻的观察.通过不断循环以上过程，最终可以得到实现目标的最优策略。通过进行大量的数据集训练，我们可以得到一个有着丰富经验的最优策略π[赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,045(007):1-6.]。

卡尔曼滤波器算法是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法[G.Welch,“An introduction to the kalman filter,”SIGGRAPH 2001Tutorial,2001.]，卡尔曼滤波器算法在目标跟踪领域应用广泛，卡尔曼滤波在测量方差已知的情况下能够从一系列存在测量噪声的数据中，估计动态系统的状态，能够有效去除噪声还原真实数据。但是传统的卡尔曼滤波器也存在着一些无法解决的问题[Welch G,Bishop G.An introduction to the Kalman filter[J].1995.]，尤其是在面对探测信息丢失、目标方向发生急转等场景下，该算法会输出误差较大的信息，影响追踪精度。在目标追踪场景下，该方法需要进行改进，以面对复杂场景下的对目标追踪精度的需求。

发明内容

本发明的目的在于提供一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法，从而提高复杂场景下的目标追踪精度。

实现本发明目的的技术解决方案为：一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法，包括以下步骤：

步骤1、利用传感器进行数据采集，获得原始追踪场景数据；

步骤2、对原始追踪场景数据进行分类，获得不同目标追踪场景下的数据；

步骤3、针对不同目标追踪场景下的数据，分别利用深度强化学习的方法进行多次训练直到收敛，获得最优策略π；

步骤4、将最优策略π进行线下部署，应用到实际的追踪场景进行目标追踪。

进一步地，步骤1所述利用传感器进行数据采集，获得原始追踪场景数据，具体如下：

利用传感器收集目标追踪场景下的现实数据，并且对所收集的数据进行处理，清洗无效的数据。

进一步地，步骤2中所述获得不同目标追踪场景下的数据，包括探测信息丢失、急转弯、急加速、匀速运动。

进一步地，步骤3所述针对不同目标追踪场景下的数据，分别利用深度强化学习的方法进行多次训练直到收敛，获得最优策略π，具体为：

利用深度强化学习Actor-Critic算法，对步骤2所分类的不同目标追踪场景下的数据，经过多次训练直到算法收敛，得到一个最优策略π；

策略π是一个神经网路，输入为卡尔曼滤波器的预测值与传感器的测量值，输出的动作为卡尔曼滤波器的更新方法；卡尔曼滤波器根据这个最优策略选择更新方法。

进一步地，针对匀速运动目标追踪场景下的数据，利用深度强化学习的方法进行多次训练直到收敛，具体为：

(1)卡尔曼滤波器模型

目标的运动模型建模为：

X(t+1)＝AX(t)+ω(t)

其中X(t)是目标的状态，X(t)＝{x(t),y(t),v_x(t),v_y(t)}，(x(t),y(t))代表目标在不同方向上的位置，(v_x(t),v_y(t))代表目标在不同方向上速度；A是一个状态转移矩阵；ω(t)表示在t时刻目标的高斯白噪声，协方差矩阵为Q；

根据卡尔曼滤波得到以下更新过程：

其中

是t时刻目标状态的预测值；

是t-1时刻的状态估计值；P′(t)＝AP(t-1)A^T+Q，P′(t)是t时刻的预测值与真实值之间的协方差矩阵，P(t-1)是t-1时刻估计值与真实值之间的协方差矩阵

建立目标的观测模型：

Z(t)＝HX(t)+v(t)

其中Z(t)是t时刻传感器的测量值；H是测量过程矩阵；v表示t时刻传感器的测量噪声，协方差矩阵为R；

计算出t时刻的卡尔曼增益K(t)＝P′(t)H^T(HP′(t)H^T+R)^-1，同时更新t时刻的目标状态的估计值为

更新得到估计值与真实值之间的协方差矩阵P(t)＝(I-K(t)H)P′(t)；

(2)Actor-Critic算法

利用深度强化学习Actor-Critic算法，对匀速运动目标追踪场景下的数据进行训练，Actor-Critic算法使用了两个神经网络：一个是Actor神经网络，用参数θ表示，用来选择动作；另一个是Critic神经网络，用参数ω表示，用来估计当前状态S的值函数V(S)；两个网络在训练过程中不断的完善，最后输出Actor神经网络作为最优策略π；

将Actor和Critic的神经网络设置成同样的结构，分别拥有一个输入层，一个输出层，两个隐藏层，隐藏层分别拥有128与256个节点，输入输出层的节点个数由Actor和Critic的具体要求来确定；

输入当前状态S(t)，定义

即以t时刻的预测值和测量值为当前状态；同时定义Actor神经网络的输出为卡尔曼滤波器的更新方法，总共定义4种动作，分别是：

a₁：开始追踪；

a₂：停止追踪；

a₃：利用Z(t)更新卡尔曼滤波器；

a₄：使用

更新滤波器；

Actor-Critic算法的目的是使得时间平均回报

最大；

算法输入状态S(t)后，根据Actor神经网络输出当前动作a(t)，当前动作与环境交互，即选择卡尔曼滤波器的更新方法，获得即时奖励

并且转移到下一个状态S(t+1)，其中

为估计值与真实值的距离；

通过Critic神经网络计算出时间差分误差δ(t)：

δ(t)＝R(t)+γV(S(t+1))-V(S(t))

利用δ(t)更新Actor和Critic两个神经网络的参数：

在训练过程中，选择学习率β_θ＝0.001、β_ω＝0.01，折扣因子γ＝0.9；

更新完Actor与Critic神经网络之后，通过传感器测量的数据判断本次训练过程是否结束，如果结束了则训练过程结束，输出最优策略π，否则开始下一次训练。

本发明与现有技术相比，其显著优点为：(1)收集了大量目标追踪场景下的现实数据并进行了处理与归类，对强化学习算法的训练较为真实，且针对性较高，训练出的神经网络架构可以应用到现实场景；(2)对所应用的深度强化学习算法Actor-Critic算法经过大量的训练直到收敛，能够得到一个最优策略π；(3)训练出最优策略所利用的数据集是在真实目标追踪场景下获取的，实用性较强，所以该策略可以直接部署到真实场景下的目标追踪场景；(4)通过部署最优策略π之后，在真实的目标追踪场景下，卡尔曼滤波器根据该策略选择更新方法，可以有效的提高目标追踪的精度。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明基于深度强化学习更新卡尔曼滤波器的目标追踪方法的系统框图。

图2是利用Actor-Critic算法进行策略训练的过程流程图。

图3是在探测数据没有丢失的情况下使用卡尔曼滤波器来预测目标位置的坐标图，其中(a)是目标的运动轨迹坐标图，(b)是传感器测量的信息示意图，(c)是传统卡尔曼滤波器的预测信息示意图。

图4是探测数据有大量丢失的情况下通过部署已经训练好的策略π来进行卡尔曼滤波器的更新方法的选择所得出的目标位置的坐标图，其中(a)是有数据丢失的传感器测量信息示意图，(b)是传统卡尔曼滤波器的预测信息示意图，(c)是部署已经训练好的策略π的卡尔曼滤波器的预测信息示意图。

具体实施方式

本发明提出一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法，通过预测信息与传感器测量信息之间的关系来确定卡尔曼滤波器的更新方法，从而减少计算与测量误差，结合图1，具体包括以下步骤：

步骤1、利用传感器进行数据采集，获得原始追踪场景数据；

(1)卡尔曼滤波器模型

目标的运动模型建模为：

X(t+1)＝AX(t)+ω(t)

根据卡尔曼滤波得到以下更新过程：

其中

是t时刻目标状态的预测值；

建立目标的观测模型：

Z(t)＝HX(t)+v(t)

(2)Actor-Critic算法

结合图2，利用深度强化学习Actor-Critic算法，对匀速运动目标追踪场景下的数据进行训练，Actor-Critic算法使用了两个神经网络：一个是Actor神经网络，用参数θ表示，用来选择动作；另一个是Critic神经网络，用参数ω表示，用来估计当前状态S的值函数V(S)；两个网络在训练过程中不断的完善，最后输出Actor神经网络作为最优策略π；

输入当前状态S(t)，定义

a₁：开始追踪；

a₂：停止追踪；

a₃：利用Z(t)更新卡尔曼滤波器；

a₄：使用

更新滤波器；

Actor-Critic算法的目的是使得时间平均回报

最大；

并且转移到下一个状态S(t+1)，其中

为估计值与真实值的距离；

通过Critic神经网络计算出时间差分误差δ(t)：

δ(t)＝R(t)+γV(S(t+1))-V(S(t))

利用δ(t)更新Actor和Critic两个神经网络的参数：

下面结合附图及具体实施例对本发明做进一步详细说明。

实施例

本实施例一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法，包括以下步骤：

步骤1、利用传感器(如雷达、激光传感器等)进行数据采集，同时进行数据处理，获得大量原始数据；步骤2、挑选不同的数据进行分类，获得不同追踪场景下的数据；步骤3、基于已经获得的数据利用深度强化学习的方法进行多次训练直到收敛，获得最优策略π。其中所采用的深度强化学习算法为Actor-Critic算法，策略π是一个神经网路，其输入为卡尔曼滤波器的预测值与传感器的测量值，输出的动作为卡尔曼滤波器的更新方法；步骤4、将经过训练得到的最优策略π进行线下部署，应用到实际的追踪场景下，有效提高追踪精度。

下面进行具体描述：

1、数据收集与处理阶段：

在数据收集阶段，本发明主要使用德国大陆电子的ARS408毫米波雷达来进行数据收集，该雷达是一种77GHz长距离双波束毫米波雷达，广泛应用于目标探测，大型车辆避撞，高级驾驶辅助系统。图3(a)是我们所探测的目标信息中的一个简单场景，在该场景下，目标匀速运动，且v_x＝v_y＝1m/s，目标在传感器的探测区域内总运动了100s。在图3(b)所示的是传感器的探测信息，其中传感器的探测间隔(采样间隔)是τ＝1s。图3(c)时利用传统的卡尔曼滤波器更新方法来进行预测所得到的目标位置，可以看到，在探测信息没有丢失的情况下，预测位置与真实位置十分接近。

2、场景分类

根据所收集并处理好的数据，进行目标追踪场景的分类，本发明将场景分为探测信息丢失、急转弯、急加速、匀速运动。对符合特定场景的数据分别进行归类，以便于后期对卡尔曼滤波器更新策略π进行针对性的训练。

3、训练阶段

(1)卡尔曼滤波器模型

我们以图1中的匀速运动场景为例子，目标的运动模型建模成X(t+1)＝AX(t)+ω(t)，其中：X(t)是目标的状态，X(t)＝{x(t),y(t),v_x(t),v_y(t)}，(x(t),y(t))代表目标在不同方向上的位置，(v_x(t),v_y(t))代表目标在不同方向上速度；A是一个状态转移矩阵；ω(t)表示在t时刻目标的高斯白噪声，协方差矩阵为Q。我们可以根据卡尔曼滤波的得到以下相关更新过程：

其中：

是t时刻目标状态的预测值；

是t-1时刻的状态估计值；P′(t)＝AP(t-1)A^T+Q，P′(t)是t时刻的预测值与真实值之间的协方差矩阵，P(t-1)是t-1时刻估计值与真实值之间的协方差矩阵。同时，我们目标的观测模型建模成Z(t)＝HX(t)+v(t)，其中：Z(t)是t时刻传感器的测量值；H是测量过程矩阵；v表示t时刻传感器的测量噪声，协方差矩阵为R。此时可以计算出t时刻的卡尔曼增益K(t)＝P′(t)H^T(HP′(t)H^T+R)^-1，同时可以更新t时刻的目标状态的估计值为：

同时可以更新得到估计值与真实值之间的协方差矩阵P(t)＝(I-K(t)H)P′(t)。

(2)Actor-Critic算法

Actor-Critic算法框架起源于策略梯度算法，被广泛应用于实际强化学习算法中，该框架集成了值函数估计算法和策略搜索算法，是解决实际问题时最常应用的框架。图2所示的是整个算法应用在目标追踪领域的算法流程图。我们在Actor-Critic算法的实施过程中使用了两个神经网络：一个是Actor神经网络，用参数θ表示，用来选择动作；另一个是Critic神经网络，用参数ω表示，用来估计当前状态S的值函数V(S)。两个网络在训练过程中不断的完善，最后输出Actor神经网络作为最优策略π。我们将Actor和Critic的网络都设置成同样的结构，分别拥有一个输入层，一个输出层，两个隐藏层，隐藏层分别拥有128与256个节点，输入输出层的节点个数由Actor和Critic的具体要求来确定。

我们首先输入当前状态S(t)，定义

即我们以t时刻的预测值和测量值为当前状态。同时我们定义Actor神经网络的输出为卡尔曼滤波器的更新方法，我们总共定义4种动作，分别是：a₁：开始追踪；a₂：停止追踪；a₃：利用Z(t)更新卡尔曼滤波器；a₄：使用

更新滤波器。Actor-Critic算法的目的就是使得时间平均回报

最大。

算法输入状态S(t)后，根据Actor神经网络输出当前动作a(t)，当前动作与环境交互(即选择卡尔曼滤波器的更新方法)，获得即时奖励

并且转移到下一个状态S(t+1)，其中

为估计值与真实值的距离。然后我们可以通过Critic神经网络计算出δ(t)(TD-error，时间差分误差)：δ(t)＝R(t)+γV(S(t+1))-V(S(t))，并且利用δ(t)来更新Actor和Critic两个网络的参数

在训练过程中，我们选择学习率β_θ＝0.001、β_ω＝0.01，折扣因子γ＝0.9。

更新完Actor与Critic网络之后，算法会通过传感器测量的数据判断本次训练过程是否结束，如果结束了则训练过程结束，输出最优策略π，否则开始下一次训练。在其他场景的训练过程中，卡尔曼滤波器的设置、Actor-Critic算法的更新和上述过程一致，这里就不再赘述。

4、部署阶段

通过大量的目标场景下的数据训练，我们获得最优策略π，将此策略部署到实际的目标追踪场景下，检验目标追踪的精度。图4(a)是在实际场景下，由于传感器停止工作或者其他原因，造成的大量的探测信息丢失；图4(b)是传统的卡尔曼滤波器预测的位置信息，可以发现由于缺少探测数据，卡尔曼滤波器预测的信息大多丢失或者出现错误；图4(c)是部署了最优策略π的卡尔曼滤波器的预测信息，可以发现虽然测量数量丢失，但是该方法依然能够有效的预测目标的位置信息，提高了目标跟踪的精度，在实际传感器网络中的目标追踪领域有着很大的应用前景。