CN111862165A - 一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法 - Google Patents

一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法 Download PDF

Info

Publication number
CN111862165A
CN111862165A CN202010554226.1A CN202010554226A CN111862165A CN 111862165 A CN111862165 A CN 111862165A CN 202010554226 A CN202010554226 A CN 202010554226A CN 111862165 A CN111862165 A CN 111862165A
Authority
CN
China
Prior art keywords
tracking
target
kalman filter
data
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010554226.1A
Other languages
English (en)
Other versions
CN111862165B (zh
Inventor
梁腾
王天誉
张�杰
李骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010554226.1A priority Critical patent/CN111862165B/zh
Publication of CN111862165A publication Critical patent/CN111862165A/zh
Application granted granted Critical
Publication of CN111862165B publication Critical patent/CN111862165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Abstract

本发明涉及一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法。该方法包括以下步骤:利用传感器进行数据采集,获得原始追踪场景数据;对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略,最优策略是一个神经网路,输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;将最优策略进行线下部署,应用到实际的追踪场景进行目标追踪。本发明适用于实际传感器网络中的目标追踪,有效提高了追踪的精度。

Description

一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法
技术领域
本发明属于无线传感器网络中的目标追踪技术领域,特别是一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法。
背景技术
无线传感器网络(wireless sensor networks,简称WSNs)是由部署在检测区域内的大量微型传感器节点组成的自组织网络,目的是智能监测与感知环境中各种参数的信息,并将数据发送至上层进行分析处理。目前WSNs已经具备了广泛的应用范围,包括移动目标的导航和控制、环境监测、机器状态监测和维护、灾难恢复和医疗保健等,而目标追踪是传感器网络的一个极其重要应用[Yu G,Ren F,Ji Y,et al.The Evolution of SinkMobility Management in Wireless Sensor Networks:A Survey[J].IEEECommunications Surveys&Tutorials,2017,18(1):507-524.]。
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合的一种方法[刘全,翟建伟,章宗长,et al.深度强化学习综述[J].计算机学报,v.41;No.421(1):3-29.],具有很强的通用性,在每个时刻智能体与环境交互得到一个高维度的观察,并利用深度强化学习的方法来感知环境,以得到具体的状态特征。同时,该方法能够基于预期回报来评价各动作的价值程度,并通过某种策略将当前状态映射为相应的动作,环境对此动作做出反应,并得到下一个时刻的观察.通过不断循环以上过程,最终可以得到实现目标的最优策略。通过进行大量的数据集训练,我们可以得到一个有着丰富经验的最优策略π[赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,045(007):1-6.]。
卡尔曼滤波器算法是一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法[G.Welch,“An introduction to the kalman filter,”SIGGRAPH 2001Tutorial,2001.],卡尔曼滤波器算法在目标跟踪领域应用广泛,卡尔曼滤波在测量方差已知的情况下能够从一系列存在测量噪声的数据中,估计动态系统的状态,能够有效去除噪声还原真实数据。但是传统的卡尔曼滤波器也存在着一些无法解决的问题[Welch G,Bishop G.An introduction to the Kalman filter[J].1995.],尤其是在面对探测信息丢失、目标方向发生急转等场景下,该算法会输出误差较大的信息,影响追踪精度。在目标追踪场景下,该方法需要进行改进,以面对复杂场景下的对目标追踪精度的需求。
发明内容
本发明的目的在于提供一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,从而提高复杂场景下的目标追踪精度。
实现本发明目的的技术解决方案为:一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,包括以下步骤:
步骤1、利用传感器进行数据采集,获得原始追踪场景数据;
步骤2、对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;
步骤3、针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π;
步骤4、将最优策略π进行线下部署,应用到实际的追踪场景进行目标追踪。
进一步地,步骤1所述利用传感器进行数据采集,获得原始追踪场景数据,具体如下:
利用传感器收集目标追踪场景下的现实数据,并且对所收集的数据进行处理,清洗无效的数据。
进一步地,步骤2中所述获得不同目标追踪场景下的数据,包括探测信息丢失、急转弯、急加速、匀速运动。
进一步地,步骤3所述针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π,具体为:
利用深度强化学习Actor-Critic算法,对步骤2所分类的不同目标追踪场景下的数据,经过多次训练直到算法收敛,得到一个最优策略π;
策略π是一个神经网路,输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;卡尔曼滤波器根据这个最优策略选择更新方法。
进一步地,针对匀速运动目标追踪场景下的数据,利用深度强化学习的方法进行多次训练直到收敛,具体为:
(1)卡尔曼滤波器模型
目标的运动模型建模为:
X(t+1)=AX(t)+ω(t)
其中X(t)是目标的状态,X(t)={x(t),y(t),vx(t),vy(t)},(x(t),y(t))代表目标在不同方向上的位置,(vx(t),vy(t))代表目标在不同方向上速度;A是一个状态转移矩阵;ω(t)表示在t时刻目标的高斯白噪声,协方差矩阵为Q;
根据卡尔曼滤波得到以下更新过程:
Figure BDA0002543709890000031
其中
Figure BDA0002543709890000032
是t时刻目标状态的预测值;
Figure BDA0002543709890000033
是t-1时刻的状态估计值;P′(t)=AP(t-1)AT+Q,P′(t)是t时刻的预测值与真实值之间的协方差矩阵,P(t-1)是t-1时刻估计值与真实值之间的协方差矩阵
建立目标的观测模型:
Z(t)=HX(t)+v(t)
其中Z(t)是t时刻传感器的测量值;H是测量过程矩阵;v表示t时刻传感器的测量噪声,协方差矩阵为R;
计算出t时刻的卡尔曼增益K(t)=P′(t)HT(HP′(t)HT+R)-1,同时更新t时刻的目标状态的估计值为
Figure BDA0002543709890000034
更新得到估计值与真实值之间的协方差矩阵P(t)=(I-K(t)H)P′(t);
(2)Actor-Critic算法
利用深度强化学习Actor-Critic算法,对匀速运动目标追踪场景下的数据进行训练,Actor-Critic算法使用了两个神经网络:一个是Actor神经网络,用参数θ表示,用来选择动作;另一个是Critic神经网络,用参数ω表示,用来估计当前状态S的值函数V(S);两个网络在训练过程中不断的完善,最后输出Actor神经网络作为最优策略π;
将Actor和Critic的神经网络设置成同样的结构,分别拥有一个输入层,一个输出层,两个隐藏层,隐藏层分别拥有128与256个节点,输入输出层的节点个数由Actor和Critic的具体要求来确定;
输入当前状态S(t),定义
Figure BDA0002543709890000035
即以t时刻的预测值和测量值为当前状态;同时定义Actor神经网络的输出为卡尔曼滤波器的更新方法,总共定义4种动作,分别是:
a1:开始追踪;
a2:停止追踪;
a3:利用Z(t)更新卡尔曼滤波器;
a4:使用
Figure BDA0002543709890000041
更新滤波器;
Actor-Critic算法的目的是使得时间平均回报
Figure BDA0002543709890000042
最大;
算法输入状态S(t)后,根据Actor神经网络输出当前动作a(t),当前动作与环境交互,即选择卡尔曼滤波器的更新方法,获得即时奖励
Figure BDA0002543709890000043
并且转移到下一个状态S(t+1),其中
Figure BDA0002543709890000044
为估计值与真实值的距离;
通过Critic神经网络计算出时间差分误差δ(t):
δ(t)=R(t)+γV(S(t+1))-V(S(t))
利用δ(t)更新Actor和Critic两个神经网络的参数:
Figure BDA0002543709890000045
Figure BDA0002543709890000046
在训练过程中,选择学习率βθ=0.001、βω=0.01,折扣因子γ=0.9;
更新完Actor与Critic神经网络之后,通过传感器测量的数据判断本次训练过程是否结束,如果结束了则训练过程结束,输出最优策略π,否则开始下一次训练。
本发明与现有技术相比,其显著优点为:(1)收集了大量目标追踪场景下的现实数据并进行了处理与归类,对强化学习算法的训练较为真实,且针对性较高,训练出的神经网络架构可以应用到现实场景;(2)对所应用的深度强化学习算法Actor-Critic算法经过大量的训练直到收敛,能够得到一个最优策略π;(3)训练出最优策略所利用的数据集是在真实目标追踪场景下获取的,实用性较强,所以该策略可以直接部署到真实场景下的目标追踪场景;(4)通过部署最优策略π之后,在真实的目标追踪场景下,卡尔曼滤波器根据该策略选择更新方法,可以有效的提高目标追踪的精度。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明基于深度强化学习更新卡尔曼滤波器的目标追踪方法的系统框图。
图2是利用Actor-Critic算法进行策略训练的过程流程图。
图3是在探测数据没有丢失的情况下使用卡尔曼滤波器来预测目标位置的坐标图,其中(a)是目标的运动轨迹坐标图,(b)是传感器测量的信息示意图,(c)是传统卡尔曼滤波器的预测信息示意图。
图4是探测数据有大量丢失的情况下通过部署已经训练好的策略π来进行卡尔曼滤波器的更新方法的选择所得出的目标位置的坐标图,其中(a)是有数据丢失的传感器测量信息示意图,(b)是传统卡尔曼滤波器的预测信息示意图,(c)是部署已经训练好的策略π的卡尔曼滤波器的预测信息示意图。
具体实施方式
本发明提出一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,通过预测信息与传感器测量信息之间的关系来确定卡尔曼滤波器的更新方法,从而减少计算与测量误差,结合图1,具体包括以下步骤:
步骤1、利用传感器进行数据采集,获得原始追踪场景数据;
步骤2、对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;
步骤3、针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π;
步骤4、将最优策略π进行线下部署,应用到实际的追踪场景进行目标追踪。
进一步地,步骤1所述利用传感器进行数据采集,获得原始追踪场景数据,具体如下:
利用传感器收集目标追踪场景下的现实数据,并且对所收集的数据进行处理,清洗无效的数据。
进一步地,步骤2中所述获得不同目标追踪场景下的数据,包括探测信息丢失、急转弯、急加速、匀速运动。
进一步地,步骤3所述针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π,具体为:
利用深度强化学习Actor-Critic算法,对步骤2所分类的不同目标追踪场景下的数据,经过多次训练直到算法收敛,得到一个最优策略π;
策略π是一个神经网路,输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;卡尔曼滤波器根据这个最优策略选择更新方法。
进一步地,针对匀速运动目标追踪场景下的数据,利用深度强化学习的方法进行多次训练直到收敛,具体为:
(1)卡尔曼滤波器模型
目标的运动模型建模为:
X(t+1)=AX(t)+ω(t)
其中X(t)是目标的状态,X(t)={x(t),y(t),vx(t),vy(t)},(x(t),y(t))代表目标在不同方向上的位置,(vx(t),vy(t))代表目标在不同方向上速度;A是一个状态转移矩阵;ω(t)表示在t时刻目标的高斯白噪声,协方差矩阵为Q;
根据卡尔曼滤波得到以下更新过程:
Figure BDA0002543709890000061
其中
Figure BDA0002543709890000062
是t时刻目标状态的预测值;
Figure BDA0002543709890000063
是t-1时刻的状态估计值;P′(t)=AP(t-1)AT+Q,P′(t)是t时刻的预测值与真实值之间的协方差矩阵,P(t-1)是t-1时刻估计值与真实值之间的协方差矩阵
建立目标的观测模型:
Z(t)=HX(t)+v(t)
其中Z(t)是t时刻传感器的测量值;H是测量过程矩阵;v表示t时刻传感器的测量噪声,协方差矩阵为R;
计算出t时刻的卡尔曼增益K(t)=P′(t)HT(HP′(t)HT+R)-1,同时更新t时刻的目标状态的估计值为
Figure BDA0002543709890000064
更新得到估计值与真实值之间的协方差矩阵P(t)=(I-K(t)H)P′(t);
(2)Actor-Critic算法
结合图2,利用深度强化学习Actor-Critic算法,对匀速运动目标追踪场景下的数据进行训练,Actor-Critic算法使用了两个神经网络:一个是Actor神经网络,用参数θ表示,用来选择动作;另一个是Critic神经网络,用参数ω表示,用来估计当前状态S的值函数V(S);两个网络在训练过程中不断的完善,最后输出Actor神经网络作为最优策略π;
将Actor和Critic的神经网络设置成同样的结构,分别拥有一个输入层,一个输出层,两个隐藏层,隐藏层分别拥有128与256个节点,输入输出层的节点个数由Actor和Critic的具体要求来确定;
输入当前状态S(t),定义
Figure BDA0002543709890000071
即以t时刻的预测值和测量值为当前状态;同时定义Actor神经网络的输出为卡尔曼滤波器的更新方法,总共定义4种动作,分别是:
a1:开始追踪;
a2:停止追踪;
a3:利用Z(t)更新卡尔曼滤波器;
a4:使用
Figure BDA0002543709890000072
更新滤波器;
Actor-Critic算法的目的是使得时间平均回报
Figure BDA0002543709890000073
最大;
算法输入状态S(t)后,根据Actor神经网络输出当前动作a(t),当前动作与环境交互,即选择卡尔曼滤波器的更新方法,获得即时奖励
Figure BDA0002543709890000074
并且转移到下一个状态S(t+1),其中
Figure BDA0002543709890000075
为估计值与真实值的距离;
通过Critic神经网络计算出时间差分误差δ(t):
δ(t)=R(t)+γV(S(t+1))-V(S(t))
利用δ(t)更新Actor和Critic两个神经网络的参数:
Figure BDA0002543709890000076
Figure BDA0002543709890000077
在训练过程中,选择学习率βθ=0.001、βω=0.01,折扣因子γ=0.9;
更新完Actor与Critic神经网络之后,通过传感器测量的数据判断本次训练过程是否结束,如果结束了则训练过程结束,输出最优策略π,否则开始下一次训练。
下面结合附图及具体实施例对本发明做进一步详细说明。
实施例
本实施例一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,包括以下步骤:
步骤1、利用传感器(如雷达、激光传感器等)进行数据采集,同时进行数据处理,获得大量原始数据;步骤2、挑选不同的数据进行分类,获得不同追踪场景下的数据;步骤3、基于已经获得的数据利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π。其中所采用的深度强化学习算法为Actor-Critic算法,策略π是一个神经网路,其输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;步骤4、将经过训练得到的最优策略π进行线下部署,应用到实际的追踪场景下,有效提高追踪精度。
下面进行具体描述:
1、数据收集与处理阶段:
在数据收集阶段,本发明主要使用德国大陆电子的ARS408毫米波雷达来进行数据收集,该雷达是一种77GHz长距离双波束毫米波雷达,广泛应用于目标探测,大型车辆避撞,高级驾驶辅助系统。图3(a)是我们所探测的目标信息中的一个简单场景,在该场景下,目标匀速运动,且vx=vy=1m/s,目标在传感器的探测区域内总运动了100s。在图3(b)所示的是传感器的探测信息,其中传感器的探测间隔(采样间隔)是τ=1s。图3(c)时利用传统的卡尔曼滤波器更新方法来进行预测所得到的目标位置,可以看到,在探测信息没有丢失的情况下,预测位置与真实位置十分接近。
2、场景分类
根据所收集并处理好的数据,进行目标追踪场景的分类,本发明将场景分为探测信息丢失、急转弯、急加速、匀速运动。对符合特定场景的数据分别进行归类,以便于后期对卡尔曼滤波器更新策略π进行针对性的训练。
3、训练阶段
(1)卡尔曼滤波器模型
我们以图1中的匀速运动场景为例子,目标的运动模型建模成X(t+1)=AX(t)+ω(t),其中:X(t)是目标的状态,X(t)={x(t),y(t),vx(t),vy(t)},(x(t),y(t))代表目标在不同方向上的位置,(vx(t),vy(t))代表目标在不同方向上速度;A是一个状态转移矩阵;ω(t)表示在t时刻目标的高斯白噪声,协方差矩阵为Q。我们可以根据卡尔曼滤波的得到以下相关更新过程:
Figure BDA0002543709890000081
其中:
Figure BDA0002543709890000082
是t时刻目标状态的预测值;
Figure BDA0002543709890000083
是t-1时刻的状态估计值;P′(t)=AP(t-1)AT+Q,P′(t)是t时刻的预测值与真实值之间的协方差矩阵,P(t-1)是t-1时刻估计值与真实值之间的协方差矩阵。同时,我们目标的观测模型建模成Z(t)=HX(t)+v(t),其中:Z(t)是t时刻传感器的测量值;H是测量过程矩阵;v表示t时刻传感器的测量噪声,协方差矩阵为R。此时可以计算出t时刻的卡尔曼增益K(t)=P′(t)HT(HP′(t)HT+R)-1,同时可以更新t时刻的目标状态的估计值为:
Figure BDA0002543709890000091
同时可以更新得到估计值与真实值之间的协方差矩阵P(t)=(I-K(t)H)P′(t)。
(2)Actor-Critic算法
Actor-Critic算法框架起源于策略梯度算法,被广泛应用于实际强化学习算法中,该框架集成了值函数估计算法和策略搜索算法,是解决实际问题时最常应用的框架。图2所示的是整个算法应用在目标追踪领域的算法流程图。我们在Actor-Critic算法的实施过程中使用了两个神经网络:一个是Actor神经网络,用参数θ表示,用来选择动作;另一个是Critic神经网络,用参数ω表示,用来估计当前状态S的值函数V(S)。两个网络在训练过程中不断的完善,最后输出Actor神经网络作为最优策略π。我们将Actor和Critic的网络都设置成同样的结构,分别拥有一个输入层,一个输出层,两个隐藏层,隐藏层分别拥有128与256个节点,输入输出层的节点个数由Actor和Critic的具体要求来确定。
我们首先输入当前状态S(t),定义
Figure BDA0002543709890000092
即我们以t时刻的预测值和测量值为当前状态。同时我们定义Actor神经网络的输出为卡尔曼滤波器的更新方法,我们总共定义4种动作,分别是:a1:开始追踪;a2:停止追踪;a3:利用Z(t)更新卡尔曼滤波器;a4:使用
Figure BDA0002543709890000093
更新滤波器。Actor-Critic算法的目的就是使得时间平均回报
Figure BDA0002543709890000094
最大。
算法输入状态S(t)后,根据Actor神经网络输出当前动作a(t),当前动作与环境交互(即选择卡尔曼滤波器的更新方法),获得即时奖励
Figure BDA0002543709890000095
并且转移到下一个状态S(t+1),其中
Figure BDA0002543709890000096
为估计值与真实值的距离。然后我们可以通过Critic神经网络计算出δ(t)(TD-error,时间差分误差):δ(t)=R(t)+γV(S(t+1))-V(S(t)),并且利用δ(t)来更新Actor和Critic两个网络的参数
Figure BDA0002543709890000101
Figure BDA0002543709890000102
在训练过程中,我们选择学习率βθ=0.001、βω=0.01,折扣因子γ=0.9。
更新完Actor与Critic网络之后,算法会通过传感器测量的数据判断本次训练过程是否结束,如果结束了则训练过程结束,输出最优策略π,否则开始下一次训练。在其他场景的训练过程中,卡尔曼滤波器的设置、Actor-Critic算法的更新和上述过程一致,这里就不再赘述。
4、部署阶段
通过大量的目标场景下的数据训练,我们获得最优策略π,将此策略部署到实际的目标追踪场景下,检验目标追踪的精度。图4(a)是在实际场景下,由于传感器停止工作或者其他原因,造成的大量的探测信息丢失;图4(b)是传统的卡尔曼滤波器预测的位置信息,可以发现由于缺少探测数据,卡尔曼滤波器预测的信息大多丢失或者出现错误;图4(c)是部署了最优策略π的卡尔曼滤波器的预测信息,可以发现虽然测量数量丢失,但是该方法依然能够有效的预测目标的位置信息,提高了目标跟踪的精度,在实际传感器网络中的目标追踪领域有着很大的应用前景。

Claims (5)

1.一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,包括以下步骤:
步骤1、利用传感器进行数据采集,获得原始追踪场景数据;
步骤2、对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;
步骤3、针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π;
步骤4、将最优策略π进行线下部署,应用到实际的追踪场景进行目标追踪。
2.根据权利要求1所述的基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,步骤1所述利用传感器进行数据采集,获得原始追踪场景数据,具体如下:
利用传感器收集目标追踪场景下的现实数据,并且对所收集的数据进行处理,清洗无效的数据。
3.根据权利要求1所述的基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,步骤2中所述获得不同目标追踪场景下的数据,包括探测信息丢失、急转弯、急加速、匀速运动。
4.根据权利要求1、2或3所述的基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,步骤3所述针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π,具体为:
利用深度强化学习Actor-Critic算法,对步骤2所分类的不同目标追踪场景下的数据,经过多次训练直到算法收敛,得到一个最优策略π;
策略π是一个神经网路,输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;卡尔曼滤波器根据这个最优策略选择更新方法。
5.根据权利要求4所述的基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,针对匀速运动目标追踪场景下的数据,利用深度强化学习的方法进行多次训练直到收敛,具体为:
(1)卡尔曼滤波器模型
目标的运动模型建模为:
X(t+1)=AX(t)+ω(t)
其中X(t)是目标的状态,X(t)={x(t),y(t),vx(t),vy(t)},(x(t),y(t))代表目标在不同方向上的位置,(vx(t),vy(t))代表目标在不同方向上速度;A是一个状态转移矩阵;ω(t)表示在t时刻目标的高斯白噪声,协方差矩阵为Q;
根据卡尔曼滤波得到以下更新过程:
Figure FDA0002543709880000021
其中
Figure FDA0002543709880000022
是t时刻目标状态的预测值;
Figure FDA0002543709880000023
是t-1时刻的状态估计值;P′(t)=AP(t-1)AT+Q,P′(t)是t时刻的预测值与真实值之间的协方差矩阵,P(t-1)是t-1时刻估计值与真实值之间的协方差矩阵
建立目标的观测模型:
Z(t)=HX(t)+v(t)
其中Z(t)是t时刻传感器的测量值;H是测量过程矩阵;v表示t时刻传感器的测量噪声,协方差矩阵为R;
计算出t时刻的卡尔曼增益K(t)=P′(t)HT(HP′(t)HT+R)-1,同时更新t时刻的目标状态的估计值为
Figure FDA0002543709880000024
更新得到估计值与真实值之间的协方差矩阵P(t)=(I-K(t)H)P′(t);
(2)Actor-Critic算法
利用深度强化学习Actor-Critic算法,对匀速运动目标追踪场景下的数据进行训练,Actor-Critic算法使用了两个神经网络:一个是Actor神经网络,用参数θ表示,用来选择动作;另一个是Critic神经网络,用参数ω表示,用来估计当前状态S的值函数V(S);两个网络在训练过程中不断的完善,最后输出Actor神经网络作为最优策略π;
将Actor和Critic的神经网络设置成同样的结构,分别拥有一个输入层,一个输出层,两个隐藏层,隐藏层分别拥有128与256个节点,输入输出层的节点个数由Actor和Critic的具体要求来确定;
输入当前状态S(t),定义
Figure FDA0002543709880000025
即以t时刻的预测值和测量值为当前状态;同时定义Actor神经网络的输出为卡尔曼滤波器的更新方法,总共定义4种动作,分别是:
a1:开始追踪;
a2:停止追踪;
a3:利用Z(t)更新卡尔曼滤波器;
a4:使用
Figure FDA0002543709880000031
更新滤波器;
Actor-Critic算法的目的是使得时间平均回报
Figure FDA0002543709880000032
最大;
算法输入状态S(t)后,根据Actor神经网络输出当前动作a(t),当前动作与环境交互,即选择卡尔曼滤波器的更新方法,获得即时奖励
Figure FDA0002543709880000033
并且转移到下一个状态S(t+1),其中
Figure FDA0002543709880000034
为估计值与真实值的距离;
通过Critic神经网络计算出时间差分误差δ(t):
δ(t)=R(t)+γV(S(t+1))-V(S(t))
利用δ(t)更新Actor和Critic两个神经网络的参数:
Figure FDA0002543709880000035
Figure FDA0002543709880000036
在训练过程中,选择学习率βθ=0.001、βω=0.01,折扣因子γ=0.9;
更新完Actor与Critic神经网络之后,通过传感器测量的数据判断本次训练过程是否结束,如果结束了则训练过程结束,输出最优策略π,否则开始下一次训练。
CN202010554226.1A 2020-06-17 2020-06-17 一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法 Active CN111862165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010554226.1A CN111862165B (zh) 2020-06-17 2020-06-17 一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010554226.1A CN111862165B (zh) 2020-06-17 2020-06-17 一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法

Publications (2)

Publication Number Publication Date
CN111862165A true CN111862165A (zh) 2020-10-30
CN111862165B CN111862165B (zh) 2022-10-21

Family

ID=72986215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010554226.1A Active CN111862165B (zh) 2020-06-17 2020-06-17 一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法

Country Status (1)

Country Link
CN (1) CN111862165B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
CN112465193A (zh) * 2020-11-09 2021-03-09 苏州挚途科技有限公司 多传感器数据融合的参数优化方法及装置
CN112697215A (zh) * 2020-11-19 2021-04-23 浙江工业大学 一种用于超声波水表数据滤波的卡尔曼滤波参数调试方法
CN114629728A (zh) * 2022-05-11 2022-06-14 深圳市永达电子信息股份有限公司 一种卡尔曼滤波的网络攻击追踪方法及装置
CN116628448A (zh) * 2023-05-26 2023-08-22 兰州理工大学 扩展目标中基于深度强化学习的传感器管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993257A (zh) * 2017-12-28 2018-05-04 中国科学院西安光学精密机械研究所 一种智能imm卡尔曼滤波前馈补偿目标追踪方法及系统
CN108682023A (zh) * 2018-03-21 2018-10-19 南京理工大学 基于Elman神经网络的紧耦合无迹卡尔曼跟踪滤波算法
CN110351829A (zh) * 2019-08-07 2019-10-18 南京理工大学 基于深度强化学习的无线传感器网络目标追踪方法
CN110738690A (zh) * 2019-09-16 2020-01-31 南京理工大学 一种基于多目标追踪框架的无人机视频中车速校正方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993257A (zh) * 2017-12-28 2018-05-04 中国科学院西安光学精密机械研究所 一种智能imm卡尔曼滤波前馈补偿目标追踪方法及系统
CN108682023A (zh) * 2018-03-21 2018-10-19 南京理工大学 基于Elman神经网络的紧耦合无迹卡尔曼跟踪滤波算法
CN110351829A (zh) * 2019-08-07 2019-10-18 南京理工大学 基于深度强化学习的无线传感器网络目标追踪方法
CN110738690A (zh) * 2019-09-16 2020-01-31 南京理工大学 一种基于多目标追踪框架的无人机视频中车速校正方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465193A (zh) * 2020-11-09 2021-03-09 苏州挚途科技有限公司 多传感器数据融合的参数优化方法及装置
CN112697215A (zh) * 2020-11-19 2021-04-23 浙江工业大学 一种用于超声波水表数据滤波的卡尔曼滤波参数调试方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
CN114629728A (zh) * 2022-05-11 2022-06-14 深圳市永达电子信息股份有限公司 一种卡尔曼滤波的网络攻击追踪方法及装置
CN114629728B (zh) * 2022-05-11 2022-09-09 深圳市永达电子信息股份有限公司 一种卡尔曼滤波的网络攻击追踪方法及装置
CN116628448A (zh) * 2023-05-26 2023-08-22 兰州理工大学 扩展目标中基于深度强化学习的传感器管理方法
CN116628448B (zh) * 2023-05-26 2023-11-28 兰州理工大学 扩展目标中基于深度强化学习的传感器管理方法

Also Published As

Publication number Publication date
CN111862165B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN111862165B (zh) 一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法
CN105737832B (zh) 基于全局最优数据融合的分布式slam方法
CN106714110B (zh) 一种Wi-Fi位置指纹地图自动构建方法及系统
CN104090262B (zh) 一种基于多采样率多模型融合估计的移动目标跟踪方法
CN109798896A (zh) 一种室内机器人定位与建图方法及装置
CN107084714A (zh) 一种基于RoboCup3D的多机器人协作目标定位方法
CN104331623A (zh) 一种机动策略自适应的目标跟踪信息滤波算法
CN113848545B (zh) 一种基于视觉和毫米波雷达的融合目标检测和跟踪方法
CN111027692A (zh) 一种目标运动态势预测方法及装置
CN106908762A (zh) 一种针对uhf‑rfid系统的多假设ukf目标跟踪方法
CN111445498A (zh) 一种采用Bi-LSTM神经网络的目标跟踪方法
CN114253274B (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
CN114739391A (zh) 跟踪目标的定位优化方法
CN111123953A (zh) 人工智能大数据下粒子化移动机器人组及其控制方法
CN109979194A (zh) 基于马尔可夫链的重型车辆坡道爬行行为识别方法
Fényes et al. Side-slip angle estimation of autonomous road vehicles based on big data analysis
CN114241006A (zh) 基于机器学习的精子跟踪与自动提取方法
CN112347208B (zh) 一种基于分布式传感网络的多目标检测与跟踪方法
Chen et al. EasiDSlT: a two-layer data association method for multitarget tracking in wireless sensor networks
CN117014815A (zh) 一种多传感器多车辆协同定位系统与方法
Lim et al. Gaussian process auto regression for vehicle center coordinates trajectory prediction
Balico et al. On the performance of localization prediction methods for vehicular ad hoc networks
CN115826583A (zh) 一种基于点云地图的自动驾驶车辆编队方法
CN115373383A (zh) 一种垃圾回收无人艇的自主避障方法、装置及相关设备
CN107808393A (zh) 智能视频监控领域中具有抗干扰性的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Jun

Inventor after: Zhang Jie

Inventor after: Liang Teng

Inventor after: Wang Tianyu

Inventor before: Liang Teng

Inventor before: Wang Tianyu

Inventor before: Zhang Jie

Inventor before: Li Jun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant