CN114970819B - 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 - Google Patents
一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 Download PDFInfo
- Publication number
- CN114970819B CN114970819B CN202210581312.0A CN202210581312A CN114970819B CN 114970819 B CN114970819 B CN 114970819B CN 202210581312 A CN202210581312 A CN 202210581312A CN 114970819 B CN114970819 B CN 114970819B
- Authority
- CN
- China
- Prior art keywords
- moving target
- grid
- moving
- target
- searching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000002787 reinforcement Effects 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 118
- 230000007774 longterm Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 80
- 239000011159 matrix material Substances 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 4
- 210000004027 cell Anatomy 0.000 description 21
- 238000005457 optimization Methods 0.000 description 13
- 238000004088 simulation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统,涉及移动目标搜索跟踪技术领域,用以解决现有技术对复杂环境中运动的移动目标跟踪效果差、目标丢失之后搜索效率低的问题。本发明的技术要点包括:建立移动目标运动意图推理模型,根据观测到的移动目标运动状态推理目标的运动意图;基于推理的移动目标运动意图预测移动目标在丢失之后可能出现的位置;采用深度强化学习方法训练移动目标丢失之后的搜索策略;使用训练好的搜索策略对丢失的目标进行快速搜索,从而实现对目标的长期跟踪。本发明在移动目标运动模型未知时可以准确地预测出目标的运动轨迹,训练的搜索策略具有更好的泛化能力与鲁棒性,从而可快速搜索到丢失的目标。
Description
技术领域
本发明涉及移动目标搜索跟踪技术领域,具体涉及一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统。
背景技术
解决移动目标搜索跟踪问题的一般思路是首先根据观测到的目标状态以及目标运动模型预测目标未来的运动轨迹,然后在此基础上设计优化指标,从而求解最优的搜索跟踪指令,控制搜索跟踪系统对目标进行跟踪或者搜索。设计的优化目标通常是最小化未来一段时间内对目标状态观测的不确定性程度或者最大化对目标的跟踪时间,当目标丢失之后,优化目标通常是最小化再次发现目标的时间间隔。在对目标的运动轨迹进行预测时,通常使用卡尔曼滤波、扩展卡尔曼滤波、无迹卡尔曼滤波以及粒子滤波等滤波方法对目标的运动轨迹进行预测。这类目标运动轨迹预测方法非常依赖目标的运动模型,在目标运动模型已知时具有较好的预测精度,若没有精确的目标运动模型,则无法准确预测出目标的运动轨迹,在目标丢失之后很难再次搜索到目标,进而难以实现对目标的长期跟踪。此外,在求解跟踪搜索指令时,通常使用基于规则的优化方法优化设计的目标函数,例如基于凸优化的优化算法、启发式优化算法以及树搜索算法,这些算法完全基于设计的优化指标来求解搜索跟踪指令,当设计的优化指标正确时,通过这种基于规则的方式求解出的搜索跟踪指令可以很好的满足需求。然而,当设计的优化指标出现偏差时,比如当预测的目标运动轨迹不准确且优化指标的设计依赖预测的运动轨迹时,这种基于规则的优化方法难以避免优化指标出现偏差带来的影响,因而求解出的搜索跟踪指令也将出现偏差,导致难以搜索到丢失的目标,进而难以实现对目标的长期跟踪。当目标在复杂环境中运动且具有对抗行为时,这种问题将更加严重。
发明内容
为了解决现有方法对复杂环境中运动的移动目标跟踪效果差、目标丢失之后搜索效率低的问题,本发明提出一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统,当目标在视野中时,可以通过观测到的目标状态推理出目标的运动意图,当目标丢失之后,可以基于推理的目标运动意图预测目标的运动轨迹,然后使用经过深度强化学习方法训练出的搜索策略快速搜索到丢失的目标,实现对复杂环境中运动的具有对抗行为的移动目标的长期跟踪。
根据本发明的一方面,提供一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,该方法包括以下步骤:
步骤一、获取移动目标运动轨迹数据和移动目标所处运动环境地图,以构建训练数据集;
步骤二、对所述训练数据集进行离散化处理,以构建特征地图矩阵;
步骤三、将所述特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练,获得训练好的目标运动意图推理模型;
步骤四、使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图;
步骤五、基于推理的未知运动轨迹的移动目标的运动意图,预测移动目标在丢失之后的运动轨迹;
步骤六、基于移动目标在丢失之后的运动轨迹,采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略;
步骤七、利用训练好的搜索策略对丢失的移动目标进行快速搜索,以实现对移动目标的长期跟踪。
进一步地,步骤二的具体步骤包括:将所述移动目标所处运动环境地图转换为包含NX×NY个栅格单元的栅格地图,其中NX和NY分别表示栅格地图X轴方向和Y轴方向的栅格单元个数;在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3;将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4;0<N1<1,0<N2<1,0<N3<1,0<N4<1,且N1、N2、N3、N4均不相等,从而获得多个特征地图矩阵。
进一步地,步骤二所述多个特征地图矩阵对应多个时刻的赋值后的栅格地图,设置N1=0.2,N2=0.6,N3=0.4,N4=0.8,用矩阵表示t时刻的特征地图矩阵,定义/>如下式所示:
式中:表示位于矩阵/>中第k行第l列的元素;ckl表示栅格地图中位于第k行第l列的栅格单元;c(Bacc)与c(Binacc)分别表示移动目标所处运动环境中可进入区域与不可进入区域所占据的栅格单元集合;c(G)表示移动目标所处运动环境中移动目标的目的地区域所占据的栅格单元集合;/>表示在t′时刻移动目标所在位置所占据的栅格单元;Tinf表示对移动目标运动意图推理的周期,即每隔时间段Tinf根据移动目标运动状态的改变推理其运动意图。
进一步地,步骤四的具体步骤包括:对于未知运动轨迹的移动目标,其特征地图矩阵构建如下:在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,实时获取未知运动轨迹的移动目标的位置点,将每个位置点所在的栅格单元赋值为N3,从而实时更新对应不同时刻的赋值后的栅格地图,作为特征地图矩阵输入训练好的目标运动意图推理模型中,获取移动目标前往其各个运动意图即预测目的地位置的概率,表示为表示目的地区域gi所对应的特征矩阵;WCNN表示移动目标运动意图推理模型fCNN的参数;对移动目标前往每个预测目的地位置的概率进行归一化,表示为:
式中,G表示未知运动轨迹的移动目标的预测目的地位置集合。
进一步地,步骤五的具体步骤包括:以移动目标丢失的位置所在栅格单元为起点,采样Ns条轨迹作为预测的移动目标运动轨迹;根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布,使用矩阵表示移动目标在t时刻之后在离散化栅格地图上的位置分布:
式中:表示位于矩阵/>中第k行第l列的元素;Nkl(tk′l(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元ckl且经过时间大于等于当前时刻t的次数。
进一步地,步骤五中将预测的每条移动目标运动轨迹表示为多个栅格单元 表示采样轨迹,Tc表示移动目标经过一个栅格单元所花费的时间,j=0,1,2,3,……,Hs,Hs表示每条移动目标运动轨迹所经过的栅格单元的个数;k表示第k条轨迹,k=1,2,3,……,Ns;每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出:
式中,φj,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角;/>表示栅格单元/>的中心位置与目的地位置gi的连线与栅格地图X轴的夹角;/>表示栅格单元/>的邻居栅格单元集合;为正的常数;β表示归一化系数。
进一步地,步骤六的具体步骤包括:
步骤六一、建立移动目标搜索策略网络πθ以及πθ′,值函数网络Vφ,并使用πθ的参数θ初始化πθ′的参数θ′,即θ′=θ;移动目标搜索策略网络的输入为观测状态其中,/>表示对移动目标所处运动环境的观测状态,表示对预测的移动目标在离散化栅格地图上位置分布的观测状态,/>表示对移动目标历史移动轨迹的观测状态;输出为采取下一步动作at的概率P(at|ot);
步骤六二、使用移动目标搜索策略网络πθ′与收集交互经验{ot,at,rt+1,ot+1},其中,rt+1表示在t+1时刻获得的奖励值,ot+1表示在t+1时刻的观测状态;
步骤六三、利用收集的交互经验数据估计优势函数如下式所示:
式中:Tmax表示一个训练周期的最大时间步数;Vφ(ot)表示观测状态ot对应的值函数;γ表示折扣因子,满足0≤γ≤1;rt表示在t时刻获得的奖励值;表示观测状态对应的值函数;
步骤六四、判断当前时间步数是否超过最大时间步数Tmax,若超过则转至下一步,若没有超过则转至步骤六二;
步骤六五、从收集的交互经验数据中采样K条经验数据作为一个训练批次;
步骤六六、计算移动目标搜索策略网络πθ的损失函数,如下式所示:
式中:表示t时刻期望值的估计值;clip(x,xmin,xmax)表示将x的值限制在xmin与xmax之间;∈为正常数且满足0<∈<1;/>
步骤六七、通过最小化步骤六六中计算的损失函数更新移动目标搜索策略网络πθ的参数;
步骤六八:计算值函数网络Vφ的损失函数,如下式所示:
式中:γ为常数且满足0≤γ≤1;
步骤六九:通过最小化步骤六八中计算的损失函数更新值函数网络Vφ的参数;
步骤六十:将移动目标搜索策略网络πθ的参数θ赋值到πθ′,即θ′←θ;
步骤六十一:判断训练周期是否到达最大的训练周期Nmax;若没有到达最大的训练周期Nmax,则转至步骤六二;若到达最大的训练周期Nmax,则结束训练。
根据本发明的另一方面,提供一种基于意图推理与深度强化学习的移动目标搜索跟踪系统,该系统包括:
意图推理数据集获取模块,用于获取移动目标运动轨迹数据和移动目标所处运动环境地图,以构建训练数据集;
意图推理特征获取模块,用于对所述训练数据集进行离散化处理,以构建特征地图矩阵;具体过程为:将所述移动目标所处运动环境地图转换为包含NX×NY个栅格单元的栅格地图,其中NX和NY分别表示栅格地图X轴方向和Y轴方向的栅格单元个数;在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3;将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4;0<N1<1,0<N2<1,0<N3<1,0<N4<1,且N1、N2、N3、N4均不相等,从而获得多个特征地图矩阵;
意图推理模型训练模块,用于将所述特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练,获得训练好的目标运动意图推理模型;
意图推理模块,用于使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图;
轨迹预测模块,用于基于推理的未知运动轨迹的移动目标的运动意图,预测移动目标在丢失之后的运动轨迹;具体包括:以移动目标丢失的位置所在栅格单元为起点,采样Ns条轨迹作为预测的移动目标运动轨迹;根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布,使用矩阵表示移动目标在t时刻之后在离散化栅格地图上的位置分布:
式中:表示位于矩阵/>中第k行第l列的元素;Nkl(tk′l(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元ckl且经过时间大于等于当前时刻t的次数;
搜索策略训练模块,用于基于移动目标在丢失之后的运动轨迹,采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略;
搜索跟踪模块,用于利用训练好的搜索策略对丢失的移动目标进行快速搜索,以实现对移动目标的长期跟踪。
进一步地,所述轨迹预测模块中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹,Tc表示移动目标经过一个栅格单元所花费的时间,j=0,1,2,3,……,Hs,Hs表示每条移动目标运动轨迹所经过的栅格单元的个数;k表示第k条轨迹,k=1,2,3,……,Ns;每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出:
式中,φj,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角;/>表示栅格单元/>的中心位置与目的地位置gi的连线与栅格地图X轴的夹角;/>表示栅格单元/>的邻居栅格单元集合;为正的常数;β表示归一化系数。
进一步地,所述搜索策略训练模块中采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略的具体过程包括:
步骤六一、建立移动目标搜索策略网络πθ以及πθ′,值函数网络Vφ,并使用πθ的参数θ初始化πθ′的参数θ′,即θ′=θ;移动目标搜索策略网络的输入为观测状态其中,/>表示对移动目标所处运动环境的观测状态,表示对预测的移动目标在离散化栅格地图上位置分布的观测状态,/>表示对移动目标历史移动轨迹的观测状态;输出为采取下一步动作at的概率P(at|ot);
步骤六二、使用移动目标搜索策略网络πθ′与收集交互经验{ot,at,rt+1,ot+1},其中,rt+1表示在t+1时刻获得的奖励值,ot+1表示在t+1时刻的观测状态;
步骤六三、利用收集的交互经验数据估计优势函数如下式所示:
式中:Tmax表示一个训练周期的最大时间步数;Vφ(ot)表示观测状态ot对应的值函数;γ表示折扣因子,满足0≤γ≤1;rt表示在t时刻获得的奖励值;表示观测状态对应的值函数;
步骤六四、判断当前时间步数是否超过最大时间步数Tmax,若超过则转至下一步,若没有超过则转至步骤六二;
步骤六五、从收集的交互经验数据中采样K条经验数据作为一个训练批次;
步骤六六、计算移动目标搜索策略网络πθ的损失函数,如下式所示:
式中:表示t时刻期望值的估计值;clip(x,xmin,xmax)表示将x的值限制在xmin与xmax之间;∈为正常数且满足0<∈<1;/>
步骤六七、通过最小化步骤六六中计算的损失函数更新移动目标搜索策略网络πθ的参数;
步骤六八:计算值函数网络Vφ的损失函数,如下式所示:
式中:γ为常数且满足0≤γ≤1;
步骤六九:通过最小化步骤六八中计算的损失函数更新值函数网络Vφ的参数;
步骤六十:将移动目标搜索策略网络πθ的参数θ赋值到πθ′,即θ′←θ;
步骤六十一:判断训练周期是否到达最大的训练周期Nmax;若没有到达最大的训练周期Nmax,则转至步骤六二;若到达最大的训练周期Nmax,则结束训练。
本发明的有益技术效果是:
本发明通过推理移动目标运动意图以及采用深度强化学习方法训练搜索策略的途径实现对移动目标的快速搜索以及长期跟踪,可解决对复杂环境中运动的具有对抗行为的移动目标的快速搜索以及长期跟踪的问题。相比于传统方法,本发明具有以下优势:1)通过对移动目标运动意图的推理,可在移动目标运动模型未知时较为准确地预测出目标的运动轨迹,进而为目标丢失之后的搜索过程提供有利的指导;2)通过使用深度强化学习方法训练搜索策略的方式,可以使得训练出的搜索策略具有更好的泛化能力与鲁棒性,并且具有更灵活的自主探索能力,可以在预测的目标运动轨迹出现偏差时自主探索预测的目标运动轨迹未覆盖的区域,从而快速搜索到丢失的目标,实现对移动目标的长期跟踪。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
图1是本发明实施例一种基于意图推理与深度强化学习的移动目标搜索跟踪方法的流程图;
图2是本发明实施例中移动目标运动意图推理网络的结构示意图;
图3是本发明实施例中移动目标搜索策略网络的结构示意图;
图4是本发明实施例中移动目标运动意图推理网络训练过程的损失值变化曲线示例图;
图5是本发明实施例中预测的移动目标位置分布的示例图;
图6是本发明实施例中移动目标搜索策略网络训练过程的跟踪效率变化曲线示例图;
图7是本发明实施例中对移动目标进行搜索跟踪过程的示意图;
图8是本发明实施例一种基于意图推理与深度强化学习的移动目标搜索跟踪系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,在下文中将结合附图对本发明的示范性实施方式或实施例进行描述。显然,所描述的实施方式或实施例仅仅是本发明一部分的实施方式或实施例,而不是全部的。基于本发明中的实施方式或实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式或实施例,都应当属于本发明保护的范围。
本发明提出一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统,首先使用收集的移动目标运动轨迹数据构建训练数据集;接着建立移动目标运动意图推理模型,根据观测到的移动目标运动状态推理目标的运动意图;然后基于推理的移动目标运动意图预测移动目标在丢失之后可能出现的位置;之后采用深度强化学习方法训练移动目标丢失之后的搜索策略;最后,使用训练好的搜索策略对丢失的目标进行快速搜索,从而实现对目标的长期跟踪。
本发明实施例提供一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,如图1所示,该方法包括以下步骤:
步骤一、获取移动目标运动轨迹数据和移动目标所处运动环境地图,以构建训练数据集;
步骤二、对训练数据集进行离散化处理,以构建特征地图矩阵;
步骤三、将特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练,获得训练好的目标运动意图推理模型;
步骤四、使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图;
步骤五、基于推理的未知运动轨迹的移动目标的运动意图,预测移动目标在丢失之后的运动轨迹;
步骤六、基于移动目标在丢失之后的运动轨迹,采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略;
步骤七、利用训练好的搜索策略对丢失的移动目标进行快速搜索,以实现对移动目标的长期跟踪。
本实施例中,可选地,步骤二的具体步骤包括:将移动目标所处运动环境地图转换为包含NX×NY个栅格单元的栅格地图,其中NX和NY分别表示栅格地图X轴方向和Y轴方向的栅格单元个数;在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3;将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4;0<N1<1,0<N2<1,0<N3<1,0<N4<1,且N1、N2、N3、N4均不相等,从而获得多个特征地图矩阵。
本实施例中,可选地,步骤二多个特征地图矩阵对应多个时刻的赋值后的栅格地图,设置N1=0.2,N2=0.6,N3=0.4,N4=0.8,用矩阵表示t时刻的特征地图矩阵,定义如下式所示:
式中:表示位于矩阵/>中第k行第l列的元素;ckl表示栅格地图中位于第k行第l列的栅格单元;c(Bacc)与c(Binacc)分别表示移动目标所处运动环境中可进入区域与不可进入区域所占据的栅格单元集合;c(G)表示移动目标所处运动环境中移动目标的目的地区域所占据的栅格单元集合;/>表示在t′时刻移动目标所在位置所占据的栅格单元;Tinf表示对移动目标运动意图推理的周期,即每隔时间段Tinf根据移动目标运动状态的改变推理其运动意图。
本实施例中,可选地,步骤四的具体步骤包括:对于未知运动轨迹的移动目标,其特征地图矩阵构建如下:在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,实时获取未知运动轨迹的移动目标的位置点,将每个位置点所在的栅格单元赋值为N3,从而实时更新对应不同时刻的赋值后的栅格地图,作为特征地图矩阵输入训练好的目标运动意图推理模型中,获取移动目标前往其各个运动意图即预测目的地位置的概率,表示为表示目的地区域gi所对应的特征矩阵;WCNN表示移动目标运动意图推理模型fCNN的参数;对移动目标前往每个预测目的地位置的概率进行归一化,表示为:
式中,G表示未知运动轨迹的移动目标的预测目的地位置集合。
本实施例中,可选地,步骤五的具体步骤包括:以移动目标丢失的位置所在栅格单元为起点,采样Ns条轨迹作为预测的移动目标运动轨迹;根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布,使用矩阵表示移动目标在t时刻之后在离散化栅格地图上的位置分布:
式中:表示位于矩阵/>中第k行第l列的元素;Nkl(tk′l(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元ckl且经过时间大于等于当前时刻t的次数。
本实施例中,可选地,步骤五中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹,Tc表示移动目标经过一个栅格单元所花费的时间,j=0,1,2,3,……,Hs,Hs表示每条移动目标运动轨迹所经过的栅格单元的个数;k表示第k条轨迹,k=1,2,3,……,Ns;每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出:
式中,φj,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角;/>表示栅格单元/>的中心位置与目的地位置gi的连线与栅格地图X轴的夹角;/>表示栅格单元/>的邻居栅格单元集合;为正的常数;β表示归一化系数。
本实施例中,可选地,步骤六的具体步骤包括:
步骤六一、建立移动目标搜索策略网络πθ以及πθ′,值函数网络Vφ,并使用πθ的参数θ初始化πθ′的参数θ′,即θ′=θ;移动目标搜索策略网络的输入为观测状态其中,/>表示对移动目标所处运动环境的观测状态,表示对预测的移动目标在离散化栅格地图上位置分布的观测状态,/>表示对移动目标历史移动轨迹的观测状态;输出为采取下一步动作at的概率P(at|ot);
步骤六二、使用移动目标搜索策略网络πθ′与收集交互经验{ot,at,rt+1,ot+1},其中,rt+1表示在t+1时刻获得的奖励值,ot+1表示在t+1时刻的观测状态;
步骤六三、利用收集的交互经验数据估计优势函数如下式所示:
式中:Tmax表示一个训练周期的最大时间步数;Vφ(ot)表示观测状态ot对应的值函数;γ表示折扣因子,满足0≤γ≤1;rt表示在t时刻获得的奖励值;表示观测状态对应的值函数;
步骤六四、判断当前时间步数是否超过最大时间步数Tmax,若超过则转至下一步,若没有超过则转至步骤六二;
步骤六五、从收集的交互经验数据中采样K条经验数据作为一个训练批次;
步骤六六、计算移动目标搜索策略网络πθ的损失函数,如下式所示:
式中:表示t时刻期望值的估计值;clip(x,xmin,xmax)表示将x的值限制在xmin与xmax之间;∈为正常数且满足0<∈<1;/>
步骤六七、通过最小化步骤六六中计算的损失函数更新移动目标搜索策略网络πθ的参数;
步骤六八:计算值函数网络Vφ的损失函数,如下式所示:
式中:γ为常数且满足0≤γ≤1;
步骤六九:通过最小化步骤六八中计算的损失函数更新值函数网络Vφ的参数;
步骤六十:将移动目标搜索策略网络πθ的参数θ赋值到πθ′,即θ′←θ;
步骤六十一:判断训练周期是否到达最大的训练周期Nmax;若没有到达最大的训练周期Nmax,则转至步骤六二;若到达最大的训练周期Nmax,则结束训练。
本发明另一实施例提供一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,该方法包括以下步骤:
步骤一:使用收集的移动目标运动轨迹数据构建训练数据集。
根据本发明实施例,通过收集的移动目标运动轨迹构建训练数据集 表示训练数据集/>中第i条移动目标运动轨迹,其包含Ti个时刻观测到的目标位置/>N表示训练数据集/>中的运动轨迹个数。
训练数据集中移动目标运动轨迹的终点位置可通过聚类的方式划分为Ng个目的地位置gi(gi∈G,i=1,2,…Ng),式中G表示训练数据集/>中移动目标运动轨迹目的地位置集合。
步骤二:建立移动目标运动意图推理模型,根据观测到的移动目标运动状态推理移动目标的运动意图。
根据本发明实施例,首先,对移动目标的运动环境进行离散化处理。具体地,将移动目标所在的环境离散化为NX×NY个面积相等的栅格单元,其中NX与NY分别表示离散化之后的环境地图在X轴方向与Y轴方向的栅格单元个数。使用矩阵表示t时刻的离散化环境,定义/>如下式所示:
/>
式中:表示位于矩阵/>中第k行第l列的元素;ckl表示离散地图中位于第k行第l列的栅格单元;c(Bacc)与c(Binacc)分别表示移动目标所在环境中可进入区域与不可进入区域所占据的栅格单元集合;c(G)表示移动目标所在环境中移动目标的目的地区域所占据的栅格单元集合;/>表示在t′时刻目标所在位置占据的栅格单元;Tinf表示对移动目标运动意图推理的周期,即每隔时间段Tinf根据移动目标运动状态的改变推理目标的运动意图。
然后,基于卷积神经网络建立移动目标运动意图推理网络fCNN。具体地,建立的移动目标运动意图推理网络的输入为表示针对目标目的地区域gi的离散化地图,定义如下:
并且对于/>根据移动目标运动意图推理网络fCNN计算的移动目标前往目的地区域gi的概率可表示为:
式中:WCNN表示移动目标运动意图推理网络fCNN的参数。
建立的移动目标运动意图推理网络fCNN的结构如图2所示。其中,前两层网络为二维卷积神经网络。第一层二维卷积神经网络具有4个卷积窗口大小为(2,2)的卷积核,卷积滑动步长为1。第二层二维卷积神经网络具有4个卷积窗口大小为(2,2)的卷积核,卷积滑动步长为2。后三层网络为全连接网络,每层中的神经元个数分别为100,100,1。以上网络结构中的二维卷积神经网络以及前两层全连接网络的激活函数为ReLU,最后一层全连接网络的激活函数为Sigmoid,目的地是将输出值限制在(0,1)之间。
然后,从构建的训练数据集中学习出移动目标运动意图推理网络的参数。具体地,通过最小化以下损失函数求解移动目标运动意图推理网络fCNN的最优参数
式中:Yi(gk)表示训练数据集中的第i条轨迹的终点位置是目的地位置gk的标志位,若是Yi(gk)=1,否则Yi(gk)=0;Pi j(gk)表示移动目标运动意图推理网络fCNN推理出的训练数据集中的第i条轨迹在j时刻前往目的地位置gk的概率;λ为正常数。
最后,使用训练完成的移动目标运动意图推理网络推理移动目标前往各目的地位置的概率。
步骤三:基于推理的移动目标运动意图预测移动目标在丢失之后可能出现的位置。
根据本发明实施例,首先,以移动目标丢失的位置为起点,采样多条轨迹作为预测的移动目标运动轨迹。具体地,假设当移动目标位于栅格单元时丢失目标,则以栅格单元/>为起点,采样Ns条深度为Hs的轨迹,作为对移动目标运动轨迹的预测。特别地,在采样的Ns条轨迹中,终点位置是目的地位置gi的轨迹条数正比于推理出的移动目标前往目的地位置gi的概率,即采样轨迹中终点位置是目的地位置gi的轨迹条数Nsi计算如下:/>
以上采样的第k条轨迹可表示为:
其中,Tc表示移动目标经过一个栅格单元所花费的时间。特别地,采样轨迹τk中的栅格单元序列通过以下概率采样得出:
式中:φj,j+1表示栅格单元与/>中心位置的连线与X轴的夹角;表示栅格单元/>的中心位置与目的地位置gi的连线与X轴的夹角;/>表示栅格单元/>的邻居栅格单元集合;/>为正常数;β为归一化系数,计算如下所示:
然后,根据预测的移动目标运动轨迹计算移动目标在离散化环境地图上的位置分布。具体地,使用矩阵表示移动目标在t时刻之后在离散化环境地图上的位置分布,/>的定义如下:
式中:表示位于矩阵/>中第k行第l列的元素;Nkl(tk′l(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元ckl且经过时间大于等于当前时刻t的次数。
步骤四:采用深度强化学习方法训练移动目标丢失之后的搜索策略。
根据本发明实施例,具体包括以下步骤:
步骤四一:建立移动目标搜索策略网络πθ以及πθ′,值函数网络Vφ,并使用πθ的参数θ初始化πθ′的参数θ′,即θ′=θ。
图3所示为建立的移动目标搜索策略网络。具体地,移动目标搜索策略网络的输入为观测状态其中/>表示移动目标搜索跟踪系统对移动目标运动环境的观测状态,/>表示移动目标搜索跟踪系统对预测的移动目标位置分布的观测状态,/>表示移动目标搜索跟踪系统对其历史移动轨迹的观测状态。移动目标搜索策略网络的输出为移动目标搜索跟踪系统采取下一步动作at的概率P(at|ot),由于在离散化的环境中,移动目标搜索跟踪系统的周围最多有8个邻居栅格单元,因此,移动目标搜索策略网络的输出维度为8。值函数网络Vφ的结构与πθ相似,不同之处在与其最后一层只有一个线性输出单元;
步骤四二:使用移动目标搜索策略网络πθ′与收集交互经验{ot,at,rt+1,ot+1},其中rt+1表示移动目标搜索跟踪系统在t+1时刻获得的奖励值;
步骤四三:利用步骤四三中收集的经验数据估计优势函数如下式所示:/>
式中:Tmax表示一个训练周期的最大时间步数;
步骤四四:判断当前时间步数是否超过最大时间步数Tmax,若超过则转至下一步,若没有超过则转至步骤四二;
步骤四五:从步骤四二中收集的经验数据中采样K条经验数据作为一个训练批次;
步骤四六:计算移动目标搜索策略网络πθ的损失函数,如下式所示:
式中:clip(x,xmin,xmax)表示将x的值限制在xmin与xmax之间;∈为正常数且满足0<∈<1;
步骤四七:通过最小化步骤四六中计算的损失值更新移动目标搜索策略网络πθ的参数;
步骤四八:计算值函数网络Vφ的损失函数,如下式所示:
式中:γ为常数且满足0≤γ≤1;
步骤四九:通过最小化步骤四八中计算的损失值更新值函数网络Vφ的参数;
步骤四十:将移动目标搜索策略网络πθ的参数θ赋值到πθ′,即θ′←θ。
步骤四十一:判断训练周期是否到达最大的训练周期Nmax;若没有到达最大的训练周期Nmax,则转至步骤四二;若到达最大的训练周期Nmax,则结束训练。
步骤五:利用步骤四中训练好的移动目标搜索策略对丢失的目标进行快速搜索,从而实现对目标的长期跟踪。
进一步通过实验验证本发明的技术效果。
采用数字仿真的方式验证本发明的正确性以及合理性。首先在Python环境中构建一个仿真场景,如图2中的环境地图所示,包括复杂环境模型、移动目标模型以及移动目标搜索跟踪系统模型。在复杂环境模型中,包含不可进入区域、可进入区域以及目的地区域。其中不可进入区域表示移动目标无法进入的区域,可进入区域表示移动目标可以进入的区域,移动目标可通过进入可进入区域的方式躲避跟踪,目的地区域表示移动目标可能的目的地位置。移动目标按照设定的行为方式由起点向随机选定的目的地区域运动,在可进入区域里面移动的速度是1m/s,在可进入区域外面移动的速度是2m/s。在建立的仿真环境中,移动目标搜索跟踪系统在初始时刻可以观测到目标,当目标进入可进入区域时,丢失目标,此时需要移动目标搜索跟踪系统采取搜索策略重新搜索到目标,为了使移动目标搜索跟踪系统有机会重新搜索到丢失的目标,将其最大移动速度设置为5m/s。实验仿真测试软件环境为Windows10+Python3.7,硬件环境为I9-9820X CPU+GTX1080Ti GPU+64.0GBRAM。
实验首先验证步骤二中移动目标运动意图推理网络的训练过程是否收敛。首先使用建立的仿真环境随机生成500条移动目标运动轨迹作为训练数据集然后通过梯度下降法优化移动目标运动意图推理网络的参数,图4所示为步骤二三中移动目标运动意图推理网络训练过程中的损失值变化曲线。由图可知,整个训练过程共包含100个训练周期,且随着训练周期的不断增加,损失值逐渐减小,当训练周期大于60时,损失值减小的幅度逐步降低,表明网络的训练过程逐步收敛。本发明以经过100轮训练周期训练的参数作为以下测试实例中使用的移动目标运动意图推理网络的参数。
接着通过一次对移动目标位置分布的预测结果验证对移动目标运动意图的推理可以更加准确地预测出移动目标丢失之后的位置分布。图5所示为预测的移动目标丢失之后的位置分布。由图可知,相对于移动目标运动意图未知时的预测结果,在对移动目标运动意图进行推理之后,预测的移动目标位置分布更加接近移动目标真实的运动轨迹。以上结果表明对移动目标运动意图的推理可以提升对移动目标位置分布预测的准确性。
然后验证步骤四中移动目标搜索策略的训练过程是否收敛。图6所示为步骤四中移动目标搜索策略网络训练过程中的跟踪效率变化曲线。由图可知,随着训练周期的持续增加,在两种不同情况下的搜索策略所具有的跟踪效率在不断提升,当训练周期大于15000时,两种搜索策略的跟踪效率没有明显的增加趋势,表明训练过程基本收敛,在之后的训练周期中,两种搜索策略的跟踪效率在上下波动,这是由于仿真的随机性导致的。图6所示的整个训练过程表明步骤四中移动目标搜索策略的训练过程是收敛的。同时注意到目标运动意图未知时的跟踪效率低于对目标运动意图进行推理之后的跟踪效率,这说明对移动目标运动意图的推理可以提高对移动目标的跟踪效率。
最后,本发明通过一次对移动目标丢失之后的搜索过程验证本发明所述的移动目标搜索跟踪系统可以快速搜索到丢失的目标,实现对移动目标的长期跟踪。图7所示为移动目标丢失之后移动目标搜索跟踪系统根据图6中训练出的两种搜索策略对丢失目标的搜索过程。由图可知,当移动目标的运动意图未知时,移动目标搜索跟踪系统按照丢失目标之前观测到的目标的移动方向搜索目标,由于移动目标没有按照丢失之前的运动方向移动,因此,移动目标搜索跟踪系统没有搜索到目标。当对移动目标的运动意图进行推理之后,移动目标搜索跟踪系统按照移动目标运动意图所指向的方向搜索目标,当移动目标从可进入区域出来之后便搜索到了目标。以上结果表明本发明可通过对移动目标运动意图的推理实现对丢失目标的快速搜索,从而在整个任务周期上实现对移动目标的长期跟踪。
由以上结果可知,对于在复杂环境中运动的移动目标,本发明可通过对移动目标运动意图的推理准确预测出目标丢失之后的位置分布,同时利用经过深度强化学习方法训练之后的搜索策略快速搜索到丢失的目标,进而在整个任务周期上实现对移动目标的长期跟踪。根据本发明可实现对复杂环境中移动目标的快速搜索与长期跟踪,为移动目标搜索跟踪技术提供了新的技术思路。
本发明另一实施例提供一种基于意图推理与深度强化学习的移动目标搜索跟踪系统,如图8所示,该系统包括:
意图推理数据集获取模块10,用于获取移动目标运动轨迹数据和移动目标所处运动环境地图,以构建训练数据集;
意图推理特征获取模块20,用于对训练数据集进行离散化处理,以构建特征地图矩阵;具体过程为:将移动目标所处运动环境地图转换为包含NX×NY个栅格单元的栅格地图,其中NX和NY分别表示栅格地图X轴方向和Y轴方向的栅格单元个数;在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3;将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4;0<N1<1,0<N2<1,0<N3<1,0<N4<1,且N1、N2、N3、N4均不相等,从而获得多个特征地图矩阵;
意图推理模型训练模块30,用于将特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练,获得训练好的目标运动意图推理模型;
意图推理模块40,用于使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图;
轨迹预测模块50,用于基于推理的未知运动轨迹的移动目标的运动意图,预测移动目标在丢失之后的运动轨迹;具体包括:以移动目标丢失的位置所在栅格单元为起点,采样Ns条轨迹作为预测的移动目标运动轨迹;根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布,使用矩阵表示移动目标在t时刻之后在离散化栅格地图上的位置分布:
式中:表示位于矩阵/>中第k行第l列的元素;Nkl(t′kl(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元ckl且经过时间大于等于当前时刻t的次数;
搜索策略训练模块60,用于基于移动目标在丢失之后的运动轨迹,采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略;
搜索跟踪模块70,用于利用训练好的搜索策略对丢失的移动目标进行快速搜索,以实现对移动目标的长期跟踪。
本实施例中,可选地,轨迹预测模块50中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹,Tc表示移动目标经过一个栅格单元所花费的时间,j=0,1,2,3,……,Hs,Hs表示每条移动目标运动轨迹所经过的栅格单元的个数;k表示第k条轨迹,k=1,2,3,……,Ns;每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出:
式中,φj,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角;/>表示栅格单元/>的中心位置与目的地位置gi的连线与栅格地图X轴的夹角;/>表示栅格单元/>的邻居栅格单元集合;为正的常数;β表示归一化系数。
本实施例中,可选地,搜索策略训练模块60中采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略的具体过程包括:
步骤六一、建立移动目标搜索策略网络πθ以及πθ′,值函数网络Vφ,并使用πθ的参数θ初始化πθ′的参数θ′,即θ′=θ;移动目标搜索策略网络的输入为观测状态其中,/>表示对移动目标所处运动环境的观测状态,表示对预测的移动目标在离散化栅格地图上位置分布的观测状态,/>表示对移动目标历史移动轨迹的观测状态;输出为采取下一步动作at的概率P(at|ot);
步骤六二、使用移动目标搜索策略网络πθ′与收集交互经验{ot,at,rt+1,ot+1},其中,rt+1表示在t+1时刻获得的奖励值,ot+1表示在t+1时刻的观测状态;
步骤六三、利用收集的交互经验数据估计优势函数如下式所示:
式中:Tmax表示一个训练周期的最大时间步数;Vφ(ot)表示观测状态ot对应的值函数;γ表示折扣因子,满足0≤γ≤1;rt表示在t时刻获得的奖励值;表示观测状态对应的值函数;
步骤六四、判断当前时间步数是否超过最大时间步数Tmax,若超过则转至下一步,若没有超过则转至步骤六二;
步骤六五、从收集的交互经验数据中采样K条经验数据作为一个训练批次;
步骤六六、计算移动目标搜索策略网络πθ的损失函数,如下式所示:
式中:表示t时刻期望值的估计值;clip(x,xmin,xmax)表示将x的值限制在xmin与xmax之间;∈为正常数且满足0<∈<1;/>
步骤六七、通过最小化步骤六六中计算的损失函数更新移动目标搜索策略网络πθ的参数;
步骤六八:计算值函数网络Vφ的损失函数,如下式所示:
式中:γ为常数且满足0≤γ≤1;
步骤六九:通过最小化步骤六八中计算的损失函数更新值函数网络Vφ的参数;
步骤六十:将移动目标搜索策略网络πθ的参数θ赋值到πθ′,即θ′←θ;
步骤六十一:判断训练周期是否到达最大的训练周期Nmax;若没有到达最大的训练周期Nmax,则转至步骤六二;若到达最大的训练周期Nmax,则结束训练。
本实施例所述一种基于意图推理与深度强化学习的移动目标搜索跟踪系统的功能可以由前述一种基于意图推理与深度强化学习的移动目标搜索跟踪方法说明,因此本实施例未详述部分,可参见以上方法实施例,在此不再赘述。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (9)
1.一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,其特征在于,包括以下步骤:
步骤一、获取移动目标运动轨迹数据和移动目标所处运动环境地图,以构建训练数据集;
步骤二、对所述训练数据集进行离散化处理,以构建特征地图矩阵;具体步骤包括:将所述移动目标所处运动环境地图转换为包含NX×NY个栅格单元的栅格地图,其中NX和NY分别表示栅格地图X轴方向和Y轴方向的栅格单元个数;在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3;将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4;0<N1<1,0<N2<1,0<N3<1,0<N4<1,且N1、N2、N3、N4均不相等,从而获得多个特征地图矩阵;
步骤三、将所述特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练,获得训练好的目标运动意图推理模型;
步骤四、使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图;
步骤五、基于推理的未知运动轨迹的移动目标的运动意图,预测移动目标在丢失之后的运动轨迹;
步骤六、基于移动目标在丢失之后的运动轨迹,采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略;
步骤七、利用训练好的搜索策略对丢失的移动目标进行快速搜索,以实现对移动目标的长期跟踪。
2.根据权利要求1所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,其特征在于,步骤二所述多个特征地图矩阵对应多个时刻的赋值后的栅格地图,设置N1=0.2,N2=0.6,N3=0.4,N4=0.8,用矩阵表示t时刻的特征地图矩阵,定义/>如下式所示:
式中:表示位于矩阵/>中第k行第l列的元素;ckl表示栅格地图中位于第k行第l列的栅格单元;c(Bacc)与c(Binacc)分别表示移动目标所处运动环境中可进入区域与不可进入区域所占据的栅格单元集合;c(G)表示移动目标所处运动环境中移动目标的目的地区域所占据的栅格单元集合;/>表示在t′时刻移动目标所在位置所占据的栅格单元;Tinf表示对移动目标运动意图推理的周期,即每隔时间段Tinf根据移动目标运动状态的改变推理其运动意图。
3.根据权利要求2所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,其特征在于,步骤四的具体步骤包括:对于未知运动轨迹的移动目标,其特征地图矩阵构建如下:在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,实时获取未知运动轨迹的移动目标的位置点,将每个位置点所在的栅格单元赋值为N3,从而实时更新对应不同时刻的赋值后的栅格地图,作为特征地图矩阵输入训练好的目标运动意图推理模型中,获取移动目标前往其各个运动意图即预测目的地位置的概率,表示为 表示目的地区域gi所对应的特征矩阵;WCNN表示移动目标运动意图推理模型fCNN的参数;对移动目标前往每个预测目的地位置的概率进行归一化,表示为:
式中,G表示未知运动轨迹的移动目标的预测目的地位置集合。
4.根据权利要求3所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,其特征在于,步骤五的具体步骤包括:以移动目标丢失的位置所在栅格单元为起点,采样Ns条轨迹作为预测的移动目标运动轨迹,其中在采样的Ns条轨迹中,终点位置是目的地位置gi的轨迹条数正比于推理出的移动目标前往目的地位置gi的概率,即采样轨迹中终点位置是目的地位置gi的轨迹条数计算如下:/>根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布,使用矩阵/>表示移动目标在t时刻之后在离散化栅格地图上的位置分布:
式中:表示位于矩阵/>中第k行第l列的元素;Nkl(tk′l(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元ckl且经过时间大于等于当前时刻t的次数。
5.根据权利要求4所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,其特征在于,步骤五中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹,Tc表示移动目标经过一个栅格单元所花费的时间,j=0,1,2,3,……,Hs,Hs表示每条移动目标运动轨迹所经过的栅格单元的个数;k表示第k条轨迹,k=1,2,3,……,Ns;每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出:
式中,φj,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角;/>表示栅格单元/>的中心位置与目的地位置gi的连线与栅格地图X轴的夹角; 表示栅格单元/>的邻居栅格单元集合;/>为正的常数;β表示归一化系数。
6.根据权利要求5所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法,其特征在于,步骤六的具体步骤包括:
步骤六一、建立移动目标搜索策略网络πθ以及πθ′,值函数网络Vφ,并使用πθ的参数θ初始化πθ′的参数θ′,即θ′=θ;移动目标搜索策略网络的输入为观测状态其中,/>表示对移动目标所处运动环境的观测状态,表示对预测的移动目标在离散化栅格地图上位置分布的观测状态,/>表示对移动目标历史移动轨迹的观测状态;输出为采取下一步动作at的概率P(at|ot);
步骤六二、使用移动目标搜索策略网络πθ′与收集交互经验{ot,at,rt+1,ot+1},其中,rt+1表示在t+1时刻获得的奖励值,ot+1表示在t+1时刻的观测状态;
步骤六三、利用收集的交互经验数据估计优势函数如下式所示:
式中:Tmax表示一个训练周期的最大时间步数;Vφ(ot)表示观测状态ot对应的值函数;γ表示折扣因子,满足0≤γ≤1;rt表示在t时刻获得的奖励值;表示观测状态/>对应的值函数;
步骤六四、判断当前时间步数是否超过最大时间步数Tmax,若超过则转至下一步,若没有超过则转至步骤六二;
步骤六五、从收集的交互经验数据中采样K条经验数据作为一个训练批次;
步骤六六、计算移动目标搜索策略网络πθ的损失函数,如下式所示:
式中:表示t时刻期望值的估计值;clip(x,xmin,xmax)表示将x的值限制在xmin与xmax之间;∈为正常数且满足0<∈<1;/>
步骤六七、通过最小化步骤六六中计算的损失函数更新移动目标搜索策略网络πθ的参数;
步骤六八、计算值函数网络Vφ的损失函数,如下式所示:
步骤六九、通过最小化步骤六八中计算的损失函数更新值函数网络Vφ的参数;
步骤六十、将移动目标搜索策略网络πθ的参数θ赋值到πθ′,即θ′←θ;
步骤六十一、判断训练周期是否到达最大的训练周期Nmax;若没有到达最大的训练周期Nmax,则转至步骤六二;若到达最大的训练周期Nmax,则结束训练。
7.一种基于意图推理与深度强化学习的移动目标搜索跟踪系统,其特征在于,包括:
意图推理数据集获取模块,用于获取移动目标运动轨迹数据和移动目标所处运动环境地图,以构建训练数据集;
意图推理特征获取模块,用于对所述训练数据集进行离散化处理,以构建特征地图矩阵;具体过程为:将所述移动目标所处运动环境地图转换为包含NX×NY个栅格单元的栅格地图,其中NX和NY分别表示栅格地图X轴方向和Y轴方向的栅格单元个数;在栅格地图中,将属性为可进入区域所在的栅格单元赋值为N1,将属性为不可进入区域所在的栅格单元赋值为N2,将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3;将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4;0<N1<1,0<N2<1,0<N3<1,0<N4<1,且N1、N2、N3、N4均不相等,从而获得多个特征地图矩阵;
意图推理模型训练模块,用于将所述特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练,获得训练好的目标运动意图推理模型;
意图推理模块,用于使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图;
轨迹预测模块,用于基于推理的未知运动轨迹的移动目标的运动意图,预测移动目标在丢失之后的运动轨迹;具体包括:以移动目标丢失的位置所在栅格单元为起点,采样Ns条轨迹作为预测的移动目标运动轨迹,其中在采样的Ns条轨迹中,终点位置是目的地位置gi的轨迹条数正比于推理出的移动目标前往目的地位置gi的概率,即采样轨迹中终点位置是目的地位置gi的轨迹条数计算如下:/>根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布,使用矩阵/>表示移动目标在t时刻之后在离散化栅格地图上的位置分布:
式中:表示位于矩阵/>中第k行第l列的元素;Nkl(tk′l(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元ckl且经过时间大于等于当前时刻t的次数;
搜索策略训练模块,用于基于移动目标在丢失之后的运动轨迹,采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略;
搜索跟踪模块,用于利用训练好的搜索策略对丢失的移动目标进行快速搜索,以实现对移动目标的长期跟踪。
8.根据权利要求7所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪系统,其特征在于,所述轨迹预测模块中将预测的每条移动目标运动轨迹表示为多个栅格单元 表示采样轨迹,Tc表示移动目标经过一个栅格单元所花费的时间,j=0,1,2,3,……,Hs,Hs表示每条移动目标运动轨迹所经过的栅格单元的个数;k表示第k条轨迹,k=1,2,3,……,Ns;每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出:
式中,fj,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角;/>表示栅格单元/>的中心位置与目的地位置gi的连线与栅格地图X轴的夹角; 表示栅格单元/>的邻居栅格单元集合;/>为正的常数;β表示归一化系数。
9.根据权利要求8所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪系统,其特征在于,所述搜索策略训练模块中采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略的具体过程包括:
步骤六一、建立移动目标搜索策略网络πθ以及πθ′,值函数网络Vφ,并使用πθ的参数θ初始化πθ′的参数θ′,即θ′=θ;移动目标搜索策略网络的输入为观测状态其中,/>表示对移动目标所处运动环境的观测状态,表示对预测的移动目标在离散化栅格地图上位置分布的观测状态,/>表示对移动目标历史移动轨迹的观测状态;输出为采取下一步动作at的概率P(at|ot);
步骤六二、使用移动目标搜索策略网络πθ′与收集交互经验{ot,at,rt+1,ot+1},其中,rt+1表示在t+1时刻获得的奖励值,ot+1表示在t+1时刻的观测状态;
步骤六三、利用收集的交互经验数据估计优势函数如下式所示:
式中:Tmax表示一个训练周期的最大时间步数;Vφ(ot)表示观测状态ot对应的值函数;γ表示折扣因子,满足0≤γ≤1;rt表示在t时刻获得的奖励值;表示观测状态/>对应的值函数;
步骤六四、判断当前时间步数是否超过最大时间步数Tmax,若超过则转至下一步,若没有超过则转至步骤六二;
步骤六五、从收集的交互经验数据中采样K条经验数据作为一个训练批次;
步骤六六、计算移动目标搜索策略网络πθ的损失函数,如下式所示:
式中:表示t时刻期望值的估计值;clip(x,xmin,xmax)表示将x的值限制在xmin与xmax之间;∈为正常数且满足0<∈<1;/>
步骤六七、通过最小化步骤六六中计算的损失函数更新移动目标搜索策略网络πθ的参数;
步骤六八、计算值函数网络Vφ的损失函数,如下式所示:
步骤六九、通过最小化步骤六八中计算的损失函数更新值函数网络Vφ的参数;
步骤六十、将移动目标搜索策略网络πθ的参数θ赋值到πθ′,即θ′←θ;
步骤六十一、判断训练周期是否到达最大的训练周期Nmax;若没有到达最大的训练周期Nmax,则转至步骤六二;若到达最大的训练周期Nmax,则结束训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581312.0A CN114970819B (zh) | 2022-05-26 | 2022-05-26 | 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581312.0A CN114970819B (zh) | 2022-05-26 | 2022-05-26 | 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114970819A CN114970819A (zh) | 2022-08-30 |
CN114970819B true CN114970819B (zh) | 2024-05-03 |
Family
ID=82955749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210581312.0A Active CN114970819B (zh) | 2022-05-26 | 2022-05-26 | 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970819B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473231A (zh) * | 2019-08-20 | 2019-11-19 | 南京航空航天大学 | 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法 |
WO2021007812A1 (zh) * | 2019-07-17 | 2021-01-21 | 深圳大学 | 一种深度神经网络超参数优化方法、电子设备及存储介质 |
CN112802061A (zh) * | 2021-03-22 | 2021-05-14 | 浙江师范大学 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
WO2021127507A1 (en) * | 2019-12-20 | 2021-06-24 | Waymo Llc | Vehicle intent prediction neural network |
WO2021134169A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 一种轨迹预测方法及相关设备 |
CN113157846A (zh) * | 2021-04-27 | 2021-07-23 | 商汤集团有限公司 | 意图及轨迹预测方法、装置、计算设备和存储介质 |
WO2021180062A1 (zh) * | 2020-03-09 | 2021-09-16 | 华为技术有限公司 | 意图识别方法及电子设备 |
CN113435644A (zh) * | 2021-06-25 | 2021-09-24 | 天津大学 | 基于深度双向长短期记忆神经网络的突发事件预测方法 |
CN114049602A (zh) * | 2021-10-29 | 2022-02-15 | 哈尔滨工业大学 | 一种基于意图推理的逃逸目标跟踪方法及系统 |
CN114120439A (zh) * | 2021-10-12 | 2022-03-01 | 江苏大学 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
CN114283576A (zh) * | 2020-09-28 | 2022-04-05 | 华为技术有限公司 | 一种车辆意图预测方法及相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11104334B2 (en) * | 2018-05-31 | 2021-08-31 | Tusimple, Inc. | System and method for proximate vehicle intention prediction for autonomous vehicles |
US20200363800A1 (en) * | 2019-05-13 | 2020-11-19 | Great Wall Motor Company Limited | Decision Making Methods and Systems for Automated Vehicle |
-
2022
- 2022-05-26 CN CN202210581312.0A patent/CN114970819B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021007812A1 (zh) * | 2019-07-17 | 2021-01-21 | 深圳大学 | 一种深度神经网络超参数优化方法、电子设备及存储介质 |
CN110473231A (zh) * | 2019-08-20 | 2019-11-19 | 南京航空航天大学 | 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法 |
WO2021127507A1 (en) * | 2019-12-20 | 2021-06-24 | Waymo Llc | Vehicle intent prediction neural network |
WO2021134169A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 一种轨迹预测方法及相关设备 |
WO2021180062A1 (zh) * | 2020-03-09 | 2021-09-16 | 华为技术有限公司 | 意图识别方法及电子设备 |
CN114283576A (zh) * | 2020-09-28 | 2022-04-05 | 华为技术有限公司 | 一种车辆意图预测方法及相关装置 |
CN112802061A (zh) * | 2021-03-22 | 2021-05-14 | 浙江师范大学 | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 |
CN113157846A (zh) * | 2021-04-27 | 2021-07-23 | 商汤集团有限公司 | 意图及轨迹预测方法、装置、计算设备和存储介质 |
CN113435644A (zh) * | 2021-06-25 | 2021-09-24 | 天津大学 | 基于深度双向长短期记忆神经网络的突发事件预测方法 |
CN114120439A (zh) * | 2021-10-12 | 2022-03-01 | 江苏大学 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
CN114049602A (zh) * | 2021-10-29 | 2022-02-15 | 哈尔滨工业大学 | 一种基于意图推理的逃逸目标跟踪方法及系统 |
Non-Patent Citations (4)
Title |
---|
"基于OKNN的目标战术意图识别方法";刘秋辉等;《现代防御技术》;20211231;第第49卷卷(第第03期期);全文 * |
"基于全连接神经网络的空战目标威胁评估方法研究";翟翔宇;《中国优秀硕士电子期刊网》;20201115(第第11期期);全文 * |
一种基于意图跟踪和强化学习的agent模型;续爽, 贾云得;北京理工大学学报;20040830(第08期);全文 * |
基于深度神经网络的空中目标作战意图识别;周旺旺;姚佩阳;张杰勇;王勋;魏帅;;航空学报;20180827(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114970819A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Deep reinforcement learning supervised autonomous exploration in office environments | |
US11727812B2 (en) | Airplane flight path planning method and device based on the pigeon-inspired optimization | |
CN110514206B (zh) | 一种基于深度学习的无人机飞行路径预测方法 | |
Rückin et al. | Adaptive informative path planning using deep reinforcement learning for uav-based active sensing | |
Chen et al. | Deep reinforced learning tree for spatiotemporal monitoring with mobile robotic wireless sensor networks | |
CN112269382B (zh) | 一种机器人多目标路径规划方法 | |
Khaksar et al. | Sampling-based online motion planning for mobile robots: utilization of Tabu search and adaptive neuro-fuzzy inference system | |
CN117053793A (zh) | 一种基于海空跨域协同的水质监测巡检方法、装置及设备 | |
Li et al. | Research on global path planning of unmanned vehicles based on improved ant colony algorithm in the complex road environment | |
CN114281103B (zh) | 一种零交互通信的飞行器集群协同搜索方法 | |
Li et al. | Graph attention memory for visual navigation | |
CN114970819B (zh) | 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统 | |
CN113723572A (zh) | 船只目标识别方法、计算机系统及程序产品、存储介质 | |
CN115630566B (zh) | 一种基于深度学习和动力约束的资料同化方法和系统 | |
Chen et al. | Minimizing return gaps with discrete communications in decentralized pomdp | |
Puente-Castro et al. | Q-Learning based system for Path Planning with Unmanned Aerial Vehicles swarms in obstacle environments | |
Lazreg et al. | Intelligent system for robotic navigation using ANFIS and ACOr | |
Parisotto | Meta reinforcement learning through memory | |
Chen et al. | Knowledge-driven path planning for mobile robots: relative state tree | |
Chen et al. | A Human-Machine Agent Based on Active Reinforcement Learning for Target Classification in Wargame | |
Lu et al. | Apso-based optimization algorithm of lstm neural network model | |
Li et al. | GAP: Goal-Aware Prediction with Hierarchical Interactive Representation for Vehicle Trajectory | |
CN115080879B (zh) | 一种位置搜索方法、装置、电子设备和可读存储介质 | |
Gu | An algorithm for path planning based on improved Q-Learning | |
Pavlic et al. | Foraging theory for autonomous vehicle speed choice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |