CN114970819B

CN114970819B - 一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统

Info

Publication number: CN114970819B
Application number: CN202210581312.0A
Authority: CN
Inventors: 白成超; 颜鹏; 郭继峰; 郑红星
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2024-05-03
Anticipated expiration: 2042-05-26
Also published as: CN114970819A

Abstract

一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统，涉及移动目标搜索跟踪技术领域，用以解决现有技术对复杂环境中运动的移动目标跟踪效果差、目标丢失之后搜索效率低的问题。本发明的技术要点包括：建立移动目标运动意图推理模型，根据观测到的移动目标运动状态推理目标的运动意图；基于推理的移动目标运动意图预测移动目标在丢失之后可能出现的位置；采用深度强化学习方法训练移动目标丢失之后的搜索策略；使用训练好的搜索策略对丢失的目标进行快速搜索，从而实现对目标的长期跟踪。本发明在移动目标运动模型未知时可以准确地预测出目标的运动轨迹，训练的搜索策略具有更好的泛化能力与鲁棒性，从而可快速搜索到丢失的目标。

Description

一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统

技术领域

本发明涉及移动目标搜索跟踪技术领域，具体涉及一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统。

背景技术

解决移动目标搜索跟踪问题的一般思路是首先根据观测到的目标状态以及目标运动模型预测目标未来的运动轨迹，然后在此基础上设计优化指标，从而求解最优的搜索跟踪指令，控制搜索跟踪系统对目标进行跟踪或者搜索。设计的优化目标通常是最小化未来一段时间内对目标状态观测的不确定性程度或者最大化对目标的跟踪时间，当目标丢失之后，优化目标通常是最小化再次发现目标的时间间隔。在对目标的运动轨迹进行预测时，通常使用卡尔曼滤波、扩展卡尔曼滤波、无迹卡尔曼滤波以及粒子滤波等滤波方法对目标的运动轨迹进行预测。这类目标运动轨迹预测方法非常依赖目标的运动模型，在目标运动模型已知时具有较好的预测精度，若没有精确的目标运动模型，则无法准确预测出目标的运动轨迹，在目标丢失之后很难再次搜索到目标，进而难以实现对目标的长期跟踪。此外，在求解跟踪搜索指令时，通常使用基于规则的优化方法优化设计的目标函数，例如基于凸优化的优化算法、启发式优化算法以及树搜索算法，这些算法完全基于设计的优化指标来求解搜索跟踪指令，当设计的优化指标正确时，通过这种基于规则的方式求解出的搜索跟踪指令可以很好的满足需求。然而，当设计的优化指标出现偏差时，比如当预测的目标运动轨迹不准确且优化指标的设计依赖预测的运动轨迹时，这种基于规则的优化方法难以避免优化指标出现偏差带来的影响，因而求解出的搜索跟踪指令也将出现偏差，导致难以搜索到丢失的目标，进而难以实现对目标的长期跟踪。当目标在复杂环境中运动且具有对抗行为时，这种问题将更加严重。

发明内容

为了解决现有方法对复杂环境中运动的移动目标跟踪效果差、目标丢失之后搜索效率低的问题，本发明提出一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统，当目标在视野中时，可以通过观测到的目标状态推理出目标的运动意图，当目标丢失之后，可以基于推理的目标运动意图预测目标的运动轨迹，然后使用经过深度强化学习方法训练出的搜索策略快速搜索到丢失的目标，实现对复杂环境中运动的具有对抗行为的移动目标的长期跟踪。

根据本发明的一方面，提供一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，该方法包括以下步骤：

步骤一、获取移动目标运动轨迹数据和移动目标所处运动环境地图，以构建训练数据集；

步骤二、对所述训练数据集进行离散化处理，以构建特征地图矩阵；

步骤三、将所述特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练，获得训练好的目标运动意图推理模型；

步骤四、使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图；

步骤五、基于推理的未知运动轨迹的移动目标的运动意图，预测移动目标在丢失之后的运动轨迹；

步骤六、基于移动目标在丢失之后的运动轨迹，采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略；

步骤七、利用训练好的搜索策略对丢失的移动目标进行快速搜索，以实现对移动目标的长期跟踪。

进一步地，步骤二的具体步骤包括：将所述移动目标所处运动环境地图转换为包含N_X×N_Y个栅格单元的栅格地图，其中N_X和N_Y分别表示栅格地图X轴方向和Y轴方向的栅格单元个数；在栅格地图中，将属性为可进入区域所在的栅格单元赋值为N1，将属性为不可进入区域所在的栅格单元赋值为N2，将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3；将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4；0<N1<1，0<N2<1，0<N3<1，0<N4<1，且N1、N2、N3、N4均不相等，从而获得多个特征地图矩阵。

进一步地，步骤二所述多个特征地图矩阵对应多个时刻的赋值后的栅格地图，设置N1＝0.2，N2＝0.6，N3＝0.4，N4＝0.8，用矩阵表示t时刻的特征地图矩阵，定义/>如下式所示：

式中：表示位于矩阵/>中第k行第l列的元素；c_kl表示栅格地图中位于第k行第l列的栅格单元；c(B_acc)与c(B_inacc)分别表示移动目标所处运动环境中可进入区域与不可进入区域所占据的栅格单元集合；c(G)表示移动目标所处运动环境中移动目标的目的地区域所占据的栅格单元集合；/>表示在t′时刻移动目标所在位置所占据的栅格单元；T_inf表示对移动目标运动意图推理的周期，即每隔时间段T_inf根据移动目标运动状态的改变推理其运动意图。

进一步地，步骤四的具体步骤包括：对于未知运动轨迹的移动目标，其特征地图矩阵构建如下：在栅格地图中，将属性为可进入区域所在的栅格单元赋值为N1，将属性为不可进入区域所在的栅格单元赋值为N2，实时获取未知运动轨迹的移动目标的位置点，将每个位置点所在的栅格单元赋值为N3，从而实时更新对应不同时刻的赋值后的栅格地图，作为特征地图矩阵输入训练好的目标运动意图推理模型中，获取移动目标前往其各个运动意图即预测目的地位置的概率，表示为表示目的地区域g_i所对应的特征矩阵；W_CNN表示移动目标运动意图推理模型f_CNN的参数；对移动目标前往每个预测目的地位置的概率进行归一化，表示为：

式中，G表示未知运动轨迹的移动目标的预测目的地位置集合。

进一步地，步骤五的具体步骤包括：以移动目标丢失的位置所在栅格单元为起点，采样N_s条轨迹作为预测的移动目标运动轨迹；根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布，使用矩阵表示移动目标在t时刻之后在离散化栅格地图上的位置分布：

式中：表示位于矩阵/>中第k行第l列的元素；N_kl(t_k′_l(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元c_kl且经过时间大于等于当前时刻t的次数。

进一步地，步骤五中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹，T_c表示移动目标经过一个栅格单元所花费的时间，j＝0,1,2,3,……,H_s，H_s表示每条移动目标运动轨迹所经过的栅格单元的个数；k表示第k条轨迹，k＝1,2,3,……,N_s；每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出：

式中，φ_j,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角；/>表示栅格单元/>的中心位置与目的地位置g_i的连线与栅格地图X轴的夹角；/>表示栅格单元/>的邻居栅格单元集合；为正的常数；β表示归一化系数。

进一步地，步骤六的具体步骤包括：

步骤六一、建立移动目标搜索策略网络π_θ以及π_θ′，值函数网络V_φ，并使用π_θ的参数θ初始化π_θ′的参数θ′，即θ′＝θ；移动目标搜索策略网络的输入为观测状态其中，/>表示对移动目标所处运动环境的观测状态，表示对预测的移动目标在离散化栅格地图上位置分布的观测状态，/>表示对移动目标历史移动轨迹的观测状态；输出为采取下一步动作a_t的概率P(a_t|o_t)；

步骤六二、使用移动目标搜索策略网络π_θ′与收集交互经验{o_t,a_t,r_t+1,o_t+1}，其中，r_t+1表示在t+1时刻获得的奖励值，o_t+1表示在t+1时刻的观测状态；

步骤六三、利用收集的交互经验数据估计优势函数如下式所示：

式中：T_max表示一个训练周期的最大时间步数；V_φ(o_t)表示观测状态o_t对应的值函数；γ表示折扣因子，满足0≤γ≤1；r_t表示在t时刻获得的奖励值；表示观测状态对应的值函数；

步骤六四、判断当前时间步数是否超过最大时间步数T_max，若超过则转至下一步，若没有超过则转至步骤六二；

步骤六五、从收集的交互经验数据中采样K条经验数据作为一个训练批次；

步骤六六、计算移动目标搜索策略网络π_θ的损失函数，如下式所示：

式中：表示t时刻期望值的估计值；clip(x,x_min,x_max)表示将x的值限制在x_min与x_max之间；∈为正常数且满足0<∈<1；/>

步骤六七、通过最小化步骤六六中计算的损失函数更新移动目标搜索策略网络π_θ的参数；

步骤六八：计算值函数网络V_φ的损失函数，如下式所示：

式中：γ为常数且满足0≤γ≤1；

步骤六九：通过最小化步骤六八中计算的损失函数更新值函数网络V_φ的参数；

步骤六十：将移动目标搜索策略网络π_θ的参数θ赋值到π_θ′，即θ′←θ；

步骤六十一：判断训练周期是否到达最大的训练周期N_max；若没有到达最大的训练周期N_max，则转至步骤六二；若到达最大的训练周期N_max，则结束训练。

根据本发明的另一方面，提供一种基于意图推理与深度强化学习的移动目标搜索跟踪系统，该系统包括：

意图推理数据集获取模块，用于获取移动目标运动轨迹数据和移动目标所处运动环境地图，以构建训练数据集；

意图推理特征获取模块，用于对所述训练数据集进行离散化处理，以构建特征地图矩阵；具体过程为：将所述移动目标所处运动环境地图转换为包含N_X×N_Y个栅格单元的栅格地图，其中N_X和N_Y分别表示栅格地图X轴方向和Y轴方向的栅格单元个数；在栅格地图中，将属性为可进入区域所在的栅格单元赋值为N1，将属性为不可进入区域所在的栅格单元赋值为N2，将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3；将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4；0<N1<1，0<N2<1，0<N3<1，0<N4<1，且N1、N2、N3、N4均不相等，从而获得多个特征地图矩阵；

意图推理模型训练模块，用于将所述特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练，获得训练好的目标运动意图推理模型；

意图推理模块，用于使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图；

轨迹预测模块，用于基于推理的未知运动轨迹的移动目标的运动意图，预测移动目标在丢失之后的运动轨迹；具体包括：以移动目标丢失的位置所在栅格单元为起点，采样N_s条轨迹作为预测的移动目标运动轨迹；根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布，使用矩阵表示移动目标在t时刻之后在离散化栅格地图上的位置分布：

式中：表示位于矩阵/>中第k行第l列的元素；N_kl(t_k′_l(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元c_kl且经过时间大于等于当前时刻t的次数；

搜索策略训练模块，用于基于移动目标在丢失之后的运动轨迹，采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略；

搜索跟踪模块，用于利用训练好的搜索策略对丢失的移动目标进行快速搜索，以实现对移动目标的长期跟踪。

进一步地，所述轨迹预测模块中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹，T_c表示移动目标经过一个栅格单元所花费的时间，j＝0,1,2,3,……,H_s，H_s表示每条移动目标运动轨迹所经过的栅格单元的个数；k表示第k条轨迹，k＝1,2,3,……,N_s；每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出：

进一步地，所述搜索策略训练模块中采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略的具体过程包括：

步骤六八：计算值函数网络V_φ的损失函数，如下式所示：

式中：γ为常数且满足0≤γ≤1；

本发明的有益技术效果是：

本发明通过推理移动目标运动意图以及采用深度强化学习方法训练搜索策略的途径实现对移动目标的快速搜索以及长期跟踪，可解决对复杂环境中运动的具有对抗行为的移动目标的快速搜索以及长期跟踪的问题。相比于传统方法，本发明具有以下优势：1)通过对移动目标运动意图的推理，可在移动目标运动模型未知时较为准确地预测出目标的运动轨迹，进而为目标丢失之后的搜索过程提供有利的指导；2)通过使用深度强化学习方法训练搜索策略的方式，可以使得训练出的搜索策略具有更好的泛化能力与鲁棒性，并且具有更灵活的自主探索能力，可以在预测的目标运动轨迹出现偏差时自主探索预测的目标运动轨迹未覆盖的区域，从而快速搜索到丢失的目标，实现对移动目标的长期跟踪。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。

图1是本发明实施例一种基于意图推理与深度强化学习的移动目标搜索跟踪方法的流程图；

图2是本发明实施例中移动目标运动意图推理网络的结构示意图；

图3是本发明实施例中移动目标搜索策略网络的结构示意图；

图4是本发明实施例中移动目标运动意图推理网络训练过程的损失值变化曲线示例图；

图5是本发明实施例中预测的移动目标位置分布的示例图；

图6是本发明实施例中移动目标搜索策略网络训练过程的跟踪效率变化曲线示例图；

图7是本发明实施例中对移动目标进行搜索跟踪过程的示意图；

图8是本发明实施例一种基于意图推理与深度强化学习的移动目标搜索跟踪系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，在下文中将结合附图对本发明的示范性实施方式或实施例进行描述。显然，所描述的实施方式或实施例仅仅是本发明一部分的实施方式或实施例，而不是全部的。基于本发明中的实施方式或实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式或实施例，都应当属于本发明保护的范围。

本发明提出一种基于意图推理与深度强化学习的移动目标搜索跟踪方法及系统，首先使用收集的移动目标运动轨迹数据构建训练数据集；接着建立移动目标运动意图推理模型，根据观测到的移动目标运动状态推理目标的运动意图；然后基于推理的移动目标运动意图预测移动目标在丢失之后可能出现的位置；之后采用深度强化学习方法训练移动目标丢失之后的搜索策略；最后，使用训练好的搜索策略对丢失的目标进行快速搜索，从而实现对目标的长期跟踪。

本发明实施例提供一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，如图1所示，该方法包括以下步骤：

步骤二、对训练数据集进行离散化处理，以构建特征地图矩阵；

步骤三、将特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练，获得训练好的目标运动意图推理模型；

本实施例中，可选地，步骤二的具体步骤包括：将移动目标所处运动环境地图转换为包含N_X×N_Y个栅格单元的栅格地图，其中N_X和N_Y分别表示栅格地图X轴方向和Y轴方向的栅格单元个数；在栅格地图中，将属性为可进入区域所在的栅格单元赋值为N1，将属性为不可进入区域所在的栅格单元赋值为N2，将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3；将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4；0<N1<1，0<N2<1，0<N3<1，0<N4<1，且N1、N2、N3、N4均不相等，从而获得多个特征地图矩阵。

本实施例中，可选地，步骤二多个特征地图矩阵对应多个时刻的赋值后的栅格地图，设置N1＝0.2，N2＝0.6，N3＝0.4，N4＝0.8，用矩阵表示t时刻的特征地图矩阵，定义如下式所示：

本实施例中，可选地，步骤四的具体步骤包括：对于未知运动轨迹的移动目标，其特征地图矩阵构建如下：在栅格地图中，将属性为可进入区域所在的栅格单元赋值为N1，将属性为不可进入区域所在的栅格单元赋值为N2，实时获取未知运动轨迹的移动目标的位置点，将每个位置点所在的栅格单元赋值为N3，从而实时更新对应不同时刻的赋值后的栅格地图，作为特征地图矩阵输入训练好的目标运动意图推理模型中，获取移动目标前往其各个运动意图即预测目的地位置的概率，表示为表示目的地区域g_i所对应的特征矩阵；W_CNN表示移动目标运动意图推理模型f_CNN的参数；对移动目标前往每个预测目的地位置的概率进行归一化，表示为：

本实施例中，可选地，步骤五的具体步骤包括：以移动目标丢失的位置所在栅格单元为起点，采样N_s条轨迹作为预测的移动目标运动轨迹；根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布，使用矩阵表示移动目标在t时刻之后在离散化栅格地图上的位置分布：

本实施例中，可选地，步骤五中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹，T_c表示移动目标经过一个栅格单元所花费的时间，j＝0,1,2,3,……,H_s，H_s表示每条移动目标运动轨迹所经过的栅格单元的个数；k表示第k条轨迹，k＝1,2,3,……,N_s；每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出：

本实施例中，可选地，步骤六的具体步骤包括：

步骤六八：计算值函数网络V_φ的损失函数，如下式所示：

式中：γ为常数且满足0≤γ≤1；

本发明另一实施例提供一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，该方法包括以下步骤：

步骤一：使用收集的移动目标运动轨迹数据构建训练数据集。

根据本发明实施例，通过收集的移动目标运动轨迹构建训练数据集表示训练数据集/>中第i条移动目标运动轨迹，其包含T_i个时刻观测到的目标位置/>N表示训练数据集/>中的运动轨迹个数。

训练数据集中移动目标运动轨迹的终点位置可通过聚类的方式划分为N_g个目的地位置g_i(g_i∈G,i＝1,2,…N_g)，式中G表示训练数据集/>中移动目标运动轨迹目的地位置集合。

步骤二：建立移动目标运动意图推理模型，根据观测到的移动目标运动状态推理移动目标的运动意图。

根据本发明实施例，首先，对移动目标的运动环境进行离散化处理。具体地，将移动目标所在的环境离散化为N_X×N_Y个面积相等的栅格单元，其中N_X与N_Y分别表示离散化之后的环境地图在X轴方向与Y轴方向的栅格单元个数。使用矩阵表示t时刻的离散化环境，定义/>如下式所示：

/>

式中：表示位于矩阵/>中第k行第l列的元素；c_kl表示离散地图中位于第k行第l列的栅格单元；c(B_acc)与c(B_inacc)分别表示移动目标所在环境中可进入区域与不可进入区域所占据的栅格单元集合；c(G)表示移动目标所在环境中移动目标的目的地区域所占据的栅格单元集合；/>表示在t′时刻目标所在位置占据的栅格单元；T_inf表示对移动目标运动意图推理的周期，即每隔时间段T_inf根据移动目标运动状态的改变推理目标的运动意图。

然后，基于卷积神经网络建立移动目标运动意图推理网络f_CNN。具体地，建立的移动目标运动意图推理网络的输入为表示针对目标目的地区域g_i的离散化地图，定义如下：

并且对于/>根据移动目标运动意图推理网络f_CNN计算的移动目标前往目的地区域g_i的概率可表示为：

式中：W_CNN表示移动目标运动意图推理网络f_CNN的参数。

建立的移动目标运动意图推理网络f_CNN的结构如图2所示。其中，前两层网络为二维卷积神经网络。第一层二维卷积神经网络具有4个卷积窗口大小为(2,2)的卷积核，卷积滑动步长为1。第二层二维卷积神经网络具有4个卷积窗口大小为(2,2)的卷积核，卷积滑动步长为2。后三层网络为全连接网络，每层中的神经元个数分别为100,100,1。以上网络结构中的二维卷积神经网络以及前两层全连接网络的激活函数为ReLU，最后一层全连接网络的激活函数为Sigmoid，目的地是将输出值限制在(0,1)之间。

然后，从构建的训练数据集中学习出移动目标运动意图推理网络的参数。具体地，通过最小化以下损失函数求解移动目标运动意图推理网络f_CNN的最优参数

式中：Y_i(g_k)表示训练数据集中的第i条轨迹的终点位置是目的地位置g_k的标志位，若是Y_i(g_k)＝1，否则Y_i(g_k)＝0；P_i ^j(g_k)表示移动目标运动意图推理网络f_CNN推理出的训练数据集中的第i条轨迹在j时刻前往目的地位置g_k的概率；λ为正常数。

最后，使用训练完成的移动目标运动意图推理网络推理移动目标前往各目的地位置的概率。

步骤三：基于推理的移动目标运动意图预测移动目标在丢失之后可能出现的位置。

根据本发明实施例，首先，以移动目标丢失的位置为起点，采样多条轨迹作为预测的移动目标运动轨迹。具体地，假设当移动目标位于栅格单元时丢失目标，则以栅格单元/>为起点，采样N_s条深度为H_s的轨迹，作为对移动目标运动轨迹的预测。特别地，在采样的N_s条轨迹中，终点位置是目的地位置g_i的轨迹条数正比于推理出的移动目标前往目的地位置g_i的概率，即采样轨迹中终点位置是目的地位置g_i的轨迹条数N_si计算如下：/>

以上采样的第k条轨迹可表示为：

其中，T_c表示移动目标经过一个栅格单元所花费的时间。特别地，采样轨迹τ_k中的栅格单元序列通过以下概率采样得出：

式中：φ_j,j+1表示栅格单元与/>中心位置的连线与X轴的夹角；表示栅格单元/>的中心位置与目的地位置g_i的连线与X轴的夹角；/>表示栅格单元/>的邻居栅格单元集合；/>为正常数；β为归一化系数，计算如下所示：

然后，根据预测的移动目标运动轨迹计算移动目标在离散化环境地图上的位置分布。具体地，使用矩阵表示移动目标在t时刻之后在离散化环境地图上的位置分布，/>的定义如下：

步骤四：采用深度强化学习方法训练移动目标丢失之后的搜索策略。

根据本发明实施例，具体包括以下步骤：

步骤四一：建立移动目标搜索策略网络π_θ以及π_θ′，值函数网络V_φ，并使用π_θ的参数θ初始化π_θ′的参数θ′，即θ′＝θ。

图3所示为建立的移动目标搜索策略网络。具体地，移动目标搜索策略网络的输入为观测状态其中/>表示移动目标搜索跟踪系统对移动目标运动环境的观测状态，/>表示移动目标搜索跟踪系统对预测的移动目标位置分布的观测状态，/>表示移动目标搜索跟踪系统对其历史移动轨迹的观测状态。移动目标搜索策略网络的输出为移动目标搜索跟踪系统采取下一步动作a_t的概率P(a_t|o_t)，由于在离散化的环境中，移动目标搜索跟踪系统的周围最多有8个邻居栅格单元，因此，移动目标搜索策略网络的输出维度为8。值函数网络V_φ的结构与π_θ相似，不同之处在与其最后一层只有一个线性输出单元；

步骤四二：使用移动目标搜索策略网络π_θ′与收集交互经验{o_t,a_t,r_t+1,o_t+1}，其中r_t+1表示移动目标搜索跟踪系统在t+1时刻获得的奖励值；

步骤四三：利用步骤四三中收集的经验数据估计优势函数如下式所示：/>

式中：T_max表示一个训练周期的最大时间步数；

步骤四四：判断当前时间步数是否超过最大时间步数T_max，若超过则转至下一步，若没有超过则转至步骤四二；

步骤四五：从步骤四二中收集的经验数据中采样K条经验数据作为一个训练批次；

步骤四六：计算移动目标搜索策略网络π_θ的损失函数，如下式所示：

式中：clip(x,x_min,x_max)表示将x的值限制在x_min与x_max之间；∈为正常数且满足0<∈<1；

步骤四七：通过最小化步骤四六中计算的损失值更新移动目标搜索策略网络π_θ的参数；

步骤四八：计算值函数网络V_φ的损失函数，如下式所示：

式中：γ为常数且满足0≤γ≤1；

步骤四九：通过最小化步骤四八中计算的损失值更新值函数网络V_φ的参数；

步骤四十：将移动目标搜索策略网络π_θ的参数θ赋值到π_θ′，即θ′←θ。

步骤四十一：判断训练周期是否到达最大的训练周期N_max；若没有到达最大的训练周期N_max，则转至步骤四二；若到达最大的训练周期N_max，则结束训练。

步骤五：利用步骤四中训练好的移动目标搜索策略对丢失的目标进行快速搜索，从而实现对目标的长期跟踪。

进一步通过实验验证本发明的技术效果。

采用数字仿真的方式验证本发明的正确性以及合理性。首先在Python环境中构建一个仿真场景，如图2中的环境地图所示，包括复杂环境模型、移动目标模型以及移动目标搜索跟踪系统模型。在复杂环境模型中，包含不可进入区域、可进入区域以及目的地区域。其中不可进入区域表示移动目标无法进入的区域，可进入区域表示移动目标可以进入的区域，移动目标可通过进入可进入区域的方式躲避跟踪，目的地区域表示移动目标可能的目的地位置。移动目标按照设定的行为方式由起点向随机选定的目的地区域运动，在可进入区域里面移动的速度是1m/s，在可进入区域外面移动的速度是2m/s。在建立的仿真环境中，移动目标搜索跟踪系统在初始时刻可以观测到目标，当目标进入可进入区域时，丢失目标，此时需要移动目标搜索跟踪系统采取搜索策略重新搜索到目标，为了使移动目标搜索跟踪系统有机会重新搜索到丢失的目标，将其最大移动速度设置为5m/s。实验仿真测试软件环境为Windows10+Python3.7，硬件环境为I9-9820X CPU+GTX1080Ti GPU+64.0GBRAM。

实验首先验证步骤二中移动目标运动意图推理网络的训练过程是否收敛。首先使用建立的仿真环境随机生成500条移动目标运动轨迹作为训练数据集然后通过梯度下降法优化移动目标运动意图推理网络的参数，图4所示为步骤二三中移动目标运动意图推理网络训练过程中的损失值变化曲线。由图可知，整个训练过程共包含100个训练周期，且随着训练周期的不断增加，损失值逐渐减小，当训练周期大于60时，损失值减小的幅度逐步降低，表明网络的训练过程逐步收敛。本发明以经过100轮训练周期训练的参数作为以下测试实例中使用的移动目标运动意图推理网络的参数。

接着通过一次对移动目标位置分布的预测结果验证对移动目标运动意图的推理可以更加准确地预测出移动目标丢失之后的位置分布。图5所示为预测的移动目标丢失之后的位置分布。由图可知，相对于移动目标运动意图未知时的预测结果，在对移动目标运动意图进行推理之后，预测的移动目标位置分布更加接近移动目标真实的运动轨迹。以上结果表明对移动目标运动意图的推理可以提升对移动目标位置分布预测的准确性。

然后验证步骤四中移动目标搜索策略的训练过程是否收敛。图6所示为步骤四中移动目标搜索策略网络训练过程中的跟踪效率变化曲线。由图可知，随着训练周期的持续增加，在两种不同情况下的搜索策略所具有的跟踪效率在不断提升，当训练周期大于15000时，两种搜索策略的跟踪效率没有明显的增加趋势，表明训练过程基本收敛，在之后的训练周期中，两种搜索策略的跟踪效率在上下波动，这是由于仿真的随机性导致的。图6所示的整个训练过程表明步骤四中移动目标搜索策略的训练过程是收敛的。同时注意到目标运动意图未知时的跟踪效率低于对目标运动意图进行推理之后的跟踪效率，这说明对移动目标运动意图的推理可以提高对移动目标的跟踪效率。

最后，本发明通过一次对移动目标丢失之后的搜索过程验证本发明所述的移动目标搜索跟踪系统可以快速搜索到丢失的目标，实现对移动目标的长期跟踪。图7所示为移动目标丢失之后移动目标搜索跟踪系统根据图6中训练出的两种搜索策略对丢失目标的搜索过程。由图可知，当移动目标的运动意图未知时，移动目标搜索跟踪系统按照丢失目标之前观测到的目标的移动方向搜索目标，由于移动目标没有按照丢失之前的运动方向移动，因此，移动目标搜索跟踪系统没有搜索到目标。当对移动目标的运动意图进行推理之后，移动目标搜索跟踪系统按照移动目标运动意图所指向的方向搜索目标，当移动目标从可进入区域出来之后便搜索到了目标。以上结果表明本发明可通过对移动目标运动意图的推理实现对丢失目标的快速搜索，从而在整个任务周期上实现对移动目标的长期跟踪。

由以上结果可知，对于在复杂环境中运动的移动目标，本发明可通过对移动目标运动意图的推理准确预测出目标丢失之后的位置分布，同时利用经过深度强化学习方法训练之后的搜索策略快速搜索到丢失的目标，进而在整个任务周期上实现对移动目标的长期跟踪。根据本发明可实现对复杂环境中移动目标的快速搜索与长期跟踪，为移动目标搜索跟踪技术提供了新的技术思路。

本发明另一实施例提供一种基于意图推理与深度强化学习的移动目标搜索跟踪系统，如图8所示，该系统包括：

意图推理数据集获取模块10，用于获取移动目标运动轨迹数据和移动目标所处运动环境地图，以构建训练数据集；

意图推理特征获取模块20，用于对训练数据集进行离散化处理，以构建特征地图矩阵；具体过程为：将移动目标所处运动环境地图转换为包含N_X×N_Y个栅格单元的栅格地图，其中N_X和N_Y分别表示栅格地图X轴方向和Y轴方向的栅格单元个数；在栅格地图中，将属性为可进入区域所在的栅格单元赋值为N1，将属性为不可进入区域所在的栅格单元赋值为N2，将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3；将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4；0<N1<1，0<N2<1，0<N3<1，0<N4<1，且N1、N2、N3、N4均不相等，从而获得多个特征地图矩阵；

意图推理模型训练模块30，用于将特征地图矩阵输入基于卷积神经网络的目标运动意图推理模型进行训练，获得训练好的目标运动意图推理模型；

意图推理模块40，用于使用训练好的目标运动意图推理模型推理未知运动轨迹的移动目标的运动意图；

轨迹预测模块50，用于基于推理的未知运动轨迹的移动目标的运动意图，预测移动目标在丢失之后的运动轨迹；具体包括：以移动目标丢失的位置所在栅格单元为起点，采样N_s条轨迹作为预测的移动目标运动轨迹；根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布，使用矩阵表示移动目标在t时刻之后在离散化栅格地图上的位置分布：

式中：表示位于矩阵/>中第k行第l列的元素；N_kl(t′_kl(T)≥t)表示在预测的移动目标运动轨迹中经过栅格单元c_kl且经过时间大于等于当前时刻t的次数；

搜索策略训练模块60，用于基于移动目标在丢失之后的运动轨迹，采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略；

搜索跟踪模块70，用于利用训练好的搜索策略对丢失的移动目标进行快速搜索，以实现对移动目标的长期跟踪。

本实施例中，可选地，轨迹预测模块50中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹，T_c表示移动目标经过一个栅格单元所花费的时间，j＝0,1,2,3,……,H_s，H_s表示每条移动目标运动轨迹所经过的栅格单元的个数；k表示第k条轨迹，k＝1,2,3,……,N_s；每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出：

本实施例中，可选地，搜索策略训练模块60中采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略的具体过程包括：

步骤六八：计算值函数网络V_φ的损失函数，如下式所示：

式中：γ为常数且满足0≤γ≤1；

本实施例所述一种基于意图推理与深度强化学习的移动目标搜索跟踪系统的功能可以由前述一种基于意图推理与深度强化学习的移动目标搜索跟踪方法说明，因此本实施例未详述部分，可参见以上方法实施例，在此不再赘述。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，其特征在于，包括以下步骤：

步骤二、对所述训练数据集进行离散化处理，以构建特征地图矩阵；具体步骤包括：将所述移动目标所处运动环境地图转换为包含N_X×N_Y个栅格单元的栅格地图，其中N_X和N_Y分别表示栅格地图X轴方向和Y轴方向的栅格单元个数；在栅格地图中，将属性为可进入区域所在的栅格单元赋值为N1，将属性为不可进入区域所在的栅格单元赋值为N2，将每个移动目标运动轨迹的多个位置点所在的栅格单元赋值为N3；将每个移动目标运动轨迹的目的地位置所在的栅格单元赋值为N4；0<N1<1，0<N2<1，0<N3<1，0<N4<1，且N1、N2、N3、N4均不相等，从而获得多个特征地图矩阵；

2.根据权利要求1所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，其特征在于，步骤二所述多个特征地图矩阵对应多个时刻的赋值后的栅格地图，设置N1＝0.2，N2＝0.6，N3＝0.4，N4＝0.8，用矩阵表示t时刻的特征地图矩阵，定义/>如下式所示：

3.根据权利要求2所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，其特征在于，步骤四的具体步骤包括：对于未知运动轨迹的移动目标，其特征地图矩阵构建如下：在栅格地图中，将属性为可进入区域所在的栅格单元赋值为N1，将属性为不可进入区域所在的栅格单元赋值为N2，实时获取未知运动轨迹的移动目标的位置点，将每个位置点所在的栅格单元赋值为N3，从而实时更新对应不同时刻的赋值后的栅格地图，作为特征地图矩阵输入训练好的目标运动意图推理模型中，获取移动目标前往其各个运动意图即预测目的地位置的概率，表示为表示目的地区域g_i所对应的特征矩阵；W_CNN表示移动目标运动意图推理模型f_CNN的参数；对移动目标前往每个预测目的地位置的概率进行归一化，表示为：

4.根据权利要求3所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，其特征在于，步骤五的具体步骤包括：以移动目标丢失的位置所在栅格单元为起点，采样N_s条轨迹作为预测的移动目标运动轨迹，其中在采样的N_s条轨迹中，终点位置是目的地位置g_i的轨迹条数正比于推理出的移动目标前往目的地位置g_i的概率，即采样轨迹中终点位置是目的地位置g_i的轨迹条数计算如下：/>根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布，使用矩阵/>表示移动目标在t时刻之后在离散化栅格地图上的位置分布：

5.根据权利要求4所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，其特征在于，步骤五中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹，T_c表示移动目标经过一个栅格单元所花费的时间，j＝0,1,2,3,……,H_s，H_s表示每条移动目标运动轨迹所经过的栅格单元的个数；k表示第k条轨迹，k＝1,2,3,……,N_s；每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出：

式中，φ_j,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角；/>表示栅格单元/>的中心位置与目的地位置g_i的连线与栅格地图X轴的夹角；表示栅格单元/>的邻居栅格单元集合；/>为正的常数；β表示归一化系数。

6.根据权利要求5所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪方法，其特征在于，步骤六的具体步骤包括：

式中：T_max表示一个训练周期的最大时间步数；V_φ(o_t)表示观测状态o_t对应的值函数；γ表示折扣因子，满足0≤γ≤1；r_t表示在t时刻获得的奖励值；表示观测状态/>对应的值函数；

式中：表示t时刻期望值的估计值；clip(x,x_min,x_max)表示将x的值限制在x_min与x_max之间；∈为正常数且满足0＜∈＜1；/>

步骤六八、计算值函数网络V_φ的损失函数，如下式所示：

步骤六九、通过最小化步骤六八中计算的损失函数更新值函数网络V_φ的参数；

步骤六十、将移动目标搜索策略网络π_θ的参数θ赋值到π_θ′，即θ′←θ；

步骤六十一、判断训练周期是否到达最大的训练周期N_max；若没有到达最大的训练周期N_max，则转至步骤六二；若到达最大的训练周期N_max，则结束训练。

7.一种基于意图推理与深度强化学习的移动目标搜索跟踪系统，其特征在于，包括：

轨迹预测模块，用于基于推理的未知运动轨迹的移动目标的运动意图，预测移动目标在丢失之后的运动轨迹；具体包括：以移动目标丢失的位置所在栅格单元为起点，采样N_s条轨迹作为预测的移动目标运动轨迹，其中在采样的N_s条轨迹中，终点位置是目的地位置g_i的轨迹条数正比于推理出的移动目标前往目的地位置g_i的概率，即采样轨迹中终点位置是目的地位置g_i的轨迹条数计算如下：/>根据预测的移动目标运动轨迹计算移动目标在离散化栅格地图上的位置分布，使用矩阵/>表示移动目标在t时刻之后在离散化栅格地图上的位置分布：

8.根据权利要求7所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪系统，其特征在于，所述轨迹预测模块中将预测的每条移动目标运动轨迹表示为多个栅格单元表示采样轨迹，T_c表示移动目标经过一个栅格单元所花费的时间，j＝0,1,2,3,……,H_s，H_s表示每条移动目标运动轨迹所经过的栅格单元的个数；k表示第k条轨迹，k＝1,2,3,……,N_s；每条移动目标运动轨迹中的多个栅格单元通过以下概率采样得出：

式中，f_j,j+1表示栅格单元与/>中心位置的连线与栅格地图X轴的夹角；/>表示栅格单元/>的中心位置与目的地位置g_i的连线与栅格地图X轴的夹角；表示栅格单元/>的邻居栅格单元集合；/>为正的常数；β表示归一化系数。

9.根据权利要求8所述的一种基于意图推理与深度强化学习的移动目标搜索跟踪系统，其特征在于，所述搜索策略训练模块中采用深度强化学习方法训练移动目标丢失之后搜索移动目标的搜索策略的具体过程包括：

步骤六八、计算值函数网络V_φ的损失函数，如下式所示：