CN111061966B

CN111061966B - 基于强化学习算法的失踪目标搜索方法

Info

Publication number: CN111061966B
Application number: CN201911179955.7A
Authority: CN
Inventors: 於志勇; 韩磊; 黄昉菀; 郭文忠
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-08-05
Anticipated expiration: 2039-11-27
Also published as: WO2021103248A1; CN111061966A

Abstract

本发明提出一种基于强化学习算法的失踪目标搜索方法，包括如下步骤：步骤S1、数据预处理：包括时间和空间的离散化；目标移动轨迹的离散化；不同时间空间下搜索难度的标量化；步骤S2、强化学习训练环境构建：构建强化学习训练环境，训练环境信息包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率；步骤S3、时空搜索模型离线训练：对状态和行为的定义以及模型进行自适应优化；步骤S4、在线时空搜索决策：基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。其有效的降低了找到目标在目标时刻所在位置的搜索代价，完成搜索代价约束下的目标搜索任务。

Description

基于强化学习算法的失踪目标搜索方法

技术领域

本发明属于群智感知成本约束下的失踪目标搜索领域，尤其涉及一种基于强化学习算法的失踪目标搜索方法。

背景技术

在城市中寻找失踪目标(例如，汽车或人员)对于城市安全管理至关重要。例如，在过去的某个时刻、某个地点确定了可疑汽车。说明书附图1显示了典型的应用场景。序号表示某天从8:00到9:00的车辆轨迹的航路点，其中包括某些关键时刻的位置(浅色)。通过确定可疑车辆在特定时刻(即目标时刻)的位置并将其标记在地图上，依此类推，直到可以掌握其大致轨迹为止。在此之后不久，警方抓住了这条线索，并打算监控该可疑车辆行踪，以确定进一步的执行措施(例如，是否立刻执行抓捕行动)。然而，警察无法准确地掌握该车辆的当前位置，因此认为它“失踪了”。警方无法通过GPS或直接电话确定可疑车辆位置的原因包括：汽车没有GPS接收器；汽车的GPS信号不会上传到警察系统；虽然他们知道汽车的车牌号码，但警方不知道车内或车周围有谁以及哪个电话号码可以联系帮助确定可疑车辆位置。结果，警察选择通过在覆盖整个城市的摄像头产生的海量视频录像数据中搜索该车辆。由于摄像头的数量可达数百万，视频录像数据量十分庞大。这样就为寻找目标提出了巨大的挑战。

发明内容

为了克服现有技术存在的空白和不足，本发明的方案所要解决的技术问题是：怎样才能使用最少的搜索代价找到目标。在本发明的方案中，时空搜索被定义为考虑到城市被离散化为非重叠位置，时间被离散化为非重叠时刻，并且假定所有摄像头数据已被索引，就可以在特定时刻检查目标是否出现在指定位置。就人力或人工智能而言，时空搜索的成本可视为常数。解决这个问题的意义在于可以节省总成本来找到丢失的对象(目标)。

本发明的目的在于提供一种基于强化学习算法的失踪目标搜索方法，该搜索策略在已知目标时空信息的情况下选择下一搜索时刻，该搜索时刻的选择既考虑当前搜索的时效性又兼顾其对后续搜索的潜在影响，其所作出的时空搜索决策可以保证为全局最优决策，解决了启发式搜索方法所存在的局部最优解问题，有效的降低了找到目标在目标时刻所在位置的搜索代价，完成搜索代价约束下的目标搜索任务。

本发明具体采用以下技术方案：

一种基于强化学习算法的失踪目标搜索方法，其特征在于，包括如下步骤：

步骤S1、数据预处理：包括时间和空间的离散化；目标移动轨迹的离散化；不同时间空间下搜索难度的标量化；

步骤S2、强化学习训练环境构建：构建强化学习训练环境，训练环境信息包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率；

步骤S3、时空搜索模型离线训练：对状态和行为的定义以及模型进行自适应优化；

步骤S4、在线时空搜索决策：基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。

优选地，所述步骤S1的具体实现过程如下：

步骤S11、连接并读取原始数据库，获取目标GPS坐标信息，按照ID标识抽取出目标一天的完整轨迹数据；

步骤S12、以一固定时间间隔ΔT将一天时间离散化，将区域按照一固定大小面积ΔS将某特定空间离散化，并分别为每个离散化后的时间、区域编号；

步骤S13、根据步骤S101中得到的所述完整轨迹数据映射到步骤S102中对应的时间点和位置点，将GPS坐标数据转变成区域位置编号，得到离散的目标轨迹序列；

步骤S14、对搜索区域内存在的客观外在因素进行评估，确定其对时空搜索的影响，将搜索难度标量化，即量化时空搜索代价。

优选地，所述步骤S2的具体实现过程如下：

步骤S21、重置目标对象在起始时刻t_s的起始位置为l_s，确定搜索时刻为t_opt，计算t_s时刻位置为l_s的目标对象在t_opt时刻转移到各个位置的转移概率；

步骤S22、根据步骤S201中计算的位置转移概率和步骤S104评估的t_opt时刻不同位置搜索代价计算t_opt时刻的期望搜索代价。

优选地，所述步骤S3的具体实现过程如下：

步骤S31、形式化定义状态和行为，状态定义为已知的目标对象包含时间点和空间点的时空信息点，行为定义为搜索时刻t_opt所要执行的位置搜索序列；

步骤S32、基于步骤S2构建的强化学习训练环境和当前时空信息，确定当前时空搜索行为，根据行为的模拟反馈结果自适应调整时空策略。

优选地，所述步骤S4的具体实现过程如下：

步骤S41、根据步骤S3训练好的时空搜索模型和已知的目标对象时空信息并基于贪婪策略确定时空搜索行为，即t_opt时刻下的位置搜索序列；

步骤S42、根据步骤S41确定的时空搜索行为执行时空搜索直到找到目标对象在搜索时刻的位置信息，更新目标对象的已知时空信息；

步骤S43、重复步骤S41和步骤S42,直到确定目标对象在目标时刻的位置信息，输出该位置信息，结束搜索。

优选地，所述目标为车辆目标；

所述步骤S1的具体实现过程如下：

步骤S101、连接并读取原始数据库，获取目标GPS坐标信息，按照ID标识抽取出目标一天的完整轨迹数据；

步骤S102、以一固定时间间隔ΔT将时间离散化为时间序列

将区域按照一固定面积ΔS将空间离散化为位置集合 L＝{l₁,l₂,...,l_|L|}；

步骤S103、根据步骤S101中得到的完整轨迹数据结合步骤S102中离散化的时间、空间，将轨迹离散化，将GPS坐标数据转变成区域位置编号，得到离散的目标轨迹序列

其中，o_x表示目标车辆，d_j表示一天中的离散时间序列；

步骤S104、对搜索区域内存在的多种客观外在因素进行评估，确定其对时空搜索的影响，将搜索难度标量化，即搜索代价集合

优选地，所述步骤S2的具体实现过程如下：

步骤S201、重置目标对象在起始时刻t_s的起始位置为l_s，确定搜索时刻为t_opt,t_s＜t_opt≤t_target，根据历史轨迹数据TR计算t_s时刻位置为l_s的目标对象在t_opt时刻的各个位置的转移概率

概率表示为{P(Δt,t₀,l₀,：)}；其中，t_target为目标时刻，TR＝{tr(o_x,d_j)}；

步骤S202、根据步骤S201中计算的位置转移概率和步骤S104评估的t_opt时刻不同位置搜索难度计算概率代价率{η₁,η₂,...,η_i,...,η_n}，按照概率代价率由大到小确定t_opt时刻的位置搜索序列

其中，

为<t_opt,ξ_opt>第i次搜索的位置；

步骤S203、计算在起始时刻t_s的起始位置为l_s出发的对象在搜索时刻t_opt下的期望搜索代价Cost(t_opt,ξ_opt)；

其中，

为序列<t_opt,ξ_opt>的第i次搜索找到目标车辆的概率；

为序列<t_opt,ξ_opt>的期望搜索代价。

优选地，所述步骤S3的具体实现过程如下：

步骤S301、随机时空信息(t_s,l_s)、随机时间跨度Δt，则搜索时刻t_opt＝t_s+Δt；

步骤S302、计算最小潜在期望代价

其中，

为状态

下执行行为

得到的下一状态，

为状态(t_s,l_s)，

为状态

下执行的行为；

为状态

下执行的行为；

为用时空信息

表示的状态；

为状态

下执行的行为；

步骤S303、由于Cost(t_opt,ξ_opt)表示为{Cost(Δt,t_s,l_s)}，更新值函数Q(Δt,t_s,l_s)；

其中，α.为学习率；γ.为搜索代价贴现率；C^opt为在t_opt时刻找到目标车辆的期望搜索代价；

步骤S304、迭代循环迭代步骤S301、步骤S302、步骤S303直到值函数Q收敛。

优选地，所述步骤S4的具体实现过程如下：

步骤S401、初始化目标车辆o_x在搜索日期d_x的已知时空信息(t_s,l_s)和目标时刻t_target；

步骤S402、确定搜索时间间隔Δt＝argmin(Q(：,t_s,l_s))，确定搜索时间 t_opt＝t_s+Δt；

步骤S403、根据概率代价率由大到小确定时空搜索序列<t_opt,ξ_opt>；

步骤S404执行时空搜索

直到

返回车辆o_x在t_opt时刻的位置

步骤S405更新时空信息

步骤S406重复步骤S402、步骤S403、步骤S404、步骤S405直到t_s＝t_target，输出位置l_target

相较于现有技术，本发明及其优选方案具有以下有益效果：起主要用于求解具有时空约束以及任务代价限制的群智感知任务中的失踪目标搜索问题。该搜索策略在已知目标(车辆)时空信息的情况下选择下一搜索时刻，该搜索时刻的选择既考虑当前搜索的时效性又兼顾其对后续搜索的潜在影响，其所作出的时空搜索决策可以保证为全局最优决策，解决了启发式搜索方法所存在的局部最优解问题，有效的降低了找到目标在目标时刻所在位置的搜索代价，完成搜索代价约束下的目标搜索任务。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1是现有技术典型应用场景示意图；

图2是步骤S32示意图；

图3是本发明实施例整体流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

如图3所示，以车辆作为目标为例，本发明实施例提供的基于强化学习算法的搜索时刻搜索位置选择方法，主要包括以下步骤：

步骤S1、数据预处理：该步骤包括时间和空间的离散化；目标移动轨迹的离散化；不同时间空间下搜索难度的标量化,即搜索代价：步骤S11、连接并读取原始数据库，获取目标GPS坐标信息，按照ID标识抽取出目标一天的完整轨迹数据；步骤S12、以一固定时间间隔ΔT将一天时间离散化，将区域按照一固定大小面积ΔS将某特定空间离散化，并分别为每个离散化后的时间、区域编号；步骤S13、根据步骤S101中得到的所述完整轨迹数据映射到步骤S102中对应的时间点和位置点，将GPS坐标数据转变成区域位置编号，得到离散的目标轨迹序列；步骤S14、对搜索区域内存在的客观外在因素进行评估，确定其对时空搜索的影响，将搜索难度标量化，即量化时空搜索代价。

步骤S2、强化学习训练环境构建：该步骤构建强化学习训练环境，环境信息主要包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率：步骤S21、重置目标对象在起始时刻t_s的起始位置为l_s，确定搜索时刻为t_opt，计算t_s时刻位置为l_s的目标对象在t_opt时刻转移到各个位置的转移概率；步骤S22、根据步骤S201中计算的位置转移概率和步骤S104评估的t_opt时刻不同位置搜索代价计算t_opt时刻的期望搜索代价。

步骤S3、时空搜索模型离线训练：该步骤主要包含状态和行为的定义以及模型的自适应优化过程；步骤S31、形式化定义状态和行为，状态定义为已知的目标对象包含时间点和空间点的时空信息点，行为定义为搜索时刻t_opt所要执行的位置搜索序列；步骤S32、如图2所示，基于步骤S2构建的强化学习训练环境和当前时空信息，确定当前时空搜索行为，根据行为的模拟反馈结果自适应调整时空策略。

以上三个步骤是离线完成的。

步骤S4、在线时空搜索决策：该步骤基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。步骤S41、根据步骤 S3训练好的时空搜索模型和已知的目标对象时空信息并基于贪婪策略确定时空搜索行为，即t_opt时刻下的位置搜索序列；步骤S42、根据步骤S41确定的时空搜索行为执行时空搜索直到找到目标对象在搜索时刻的位置信息，更新目标对象的已知时空信息；步骤S43、重复步骤S41和步骤S42,直到确定目标对象在目标时刻的位置信息，输出该位置信息，结束搜索。

该步骤是在线完成的。

为了更好地描述本实施例提出的一种基于强化学习算法的失踪目标搜索方法，以下定义一些符号并进行详细的解释说明。

表I部分符号说明

在本实施例中，步骤S1的具体实现过程如下：

步骤S102、以一固定时间间隔ΔT(例如，ΔT＝1min)将时间离散化为时间序列

将区域按照一固定面积ΔS(例如，ΔS＝1km×1km) 将空间离散化为位置集合L＝{l₁,l₂,...,l_|L|}；

步骤S103、根据步骤S101中得到的完整轨迹数据结合步骤S102中离散化的时间、空间将轨迹离散化，将GPS坐标数据转变成区域位置编号，得到离散的目标轨迹序列

步骤S104、对搜索区域内存在的多种客观外在因素进行专业评估(例如可以采用专家评价法或者结合大数据分析，主要需要考量交通流量，道路网络和建筑物密度等因)，确定其对时空搜索的影响，将搜索难度标量化，即搜索代价集合

步骤S2的具体实现过程如下：

步骤S201、重置目标对象在起始时刻t_s的起始位置为l_s，确定搜索时刻为 t_opt,t₀＜t_opt≤t_target，根据历史轨迹数据TR计算t_s时刻位置为l_s的目标对象在t_opt时刻的各个位置的转移概率

步骤S202、根据步骤S201中计算的位置转移概率和步骤S104评估的t_opt时刻不同位置搜索难度计算概率代价率{η₁,η₂,...,η_i,...,η_n}(如公式(1))，按照概率代价率由大到小确定t_opt时刻的位置搜索序列

步骤S203、计算在起始时刻t_s的起始位置为l_s出发的对象在搜索时刻t_opt下的期望搜索代价Cost(t_opt,ξ_opt)，表示为{Cost(Δt,t_s,l_s)}(如公式(2))。

例如，假设时空搜索成本

位置转换概率

然后，降序排列的位置序列是 <t₃,ξ₃>＝<s(o_x,t₃,l₃),s(o_x,t₃,l₁),s(o_x,t₃,l₂),s(o_x,t₃,l₄)>在时刻t₃。预期的搜索成本为：

步骤S3的具体实现过程如下：

步骤S301、随机时空信息(t_s,l_s)、随机时间跨度Δt，t_opt＝t_s+Δt；

步骤S302、根据公式(3)计算

步骤S303、根据公式(4)更新值函数Q(Δt,t_s,l_s)；

经过强化学习后，时空搜索模型被表示为(S,A,C,Γ,Q)，其中

表示当前状态(t_s,l_s)；

表示当前动作<t_opt,ξ_opt>；C：S×A→C表示搜索成本函数C^opt＝Cost(t_opt,ξ_opt)；Γ：S×A→ΔS表示状态转换函数；Q表示值函数。下一个状态

通过在状态

下执行动作

获得。α.为学习率，取值为(0，1]；γ.为搜索代价贴现率，这两个参量为根据实际情况的可调节参量。

如图2所示，在上述步骤当中，首先，时空搜索模型被初始化。在每个循环中，时空搜索模型根据当前状态

决定搜索时刻t_opt，并且根据位置搜索序列

确定位置搜索的策略，值函数Q则根据公式4进行更新。其中，还需要根据感测到的环境信息 (例如交通流量，道路网络和建筑物密度)进行调整，这些信息将被量化为搜索成本C^opt。时空搜索模型将重复上述循环，直至在当前状态

下确定搜索时刻t_opt是最佳的。

步骤S4的具体实现过程如下：

步骤S401、初始化车辆o_x在d_x的已知时空信息(t_s,l_s)和目标时刻t_target；

步骤S403、根据概率代价率由大到小确定时空搜索序列<to_pt,ξo_pt>；

步骤S404执行时空搜索

直到

返回车辆o_x在t_opt时刻的位置

步骤S405更新时空信息

步骤S406重复步骤S402、步骤S403、步骤S404、步骤S405直到t_s＝t_target，输出位置l_target。

在本实施例中，时空搜索指的是：检查目标车辆o_x是否于特定位置l_i以及特定的时刻t_opt出现在在该时空点(t_opt,l_i)的摄像机记录中。如果车辆o_x在时刻t_opt出现在位置l_i，即(t_opt,l_i)∈tr(o_x,d_j)，则返回1，否则返回0，表示为：

本实施例还通过实验数据集进行了验证，实验数据集来自2014年8月中国成都的1.9万辆出租车的轨迹。数据采集区域约为30KM*30KM，每个轨迹的持续时间从7：00am到21：59pm。

表II数据集的详细说明

(a)原始数据详细信息

栏位名称	样例	备注
			车辆编号	1	\
是否有乘客	0/1	\
			时间戳	1501584540	Unix时间戳，以秒为单位
经度	104.042833	GCJ-02
			纬度	30.599851	GCJ-02

(b)一天中车辆的完整轨迹

由于原始数据集中不同车辆的GPS航路点是无序的。因此，首先需要通过对车辆ID进行过滤并分类时间戳来生成出租车的GPS航路点序列。在此实验中，时间被离散化为每分钟1分钟的时刻，并且只有每分钟时间戳最小的一个航路点指示该时刻的车辆位置。严重丢失数据的轨迹将则丢弃。表II中显示了原始数据的详细信息和完整的轨迹。

数据获取区域被分为每个大小为1KM*1KM，1.2KM*1.2KM，1.5KM*1.5KM的网格，然后将GPS航路点投影到网格中，每个网格代表一个位置。其中，前14天的99,265条轨迹用于训练，后3天从21,963条轨迹中随机选择的1000条轨迹用于测试，即1000条测试数据。在此实验中，假设搜索成本C在一个时空点是 1。在不同网格大小下，执行1000次测试并将结果计算平均值。

验证结果显示，本实施例方法相比于另外三种时空搜索算法：ALT(All Searchingat the Last Time)、IEM(Intermediate Searching at an Estimated Moment)、IHMs(Intermediate Searching at Heuristic Moments)：

1)当网格大小＝1KM×1KM时，在不同的时间间隔，IHM和本实施例方案优于 ALT和IEM。随着时间间隔变大，与IHMs相比，本实施例方案的优势在增加。

2)当时间间隔为30分钟或40分钟，网格大小＝1.2KM×1.2KM时，IHMs和本实施例方案优于ALT。时间间隔为50分钟时，ALT，IHMs和本实施例方案之间没有显着差异，但它们优于IEM。

3)当时间间隔为30分钟,网格大小＝1.5KM×1.5KM时，IHMs和本实施例方案优于ALT。当时间间隔为40min或50min时，ALT，IHMs和本实施例方案之间没有显着差异，但它们优于IEM。

不论网格大小和时间间隔如何，本实施例方案始终优于或等于IHMs。

考虑到IEM必须在中间时刻进行搜索，并且无法动态地做出决策以适应环境信息。因此，IEM在所有情况下几乎都是最差的。而本实施例方案可以克服IHMs 存在的不足，可以将任何和所有连续搜索的总成本降至最低。

表III不同学习率的累积搜索成本

表IV不同搜索代价贴现率的累积搜索成本

开始时刻	8：00	10：00	12：00	14：00	16：00	18：00	20：00
								α＝1,γ＝0.97	34.380	35.052	36.507	34.862	35.564	32.441	36.611
α＝1,γ＝0.99	33.246	33.424	35.006	33.270	34.312	30.458	35.105
								α＝1,γ＝1.00	32.810	32.900	34.854	32.717	34.059	30.145	34.969
α＝1,γ＝1.01	33.586	32.946	34.913	33.082	33.724	30.177	35.140
								α＝1,γ＝1.03	33.147	33.191	35.785	33.235	34.098	30.362	35.134
α＝1,γ＝1.05	33.677	33.640	36.167	33.923	34.961	31.211	35.786

由于公式(4)的学习率α和搜索代价贴现率γ两个参数属于可调节参数，在本实施例中，根据实际经验对其作出最优选择。

学习率α可以控制值函数的更新率。小学习率会降低值函数的收敛速度，大学习率则可能无法收敛到最优解。为了找到合适的学习率，本实施例将累计搜索成本作为测试结果的指标。多次测试采用不同学习率，分别为：1、0.5、0.3、 0.1，并控制其他变量：网格大小为1KM*1KM,t_target-t_s＝30min，搜索代价贴现率γ＝1，开始时刻ts＝8：00/10：00/12：00/14：00/16：00/18：00/20： 00。

测试结果验证了值函数已收敛于所有不同的学习率。如表III所示，不同学习率输出了相同的累积成本，这意味着它们的价值函数被收敛到相同的最优解。其区别只有训练时间不同。该训练是在具有16GB内存和

Core^TMi7-6700HQ 处理器的计算机上进行的考虑到为了加快训练速度，本实施例优选α＝1。

参量搜索代价贴现率γ的重要性在于可以平衡即时奖励(reward，可以理解为搜索代价的反面)和潜在奖励。γ＞1表示即时报酬比潜在报酬更重要，反之亦然。为了找到合适的搜索代价贴现率，本实施例将采用不同的搜索代价贴现率的测试结果进行比较，其衡量指标同样为累积搜索成本，设置搜索代价贴现率分别等于：0.97、0.99、1、1.01、1.03、1.05，网格大小为1KM*1KM, t_target-t_s＝30min，学习率α＝1，开始时刻ts＝8：00/10：00/12：00/14： 00/16：00/18：00/20：00。

如表IV所示，可以发现，当搜索代价贴现率γ＝1时，搜索成本最小，因此本实施例认为优选的搜索代价贴现率为γ＝1。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于强化学习算法的失踪目标搜索方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。