CN111061966B - 基于强化学习算法的失踪目标搜索方法 - Google Patents

基于强化学习算法的失踪目标搜索方法 Download PDF

Info

Publication number
CN111061966B
CN111061966B CN201911179955.7A CN201911179955A CN111061966B CN 111061966 B CN111061966 B CN 111061966B CN 201911179955 A CN201911179955 A CN 201911179955A CN 111061966 B CN111061966 B CN 111061966B
Authority
CN
China
Prior art keywords
time
search
target
opt
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911179955.7A
Other languages
English (en)
Other versions
CN111061966A (zh
Inventor
於志勇
韩磊
黄昉菀
郭文忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911179955.7A priority Critical patent/CN111061966B/zh
Priority to PCT/CN2019/128552 priority patent/WO2021103248A1/zh
Publication of CN111061966A publication Critical patent/CN111061966A/zh
Application granted granted Critical
Publication of CN111061966B publication Critical patent/CN111061966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/01Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/13Receivers
    • G01S19/14Receivers specially adapted for specific applications
    • G01S19/19Sporting applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于强化学习算法的失踪目标搜索方法,包括如下步骤:步骤S1、数据预处理:包括时间和空间的离散化;目标移动轨迹的离散化;不同时间空间下搜索难度的标量化;步骤S2、强化学习训练环境构建:构建强化学习训练环境,训练环境信息包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率;步骤S3、时空搜索模型离线训练:对状态和行为的定义以及模型进行自适应优化;步骤S4、在线时空搜索决策:基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。其有效的降低了找到目标在目标时刻所在位置的搜索代价,完成搜索代价约束下的目标搜索任务。

Description

基于强化学习算法的失踪目标搜索方法
技术领域
本发明属于群智感知成本约束下的失踪目标搜索领域,尤其涉及一种基于强化学习算法的失踪目标搜索方法。
背景技术
在城市中寻找失踪目标(例如,汽车或人员)对于城市安全管理至关重要。例如,在过去的某个时刻、某个地点确定了可疑汽车。说明书附图1显示了典型的应用场景。序号表示某天从8:00到9:00的车辆轨迹的航路点,其中包括某些关键时刻的位置(浅色)。通过确定可疑车辆在特定时刻(即目标时刻)的位置并将其标记在地图上,依此类推,直到可以掌握其大致轨迹为止。在此之后不久,警方抓住了这条线索,并打算监控该可疑车辆行踪,以确定进一步的执行措施(例如,是否立刻执行抓捕行动)。然而,警察无法准确地掌握该车辆的当前位置,因此认为它“失踪了”。警方无法通过GPS或直接电话确定可疑车辆位置的原因包括:汽车没有GPS接收器;汽车的GPS信号不会上传到警察系统;虽然他们知道汽车的车牌号码,但警方不知道车内或车周围有谁以及哪个电话号码可以联系帮助确定可疑车辆位置。结果,警察选择通过在覆盖整个城市的摄像头产生的海量视频录像数据中搜索该车辆。由于摄像头的数量可达数百万,视频录像数据量十分庞大。这样就为寻找目标提出了巨大的挑战。
发明内容
为了克服现有技术存在的空白和不足,本发明的方案所要解决的技术问题是:怎样才能使用最少的搜索代价找到目标。在本发明的方案中,时空搜索被定义为考虑到城市被离散化为非重叠位置,时间被离散化为非重叠时刻,并且假定所有摄像头数据已被索引,就可以在特定时刻检查目标是否出现在指定位置。就人力或人工智能而言,时空搜索的成本可视为常数。解决这个问题的意义在于可以节省总成本来找到丢失的对象(目标)。
本发明的目的在于提供一种基于强化学习算法的失踪目标搜索方法,该搜索策略在已知目标时空信息的情况下选择下一搜索时刻,该搜索时刻的选择既考虑当前搜索的时效性又兼顾其对后续搜索的潜在影响,其所作出的时空搜索决策可以保证为全局最优决策,解决了启发式搜索方法所存在的局部最优解问题,有效的降低了找到目标在目标时刻所在位置的搜索代价,完成搜索代价约束下的目标搜索任务。
本发明具体采用以下技术方案:
一种基于强化学习算法的失踪目标搜索方法,其特征在于,包括如下步骤:
步骤S1、数据预处理:包括时间和空间的离散化;目标移动轨迹的离散化;不同时间空间下搜索难度的标量化;
步骤S2、强化学习训练环境构建:构建强化学习训练环境,训练环境信息包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率;
步骤S3、时空搜索模型离线训练:对状态和行为的定义以及模型进行自适应优化;
步骤S4、在线时空搜索决策:基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。
优选地,所述步骤S1的具体实现过程如下:
步骤S11、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S12、以一固定时间间隔ΔT将一天时间离散化,将区域按照一固定大小面积ΔS将某特定空间离散化,并分别为每个离散化后的时间、区域编号;
步骤S13、根据步骤S101中得到的所述完整轨迹数据映射到步骤S102中对应的时间点和位置点,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列;
步骤S14、对搜索区域内存在的客观外在因素进行评估,确定其对时空搜索的影响,将搜索难度标量化,即量化时空搜索代价。
优选地,所述步骤S2的具体实现过程如下:
步骤S21、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,计算ts时刻位置为ls的目标对象在topt时刻转移到各个位置的转移概率;
步骤S22、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索代价计算topt时刻的期望搜索代价。
优选地,所述步骤S3的具体实现过程如下:
步骤S31、形式化定义状态和行为,状态定义为已知的目标对象包含时间点和空间点的时空信息点,行为定义为搜索时刻topt所要执行的位置搜索序列;
步骤S32、基于步骤S2构建的强化学习训练环境和当前时空信息,确定当前时空搜索行为,根据行为的模拟反馈结果自适应调整时空策略。
优选地,所述步骤S4的具体实现过程如下:
步骤S41、根据步骤S3训练好的时空搜索模型和已知的目标对象时空信息并基于贪婪策略确定时空搜索行为,即topt时刻下的位置搜索序列;
步骤S42、根据步骤S41确定的时空搜索行为执行时空搜索直到找到目标对象在搜索时刻的位置信息,更新目标对象的已知时空信息;
步骤S43、重复步骤S41和步骤S42,直到确定目标对象在目标时刻的位置信息,输出该位置信息,结束搜索。
优选地,所述目标为车辆目标;
所述步骤S1的具体实现过程如下:
步骤S101、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S102、以一固定时间间隔ΔT将时间离散化为时间序列
Figure BDA0002290985410000033
将区域按照一固定面积ΔS将空间离散化为位置集合 L={l1,l2,...,l|L|};
步骤S103、根据步骤S101中得到的完整轨迹数据结合步骤S102中离散化的时间、空间,将轨迹离散化,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列
Figure BDA0002290985410000031
其中,ox表示目标车辆,dj表示一天中的离散时间序列;
步骤S104、对搜索区域内存在的多种客观外在因素进行评估,确定其对时空搜索的影响,将搜索难度标量化,即搜索代价集合
Figure BDA0002290985410000032
优选地,所述步骤S2的具体实现过程如下:
步骤S201、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,ts<topt≤ttarget,根据历史轨迹数据TR计算ts时刻位置为ls的目标对象在topt时刻的各个位置的转移概率
Figure BDA0002290985410000041
概率表示为{P(Δt,t0,l0,:)};其中,ttarget为目标时刻,TR={tr(ox,dj)};
步骤S202、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索难度计算概率代价率{η12,...,ηi,...,ηn},按照概率代价率由大到小确定topt时刻的位置搜索序列
Figure BDA0002290985410000042
其中,
Figure BDA0002290985410000043
Figure BDA0002290985410000044
为<toptopt>第i次搜索的位置;
步骤S203、计算在起始时刻ts的起始位置为ls出发的对象在搜索时刻topt下的期望搜索代价Cost(toptopt);
其中,
Figure BDA0002290985410000045
Figure BDA0002290985410000046
为序列<toptopt>的第i次搜索找到目标车辆的概率;
Figure BDA0002290985410000047
为序列<toptopt>的期望搜索代价。
优选地,所述步骤S3的具体实现过程如下:
步骤S301、随机时空信息(ts,ls)、随机时间跨度Δt,则搜索时刻topt=ts+Δt;
步骤S302、计算最小潜在期望代价
Figure BDA0002290985410000048
Figure BDA0002290985410000049
其中,
Figure BDA00022909854100000410
为状态
Figure BDA00022909854100000411
下执行行为
Figure BDA00022909854100000412
得到的下一状态,
Figure BDA00022909854100000413
为状态(ts,ls),
Figure BDA00022909854100000414
为状态
Figure BDA00022909854100000415
下执行的行为;
Figure BDA00022909854100000416
为状态
Figure BDA00022909854100000417
下执行的行为;
Figure BDA00022909854100000418
为用时空信息
Figure BDA00022909854100000419
表示的状态;
Figure BDA00022909854100000420
为状态
Figure BDA00022909854100000421
下执行的行为;
步骤S303、由于Cost(toptopt)表示为{Cost(Δt,ts,ls)},更新值函数Q(Δt,ts,ls);
Figure BDA00022909854100000422
其中,α.为学习率;γ.为搜索代价贴现率;Copt为在topt时刻找到目标车辆的期望搜索代价;
步骤S304、迭代循环迭代步骤S301、步骤S302、步骤S303直到值函数Q收敛。
优选地,所述步骤S4的具体实现过程如下:
步骤S401、初始化目标车辆ox在搜索日期dx的已知时空信息(ts,ls)和目标时刻ttarget
步骤S402、确定搜索时间间隔Δt=argmin(Q(:,ts,ls)),确定搜索时间 topt=ts+Δt;
步骤S403、根据概率代价率由大到小确定时空搜索序列<toptopt>;
步骤S404执行时空搜索
Figure BDA0002290985410000051
直到
Figure BDA0002290985410000052
返回车辆ox在topt时刻的位置
Figure BDA0002290985410000053
步骤S405更新时空信息
Figure BDA0002290985410000054
步骤S406重复步骤S402、步骤S403、步骤S404、步骤S405直到ts=ttarget,输出位置ltarget
相较于现有技术,本发明及其优选方案具有以下有益效果:起主要用于求解具有时空约束以及任务代价限制的群智感知任务中的失踪目标搜索问题。该搜索策略在已知目标(车辆)时空信息的情况下选择下一搜索时刻,该搜索时刻的选择既考虑当前搜索的时效性又兼顾其对后续搜索的潜在影响,其所作出的时空搜索决策可以保证为全局最优决策,解决了启发式搜索方法所存在的局部最优解问题,有效的降低了找到目标在目标时刻所在位置的搜索代价,完成搜索代价约束下的目标搜索任务。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1是现有技术典型应用场景示意图;
图2是步骤S32示意图;
图3是本发明实施例整体流程示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
如图3所示,以车辆作为目标为例,本发明实施例提供的基于强化学习算法的搜索时刻搜索位置选择方法,主要包括以下步骤:
步骤S1、数据预处理:该步骤包括时间和空间的离散化;目标移动轨迹的离散化;不同时间空间下搜索难度的标量化,即搜索代价:步骤S11、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;步骤S12、以一固定时间间隔ΔT将一天时间离散化,将区域按照一固定大小面积ΔS将某特定空间离散化,并分别为每个离散化后的时间、区域编号;步骤S13、根据步骤S101中得到的所述完整轨迹数据映射到步骤S102中对应的时间点和位置点,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列;步骤S14、对搜索区域内存在的客观外在因素进行评估,确定其对时空搜索的影响,将搜索难度标量化,即量化时空搜索代价。
步骤S2、强化学习训练环境构建:该步骤构建强化学习训练环境,环境信息主要包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率:步骤S21、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,计算ts时刻位置为ls的目标对象在topt时刻转移到各个位置的转移概率;步骤S22、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索代价计算topt时刻的期望搜索代价。
步骤S3、时空搜索模型离线训练:该步骤主要包含状态和行为的定义以及模型的自适应优化过程;步骤S31、形式化定义状态和行为,状态定义为已知的目标对象包含时间点和空间点的时空信息点,行为定义为搜索时刻topt所要执行的位置搜索序列;步骤S32、如图2所示,基于步骤S2构建的强化学习训练环境和当前时空信息,确定当前时空搜索行为,根据行为的模拟反馈结果自适应调整时空策略。
以上三个步骤是离线完成的。
步骤S4、在线时空搜索决策:该步骤基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。步骤S41、根据步骤 S3训练好的时空搜索模型和已知的目标对象时空信息并基于贪婪策略确定时空搜索行为,即topt时刻下的位置搜索序列;步骤S42、根据步骤S41确定的时空搜索行为执行时空搜索直到找到目标对象在搜索时刻的位置信息,更新目标对象的已知时空信息;步骤S43、重复步骤S41和步骤S42,直到确定目标对象在目标时刻的位置信息,输出该位置信息,结束搜索。
该步骤是在线完成的。
为了更好地描述本实施例提出的一种基于强化学习算法的失踪目标搜索方法,以下定义一些符号并进行详细的解释说明。
表I部分符号说明
Figure BDA0002290985410000071
Figure BDA0002290985410000081
在本实施例中,步骤S1的具体实现过程如下:
步骤S101、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S102、以一固定时间间隔ΔT(例如,ΔT=1min)将时间离散化为时间序列
Figure BDA0002290985410000085
将区域按照一固定面积ΔS(例如,ΔS=1km×1km) 将空间离散化为位置集合L={l1,l2,...,l|L|};
步骤S103、根据步骤S101中得到的完整轨迹数据结合步骤S102中离散化的时间、空间将轨迹离散化,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列
Figure BDA0002290985410000082
步骤S104、对搜索区域内存在的多种客观外在因素进行专业评估(例如可以采用专家评价法或者结合大数据分析,主要需要考量交通流量,道路网络和建筑物密度等因),确定其对时空搜索的影响,将搜索难度标量化,即搜索代价集合
Figure BDA0002290985410000083
步骤S2的具体实现过程如下:
步骤S201、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为 topt,t0<topt≤ttarget,根据历史轨迹数据TR计算ts时刻位置为ls的目标对象在topt时刻的各个位置的转移概率
Figure BDA0002290985410000084
概率表示为{P(Δt,t0,l0,:)};其中,ttarget为目标时刻,TR={tr(ox,dj)};
步骤S202、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索难度计算概率代价率{η12,...,ηi,...,ηn}(如公式(1)),按照概率代价率由大到小确定topt时刻的位置搜索序列
Figure BDA0002290985410000091
Figure BDA0002290985410000092
步骤S203、计算在起始时刻ts的起始位置为ls出发的对象在搜索时刻topt下的期望搜索代价Cost(toptopt),表示为{Cost(Δt,ts,ls)}(如公式(2))。
Figure BDA0002290985410000093
例如,假设时空搜索成本
Figure BDA0002290985410000094
位置转换概率
Figure BDA0002290985410000095
然后,降序排列的位置序列是 <t33>=<s(ox,t3,l3),s(ox,t3,l1),s(ox,t3,l2),s(ox,t3,l4)>在时刻t3。预期的搜索成本为:
Figure BDA0002290985410000096
步骤S3的具体实现过程如下:
步骤S301、随机时空信息(ts,ls)、随机时间跨度Δt,topt=ts+Δt;
步骤S302、根据公式(3)计算
Figure BDA0002290985410000097
Figure BDA0002290985410000098
步骤S303、根据公式(4)更新值函数Q(Δt,ts,ls);
Figure BDA0002290985410000099
经过强化学习后,时空搜索模型被表示为(S,A,C,Γ,Q),其中
Figure BDA00022909854100000910
表示当前状态(ts,ls);
Figure BDA0002290985410000101
表示当前动作<toptopt>;C:S×A→C表示搜索成本函数Copt=Cost(toptopt);Γ:S×A→ΔS表示状态转换函数;Q表示值函数。下一个状态
Figure BDA0002290985410000102
通过在状态
Figure BDA0002290985410000103
下执行动作
Figure BDA0002290985410000104
获得。α.为学习率,取值为(0,1];γ.为搜索代价贴现率,这两个参量为根据实际情况的可调节参量。
步骤S304、迭代循环迭代步骤S301、步骤S302、步骤S303直到值函数Q收敛。
如图2所示,在上述步骤当中,首先,时空搜索模型被初始化。在每个循环中,时空搜索模型根据当前状态
Figure BDA0002290985410000105
决定搜索时刻topt,并且根据位置搜索序列
Figure BDA0002290985410000106
确定位置搜索的策略,值函数Q则根据公式4进行更新。其中,还需要根据感测到的环境信息 (例如交通流量,道路网络和建筑物密度)进行调整,这些信息将被量化为搜索成本Copt。时空搜索模型将重复上述循环,直至在当前状态
Figure BDA0002290985410000107
下确定搜索时刻topt是最佳的。
步骤S4的具体实现过程如下:
步骤S401、初始化车辆ox在dx的已知时空信息(ts,ls)和目标时刻ttarget
步骤S402、确定搜索时间间隔Δt=argmin(Q(:,ts,ls)),确定搜索时间 topt=ts+Δt;
步骤S403、根据概率代价率由大到小确定时空搜索序列<topt,ξopt>;
步骤S404执行时空搜索
Figure BDA0002290985410000108
直到
Figure BDA0002290985410000109
返回车辆ox在topt时刻的位置
Figure BDA00022909854100001010
步骤S405更新时空信息
Figure BDA00022909854100001011
步骤S406重复步骤S402、步骤S403、步骤S404、步骤S405直到ts=ttarget,输出位置ltarget
在本实施例中,时空搜索指的是:检查目标车辆ox是否于特定位置li以及特定的时刻topt出现在在该时空点(topt,li)的摄像机记录中。如果车辆ox在时刻topt出现在位置li,即(topt,li)∈tr(ox,dj),则返回1,否则返回0,表示为:
Figure BDA0002290985410000111
本实施例还通过实验数据集进行了验证,实验数据集来自2014年8月中国成都的1.9万辆出租车的轨迹。数据采集区域约为30KM*30KM,每个轨迹的持续时间从7:00am到21:59pm。
表II数据集的详细说明
(a)原始数据详细信息
栏位名称 样例 备注
车辆编号 1 \
是否有乘客 0/1 \
时间戳 1501584540 Unix时间戳,以秒为单位
经度 104.042833 GCJ-02
纬度 30.599851 GCJ-02
(b)一天中车辆的完整轨迹
Figure BDA0002290985410000112
由于原始数据集中不同车辆的GPS航路点是无序的。因此,首先需要通过对车辆ID进行过滤并分类时间戳来生成出租车的GPS航路点序列。在此实验中,时间被离散化为每分钟1分钟的时刻,并且只有每分钟时间戳最小的一个航路点指示该时刻的车辆位置。严重丢失数据的轨迹将则丢弃。表II中显示了原始数据的详细信息和完整的轨迹。
数据获取区域被分为每个大小为1KM*1KM,1.2KM*1.2KM,1.5KM*1.5KM的网格,然后将GPS航路点投影到网格中,每个网格代表一个位置。其中,前14天的99,265条轨迹用于训练,后3天从21,963条轨迹中随机选择的1000条轨迹用于测试,即1000条测试数据。在此实验中,假设搜索成本C在一个时空点是 1。在不同网格大小下,执行1000次测试并将结果计算平均值。
验证结果显示,本实施例方法相比于另外三种时空搜索算法:ALT(All Searchingat the Last Time)、IEM(Intermediate Searching at an Estimated Moment)、IHMs(Intermediate Searching at Heuristic Moments):
1)当网格大小=1KM×1KM时,在不同的时间间隔,IHM和本实施例方案优于 ALT和IEM。随着时间间隔变大,与IHMs相比,本实施例方案的优势在增加。
2)当时间间隔为30分钟或40分钟,网格大小=1.2KM×1.2KM时,IHMs和本实施例方案优于ALT。时间间隔为50分钟时,ALT,IHMs和本实施例方案之间没有显着差异,但它们优于IEM。
3)当时间间隔为30分钟,网格大小=1.5KM×1.5KM时,IHMs和本实施例方案优于ALT。当时间间隔为40min或50min时,ALT,IHMs和本实施例方案之间没有显着差异,但它们优于IEM。
不论网格大小和时间间隔如何,本实施例方案始终优于或等于IHMs。
考虑到IEM必须在中间时刻进行搜索,并且无法动态地做出决策以适应环境信息。因此,IEM在所有情况下几乎都是最差的。而本实施例方案可以克服IHMs 存在的不足,可以将任何和所有连续搜索的总成本降至最低。
表III不同学习率的累积搜索成本
Figure BDA0002290985410000121
Figure BDA0002290985410000131
表IV不同搜索代价贴现率的累积搜索成本
开始时刻 8:00 10:00 12:00 14:00 16:00 18:00 20:00
α=1,γ=0.97 34.380 35.052 36.507 34.862 35.564 32.441 36.611
α=1,γ=0.99 33.246 33.424 35.006 33.270 34.312 30.458 35.105
α=1,γ=1.00 32.810 32.900 34.854 32.717 34.059 30.145 34.969
α=1,γ=1.01 33.586 32.946 34.913 33.082 33.724 30.177 35.140
α=1,γ=1.03 33.147 33.191 35.785 33.235 34.098 30.362 35.134
α=1,γ=1.05 33.677 33.640 36.167 33.923 34.961 31.211 35.786
由于公式(4)的学习率α和搜索代价贴现率γ两个参数属于可调节参数,在本实施例中,根据实际经验对其作出最优选择。
学习率α可以控制值函数的更新率。小学习率会降低值函数的收敛速度,大学习率则可能无法收敛到最优解。为了找到合适的学习率,本实施例将累计搜索成本作为测试结果的指标。多次测试采用不同学习率,分别为:1、0.5、0.3、 0.1,并控制其他变量:网格大小为1KM*1KM,ttarget-ts=30min,搜索代价贴现率γ=1,开始时刻ts=8:00/10:00/12:00/14:00/16:00/18:00/20: 00。
测试结果验证了值函数已收敛于所有不同的学习率。如表III所示,不同学习率输出了相同的累积成本,这意味着它们的价值函数被收敛到相同的最优解。其区别只有训练时间不同。该训练是在具有16GB内存和
Figure BDA0002290985410000132
CoreTMi7-6700HQ 处理器的计算机上进行的考虑到为了加快训练速度,本实施例优选α=1。
参量搜索代价贴现率γ的重要性在于可以平衡即时奖励(reward,可以理解为搜索代价的反面)和潜在奖励。γ>1表示即时报酬比潜在报酬更重要,反之亦然。为了找到合适的搜索代价贴现率,本实施例将采用不同的搜索代价贴现率的测试结果进行比较,其衡量指标同样为累积搜索成本,设置搜索代价贴现率分别等于:0.97、0.99、1、1.01、1.03、1.05,网格大小为1KM*1KM, ttarget-ts=30min,学习率α=1,开始时刻ts=8:00/10:00/12:00/14: 00/16:00/18:00/20:00。
如表IV所示,可以发现,当搜索代价贴现率γ=1时,搜索成本最小,因此本实施例认为优选的搜索代价贴现率为γ=1。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于强化学习算法的失踪目标搜索方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (7)

1.一种基于强化学习算法的失踪目标搜索方法,其特征在于,包括如下步骤:
步骤S1、数据预处理:包括时间和空间的离散化;目标移动轨迹的离散化;不同时间空间下搜索难度的标量化;
步骤S2、强化学习训练环境构建:构建强化学习训练环境,训练环境信息包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率;
步骤S3、时空搜索模型离线训练:对状态和行为的定义以及模型进行自适应优化;
步骤S4、在线时空搜索决策:基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索;
所述目标为车辆目标;
所述步骤S1的具体实现过程如下:
步骤S101、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S102、以一固定时间间隔ΔT将时间离散化为时间序列
Figure FDA0003660672170000011
将区域按照一固定面积ΔS将空间离散化为位置集合L={l1,l2,...,l|L|};
步骤S103、根据步骤S101中得到的完整轨迹数据结合步骤S102中离散化的时间、空间,将轨迹离散化,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列
Figure FDA0003660672170000012
其中,ox表示目标车辆,dj表示一天中的离散时间序列;
步骤S104、对搜索区域内存在的多种客观外在因素进行评估,确定其对时空搜索的影响,将搜索难度标量化,即搜索代价集合
Figure FDA0003660672170000013
所述步骤S2的具体实现过程如下:
步骤S201、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,ts<topt≤ttarget,根据历史轨迹数据TR计算ts时刻位置为ls的目标对象在topt时刻的各个位置的转移概率
Figure FDA0003660672170000021
概率表示为{P(Δt,t0,l0,:)};其中,ttarget为目标时刻,TR={tr(ox,dj)},Δt为随机时间跨度;
步骤S202、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索难度计算概率代价率{η12,...,ηi,...,ηn},按照概率代价率由大到小确定topt时刻的位置搜索序列
Figure FDA0003660672170000022
其中,
Figure FDA0003660672170000023
Figure FDA0003660672170000024
第i次搜索的位置;
步骤S203、计算在起始时刻ts的起始位置为ls出发的对象在搜索时刻topt下的期望搜索代价Cost(toptopt);
其中,
Figure FDA0003660672170000025
为序列
Figure FDA0003660672170000026
的第i次搜索找到目标车辆的概率;
Figure FDA0003660672170000027
为序列
Figure FDA0003660672170000028
的期望搜索代价。
2.根据权利要求1所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S1的具体实现过程如下:
步骤S11、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S12、以一固定时间间隔ΔT将一天时间离散化,将区域按照一固定大小面积ΔS将某特定空间离散化,并分别为每个离散化后的时间、区域编号;
步骤S13、根据步骤S101中得到的所述完整轨迹数据映射到步骤S102中对应的时间点和位置点,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列;
步骤S14、对搜索区域内存在的客观外在因素进行评估,确定其对时空搜索的影响,将搜索难度标量化,即量化时空搜索代价。
3.根据权利要求2所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S2的具体实现过程如下:
步骤S21、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,计算ts时刻位置为ls的目标对象在topt时刻转移到各个位置的转移概率;
步骤S22、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索代价计算topt时刻的期望搜索代价。
4.根据权利要求3所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S3的具体实现过程如下:
步骤S31、形式化定义状态和行为,状态定义为已知的目标对象包含时间点和空间点的时空信息点,行为定义为搜索时刻topt所要执行的位置搜索序列;
步骤S32、基于步骤S2构建的强化学习训练环境和当前时空信息,确定当前时空搜索行为,根据行为的模拟反馈结果自适应调整时空策略。
5.根据权利要求4所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S4的具体实现过程如下:
步骤S41、根据步骤S3训练好的时空搜索模型和已知的目标对象时空信息并基于贪婪策略确定时空搜索行为,即topt时刻下的位置搜索序列;
步骤S42、根据步骤S41确定的时空搜索行为执行时空搜索直到找到目标对象在搜索时刻的位置信息,更新目标对象的已知时空信息;
步骤S43、重复步骤S41和步骤S42,直到确定目标对象在目标时刻的位置信息,输出该位置信息,结束搜索。
6.根据权利要求1所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S3的具体实现过程如下:
步骤S301、随机时空信息(ts,ls)、随机时间跨度Δt,则搜索时刻topt=ts+Δt;
步骤S302、计算最小潜在期望代价
Figure FDA0003660672170000031
Figure FDA0003660672170000032
其中,
Figure FDA0003660672170000041
为状态
Figure FDA0003660672170000042
下执行行为
Figure FDA0003660672170000043
得到的下一状态,
Figure FDA0003660672170000044
为状态(ts,ls),
Figure FDA0003660672170000045
为状态
Figure FDA0003660672170000046
下执行的行为;
Figure FDA0003660672170000047
为状态
Figure FDA0003660672170000048
下执行的行为;
Figure FDA0003660672170000049
为用时空信息
Figure FDA00036606721700000410
表示的状态;
Figure FDA00036606721700000411
为状态
Figure FDA00036606721700000412
下执行的行为;
步骤S303、由于Cost(toptopt)表示为{Cost(Δt,ts,ls)},更新值函数Q(Δt,ts,ls);
Figure FDA00036606721700000413
其中,α.为学习率;γ.为搜索代价贴现率;Copt为在topt时刻找到目标车辆的期望搜索代价;
步骤S304、迭代循环迭代步骤S301、步骤S302、步骤S303直到值函数Q收敛。
7.根据权利要求6所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S4的具体实现过程如下:
步骤S401、初始化目标车辆ox在搜索日期dx的已知时空信息(ts,ls)和目标时刻ttarget
步骤S402、确定搜索时间间隔Δt=argmin(Q(:,ts,ls)),确定搜索时间topt=ts+Δt;
步骤S403、根据概率代价率由大到小确定时空搜索序列<toptopt>;
步骤S404执行时空搜索
Figure FDA00036606721700000414
直到
Figure FDA00036606721700000415
返回车辆ox在topt时刻的位置
Figure FDA00036606721700000416
步骤S405更新时空信息
Figure FDA00036606721700000417
步骤S406重复步骤S402、步骤S403、步骤S404、步骤S405直到ts=ttarget,输出位置ltarget
CN201911179955.7A 2019-11-27 2019-11-27 基于强化学习算法的失踪目标搜索方法 Active CN111061966B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911179955.7A CN111061966B (zh) 2019-11-27 2019-11-27 基于强化学习算法的失踪目标搜索方法
PCT/CN2019/128552 WO2021103248A1 (zh) 2019-11-27 2019-12-26 基于强化学习算法的失踪目标搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911179955.7A CN111061966B (zh) 2019-11-27 2019-11-27 基于强化学习算法的失踪目标搜索方法

Publications (2)

Publication Number Publication Date
CN111061966A CN111061966A (zh) 2020-04-24
CN111061966B true CN111061966B (zh) 2022-08-05

Family

ID=70298690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911179955.7A Active CN111061966B (zh) 2019-11-27 2019-11-27 基于强化学习算法的失踪目标搜索方法

Country Status (2)

Country Link
CN (1) CN111061966B (zh)
WO (1) WO2021103248A1 (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109521447A (zh) * 2018-11-16 2019-03-26 福州大学 一种基于贪心策略的失踪目标搜索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339240B (zh) * 2008-08-26 2011-06-22 中国人民解放军海军工程大学 基于双层预测机制的无线传感器网络目标跟踪方法
US10929892B2 (en) * 2017-10-05 2021-02-23 Mov-Ology, Llc Marketing to consumers using data obtained from abandoned GPS searches

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109521447A (zh) * 2018-11-16 2019-03-26 福州大学 一种基于贪心策略的失踪目标搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向目的地推测的时空搜索优化;韩磊,於志勇,朱伟平,於志文;《计算机工程》;20190320;第1页-第8页 *

Also Published As

Publication number Publication date
WO2021103248A1 (zh) 2021-06-03
CN111061966A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN107111794B (zh) 预测和利用地图服务中出行时间的可变性
CN109711557B (zh) 一种行车轨迹预测方法、计算机设备及存储介质
CN109035761B (zh) 基于辅助监督学习的行程时间估计方法
US20210188290A1 (en) Driving model training method, driver identification method, apparatuses, device and medium
WO2018122803A1 (zh) 一种智能化道路交通异常检测方法
Jiang et al. Traffic and vehicle speed prediction with neural network and hidden markov model in vehicular networks
Chen et al. When traffic flow prediction and wireless big data analytics meet
WO2016096226A1 (en) A traffic data fusion system and the related method for providing a traffic state for a network of roads
CN112242060B (zh) 交通流量预测方法及装置、计算机设备及可读存储介质
CN111275962B (zh) 车辆轨迹数据聚集效应预测方法及装置
CN114446049B (zh) 基于社会价值取向的交通流预测方法、系统、终端及介质
CN112598165B (zh) 基于私家车数据的城市功能区转移流量预测方法及装置
CN114639233B (zh) 一种拥堵状态预测方法、装置、电子设备及存储介质
Singh et al. A review of bus arrival time prediction using artificial intelligence
CN114780739A (zh) 基于时间图卷积网络的时序知识图谱补全方法及系统
Liu et al. Exploiting spatiotemporal correlations of arrive-stay-leave behaviors for private car flow prediction
Cruz et al. Trajectory prediction from a mass of sparse and missing external sensor data
Poudel et al. Black-box adversarial attacks on network-wide multi-step traffic state prediction models
Ma et al. Toward formal methods for smart cities
Ma et al. A Causal Inference Approach to Eliminate the Impacts of Interfering Factors on Traffic Performance Evaluation
CN111061966B (zh) 基于强化学习算法的失踪目标搜索方法
CN115905434B (zh) 一种基于学习插值预测的道路网轨迹补全方法
Huang et al. A dynamic data-driven approach for rail transport system simulation
Conlan et al. Real-time spatio-temporal forecasting with dynamic urban event and vehicle-level flow information
Zhao et al. A learning-based vehicle-trajectory generation method for vehicular networking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant