CN111061966B - 基于强化学习算法的失踪目标搜索方法 - Google Patents
基于强化学习算法的失踪目标搜索方法 Download PDFInfo
- Publication number
- CN111061966B CN111061966B CN201911179955.7A CN201911179955A CN111061966B CN 111061966 B CN111061966 B CN 111061966B CN 201911179955 A CN201911179955 A CN 201911179955A CN 111061966 B CN111061966 B CN 111061966B
- Authority
- CN
- China
- Prior art keywords
- time
- search
- target
- opt
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S19/00—Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
- G01S19/01—Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
- G01S19/13—Receivers
- G01S19/14—Receivers specially adapted for specific applications
- G01S19/19—Sporting applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
- Navigation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于强化学习算法的失踪目标搜索方法,包括如下步骤:步骤S1、数据预处理:包括时间和空间的离散化;目标移动轨迹的离散化;不同时间空间下搜索难度的标量化;步骤S2、强化学习训练环境构建:构建强化学习训练环境,训练环境信息包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率;步骤S3、时空搜索模型离线训练:对状态和行为的定义以及模型进行自适应优化;步骤S4、在线时空搜索决策:基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。其有效的降低了找到目标在目标时刻所在位置的搜索代价,完成搜索代价约束下的目标搜索任务。
Description
技术领域
本发明属于群智感知成本约束下的失踪目标搜索领域,尤其涉及一种基于强化学习算法的失踪目标搜索方法。
背景技术
在城市中寻找失踪目标(例如,汽车或人员)对于城市安全管理至关重要。例如,在过去的某个时刻、某个地点确定了可疑汽车。说明书附图1显示了典型的应用场景。序号表示某天从8:00到9:00的车辆轨迹的航路点,其中包括某些关键时刻的位置(浅色)。通过确定可疑车辆在特定时刻(即目标时刻)的位置并将其标记在地图上,依此类推,直到可以掌握其大致轨迹为止。在此之后不久,警方抓住了这条线索,并打算监控该可疑车辆行踪,以确定进一步的执行措施(例如,是否立刻执行抓捕行动)。然而,警察无法准确地掌握该车辆的当前位置,因此认为它“失踪了”。警方无法通过GPS或直接电话确定可疑车辆位置的原因包括:汽车没有GPS接收器;汽车的GPS信号不会上传到警察系统;虽然他们知道汽车的车牌号码,但警方不知道车内或车周围有谁以及哪个电话号码可以联系帮助确定可疑车辆位置。结果,警察选择通过在覆盖整个城市的摄像头产生的海量视频录像数据中搜索该车辆。由于摄像头的数量可达数百万,视频录像数据量十分庞大。这样就为寻找目标提出了巨大的挑战。
发明内容
为了克服现有技术存在的空白和不足,本发明的方案所要解决的技术问题是:怎样才能使用最少的搜索代价找到目标。在本发明的方案中,时空搜索被定义为考虑到城市被离散化为非重叠位置,时间被离散化为非重叠时刻,并且假定所有摄像头数据已被索引,就可以在特定时刻检查目标是否出现在指定位置。就人力或人工智能而言,时空搜索的成本可视为常数。解决这个问题的意义在于可以节省总成本来找到丢失的对象(目标)。
本发明的目的在于提供一种基于强化学习算法的失踪目标搜索方法,该搜索策略在已知目标时空信息的情况下选择下一搜索时刻,该搜索时刻的选择既考虑当前搜索的时效性又兼顾其对后续搜索的潜在影响,其所作出的时空搜索决策可以保证为全局最优决策,解决了启发式搜索方法所存在的局部最优解问题,有效的降低了找到目标在目标时刻所在位置的搜索代价,完成搜索代价约束下的目标搜索任务。
本发明具体采用以下技术方案:
一种基于强化学习算法的失踪目标搜索方法,其特征在于,包括如下步骤:
步骤S1、数据预处理:包括时间和空间的离散化;目标移动轨迹的离散化;不同时间空间下搜索难度的标量化;
步骤S2、强化学习训练环境构建:构建强化学习训练环境,训练环境信息包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率;
步骤S3、时空搜索模型离线训练:对状态和行为的定义以及模型进行自适应优化;
步骤S4、在线时空搜索决策:基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。
优选地,所述步骤S1的具体实现过程如下:
步骤S11、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S12、以一固定时间间隔ΔT将一天时间离散化,将区域按照一固定大小面积ΔS将某特定空间离散化,并分别为每个离散化后的时间、区域编号;
步骤S13、根据步骤S101中得到的所述完整轨迹数据映射到步骤S102中对应的时间点和位置点,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列;
步骤S14、对搜索区域内存在的客观外在因素进行评估,确定其对时空搜索的影响,将搜索难度标量化,即量化时空搜索代价。
优选地,所述步骤S2的具体实现过程如下:
步骤S21、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,计算ts时刻位置为ls的目标对象在topt时刻转移到各个位置的转移概率;
步骤S22、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索代价计算topt时刻的期望搜索代价。
优选地,所述步骤S3的具体实现过程如下:
步骤S31、形式化定义状态和行为,状态定义为已知的目标对象包含时间点和空间点的时空信息点,行为定义为搜索时刻topt所要执行的位置搜索序列;
步骤S32、基于步骤S2构建的强化学习训练环境和当前时空信息,确定当前时空搜索行为,根据行为的模拟反馈结果自适应调整时空策略。
优选地,所述步骤S4的具体实现过程如下:
步骤S41、根据步骤S3训练好的时空搜索模型和已知的目标对象时空信息并基于贪婪策略确定时空搜索行为,即topt时刻下的位置搜索序列;
步骤S42、根据步骤S41确定的时空搜索行为执行时空搜索直到找到目标对象在搜索时刻的位置信息,更新目标对象的已知时空信息;
步骤S43、重复步骤S41和步骤S42,直到确定目标对象在目标时刻的位置信息,输出该位置信息,结束搜索。
优选地,所述目标为车辆目标;
所述步骤S1的具体实现过程如下:
步骤S101、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S103、根据步骤S101中得到的完整轨迹数据结合步骤S102中离散化的时间、空间,将轨迹离散化,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列其中,ox表示目标车辆,dj表示一天中的离散时间序列;
优选地,所述步骤S2的具体实现过程如下:
步骤S201、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,ts<topt≤ttarget,根据历史轨迹数据TR计算ts时刻位置为ls的目标对象在topt时刻的各个位置的转移概率概率表示为{P(Δt,t0,l0,:)};其中,ttarget为目标时刻,TR={tr(ox,dj)};
步骤S202、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索难度计算概率代价率{η1,η2,...,ηi,...,ηn},按照概率代价率由大到小确定topt时刻的位置搜索序列
步骤S203、计算在起始时刻ts的起始位置为ls出发的对象在搜索时刻topt下的期望搜索代价Cost(topt,ξopt);
优选地,所述步骤S3的具体实现过程如下:
步骤S301、随机时空信息(ts,ls)、随机时间跨度Δt,则搜索时刻topt=ts+Δt;
步骤S303、由于Cost(topt,ξopt)表示为{Cost(Δt,ts,ls)},更新值函数Q(Δt,ts,ls);
其中,α.为学习率;γ.为搜索代价贴现率;Copt为在topt时刻找到目标车辆的期望搜索代价;
步骤S304、迭代循环迭代步骤S301、步骤S302、步骤S303直到值函数Q收敛。
优选地,所述步骤S4的具体实现过程如下:
步骤S401、初始化目标车辆ox在搜索日期dx的已知时空信息(ts,ls)和目标时刻ttarget;
步骤S402、确定搜索时间间隔Δt=argmin(Q(:,ts,ls)),确定搜索时间 topt=ts+Δt;
步骤S403、根据概率代价率由大到小确定时空搜索序列<topt,ξopt>;
步骤S406重复步骤S402、步骤S403、步骤S404、步骤S405直到ts=ttarget,输出位置ltarget
相较于现有技术,本发明及其优选方案具有以下有益效果:起主要用于求解具有时空约束以及任务代价限制的群智感知任务中的失踪目标搜索问题。该搜索策略在已知目标(车辆)时空信息的情况下选择下一搜索时刻,该搜索时刻的选择既考虑当前搜索的时效性又兼顾其对后续搜索的潜在影响,其所作出的时空搜索决策可以保证为全局最优决策,解决了启发式搜索方法所存在的局部最优解问题,有效的降低了找到目标在目标时刻所在位置的搜索代价,完成搜索代价约束下的目标搜索任务。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1是现有技术典型应用场景示意图;
图2是步骤S32示意图;
图3是本发明实施例整体流程示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
如图3所示,以车辆作为目标为例,本发明实施例提供的基于强化学习算法的搜索时刻搜索位置选择方法,主要包括以下步骤:
步骤S1、数据预处理:该步骤包括时间和空间的离散化;目标移动轨迹的离散化;不同时间空间下搜索难度的标量化,即搜索代价:步骤S11、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;步骤S12、以一固定时间间隔ΔT将一天时间离散化,将区域按照一固定大小面积ΔS将某特定空间离散化,并分别为每个离散化后的时间、区域编号;步骤S13、根据步骤S101中得到的所述完整轨迹数据映射到步骤S102中对应的时间点和位置点,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列;步骤S14、对搜索区域内存在的客观外在因素进行评估,确定其对时空搜索的影响,将搜索难度标量化,即量化时空搜索代价。
步骤S2、强化学习训练环境构建:该步骤构建强化学习训练环境,环境信息主要包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率:步骤S21、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,计算ts时刻位置为ls的目标对象在topt时刻转移到各个位置的转移概率;步骤S22、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索代价计算topt时刻的期望搜索代价。
步骤S3、时空搜索模型离线训练:该步骤主要包含状态和行为的定义以及模型的自适应优化过程;步骤S31、形式化定义状态和行为,状态定义为已知的目标对象包含时间点和空间点的时空信息点,行为定义为搜索时刻topt所要执行的位置搜索序列;步骤S32、如图2所示,基于步骤S2构建的强化学习训练环境和当前时空信息,确定当前时空搜索行为,根据行为的模拟反馈结果自适应调整时空策略。
以上三个步骤是离线完成的。
步骤S4、在线时空搜索决策:该步骤基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索。步骤S41、根据步骤 S3训练好的时空搜索模型和已知的目标对象时空信息并基于贪婪策略确定时空搜索行为,即topt时刻下的位置搜索序列;步骤S42、根据步骤S41确定的时空搜索行为执行时空搜索直到找到目标对象在搜索时刻的位置信息,更新目标对象的已知时空信息;步骤S43、重复步骤S41和步骤S42,直到确定目标对象在目标时刻的位置信息,输出该位置信息,结束搜索。
该步骤是在线完成的。
为了更好地描述本实施例提出的一种基于强化学习算法的失踪目标搜索方法,以下定义一些符号并进行详细的解释说明。
表I部分符号说明
在本实施例中,步骤S1的具体实现过程如下:
步骤S101、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S104、对搜索区域内存在的多种客观外在因素进行专业评估(例如可以采用专家评价法或者结合大数据分析,主要需要考量交通流量,道路网络和建筑物密度等因),确定其对时空搜索的影响,将搜索难度标量化,即搜索代价集合
步骤S2的具体实现过程如下:
步骤S201、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为 topt,t0<topt≤ttarget,根据历史轨迹数据TR计算ts时刻位置为ls的目标对象在topt时刻的各个位置的转移概率概率表示为{P(Δt,t0,l0,:)};其中,ttarget为目标时刻,TR={tr(ox,dj)};
步骤S202、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索难度计算概率代价率{η1,η2,...,ηi,...,ηn}(如公式(1)),按照概率代价率由大到小确定topt时刻的位置搜索序列
步骤S203、计算在起始时刻ts的起始位置为ls出发的对象在搜索时刻topt下的期望搜索代价Cost(topt,ξopt),表示为{Cost(Δt,ts,ls)}(如公式(2))。
例如,假设时空搜索成本位置转换概率然后,降序排列的位置序列是 <t3,ξ3>=<s(ox,t3,l3),s(ox,t3,l1),s(ox,t3,l2),s(ox,t3,l4)>在时刻t3。预期的搜索成本为:
步骤S3的具体实现过程如下:
步骤S301、随机时空信息(ts,ls)、随机时间跨度Δt,topt=ts+Δt;
步骤S303、根据公式(4)更新值函数Q(Δt,ts,ls);
经过强化学习后,时空搜索模型被表示为(S,A,C,Γ,Q),其中表示当前状态(ts,ls);表示当前动作<topt,ξopt>;C:S×A→C表示搜索成本函数Copt=Cost(topt,ξopt);Γ:S×A→ΔS表示状态转换函数;Q表示值函数。下一个状态通过在状态下执行动作获得。α.为学习率,取值为(0,1];γ.为搜索代价贴现率,这两个参量为根据实际情况的可调节参量。
步骤S304、迭代循环迭代步骤S301、步骤S302、步骤S303直到值函数Q收敛。
如图2所示,在上述步骤当中,首先,时空搜索模型被初始化。在每个循环中,时空搜索模型根据当前状态决定搜索时刻topt,并且根据位置搜索序列确定位置搜索的策略,值函数Q则根据公式4进行更新。其中,还需要根据感测到的环境信息 (例如交通流量,道路网络和建筑物密度)进行调整,这些信息将被量化为搜索成本Copt。时空搜索模型将重复上述循环,直至在当前状态下确定搜索时刻topt是最佳的。
步骤S4的具体实现过程如下:
步骤S401、初始化车辆ox在dx的已知时空信息(ts,ls)和目标时刻ttarget;
步骤S402、确定搜索时间间隔Δt=argmin(Q(:,ts,ls)),确定搜索时间 topt=ts+Δt;
步骤S403、根据概率代价率由大到小确定时空搜索序列<topt,ξopt>;
步骤S406重复步骤S402、步骤S403、步骤S404、步骤S405直到ts=ttarget,输出位置ltarget。
在本实施例中,时空搜索指的是:检查目标车辆ox是否于特定位置li以及特定的时刻topt出现在在该时空点(topt,li)的摄像机记录中。如果车辆ox在时刻topt出现在位置li,即(topt,li)∈tr(ox,dj),则返回1,否则返回0,表示为:
本实施例还通过实验数据集进行了验证,实验数据集来自2014年8月中国成都的1.9万辆出租车的轨迹。数据采集区域约为30KM*30KM,每个轨迹的持续时间从7:00am到21:59pm。
表II数据集的详细说明
(a)原始数据详细信息
栏位名称 | 样例 | 备注 |
车辆编号 | 1 | \ |
是否有乘客 | 0/1 | \ |
时间戳 | 1501584540 | Unix时间戳,以秒为单位 |
经度 | 104.042833 | GCJ-02 |
纬度 | 30.599851 | GCJ-02 |
(b)一天中车辆的完整轨迹
由于原始数据集中不同车辆的GPS航路点是无序的。因此,首先需要通过对车辆ID进行过滤并分类时间戳来生成出租车的GPS航路点序列。在此实验中,时间被离散化为每分钟1分钟的时刻,并且只有每分钟时间戳最小的一个航路点指示该时刻的车辆位置。严重丢失数据的轨迹将则丢弃。表II中显示了原始数据的详细信息和完整的轨迹。
数据获取区域被分为每个大小为1KM*1KM,1.2KM*1.2KM,1.5KM*1.5KM的网格,然后将GPS航路点投影到网格中,每个网格代表一个位置。其中,前14天的99,265条轨迹用于训练,后3天从21,963条轨迹中随机选择的1000条轨迹用于测试,即1000条测试数据。在此实验中,假设搜索成本C在一个时空点是 1。在不同网格大小下,执行1000次测试并将结果计算平均值。
验证结果显示,本实施例方法相比于另外三种时空搜索算法:ALT(All Searchingat the Last Time)、IEM(Intermediate Searching at an Estimated Moment)、IHMs(Intermediate Searching at Heuristic Moments):
1)当网格大小=1KM×1KM时,在不同的时间间隔,IHM和本实施例方案优于 ALT和IEM。随着时间间隔变大,与IHMs相比,本实施例方案的优势在增加。
2)当时间间隔为30分钟或40分钟,网格大小=1.2KM×1.2KM时,IHMs和本实施例方案优于ALT。时间间隔为50分钟时,ALT,IHMs和本实施例方案之间没有显着差异,但它们优于IEM。
3)当时间间隔为30分钟,网格大小=1.5KM×1.5KM时,IHMs和本实施例方案优于ALT。当时间间隔为40min或50min时,ALT,IHMs和本实施例方案之间没有显着差异,但它们优于IEM。
不论网格大小和时间间隔如何,本实施例方案始终优于或等于IHMs。
考虑到IEM必须在中间时刻进行搜索,并且无法动态地做出决策以适应环境信息。因此,IEM在所有情况下几乎都是最差的。而本实施例方案可以克服IHMs 存在的不足,可以将任何和所有连续搜索的总成本降至最低。
表III不同学习率的累积搜索成本
表IV不同搜索代价贴现率的累积搜索成本
开始时刻 | 8:00 | 10:00 | 12:00 | 14:00 | 16:00 | 18:00 | 20:00 |
α=1,γ=0.97 | 34.380 | 35.052 | 36.507 | 34.862 | 35.564 | 32.441 | 36.611 |
α=1,γ=0.99 | 33.246 | 33.424 | 35.006 | 33.270 | 34.312 | 30.458 | 35.105 |
α=1,γ=1.00 | 32.810 | 32.900 | 34.854 | 32.717 | 34.059 | 30.145 | 34.969 |
α=1,γ=1.01 | 33.586 | 32.946 | 34.913 | 33.082 | 33.724 | 30.177 | 35.140 |
α=1,γ=1.03 | 33.147 | 33.191 | 35.785 | 33.235 | 34.098 | 30.362 | 35.134 |
α=1,γ=1.05 | 33.677 | 33.640 | 36.167 | 33.923 | 34.961 | 31.211 | 35.786 |
由于公式(4)的学习率α和搜索代价贴现率γ两个参数属于可调节参数,在本实施例中,根据实际经验对其作出最优选择。
学习率α可以控制值函数的更新率。小学习率会降低值函数的收敛速度,大学习率则可能无法收敛到最优解。为了找到合适的学习率,本实施例将累计搜索成本作为测试结果的指标。多次测试采用不同学习率,分别为:1、0.5、0.3、 0.1,并控制其他变量:网格大小为1KM*1KM,ttarget-ts=30min,搜索代价贴现率γ=1,开始时刻ts=8:00/10:00/12:00/14:00/16:00/18:00/20: 00。
测试结果验证了值函数已收敛于所有不同的学习率。如表III所示,不同学习率输出了相同的累积成本,这意味着它们的价值函数被收敛到相同的最优解。其区别只有训练时间不同。该训练是在具有16GB内存和CoreTMi7-6700HQ 处理器的计算机上进行的考虑到为了加快训练速度,本实施例优选α=1。
参量搜索代价贴现率γ的重要性在于可以平衡即时奖励(reward,可以理解为搜索代价的反面)和潜在奖励。γ>1表示即时报酬比潜在报酬更重要,反之亦然。为了找到合适的搜索代价贴现率,本实施例将采用不同的搜索代价贴现率的测试结果进行比较,其衡量指标同样为累积搜索成本,设置搜索代价贴现率分别等于:0.97、0.99、1、1.01、1.03、1.05,网格大小为1KM*1KM, ttarget-ts=30min,学习率α=1,开始时刻ts=8:00/10:00/12:00/14: 00/16:00/18:00/20:00。
如表IV所示,可以发现,当搜索代价贴现率γ=1时,搜索成本最小,因此本实施例认为优选的搜索代价贴现率为γ=1。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于强化学习算法的失踪目标搜索方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。
Claims (7)
1.一种基于强化学习算法的失踪目标搜索方法,其特征在于,包括如下步骤:
步骤S1、数据预处理:包括时间和空间的离散化;目标移动轨迹的离散化;不同时间空间下搜索难度的标量化;
步骤S2、强化学习训练环境构建:构建强化学习训练环境,训练环境信息包含不同时间不同位置出发的对象在不同搜索时刻下的期望搜索代价和不同搜索时刻转移到不同位置的概率;
步骤S3、时空搜索模型离线训练:对状态和行为的定义以及模型进行自适应优化;
步骤S4、在线时空搜索决策:基于步骤S3已经训练好的时空搜索模型迭代地采用贪婪策略确定时空搜索序列并执行时空搜索;
所述目标为车辆目标;
所述步骤S1的具体实现过程如下:
步骤S101、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S103、根据步骤S101中得到的完整轨迹数据结合步骤S102中离散化的时间、空间,将轨迹离散化,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列其中,ox表示目标车辆,dj表示一天中的离散时间序列;
所述步骤S2的具体实现过程如下:
步骤S201、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,ts<topt≤ttarget,根据历史轨迹数据TR计算ts时刻位置为ls的目标对象在topt时刻的各个位置的转移概率概率表示为{P(Δt,t0,l0,:)};其中,ttarget为目标时刻,TR={tr(ox,dj)},Δt为随机时间跨度;
步骤S202、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索难度计算概率代价率{η1,η2,...,ηi,...,ηn},按照概率代价率由大到小确定topt时刻的位置搜索序列
步骤S203、计算在起始时刻ts的起始位置为ls出发的对象在搜索时刻topt下的期望搜索代价Cost(topt,ξopt);
2.根据权利要求1所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S1的具体实现过程如下:
步骤S11、连接并读取原始数据库,获取目标GPS坐标信息,按照ID标识抽取出目标一天的完整轨迹数据;
步骤S12、以一固定时间间隔ΔT将一天时间离散化,将区域按照一固定大小面积ΔS将某特定空间离散化,并分别为每个离散化后的时间、区域编号;
步骤S13、根据步骤S101中得到的所述完整轨迹数据映射到步骤S102中对应的时间点和位置点,将GPS坐标数据转变成区域位置编号,得到离散的目标轨迹序列;
步骤S14、对搜索区域内存在的客观外在因素进行评估,确定其对时空搜索的影响,将搜索难度标量化,即量化时空搜索代价。
3.根据权利要求2所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S2的具体实现过程如下:
步骤S21、重置目标对象在起始时刻ts的起始位置为ls,确定搜索时刻为topt,计算ts时刻位置为ls的目标对象在topt时刻转移到各个位置的转移概率;
步骤S22、根据步骤S201中计算的位置转移概率和步骤S104评估的topt时刻不同位置搜索代价计算topt时刻的期望搜索代价。
4.根据权利要求3所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S3的具体实现过程如下:
步骤S31、形式化定义状态和行为,状态定义为已知的目标对象包含时间点和空间点的时空信息点,行为定义为搜索时刻topt所要执行的位置搜索序列;
步骤S32、基于步骤S2构建的强化学习训练环境和当前时空信息,确定当前时空搜索行为,根据行为的模拟反馈结果自适应调整时空策略。
5.根据权利要求4所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S4的具体实现过程如下:
步骤S41、根据步骤S3训练好的时空搜索模型和已知的目标对象时空信息并基于贪婪策略确定时空搜索行为,即topt时刻下的位置搜索序列;
步骤S42、根据步骤S41确定的时空搜索行为执行时空搜索直到找到目标对象在搜索时刻的位置信息,更新目标对象的已知时空信息;
步骤S43、重复步骤S41和步骤S42,直到确定目标对象在目标时刻的位置信息,输出该位置信息,结束搜索。
6.根据权利要求1所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S3的具体实现过程如下:
步骤S301、随机时空信息(ts,ls)、随机时间跨度Δt,则搜索时刻topt=ts+Δt;
步骤S303、由于Cost(topt,ξopt)表示为{Cost(Δt,ts,ls)},更新值函数Q(Δt,ts,ls);
其中,α.为学习率;γ.为搜索代价贴现率;Copt为在topt时刻找到目标车辆的期望搜索代价;
步骤S304、迭代循环迭代步骤S301、步骤S302、步骤S303直到值函数Q收敛。
7.根据权利要求6所述的一种基于强化学习算法的失踪目标搜索方法,其特征在于,所述步骤S4的具体实现过程如下:
步骤S401、初始化目标车辆ox在搜索日期dx的已知时空信息(ts,ls)和目标时刻ttarget;
步骤S402、确定搜索时间间隔Δt=argmin(Q(:,ts,ls)),确定搜索时间topt=ts+Δt;
步骤S403、根据概率代价率由大到小确定时空搜索序列<topt,ξopt>;
步骤S406重复步骤S402、步骤S403、步骤S404、步骤S405直到ts=ttarget,输出位置ltarget。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911179955.7A CN111061966B (zh) | 2019-11-27 | 2019-11-27 | 基于强化学习算法的失踪目标搜索方法 |
PCT/CN2019/128552 WO2021103248A1 (zh) | 2019-11-27 | 2019-12-26 | 基于强化学习算法的失踪目标搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911179955.7A CN111061966B (zh) | 2019-11-27 | 2019-11-27 | 基于强化学习算法的失踪目标搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061966A CN111061966A (zh) | 2020-04-24 |
CN111061966B true CN111061966B (zh) | 2022-08-05 |
Family
ID=70298690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911179955.7A Active CN111061966B (zh) | 2019-11-27 | 2019-11-27 | 基于强化学习算法的失踪目标搜索方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111061966B (zh) |
WO (1) | WO2021103248A1 (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109521447A (zh) * | 2018-11-16 | 2019-03-26 | 福州大学 | 一种基于贪心策略的失踪目标搜索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339240B (zh) * | 2008-08-26 | 2011-06-22 | 中国人民解放军海军工程大学 | 基于双层预测机制的无线传感器网络目标跟踪方法 |
US10929892B2 (en) * | 2017-10-05 | 2021-02-23 | Mov-Ology, Llc | Marketing to consumers using data obtained from abandoned GPS searches |
-
2019
- 2019-11-27 CN CN201911179955.7A patent/CN111061966B/zh active Active
- 2019-12-26 WO PCT/CN2019/128552 patent/WO2021103248A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109521447A (zh) * | 2018-11-16 | 2019-03-26 | 福州大学 | 一种基于贪心策略的失踪目标搜索方法 |
Non-Patent Citations (1)
Title |
---|
面向目的地推测的时空搜索优化;韩磊,於志勇,朱伟平,於志文;《计算机工程》;20190320;第1页-第8页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021103248A1 (zh) | 2021-06-03 |
CN111061966A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107111794B (zh) | 预测和利用地图服务中出行时间的可变性 | |
CN109711557B (zh) | 一种行车轨迹预测方法、计算机设备及存储介质 | |
CN109035761B (zh) | 基于辅助监督学习的行程时间估计方法 | |
US20210188290A1 (en) | Driving model training method, driver identification method, apparatuses, device and medium | |
WO2018122803A1 (zh) | 一种智能化道路交通异常检测方法 | |
Jiang et al. | Traffic and vehicle speed prediction with neural network and hidden markov model in vehicular networks | |
Chen et al. | When traffic flow prediction and wireless big data analytics meet | |
WO2016096226A1 (en) | A traffic data fusion system and the related method for providing a traffic state for a network of roads | |
CN112242060B (zh) | 交通流量预测方法及装置、计算机设备及可读存储介质 | |
CN111275962B (zh) | 车辆轨迹数据聚集效应预测方法及装置 | |
CN114446049B (zh) | 基于社会价值取向的交通流预测方法、系统、终端及介质 | |
CN112598165B (zh) | 基于私家车数据的城市功能区转移流量预测方法及装置 | |
CN114639233B (zh) | 一种拥堵状态预测方法、装置、电子设备及存储介质 | |
Singh et al. | A review of bus arrival time prediction using artificial intelligence | |
CN114780739A (zh) | 基于时间图卷积网络的时序知识图谱补全方法及系统 | |
Liu et al. | Exploiting spatiotemporal correlations of arrive-stay-leave behaviors for private car flow prediction | |
Cruz et al. | Trajectory prediction from a mass of sparse and missing external sensor data | |
Poudel et al. | Black-box adversarial attacks on network-wide multi-step traffic state prediction models | |
Ma et al. | Toward formal methods for smart cities | |
Ma et al. | A Causal Inference Approach to Eliminate the Impacts of Interfering Factors on Traffic Performance Evaluation | |
CN111061966B (zh) | 基于强化学习算法的失踪目标搜索方法 | |
CN115905434B (zh) | 一种基于学习插值预测的道路网轨迹补全方法 | |
Huang et al. | A dynamic data-driven approach for rail transport system simulation | |
Conlan et al. | Real-time spatio-temporal forecasting with dynamic urban event and vehicle-level flow information | |
Zhao et al. | A learning-based vehicle-trajectory generation method for vehicular networking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |