CN113938817A

CN113938817A - 一种基于车辆位置信息的车主出行位置预测方法

Info

Publication number: CN113938817A
Application number: CN202111064003.8A
Authority: CN
Inventors: 李春山; 肖泳利; 初佃辉; 申义
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-01-14
Anticipated expiration: 2041-09-10
Also published as: CN113938817B

Abstract

本发明属于智能车联网技术领域，公开一种基于车辆位置信息的车主出行位置预测方法，包括以下步骤，步骤一：对基于车辆位置数据的车辆轨迹数据进行整理；步骤二：识别基于车辆轨迹数据的用户重要兴趣点；步骤三：通过密度聚类法的兴趣点合并；步骤四：基于时空标签循环神经网络模型来预测用户下一个兴趣点。通过利用空间维度和语义维度的信息，提升了兴趣点预测的准确度。

Description

一种基于车辆位置信息的车主出行位置预测方法

技术领域

本发明属于智能车联网技术领域，具体涉及一种基于车辆位置信息的车主出行位置预测方法。

背景技术

随着基于位置的服务越来越流行，很多车载APP应用中生成了大量的位置数据。例如用户签到数据，用户轨迹数据等等。这些数据与时间、空间因素有很强的关联，描述了车主(用户)在给定时间访问过的位置。目前出现了用户兴趣点(POI)预测问题的研究成果。用户兴趣点推荐问题就是根据用户的历史访问过的位置序列，建立模型预测用户的即将访问的新位置。获得车辆用户的下一个意图地点(POI)，是给用户提供更加便捷、个性化的服务的基础之一。基于用户行为特征以及意图地点进行实时的需求感知，合理地进行服务推荐，将极大地便利和丰富用户的生活，帮助用户发现新的爱好，引导用户形成新的生活习惯。

现有方案是基于马尔可夫链的序列预测模型、基于高阶向量分解的POI预测方法和基于循环神经网络的方法。考虑到用户出行POI预测存在的数据序列化特性，基于马尔可夫链的模型是首选的解决方案。在马尔可夫模型中，一个概率转移矩阵用来表示用户某个行为的概率。FPMC(Factorizing Personalized Markov Chains)是一个经典的改进马尔可夫模型。该模型结合因子分解模型的理论，使用向量表示了转移到某状态和从某状态转移，用向量内积的形式生成转移矩阵，建模用户在不同位置之间的转移概率。然而FPMC只考虑了状态转移中的线性关系，并且假设了各因素之间是相互独立的，这样的处理限制了模型的能力。

基于高阶向量分解的PRME(Personalized Ranking Metric Embedding)模型将用户POI嵌入到一个低维的向量空间，通过欧几里得距离表征POI之间的联系。该模型定义了两个潜向量空间，一个表征序列转移，一个用来表征用户的偏好，对相同维度的两个向量空间加权求和，作为模型的优化目标。该模型很好的建立了用户在多个POI之间转移的模型，考虑了时间和空间因素。但是PEMR 模型依然存在线性空间表征参数的局限性。

基于RNN(循环神经网络)的模型能够高效地表征模型中的序列化特征，展现了较好的序列预测能力。STRNN(时空循环神经网络)是RNN的扩展。它将时间、空间因素作为隐藏层，在POI预测中取得了较好的效果，但是STRNN 不能建模用户的驻留时间和POI的标签信息，不适合用在智能车联网的预测场景中。具体表现在现有的问题空间在预测用户的兴趣点时，不考虑用户在历史兴趣点的驻留时间，也不考虑兴趣点本身的语义标签。这两种信息实际上对用户兴趣点(POI)的选择产生极大的影响。现有方法的问题空间，在预测用户兴趣点时，不考虑用户在历史兴趣点的驻留时间，也不考虑兴趣点本身的语义标签的不足。

发明内容

本发明旨在克服现有技术的缺陷，提供一种基于车辆位置信息的车主出行位置预测方法，目的分析车主的行车轨迹，提取其出行POI访问记录，结合用户在该位置的停留时间以及该位置的类别标签信息，建立人工智能模型，预测车主下一个即将访问的兴趣点(POI)，并推荐用户兴趣点。

为了解决上述技术问题，本发明提供以下技术方案：

一种基于车辆位置信息的车主出行位置预测方法，其特征在于，包括以下步骤，步骤一：对基于车辆位置数据的车辆轨迹数据进行整理；

步骤二：识别基于车辆轨迹数据的用户重要兴趣点；

步骤三：通过密度聚类法的用户重要兴趣点进行合并；

步骤四：基于时空标签循环神经网络模型来预测用户下一个兴趣点。

优选地，步骤一：车辆轨迹数据整理：

在对数据进行处理之前，首先读取批量车辆轨迹数据进行整理排序，按照设备唯一识别码将车辆轨迹数据按设备号分开，然后按时间标签对数据升序排序，插入用户历史轨迹数据的尾部进行数据更新。

数据更新时，每次插入用户历史轨迹数据为按时间升序排列，保证所有的历史轨迹数据是按升序排列的。

优选地，步骤二：识别基于车辆轨迹数据的用户重要兴趣点POI：

将所述车辆轨迹数据整理后，获得每个设备按时间顺序的轨迹数据，再对轨迹数据中的重要停车点进行停车点识别，通过轨迹压缩算法的处理，将轨迹数据转化为停车点记录数据；

所述重要停车点为车辆的起始点和终止点，POI发现是从庞大的轨迹数据中将POI的重要停车点提取出来的过程。轨迹压缩算法是基于轨迹的形状进行压缩，这使得许多途径点仍然保留在轨迹中。途径点仅仅是用户在达到目的地过程中必须经过的某些位置的信息。

停车点识别，通过扫描轨迹数据，将读取的每个轨迹数据与特定用户相对应的停车点数据关联，得到停车点的结构化数据，输出停车点数据记录；停车点数据包括经纬度、时间标签、停留时间和距离；特定用户指的就是当前车辆的车主。

定义用户u的轨迹数据的集合为，

V_u＝{(lat_n,lon_n,T_n)|T_i<T_i+1,n＝1,2,…,|V_u|}，

其中lat_u与lon_u分别表示第n条数据的纬度和经度，Tn表示第n条数据的时间标签，按时间顺序排列规矩数据，那么对任意的n，都满足Ti<Ti+1。

停车点识别的参数，(1)distance：表示相邻两条轨迹记录之间的距离，根据A、B两点间经纬度计算距离；

根据A、B两点间经纬度计算距离的方法如公式(1)所示：

d_AB＝Rarccos[sin(lat_A)sin(lat_B)+cos(lat_A)cos(lat_B)cos(lon_B-lon_A)] (1)

(2)lastLat，lastLon，lastT：分别记录当前读取的数据的上一条数据的纬度、经度和时间标签，当前数据处理完毕后，会将当前数据的纬度、经度和时间标签赋值为lastLat，lastLon，lastT。

(3)moving：当前数据代表的车辆状态是否为正在移动，辅助识别上述的第二类停车点。

停车点识别触发方式，第一停车点识别是是车辆信号中断不再上传轨迹数据，当车辆再次启动，设备开始采集数据时，确定之前的最后一条记录为停车点；此时distance表示设备关闭前位置与设备再次启动后之间的距离偏差。

另一停车点识别是车辆在较长一段时间内连续上传数据，但位置并不发生改变，当车辆再次移动时，若时间间隔达到阈值，则将车辆暂停移动前的最后一条记录识别为停车点，此时distance无意义，赋值为0。

(4)stoptime：当moving从True变为False时刻的时间标签，用以计算车辆在停车点的停留时间。

停车点记录数据中，停留时间表示用户在某个位置停留的时长，将这些数据看作是与特定用户相对应的停车点数据，得到停车点的结构化数据。

优选地，步骤三：基于密度聚类算法的兴趣点POI聚簇合并，用户重要POI 会包含许多临近的位置点集合作为位置聚类算法的输入，将多个地理位置临近的兴趣点POI聚类成为一个重要兴趣点POI，并产生的用户重要POI出行记录，得到用户频繁访问的目的地序列，以便对车辆的下一步位置进行预测。

停车点识别触发方式，第一停车点识别是车辆信号中断不再上传轨迹数据，当车辆再次启动，设备开始采集数据时，确定之前的最后一条记录为停车点；此时distance表示设备关闭前位置与设备再次启动后之间的距离偏差；

另一停车点识别是在较长一段时间内车辆连续上传数据，但位置并不发生改变，当车辆再次移动时，若时间间隔达到阈值，则将车辆暂停移动前的最后一条记录识别为停车点。

用户一个重要POI会包含许多临近的位置点，并且用户的POI兴趣点通常会在空间中产生聚集现象。将临近的用户POI点的集合作为聚类算法的输入，可以产生POI点的聚簇，从而得到用户频繁访问的目的地列表(真实POI兴趣点)。

位置聚类法为DBSCAN密度聚类算法，用于返回输入数据集中的离群点，包括两个输入参数：距离阈值和密度阈值，距离阈值ε表示不同样本在距离上被划分为同一个簇的倾向性，该值的设定越大，就会将相距更远的样本划分为同簇；密度阈值Minpts是对簇内样本数的限制，设定了密度阈值后，输出的簇内的样本数量都将大于等于该值，若小于该值，则无论两样本相距多近，都会被认为是离群点；首先是输出离群点的集合，其次是距离的度量，通过公式(1)计算两点间经纬度距离。

在实现过程中需要对DBSCAN进行一定程度的改进，以适应本场景下的需求。本发明的场景下首先是DBSCAN需要输出离群点的集合，其次是距离的度量不采用闵可夫斯基距离计算，而是通过公式(1)计算两点间经纬度距离。具有众多优势，比如停车点中的某些离群点，也可能反映用户的行为习惯， DBSCAN准确返回输入数据集中的离群点。

优选地，步骤四：预测基于Tag-SDT-RNN的用户下一个兴趣点POI

Tag-SDT-RNN为预测用户下一个POI，首先定义循环神经网络的用户兴趣隐向量；将时间的长度以及空间的距离分片，在训练模型中训练上界与下界特殊值对应的转移矩阵；优化模型参数，最大化表达式(7)的概率：给定J对用户 u在t时刻的隐向量的偏导数，计算J对任意模型参数的偏导数：通过梯度下降来优化模型参数，直到所有的参数收敛，预测模型的训练推断训练完毕；预测用户在时间的位置，按降序排序得到用户前k个最可能的访问位置。

预测兴趣点，用户兴趣点之间的距离转移矩阵通过计算，持续时间(用户在兴趣点的停留时间)转移矩阵通过计算，用户在访问两个兴趣点之间的时间间隔t对应的转移矩阵通过公式(5)计算：定义用户在时间访问位置的预测概率通过计算，衡量用户的兴趣偏好和特定时空场景对预测结果的影响。

与现有技术相比较，本发明具有如下的有益效果：

在预测用户的兴趣点时，不仅考虑用户在历史兴趣点的驻留时间，也考虑兴趣点本身的语义标签，通过利用空间维度和语义维度的信息，提升了兴趣点预测的准确度。

附图说明

图1是本发明基于车辆位置信息的车主出行位置预测方法的轨迹数据整理流程图；

图2是本发明基于车辆位置信息的车主出行位置预测方法的识别用户重要兴趣点流程图；

图3是本发明基于车辆位置信息的车主出行位置预测方法的模型计算流程图；

图4是本发明整个方法的计算流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1-3所示，一种基于车辆位置信息的车主出行位置预测方法，包括以下步骤，步骤一：基于车辆位置数据的车辆轨迹数据整理；

步骤二：基于车辆轨迹数据的用户兴趣点识别；

步骤三：基于密度聚类算法(DBSCAN)的POI合并；

步骤四：基于Tag-SDT-RNN的用户下一个POI预测方法。

优选地，步骤一：车辆位置数据的车辆轨迹数据整理：

原始轨迹数据由众多车辆混合上传，某些设备可能会因为信号原因延时上传数据，因此原始轨迹数据在时间上不一定有序。在对数据进行处理之前，读取批量轨迹数据，首先车辆轨迹数据整理排序，按照设备唯一识别码将车辆轨迹数据按设备号分开，然后对数据按时间标签(标签)升序排序，插入用户历史轨迹数据的尾部。通常情况下，某一用户的历史轨迹更新具有较长的时间间隔。因此只要保证每次更新时插入用户历史轨迹数据为按时间升序排列，保证所有的历史轨迹数据是按序排列的。如图1所示，对一批量的轨迹数据，将其整理排升序的过程。

数据整理，批量轨迹数据进行读取数据，读取数据成功；若存在用户数据临时变量，添加数据至临时变量；若数据读取不成功，添加所有临时变量数据到相应的轨迹文件中。无用户数据临时变量时，创建用户的数据临时变量；

步骤二：获取基于车辆轨迹数据的用户重要POI(兴趣点)：

将所述车辆轨迹数据整理后，获得每个设备的按时间顺序的轨迹数据，对轨迹数据中的重要停车点进行识别，通过轨迹压缩算法的处理，将轨迹数据转化为停车点记录数据。

POI的重要停车点为把车辆的起始点与终止点，因为起始点与终止点直接代表了用户的出行需求，从庞大的轨迹数据中将POI的重要停车点提取出来的过程叫做POI发现。但以上轨迹压缩算法的共同点都是基于轨迹的形状进行压缩，这使得许多途径点仍然保留在轨迹中。途径点仅仅是用户在达到目的地过程中必须经过的某些位置的信息，并不能反映用户的行为习惯，且上述的离线轨迹压缩算法的时间复杂度至少为O(N²)，这样的时间复杂度对于动辄数万条记录的轨迹数据是难以接受的。停车点识别算法，一方面能够压缩轨迹数据，仅保留反映用户目的或意图的重要che，另一方面其算法时间复杂度为O(N)，

在运行过程中只需顺序扫描一遍轨迹数据，即可提取出全部的停车点。

获取用户重要兴趣点，读取用户的每个轨迹数据，当前停车时间大于阈值，设置当前点，计算distance，并将其加入用户的POI集合，如是临时停车设置当前点，distance为0并将其加入用户的POI结合，输入用户的POI结合；

当前停车时间小于阈值，返回至读取用户的每个轨迹数据；如不是临时停车，返回至读取用户的每个轨迹数据。

停车点识别算法，通过扫描轨迹数据，输出停车点数据记录，停车点数据包括经纬度、时间标签、停留时间、距离。

具体的算法流程如图2所示，定义用户u的轨迹数据的集合为，V_u＝ {(lat_n,lon_n,T_n)|T_i<T_i+1,n＝1,2,…,|V_u|}，其中latu与lonu分别表示第n条数据的纬度和经度，Tn表示第n条数据的时间标签，已经按时间顺序排列规矩数据，那么对任意的n，都满足Ti<Ti+1。

停车点识别的参数，(1)distance：相邻两条轨迹记录之间的距离。

停车点识别触发方式有两种，第一停车点识别是是车辆信号中断不再上传轨迹数据，当车辆再次启动，设备开始采集数据时，确定之前的最后一条记录为停车点；此时distance表示设备关闭前位置与设备再次启动后之间的距离偏差。另一停车点识别是车辆在较长一段时间内连续上传数据，但位置并不发生改变，当车辆再次移动时，若时间间隔达到阈值，则将车辆暂停移动前的最后一条记录识别为停车点，此时distance无意义，赋值为0。

根据A、B两点间经纬度计算距离的方法如公式(1)所示：

d_AB＝Rarccos[sin(lat_A)sin(lat_B)+cos(lat_A)cos(lat_B)cos(lon_B-lon_A)] (1)

式中R—为地球半径，取6378.137km。

若出行记录数据中缺少地址类别字段信息，可替换为下式：

其他过程一律相同。

停车点记录数据中有一项关键是停留时间，表示用户在某个位置停留的时长，将这些数据看作是与特定用户相对应的停车点数据，得到的停车点的结构化数据。

通过上述算法的处理，可以将轨迹数据转化为停车点记录数据。停车点记录中有一项关键数据是停留时间，表示用户在某个位置停留的时长，这项数据的获取，使得起点与终点之间的差异性被消除，从而让输出结果保持结构化的特性，将这些数据看作是与特定用户相对应的停车点数据，得到的停车点的结构化数据如表1所示：

表1

进一步的具体实施例，步骤三：基于密度聚类算法的POI聚簇合并，产生的用户出行记录，对车辆的下一步位置进行预测。

用户重要POI会包含许多临近的位置点，并且用户的POI兴趣点通常会在空间中产生聚集现象，假如用户规律性地往返于家和公司，那么其停车点应当形成两个聚簇。将临近的用户POI点的集合作为聚类算法的输入，可以产生POI 点的聚簇，从而得到用户频繁访问的目的地列表(真实POI兴趣点)。

DBSCAN密度聚类算法作为位置聚类算法，包括两个输入参数：距离阈值和密度阈值，距离阈值ε表示不同样本在距离上被划分为同一个簇的倾向性，该值的设定越大，就会将相距更远的样本划分为同簇；密度阈值Minpts是对簇内样本数的限制，设定了密度阈值后，输出的簇内的样本数量都将大于等于该值，若小于该值，则无论两样本相距多近，都会被认为是离群点。

该算法在本发明的场景下有众多优势，比如停车点中的某些离群点，也可能反映用户的行为习惯，这些点是不可忽略的，而DBSCAN可以准确返回输入数据集中的离群点。只要一个位置在算法标准下不形成聚簇，那么该位置就将是一个离群点，不会与任何聚簇划分在一起。

在实现过程中需要对DBSCAN进行一定程度的改进，以适应本场景下的需求。本发明的场景下首先是DBSCAN需要输出离群点的集合，因为离群点也是重要的用户出行信息，其次是距离的度量不采用闵可夫斯基距离计算，而是通过公式(1)计算两点间经纬度距离。这是因为经纬坐标不同于平面直角坐标系。具有众多优势，比如停车点中的某些离群点，也可能反映用户的行为习惯， DBSCAN准确返回输入数据集中的离群点。

DBSCAN算法需要确定两个输入参数：距离阈值ε和密度阈值Minpts，距离阈值表示不同样本在距离上被划分为同一个簇的倾向性，该值的设定越大，就会将相距更远的样本划分为同簇。密度阈值是对簇内样本数的限制，设定了密度阈值后，输出的簇内的样本数量都将大于等于该值，若小于该值，则无论两样本相距多近，都会被认为是离群点。在本场景下，该值应当直接设定为2，因为只要两个点距离足够近，就可以认为是同一个目的地。将其拆开分析反而是不利的处理方式。

用户出行记录数据格式表2如下：

其中地址的行业类别也是唯一编码，每个行业类别对应一个隐向量c，

表示用户u在t时刻访问位置对应的行业类别的隐向量。

进一步的具体实施例，步骤四：预测基于时空标签循环神经网络(Tag-SDT-RNN)模型的预测用户下一个POI,

为了预测用户下一个POI提出了Tag-SDT-RNN方法。首先需要定义循环神经网络的用户兴趣隐向量为：

其中

为用户u的隐向量，表示u在时间t下对位置

的兴趣；；

为用户u在时间ti访问的POI的隐向量；

为位置

到

的地理距离对应的转移矩阵；

为时间间隔t-t_i对应的转移矩阵；

D为持续时间转移矩阵，矩阵参数与用户u在t时刻到达的位置停留的时间相关；

C为连接上一步状态信息的参数矩阵，矩阵参数通过模型训练确定。；

M为行业类别转移矩阵，矩阵参数通过模型训练确定。

因为实数集合是一个无穷集，显然不可能对所有的实数值都建立一个一一对应的转移矩阵。因此，考虑将时间的长度以及空间的距离分片，在模型中只训练上界与下界特殊值对应的转移矩阵。而普通实数对应的参数矩阵可以通过线性插值的方法计算。用户在兴趣点进行预测时，给定U(l)和L(l)代表地理距离l的上界和下界，那么考虑兴趣点之间的距离转移矩阵S_l通过公式(3)计算：

给定U(d)和L(d)代表持续时间d的上界和下界，那么持续时间(用户在兴趣点的停留时间)转移矩阵通过公式(4)计算：

给定U(t)和L(t)分别代表时间间隔t所在分区的上界和下界。那么用户在访问两个兴趣点之间的时间间隔t对应的转移矩阵T_t可以通过公式(5)计算：

本发明定义用户u在时间t访问位置v的预测概率o_u,t,v通过公式(6)计算：

其中q_v为位置v的向量；p_u为用户u的向量；θ为超参数，取值为[0,1]，衡量用户的兴趣偏好和特定时空场景对预测结果的影响。

那么根据贝叶斯个性化排序理论，为了优化模型参数，就要最大化表达式(7)的概率：

p(u,t,v＞v′)＝f(o_u,t,v-o_u,t,v′) (7)

式中v′——用户u未曾访问过的POI；

f(·)——sigmoid函数。

采用负似然对数求极值点的方法，可以得到公式：

式中Θ——代表所有需要学习的参数{p,q,c,S,D,T,M,C}；

λ——正则项权重参数。

结合随时间反向传播算法，隐藏层的所有参数的梯度都可以被计算，给定J 对用户u在t时刻的隐向量的偏导数

就可以通过公式(8)计算J对任意模型参数的偏导数：

式中

——为张量积运算符，此处代表运算符前后两个矩阵的外积；

f′(·)——代表sigmoid函数的导函数在公式(4-8)中自变量矩阵处的函数值。

最终通过梯度下降来优化参数，直到所有的参数收敛。

当参数收敛，预测模型的训练推断训练完毕。

p、q、c分别代表所有用户的隐向量、所有位置的隐向量和所有行业类别的隐向量。

最后，预测用户u在时间t的位置方法如下：

对所有的位置v计算公式(6)中的o_u,t,v，按降序排序得到用户前k个最可能的访问位置。

本发明基于真实轨迹数据的实验，数据来源于车载后视镜采集的轨迹数据，并与几个不同的位置预测算法进行对比。将用户的轨迹数据进行停车点识别，然后通过聚类算法得到用户访问过的所有位置，将每个位置都看作一个POI，并随机选取簇内一点作为该POI的经纬度。通过这样的处理，数据的格式就与众多开放的签到数据集类似，这也便于与其他的位置预测模型进行对比实验。

考虑到用户活动分布过于广泛，应该选取某个城市内的数据作为研究对象。选择出行记录条数超过10条的用户，共由800多名用户的4000多个活动位置构成，总记录条数超过十万条，时间跨度为4个月。在实验中，将用户的出行记录按时间顺序，前50％作为训练集，之后的30％作为测试集，最后的20％作为验证集来调整参数。其中正则项的参数被设置为λ＝0.05。

选择的模型评价指标有Recall@k，这是最基本的度量，其中k的值取1、5 和10。此外还选择了MAP和AUC两种全局评价指标，值越大代表模型效果越好。被选作对比实验的模型有矩阵分解模型(MF)、个性化马尔科夫链模型(FPMC)、个性化排序度量嵌入(PRME)、循环神经网络(RNN)、考虑时空因素的循环神经网络(ST-RNN)。

表3位置预测模型的对比实验效果

表1是各个不同的指标在所有模型上的结果，可以看到本发明提出的 Tag-ST-RNN模型执行效果最好。具体分析，最基本的矩阵分解方法执行效果最差，FPMC执行效果好于MF，因为基于马尔可夫链的模型是考虑时序性的并且该模型将个性化的因素考虑在内。PRME将用户和位置都作为隐向量，通过度量学习训练两个线性空间内的转移矩阵，实现了更好的效果。而RNN在训练中充分利用了历史信息，因此执行效果比之前的模型都好。从表1中可以看到，对用户在位置的停留时间建模(SD-RNN)，可以获得与ST-RNN相似的执行效果，当停留时间和到达时间都被模型考虑在内时，效果就会取得一定改善。当结合了 POI的类别特性，Tag-ST-RNN模型的执行效果又得到了提升，这说明了用户的位置转移过程包含着内在的规律，这种规律是与行业类别相关的。

表4Tag-SDT-RNN在不同w下的执行效果

表2展示了模型在不同的时间窗口下的执行效果。这可以给参数的选择提供指导，此时维度设置为d＝20并且公式(5)中的θ＝0.5。我们可以看到最佳的时间窗口宽度是6小时，在这种情况下，除了Recall@1以外的所有指标都具有最佳的效果，当w＝12h时，Recall@1表现得更好。然而这并不影响w的选择，因为即使当w＝6h时Recall@1的执行效果也优于其他的值。

以上所述仅为说明本发明的实施方式，并不用于限制本发明，对于本领域的技术人员来说，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于车辆位置信息的车主出行位置预测方法，其特征在于，包括以下步骤，步骤一：对基于车辆位置数据的车辆轨迹数据进行整理；

步骤二：识别基于车辆轨迹数据的用户重要兴趣点；

步骤三：通过密度聚类法的用户重要兴趣点进行合并；

2.根据权利要求1所述基于车辆位置信息的车主出行位置预测方法，其特征在于，步骤一：整理所述车辆轨迹数据：

在数据整理之前，先读取批量车辆轨迹数据进行排序整理，按照设备识别码将车辆轨迹数据按设备号分开，然后按时间标签对数据排序，用户历史轨迹数据插入车辆轨迹数据尾部进行数据更新。

3.根据权利要求2所述基于车辆位置信息的车主出行位置预测方法，其特征在于，数据更新时，每次用户历史轨迹数据插入为按时间升序排列。

4.根据权利要求1所述基于车辆位置信息的车主出行位置预测方法，其特征在于，步骤二：识别基于车辆轨迹数据的用户重要兴趣点：

将所述车辆轨迹数据整理后，获得每个设备的按时间顺序的轨迹数据法，再对轨迹数据中的重要停车点进行停车点识别，通过轨迹压缩处理，将轨迹数据转化为停车点记录数据；所述重要停车点为车辆的起始点和终止点。

5.根据权利要求4所述基于车辆位置信息的车主出行位置预测方法，其特征在于，停车点识别，通过扫描轨迹数据，将读取的每个轨迹数据与特定用户相对应的停车点数据关联，得到停车点的结构化数据，输出停车点数据记录；停车点数据包括经纬度、时间标签、停留时间和距离；停车点识别的参数，distance：表示相邻两条轨迹记录之间的距离，根据A、B两点间经纬度计算距离；

lastLat，lastLon，lastT：分别记录当前读取的数据的上一条数据的纬度、经度和时间标签，当前数据处理完毕后，会将当前数据的纬度、经度和时间标签赋值为lastLat，lastLon，lastT；

moving：当前数据代表的车辆状态是否为正在移动，辅助识别停车触发方式；

stoptime：用以计算车辆在停车点的停留时间。

6.根据权利要求4所述基于车辆位置信息的车主出行位置预测方法，其特征在于，停车点识别触发，第一停车点识别是车辆信号中断不再上传轨迹数据，当车辆再次启动，设备开始采集数据时，确定之前的最后一条记录为停车点；此时distance表示设备关闭前位置与设备再次启动后之间的距离偏差；

7.根据权利要求1所述基于车辆位置信息的车主出行位置预测方法，其特征在于，步骤三：所述通过密度聚类法的用户重要兴趣点进行合并；

包含许多临近的位置点用户重要兴趣点会集合作为位置聚类算法的输入，将多个临近位置的兴趣点聚类成为一个重要兴趣点，并产生的用户重要兴趣点出行记录，得到用户频繁访问的目的地序列。

8.根据权利要求7所述基于车辆位置信息的车主出行位置预测方法，其特征在于，所述位置聚类法为DBSCAN密度聚类法，用于返回输入数据集中的离群点，首先是输出离群点的集合，其次是距离的度量，算两点间经纬度距离；其包括两个输入参数：距离阈值和密度阈值，距离阈值表示不同样本在距离上被划分为同一个簇的倾向性，距离阈值的设定越大，将相距更远的样本划分为同簇；密度阈值是对簇内样本数的限制，设定了密度阈值后，输出的簇内的样本数量都将大于等于该值，若小于该值，则无论两样本相距多近，认定为是离群点。

9.根据权利要求1所述基于车辆位置信息的车主出行位置预测方法，其特征在于，步骤四：预测基于时空标签循环神经网络模型的用户下一个兴趣点：

时空标签循环神经网络模型，先定义循环神经网络的用户兴趣隐向量；将时间的长度以及空间的距离分片，在训练模型中训练上界与下界特定值对应的转移矩阵；优化模型参数，给定对用户在某时刻的隐向量的偏导数，计算对任意模型参数的偏导数：通过梯度下降来优化模型参数，直到所有的参数收敛，预测模型的训练推断训练完毕；预测用户在时间的位置，按降序排序得到用户前k个最可能的访问位置。

10.根据权利要求1所述基于车辆位置信息的车主出行位置预测方法，其特征在于，兴趣点预测，用户兴趣点之间的距离转移矩阵通过计算，持续时间转移矩阵通过计算，在访问两个兴趣点的时间间隔对应的转移矩阵通过计算：定义用户在时间访问位置的预测概率通过计算，衡量用户的兴趣偏好和特定时空场景对预测结果的影响。