CN114398462A

CN114398462A - 一种基于多源异构信息网络的目的地推荐方法及系统

Info

Publication number: CN114398462A
Application number: CN202210295939.XA
Authority: CN
Inventors: 陈红阳; 方辉; 肖竹
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-04-26
Anticipated expiration: 2042-03-24
Also published as: CN114398462B

Abstract

本发明公开了一种基于多源异构信息网络的目的地推荐方法及系统，该系统包括数据预处理模块、多源信息融合模块、异构神经网络推荐模块。数据预处理模块包括数据采集和数据清洗模块，本发明采集来自私家车OBD接口的车辆驾驶状态和来自GPS接口的车辆轨迹信息的数据，并对异常进行排查和清洗。多源信息融合包括轨迹时空信息处理和基于元路径的异构图构建方案，将轨迹地理信息与语义信息结合，通过构建多重元路径来建模结构化的空间特征。异构神经网络推荐模块包括聚合模块和动态交互模块，挖掘潜在的用户交互，利用动态异构网络分析用户的目的地偏好。本发明通过分析用户的出行轨迹，能为用户进行相对精准的目的地推荐，将结果推送到用户终端。

Description

一种基于多源异构信息网络的目的地推荐方法及系统

技术领域

本发明主要涉及推荐系统领域，主要涉及一种基于多源异构信息网络的目的地推荐方法及系统。

背景技术

随着传感器种类的多样、移动互联部署范围的扩大、高性能计算和可靠性存储技术的快速发展，轨迹数据的提取变得快捷和智能。在当前的大数据背景下，学者们从群体、动态、时空的角度理解城市人群移动行为和空间结构的关系，从而解决各类城市应用的问题，如导航服务、广告推送、交通管理等。其中基于位置的推荐系统成为研究的热点，包括兴趣点(Point-of-interest, POI)推荐、下一POI推荐、目的地推荐等。现有的推荐方法主要侧重于利用关于用户偏好、社会影响和地理影响的信息来量化用户的访问偏好，比如将社会影响与基于用户的协同过滤模型相结合，或用贝叶斯模型对地理影响进行建模等。除此之外，潜在因子模型、马尔科夫链等方法也被广泛应用于序列数据分析和推荐。为了考虑相邻POI之间的时间间隔和地理距离，一些研究将扩展的循环神经网络(Recurrent NeuralNetwork, RNN)应用到下一POI的时间和空间建模中，如ST-RNN、HST-LSTM。但这些方法都存在着一些不足，首先因为用户的签到行为具有一定的随机性，因而导致了签到数据较为分散和稀疏；其次，用户的停留行为是挖掘用户潜在目的地的关键因素，但经常被忽视；因此目前的目的地推荐系统的准确性还存在很大的提升空间。

发明内容

本发明的目的在于针对现有技术的不足，提出了一种基于多源异构信息网络的目的地推荐系统。

为实现上述目的，本发明的技术方案为：

本发明实施例的第一方面提出了一种基于多源异构信息网络的目的地推荐方法，包括以下步骤：

S1，采集轨迹时空信息，计算车辆停留的时空地理信息，据此进行数据清洗得到合理的轨迹时空信息；

S2，去除清洗后的冗余的轨迹时空信息，对去除冗余的轨迹时空信息所在位置区域的地图进行爬取，获得POI信息，并将POI信息与去冗余的轨迹时空信息进行匹配，使得所述POI信息与所述去除冗余的轨迹时空信息一一对应，根据POI信息包括的语义信息和位置信息以及所述去除冗余的轨迹时空信息构建多重元路径，基于元路径构建异构图；

S3，基于构建的异构图进行邻居信息聚合，得到节点表征信息，利用节点表征信息构建多头注意机制模型，训练该模型输出得到目的地推荐结果。

进一步地，所述采集轨迹时空信息具体为：采集来自于机动车OBD接口的车辆驾驶状态数据和来源于机动车GPS接口的车辆轨迹数据；所述车辆驾驶状态数据包括车辆点火指令、熄火指令、速度和方向；所述车辆轨迹数据包括车辆匿名化ID、车辆所在经纬度、当前时刻和位置语义信息。

进一步地，所述数据清洗的过程具体为：计算车辆停留的时空地理信息，利用

原则判断，删除或基于改进的LSTM网络进行轨迹预测以修正不合理的轨迹时空信息；所述车辆停留的时空地理信息包括车辆的停留时间、停留经纬度、停留时长和停留时间编码。

进一步地，利用STKmeans聚类算法去除清洗后的冗余的轨迹时空信息；经STKmeans聚类算法后得到K个聚类中心，所述冗余的轨迹时空信息为K个聚类中心以外的所有点；去除冗余轨迹点即去除K个聚类中心以外的所有点，保留K个聚类中心。

进一步地，所述构建多重元路径的过程具体为：所述构建多重元路径的过程具体为：所述元路径有3条构建方案，分别为

，

，

；其中

表示起点，

表示终点，

表示两者连接的边；

表示车辆的唯一编号，

表示车辆编号与起点的连接边，

表示目的地与POI类型的连接边，

表示匹配的POI类别。

进一步地，所述步骤S3具体包括以下子步骤：

S301，将步骤S2构建的异构图按连接边的类型分为异构子图；将异构子图中不同类型的节点进映射到同一特征空间，得到节点映射向量；

S302，将步骤S2构建的异构图中不同类型的边映射到同一特征空间，得到边映射向量；

S303，基于节点映射向量和边映射向量进行邻居聚合，获得每个节点的节点表征信息；

S304，将每个节点的节点表征信息进行合并，基于异构图中的时间序列构建多头注意机制模型，训练该模型输出得到目的地推荐结果。

本发明实施例的第二方面提供了一种基于多源异构信息网络的目的地推荐系统，具体包括数据预处理模块、多源信息融合模块和异构神经网络推荐模块；

所述数据预处理模块包括车辆目的地停留数据采集模块和数据清洗模块；所述车辆目的地停留数据采集模块用于采集车辆的轨迹时空信息；所述数据清洗模块利用3

原则检测采集的轨迹时空信息中不合理的值，并对其删除或修正；

所述多源信息融合模块包括轨迹时空信息处理模块和异构图构建模块；所述轨迹时空信息处理模块用于处理冗余的轨迹时空信息、POI信息爬取和匹配；所述异构图构建模块用于构建多重元路径，并基于元路径构建异构图；

所述异构神经网络推荐模块包括信息聚合表征模块和序列推荐模块；所述信息聚合表征模块基于构建的异构图进行邻居信息聚合，得到节点表征信息；所述序列推荐模块用于利用节点表征信息构建多头注意机制模型，训练该模型输出得到目的地推荐结果。

本发明实施例的第三方面提供了一种电子设备，包括存储器和处理器，其中，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于多源异构信息网络的目的地推荐方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现上述的基于多源异构信息网络的目的地推荐方法。

本发明的有益效果为：本发明基于目的地推荐任务，引入了轨迹点匹配POI的方法，并且充分考虑了不同类型节点之间的交互关系，利用层次注意力机制进行多条路径下的信息聚合，提高了目的地推荐效果的准确性。

附图说明

图1为本发明方法的整体框架图；

图2为本发明提出的异构图的元路径构建方案；

图3为本发明提出的异构神经网络推荐模块；

图4为本发明提出的异构图聚合模块；

图5为本发明提出的异构图自注意力机制流程图；

图6为本发明装置的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本实例提出了一种基于多源异构信息网络的目的地推荐系统，包括数据预处理模块、多源信息融合模块、异构神经网络推荐模块和用户终端。

所述数据预处理模块包括车辆目的地停留数据采集模块和数据清洗模块；所述车辆目的地停留数据采集模块用于采集来自于机动车OBD接口的车辆驾驶状态数据和来源于机动车GPS接口的车辆轨迹数据，并结合采集到的数据判断车辆的停留状态，从而得到车辆停留的时空地理信息；所述数据清洗模块利用3

原则检测采集的车辆目的地停留数据中不合理的值，并对其删除或修正。

所述多源信息融合模块包括轨迹时空信息处理模块和异构图构建模块用于轨迹的时空信息处理和元路径的构建，时空信息处理过程包括去除冗余轨迹点、POI信息爬取和匹配。所述轨迹时空信息处理模块用于处理冗余的轨迹时空信息、POI信息爬取和匹配；所述异构图构建模块用于构建多重元路径，并基于元路径构建异构图。

所述异构神经网络推荐模块用于多层次邻居节点信息的聚合和节点信息的表征利用序列推荐模块获得最终的推荐结果。所述异构神经网络推荐模块包括信息聚合表征模块和序列推荐模块；所述信息聚合表征模块基于构建的异构图进行邻居信息聚合，得到节点表征信息；所述序列推荐模块用于利用节点表征信息构建多头注意机制模型，训练该模型输出得到目的地推荐结果。

所述用户终端用于将目的地推荐结果的发送到用户设备，并以可视化的方式呈现。

本方面实施例提出了一种基于多源异构信息网络的目的地推荐方法，参考图1所示，包括以下步骤：

（1）利用数据预处理模块进行数据预处理，所述数据预处理为采集车辆目的地停留数据，并对采集的数据进行数据清洗；具体包括以下子步骤：

（1.1）利用车辆目的地停留数据采集模块以采集频率为10s/次采集来自于机动车OBD接口的车辆驾驶状态数据和来源于机动车GPS接口的车辆轨迹数据；所述车辆驾驶状态数据包括车辆点火指令（即车辆开车）、熄火指令（即停车状态）、速度和方向；所述车辆轨迹数据包括车辆匿名化ID、车辆所在经纬度、当前时刻、位置语义信息。

（1.2）所述数据清洗模块利用

原则对采集的不合理的车辆停留的时空地理信息进行删除或修正；具体为：首先筛选或计算出车辆停留的时空地理信息，所述车辆停留的时空地理信息包括车辆的停留时间、停留经纬度、停留时长（也称时间差）、和停留时间编码，所述停留时间编码按照一周168小时进行编码。其次利用

原则检测数据集中存在不合理的值，并对其删除或修正；所述不合理的车辆停留的时空地理信息包括但不限于开车时间间隔少于1分钟的数据、开车距离少于3米的数据、一个月内驾驶轨迹少于10条的数据，以及根据历史和将来轨迹填充缺失轨迹。

其中，利用停留经纬度计算开车距离的计算公式为：

其中，

、

分别为

点的经度，

、

分别为

点的维度，

和

表示任意两点的位置。

根据历史和将来轨迹填充缺失轨迹修正不合理的值具体为：利用基于改进的LSTM网络进行轨迹预测，将预测的经纬度作为缺失点的轨迹填充，其改进的LSTM网络具体包括：全连接层、长短时记忆网络层、随机失活层（dropout层）。另外还考虑了车辆历史时刻的方向和速度特征，编码后作为外部特征，与改进的LSTM网络级联，输入为车辆历史时刻的位置、方向、速度，输出为下一位置点。

（2）利用多源信息融合模块进行多源信息融合，包括轨迹时空信息处理和元路径构建，处理清洗后的轨迹时空信息，去除冗余轨迹点，对去除冗余的轨迹时空信息所在位置区域的地图进行爬取，获得POI信息（Point of Interest，兴趣点），并将POI信息与去冗余的轨迹时空信息进行匹配，使得所述POI信息与所述去除冗余的轨迹时空信息一一对应，根据POI信息包括的语义信息和位置信息以及所述去除冗余的轨迹时空信息构建多重元路径，基于元路径构建异构图；具体包括以下子步骤：

（2.1）首先通过STKmeans（Spatial-Temporal Kmeans）聚类算法去除冗余轨迹时空信息，进行轨迹时空信息处理，并选择评价指标来评估模型。具体包括以下子步骤：

（2.1.1）随机初始化参数距离差权重

，时间差权重

，K个聚类中心，其中

。

（2.1.2）使用梯度下降法将样本集分配到最近邻聚类，聚类目标为是使各个点之间的距离最小以及时间差最小，计算公式如下：

式中，

属于第i类簇

中的任一点，

是第i类簇

的中心点，时间差是计算按24小时编码后的时间差；

为

点的停留时间编码，

为中心点的停留时间编码。

（2.1.3）根据每个样本的位置均值更新聚类中心。

（2.1.4）重复步骤（2.1.2）~（2.1.3），直到梯度不在下降。

（2.1.5）得到K个聚类中心和所有点的聚类标签；所述冗余轨迹时空信息为K个聚类中心以外的所有点；去除冗余轨迹点即去除K个聚类中心以外的所有点，保留K个聚类中心。

所述的聚类算法的评估指标选用适用于时空数据的Davies-Bouldin指数(Dbi)，其公式为：

其中，

和

分别表示第i类和j类的类内分散度，公式表达为：

表示第i类和j类的类间距离，公式为：

表示第i类的中心点的第k个属性的值。

（2.2）对去除冗余的轨迹时空信息所在位置区域的地图利用python中的requests函数进行爬取，获得POI信息，并将POI信息与去冗余的轨迹时空信息进行匹配，使得所述POI信息与所述去除冗余的轨迹时空信息一一对应，根据POI信息包括的语义信息和位置信息以及所述去除冗余的轨迹时空信息构建多重元路径，基于元路径构建异构图。

所述POI信息还可包括POI的ID、POI点名称、POI类型、该POI的中心点到请求坐标的距离、方向、POI地址信息、坐标点、POI所在商圈名称等等。

所述时空轨迹信息包括车辆的停留时间

、停留经纬度

、停留时长（也称时间差）

、和停留时间编码

；所述停留时间编码按照一天24小时进行编码。

所述元路径有3条构建方案，如图2所示为本发明实施例提出的异构图的元路径构建方案，分别为

，

，

这3条构建方案。其中，

表示起点，

表示终点，

表示两者连接的边；

表示车辆的唯一编号，

表示车辆编号与起点的连接边，

表示目的地与POI类型的连接边，

表示匹配的POI 类别。该POI类别由高德地图等导航地图软件的API接口获取，匹配原则优先考虑两者之间的空间距离、POI面积大小、与待匹配坐标点的地理距离，所有类型的边的特征由停留时长分布函数进行量化表示。

所述停留时长分布函数本发明实施例中选用基于逆高斯模型的概率密度分布函数，其公式为：

其中，

为逆高斯分布的超参数，

作为所有类型边对应的停留时长的特征值。

（3）基于步骤（2）构建的异构图，进行异构神经网络推荐，首先利用信息聚合模块进行邻居节点信息的聚合和节点表征，然后利用序列推荐模块获得最终的推荐结果。所述信息聚合模块利用基于元路径随机游走挖掘邻居，然后利用层次注意力机制进行邻居节点信息的集合，提高节点的表征效果；所述序列推荐模块是利用节点历史上的表征序列，利用transformer进行时间上的建模，获得推荐结果。

图3 为本发明提出的异构神经网络推荐模块，按如下步骤依次进行：

（3.1）将步骤（2）构建的异构图按连接边的类型分为异构子图；所述异构子图由异构图中的元路径所构建，只包括一种类型的连接边。即根据某一条元路径中的某一节点类型，搜索与它相邻类型的节点，并匹配两者之间的连接关系。

将异构子图中不同类型的节点进映射到同一特征空间，其公式为：

其中，

是从上一层的第m个头（head）中

类型的空间到

层的映射，

是

类型空间的转换系数，节点（node）类型包括

。

（3.2）将步骤（2）构建的异构图中不同类型的边映射到同一特征空间，公式为：

其中，

是从上一层的第m个头（head）中

类型的空间到

层的映射，

是

类型空间的转换系数，

是边的停留时间特征。edge类型包括

。

类似的，边映射的公式为：

其中，

是从上一层的第m个头（head）中

类型的空间到

层的映射，

是

类型空间的转换系数，

是边的停留时间特征。edge类型包括

。将m个head中

类型的空间到

层的映射合并得到第a条边的特征表示

。

（3.3）基于节点映射向量和边映射向量进行邻居聚合，如图4所示，然后进行邻居聚合来获得每个节点的节点表征信息，其具体步骤如下：

（3.3.1）对于节点类型相同的元路径，形如

的信息聚合，主要关注节点特征的变化，先随机失活节点防止模型过拟合，再经过节点注意力层计算各个邻居节点的重要性；对于节点类型不相同的元路径，形如

，

的信息聚合，主要关注边的特征，先随机失活连接边，再经过边注意力层计算各个连接边的重要性。

将多种类型的点或边根据步骤（3.2）的公式映射到同一特征空间，然后选用缩放点积模型的注意力得分系数来反映邻居特征向量对给定中心节点的重要程度，定义如下：

。

其中，

表示第a条边的特征表示

的转置。在选择第a条边时，考虑其停留时间分布，计算的概率

如下公式：

。

邻居信息聚合的公式表示如下：

其中，E为连接边的条数，

表示对于节点node的所有连接边信息的聚合表征。

（3.3.2）将该步骤（3.3.1）的聚合表征结果经过SoftMax层进行归一化处理，再经由全连接层输出，得到节点表征信息。

（3.4）基于步骤（3.3）输出的的计算结果，将输出结果进行级联，经过异构图自注意力机制建模时间序列，产生推荐结果，将该推荐结果输入到用户终端中，图5为本发明提出的异构图自注意力机制流程图，其具体步骤如下：

（3.4.1）滑动选取

个历史时间段的异构图的特征矩阵，并通过嵌入层将其映射到同一特征空间，得到嵌入向量

；

（3.4.2）初始化三个权重矩阵

，根据权重矩阵计算嵌入向量的Q，K，V值，再利用缩放点积公式计算向量相似度

。公式如下：

其中，d表示Q，K，V的维度，用于调节内积过大的情况。

（3.4.3）基于步骤（3.4.2）计算的结果，将多个头产生的结果进行级联，通过经过线性层输出注意力分数的结果。

（3.4.4）基于步骤（3.4.3）输出的注意力分数的结果，将所选历史时间段的结果再次级联，经由多层感知机输出所有地点选项的可能性分数，选取

个可能性最大的结果，

（3.4.5）利用均方根作为损失函数对模型进行训练，重复步骤（3.4.2）~（3.4.4），直到达到预设的训练精度，完成该模型的训练，输出得到目的地推荐结果。

（3.4.6）将步骤（3.4.5）输出的推荐结果输入到用户终端中，完成目的地推荐。

与前述一种基于多源异构信息网络的目的地推荐方法的实施例相对应，本发明还提供了一种基于多源异构信息网络的目的地推荐装置的实施例。

参见图6，本发明实施例提供的一种基于多源异构信息网络的目的地推荐装置，包括一个或多个处理器，用于实现上述实施例中的基于多源异构信息网络的目的地推荐方法。

本发明基于多源异构信息网络的目的地推荐装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明基于多源异构信息网络的目的地推荐装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于多源异构信息网络的目的地推荐方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

综上所述，本发明基于目的地推荐任务，引入了轨迹点匹配POI，并且充分考虑了不同类型节点之间的交互关系，利用层次注意力机制进行多条路径下的信息聚合，提高了目的地推荐效果的准确性。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于多源异构信息网络的目的地推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多源异构信息网络的目的地推荐方法，其特征在于，所述采集轨迹时空信息具体为：采集来自于机动车OBD接口的车辆驾驶状态数据和来源于机动车GPS接口的车辆轨迹数据；所述车辆驾驶状态数据包括车辆点火指令、熄火指令、速度和方向；所述车辆轨迹数据包括车辆匿名化ID、车辆所在经纬度、当前时刻和位置语义信息。

3.根据权利要求1所述的基于多源异构信息网络的目的地推荐方法，其特征在于，所述数据清洗的过程具体为：计算车辆停留的时空地理信息，利用