CN114491200A

CN114491200A - 基于图神经网络的异源兴趣点匹配方法和装置

Info

Publication number: CN114491200A
Application number: CN202210079632.6A
Authority: CN
Inventors: 赵斌伟; 王乐; 武东旭; 强成仓; 石立臣
Original assignee: Shenzhen Yishi Huolala Technology Co Ltd
Current assignee: Shenzhen Yishi Huolala Technology Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-13

Abstract

本申请涉及一种基于图神经网络的异源兴趣点匹配方法和装置。该方法包括：获取目标地域范围的第一兴趣点集合和第二兴趣点集合，根据第一兴趣点集合构造第一兴趣点图谱，根据第二兴趣点集合构造第二兴趣点图谱；从第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对，对该多对初步兴趣点匹配对进行标注，得到多对种子兴趣点匹配对；根据第一兴趣点图谱、第二兴趣点图谱和该多对种子兴趣点匹配对对图神经网络模型进行迭代训练，得到训练好的图神经网络模型；通过训练好的模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对。本申请能提高对异源兴趣点的匹配准确性和匹配速度。

Description

基于图神经网络的异源兴趣点匹配方法和装置

技术领域

本申请涉及电子地图领域，特别是涉及一种基于图神经网络的异源兴趣点匹配方法、装置、计算机设备和存储介质。

背景技术

兴趣点(Point of Interest，简称POI)，一般包含名称、地址、经纬度、类别等信息，是网络电子地图的最重要内容,也是互联网位置服务的立足之本。由于互联网上的兴趣点数据来源不一,采集与处理过程各不相同,从而导致了这些数据在空间位置,属性信息以及丰富程度上存在着一定的差异,因此如何有效地消除数据间的不一致性,并把它们组织成一套内容准确,可供用户使用的数据成为了当前研究的热点。

兴趣点匹配是找出异源数据中表述不同，但对应现实世界中同一兴趣点关系的过程。将不同来源的兴趣点数据，通过匹配的方法，将各自的信息进行融合后，可以丰富兴趣点数据的信息以及消除数据间的不一致性。

目前，异源兴趣点匹配的方案主要有以下几种：

1、基于无监督计算相似度方案：

从两个异源兴趣点数据中，分别抽取兴趣点，计算这两个兴趣点的名称文本相似度，地址文本相似度，相似度算法包括编辑距离、TF-IDF(term frequency–inversedocument frequency)等，将计算出来的名称文本相似度和地址文本相似度通过设置一个权值来计算整体的相似度，作为两个兴趣点之间的相似度得分，当得分高于某个阈值的时候，就可认为两个兴趣点具有匹配关系，从而对异源兴趣点数据进行匹配。

2、基于传统机器学习模型文本匹配方案：

从两个异源兴趣点数据当中，抽取具有匹配关系的兴趣点对来作为训练数据，通过计算兴趣点对的名称文本相似度，物理距离，类别相似度等来构造特征，使用传统机器学习如梯度提升决策树GBDT、Xgboost等方法训练一个文本匹配模型，来判断两个兴趣点是否具有匹配关系，从而对异源兴趣点数据进行匹配。

3、基于预训练深度学习模型文本匹配方案：

将具有匹配关系的兴趣点对作为训练数据，在目前常用的预训练深度模型，如BERT(Bidirectional Encoder Representation from Transformers)、A LBERT(A LiteBERT)等进行微调，训练一个文本匹配模型，来判断两个兴趣点是否具有匹配关系。

发明人发现上述方案在实际应用时均存在一些缺点。

比如，上述方案1的缺点：

(1)基于无监督相似度得分方法，对于两个兴趣点真实具有匹配关系，但是文本上差异较大的场景，匹配效果较差。

(2)对于两个兴趣点虽然文本上很接近，但是实际上并不具有匹配关系的数据会造成误匹配

(3)相似度得分的阈值不太好设定

上述方案2的缺点：

(1)需要进行大量的特征工程工作去构造特征，过程比较繁琐。

(2)模型较浅，表达能力有限，文本匹配效果天花板较低。

(3)匹配过程是一对一的兴趣点进行匹配，然后再遍历所有数据从整体上进行匹配，匹配效率较低，不能在整体数据层面直接进行匹配。

(4)这个方法假设兴趣点之间相互独立，然而实际兴趣点之间是有一定空间位置关系的，所以没有使用到兴趣点之间的关系信息做匹配，利用信息较少，效果不好。

上述方案3的缺点：

(1)预训练深度模型一般都是输入纯文本信息，对非文本特征兼容性较差。

(2)预训练深度模型同传统机器学习模型一样，匹配过程是一对一的兴趣点进行匹配，然后再遍历所有数据从整体上进行匹配，匹配效率较低，不能在整体数据层面直接进行匹配。

(3)这个方法假设兴趣点之间相互独立，然而实际兴趣点之间是有一定空间位置关系的，所以没有使用到兴趣点之间的关系信息做匹配，利用信息较少，效果不好。

发明内容

本申请针对上述不足或缺点，提供了一种基于图神经网络的异源兴趣点匹配方法、装置、计算机设备和存储介质，本申请实施例能够提高对异源兴趣点的匹配准确性和匹配速度。

本申请根据第一方面提供了一种基于图神经网络的异源兴趣点匹配方法，在一个实施例中，该方法包括：

获取目标地域范围的第一兴趣点集合和第二兴趣点集合，根据第一兴趣点集合构造第一兴趣点图谱，根据第二兴趣点集合构造第二兴趣点图谱；第一兴趣点集合和第二兴趣点集合为异源数据；

从第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对，对该多对初步兴趣点匹配对进行标注，得到多对种子兴趣点匹配对；

根据第一兴趣点图谱、第二兴趣点图谱和该多对种子兴趣点匹配对对图神经网络模型进行迭代训练，得到训练好的图神经网络模型；

通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对。

在一个实施例中，根据第一兴趣点集合构造第一兴趣点图谱，包括：

获取第一兴趣点集合中每个兴趣点的地理位置信息；

根据第一兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离；

根据第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，得到第一兴趣点图谱；

根据第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，包括：

当第一兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时，确定该任意两个兴趣点之间形成边关系，将该任意两个兴趣点之间的边的权重设置为1；

当第一兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时，确定该任意两个兴趣点之间不形成边关系，将该任意两个兴趣点之间的边的权重设置为0。

在一个实施例中，根据第二兴趣点集合构造第二兴趣点图谱，包括：

获取第二兴趣点集合中每个兴趣点的地理位置信息；

根据第二兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离；

根据第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，得到第二兴趣点图谱；

根据第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，包括：

当第二兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时，确定该任意两个兴趣点之间形成边关系，将该任意两个兴趣点之间的边的权重设置为1；

当第二兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时，确定该任意两个兴趣点之间不形成边关系，将该任意两个兴趣点之间的边的权重设置为0。

在一个实施例中，图神经网络模型的任意一次训练过程包括：

将第一兴趣点图谱和第二兴趣点图谱的邻接矩阵和节点属性特征矩阵分别输入图神经网络模型，得到图神经网络模型的输出数据，输出数据包括第一兴趣点图谱和第二兴趣点图谱中每个兴趣点的嵌入；

从该多对种子兴趣点匹配对中确定用于本次训练的目标种子兴趣点匹配对，将目标种子兴趣点匹配对作为本次训练的正匹配对，并根据目标种子兴趣点匹配对构造本次训练的负匹配对；

从输出数据中获取正匹配对的嵌入和负匹配对的嵌入，根据正匹配对的嵌入和负匹配对的嵌入计算本次训练的损失；

根据损失判断是否满足停止训练条件；

若满足，停止训练，将图神经网络模型作为训练好的图神经网络模型；

若不满足，根据损失更新图神经网络模型的网络参数，并对更新后的图神经网络模型进行下一次训练。

在一个实施例中，通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对，包括：

将第一兴趣点图谱输入训练好的图神经网络模型，根据训练好的图神经网络模型的输出，获得第一兴趣点集合中的每个兴趣点的嵌入；

将第二兴趣点图谱输入训练好的图神经网络模型，根据训练好的图神经网络模型的输出，获得第二兴趣点集合中的每个兴趣点的嵌入；

将第一兴趣点集合中的每个兴趣点，与第二兴趣点集合中的每个兴趣点进行两两配对，得到多个兴趣点对；

计算每个兴趣点对的嵌入距离；每个兴趣点对的嵌入距离是指每个兴趣点对包括的两个兴趣点的嵌入之间的距离；

将每个嵌入距离小于预设阈值的兴趣点对确定为兴趣点匹配对。

在一个实施例中，第一兴趣点图谱和第二兴趣点图谱的数量相同且为多个；相应地，根据第一兴趣点集合构造第一兴趣点图谱，根据第二兴趣点集合构造第二兴趣点图谱，包括：

将目标地域范围划分为多个空间网格；

分别遍历第一兴趣点集合和第二兴趣点集合中的每个兴趣点的经纬度属性，以确定每个空间网格对应的第一兴趣点子集和第二兴趣点子集；

根据每个空间网格对应的第一兴趣点子集和第二兴趣点子集，为每个空间网格构造对应的第一兴趣点图谱和第二兴趣点图谱。

将每个空间网格对应的第一兴趣点图谱和第二兴趣点图谱分别输入训练好的图神经网络模型，根据训练好的图神经网络模型的输出，获得每个空间网格对应的第一兴趣点子集中每个兴趣点的嵌入，以及每个空间网格对应的第二兴趣点子集中每个兴趣点的嵌入；

将每个空间网格对应的第一兴趣点子集和第二兴趣点子集进行两两配对，得到每个空间网格的兴趣点对集合；

计算每个空间网格的兴趣点对集合中每个兴趣点对的嵌入距离；每个兴趣点对的嵌入距离是指每个兴趣点对包括的两个兴趣点的嵌入之间的距离；

将每个空间网格的兴趣点对集合中的，每个嵌入距离小于预设阈值的兴趣点对确定为兴趣点匹配对。

本申请根据第二方面提供了一种基于图神经网络的异源兴趣点匹配装置，在一个实施例中，该装置包括：

图谱构造模块，用于获取目标地域范围的第一兴趣点集合和第二兴趣点集合，根据第一兴趣点集合构造第一兴趣点图谱，根据第二兴趣点集合构造第二兴趣点图谱；第一兴趣点集合和第二兴趣点集合为异源数据；

种子匹配对构造模块，用于从第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对，对该多对初步兴趣点匹配对进行标注，得到多对种子兴趣点匹配对；

模型训练模块，用于根据第一兴趣点图谱、第二兴趣点图谱和该多对种子兴趣点匹配对对图神经网络模型进行迭代训练，得到训练好的图神经网络模型；

兴趣点匹配模块，用于通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对。

本申请根据第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的实施例的步骤。

本申请根据第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法的实施例的步骤。

本申请实施例相比现有技术能够带来以下有益效果：

传统机器学习及预训练深度模型在兴趣点去重问题上做了两个兴趣点之间是无关的假设，本申请实施例则假设两个兴趣点之间具有关联，在此基础上，结合兴趣点自身的属性特征和兴趣点之间的空间位置关系来进行异源兴趣点匹配。

具体地，发明人发现互相匹配的兴趣点对的周围通常有相似邻居，基于这一发现，选用基于图结构的图卷积神经网络模型来进行异源兴趣点匹配，使用兴趣点名称的文本信息，以及兴趣点之间的空间位置关系信息作为模型输入，图神经网络通过传递聚集邻居节点信息，具有识别同构图的能力，可以更好的识别相似邻居结构。在兴趣点图谱中，通常能够匹配上的兴趣点对周围通常有相似邻居，即两个匹配上的兴趣点的相邻兴趣点中往往包含其他等价的兴趣点对，而节点的嵌入表示是由邻居信息聚合生成，这样邻居节点中其它等价的兴趣点对也更容易匹配上，通过这种方式可以更有效地解决两个异源兴趣点图谱之间的匹配问题。

另一方面，传统机器学习及预训练深度模型一般只能基于种子兴趣点对来进行模型训练，而种子兴趣点对需要人工标注，获取成本较高，所以一般数量较少，这样就会导致训练不是很充分。本申请实施例通过图卷积神经网络模型可以使全量数据都参与训练，这样可以更加充分地训练模型，使模型效果更好。

此外，传统的兴趣点匹配方式都是一对一对兴趣点进行匹配，然后再遍历整个图谱进行图谱层级的匹配，匹配效率较低，不能在图谱层面直接进行匹配。而本案用图卷积神经网络模型的方式可以实现图层级的匹配，提高匹配的性能及效率。

附图说明

图1为一个实施例中一种基于图神经网络的异源兴趣点匹配方法的流程示意图；

图2为一个实施例中一种基于图神经网络的异源兴趣点匹配装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供了一种基于图神经网络的异源兴趣点匹配方法。在一个实施例中，该方法包括如图1所示的步骤，下面对该方法进行说明。

S110：获取目标地域范围的第一兴趣点集合和第二兴趣点集合，根据第一兴趣点集合构造第一兴趣点图谱，根据第二兴趣点集合构造第二兴趣点图谱。其中，第一兴趣点集合和第二兴趣点集合为异源数据；

S120：从第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对，对该多对初步兴趣点匹配对进行标注，得到多对种子兴趣点匹配对；

S130：根据第一兴趣点图谱、第二兴趣点图谱和该多对种子兴趣点匹配对对图神经网络模型进行迭代训练，得到训练好的图神经网络模型；

S140：通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对。

本实施例相比现有技术能够带来以下有益效果：

在一个实施例中，上述的根据第一兴趣点集合构造第一兴趣点图谱，包括：获取第一兴趣点集合中每个兴趣点的地理位置信息；根据第一兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离；根据第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，得到第一兴趣点图谱。两个兴趣点之间的距离是指空间距离(或称为物理距离)，比如200米、100米、50米等等。

其中，上述的根据第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，包括：当第一兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时，确定该任意两个兴趣点之间形成边关系，将该任意两个兴趣点之间的边的权重设置为1；当第一兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时，确定该任意两个兴趣点之间不形成边关系，将该任意两个兴趣点之间的边的权重设置为0。其中，预设阈值可以根据实际需要进行设置，比如设置为50米等，本实施例对此不进行具体限定。

在一个实施例中，上述的根据第二兴趣点集合构造第二兴趣点图谱，包括：获取第二兴趣点集合中每个兴趣点的地理位置信息；根据第二兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离；根据第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，得到第二兴趣点图谱。该预设阈值与上述实施例的预设阈值相同，具体请参见上述实施例的说明。

其中，上述的根据第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，包括：当第二兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时，确定该任意两个兴趣点之间形成边关系，将该任意两个兴趣点之间的边的权重设置为1；当第二兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时，确定该任意两个兴趣点之间不形成边关系，将该任意两个兴趣点之间的边的权重设置为0。

根据损失判断是否满足停止训练条件；

其中，第一兴趣点图谱或第二兴趣点图谱是将第一兴趣点集合或第二兴趣点集合中的兴趣点作为节点构造得到的。

相应地，在一个实施例中，上述的通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对，包括：

将第一兴趣点图谱输入训练好的图神经网络模型，根据训练好的图神经网络模型的输出，获得第一兴趣点集合中的每个兴趣点的嵌入；将第二兴趣点图谱输入训练好的图神经网络模型，根据训练好的图神经网络模型的输出，获得第二兴趣点集合中的每个兴趣点的嵌入；将第一兴趣点集合中的每个兴趣点，与第二兴趣点集合中的每个兴趣点进行两两配对，得到多个兴趣点对；计算每个兴趣点对的嵌入距离；每个兴趣点对的嵌入距离是指每个兴趣点对包括的两个兴趣点的嵌入之间的距离；将每个嵌入距离小于预设阈值的兴趣点对确定为兴趣点匹配对。

在另一个实施例中，第一兴趣点图谱和第二兴趣点图谱的数量相同且为多个；相应地，上述的根据第一兴趣点集合构造第一兴趣点图谱，根据第二兴趣点集合构造第二兴趣点图谱，包括：

将目标地域范围划分为多个空间网格；分别遍历第一兴趣点集合和第二兴趣点集合中的每个兴趣点的经纬度属性，以确定每个空间网格对应的第一兴趣点子集和第二兴趣点子集；根据每个空间网格对应的第一兴趣点子集和第二兴趣点子集，为每个空间网格构造对应的第一兴趣点图谱和第二兴趣点图谱。

本实施例考虑到在一些场景中，目标地域范围的范围较大时，比如，目标地域范围是指整个中国，那么此时需要匹配(指兴趣点匹配)的数据是全中国全量数据，此时的数据总量非常大，如果直接拿所有数据去构造两个图(指兴趣点图谱)的话，那么每个兴趣点图谱的节点属性特征矩阵和邻接矩阵都非常庞大，这样对计算资源的要求会非常高。因此，在计算资源有限的情况下，将两个图根据空间网格划分成很多小图，之后再在各自小图上去进行去重，这样每个小图的节点和邻接矩阵都变得较小，在较小的计算资源情况下就可以进行数据匹配。具体方法可以是如下所示：

按照中国的地理空间坐标，从最西端到最东端，从最北端到最南端，划分成一个个1千米*1千米的正方形空间网格(网格大小可以根据实际需要灵活调整)，网格的四个顶点都有对应的经纬度坐标，而兴趣点都有经纬度属性，根据经纬度遍历所有的兴趣点，兴趣点可以落到相对应的网格当中，这样每个网格就会落入距离较近的兴趣点，后续只需要在各个空间网格中进行兴趣点匹配。

将每个空间网格对应的第一兴趣点图谱和第二兴趣点图谱分别输入训练好的图神经网络模型，根据训练好的图神经网络模型的输出，获得每个空间网格对应的第一兴趣点子集中每个兴趣点的嵌入，以及每个空间网格对应的第二兴趣点子集中每个兴趣点的嵌入；将每个空间网格对应的第一兴趣点子集和第二兴趣点子集进行两两配对，得到每个空间网格的兴趣点对集合；计算每个空间网格的兴趣点对集合中每个兴趣点对的嵌入距离；每个兴趣点对的嵌入距离是指每个兴趣点对包括的两个兴趣点的嵌入之间的距离；将每个空间网格的兴趣点对集合中的，每个嵌入距离小于预设阈值的兴趣点对确定为兴趣点匹配对。

以下通过一个具体的应用例对上述实施例进行说明。

本应用例具体分为空间网格的划分、种子兴趣点匹配对获取、数据预处理、特征工程、模型训练和模型预测六个部分。

本应用例以中国作为目标地域范围。首先根据中国的地理空间坐标，将中国的地理空间划分成一个个1千米*1千米的正方形网格，然后将相应的兴趣点落入到对应网格中形成子图。本应用例采用监督学习来训练图神经网络模型，由于是监督学习任务，需要人工标注种子兴趣点匹配对来进行模型训练。在得到种子兴趣点匹配对后，需要对数据做预处理，包括全角转半角、去除特殊符号、英文大写转小写、繁体转简体等操作，来对数据进行清洗。在训练模型之前，需要先做特征工程得到每个兴趣点图谱中每个节点的属性特征以及每个兴趣点图谱的邻接矩阵，将每个兴趣点图谱的节点属性特征矩阵以及邻接矩阵输入到图卷积神经网络GCN(Graph Convolutional Network)中，通过反向传播最小化损失函数的方式训练模型，获得权重矩阵W，这个就是模型需要学习的参数。得到参数W后，就可以通过前向传播来进行图级别的兴趣点匹配预测。

以下对上述各个部分进行说明。

1、空间网格的划分

由于需要匹配的两个兴趣点图谱(可简称为图谱)都是全中国的全量数据，数据总量很大，如果直接拿所有数据构造大图的话，节点和邻接矩阵都非常庞大，对计算资源要求太高。因此，在计算资源有限的情况下，将大图根据空间网格划分成很多小图，让两个图谱在各自的小图上去进行匹配，这样节点和邻接矩阵都变得较小，在较小的计算资源情况下就可以进行匹配。

具体方法：按照中国的地理空间坐标，从最西端到最东端，从最北端到最南端，划分成一个个1千米*1千米的正方形空间网格，网格的四个顶点都有对应的经纬度坐标，而兴趣点都有经纬度属性，根据经纬度遍历所有的兴趣点，兴趣点可以落到相对应的网格当中，这样每个网格就会落入距离较近的兴趣点。

对这两个兴趣点图谱都进行上述操作，后续只需要在各自对应的空间网格中进行兴趣点匹配。

2、种子兴趣点匹配对获取

本应用例需要种子兴趣点对来训练模型，所以需要标注部分数据作为种子兴趣点对。遍历上述所有的空间网格，用简单的兴趣点名称文本相似度(如编辑距离等)，在各个空间网格中粗略找到疑似匹配的兴趣点对，再交由标注人员找出真正的兴趣点对，通过这种方式来构造种子兴趣点匹配对。

3、数据预处理

兴趣点的名称文本中可能包含特殊符号以及繁体字等，需要先做预处理再构造特征输入模型。同时为了保证标注数据和未标注数据分布的一致性，需要将标注数据和未标注数据做相同的预处理操作。数据预处理过程包含以下四个步骤：

(1)字符全角转半角

(2)去除特殊符号

(3)英文大写转小写

(4)中文繁体转简体

4、特征工程

(1)生成图节点的属性特征

图卷积神经网络GCN的输入包括图的拓扑结构，即邻接矩阵，以及图中所有节点的属性特征。每个节点属性特征是一个多维特征向量，本应用例采用指定算法将每个兴趣点处理成一个512维的Embedding向量，用这个Embedding向量作为该节点的属性特征。其中，该指定算法可以是现有的任意能够实现将兴趣点映射为Embedding向量的算法，故在此不再赘述。

(2)生成所有子图结构的边以及邻接矩阵

本应用例将50米以内的兴趣点都当作是有边关系。取出一个空间网格中的所有兴趣点形成一个集合，从集合中取出一个兴趣点，跟这个集合中除自身外所有兴趣点计算距离，其中距离小于50米的兴趣点就跟取出的这个兴趣点形成边关系，并且边的权重为1；然后从集合中依次取出兴趣点，同样进行上述操作，直至取完集合中所有兴趣点，就形成这一个空间网格子图所有兴趣点的边关系，根据图结构的定义就得到了该子图的邻接矩阵。邻接矩阵的表示为：

最后，按照上述的方法遍历所有的空间网格，就生成了所有空间网格子图的邻接矩阵。

5、模型训练

给定两个相对应空间网格的兴趣点子图KG1和KG2，和一组预先匹配的兴趣点种子对S＝{(e_i1,e_i2)}^m _i＝1。

本应用例的方法基于GCN的节点嵌入来找到新的兴趣点匹配对。方法的基本思想是利用GCN将来自不同图谱的兴趣点嵌入到一个统一的向量空间中，同时希望匹配上的兴趣点间距离更近，不能匹配上的兴趣点之间距离更远。

(1)GCN的输入：

GCN是一类直接在图上进行操作的神经网络，它的输入是图的节点属性特征和邻接矩阵，目的是输出节点级的兴趣点嵌入，然后用于后续兴趣点匹配。模型使用了两个两层的GCN，每个GCN处理一个KG，令GCN1和GCN2分别处理KG1和KG2。对于模型输入的节点属性特征，都是从第4步特征工程而来，GCN1和GCN2输入的节点属性特征维度都是512维；对于模型输入的邻接矩阵，也是通过4步特征工程获取。将节点属性特征和邻接矩阵输入GCN模型后，来执行后续的GCN操作。

(2)GCN的操作：

一个GCN模型包含多个GCN层，本应用例选用两层，第l层的输入H^(l)∈R^n×d(l)，是一个节点属性特征矩阵(即所有节点属性特征)，其中n是节点的数量，d^(l)是第l层的特征数，第l层的输出是新的特征矩阵：

其中σ是relu激活函数(用于线性激活变换)，A是n*n的邻接矩阵，

其中I是单位矩阵。

是

的对角节点度矩阵，W^(l)∈R^d(l)×d(l+1)是两层间的权重矩阵，用于卷积操作，d^(l+1)是新的一层维度。

(3)GCN的输出

经过两个两层的GCN后，GCN1和GCN2输出的节点特征向量维度相同，都是512维的嵌入表示，这个嵌入表示可以用于后续的兴趣点匹配。

(4)GCN的损失函数

本应用例希望匹配上的兴趣点间距离小，不能匹配上的兴趣点之间距离大，基于此来构造损失函数。兴趣点间的距离为兴趣点间的嵌入距离，对于兴趣点对e1和e2，其中e1∈KG1，e2∈KG2，e1和e2就是GCN1和GCN2输出的节点嵌入，它们之间的距离计算方法如下：

D(e₁,e₂)＝||h(e₁)-h(e₂)||₁

模型通过最小化下面基于margin的损失函数来进行训练：

其中，[x]+＝max{0,x},S'_(e1,e2)是由(e₁,e₂)通过随机替换一个兴趣点得到的负匹配对，γ是区分正匹配对和负匹配对的间隔。通过反向传播最小化损失函数的方式来对模型进行训练，更新每层中的权重矩阵W，经过若干轮训练，最终模型可以学习到权重矩阵W，来对兴趣点对匹配进行预测。

6、模型预测

本应用例适合用于离线图级别的匹配预测，预测就是在构造的图中找到更多新的兴趣点匹配对。在训练过程中学习到了权重矩阵W，通过输入节点属性特征以及邻接矩阵，经过GCN的操作，每个节点会输出一个嵌入表示。

对于特定的输出的嵌入e1∈KG1，计算其与KG2中所有兴趣点的嵌入距离，选出所有兴趣点中嵌入距离最小的那个，如果这个嵌入距离小于某个阈值，就认为这两个兴趣点对匹配；如果不小于这个阈值，就认为不匹配。按照上述方法，在KG1中遍历所有未在种子对中的兴趣点，可以得到KG2中对应匹配的兴趣点，这样就可以直接在图层级得到匹配预测结果。

图1为一个实施例中基于图神经网络的异源兴趣点匹配方法的流程示意图。应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于相同的发明构思，本申请还提供了一种基于图神经网络的异源兴趣点匹配装置。在本实施例中，如图2所示，该基于图神经网络的异源兴趣点匹配装置包括以下模块：

图谱构造模块110，用于获取目标地域范围的第一兴趣点集合和第二兴趣点集合，根据第一兴趣点集合构造第一兴趣点图谱，根据第二兴趣点集合构造第二兴趣点图谱；第一兴趣点集合和第二兴趣点集合为异源数据；

种子匹配对构造模块120，用于从第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对，对该多对初步兴趣点匹配对进行标注，得到多对种子兴趣点匹配对；

模型训练模块130，用于根据第一兴趣点图谱、第二兴趣点图谱和该多对种子兴趣点匹配对对图神经网络模型进行迭代训练，得到训练好的图神经网络模型；

兴趣点匹配模块140，用于通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对。

在一个实施例中，图谱构造模块在用于根据第一兴趣点集合构造第一兴趣点图谱时，具体用于：

获取第一兴趣点集合中每个兴趣点的地理位置信息；

进一步地，图谱构造模块在用于根据第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重时，具体用于：

在一个实施例中，图谱构造模块在用于根据第二兴趣点集合构造第二兴趣点图谱时，具体用于：

获取第二兴趣点集合中每个兴趣点的地理位置信息；

进一步地，图谱构造模块在用于根据第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重时，具体用于：

模型训练模块，用于训练图神经网络模型的任意一次训练过程包括：

根据损失判断是否满足停止训练条件；

在一个实施例中，兴趣点匹配模块，在用于通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对时，具体用于：

在另一个实施例中，第一兴趣点图谱和第二兴趣点图谱的数量相同且为多个；

相应地，图谱构造模块在用于根据第一兴趣点集合构造第一兴趣点图谱，根据第二兴趣点集合构造第二兴趣点图谱时，具体用于：

将目标地域范围划分为多个空间网格；

相应地，兴趣点匹配模块，在用于通过训练好的图神经网络模型处理第一兴趣点图谱和第二兴趣点图谱，根据处理结果确定第一兴趣点集合和第二兴趣点集合中的所有兴趣点匹配对时，具体用于：

关于基于图神经网络的异源兴趣点匹配装置的具体限定可以参见上文中对于基于图神经网络的异源兴趣点匹配方法的限定，在此不再赘述。上述基于图神经网络的异源兴趣点匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图神经网络的异源兴趣点匹配方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一方法实施例中提供的方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一方法实施例中提供的方法中的步骤。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图神经网络的异源兴趣点匹配方法，其特征在于，所述方法包括：

获取目标地域范围的第一兴趣点集合和第二兴趣点集合，根据所述第一兴趣点集合构造第一兴趣点图谱，根据所述第二兴趣点集合构造第二兴趣点图谱；所述第一兴趣点集合和所述第二兴趣点集合为异源数据；

从所述第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对，对所述多对初步兴趣点匹配对进行标注，得到多对种子兴趣点匹配对；

根据所述第一兴趣点图谱、所述第二兴趣点图谱和所述多对种子兴趣点匹配对对图神经网络模型进行迭代训练，得到训练好的图神经网络模型；

通过所述训练好的图神经网络模型处理所述第一兴趣点图谱和所述第二兴趣点图谱，根据处理结果确定所述第一兴趣点集合和所述第二兴趣点集合中的所有兴趣点匹配对。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一兴趣点集合构造第一兴趣点图谱，包括：

获取所述第一兴趣点集合中每个兴趣点的地理位置信息；

根据所述第一兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离；

根据所述第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，得到第一兴趣点图谱；

所述根据所述第一兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，包括：

当所述第一兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时，确定该任意两个兴趣点之间形成边关系，将该任意两个兴趣点之间的边的权重设置为1；

当所述第一兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时，确定该任意两个兴趣点之间不形成边关系，将该任意两个兴趣点之间的边的权重设置为0。

3.如权利要求1所述的方法，其特征在于，所述根据所述第二兴趣点集合构造第二兴趣点图谱，包括：

获取所述第二兴趣点集合中每个兴趣点的地理位置信息；

根据所述第二兴趣点集合中每两个兴趣点的地理位置信息分别计算每两个兴趣点之间的距离；

根据所述第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，得到第二兴趣点图谱；

所述根据所述第二兴趣点集合中每两个兴趣点之间的距离确定每两个兴趣点之间的边的权重，包括：

当所述第二兴趣点集合中任意两个兴趣点之间的距离小于预设阈值时，确定该任意两个兴趣点之间形成边关系，将该任意两个兴趣点之间的边的权重设置为1；

当所述第二兴趣点集合中任意两个兴趣点之间的距离大于等于预设阈值时，确定该任意两个兴趣点之间不形成边关系，将该任意两个兴趣点之间的边的权重设置为0。

4.如权利要求1所述的方法，其特征在于，所述图神经网络模型的任意一次训练过程包括：

将所述第一兴趣点图谱和所述第二兴趣点图谱的邻接矩阵和节点属性特征矩阵分别输入图神经网络模型，得到所述图神经网络模型的输出数据，所述输出数据包括所述第一兴趣点图谱和所述第二兴趣点图谱中每个兴趣点的嵌入；

从所述多对种子兴趣点匹配对中确定用于本次训练的目标种子兴趣点匹配对，将所述目标种子兴趣点匹配对作为本次训练的正匹配对，并根据所述目标种子兴趣点匹配对构造本次训练的负匹配对；

从所述输出数据中获取所述正匹配对的嵌入和所述负匹配对的嵌入，根据所述正匹配对的嵌入和所述负匹配对的嵌入计算本次训练的损失；

根据所述损失判断是否满足停止训练条件；

若满足，停止训练，将所述图神经网络模型作为训练好的图神经网络模型；

若不满足，根据所述损失更新所述图神经网络模型的网络参数，并对更新后的图神经网络模型进行下一次训练。

5.如权利要求1所述的方法，其特征在于，所述通过所述训练好的图神经网络模型处理所述第一兴趣点图谱和所述第二兴趣点图谱，根据处理结果确定所述第一兴趣点集合和所述第二兴趣点集合中的所有兴趣点匹配对，包括：

将所述第一兴趣点图谱输入所述训练好的图神经网络模型，根据所述训练好的图神经网络模型的输出，获得所述第一兴趣点集合中的每个兴趣点的嵌入；

将所述第二兴趣点图谱输入所述训练好的图神经网络模型，根据所述训练好的图神经网络模型的输出，获得所述第二兴趣点集合中的每个兴趣点的嵌入；

将所述第一兴趣点集合中的每个兴趣点，与所述第二兴趣点集合中的每个兴趣点进行两两配对，得到多个兴趣点对；

6.如权利要求1所述的方法，其特征在于，所述第一兴趣点图谱和所述第二兴趣点图谱的数量相同，均为多个；

所述根据所述第一兴趣点集合构造第一兴趣点图谱，根据所述第二兴趣点集合构造第二兴趣点图谱，包括：

将所述目标地域范围划分为多个空间网格；

分别遍历所述第一兴趣点集合和所述第二兴趣点集合中的每个兴趣点的经纬度属性，以确定每个空间网格对应的第一兴趣点子集和第二兴趣点子集；

7.如权利要求6所述的方法，其特征在于，所述通过所述训练好的图神经网络模型处理所述第一兴趣点图谱和所述第二兴趣点图谱，根据处理结果确定所述第一兴趣点集合和所述第二兴趣点集合中的所有兴趣点匹配对，包括：

将每个空间网格对应的第一兴趣点图谱和第二兴趣点图谱分别输入所述训练好的图神经网络模型，根据所述训练好的图神经网络模型的输出，获得每个空间网格对应的第一兴趣点子集中每个兴趣点的嵌入，以及每个空间网格对应的第二兴趣点子集中每个兴趣点的嵌入；

8.一种兴趣点多源数据匹配装置，其特征在于，所述装置包括：

图谱构造模块，用于获取目标地域范围的第一兴趣点集合和第二兴趣点集合，根据所述第一兴趣点集合构造第一兴趣点图谱，根据所述第二兴趣点集合构造第二兴趣点图谱；所述第一兴趣点集合和所述第二兴趣点集合为异源数据；

种子匹配对构造模块，用于从所述第一兴趣点集合和第二兴趣点集合中筛选出多对初步兴趣点匹配对，对所述多对初步兴趣点匹配对进行标注，得到多对种子兴趣点匹配对；

模型训练模块，用于根据所述第一兴趣点图谱、所述第二兴趣点图谱和所述多对种子兴趣点匹配对对图神经网络模型进行迭代训练，得到训练好的图神经网络模型；

兴趣点匹配模块，用于通过所述训练好的图神经网络模型处理所述第一兴趣点图谱和所述第二兴趣点图谱，根据处理结果确定所述第一兴趣点集合和所述第二兴趣点集合中的所有兴趣点匹配对。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。