CN117688121B

CN117688121B - SubGNN注入空间特征的地理知识图谱表示学习方法

Info

Publication number: CN117688121B
Application number: CN202410156606.8A
Authority: CN
Inventors: 曹敏; 羊勇全; 郭雅琪; 王小川; 孔德辉
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-04-26
Anticipated expiration: 2044-02-04
Also published as: CN117688121A

Abstract

本发明公开了一种SubGNN注入空间特征的地理知识图谱表示学习方法，包括通过地理实体的唯一标识符，链接地理实体的空间数据，将点、线和面地理实体统一表达为无向图中的子图；采用子图神经网络进行位置、邻居、结构空间信息特征编码，获得地理实体基于空间特征的向量表示；结合图谱本身结构的向量表示，改进融合地理空间特征向量的能量函数，在平移模型的框架下进行学习，最终得到融合空间特征的知识图谱向量表示。本申请设计了一种注入地理空间特征的知识表示学习模型，提升了地理空间知识向量表示的准确性，提高了地理知识链接预测任务的性能，从而更好服务于地理空间知识图谱的知识补全和知识推理等应用。

Description

SubGNN注入空间特征的地理知识图谱表示学习方法

技术领域

本发明涉及地理空间知识图谱表示学习领域，具体涉及一种基于SubGNN注入空间特征的地理知识图谱表示学习方法。

背景技术

地理空间知识图谱是一种对地理概念、实体及其相互关系进行形式化描述的知识系统,能够提供系统的、深层次的结构化地理知识，地理知识图谱能智能在语义搜索、地理知识智能问答、知识挖掘与决策分析等更好地为人认知地理世界服务。

知识图谱中的知识表示学习任务是指将知识图谱中符号表示转化为低维稠密的向量表示，使得语义相似的两个实体在向量空间中的距离也相近，可有效缓解数据稀疏性带来的问题，提高机器的计算效率，为知识表示学习的下游任务如地理空间知识推理，地理空间知识问答等提供重要技术支撑。

融合多源信息的知识表示学习模型是提升表示性能的研究方向之一，尽管地理知识空间知识图谱中地理实体蕴含丰富的地理空间信息，但知识表示学习应用于地理知识图谱时表现不佳，目前面向地理知识的表示学习模型研究存在以下主要问题：

（1）缺乏点线面一体化的空间特征向量生成方法。以往的空间特征向量生成多基于点位置编码生成，其过程是在进行研究时先将多种类型实体抽象为点类型要素，再设计位置编码器得到点位置的向量表示，不能实现点、线、面一体化的空间特征向量生成。

（2）缺乏融入地理空间特征的知识表示学习研究。地理空间数据中包含丰富的空间信息，目前的研究多集中于提取实体间的距离信息，并取得了一系列进展，但关于空间结构和拓扑关系的研究较少，并且如何将提取到的空间信息融入到知识表示学习模型中也少有涉及。因此，需要深入研究如何提取地理实体的空间特性信息，并根据得到的空间信息融入地理知识图谱表示学习模型。

发明内容

本发明的目的在于提出一种融合地理实体空间信息的知识表示学习方法，以实现知识表示学习性能提升，提高计算效率，从而推动大规模地理知识库在更多的领域获得广泛而有效的应用。

为实现上述目的，本发明提供SubGNN注入空间特征的地理知识图谱表示学习方法，其特征在于，包括如下步骤：

一种SubGNN注入空间特征的地理知识图谱表示学习方法，其特征在于，所述方法包括如下步骤：

S1：抓取地理空间知识图谱中地理实体的矢量数据，作为获得地理实体的空间特征向量表示的基础数据；

S2：设计一种在统一的空间中将点、线和面实体一致表达且保持实体空间特征完整的映射方法，将点、线和面实体统一表达为子图的形式；

S3：提出基于子图神经网络(Subgraph Neural Network, SubGNN)的地理空间特征编码器，结合地理实体的位置、邻居与结构特征，获得地理实体基于空间特征的向量表示；

S4：基于平移模型(Translating Embeddings,TransE)，设计融合地理实体空间特征表示的能量函数，将基于地理实体的空间特征和基于图谱本身结构特征的两种向量表示学习到同一个连续向量空间；

对比本申请所提出的注入空间特征的地理知识图谱表示学习方法与已有经典表示方法，结果表明本申请所提出方法在链接预测任务上的精度更高。

其中，所述步骤S1中，抓取地理空间知识图谱中地理实体的矢量数据，具体是指通过地理实体唯一标识符从OpenStreetMap中连接实体的几何坐标信息。

其中，所述步骤S2中，设计一种在统一的空间中将点、线和面实体一致表达且保持实体空间特征完整的映射方法，将点、线和面实体统一表达为子图的形式，具体是指通过将原本矢量的数据，转化为节点与边的形式，以便进一步计算，其中点实体的空间数据通过图结构化后将为单个节点组成的子图，线实体的空间数据通过图结构化后将为多个节点与边相连形成的子图，面实体通过图结构化后将为首尾相连的多个节点所包围的所有节点和边组合而成的子图。

其中，所述步骤S3中子图神经网络(SubGNN)空间特征编码器具体是指，挖掘图结构上子图内部与子图间的位置、邻居和结构3种空间特征，通过空间特征消息传递框架，在每个空间特征通道中设置采样点，捕获的空间特性从采样点出发，并由特定的相似性函数加权，传播到子图，最终训练得到子图的向量表示，即获得地理实体基于空间特征的向量表示,每一种空间特征的传递函数与相似性函数定义如下：

，

其中下标代表的空间特征通道，包括位置通道/>、邻居通道/>和结构通道；/>代表子图集合，/>是/>空间特征通道的采样点，/>是/>空间特征通道采样点通过编码生成的向量，/>代表/>空间特征通道的传递函数；/>代表/>空间特征通道的传递函数,其中位置通道特性通过子图到采样点的最短路径反映，/>代表子图到采样点的平均的最短距离；邻居通道相似度设定为1；结构通道特性通过子图与采样点有序度序列反映，/>和/>分别代表子图和采样点的有序度序列，/>代表动态时间规整函数。

将空间特征的消息转换为顺序不变的隐藏表示和属性感知的向量表示，如下:

，

其中是聚合/>空间特征通道中所有采样点的空间特性消息的隐藏表示，是对消息进行操作的聚合函数，/>代表/>空间特征通道中采样点的数量，/>为空间特性的传递函数序号,/>表示关于/>空间特征通道的子图表示，其携带了空间特性消息的隐藏表示/>和前一层的表示/>的特性,/>代表网络层，/>是/>空间特征通道的逐层可学习的权重矩阵，/>是非线性激活函数,/>为属性感知的向量表示，/>是采样点的消息矩阵，由消息传递函数/>生成,

最终聚合不同空间特征通道和不同网络层的子图表示，转化为最终的子图表示：

，

其中代表第/>层的属性感知向量，/>表示通道聚合函数，/>表示网络层聚合函数，/>表示子图的最终表示，也即地理实体基于空间特征的向量表示。

其中，所述步骤S4中，平移模型(TransE)中，三元组内部实体与关系向量之间具有的关系，其中的/>是头实体的向量表示，/>是关系的向量表示，/>是尾实体的向量表示，用/>统一表示实体的向量表示，在该假设下有能量函数/>为：

，

其中是仅基于图谱本身的结构信息的头实体和尾实体向量表示，融合地理实体基于空间特征的向量表示，设计的能量函数为：

，

其中是控制各项权值的超参数，/>是基于空间特征的头实体和尾实体的向量表示，/>部分实际上与平移模型中的能量函数一致，，/>和/>是加入了基于空间特征的实体向量影响的混合项。通过混合项的限制，将实体的两种向量映射到同一语义空间，共享相同的关系向量，最终将获得实体的向量表示/>,关系的向量表示/>。

其中,对比本申请所提出的注入空间特征的地理知识图谱表示学习方法与已有表示方法,对比的方法包括平移模型(Translating Embeddings,TransE)、超平面平移模型(Translating on hyperplanes，TransH),关系平移模型(Translating on RelationSpace,TransR)和融入实体距离限制的模型(Translating with geographic entitydistance restriction,TranE-GDR)，对比的方式是通过各方法在关系预测任务上的表现，评价指标包括正确的实体和关系在预测结果前名的比例(/>)与正确的实体和关系在预测中的平均倒数排名(Mean Reciprocal Ranking，/>)。

有益效果：

（1）本方法将地理空间知识图谱中点、线、面地理实体空间数据统一表达为图结构中的子图，进而进行点、线、面实体统一的空间特征编码，规避了以往空间特征编码只能针对单一类型的地理实体问题；

（2）本方法对点、线、面三种类型地理实体进行统一空间特征向量表示，能保持地理实体空间位置、邻居、结构特征，提高了知识图谱的空间感知能力；

（3）本方法提出的注入空间特征的地理知识图谱表示方法，充分发挥了地理知识图谱的空间特性，有效保留实体的空间特性和实体间的空间关系，能为知识表示学习的下游任务如地理空间知识推理，地理空间知识问答等提供重要技术支撑。

附图说明

图1为本发明方法的基本框架结构示意图；

图2 为空间数据映射至无向图结构示意图；

图3 为注入空间特征的平移模型结构示意图；

图4 为不同大小学习率对模型性能的影响趋势图。

具体实施方式

下面结合附图和具体实施案例，进一步阐明本发明。

实施例1：本申请提供一种SubGNN注入空间特征的地理知识图谱表示学习方法，包括如下步骤：

步骤1：抓取地理空间知识图谱中地理实体的矢量数据，作为获得地理实体空间特征向量表示的基础数据；

本发明主要融合地理空间实体的空间特征进行方法的改进，步骤1即为从已有的地理空间知识图谱中拓展地理实体的空间数据，实例以中涉及地理空间关系的三元组/>为基础(/>代表三元组，/>代表头地理实体，/>代表尾地理实体，/>代表头实体与尾实体的关系)，通过实体的唯一标识符或名称，从/>中链接点状地理实体的位置坐标以及线状和面状地理实体的坐标序列。在本实例中，以/>知识图谱中与地理空间相关的114种关系为基础，收集与这些关系三元组相连的实体，作为地理实体，并以/>知识库中实体的/>作为桥接，链接/>，获取到实体的空间数据，最终得到了16215个实体，共100462条知识三元组。表1展示了数据集中三元组示例，包含的空间关系包括最近的城市和广播范围等。

步骤2 ：设计一种在统一的空间中将点、线和面实体一致表达且保持实体空间特征完整的映射方法，将点、线和面实体统一表达为子图的形式。

本发明针对此前并未有将点、线和面三类实体进行统一特征嵌入的研究空缺，提出使用基于子图神经网络的特征嵌入方法，将点、线和面实体的空间数据同时映射至图结构中,式中/>代表整个图，/>和/>分别代表所有点和边的集合，所有实体的空间数据均可表达为子图/>，其中/>是/>的子集，/>是/>的子集。图2展示了图结构化后各类型实体的形式，其中，/>代表点实体，/>和/>代表线实体，/>代表面实体，点实体的空间数据通过图结构化后将为单个节点组成的子图，如/>，线实体的空间数据通过图结构化后将为多个节点与边相连形成的子图，如/>和/>，面实体通过图结构化后将为首尾相连的多个节点所包围的所有节点和边组合而成的子图，如/>。

步骤3：提出基于子图神经网络（Subgraph Neural Network, SubGNN）的地理空间特征编码器，结合地理实体的位置、邻居与结构特征，获得地理实体基于空间特征的向量表示。

是子图级别的表示，能挖掘图结构上子图内部与子图间的位置、邻居和结构3种空间特征，通过空间特征消息传递框架，在每个空间特征通道中设置采样点，捕获的空间特性从采样点出发，并由特定的相似性函数加权，传播到子图，最终训练得到子图的向量表示，具体的实行步骤包括：

3.1：在每层网络中，通过不同空间特征通道的采样器在图上生成采样点，对采样点进行向量表示。

，

其中下标代表的空间特征通道，包括位置通道/>、邻居通道/>和结构通道/>；代表子图集合，/>是采样函数，/>是/>空间特征通道的采样点，/>是/>空间特征通道采样点通过编码生成的向量，/>是/>空间特征通道的编码函数；

3.2：计算空间特征的传递函数与相似性函数。

在每层网络中，计算子图与采样点间相似度函数，通过消息传递框架，将网络中属性信息从一组采样点中传播到子图组件，并最终传播到整个子图，从而产生捕获子图拓扑不同属性的子图表示。每一种空间特征的传递函数与相似性函数定义如下：

（3），

（4），

（5），

（6），

代表/>空间特征通道的传递函数；/>代表/>空间特征通道的传递函数,其中位置通道特性通过子图到采样点的最短路径反映，/>代表子图到采样点的平均的最短距离；邻居通道相似度设定为1；结构通道特性通过子图与采样点有序度序列反映，/>和/>分别代表子图和采样点的有序度序列，/>代表动态时间规整函数。

3.3：将空间特征的消息转换为顺序不变的隐藏表示和属性感知的向量表示，如下：

，（7）

（8），

（9），

其中是聚合/>空间特征通道中所有采样点的空间特性消息的隐藏表示，是对消息进行操作的聚合函数，/>代表/>空间特征通道中采样点的数量，/>为空间特性的传递函数序号,/>表示关于/>空间特征通道的子图表示，其携带了空间特性消息的隐藏表示/>和前一层的表示/>的特性,/>代表网络层，/>是/>空间特征通道的逐层可学习的权重矩阵，/>是非线性激活函数,/>为属性感知的向量表示，/>是采样点的消息矩阵，由消息传递函数/>生成,至此，每层的消息网络传递完成。

3.4：最后聚合不同空间特征通道和不同网络层的子图表示，转化为最终的子图表示：

（10），

（11），

步骤4：基于平移模型（Translating Embeddings，TransE），设计结合地理空间特征向量表示的能量函数，将基于地理空间特征和基于图谱本身结构的两种表示学习到同一个连续向量空间，见附图3，具体包括：

4.1：遵循平移模型的思想，将关系看做头实体到尾实体的平移操作，结合地理实体空间特征的向量表示与图谱本身的向量表示设计新的三元组能量函数，具体表达式为：

（12），

其中是控制各项权值的超参数，/>是基于空间特征的头实体和尾实体的向量表示，/>部分实际上与平移模型中的能量函数一致，，/>和/>是加入了基于空间特征的实体向量影响的混合项。

4.2：根据所述三元组能量函数构建损失函数，以地理空间知识图谱三元组为训练集，采用梯度下降优化算法更新参数，训练模型，最终得到地理实体和关系的向量表示。

损失函数表达式为：

(13），

其中，负例三元组，/>表示正负例三元组得分的间隔距离超参数，/>是负例三元组集合，是在三元组基础上构建的，表达式为：

，

4.3：选择最优超参数。

固定的学习率，在/>的范围进行尝试，根据迭代 1000 次后在验证集上的性能进行确定。附图4显示了在数据集上不同学习率大小对模型性能的影响。结果显示，当学习率为0.001时模型表现相对最好，因此本方法将学习率设置为0.001。其他训练参数如最大间隔参数/>在/>中进行尝试，实体向量与关系向量设置成了相同维数/>，在/>的范围中进行尝试。最终选择最优参数：/>，得到能反映实体和关系语义与空间关系的融合地理实体空间特征的向量向量表示/>和关系向量/>。

步骤5：对比本申请所提出的融合地理空间特征的表示学习方法与已有经典方法，结果表明本申请所提出方法的链接预测任务精度更高。

使用链接预测任务来评估本发明方法与经典方法的性能，体现发明方法的可行性，链接预测是指预测出三元组中缺少的实体或关系，带入所有实体或关系，利用能量函数计算得分，将得分进行排序，排序后将得到和/>指标，分别了代表正确的实体和关系在预测中的平均倒数排名及正确的实体和关系在预测结果前/>名的比例，计算方法分别为：

（14），

（15），

其中表示三元组的数量，/>表示第/>个三元组的链接预测排名，/>是指示函数，若括号内条件为真则函数值为1，否则为0。对于/>和/>指标，两者都是数值越高代表模型性能越好。对比的经典方法为/>、/>、/>和/>，实体预测评估结果如表2示，关系预测评估结果如表3示。

从评估结果中可发现，本发明方法的各项指标均优于其他方法，从而在一定程度上验证了融合地理实体的空间特征的表示模型对表示表达性能提升的有效性，评估结果反映了融合地理实体的空间特征使得模型可以捕获更丰富的实体信息，能更好地挖掘实体关系之间的语义联系，提升了模型的知识表示能力。

综上所述：本发明公开了一种SubGNN注入空间特征的地理知识图谱表示学习方法，包括通过地理实体的唯一标识符，链接OpenStreetMap中地理实体的空间数据，将点、线和面地理实体统一表达为无向图中的子图；采用子图神经网络进行位置、邻居、结构空间信息特征编码，获得地理实体基于空间特征的向量表示；结合地理实体空间特征向量和图谱本身结构的向量表示，改进融合地理空间特征向量的能量函数，在平移模型的框架下进行学习，最终得到融合空间特征的知识图谱向量表示。本申请设计了一种注入地理空间特征的知识表示学习模型，提升了地理空间知识向量表示的准确性，提高了地理知识链接预测任务的性能，从而更好服务于地理空间知识图谱的知识补全和知识推理等应用。

上面对本方法实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本方法的发明创造的目的做出多种变化，凡依据本方法技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本方法的发明目的，只要不背离本发明的技术原理和发明构思，都属于本方法的保护范围。

Claims

1.一种SubGNN注入空间特征的地理知识图谱表示学习方法，其特征在于，所述方法包括如下步骤：

S3：提出基于子图神经网络的地理空间特征编码器，结合地理实体的位置、邻居与结构特征，获得地理实体基于空间特征的向量表示；

S4：基于平移模型，设计融合地理实体空间特征向量的能量函数，将基于地理实体的空间特征和基于图谱本身结构特征的两种向量表示学习到同一个连续向量空间；

所述步骤S1中，获取地理空间知识图谱中地理实体的矢量数据，具体是指通过地理实体唯一标识符从OpenStreetMap中链接地理实体的几何坐标信息，

所述步骤S2中，设计一种在统一的空间中将点、线和面实体一致表达且保持实体空间特征完整的映射方法，将点、线和面实体统一表达为子图的形式，具体是指通过将原本矢量的数据，转化为节点与边的图结构形式，其中点实体通过无向图结构化后将为单个节点组成的子图，线实体通过图结构化后将为多个节点与边相连形成的子图，面实体通过图结构化后将为首尾相连的多个节点所包围的所有节点和边组合而成的子图；

所述步骤S3中子图神经网络空间特征编码器具体是指，挖掘图结构上子图内部与子图间的位置、邻居和结构3种空间特征，通过空间特征消息传递框架，在每个空间特征通道中设置采样点，捕获的空间特性从采样点出发，并由特定的相似性函数加权，传播到子图，最终训练得到子图的向量表示，即获得地理实体基于空间特征的向量表示,每一种空间特征的传递函数与相似性函数定义如下：

γ_NE(S，A_NE)＝1

其中下标X代表的空间特征通道，包括位置通道PO、邻居通道NE和结构通道ST；S代表子图集合，A_x是X空间特征通道的采样点，a_x是X空间特征通道采样点通过编码生成的向量，代表X空间特征通道的传递函数；γ_x代表X空间特征通道的传递函数，其中位置通道特性通过子图到采样点的最短路径反映，d_sp代表子图到采样点的平均的最短距离；邻居通道相似度设定为1；结构通道特性通过子图与采样点有序度序列反映，d_S和/>分别代表子图和采样点的有序度序列，DTW代表动态时间规整函数，

将空间特征的消息转换为顺序不变的隐藏表示和属性感知的向量表示，如下：

z_x＝σ(M_x·y_x)

其中g_x是聚合X空间特征通道中所有采样点的空间特性消息的隐藏表示，AGG_M是对消息进行操作的聚合函数，N_A代表X空间特征通道中采样点的数量，i为空间特性的传递函数序号，y_x表示关于X空间特征通道的子图表示，其携带了空间特性消息的隐藏表示g_x和前一层的表示的特性，l代表网络层，W_x是X空间特征通道的逐层可学习的权重矩阵，σ是非线性激活函数，z_x为属性感知的向量表示，M_x是采样点的消息矩阵，由消息传递函数MSG_x生成，

e_sp＝y_s＝AGG_L({z⁽⁰⁾，...，z^(l)，...，z^(L)})

其中z^(l)代表第l层的属性感知向量，AGG_C表示通道聚合函数，AGG_L表示网络层聚合函数，y_S表示子图的最终表示，也即地理实体基于空间特征的向量表示e_sp；

所述步骤S4中，平移模型中，三元组内部实体与关系向量之间具有h+r≈t的关系，其中的h是头实体的向量表示，r是关系的向量表示，t是尾实体的向量表示，用e(h，t)统一表示实体的向量表示，能量函数E为：

E(h，r，t)＝||h_st+r-t_st||

其中h_st，t_st是仅基于图谱本身的结构信息的头实体和尾实体向量表示，融合地理实体基于空间特征的向量表示，设计的能量函数为：

E(h，r，t)＝α₁||h_st+r-t_st||+α₂||h_st+r-t_sp||+α₃||h_sp+r-t_st||+α₄||h_sp+r-t_sp||

其中α₁，α₂，α₃，α₄是控制各项权值的超参数，h_sp，t_sp是基于空间特征的头实体和尾实体的向量表示，||h_st+r-t_st||部分实际上与平移模型中的能量函数一致，||h_st+r-t_sp||，||h_sp+r-t_st||和||h_sp+r-t_sp||是加入了基于空间特征的实体向量影响的混合项，通过混合项的限制，将实体的两种向量映射到同一语义空间，共享相同的关系向量，最终将获得实体的向量表示e(h，t)，关系的向量表示r。