CN113553396A

CN113553396A - 图向量化方法、装置及电力网图向量化方法

Info

Publication number: CN113553396A
Application number: CN202110755180.4A
Authority: CN
Inventors: 陈毅波; 黄鑫; 向行; 黄巍; 张祖平; 蒋破荒; 田建伟
Original assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-10-26

Abstract

本发明公开了一种图向量化方法，包括获取数据集；对数据集建模得到异构信息网络图；将元路径转换为元图并枚举得到元图及元图子图实例的集合；对元图进行一阶编码并利用与每个节点关联的元图集学习各个节点的偏好；在二阶编码中通过连接两个节点的图集对两个节点之间的交互进行建模；整合一阶元图编码和二阶元图编码，对预测得到的包含子图的总体概率进行优化。本发明还公开了实现所述图向量化方法的装置，以及包括所述图向量化方法的电力网图向量化方法。本发明保留了节点之间的潜在复合关系，而且可靠性更高，实用性更好。

Description

图向量化方法、装置及电力网图向量化方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种图向量化方法、装置及电力网图向量化方法。

背景技术

从大型电力调度网络到万维网，在自然界中存在着大量的复杂系统，其中的对象因相互关联而形成大规模网络。因此，复杂系统可通过各种各样的复杂网络来描述，例如社会网、电力网和计算机网络等。

网络分析已成为一个重要的研究领域，它能支撑很多关键的应用，例如个性化推荐、节点故障预测和网络优化等。这些应用最终可以归结为在网络中有效的节点表示形式。早期的代表性框架，如DeepWalk、LINE和Grarep等，试图通过随机游走和skip-gram模型来捕捉图的接近度，从而最大化出现在特定上下文中的节点对共现概率。然而，传统方法在很大程度上依赖于人工特征工程。同时，现有的网络图编码表示法大多是为仅具有单一类型的节点和边缘的同类网络而设计的；而在现实世界中，对象通常被组织成异构信息网络 (Heterogeneous Information Network，HIN)，其中节点和边缘都属于不同的类型。随后，为了捕获HIN上的丰富语义，有研究提出在学习过程中处理相邻节点时，区分不同类型的显式关系(即边)，例如所属机构和职业可以作为人员的相邻节点，但它们分别通过地点和职业传达了不同的语义，因此，必须区分它们。此外，还存在复合的且通常是潜在的关系，例如同一公司的同事关系或同一领域的研究人员共同参与同一项目，这些关系可以通过元路径结构进行某种程度的建模，例如‘用户-大学-用户’和‘用户-项目-用户’。许多研究已经利用此类元路径来学习HIN的表示。但是，元路径仍然不能表达节点之间更复杂的关系。

发明内容

本发明的目的之一在于提供一种能够保留节点之间的潜在复合关系，而且可靠性更高、实用性更好的图向量化方法。

本发明的目的之二在于提供一种实现所述图向量化方法的装置。

本发明的目的之三在于提供一种包括了所述图向量化方法的电力网图向量化方法。

本发明提供的这种图向量化方法，包括如下步骤：

S1.获取数据集；

S2.对数据集进行建模，从而得到异构信息网络图；

S3.在步骤S2得到的异构信息网络图中，将元路径转换为元图，并枚举得到元图及元图子图实例的集合；

S4.对元图进行一阶编码，并利用与每个节点关联的元图集学习各个节点的偏好；

S5.在二阶编码中，通过连接两个节点的图集，从而对两个节点之间的交互进行建模；

S6.整合一阶元图编码和二阶元图编码，在给定每个核心节点以及每对核心节点的情况下，对预测得到的包含子图的总体概率进行优化。

步骤S2所述的对数据集进行建模，从而得到异构信息网络图，具体包括如下步骤：

网络图为定义域对象类型Γ的节点和来自关系R的边的有向图；异构信息网络的元模板表示为g＝(V，ε，Γ，R)，其中V为图节点，ε为边；元路径为定义在网络图上的连接两类对象的一条路径，并定义为

其中T_i用于表示对象类型且T_i∈Γ，R_i表示关系类型且R_i∈R；定义表示对象类型之间的复合关系R＝R₁οR₂ο…οR_l，其中ο为关系之间的复合算子；

首先，使用人工标注对文档进行实体标注，然后采用自然语言处理技术提取文本中的实体和关系，然后根据所提取的实体和关系构建异构信息网络图。

步骤S3所述的枚举得到元图及元图子图实例的集合，具体包括如下步骤：

枚举异构信息网络上的元图，并得到元图集合M；然后对于元图集合M中的每一个元图M_i，枚举每一个元图M_i的子图实例，并得到子图实例集合S_i，所有的子图实例集合S_i组成子图实例集S。

步骤S4所述的对元图进行一阶编码，并利用与每个节点关联的元图集学习各个节点的偏好，具体包括如下步骤：

在若干子图中找到一个核心节点，从而以实例化元图表征节点倾向于参与的潜在关系；

m_i表示嵌入同一空间的元图且m_i∈R^D，v表示节点v的编码表示(向量) 且v∈R^D；S^(v)为包含节点v的子图集；对于核心节点v，采用预测其包含子图S^(v)的自监督目标；最大化P(S^(v)|v；Θ)，其中Θ为由所有节点和元图编码组成的模型参数，且

将S^(v)分解为若干个不相交的子集：

其中S_i为M_i实例化的子图；每个子集{S^(v)∩S_i}均包含由公共元图M_i实例化的子图；将由公共元图实例化的v的所有子图视为共享相同的底层分布，从而得到以下结果：

其中|S^(v)∩S_i|为含核心节点v的子图S^(v)与元图M_i实例化后的子图S_i相交的数量；P(M_i|v；Θ)被如下softmax函数实现：

其中m_i为元图M_i的编码表示，v为节点v的编码表示；

考虑所有核心节点，最小化以下负对数似然，以实现一阶元图嵌入：

式中

为图中核心节点且

P(M_i|v；Θ)为元图M_i包含核心节点v的概率。

步骤S5所述的二阶编码，具体为采用如下步骤构建二阶编码：

一对核心节点能够共同出现在若干子图中，这些子图能够用不同的元图进行表征，从而捕获两个节点之间的潜在关系；令S^(u，v)表示同时包含节点u和v的子图集；目标为设计f：R^2D→R^D，将两个节点的聚合映射到与元图相同的空间，从而包含两个节点的元图能够约束它们的表示；采用如下f的公式：

f(u，v)＝ReLU([u||v]W+b)，

其中u为核心节点u的向量，v为节点v的向量，||为连接算子，W∈R^2D×D为权重矩阵；b∈R^D为偏置向量；ReLU()为激活函数；

对于一对核心节点u和v，采用自我监督的目标，通过最大化 P(S^(u，v)|u，v；Θ)预测包含的子图S^(u，v)；还将有相同元图实例化的包含子图视为共享相同的底层分布；

其中P(M_i|u，v；Θ)为元图M_i同时包含核心节点u和核心节点v的概率， P(M_i|u，v；Θ)采用softmax定义：

其中m_i为元图M_i的编码表示；u为节点u的编码表示，v为节点v的编码表示， f()为映射函数；考虑所有核心节点对，最小化以下负对数似然函数以实现二阶元图编码表示：

其中P(M_i|u，v；Θ)为元图M_i同时包含节点u和节点v的概率；{S^(u，v)∩S_i}表示每个子集S^(u，v)包含由公共元图M_i实例化的子图S_i的集合；|S^(u，v)∩S_i|为集合长度；同时，在二阶编码表示中，模型参数Θ扩展为了包括函数f()中使用的权重矩阵W和偏置向量b。

步骤S6所述的整合一阶元图编码和二阶元图编码，具体包括如下步骤：

优化在给定每个核心节点以及给定每对核心节点的情况下预测包含子图的总体概率；最小化以下总体损失：

L＝(1-α)L₁+αL₂

式中α为取值范围在[0，1]之间的超参数；L₁为一阶编码表示的损失函数输出；L₂为二阶编码表示的损失函数输出；

首先，对算式

和算式

中的softmax函数应用负采样以加快计算速度；在所有元图M中，随机抽取K个作为负样本；然后，对于二阶损失

采用随机游走来对所考虑的节点对进行采样：从每个核心节点开始，在HIN上执行η次游走，使得每个随机游走遍历λ个核心节点；使用大小为ω的窗口进一步提取带有 skip-gram的节点对；采用上限|V|进行分析；

最后，采用随机梯度下降法训练模型，得到最终的图向量化表示。

本发明还提供了一种实现所述图向量化方法的装置，包括数据获取模块、异构信息网络图获取模块、数据建模模块、一阶编码模块、二阶编码模块和整合模块；获取模块用于获取数据集；异构信息网络图获取模块用于对数据集进行建模，从而得到异构信息网络图；数据建模模块用于在得到的异构信息网络图中，将元路径转换为元图，并枚举得到元图及元图子图实例的集合；一阶编码模块用于对元图进行一阶编码，并利用与每个节点关联的元图集学习各个节点的偏好；二阶编码模块用于在二阶编码中，通过连接两个节点的图集，从而对两个节点之间的交互进行建模；整合模块用于整合一阶元图编码和二阶元图编码，在给定每个核心节点以及每对核心节点的情况下，对预测得到的包含子图的总体概率进行优化。

本发明还公开了一种包括了所述图向量化方法的电力网图向量化方法，包括如下步骤：

(1)获取电力网数据集；

(2)将步骤(1)获取的电力网数据集作为目标数据集，采用上述的图向量化方法，完成电力网的图向量化。

本发明提供的这种图向量化方法、装置及电力网图向量化方法，可以共同学习元数据和节点的编码表示，图元通过将自己映射到与节点相同的嵌入空间来积极参与学习过程，而且能够将节点映射到低维向量空间，该空间除了显式的异构关系外，还保留了节点之间的潜在复合关系；此外，本发明可靠性更高，实用性更好。

附图说明

图1为本发明的图向量化方法的方法流程示意图。

图2为本发明的图向量化方法的实体标注过程示意图。

图3为本发明的图向量化方法的异构信息网络构建示意图。

图4为本发明的图向量化方法的从元路径到元图的过程示意图。

图5为本发明的图向量化方法的元图和子图枚举示例图。

图6为本发明的图向量化方法的一阶和二阶元图编码示意图。

图7为本发明的装置的功能模块图。

具体实施方式

如图1所示为本发明的图向量化方法的方法流程示意图：本发明提供的这种图向量化方法，包括如下步骤：

S1.获取数据集；

S2.对数据集进行建模，从而得到异构信息网络图；具体包括如下步骤：

网络图为定义域对象类型Γ的节点和来自关系R的边的有向图；异构信息网络的元模板表示为g＝(V,ε,Γ,R)，其中V为图节点，ε为边；元路径为定义在网络图上的连接两类对象的一条路径，并定义为

首先，使用人工标注对文档进行实体标注(如图2所示)，标注工具可以采用YEDDA、Wikify、ATDI或BART；然后采用自然语言处理技术提取文本中的实体和关系(可以采用现有的BiLSTM+CRF基准模型)，然后根据所提取的实体和关系构建异构信息网络图；

在上述步骤中，本方法构建了基本的异构信息网络HIN，但在此基础上需要将元路径转化为元图；考虑图4所示的元路径；这两个用户之间的潜在关系尚不清楚，可能是同事或同学；为了减少这种歧义，研究人员已经提出了可以表达更细粒度语义的元图；例如，图4中的元图比元路径更能够以更高的置信度捕获人物之间的关系；特别地，给定两个元路径，即‘用户-大学-用户’和‘用户-领域-用户’，它们中的每一个都不能独立且完整地描述用户之间的关系；相比之下，将两个元路径组合成元图能够很好地表达用户之间的关系，这意味着元图显示出比其组成元路径更高的表达能力；实际上，元图可以看作是元路径的非线性模型；

因此，本步骤具体包括如下步骤：

枚举异构信息网络上的元图，并得到元图集合M；然后对于元图集合M中的每一个元图M_i，枚举每一个元图M_i的子图实例，并得到子图实例集合S_i，所有的子图实例集合S_i组成子图实例集S；虽然子图实例描述了对象之间的交互，但元图将它们总结为通用模式；例如，涉及节点u、v、p、q的四个子图可以由两个元图M₁和M₂进行抽象化，其中S₁中的子图由元图M₁实例化，S₂中的子图由M₂实例化；

该问题可以简化为众所周知的NP难子图同构；蛮力方法的时间复杂度为

其中|V|是HIN g中的节点数，d是g的平均度数，|V_M|是元图中的节点数；尽管如此，通过各种修剪技术和特殊数据结构可以显着降低复杂性；

S4.对元图进行一阶编码，并利用与每个节点关联的元图集学习各个节点的偏好；具体包括如下步骤：

的一阶编码模型具体为通过利用与每个节点关联的元图集来学习各个节点的偏好对上述处理好的元图进行一阶编码；

m_i表示嵌入同一空间的元图且m_i∈R^D，v表示节点v的编码表示(向量) 且v∈R^D；S^(v)为包含节点v的子图集；例如，在图5中，有四个子图标记为① ②③④、S^(u)＝{①③}、S^(v)＝{①④}等。请注意，每个四个节点u、v、p、q 出现在元图M₁的至少一个实例和M₂的一个实例中。因此，M₁和M₂都表征了每个节点的偏好。这进一步意味着它们的编码向量m₁和m₂将独自地约束节点u、 v、p、q的编码表示，如图5所示；

对于核心节点v，采用预测其包含子图S^(v)的自监督目标；最大化 P(S^(v)|v；Θ)，其中Θ为由所有节点和元图编码组成的模型参数，且

将S^(v)分解为若干个不相交的子集：

其中m_i为元图M_i的编码表示，v为节点v的编码表示；

式中

为图中核心节点且

P(M_i|v；Θ)为元图M_i包含核心节点v的概率。

二阶编码模型具体为通过连接两个节点的图集直接对两个节点之间的交互进行二阶编码；

一对核心节点能够共同出现在若干子图中，这些子图能够用不同的元图进行表征，从而捕获两个节点之间的潜在关系；令S^(u，v)表示同时包含节点u和v的子图集；如图5中，S^(u，v)＝{①}等。因此，如图6(b)所示，m₁将约束f(u，v)和 f(p，q)，m₂将约束f(u，p)和f(v，q)，给定一些向量值函数f来聚合两个节点的表示；

目标为设计f：R^2D→R^D，将两个节点的聚合映射到与元图相同的空间，从而包含两个节点的元图能够约束它们的表示；采用如下f的公式：

f(u，v)＝ReLU([u||v]W+b)，

其中P(M_i|u，v；Θ)为元图M_i同时包含节点u和节点v的概率；{S^(u，v)∩S_i}表示每个子集S^(u，v)包含由公共元图M_i实例化的子图S_i的集合；|S^(u，v)∩S_i|为集合长度；同时，在二阶编码表示中，模型参数Θ扩展为了包括函数f()中使用的权重矩阵W和偏置向量b；

S6.整合一阶元图编码和二阶元图编码，在给定每个核心节点以及每对核心节点的情况下，对预测得到的包含子图的总体概率进行优化；具体包括如下步骤：

L＝(1-α)L₁+αL₂

首先，对算式

和算式

中的softmax函数，采用负采样以加快计算速度；在所有元图M中，随机抽取K个作为负样本；然后，对于二阶损失

采用随机游走来对所考虑的节点对进行采样：从每个核心节点开始，在HIN上执行η次游走，使得每个随机游走遍历λ个核心节点；使用大小为ω的窗口进一步提取带有skip-gram的节点对；采用上限|V|进行分析；

以下结合一个具体实施例，对本发明方法进行进一步说明：

首先给出电力领域科技项目中一个简单的项目网络，该网络是基于某一科技项目为核心的项目网络图，其中涉及到参与人、研究领域、所属研究机构、职业，具体见图3。

首先定义一个基本的科技项目域schema，然后组织人员对科技项目域进行人工标注，在人工标注的过程中，如图2所示，对文档内容进行了技术术语、设备设施、机构实体标注，因为这是非结构化实体的抽取过程中的标注。对于人员、领域等结构化实体直接对表文件进行处理即可。在此过程中，将遇到一些新领域相关的实体，schema会得到更新。最后在schema构建完备后，开始利用自然语言处理模型在初步讨论的schema基础上对科技项目文档进行提取实体和关系，然后导入图数据库以形成初步的异构信息网络HIN。

对异构信息网络HIN构建从元路径到元图。如图4所示，比如有一条元路径为‘人员-大学-人员’，仅从元路径上是无法分辨‘人员与人员’之间的关系，因此本方法通过构建从元路径到元图的方式来精确辨别节点之间的关系。以图4(c)所示，再添加一条元路径，其连接节点为‘职业’，通过‘职业’和 ‘大学’可以很好地辨别两个人之间是‘师生关系’还是‘同学关系’。最后，如图5所示，对所有可构建元图的元路径进行枚举元图及其子图实例的集合。

对元图进行一阶编码，通过引导每个核心节点的嵌入来表达他们的个人偏好。具体而言，可以在许多子图中找到一个核心节点，它们的实例化元图进一步表征了节点倾向于参与的潜在关系。为了便于讨论，这里只考虑仅包含两个核心节点的对称元图，如图5所示。令m_i∈R^D和vv∈R^D分别表示嵌入同一空间的元图M_i和节点v的嵌入。让S^(v)表示包含节点v的子图集。例如，在图5中，有四个子图标记为①②③④、S^(u)＝{①③}、S^(v)＝{①④}等。请注意，每个四个节点u、v、p、q出现在元图M₁的至少一个实例和M₂的一个实例中。因此， M₁和M₂都表征了每个节点的偏好。这进一步意味着它们的编码向量m₁和m₃将独自地约束节点u、v、p、q的编码表示，如图5所示；具体来说，对于核心节点v，采用预测其包含子图S^(v)的自监督目标。更正式地说，最大化P(S^(v)|v；Θ)，其中Θ是由所有节点和元图编码组成的模型参数，即

最后，考虑到所有核心节点，最小化以下负对数似然以实现一阶元图嵌入。以图4(c)为例，的编码最终表示为 [0.23567,0.31428,0.25694,0.70611,…,0.64255,0.13712]，维度为64维。

进一步通过引导每对核心节点的嵌入来表达它们的潜在关系，如图6(b) 所示。更具体地说，一对核心节点可以共同出现在许多子图中，这些子图可以用不同的元图来表征，以捕获两个节点之间的潜在关系。让S^(u,v)表示同时包含节点u和v的子图集。如图5中，S^(u,v)＝{①}等。因此，如图6(b)所示，m₁将约束f(u,v)和f(p,q)，m₃将约束f(u,p)和f(v,q)，给定一些向量值函数f来聚合两个节点的表示。的目标是设计f:R^2D→R^D将两个节点的聚合映射到与元图相同的空间，这样包含两个节点的元图可以约束它们的表示。与一阶类似，对于一对核心节点u和v，采用自我监督的目标，即通过最大化P(S^(u,v)|u,v；Θ) 来预测它们包含的子图S^(u,v)。还将由相同元图实例化的包含子图视为共享相同的底层分布。考虑到所有核心节点对，同样地最小化以下负对数似然函数以实现二阶元图编码表示：

以图4 (c)为例，的编码最终表示为 [0.34617,0.30987,0.28657,0.44563,…,0.50124,0.26863]，维度为64维。 [0.23568,0.31424,0.25694,0.70611,…,0.64255,0.13712]

整合元图嵌入的两个顺序，优化了在给定每个核心节点以及给定每对核心节点的情况下预测包含子图的总体概率。等效地，最小化以下总体损失： L＝(1-α)L₁+αL₂。其中α∈[0,1]是一个超参数，用于控制两个订单之间的平衡。采用两种常见的采样形式来有效地解决上述优化问题。在本方法中α＝0.6。因此，最终图4(c)的编码表示为： [0.279876,0.312492,0.268792,0.60192,…,0.586026,0.189724]，维度为64维。

为了具体展示本发明的有效性和可行性，我们进行了如下实验，具体实验过程如下：

1、数据集介绍。实验采用两个公共数据集和一个私有数据集进行了广泛的实验，即LinkedIn、AS和ETD。

LinkedIn：数据集可以组织成具有四种类型(用户、雇主、位置、大学)节点的异构信息网络图。用户节点可以连接到其他类型(包括自己)的节点，用户在LinkedIn上标记了他们与朋友的主要关系，包括学校、工作和其他关系。

AS：用于在Internet上互连自治系统(Autonomous Systems,AS)的异构信息网络图数据集。在该图中，每个节点代表一个AS，每条边代表两个AS之间的交互。存在三种类型的节点：顶部、中部、底部AS节点。

ETD：电力领域科技文档数据集(Electricity-related Technical Documents,ETD)，在该数据集中，以项目(文档)为中心实体，如LinkedIn中的用户，其余还有人员、研究领域、机构、职业类型实体。

数据集的相关信息在下面表1中进行了总结。

表1三个数据集的统计信息

2、实验设置

为了广泛评估学习表示的性能，我们进行了两个个关系挖掘任务，包括关系预测、搜索。

预测：具体来说，标记对被分成50％的训练和50％的测试，这样的分裂重复10次。对于所有方法，我们使用两个节点嵌入的串联作为每个节点对的最终特征向量，并训练了一个SVM分类器。SVM的超参数是在训练数据上使用五重交叉验证选择的，在C∈{0.01,1,100}和γ∈{0.0001,0.001,0.01}上进行网格搜索。

搜索。我们进行基于排名的关系搜索，其中查询节点与目标关系的正面和负面候选者相关联。我们分别考虑了LinkedIn、AS和ETD上的目标关系Work、Peer和Advisor。正候选项通过目标关系与查询相关，负候选项由通过其他关系与查询相关的节点组成。我们将所有查询拆分为50％的训练和50％的测试，并重复这样的拆分10次。对于所有方法，我们采用了一种学习排序模型，并在前 10个结果中根据NDCG、MAP和MRR对10个测试集的性能进行平均。

本发明将提出的(Graph Vectorization learning relationship viaMetagraph Embedding)me2vec模型与以下最先进的基线进行比较，这些基线属于四大类：(i)基于同构网络方法的DeepWalk；(ii)图神经网络或知识图模型的TransR； (iii)非基于元图的HIN方法的hin2vec；(iv)基于元图的HIN方法的 metagraph2vec。

DeepWalk：一种开创性的基于齐次图随机游走采样的跳跃图模型。

TransR：一种知识图嵌入方法，主要设计用于保留显式的主谓宾三元组，而不是潜在的复合关系。

hin2vec：一种HIH嵌入方法，该方法基于达到给定大小的元路径对随机游走进行采样，并将它们输入到神经网络中。

metagraph2vec：一种HIN嵌入方法和metapath2vec的变体，它使用元图来采样随机游走。

对于本发明中所提出的me2vec，为了对节点对进行采样，我们对每个节点进行了10次随机游走，游走长度为100，窗口大小为5。我们进一步将其负采样大小设置为10，嵌入大小设置为128。为了实现第一次和第二次之间的平衡为了，我们将α设置为0.5。对于基线，为了确保它们得到很好的调整，我们对每个基线的主要超参数进行了网格搜索。在大多数情况下，每个基准模型参数与现有文献一致。

3、实验结果分析

表2各模型的关系预测结果对比

在表2中，我们总结各模型间的关系预测结果。总之，本发明所提出的 me2vec始终优于所有具有统计显着性的基线。我们在下面讨论进一步的观察。首先，me2vec优于同类网络嵌入算法DeepWalk。这些基线将所有节点和边视为一种统一类型，因此无法在HIN上捕获和区分丰富的语义。请注意，在LinkedIn 上，与其他HIN嵌入方法(例如metapath2vec)相比，DeepWalk的表现出奇地好。这一观察结果可以归因于LinkedIn的一个特殊特征——作为一个专业网络，每个用户都更多地与来自同一大学或雇主的朋友建立联系。这意味着，如果用户当前在学校(或工作)，它会与其大多数直接邻居形成学校(或工作)关系。具体来说，在我们的基本事实中，67.7％或三分之二以上的用户具有非常偏态的邻居分布，以至于他们80％以上的邻居属于单一关系。这特别有利于DeepWalk，因为它从每个用户开始采样随机游走，保证与其直接邻居形成节点对。即使不考虑异质性，由直接邻居形成的这些节点对中的大多数已经属于同一关系。因此，将为这些节点对学习类似的嵌入，这使得下游任务更容易。另一方面，虽然metapath2vec也应用随机游走，但它被迫遵循跳过直接邻居对的元路径。尽管如此，我们的方法me2vec在LinkedIn上仍然表现最好，显示了它的稳健性和通用性。其次，me2vec也优于知识图模型TransR。TransR最初是针对由显式主谓宾三元组组成的知识图提出的，这可能不适用于捕获HIN上的潜在复合关系。因此，它们的性能通常是次优的。第三，与专门为HIN嵌入设计的基线相比， me2vec仍然具有优势。其中hin2vec不使用元图，结果证明对于更复杂的关系是不够的。更重要的是，me2vec也优于其他基于元图的方法metagraph2vec。虽然metagraph2vec通常比它的表亲metapath2vec获得更好的性能，但它仍然远远落后于me2vec，因为它只在预计算步骤中使用元图来采样随机游走。

表3各模型间的关系搜索对比

我们进行基于排名的关系搜索，其中查询节点与目标关系的正面和负面候选者相关联。我们分别考虑了LinkedIn、AS和ETD上的目标关系Work、Peer 和Advisor。正候选项通过目标关系与查询相关，负候选项由通过其他关系与查询相关的节点组成。我们将所有查询拆分为50％的训练和50％的测试，并重复这样的拆分10次。对于所有方法，我们采用了一种学习排序模型，并在前10 个结果中根据NDCG、MAP和MRR对10个测试集的性能进行平均。我们在表 3中对比了关系搜索结果。总体观察结果类似于关系预测，me2vec始终优于所有基线。更具体地说，由于在关系预测中讨论的相同原因，本发明所提出的 me2vec在所有的关系类别中都优于基线。

如图7所示为本发明的装置的功能模块图：本发明还提供了一种实现所述图向量化方法的装置，包括数据获取模块、异构信息网络图获取模块、数据建模模块、一阶编码模块、二阶编码模块和整合模块；获取模块用于获取数据集；异构信息网络图获取模块用于对数据集进行建模，从而得到异构信息网络图；数据建模模块用于在得到的异构信息网络图中，将元路径转换为元图，并枚举得到元图及元图子图实例的集合；一阶编码模块用于对元图进行一阶编码，并利用与每个节点关联的元图集学习各个节点的偏好；二阶编码模块用于在二阶编码中，通过连接两个节点的图集，从而对两个节点之间的交互进行建模；整合模块用于整合一阶元图编码和二阶元图编码，在给定每个核心节点以及每对核心节点的情况下，对预测得到的包含子图的总体概率进行优化。

Claims

1.一种图向量化方法，包括如下步骤：

S1.获取数据集；

S2.对数据集进行建模，从而得到异构信息网络图；

2.根据权利要求1所述的图向量化方法，其特征在于步骤S2所述的对数据集进行建模，从而得到异构信息网络图，具体包括如下步骤：

其中T_i用于表示对象类型且T_i∈Γ，R_i表示关系类型且R_i∈R；定义表示对象类型之间的复合关系

其中

为关系之间的复合算子；

3.根据权利要求2所述的图向量化方法，其特征在于步骤S3所述的枚举得到元图及元图子图实例的集合，具体包括如下步骤：

4.根据权利要求3所述的图向量化方法，其特征在于步骤S4所述的对元图进行一阶编码，并利用与每个节点关联的元图集学习各个节点的偏好，具体包括如下步骤：

m_i表示嵌入同一空间的元图且m_i∈R^D，v表示节点v的编码表示(向量)且v∈R^D；S^(v)为包含节点v的子图集；对于核心节点v，采用预测其包含子图S^(v)的自监督目标；最大化P(S^(v)|v；Θ)，其中Θ为由所有节点和元图编码组成的模型参数，且

将S^(v)分解为若干个不相交的子集：

其中m_i为元图M_i的编码表示，v为节点v的编码表示；

式中

为图中核心节点且

P(M_i|v；Θ)为元图M_i包含核心节点v的概率。

5.根据权利要求4所述的图向量化方法，其特征在于步骤S5所述的二阶编码，具体为采用如下步骤构建二阶编码：

一对核心节点能够共同出现在若干子图中，这些子图能够用不同的元图进行表征，从而捕获两个节点之间的潜在关系；令S^(u,v)表示同时包含节点u和v的子图集；目标为设计f:R^2D→R^D，将两个节点的聚合映射到与元图相同的空间，从而包含两个节点的元图能够约束它们的表示；采用如下f的公式：

f(u，v)＝ReLU([u||v]W+b)，

对于一对核心节点u和v，采用自我监督的目标，通过最大化P(S^(u,v)|u,v；Θ)预测包含的子图S^(u,v)；还将有相同元图实例化的包含子图视为共享相同的底层分布；

其中P(M_i|u,v；Θ)为元图M_i同时包含核心节点u和核心节点v的概率，P(M_i|u,v；Θ)采用softmax定义：

其中m_i为元图M_i的编码表示；u为节点u的编码表示，v为节点v的编码表示，f()为映射函数；考虑所有核心节点对，最小化以下负对数似然函数以实现二阶元图编码表示：

其中P(M_i|u,v；Θ)为元图M_i同时包含节点u和节点v的概率；{S^(u,v)∩S_i}表示每个子集S^(u,v)包含由公共元图M_i实例化的子图S_i的集合；|S^(u,v)∩S_i|为集合长度；同时，在二阶编码表示中，模型参数Θ扩展为了包括函数f()中使用的权重矩阵W和偏置向量b。

6.根据权利要求5所述的图向量化方法，其特征在于步骤S6所述的整合一阶元图编码和二阶元图编码，具体包括如下步骤：

L＝(1-α)L₁+αL₂

式中α为取值范围在[0,1]之间的超参数；L₁为一阶编码表示的损失函数输出；L₂为二阶编码表示的损失函数输出；

首先，对算式

和算式

7.一种实现权利要求1～6之一所述的图向量化方法的装置，其特征在于包括数据获取模块、异构信息网络图获取模块、数据建模模块、一阶编码模块、二阶编码模块和整合模块；获取模块用于获取数据集；异构信息网络图获取模块用于对数据集进行建模，从而得到异构信息网络图；数据建模模块用于在得到的异构信息网络图中，将元路径转换为元图，并枚举得到元图及元图子图实例的集合；一阶编码模块用于对元图进行一阶编码，并利用与每个节点关联的元图集学习各个节点的偏好；二阶编码模块用于在二阶编码中，通过连接两个节点的图集，从而对两个节点之间的交互进行建模；整合模块用于整合一阶元图编码和二阶元图编码，在给定每个核心节点以及每对核心节点的情况下，对预测得到的包含子图的总体概率进行优化。

8.一种包括了权利要求1～6之一所述的图向量化方法的电力网图向量化方法，包括如下步骤：

(1)获取电力网数据集；

(2)将步骤(1)获取的电力网数据集作为目标数据集，采用权利要求1～6之一所述的图向量化方法，完成电力网的图向量化。