CN113553396A - 图向量化方法、装置及电力网图向量化方法 - Google Patents
图向量化方法、装置及电力网图向量化方法 Download PDFInfo
- Publication number
- CN113553396A CN113553396A CN202110755180.4A CN202110755180A CN113553396A CN 113553396 A CN113553396 A CN 113553396A CN 202110755180 A CN202110755180 A CN 202110755180A CN 113553396 A CN113553396 A CN 113553396A
- Authority
- CN
- China
- Prior art keywords
- graph
- metagraph
- node
- nodes
- meta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000010586 diagram Methods 0.000 claims abstract description 28
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 21
- 238000005295 random walk Methods 0.000 claims description 14
- 239000002131 composite material Substances 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种图向量化方法,包括获取数据集;对数据集建模得到异构信息网络图;将元路径转换为元图并枚举得到元图及元图子图实例的集合;对元图进行一阶编码并利用与每个节点关联的元图集学习各个节点的偏好;在二阶编码中通过连接两个节点的图集对两个节点之间的交互进行建模;整合一阶元图编码和二阶元图编码,对预测得到的包含子图的总体概率进行优化。本发明还公开了实现所述图向量化方法的装置,以及包括所述图向量化方法的电力网图向量化方法。本发明保留了节点之间的潜在复合关系,而且可靠性更高,实用性更好。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种图向量化方法、装置及 电力网图向量化方法。
背景技术
从大型电力调度网络到万维网,在自然界中存在着大量的复杂系统,其中 的对象因相互关联而形成大规模网络。因此,复杂系统可通过各种各样的复杂 网络来描述,例如社会网、电力网和计算机网络等。
网络分析已成为一个重要的研究领域,它能支撑很多关键的应用,例如个 性化推荐、节点故障预测和网络优化等。这些应用最终可以归结为在网络中有 效的节点表示形式。早期的代表性框架,如DeepWalk、LINE和Grarep等,试 图通过随机游走和skip-gram模型来捕捉图的接近度,从而最大化出现在特定上 下文中的节点对共现概率。然而,传统方法在很大程度上依赖于人工特征工程。 同时,现有的网络图编码表示法大多是为仅具有单一类型的节点和边缘的同类 网络而设计的;而在现实世界中,对象通常被组织成异构信息网络 (Heterogeneous Information Network,HIN),其中节点和边缘都属于不同的类 型。随后,为了捕获HIN上的丰富语义,有研究提出在学习过程中处理相邻节 点时,区分不同类型的显式关系(即边),例如所属机构和职业可以作为人员的 相邻节点,但它们分别通过地点和职业传达了不同的语义,因此,必须区分它 们。此外,还存在复合的且通常是潜在的关系,例如同一公司的同事关系或同 一领域的研究人员共同参与同一项目,这些关系可以通过元路径结构进行某种 程度的建模,例如‘用户-大学-用户’和‘用户-项目-用户’。许多研究已经利用 此类元路径来学习HIN的表示。但是,元路径仍然不能表达节点之间更复杂的关系。
发明内容
本发明的目的之一在于提供一种能够保留节点之间的潜在复合关系,而且 可靠性更高、实用性更好的图向量化方法。
本发明的目的之二在于提供一种实现所述图向量化方法的装置。
本发明的目的之三在于提供一种包括了所述图向量化方法的电力网图向量 化方法。
本发明提供的这种图向量化方法,包括如下步骤:
S1.获取数据集;
S2.对数据集进行建模,从而得到异构信息网络图;
S3.在步骤S2得到的异构信息网络图中,将元路径转换为元图,并枚举得 到元图及元图子图实例的集合;
S4.对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节点的 偏好;
S5.在二阶编码中,通过连接两个节点的图集,从而对两个节点之间的交互 进行建模;
S6.整合一阶元图编码和二阶元图编码,在给定每个核心节点以及每对核心 节点的情况下,对预测得到的包含子图的总体概率进行优化。
步骤S2所述的对数据集进行建模,从而得到异构信息网络图,具体包括如 下步骤:
网络图为定义域对象类型Γ的节点和来自关系R的边的有向图;异构信息 网络的元模板表示为g=(V,ε,Γ,R),其中V为图节点,ε为边;元路径为定义 在网络图上的连接两类对象的一条路径,并定义为其中Ti用于表示对象类型且Ti∈Γ,Ri表示关系类型且Ri∈R;定义表示对象类型之间 的复合关系R=R1οR2ο…οRl,其中ο为关系之间的复合算子;
首先,使用人工标注对文档进行实体标注,然后采用自然语言处理技术提 取文本中的实体和关系,然后根据所提取的实体和关系构建异构信息网络图。
步骤S3所述的枚举得到元图及元图子图实例的集合,具体包括如下步骤:
枚举异构信息网络上的元图,并得到元图集合M;然后对于元图集合M中 的每一个元图Mi,枚举每一个元图Mi的子图实例,并得到子图实例集合Si, 所有的子图实例集合Si组成子图实例集S。
步骤S4所述的对元图进行一阶编码,并利用与每个节点关联的元图集学习 各个节点的偏好,具体包括如下步骤:
在若干子图中找到一个核心节点,从而以实例化元图表征节点倾向于参与 的潜在关系;
mi表示嵌入同一空间的元图且mi∈RD,v表示节点v的编码表示(向量) 且v∈RD;S(v)为包含节点v的子图集;对于核心节点v,采用预测其包含子图S(v)的自监督目标;最大化P(S(v)|v;Θ),其中Θ为由所有节点和元图编码组成的模 型参数,且将S(v)分解为若干个不相交的子集:
其中Si为Mi实例化的子图;每个子集{S(v)∩Si}均包含由公共元图Mi实例化的 子图;将由公共元图实例化的v的所有子图视为共享相同的底层分布,从而得到 以下结果:
其中|S(v)∩Si|为含核心节点v的子图S(v)与元图Mi实例化后的子图Si相交的数量;P(Mi|v;Θ)被如下softmax函数实现:
其中mi为元图Mi的编码表示,v为节点v的编码表示;
考虑所有核心节点,最小化以下负对数似然,以实现一阶元图嵌入:
步骤S5所述的二阶编码,具体为采用如下步骤构建二阶编码:
一对核心节点能够共同出现在若干子图中,这些子图能够用不同的元图进 行表征,从而捕获两个节点之间的潜在关系;令S(u,v)表示同时包含节点u和v的 子图集;目标为设计f:R2D→RD,将两个节点的聚合映射到与元图相同的空 间,从而包含两个节点的元图能够约束它们的表示;采用如下f的公式:
f(u,v)=ReLU([u||v]W+b),
其中u为核心节点u的向量,v为节点v的向量,||为连接算子,W∈R2D×D为权重 矩阵;b∈RD为偏置向量;ReLU()为激活函数;
对于一对核心节点u和v,采用自我监督的目标,通过最大化 P(S(u,v)|u,v;Θ)预测包含的子图S(u,v);还将有相同元图实例化的包含子图视为 共享相同的底层分布;
其中P(Mi|u,v;Θ)为元图Mi同时包含核心节点u和核心节点v的概率, P(Mi|u,v;Θ)采用softmax定义:
其中mi为元图Mi的编码表示;u为节点u的编码表示,v为节点v的编码表示, f()为映射函数;考虑所有核心节点对,最小化以下负对数似然函数以实现二阶 元图编码表示:
其中P(Mi|u,v;Θ)为元图Mi同时包含节点u和节点v的概率;{S(u,v)∩Si}表示 每个子集S(u,v)包含由公共元图Mi实例化的子图Si的集合;|S(u,v)∩Si|为集合长 度;同时,在二阶编码表示中,模型参数Θ扩展为了包括函数f()中使用的权重 矩阵W和偏置向量b。
步骤S6所述的整合一阶元图编码和二阶元图编码,具体包括如下步骤:
优化在给定每个核心节点以及给定每对核心节点的情况下预测包含子图的 总体概率;最小化以下总体损失:
L=(1-α)L1+αL2
式中α为取值范围在[0,1]之间的超参数;L1为一阶编码表示的损失函数输出;L2为二阶编码表示的损失函数输出;
首先,对算式和算式中的softmax函数应用负采样以加快计算速度;在所有元图M中,随机抽取K个作为负样本;然后, 对于二阶损失采用随机游走来 对所考虑的节点对进行采样:从每个核心节点开始,在HIN上执行η次游走, 使得每个随机游走遍历λ个核心节点;使用大小为ω的窗口进一步提取带有 skip-gram的节点对;采用上限|V|进行分析;
最后,采用随机梯度下降法训练模型,得到最终的图向量化表示。
本发明还提供了一种实现所述图向量化方法的装置,包括数据获取模块、 异构信息网络图获取模块、数据建模模块、一阶编码模块、二阶编码模块和整 合模块;获取模块用于获取数据集;异构信息网络图获取模块用于对数据集进 行建模,从而得到异构信息网络图;数据建模模块用于在得到的异构信息网络 图中,将元路径转换为元图,并枚举得到元图及元图子图实例的集合;一阶编 码模块用于对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节 点的偏好;二阶编码模块用于在二阶编码中,通过连接两个节点的图集,从而 对两个节点之间的交互进行建模;整合模块用于整合一阶元图编码和二阶元图编码,在给定每个核心节点以及每对核心节点的情况下,对预测得到的包含子 图的总体概率进行优化。
本发明还公开了一种包括了所述图向量化方法的电力网图向量化方法,包 括如下步骤:
(1)获取电力网数据集;
(2)将步骤(1)获取的电力网数据集作为目标数据集,采用上述的图向 量化方法,完成电力网的图向量化。
本发明提供的这种图向量化方法、装置及电力网图向量化方法,可以共同 学习元数据和节点的编码表示,图元通过将自己映射到与节点相同的嵌入空间 来积极参与学习过程,而且能够将节点映射到低维向量空间,该空间除了显式 的异构关系外,还保留了节点之间的潜在复合关系;此外,本发明可靠性更高, 实用性更好。
附图说明
图1为本发明的图向量化方法的方法流程示意图。
图2为本发明的图向量化方法的实体标注过程示意图。
图3为本发明的图向量化方法的异构信息网络构建示意图。
图4为本发明的图向量化方法的从元路径到元图的过程示意图。
图5为本发明的图向量化方法的元图和子图枚举示例图。
图6为本发明的图向量化方法的一阶和二阶元图编码示意图。
图7为本发明的装置的功能模块图。
具体实施方式
如图1所示为本发明的图向量化方法的方法流程示意图:本发明提供的这 种图向量化方法,包括如下步骤:
S1.获取数据集;
S2.对数据集进行建模,从而得到异构信息网络图;具体包括如下步骤:
网络图为定义域对象类型Γ的节点和来自关系R的边的有向图;异构信息 网络的元模板表示为g=(V,ε,Γ,R),其中V为图节点,ε为边;元路径为定义 在网络图上的连接两类对象的一条路径,并定义为其中Ti用于表示对象类型且Ti∈Γ,Ri表示关系类型且Ri∈R;定义表示对象类型之间 的复合关系R=R1οR2ο…οRl,其中ο为关系之间的复合算子;
首先,使用人工标注对文档进行实体标注(如图2所示),标注工具可以采 用YEDDA、Wikify、ATDI或BART;然后采用自然语言处理技术提取文本中 的实体和关系(可以采用现有的BiLSTM+CRF基准模型),然后根据所提取的 实体和关系构建异构信息网络图;
S3.在步骤S2得到的异构信息网络图中,将元路径转换为元图,并枚举得 到元图及元图子图实例的集合;
在上述步骤中,本方法构建了基本的异构信息网络HIN,但在此基础上需 要将元路径转化为元图;考虑图4所示的元路径;这两个用户之间的潜在关系 尚不清楚,可能是同事或同学;为了减少这种歧义,研究人员已经提出了可以 表达更细粒度语义的元图;例如,图4中的元图比元路径更能够以更高的置信 度捕获人物之间的关系;特别地,给定两个元路径,即‘用户-大学-用户’和‘用 户-领域-用户’,它们中的每一个都不能独立且完整地描述用户之间的关系;相 比之下,将两个元路径组合成元图能够很好地表达用户之间的关系,这意味着 元图显示出比其组成元路径更高的表达能力;实际上,元图可以看作是元路径 的非线性模型;
因此,本步骤具体包括如下步骤:
枚举异构信息网络上的元图,并得到元图集合M;然后对于元图集合M中 的每一个元图Mi,枚举每一个元图Mi的子图实例,并得到子图实例集合Si, 所有的子图实例集合Si组成子图实例集S;虽然子图实例描述了对象之间的交 互,但元图将它们总结为通用模式;例如,涉及节点u、v、p、q的四个子图可 以由两个元图M1和M2进行抽象化,其中S1中的子图由元图M1实例化,S2中的 子图由M2实例化;
该问题可以简化为众所周知的NP难子图同构;蛮力方法的时间复杂度为其中|V|是HIN g中的节点数,d是g的平均度数,|VM|是元图中 的节点数;尽管如此,通过各种修剪技术和特殊数据结构可以显着降低复杂性;
S4.对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节点的 偏好;具体包括如下步骤:
的一阶编码模型具体为通过利用与每个节点关联的元图集来学习各个节点 的偏好对上述处理好的元图进行一阶编码;
在若干子图中找到一个核心节点,从而以实例化元图表征节点倾向于参与 的潜在关系;
mi表示嵌入同一空间的元图且mi∈RD,v表示节点v的编码表示(向量) 且v∈RD;S(v)为包含节点v的子图集;例如,在图5中,有四个子图标记为① ②③④、S(u)={①③}、S(v)={①④}等。请注意,每个四个节点u、v、p、q 出现在元图M1的至少一个实例和M2的一个实例中。因此,M1和M2都表征了 每个节点的偏好。这进一步意味着它们的编码向量m1和m2将独自地约束节点u、 v、p、q的编码表示,如图5所示;
其中Si为Mi实例化的子图;每个子集{S(v)∩Si}均包含由公共元图Mi实例化的 子图;将由公共元图实例化的v的所有子图视为共享相同的底层分布,从而得到 以下结果:
其中|S(v)∩Si|为含核心节点v的子图S(v)与元图Mi实例化后的子图Si相交的数量;P(Mi|v;Θ)被如下softmax函数实现:
其中mi为元图Mi的编码表示,v为节点v的编码表示;
考虑所有核心节点,最小化以下负对数似然,以实现一阶元图嵌入:
步骤S5所述的二阶编码,具体为采用如下步骤构建二阶编码:
二阶编码模型具体为通过连接两个节点的图集直接对两个节点之间的交互 进行二阶编码;
一对核心节点能够共同出现在若干子图中,这些子图能够用不同的元图进 行表征,从而捕获两个节点之间的潜在关系;令S(u,v)表示同时包含节点u和v的 子图集;如图5中,S(u,v)={①}等。因此,如图6(b)所示,m1将约束f(u,v)和 f(p,q),m2将约束f(u,p)和f(v,q),给定一些向量值函数f来聚合两个节点 的表示;
目标为设计f:R2D→RD,将两个节点的聚合映射到与元图相同的空间, 从而包含两个节点的元图能够约束它们的表示;采用如下f的公式:
f(u,v)=ReLU([u||v]W+b),
其中u为核心节点u的向量,v为节点v的向量,||为连接算子,W∈R2D×D为权重 矩阵;b∈RD为偏置向量;ReLU()为激活函数;
对于一对核心节点u和v,采用自我监督的目标,通过最大化 P(S(u,v)|u,v;Θ)预测包含的子图S(u,v);还将有相同元图实例化的包含子图视为 共享相同的底层分布;
其中P(Mi|u,v;Θ)为元图Mi同时包含核心节点u和核心节点v的概率, P(Mi|u,v;Θ)采用softmax定义:
其中mi为元图Mi的编码表示;u为节点u的编码表示,v为节点v的编码表示, f()为映射函数;考虑所有核心节点对,最小化以下负对数似然函数以实现二阶 元图编码表示:
其中P(Mi|u,v;Θ)为元图Mi同时包含节点u和节点v的概率;{S(u,v)∩Si}表示 每个子集S(u,v)包含由公共元图Mi实例化的子图Si的集合;|S(u,v)∩Si|为集合长 度;同时,在二阶编码表示中,模型参数Θ扩展为了包括函数f()中使用的权重 矩阵W和偏置向量b;
S6.整合一阶元图编码和二阶元图编码,在给定每个核心节点以及每对核心 节点的情况下,对预测得到的包含子图的总体概率进行优化;具体包括如下步 骤:
优化在给定每个核心节点以及给定每对核心节点的情况下预测包含子图的 总体概率;最小化以下总体损失:
L=(1-α)L1+αL2
式中α为取值范围在[0,1]之间的超参数;L1为一阶编码表示的损失函数输出;L2为二阶编码表示的损失函数输出;
首先,对算式和算式中的softmax函数,采用负采样以加快计算速度;在所有元图M中,随机抽取K个作为负样本;然 后,对于二阶损失采用随机游 走来对所考虑的节点对进行采样:从每个核心节点开始,在HIN上执行η次游 走,使得每个随机游走遍历λ个核心节点;使用大小为ω的窗口进一步提取带 有skip-gram的节点对;采用上限|V|进行分析;
最后,采用随机梯度下降法训练模型,得到最终的图向量化表示。
以下结合一个具体实施例,对本发明方法进行进一步说明:
首先给出电力领域科技项目中一个简单的项目网络,该网络是基于某一科 技项目为核心的项目网络图,其中涉及到参与人、研究领域、所属研究机构、 职业,具体见图3。
首先定义一个基本的科技项目域schema,然后组织人员对科技项目域进行 人工标注,在人工标注的过程中,如图2所示,对文档内容进行了技术术语、 设备设施、机构实体标注,因为这是非结构化实体的抽取过程中的标注。对于 人员、领域等结构化实体直接对表文件进行处理即可。在此过程中,将遇到一 些新领域相关的实体,schema会得到更新。最后在schema构建完备后,开始利 用自然语言处理模型在初步讨论的schema基础上对科技项目文档进行提取实体 和关系,然后导入图数据库以形成初步的异构信息网络HIN。
对异构信息网络HIN构建从元路径到元图。如图4所示,比如有一条元路 径为‘人员-大学-人员’,仅从元路径上是无法分辨‘人员与人员’之间的关 系,因此本方法通过构建从元路径到元图的方式来精确辨别节点之间的关系。 以图4(c)所示,再添加一条元路径,其连接节点为‘职业’,通过‘职业’和 ‘大学’可以很好地辨别两个人之间是‘师生关系’还是‘同学关系’。最后, 如图5所示,对所有可构建元图的元路径进行枚举元图及其子图实例的集合。
对元图进行一阶编码,通过引导每个核心节点的嵌入来表达他们的个人偏 好。具体而言,可以在许多子图中找到一个核心节点,它们的实例化元图进一 步表征了节点倾向于参与的潜在关系。为了便于讨论,这里只考虑仅包含两个 核心节点的对称元图,如图5所示。令mi∈RD和vv∈RD分别表示嵌入同一空 间的元图Mi和节点v的嵌入。让S(v)表示包含节点v的子图集。例如,在图5中, 有四个子图标记为①②③④、S(u)={①③}、S(v)={①④}等。请注意,每个四 个节点u、v、p、q出现在元图M1的至少一个实例和M2的一个实例中。因此, M1和M2都表征了每个节点的偏好。这进一步意味着它们的编码向量m1和m3将 独自地约束节点u、v、p、q的编码表示,如图5所示;具体来说,对于核心节 点v,采用预测其包含子图S(v)的自监督目标。更正式地说,最大化P(S(v)|v;Θ), 其中Θ是由所有节点和元图编码组成的模型参数,即最后,考虑到所有核心节点,最小化以下负对数似 然以实现一阶元图嵌入。以图4(c)为例,的编码最终表示为 [0.23567,0.31428,0.25694,0.70611,…,0.64255,0.13712],维度为64维。
进一步通过引导每对核心节点的嵌入来表达它们的潜在关系,如图6(b) 所示。更具体地说,一对核心节点可以共同出现在许多子图中,这些子图可以 用不同的元图来表征,以捕获两个节点之间的潜在关系。让S(u,v)表示同时包含 节点u和v的子图集。如图5中,S(u,v)={①}等。因此,如图6(b)所示,m1将约 束f(u,v)和f(p,q),m3将约束f(u,p)和f(v,q),给定一些向量值函数f来聚 合两个节点的表示。的目标是设计f:R2D→RD将两个节点的聚合映射到与元 图相同的空间,这样包含两个节点的元图可以约束它们的表示。与一阶类似,对于一对核心节点u和v,采用自我监督的目标,即通过最大化P(S(u,v)|u,v;Θ) 来预测它们包含的子图S(u,v)。还将由相同元图实例化的包含子图视为共享相同 的底层分布。考虑到所有核心节点对,同样地最小化以下负对数似然函数以实 现二阶元图编码表示:以图4 (c)为例,的编码最终表示为 [0.34617,0.30987,0.28657,0.44563,…,0.50124,0.26863],维度为64维。 [0.23568,0.31424,0.25694,0.70611,…,0.64255,0.13712]
整合元图嵌入的两个顺序,优化了在给定每个核心节点以及给定每对核心 节点的情况下预测包含子图的总体概率。等效地,最小化以下总体损失: L=(1-α)L1+αL2。其中α∈[0,1]是一个超参数,用于控制两个订单之间的平 衡。采用两种常见的采样形式来有效地解决上述优化问题。在本方法中α=0.6。 因此,最终图4(c)的编码表示为: [0.279876,0.312492,0.268792,0.60192,…,0.586026,0.189724],维度为64维。
为了具体展示本发明的有效性和可行性,我们进行了如下实验,具体实验 过程如下:
1、数据集介绍。实验采用两个公共数据集和一个私有数据集进行了广泛的 实验,即LinkedIn、AS和ETD。
LinkedIn:数据集可以组织成具有四种类型(用户、雇主、位置、大学)节 点的异构信息网络图。用户节点可以连接到其他类型(包括自己)的节点,用 户在LinkedIn上标记了他们与朋友的主要关系,包括学校、工作和其他关系。
AS:用于在Internet上互连自治系统(Autonomous Systems,AS)的异构信 息网络图数据集。在该图中,每个节点代表一个AS,每条边代表两个AS之间 的交互。存在三种类型的节点:顶部、中部、底部AS节点。
ETD:电力领域科技文档数据集(Electricity-related Technical Documents,ETD),在该数据集中,以项目(文档)为中心实体,如LinkedIn中 的用户,其余还有人员、研究领域、机构、职业类型实体。
数据集的相关信息在下面表1中进行了总结。
表1三个数据集的统计信息
2、实验设置
为了广泛评估学习表示的性能,我们进行了两个个关系挖掘任务,包括关 系预测、搜索。
预测:具体来说,标记对被分成50%的训练和50%的测试,这样的分裂重 复10次。对于所有方法,我们使用两个节点嵌入的串联作为每个节点对的最终 特征向量,并训练了一个SVM分类器。SVM的超参数是在训练数据上使用五 重交叉验证选择的,在C∈{0.01,1,100}和γ∈{0.0001,0.001,0.01}上进行网格搜 索。
搜索。我们进行基于排名的关系搜索,其中查询节点与目标关系的正面和 负面候选者相关联。我们分别考虑了LinkedIn、AS和ETD上的目标关系Work、Peer和Advisor。正候选项通过目标关系与查询相关,负候选项由通过其他关系 与查询相关的节点组成。我们将所有查询拆分为50%的训练和50%的测试,并 重复这样的拆分10次。对于所有方法,我们采用了一种学习排序模型,并在前 10个结果中根据NDCG、MAP和MRR对10个测试集的性能进行平均。
本发明将提出的(Graph Vectorization learning relationship viaMetagraph Embedding)me2vec模型与以下最先进的基线进行比较,这些基线属于四大类:(i)基于同构网络方法的DeepWalk;(ii)图神经网络或知识图模型的TransR; (iii)非基于元图的HIN方法的hin2vec;(iv)基于元图的HIN方法的 metagraph2vec。
DeepWalk:一种开创性的基于齐次图随机游走采样的跳跃图模型。
TransR:一种知识图嵌入方法,主要设计用于保留显式的主谓宾三元组,而 不是潜在的复合关系。
hin2vec:一种HIH嵌入方法,该方法基于达到给定大小的元路径对随机游 走进行采样,并将它们输入到神经网络中。
metagraph2vec:一种HIN嵌入方法和metapath2vec的变体,它使用元图来 采样随机游走。
对于本发明中所提出的me2vec,为了对节点对进行采样,我们对每个节点 进行了10次随机游走,游走长度为100,窗口大小为5。我们进一步将其负采 样大小设置为10,嵌入大小设置为128。为了实现第一次和第二次之间的平衡 为了,我们将α设置为0.5。对于基线,为了确保它们得到很好的调整,我们对 每个基线的主要超参数进行了网格搜索。在大多数情况下,每个基准模型参数 与现有文献一致。
3、实验结果分析
表2各模型的关系预测结果对比
在表2中,我们总结各模型间的关系预测结果。总之,本发明所提出的 me2vec始终优于所有具有统计显着性的基线。我们在下面讨论进一步的观察。 首先,me2vec优于同类网络嵌入算法DeepWalk。这些基线将所有节点和边视为 一种统一类型,因此无法在HIN上捕获和区分丰富的语义。请注意,在LinkedIn 上,与其他HIN嵌入方法(例如metapath2vec)相比,DeepWalk的表现出奇地 好。这一观察结果可以归因于LinkedIn的一个特殊特征——作为一个专业网络, 每个用户都更多地与来自同一大学或雇主的朋友建立联系。这意味着,如果用 户当前在学校(或工作),它会与其大多数直接邻居形成学校(或工作)关系。 具体来说,在我们的基本事实中,67.7%或三分之二以上的用户具有非常偏态的 邻居分布,以至于他们80%以上的邻居属于单一关系。这特别有利于DeepWalk, 因为它从每个用户开始采样随机游走,保证与其直接邻居形成节点对。即使不 考虑异质性,由直接邻居形成的这些节点对中的大多数已经属于同一关系。因 此,将为这些节点对学习类似的嵌入,这使得下游任务更容易。另一方面,虽 然metapath2vec也应用随机游走,但它被迫遵循跳过直接邻居对的元路径。尽 管如此,我们的方法me2vec在LinkedIn上仍然表现最好,显示了它的稳健性和 通用性。其次,me2vec也优于知识图模型TransR。TransR最初是针对由显式主谓宾三元组组成的知识图提出的,这可能不适用于捕获HIN上的潜在复合关系。 因此,它们的性能通常是次优的。第三,与专门为HIN嵌入设计的基线相比, me2vec仍然具有优势。其中hin2vec不使用元图,结果证明对于更复杂的关系 是不够的。更重要的是,me2vec也优于其他基于元图的方法metagraph2vec。虽 然metagraph2vec通常比它的表亲metapath2vec获得更好的性能,但它仍然远远 落后于me2vec,因为它只在预计算步骤中使用元图来采样随机游走。
表3各模型间的关系搜索对比
我们进行基于排名的关系搜索,其中查询节点与目标关系的正面和负面候 选者相关联。我们分别考虑了LinkedIn、AS和ETD上的目标关系Work、Peer 和Advisor。正候选项通过目标关系与查询相关,负候选项由通过其他关系与查 询相关的节点组成。我们将所有查询拆分为50%的训练和50%的测试,并重复 这样的拆分10次。对于所有方法,我们采用了一种学习排序模型,并在前10 个结果中根据NDCG、MAP和MRR对10个测试集的性能进行平均。我们在表 3中对比了关系搜索结果。总体观察结果类似于关系预测,me2vec始终优于所有基线。更具体地说,由于在关系预测中讨论的相同原因,本发明所提出的 me2vec在所有的关系类别中都优于基线。
如图7所示为本发明的装置的功能模块图:本发明还提供了一种实现所述 图向量化方法的装置,包括数据获取模块、异构信息网络图获取模块、数据建 模模块、一阶编码模块、二阶编码模块和整合模块;获取模块用于获取数据集; 异构信息网络图获取模块用于对数据集进行建模,从而得到异构信息网络图; 数据建模模块用于在得到的异构信息网络图中,将元路径转换为元图,并枚举 得到元图及元图子图实例的集合;一阶编码模块用于对元图进行一阶编码,并 利用与每个节点关联的元图集学习各个节点的偏好;二阶编码模块用于在二阶 编码中,通过连接两个节点的图集,从而对两个节点之间的交互进行建模;整 合模块用于整合一阶元图编码和二阶元图编码,在给定每个核心节点以及每对 核心节点的情况下,对预测得到的包含子图的总体概率进行优化。
Claims (8)
1.一种图向量化方法,包括如下步骤:
S1.获取数据集;
S2.对数据集进行建模,从而得到异构信息网络图;
S3.在步骤S2得到的异构信息网络图中,将元路径转换为元图,并枚举得到元图及元图子图实例的集合;
S4.对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节点的偏好;
S5.在二阶编码中,通过连接两个节点的图集,从而对两个节点之间的交互进行建模;
S6.整合一阶元图编码和二阶元图编码,在给定每个核心节点以及每对核心节点的情况下,对预测得到的包含子图的总体概率进行优化。
3.根据权利要求2所述的图向量化方法,其特征在于步骤S3所述的枚举得到元图及元图子图实例的集合,具体包括如下步骤:
枚举异构信息网络上的元图,并得到元图集合M;然后对于元图集合M中的每一个元图Mi,枚举每一个元图Mi的子图实例,并得到子图实例集合Si,所有的子图实例集合Si组成子图实例集S。
4.根据权利要求3所述的图向量化方法,其特征在于步骤S4所述的对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节点的偏好,具体包括如下步骤:
在若干子图中找到一个核心节点,从而以实例化元图表征节点倾向于参与的潜在关系;
mi表示嵌入同一空间的元图且mi∈RD,v表示节点v的编码表示(向量)且v∈RD;S(v)为包含节点v的子图集;对于核心节点v,采用预测其包含子图S(v)的自监督目标;最大化P(S(v)|v;Θ),其中Θ为由所有节点和元图编码组成的模型参数,且将S(v)分解为若干个不相交的子集:
其中Si为Mi实例化的子图;每个子集{S(v)∩Si}均包含由公共元图Mi实例化的子图;将由公共元图实例化的v的所有子图视为共享相同的底层分布,从而得到以下结果:
其中|S(v)∩Si|为含核心节点v的子图S(v)与元图Mi实例化后的子图Si相交的数量;P(Mi|v;Θ)被如下softmax函数实现:
其中mi为元图Mi的编码表示,v为节点v的编码表示;
考虑所有核心节点,最小化以下负对数似然,以实现一阶元图嵌入:
5.根据权利要求4所述的图向量化方法,其特征在于步骤S5所述的二阶编码,具体为采用如下步骤构建二阶编码:
一对核心节点能够共同出现在若干子图中,这些子图能够用不同的元图进行表征,从而捕获两个节点之间的潜在关系;令S(u,v)表示同时包含节点u和v的子图集;目标为设计f:R2D→RD,将两个节点的聚合映射到与元图相同的空间,从而包含两个节点的元图能够约束它们的表示;采用如下f的公式:
f(u,v)=ReLU([u||v]W+b),
其中u为核心节点u的向量,v为节点v的向量,||为连接算子,W∈R2D×D为权重矩阵;b∈RD为偏置向量;ReLU()为激活函数;
对于一对核心节点u和v,采用自我监督的目标,通过最大化P(S(u,v)|u,v;Θ)预测包含的子图S(u,v);还将有相同元图实例化的包含子图视为共享相同的底层分布;
其中P(Mi|u,v;Θ)为元图Mi同时包含核心节点u和核心节点v的概率,P(Mi|u,v;Θ)采用softmax定义:
其中mi为元图Mi的编码表示;u为节点u的编码表示,v为节点v的编码表示,f()为映射函数;考虑所有核心节点对,最小化以下负对数似然函数以实现二阶元图编码表示:
其中P(Mi|u,v;Θ)为元图Mi同时包含节点u和节点v的概率;{S(u,v)∩Si}表示每个子集S(u,v)包含由公共元图Mi实例化的子图Si的集合;|S(u,v)∩Si|为集合长度;同时,在二阶编码表示中,模型参数Θ扩展为了包括函数f()中使用的权重矩阵W和偏置向量b。
6.根据权利要求5所述的图向量化方法,其特征在于步骤S6所述的整合一阶元图编码和二阶元图编码,具体包括如下步骤:
优化在给定每个核心节点以及给定每对核心节点的情况下预测包含子图的总体概率;最小化以下总体损失:
L=(1-α)L1+αL2
式中α为取值范围在[0,1]之间的超参数;L1为一阶编码表示的损失函数输出;L2为二阶编码表示的损失函数输出;
首先,对算式和算式中的softmax函数,采用负采样以加快计算速度;在所有元图M中,随机抽取K个作为负样本;然后,对于二阶损失采用随机游走来对所考虑的节点对进行采样:从每个核心节点开始,在HIN上执行η次游走,使得每个随机游走遍历λ个核心节点;使用大小为ω的窗口进一步提取带有skip-gram的节点对;采用上限|V|进行分析;
最后,采用随机梯度下降法训练模型,得到最终的图向量化表示。
7.一种实现权利要求1~6之一所述的图向量化方法的装置,其特征在于包括数据获取模块、异构信息网络图获取模块、数据建模模块、一阶编码模块、二阶编码模块和整合模块;获取模块用于获取数据集;异构信息网络图获取模块用于对数据集进行建模,从而得到异构信息网络图;数据建模模块用于在得到的异构信息网络图中,将元路径转换为元图,并枚举得到元图及元图子图实例的集合;一阶编码模块用于对元图进行一阶编码,并利用与每个节点关联的元图集学习各个节点的偏好;二阶编码模块用于在二阶编码中,通过连接两个节点的图集,从而对两个节点之间的交互进行建模;整合模块用于整合一阶元图编码和二阶元图编码,在给定每个核心节点以及每对核心节点的情况下,对预测得到的包含子图的总体概率进行优化。
8.一种包括了权利要求1~6之一所述的图向量化方法的电力网图向量化方法,包括如下步骤:
(1)获取电力网数据集;
(2)将步骤(1)获取的电力网数据集作为目标数据集,采用权利要求1~6之一所述的图向量化方法,完成电力网的图向量化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755180.4A CN113553396A (zh) | 2021-07-05 | 2021-07-05 | 图向量化方法、装置及电力网图向量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755180.4A CN113553396A (zh) | 2021-07-05 | 2021-07-05 | 图向量化方法、装置及电力网图向量化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553396A true CN113553396A (zh) | 2021-10-26 |
Family
ID=78102648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110755180.4A Pending CN113553396A (zh) | 2021-07-05 | 2021-07-05 | 图向量化方法、装置及电力网图向量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553396A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115061836A (zh) * | 2022-08-16 | 2022-09-16 | 浙江大学滨海产业技术研究院 | 一种接口层面的基于图嵌入算法的微服务拆分方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
-
2021
- 2021-07-05 CN CN202110755180.4A patent/CN113553396A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
Non-Patent Citations (2)
Title |
---|
WENTAO ZHANG ET AL.: "mg2vec: Learning Relationship-Preserving Heterogeneous Graph Representations via Metagraph Embedding" * |
刘云枫 等: "异构信息网络推荐研究进展" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115061836A (zh) * | 2022-08-16 | 2022-09-16 | 浙江大学滨海产业技术研究院 | 一种接口层面的基于图嵌入算法的微服务拆分方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104318340B (zh) | 基于文本履历信息的信息可视化方法及智能可视分析系统 | |
CN113627463A (zh) | 基于多视图对比学习的引文网络图表示学习系统及方法 | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
Diallo et al. | Auto-attention mechanism for multi-view deep embedding clustering | |
CN107368521A (zh) | 一种基于大数据和深度学习的知识推介方法及系统 | |
CN110647632A (zh) | 基于机器学习的图像与文本映射技术 | |
Jin et al. | Deepwalk-aware graph convolutional networks | |
CN114048354A (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
Souravlas et al. | Probabilistic community detection in social networks | |
Banait et al. | An efficient clustering technique for big data mining | |
Luo et al. | Exploring destination image through online reviews: an augmented mining model using latent Dirichlet allocation combined with probabilistic hesitant fuzzy algorithm | |
Isenberg et al. | Toward a deeper understanding of visualization through keyword analysis | |
Prasomphan | Toward Fine-grained Image Retrieval with Adaptive Deep Learning for Cultural Heritage Image. | |
CN113553396A (zh) | 图向量化方法、装置及电力网图向量化方法 | |
Dinh et al. | A proposal of deep learning model for classifying user interests on social networks | |
CN116109960A (zh) | 基于预训练模型的视频文本检索方法 | |
Huda et al. | Aspect-based sentiment analysis in tourism industry for tourism recommender system | |
CN112667919A (zh) | 一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法 | |
CN112905906A (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
Ignatov et al. | Fca-based models and a prototype data analysis system for crowdsourcing platforms | |
CN116702784A (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
Hua et al. | Star-based learning correlation clustering | |
Fuller et al. | Structuring, recording, and analyzing historical networks in the china biographical database | |
Wang et al. | An early warning method for abnormal behavior of college students based on multimodal fusion and improved decision tree | |
Dhatterwal et al. | Multi-Agent System Based Data Mining Technique for Supplier Selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211026 |