CN111091005B - 一种基于元结构的无监督异质网络表示学习方法 - Google Patents

一种基于元结构的无监督异质网络表示学习方法 Download PDF

Info

Publication number
CN111091005B
CN111091005B CN201911327882.1A CN201911327882A CN111091005B CN 111091005 B CN111091005 B CN 111091005B CN 201911327882 A CN201911327882 A CN 201911327882A CN 111091005 B CN111091005 B CN 111091005B
Authority
CN
China
Prior art keywords
node
meta
subgraph
event
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911327882.1A
Other languages
English (en)
Other versions
CN111091005A (zh
Inventor
冯春燕
楚云霏
郭彩丽
贺同泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911327882.1A priority Critical patent/CN111091005B/zh
Publication of CN111091005A publication Critical patent/CN111091005A/zh
Application granted granted Critical
Publication of CN111091005B publication Critical patent/CN111091005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元结构的无监督异质网络表示学习方法,属于人工智能领域。首先给出事件数据的定义,并构建针对事件数据的异质网络模型;采用元结构来描述事件数据中基于事件的关联关系类型,并基于给定的元结构进行邻居节点采样;提出基于元结构邻近度的网络表示学习模型,以捕捉单视角下基于事件语义的关联关系;提出融合多视角关联关系的网络表示学习模型,以捕捉多视角下基于事件语义的关联关系;最后用随机梯度下降法进行训练,得到各节点的特征向量表示。本发明提出用元结构描述复杂的事件语义关系,设计网络表示学习模型解决了事件数据缺乏标签、异质、关联多视角的挑战,提供了低复杂度的训练算法。

Description

一种基于元结构的无监督异质网络表示学习方法
技术领域
本发明属于人工智能领域,涉及网络表示学习,具体是一种基于元结构的无监督异质网络表示学习方法,该方法可以捕捉异质网络节点间的事件语义。
背景技术
互联网的普及以及社交媒体的井喷式发展,促使大量实体产生相互关联关系,组成了网络。独立同分布的假设在这种网络数据不再成立,使得传统的机器学习方法不再适用。
网络表示学习将相互关联的实体节点投射到低维稠密向量空间并保证尽可能多的蕴含原网络的信息,自动学习到网络中节点的特征表示,使得现成的机器学习算法可以直接运用于所学的节点表示上以实现节点分类、聚类、链接预测、数据可视化等数据挖掘任务,成为了人工智能领域面向网络数据挖掘的一种极具潜力的技术,受到学术界和工业界广泛关注。
在真实世界中,实体往往通过参与事件而产生关联,产生大量事件数据。相比于同类型的简单关联关系,如人与人之间的好友关系、文档中词语间的共现关系、互联网中页面的超链接关系等,事件数据中的关联关系更加复杂,具有以下四种特性。首先参与事件的实体往往为不同类型的,即这种关联关系为异质的,现成异质网络;其次,这种关联关系能反映出基于事件的语义信息;最后,实体参与的事件类型多样,形成了多视角的关联关系。除此之外,现实情况下,实体往往缺乏标签信息作为监督。
这些特性使得现有的网络表示学习方法难以适用。现有的网络表示学习方法按是否考虑节点类型可以分为同质网络表示学习和异质网络表示学习。同质网络表示学习方法忽略了节点的类型信息,同等对待不同类型的节点,导致语义信息捕捉不足。为解决这一问题,异质网络表示学习方法陆续提出,他们大多利用元路径结构,即由节点类型组成的序列结构来捕捉节点间关联的语义。然而复杂语义关系通常为子图结构,难以用路径结构捕捉,因此此类基于元路径的异质网络表示学习方法在捕捉复杂事件语义上受限。因此本发明研究一种可捕捉复杂事件关联关系的无监督异质网络表示学习方法以解决上述问题。
发明内容
本发明为了解决上述问题,提供了一种基于元结构的无监督异质网络表示学习方法,通过捕捉事件数据中的实体节点之间语义关系以解决缺乏标签信息的问题,将事件数据中的异质实体节点用异质网络描述以解决异质问题,提出采用元结构来捕捉节点间交互的事件语义,并采用联合训练的方式以整合多视角的关联关系。
具体步骤包括:
步骤一、构建针对事件数据的异质网络模型;
首先,将事件数据定义为实体通过参与事件产生的数据,用事件的集合ε={e}表示,其中e表示事件,ε表示事件集合;每个事件e都有自己的事件类型
Figure GDA0003150600120000021
,且描述了参与其中的实体节点的关联关系,定义为e={Ve,Re},其中Ve为节点集合,Re为关系集合。
然后,给定事件数据ε,构建异质网络Gε={V,E}来建模节点间关联,其中V=∪e∈εVe表示节点集合,R=∪e∈εRe表示关系集合。节点和关系有各自的类型映射函数
Figure GDA0003150600120000022
Figure GDA0003150600120000023
以指明节点和关系的类型。
步骤二、基于元结构的邻居节点采样;
给定建模后的异质网络Gε={V,E}以及对应的节点类型集合
Figure GDA0003150600120000024
和关系类型集合
Figure GDA0003150600120000025
,本发明采用元结构来描述事件数据中基于事件的关联关系类型。形式化地,元结构被定义为类型层面上的子图
Figure GDA0003150600120000026
,其中
Figure GDA0003150600120000027
Figure GDA0003150600120000028
分别表示子图的节点集合和关系集合。
给定某个元结构
Figure GDA0003150600120000029
,通过匹配符合元结构的子图实例来实现邻居节点采样,具体步骤如下:
步骤201、将给定的元结构
Figure GDA00031506001200000210
分解为多个元结构子图,记为{Ml},其中Ml为第l个元结构子图,分解后使得复杂的元结构可表示成多个简单的元结构子图连结的序列,即
Figure GDA00031506001200000211
,其中
Figure GDA00031506001200000212
为子图连结操作,L为元结构子图总个数;
步骤202、为分解后的各个元结构子图Ml找到所有匹配的实例子图
Figure GDA00031506001200000213
,其中
Figure GDA00031506001200000214
表示元结构子图Ml的实例集合;
步骤203、从各个元结构子图的实例子图中分别采样,连结起来得到最终属于元结构
Figure GDA00031506001200000215
的实例
Figure GDA00031506001200000216
及相应节点集合VS;给定某个节点v,得到基于元结构的邻居节点集合Ns(v)=Vs\{v},
Figure GDA0003150600120000031
步骤三、基于元结构邻近度的网络表示学习模型;
给定节点v,其表示向量表示为z,为学习捕捉事件语义的节点表示向量,用某节点预测其邻居节点,则目标函数为可写作
Figure GDA0003150600120000032
经推导得到如下的目标函数:
Figure GDA0003150600120000033
其中zv、zc和zu分别为节点v、节点c和节点u的表示。
步骤四、融合多视角关联关系的网络表示学习模型;
每个元结构表示一种视角下的关联关系,给定不同的元结构
Figure GDA0003150600120000034
k=1,...,K,其中参数K为元结构的总个数,采样他们各自的邻居节点集合,通过如下的目标函数实现多视角关联关系的融合:
Figure GDA0003150600120000035
步骤五、考虑到训练计算复杂度,对上述模型做近似改写,并用随机梯度下降法进行训练,得到各节点的向量表示;
改写后的模型为:
Figure GDA0003150600120000036
Pn为采样负样本的概率分布;
Figure GDA0003150600120000037
为sigmoid函数;
Figure GDA0003150600120000038
为负样本节点un的表示。
本发明的优点在于:
(1)一种基于元结构的无监督异质网络表示学习方法,将不同类型的相互关联的实体映射到统一的特征向量空间中,使得现成的机器学习算法可以运用于学习得到的节点向量上,方便实现各种数据挖掘任务;
(2)一种基于元结构的无监督异质网络表示学习方法,针对事件数据的关联复杂性,创新的引入元结构,设计了基于元结构的邻居采样算法,使得邻居间关系更能反映事件语义关系;
(3)一种基于元结构的无监督异质网络表示学习方法,创新的设计了基于元结构邻近度的网络表示学习模型,并在其基础上设计融合多视角关联关系的网络表示学习模型,使得所学节点向量得以捕捉多视角的事件语义关系;
(4)一种基于元结构的无监督异质网络表示学习方法,提供了低复杂度的近似模型以及相应的训练算法。
附图说明
图1为本发明针对事件数据构建的异质网络模型示意图;
图2为本发明提出的元结构示意图与传统元路径示意图;
图3为本发明提出的基于元结构的无监督异质网络表示学习方法的流程图;
图4为本发明提出的基于元结构的邻居节点采样示意图。
具体实施方式
为了使本发明能够更加清楚地理解其技术原理,下面结合附图具体、详细地阐述本发明实施例。
一种基于元结构的无监督异质网络表示学习方法(MGNE,Meta-Graph basedHeterogeneous Information Network Embedding)应用于描述实体之间相互关联关系的网络数据,将不同类型的实体投射到统一特征空间中,得到能捕捉事件语义的节点表示向量;首先本发明给出事件数据的定义,并针对事件数据构建异质网络模型;然后本发明采用元结构来描述事件数据中基于事件的关联关系类型,并设计基于元结构的邻居节点采样算法;根据邻居节点采样结果,设计基于元结构邻近度的网络表示学习模型,以学习捕捉事件语义的节点表示向量;为解决事件数据中多视角的关联关系捕捉问题,本发明设计融合多视角关联关系的网络表示学习模型;最后提供了低复杂度的近似模型以及相应的训练算法。
如图3所示,整体包括异质网络模型构建、基于元结构的邻居节点采样、基于元结构邻近度的网络表示学习模型、融合多视角关联关系的网络表示学习模型及模型训练五个步骤;其中基于元结构的邻居节点采样包括元结构分解、元结构子图匹配及实例采样三个步骤。
具体步骤如下:
步骤一、构建针对事件数据的异质网络模型;
相对于单一类型的相互关联关系,如人与人之间的好友关系、文档中词语间的共现关系、互联网中页面的超链接关系等,事件数据中实体的相互关联关系更为复杂。以描述论文发表的事件数据为例,示意图如图1所示,该事件数据涉及到四种实体及关系,描述了两类事件;
将事件数据定义为实体通过参与事件产生的数据,用事件的集合ε={e}表示。事件e属于某个事件类型,记为
Figure GDA0003150600120000051
,其中函数τ(×)为事件类型映射函数,
Figure GDA0003150600120000052
表示事件类型的集合。事件e描述了参与其中的实体节点的关联关系,定义为e={Ve,Re},其中Ve为参与事件e的节点集合,Re为事件e包含的关系集合;
给定事件数据ε,构建异质网络Gε={V,E}来建模节点间关联,其中V=∪e∈εVe表示节点集合,R=∪e∈εRe表示关系集合,其中∪符号表示并集操作。节点和关系有各自的类型映射函数,即节点类型映射函数
Figure GDA0003150600120000053
和关系映射函数
Figure GDA0003150600120000054
,它们分别指明节点和关系所属的类型,其中
Figure GDA0003150600120000055
为节点类型的集合,
Figure GDA0003150600120000056
为关系类型的集合。
步骤二、基于元结构的邻居节点采样;
给定建模后的异质网络Gε={V,E},本发明采用元结构来描述事件数据中基于事件的关联关系类型。如图2所示,不同于元路径用节点类型序列来描述节点间的关联关系语义,元结构用子图来描述多个节点间更复杂的关联关系语义。形式化地,元结构被定义为类型层面上的子图
Figure GDA0003150600120000057
,其中
Figure GDA0003150600120000058
Figure GDA0003150600120000059
分别表示子图的节点集合和关系集合。
如图4所示,基于元结构的邻居节点采样方法包含元结构分解、元结构子图匹配及实例采样三个步骤,具体步骤如下:
步骤201、元结构分解;
将给定的元结构
Figure GDA00031506001200000510
分解为多个元结构子图,记为{Ml},其中Ml为第l个元结构子图,分解后使得复杂的元结构可表示成多个简单的元结构子图连结的序列,即
Figure GDA00031506001200000511
,其中
Figure GDA00031506001200000512
为子图连结操作,L为元结构子图总个数;
步骤202、元结构子图匹配;
为分解后的各个元结构子图Ml找到所有匹配的实例子图
Figure GDA00031506001200000513
,其中
Figure GDA00031506001200000514
表示元结构子图Ml的实例集合;该步骤可采用任何常用的子图匹配算法,本发明采用了一种高效的元结构图匹配算法SubMatch工具。
步骤203、实例采样;
首先从根据元结构定义起始节点类型,如图4所示的示例中,
Figure GDA00031506001200000611
的起始节点类型为作者A;
从类型为起始节点类型的节点集合中,采样一个节点作为起始节点nstart,采样概率为
Figure GDA0003150600120000061
其中|×|为取集合元素个数的运算,
Figure GDA0003150600120000062
为起始节点类型的节点集合;如图4示例中,节点类型为作者A的节点个数为3,因此采样节点a1的概率为
Figure GDA0003150600120000063
给定起始节点nstart和即将采样的元结构子图M1,本发明采用随机均匀采样,则采样到子图实例S的概率为
Figure GDA0003150600120000064
其中
Figure GDA0003150600120000065
表示起始节点nstart的符合元结构子图M1的邻居子图;如图4示例中,由于起始节点a1的符合元结构子图M1的邻居子图有S1,1和S1,2,其中Si,j代表符合第i个元结构子图的第j个实例子图,因此给定起始节点a1和元结构子图M1采样出S1,1的概率为
Figure GDA0003150600120000066
取采样得到的元结构子图的终止节点,作为当下元结构子图与下个即将采样的元结构子图的连结节点,如图4示例中的p1和p2
给定第l个连结节点nl和即将采样的元结构子图Ml,本发明采用随机均匀采样,则采样到子图实例S的概率为
Figure GDA0003150600120000067
其中
Figure GDA0003150600120000068
表示连结节点nl的符合元结构子图Ml的邻居子图;如图4示例中,给定连结节点p1和元结构子图M2采样出S2,2的概率为
Figure GDA0003150600120000069
给定连结节点p2和元结构子图M3采样出S3,2的概率为Pr(S3,2|p2,M3)=1;
最后实例采样的概率用如下公式计算:
Figure GDA00031506001200000610
其中L为分解的元结构子图个数,第一个连结节点n1定义为起始节点nstart
将采样的各个元结构子图实例用连结节点连结起来得到最终属于元结构
Figure GDA0003150600120000075
的实例
Figure GDA0003150600120000076
及相应节点集合VS
给定某个节点v,得到基于元结构的邻居节点集合Ns(v)=Vs\{v},
Figure GDA00031506001200000717
其中
Figure GDA0003150600120000077
表示元结构子图
Figure GDA0003150600120000078
的实例集合,NS(v)表示节点v在子图S下的邻居节点集合,\为取集合差集操作。
步骤三、基于元结构邻近度的网络表示学习模型;
首先本发明提出基于元结构的邻近度:给定元结构
Figure GDA0003150600120000079
及异质网络中两个节点(vi,vj),如果存在包含这两个节点的元结构
Figure GDA00031506001200000710
的实例,那么它们存在基于元结构
Figure GDA00031506001200000711
的邻近度,否则它们基于元结构
Figure GDA00031506001200000712
的邻近度为0;
为捕捉基于元结构的邻近度,设计一个给定元结构
Figure GDA00031506001200000713
预测该元结构下邻居节点的目标函数:
Figure GDA0003150600120000071
其中
Figure GDA00031506001200000714
表示元结构子图
Figure GDA00031506001200000715
的实例集合,NS(v)表示节点v在子图S下的邻居节点集合,P(NS(v)|v;z)表示给定节点v及其表示z预测其邻居节点集合NS(v)的条件概率,其计算方式如下:
Figure GDA0003150600120000072
P(c|v;z)为预测邻居节点c的条件概率,用如下softmax函数计算:
Figure GDA0003150600120000073
其中zv、zc和zu分别为节点v、节点c和节点u的表示;
经推导得到如下的目标函数:
Figure GDA0003150600120000074
该模型学习反映单视角关联关系的网络表示。
步骤四、融合多视角关联关系的网络表示学习模型;
每个元结构表示一种视角下的关联关系,给定不同的元结构
Figure GDA00031506001200000716
,k=1,...,K,其中参数K为元结构的总个数,采样他们各自的邻居节点集合,通过如下的目标函数实现多视角关联关系的融合:
Figure GDA0003150600120000081
步骤五、模型训练;
上述模型中的
Figure GDA0003150600120000082
计算复杂度过高,本发明采用负采样方法对上述模型做近似改写;对于每一对节点-邻居样本对(v,c),采样N个负样本对(v,un),其中un为节点v对应的负样本节点,改写后的模型为:
Figure GDA0003150600120000083
Pn为采样负样本的概率分布;
Figure GDA0003150600120000084
为sigmoid函数;
Figure GDA00031506001200000811
为负样本节点un的表示。
采用随机梯度下降法对模型进行训练;
训练步骤如下所示:
(1)从给定的元结构集合
Figure GDA0003150600120000085
中随机均匀采样一个元结构
Figure GDA0003150600120000086
(2)按照上述基于元结构的邻居节点采样,采样出一个属于元结构
Figure GDA0003150600120000087
的实例子图S;
(3)随机初始化所有节点的表示向量zv,v∈V;
(4)对于子图S的节点集合VS,选取任意一对节点(v,c);
(5)更新zc,即zc←zc+α(1-s(zv Tzc))zv,α为学习率;
(6)从概率分布Pn中随机采样负样本节点un,更新
Figure GDA0003150600120000088
Figure GDA0003150600120000089
α为学习率;重复N次;
(7)更新zv,即
Figure GDA00031506001200000810
α为学习率;N为负样本个数;
(8)返回步骤(4),直至VS内节点对遍历完毕;
(9)返回步骤(1),直至达到预设迭代次数;
(10)返回所有节点的表示向量zv,v∈V。
综上所述,通过实施本发明一种基于元结构的无监督异质网络表示方法,通过捕捉事件数据中的实体节点之间语义关系以解决缺乏标签信息的问题,将事件数据中的异质实体节点用异质网络描述以解决异质问题,提出采用元结构来捕捉节点间交互的事件语义,并采用联合训练的方式以整合多视角的关联关系;相比于同质网络表示学习方法,本发明设计的方法,可以将不同类型的节点映射到统一的特征向量空间中,使得现成的机器学习算法可以直接运用,并且本发明方法无需利用标签信息,属于无监督的方法;相比于其他基于元路径的异质网络表示学习方法,本发明所设计的方法可以更好的捕捉复杂的事件语义关联关系。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (1)

1.一种基于元结构的无监督异质网络表示学习方法,具体步骤包括:
步骤一、构建针对事件数据的异质网络模型;
将事件数据定义为实体通过参与事件产生的数据,用事件的集合ε={e}表示,其中e表示事件,ε表示事件集合;
事件e属于某个事件类型,记为
Figure FDA0003539844610000011
其中函数τ(·)为事件类型映射函数,
Figure FDA0003539844610000012
表示事件类型的集合,具体事件类型为作者发表了包含某关键词的论文和两个作者发表在相同场所的论文有引用关系两类;
事件e描述了参与其中的实体节点的关联关系,定义为e={Ve,Re},其中Ve为参与事件e的节点集合,Re为事件e包含的关系集合,具体节点类型为关键词、论文、作者和场所四类,关联类型为包含、著作、引用和发表于四类;
给定事件数据ε,构建异质网络Gε={V,E}来建模节点间关联,其中V=∪e∈εVe表示节点集合,R=∪e∈εRe表示关系集合,其中∪符号表示并集操作,节点和关系有各自的类型映射函数,即节点类型映射函数
Figure FDA0003539844610000013
和关系映射函数ψ:
Figure FDA0003539844610000014
它们分别指明节点和关系所属的类型,其中
Figure FDA0003539844610000015
为节点类型的集合,
Figure FDA0003539844610000016
为关系类型的集合;
步骤二、基于元结构的邻居节点采样;
给定建模后的异质网络Gε={V,E},所述方法采用元结构来描述事件数据中基于事件的关联关系类型;
元结构被定义为类型层面上的子图
Figure FDA0003539844610000017
其中
Figure FDA0003539844610000018
Figure FDA0003539844610000019
分别表示子图的节点集合和关系集合;
基于元结构的邻居节点采样方法包含元结构分解、元结构子图匹配及实例采样三个步骤,具体步骤如下:
步骤201、将给定的元结构
Figure FDA00035398446100000110
分解为多个元结构子图,记为{Ml},其中Ml为第l个元结构子图,分解后使得复杂的元结构可表示成多个简单的元结构子图连结的序列,即
Figure FDA00035398446100000111
其中。为子图连结操作,L为元结构子图总个数;
步骤202、为分解后的各个元结构子图Ml找到所有匹配的实例子图
Figure FDA00035398446100000112
其中
Figure FDA00035398446100000113
表示元结构子图Ml的实例集合;该步骤可采用任何常用的子图匹配算法,所述方法采用了一种高效的元结构图匹配算法SubMatch工具;
步骤203、根据元结构定义起始节点类型;
从类型为起始节点类型的节点集合中,采样一个节点作为起始节点nstart,采样概率为
Figure FDA0003539844610000021
其中|·|为取集合元素个数的运算,
Figure FDA0003539844610000022
为起始节点类型的节点集合;
给定起始节点nstart和即将采样的元结构子图M1,所述方法采用随机均匀采样,则采样到子图实例S的概率为
Figure FDA0003539844610000023
其中
Figure FDA00035398446100000215
表示起始节点nstart的符合元结构子图M1的邻居子图;
取采样得到的元结构子图的终止节点,作为当下元结构子图与下个即将采样的元结构子图的连结节点;
给定第l个连结节点nl和即将采样的元结构子图Ml,所述方法采用随机均匀采样,则采样到子图实例S的概率为
Figure FDA0003539844610000024
其中
Figure FDA00035398446100000214
表示连结节点nl的符合元结构子图Ml的邻居子图;
实例采样的概率用如下公式计算:
Figure FDA0003539844610000025
其中L为分解的元结构子图个数,第一个连结节点n1定义为起始节点nstart
将采样的各个元结构子图实例用连结节点连结起来得到最终属于元结构
Figure FDA0003539844610000026
的实例
Figure FDA0003539844610000027
及相应节点集合VS
给定某个节点v,得到基于元结构的邻居节点集合NS(v)=VS\{v},
Figure FDA0003539844610000028
其中
Figure FDA0003539844610000029
表示元结构子图
Figure FDA00035398446100000216
的实例集合,NS(v)表示节点v在子图S下的邻居节点集合,\为取集合差集操作;
步骤三、基于元结构邻近度的网络表示学习模型;
提出基于元结构的邻近度:给定元结构
Figure FDA00035398446100000211
及异质网络中一组节点对(vi,vj),如果存在包含这两个节点的元结构
Figure FDA00035398446100000212
的实例,那么它们存在基于元结构
Figure FDA00035398446100000213
的邻近度,否则它们基于元结构
Figure FDA0003539844610000031
的邻近度为O;
为捕捉基于元结构的邻近度,设计一个给定元结构
Figure FDA0003539844610000032
预测该元结构下邻居节点的目标函数:
Figure FDA0003539844610000033
其中
Figure FDA0003539844610000034
表示元结构子图
Figure FDA0003539844610000035
的实例集合,NS(v)表示节点v在子图S下的邻居节点集合;P(NS(v)|v;z)表示给定节点v及其表示z预测其邻居节点集合NS(v)的条件概率,其计算方式如下:
Figure FDA0003539844610000036
P(c|v;z)为预测邻居节点c的条件概率,用如下softmax函数计算:
Figure FDA0003539844610000037
其中zv、zc和zu分别为节点v、节点c和节点u的表示;
反映单视角关联关系的网络表示学习模型的目标函数为:
Figure FDA0003539844610000038
步骤四、融合多视角关联关系的网络表示学习模型;
每个元结构表示一种视角下的关联关系,给定不同的元结构
Figure FDA0003539844610000039
k=1,...,K,其中参数K为融合多视角关联关系的网络表示学习模型的元结构的总个数,采样他们各自的邻居节点集合,通过如下的目标函数实现多视角关联关系的融合:
Figure FDA00035398446100000310
步骤五、所述方法采用负采样方法对上述模型做近似改写,对于每一对节点-邻居样本对(v,c),采样N个负样本对(v,un),其中un为节点v对应的负样本节点,改写后的模型为:
Figure FDA00035398446100000311
Pn为采样负样本的概率分布;
Figure FDA00035398446100000312
为sigmoid函数;
Figure FDA00035398446100000313
为负样本节点un的表示;
采用随机梯度下降法对模型进行训练,训练步骤如下所示:
(1)从给定的元结构集合
Figure FDA0003539844610000041
中随机均匀采样一个元结构
Figure FDA0003539844610000042
(2)按照上述基于元结构的邻居节点采样,采样出一个属于元结构
Figure FDA0003539844610000047
的实例子图S;
(3)随机初始化所有节点的表示向量zv,v∈V;
(4)对于子图S的节点集合VS,选取任意一对节点(v,c);
(5)更新zc,即
Figure FDA0003539844610000043
α为学习率;
(6)从概率分布Pn中随机采样负样本节点un,更新
Figure FDA0003539844610000044
Figure FDA0003539844610000045
α为学习率;重复N次;
(7)更新zv,即
Figure FDA0003539844610000046
α为学习率;N为负样本个数;
(8)返回步骤(4),直至VS内节点对遍历完毕;
(9)返回步骤(1),直至达到预设迭代次数;
(10)返回所有节点的表示向量zv,v∈V。
CN201911327882.1A 2019-12-20 2019-12-20 一种基于元结构的无监督异质网络表示学习方法 Active CN111091005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911327882.1A CN111091005B (zh) 2019-12-20 2019-12-20 一种基于元结构的无监督异质网络表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911327882.1A CN111091005B (zh) 2019-12-20 2019-12-20 一种基于元结构的无监督异质网络表示学习方法

Publications (2)

Publication Number Publication Date
CN111091005A CN111091005A (zh) 2020-05-01
CN111091005B true CN111091005B (zh) 2022-05-13

Family

ID=70395256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911327882.1A Active CN111091005B (zh) 2019-12-20 2019-12-20 一种基于元结构的无监督异质网络表示学习方法

Country Status (1)

Country Link
CN (1) CN111091005B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507210A (zh) * 2020-11-18 2021-03-16 天津大学 一种属性网络上事件检测的交互式可视化方法
CN113536383B (zh) * 2021-01-27 2023-10-27 支付宝(杭州)信息技术有限公司 基于隐私保护训练图神经网络的方法及装置
CN115062210A (zh) * 2022-07-08 2022-09-16 天津大学 一种融合社团结构的异质网络表示学习方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682050A (zh) * 2011-11-14 2012-09-19 吉林大学 复杂网络多元结构模式表征与发现方法
CN110020214A (zh) * 2019-04-08 2019-07-16 北京航空航天大学 一种融合知识的社交网络流式事件检测系统
CN110083696A (zh) * 2019-04-23 2019-08-02 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统
KR20190091858A (ko) * 2018-01-29 2019-08-07 주식회사 유엑스팩토리 Cnn과 rnn이 하나의 고성능 저전력 칩으로 집적된 이기종 프로세서 구조
CN110555050A (zh) * 2018-03-30 2019-12-10 华东师范大学 一种基于元路径的异构网络节点表示学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537342A (zh) * 2018-03-05 2018-09-14 浙江大学 一种基于邻居信息的网络表示学习方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682050A (zh) * 2011-11-14 2012-09-19 吉林大学 复杂网络多元结构模式表征与发现方法
KR20190091858A (ko) * 2018-01-29 2019-08-07 주식회사 유엑스팩토리 Cnn과 rnn이 하나의 고성능 저전력 칩으로 집적된 이기종 프로세서 구조
CN110555050A (zh) * 2018-03-30 2019-12-10 华东师范大学 一种基于元路径的异构网络节点表示学习方法
CN110020214A (zh) * 2019-04-08 2019-07-16 北京航空航天大学 一种融合知识的社交网络流式事件检测系统
CN110083696A (zh) * 2019-04-23 2019-08-02 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
metapath2vec: Scalable Representation Learning for Heterogeneous Networks;Yuxiao Dong 等;《KDD 2017 Research Paper》;20170817;第135-144页 *
曹建平.面向文本的多属性异质网络聚类技术研究.《中国博士学位论文全文数据库 信息科技辑》.2019, *

Also Published As

Publication number Publication date
CN111091005A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
Dakiche et al. Tracking community evolution in social networks: A survey
CN111091005B (zh) 一种基于元结构的无监督异质网络表示学习方法
CN110084296B (zh) 一种基于特定语义的图表示学习框架及其多标签分类方法
US10360503B2 (en) System and method for ontology derivation
Heidari et al. Ontology creation model based on attention mechanism for a specific business domain
Mansinghka et al. Structured priors for structure learning
Parisi Contagious architecture: Computation, aesthetics, and space
Zhao et al. Image parsing with stochastic scene grammar
CN108229578B (zh) 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
Ozer et al. Activity detection in scientific visualization
CN112256981A (zh) 一种基于线性和非线性传播的谣言检测方法
CN115827908A (zh) 用于交互式图像场景图模式搜索和分析的系统和方法
CN110264372A (zh) 一种基于节点表示的主题社团发现方法
Thomas et al. Graph neural networks designed for different graph types: A survey
Joho et al. Nonparametric bayesian models for unsupervised scene analysis and reconstruction
CN112784118A (zh) 一种对三角形结构敏感的图中的社区发现方法和装置
Gul et al. A systematic analysis of link prediction in complex network
Shi et al. Heterogeneous Graph Representation Learning and Applications
Yin et al. Two-stage Text-to-BIMQL semantic parsing for building information model extraction using graph neural networks
del Campo et al. Imaginary plans
Nguyen et al. Path-tracing semantic networks to interpret changes in semantic 3D city models
Haav An application of inductive concept analysis to construction of domain-specific ontologies
Feng et al. Link prediction based on orbit counting and graph auto-encoder
Zhang et al. Motif-Driven Contrastive Learning of Graph Representations
Liu et al. Multi-relational graph convolutional networks for skeleton-based action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant