CN108536844B

CN108536844B - 一种文本增强的网络表示学习方法

Info

Publication number: CN108536844B
Application number: CN201810336473.7A
Authority: CN
Inventors: 杨博; 杨爽
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2021-09-03
Anticipated expiration: 2038-04-13
Also published as: CN108536844A

Abstract

本发明公开了一种文本增强的网络表示学习方法，涉及复杂网络分析技术，基于非负矩阵分解的框架提出了一个新的由文本信息增强的网络表示学习方法，对于网络结构，本文结合了节点之间的一阶和二阶相似性，然后通过分解相似度矩阵得到网络表示；对于与节点相关的文本聚类结构，本文将文本‑词项矩阵进行分解得到文本聚类隶属度矩阵，然后利用该矩阵在网络表示和文本聚类结构之间建立了一致性关系，从而网络表示学习由网络结构和与节点相关的文本聚类结构共同控制，该方法既刻画了网络结构又刻画了与节点相关的文本聚类结构，为网络表示学习增加了除网络结构之外的额外信息，从而使学习到的节点表示包含更多的有用信息，具有更高的可辨识性。

Description

一种文本增强的网络表示学习方法

技术领域

本发明涉及复杂网络分析技术领域，尤其涉及一种文本增强的网络表示学习方法。

背景技术

在现实世界中，网络无处不在，例如知名社交网络推特和学术论文引文网络DBLP等，由于网络的普遍性和重要性，网络分析受到了越来越多的关注。多种网络分析任务被广泛研究，例如节点分类、连接预测和社区发现。但是，这些任务通常面临着邻接矩阵这一传统网络表示所带来的稀疏性问题。为了解决这个问题，近几年，旨在为网络中的每个节点学习低维连续的向量表示的网络表示学习方法引起了广大学者的研究兴趣。网络表示学习旨在为网络中的每个节点学习一个低维连续的向量表示，这在许多应用方面都很有用。目前绝大多数的网络表示学习方法都只关注于网络结构信息，而通常与网络结构紧密相关的节点文本信息却被忽略了。低维连续的节点表示向量可以直接作为网络分析任务的输入，因此这些任务能够在一个连续的向量空间内被执行，从而避免了网络稀疏性所带来的问题。

网络表示学习的一个基本要求是保证所学的节点表示能够保留并刻画出原始的网络结构和其固有属性。为了满足这一要求，一些网络表示方法旨在刻画节点之间的一阶相似性，例如谱聚类通过计算规范化的Laplace矩阵的前d个特征向量来得到d维的节点向量表示；也有提出保留节点之间二阶相似性的思想，还有进一步提出刻画节点之间的k阶相似性。

目前绝大多数的网络表示学习方法都仅仅考虑了网络的链接信息，而在真实世界中，网络除了具有节点之间的链接信息，网络中的节点自身通常也包含一些信息，比如文本信息或图像信息。据观察，节点文本信息通常与网络结构紧密相关。例如，在引文网络中，有相似文本内容的论文之间往往存在较强的引用关系；在微博上，用户之间的关注关系一般取决于他们所发表的微博内容。尽管节点的文本信息与网络结构是紧密相关的，但在已有的网络表示学习方法中将节点文本信息纳入考虑的相关工作却很少。

发明内容

针对上述缺陷或不足，本发明的目的在于提供一种文本增强的网络表示学习方法。

为达到以上目的，本发明的技术方案为：

一种文本增强的网络表示学习方法，包括：

1)、建立基于网络拓扑结构的无向图，所述无向图包括多个节点的集合、多条边的集合、以及和节点相关的文本信息集合；

2)、根据网络拓扑结构的无向图，对每对节点之间进行多阶相似性建模，得到最终的相似度矩阵，对相似度矩阵进行非负矩阵分解，得到第一目标函数，构建网络结构模型；

3)、根据网络节点的文本信息，将网络节点的文本信息表示为文档-词项矩阵，基于非负矩阵分解的文本聚类方法，将文本-词项矩阵分解成两个非负的矩阵，得到第二目标函数，构建文本信息模型；

4)、根据文本簇的表示矩阵，获取第三目标函数，并根据第三目标函数将网络结构模型和文本信息模型统一在完整框架下，得到最终的节点表示矩阵，以使得节点表示包含有用信息。

所述步骤1)包括：

设G＝(V,E,T)表示无向图，其中V表示n个节点的集合，E表示e条边的集合，T表示和节点相关的文本信息集合。

所述步骤2包括对每对节点之间进行一阶和二阶相似性建模，具体包括以下步骤：

2.1、一阶相似性建模：

给定邻接矩阵A，对于任意一对节点，如果该对节点之间存在一条边A_ij>0，则该对节点之间的一阶相似度大于零，否则为零；其中，i，j分别表示节点编号；

2.2、定义X_i ⁽¹⁾＝(A_i，1，...，A_i，n)表示节点i的一阶相似度向量，X_j ⁽¹⁾＝(A_j，1，...，A_j，n)表示节点j的一阶相似度向量；使用

和X_j ⁽¹⁾的余弦相似度作为节点i和节点j的二阶相似度，所述二阶相似度的取值范围为0到1；

2.3、获取相似度矩阵为X＝X⁽¹⁾+5*X⁽²⁾；

2.4、对相似度矩阵X进行非负矩阵分解，生成两个非负的矩阵

和

其中，M表示基矩阵，U表示系数矩阵，矩阵U的第i行为节点i的向量表示，(d≤n)为节点表示向量的维度；为了近似相似度矩阵X，得到第一目标函数：

所述步骤3)包括：

3.1、将网络节点的文本信息表示为

文档-词项矩阵，其中，n表示网络中节点的个数，即文本的个数，m表示词项的个数；

3.2、将文本-词项矩阵

分解成两个非负的矩阵

和

得到第二目标函数为：

其中，矩阵Q中的元素Q_ij表示节点i隶属于文本簇j的程度，矩阵V中的元素V_ij表示词项i与簇j相关的程度。

所述步骤4)包括：

4.1、根据文本簇的表示矩阵

获取中间目标函数：

其中，矩阵C的第z行是第z个簇的表示向量，它的维度为d，和节点表示向量的维度相同；

4.2、通过中间目标函数(3)，在由公式(1)表示的网络结构模型和由公式(2)表示的文本模型之间建立连接，获取第三目标函数：

其中，α是一个大于零的参数，用来调整文本信息对学习节点表示的贡献，β是一个大于零的参数，通过辅助的文本簇表示矩阵C，节点表示矩阵U被投影到文本聚类隶属度矩阵Q的空间中，从而在二者之间建立了一致性关系。

所述4.2后还包括对第三目标函数进行优化，具体包括对：

A、采用乘性迭代规则更新M，并保持其它参数V，C不变：

B、采用乘性迭代规则更新V，并保持其它参数M，C不变：

C、采用乘性迭代规则更新C，并保持其它参数M，V不变：

D、更新U并保持其余参数不变:

E、更新Q并保持其余参数不变：

由于

公式(9)被重写为：

用Φ＝[Φ_ij]表示针对约束Q≥0的拉格朗日乘子矩阵，对应的拉格朗日乘数函数写为：

将L′(Q)关于Q的偏导数设置为零：

通过引入Karush-Kuhn-Tucker(KKT)条件Φ_ijQ_ij＝0，得到更新规则：

与现有技术比较，本发明的有益效果为：

本发明提供了一种文本增强的网络表示学习方法，基于非负矩阵分解的框架提出了一个新的由文本信息增强的网络表示学习方法(TENE)，对于网络结构，本文结合了节点之间的一阶和二阶相似性，然后通过分解相似度矩阵得到网络表示；对于与节点相关的文本聚类结构，本文将文本-词项矩阵进行分解得到文本聚类隶属度矩阵，然后利用该矩阵在网络表示和文本聚类结构之间建立了一致性关系，从而网络表示学习由网络结构和与节点相关的文本聚类结构共同控制，该方法既刻画了网络结构又刻画了与节点相关的文本聚类结构，为网络表示学习增加了除网络结构之外的额外信息，从而使学习到的节点表示包含更多的有用信息，具有更高的可辨识性。

附图说明

图1是本发明文本增强的网络表示学习方法的控制流程框图。

具体实施方式

下面将结合附图对本发明做详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明公开了一种文本增强的网络表示学习方法，包括：

设G＝(V,E,T)表示无向图，其中V表示n个节点的集合，E表示e条边的集合，T表示和节点相关的文本信息集合。网络表示的目标是为网络中的每个节点学习一个低维、连续的

向量表示，其中(d≤n)是向量的维度。本发明提出一种基于非负矩阵分解可集成网络结构和节点文本信息的网络表示方法。

2.1、一阶相似性建模：

一阶相似度描述了两个节点之间局部的相似性。给定邻接矩阵A，对于任意一对节点，如果它们之间存在一条能观察到的边，即A_ij＞0，那么它们之间的一阶相似度大于零，否则为零。

由于通常在真实网络中，直接相连的节点之间往往存在一些相似性，所以刻画节点之间的一阶相似度具有重要意义。例如，在维基百科中，如果一个网页链接到另一个网页，那么这两个网页的内容通常包含相同的主题。使用邻接矩阵A作为网络结构的最直接表示，以此来刻画一阶相似性。然而，真实网络通常是很稀疏的。许多相似的节点之间并不存在直接相连的边。也就是说，即使两个节点之间的一阶相似度为零，它们仍然可以是相似的。因此，只考虑节点之间的一阶相似度是不充分的。直观上，共享许多相同邻居的节点之间往往也存在许多相似性，引出了如下所示的二阶相似性：

2.3、获取相似度矩阵为X＝X⁽¹⁾+5*X⁽²⁾；需要注意的是，除了一阶和二阶之外，模型还可以刻画更高阶的相似度，例如三阶和四阶。本文在算法运行速度和正确率之间进行了权衡，确定了最终的相似度矩阵X。

2.4、对相似度矩阵X进行非负矩阵分解，生成两个非负的矩阵

和

对于所有节点都包含文本信息的网络而言，其中的每个节点都可以被看作是一个文本。

表示相应的文档-词项矩阵，其中n表示网络中节点的个数，即文本的个数，m表示词项的个数。矩阵T中的每个元素由词频-逆文档频率机制决定的。假设由节点文本信息组成的文本语料库包含k个簇，那么借鉴文献基于非负矩阵分解的文本聚类思想，将文本-词项矩阵

分解成两个非负的矩阵

和

从而产生了如下的目标函数。

所述步骤3)包括：

3.1、将网络节点的文本信息表示为

3.2、将文本-词项矩阵

分解成两个非负的矩阵

和

得到第二目标函数为：

其中，矩阵Q中的元素Q_ij表示节点i隶属于文本簇j的程度，矩阵V中的元素V_ij表示词项i与簇j相关的程度。从而，对于所有节点，得到了一个文本聚类隶属度矩阵Q。如果节点i只隶属于簇z，那么Q_iz的值将远远大于矩阵Q的第i个行向量中的其它元素。如果节点i隶属于簇z的可能性很低，那么Q_iz的值将接近为零。

所述步骤4)包括：

4.1、根据文本簇的表示矩阵

获取中间目标函数：

辅助的非负矩阵

它被定义为文本簇的表示矩阵。矩阵C的第z行是第z个簇的表示向量，它的维度为d，和节点表示向量的维度相同。如果节点i隶属于簇z，那么节点i的嵌入表示应该和簇z的嵌入表示很相似。节点i隶属于簇z的可能性越高，节点i与簇z的表示向量应该越相似。采用向量內积的方式来衡量这两个表示向量之间的相似性，从而它们之间的相似性可以被定义为U_iC_z。

按照这种方式，当这两个表示向量大体上是正交的时候，这意味着这两个向量完全不同，从而节点i隶属于簇z的可能性几乎为零。正如在文本信息建模部分所提及的那样，文本聚类隶属度矩阵Q指示了每个节点隶属于每个簇的程度。自然而然，希望UC^T的结果能与聚类隶属度矩阵Q尽可能一致。为了最小化UC^T和矩阵Q之间的差异，得到中间目标函数。

其中，α是一个大于零的参数，用来调整文本信息对学习节点表示的贡献，β是一个大于零的参数，通过辅助的文本簇表示矩阵C，节点表示矩阵U被投影到文本聚类隶属度矩阵Q的空间中，从而在二者之间建立了一致性关系。因此，节点表示的学习过程是在相似度矩阵X和文本聚类隶属度矩阵Q的共同指导下进行的。通过将网络结构和文本聚类结构统一集成到网络表示的学习过程中，得到了最终的节点表示矩阵U。通过使用节点的文本信息，为网络表示学习增加了除网络结构之外的额外信息，从而使学习到的节点表示包含更多的有用信息，具有更高的可辨识性。

所述4.2后还包括对第三目标函数进行优化，具体包括对：

A、采用乘性迭代规则更新M，并保持其它参数V，C不变：

B、采用乘性迭代规则更新V，并保持其它参数M，C不变：

C、采用乘性迭代规则更新C，并保持其它参数M，V不变：

D、更新U并保持其余参数不变:

E、更新Q并保持其余参数不变：

由于

公式(9)被重写为：

将L′(Q)关于Q的偏导数设置为零：

通过引入Karush-Kuhn-Tucker(KKT)条件Φ_ijQ_ij＝0，得到更新规则：

上面所列的所有更新规则都有正确性的保证，而且都可以被证明是收敛的。

TENE的运行时间主要花费在执行如上所示的更新规则中的矩阵乘法运算。具体来说，公式(5)、(6)、(7)、(8)、(13)的时间复杂度分别为O(n²d)，O(nmk)，O(knd)，O(n²d+nkd+nd²)和O(nmk+ndk)。由于通常d，k＜m，n，所以总体的时间复杂度为O(nmk+n²d)。

对于本领域技术人员而言，显然能了解到上述具体事实例只是本发明的优选方案，因此本领域的技术人员对本发明中的某些部分所可能做出的改进、变动，体现的仍是本发明的原理，实现的仍是本发明的目的，均属于本发明所保护的范围。