CN108053035A

CN108053035A - 基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法

Info

Publication number: CN108053035A
Application number: CN201810004964.1A
Authority: CN
Inventors: 王朝坤; 叶晓俊; 王铮; 王彬彬
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-01-03
Filing date: 2018-01-03
Publication date: 2018-05-18

Abstract

本发明公开一种基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，包括：获取社交网络数据，网络中存在已标注的节点和未知类别的节点；对网络结构信息进行建模；对网络类内相似性进行建模；对网络类间差异性进行建模；构造网络表示学习的目标函数；根据优化问题求解算法求得目标函数的解，得到学习到的特征结果。本发明通过允许相同标签的节点处于特征空间中的同一个流形上来放宽类内相似性，通过移除不同标签节点之间的已有近邻关系来放宽类间差异性，该方法在一定合理范围内保证这两种要求，同时避免得到偏倚的结果，该方法适用于完全非平衡标注数据、平衡标注数据的半监督网络表示学习，适用于标注信息质量无法保证的场景。

Description

基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法。

背景技术

在社交网络分析的问题中，网络表示学习是一个非常重要的问题。其目标是为网络中每个节点学习一个稠密、连续和低维的向量作为其特征表示。现有工作已经证明，学习到的特征对于各种重要的社交网络数据挖掘任务都有所帮助，比如信息传播、节点分类、链路预测和网络可视化等。

网络表示学习的一个最基本要求是在所学习特征空间中体现原有的网络结构。早期的一些研究工作，主要保持原来存在链接关系的节点在特征空间中的相似性，现在，更多的研究工作集中于：在特征空间内，保证原有网络结构中未观测到，但存在合理近邻关系的节点之间的相似性。为了利用网络结构中的标注信息，近些年来半监督网络表示学习引起了研究者的广泛关注，基本思想是同时优化一个利用网络结构信息的网络结构嵌入模型和一个利用标注信息的分类模型。由于同时考虑到了网络的结构信息和标注信息，学到的特征一般具有很强的辨别性，也往往能达到当下最好的效果。

现有的半监督网络表示学习的工作大多数都假设标注数据是平衡的，即网络中的每一种类别都至少提供一个已标注的节点。对于完全非平衡的场景，即部分类别完全没有任何已标注的节点，已有的半监督学习方法通常表现不好。而这一场景在实际应用中常常出现，例如，著名的文本网络站点维基百科包含非常多种类的词条页面，比如电影、文学、历史等等，我们很难对该站点上所有主题都提供一些标注样本。

因此，现有技术需要改进。

发明内容

本发明实施例所要解决的技术问题是提供一种基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，以解决现有技术存在的问题。

为了解决上述问题，本发明公开了一种基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，包括：

获取社交网络数据，网络中存在已标注的节点和未知类别的节点；

对网络结构信息进行建模；

对网络类内相似性进行建模；

对网络类间差异性进行建模；

构造网络表示学习的目标函数；

根据优化问题求解算法求得目标函数的解，得到学习到的特征结果。

在上述基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法的另一个实施例中，所述社交网络表示为：

是大小为n的节点集合，节点间的边集为是节点种类的集合，网络中存在的已标注的节点类别，构成集合在标注数据平衡的情况下，在完全非平衡的情况下，

在上述基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法的另一个实施例中，所述对网络结构信息进行建模包括：

将随机游走的节点序列记为一组路径ω＝{υ₁,...,υ_|ω|}，υ_i表示一个节点，所有路径构成路径集合Ω；

路径ω＝{υ₁,...,υ_|ω|}的概率Pr(υ_j|υ_i)为：

式中：u_i代表学习得到的节点υ_i的特征，点乘为两个向量的内积；

目标为最大化如下似然概率：

对特定的矩阵M进行矩阵分解，矩阵M的每个元素为：

式中，A为概率转移矩阵，e_i则是一个n维向量，该向量第i个元素为1，其他元素均为0，此时，M_ij表示的是从节点i在t步之内走到节点j的平均概率的对数；

特征表示矩阵上下文表示矩阵通过求解以下矩阵分解问题得到U和H：

其中λ是防止过拟合的正则化项的参数。

在上述基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法的另一个实施例中，所述对网络类内相似性进行建模包括：

对于每个带标签的节点，和k(k＜＜n)个相同标签的节点接近，使得相同标签的节点位于同一流形上，放宽类内相似性的要求；

对于一个标注节点i，称所选择的k个相同标签的节点为i的类内邻居，用S∈{0,1}^n×n表示节点间的类内邻居关系，当节点j是节点i的类内邻居时，S_ij＝1，否则，S_ij＝0；

通过解决以下最优化问题求得S：

式中：为已标注节点集合，s_i∈R^1×n为一个向量，其第j个元素是S_ij，即S_i'是矩阵S的一个行向量，1表示一个所有元素为1的列向量，和分别是节点i和j的标签信息。

在上述基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法的另一个实施例中，所述对网络类间差异性进行建模包括：

定义邻接矩阵W，当节点i和节点j都为已标注的节点，并且两者的标签不同，则W_ij＝0，否则W_ij＝M_ij，形式化表示如下：

基于矩阵W，定义损失函数如下：

在上述基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法的另一个实施例中，所述构造网络表示学习的目标函数如下：

为网络结构模型，为网络类内相似性模型，为网络类间差异性模型。

在上述基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法的另一个实施例中，所述根据优化问题求解算法求得目标函数的解的算法流程如下：

初始化U、H以及S；

按照来更新U；

按照来更新H；

如果节点j是当前特征空间中前k个与节点i最近邻且标签相同的节点，则S_ij＝1，否则S_ij＝0；

改变学习速率η；

如果目标函数收敛或者达到迭代次数上限，则结束；否则返回；

最终学习得到网络的特征矩阵U。

与现有技术相比，本发明包括以下优点：

本发明通过一种近似的方式来保证特征空间中的类内相似性与类间差异性，通过允许相同标签的节点处于特征空间中的同一个流形上来放宽类内相似性，通过移除不同标签节点之间的已有近邻关系来放宽类间差异性，该方法在一定合理范围内保证这两种要求，同时避免得到偏倚的结果，该方法适用于完全非平衡标注数据、平衡标注数据的半监督网络表示学习，适用于标注信息质量无法保证的场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法的一个实施例的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明的基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法的一个实施例的流程图，如图1所示，所述基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法包括：

10，获取社交网络数据，网络中存在已标注的节点和未知类别的节点；

所述社交网络表示为：

是大小为n的节点集合，节点间的边集为是节点种类的集合，网络中存在的已标注的节点类别，构成集合即中的元素是那些已经被观测到的类别，半监督网络表示学习的目标是为每一个节点i学习得到一个特征向量使得网络结构中相近的节点以及拥有相同标签的节点在特征空间中比较接近；在标注数据平衡的情况下，在完全非平衡的情况下，

20，对网络结构信息进行建模；所述对网络结构信息进行建模包括：

DeepWalk是当下一种非常有效的无监督网络表示学习方法，该算法学习得到的特征可以很好地反映原始网络的结构特征。具体来说，DeepWalk的核心思想是：通过将随机游走的节点序列作为句子，使用深度学习语言模型Skip-Gram来进行求解节点的特征。

路径ω＝{υ₁,...,υ_|ω|}的概率Pr(υ_j|υ_i)为：

目标为最大化如下似然概率：

对特定的矩阵M进行矩阵分解，矩阵M的每个元素为：

其中λ是防止过拟合的正则化项的参数。

30，对网络类内相似性进行建模；

当标签的信息是完全非平衡的，所有的已标注节点都来自观测到的类。直观上来说，应当保证类内相似性，即相同标签的节点在特征空间内需要尽可能地接近，为了满足这一要求，传统的半监督网络表示学习方法都会引入不同的分类器模型来减少类内节点的差异。

然而在完全非平衡标签下，这样做很难有好的效果，为避免这个问题，通过允许相同标签的节点位于相同的流形上，即仅在局部保证欧氏距离性质的一种拓扑空间，来放宽类内相似性这一要求，虽然具体的流形未知，但其可以由一个稀疏邻接图来近似，即在特征空间内，每个带标签的节点仅需和k(k＜＜n)个相同标签的节点比较接近即可。

通过解决以下最优化问题求得S：

40，对网络类间差异性进行建模；

在具体的实施例中，尽管在上一部分考虑了类内相似性，仍然需要考虑类间差异性，即在特征空间中不同类别的节点之间的距离应该尽可能大；

基于矩阵W，定义损失函数如下：

50，构造网络表示学习的目标函数；

根据网络结构信息、类内相似性和类间差异性的建模，得到最终的网络表示学习模型RSNDE(Relaxed Similarity and Dissimilarity Network Embedding)，其目标函数如下：

这一模型分为三个部分，以期在最终学习到的网络向量表示中，可以保持如下三个性质：相同标签的节点在特征空间中可以在一个流形上尽量接近、不同标签的节点在特征空间中尽量远离、在原网络中相近的节点在新的特征空间中同样接近。

60，根据优化问题求解算法求得目标函数的解，得到学习到的特征结果。

所述优化问题求解算法求得目标函数的解的算法流程如下：

初始化U、H以及S；

按照

按照来更新H；

改变学习速率η；

最终学习得到网络的特征矩阵U。

算法的具体实施方式如下：

一个轻量级的RSDNE算法：对于每个已标注的节点i，在RSDNE中寻求其最优的k个类内邻居需要考虑所有与i具有相同标签的节点，当已标注的节点的数目很多的时候，这样做效率非常低，因此，需要提出一个轻量级的版本，称为RSDNE*。该轻量级算法的基本思想是：对于每个已经标注的节点i，我们预先随机选择m(k＜m＜＜n)个相同标签的节点去组成i的类内邻居待选集合基于这个想法，此轻量级算法RSDNE*实际上是解决如下优化问题：

RSDNE的目标函数公式8是一个典型的带0/1约束的二次规划问题，因为传统优化工具常常难以解决这类问题，一个高效的优化算法，具体来说，是采用交替迭代优化的策略。

固定H和S，更新U；当S是固定的时候，公式5可以被写作Tr(U'L_sU)，其中L_s＝D_s-(S+S')/2，D_s是一个第i个对角线元素为∑_j(S_ij+S_ji)/2的对角矩阵，同样的，公式7可以被写作Tr(U'L_wU)，其中L_w＝D_w-(W+W')/2，D_w是一个第i个对角元素为∑_j(W_ij+W_ji)/2的对角矩阵，基于以上分析，当H和S固定时，原始优化目标(公式8)则成为：

对变量U求导，得到：

固定U和S，更新H；当U和S都被固定时，原始优化目标(公式8)则成为：

对变量H的导数为：

固定U和H，更新S；当U和H都被固定，原始优化目标(公式8)则变为：

因为优化目标公式14相对于不同的i相互独立，对于每个标注节点i，可以分别求解以下优化问题：

目标公式15的最优解是：

其中集合包含了当前特征空间里的top-k个与i最近邻且标签相同的节点。

RSDNE的完整优化算法如下：

算法1：RSDNE

输入：矩阵M(矩阵形式的DeepWalk)，标签信息，学习速率η，参数α和λ；

输出：学习到的网络特征矩阵U；

1：初始化U、H以及S；

2：repeat

3：按照来更新U；

4：按照来更新H；

5：通过解决优化目标(公式14)来更新S；

6：按照一些规则改变学习速率η；

7：until目标函数收敛或者达到迭代次数上限；

8：return U。

RSDNE*的优化方法和RSDNE的优化方法(算法1)几乎完全一样，唯一的区别是：当固定U和H更新S时，对于每个已标注的节点i，我们只需对其类内邻居候选集合内的节点排序从而得到其top-k最近邻且相同标签的节点，从而得到S的最优解。

算法分析：

定理：优化目标式(15)的最优解为公式(16)。

证明：依据反证法证明。假设一个已标注的节点i已经获得其最优的k个类内邻居的集合但是存在一个节点却不是i的top-k近邻且相同标注的节点。这样的话，肯定存在另外一个节点是i的top-k近邻且相同标注的节点之一。基于此，可以得到将以上的不等式带入最优化问题(即公式15)，可以得到：

这意味着集合相对于是一个更优的解，这与假设相矛盾，所以定理得证。

时间复杂度分析：更新U的时间复杂度是O(nnz(M)d+d²n+nnz(L)d)，其中nnz(·)代表一个矩阵的非零元素的数目。更新H的时间复杂度是O(nnz(M)d+d²n)，更新S的时间复杂度是其中是每个类平均的标注节点数目，r是标注比例，因为l与n呈线性比例，nnz(L)与nnz(M)呈线性比例，算法RSDNE的时间复杂度是O(τ(nnz(M)d+d²n))，其中τ是迭代次数，因为该方法普遍收敛的很快，所以RSDNE*的复杂度与nnz(M)和n呈线性关系。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本发明所提供的一种基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的实现及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，其特征在于，包括：

对网络结构信息进行建模；

对网络类内相似性进行建模；

对网络类间差异性进行建模；

构造网络表示学习的目标函数；

2.根据权利要求1所述的基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，其特征在于，所述社交网络表示为：

3.根据权利要求1所述的基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，其特征在于，所述对网络结构信息进行建模包括：

路径ω＝{υ₁,...,υ_|ω|}的概率Pr(υ_j|υ_i)为：

目标为最大化如下似然概率：

<mrow> <mi>M</mi> <mi>L</mi> <mi>E</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>&omega;</mi> <mo>&Element;</mo> <mi>&Omega;</mi> </mrow> </munder> <mo>&lsqb;</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>&omega;</mi> <mo>|</mo> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>&omega;</mi> <mo>|</mo> </mrow> </munderover> <munder> <mo>&Sigma;</mo> <mrow> <mo>-</mo> <mi>r</mi> <mo>&le;</mo> <mi>j</mi> <mo>&le;</mo> <mi>r</mi> </mrow> </munder> <mi>log</mi> <mi> </mi> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>&upsi;</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>&upsi;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

对特定的矩阵M进行矩阵分解，矩阵M的每个元素为：

其中λ是防止过拟合的正则化项的参数。

4.根据权利要求1所述的基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，其特征在于，所述对网络类内相似性进行建模包括：

通过解决以下最优化问题求得S：

式中：为已标注节点集合，s_i∈R^1×n为一个向量，其第j个元素是S_ij，即S′_i是矩阵S的一个行向量，1表示一个所有元素为1的列向量，和分别是节点i和j的标签信息。

5.根据权利要求1所述的基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，其特征在于，所述对网络类间差异性进行建模包括：

基于矩阵W，定义损失函数如下：

6.根据权利要求1所述的基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，其特征在于，所述构造网络表示学习的目标函数如下：

7.根据权利要求1所述的基于近似类内与类间约束的完全非平衡标签下的网络表示学习方法，其特征在于，所述根据优化问题求解算法求得目标函数的解的算法流程如下：

初始化U、H以及S；

按照来更新U；

按照来更新H；

改变学习速率η；

最终学习得到网络的特征矩阵U。