CN110245682A

CN110245682A - 一种基于话题的网络表示学习方法

Info

Publication number: CN110245682A
Application number: CN201910393542.2A
Authority: CN
Inventors: 李玉华; 袁佳丽; 李瑞轩; 辜希武; 陈杜宇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-09-17
Anticipated expiration: 2039-05-13
Also published as: CN110245682B

Abstract

本发明公开了一种基于话题的网络表示学习方法，属于网络表示学习技术领域。本发明方法包括：设计一种自编码器模型，定义模型结构、输入输出数据的形式，以保留网络拓扑结构所表示的结构特征；利用网络中的结点信息对该自编码器网络模型进行扩展，提取网络中结点所包含的信息，将话题因素融入其中，以保留其所表示的语义特征，同时保留全局网络的结构特征；通过自编码器将两类特征融合到网络结点低维特征表示中，得到基于话题的网络表示学习。本发明方法结合大规模信息网络的特点和深度学习算法，从信息网络结构和结点所包含的信息特点出发，以获得更加有效的网络结点的嵌入表示。

Description

一种基于话题的网络表示学习方法

技术领域

本发明属于网络表示学习技术领域，更具体地，涉及一种基于话题的网络表示学习方法。

背景技术

日常生活中许多信息都是由网络构成，从社交网络到万维网，网络提供了一种无处不在的方式来组织各种各样的现实世界信息。由于大数据时代的到来和深度学习相关技术的发展，如何充分利用复杂信息网络进行数据分析已成为数据挖掘和信息检索领域的热门研究课题。网络表示学习的中心思想是找到一种映射函数，该函数将网络中的每个节点转换为低维潜在表示。网络表示学习方式旨在学习低维空间中的节点的密集和连续表示，从而可以减少噪声或冗余信息并且可以保留内部结构信息。由于真实网络数据通常很复杂，且目前的信息网络越来越庞大，因此无法直接在整个信息网络上直接执行复杂的机器学习算法。为了有效地处理网络数据，人们尝试用简洁地方法表示网络。

早期，图表示方法主要归于此类。图嵌入算法的主要思路是降维。Isomap首先使用连接算法构建邻域图G，通过将每个节点i与比特定距离ε更近的结点或者与i的最近的k个邻居的结点连接来构造邻域图G，然后将经典MDS应用于G以获得每个结点i的向量表示ui。另一类思路是使用图形(例如图拉普拉斯算子)导出的矩阵的谱特性(例如，特征向量)来嵌入图的节点。Laplacian eigenmaps(LE)通过与其k个最小非平凡特征值相关联的特征向量表示图中的每个节点。

通常，这些方法都在小型网络上提供了良好的性能。但是，这些方法的时间复杂度至少是二次的，这使得它们无法在大规模网络上运行。随着发展，Deepwalk第一次在网络表示学习中运用深度学习方法，受到深度学习中语言模型的启发，Deepwalk发现短随机游走生成的结点分布类似于自然语言中的单词分布，通过将网络中的结点类比于单词，并生成短随机游走序列类比于句子以保留结点间的相邻结构。其中，Node2vec模型在Deepwalk的基础上做了扩展，它引入了一个偏向的随机游走过程，并设计了二阶随机游走策略来对邻域节点进行采样，结合了BFS(Breadth-First-Search)风格和DFS(Depth-first search)风格的邻域探索。

上述方法主要采用浅模型，因此表示能力有限。SDNE(Wang，Cui和Zhu 2016)提出了一种用于网络嵌入的深度模型，以解决高非线性，结构保留和稀疏性问题。SDNE使用具有多个非线性层的深度自动编码器来保留节点的相邻结构。在此方面，文献[autoencoder(Rumelhart D E,Hinton G E,McClelland J L.A general framework for paralleldistributed processing[J].Parallel distributed processing:Explorations in themicrostructure of cognition,1986,1(45-76):26.)]是一个无监督的神经网络模型,旨在学习一组数据的表示形式，它能够通过使用深层模型捕获高度非线性的网络结构。文献[LDA(Blei D M,Ng A Y,Jordan M I,et al.Latent Dirichlet Allocation[J].Journalof Machine Learning Research,2003,3:993-1022.)]是遵循贝叶斯概率框架的三层模型，其目的是通过无监督学习方式发现文档中的隐含语义，可用于网络表示学习中保留结点相关的文本信息。

除了网络自身的拓扑结构，结合辅助信息以及保留其他高级信息也被用于网络表示学习。其中辅助信息引入了附加的邻近度量，以便可以更全面地学习节点之间的关系。在某些类型的网络中，如信息网络，结点往往伴随着丰富的信息。MMDW(Max–MarginDeepWalk)是一种半监督网络表示学习算法，利用网络中结点的标记信息，通过引入偏置梯度，可以联合更新两个部分中的参数同时优化SVM(Support Vector Machine)的最大边际分类和基于矩阵因子分解的DeepWalk从而学习具有更多判别能力的结点的表示。与辅助信息不同，高级信息是指特定任务中的监督或伪监督信息。Bourigault等人提出了一种用于预测信息扩散的社交网络表示学习算法，通过学习扩散核，将观察到的信息扩散过程映射到连续空间中的热扩散过程，其中映射空间中结点的接近度反映了它们在级联中的感染时间的接近度，目标是学习参与扩散级联的点在潜在空间中的表示，使得扩散核可以最好地解释训练集中的级联的点。受到最近在多个数据挖掘任务中深度学习的成功启发，Li等人则结合网络表示学习的思想，提出了一个端到端的深度学习模型。在此之后Man等人提出了一种新的监督模型PALE，它利用网络表示学习技术，将观察到的锚链接作为监督信息，捕捉主要和特定的结构规律，并进一步提高稳定性。

现有的网络表示学习方法存在的问题是：只参考网络基础的拓扑结构，忽略了真实网络中蕴含的丰富结点本身的信息。在结合外部信息的网络表示学习中多为考虑类似结点类型等简单信息，或者考虑边上信息而忽略结点信息。在结合多种信息的网络表示学习中多为利用矩阵特征向量的计算进行网络表示学习。而现实网络中，边往往是稀疏的，上述法很难有效的捕获更加丰富的信息用于网络表示学习。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于话题的网络表示学习方法，其目的在于设计一种针对真实网络特征的神经网络模型，定义模型结构、输入输出数据形式和自定义损失函数以保留网络拓扑结构所表示的结构特征，再通过对该神经网络模型进行拓展，同时模型利用LDA算法核心思想对单词加以约束性随机过程保留语义特征嵌入表示，最终在融合阶段，通过优化自编码器训练算法参数使得最终得到的结构特征与语义特征的概率分布距离最小，最终获得同时保留网络结构和网络结点信息的网络表示学习。

为实现上述目的，本发明提供了一种基于话题的网络表示学习方法，所述方法包括以下步骤：

(1)将包含文本的社交信息网络结构的样本数据作为初始输入，将样本数据划分为网络结构图G＝(V,E)和节点信息集合abstracts，并对样本数据进行预处理；

(2)初始化网络表示学习模型超参数，所述超参数具体包括模型迭代次数、batchsize大小以及模型的学习率；

(3)建立网络表示学习模型中的结构特征嵌入表示模块；建立网络表示学习模型中的语义特征嵌入表示模块；

(4)通过融合结构特征嵌入表示模块和语义特征嵌入表示模块优化训练自编码器；

(5)利用步骤(4)中训练好的自编码器对测试集进行预测，输出即为最终网络表示学习结果。

进一步地，所述步骤(1)具体包括以下子步骤：

(11)定义初始阈值θ，去除样本数据中结点的度小于θ的结点和相关边，得到网络结构图G＝(V,E)；其中，V＝{v₁,v₂,…,v_n}为网络中结点集合，E＝{(u,v)|u,v∈V}表示网络中结点间的边的集合；

(12)将图G转化为邻接矩阵M，M＝{m₁,m₂,…,m_n}，n为结点个数，m_n表示第n个结点的邻域结构；

(13)定义结点集合V中带有文本信息的节点集合为V`，将V`中所有结点的文本信息整合到集合abstracts中。

进一步地，所述步骤(3)中建立网络表示学习模型中的结构特征嵌入表示模块具体包括以下子步骤：

(311)所述结构特征嵌入表示模块为一个自编码器网络，将邻接矩阵M作为训练集输入到结构特征嵌入表示模块的自编码器中，对所述网络表示学习模型进行训练；

(312)将邻接矩阵M作为测试集，利用训练好的网络表示学习模型对测试集进行预测；

(313)自编码器中间层的输出即为d维潜在的结构特征嵌入表示Z＝{z₁,z₂,…,z_n}；其中，n为网络中结点的数目，z_n为网络中第n个结点的结构特征嵌入；

(314)结合网络中结点的链接信息，定义自编码器的损失函数。

进一步地，所述步骤(311)中所述自编码器的输入X＝M，即x_i＝m_i，自编码器将实例x_i映射为d维潜在的嵌入表示z_i，然后解码器使用多个全连接层将z_i从潜在表示中恢复原始信息给定输入x_i，隐藏层的表示为下式：

其中，表示自编码器第k层的输出，和是自编码器第k层的权重参数，σ(·)为非线性激活函数，K_s为自编码器的最大层数，对于结点i，第0层为自编码器的输入第K_s层为自编码器的输出

进一步地，所述步骤(314)中所述定义自编码器的损失函数L₁如下式：

其中，z_u表示结点u的结构嵌入表示，z_v表示结点v的结构嵌入表示，z_u、z_v∈Z，w_u,v表示结点u到结点v相连边的权重，由于w_u,v＝{0,1}，上述损失函数的意义为表示为：对邻接矩阵M中非零元素施加的误差惩罚要比对零元素施加的惩罚多。

进一步地，所述步骤(3)中建立网络表示学习模型中的语义特征嵌入表示模块具体包括以下子步骤：

(321)对节点信息集合abstracts进行单词分词，根据语言停用词列表去除停用词以及对词干还原；

(322)统计步骤(321)处理后集合abstracts中的所有单词，记录形成词典；

(323)为词典中的单词分配唯一标示ID，将词典转换为(单词ID，词频)的方式表示；

(324)调整词典中不同词的词频，将(单词ID，词频)的表示形式转换为(单词ID，词tf-idf值)的表示形式转；

(325)将词典作为LDA算法的输入参数，通过LDA算法得到语义特征嵌入表示T＝{t₁,t₂,…,t_m}；其中，t_m为网络中第m个结点的语义特征嵌入，m为包含结点文本信息的结点数目。

进一步地，所述步骤(4)具体包括：

(41)去除结构特征嵌入表示Z中不含有文本信息的节点，将结构特征嵌入表示Z转化为矩阵Z`，所述矩阵Z`为Z的子集；

(42)根据矩阵Z`定义节点对的相似度p(o_i,o_j)，其中o_i表示结点i，o_j表示结点j；

(43)根据语义特征嵌入表示T计算话题相似度t(o_i,o_j)，使用话题相似度t(o_i,o_j)来定义结点对的语义相似度

(44)计算相似度p(o_i,o_j)和语义相似度这两个分布的距离损失；

(45)对于V`中的每一对结点对，执行步骤(42)～(44)，利用得到的距离损失进一步训练步骤(311)中的自编码器。

进一步地，所述步骤(42)中节点对的相似度p(o_i,o_j)为：

其中，z`_i、z`_j为结点o_i和结点o_j的低维嵌入表示，z`_i∈Z′，z`_j∈Z′。

进一步地，所述步骤(43)中语义相似度为：

其中，定义结点集合V中带有文本信息的节点集合为V`，o′为集合V`中的某一节点。

进一步地，所述步骤(44)中距离损失L₂为：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)本发明所提供的基于话题的网络表示学习方法，通过自定义的两部分损失函数分别训练自编码器，可以融合网络中拓扑结构和结点内容两部分信息；更符合边稀疏的真实社会信息网络，能够利用信息网络中更多类型的数据，进而能够提高网络嵌入表示的准确性，得到更有区分性网络表示学习，并有利于对网络数据中所隐含的规律进行挖掘；

(2)本发明所提供的基于话题的网络表示学习方法，自编码器通过重构输入来捕获结点间的相邻关系，即多个非线性激活函数组成的编码器将输入数据映射到低维的表示空间中；利用自编码器保留网络结构特征能够保证在低维嵌入空间中能最大限度的保留了输入输出表示之间的差异，同时也能很好的反映顶点间的邻域结构关系；在自编码器中，重新定义的损失函数会对邻接矩阵M中非零元素施加更强的误差惩罚，排除原始空间关系与潜在空间关系不一致的影响，进一步提升在低维嵌入中捕获的网络拓扑结构效果；

(3)本发明所提供的基于话题的网络表示学习方法，利用LDA算法核心思想，以概率方式抽象描述出文章的话题与文章组成的各个词语间相互组合和影响关系的真实特性；该概率抽象方法以文章以一定概率选择了某话题，同时话题中以一定概率选中某单词来表达话题为主要思想，具体呈现在每个单词由约束性随机过程得到，利用LDA算法思想对节点内容的话题信息提取，结果中较好的保留了结点及内容特征。

附图说明

图1是本发明实施例提供的总体流程图；

图2是本发明实施例中获取结点结构的自编码器结构图；

图3为本发明实施例中融合两种相似度的自编码器结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

下面介绍本发明的一个具体实施例，如图1所示本发明方法依次包括下述步骤：

(1)以包含文本的社交信息网络结构的样本数据作为初始输入，包括网络结构G＝(V,E)和结点信息集合abstracts，并对数据进行预处理：

(11)使用算法1.1去除数据集中结点的度小于θ的结点和相关边，得到需要处理的图G＝(V,E)，保证最终处理的网络不会过于稀疏而无法得到能反映网络的嵌入表示；其中，V＝{v₁,v₂,…,v_n}为网络中结点集合，E＝{(u,v)|u,v∈V}表示网络中结点间的边的集合，e＝(e_i,e_j)表示了结点e_i到e_j存在一条边，θ是初始设定的阀值；

(12)将图G转化为邻接矩阵M；M＝{m₁,m₂,…,m_n}，n为结点个数，m_i描述了结点i的邻域结构；

(13)保留部分结点的相关文本信息整合到集合abstracts；

(2)初始化模型超参数，包括模型迭代次数、batch size大小以及模型的学习率；

(3)建立基于话题的网络表示学习方法的模型Topic2vec中的结构特征嵌入表示模块如图2所示，处理步骤如下：

(31)所述结构特征嵌入表示模块为一个自动编码器网络，将步骤(12)得到的邻接矩阵M作为训练集输入到Topic2vec中结构特征嵌入表示模块的自编码器中，利用所述输入对所述模型进行训练。

自编码器的输入X＝M，即x_i＝m_i，自编码器将实例x_i映射为d维潜在的嵌入表示z_i，然后解码器使用多个全连接层将z_i从潜在表示中恢复原始信息给定输入x_i，隐藏层的表示为下式：

其中，和是自编码器第k层的权重参数，σ(·)为非线性激活函数，K_s为自编码器的层数，对于结点i，第0层为自编码器的输入第K_s层为自编码器的输出

(32)将步骤(12)得到的邻接矩阵M作为测试集，利用训练好的模型对测试集进行预测。

(33)自编码器的第K_s/2层为所需要求的d维低维嵌入表示其中，z_i为网络中第i个结点的结构特征嵌入，n为网络中结点的数目。

(34)为了使步骤(33)中的低维嵌入表示z_i能很好反映顶点间邻域结构，结合网络中结点的链接信息，定义自编码器的损失函数L₁如下式：

由于w_u,v＝{0,1}，上述损失函数的意义为表示为：对邻接矩阵M中非零元素施加的误差惩罚要比对零元素施加的惩罚多。具体来说，在原始网络中有边相连的结点在潜在空间中距离也应该相近，所以对于在原信息网络中具有高度相似性但是在潜在表示空间中距离很远的结点给予惩罚。经过损失函数纠正后的输出所得到的潜在表示矩阵，能较好的在低维嵌入中捕获网络本地拓扑结构。

(4)建立基于话题的网络表示学习的模型Topic2vec中的语义特征嵌入表示模块；

(41)将步骤(13)得到的集合abstracts进行单词分词、根据语言停用词列表去除停用词、词干还原。

(42)统计将步骤(41)处理后集合abstracts中的所有单词，记录形成词典。

(43)为所有出现在abstracts中的单词分配唯一标示ID，将集合abstracts转换为(单词ID，词频)方式表示。

(44)调整语料库abstracts中不同词的词频，将(单词ID，词频)表示转换为(单词ID，词tf-idf值)表示。

(45)将步骤(44)得到的输出作为LDA算法的输入参数，通过LDA算法得到语义特征嵌入表示T＝{t₁,t₂,…,t_m}。其中，t_i为网络中第i个结点的语义特征嵌入，m为包含结点文本信息的结点数目。

(5)建立基于话题的网络表示学习方法的模型Topic2vec中的融合模块，如图3所示；

(51)将步骤(33)中得到的结构特征嵌入表示Z转化为与步骤(45)中表示相同结点的矩阵Z′；

(52)在低维潜在空间中，根据步骤(51)得到的融合了结点结构特征的嵌入表示矩阵Z′，对于每对对象结点o_i和结点o_j，定义它们的联合概率，如下式所示：

其中，z`_i、z`_j为结点o_i和结点o_j的低维嵌入表示。

(53)在原始网络空间中，根据步骤(45)得到的融合了结点语义特征的嵌入表示矩阵T，使用话题相似度t(o_i,o_j)来定义结点对的语义相似度如下式所示：

(54)计算步骤(52)得到的相似度和步骤(53)得到的语义相似度这两个分布的距离损失L₂，如下式所示：

(55)对于测试集网络中的每一对结点对，执行步骤(52)～(54)，利用得到的损失进一步训练步骤(31)中的编码器。经过不断训练的自编码器会最终得到结点嵌入表示和语义特征之间的最小概率分布距离L₂，该最小化参数L₂能使得自编码器在最终获得的网络表示学习中达到同时保留网络结构的基础和网络结点信息的效果，从而得到真实且较为优秀的网络表示学习；

(6)利用步骤(55)中训练好的编码器对测试集进行预测，输出即为最终网络表示学习结果。

以上内容本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于话题的网络表示学习方法，其特征在于，所述方法包括以下步骤：

(2)初始化网络表示学习模型超参数，所述超参数具体包括模型迭代次数、batch size大小以及模型的学习率；

2.根据权利要求1所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(1)具体包括以下子步骤：

3.根据权利要求1所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(3)中建立网络表示学习模型中的结构特征嵌入表示模块具体包括以下子步骤：

4.根据权利要求3所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(311)中所述自编码器的输入X＝M，即x_i＝m_i，自编码器将实例x_i映射为d维潜在的嵌入表示z_i，然后解码器使用多个全连接层将z_i从潜在表示中恢复原始信息给定输入x_i，隐藏层的表示为下式：

5.根据权利要求3所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(314)中所述定义自编码器的损失函数L₁如下式：

6.根据权利要求1所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(3)中建立网络表示学习模型中的语义特征嵌入表示模块具体包括以下子步骤：

7.根据权利要求1所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(4)具体包括：

8.根据权利要求7所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(42)中节点对的相似度p(o_i,o_j)为：

9.根据权利要求7所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(43)中语义相似度为：

10.根据权利要求7所述的一种基于话题的网络表示学习方法，其特征在于，所述步骤(44)中距离损失L₂为：