CN110209825B

CN110209825B - 一种基于宽度学习系统的快速网络表征学习方法

Info

Publication number: CN110209825B
Application number: CN201910522281.XA
Authority: CN
Inventors: 左毅; 蒋龙; 李铁山; 陈俊龙; 马赫
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2021-02-12
Anticipated expiration: 2039-06-17
Also published as: CN110209825A; JP6812035B2; JP2020205029A

Abstract

本发明公开了一种基于宽度学习系统的快速网络表征学习算法，具有如下步骤：S1、导入基于文本的网络图模块，将网络拓扑结构解析后保存成字典的格式，字典中的key代表网络节点，key对应的value是一个列表，表示该节点所在边的另一端节点序列；S2、对网络节点进行随机游走，生成游走序列；S3、构建基于宽度学习系统的网络表征学习模型，将S2中生成的游走序列以及维数为K的表征向量作为输入，在特征向量层生成网络节点的特征向量，在增强向量层通过引入激活函数增强网络表征学习模型的非线性分类能力，最终实现基于文本的网络多标签分类。本发明算法中采用了宽度学习系统模型，能够快速完成网络节点的表征学习。

Description

一种基于宽度学习系统的快速网络表征学习方法

技术领域

本发明属于自然语言处理领域，提出了一种采用宽度学习系统进行网络表征学习及对网络中的节点进行多标签分类的方法，涉及网络中节点的特征表示，构建宽度学习系统网络的分类模型，以及生成训练数据等。

背景技术

基于随机游走的网络表征算法，例如DeepWalk，利用了word2vec的方法，将网络中的节点类比成自然语言处理中的单词，将网络中每一条连接路径比作自然语言处理中的句子；利用SkipGram算法来计算网络节点之间的连接结构及生成节点的向量表示。既反映了相应网络节点与其周围相邻节点联系的结构特征，又实现了节点的低维向量表示。这就为网络表征问题，提供了利用机器学习算法处理的思路。

宽度学习系统采用类似于随机向量函数链接神经网络(Random Vector FunctionLink Neural Network,RVFLNN)的结构，很好地解决了传统神经网络耗时较长的问题。现在，宽度学习系统(Broad Learning System,BLS)逐渐成为一种典型的优化传统神经网络以及深度神经网络的机器学习算法。

宽度学习系统由特征向量层、增强向量层和输出层组成，其中的特征向量层和增强向量层共同作为系统的输入。在特征向量层，通过随机生成的权重对输入样本进行特征提取。在增强向量层，通过正交规范化的随机权重对特征向量进行增强计算，并引入激活函数来增强模型的非线性分类能力。最终通过对特征向量层和增强向量层的合成矩阵进行伪逆运算，即可求出系统输入到输出的权重矩阵，从而实现网络节点的多标签分类。

网络表征学习的目标是将网络中的节点表示成低维的向量形式，从而可以更加灵活地应用于不同的数据挖掘任务中。传统的网络表征学习通过邻接矩阵对网络图进行重建，用邻接矩阵的列向量作为图节点的表示向量。这种表示形式的缺点在于：网络图中任意两个节点不一定是相连的，通常一个节点仅有很少的邻节点，因此其邻接矩阵为稀疏矩阵。在表征大规模网络时，由于节点的数目很多，使得以邻接矩阵直接表示网络图的效率明显降低。

网络节点的多标签分类问题也是网络表征的核心问题之一。由于网络节点的标签个数并不固定，因此，多标签分类问题比传统的二分类问题复杂得多，对于进行分类的算法要求也更高。同时，其分类结果的评价指标也与二分类不同，通常使用F1函数进行评价，是对分类结果的准确率和召回率的加权平均。由于不同的类别标签在数量上的表现极不均衡，因此需要对每一个类别的F1函数再做一次加权平均，通常包括“micro”、“macro”等加权方式。但是，传统网络表征的多标签分类的准确率相对较低。

发明内容

本发明针对大规模的无向网络，提出了一种利用宽度学习系统建立网络分类模型，来实现网络表征学习的快速方法。本发明采用的技术手段如下：

一种基于宽度学习系统的快速网络表征学习算法，具有如下步骤：

S1、导入基于文本的网络图模块，将网络拓扑结构解析后保存成字典的格式，字典中的key代表网络节点，key对应的value是一个列表，表示该节点所在边的另一端节点序列；

S2、对网络节点进行随机游走，生成游走序列；

S3、构建基于宽度学习系统的网络表征学习模型，将S2中生成的游走序列以及维数为K的表征向量作为输入，在特征向量层生成网络节点的特征向量，在增强向量层通过引入激活函数增强网络表征学习模型的非线性分类能力，最终实现基于文本的网络多标签分类。

所述步骤S2中生成游走序列的具体步骤如下：

假设随机游走的次数为N，在每次游走前，对网络节点的序列进行洗牌以保证其随机性，然后依次从每一个网络节点开始游走，到达指定长度L后，从下一个网络节点继续开始游走，直到最后一个网络节点，根据设定的游走次数N，对此过程迭代若干次，返回随机游走的路径集合。

所述步骤S3中基于宽度学习系统的网络表征学习模型的训练过程为：

生成特征向量：建立输入数据到特征向量映射，生成网络节点的特征向量；

生成增强向量：通过激活函数增强网络表征学习模型的非线性分类能力；

进行伪逆的计算，完成基于宽度学习系统的网络表征学习模型从系统输入到输出权重的训练。

所述S3中基于宽度学习系统的网络表征学习模型的训练过程为：

S31、生成n₁维随机权重矩阵W_e，对每个样本特征进行一次权值随机的卷积和偏置，并进行归一化和稀疏化表示，此时的输入即为网络节点的表征向量，其维度为K，特征向量H₁的维度为n₁，窗口数为n₂；

S32、生成正交规范化的随机权重矩阵W_h，将S31中产生的特征向量映射到一个维度为n₃的空间上，生成增强向量H₂，并通过激活函数增强网络表征学习模型的非线性分类能力；

S33、将特征向量H₁和增强向量H₂共同作为基于宽度学习系统的网络表征学习模型的输出H₃；

S34、伪逆的计算，当输出为H₃，其维度为n₁×n₂+n₃，标签向量为Y，两者的连接权重为W时，有H₃·W＝Y，由于H₃在多数情况下不存在逆矩阵，因此W的求解就需要通过H₃的伪逆

求解，得到

完成基于宽度学习系统的网络表征学习模型从系统输入到输出权重的训练。

本发明与现有技术相比有以下优点：

第一，本发明算法中采用了宽度学习系统模型，能够快速完成网络节点的表征学习。

第二，本发明采用的基于宽度学习系统的网络表征学习模型，既不需要多层权重连接，也不需要利用梯度下降来更新权值，因此该算法能够快速实现网络的多标签分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的具体实施方式中基于宽度学习系统的快速网络表征学习算法的流程图。

图2是宽度学习系统的网络表征图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，一种基于宽度学习系统的快速网络表征学习算法，具有如下步骤：

S2、对网络节点进行随机游走，生成游走序列，具体为：

在每次游走前，对网络节点的序列进行洗牌以保证其随机性，然后依次从每一个网络节点开始游走，到达指定长度L后，从下一个网络节点继续开始游走，直到最后一个网络节点，根据设定的游走次数N，对此过程迭代若干次，返回随机游走的路径集合。

基于宽度学习系统的网络表征学习模型的训练过程为：

S31、生成n₁维随机权重矩阵W_e，对每个样本特征进行一次权值随机的卷积和偏置，并进行归一化和稀疏化表示，此时的输入即为网络节点的表征向量X，生成特征向量z_i的公式为

z_i的维度为n₁，生成n₂个特征向量

S32、生成正交规范化的随机权重矩阵W_h，将S31中产生的特征向量映射到一个维度为n₃的空间上，生成增强向量H₂，并通过sigmoid激活函数增强网络表征学习模型的非线性分类能力；如果

则生成增强向量H₂的公式为ξ(ZW_h+β_h)；

S33、将特征向量H₁和增强向量H₂合并为T维表征向量H₃(T＝n₁×n₂+ n₃)，H₃即为基于宽度学习系统的网络表征学习模型的输出；

S34、伪逆的计算，当输出为H₃，标签向量为Y，两者的连接权重为W时，有H₃·W＝Y，由于H₃在多数情况下不存在逆矩阵，因此W的求解就需要通过H₃的伪逆

求解，得到

综上，本发明针对网络表征设计了一种利用宽度学习系统的分类模型，相比于传统多标签分类方法，该算法可以更快地实现分类，且分类准确率更高。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于宽度学习系统的快速网络表征学习方法，其特征在于具有如下步骤：

S1、导入基于文本的网络图模块，将网络拓扑结构解析后保存成字典的格式，字典中的key代表网络节点，key对应的value是一个列表，表示该网络节点所在边的另一端节点序列；

S2、对网络节点进行随机游走，生成游走序列；

S3、构建基于宽度学习系统的网络表征学习模型，将S2中生成的游走序列以及维数为K的表征向量X作为输入，所述表征向量X为网络节点的表征向量X，在特征向量层生成网络节点的特征向量Z，在增强向量层通过引入激活函数增强网络表征学习模型的非线性分类能力，最终实现基于文本的网络多标签分类；

所述步骤S2中生成游走序列的具体步骤如下：

假设随机游走的次数为N，在每次游走前，对网络节点的序列进行洗牌以保证其随机性，然后依次从每一个网络节点开始游走，到达指定长度L后，从下一个网络节点继续开始游走，直到最后一个网络节点，根据设定的游走次数N，对此过程迭代若干次，返回随机游走的路径集合；

z_i的维度为n₁，生成n₂个特征向量

S32、生成正交规范化的随机权重矩阵W_h，将S31中产生的特征向量Z映射到一个维度为n₃的空间上，生成增强向量H₂，并通过sigmoid激活函数增强网络表征学习模型的非线性分类能力；如果

则生成增强向量H₂的公式为ξ(ZW_h+β_h)；

S33、将特征向量H₁和增强向量H₂合并为T维表征向量H₃(T＝n₁×n₂+n₃)，H₃即为基于宽度学习系统的网络表征学习模型的输出，其中特征向量H₁即为特征向量Z；

求解，得到