CN107451596A - 一种网络节点分类方法及装置 - Google Patents

一种网络节点分类方法及装置 Download PDF

Info

Publication number
CN107451596A
CN107451596A CN201610371460.4A CN201610371460A CN107451596A CN 107451596 A CN107451596 A CN 107451596A CN 201610371460 A CN201610371460 A CN 201610371460A CN 107451596 A CN107451596 A CN 107451596A
Authority
CN
China
Prior art keywords
mrow
matrix
node
msubsup
split
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610371460.4A
Other languages
English (en)
Other versions
CN107451596B (zh
Inventor
孙茂松
涂存超
刘知远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610371460.4A priority Critical patent/CN107451596B/zh
Publication of CN107451596A publication Critical patent/CN107451596A/zh
Application granted granted Critical
Publication of CN107451596B publication Critical patent/CN107451596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明实施例提供一种网络节点分类方法及装置,方法包括:获取待分类网络中节点之间的关联信息及节点的类别信息;根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量;利用获取的网络表示学习模型对所述各个节点的表示向量进行分类。本发明实施例提供的网络节点分类方法及装置,能够充分将节点的类别信息编码到最终的表示向量中,因此在节点分类任务上有效的提升了分类效果。

Description

一种网络节点分类方法及装置
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种网络节点分类方法及装置。
背景技术
网络的表示在网络分析领域扮演着重要的角色。一个有效的网络表示,对于节点分类、聚类以及链接预测等网络分析任务都有很大的帮助。作为网络的基本组成元素,节点一般被表示成一个独立离散的符号,这种表示方式叫做独热编码表示。因为这种表示十分简单,所以它被广泛应用在网络分析领域。然而,这种表示方式通常会面临着稀疏性问题,而且没有充分考虑节点之前的关系。
受到近些年来分布式表示学习的启发,网络表示学习的概念被提出来解决这些问题。网络表示学习目的是为网络中的每个节点学习一个实值的向量,来反映它的网络信息,学习到的网络节点的表示向量可以用在很多网络分析任务上,例如节点分类以及链接预测。节点之间的关系也可以根据这些实值向量计算得到。
这些年来,已经提出了一些网络表示学习的模型,例如DeepWalk和LINE。DeepWalk是一种在线的网络表示学习方法。它首先利用随机游走来得到网络节点序列。然后通过将节点看作词,利用Skip-Gram,一种有效的学习词的向量的模型,学习网络节点的表示。绝大多数已有的网络表示学习模型是无监督的。尽管学习到的表示能够应用在不同的任务上,它们会在特定的预测任务上表现不理想。需要强调的是,对于真实世界里的社交网络的节点来说,通常会有额外的标注信息。例如,维基百科中的网页会有“艺术”、“历史”、“科学”等标签;Cora和Citeseer上的论文为了便于检索,同样也被标注了不同的领域标签。这些重要的标注信息并没有被利用在网络表示学习模型中。
综上所述,对于真实世界社交网路中的节点,如何在学习其表示的过程中,考虑其标签信息,来得到更有区分性的网络节点表示时十分重要的。对于标签、类别信息的考虑,可以提高节点表示的质量,并且提高其在预测任务上的性能。
发明内容
本发明实施例提供一种全部或至少部分解决上述技术问题的网络节点分类方法及装置。
本发明实施例提供一种网络节点分类方法,包括:
获取待分类网络中节点之间的关联信息及节点的类别信息;
根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量;
利用获取的网络表示学习模型对所述各个节点的表示向量进行分类。
优选的,根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量,包括:
根据所述节点之间的关联信息构建所述网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;
根据所述符合约束条件的矩阵分解的目标函数,获取每个节点的表示向量。
优选的,获取待分类网络中节点之间的关联信息及节点的类别信息之前,所述方法还包括:
获取训练网络中节点之间的关联信息及节点的类别信息,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量;
以每个节点的初始表示向量和每个初始表示向量所属节点的类别信息为单元构建分类器训练集和分类器测试集,根据所述分类器训练集中的初始表示向量和初始表示向量所属节点的类别信息,构建SVM分类器,同时获取符合约束条件的SVM分类器的目标函数;
构建基于最大间隔的DeepWalk训练模型,所述基于最大间隔的DeepWalk训练模型包括所述符合约束条件的矩阵分解的目标函数和符合约束条件的SVM分类器的目标函数;
优化所述基于最大间隔的DeepWalk训练模型中的符合约束条件的SVM分类器的目标函数,获取所述分类器训练集中各个初始表示向量的拉格朗日乘子、权重值以及松弛变量,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度;
根据所述偏置后的分解矩阵的梯度利用梯度下降法优化基于最大间隔的DeepWalk训练模型,获取学习到的网络表示学习模型;
利用所述SVM分类器测试所述分类器测试集中的各个初始表示向量,以获取最终的网络表示学习模型。
优选的,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量,包括:
根据所述节点之间的关联信息构建所述训练网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;
根据所述符合约束条件的矩阵分解的目标函数,获取其中一个分解矩阵中各个节点的初始表示向量。
优选的,所述近似的分解矩阵为
M=(A+A2)/2
其中,M为近似的分解矩阵,A为网络的转移矩阵;
所述矩阵分解的目标函数为:
其中,为矩阵分解的目标函数,X和Y为M的两个分解矩阵,矩阵X的每一列对应一个节点的初始表示向量,矩阵Y代表矩阵分解所对应的模型的参数,λ为预设的正则项权重系数;
所述SVM分类器的目标函数为:
其中,为SVM分类器的目标函数,i为分类器训练集中初始表示向量的序数,j为类别序数,V为分类器训练集中初始表示向量的个数,m为总类别数,当第i个节点的类别等于j时取0,否则取1,li为分类器训练集中第i个初始表示向量所属节点的类别信息,C为常量;
W=[w1,…,wm]T
W为SVM分类器中的权重矩阵,w1为分类器训练集中第一个初始表示向量的权重,wm为分类器训练集中第m个初始表示向量的权重;
ξ=[ξ1,…,ξ|V|]
ξ为SVM分类器中的松弛变量,ξ1为分类器训练集中第一个初始表示向量的松弛变量,ξ|V|为分类器训练集中第V个初始表示向量的松弛变量。
优选的,所述基于最大间隔的DeepWalk训练模型为:
其中,为基于最大间隔的DeepWalk训练模型,和wj分别代表SVM分类器中的权重矩阵W中的第li列和第j列,所述和wj分别与xi和xj对应,xi为X矩阵中第i个节点的初始表示向量,xj为X矩阵中第j个节点的初始表示向量;
ξi为分类器训练集中第i个初始表示向量的松弛变量。
优选的,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度,包括:
判断所述拉格朗日乘子是否不等于零;
若是,则根据与拉格朗日乘子对应的初始表示向量的权重值计算所述初始表示向量的偏置梯度;
根据所述初始表示向量的偏置梯度计算偏置后的分解矩阵的梯度。
第二方面,本发明还提供一种网络节点分类装置,包括:
第一获取单元,用于获取待分类网络中节点之间的关联信息及节点的类别信息;
学习单元,用于根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量;
分类单元,用于利用获取的网络表示学习模型对所述各个节点的表示向量进行分类。
优选的,所述学习单元,还用于:
根据所述节点之间的关联信息构建所述网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;
根据所述符合约束条件的矩阵分解的目标函数,获取每个节点的表示向量。
优选的,所述装置还包括:
第二获取单元,用于获取待分类网络中节点之间的关联信息及节点的类别信息之前,所述方法还包括:获取训练网络中节点之间的关联信息及节点的类别信息,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量;
第一构建单元,用于以每个节点的初始表示向量和每个初始表示向量所属节点的类别信息为单元构建分类器训练集和分类器测试集,根据所述分类器训练集中的初始表示向量和初始表示向量所属节点的类别信息,构建SVM分类器,同时获取符合约束条件的SVM分类器的目标函数;
第二构建单元,用于构建基于最大间隔的DeepWalk训练模型,所述基于最大间隔的DeepWalk训练模型包括所述符合约束条件的矩阵分解的目标函数和符合约束条件的SVM分类器的目标函数;
优化单元,用于优化所述基于最大间隔的DeepWalk训练模型中的符合约束条件的SVM分类器的目标函数,获取所述分类器训练集中各个初始表示向量的拉格朗日乘子、权重值以及松弛变量,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度;
第三获取单元,用于根据所述偏置后的分解矩阵的梯度利用梯度下降法优化基于最大间隔的DeepWalk训练模型,获取学习到的网络表示学习模型;
测试单元,用于利用所述SVM分类器测试所述分类器测试集中的各个初始表示向量,以获取最终的网络表示学习模型。
本发明实施例提供的网络节点分类方法及装置,能够充分将节点的类别信息编码到最终的表示向量中,因此在节点分类任务上有效的提升了分类效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种实施例提供的一种网络节点分类方法的流程图;
图2为本发明的基于矩阵分解的DeepWalk模型的结构示意图;
图3为本发明一种实施例提供的一种网络节点分类装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
图1为本发明一种实施例提供的一种网络节点分类方法的流程图。
如图1所示的一种网络节点分类方法,包括:
S101、获取待分类网络中节点之间的关联信息及节点的类别信息;
S102、根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量;
S103、利用获取的网络表示学习模型对所述各个节点的表示向量进行分类。
可以理解的是,所述待分类网络可为社交网络,除社交网络外,还可应用于其他网络中,本发明在此不再详述。
可见,本发明能够充分将节点的类别信息编码到最终的表示向量中,因此在节点分类任务上有效的提升了分类效果。
作为一种优选实施例,所述步骤S102,包括:
根据所述节点之间的关联信息构建所述网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;图2为本发明的基于矩阵分解的DeepWalk模型的结构示意图,图2中的最大间隔分类器SVM即为本发明中的SVM分类器。
根据所述符合约束条件的矩阵分解的目标函数,获取每个节点的表示向量。
作为一种优选实施例,所述步骤S101之前,所述方法还包括:
获取训练网络中节点之间的关联信息及节点的类别信息,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量;
以每个节点的初始表示向量和每个初始表示向量所属节点的类别信息为单元构建分类器训练集和分类器测试集,根据所述分类器训练集中的初始表示向量和初始表示向量所属节点的类别信息,构建SVM分类器,同时获取符合约束条件的SVM分类器的目标函数;
构建基于最大间隔的DeepWalk训练模型,所述基于最大间隔的DeepWalk训练模型包括所述符合约束条件的矩阵分解的目标函数和符合约束条件的SVM分类器的目标函数;
优化所述基于最大间隔的DeepWalk训练模型中的符合约束条件的SVM分类器的目标函数,获取所述分类器训练集中各个初始表示向量的拉格朗日乘子、权重值以及松弛变量,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度;
根据所述偏置后的分解矩阵的梯度利用梯度下降法优化基于最大间隔的DeepWalk训练模型,获取学习到的网络表示学习模型;
利用所述SVM分类器测试所述分类器测试集中的各个初始表示向量,以获取最终的网络表示学习模型。
与传统的无监督的网络节点分类方法相比,本方法提出的半监督的网络节点分类方法能够学习出有区分性的网络节点表示,同时在网络节点分类的任务显著的提高了份额里准确率。这种方法能够适用于不同的网络的表示学习中,具有良好的适用范围、可扩展性、一致性以及实用性。
作为一种优选实施例,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量,包括:
根据所述节点之间的关联信息构建所述训练网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;
根据所述符合约束条件的矩阵分解的目标函数,获取其中一个分解矩阵中各个节点的初始表示向量。
在上述实施例中,所述近似的分解矩阵为
M=(A+A2)/2
其中,M为近似的分解矩阵,A为网络的转移矩阵;
所述矩阵分解的目标函数为:
其中,为矩阵分解的目标函数,X和Y为M的两个分解矩阵,i为分类器训练集中初始表示向量的序数,j为类别序数,V为分类器训练集中初始表示向量的个数,m为总类别数,当第i个节点的类别等于j时取0,否则取1,li为分类器训练集中第i个初始表示向量所属节点的类别信息,C为常量;
利用上一步学习到的表示向量xi以及对应的类别信息li,构建分类器训练集{(x1,l1),…,(x|V|,l|V|)},其中,x1为所述分类器训练集中第一个初始表示向量,l1为所述第一个初始表示向量所属节点的类别信息,x|V|为所述分类器训练集中第V个初始表示向量,l|V|为所述第V个初始表示向量所属节点的类别信息。
则,所述SVM分类器的目标函数为:
其中,为SVM分类器的目标函数,和wj分别代表SVM分类器中的权重矩阵W中的第li列和第j列,所述和wj分别与xi和xj对应,xi为X矩阵中第i个节点的初始表示向量,xj为X矩阵中第j个节点的初始表示向量;
所述和wj分别与xi和xi对应指:为与xi中初始表示向量所属节点的类别信息,wj为与xi中初始表示向量所属节点的类别信息;
W=[w1,…,wm]T
W为SVM分类器中的权重矩阵,w1为分类器训练集中第一个初始表示向量的权重,wm为分类器训练集中第m个初始表示向量的权重;
ξ=[ξ1,…,ξ|V|]
ξ为SVM分类器中的松弛变量,ξ1为分类器训练集中第一个初始表示向量的松弛变量,ξ|V|为分类器训练集中第V个初始表示向量的松弛变量。
在上述实施例中,所述基于最大间隔的DeepWalk训练模型为:
其中,为基于最大间隔的DeepWalk训练模型。
具体地,基于最大间隔的DeepWalk训练模型中的符合约束条件的SVM分类器的目标函数,获取所述分类器训练集中各个初始表示向量的拉格朗日乘子、权重值以及松弛变量,包括:
固定变量X、Y,该优化问题变成一个标准的多类别SVM问题。它的拉格朗日对偶形式如下:
其中,拉格朗日乘子为了解决该拉格朗日对偶问题,采用坐标下降法来求解该问题,得到拉格朗日乘子α、权重矩阵W以及松弛变量ξ。
作为一种优选实施例,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度,包括:
判断所述拉格朗日乘子是否不等于零;
若是,则根据与拉格朗日乘子对应的初始表示向量的权重值计算所述初始表示向量的偏置梯度;
根据所述初始表示向量的偏置梯度计算偏置后的分解矩阵的梯度。
具体的,上述步骤可包括:
固定变量W、ξ,原优化问题转化成了带约束的矩阵分解问题,如下所示:
当不考虑约束时,可以计算变量X、Y的梯度为:
根据KKT条件,当li≠j,时,可得此时,xi为支持向量,所以在分类边界上。希望对支持向量添加偏置,使其偏离分类边界,来增加区分性。
对于第j个约束,通过对xi增加此时约束变为
这里通过拉格朗日乘子是否等于0来判断向量是否为支持向量。
最后,综合m个约束条件,得到偏置梯度为
偏置后X的梯度为
其中,η为预设的偏置梯度权重系数。
采用Adagrad方法(梯度下降法的一种)来优化上述优化问题,获取学习到的网络表示学习模型。
图3为本发明一种实施例提供的一种网络节点分类装置的结构示意图。
如图3所示的一种网络节点分类装置,包括:
第一获取单元301,用于获取待分类网络中节点之间的关联信息及节点的类别信息;
学习单元302,用于根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量;
分类单元303,用于利用获取的网络表示学习模型对所述各个节点的表示向量进行分类。
作为一种优选实施例,所述学习单元302,还用于:
根据所述节点之间的关联信息构建所述网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;
根据所述符合约束条件的矩阵分解的目标函数,获取每个节点的表示向量。
作为一种优选实施例,所述装置还包括:
第二获取单元,用于获取待分类网络中节点之间的关联信息及节点的类别信息之前,所述方法还包括:获取训练网络中节点之间的关联信息及节点的类别信息,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量;
第一构建单元,用于以每个节点的初始表示向量和每个初始表示向量所属节点的类别信息为单元构建分类器训练集和分类器测试集,根据所述分类器训练集中的初始表示向量和初始表示向量所属节点的类别信息,构建SVM分类器,同时获取符合约束条件的SVM分类器的目标函数;
第二构建单元,用于构建基于最大间隔的DeepWalk训练模型,所述基于最大间隔的DeepWalk训练模型包括所述符合约束条件的矩阵分解的目标函数和符合约束条件的SVM分类器的目标函数;
优化单元,用于优化所述基于最大间隔的DeepWalk训练模型中的符合约束条件的SVM分类器的目标函数,获取所述分类器训练集中各个初始表示向量的拉格朗日乘子、权重值以及松弛变量,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度;
第三获取单元,用于根据所述偏置后的分解矩阵的梯度利用梯度下降法优化基于最大间隔的DeepWalk训练模型,获取学习到的网络表示学习模型;
测试单元,用于利用所述SVM分类器测试所述分类器测试集中的各个初始表示向量,以获取最终的网络表示学习模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种网络节点分类方法,其特征在于,包括:
获取待分类网络中节点之间的关联信息及节点的类别信息;
根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量;
利用获取的网络表示学习模型对所述各个节点的表示向量进行分类。
2.根据权利要求1所述的方法,其特征在于,根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量,包括:
根据所述节点之间的关联信息构建所述网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;
根据所述符合约束条件的矩阵分解的目标函数,获取每个节点的表示向量。
3.根据权利要求1所述的方法,其特征在于,获取待分类网络中节点之间的关联信息及节点的类别信息之前,所述方法还包括:
获取训练网络中节点之间的关联信息及节点的类别信息,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量;
以每个节点的初始表示向量和每个初始表示向量所属节点的类别信息为单元构建分类器训练集和分类器测试集,根据所述分类器训练集中的初始表示向量和初始表示向量所属节点的类别信息,构建SVM分类器,同时获取符合约束条件的SVM分类器的目标函数;
构建基于最大间隔的DeepWalk训练模型,所述基于最大间隔的DeepWalk训练模型包括所述符合约束条件的矩阵分解的目标函数和符合约束条件的SVM分类器的目标函数;
优化所述基于最大间隔的DeepWalk训练模型中的符合约束条件的SVM分类器的目标函数,获取所述分类器训练集中各个初始表示向量的拉格朗日乘子、权重值以及松弛变量,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度;
根据所述偏置后的分解矩阵的梯度利用梯度下降法优化基于最大间隔的DeepWalk训练模型,获取学习到的网络表示学习模型;
利用所述SVM分类器测试所述分类器测试集中的各个初始表示向量,以获取最终的网络表示学习模型。
4.根据权利要求3所述的方法,其特征在于,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量,包括:
根据所述节点之间的关联信息构建所述训练网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;
根据所述符合约束条件的矩阵分解的目标函数,获取其中一个分解矩阵中各个节点的初始表示向量。
5.根据权利要求4所述的方法,其特征在于,所述近似的分解矩阵为
M=(A+A2)/2
其中,M为近似的分解矩阵,A为网络的转移矩阵;
所述矩阵分解的目标函数为:
<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>X</mi> <mo>,</mo> <mi>Y</mi> </mrow> </munder> <msub> <mi>L</mi> <mrow> <mi>D</mi> <mi>W</mi> </mrow> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>X</mi> <mo>,</mo> <mi>Y</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <mi>M</mi> <mo>-</mo> <msup> <mi>X</mi> <mi>T</mi> </msup> <mi>Y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mfrac> <mi>&amp;lambda;</mi> <mn>2</mn> </mfrac> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <mi>X</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <mi>Y</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> </mrow>
其中,为矩阵分解的目标函数,X和Y为M的两个分解矩阵,矩阵X的每一列对应一个节点的初始表示向量,矩阵Y代表矩阵分解所对应的模型的参数,λ为预设的正则项权重系数;
所述SVM分类器的目标函数为:
<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>W</mi> <mo>,</mo> <mi>&amp;xi;</mi> </mrow> </munder> <msub> <mi>L</mi> <mrow> <mi>S</mi> <mi>V</mi> <mi>M</mi> </mrow> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>W</mi> <mo>,</mo> <mi>&amp;xi;</mi> </mrow> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>e</mi> <mi>i</mi> <mi>j</mi> </msubsup> <msubsup> <mi>z</mi> <mi>i</mi> <mi>j</mi> </msubsup> </mrow>
<mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mo>,</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>z</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>i</mi> </mrow>
<mrow> <msubsup> <mi>z</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>&amp;le;</mo> <msubsup> <mi>C</mi> <msub> <mi>l</mi> <mi>i</mi> </msub> <mi>j</mi> </msubsup> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow>
<mrow> <msubsup> <mi>C</mi> <msub> <mi>l</mi> <mi>i</mi> </msub> <mi>j</mi> </msubsup> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>&amp;NotEqual;</mo> <mi>j</mi> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>C</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>j</mi> <mo>.</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
<mrow> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </munderover> <msubsup> <mi>z</mi> <mi>i</mi> <mi>j</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>j</mi> </mrow>
其中,为SVM分类器的目标函数,i为分类器训练集中初始表示向量的序数,j为类别序数,V为分类器训练集中初始表示向量的个数,m为总类别数,当第i个节点的类别等于j时取0,否则取1,li为分类器训练集中第i个初始表示向量所属节点的类别信息,C为常量;
W=[w1,…,wm]T
W为SVM分类器中的权重矩阵,w1为分类器训练集中第一个初始表示向量的权重,wm为分类器训练集中第m个初始表示向量的权重;
ξ=[ξ1,…,ξ|V|]
ξ为SVM分类器中的松弛变量,ξ1为分类器训练集中第一个初始表示向量的松弛变量,ξ|V|为分类器训练集中第V个初始表示向量的松弛变量。
6.根据权利要求5所述的方法,其特征在于,所述基于最大间隔的DeepWalk训练模型为:
<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>&amp;xi;</mi> </mrow> </munder> <mi>L</mi> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>&amp;xi;</mi> </mrow> </munder> <msub> <mi>L</mi> <mrow> <mi>D</mi> <mi>W</mi> </mrow> </msub> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>C</mi> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </munderover> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> </mrow>
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>w</mi> <msub> <mi>l</mi> <mi>i</mi> </msub> <mi>T</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msubsup> <mi>w</mi> <mi>j</mi> <mi>T</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&amp;GreaterEqual;</mo> <msubsup> <mi>e</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>-</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,为基于最大间隔的DeepWalk训练模型,和wj分别代表SVM分类器中的权重矩阵W中的第li列和第j列,所述和wj分别与xi和xj对应,xi为X矩阵中第i个节点的初始表示向量,xj为X矩阵中第j个节点的初始表示向量;
ξi为分类器训练集中第i个初始表示向量的松弛变量。
7.根据权利要求3所述的方法,其特征在于,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度,包括:
判断所述拉格朗日乘子是否不等于零;
若是,则根据与拉格朗日乘子对应的初始表示向量的权重值计算所述初始表示向量的偏置梯度;
根据所述初始表示向量的偏置梯度计算偏置后的分解矩阵的梯度。
8.一种网络节点分类装置,其特征在于,包括:
第一获取单元,用于获取待分类网络中节点之间的关联信息及节点的类别信息;
学习单元,用于根据所述节点之间的关联信息采用DeepWalk模型学习获取网络中各个节点的表示向量;
分类单元,用于利用获取的网络表示学习模型对所述各个节点的表示向量进行分类。
9.根据权利要求8所述的装置,其特征在于,所述学习单元,还用于:
根据所述节点之间的关联信息构建所述网络的转移矩阵;
根据所述转移矩阵,获取近似的分解矩阵;
基于矩阵分解的DeepWalk模型对所述近似的分解矩阵进行分解,获取分解矩阵和符合约束条件的矩阵分解的目标函数;
根据所述符合约束条件的矩阵分解的目标函数,获取每个节点的表示向量。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取待分类网络中节点之间的关联信息及节点的类别信息之前,所述方法还包括:获取训练网络中节点之间的关联信息及节点的类别信息,根据所述节点之间的关联信息采用DeepWalk模型获取训练网络的两个分解矩阵和符合约束条件的矩阵分解的目标函数,并获取其中一个分解矩阵中各个节点的初始表示向量;
第一构建单元,用于以每个节点的初始表示向量和每个初始表示向量所属节点的类别信息为单元构建分类器训练集和分类器测试集,根据所述分类器训练集中的初始表示向量和初始表示向量所属节点的类别信息,构建SVM分类器,同时获取符合约束条件的SVM分类器的目标函数;
第二构建单元,用于构建基于最大间隔的DeepWalk训练模型,所述基于最大间隔的DeepWalk训练模型包括所述符合约束条件的矩阵分解的目标函数和符合约束条件的SVM分类器的目标函数;
优化单元,用于优化所述基于最大间隔的DeepWalk训练模型中的符合约束条件的SVM分类器的目标函数,获取所述分类器训练集中各个初始表示向量的拉格朗日乘子、权重值以及松弛变量,根据所述拉格朗日乘子、权重值以及松弛变量,计算偏置后的分解矩阵的梯度;
第三获取单元,用于根据所述偏置后的分解矩阵的梯度利用梯度下降法优化基于最大间隔的DeepWalk训练模型,获取学习到的网络表示学习模型;
测试单元,用于利用所述SVM分类器测试所述分类器测试集中的各个初始表示向量,以获取最终的网络表示学习模型。
CN201610371460.4A 2016-05-30 2016-05-30 一种网络节点分类方法及装置 Active CN107451596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610371460.4A CN107451596B (zh) 2016-05-30 2016-05-30 一种网络节点分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610371460.4A CN107451596B (zh) 2016-05-30 2016-05-30 一种网络节点分类方法及装置

Publications (2)

Publication Number Publication Date
CN107451596A true CN107451596A (zh) 2017-12-08
CN107451596B CN107451596B (zh) 2020-04-14

Family

ID=60485704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610371460.4A Active CN107451596B (zh) 2016-05-30 2016-05-30 一种网络节点分类方法及装置

Country Status (1)

Country Link
CN (1) CN107451596B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228728A (zh) * 2017-12-11 2018-06-29 北京航空航天大学 一种参数化的论文网络节点表示学习方法
CN108229909A (zh) * 2017-12-14 2018-06-29 四川虹慧云商科技有限公司 一种居民事务处理方法
CN108540327A (zh) * 2018-04-19 2018-09-14 中国人民解放军战略支援部队信息工程大学 一种动态网络异常链接行为检测方法及系统
CN108596195A (zh) * 2018-05-09 2018-09-28 福建亿榕信息技术有限公司 一种基于稀疏编码特征提取的场景识别方法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN110164129A (zh) * 2019-04-25 2019-08-23 浙江工业大学 基于gernn的单交叉口多车道交通流量预测方法
CN110619564A (zh) * 2018-06-20 2019-12-27 天云融创数据科技(北京)有限公司 一种反欺诈特征生成方法和装置
CN113825978A (zh) * 2019-04-12 2021-12-21 赛峰电子与防务公司 用于定义路径的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法
US20140258196A1 (en) * 2013-03-07 2014-09-11 International Business Machines Corporation System and method for using graph transduction techniques to make relational classifications on a single connected network
CN104704499A (zh) * 2012-06-21 2015-06-10 菲利普莫里斯生产公司 与基于网络的生物标记签名相关的系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104704499A (zh) * 2012-06-21 2015-06-10 菲利普莫里斯生产公司 与基于网络的生物标记签名相关的系统和方法
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法
US20140258196A1 (en) * 2013-03-07 2014-09-11 International Business Machines Corporation System and method for using graph transduction techniques to make relational classifications on a single connected network

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRYAN PEROZZI ET AL;: "《DeepWalk: Online Learning of Social Representations》", 《IN PROCEEDINGS OF SIGKDD》 *
涂存超 等;: "《社会媒体用户标签的分析与推荐》", 《图书情报工作》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228728A (zh) * 2017-12-11 2018-06-29 北京航空航天大学 一种参数化的论文网络节点表示学习方法
CN108228728B (zh) * 2017-12-11 2020-07-17 北京航空航天大学 一种参数化的论文网络节点表示学习方法
CN108229909A (zh) * 2017-12-14 2018-06-29 四川虹慧云商科技有限公司 一种居民事务处理方法
CN108540327A (zh) * 2018-04-19 2018-09-14 中国人民解放军战略支援部队信息工程大学 一种动态网络异常链接行为检测方法及系统
CN108596195A (zh) * 2018-05-09 2018-09-28 福建亿榕信息技术有限公司 一种基于稀疏编码特征提取的场景识别方法
CN108596195B (zh) * 2018-05-09 2022-08-19 福建亿榕信息技术有限公司 一种基于稀疏编码特征提取的场景识别方法
CN110619564A (zh) * 2018-06-20 2019-12-27 天云融创数据科技(北京)有限公司 一种反欺诈特征生成方法和装置
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN113825978A (zh) * 2019-04-12 2021-12-21 赛峰电子与防务公司 用于定义路径的方法
CN113825978B (zh) * 2019-04-12 2022-08-26 赛峰电子与防务公司 用于定义路径的方法和设备、存储装置
CN110164129A (zh) * 2019-04-25 2019-08-23 浙江工业大学 基于gernn的单交叉口多车道交通流量预测方法

Also Published As

Publication number Publication date
CN107451596B (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN107451596A (zh) 一种网络节点分类方法及装置
US11176328B2 (en) Non-factoid question-answering device
Smyl et al. Data preprocessing and augmentation for multiple short time series forecasting with recurrent neural networks
CN104636801A (zh) 一种基于优化bp神经网络的预测输电线路可听噪声方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN107967255A (zh) 一种判定文本相似性的方法和系统
CN104599084B (zh) 一种群体计算的质量控制方法及装置
CN106779087A (zh) 一种通用机器学习数据分析平台
CN103105246A (zh) 一种基于遗传算法改进的bp神经网络的温室环境预测反馈方法
CN107506590A (zh) 一种基于改进深度信念网络的心血管疾病预测模型
US11501171B2 (en) Method and platform for pre-trained language model automatic compression based on multilevel knowledge distillation
CN106778882A (zh) 一种基于前馈神经网络的智能合约自动分类方法
US11526774B2 (en) Method for automatically compressing multitask-oriented pre-trained language model and platform thereof
CN107656152A (zh) 一种基于ga‑svm‑bp变压器故障诊断方法
Intisar et al. Classification of online judge programmers based on rule extraction from self organizing feature map
CN102495939A (zh) 基于核函数优化的支持向量机太阳翼展开可靠性评估方法
Jaddi et al. Taguchi-based parameter designing of genetic algorithm for artificial neural network training
CN107967253A (zh) 一种基于迁移学习的低资源领域分词器训练方法及分词方法
CN108764671A (zh) 一种基于自建语料库的创造能力评测方法和装置
CN107392315A (zh) 一种优化大脑情感学习模型的方法
Weihong et al. Optimization of BP neural network classifier using genetic algorithm
CN106227767A (zh) 一种基于领域相关性自适应的协同过滤方法
Wang et al. Prediction of the admission lines of college entrance examination based on machine learning
Pathuri et al. Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm
CN112836876A (zh) 一种基于深度学习的配电网线路负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant