CN110866838A - 基于转移概率预处理的网络表示学习算法 - Google Patents
基于转移概率预处理的网络表示学习算法 Download PDFInfo
- Publication number
- CN110866838A CN110866838A CN201911073399.5A CN201911073399A CN110866838A CN 110866838 A CN110866838 A CN 110866838A CN 201911073399 A CN201911073399 A CN 201911073399A CN 110866838 A CN110866838 A CN 110866838A
- Authority
- CN
- China
- Prior art keywords
- node
- matrix
- network
- representation learning
- preprocessing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007704 transition Effects 0.000 title claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 22
- 238000007781 pre-processing Methods 0.000 title claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 55
- 230000006399 behavior Effects 0.000 claims abstract description 16
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 102220267363 rs775772074 Human genes 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 235000006629 Prosopis spicigera Nutrition 0.000 claims description 2
- 240000000037 Prosopis spicigera Species 0.000 claims description 2
- 238000000034 method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于转移概率预处理的网络表示学习算法,对网络中每个节点计算其前t步转移概率之和,然后利用转移概率之和通过相关系数计算两个节点的行为相似度,根据两个节点的行为相似度更新原始网络结构中边的权值;该步骤重复I次,从而得到处理后的网络结构;利用矩阵分解算法对处理后的网络结构进行网络表示学习。本发明能够有效提高学习效率,有效保留节点之间低阶和高阶信息,从而提高网络表示学习在复杂网络中社区发现任务的准确率。
Description
技术领域
本发明属于社会网络计算及表示学习技术领域,特别涉及一种网络表示学习方法,可用于复杂网络中社区发现任务。
背景技术
网络表示学习是将网络中每个节点嵌入到低维向量空间,从而得到网络低维向量表示的一种技术。由于传统的网络表示方法,比如邻接矩阵等,具有稀疏性、维度较高且无法反映节点间潜在关系的缺点,在针对真实网络结构时表现较差,所以网络表示学习技术日益受到相关专家学者们的关注。网络表示学习将网络结构信息嵌入到低维稠密的向量空间,能够保留节点之间的连接关系,并且得到的结果能够应用于基于向量输入的各种复杂聚类模型,从而能够用来进一步完成复杂网络中社区发现任务。
现有网络表示学习模型的一般思想是保持网络结构低阶信息,Perozzi等人提出了一种基于随机游走和Skip-Gram模型的网络表示学习方法DeepWalk。DeepWalk通过随机游走算法来得到节点序列,以此当作词序列,然后利用Skip-Gram模型来学得节点的向量表示。Grover等人进一步扩展了DeepWalk获取节点序列的方式,通过引入两个参数使得随机游走方式具有广度优先和深度优先的特性。但是这些技术得到网络表示向量只保留了节点之间的低阶信息,没有保留网络结构中的社区信息。为了保留网络结构中的社区信息,Wang等人提出了M-NMF,利用非负矩阵分解来对网络表示学习模型和基于模块度的社区发现进行联合优化,从而使得最终的网络表示学习结果既包含有微观的连接信息又包含有社区信息。之后Cavallari等人提出了ComE模型,将社区发现、社区嵌入和节点嵌入作为一个闭环,把社区嵌入定义为多变量高斯分布,进而提高节点嵌入的效果。Tu等人参考了自然语言处理中的话题和社区的模型,提出了CNRL。
然而这些技术在将节点嵌入到低维向量时会损失一些距离信息,特别是对于一些统计重要节点(节点度大的节点等),再做进一步的社区发现任务时会导致误差较大,因此Jin等人提出了结合马尔科夫随机场和网络嵌入的方法来检测社区结构,通过马尔科夫随机场结合节点之间的直接距离信息,但是这种方式是在网络嵌入的基础之上通过直接距离信息来修正社区发现结果,并没有从根本上改变网络表示学习的结果向量。
因此,研究一种能够综合保留网络结构中低阶和高阶信息,使得网络表示更加具有区分性的无监督网络表示学习方法是本技术领域科技人员的当务之急。
发明内容
为了克服现有技术的不足,本发明提供一种基于转移概率预处理的网络表示学习方法,以保留网络结构的社区信息,增强网络表示向量的区分性,进一步扩展网络表示学习算法在社区发现中的应用效果。
本发明解决其技术问题所采用的技术方案包括以下步骤:
S1,对网络中每个节点计算其前t步转移概率之和,然后利用转移概率之和通过相关系数计算两个节点的行为相似度,根据两个节点的行为相似度更新原始网络结构中边的权值;该步骤重复I次,从而得到处理后的网络结构;
S2,利用矩阵分解算法对处理后的网络结构进行网络表示学习。
所述的步骤S1包括以下步骤:
S11,输入描述网络节点之间连接信息的加权邻接矩阵W、节点度矩阵D、转移步长t,首次计算时矩阵W中每个元素wij为节点i和节点j之间边的权值,矩阵D中每个元素计算每一个节点i的前t步转移概率之和其中P=D-1W,Pk=(D-1W)k;
S13,迭代执行步骤S11和S12 I轮。
所述的步骤S2包括以下步骤:
S23,构造矩阵M′=max(M,0);
S24,对矩阵M′进行奇异值分解,M′=U∑VT;
所述的t取值为3~5。
所述的I取值为4~6。
所述的λ取值为32~64。
所述的d优选为64、128、256。
本发明的有益效果是:通过多轮转移概率之和相似度的数据处理之后,能够将在原始网络结构中有直接连接关系但属于不同社区的两个节点之间的权值降低;然后再对处理后的网络结构利用矩阵分解进行网络表示学习,能够有效提高学习效率。结合以上步骤能够有效保留节点之间低阶和高阶信息从而提高网络表示学习在复杂网络中社区发现任务的准确率。
附图说明
图1是基于转移概率预处理的网络表示学习流程框图;
图2是转移概率预处理的算法流程图;
图3是网络表示学习的算法流程图;
图4是示例网络示意图;
图5是基于转移概率预处理的网络表示学习结果示意图;
图6是DeepWalk网络表示学习结果示意图。
具体实施方式
本发明提供一种基于转移概率预处理的网络表示学习方法,如图1所示,具体包括以下步骤:
步骤S1:利用节点转移概率对原始网络结构进行处理。对网络中每个节点计算其前t步(t优选取值为3到5)转移概率之和,然后利用转移概率之和通过相关系数计算两个节点的行为相似度,根据两个节点的行为相似度更新原始网络结构中边的权值;该步骤重复I次(I的优选取值范围为4到6),从而得到处理后的网络结构。
步骤S2:利用矩阵分解算法对处理后的网络结构进行网络表示学习。
进一步地,所述步骤S1包括以下步骤:
步骤S11:输入描述网络节点之间连接信息的加权邻接矩阵W、节点度矩阵D、转移步长t,其中首次计算时矩阵W中每个元素wij为节点i和节点j之间边的权值,矩阵D中每个元素计算每一个节点i的前t步转移概率之和其中P=D-1W,Pk=(D-1W)k。
步骤S12,对于网络结构中每一条边(i,j),计算节点i和节点j之间的行为相似度,并将w′ij设置为节点i和节点j之间边(i,j)的新权值。其中ReLU为修正线性单元(Rectified Linear Unit),Cor为相关系数计算。
步骤S13,迭代执行步骤S11和步骤S12 I轮。
进一步地,所述步骤S2包括以下步骤:
步骤S22,构造矩阵M,其中Mij=ln(P′ij)-ln(λD′iiD′jj),其中λ为负采样个数参数(其中λ的优选取值范围为32到64。)。
步骤S23,构造矩阵M′=max(M,0)。
步骤S24,对矩阵M′进行奇异值分解(Singular Value Decomposition,SVD),M′=U∑VT
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明提供的方法包括以下步骤:
步骤S1:利用节点转移概率对原始网络结构进行处理。对网络中每个节点计算其前t步转移概率之和(t优选取值为3到5),然后利用转移概率之和通过相关系数计算两个节点的行为相似度,根据两个节点的行为相似度更新原始网络结构中边的权值;该步骤重复I次(I的优选取值范围为4到6),从而得到处理后的网络结构。
步骤S11:计算网络结构中节点前t步转移概率之和
在网络结构G中前t步转移概率之和计算如公式(1)
公式(1)中:
t表示总的转移步长;
W表示网络结构G的加权邻接矩阵,W中每个元素wij为节点i和节点j之间边的权值;
步骤S12,计算节点的行为相似度
对于网络结构G中的每一条边(i,j),计算节点i和节点j之间的行为相似度,并将行为相似度设置为节点i和节点j之间边(i,j)的新权值。行为相似度计算如公式(2)
公式(2)中:
Cor为相关系数计算公式;
ReLU为修正线性单元(Rectified Linear Unit),ReLU(x)=max(0,x)。
步骤S13,迭代执行步骤S11和步骤S12 I次。
S2:基于矩阵分解得到网络表示学习结果向量
步骤S21,根据迭代执行后的新权值网络结构的加权邻接矩阵W′,计算节点度矩阵D′,节点转移概率P′。其中节点度矩阵D′中每个元素d′ij的计算如公式(3),节点转移矩阵P′计算如公式(4)。
P′=D′-1W′ (4)
步骤S22,构造新矩阵M,基于负采样的Skip-Gram网络表示学习能够表示为对矩阵M的矩阵分解,矩阵M中每个元素mij的计算如公式(5)
mij=ln(P′ij)-ln(λD′iiD′jj) (5)
其中mij为矩阵M中第i行,j列的元素;
P′ij为节点i和节点j之间的转移概率;
D′ii和D′jj分别为节点i和节点j的权值之和;
λ为负采样个数参数,优选取值范围为32到64;
ln为以e为底的对数。
步骤S23,构造矩阵M′=max(M,0)
步骤S24,对矩阵M′进行奇异值分解(Singular Value Decomposition,SVD),其中分解公式如公式(6)
M′=U∑VT (6)
公式(6)中:
U和VT都是酉矩阵;
∑是对角矩阵,对角线上每个元素都是奇异值。
步骤S25,选取∑的前d个奇异值∑d,以及对应的向量Ud,计算最终的网络表示学习向量,计算如公式(7)所示:
其中d为最终要表示的数据维度,优选值为64、128、256。
总体算法流程框图如图1所示。
为了进一步说明本发明在复杂网络中社区发现任务的效果,采用被广泛使用的标准化信息NMI作为评估方法,将本发明方法与DeepWalk算法相比较,具体仿真如下:
1.仿真条件与评价指标:
在Intel(R)Core(TM)i7-6500U CPU 2.5GHz Windows 10系统下,在Python3.6运行平台上进行。
2.仿真实验内容与结果
仿真一,图4为示例网络示意图,其中不同形状代表该网络中不同节点真实的社区归属,同一形状的节点属于同一个社区。用本发明方法对图4所示的网络进行表示学习并对得到的网络表示经过t-SNE进行二维平面可视化,结果如图5示。图5中相同形状节点属于相同的真实社区。同样用DeepWalk方法进行网络表示学习,并将得到的表示结果利用t-SNE进行二维平面可视化,结果为图6。通过对比图5与图6可知,本发明对图4示例网络学到的表示结果使得属于同一社区的节点更加紧密,不同社区的节点之间距离更远,通过图5可以明显看出该网络具有四个社区结构。
仿真二,利用本方法学到的网络表示结果采用K均值算法对该网络进行社区发现任务,并采用归一化互信息值判断与真实值的差异,本方法得到的NMI1=0.9233,即本发明所学到的网络表示用于社区发现任务具有很高的准确性。
采用DeepWalk方法对图4所示的网络进行表示学习,并利用学到的网络表示结果采用K均值算法进行社区发现任务,可以得到归一化互信息值NMI2=0.7638。
将DeepWalk方法得到的归一化互信息值NMI2=0.7638与本发明得到的归一化互信息值NMI1=0.9233作对比,结果发现本发明学到的网络表示在社区发现任务上具有更高的准确性。
Claims (7)
1.一种基于转移概率预处理的网络表示学习算法,其特征在于包括以下步骤:
S1,对网络中每个节点计算其前t步转移概率之和,然后利用转移概率之和通过相关系数计算两个节点的行为相似度,根据两个节点的行为相似度更新原始网络结构中边的权值;该步骤重复I次,从而得到处理后的网络结构;
S2,利用矩阵分解算法对处理后的网络结构进行网络表示学习。
2.根据权利要求1所述的基于转移概率预处理的网络表示学习算法,其特征在于:所述的t取值为3~5。
3.根据权利要求1所述的基于转移概率预处理的网络表示学习算法,其特征在于:所述的I取值为4~6。
6.根据权利要求5所述的基于转移概率预处理的网络表示学习算法,其特征在于:所述的λ取值为32~64。
7.根据权利要求5所述的基于转移概率预处理的网络表示学习算法,其特征在于:所述的d优选为64、128、256。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911073399.5A CN110866838A (zh) | 2019-11-06 | 2019-11-06 | 基于转移概率预处理的网络表示学习算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911073399.5A CN110866838A (zh) | 2019-11-06 | 2019-11-06 | 基于转移概率预处理的网络表示学习算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866838A true CN110866838A (zh) | 2020-03-06 |
Family
ID=69653211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911073399.5A Pending CN110866838A (zh) | 2019-11-06 | 2019-11-06 | 基于转移概率预处理的网络表示学习算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866838A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
CN113312514A (zh) * | 2021-07-30 | 2021-08-27 | 平安科技(深圳)有限公司 | 结合Deepwalk及社区发现技术的分组方法、装置、设备及介质 |
-
2019
- 2019-11-06 CN CN201911073399.5A patent/CN110866838A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182511A (zh) * | 2020-11-27 | 2021-01-05 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
CN112182511B (zh) * | 2020-11-27 | 2021-02-19 | 中国人民解放军国防科技大学 | 复杂语义增强异构信息网络表示学习方法和装置 |
CN113312514A (zh) * | 2021-07-30 | 2021-08-27 | 平安科技(深圳)有限公司 | 结合Deepwalk及社区发现技术的分组方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263227B (zh) | 基于图神经网络的团伙发现方法和系统 | |
US20200167659A1 (en) | Device and method for training neural network | |
CN112685504B (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
Wang et al. | Graph neural networks: Self-supervised learning | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN113761221B (zh) | 基于图神经网络的知识图谱实体对齐方法 | |
CN113628059B (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN113190688A (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN113378913A (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN113240105B (zh) | 一种基于图神经网络池化的电网稳态判别方法 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN112765415A (zh) | 基于关系内容联合嵌入卷积神经网络的链路预测方法 | |
Hong et al. | Variational gridded graph convolution network for node classification | |
CN110866838A (zh) | 基于转移概率预处理的网络表示学习算法 | |
CN115879509A (zh) | 基于代理辅助进化算法的卷积神经网络结构优化方法 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN114494783A (zh) | 一种基于动态图神经网络的预训练方法 | |
JPH0934863A (ja) | ニューラルネットワークによる情報統合処理方法 | |
CN113704570B (zh) | 基于自监督学习式进化的大规模复杂网络社区检测方法 | |
CN112307914B (zh) | 一种基于文本信息指导的开放域图像内容识别方法 | |
CN115544307A (zh) | 基于关联矩阵的有向图数据特征提取与表达方法和系统 | |
CN114882279A (zh) | 基于直推式半监督深度学习的多标签图像分类方法 | |
CN113077003A (zh) | 基于图采样的图注意力网络归纳学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |
|
RJ01 | Rejection of invention patent application after publication |