CN114118094B

CN114118094B - 一种基于非负矩阵分解的语义社团发现方法

Info

Publication number: CN114118094B
Application number: CN202111337871.9A
Authority: CN
Inventors: 李烁; 闫波; 何金; 张旭; 张琛馨; 王凯; 范柏翔; 龚亚强; 马嘉麟; 安红娜
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2024-05-24
Anticipated expiration: 2041-11-12
Also published as: CN114118094A

Abstract

本发明涉及一种基于非负矩阵分解的语义社团发现方法，通过对SCI算法的变式进行建模，并使用Oja的更新迭代准则，在四组数据上进行实验，选用AC，NMI，Jaccard，F‑score等评价标准进行分析比较本专利申请提出的算法和以往的社团发现算法的性能。最后，选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集，并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图，具有较大的应用价值。

Description

一种基于非负矩阵分解的语义社团发现方法

技术领域

本发明属于数据分析领域，涉及语义社团发现技术，尤其是一种基于非负矩阵分解的语义社团发现方法。

背景技术

社交网络如微博、微信在人们的生活中发挥越来越广泛的作用，在社交网络中，用户之间相互连接、影响，从而促进了信息像洪水一样快速而广泛的传播。在社交网络中，用户经常只是和少部分其他用户信息交互频繁，而与其他大部分用户联系很少，用户之间就形成了许多明显的圈子，即社团结构。社团内的用户之间相互联系，相互共享信息或者进行合作，有共同兴趣的节点相互分享视频、评论等信息，形成一种社团结构。

基于非负矩阵分解的语义社团发现具有一定的研究价值，因为用户在社交网络里的行为逻辑是用户个人的真实写照，可以通过社团发现探测出复杂网络中具有的社团结构，帮助人们理解复杂网络的功能，发现复杂网络中隐藏的规律，预测复杂网络的行为等。

发明内容

本发明的目的在于克服现有技术的不足之处，提供一种使用非负矩阵分解对数据进行处理的方法，通过对SCI算法的变式进行建模，并使用oja的更新迭代准则，通过实验选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集，并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于非负矩阵分解的语义社团发现方法，方法步骤流程如下：首先采集包括拓扑信息和内容信息等的原始数据，判断原始数据是否含有真实信息，判断是则对复杂社团网络进行建模，分配模型参数，如果判断否则对复杂社团网络进行建模，分配模型参数后，进一步用Louvain社团发现算法设置社团数量，上一步完成后用非负矩阵分解方法NMF整合节点的拓扑信息和内容信息，之后进行更新迭代，进入下一步判断目标函数是否收敛，是则进入下一步计算NMI和AC值，否则返回上一步再进行更新迭代，计算NMI和AC值后进入下一步计算F-score和Jaccard值，之后制作词云，方法流程结束；

上述方法步骤中的更新迭代准则为oja迭代，其定义为：

▽_EO(E)＝▽₊-▽_-

对于目标函数，其中▽₊表示所有正数项的绝对值之和，▽_-表示所有负数项的绝对值之和，其更新迭代公式，应该为负数项绝对值之和与正数项绝对值之和的比，公式如下：

上述方法步骤中改进后的SCI变式为：

其中S_n*m是节点与属性的关系，U_n*k是节点和社团的关系，C_m*k是属性和社团的关系，含义是：如果社团c中是有属性q这个属性的，而且节点p中也是有属性q这个属性的，则说明社团c很有可能包含p这个节点。

而且，改进后的SCI变式，使用上述提到的oja迭代准则来进行更新优化，具体的：

⑴U子问题：

将上述公式转化为：

可以得到：

根据更新迭代准则中的oja迭代准则，得到迭代更新式子：

Δ₊＝2U+4UU^TU

Δ_-＝2SC+4AU

根据oja迭代准则，得到U矩阵的迭代更新式为：

⑵C子问题：

可以得到:

其中，求导后得到：

根据更新准则中的oja迭代准则，得到迭代更新式子：

得出C矩阵的更新迭代式为

本发明的优点和积极效果是：

1、本发明专利申请设计了一种使用非负矩阵分解对数据进行处理的方法，通过对SCI算法的变式进行建模，并使用Oja的更新迭代准则，在四组数据上进行实验，选用AC，NMI，Jaccard，F-score等评价标准进行分析比较本专利申请提出的算法和以往的社团发现算法的性能。最后，选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集，并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。

2、本发明专利申请改进后的SCI算法分别在cornll、texas、washington、wisconsin小数据集上进行测试，并算出其在AC值、NMI值、F-score值和Jaccard值的测试情况。计算完成后，又将改进的算法和其他社团发现算法进行比较。最后本专利运用lastfm音乐平台的含有实际意义的数据集进行社团划分，并绘制词云，并展示这4个社团的标签。

附图说明

图1为本发明方法流程图。

具体实施方式

下面通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

一种基于非负矩阵分解的语义社团发现方法，如图1，方法步骤流程如下：采集包括拓扑信息和内容信息等的原始数据，判断原始数据是否含有真实信息，判断是则对复杂社团网络进行建模，分配模型参数，如果判断否则对复杂社团网络进行建模，分配模型参数，进一步用Louvain社团发现算法设置社团数量，上一步完成后用非负矩阵分解方法(NMF)整合节点的拓扑信息和内容信息，之后进行更新迭代，进入下一步判断目标函数是否收敛，是则进入下一步计算NMI和AC值，否则返回上一步再进行更新迭代，计算NMI和AC值后进入下一步计算F-score和Jaccard值，之后制作词云，方法流程结束。

上述方法步骤中的更新迭代准则为oja迭代，其定义为：

▽_EO(E)＝▽₊-▽_-

对于目标函数，其中▽₊表示所有正数项的绝对值之和，▽_-表示所有负数项的绝对值之和。其更新迭代公式，应该为负数项绝对值之和与正数项绝对值之和的比，公式如下：

上述方法步骤中改进后的SCI变式为：

其中S_n*m是节点与属性的关系，U_n*k是节点和社团的关系，C_m*k是属性和社团的关系。含义是：如果社团c中是有属性q这个属性的，而且节点p中也是有属性q这个属性的，则说明社团c很有可能包含p这个节点。

对于改进后的SCI变式，本专利申请使用上述提到的oja迭代准则来进行更新优化。

⑴U子问题：

将上述公式转化为：

可以得到：

根据更新迭代准则中的oja迭代准则，得到迭代更新式子：

Δ₊＝2U+4UU^TU

Δ_-＝2SC+4AU

根据oja迭代准则，得到U矩阵的迭代更新式为：

⑵C子问题：

可以得到:

其中，求导后得到：

根据更新准则中的oja迭代准则，得到迭代更新式子：

得出C矩阵的更新迭代式为

本专利设计了一种使用非负矩阵分解对数据进行处理的方法，通过对SCI算法的变式进行建模，并使用Oja的更新迭代准则，在四组数据上进行实验，选用AC，NMI，Jaccard，F-score等评价标准进行分析比较本专利提出的算法和以往的社团发现算法的性能。最后，选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集，并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。

本专利改进后的SCI算法分别在cornll、texas、washington、wisconsin小数据集上进行测试，并算出其在AC值、NMI值、F-score值和Jaccard值的测试情况。计算完成后，又将改进的算法和其他社团发现算法进行比较。最后本专利运用lastfm音乐平台的含有实际意义的数据集进行社团划分，并绘制词云，并展示这4个社团的标签。

表1四组数据集在不同社团发现算法中的AC和NMI性能比较

表2四组数据集在不同社团发现算法中的F-score和Jaccard性能比较

通过表1和表2我们可以看出，本专利申请改进的SCI社团发现算法是优于原始的SCI社团发现算法，不仅如此，表1给出的不同社团发现算法的AC和NMI性能比较，本专利申请改进的SCI社团发现算法是优PCL_DC,SNMF,SBM,CAN,SMR等社团发现算法的。而表2给出的不同社团发现算法的F-score和Jaccard性能比较，本专利改进的SCI社团发现算法是优于BIGCLAM，CESNA，DCM等社团发现算法的。

本专利得出结论：在使用节点属性矩阵S来逼近节点社团矩阵U的条件下，选用oja迭代准则能够很好的弥补之前原始SCI社团发现算法的不足，相比之下，比以往的社团发现算法和原始SCI算法都能够更准确的划分社团。

尽管为说明目的公开了本发明的实施例，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例所公开的内容。

Claims

1.一种基于非负矩阵分解的语义社团发现方法，其特征在于：方法步骤流程如下：首先采集包括拓扑信息和内容信息的原始数据，判断原始数据是否含有真实信息，判断是则对复杂社团网络进行建模，分配模型参数，如果判断否则对复杂社团网络进行建模，分配模型参数后，进一步用Louvain社团发现算法设置社团数量，上一步完成后用非负矩阵分解方法NMF整合节点的拓扑信息和内容信息，之后进行更新迭代，进入下一步判断目标函数是否收敛，是则进入下一步计算NMI和AC值，否则返回上一步再进行更新迭代，计算NMI和AC值后进入下一步计算F-score和Jaccard值，之后制作词云，方法流程结束；

上述方法步骤中的更新迭代准则为oja迭代，其定义为：

▽_EO(E)＝▽₊-▽_-

对于目标函数，其中▽₊表示所有正数项的绝对值之和，▽_-表示所有负数项的绝对值之和，其更新迭代公式，为负数项绝对值之和与正数项绝对值之和的比，公式如下：

上述方法步骤中改进后的SCI变式为：

其中S_n*m是节点与属性的关系，U_n*k是节点和社团的关系，C_m*k是属性和社团的关系，含义是：如果社团c中是有属性q这个属性的，而且节点p中也是有属性q这个属性的，则说明社团c很有可能包含p这个节点，

改进后的SCI变式，使用上述oja迭代准则来进行更新优化，具体的：

⑴U子问题：

将上述公式转化为：

L(U)＝tr[(U^T-C^TS^T)^T(U^T-C^TS^T)+β(A-UU^T)^T(A-UU^T)]

＝tr[UU^T-UC^TS^T-SCU^T+SCC^TS^T+β(A^TA-A^TUU^T-UU^TA+UU^TUU^T)]

可以得到：

根据更新迭代准则中的oja迭代准则，得到迭代更新式子：

Δ₊＝2U+4UU^TU

Δ_-＝2SC+4AU

根据oja迭代准则，得到U矩阵的迭代更新式为：

⑵C子问题：

可以得到:

其中，求导后得到：

根据更新准则中的oja迭代准则，得到迭代更新式子：

得出C矩阵的更新迭代式为