CN114118094B - 一种基于非负矩阵分解的语义社团发现方法 - Google Patents
一种基于非负矩阵分解的语义社团发现方法 Download PDFInfo
- Publication number
- CN114118094B CN114118094B CN202111337871.9A CN202111337871A CN114118094B CN 114118094 B CN114118094 B CN 114118094B CN 202111337871 A CN202111337871 A CN 202111337871A CN 114118094 B CN114118094 B CN 114118094B
- Authority
- CN
- China
- Prior art keywords
- community
- iteration
- update
- oja
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000011159 matrix material Substances 0.000 title claims abstract description 22
- 230000006872 improvement Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000006424 Flood reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于非负矩阵分解的语义社团发现方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F‑score等评价标准进行分析比较本专利申请提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图,具有较大的应用价值。
Description
技术领域
本发明属于数据分析领域,涉及语义社团发现技术,尤其是一种基于非负矩阵分解的语义社团发现方法。
背景技术
社交网络如微博、微信在人们的生活中发挥越来越广泛的作用,在社交网络中,用户之间相互连接、影响,从而促进了信息像洪水一样快速而广泛的传播。在社交网络中,用户经常只是和少部分其他用户信息交互频繁,而与其他大部分用户联系很少,用户之间就形成了许多明显的圈子,即社团结构。社团内的用户之间相互联系,相互共享信息或者进行合作,有共同兴趣的节点相互分享视频、评论等信息,形成一种社团结构。
基于非负矩阵分解的语义社团发现具有一定的研究价值,因为用户在社交网络里的行为逻辑是用户个人的真实写照,可以通过社团发现探测出复杂网络中具有的社团结构,帮助人们理解复杂网络的功能,发现复杂网络中隐藏的规律,预测复杂网络的行为等。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用oja的更新迭代准则,通过实验选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于非负矩阵分解的语义社团发现方法,方法步骤流程如下:首先采集包括拓扑信息和内容信息等的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数后,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法NMF整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束;
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
▽EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和,其更新迭代公式,应该为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系,含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点。
而且,改进后的SCI变式,使用上述提到的oja迭代准则来进行更新优化,具体的:
⑴U子问题:
将上述公式转化为:
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
本发明的优点和积极效果是:
1、本发明专利申请设计了一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F-score等评价标准进行分析比较本专利申请提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
2、本发明专利申请改进后的SCI算法分别在cornll、texas、washington、wisconsin小数据集上进行测试,并算出其在AC值、NMI值、F-score值和Jaccard值的测试情况。计算完成后,又将改进的算法和其他社团发现算法进行比较。最后本专利运用lastfm音乐平台的含有实际意义的数据集进行社团划分,并绘制词云,并展示这4个社团的标签。
附图说明
图1为本发明方法流程图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
一种基于非负矩阵分解的语义社团发现方法,如图1,方法步骤流程如下:采集包括拓扑信息和内容信息等的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法(NMF)整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束。
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
▽EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和。其更新迭代公式,应该为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系。含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点。
对于改进后的SCI变式,本专利申请使用上述提到的oja迭代准则来进行更新优化。
⑴U子问题:
将上述公式转化为:
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
本专利设计了一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F-score等评价标准进行分析比较本专利提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
本专利改进后的SCI算法分别在cornll、texas、washington、wisconsin小数据集上进行测试,并算出其在AC值、NMI值、F-score值和Jaccard值的测试情况。计算完成后,又将改进的算法和其他社团发现算法进行比较。最后本专利运用lastfm音乐平台的含有实际意义的数据集进行社团划分,并绘制词云,并展示这4个社团的标签。
表1四组数据集在不同社团发现算法中的AC和NMI性能比较
表2四组数据集在不同社团发现算法中的F-score和Jaccard性能比较
通过表1和表2我们可以看出,本专利申请改进的SCI社团发现算法是优于原始的SCI社团发现算法,不仅如此,表1给出的不同社团发现算法的AC和NMI性能比较,本专利申请改进的SCI社团发现算法是优PCL_DC,SNMF,SBM,CAN,SMR等社团发现算法的。而表2给出的不同社团发现算法的F-score和Jaccard性能比较,本专利改进的SCI社团发现算法是优于BIGCLAM,CESNA,DCM等社团发现算法的。
本专利得出结论:在使用节点属性矩阵S来逼近节点社团矩阵U的条件下,选用oja迭代准则能够很好的弥补之前原始SCI社团发现算法的不足,相比之下,比以往的社团发现算法和原始SCI算法都能够更准确的划分社团。
尽管为说明目的公开了本发明的实施例,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例所公开的内容。
Claims (1)
1.一种基于非负矩阵分解的语义社团发现方法,其特征在于:方法步骤流程如下:首先采集包括拓扑信息和内容信息的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数后,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法NMF整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束;
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
▽EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和,其更新迭代公式,为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系,含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点,
改进后的SCI变式,使用上述oja迭代准则来进行更新优化,具体的:
⑴U子问题:
将上述公式转化为:
L(U)=tr[(UT-CTST)T(UT-CTST)+β(A-UUT)T(A-UUT)]
=tr[UUT-UCTST-SCUT+SCCTST+β(ATA-ATUUT-UUTA+UUTUUT)]
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337871.9A CN114118094B (zh) | 2021-11-12 | 2021-11-12 | 一种基于非负矩阵分解的语义社团发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337871.9A CN114118094B (zh) | 2021-11-12 | 2021-11-12 | 一种基于非负矩阵分解的语义社团发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114118094A CN114118094A (zh) | 2022-03-01 |
CN114118094B true CN114118094B (zh) | 2024-05-24 |
Family
ID=80378900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111337871.9A Active CN114118094B (zh) | 2021-11-12 | 2021-11-12 | 一种基于非负矩阵分解的语义社团发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118094B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN102202012A (zh) * | 2011-05-30 | 2011-09-28 | 中国人民解放军总参谋部第五十四研究所 | 通信网络的社团划分方法与系统 |
CN104102745A (zh) * | 2014-07-31 | 2014-10-15 | 上海交通大学 | 基于局部最小边的复杂网络社团挖掘方法 |
CN108388961A (zh) * | 2018-02-06 | 2018-08-10 | 华东师范大学 | 基于模块度优化的自适应随机邻居社团划分算法 |
CN110851732A (zh) * | 2019-10-28 | 2020-02-28 | 天津大学 | 基于非负矩阵三因子分解的属性网络半监督社团发现的方法 |
WO2020118708A1 (zh) * | 2018-12-14 | 2020-06-18 | 深圳大学 | 基于e辅助函数的半非负矩阵分解的人脸识别方法、系统及存储介质 |
CN112199452A (zh) * | 2020-11-02 | 2021-01-08 | 天津大学 | 基于随机优化和非均匀采样对大规模社团网络检测方法 |
-
2021
- 2021-11-12 CN CN202111337871.9A patent/CN114118094B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN102202012A (zh) * | 2011-05-30 | 2011-09-28 | 中国人民解放军总参谋部第五十四研究所 | 通信网络的社团划分方法与系统 |
CN104102745A (zh) * | 2014-07-31 | 2014-10-15 | 上海交通大学 | 基于局部最小边的复杂网络社团挖掘方法 |
CN108388961A (zh) * | 2018-02-06 | 2018-08-10 | 华东师范大学 | 基于模块度优化的自适应随机邻居社团划分算法 |
WO2020118708A1 (zh) * | 2018-12-14 | 2020-06-18 | 深圳大学 | 基于e辅助函数的半非负矩阵分解的人脸识别方法、系统及存储介质 |
CN110851732A (zh) * | 2019-10-28 | 2020-02-28 | 天津大学 | 基于非负矩阵三因子分解的属性网络半监督社团发现的方法 |
CN112199452A (zh) * | 2020-11-02 | 2021-01-08 | 天津大学 | 基于随机优化和非均匀采样对大规模社团网络检测方法 |
Non-Patent Citations (3)
Title |
---|
基于图流在线非负矩阵分解的社团检测;常振超;陈鸿昶;王凯;卫红权;黄瑞阳;;电子学报;20170915(第09期);全文 * |
基于小波去噪的有向加权社团发现研究;张梁梁;潘志松;李国鹏;胡谷雨;数据采集与处理;20140915;第29卷(第5期);全文 * |
非负矩阵分解的复杂网络社团检测方法;付立东;计算机工程与设计;20100616;第31卷(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114118094A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388651B (zh) | 一种基于图核和卷积神经网络的文本分类方法 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN113378913B (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN104346481B (zh) | 一种基于动态同步模型的社区检测方法 | |
CN102571431B (zh) | 针对复杂网络的基于群思想改进的Fast-Newman聚类方法 | |
CN110264372B (zh) | 一种基于节点表示的主题社团发现方法 | |
CN112182306B (zh) | 一种基于不确定图的社区发现方法 | |
CN113626723A (zh) | 一种基于表示学习的属性图社区搜索方法和系统 | |
CN108399268A (zh) | 一种基于博弈论的增量式异构图聚类方法 | |
CN110851733A (zh) | 基于网络拓扑和文档内容的社团发现和情感解释方法 | |
CN102521402B (zh) | 文本过滤系统及方法 | |
CN113887698B (zh) | 基于图神经网络的整体知识蒸馏方法和系统 | |
CN111382318A (zh) | 一种基于信息动力学的动态社团检测方法 | |
CN109472712A (zh) | 一种基于结构特征强化的高效马尔可夫随机场社团发现方法 | |
CN114118094B (zh) | 一种基于非负矩阵分解的语义社团发现方法 | |
CN105162648B (zh) | 基于骨干网络扩展的社团检测方法 | |
CN111914083B (zh) | 语句处理方法、装置及存储介质 | |
CN116827666A (zh) | 一种基于图注意力网络的恶意网络流量检测方法 | |
CN111340291A (zh) | 一种基于云计算技术的中长期电力负荷组合预测系统及方法 | |
Amarasiri et al. | HDGSOMr: a high dimensional growing self-organizing map using randomness for efficient web and text mining | |
CN115271985A (zh) | 基于可更新结构中心选择算法的图卷积网络社区检测方法 | |
CN114970684A (zh) | 一种结合vae的提取网络核心结构的社区检测方法 | |
CN115169455A (zh) | 基于改进的社区发现算法的交易数据异常检测方法及装置 | |
CN111274498B (zh) | 一种网络特征社区查找方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |