CN114118094B - 一种基于非负矩阵分解的语义社团发现方法 - Google Patents
一种基于非负矩阵分解的语义社团发现方法 Download PDFInfo
- Publication number
- CN114118094B CN114118094B CN202111337871.9A CN202111337871A CN114118094B CN 114118094 B CN114118094 B CN 114118094B CN 202111337871 A CN202111337871 A CN 202111337871A CN 114118094 B CN114118094 B CN 114118094B
- Authority
- CN
- China
- Prior art keywords
- update
- community
- iteration
- formula
- oja
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于非负矩阵分解的语义社团发现方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F‑score等评价标准进行分析比较本专利申请提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图,具有较大的应用价值。
Description
技术领域
本发明属于数据分析领域,涉及语义社团发现技术,尤其是一种基于非负矩阵分解的语义社团发现方法。
背景技术
社交网络如微博、微信在人们的生活中发挥越来越广泛的作用,在社交网络中,用户之间相互连接、影响,从而促进了信息像洪水一样快速而广泛的传播。在社交网络中,用户经常只是和少部分其他用户信息交互频繁,而与其他大部分用户联系很少,用户之间就形成了许多明显的圈子,即社团结构。社团内的用户之间相互联系,相互共享信息或者进行合作,有共同兴趣的节点相互分享视频、评论等信息,形成一种社团结构。
基于非负矩阵分解的语义社团发现具有一定的研究价值,因为用户在社交网络里的行为逻辑是用户个人的真实写照,可以通过社团发现探测出复杂网络中具有的社团结构,帮助人们理解复杂网络的功能,发现复杂网络中隐藏的规律,预测复杂网络的行为等。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用oja的更新迭代准则,通过实验选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于非负矩阵分解的语义社团发现方法,方法步骤流程如下:首先采集包括拓扑信息和内容信息等的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数后,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法NMF整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束;
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
▽EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和,其更新迭代公式,应该为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系,含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点。
而且,改进后的SCI变式,使用上述提到的oja迭代准则来进行更新优化,具体的:
⑴U子问题:
将上述公式转化为:
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
本发明的优点和积极效果是:
1、本发明专利申请设计了一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F-score等评价标准进行分析比较本专利申请提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
2、本发明专利申请改进后的SCI算法分别在cornll、texas、washington、wisconsin小数据集上进行测试,并算出其在AC值、NMI值、F-score值和Jaccard值的测试情况。计算完成后,又将改进的算法和其他社团发现算法进行比较。最后本专利运用lastfm音乐平台的含有实际意义的数据集进行社团划分,并绘制词云,并展示这4个社团的标签。
附图说明
图1为本发明方法流程图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
一种基于非负矩阵分解的语义社团发现方法,如图1,方法步骤流程如下:采集包括拓扑信息和内容信息等的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法(NMF)整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束。
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
▽EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和。其更新迭代公式,应该为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系。含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点。
对于改进后的SCI变式,本专利申请使用上述提到的oja迭代准则来进行更新优化。
⑴U子问题:
将上述公式转化为:
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
本专利设计了一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F-score等评价标准进行分析比较本专利提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
本专利改进后的SCI算法分别在cornll、texas、washington、wisconsin小数据集上进行测试,并算出其在AC值、NMI值、F-score值和Jaccard值的测试情况。计算完成后,又将改进的算法和其他社团发现算法进行比较。最后本专利运用lastfm音乐平台的含有实际意义的数据集进行社团划分,并绘制词云,并展示这4个社团的标签。
表1四组数据集在不同社团发现算法中的AC和NMI性能比较
表2四组数据集在不同社团发现算法中的F-score和Jaccard性能比较
通过表1和表2我们可以看出,本专利申请改进的SCI社团发现算法是优于原始的SCI社团发现算法,不仅如此,表1给出的不同社团发现算法的AC和NMI性能比较,本专利申请改进的SCI社团发现算法是优PCL_DC,SNMF,SBM,CAN,SMR等社团发现算法的。而表2给出的不同社团发现算法的F-score和Jaccard性能比较,本专利改进的SCI社团发现算法是优于BIGCLAM,CESNA,DCM等社团发现算法的。
本专利得出结论:在使用节点属性矩阵S来逼近节点社团矩阵U的条件下,选用oja迭代准则能够很好的弥补之前原始SCI社团发现算法的不足,相比之下,比以往的社团发现算法和原始SCI算法都能够更准确的划分社团。
尽管为说明目的公开了本发明的实施例,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例所公开的内容。
Claims (1)
1.一种基于非负矩阵分解的语义社团发现方法,其特征在于:方法步骤流程如下:首先采集包括拓扑信息和内容信息的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数后,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法NMF整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束;
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
▽EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和,其更新迭代公式,为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系,含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点,
改进后的SCI变式,使用上述oja迭代准则来进行更新优化,具体的:
⑴U子问题:
将上述公式转化为:
L(U)=tr[(UT-CTST)T(UT-CTST)+β(A-UUT)T(A-UUT)]
=tr[UUT-UCTST-SCUT+SCCTST+β(ATA-ATUUT-UUTA+UUTUUT)]
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337871.9A CN114118094B (zh) | 2021-11-12 | 2021-11-12 | 一种基于非负矩阵分解的语义社团发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337871.9A CN114118094B (zh) | 2021-11-12 | 2021-11-12 | 一种基于非负矩阵分解的语义社团发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114118094A CN114118094A (zh) | 2022-03-01 |
CN114118094B true CN114118094B (zh) | 2024-05-24 |
Family
ID=80378900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111337871.9A Active CN114118094B (zh) | 2021-11-12 | 2021-11-12 | 一种基于非负矩阵分解的语义社团发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118094B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN102202012A (zh) * | 2011-05-30 | 2011-09-28 | 中国人民解放军总参谋部第五十四研究所 | 通信网络的社团划分方法与系统 |
CN104102745A (zh) * | 2014-07-31 | 2014-10-15 | 上海交通大学 | 基于局部最小边的复杂网络社团挖掘方法 |
CN108388961A (zh) * | 2018-02-06 | 2018-08-10 | 华东师范大学 | 基于模块度优化的自适应随机邻居社团划分算法 |
CN110851732A (zh) * | 2019-10-28 | 2020-02-28 | 天津大学 | 基于非负矩阵三因子分解的属性网络半监督社团发现的方法 |
WO2020118708A1 (zh) * | 2018-12-14 | 2020-06-18 | 深圳大学 | 基于e辅助函数的半非负矩阵分解的人脸识别方法、系统及存储介质 |
CN112199452A (zh) * | 2020-11-02 | 2021-01-08 | 天津大学 | 基于随机优化和非均匀采样对大规模社团网络检测方法 |
-
2021
- 2021-11-12 CN CN202111337871.9A patent/CN114118094B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN102202012A (zh) * | 2011-05-30 | 2011-09-28 | 中国人民解放军总参谋部第五十四研究所 | 通信网络的社团划分方法与系统 |
CN104102745A (zh) * | 2014-07-31 | 2014-10-15 | 上海交通大学 | 基于局部最小边的复杂网络社团挖掘方法 |
CN108388961A (zh) * | 2018-02-06 | 2018-08-10 | 华东师范大学 | 基于模块度优化的自适应随机邻居社团划分算法 |
WO2020118708A1 (zh) * | 2018-12-14 | 2020-06-18 | 深圳大学 | 基于e辅助函数的半非负矩阵分解的人脸识别方法、系统及存储介质 |
CN110851732A (zh) * | 2019-10-28 | 2020-02-28 | 天津大学 | 基于非负矩阵三因子分解的属性网络半监督社团发现的方法 |
CN112199452A (zh) * | 2020-11-02 | 2021-01-08 | 天津大学 | 基于随机优化和非均匀采样对大规模社团网络检测方法 |
Non-Patent Citations (3)
Title |
---|
基于图流在线非负矩阵分解的社团检测;常振超;陈鸿昶;王凯;卫红权;黄瑞阳;;电子学报;20170915(第09期);全文 * |
基于小波去噪的有向加权社团发现研究;张梁梁;潘志松;李国鹏;胡谷雨;数据采集与处理;20140915;第29卷(第5期);全文 * |
非负矩阵分解的复杂网络社团检测方法;付立东;计算机工程与设计;20100616;第31卷(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114118094A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021083239A1 (zh) | 一种进行图数据查询的方法、装置、设备及存储介质 | |
WO2022179384A1 (zh) | 一种社交群体的划分方法、划分系统及相关装置 | |
CN114329455B (zh) | 基于异构图嵌入的用户异常行为检测方法及装置 | |
CN113094448B (zh) | 住宅空置状态的分析方法及分析装置、电子设备 | |
CN115017887A (zh) | 基于图卷积的中文谣言检测方法 | |
CN113505278A (zh) | 图匹配方法、装置、电子设备及存储介质 | |
CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
CN117787379A (zh) | 基于Transform和对比学习的异构图神经网络容噪方法 | |
CN110222874A (zh) | 信息处理方法及装置、存储介质及计算设备 | |
CN115131058B (zh) | 账号识别方法、装置、设备及存储介质 | |
CN116226508A (zh) | 一种基于Louvain算法的内容推荐方法 | |
CN114118094B (zh) | 一种基于非负矩阵分解的语义社团发现方法 | |
CN118197402A (zh) | 一种药物靶点关系的预测方法、装置和设备 | |
CN117591844A (zh) | 一种文本检测模型的鲁棒性测试方法、装置、电子设备及存储介质 | |
CN117651066A (zh) | 基于双向序列特征和主题语义模型的制造服务推荐方法 | |
CN110866047A (zh) | 一种基于改进关联规则的社团发现算法 | |
CN117009676A (zh) | 一种基于节点吸引力的微博网络社区发现方法 | |
CN117171010A (zh) | 模糊测试用例生成方法、装置、设备及介质 | |
CN115617981A (zh) | 一种面向社交网络短文本的信息层次摘要提取方法 | |
CN112445939A (zh) | 一种社交网络群体发现系统、方法及存储介质 | |
CN115600648B (zh) | 基于元学习和长短期记忆网络的推荐系统冷启动方法 | |
CN119312810B (zh) | 一种基于图计算的大数据关系挖掘方法 | |
CN117540232B (zh) | 基于上下文路径的在线社交网络用户表示方法及装置 | |
CN119150158B (zh) | 基于深度学习的o2o平台用户画像构建方法 | |
CN110688446B (zh) | 一种句义数学空间表示方法、系统、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |