CN114118094B - 一种基于非负矩阵分解的语义社团发现方法 - Google Patents

一种基于非负矩阵分解的语义社团发现方法 Download PDF

Info

Publication number
CN114118094B
CN114118094B CN202111337871.9A CN202111337871A CN114118094B CN 114118094 B CN114118094 B CN 114118094B CN 202111337871 A CN202111337871 A CN 202111337871A CN 114118094 B CN114118094 B CN 114118094B
Authority
CN
China
Prior art keywords
community
iteration
update
oja
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111337871.9A
Other languages
English (en)
Other versions
CN114118094A (zh
Inventor
李烁
闫波
何金
张旭
张琛馨
王凯
范柏翔
龚亚强
马嘉麟
安红娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111337871.9A priority Critical patent/CN114118094B/zh
Publication of CN114118094A publication Critical patent/CN114118094A/zh
Application granted granted Critical
Publication of CN114118094B publication Critical patent/CN114118094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于非负矩阵分解的语义社团发现方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F‑score等评价标准进行分析比较本专利申请提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图,具有较大的应用价值。

Description

一种基于非负矩阵分解的语义社团发现方法
技术领域
本发明属于数据分析领域,涉及语义社团发现技术,尤其是一种基于非负矩阵分解的语义社团发现方法。
背景技术
社交网络如微博、微信在人们的生活中发挥越来越广泛的作用,在社交网络中,用户之间相互连接、影响,从而促进了信息像洪水一样快速而广泛的传播。在社交网络中,用户经常只是和少部分其他用户信息交互频繁,而与其他大部分用户联系很少,用户之间就形成了许多明显的圈子,即社团结构。社团内的用户之间相互联系,相互共享信息或者进行合作,有共同兴趣的节点相互分享视频、评论等信息,形成一种社团结构。
基于非负矩阵分解的语义社团发现具有一定的研究价值,因为用户在社交网络里的行为逻辑是用户个人的真实写照,可以通过社团发现探测出复杂网络中具有的社团结构,帮助人们理解复杂网络的功能,发现复杂网络中隐藏的规律,预测复杂网络的行为等。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用oja的更新迭代准则,通过实验选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于非负矩阵分解的语义社团发现方法,方法步骤流程如下:首先采集包括拓扑信息和内容信息等的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数后,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法NMF整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束;
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和,其更新迭代公式,应该为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系,含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点。
而且,改进后的SCI变式,使用上述提到的oja迭代准则来进行更新优化,具体的:
⑴U子问题:
将上述公式转化为:
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
本发明的优点和积极效果是:
1、本发明专利申请设计了一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F-score等评价标准进行分析比较本专利申请提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
2、本发明专利申请改进后的SCI算法分别在cornll、texas、washington、wisconsin小数据集上进行测试,并算出其在AC值、NMI值、F-score值和Jaccard值的测试情况。计算完成后,又将改进的算法和其他社团发现算法进行比较。最后本专利运用lastfm音乐平台的含有实际意义的数据集进行社团划分,并绘制词云,并展示这4个社团的标签。
附图说明
图1为本发明方法流程图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
一种基于非负矩阵分解的语义社团发现方法,如图1,方法步骤流程如下:采集包括拓扑信息和内容信息等的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法(NMF)整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束。
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和。其更新迭代公式,应该为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系。含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点。
对于改进后的SCI变式,本专利申请使用上述提到的oja迭代准则来进行更新优化。
⑴U子问题:
将上述公式转化为:
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
本专利设计了一种使用非负矩阵分解对数据进行处理的方法,通过对SCI算法的变式进行建模,并使用Oja的更新迭代准则,在四组数据上进行实验,选用AC,NMI,Jaccard,F-score等评价标准进行分析比较本专利提出的算法和以往的社团发现算法的性能。最后,选取性能最好的语义社团识别的方法来处理带有实际意义的更大规模的数据集,并根据运行出的最大相关属性值来绘制出能反映社团属性相关度的词云图。
本专利改进后的SCI算法分别在cornll、texas、washington、wisconsin小数据集上进行测试,并算出其在AC值、NMI值、F-score值和Jaccard值的测试情况。计算完成后,又将改进的算法和其他社团发现算法进行比较。最后本专利运用lastfm音乐平台的含有实际意义的数据集进行社团划分,并绘制词云,并展示这4个社团的标签。
表1四组数据集在不同社团发现算法中的AC和NMI性能比较
表2四组数据集在不同社团发现算法中的F-score和Jaccard性能比较
通过表1和表2我们可以看出,本专利申请改进的SCI社团发现算法是优于原始的SCI社团发现算法,不仅如此,表1给出的不同社团发现算法的AC和NMI性能比较,本专利申请改进的SCI社团发现算法是优PCL_DC,SNMF,SBM,CAN,SMR等社团发现算法的。而表2给出的不同社团发现算法的F-score和Jaccard性能比较,本专利改进的SCI社团发现算法是优于BIGCLAM,CESNA,DCM等社团发现算法的。
本专利得出结论:在使用节点属性矩阵S来逼近节点社团矩阵U的条件下,选用oja迭代准则能够很好的弥补之前原始SCI社团发现算法的不足,相比之下,比以往的社团发现算法和原始SCI算法都能够更准确的划分社团。
尽管为说明目的公开了本发明的实施例,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例所公开的内容。

Claims (1)

1.一种基于非负矩阵分解的语义社团发现方法,其特征在于:方法步骤流程如下:首先采集包括拓扑信息和内容信息的原始数据,判断原始数据是否含有真实信息,判断是则对复杂社团网络进行建模,分配模型参数,如果判断否则对复杂社团网络进行建模,分配模型参数后,进一步用Louvain社团发现算法设置社团数量,上一步完成后用非负矩阵分解方法NMF整合节点的拓扑信息和内容信息,之后进行更新迭代,进入下一步判断目标函数是否收敛,是则进入下一步计算NMI和AC值,否则返回上一步再进行更新迭代,计算NMI和AC值后进入下一步计算F-score和Jaccard值,之后制作词云,方法流程结束;
上述方法步骤中的更新迭代准则为oja迭代,其定义为:
EO(E)=▽+-▽-
对于目标函数,其中▽+表示所有正数项的绝对值之和,▽-表示所有负数项的绝对值之和,其更新迭代公式,为负数项绝对值之和与正数项绝对值之和的比,公式如下:
上述方法步骤中改进后的SCI变式为:
其中Sn*m是节点与属性的关系,Un*k是节点和社团的关系,Cm*k是属性和社团的关系,含义是:如果社团c中是有属性q这个属性的,而且节点p中也是有属性q这个属性的,则说明社团c很有可能包含p这个节点,
改进后的SCI变式,使用上述oja迭代准则来进行更新优化,具体的:
⑴U子问题:
将上述公式转化为:
L(U)=tr[(UT-CTST)T(UT-CTST)+β(A-UUT)T(A-UUT)]
=tr[UUT-UCTST-SCUT+SCCTST+β(ATA-ATUUT-UUTA+UUTUUT)]
可以得到:
根据更新迭代准则中的oja迭代准则,得到迭代更新式子:
Δ+=2U+4UUTU
Δ-=2SC+4AU
根据oja迭代准则,得到U矩阵的迭代更新式为:
⑵C子问题:
可以得到:
其中,求导后得到:
根据更新准则中的oja迭代准则,得到迭代更新式子:
得出C矩阵的更新迭代式为
CN202111337871.9A 2021-11-12 2021-11-12 一种基于非负矩阵分解的语义社团发现方法 Active CN114118094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111337871.9A CN114118094B (zh) 2021-11-12 2021-11-12 一种基于非负矩阵分解的语义社团发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111337871.9A CN114118094B (zh) 2021-11-12 2021-11-12 一种基于非负矩阵分解的语义社团发现方法

Publications (2)

Publication Number Publication Date
CN114118094A CN114118094A (zh) 2022-03-01
CN114118094B true CN114118094B (zh) 2024-05-24

Family

ID=80378900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111337871.9A Active CN114118094B (zh) 2021-11-12 2021-11-12 一种基于非负矩阵分解的语义社团发现方法

Country Status (1)

Country Link
CN (1) CN114118094B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182287A (ja) * 2008-07-17 2010-08-19 Steven C Kays 適応型インテリジェント・デザイン
CN102202012A (zh) * 2011-05-30 2011-09-28 中国人民解放军总参谋部第五十四研究所 通信网络的社团划分方法与系统
CN104102745A (zh) * 2014-07-31 2014-10-15 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
CN108388961A (zh) * 2018-02-06 2018-08-10 华东师范大学 基于模块度优化的自适应随机邻居社团划分算法
CN110851732A (zh) * 2019-10-28 2020-02-28 天津大学 基于非负矩阵三因子分解的属性网络半监督社团发现的方法
WO2020118708A1 (zh) * 2018-12-14 2020-06-18 深圳大学 基于e辅助函数的半非负矩阵分解的人脸识别方法、系统及存储介质
CN112199452A (zh) * 2020-11-02 2021-01-08 天津大学 基于随机优化和非均匀采样对大规模社团网络检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182287A (ja) * 2008-07-17 2010-08-19 Steven C Kays 適応型インテリジェント・デザイン
CN102202012A (zh) * 2011-05-30 2011-09-28 中国人民解放军总参谋部第五十四研究所 通信网络的社团划分方法与系统
CN104102745A (zh) * 2014-07-31 2014-10-15 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
CN108388961A (zh) * 2018-02-06 2018-08-10 华东师范大学 基于模块度优化的自适应随机邻居社团划分算法
WO2020118708A1 (zh) * 2018-12-14 2020-06-18 深圳大学 基于e辅助函数的半非负矩阵分解的人脸识别方法、系统及存储介质
CN110851732A (zh) * 2019-10-28 2020-02-28 天津大学 基于非负矩阵三因子分解的属性网络半监督社团发现的方法
CN112199452A (zh) * 2020-11-02 2021-01-08 天津大学 基于随机优化和非均匀采样对大规模社团网络检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于图流在线非负矩阵分解的社团检测;常振超;陈鸿昶;王凯;卫红权;黄瑞阳;;电子学报;20170915(第09期);全文 *
基于小波去噪的有向加权社团发现研究;张梁梁;潘志松;李国鹏;胡谷雨;数据采集与处理;20140915;第29卷(第5期);全文 *
非负矩阵分解的复杂网络社团检测方法;付立东;计算机工程与设计;20100616;第31卷(第11期);全文 *

Also Published As

Publication number Publication date
CN114118094A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN113378913B (zh) 一种基于自监督学习的半监督节点分类方法
CN104346481B (zh) 一种基于动态同步模型的社区检测方法
CN102571431B (zh) 针对复杂网络的基于群思想改进的Fast-Newman聚类方法
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
CN112182306B (zh) 一种基于不确定图的社区发现方法
CN113626723A (zh) 一种基于表示学习的属性图社区搜索方法和系统
CN108399268A (zh) 一种基于博弈论的增量式异构图聚类方法
CN110851733A (zh) 基于网络拓扑和文档内容的社团发现和情感解释方法
CN102521402B (zh) 文本过滤系统及方法
CN113887698B (zh) 基于图神经网络的整体知识蒸馏方法和系统
CN111382318A (zh) 一种基于信息动力学的动态社团检测方法
CN109472712A (zh) 一种基于结构特征强化的高效马尔可夫随机场社团发现方法
CN114118094B (zh) 一种基于非负矩阵分解的语义社团发现方法
CN105162648B (zh) 基于骨干网络扩展的社团检测方法
CN111914083B (zh) 语句处理方法、装置及存储介质
CN116827666A (zh) 一种基于图注意力网络的恶意网络流量检测方法
CN111340291A (zh) 一种基于云计算技术的中长期电力负荷组合预测系统及方法
Amarasiri et al. HDGSOMr: a high dimensional growing self-organizing map using randomness for efficient web and text mining
CN115271985A (zh) 基于可更新结构中心选择算法的图卷积网络社区检测方法
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
CN115169455A (zh) 基于改进的社区发现算法的交易数据异常检测方法及装置
CN111274498B (zh) 一种网络特征社区查找方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant