CN105760426A - 一种面向在线社交网络的主题社区挖掘方法 - Google Patents
一种面向在线社交网络的主题社区挖掘方法 Download PDFInfo
- Publication number
- CN105760426A CN105760426A CN201610059166.XA CN201610059166A CN105760426A CN 105760426 A CN105760426 A CN 105760426A CN 201610059166 A CN201610059166 A CN 201610059166A CN 105760426 A CN105760426 A CN 105760426A
- Authority
- CN
- China
- Prior art keywords
- theme
- community
- user node
- feature
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种面向在线社交网络的主题社区挖掘方法,该方法是基于非负矩阵分解(Nonnegative Matrix Factorization,NMF)的主题社区挖掘方法,可以通过NMF模型统一集成用户节点链接和内容信息,并应用矩阵近似分解方法得到用户节点与社区之间的归属关系矩阵以及各社区与主题特征词之间的关联强度矩阵,从而可以利用分解矩阵信息直接挖掘主题社区。该方法不仅可以采用统一模型处理用户节点的链接和内容两类信息,而且挖掘过程更加简单有效,具备更好的挖掘质量,因此更适合实际应用于挖掘在线社交网络存在的主题社区。
Description
技术领域
本发明涉及在线社交网络服务技术领域,更具体的,涉及一种面向在线社交网络的主题社区挖掘方法。
背景技术
在线社交网络的主题社区挖掘不同于传统的只基于用户节点链接信息的社区挖掘,它综合考虑了用户节点的链接以及内容信息,从而可以获得成员节点链接紧密而且主题特征相似的社区。主题社区的挖掘结果在现实中更具有应用价值,例如可以为在线社交网络群体行为监测、舆情分析、电子商务运营商进行精准社会化营销以及广告投放等提供有力支持。
目前主题社区挖掘已成为在线社交网络社区挖掘问题新的研究热点,研究人员提出了一些具有代表性的方法,其中包括基于距离相似度计算的SACluster方法,基于概率模型的BAGC、LCTA、SNLDA方法以及基于图聚类模型的CODICIL方法等。总的来说,上述主题社区挖掘方法都存在如下问题:对用户节点链接信息和内容信息需要分别设计不同模型处理,社区挖掘过程需要划分多个阶段,从而造成挖掘过程过于复杂,并不适合实际应用。因此,现有主题社区挖掘方法仍有不断改善的空间,需要设计一种更加有效的方法。
发明内容
本发明针对现有方法存在的问题,提出一种面向在线社交网络的主题社区挖掘方法,该方法是基于非负矩阵分解(NonnegativeMatrixFactorization,NMF)的主题社区挖掘方法,可以通过NMF模型统一集成用户节点链接和内容信息,并应用矩阵近似分解方法得到用户节点与社区之间的归属关系矩阵以及各社区与主题特征词之间的关联强度矩阵,从而可以利用分解矩阵信息直接挖掘主题社区。该方法不仅可以采用统一模型处理用户节点的链接和内容两类信息,而且挖掘过程更加简单有效,具备更好的挖掘质量,因此更适合实际应用于挖掘在线社交网络存在的主题社区。
为了实现上述目的,本发明的技术方案为:
一种面向在线社交网络的主题社区挖掘方法,包括:
步骤1:形式化表示在线社交网络:
将在线社交网络形式化表示为无向图G=(V,E,T),
其中V={v0,v1,...,vn-1}为用户节点集合,E={eij|vi∈V,vj∈V}为用户节点的链接边集合,T={t0,t1,...,tm-1}为主题特征词汇集合,且有n=|V|以及m=|T|;
步骤2:构建用户节点链接矩阵和主题特征词关联矩阵其中表示非负数;
对于任意两个用户节点vi和vj,如果则X中对应的元素xij=xji=1,否则xij=xji=0;
由于能够从用户节点的内容信息中抽取出每个节点所关联的主题特征词集合,那么都能够关联一个主题特征词向量(y0i,y1i,...,y(m-1)i),其中yji用于表示用户节点vi在特征词tj的取值,所有用户节点关联的主题特征词向量计算完成后,则构成主题特征词关联矩阵Y;
步骤3:构建主题社区挖掘模型:
设社区挖掘数为k,令用于表示用户节点与主题社区的归属关系矩阵,用于表示主题社区之间的交互程度矩阵,表示主题特征词与主题社区的关联强度矩阵,表示非负数,则主题社区挖掘模型为:
其中上标T表示矩阵转置;下标F表示Frobenius范数;
步骤4:求解主题社区挖掘模型:
通过将最小化目标函数J(H,S,W)转化为典型的受限约束求极值问题,然后应用拉格朗日乘数方法进行求解;
步骤5:获取主题社区挖掘结果:
首先设定迭代次数t以及收敛阈值ω,随机初始化H,S以及W,然后迭代应用H,S以及W的乘性迭代求解规则,当迭代次数超过t或者 则可以获得H,S以及W的局部最优解,最后根据H获取k个主题社区:假定待挖掘的k个主题社区为C={c0,c1,...,ck-1},对于任意一个用户节点vi,则有cp=cp∪{vi},
且对于任意一个社区ci,根据W对应的列向量Wi获取该社区关联的主题特征词。
优选的,用于表示用户节点vi在特征词tj的取值yji,其取值采用经典的词袋模型TF/IDF进行计算,即有:yji=fjilogn/nj,其中fji为特征词tj在用户节点vi内容文档中出现的次数,nj为包含特征词tj的用户节点数量。
优选的,所述步骤4中通过将最小化目标函数J(H,S,W)转化为典型的受限约束求极值问题,应用拉格朗日乘数方法进行求解,其具体操作过程为:
(1)构建J(H,S,W)的拉格朗日乘数函数L为:
L=J(H,S,W)+tr(αHT)+tr(βST)+tr(λWT),
其中α=[αij]n×k、β=[βpq]k×k和λ=[λab]m×k分别为H,S和W对应的拉格朗日乘数;
(2)引入Karush-Kuhn-Tucker条件,计算:
(3)令以及根据KKT平滑条件,有hijαij=0,spqβpq=0,wabλab=0,则可以分别获得H,S以及W的乘性迭代求解规则为:
与现有主题社区挖掘技术相比,本发明的有益效果在于:具有统一的模型处理用户节点的链接信息以及内容信息,可以根据模型求解结果直接获得主题社区挖掘结果,更适合实际操作应用,同时主题社区挖掘质量可得到更好的保证。
附图说明
图1是本发明方法的流程图。
图2是一个在线社交网络示例,其中每一个用户节点都关联有主题特征词。
图3是对在线社交网络示例进行主题社区挖掘的结果。
具体实施方式
下面结合图2所示的一个在线社交网络示例说明本发明方法的具体实施方式。
步骤1:形式化表示在线社交网络。对在线社交网络示例形式化表示为G=(V,E,T),其中V=(v0,v1,v2,v3,v4,v5,v6,v7),
E={e01,e04,e12,e24,e34,e45,e56,e57,e67},T={社交网络,大数据},n=8,m=2。
步骤2:构建用户节点链接矩阵和主题特征词关联矩阵根据V和E,可得到X为:
对于Y,需要首先依次计算各用户节点关联的主题特征词特征向量。以用户节点v4为例,该节点关联2个主题特征词:社交网络和大数据,并且各出现1次,由于t0=(社交网络),t1=(大数据),则有f04=1,f14=1,具有主题特征词社交网络的用户节点数n0=4,具有主题特征词大数据的用户节点数n1=5,可以计算y04=1×log9/4=0.35,y14=1×log9/5=0.26,则v4关联的主题特征词特征向量为(0.35,0.26)。同理可计算其它用户节点v0、v1、v2、v3、v5、v6以及v7的主题特征词特征向量分别为[0,0.26]、[0,0.26]、[0,0.26]、[0,0.26]、[0.35,0]、[0.35,0]以及[0.35,0],可得到Y为:
步骤3:构建主题社区挖掘模型。设定社区挖掘数k=2,令用于表示用户节点与主题社区的归属关系矩阵,用于表示主题社区之间的交互程度矩阵,表示主题特征词与主题社区的关联强度矩阵,构建的主题社区挖掘模型为:
步骤4:求解主题社区挖掘模型。通过如下乘性迭代规则求解:
步骤5:获取主题社区挖掘结果。设置迭代次数t=30,收敛阈值ω=15,使用非负值随机初始化H、S以及W,本示例的H、S以及W的随机初始化结果为:
迭代收敛后获得的H、S以及W的结果为:
根据H可判断待挖掘的2个主题社区c0和c1的成员,例如对于用户节点v0,其在H中对应的社区归属度分布向量为[0.03,0.68],0.68>0.03,所以c1=c1∪{v0},同理,可判断其余用户节点的社区归属关系,最终的主题社区划分结果为:c0={v5,v6,v7},c1={v0,v1,v2,v3,v4}。此外,根据W可判断每一个主题社区的强关联主题特征词,对于社区c0,其在W对应的主题特征词关联强度分布向量为[0.89,0.00],可判断该社区的强关联主题特征词为t0=(社交网络),同理可判断社区c1的强关联主题特征词为t1=(大数据)。
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
Claims (3)
1.一种面向在线社交网络的主题社区挖掘方法,其特征包括:
步骤1:形式化表示在线社交网络:
将在线社交网络形式化表示为无向图G=(V,E,T),其中V={v0,v1,...,vn-1}为用户节点集合,E={eij|vi∈V,vj∈V}为用户节点的链接边集合,T={t0,t1,...,tm-1}为主题特征词汇集合,且有n=|V|以及m=|T|;
步骤2:构建用户节点链接矩阵和主题特征词关联矩阵其中表示非负数;
对于任意两个用户节点vi和vj,如果则X中对应的元素xij=xji=1,否则xij=xji=0;
由于能够从用户节点的内容信息中抽取出每个节点所关联的主题特征词集合,那么都能够关联一个主题特征词向量(y0i,y1i,...,y(m-1)i),其中yji用于表示用户节点vi在特征词tj的取值,所有用户节点关联的主题特征词向量计算完成后,则构成主题特征词关联矩阵Y;
步骤3:构建主题社区挖掘模型:
设社区挖掘数为k,令用于表示用户节点与主题社区的归属关系矩阵,用于表示主题社区之间的交互程度矩阵,表示主题特征词与主题社区的关联强度矩阵,表示非负数,则主题社区挖掘模型为:
其中上标T表示矩阵转置;下标F表示Frobenius范数;
步骤4:求解主题社区挖掘模型:
通过将最小化目标函数J(H,S,W)转化为典型的受限约束求极值问题,然后应用拉格朗日乘数方法进行求解;
步骤5:获取主题社区挖掘结果:
首先设定迭代次数t以及收敛阈值ω,随机初始化H,S以及W,然后迭代应用H,S以及W的乘性迭代求解规则,当迭代次数超过t或者 则可以获得H,S以及W的局部最优解,最后根据H获取k个主题社区:假定待挖掘的k个主题社区为C={c0,c1,...,ck-1},对于任意一个用户节点vi,则有cp=cp∪{vi},
且对于任意一个社区ci,根据W对应的列向量Wi获取该社区关联的主题特征词。
2.根据权利要求1所述的方法,其特征在于,用于表示用户节点vi在特征词tj的取值yji,其取值采用经典的词袋模型TF/IDF进行计算,即有:yji=fjilogn/nj,其中fji为特征词tj在用户节点vi内容文档中出现的次数,nj为包含特征词tj的用户节点数量。
3.根据权利要求1所述的方法,其特征在于,所述步骤4中通过将最小化目标函数J(H,S,W)转化为典型的受限约束求极值问题,应用拉格朗日乘数方法进行求解,其具体操作过程为:
(1)构建J(H,S,W)的拉格朗日乘数函数L为:
L=J(H,S,W)+tr(αHT)+tr(βST)+tr(λWT),
其中α=[αij]n×k、β=[βpq]k×k和λ=[λab]m×k分别为H,S和W对应的拉格朗日乘数;
(2)引入Karush-Kuhn-Tucker条件,计算:
(3)令以及根据KKT平滑条件,有hijαij=0,spqβpq=0,wabλab=0,则能够分别获得H,S以及W的乘性迭代求解规则为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610059166.XA CN105760426B (zh) | 2016-01-28 | 2016-01-28 | 一种面向在线社交网络的主题社区挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610059166.XA CN105760426B (zh) | 2016-01-28 | 2016-01-28 | 一种面向在线社交网络的主题社区挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760426A true CN105760426A (zh) | 2016-07-13 |
CN105760426B CN105760426B (zh) | 2018-12-21 |
Family
ID=56342692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610059166.XA Active CN105760426B (zh) | 2016-01-28 | 2016-01-28 | 一种面向在线社交网络的主题社区挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760426B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608962A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 基于复杂网络的推特大选数据分析方法 |
CN109658277A (zh) * | 2018-11-30 | 2019-04-19 | 华南师范大学 | 一种学术社交网络好友推荐方法、系统和存储介质 |
CN109859063A (zh) * | 2019-01-18 | 2019-06-07 | 河北工业大学 | 一种社区发现方法、装置、存储介质及终端设备 |
CN114707044A (zh) * | 2021-12-29 | 2022-07-05 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102132308A (zh) * | 2008-08-20 | 2011-07-20 | 雅虎公司 | 在线社区中的信息分享 |
CN102270204A (zh) * | 2010-06-02 | 2011-12-07 | 上海佳艾商务信息咨询有限公司 | 一种基于矩阵分解对在线论坛用户影响力进行计算的方法 |
CN103914571A (zh) * | 2014-04-25 | 2014-07-09 | 南京大学 | 一种基于网格分割的三维模型检索方法 |
CN105138538A (zh) * | 2015-07-08 | 2015-12-09 | 清华大学 | 一种面向跨领域知识发现的主题挖掘方法 |
-
2016
- 2016-01-28 CN CN201610059166.XA patent/CN105760426B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102132308A (zh) * | 2008-08-20 | 2011-07-20 | 雅虎公司 | 在线社区中的信息分享 |
US8719258B2 (en) * | 2008-08-20 | 2014-05-06 | Yahoo! Inc. | Information sharing in an online community |
CN102270204A (zh) * | 2010-06-02 | 2011-12-07 | 上海佳艾商务信息咨询有限公司 | 一种基于矩阵分解对在线论坛用户影响力进行计算的方法 |
CN103914571A (zh) * | 2014-04-25 | 2014-07-09 | 南京大学 | 一种基于网格分割的三维模型检索方法 |
CN105138538A (zh) * | 2015-07-08 | 2015-12-09 | 清华大学 | 一种面向跨领域知识发现的主题挖掘方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608962A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 基于复杂网络的推特大选数据分析方法 |
CN109658277A (zh) * | 2018-11-30 | 2019-04-19 | 华南师范大学 | 一种学术社交网络好友推荐方法、系统和存储介质 |
CN109658277B (zh) * | 2018-11-30 | 2022-12-27 | 华南师范大学 | 一种学术社交网络好友推荐方法、系统和存储介质 |
CN109859063A (zh) * | 2019-01-18 | 2019-06-07 | 河北工业大学 | 一种社区发现方法、装置、存储介质及终端设备 |
CN109859063B (zh) * | 2019-01-18 | 2023-05-05 | 河北工业大学 | 一种社区发现方法、装置、存储介质及终端设备 |
CN114707044A (zh) * | 2021-12-29 | 2022-07-05 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105760426B (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wieland et al. | On topology and dynamics of consensus among linear high-order agents | |
Salter-Townshend et al. | Variational Bayesian inference for the latent position cluster model for network data | |
CN105760426A (zh) | 一种面向在线社交网络的主题社区挖掘方法 | |
CN107391542A (zh) | 一种基于文件知识图谱的开源软件社区专家推荐方法 | |
CN103533390B (zh) | 基于社交网络信息进行电视节目推荐的方法及系统 | |
CN107480213B (zh) | 基于时序文本网络的社区检测与用户关系预测方法 | |
CN104731962A (zh) | 一种社交网络中基于相似社团的好友推荐方法及系统 | |
Aghaalizadeh et al. | A three-stage algorithm for local community detection based on the high node importance ranking in social networks | |
Ko et al. | Efficient and effective influence maximization in social networks: a hybrid-approach | |
US8364615B2 (en) | Local graph partitioning using evolving sets | |
CN109902203A (zh) | 基于边的随机游走的网络表示学习方法和装置 | |
Boria et al. | Fast reoptimization for the minimum spanning tree problem | |
CN108183956B (zh) | 一种传播网络的关键路径提取方法 | |
CN107507028A (zh) | 用户偏好确定方法、装置、设备及存储介质 | |
CN103488637B (zh) | 一种基于动态社区挖掘进行专家检索的方法 | |
CN103049474A (zh) | 搜索查询和文档相关数据翻译 | |
CN110010196A (zh) | 一种基于异质网的基因相似性搜索算法 | |
Xia et al. | Performance optimization of queueing systems with perturbation realization | |
CN108573062A (zh) | 一种基于异构社交关系的个性化推荐方法 | |
CN106251204A (zh) | 一种基于大数据处理的跨境电子商务平台系统 | |
Wandelt et al. | On the use of random graphs as null model of large connected networks | |
Shang et al. | Demographic inference via knowledge transfer in cross-domain recommender systems | |
Hsu et al. | A genetic algorithm for the maximum edge-disjoint paths problem | |
Siqueiros-García et al. | A standardization process for mental model analysis in socio-ecological systems | |
CN105589916A (zh) | 显式和隐式兴趣知识的提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |