CN105260410A - 基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置 - Google Patents
基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置 Download PDFInfo
- Publication number
- CN105260410A CN105260410A CN201510615553.2A CN201510615553A CN105260410A CN 105260410 A CN105260410 A CN 105260410A CN 201510615553 A CN201510615553 A CN 201510615553A CN 105260410 A CN105260410 A CN 105260410A
- Authority
- CN
- China
- Prior art keywords
- circle
- social interests
- social
- interests
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000005065 mining Methods 0.000 title abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 63
- 230000003993 interaction Effects 0.000 claims abstract description 49
- 230000007704 transition Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 230000004069 differentiation Effects 0.000 claims description 5
- 230000011273 social behavior Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 abstract description 6
- 238000013507 mapping Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置,所述挖掘方法包括:基于KCC算法对中心用户一级交互图发现社交兴趣圈种子;根据节点间的亲密度扩充所述社交兴趣圈种子;通过用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力;通过所述用户影响力对扩充后的社交兴趣圈种子再次进行扩充;通过二次扩充后的社交兴趣圈种子对发现的社交兴趣圈进行自动标注。所述挖掘装置包括:发现模块、第一扩充模块、计算模块、第二扩充模块和标注模块。本发明挖掘得到的社交兴趣圈能够应用于兴趣建模、协同推荐、个性化搜索和排名、精准广告投放和知识图谱等诸多领域,具有广泛的应用前景和价值。
Description
技术领域
本发明涉及数据挖掘、自然语言处理和信息检索领域,尤其涉及一种基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置。
背景技术
社区发现即社交兴趣圈发现算法大体分为传统数据挖据聚类算法、基于分割的算法、基于模块度的最优化算法、基于动态模型的算法、基于谱映射的算法等。例如:Kernighan-Lin算法、谱二分法、基于边介数度量的分裂算法、Guimera-Amaral经典算法和基于相似度度量的凝聚算法。
这些传统的社交兴趣圈发现算法从本质上说属于静态分析算法,难以适应目前真实社会网络复杂多变的结构;大部分社交兴趣圈发现方法是首先挖掘社交兴趣圈的几个核心用户,之后根据核心用户进行扩充,然后形成最终的社交兴趣圈划分结果。由于这些核心用户可能属于一个社交兴趣圈,这样就很容易形成冰山孤岛。冰山孤岛现象指的是,在第一步挖掘出的社交兴趣圈核心当中,有一些社交兴趣圈核心实际上应该同属一个社交兴趣圈,如果将真正的社交兴趣圈划分结果比喻成一座冰山,同属一个社交兴趣圈的这些核心则像这座冰山浮在海面上的一座座孤岛。
分析现有的社交兴趣圈发现算法,不难发现三方面的问题:1)现有的社交兴趣圈发现方法大多面向全局网络,以某节点为中心的局部网络社交兴趣圈发现算法比较缺乏;2)现有社交兴趣圈发现算法大部分是单分类算法,每个成员只能属于一个确定社交兴趣圈,能够发现重叠相交社交兴趣圈的多分类算法尚不完善;3)现有算法大多仅考虑网络的连接结构,没有对用户的网络行为和目的进行分析。
发明内容
本发明提供了一种基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置,本发明克服了传统社交兴趣圈发现仅考虑网络连接结构、且只挖掘单分类的缺陷,本发明充分结合微博用户的社交关系,从全局网络考虑来发现重叠社交兴趣圈,识别社交兴趣圈,详见下文描述:
一种基于亲密度和影响力的微博社交兴趣圈挖掘方法,所述挖掘方法包括以下步骤:
基于KCC算法对中心用户一级交互图发现社交兴趣圈种子;
根据节点间的亲密度扩充所述社交兴趣圈种子;
通过用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力;通过所述用户影响力对扩充后的社交兴趣圈种子再次进行扩充;
通过二次扩充后的社交兴趣圈种子对发现的社交兴趣圈进行自动标注。
所述根据节点间的亲密度扩充所述社交兴趣圈种子的步骤具体为:
找出一级交互图节点集中没有被划分进任何一个社交兴趣圈中的节点子集,作为候选节点集合;
按照亲密度降序的次序依次计算候选节点集合中,每个候选节点与现有社交兴趣圈之间的亲密度距离,如果距离小于设定的阈值,则将候选节点划分入现有社交兴趣圈;否则为候选节点新建一个社交兴趣圈;
扫描所有社交兴趣圈,如果社交兴趣圈的尺寸小于团尺寸参数K,则将社交兴趣圈删除。
所述通过用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力的步骤具体为:
根据微博用户间关注关系、发微博、阅读微博、以及评论微博的社交行为,定义PageRank算法节点转移概率的计算公式,并计算用户影响力。
所述通过所述用户影响力对扩充后的社交兴趣圈种子再次进行扩充的步骤具体为:
依照影响力降序的次序考察二级交互图中还没有加入任何社交兴趣圈的用户节点;通过模块度函数作为判断一个用户节点能否扩充进现有社交兴趣圈的衡量标准;
当用户节点扩充入现有社交兴趣圈后,如果其模块度值不降低,则将用户节点扩充到此现有社交兴趣圈,否则不扩充。
所述通过二次扩充后的社交兴趣圈种子对发现的社交兴趣圈进行自动标注的步骤具体为:
将兴趣标签作为词项,将每个社交兴趣圈视作文本,将挖掘出的所有社交兴趣圈看作文档集合,如果IDF值越高,表明兴趣标签区分社交兴趣圈的能力越差,过滤掉区分能力差的兴趣标签;
将兴趣标签作为词项,将每个微博用户作为文档,以中心用户所有社交兴趣圈中的成员构成文档集合,通过排序,将TF×IDF值高的兴趣标签作为社交兴趣圈的标注。
一种基于亲密度和影响力的微博社交兴趣圈挖掘装置,所述挖掘装置包括:
发现模块,用于基于KCC算法对中心用户一级交互图发现社交兴趣圈种子;
第一扩充模块,用于根据节点间的亲密度扩充所述社交兴趣圈种子;
计算模块,用于通过用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力;
第二扩充模块,用于通过所述用户影响力对扩充后的社交兴趣圈种子再次进行扩充;
标注模块,用于通过二次扩充后的社交兴趣圈种子对发现的社交兴趣圈进行自动标注。
所述第一扩充模块包括:
查找子模块,用于找出一级交互图节点集中没有被划分进任何一个社交兴趣圈中的节点子集,作为候选节点集合;
第一判断子模块,用于按照亲密度降序的次序依次计算候选节点集合中,每个候选节点与现有社交兴趣圈之间的亲密度距离,如果距离小于设定的阈值,则将候选节点划分入现有社交兴趣圈;否则为候选节点新建一个社交兴趣圈;
扫描子模块,用于扫描所有社交兴趣圈,如果社交兴趣圈的尺寸小于团尺寸参数K,则将社交兴趣圈删除。
所述第二扩充模块包括:
第二判断子模块,用于依照影响力降序的次序考察二级交互图中还没有加入任何社交兴趣圈的用户节点;通过模块度函数作为判断一个用户节点能否扩充进现有社交兴趣圈的衡量标准;当用户节点扩充入现有社交兴趣圈后,如果其模块度值不降低,则将用户节点扩充到此现有社交兴趣圈,否则不扩充。
所述标注模块包括:
过滤子模块,用于将兴趣标签作为词项,将每个社交兴趣圈视作文本,将挖掘出的所有社交兴趣圈看作文档集合,如果IDF值越高,表明兴趣标签区分社交兴趣圈的能力越差,过滤掉区分能力差的兴趣标签;
标注子模块,用于将兴趣标签作为词项,将每个微博用户作为文档,以中心用户所有社交兴趣圈中的成员构成文档集合,通过排序,将TF×IDF值高的兴趣标签作为社交兴趣圈的标注。
本发明提供的技术方案的有益效果是:本发明弥补了现有技术中的不足,综合考虑网络连接结构以及亲密度、影响力等社交因素,能够在复杂的微博社交网络中,挖掘指定用户社交网络中的存在重叠现象的多个社交兴趣圈。挖掘得到的社交兴趣圈能够应用于兴趣建模、协同推荐、个性化搜索和排名、精准广告投放和知识图谱等诸多领域,具有广泛的应用前景和价值。
附图说明
图1为一种基于亲密度和影响力的微博社交兴趣圈挖掘方法的流程图;
图2为基于亲密度及影响力的微博社交兴趣圈挖掘方法与RSCM算法对比实验结果图;
图3为基于亲密度及影响力的微博社交兴趣圈挖掘方法与K-means算法的对比实验结果图;
图4为一种基于亲密度和影响力的微博社交兴趣圈挖掘装置的结构示意图;
图5为第一扩充模块的示意图;
图6为第二扩充模块的示意图;
图7为标注模块的示意图。
附图中,各部件的列表如下:
1:发现模块;2:第一扩充模块;
3:计算模块;4:第二扩充模块;
5:标注模块;21:查找子模块;
22:第一判断子模块;23:扫描子模块;
41:第二判断子模块;51:过滤子模块;
52:标注子模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于亲密度和影响力的微博社交兴趣圈挖掘方法,参见图1,该挖掘方法包括以下步骤:
101:基于KCC算法对中心用户一级交互图进行社交兴趣圈种子发现;
在基于用户的关注关系构建的一级交互图内,使用K团社区发现算法即KCC(K-clique-community)算法挖掘出若干个K团社区作为社交兴趣圈的种子。一个社交兴趣圈的种子可以解释为由一系列更小的并且相互之间共享节点的完全子图组成的集合,在数学文献中,这些完全子图被称为K团,K代表团中的节点数量,即团的尺寸。网络中的K团完全子图称为K团社区。
其中,KCC算法为本领域技术人员所公知,本发明实施例对此不做赘述。
102:将节点间的亲密关系即亲密度作为扩充社交兴趣圈种子的依据;
在步骤101中的第一次社交兴趣圈种子挖掘结果的基础上,首先在中心用户一级交互图的范围内,计算所有节点与中心节点之间的亲密度,并按照亲密度降序进行排序;找出一级交互图节点集中没有被划分进任何一个社交兴趣圈中的节点子集,作为候选节点集合;按照亲密度降序的次序依次考虑候选节点集合中的每个候选节点,计算候选节点与现有社交兴趣圈之间的亲密度距离,如果距离小于设定的阈值,即表明足够近,则将此候选节点划分入该社交兴趣圈;否则为该候选节点新建一个社交兴趣圈;重新扫描所有社交兴趣圈,如果该社交兴趣圈圈的尺寸小于KCC种子挖掘算法设定的团尺寸参数K,则将该社交兴趣圈删除。
103:基于用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力;
根据微博用户间关注关系、发微博、阅读微博和评论微博等社交行为,重新定义PageRank算法节点转移概率的计算公式,从而对用户的影响力进行计算。
104:基于用户影响力对社交兴趣圈种子再次进行扩充;
首先,使用重新定义的PageRank算法计算指定中心用户二级交互图内所有用户的影响力;之后,依照影响力降序的次序考察二级交互图中还没有加入任何社交兴趣圈的用户节点。模块度是目前常用的一种衡量网络社交兴趣圈结构强度的方法,因此本发明实施例引用Newman提出的经典模块度函数Q,将之作为判断一个用户节点能否扩充进现有社交兴趣圈的衡量标准;即将用户扩充入社交兴趣圈后,如果社交兴趣圈的模块度值不降低,则说明有增强社交兴趣圈结构强度的可能,可以扩充到现有社交兴趣圈,否则不扩充。
105:对发现的社交兴趣圈进行自动标注。
使用每个用户的微博兴趣标签进行投票,用得票最多的三个兴趣标签对社交兴趣圈进行自动标注。在进行投票时,要考虑用户影响力的因素,同时也要考虑过滤掉区分度不高的关键词。
综上所述,本发明实施例通过上述步骤101-步骤105实现了充分结合微博用户的社交关系,从全局网络考虑来发现重叠社交兴趣圈,识别社交兴趣圈。
实施例2
下面结合具体的计算公式、例子对实施例1中的方案进行详细描述,详见下文:
201:基于团理论挖掘社交兴趣圈种子;
在目前的社交兴趣圈发现方法中,一些方法首先挖掘社交兴趣圈的核心,之后对社交兴趣圈的核心进行扩充,形成最终的社交兴趣圈划分结果,这样很容易形成冰山孤岛问题,因为有些选中的社交兴趣圈核心可能属于同一个社交兴趣圈。为了避免冰山孤岛,本发明实施例采用K团社区KCC方法直接对微博用户一级图中的最大团进行处理。
在社交兴趣圈种子发现之前,定义两个概念:朋友集合和一级交互图。
定义1朋友集合:定义Friends(node1)为由一级交互图中某节点node1的所有朋友节点(节点node1所关注的节点)组成的集合,如公式(1)所示。
Friends(node1)={node|在微博中节点node1关注node}(1)
定义2一级交互图:定义中心用户一级交互图G1,如公式(2)至公式(4)。
G1=(V1,E1),|V1|=n1,|E1|=m1(2)
V1={node|node∈Friends(center)}∪center(3)
E1={(node1,node2)|node2∈Friends(node1)},node1,node2∈V1(4)
其中,center代表中心用户节点即本发明实施例实验研究的节点;node1和node2表示节点;V1代表一级交互图中的节点;E1代表一级交互图中V1中的某个节点与该节点的朋友节点之间的关系(例如:E1代表一级交互图中V1中的第三个节点,与第三个节点的朋友节点之间的关系);n1代表一级交互图的节点个数;m1代表一级交互图的线的个数;Friends(center)代表中心用户节点center的朋友集合。
其中,一级交互图的节点集包括了中心用户以及其直接关注的其他微博用户,边集则由这些用户之间的单向关注关系组成,微博用户的一级交互图是一个有向无权图。
一个社交兴趣圈种子定义为一个一级交互图中节点集的子集,并且该子集中的任意一点到集合其他点之间的链接数量要多于集合外一点到该子集合点的链接数量;即种子节点之间的联系非常紧密,同时种子与外部节点之间的联系相对稀疏,也可以被解释为由一系列更小的并且相互之间共享节点的完全子图组成的集合。这些完全子图被称为K团(K-cliques),K代表团中的节点数量,即团的尺寸。K团社区的相关概念如下:
最大团:不存在更大尺寸的团将其完全包含在内,这样的团称为最大团,即若社交网络中有一个团,其尺寸为N(团中的节点数为N,节点分别为n1,n2,…,nN),网络中不存在一个尺寸大于N且节点包含n1,n2,…,nN的团,那么这个尺寸为N的团就是最大团。
K团社区:一个网络中的K团连通组件称为K团社区。
KCC算法实现过程中遵循的两个团结论:
1)如果网络中存在一个尺寸为N≥K的最大团,则该最大团本身构成一个尺寸为N的K团社区。
2)如果网络中任意两个最大团之间的重叠部分尺寸大于等于k-2,则这两个最大团至少能够组成一个尺寸最小等于k的K团社区。
基于定义1、定义2和遵循的团结论,使用KCC算法在微博用户一级图的范围内,找到所有的最大团,然后采用最大团重叠挖掘K团社区,得到的K团社区作为目前的社交兴趣圈种子。
202:基于亲密度方法扩充现有的社交兴趣圈种子;
扩充社交兴趣圈种子需要满足的三个主要特征:第一,现有社交兴趣圈种子与其附属的扩充圈应该是离散的,即二者没有共有的节点;第二,社交兴趣圈种子到扩充圈中节点的边数量要多于种子到其他点的边数量;第三,社交兴趣圈种子内部的边数量少于从社交兴趣圈种子到扩充圈的边数量。
定义3公共朋友集合:定义CF(node1,node2)为一级交互图中两个用户节点的公共朋友集合,具体如公式(5)所示。
CF(node1,node2)={node|node∈Friends(node1)∧node∈Friends(node2)},
node1,node2∈V1(5)
其中,Friends(node1)和Friends(node2)分别表示节点node1和node2的朋友集合,具体公式如定义1。
定义4亲密度:定义Closeness(node1,node2)为一级交互图中两个用户节点的亲密度,具体如公式(6)所示。
Closeness(node1,node2)=|CF(node1,node2)|(6)
其中,CF(node1,node2)是定义3中的公共朋友集合;|CF(node1,node2)|是node1和node2的公共朋友的数量。
定义5亲密度距离:定义D(circle,node)为一级交互图中某用户节点node到一个社交兴趣圈circle的亲密度距离,具体如公式(7)所示。
i∈circle,s=|circle|
其中,center是中心用户节点;circle表示由中心用户节点构造的社交兴趣圈,i是社交兴趣圈中的一个节点;s表示社交兴趣圈的节点个数;CF(node,center)为某用户节点node与中心用户节点center的公共朋友的集合;CF(node,i)为某用户节点node与社交兴趣圈中的节点i的公共朋友集合。
基于亲密度和亲密度距离定义,在中心用户一级交互图的范围内,计算所有节点与中心节点之间的亲密度,并按照亲密度降序进行排序。
203:找出一级交互图节点集中没有被划分进任何一个社交兴趣圈中的节点子集,作为候选节点集合;
204:按照亲密度降序的次序依次考虑候选节点集合中的每个候选节点,计算候选节点与现有社交兴趣圈之间的亲密度距离,如果距离足够近,则将节点划分入该社交兴趣圈,否则为该节点新建一个社交兴趣圈;
205:扫描所有的社交兴趣圈,如果当前社交兴趣圈的尺寸小于参数K,则删除当前社交兴趣圈;
206:根据微博用户间关注关系、发微博阅读微博和评论微博等社交行为,重新定义PageRank算法节点转移概率的计算公式;
其中,PageRank算法的核心是其底层随机游走模型中,节点间转移概率的计算。根据微博用户间关注关系、发微博阅读微博和评论微博等社交行为,重新定义PageRank算法节点转移概率的计算公式,为用户影响力计算做准备。
定义6二级交互图:定义中心微博用户二级交互图为G2(V2,E2),具体如公式(8)所示。
其中,V1是一级交互图中的节点,V2是二级交互图中的节点,E2是二级交互图中的任意节点node1和其任意朋友node2之间的关系。
定义7微博兴趣特征向量:定义Vector(user)为用户user的微博兴趣特征向量,具体如公式(9)所示。
Vector(user)=[id1=cn(user,id1),id2=cn(user,id2),…,idt=cn(user,idt)],
t=|Tweets(user)|,idt∈Tweets(user)
(9)
其中,cn(user,idt)表示用户user对微博idt的评论条数,Tweets(user)表示用户user二级交互图中所有用户所发微博的集合,t表示微博集合中微博的条数;cn(user,id1)为用户user对微博id1的评论条数;cn(user,id2)为用户user对微博id2的评论条数。
在定义7,使用兴趣向量表示用户在这条微博上的兴趣程度。由此,可以使用余弦相似度计算任意两个微博用户之间的兴趣相似度,如公式(10)所示。
其中,用i和j表示用户节点,Sim(i,j)表示微博用户节点i和j的兴趣相似度;Vector(i)为用户节点i的微博兴趣特征向量;Vector(j)为用户节点j的微博兴趣特征向量。
基于公式(10)中的用户微博兴趣相似度,本发明实施例对PageRank算法进行了扩展,重新定义了随机游走的转移概率,如公式(11)所示。
其中,|Tweets(j)|表示用户节点j的二级交互图中所有用户所发微博的集合的条数;|Tweets(n)|表示用户节点i的任意朋友n的二级交互图中所有用户发布的微博集合的条数;Sim(i,n)表示用户节点i和其任意朋友n之间的兴趣相似度。
基于重新定义的转移概率,微博用户的影响力(PR)值可以使用PageRank算法计算,如公式(12)所示。
其中,q表示权重因子,本发明实施例以q=0.85为例进行说明;Pij是公式(12)中用户节点i到用户节点j的转移概率,|V2|是二级交互图中用户节点的个数;PR(j)是用户节点j的影响力。
207:基于用户影响力扩充社交兴趣圈种子;
使用公式(12)计算中心用户二级交互图范围内所有用户的影响力,并降序排列形成候选节点;使用Newman提出的经典模块度函数Q,如公式(12),作为衡量标准判断用户节点能否扩充到现有社交兴趣圈中,即如果将该用户扩充入社交兴趣圈后社交兴趣圈网络的模块度值不降低,则将该用户扩充到此社交兴趣圈中。
其中,A是社交兴趣圈网络对应的邻接矩阵,如果节点i到节点j之间存在边,则Aij=1,否则为0。m是网络中的总连接数,则2m为总度数;ki是节点i的度数;kj是节点j的度数。Z是n*r的矩阵,n是社交兴趣圈网络中所有节点的个数,r是社交兴趣圈数,如果节点i输入社交兴趣圈r,则Zir=1,否则为0。Zir和Zjr都是矩阵Z中的元素。
模块度值Q的大小取决于网络中节点的社交兴趣圈分配,即网络的社交兴趣圈划分情况,因此,可使用Q来衡量网络社交兴趣圈划分质量,其值越接近1则表示网络划分出的社交兴趣圈结构的强度越强,划分质量越好。
208:第一次过滤,将投票使用的微博兴趣标签作为词项频率-逆向文本频率(TF-IDF)算法中的词项,将每个社交兴趣圈视作文本,将挖掘出的所有社交兴趣圈看作文档集合,计算IDF值,即如果一个兴趣标签在越多的社交兴趣圈中出现,则区分能力越差,过滤掉区分能力最差的一部分兴趣标签。
209:第二次过滤,仍将兴趣标签作为TF-IDF算法中的词项,但将每个微博用户作为文档,以中心用户所有社交兴趣圈中的成员构成文档集合,计算TF×IDF值,即如果兴趣标签在所有社交兴趣圈里越多的用户中出现,则区分能力越差,可以通过排序,将TF×IDF值最高的三个兴趣标签作为社交兴趣圈的标注。
综上所述,本发明实施例通过上述步骤201-步骤208采用逐步扩充的策略,同时考虑了网络连接结构、用户亲密度和影响力三方面的因素,准确划分社交兴趣圈的同时,有效的避免了冰川孤岛现象;同时为社交兴趣圈发现、好友推荐、信息推荐等提供了一种新的技术支持。
实施例3
下面结合具体的试验对实施例1和2中的方案进行可行性验证,详见下文描述:
F1-Measure使用准确率和召回率计算,正确率衡量所提算法挖掘结果的正确率,召回率衡量所提算法挖掘结果的查全率,F1-Measure是二者的综合评价指标。
MAP值通过计算每个社交兴趣圈的AP值的平均值得到,AP值能够反映出社交兴趣圈中划分正确的成员的位置信息,即如果划分正确的成员在社交兴趣圈中处于越靠前的位置,则该圈AP值越高。F1-Measure和MAP的具体公式如公式(14)至公式(18)所示。
其中,Circleoriginal表示挖掘出的所有原始社交兴趣圈的成员集合;Circleadjusted表示使用用户反馈数据调整后得到的,用户认为正确的所有兴趣社交圈的成员集合;N表示Circleoriginal中正确的成员数量,Positioni表示社交兴趣圈中第i个正确成员的位置。
微博社交兴趣圈挖掘算法中,提到两个算法参数:第一次社交兴趣圈种子划分中的社交兴趣圈数量K的取值;亲密度扩充算法中的亲密度阈值α。参见图3,实验表明,α=0.6时,算法的F1-Measure值(简称F1)和MAP值同时达到最高,分别为86.91%和81.42%。而K=4时实现相应最好。因此本发明实施例使用的参数K=4α=0.6。
为检验本方法挖掘结果的准确性,将使用微博用户真实社交圈挖掘算法(RealSocialCircleMining,RSCM)和K-means算法作为基线方法,进行MAP值的对比实验。
本方法与RSCM算法的对比实验结果如图2所示,本方法的F1值和MAP值分别达到了89.11%和79.57%;与RSCM算法相比,F1值和MAP值分别提高了15.26和11.99个百分点,算法挖掘结果准确率方面有较为明显的提升。
同时本方法与K-means算法的对比实验如图3所示,本方法在准确性方面明显高于K-means算法,在F1值和MAP方面分别提升了19.16和20.45个百分点。
综上所述,通过上述实验数据验证了本方法的可行性,满足了实际应用中的需要。
实施例4
一种基于亲密度和影响力的微博社交兴趣圈挖掘装置,参见图4,该挖掘装置包括:
发现模块1,用于基于KCC算法对中心用户一级交互图发现社交兴趣圈种子;
第一扩充模块2,用于根据节点间的亲密度扩充所述社交兴趣圈种子;
计算模块3,用于通过用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力;
第二扩充模块4,用于通过所述用户影响力对扩充后的社交兴趣圈种子再次进行扩充;
标注模块5,用于通过二次扩充后的社交兴趣圈种子对发现的社交兴趣圈进行自动标注。
其中,参见图5,该第一扩充模块2包括:
查找子模块21,用于找出一级交互图节点集中没有被划分进任何一个社交兴趣圈中的节点子集,作为候选节点集合;
第一判断子模块22,用于按照亲密度降序的次序依次计算候选节点集合中,每个候选节点与现有社交兴趣圈之间的亲密度距离,如果距离小于设定的阈值,则将候选节点划分入现有社交兴趣圈;否则为候选节点新建一个社交兴趣圈;
扫描子模块23,用于扫描所有社交兴趣圈,如果社交兴趣圈的尺寸小于团尺寸参数K,则将社交兴趣圈删除。
其中,参见图6,该第二扩充模块4包括:
第二判断子模块41,用于依照影响力降序的次序考察二级交互图中还没有加入任何社交兴趣圈的用户节点;通过模块度函数作为判断一个用户节点能否扩充进现有社交兴趣圈的衡量标准;当用户节点扩充入现有社交兴趣圈后,如果其模块度值不降低,则将用户节点扩充到此现有社交兴趣圈,否则不扩充。
其中,参见图7,该标注模块5包括:
过滤子模块51,用于将兴趣标签作为词项,将每个社交兴趣圈视作文本,将挖掘出的所有社交兴趣圈看作文档集合,如果IDF值越高,表明兴趣标签区分社交兴趣圈的能力越差,过滤掉区分能力差的兴趣标签;
标注子模块52,用于将兴趣标签作为词项,将每个微博用户作为文档,以中心用户所有社交兴趣圈中的成员构成文档集合,通过排序,将TF×IDF值高的兴趣标签作为社交兴趣圈的标注。
本发明实施例对上述模块、子模块的执行主体不做限制,只要能实现上述功能的单片机、PC机均可。
综上所述,本发明实施例通过上述模块、子模块采用逐步扩充的策略,同时考虑了网络连接结构、用户亲密度和影响力三方面的因素,准确划分社交兴趣圈的同时,有效的避免了冰川孤岛现象;同时为社交兴趣圈发现、好友推荐、信息推荐等提供了一种新的技术支持。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于亲密度和影响力的微博社交兴趣圈挖掘方法,其特征在于,所述挖掘方法包括以下步骤:
基于KCC算法对中心用户一级交互图发现社交兴趣圈种子;
根据节点间的亲密度扩充所述社交兴趣圈种子;
通过用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力;通过所述用户影响力对扩充后的社交兴趣圈种子再次进行扩充;
通过二次扩充后的社交兴趣圈种子对发现的社交兴趣圈进行自动标注。
2.根据权利要求1所述的一种于亲密度和影响力的微博社交兴趣圈挖掘方法,其特征在于,所述根据节点间的亲密度扩充所述社交兴趣圈种子的步骤具体为:
找出一级交互图节点集中没有被划分进任何一个社交兴趣圈中的节点子集,作为候选节点集合;
按照亲密度降序的次序依次计算候选节点集合中,每个候选节点与现有社交兴趣圈之间的亲密度距离,如果距离小于设定的阈值,则将候选节点划分入现有社交兴趣圈;否则为候选节点新建一个社交兴趣圈;
扫描所有社交兴趣圈,如果社交兴趣圈的尺寸小于团尺寸参数K,则将社交兴趣圈删除。
3.根据权利要求1所述的一种于亲密度和影响力的微博社交兴趣圈挖掘方法,其特征在于,所述通过用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力的步骤具体为:
根据微博用户间关注关系、发微博、阅读微博、以及评论微博的社交行为,定义PageRank算法节点转移概率的计算公式,并计算用户影响力。
4.根据权利要求1所述的一种于亲密度和影响力的微博社交兴趣圈挖掘方法,其特征在于,所述通过所述用户影响力对扩充后的社交兴趣圈种子再次进行扩充的步骤具体为:
依照影响力降序的次序考察二级交互图中还没有加入任何社交兴趣圈的用户节点;通过模块度函数作为判断一个用户节点能否扩充进现有社交兴趣圈的衡量标准;
当用户节点扩充入现有社交兴趣圈后,如果其模块度值不降低,则将用户节点扩充到此现有社交兴趣圈,否则不扩充。
5.根据权利要求1所述的一种于亲密度和影响力的微博社交兴趣圈挖掘方法,其特征在于,所述通过二次扩充后的社交兴趣圈种子对发现的社交兴趣圈进行自动标注的步骤具体为:
将兴趣标签作为词项,将每个社交兴趣圈视作文本,将挖掘出的所有社交兴趣圈看作文档集合,如果IDF值越高,表明兴趣标签区分社交兴趣圈的能力越差,过滤掉区分能力差的兴趣标签;
将兴趣标签作为词项,将每个微博用户作为文档,以中心用户所有社交兴趣圈中的成员构成文档集合,通过排序,将TF×IDF值高的兴趣标签作为社交兴趣圈的标注。
6.一种基于亲密度和影响力的微博社交兴趣圈挖掘装置,其特征在于,所述挖掘装置包括:
发现模块,用于基于KCC算法对中心用户一级交互图发现社交兴趣圈种子;
第一扩充模块,用于根据节点间的亲密度扩充所述社交兴趣圈种子;
计算模块,用于通过用户微博兴趣相似度,对PageRank算法进行扩展,计算用户影响力;
第二扩充模块,用于通过所述用户影响力对扩充后的社交兴趣圈种子再次进行扩充;
标注模块,用于通过二次扩充后的社交兴趣圈种子对发现的社交兴趣圈进行自动标注。
7.根据权利要求6所述的一种于亲密度和影响力的微博社交兴趣圈挖掘装置,其特征在于,所述第一扩充模块包括:
查找子模块,用于找出一级交互图节点集中没有被划分进任何一个社交兴趣圈中的节点子集,作为候选节点集合;
第一判断子模块,用于按照亲密度降序的次序依次计算候选节点集合中,每个候选节点与现有社交兴趣圈之间的亲密度距离,如果距离小于设定的阈值,则将候选节点划分入现有社交兴趣圈;否则为候选节点新建一个社交兴趣圈;
扫描子模块,用于扫描所有社交兴趣圈,如果社交兴趣圈的尺寸小于团尺寸参数K,则将社交兴趣圈删除。
8.根据权利要求6所述的一种于亲密度和影响力的微博社交兴趣圈挖掘装置,其特征在于,所述第二扩充模块包括:
第二判断子模块,用于依照影响力降序的次序考察二级交互图中还没有加入任何社交兴趣圈的用户节点;通过模块度函数作为判断一个用户节点能否扩充进现有社交兴趣圈的衡量标准;当用户节点扩充入现有社交兴趣圈后,如果其模块度值不降低,则将用户节点扩充到此现有社交兴趣圈,否则不扩充。
9.根据权利要求6所述的一种于亲密度和影响力的微博社交兴趣圈挖掘装置,其特征在于,所述标注模块包括:
过滤子模块,用于将兴趣标签作为词项,将每个社交兴趣圈视作文本,将挖掘出的所有社交兴趣圈看作文档集合,如果IDF值越高,表明兴趣标签区分社交兴趣圈的能力越差,过滤掉区分能力差的兴趣标签;
标注子模块,用于将兴趣标签作为词项,将每个微博用户作为文档,以中心用户所有社交兴趣圈中的成员构成文档集合,通过排序,将TF×IDF值高的兴趣标签作为社交兴趣圈的标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510615553.2A CN105260410A (zh) | 2015-09-22 | 2015-09-22 | 基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510615553.2A CN105260410A (zh) | 2015-09-22 | 2015-09-22 | 基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105260410A true CN105260410A (zh) | 2016-01-20 |
Family
ID=55100102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510615553.2A Pending CN105260410A (zh) | 2015-09-22 | 2015-09-22 | 基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105260410A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107240029A (zh) * | 2017-05-11 | 2017-10-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN108062385A (zh) * | 2017-12-14 | 2018-05-22 | 微梦创科网络科技(中国)有限公司 | 用户兴趣挖掘的方法及系统 |
CN108257036A (zh) * | 2018-01-12 | 2018-07-06 | 西安电子科技大学 | 基于种子节点扩展重叠社区的发现方法、网络社区系统 |
CN108366012A (zh) * | 2018-03-08 | 2018-08-03 | 北京奇艺世纪科技有限公司 | 一种社交关系建立方法、装置及电子设备 |
CN109447669A (zh) * | 2018-08-07 | 2019-03-08 | 中国银联股份有限公司 | 一种商圈模型建立方法及其系统 |
CN109996192A (zh) * | 2018-01-02 | 2019-07-09 | 中国移动通信有限公司研究院 | 基于亲密度的信息推荐方法、装置及计算机可读存储介质 |
CN111221875A (zh) * | 2020-01-06 | 2020-06-02 | 河南理工大学 | 一种基于约束的种子节点数据挖掘系统 |
CN112084335A (zh) * | 2020-09-09 | 2020-12-15 | 电子科技大学 | 一种基于信息融合的社交媒体用户账号分类方法 |
CN112163169A (zh) * | 2020-09-29 | 2021-01-01 | 海南大学 | 基于知识图谱的多模态用户情感分析方法 |
CN113590926A (zh) * | 2020-04-30 | 2021-11-02 | 北京爱笔科技有限公司 | 用户兴趣的识别方法、装置、设备及计算机可读介质 |
CN114169418A (zh) * | 2021-11-30 | 2022-03-11 | 北京百度网讯科技有限公司 | 标签推荐模型训练方法及装置、标签获取方法及装置 |
CN114817563A (zh) * | 2022-04-27 | 2022-07-29 | 电子科技大学 | 基于最大团发现的特定Twitter用户群体的挖掘方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130227104A1 (en) * | 2012-02-28 | 2013-08-29 | Samsung Electronics Co., Ltd. | Topic-based community index generation apparatus and method and topic-based community searching apparatus and method |
CN103853726A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种挖掘社区用户的方法及装置 |
-
2015
- 2015-09-22 CN CN201510615553.2A patent/CN105260410A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130227104A1 (en) * | 2012-02-28 | 2013-08-29 | Samsung Electronics Co., Ltd. | Topic-based community index generation apparatus and method and topic-based community searching apparatus and method |
CN103853726A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种挖掘社区用户的方法及装置 |
Non-Patent Citations (2)
Title |
---|
徐立秋: "蛋白质复合体的模块度函数与识别算法研究", 《万方数据库哈尔滨工业大学硕士学位论文》 * |
曹坤宇: "基于亲密度及影响力的微博社交兴趣圈挖掘算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107240029A (zh) * | 2017-05-11 | 2017-10-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN107240029B (zh) * | 2017-05-11 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN108062385A (zh) * | 2017-12-14 | 2018-05-22 | 微梦创科网络科技(中国)有限公司 | 用户兴趣挖掘的方法及系统 |
CN108062385B (zh) * | 2017-12-14 | 2021-10-08 | 微梦创科网络科技(中国)有限公司 | 用户兴趣挖掘的方法及系统 |
CN109996192B (zh) * | 2018-01-02 | 2022-02-18 | 中国移动通信有限公司研究院 | 基于亲密度的信息推荐方法、装置及计算机可读存储介质 |
CN109996192A (zh) * | 2018-01-02 | 2019-07-09 | 中国移动通信有限公司研究院 | 基于亲密度的信息推荐方法、装置及计算机可读存储介质 |
CN108257036A (zh) * | 2018-01-12 | 2018-07-06 | 西安电子科技大学 | 基于种子节点扩展重叠社区的发现方法、网络社区系统 |
CN108366012A (zh) * | 2018-03-08 | 2018-08-03 | 北京奇艺世纪科技有限公司 | 一种社交关系建立方法、装置及电子设备 |
CN109447669A (zh) * | 2018-08-07 | 2019-03-08 | 中国银联股份有限公司 | 一种商圈模型建立方法及其系统 |
CN111221875A (zh) * | 2020-01-06 | 2020-06-02 | 河南理工大学 | 一种基于约束的种子节点数据挖掘系统 |
CN111221875B (zh) * | 2020-01-06 | 2022-11-04 | 河南理工大学 | 一种基于约束的种子节点数据挖掘系统 |
CN113590926A (zh) * | 2020-04-30 | 2021-11-02 | 北京爱笔科技有限公司 | 用户兴趣的识别方法、装置、设备及计算机可读介质 |
CN112084335A (zh) * | 2020-09-09 | 2020-12-15 | 电子科技大学 | 一种基于信息融合的社交媒体用户账号分类方法 |
CN112163169A (zh) * | 2020-09-29 | 2021-01-01 | 海南大学 | 基于知识图谱的多模态用户情感分析方法 |
CN114169418A (zh) * | 2021-11-30 | 2022-03-11 | 北京百度网讯科技有限公司 | 标签推荐模型训练方法及装置、标签获取方法及装置 |
CN114169418B (zh) * | 2021-11-30 | 2023-12-01 | 北京百度网讯科技有限公司 | 标签推荐模型训练方法及装置、标签获取方法及装置 |
CN114817563A (zh) * | 2022-04-27 | 2022-07-29 | 电子科技大学 | 基于最大团发现的特定Twitter用户群体的挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105260410A (zh) | 基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置 | |
Wei et al. | Constructing popular routes from uncertain trajectories | |
Wu et al. | Mapping the knowledge domain of smart city development to urban sustainability: a scientometric study | |
Wu et al. | Inferring demographics from human trajectories and geographical context | |
Lian et al. | Learning location naming from user check-in histories | |
CN103020302B (zh) | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统 | |
Li et al. | A comparative analysis of evolutionary and memetic algorithms for community detection from signed social networks | |
CN108446312B (zh) | 基于深度卷积语义网的光学遥感图像检索方法 | |
CN104657361A (zh) | 一种数据处理方法及装置 | |
CN102456064B (zh) | 在社会网络中实现社区发现的方法 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
Zhang et al. | Detecting colocation flow patterns in the geographical interaction data | |
CN107016566A (zh) | 基于本体的用户模型构建方法 | |
Song et al. | Personalized POI recommendation based on check-in data and geographical-regional influence | |
Pla-Sacristán et al. | Finding landmarks within settled areas using hierarchical density-based clustering and meta-data from publicly available images | |
CN114936307A (zh) | 一种范式化图模型构建方法 | |
Ariza-López et al. | DEMs: An approach to users and uses from the quality perspective | |
CN102193928B (zh) | 基于多层文本分类器的轻量级本体匹配方法 | |
Zheng et al. | Topic model-based road network inference from massive trajectories | |
CN110633890A (zh) | 一种土地利用效率判断方法和系统 | |
Sundaram et al. | A Delaunay diagram‐based min–max CP‐tree algorithm for spatial data analysis | |
Du et al. | Similarity measurements on multi‐scale qualitative locations | |
CN104598613A (zh) | 一种用于垂直领域的概念关系构建方法和装置 | |
Delafontaine et al. | Assessment of sliver polygons in geographical vector data | |
YOUSEFI RUBIAT et al. | Problem solving of uncertainty and independence factors in Agricultural Capability Evaluation by Using ANP FUZZY Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160120 |