CN103593393A - 基于微博互动关系挖掘社交圈的方法及装置 - Google Patents

基于微博互动关系挖掘社交圈的方法及装置 Download PDF

Info

Publication number
CN103593393A
CN103593393A CN201310418486.6A CN201310418486A CN103593393A CN 103593393 A CN103593393 A CN 103593393A CN 201310418486 A CN201310418486 A CN 201310418486A CN 103593393 A CN103593393 A CN 103593393A
Authority
CN
China
Prior art keywords
microblog users
social circle
utility value
candidate collection
subgraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310418486.6A
Other languages
English (en)
Other versions
CN103593393B (zh
Inventor
姜贵彬
张俊林
刘莹莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201310418486.6A priority Critical patent/CN103593393B/zh
Publication of CN103593393A publication Critical patent/CN103593393A/zh
Application granted granted Critical
Publication of CN103593393B publication Critical patent/CN103593393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于微博互动关系挖掘社交圈的方法及装置。该方法包括:A,获取与目标微博用户具有互动行为的微博用户集合;B,依据互动行为关系,构造用户关系拓扑图,挖掘得到全联通子图,计算各全联通子图的效用值并存储;C,针对每一全联通子图,依据互动行为关系生成扩充微博用户集合;D,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,加入存储的全联通子图;E,计算加入集合前后的效用值,如果扩充后效用值变大,则将其扩充到新集合中;F,判断是否已选取完微博用户,如果不是,遍历扩充微博用户集合,返回执行D,否则,形成社交圈集合。应用本发明,可以挖掘用户的社交圈和兴趣圈。

Description

基于微博互动关系挖掘社交圈的方法及装置
技术领域
本发明涉及社交网络(SNS,Social NetWorking Services)及数据挖掘技术,尤其涉及一种基于微博互动关系挖掘社交圈的方法及装置。
背景技术
微型博客(微博)作为SNS应用的一部分,是一个基于微博用户关系的信息分享、传播以及获取平台,微博用户可以通过个人PC、移动电话等终端设备,通过微博消息或者微博图片来表达自己情感,与关注自己的微博用户分享,从而实现个人信息即时分享以及微博用户间互动,是目前发展最为迅猛的互联网业务。
在微博及SNS上,微博用户期望能够获取与自身有共同兴趣或业务需求的社交圈信息,从而提升微博体验,其中,一个社交圈中可以包括一个或多个微博用户。因而,需要通过一定的挖掘算法,获取与自身相关的社交圈信息。
GN(Girvan-Newman)算法是一种常用的挖掘社交圈信息的算法,最初由Girvan和Newman在2002年提出。GN算法的基本思想是:在由微博用户构成的微博网络中,每一微博用户对应微博网络中的一节点,如果节点与节点之间相关联,则通过边相连,定义微博网络中所有最短路径中经过边的路径的数目占最短路径总数的比例为边介数,用以反映相应的边在整个微博网络中的作用和影响力。这样,通过计算微博网络中每条边的介数,然后,从微博网络中,删除介数最大的边,如此不断循环,一直迭代删除当前介数最大的边,最终形成的由边及相应节点组成的社交圈即为挖掘出的社交圈。
但由于GN算法是一种单分类方法,也就是说,对于网络中的节点,通过GN算法,只能将微博用户分类到一个社交圈,不能将微博用户分类到多个社交圈。这与实际应用场景具有较大差异,即实际应用中,微博用户可以同时属于多个社交圈。
为了解决实际应用中微博用户可属于多个社交圈的技术问题,现有技术提出了采用最大团结构(max clique)获取微博用户所属社交圈信息的方法。最大团结构算法是一种能够进行多分类的社交圈挖掘算法,可以应用于网络中的节点同时属于多个社交圈的情况。最大团结构算法,通过对网络中节点的拓扑结构进行分析,获取满足最大团性质,例如,任意两个节点都有边连接的子图结构,也就是全联通子图,每一满足最大团性质的全联通子图为一个挖掘的社交圈。关于GN算法以及最大团结构算法的详细描述,具体可参见相关技术文献。
由上述可见,虽然最大团结构算法可以挖掘节点属于的多个社交圈,与GN算法的单分类方法相比,具有更多的实用性和应用场景。但最大团结构算法要求获取全联通子图,即获取的全联通子图中,任意两个节点都有边连接,具有非常强的约束,使得获取的全联通子图包含的微博用户数较少,微博用户从推荐的社交圈中获取所需的业务信息较难,使得推荐的全联通子图(社交圈)效率较低,从而不能满足微博用户的业务需求,降低了微博用户的业务体验。
发明内容
本发明的实施例提供一种基于微博互动关系挖掘社交圈的方法,可挖掘用户的社交圈和兴趣圈,为用户提供更优质的个性化服务。
本发明的实施例还提供一种基于微博互动关系挖掘社交圈的装置,可挖掘用户的社交圈和兴趣圈,为用户提供更优质的个性化服务。
为达到上述目的,本发明实施例提供的一种基于微博互动关系挖掘社交圈的方法,该方法包括:
A1,获取与目标微博用户具有互动行为的微博用户集合;
B1,依据互动行为关系,构造用户关系拓扑图,并基于构造的用户关系拓扑图挖掘得到全联通子图,计算挖掘得到的各全联通子图的效用值并分别存储;
C1,针对每一全联通子图,依据互动行为关系生成每一全联通子图对应的扩充微博用户集合;
D1,在扩充微博用户集合中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,加入存储的扩充微博用户集合对应的全联通子图,形成社交圈候选集合;
E1,计算社交圈候选集合的效用值,确定社交圈候选集合的效用值大于或等于对应存储的效用值,更新对应存储的效用值以及全联通子图;
F1,判断加入社交圈候选集合中的微博用户是否为扩充微博用户集合中的最后一个微博用户,如果不是,遍历扩充微博用户集合,返回执行步骤D1,否则,形成社交圈集合。
其中,在所述形成社交圈集合的步骤之前,该方法进一步包括:
A11,在微博互动行为日志中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,构建二级互动集合;
A12,将获取的微博用户加入存储的全联通子图,形成二级社交圈候选集合;
A13,计算二级社交圈候选集合的效用值,如果二级社交圈候选集合的效用值大于或等于对应存储的效用值,更新对应存储的效用值,用二级社交圈候选集合更新存储的全联通子图;否则,不作处理;
A14,判断获取的微博用户是否为二级互动集合中的最后一个微博用户,如果不是,遍历二级互动集合,返回执行步骤A12,否则,获取存储的全联通子图信息,执行所述形成社交圈集合的流程。
其中,每一所述二级社交圈候选集合以及该二级社交圈候选集合的效用值对应一个存储单元。
其中,所述互动行为包括:转发微博、评论微博、私信以及其它微博用户。
其中,计算所述效用值的效用函数为:
Utility ( T ) = Σ α ∃ E Tin Weight ( E α ) Σ β ∃ E Tout Weight ( E β )
式中,
Utility(T)为全联通子图T的效用值;
Weight(Eα)为全联通子图T中内部边α的效用值;
ETin为全联通子图T中所有节点包含的内部边;
Weight(Eβ)为全联通子图T中所有节点与全联通子图T之外的、且在微博用户集合S中的任意节点形成的边β的效用值;
ETout为全联通子图T中所有节点与全联通子图T之外的、且在微博用户集合S中的任意节点形成的所有边。
其中,所述确定社交圈候选集合的效用值大于或等于对应存储的效用值的公式为:
Utility ( Z ) = Σ α ' ' ∃ E Zin Weight ( E α ' ) Σ β ' ∃ E Zout Weight ( E β ' ) ≥ Utility ( T )
式中,
Utility(Z)为将微博用户W融合至全联通子图T中形成的社交圈候选集合Z的效用值;
Weight(Ea′)为社交圈候选集合Z中内部边a′的效用值;
EZin为社交圈候选集合Z中所有节点包含的内部边;
Weight(Eβ′)为社交圈候选集合Z中所有节点与社交圈候选集合Z之外的、且在微博用户集合S中的任意节点形成的边β′的效用值;
EZout为社交圈候选集合Z中所有节点与社交圈候选集合Z之外的、且在微博用户集合S中的任意节点形成的所有边;
Utility(T)为存储的效用值。
其中,所述方法进一步包括:
确定社交圈候选集合的效用值小于对应存储的效用值,直接执行步骤F1。
一种基于微博互动关系挖掘社交圈的装置,该装置包括:全联通子图获取模块、效用值第一计算模块、扩充微博用户集合获取模块、社交圈候选集合获取模块、效用值第二计算模块、效用值处理模块以及社交圈获取模块,其中,
全联通子图获取模块,用于获取与目标微博用户具有互动行为的微博用户,从获取的微博用户组成的微博用户集合中,挖掘得到全联通子图;
效用值第一计算模块,用于计算挖掘得到的各全联通子图的效用值并分别存储;
扩充微博用户集合获取模块,用于在微博用户集合中,针对每一全联通子图,分别获取与全联通子图中的微博用户具有互动行为、且除该全联通子图中微博用户之外的微博用户,生成每一全联通子图对应的扩充微博用户集合;
社交圈候选集合获取模块,用于在扩充微博用户集合中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,加入存储的扩充微博用户集合对应的全联通子图,形成社交圈候选集合,输出至效用值第二计算模块;
效用值第二计算模块,用于计算社交圈候选集合的效用值,输出至效用值处理模块;
效用值处理模块,用于判断社交圈候选集合的效用值是否大于或等于对应存储的效用值,如果是,更新效用值第一计算模块对应存储的效用值,用社交圈候选集合更新社交圈候选集合获取模块中存储的信息;否则,不作处理;
社交圈获取模块,用于判断社交圈候选集合获取模块选取的微博用户是否为扩充微博用户集合中的最后一个微博用户,如果不是,通知社交圈候选集合获取模块遍历选取微博用户,否则,从社交圈候选集合获取模块获取存储的信息,形成社交圈集合。
较佳地,所述装置进一步包括:
二级互动集合生成模块,用于在微博互动行为日志中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,构建二级互动集合,触发社交圈候选集合获取模块从二级互动集合中遍历选取微博用户。
较佳地,所述互动行为包括:转发微博、评论微博、私信以及其它微博用户。
由上述技术方案可见,本发明实施例提供的一种基于微博互动关系挖掘社交圈的方法及装置,在采用最大团结构算法进行全联通子图推荐的基础上,通过利用全联通子图中微博用户的互动行为,生成对应的扩充微博用户集合,依序将扩充微博用户集合中的微博用户扩充加入全联通子图,并进行效用值计算,基于效用值确定是否可以将该微博用户扩充进入对应的全联通子图,扩充了全联通子图包含的微博用户数。从而可挖掘用户的社交圈和兴趣圈,为用户提供更优质的个性化服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,以下描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员而言,还可以根据这些附图所示实施例得到其它的实施例及其附图。
图1为本发明实施例基于微博互动关系挖掘社交圈的方法流程示意图。
图2为本发明实施例基于微博互动关系挖掘社交圈的装置结构示意图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
在微博环境下,如何自动挖掘与微博用户相关联的社交圈信息,对于扩展微博的功能及应用、满足微博用户的业务需求具有十分重要的作用。如果能够对微博用户相关联的社交圈信息进行准确的挖掘,可以提升向微博用户推荐社交圈的效率,这样,可以更好地对微博用户的兴趣进行挖掘;或者,能够向微博用户推荐与该微博用户相关的其它微博用户,从而能够使该微博用户更容易获取所需的业务信息,提升微博用户的业务体验。
本发明实施例中,考虑在现有采用最大团结构算法进行社交圈推荐的基础上,通过利用微博用户之间的互动行为,对获取的全联通子图在微博网络中进行扩展,从而扩展推荐的社交圈中包含的微博用户数。
图1为本发明实施例基于微博互动关系挖掘社交圈的方法流程示意图。参见图1,该流程包括:
步骤101,获取与目标微博用户具有互动行为的微博用户集合,依据互动行为关系,构造用户关系拓扑图,并基于构造的用户关系拓扑图挖掘得到全联通子图;
本步骤中,对于目标微博用户userA,获取所有与该目标微博用户有过互动行为的微博用户集合S;依据目标微博用户的互动关系,构造微博用户关系拓扑图G,并挖掘全联通子图。其中,互动行为包括:转发微博信息、评论微博信息、私信信息以及其它微博用户信息等。举例来说,如果目标微博用户A和微博用户B具有任意上述提到的互动行为,则微博用户B为微博用户A具有互动行为的微博用户,将微博用户B置于微博用户集合中。
本发明实施例中,对于微博用户A,获取所有和微博用户A在微博网络中有过互动行为的微博用户,形成微博用户集合S,并在微博用户集合S中,依据目标微博用户的互动关系,采用最大团结构算法进行挖掘,得到多个最大团结构,即全联通子图,并设置相应的存储单元,每一存储单元存储一全联通子图。具体来说,根据微博用户集合S中的微博用户,构造以各微博用户为节点的互动行为图L,根据各微博用户之间的互动行为,构造互动行为图L中各节点之间连接的边。在互动行为图L中,基于最大团结构算法挖掘最大团结构。其中,最大团结构为互动行为图L中包含的任意全联通子图。例如,假设互动行为图L中有三个节点,分别对应微博用户A、微博用户B以及微博用户C,如果三个节点中,任意两个节点之间具有互动行为,则可以形成一个三节点的团结构。而最大团结构(全联通子图)是指对于某个团结构T来说,无法在互动行为图L中找到任意其它节点n,如果把节点n纳入团结构T,就可以形成更大的一个团结构。例如,对于上述的三节点团结构,如果存在另一节点对应的微博用户D,且该节点和三节点团结构中的所有三个节点都具有互动行为,则微博用户A、微博用户B、微博用户C、微博用户D可以形成一个四节点的团结构,该三节点团结构为非最大团结构;而如果在互动行为图L中,找不到和三节点团结构中的所有三个节点都具有互动行为的其它节点,则该三节点团结构为互动行为图L中的一个最大团结构(全联通子图)。通过最大团结构,可以获取与微博用户具有互动行为的微博用户中,有哪些微博用户是与该微博用户有密切联系的小社交圈。
如何从获取的微博用户中,挖掘得到全联通子图为已知技术,在此略去详述。
本发明实施例中,通过互动行为图获取的最大团结构是一个非常强的约束,要求互动行为图中任意两个节点都存在互动行为。这样,全联通子图中包含的微博用户数较少,从而使得该微博用户不容易获取所需的业务信息,需要进行扩展,因而,执行下述步骤。
步骤102,计算挖掘得到的各全联通子图的效用值并分别存储;
本步骤中,对于挖掘得到的全联通子图为多个的情形,采用效用函数分别计算全联通子图的效用值,每一全联通子图对应一存储单元,用于存储该全联通子图的效用值。
实际应用中,全联通子图以及该全联通子图的效用值可以共享一个存储单元。
计算效用值的效用函数为:
Utility ( T ) = Σ α ∃ E Tin Weight ( E α ) Σ β ∃ E Tout Weight ( E β )
式中,
Utility(T)为全联通子图T的效用值;
Weight(Eα)为全联通子图T中内部边α的效用值;
ETin为全联通子图T中所有节点包含的内部边;
Weight(Eβ)为全联通子图T中所有节点与全联通子图T之外的、且在微博用户集合S中的任意节点形成的边β的效用值;
ETout为全联通子图T中所有节点与全联通子图T之外的、且在微博用户集合S中的任意节点形成的所有边。
效用函数中,分子代表全联通子图T中所有节点包含的内部边的效用值之和。其中,边的效用值可以通过如下方式获取:边的效用值表示两个微博用户之间的互动行为程度,互动越多,则效用值越大。互动行为包括:转发微博、评论微博、私信以及其它微博用户等互动行为中的一种或任意组合。具体地,通过每种微博互动行为的各自得分,进行综合,可以得出互动得分,该互动得分为边的效用值。如何计算边的效用值为已知技术,在此略去详述。
分母为全联通子图T中所有节点与全联通子图T之外的、且在互动行为图S中的任意节点形成的所有边的效用值之和。从公式可以看出,如果某一微博用户与目标微博用户之间互动越多,与目标微博用户外微博用户互动越少,则效用函数的效用值越大,表明该社交圈越紧密。
步骤103,在微博用户集合中,针对每一全联通子图,分别获取与全联通子图中的微博用户具有互动行为、且除该全联通子图中微博用户之外的微博用户,生成每一全联通子图对应的扩充微博用户集合;
本步骤中,针对每一全联通子图,依据互动行为关系生成每一全联通子图对应的扩充微博用户集合。即选择和该全联通子图内成员有互动且不在集合中的用户,计算加入集合前后的效用值,如果扩充后效用值变大,则将其扩充到新集合中。
对于每一挖掘得到的全联通子图,包含有一个或多个微博用户。根据挖掘得到的每一全联通子图,在微博用户集合S中,分别获取与每一全联通子图中的微博用户有过互动行为的微博用户,在获取的微博用户中,过滤该全联通子图中包含的微博用户,生成该全联通子图对应的扩充微博用户集合。举例来说,对于全联通子图G,在微博用户集合S中,获取与全联通子图G中的微博用户有过互动行为的微博用户,在获取的微博用户中,过滤全联通子图G中包含的微博用户,生成全联通子图G对应的扩充微博用户集合G′,一个全联通子图对应一个扩充微博用户集合。从而在后续流程中,在微博用户集合S范围内,可以基于扩充微博用户集合,对每个挖掘得到的全联通子图进行扩充,从而可以挖掘更多属于全联通子图的其它微博用户。
步骤104,在扩充微博用户集合中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,加入存储的扩充微博用户集合对应的全联通子图,形成社交圈候选集合;
本步骤中,从扩充微博用户集合中选取一微博用户,置于全联通子图中,形成该扩充微博用户集合对应的社交圈候选集合。
步骤105,计算社交圈候选集合的效用值,确定社交圈候选集合的效用值大于或等于对应存储的效用值,更新对应存储的效用值以及全联通子图;
本步骤也可以是,计算社交圈候选集合的效用值,如果社交圈候选集合的效用值大于或等于对应存储的效用值,更新对应存储的效用值,将社交圈候选集合作为效用值判断后的社交圈候选集合;否则,从社交圈候选集合中,删除加入的微博用户,得到效用值判断后的社交圈候选集合。
对于扩充微博用户集合U中的微博用户W,根据预先设置的效用函数,计算效用值,以根据计算得到的效用值判断是否应该将该微博用户W扩充进入全联通子图T。
本发明实施例中,基于社交圈内各微博用户之间的互动行为较为密切,而社交圈内微博用户与社交圈外微博用户之间的互动行为密切性较低。因而,采用效用函数进行判断,效用函数判断公式为:
Utility ( Z ) = Σ α ' ' ∃ E Zin Weight ( E α ' ) Σ β ' ∃ E Zout Weight ( E β ' ) ≥ Utility ( T )
式中,
Utility(Z)为将微博用户W融合至全联通子图T中形成的社交圈候选集合Z的效用值;
Weight(Ea′)为社交圈候选集合Z中内部边a′的效用值;
EZin为社交圈候选集合Z中所有节点包含的内部边;
Weight(Eβ′)为社交圈候选集合Z中所有节点与社交圈候选集合Z之外的、且在微博用户集合S中的任意节点形成的边β′的效用值;
EZout为社交圈候选集合Z中所有节点与社交圈候选集合Z之外的、且在微博用户集合S中的任意节点形成的所有边;
Utility(T)为存储的效用值。
本发明实施例中,社交圈候选集合Z是将节点W融合进全联通子图T后形成的。
如果社交圈候选集合Z的效用值Utility(Z)大于或等于对应存储的效用值,则确定将节点W扩充进入全联通子图T中,否则,拒绝将节点W扩充进入全联通子图T中,直接执行步骤106。其中,对应存储的效用值即未将微博用户W融合进社交圈候选集合Z之前的社交圈候选集合或全联通子图的效用值。这样,经过步骤105处理,如果社交圈候选集合Z的效用值Utility(Z)大于或等于对应存储的效用值,则新的社交圈候选集合为社交圈候选集合Z;否则,新的社交圈候选集合仍为全联通子图T。
步骤106,判断加入社交圈候选集合中的微博用户是否为扩充微博用户集合中的最后一个微博用户,如果不是,遍历扩充微博用户集合,返回执行步骤104,否则,形成社交圈集合。
本步骤中,如前所述,如果步骤105得到的是效用值判断后的社交圈候选集合,则该步骤可以是:判断选取的微博用户是否为扩充微博用户集合中的最后一个微博用户,如果不是,遍历扩充微博用户集合,依序将微博用户加入效用值判断后的社交圈候选集合,返回执行步骤105,否则,生成包含效用值判断后的社交圈候选集合的社交圈集合,即获取目标用户userA的二级互动集合S2,采用同步骤105相同的方法对扩充后的全联通子图再次扩充,最终形成社交/兴趣圈子集合。
遍历扩充微博用户集合,依序选取微博用户,加入扩充微博用户集合对应的经步骤105处理得到的社交圈候选集合(效用值判断后的社交圈候选集合)中,重新计算新扩充的社交圈候选集合的效用值,与对应存储的效用值进行比较,如果不小于,则将加入的微博用户保留在新扩充的社交圈候选集合中,即将新扩充的社交圈候选集合作为效用值判断后的社交圈候选集合;如果小于,则将加入的微博用户从新扩充的社交圈候选集合中删除,得到效用值判断后的社交圈候选集合。这样,直至扩充微博用户集合中的每一微博用户都已进行加入处理,得到最终的效用值判断后的社交圈集合。
对于其它全联通子图对应的其它扩充微博用户集合,采用与上述相类似的方法,通过遍历其它扩充微博用户集合中的其它微博用户,将每次遍历得到的其它微博用户加入对应的其它全联通子图,并依序进行扩充判断,以确定是否可以将其它微博用户扩充进入对应的其它全联通子图,在遍历完成后,得到各其它全联通子图对应扩充的效用值判断后的其它社交圈集合。
这样,通过对挖掘得到的所有全联通子图都采取上述方式进行外扩,获取效用值判断后的社交圈集合。
较佳地,在向发送微群请求的微博用户返回存储的全联通子图的步骤之前,还可以对获取的全联通子图或效用值判断后的社交圈候选集合进行进一步的扩充,即该方法还可以进一步包括:
A11,在微博互动行为日志中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,构建二级互动集合;
本步骤中,还可以对获取的效用值判断后的社交圈候选集合作进一步的扩充,即对待推荐给微博用户的社交圈候选集合,在与发送微群请求的微博用户有二级互动行为的微博用户(与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户)构建的二级互动集合中进行扩充。
举例来说,与该博用户A有二级互动行为的微博用户集合,是指在微博互动行为日志存储的微博用户信息中,与微博用户A有直接互动行为的微博用户,组成微博用户集合S,与微博用户集合S中的任意一个微博用户有互动行为的、且除微博用户集合S中微博用户之外的微博用户形成的互动集合,即二级互动集合。也就是说,在微博互动行为日志存储的微博用户信息中,首先获取与微博用户集合S中的任意一个微博用户有互动行为的微博用户,再从获取的微博用户中,过滤掉微博用户集合S中的微博用户,形成二级互动集合。
A12,将获取的微博用户加入存储的全联通子图,形成二级社交圈候选集合;
A13,计算二级社交圈候选集合的效用值,如果二级社交圈候选集合的效用值大于或等于对应存储的效用值,更新对应存储的效用值,用二级社交圈候选集合更新存储的全联通子图;否则,不作处理;
A14,判断获取的微博用户是否为二级互动集合中的最后一个微博用户,如果不是,遍历二级互动集合,返回执行步骤A12,否则,获取存储的全联通子图信息,执行所述形成社交圈集合的流程。
本发明实施例中,针对每一存储的全联通子图信息,如果选取的微博用户为二级互动集合中的最后一个微博用户,则读取每一存储的全联通子图信息,形成社交圈集合。使得本发明实施例基于微博用户集合S,扩充生成二级互动集合,然后,采取与社交圈候选集合相同的方法,基于二级互动集合,通过效用函数,依序判断二级互动集合中的微博用户是否可以扩充进入社交圈候选集合中,从而对社交圈候选集合再次进行扩充,可以使微博用户获取更多与自身业务相关的其它微博用户信息,从而更容易获取所需信息,可挖掘用户的社交圈和兴趣圈,为用户提供更优质的个性化服务,提升了微博用户的微博业务体验以及推荐效率。这样,将各经过再次扩充的社交圈候选集合信息携带在社交圈信息中,生成本发明的最终推荐结果。
由上述可见,通过微博互动行为,可以自动挖掘出与微博用户相关联的社交圈信息。对于海量的微博用户而言,只要对每个微博用户,依次采取上述处理步骤,即可获得最终推荐结果。
实际应用中,本发明实施例的效用函数运算可以采取大规模并行、分布式计算实现。
下面举一具体实施例,以微博用户A为例,详细说明微博用户A获取社交圈信息的具体流程。
首先,在微博互动行为日志中,找到与微博用户A有过互动行为的微博用户,形成微博用户集合S,然后,在微博用户集合S中,采用最大团结构算法,挖掘最大团结构,可以得到最初的最大团结构(全联通子图),例如,得到的最大团结构为5个,分别为:
最大团1(创新工场有关),成员包括:张三、李四、王五;
最大团2(互联网媒体相关),成员包括:Rose、李二;
最大团3(财经投资相关),成员包括:Jack、张一、陈二、赵四;
最大团4(创新工场有关),成员包括:孙叶、钱武、唐九;
最大团5(企业家相关),成员包括:魏强、吴伟、肖沉。
接着,分别计算最大团1、最大团2、最大团3、最大团4以及最大团5的效用值,并将最大团1的效用值存储在存储单元1中,将最大团2的效用值存储在存储单元2中,将最大团3的效用值存储在存储单元3中,将最大团4的效用值存储在存储单元4中,以及,将最大团5的效用值存储在存储单元5中。
随后,对原始的5个最大团,在微博用户集合S中进行扩充,即在微博用户集合S中,依次获取与最大团1中的微博用户具有互动行为、且除最大团1中微博用户之外的微博用户,生成扩充微博用户集合1;获取与最大团2中的微博用户具有互动行为、且除最大团2中微博用户之外的微博用户,生成扩充微博用户集合2;依据与生成扩充微博用户集合2相类似的方法,相应生成扩充微博用户集合3、扩充微博用户集合4以及扩充微博用户集合5。
然后,选取扩充微博用户集合1中的一微博用户,加入最大图1,形成社交圈候选集合1;计算社交圈候选集合1的效用值,如果社交圈候选集合1的效用值大于或等于存储单元1中存储的效用值,用社交圈候选集合1的效用值替换存储单元1中存储的效用值;否则,从社交圈候选集合1中,删除加入的微博用户。接着,选取扩充微博用户集合1中的另一微博用户,加入社交圈候选集合1,形成新的社交圈候选集合1;计算新的社交圈候选集合1的效用值,如果新的社交圈候选集合1的效用值大于或等于存储单元1中存储的效用值,用新的社交圈候选集合1的效用值替换存储单元1中存储的效用值;否则,从新的社交圈候选集合1中,删除加入的微博用户。依据与上述相类似的方法,获取最终的社交圈候选集合1。扩充最大图2至最大图5的方法,与扩充最大图1相同。这样,经过该步骤,每个原始的最大团都有不同程度的扩大,得到相应的扩充最大团,其新扩充进的微博用户数可以在3-10个不等。
最后,获取与微博用户集合S中的任一微博用户具有互动行为、且不属于微博用户集合S的微博用户,构建二级互动集合,将二级互动集合中的微博用户依序加入扩充最大团1、扩充最大团2、扩充最大团3、扩充最大团4以及扩充最大团5,通过效用函数计算效用值,并判断加入的微博用户是否可以保留在扩充最大团中,从而形成新的更大范围的扩充最大团。
通过上述扩充后,5个最初的最大团获得了进一步的扩充,最后,每一最大团可以形成包含48个到150个的微博用户,将最后得到的最大团组成社交圈集合。通过该方法,可以自动挖掘出微博用户A所属的不同最大团。例如,对于微博用户A,可以挖掘出微博用户A所属的多个最大团(扩充的最大团1~5),同时对于另一微博用户来说,可能同时属于微博用户A的不同最大团。例如,既是微博用户A的大学同学最大团,也是公司同事最大团。
通过本发明,利用微博用户的互动行为进行挖掘,采用二级互动数据模型,可以挖掘微博用户可以隶属于多个最大团,其它微博用户也可以同时属于多个最大团,从而可以精准地对微博环境下的任意微博用户,根据其互动行为,自动挖掘该微博用户所属的最大团或者兴趣圈。例如,可挖掘用户的社交圈和兴趣圈,为用户提供更优质的个性化服务;可以利用挖掘结果为微博用户推荐其可能感兴趣的其它微博用户;或者,根据挖掘结果,更准确地对微博用户进行个性化建模,为其它基于微博用户个性化模型的推荐或者广告推送等提供基础服务,可以使得很多上层应用获得更精准的结果,有效地促进了其它上层应用的开发效率和准确性。
图2为本发明实施例基于微博互动关系挖掘社交圈的装置结构示意图。参见图2,该装置为社交圈服务器,包括:全联通子图获取模块、效用值第一计算模块、扩充微博用户集合获取模块、社交圈候选集合获取模块、效用值第二计算模块、效用值处理模块以及社交圈获取模块,其中,
全联通子图获取模块,用于获取与目标微博用户具有互动行为的微博用户,从获取的微博用户组成的微博用户集合中,挖掘得到全联通子图;
本发明实施例中,互动行为包括:转发微博、评论微博、私信以及其它微博用户等。
效用值第一计算模块,用于计算挖掘得到的各全联通子图的效用值并分别存储;
本发明实施例中,设置多个存储单元,分别存储各全联通子图的效用值。
扩充微博用户集合获取模块,用于在微博用户集合中,针对每一全联通子图,分别获取与全联通子图中的微博用户具有互动行为、且除该全联通子图中微博用户之外的微博用户,生成每一全联通子图对应的扩充微博用户集合;
社交圈候选集合获取模块,用于选取扩充微博用户集合中的一微博用户,加入存储的扩充微博用户集合对应的全联通子图,形成社交圈候选集合,输出至效用值第二计算模块;
效用值第二计算模块,用于计算社交圈候选集合的效用值,输出至效用值处理模块;
效用值处理模块,用于判断社交圈候选集合的效用值是否大于或等于对应存储的效用值,如果是,更新效用值第一计算模块对应存储的效用值,用社交圈候选集合更新社交圈候选集合获取模块中存储的信息;否则,不作处理;
社交圈获取模块,用于判断社交圈候选集合获取模块选取的微博用户是否为扩充微博用户集合中的最后一个微博用户,如果不是,通知社交圈候选集合获取模块遍历选取微博用户,否则,从社交圈候选集合获取模块获取存储的信息,形成社交圈集合。
较佳地,该装置还可以进一步包括:
二级互动集合生成模块,用于在微博互动行为日志中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,构建二级互动集合,触发社交圈候选集合获取模块从二级互动集合中遍历选取微博用户。
本发明实施例中,二级互动集合生成模块在构建二级互动集合后,触发社交圈候选集合获取模块从二级互动集合中遍历选取微博用户,社交圈候选集合获取模块选取二级互动集合中的一微博用户,依次加入存储的全联通子图,形成二级社交圈候选集合,输出至效用值第二计算模块;效用值第二计算模块计算二级社交圈候选集合的效用值,输出至效用值处理模块;效用值处理模块判断二级社交圈候选集合的效用值大于或等于效用值第一计算模块对应存储的效用值,更新效用值第一计算模块对应存储的效用值,用社交圈候选集合更新社交圈候选集合获取模块中存储的信息;否则,不作处理;社交圈获取模块判断选取的微博用户是否为二级互动集合中的最后一个微博用户,如果不是,通知社交圈候选集合获取模块从二级互动集合中遍历选取微博用户,否则,从社交圈候选集合获取模块获取存储的信息,形成社交圈集合。
显然,本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也包含这些改动和变型在内。

Claims (10)

1.一种基于微博互动关系挖掘社交圈的方法,该方法包括:
A1,获取与目标微博用户具有互动行为的微博用户集合;
B1,依据互动行为关系,构造用户关系拓扑图,并基于构造的用户关系拓扑图挖掘得到全联通子图,计算挖掘得到的各全联通子图的效用值并分别存储;
C1,针对每一全联通子图,依据互动行为关系生成每一全联通子图对应的扩充微博用户集合;
D1,在扩充微博用户集合中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,加入存储的扩充微博用户集合对应的全联通子图,形成社交圈候选集合;
E1,计算社交圈候选集合的效用值,确定社交圈候选集合的效用值大于或等于对应存储的效用值,更新对应存储的效用值以及全联通子图;
F1,判断加入社交圈候选集合中的微博用户是否为扩充微博用户集合中的最后一个微博用户,如果不是,遍历扩充微博用户集合,返回执行步骤D1,否则,形成社交圈集合。
2.根据权利要求1所述的方法,其中,在所述形成社交圈集合的步骤之前,该方法进一步包括:
A11,在微博互动行为日志中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,构建二级互动集合;
A12,将获取的微博用户加入存储的全联通子图,形成二级社交圈候选集合;
A13,计算二级社交圈候选集合的效用值,如果二级社交圈候选集合的效用值大于或等于对应存储的效用值,更新对应存储的效用值,用二级社交圈候选集合更新存储的全联通子图;否则,不作处理;
A14,判断获取的微博用户是否为二级互动集合中的最后一个微博用户,如果不是,遍历二级互动集合,返回执行步骤A12,否则,获取存储的全联通子图信息,执行所述形成社交圈集合的流程。
3.根据权利要求2所述的方法,其中,每一所述二级社交圈候选集合以及该二级社交圈候选集合的效用值对应一个存储单元。
4.根据权利要求1或2或3所述的方法,其中,所述互动行为包括:转发微博、评论微博、私信以及其它微博用户。
5.根据权利要求4所述的方法,其中,计算所述效用值的效用函数为:
Utility ( T ) = Σ α ∃ E Tin Weight ( E α ) Σ β ∃ E Tout Weight ( E β )
式中,
Utility(T)为全联通子图T的效用值;
Weight(Eα)为全联通子图T中内部边α的效用值;
ETin为全联通子图T中所有节点包含的内部边;
Weight(Eβ)为全联通子图T中所有节点与全联通子图T之外的、且在微博用户集合S中的任意节点形成的边β的效用值;
ETout为全联通子图T中所有节点与全联通子图T之外的、且在微博用户集合S中的任意节点形成的所有边。
6.根据权利要求5所述的方法,其中,所述确定社交圈候选集合的效用值大于或等于对应存储的效用值的公式为:
Utility ( Z ) = Σ α ' ' ∃ E Zin Weight ( E α ' ) Σ β ' ∃ E Zout Weight ( E β ' ) ≥ Utility ( T )
式中,
Utility(Z)为将微博用户W融合至全联通子图T中形成的社交圈候选集合Z的效用值;
Weight(Ea′)为社交圈候选集合Z中内部边a′的效用值;
EZin为社交圈候选集合Z中所有节点包含的内部边;
Weight(Eβ′)为社交圈候选集合Z中所有节点与社交圈候选集合Z之外的、且在微博用户集合S中的任意节点形成的边β′的效用值;
EZout为社交圈候选集合Z中所有节点与社交圈候选集合Z之外的、且在微博用户集合S中的任意节点形成的所有边;
Utility(T)为存储的效用值。
7.根据权利要求6所述的方法,其中,所述方法进一步包括:
确定社交圈候选集合的效用值小于对应存储的效用值,直接执行步骤F1。
8.一种基于微博互动关系挖掘社交圈的装置,其特征在于,该装置包括:全联通子图获取模块、效用值第一计算模块、扩充微博用户集合获取模块、社交圈候选集合获取模块、效用值第二计算模块、效用值处理模块以及社交圈获取模块,其中,
全联通子图获取模块,用于获取与目标微博用户具有互动行为的微博用户,从获取的微博用户组成的微博用户集合中,挖掘得到全联通子图;
效用值第一计算模块,用于计算挖掘得到的各全联通子图的效用值并分别存储;
扩充微博用户集合获取模块,用于在微博用户集合中,针对每一全联通子图,分别获取与全联通子图中的微博用户具有互动行为、且除该全联通子图中微博用户之外的微博用户,生成每一全联通子图对应的扩充微博用户集合;
社交圈候选集合获取模块,用于在扩充微博用户集合中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,加入存储的扩充微博用户集合对应的全联通子图,形成社交圈候选集合,输出至效用值第二计算模块;
效用值第二计算模块,用于计算社交圈候选集合的效用值,输出至效用值处理模块;
效用值处理模块,用于判断社交圈候选集合的效用值是否大于或等于对应存储的效用值,如果是,更新效用值第一计算模块对应存储的效用值,用社交圈候选集合更新社交圈候选集合获取模块中存储的信息;否则,不作处理;
社交圈获取模块,用于判断社交圈候选集合获取模块选取的微博用户是否为扩充微博用户集合中的最后一个微博用户,如果不是,通知社交圈候选集合获取模块遍历选取微博用户,否则,从社交圈候选集合获取模块获取存储的信息,形成社交圈集合。
9.根据权利要求8所述的装置,其特征在于,所述装置进一步包括:
二级互动集合生成模块,用于在微博互动行为日志中,获取与微博用户集合中的任一微博用户具有互动行为、且不属于微博用户集合的微博用户,构建二级互动集合,触发社交圈候选集合获取模块从二级互动集合中遍历选取微博用户。
10.根据权利要求8或9所述的装置,其特征在于,所述互动行为包括:转发微博、评论微博、私信以及其它微博用户。
CN201310418486.6A 2013-09-13 2013-09-13 基于微博互动关系挖掘社交圈的方法及装置 Active CN103593393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310418486.6A CN103593393B (zh) 2013-09-13 2013-09-13 基于微博互动关系挖掘社交圈的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310418486.6A CN103593393B (zh) 2013-09-13 2013-09-13 基于微博互动关系挖掘社交圈的方法及装置

Publications (2)

Publication Number Publication Date
CN103593393A true CN103593393A (zh) 2014-02-19
CN103593393B CN103593393B (zh) 2017-01-04

Family

ID=50083536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310418486.6A Active CN103593393B (zh) 2013-09-13 2013-09-13 基于微博互动关系挖掘社交圈的方法及装置

Country Status (1)

Country Link
CN (1) CN103593393B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105578514A (zh) * 2014-10-14 2016-05-11 中国移动通信集团广东有限公司 一种低值终端的识别方法和装置
CN107077475A (zh) * 2014-10-31 2017-08-18 谷歌公司 根据产品/用户标签和共安装图推荐产品捆绑包的系统和方法
CN107357925A (zh) * 2017-07-26 2017-11-17 深圳中泓在线股份有限公司 微博微信中人名分类方法
CN108062385A (zh) * 2017-12-14 2018-05-22 微梦创科网络科技(中国)有限公司 用户兴趣挖掘的方法及系统
CN108446311A (zh) * 2018-02-06 2018-08-24 微梦创科网络科技(中国)有限公司 一种基于社交网络的app推荐方法及装置
CN108810089A (zh) * 2018-05-04 2018-11-13 微梦创科网络科技(中国)有限公司 一种信息推送方法、装置及存储介质
CN110737846A (zh) * 2019-10-28 2020-01-31 北京字节跳动网络技术有限公司 一种社交界面推荐方法、装置、电子设备及存储介质
CN111353001A (zh) * 2018-12-24 2020-06-30 杭州海康威视数字技术股份有限公司 对用户进行分类的方法和装置
CN114817563A (zh) * 2022-04-27 2022-07-29 电子科技大学 基于最大团发现的特定Twitter用户群体的挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226248A1 (en) * 2006-03-21 2007-09-27 Timothy Paul Darr Social network aware pattern detection
CN103198432A (zh) * 2013-04-12 2013-07-10 中国科学院计算技术研究所 在线社会网络中网络群体的检测方法及系统
CN103279482A (zh) * 2013-04-23 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台的社交朋友圈的挖掘方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226248A1 (en) * 2006-03-21 2007-09-27 Timothy Paul Darr Social network aware pattern detection
CN103198432A (zh) * 2013-04-12 2013-07-10 中国科学院计算技术研究所 在线社会网络中网络群体的检测方法及系统
CN103279482A (zh) * 2013-04-23 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台的社交朋友圈的挖掘方法及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105578514B (zh) * 2014-10-14 2019-02-26 中国移动通信集团广东有限公司 一种低值终端的识别方法和装置
CN105578514A (zh) * 2014-10-14 2016-05-11 中国移动通信集团广东有限公司 一种低值终端的识别方法和装置
CN107077475A (zh) * 2014-10-31 2017-08-18 谷歌公司 根据产品/用户标签和共安装图推荐产品捆绑包的系统和方法
CN107357925A (zh) * 2017-07-26 2017-11-17 深圳中泓在线股份有限公司 微博微信中人名分类方法
CN108062385A (zh) * 2017-12-14 2018-05-22 微梦创科网络科技(中国)有限公司 用户兴趣挖掘的方法及系统
CN108062385B (zh) * 2017-12-14 2021-10-08 微梦创科网络科技(中国)有限公司 用户兴趣挖掘的方法及系统
CN108446311A (zh) * 2018-02-06 2018-08-24 微梦创科网络科技(中国)有限公司 一种基于社交网络的app推荐方法及装置
CN108810089A (zh) * 2018-05-04 2018-11-13 微梦创科网络科技(中国)有限公司 一种信息推送方法、装置及存储介质
CN108810089B (zh) * 2018-05-04 2021-07-30 微梦创科网络科技(中国)有限公司 一种信息推送方法、装置及存储介质
CN111353001A (zh) * 2018-12-24 2020-06-30 杭州海康威视数字技术股份有限公司 对用户进行分类的方法和装置
CN111353001B (zh) * 2018-12-24 2023-08-18 杭州海康威视数字技术股份有限公司 对用户进行分类的方法和装置
CN110737846A (zh) * 2019-10-28 2020-01-31 北京字节跳动网络技术有限公司 一种社交界面推荐方法、装置、电子设备及存储介质
CN114817563A (zh) * 2022-04-27 2022-07-29 电子科技大学 基于最大团发现的特定Twitter用户群体的挖掘方法
CN114817563B (zh) * 2022-04-27 2023-04-28 电子科技大学 基于最大团发现的特定Twitter用户群体的挖掘方法

Also Published As

Publication number Publication date
CN103593393B (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN103593393A (zh) 基于微博互动关系挖掘社交圈的方法及装置
Jiang et al. Dl-traff: Survey and benchmark of deep learning models for urban traffic prediction
Poorthuis et al. Making big data small: strategies to expand urban and geographical research using social media
CN111723298B (zh) 基于改进标签传播的社交网络社团发现方法、装置及介质
CN109684330A (zh) 用户画像库构建方法、装置、计算机设备及存储介质
CN102646122B (zh) 一种学术社交网络的自动构建方法
Gao et al. SeCo-LDA: Mining service co-occurrence topics for recommendation
US20140149465A1 (en) Feature rich view of an entity subgraph
CN115693650B (zh) 一种区域电力碳排放因子的确定方法、装置、设备及介质
CN104182422A (zh) 统一通讯录信息处理方法和系统
CN106815274A (zh) 基于Hadoop的日志数据挖掘方法及系统
CN103279482A (zh) 一种面向微博客平台的社交朋友圈的挖掘方法及系统
CN103488683A (zh) 一种微博数据管理系统及其实现方法
Ding et al. Analysis of a building collaborative platform for Industry 4.0 based on Building Information Modelling technology
CN104318501A (zh) 管线网络拓扑关系构建方法、装置及系统
Shi et al. Human resources balanced allocation method based on deep learning algorithm
CN102004951B (zh) 一种基于角色关联的角色组划分方法
CN104268760B (zh) 一种用户兴趣获取与传播方法及其系统
Sicilia et al. Integrating multiple data sources, domains and tools in urban energy models using semantic technologies
CN103886049A (zh) 数据空间中异质异构相关数据集合挖掘方法
CN104598499A (zh) 多图谱信息整合方法和装置
Yuan et al. The general traveling wave solutions of the Fisher equation with degree three
den Exter et al. Assisting stakeholder decision making using system dynamics group model-building
Noor et al. Transitioning a Legacy Reservoir Simulator to Cloud Native Services
Yan et al. Extracting regular behaviors from social media networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant