CN104572757A - 微博群体处理方法及装置 - Google Patents

微博群体处理方法及装置 Download PDF

Info

Publication number
CN104572757A
CN104572757A CN201310508540.6A CN201310508540A CN104572757A CN 104572757 A CN104572757 A CN 104572757A CN 201310508540 A CN201310508540 A CN 201310508540A CN 104572757 A CN104572757 A CN 104572757A
Authority
CN
China
Prior art keywords
colony
microblogging
personage
illustrative plates
relational network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310508540.6A
Other languages
English (en)
Other versions
CN104572757B (zh
Inventor
罗圣美
陈虹
徐志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
ZTE Corp
Original Assignee
Harbin Institute of Technology
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, ZTE Corp filed Critical Harbin Institute of Technology
Priority to CN201310508540.6A priority Critical patent/CN104572757B/zh
Publication of CN104572757A publication Critical patent/CN104572757A/zh
Application granted granted Critical
Publication of CN104572757B publication Critical patent/CN104572757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种微博群体处理方法及装置,该方法包括:依据用户输入确定微博群体所包括的群体人物;确定微博群体所包括的群体人物的关注列表;依据关注列表确定微博群体的关系网络图谱;依据关系网络图谱对微博群体进行分析处理,通过本发明,解决了相关技术中并不存在能够对微博群体进行分析的技术,因而对微博群体的动态,以及微博的关注点并不能有效掌握,因而不能从微博群体中获取有用的分析信息的问题,进而达到了能够对微博群体进行有效准确分析的效果。

Description

微博群体处理方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及一种微博群体处理处理方法及装置。
背景技术
微博平台是最典型的社交媒体之一,如:Twitter和新浪微博。微博上包含个人基本信息(包括:用户名,用户地理位置,用户标签,用户的认证信息等),个人所发表的微博内容信息,以及微博用户的关系信息(包括:关注关系,粉丝关系)。
但是,在相关技术中并不存在能够对微博群体进行分析的技术,因而对微博群体的动态,以及微博的关注点并不能有效掌握,因而不能从微博群体中获取有用的分析信息。
发明内容
本发明提供了一种微博群体处理方法及装置,以至少解决相关技术中并不存在能够对微博群体进行分析的技术,因而对微博群体的动态,以及微博的关注点并不能有效掌握,因而不能从微博群体中获取有用的分析信息的问题。
根据本发明的一个方面,提供了一种微博群体处理方法,包括:依据用户输入确定所述微博群体所包括的群体人物;确定所述微博群体所包括的所述群体人物的关注列表;依据所述关注列表确定所述微博群体的关系网络图谱;依据所述关系网络图谱对所述微博群体进行分析处理。
优选地,依据所述关系网络图谱对所述微博群体进行分析处理包括:依据所述关系网络图谱的图谱结构获取所述微博群体所包括的所述群体人物的静态影响力;依据所述微博群体所包括的所述群体人物的微博转发树获取所述群体人物的动态影响力;依据所述静态影响力和所述动态影响力获取所述群体人物的用户影响力。
优选地,通过以下公式,依据所述微博群体所包括的所述群体人物的所述微博转发树获取所述群体人物的所述动态影响力包括: Dynamic ( S ) = ( Σ i = 1 N Σ j = 1 h ( i ) w j node ( j ) ) / N , 其中,N为用户近期发布的微博数,h(i)为第i条微博传播树的深度,node(j)为第j层的节点数目,wj为第j层节点的权重。
优选地,依据所述关系网络图谱对所述微博群体进行分析处理包括:依据所述关系网络图谱获取所述群体人物的结构属性。
优选地,依据所述关系网络图谱获取所述群体人物的结构属性包括以下至少之一:通过以下公式获取所述群体人物的中心性:其中,v为所述关系网络图谱G=(V,E)的任意一个点,<s,t>表示所述关系网络图谱G=(V,E)中的任意节点对,σ为两点之间最短路径的数目,σst(v)为所述关系网络图谱G=(V,E)中所有经过v的最短路径总数;通过以下公式获取所述群体人物的中介性:其中,dc(v,t)为所述关系网络图谱G=(V,E)中的任意节点t到v的最短路径长度。
优选地,依据所述关系网络图谱对所述微博群体进行分析处理包括:依据所述关系网络图谱对所述微博群体划分圈子。
优选地,依据所述关系网络图谱对所述微博群体进行分析处理包括:依据所述关系网络图谱获取所述微博群体所包括的群体人物与群体人物间的人物关系强度。
优选地,依据所述关系网络图谱获取所述微博群体所包括的群体人物与群体人物间的所述人物关系强度包括:通过以下公式获取所述人物关系强度:其中,m,n为所述关系网络图谱G=(V,E)中任意两点,shortest(m,n)为是否经过边edge。
优选地,依据所述关系网络图谱对所述微博群体进行分析处理包括:依据所述关系网络图谱以及所述微博群体转发的所述微博内容获取所述微博群体人物间的热门话题。
优选地,在依据所述关系网络图谱对所述微博群体进行分析处理之后,还包括:对所述微博群体进行分析处理后获得的分析结果进行可视化显示。
根据本发明的另一方面,提供了一种微博群体处理装置,包括:第一确定模块,用于依据用户输入确定所述微博群体所包括的群体人物;第二确定模块,用于确定所述微博群体所包括的所述群体人物的关注列表;第三确定模块,用于依据所述关注列表确定所述微博群体的关系网络图谱;处理模块,用于依据所述关系网络图谱对所述微博群体进行分析处理。
优选地,所述处理模块:第一获取单元,用于依据所述关系网络图谱的图谱结构获取所述微博群体所包括的所述群体人物的静态影响力;第二获取单元,用于依据所述微博群体所包括的所述群体人物的微博转发树获取所述群体人物的动态影响力;第三获取单元,用于依据所述静态影响力和所述动态影响力获取所述群体人物的用户影响力。
优选地,所述第二获取单元,用于通过以下公式获取所述群体人物的动态影响力: Dynamic ( S ) = ( &Sigma; i = 1 N &Sigma; j = 1 h ( i ) w j node ( j ) ) / N , 其中,N为用户近期发布的微博数,h(i)为第i条微博传播树的深度,node(j)为第j层的节点数目,wj为第j层节点的权重。
优选地,所述处理模块包括:第四获取单元,用于依据所述关系网络图谱获取所述群体人物的结构属性。
优选地,所述第四获取单元包括以下至少之一:第一获取子单元,用于通过以下公式获取所述群体人物的中心性:其中,v为所述关系网络图谱G=(V,E)的任意一个点,<s,t>表示所述关系网络图谱G=(V,E)中的任意节点对,σ为两点之间最短路径的数目,σst(v)为所述关系网络图谱G=(V,E)中所有经过v的最短路径总数;第二获取子单元,用于通过以下公式获取所述群体人物的中介性:其中,dc(v,t)为所述关系网络图谱G=(V,E)中的任意节点t到v的最短路径长度。
优选地,所述处理模块包括:划分单元,用于依据所述关系网络图谱对所述微博群体划分圈子。
优选地,所述处理模块包括:第五获取单元,用于依据所述关系网络图谱获取所述微博群体所包括的群体人物与群体人物间的人物关系强度。
优选地,所述第五获取单元包括:第三获取子单元,用于通过以下公式获取所述人物关系强度:其中,m,n为所述关系网络图谱G=(V,E)中任意两点,shortest(m,n)为是否经过边edge。
优选地,所述处理模块包括:第六获取单元,用于依据所述关系网络图谱获取所述微博群体所包括的群体人物与群体人物间的人物关系强度。
优选地,该装置还包括:显示模块,用于对所述微博群体进行分析处理后获得的分析结果进行可视化显示。
通过本发明,采用依据用户输入确定所述微博群体所包括的群体人物;确定所述微博群体所包括的所述群体人物的关注列表;依据所述关注列表确定所述微博群体的关系网络图谱;依据所述关系网络图谱对所述微博群体进行分析处理,解决了相关技术中并不存在能够对微博群体进行分析的技术,因而对微博群体的动态,以及微博的关注点并不能有效掌握,因而不能从微博群体中获取有用的分析信息的问题,进而达到了能够对微博群体进行有效准确分析的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的微博群体处理方法的流程图;
图2是根据本发明实施例的微博群体处理装置的结构框图;
图3是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图一;
图4是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图二;
图5是根据本发明实施例的微博群体处理装置中处理模块28中第四获取单元42的优选结构框图;
图6是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图三;
图7是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图四;
图8是根据本发明实施例的微博群体处理装置中处理模块28中第五获取单元72的优选结构框图;
图9是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图五;
图10是根据本发明实施例的微博群体处理装置的优选结构框图;
图11是根据本发明优选实施方式的微博群体分析处理系统的结构示意图;
图12是根据本发明优选实施方式的微博群体网络图谱可视化视图的示意图;
图13是根据本发明优选实施方式的意见领袖排名可视化视图的示意图;
图14是根据本发明优选实施方式的圈子划分可视化视图的示意图;
图15是根据本发明优选实施方式的热门话题可视化视图;
图16是根据本发明优选实施方式的微博群体分析处理的流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种微博群体处理方法,图1是根据本发明实施例的微博群体处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,依据用户输入确定微博群体所包括的群体人物;
步骤S104,确定微博群体所包括的群体人物的关注列表;
步骤S106,依据关注列表确定微博群体的关系网络图谱;
步骤S108,依据关系网络图谱对微博群体进行分析处理。
通过上述步骤,依据微博群体人物的关注列表确定的微博群体的关系网络图谱,进行对应的微博群体分析处理,相对于相关技术中,并不存在能够对微博群体进行分析的技术,因而对微博群体的动态,以及微博的关注点并不能有效掌握,因而不能从微博群体中获取有用的分析信息的问题,进而达到了能够对微博群体进行有效分析的效果。
依据关系网络图谱对微博群体进行分析处理可以包括多方面,例如,可以是对微博群体的人物影响力,群体人物的结构属性(例如,群体人物的中心性,中介性),为群体人物划分圈子,群体人物间的关系强度,以及群体人物间的热门话题等,下面对上述各个方面所进行的分析分别进行说明。
对微博群体的人物影响力进行分析:
依据关系网络图谱的图谱结构获取微博群体所包括的群体人物的静态影响力;依据微博群体所包括的群体人物的微博转发树获取群体人物的动态影响力;依据静态影响力和动态影响力获取群体人物的用户影响力。较佳地,可以通过以下公式依据微博群体所包括的群体人物的微博转发树获取群体人物的动态影响力包括: Dynamic ( S ) = ( &Sigma; i = 1 N &Sigma; j = 1 h ( i ) w j node ( j ) ) / N , 其中,N为用户近期发布的微博数,h(i)为第i条微博传播树的深度,node(j)为第j层的节点数目,wj为第j层节点的权重。在获取到群体人物的动态影响力后,通过动态影响力与静态影响力的权重计算整个群体人物的用户影响力。
对微博群体人物的结构属性进行分析:
依据关系网络图谱获取群体人物的结构属性。例如,可以依据关系网络图谱获取群体人物的结构属性包括以下至少之一:通过以下公式获取群体人物的中心性:其中,v为关系网络图谱G=(V,E)的任意一个点,<s,t>表示关系网络图谱G=(V,E)中的任意节点对,σ为两点之间最短路径的数目,σst(v)为关系网络图谱G=(V,E)中所有经过v的最短路径总数;通过以下公式获取群体人物的中介性:其中,dc(v,t)为关系网络图谱G=(V,E)中的任意节点t到v的最短路径长度。
为微博群体人物划分圈子:
即,依据关系网络图谱对微博群体进行分析处理包括:依据关系网络图谱对微博群体划分圈子。其中,需要说明的是,划分圈子的方式也可以多种,例如,可以按照结构划分圈子,也可以按照标签划分圈子,按结构划分圈子指的是,按网络图谱的结构划分圈子,按标签划分圈子指的是,根据微博人物的标签属性,统计人物的出现频率的标签信息进行划分圈子。
对群体人物与群体人物间的人物关系强度的分析
依据关系网络图谱获取微博群体所包括的群体人物与群体人物间的人物关系强度。优选地,依据关系网络图谱获取微博群体所包括的群体人物与群体人物间的人物关系强度包括:通过以下公式获取人物关系强度:其中,m,n为关系网络图谱G=(V,E)中任意两点,shortest(m,n)为是否经过边edge。
对微博群体人物间的热门话题进行分析
即,依据关系网络图谱对微博群体进行分析处理包括:依据关系网络图谱以及微博群体转发的微博内容获取微博群体人物间的热门话题。分析微博群体人物所讨论、参与的热门话题,分析微博人物的兴趣爱好等。
优选地,在上述依据关系网络图谱对微博群体进行分析处理之后,还可以对微博群体进行分析处理后获得的分析结果进行可视化显示。将分析的结果进行直观展示,展示的形式可以多种,例如,可以以图表的形式,也可以以排序的方式等。
在本实施例中还提供了一种微博群体处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的微博群体处理装置的结构框图,如图2所示,该装置包括第一确定模块22、第二确定模块24、第三确定模块26和处理模块28,下面对该装置进行说明。
第一确定模块22,用于依据用户输入确定微博群体所包括的群体人物;第二确定模块24,连接至上述第一确定模块22,用于确定微博群体所包括的群体人物的关注列表;第三确定模块26,连接至上述第二确定模块24,用于依据关注列表确定微博群体的关系网络图谱;处理模块28,连接至上述第三确定模块26,用于依据关系网络图谱对微博群体进行分析处理。
图3是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图一,如图3所示,该处理模块28包括第一获取单元32、第二获取单元34和第三获取单元36,下面对该处理模块28进行说明。
第一获取单元32,用于依据关系网络图谱的图谱结构获取微博群体所包括的群体人物的静态影响力;第二获取单元34,用于依据微博群体所包括的群体人物的微博转发树获取群体人物的动态影响力;第三获取单元36,连接至上述第一获取单元32和第二获取单元34,用于依据静态影响力和动态影响力获取群体人物的用户影响力。
优选地,第二获取单元34,还用于通过以下公式获取群体人物的动态影响力: Dynamic ( S ) = ( &Sigma; i = 1 N &Sigma; j = 1 h ( i ) w j node ( j ) ) / N , 其中,N为用户近期发布的微博数,h(i)为第i条微博传播树的深度,node(j)为第j层的节点数目,wj为第j层节点的权重。
图4是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图二,如图4所示,该处理模块28包括第四获取单元42,下面对该第四获取单元42进行说明。
第四获取单元42,用于依据关系网络图谱获取群体人物的结构属性。
图5是根据本发明实施例的微博群体处理装置中处理模块28中第四获取单元42的优选结构框图,如图5所示,该第四获取单元42包括以下至少之一:第一获取子单元52、第二获取子单元54,下面对该第四获取单元42进行说明。
第一获取子单元52,用于通过以下公式获取群体人物的中心性:其中,v为关系网络图谱G=(V,E)的任意一个点,<s,t>表示关系网络图谱G=(V,E)中的任意节点对,σ为两点之间最短路径的数目,σst(v)为关系网络图谱G=(V,E)中所有经过v的最短路径总数;第二获取子单元54,用于通过以下公式获取群体人物的中介性:其中,dc(v,t)为关系网络图谱G=(V,E)中的任意节点t到v的最短路径长度。
图6是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图三,如图6所示,该处理模块28包括:划分单元62,下面对该划分单元62进行说明。
划分单元62,用于依据关系网络图谱对微博群体划分圈子。
图7是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图四,如图7所示,该处理模块28包括第五获取单元72,下面对该第五获取单元72进行说明。
第五获取单元72,用于依据关系网络图谱获取微博群体所包括的群体人物与群体人物间的人物关系强度。
图8是根据本发明实施例的微博群体处理装置中处理模块28中第五获取单元72的优选结构框图,如图8所示,该第五获取单元72包括第三获取子单元82,下面对该第三获取子单元82进行说明。
第三获取子单元82,用于通过以下公式获取人物关系强度:其中,m,n为关系网络图谱G=(V,E)中任意两点,shortest(m,n)为是否经过边edge。
图9是根据本发明实施例的微博群体处理装置中处理模块28的优选结构框图五,如图9所示,该处理模块28包括第六获取单元92,下面对该第六获取单元92进行说明。
第六获取单元92,用于依据关系网络图谱获取微博群体所包括的群体人物与群体人物间的人物关系强度。
图10是根据本发明实施例的微博群体处理装置的优选结构框图,如图10所示,该装置除包括图2所示的所有模块外,还包括显示模块1002,下面对该显示模块1002进行说明。
显示模块1002,连接至上述处理模块28,用于对微博群体进行分析处理后获得的分析结果进行可视化显示。
针对微博人物的不同属性,给每个微博人物贴上不同的标签,把微博人物区别成了不同的群体。通过分析不同群体的行为特征,例如,包括群体中人物关系网络图谱,群体中人物的影响力排序,群体间圈子的划分,群体间人物的关系分析,群体间热门话题排序。分析某个领域的行为特征,有利于发现特定群体的特性,让用户更加清晰的了解微博人物的属性信息。直观展示群体的属性信息,方便用户查看群体行为特征。
在本实施例中提供了一种群体分析方法,该方法能够对特定领域的人群进行分析,直观展示群体特征,对想要了解某用户所感兴趣的圈子。为了实现对某个领域人群的群体分析功能,在本实施例中的基于微博媒体的群体分析的处理方法包括:微博群体网络图谱分析、微博群体影响力排序、微博群体关系强度排序、微博群体热门话题排序。
微博群体网络图谱,根据群体中每个人物的关注列表,形成人物间的关注网络图谱。
微博群体影响力排序,群体是由人物组成的,每个人物在群体中都有影响力,通过计算每个人物的影响力的值,对其进行排序,发现群体中意见领袖。
微博群体关系强度排序,群体人物间存在不同的亲密度,计算每两个人物的关系强度值,对其关系强度进行排序。统计微博群体中紧密度较高的人物列表。
微博群体热门话题排序,根据微博群体中每个用户发布的微博文本信息,群体间参与讨论的微博的热度不同,该模块通过计算每条微博的热度,对微博文本信息进行排序,输出群体中的热门话题列表。
另外,该方法还包括,微博爬虫处理,通过爬虫处理获取信息,含有微博人物的基本信息、微博人物的关系信息、微博人物的微博文本列表。微博检索处理,通过指定任意的关键词,查询和关键词相关的人物列表。
下面结合附图对本发明优选实施方式进行说明。
图11是根据本发明优选实施方式的微博群体分析处理系统的结构示意图。如图11所示,该结构包括以下模块:
用户信息数据库模块1,该模块用于存储用户在微博上的注册的基本信息,包括名称、年龄、描述信息、教育信息、位置信息、职业信息、标签信息等。同时,该模块还存储有用户发布的微博文本信息,微博用户的关注信息列表等等。此外,用户信息数据库库中还存储了用户的微博链接地址、微博用户的个人头像地址等。
微博信息检索系统模块2:该模块的功能包括检索微博群体分析时所需要的数据,例如:用户的基本信息(名称,标签,用户教育信息,用户职业信息)等。还包括用户的关系信息以及每个用户发布的微博文本信息。该检索系统模块2采用的是以Lucene为核心的基于Hadoop的架构设计。其前台采用Web层对用户提供搜索服务,后台可以分不同的搜索组提供对外服务。该系统采用zookeeper进行集群的管理维护;采用Memcached对系统的搜索结果进行缓存;采用mina进行系统模块间的数据交互;采用Lucene提供搜索核心。
需要说明的是,上述的数据库模块1和检索系统模块2结合与上述第一确定模块22功能相当。
微博群体分析系统关系网络图谱模块3(与上述第三确定模块26功能相当):该模块的功能是社交网络图谱的生成,生成人物间的网络关系图谱,以及网络图谱的可视化。具体实现过程是提取群体中节点之间的关注、转发、评论、等关系,根据这些关系生成社会网络关系图谱。
微博群体分析系统影响力分析模块4(与上述第三获取单元36的功能相当):该模块的功能包括计算微博群体中人物的影响力,分析群体的意见领袖,按影响力的大小对微博群体中的人物进行排序。输出Top N的人物列表。人物影响力算法流程为:
根据PageRank算法得到每个节点S的PageRank值PageRank(S)作为人物静态影响力。
根据微博转发树计算人物动态影响力Dynamic(S),计算公式如下:
Dynamic ( S ) = ( &Sigma; i = 1 N &Sigma; j = 1 h ( i ) w j node ( j ) ) / N - - - ( 1 ) ,
其中,N为用户近期发布的微博数,h(i)为第i条微博传播树的深度,node(j)为第j层的节点数目,wj为第j层节点的权重。
每个微博用户影响力计算方法如下:
Influence(S)=w1*PagePank(S)+w2*Dynamic(S)    (2),
微博群体分析系统网络结构计算模块5(与上述第四获取单元42功能相当):该模块的功能包括计算微博群体网络中人物的结构属性,包括人物的中心性、中介性等属性计算。中心性主要是反映人物的是否处于网络的中心位置,中介性主要反映人物在信息传播方面的影响力。
中心性计算公式如下:
B ( v ) = &Sigma; s &NotEqual; v &NotEqual; t &Element; V &sigma; st ( v ) &sigma; st - - - ( 3 ) ,
其中,v为关系网络图谱G=(V,E)的任意一个点,<s,t>表示关系网络图谱G=(V,E)中的任意节点对,σ为两点之间最短路径的数目,σst(v)为关系网络图谱G=(V,E)中所有经过v的最短路径总数。
中介性计算公式如下:
C ( V ) = &Sigma; t &Element; V / v 2 - d c ( v , t ) - - - ( 4 ) ,
其中,dc(v,t)为关系网络图谱G=(V,E)中的任意节点t到v的最短路径长度。
微博群体分析系统圈子划分模块6(与上述划分单元62功能相当):该模块的功能两部分:按结构划分圈子和按标签划分圈子。按结构划分圈子是指按网络图谱结构进行圈子划分。按标签划分圈子指的是,根据用户自定义的标签属性,统计出微博群体人物的出现频率Top N的标签信息进行圈子划分。
微博群体分析系统人物关系强度分析模块7(与上述第五获取单元72功能相当):该模块的功能包括计算微博群体中人物之间的紧密度,分析人物与人物之间的亲密度。按人物的关系强度值排序,输出排序Top N亲密度高的人物。人物关系强度计算公式如下:
通过以下公式获取人物关系强度: E ( edge ) = &Sigma; &ForAll; m , n shortest ( m , n ) - - - ( 5 ) ,
其中,m,n为关系网络图谱G=(V,E)中任意两点,shortest(m,n)为是否经过边edge。
微博群体分析系统热门话题模块8(与上述第六获取单元92功能相当):该模块的功能是分析微博群体人物所讨论、参与的热门话题有那些,分析微博群体人物的兴趣爱好,微博人物都热衷于讨论什么样的话题,输出微博群体参与讨论的Top N个热门微博。
微博群体分析系统的可视化展示模块9(与上述显示模块1002功能相当):该模块的功能主要是负责可视化展示以上六个模块的计算结果,可视化输出,直观展示。例如,图12是根据本发明优选实施方式的微博群体网络图谱可视化视图的示意图,图13是根据本发明优选实施方式的意见领袖排名可视化视图的示意图,图14是根据本发明优选实施方式的圈子划分可视化视图的示意图,图15是根据本发明优选实施方式的热门话题可视化视图,如图12、13、14、15所示,其中,图12中的空心圆圈表示包含节点名称的节点,如各图所示,包括以图谱形式展示网络图谱、以列表形式输出影响力排序、中心性排序、中介性排序的结果。以表格的形式输出圈子划分结构。以列表形式输出关系强度的排序列表,以及微博群体的话题列表。
图16是根据本发明优选实施方式的微博群体分析处理的流程图,如图16所示,当用户使用微博群体分析时,用户可以选定感兴趣的关键词,例如“哈尔滨工业大学”,通过检索系统检索出和关键词相关的微博群体人物,通过搜索为入口进行微博群体分析系统,该微博群体分析处理流程包括如下步骤:
步骤S1602,用户输入关键词,例如“哈尔滨工业大学”,“清华大学”任意用户感兴趣的关键词,根据微博搜索模块,提取出和关键词相关的人物列表,每个人物的基本信息包括(人物的ID,人物名称,人物关系列表)。
步骤S1604,计算微博群体人物关系网络图谱,根据用户的关注列表,计算用户间的关系网络图谱。
步骤S1606,根据微博群体人物间的关系图谱,计算微博群体的人物的影响力、中心性、中介性、人物间的关系强度,并排序输出Ton N的列表信息。
步骤S1608,计算微博群体的热门话题列表,根据查询到的用户Id列表,查询与人物相关的微博列表,计算出人物间的热门话题,按话题热度排序输出Top N热门微博列表。
步骤S1610,退出系统登录。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种微博群体处理方法,其特征在于,包括:
依据用户输入确定所述微博群体所包括的群体人物;
确定所述微博群体所包括的所述群体人物的关注列表;
依据所述关注列表确定所述微博群体的关系网络图谱;
依据所述关系网络图谱对所述微博群体进行分析处理。
2.根据权利要求1所述的方法,其特征在于,依据所述关系网络图谱对所述微博群体进行分析处理包括:
依据所述关系网络图谱的图谱结构获取所述微博群体所包括的所述群体人物的静态影响力;
依据所述微博群体所包括的所述群体人物的微博转发树获取所述群体人物的动态影响力;
依据所述静态影响力和所述动态影响力获取所述群体人物的用户影响力。
3.根据权利要求1所述的方法,其特征在于,通过以下公式,依据所述微博群体所包括的
所述群体人物的所述微博转发树获取所述群体人物的所述动态影响力包括:
Dynamic ( S ) = ( &Sigma; i = 1 N &Sigma; j = 1 h ( i ) w j node ( j ) ) / N , 其中,N为用户近期发布的微博数,h(i)为第i条微博传播树的深度,node(j)为第j层的节点数目,wj为第j层节点的权重。
4.根据权利要求1所述的方法,其特征在于,依据所述关系网络图谱对所述微博群体进行分析处理包括:
依据所述关系网络图谱获取所述群体人物的结构属性。
5.根据权利要求4所述的方法,其特征在于,依据所述关系网络图谱获取所述群体人物的结构属性包括以下至少之一:
通过以下公式获取所述群体人物的中心性:其中,v为所述关系网络图谱G=(V,E)的任意一个点,<s,t>表示所述关系网络图谱G=(V,E)中的任意节点对,σ为两点之间最短路径的数目,σst(v)为所述关系网络图谱G=(V,E)中所有经过v的最短路径总数;
通过以下公式获取所述群体人物的中介性:其中,dc(v,t)为所述关系网络图谱G=(V,E)中的任意节点t到v的最短路径长度。
6.根据权利要求1所述的方法,其特征在于,依据所述关系网络图谱对所述微博群体进行分析处理包括:
依据所述关系网络图谱对所述微博群体划分圈子。
7.根据权利要求1所述的方法,其特征在于,依据所述关系网络图谱对所述微博群体进行分析处理包括:
依据所述关系网络图谱获取所述微博群体所包括的群体人物与群体人物间的人物关系强度。
8.根据权利要求7所述的方法,其特征在于,依据所述关系网络图谱获取所述微博群体所包括的群体人物与群体人物间的所述人物关系强度包括:
通过以下公式获取所述人物关系强度:其中,m,n为所述关系网络图谱G=(V,E)中任意两点,shortest(m,n)为是否经过边edge。
9.根据权利要求1所述的方法,其特征在于,依据所述关系网络图谱对所述微博群体进行分析处理包括:
依据所述关系网络图谱以及所述微博群体转发的所述微博内容获取所述微博群体人物间的热门话题。
10.根据权利要求1至9中任一项所述的方法,其特征在于,在依据所述关系网络图谱对所述微博群体进行分析处理之后,还包括:
对所述微博群体进行分析处理后获得的分析结果进行可视化显示。
11.一种微博群体处理装置,其特征在于,包括:
第一确定模块,用于依据用户输入确定所述微博群体所包括的群体人物;
第二确定模块,用于确定所述微博群体所包括的所述群体人物的关注列表;
第三确定模块,用于依据所述关注列表确定所述微博群体的关系网络图谱;
处理模块,用于依据所述关系网络图谱对所述微博群体进行分析处理。
12.根据权利要求11所述的装置,其特征在于,所述处理模块:
第一获取单元,用于依据所述关系网络图谱的图谱结构获取所述微博群体所包括的所述群体人物的静态影响力;
第二获取单元,用于依据所述微博群体所包括的所述群体人物的微博转发树获取所述群体人物的动态影响力;
第三获取单元,用于依据所述静态影响力和所述动态影响力获取所述群体人物的用户影响力。
13.根据权利要求12所述的装置,其特征在于,所述第二获取单元,用于通过以下公式获取所述群体人物的动态影响力:
Dynamic ( S ) = ( &Sigma; i = 1 N &Sigma; j = 1 h ( i ) w j node ( j ) ) / N , 其中,N为用户近期发布的微博数,h(i)为第i条微博传播树的深度,node(j)为第j层的节点数目,wj为第j层节点的权重。
14.根据权利要求11所述的装置,其特征在于,所述处理模块包括:
第四获取单元,用于依据所述关系网络图谱获取所述群体人物的结构属性。
15.根据权利要求14所述的装置,其特征在于,所述第四获取单元包括以下至少之一:
第一获取子单元,用于通过以下公式获取所述群体人物的中心性:其中,v为所述关系网络图谱G=(V,E)的任意一个点,<s,t>表示所述关系网络图谱G=(V,E)中的任意节点对,σ为两点之间最短路径的数目,σst(v)为所述关系网络图谱G=(V,E)中所有经过v的最短路径总数;
第二获取子单元,用于通过以下公式获取所述群体人物的中介性:其中,dc(v,t)为所述关系网络图谱G=(V,E)中的任意节点t到v的最短路径长度。
16.根据权利要求11所述的装置,其特征在于,所述处理模块包括:
划分单元,用于依据所述关系网络图谱对所述微博群体划分圈子。
17.根据权利要求11所述的装置,其特征在于,所述处理模块包括:
第五获取单元,用于依据所述关系网络图谱获取所述微博群体所包括的群体人物与群体人物间的人物关系强度。
18.根据权利要求17所述的装置,其特征在于,所述第五获取单元包括:
第三获取子单元,用于通过以下公式获取所述人物关系强度:其中,m,n为所述关系网络图谱G=(V,E)中任意两点,shortest(m,n)为是否经过边edge。
19.根据权利要求11所述的装置,其特征在于,所述处理模块包括:
第六获取单元,用于依据所述关系网络图谱获取所述微博群体所包括的群体人物与群体人物间的人物关系强度。
20.根据权利要求11至19中任一项所述的装置,其特征在于,还包括:
显示模块,用于对所述微博群体进行分析处理后获得的分析结果进行可视化显示。
CN201310508540.6A 2013-10-24 2013-10-24 微博群体处理方法及装置 Active CN104572757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310508540.6A CN104572757B (zh) 2013-10-24 2013-10-24 微博群体处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310508540.6A CN104572757B (zh) 2013-10-24 2013-10-24 微博群体处理方法及装置

Publications (2)

Publication Number Publication Date
CN104572757A true CN104572757A (zh) 2015-04-29
CN104572757B CN104572757B (zh) 2018-11-23

Family

ID=53088837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310508540.6A Active CN104572757B (zh) 2013-10-24 2013-10-24 微博群体处理方法及装置

Country Status (1)

Country Link
CN (1) CN104572757B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106411683A (zh) * 2015-07-30 2017-02-15 华为技术有限公司 一种关键社交信息的确定方法及装置
CN107480222A (zh) * 2017-08-02 2017-12-15 中国科学院地理科学与资源研究所 基于微博数据的城市群空间联系强度测度系统
CN109446171A (zh) * 2017-08-30 2019-03-08 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN109461106A (zh) * 2018-10-11 2019-03-12 浙江公共安全技术研究院有限公司 一种多维信息感知处理方法
CN109829089A (zh) * 2018-12-12 2019-05-31 中国科学院计算技术研究所 基于关联图谱的社交网络用户异常检测方法和系统
CN110390039A (zh) * 2019-07-25 2019-10-29 广州汇智通信技术有限公司 基于知识图谱的社交关系分析方法、装置及设备
CN111949696A (zh) * 2020-07-08 2020-11-17 国家计算机网络与信息安全管理中心 一种全要素关联分析方法及装置
CN114817563A (zh) * 2022-04-27 2022-07-29 电子科技大学 基于最大团发现的特定Twitter用户群体的挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761531A (zh) * 2011-04-29 2012-10-31 腾讯科技(深圳)有限公司 一种社区验证方法和服务器
US20130073562A1 (en) * 2011-03-08 2013-03-21 Libera, Inc. Computer-implemented weighted tree search
CN103001856A (zh) * 2012-12-05 2013-03-27 华为软件技术有限公司 一种信息分享方法及系统、即时通讯客户端及服务器
CN103024017A (zh) * 2012-12-04 2013-04-03 武汉大学 一种社交网络重要目标及社区群体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130073562A1 (en) * 2011-03-08 2013-03-21 Libera, Inc. Computer-implemented weighted tree search
CN102761531A (zh) * 2011-04-29 2012-10-31 腾讯科技(深圳)有限公司 一种社区验证方法和服务器
CN103024017A (zh) * 2012-12-04 2013-04-03 武汉大学 一种社交网络重要目标及社区群体识别方法
CN103001856A (zh) * 2012-12-05 2013-03-27 华为软件技术有限公司 一种信息分享方法及系统、即时通讯客户端及服务器

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106411683A (zh) * 2015-07-30 2017-02-15 华为技术有限公司 一种关键社交信息的确定方法及装置
CN106411683B (zh) * 2015-07-30 2019-07-12 华为技术有限公司 一种关键社交信息的确定方法及装置
CN107480222A (zh) * 2017-08-02 2017-12-15 中国科学院地理科学与资源研究所 基于微博数据的城市群空间联系强度测度系统
CN107480222B (zh) * 2017-08-02 2018-07-03 中国科学院地理科学与资源研究所 基于微博数据的城市群空间联系强度测度系统
CN109446171A (zh) * 2017-08-30 2019-03-08 腾讯科技(深圳)有限公司 一种数据处理方法和装置
CN109461106A (zh) * 2018-10-11 2019-03-12 浙江公共安全技术研究院有限公司 一种多维信息感知处理方法
CN109829089A (zh) * 2018-12-12 2019-05-31 中国科学院计算技术研究所 基于关联图谱的社交网络用户异常检测方法和系统
CN109829089B (zh) * 2018-12-12 2021-03-05 中国科学院计算技术研究所 基于关联图谱的社交网络用户异常检测方法和系统
CN110390039A (zh) * 2019-07-25 2019-10-29 广州汇智通信技术有限公司 基于知识图谱的社交关系分析方法、装置及设备
CN111949696A (zh) * 2020-07-08 2020-11-17 国家计算机网络与信息安全管理中心 一种全要素关联分析方法及装置
CN114817563A (zh) * 2022-04-27 2022-07-29 电子科技大学 基于最大团发现的特定Twitter用户群体的挖掘方法

Also Published As

Publication number Publication date
CN104572757B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
CN104572757A (zh) 微博群体处理方法及装置
Ratkiewicz et al. Detecting and tracking the spread of astroturf memes in microblog streams
Chen et al. D-Map: Visual analysis of ego-centric information diffusion patterns in social media
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
JP5560367B2 (ja) ネットワーク内の友人の動的情報を管理するための方法、システムおよびサーバ
CN102054003B (zh) 网络信息推荐、建立网络资源索引的方法及系统
CN105723402A (zh) 用于确定社交数据网络中的影响者的系统和方法
CN104376083B (zh) 一种基于关注关系和多用户行为的图推荐方法
KR20160079863A (ko) 소셜 데이터 네트워크에서의 사용자의 거동 세그먼트화를 위한 시스템 및 방법
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN103605808B (zh) 基于搜索的ugc推荐的方法及系统
Ballatore Google chemtrails: A methodology to analyze topic representation in search engine results
CN103268350A (zh) 一种互联网舆情信息监测系统及监测方法
CN103218412B (zh) 舆情信息处理方法与装置
Cano et al. Social influence analysis in microblogging platforms–a topic-sensitive based approach
CN106503025A (zh) 一种应用推荐方法和系统
CN105302880A (zh) 内容关联推荐方法及装置
CN104933475A (zh) 网络转发行为预测方法及装置
Sharma et al. Harnessing Twitter to support serendipitous learning of developers
Gentile et al. Extracting semantic user networks from informal communication exchanges
Wei et al. Analysis of information dissemination based on emotional and the evolution life cycle of public opinion
Alamsyah et al. Measuring information dissemination mechanism on retweet network for marketing communication effort: Case study: Samsung galaxy S10 launch event
Li et al. Recommendation on social network based on graph model
Lei et al. Understanding Sina Weibo online social network: A community approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant