CN103793489B - 一种在线社交网络中社群话题的发现方法 - Google Patents

一种在线社交网络中社群话题的发现方法 Download PDF

Info

Publication number
CN103793489B
CN103793489B CN201410025323.6A CN201410025323A CN103793489B CN 103793489 B CN103793489 B CN 103793489B CN 201410025323 A CN201410025323 A CN 201410025323A CN 103793489 B CN103793489 B CN 103793489B
Authority
CN
China
Prior art keywords
user
community
association
social networkies
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410025323.6A
Other languages
English (en)
Other versions
CN103793489A (zh
Inventor
於志文
张星
梁韵基
郭斌
倪红波
王柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201410025323.6A priority Critical patent/CN103793489B/zh
Publication of CN103793489A publication Critical patent/CN103793489A/zh
Application granted granted Critical
Publication of CN103793489B publication Critical patent/CN103793489B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种在线社交网络中社群话题的发现方法,该具体过程为:基于网络爬虫对目标社交网络进行数据采集;基于采集到的社交网络中用户对象之间的交互关系,计算每个用户对象在交互网络拓扑中的相关度;构建用户对象静态的交互网络;利用层次聚类,根据用户对象的相关度得到紧密的用户社群结构;对于划分出的每个社群,查找数据库获得该社群对应的文本信息,将其作为文档输入,使用SVM分类,计算出该社群的热门话题。本发明提出了一种基于社群划分的社群话题发现方法,与现有的在线社交网络话题发现方法相比,可以有效排除噪音数据,获得更为紧密的社群之间的话题,有助于更深入地了解社交网络的信息传播规律。

Description

一种在线社交网络中社群话题的发现方法
技术领域
本发明涉及社会计算技术领域,尤其涉及一种在线社交网络中社群话题的发现方法。
背景技术
随着网络技术的发展,互联网正逐渐成为人们交往的重要渠道,人与人之间的社会网络关系蕴藏进了互联网中,诞生了社交网络服务。在社交网站通过在线服务向其用户提供服务的过程中,用户间形成了基于网络的成员之间的社交网络关系。社交网络在我们的日常生活扮演重要角色。人们通过社会性关系来完成互相间的通信和信息分享。在这个过程中,形成了社交网络中的话题。
社交网络是基于用户关系实现信息的分享、获取以及传播的互联网平台。用户利用社交网络构建和维持着自身的人际网络关系,并在相关平台上发布消息。社交网络中通常包括一些松散的用户集群,其中的成员相互联系较之其余用户更加密切,我们称之为社群。发现这种固有的社会结构中的话题分布有助于我们更深入地了解社交网络的信息传播规律。
中国专利200880124053.7、201210210349.9提出了一些在线社交网络的社群识别方法,但是无法在划分的社群中发现话题。专利201210514421.7提出使用专家知识人工去除噪音用户发现社交网络中的重要目标和专利201210054254.2采用分析用户话题链接行为识别社交网络中的话题领袖,都只能获得社交网络核心用户的话题内容。专利201210350117.3提出了一种发现社交网络中弱链接的方法,可以有效寻找到话题路径,但是无法发现具体的话题。专利201210210349.9能够挖掘社交网络中话题核心圈,依旧无法覆盖所有社群的话题。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本创作。
发明内容
本发明的目的在于提供一种在线社交网络中社群话题的发现方法,用以克服上述技术缺陷。
为实现上述目的,本发明提供一种在线社交网络中社群话题的发现方法,该具体过程为:
步骤1,基于网络爬虫对目标社交网络进行数据采集;
步骤2,基于采集到的社交网络中用户对象之间的交互关系,计算每个用户对象在交互网络拓扑中的相关度;
步骤3,构建用户对象静态的交互网络;
步骤4,利用层次聚类,根据用户对象的相关度得到紧密的用户社群结构;
步骤5,对于划分出的每个社群,查找数据库获得该社群对应的文本信息,将其作为文档输入,使用SVM分类,计算出该社群的热门话题。
进一步,
通过下述公式(1)计算用户之间的相关度ηij,并存入数据库中,
ηij = αij + 1 Σ k = 1 n αik + n · h 1 + βij + 1 Σ k = 1 n βik + n · h 2 + λij + 1 Σ k = 1 n λik + n · h 3 - - - ( 1 )
其中,ηij表示用户i和用户j的相关度,αij表示用户i对用户j的评论次数,βij表示用户i对用户j的转发次数,γij表示用户i对用户j的分享次数;h1,h2,h3分别表示评论、转发、分享这三种操作的权值。
进一步,在上述步骤3中,对于一个含有n个用户的社群Q,设其中的用户分别为U1、U2、...Ui...Un,对于其中任意个用户Ui,通过公式(1)的用户相关度公式,可以计算出其和其它N-1个用户的相关度ηij;
定义向量为用户i的社群相关度向量,则该向量表示用户i对于社群中所有用户的相关度;
计算出社群中所有用户的相关度向量Ai后,定义矩阵 T为社群Q的相关度矩阵。
进一步,
所述层次聚类,将网络中聚类最近的两个点或者集合不断的聚集在一起,形成新的集合,最后会形成一颗聚类二叉树,根据给定的社群数量,可以将其分割为任意数量的子树,每个子树对应的用户集合就是一个社群,在裁剪的过程中,不断丢弃那些子树个数为一的孤立节点,实现对噪音数据的过滤。
进一步,
在上述步骤4中,对目标社交网络划分为K个社群的过程具体过程为:
步骤41:对于一个社交网络的相关度矩阵MQ,使用层次聚类方法获得其聚类树ClusterTree;
步骤42:将ClusterTree加入聚类树集合Q中;
步骤43:如果Q中的聚类集合数量大于K直接进入步骤44,否则选取集合Q中根节点距离最大的聚类树拆为两颗子树,如果子树的根节点数量小于2,则删除该子树,否则将子树添加到集合Q中;
步骤44:如果Q中的聚类集合数量小于K直接进入步骤45,否则选取集合Q中根节点距离最小的两颗聚类树合并为一颗子树;
步骤45:如果Q中的聚类集合数量等于K则结束,否则返回43。
进一步,根据三种操作的重要程度不同和比例关系,所述h1=0.45;h2=0.3,h3=0.25。
进一步,
所述步骤1中采集信息包括用户发布的所有新鲜事文本,以及新鲜事条目下其他用户对其进行的转发、分享、评论等交互操作;并在采集过程中,解析新鲜事信息中包含的交互操作。
与现有技术相比较本发明的有益效果在于:本发明提出了一种基于社群划分的社群话题发现方法,与现有的在线社交网络话题发现方法相比,可以有效排除噪音数据,获得更为紧密的社群之间的话题,有助于更深入地了解社交网络的信息传播规律。
附图说明
图1为本发明实例中话题发现的流程图;
图2为本发明实例中的社群划分过程的流程图;
图3为本发明实例中的社群话题发现结果。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
请参阅图1所示,本发明对在线社交网络平台的不同社群热点话题的发现的具体过程为:
步骤1,基于网络爬虫对目标社交网络进行数据采集;
该数据信息包括用户发布的所有新鲜事文本,以及新鲜事条目下其他用户对其进行的转发、分享、评论等交互操作;并在采集过程中,解析新鲜事信息中包含的交互操作,如转发、评论、分析、赞等。基于网络爬虫技术,从目标社交网络中选取一个种子用户,从其页面开始,依次进入社交网络的其他用户,采集其数据信息,并将采集结果存入数据库中。
步骤2,基于采集到的社交网络中用户对象之间的交互关系,计算每个用户对象在交互网络拓扑中的相关度;
用户相关度指的是用户之间的交互程度,是本发明用来衡量用户之间差异性,划分不同的用户社群的基准。通过将用户之间的操作加权赋值并归一化,相互交互较多的用户相关度较高,而相互交互较少的用户相关度较低。
本发明通过下述公式(1)计算用户之间的相关度ηij,并存入数据库中,
ηij = αij + 1 Σ k = 1 n αik + n · h 1 + βij + 1 Σ k = 1 n βik + n · h 2 + λij + 1 Σ k = 1 n λik + n · h 3 - - - ( 1 )
其中,ηij表示用户i和用户j的相关度,αij表示用户i对用户j的评论次数,βij表示用户i对用户j的转发次数,γij表示用户i对用户j的分享次数;h1,h2,h3分别表示评论、转发、分享这三种操作的权值。经过实验统计,根据三种操作的重要程度不同和比例关系,在本实施例中,令h1=0.45;h2=0.3,h3=0.25。
步骤3,构建用户对象静态的交互网络;
计算出社交网络中每个用户之间的相关度后,就构建了用户之间的交互网络。
对于一个含有n个用户的社群Q,设其中的用户分别为U1、U2、...Ui...Un,对于其中任意个用户Ui,通过公式(1)的用户相关度公式,可以计算出其和其它N-1个用户的相关度ηij;定义向量 为用户i的社群相关度向量,则该向量表示用户i对于社群中所有用户的相关度。
计算出社群中所有用户的相关度向量Ai后,定义矩阵 T为社群Q的相关度矩阵。矩阵MQ包含了社群Q中所有用户之间的相关度数据,反映了所有用户之间的相关性情况。
步骤4,利用层次聚类,根据用户对象的相关度得到紧密的用户社群结构;
层次聚类是将网络中聚类最近的两个点或者集合不断的聚集在一起,形成新的集合,最后会形成一颗聚类二叉树,根据给定的社群数量,可以将其分割为任意数量的子树,每个子树对应的用户集合就是一个社群,在裁剪的过程中,不断丢弃那些子树个数为一的孤立节点,实现对噪音数据的过滤。
对于一个社交网络的所述相关度矩阵MQ,使用层次聚类方法获得每个用户对应的向量的聚类树。并对聚类树切割,获得紧密社群结构,并删除噪音用户。
请参阅图2所示,所述对目标社交网络划分为K个社群的过程具体过程为:
步骤41:对于一个社交网络的相关度矩阵MQ,使用层次聚类方法获得其聚类树ClusterTree;
步骤42:将ClusterTree加入聚类树集合Q中;
步骤43:如果Q中的聚类集合数量大于K直接进入步骤44,否则选取集合Q中根节点距离最大的聚类树拆为两颗子树,如果子树的根节点数量小于2,则删除该子树,否则将子树添加到集合Q中;
步骤44:如果Q中的聚类集合数量小于K直接进入步骤45,否则选取集合Q中根节点距离最小的两颗聚类树合并为一颗子树;
步骤45:如果Q中的聚类集合数量等于K则结束,否则返回43。
步骤5,对于划分出的每个社群,查找数据库获得该社群对应的文本信息,将其作为文档输入,使用SVM分类,计算出该社群的热门话题。
话题模型将词语和主题之间,主题和文档之间都视为一种狄利克雷分布,将社群作为文档集合,社群中用户的新鲜事信息作为词语,通过使用SVM分类器,就可以得到该社群的主题。
请参阅图3所示,其为本发明实例中的社群话题发现结果。
本发明提出了一种基于社群划分的社群话题发现方法,与现有的在线社交网络话题发现方法相比,可以有效排除噪音数据,获得更为紧密的社群之间的话题,有助于更深入地了解社交网络的信息传播规律。
以上所述仅为本发明的较佳实施例,对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (6)

1.一种在线社交网络中社群话题的发现方法,其特征在于,该具体过程为:
步骤1,基于网络爬虫对目标社交网络进行数据采集;
步骤2,基于采集到的社交网络中用户对象之间的交互关系,计算每个用户对象在交互网络拓扑中的相关度;
通过下述公式(1)计算用户之间的相关度ηij,并存入数据库中,
其中,ηij表示用户i和用户j的相关度,αij表示用户i对用户j的评论次数,βij表示用户i对用户j的转发次数,λij表示用户i对用户j的分享次数;h1,h2,h3分别表示评论、转发、分享这三种操作的权值;
步骤3,构建用户对象静态的交互网络;
步骤4,利用层次聚类,根据用户对象的相关度得到紧密的用户社群结构;
步骤5,对于划分出的每个社群,查找数据库获得该社群对应的文本信息,将其作为文档输入,使用SVM分类,计算出该社群的热门话题。
2.根据权利要求1所述的在线社交网络中社群话题的发现方法,其特征在于,在上述步骤3中,对于一个含有n个用户的社群Q,设其中的用户分别为U1、U2、...Ui...Un,对于其中任意个用户Ui,通过公式(1)的用户相关度公式,可以计算出其和其它N-1个用户的相关度ηij;
定义向量为用户i的社群相关度向量,则该向量表示用户i对于社群中所有用户的相关度;
计算出社群中所有用户的相关度向量Ai后,定义矩阵 T为社群Q的相关度矩阵。
3.根据权利要求1所述的在线社交网络中社群话题的发现方法,其特征在于,
所述层次聚类,将网络中聚类最近的两个点或者集合不断的聚集在一起,形成新的集合,最后会形成一颗聚类二叉树,根据给定的社群数量,可以将其分割为任意数量的子树,每个子树对应的用户集合就是一个社群,在裁剪的过程中,不断丢弃那些子树个数为一的孤立节点,实现对噪音数据的过滤。
4.根据权利要求3所述的在线社交网络中社群话题的发现方法,其特征在于,
在上述步骤4中,对目标社交网络划分为K个社群的过程具体过程为:
步骤41:对于一个社交网络的相关度矩阵MQ,使用层次聚类方法获得其聚类树ClusterTree;
步骤42:将ClusterTree加入聚类树集合Q中;
步骤43:如果Q中的聚类集合数量大于K直接进入步骤44,否则选取集合Q中根节点距离最大的聚类树拆为两颗子树,如果子树的根节点数量小于2,则删除该子树,否则将子树添加到集合Q中;
步骤44:如果Q中的聚类集合数量小于K直接进入步骤45,否则选取集合Q中根节点距离最小的两颗聚类树合并为一颗子树;
步骤45:如果Q中的聚类集合数量等于K则结束,否则返回43。
5.根据权利要求1所述的在线社交网络中社群话题的发现方法,其特征在于,根据三种操作的重要程度不同和比例关系,所述h1=0.45;h2=0.3,h3=0.25。
6.根据权利要求5所述的在线社交网络中社群话题的发现方法,其特征在于,
所述步骤1中采集信息包括用户发布的所有新鲜事文本,以及新鲜事条目下其他用户对其进行的转发、分享、评论等交互操作;并在采集过程中,解析新鲜事信息中包含的交互操作。
CN201410025323.6A 2014-01-16 2014-01-16 一种在线社交网络中社群话题的发现方法 Expired - Fee Related CN103793489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410025323.6A CN103793489B (zh) 2014-01-16 2014-01-16 一种在线社交网络中社群话题的发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410025323.6A CN103793489B (zh) 2014-01-16 2014-01-16 一种在线社交网络中社群话题的发现方法

Publications (2)

Publication Number Publication Date
CN103793489A CN103793489A (zh) 2014-05-14
CN103793489B true CN103793489B (zh) 2017-01-18

Family

ID=50669155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410025323.6A Expired - Fee Related CN103793489B (zh) 2014-01-16 2014-01-16 一种在线社交网络中社群话题的发现方法

Country Status (1)

Country Link
CN (1) CN103793489B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102706A (zh) * 2014-07-10 2014-10-15 西安交通大学 一种基于层次聚类的可疑纳税人检测方法
CN104090971A (zh) * 2014-07-17 2014-10-08 中国科学院自动化研究所 面向个性化应用的跨网络行为关联方法
CN106156030A (zh) 2014-09-18 2016-11-23 华为技术有限公司 社交网络中预测信息传播的方法及设备
CN105787232B (zh) * 2014-12-17 2018-09-25 中国移动通信集团公司 一种数据处理方法、装置、健康系统平台及终端
CN105117422B (zh) * 2015-07-30 2018-08-24 中国传媒大学 智能社交网络推荐系统
CN105589935A (zh) * 2015-12-11 2016-05-18 成都陌云科技有限公司 社交群组识别方法
CN107436877B (zh) * 2016-05-25 2021-03-30 北京京东尚科信息技术有限公司 热点话题推送方法和装置
CN106446264B (zh) * 2016-10-18 2019-08-27 哈尔滨工业大学深圳研究生院 文本表示方法及系统
CN108200101A (zh) * 2018-03-13 2018-06-22 河南工学院 一种计算机系统及其用户的身份识别方法和装置
CN109739988B (zh) * 2018-12-30 2021-05-14 北京智慧星光信息技术有限公司 一种行业热度获取方法
CN109740059B (zh) * 2018-12-31 2020-12-04 北京人民在线网络有限公司 一种热门话题舆情分析方法
CN109727152B (zh) * 2019-01-29 2020-07-17 重庆理工大学 一种基于时变阻尼运动的在线社交网络信息传播构建方法
CN110555149A (zh) * 2019-09-05 2019-12-10 深圳前海微众银行股份有限公司 言论数据处理方法、装置、设备及可读存储介质
CN111582538B (zh) * 2020-03-25 2023-07-04 清华大学 一种基于图神经网络的社群价值预测方法及系统
CN113407659A (zh) * 2021-07-09 2021-09-17 上海明略人工智能(集团)有限公司 员工社区发现方法、系统、计算机和可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902772A (zh) * 2012-09-27 2013-01-30 福建师范大学 一种基于多目标优化的Web社区发现方法
CN102929942A (zh) * 2012-09-27 2013-02-13 福建师范大学 一种基于集成学习的社会网络重叠社区发现方法
CN103325061A (zh) * 2012-11-02 2013-09-25 中国人民解放军国防科学技术大学 一种社区发现方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902772A (zh) * 2012-09-27 2013-01-30 福建师范大学 一种基于多目标优化的Web社区发现方法
CN102929942A (zh) * 2012-09-27 2013-02-13 福建师范大学 一种基于集成学习的社会网络重叠社区发现方法
CN103325061A (zh) * 2012-11-02 2013-09-25 中国人民解放军国防科学技术大学 一种社区发现方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"在线社会网络中社区发现技术及其应用研究";熊正理;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130215;第2013年卷(第02期);论文第26页 *

Also Published As

Publication number Publication date
CN103793489A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN103793489B (zh) 一种在线社交网络中社群话题的发现方法
CN108509551A (zh) 一种基于Spark环境下的微博网络关键用户挖掘系统及方法
Kumar et al. Dynamics of conversations
Li et al. Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment
Martinelli et al. Measuring knowledge persistence: a genetic approach to patent citation networks
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
Zhang et al. TempoRec: Temporal-topic based recommender for social network services
CN103020302A (zh) 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN103838819A (zh) 一种信息发布方法及系统
CN103064917A (zh) 一种面向微博的特定倾向的高影响力用户群发现方法
CN105631749A (zh) 基于统计数据的用户画像计算方法
CN103116611A (zh) 社交网络意见领袖识别方法
CN103631862B (zh) 基于微博的事件特征演化挖掘方法及系统
Ting Web mining techniques for on-line social networks analysis
CN105868267A (zh) 一种移动社交网络用户兴趣的建模方法
CN104216889B (zh) 基于云服务的数据传播性分析预测方法及系统
CN107239512A (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
Zhang et al. Identifying and evaluating the internet opinion leader community based on k-clique clustering
Piva et al. Networks with growth and preferential attachment: modelling and applications
Garg et al. Hunter–gatherer foraging networks promote information transmission
Rani et al. A survey of tools for social network analysis
Luczak-Roesch et al. From coincidence to purposeful flow? properties of transcendental information cascades
CN108446333A (zh) 一种大数据文本挖掘处理系统及其方法
Onorati et al. Semantic visualization of Twitter usage in emergency and crisis situations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170118