CN111506824A - 一种基于微博社交的人物关系可视化方法 - Google Patents

一种基于微博社交的人物关系可视化方法 Download PDF

Info

Publication number
CN111506824A
CN111506824A CN202010169044.2A CN202010169044A CN111506824A CN 111506824 A CN111506824 A CN 111506824A CN 202010169044 A CN202010169044 A CN 202010169044A CN 111506824 A CN111506824 A CN 111506824A
Authority
CN
China
Prior art keywords
microblog
text
social
users
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010169044.2A
Other languages
English (en)
Inventor
陈樟樟
陈佳舟
黄可妤
秦绪佳
汪雨薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010169044.2A priority Critical patent/CN111506824A/zh
Publication of CN111506824A publication Critical patent/CN111506824A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于微博社交的人物关系可视化方法,首先,根据用户的微博ID爬取多名用户的用户信息、关注数据及微博文本;其次,对微博文本数据进行预处理,然后进行中文分词,再运用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型提取文本主题,并分析微博文本相似性;然后,通过解析用户关注数据、微博文本数据以及微博文本相似度,构建社交关系网络;最后,通过力导引布局、打包布局等可视化方式展示社交关系网络。能够分析多个用户的微博数据以解析用户间的社交关系,并通过可视化的方式展示社交关系网络。

Description

一种基于微博社交的人物关系可视化方法
技术领域
本发明涉及一种利用计算机技术的微博社交人物关系分析方法, 能够分析多个用户的微博数据以解析用户间的社交关系,并通过可视 化的方式展示社交关系网络。
背景技术
随着社交网络服务的盛行,数以万计的用户每天活跃在社交网络 服务中,在网络上创造着丰富的信息,由此构建了一个庞大而复杂多 样的虚拟社交网络。在社交网络中,发现社交关系是一个至关重要的 问题,涉及到每一个人在社交网络中的自我定位和价值发现。因此, 通过分析人们在社交网络服务中的社交行为(发布博文、转发、关注), 挖掘社交关系引起了许多学者的关注,其中基于社交网络好友推荐拓 展社交关系颇受人们关注。
目前针对社交网络好友推荐有两个主要研究方向:基于用户兴趣 的主题推荐,以及基于社交网络拓扑结构的推荐。第一个方向通过分 析用户在社交平台上的行为提取用户兴趣爱好,获得高相似度的用户 群,在此基础上推荐好友给目标用户,而用户的社交网络拓扑结构很 大程度上反映了用户交友倾向,彼此信任度越高的用户越有可能成为 朋友,但现有方法未充分利用这些因素。因此,亟需一种结合用户相 似度和信任度的好友推荐方法,进一步提高好友推荐的准确度,使社 交关系的发现更加精准、更具说服力,并通过可视化的方式展示,使 结果更加直观。
发明内容
本发明要克服现有技术中微博社交关系分析方法的准确性及直 观性不高的缺点,提供了一种利用计算机技术的微博社交人物关系分 析方法,能够分析多个用户的微博数据以解析用户间的社交关系,并 通过可视化的方式展示社交关系网络。
一种基于微博社交的人物关系可视化方法,具体步骤如下:
步骤1、根据用户的微博ID爬取多名用户的用户信息、关注数 据及微博文本。
步骤2、对微博文本数据进行预处理,然后进行中文分词,再运 用隐含狄利克雷分布(LatentDirichletAllocation,以下简称LDA)主 题模型提取文本主题,并分析微博文本相似性。
步骤3、通过解析用户关注数据、微博文本数据以及微博文本相 似度,构建社交关系网络。
步骤4、通过力导引布局、打包布局等可视化方式展示社交关系 网络。
本发明的技术构思是:利用爬虫技术,获取用户的微博数据;以 jieba分词和LDA主题模型对微博文本数据进行处理;根据微博文本、 关注数据、用户相似度构建社交关系网络;利用力导引布局、打包布 局等可视化方式展示社交关系网络,提高社交关系提取的准确性、客 观性。
本发明的优点在于:通过计算用户微博文本相似性,分析用户间 是否存在相似的价值取向,以获得高相似度的用户群,通过解析用户 在社交平台上的交互行为(@、转发、关注),分析用户间的拓扑关 系,以获得高信任度的用户群,并利用有向图构建社交关系网络并通 过可视化的方式展示,使社交关系的发现更加准确、客观,具有说服 力。
附图说明
图1为本发明的总的流程图。
图2为本发明的力引导布局可视化效果图。
图3为本发明的打包布局的共同关注可视化效果图。
图4为本发明的打包布局的用户A关注可视化效果图。
图5为本发明的打包布局的用户A与用户B共同关注可视化效 果图。
具体实施方式
参照附图,进一步说明本发明:
基于微博社交的人物关系可视化方法,包括以下步骤:
步骤1、根据用户的微博ID爬取多名用户的用户信息、关注数 据及微博文本。
步骤2、对微博文本数据进行预处理,然后进行中文分词,再运 用隐含狄利克雷分布(LatentDirichletAllocation,LDA)主题模型提 取文本主题,并分析微博文本相似性。
步骤3、通过解析用户关注数据、微博文本数据以及微博文本相 似度,构建社交关系网络。
步骤4、通过力导引布局、打包布局等可视化方式展示社交关系 网络。
所述步骤2中,首先对获取的微博文本数据进行清洗,删除错误 或重复的数据,再使用基于TextRank方法的“结巴”(jieba)中文 分词对微博文本进行分词,TextRank方法主要用于抽取关键词;然 后将分词后的微博文本数据通过LDA挖掘出文本主题,再通过增量Gibbs采样(GibbsSampling)算法计算微博文本主题在主题词上的概 率分布,Gibbs采样是马尔可夫链蒙特卡尔理论(MCMC)中用来获 取一系列近似等于指定多维概率分布(比如2个或者多个随机变量的 联合概率分布)观察样本的算法;最后,使用Jensen-Shannon散数的倒数来衡量文本与文本之间的主题相似度:
Figure BDA0002408500020000041
Figure BDA0002408500020000042
Figure BDA0002408500020000043
Figure BDA0002408500020000051
其中,vi,vj表示微博文本的主题概率分布,sim(vi,vj) 表示,JS(vi,vj)表示vi,vj的Jensen-Shannon散度,DKL(vi,vk)表示 vi,vj的Kullback-Leibler散度,zk表示,p(zk|vj)表示。
所述步骤3中,首先,根据用户关注数据,对一个用户u,假设 其关注了n个用户,表示为一个用户集合F=(u1,u2,…,un),由u和 F组成的社交网络G可表示为有向图G=(F,E),其中E={eij|ui∈ F,uj∈F,ui关注uj},表示用户间关注关系的集合;再根据微博文本, 如果ui转发了uj的一条微博或者微博中@(提及)他(她),则可以 认为两者之间有一条边,为边设定权值,权值大小为两者间的交互次 数,此时E就可以表示为E′={eij|ui∈F,uj∈F,ui与uj产生了交互}; 最后,根据微博文本相似度,若ui与uj之间的文本相似度高于阈值, 则可以认为两者存在相似的爱好或价值取向,两者之间有一条边,边 的权值为两者的文本相似度,这样E就可以表示为E″={eij|ui∈ F,uj∈F,ui与uj存在相似爱好}。
所述步骤4中,通过节点链的力导引方式展示,以节点表示用户, 边表示节点间的联系。在节点链视图中,以节点的颜色表示用户的价 值取向,若节点的颜色越接近则表示用户的相似度越高;以边的粗细 表示用户间交往的次数多少,越粗代表了用户间的交往越频繁。通过 打包图可视化方法展示对象间共同关注信息。用大圆包含识别对象的 所有共同关注,用中圆包含该对象与其他任一对象的共同关注,用小 圆包括不同类别的共同关注。
目前,发现社交关系是社交网络中不可缺少的一个环节。社交网 络好友推荐是发现社交关系的重要途径。社交网络好友推荐目前有两 个方向,一是基于用户兴趣的主题推荐,二为基于社交网络拓扑结构 的推荐。第一个方向通过分析用户在社交平台上的行为提取用户兴趣 爱好,获得高相似度的用户群,在此基础上推荐好友给目标用户,而 用户的社交网络拓扑结构很大程度上反映了用户交友倾向,彼此信任 度越高的用户越有可能成为朋友,但现有方法未充分利用这些因素。 本发明提出了一种结合用户相似度和信任度的好友推荐方法,进一步 提高好友推荐的准确度,使社交关系的发现更加精准、更具说服力,并通过可视化的方式展示,使结果更加直观。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列 举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式, 本发明的保护范围也及于本领域技术人员根据本发明构思所能 够想到的等同技术手段。

Claims (4)

1.基于微博社交的人物关系可视化方法,包括以下步骤:
步骤1、根据用户的微博ID爬取多名用户的用户信息、关注数据及微博文本;
步骤2、对微博文本数据进行预处理,然后进行中文分词,再运用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型提取文本主题,并分析微博文本相似性;
步骤3、通过解析用户关注数据、微博文本数据以及微博文本相似度,构建社交关系网络;
步骤4、通过力导引布局、打包布局等可视化方式展示社交关系网络。
2.如权利要求1所述的基于微博社交的人物关系可视化方法,其特征在于:所述步骤2中,首先对获取的微博文本数据进行清洗,删除错误或重复的数据,再使用基于TextRank方法的“结巴”(jieba)中文分词对微博文本进行分词,TextRank方法主要用于抽取关键词;然后将分词后的微博文本数据通过LDA挖掘出文本主题,再通过增量Gibbs采样(GibbsSampling)算法计算微博文本主题在主题词上的概率分布,Gibbs采样是马尔可夫链蒙特卡尔理论(MCMC)中用来获取一系列近似等于指定多维概率分布(比如2个或者多个随机变量的联合概率分布)观察样本的算法;最后,使用Jensen-Shannon散数的倒数来衡量文本与文本之间的主题相似度:
Figure FDA0002408500010000021
Figure FDA0002408500010000022
Figure FDA0002408500010000023
Figure FDA0002408500010000024
其中,vi,vj表示微博文本的主题概率分布,JS(vi||vj)表示vi,vj的Jensen-Shannon散度,DKL(vi,vk)表示vi,vj的Kullback-Leibler散度。
3.如权利要求1所述的基于微博社交的人物关系可视化方法,其特征在于:所述步骤3中,根据用户关注数据,对一个用户u,假设其关注了n个用户,表示为F=(u1,u2,…,un),由u和F组成的社交网络G可表示为有向图G=(F,E),其中E={eij|ui∈F,uj∈F,ui关注uj},表示用户间关注关系的集合;再根据微博文本,如果ui转发了uj的一条微博或者微博中@(提及)他(她),则认为两者之间有一条边,为边设定权值,权值大小为两者间的交互次数,此时E就可以表示为E′={eij|ui∈F,uj∈F,ui与uj产生了交互};最后,根据微博文本相似度,若ui与uj之间的文本相似度高于阈值,则认为两者存在相似的爱好或价值取向,两者之间有一条边,边的权值为两者的文本相似度,这样E就可以表示为E″={eij|ui∈F,uj∈F,ui与uj存在相似爱好}。
4.如权利要求1所述的基于微博社交的人物关系可视化方法,其特征在于:所述步骤4中,通过节点链的力导引方式展示,以节点表示用户,边表示节点间的联系;在节点链视图中,以节点的颜色表示用户的价值取向,若节点的颜色越接近则表示用户的相似度越高,以边的粗细表示用户间交往的次数多少,越粗代表了用户间的交往越频繁;通过打包图可视化方法展示对象间共同关注信息;用大圆包含识别对象的所有共同关注,用中圆包含该对象与其他任一对象的共同关注,用小圆包括不同类别的共同关注。
CN202010169044.2A 2020-03-12 2020-03-12 一种基于微博社交的人物关系可视化方法 Pending CN111506824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010169044.2A CN111506824A (zh) 2020-03-12 2020-03-12 一种基于微博社交的人物关系可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010169044.2A CN111506824A (zh) 2020-03-12 2020-03-12 一种基于微博社交的人物关系可视化方法

Publications (1)

Publication Number Publication Date
CN111506824A true CN111506824A (zh) 2020-08-07

Family

ID=71877589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010169044.2A Pending CN111506824A (zh) 2020-03-12 2020-03-12 一种基于微博社交的人物关系可视化方法

Country Status (1)

Country Link
CN (1) CN111506824A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641821A (zh) * 2021-08-11 2021-11-12 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
CN114118299A (zh) * 2021-12-10 2022-03-01 中国人民解放军国防科技大学 一种结合相似性度量和社区发现的聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160179965A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation Information propagation via weighted semantic and social graphs
CN105912579A (zh) * 2016-04-01 2016-08-31 东软集团股份有限公司 一种人物关系图谱的生成方法及装置
CN109597924A (zh) * 2018-09-14 2019-04-09 湖北大学 一种基于人工免疫网络的微博社交圈挖掘方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160179965A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation Information propagation via weighted semantic and social graphs
CN105912579A (zh) * 2016-04-01 2016-08-31 东软集团股份有限公司 一种人物关系图谱的生成方法及装置
CN109597924A (zh) * 2018-09-14 2019-04-09 湖北大学 一种基于人工免疫网络的微博社交圈挖掘方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱明玮等: "基于社交圈发现与用户信任度传播的微博朋友推荐方法", 《软件导刊》 *
朱明玮等: "基于社交圈发现与用户信任度传播的微博朋友推荐方法", 《软件导刊》, 30 June 2018 (2018-06-30), pages 63 - 64 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641821A (zh) * 2021-08-11 2021-11-12 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
CN113641821B (zh) * 2021-08-11 2023-08-29 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
CN114118299A (zh) * 2021-12-10 2022-03-01 中国人民解放军国防科技大学 一种结合相似性度量和社区发现的聚类方法

Similar Documents

Publication Publication Date Title
Arbia Spatial econometrics
Rathore et al. Social media analytics: Literature review and directions for future research
Bu et al. A sock puppet detection algorithm on virtual spaces
Chen et al. R-map: A map metaphor for visualizing information reposting process in social media
Boididou et al. Learning to detect misleading content on twitter
Lee et al. Discovering content-based behavioral roles in social networks
Webb et al. Techniques for analyzing blogs and micro-blogs
US11574123B2 (en) Content analysis utilizing general knowledge base
CN111506824A (zh) 一种基于微博社交的人物关系可视化方法
Khun et al. Visualization of Twitter sentiment during the period of US banned huawei
Nguyen et al. Seagull: A bird’s-eye view of the evolution of technical games research
Bai et al. SR-LDA: Mining effective representations for generating service ecosystem knowledge maps
CN112084333A (zh) 一种基于情感倾向分析的社交用户生成方法
Kim et al. User interest-based recommender system for image-sharing social media
Singh et al. Social network analysis: a survey on measure, structure, language information analysis, privacy, and applications
CN112487304B (zh) 基于观点向量化的影响力传播模型的建立方法
Tshimula et al. A new approach for affinity relationship discovery in online forums
US10719779B1 (en) System and means for generating synthetic social media data
Alzboon Semantic text analysis on social networks and data processing: review and future directions
Paolillo Network analysis
Bayat et al. Estimation of Twitter user's nationality based on friends and followers information
Dessai et al. A topic modeling based approach for mining online social media data
Hoberg Supply chain and big data
Gao Spatial Scientometrics
Cambria Sentic computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200807