CN111506824A - 一种基于微博社交的人物关系可视化方法 - Google Patents
一种基于微博社交的人物关系可视化方法 Download PDFInfo
- Publication number
- CN111506824A CN111506824A CN202010169044.2A CN202010169044A CN111506824A CN 111506824 A CN111506824 A CN 111506824A CN 202010169044 A CN202010169044 A CN 202010169044A CN 111506824 A CN111506824 A CN 111506824A
- Authority
- CN
- China
- Prior art keywords
- microblog
- text
- social
- users
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007794 visualization technique Methods 0.000 title claims abstract description 10
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000004806 packaging method and process Methods 0.000 claims abstract description 6
- 230000009193 crawling Effects 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012856 packing Methods 0.000 claims description 2
- 239000006185 dispersion Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 230000006855 networking Effects 0.000 description 5
- 238000012800 visualization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于微博社交的人物关系可视化方法,首先,根据用户的微博ID爬取多名用户的用户信息、关注数据及微博文本;其次,对微博文本数据进行预处理,然后进行中文分词,再运用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型提取文本主题,并分析微博文本相似性;然后,通过解析用户关注数据、微博文本数据以及微博文本相似度,构建社交关系网络;最后,通过力导引布局、打包布局等可视化方式展示社交关系网络。能够分析多个用户的微博数据以解析用户间的社交关系,并通过可视化的方式展示社交关系网络。
Description
技术领域
本发明涉及一种利用计算机技术的微博社交人物关系分析方法, 能够分析多个用户的微博数据以解析用户间的社交关系,并通过可视 化的方式展示社交关系网络。
背景技术
随着社交网络服务的盛行,数以万计的用户每天活跃在社交网络 服务中,在网络上创造着丰富的信息,由此构建了一个庞大而复杂多 样的虚拟社交网络。在社交网络中,发现社交关系是一个至关重要的 问题,涉及到每一个人在社交网络中的自我定位和价值发现。因此, 通过分析人们在社交网络服务中的社交行为(发布博文、转发、关注), 挖掘社交关系引起了许多学者的关注,其中基于社交网络好友推荐拓 展社交关系颇受人们关注。
目前针对社交网络好友推荐有两个主要研究方向:基于用户兴趣 的主题推荐,以及基于社交网络拓扑结构的推荐。第一个方向通过分 析用户在社交平台上的行为提取用户兴趣爱好,获得高相似度的用户 群,在此基础上推荐好友给目标用户,而用户的社交网络拓扑结构很 大程度上反映了用户交友倾向,彼此信任度越高的用户越有可能成为 朋友,但现有方法未充分利用这些因素。因此,亟需一种结合用户相 似度和信任度的好友推荐方法,进一步提高好友推荐的准确度,使社 交关系的发现更加精准、更具说服力,并通过可视化的方式展示,使 结果更加直观。
发明内容
本发明要克服现有技术中微博社交关系分析方法的准确性及直 观性不高的缺点,提供了一种利用计算机技术的微博社交人物关系分 析方法,能够分析多个用户的微博数据以解析用户间的社交关系,并 通过可视化的方式展示社交关系网络。
一种基于微博社交的人物关系可视化方法,具体步骤如下:
步骤1、根据用户的微博ID爬取多名用户的用户信息、关注数 据及微博文本。
步骤2、对微博文本数据进行预处理,然后进行中文分词,再运 用隐含狄利克雷分布(LatentDirichletAllocation,以下简称LDA)主 题模型提取文本主题,并分析微博文本相似性。
步骤3、通过解析用户关注数据、微博文本数据以及微博文本相 似度,构建社交关系网络。
步骤4、通过力导引布局、打包布局等可视化方式展示社交关系 网络。
本发明的技术构思是:利用爬虫技术,获取用户的微博数据;以 jieba分词和LDA主题模型对微博文本数据进行处理;根据微博文本、 关注数据、用户相似度构建社交关系网络;利用力导引布局、打包布 局等可视化方式展示社交关系网络,提高社交关系提取的准确性、客 观性。
本发明的优点在于:通过计算用户微博文本相似性,分析用户间 是否存在相似的价值取向,以获得高相似度的用户群,通过解析用户 在社交平台上的交互行为(@、转发、关注),分析用户间的拓扑关 系,以获得高信任度的用户群,并利用有向图构建社交关系网络并通 过可视化的方式展示,使社交关系的发现更加准确、客观,具有说服 力。
附图说明
图1为本发明的总的流程图。
图2为本发明的力引导布局可视化效果图。
图3为本发明的打包布局的共同关注可视化效果图。
图4为本发明的打包布局的用户A关注可视化效果图。
图5为本发明的打包布局的用户A与用户B共同关注可视化效 果图。
具体实施方式
参照附图,进一步说明本发明:
基于微博社交的人物关系可视化方法,包括以下步骤:
步骤1、根据用户的微博ID爬取多名用户的用户信息、关注数 据及微博文本。
步骤2、对微博文本数据进行预处理,然后进行中文分词,再运 用隐含狄利克雷分布(LatentDirichletAllocation,LDA)主题模型提 取文本主题,并分析微博文本相似性。
步骤3、通过解析用户关注数据、微博文本数据以及微博文本相 似度,构建社交关系网络。
步骤4、通过力导引布局、打包布局等可视化方式展示社交关系 网络。
所述步骤2中,首先对获取的微博文本数据进行清洗,删除错误 或重复的数据,再使用基于TextRank方法的“结巴”(jieba)中文 分词对微博文本进行分词,TextRank方法主要用于抽取关键词;然 后将分词后的微博文本数据通过LDA挖掘出文本主题,再通过增量Gibbs采样(GibbsSampling)算法计算微博文本主题在主题词上的概 率分布,Gibbs采样是马尔可夫链蒙特卡尔理论(MCMC)中用来获 取一系列近似等于指定多维概率分布(比如2个或者多个随机变量的 联合概率分布)观察样本的算法;最后,使用Jensen-Shannon散数的倒数来衡量文本与文本之间的主题相似度:
其中,vi,vj表示微博文本的主题概率分布,sim(vi,vj) 表示,JS(vi,vj)表示vi,vj的Jensen-Shannon散度,DKL(vi,vk)表示 vi,vj的Kullback-Leibler散度,zk表示,p(zk|vj)表示。
所述步骤3中,首先,根据用户关注数据,对一个用户u,假设 其关注了n个用户,表示为一个用户集合F=(u1,u2,…,un),由u和 F组成的社交网络G可表示为有向图G=(F,E),其中E={eij|ui∈ F,uj∈F,ui关注uj},表示用户间关注关系的集合;再根据微博文本, 如果ui转发了uj的一条微博或者微博中@(提及)他(她),则可以 认为两者之间有一条边,为边设定权值,权值大小为两者间的交互次 数,此时E就可以表示为E′={eij|ui∈F,uj∈F,ui与uj产生了交互}; 最后,根据微博文本相似度,若ui与uj之间的文本相似度高于阈值, 则可以认为两者存在相似的爱好或价值取向,两者之间有一条边,边 的权值为两者的文本相似度,这样E就可以表示为E″={eij|ui∈ F,uj∈F,ui与uj存在相似爱好}。
所述步骤4中,通过节点链的力导引方式展示,以节点表示用户, 边表示节点间的联系。在节点链视图中,以节点的颜色表示用户的价 值取向,若节点的颜色越接近则表示用户的相似度越高;以边的粗细 表示用户间交往的次数多少,越粗代表了用户间的交往越频繁。通过 打包图可视化方法展示对象间共同关注信息。用大圆包含识别对象的 所有共同关注,用中圆包含该对象与其他任一对象的共同关注,用小 圆包括不同类别的共同关注。
目前,发现社交关系是社交网络中不可缺少的一个环节。社交网 络好友推荐是发现社交关系的重要途径。社交网络好友推荐目前有两 个方向,一是基于用户兴趣的主题推荐,二为基于社交网络拓扑结构 的推荐。第一个方向通过分析用户在社交平台上的行为提取用户兴趣 爱好,获得高相似度的用户群,在此基础上推荐好友给目标用户,而 用户的社交网络拓扑结构很大程度上反映了用户交友倾向,彼此信任 度越高的用户越有可能成为朋友,但现有方法未充分利用这些因素。 本发明提出了一种结合用户相似度和信任度的好友推荐方法,进一步 提高好友推荐的准确度,使社交关系的发现更加精准、更具说服力,并通过可视化的方式展示,使结果更加直观。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列 举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式, 本发明的保护范围也及于本领域技术人员根据本发明构思所能 够想到的等同技术手段。
Claims (4)
1.基于微博社交的人物关系可视化方法,包括以下步骤:
步骤1、根据用户的微博ID爬取多名用户的用户信息、关注数据及微博文本;
步骤2、对微博文本数据进行预处理,然后进行中文分词,再运用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型提取文本主题,并分析微博文本相似性;
步骤3、通过解析用户关注数据、微博文本数据以及微博文本相似度,构建社交关系网络;
步骤4、通过力导引布局、打包布局等可视化方式展示社交关系网络。
2.如权利要求1所述的基于微博社交的人物关系可视化方法,其特征在于:所述步骤2中,首先对获取的微博文本数据进行清洗,删除错误或重复的数据,再使用基于TextRank方法的“结巴”(jieba)中文分词对微博文本进行分词,TextRank方法主要用于抽取关键词;然后将分词后的微博文本数据通过LDA挖掘出文本主题,再通过增量Gibbs采样(GibbsSampling)算法计算微博文本主题在主题词上的概率分布,Gibbs采样是马尔可夫链蒙特卡尔理论(MCMC)中用来获取一系列近似等于指定多维概率分布(比如2个或者多个随机变量的联合概率分布)观察样本的算法;最后,使用Jensen-Shannon散数的倒数来衡量文本与文本之间的主题相似度:
其中,vi,vj表示微博文本的主题概率分布,JS(vi||vj)表示vi,vj的Jensen-Shannon散度,DKL(vi,vk)表示vi,vj的Kullback-Leibler散度。
3.如权利要求1所述的基于微博社交的人物关系可视化方法,其特征在于:所述步骤3中,根据用户关注数据,对一个用户u,假设其关注了n个用户,表示为F=(u1,u2,…,un),由u和F组成的社交网络G可表示为有向图G=(F,E),其中E={eij|ui∈F,uj∈F,ui关注uj},表示用户间关注关系的集合;再根据微博文本,如果ui转发了uj的一条微博或者微博中@(提及)他(她),则认为两者之间有一条边,为边设定权值,权值大小为两者间的交互次数,此时E就可以表示为E′={eij|ui∈F,uj∈F,ui与uj产生了交互};最后,根据微博文本相似度,若ui与uj之间的文本相似度高于阈值,则认为两者存在相似的爱好或价值取向,两者之间有一条边,边的权值为两者的文本相似度,这样E就可以表示为E″={eij|ui∈F,uj∈F,ui与uj存在相似爱好}。
4.如权利要求1所述的基于微博社交的人物关系可视化方法,其特征在于:所述步骤4中,通过节点链的力导引方式展示,以节点表示用户,边表示节点间的联系;在节点链视图中,以节点的颜色表示用户的价值取向,若节点的颜色越接近则表示用户的相似度越高,以边的粗细表示用户间交往的次数多少,越粗代表了用户间的交往越频繁;通过打包图可视化方法展示对象间共同关注信息;用大圆包含识别对象的所有共同关注,用中圆包含该对象与其他任一对象的共同关注,用小圆包括不同类别的共同关注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010169044.2A CN111506824A (zh) | 2020-03-12 | 2020-03-12 | 一种基于微博社交的人物关系可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010169044.2A CN111506824A (zh) | 2020-03-12 | 2020-03-12 | 一种基于微博社交的人物关系可视化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111506824A true CN111506824A (zh) | 2020-08-07 |
Family
ID=71877589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010169044.2A Pending CN111506824A (zh) | 2020-03-12 | 2020-03-12 | 一种基于微博社交的人物关系可视化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506824A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641821A (zh) * | 2021-08-11 | 2021-11-12 | 北京信息科技大学 | 一种社交网络中意见领袖的价值取向识别方法及系统 |
CN114118299A (zh) * | 2021-12-10 | 2022-03-01 | 中国人民解放军国防科技大学 | 一种结合相似性度量和社区发现的聚类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160179965A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Information propagation via weighted semantic and social graphs |
CN105912579A (zh) * | 2016-04-01 | 2016-08-31 | 东软集团股份有限公司 | 一种人物关系图谱的生成方法及装置 |
CN109597924A (zh) * | 2018-09-14 | 2019-04-09 | 湖北大学 | 一种基于人工免疫网络的微博社交圈挖掘方法及系统 |
-
2020
- 2020-03-12 CN CN202010169044.2A patent/CN111506824A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160179965A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Information propagation via weighted semantic and social graphs |
CN105912579A (zh) * | 2016-04-01 | 2016-08-31 | 东软集团股份有限公司 | 一种人物关系图谱的生成方法及装置 |
CN109597924A (zh) * | 2018-09-14 | 2019-04-09 | 湖北大学 | 一种基于人工免疫网络的微博社交圈挖掘方法及系统 |
Non-Patent Citations (2)
Title |
---|
朱明玮等: "基于社交圈发现与用户信任度传播的微博朋友推荐方法", 《软件导刊》 * |
朱明玮等: "基于社交圈发现与用户信任度传播的微博朋友推荐方法", 《软件导刊》, 30 June 2018 (2018-06-30), pages 63 - 64 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641821A (zh) * | 2021-08-11 | 2021-11-12 | 北京信息科技大学 | 一种社交网络中意见领袖的价值取向识别方法及系统 |
CN113641821B (zh) * | 2021-08-11 | 2023-08-29 | 北京信息科技大学 | 一种社交网络中意见领袖的价值取向识别方法及系统 |
CN114118299A (zh) * | 2021-12-10 | 2022-03-01 | 中国人民解放军国防科技大学 | 一种结合相似性度量和社区发现的聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arbia | Spatial econometrics | |
Rathore et al. | Social media analytics: Literature review and directions for future research | |
Bu et al. | A sock puppet detection algorithm on virtual spaces | |
Chen et al. | R-map: A map metaphor for visualizing information reposting process in social media | |
Boididou et al. | Learning to detect misleading content on twitter | |
Lee et al. | Discovering content-based behavioral roles in social networks | |
Webb et al. | Techniques for analyzing blogs and micro-blogs | |
US11574123B2 (en) | Content analysis utilizing general knowledge base | |
CN111506824A (zh) | 一种基于微博社交的人物关系可视化方法 | |
Khun et al. | Visualization of Twitter sentiment during the period of US banned huawei | |
Nguyen et al. | Seagull: A bird’s-eye view of the evolution of technical games research | |
Bai et al. | SR-LDA: Mining effective representations for generating service ecosystem knowledge maps | |
CN112084333A (zh) | 一种基于情感倾向分析的社交用户生成方法 | |
Kim et al. | User interest-based recommender system for image-sharing social media | |
Singh et al. | Social network analysis: a survey on measure, structure, language information analysis, privacy, and applications | |
CN112487304B (zh) | 基于观点向量化的影响力传播模型的建立方法 | |
Tshimula et al. | A new approach for affinity relationship discovery in online forums | |
US10719779B1 (en) | System and means for generating synthetic social media data | |
Alzboon | Semantic text analysis on social networks and data processing: review and future directions | |
Paolillo | Network analysis | |
Bayat et al. | Estimation of Twitter user's nationality based on friends and followers information | |
Dessai et al. | A topic modeling based approach for mining online social media data | |
Hoberg | Supply chain and big data | |
Gao | Spatial Scientometrics | |
Cambria | Sentic computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200807 |