CN114329227A - 基于话题知识图谱的社交关系网络构建与拓展方法 - Google Patents

基于话题知识图谱的社交关系网络构建与拓展方法 Download PDF

Info

Publication number
CN114329227A
CN114329227A CN202110928773.6A CN202110928773A CN114329227A CN 114329227 A CN114329227 A CN 114329227A CN 202110928773 A CN202110928773 A CN 202110928773A CN 114329227 A CN114329227 A CN 114329227A
Authority
CN
China
Prior art keywords
user
data
account
social
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110928773.6A
Other languages
English (en)
Inventor
候明
陈志浩
刘滋润
王宏鹏
郭青松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202110928773.6A priority Critical patent/CN114329227A/zh
Publication of CN114329227A publication Critical patent/CN114329227A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于话题知识图谱的社交关系网络构建与拓展方法,涉及社交网络、知识图谱技术领域。本发明基于爬取话题以及用户数据,研究基于话题知识图谱的社交关系网络构建和拓展方法,结合用户在社交关系过程中,对用户关注话题下评论账号的多类社交关系过滤进行用户资源推荐,避免无效用户信息对用户推荐的干扰。从另一个角度来看,更为详细的用户社交关系强度信息也可帮助优化社会化媒体的各类服务,增强服务的可用性。

Description

基于话题知识图谱的社交关系网络构建与拓展方法
技术领域
本发明涉及社交网络、知识图谱技术领域,具体涉及一种基于话题知识图谱的社交关系网络构建与拓展方法。
背景技术
在当今的互联网时代,随着互联网技术的迅速发展以及网络设施建设的健全,网民数量高速增长,网民用户逐渐成为互联网的中心。随着移动互联网兴起,使用户上网的场景发生了很大的变化,移动设备使得用户上网更加简单和便捷,不用受时间和空间的限制,几乎随时都可以上网,让用户获取信息和数据更加便捷,使用户可以通过各种各样的社交网络媒体平台构建出虚拟的网络社会。不同于线下的现实社交,用户可以依托互联网,使得社交关系突破时间和空间的界限,用户的个人信息资料以及社交活动轨迹已经演变成互联网上公开的网络信息,这些信息可以被互联网社交媒体用户随时随地查看,此类信息正是互联网用户社交的内容载体以及媒介。可是随着互联网上的信息量爆炸增长,用户在互联网环境下并不能有效地将这些数据信息进行分析和掌握,以至于用户不能在合理高效的范围内找到与用户本身诉求相似的用户群体。所以,如何让用户更好地获取对自己有意义、符合自习喜好的用户群体推荐,成为近些年来的研究热点,因而对不同的用户进行不同的用户推荐技术应运而生。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种社交关系网络构建与拓展的方法,避免无效用户信息对用户推荐的干扰。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于话题知识图谱的社交关系网络构建与拓展方法,包括以下步骤:
S1、社交账号信息数据采集;
S2、基于步骤S1定义在线社交网络关系;
S3、基于步骤S1、步骤S2进行知识图谱构建分析;
S4、基于步骤S2、步骤S3用基于共同关注群体的协同过滤算法衡量用户相似度,并根据判别结果,向用户推荐与目标账号相似度结果高于预设值的账号群体。
优选地,步骤S1中,构建社交账号数据爬取任务,爬取社交账号以及发布文章数据,为后续定义社交账号关系、以及知识图谱构建分析提供数据服务。
优选地,步骤S2中,基于步骤S1爬取的社交账号以及发布文章数据定义账号在线社交网络关系,抽取社交人物关系得到情感分析结果,挖掘潜在目标账号信息。
优选地,步骤S3中,确定话题领域知识图谱基本要素,从步骤S1中爬取数据结果中提取知识要素;依据步骤S2对爬取数据的情感分析结果,对社交账号数据和发布文章数据进行关系抽取;依据S2步骤在线社交网络关系定义,对账号数据和发布文章数据关系抽取结果设定关系权重,依据权重关系,构建“实体-关系-实体”的三元组关系数据模型;然后通过可视化工具建立话题与人物关系知识图谱。
优选地,步骤S4中,针对步骤S3分析结果,筛选出评论群体中情感倾向为正向的用户群体,通过步骤S2获取的正向账号群体关注用户列表数据,采用基于共同关注群体的协同过滤算法判别目标账号与正向账号群体的相似度,并根据用户账号条件,基于社交平台用户共同关注账号列表之间的相似性向用户推荐与目标账号相似度结果高于预设值的相关群体账号。
优选地,步骤S1中,社交账号数据爬取时,根据指定user_id列表以及cookie字段信息,抓取指定用户信息,包括用户id、昵称、关注数、粉丝数、关注数以及关注用户id信息;
发布文章数据爬取时,根据指定mid以及cookie字段信息,抓取指定mid评论,以及这些评论的子评论,包括评论id、评论时间、评论内容、评论用户昵称、评论用户主页链接、评论点赞数、回复数这多个字段,按照热度排序。
优选地,步骤S2中,用图G(U,E,w)来定义一个在线社交网络关系,其中U是用户或话题事件顶点集合,一个顶点即代表一个用户或话题;E是路径的集合,若Ua和Ub存在关系,则这两个用户之间存在一条有向路径E(Ua,Ub),w(Ua,Ub)即为这条有向路径的权重,其中,将权重定义为对用户评论进行情感分析后的分析结果;
通过文章评论数据爬取分析出,针对一热点话题文章或一大V账号发布文章信息,利用情感词典分析结果,区分评论积极、消极、中立态度用户群体。
优选地,步骤S3具体为:
S31、知识要素提取
确定话题领域知识图谱的几个要素,从步骤S1中获取的社交账号信息以及发布文章信息中提取知识要素;
S32、知识抽取
根据步骤S1中获取的账号信息以及发布文章信息,获取目标账号文章信息,对文章信息进行过滤筛选,获取文章信息中的评论用户群体,对文章评论数据做情感分析,划分积极、消极、中立群体;
依据步骤S2对爬取数据的情感分析结果,对社交账号数据和发布文章数据进行关系抽取;
S33、数据模型构建
依据步骤S2的在线社交网络关系定义,对账号数据和发布文章数据关系抽取结果设定关系权重,依据权重关系,构建“实体-关系-实体”的三元组关系数据模型;
S34、通过可视化工具建立话题与人物关系知识图谱
通过S1步骤爬虫任务获取评论账号、话题文章的信息数据,依据步骤S2结果对爬取数据利用情感词典划分不同用户群体,包括正面用户群体、负面用户群体、消极用户群体,通过neo4j工具绘制话题人物关系知识图谱。
优选地,步骤S4中,针对步骤S3分析结果,筛选出评论群体中情感倾向为正向的用户群体,通过步骤S2获取的正向账号群体关注用户列表数据,采用基于共同关注群体的协同过滤算法判别目标账号与正向账号群体的相似度similar(a,b),公式如下:
Figure BDA0003209812340000041
Ν(a)为账号a关注用户集合,Ν(b)为用户b关注用户集合;num()表示取集合中元素的个数;
根据判别结果,向用户推荐与目标账号相似度结果高于预设值的账号群体。
本发明还提供了一种所述方法在社交网络技术领域中的应用。
(三)有益效果
本发明基于爬取话题以及用户数据,研究基于话题知识图谱的社交关系网络构建和拓展方法,结合用户在社交关系过程中,对用户关注话题下评论账号的多类社交关系过滤进行用户资源推荐,避免无效用户信息对用户推荐的干扰。从另一个角度来看,更为详细的用户社交关系强度信息也可帮助优化社会化媒体的各类服务,增强服务的可用性。
附图说明
图1为本发明的方法总流程图;
图2为本发明中设计的话题领域元数据图;
图3为本发明中得到的话题人物关系知识图谱。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
如图1所示,本发明提供了一种基于话题知识图谱的社交关系网络构建与拓展的方法,其中包括以下几个步骤:
S1、话题账号信息数据采集:
社交账号数据爬取:根据指定user_id列表以及cookie字段信息,抓取指定用户信息,包括用户id、昵称、关注数、粉丝数、关注数以及关注用户id信息等。
发布文章数据爬取:根据指定mid以及cookie字段信息,抓取指定mid评论,以及这些评论的子评论,包括评论id、评论时间、评论内容、评论用户昵称、评论用户主页链接、评论点赞数、回复数等多个字段,按照热度排序。
本步骤实现了社交账号以及发布文章数据爬取,为后续构建知识图谱提供数据支撑。
S2、定义在线社交网络关系
随着互联网技术的发展,越来越多的社交网络服务平台大量涌现,这些社交平台的出现扩大的社交用户的社交范畴,减小了用户人群的社交成本,加快了信息的流动交互,深深影响了用户人群的生活方式。使得线上社交网络已经成为连接现实世界社交和虚拟世界社交的桥梁,用户和信息资源间的交互以及用户和用户间的交互,在网络上留下了各种痕迹。
可以用图G(U,E,w)来定义一个在线社交网络关系,其中U是用户或话题事件顶点集合,一个顶点即代表一个用户或话题;E是路径的集合,若Ua和Ub存在关系,则这两个用户之间存在一条有向路径E(Ua,Ub),w(Ua,Ub)即为这条有向路径的权重;在此,将权重定义为对用户评论进行情感分析后的分析结果。
通过文章评论数据爬取分析出,针对某一热点话题文章或某大V账号发布文章信息,利用情感词典分析结果,区分评论积极、消极、中立态度用户群体。分析结果示例如下表所示:
表1评论数据情感分析表
Figure BDA0003209812340000061
Figure BDA0003209812340000071
依据以上情感分析结果,抽取文章评论信息中社交用户群体与当前账号的情感关系,挖掘针对当前账号下潜在的积极账号、消极账号信息。
S3、知识图谱构建分析:
知识图谱构建已成为分析知识的组织关系以及各种智能的更有效的应用方式。知识图谱通过建立各种关联将各类复杂问题简化下来,通过各种可视化的方式帮助人们分析数据。
由于构建的知识图谱为后续的用户推荐服务,而用户推荐的使用的是话题领域的数据集,所以构建一个话题领域内的知识图谱。以下为知识图谱构建步骤:
1、知识要素提取
通过对话题领域相关知识的分析和研究,确定了话题领域知识图谱的几个要素。话题领域知识包括话题的基本要素、参与评论账号的基本信息。如图2所示,从步骤S1中原始爬取的社交平台数据(即步骤S1中获取的社交账号信息以及发布文章信息)中提取知识要素。
2、知识抽取
根据步骤S1中获取的账号信息以及发布文章信息,获取目标账号文章信息,对文章信息进行过滤筛选,获取文章信息中的评论用户群体,对文章评论数据做情感分析,划分积极、消极、中立群体。
依据步骤S2对爬取数据的情感分析结果,对社交账号数据和发布文章数据进行关系抽取。
3、数据模型构建
依据步骤S2的在线社交网络关系定义,对账号数据和发布文章数据关系抽取结果设定关系权重,依据权重关系,构建“实体-关系-实体”的三元组关系数据模型。
4、通过可视化工具建立话题与人物关系知识图谱
通过S1步骤爬虫任务获取评论账号、话题文章基本信息数据,依据步骤S2结果对爬取数据利用情感词典划分不同用户群体(正面、负面、消极),通过neo4j工具绘制话题人物关系知识图谱,如图3所示。
S4、用基于共同关注群体的协同过滤算法衡量用户相似度,并根据判别结果,向用户推荐与目标账号相似度结果高于预设值的账号群体
针对步骤S3分析结果,筛选出评论群体中情感倾向为正向的用户群体,通过步骤S2获取的正向账号群体(积极态度用户群体)关注用户列表数据,采用基于共同关注群体的协同过滤算法判别目标账号与正向账号群体的相似度similar(a,b),公式如下:
Figure BDA0003209812340000081
Ν(a)为账号a关注用户集合,Ν(b)为用户b关注用户集合;num()表示取集合中元素的个数;
根据判别结果,向用户推荐与目标账号相似度结果高于预设值的账号群体。通过以上步骤能够有效提升账号社交关系强度,提高用户推荐效能,扩大用户的社交网络关系,加强社交账号在社交群体中的影响力。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于话题知识图谱的社交关系网络构建与拓展方法,其特征在于,包括以下步骤:
S1、社交账号信息数据采集;
S2、基于步骤S1定义在线社交网络关系;
S3、基于步骤S1、步骤S2进行知识图谱构建分析;
S4、基于步骤S2、步骤S3用基于共同关注群体的协同过滤算法衡量用户相似度,并根据判别结果,向用户推荐与目标账号相似度结果高于预设值的账号群体。
2.如权利要求1所述的方法,其特征在于,步骤S1中,构建社交账号数据爬取任务,爬取社交账号以及发布文章数据,为后续定义社交账号关系、以及知识图谱构建分析提供数据服务。
3.如权利要求2所述的方法,其特征在于,步骤S2中,基于步骤S1爬取的社交账号以及发布文章数据定义账号在线社交网络关系,抽取社交人物关系得到情感分析结果,挖掘潜在目标账号信息。
4.如权利要求3所述的方法,其特征在于,步骤S3中,确定话题领域知识图谱基本要素,从步骤S1中爬取数据结果中提取知识要素;依据步骤S2对爬取数据的情感分析结果,对社交账号数据和发布文章数据进行关系抽取;依据S2步骤在线社交网络关系定义,对账号数据和发布文章数据关系抽取结果设定关系权重,依据权重关系,构建“实体-关系-实体”的三元组关系数据模型;然后通过可视化工具建立话题与人物关系知识图谱。
5.如权利要求4所述的方法,其特征在于,步骤S4中,针对步骤S3分析结果,筛选出评论群体中情感倾向为正向的用户群体,通过步骤S2获取的正向账号群体关注用户列表数据,采用基于共同关注群体的协同过滤算法判别目标账号与正向账号群体的相似度,并根据用户账号条件,基于社交平台用户共同关注账号列表之间的相似性向用户推荐与目标账号相似度结果高于预设值的相关群体账号。
6.如权利要求2所述的方法,其特征在于,步骤S1中,社交账号数据爬取时,根据指定user_id列表以及cookie字段信息,抓取指定用户信息,包括用户id、昵称、关注数、粉丝数、关注数以及关注用户id信息;
发布文章数据爬取时,根据指定mid以及cookie字段信息,抓取指定mid评论,以及这些评论的子评论,包括评论id、评论时间、评论内容、评论用户昵称、评论用户主页链接、评论点赞数、回复数这多个字段,按照热度排序。
7.如权利要求3所述的方法,其特征在于,步骤S2中,用图G(U,E,w)来定义一个在线社交网络关系,其中U是用户或话题事件顶点集合,一个顶点即代表一个用户或话题;E是路径的集合,若Ua和Ub存在关系,则这两个用户之间存在一条有向路径E(Ua,Ub),w(Ua,Ub)即为这条有向路径的权重,其中,将权重定义为对用户评论进行情感分析后的分析结果;
通过文章评论数据爬取分析出,针对一热点话题文章或一大V账号发布文章信息,利用情感词典分析结果,区分评论积极、消极、中立态度用户群体。
8.如权利要求7所述的方法,其特征在于,步骤S3具体为:
S31、知识要素提取
确定话题领域知识图谱的几个要素,从步骤S1中获取的社交账号信息以及发布文章信息中提取知识要素;
S32、知识抽取
根据步骤S1中获取的账号信息以及发布文章信息,获取目标账号文章信息,对文章信息进行过滤筛选,获取文章信息中的评论用户群体,对文章评论数据做情感分析,划分积极、消极、中立群体;
依据步骤S2对爬取数据的情感分析结果,对社交账号数据和发布文章数据进行关系抽取;
S33、数据模型构建
依据步骤S2的在线社交网络关系定义,对账号数据和发布文章数据关系抽取结果设定关系权重,依据权重关系,构建“实体-关系-实体”的三元组关系数据模型;
S34、通过可视化工具建立话题与人物关系知识图谱
通过S1步骤爬虫任务获取评论账号、话题文章的信息数据,依据步骤S2结果对爬取数据利用情感词典划分不同用户群体,包括正面用户群体、负面用户群体、消极用户群体,通过neo4j工具绘制话题人物关系知识图谱。
9.如权利要求8所述的方法,其特征在于,步骤S4中,针对步骤S3分析结果,筛选出评论群体中情感倾向为正向的用户群体,通过步骤S2获取的正向账号群体关注用户列表数据,采用基于共同关注群体的协同过滤算法判别目标账号与正向账号群体的相似度similar(a,b),公式如下:
Figure FDA0003209812330000031
N(a)为账号a关注用户集合,N(b)为用户b关注用户集合;num()表示取集合中元素的个数;
根据判别结果,向用户推荐与目标账号相似度结果高于预设值的账号群体。
10.一种如权利要求1至9中任一项所述方法在社交网络技术领域中的应用。
CN202110928773.6A 2021-08-13 2021-08-13 基于话题知识图谱的社交关系网络构建与拓展方法 Pending CN114329227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110928773.6A CN114329227A (zh) 2021-08-13 2021-08-13 基于话题知识图谱的社交关系网络构建与拓展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110928773.6A CN114329227A (zh) 2021-08-13 2021-08-13 基于话题知识图谱的社交关系网络构建与拓展方法

Publications (1)

Publication Number Publication Date
CN114329227A true CN114329227A (zh) 2022-04-12

Family

ID=81044275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110928773.6A Pending CN114329227A (zh) 2021-08-13 2021-08-13 基于话题知识图谱的社交关系网络构建与拓展方法

Country Status (1)

Country Link
CN (1) CN114329227A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271987A (zh) * 2022-09-28 2022-11-01 南京拓界信息技术有限公司 基于手机数据的一种跨应用群体关系分析方法
CN115964499A (zh) * 2023-03-16 2023-04-14 北京长河数智科技有限责任公司 基于知识图谱的社会治理事件挖掘方法及装置
CN116049695A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 跨社交网络的群体感知与立场分析方法、系统和电子设备
CN116628179A (zh) * 2023-05-30 2023-08-22 道有道科技集团股份公司 一种用户操作数据的可视化与人机交互推荐方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271987A (zh) * 2022-09-28 2022-11-01 南京拓界信息技术有限公司 基于手机数据的一种跨应用群体关系分析方法
CN115271987B (zh) * 2022-09-28 2023-01-10 南京拓界信息技术有限公司 一种基于手机数据的跨应用群体关系分析方法
CN116049695A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 跨社交网络的群体感知与立场分析方法、系统和电子设备
CN116049695B (zh) * 2022-12-20 2023-07-04 中国科学院空天信息创新研究院 跨社交网络的群体感知与立场分析方法、系统和电子设备
CN115964499A (zh) * 2023-03-16 2023-04-14 北京长河数智科技有限责任公司 基于知识图谱的社会治理事件挖掘方法及装置
CN115964499B (zh) * 2023-03-16 2023-05-09 北京长河数智科技有限责任公司 基于知识图谱的社会治理事件挖掘方法及装置
CN116628179A (zh) * 2023-05-30 2023-08-22 道有道科技集团股份公司 一种用户操作数据的可视化与人机交互推荐方法
CN116628179B (zh) * 2023-05-30 2023-12-22 道有道科技集团股份公司 一种用户操作数据的可视化与人机交互推荐方法

Similar Documents

Publication Publication Date Title
CN114329227A (zh) 基于话题知识图谱的社交关系网络构建与拓展方法
Khanam et al. The homophily principle in social network analysis: A survey
Gloor et al. Web science 2.0: Identifying trends through semantic social network analysis
CN106296312A (zh) 基于社交媒体的在线教育资源推荐系统
Tagarelli et al. Lurking in social networks: topology-based analysis and ranking methods
CN103984775A (zh) 一种推荐好友的方法和设备
CN103886074A (zh) 基于社交媒体的商品推荐系统
Aljohani et al. Bot prediction on social networks of Twitter in altmetrics using deep graph convolutional networks
CN110990683A (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
La Cava et al. Information consumption and boundary spanning in decentralized online social networks: the case of mastodon users
CN113422761A (zh) 基于对抗学习的恶意社交用户检测方法
CN106681989A (zh) 一种预测微博转发概率的方法
Saraswathi et al. Deep Learning Enabled Social Media Recommendation Based on User Comments.
Wu et al. Detecting Crowdturfing in Social Media.
CN112487304B (zh) 基于观点向量化的影响力传播模型的建立方法
Rafique et al. A graph theory based method to extract social structure in the society
Kim et al. User interest-based recommender system for image-sharing social media
Kathiravan et al. Analysis and detection of fake profile over social media using machine learning techniques
Bhat et al. Browser simulation-based crawler for online social network profile extraction
Zhuhadar et al. Analyzing students logs in open online courses using SNA techniques
Das et al. Attribute driven temporal active online community search
CN111882224A (zh) 对消费场景进行分类的方法和装置
Ding et al. InterSpot: Interactive Spammer Detection in Social Media.
CN111353001A (zh) 对用户进行分类的方法和装置
Li et al. DeepPick: a deep learning approach to unveil outstanding users with public attainable features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination