CN109271422B - 一种由不实信息驱动的社交网络主题专家查找方法 - Google Patents

一种由不实信息驱动的社交网络主题专家查找方法 Download PDF

Info

Publication number
CN109271422B
CN109271422B CN201811105652.6A CN201811105652A CN109271422B CN 109271422 B CN109271422 B CN 109271422B CN 201811105652 A CN201811105652 A CN 201811105652A CN 109271422 B CN109271422 B CN 109271422B
Authority
CN
China
Prior art keywords
candidate user
information
distribution
parameter
unreal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811105652.6A
Other languages
English (en)
Other versions
CN109271422A (zh
Inventor
李国徽
董明
周全
李剑军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811105652.6A priority Critical patent/CN109271422B/zh
Publication of CN109271422A publication Critical patent/CN109271422A/zh
Application granted granted Critical
Publication of CN109271422B publication Critical patent/CN109271422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种由不实信息驱动的社交网络主题专家查找方法,包括:利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明很好的应对社交网络情形,应对包含多个主题的不实信息,考虑了社交网络中用户之间存在的联系。

Description

一种由不实信息驱动的社交网络主题专家查找方法
技术领域
本发明属于信息检索领域,更具体地,涉及一种由不实信息驱动的社交网络主题专家查找方法。
背景技术
随着互联网技术尤其是Web2.0技术以及无线通信技术的不断发展,我国互联网用户人群急剧增长,根据中国互联网络信息中心(CNNIC)发布的第39次《中国互联网络发展状况》统计报告显示,截至2016年12月,中国互联网普及率达到53.2%,网民规模达7.31亿,相当于整个欧洲人口总量。海量互联网用户促进了各种社交应用的蓬勃发展,如微博社交网络(Twitter、新浪微博等)。截至2016年8月,新浪微博月活跃用户为2.82亿,连续九个季度保持30%以上的增长,其中移动端月活用户同比增长40%。新浪微博作为中国社交网络最具代表性的应用之一,在移动互联网蓬勃发展的背景下也迅速成长,截至2016年8月,新浪微博月活跃用户为2.82亿,连续九个季度保持30%以上的增长,其中移动端月活用户同比增长40%。然而,高速发展的微博平台同样为谣言传播提供了环境,针对微博中可疑信息甄别问题已在社会学范畴被广泛研究,其能够有效帮助微博管理者实时准确的甄别大规模的可疑信息,以减少谣言传播过程所带来的额外存储开销以及严重的社会危害性,因此该问题具有十分重要的研究意义及商业价值。
社交媒体较传统的互联网应用,其信息的传播方式发生了前所未有的变化,个人用户可以自由公开地在网络上发布、传播和获取自己感兴趣的信息,因此其具有传播速度快,影响人群广,用户交互频繁等特性,从而在短期内产生了海量的用户数据,其内容涵盖不同领域的各种专业知识,如航天航空、生物医药、电子科技、互联网金融等。
微博用户数据具有信息网络化、内容碎片化、线上线下交融等新特点,同时也为数据挖掘与知识检索提供了前所未有的机遇。然而,拥有庞大用户群体的社交网络也为谣言(谣言通常是指为达到某种目的而编造出来与事实不符的虚假信息,并通过某种方式快速传播且造成一定社会危害的言论)的传播和扩散提供了土壤和媒介。借助这种新的传播媒介,谣言比以往传播速度更快、影响范围更广、监测难度更大且危害程度更深。在此种背景下,谣言的产生和传播不仅妨碍了社交媒体中知识的有效利用,而且容易造成严重的社会危害,甚至为互联网犯罪提供方便,从而严重影响了现代社会的经济发展和稳定。例如,2017年2月9日,社交网络上传播的“胶济铁路列车相撞事件”引起了社会的广泛关注以及公众对铁路安全的质疑,但经过核实此消息为谣言。类似案例层出不穷,造成了严重的社会危害和无法估量的经济损失。因此,如何在现代社交网络中及时准确地监测和识别谣言具有重要的研究价值和社会意义,其能够有效限制谣言传播,从而最大化的减少其造成的社会危害和经济损失。
传统的专家查找技术通常应用于企业文档集合,无法很好的应对社交网络情形,更无法应对包含多个主题的不实信息。传统的语言模型LDA模型通常认为文档之间是相互独立的,忽视了社交网络中用户之间存在的联系。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种由不实信息驱动的社交网络主题专家查找方法,由此解决现有技术无法很好的应对社交网络情形,更无法应对包含多个主题的不实信息,忽视了社交网络中用户之间存在的联系的技术问题。
为实现上述目的,本发明提供了一种由不实信息驱动的社交网络主题专家查找方法,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。
进一步地,步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
进一步地,概率图模型为LTM(list topic model)的联合概率分布:
Figure BDA0001805741960000031
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为
Figure BDA0001805741960000032
分布中的第一参数,η为
Figure BDA0001805741960000033
分布中的第二参数,θd为θ中的某一维度,
Figure BDA0001805741960000042
为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
进一步地,步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
Figure BDA0001805741960000043
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθdd)为θd的先验分布,qz(Zd,nd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;考虑了社交网络中用户之间存在的联系,利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明将查询问题量化为候选用户文档和待查询不实信息之间的距离,进而得到的查询结果更准确,更可靠。本发明很好的应对社交网络情形,应对包含多个主题的不实信息。
(2)本发明利用概率、列表共现信息结合待查询不实信息,构建概率图模型,说明本发明的概率图模型中具有列表共现信息,可以反映任意两个候选用户文档之间的联系,使得后续的查询结果更准确。
附图说明
图1是本发明实施例提供的概率图模型的示意图;
图2是本发明实施例提供的变分分布的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种由不实信息驱动的社交网络主题专家查找方法,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。
进一步地,步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
进一步地,概率图模型为LTM的联合概率分布:
Figure BDA0001805741960000061
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为
Figure BDA0001805741960000062
分布中的第一参数,η为
Figure BDA0001805741960000063
分布中的第二参数,θd为θ中的某一维度,
Figure BDA0001805741960000064
为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
如图2所示,步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
Figure BDA0001805741960000065
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθdd)为θd的先验分布,qz(Zd,nd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
本发明利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;考虑了社交网络中用户之间存在的联系,利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明将查询问题量化为候选用户文档和待查询不实信息之间的距离,进而得到的查询结果更准确,更可靠。本发明很好的应对社交网络情形,应对包含多个主题的不实信息。利用本发明方法将用户文档向量化之后,我们可以用余弦距离计算候选用户与待查询不实信息之间的距离,从而为每个待查询不实信息匹配最相近的专家。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果;
所述步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
2.如权利要求1所述的一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,所述概率图模型为LTM的联合概率分布:
Figure FDA0003147009740000011
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为
Figure FDA0003147009740000021
分布中的第一参数,η为
Figure FDA0003147009740000022
分布中的第二参数,θd为θ中的某一维度,
Figure FDA0003147009740000023
为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
3.如权利要求1或2所述的一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,所述步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
Figure FDA0003147009740000024
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθdd)为θd的先验分布,qz(Zd,nd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
CN201811105652.6A 2018-09-20 2018-09-20 一种由不实信息驱动的社交网络主题专家查找方法 Active CN109271422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811105652.6A CN109271422B (zh) 2018-09-20 2018-09-20 一种由不实信息驱动的社交网络主题专家查找方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811105652.6A CN109271422B (zh) 2018-09-20 2018-09-20 一种由不实信息驱动的社交网络主题专家查找方法

Publications (2)

Publication Number Publication Date
CN109271422A CN109271422A (zh) 2019-01-25
CN109271422B true CN109271422B (zh) 2021-10-08

Family

ID=65198026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811105652.6A Active CN109271422B (zh) 2018-09-20 2018-09-20 一种由不实信息驱动的社交网络主题专家查找方法

Country Status (1)

Country Link
CN (1) CN109271422B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853841A (zh) * 2014-03-19 2014-06-11 北京邮电大学 一种社交网用户异常行为的分析方法
CN104660594A (zh) * 2015-02-09 2015-05-27 中国科学院信息工程研究所 一种面向社交网络的虚拟恶意节点及其网络识别方法
CN106372237A (zh) * 2016-09-13 2017-02-01 新浪(上海)企业管理有限公司 欺诈邮件识别方法及装置
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463036B1 (en) * 2010-09-30 2013-06-11 A9.Com, Inc. Shape-based search of a collection of content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853841A (zh) * 2014-03-19 2014-06-11 北京邮电大学 一种社交网用户异常行为的分析方法
CN104660594A (zh) * 2015-02-09 2015-05-27 中国科学院信息工程研究所 一种面向社交网络的虚拟恶意节点及其网络识别方法
CN106372237A (zh) * 2016-09-13 2017-02-01 新浪(上海)企业管理有限公司 欺诈邮件识别方法及装置
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
概率图模型中的变分近似推理方法;程强等;《自动化学报》;20121130;第38卷(第11期);第1721-1734页 *

Also Published As

Publication number Publication date
CN109271422A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
US11593894B2 (en) Interest recommendation method, computer device, and storage medium
US8666984B2 (en) Unsupervised message clustering
Ren et al. Predicting user-topic opinions in twitter with social and topical context
Nguyen et al. Real-time event detection on social data stream
US9324112B2 (en) Ranking authors in social media systems
US20120158791A1 (en) Feature vector construction
US9317594B2 (en) Social community identification for automatic document classification
US10747824B2 (en) Building a data query engine that leverages expert data preparation operations
Raisi et al. Weakly supervised cyberbullying detection with participant-vocabulary consistency
Lubis et al. A framework of utilizing big data of social media to find out the habits of users using keyword
Drakopoulos et al. Evaluating Twitter Influence Ranking with System Theory.
IL311173A (en) Analyzing social media data to detect markers of coordinated movements, through the identification of attitudes and the use of clustering techniques
CN114579833A (zh) 一种基于主题挖掘和情感分析的微博舆情可视分析方法
Gadek et al. Topical cohesion of communities on Twitter
CN111984787A (zh) 一种基于互联网数据的舆情热点获取方法及系统
WO2022188646A1 (zh) 图数据处理方法、装置、设备、存储介质及程序产品
CN104636386A (zh) 信息监控方法及装置
Bao et al. A topic-rank recommendation model based on Microblog topic relevance & user preference analysis
Servia-Rodríguez et al. Inferring contexts from Facebook interactions: A social publicity scenario
Sotsenko et al. Using a rich context model for real-time big data analytics in twitter
CN109271422B (zh) 一种由不实信息驱动的社交网络主题专家查找方法
Zoltán et al. Semantic analysis of microposts for efficient people to people interactions
Rojas-Galeano et al. A Bibliometric Perspective on AI Research for Job‐Résumé Matching
Almgren et al. Applying an influence measurement framework to large social network
Sarr et al. SenFact Algorithm: Fact-checking by the confrontation of opinions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant