CN109271422A - 一种由不实信息驱动的社交网络主题专家查找方法 - Google Patents

一种由不实信息驱动的社交网络主题专家查找方法 Download PDF

Info

Publication number
CN109271422A
CN109271422A CN201811105652.6A CN201811105652A CN109271422A CN 109271422 A CN109271422 A CN 109271422A CN 201811105652 A CN201811105652 A CN 201811105652A CN 109271422 A CN109271422 A CN 109271422A
Authority
CN
China
Prior art keywords
candidate user
information
distribution
theme
checked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811105652.6A
Other languages
English (en)
Other versions
CN109271422B (zh
Inventor
李国徽
董明
周全
李剑军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811105652.6A priority Critical patent/CN109271422B/zh
Publication of CN109271422A publication Critical patent/CN109271422A/zh
Application granted granted Critical
Publication of CN109271422B publication Critical patent/CN109271422B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种由不实信息驱动的社交网络主题专家查找方法,包括:利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明很好的应对社交网络情形,应对包含多个主题的不实信息,考虑了社交网络中用户之间存在的联系。

Description

一种由不实信息驱动的社交网络主题专家查找方法
技术领域
本发明属于信息检索领域,更具体地,涉及一种由不实信息驱动的社交网络主题专家查找方法。
背景技术
随着互联网技术尤其是Web2.0技术以及无线通信技术的不断发展,我国互联网用户人群急剧增长,根据中国互联网络信息中心(CNNIC)发布的第39次《中国互联网络发展状况》统计报告显示,截至2016年12月,中国互联网普及率达到53.2%,网民规模达7.31亿,相当于整个欧洲人口总量。海量互联网用户促进了各种社交应用的蓬勃发展,如微博社交网络(Twitter、新浪微博等)。截至2016年8月,新浪微博月活跃用户为2.82亿,连续九个季度保持30%以上的增长,其中移动端月活用户同比增长40%。新浪微博作为中国社交网络最具代表性的应用之一,在移动互联网蓬勃发展的背景下也迅速成长,截至2016年8月,新浪微博月活跃用户为2.82亿,连续九个季度保持30%以上的增长,其中移动端月活用户同比增长40%。然而,高速发展的微博平台同样为谣言传播提供了环境,针对微博中可疑信息甄别问题已在社会学范畴被广泛研究,其能够有效帮助微博管理者实时准确的甄别大规模的可疑信息,以减少谣言传播过程所带来的额外存储开销以及严重的社会危害性,因此该问题具有十分重要的研究意义及商业价值。
社交媒体较传统的互联网应用,其信息的传播方式发生了前所未有的变化,个人用户可以自由公开地在网络上发布、传播和获取自己感兴趣的信息,因此其具有传播速度快,影响人群广,用户交互频繁等特性,从而在短期内产生了海量的用户数据,其内容涵盖不同领域的各种专业知识,如航天航空、生物医药、电子科技、互联网金融等。
微博用户数据具有信息网络化、内容碎片化、线上线下交融等新特点,同时也为数据挖掘与知识检索提供了前所未有的机遇。然而,拥有庞大用户群体的社交网络也为谣言(谣言通常是指为达到某种目的而编造出来与事实不符的虚假信息,并通过某种方式快速传播且造成一定社会危害的言论)的传播和扩散提供了土壤和媒介。借助这种新的传播媒介,谣言比以往传播速度更快、影响范围更广、监测难度更大且危害程度更深。在此种背景下,谣言的产生和传播不仅妨碍了社交媒体中知识的有效利用,而且容易造成严重的社会危害,甚至为互联网犯罪提供方便,从而严重影响了现代社会的经济发展和稳定。例如,2017年2月9日,社交网络上传播的“胶济铁路列车相撞事件”引起了社会的广泛关注以及公众对铁路安全的质疑,但经过核实此消息为谣言。类似案例层出不穷,造成了严重的社会危害和无法估量的经济损失。因此,如何在现代社交网络中及时准确地监测和识别谣言具有重要的研究价值和社会意义,其能够有效限制谣言传播,从而最大化的减少其造成的社会危害和经济损失。
传统的专家查找技术通常应用于企业文档集合,无法很好的应对社交网络情形,更无法应对包含多个主题的不实信息。传统的语言模型LDA模型通常认为文档之间是相互独立的,忽视了社交网络中用户之间存在的联系。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种由不实信息驱动的社交网络主题专家查找方法,由此解决现有技术无法很好的应对社交网络情形,更无法应对包含多个主题的不实信息,忽视了社交网络中用户之间存在的联系的技术问题。
为实现上述目的,本发明提供了一种由不实信息驱动的社交网络主题专家查找方法,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。
进一步地,步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
进一步地,概率图模型为LTM(list topic model)的联合概率分布:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为分布中的第一参数,η为分布中的第二参数,θd为θ中的某一维度,为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
进一步地,步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθdd)为θd的先验分布,qz(Zd,nd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;考虑了社交网络中用户之间存在的联系,利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明将查询问题量化为候选用户文档和待查询不实信息之间的距离,进而得到的查询结果更准确,更可靠。本发明很好的应对社交网络情形,应对包含多个主题的不实信息。
(2)本发明利用概率、列表共现信息结合待查询不实信息,构建概率图模型,说明本发明的概率图模型中具有列表共现信息,可以反映任意两个候选用户文档之间的联系,使得后续的查询结果更准确。
附图说明
图1是本发明实施例提供的概率图模型的示意图;
图2是本发明实施例提供的变分分布的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种由不实信息驱动的社交网络主题专家查找方法,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。
进一步地,步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
进一步地,概率图模型为LTM的联合概率分布:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为分布中的第一参数,η为分布中的第二参数,θd为θ中的某一维度,为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
如图2所示,步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθdd)为θd的先验分布,qz(Zd,nd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
本发明利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;考虑了社交网络中用户之间存在的联系,利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明将查询问题量化为候选用户文档和待查询不实信息之间的距离,进而得到的查询结果更准确,更可靠。本发明很好的应对社交网络情形,应对包含多个主题的不实信息。利用本发明方法将用户文档向量化之后,我们可以用余弦距离计算候选用户与待查询不实信息之间的距离,从而为每个待查询不实信息匹配最相近的专家。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。
2.如权利要求1所述的一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,所述步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
3.如权利要求1或2所述的一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,所述概率图模型为LTM的联合概率分布:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为分布中的第一参数,η为分布中的第二参数,θd为θ中的某一维度,为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
4.如权利要求1或2所述的一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,所述步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθdd)为θd的先验分布,qz(Zd,nd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
CN201811105652.6A 2018-09-20 2018-09-20 一种由不实信息驱动的社交网络主题专家查找方法 Expired - Fee Related CN109271422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811105652.6A CN109271422B (zh) 2018-09-20 2018-09-20 一种由不实信息驱动的社交网络主题专家查找方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811105652.6A CN109271422B (zh) 2018-09-20 2018-09-20 一种由不实信息驱动的社交网络主题专家查找方法

Publications (2)

Publication Number Publication Date
CN109271422A true CN109271422A (zh) 2019-01-25
CN109271422B CN109271422B (zh) 2021-10-08

Family

ID=65198026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811105652.6A Expired - Fee Related CN109271422B (zh) 2018-09-20 2018-09-20 一种由不实信息驱动的社交网络主题专家查找方法

Country Status (1)

Country Link
CN (1) CN109271422B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853841A (zh) * 2014-03-19 2014-06-11 北京邮电大学 一种社交网用户异常行为的分析方法
US20150074088A1 (en) * 2010-09-30 2015-03-12 A9.Com, Inc. Shape-based search of a collection of content
CN104660594A (zh) * 2015-02-09 2015-05-27 中国科学院信息工程研究所 一种面向社交网络的虚拟恶意节点及其网络识别方法
CN106372237A (zh) * 2016-09-13 2017-02-01 新浪(上海)企业管理有限公司 欺诈邮件识别方法及装置
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150074088A1 (en) * 2010-09-30 2015-03-12 A9.Com, Inc. Shape-based search of a collection of content
CN103853841A (zh) * 2014-03-19 2014-06-11 北京邮电大学 一种社交网用户异常行为的分析方法
CN104660594A (zh) * 2015-02-09 2015-05-27 中国科学院信息工程研究所 一种面向社交网络的虚拟恶意节点及其网络识别方法
CN106372237A (zh) * 2016-09-13 2017-02-01 新浪(上海)企业管理有限公司 欺诈邮件识别方法及装置
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程强等: "概率图模型中的变分近似推理方法", 《自动化学报》 *

Also Published As

Publication number Publication date
CN109271422B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Liu et al. Towards early identification of online rumors based on long short-term memory networks
Bindu et al. Discovering spammer communities in twitter
Nip et al. Challenging official propaganda? Public opinion leaders on Sina Weibo
Gayo-Avello Nepotistic relationships in twitter and their impact on rank prestige algorithms
Zhaoyun et al. Mining topical influencers based on the multi-relational network in micro-blogging sites
Merry Broadcast versus interaction: environmental groups’ use of Twitter
Gu Sina Weibo: A Mutual Communication Apparatus between the Chinese Government and Chinese Citizens.
Yepsen Practicing successful twitter public diplomacy: A model and case study of US efforts in Venezuela
Biswas et al. " Leadership in Action: How Top Hackers Behave" A Big-Data Approach with Text-Mining and Sentiment Analysis
Jabeur et al. Uprising microblogs: A Bayesian network retrieval model for tweet search
Chong Sentiment analysis and topic extraction of the twitter network of# prayforparis
Viejo et al. Profiling social networks to provide useful and privacy‐preserving web search
Bodrunova Information disorder practices in/by contemporary Russia
Marés et al. On the protection of social networks user’s information
Morris Digital displacement: The spatialities of contentious politics in China's digital territory
US10719779B1 (en) System and means for generating synthetic social media data
Steensen et al. News flows, inter-media connectivity and societal resilience in times of crisis
Wang et al. Exploring the construction and infiltration strategies of social bots in sina microblog
US20210342704A1 (en) System and Method for Detecting Misinformation and Fake News via Network Analysis
Bargar et al. Challenges and opportunities to counter information operations through social network analysis and theory
Hu et al. Topical authority propagation on microblogs
Ma et al. Social account linking via weighted bipartite graph matching
CN109271422A (zh) 一种由不实信息驱动的社交网络主题专家查找方法
Yang et al. A secure K‐automorphism privacy preserving approach with high data utility in social networks
Glenn et al. Laughter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211008

CF01 Termination of patent right due to non-payment of annual fee