CN109271422A - 一种由不实信息驱动的社交网络主题专家查找方法 - Google Patents
一种由不实信息驱动的社交网络主题专家查找方法 Download PDFInfo
- Publication number
- CN109271422A CN109271422A CN201811105652.6A CN201811105652A CN109271422A CN 109271422 A CN109271422 A CN 109271422A CN 201811105652 A CN201811105652 A CN 201811105652A CN 109271422 A CN109271422 A CN 109271422A
- Authority
- CN
- China
- Prior art keywords
- candidate user
- information
- distribution
- theme
- checked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000013480 data collection Methods 0.000 claims abstract description 6
- 230000008901 benefit Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 4
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 4
- 230000006378 damage Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种由不实信息驱动的社交网络主题专家查找方法,包括:利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明很好的应对社交网络情形,应对包含多个主题的不实信息,考虑了社交网络中用户之间存在的联系。
Description
技术领域
本发明属于信息检索领域,更具体地,涉及一种由不实信息驱动的社交网络主题专家查找方法。
背景技术
随着互联网技术尤其是Web2.0技术以及无线通信技术的不断发展,我国互联网用户人群急剧增长,根据中国互联网络信息中心(CNNIC)发布的第39次《中国互联网络发展状况》统计报告显示,截至2016年12月,中国互联网普及率达到53.2%,网民规模达7.31亿,相当于整个欧洲人口总量。海量互联网用户促进了各种社交应用的蓬勃发展,如微博社交网络(Twitter、新浪微博等)。截至2016年8月,新浪微博月活跃用户为2.82亿,连续九个季度保持30%以上的增长,其中移动端月活用户同比增长40%。新浪微博作为中国社交网络最具代表性的应用之一,在移动互联网蓬勃发展的背景下也迅速成长,截至2016年8月,新浪微博月活跃用户为2.82亿,连续九个季度保持30%以上的增长,其中移动端月活用户同比增长40%。然而,高速发展的微博平台同样为谣言传播提供了环境,针对微博中可疑信息甄别问题已在社会学范畴被广泛研究,其能够有效帮助微博管理者实时准确的甄别大规模的可疑信息,以减少谣言传播过程所带来的额外存储开销以及严重的社会危害性,因此该问题具有十分重要的研究意义及商业价值。
社交媒体较传统的互联网应用,其信息的传播方式发生了前所未有的变化,个人用户可以自由公开地在网络上发布、传播和获取自己感兴趣的信息,因此其具有传播速度快,影响人群广,用户交互频繁等特性,从而在短期内产生了海量的用户数据,其内容涵盖不同领域的各种专业知识,如航天航空、生物医药、电子科技、互联网金融等。
微博用户数据具有信息网络化、内容碎片化、线上线下交融等新特点,同时也为数据挖掘与知识检索提供了前所未有的机遇。然而,拥有庞大用户群体的社交网络也为谣言(谣言通常是指为达到某种目的而编造出来与事实不符的虚假信息,并通过某种方式快速传播且造成一定社会危害的言论)的传播和扩散提供了土壤和媒介。借助这种新的传播媒介,谣言比以往传播速度更快、影响范围更广、监测难度更大且危害程度更深。在此种背景下,谣言的产生和传播不仅妨碍了社交媒体中知识的有效利用,而且容易造成严重的社会危害,甚至为互联网犯罪提供方便,从而严重影响了现代社会的经济发展和稳定。例如,2017年2月9日,社交网络上传播的“胶济铁路列车相撞事件”引起了社会的广泛关注以及公众对铁路安全的质疑,但经过核实此消息为谣言。类似案例层出不穷,造成了严重的社会危害和无法估量的经济损失。因此,如何在现代社交网络中及时准确地监测和识别谣言具有重要的研究价值和社会意义,其能够有效限制谣言传播,从而最大化的减少其造成的社会危害和经济损失。
传统的专家查找技术通常应用于企业文档集合,无法很好的应对社交网络情形,更无法应对包含多个主题的不实信息。传统的语言模型LDA模型通常认为文档之间是相互独立的,忽视了社交网络中用户之间存在的联系。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种由不实信息驱动的社交网络主题专家查找方法,由此解决现有技术无法很好的应对社交网络情形,更无法应对包含多个主题的不实信息,忽视了社交网络中用户之间存在的联系的技术问题。
为实现上述目的,本发明提供了一种由不实信息驱动的社交网络主题专家查找方法,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。
进一步地,步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
进一步地,概率图模型为LTM(list topic model)的联合概率分布:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为分布中的第一参数,η为分布中的第二参数,θd为θ中的某一维度,为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
进一步地,步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθ(θd|γd)为θd的先验分布,qz(Zd,n|φd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;考虑了社交网络中用户之间存在的联系,利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明将查询问题量化为候选用户文档和待查询不实信息之间的距离,进而得到的查询结果更准确,更可靠。本发明很好的应对社交网络情形,应对包含多个主题的不实信息。
(2)本发明利用概率、列表共现信息结合待查询不实信息,构建概率图模型,说明本发明的概率图模型中具有列表共现信息,可以反映任意两个候选用户文档之间的联系,使得后续的查询结果更准确。
附图说明
图1是本发明实施例提供的概率图模型的示意图;
图2是本发明实施例提供的变分分布的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种由不实信息驱动的社交网络主题专家查找方法,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。
进一步地,步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
进一步地,概率图模型为LTM的联合概率分布:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为分布中的第一参数,η为分布中的第二参数,θd为θ中的某一维度,为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
如图2所示,步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθ(θd|γd)为θd的先验分布,qz(Zd,n|φd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
本发明利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;考虑了社交网络中用户之间存在的联系,利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。本发明将查询问题量化为候选用户文档和待查询不实信息之间的距离,进而得到的查询结果更准确,更可靠。本发明很好的应对社交网络情形,应对包含多个主题的不实信息。利用本发明方法将用户文档向量化之后,我们可以用余弦距离计算候选用户与待查询不实信息之间的距离,从而为每个待查询不实信息匹配最相近的专家。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,包括:
(1)利用社交网络数据集,构建候选用户文档,利用候选用户文档和待查询不实信息,构建概率图模型;
(2)利用候选用户文档和待查询不实信息训练概率图模型,当概率图模型的参数收敛后,得到维度相同的候选用户向量和待查询不实信息向量;
(3)通过计算候选用户向量和待查询不实信息向量的余弦距离,得到候选用户和待查询不实信息的相似度,利用相似度得到查询结果。
2.如权利要求1所述的一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,所述步骤(1)包括:
(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息,提取用户自我简介信息和包含用户的列表信息的动词和名词,构建D个候选用户文档;
(1-2)每个候选用户文档包含K个主题,K个主题满足多项分布,对于K个主题中的每个单词,生成单词的主题分布样本,并假定每个主题均有概率得到每个单词,此概率满足多项分布;
(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中,得到列表共现信息,利用概率、列表共现信息结合待查询不实信息,构建概率图模型。
3.如权利要求1或2所述的一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,所述概率图模型为LTM的联合概率分布:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,W为单词,L为列表共现信息,α为迪利克雷分布参数,β为由主题到单词的多项分布参数,ν为分布中的第一参数,η为分布中的第二参数,θd为θ中的某一维度,为候选用户文档di和候选用户文档dj之间的列表共现信息,Zd,n为候选用户文档中的某一个主题样本,Wd,n主题中的某一个单词,N为一个候选用户文档中单词的总数量,β1:K为K个主题到某个单词的多项分布参数。
4.如权利要求1或2所述的一种由不实信息驱动的社交网络主题专家查找方法,其特征在于,所述步骤(2)在训练过程中利用变分分布求解概率图模型,所述变分分布为:
其中,θ为由候选用户文档到主题的多项分布参数,Z为候选用户文档主题样本,γ为变分分布中的迪利克雷分布参数,φ为变分分布中的由主题到单词的多项分布参数,γd为γ中的某一个参数,φd,n为φ中的某一个参数,qθ(θd|γd)为θd的先验分布,qz(Zd,n|φd,n)为Zd,n的先验分布,θd为θ中的某一维度,Zd,n为候选用户文档中的某一个主题样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811105652.6A CN109271422B (zh) | 2018-09-20 | 2018-09-20 | 一种由不实信息驱动的社交网络主题专家查找方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811105652.6A CN109271422B (zh) | 2018-09-20 | 2018-09-20 | 一种由不实信息驱动的社交网络主题专家查找方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271422A true CN109271422A (zh) | 2019-01-25 |
CN109271422B CN109271422B (zh) | 2021-10-08 |
Family
ID=65198026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811105652.6A Expired - Fee Related CN109271422B (zh) | 2018-09-20 | 2018-09-20 | 一种由不实信息驱动的社交网络主题专家查找方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271422B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
US20150074088A1 (en) * | 2010-09-30 | 2015-03-12 | A9.Com, Inc. | Shape-based search of a collection of content |
CN104660594A (zh) * | 2015-02-09 | 2015-05-27 | 中国科学院信息工程研究所 | 一种面向社交网络的虚拟恶意节点及其网络识别方法 |
CN106372237A (zh) * | 2016-09-13 | 2017-02-01 | 新浪(上海)企业管理有限公司 | 欺诈邮件识别方法及装置 |
CN107239444A (zh) * | 2017-05-26 | 2017-10-10 | 华中科技大学 | 一种融合词性与位置信息的词向量训练方法及系统 |
-
2018
- 2018-09-20 CN CN201811105652.6A patent/CN109271422B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150074088A1 (en) * | 2010-09-30 | 2015-03-12 | A9.Com, Inc. | Shape-based search of a collection of content |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
CN104660594A (zh) * | 2015-02-09 | 2015-05-27 | 中国科学院信息工程研究所 | 一种面向社交网络的虚拟恶意节点及其网络识别方法 |
CN106372237A (zh) * | 2016-09-13 | 2017-02-01 | 新浪(上海)企业管理有限公司 | 欺诈邮件识别方法及装置 |
CN107239444A (zh) * | 2017-05-26 | 2017-10-10 | 华中科技大学 | 一种融合词性与位置信息的词向量训练方法及系统 |
Non-Patent Citations (1)
Title |
---|
程强等: "概率图模型中的变分近似推理方法", 《自动化学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109271422B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Towards early identification of online rumors based on long short-term memory networks | |
Bindu et al. | Discovering spammer communities in twitter | |
Nip et al. | Challenging official propaganda? Public opinion leaders on Sina Weibo | |
Gayo-Avello | Nepotistic relationships in twitter and their impact on rank prestige algorithms | |
Zhaoyun et al. | Mining topical influencers based on the multi-relational network in micro-blogging sites | |
Merry | Broadcast versus interaction: environmental groups’ use of Twitter | |
Gu | Sina Weibo: A Mutual Communication Apparatus between the Chinese Government and Chinese Citizens. | |
Yepsen | Practicing successful twitter public diplomacy: A model and case study of US efforts in Venezuela | |
Biswas et al. | " Leadership in Action: How Top Hackers Behave" A Big-Data Approach with Text-Mining and Sentiment Analysis | |
Jabeur et al. | Uprising microblogs: A Bayesian network retrieval model for tweet search | |
Chong | Sentiment analysis and topic extraction of the twitter network of# prayforparis | |
Viejo et al. | Profiling social networks to provide useful and privacy‐preserving web search | |
Bodrunova | Information disorder practices in/by contemporary Russia | |
Marés et al. | On the protection of social networks user’s information | |
Morris | Digital displacement: The spatialities of contentious politics in China's digital territory | |
US10719779B1 (en) | System and means for generating synthetic social media data | |
Steensen et al. | News flows, inter-media connectivity and societal resilience in times of crisis | |
Wang et al. | Exploring the construction and infiltration strategies of social bots in sina microblog | |
US20210342704A1 (en) | System and Method for Detecting Misinformation and Fake News via Network Analysis | |
Bargar et al. | Challenges and opportunities to counter information operations through social network analysis and theory | |
Hu et al. | Topical authority propagation on microblogs | |
Ma et al. | Social account linking via weighted bipartite graph matching | |
CN109271422A (zh) | 一种由不实信息驱动的社交网络主题专家查找方法 | |
Yang et al. | A secure K‐automorphism privacy preserving approach with high data utility in social networks | |
Glenn et al. | Laughter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211008 |
|
CF01 | Termination of patent right due to non-payment of annual fee |