CN109271422B

CN109271422B - 一种由不实信息驱动的社交网络主题专家查找方法

Info

Publication number: CN109271422B
Application number: CN201811105652.6A
Authority: CN
Inventors: 李国徽; 董明; 周全; 李剑军
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2021-10-08
Anticipated expiration: 2038-09-20
Also published as: CN109271422A

Abstract

本发明公开了一种由不实信息驱动的社交网络主题专家查找方法，包括：利用社交网络数据集，构建候选用户文档，利用候选用户文档和待查询不实信息，构建概率图模型；利用候选用户文档和待查询不实信息训练概率图模型，当概率图模型的参数收敛后，得到维度相同的候选用户向量和待查询不实信息向量；通过计算候选用户向量和待查询不实信息向量的余弦距离，得到候选用户和待查询不实信息的相似度，利用相似度得到查询结果。本发明很好的应对社交网络情形，应对包含多个主题的不实信息，考虑了社交网络中用户之间存在的联系。

Description

一种由不实信息驱动的社交网络主题专家查找方法

技术领域

本发明属于信息检索领域，更具体地，涉及一种由不实信息驱动的社交网络主题专家查找方法。

背景技术

随着互联网技术尤其是Web2.0技术以及无线通信技术的不断发展，我国互联网用户人群急剧增长，根据中国互联网络信息中心(CNNIC)发布的第39次《中国互联网络发展状况》统计报告显示，截至2016年12月，中国互联网普及率达到53.2％，网民规模达7.31亿，相当于整个欧洲人口总量。海量互联网用户促进了各种社交应用的蓬勃发展，如微博社交网络(Twitter、新浪微博等)。截至2016年8月，新浪微博月活跃用户为2.82亿，连续九个季度保持30％以上的增长，其中移动端月活用户同比增长40％。新浪微博作为中国社交网络最具代表性的应用之一，在移动互联网蓬勃发展的背景下也迅速成长，截至2016年8月，新浪微博月活跃用户为2.82亿，连续九个季度保持30％以上的增长，其中移动端月活用户同比增长40％。然而，高速发展的微博平台同样为谣言传播提供了环境，针对微博中可疑信息甄别问题已在社会学范畴被广泛研究，其能够有效帮助微博管理者实时准确的甄别大规模的可疑信息，以减少谣言传播过程所带来的额外存储开销以及严重的社会危害性，因此该问题具有十分重要的研究意义及商业价值。

社交媒体较传统的互联网应用，其信息的传播方式发生了前所未有的变化，个人用户可以自由公开地在网络上发布、传播和获取自己感兴趣的信息，因此其具有传播速度快，影响人群广，用户交互频繁等特性，从而在短期内产生了海量的用户数据，其内容涵盖不同领域的各种专业知识，如航天航空、生物医药、电子科技、互联网金融等。

微博用户数据具有信息网络化、内容碎片化、线上线下交融等新特点，同时也为数据挖掘与知识检索提供了前所未有的机遇。然而，拥有庞大用户群体的社交网络也为谣言(谣言通常是指为达到某种目的而编造出来与事实不符的虚假信息，并通过某种方式快速传播且造成一定社会危害的言论)的传播和扩散提供了土壤和媒介。借助这种新的传播媒介，谣言比以往传播速度更快、影响范围更广、监测难度更大且危害程度更深。在此种背景下，谣言的产生和传播不仅妨碍了社交媒体中知识的有效利用，而且容易造成严重的社会危害，甚至为互联网犯罪提供方便，从而严重影响了现代社会的经济发展和稳定。例如，2017年2月9日，社交网络上传播的“胶济铁路列车相撞事件”引起了社会的广泛关注以及公众对铁路安全的质疑，但经过核实此消息为谣言。类似案例层出不穷，造成了严重的社会危害和无法估量的经济损失。因此，如何在现代社交网络中及时准确地监测和识别谣言具有重要的研究价值和社会意义，其能够有效限制谣言传播，从而最大化的减少其造成的社会危害和经济损失。

传统的专家查找技术通常应用于企业文档集合，无法很好的应对社交网络情形，更无法应对包含多个主题的不实信息。传统的语言模型LDA模型通常认为文档之间是相互独立的，忽视了社交网络中用户之间存在的联系。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种由不实信息驱动的社交网络主题专家查找方法，由此解决现有技术无法很好的应对社交网络情形，更无法应对包含多个主题的不实信息，忽视了社交网络中用户之间存在的联系的技术问题。

为实现上述目的，本发明提供了一种由不实信息驱动的社交网络主题专家查找方法，包括：

(1)利用社交网络数据集，构建候选用户文档，利用候选用户文档和待查询不实信息，构建概率图模型；

(2)利用候选用户文档和待查询不实信息训练概率图模型，当概率图模型的参数收敛后，得到维度相同的候选用户向量和待查询不实信息向量；

(3)通过计算候选用户向量和待查询不实信息向量的余弦距离，得到候选用户和待查询不实信息的相似度，利用相似度得到查询结果。

进一步地，步骤(1)包括：

(1-1)从社交网络数据集中获取用户自我简介信息和包含用户的列表信息，提取用户自我简介信息和包含用户的列表信息的动词和名词，构建D个候选用户文档；

(1-2)每个候选用户文档包含K个主题，K个主题满足多项分布，对于K个主题中的每个单词，生成单词的主题分布样本，并假定每个主题均有概率得到每个单词，此概率满足多项分布；

(1-3)根据查询社交网络数据集中任意2个候选用户文档是否在同一个列表中，得到列表共现信息，利用概率、列表共现信息结合待查询不实信息，构建概率图模型。

进一步地，概率图模型为LTM(list topic model)的联合概率分布：

其中，θ为由候选用户文档到主题的多项分布参数，Z为候选用户文档主题样本，W为单词，L为列表共现信息，α为迪利克雷分布参数，β为由主题到单词的多项分布参数，ν为

分布中的第一参数，η为

分布中的第二参数，θ_d为θ中的某一维度，

为候选用户文档d_i和候选用户文档d_j之间的列表共现信息，Z_d，n为候选用户文档中的某一个主题样本，W_d，n主题中的某一个单词，N为一个候选用户文档中单词的总数量，β_1：K为K个主题到某个单词的多项分布参数。

进一步地，步骤(2)在训练过程中利用变分分布求解概率图模型，所述变分分布为：

其中，θ为由候选用户文档到主题的多项分布参数，Z为候选用户文档主题样本，γ为变分分布中的迪利克雷分布参数，φ为变分分布中的由主题到单词的多项分布参数，γ_d为γ中的某一个参数，φ_d，n为φ中的某一个参数，q_θ(θ_d|γ_d)为θ_d的先验分布，q_z(Z_d，n|φ_d，n)为Z_d，n的先验分布，θ_d为θ中的某一维度，Z_d，n为候选用户文档中的某一个主题样本。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明利用社交网络数据集，构建候选用户文档，利用候选用户文档和待查询不实信息，构建概率图模型；考虑了社交网络中用户之间存在的联系，利用候选用户文档和待查询不实信息训练概率图模型，当概率图模型的参数收敛后，得到维度相同的候选用户向量和待查询不实信息向量；通过计算候选用户向量和待查询不实信息向量的余弦距离，得到候选用户和待查询不实信息的相似度，利用相似度得到查询结果。本发明将查询问题量化为候选用户文档和待查询不实信息之间的距离，进而得到的查询结果更准确，更可靠。本发明很好的应对社交网络情形，应对包含多个主题的不实信息。

(2)本发明利用概率、列表共现信息结合待查询不实信息，构建概率图模型，说明本发明的概率图模型中具有列表共现信息，可以反映任意两个候选用户文档之间的联系，使得后续的查询结果更准确。

附图说明

图1是本发明实施例提供的概率图模型的示意图；

图2是本发明实施例提供的变分分布的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种由不实信息驱动的社交网络主题专家查找方法，包括：

进一步地，步骤(1)包括：

进一步地，概率图模型为LTM的联合概率分布：

分布中的第一参数，η为

分布中的第二参数，θ_d为θ中的某一维度，

如图2所示，步骤(2)在训练过程中利用变分分布求解概率图模型，所述变分分布为：

本发明利用社交网络数据集，构建候选用户文档，利用候选用户文档和待查询不实信息，构建概率图模型；考虑了社交网络中用户之间存在的联系，利用候选用户文档和待查询不实信息训练概率图模型，当概率图模型的参数收敛后，得到维度相同的候选用户向量和待查询不实信息向量；通过计算候选用户向量和待查询不实信息向量的余弦距离，得到候选用户和待查询不实信息的相似度，利用相似度得到查询结果。本发明将查询问题量化为候选用户文档和待查询不实信息之间的距离，进而得到的查询结果更准确，更可靠。本发明很好的应对社交网络情形，应对包含多个主题的不实信息。利用本发明方法将用户文档向量化之后，我们可以用余弦距离计算候选用户与待查询不实信息之间的距离，从而为每个待查询不实信息匹配最相近的专家。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种由不实信息驱动的社交网络主题专家查找方法，其特征在于，包括：

(3)通过计算候选用户向量和待查询不实信息向量的余弦距离，得到候选用户和待查询不实信息的相似度，利用相似度得到查询结果；

所述步骤(1)包括：

2.如权利要求1所述的一种由不实信息驱动的社交网络主题专家查找方法，其特征在于，所述概率图模型为LTM的联合概率分布：

分布中的第一参数，η为

分布中的第二参数，θ_d为θ中的某一维度，

为候选用户文档d_i和候选用户文档d_j之间的列表共现信息，Z_d,n为候选用户文档中的某一个主题样本，W_d,n主题中的某一个单词，N为一个候选用户文档中单词的总数量，β_1:K为K个主题到某个单词的多项分布参数。

3.如权利要求1或2所述的一种由不实信息驱动的社交网络主题专家查找方法，其特征在于，所述步骤(2)在训练过程中利用变分分布求解概率图模型，所述变分分布为：

其中，θ为由候选用户文档到主题的多项分布参数，Z为候选用户文档主题样本，γ为变分分布中的迪利克雷分布参数，φ为变分分布中的由主题到单词的多项分布参数，γ_d为γ中的某一个参数，φ_d,n为φ中的某一个参数，q_θ(θ_d|γ_d)为θ_d的先验分布，q_z(Z_d,n|φ_d,n)为Z_d,n的先验分布，θ_d为θ中的某一维度，Z_d,n为候选用户文档中的某一个主题样本。