CN110188284B

CN110188284B - 一种基于检索辅助的谣言检测方法及系统

Info

Publication number: CN110188284B
Application number: CN201910341053.2A
Authority: CN
Inventors: 曹娟; 王佳臣; 李锦涛; 郭俊波; 谢添; 刘浩远
Original assignee: Institute of Computing Technology of CAS
Current assignee: Hangzhou Zhongke Ruijian Technology Co ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2022-01-28
Anticipated expiration: 2039-04-25
Also published as: CN110188284A

Abstract

本发明提出一种基于检索辅助的谣言检测方法及系统，包括：获取待谣言检测的对象信息，并使用谣言检测算法对该对象信息进行判定，得到该对象信息的初步谣言检测结果；集合已标记谣言标签的谣言信息作为谣言库，抽取得到该对象信息的关键词，以该关键词检索该谣言库，得到该谣言库中与该对象信息相似的多条相似谣言，计算每一条该相似谣言与该对象信息之间的相似度，以为每一条该相似谣言赋予权重，并根据每一条该相似谣言的谣言标签和权重，加权求和得到该多条相似谣言的辅助谣言检测结果；根据该初步谣言检测结果和该辅助谣言检测结果，综合判定该对象信息的谣言标签。

Description

一种基于检索辅助的谣言检测方法及系统

技术领域

本发明涉及大数据挖掘中的新闻检测领域，特别涉及一种基于检索辅助的谣言检测方法及系统。

背景技术

社交媒体的蓬勃发展改变了用户获取信息的方式，越来越多的用户倾向于在社交媒体中获取与发布信息，但是这也为谣言的滋生与快速传播提供了方便，肆意散布的谣言可能会引起社会恐慌。例如，在2015年8月25日，有谣言称墨西哥维拉克鲁斯一幼儿园内被吸毒分子挟持，发生枪击事件，该谣言迅速在Twitter与Facebook中传播，导致当日该城市发生至少26起车祸。但传统的基于人工审核的谣言检测系统往往需要大量的人工，耗时耗力，且难以实时的对谣言信息作出判定，因此亟需一种自动化检测系统对谣言信息进行实时判定。

现有的谣言检测算法使用机器学习方法配合人工抽取的特征共同判定谣言，Castillo等人从新闻内容、用户属性、传播特征等方面抽取了大量特征，在此基础上，Adrien，Aniko等人在此工作基础上又提出了一些新的时序特征来表示谣言的散布特征，这些方法在谣言检测中取得了一定的成效。

与定义一系列复杂特征不同，Zhao等人通过一系列正则表达式来进行谣言的初筛(如：真的吗？是这样吗？)，然后通过专家再进行人为判定。近期Ma等人使用循环神经网络(RNN)来自动学习不同时间段内谣言及谣言散布者的特征，取得了优于传统方法的效果。

发明人在进行谣言检测研究时发现，现有方法通常单独的处理每一条信息，忽视了信息与信息之间的相关性。实际上，日常接触到的谣言往往是旧料翻新，即将以往谣言进行一定修改后再次发布，针对这类谣言，利用以往的相关谣言的判定结果对其进行判定往往比单纯使用算法对其判定效果要大有提升。

发明内容

针对以上问题，本发明提出了一种基于检索辅助的谣言检测系统。该系统在使用谣言检测算法进行自动判定的同时，使用搜索算法在系统的谣言库中检索，筛选出与当前信息相似的历史谣言，并利用其标签辅助判定当前信息。

针对现有技术的不足，本发明提出一种基于检索辅助的谣言检测方法，其中包括：

步骤1、获取待谣言检测的对象信息，并使用谣言检测算法对该对象信息进行判定，得到该对象信息的初步谣言检测结果；

步骤2、集合已标记谣言标签的谣言信息作为谣言库，抽取得到该对象信息的关键词，以该关键词检索该谣言库，得到该谣言库中与该对象信息相似的多条相似谣言，计算每一条该相似谣言与该对象信息之间的相似度，以为每一条该相似谣言赋予权重，并根据每一条该相似谣言的谣言标签和权重，加权求和得到该多条相似谣言的辅助谣言检测结果；

步骤3、根据该初步谣言检测结果和该辅助谣言检测结果，综合判定该对象信息的谣言标签。

所述的基于检索辅助的谣言检测方法，其中该步骤2包括：

步骤21、根据该关键词得到该谣言库中谣言信息与该对象信息的相似度，并根据相似度大小排序，选取排序中相似度大于阈值的前k条谣言信息作为该多条相似谣言，其中k为正整数。

所述的基于检索辅助的谣言检测方法，其中该权重赋予的方法为：

第i条相似谣言权重计算方法如下：

i＝1,2,3,…,k

其中w_i为第i条相似谣言的权重，e^(·)为指数运算操作。

所述的基于检索辅助的谣言检测方法，其中该辅助谣言检测结果的计算方法如下：

其中l_i表示第i条相似谣言的谣言标签，α为该辅助谣言检测结果。

所述的基于检索辅助的谣言检测方法，其中步骤3中该对象信息的谣言标签计算方法如下：

ω＝0.5*α+0.5*β

l＝f(ω)

f(ω)＝2*sigmoid(ω)-1

其中β为该初步谣言检测结果，sigmoid(·)为激活函数，f(ω）为类别标签计算函数。

其中还包括：步骤4、将该对象信息的谣言标签通过人工复核认证后，追加到该谣言库中，以动态维护该谣言库。

本发明还提出了一种基于检索辅助的谣言检测系统，其中包括：

模块1、获取待谣言检测的对象信息，并使用谣言检测算法对该对象信息进行判定，得到该对象信息的初步谣言检测结果；

模块2、集合已标记谣言标签的谣言信息作为谣言库，抽取得到该对象信息的关键词，以该关键词检索该谣言库，得到该谣言库中与该对象信息相似的多条相似谣言，计算每一条该相似谣言与该对象信息之间的相似度，以为每一条该相似谣言赋予权重，并根据每一条该相似谣言的谣言标签和权重，加权求和得到该多条相似谣言的辅助谣言检测结果；

模块3、根据该初步谣言检测结果和该辅助谣言检测结果，综合判定该对象信息的谣言标签。

所述的基于检索辅助的谣言检测系统，其中该模块2包括：

模块21、根据该关键词得到该谣言库中谣言信息与该对象信息的相似度，并根据相似度大小排序，选取排序中相似度大于阈值的前k条谣言信息作为该多条相似谣言，其中k为正整数；

且该权重赋予的模块为：

第i条相似谣言权重计算模块如下：

i＝1,2,3,…,k

其中w_i为第i条相似谣言的权重，e^(·)为指数运算操作。

所述的基于检索辅助的谣言检测系统，其中该辅助谣言检测结果的计算模块如下：

其中l_i表示第i条相似谣言的谣言标签，α为该辅助谣言检测结果；

模块3中该对象信息的谣言标签计算模块如下：

ω＝0.5*α+0.5*β

l＝f(ω)

f(ω）＝2*sigmoid(ω)-1

其中β为该初步谣言检测结果，sigmoid(·)为激活函数，f(ω)为类别标签计算函数。

所述的基于检索辅助的谣言检测系统，其中还包括：模块4、将该对象信息的谣言标签通过人工复核认证后，追加到该谣言库中，以动态维护该谣言库。

由以上方案可知，本发明的优点在于：

由于基于检索辅助的谣言检测方法提出，本发明与现有发明方法相比，在谣言判别的准确度上有了更高的识别精度。以往的自动谣言检测系统往往单纯的依赖于算法判定，当当前待测信息所包含的信息特征较少时，其判定算法往往难以给出准确度判定结果。不同与此，本发明提出的基于检索辅助的谣言检测方法在利用算法自动判定的同时在系统的历史谣言库中检索相关谣言，并利用相关谣言的判定结果辅助判定当前信息。是的本发明在判定谣言的过程中具有更高的识别准确度。

附图说明

图1为本发明基于检索辅助的谣言检测系统框架图。

具体实施方式

本发明的目的是提供一种基于检索辅助的谣言检测系统，主要解决的问题是，如何利用相似的历史谣言信息来辅助判别当前谣言的真假，以提高自动检测谣言系统的识别准确度。

主要包括：

1、相关谣言检索：相关谣言即当前信息在谣言历史库中的相似样本，为当前信息的谣言判定提供辅助判定信息。相关谣言检索的质量直接决定了其提供的辅助判定信息的质量，越准确地相关谣言检索质量其能提供的辅助判定信息越优秀，从而使谣言检测系统的判定准确率越高。

2、相关谣言提供辅助判别：本发明在检索出相关谣言后，对相关谣言进行排序过滤。筛选出与待检索信息最相似的k条谣言并对其赋予不同的权重，相关谣言标签的加权和为待检测信息提供辅助判定信息。

3、综合判定与更新谣言库：在本发明中，系统对待测信息的判定是综合算法判定结果与相关谣言的辅助判别信息共同判定的。两种判定结果通过加权的方式融合，作为最终的系统判定结果。该结果经过人工复核后添加到历史谣言库中，为后续信息判别提供辅助依据。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

一、相关谣言检索

相关谣言检索是本发明核心发明点。在这一部分中，使用信息检索技术从既有历史谣言库中检索与当前待检测信息相关度最高的若干条相似新闻作为辅助判别信息。信息检索技术是从大规模非结构化数据中进行快速检索的一门技术，例如百度、谷歌等搜索引擎均为信息检索技术的应用。值得说明的是，本发明重点关注在利用信息检索技术来查询相关谣言信息，而非构建一套信息检索系统。因此在相关检索谣言部分使用开源的信息检索模型框架来完成相应任务。且该历史谣言库可以使本地私有数据库，也可以是开源的公共数据库，现有的公开谣言数据库例如有LairLairPantsonfire。

具体来说，根据信息检索流程，相关谣言检索分为以下几步：

1、抽取待检测谣言关键词；

2、在历史谣言库中检索关键词，并计算历史谣言库中谣言文本与关键词之间的相似度；

3、根据相似度大小排序，返回相关结果与相似度值γ。

二、相关谣言提供辅助判别

利用信息检索方法在既有历史谣言库中筛选出与待测信息相关的历史谣言后，依照相关程度为这些相似谣言排序，并筛选出相似度γ大于阈值θ的n条相似谣言，取其前k条，当不足k条时无需补齐。不同相关度的谣言所能提供的辅助信息也不同，因此本发明为每条相似谣言赋予不同的权重，具体第i条相似谣言权重w_i计算方法如下：

其中i表示该谣言在相关谣言排序中的位置(i＝1,2,3,…,k)，e^(·)为指数运算操作。

k条相关谣言信息提供的辅助判别信息α表示为：

其中l_i表示第i个相关谣言的标签，例如l_i＝1表示该谣言被验证为真实信息，l_i＝-1表示该谣言被验证为虚假信息。α∈[-1,1]表示相关谣言对当前待检测信息支持程度的大小，当α＝1时支持力度最大，表示相关谣言认为当前待测信息大概率为真实信息；当α＝-1时支持力度最小，表示相关谣言认为当前待测信息大概率为虚假信息；当α＝0时表示相关谣言无法为当前待测信息提供有效的辅助信息。

三、综合判定与更新谣言库

本系统通过综合算法判定结果与辅助判定结果对待测信息进行综合判定，其判定方式如下：

ω＝0.5*α+0.5*β

l＝f(ω)

f(ω)＝2*sigmoid(ω)-1

其中β为算法辅助判定结果(初步谣言检测结果)，f(ω)为类别标签计算函数，负责将综合判定结果映射为-1或+1，-1表示虚假信息，0表示真实信息。sigmoid(·)为激活函数，待对待测信息的综合检测结果产生后，进一步通过人工复核认证，并将人工复核认证结果追加到历史谣言库中，动态维护历史谣言库。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

所述的基于检索辅助的谣言检测系统，其中该模块2包括：

且该权重赋予的模块为：

第i条相似谣言权重计算模块如下：

i＝1,2,3,…,k

其中w_i为第i条相似谣言的权重，e^(·)为指数运算操作。

模块3中该对象信息的谣言标签计算模块如下：

ω＝0.5*α+0.5*β

l＝f(ω)

f(ω)＝2*sigmoid(ω)-1

Claims

1.一种基于检索辅助的谣言检测方法，其特征在于，包括：

步骤3、根据该初步谣言检测结果和该辅助谣言检测结果，综合判定该对象信息的谣言标签；

其中，该步骤2包括：

步骤21、根据该关键词得到该谣言库中谣言信息与该对象信息的相似度，并根据相似度大小排序，选取排序中相似度大于阈值的前k条谣言信息作为该多条相似谣言，其中k为正整数；

该权重赋予的方法为：

第i条相似谣言权重计算方法如下：

其中w_i为第i条相似谣言的权重，e^(·)为指数运算操作；

该辅助谣言检测结果的计算方法如下：

步骤3中该对象信息的谣言标签计算方法如下：

ω＝0.5*α+0.5*β

l＝f(ω)

f(ω)＝2*sigmoid(ω)-1

2.如权利要求1所述的基于检索辅助的谣言检测方法，其特征在于，还包括：步骤4、将该对象信息的谣言标签通过人工复核认证后，追加到该谣言库中，以动态维护该谣言库。

3.一种基于检索辅助的谣言检测系统，其特征在于，包括：

模块3、根据该初步谣言检测结果和该辅助谣言检测结果，综合判定该对象信息的谣言标签；

其中，该模块2包括：

且该权重赋予的模块为：

第i条相似谣言权重计算模块如下：

其中w_i为第i条相似谣言的权重，e^(·)为指数运算操作；

该辅助谣言检测结果的计算模块如下：

模块3中该对象信息的谣言标签计算模块如下：

ω＝0.5*α+0.5*β

l＝f(ω)

f(ω)＝2*sigmoid(ω)-1

4.如权利要求3所述的基于检索辅助的谣言检测系统，其特征在于，还包括：模块4、将该对象信息的谣言标签通过人工复核认证后，追加到该谣言库中，以动态维护该谣言库。