CN112256861B

CN112256861B - 一种基于搜索引擎返回结果的谣言检测方法及电子装置

Info

Publication number: CN112256861B
Application number: CN202010929737.7A
Authority: CN
Inventors: 林政�; 付鹏; 刘欢; 王伟平; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2023-09-26
Anticipated expiration: 2040-09-07
Also published as: CN112256861A

Abstract

本发明提供一种基于搜索引擎返回结果的谣言检测方法及电子装置，包括：依据一原文的内容，检索得到若干文档及相应发布来源，并从每一所述文档中选取若干单词组成一证据文档；拼接原文、原文发布人与每一证据文档及相应发布来源，得到一文本集合，并将所述文本集合输入到预训练语言模型，得到原文和证据文档之间的相关性特征；依据相关性特征对原文进行分类，判断原文是否为谣言。本发明未使用特征工程和领域知识，从外部证据文章中捕获对谣言检测有帮助的词句，训练数据获得难度极低，准确率优于现有方法。

Description

一种基于搜索引擎返回结果的谣言检测方法及电子装置

技术领域

本发明属于计算机领域，尤其涉及一种基于搜索引擎返回结果的谣言检测方法及电子装置。

背景技术

近年来，以预训练语言模型作为基础针对下游任务进行微调然后处理的方式取得了良好的效果。Delvin等人提出了BERT预训练语言模型([66]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding[C]//Proceedings of the 2019Conference of the North AmericanChapter of the Association for Computational Linguistics:Human LanguageTechnologies,Volume 1(Long and Short Papers).2019:4171-4186.)。BERT通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，在以后特定的NLP任务中，可以直接使用BERT的特征表示作为该任务的词嵌入特征。BERT使用了Transformer作为算法的主要框架，Transformer能更彻底的捕捉语句中的双向关系；使用更强大的机器训练更大规模的数据，使BERT的结果达到了全新的高度，其在NLP领域的11个方向大幅刷新了精度。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器，可以高效地将其应用到自然语言处理任务中。

谣言原文能够提供的线索有限，而搜索引擎和知识库恰好可以为谣言检测系统提供丰富的外部知识，因此利用搜索引擎或构建知识库在辅助机器进行谣言检测方面具有重要意义。通过提取文档的基本元素并从网站上搜索它们。Popat等人通过评估语言风格(主观词汇的使用情况)，证据文档发布者的可信度以及证据文档的情感立场，利用有监督的分类器进行分类。Popat等人(Popat K,Mukherjee S,Yates A,et al.DeClarE:DebunkingFake News and False Claims using Evidence-Aware Deep Learning[C]//Proceedingsof the 2018Conference on Empirical Methods in Natural LanguageProcessing.2018:22-32)搜索与谣言相关的网络文章，通过词嵌入和双向LSTM来得到文本的语言特征，同时使用注意力机制。将重点放在文章的相关部分上。然后，模型通过全连接层得到预测结果。

采用端到端的模型来进行针对网络搜索证据的可信性评估，无需任何人工干预。现有方法大多基于带有注意力机制的循环神经网络，缺少大规模语义知识。此外，因为BERT是基于大规模语料训练的语言模型，涵盖了大多数语义信息。但是，因为BERT缺少针对谣言特性的信息，直接将BERT用于谣言检测不能得到很好的效果。仍然需要进一步改进。

发明内容

本发明的目的在于提出一种基于搜索引擎返回结果的谣言检测方法及电子装置，模拟人类在发现可疑信息时采取的方法，自动利用搜索引擎返回结果，可以汇总证据上下文，结合这些文章的语言特征及其来源的可信度，还可以利用注意力机制捕捉到对谣言检测有用的信息，从而提高谣言检测准确率。

本发明的技术方案为：

一种基于搜索引擎返回结果的谣言检测方法，其步骤包括：

1)依据一原文的内容，检索得到若干文档及相应发布来源，并从每一所述文档中选取若干单词组成一证据文档；

2)拼接原文、原文发布人与每一证据文档及相应发布来源，得到一文本集合，并将所述文本集合输入到预训练语言模型，得到原文和证据文档之间的相关性特征；

3)依据相关性特征对原文进行分类，判断原文是否为谣言。

进一步地，检索得到若干文档及相应发布来源的方法包括使用Bing search API。

进一步地，在检索过程中，不对辟谣网站进行检索；所述辟谣网站包括：Politifact.com和Snopes.com。

进一步地，通过以下步骤从每一所述文档中选取若干单词组成一证据文档：

1)计算原文中单词占一文档中单词的比例a；

2)计算原文中单词平均词向量值与文档中每一单词词向量值的余弦相似度b；

3)依据每一单词的得分sim＝a×b，获取该文档中得分最高的前n个单词，组成所述证据文档，n≥1。

进一步地，预训练语言模型包括BERT模型。

进一步地，通过以下步骤对原文进行分类：

1)将相关性特征输入一双向GRU网络，通过向前和向后状态捕获先前的时间步的特征和未来的时间步的特征，得到两个方向的隐含表示信息

2)将隐含表示信息v一全连接层，得到该原文的可信度得分；

3)将可信度得分输入一Softmax层，对原文进行分类。

进一步地，Softmax层的交叉熵损失函数其中N是训练集样本数，1≤i≤N，p是softmax分类结果，y_i是样本的标签。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明具有以下优点：

利用本发明提供的方法对谣言进行分类，具有以下优点：

1、不需要大量特征工程，无需手动提取的特征或词典；

2、模型可以从外部证据文章中捕获对谣言检测有帮助的词句。利用不同的模型进行对比实验，可以发现引入多种外部信息的模型效果均好于只使用原文信息的模型。本方法未使用特征工程和领域知识，训练数据获得难度极低。在此基础上建立的模型取得了显著的预测效果，准确率优于现有方法。

3、引入两种外部信息的模型比只采用原文的模型具有更高的准确性。对于融合了不同种类信息的模型，具有利用原文、作者、证据、媒体信息模型效果最好。该结果表明多信息融合可以提升性能，并且它们可以从不同的角度捕获更多有用的信息。

附图说明

图1为本发明的谣言检测方法流程图。

图2为本发明的BERT模型结构示意图。

具体实施方式

为使本发明的目的、原理、技术方案和优点更加清晰明白，以下将结合具体实施例，并参照附图对本发明做详细的说明。

对于一则谣言，通过搜索引擎搜索其内容，可以获得相关的证据文档。本发明的模型利用相关证据文档，通过原文和搜索引擎返回的文档共同得出这条新闻是一则真/假新闻的结论。例如“A woman stabbed her boyfriend with a sharpened selfie stick,because he didn't like her newest Instagram selfie quickly enough.(一名女子用削尖的自拍杆刺了她的男友，因为他不喜欢她最新的Instagram照片。)”，模型会从文档中筛选一些有用的片段，并自动提取这些片段中有助于谣言检测的证据，对于检索到证据的谣言检测任务，模型建立在BERT上。利用BERT提取的基于特定任务的特征，将BERT提取到的特征向量与双向GRU模型结合，本方法将原文内容、发布者、证据文档及证据文档的来源拼接成一个原文-证据向量。

接下来，通过将原文-证据向量的表示输入BERT，再将BERT表示输入分类器双向GRU，将其表述为篇章分类任务。最后，利用一个全连接层输出利用该证据预测的原文的可信度得分。

具体地，本发明的基于搜索引擎返回结果的谣言检测方法，如图1所示，包括以下步骤：

1)需要将原文内容自动转换为查询，然后利用搜索引擎执行该查询，以获取潜在相关文档的列表。为了检索每条原文的所对应的网页文章，利用Bing search API进行查询，并保留检索到的前30个搜索结果。其中辟谣网站如Politifact.com，Snopes.com等都会被过滤掉。

2)由于网页内容往往比较长，本方法中利用的网页内容均被节选出一个片段来作为证据文档。因此，要从每篇网页内容中提取具有最高筛选得分的100个单词组成该片段，作为证据文档。具体步骤如下：

首先计算原文中单词占整个网页内容的比例，a＝(原文中单词∩网页中单词)/网页中单词个数；

再计算原文的平均词向量值和网页中每个单词的词向量的余弦相似度

b＝cosine(avg_embedding,w_embedding)

其中，avg_embedding为原文的平均词向量值，w_embedding为网页中每个单词的词向量；

最后，计算sim＝a×b，选取值最大的100个词作为证据文档。

3)模型的输入是一个原文-证据向量。

输入包括：原文，每条原文有一个相应的发布人。证据文档表示对于每条原文搜索到的相应的证据文档。对于每一个证据文档，都有一个对应的发布媒体。因此，将原文内容、发布者、证据文档及证据文档的发布来源拼接构成一个文本集合作为输入。

4)请参考图2，考虑到证据文档和原文在语义上具有相关性，使用带有多头注意力机制的BERT模型，BERT将输入经过词向量、位置编码、句子编码的三种向量表示累加得到的表示输入到最底层双向Transformer中，然后将这层双向Transformer的输出输送到下一层的双向Transformer中再次进行编码，重复这个过程，经过多层双向Transformer编码后得到一组包含了上下文语义信息的表示作为BERT的输出。可以学习到原文和证据之间的相关性特征。

5)在BERT输出层后增加一个分类器。本方法使用双向GRU。双向GRU分别通过向前和向后状态捕获先前的时间步的特征和未来的时间步的特征。相应地，有两个隐藏状态捕获两个方向的信息,得到一种表示其中/>是GRU两个方向的隐含表示。最后再经过全连接层和Softmax层进行谣言分类，p＝softmax(wv+b)，其中w,b是参数。

6)使用交叉熵损失作为损失函数，计算方法为：

其中，N是训练集样本数，i表示第几个样本，p是上述softmax结果，y_i是样本的标签，正类为1，负类为0。

7)最大训练轮数为200轮。当训练轮数的数量满足限制或loss收敛时，训练过程结束。对于BERT，输出的隐藏层维度为768维。在整个网络的训练中，批处理大小为32。

为验证本发明，分别使用LSTM-Plain、Bi-GRU-Plain、Distant Supervision、DeClarE及本发明对Politifact数据集进行了分类，实验结果如表1所示，可以看出本方法可以获得最高的准确率和F1值。

表1

以上所述实施例仅为更好的说明本发明的目的、原理、技术方案和有益效果。所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于搜索引擎返回结果的谣言检测方法，其步骤包括：

1)依据一原文的内容，检索得到若干文档及相应发布来源，并从每一所述文档中选取若干单词组成一证据文档；其中，所述从每一所述文档中选取若干单词组成一证据文档，包括：

1.1)计算原文中单词占一文档中单词的比例a；

1.2)计算原文中单词平均词向量值与文档中每一单词词向量值的余弦相似度b；

1.3)依据每一单词的得分sim＝a×b，获取该文档中得分最高的前n个单词，组成所述证据文档；其中，n≥1；

3)依据相关性特征对原文进行分类，判断原文是否为谣言；其中，所述依据相关性特征对原文进行分类，包括：

3.1)将相关性特征输入一双向GRU网络，通过向前和向后状态捕获先前的时间步的特征和未来的时间步的特征，得到两个方向的隐含表示信息

3.2)将隐含表示信息v输入一全连接层，得到该原文的可信度得分；

3.3)将可信度得分输入一Softmax层对原文进行分类。

2.如权利要求1所述的方法，其特征在于，检索得到若干文档及相应发布来源的方法包括使用Bing search API。

3.如权利要求1所述的方法，其特征在于，在检索过程中，不对辟谣网站进行检索。

4.如权利要求3所述的方法，其特征在于，所述辟谣网站包括：Politifact.com和Snopes.com。

5.如权利要求1所述的方法，其特征在于，预训练语言模型包括BERT模型。

6.如权利要求1所述的方法，其特征在于，Softmax层的交叉熵损失函数其中N是训练集样本数，1≤i≤N，p是softmax分类结果，y_i是样本的标签。

7.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-6中任一所述方法。

8.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-6中任一所述方法。