CN114298021A

CN114298021A - 基于情感值选择评论的谣言检测方法

Info

Publication number: CN114298021A
Application number: CN202111288178.7A
Authority: CN
Inventors: 葛晓义; 张明书; 魏彬
Original assignee: Engineering University of Chinese Peoples Armed Police Force
Current assignee: Engineering University of Chinese Peoples Armed Police Force
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-04-08

Abstract

本发明涉及谣言检测技术领域，且公开了基于情感值选择评论的谣言检测方法，包括以下步骤：1)对谣言和评论进行数据预处理。本发明的优点在于：采用谣言文本和情感特征作为输出特征，选择最先进的预训练模型，并结合情感特征，有效的提高了模型性能，计算每一个评论在情感字典中的词的单独得分，使用现有的情感词典来匹配和计算否定词和程度词的值，根据每一文本中的情感词、程度副词和否定词计算得到文本中某一类的情感值，根据情感字典计算每一条评论的情感值，选择出情感值最大的前L₁条，情感值最小的前L₂条，一方面是情感值较大的词，另一方面能够对谣言真假进行有效的解释，仅从选择评论来看，对于谣言真假的解释性带来显著提高。

Description

基于情感值选择评论的谣言检测方法

技术领域

本发明涉及谣言检测技术领域，具体为基于情感值选择评论的谣言检测方法。

背景技术

在信息化时代，社交媒体是我们获取新闻的重要载体，已经成为我们生活中的重要组成部分。但是近年来，各类谣言的肆意传播，快速扩散，严重误导公共舆论，损害大众利益，污染网络环境。

部分学者谣言检测认为是假新闻检测中的一部分，也有学者认为谣言就是假新闻，但是在定义上学术界遵循谣言为一种在社会网络上传播且未经验证，或已被官方证实为假，并在网络中流传的信息。当前已有基于手工特征构建、基于深度学习、基于传播模型、基于情感分析等多种方法，但是这些方法大多集中于有效地检测具有潜在特征的谣言，即便采用情感特征，也是作为增强特征，更不能解释为什么该谣言被检测为谣言。网络谣言具有夸张、煽动性等异常情感的特点,因此将情感特征作为检测特征的一部分具有较好的效果，本发明提出一种基于情感值选择评论的谣言检测方法,通过情感值选择评论进行情感特征提取与谣言语义特征结合进行谣言检测。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于情感值选择评论的谣言检测方法，具备检测效果好等优点，解决了背景技术所提出的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：基于情感值选择评论的谣言检测方法，包括以下步骤：

1)对谣言和评论进行数据预处理；

2)评论选择，利用情感字典计算谣言评论中情感值最大的若干条和最小的若干条；

3)通过多角度计算谣言评论的情感特征；

4)采用不同的模型对文本进行嵌入，验证模型的有效性；

5)进行特征融合，并输入模型得到检测结果。

优选的，所述步骤1)中对数据的预处理主要包括对无用所数据的删除，删除的数据特征为谣言内容长度小于五的、谣言评论为空的或在评论数据处理后为空的、评论中仅转发的评论、仅包含@且后面字符长度小于5的以及带有其他url、电话号码、用户名、身份证号、中英文标点符号和停用词的。

优选的，所述步骤2)中选择评论时需要首先计算每一个评论在情感字典中的词的单独得分，使用现有的情感词典来匹配和计算否定词和程度词的值，具体为以下公式：

s(x_i)＝D(x_i)*neg(x_i，w)*deg(x_i，w)

其中D为情感字典，x_i为文本中词汇，w表示上下文的范围，neg(x_i，w)，deg(x_i，w)为对应的否定词和程度副词值：

根据每一文本中的情感词、程度副词和否定词计算得到文本中某一类的情感值，则该文本的某一情感e为所有存在该情感词汇之和。L为每条评论的长度，最后计算得到评论的情感值为：

根据情感字典计算每一条评论的情感值，选择出情感值最大的前L₁条，情感值最小的前L₂条，M₁，M₂分别表示情感值最大和最小的评论，具体如下：

优选的，所述步骤3)中情感特征的计算采用情感词典中对于情绪类型的表达：

E＝{e₁，e₂，…，e_d}

其中某一情绪e相应的词汇为W_e＝{w₁，w₂，…，w_l}；

对于评论文本的情绪词汇特征计算公式如下：

neg(x_i，w)，deg(x_i，w)为对应的否定词和程度副词值的计算，然后计算评论文本的某一情绪的特征，公式如下：

最后，将所有的情绪词汇提取的特征采用连接的方式得到：

在计算情感词汇的情感特征时，需要考虑词汇的强烈程度，在给定情绪E、每种情绪对应的字典和文本，首先对某一情绪的情感强度进行计算，公式如下：

其中int(x_i)表示词汇的强烈程度，如果x_i在字典中，则根据情感字典计算int(x_i)，否则为0。最后通过连接各种情绪的强度来获得情绪强度特征：

最后通过辅助特征来捕捉表情符号、标点符号、情感词和人称代词等，其中在评论中，多数以表情符号代替文字，利用多个情感字典获得辅助特征emo_f，则连接各个特征可得到每一评论的情感特征为：

优选的，所述：步骤4)中通过Bert模型进行本文嵌入得到h_c＝Bert(c)，输出语义特征表示为h_c，连接情感特征和语义特征，并通过交叉熵损失函数训练模型：

(三)有益效果

与现有技术相比，本发明提供了基于情感值选择评论的谣言检测方法，具备以下有益效果：

该基于情感值选择评论的谣言检测方法，通过采用谣言文本和情感特征作为输出特征，选择最先进的预训练模型，并结合情感特征，有效的提高了模型性能，并且计算每一个评论在情感字典中的词的单独得分，使用现有的情感词典来匹配和计算否定词和程度词的值，根据每一文本中的情感词、程度副词和否定词计算得到文本中某一类的情感值，根据情感字典计算每一条评论的情感值，选择出情感值最大的前L₁条，情感值最小的前L₂条，一方面是情感值较大的词，另一方面能够对谣言真假进行有效的解释，仅从选择评论来看，对于谣言真假的解释性带来显著提高。

附图说明：

图1为本发明谣言检测模型的框架图；

图2为本发明所使用Bert模型的模型图。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

基于情感值选择评论的谣言检测方法，包括以下步骤：

1)对谣言和评论进行数据预处理；

3)通过多角度计算谣言评论的情感特征；

4)采用不同的模型对文本进行嵌入，验证模型的有效性；

5)进行特征融合，并输入模型得到检测结果。

步骤1)中对数据的预处理主要包括对无用所数据的删除，删除的数据特征为谣言内容长度小于五的、谣言评论为空的或在评论数据处理后为空的、评论中仅转发的评论、仅包含@且后面字符长度小于5的以及带有其他url、电话号码、用户名、身份证号、中英文标点符号和停用词的，在评论数据集中，谣言评论往往包含大量的真相，不可否认的是也存在着大量的无用的评论，尤其时单纯的转发行为，在数据集中却显示为评论内容“转发”，以及一些网络表情等，都显示为文本模式，因此在输入文本处理前，需要先对谣言及评论进行预处理，删除部分谣言及评论。

步骤2)中选择评论时需要首先计算每一个评论在情感字典中的词的单独得分，使用现有的情感词典来匹配和计算否定词和程度词的值，具体为以下公式：

s(x_i)＝D(x_i)*neg(x_i，w)*deg(x_i，w)

根据情感字典计算每一条评论的情感值，选择出情感值最大的前L₁条，情感值最小的前L₂条，M₁，M₂分别表示情感值最大和最小的评论,具体如下：

经过预处理及物理筛选剔除一些相对无关的评论，但是对于谣言评论而言，一方面其中仍存在着大量的与谣言本身无关的评论，可能为广告，或者用户刷的一些热点新闻等内容，另一方面评论数量过大，嵌入矩阵较为稀疏，难以达到预期的结果。因此需要设计一种控制模式，选择部分“有效”的评论，控制谣言评论进入模型的相对有效性。情感值一定程度上反应了评论者对文本内容的认识程度和认可程度，通过情感值选择出情感强烈的评论作为输入特征的一部分，并能够解释谣言真假，因为本文通过计算情感值作为选择谣言评论的依据，对于每一条评论通过聚合每个词根据情感字典计算得到情感值。但是一个词在字典中，我们不仅要考虑它的出现频率，还要考虑它的上下文词，具体的说需要考虑程度副词、肯定词和否定词。因此需要首先计算每一个评论在情感字典中的词的单独得分；

步骤3)中情感特征的计算采用情感词典中对于情绪类型的表达：

E＝{e₁，e₂，…，e_d}

其中某一情绪e相应的词汇为W_e＝{w₁，w₂，…，w_l}；

对于评论文本的情绪词汇特征计算公式如下：

最后，将所有的情绪词汇提取的特征采用连接的方式得到：

为了获得评论中的情感特征，分别提取了情绪词汇、情感强度、情感值、辅助特征等特征。通过情感强度和情感值提供了整体信息，情感词汇与辅助特征提供了词汇和符号层面的信息，文本的情感通常由组成的词汇表达，从不同的角度看待不同的词，提取不同的特征，反应整体的情感特征，通常由几个关键词汇表达，所有特征的提取都依赖于由专家注释的情感词典，不同的是提取不同的特征对应不同的字典，给定一个长度为L的文本，则由词组成的文本T＝[x₁，x₂，…x_L]计算文本的情感特征；

步骤4)中通过Bert模型进行本文嵌入得到h_c＝Bert(c)，输出语义特征表示为h_c，连接情感特征和语义特征，并通过交叉熵损失函数训练模型：

BERT模型是一种基于深度学习的自然语言处理模型，主要的模型结构是Transformer 编码器，通过自注意力机制建模，可以直接获取文本的全局信息，同时由于其没有遗忘门机制所有的词的信息都得以保留，因此BERT能够更好地表达句子的完整语义信息，同时也能从全局的词特征中上直接寻找词与词之间的相关性特征。相比于传统用于NLP任务的循环神经网络(RNN)及长短期记忆网络(LSTM)等，有更强大的文本编码能力。鉴于BERT 模型的这些优点及其在NLP领域取得的效果，针对中文文本处理时需要依托文本上下文信息才能更好地提取文本的语义信息这一需求，基于BERT模型抽取谣言语义表示向量。

实验例：

本实验例为了排除谣言检测器因素的影响，仅利用情感特征通过5层的MLP模型对假新闻进行检测，其中结果如表2所示，Publisheremotion为谣言文本提取的情感特征，Dualemotion为Zhang中表示方法，Select100s为本文筛选评论获得的情感特征。

表2情感特征的结果

为了证明当前模型的有效性，，分别选择了几种先进的谣言检测模型，实验结果如表 3所示：

表3对比模型实验结果

在实验过程中，dEFEND模型采用谣言文本和评论作为输入，其他模型，只采用谣言文本作为输入，本文提出的模型，采用谣言文本和情感特征作为输出特征。通过表3可以看出，Bert模型表现出优越的性能，是因为在只采用谣言文本作为输入时，Bert模型能够更好的文本嵌入表示语义，CNN模型与RNN模型具有差不多的效果，dEFEND模型性能较差，是因为采用co-attention机制学习谣言文本和评论之间的关联性，不能较好的捕捉到评论与谣言之间的紧密相关性，评论中较少直接提及到谣言文本涉及到的内容。本文提出的模型在两个微博数据集的实验结果显示出较好的性能，证明了选择最先进的预训练模型，并结合情感特征对于模型性能具有一定的提高，与Bert模型相比，在两个数据集上准确率分别提高了4.2％，3.1％；

在不采用注意力机制的情况下，试图利用最小评论值选择得到的谣言评论对谣言进行解释，值得注意的是，仅选取最大和最小前三个情感值对应的评论是可以对谣言真假进行解释的。对于新闻中内容，选择得到评论与之具有很大程度上的相关性，且在最大情感值评论中，关联程度高一些，在最小情感值评论中，直接从语义上看，内容相关性较低，但是这些评论中包含的情感倾向与反对谣言本身。黑色字体为标注字体，一方面是情感值较大的词，另一方面能够对谣言真假进行有效的解释，仅从选择评论来看，对于谣言真假的解释性具有显著的作用。

判断标准：采用通用标准包括准确度(acc)、精确度(pre)、召回率(rec)和f1。

参数设置为：谣言句子最大长度为128，评论句子最大长度为32，数量为100；Bert的hide_size＝768。

本发明的有益效果是：通过采用谣言文本和情感特征作为输出特征，选择最先进的预训练模型，并结合情感特征，有效的提高了模型性能，并且计算每一个评论在情感字典中的词的单独得分，使用现有的情感词典来匹配和计算否定词和程度词的值，根据每一文本中的情感词、程度副词和否定词计算得到文本中某一类的情感值，根据情感字典计算每一条评论的情感值，选择出情感值最大的前L₁条，情感值最小的前L₂条，一方面是情感值较大的词，另一方面能够对谣言真假进行有效的解释，仅从选择评论来看，对于谣言真假的解释性带来显著提高。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于情感值选择评论的谣言检测方法，其特征在于，包括以下步骤：

1)对谣言和评论进行数据预处理；

3)通过多角度计算谣言评论的情感特征；

4)采用不同的模型对文本进行嵌入，验证模型的有效性；

5)进行特征融合，并输入模型得到检测结果。

2.根据权利要求1所述的基于情感值选择评论的谣言检测方法，其特征在于，所述步骤1)中对数据的预处理主要包括对无用所数据的删除，删除的数据特征为谣言内容长度小于五的、谣言评论为空的或在评论数据处理后为空的、评论中仅转发的评论、仅包含@且后面字符长度小于5的以及带有其他url、电话号码、用户名、身份证号、中英文标点符号和停用词的。

3.根据权利要求1所述的基于情感值选择评论的谣言检测方法，其特征在于，所述步骤2)中选择评论时需要首先计算每一个评论在情感字典中的词的单独得分，使用现有的情感词典来匹配和计算否定词和程度词的值，具体为以下公式：

s(x_i)＝D(x_i)*neg(x_i，w)*deg(x_i，w)