CN114817541A

CN114817541A - 基于双重情感感知的谣言检测方法及装置

Info

Publication number: CN114817541A
Application number: CN202210454682.8A
Authority: CN
Inventors: 葛晓义; 张明书; 刘佳; 魏彬
Original assignee: Engineering University of Chinese Peoples Armed Police Force
Current assignee: Engineering University of Chinese Peoples Armed Police Force
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-07-29

Abstract

本发明涉及基于双重情感感知的谣言检测方法及装置，该方法，包括：获取谣言文本和用户评论，并对谣言文本和用户评论进行向量嵌入表示；根据向量嵌入表示，提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征；将谣言文本语义特征与用户评论情感特征结合，以获得语义融合特征，将谣言文本情感特征与用户评论情感特征结合，以获得情感融合特征；将语义融合特征和情感融合特征进行分类，以获得检测结果。本发明通过分别提取谣言文本语义特征，谣言文本情感特征和用户评论情感特征进行谣言检测，具有较高的检测结果，可用于社交媒体上，尤其是当前社交媒体上认知战正愈演愈烈，可利用该方案进行仇恨语言检测，意识形态检测等任务。

Description

基于双重情感感知的谣言检测方法及装置

技术领域

本发明涉及谣言检测技术领域，尤其是指基于双重情感感知的谣言检测方法及装置。

背景技术

社交媒体的快捷性和便利性等优点给工作、生活和学习带来了巨大的便利，为用户发布、分享和获取各种信息提供了便捷的渠道。不可忽视的是社交媒体正演变成“网络认知战”的主战场，也导致了谣言泛滥，严重影响网络的良性发展，甚至影响社会、经济和文化的发展。为了遏制谣言传播，消除谣言带来的影响，政府、社会媒体、学术界等都展开了相应的行动，越来越多的学者致力于谣言检测任务。有效检测谣言和扼制谣言的传播有助于社会的安定和健康发展,具有重要的现实意义。

谣言的发布者希望使用各种方法来实现谣言的传播和带来影响，其中一种方法是激发受众的情绪。情感分析作为文本分析中负责确定文本表达的情感极性和强度的部分，被用于谣言检测方法，作为系统的基础，或作为增强特征。在基于内容的谣言检测模型中，情感分析一直被认为是谣言检测方法的重要部分。现有的模型大多利用谣言获取发布者的情感特征，而很少关注在评论中引起的情感。目前基于情感特征的谣言检测方法，没有考虑到评论情感与谣言文本的关系、谣言情感与用户评论情感的关系，谣言内容与情感为什么引起评论情感的？用户评论情感能不能解释为什么一条消息被检测为谣言？因此，导致谣言检测效果不佳。

发明内容

本发明的目的在于克服现有技术的不足，提供基于双重情感感知的谣言检测方法及装置。

为了解决上述技术问题，本发明采用如下技术方案：

第一方面，本实施例提供了一种基于双重情感感知的谣言检测方法，包括以下步骤：

获取谣言文本和用户评论，并对谣言文本和用户评论进行向量嵌入表示；

根据向量嵌入表示，提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征；

将谣言文本语义特征与用户评论情感特征结合，以获得语义融合特征，将谣言文本情感特征与用户评论情感特征结合，以获得情感融合特征；

将语义融合特征和情感融合特征进行分类，以获得检测结果。

其进一步技术方案为：所述获取谣言文本和用户评论，并对谣言文本和用户评论进行向量嵌入表示步骤中，谣言文本中一条谣言由M个句子组成，其中每个句子s由m个词组成

一条谣言对应的用户评论由n个句子组成，其中每个句子e由N个词组成

其进一步技术方案为：所述根据向量嵌入表示，提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征步骤中，谣言文本语义特征的提取包括:

谣言文本中的词与上下文具有关联性，具有较强的双向语义依赖，从词的两个方向建模获取谣言文本语义特征；其中，词嵌入的向量为

前向隐藏状态为

后向隐藏状态为

词的特征表示为

句子向量s∈^2d×m；

其中，

用于衡量第t个单词对句子s的重要性，

的计算公式如下：

其中，

是通过完全嵌入层从隐藏状态

获得的，W_w，b_w是可训练的参数，u_w为权重矩阵；

谣言文本情感特征和用户评论情感特征的提取包括:谣言文本情感特征为U＝[u¹,u²,…u^M]，用户评论情感特征为V＝[v¹,v²,…v^N]，其中，对用户评论中某一行评论情感嵌入后的向量

进行卷积操作：

其中，W∈^λ×d是可学习的参数矩阵，b是偏置项，偏ReLU是激活函数；对卷积得到h^j进行最大池化，可得到每一句评论的情感特征：

其中，通过CNN层使用2个过滤器λ∈{2,3}，以获取多个特征，将不同的输出连接起来，形成v^j作为用户评论的单个表示，通过同样的方式，得到用户评论中每个评论的情感特征，形成用户评论的情感特征矩阵V＝[v¹,v²,…,v^N]。

其进一步技术方案为：所述将谣言文本语义特征与用户评论情感特征结合，以获得语义融合特征，将谣言文本情感特征与用户评论情感特征结合，以获得情感融合特征步骤中，谣言文本表示为：S＝[s¹,s²,…,s^M]，用户评论情感特征表示为：E＝[e¹,e²,…,e^N]；

首先计算相似矩阵F＝tanh(EW_seS)，其中F＝^N×M,W_se∈^2d×2d是可学习的参数矩阵，将相似矩阵作为一个特征，则谣言文本语义特征和用户评论情感特征的协同表示：

H^s＝tanh(W_sS+(W_eE)F)

H^e＝tanh(W_eE+(W_sS)F^T)

其中，W_s,W_e∈^k×2d为可学习的参数矩阵，谣言文本和用户评论情感特征的注意力权重为：

其中，a^s∈^1×M,a^e∈^1×N分别是谣言文本中每个词和评论的情感特征中每个评论的注意权重，W_hs,W_he是可训练权重，最终，通过加权协同表示，得到语义融合特征为：

利用协同注意力机制对谣言文本情感特征和用户评论情感特征，通过计算相似矩阵，获取对应的权重分别生成协同表示，得到情感融合特征为：

其进一步技术方案为：所述将语义融合特征和情感融合特征进行分类，以获得检测结果步骤中，检测结果的计算包括：

其中，

为softmax函数计算的概率值，W_f为权重矩阵，b为偏置项。

第二方面，本实施例提供了一种基于双重情感感知的谣言检测装置，包括：获取嵌入单元，提取单元，结合单元及分类单元；

所述获取嵌入单元，用于获取谣言文本和用户评论，并对谣言文本和用户评论进行向量嵌入表示；

所述提取单元，用于根据向量嵌入表示，提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征；

所述结合单元，用于将谣言文本语义特征与用户评论情感特征结合，以获得语义融合特征，将谣言文本情感特征与用户评论情感特征结合，以获得情感融合特征；

所述分类单元，用于将语义融合特征和情感融合特征进行分类，以获得检测结果。

其进一步技术方案为：所述获取嵌入单元中，谣言文本中一条谣言由M个句子组成，其中每个句子s由m个词组成

其进一步技术方案为：所述提取单元中，谣言文本语义特征的提取包括:

前向隐藏状态为

后向隐藏状态为

词的特征表示为

句子向量s∈^2d×m；

其中，

用于衡量第t个单词对句子s的重要性，

的计算公式如下：

其中，

是通过完全嵌入层从隐藏状态

获得的，W_w，b_w是可训练的参数，u_w为权重矩阵；

进行卷积操作：

其进一步技术方案为：所述结合单元中，谣言文本表示为：S＝[s¹,s²,…,s^M]，用户评论情感特征表示为：E＝[e¹,e²,…,e^N]；

H^s＝tanh(W_sS+(W_eE)F)

H^e＝tanh(W_eE+(W_sS)F^T)

其进一步技术方案为：所述分类单元中，检测结果的计算包括：

其中，

为softmax函数计算的概率值，W_f为权重矩阵，b为偏置项。

本发明与现有技术相比的有益效果是：通过分别提取谣言文本语义特征，谣言文本情感特征和用户评论情感特征进行谣言检测，具有较高的检测结果和合理的解释性，可以用于社交媒体上，尤其是当前社交媒体上认知战正愈演愈烈，可以利用该方案进行仇恨语言检测，意识形态检测等任务，能够更好地满足需求。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于双重情感感知的谣言检测方法的流程示意图；

图2为本发明实施例提供的基于双重情感感知的谣言检测方法的检测模型框架示意图；

图3为本发明实施例提供的谣言文本语义特征提取过程的示意图；

图4为本发明实施例提供的情感特征提取过程的示意图；

图5为本发明实施例提供的谣言文本与用户评论情感特征结合的示意图；

图6为本发明实施例提供的基于双重情感感知的谣言检测装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1所示的具体实施例，本发明公开了一种基于双重情感感知的谣言检测方法，包括以下步骤：

S1，获取谣言文本和用户评论，并对谣言文本和用户评论进行向量嵌入表示；

其中，在进行特征提取前，首先对每个词进行词向量嵌入和情感向量嵌入。词向量嵌入采用Robyn等人预先训练好的Numberbatch词向量，在词向量相似性上优于word2vec和GloVe。根据情感建模，本方案采取一种将情感元素融入到原有模型中的方法获取情感嵌入向量；该方法通过使用情感词汇和基本情绪词汇将情感信息拟合到预训练Numberbatch词向量中获取情感向量。

其中，在S1步骤中，谣言文本中一条谣言由M个句子组成，其中每个句子s由m个词组成

经过预训练的词向量和情感向量表示后用于提取语义特征和情感特征。

请参阅图2所示，检测模型框架，通过向量嵌入，特征提取，协同表示及输出层，以获得检测结果，谣言检测效果良好。

S2，根据向量嵌入表示，提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征；

请参阅图3所示，在S2步骤中，理论上RNN能够捕获长期依赖，但在实践中，旧的记忆会随着序列变长而消失。为了捕获RNN的长期依赖关系，使用GRU来确保更持久的内存。虽然词中包含上下文信息，也就包含整个句子的信息，但是句子中每个词的重要性不同，谣言文本语义特征的提取包括:

谣言文本中的词与上下文具有关联性，具有较强的双向语义依赖，因此逆序处理十分必要，采用Bi-GRU从词的两个方向建模获取谣言文本语义特征，从词的两个方向建模获取谣言文本语义特征；其中，词嵌入的向量为

前向隐藏状态为

后向隐藏状态为

词的特征表示为

通过连接前向隐藏状态

和后向隐藏状态

得到词的特征表示

通过注意力机制学习词的重要性来得到句子向量s∈^2d×m；

其中，

用于衡量第t个单词对句子s的重要性，

的计算公式如下：

其中，

是通过完全嵌入层从隐藏状态

获得的，W_w，b_w是可训练的参数，u_w为权重矩阵；

其中，如图2所示，在模型框架中，共提取两部分情感特征，图中一部分用户评论情感特征与谣言文本语义特征提取方法相同，采用Bi-GRU与Attention的方法获得用户评论情感特征E＝[e¹,e²,…,e^N]。

请参阅图4所示，谣言文本情感特征与另一部分用户评论情感特征采用CNN模型提取，CNN模型能够较好的提取局部特征，并且模型训练的效率高，因此利用一维卷积神经网络，谣言文本情感特征和用户评论情感特征的提取包括:谣言文本情感特征为U＝[u¹,u²,…u^M]，用户评论情感特征为V＝[v¹,v²,…v^N]，其中，对用户评论中某一行评论情感嵌入后的向量

进行卷积操作：

S3，将谣言文本语义特征与用户评论情感特征结合，以获得语义融合特征，将谣言文本情感特征与用户评论情感特征结合，以获得情感融合特征；

请参阅图5所示，用户评论可能包含了解释为什么一条谣言文本是假的重要方面的相关信息，但它们信息量较小、噪音较大。因此利用谣言文本自身进行谣言检测和解释谣言真假是薄弱的，而用户评论中情感丰富，相较于语义特征，情感特征更加突出，更有利于谣言检测，并通过情感特征能反应谣言真假的原因。通过协同注意力机制学习用户评论情感与谣言的相关性，利用情感的注意力权重和谣言中的词汇来进行谣言检测和谣言解释，在S3步骤中，谣言文本表示为：S＝[s¹,s²,…,s^M]，用户评论情感特征表示为：E＝[e¹,e²,…,e^N]；

H^s＝tanh(W_sS+(W_eE)F)

H^e＝tanh(W_eE+(W_sS)F^T)

S4，将语义融合特征和情感融合特征进行分类，以获得检测结果。

其中，在S4步骤中，通过将提取到的特征通过全连接层输出，最后通过softmax函数来获得分类的结果：

检测结果的计算包括：

其中，

为softmax函数计算的概率值，W_f为权重矩阵，b为偏置项。

本方案的具体实施例如下：采用两个英文数据集谣言检测twitter15和twitter16。选择“真”和“假”标签数据，数据集中都包含谣言内容、用户评论和相应的转发用户序列等信息。均采用谣言内容和用户评论作为输入。数据集的统计数据如表1所示。

表1数据集统计

其中，分别在这上述两个数据集上进行实验,将实验结果与基准模型进行比对和分析。

RNN：一种基于RNN的方法，将社交上下文信息建模为可变长度的时间序列，用于学习谣言的连续表示。

text-CNN：一种基于卷积神经网络的文本分类模型，利用多个卷积滤波器来捕获不同粒度的文本特征。

HAN：一种基于层次注意力网络的文档分类模型，利用词级注意力和句子级注意力来学习新闻内容表示。

dEFEND；一种基于协同注意力机制的假新闻检测模型，学习新闻内容和用户评论之间的相关性。

GCAN：一种基于双重共同注意的假新闻检测模型，可以学习相关性在源短文本推文之间，以新闻内容和转发回复序列作为输入。

Dual Emotion：一种基于双重情感特征的假新闻检测模型，通过学习谣言情感特征，评论情感特征以及情感特征差作为假新闻检测器的补充特征。

在实验中，根据Twitter15与Twitter16数据集实际情况，dEFEND模型中谣言文本句子个数为1，长度为32，评论句子分别选取12和9条；GCAN模型引用原论文的实验结果；为了对比公平，Dual emotion模型利用Bi-GRU提取文本特征，分别选择12和9条评论提取情感特征；本方案所提模型，谣言句子个数为1，长度为32，评论个数分别为12和9条。将数据集按照6：2：2的比例划分为训练集、验证集、测试集，每一个数据集中的样本比例为1∶1。实验使用Adam更新参数，初始学习率为0.001,采取自适应递减策略更新学习率。词向量与情感词向量维度均设置为300。设置常用的评价指标为:正确率Accuracy、准确率Precision、召回率Recall以及F1。在twitter15、twitter16上的实验结果如表2和表3所示。

表2 Twitter15上不同模型的结果对比

表3 Twitter16上不同模型的结果对比

methods	accuracy	precision	recall	F1
					RNN	0.662	0.655	0.655	0.658
Text-CNN	0.676	0.678	0.681	0.677
					HAN	0.723	0.712	0.712	0.716
dEFEND	0.774	0.772	0.774	0.774
					GCAN	0.908	0.763	0.759	0.759
DualEmotion	0.812	<u>0.821</u>	<u>0.817</u>	<u>0.812</u>
					ours	<u>0.857</u>	0.859	0.857	0.857

其中，从表2和表3中可以发现，在Twitter 15和Twitter 16两个数据集上，该方案所提模型在各个指标上都显著优于其他的模型，在Twitter 15上的性能提高了约4％，在Twitter16上的性能提高了约4％。不仅优于基于单一特征的方法，更是优于基于混合特征的方法，充分体现了模型优越的性能。RNN、text-CNN、HAN三种基于单一特征的方法中，HAN模型效果更好，说明在提取语义特征上，HAN模型更具有优势。dEFEND、GCAN、Dual Emotion三种基于混合特征的方法明显优于基于单一特征的方法，这说明基于混合特征的模型利用不同的方法融合更多的特征往往具有更好的效果。在基于混合特征的模型中，GCAN模型通过两次Co-attention提取谣言文本语义特征、用户特征和转发序列特征取得优于dEFEND模型仅利用一次Co-attention的效果，Dual Emotion模型在不采用Co-attention下，仅利用谣言文本语义特征与情感特征融合就取的更好的结果。

该模型与基于混合特征的方法相比，也具有明显的优势。该方案所提模型优于dEFEND模型，说明同样采用Co-Attention提取特征相关性，文本与情感的相关性模型更优于文本与评论文本的模型；该方案所提模型优于Dual Emotion模型，说明同样是文本与评论情感作为谣言检测器特征，但是Co-Attention提取特征相关性更具有优势；该方案所提模型与GCAN模型相比，同样是采用2次Co-Attention提取特征，但仅利用谣言和评论，提取语义特征和情感特征就取得最优结果，这表明选取更有效的特征是检测谣言的关键。

本发明通过分别提取谣言文本语义特征，谣言文本情感特征和用户评论情感特征进行谣言检测，具有较高的检测结果和合理的解释性，可以用于社交媒体上，尤其是当前社交媒体上认知战正愈演愈烈，可以利用该方案进行仇恨语言检测，意识形态检测等任务，能够更好地满足需求。

请参阅图6所示，本发明还公开了一种基于双重情感感知的谣言检测装置，包括：获取嵌入单元10，提取单元20，结合单元30及分类单元40；

所述获取嵌入单元10，用于获取谣言文本和用户评论，并对谣言文本和用户评论进行向量嵌入表示；

所述提取单元20，用于根据向量嵌入表示，提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征；

所述结合单元30，用于将谣言文本语义特征与用户评论情感特征结合，以获得语义融合特征，将谣言文本情感特征与用户评论情感特征结合，以获得情感融合特征；

所述分类单元40，用于将语义融合特征和情感融合特征进行分类，以获得检测结果。

其中，所述获取嵌入单元10中，谣言文本中一条谣言由M个句子组成，其中每个句子s由m个词组成

其中，所述提取单元20中，谣言文本语义特征的提取包括:

前向隐藏状态为

后向隐藏状态为

词的特征表示为

句子向量s∈^2d×m；

其中，

用于衡量第t个单词对句子s的重要性，

的计算公式如下：

其中，

是通过完全嵌入层从隐藏状态

获得的，W_w，b_w是可训练的参数，u_w为权重矩阵；

进行卷积操作：

其中，所述结合单元30中，谣言文本表示为：S＝[s¹,s²,…,s^M]，用户评论情感特征表示为：E＝[e¹,e²,…,e^N]；

H^s＝tanh(W_sS+(W_eE)F)

H^e＝tanh(W_eE+(W_sS)F^T)

其中，所述分类单元40中，检测结果的计算包括：

其中，

为softmax函数计算的概率值，W_f为权重矩阵，b为偏置项。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于双重情感感知的谣言检测装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

上述实施例为本发明较佳的实现方案，除此之外，本发明还可以其它方式实现，在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。

Claims

1.基于双重情感感知的谣言检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于双重情感感知的谣言检测方法，其特征在于，所述获取谣言文本和用户评论，并对谣言文本和用户评论进行向量嵌入表示步骤中，谣言文本中一条谣言由M个句子组成，其中每个句子s由m个词组成

3.根据权利要求2所述的基于双重情感感知的谣言检测方法，其特征在于，所述根据向量嵌入表示，提取谣言文本语义特征及提取谣言文本情感特征和用户评论情感特征步骤中，谣言文本语义特征的提取包括:

前向隐藏状态为

后向隐藏状态为

词的特征表示为

句子向量s∈^2d×m；

其中，

用于衡量第t个单词对句子s的重要性，

的计算公式如下：

其中，

是通过完全嵌入层从隐藏状态

获得的，W_w，b_w是可训练的参数，u_w为权重矩阵；

进行卷积操作：

4.根据权利要求3所述的基于双重情感感知的谣言检测方法，其特征在于，所述将谣言文本语义特征与用户评论情感特征结合，以获得语义融合特征，将谣言文本情感特征与用户评论情感特征结合，以获得情感融合特征步骤中，谣言文本表示为：S＝[s¹,s²,…,s^M]，用户评论情感特征表示为：E＝[e¹,e²,…,e^N]；

H^s＝tanh(W_sS+(W_eE)F)

H^e＝tanh(W_eE+(W_sS)F^T)