CN113326437B

CN113326437B - 一种基于双引擎网络和drqn的微博早期谣言检测方法

Info

Publication number: CN113326437B
Application number: CN202110693819.0A
Authority: CN
Inventors: 杨武; 王巍; 玄世昌; 苘大鹏; 吕继光; 仇雨辰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-06-21
Anticipated expiration: 2041-06-22
Also published as: CN113326437A

Abstract

本发明属于社交网络谣言检测技术领域，具体涉及一种基于双引擎网络和DRQN的微博早期谣言检测方法。本发明针对社交网络中的微博谣言早期阶段识别，通过由双引擎网络实现的谣言检测模块，将微博的原始信息和回复信息针对其各自的特征分别进行处理，提高了谣言检测的准确率。本发明通过由DRQN实现的控制模块，可以自动化地控制微博回复信息的读取数量，从而达到在谣言出现早期进行检测的目的，同时可以动态地平衡谣言检测的准确性和及时性。

Description

一种基于双引擎网络和DRQN的微博早期谣言检测方法

技术领域

本发明属于社交网络谣言检测技术领域，具体涉及一种基于双引擎网络和DRQN的微博早期谣言检测方法。

背景技术

随着互联网的飞速发展，社交网络与人们的生活变得逐渐紧密，网民的参与度和使用率迅速攀升。“We Are Social”2019年公布的全球数字化统计报告显示，截止2018年底，全世界的社交网络用户高达34.8亿人，占据世界总人数的45％。以Twitter、微博为代表的社交网络平台为网民提供了发布信息、发表意见的功能，新闻媒体也逐渐在社交网络上建立了官方账号进行新闻报道，因此社交网络逐渐成为了人们主要的信息来源。

社交网络的普及在提高人们生活效率的同时，也成为网络谣言滋生的环境。在信息量爆炸的今天，每天有海量的信息在社交网络中传播，其中不乏大量的谣言信息。谣言对社会的危害是不容忽视的。面对谣言横行的网络环境，社交网路平台纷纷建立了辟谣账号进行人工辟谣，但是仅靠人工审核来制止谣言不仅人工成本高，而且效率十分低下，所以基于人工智能的谣言检测技术逐渐成为研究的热点。谣言传播过程具有明显的时效性，具体来讲，谣言早期出现的时候以爆发的形式迅速扩散，但随着时间的推移，其传播速度会大幅度降低，直至最终消亡。如果谣言在早期出现时就能被准确识别并控制其传播行为，虚假谣言带来的不良影响就可以大幅度降低，因此社交网络早期谣言检测研究十分重要。

当前关于谣言的早期检测方面涉及较少。目前的早期谣言检测方法可以分为三种：

(1)实时谣言检测，如Castillo等人提出的模型，该模型采用支持向量机对原始信息进行分类而不考虑回复信息，所以在检测时间上不存在延迟问题，从而达到实时检测的目的。虽然实时谣言检测方法能够保证在谣言出现早期对其实施检测，但是其误判率较高，实用价值不大。

(2)基于静态检查点的早期谣言检测，如Dungs等人提出的模型基于隐马尔可夫理论，其原理是在模型读取回复信息的过程中，以固定的回复信息数量为间隔(文献中使用的间隔长度为5)设定一个静态检查点，每个检查点都会考虑是否输出检测结果，如果输出检测结果，则谣言检测流程结束，否则继续读取回复信息，直到出现一个检测点输出检测结果。该方法也是目前比较流行的方法，虽然理论上能够实现早期检测，但不够灵活，无法发挥模型的潜在性能。

(3)基于强化学习的早期谣言检测，如Zhou等人提出的模型。该模型由谣言检测模块和检查点模块两部分组成，其中检查点模块是由强化学习模型实现，它通过动态地控制输入谣言检测模块回复信息的数量实现早期谣言检测。模型可以通过强化学习，不断权衡检测时间和检测准确率，以达到兼顾谣言检测的“早期性”和准确性的最优的平衡点。

对比三种方法，实时谣言检测的方法虽然可以较好地实现谣言早期检测，但是较高的误检率使其难以实际应用；基于静态检查点的早谣检测方法，可以保证一定的准确性，并在一定程度上可以做到谣言的早期检测，但是其无法在谣言检测的早期性和准确性上找到最优的平衡点；基于强化学习的早期谣言检测方法可以在学习过程中，动态特平衡检测准确率和检测的时间延迟。

发明内容

本发明的目的在于提供一种基于双引擎网络和DRQN的微博早期谣言检测方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：谣言检测模块中的原始信息网络读取微博的原始博文信息，得到微博的状态向量；

步骤1.1：通过元数据特征提取器提取原始博文信息的元数据特征；对于提取到的元数据特征使用线性归一化函数进行归一化处理，将每个特征进行等比例缩放，映射到[0，1]区间；

步骤1.2：通过GRU提取原始博文信息的语义特征h_t；

x_t＝WordEmbedding(w_t)

h_t＝GRU(x_t，h_t-1)

其中，w_t为单词的数字表示；x_t为单词经过词嵌入层后的单词向量表示；t∈[1，n]；

步骤1.3：对于GRU提取到的语义特征h_t进行单词层面的自注意力机制加权处理，让更有意义的单词获得更大的权重；

X＝[h₁，h₂，...，h_n]

Q＝W_QX+b_Q

K_t＝W_Kh_t+b_K

V_t＝W_Vh_t+bV

f(Q，K_t)＝Q^TW_aK_t

a_t＝softmax(f(Q，K_t))

Attention(X)＝∑_ta_tV_t

其中，向量Q、K、V分别代表Query、Key和Value，这三个向量由向量X经过三次不同的线性变换得到；f(Q，K_t)为Q和K_t之间的相似度计算函数；

步骤2：谣言检测模块中的回复信息网络读取微博的回复信息，得到微博的状态向量；

步骤2.1：针对回复信息语序的不稳定性，采用双向GRU提取基本的语义特征；

x_t＝WordEmbedding(w_t)

其中，

表示正向GRU；

表示单词正向序列w₁～w_n经过

后的向量表示；

表示单词逆向序列w_n～w₁经过

后的向量表示；

步骤2.2：将两个方向的向量进行合并，得到句子的向量表示h_t；

步骤2.3：针对回复信息表达方式的随意性特征，采用Text-CNN提取非正常语序的语义特征；

所述的Text-CNN由卷积层和池化层组成；

所述的卷积层提取文本特征，一个卷积核提取文本特征的过程表示为：

a_i＝f(W*M_i：i+h-1+b)

A＝[a₁，a₂，...，a_n-k+1]

其中，M_i：i+h-1为词向量矩阵中第i到i+h行的词向量；a_i表示用长度为h卷积核提取的第i个文本特征；

所述的池化层采用最大池化函数，即在得到卷积层提取的特征后，从中选出一个最大的特征代表所有特征；

步骤2.2：将所有回复信息经过特征提取后进行句子层面自注意力机制的加权；

步骤3：将微博状态向量输入控制模块，获得是否要继续读取微博回复信息的指令；如果指令为读取回复信息，则将一条新的回复信息输入谣言检测模块；如果指令为不读取回复信息，则执行步骤4；

控制模块由DRQN实现，DRQN是一个典型的部分可观察马尔科夫决策过程，循环神经网络的加入使得模型拥有了状态序列的记忆功能，进而可以学习到状态序列中的潜在特征；在控制模块采用LSTM来实现状态序列的记忆功能，LSTM通过观测状态信息和上一次的判断情况，得出它认为合理的动作，具体计算过程如下列公式所示：

h_t＝LSTM(state_t，h_t-1)

F＝W_rh_t+b_f

其中，LSTM网络除了接收当前的状态信息state_t以外，还接收上一时刻的LSTM神经元信息h_t-1，输出h_t后经过全连接层得到长度为二的向量F，最后经过sofmax输出动作概率分布；LSTM的输入状态为谣言检测模块中最后用于分类的向量，输出动作有两个：

继续读取：表示当前的信息不足以得出是否为谣言的判断，让谣言检测模块再读取一条回复信息；

终止读取：表示检测流程的结束，输出检测结果，换言之即谣言检测模块已经有充足的信息做出原始推文是否为谣言的判断，提前输出结果，达到早期检测的目的；

控制模块中的奖励函数如下：

其中，当模型做出终止读取动作后，如果预测正确，直接获得值为R的奖励，避免陷入局部最优；如果预测错误时分两种情况，当实际标签为谣言时，将受到-2P的惩罚；当实际标签为非谣言时，受到-P的惩罚；当模型做出继续读取数据动作时，会受到-(log n+ε)的惩罚，n表示模型读取的回复信息数量，ε为一个较小的值，避免读取第一条回复信息时受到惩罚为0的情况；

步骤4：用Softmax函数对当前的微博状态向量进行是否为谣言的分类，输出分类结果。

本发明的有益效果在于：

本发明针对社交网络中的微博谣言早期阶段识别，通过由双引擎网络实现的谣言检测模块将微博的原始信息和回复信息针对其各自的特征分别进行处理，提高了谣言检测的准确率。本发明通过由DRQN实现的控制模块，可以自动化地控制微博回复信息的读取数量，从而达到在谣言出现早期进行检测的目的，同时可以动态地平衡谣言检测的准确性和及时性。

附图说明

图1为本发明的总体流程图。

图2为谣言检测模块的网络架构图。

图3为控制模块的网络架构图。

图4为元数据特征表。

图5为文本特征表。

图6为训练DRQN的伪代码图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明涉及的是社交网络谣言检测领域，具体涉及社交网络中对早期谣言的检测方法。

本发明的目的在于为提高微博早期谣言检测准确率和及时性，提供一种基于双引擎网络和DRQN(Deep Recurrent Q-Learning Network)的微博早期谣言检测方法。

一种基于双引擎网络和DRQN的微博早期谣言检测方法，包括以下步骤：

步骤1.2：通过GRU提取原始博文信息的语义特征h_t；

x_t＝WordEmbedding(w_t)

h_t＝GRU(x_t，h_t-1)

X＝[h₁，h₂，...，h_n]

Q＝W_QX+b_Q

K_t＝W_Kh_t+b_K

V_t＝W_Vh_t+b_V

f(Q，K_t)＝Q^TW_aK_t

a_t＝softmax(f(Q，K_t))

Attention(X)＝∑_ta_tV_t

x_t＝WordEmbedding(w_t)

其中，

表示正向GRU；

表示单词正向序列w₁～w_n经过

后的向量表示；

表示单词逆向序列w_n～w₁经过

后的向量表示；

所述的Text-CNN由卷积层和池化层组成；

a_i＝f(W*M_i：i+h-1+b)

A＝[a₁，a₂，…，a_n-k+1]

h_t＝LSTM(state_t，h_t-1)

F＝W_fh_t+b_f

控制模块中的奖励函数如下：

本发明针对社交网络中的微博谣言早期阶段识别，提供了一种基于双引擎网络和DRQN的检测方法。由双引擎网络实现的谣言检测模块，将微博的原始信息和回复信息针对其各自的特征分别进行处理，提高了谣言检测的准确率；此外，由DRQN实现的控制模块，可以自动化地控制微博回复信息的读取数量，从而达到在谣言出现早期进行检测的目的，同时可以动态地平衡谣言检测的准确性和及时性。

1、在谣言检测模块的原始信息网络中，元数据特征提取器用来提取原始推文的元数据特征，其对于谣言检测十分重要，因为元数据可以反映推文发布者的可信度和原始推文的基本情况，具体特征如图4所示。

在特征提取完毕后，使用线性归一化函数进行归一化处理(Min-Max scaling)，将每个特征进行等比例缩放，映射到[0，1]区间，归一化过程如公式(1)所示：

由于原始推文的表达方式较为谨慎，有较强的语义性，所以在句子经过词嵌入层后，用GRU提取语义特征。具体计算公式如下：

x_t＝WordEmbedding(w_t)，t∈[1，n] (2)

h_t＝GRU(x_t，h_t-1)，t∈[1，n] (3)

其中w_t为单词的数字表示，x_t为单词经过经过词嵌入层后的单词向量表示，h_t为句子最终的向量表示。

2、谣言检测模块中的回复信息网络，主要由GRU、Text-CNN、文本特征提取器构成。由于回复信息在表达上通常带有强烈的情感色彩，且较为随意，存在不稳定的语序，所以考虑用双向GRU、Text-CNN、文本特征提取器三者并行的方式提取特征，最后进行向量拼接形成最后的特征向量。

(1)用双向GRU提取基本的语义特征，由于回复信息语序的不稳定性，为了提取到更多信息，所以本模块的GRU为双向网络，具体计算过程如下列公式所示：

x_t＝WordEmbedding(w_t)，t∈[1，n] (4)

其中，

表示正向GRU，

表示单词正向序列w₁～w_n经过

后的向量表示；同理

表示单词逆向序列w_n～w₁经过

后的向量表示。之后将两个方向的向量进行合并(concatenate)，如公式(7)所示，得到对句子最终的向量表示。

(2)针对回复信息表达方式的随意性特征，采用Text-CNN提取非正常语序的语义特征。Text-CNN由卷积层和池化层组成。

卷积层是Text-CNN的核心，用来提取文本特征。提取文本特征的过程可以用如下公式表示：

a_i＝f(W*M_i：i+h-1+b) (8)

A＝[a₁，a₂，...，a_n-k+1] (9)

其中M_i：i+h-1为词向量矩阵中第i到i+h行的词向量，对M_i：i+h-1做一次线性变换后，经过激活函数f，a_i则表示用长度为h卷积核提取的第i个文本特征。最后将该卷积核提取的所有特征做拼接得到向量A。这是一个卷积核的结果，对于多个卷积核，则重复相同的步骤。

此外，本模型的池化函数采用最大池化函数，即在得到卷积层提取的特征后，从中选出一个最大的特征代表所有特征，可以用公式(10)表示。

(3)文本特征提取器可以提取比较直观的文本特征，比如统计消极词汇、是否出现感叹号、和原始推文的相似度等，如图5所示。

其中余弦相似度的计算公式如下：

在特征提取完毕后，同样使用公式(1)进行归一化处理。

3、谣言检测模块中的双自注意机制(DoubleSelf-Attention，简称DSA)，在模型中由句子层面的自注意力机制和单词层面的自注意力机制实现，从句子和单词两个维度解决数据冗余的问题。

(1)句子层面的自注意力机制是指将所有回复信息经过特征提取后进行自注意力机制的加权，使模型注意到有用的回复信息，具体计算过程如下列公式所示：

R＝[reply₁，reply₂，...，reply_n] (12)

Q＝W_QR+b_Q (13)

K＝W_KR+b_K (14)

V＝W_VR+b_V (15)

在公式(12)中，reply_n表示回复信息网络对一条回复信息的编码，向量R为回复信息编码的集合。由于自注意力机制需要三个向量Q、K、V分别代表Query、Key和Value，这三个向量由向量R经过三次不同的线性变换得到。得到向量Q、K、V之后，就可以进行注意力的计算了，具体计算过程如下列公式所示：

f(Q，K_i)＝Q^TW_aK_i (16)

Attention(Q，K，V)＝∑_i a_iV_i (18)

在公式(16)中，f(Q，K_i)为Q和K之间的相似度计算函数，本发明使用一般的线性变换。之后经过sotfmax函数得出对于每条评论需要注意的权重a_i，最后将权重与向量V的乘积作为经过注意力处理的回复信息表示。

(2)单词层面的自注意力机制是指，将原始推文通过GRU的处理结果，进行自注意力机制的加权处理，让更有意义的单词获得更大的权重。不在处理回复信息的GRU的输出上进行单词层面的自注意力机制的原因是，回复信息一般比较短，GRU结合TextCNN的处理机制可满足需求。

具体的自注意力机制的计算过程和句子层面的自注意力机制的计算过程基本基本一致，唯一的不同是输入部分。单词层面的自注意力机制的输入如公式(19)所示。

X＝[x₁，x₂，...，x_n] (19)

其中的x_i表示GRU在每个时刻的神经元状态信息，也就是GRU对x_i以及x_i之前信息的编码。之后对输入X以同样地方式变换为Q、K、V，并进行后续的自注意力机制的计算。

3、控制模块由DRQN实现，DRQN是一个典型的部分可观察马尔科夫决策过程，循环神经网络的加入使得模型拥有了状态序列的记忆功能，进而可以学习到状态序列中的潜在特征。在控制模块中本发明采用LSTM来实现状态序列的记忆功能，LSTM通过观测状态信息和上一次的判断情况，得出它认为合理的动作。

具体计算过程如下列公式所示：

h_t＝LSTM(state_t，h_t-1)，t∈[1，n] (20)

F＝W_fh_t+b_f (21)

其中，LSTM网络除了接收当前的状态信息state_t以外，还接收上一时刻的LSTM神经元信息h_t-1，输出h_t后经过全连接层得到长度为二的向量F，最后经过sofmax输出动作概率分布。

值得注意的是，LSTM的输入状态为谣言检测模块中最后用于分类的向量，输出动作有两个：

(1)继续读取：表示当前的信息不足以得出是否为谣言的判断，让谣言检测模块再读取一条回复信息；

(2)终止读取：表示检测流程的结束，输出检测结果，换言之即谣言检测模块已经有充足的信息做出原始推文是否为谣言的判断，提前输出结果，达到早期检测的目的。

4、控制模块中的奖励函数如下：

其中，当模型做出终止读取动作后，如果预测正确，直接获得值为R的奖励，避免陷入局部最优；如果预测错误时分两种情况，当实际标签为谣言时，将受到-2P的惩罚；当实际标签为非谣言时，受到-P的惩罚。采用该策略的原因包括：一方面考虑到谣言样本少的情况，另一方面考虑到在两种错误判断的情况下，谣言检测系统所造成的损失是存在差异的，具体来说，对比将原本是谣言的信息错误判断为不是谣言所产生的影响，和将非谣言识别为谣言所产生的影响，显然前者的影响会更大，因为模型对谣言的遗漏会在使谣言更大程度地进行扩散，但对于后者，虽然增加了误判的成本，但是没有遗漏谣言。所以如果将原本是谣言的信息判断为不是谣言，模型会受到双倍的惩罚。

当模型做出继续读取数据动作时，会受到-(log n+ε)的惩罚，n表示模型读取的回复信息数量，ε为一个较小的值，避免读取第一条回复信息时受到惩罚为0的情况。这样考虑的原因是让模型感知到时间的早晚，读取的回复信息越多，做出继续读取动作受到的惩罚会越大。

5、在构建模型过程中，采用预训练谣言检测模块(以下简称RDM)和时间差分法训练控制模块(以下简称CM)的方式。

(1)预训练RDM

在训练CM之前必须得有一个可靠的RDM作为基础，这个预训练的RDM在训练过程中读取了所有的回复信息，这也意味着之后加入CM后最终得到的早期谣言检测，其性能不会高于预训练的RDM的性能，因为在早期谣言检测过程中获取到的信息不会多于所有信息，因此加入CM的意义就是如何让RDM用最少的信息得到最佳的性能，而最佳的性能就是预训练RDM的性能。

(2)训练DRQN

如果直接训练DRQN会使模型的参数缺乏稳定性，导致模型难以收敛。所以为了加快收敛，本文采用双网络结构和经验回放机制训练DRQN。

双网络是两个结构相同的DRQN网络，其被称为：当前网络(参数为θ)和目标网络(参数为θ′)。经验池存储了M个关于环境的四元组记录(s_t，a_i，r_t，s_t+1)，每次训练从经验池中随机地取出一批样本进行训练。训练过程为先训练当前网络，当达到一定批次后用当前网络的参数更新目标网络。

由于谣言检测问题较为特殊，传统的强化学习是针对于一个环境，例如一个游戏场景，但是在谣言检测问题中，每个谣言数据其实都是一个环境，所以在构造经验库过程中需要考虑到多环境的因素，具体训练步骤如图6所示。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双引擎网络和DRQN的微博早期谣言检测方法，其特征在于，包括以下步骤：

步骤1.2：通过GRU提取原始博文信息的语义特征h_t；

x_t＝WordEmbedding(w_t)

h_t＝GRU(x_t，h_t-1)

X＝[h₁，h₂，...，h_n]

Q＝W_QX+b_Q

K_t＝W_Kh_t+b_K

V_t＝W_Vh_t+b_V

f(Q，K_t)＝Q^TW_aK_t

a_t＝softmax(f(Q，K_t))

Attention(X)＝∑_ta_tV_t

x_t＝WordEmbedding(w_t)

其中，

表示正向GRU；

表示单词正向序列w₁～w_n经过

后的向量表示；

表示单词逆向序列w_n～w₁经过

后的向量表示；

所述的Text-CNN由卷积层和池化层组成；

a_i＝f(W*M_i：i+h-1+b)

A＝[a₁，a₂，…，a_n-k+1]

h_t＝LSTM(state_t，h_t-1)

F＝W_fh_t+b_f

控制模块中的奖励函数如下：

其中，当模型做出终止读取动作后，如果预测正确，直接获得值为R的奖励，避免陷入局部最优；如果预测错误时分两种情况，当实际标签为谣言时，将受到-2P的惩罚；当实际标签为非谣言时，受到-P的惩罚；当模型做出继续读取数据动作时，会受到-(logn+ε)的惩罚，n表示模型读取的回复信息数量，ε为一个较小的值，避免读取第一条回复信息时受到惩罚为0的情况；