CN112215001A

CN112215001A - 一种谣言识别方法及系统

Info

Publication number: CN112215001A
Application number: CN202011178943.5A
Authority: CN
Inventors: 康海燕; 蒋鸿玲; 方铭浩
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-12

Abstract

本发明涉及一种谣言识别方法及系统，方法包括：获取词向量训练数据；所述词向量训练数据包括谣言数据和正常数据；对所述词向量训练数据进行分割，得到训练集和验证集；对所述词向量训练数据进行训练，得到词向量模型；采用所述词向量模型和所述训练集对Attention Bi‑LSTM模型进行训练；采用训练好的Attention Bi‑LSTM模型对未知语料进行谣言识别。本发明中的上述方案能够拥有长期记忆，快速识别出改头换面，进行二次传播的谣言。

Description

一种谣言识别方法及系统

技术领域

本发明涉及谣言识别领域，特别是涉及一种谣言识别方法及系统。

背景技术

微博、微信等社交媒体上广泛传播着食品、药品、健康等方面的谣言，屡禁不止。

新浪微博的谣言识别机制采用用户举报和人工审核的方法，24小时不间断监控，建立用户举报参与体制。

微信推出小程序-辟谣助手，联合多家权威机构组建微信辟谣中心，对自媒体和个人发布的文章进行筛选审查，确定为谣言后收集、整理到谣言样本库，标记为谣言文章再提醒其他用户。用户可以在这个小程序里搜索关键字来查看文章是否为谣言。并且已确定为谣言的文章在被用户阅读到的时候，辟谣助手会发出提醒。

其他机构辟谣机制也大同小异，均采取人工监督、审核机制。例如人民日报等新闻媒体，均创建辟谣专栏，定期科普流传最火的谣言新闻。

用户阅读文章后，发现是谣言并举报，由平台进行人工审核，确定是谣言并做标记。但如果谣言发布者改头换面再次发布，则会产生二次传播的新谣言。

上述谣言的识别方法效率十分低下，只有被核实的文章才会进入谣言样本库，用户才能在阅读时被提醒，而如果谣言改头换面，打乱语言重新包装，则生成了一篇新的文章，只有再经过用户举报-核实-收集-提醒整个流程才能杀死这篇新谣言，进入一个恶性循环，不能有效遏制谣言的传播。并且现有方法人工成本高昂，消耗大量的人力物力资源。

因此，对于谣言的识别，并且如何高效准确解决社交媒体中谣言二次传播的问题显得尤为重要。

基于此，本发明提出谣言自动化识别方法。利用深度学习算法，设计并训练谣言识别模型，从而实现自动化谣言识别，能够降低成本，提高效率。尤为重要的是，针对谣言二次传播问题，本发明采用的方法能够拥有长期记忆，快速识别出改头换面，进行二次传播的谣言。

发明内容

本发明的目的是提供一种谣言识别方法及系统，能够拥有长期记忆，快速识别出改头换面，进行二次传播的谣言。

为实现上述目的，本发明提供了如下方案：

一种谣言识别方法，所述识别方法包括：

获取词向量训练数据；所述词向量训练数据包括谣言数据和正常数据；

对所述词向量训练数据进行分割，得到训练集和验证集；

对所述词向量训练数据进行训练，得到词向量模型；

采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练；

采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。

可选的，所述获取词向量训练数据具体包括：

利用爬虫爬取新闻媒体、社交网站的谣言数据；

利用爬虫爬取新闻媒体、社交网站的所有类别新闻数据作为正常数据；

将所述谣言数据和所述正常数据进行分词处理；

将分词后的谣言数据和分词后的正常数据作为词向量训练数据。

可选的，对所述词向量训练数据进行训练，得到词向量模型具体包括：

采用word2vec对所述词向量训练数据进行训练，得到词向量模型。

可选的，所述训练好的Attention Bi-LSTM模型包括：输入层、词向量层、双向LSTM层、Attention层和输出层。

可选的，所述输入层用于将训练集中每个句子定义为T个单词组成的句子S＝{x₁,x₂,…,x_T}，每个词定义为inputX_i，标签定义为inputY。

可选的，所述词向量层用于将每个词inputX_i映射为一个固定长度的词向量e_i，并基于词向量e_i构建词向量矩阵W；W＝{e₁,e₂,…,e_T}。

可选的，所述双向LSTM层用于对词向量矩阵W进行计算，得到句子向量，计算过程如下：

计算输入门：

i_t＝σ(W_i[h_t-1,X_t]+b_i)

其中，X_t表示当前输入，h_t-1为前一时刻cell的隐状态，W_i为输入层权重，b_i为输入层偏置，σ为激活函数；

计算遗忘门：

f_t＝σ(W_f[h_t-1,X_t]+b_f)，其中，W_f表示遗忘门的权重，b_f表示遗忘门的偏移向量，h_t-1表示前一时刻cell的隐层状态，X_t表示当前输入，f_t表示遗忘门的值，σ表示激活函数；

计算当前时刻神经元的长短记忆状态：

其中，f_t表示遗忘门的值，C_t-1表示上一时刻cell的状态，i_t表示输入门的值，

其中，W_c表示单元状态的权重，b_c表示单元状态的偏移量，tanh表示双曲函数；

计算输出门：

O_t＝σ(W₀[h_t-1,X_t]+b₀)，其中，W_o表示输出门的权重，b_o表示输出门的偏移量，o_t表示输出门的值，h_t-1表示前一时刻cell的隐层状态，σ表示激活函数；

计算输出门的当前隐藏状态：

h_t＝o_t×tanh(C_t)，其中，o_t表示输出门的值，C_t表示当前时刻细胞的状态。

可选的，所述Attention层用于将LSTM层输出的权重组合成矩阵H:[h₁,h₂,…,h_t]，具体包括：

将所述句子向量映射到-1到1范围内，M＝tanh(H)，其中，H为LSTM层的输出，M是将H映射到[-1,1]区间的结果；

乘以原权重矩阵，α＝softmax(W^TM)；

把权重输出通过tanh映射，输出三维矩阵包含词向量权重和时序权重h^*类别数，r＝Hα^T。

可选的，所述输出层用于通过全连接把高维变到低维，同时把原始特征映射到各个隐语义节点，得到预测标签y，具体采用以下公式：

其中，P是求句子S的是标签y的似然函数，

是求最大标签y的最大似然函数，公式如下：

正样本的损失函数为：

本发明另外提供一种谣言识别系统，所述系统包括：

词向量训练数据获取模块，用于获取词向量训练数据；所述词向量训练数据包括谣言数据和正常数据；

训练数据分割模块，用于对所述词向量训练数据进行分割，得到训练集和验证集；

第一训练模块，用于对所述词向量训练数据进行训练，得到词向量模型；

第二训练模块，用于采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练；

谣言识别模块，用于采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

首先，能够快速、准确地实现自动识别，本发明采用LSTM模型和Word Embedding(词向量)机制，能有效针对文本分类中数据表示的高维度难以训练和向量表示特征无关的问题，将文本数据映射到一个低维度的实数向量，避免了高维度的输入导致LSTM模型产生维度灾难的问题。同时词向量机制训练出的词向量具有同义词向量相似的特征，作为LSTM模型的输入，提高了分类器的性能，减少了特征向量提取过程中的信息丢失和信息冗余。因此，本发明基于Attention机制的Bi-LSTM神经网络模型进行关系抽取能够快速、准确提取出海量非结构化信息中的结构化知识，自动发现对于分类起到关键作用的词，使得该模型可以从每个句子中捕获最重要的语义信息。其次，能够针对谣言二次传播的有效识别，本发明能及时发现改头换面、重新发布的谣言，对其快速的识别，减少臃肿的识别步骤，提高效率，避免陷入一个缓慢的重新辟谣循环里。本发明采用的神经网络模型进行关系抽取研究，可以学习长期依赖信息。它有一种重复神经网络模块的链式的形式，存在细胞门和遗忘门，来解决循环神经网络中的梯度消失问题，从而保留重要的信息遗弃不重要的信息。Attention机制能够发现那些对于分类起到关键作用的词，使这个模型可以从每个句子中捕获最重要的语义信息，并形成长期的记忆，快速识二次出现的关键信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种谣言识别方法流程图；

图2为本发明实施例一种谣言识别方法架构图；

图3为本发明实施例Attention Bi-LSTM模型结构示意图；

图4为本发明实施例一种谣言识别系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例一种谣言识别方法流程图，图2为本发明实施例一种谣言识别方法架构图，结合图1和图2，本发明中的方法包括：

步骤101：获取词向量训练数据；所述词向量训练数据包括谣言数据和正常数据。

具体的，步骤101包括：

①谣言数据收集：利用爬虫爬取流言百科、微博辟谣中心等新闻媒体、社交网站的谣言数据。

②正常数据收集：利用爬虫爬取搜狐新闻的所有类别新闻数据。

③将收集的所有谣言数据与正常数据无标记存储为wordEmbding.txt，称为“词向量训练数据”，再利用jieba分词将收集的数据进行分词处理，去除无用的停用词，标点符号等，得到谣言词汇数据和正常词汇数据。

④将收集的所有谣言数据与正常数据有标记存储为indexData.csv，其中谣言数据标记为y＝0，正常数据标记为y＝1，记为“索引数据”indexData。

步骤102：对所述词向量训练数据进行分割，得到训练集和验证集。

步骤103：对所述词向量训练数据进行训练，得到词向量模型。

具体的，步骤102和步骤103中，本发明中采用word2vec方法来训练词向量模型。之所以要训练词向量，是因为在处理特定领域的数据时，很多领域的词在其他公共语料里面是没有的，这就要求训练此领域的特有词向量模型，来处理特定领域的数据，确保一些特殊但是关键的词能建立索引表，使得模型更加准确。

本发明中，将词向量训练数据“wordEmbdiing.txt”做为输入，使用Gensim模块(采用Gensim模块中的word2vecAPI来训练词向量模型，Gensim模块是开源的，也是最常用的词向量训练工具)对“词向量训练数据”wordEmbding.txt进行训练，并最终得到词向量模型，保存到“word2Vec.bin”文件中。经过多次测试，在特定语料环境里，训练过程中设置相关参数为：

size：200(词向量维度即词语的特征，反应词语词之间的关系)；

window：5(词向量上下文最大距离)；

iter：8(随机梯度下降法中迭代最大次数)；

min_count：1(计算除词向量的最小词频并去除)。

最终训练出词向量模型作为输出，保存在“word2Vec.bin”文件中，用于训练Attention Bi-LSTM算法模型。

从indexData.csv文件中读取数据集，将句子分割成词表示，并去除低频词和停用词，通过特征提取将标签转换成索引表示，保存为label2idx.json。将数据集中的单词从word2vec中取出预训练好的词向量并将词映射成索引表示，保存成word2idx.json的数据格式。设置训练集的比例rate为0.9，即训练数据与验证数据的比例为9:1。将映射为索引后的正常和谣言数据(word2idx.json)及其标签数据(label2idx.json)按照rate设置的比例，自动分割生成训练集和验证集。

步骤104：采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练。

该步骤采用Attention Bi-LSTM模型，与传统RNN模型相比，采取的双层LSTM能解决RNN中的梯度消失问题。因为LSTM具有门机制，能够控制每一个LSTM单元保留的历史信息的程度以及记忆当前输入的信息，保留重要特征，丢弃不重要的特征。通过引入第二层来扩展单向LSTM网络，其中隐藏到隐藏的连接以相反的时间顺序流动。因此，该模型能够利用过去和未来的信息。本发明同时引入了Attention机制，解决传统中文文本分类对于长序列编码解码精度下降的问题，计算每个时序的权重，作为特征向量提高模型精确度。

本发明中，Attention Bi-LSTM模型包括五层结构，分别是输入层input layer、词向量层Embedding layer、双向LSTM层、Attention层和输出层output layer，如图3所示。

本发明中Attention Bi-LSTM模型的相关参数如下：

hiddenSizes＝[256,128](LSTM结构的神经元个为128,用于记忆和储存过去状态的节点个数256)；

dropoutKeepProb＝0.5(每个元素被保留的概率)；

l2RegLambda＝0.0(正则化强度)；

num_classes(样本的类别数)。

(1)输入层中，以句子为单位，将训练集中每个句子定义为T个单词组成的句子S＝{x₁,x₂,…,x_T},每个词输入定义为：inputX_i，标签输入定义为：inputY。

(2)词向量层中，将句子中的每个词inputX_i映射为一个固定长度的词向量e_i。e_i是句子S中每个词inputX_i被转换成实值向量，即从训练好的词向量模型“word2Vec.bin”中，找到该词inputX_i对应的词向量表示e_i。句子中的多个e_i构成一个词向量矩阵W，作为双向LSTM层的输入。W＝{e₁,e₂,…,e_T}。

(3)双向LSTM层中，对词向量矩阵W进行计算，得到更高级别的句子向量。双向LSTM层包含前向和后向LSTM两层，每层结构一样。其中每个cell(神经元)包含输入门i_t、遗忘门f_t、长短记忆状态

和输出门O_t四部分。t时刻cell的输入包含：由当前输入x_t；前一时刻cell的隐状态h_t-1；前一时刻cell的状态c_t-1。输出数据的维度是二维的：权重h和分类的类别数。将W中的每个词向量作为LSTM中每个cell的输入，W是句子对应的词嵌入矩阵，b为偏置，σ是softmax激活函数，tanh是激活函数。一次性将batch_size＝128个数据输入到LSTM中进行训练，完成一次正反向传播和参数更新过程，计算过程如下：

计算输入门：

i_t＝σ(W_i[h_t-1,x_t]+b_i)

计算遗忘门：(控制对于之前输入记忆C_t-1的遗忘程度)

计算当前时刻神经元的长短记忆状态：

计算输出门：

计算输出门的当前隐藏状态：

4)Attention层中，对双向LSTM的结果使用Attention加权。将LSTM层输出的权重组合成矩阵H:[h₁,h₂,…,h_t]，注意力就是反映每一个单词的时序权重对关系分类重要程度，因此学习一个时序权重向量来得到最好的输出。

先把向量映射到-1到1的范围之内，公式为：

M＝tanh(H)，其中，H为LSTM层的输出，M是将H映射到[-1,1]区间的结果；

再乘以原权重矩阵增加特征的的影响，公式为：

α＝softmax(W^TM)

最后把权重输出通过tanh映射，输出三维矩阵包含词向量权重和时序权重h^*、类别数，公式为：

r＝Hα^T

(5)输出层中，通过全连接把高维变到低维，同时把原始特征映射到各个隐语义节点(hidden node)，得到预测标签y。将上一层得到的隐状态作为输入，P是求句子S的是标签y的似然函数，公式如下：

是求最大标签y的最大似然函数，公式如下：

样本的交叉熵损失函数：

其中向量θ是设置的模型参数，维度为m，t_i是实际类别的one-hot表示，y_i是softmax估计出的每个类别的概率，m为类别数2，λ是L2正则化的参数。为减轻过拟合，增加了惩罚函数||θ||₂，即正则项，本发明中使用L2正则化，即求取向量θ中各元素平方和的开平方，即

在训练训练过程中，采用样本的交叉熵损失函数对网络进行训练，设置损失函数阈值以及最大训练次数，当损失函数小于阈值或者达到最大训练次数时，训练结束，保存最终的模型参数，供谣言识别时使用。

本发明的相关参数最优取值如下：

LSTM结构的神经元个数：128；

学习率：0.001；

一次训练所选取的样本数Batch Size：128。

步骤105：采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。

通过调用上一步骤训练并保存好的Attention Bi-LSTM模型对未知语料进行识别，从而识别谣言。此步骤用softmax分类器来预测一个句子S的标签y，分类器将隐藏状态h*作为输入，计算公式如下：

图4为本发明实施例一种谣言识别系统结构示意图，如图4所示，所述系统包括：

词向量训练数据获取模块201，用于获取词向量训练数据；所述词向量训练数据包括谣言数据和正常数据；

训练数据分割模块202，用于对所述词向量训练数据进行分割，得到训练集和验证集；

第一训练模块203，用于对所述词向量训练数据进行训练，得到词向量模型；

第二训练模块204，用于采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练；

谣言识别模块205，用于采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种谣言识别方法，其特征在于，所述识别方法包括：

对所述词向量训练数据进行分割，得到训练集和验证集；

对所述词向量训练数据进行训练，得到词向量模型；

采用所述词向量模型和所述训练集对AttentionBi-LSTM模型进行训练；

采用训练好的AttentionBi-LSTM模型对未知语料进行谣言识别。

2.根据权利要求1所述的谣言识别方法，其特征在于，所述获取词向量训练数据具体包括：

利用爬虫爬取新闻媒体、社交网站的谣言数据；

将所述谣言数据和所述正常数据进行分词处理；

3.根据权利要求1所述的谣言识别方法，其特征在于，对所述词向量训练数据进行训练，得到词向量模型具体包括：

4.根据权利要求1所述的谣言识别方法，其特征在于，所述训练好的AttentionBi-LSTM模型包括：输入层、词向量层、双向LSTM层、Attention层和输出层。

5.根据权利要求4所述的谣言识别方法，其特征在于，所述输入层用于将训练集中每个句子定义为T个单词组成的句子S＝{x₁,x₂,…,x_T}，每个词定义为inputX_i，标签定义为inputY。

6.根据权利要求5所述的谣言识别方法，其特征在于，所述词向量层用于将每个词inputX_i映射为一个固定长度的词向量e_i，并基于词向量e_i构建词向量矩阵W；W＝{e₁,e₂,…,e_T}。

7.根据权利要求6所述的谣言识别方法，其特征在于，所述双向LSTM层用于对词向量矩阵W进行计算，得到句子向量，计算过程如下：

计算输入门：

i_t＝σ(W_i[h_t-1,X_t]+b_i)

计算遗忘门：

计算当前时刻神经元的长短记忆状态：

计算输出门：

计算输出门的当前隐藏状态：

8.根据权利要求7所述的谣言识别方法，其特征在于，所述Attention层用于将LSTM层输出的权重组合成矩阵H:[h₁,h₂,…,h_t]，具体包括：

将所述句子向量映射到-1到1范围内，M＝tanh(H)；其中，H为LSTM层的输出，M是将H映射到[-1,1]区间的结果；

乘以原权重矩阵，a＝softmax(W^TM)；

把权重输出通过tanh映射，输出三维矩阵包含词向量权重和时序权重h^*类别数，r＝Ha^T。

9.根据权利要求4所述的谣言识别方法，其特征在于，所述输出层用于通过全连接把高维变到低维，同时把原始特征映射到各个隐语义节点，得到预测标签y，具体采用以下公式：

其中，P是求句子S的是标签y的似然函数，

是求最大标签y的最大似然函数，公式如下：

正样本的损失函数为：

10.一种谣言识别系统，其特征在于，所述系统包括：