CN114462420A

CN114462420A - 一种基于特征融合模型的虚假新闻检测方法

Info

Publication number: CN114462420A
Application number: CN202210105328.4A
Authority: CN
Inventors: 周晓峰; 张雨臣
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-10

Abstract

本发明公开了一种基于特征融合模型的虚假新闻检测方法，包括以下步骤：步骤1：获取待检测的新闻数据；步骤2：将获取到的新闻数据进行预处理，得到文本向量；步骤3：将文本向量输入至局部语义子网络模型中，得到新闻文本局部语义特征；步骤4：将文本向量输入至上下文语义子网络模型中，得到新闻文本上下文语义特征；步骤5：采用TF‑IDF算法提取新闻标题的关键词，获取新闻标题的关键词特征；步骤6：将新闻文本局部语义特征、新闻文本上下文语义特征以及新闻标题的关键词特征进行融合，得到待检测的新闻数据的融合文本表示；步骤7：将融合文本表示输入至分类器中对待检测的新闻数据进行分类，得到检测结果。

Description

一种基于特征融合模型的虚假新闻检测方法

技术领域

本发明属于数据检测领域，具体涉及一种基于特征融合模型的虚假新闻检测方法。

背景技术

在社交媒体广泛应用、自媒体新闻日益增多的背景下，做到及时有效地谣言自动检测具有非常重要的应用价值和研究意义。现有的虚假新闻检测方法主要分为两大类：基于机器学习的虚假新闻检测方法和基于深度学习的虚假新闻检测方法。

基于机器学习的虚假新闻检测方法侧重于手工特征的提取，主要有三个方面的特征：内容特征、用户特征、传播特征。内容特征主要包括文本长度、情感倾向、主题、Url、tag等，用户特征主要包括粉丝数、关注数、是否认证、性别等，传播特征主要包括转发、评论结构、消息传播网络等。但机器学习方法的特征提取过程存在数据稀疏性和维数爆炸等问题，降低了模型的泛化能力。

基于深度学习的虚假新闻检测方法能自动的学习虚假新闻数据的特征表示，比如虚假新闻文本中特定的语义风格特征，之后将学习到的特征表示输入神经网络分类器中对新闻的可信度做判断。但是现有的方法还是存在很多的不足，例如：CNN可以提取文本的局部特征而忽略了文本上下文之间的联系，RNN可以提取文本的上下文语义特征而对于提取文本局部特征不足。

因此如何高效、准确地检测出虚假新闻具有十分重要的现实意义及价值。

发明内容

发明目的：为解决现有虚假新闻检测方法中存在的不足，本发明提出了一种基于特征融合模型的虚假新闻检测方法。

为实现上述目的，本发明通过以下技术方案来实现：一种基于特征融合模型的虚假新闻检测方法，包括以下步骤：

步骤1：获取待检测的新闻数据，所述新闻数据包括新闻文本以及新闻标题；

步骤2：将获取到的新闻数据进行预处理，依次包括分词操作、去停用词操作和文本向量化表示，最终得到文本向量；其中，对中文新闻文本数据进行分词以及去停用词操作，产生合适大小的词库；以及通过文本向量化表示，实现将文本的高维稀疏表示转变成低纬稠密的文本表示形式；

步骤3：将步骤2得到的文本向量输入至局部语义子网络模型中，得到新闻文本局部语义特征；

步骤4：将步骤2得到的文本向量输入至上下文语义子网络模型中，得到新闻文本上下文语义特征；

步骤5：采用TF-IDF算法提取新闻标题的关键词，获取新闻标题的关键词特征，实现对短文本语义增强；

步骤6：将新闻文本局部语义特征、新闻文本上下文语义特征以及新闻标题的关键词特征进行融合，得到待检测的新闻数据的融合文本表示；

步骤7：将融合文本表示输入至分类器中对待检测的新闻数据进行分类，得到检测结果。

针对短文本字数较少、篇幅较短导致存在语义缺失的问题，采用步骤3至步骤5的特征提取步骤，完成对新闻文本以及新闻标题中特征的提取，实现对短文本语义增强。

进一步的，步骤2中，采用结巴分词工具以及停用词表分别完成对待检测的新闻数据的分词操作和去停用词操作。

进一步的，步骤2中，采用word2vec模型对经分词操作和去停用词操作后的文本进行文本向量化表示。

进一步的，所述局部语义子网络模型为CNN模型。

进一步的，所述CNN模型包括卷积层和池化层；在卷积层中，使用卷积核对文本向量进行卷积操作；将卷积操作结果输入至池化层，提取所有局部特征的平均值代替所有的局部特征，得到新闻文本局部语义特征。

进一步的，卷积层使用大小为r×d的滤波器对句子矩阵进行卷积操作来完成特征的提取工作，表示为：

c_i＝f(W×x_i:i+r-1+b) (1)

其中，W为卷积核，r表示卷积核的大小，d表示词嵌入的维度，b表示偏置量，x_i:i+r-1表示从i到i+r-1个词组成的句子向量，f表示通过ReLU进行非线性操作的函数；

经过卷积操作之后最终得到一个n-r+1维的局部特征矩阵C：

C＝{c₁,c₂,...c_n-r+1} (2)

进一步的，所述上下文语义子网络模型为引入注意力机制的双向长短时记忆神经网络。进一步的，所述引入注意力机制的双向长短时记忆神经网络包括BiLSTM模型和Attention层；

t时刻，BiLSTM的隐藏状态包括前向的

和后向的

分别表示为：

前向的

和后向的

合并，实现文本数据的前向特征和后向特征的提取，表示为：

在Attention层中执行以下步骤：

记BiLSTM提取的特征向量集合H，表示为[h₁,h₂,...h_T]，其中H∈R^d×T，d为词向量的维度，T为文本的长度；通过以下公式得到权重矩阵：

M＝tanh(H) (12)

α＝softmax(w^TM) (13)

r＝Hα^T (14)

其中，w是维度为d的训练的参数向量，w^T为训练学习得到的参数向量的转置矩阵，之后进行向量的加权得到新闻文本上下文语义特征表示h^*：

h*＝tanh(r) (15)

进一步的，步骤5中，所述TF-IDF算法表示为：

TF-IDF＝TF·IDF (18)

其中：

式中，n_i,j表示关键词t_i在新闻标题d_j中出现的次数，TF_i,j表示关键词t_i在新闻标题d_j中出现的频率；|D|表示所有新闻标题的数量，|j:t_i∈d_j|表示包含关键词t_i的标题数量。

有益效果：与现有的技术相比，本发明具有以下特点：

(1)本发明方法使用TF-IDF算法提取新闻标题的关键词来解决新闻短文本语义缺失的问题，使用外部的新闻标题数据完成短文本的语义增强，可以被广泛的使用；

(2)本发明方法使用CNN和引入注意力机制的BiLSTM组合模型，更加全面地深层次地提取了文本的语义特征，同时，通过特征融合可以更加准确地完成虚假新闻地检测。

附图说明

图1为本发明的虚假新闻检测流程图；

图2为本发明的特征融合模型结构图。

具体实施方式

现结合附图和实施例进一步阐述本发明的技术方案。

参见图1，本发明的一种基于特征融合模型的虚假新闻检测方法，分成了四个部分，第一个部分是对新闻数据进行预处理，第二部分是完成新闻文本向量化表示，第三部分是分别从新闻文本和新闻标题中提取特征，第四部分是将得到的特征进行融合完成虚假新闻检测。具体包括以下步骤：

步骤1：完成新闻文本数据的预处理以及使用词嵌入完成文本表示。

使用Jieba对文本数据进行中文分词和去停用词预处理，之后需要实现文本的数值化，将不可计算的非结构化字符转为可计算的结构化数值。传统的将文本转为独热编码的方式得到的向量矩阵维度高分布稀疏，且只是将文本数值化而不包含任何的语义信息。词嵌入模型实现将文本的高维稀疏表示转变成低纬稠密的文本表示形式。

Word2vec框架是Word Embedding技术的实现工具，主要利用深度学习的方法将词条映射到低维实数向量空间，并以向量空间上的相似度来表示文本语义上的相似性。Word2vec框架主要包含两种不同的实现模型：连续词袋模型(Continuous Bag-of-WordsModel，CBOW)和跳词模型(Continuous Skip-gram Model，Skip-gram)。

步骤2：利用卷积神经网络CNN来提取文本的局部特征，设置多个一维卷积核，每个卷积核与词向量的维度d相同，所以对于输入到CNN模型中词向量，卷积核对完整的词向量从上往下进行依次滑动卷积来实现局部特征的抽取工作，卷积核大小可以设为2，3，4，5等多种大小，也可以使用不同个数不同大小的卷积核对词向量进行卷积操作。

进行卷积操作之后向量输入到池化层，在该部分设置池化层的目的是在保留显著特征的同时降低输出向量的维度得到一个固定大小的特征向量矩阵，等待后续的特征融合。池化层有两种方法，分别为Avg Pooling和MaxPooling，其中Max Pooling是提取所有特征向量中的最大值，当特征向量中包含多个有用信息特征时，采用最大池化会丢失很多重要的语义特性信息。而Avg Pooling是对所有的信息向量求平均，在卷积得到的语义特征中包含的有效信息比重较大时，使用平均池化会得到更多有效的信息特征。因此在局部特征提取部分的池化层采用Avg Pooling。

局部特征提取部分将嵌入层的输出作为模型的输入，卷积层使用大小为r×d的滤波器对句子矩阵进行卷积操作来完成特征的提取工作。

c_i＝f(W×x_i:i+r-1+b) (1)

其中，w为卷积核，r表示卷积核的大小，b表示偏置量，x_i:i+r-1表示从i到i+r-1个词组成的句子向量，f表示通过ReLU进行非线性操作的函数。修正线性单元(RectifiedLinear Unit，ReLU)又称线性整流函数，通常作为深度神经网络中的神经元激活函数。ReLU增加了神经网络各层之间的非线性关系，不使用的话神经网络层与层之间只是简单的线性关系。使用ReLU可以有效去除冗余、克服梯度消失、加快收敛速度。经过卷积操作之后最终得到一个n-r+1维的局部特征矩阵C：

C＝{c₁,c₂,...c_n-r+1} (2)

步骤3：利用引入了注意力机制的BiLSTM完成新闻文本中上下文语义特征的提取。

LSTM之所以能够实现文本上下文语义特征的提取,是因为LSTM模型中的记忆细胞能够记住长期的历史信息并利用门机制进行管理从而实现信息的记忆和遗忘，所以使用LSTM模型可以更好地捕捉长距离的依赖关系。LSTM中使用遗忘门以一定的概率控制是否遗忘上一层的隐藏细胞状态，并根据上个时刻的隐藏状态h_t-1和当前输入x_t，通过sigmoid激活函数计算得到遗忘门f_t，其公式如下：

f_t＝σ(W_fh_t-1+U_fx_t+b_f) (3)

输入门负责处理当前序列位置的输入，得到记忆门i_t和临时状态

i_t＝σ(W_ih_t-1+U_ix_t+b_i) (4)

更新细胞状态得到当前记忆状态C_t：

计算输出门o_t确定输出，并计算当前时刻的隐藏状态h_t：

o_t＝σ(W_oh_t-1+U_ox_t+b_o) (7)

h_t＝o_t*tanh(C_t) (8)

其中，W_f,U_f,W_i,U_i,W_c,U_c,W_o,U_o均为权值矩阵；b_f,b_i,b_c,b_o均为偏置向量；tanh为激活函数；σ为sigmoid激活函数。

双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)是由前向的LSTM和后向的LSTM结合而成。虽然LSTM能够解决循环神经网络无法解决长依赖而引发的梯度爆炸或梯度消失问题，但是利用LSTM对文本进行建模还存在一个问题：无法编码从后到前的信息，即LSTM不能利用当前词语之后的信息。词语的语义不仅仅与之前的历史信息有关，还和之后的信息存在着不可分割的关系。因此在进行上下文语义建模中需要更细粒度的分类时，使用BiLSTM可以更好地捕捉双向的语义依赖。

基于上述考虑，本发明采用BiLSTM提取文本的上下文语义特征。一组词向量分别作为正向和反向LSTM网络的输入，前向LSTM可以获取输入序列的上文信息，后向LSTM可以获取输入序列的下文信息，两个LSTM的输出进行合并，实现文本数据的前向特征和后向特征的提取。得到的语义特征为正向和反向LSTM的结合，相较于单向的LSTM，BiLSTM提取的语义特征更为全面和健壮。而在t时刻的BiLSTM的隐藏状态h_t包含前向的

和后向的

对于通过BiLSTM提取的文本的语义特征每个时间点的输出信息之间的影响程度都是一样的，本发明希望能够通过引入注意力机制实现重点文本特征的加权，突出部分对最后的分类结果产生影响的特征向量。

BiLSTM模型是由以LSTM为基础的由两个相反方向的LSTM组合而成，通过模型结构中包含的两个隐藏层实现双向传播，获得输入特征的两个特征信息，这样文本建模时就可以编码从前往后以及从后往前的语义信息。

对于BiLSTM提取的文本语义特征，它们对于最后的分类结果的“贡献”是不相等的，为了提炼出一些“贡献”较大的特征，本发明在BiLSTM的基础上添加一个Attention层，希望能通过引入Attention机制来进行重点语义特征的提炼。一方面起到减少特征降低模型训练难度的作用，另一方面能够通过赋予权重的操作得到影响最后分类结果的重点特征。对于BiLSTM提取的特征向量集合H，可用[h₁,h₂,...h_T]表示。其中H∈R^d×T，d为词向量的维度，T为文本的长度。可以通过以下公式得到权重矩阵：

M＝tanh(H) (12)

α＝softmax(w^TM) (13)

r＝Hα^T (14)

其中，w是维度为d的训练的参数向量，w^T为训练学习得到的参数向量的转置矩阵，之后进行向量的加权得到文本最终的表示h^*。

h*＝tanh(r) (15)

步骤4：使用TF-IDF算法提取标题的关键词特征。

通过TF-IDF方法抽取出每个新闻标题所包含的关键词，建立起新闻标题和其关键词之间的一种映射关系。具体公式为：

TF-IDF＝TF·IDF (18)

其中，n_i,j表示关键词t_i在标题d_j中出现的次数，TF_i,j就是表示关键词t_i在标题d_j中出现的频率。|D|表示所有新闻标题的数量，|j:t_i∈d_j|表示包含关键词t_i的标题数量。

步骤5：将提取到的特征进行融合，将结果输送到分类器中完成虚假新闻自动检测。

参见图2，特征提取工作分三步进行，由卷积神经网络完成局部语义特征的提取；由添加Attention层的双向长短时记忆网络进行文本上下文语义特征的提取；由TF-IDF完成对新闻标题关键词特征的提取。将特征提取工作的结果融合得到新闻全新的表示，最后输入到全连接的分类器中获得分类结果。

模型的最后是全连接层和输出层，全连接层在整个模型结构中相当于一个分类器完成分类工作，把前面一些操作层中学习到的特征表示映射到样本标记空间，全连接层的作用就相当于特征加权并送入相应的分类器中得到最后的分类结果。使用ReLU作为全连接层的激活函数。

神经网络模型的输出层常用sigmoid和softmax作为激活函数，前者更适用于二分类问题，后者适用于多分类问题。本发明解决的虚假新闻检测问题属于二分类问题，故使用sigmoid作为输出层的激活函数。

Claims

1.一种基于特征融合模型的虚假新闻检测方法，其特征在于：包括以下步骤：

步骤2：将获取到的新闻数据进行预处理，依次包括分词操作、去停用词操作和文本向量化表示，最终得到文本向量；

步骤5：采用TF-IDF算法提取新闻标题的关键词，获取新闻标题的关键词特征；

2.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法，其特征在于：步骤2中，采用结巴分词工具以及停用词表分别完成对待检测的新闻数据的分词操作和去停用词操作。

3.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法，其特征在于：步骤2中，采用word2vec模型对经分词操作和去停用词操作后的文本进行文本向量化表示。

4.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法，其特征在于：所述局部语义子网络模型为CNN模型。

5.根据权利要求4所述的一种基于特征融合模型的虚假新闻检测方法，其特征在于：所述CNN模型包括卷积层和池化层；在卷积层中，使用卷积核对文本向量进行卷积操作；将卷积操作结果输入至池化层，提取所有局部特征的平均值代替所有的局部特征，得到新闻文本局部语义特征。

6.根据权利要求5所述的一种基于特征融合模型的虚假新闻检测方法，其特征在于：卷积层使用大小为r×d的滤波器对句子矩阵进行卷积操作来完成特征的提取工作，表示为：

c_i＝f(W×x_i:i+r-1+b) (1)

经过卷积操作之后最终得到一个n-r+1维的局部特征矩阵C：

C＝{c₁,c₂,...c_n-r+1} (2)。

7.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法，其特征在于：所述上下文语义子网络模型为引入注意力机制的双向长短时记忆神经网络。

8.根据权利要求7所述的一种基于特征融合模型的虚假新闻检测方法，其特征在于：所述引入注意力机制的双向长短时记忆神经网络包括BiLSTM模型和Attention层；

t时刻，BiLSTM的隐藏状态包括前向的

和后向的

分别表示为：

前向的

和后向的

在Attention层中执行以下步骤：

M＝tanh(H) (12)

α＝soft max(w^TM) (13)

r＝Hα^T (14)

h*＝tanh(r) (15)。

9.根据权利要求1所述的一种基于特征融合模型的虚假新闻检测方法，其特征在于：步骤5中，所述TF-IDF算法表示为：

TF-IDF＝TF·IDF (18)

其中：