CN112818011A

CN112818011A - 改进的TextCNN与TextRNN谣言识别方法

Info

Publication number: CN112818011A
Application number: CN202110033537.8A
Authority: CN
Inventors: 宋玉蓉; 耿唯佳
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-05-18
Anticipated expiration: 2041-01-12
Also published as: CN112818011B

Abstract

本发明涉及深度学习和谣言识别领域，特别涉及改进的TextCNN与TextRNN谣言识别方法，步骤1，通过BERT预训练模型将言论文本及其评论转化为句向量；步骤2，构建改进的TextCNN模型；步骤3，构建改进的TextRNN模型；步骤4，对步骤2和步骤3中两种模型的输出进行加权融合，最后判断是否谣言；TextCNN更利于深度挖掘消息文本的语义特征，而TextRNN在挖掘消息文本的时序特征上更好，将CNN模型与RNN模型相结合并且改进可实现更高效识别。

Description

改进的TextCNN与TextRNN谣言识别方法

技术领域

本发明涉及深度学习和谣言识别领域，特别涉及改进的TextCNN与TextRNN谣言识别方法。

背景技术

鉴于网络谣言已经严重影响人们的生活以及社会稳定，政府和社交网络平台越来越关注如何通过相关技术手段，及时、快速、准确地识别谣言。现有的谣言检测主要分为人工谣言识别方法、基于机器学习的谣言识别方法和基于深度学习的谣言识别方法。人工谣言识别，是当前社交网络平台上主流的谣言检测方式，平台将用户发布的可疑言论交给专业人士，利用他们的知识和经验来判定这些言论是否真实。基于机器学习的谣言识别，将谣言识别抽象成一个分类问题，主要从消息数据中提取有效的特征，并用分类模型对这些特征进行训练学习，得到谣言分类模型。这些传统机器学习方法非常依赖特征工程，需要耗费大量人力物力和时间来构建合适的特征向量，所以目前研究者们尝试把特征学习能力很强的深度学习应用在谣言识别上。Kwon提出了一个新的周期性时间序列模型来表明谣言可能会随时间波动。Ma提出的模型基于递归神经网络(RNN)，用于捕捉时序性的上下文信息。刘政等人提出使用卷积神经网络(CNN)，通过CNN隐含层的学习训练来挖掘表示文本深层的特征。Zhou等人提出GRU加上DQN强化学习来尽早识别谣言。

目前很多学者使用CNN模型或是RNN模型来研究谣言识别，这两种模型在谣言识别上各有侧重点，比如TextCNN更利于深度挖掘消息文本的语义特征，而TextRNN在挖掘消息文本的时序特征上更胜一筹，因此考虑将CNN模型与RNN模型相结合以实现更高效识别。

发明内容

本发明要解决的技术问题是使用CNN模型和RNN模型相结合，实现对谣言的更高效识别。

本发明结合现有的深度学习方法，特别使用率最为广泛的CNN与RNN模型，提供了改进的TextCNN与TextRNN谣言识别方法。

本发明的改进的TextCNN与TextRNN谣言识别方法，包括以下步骤：

步骤1，通过BERT预训练模型将言论文本及其评论转化为句向量。

使用经过预先训练的BERT-WWM(Whole Word Masking)模型，使用的语料为中文维基，训练基于字而不是词；将网络社交平台的言论文本及其评论作为输入，所述BERT-WWM模型中包含12层的Transformer，理论上每一层Transformer都可以作为预训练最后的结果，本发明取倒数第二层作为所述言论文本及其评论的句向量输出。

言论文本及其评论经过Bert预训练模型得到的句向量矩阵有N行、V列，N为输入Bert预训练模型中的言论文本及其评论的句子的个数，V列对应Bert预训练模型输出的句向量维度。

步骤2，构建改进的TextCNN模型。

步骤1中的句向量做为TextCNN模型的输入，采用3个不同大小的卷积核对句向量进行卷积，分别为(F_i,V,1,Channel)(i＝1,2,3)，其中F_i表示卷积核的行数、V表示卷积核的列数，与句向量矩阵的列数相同，“1”表示输入向量的通道数，Channel表示卷积核通道个数。

句向量与卷积核采用Valid模式卷积，卷积后的尺寸为(N-F_i+1,1,Channel)(i＝1,2,3)。再分别经过不同的池化层(1,N-F_i+1,1,1)(i＝1,2,3)进行特征过滤，再拼接成长度为3*Channel的特征向量，最后通过一个全连接层转化为二分类问题；由归一化指数函数Softmax函数计算所述言论为谣言的概率，记为p_m-CNN(rumor)，由归一化指数函数Softmax函数计算所述言论为非谣言的概率，记为p_m-CNN(norumor)。

步骤3，构建改进的TextRNN模型。

步骤1中的句向量做为TextCNN模型的输入，所述句向量的维度为V，TextRNN模型中每个RNN单元的维度为V，隐状态取值也为V。

TextRNN模型将最后一层的所有时刻的隐状态拼接后一起作为全连接层的输入，通过全连接层转化为二分类问题；最后使用Softmax函数计算所述言论为谣言的概率，记为p_m-RNN(rumor)，Softmax函数计算所述言论为非谣言的概率，记为；p_m-RNN(rumor)

步骤4，对步骤2和步骤3中两种模型的输出进行加权融合，最后判断是否谣言。

优选的，步骤2中卷积核的行数F_i的取值为F_i＝{1,3,5}(i＝1,2,3)。

优选的，步骤2中还增加了一个池化层，对输入到TextCNN模型中的句向量进行池化，并将池化结果与步骤2中卷积池化后的输出拼接在一起，与卷积操作提取的深层特征互补。

优选的，步骤4中所述的加权融合是指将改进的TextCNN与改地进的TextRNN模型的Softmax函数结果按照1：1的比重相加，使用argmax函数得出分类结果如下式。

Result＝argmax([p_m-CNN(rumor)+p_m-RNN(rumor),p_m-CNN(norumor)+p_m-RNN(norumor)])。

有益效果：因此，本发明的方法先使用BERT预训练模型，将数据集的文本进行向量化表示，然后分别改进TextCNN模型与TextRNN模型，经过加权融合，实现对谣言的高效识别，改进并融合后的模型可以准确识别谣言。

附图说明

图1是本发明谣言识别方法流程图。

图2是改进的TextCNN模型。

图3是改进的TextRNN模型。

图4是输入文本数量N对于模型收敛的影响。

图5是输入文本数量N对于训练速度的影响。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，改进的TextCNN与TextRNN谣言识别方法，包括如下步骤：

步骤1，使用经过预训练的BERT-WWM，将言论文本及其评论转化为句向量。

使用经过预先训练的BERT-WWM(Whole Word Masking)模型，使用的语料为中文维基，训练基于字而不是词。将网络社交平台的言论文本及其评论作为输入后，从Xiao等人研究的bert-serving-server远程模型得出其提取的句向量，BERT-WWM模型中包含12层的Transformer，理论上12层的Transformer每一层都可以作为预训练最后的结果，经过Xiao等人的研究，最后一层的值太接近于目标，而前面几层模型还未充分学习到语义，所以取倒数第二层，作为将言论文本及其评论的句向量，维度V为768。所述的言论文本可以是微博。

经过Bert预训练模型得到的句向量矩阵有N行、V列，N为输入Bert预训练模型中的言论文本及其评论的句子的个数，矩阵有V列，对应Bert预训练模型输出的句向量维度。

步骤2，构建改进的TextCNN模型。

步骤1中的句向量做为TextCNN模型的输入，接着TextCNN模型采用3个不同大小的卷积核进行卷积，分别为(F_i,V,1,Channel)(i＝1,2,3)，其中F_i表示卷积核的行数、V表示卷积核的列数，与句向量矩阵的列数相同，“1”表示输入向量的通道数，Channel表示卷积核通道个数。句向量与卷积核采用Valid模式卷积，卷积后的尺寸为(N-F_i+1,1,Channel)(i＝1,2,3)。再分别经过不同的池化层(1,N-F_i+1,1,1)(i＝1,2,3)进行特征过滤，接着再拼接成长度为3*Channel的特征向量，最后通过一个全连接层转化为二分类问题，由归一化指数函数(Softmax函数)计算出此言论为谣言和非谣言的概率，由归一化指数函数Softmax函数计算所述言论为谣言的概率，记为p_m-CNN(rumor)，由归一化指数函数Softmax函数计算所述言论为非谣言的概率，记为p_m-CNN(norumor)。

其中F_i通过实验得到最优值F_i＝{1,3,5}(i＝1,2,3)。F₁＝1主要是参考了Inception模型的1*1卷积，Inception模型使用1*1矩阵来降维，而在这里相当于升维，因为大多数NLP预训练模型的向量都是一维的，也就是输入向量的维度为1。使用1*V的卷积核可以让感受野专注于一条微博，达到每条微博预训练向量升维的目的。

原始的TextCNN模型通过不同卷积核来提取多种深层特征，并仅使用这些深层特征进行分类，而忽略浅层的文字信息和语义特征，因此，对原始的TextCNN模型进行了改进，对原始输入另加上一个池化层，并与卷积池化后的输出拼接在一起，与卷积操作提取的深层特征互补。需要说明的是，为了便于展示，图2所示是改进的TextCNN模型，其中3个卷积核的第一维度分别为采用了1、2和3，Channel为1。

步骤3，构建改进的TextRNN模型。

TextRNN的输入为经过Bert预训练模型得到的句向量表示，维度为V，对应Bert预训练模型输出的向量维度。因此，TextRNN模型每个RNN单元的维度为V，隐状态取值也为V。

原始的TextRNN模型取最后一层的最后时刻的RNN的隐状态作为全连接层的输入，通过全连接层转化为二分类问题；最后使用Softmax函数计算所述言论为谣言的概率，记为p_m-RNN(rumor)，Softmax函数计算所述言论为非谣言的概率，记为；p_m-RNN(rumor)。如图3，改进的TextRNN模型将最后一层的所有隐状态拼接后一起作为全连接层的输入。因为原始的TextRNN的输入为词向量，最后一个RNN单元可以提取一句话中所有上下文的语序信息，但是我们的输入的是每条微博的句向量，模型应该考虑在不同时间段中输入的微博评论之间的序列关系。

步骤4，对上述两种模型进行加权融合，判断是否谣言。

加权融合是将两种模型的Softmax函数结果按照1：1的比重相加，最后使用argmax函数得出分类结果。

Result＝argmax([p_m-CNN(rumor)+p_m-RNN(rumor),p_m-CNN(norumor)+p_m-RNN(norumor)])

与本发明方法对比的有Ma等人的Tanh-RNNs，LSTM，GRU模型，Liu等人的CNN模型，Zhou等人的GRU+DQN模型，Li等人的基于C-GRU的微博谣言事件检测方法。如表1所示，本发明选用的评价指标分别是精确率、召回率、准确率和F量度。

表1 与其他模型的实验结果比较

表1为不同模型的最终实验结果比较。M-CNN和M-RNN分别是改进的TextCNN模型和改进的TextRNN模型，最后一行是改进的TextCNN和TextRNN模型融合后的效果。可以看出，在准确率和F1指标上都是最高的。

与主流谣言检测模型比较，并分析谣言识别的可行性；如图4与图5是研究了改进后的TextCNN中输入句向量数量N的取值对模型识别谣言性能的影响。本文分别对N为80，100，120做多次实验，分析模型在测试集的收敛情况及训练速度，经过实验发现，当子微博数量N取值为80时收敛幅度略微变小，但训练速度快了几倍，并且准确率依然能在12000轮左右达到95％，相比之下其它模型均需使用更多轮数，这种特性在谣言的识别中能发挥很大的作用。

Claims

1.改进的TextCNN与TextRNN谣言识别方法，其特征在于，包括如下步骤：

步骤1，通过BERT预训练模型将言论文本及其评论转化为句向量；

使用经过预先训练的BERT-WWM模型，将网络社交平台的言论文本及其评论作为输入，所述BERT-WWM模型中包含12层的Transformer，取倒数第二层作为所述言论文本及其评论的句向量输出；

言论文本及其评论经过Bert预训练模型得到的句向量矩阵有N行、V列，N为输入Bert预训练模型中的言论文本及其评论的句子的个数，V列对应Bert预训练模型输出的句向量维度；

步骤2，构建改进的TextCNN模型；

步骤1中的句向量做为TextCNN模型的输入，采用3个不同大小的卷积核对句向量进行卷积，分别为(F_i,V,1,Channel)(i＝1,2,3)，其中F_i表示卷积核的行数、V表示卷积核的列数，与句向量矩阵的列数相同，“1”表示输入向量的通道数，Channel表示卷积核通道个数；

句向量与卷积核采用Valid模式卷积，卷积后的尺寸为(N-F_i+1,1,Channel)(i＝1,2,3)；再分别经过不同的池化层(1,N-F_i+1,1,1)(i＝1,2,3)进行特征过滤，再拼接成长度为3*Channel的特征向量，最后通过一个全连接层转化为二分类问题；由归一化指数函数Softmax函数计算言论为谣言的概率，记为p_m-CNN(rumor)，由归一化指数函数Softmax函数计算言论为非谣言的概率，记为p_m-CNN(norumor)；

步骤3，构建改进的TextRNN模型；

步骤1中的句向量做为TextCNN模型的输入，所述句向量的维度为V，TextRNN模型中每个RNN单元的维度为V，隐状态取值也为V；

TextRNN模型中将最后一层的所有时刻的隐状态拼接后一起作为全连接层的输入，通过全连接层转化为二分类问题；最后使用Softmax函数计算言论为谣言的概率，记为p_m-RNN(rumor)，Softmax函数计算言论为非谣言的概率，记为：p_m-RNN(rumor)；

2.根据权利要求1所述的改进的TextCNN与TextRNN谣言识别方法，其特征在于，步骤2中卷积核的行数F_i的取值为F_i＝{1,3,5}(i＝1,2,3)。

3.根据权利要求1所述的改进的TextCNN与TextRNN谣言识别方法，其特征在于，步骤2中还增加了一个池化层，对输入到TextCNN模型中的句向量进行池化，并将池化结果与步骤2中卷积池化后的输出拼接在一起。

4.根据权利要求1所述的改进的TextCNN与TextRNN谣言识别方法，其特征在于，步骤4中所述的加权融合是指将改进的TextCNN与改地进的TextRNN模型的Softmax函数结果按照1：1的比重相加，使用argmax函数得出分类结果如下式：