CN111475649A

CN111475649A - 基于深度学习的虚假新闻预测方法、系统、装置、介质

Info

Publication number: CN111475649A
Application number: CN202010256029.1A
Authority: CN
Inventors: 王昌海; 贾焰; 李爱平; 周斌; 涂宏魁; 王晔; 喻承; 宋怡晨; 李晨晨; 马锶霞; 蒋千越; 黄杨琛; 赵晓娟; 刘运璇; 郑新萍; 王浩; 方俊斌
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-31
Anticipated expiration: 2040-04-02
Also published as: CN111475649B

Abstract

本发明提供了基于深度学习的虚假新闻预测方法、系统、装置、介质，其可以提高预测速度，还可以避免长期依赖的缺陷，方法包括以下步骤：步骤1：对新闻文本数据进行预处理；步骤2：使用BERT预训练模型将预处理后的新闻文本数据映射成词向量；步骤3：基于深度学习神经网络构建预测模型，构建的所述预测模型包括特征抽取层、注意力层、分类器层；步骤4：通过对抗训练，获得优化预测模型；步骤5：将训练数据输入优化预测模型，对预测模型进行训练，得到训练好的预测模型；步骤6：将待预测新闻文本数据输入训练好的预测模型，输出预测结果。

Description

基于深度学习的虚假新闻预测方法、系统、装置、介质

技术领域

本发明涉及机器学习中的神经网络领域，具体涉及基于深度学习的虚假新闻预测方法、系统、装置、介质。

背景技术

互联网虚假信息正在威胁着全球互联网的安全，其在规模、传播速度、造假手段三个方面呈现快速增长。国际咨询公司Gartner预测，到2020年，互联网虚假新闻将面临泛滥之势，基于人工智能技术的造假能力将远超于虚假检测的能力。

2019年8月，人民网舆情中心也发出了同样的呼吁，目前辟谣滞后造成“空窗期”内谣言广泛传播，造假手段不断更新让人工审核力不从心，急需开展人工智能技术和人工审核结合的联合辟谣。

互联网虚假新闻文本检测，属于自然语言处理的文本数据处理问题。在理解文本信息的问题上，由于信息量的庞大，如果仅凭人工方式来收集和挖掘文本数据，不仅需要消耗大量的人力和时间，而且也是很难实现的。于是，实现自动假新闻预测就显得尤其重要，它是信息挖掘的基本功能，也成为了处理和组织文本数据的核心技术。

文本分类是NLP中的常见的重要任务之一，它的主要功能就是将输入的文本以及文本的类别训练出一个模型，使之具有一定的泛化能力，能够对新文本进行较好地预测。它的应用很广泛，在很多领域发挥着重要作用，例如垃圾邮件过滤、舆情分析以及新闻分类等。现阶段的文本分类模型频出，种类繁多，花样百变，既有机器学习中的朴素贝叶斯模型、SVM等，也有深度学习中的各种模型，比如经典的CNN,RNN，以及它们的变形，如CNN-LSTM，还有各种高大上的Attention模型。文本分类过程分类问题包括学习和分类两个过程，学习过程的目标是根据已知的训练数据构建分类模型，得到分类器；分类过程的任务是利用学习得到的分类器，预测新数据实例的类标号。

现在用于文本分类的主流特征抽取器是循环神经网络。递归模型通常沿着输入和输出序列的符号位置进行因子计算。将位置与计算时间中的步骤对齐，它们将生成一个隐藏状态序列ht，该序列是之前的隐藏状态ht-1和位置t的输入的函数。由于内存限制限制了示例之间的批处理，因此这种固有的顺序性妨碍了训练示例中的并行化，循环模型因不能并行的问题，存在着严重影响训练和预测速度的弊端，而在更长的序列长度中，并行化变得至关重要。

发明内容

针对上述问题，本发明提供了基于深度学习的虚假新闻预测方法、系统、装置、介质，其可以提高预测速度，还可以避免长期依赖的缺陷。

其技术方案是这样的：一种基于深度学习的虚假新闻预测方法，其特征在于，包括以下步骤：

步骤1：对新闻文本数据进行预处理；

步骤2：使用BERT预训练模型将预处理后的新闻文本数据映射成词向量；

步骤3：基于深度学习神经网络构建预测模型，构建的所述预测模型包括特征抽取层、注意力层、分类器层；

步骤4：通过对抗训练，获得优化预测模型；

步骤5：将训练数据输入优化预测模型，对预测模型进行训练，得到训练好的预测模型；

步骤6：将待预测新闻文本数据输入训练好的预测模型，输出预测结果。

进一步的，在步骤1中，将新闻文本数据中的汉字转化为BERT预训练模型定位的符号，其包括：

符号序列，表示为(t1，t2…tn)，用于指代汉字；

句子标记序列，表示为(s1，s2…sn)，用于指示句子的开始、结束和两个句子之间的界限；

遮蔽标记序列，表示为(m1，m2…mn)，用于指示每条新闻数据需要遮蔽的单元。

进一步的，在步骤3中，特征抽取层通过将词向量输入迭代的膨胀卷积抽取文本特征，在迭代时，每次将上一次输出的结果作为输入，最后将每次迭代得到的输出进行拼接，得到文本特征向量；注意力层通过加法注意力机制，对特征抽取层抽取的文本特征进行整理和融合，得到语义特征向量；分类器层将通过softmax分类器，将注意力层输出的语义特征向量进行分类。

进一步的，在步骤3中，特征抽取层通过卷积块抽取文本特征，所述卷积块包括三个膨胀卷积，每个膨胀卷积的宽度为3，间隔分别为1、1、2；将卷积块重复迭代四次，每次将上一次输出的结果作为输入，然后将每次迭代得到的输出进行拼接，得到文本特征向量。

进一步的，步骤4具体包括以下步骤：

步骤4-1：将步骤2得到的词向量输入到步骤3构建的预测模型中，得到原损伤值；

步骤4-2：根据原损失值，为步骤2得到的词向量添加扰动，然后再输入到预测模型中，得到扰动损失值；

步骤4-3：将原损伤值和扰动损失值相加，得到模型损失值，通过模型损失值优化预测模型。

进一步的，在步骤5中，将训练数据输入步骤4得到优化预测模型进行训练，当模型的损失函数值趋于稳定不再变化时表示模型趋于稳定，训练停止。

一种基于深度学习的虚假新闻预测系统，其特征在于，包括：

输入模块，用于对新闻文本数据进行预处理；

词向量模块，用于使用BERT预训练模型将预处理后的新闻文本数据映射成词向量；

预测模型构建模块，用于基于深度学习神经网络构建预测模型，构建的所述预测模型包括特征抽取层、注意力层、分类器层；

模型优化模块，用于通过对抗训练优化预测模型；

模型训练模块，将训练数据输入优化预测模型，对预测模型进行训练，得到训练好的预测模型；

输出模块，用于将待预测新闻文本数据输入训练好的预测模型，输出预测结果。

进一步的，所述输入模块将新闻文本数据中的汉字转化为BERT预训练模型定位的符号，其包括：

符号序列，表示为(t1，t2…tn)，用于指代汉字；

遮蔽标记序列，表示为(m1，m2…mn)，用于指示每条新闻数据需要遮蔽的单元；

所述预测模型构建模块的特征抽取层通过将词向量输入迭代的膨胀卷积抽取文本特征，在迭代时，每次将上一次输出的结果作为输入，最后将每次迭代得到的输出进行拼接，得到文本特征向量；注意力层通过加法注意力机制，对特征抽取层抽取的文本特征进行整理和融合，得到语义特征向量；分类器层将通过softmax分类器，将注意力层输出的语义特征向量进行分类。

所述模型优化模块将通过词向量模块得到的词向量输入到预测模型构建模块构建的预测模型中，得到原损伤值，根据原损失值，为词向量添加扰动，然后再输入到预测模型中，得到扰动损失值，将原损伤值和扰动损失值相加，得到模型损失值，通过模型损失值优化预测模型。

所述模型训练模块，将训练数据输入所述模型优化模块得到优化预测模型进行训练，当模型的损失函数值趋于稳定不再变化时表示模型趋于稳定，训练停止。

一种基于深度学习的虚假新闻预测装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行上述的基于深度学习的虚假新闻预测方法。

一种计算机可读存储介质，其特征在于：所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行上述的基于深度学习的虚假新闻预测方法。

本发明的基于深度学习的虚假新闻预测方法、系统、装置、介质，在提取词向量时，采用BERT作为预训练模型，可以提取文本句子丰富的双向信息，不仅可以提高预测的效果，还可以大大缩短训练的时间；在构建的预测模型中，采用膨胀卷积抽取文本特征，在处理文本数据时，可以将文本长度看成卷积核的长，文本词向量维度看成通道，就可以用卷积来处理文本数据，采用膨胀卷积可以快速提取文本特征，并解决了文本中的长依赖问题，利用膨胀卷积，其网络结构对原数据的视野域是指数性递增的，可以快速地抽取原数据特征，并且降低了过拟合；堆叠膨胀卷积神经网络可以很容易地整合来自整个句子或文档的全局信息，但是仅仅简单的叠加膨胀卷积的层数，会造成严重的过拟合，故在本发明中，通过迭代的膨胀卷积，每次将上一次输出的结果作为输入，重复使用相同的参数，以一种重复的方式提供了广泛的有效输入宽度和可期望的泛化能力，解决了深层膨胀卷积容易过拟合的问题；在预测模型的注意力层，对特征抽取层抽取的文本特征进行整理和融合，得到语义特征向量，通过注意力机制，大大提高了模型效果，最后，通过分类器层，能够将注意力层输出的语义特征向量进行分类，实现对新闻真假的预测；在此之后，还通过对抗训练优化预测模型，其通过稳定分类函数来规范文本分类器，对抗训练不仅提高了对反例的鲁棒性，而且提高了原例的泛化性能，最终得到的优化预测模型，可以很好的实现对虚假新闻进行预测。

附图说明

图1为本发明的基于深度学习的虚假新闻预测方法的流程图；

图2为本发明的基于深度学习的虚假新闻预测系统的框图。

具体实施方式

见图1，本发明的一种基于深度学习的虚假新闻预测方法，包括以下步骤：

步骤1：对新闻文本数据进行预处理；

步骤3：基于深度学习神经网络构建预测模型，构建的预测模型包括特征抽取层、注意力层、分类器层；

步骤4：通过对抗训练，获得优化预测模型；

计算机不能识别汉字，需要把文本数据转换为相应的词向量，在本实施例中，采用BERT预训练模型，BERT通过遮蔽语言模型，每次训练都随机遮蔽15％的单词，通过训练预测遮蔽单词任务，就可以建模文本的双向信息，在BERT进行训练时，每条输入都由两个句子组成，通过预测第二个句子是不是当前句子的下一句，建模了句子之前的关系。

在本实施例中，步骤1中，将新闻文本数据中的汉字转化为BERT预训练模型定位的符号，其包括：

符号序列，表示为(t1，t2…tn)，用于指代汉字；

通过以上操作，已经将新闻数据转化为BERT需要的数据格式，然后在步骤2中，采用BERT预训练模型将预处理后的新闻文本数据映射成词向量。

具体在步骤3中，特征抽取层通过将词向量输入迭代的膨胀卷积抽取文本特征，在迭代时，每次将上一次输出的结果作为输入，最后将每次迭代得到的输出进行拼接，得到文本特征向量；注意力层通过加法注意力机制，对特征抽取层抽取的文本特征进行整理和融合，得到语义特征向量；分类器层将通过softmax分类器，将注意力层输出的语义特征向量进行分类。

在本实施例中，在步骤3中，特征抽取层通过卷积块抽取文本特征，卷积块包括三个膨胀卷积，每个膨胀卷积的宽度为3，间隔分别为1、1、2；将卷积块重复迭代四次，每次将上一次输出的结果作为输入，然后将每次迭代得到的输出进行拼接，得到文本特征向量。

堆叠膨胀卷积神经网络可以很容易地整合来自整个句子或文档的全局信息，很不幸的是，通过在自然语言处理实验中发现，如果仅仅简单的叠加膨胀卷积的层数，会造成严重的过拟合。为了应对这种情况，本发明中采用迭代的膨胀卷积，其解决了深层膨胀卷积容易过拟合的问题。

在本实施例中，步骤4具体包括以下步骤：

在本实施例中，在步骤5中，将训练数据输入步骤4得到优化预测模型进行训练，当模型的损失函数值趋于稳定不再变化时表示模型趋于稳定，训练停止。

具体的，本实施例所用数据集，训练集共包含38,471条新闻，其中包含真实新闻19,186条，虚假新闻19,285条。测试集共4,000条，真假新闻比例与训练集基本一致，输入模型的句子长度为256；BERT输出的词向量是768维；ID_CNN卷积块包括宽度为3、间隔分别1、1、2的三个膨胀卷积，重复迭代四次，得到4048维输出；学习率为1e-6，优化器为AdamOptimizer；batchsize为5，重复20000轮，预测模型在测试集正确率为0.890453705566915，在一块RTX2070显卡上，预测模型训练时间大约为1.5个小时，与采用循环神经网络相比，正确率几乎相同，训练速度会快7、8倍。

本发明的基于深度学习的虚假新闻预测方法，在提取词向量时，采用BERT作为预训练模型，可以提取文本句子丰富的双向信息，不仅可以提高预测的效果，还可以大大缩短训练的时间；在构建的预测模型中，采用膨胀卷积抽取文本特征，在处理文本数据时，可以将文本长度看成卷积核的长，文本词向量维度看成通道，就可以用卷积来处理文本数据，采用膨胀卷积可以快速提取文本特征，并解决了文本中的长依赖问题，利用膨胀卷积，其网络结构对原数据的视野域是指数性递增的，可以快速地抽取原数据特征，并且降低了过拟合；堆叠膨胀卷积神经网络可以很容易地整合来自整个句子或文档的全局信息，但是仅仅简单的叠加膨胀卷积的层数，会造成严重的过拟合，故在本发明中，通过迭代的膨胀卷积，每次将上一次输出的结果作为输入，重复使用相同的参数，以一种重复的方式提供了广泛的有效输入宽度和可期望的泛化能力，解决了深层膨胀卷积容易过拟合的问题；在预测模型的注意力层，对特征抽取层抽取的文本特征进行整理和融合，得到语义特征向量，通过注意力机制，大大提高了模型效果，最后，通过分类器层，能够将注意力层输出的语义特征向量进行分类，实现对新闻真假的预测；在此之后，还通过对抗训练优化预测模型，其通过稳定分类函数来规范文本分类器，对抗训练不仅提高了对反例的鲁棒性，而且提高了原例的泛化性能，最终得到的优化预测模型，可以很好的实现对虚假新闻进行预测。

此外，见图2，本发明的实施例中还提供了一种基于深度学习的虚假新闻预测系统，包括：

输入模块1，用于对新闻文本数据进行预处理；

词向量模块2，用于使用BERT预训练模型将预处理后的新闻文本数据映射成词向量；

预测模型构建模块3，用于基于深度学习神经网络构建预测模型，构建的预测模型包括特征抽取层、注意力层、分类器层；

模型优化模块4，用于通过对抗训练优化预测模型；

模型训练模块5，将训练数据输入优化预测模型，对预测模型进行训练，得到训练好的预测模型；

输出模块6，用于将待预测新闻文本数据输入训练好的预测模型，输出预测结果。

具体的，输入模块将新闻文本数据中的汉字转化为BERT预训练模型定位的符号，其包括：

符号序列，表示为(t1，t2…tn)，用于指代汉字；

预测模型构建模块的特征抽取层通过将词向量输入迭代的膨胀卷积抽取文本特征，在迭代时，每次将上一次输出的结果作为输入，最后将每次迭代得到的输出进行拼接，得到文本特征向量；注意力层通过加法注意力机制，对特征抽取层抽取的文本特征进行整理和融合，得到语义特征向量；分类器层将通过softmax分类器，将注意力层输出的语义特征向量进行分类。

模型优化模块将通过词向量模块得到的词向量输入到预测模型构建模块构建的预测模型中，得到原损伤值，根据原损失值，为词向量添加扰动，然后再输入到预测模型中，得到扰动损失值，将原损伤值和扰动损失值相加，得到模型损失值，通过模型损失值优化预测模型。

模型训练模块，将训练数据输入模型优化模块得到优化预测模型进行训练，当模型的损失函数值趋于稳定不再变化时表示模型趋于稳定，训练停止。

在本发明的实施例中，还提供了一种基于深度学习的虚假新闻预测装置，其包括：包括处理器、存储器以及程序；

程序存储在存储器中，处理器调用存储器存储的程序，以执行上述的基于深度学习的虚假新闻预测方法。

在上述的基于深度学习的虚假新闻预测装置的实现中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质被配置成存储程序，程序被配置成执行上述的基于深度学习的虚假新闻预测方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。

以上对本发明所提供的基于深度学习的虚假新闻预测方法、基于深度学习的虚假新闻预测系统、基于深度学习的虚假新闻预测方法装置和一种计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的虚假新闻预测方法，其特征在于，包括以下步骤：

步骤1：对新闻文本数据进行预处理；

步骤4：通过对抗训练，获得优化预测模型；

2.根据权利要求1所述的一种基于深度学习的虚假新闻预测方法，其特征在于，在步骤1中，将新闻文本数据中的汉字转化为BERT预训练模型定位的符号，其包括：

符号序列，表示为(t1，t2…tn)，用于指代汉字；

3.根据权利要求2所述的一种基于深度学习的虚假新闻预测方法，其特征在于：在步骤3中，特征抽取层通过将词向量输入迭代的膨胀卷积抽取文本特征，在迭代时，每次将上一次输出的结果作为输入，最后将每次迭代得到的输出进行拼接，得到文本特征向量；注意力层通过加法注意力机制，对特征抽取层抽取的文本特征进行整理和融合，得到语义特征向量；分类器层将通过softmax分类器，将注意力层输出的语义特征向量进行分类。

4.根据权利要求3所述的一种基于深度学习的虚假新闻预测方法，其特征在于：在步骤3中，特征抽取层通过卷积块抽取文本特征，所述卷积块包括三个膨胀卷积，每个膨胀卷积的宽度为3，间隔分别为1、1、2；将卷积块重复迭代四次，每次将上一次输出的结果作为输入，然后将每次迭代得到的输出进行拼接，得到文本特征向量。

5.根据权利要求3所述的一种基于深度学习的虚假新闻预测方法，其特征在于：步骤4具体包括以下步骤：

6.根据权利要求5所述的一种基于深度学习的虚假新闻预测方法，其特征在于：在步骤5中，将训练数据输入步骤4得到优化预测模型进行训练，当模型的损失函数值趋于稳定不再变化时表示模型趋于稳定，训练停止。

7.一种基于深度学习的虚假新闻预测系统，其特征在于，包括：

输入模块，用于对新闻文本数据进行预处理；

模型优化模块，用于通过对抗训练优化预测模型；

8.根据权利要求7所述的一种基于深度学习的虚假新闻预测系统，其特征在于：所述输入模块将新闻文本数据中的汉字转化为BERT预训练模型定位的符号，其包括：

符号序列，表示为(t1，t2…tn)，用于指代汉字；

9.一种基于深度学习的虚假新闻预测装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行权利要求1所述的基于深度学习的虚假新闻预测方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行权利要求1所述的基于深度学习的虚假新闻预测方法。