CN111831790A

CN111831790A - 一种基于低门限集成与文本内容匹配的虚假新闻识别方法

Info

Publication number: CN111831790A
Application number: CN202010581302.8A
Authority: CN
Inventors: 谭华; 徐维超
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-27
Anticipated expiration: 2040-06-23
Also published as: CN111831790B

Abstract

本发明公开了一种基于低门限集成与文本内容匹配的虚假新闻识别方法，包括以下步骤：获取备用新闻文本和虚假新闻文本，并构建揭露语料库，其中备用新闻文本被分为训练文本和待测文本；对训练文本、待测文本和揭露语料库进行数据统计和处理；构建若干文本分类深度学习模型，并设置模型初始参数；将训练文本送入深度学习模型中训练，得到训练完毕的模型，然后将待测文本送入模型判别，并输出判别结果；将判别结果进行集成，得到初步判断新闻真伪的预测标签；获取分别能够代表揭露语料库和待测文本的关键词并匹配，然后根据匹配结果修正预测标签，得到最终判断新闻真伪的正式标签；本发明对新闻进行深层语义识别，并考虑虚假新闻的词性共性问题。

Description

一种基于低门限集成与文本内容匹配的虚假新闻识别方法

技术领域

本发明涉及深度学习以及文本分类技术领域，更具体地，涉及一种基于低门限集成与文本内容匹配的虚假新闻识别方法。

背景技术

在信息处理领域，关于信息资源的加工和组织方法较多，其中文本分类技术是比较关键的技术，并且有广泛的应用。文本分类技术作为组织和管理文本信息的有效手段，主要任务是自动分类无标签文档到预定的类别集合中。文本分类的应用领域有信息过滤、信息检索与舆情系统等。信息过滤就是对获取的信息进行二分类的处理，将用户不感兴趣、不需要的信息过滤掉。垃圾邮件过滤、垃圾短信过滤、新闻选择等都是信息过滤的典型应用。信息检索就是使用文本分类技术把大量的文本信息按主题层次归类组织，可以极大地提升信息检索的效率。而舆情系统中文本主题的分类、情感倾向性分析等业务场景的核心技术就是文本分类技术。

互联网虚假信息正在威胁着全球互联网的安全，其在规模、传播速度、造假手段三个方面呈现快速增长。虚假信息的发布与传播对国家安全、个人与企业信誉和媒体信任度带来严重的冲击。虚假信息检测这一领域目前正在迅猛发展。从技术上来说，未来有两个大趋势，一是多模态融合，在图像视频方面做得还不够，相信这两年Deepfake等深度伪造技术的出现会快速推动虚假检测技术的发展。另一个趋势是数据驱动和知识驱动的融合。虚假信息检测任务的定义一直在不断变化，数据和标注都很难获取。文本是新闻信息的主要载体，对新闻文本的研究有助于虚假新闻的有效识别。虚假新闻文本检测的具体任务为，给定一个新闻事件的文本，判定该事件属于真实新闻还是虚假新闻。该任务可抽象为NLP领域的文本分类任务，根据新闻文本内容，判定该新闻是真新闻还是假新闻。

目前而言，文本分类算法主要有fastText、TextCNN、TextRNN、RCNN、RNN+Attention、BERT_finetune。FastText文本分类算法是有Facebook AI Research提出的一种简单的模型，它能获得和深度模型相同的精度，但是计算时间却要远远小深度学习模型。TextCNN通过一层卷积，一层max-pooling，最后将输出外接softmax来n分类，它的最大优势在于网络结构简单，计算量少训练速度快，且有较好的性能表现。TextRNN模型类似于TEXTCNN，不同点在于可以直接取最后一个隐状态进行n分类，主要优点在于能够捕获序列中的长距离依赖关系，缺点在于运行速度较慢。RCNN模型结合了RNN的结构和最大池化层，利用了循环神经模型和卷积神经模型的优点。RNN+Attention模型是在RNN模型基础上加了Attention层，使得捕捉到的距离会更长。BERT_finetune是直接利用BERT模型取其cls位的状态接softmax层实现。虽然上述技术，能对给出的新闻文本进行提取特征分析，但是却未能进行虚假新闻内容之间的词性共性分析。

在现有技术中，公开号为CN109885796A的发明专利，公开了一种基于深度学习的网络新闻配图匹配性检测方法，包括基于深度学习的新闻配图多描述生成；以及生成新闻配图描述的文字内容与新闻文字内容进行对比评分；对于生成新闻配图描述部分，采用卷积神经网络对新闻配图特征的提取，然后利用自然语言模型生成新闻配图的相关描述；对于评分体系部分，与改进的BLEU算法形成评分体系；评分体系对生成的图片描述和新闻文字内容进行对比评分，通过评分来判断图片与新闻内容是否相符。虽然，该技术能够结合图片和新闻文本进行对比分析，但却同样忽略了虚假新闻内容之间的词性共性问题。

因此，急需一种不仅能从多方面对新闻文本进行深层语义识别，而且能考虑虚假新闻文本内容之间词性共性的虚假新闻识别方法。

发明内容

本发明为克服上述现有技术所述忽视虚假新闻内容之间共性识别的问题，提供一种基于低门限集成与文本内容匹配的虚假新闻识别方法。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

一种基于低门限集成与文本内容匹配的虚假新闻识别方法，包括以下步骤：

S1：获取备用新闻文本和虚假新闻文本，所述备用新闻文本划分为训练文本和待测文本，所述虚假新闻文本用以构建揭露语料库；

S2：对所述训练文本、待测文本和所述揭露语料库进行数据统计和处理；

S3：构建若干文本分类稳健的深度学习模型，并设置模型的初始参数；

S4：将所述训练文本送入所构建的深度学习模型进行训练，得到训练完毕的深度学习模型，然后将所述待测文本送入训练完毕的深度学习模型进行判别，并输出判别结果；

S5：将所述判别结果进行集成，得到初步判断新闻真伪的预测标签；

S6：获取分别能够代表所述揭露语料库和所述待测文本的关键词，并对他们进行匹配，然后根据匹配结果修正所述预测标签，得到最终判断新闻真伪的正式标签。

上述方案中，获取新闻文本后进行去重处理得到纯净的数据，构建深度学习模型并进行训练，训练后用于判别待测文本得到判别结果，对判别结果进行集成得到初步判断真伪性的预测标签，最后分别获取揭露语料库和待测文本的关键词进行匹配，用以修正预测标签，得出最终判断待测文本真伪性的正式标签。

优选地，在所述步骤S1中，所述训练文本、所述待测文本和所述虚假新闻文本均为纯文本数据；所述揭露语料库为若干所述虚假新闻文本的集合。

上述方案中，所述纯文本数据的来源为多媒体平台的新闻数据；将全部获取的虚假新闻文本进行合并，构建揭露语料库，以担任类似知识库的角色。

优选地，所述步骤S2具体过程为：

S2.1：采用pandas工具包对所述备用新闻文本和所述揭露语料库进行统计，并进行去除重复文本的操作；

S2.2：分别计算出所述训练文本、所述待测文本和所述虚假新闻文本的平均长度；

上述方案中，pandas是python中的一个数据分析包，提供了操作大型数据集所需的工具，能高效去除冗余数据，保留所需数据；计算出各个文本的平均长度，方便后续初始参数的设置。

优选地，所述步骤S3中构建所述深度学习模型的具体过程为：

S3.1：选取BERT、XLNet、roberta三个预训练语言模型作为基模型；

S3.2：选取Bi-LSTM、CNN、Linear三个神经网络算法作为备用；

S3.3：构建三个深度学习模型：BERT+CNN+Linear、XLNet+Bi-LSTM+Linear、roberta+Bi-LSTM+CNN+Linear。

上述方案中，考虑到模型的集成需要优质的基模型以及基模型之间应有较大差异，因而选择预训练语言模型BERT、XLNet、roberta作为基模型，不仅效果最好，而且能够更好地捕捉新闻文本中不同层面的语义表示；为更好提取文本的语义特征，同时采用了双向长短期记忆网络Bi-LSTM和卷积神经网络CNN，以及线性神经网络，由此构建三个稳健的深度学习模型。

优选地，所述步骤S3中所述初始参数包括文本长度参数、批尺寸batch size、轮数epochs、优化器optimizer和学习率learning rate；其中，所述文本长度参数设置为步骤S2.2中计算出的平均长度。

上述方案中，batch size调整每次进行训练时所送入的训练文本个数；epochs调整全部训练文本都被送入过一次的轮数；optimizer为优化器的种类，寻找深度学习模型的最优解；learning rate为学习率，调整深度学习模型的学习精度和学习速度。

优选地，所述步骤S4中对所构建的深度学习模型进行训练的方法为10折交叉验证法，其具体过程为：

S4.1：采用k-fold函数将所述训练文本拆分为10份；其中，9份作为训练集，用于训练；1份作为测试集，用于测试；

S4.2：将所述训练集其中1份数据与所述测试集进行轮换，如此重复后得到10个具有不同测试集的组合；

S4.3：设置甄别的最低门限，若测试集组合中有一个认定所述训练文本为虚假新闻，则得出的测试结果为虚假新闻；

S4.4：保存测试结果为虚假新闻的深度学习模型；

上述方案中，k-fold函数用于交叉验证，能帮助深度学习模型摆脱样本量不够充足的限制；将训练文本拆分为10份，进行10折交叉验证，完成深度学习模型的精度测试；同时，设置最低门限，使得测试标准更严格；最后，以测试时推断出虚假新闻占全部训练文本的比例为辅助评估标准，保存最优学习模型。

优选地，根据权利要求6所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，三个不同的深度学习模型均采用所述10折交叉验证的训练方法。

上述方案中，使用相同训练方法，获取三个深度学习模型以供使用，降低单一模型判别时的偶然性，提升所述预测标签的准确度。

优选地，所述步骤S4中所述训练采用的任务层为2-4层的LSTM和1层的CNN。

上述方案中，以此获得模型结构上的差异，提高后续模型融合的效果。

优选地，所述步骤S5中对判别结果进行集成的方法是投票法，将所构建的三个深度学习模型输出的判别结果中超过半数的，作为所述预测标签。

上述方案中，使用投票法以提高对判别结果进行集成的准确率，极大地减少了因个例差异造成的偶然性错误。

优选地，所述步骤6中修正所述预测标签的具体过程为：

S6.1：利用tf-idf与TextRank对所述揭露语料库进行处理，并进行人工筛选，获取若干能够代表所述揭露语料库的关键词；

S6.2：利用tf-idf与TextRank对所述待测文本进行处理，并进行人工筛选，获取若干能够代表所述待测文本的关键词；

S6.3：将所述揭露语料库的关键词与所述待测文本的关键词进行匹配，根据匹配结果，修正所述预测标签。

上述方案中，若代表所述待测文本的关键词能与代表所述揭露语料库的关键词匹配，则可确认该待测文本为虚假新闻，此过程中增加少量人工规则，能提升深度学习模型的合理性，减少误判的现象。

与现有技术相比，本发明技术方案的有益效果是：

本发明不仅能从多方面对新闻文本进行深层语义识别，而且能考虑虚假新闻文本内容之间词性共性问题，提高对新闻文本真伪性识别的准确率。

附图说明

图1为本发明的流程示意图。

图2为本发明的BERT+CNN+Linear深度学习模型网络结构框图。

图3为本发明的XLNet+Bi-LSTM+Linear深度学习模型网络结构框图。

图4为本发明的roberta+Bi-LSTM+CNN+Linear深度学习模型网络结构框图。

图5为本发明的三个深度学习模型使用投票法集成判别结果的结构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，一种基于低门限集成与文本内容匹配的虚假新闻识别方法，包括以下步骤：

上述方案中，所述纯文本数据的来源为多媒体平台的新闻数据，本实施例中的新闻数据来源于今日头条；将全部获取的虚假新闻文本进行合并，构建揭露语料库，以担任类似知识库的角色。

优选地，所述步骤S2具体过程为：

如图2-4所示，优选地，所述步骤S3中构建所述深度学习模型的具体过程为：

S3.2：选取Bi-LSTM、CNN、Linear三个神经网络算法作为备用；

优选地，所述步骤S3中所述初始参数包括文本长度参数、批尺寸batch size、轮数epochs、优化器optimizer和学习率learning rate，本实施例中，具体参数如下：batchsize＝32，epochs＝10，optimizer＝Adam，learning rate＝0.001；所述文本长度参数设置为步骤S2.2中计算出的平均长度。

S4.4：保存测试结果为虚假新闻的深度学习模型；

上述方案中，当所述深度学习模型判别为真新闻时，输出0；判别为假新闻时，输出1；使用投票法以提高集成判别结果的准确率，极大地减少了因个例差异造成的偶然性错误。

如图5，优选地，所述步骤6中修正所述预测标签的具体过程为：

与现有技术相比，本发明技术方案的有益效果是：

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，在所述步骤S1中，所述训练文本、所述待测文本和所述虚假新闻文本均为纯文本数据；所述揭露语料库为若干所述虚假新闻文本的集合。

3.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，所述步骤S2具体过程为：

S2.2：分别计算出所述训练文本、所述待测文本和所述虚假新闻文本的平均长度。

4.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，所述步骤S3中构建所述深度学习模型的具体过程为：

S3.2：选取Bi-LSTM、CNN、Linear三个神经网络算法作为备用；

5.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，所述步骤S3中所述初始参数包括文本长度参数、批尺寸batch size、轮数epochs、优化器optimizer和学习率learning rate；其中，所述文本长度参数设置为步骤S2中计算出的平均长度。

6.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，所述步骤S4中对所构建的深度学习模型进行训练的方法为10折交叉验证法，其具体过程为：

S4.4：保存测试结果为虚假新闻的深度学习模型。

7.根据权利要求6所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，三个不同的深度学习模型均采用所述10折交叉验证的训练方法。

8.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，所述步骤S4中所述训练采用的任务层为2-4层的LSTM和1层的CNN。

9.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，所述步骤S5中对判别结果进行集成的方法是投票法，将所构建的三个深度学习模型输出的判别结果中超过半数的，作为所述预测标签。

10.根据权利要求1所述的一种基于低门限集成与文本内容匹配的虚假新闻识别方法，其特征在于，所述步骤6中修正所述预测标签的具体过程为：