CN112183670B

CN112183670B - 一种基于知识蒸馏的少样本虚假新闻检测方法

Info

Publication number: CN112183670B
Application number: CN202011220037.7A
Authority: CN
Inventors: 陈晨; 袁婧; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-08-09
Anticipated expiration: 2040-11-05
Also published as: CN112183670A

Abstract

本发明开了一种基于知识蒸馏的少样本虚假新闻检测方法，属于人工智能技术领域，命名为FSKD(Detecting Fake News with Few‑Shot Knowledge Distillation)。本方法采用知识蒸馏的思想，以Teacher‑Student(教师‑学生)模型为框架，使用BERT作为Teacher(教师)模型，使用少量的有标签数据进行微调来为无标签的数据给定soft labels(软标签)，从而使得模型可以同时使用有标签的数据和无标签的数据进行训练，解决了现有的虚假新闻检测手段需要依赖大量的有标签数据的问题，同时此方法使用了一定的优化算法来避免过拟合问题。实验结果表明，本方法优于目前已有的少样本虚假新闻检测方法的效果。

Description

一种基于知识蒸馏的少样本虚假新闻检测方法

技术领域

本发明属于人工智能技术领域，具体涉及互联网的新闻数据，对网络中出现的假新闻，提出了一种基于知识蒸馏的少样本虚假新闻检测方法。

背景技术

互联网的深度普及加速了“信息时代”的到来，网络中的每个人都能以极低甚至“零”成本的方式创造信息，同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷，给社会的进步和人类的发展带来了巨大的福祉。然而凡事终有两面，互联网也开始为人类社会带来很大挑战——网络中的信息鱼龙混杂，充斥着大量的虚假信息。

2018年顶级国际期刊《科学》指出，在2016年美国总统大选期间样本选民平均每人每天接触四篇假新闻；要传播至1500个选民，假新闻的传播速度是真新闻的6-20倍；国际咨询公司Gartner预测，到2020年，互联网虚假新闻将面临泛滥之势。因此解决互联网中的虚假新闻检测问题是非常重要且有意义的研究。

近些年来，随着大数据和人工智能技术的发展，基于深度学习、机器学习和自然语言处理等技术的自动虚假新闻检测方法陆续被提出。但是现有的虚假新闻检测手段依赖于大量的有标签的数据集，然而新闻标注是一项耗时耗力且无法保证准确性的工作。假新闻为了迷惑大众往往题材丰富且语言风格多种多样，除此之外，假新闻大多紧跟时事，利用现有知识库可能无法对这些事件核实。对于很多互联网用户，由于知识水平等参差不齐，往往不具备足够分辨信息真实性的能力。

相比较而言，可以采用爬虫等技术手段来轻松的获取大量的无标签数据集。为了使得无标签的数据可以一起加入训练，本方法采用知识蒸馏的思想，使用BERT作为Teacher(教师)模型，使用少量的有标签数据集进行微调来为无标签的数据集给定soft labels(软标签)。通过此种方式可以更加充分地使用无标签数据集的信息，从而帮助模型对新样例的真/假进行更加合理、准确的判断。

综上所述，使用少样本的数据集合同时结合知识蒸馏的思想进行虚假新闻检测是一个创新的研究思路，具有重要的研究意义和研究价值。

发明内容

本发明的目的是解决现有的虚假新闻检测手段需要依赖大量的有标签数据集的问题，提出了一种结合知识蒸馏的思想仅需使用少量的有标签数据进行虚假新闻检测的方法。本发明以Teacher-Student(教师-学生)模型为框架，创新地提出了一种同时使用有标签数据和无标签数据进行训练的方法，提高了少样本虚假新闻检测的效果。

本发明的技术方案

一种基于知识蒸馏的少样本虚假新闻检测方法，该方法的具体步骤如下：

第1、数据的预处理

在数据的预处理阶段，收集中英文数据集的新闻样本，其包括新闻的源文本以及对应的标签信息(Fake/True，真/假)。并对收集到的数据集进行一定的处理，以便于后续模型使用。

第1.1、收集数据

收集中英文虚假新闻检测数据集的新闻样本，其包括新闻的源文本和对应的标签信息。中文采用FNDC(Fake News Detection on Chinese)数据集，该数据集合来自智源&计算所-互联网虚假新闻检测挑战赛，共计38471条新闻，其中包含19285条真新闻和19186条假新闻。英文采用GossipCop数据集，该数据集来源于FakeNewsNet，其收集自事实检测网站GossipCop.com，共计19548个新闻样本。

第1.2、数据处理

在完成数据集的收集工作之后，对数据集进行处理以得到后续训练需要用到的文件格式。对于中文数据集，还需进行切词以及去停用词等处理，之后将其保存为tfrecord文件格式供后续模型使用。

第1.3、划分数据集合

将1.2步得到的数据集合，按照一定的比例将其划分为：有标签训练集、无标签集(该集合作为第二步使用BERT预训练的测试集，同时作为第三步使用FSKD训练的软标签训练集)、测试集(此为第3步使用FSKD训练的测试集)。

第2、使用BERT预训练

使用第1步处理得到的数据，使用BERT进行训练。通过少量的有标签的训练数据进行微调，为无标签的数据集合给定对应的软标签，即属于每一类的概率分布。

定义1：BERT模型

BERT的全称是Bidirectional Encoder Representations from Transformers，是谷歌提出的基于双向Transformer构建的一个预训练的语言表征模型。BERT模型来源于论文BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding。它采用新的masked language model(MLM，掩码语言模型)，来生成深度的双向语言表征。

定义2：少样本学习

一种仅需要少量的有标签样例进行训练的学习方式。

定义3：N-WayK-Shot

N-WayK-Shot分类问题就是指用少量样本构建分类任务，N-way指类别数为N，K-Shot指在训练时，每类使用的有标签的样例数为K。

定义4：softmax函数

其中z_x是神经网络中softmax层之前输出的logits值，θ为模型的参数。

根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题，使用第1步处理得到的训练数据，根据不同的K值，抽取相应数量的训练样本微调BERT模型，将无标签的数据集作为测试集合。由训练好的BERT模型为其给定属于每一类的概率分布，得到的软标签集供第3步使用，BERT的输出为：

第3、使用FSKD训练

使用第1步处理后的训练集和测试集，以及第2步训练得到的软标签集合使用本文提出的模型框架FSKD进行训练。

定义5：知识蒸馏

知识蒸馏(Knowledge Distillation)由Hinton等人在Distilling theKnowledge in aNeuralNetwork一文中提出。其采用Teacher-Student(教师-学生)模型架构，其中Teacher(教师)模型是一个相对复杂的模型，模型的参数较多，结构比较复杂；Student(学生)模型较Teacher模型而言，参数较少且结构简单。知识蒸馏的主要思想是通过训练使得Teacher模型和Student模型输出的softmax分布充分接近。

定义6：广义的softmax函数

其中T是温度，这是从统计力学中的玻尔兹曼分布中借用的概念。当温度T趋于0时，softmax输出将收敛为一个one-hot向量；当温度T趋于无穷时，softmax的输出则相对平滑。当T＝1时，其即定义4的softmax函数。

定义7：硬标签

新闻的标签信息；模型预测的新闻的标签信息，对于本文来说是真/假(True/Fake)。

定义8：软标签

模型预测输出的新闻属于每一类的概率分布，其值由定义6给出。软标签较硬标签可以携带更多的信息。

定义9：KL散度

相对熵(relative entropy)，又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence)，是两个概率分布(probability distribution)间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值。

设P(x),Q(x)是随机变量X上的两个概率分布，则在离散和连续随机变量的情形下，相对熵的定义分别为：

根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题，使用第1步处理得到的训练数据，根据不同的K值，抽取相应数量的有标签训练样本，以及第2步得到软标签训练样本，使用本文提出的FSKD模型进行训练，得到最优的参数组合θ^*。其损失函数由下式给出：

其中

为有标签训练集，

为第2步得到的软标签训练集(N远大于K)，θ为模型的参数，y为新闻的硬标签(y∈{0，1}，y＝1为假新闻，y＝0为真新闻)，λ为权重参数，P′_BERT(y|x)由第2步得到，P′(y|x；θ)由定义6给出。

第4、输出测试结果

将第1步处理后的测试集输入第3步得到的最优的FSKD模型中，输出本文提出的模型在该测试集上的Accuracy(准确率)值以及F1分数等。

本发明的优点和积极效果：

本发明开创性地针对现有的虚假新闻检测方法需要依赖于大量的有标签数据集的问题，提出了一种同时使用少量的有标签数据集和大量的无标签数据集进行训练的少样本虚假新闻检测模型。本方法通过使用知识蒸馏的思想，采用Teacher-Student(教师-学生)模型框架，使用BERT作为Teacher(教师)模型进行预训练为无标签数据集标注软标签信息，有效的解决了现有的虚假新闻检测方法依赖大量有标签数据集的问题，同时提高了虚假新闻检测任务的准确性。

附图说明

图1为基于知识蒸馏的少样本虚假新闻检测方法的流程图。

图2为用于少样本虚假新闻检测的Teacher-Student模型框架示意图。

图3为开源虚假新闻检测数据集FNDC和GossipCop的统计信息。

图4为默认的实验参数设置。

图5为采用不同K值时FSKD模型在中文数据集FNDC上的准确率示意图。

图6为采用不同K值时FSKD模型在英文数据集GossipCop上的准确率示意图。

图7为当K＝10，采用不同数量的Soft Labeled数据时FSKD模型在中文数据集FNDC上的准确率示意图。

图8为当K＝10，采用不同数量的Soft Labeled数据时FSKD模型在英文数据集GossipCop上的准确率示意图。

图9为消融实验的准确率和F1-Score值示意图。

图10为采用不同的λ值时的准确率和F1-Score值示意图。

图11为采用不同的T值时的准确率示意图。

具体实施方式

本发明提出了一种基于知识蒸馏的少样本虚假新闻检测方法，方法的主要流程如图1所示。该方法的主要过程如下：将收集到的样本进行预处理并按照一定的比例划分为有标签训练集、无标签集和测试集；使用BERT为无标签集合给定软标签；同时使用少量有标签数据和软标签数据训练本发明提出的FSKD模型；对未知样本进行推断和预测，输出模型的Accuracy(准确率)值以及F1分数等。

本发明的具体实施过程分为四个步骤，如图2所示，第1步是数据预处理，其包括收集数据、数据处理和划分数据集合，第2步是使用BERT为无标签的数据集给定弱标签，第3步是使用FSKD模型训练，第4步是对测试集进行预测。下面结合附图详细说明本发明的具体实施方式。

第1步、数据预处理

分别收集中英文虚假新闻检测数据集的新闻样本，其包括新闻的源文本和对应的标签信息。中文采用FNDC(Fake News Detection on Chinese)数据集，该数据集合来自智源&计算所-互联网虚假新闻检测挑战赛，如图3所示，FNDC数据集共计38471条新闻，其中包含19285条真新闻和19186条假新闻，新闻的平均长度为156个汉字。英文采用GossipCop数据集，该数据集来源于FakeNewsNet，其收集自事实检测网站GossipCop.com，如图3所示，GossipCop数据集共计19548个新闻样本，其中包含4415条假新闻和15133条真新闻，真新闻的数量约是假新闻的3.5倍，新闻的平均长度为557个单词。

在获得虚假新闻检测的数据集后，对其进行预处理，以得到后续BERT训练需要用到的TFRecord文件格式。划分数据集合，本文的虚假新闻检测任务可以视作2-WayK-Shot问题。对于中文，英文虚假新闻检测任务，分别选取对应数据集的25％和20％作为测试集，除此之外，选取2K个有标签的数据构成有标签的训练集，其余部分的数据作为无标签数据集(即BERT预训练阶段的测试集和FSKD训练阶段的软标签集)。

第2步、使用BERT预训练

第3步、使用FSKD训练

为了验证本方法的有效性，本方法从五个方面进行试验。(1)在软标签数据保持不变的情况下，使用不同数量的有标签数据，即使用不同的K值；(2)在有标签数据保持不变的情况下，使用不同数量的软标签数据；(3)消融实验，即只使用有标签数据或只使用软标签数据；(4)λ值对于模型性能的影响；(5)T值对于模型性能的影响。接下来将分别介绍。

第3.1步、使用不同的K值训练

根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题，使用第1步处理得到的训练数据，根据不同的K值，抽取相应数量的有标签训练样本，以及第2步对应K值使用BERT训练得到软标签训练样本，使用本文提出的FSKD模型进行训练，得到最优的参数组合θ^*。其损失函数由下式给出：

其中

为有标签训练集，

为第2步得到的软标签训练集(N远大于K)，θ为模型的参数，y为新闻的硬标签(y∈{0，1}，y＝1为假新闻，y＝0为真新闻)，λ为权重参数，P′_BERT(y|x)由第2步得到，P′(y|x；θ)下式给出：

以中文数据集FNDC上的实验为例，当K＝10时，取10条真新闻和10条假新闻作为有标签的数据集，抽取20％的新闻数据作为测试集，其余的数据作为软标签数据集。附图5和6展现了实验结果，本文将对比方法分为了两组：一类仅使用有标签的数据进行训练预测，包括RFC、GRU、BERT、RN和IN；另一类同时使用有标签的数据集和软标签的数据进行训练预测，包括VAT、RFC+SL、GRU+SL、BERT+SL和FSKD。分析实验结果可以发现，在第一组对比实验中，BERT的性能最好，这可能是由于BERT能够使用多头的注意力机制来学习丰富的语言知识，随着K值的增加，模型的性能整体呈现上升的趋势，但是FSKD和BERT之间的差值逐渐减小，这可能是由于在本组实验中软标签的数量固定，其对提高模型性能的贡献有限。在后一组实验中，FSKD模型取得了最好的结果，且当样本的标签分布不均衡时，FSKD模型依然展现了很好的鲁棒性。

第3.2步、使用不同的软标签数据训练

根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题，使用第1步处理得到的训练数据，取K＝10，抽取不同数量的软标签数据，使用本文提出的FSKD模型进行训练。实验结果如附图7和8所示，分析实验结果可知FSKD要优于BERT+SL和VAT，且随着软标签样本数的增加，FSKD的性能呈现上升的趋势。

第3.3步、消融实验

为了验证本方法定义的损失函数各部分的重要程度，进行了消融实验。取K＝10和所有的软标签数据集进行训练。实验结果如附图9所示，其中total loss表示既使用有标签的数据又使用无标签的数据进行训练；-(student loss)表明只使用软标签的数据进行训练；-(distilled loss)表明只使用有标签的数据进行训练。由实验结果可以看出，两部分损失对于模型的性能都有显著的影响，相比较而言，distilled loss对模型的性能影响更大，特别是在F1分数上。这可能是由于软标签数据的数量要远多于标签数据的数量，并且模型可以通过少量的有标签数据微调BERT模型提取知识提高性能。

第3.4步、λ值对于模型性能的影响

λ是权重参数用于平衡本方法定义的损失函数的两个部分。根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题，使用第1步处理得到的训练数据，设置K＝10，以及第2步使用BERT训练得到软标签训练样本，采用不同的λ值，使用本文提出的FSKD模型进行训练。实验结果如附图10所示，实验结果表明当λ＝1时，FSKD的性能达到最好，这也表明FSKD的两部分在虚假新闻检测任务中有着一样重要的作用。

第3.5步、T值对于模型性能的影响

T值用来调节输出的软标签的平滑程度，T越小越有可能增加误分类的概率，T越大，输出的分布越光滑。根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题，使用第1步处理得到的训练数据，设置K＝10，以及第2步使用BERT训练得到软标签训练样本，采用不同的T值，使用本文提出的FSKD模型进行训练。实验结果如附图11所示，实验结果表明，本方法对于T值并不敏感。

除此之外，在实验中，由于软标签数据的数据量要远多于有标签数据的数据量，模型很容易过拟合到少量的有标签数据上，为此本发明提出了如下的优化算法。

详细的算法流程如下：

算法1:优化算法

输入：有标签训练集D_L,无标签训练集D_U，模型的参数集合θ，迭代次数T，权重衰减率ω，学习率α，指数衰减率β₁，β₂

输出：最优的参数组合

具体而言，就是在训练的t时刻，设置一个阈值ξ，当

其中K是类别数，对于本文的问题来说是2(真新闻/假新闻)。当某个标签数据计算的(y|x；θ_t-1)大于阈值ξ，就将该标签数据移出计算损失的过程，只计算此Batch中的其余数据。

综上所述，使用少样本的数据集合同时结合知识蒸馏的思想进行虚假新闻检测，有效的解决了现有的虚假新闻检测方法依赖大量有标签数据集的问题，同时提高了虚假新闻检测任务的准确性和鲁棒性。

Claims

1.一种基于知识蒸馏的少样本虚假新闻检测方法，具体步骤如下：

第1、数据的预处理

在数据的预处理阶段，收集中英文数据集的新闻样本，其包括新闻的源文本以及对应的标签信息：真/假，并对收集到的数据集进行一定的处理，以便于后续模型使用；

第2、使用BERT预训练

使用第1步处理得到的数据，使用BERT进行训练，通过少量的有标签的训练数据进行微调，为无标签的数据集合给定对应的软标签，即属于每一类的概率分布；

第3、使用FSKD训练

使用第1步处理后的训练集和测试集，以及第2步训练得到的软标签集合使用本文提出的模型框架FSKD进行训练；

第4、输出测试结果

使用第3步训练好的模型，为第1步划分的测试集合给定真/假标签，并输出模型的准确率值以及F1分数；

第3步使用FSKD训练的具体方法是：

知识蒸馏是指：

知识蒸馏采用Teacher-Student模型架构，其中Teacher模型是一个相对复杂的模型，模型的参数较多，结构比较复杂；Student模型较Teacher模型而言，参数较少且结构简单，知识蒸馏的主要思想是通过训练使得Teacher模型和Student模型输出的softmax分布充分接近；

广义的softmax函数是指：

其中T是温度，这是从统计力学中的玻尔兹曼分布中借用的概念，当温度T趋于0时，softmax输出将收敛为一个one-hot向量；当温度T趋于无穷时，softmax的输出则相对平滑，当T＝1时，其即softmax函数；

硬标签是指：

新闻的标签信息；模型预测的新闻的标签信息，对于本文来说是真/假；

软标签是指：

模型预测输出的新闻属于每一类的概率分布，其值由广义的softmax函数给出，软标签较硬标签可以携带更多的信息；

KL散度是指：

相对熵，又被称为Kullback-Leibler散度或信息散度，是两个概率分布间差异的非对称性度量，在信息理论中，相对熵等价于两个概率分布的信息熵的差值；

根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题，使用第1步处理得到的训练数据，根据不同的K值，抽取相应数量的有标签训练样本，以及第2步得到软标签训练样本，使用FSKD模型进行训练，得到最优的参数组合θ^*，其损失函数由下式给出：

其中

为有标签训练集，

为第2步得到的软标签训练集，N远大于K，θ为模型的参数，y为新闻的硬标签，其中y∈{0,1}，y＝1为假新闻，y＝0为真新闻，λ为权重参数，P'_BERT(y|x)由第2步得到，P'(y|x；θ)由广义的softmax函数给出；

第4步使用FSKD输出测试结果的具体方法是:

将第1步处理后的测试集输入第3步得到的最优的FSKD模型中，输出本文提出的模型在该测试集上的Accuracy值以及F1分数。

2.根据权利要求1所述的基于知识蒸馏的少样本虚假新闻检测方法，其特征在于，第1步数据预处理的具体方法是:

第1.1、收集数据

收集中英文虚假新闻检测数据集的新闻样本，其包括新闻的源文本和对应的标签信息，中文采用FNDC数据集，英文采用GossipCop数据集，该数据集来源于FakeNewsNet，其收集自事实检测网站GossipCop.com；

第1.2、数据处理

在完成数据集的收集工作之后，对数据集进行处理以得到后续训练需要用到的文件格式，对于中文数据集，还需进行切词以及去停用词等处理，之后将其保存为tfrecord文件格式供后续模型使用；

第1.3、划分数据集合

将1.2步得到的数据集合，按照一定的比例将其划分为：有标签训练集、无标签集、测试集；其中无标签集的集合作为第2步使用BERT预训练的测试集，同时作为第3步使用FSKD训练的软标签训练集；测试集为第3步使用FSKD训练的测试集。

3.根据权利要求1所述的基于知识蒸馏的少样本虚假新闻检测方法，其特征在于，第2步使用BERT预训练的具体方法是:

BERT模型是指：

BERT的全称是Bidirectional Encoder Representations from Transformers，是谷歌提出的基于双向Transformer构建的一个预训练的语言表征模型；BERT模型来源于论文BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding；它采用新的掩码语言模型，来生成深度的双向语言表征；

少样本学习是指：

一种仅需要少量的有标签样例进行训练的学习方式；

N-Way K-Shot是指：

N-WayK-Shot分类问题就是指用少量样本构建分类任务，N-way指类别数为N，K-Shot指在训练时，每类使用的有标签的样例数为K；

softmax函数是指：

其中z_x是神经网络中softmax层之前输出的logits值，θ为模型的参数；

根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题，使用第1步处理得到的训练数据，根据不同的K值，抽取相应数量的训练样本微调BERT模型，将无标签的数据集作为测试集合，由训练好的BERT模型为其给定属于每一类的概率分布，得到的软标签集供第3步使用，BERT的输出为：