CN112183670B - 一种基于知识蒸馏的少样本虚假新闻检测方法 - Google Patents

一种基于知识蒸馏的少样本虚假新闻检测方法 Download PDF

Info

Publication number
CN112183670B
CN112183670B CN202011220037.7A CN202011220037A CN112183670B CN 112183670 B CN112183670 B CN 112183670B CN 202011220037 A CN202011220037 A CN 202011220037A CN 112183670 B CN112183670 B CN 112183670B
Authority
CN
China
Prior art keywords
model
training
data
news
bert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011220037.7A
Other languages
English (en)
Other versions
CN112183670A (zh
Inventor
陈晨
袁婧
袁晓洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202011220037.7A priority Critical patent/CN112183670B/zh
Publication of CN112183670A publication Critical patent/CN112183670A/zh
Application granted granted Critical
Publication of CN112183670B publication Critical patent/CN112183670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明开了一种基于知识蒸馏的少样本虚假新闻检测方法,属于人工智能技术领域,命名为FSKD(Detecting Fake News with Few‑Shot Knowledge Distillation)。本方法采用知识蒸馏的思想,以Teacher‑Student(教师‑学生)模型为框架,使用BERT作为Teacher(教师)模型,使用少量的有标签数据进行微调来为无标签的数据给定soft labels(软标签),从而使得模型可以同时使用有标签的数据和无标签的数据进行训练,解决了现有的虚假新闻检测手段需要依赖大量的有标签数据的问题,同时此方法使用了一定的优化算法来避免过拟合问题。实验结果表明,本方法优于目前已有的少样本虚假新闻检测方法的效果。

Description

一种基于知识蒸馏的少样本虚假新闻检测方法
技术领域
本发明属于人工智能技术领域,具体涉及互联网的新闻数据,对网络中出现的假新闻,提出了一种基于知识蒸馏的少样本虚假新闻检测方法。
背景技术
互联网的深度普及加速了“信息时代”的到来,网络中的每个人都能以极低甚至“零”成本的方式创造信息,同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷,给社会的进步和人类的发展带来了巨大的福祉。然而凡事终有两面,互联网也开始为人类社会带来很大挑战——网络中的信息鱼龙混杂,充斥着大量的虚假信息。
2018年顶级国际期刊《科学》指出,在2016年美国总统大选期间样本选民平均每人每天接触四篇假新闻;要传播至1500个选民,假新闻的传播速度是真新闻的6-20倍;国际咨询公司Gartner预测,到2020年,互联网虚假新闻将面临泛滥之势。因此解决互联网中的虚假新闻检测问题是非常重要且有意义的研究。
近些年来,随着大数据和人工智能技术的发展,基于深度学习、机器学习和自然语言处理等技术的自动虚假新闻检测方法陆续被提出。但是现有的虚假新闻检测手段依赖于大量的有标签的数据集,然而新闻标注是一项耗时耗力且无法保证准确性的工作。假新闻为了迷惑大众往往题材丰富且语言风格多种多样,除此之外,假新闻大多紧跟时事,利用现有知识库可能无法对这些事件核实。对于很多互联网用户,由于知识水平等参差不齐,往往不具备足够分辨信息真实性的能力。
相比较而言,可以采用爬虫等技术手段来轻松的获取大量的无标签数据集。为了使得无标签的数据可以一起加入训练,本方法采用知识蒸馏的思想,使用BERT作为Teacher(教师)模型,使用少量的有标签数据集进行微调来为无标签的数据集给定soft labels(软标签)。通过此种方式可以更加充分地使用无标签数据集的信息,从而帮助模型对新样例的真/假进行更加合理、准确的判断。
综上所述,使用少样本的数据集合同时结合知识蒸馏的思想进行虚假新闻检测是一个创新的研究思路,具有重要的研究意义和研究价值。
发明内容
本发明的目的是解决现有的虚假新闻检测手段需要依赖大量的有标签数据集的问题,提出了一种结合知识蒸馏的思想仅需使用少量的有标签数据进行虚假新闻检测的方法。本发明以Teacher-Student(教师-学生)模型为框架,创新地提出了一种同时使用有标签数据和无标签数据进行训练的方法,提高了少样本虚假新闻检测的效果。
本发明的技术方案
一种基于知识蒸馏的少样本虚假新闻检测方法,该方法的具体步骤如下:
第1、数据的预处理
在数据的预处理阶段,收集中英文数据集的新闻样本,其包括新闻的源文本以及对应的标签信息(Fake/True,真/假)。并对收集到的数据集进行一定的处理,以便于后续模型使用。
第1.1、收集数据
收集中英文虚假新闻检测数据集的新闻样本,其包括新闻的源文本和对应的标签信息。中文采用FNDC(Fake News Detection on Chinese)数据集,该数据集合来自智源&计算所-互联网虚假新闻检测挑战赛,共计38471条新闻,其中包含19285条真新闻和19186条假新闻。英文采用GossipCop数据集,该数据集来源于FakeNewsNet,其收集自事实检测网站GossipCop.com,共计19548个新闻样本。
第1.2、数据处理
在完成数据集的收集工作之后,对数据集进行处理以得到后续训练需要用到的文件格式。对于中文数据集,还需进行切词以及去停用词等处理,之后将其保存为tfrecord文件格式供后续模型使用。
第1.3、划分数据集合
将1.2步得到的数据集合,按照一定的比例将其划分为:有标签训练集、无标签集(该集合作为第二步使用BERT预训练的测试集,同时作为第三步使用FSKD训练的软标签训练集)、测试集(此为第3步使用FSKD训练的测试集)。
第2、使用BERT预训练
使用第1步处理得到的数据,使用BERT进行训练。通过少量的有标签的训练数据进行微调,为无标签的数据集合给定对应的软标签,即属于每一类的概率分布。
定义1:BERT模型
BERT的全称是Bidirectional Encoder Representations from Transformers,是谷歌提出的基于双向Transformer构建的一个预训练的语言表征模型。BERT模型来源于论文BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding。它采用新的masked language model(MLM,掩码语言模型),来生成深度的双向语言表征。
定义2:少样本学习
一种仅需要少量的有标签样例进行训练的学习方式。
定义3:N-WayK-Shot
N-WayK-Shot分类问题就是指用少量样本构建分类任务,N-way指类别数为N,K-Shot指在训练时,每类使用的有标签的样例数为K。
定义4:softmax函数
Figure BDA0002761669380000041
其中zx是神经网络中softmax层之前输出的logits值,θ为模型的参数。
根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,根据不同的K值,抽取相应数量的训练样本微调BERT模型,将无标签的数据集作为测试集合。由训练好的BERT模型为其给定属于每一类的概率分布,得到的软标签集供第3步使用,BERT的输出为:
Figure BDA0002761669380000042
Figure BDA0002761669380000043
第3、使用FSKD训练
使用第1步处理后的训练集和测试集,以及第2步训练得到的软标签集合使用本文提出的模型框架FSKD进行训练。
定义5:知识蒸馏
知识蒸馏(Knowledge Distillation)由Hinton等人在Distilling theKnowledge in aNeuralNetwork一文中提出。其采用Teacher-Student(教师-学生)模型架构,其中Teacher(教师)模型是一个相对复杂的模型,模型的参数较多,结构比较复杂;Student(学生)模型较Teacher模型而言,参数较少且结构简单。知识蒸馏的主要思想是通过训练使得Teacher模型和Student模型输出的softmax分布充分接近。
定义6:广义的softmax函数
Figure BDA0002761669380000051
其中T是温度,这是从统计力学中的玻尔兹曼分布中借用的概念。当温度T趋于0时,softmax输出将收敛为一个one-hot向量;当温度T趋于无穷时,softmax的输出则相对平滑。当T=1时,其即定义4的softmax函数。
定义7:硬标签
新闻的标签信息;模型预测的新闻的标签信息,对于本文来说是真/假(True/Fake)。
定义8:软标签
模型预测输出的新闻属于每一类的概率分布,其值由定义6给出。软标签较硬标签可以携带更多的信息。
定义9:KL散度
相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量。在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值。
设P(x),Q(x)是随机变量X上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:
Figure BDA0002761669380000052
Figure BDA0002761669380000053
根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,根据不同的K值,抽取相应数量的有标签训练样本,以及第2步得到软标签训练样本,使用本文提出的FSKD模型进行训练,得到最优的参数组合θ*。其损失函数由下式给出:
Figure BDA0002761669380000061
Figure BDA0002761669380000062
其中
Figure BDA0002761669380000063
为有标签训练集,
Figure BDA0002761669380000064
为第2步得到的软标签训练集(N远大于K),θ为模型的参数,y为新闻的硬标签(y∈{0,1},y=1为假新闻,y=0为真新闻),λ为权重参数,P′BERT(y|x)由第2步得到,P′(y|x;θ)由定义6给出。
第4、输出测试结果
将第1步处理后的测试集输入第3步得到的最优的FSKD模型中,输出本文提出的模型在该测试集上的Accuracy(准确率)值以及F1分数等。
本发明的优点和积极效果:
本发明开创性地针对现有的虚假新闻检测方法需要依赖于大量的有标签数据集的问题,提出了一种同时使用少量的有标签数据集和大量的无标签数据集进行训练的少样本虚假新闻检测模型。本方法通过使用知识蒸馏的思想,采用Teacher-Student(教师-学生)模型框架,使用BERT作为Teacher(教师)模型进行预训练为无标签数据集标注软标签信息,有效的解决了现有的虚假新闻检测方法依赖大量有标签数据集的问题,同时提高了虚假新闻检测任务的准确性。
附图说明
图1为基于知识蒸馏的少样本虚假新闻检测方法的流程图。
图2为用于少样本虚假新闻检测的Teacher-Student模型框架示意图。
图3为开源虚假新闻检测数据集FNDC和GossipCop的统计信息。
图4为默认的实验参数设置。
图5为采用不同K值时FSKD模型在中文数据集FNDC上的准确率示意图。
图6为采用不同K值时FSKD模型在英文数据集GossipCop上的准确率示意图。
图7为当K=10,采用不同数量的Soft Labeled数据时FSKD模型在中文数据集FNDC上的准确率示意图。
图8为当K=10,采用不同数量的Soft Labeled数据时FSKD模型在英文数据集GossipCop上的准确率示意图。
图9为消融实验的准确率和F1-Score值示意图。
图10为采用不同的λ值时的准确率和F1-Score值示意图。
图11为采用不同的T值时的准确率示意图。
具体实施方式
本发明提出了一种基于知识蒸馏的少样本虚假新闻检测方法,方法的主要流程如图1所示。该方法的主要过程如下:将收集到的样本进行预处理并按照一定的比例划分为有标签训练集、无标签集和测试集;使用BERT为无标签集合给定软标签;同时使用少量有标签数据和软标签数据训练本发明提出的FSKD模型;对未知样本进行推断和预测,输出模型的Accuracy(准确率)值以及F1分数等。
本发明的具体实施过程分为四个步骤,如图2所示,第1步是数据预处理,其包括收集数据、数据处理和划分数据集合,第2步是使用BERT为无标签的数据集给定弱标签,第3步是使用FSKD模型训练,第4步是对测试集进行预测。下面结合附图详细说明本发明的具体实施方式。
第1步、数据预处理
分别收集中英文虚假新闻检测数据集的新闻样本,其包括新闻的源文本和对应的标签信息。中文采用FNDC(Fake News Detection on Chinese)数据集,该数据集合来自智源&计算所-互联网虚假新闻检测挑战赛,如图3所示,FNDC数据集共计38471条新闻,其中包含19285条真新闻和19186条假新闻,新闻的平均长度为156个汉字。英文采用GossipCop数据集,该数据集来源于FakeNewsNet,其收集自事实检测网站GossipCop.com,如图3所示,GossipCop数据集共计19548个新闻样本,其中包含4415条假新闻和15133条真新闻,真新闻的数量约是假新闻的3.5倍,新闻的平均长度为557个单词。
在获得虚假新闻检测的数据集后,对其进行预处理,以得到后续BERT训练需要用到的TFRecord文件格式。划分数据集合,本文的虚假新闻检测任务可以视作2-WayK-Shot问题。对于中文,英文虚假新闻检测任务,分别选取对应数据集的25%和20%作为测试集,除此之外,选取2K个有标签的数据构成有标签的训练集,其余部分的数据作为无标签数据集(即BERT预训练阶段的测试集和FSKD训练阶段的软标签集)。
第2步、使用BERT预训练
根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,根据不同的K值,抽取相应数量的训练样本微调BERT模型,将无标签的数据集作为测试集合。由训练好的BERT模型为其给定属于每一类的概率分布,得到的软标签集供第3步使用,BERT的输出为:
Figure BDA0002761669380000081
Figure BDA0002761669380000091
第3步、使用FSKD训练
为了验证本方法的有效性,本方法从五个方面进行试验。(1)在软标签数据保持不变的情况下,使用不同数量的有标签数据,即使用不同的K值;(2)在有标签数据保持不变的情况下,使用不同数量的软标签数据;(3)消融实验,即只使用有标签数据或只使用软标签数据;(4)λ值对于模型性能的影响;(5)T值对于模型性能的影响。接下来将分别介绍。
第3.1步、使用不同的K值训练
根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,根据不同的K值,抽取相应数量的有标签训练样本,以及第2步对应K值使用BERT训练得到软标签训练样本,使用本文提出的FSKD模型进行训练,得到最优的参数组合θ*。其损失函数由下式给出:
Figure BDA0002761669380000092
Figure BDA0002761669380000093
其中
Figure BDA0002761669380000094
为有标签训练集,
Figure BDA0002761669380000095
为第2步得到的软标签训练集(N远大于K),θ为模型的参数,y为新闻的硬标签(y∈{0,1},y=1为假新闻,y=0为真新闻),λ为权重参数,P′BERT(y|x)由第2步得到,P′(y|x;θ)下式给出:
Figure BDA0002761669380000096
以中文数据集FNDC上的实验为例,当K=10时,取10条真新闻和10条假新闻作为有标签的数据集,抽取20%的新闻数据作为测试集,其余的数据作为软标签数据集。附图5和6展现了实验结果,本文将对比方法分为了两组:一类仅使用有标签的数据进行训练预测,包括RFC、GRU、BERT、RN和IN;另一类同时使用有标签的数据集和软标签的数据进行训练预测,包括VAT、RFC+SL、GRU+SL、BERT+SL和FSKD。分析实验结果可以发现,在第一组对比实验中,BERT的性能最好,这可能是由于BERT能够使用多头的注意力机制来学习丰富的语言知识,随着K值的增加,模型的性能整体呈现上升的趋势,但是FSKD和BERT之间的差值逐渐减小,这可能是由于在本组实验中软标签的数量固定,其对提高模型性能的贡献有限。在后一组实验中,FSKD模型取得了最好的结果,且当样本的标签分布不均衡时,FSKD模型依然展现了很好的鲁棒性。
第3.2步、使用不同的软标签数据训练
根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,取K=10,抽取不同数量的软标签数据,使用本文提出的FSKD模型进行训练。实验结果如附图7和8所示,分析实验结果可知FSKD要优于BERT+SL和VAT,且随着软标签样本数的增加,FSKD的性能呈现上升的趋势。
第3.3步、消融实验
为了验证本方法定义的损失函数各部分的重要程度,进行了消融实验。取K=10和所有的软标签数据集进行训练。实验结果如附图9所示,其中total loss表示既使用有标签的数据又使用无标签的数据进行训练;-(student loss)表明只使用软标签的数据进行训练;-(distilled loss)表明只使用有标签的数据进行训练。由实验结果可以看出,两部分损失对于模型的性能都有显著的影响,相比较而言,distilled loss对模型的性能影响更大,特别是在F1分数上。这可能是由于软标签数据的数量要远多于标签数据的数量,并且模型可以通过少量的有标签数据微调BERT模型提取知识提高性能。
第3.4步、λ值对于模型性能的影响
λ是权重参数用于平衡本方法定义的损失函数的两个部分。根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,设置K=10,以及第2步使用BERT训练得到软标签训练样本,采用不同的λ值,使用本文提出的FSKD模型进行训练。实验结果如附图10所示,实验结果表明当λ=1时,FSKD的性能达到最好,这也表明FSKD的两部分在虚假新闻检测任务中有着一样重要的作用。
第3.5步、T值对于模型性能的影响
T值用来调节输出的软标签的平滑程度,T越小越有可能增加误分类的概率,T越大,输出的分布越光滑。根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,设置K=10,以及第2步使用BERT训练得到软标签训练样本,采用不同的T值,使用本文提出的FSKD模型进行训练。实验结果如附图11所示,实验结果表明,本方法对于T值并不敏感。
除此之外,在实验中,由于软标签数据的数据量要远多于有标签数据的数据量,模型很容易过拟合到少量的有标签数据上,为此本发明提出了如下的优化算法。
详细的算法流程如下:
算法1:优化算法
输入:有标签训练集DL,无标签训练集DU,模型的参数集合θ,迭代次数T,权重衰减率ω,学习率α,指数衰减率β1,β2
输出:最优的参数组合
Figure BDA0002761669380000121
具体而言,就是在训练的t时刻,设置一个阈值ξ,当
Figure BDA0002761669380000122
其中K是类别数,对于本文的问题来说是2(真新闻/假新闻)。当某个标签数据计算的(y|x;θt-1)大于阈值ξ,就将该标签数据移出计算损失的过程,只计算此Batch中的其余数据。
综上所述,使用少样本的数据集合同时结合知识蒸馏的思想进行虚假新闻检测,有效的解决了现有的虚假新闻检测方法依赖大量有标签数据集的问题,同时提高了虚假新闻检测任务的准确性和鲁棒性。

Claims (3)

1.一种基于知识蒸馏的少样本虚假新闻检测方法,具体步骤如下:
第1、数据的预处理
在数据的预处理阶段,收集中英文数据集的新闻样本,其包括新闻的源文本以及对应的标签信息:真/假,并对收集到的数据集进行一定的处理,以便于后续模型使用;
第2、使用BERT预训练
使用第1步处理得到的数据,使用BERT进行训练,通过少量的有标签的训练数据进行微调,为无标签的数据集合给定对应的软标签,即属于每一类的概率分布;
第3、使用FSKD训练
使用第1步处理后的训练集和测试集,以及第2步训练得到的软标签集合使用本文提出的模型框架FSKD进行训练;
第4、输出测试结果
使用第3步训练好的模型,为第1步划分的测试集合给定真/假标签,并输出模型的准确率值以及F1分数;
第3步使用FSKD训练的具体方法是:
知识蒸馏是指:
知识蒸馏采用Teacher-Student模型架构,其中Teacher模型是一个相对复杂的模型,模型的参数较多,结构比较复杂;Student模型较Teacher模型而言,参数较少且结构简单,知识蒸馏的主要思想是通过训练使得Teacher模型和Student模型输出的softmax分布充分接近;
广义的softmax函数是指:
Figure FDA0003714513310000021
其中T是温度,这是从统计力学中的玻尔兹曼分布中借用的概念,当温度T趋于0时,softmax输出将收敛为一个one-hot向量;当温度T趋于无穷时,softmax的输出则相对平滑,当T=1时,其即softmax函数;
硬标签是指:
新闻的标签信息;模型预测的新闻的标签信息,对于本文来说是真/假;
软标签是指:
模型预测输出的新闻属于每一类的概率分布,其值由广义的softmax函数给出,软标签较硬标签可以携带更多的信息;
KL散度是指:
相对熵,又被称为Kullback-Leibler散度或信息散度,是两个概率分布间差异的非对称性度量,在信息理论中,相对熵等价于两个概率分布的信息熵的差值;
设P(x),Q(x)是随机变量X上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:
Figure FDA0003714513310000022
Figure FDA0003714513310000023
根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,根据不同的K值,抽取相应数量的有标签训练样本,以及第2步得到软标签训练样本,使用FSKD模型进行训练,得到最优的参数组合θ*,其损失函数由下式给出:
Figure FDA0003714513310000024
Figure FDA0003714513310000031
其中
Figure FDA0003714513310000032
为有标签训练集,
Figure FDA0003714513310000033
为第2步得到的软标签训练集,N远大于K,θ为模型的参数,y为新闻的硬标签,其中y∈{0,1},y=1为假新闻,y=0为真新闻,λ为权重参数,P'BERT(y|x)由第2步得到,P'(y|x;θ)由广义的softmax函数给出;
第4步使用FSKD输出测试结果的具体方法是:
将第1步处理后的测试集输入第3步得到的最优的FSKD模型中,输出本文提出的模型在该测试集上的Accuracy值以及F1分数。
2.根据权利要求1所述的基于知识蒸馏的少样本虚假新闻检测方法,其特征在于,第1步数据预处理的具体方法是:
第1.1、收集数据
收集中英文虚假新闻检测数据集的新闻样本,其包括新闻的源文本和对应的标签信息,中文采用FNDC数据集,英文采用GossipCop数据集,该数据集来源于FakeNewsNet,其收集自事实检测网站GossipCop.com;
第1.2、数据处理
在完成数据集的收集工作之后,对数据集进行处理以得到后续训练需要用到的文件格式,对于中文数据集,还需进行切词以及去停用词等处理,之后将其保存为tfrecord文件格式供后续模型使用;
第1.3、划分数据集合
将1.2步得到的数据集合,按照一定的比例将其划分为:有标签训练集、无标签集、测试集;其中无标签集的集合作为第2步使用BERT预训练的测试集,同时作为第3步使用FSKD训练的软标签训练集;测试集为第3步使用FSKD训练的测试集。
3.根据权利要求1所述的基于知识蒸馏的少样本虚假新闻检测方法,其特征在于,第2步使用BERT预训练的具体方法是:
BERT模型是指:
BERT的全称是Bidirectional Encoder Representations from Transformers,是谷歌提出的基于双向Transformer构建的一个预训练的语言表征模型;BERT模型来源于论文BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding;它采用新的掩码语言模型,来生成深度的双向语言表征;
少样本学习是指:
一种仅需要少量的有标签样例进行训练的学习方式;
N-Way K-Shot是指:
N-WayK-Shot分类问题就是指用少量样本构建分类任务,N-way指类别数为N,K-Shot指在训练时,每类使用的有标签的样例数为K;
softmax函数是指:
Figure FDA0003714513310000041
其中zx是神经网络中softmax层之前输出的logits值,θ为模型的参数;
根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,根据不同的K值,抽取相应数量的训练样本微调BERT模型,将无标签的数据集作为测试集合,由训练好的BERT模型为其给定属于每一类的概率分布,得到的软标签集供第3步使用,BERT的输出为:
Figure FDA0003714513310000042
Figure FDA0003714513310000043
CN202011220037.7A 2020-11-05 2020-11-05 一种基于知识蒸馏的少样本虚假新闻检测方法 Active CN112183670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011220037.7A CN112183670B (zh) 2020-11-05 2020-11-05 一种基于知识蒸馏的少样本虚假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011220037.7A CN112183670B (zh) 2020-11-05 2020-11-05 一种基于知识蒸馏的少样本虚假新闻检测方法

Publications (2)

Publication Number Publication Date
CN112183670A CN112183670A (zh) 2021-01-05
CN112183670B true CN112183670B (zh) 2022-08-09

Family

ID=73917056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011220037.7A Active CN112183670B (zh) 2020-11-05 2020-11-05 一种基于知识蒸馏的少样本虚假新闻检测方法

Country Status (1)

Country Link
CN (1) CN112183670B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801162B (zh) * 2021-01-22 2022-06-24 之江实验室 基于图像属性先验的自适应软标签正则化方法
CN112733543A (zh) * 2021-01-26 2021-04-30 上海交通大学 基于文本编辑生成模型的机构命名实体归一化方法和系统
CN112861936B (zh) * 2021-01-26 2023-06-02 北京邮电大学 一种基于图神经网络知识蒸馏的图节点分类方法及装置
CN113158902B (zh) * 2021-04-23 2023-08-11 深圳龙岗智能视听研究院 一种基于知识蒸馏的自动化训练识别模型的方法
CN113312455A (zh) * 2021-06-23 2021-08-27 北京鼎泰智源科技有限公司 一种基于知识蒸馏的合同智能审核方法及装置
CN113610173B (zh) * 2021-08-13 2022-10-04 天津大学 一种基于知识蒸馏的多跨域少样本分类方法
CN114168709B (zh) * 2021-12-03 2022-06-03 中国人民解放军国防科技大学 一种基于轻量化预训练语言模型的文本分类方法
CN115130613B (zh) * 2022-07-26 2024-03-15 西北工业大学 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN117725215A (zh) * 2023-12-19 2024-03-19 暨南大学 一种公平多领域虚假新闻检测方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188194B (zh) * 2019-04-26 2020-12-01 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统
CN111177554B (zh) * 2019-12-27 2022-12-09 西安交通大学 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法
CN111475649B (zh) * 2020-04-02 2023-04-07 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质

Also Published As

Publication number Publication date
CN112183670A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112183670B (zh) 一种基于知识蒸馏的少样本虚假新闻检测方法
CN107092596B (zh) 基于attention CNNs和CCR的文本情感分析方法
Chen et al. A thorough examination of the cnn/daily mail reading comprehension task
CN110096698B (zh) 一种考虑主题的机器阅读理解模型生成方法与系统
KR20190063978A (ko) 비정형 데이터의 카테고리 자동분류 방법
CN111985247B (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN106383816A (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN107247703A (zh) 基于卷积神经网络和集成学习的微博情感分析方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN111581967B (zh) 一种联合LW2V与Triplet网络的新闻主题事件检测方法
Zhou et al. ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge
CN111597328A (zh) 一种新事件主题提取方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN113723083A (zh) 基于bert模型的带权消极监督文本情感分析方法
Helmy et al. Applying deep learning for Arabic keyphrase extraction
CN113420548A (zh) 一种基于知识蒸馏和pu学习的实体抽取采样方法
CN113032541A (zh) 一种基于bert并融合句群检索的答案抽取方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
CN115630653A (zh) 一种基于BERT与BiLSTM的网络流行语情感分析方法
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
Wu et al. Inferring users' emotions for human-mobile voice dialogue applications
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant