CN113312479A

CN113312479A - 跨领域虚假新闻检测方法

Info

Publication number: CN113312479A
Application number: CN202110523434.XA
Authority: CN
Inventors: 曹娟; 王彦焱; 徐朝喜; 谢添; 李锦涛
Original assignee: Hangzhou Zhongke Ruijian Technology Co ltd
Current assignee: Hangzhou Zhongke Ruijian Technology Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-27
Anticipated expiration: 2041-05-13
Also published as: CN113312479B

Abstract

本发明涉及一种跨领域虚假新闻检测方法。本发明适用于虚假新闻检测领域。本发明的技术方案是：一种跨领域虚假新闻检测方法，其特征在于：将新闻文本输入经训练的领域共性特征提取模型，提取新闻文本的领域共性特征，并得出领域共性特征的谣言分类结果；将同一新闻文本输入经训练的领域特性特征提取模型，提取新闻文本的领域特性特征，并得出领域特性特征的谣言分类结果；将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和，得到所述新闻文本经虚假新闻检测的判定结果。

Description

跨领域虚假新闻检测方法

技术领域

本发明涉及一种跨领域虚假新闻检测方法。适用于虚假新闻检测领域。

背景技术

在互联网高速发展的今天，网民群体逐渐扩大，以新浪微博、Twitter等为代表的线上社交媒体平台也如雨后春笋般迅速风行。社交媒体的兴起给人们带来方便的同时，也使得假新闻在网络上大肆传播。虚假信息危害的范围之广，小到个体，大到社会，日益肆虐的谣言传播不但对社会的经济造成影响，还会损害政府、媒体的公信力。

虚假新闻被定义为：故意捏造并可被证实为假的消息。为了方便表达，本文中出现的谣言概念等同于虚假新闻。社交媒体平台中的虚假新闻中包括新闻文本、图片、视频等多模态数据。

目前，虚假新闻检测方法主要分为两大类：基于手工特征的虚假新闻检测方法和基于深度学习的虚假新闻检测方法。

基于手工特征的虚假新闻检测方法侧重于手工特征的提取，主要有三个方面的特征：内容特征、用户特征、传播特征。内容特征主要包括文本长度、情感倾向、主题、Url、tag等，用户特征主要包括粉丝数、关注数、是否认证、性别等，传播特征主要包括转发、评论结构、消息传播网络等。基于手工特征的虚假新闻检测方法特征工程难度大、模型表达能力弱。

基于深度学习的虚假新闻检测方法能自动的学习谣言数据的特征表示，比如虚假新闻文本中特定的语义风格特征，之后将学习到的特征表示输入神经网络分类器中，对新闻的可信度做判断。

目前，主流的虚假新闻检测方法都是通用领域的虚假新闻检测，而虚假信息涉及许多领域，比如军事、社会、医药健康等，不同领域中的虚假新闻具有很大的差异性。比如，军事领域中的谣言事件偏向于战争暴恐、篡改军史、编造军队高管黑点等，而医药健康领域中的谣言事件大多集中于夸大食品药物功效、编造致癌物质组合等。

除此之外，不同领域中虚假新闻的数量也有差异，比如社会领域中的谣言数量多、谣言事件丰富，而军事领域中谣言数量少、谣言事件单一。大多数研究将所有领域等同对待，提取所有领域谣言的共性特征，而不同领域谣言之间既有共性特征也有特性特征，仅仅考虑共性特征无法很好的建模谣言分类任务，除此之外，由于领域间数量分布的差异，数量少的领域中的谣言特征会淹没在大领域中，损害了小领域中的谣言检测性能。

发明内容

本发明要解决的技术问题是：针对上述存在的问题，提供一种跨领域虚假新闻检测方法。

本发明所采用的技术方案是：一种跨领域虚假新闻检测方法，其特征在于：

将新闻文本输入经训练的领域共性特征提取模型，提取新闻文本的领域共性特征，并得出领域共性特征的谣言分类结果；

将同一新闻文本输入经训练的领域特性特征提取模型，提取新闻文本的领域特性特征，并得出领域特性特征的谣言分类结果；

将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和，得到所述新闻文本经虚假新闻检测的判定结果。

所述领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器，领域类别分类器前连接梯度反转层；

使用共性特征提取器作为生成器提取新闻文本的领域共性特征，使用领域类别分类器作为判别器，使用谣言分类器做虚假新闻分类任务。

所述梯度反转层在网络的正向传播时公式为R(x)＝x，在梯度求导时为

其中λ为超参，I为单位矩阵。

使用textCNN作为共性特征提取器；采用多层全连接层作为领域类别分类器；采用多层全连接层作为谣言分类器。

所述领域特性特征提取模型包括特性特征提取器、领域类别分类器和谣言分类器；

使用特性特征提取器提取新闻文本的领域特性特征，使用领域类别分类器作为判别器，使用谣言分类器做虚假新闻分类任务。

所述特性特征提取器使用自注意力机制，将自注意力机制的query设为领域描述子用来知道提取器在不同领域中对不同词汇的关注度。

所述领域类别分类器和谣言分类器均采用交叉熵作为损失函数。

一种跨领域虚假新闻检测装置，其特征在于：

共性特征提取及谣言分类模块，用于将新闻文本输入经训练的领域共性特征提取模型，提取新闻文本的领域共性特征，并得出领域共性特征的谣言分类结果；

特性特征提取及谣言分类模块，用于将同一新闻文本输入经训练的领域特性特征提取模型，提取新闻文本的领域特性特征，并得出领域特性特征的谣言分类结果；

真实性判定模块，用于将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和，得到所述新闻文本经虚假新闻检测的判定结果。

一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述跨领域虚假新闻检测方法的步骤。

一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述跨领域虚假新闻检测方法的步骤。

本发明的有益效果是：本发明通过领域共性特征提取模型在不同领域中寻找谣言共性特征，能够将在大领域中学习到的谣言知识迁移到数据量少的领域，帮助数据量少的领域提升谣言检测性能。本发明通过领域特性特征提取模型在各领域中提取领域特性特征，使得各领域可以保存本领域中谣言特性，减少不同领域之间因数据量差异造成的性能损失。本发明根据领域共性特征提取模型和领域特性特征提取模型的预测结果，得出最终对新闻真实性的判定结果，将两个模型融合，进一步提升了整体的检测性能。

附图说明

图1为实施例的框架图。

图2为实施例中领域共性特征提取模型的框架示意图。

图3为实施例中领域特性特征提取模型的框架示意图。

图4为实施例中自注意力机制的示意图。

具体实施方式

本实施例为一种跨领域虚假新闻检测方法，具体步骤包括：

S1、将新闻文本输入经训练的领域共性特征提取模型，提取新闻文本的领域共性特征，并得出领域共性特征的谣言分类结果。

本例中领域共性特征提取模型通过领域间对抗训练的方法来学习领域共性的特征表达，该领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器，使用共性特征提取器作为生成器提取新闻文本的领域共性特征，使用领域类别分类器作为判别器，使用谣言分类器做虚假新闻分类任务。

本例中使用textCNN作为共性特征提取器抽取文本中的领域共性特征；采用多层全连接层作为领域类别分类器，在分类器前连接梯度反转层(GRL)，梯度反转层在网络的正向传播时公式为R(x)＝x，在梯度求导时为

其中λ为超参，I为单位矩阵；采用多层全连接层作为谣言分类器。

本实施例在谣言分类和领域分类中，均采用常用的交叉熵作为损失函数：

其中y_i为第i个样本x_i的真实标签，F(·)为模型映射函数。模型整体的学习目标是从样本x_i中抽取特征并利用这些特征进行预测，使之尽可能的与真实标签y_i的分布尽可能相似。

对抗训练中，梯度反传时，判别器向领域分类损失最小化的方向更新，同时在梯度值经过梯度反转层流向生成器时使生成器向领域分类损失最大化的方向更新，以此来使不同领域间特征空间对齐，达到提取领域共享特征的目的。在整体训练中，损失函数为领域对抗损失加上谣言分类损失。通过这种multi-task任务的设置使生成器具有提取领域不变谣言特征的能力。

S2、将同一新闻文本输入经训练的领域特性特征提取模型，提取新闻文本的领域特性特征，并得出领域特性特征的谣言分类结果。

本实施例中领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器，使用特性特征提取器提取新闻文本的领域特性特征，使用领域类别分类器作为判别器，使用谣言分类器做虚假新闻分类任务。

本例通过学习领域描述子来指导模型在不同领域中根据领域的特点调整对新闻中词汇的关注度，关注度使用自注意力机制self-attention机制来实现。Self-attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射，在计算attention时主要分为三步，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；第二步一般使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的attention值。

本实施例基于attention的思想，将领域描述子作为query，新闻文本的wordembedding作为key和value，输入不同的领域描述子，提取器自适应的根据不同领域调整词汇的权重，之后通过对value向量的加权求和，得到新闻文本的领域特性特征。

本例在谣言分类和领域分类中，均采用常用的交叉熵作为损失函数：

S3、将领域共性特征提取模型得出的领域共性特征的谣言分类结果和领域特性特征提取模型得出的领域特性特征的谣言分类结果加权求和，得出新闻真实性的最终判定结果。

本实施例还提供一种跨领域虚假新闻检测装置，包括共性特征提取及谣言分类模块、特性特征提取及谣言分类模块和真实性判定模块。

其中共性特征提取及谣言分类模块用于将新闻文本输入经训练的领域共性特征提取模型，提取新闻文本的领域共性特征，并得出领域共性特征的谣言分类结果；特性特征提取及谣言分类模块用于将同一新闻文本输入经训练的领域特性特征提取模型，提取新闻文本的领域特性特征，并得出领域特性特征的谣言分类结果；真实性判定模块用于将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和，得到所述新闻文本经虚假新闻检测的判定结果。

本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本实施例中跨领域虚假新闻检测方法的步骤。

本实施例还提供一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本实施例中跨领域虚假新闻检测方法的步骤。

Claims

1.一种跨领域虚假新闻检测方法，其特征在于：

2.根据权利要求1所述的跨领域虚假新闻检测方法，其特征在于：所述领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器，领域类别分类器前连接梯度反转层；

3.根据权利要求2所述的跨领域虚假新闻检测方法，其特征在于：所述梯度反转层在网络的正向传播时公式为R(x)＝x，在梯度求导时为

其中λ为超参，I为单位矩阵。

4.根据权利要求2或3所述的跨领域虚假新闻检测方法，其特征在于：使用textCNN作为共性特征提取器；采用多层全连接层作为领域类别分类器；采用多层全连接层作为谣言分类器。

5.根据权利要求1所述的跨领域虚假新闻检测方法，其特征在于：所述领域特性特征提取模型包括特性特征提取器、领域类别分类器和谣言分类器；

6.根据权利要求1所述的跨领域虚假新闻检测方法，其特征在于：所述特性特征提取器使用自注意力机制，将自注意力机制的query设为领域描述子用来知道提取器在不同领域中对不同词汇的关注度。

7.根据权利要求2或5所述的跨领域虚假新闻检测方法，其特征在于：所述领域类别分类器和谣言分类器均采用交叉熵作为损失函数。

8.一种跨领域虚假新闻检测装置，其特征在于：

9.一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～7任意一项所述跨领域虚假新闻检测方法的步骤。

10.一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～7任意一项所述跨领域虚假新闻检测方法的步骤。