CN113221872B

CN113221872B - 生成对抗网络与多模态融合的假新闻检测方法

Info

Publication number: CN113221872B
Application number: CN202110607067.1A
Authority: CN
Inventors: 罗森林; 侯钰斌; 潘丽敏; 秦枭喃; 吴舟婷
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-09-20
Anticipated expiration: 2041-05-28
Also published as: CN113221872A

Abstract

本发明涉及生成对抗网络与多模态融合的假新闻检测方法，属于机器学习领域。主要为了解决单模态假新闻检测特征不足，多模态假新闻检测中不同模态特征之间异质性较大且拼接方式简单，模型训练过程局限于单一数据集，导致假新闻检测准确率和模型泛化性低下的问题。本发明首先需要训练条件生成对抗网络，该网络可以根据输入图片输出描述图片的文本特征；然后提取新闻的文本特征和图片特征，使用条件生成对抗网络将新闻图片特征转化为文本特征，将新闻文本特征、描述新闻图片的文本特征和新闻的图片特征进行张量融合；最后，将融合的特征输入神经网络得到新闻真实性的分类结果。

Description

生成对抗网络与多模态融合的假新闻检测方法

技术领域

本发明涉及生成对抗网络与多模态融合的假新闻检测方法，属于机器学习领域。

背景技术

随着网络和社交媒体的快速发展，新闻获取途径多样化，新闻产出速率提升，产出成本降低，这些现象使得新闻的权威性受到了严重的挑战，导致网络上出现了大量真假难辨的新闻。网络和社交媒体的快速发展对新闻产业来说是一把双刃剑。一方面，新闻生产成本变得低廉，用户从网络和社交媒体上获取新闻更加便捷，而且网络和社交媒体允许用户转发和分享新闻，扩大了新闻的传播范围，提升了新闻的传播速度，增大了新闻的影响力。另一方面，网络和社交媒体上鱼龙混杂，时常夹杂着含有误导信息或者伪造信息的新闻，即假新闻。假新闻的传播会给社会和个人带来恶劣的影响。检测假新闻对于稳定舆论，正确引导和规范公民的网络行为，净化网络环境有着不可估量的积极意义。因此，如何高效准确地检测网络和社交媒体上的假新闻具有重要的社会意义和实践价值。

如今的假新闻检测使用机器学习和深度学习的方法，主要分为三类：基于新闻内容单一模态特征的检测，基于社交网络用户交互行为的检测，以及基于新闻多模态内容特征的检测。

1.基于新闻内容单一模态特征的检测

该方法聚焦分析新闻的文本或图片的特征，主要分析文本中词法、语句语义、行文风格、文本长度等特征进行假新闻检测；或者分析新闻图片的真实性等方式进行假新闻检测。单一的模态可以表示部分新闻的特征，但是如今的新闻包含文本和图片，使用单一的模态进行假新闻检测会丢失新闻的特征信息，无法全面地表示新闻整体的特征，从而影响假新闻检测的效果。

2.基于社交网络用户交互行为的检测

网络和社交平台的迅速发展使得更多的用户能够参与新闻的评价和传播过程，这使得网络和社交平台中用户的交互行为成为了一类具有代表性的特征，比如对新闻的点赞、转发、举报行为或用户的评论内容。这类特征经常联合新闻内容特征对新闻的真实性进行检测，建立用户交互关系网与新闻内容的联系，这对分析新闻传播过程和网络环境具有帮助。但是随着用户群体的快速扩大，用户的交互数据变得十分庞杂且充斥噪声，这使得利用这些数据变得非常困难。

3.基于新闻多模态内容特征的检测

多模态特征分析是近几年新兴的一种技术，这项技术在假新闻检测方面主要聚焦于新闻的文本和图片的联合特征分析。现阶段的新闻内容包含图片和文本内容，对新闻的文本和图片的特征进行提取并分析，以期获得全面的新闻特征，全面的特征有利于提升机器学习模型对假新闻检测的效果。同时，为了提升模型对假新闻检测的泛化性，对抗网络也被应用于假新闻检测的任务。但是现阶段多模态特征的融合方式只是简单的拼接，不同模态的异质性问题尚未解决，对抗网络局限于训练数据集导致模型泛化能力低下。

综上所述，现有假新闻检测主要存在以下问题：(1)单模态假新闻检测无法有效利用新闻的特征信息；(2)用户的交互数据十分庞杂且充斥噪声导致无法有效被利用；(3)多模态特征拼接方式简单，无法表示不同模态之间的联系，模态间异质性问题尚未解决，且模型泛化性低下。

发明内容

针对目前假新闻检测技术中存在的种种缺陷，本发明提供了一种生成对抗网络与多模态融合的假新闻检测方法，提升假新闻检测模型的准确率和泛化性。

本发明的设计原理为：首先，需要对新闻的训练数据进行特征提取，包括文本的特征提取和图片的特征提取；其次，引入包含大量图片和描述图片的词语的外部数据集，使用这个数据集训练条件生成对抗网络用以进行图片转语义的特征提取，要求是生成网络可以根据输入的图片生成合适的描述图片的词向量；然后向训练成功的生成网络中输入训练集的新闻图片，生成描述图片的词语特征，将新闻文本特征、描述新闻图片的词语特征和新闻图片的特征进行融合得到新闻整体的特征，使用此特征训练假新闻检测器；最后得到合适假新闻检测模型，使用测试数据集检测该模型对假新闻的检测效果。

本发明的技术方案是通过如下步骤实现的：

步骤1，新闻数据的特征提取。

步骤1.1，对新闻文本进行分词操作，使用TextCNN模型对新闻文本进行特征提取。

步骤1.2，使用预训练的VGG19模型对完成预处理的新闻图片进行特征提取。

步骤2，训练条件生成对抗网络。

步骤2.1，使用预训练的VGG19网络提取图片的特征向量，将图片的特征向量作为条件，与噪声一同输入生成网络，得到描述图片的生成词向量。

步骤2.2，对原本描述图片的词语进行词嵌入，生成真实词向量。将图片特征向量、生成词向量和真实词向量输入判别网络。

步骤2.3，如果判别网络认为生成网络输出的词向量不是生成的，且该词向量与真实词向量相符合，则优化判别网络的参数，否则优化生成网络的参数。

步骤2.4，在两个网络相互对抗过程中训练得到表现良好的生成网络。该生成网络可以根据输入的图片生成描述图片的词向量。

步骤3，特征融合和假新闻检测器的训练。

步骤3.1，将新闻文本特征、描述新闻图片的词语特征和新闻图片的特征进行张量融合得到新闻整体的特征。

步骤3.2，将融合的特征向量输入激活函数是softmax的全连接层，训练该全连接层得到合适假新闻检测模型。

步骤4，使用测试数据检测该模型对假新闻的检测效果。

有益效果

相比于单模态假新闻检测方法和基于用户交互行为的假新闻检测方法，本发明利用了新闻文本和图片两类特征进行假新闻检测，专注于新闻内容的特征分析，减少了来自用户交互行为噪声的干扰，可以全面地表示新闻的整体特征。

相比于现有的多模态假新闻检测方法，本发明可以利用条件生成对抗网络强大的数据分布建模能力，将图像特征映射到文本特征空间，这种方法保留了图片特征信息，强化了文本特征信息，减小了不同种类模态的异质性。

本发明未采用简单的特征拼接的方法，而是采用了张量融合的方法，这种方法弥补了简单拼接造成的特征信息丢失，使得多模态特征充分融合。

本发明在训练条件生成对抗网络阶段，使用外部图片数据集而不是新闻数据集，这种做法的目的是引入外部图片信息，扩充了数据范围，提升了模型的泛化性，缓解了假新闻检测在单一数据集上产生过拟合所带来的负面影响。

附图说明

图1为本发明实施提供的整体流程图。

图2为本发明实施提供的条件生产对抗网络训练流程图。

图3为本发明实施提供的多模态假新闻检测方法流程图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，新闻数据的特征提取。在特征提取之前，将数据集按8:2的比例分为训练集和测试集。

步骤1.1，对新闻文本使用jieba模块将其分为n个词，然后使用预训练的word2vec模型将词语转化为维度为k的词向量w_i，将这些词向量串联得到一个n×k的矩阵S，再使用TextCNN对矩阵S进行卷积运算，提取新闻文本的特征向量T＝TextCNN(S)，最后该特征向量需要通过全连接层得到与词向量同维度的文本特征向量

词向量串联的公式为：

S＝w₁*w₂*…*w_n

其中，*表示词向量串联运算符。

文本特征向量的公式为：

其中，W_tf表示全连接层的权重矩阵，σ(.)是ReLU激活函数。

步骤1.2，调整新闻图片的格式，使用预训练的VGG19模型对完成预处理的新闻图片提取特征向量P，该特征向量需要通过全连接层得到与词向量同维度的图片特征向量

图片特征向量的公式为：

其中，W_tp表示全连接层的权重矩阵，σ(.)是ReLU激活函数。

步骤2，使用外部数据集训练条件生成对抗网络。外部数据集必须包含图片和描述图片的词语。每次选取m个来自数据集的数据样本作为一个训练批次，则训练数据为{(c₁,X₁),(c₂,X₂),…,(c_m,X_m)}。其中c_i为图片的特征向量，X_i＝{x₁,x₂,…,x_n}为描述图片词语的特征向量集合。

步骤2.1，将图片格式重组为特征提取要求的格式。对于第i个训练输入，使用预训练的VGG19网络提取图片的特征向量，将图片的特征向量c_i作为条件，与高斯分布的噪声向量n_i进行拼接，得到条件生成种子

将种子输入生成网络G，生成描述图片的词向量x′₁，再利用预训练的word2vec模型根据生成词向量x′₁选取4个相似度最高的词向量{x′₂,x′₃,x′₄,x′₅}，将5个词向量相加得到生成网络G输出的生成词向量

生成网络G输出的生成词向量的公式为：

步骤2.2，对描述图片的词语使用预训练的word2vec模型将词语转化为词向量x_i，并将所有词向量相加得到描述图片词语融合特征的真实词向量

将图片特征向量c_i、生成词向量

和真实词向量

输入判别网络D。

真实词向量的公式为：

步骤2.3，如果判别网络D认为生成网络G输出的词向量

不是生成的，且该词向量与真实词向量

相符合，则优化判别网络D的参数θ_d，否则优化生成网络G的参数θ_g。

判别网络D参数θ_d优化公式为：

其中V_d是目标函数。

表示在图片约束条件c_i下真实词向量

的判别结果，需要最大化此项；

表示在图片约束条件c_i下生成词向量

的判别结果，需要最小化此项；

表示真实词向量

和生成词向量

的相似度的判别结果，需要最大化此项，综合来说要最大化目标函数V_d。μ_d表判别网络更新参数步长，

是梯度算子。

生成网络G参数θ_g参数优化公式为：

其中V_g是目标函数。G(n_i|c_i)表示在图片约束条件c_i下生成网络G根据噪声n_i生成的词向量。D(G(n_i|c_i))表示在图片约束条件c_i下对生成词向量的判别结果，需要最大化此项。μ_g表示生成网络更新参数的步长。

步骤2.4，在两个网络相互对抗过程中训练得到表现良好的生成网络G。该生成网络G可以根据输入的图片生成描述图片的词向量

步骤3，特征融合和假新闻检测器的训练。

步骤3.1，将新闻文本特征

描述新闻图片的词语特征

和新闻图片的特征

进行张量融合得到新闻整体的特征。

特征向量的融合公式为：

其中，

表示张量的Kronecker积。Kronecker积的运算原理使得每种特征中的参数可以充分融合，有效地体现每种特征之间的共生联系，这样的融合方法能全面地表示新闻整体的特征。

步骤3.2，将融合的特征向量输入到激活函数是softmax的全连接层，训练该全连接层得到合适假新闻检测模型。

使用新闻训练数据集Data＝[(y₁,R₁),(y₂,R₂),…,(y_l,R_l)]训练此部分全连接层，y_i是新闻真实性的标签，R_i是新闻融合的特征向量。该连接层的输出为：

P_i＝Softmax(θ·R_i)

其中，i表示训练新闻的编号。P_i是全连接层的输出，表示检测新闻是假新闻的概率。Softmax(·)表示全连接层的激活函数。θ表示全连接层的参数。

训练使用的损失函数为交叉熵函数：

其中，L(θ)是损失函数，E表示所有训练数据的交叉熵的期望值。

为了得到最好的检测效果，需要最小化损失函数得到全连接层的参数：

步骤4，使用新闻测试数据集测试该模型对假新闻的检测效果。采用准确率(Accuracy)评价模型对假新闻检测的效果，准确率计算方法为：

其中，TP是将真新闻预测为真的数目，FN是将真新闻预测为假的数目，FP是将假新闻预测为真的数目，TN是将假新闻预测为假的数目。

如上所述，便可较好地实现本发明。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.生成对抗网络与多模态融合的假新闻检测方法，其特征在于所述方法包括如下步骤：

步骤1，需要对新闻数据进行特征提取，首先，对新闻文本进行分词操作，使用TextCNN模型对新闻文本进行特征提取，然后，使用预训练的VGG19模型对完成预处理的新闻图片进行特征提取；

步骤2，使用外部数据集训练条件生成对抗网络，首先，使用预训练的VGG19网络提取图片的特征向量，将图片的特征向量与噪声一同输入生成网络，得到描述图片的生成词向量，然后，对原本描述图片的词语进行词嵌入获得真实词向量，将图片特征向量、生成词向量和真实词向量输入判别网络，如果判别网络认为生成网络输出的词向量不是生成的，且该词向量与真实词向量相符合，则优化判别网络的参数，否则优化生成网络的参数，最后，在两个网络相互对抗过程中训练得到表现良好的生成网络；

步骤3，特征融合和假新闻检测器的训练，首先，将新闻文本特征、描述新闻图片的词语特征和新闻图片的特征进行张量融合得到新闻整体的特征，然后，将融合的特征向量输入激活函数是softmax的全连接层，训练该全连接层得到合适假新闻检测模型；

步骤4，使用测试数据检测该模型对假新闻的检测效果。

2.根据权利要求1所述的生成对抗网络与多模态融合的假新闻检测方法，其特征在于：步骤2中根据噪声和条件生成的词向量x′₁，再根据词嵌入模型选取4个相似度最高的词向量组成{x′₁，x′₂，x′₃，x′₄，x′₅}，将5个词向量相加获得生成词向量