CN111177554B

CN111177554B - 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法

Info

Publication number: CN111177554B
Application number: CN201911378243.8A
Authority: CN
Inventors: 饶元; 吴连伟; 赵永强
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2022-12-09
Anticipated expiration: 2039-12-27
Also published as: CN111177554A

Abstract

本发明提供一种基于生成对抗学习的可解释探索的假新闻识别系统及方法，通过对抗网络激励生成模型与冲突发现机制发掘新闻评论中充满争议性内容，通过自我调节约束机制保持真假新闻下评论之间的差异性，生成了证据丰富的假新闻样本集用于假新闻识别。从评论中发现假新闻的证据，不但提高了假新闻识别的准确率，而且能够解释假新闻的问题所在。

Description

一种基于生成对抗学习的可解释探索的假新闻识别系统及方法

技术领域

本发明涉及到网络中假新闻检测方法，具体为一种基于生成对抗学习的可解释探索的假新闻识别系统及方法。

背景技术

近年来，互联网的高速发展深刻改变着信息传播渠道，其中社交媒体扮演着重要的角色。社交媒体以其公开性、平等性及隐匿性等特点，让每个人都能够成为信息内容的制造者与传播者。这种人人可以参与信息发布和传播的方式在给人们的信息共享提供极大便利的同时，也带来了一些突出的问题，特别是网络假新闻的不断滋生和快速传播，给社交媒体的有效利用与科学管理提出了严峻挑战。因此，如何在网络环境下快速准确地识别假新闻，确保网络中传播信息内容的真实性，已经成为当前亟需解决的重要问题之一。

当前大多数假新闻识别的研究集中在有效辨识度特征的挖掘，主要利用统计学、机器学习及深度学习等技术捕获网络中信息的文本特征与社会上下文语境特征来识别假新闻。具体地，根据辨识度特征的不同，可将假新闻识别方法概括为：基于表面特征统计分析的方法，即利用统计学思想挖掘与网络信息相关的来源、用户、帖子词法、平台信息等表面特征来研究假新闻的识别；基于深度语义挖掘的方法，即采用深度神经网络捕获帖子深度语义、情感、立场、文体风格等特征来研究假新闻识别；基于文本与元数据结合的方法，即全面挖掘帖子文本内容特征与社交媒体特征来识别假新闻；基于网络传播模式的方法，即利用信息的传播构成的信息转发网络、用户关系网络、平台转发网络等网络模式规律来研究假新闻识别。

然而，上述方法虽然能够以有效的手段来捕获更多可信度辨识特征来提高假新闻识别率，但都难以解决假新闻识别的可解释性问题，即假新闻的证据发现。假新闻的证据发现不仅有利于提高假新闻识别的性能，而且有助于了解虚假新闻的成因，甚至能够有效地探究造谣者的目的意图，为阻止假新闻的产生奠定坚实的基础。

发明内容

针对目前关于网络中假新闻识别方法中存在的缺陷，本发明提供一种基于生成对抗学习的可解释探索的假新闻识别系统及方法，提高假新闻识别的准确性与可解释性。

本发明是通过以下技术方案来实现：

一种基于生成对抗学习的可解释探索的假新闻识别系统，包括：

新闻案例生成模块，先利用对抗网络激励生成模型根据评论生成具有丰富新闻语义特征的新闻案例，再通过冲突发现机制使生成的新闻案例包含新闻评论中的争议性特征，得到真新闻案例和假新闻案例；

自我调节约束机制模块，联合弗罗贝尼乌斯范数约束与KL-散度约束，强化真新闻案例和假新闻案例之间的差异性；

证据强化数据集生成模块，将自我调节约束机制模块得到的真新闻案例和假新闻案例与原始新闻联合起来，形成证据强化数据集，利用自注意力网络在该证据强化数据集进行假新闻识别。

一种基于生成对抗学习的可解释探索的假新闻识别方法，包括如下步骤：

S1，数据初始化；

S2，输入真新闻下的评论序列集合和假新闻下的评论序列集合，利用预训练词向量模型对各评论序列集合中的评论词进行语义嵌入表示。

S3，将S2嵌入的评论词输入到编码器-解码器生成模型，并对编码器- 解码器生成模型引入局部注意力模型，生成新闻案例，包括真新闻案例和假新闻案例；

S4，采用对抗网络激励生成模型，以S3的输出作为输入，以原始新闻作为基准，分别激励生成具有丰富真新闻语义特征的真新闻案例和假新闻语义特征的假新闻案例，输出判别损失；

S5，利用L2范数规范S4生成的新闻案例与原始新闻，使得生成的新闻案例包含新闻评论中的争议性特征，输出差异化损失；

S6，联合弗罗贝尼乌斯范数约束与KL-散度约束，强化S3得到的真新闻案例和假新闻案例之间的差异性，得到具有丰富证据特征的真新闻案例和假新闻案例，输出自我调节约束损失；

S7，将S6得到的真新闻案例和假新闻案例与原始真新闻和原始假新闻相结合，获得证据强化数据集。

S8，采用自注意力网络在S7获得的证据强化数据集上进行假新闻的识别；

S9，将S8的输出输入到激活函数，实现假新闻的识别概率分布预测，输出假新闻识别任务损失；

S10，整合S4的判别损失、S5的差异化损失、S6的自我调节约束损失以及S9获得的假新闻识别任务损失，进行迭代训练，以获得最优的训练参数，获得最优的假新闻识别率。

优选的，S3中，编码器-解码器生成模型生成新闻案例的具体过程为：采用BILSTM作为生成模型的编码器与解码器，在编码器中，所有的评论词拼接成一个词数量为N的序列X，然后将该序列输入到BILSTM进行编码，其中，BILSTM的编码过程可表达为：

h_i＝BILSTM(x_i,h_i-1,θ_e) (1)

其中，x_i指单个评论词的嵌入，h_i-1指前一步隐藏层的状态，θ_e表示编码器BILSTM的所有参数；

在解码器中，解码器的BILSTM将编码器的最后输出h_N转化为生成序列G＝{g₁,g₂,…,g_T}，每一个解码词的生成过程可表达为：

h′_i＝BiLSTM(g_i,h′_i-1,θ_d) (2)

其中，h′_i-1指解码器前一步隐藏层的状态，θ_d表示解码器BILSTM的所有参数。

进一步的，S3中，局部注意力引入的具体过程为：

其中，

指注意力向量，W_c，V_g和b_g均为训练参数；

语义上下文信息c_i是由局部注意力得来的，其通过对齐向量a_i关注编码器的局部前后M个词的信息，具体过程表达为：

其中，score(·)为打分函数，

和W_a为可训练参数。

优选的，S4中，对抗网络激励生成模型生成新闻案例的具体过程为：

D(g_T,θ_D)＝softmax(b+Ug_T) (7)

其中，g_T为编码器-解码器生成模型的解码器最后一层的输出，θ_D为判别器的训练参数，U和b为可训练参数。

且生成的新闻案例与原始新闻的判别损失为：

其中，θ_g和θ_D分别为对抗网络激励生成器和判别器的训练参数，y为信息的标签，E_g和D分别表示对抗网络激励生成器和判别器，X为新闻下的评论序列集合，M为数据集的数量，L_adv为判别损失。

优选的，S5中，L2范数规范生成的新闻案例与原始新闻，公式化为：

其中，||·||₂为L2范数，x_t和x′_t分别为原始新闻向量和S4生成的新闻案例的向量，T为原始新闻的数量，L_cft为差异化损失。

优选的，S6具体包括：

S6.1，采用弗罗贝尼乌斯范数约束加强针对真新闻案例和假新闻案例的约束，保持生成的真新闻案例和假新闻案例的独立性；公式化为：

S6.2，采用KL-散度约束加强生成的真新闻案例和假新闻案例之间的语义差异保持，凸显真新闻下评论和假新闻下评论之间的差异性；公式化为：

S6.3，联合弗罗贝尼乌斯范数与KL-散度约束，平衡生成的真新闻案例和假新闻案例之间的独立性与差异性，公式化为：

L_R＝αL_ind+(1-α)L_simi (12)

其中，

表示弗罗贝尼乌斯范数，

和

分别为生成的真新闻案例与假新闻案例的S3中解码器的输出，

和

分别为生成的真新闻案例与假新闻案例的S3中编码器的输出，L_ind和L_simi分别为弗罗贝尼乌斯范数与KL-散度约束的约束损失，α为弗罗贝尼乌斯范数约束与KL-散度约束的平衡权重，L_R为自我调节约束损失。

优选的，S7中，证据强化数据集的生成过程表达为：

T＝{{G_F}∪{P_F}∪{G_T}∪{P_T}} (13)

其中，G_T和G_F分别为S6生成的富有证据特征的真新闻案例和富有证据特征的假新闻案例，P_T和P_F分别为原始数据集中的真新闻和假新闻。

优选的，S8中，自注意力网络识别假新闻的过程表达为：

p＝self-attention([P_i；G_i],θ_att) (14)

其中，P_i为一条原始新闻；G_i为针对原始新闻P_i获得的新闻案例；符号；表示拼接操作；θ_att为自注意力的参数；p为自注意力输出的向量。

优选的，S9中，假新闻识别概率分布获得的假新闻识别任务损失表达为：

L_task＝-∑ylogp (15)

其中，L_task为假新闻识别任务损失，y为信息的真实标签，p为自注意力输出的向量。

与现有技术相比，本发明具有以下有益的技术效果：

本发明假新闻识别系统，通过对抗网络激励生成模型与冲突发现机制发掘新闻评论中充满争议性内容，通过自我调节约束机制保持真假新闻下评论之间的差异性，生成了证据丰富的假新闻样本集用于假新闻识别。从评论中发现假新闻的证据，不但提高了假新闻识别的准确率，而且能够解释假新闻的问题所在。

本发明在深入分析传统的假新闻识别算法存在的缺陷的基础上，联合运用生成对抗学习与自约束机制，提出了一种基于生成对抗学习的可解释探索的假新闻识别方法。本发明首次研究假新闻可解释性问题，从一个全新的角度挖掘证据，从评论中发现假新闻的证据，通过对抗生成网络与冲突发现机制发掘新闻评论中充满争议性内容，通过自我调节约束机制保持真假新闻下评论之间的差异性，生成了证据丰富的假新闻样本集用于假新闻识别，本发明为网络中假新闻识别研究提供了新的思路，不仅提高了假新闻识别的准确度，而且挖掘了假新闻的证据，对假新闻的可解释性作了初步研究，能够解释假新闻的问题所在。解决了假新闻识别中评论特征利用不充分、证据挖掘缺失及可解释性研究空白等问题。

附图说明

图1为本发明的编码器-解码器生成模型图。

图2为本发明的架构图。

图3本发明的可解释性结果图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明所述的基于生成对抗学习的可解释探索的假新闻识别系统，主要涉及了3个模块：

新闻案例生成模块(模块1)，用于富有争议性内容的新闻案例的生成。该新闻案例生成模块首先利用对抗网络激励生成模型根据评论生成具有丰富新闻语义特征的新闻案例，并设计了冲突发现机制引导生成模型实现评论中富有争议性内容的发现。

自我调节约束机制模块(模块2)，该模块发展了自我调节约束机制，联合弗罗贝尼乌斯范数约束与KL-散度约束，强化了真新闻下评论与假新闻下评论之间的差异性，使得生成的具有丰富新闻语义的真新闻案例和假新闻案例更具独特性。

证据强化数据集生成模块(模块3)，用于证据强化数据集的生成，该模块将生成的真新闻案例和假新闻案例与原始数据联合起来，形成一个证据丰富的强化数据集即证据强化数据集。最终，本发明利用自注意力网络在该证据强化数据集进行假新闻识别，提高了假新闻准确度，并实现了假新闻的证据发现。本发明为网络中假新闻识别提供了新思路。本发明的编码器-解码器生成模型如图1所示，架构图如图2所示。

本发明方法流程具体为：

阶段0：数据初始化

步骤0：给定数量为s的数据集

其中，P指一条帖子， P_F为假新闻下的帖子(以下简称假新闻)，P_T为真新闻下的帖子(以下简称真新闻)；X为真新闻或假新闻下的评论序列集合，且X＝{x₁,x₂,…,x_N}，x_i指单条评论；y为帖子的标签。

阶段1：富有争议性内容的新闻案例的生成

步骤1：输入真新闻下的评论序列集合(以下简称真评论)和假新闻下的评论序列集合(以下简称假评论)。

步骤2：利用预训练词向量模型对真评论和假评中的评论词分别进行语义嵌入表示。

步骤3：将步骤2嵌入的评论词输入到编码器-解码器生成模型，以生成富有新闻语义的新闻案例，包括真评论下生成的新闻案例即真新闻案例和假评论下生成的新闻案例即假新闻案例。

编码器-解码器生成模型生成新闻案例的具体过程为：

本发明采用BILSTM作为生成模型的编码器与解码器，在编码器中，所有的评论词拼接成一个词数量为N的序列X，然后将该序列输入到BILSTM进行编码，其中，BILSTM的编码过程可表达为：

h_i＝BILSTM(x_i,h_i-1,θ_e) (1)

其中，x_i指单个评论词的嵌入，h_i-1指前一步隐藏层的状态，θ_e表示编码器BILSTM的所有参数。

h′_i＝BiLSTM(g_i,h′_i-1,θ_d) (2)

同时，对编码器-解码器生成模型引入局部注意力模型，使得生成的新闻案例聚焦评论中讨论的重点语义。

局部注意力引入的具体过程为：

本发明引入局部注意力，使得解码器不仅考虑当前位置词g_i+1的解码上下文语义，还充分考虑编码器所在词的语义上下文信息c_i，局部注意力的引入过程可表达为：

其中，

指注意力向量，W_c，V_g和b_g均为可训练的参数。

语义上下文信息c_i是由局部注意力得来的，其通过对齐向量a_i关注编码器的局部前后M个词的信息，具体过程可表达为：

其中，score(·)为打分函数，

和W_a为可训练参数。

步骤4：采用对抗网络激励生成模型，以原始真新闻和原始假新闻作为基准，激励模型分别生成富有真新闻语义特征和假新闻语义特征的新闻案例。

所述步骤4中，对抗网络激励生成模型的具体过程为：

在对抗学习中，对抗网络激励编码器-解码器生成模型的输出输入到判别器中得到一个概率分布，其过程可公式化为：

D(g_T,θ_D)＝softmax(b+Ug_T) (7)

其中，g_T为编码器-解码器生成模型的解码器最后一层的输出；θ_D为判别器的训练参数；U和b为可训练参数。

对抗网络激励生成器生成的新闻案例更加接近原始新闻，以至于对抗网络中的判别器无法正确分类对抗网络激励生成器生成的新闻案例与原始新闻，其过程可公式化为：

其中，θ_g和θ_D分别为对抗网络激励生成器和判别器的训练参数，y为信息的标签，E_g和D分别表示对抗网络激励生成器和判别器，M为数据集的数量，L_adv为判别损失。

按照公式(8)可以得到真新闻的判别损失

和假新闻的判别损失

步骤5：利用L2范数规范步骤4生成的新闻案例与原始真新闻和原始假新闻，使得生成的新闻案例与原始新闻保持一定的差异性，从而使得生成的新闻案例包含新闻评论中的争议性特征。

所述步骤5中，L2范数规范生成的新闻案例与原始新闻，可公式化为：

其中，||·||₂为L2范数，x_t和x′_t分别为原始新闻向量和步骤4生成的新闻案例的向量；T为原始新闻的数量；L_cft为差异化损失。

按照公式(9)可以得到真新闻的差异化损失

和假新闻的差异化损失

阶段2：自我调节约束机制

步骤6：采用弗罗贝尼乌斯范数约束加强针对真评论下和假评论下步骤 3生成的新闻案例的约束，保持生成的真新闻案例和假新闻案例的独立性。

步骤7：采用KL-散度约束加强步骤3生成的真新闻案例特征和假新闻案例特征之间的语义差异保持，凸显真评论和假评论之间的差异性。

所述步骤6与步骤7中，弗罗贝尼乌斯范数与KL-散度约束真评论下和假评论下生成的新闻案例，可分别公式化为：

其中，

表示弗罗贝尼乌斯范数，

和

分别为生成的真新闻案例与假新闻案例的步骤3解码器的输出，

和

分别为生成的真新闻案例与假新闻案例的步骤3编码器的输出，L_ind和L_simi分别为弗罗贝尼乌斯范数与KL-散度约束的约束损失。

步骤8：联合弗罗贝尼乌斯范数与KL-散度约束，平衡生成的真新闻案例和假新闻案例之间的独立性与差异性。

所述步骤8中，弗罗贝尼乌斯范数约束与KL-散度约束的联合，可公式化为：

L_R＝αL_ind+(1-α)L_simi (12)

其中，α为弗罗贝尼乌斯范数约束与KL-散度约束的平衡权重，L_R为自我调节约束损失。此时，经过约束后，得到了具有富有证据特征的真案例和假案例分别为G_T和G_F。

阶段3：证据强化数据集的生成

步骤9：经过阶段1的新闻评论中争议性特征的捕获，以及阶段2的真评论和假评论差异性的发现之后，生成的新闻案例获得了证据特征，将阶段 2约束后生成的新闻案例与原始真新闻和原始假新闻相结合，以获得具有证据强化的数据集即证据强化数据集。

所述步骤9中，证据强化数据集的生成过程可表达为：

T＝{{G_F}∪{P_F}∪{G_T}∪{P_T}} (13)

其中，G_T和G_F分别为步骤8生成的富有证据特征的真新闻案例和假新闻案例，P_T和P_F分别为原始数据集

中的真新闻和假新闻。

步骤10：采用自注意力网络在步骤9获得的证据强化数据集上进行假新闻的有效识别。

所述步骤10中，注意力网络识别假新闻的过程可表达为：

p＝self-attention([P_i；G_i],θ_att) (14)

步骤11：将步骤10输出的向量，输入到激活函数，实现信息的识别概率分布预测。

所述步骤11中，假新闻识别概率分布获得的任务损失可表达为：

L_task＝-∑ylogp (15)

其中，L_task为假新闻识别任务损失。y为信息的真实标签。

步骤12：整合步骤4的判别损失，步骤5的差异化损失，步骤8的自我调节约束损失以及步骤11获得的假新闻识别任务损失，进行迭代训练，以使得模型获得最优的训练参数，获得最优的假新闻识别率。

所述步骤12中，所有损失的整合可表达为：

Loss＝L_task+βL_adv+γL_cft+δL_R (16)

其中，β，γ和δ均为损失平衡系数。

本发明在两个真实数据集上进行大量实验证实了其性能的优越性(如表 1所示)，并从可解释性结果、门控组件分离、生成新闻案例的效果等多角度分析了本发明的可解释性、可靠性等优点，详情如表2、表3和图3所示。本发明的可解释性结果如图3所示。

具体地，通过表1能够发现，虽然本发明在召回率上低于MTL-LSTM 模型，但相比于其他模型在准确率、精确率和F1值等三个性能指标上获得了明显的性能提升，这充分体现了模型的优越性。

在表2中，Detect表示仅利用检测模型(自注意力模型)来识别假新闻； +G表示在原来模型基础上，增加了生成模型(编码器)；+D_T和+D_F表示分别增加了对真新闻生成判断的判别器与对假新闻生成判断的判别器。 +C表示增加了差异化损失。+R表示增加了自我调节约束机制。通过表2能够发现，模型不同组件都是有助于性能提升的。

表3将生成的富有证据特征的真假新闻案例应用在不同模型上，这些模型都获得了一定的性能提升，这说明了本发明模型获得的富有证据特征的真假新闻案例是有效的。

表1本发明实验性能

表2本发明组件分离性能

表3本发明生成的新闻案例效果

本发明在深入分析传统的假新闻识别算法存在的缺陷的基础上，联合运用生成对抗学习与自约束机制，提出了一种基于生成对抗学习的可解释探索的假新闻识别方法。本发明重点解决了假新闻识别中评论特征利用不充分、证据挖掘缺失及可解释性研究空白等问题，实现了基于评论特征与帖子特征的对比融合，重点聚焦新闻评论中充满争议性内容的发现，强化了真假新闻下评论之间的差异性特征的提取，发掘了假新闻相关的证据关键语义，提高了信息可信度评估的准确性，并探讨了假新闻的可解释性。本发明围绕网络帖子与评论从多个角度充分挖掘不同类型的可信度特征，该发明适用于网络环境(尤其是社交网络环境)以及能够提供信息可信度指标的相关环境中。