CN111177554B - 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 - Google Patents

一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 Download PDF

Info

Publication number
CN111177554B
CN111177554B CN201911378243.8A CN201911378243A CN111177554B CN 111177554 B CN111177554 B CN 111177554B CN 201911378243 A CN201911378243 A CN 201911378243A CN 111177554 B CN111177554 B CN 111177554B
Authority
CN
China
Prior art keywords
news
false
case
true
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911378243.8A
Other languages
English (en)
Other versions
CN111177554A (zh
Inventor
饶元
吴连伟
赵永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911378243.8A priority Critical patent/CN111177554B/zh
Publication of CN111177554A publication Critical patent/CN111177554A/zh
Application granted granted Critical
Publication of CN111177554B publication Critical patent/CN111177554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明提供一种基于生成对抗学习的可解释探索的假新闻识别系统及方法,通过对抗网络激励生成模型与冲突发现机制发掘新闻评论中充满争议性内容,通过自我调节约束机制保持真假新闻下评论之间的差异性,生成了证据丰富的假新闻样本集用于假新闻识别。从评论中发现假新闻的证据,不但提高了假新闻识别的准确率,而且能够解释假新闻的问题所在。

Description

一种基于生成对抗学习的可解释探索的假新闻识别系统及 方法
技术领域
本发明涉及到网络中假新闻检测方法,具体为一种基于生成对抗学习的可解释探索的假新闻识别系统及方法。
背景技术
近年来,互联网的高速发展深刻改变着信息传播渠道,其中社交媒体扮 演着重要的角色。社交媒体以其公开性、平等性及隐匿性等特点,让每个人 都能够成为信息内容的制造者与传播者。这种人人可以参与信息发布和传播 的方式在给人们的信息共享提供极大便利的同时,也带来了一些突出的问题, 特别是网络假新闻的不断滋生和快速传播,给社交媒体的有效利用与科学管 理提出了严峻挑战。因此,如何在网络环境下快速准确地识别假新闻,确保 网络中传播信息内容的真实性,已经成为当前亟需解决的重要问题之一。
当前大多数假新闻识别的研究集中在有效辨识度特征的挖掘,主要利用统计学、机器学习及深度学习等技术捕获网络中信息的文本特征与社会上下文语境特征来识别假新闻。具体地,根据辨识度特征的不同,可将假新闻识别方法概括为:基于表面特征统计分析的方法,即利用统计学思想挖掘与网络信息相关的来源、用户、帖子词法、平台信息等表面特征来研究假新闻的识别;基于深度语义挖掘的方法,即采用深度神经网络捕获帖子深度语义、情感、立场、文体风格等特征来研究假新闻识别;基于文本与元数据结合的方法,即全面挖掘帖子文本内容特征与社交媒体特征来识别假新闻;基于网络传播模式的方法,即利用信息的传播构成的信息转发网络、用户关系网络、平台转发网络等网络模式规律来研究假新闻识别。
然而,上述方法虽然能够以有效的手段来捕获更多可信度辨识特征来提高假新闻识别率,但都难以解决假新闻识别的可解释性问题,即假新闻的证据发现。假新闻的证据发现不仅有利于提高假新闻识别的性能,而且有助于了解虚假新闻的成因,甚至能够有效地探究造谣者的目的意图,为阻止假新闻的产生奠定坚实的基础。
发明内容
针对目前关于网络中假新闻识别方法中存在的缺陷,本发明提供一种基于生成对抗学习的可解释探索的假新闻识别系统及方法,提高假新闻识别的准确性与可解释性。
本发明是通过以下技术方案来实现:
一种基于生成对抗学习的可解释探索的假新闻识别系统,包括:
新闻案例生成模块,先利用对抗网络激励生成模型根据评论生成具有丰富新闻语义特征的新闻案例,再通过冲突发现机制使生成的新闻案例包含新闻评论中的争议性特征,得到真新闻案例和假新闻案例;
自我调节约束机制模块,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化真新闻案例和假新闻案例之间的差异性;
证据强化数据集生成模块,将自我调节约束机制模块得到的真新闻案例和假新闻案例与原始新闻联合起来,形成证据强化数据集,利用自注意力网络在该证据强化数据集进行假新闻识别。
一种基于生成对抗学习的可解释探索的假新闻识别方法,包括如下步骤:
S1,数据初始化;
S2,输入真新闻下的评论序列集合和假新闻下的评论序列集合,利用预训练词向量模型对各评论序列集合中的评论词进行语义嵌入表示。
S3,将S2嵌入的评论词输入到编码器-解码器生成模型,并对编码器- 解码器生成模型引入局部注意力模型,生成新闻案例,包括真新闻案例和假新闻案例;
S4,采用对抗网络激励生成模型,以S3的输出作为输入,以原始新闻作为基准,分别激励生成具有丰富真新闻语义特征的真新闻案例和假新闻语义特征的假新闻案例,输出判别损失;
S5,利用L2范数规范S4生成的新闻案例与原始新闻,使得生成的新闻案例包含新闻评论中的争议性特征,输出差异化损失;
S6,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化S3得到的真新闻案例和假新闻案例之间的差异性,得到具有丰富证据特征的真新闻案例和假新闻案例,输出自我调节约束损失;
S7,将S6得到的真新闻案例和假新闻案例与原始真新闻和原始假新闻相结合,获得证据强化数据集。
S8,采用自注意力网络在S7获得的证据强化数据集上进行假新闻的识别;
S9,将S8的输出输入到激活函数,实现假新闻的识别概率分布预测,输出假新闻识别任务损失;
S10,整合S4的判别损失、S5的差异化损失、S6的自我调节约束损失以及S9获得的假新闻识别任务损失,进行迭代训练,以获得最优的训练参数,获得最优的假新闻识别率。
优选的,S3中,编码器-解码器生成模型生成新闻案例的具体过程为:采用BILSTM作为生成模型的编码器与解码器,在编码器中,所有的评论词拼接成一个词数量为N的序列X,然后将该序列输入到BILSTM进行编码,其中,BILSTM的编码过程可表达为:
hi=BILSTM(xi,hi-1e) (1)
其中,xi指单个评论词的嵌入,hi-1指前一步隐藏层的状态,θe表示编码器BILSTM的所有参数;
在解码器中,解码器的BILSTM将编码器的最后输出hN转化为生成序列G={g1,g2,…,gT},每一个解码词的生成过程可表达为:
h′i=BiLSTM(gi,h′i-1d) (2)
其中,h′i-1指解码器前一步隐藏层的状态,θd表示解码器BILSTM的所有参数。
进一步的,S3中,局部注意力引入的具体过程为:
Figure RE-GDA0002400223600000041
Figure RE-GDA0002400223600000042
其中,
Figure RE-GDA0002400223600000043
指注意力向量,Wc,Vg和bg均为训练参数;
语义上下文信息ci是由局部注意力得来的,其通过对齐向量ai关注编码器的局部前后M个词的信息,具体过程表达为:
Figure RE-GDA0002400223600000044
Figure RE-GDA0002400223600000045
其中,score(·)为打分函数,
Figure RE-GDA0002400223600000046
和Wa为可训练参数。
优选的,S4中,对抗网络激励生成模型生成新闻案例的具体过程为:
D(gTD)=softmax(b+UgT) (7)
其中,gT为编码器-解码器生成模型的解码器最后一层的输出,θD为判别器的训练参数,U和b为可训练参数。
且生成的新闻案例与原始新闻的判别损失为:
Figure RE-GDA0002400223600000047
其中,θg和θD分别为对抗网络激励生成器和判别器的训练参数,y为信息的标签,Eg和D分别表示对抗网络激励生成器和判别器,X为新闻下的评论序列集合,M为数据集的数量,Ladv为判别损失。
优选的,S5中,L2范数规范生成的新闻案例与原始新闻,公式化为:
Figure RE-GDA0002400223600000051
其中,||·||2为L2范数,xt和x′t分别为原始新闻向量和S4生成的新闻案例的向量,T为原始新闻的数量,Lcft为差异化损失。
优选的,S6具体包括:
S6.1,采用弗罗贝尼乌斯范数约束加强针对真新闻案例和假新闻案例的约束,保持生成的真新闻案例和假新闻案例的独立性;公式化为:
Figure RE-GDA0002400223600000052
S6.2,采用KL-散度约束加强生成的真新闻案例和假新闻案例之间的语义差异保持,凸显真新闻下评论和假新闻下评论之间的差异性;公式化为:
Figure RE-GDA0002400223600000053
S6.3,联合弗罗贝尼乌斯范数与KL-散度约束,平衡生成的真新闻案例和假新闻案例之间的独立性与差异性,公式化为:
LR=αLind+(1-α)Lsimi (12)
其中,
Figure RE-GDA0002400223600000054
表示弗罗贝尼乌斯范数,
Figure RE-GDA0002400223600000055
Figure RE-GDA0002400223600000056
分别为生成的真新闻案例与假新闻案例的S3中解码器的输出,
Figure RE-GDA0002400223600000057
Figure RE-GDA0002400223600000058
分别为生成的真新闻案例与假新闻案例的S3中编码器的输出,Lind和Lsimi分别为弗罗贝尼乌斯范数与KL-散度约束的约束损失,α为弗罗贝尼乌斯范数约束与KL-散度约束的平衡权重,LR为自我调节约束损失。
优选的,S7中,证据强化数据集的生成过程表达为:
T={{GF}∪{PF}∪{GT}∪{PT}} (13)
其中,GT和GF分别为S6生成的富有证据特征的真新闻案例和富有证据特征的假新闻案例,PT和PF分别为原始数据集中的真新闻和假新闻。
优选的,S8中,自注意力网络识别假新闻的过程表达为:
p=self-attention([Pi;Gi],θatt) (14)
其中,Pi为一条原始新闻;Gi为针对原始新闻Pi获得的新闻案例;符号;表示拼接操作;θatt为自注意力的参数;p为自注意力输出的向量。
优选的,S9中,假新闻识别概率分布获得的假新闻识别任务损失表达为:
Ltask=-∑ylogp (15)
其中,Ltask为假新闻识别任务损失,y为信息的真实标签,p为自注意力输出的向量。
与现有技术相比,本发明具有以下有益的技术效果:
本发明假新闻识别系统,通过对抗网络激励生成模型与冲突发现机制发掘新闻评论中充满争议性内容,通过自我调节约束机制保持真假新闻下评论之间的差异性,生成了证据丰富的假新闻样本集用于假新闻识别。从评论中发现假新闻的证据,不但提高了假新闻识别的准确率,而且能够解释假新闻的问题所在。
本发明在深入分析传统的假新闻识别算法存在的缺陷的基础上,联合运用生成对抗学习与自约束机制,提出了一种基于生成对抗学习的可解释探索的假新闻识别方法。本发明首次研究假新闻可解释性问题,从一个全新的角度挖掘证据,从评论中发现假新闻的证据,通过对抗生成网络与冲突发现机制发掘新闻评论中充满争议性内容,通过自我调节约束机制保持真假新闻下评论之间的差异性,生成了证据丰富的假新闻样本集用于假新闻识别,本发明为网络中假新闻识别研究提供了新的思路,不仅提高了假新闻识别的准确度,而且挖掘了假新闻的证据,对假新闻的可解释性作了初步研究,能够解释假新闻的问题所在。解决了假新闻识别中评论特征利用不充分、证据挖掘缺失及可解释性研究空白等问题。
附图说明
图1为本发明的编码器-解码器生成模型图。
图2为本发明的架构图。
图3本发明的可解释性结果图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明所述的基于生成对抗学习的可解释探索的假新闻识别系统,主要涉及了3个模块:
新闻案例生成模块(模块1),用于富有争议性内容的新闻案例的生成。该新闻案例生成模块首先利用对抗网络激励生成模型根据评论生成具有丰富新闻语义特征的新闻案例,并设计了冲突发现机制引导生成模型实现评论中富有争议性内容的发现。
自我调节约束机制模块(模块2),该模块发展了自我调节约束机制,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化了真新闻下评论与假新闻下评论之间的差异性,使得生成的具有丰富新闻语义的真新闻案例和假新闻案例更具独特性。
证据强化数据集生成模块(模块3),用于证据强化数据集的生成,该模块将生成的真新闻案例和假新闻案例与原始数据联合起来,形成一个证据丰富的强化数据集即证据强化数据集。最终,本发明利用自注意力网络在该证据强化数据集进行假新闻识别,提高了假新闻准确度,并实现了假新闻的证据发现。本发明为网络中假新闻识别提供了新思路。本发明的编码器-解码器生成模型如图1所示,架构图如图2所示。
本发明方法流程具体为:
阶段0:数据初始化
步骤0:给定数量为s的数据集
Figure RE-GDA0002400223600000081
其中,P指一条帖子, PF为假新闻下的帖子(以下简称假新闻),PT为真新闻下的帖子(以下简称真新闻);X为真新闻或假新闻下的评论序列集合,且X={x1,x2,…,xN},xi指单条评论;y为帖子的标签。
阶段1:富有争议性内容的新闻案例的生成
步骤1:输入真新闻下的评论序列集合(以下简称真评论)和假新闻下的评论序列集合(以下简称假评论)。
步骤2:利用预训练词向量模型对真评论和假评中的评论词分别进行语义嵌入表示。
步骤3:将步骤2嵌入的评论词输入到编码器-解码器生成模型,以生成富有新闻语义的新闻案例,包括真评论下生成的新闻案例即真新闻案例和假评论下生成的新闻案例即假新闻案例。
编码器-解码器生成模型生成新闻案例的具体过程为:
本发明采用BILSTM作为生成模型的编码器与解码器,在编码器中,所有的评论词拼接成一个词数量为N的序列X,然后将该序列输入到BILSTM进行编码,其中,BILSTM的编码过程可表达为:
hi=BILSTM(xi,hi-1e) (1)
其中,xi指单个评论词的嵌入,hi-1指前一步隐藏层的状态,θe表示编码器BILSTM的所有参数。
在解码器中,解码器的BILSTM将编码器的最后输出hN转化为生成序列G={g1,g2,…,gT},每一个解码词的生成过程可表达为:
h′i=BiLSTM(gi,h′i-1d) (2)
其中,h′i-1指解码器前一步隐藏层的状态,θd表示解码器BILSTM的所有参数。
同时,对编码器-解码器生成模型引入局部注意力模型,使得生成的新闻案例聚焦评论中讨论的重点语义。
局部注意力引入的具体过程为:
本发明引入局部注意力,使得解码器不仅考虑当前位置词gi+1的解码上下文语义,还充分考虑编码器所在词的语义上下文信息ci,局部注意力的引入过程可表达为:
Figure RE-GDA0002400223600000091
Figure RE-GDA0002400223600000092
其中,
Figure RE-GDA0002400223600000093
指注意力向量,Wc,Vg和bg均为可训练的参数。
语义上下文信息ci是由局部注意力得来的,其通过对齐向量ai关注编码器的局部前后M个词的信息,具体过程可表达为:
Figure RE-GDA0002400223600000094
Figure RE-GDA0002400223600000095
其中,score(·)为打分函数,
Figure RE-GDA0002400223600000096
和Wa为可训练参数。
步骤4:采用对抗网络激励生成模型,以原始真新闻和原始假新闻作为基准,激励模型分别生成富有真新闻语义特征和假新闻语义特征的新闻案例。
所述步骤4中,对抗网络激励生成模型的具体过程为:
在对抗学习中,对抗网络激励编码器-解码器生成模型的输出输入到判别器中得到一个概率分布,其过程可公式化为:
D(gTD)=softmax(b+UgT) (7)
其中,gT为编码器-解码器生成模型的解码器最后一层的输出;θD为判别器的训练参数;U和b为可训练参数。
对抗网络激励生成器生成的新闻案例更加接近原始新闻,以至于对抗网络中的判别器无法正确分类对抗网络激励生成器生成的新闻案例与原始新闻,其过程可公式化为:
Figure RE-GDA0002400223600000101
其中,θg和θD分别为对抗网络激励生成器和判别器的训练参数,y为信息的标签,Eg和D分别表示对抗网络激励生成器和判别器,M为数据集的数量,Ladv为判别损失。
按照公式(8)可以得到真新闻的判别损失
Figure RE-GDA0002400223600000102
和假新闻的判别损失
Figure RE-GDA0002400223600000103
步骤5:利用L2范数规范步骤4生成的新闻案例与原始真新闻和原始假新闻,使得生成的新闻案例与原始新闻保持一定的差异性,从而使得生成的新闻案例包含新闻评论中的争议性特征。
所述步骤5中,L2范数规范生成的新闻案例与原始新闻,可公式化为:
Figure RE-GDA0002400223600000104
其中,||·||2为L2范数,xt和x′t分别为原始新闻向量和步骤4生成的新闻案例的向量;T为原始新闻的数量;Lcft为差异化损失。
按照公式(9)可以得到真新闻的差异化损失
Figure RE-GDA0002400223600000105
和假新闻的差异化损失
Figure RE-GDA0002400223600000106
阶段2:自我调节约束机制
步骤6:采用弗罗贝尼乌斯范数约束加强针对真评论下和假评论下步骤 3生成的新闻案例的约束,保持生成的真新闻案例和假新闻案例的独立性。
步骤7:采用KL-散度约束加强步骤3生成的真新闻案例特征和假新闻案例特征之间的语义差异保持,凸显真评论和假评论之间的差异性。
所述步骤6与步骤7中,弗罗贝尼乌斯范数与KL-散度约束真评论下和假评论下生成的新闻案例,可分别公式化为:
Figure RE-GDA0002400223600000111
Figure RE-GDA0002400223600000112
其中,
Figure RE-GDA0002400223600000113
表示弗罗贝尼乌斯范数,
Figure RE-GDA0002400223600000114
Figure RE-GDA0002400223600000115
分别为生成的真新闻案例与假新闻案例的步骤3解码器的输出,
Figure RE-GDA0002400223600000116
Figure RE-GDA0002400223600000117
分别为生成的真新闻案例与假新闻案例的步骤3编码器的输出,Lind和Lsimi分别为弗罗贝尼乌斯范数与KL-散度约束的约束损失。
步骤8:联合弗罗贝尼乌斯范数与KL-散度约束,平衡生成的真新闻案例和假新闻案例之间的独立性与差异性。
所述步骤8中,弗罗贝尼乌斯范数约束与KL-散度约束的联合,可公式化为:
LR=αLind+(1-α)Lsimi (12)
其中,α为弗罗贝尼乌斯范数约束与KL-散度约束的平衡权重,LR为自我调节约束损失。此时,经过约束后,得到了具有富有证据特征的真案例和假案例分别为GT和GF
阶段3:证据强化数据集的生成
步骤9:经过阶段1的新闻评论中争议性特征的捕获,以及阶段2的真评论和假评论差异性的发现之后,生成的新闻案例获得了证据特征,将阶段 2约束后生成的新闻案例与原始真新闻和原始假新闻相结合,以获得具有证据强化的数据集即证据强化数据集。
所述步骤9中,证据强化数据集的生成过程可表达为:
T={{GF}∪{PF}∪{GT}∪{PT}} (13)
其中,GT和GF分别为步骤8生成的富有证据特征的真新闻案例和假新闻案例,PT和PF分别为原始数据集
Figure RE-GDA0002400223600000121
中的真新闻和假新闻。
步骤10:采用自注意力网络在步骤9获得的证据强化数据集上进行假新闻的有效识别。
所述步骤10中,注意力网络识别假新闻的过程可表达为:
p=self-attention([Pi;Gi],θatt) (14)
其中,Pi为一条原始新闻;Gi为针对原始新闻Pi获得的新闻案例;符号;表示拼接操作;θatt为自注意力的参数;p为自注意力输出的向量。
步骤11:将步骤10输出的向量,输入到激活函数,实现信息的识别概率分布预测。
所述步骤11中,假新闻识别概率分布获得的任务损失可表达为:
Ltask=-∑ylogp (15)
其中,Ltask为假新闻识别任务损失。y为信息的真实标签。
步骤12:整合步骤4的判别损失,步骤5的差异化损失,步骤8的自我调节约束损失以及步骤11获得的假新闻识别任务损失,进行迭代训练,以使得模型获得最优的训练参数,获得最优的假新闻识别率。
所述步骤12中,所有损失的整合可表达为:
Loss=Ltask+βLadv+γLcft+δLR (16)
其中,β,γ和δ均为损失平衡系数。
本发明在两个真实数据集上进行大量实验证实了其性能的优越性(如表 1所示),并从可解释性结果、门控组件分离、生成新闻案例的效果等多角度分析了本发明的可解释性、可靠性等优点,详情如表2、表3和图3所示。本发明的可解释性结果如图3所示。
具体地,通过表1能够发现,虽然本发明在召回率上低于MTL-LSTM 模型,但相比于其他模型在准确率、精确率和F1值等三个性能指标上获得了明显的性能提升,这充分体现了模型的优越性。
在表2中,Detect表示仅利用检测模型(自注意力模型)来识别假新闻; +G表示在原来模型基础上,增加了生成模型(编码器);+D_T和+D_F表示分别增加了对真新闻生成判断的判别器与对假新闻生成判断的判别器。 +C表示增加了差异化损失。+R表示增加了自我调节约束机制。通过表2能够发现,模型不同组件都是有助于性能提升的。
表3将生成的富有证据特征的真假新闻案例应用在不同模型上,这些模型都获得了一定的性能提升,这说明了本发明模型获得的富有证据特征的真假新闻案例是有效的。
表1本发明实验性能
Figure RE-GDA0002400223600000131
表2本发明组件分离性能
Figure RE-GDA0002400223600000132
Figure RE-GDA0002400223600000141
表3本发明生成的新闻案例效果
Figure RE-GDA0002400223600000142
本发明在深入分析传统的假新闻识别算法存在的缺陷的基础上,联合运用生成对抗学习与自约束机制,提出了一种基于生成对抗学习的可解释探索的假新闻识别方法。本发明重点解决了假新闻识别中评论特征利用不充分、证据挖掘缺失及可解释性研究空白等问题,实现了基于评论特征与帖子特征的对比融合,重点聚焦新闻评论中充满争议性内容的发现,强化了真假新闻下评论之间的差异性特征的提取,发掘了假新闻相关的证据关键语义,提高了信息可信度评估的准确性,并探讨了假新闻的可解释性。本发明围绕网络帖子与评论从多个角度充分挖掘不同类型的可信度特征,该发明适用于网络环境(尤其是社交网络环境)以及能够提供信息可信度指标的相关环境中。

Claims (7)

1.一种基于生成对抗学习的可解释探索的假新闻识别系统,其特征在于,包括:
新闻案例生成模块,先利用对抗网络激励生成模型根据评论生成具有新闻语义特征的新闻案例,再通过冲突发现机制使生成的新闻案例包含新闻评论中的争议性特征,得到真新闻案例和假新闻案例;
自我调节约束机制模块,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化真新闻案例和假新闻案例之间的差异性;
证据强化数据集生成模块,将自我调节约束机制模块得到的真新闻案例和假新闻案例与原始新闻联合起来,形成证据强化数据集,利用自注意力网络在该证据强化数据集进行假新闻识别;
所述利用对抗网络激励生成模型根据评论生成具有新闻语义特征的新闻案例的具体过程为:
D(gTD)=softmax(b+UgT) (7)
其中,gT为编码器-解码器生成模型的解码器最后一层的输出,θD为判别器的训练参数,U和b为可训练参数;
且生成的新闻案例与原始新闻的判别损失为:
Figure FDA0003870303580000011
其中,θg和θD分别为对抗网络激励生成器和判别器的训练参数,y为信息的标签,Eg和D分别表示对抗网络激励生成器和判别器,X为新闻下的评论序列集合,M为数据集的数量,Ladv为判别损失;
所述通过冲突发现机制使生成的新闻案例包含新闻评论中的争议性特征,具体过程为:利用L2范数规范生成的新闻案例与原始新闻,公式化为:
Figure FDA0003870303580000012
其中,||·||2为L2范数,xt和x′t分别为原始新闻向量和S4生成的新闻案例的向量,T为原始新闻的数量,Lcft为差异化损失。
2.一种基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,包括如下步骤:
S1,数据初始化;
S2,输入真新闻下的评论序列集合和假新闻下的评论序列集合,利用预训练词向量模型对各评论序列集合中的评论词进行语义嵌入表示;
S3,将S2嵌入的评论词输入到编码器-解码器生成模型,并对编码器-解码器生成模型引入局部注意力模型,生成新闻案例,包括真新闻案例和假新闻案例;
S4,采用对抗网络激励生成模型,以S3的输出作为输入,以原始新闻作为基准,分别激励生成具有真新闻语义特征的真新闻案例和假新闻语义特征的假新闻案例,输出判别损失;
S5,利用L2范数规范S4生成的新闻案例与原始新闻,使得生成的新闻案例包含新闻评论中的争议性特征,输出差异化损失;
S6,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化S3得到的真新闻案例和假新闻案例之间的差异性,得到具有证据特征的真新闻案例和假新闻案例,输出自我调节约束损失;
S7,将S6得到的真新闻案例和假新闻案例与原始真新闻和原始假新闻相结合,获得证据强化数据集;
S8,采用自注意力网络在S7获得的证据强化数据集上进行假新闻的识别;
S9,将S8的输出输入到激活函数,实现假新闻的识别概率分布预测,输出假新闻识别任务损失;
S10,整合S4的判别损失、S5的差异化损失、S6的自我调节约束损失以及S9获得的假新闻识别任务损失,进行迭代训练,以获得最优的训练参数,获得最优的假新闻识别率;
S3中,编码器-解码器生成模型生成新闻案例的具体过程为:采用BILSTM作为生成模型的编码器与解码器,在编码器中,所有的评论词拼接成一个词数量为N的序列X,然后将该序列输入到BILSTM进行编码,其中,BILSTM的编码过程可表达为:
hi=BILSTM(xi,hi-1e) (1)
其中,xi指单个评论词的嵌入,hi-1指前一步隐藏层的状态,θe表示编码器BILSTM的所有参数;
在解码器中,解码器的BILSTM将编码器的最后输出hN转化为生成序列G={g1,g2,…,gT},每一个解码词的生成过程可表达为:
h′i=BiLSTM(gi,h′i-1d) (2)
其中,h′i-1指解码器前一步隐藏层的状态,θd表示解码器BILSTM的所有参数;
S3中,局部注意力引入的具体过程为:
Figure FDA0003870303580000031
Figure FDA0003870303580000032
其中,
Figure FDA0003870303580000033
指注意力向量,Wc,Vg和bg均为训练参数;
语义上下文信息ci是由局部注意力得来的,其通过对齐向量ai关注编码器的局部前后M个词的信息,具体过程表达为:
Figure FDA0003870303580000034
Figure FDA0003870303580000041
其中,score(·)为打分函数,
Figure FDA0003870303580000042
和Wa为可训练参数;
S4中,对抗网络激励生成模型生成新闻案例的具体过程为:
D(gTD)=softmax(b+UgT) (7)
其中,gT为编码器-解码器生成模型的解码器最后一层的输出,θD为判别器的训练参数,U和b为可训练参数;
且生成的新闻案例与原始新闻的判别损失为:
Figure FDA0003870303580000043
其中,θg和θD分别为对抗网络激励生成器和判别器的训练参数,y为信息的标签,Eg和D分别表示对抗网络激励生成器和判别器,X为新闻下的评论序列集合,M为数据集的数量,Ladv为判别损失。
3.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S5中,L2范数规范生成的新闻案例与原始新闻,公式化为:
Figure FDA0003870303580000044
其中,||·||2为L2范数,xt和x′t分别为原始新闻向量和S4生成的新闻案例的向量,T为原始新闻的数量,Lcft为差异化损失。
4.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S6具体包括:
S6.1,采用弗罗贝尼乌斯范数约束加强针对真新闻案例和假新闻案例的约束,保持生成的真新闻案例和假新闻案例的独立性;公式化为:
Figure FDA0003870303580000045
S6.2,采用KL-散度约束加强生成的真新闻案例和假新闻案例之间的语义差异保持,凸显真新闻下评论和假新闻下评论之间的差异性;公式化为:
Figure FDA0003870303580000051
S6.3,联合弗罗贝尼乌斯范数与KL-散度约束,平衡生成的真新闻案例和假新闻案例之间的独立性与差异性,公式化为:
LR=αLind+(1-α)Lsimi (12)
其中,
Figure FDA0003870303580000052
表示弗罗贝尼乌斯范数,
Figure FDA0003870303580000053
Figure FDA0003870303580000054
分别为生成的真新闻案例与假新闻案例的S3中解码器的输出,
Figure FDA0003870303580000055
Figure FDA0003870303580000056
分别为生成的真新闻案例与假新闻案例的S3中编码器的输出,Lind和Lsimi分别为弗罗贝尼乌斯范数与KL-散度约束的约束损失,α为弗罗贝尼乌斯范数约束与KL-散度约束的平衡权重,LR为自我调节约束损失。
5.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S7中,证据强化数据集的生成过程表达为:
T={GF}∪{PF}∪{GT}∪{PT}} (13)
其中,GT和GF分别为S6生成的富有证据特征的真新闻案例和富有证据特征的假新闻案例,PT和PF分别为原始数据集中的真新闻和假新闻。
6.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S8中,自注意力网络识别假新闻的过程表达为:
p=self-attention([Pi;Gi],θatt) (14)
其中,Pi为一条原始新闻;Gi为针对原始新闻Pi获得的新闻案例;符号;表示拼接操作;θatt为自注意力的参数;p为自注意力输出的向量。
7.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S9中,假新闻识别概率分布获得的假新闻识别任务损失表达为:
Ltask=-∑ylogp (15)
其中,Ltask为假新闻识别任务损失,y为信息的真实标签,p为自注意力输出的向量。
CN201911378243.8A 2019-12-27 2019-12-27 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 Active CN111177554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911378243.8A CN111177554B (zh) 2019-12-27 2019-12-27 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911378243.8A CN111177554B (zh) 2019-12-27 2019-12-27 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法

Publications (2)

Publication Number Publication Date
CN111177554A CN111177554A (zh) 2020-05-19
CN111177554B true CN111177554B (zh) 2022-12-09

Family

ID=70650484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911378243.8A Active CN111177554B (zh) 2019-12-27 2019-12-27 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法

Country Status (1)

Country Link
CN (1) CN111177554B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183670B (zh) * 2020-11-05 2022-08-09 南开大学 一种基于知识蒸馏的少样本虚假新闻检测方法
CN112396129B (zh) * 2020-12-08 2023-09-05 中山大学 一种对抗样本检测方法及通用对抗攻击防御系统
CN112650851B (zh) * 2020-12-28 2023-04-07 西安交通大学 基于多层次交互式证据生成的虚假新闻识别系统及方法
CN112711951A (zh) * 2021-01-05 2021-04-27 西安交通大学 一种基于归纳意识的虚假新闻可解释性检测系统及方法
CN113505227B (zh) * 2021-07-21 2022-06-10 兰州大学 文本分类方法、装置、电子设备及可读存储介质
CN116579337B (zh) * 2023-07-07 2023-10-10 南开大学 一种融合证据可信度的虚假新闻检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020724A (ja) * 2007-07-12 2009-01-29 Comment Market:Kk コメント管理システム、コメント管理方法、クライアント、およびプログラム
CN108563624A (zh) * 2018-01-03 2018-09-21 清华大学深圳研究生院 一种基于深度学习的自然语言生成方法
CN109614471A (zh) * 2018-12-07 2019-04-12 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法
CN109992703A (zh) * 2019-01-28 2019-07-09 西安交通大学 一种基于多任务学习的差异化特征挖掘的可信度评估方法
CN110188194A (zh) * 2019-04-26 2019-08-30 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020724A (ja) * 2007-07-12 2009-01-29 Comment Market:Kk コメント管理システム、コメント管理方法、クライアント、およびプログラム
CN108563624A (zh) * 2018-01-03 2018-09-21 清华大学深圳研究生院 一种基于深度学习的自然语言生成方法
WO2019183191A1 (en) * 2018-03-22 2019-09-26 Michael Bronstein Method of news evaluation in social media networks
CN109614471A (zh) * 2018-12-07 2019-04-12 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法
CN109992703A (zh) * 2019-01-28 2019-07-09 西安交通大学 一种基于多任务学习的差异化特征挖掘的可信度评估方法
CN110188194A (zh) * 2019-04-26 2019-08-30 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Research on News Topic-Driven Market Flucatuation and Predication;Yuan Rao 等;《 2016 International Conference on Identification, Information and Knowledge in the Internet of Things (IIKI)》;20180205;第559-562页 *
基于生成对抗网络的文本自动生成方法研究;孙博;《中国优秀硕士学位论文全文数据库》;20190115;第I138-5137页 *
跨媒介舆情网络环境下信息传播机制研究与进展;饶元 等;《中国科学(信息科学)》;20171231;第47卷(第12期);第1623-1645页 *

Also Published As

Publication number Publication date
CN111177554A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111177554B (zh) 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN109543722A (zh) 一种基于情感分析模型的情感趋势预测方法
Yang et al. TS-CSW: Text steganalysis and hidden capacity estimation based on convolutional sliding windows
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN114529758A (zh) 基于对比学习和多头自注意力机制的多模态情感分析方法
CN113094566A (zh) 一种深度对抗多模态数据聚类方法
CN115293170A (zh) 一种基于协同注意力融合的方面级多模态情感分析方法
CN114969458B (zh) 基于文本指导的层级自适应融合的多模态情感分析方法
CN115577161A (zh) 融合情感资源的多模态情感分析模型
CN115544279B (zh) 一种基于协同注意力的多模态情感分类方法及其应用
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
Guo et al. Deep multimodal sequence fusion by regularized expressive representation distillation
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN112988959B (zh) 基于证据推断网络的虚假新闻可解释性检测系统及方法
Wu et al. Inferring users' emotions for human-mobile voice dialogue applications
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
Lin et al. Detecting multimedia generated by large ai models: A survey
Unal et al. Visual persuasion in covid-19 social media content: A multi-modal characterization
Aslam et al. Attention-based multimodal sentiment analysis and emotion recognition using deep neural networks
Wang et al. Automatic chinese meme generation using deep neural networks
CN115858728A (zh) 一种基于多模态数据的情感分析方法
CN116257618A (zh) 一种基于细粒度情感分析的多源智能旅游推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant