CN111177554B - 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 - Google Patents
一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 Download PDFInfo
- Publication number
- CN111177554B CN111177554B CN201911378243.8A CN201911378243A CN111177554B CN 111177554 B CN111177554 B CN 111177554B CN 201911378243 A CN201911378243 A CN 201911378243A CN 111177554 B CN111177554 B CN 111177554B
- Authority
- CN
- China
- Prior art keywords
- news
- false
- case
- true
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明提供一种基于生成对抗学习的可解释探索的假新闻识别系统及方法,通过对抗网络激励生成模型与冲突发现机制发掘新闻评论中充满争议性内容,通过自我调节约束机制保持真假新闻下评论之间的差异性,生成了证据丰富的假新闻样本集用于假新闻识别。从评论中发现假新闻的证据,不但提高了假新闻识别的准确率,而且能够解释假新闻的问题所在。
Description
技术领域
本发明涉及到网络中假新闻检测方法,具体为一种基于生成对抗学习的可解释探索的假新闻识别系统及方法。
背景技术
近年来,互联网的高速发展深刻改变着信息传播渠道,其中社交媒体扮 演着重要的角色。社交媒体以其公开性、平等性及隐匿性等特点,让每个人 都能够成为信息内容的制造者与传播者。这种人人可以参与信息发布和传播 的方式在给人们的信息共享提供极大便利的同时,也带来了一些突出的问题, 特别是网络假新闻的不断滋生和快速传播,给社交媒体的有效利用与科学管 理提出了严峻挑战。因此,如何在网络环境下快速准确地识别假新闻,确保 网络中传播信息内容的真实性,已经成为当前亟需解决的重要问题之一。
当前大多数假新闻识别的研究集中在有效辨识度特征的挖掘,主要利用统计学、机器学习及深度学习等技术捕获网络中信息的文本特征与社会上下文语境特征来识别假新闻。具体地,根据辨识度特征的不同,可将假新闻识别方法概括为:基于表面特征统计分析的方法,即利用统计学思想挖掘与网络信息相关的来源、用户、帖子词法、平台信息等表面特征来研究假新闻的识别;基于深度语义挖掘的方法,即采用深度神经网络捕获帖子深度语义、情感、立场、文体风格等特征来研究假新闻识别;基于文本与元数据结合的方法,即全面挖掘帖子文本内容特征与社交媒体特征来识别假新闻;基于网络传播模式的方法,即利用信息的传播构成的信息转发网络、用户关系网络、平台转发网络等网络模式规律来研究假新闻识别。
然而,上述方法虽然能够以有效的手段来捕获更多可信度辨识特征来提高假新闻识别率,但都难以解决假新闻识别的可解释性问题,即假新闻的证据发现。假新闻的证据发现不仅有利于提高假新闻识别的性能,而且有助于了解虚假新闻的成因,甚至能够有效地探究造谣者的目的意图,为阻止假新闻的产生奠定坚实的基础。
发明内容
针对目前关于网络中假新闻识别方法中存在的缺陷,本发明提供一种基于生成对抗学习的可解释探索的假新闻识别系统及方法,提高假新闻识别的准确性与可解释性。
本发明是通过以下技术方案来实现:
一种基于生成对抗学习的可解释探索的假新闻识别系统,包括:
新闻案例生成模块,先利用对抗网络激励生成模型根据评论生成具有丰富新闻语义特征的新闻案例,再通过冲突发现机制使生成的新闻案例包含新闻评论中的争议性特征,得到真新闻案例和假新闻案例;
自我调节约束机制模块,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化真新闻案例和假新闻案例之间的差异性;
证据强化数据集生成模块,将自我调节约束机制模块得到的真新闻案例和假新闻案例与原始新闻联合起来,形成证据强化数据集,利用自注意力网络在该证据强化数据集进行假新闻识别。
一种基于生成对抗学习的可解释探索的假新闻识别方法,包括如下步骤:
S1,数据初始化;
S2,输入真新闻下的评论序列集合和假新闻下的评论序列集合,利用预训练词向量模型对各评论序列集合中的评论词进行语义嵌入表示。
S3,将S2嵌入的评论词输入到编码器-解码器生成模型,并对编码器- 解码器生成模型引入局部注意力模型,生成新闻案例,包括真新闻案例和假新闻案例;
S4,采用对抗网络激励生成模型,以S3的输出作为输入,以原始新闻作为基准,分别激励生成具有丰富真新闻语义特征的真新闻案例和假新闻语义特征的假新闻案例,输出判别损失;
S5,利用L2范数规范S4生成的新闻案例与原始新闻,使得生成的新闻案例包含新闻评论中的争议性特征,输出差异化损失;
S6,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化S3得到的真新闻案例和假新闻案例之间的差异性,得到具有丰富证据特征的真新闻案例和假新闻案例,输出自我调节约束损失;
S7,将S6得到的真新闻案例和假新闻案例与原始真新闻和原始假新闻相结合,获得证据强化数据集。
S8,采用自注意力网络在S7获得的证据强化数据集上进行假新闻的识别;
S9,将S8的输出输入到激活函数,实现假新闻的识别概率分布预测,输出假新闻识别任务损失;
S10,整合S4的判别损失、S5的差异化损失、S6的自我调节约束损失以及S9获得的假新闻识别任务损失,进行迭代训练,以获得最优的训练参数,获得最优的假新闻识别率。
优选的,S3中,编码器-解码器生成模型生成新闻案例的具体过程为:采用BILSTM作为生成模型的编码器与解码器,在编码器中,所有的评论词拼接成一个词数量为N的序列X,然后将该序列输入到BILSTM进行编码,其中,BILSTM的编码过程可表达为:
hi=BILSTM(xi,hi-1,θe) (1)
其中,xi指单个评论词的嵌入,hi-1指前一步隐藏层的状态,θe表示编码器BILSTM的所有参数;
在解码器中,解码器的BILSTM将编码器的最后输出hN转化为生成序列G={g1,g2,…,gT},每一个解码词的生成过程可表达为:
h′i=BiLSTM(gi,h′i-1,θd) (2)
其中,h′i-1指解码器前一步隐藏层的状态,θd表示解码器BILSTM的所有参数。
进一步的,S3中,局部注意力引入的具体过程为:
语义上下文信息ci是由局部注意力得来的,其通过对齐向量ai关注编码器的局部前后M个词的信息,具体过程表达为:
优选的,S4中,对抗网络激励生成模型生成新闻案例的具体过程为:
D(gT,θD)=softmax(b+UgT) (7)
其中,gT为编码器-解码器生成模型的解码器最后一层的输出,θD为判别器的训练参数,U和b为可训练参数。
且生成的新闻案例与原始新闻的判别损失为:
其中,θg和θD分别为对抗网络激励生成器和判别器的训练参数,y为信息的标签,Eg和D分别表示对抗网络激励生成器和判别器,X为新闻下的评论序列集合,M为数据集的数量,Ladv为判别损失。
优选的,S5中,L2范数规范生成的新闻案例与原始新闻,公式化为:
其中,||·||2为L2范数,xt和x′t分别为原始新闻向量和S4生成的新闻案例的向量,T为原始新闻的数量,Lcft为差异化损失。
优选的,S6具体包括:
S6.1,采用弗罗贝尼乌斯范数约束加强针对真新闻案例和假新闻案例的约束,保持生成的真新闻案例和假新闻案例的独立性;公式化为:
S6.2,采用KL-散度约束加强生成的真新闻案例和假新闻案例之间的语义差异保持,凸显真新闻下评论和假新闻下评论之间的差异性;公式化为:
S6.3,联合弗罗贝尼乌斯范数与KL-散度约束,平衡生成的真新闻案例和假新闻案例之间的独立性与差异性,公式化为:
LR=αLind+(1-α)Lsimi (12)
其中,表示弗罗贝尼乌斯范数,和分别为生成的真新闻案例与假新闻案例的S3中解码器的输出,和分别为生成的真新闻案例与假新闻案例的S3中编码器的输出,Lind和Lsimi分别为弗罗贝尼乌斯范数与KL-散度约束的约束损失,α为弗罗贝尼乌斯范数约束与KL-散度约束的平衡权重,LR为自我调节约束损失。
优选的,S7中,证据强化数据集的生成过程表达为:
T={{GF}∪{PF}∪{GT}∪{PT}} (13)
其中,GT和GF分别为S6生成的富有证据特征的真新闻案例和富有证据特征的假新闻案例,PT和PF分别为原始数据集中的真新闻和假新闻。
优选的,S8中,自注意力网络识别假新闻的过程表达为:
p=self-attention([Pi;Gi],θatt) (14)
其中,Pi为一条原始新闻;Gi为针对原始新闻Pi获得的新闻案例;符号;表示拼接操作;θatt为自注意力的参数;p为自注意力输出的向量。
优选的,S9中,假新闻识别概率分布获得的假新闻识别任务损失表达为:
Ltask=-∑ylogp (15)
其中,Ltask为假新闻识别任务损失,y为信息的真实标签,p为自注意力输出的向量。
与现有技术相比,本发明具有以下有益的技术效果:
本发明假新闻识别系统,通过对抗网络激励生成模型与冲突发现机制发掘新闻评论中充满争议性内容,通过自我调节约束机制保持真假新闻下评论之间的差异性,生成了证据丰富的假新闻样本集用于假新闻识别。从评论中发现假新闻的证据,不但提高了假新闻识别的准确率,而且能够解释假新闻的问题所在。
本发明在深入分析传统的假新闻识别算法存在的缺陷的基础上,联合运用生成对抗学习与自约束机制,提出了一种基于生成对抗学习的可解释探索的假新闻识别方法。本发明首次研究假新闻可解释性问题,从一个全新的角度挖掘证据,从评论中发现假新闻的证据,通过对抗生成网络与冲突发现机制发掘新闻评论中充满争议性内容,通过自我调节约束机制保持真假新闻下评论之间的差异性,生成了证据丰富的假新闻样本集用于假新闻识别,本发明为网络中假新闻识别研究提供了新的思路,不仅提高了假新闻识别的准确度,而且挖掘了假新闻的证据,对假新闻的可解释性作了初步研究,能够解释假新闻的问题所在。解决了假新闻识别中评论特征利用不充分、证据挖掘缺失及可解释性研究空白等问题。
附图说明
图1为本发明的编码器-解码器生成模型图。
图2为本发明的架构图。
图3本发明的可解释性结果图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明所述的基于生成对抗学习的可解释探索的假新闻识别系统,主要涉及了3个模块:
新闻案例生成模块(模块1),用于富有争议性内容的新闻案例的生成。该新闻案例生成模块首先利用对抗网络激励生成模型根据评论生成具有丰富新闻语义特征的新闻案例,并设计了冲突发现机制引导生成模型实现评论中富有争议性内容的发现。
自我调节约束机制模块(模块2),该模块发展了自我调节约束机制,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化了真新闻下评论与假新闻下评论之间的差异性,使得生成的具有丰富新闻语义的真新闻案例和假新闻案例更具独特性。
证据强化数据集生成模块(模块3),用于证据强化数据集的生成,该模块将生成的真新闻案例和假新闻案例与原始数据联合起来,形成一个证据丰富的强化数据集即证据强化数据集。最终,本发明利用自注意力网络在该证据强化数据集进行假新闻识别,提高了假新闻准确度,并实现了假新闻的证据发现。本发明为网络中假新闻识别提供了新思路。本发明的编码器-解码器生成模型如图1所示,架构图如图2所示。
本发明方法流程具体为:
阶段0:数据初始化
步骤0:给定数量为s的数据集其中,P指一条帖子, PF为假新闻下的帖子(以下简称假新闻),PT为真新闻下的帖子(以下简称真新闻);X为真新闻或假新闻下的评论序列集合,且X={x1,x2,…,xN},xi指单条评论;y为帖子的标签。
阶段1:富有争议性内容的新闻案例的生成
步骤1:输入真新闻下的评论序列集合(以下简称真评论)和假新闻下的评论序列集合(以下简称假评论)。
步骤2:利用预训练词向量模型对真评论和假评中的评论词分别进行语义嵌入表示。
步骤3:将步骤2嵌入的评论词输入到编码器-解码器生成模型,以生成富有新闻语义的新闻案例,包括真评论下生成的新闻案例即真新闻案例和假评论下生成的新闻案例即假新闻案例。
编码器-解码器生成模型生成新闻案例的具体过程为:
本发明采用BILSTM作为生成模型的编码器与解码器,在编码器中,所有的评论词拼接成一个词数量为N的序列X,然后将该序列输入到BILSTM进行编码,其中,BILSTM的编码过程可表达为:
hi=BILSTM(xi,hi-1,θe) (1)
其中,xi指单个评论词的嵌入,hi-1指前一步隐藏层的状态,θe表示编码器BILSTM的所有参数。
在解码器中,解码器的BILSTM将编码器的最后输出hN转化为生成序列G={g1,g2,…,gT},每一个解码词的生成过程可表达为:
h′i=BiLSTM(gi,h′i-1,θd) (2)
其中,h′i-1指解码器前一步隐藏层的状态,θd表示解码器BILSTM的所有参数。
同时,对编码器-解码器生成模型引入局部注意力模型,使得生成的新闻案例聚焦评论中讨论的重点语义。
局部注意力引入的具体过程为:
本发明引入局部注意力,使得解码器不仅考虑当前位置词gi+1的解码上下文语义,还充分考虑编码器所在词的语义上下文信息ci,局部注意力的引入过程可表达为:
语义上下文信息ci是由局部注意力得来的,其通过对齐向量ai关注编码器的局部前后M个词的信息,具体过程可表达为:
步骤4:采用对抗网络激励生成模型,以原始真新闻和原始假新闻作为基准,激励模型分别生成富有真新闻语义特征和假新闻语义特征的新闻案例。
所述步骤4中,对抗网络激励生成模型的具体过程为:
在对抗学习中,对抗网络激励编码器-解码器生成模型的输出输入到判别器中得到一个概率分布,其过程可公式化为:
D(gT,θD)=softmax(b+UgT) (7)
其中,gT为编码器-解码器生成模型的解码器最后一层的输出;θD为判别器的训练参数;U和b为可训练参数。
对抗网络激励生成器生成的新闻案例更加接近原始新闻,以至于对抗网络中的判别器无法正确分类对抗网络激励生成器生成的新闻案例与原始新闻,其过程可公式化为:
其中,θg和θD分别为对抗网络激励生成器和判别器的训练参数,y为信息的标签,Eg和D分别表示对抗网络激励生成器和判别器,M为数据集的数量,Ladv为判别损失。
步骤5:利用L2范数规范步骤4生成的新闻案例与原始真新闻和原始假新闻,使得生成的新闻案例与原始新闻保持一定的差异性,从而使得生成的新闻案例包含新闻评论中的争议性特征。
所述步骤5中,L2范数规范生成的新闻案例与原始新闻,可公式化为:
其中,||·||2为L2范数,xt和x′t分别为原始新闻向量和步骤4生成的新闻案例的向量;T为原始新闻的数量;Lcft为差异化损失。
阶段2:自我调节约束机制
步骤6:采用弗罗贝尼乌斯范数约束加强针对真评论下和假评论下步骤 3生成的新闻案例的约束,保持生成的真新闻案例和假新闻案例的独立性。
步骤7:采用KL-散度约束加强步骤3生成的真新闻案例特征和假新闻案例特征之间的语义差异保持,凸显真评论和假评论之间的差异性。
所述步骤6与步骤7中,弗罗贝尼乌斯范数与KL-散度约束真评论下和假评论下生成的新闻案例,可分别公式化为:
其中,表示弗罗贝尼乌斯范数,和分别为生成的真新闻案例与假新闻案例的步骤3解码器的输出,和分别为生成的真新闻案例与假新闻案例的步骤3编码器的输出,Lind和Lsimi分别为弗罗贝尼乌斯范数与KL-散度约束的约束损失。
步骤8:联合弗罗贝尼乌斯范数与KL-散度约束,平衡生成的真新闻案例和假新闻案例之间的独立性与差异性。
所述步骤8中,弗罗贝尼乌斯范数约束与KL-散度约束的联合,可公式化为:
LR=αLind+(1-α)Lsimi (12)
其中,α为弗罗贝尼乌斯范数约束与KL-散度约束的平衡权重,LR为自我调节约束损失。此时,经过约束后,得到了具有富有证据特征的真案例和假案例分别为GT和GF。
阶段3:证据强化数据集的生成
步骤9:经过阶段1的新闻评论中争议性特征的捕获,以及阶段2的真评论和假评论差异性的发现之后,生成的新闻案例获得了证据特征,将阶段 2约束后生成的新闻案例与原始真新闻和原始假新闻相结合,以获得具有证据强化的数据集即证据强化数据集。
所述步骤9中,证据强化数据集的生成过程可表达为:
T={{GF}∪{PF}∪{GT}∪{PT}} (13)
步骤10:采用自注意力网络在步骤9获得的证据强化数据集上进行假新闻的有效识别。
所述步骤10中,注意力网络识别假新闻的过程可表达为:
p=self-attention([Pi;Gi],θatt) (14)
其中,Pi为一条原始新闻;Gi为针对原始新闻Pi获得的新闻案例;符号;表示拼接操作;θatt为自注意力的参数;p为自注意力输出的向量。
步骤11:将步骤10输出的向量,输入到激活函数,实现信息的识别概率分布预测。
所述步骤11中,假新闻识别概率分布获得的任务损失可表达为:
Ltask=-∑ylogp (15)
其中,Ltask为假新闻识别任务损失。y为信息的真实标签。
步骤12:整合步骤4的判别损失,步骤5的差异化损失,步骤8的自我调节约束损失以及步骤11获得的假新闻识别任务损失,进行迭代训练,以使得模型获得最优的训练参数,获得最优的假新闻识别率。
所述步骤12中,所有损失的整合可表达为:
Loss=Ltask+βLadv+γLcft+δLR (16)
其中,β,γ和δ均为损失平衡系数。
本发明在两个真实数据集上进行大量实验证实了其性能的优越性(如表 1所示),并从可解释性结果、门控组件分离、生成新闻案例的效果等多角度分析了本发明的可解释性、可靠性等优点,详情如表2、表3和图3所示。本发明的可解释性结果如图3所示。
具体地,通过表1能够发现,虽然本发明在召回率上低于MTL-LSTM 模型,但相比于其他模型在准确率、精确率和F1值等三个性能指标上获得了明显的性能提升,这充分体现了模型的优越性。
在表2中,Detect表示仅利用检测模型(自注意力模型)来识别假新闻; +G表示在原来模型基础上,增加了生成模型(编码器);+D_T和+D_F表示分别增加了对真新闻生成判断的判别器与对假新闻生成判断的判别器。 +C表示增加了差异化损失。+R表示增加了自我调节约束机制。通过表2能够发现,模型不同组件都是有助于性能提升的。
表3将生成的富有证据特征的真假新闻案例应用在不同模型上,这些模型都获得了一定的性能提升,这说明了本发明模型获得的富有证据特征的真假新闻案例是有效的。
表1本发明实验性能
表2本发明组件分离性能
表3本发明生成的新闻案例效果
本发明在深入分析传统的假新闻识别算法存在的缺陷的基础上,联合运用生成对抗学习与自约束机制,提出了一种基于生成对抗学习的可解释探索的假新闻识别方法。本发明重点解决了假新闻识别中评论特征利用不充分、证据挖掘缺失及可解释性研究空白等问题,实现了基于评论特征与帖子特征的对比融合,重点聚焦新闻评论中充满争议性内容的发现,强化了真假新闻下评论之间的差异性特征的提取,发掘了假新闻相关的证据关键语义,提高了信息可信度评估的准确性,并探讨了假新闻的可解释性。本发明围绕网络帖子与评论从多个角度充分挖掘不同类型的可信度特征,该发明适用于网络环境(尤其是社交网络环境)以及能够提供信息可信度指标的相关环境中。
Claims (7)
1.一种基于生成对抗学习的可解释探索的假新闻识别系统,其特征在于,包括:
新闻案例生成模块,先利用对抗网络激励生成模型根据评论生成具有新闻语义特征的新闻案例,再通过冲突发现机制使生成的新闻案例包含新闻评论中的争议性特征,得到真新闻案例和假新闻案例;
自我调节约束机制模块,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化真新闻案例和假新闻案例之间的差异性;
证据强化数据集生成模块,将自我调节约束机制模块得到的真新闻案例和假新闻案例与原始新闻联合起来,形成证据强化数据集,利用自注意力网络在该证据强化数据集进行假新闻识别;
所述利用对抗网络激励生成模型根据评论生成具有新闻语义特征的新闻案例的具体过程为:
D(gT,θD)=softmax(b+UgT) (7)
其中,gT为编码器-解码器生成模型的解码器最后一层的输出,θD为判别器的训练参数,U和b为可训练参数;
且生成的新闻案例与原始新闻的判别损失为:
其中,θg和θD分别为对抗网络激励生成器和判别器的训练参数,y为信息的标签,Eg和D分别表示对抗网络激励生成器和判别器,X为新闻下的评论序列集合,M为数据集的数量,Ladv为判别损失;
所述通过冲突发现机制使生成的新闻案例包含新闻评论中的争议性特征,具体过程为:利用L2范数规范生成的新闻案例与原始新闻,公式化为:
其中,||·||2为L2范数,xt和x′t分别为原始新闻向量和S4生成的新闻案例的向量,T为原始新闻的数量,Lcft为差异化损失。
2.一种基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,包括如下步骤:
S1,数据初始化;
S2,输入真新闻下的评论序列集合和假新闻下的评论序列集合,利用预训练词向量模型对各评论序列集合中的评论词进行语义嵌入表示;
S3,将S2嵌入的评论词输入到编码器-解码器生成模型,并对编码器-解码器生成模型引入局部注意力模型,生成新闻案例,包括真新闻案例和假新闻案例;
S4,采用对抗网络激励生成模型,以S3的输出作为输入,以原始新闻作为基准,分别激励生成具有真新闻语义特征的真新闻案例和假新闻语义特征的假新闻案例,输出判别损失;
S5,利用L2范数规范S4生成的新闻案例与原始新闻,使得生成的新闻案例包含新闻评论中的争议性特征,输出差异化损失;
S6,联合弗罗贝尼乌斯范数约束与KL-散度约束,强化S3得到的真新闻案例和假新闻案例之间的差异性,得到具有证据特征的真新闻案例和假新闻案例,输出自我调节约束损失;
S7,将S6得到的真新闻案例和假新闻案例与原始真新闻和原始假新闻相结合,获得证据强化数据集;
S8,采用自注意力网络在S7获得的证据强化数据集上进行假新闻的识别;
S9,将S8的输出输入到激活函数,实现假新闻的识别概率分布预测,输出假新闻识别任务损失;
S10,整合S4的判别损失、S5的差异化损失、S6的自我调节约束损失以及S9获得的假新闻识别任务损失,进行迭代训练,以获得最优的训练参数,获得最优的假新闻识别率;
S3中,编码器-解码器生成模型生成新闻案例的具体过程为:采用BILSTM作为生成模型的编码器与解码器,在编码器中,所有的评论词拼接成一个词数量为N的序列X,然后将该序列输入到BILSTM进行编码,其中,BILSTM的编码过程可表达为:
hi=BILSTM(xi,hi-1,θe) (1)
其中,xi指单个评论词的嵌入,hi-1指前一步隐藏层的状态,θe表示编码器BILSTM的所有参数;
在解码器中,解码器的BILSTM将编码器的最后输出hN转化为生成序列G={g1,g2,…,gT},每一个解码词的生成过程可表达为:
h′i=BiLSTM(gi,h′i-1,θd) (2)
其中,h′i-1指解码器前一步隐藏层的状态,θd表示解码器BILSTM的所有参数;
S3中,局部注意力引入的具体过程为:
语义上下文信息ci是由局部注意力得来的,其通过对齐向量ai关注编码器的局部前后M个词的信息,具体过程表达为:
S4中,对抗网络激励生成模型生成新闻案例的具体过程为:
D(gT,θD)=softmax(b+UgT) (7)
其中,gT为编码器-解码器生成模型的解码器最后一层的输出,θD为判别器的训练参数,U和b为可训练参数;
且生成的新闻案例与原始新闻的判别损失为:
其中,θg和θD分别为对抗网络激励生成器和判别器的训练参数,y为信息的标签,Eg和D分别表示对抗网络激励生成器和判别器,X为新闻下的评论序列集合,M为数据集的数量,Ladv为判别损失。
4.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S6具体包括:
S6.1,采用弗罗贝尼乌斯范数约束加强针对真新闻案例和假新闻案例的约束,保持生成的真新闻案例和假新闻案例的独立性;公式化为:
S6.2,采用KL-散度约束加强生成的真新闻案例和假新闻案例之间的语义差异保持,凸显真新闻下评论和假新闻下评论之间的差异性;公式化为:
S6.3,联合弗罗贝尼乌斯范数与KL-散度约束,平衡生成的真新闻案例和假新闻案例之间的独立性与差异性,公式化为:
LR=αLind+(1-α)Lsimi (12)
5.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S7中,证据强化数据集的生成过程表达为:
T={GF}∪{PF}∪{GT}∪{PT}} (13)
其中,GT和GF分别为S6生成的富有证据特征的真新闻案例和富有证据特征的假新闻案例,PT和PF分别为原始数据集中的真新闻和假新闻。
6.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S8中,自注意力网络识别假新闻的过程表达为:
p=self-attention([Pi;Gi],θatt) (14)
其中,Pi为一条原始新闻;Gi为针对原始新闻Pi获得的新闻案例;符号;表示拼接操作;θatt为自注意力的参数;p为自注意力输出的向量。
7.根据权利要求2所述的基于生成对抗学习的可解释探索的假新闻识别方法,其特征在于,S9中,假新闻识别概率分布获得的假新闻识别任务损失表达为:
Ltask=-∑ylogp (15)
其中,Ltask为假新闻识别任务损失,y为信息的真实标签,p为自注意力输出的向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911378243.8A CN111177554B (zh) | 2019-12-27 | 2019-12-27 | 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911378243.8A CN111177554B (zh) | 2019-12-27 | 2019-12-27 | 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177554A CN111177554A (zh) | 2020-05-19 |
CN111177554B true CN111177554B (zh) | 2022-12-09 |
Family
ID=70650484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911378243.8A Active CN111177554B (zh) | 2019-12-27 | 2019-12-27 | 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177554B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183670B (zh) * | 2020-11-05 | 2022-08-09 | 南开大学 | 一种基于知识蒸馏的少样本虚假新闻检测方法 |
CN112396129B (zh) * | 2020-12-08 | 2023-09-05 | 中山大学 | 一种对抗样本检测方法及通用对抗攻击防御系统 |
CN112650851B (zh) * | 2020-12-28 | 2023-04-07 | 西安交通大学 | 基于多层次交互式证据生成的虚假新闻识别系统及方法 |
CN112711951A (zh) * | 2021-01-05 | 2021-04-27 | 西安交通大学 | 一种基于归纳意识的虚假新闻可解释性检测系统及方法 |
CN113505227B (zh) * | 2021-07-21 | 2022-06-10 | 兰州大学 | 文本分类方法、装置、电子设备及可读存储介质 |
CN116579337B (zh) * | 2023-07-07 | 2023-10-10 | 南开大学 | 一种融合证据可信度的虚假新闻检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020724A (ja) * | 2007-07-12 | 2009-01-29 | Comment Market:Kk | コメント管理システム、コメント管理方法、クライアント、およびプログラム |
CN108563624A (zh) * | 2018-01-03 | 2018-09-21 | 清华大学深圳研究生院 | 一种基于深度学习的自然语言生成方法 |
CN109614471A (zh) * | 2018-12-07 | 2019-04-12 | 北京大学 | 一种基于生成式对抗网络的开放式问题自动生成方法 |
CN109992703A (zh) * | 2019-01-28 | 2019-07-09 | 西安交通大学 | 一种基于多任务学习的差异化特征挖掘的可信度评估方法 |
CN110188194A (zh) * | 2019-04-26 | 2019-08-30 | 哈尔滨工业大学(深圳) | 一种基于多任务学习模型的假新闻检测方法及系统 |
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
-
2019
- 2019-12-27 CN CN201911378243.8A patent/CN111177554B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020724A (ja) * | 2007-07-12 | 2009-01-29 | Comment Market:Kk | コメント管理システム、コメント管理方法、クライアント、およびプログラム |
CN108563624A (zh) * | 2018-01-03 | 2018-09-21 | 清华大学深圳研究生院 | 一种基于深度学习的自然语言生成方法 |
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
CN109614471A (zh) * | 2018-12-07 | 2019-04-12 | 北京大学 | 一种基于生成式对抗网络的开放式问题自动生成方法 |
CN109992703A (zh) * | 2019-01-28 | 2019-07-09 | 西安交通大学 | 一种基于多任务学习的差异化特征挖掘的可信度评估方法 |
CN110188194A (zh) * | 2019-04-26 | 2019-08-30 | 哈尔滨工业大学(深圳) | 一种基于多任务学习模型的假新闻检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Research on News Topic-Driven Market Flucatuation and Predication;Yuan Rao 等;《 2016 International Conference on Identification, Information and Knowledge in the Internet of Things (IIKI)》;20180205;第559-562页 * |
基于生成对抗网络的文本自动生成方法研究;孙博;《中国优秀硕士学位论文全文数据库》;20190115;第I138-5137页 * |
跨媒介舆情网络环境下信息传播机制研究与进展;饶元 等;《中国科学(信息科学)》;20171231;第47卷(第12期);第1623-1645页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111177554A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177554B (zh) | 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 | |
CN110990564B (zh) | 一种基于情感计算与多头注意力机制的负面新闻识别方法 | |
CN109543722A (zh) | 一种基于情感分析模型的情感趋势预测方法 | |
Yang et al. | TS-CSW: Text steganalysis and hidden capacity estimation based on convolutional sliding windows | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN114529758A (zh) | 基于对比学习和多头自注意力机制的多模态情感分析方法 | |
CN113094566A (zh) | 一种深度对抗多模态数据聚类方法 | |
CN115293170A (zh) | 一种基于协同注意力融合的方面级多模态情感分析方法 | |
CN114969458B (zh) | 基于文本指导的层级自适应融合的多模态情感分析方法 | |
CN115577161A (zh) | 融合情感资源的多模态情感分析模型 | |
CN115544279B (zh) | 一种基于协同注意力的多模态情感分类方法及其应用 | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
Guo et al. | Deep multimodal sequence fusion by regularized expressive representation distillation | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN112988959B (zh) | 基于证据推断网络的虚假新闻可解释性检测系统及方法 | |
Wu et al. | Inferring users' emotions for human-mobile voice dialogue applications | |
Al-Tameemi et al. | Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data | |
Lin et al. | Detecting multimedia generated by large ai models: A survey | |
Unal et al. | Visual persuasion in covid-19 social media content: A multi-modal characterization | |
Aslam et al. | Attention-based multimodal sentiment analysis and emotion recognition using deep neural networks | |
Wang et al. | Automatic chinese meme generation using deep neural networks | |
CN115858728A (zh) | 一种基于多模态数据的情感分析方法 | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |