CN111160040B - 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法 - Google Patents

一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法 Download PDF

Info

Publication number
CN111160040B
CN111160040B CN201911368884.5A CN201911368884A CN111160040B CN 111160040 B CN111160040 B CN 111160040B CN 201911368884 A CN201911368884 A CN 201911368884A CN 111160040 B CN111160040 B CN 111160040B
Authority
CN
China
Prior art keywords
features
post
comment
semantics
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911368884.5A
Other languages
English (en)
Other versions
CN111160040A (zh
Inventor
饶元
吴连伟
赵永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911368884.5A priority Critical patent/CN111160040B/zh
Publication of CN111160040A publication Critical patent/CN111160040A/zh
Application granted granted Critical
Publication of CN111160040B publication Critical patent/CN111160040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法,一方面,根据融合特征类型的尺度不同,设计了多种融合模块来自适应的筛选有价值的语义特征,过滤不相关的特征,提高不同类型特征的辨识度。另一方面,设计了融合自注意力模型,融合筛选的语义特征与门控平衡交互网络模块获得的交互特征,得到融合特征,以达到不同尺度语义特征的深度融合,解决了特征融合层次浅,不同类型特征融合不匹配的问题。本发明还提出了门控平衡交互网络,对不同类型的特征进行平衡交互,实现了更具针对性的可信度指示特征的挖掘。

Description

一种基于多尺度门控均衡交互融合网络的信息可信度评估系 统及方法
技术领域
本发明涉及到网络信息的可信度评估方法,具体为一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法。
背景技术
互联网的迅速发展给信息的传播生态带来了极大挑战,引发了大量偏激、谣言及虚假等不可信信息的肆虐与传播的问题,例如澎湃新闻曾在2016年01月04日发布的“江西九江市浔阳区发生6.9级地震”的假新闻所引起的社会恐慌;“上海女孩逃离江西农村”引发的网民对贫富差距、城乡二元结构体制等问题的激烈争论思考及被证实虚假后网友的气愤,严重影响了广大网民的情绪与感情。虚假新闻的滋生严重影响了社会和谐与稳定。另外,Science期刊的研究显示,假新闻比真实信息更具生命力,其比真实信息传播地更远,更快,更深,更广。因此,如何在网络环境下有效识别信息的可信度,对传播信息的内容的可信度进行度量,以确保网络中传播信息的真实性,已成为亟需解决的重要问题。
当前,大多数研究利用深度学习捕获网络信息的大量可信度指示特征用于可信度评估,已经取得了一定的成功。具体地,这些研究通常设计合理的深度神经网络,围绕网络信息挖掘文本内容特征、网络传播模式特征、社会上下文特征等方面,然后使用一些传统的融合策略来融合这些特征,并进行可信度评估。然而,在实践中,发现上述这些方法存在着以下几个方面的缺陷:1)特征融合相对较浅,大多数融合策略通常基于拼接、加性算法或多层感知机等简单的神经网络,难以选择有价值的特征,甚至还保留了一定数量的噪声;2)各种特征的融合一般发生在模型的最后评估阶段,而在中间的语义学习阶段缺乏交叉交互融合。众所周知,语义的交叉交互在社交媒体中是普遍存在的,尤其是在假新闻的帖子与评论之间。帖子和评论之间的交叉、交互融合能够发现语义相关联和争议性语义的部分,不仅能够增强虚假新闻的内容语义表示,还有助于探索假新闻的出错原因。因此,如何表示、平衡和融合这些交叉和交互特征是信息可信度评估的一个重大挑战。
传统的门控机制采用不同类型的激活函数,选择性的筛选或遗忘单一类型的特征,典型案例如循环神经网络中的更新门与遗忘门。这种门控机制很难有效的筛选如从不可信信息中提取的大量不同类型的特征。另外,传统的门控激活单元设计简单,使得特征语义的筛选相对较浅。
发明内容
针对目前关于信息可信度评估方法中存在的缺陷,本发明提供一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法,实现帖子与评论中核心语义的加强与冲突语义的发现,从而发掘更具针对性的可信度指示特征,提高了信息可信度评估的准确性。
本发明是通过以下技术方案来实现:
一种基于多尺度门控均衡交互融合网络的信息可信度评估系统,包括:
特征嵌入模块,用于抽取帖子的表面特征、帖子的语义特征、帖子的情感特征、评论的语义特征及评论的情感特征,并分别进行嵌入。
特征编码模块,用于对特征嵌入模块嵌入的各特征分别进行编码,得到各自的编码特征;
多尺度语义融合网络模块,用于帖子中语义与情感的编码特征的融合、评论中语义与情感的编码特征的融合,在自注意力网络中利用帖子语义、帖子情感、评论语义、评论情感的均衡交互特征对各特征进行深度融合,得到各特征的自注意力特征;用于评论的语义与情感的自注意力特征融合,得到评论总特征,用于帖子的表面特征与帖子的语义及情感的自注意力特征的融合,得到帖子总特征用于任务学习前的帖子总特征与评论总特征的融合;
门控平衡交互网络模块,用于提取帖子和评论的相似性语义及争议性语义,并对其进行平衡,得到用于帖子语义、帖子情感、评论语义、评论情感融合的均衡交互特征;
任务学习模块,用于将帖子总特征与评论总特征的融合特征输入激活函数,实现信息的识别概率分布预测。
一种基于多尺度门控均衡交互融合网络的信息可信度评估方法,包括如下步骤:
S1,数据初始化;
S2,输入帖子表面特征、帖子语义特征、帖子情感特征、评论语义特征及评论情感特征,并对各特征进行嵌入;
S3,采用双向长短期记忆网络对S2嵌入的帖子的语义特征、帖子的情感特征、评论的语义特征及评论的情感特征分别进行编码,得到各自的编码特征;
S4,采用门控A1对S3得到的帖子语义编码特征与帖子情感编码特征进行融合,采用门控A2对S3得到的评论语义编码特征与评论情感编码特征进行融合;S3得到的帖子语义编码特征、帖子情感编码特征、评论语义编码特征和评论情感编码特征分别通过自注意力网络捕获帖子语义和评论语义的深度语义以及帖子情感和评论情感的深度情感;
S5,将门控A1和门控A2的输出输入到门控平衡交互网络的冲突层捕获评论和帖子之间的争议性语义;将门控A1和门控A2的输出输入到门控平衡交互网络的精炼层捕获评论和帖子之间的相似性语义;将捕获的争议性语义和相似性语义输入到门控平衡交互网络的均衡层进行平衡,分别得到帖子语义、帖子情感、评论语义、评论情感的均衡交互特征;
S6,将帖子语义、帖子情感、评论语义、评论情感的均衡交互特征分别与S4得到的各特征的深度语义和深度情感进行相应的深度融合,得到各特征的自注意力特征;
S7,采用门控A3对S6得到的评论语义的自注意力特征与评论情感的自注意力特征进行交叉融合,得到评论总特征,采用门控B对帖子表面特征与帖子语义的自注意力特征及帖子情感的自注意力特征进行交叉融合,得到帖子总特征,采用门控A4对帖子总特征与评论总特征进行交叉融合;
S8,将门控A4的输出输入到激活函数,实现信息的识别概率分布预测。
优选的,S2中,利用独热码对帖子的表面特征进行嵌入,利用预训练的深层通用语义表示模型对帖子的语义特征和评论的语义特征分别进行嵌入,利用预训练的情感表示模型对帖子的情感特征和评论的情感特征进行嵌入。
优选的,S2中,帖子的表面特征的嵌入具体过程为:表面特征包括风格特征以及元数据特征,风格特征与元数据特征的嵌入都是通过独热码实现,两者利用拼接的形式结合在一起形成表面特征。
优选的,S2中,语义特征的嵌入具体过程为:对一个帖子中词i进行词嵌入
Figure BDA0002339155630000041
与位置嵌入
Figure BDA0002339155630000042
其中,一个包含有l个词的帖子的语义嵌入XP表达为:
Figure BDA0002339155630000043
对一个评论中词i进行词嵌入
Figure BDA0002339155630000044
与位置嵌入
Figure BDA0002339155630000045
其中,一个包含有k个词的评论语义嵌入Xc表达为:
Figure BDA0002339155630000046
情感特征的嵌入具体过程为:利用预训练情感表示模型对帖子和评论文本的单个词i进行D维情感嵌入,分别表示为
Figure BDA0002339155630000047
Figure BDA0002339155630000048
其中一个包含l个词的帖子情感嵌入Ep和包含k个词的评论情感嵌入Ec分别表达为:
Figure BDA0002339155630000049
Figure BDA00023391556300000410
优选的,S3中,对S2嵌入的帖子的语义特征、帖子的情感特征、评论的语义特征及评论的情感特征分别进行编码,然后对各得到的结果分别进行最大池化,最大池化后的各池化向量作为相应特征的编码特征。
优选的,S3中,双向长短期记忆网络的编码具体过程为:利用前向长短期记忆网络
Figure BDA0002339155630000051
进行从第一个词到最后一个词学习上下文语境,利用后向长短期记忆网络
Figure BDA0002339155630000052
从最后一个词到第一个词学习上下文语境,最终将两者学习到的上下文语境利用拼接的方式进行整合。
优选的,S5中,冲突层的计算公式为:
Figure BDA0002339155630000053
Figure BDA0002339155630000054
其中,Wf1,Wf2,Wh1,Wh2,bf和bh均为训练参数,⊙为按元素相乘,
Figure BDA0002339155630000055
为门控A1的输出,
Figure BDA0002339155630000056
为门控A2的输出,σ为sigmoid函数,F为获得的帖子和评论之间的争议性语义。
精炼层的计算公式为:
Figure BDA0002339155630000057
Figure BDA0002339155630000058
其中,Wr1,Wr2,Wrp,Wrc,bf和brr均为训练参数,R为获得的帖子和评论之间的相似性语义。
均衡层的计算公式为:
S=R+(1-μr)⊙F (22)
tpx=tanh(WpxS+bpx) (23)
tpe=tanh(WpeS+bpe) (24)
tcx=tanh(WcxS+bcx) (25)
tce=tanh(WceS+bce) (26)
其中,Wpx,Wpe,Wcx,Wce,bpx,bpe,bcx和bce为训练参数,tpx,tpe,tcx和tce分别为用于帖子语义、帖子情感、评论语义、评论情感融合的均衡交互特征。
优选的,S7中,采用门控B对帖子的表面特征与帖子的语义及情感的自注意力特征进行融合的公式为:
μb=σ(Wμb[Xp;Ep]+bμb) (12)
γb=σ(Wγb[Xp;Ep]+bγb) (13)
Figure BDA0002339155630000061
Figure BDA0002339155630000062
Figure BDA0002339155630000063
Figure BDA0002339155630000064
其中,Wμb,Wγb,Wmb,bμb,bγb和bmb均为训练参数,Xp为帖子的语义的自注意力特征,Ep为帖子的情感的自注意力特征,σ为sigmoid函数,M为帖子的表面特征,ob为帖子总特征。
优选的,S8中,任务学习公式为:
Figure BDA0002339155630000065
Loss=-∑ylogP (31)
其中,Wd和bd为训练参数,
Figure BDA0002339155630000066
为门控A4的输出,P为信息可信度评估概率分布预测,y为真实标签,Loss为信息可信度评估方法的损失。
与现有技术相比,本发明具有以下有益的技术效果:
本发明系统设计了多尺度语义融合网络,一方面,根据融合特征类型的尺度不同,设计了多种融合模块来自适应的筛选有价值的语义特征,过滤不相关的特征,提高不同类型特征的辨识度。另一方面,设计了融合自注意力模型,融合筛选的语义特征与门控平衡交互网络模块获得的交互特征,得到融合特征,以达到不同尺度语义特征的深度融合,解决了特征融合层次浅,不同类型特征融合不匹配的问题。本发明还提出了门控平衡交互网络,对不同类型的特征进行平衡交互,实现了更具针对性的可信度指示特征的挖掘。
本发明在采用门控机制和自注意力模型的基础上,提出了一种全新的基于多尺度门控均衡、交互融合网络的信息可信度评估方法,首先发展了多尺度语义融合网络,对有价值的特征进行了筛选与深度融合;然后,设计了门控平衡交互网络来挖掘不同类型的特征,包括帖子与评论之间的相似语义特征以及冲突特征;最终,将这两种网络与自注意力网络有机整合实现信息可信度的准确评估。本发明从一个全新角度,即不同类型特征的交叉交互及不同尺度特征的深度融合,实现帖子与评论中核心语义的加强与冲突语义的发现,从而发掘更具针对性的可信度指示特征,提高了信息可信度评估的准确性。本发明可应用于社交网络环境,且能够捕获相关可信度特征的网络环境中。
附图说明
图1为本发明的架构图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明基于多尺度门控均衡交互融合网络的信息可信度评估系统,主要涉及了5个模块,分别介绍如下:
特征嵌入模块,用于输入特征的嵌入。该特征嵌入模块抽取了多种类型的特征并分别利用不同的嵌入方式对其进行嵌入表示。抽取的多种类型的特征包括帖子的表面特征(包含风格及元数据特征)、帖子与评论的语义及情感特征,具体地,利用独热码的方式对包含风格及元数据特征的表面特征进行嵌入,能够捕获不同表面特征的变化规律;利用预训练深层通用语义表示模型对文本语义(以下语义都指文本语义)进行嵌入,用来表示帖子和评论的单词语义及语境;利用预训练情感表示模型嵌入帖子与评论的文本情感(以下情感都指文本情感),克服了仅利用情感极性来表示文本情感的单调性,能够根据不同序列捕获不同的情感语境。
特征编码模块,用于对帖子及评论的语义及情感特征进行编码。该特征编码模块分别利用不同的双向长短期记忆网络对帖子及评论的语义及情感特征进行编码,能够捕获长序列帖子或评论中的语义上下文语境及情感上下文语境。
多尺度语义融合网络模块,设计了多尺度语义融合网络,一方面,根据融合特征类型的尺度不同,设计了多种融合模块来自适应的筛选有价值的语义特征,过滤不相关的特征,提高不同类型特征的辨识度。另一方面,设计了融合自注意力模型,并将筛选的语义特征嵌入自注意力模型,融合筛选的语义特征与门控平衡交互网络模块获得的交互特征,得到融合特征,以达到不同尺度语义特征的深度融合,解决了特征融合层次浅,不同类型特征融合不匹配的问题。
门控平衡交互网络模块,提出了门控平衡交互网络,对不同类型的特征进行平衡交互,实现了更具针对性的可信度指示特征的挖掘。该网络主要包含过滤无用语义、提取相似语义的精炼层,捕获争议性语义特征的冲突层,以及平衡相似性语义与争议性语义的均衡层,以获得帖子和评论之间的相似性语义与争议性语义,进而实现假新闻的原因发现,是该模型进行可信度评估的关键模块。
任务学习模块,用于任务学习。该任务学习模块将帖子和评论之间整合的所有融合特征输入激活函数,实现信息的识别概率分布预测。本发明的架构图如图1所示。本发明为信息可信度评估提供了新的思路,提高了信息可信度评估准确度。
本发明方法的具体流程如下:
阶段0:数据初始化
步骤0:给定数量为N的数据集
Figure BDA0002339155630000091
其中xi指一条待进行可信度检测的信息,包含帖子P以及该帖子下的M条评论
Figure BDA0002339155630000092
yi表示真假二分类标签;
阶段1:输入特征的嵌入
步骤1:模型的输入特征,包括表面特征(风格特征和元数据特征)与帖子与评论的语义及情感特征;
步骤2:利用独热码对帖子的表面特征进行嵌入形成M,利用预训练的深层通用语义表示模型对帖子和评论的文本语义进行嵌入,利用预训练的情感表示模型对帖子和评论的文本情感进行嵌入。
(1)表面特征的嵌入具体过程为:
本发明捕获了帖子风格特征以及元数据特征作为表面特征,其中,风格特征包括帖子文本中的单词数、标点符号数、大写字母数、情感词数、主观词数、十项阅读量化打分以及词性标记类型等;元数据特征包括帖子的点赞量、转发量以及发布帖子的用户特征信息,例如:是否存在用户名、是否验证、用户个人描述、地理位置、是否有头像等信息。风格特征与元数据特征的嵌入都是通过独热码来实现,两者利用拼接的形式结合在一起形成表面特征M;
(2)文本语义特征的嵌入具体过程为:
本发明利用预训练的语言层次模型BERT对帖子和评论的文本语义进行嵌入。对于帖子的文本语义嵌入,对一个帖子中词i进行词嵌入
Figure BDA0002339155630000093
与位置嵌入
Figure BDA0002339155630000094
其中,一个包含有l个词的帖子的文本语义嵌入XP可表达为:
Figure BDA0002339155630000095
评论的文本语义嵌入与帖子的文本语义嵌入相同,其中,一个包含有k个词的评论文本语义嵌入Xc可表达为:
Figure BDA0002339155630000101
(3)情感特征的嵌入具体过程为:
本发明利用预训练情感表示模型对帖子和评论文本的单个词i进行D维情感嵌入,可表示为
Figure BDA0002339155630000102
Figure BDA0002339155630000103
其中一个包含l个词的帖子情感嵌入Ep和包含k个词的评论情感嵌入Ec可表达为:
Figure BDA0002339155630000104
Figure BDA0002339155630000105
阶段2:特征编码
步骤3:采用双向长短期记忆网络对步骤2嵌入的帖子和评论的文本语义进行编码,以获得其的语义上下文语境;
步骤4:采用双向长短期记忆网络对步骤2嵌入的帖子和评论的情感进行编码,以获得其的情感上下文语境。
所述步骤3和步骤4中,双向长短期记忆网络BILSTM的编码具体过程为:
在BILSTM中,利用前向长短期记忆网络
Figure BDA0002339155630000106
进行从第一个词到最后一个词学习上下文语境,利用后向长短期记忆网络
Figure BDA0002339155630000107
从最后一个词到第一个词学习上下文语境,最终将两者学习到的上下文语境利用拼接的方式进行整合,形成特征编码。其中,BILSTM可表达为:
Figure BDA0002339155630000108
Figure BDA0002339155630000109
Figure BDA00023391556300001010
其中,
Figure BDA00023391556300001011
Figure BDA00023391556300001012
分别是BILSTM的前向长短期记忆网络
Figure BDA00023391556300001013
与后向长短期记忆网络
Figure BDA00023391556300001014
的隐藏层,xi可被帖子的语义嵌入XP,情感嵌入Ep,评论的语义嵌入Xc和情感嵌入Ec代替,
Figure BDA00023391556300001015
表示拼接操作。对应地,该步骤输出帖子的语义编码Sxp,帖子的情感编码Sep,评论的语义编码Sxc和评论的情感编码Sec
阶段3:多尺度语义融合网络
步骤5:将步骤3和步骤4获得的帖子和评论的上下文语境,即帖子的语义编码Sxp,帖子的情感编码Sec,评论的语义编码Sxc和评论的情感编码Sec进行最大池化,得到各自的池化特征,即分别得到帖子的语义池化向量
Figure BDA0002339155630000111
与情感池化向量
Figure BDA0002339155630000112
以及评论的语义池化向量
Figure BDA0002339155630000113
与情感池化向量
Figure BDA0002339155630000114
步骤6:根据融合特征的类型数量的不同,设计了两种尺度的门控融合单元,分别是二类型特征交叉融合单元以及三类型特征交叉融合单元;
步骤7:二类型特征交叉融合单元主要应用在帖子中语义与情感的池化特征的融合,门控A1;评论中语义与情感的池化特征的融合,门控A2;评论的语义与情感的自注意力特征融合,门控A3;以及任务学习前的帖子与评论特征融合,门控A4;
所述步骤7中,二类型特征交叉融合单元的实现,具体过程为:
门控A1、A2、A3与A4结构是相同的,以帖子中语义池化向量
Figure BDA0002339155630000115
与情感池化向量
Figure BDA0002339155630000116
的融合,门控A1为例,其结构可公式化为:
Figure BDA0002339155630000117
Figure BDA0002339155630000118
Figure BDA0002339155630000119
Figure BDA00023391556300001110
其中,
Figure BDA00023391556300001111
Wμa
Figure BDA00023391556300001112
和bμa均为可训练的参数。σ为sigmoid函数。
Figure BDA00023391556300001113
为在门控A1中,帖子的语义特征和情感特征交叉融合输出;对应地,在门控A2中,评论的语义特征和情感特征交叉融合输出为
Figure BDA00023391556300001114
步骤8:三类型特征交叉融合单元主要应用于表面特征M与帖子的语义和情感的自注意力特征的融合,门控B;
所述步骤8中,三类型特征交叉融合单元主要是实现表面特征M,帖子语义的自注意力特征Xp和情感自注意力特征Ep的融合,其结构可公式化为:
μb=σ(Wμb[Xp;Ep]+bμb) (12)
γb=σ(Wγb[Xp;Ep]+bγb) (13)
Figure BDA0002339155630000121
Figure BDA0002339155630000122
Figure BDA0002339155630000123
Figure BDA0002339155630000124
其中,Wμb,Wγb,Wmb,bμb,bγb和bmb均为可训练的参数。γb和μb来调节帖子表面特征、帖子语义的自注意力特征和帖子情感的自注意力特征的交叉融合。ob为帖子总特征。
步骤9:帖子的语义编码与情感编码以及评论的语义编码与情感编码通过自注意力网络捕获深度语义,其可公式化为:
O′=self-attention(QKV) (18)
其中,QKV可由帖子的语义编码Sxp,帖子的情感编码Sep,评论的语义编码Sxc和评论的情感编码Sec代替,对应地,通过自注意力网络捕获的深度语义和深度情感分别为Oxp,Oep,Oxc和Oec
阶段4:门控平衡交互网络
门控交互网络包含冲突层、精炼层以及均衡层。
步骤10:提取帖子和评论的相似性语义及争议性语义,即对步骤7中门控A1获得的输出与门控A2获得的输出进行提取;
步骤11:将门控A1和A2的输出输入到门控平衡交互网络的冲突层捕获评论和帖子之间的争议性语义;
所述步骤11中,冲突层主要获取帖子
Figure BDA0002339155630000125
和评论
Figure BDA0002339155630000126
之间的差异化和冲突性特征,其结构可公式化为:
Figure BDA0002339155630000131
Figure BDA0002339155630000132
其中,Wf1,Wf2,Wh1,Wh2,bf和bh均为可训练参数。⊙为按元素相乘。F为获得的帖子和评论之间的争议性语义。
步骤12:将门控A1和A2的输出输入到门控平衡交互网络的精炼层捕获评论和帖子之间的相似性语义;
所述步骤12中,精炼层主要获取帖子
Figure BDA0002339155630000133
和评论
Figure BDA0002339155630000134
之间的相似性语义,其结构可公式化为:
Figure BDA0002339155630000135
Figure BDA0002339155630000136
其中,Wr1,Wr2,Wrp,Wrc,bf和brr均为可训练的参数。R为获得的帖子和评论之间的相似性语义。
步骤13:将步骤11和步骤12捕获的特征输入到门控平衡交互网络的均衡层来平衡评论和帖子之间的相似性语义及争议性语义,来发现与挖掘不可信信息的原因;
所述步骤13中,均衡层主要平衡相似性语义R与冲突性语义F,其结构可公式化为:
S=R+(1-μr)⊙F (22)
tpx=tanh(WpxS+bpx) (23)
tpe=tanh(WpeS+bpe) (24)
tcx=tanh(WcxS+bcx) (25)
tce=tanh(WceS+bce) (26)
其中,Wpx,Wpe,Wcx,Wce,bpx,bpe,bcx和bce为可训练参数。tpx,tpe,tcx和tce分别为用于帖子语义、帖子情感、评论语义、评论情感融合的均衡交互特征。
步骤14:将步骤13的输出与步骤9的输出进行融合,其融合策略可公式化为:
Opx=tpx⊙O′ (27)
其中,tpx为用于帖子语义融合的均衡交互特征,O′为步骤9获得的自注意力网络的输出即自注意力网络捕获的深度语义。Opx为帖子的深度语义融合特征。
随后,将帖子的深度语义融合特征Opx利用前馈神经网络FFN获得尺度不变性特征,并通过最大池化获得帖子的深度语义融合向量。用于步骤8中三类型特征交叉融合。
Figure BDA0002339155630000141
Figure BDA0002339155630000142
其中,W1,b1和b2均为可训练的参数。Xp为帖子的深度语义融合向量。同样地,该步骤还以同样地方式获得帖子的深度情感融合向量Ep,评论的深度语义融合向量Cx、评论的深度情感融合向量Ce。帖子的深度语义融合向量Xp、帖子的深度情感融合向量Ep,评论的深度语义融合向量Cx、评论的深度情感融合向量Ce分别为帖子语义的自注意力特征、帖子情感的自注意力特征、评论语义的自注意力特征和评论情感的自注意力特征。
门控A3和A4以与步骤7二类型特征融合单元相同的方式分别实现评论的语义与情感的自注意力特征的交叉融合Cxe以及最终的门控B与门控A3的交叉融合
Figure BDA0002339155630000143
阶段5:任务学习
步骤15:将门控A4的输出,即所有融合特征,输入到激活函数,实现信息的识别概率分布预测。
所述步骤15中,任务学习可公式化为:
Figure BDA0002339155630000151
Loss=-∑ylogP (31)
其中,Wd和bd为可训练参数,P为信息可信度评估概率分布预测。y为真实标签。Loss为整个信息可信度评估方法的损失。
本发明在两个真实数据集上进行大量实验证实了其性能的优越性(如表1所示),并从组件分离、门控组件分离、交互网络组件分离等多角度分析了本发明的可靠性、可扩展性等优点,详情如表2-4所示。
具体地,通过表1能够发现,虽然本发明在召回率上低于MTL-LSTM模型,但相比于其他模型在准确率、精确率和F1值等三个性能指标上获得了明显的性能提升,这充分体现了模型的优越性。
在表2中,MGSFN表示多尺度语义融合网络模块,GBIN表示门控平衡交互网络模块。通过表2能够得到,模型不同组件都是有助于性能提升的。
表3专门探究了多尺度语义融合网络组件分离的性能情况,能够发现不同的门控组件都对模型的性能提升起到帮助作用,这些门控组件的组合能够使模型获得最优的性能。
表4详细描述了门控平衡交互网络组件分离的性能情况,能够发现不同层对模型的性能提升都能起到帮助作用,这些层的组合能够使模型实现最优的性能。
表1本发明实验性能
Figure BDA0002339155630000152
表2本发明组件分离性能
Figure BDA0002339155630000161
表3本发明多尺度语义融合网络组件分离性能
Figure BDA0002339155630000162
表4本发明门控平衡交互网络组件分离性能
Figure BDA0002339155630000163
本发明解决了不同类型特征融合层次浅、融合噪声特征难消除、融合特征不匹配及相关特征缺乏交叉交互等问题,实现了不同类型特征的多层次语境化语义嵌入以及多种类型特征的深层次语义融合,重点聚焦于关联特征的平衡交互,强化了具有相似性的核心语义提取与冲突语义特征的挖掘,发掘了更具针对性的可信度指示特征,提高了信息可信度评估的准确性。

Claims (10)

1.一种基于多尺度门控均衡交互融合网络的信息可信度评估系统,其特征在于,包括:
特征嵌入模块,用于抽取帖子的表面特征、帖子的语义特征、帖子的情感特征、评论的语义特征及评论的情感特征,并分别进行嵌入;
特征编码模块,用于对特征嵌入模块嵌入的帖子及评论的语义及情感特征进行编码,得到各自的编码特征;
多尺度语义融合网络模块,用于帖子中语义与情感的编码特征的融合、评论中语义与情感的编码特征的融合,在自注意力网络中利用帖子语义、帖子情感、评论语义、评论情感的均衡交互特征对各特征进行深度融合,得到各特征的自注意力特征;用于评论的语义与情感的自注意力特征融合,得到评论总特征,用于帖子的表面特征与帖子的语义及情感的自注意力特征的融合,得到帖子总特征用于任务学习前的帖子总特征与评论总特征的融合;
门控平衡交互网络模块,用于提取帖子和评论的相似性语义及争议性语义,并对其进行平衡,得到用于帖子语义、帖子情感、评论语义、评论情感融合的均衡交互特征;
任务学习模块,用于将帖子总特征与评论总特征的融合特征输入激活函数,实现信息的识别概率分布预测。
2.一种基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,包括如下步骤:
S1,数据初始化;
S2,输入帖子表面特征、帖子语义特征、帖子情感特征、评论语义特征及评论情感特征,并对各特征进行嵌入;
S3,采用双向长短期记忆网络对S2嵌入的帖子的语义特征、帖子的情感特征、评论的语义特征及评论的情感特征分别进行编码,得到各自的编码特征;
S4,采用门控A1对S3得到的帖子语义编码特征与帖子情感编码特征进行融合,采用门控A2对S3得到的评论语义编码特征与评论情感编码特征进行融合;S3得到的帖子语义编码特征、帖子情感编码特征、评论语义编码特征和评论情感编码特征分别通过自注意力网络捕获帖子语义和评论语义的深度语义以及帖子情感和评论情感的深度情感;
S5,将门控A1和门控A2的输出输入到门控平衡交互网络的冲突层捕获评论和帖子之间的争议性语义;将门控A1和门控A2的输出输入到门控平衡交互网络的精炼层捕获评论和帖子之间的相似性语义;将捕获的争议性语义和相似性语义输入到门控平衡交互网络的均衡层进行平衡,分别得到帖子语义、帖子情感、评论语义、评论情感的均衡交互特征;
S6,将帖子语义、帖子情感、评论语义、评论情感的均衡交互特征分别与S4得到的各特征的深度语义和深度情感进行相应的深度融合,得到各特征的自注意力特征;
S7,采用门控A3对S6得到的评论语义的自注意力特征与评论情感的自注意力特征进行交叉融合,得到评论总特征,采用门控B对帖子表面特征与帖子语义的自注意力特征及帖子情感的自注意力特征进行交叉融合,得到帖子总特征,采用门控A4对帖子总特征与评论总特征进行交叉融合;
S8,将门控A4的输出输入到激活函数,实现信息的识别概率分布预测。
3.根据权利要求2所述的基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,S2中,利用独热码对帖子的表面特征进行嵌入,利用预训练的深层通用语义表示模型对帖子的语义特征和评论的语义特征分别进行嵌入,利用预训练的情感表示模型对帖子的情感特征和评论的情感特征进行嵌入。
4.根据权利要求2所述的基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,S2中,帖子的表面特征的嵌入具体过程为:表面特征包括风格特征以及元数据特征,风格特征与元数据特征的嵌入都是通过独热码实现,两者利用拼接的形式结合在一起形成表面特征。
5.根据权利要求2所述的基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,S2中,语义特征的嵌入具体过程为:对一个帖子中词i进行词嵌入
Figure FDA0003287600170000031
与位置嵌入
Figure FDA0003287600170000032
其中,一个包含有l个词的帖子的语义嵌入XP表达为:
Figure FDA0003287600170000033
对一个评论中词i进行词嵌入
Figure FDA0003287600170000034
与位置嵌入
Figure FDA0003287600170000035
其中,一个包含有k个词的评论语义嵌入Xc表达为:
Figure FDA0003287600170000036
情感特征的嵌入具体过程为:利用预训练情感表示模型对帖子和评论文本的单个词i进行D维情感嵌入,分别表示为
Figure FDA0003287600170000037
Figure FDA0003287600170000038
其中一个包含l个词的帖子情感嵌入Ep和包含k个词的评论情感嵌入Ec分别表达为:
Figure FDA0003287600170000039
Figure FDA00032876001700000310
6.根据权利要求2所述的基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,S3中,对S2嵌入的帖子的语义特征、帖子的情感特征、评论的语义特征及评论的情感特征分别进行编码,然后对各得到的结果分别进行最大池化,最大池化后的各池化向量作为相应特征的编码特征。
7.根据权利要求2所述的基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,S3中,双向长短期记忆网络的编码具体过程为:利用前向长短期记忆网络
Figure FDA00032876001700000311
进行从第一个词到最后一个词学习上下文语境,利用后向长短期记忆网络
Figure FDA00032876001700000312
从最后一个词到第一个词学习上下文语境,最终将两者学习到的上下文语境利用拼接的方式进行整合。
8.根据权利要求2所述的基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,S5中,冲突层的计算公式为:
Figure FDA0003287600170000041
Figure FDA0003287600170000042
其中,Wf1,Wf2,Wh1,Wh2,bf和bh均为训练参数,⊙为按元素相乘,
Figure FDA0003287600170000043
为门控A1的输出,
Figure FDA0003287600170000044
为门控A2的输出,σ为sigmoid函数,F为获得的帖子和评论之间的争议性语义;
精炼层的计算公式为:
Figure FDA0003287600170000045
Figure FDA0003287600170000046
其中,Wr1,Wr2,Wrp,Wrc,bf和brr均为训练参数,R为获得的帖子和评论之间的相似性语义;
均衡层的计算公式为:
S=R+(1-μr)⊙F (22)
tpx=tanh(WpxS+bpx) (23)
tpe=tanh(WpeS+bpe) (24)
tcx=tanh(WcxS+bcx) (25)
tce=tanh(WceS+bce) (26)
其中,Wpx,Wpe,Wcx,Wce,bpx,bpe,bcx和bce为训练参数,tpx,tpe,tcx和tce分别为用于帖子语义、帖子情感、评论语义、评论情感融合的均衡交互特征。
9.根据权利要求2所述的基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,S7中,采用门控B对帖子的表面特征与帖子的语义及情感的自注意力特征进行融合的公式为:
μb=σ(Wμb[Xp;Ep]+bμb) (12)
γb=σ(Wγb[Xp;Ep]+bγb) (13)
Figure FDA0003287600170000051
Figure FDA0003287600170000052
Figure FDA0003287600170000053
Figure FDA0003287600170000054
其中,Wμb,Wγb,Wmb,bμb,bγb和bmb均为训练参数,Xp为帖子的语义的自注意力特征,Ep为帖子的情感的自注意力特征,σ为sigmoid函数,M为帖子的表面特征,ob为帖子总特征。
10.根据权利要求2所述的基于多尺度门控均衡交互融合网络的信息可信度评估方法,其特征在于,S8中,任务学习公式为:
Figure FDA0003287600170000055
Loss=-∑ylogP (31)
其中,Wd和bd为训练参数,
Figure FDA0003287600170000056
为门控A4的输出,P为信息可信度评估概率分布预测,y为真实标签,Loss为信息可信度评估方法的损失。
CN201911368884.5A 2019-12-26 2019-12-26 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法 Active CN111160040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911368884.5A CN111160040B (zh) 2019-12-26 2019-12-26 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911368884.5A CN111160040B (zh) 2019-12-26 2019-12-26 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法

Publications (2)

Publication Number Publication Date
CN111160040A CN111160040A (zh) 2020-05-15
CN111160040B true CN111160040B (zh) 2022-02-01

Family

ID=70556811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911368884.5A Active CN111160040B (zh) 2019-12-26 2019-12-26 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法

Country Status (1)

Country Link
CN (1) CN111160040B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180077A (zh) * 2017-04-18 2017-09-19 北京交通大学 一种基于深度学习的社交网络谣言检测方法
CN108563686B (zh) * 2018-03-14 2021-07-30 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
US11418476B2 (en) * 2018-06-07 2022-08-16 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for detecting fake news in a social media network
CN109783629A (zh) * 2019-01-16 2019-05-21 福州大学 一种融合全局事件关系信息的微博客事件谣言检测方法
CN110210016B (zh) * 2019-04-25 2021-06-04 中国科学院计算技术研究所 基于风格引导的双线性神经网络虚假新闻检测方法及系统
CN110188194B (zh) * 2019-04-26 2020-12-01 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统
CN110457480B (zh) * 2019-08-16 2023-07-28 国网天津市电力公司 基于交互式注意力机制的细粒度情感分类模型的构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置

Also Published As

Publication number Publication date
CN111160040A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
Xiong et al. Sarcasm detection with self-matching networks and low-rank bilinear pooling
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN111126069A (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
WO2021058266A1 (en) Deep neural architectures for detecting false claims
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN112016002A (zh) 融合评论文本层级注意力和时间因素的混合推荐方法
CN110415071A (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
CN115309860B (zh) 基于伪孪生网络的虚假新闻检测方法
CN114386410A (zh) 预训练模型的训练方法和文本处理方法
CN115221864A (zh) 一种多模态假新闻检测方法及系统
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN111160040B (zh) 一种基于多尺度门控均衡交互融合网络的信息可信度评估系统及方法
Chen et al. Multimodal fusion network with contrary latent topic memory for rumor detection
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置
Rezaee Borj et al. Detecting online grooming by simple contrastive chat embeddings
CN115309894A (zh) 一种基于对抗训练和tf-idf的文本情感分类方法及装置
CN115455144A (zh) 用于小样本意图识别的完型填空式的数据增强方法
CN114662033A (zh) 一种基于文本和图像的多模态有害链接识别

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant