CN114936267A - 基于双线性池化的多模态融合在线谣言检测方法及系统 - Google Patents

基于双线性池化的多模态融合在线谣言检测方法及系统 Download PDF

Info

Publication number
CN114936267A
CN114936267A CN202210509676.8A CN202210509676A CN114936267A CN 114936267 A CN114936267 A CN 114936267A CN 202210509676 A CN202210509676 A CN 202210509676A CN 114936267 A CN114936267 A CN 114936267A
Authority
CN
China
Prior art keywords
features
rumor
text
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210509676.8A
Other languages
English (en)
Inventor
李嘉恒
徐颂华
徐宗本
李宗芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Second Affiliated Hospital School of Medicine of Xian Jiaotong University
Original Assignee
Second Affiliated Hospital School of Medicine of Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Second Affiliated Hospital School of Medicine of Xian Jiaotong University filed Critical Second Affiliated Hospital School of Medicine of Xian Jiaotong University
Priority to CN202210509676.8A priority Critical patent/CN114936267A/zh
Publication of CN114936267A publication Critical patent/CN114936267A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于双线性池化的多模态融合在线谣言检测方法及系统,该方法应用预训练的句BERT模型提取了谣言的语义特征,设计一个主题语义融合网络共同编码语义和主题特征,并生成相比传统语义特征更高效的主题指导的高阶文本特征,设计基于PageRank影响力加权的双向GCN网络,通过获取传播结构中节点的相对位置信息生成相比传统GCN网络更有效的传播结构特征,对于完整数据集的谣言检测任务,本发明设计块对角分解双线性池化模型,该模型刻画了多模态间的丰富交互,利用富含交互关系的多模态联合表示特征提升谣言检测的准确率,在其中应用链式映射和改进的块对角分解控制训练参数规模以降低刻画交互的张量中的冗余信息。

Description

基于双线性池化的多模态融合在线谣言检测方法及系统
技术领域
本发明属于人工智能识别技术领域,具体涉及一种基于双线性池化的多模态融合在线谣言检测方法及系统。
背景技术
在这个信息爆炸的时代,社交媒体推文的激增使得依靠人工追踪揭穿假消息的事实核查网站在效率和覆盖面等方面都显现出了不足,因此开发自动化谣言检测模型成为社会的迫切需要。自动化谣言检测指从谣言事件中提取文本、传播、用户配置资料等相关特征,构建模型使其应用所提取的相关特征对谣言进行分类的任务,随着带注释的谣言检测数据集,如Weibo、 Twitter15、Twitter16的出现,应用机器学习和深度学习技术训练有监督的分类器进行谣言检测成为主流。传统的机器学习方法根据谣言事件的各种信息手工构造一系列特征,应用决策树、支持向量机等模型对谣言的真假进行分类。随着深度学习的发展,研究者们开始训练深度神经网络提取谣言相关的高阶特征,例如应用NLP技术提取新闻的高阶文本特征、应用基于GCN 的网络提取新闻的高阶传播特征,结果表明深度学习模型提取出的高阶特征在谣言检测任务中表现出更好的效果。
近几年多模态融合技术被广泛的应用于深度学习的多项研究中,结果表明相较于提取单一模态特征,提取要解决问题中的多种模态的特征,通过适合下游问题的融合技术刻画多模态特征之间的关系,并应用多模态联合表示特征解决目标问题更有效。受到多模态融合的启发,在谣言检测领域研究者们针对不同的数据集,提取新闻事件样本中的多种模态特征共同用于谣言检测。
目前谣言检测模型主要分为两类,其中基于单模态特征的模型虽然设计了先进的网络结构提取相关特征,但单模态特征往往不能提供完备的谣言检测信息。例如对于文本特征,谣言往往会使用含糊不定或干扰公众判断的词语,使得模型无法准确对其鉴别;对于传播结构特征,仅通过谣言的传播结构相关信息进行谣言检测在准确率上也无法保证。
新闻事件的多模态特征间存在关联,且它们的关联也为谣言检测提供了重要信息,然而对多模态特征简单线性叠加忽略了特征间的联系,基于注意力的融合模型虽然对多模态特征进行了交互,但也没有刻画特征间的关系信息且模型缺乏可解释性。相较而言,双线性池化模型可以编码特征间的完全二阶交互,最大限度刻画了多模态之间的关联,从而得到完备的多模态联合表示特征。但该方法实际上相当于通过一个三维张量融合两个输入特征,它的参数随输入维数呈二次增长,尽管有研究者应用多模态因子分解双线性池化的方法对交互矩阵进行低秩分解以缩小参数规模,但该方法同样缺失了对两种模态高阶特征之间交互的编码。虽然现存多种张量分解方法被应用于深度学习相关任务以减少模型训练参数,但这些方法仍存在维数限制或多模态特征交互欠缺等问题,使得双线性池化模型性能受到限制。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于双线性池化的多模态融合在线谣言检测方法,针对缺乏多模态特征关系信息编码的问题,提出改进的块对角分解双线性池化模型 (MM-Block),在防止出现维数灾难的前提下,尽可能提升单模态特征投影空间的维数,同时充分刻画了特征间关系。
为了实现上述目的,本发明采用的技术方案是:基于双线性池化的多模态融合在线谣言检测方法,包括以下步骤:
待检测数据集中包含谣言事件的原始新闻文本和传播信息,去除所述原始新闻文本中对于文本语义特征提取没有贡献以及具有误导作用的信息;提取所述传播信息中回复的传播关系和回复的文本内容,得到基于回复关系的图结构,其中每个节点为一条回复,将回复特征按邻接矩阵A的顺序排列,得到每条谣言事件中所有回复信息的特征,其中邻接矩阵A包含传播的结构信息,特征矩阵X包含传播的内容信息;
采用预训练的BERT base模型提取所述原始新闻文本的语义特征,采用基于TextCNN的短文本主题分类器提取待检测数据集中原始新闻文本的主题特征xtopic,并将并将主题特征xtopic作为语义特征xse的指导;将主题特征xtopic与语义特征xse通过交叉注意机制得到主题信息加权后的语义特征,基于GRU中更新门的思想,对加权后的语义特征进行更新得到主题指导的高阶文本特征xt
基于图卷积神经网络提取传播结构模态特征编码:计算传播结构图的PageRank值,并将其用于特征加权,得到原始新闻回复的加权文本特征,基于加权文本特征和邻接矩阵A提取谣言传播结构自上而下和自下而上两个方向的特征;提取谣言传播结构的图卷积神经网络包括两个图卷积层以及激活函数;再将所述两个方向的特征进行平均池化和级联得到高阶传播结构特征xp
采用改进的块对角分解方法对双线性池化模型中用于多模态融合的张量
Figure BDA0003638827390000031
分解为一个块对角张量和三个投影矩阵,双线性池化模型两个输入特征的投影矩阵Ct和Cp与对角张量块一一对应,再将特征投影部分替换为类似于TT-Layer的链式投影,得到高阶文本特征的投影
Figure BDA0003638827390000032
和传播结构特征的投影
Figure BDA0003638827390000033
通过块对角张量
Figure BDA0003638827390000034
融合,对每个对角块的切片矩阵施加稀疏性约束,最后输出特征的投影矩阵Cf将融合特征进行线性映射,输出多模态联合表示特征xf
将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率,即得到谣言检测结果。
进一步的,采用预训练的BERT base模型提取谣言原始文本的语义特征,预训练的BERT base模型包含12个堆叠的Transformer encoder层,将谣言原始文本发明本r输入经过预训练的BERT模型,选取最后一层输出为谣言原始文本的词嵌入向量,并对输出进行padding,将长度小于预设值的每一列补0,得到包含句意的词嵌入特征xBERT
xBERT=padding[BERT(r)]
将所述词嵌入特征按文本顺序输入双向LSTM网络并将两个方向的输出级联,作为谣言的语义特征xse:
Figure BDA0003638827390000035
在整个模型的训练过程中,将预训练的BERT部分的参数冻结,仅更新Bi-LSTM的参数;
预训练一个基于TextCNN的短文本主题分类器;训练中应用dropout和梯度裁剪,将原始新闻文本的word2vec词嵌入输入经过预训练的TextCNN模型中,输出softmax前一层的向量作为原始新闻文本的主题特征向量xtopic
xtopic=TextCNN(r)。
基于主题语义融合网络,将主题特征xtopic与语义特征xse通过交叉注意机制得到主题信息加权后的语义特征,具体为:x′se=KTxse,其中权重
Figure BDA0003638827390000036
基于GRU中更新门的思想,将所述加权后的语义特征与主题特征通过一个带有sigmoid 激活函数的全连接层生成更新向量v,加权后的语义特征通过以tanh为激活函数的全连接层产生一个新的候选向量o,对两部分进行线性插值,得到主题指导的高阶文本特征xt
v=σ([x′se,xtopic]Wv+bv)
o=tanh(x′seWo+bo)
xt=v*xtopic+(1-v)*o
式中:Wv,Wo,bv,bo为可训练的参数矩阵及偏差项。
进一步的,基于图卷积神经网络提取传播结构模态特征编码时:计算出传播图的PageRank 值V:
Figure BDA0003638827390000041
AT为邻接矩阵的转置矩阵,d为阻尼因子,n为传播图中节点的个数;
使用上式计算谣言传播结构图中各节点的PageRank,V={v1,v2,…vn}并用于特征加权,得到谣言回复的加权文本特征
Figure BDA0003638827390000042
自上而下和自下而上两个方向提取谣言传播结构特征采用:
Figure BDA0003638827390000043
式中:
Figure BDA0003638827390000044
A=A+I。
进一步的,图卷积神经网络训练过程中应用DropEdge方法在每个epoch中从输入图中以固定比率随机丢弃一部分边,设定随机丢弃的比率为pdrop,经过DropEdge后输入传播结构特征编码器的邻接矩阵变为:A←A-Adrop,针对每个新闻传播事件中的回复文本数不同,对传播结构特征进行平均值池化,将自上而下和自下而上两个方向的特征向量级联得到最终的高阶传播结构特征:
xp=[Mean(Rt_d),Mean(Rd_t)]。
进一步的,对于双线性池化模型:
Figure BDA0003638827390000045
其中×表示张量与矩阵的模态积,
Figure BDA00036388273900000528
为融合后的联合表示特征,将其展开,得到第k维输出
Figure BDA0003638827390000052
Figure BDA0003638827390000053
式中:用于多模态融合的张量
Figure BDA0003638827390000054
分别与两个输入特征的维数成正比;
采用改进的块对角分解方法对张量
Figure BDA0003638827390000055
进行分解:将其分解为一个块对角张量和三个投影矩阵,其中块对角张量
Figure BDA0003638827390000056
用于刻画多模态间的交互关系,块对角张量
Figure BDA0003638827390000057
由I个相同大小的张量块以块对角的形式组成,两个输入特征的投影矩阵Ct和Cp与对角张量块一一对应,得到张量
Figure BDA0003638827390000058
的分解表示:
Figure BDA0003638827390000059
式中:每个
Figure BDA00036388273900000510
与其对应的投影矩阵分块为
Figure BDA00036388273900000511
块对角张量
Figure BDA00036388273900000512
在模型训练中,首先将高阶文本特征xt和传播结构特征xp经过映射矩阵投影到同一空间中,并加入非线性函数得到:
Figure BDA00036388273900000513
在特征投影部分,将其替换为类似于TT-Layer的链式投影
Figure BDA00036388273900000514
Figure BDA00036388273900000515
通过逆双射投影将张量
Figure BDA00036388273900000516
Figure BDA00036388273900000517
映射为特征向量
Figure BDA00036388273900000518
Figure BDA00036388273900000519
两个特征完成投影后通过块对角张量
Figure BDA00036388273900000520
融合,每个块
Figure BDA00036388273900000521
Figure BDA00036388273900000522
中对应长度为t1的部分与
Figure BDA00036388273900000523
中长度为t2的部分融合得到融合特征zi
Figure BDA00036388273900000524
特征的下标it1:(i+1)t1表示向量中it1:(i+1)t1位置上所对应的t1个值,对每个对角块的切片矩阵施加稀疏性约束,对于对角块
Figure BDA00036388273900000525
融合部分的第j个输出有:
Figure BDA00036388273900000526
对切片矩阵
Figure BDA00036388273900000527
进行结构稀疏性约束,稀疏性约束后的切片为:
Figure BDA0003638827390000061
式中:
Figure BDA0003638827390000062
为外积(out product)运算,向量
Figure BDA0003638827390000063
超参数R为块张量切片矩阵的秩,将约束公式代入zi[j]表达式中得到:
Figure BDA0003638827390000064
对所得结果进行batch归一化后级联,最后投影矩阵Cf将融合特征进行线性映射,输出多模态联合表示特征:xf=Cfz,其中
Figure BDA0003638827390000065
为块向量zi的横向级联。
进一步的,将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率时,通过最小化预测值分布与真实结果分布之间的交叉熵损失函数来训练模型中的参数,损失函数为:
Figure BDA0003638827390000066
式中:Θ=[θtpfd]为谣言检测模型中所有可训练的参数,
Figure BDA0003638827390000067
为一个batch的样本数量,
Figure BDA0003638827390000068
为样本分类类别,
Figure BDA0003638827390000069
为样本i的ground truth标签,若样本i属于第j类则向量中第j维的数值为1,否则为0,yi,j为模型的预测结果,
Figure BDA00036388273900000610
为模型中所有可训练参数Θ的L2正则化,用于防止训练的模型过拟合,其中λ表示相应的权衡系数。
另一方面,本发明还提供一种基于双线性池化的多模态融合在线谣言检测系统,包括数据预处理模块、高阶文本特征获取模块、高阶传播结构特征获取模块、特征融合模块以及谣言监测模块;
数据预处理模块用于去除待检测数据集中所述原始新闻文本中对于文本语义特征提取没有贡献以及具有误导作用的信息;提取所述传播信息中回复的传播关系和回复的文本内容,得到基于回复关系的图结构,其中每个节点为一条回复,将回复特征按邻接矩阵A的顺序排列,得到每条谣言事件中所有回复信息的特征,其中邻接矩阵A包含传播的结构信息,特征矩阵X 包含传播的内容信息;
高阶文本特征获取模块用于采用预训练的BERT base模型提取所述原始新闻文本的语义特征,采用基于TextCNN的短文本主题分类器提取待检测数据集中原始新闻文本的主题特征xtopic,并将并将主题特征xtopic作为语义特征xse的指导;将主题特征xtopic与语义特征xse通过交叉注意机制得到主题信息加权后的语义特征,基于GRU中更新门的思想,对加权后的语义特征进行更新得到主题指导的高阶文本特征xt
高阶传播结构特征获取模块用于根据图卷积神经网络提取传播结构模态特征编码:计算传播结构图的PageRank值,并将其用于特征加权,得到原始新闻回复的加权文本特征,基于加权文本特征和邻接矩阵A提取谣言传播结构自上而下和自下而上两个方向的特征;提取谣言传播结构的图卷积神经网络包括两个图卷积层以及激活函数;再将所述两个方向的特征进行平均池化和级联得到高阶传播结构特征xp
特征融合模块用于采用改进的块对角分解方法对双线性池化模型中用于多模态融合的张量
Figure BDA0003638827390000071
分解为一个块对角张量和三个投影矩阵,双线性池化模型两个输入特征的投影矩阵Ct和 Cp与对角张量块一一对应,再将特征投影部分替换为类似于TT-Layer的链式投影,得到高阶文本特征的投影
Figure BDA0003638827390000072
和传播结构特征的投影
Figure BDA0003638827390000073
通过块对角张量
Figure BDA0003638827390000074
融合,对每个对角块的切片矩阵施加稀疏性约束,最后输出特征的投影矩阵Cf将融合特征进行线性映射,输出多模态联合表示特征xf
谣言监测模块用于将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率,即得到谣言检测结果。
本发明也提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现本发明所述基于双线性池化的多模态融合在线谣言检测方法。
同时提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于双线性池化的多模态融合在线谣言检测方法。
与现有技术相比,本发明至少具有以下有益效果:本发明在获取高阶文本特征编码部分,不同于其他模型只关注于谣言的语义信息,本发明考虑不同主题谣言的文本特征存在差异,本发明除了通过预训练的BERT模型提取谣言文本的语义特征外,还预训练了一个双通道的 TextCNN主题特征分类模型用于提取谣言的主题特征,将主题特征和语义特征通过主题语义融合网络,该网络根据谣言的主题分类信息对语义特征进行重要性加权,并最终将加权的语义特征和主题特征进行融合生成主题指导的高阶文本特征;在传播结构特征编码部分,基于PageRank影响力加权的双向GCN网络不同于注意力机制,双向GCN网络可以有效利用节点的相对位置信息并识别谣言传播过程中的重要节点,在GCN编码前对节点进行影响力加权以提取更精确的传播结构特征,并且通过消融实验也证明了基于PageRank影响力加权的双向 GCN网络相较于传统GCN加权具有明显的优势;块对角分解双线性池化模型MM-Block,能刻画多模态间的二阶交互关系,其中模型将多模态特征映射到交互空间时通过链式映射降低特征投影部分的参数数量,在多模态特征关系编码部分,通过附加稀疏性约束的块对角分解张量来平衡模型的表现力和复杂性,在减小冗余的同时编码丰富的二阶交互,使得模型在传播信息完备的情况下具有高性能的谣言检测能力。
附图说明
图1为基于多模态融合的谣言检测网络框架示意图。
图2(a)谣言的原始文本示例,图2(b)谣言的转发/回复关系示例。
图3体现回复对于谣言检测任务的意义。
图4为谣言回复的关系信息以及文本信息。
图5为TextCNN主题分类模型,其中包括静态和动态两个通道。
图6为主题语义融合网络示意图。
图7(a)为双线性池化模型的块对角分解示意图,图7(b)为张量块切片的稀疏性约束示意图。
图8为链式投影用于多模态特征投影到交互空间示意图。
图9为传播结构编码部分不同Dropedge rate下MM-Block的性能曲线图。
图10为关于特征提取模块的消融实验结果图示。
具体实施方式
下面结合附图对本发明进行详细阐述。
本发明首先给出目标问题的数学表示,之后阐述本发明提出的多模态谣言检测模型的总体框架,最后介绍了目标数据集的预处理以及多模态特征编码的方案。
谣言检测的数学表示:将目标谣言检测数据集记为
Figure BDA0003638827390000081
为谣言事件样本数,每个
Figure BDA0003638827390000082
表示一个谣言事件,ri和Gi分别表示谣言事件的文本和传播关系信息,
Figure BDA0003638827390000083
表示样本的相关回复,其中
Figure BDA0003638827390000084
表示原始谣言,为了叙述清晰,本发明省略样本的下标,则每个谣言事件记为s={r,G,U}。
对于Weibo数据集,样本标签为二分类[TR,FR],分别表示真消息(True Rumor)和假消息(False Rumor),样本标签由新浪社区管理中心的认定,该中心报告了各种错误的信息;而对于 Twitter15、Twitter16数据集,样本标签则为相对复杂的四分类[TR,FR,UR,NR],分别表示真消息(True Rumor)、假消息(False Rumor)、尚未核实的消息(UnverifiedRumor)以及非谣言消息(Non- Rumor),样本的分类则是根据消息所属的新闻在辟谣网站(如Snopes,Emergent.info)上的标签和消息的立场决定,其中NR表示原始推文不能被定义为谣言(没有事实根据的消息)的范畴。
本发明训练一个谣言分类模型:
Figure BDA0003638827390000091
式中:θtpfd分别为文本特征编码器、传播结构特征编码器、多模态特征融合模块和谣言检测层中可训练的参数,PTR,PFR,PUR,PNR分别为谣言事件所属类别的概率(对Weibo数据集则为二分类),最终每个样本输出的概率得分最高的类别则为模型预测的谣言类别。
多模态谣言检测框架:基于单模态特征的模型虽然设计了先进的网络结构提取相关特征,但单模态特征往往不能提供完备的谣言检测信息。例如对于文本特征,谣言往往会使用含糊不定或干扰公众判断的词语,使得模型无法准确对其鉴别;对于传播结构特征,仅通过谣言的传播结构相关信息进行谣言检测在准确率上也无法保证。因此本发明提出了基于多模态融合的谣言检测框架。模型流程示意参考图1,包括三部分:特征编码模块、特征融合模块和谣言检测层。
特征编码模块包括文本特征编码器Et和传播结构特征编码器Ep,在文本特征编码部分,本发明通过预训练的BERT模型提取考虑上下文信息的文本语义特征,谣言检测层将融合后的多模态联合表示特征输入全连接层和softmax函数对谣言进行分类。
数据集中的谣言为短文本,大多具有唯一主题,且谣言的主题信息与真伪性存在一定的联系,本发明预训练一个基于TextCNN的主题特征分类模型以提取谣言的主题特征用于谣言检测,之后本发明设计一个主题语义融合网络,所述主题语义融合网络根据主题特征定位文本的重要部分并生成主题指导的高阶文本特征,对于检测主题明确的谣言所述高阶文本特征相较于单一的语义特征具有明显优势。在传播结构特征编码部分,本发明将反映传播关系的邻接矩阵和反映传播结构中回复内容的特征矩阵共同输入本发明设计的基于PageRank影响力加权的双向GCN网络,以提取更精确的传播结构特征,并对其进行池化压缩保证每个样本输出维数一致,同时聚合信息,最终将自上而下和自下而上的双向传播特征组合作为最终的传播结构特征。
特征融合模块Ef具体为块对角分解双线性池化模型MM-Block,可以刻画多模态间的二阶交互关系,其中MM-Block模型将多模态特征映射到交互空间时,通过链式映射降低特征投影部分的复杂度,在多模态特征关系编码部分,本发明通过附加稀疏性约束的块对角分解张量来平衡模型的表现力和复杂性,在减小冗余的同时,编码丰富的二阶交互使得模型在传播信息完备的情况下具有高性能的谣言检测能力。最后的谣言检测层D将融合后的多模态联合表示特征输入全连接层和softmax函数对谣言进行分类。
下面首先介绍本发明数据集的预处理工作以及本发明提出的多模态融合谣言检测框架中多模态特征编码部分的模型。
图1为一种基于多模态融合的谣言检测网络框架,首先分别通过PageRank影响力加权的 GCN网络和主题语义融合网络编码谣言事件中传播结构模态和文本模态的特征;之后将多模态特征通过特征融合模型,最终将特征融合模块输出的多模态联合表示特征输入谣言检测层进行谣言分类。
多模态特征编码器
数据集预处理:本发明将目标数据集预处理为相同的格式,下面以原始数据集的一个样本为例,如图2所示,一个样本包含的信息分为两部分,一部分为谣言的原始文本,如图2(a)所示,图中给出了两个样本的示例,除此之外每个文本还包含一个其对应的唯一文本ID和它的真实性标签,另一部分为谣言样本的传播信息,如图2(b)所示,每一行是一条传播信息,每个’[]’中包含一个三元组,其中的信息依次为回复/转发者的用户ID、用户发布文本的ID、回复/转发时间(以分钟为单位),’->’左边为被转发/回复文本,右边为相应的转发/回复,如果’->’前后ID 相同则表示转发,ID不同则表示回复。
本发明分别对样本的两部分信息进行预处理:针对文本部分,由图2(a)所示,由于数据集文本为爬虫获取,文本末尾出现’URL’标识,且由于数据的获取来源为社交媒体,因此部分文本中存在表情或话题标志’#话题’,这些部分对于文本语义特征提取模型没有帮助甚至会产生存在误导的信息,因此对其进行数据清洗删除这些部分。
对于谣言的传播信息部分,假消息制造者可以通过伪造大V账号等方式增加谣言的可信度,且随着时间的推移,用户的配置文件存在较大变化,这些都会对谣言检测产生极大的干扰,因此本发明的方法不考虑谣言发布者的用户信息。其次,由于社交媒体中可能出现买水军转发谣言或不明真相的群众转发的情况,由此谣言的转发信息可能对谣言检测产生干扰,同时从转发中获取不到任何对于谣言的态度信息,而针对谣言的回复则更有参考价值,例如官方权威账号或了解真相的网友会在谣言下进行回复辟谣,对可信度较高的消息,网友会对其进行肯定的回复,而对于虚假或尚不明确的消息,网友也会对其发布质疑的评论,如图3所示,回复可以为模型提供更有价值的信息用于谣言检测:该谣言中用户的质疑使得模型将其识别为假消息的概率更高。
因此,本发明只考虑传播结构中的回复,其相关信息进行预处理可分为两部分:回复的传播关系和回复的文本内容,两者共同用于后续模型的传播结构特征编码。首先从图2(b)中所示的传播信息中提取回复信息:根据’->’指示的回复关系构造谣言的传播结构,如图4所示,每一行为一条回复的信息,第一列为该谣言回复结构中原始谣言的id,第一列相同则表示节点在同一个回复树中,第2列和第3列分别为回复在该树中父节点的索引以及自身节点的索引,将谣言的回复树用邻接矩阵A=(aij)n×n来刻画,其中:
Figure BDA0003638827390000111
除了回复的传播关系外,本发明还提取了回复的文本信息,将数据集中涉及的所有单词作为整个语料库,将每条回复作为一个文档,由于信息检索与数据挖掘中的TF-IDF值对语料库中的单词进行加权简单而高效,因此选择TF-IDF值来挖掘文档中的关键词。一个词的TF-IDF 值为词频TF与逆文档频率IDF的乘积,词频
Figure BDA0003638827390000112
其中ni,j表示词条ti在文档dj中出现的次数,
Figure BDA0003638827390000113
为逆文档频率,其中|D|表示所有文档的数量,|j:ti∈dj|表示包含词条ti的文档数量,分母加1避免包含词条的数量为0所导致的运算出错,一般而言某个词在文档中的TF-IDF越大,这个词的重要性会越高。本发明选取TF-IDF值最高的前5000个单词,根据TF-IDF值确定每个样本传播结构中每一条回复的特征向量。
最终一条谣言样本的传播结构表示为基于回复关系的图结构,其中每个节点为一条回复,它们的特征根据基于TF-IDF值获得的特征向量嵌入,将回复特征按邻接矩阵A的顺序排列,得到每条谣言事件中所有回复信息的特征X=[x1,x2,...,xn]。其中邻接矩阵A包含传播的结构信息,特征矩阵X包含传播的内容信息。
本发明谣言事件的文本模态特征和传播结构模态特征进行编码。
1)文本模态特征编码
对于谣言事件中谣言文本的语义特征提取,经过Masked LM和NSP训练的BERT模型在提取单词级特征时,还考虑到单词所属句子的上下文信息,使得每个单词的特征都考虑到整个句子的句意信息,有助于更好的挖掘谣言文本中每个词所蕴含的信息。本发明选用预训练的 BERT base模型提取谣言文本的语义特征,BERT base模型包含12个堆叠的Transformer encoder 层,每层self-attention head=12,每个符号(token)对应的输出维数hidden units=768,本发明所研究的目标数据集的语料为日常通用词汇。本发明所述谣言文本为包含谣言的原始新闻文本,将文本r输入经过预训练的BERT模型,选取最后一层输出为谣言文本的词嵌入向量,并对输出进行padding,将长度小于预设值的每一列补0,作为示例,预设值为50,得到包含句意的词嵌入特征xBERT
xBERT=padding[BERT(r)] (3)
在此之后,将词嵌入特征按文本顺序输入双向LSTM网络并将两个方向的输出级联,作为谣言的语义特征xse:
Figure BDA0003638827390000121
在整个模型的训练过程中,将预训练的BERT部分的参数冻结,仅更新Bi-LSTM的参数作为面向谣言检测任务的微调。
由于目标数据集中的谣言为短文本,且大都具有明确的主题,不同主题的谣言对谣言检测有意义的特征不同,因此主题特征可能为谣言检测提供重要线索。本发明考虑提取谣言的主题特征,并将其作为文本语义特征的指导。本发明预训练一个基于TextCNN的短文本主题分类器,如图5所示,模型的输入为谣言文本word2vec词嵌入,对输入词嵌入做卷积处理,选择尺寸为[2,3,4]的三种卷积核,分别对应着n-gram模型,使得特征信息包含临近词信息,接下来对卷积输出的向量做全局的max-pooling,并将不同卷积的结果拼接起来,最终通过全连接层和softmax函数预测分类结果。需要说明的是预训练的TextCNN有两个通道,一个为静态通道,另一个为动态通道,在训练过程中静态通道的词嵌入向量保持不变,而动态通道可以通过反向传播来微调词嵌入向量,使其更加适用于当前的训练中,训练该模型所使用的数据集数量充足,使得多通道的模型不会出现过拟合的情况。
训练过程中,模型每个尺寸的卷积核有100个,激活函数选择ReLU,为了防止过拟合在训练中应用dropout和梯度裁剪。对于英文文本,本发明在DBpedia中选择56W条短文本用于训练和测试,按照话题分为14类(经济、体育、教育、自然、电影、艺术等);对于中文文本,数据集是从THUCNews中抽取的20W条新闻标题,文本长度在20到30之间。一共为10个类别(股票、教育、科技、社会、时政等),每类2W条。将新闻文本的word2vec词嵌入输入经过预训练的TextCNN模型中,输出softmax前一层的向量作为新闻文本的主题特征向量xtopic
xtopic=TextCNN(r) (5)
其中,新闻文本为所述数据集中的每个样本的原始新闻。
为了使模型关注文本中与主题相关且对谣言检测更具意义的部分,并将主题信息和文本信息融合,本发明设计了一个主题语义融合网络。如图6所示,首先将主题特征xtopic与语义特征 xse通过交叉注意(cross attention)机制得到主题信息加权后的语义特征:x′se=KTxse,其中权重
Figure BDA0003638827390000131
借鉴GRU中更新门的思想,将加权后的语义特征与主题特征通过一个带有sigmoid激活函数的全连接层生成更新向量v,此外加权后的语义特征通过以tanh为激活函数的全连接层产生一个新的候选向量o,最后对两部分进行线性插值,得到主题指导的高阶文本特征xt,即:
v=σ([x′se,xtopic]Wv+bv),
o=tanh(x′seWo+bo), (6)
xt=v*xtopic+(1-v)*o
式中:Wv,Wo,bv,bo为可训练的参数矩阵及偏差项。
2)传播结构模态特征编码
谣言的传播结构看作是一个图结构的社交网络,图卷积神经网络GCN适合提取此类结构性特征。在一个谣言传播事件中原始谣言在整个结构中的重要程度远远大于其回复,而直接应用GCN提取结构性特征时将传播图中的所有节点等同看待,使得模型在特征提取的过程中缺少对重要节点的关注,这与谣言检测问题的实际需求不符。针对此问题,本发明使用PageRank 算法针对有向图计算PageRank值(PR值),一个节点的PR值的计算公式为:
Figure BDA0003638827390000132
由于谣言由根节点向下传播,因此将邻接矩阵的转置矩阵AT作为转移矩阵。从数学角度,给定n个节点的有向图,PageRank考虑一个随机游走模型,即一阶马尔科夫链,节点间的转移概率相等,另考虑一个完全随机游走,即一个节点到任一节点转移概率都为1/n,两部分的线性组合构成新的马尔可夫链,得到有向图的PageRank值,具体为:
Figure BDA0003638827390000141
式中:d为阻尼因子,易证该马尔可夫链具有平稳分布,已知转移矩阵,PageRank值可由公式(8)得出:
Figure BDA0003638827390000142
本发明使用公式(9)计算谣言传播结构中各节点的PageRank,V={v1,v2,...vn},并用于特征加权,得到谣言回复(即原始新闻回复)的加权文本特征
Figure BDA0003638827390000143
为了获取更丰富的传播结构信息,本发明提取谣言传播结构自上而下和自下而上两个方向的特征,提取谣言传播结构包括两个图卷积层以及激活函数,两个方向的传播结构特征提取由公式(10)完成:
Figure BDA0003638827390000144
式中:
Figure BDA0003638827390000145
A=A+I。为了防止过拟合,在训练过程中用DropEdge 方法在每个epoch中从输入图中以固定比率随机丢弃一部分边,使得输入数据的随机性和多样性等到提升,设定随机丢弃的比率为pdrop,则经过DropEdge后输入传播结构特征编码器的邻接矩阵变为:A←A-Adrop。最后,针对每个谣言传播事件中的回复文本数不同,本发明对传播结构特征进行平均值池化使得样本输出维度一致并聚合信息,将自上而下和自下而上两个方向的特征向量级联得到最终的高阶传播结构特征:
xp=[Mean(Rt_d),Mean(Rd_t)] (11)
本发明基于双线性池化的方法编码多模态特征的完全二阶交互并将特征进行融合,通过建模特征的高阶信息捕获特征间的关系,产生一个O(n2)维度的表征,通过外积生成的矩阵线性化进而生成具有强大表达能力的全局特征表示。双线性池化将多模态特征对应的维数通过一个二维权重矩阵转化为输出向量,等价于使用一个三维张量融合两个多模态特征,对于多模态特征编码部分生成的主题指导的高阶文本特征
Figure BDA0003638827390000151
和传播结构特征
Figure BDA0003638827390000152
现有双线性池化模型有
Figure BDA0003638827390000153
其中×表示张量与矩阵的模态积,
Figure BDA00036388273900001520
为融合后的联合表示特征,将其展开,对于第k维输出
Figure BDA0003638827390000155
有:
Figure BDA0003638827390000156
式中:用于多模态融合的张量
Figure BDA0003638827390000157
分别与两个输入特征的维数成正比,为了保证交互丰富的前提下控制模型的复杂度,本发明采用改进的块对角分解方法对张量
Figure BDA0003638827390000158
进行分解:将其分解为一个块对角张量和三个投影矩阵,其中块对角张量
Figure BDA0003638827390000159
用于刻画多模态间的交互关系,它由I个相同大小的张量块以块对角的形式组成,如图7(a)所示,在
Figure BDA00036388273900001510
中除
Figure BDA00036388273900001511
外,其余元素均为0,两个输入特征的投影矩阵Ct和Cp与对角张量块一一对应,则张量
Figure BDA00036388273900001512
的分解可表示为:
Figure BDA00036388273900001513
式中:每个
Figure BDA00036388273900001514
与其对应的投影矩阵分块为
Figure BDA00036388273900001515
块对角张量
Figure BDA00036388273900001516
具体到模型训练中,相当于首先将高阶文本特征xt和传播结构特征 xp经过映射矩阵投影到同一空间中,即:
Figure BDA00036388273900001517
公式(14)中加入了非线性函数tanh。本发明希望多模态融合模块中的参数主要用来模拟多模态间的交互,在特征投影部分,将其替换为类似于TT-Layer的链式投影以缩减特征投影部分的参数规模,如图8所示,记投影矩阵
Figure BDA00036388273900001518
其中
Figure BDA00036388273900001519
令双射ν(t)=(ν1(t),...,νd(t))和μ(t)=(μ1(t),…,μd(t))分别将投影矩阵C的行指标t和列指标l映射到d维向量索引(索引第k维长度分别为mk,nk),通过两个双射可以将映射矩阵的元素对应到d维张量中,对于该张量中的任何一个元素,将其转化为一系列低秩矩阵的积:
Figure BDA0003638827390000161
式中:每个低秩矩阵的维数为
Figure BDA0003638827390000162
为了使输出为标量,令r0=rd=1。为了指标匹配,将高阶混合文本特征xt通过另一个双射投影为d维张量χt,则最终公式(14)等价的链式投影为:
Figure BDA0003638827390000163
最终通过逆双射投影将张量
Figure BDA0003638827390000164
映射为特征向量
Figure BDA0003638827390000165
计算可知传统投影方式的参数规模为 O(Id1t1),链式投影的参数规模仅为O(rmaxmax{d1,It1}),其中rmax为低秩矩阵中最大的秩,传播结构特征的投影
Figure BDA0003638827390000166
同公式(15)和(16)。
两个特征完成投影后通过块对角张量
Figure BDA0003638827390000167
融合,每个块
Figure BDA0003638827390000168
Figure BDA0003638827390000169
中对应长度为t1的部分与
Figure BDA00036388273900001610
中长度为t2的部分融合得到融合特征:
Figure BDA00036388273900001611
其中特征的下标it1:(i+1)t1表示向量中it1:(i+1)t1位置上所对应的t1个值。为了进一步限制可训练的参数数量同时减少冗余信息,对每个对角块的切片矩阵施加稀疏性约束,如图7(b)所示,对于对角块
Figure BDA00036388273900001612
融合部分的第j个输出有:
Figure BDA00036388273900001613
对切片矩阵
Figure BDA00036388273900001614
进行结构稀疏性约束,每个切片矩阵都写成R个秩一矩阵的和,且根据秩一矩阵的定义,任意秩一矩阵都可以写成两个向量外积的形式,则稀疏性约束后的切片为:
Figure BDA00036388273900001615
式中:
Figure BDA00036388273900001616
为外积(out product)运算,向量
Figure BDA00036388273900001617
超参数R为块张量切片矩阵的秩。将约束公式代入公式(17)中得到:
Figure BDA00036388273900001618
对所得结果进行batch归一化后级联,最后投影矩阵Cf将融合特征进行线性映射,输出多模态联合表示特征:xf=Cfz,其中
Figure BDA0003638827390000171
为块向量zi的横向级联。
最后,多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率:
y=Softmax(FC(xf)) (20)
模型通过最小化预测值分布与真实结果分布之间的交叉熵损失函数来训练模型中的参数,损失函数为:
Figure BDA0003638827390000172
式中:Θ=[θtpfd]为谣言检测模型中所有可训练的参数,
Figure BDA0003638827390000173
为一个batch的样本数量,
Figure BDA0003638827390000174
为样本分类类别,
Figure BDA0003638827390000175
为样本i的ground truth标签,若样本i属于第j类则向量中第j维的数值为1,否则为0,yi,j为模型的预测结果。
Figure BDA0003638827390000176
为模型中所有可训练参数Θ的L2正则化,该项为了防止训练的模型过拟合,其中λ表示相应的权衡系数。
对于链式投影训练的梯度下降,参数矩阵
Figure BDA0003638827390000177
的梯度下降中,本发明计算损失函数
Figure BDA0003638827390000178
对于一系列低秩矩阵Fk的偏导数,则对于矩阵中的参数
Figure BDA0003638827390000179
有:
Figure BDA00036388273900001710
将式(22)转化为
Figure BDA00036388273900001711
式中:求和符号中第一项输出的维数为rk-1×1,第二项为1×rk,式中rk-1×rk矩阵的每一项对应于每个位置更新所需的梯度,对于公式(23),首先计算其中的部分和
Figure BDA00036388273900001712
它可以通过动态规划计算关于的
Figure BDA00036388273900001713
求和,每次计算对应的一个指标,该部分和计算的时间复杂度为O(dr2m max{M,N}),其中m为所有mk的最大值,将部分和代入公式(23)再进行一次类似的动态规划,最终链式投影部分梯度下降的计算复杂度为O(d2r4m max{M,N}),用上述计算方法不仅完成了链式投影部分的梯度计算,还可以看出链式投影层不仅模型的参数较全连接层投影少,而且其训练的时间复杂度相较于全连接层的时间复杂度O(MN)也明显减小。
模型训练过程如算法1所示:
Figure BDA0003638827390000181
实验平台与数据集,本发明所有实验均在Nvidia RTX 2080Ti GPU的服务器上进行,使用 Python3.7在PyTorch框架下实现;在三个被广泛应用的谣言检测数据集上进行实验,分别来源于新浪微博和推特。来源于新浪微博的数据集Weibo包含了2313条假消息和2351条真消息。另外两个数据集Twitter15、Twitter16来源于国外社交媒体推特,其中包括数目相近的四类样本:真消息、假消息、尚未核实的消息以及非谣言信息。除此之外三个数据集还包含丰富的用户信息和传播结构信息,数据集具体的统计信息如表1所示。在预处理部分已经说明在谣言检测中回复所蕴含的信息相较于转发更具意义,因此本发明所提出的谣言检测模型所用到的数据集中的信息(对于每条样本)包括:原始新闻的文本,新闻事件的回复关系,回复的内容信息,以及每个样本的分类标签。
表1三个谣言检测数据集的统计信息
Figure BDA0003638827390000191
参数设置,本发明所应用的预训练模型包括用于提取主题特征xtopic的双通道TextCNN和用于提取语义特征xBERT的BERT-base模型(对于Weibo数据集使用中文版本),它们只用于特征提取,其中的参数不参与训练,具体的网络结构参数在前文已经介绍。在文本高阶特征编码器Et中,对文本特征xBERT进行padding,其中padding=50,对文本特征进行编码的双向LSTM 网络隐藏层维数为64。在传播结构特征编码器Ep中,双层GCN网络的隐藏层和输出层的维数均为64,其中Dropedge被用于两层GCN以防止过拟合,随机剪枝率为0.3。在特征融合模块Ef中,对于块对角分解双线性池化模型,对角块张量数I=8,每个块的大小为16×16×16;链式映射的rank=8,对每个块切片矩阵稀疏性约束为rank=5,融合部分的输出维数为128。最后谣言检测层D中的全连接层根据数据集标签类别数对应2(Weibo)或4(Twitter),模型中 dropout部分的dropout rate为0.2。在训练过程中,采用mini-batch的方式训练神经网络中各项参数θtpfd,mini-batch size设置为128,每次迭代中计算的损失为此batch中所有损失的平均值。参数优化器选用ADAM优化,学习率为0.0002。在每个数据集对应模型的训练过程中,最大迭代epoch=100,并且部署early stopping,耐心值为10,即当验证集损失在之后连续 10个epoch都没有下降时提前停止,选用验证集损失最低的模型。对Weibo数据集实验的主要评价指标为模型分类的准确率(Accuracy,ACC.),以及正负样本的精确度(Precision),召回率 (Recall),F1得分(F1score),通过公式(21)计算:
Figure BDA0003638827390000192
Figure BDA0003638827390000193
Figure BDA0003638827390000194
式中:ζ(x)表示类别x的计数,在计算每个类型的指标时将该类作为正样本类,正确区分的正样本记为TP,错误区分正、负样本分别记为FP和FN。对两个Twitter数据集实验的主要评价指标为模型分类的Accuracy以及每种分类的F1score,这里的F1score与二分类中的计算方式相同。对于每个数据集本发明在实验中选择70%的数据用于模型训练,10%作为验证集指导选出最优模型,其余20%的数据作为测试集,在Weibo数据集上的实验结果如表2所示。
表2各方法在Weibo数据集的实验结果
Figure BDA0003638827390000201
对于本发明提出的块对角分解双线性池化模型MM-Block,实验结果表明在最终达到了最佳性能,说明MM-Block提取的多模态特征间的关系对谣言检测任务至关重要,通过块对角分解的双线性融合生成的联合表示特征的性能要优于采用复杂的编码器提取的多模态特征的级联。具体而言,相比于Rumor2vec和UMLARD,MM-Block在最终的分类准确率上有约2%的优势,且除了True Rumor类的召回率低于UMLARD外,其余指标均有明显优势。
表3各方法在Twitter15、Twitter16数据集的实验结果
Figure BDA0003638827390000202
Figure BDA0003638827390000211
本发明提出的MM-Block模型在两个Twitter数据集上都达到了最优性能,尤其在Twitter15 数据集上精确度相较于state-of-the-art方法性能提高了4.6%,对于显示谣言分类中最重要的两类True Rumor和False Rumor的F1得分也为所有方法中最高的。关于MM-Block的相关结果也表明在多模态融合的谣言检测中,除了目前主流的线性融合(级联、加权求和)、基于特征相似度的融合、基于注意力机制的融合外,基于双线性池化的融合方法也是一条可行方案,且通过合理的矩阵分解优化策略减小冗余可以达到相较于state-of-the-art模型更好的性能。
对于结果最佳模型MM-Block,本发明进行一组额外实验,在其他超参数保持一致的情况下改变传播结构特征编码部分的Dropedge rate,以证明DropEdge提高测试集精度的有效性,在三个数据集上的实验结果如图9所示,可以看出相较于不使用Dropedge辅助训练,设置较低的Dropedge rate有助于改善模型的性能,其中在三个数据集上随机剪枝率设置为0.3时均达到最佳性能,但过高的Dropedge rate会影响训练并带来更多的损失。
为了验证PageRank影响力得分的有效性,本发明在其他部分保持不变的前提下分别选择传统的双向GCN(记为+no)与Katz中心性加权的双向GCN(记为+Katz)进行实验,所得结果参考图10;在传播结构特征提取部分,基于PageRank影响力加权GCN的模型相比传统GCN的模型“+no”和基于Katz影响力加权的模型“+Katz”具有显著性的优势,这说明在提取新闻传播结构特征时,对交互节点多的节点,尤其是根节点赋予更大的权值有助于提取更准确的传播结构特征,从而提升模型谣言检测的性能。在文本特征提取部分,相比于完整模型,仅考虑谣言文本的语义特征会降低谣言检测的准确率,尤其是在两个Twitter数据集上差异更为显著,这说明在谣言检测中提取包含主题信息的特征用于加权指导文本语义特征,会生成更有助于谣言检测的高阶文本特征。
另一方面,本发明还能提供一种基于双线性池化的多模态融合在线谣言检测系统,包括数据预处理模块、高阶文本特征获取模块、高阶传播结构特征获取模块、特征融合模块以及谣言监测模块;
数据预处理模块用于去除待检测数据集中所述原始新闻文本中对于文本语义特征提取没有贡献以及具有误导作用的信息;提取所述传播信息中回复的传播关系和回复的文本内容,得到基于回复关系的图结构,其中每个节点为一条回复,将回复特征按邻接矩阵A的顺序排列,得到每条谣言事件中所有回复信息的特征,其中邻接矩阵A包含传播的结构信息,特征矩阵X 包含传播的内容信息;
高阶文本特征获取模块用于采用预训练的BERT base模型提取所述原始新闻文本的语义特征,采用基于TextCNN的短文本主题分类器提取待检测数据集中原始新闻文本的主题特征 xtopic,并将并将主题特征xtopic作为语义特征xse的指导;将主题特征xtopic与语义特征xse通过交叉注意机制得到主题信息加权后的语义特征,基于GRU中更新门的思想,对加权后的语义特征进行更新得到主题指导的高阶文本特征xt
高阶传播结构特征获取模块用于根据图卷积神经网络提取传播结构模态特征编码:计算传播结构图的PageRank值,并将其用于特征加权,得到原始新闻回复的加权文本特征,基于加权文本特征和邻接矩阵A提取谣言传播结构自上而下和自下而上两个方向的特征;提取谣言传播结构的图卷积神经网络包括两个图卷积层以及激活函数;再将所述两个方向的特征进行平均池化和级联得到高阶传播结构特征xp
特征融合模块用于采用改进的块对角分解方法对双线性池化模型中用于多模态融合的张量
Figure BDA0003638827390000224
分解为一个块对角张量和三个投影矩阵,双线性池化模型两个输入特征的投影矩阵Ct和 Cp与对角张量块一一对应,再将特征投影部分替换为类似于TT-Layer的链式投影,得到高阶文本特征的投影
Figure BDA0003638827390000221
和传播结构特征的投影
Figure BDA0003638827390000222
通过块对角张量
Figure BDA0003638827390000223
融合,对每个对角块的切片矩阵施加稀疏性约束,最后输出特征的投影矩阵Cf将融合特征进行线性映射,输出多模态联合表示特征xf
谣言监测模块用于将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率,即得到谣言检测结果。
综上所述本发明对于谣言文本模态特征编码,应用预训练的句BERT模型提取了谣言的语义特征,同时分别针对中英文数据集训练了两个基于TextCNN的谣言分类模型用于提取谣言的主题特征,在这之后设计了一个主题语义融合网络共同编码语义和主题特征,该网络针对谣言的主题特征定位对谣言检测更重要的Token,并生成相比传统语义特征更高效的主题指导的高阶文本特征。对于传播结构模态特征编码,设计了一个基于PageRank影响力加权的双向GCN 网络,它通过获取传播结构中节点的相对位置信息来计算节点的影响力,最终生成相比传统 GCN网络更有效的传播结构特征。对于完整数据集的谣言检测任务,本发明设计了块对角分解双线性池化模型,该模型刻画了多模态间的丰富交互,利用富含交互关系的多模态联合表示特征提升谣言检测的准确率,在其中应用链式映射和改进的块对角分解控制训练参数规模以降低刻画交互的张量中的冗余信息。
另外,本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述基于时空概率道路树的轨迹生成与优化方法。
另一方面,本发明提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于时空概率道路树的轨迹生成与优化方法。
所述计算机设备可以采用桌面型计算机或工作站。
处理器可以是中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。
对于本发明所述存储器,可以是桌面型计算机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM, Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体 (ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
最后需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
最后本发明进行了广泛的实验,实验结果显示块对角分解双线性池化模型在完整数据集上达到最佳性能,同时相比其他融合方法具有更少的训练参数。基于门控机制的融合模型在早期谣言检测中有更好的表现。

Claims (10)

1.基于双线性池化的多模态融合在线谣言检测方法,其特征在于,包括以下步骤:
待检测数据集中包含谣言事件的原始新闻文本和传播信息,去除所述原始新闻文本中对于文本语义特征提取没有贡献以及具有误导作用的信息;提取所述传播信息中回复的传播关系和回复的文本内容,得到基于回复关系的图结构,其中每个节点为一条回复,将回复特征按邻接矩阵A的顺序排列,得到每条谣言事件中所有回复信息的特征,其中邻接矩阵A包含传播的结构信息,特征矩阵X包含传播的内容信息;
采用预训练的BERT base模型提取所述原始新闻文本的语义特征,采用基于TextCNN的短文本主题分类器提取待检测数据集中原始新闻文本的主题特征xtopic,并将并将主题特征xtopic作为语义特征xse的指导;将主题特征xtopic与语义特征xse通过交叉注意机制得到主题信息加权后的语义特征,基于GRU中更新门的思想,对加权后的语义特征进行更新得到主题指导的高阶文本特征xt
基于图卷积神经网络提取传播结构模态特征编码:计算传播结构图的PageRank值,并将其用于特征加权,得到原始新闻回复的加权文本特征,基于加权文本特征和邻接矩阵A提取谣言传播结构自上而下和自下而上两个方向的特征;提取谣言传播结构的图卷积神经网络包括两个图卷积层以及激活函数;再将所述两个方向的特征进行平均池化和级联得到高阶传播结构特征xp
采用改进的块对角分解方法对双线性池化模型中用于多模态融合的张量
Figure FDA0003638827380000011
分解为一个块对角张量和三个投影矩阵,双线性池化模型两个输入特征的投影矩阵Ct和Cp与对角张量块一一对应,再将特征投影部分替换为类似于TT-Layer的链式投影,得到高阶文本特征的投影
Figure FDA0003638827380000012
和传播结构特征的投影
Figure FDA0003638827380000013
通过块对角张量
Figure FDA0003638827380000014
融合,对每个对角块的切片矩阵施加稀疏性约束,输出特征的投影矩阵Cf对融合特征进行线性映射,输出多模态联合表示特征xf
将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率,即得到谣言检测结果。
2.根据权利要求1所述的基于双线性池化的多模态融合在线谣言检测方法,其特征在于,采用预训练的BERT base模型提取谣言原始文本的语义特征,预训练的BERT base模型包含12个堆叠的Transformer encoder层,将谣言原始文本发明本r输入经过预训练的BERT模型,选取最后一层输出为谣言原始文本的词嵌入向量,并对输出进行padding,将长度小于预设值的每一列补0,得到包含句意的词嵌入特征xBERT
xBERT=padding[BERT(r)]
将所述词嵌入特征按文本顺序输入双向LSTM网络并将两个方向的输出级联,作为谣言的语义特征xse:
Figure FDA0003638827380000021
在整个模型的训练过程中,将预训练的BERT部分的参数冻结,仅更新Bi-LSTM的参数;
预训练一个基于TextCNN的短文本主题分类器;训练中应用dropout和梯度裁剪,将原始新闻文本的word2vec词嵌入输入经过预训练的TextCNN模型中,输出softmax前一层的向量作为原始新闻文本的主题特征向量xtopic
xtopic=TextCNN(r)。
3.根据权利要求1所述的基于双线性池化的多模态融合在线谣言检测方法,其特征在于,基于主题语义融合网络,将主题特征xtopic与语义特征xse通过交叉注意机制得到主题信息加权后的语义特征,具体为:
Figure FDA0003638827380000022
其中权重
Figure FDA0003638827380000023
基于GRU中更新门的思想,将所述加权后的语义特征与主题特征通过一个带有sigmoid激活函数的全连接层生成更新向量v,加权后的语义特征通过以tanh为激活函数的全连接层产生一个新的候选向量o,对两部分进行线性插值,得到主题指导的高阶文本特征xt
v=σ([x′se,xtopic]Wv+bv)
o=tanh(x′seWo+bo)
xt=v*xtopic+(1-v)*o
式中:Wv,Wo,bv,bo为可训练的参数矩阵及偏差项。
4.根据权利要求1所述的基于双线性池化的多模态融合在线谣言检测方法,其特征在于,基于图卷积神经网络提取传播结构模态特征编码时,计算出传播图的PageRank值V:
Figure FDA0003638827380000024
Figure FDA0003638827380000025
为邻接矩阵的转置矩阵,d为阻尼因子,n为传播图中节点的个数;
使用上式计算谣言传播结构图中各节点的PageRank值,V={v1,v2,...vn}并用于特征加权,得到谣言回复的加权文本特征
Figure FDA0003638827380000026
自上而下和自下而上两个方向提取谣言传播结构特征采用:
Figure FDA0003638827380000031
式中:
Figure FDA0003638827380000032
5.根据权利要求4所述的基于双线性池化的多模态融合在线谣言检测方法,其特征在于,图卷积神经网络训练过程中应用DropEdge方法在每个epoch中从输入图中以固定比率随机丢弃一部分边,设定随机丢弃的比率为pdrop,经过DropEdge后输入传播结构特征编码器的邻接矩阵变为:A←A-Adrop,针对每个新闻传播事件中的回复文本数不同,对传播结构特征进行平均值池化,将自上而下和自下而上两个方向的特征向量级联得到最终的高阶传播结构特征:
xp=[Mean(Rt_d),Mean(Rd_t)]。
6.根据权利要求1所述的基于双线性池化的多模态融合在线谣言检测方法,其特征在于,对于双线性池化模型:
Figure FDA0003638827380000033
其中×i表示张量与矩阵的模态积,
Figure FDA00036388273800000317
为融合后的联合表示特征,将其展开,得到第k维输出
Figure FDA0003638827380000035
Figure FDA0003638827380000036
式中:用于多模态融合的张量
Figure FDA0003638827380000037
分别与两个输入特征的维数成正比;
采用改进的块对角分解方法对张量
Figure FDA0003638827380000038
进行分解:将其分解为一个块对角张量和三个投影矩阵,其中块对角张量
Figure FDA0003638827380000039
用于刻画多模态间的交互关系,块对角张量
Figure FDA00036388273800000310
由I个相同大小的张量块以块对角的形式组成,两个输入特征的投影矩阵Ct和Cp与对角张量块一一对应,得到张量
Figure FDA00036388273800000311
的分解表示:
Figure FDA00036388273800000312
式中:每个
Figure FDA00036388273800000313
与其对应的投影矩阵分块为
Figure FDA00036388273800000314
块对角张量
Figure FDA00036388273800000315
在模型训练中,首先将高阶文本特征xt和传播结构特征xp经过映射矩阵投影到同一空间中,并加入非线性函数得到:
Figure FDA00036388273800000316
在特征投影部分,将其替换为类似于TT-Layer的链式投影
Figure FDA0003638827380000041
Figure FDA0003638827380000042
通过逆双射投影将张量
Figure FDA0003638827380000043
Figure FDA0003638827380000044
映射为特征向量
Figure FDA0003638827380000045
Figure FDA0003638827380000046
两个特征完成投影后通过块对角张量
Figure FDA0003638827380000047
融合,每个块
Figure FDA0003638827380000048
Figure FDA0003638827380000049
中对应长度为t1的部分与
Figure FDA00036388273800000410
中长度为t2的部分融合得到融合特征zi
Figure FDA00036388273800000411
特征的下标it1:(i+1)t1表示向量中it1:(i+1)t1位置上所对应的t1个值,对每个对角块的切片矩阵施加稀疏性约束,对于对角块
Figure FDA00036388273800000412
融合部分的第j个输出有:
Figure FDA00036388273800000413
对切片矩阵
Figure FDA00036388273800000414
进行结构稀疏性约束,稀疏性约束后的切片为:
Figure FDA00036388273800000415
式中:
Figure FDA00036388273800000416
为外积(out product)运算,向量
Figure FDA00036388273800000417
超参数R为块张量切片矩阵的秩,将约束公式代入zi[j]表达式中得到:
Figure FDA00036388273800000418
对所得结果进行batch归一化后级联,最后投影矩阵Cf将融合特征进行线性映射,输出多模态联合表示特征:xf=Cfz,其中
Figure FDA00036388273800000419
为块向量zi的横向级联。
7.根据权利要求1所述的基于双线性池化的多模态融合在线谣言检测方法,其特征在于,将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率时,通过最小化预测值分布与真实结果分布之间的交叉熵损失函数来训练模型中的参数,损失函数为:
Figure FDA00036388273800000420
式中:Θ=[θtpfd]为谣言检测模型中所有可训练的参数,
Figure FDA00036388273800000421
为一个batch的样本数量,
Figure FDA00036388273800000422
为样本分类类别,
Figure FDA00036388273800000423
为样本i的ground truth标签,若样本i属于第j类则向量中第j维的数值为1,否则为0,yi,j为模型的预测结果,
Figure FDA00036388273800000424
为模型中所有可训练参数Θ的L2正则化,用于防止训练的模型过拟合,其中λ表示相应的权衡系数。
8.一种基于双线性池化的多模态融合在线谣言检测系统,其特征在于,包括数据预处理模块、高阶文本特征获取模块、高阶传播结构特征获取模块、特征融合模块以及谣言监测模块;
数据预处理模块用于去除待检测数据集中所述原始新闻文本中对于文本语义特征提取没有贡献以及具有误导作用的信息;提取所述传播信息中回复的传播关系和回复的文本内容,得到基于回复关系的图结构,其中每个节点为一条回复,将回复特征按邻接矩阵A的顺序排列,得到每条谣言事件中所有回复信息的特征,其中邻接矩阵A包含传播的结构信息,特征矩阵X包含传播的内容信息;
高阶文本特征获取模块用于采用预训练的BERT base模型提取所述原始新闻文本的语义特征,采用基于TextCNN的短文本主题分类器提取待检测数据集中原始新闻文本的主题特征xtopic,并将并将主题特征xtopic作为语义特征xse的指导;将主题特征xtopic与语义特征xse通过交叉注意机制得到主题信息加权后的语义特征,基于GRU中更新门的思想,对加权后的语义特征进行更新得到主题指导的高阶文本特征xt
高阶传播结构特征获取模块用于根据图卷积神经网络提取传播结构模态特征编码,计算传播结构图的PageRank值,并将其用于特征加权,得到原始新闻回复的加权文本特征,基于加权文本特征和邻接矩阵A提取谣言传播结构自上而下和自下而上两个方向的特征;提取谣言传播结构的图卷积神经网络包括两个图卷积层以及激活函数;再将所述两个方向的特征进行平均池化和级联得到高阶传播结构特征xp
特征融合模块用于采用改进的块对角分解方法对双线性池化模型中用于多模态融合的张量
Figure FDA0003638827380000051
分解为一个块对角张量和三个投影矩阵,双线性池化模型两个输入特征的投影矩阵Ct和Cp与对角张量块一一对应,再将特征投影部分替换为类似于TT-Layer的链式投影,得到高阶文本特征的投影
Figure FDA0003638827380000052
和传播结构特征的投影
Figure FDA0003638827380000053
通过块对角张量
Figure FDA0003638827380000054
融合,对每个对角块的切片矩阵施加稀疏性约束,最后输出特征的投影矩阵Cf将融合特征进行线性映射,输出多模态联合表示特征xf
谣言监测模块用于将多模态联合表示特征xf经过全连接层编码,并通过softmax函数输出模型预测的每个类别的概率,即得到谣言检测结果。
9.一种计算机设备,其特征在于,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现权利要求1~7中任一项所述基于双线性池化的多模态融合在线谣言检测方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现如权利要求1~7中任一项所述的基于双线性池化的多模态融合在线谣言检测方法。
CN202210509676.8A 2022-05-11 2022-05-11 基于双线性池化的多模态融合在线谣言检测方法及系统 Pending CN114936267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210509676.8A CN114936267A (zh) 2022-05-11 2022-05-11 基于双线性池化的多模态融合在线谣言检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210509676.8A CN114936267A (zh) 2022-05-11 2022-05-11 基于双线性池化的多模态融合在线谣言检测方法及系统

Publications (1)

Publication Number Publication Date
CN114936267A true CN114936267A (zh) 2022-08-23

Family

ID=82864654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210509676.8A Pending CN114936267A (zh) 2022-05-11 2022-05-11 基于双线性池化的多模态融合在线谣言检测方法及系统

Country Status (1)

Country Link
CN (1) CN114936267A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115775116A (zh) * 2023-02-13 2023-03-10 华设设计集团浙江工程设计有限公司 基于bim的路桥工程管理方法及系统
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN116051632A (zh) * 2022-12-06 2023-05-02 中国人民解放军战略支援部队航天工程大学 一种双通道transformer卫星六自由度姿态估计算法
CN116319379A (zh) * 2023-05-17 2023-06-23 云目未来科技(湖南)有限公司 一种基于传播链的网络信息引导干预方法及系统
CN117633635A (zh) * 2024-01-23 2024-03-01 南京信息工程大学 一种基于时空传播图的动态谣言检测方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051632A (zh) * 2022-12-06 2023-05-02 中国人民解放军战略支援部队航天工程大学 一种双通道transformer卫星六自由度姿态估计算法
CN116051632B (zh) * 2022-12-06 2023-12-05 中国人民解放军战略支援部队航天工程大学 一种双通道transformer卫星六自由度姿态估计算法
CN115809327A (zh) * 2023-02-08 2023-03-17 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN115809327B (zh) * 2023-02-08 2023-05-05 四川大学 一种多模融合和话题的实时社交网络谣言检测方法
CN115775116A (zh) * 2023-02-13 2023-03-10 华设设计集团浙江工程设计有限公司 基于bim的路桥工程管理方法及系统
CN115775116B (zh) * 2023-02-13 2023-04-28 华设设计集团浙江工程设计有限公司 基于bim的路桥工程管理方法及系统
CN116319379A (zh) * 2023-05-17 2023-06-23 云目未来科技(湖南)有限公司 一种基于传播链的网络信息引导干预方法及系统
CN116319379B (zh) * 2023-05-17 2023-08-01 云目未来科技(湖南)有限公司 一种基于传播链的网络信息引导干预方法及系统
CN117633635A (zh) * 2024-01-23 2024-03-01 南京信息工程大学 一种基于时空传播图的动态谣言检测方法
CN117633635B (zh) * 2024-01-23 2024-04-16 南京信息工程大学 一种基于时空传播图的动态谣言检测方法

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
Onan Sentiment analysis on product reviews based on weighted word embeddings and deep neural networks
Salur et al. A novel hybrid deep learning model for sentiment classification
CN108733742B (zh) 全局归一化阅读器系统和方法
CN114936267A (zh) 基于双线性池化的多模态融合在线谣言检测方法及系统
US20220050967A1 (en) Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
Rajapaksha et al. Bert, xlnet or roberta: the best transfer learning model to detect clickbaits
CN108874997A (zh) 一种面向电影评论的人名命名实体识别方法
CN114936266A (zh) 基于门控机制的多模态融合谣言早期检测方法及系统
Duarte et al. A review of semi-supervised learning for text classification
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Subramanian et al. A survey on sentiment analysis
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
Ullah et al. A deep neural network-based approach for sentiment analysis of movie reviews
Narayanaswamy Exploiting BERT and RoBERTa to improve performance for aspect based sentiment analysis
Liu et al. Hierarchical graph convolutional networks for structured long document classification
Kaur Analyzing twitter feeds to facilitate crises informatics and disaster response during mass emergencies
CN113111257A (zh) 一种基于协同过滤的融合多源异构信息的推荐方法
Pattanayak et al. Natural language processing using recurrent neural networks
Tang et al. Software Knowledge Entity Relation Extraction with Entity‐Aware and Syntactic Dependency Structure Information
Alali A novel stacking method for multi-label classification
Kaur et al. Sentiment Analysis using Cuckoo Search and Computational Intelligence
PASBOLA Text Classification Using Deep learning Methods
Ahmad et al. Comparative analysis using machine learning techniques for fine grain sentiments
Rafi-Ur-Rashid et al. Feature Extraction Using Deep Generative Models for Bangla Text Classification on a New Comprehensive Dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination