CN118114188B - 基于多视角和分层融合的虚假新闻检测方法 - Google Patents
基于多视角和分层融合的虚假新闻检测方法 Download PDFInfo
- Publication number
- CN118114188B CN118114188B CN202410537484.7A CN202410537484A CN118114188B CN 118114188 B CN118114188 B CN 118114188B CN 202410537484 A CN202410537484 A CN 202410537484A CN 118114188 B CN118114188 B CN 118114188B
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- image
- text
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 190
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 706
- 230000008451 emotion Effects 0.000 claims abstract description 181
- 238000000034 method Methods 0.000 claims abstract description 117
- 230000008569 process Effects 0.000 claims abstract description 61
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 41
- 238000011176 pooling Methods 0.000 claims description 40
- 230000004913 activation Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 239000012528 membrane Substances 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 31
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及自然语言处理技术领域,公开了一种基于多视角和分层融合的虚假新闻检测方法,步骤如下:构建新闻样本,对新闻样本进行数据预处理;得到标题特征数据、文本特征数据和图像特征数据;标题特征数据得到标题编码特征向量,文本特征数据得到跨模态文本特征向量、文本编码特征向量、文本情感特征向量;图像特征数据得到图像情感特征向量、跨模态图像特征向量、图像空间域特征向量和图像频域特征向量;融合上述特征向量得到最终融合编码特征向量,输入到分类器模块中,输出新闻样本的真假预测标签。通过融合策略选择过程,有效利用文本模态与图像模态的跨模态之间的相似度信息,及时调整不同样本的模态重要性,达到更高的检测效率。
Description
技术领域
本发明涉及自然语言处理技术领域,具体为基于多视角和分层融合的虚假新闻检测方法。
背景技术
随着社交媒体和在线平台的普及,虚假信息的形式变得越来越复杂和多样化,现代新闻文章和帖子通常包含相互关联的多种模态,因此,利用单模态信息来检测虚假新闻已经不适用;例如,真实图像可以与完全虚假新闻相结合,并且可以使用正确的词语来描述被篡改的图像;鉴于此,多模态特征分析对于为虚假新闻检测提供互补优势是必要的;并且应用深度学习模型来处理多模态信息已经成为虚假新闻检测领域的主流方法;深度学习模型能够学习丰富的特征表示,有效地捕捉文本、图像、视频等不同模态之间的复杂关系,从而提高对虚假信息的准确性和鲁棒性。
虚假新闻检测是一个复杂而多层次的问题,早期工作主要集中在使用传统的自然语言处理(NLP)和机器学习方法来分析文本、发现模式,并试图识别可能的虚假信息;研究人员尝试使用文本的语法、词汇、句法等特征,结合支持向量机(SVM)、决策树等传统机器学习方法,以区分真实和虚假信息;随着机器学习技术的兴起越来越多的工作集中于分析纯文本或纯图像内容;这些工作通常会验证输入的逻辑和语义一致性,并考虑一些琐碎的指标,例如语法错误或图像处理痕迹;由于社交媒体是虚假信息传播的主要平台,一些早期工作者侧重于分析用户生成内容,包括社交媒体上的言论、评论和新闻分享;研究者尝试通过用户行为模式和言论风格等特征来辨别潜在的虚假信息;输入的逻辑和语义一致性,并考虑一些琐碎的指标,例如语法错误或图像处理痕迹;还有一些早期工作从信息传播的角度出发,利用传播模型和社交网络分析方法来研究虚假信息是如何在网络中传播的;这种方法通过分析信息传播路径和关键节点来辨别潜在的虚假信息。
尽管该领域取得很大进步,但当前的方法面临两个重大挑战;首先,虽然许多作品提出新颖的融合方法,但它们只是简单利用深度神经网络模型提取多模态的信息,然后在整体层面上进行融合,不可避免地会遗漏一些细节信息,例如文章的标题、文本的情感、图像中存在的语义信息;或者他们只考虑实体、标记或区域之间的匹配,而忽略全局语义相关性。其次现有的许多方法过度依赖多模态的融合特征,而忽略不同角度不同层次语义之间的关联性,过分强调跨模态融合可能会因多模态特征的不匹配而产生误判,甚至可能会给分类任务增加噪音。
发明内容
针对现有技术的不足,本发明提供基于多视角和分层融合的虚假新闻检测方法,用于解决上述背景技术中所提到的问题。
为实现上述目的,本发明提供如下技术方案:基于多视角和分层融合的虚假新闻检测方法,包括如下步骤:
步骤S1,构建新闻样本,对新闻样本进行数据预处理;
步骤S2,数据预处理后得到标题特征数据、文本特征数据和图像特征数据;
步骤S3,将标题特征数据、文本特征数据和图像特征数据输入到多角度特征提取模型中,其中多角度特征提取模型包括预训练BERT模型、跨模态特征提取模块、文本情感特征提取模块、图像情感提取模块、预训练SwinT模型和预训练CNN模型;
标题特征数据通过预训练BERT模型得到标题编码特征向量,文本特征数据分别通过跨模态特征提取模块得到跨模态文本特征向量、通过预训练BERT模型得到文本编码特征向量、通过文本情感特征提取模块得到文本情感特征向量;图像特征数据分别通过图像情感提取模块得到图像情感特征向量、通过跨模态特征提取模块得到跨模态图像特征向量、通过预训练SwinT模型得到图像空间域特征向量,通过预训练CNN模型得到图像频域特征向量;
步骤S4,多角度特征提取模型连接层次融合模型,将标题编码特征向量、跨模态文本特征向量、文本编码特征向量、文本情感特征向量、图像情感特征向量、跨模态图像特征向量、图像空间域特征向量和图像频域特征向量输入到层次融合模型中;
标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量,跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量,文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量,跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量,图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量,跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量;
步骤S5,基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量,输入到分类器模块中,输出新闻样本的真假预测标签。
进一步的,步骤S1中构建新闻样本,对新闻样本进行数据预处理,具体为:
步骤S11,通过爬虫技术对公开的数据集信息进行处理得到新闻数据集,公开的数据集信息包括微博中文新闻数据集、英文数据集GossipCop和英文数据集PolitiFact新闻数据集,新闻数据集中每一条数据称作单个新闻样本;
步骤S12,对数据集进行数据预处理,删除缺少图像、缺少文字描述、缺少标题或文字描述过于冗长的新闻样本,得到的每个新闻样本均包括标题特征数据、文本特征数据和图像特征数据;对新闻数据集按照8:2的规则随机划分为训练集和测试集。
进一步的,步骤S3中,具体步骤为:
步骤S31,标题特征数据通过预训练BERT模型得到标题编码特征向量;
标题特征数据表示为=[];表示第一个标题特征数据,表示第二个标题特征数据,表示第n个标题特征数据;
标题编码特征向量表示为=[];表示第一个标题编
码特征向量,表示第二个标题编码特征向量,表示第n个标题编码特征向量;
步骤S32,文本特征数据通过预训练BERT模型得到文本编码特征向量;
文本特征数据表示为;表示第一个文本特征数据,表示
第二个文本特征数据,表示第n个文本特征数据;
文本编码特征向量表示=[];表示第一个文本编码特征
向量,表示第二个文本编码特征向量,表示第n个文本编码特征向量;
步骤S33,图像特征数据通过预训练SwinT模型得到图像空间域特征向量;
图像特征数据;和分别表示图像特征数据的宽度和高度;;表示第一张图像特征,表示第二张图像特征,表示第n张
图像特征;
图像空间域特征向量表示为=[];表示第一个图像空间
域特征向量,表示第二个图像空间域特征向量,表示第n个图像空间域特征向量;
步骤S34,图像特征数据通过预训练CNN模型得到图像频域特征向量;
利用离散余弦变换将步骤S33中图像空间域特征向量转换为频域特征,将频域特征送入预训练CNN模型,得到图像频域编码向量;
图像频域特征向量表示=[,];表示第一张图像频域特
征向量,表第二张图像频域特征向量,表示第n张图像频域特征向量;
步骤S35,文本特征数据和图像特征数据通过跨模态特征提取模块分别得到跨模态文本特征向量、跨模态图像特征向量;
将文本特征数据和图像特征数据基于CLIP模型的跨模态特征提取模块对文本特
征和图像特征进行编码,得到跨模态CLIP模型特征向量,跨模态CLIP模型特征向量分
为跨模态文本特征向量、跨模态图像特征向量。
进一步的,步骤S3中,具体步骤为:
步骤S36,文本特征数据通过文本情感特征提取模块得到文本情感特征向量;
文本情感特征提取模块对新闻样本中文本特征数据与情感字典中的词进行匹配,
识别文本特征数据中的情感词,情感词包括正面情感词和负面情感词,通过统计文本特征
数据中正面情感词和负面情感词的数量及强度,计算文本特征数据的情感得分,然后将情
感得分转换为情感特征,情感特征分别表示为、、、、,将五种情
感特征串联在一起得到文本情感特征向量;见公式(1)和公式(2)表示:
(1);
(2);
表示情感特征,表示情感字典的计算过程,表示文本特征数据,表
示文本情感特征向量,表示情感类别,表示情感词典,表示情感强度,表示情感得分,表示其它情感辅助特征,表述级联相加;
步骤S37,图像特征数据通过图像情感提取模块得到图像情感特征向量;
步骤S371,图像特征数据包括图像低维特征和图像高维特征,图像情感提取模块主要包括预训练的深度残差网络、预训练的VGG19网络和全连接层;
步骤S372,将图像特征数据V分别输入预训练的深度残差网络和预训练的VGG19网
络中;利用预训练的深度残差网络提取图像的高维特征,利用预训练的VGG19网络提
取图像的低维特征;
步骤S373,通过预训练的深度残差网络提取图像的高维特征:其中深度残差网络
包含卷积层、批量归一化层、最大池化层和残差网络结构;残差网络结构又包含多个残差
块,每个残差块包括多个卷积层和一个跳跃连接层;深度残差网络中输入图像特征数据V,
经过卷积层、批量归一化层、最大池化层和残差网络结构处理后得到图像的高维特征;
步骤S374,预训练的VGG19网络由16个卷积层、5个池化层、和3个全连接层组成,其
中每个卷积层和全连接层都配有ReLU激活函数,以及每个卷积层使用了小尺寸的3x3卷积
核,将图像特征数据V输入到预训练的VGG19网络中,经过卷积层、池化层和全连接层的处理
后得到图像的低维特征;
步骤S375,将高维特征和低维特征两类图像特征进行拼接后送入全
连接层,得到图像情感特征向量,见公式(3)、公式(4)和公式(5);
(3);
(4);
(5);
式中, 表示利用预训练的深度残差网络提取图像的高维特征过程,表示利用预训练的VGG19网络提取图像的低维特征过程,为图像情感特征向
量。
进一步的,层次融合模型包括协同注意力层、投影层;协同注意力层由两个并行的注意力块和全连接层组成,每个注意力块的输入为查询向量Q、键向量K和值向量V。
进一步的,步骤S41:标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量,具体为:
步骤S411,将标题编码特征向量和文本编码特征向量同时输入到协同注意
力层中的第一个注意力块和第二个注意力块;
步骤S412,在第一个注意力块中,文本编码特征向量作为查询向量Q,标题编码
特征向量作为键向量K和值向量V来计算注意力分数;利用非线性激活函数对注意力分
数进行归一化,得到注意力权重;利用注意力权重对值向量V进行加权求和,以获得文本标
题加权输出向量;
步骤S413,在第二个注意力块中,标题编码特征向量作为查询向量Q,文本编码
特征向量作为键向量K和值向量V,利用查询向量Q和键向量K计算注意力分数;利用非线
性激活函数对注意力分数进行归一化,得到注意力权重;利用注意力权重对值向量V进行加
权求和,以获得标题文本加权输出向量;
步骤S414,文本加权输出向量与标题文本加权输出向量进行级联后送入全
连接层中,得到标题文本特征融合向量,见公式(6)、公式(7)、公式(8)和公式(9);
Q=×,K=×,V=× (6);
(7);
(8);
(9);
式中,表示将输入特征转换为查询向量,表示将输入特征转换为键向量,表示将输入特征转换为值向量,Attention表示一个过程,表示非线性激活函
数,d表示协同注意力层预设的维度,T表示转置,表示标题文本特征融合向量,表
示协同注意力层,表示级联操作;
步骤S42:跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量:具体为:
将文本编码特征向量首先经过池化处理,得到池化后的文本编码特征向量,将池
化后的文本编码特征向量与跨模态文本特征向量进行串联,送入投影层进行融
合,最后得到单模态文本特征融合向量;见公式(10):
(10);
式中,表示单模态文本特征融合向量,表示投影层;
步骤S43:文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量:具体为:
步骤S431,把文本情感特征向量和图像情感特征向量同时输入到协同注
意力层中的第一个注意力块和第二个注意力块;
步骤S432,在第一个注意力块中,将文本情感特征向量作为查询向量,图像情
感特征向量作为键向量和值向量,得到文本情感特征的权重表示;
步骤S433,在第二个注意力块中,用图像情感特征向量作为查询向量,文本情
感特征向量作为键向量和值向量,得到图像情感特征的权重表示;
步骤S434,将文本情感特征的权重表示和图像情感特征的权重表示
级联后输入到全连接层中,得到多模态情感特征融合向量,见公式(11)、公式(12)和公式
(13);
(11);
(12);
(13);
式中,为多模态情感特征融合向量;
步骤S44:跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量:具体为:
将图像空间域特征向量进行池化操作,得到池化后的图像空间域特征向量,将池
化后的图像空间域特征向量与跨模态图像特征向量进行级联,送入投影层中进行融
合,得到单模态图像特征融合向量;用公式(14)表示:
(14);
式中,表示单模态图像特征融合向量,表示投影层;
步骤S45:图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量:具体为:
步骤S451,将图像空间域特征向量和图像频域特征向量同时输入到协同注
意力层中;
步骤S452,在第一个注意力块中,将图像空间域特征向量作为查询向量,图像
频域特征向量作为键向量和值向量,得到第一个注意力块加权的图像空间域特征向量
表示;
步骤S453,使用图像频域特征向量作为查询向量,图像空间域特征向量作为
键向量和值向量,计算图像频域特征向量和图像频域特征向量之间的相似度,得到第二个
注意力块的加权图像频域特征向量表示;
步骤S454,将第一个注意力块加权的图像空间域特征向量表示和第二个注意力块的加权图像频域特征向量表示级联后输入到全连接层中,得到图像特征融合向量;见公式(15)表示:
(15);
式中,为图像特征融合向量,CA表示协同注意力层。
进一步的,步骤S46:跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量;具体为:
步骤S461,将文本编码特征向量和图像空间域特征向量经过线性处理后,输
入到协同注意力层中;
步骤S462,在第一个注意力块中,将文本编码特征向量作为查询向量,图像空
间域特征向量作为键向量和值向量,计算文本编码特征向量和图像空间域特征向量之
间的语义相关性,得到第一个注意力块的输出表示;在第二个注意力块中,将图像空间
域特征向量作为查询向量,文本编码特征向量作为键向量和值向量,得到第二个注意
力块的输出表示;
步骤S463,将第一个注意力块的输出和第二个注意力块的输出分别输入到池化层
中进行池化,然后拼接得到文本-图像融合表示,见公式(16)和公式(17);
(16);
(17);
式中,AVG表示平均池化,CA表示协同注意力层处理过程,是文本-图像融合表
示;
步骤S464,将跨模态文本特征向量和跨模态图像特征向量输入到协
同注意力层中;
步骤S465,在第一个注意力块中,将跨模态文本特征向量作为查询向量, 跨
模态图像特征向量作为键向量和值向量,计算跨模态文本特征向量和跨模态图像特
征向量之间的语义相关性,得到第一个注意力块的输出表示;在第二个注意力块中,将
跨模态图像特征向量作为查询向量,跨模态文本特征向量作为键向量和值向
量,得到第二个注意力块的输出表示;
步骤S466,将第一个注意力块的输出和第二个注意力块的输出分别进行池化处
理,得到池化后的特征表示,然后拼接得到跨膜态文本-图像融合表示;见公式(18)和
公式(19);
(18);
(19);
式中,表示跨膜态文本-图像融合表示;
步骤S467,将文本-图像融合表示和跨膜态文本-图像融合表示进行拼接
后送入投影层进行融合,获得更深层次的跨膜态语义相关性,得到跨膜态投影表示;
步骤S468,同时计算跨模态文本特征向量和跨模态图像特征向量之间的相似度关系,得到跨膜态相似度分数;
步骤S469,将跨膜态投影表示与跨膜态相似度分数进行相乘,得到跨模态特
征融合向量;见公式(20)、公式(21)和公式(22);
(20);
(21);
(22);
式中,为跨膜态投影表示,PL为投影层,为跨膜态相似度分数,表示跨模态文本特征向量的模长,表示跨模态图像特征向量的模长,表示跨模态图像特征向量的转置矩阵。
进一步的,每个注意力块中包含注意力层、残差归一化层和前馈层组成;见公式(23):
Attention() = softmax() × V (23);
式中,Attention表示一个过程,表示非线性激活函数;表示注
意力层的处理过程,计算得到查询向量Q的注意力分数;softmax() 表示残差归一化
层的处理过程,利用非线性softmax激活函数对注意力分数进行归一化,得到查询向量Q的
注意力权重。
进一步的,投影层由多个线性层、批量归一化层、梯度调整层和ReLU激活函数组成,通过一系列的线性和非线性变换,将原始特征向量转化为新的低维特征向量,以便后续任务可以更好地利用这些特征;见公式(24):
Z=(24);
式中,Z表示投影层的输出向量,X表示投影层的输入向量,Drop表示梯度调整层的
计算过程,Norm表示批量归一化层的计算过程,表示ReLU激活函数,、、、、
、表示线性层的权重矩阵和偏置向量的预设参数。
其中线性处理:通常指的是通过线性层对输入数据进行线性变换的过程,这一过程涉及到权重矩阵和偏置向量的应用,公式表达为,其中x为输入向量,W为权重矩阵,/> 表示权重矩阵与输入向量 x 进行点乘(矩阵乘法),b为偏置向量,y为输出向量。从数据中学习特征表示,为后续的任务(如分类、回归等)提供基础。
其中池化处理:对于文本和图像特征向量的池化处理是一种常用的方法,用于减少特征向量的维度同时保留重要信息。这个过程涉及将特征向量划分为多个区域,然后计算每个区域内元素的平均值,从而生成一个新的、维度更低的特征向量。对文本来说,这有助于提炼出关键的语义信息;对图像来说,则有助于提取关键的视觉信息。这种方法简化了模型的计算,同时有助于改善模型对数据的泛化能力。
进一步的,基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量,输入到分类器模块中,输出新闻样本的真假预测标签;具体为;
分类器模块是带有softmax激活函数和交叉熵损失函数的全连接层,softmax激活函数得到新闻样本的预测标签,交叉熵损失函数使分类器模块预测的结果更接近真实的标签;
其中带有softmax激活函数的计算过程见公式(25),交叉熵损失函数计算过程见公式(26);
(25);
(26);
式中,表示分类器预测标签,表示全连接层,表示交叉熵损失函数计算结
果,表示样本的真实标签。
与现有的技术相比,本发明具备以下有益效果:
(1)本发明通过使用强大的预训练BERT模型和预训练SwinT模型提取文本编码特征向量和文本编码特征向量,极大提高文本特征和图像特征的语言理解和表征能力,更好地捕捉新闻数据集中的语义关系,并且使用CLIP跨膜态特征提取文本特征和图像特征,从而使CLIP跨膜态特征提取在表示空间中的文本特征和图像特征能够彼此靠近,跨膜态文本特征和图像特征语义信息。
(2)本发明通过从不同角度考虑新闻数据集中所蕴涵的信息,尽可能的不遗漏重要信息,综合考虑新闻数据集中假新闻的多种特征之间的关系,反映新闻数据集中新闻细节和全局方面的综合表示。
(3)本发明通过利用分层融合策略,将多模态虚假新闻检测模型提取的不同类别的模态特征,进行分步骤、分层次的进行深度融合,最大程度保留不同层次语义之间的关联性,并且消除文本模态特征和图像模态特征的不匹配而产生误判问题。
(4)本发明通过融合策略选择过程中,从读者阅读习惯和阅读方式出发进行考量,有效利用文本特征与图像特征的跨模态之间的相似度信息,及时调整不同新闻样本的文本特征与图像特征重要性,从而达到更高的检测效率。
(5)本发明通过在跨膜态融合过程中,有效使用投影层,最大程度保留输入的文本特征和图像特征的有用信息,同时去除文本特征和图像特征之间的冗余和无关信息,使得同一样文本特征和图像特征的不同视图,或变换得到的文本-图像特征向量在维度空间中更加接近,从而使得CLIP跨膜态特征提取学到的文本特征表示和图像特征表示具有更好的可用性,并为后续任务提供更好的跨膜态特征输出表示。
(6)本发明通过在设计初就充分考虑到歧义问题,利用设计的多角度特征提取方法和分层融合策略,有效的利用各种特征信息,有效的缓解新闻数据集中检测中的歧义问题,并且消除任务中存在的分类噪声。
附图说明
图1为本发明的整体框架示意图。
图2为本发明的图像情感特征向量形成示意图。
图3为本发明的标题文本特征融合向量形成示意图。
图4为本发明的单模态文本特征融合向量形成示意图。
图5为本发明的单模态图像特征融合向量形成示意图。
图6为本发明的多模态情感特征融合向量形成示意图。
图7为本发明的图像特征融合向量形成示意图。
图8为本发明的跨模态特征融合向量形成示意图。
图9为本发明的投影层示意图。
图10为本发明的协同注意力层示意图。
具体实施方式
如图1所示,本发明提供技术方案:基于多视角和分层融合的虚假新闻检测方法,包括如下步骤:
步骤S1,构建新闻样本,对新闻样本进行数据预处理;
步骤S2,数据预处理后得到标题特征数据、文本特征数据和图像特征数据;
步骤S3,将标题特征数据、文本特征数据和图像特征数据输入到多角度特征提取模型中,其中多角度特征提取模型包括预训练BERT模型、跨模态特征提取模块、文本情感特征提取模块、图像情感提取模块、预训练SwinT模型和预训练CNN模型;
标题特征数据通过预训练BERT模型得到标题编码特征向量,文本特征数据分别通过跨模态特征提取模块得到跨模态文本特征向量、通过预训练BERT模型得到文本编码特征向量、通过文本情感特征提取模块得到文本情感特征向量;图像特征数据分别通过图像情感提取模块得到图像情感特征向量、通过跨模态特征提取模块得到跨模态图像特征向量、通过预训练SwinT模型得到图像空间域特征向量,通过预训练CNN模型得到图像频域特征向量;
步骤S4,多角度特征提取模型连接层次融合模型,将标题编码特征向量、跨模态文本特征向量、文本编码特征向量、文本情感特征向量、图像情感特征向量、跨模态图像特征向量、图像空间域特征向量和图像频域特征向量输入到层次融合模型中;
标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量,跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量,文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量,跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量,图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量,跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量;
步骤S5,基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量,输入到分类器模块中,输出新闻样本的真假预测标签。
进一步的,步骤S1中构建新闻样本,对新闻样本进行数据预处理,具体为:
步骤S11,通过爬虫技术对公开的数据集信息进行处理得到新闻数据集,公开的数据集信息包括微博中文新闻数据集、英文数据集GossipCop和英文数据集PolitiFact新闻数据集,新闻数据集中每一条数据称作单个新闻样本;
步骤S12,对数据集进行数据预处理,删除缺少图像、缺少文字描述、缺少标题或文字描述过于冗长的新闻样本,得到的每个新闻样本均包括标题特征数据、文本特征数据和图像特征数据;对新闻数据集按照8:2的规则随机划分为训练集和测试集。
进一步的,步骤S3中,具体步骤为:
步骤S31,标题特征数据通过预训练BERT模型得到标题编码特征向量;
标题特征数据表示为=[];表示第一个标题特征数据,表示第二个标题特征数据,表示第n个标题特征数据;
标题编码特征向量表示为=[];表示第一个标题编
码特征向量,表示第二个标题编码特征向量,表示第n个标题编码特征向量;
步骤S32,文本特征数据通过预训练BERT模型得到文本编码特征向量;
文本特征数据表示为;表示第一个文本特征数据,表示
第二个文本特征数据,表示第n个文本特征数据;
文本编码特征向量表示=[];表示第一个文本编码特征
向量,表示第二个文本编码特征向量,表示第n个文本编码特征向量;
步骤S33,图像特征数据通过预训练SwinT模型得到图像空间域特征向量;
图像特征数据;和分别表示图像特征数据的宽度和高度;;表示第一张图像特征,表示第二张图像特征,表示第n
张图像特征;
图像空间域特征向量表示为=[];表示第一个图像空间
域特征向量,表示第二个图像空间域特征向量,表示第n个图像空间域特征向量;
步骤S34,图像特征数据通过预训练CNN模型得到图像频域特征向量;
利用离散余弦变换将步骤S33中图像空间域特征向量转换为频域特征,将频域特征送入预训练CNN模型,得到图像频域编码向量;
图像频域特征向量表示=[,];表示第一张图像频域特
征向量,表第二张图像频域特征向量,表示第n张图像频域特征向量;
步骤S35,文本特征数据和图像特征数据通过跨模态特征提取模块分别得到跨模态文本特征向量、跨模态图像特征向量;
将文本特征数据和图像特征数据基于CLIP模型的跨模态特征提取模块对文本特
征和图像特征进行编码,得到跨模态CLIP模型特征向量,跨模态CLIP模型特征向量分
为跨模态文本特征向量、跨模态图像特征向量。
进一步的,步骤S3中,具体步骤为:
步骤S36,文本特征数据通过文本情感特征提取模块得到文本情感特征向量;
文本情感特征提取模块对新闻样本中文本特征数据与情感字典中的词进行匹配,
识别文本特征数据中的情感词,情感词包括正面情感词和负面情感词,通过统计文本特征
数据中正面情感词和负面情感词的数量及强度,计算文本特征数据的情感得分,然后将情
感得分转换为情感特征,情感特征分别表示为、、、、,将五种情
感特征串联在一起得到文本情感特征向量;见公式(1)和公式(2)表示:
(1);
(2);
表示情感特征,表示情感字典的计算过程,表示文本特征数据,表
示文本情感特征向量,表示情感类别,表示情感词典,表示情感强度,表示情感得分,表示其它情感辅助特征,表述级联相加;
如图2所示,步骤S37,图像特征数据通过图像情感提取模块得到图像情感特征向量;
步骤S371,图像特征数据包括图像低维特征和图像高维特征,图像情感提取模块主要包括预训练的深度残差网络、预训练的VGG19网络和全连接层;
步骤S372,将图像特征数据V分别输入预训练的深度残差网络和预训练的VGG19网
络中;利用预训练的深度残差网络提取图像的高维特征,利用预训练的VGG19网络提
取图像的低维特征;
步骤S373,通过预训练的深度残差网络提取图像的高维特征:其中深度残差网络
包含卷积层、批量归一化层、最大池化层和残差网络结构;残差网络结构又包含多个残差
块,每个残差块包括多个卷积层和一个跳跃连接层;深度残差网络中输入图像特征数据V,
经过卷积层、批量归一化层、最大池化层和残差网络结构处理后得到图像的高维特征;
步骤S374,预训练的VGG19网络由16个卷积层、5个池化层、和3个全连接层组成,其
中每个卷积层和全连接层都配有ReLU激活函数,以及每个卷积层使用了小尺寸的3x3卷积
核,将图像特征数据V输入到预训练的VGG19网络中,经过卷积层、池化层和全连接层的处理
后得到图像的低维特征;
步骤S375,将高维特征和低维特征两类图像特征进行拼接后送入全
连接层,得到图像情感特征向量,见公式(3)、公式(4)和公式(5)表示:
(3);
(4);
(5);
式中, 表示利用预训练的深度残差网络提取图像的高维特征过程,表示利用预训练的VGG19网络提取图像的低维特征过程,为图像情感特征向
量。
进一步的,如图10所示,层次融合模型包括协同注意力层、投影层;协同注意力层由两个并行的注意力块和全连接层组成,每个注意力块的输入为查询向量Q、键向量K和值向量V。
进一步的,如图3所示,步骤S41:标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量,具体为:
步骤S411,将标题编码特征向量和文本编码特征向量同时输入到协同注意
力层中的第一个注意力块和第二个注意力块;
步骤S412,在第一个注意力块中,文本编码特征向量作为查询向量Q,标题编码
特征向量作为键向量K和值向量V来计算注意力分数;利用非线性激活函数对注意力分
数进行归一化,得到注意力权重;利用注意力权重对值向量V进行加权求和,以获得文本标
题加权输出向量;
步骤S413,在第二个注意力块中,标题编码特征向量作为查询向量Q,文本编码
特征向量作为键向量K和值向量V,利用查询向量Q和键向量K计算注意力分数;利用非线
性激活函数对注意力分数进行归一化,得到注意力权重;利用注意力权重对值向量V进行加
权求和,以获得标题文本加权输出向量;
步骤S414,文本加权输出向量与标题文本加权输出向量进行级联后送入全
连接层中,得到标题文本特征融合向量,见公式(6)、公式(7)、公式(8)和公式(9);
Q=×,K=×,V=× (6);
(7);
(8);
(9);
式中,表示将输入特征转换为查询向量,表示将输入特征转换为键向量,表示将输入特征转换为值向量,Attention表示一个过程,表示非线性激活函
数,d表示协同注意力层预设的维度,T表示转置,表示标题文本特征融合向量,表
示协同注意力层,表示级联操作;
步骤S42:如图4所示,跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量:具体为:
将文本编码特征向量首先经过池化处理,得到池化后的文本编码特征向量,将池
化后的文本编码特征向量与跨模态文本特征向量进行串联,送入投影层进行融
合,最后得到单模态文本特征融合向量;见公式(10):
(10);
式中,表示单模态文本特征融合向量,表示投影层;
步骤S43:如图6所示,文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量:具体为:
步骤S431,把文本情感特征向量和图像情感特征向量同时输入到协同注
意力层中的第一个注意力块和第二个注意力块;
步骤S432,在第一个注意力块中,将文本情感特征向量作为查询向量,图像情
感特征向量作为键向量和值向量,得到文本情感特征的权重表示;
步骤S433,在第二个注意力块中,用图像情感特征向量作为查询向量,文本情
感特征向量作为键向量和值向量,得到图像情感特征的权重表示;
步骤S434,将文本情感特征的权重表示和图像情感特征的权重表示
级联后输入到全连接层中,得到多模态情感特征融合向量;见公式(11)、公式(12)和公式
(13);
(11);
(12);
(13);
式中,为多模态情感特征融合向量;
步骤S44:如图5所示,跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量:具体为:
将图像空间域特征向量进行池化操作,得到池化后的图像空间域特征向量,将池
化后的图像空间域特征向量与跨模态图像特征向量进行级联,送入投影层中进行融
合,得到单模态图像特征融合向量;用公式(14)表示:
(14);
式中,表示单模态图像特征融合向量,表示投影层;
步骤S45:如图7所示,图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量:具体为:
步骤S451,将图像空间域特征向量和图像频域特征向量同时输入到协同注
意力层中;
步骤S452,在第一个注意力块中,将图像空间域特征向量作为查询向量,图像
频域特征向量作为键向量和值向量,得到第一个注意力块加权的图像空间域特征向量
表示;
步骤S453,使用图像频域特征向量作为查询向量,图像空间域特征向量作为
键向量和值向量,计算图像频域特征向量和图像频域特征向量之间的相似度,得到第二个
注意力块的加权图像频域特征向量表示;
步骤S454,将第一个注意力块加权的图像空间域特征向量表示和第二个注意力块的加权图像频域特征向量表示级联后输入到全连接层中,得到图像特征融合向量;见公式(15)表示:
(15);
式中,为图像特征融合向量,CA表示协同注意力层。
进一步的,如图8所示,步骤S46:跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量;具体为:
步骤S461,将文本编码特征向量和图像空间域特征向量经过线性处理后,输
入到协同注意力层中;
步骤S462,在第一个注意力块中,将文本编码特征向量作为查询向量,图像空
间域特征向量作为键向量和值向量,计算文本编码特征向量和图像空间域特征向量之
间的语义相关性,得到第一个注意力块的输出表示;在第二个注意力块中,将图像空间
域特征向量作为查询向量,文本编码特征向量作为键向量和值向量,得到第二个注意
力块的输出表示;
步骤S463,将第一个注意力块的输出和第二个注意力块的输出分别输入到池化层
中进行池化,然后拼接得到文本-图像融合表示,见公式(16)和公式(17);
(16);
(17);
式中,AVG表示平均池化,CA表示协同注意力层处理过程,是文本-图像融合表
示;
步骤S464,将跨模态文本特征向量和跨模态图像特征向量输入到协
同注意力层中;
步骤S465,在第一个注意力块中,将跨模态文本特征向量作为查询向量, 跨
模态图像特征向量作为键向量和值向量,计算跨模态文本特征向量和跨模态图像特
征向量之间的语义相关性,得到第一个注意力块的输出表示;在第二个注意力块中,将
跨模态图像特征向量作为查询向量,跨模态文本特征向量作为键向量和值向
量,得到第二个注意力块的输出表示;
步骤S466,将第一个注意力块的输出和第二个注意力块的输出分别进行池化处
理,得到池化后的特征表示,然后拼接得到跨膜态文本-图像融合表示;见公式(18)和
公式(19);
(18);
(19);
式中,表示跨膜态文本-图像融合表示;
步骤S467,将文本-图像融合表示和跨膜态文本-图像融合表示进行拼接
后送入投影层进行融合,获得更深层次的跨膜态语义相关性,得到跨膜态投影表示;
步骤S468,同时计算跨模态文本特征向量和跨模态图像特征向量之间的相似度关系,得到跨膜态相似度分数;
步骤S469,将跨膜态投影表示与跨膜态相似度分数进行相乘,得到跨模态特
征融合向量;见公式(20)、公式(21)和公式(22);
(20);
(21);
(22);
式中,为跨膜态投影表示,PL为投影层,为跨膜态相似度分数,表示跨模态文本特征向量的模长,表示跨模态图像特征向量的模长,表示跨模态图像特征向量的转置矩阵。
进一步的,每个注意力块中包含注意力层、残差归一化层和前馈层组成;见公式(23):
Attention() = softmax() × V (23);
式中,Attention表示一个过程,表示非线性激活函数;表示注
意力层的处理过程,计算得到查询向量Q的注意力分数;softmax() 表示残差归一化
层的处理过程,利用非线性softmax激活函数对注意力分数进行归一化,得到查询向量Q的
注意力权重。
进一步的,如图9所示,投影层由多个线性层、批量归一化层、梯度调整层和ReLU激活函数组成,通过一系列的线性和非线性变换,将原始特征向量转化为新的低维特征向量,以便后续任务可以更好地利用这些特征;见公式(24):
Z=(24);
式中,Z表示投影层的输出向量,X表示投影层的输入向量,Drop表示梯度调整层的
计算过程,Norm表示批量归一化层的计算过程,表示ReLU激活函数,、、、、
、表示线性层的权重矩阵和偏置向量的预设参数。
其中线性处理:通常指的是通过线性层对输入数据进行线性变换的过程,这一过程涉及到权重矩阵和偏置向量的应用,公式表达为,其中x为输入向量,W为权重矩阵,b为偏置向量,/> 表示权重矩阵与输入向量 x 进行点乘(矩阵乘法),y为输出向量。从数据中学习特征表示,为后续的任务(如分类、回归等)提供基础。
其中池化处理:对于文本和图像特征向量的池化处理是一种常用的方法,用于减少特征向量的维度同时保留重要信息。这个过程涉及将特征向量划分为多个区域,然后计算每个区域内元素的平均值,从而生成一个新的、维度更低的特征向量。对文本来说,这有助于提炼出关键的语义信息;对图像来说,则有助于提取关键的视觉信息。这种方法简化了模型的计算,同时有助于改善模型对数据的泛化能力。
进一步的,基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量,输入到分类器模块中,输出新闻样本的真假预测标签;具体为;
分类器模块是带有softmax激活函数和交叉熵损失函数的全连接层,softmax激活函数得到新闻样本的预测标签,交叉熵损失函数衡量分类器模块输出的概率分布与真实标签的概率分布之间的差异,能够有效地指导分类器模块学习,通过最小化损失函数值来优化分类器模块参数,使分类器模块预测的结果更接近真实的标签;
其中带有softmax激活函数的计算过程见公式(25),交叉熵损失函数计算过程见公式(26);
(25);
(26);
式中,表示分类器预测标签,表示全连接层,表示交叉熵损失函数计算结
果,表示样本的真实标签。
尽管已经示出和描述本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.基于多视角和分层融合的虚假新闻检测方法,其特征在于,包括如下步骤:
步骤S1,构建新闻样本,对新闻样本进行数据预处理;
步骤S2,数据预处理后得到标题特征数据、文本特征数据和图像特征数据;
步骤S3,将标题特征数据、文本特征数据和图像特征数据输入到多角度特征提取模型中,其中多角度特征提取模型包括预训练BERT模型、跨模态特征提取模块、文本情感特征提取模块、图像情感提取模块、预训练SwinT模型和预训练CNN模型;
标题特征数据通过预训练BERT模型得到标题编码特征向量,文本特征数据分别通过跨模态特征提取模块得到跨模态文本特征向量、通过预训练BERT模型得到文本编码特征向量、通过文本情感特征提取模块得到文本情感特征向量;图像特征数据分别通过图像情感提取模块得到图像情感特征向量、通过跨模态特征提取模块得到跨模态图像特征向量、通过预训练SwinT模型得到图像空间域特征向量,通过预训练CNN模型得到图像频域特征向量;
步骤S4,多角度特征提取模型连接层次融合模型,将标题编码特征向量、跨模态文本特征向量、文本编码特征向量、文本情感特征向量、图像情感特征向量、跨模态图像特征向量、图像空间域特征向量和图像频域特征向量输入到层次融合模型中;
标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量,跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量,文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量,跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量,图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量,跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量;
步骤S5,基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量,输入到分类器模块中,输出新闻样本的真假预测标签。
2.根据权利要求1所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:步骤S1中构建新闻样本,对新闻样本进行数据预处理,具体为:
步骤S11,通过爬虫技术对公开的数据集信息进行处理得到新闻数据集,公开的数据集信息包括微博中文新闻数据集、英文数据集GossipCop和英文数据集PolitiFact新闻数据集,新闻数据集中每一条数据称作单个新闻样本;
步骤S12,对数据集进行数据预处理,删除缺少图像、缺少文字描述、缺少标题或文字描述过于冗长的新闻样本,得到的每个新闻样本均包括标题特征数据、文本特征数据和图像特征数据;对新闻数据集按照8:2的规则随机划分为训练集和测试集。
3.根据权利要求2所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:步骤S3中,具体步骤为:
步骤S31,标题特征数据通过预训练BERT模型得到标题编码特征向量;
标题特征数据表示为=[/>];/>表示第一个标题特征数据,/>表示第二个标题特征数据,/>表示第n个标题特征数据;
标题编码特征向量表示为=[/>];/>表示第一个标题编码特征向量,/>表示第二个标题编码特征向量,/>表示第n个标题编码特征向量;
步骤S32,文本特征数据通过预训练BERT模型得到文本编码特征向量;
文本特征数据表示为;/>表示第一个文本特征数据,/>表示第二个文本特征数据,/>表示第n个文本特征数据;
文本编码特征向量表示=[/>];/>表示第一个文本编码特征向量,/>表示第二个文本编码特征向量,/>表示第n个文本编码特征向量;
步骤S33,图像特征数据通过预训练SwinT模型得到图像空间域特征向量;
图像特征数据;/>和/>分别表示图像特征数据的宽度和高度;;/>表示第一张图像特征,/>表示第二张图像特征,/>表示第n张图像特征;
图像空间域特征向量表示为=[/>];/>表示第一个图像空间域特征向量,/>表示第二个图像空间域特征向量,/>表示第n个图像空间域特征向量;
步骤S34,图像特征数据通过预训练CNN模型得到图像频域特征向量;
利用离散余弦变换将步骤S33中图像空间域特征向量转换为频域特征,将频域特征送入预训练CNN模型,得到图像频域编码向量;
图像频域特征向量表示=[/>,/>];/>表示第一张图像频域特征向量,/>表第二张图像频域特征向量,/>表示第n张图像频域特征向量;
步骤S35,文本特征数据和图像特征数据通过跨模态特征提取模块分别得到跨模态文本特征向量、跨模态图像特征向量;
将文本特征数据和图像特征数据基于CLIP模型的跨模态特征提取模块对文本特征和图像特征进行编码,得到跨模态CLIP模型特征向量,跨模态CLIP模型特征向量/>分为跨模态文本特征向量/>、跨模态图像特征向量/>。
4.根据权利要求3所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:步骤S3中,具体步骤为:
步骤S36,文本特征数据通过文本情感特征提取模块得到文本情感特征向量;
文本情感特征提取模块对新闻样本中文本特征数据与情感字典中的词进行匹配,识别文本特征数据中的情感词,情感词包括正面情感词和负面情感词,通过统计文本特征数据中正面情感词和负面情感词的数量及强度,计算文本特征数据的情感得分,然后将情感得分转换为情感特征,情感特征分别表示为、/>、/>、/>、/>,将五种情感特征串联在一起得到文本情感特征向量;见公式(1)和公式(2)表示:
(1);
(2);
表示情感特征,/>表示情感字典的计算过程,/>表示文本特征数据,/>表示文本情感特征向量,/>表示情感类别,/>表示情感词典,/>表示情感强度,/>表示情感得分,/>表示其它情感辅助特征,/>表述级联相加;
步骤S37,图像特征数据通过图像情感提取模块得到图像情感特征向量;
步骤S371,图像特征数据包括图像低维特征和图像高维特征,图像情感提取模块主要包括预训练的深度残差网络、预训练的VGG19网络和全连接层;
步骤S372,将图像特征数据V分别输入预训练的深度残差网络和预训练的VGG19网络中;利用预训练的深度残差网络提取图像的高维特征,利用预训练的VGG19网络提取图像的低维特征/>;
步骤S373,通过预训练的深度残差网络提取图像的高维特征:其中深度残差网络包含卷积层、批量归一化层、最大池化层和残差网络结构;残差网络结构又包含多个残差块,每个残差块包括多个卷积层和一个跳跃连接层;深度残差网络中输入图像特征数据V,经过卷积层、批量归一化层、最大池化层和残差网络结构处理后得到图像的高维特征;
步骤S374,预训练的VGG19网络由16个卷积层、5个池化层、和3个全连接层组成,其中每个卷积层和全连接层都配有ReLU激活函数,以及每个卷积层使用了小尺寸的3x3卷积核,将图像特征数据V输入到预训练的VGG19网络中,经过卷积层、池化层和全连接层的处理后得到图像的低维特征;
步骤S375,将高维特征和低维特征/>两类图像特征进行拼接后送入全连接层,得到图像情感特征向量/>,见公式(3)、公式(4)和公式(5);
(3);
(4);
(5);
式中, 表示利用预训练的深度残差网络提取图像的高维特征过程,/>表示利用预训练的VGG19网络提取图像的低维特征过程,/>为图像情感特征向量。
5.根据权利要求4所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:层次融合模型包括协同注意力层、投影层;协同注意力层由两个并行的注意力块和全连接层组成,每个注意力块的输入为查询向量Q、键向量K和值向量V。
6.根据权利要求5所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:
步骤S41:标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量,具体为:
步骤S411,将标题编码特征向量和文本编码特征向量/>同时输入到协同注意力层中的第一个注意力块和第二个注意力块;
步骤S412,在第一个注意力块中,文本编码特征向量作为查询向量Q,标题编码特征向量/>作为键向量K和值向量V来计算注意力分数;利用非线性激活函数对注意力分数进行归一化,得到注意力权重;利用注意力权重对值向量V进行加权求和,以获得文本标题加权输出向量/>;
步骤S413,在第二个注意力块中,标题编码特征向量作为查询向量Q,文本编码特征向量/>作为键向量K和值向量V,利用查询向量Q和键向量K计算注意力分数;利用非线性激活函数对注意力分数进行归一化,得到注意力权重;利用注意力权重对值向量V进行加权求和,以获得标题文本加权输出向量/>;
步骤S414,文本加权输出向量与标题文本加权输出向量/>进行级联后送入全连接层中,得到标题文本特征融合向量,见公式(6)、公式(7)、公式(8)和公式(9);
Q=×/>,K=/>×/>,V=/>×/> (6);
(7);
(8);
(9);
式中,表示将输入特征转换为查询向量,/>表示将输入特征转换为键向量,/>表示将输入特征转换为值向量,Attention表示一个过程,/>表示非线性激活函数,d表示协同注意力层预设的维度,T表示转置,/>表示标题文本特征融合向量,/>表示协同注意力层,/>表示级联操作;
步骤S42:跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量:具体为:
将文本编码特征向量首先经过池化处理,得到池化后的文本编码特征向量,将池化后的文本编码特征向量与跨模态文本特征向量/>进行串联,送入投影层进行融合,最后得到单模态文本特征融合向量/>;见公式(10):
(10);
式中,表示单模态文本特征融合向量,/>表示投影层;
步骤S43:文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量:具体为:
步骤S431,把文本情感特征向量和图像情感特征向量/>同时输入到协同注意力层中的第一个注意力块和第二个注意力块;
步骤S432,在第一个注意力块中,将文本情感特征向量作为查询向量,图像情感特征向量/>作为键向量和值向量,得到文本情感特征的权重表示/>;
步骤S433,在第二个注意力块中,用图像情感特征向量作为查询向量,文本情感特征向量/>作为键向量和值向量,得到图像情感特征的权重表示/>;
步骤S434,将文本情感特征的权重表示和图像情感特征的权重表示/>级联后输入到全连接层中,得到多模态情感特征融合向量,见公式(11)、公式(12)和公式(13);
(11);
(12);
(13);
式中,为多模态情感特征融合向量;
步骤S44:跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量:具体为:
将图像空间域特征向量进行池化操作,得到池化后的图像空间域特征向量,将池化后的图像空间域特征向量与跨模态图像特征向量进行级联,送入投影层中进行融合,得到单模态图像特征融合向量;用公式(14)表示:
(14);
式中,表示单模态图像特征融合向量,/>表示投影层;
步骤S45:图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量:具体为:
步骤S451,将图像空间域特征向量和图像频域特征向量/>同时输入到协同注意力层中;
步骤S452,在第一个注意力块中,将图像空间域特征向量作为查询向量,图像频域特征向量/>作为键向量和值向量,得到第一个注意力块加权的图像空间域特征向量表示;
步骤S453,使用图像频域特征向量作为查询向量,图像空间域特征向量/>作为键向量和值向量,计算图像频域特征向量和图像频域特征向量之间的相似度,得到第二个注意力块的加权图像频域特征向量表示;
步骤S454,将第一个注意力块加权的图像空间域特征向量表示和第二个注意力块的加权图像频域特征向量表示级联后输入到全连接层中,得到图像特征融合向量;见公式(15)表示:
(15);
式中,为图像特征融合向量,CA表示协同注意力层。
7.根据权利要求6所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:
步骤S46:跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量;具体为:
步骤S461,将文本编码特征向量和图像空间域特征向量/>经过线性处理后,输入到协同注意力层中;
步骤S462,在第一个注意力块中,将文本编码特征向量作为查询向量,图像空间域特征向量/>作为键向量和值向量,计算文本编码特征向量和图像空间域特征向量之间的语义相关性,得到第一个注意力块的输出表示/>;在第二个注意力块中,将图像空间域特征向量/>作为查询向量,文本编码特征向量/>作为键向量和值向量,得到第二个注意力块的输出表示/>;
步骤S463,将第一个注意力块的输出和第二个注意力块的输出分别输入到池化层中进行池化,然后拼接得到文本-图像融合表示,见公式(16)和公式(17);
(16);
(17);
式中,AVG表示平均池化,CA表示协同注意力层处理过程,是文本-图像融合表示;
步骤S464,将跨模态文本特征向量和跨模态图像特征向量/>输入到协同注意力层中;
步骤S465,在第一个注意力块中,将跨模态文本特征向量作为查询向量, 跨模态图像特征向量/>作为键向量和值向量,计算跨模态文本特征向量和跨模态图像特征向量之间的语义相关性,得到第一个注意力块的输出表示/>;在第二个注意力块中,将跨模态图像特征向量/>作为查询向量,跨模态文本特征向量/>作为键向量和值向量,得到第二个注意力块的输出表示/>;
步骤S466,将第一个注意力块的输出和第二个注意力块的输出分别进行池化处理,得到池化后的特征表示,然后拼接得到跨膜态文本-图像融合表示;见公式(18)和公式(19);
(18);
(19);
式中,表示跨膜态文本-图像融合表示;
步骤S467,将文本-图像融合表示和跨膜态文本-图像融合表示/>进行拼接后送入投影层进行融合,获得更深层次的跨膜态语义相关性,得到跨膜态投影表示/>;
步骤S468,同时计算跨模态文本特征向量和跨模态图像特征向量之间的相似度关系,得到跨膜态相似度分数;
步骤S469,将跨膜态投影表示与跨膜态相似度分数进行相乘,得到跨模态特征融合向量/>;见公式(20)、公式(21)和公式(22);
(20);
(21);
(22);
式中,为跨膜态投影表示,PL为投影层,/>为跨膜态相似度分数,表示跨模态文本特征向量的模长,/>表示跨模态图像特征向量的模长,表示跨模态图像特征向量的转置矩阵。
8.根据权利要求7所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:每个注意力块中包含注意力层、残差归一化层和前馈层组成;见公式(23):
Attention() = softmax(/>) × V (23);
式中,Attention表示一个过程,表示非线性激活函数;/>表示注意力层的处理过程,计算得到查询向量Q的注意力分数;softmax(/>) 表示残差归一化层的处理过程,利用非线性softmax激活函数对注意力分数进行归一化,得到查询向量Q的注意力权重。
9.根据权利要求8所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:投影层由多个线性层、批量归一化层、梯度调整层和ReLU激活函数组成,通过一系列的线性和非线性变换,将原始特征向量转化为新的低维特征向量,以便后续任务可以更好地利用这些特征;见公式(24):
Z=(24);
式中,Z表示投影层的输出向量,X表示投影层的输入向量,Drop表示梯度调整层的计算过程,Norm表示批量归一化层的计算过程,表示ReLU激活函数,/>、/>、/>、/>、/>、/>表示线性层的权重矩阵和偏置向量的预设参数。
10.根据权利要求9所述的基于多视角和分层融合的虚假新闻检测方法,其特征在于:基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量,输入到分类器模块中,输出新闻样本的真假预测标签;具体为;
分类器模块是带有softmax激活函数和交叉熵损失函数的全连接层,softmax激活函数得到新闻样本的预测标签,交叉熵损失函数使分类器模块预测的结果更接近真实的标签;
其中带有softmax激活函数的计算过程见公式(25),交叉熵损失函数计算过程见公式(26);
(25);
(26);
式中,表示分类器预测标签,/>表示全连接层,/>表示交叉熵损失函数计算结果,/>表示样本的真实标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410537484.7A CN118114188B (zh) | 2024-04-30 | 2024-04-30 | 基于多视角和分层融合的虚假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410537484.7A CN118114188B (zh) | 2024-04-30 | 2024-04-30 | 基于多视角和分层融合的虚假新闻检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118114188A CN118114188A (zh) | 2024-05-31 |
CN118114188B true CN118114188B (zh) | 2024-06-25 |
Family
ID=91210956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410537484.7A Active CN118114188B (zh) | 2024-04-30 | 2024-04-30 | 基于多视角和分层融合的虚假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118114188B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297473A (zh) * | 2021-11-25 | 2022-04-08 | 北京邮电大学 | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 |
US20230229960A1 (en) * | 2022-01-19 | 2023-07-20 | Microsoft Technology Licensing, Llc | Systems and methods for facilitating integrative, extensible, composable, and interpretable deep learning |
CN116432659A (zh) * | 2023-03-06 | 2023-07-14 | 电子科技大学 | 基于标题正文相似度和作者隐含情感的虚假新闻检测方法 |
CN117391051B (zh) * | 2023-12-12 | 2024-03-08 | 江西师范大学 | 一种融合情感的共同注意网络多模态虚假新闻检测方法 |
CN117688509A (zh) * | 2023-12-12 | 2024-03-12 | 山东师范大学 | 基于多层次融合和注意力机制的多模态虚假新闻检测方法 |
-
2024
- 2024-04-30 CN CN202410537484.7A patent/CN118114188B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于多模态的虚假新闻识别;徐传凯;杜艳;苏韵捷;;中国新通信;20200805(15);全文 * |
基于有向图模型的多模态新闻图像检索研究;相子喜;吕学强;张凯;;科学技术与工程;20160128(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN118114188A (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
CN112000818B (zh) | 一种面向文本和图像的跨媒体检索方法及电子装置 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN115577161A (zh) | 融合情感资源的多模态情感分析模型 | |
CN117391051B (zh) | 一种融合情感的共同注意网络多模态虚假新闻检测方法 | |
CN116662500A (zh) | 一种基于bert模型与外部知识图谱的问答系统构建方法 | |
CN114969458B (zh) | 基于文本指导的层级自适应融合的多模态情感分析方法 | |
CN116611024A (zh) | 一种基于事实和情感对立性的多模态反讽检测方法 | |
Guo et al. | Implicit discourse relation recognition via a BiLSTM-CNN architecture with dynamic chunk-based max pooling | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN117251791B (zh) | 基于图的全局语义感知的多模态反讽检测方法 | |
Jia et al. | Semantic association enhancement transformer with relative position for image captioning | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
CN117648469A (zh) | 一种基于对比学习的交叉双塔结构答案选择方法 | |
CN116910683A (zh) | 一种基于事件依赖的多模态虚假新闻检测方法 | |
CN118114188B (zh) | 基于多视角和分层融合的虚假新闻检测方法 | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN115858728A (zh) | 一种基于多模态数据的情感分析方法 | |
CN115687620A (zh) | 一种基于三模态表征学习的用户属性检测方法 | |
CN114998698A (zh) | 动态时域卷积网络驱动的多模态情感识别方法 | |
CN113705197A (zh) | 一种基于位置增强的细粒度情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |