CN117809150B - 基于跨模态注意力机制的多模态错误信息检测方法及系统 - Google Patents
基于跨模态注意力机制的多模态错误信息检测方法及系统 Download PDFInfo
- Publication number
- CN117809150B CN117809150B CN202410210738.4A CN202410210738A CN117809150B CN 117809150 B CN117809150 B CN 117809150B CN 202410210738 A CN202410210738 A CN 202410210738A CN 117809150 B CN117809150 B CN 117809150B
- Authority
- CN
- China
- Prior art keywords
- features
- data
- result
- error information
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 230000007246 mechanism Effects 0.000 title claims abstract description 43
- 230000000007 visual effect Effects 0.000 claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000005728 strengthening Methods 0.000 claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims description 72
- 230000009466 transformation Effects 0.000 claims description 28
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于跨模态注意力机制的多模态错误信息检测方法及系统,该方法包括获取多模态数据,所述多模态数据包括:文本数据和图像数据;分别从所述文本数据和图像数据中提取文本特征和视觉特征,基于所述文本特征和视觉特征,结合跨模态注意力机制,获取强化特征;将所述强化特征进行融合,获取多模态融合特征;对所述多模态融合特征进行错误信息检测,获取错误信息检测结果。本发明能够准确辨别社交平台中的多模态错误信息。
Description
技术领域
本发明涉及错误信息检测技术领域,特别是涉及基于跨模态注意力机制的多模态错误信息检测方法及系统。
背景技术
在错误信息检测方面,大多数社交媒体平台仍然依赖人工方法来评估信息可信度和检测虚假报告。然而,在处理社交媒体的海量信息时,这种方法可能效率低下。因此,许多研究将重点放在基于深度神经网络的监督技术上,以检测错误信息。例如,Hakak等人提出了一种综合框架,利用三种机器学习模型(决策树、随机森林和其他树形分类器)的组合,对从错误信息数据集中提取的特征进行分类。Shu等人提出了一个框架,对出版商、新闻文章和用户之间的关系进行建模,并采用交替最小二乘法(ALS)来完成错误信息的分类任务。此外,Guacho等人提出了一种错误信息检测方法,将一组新闻文章表示为多维张量,并应用张量分解技术为每篇文章生成简洁的嵌入表示。然而,这些方法只利用了文本信息,忽视了多模态信息在错误信息检测任务中的作用。目前,研究人员开始关注基于多模态内容的错误信息检测方法,以提高模型的有效性。传统的错误信息检测方法主要采用单一模态,即仅使用文本或图像特征进行分析。然而,这种方法没有充分利用推文的所有内容信息。为了解决这个问题,一种常见的方法是整合文本和图像特征,以识别错误信息:基于多模态的方法是解决误报检测的主流方法;例如,Singhal等人提出了一种错误信息检测模型,利用预先训练好的BERT和VGG-19模型分别提取文本和图像特征,然后将不同模态的特征串联起来进行分类。Raj等人设计了一个使用RNN和CNN检测错误信息的框架,将两个信息流结合起来生成最终预测。然而,这些方法忽视了错误信息检测中不同模态特征的交互性,主要依赖于简单的并集或加法进行特征整合。
多模态错误信息检测方法通常将文本和图像特征分别提取后,直接将向量进行拼接来融合多模态信息。这种向量直接拼接的方法操作简单,但也存在方法单一的局限性。另外,单模态错误信息检测算法存在未充分利用文本或图像信息的问题,以及一般的多模态模型在模态融合利用方法上也有一定的局限性,这导致模型的泛化能力较差。
发明内容
现有的错误信息检测的方法主要还是针对单一模态数据(文本为主)进行检测,这与人们日常所接触的多模态(文本、视频、图像和音频等)信息相违背。并且目前的现有技术忽视了错误信息检测中不同模态特征的交互性,主要依赖于简单的并集或加法进行特征整合。为解决上述现有技术中所存在的问题,本发明提供基于跨模态注意力机制的多模态错误信息检测方法及系统,能够准确辨别社交平台中的多模态错误信息。
为实现上述目的,本发明提供了如下方案:
基于跨模态注意力机制的多模态错误信息检测方法,包括:
获取多模态数据,所述多模态数据包括:文本数据和图像数据;
分别从所述文本数据和图像数据中提取文本特征和视觉特征,基于所述文本特征和视觉特征,结合跨模态注意力机制,获取强化特征;
将所述强化特征进行融合,获取多模态融合特征;对所述多模态融合特征进行错误信息检测,获取错误信息检测结果。
可选地,在分别从所述文本数据和图像数据中提取文本特征和视觉特征前还包括:
对所述文本数据进行预处理包括:对所述文本数据进行数据特殊符号清洗和分词处理,获取预处理后的文本数据;
对所述图像数据进行预处理包括:对所述图像数据进行缩放和标准化操作,并进行格式转换,去除格式转换后的图像数据中的无效数据,同时转化为统一尺寸,获取预处理后的图像数据。
可选地,从所述文本数据提取文本特征包括:
构建BERT模型,将预处理后的所述文本数据输入所述BERT模型,捕捉文本数据的上下文和语义特征,获取文本特征。
可选地,从所述图像数据中提取视觉特征包括:
构建ViT模型,将预处理后的所述图像数据输入ViT模型,调整图像数据的目标大小,将调整后的图像数据进行目标分割,对分割后的所述图像数据进行序列化处理,获取视觉特征。
可选地,获取所述强化特征包括:
将所述多模态数据特征输入所述跨模态注意力机制模型,通过所述多模态数据特征中的文本特征与所述跨模态注意力机制模型中的查询变换矩阵进行计算,获取第一查询结果,基于所述多模态数据特征中的视觉特征分别与所述跨模态注意力机制模型中的密钥变换矩阵和值变换矩阵进行计算,获取第一密钥结果和第一值结果;
根据所述第一查询结果、所述第一密钥结果和所述第一值结果,获取第一得分矩阵,将所述第一得分矩阵乘以所述第一值结果,获取第一强化特征。
可选地,获取所述强化特征还包括:
将所述多模态数据特征输入所述跨模态注意力机制模型,通过所述视觉特征与所述查询变换矩阵进行计算,获取第二查询结果,基于所述文本特征分别与所述密钥变换矩阵和所述值变换矩阵进行计算,获取第二密钥结果和第二值结果;
根据所述第二查询结果、所述第二密钥结果和所述第二值结果,获取第二得分矩阵,将所述第二得分矩阵乘以所述第二值结果,获取第二强化特征。
可选地,获取所述错误信息检测结果包括:
将第一强化特征和第二强化特征分别进行投影,将投影后的第一强化特征和第二强化特征进行连接操作,获评估器矩阵和被评估矩阵;
将所述评估器矩阵和所述被评估矩阵的转置进行乘法操作,获取第三得分矩阵;
根据所述第三得分矩阵,获取预测概率,设置预测概率阈值,对比所述预测概率与所述预测概率阈值,判断所述多模态数据是否为错误信息,输出所述错误信息检测结果。
可选地,获取所述预测概率的方法为:
其中,w为全连接层的权重矩阵,为第三得分矩阵,b为偏置值,s为错误信息分类模块中使用的softmax函数,/>为预测概率。
为实现上述目的,本发明还提供了基于跨模态注意力机制的多模态错误信息检测系统,包括:
多模态特征获取模块,用于获取多模态数据,所述多模态数据包括:文本数据和图像数据;
跨模态注意力机制模块,用于分别从所述文本数据和图像数据中提取文本特征和视觉特征,基于所述文本特征和视觉特征,结合跨模态注意力机制,获取强化特征;
错误息检测模块,用于将所述强化特征进行融合,获取多模态融合特征;对所述多模态融合特征进行错误信息检测,获取错误信息检测结果。
本发明的有益效果为:
本发明通过使用多模态特征提取模块分别获得文本特征和视觉特征,并进行跨模态注意力模块增强不同模态信息,然后由多模态信息融合模块进行特征融合,通过错误信息检测模块进行检测分类,相比现有方法,更好地利用社交媒体中多模态(视觉和文本)信息,检测效果更好,鲁棒性更强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于跨模态注意力机制的多模态错误信息检测方法流程图;
图2为本发明实施例的多模态数据预处理和特征提取结构图;
图3为本发明实施例的多模态特征增强结构图;
图4为本发明实施例的多模态特征融合结构图;
图5为本发明实施例的检测结构图;
图6为本发明实施例的基于跨模态注意力机制的多模态错误信息检测系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明公开了基于跨模态注意力机制的多模态错误信息检测方法,包括:
对多模态数据进行预处理,然后分类利用BERT和ViT提取文本特征与视觉特征;
基于跨模态注意力机制,关注不同时间步长的多模态序列之间的互动,根据目标模态的信息调整源模态的信息,从而获得强化特征;
在特征级别上考虑不同模态的权重分配,实现文本和视觉特征的融合;
对上述多模态融合特征进行错误信息检测,得到错误信息事件预测结果。
具体地,对错误信息的事件中的多模态数据进行预处理,可以是微博,也可以是小红书等社交媒体中的内容,一般是对其中的文本数据进行符号过滤,对其中的图像数据进行格式转换,去除无效数据,同时转化为统一尺寸。
然后进行多模态数据特征提取,使用预训练的双向编码器表征转换器(Bidirectional Encoder Representations from Transformers,BERT)从文本模态数据中提取文本特征,使用预训练的视觉转换器(Vision in Transformers,ViT)从视觉模态数据中提取视觉特征。
进一步地,将提取得到的不同模态数据的特征信息,即文本特征和视觉特征输入到跨模态注意力模块,使用跨模态注意力机制关注不同时间步长的多模态序列之间的互动,同时根据目标模态的信息调整源模态的信息,从而获得强化特征。
然后将强化后的不同模态特征输入多模态信息融合模块,在特征级别上考虑不同模态的权重分配,实现文本和视觉特征的融合。
最后将多模态融合特征输入到错误信息检测模块,进行多模态错误信息检测,得到错误信息事件检测结果。
详细步骤如下:
为了使输入的事件检测源数据更好地进行特征提取,需要针对文本数据和图像数据分别进行预处理,如图2所示。
对文本数据进行数据预处理,通过数据特殊符号清洗和分词处理,得到预处理文本数据。
对图像数据进行数据预处理,主要是缩放和标准化操作,进行格式转换后去除无效数据,同时转化为统一尺寸。
多模态数据特征提取具体包括:
本发明使用预先训练好的转换器,双向编码器和语义特征。本发明将预处理过的文本序列表示为,然后将其作为BERT模型的输入,最终得到统一的文本特征,具体步骤如下:
其中,为文本特征,BERT为双向编码器。
本发明使用的视觉转换器(Vision in Transformers,ViT)的版本包含12层和12个注意力头。它将图像重新调整为224×224的大小,并将其分割为196个块,每个块的大小为16×16。如此每个块都被看作是序列中的一个元素,使得ViT可以对图像进行全局的序列化处理,从而提取出图像的特征信息。本发明将预处理过的图像序列表示为,然后将其作为ViT模型的输入,最终得到统一的视觉特征,具体步骤如下:
其中,为视觉特征,ViT为视觉转换器。
接下来本发明将介绍跨模态注意力模块处理文本和视觉模态数据如图3所示,具体流程如下:
本发明用"V→L"来表示视觉特征()向文本特征(/>)的转化,具体操作如下:
本发明将多模态特征提取器的输出和/>输入跨模态注意力机制模块,进行以下处理。跨模态注意力编码器层的输入由查询变换矩阵/>组成、密钥变换矩阵/>和值变换矩阵/>,然后/>与/>计算得到查询/>,/>分别与/>和/>计算得到密钥/>和值。具体计算过程如下:
其中,为查询结果,/>为密钥结果,/>为值结果,/>为密钥变换矩阵,/>为值变换矩阵,/>为查询变换矩阵。
从视觉特征到文本特征的潜在自适应表现为跨模态注意力具体计算如下:
其中,为缩放因子,softmax为逻辑回归函数,T指对密钥结果进行转置操作。
具体来说,本发明用来缩放softmax,从而计算出一个得分矩阵,然后将其乘以/>,最终完成视觉特征(/>)向文本特征(/>)的转化,得到/>。
本发明用"L→V"来表示文本信息(L)向视觉信息(V)的转化,具体操作如下:
本发明将多模态特征提取器的输出和/>输入跨模态注意力机制模块,进行以下处理。跨模态注意力编码器层的输入由查询变换矩阵/>组成、密钥变换矩阵/>和值变换矩阵/>,然后用/>与/>计算得到查询/>,用/>分别与/>和/>计算得到密钥/>和值/>。具体计算过程如下:
从视觉特征到文本特征的潜在自适应表现为跨模态注意力具体计算如下:
具体来说,本发明用来缩放softmax,从而计算出一个得分矩阵,然后将其乘以/>,最终完成文本特征(/>)向视觉特征(/>)的转化,得到/>。
多模态信息融合过程如图4所示,具体包括:
模态融合模块的输出结果以矩阵的形式呈现,然而这种矩阵表示方式对于错误信息检测模块的预测并不利。为了解决这个问题,本发明设计了一种融合机制,旨在将这些矩阵中的信息转化为一个更有用的向量表示。通过这个转换过程,可以更好地捕捉不同模态之间的关联和重要特征,从而提高错误信息检测的准确性和性能。具体如下:
首先将跨模态注意力机制模块的输出矩阵和/>分别进行投影。
其中为可学习的权重矩阵,/>表示为偏置,/>表示为/>的投影结果,/>表示为/>的投影结果。进一步通过连接操作,可以获得评估器矩阵/>和被评估矩阵/>。
其中,为将两个矩阵进行拼接。
将和/>的转置进行乘法操作,就得到了得分矩阵,如图3。
其中,为得分矩阵,T为对/>进行转置操作。
将所述多模态融合特征输入全连接层的权重矩阵,与偏置值求和之后,由softmax逻辑回归函数处理,以获得错误信息预测概率。
具体地,将多模态融合特征输入至错误信息分类模块的全连接层和softmax逻辑回归函数,得到错误信息预测结果,即是否为错误信息,如图5所示。
错误信息分类模块使用多模态融合特征作为输入,通过一个全连接层和softmax来将事件检测源数据分类为错误信息或非错误信息。
其中,w为全连接层的权重矩阵,b为偏置值,s为错误信息分类模块中使用的softmax函数,为预测概率。
根据预测概率,结合设定的概率经验值,判断事件检测源数据是否为错误信息。
本发明还提供了基于跨模态注意力机制的多模态错误信息检测系统,如图6所示,包括:多模态特征提取模块;跨模态注意力机制模块;多模态融合模块;错误息检测模块。其中:
多模态特征获取模块用于提取多模态数据特征;跨模态注意力机制模块用于关注不同时间步长的多模态序列之间的互动,根据目标模态的信息调整源模态的信息,从而获得强化特征;多模态融合模块将所述文本特征和所述视觉特征进行多模态融合,得到多模态融合特征;错误息检测模块用于对所述多模态融合特征进行错误信息检测,得到错误信息预测结果。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (5)
1.基于跨模态注意力机制的多模态错误信息检测方法,其特征在于,包括:
获取多模态数据,所述多模态数据包括:文本数据和图像数据;
分别从所述文本数据和图像数据中提取文本特征和视觉特征,基于所述文本特征和视觉特征,结合跨模态注意力机制,获取强化特征;
获取所述强化特征包括:
将所述多模态数据特征输入所述跨模态注意力机制模型,通过所述多模态数据特征中的文本特征与所述跨模态注意力机制模型中的查询变换矩阵进行计算,获取第一查询结果,基于所述多模态数据特征中的视觉特征分别与所述跨模态注意力机制模型中的密钥变换矩阵和值变换矩阵进行计算,获取第一密钥结果和第一值结果;
根据所述第一查询结果、所述第一密钥结果和所述第一值结果,获取第一得分矩阵,将所述第一得分矩阵乘以所述第一值结果,获取第一强化特征;
获取所述强化特征还包括:
将所述多模态数据特征输入所述跨模态注意力机制模型,通过所述视觉特征与所述查询变换矩阵进行计算,获取第二查询结果,基于所述文本特征分别与所述密钥变换矩阵和所述值变换矩阵进行计算,获取第二密钥结果和第二值结果;
根据所述第二查询结果、所述第二密钥结果和所述第二值结果,获取第二得分矩阵,将所述第二得分矩阵乘以所述第二值结果,获取第二强化特征;
将所述强化特征进行融合,获取多模态融合特征;对所述多模态融合特征进行错误信息检测,获取错误信息检测结果;
获取所述错误信息检测结果包括:
将第一强化特征和第二强化特征分别进行投影,将投影后的第一强化特征和第二强化特征进行连接操作,获评估器矩阵和被评估矩阵;
将所述评估器矩阵和所述被评估矩阵的转置进行乘法操作,获取第三得分矩阵;
根据所述第三得分矩阵,获取预测概率,设置预测概率阈值,对比所述预测概率与所述预测概率阈值,判断所述多模态数据是否为错误信息,输出所述错误信息检测结果。
2.根据权利要求1所述的基于跨模态注意力机制的多模态错误信息检测方法,其特征在于,在分别从所述文本数据和图像数据中提取文本特征和视觉特征前还包括:
对所述文本数据进行预处理包括:对所述文本数据进行数据特殊符号清洗和分词处理,获取预处理后的文本数据;
对所述图像数据进行预处理包括:对所述图像数据进行缩放和标准化操作,并进行格式转换,去除格式转换后的图像数据中的无效数据,同时转化为统一尺寸,获取预处理后的图像数据。
3.根据权利要求2所述的基于跨模态注意力机制的多模态错误信息检测方法,其特征在于,从所述文本数据提取文本特征包括:
构建BERT模型,将预处理后的所述文本数据输入所述BERT模型,捕捉文本数据的上下文和语义特征,获取文本特征。
4.根据权利要求2所述的基于跨模态注意力机制的多模态错误信息检测方法,其特征在于,从所述图像数据中提取视觉特征包括:
构建ViT模型,将预处理后的所述图像数据输入ViT模型,调整图像数据的目标大小,将调整后的图像数据进行目标分割,对分割后的所述图像数据进行序列化处理,获取视觉特征。
5.基于跨模态注意力机制的多模态错误信息检测系统,其特征在于,包括:
多模态特征获取模块,用于获取多模态数据,所述多模态数据包括:文本数据和图像数据;
跨模态注意力机制模块,用于分别从所述文本数据和图像数据中提取文本特征和视觉特征,基于所述文本特征和视觉特征,结合跨模态注意力机制,获取强化特征;
获取所述强化特征包括:
将所述多模态数据特征输入所述跨模态注意力机制模型,通过所述多模态数据特征中的文本特征与所述跨模态注意力机制模型中的查询变换矩阵进行计算,获取第一查询结果,基于所述多模态数据特征中的视觉特征分别与所述跨模态注意力机制模型中的密钥变换矩阵和值变换矩阵进行计算,获取第一密钥结果和第一值结果;
根据所述第一查询结果、所述第一密钥结果和所述第一值结果,获取第一得分矩阵,将所述第一得分矩阵乘以所述第一值结果,获取第一强化特征;
获取所述强化特征还包括:
将所述多模态数据特征输入所述跨模态注意力机制模型,通过所述视觉特征与所述查询变换矩阵进行计算,获取第二查询结果,基于所述文本特征分别与所述密钥变换矩阵和所述值变换矩阵进行计算,获取第二密钥结果和第二值结果;
根据所述第二查询结果、所述第二密钥结果和所述第二值结果,获取第二得分矩阵,将所述第二得分矩阵乘以所述第二值结果,获取第二强化特征;
错误息检测模块,用于将所述强化特征进行融合,获取多模态融合特征;对所述多模态融合特征进行错误信息检测,获取错误信息检测结果;
获取所述错误信息检测结果包括:
将第一强化特征和第二强化特征分别进行投影,将投影后的第一强化特征和第二强化特征进行连接操作,获评估器矩阵和被评估矩阵;
将所述评估器矩阵和所述被评估矩阵的转置进行乘法操作,获取第三得分矩阵;
根据所述第三得分矩阵,获取预测概率,设置预测概率阈值,对比所述预测概率与所述预测概率阈值,判断所述多模态数据是否为错误信息,输出所述错误信息检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410210738.4A CN117809150B (zh) | 2024-02-27 | 2024-02-27 | 基于跨模态注意力机制的多模态错误信息检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410210738.4A CN117809150B (zh) | 2024-02-27 | 2024-02-27 | 基于跨模态注意力机制的多模态错误信息检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117809150A CN117809150A (zh) | 2024-04-02 |
CN117809150B true CN117809150B (zh) | 2024-04-30 |
Family
ID=90432115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410210738.4A Active CN117809150B (zh) | 2024-02-27 | 2024-02-27 | 基于跨模态注意力机制的多模态错误信息检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809150B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597830A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于多模态机器学习的翻译方法、装置、设备及存储介质 |
CN115545039A (zh) * | 2022-09-27 | 2022-12-30 | 三峡大学 | 一种多模态谣言检测方法及系统 |
CN115796182A (zh) * | 2022-11-24 | 2023-03-14 | 北京邮电大学 | 一种基于实体级跨模态交互的多模态命名实体识别方法 |
CN117152573A (zh) * | 2023-08-30 | 2023-12-01 | 杭州码全信息科技有限公司 | 基于Transformer和数据增强的网络媒体多模态信息抽取方法 |
CN117171303A (zh) * | 2023-09-18 | 2023-12-05 | 昆明理工大学 | 一种基于自适应注意力融合的联合多模态方面级情感分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819052B (zh) * | 2021-01-25 | 2021-12-24 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多模态细粒度混合方法、系统、设备和存储介质 |
-
2024
- 2024-02-27 CN CN202410210738.4A patent/CN117809150B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597830A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于多模态机器学习的翻译方法、装置、设备及存储介质 |
CN115545039A (zh) * | 2022-09-27 | 2022-12-30 | 三峡大学 | 一种多模态谣言检测方法及系统 |
CN115796182A (zh) * | 2022-11-24 | 2023-03-14 | 北京邮电大学 | 一种基于实体级跨模态交互的多模态命名实体识别方法 |
CN117152573A (zh) * | 2023-08-30 | 2023-12-01 | 杭州码全信息科技有限公司 | 基于Transformer和数据增强的网络媒体多模态信息抽取方法 |
CN117171303A (zh) * | 2023-09-18 | 2023-12-05 | 昆明理工大学 | 一种基于自适应注意力融合的联合多模态方面级情感分析方法 |
Non-Patent Citations (3)
Title |
---|
Cross-modal Attention Network with Orthogonal Latent Memory for Rumor Detection;Wu, ZK et.al;LECTURE NOTES IN ARTIFICIAL INTELLIGENCE;20210101;第13080卷;第527-541页 * |
成对相似度迁移哈希用于无监督跨模态检索;康培培 等;计算机应用研究;20210605;第38卷(第10期);第3025-3029页 * |
融合图像注意力的多模态机器翻译模型;李霞 等;中文信息学报;20200715(07);第72-82页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117809150A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021135193A1 (zh) | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 | |
CN114898466B (zh) | 一种面向智慧工厂的视频动作识别方法及系统 | |
CN117251791B (zh) | 基于图的全局语义感知的多模态反讽检测方法 | |
CN116383517A (zh) | 动态传播特征增强的多模态谣言检测方法及系统 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN115631504A (zh) | 一种基于双模态图网络信息瓶颈的情感识别方法 | |
CN111813874A (zh) | 太赫兹知识图谱构建方法及系统 | |
CN115953788A (zh) | 基于ocr和nlp技术的绿色金融属性智能认定方法及系统 | |
CN115147931A (zh) | 基于detr的人物成对解码交互的人与物交互检测方法 | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN118468883A (zh) | 一种基于互信息与跨模态交互图的多模态在线评论情感分析方法 | |
CN117763489A (zh) | 基于多任务学习的虚假新闻检测方法 | |
CN117390299A (zh) | 基于图证据的可解释性虚假新闻检测方法 | |
CN114764463A (zh) | 基于事件传播特征的互联网舆情事件自动预警系统 | |
CN117809150B (zh) | 基于跨模态注意力机制的多模态错误信息检测方法及系统 | |
CN116758558A (zh) | 基于跨模态生成对抗网络的图文情感分类方法及系统 | |
CN116453514A (zh) | 一种基于多视角的语音关键词检测与定位方法及装置 | |
CN116561639A (zh) | 一种面向开源情报的多模态数据情感分析方法 | |
CN110674265A (zh) | 面向非结构化信息的特征判别与信息推荐系统 | |
CN115346132A (zh) | 多模态表示学习的遥感图像异常事件检测方法及装置 | |
Priya et al. | Developing an offline and real-time Indian sign language recognition system with machine learning and deep learning | |
CN118377918B (zh) | 一种基于节点链式语义特征与知识融入的谣言检测方法 | |
CN111985505B (zh) | 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置 | |
CN111402012B (zh) | 一种基于迁移学习的电商缺陷产品识别方法 | |
CN117421412A (zh) | 一种搜索场景下用户动态特征捕获与标签生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |