CN117809150B

CN117809150B - 基于跨模态注意力机制的多模态错误信息检测方法及系统

Info

Publication number: CN117809150B
Application number: CN202410210738.4A
Authority: CN
Inventors: 杨振国; 郭志玮; 刘达煌
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-04-30
Anticipated expiration: 2044-02-27
Also published as: CN117809150A

Abstract

本发明涉及基于跨模态注意力机制的多模态错误信息检测方法及系统，该方法包括获取多模态数据，所述多模态数据包括：文本数据和图像数据；分别从所述文本数据和图像数据中提取文本特征和视觉特征，基于所述文本特征和视觉特征，结合跨模态注意力机制，获取强化特征；将所述强化特征进行融合，获取多模态融合特征；对所述多模态融合特征进行错误信息检测，获取错误信息检测结果。本发明能够准确辨别社交平台中的多模态错误信息。

Description

基于跨模态注意力机制的多模态错误信息检测方法及系统

技术领域

本发明涉及错误信息检测技术领域，特别是涉及基于跨模态注意力机制的多模态错误信息检测方法及系统。

背景技术

在错误信息检测方面，大多数社交媒体平台仍然依赖人工方法来评估信息可信度和检测虚假报告。然而，在处理社交媒体的海量信息时，这种方法可能效率低下。因此，许多研究将重点放在基于深度神经网络的监督技术上，以检测错误信息。例如，Hakak等人提出了一种综合框架，利用三种机器学习模型（决策树、随机森林和其他树形分类器）的组合，对从错误信息数据集中提取的特征进行分类。Shu等人提出了一个框架，对出版商、新闻文章和用户之间的关系进行建模，并采用交替最小二乘法（ALS）来完成错误信息的分类任务。此外，Guacho等人提出了一种错误信息检测方法，将一组新闻文章表示为多维张量，并应用张量分解技术为每篇文章生成简洁的嵌入表示。然而，这些方法只利用了文本信息，忽视了多模态信息在错误信息检测任务中的作用。目前，研究人员开始关注基于多模态内容的错误信息检测方法，以提高模型的有效性。传统的错误信息检测方法主要采用单一模态，即仅使用文本或图像特征进行分析。然而，这种方法没有充分利用推文的所有内容信息。为了解决这个问题，一种常见的方法是整合文本和图像特征，以识别错误信息：基于多模态的方法是解决误报检测的主流方法；例如，Singhal等人提出了一种错误信息检测模型，利用预先训练好的BERT和VGG-19模型分别提取文本和图像特征，然后将不同模态的特征串联起来进行分类。Raj等人设计了一个使用RNN和CNN检测错误信息的框架，将两个信息流结合起来生成最终预测。然而，这些方法忽视了错误信息检测中不同模态特征的交互性，主要依赖于简单的并集或加法进行特征整合。

多模态错误信息检测方法通常将文本和图像特征分别提取后，直接将向量进行拼接来融合多模态信息。这种向量直接拼接的方法操作简单，但也存在方法单一的局限性。另外，单模态错误信息检测算法存在未充分利用文本或图像信息的问题，以及一般的多模态模型在模态融合利用方法上也有一定的局限性，这导致模型的泛化能力较差。

发明内容

现有的错误信息检测的方法主要还是针对单一模态数据（文本为主）进行检测，这与人们日常所接触的多模态（文本、视频、图像和音频等）信息相违背。并且目前的现有技术忽视了错误信息检测中不同模态特征的交互性，主要依赖于简单的并集或加法进行特征整合。为解决上述现有技术中所存在的问题，本发明提供基于跨模态注意力机制的多模态错误信息检测方法及系统，能够准确辨别社交平台中的多模态错误信息。

为实现上述目的，本发明提供了如下方案：

基于跨模态注意力机制的多模态错误信息检测方法，包括：

获取多模态数据，所述多模态数据包括：文本数据和图像数据；

分别从所述文本数据和图像数据中提取文本特征和视觉特征，基于所述文本特征和视觉特征，结合跨模态注意力机制，获取强化特征；

将所述强化特征进行融合，获取多模态融合特征；对所述多模态融合特征进行错误信息检测，获取错误信息检测结果。

可选地，在分别从所述文本数据和图像数据中提取文本特征和视觉特征前还包括：

对所述文本数据进行预处理包括：对所述文本数据进行数据特殊符号清洗和分词处理，获取预处理后的文本数据；

对所述图像数据进行预处理包括：对所述图像数据进行缩放和标准化操作，并进行格式转换，去除格式转换后的图像数据中的无效数据，同时转化为统一尺寸，获取预处理后的图像数据。

可选地，从所述文本数据提取文本特征包括：

构建BERT模型，将预处理后的所述文本数据输入所述BERT模型，捕捉文本数据的上下文和语义特征，获取文本特征。

可选地，从所述图像数据中提取视觉特征包括：

构建ViT模型，将预处理后的所述图像数据输入ViT模型，调整图像数据的目标大小，将调整后的图像数据进行目标分割，对分割后的所述图像数据进行序列化处理，获取视觉特征。

可选地，获取所述强化特征包括：

将所述多模态数据特征输入所述跨模态注意力机制模型，通过所述多模态数据特征中的文本特征与所述跨模态注意力机制模型中的查询变换矩阵进行计算，获取第一查询结果，基于所述多模态数据特征中的视觉特征分别与所述跨模态注意力机制模型中的密钥变换矩阵和值变换矩阵进行计算，获取第一密钥结果和第一值结果；

根据所述第一查询结果、所述第一密钥结果和所述第一值结果，获取第一得分矩阵，将所述第一得分矩阵乘以所述第一值结果，获取第一强化特征。

可选地，获取所述强化特征还包括：

将所述多模态数据特征输入所述跨模态注意力机制模型，通过所述视觉特征与所述查询变换矩阵进行计算，获取第二查询结果，基于所述文本特征分别与所述密钥变换矩阵和所述值变换矩阵进行计算，获取第二密钥结果和第二值结果；

根据所述第二查询结果、所述第二密钥结果和所述第二值结果，获取第二得分矩阵，将所述第二得分矩阵乘以所述第二值结果，获取第二强化特征。

可选地，获取所述错误信息检测结果包括：

将第一强化特征和第二强化特征分别进行投影，将投影后的第一强化特征和第二强化特征进行连接操作，获评估器矩阵和被评估矩阵；

将所述评估器矩阵和所述被评估矩阵的转置进行乘法操作，获取第三得分矩阵；

根据所述第三得分矩阵，获取预测概率，设置预测概率阈值，对比所述预测概率与所述预测概率阈值，判断所述多模态数据是否为错误信息，输出所述错误信息检测结果。

可选地，获取所述预测概率的方法为：

其中，w为全连接层的权重矩阵,为第三得分矩阵，b为偏置值，s为错误信息分类模块中使用的softmax函数，/>为预测概率。

为实现上述目的，本发明还提供了基于跨模态注意力机制的多模态错误信息检测系统，包括：

多模态特征获取模块，用于获取多模态数据，所述多模态数据包括：文本数据和图像数据；

跨模态注意力机制模块，用于分别从所述文本数据和图像数据中提取文本特征和视觉特征，基于所述文本特征和视觉特征，结合跨模态注意力机制，获取强化特征；

错误息检测模块，用于将所述强化特征进行融合，获取多模态融合特征；对所述多模态融合特征进行错误信息检测，获取错误信息检测结果。

本发明的有益效果为：

本发明通过使用多模态特征提取模块分别获得文本特征和视觉特征，并进行跨模态注意力模块增强不同模态信息，然后由多模态信息融合模块进行特征融合，通过错误信息检测模块进行检测分类，相比现有方法，更好地利用社交媒体中多模态（视觉和文本）信息，检测效果更好，鲁棒性更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于跨模态注意力机制的多模态错误信息检测方法流程图；

图2为本发明实施例的多模态数据预处理和特征提取结构图；

图3为本发明实施例的多模态特征增强结构图；

图4为本发明实施例的多模态特征融合结构图；

图5为本发明实施例的检测结构图；

图6为本发明实施例的基于跨模态注意力机制的多模态错误信息检测系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明公开了基于跨模态注意力机制的多模态错误信息检测方法，包括：

对多模态数据进行预处理，然后分类利用BERT和ViT提取文本特征与视觉特征；

基于跨模态注意力机制，关注不同时间步长的多模态序列之间的互动，根据目标模态的信息调整源模态的信息，从而获得强化特征；

在特征级别上考虑不同模态的权重分配，实现文本和视觉特征的融合；

对上述多模态融合特征进行错误信息检测，得到错误信息事件预测结果。

具体地，对错误信息的事件中的多模态数据进行预处理，可以是微博，也可以是小红书等社交媒体中的内容，一般是对其中的文本数据进行符号过滤，对其中的图像数据进行格式转换，去除无效数据，同时转化为统一尺寸。

然后进行多模态数据特征提取，使用预训练的双向编码器表征转换器（Bidirectional Encoder Representations from Transformers，BERT）从文本模态数据中提取文本特征，使用预训练的视觉转换器（Vision in Transformers，ViT）从视觉模态数据中提取视觉特征。

进一步地，将提取得到的不同模态数据的特征信息，即文本特征和视觉特征输入到跨模态注意力模块，使用跨模态注意力机制关注不同时间步长的多模态序列之间的互动，同时根据目标模态的信息调整源模态的信息，从而获得强化特征。

然后将强化后的不同模态特征输入多模态信息融合模块，在特征级别上考虑不同模态的权重分配，实现文本和视觉特征的融合。

最后将多模态融合特征输入到错误信息检测模块，进行多模态错误信息检测，得到错误信息事件检测结果。

详细步骤如下：

为了使输入的事件检测源数据更好地进行特征提取，需要针对文本数据和图像数据分别进行预处理，如图2所示。

对文本数据进行数据预处理，通过数据特殊符号清洗和分词处理，得到预处理文本数据。

对图像数据进行数据预处理，主要是缩放和标准化操作，进行格式转换后去除无效数据，同时转化为统一尺寸。

多模态数据特征提取具体包括：

本发明使用预先训练好的转换器，双向编码器和语义特征。本发明将预处理过的文本序列表示为，然后将其作为BERT模型的输入，最终得到统一的文本特征，具体步骤如下：

其中，为文本特征，BERT为双向编码器。

本发明使用的视觉转换器（Vision in Transformers，ViT）的版本包含12层和12个注意力头。它将图像重新调整为224×224的大小，并将其分割为196个块，每个块的大小为16×16。如此每个块都被看作是序列中的一个元素，使得ViT可以对图像进行全局的序列化处理，从而提取出图像的特征信息。本发明将预处理过的图像序列表示为，然后将其作为ViT模型的输入，最终得到统一的视觉特征，具体步骤如下：

其中，为视觉特征，ViT为视觉转换器。

接下来本发明将介绍跨模态注意力模块处理文本和视觉模态数据如图3所示，具体流程如下：

本发明用"V→L"来表示视觉特征（）向文本特征（/>）的转化，具体操作如下：

本发明将多模态特征提取器的输出和/>输入跨模态注意力机制模块，进行以下处理。跨模态注意力编码器层的输入由查询变换矩阵/>组成、密钥变换矩阵/>和值变换矩阵/>，然后/>与/>计算得到查询/>，/>分别与/>和/>计算得到密钥/>和值。具体计算过程如下：

其中，为查询结果，/>为密钥结果，/>为值结果，/>为密钥变换矩阵，/>为值变换矩阵，/>为查询变换矩阵。

从视觉特征到文本特征的潜在自适应表现为跨模态注意力具体计算如下：

其中，为缩放因子，softmax为逻辑回归函数，T指对密钥结果进行转置操作。

具体来说，本发明用来缩放softmax，从而计算出一个得分矩阵，然后将其乘以/>，最终完成视觉特征（/>）向文本特征（/>）的转化，得到/>。

本发明用"L→V"来表示文本信息（L）向视觉信息（V）的转化，具体操作如下：

本发明将多模态特征提取器的输出和/>输入跨模态注意力机制模块，进行以下处理。跨模态注意力编码器层的输入由查询变换矩阵/>组成、密钥变换矩阵/>和值变换矩阵/>，然后用/>与/>计算得到查询/>，用/>分别与/>和/>计算得到密钥/>和值/>。具体计算过程如下：

具体来说，本发明用来缩放softmax，从而计算出一个得分矩阵，然后将其乘以/>，最终完成文本特征（/>）向视觉特征（/>）的转化，得到/>。

多模态信息融合过程如图4所示，具体包括：

模态融合模块的输出结果以矩阵的形式呈现，然而这种矩阵表示方式对于错误信息检测模块的预测并不利。为了解决这个问题，本发明设计了一种融合机制，旨在将这些矩阵中的信息转化为一个更有用的向量表示。通过这个转换过程，可以更好地捕捉不同模态之间的关联和重要特征，从而提高错误信息检测的准确性和性能。具体如下：

首先将跨模态注意力机制模块的输出矩阵和/>分别进行投影。

其中为可学习的权重矩阵，/>表示为偏置，/>表示为/>的投影结果，/>表示为/>的投影结果。进一步通过连接操作，可以获得评估器矩阵/>和被评估矩阵/>。

其中，为将两个矩阵进行拼接。

将和/>的转置进行乘法操作，就得到了得分矩阵，如图3。

其中，为得分矩阵，T为对/>进行转置操作。

将所述多模态融合特征输入全连接层的权重矩阵，与偏置值求和之后，由softmax逻辑回归函数处理，以获得错误信息预测概率。

具体地，将多模态融合特征输入至错误信息分类模块的全连接层和softmax逻辑回归函数，得到错误信息预测结果，即是否为错误信息，如图5所示。

错误信息分类模块使用多模态融合特征作为输入，通过一个全连接层和softmax来将事件检测源数据分类为错误信息或非错误信息。

其中，w为全连接层的权重矩阵，b为偏置值，s为错误信息分类模块中使用的softmax函数，为预测概率。

根据预测概率，结合设定的概率经验值，判断事件检测源数据是否为错误信息。

本发明还提供了基于跨模态注意力机制的多模态错误信息检测系统，如图6所示，包括：多模态特征提取模块；跨模态注意力机制模块；多模态融合模块；错误息检测模块。其中：

多模态特征获取模块用于提取多模态数据特征；跨模态注意力机制模块用于关注不同时间步长的多模态序列之间的互动，根据目标模态的信息调整源模态的信息，从而获得强化特征；多模态融合模块将所述文本特征和所述视觉特征进行多模态融合，得到多模态融合特征；错误息检测模块用于对所述多模态融合特征进行错误信息检测，得到错误信息预测结果。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.基于跨模态注意力机制的多模态错误信息检测方法，其特征在于，包括：

获取所述强化特征包括：

根据所述第一查询结果、所述第一密钥结果和所述第一值结果，获取第一得分矩阵，将所述第一得分矩阵乘以所述第一值结果，获取第一强化特征；

获取所述强化特征还包括：

根据所述第二查询结果、所述第二密钥结果和所述第二值结果，获取第二得分矩阵，将所述第二得分矩阵乘以所述第二值结果，获取第二强化特征；

将所述强化特征进行融合，获取多模态融合特征；对所述多模态融合特征进行错误信息检测，获取错误信息检测结果；

获取所述错误信息检测结果包括：

2.根据权利要求1所述的基于跨模态注意力机制的多模态错误信息检测方法，其特征在于，在分别从所述文本数据和图像数据中提取文本特征和视觉特征前还包括：

3.根据权利要求2所述的基于跨模态注意力机制的多模态错误信息检测方法，其特征在于，从所述文本数据提取文本特征包括：

4.根据权利要求2所述的基于跨模态注意力机制的多模态错误信息检测方法，其特征在于，从所述图像数据中提取视觉特征包括：

5.基于跨模态注意力机制的多模态错误信息检测系统，其特征在于，包括：

获取所述强化特征包括：

获取所述强化特征还包括：

错误息检测模块，用于将所述强化特征进行融合，获取多模态融合特征；对所述多模态融合特征进行错误信息检测，获取错误信息检测结果；

获取所述错误信息检测结果包括：