CN116258946A

CN116258946A - 基于前提的多粒度跨模态推理方法及装置

Info

Publication number: CN116258946A
Application number: CN202310547450.1A
Authority: CN
Inventors: 艾春辉; 闫旭; 曹自强; 曹敏; 付国宏
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-06-13
Anticipated expiration: 2043-05-16
Also published as: CN116258946B

Abstract

本发明涉及一种基于前提的多粒度跨模态推理方法及装置，方法包括：对文本前提和文本选项进行文本拼接后作为文本输入，原始图像作为图像输入；提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征；融合粗粒度多模态特征和细粒度多模态特征，得到融合的多粒度特征；基于融合的多粒度特征得到最终的预测结果，使用粗粒度特征提取模块和细粒度特征提取模块分别提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征。本发明能够充分利用图像模态和文本前提之间的多粒度关系，通过粗细两种粒度的对齐，模型的判别能力大大提升，显著提高了预测结果的精确性。

Description

基于前提的多粒度跨模态推理方法及装置

技术领域

本发明涉及跨模态推理技术领域，尤其是指一种基于前提的多粒度跨模态推理方法及装置。

背景技术

跨模态推理任务主要作用于视觉和文本上，其目的是让模型基于给定的视觉信息进行语言推理。跨模态推理任务主要包含视觉问答、视觉语言推理和基于前提的跨模态推理等任务。在上述跨模态推理任务中，基于前提的跨模态推理目前研究潜力比较大，对教育，广播影视，网络信息等方面具有潜在的商业价值。基于前提的跨模态推理任务的目标是在给定一张图片配有一条文本形式的前提句和一个问句的情况下，模型需要基于前提线索理解图片，再从四个选项中选择唯一符合问题和图片的答案。

目前基于前提的跨模态推理任务主要使用多模态蕴含方法，多模态蕴含方法是指利用目标检测提取图像中的目标细粒度特征，随后联合文本前提来进行综合判断，其准确度比较高，但是多模态蕴含方法在利用图像细粒度特征的同时容易忽略图像整体特征完整性，造成部分的信息丢失，在一些需要整体信息参与判断的数据例中，模型存在缺陷。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中存在的技术缺陷，而提出一种基于前提的多粒度跨模态推理方法及装置，其能够充分利用图像模态和文本前提之间的多粒度关系，通过粗细两种粒度的对齐，模型的判别能力大大提升，显著提高了预测结果的精确性。

为解决上述技术问题，本发明提供了一种基于前提的多粒度跨模态推理方法，包括：

对文本前提和文本选项进行文本拼接后作为文本输入，原始图像作为图像输入；

提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征；

融合所述粗粒度多模态特征和细粒度多模态特征，得到融合的多粒度特征；

基于融合的多粒度特征得到最终的预测结果；

其中，使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。

在本发明的一个实施例中，在对文本前提和文本选项进行文本拼接前，使用特殊字符将所述文本前提和所述文本选项进行分隔。

在本发明的一个实施例中，所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器，所述文本编码器包括6层文本转换器，所述图像编码器包括12层视觉转换器，所述多模态编码器包括6层多模态转换器。

在本发明的一个实施例中，使用粗粒度特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征的方法，包括：

通过图像编码器和文本编码器分别提取整体文本特征和整体视觉特征，并通过多模态编码器将整体视觉特征和整体文本特征对齐，输出粗粒度多模态特征。

在本发明的一个实施例中，所述细粒度特征提取模块包括目标检测器和多模态融合器，所述目标检测器包括快速区域卷积神经网络，所述多模态融合器包括12层转换器。

在本发明的一个实施例中，使用细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法，包括：

通过目标检测器提取所述图像中的局部实体特征，并将提取的局部实体特征和文本输入共同作为多模态融合器的输入，输出细粒度多模态特征。

在本发明的一个实施例中，融合所述粗粒度多模态特征和细粒度多模态特征的方法，包括：

构建多粒度信息融合模块，使用所述多粒度信息融合模块融合所述粗粒度多模态特征和细粒度多模态特征，其中，所述多粒度信息融合模块为一动态的门控单元如下：

，

式中，

表示sigmoid激活函数，/>

、/>

、/>

和/>

表示需要学习的参数，/>

表示细粒度特征权重，/>

表示粗粒度特征权重，/>

表示融合的多粒度特征，/>

表示细粒度多模态特征，/>

表示粗粒度多模态特征。

在本发明的一个实施例中，基于所述融合特征得到最终的预测结果的方法，包括：

，

式中，MLP表示多层全连接层，

表示文本输入，/>

表示图像输入，/>

表示预测的结果。

此外，本发明还提供一种基于前提的多粒度跨模态推理装置，包括：

数据输入模块，其用于对文本前提和文本选项进行文本拼接后作为文本输入，原始图像作为图像输入；

多粒度多模态特征提取模块，其用于提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征；

多粒度信息融合模块，其用于融合所述粗粒度多模态特征和细粒度多模态特征，得到融合的多粒度特征；

预测模块，其用于基于融合的多粒度特征得到最终的预测结果；

其中，多粒度多模态特征提取模块包括粗粒度特征提取模块和细粒度特征提取模块，使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。

在本发明的一个实施例中，所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器，所述文本编码器包括6层文本转换器，所述图像编码器包括12层视觉转换器，所述多模态编码器包括6层多模态转换器；所述细粒度特征提取模块包括目标检测器和多模态融合器，所述目标检测器包括快速区域卷积神经网络，所述多模态融合器包括12层转换器。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的一种基于前提的多粒度跨模态推理方法及装置，其能够充分利用图像模态和文本前提之间的多粒度关系，通过粗细两种粒度的对齐，模型的判别能力大大提升，显著提高了预测结果的精确性。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明提出的一种基于前提的多粒度跨模态推理方法的流程示意图。

图2是本发明提出的一种基于前提的多粒度跨模态推理装置的框图。

图3是本发明提出的粗粒度特征提取模块的结构示意图。

图4是本发明提出的细粒度特征提取模块的结构示意图。

其中，附图标记说明如下：11、粗粒度特征提取模块；111、图像编码器；112、文本编码器；113、多模态编码器；12、细粒度特征提取模块；121、目标检测器；122、多模态融合器；20、多粒度信息融合模块。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，本发明实施例提供一种基于前提的多粒度跨模态推理方法，包括：

步骤S101：对文本前提和文本选项进行文本拼接后作为文本输入，原始图像作为图像输入；

步骤S102：提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征；

步骤S103：融合所述粗粒度多模态特征和细粒度多模态特征，得到融合的多粒度特征；

步骤S104：基于融合的多粒度特征得到最终的预测结果。

其中，在步骤S101中，在对文本前提和文本选项进行文本拼接前，使用特殊字符将所述文本前提和所述文本选项进行分隔，作为示例地，特殊字符可以使用[SEP]，即可以使用特殊字符[SEP]将所述文本前提和所述文本选项进行分隔。

其中，在步骤S102中，使用多粒度多模态特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征，其中多粒度多模态特征提取模块包括粗粒度特征提取模块11和细粒度特征提取模块12，使用粗粒度特征提取模块11和细粒度特征提取模块12分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。

请参照图3所示，上述所述粗粒度特征提取模块11包括图像编码器111、文本编码器112和多模态编码器113，所述文本编码器112包括6层文本转换器(Text Transformers)，每层文本转换器包括自注意力层和前馈神经网络层；所述图像编码器111包括12层视觉转换器(Vision Transformer),每层视觉转换器包括图像自注意力层和前馈神经网络层，所述多模态编码器113包括6层多模态转换器(Multi-modal Transformers)，每层多模态转换器包括自注意力层、交叉注意力层（学习图像和文本的交互信息）和前馈神经网络层。粗粒度特征提取模块11提取所述图像和所述文本对齐后的粗粒度多模态特征的方法包括：通过图像编码器111和文本编码器112分别提取文本输入

的整体文本特征和图像输入/>

的整体视觉特征，并通过多模态编码器113将整体视觉特征和整体文本特征对齐，输出粗粒度多模态特征/>

。

请参照图4所示，上述所述细粒度特征提取模块12包括目标检测器121和多模态融合器122，所述目标检测器121包括快速区域卷积神经网络（Fast R-CNN），采用RPN网络进行目标检测，所述多模态融合器122包括12层转换器(Transformers)，每层转换器包括自注意力层和前馈神经网络层。细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法包括：通过目标检测器121提取图像输入

中的局部实体特征，并将提取的局部实体特征和文本输入/>

共同作为多模态融合器122的输入，输出细粒度多模态特征/>

。

其中，在步骤S103中，融合所述粗粒度多模态特征和细粒度多模态特征的方法，包括构建多粒度信息融合模块20，使用所述多粒度信息融合模块20融合所述粗粒度多模态特征和细粒度多模态特征，其中，所述多粒度信息融合模块为一动态的门控单元，其可以动态的控制流入的粗粒度和细粒度特征的大小如下：

式中，

表示sigmoid激活函数，/>

、/>

、/>

和/>

表示需要学习的参数，/>

表示细粒度特征权重，/>

表示粗粒度特征权重，/>

表示融合的多粒度特征，/>

表示细粒度多模态特征，/>

表示粗粒度多模态特征。

其中，在步骤S104中，基于融合的多粒度特征得到最终的预测结果的方法，包括通过融合粗细两种粒度的信息在预测结果中选择最正确的答案作为最后的结果：

式中，MLP表示多层全连接层，

表示文本输入，/>

表示图像输入，/>

表示预测的结果。

综上，在获得输入的文本和图像之后，首先通过粗粒度特征提取模块11和细粒度特征提取模块12获得输入的粗粒度多模态特征和细粒度多模态特征。随后，将粗细粒度多模态特征一起喂入多粒度信息融合模块20并预测最正确的结果。

本发明所述的一种基于前提的多粒度跨模态推理方法，其能够充分利用图像模态和文本前提之间的多粒度关系，通过粗细两种粒度的对齐，模型的判别能力大大提升，显著提高了预测结果的精确性。

本发明在测试集上使用ACC作为评价指标对比本发明与现有方法的效果如下表1所示。

表1

根据表1可知，本发明提出的基于前提的多粒度跨模态推理方法相比于现有的方法具有优越性。此外，本发明进行了一些消融实验探究基于前提的多粒度跨模态推理方法相比于现有的方法的有效性：如果只使用细粒度特征进行训练，实验效果从0.82降低到了0.77；如果只使用粗粒度特征进行训练，实验效果从0.82降低到了0.72。

下面对本发明实施例公开的一种基于前提的多粒度跨模态推理装置进行介绍，下文描述的一种基于前提的多粒度跨模态推理装置与上文描述的一种基于前提的多粒度跨模态推理方法可相互对应参照。

请参照图2所示，本发明还提供一种基于前提的多粒度跨模态推理装置，包括：

多粒度信息融合模块20，其用于融合所述粗粒度多模态特征和细粒度多模态特征，得到融合的多粒度特征；

预测模块，其用于基于融合的多粒度特征得到最终的预测结果。

其中，多粒度多模态特征提取模块包括粗粒度特征提取模块11和细粒度特征提取模块12，使用粗粒度特征提取模块11和细粒度特征提取模块12分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。

在本发明的一个实施例中，所述粗粒度特征提取模块11包括图像编码器111、文本编码器112和多模态编码器113，所述文本编码器112包括6层文本转换器（TextTransformers），所述图像编码器111包括12层视觉转换器（Vision Transformers），所述多模态编码器113包括6层多模态转换器（Multi-modal Transformers）；所述细粒度特征提取模块12包括目标检测器121和多模态融合器122，所述目标检测器121包括快速区域卷积神经网络（Fast R-CNN），所述多模态融合器122包括12层转换器（Transformers）。

本实施例的基于前提的多粒度跨模态推理装置用于实现前述的基于前提的多粒度跨模态推理方法的实施例部分，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的基于前提的多粒度跨模态推理装置用于实现前述的基于前提的多粒度跨模态推理方法，因此其作用与上述方法的作用相对应，这里不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于前提的多粒度跨模态推理方法，其特征在于：包括：

基于融合的多粒度特征得到最终的预测结果；

2.根据权利要求1所述的一种基于前提的多粒度跨模态推理方法，其特征在于：在对文本前提和文本选项进行文本拼接前，使用特殊字符将所述文本前提和所述文本选项进行分隔。

3.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法，其特征在于：所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器，所述文本编码器包括6层文本转换器，所述图像编码器包括12层视觉转换器，所述多模态编码器包括6层多模态转换器。

4.根据权利要求3所述的一种基于前提的多粒度跨模态推理方法，其特征在于：使用粗粒度特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征的方法，包括：

5.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法，其特征在于：所述细粒度特征提取模块包括目标检测器和多模态融合器，所述目标检测器包括快速区域卷积神经网络，所述多模态融合器包括12层转换器。

6.根据权利要求5所述的一种基于前提的多粒度跨模态推理方法，其特征在于：使用细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法，包括：

7.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法，其特征在于：融合所述粗粒度多模态特征和细粒度多模态特征的方法，包括：

，

式中，

表示sigmoid激活函数，/>

、/>

、/>

和/>

表示需要学习的参数，/>

表示细粒度特征权重，/>

表示粗粒度特征权重，/>

表示融合的多粒度特征，/>

表示细粒度多模态特征，/>

表示粗粒度多模态特征。

8.根据权利要求7所述的一种基于前提的多粒度跨模态推理方法，其特征在于：基于所述融合特征得到最终的预测结果的方法，包括：

，

式中，MLP表示多层全连接层，

表示文本输入，/>

表示图像输入，/>

表示预测的结果。

9.一种基于前提的多粒度跨模态推理装置，其特征在于：包括：

10.根据权利要求9所述的一种基于前提的多粒度跨模态推理装置，其特征在于：所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器，所述文本编码器包括6层文本转换器，所述图像编码器包括12层视觉转换器，所述多模态编码器包括6层多模态转换器；所述细粒度特征提取模块包括目标检测器和多模态融合器，所述目标检测器包括快速区域卷积神经网络，所述多模态融合器包括12层转换器。