CN116258946A - 基于前提的多粒度跨模态推理方法及装置 - Google Patents

基于前提的多粒度跨模态推理方法及装置 Download PDF

Info

Publication number
CN116258946A
CN116258946A CN202310547450.1A CN202310547450A CN116258946A CN 116258946 A CN116258946 A CN 116258946A CN 202310547450 A CN202310547450 A CN 202310547450A CN 116258946 A CN116258946 A CN 116258946A
Authority
CN
China
Prior art keywords
granularity
modal
text
coarse
fine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310547450.1A
Other languages
English (en)
Other versions
CN116258946B (zh
Inventor
艾春辉
闫旭
曹自强
曹敏
付国宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202310547450.1A priority Critical patent/CN116258946B/zh
Publication of CN116258946A publication Critical patent/CN116258946A/zh
Application granted granted Critical
Publication of CN116258946B publication Critical patent/CN116258946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于前提的多粒度跨模态推理方法及装置,方法包括:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征;融合粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;基于融合的多粒度特征得到最终的预测结果,使用粗粒度特征提取模块和细粒度特征提取模块分别提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征。本发明能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。

Description

基于前提的多粒度跨模态推理方法及装置
技术领域
本发明涉及跨模态推理技术领域,尤其是指一种基于前提的多粒度跨模态推理方法及装置。
背景技术
跨模态推理任务主要作用于视觉和文本上,其目的是让模型基于给定的视觉信息进行语言推理。跨模态推理任务主要包含视觉问答、视觉语言推理和基于前提的跨模态推理等任务。在上述跨模态推理任务中,基于前提的跨模态推理目前研究潜力比较大,对教育,广播影视,网络信息等方面具有潜在的商业价值。基于前提的跨模态推理任务的目标是在给定一张图片配有一条文本形式的前提句和一个问句的情况下,模型需要基于前提线索理解图片,再从四个选项中选择唯一符合问题和图片的答案。
目前基于前提的跨模态推理任务主要使用多模态蕴含方法,多模态蕴含方法是指利用目标检测提取图像中的目标细粒度特征,随后联合文本前提来进行综合判断,其准确度比较高,但是多模态蕴含方法在利用图像细粒度特征的同时容易忽略图像整体特征完整性,造成部分的信息丢失,在一些需要整体信息参与判断的数据例中,模型存在缺陷。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中存在的技术缺陷,而提出一种基于前提的多粒度跨模态推理方法及装置,其能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。
为解决上述技术问题,本发明提供了 一种基于前提的多粒度跨模态推理方法,包括:
对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;
提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;
融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;
基于融合的多粒度特征得到最终的预测结果;
其中,使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。
在本发明的一个实施例中,在对文本前提和文本选项进行文本拼接前,使用特殊字符将所述文本前提和所述文本选项进行分隔。
在本发明的一个实施例中,所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器,所述文本编码器包括6层文本转换器,所述图像编码器包括12层视觉转换器,所述多模态编码器包括6层多模态转换器。
在本发明的一个实施例中,使用粗粒度特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征的方法,包括:
通过图像编码器和文本编码器分别提取整体文本特征和整体视觉特征,并通过多模态编码器将整体视觉特征和整体文本特征对齐,输出粗粒度多模态特征。
在本发明的一个实施例中,所述细粒度特征提取模块包括目标检测器和多模态融合器,所述目标检测器包括快速区域卷积神经网络,所述多模态融合器包括12层转换器。
在本发明的一个实施例中,使用细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法,包括:
通过目标检测器提取所述图像中的局部实体特征,并将提取的局部实体特征和文本输入共同作为多模态融合器的输入,输出细粒度多模态特征。
在本发明的一个实施例中,融合所述粗粒度多模态特征和细粒度多模态特征的方法,包括:
构建多粒度信息融合模块,使用所述多粒度信息融合模块融合所述粗粒度多模态特征和细粒度多模态特征,其中,所述多粒度信息融合模块为一动态的门控单元如下:
Figure SMS_1
式中,
Figure SMS_3
表示sigmoid激活函数,/>
Figure SMS_7
、/>
Figure SMS_10
、/>
Figure SMS_4
和/>
Figure SMS_6
表示需要学习的参数,/>
Figure SMS_8
表示细粒度特征权重,/>
Figure SMS_11
表示粗粒度特征权重,/>
Figure SMS_2
表示融合的多粒度特征,/>
Figure SMS_5
表示细粒度多模态特征,/>
Figure SMS_9
表示粗粒度多模态特征。
在本发明的一个实施例中,基于所述融合特征得到最终的预测结果的方法,包括:
Figure SMS_12
式中,MLP表示多层全连接层,
Figure SMS_13
表示文本输入,/>
Figure SMS_14
表示图像输入,/>
Figure SMS_15
表示预测的结果。
此外,本发明还提供一种基于前提的多粒度跨模态推理装置,包括:
数据输入模块,其用于对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;
多粒度多模态特征提取模块,其用于提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;
多粒度信息融合模块,其用于融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;
预测模块,其用于基于融合的多粒度特征得到最终的预测结果;
其中,多粒度多模态特征提取模块包括粗粒度特征提取模块和细粒度特征提取模块,使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。
在本发明的一个实施例中,所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器,所述文本编码器包括6层文本转换器,所述图像编码器包括12层视觉转换器,所述多模态编码器包括6层多模态转换器;所述细粒度特征提取模块包括目标检测器和多模态融合器,所述目标检测器包括快速区域卷积神经网络,所述多模态融合器包括12层转换器。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的一种基于前提的多粒度跨模态推理方法及装置,其能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明提出的一种基于前提的多粒度跨模态推理方法的流程示意图。
图2是本发明提出的一种基于前提的多粒度跨模态推理装置的框图。
图3是本发明提出的粗粒度特征提取模块的结构示意图。
图4是本发明提出的细粒度特征提取模块的结构示意图。
其中,附图标记说明如下:11、粗粒度特征提取模块;111、图像编码器;112、文本编码器;113、多模态编码器;12、细粒度特征提取模块;121、目标检测器;122、多模态融合器;20、多粒度信息融合模块。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明实施例提供一种基于前提的多粒度跨模态推理方法,包括:
步骤S101:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;
步骤S102:提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;
步骤S103:融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;
步骤S104:基于融合的多粒度特征得到最终的预测结果。
其中,在步骤S101中,在对文本前提和文本选项进行文本拼接前,使用特殊字符将所述文本前提和所述文本选项进行分隔,作为示例地,特殊字符可以使用[SEP],即可以使用特殊字符[SEP]将所述文本前提和所述文本选项进行分隔。
其中,在步骤S102中,使用多粒度多模态特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征,其中多粒度多模态特征提取模块包括粗粒度特征提取模块11和细粒度特征提取模块12,使用粗粒度特征提取模块11和细粒度特征提取模块12分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。
请参照图3所示,上述所述粗粒度特征提取模块11包括图像编码器111、文本编码器112和多模态编码器113,所述文本编码器112包括6层文本转换器(Text Transformers),每层文本转换器包括自注意力层和前馈神经网络层;所述图像编码器111包括12层视觉转换器(Vision Transformer),每层视觉转换器包括图像自注意力层和前馈神经网络层,所述多模态编码器113包括6层多模态转换器(Multi-modal Transformers),每层多模态转换器包括自注意力层、交叉注意力层(学习图像和文本的交互信息)和前馈神经网络层。粗粒度特征提取模块11提取所述图像和所述文本对齐后的粗粒度多模态特征的方法包括:通过图像编码器111和文本编码器112分别提取文本输入
Figure SMS_16
的整体文本特征和图像输入/>
Figure SMS_17
的整体视觉特征,并通过多模态编码器113将整体视觉特征和整体文本特征对齐,输出粗粒度多模态特征/>
Figure SMS_18
请参照图4所示,上述所述细粒度特征提取模块12包括目标检测器121和多模态融合器122,所述目标检测器121包括快速区域卷积神经网络(Fast R-CNN),采用RPN网络进行目标检测,所述多模态融合器122包括12层转换器(Transformers),每层转换器包括自注意力层和前馈神经网络层。细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法包括:通过目标检测器121提取图像输入
Figure SMS_19
中的局部实体特征,并将提取的局部实体特征和文本输入/>
Figure SMS_20
共同作为多模态融合器122的输入,输出细粒度多模态特征/>
Figure SMS_21
其中,在步骤S103中,融合所述粗粒度多模态特征和细粒度多模态特征的方法,包括构建多粒度信息融合模块20,使用所述多粒度信息融合模块20融合所述粗粒度多模态特征和细粒度多模态特征,其中,所述多粒度信息融合模块为一动态的门控单元,其可以动态的控制流入的粗粒度和细粒度特征的大小如下:
Figure SMS_22
式中,
Figure SMS_24
表示sigmoid激活函数,/>
Figure SMS_28
、/>
Figure SMS_30
、/>
Figure SMS_25
和/>
Figure SMS_26
表示需要学习的参数,/>
Figure SMS_29
表示细粒度特征权重,/>
Figure SMS_32
表示粗粒度特征权重,/>
Figure SMS_23
表示融合的多粒度特征,/>
Figure SMS_27
表示细粒度多模态特征,/>
Figure SMS_31
表示粗粒度多模态特征。
其中,在步骤S104中,基于融合的多粒度特征得到最终的预测结果的方法,包括通过融合粗细两种粒度的信息在预测结果中选择最正确的答案作为最后的结果:
Figure SMS_33
式中,MLP表示多层全连接层,
Figure SMS_34
表示文本输入,/>
Figure SMS_35
表示图像输入,/>
Figure SMS_36
表示预测的结果。
综上,在获得输入的文本和图像之后,首先通过粗粒度特征提取模块11和细粒度特征提取模块12获得输入的粗粒度多模态特征和细粒度多模态特征。随后,将粗细粒度多模态特征一起喂入多粒度信息融合模块20并预测最正确的结果。
本发明所述的一种基于前提的多粒度跨模态推理方法,其能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。
本发明在测试集上使用ACC作为评价指标对比本发明与现有方法的效果如下表1所示。
表1
Figure SMS_37
根据表1可知,本发明提出的基于前提的多粒度跨模态推理方法相比于现有的方法具有优越性。此外,本发明进行了一些消融实验探究基于前提的多粒度跨模态推理方法相比于现有的方法的有效性:如果只使用细粒度特征进行训练,实验效果从0.82降低到了0.77;如果只使用粗粒度特征进行训练,实验效果从0.82降低到了0.72。
下面对本发明实施例公开的一种基于前提的多粒度跨模态推理装置进行介绍,下文描述的一种基于前提的多粒度跨模态推理装置与上文描述的一种基于前提的多粒度跨模态推理方法可相互对应参照。
请参照图2所示,本发明还提供一种基于前提的多粒度跨模态推理装置,包括:
数据输入模块,其用于对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;
多粒度多模态特征提取模块,其用于提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;
多粒度信息融合模块20,其用于融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;
预测模块,其用于基于融合的多粒度特征得到最终的预测结果。
其中,多粒度多模态特征提取模块包括粗粒度特征提取模块11和细粒度特征提取模块12,使用粗粒度特征提取模块11和细粒度特征提取模块12分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。
在本发明的一个实施例中,所述粗粒度特征提取模块11包括图像编码器111、文本编码器112和多模态编码器113,所述文本编码器112包括6层文本转换器(TextTransformers),所述图像编码器111包括12层视觉转换器(Vision Transformers),所述多模态编码器113包括6层多模态转换器(Multi-modal Transformers);所述细粒度特征提取模块12包括目标检测器121和多模态融合器122,所述目标检测器121包括快速区域卷积神经网络(Fast R-CNN),所述多模态融合器122包括12层转换器(Transformers)。
本实施例的基于前提的多粒度跨模态推理装置用于实现前述的基于前提的多粒度跨模态推理方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的基于前提的多粒度跨模态推理装置用于实现前述的基于前提的多粒度跨模态推理方法,因此其作用与上述方法的作用相对应,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于前提的多粒度跨模态推理方法,其特征在于:包括:
对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;
提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;
融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;
基于融合的多粒度特征得到最终的预测结果;
其中,使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。
2.根据权利要求1所述的一种基于前提的多粒度跨模态推理方法,其特征在于:在对文本前提和文本选项进行文本拼接前,使用特殊字符将所述文本前提和所述文本选项进行分隔。
3.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法,其特征在于:所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器,所述文本编码器包括6层文本转换器,所述图像编码器包括12层视觉转换器,所述多模态编码器包括6层多模态转换器。
4.根据权利要求3所述的一种基于前提的多粒度跨模态推理方法,其特征在于:使用粗粒度特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征的方法,包括:
通过图像编码器和文本编码器分别提取整体文本特征和整体视觉特征,并通过多模态编码器将整体视觉特征和整体文本特征对齐,输出粗粒度多模态特征。
5.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法,其特征在于:所述细粒度特征提取模块包括目标检测器和多模态融合器,所述目标检测器包括快速区域卷积神经网络,所述多模态融合器包括12层转换器。
6.根据权利要求5所述的一种基于前提的多粒度跨模态推理方法,其特征在于:使用细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法,包括:
通过目标检测器提取所述图像中的局部实体特征,并将提取的局部实体特征和文本输入共同作为多模态融合器的输入,输出细粒度多模态特征。
7.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法,其特征在于:融合所述粗粒度多模态特征和细粒度多模态特征的方法,包括:
构建多粒度信息融合模块,使用所述多粒度信息融合模块融合所述粗粒度多模态特征和细粒度多模态特征,其中,所述多粒度信息融合模块为一动态的门控单元如下:
Figure QLYQS_1
式中,
Figure QLYQS_4
表示sigmoid激活函数,/>
Figure QLYQS_7
、/>
Figure QLYQS_8
、/>
Figure QLYQS_3
和/>
Figure QLYQS_6
表示需要学习的参数,/>
Figure QLYQS_10
表示细粒度特征权重,/>
Figure QLYQS_11
表示粗粒度特征权重,/>
Figure QLYQS_2
表示融合的多粒度特征,/>
Figure QLYQS_5
表示细粒度多模态特征,/>
Figure QLYQS_9
表示粗粒度多模态特征。
8.根据权利要求7所述的一种基于前提的多粒度跨模态推理方法,其特征在于:基于所述融合特征得到最终的预测结果的方法,包括:
Figure QLYQS_12
式中,MLP表示多层全连接层,
Figure QLYQS_13
表示文本输入,/>
Figure QLYQS_14
表示图像输入,/>
Figure QLYQS_15
表示预测的结果。
9.一种基于前提的多粒度跨模态推理装置,其特征在于:包括:
数据输入模块,其用于对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;
多粒度多模态特征提取模块,其用于提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;
多粒度信息融合模块,其用于融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;
预测模块,其用于基于融合的多粒度特征得到最终的预测结果;
其中,多粒度多模态特征提取模块包括粗粒度特征提取模块和细粒度特征提取模块,使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。
10.根据权利要求9所述的一种基于前提的多粒度跨模态推理装置,其特征在于:所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器,所述文本编码器包括6层文本转换器,所述图像编码器包括12层视觉转换器,所述多模态编码器包括6层多模态转换器;所述细粒度特征提取模块包括目标检测器和多模态融合器,所述目标检测器包括快速区域卷积神经网络,所述多模态融合器包括12层转换器。
CN202310547450.1A 2023-05-16 2023-05-16 基于前提的多粒度跨模态推理方法及装置 Active CN116258946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310547450.1A CN116258946B (zh) 2023-05-16 2023-05-16 基于前提的多粒度跨模态推理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310547450.1A CN116258946B (zh) 2023-05-16 2023-05-16 基于前提的多粒度跨模态推理方法及装置

Publications (2)

Publication Number Publication Date
CN116258946A true CN116258946A (zh) 2023-06-13
CN116258946B CN116258946B (zh) 2023-08-11

Family

ID=86681062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310547450.1A Active CN116258946B (zh) 2023-05-16 2023-05-16 基于前提的多粒度跨模态推理方法及装置

Country Status (1)

Country Link
CN (1) CN116258946B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7216351B1 (en) * 1999-04-07 2007-05-08 International Business Machines Corporation Systems and methods for synchronizing multi-modal interactions
CN115203442A (zh) * 2022-09-15 2022-10-18 中国海洋大学 基于联合注意力的跨模态深度哈希检索方法、系统及介质
CN115861641A (zh) * 2022-10-31 2023-03-28 浙江工业大学 一种基于细粒度注意力的医学影像报告生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7216351B1 (en) * 1999-04-07 2007-05-08 International Business Machines Corporation Systems and methods for synchronizing multi-modal interactions
CN115203442A (zh) * 2022-09-15 2022-10-18 中国海洋大学 基于联合注意力的跨模态深度哈希检索方法、系统及介质
CN115861641A (zh) * 2022-10-31 2023-03-28 浙江工业大学 一种基于细粒度注意力的医学影像报告生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XU YAN: "Revising Image-Text Retrieval via Multi-Modal Entailment", 《ARXIV:2208.10126V2》, pages 1 - 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法

Also Published As

Publication number Publication date
CN116258946B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
EP3665676B1 (en) Speaking classification using audio-visual data
CN116258946B (zh) 基于前提的多粒度跨模态推理方法及装置
CN116468725B (zh) 基于预训练模型的工业缺陷检测方法、装置及存储介质
WO2022116433A1 (zh) 管道损伤检测方法、装置、设备及存储介质
CN111160350A (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN114445746A (zh) 模型训练方法、铁路接触网异常检测方法及相关装置
TW202011280A (zh) 操作搜索框架系統之方法
CN115249237A (zh) 缺陷检测方法、缺陷检测装置及计算机可读存储介质
CN113971402A (zh) 内容识别方法、装置、介质及电子设备
CN117972052A (zh) 模型训练数据生成方法、装置、设备以及存储介质
CN116204726B (zh) 一种基于多模态模型的数据处理方法、装置及设备
CN117391201A (zh) 问答方法、装置及电子设备
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN114419078B (zh) 基于卷积神经网络的表面缺陷区域分割方法及装置
CN116912872A (zh) 图纸识别方法、装置、设备及可读存储介质
CN113850235B (zh) 一种文本处理方法、装置、设备及介质
CN115984302A (zh) 基于稀疏混合专家网络预训练的多模态遥感图像处理方法
CN114419693A (zh) 一种用于人脸深伪检测的方法和装置
CN113850172A (zh) 一种微尺度VOCs泄漏检测方法、系统、存储介质及设备
Imran et al. Real Time American Sign Language Detection Using Yolo-v9
CN116452906B (zh) 基于文本描述的铁路货车故障图片生成方法
CN117953589B (zh) 一种交互动作检测方法、系统、设备及介质
CN113205110B (zh) 一种面板缺陷分类模型的建立方法及面板缺陷分类方法
CN118644665A (zh) 一种大模型调试方法、推理方法、装置、系统、计算机程序产品及存储介质
Gan et al. End-to-end image splicing localization based on multi-scale features and residual refinement module

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant