CN112819052B - 多模态细粒度混合方法、系统、设备和存储介质 - Google Patents

多模态细粒度混合方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN112819052B
CN112819052B CN202110094267.1A CN202110094267A CN112819052B CN 112819052 B CN112819052 B CN 112819052B CN 202110094267 A CN202110094267 A CN 202110094267A CN 112819052 B CN112819052 B CN 112819052B
Authority
CN
China
Prior art keywords
visual
feature
modal
component
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110094267.1A
Other languages
English (en)
Other versions
CN112819052A (zh
Inventor
廖清
廖鑫鑫
漆舒汉
蒋琳
王轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Original Assignee
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology filed Critical Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority to CN202110094267.1A priority Critical patent/CN112819052B/zh
Publication of CN112819052A publication Critical patent/CN112819052A/zh
Application granted granted Critical
Publication of CN112819052B publication Critical patent/CN112819052B/zh
Priority to US17/577,099 priority patent/US11436451B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及机器视觉技术领域,公开了一种多模态细粒度混合方法、系统、设备和存储介质,所述多模态细粒度混合方法包括:从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征;对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。本发明实施例提供的多模态细粒度混合方法在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。

Description

多模态细粒度混合方法、系统、设备和存储介质
技术领域
本发明涉及机器视觉技术领域,特别是涉及一种多模态细粒度混合方法、系统、设备和存储介质。
背景技术
随着互联网技术的飞速发展,文字、图像、音频、视频等数据正在呈指数式增长,多种模态的数据从不同的角度描述着同一个事件或者主题,使人们对其的理解更加充分与丰富。如何有效利用多模态数据完成相应场景下的指定任务,成为研究领域的研究热点。
近几年来,随着深度学习技术的快速发展,人们越来越有能力解决更加复杂的机器学习问题,在分析处理多模态数据方面也取得了巨大的进步。很多多模态应用领域也引起了研究者的研究兴趣,如人类行为识别(human activity recognition),医疗应用(medical applications),自动驾驶(autonomous driving),图像视频标注(image andvideo annotations),跨模态检索(cross-modal retrieval)等等。
然而,目前现有的多模态学习的方法选择模态间信息交互的方式时,都是以模态为单位。例如在图文多模态中,以图片模态和文本模态为单位,进行模态间和模态内的交互。对于单个模态中的不同组成成分,使用的是相同的交互方式。其中组成成分代表图片模态中的每一个区域特征或者是文本句子中的每一个单词。但是在多模态数据中,单模态内不同组成成分具有各自不同的特点,因此需要使用不同的交互方式。现有的多模态学习方法忽略了这一点,会使得单模态中某些组成成分融入另一个模态的无关信息。
发明内容
本发明的目的是:提供一种多模态细粒度混合方法,以多模态数据中单模态内的组成成分为单位,自适应的选择交互方式,实现多模态细粒度的信息交互。该方法将会根据不同组成成分的特点,选择合适的混合交互方法,在使用多模态数据中模态间关联关系的信息的同时,避免不相关信息的影响。
为了实现上述目的,本发明提供了一种多模态细粒度混合方法,所述方法包括:从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
可选的,所述从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分的步骤包括:从多模态图文数据中,通过Faster RCNN模型获得视觉区域特征V,V=RCNN(I;θRCNN);其中,I为输入的图片数据,
Figure BDA0002913494120000021
LV为所述视觉区域特征中的组成成分的个数,dV为所述视觉区域特征的长度。
从多模态图文数据中,通过门控循环单元GRU获得文本单词特征E,E=GRU(Q,θGRU);其中,Q为输入的文本数据,
Figure BDA0002913494120000022
LE表示所述文本数据的整体的长度,dE表示所述文本单词特征的组成成分的长度。
通过全连接层将所述视觉区域特征V和所述文本单词特征E转换到相同维度的向量,获得所述视觉区域特征V中的视觉特征组成成分Vi和所述文本单词特征E中的文本特征组成成分Ei
Figure BDA0002913494120000023
其中,i∈[1,LV]。
Figure BDA0002913494120000024
其中,i∈[1,LE]。
可选的,所述对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果的步骤包括:计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果;计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果。
可选的,所述计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果的步骤包括:计算各所述视觉特征组成成分Vi的模态内相关性
Figure BDA0002913494120000031
Figure BDA0002913494120000032
Figure BDA0002913494120000033
Figure BDA0002913494120000034
Figure BDA0002913494120000035
计算各所述视觉特征组成成分Vi的模态间相关性
Figure BDA0002913494120000036
Figure BDA0002913494120000037
Figure BDA0002913494120000038
Figure BDA0002913494120000039
Figure BDA00029134941200000310
归一化处理各所述视觉特征组成成分Vi的模态内相关性
Figure BDA00029134941200000311
和模态间相关性
Figure BDA00029134941200000312
获得各所述视觉特征组成成分Vi的特性为:
Figure BDA00029134941200000313
Figure BDA00029134941200000314
所述计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果的步骤包括:
计算各所述文本特征组成成分Ei的模态内相关性
Figure BDA00029134941200000315
Figure BDA00029134941200000316
Figure BDA00029134941200000317
Figure BDA00029134941200000318
Figure BDA0002913494120000041
计算各所述文本特征组成成分Ei的模态间相关性
Figure BDA0002913494120000042
Figure BDA0002913494120000043
Figure BDA0002913494120000044
Figure BDA0002913494120000045
Figure BDA0002913494120000046
归一化处理各所述文本特征组成成分Ei的模态内相关性
Figure BDA0002913494120000047
和模态间相关性
Figure BDA0002913494120000048
获得各所述文本特征组成成分Ei的特性为:
Figure BDA0002913494120000049
Figure BDA00029134941200000410
可选的,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤包括:将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征;计算所述视觉区域特征的自身模态信息和跨模态信息;根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重,使用残差结构获得融合视觉特征。
可选的,所述将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征;计算所述视觉区域特征的自身模态信息和跨模态信息;根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重,使用残差结构获得融合视觉特征的步骤包括:
将所述视觉区域特征V转换到对应的视觉区域查询特征VQ、视觉键特征VK和区域值特征
Figure BDA00029134941200000411
视觉区域查询特征VQ=Linear(V;θVQ);
视觉键特征VK=Linear(V;θVK);
区域值特征VV=Linear(V;θVV);
将所述文本单词特征E转换到对应的单词查询特征EQ、单词键特征EK和单词值特征
Figure BDA0002913494120000051
单词查询特征EQ=Linear(E;θEQ);
单词键特征EK=Linear(E;θEK);
单词值特征EV=Linear(E;θEV);
其中,Linear表示一个包含参数θ的全连接层,dim表示两个模态信息转化后的公共维度;
计算所述视觉区域特征V对应的视觉区域查询特征VQ和视觉键特征VK对的内积
Figure BDA0002913494120000052
获得所述视觉区域特征V的自身注意力权重,进行归一化处理,得到自身模态信息:
Figure BDA0002913494120000053
计算所述视觉区域特征V对应的视觉区域查询特征VQ和单词键特征EK对的内积
Figure BDA0002913494120000054
获得所述视觉区域特征V的跨模态注意力权重,进行归一化处理,获得所述视觉区域特征V对应的跨模态信息:
Figure BDA0002913494120000055
根据各所述视觉区域组成成分Vi的特性
Figure BDA0002913494120000056
Figure BDA0002913494120000057
分别乘以各所述视觉区域组成成分Vi对应的自身注意力权重SA(Vi)和跨模态注意力权重GA(Vi),使用残差结构获得融合视觉特征:
Figure BDA0002913494120000058
可选的,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤之后还包括:对所述融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,所述表征数据包括图片表征和文本表征。
本发明实施例还提供一种采用上面一些实施例中的所述的方法的多模态细粒度混合系统,包括:特征提取模块、细粒度分类模块和融合模块;所述特征提取模块,用于从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;所述细粒度分类模块,用于对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;所述融合模块,用于根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
本发明实施例还提供一种设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上面一些实施例中所述的方法。
可选的,本发明实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使得所述处理器执行如上面一些实施例中所述的方法中的一个或多个步骤。
本发明实施例一种多模态细粒度混合方法、系统、设备和存储介质与现有技术相比,其有益效果在于:本发明在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。
附图说明
图1是本发明实施例提供的一种多模态细粒度混合方法的流程图;
图2是本发明实施例提供的一种多模态细粒度混合方法S20的子步骤的流程图;
图3是本发明实施例提供的计算视觉特征组成成分模态内相关性的流程图;
图4是本发明实施例提供的计算视觉特征组成成分模态间相关性的流程图;
图5是本发明实施例提供的一种多模态细粒度混合方法S30的子步骤的流程图;
图6是本发明实施例提供的另一种多模态细粒度混合方法的流程图;
图7是本发明实施例提供的一种多模态细粒度混合系统的结构图。
图中,100、多模态细粒度混合系统;101、特征提取模块;102、细粒度分类模块;103、融合模块。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的描述中,应当理解的是,除非上下文另有要求,否则,在整个说明书和权利要求书中,术语“包括”被解释为开放、包含的意思,即为“包含,但不限于”。在说明书的描述中,术语“一些实施例”旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外,所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。
在本公开实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。“A和/或B”,包括以下三种组合:仅A,仅B,及A和B的组合。
如图1所示,本发明实施例优选实施例的一种多模态细粒度混合方法,包括:
S10:从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征。
可以理解的是,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等,以上的每一种都可以称为一种模态。针对任意模态可以提取相应的数据特征,本发明实施例中的数据特征并不仅限于视觉区域特征和文本单词特征。在一些实施例中,S10包括:
从多模态图文数据中,通过Faster RCNN模型获得视觉区域特征V,V=RCNN(I;θRCNN)。
其中,I为输入的图片数据,
Figure BDA0002913494120000081
LV为视觉区域特征中的组成成分的个数,dV为视觉区域特征的长度。
示例性地,视觉区域特征V是通过在Visual Genome数据集上预训练后的FasterRCNN模型获得。对于每一张图片,提取100个候选区域即组成成分和其对应的区域特征。给定一个输入的图片I,提取到的区域视觉特征可以表示为
Figure BDA0002913494120000082
其中LV表示视觉区域特征中的组成成分的个数,dV表示视觉区域特征的长度。第i个视觉特征组成成分的区域特征可以表示为
Figure BDA0002913494120000083
从多模态图文数据中,通过门控循环单元GRU获得文本单词特征E,E=GRU(Q,θGRU)。
其中,Q为输入的文本数据,
Figure BDA0002913494120000084
LE表示文本数据的整体的长度,dE表示文本单词特征的组成成分的长度。
示例性地,使用Glove词嵌入作为门控循环单元(Gated Recurrent Unit,GRU)的输入,以获得文本单词特征E。在给定一个文本输入Q,从GRU获得文本单词特征
Figure BDA0002913494120000085
第j个文本特征组成成分可以表示为
Figure BDA0002913494120000086
其中,LE表示文本数据的整体的长度,dE表示文本单词特征的组成成分的长度。
其中,视觉区域特征在整个系统模型的训练过程中是固定的,而文本单词特征是从头开始训练并伴随模型其他参数一起更新。
然后,通过全连接层将视觉区域特征V和文本单词特征E转换到相同维度的向量,获得视觉区域特征V中的视觉特征组成成分Vi和文本单词特征E中的文本特征组成成分Ei
Figure BDA0002913494120000087
其中,i∈[1,LV]。
Figure BDA0002913494120000088
其中,i∈[1,LE]。
在S10完成之后执行S20,请再次参见图1,S20:对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果。
在一些实施例中,如图2所示,S20包括:
S21:计算各视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各视觉特征组成成分Vi的特性,得到分类结果。
首先,根据每一个视觉特征组成成分Vi在多模态图文数据中的上下文信息进行模态内相关性
Figure BDA0002913494120000091
的计算,即计算各视觉特征组成成分Vi的模态内相关性
Figure BDA0002913494120000092
如图3所示,对于多模态图文数据中的每一个视觉特征组成成分Vi,计算一个余弦相似度矩阵M,矩阵中的每一个元素
Figure BDA0002913494120000093
表示了视觉区域特征中第i个视觉特征组成成分和第j个视觉特征组成成分的相似度。
Figure BDA0002913494120000094
对于视觉区域特征中的每一个视觉特征组成成分,定义一个视觉区域特征的加权联合表征
Figure BDA0002913494120000095
该表征表示在某个特定视觉特征组成成分的引导下,视觉区域特征的一个特定全局表示。
Figure BDA0002913494120000096
Figure BDA0002913494120000097
为了确定给定视觉区域特征上下文下每一个视觉特征组成成分的重要性,定义第i个视觉特征组成成分Vi和视觉区域特征的相关性为引导下视觉区域表征
Figure BDA0002913494120000098
和视觉特征组成成分Vi的余弦相似度。
Figure BDA0002913494120000099
其次,如图4所示,对于多模态图文数据中的每一个视觉特征组成成分Vi,首先计算一个余弦相似度矩阵S,矩阵中的每一个元素
Figure BDA00029134941200000910
表示了视觉区域特征中第i个视觉特征组成成分和文本单词特征中第j个文本特征组成成分的相似度,即计算各所述视觉特征组成成分Vi的模态间相关性
Figure BDA00029134941200000911
Figure BDA00029134941200000912
对于视觉区域特征中的每一个视觉特征组成成分,定义一个表征的加权联合表征
Figure BDA0002913494120000101
该表征表示在某个特定视觉特征组成成分的引导下,文本单词特征的一个特定全局表示。
Figure BDA0002913494120000102
Figure BDA0002913494120000103
为了确定给定文本单词特征上下文下每一个视觉特征组成成分的重要性,定义第i个视觉特征组成成分和文本单词特征的相关性为引导下文本单词特征表征
Figure BDA0002913494120000104
和视觉特征组成成分Vi的余弦相似度。
Figure BDA0002913494120000105
最后,归一化处理各视觉特征组成成分Vi的模态内相关性
Figure BDA0002913494120000106
和模态间相关性
Figure BDA0002913494120000107
获得各视觉特征组成成分Vi的特性为:
Figure BDA0002913494120000108
Figure BDA0002913494120000109
在S21完成之后执行S22,请再次参见图2,S22:计算各文本特征组成成分Ei的模态内相关性和模态间相关性,获得各文本特征组成成分Ei的特性,得到分类结果。
首先,计算各所述文本特征组成成分Ei的模态内相关性
Figure BDA00029134941200001010
Figure BDA00029134941200001011
Figure BDA00029134941200001012
Figure BDA00029134941200001013
Figure BDA00029134941200001014
其次,计算各所述文本特征组成成分Ei的模态间相关性
Figure BDA00029134941200001015
Figure BDA00029134941200001016
Figure BDA00029134941200001017
Figure BDA00029134941200001018
Figure BDA00029134941200001019
最后,归一化处理各所述文本特征组成成分Ei的模态内相关性
Figure BDA0002913494120000111
和模态间相关性
Figure BDA0002913494120000112
获得各所述文本特征组成成分Ei的特性为:
Figure BDA0002913494120000113
Figure BDA0002913494120000114
需要说明的是,上述计算各文本特征组成成分Ei的模态内相关性和模态间相关性与计算各视觉特征组成成分Vi的模态内相关性和模态间相关性的步骤相似,此处不再赘述。
本发明实施例中,计算各视觉特征组成成分Vi和各文本特征组成成分Ei的模态内相关性和模态间相关性,可以得到各组成成分的特性及其所处的上下文环境的差异,为接下来的融合过程提供参考。
在S22成之后执行S30,请再次参见图1,S30:根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
在一些实施例中,如图5所示,S30包括:
S31:将视觉区域特征和文本单词特征转化为对应的查询特征和键值对特征。
将视觉区域特征V转换到对应的视觉区域查询特征VQ、视觉键特征VK和区域值特征
Figure BDA0002913494120000115
视觉区域查询特征VQ=Linear(V;θVQ);
视觉键特征VK=Linear(V;θVK);
区域值特征VV=Linear(V;θVV);
将文本单词特征E转换到对应的单词查询特征EQ、单词键特征EK和单词值特征
Figure BDA0002913494120000116
单词查询特征EQ=Linear(E;θEQ);
单词键特征EK=Linear(E;θEK);
单词值特征EV=Linear(E;θEV);
其中,Linear表示一个包含参数θ的全连接层,dim表示两个模态信息转化后的公共维度。
S32:计算视觉区域特征的自身模态信息和跨模态信息。
其中,计算视觉区域特征V对应的视觉区域查询特征VQ和视觉键特征VK对的内积
Figure BDA0002913494120000121
获得视觉区域特征V的自身注意力权重,进行归一化处理,得到自身模态信息。
示例性地,使用自注意力机制SA(Self-Attention),获得的自身模态信息,首先计算每一个视觉区域查询特征VQ和视觉键特征VK对的内积
Figure BDA0002913494120000122
从而获得原始的用于聚合视觉区域特征到每一个视觉特征组成成分的注意力权重。然后通过对这些注意力权重做归一化处理得到最终的注意力权重。使用最终的注意力权重,从所有的视觉区域特征到某个特定视觉特征组成成分的信息可以表示为区域值特征VV的加权和。
Figure BDA0002913494120000123
计算所述视觉区域特征V对应的视觉区域查询特征VQ和单词键特征EK对的内积
Figure BDA0002913494120000124
获得所述视觉区域特征V的跨模态注意力权重,进行归一化处理,获得所述视觉区域特征V对应的跨模态信息。
示例性地,采用引导注意力机制GA(Guided-Attention),获得跨模态信息,首先计算每一个视觉区域特征VQ和单词键特征EK对的内积
Figure BDA0002913494120000125
从而获得原始的用于聚合文本单词特征到每一个视觉特征组成成分的注意力权重。然后通过对这些注意力权重做归一化处理得到最终的注意力权重。使用最终的注意力权重,从所有的文本单词特征嵌入中到某个特定视觉特征组成成分的信息可以表示为单词值特征EV的加权和。
Figure BDA0002913494120000126
S33:根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重,使用残差结构获得融合视觉特征。
示例性地,根据各所述视觉区域组成成分Vi的特性
Figure BDA0002913494120000127
Figure BDA0002913494120000128
分别乘以各所述视觉区域组成成分Vi对应的自身注意力权重SA(Vi)和跨模态注意力权重GA(Vi),使用残差结构获得融合视觉特征:
Figure BDA0002913494120000131
本发明实施例中,混合使用自注意力机制SA和引导注意力机制GA,能够在充分使用多模态数据互补特点的同时,防止不相干信息的干扰。通过残差结构能够使得模型更新时,避免出现退化问题,同时解决了梯度问题,实现多模态信息的细粒度混合融合。
在一些实施例中,如图6所示,本发明实施例中提供的多模态细粒度混合方法还包括:
S40:对融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,表征数据包括图片表征和文本表征。
本发明实施例中,对融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,表征数据包括图片表征和文本表征,分别对图片表征和文本表征进行均池化得到最终的图片表征和文本表征。这些表征特征可以使用例如串联、特征元素乘、特征相加等方式得到最后的融合后的特征,之后根据下游任务的不同,可以适配不同的损失函数。
本发明实施例提供的多模态细粒度混合方法与现有的融合方法相比,不以模态为单位进行,考虑到了模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。
如图7所示,本发明实施例还提供一种采用如上面一些实施例的方法的多模态细粒度混合系统100,包括:特征提取模块101、细粒度分类模块102和融合模块103。
特征提取模块101用于从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征。
细粒度分类模块102用于对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果。
融合模块103用于根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
关于多模态细粒度混合系统的具体限定可以参见上文中对于多模态细粒度混合方法的限定,上述实施例中提供的多模态细粒度混合系统和多模态细粒度混合方法均是基于相同的发明构思。因此,多模态细粒度混合方法中各个具体实施例的步骤均可以由对应的功能模块所执行,功能模块中具体的功能也可以在多模态细粒度混合系统中具有对应的方法步骤,在此不再赘述。上述多模态细粒度混合系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本发明实施例还提供一种设备,包括:存储器和一个或多个处理器。存储器用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行如上面一些实施例中的方法。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
本发明实施例还提供了一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质中存储有计算机程序指令,计算机程序指令在处理器上运行时,使得处理器执行如上述实施例中任一实施例所述的多模态细粒度混合方法中的一个或多个步骤。
示例性的,上述计算机可读存储介质可以包括,但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,CD(Compact Disk,压缩盘)、DVD(Digital VersatileDisk,数字通用盘)等),智能卡和闪存器件(例如,EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、卡、棒或钥匙驱动器等)。本公开描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于,无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
综上,本发明实施例提供一种多模态细粒度混合方法、系统、设备和存储介质与现有技术相比,其在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通计数人员来说,在不脱离本发明计数原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (6)

1.一种多模态细粒度混合方法,其特征在于,所述方法包括:
从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;
对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;
根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征;
其中,所述对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果的步骤包括:
计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果;
计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果;
所述计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果的步骤包括:归一化处理各所述视觉特征组成成分Vi的模态内相关性
Figure FDA0003355909750000011
和模态间相关性
Figure FDA0003355909750000012
获得各所述视觉特征组成成分Vi的特性为:
Figure FDA0003355909750000013
Figure FDA0003355909750000014
所述计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果的步骤包括:归一化处理各所述文本特征组成成分Ei的模态内相关性
Figure FDA0003355909750000015
和模态间相关性
Figure FDA0003355909750000016
获得各所述文本特征组成成分Ei的特性为:
Figure FDA0003355909750000017
Figure FDA0003355909750000018
所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤包括:
将各所述视觉特征组成成分和各所述文本特征组成成分转化为对应的查询特征和键值对特征;
计算各所述视觉特征组成成分对应的视觉区域查询特征和视觉键特征对的内积,获得各所述视觉特征组成成分的自身注意力权重,进行归一化处理,得到自身模态信息;以及计算各所述视觉特征组成成分对应的视觉区域查询特征和单词键特征对的内积,获得各所述视觉特征组成成分的跨模态注意力权重,进行归一化处理,获得各所述视觉特征组成成分对应的跨模态信息;
根据各所述视觉特征组成成分的特性分别乘以各所述视觉特征组成成分对应的自身模态信息和跨模态信息,使用残差结构获得融合视觉特征组成成分,并由各融合视觉特征组成成分构成融合视觉特征。
2.根据权利要求1所述的方法,其特征在于,所述计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果的步骤包括:
计算各所述视觉特征组成成分Vi的模态内相关性
Figure FDA0003355909750000021
Figure FDA0003355909750000022
Figure FDA0003355909750000023
Figure FDA0003355909750000024
Figure FDA0003355909750000025
计算各所述视觉特征组成成分Vi的模态间相关性
Figure FDA0003355909750000026
Figure FDA0003355909750000027
Figure FDA0003355909750000028
Figure FDA0003355909750000029
Figure FDA0003355909750000031
所述计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果的步骤包括:
计算各所述文本特征组成成分Ei的模态内相关性
Figure FDA0003355909750000032
Figure FDA0003355909750000033
Figure FDA0003355909750000034
Figure FDA0003355909750000035
Figure FDA0003355909750000036
计算各所述文本特征组成成分Ei的模态间相关性
Figure FDA0003355909750000037
Figure FDA0003355909750000038
Figure FDA0003355909750000039
Figure FDA00033559097500000310
Figure FDA00033559097500000311
3.根据权利要求1所述的方法,其特征在于,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤之后还包括:
对所述融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,所述表征数据包括图片表征和文本表征。
4.一种采用如权利要求1至3中任一项所述的方法的多模态细粒度混合系统,其特征在于,所述系统包括:特征提取模块、细粒度分类模块和融合模块;
所述特征提取模块,用于从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;
所述细粒度分类模块,用于对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;具体为:计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果;计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果;归一化处理各所述视觉特征组成成分Vi的模态内相关性
Figure FDA0003355909750000041
和模态间相关性
Figure FDA0003355909750000042
获得各所述视觉特征组成成分Vi的特性为:
Figure FDA0003355909750000043
Figure FDA0003355909750000044
归一化处理各所述文本特征组成成分Ei的模态内相关性
Figure FDA0003355909750000045
和模态间相关性
Figure FDA0003355909750000046
获得各所述文本特征组成成分Ei的特性为:
Figure FDA0003355909750000047
Figure FDA0003355909750000048
所述融合模块,用于根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征;具体地:将各所述视觉特征组成成分和各所述文本特征组成成分转化为对应的查询特征和键值对特征;
计算各所述视觉特征组成成分对应的视觉区域查询特征和视觉键特征对的内积,获得各所述视觉特征组成成分的自身注意力权重,进行归一化处理,得到自身模态信息;以及计算各所述视觉特征组成成分对应的视觉区域查询特征和单词键特征对的内积,获得各所述视觉特征组成成分的跨模态注意力权重,进行归一化处理,获得各所述视觉特征组成成分对应的跨模态信息;
根据各所述视觉特征组成成分的特性分别乘以各所述视觉特征组成成分对应的的自身模态信息和跨模态信息,使用残差结构获得融合视觉特征组成成分,并由各融合视觉特征组成成分构成融合视觉特征。
5.一种设备,其特征在于,所述设备包括:存储器和一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至3中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使得所述处理器执行如权利要求1至3中任一项所述的方法中的一个或多个步骤。
CN202110094267.1A 2021-01-25 2021-01-25 多模态细粒度混合方法、系统、设备和存储介质 Active CN112819052B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110094267.1A CN112819052B (zh) 2021-01-25 2021-01-25 多模态细粒度混合方法、系统、设备和存储介质
US17/577,099 US11436451B2 (en) 2021-01-25 2022-01-17 Multimodal fine-grained mixing method and system, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110094267.1A CN112819052B (zh) 2021-01-25 2021-01-25 多模态细粒度混合方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112819052A CN112819052A (zh) 2021-05-18
CN112819052B true CN112819052B (zh) 2021-12-24

Family

ID=75859073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110094267.1A Active CN112819052B (zh) 2021-01-25 2021-01-25 多模态细粒度混合方法、系统、设备和存储介质

Country Status (2)

Country Link
US (1) US11436451B2 (zh)
CN (1) CN112819052B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254741B (zh) * 2021-06-16 2021-09-28 苏州大学 基于融合模态内和模态间关系的数据处理方法及系统
CN114792424A (zh) * 2022-05-30 2022-07-26 北京百度网讯科技有限公司 文档图像的处理方法、装置及电子设备
CN114969534A (zh) * 2022-06-04 2022-08-30 哈尔滨理工大学 一种融合多模态数据特征的移动群智感知任务推荐方法
CN114708466B (zh) * 2022-06-08 2022-09-09 南京智莲森信息技术有限公司 零部件异常细粒度分类方法、系统、存储介质及计算设备
CN116089906B (zh) * 2023-03-13 2023-06-16 山东大学 基于动态上下文表示和模态融合的多模态分类方法及系统
CN116452896B (zh) * 2023-06-16 2023-10-20 中国科学技术大学 用于提升细粒度图像分类性能的方法、系统、设备及介质
CN117370933B (zh) * 2023-10-31 2024-05-07 中国人民解放军总医院 多模态统一特征提取方法、装置、设备及介质
CN117809150B (zh) * 2024-02-27 2024-04-30 广东工业大学 基于跨模态注意力机制的多模态错误信息检测方法及系统
CN117992800B (zh) * 2024-03-29 2024-06-14 浪潮电子信息产业股份有限公司 图文数据匹配检测方法、装置、设备及介质
CN118170938A (zh) * 2024-05-12 2024-06-11 西北工业大学 基于跨模态自进化知识泛化的信息引导目标搜索方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050210015A1 (en) * 2004-03-19 2005-09-22 Zhou Xiang S System and method for patient identification for clinical trials using content-based retrieval and learning
JP2006139659A (ja) * 2004-11-15 2006-06-01 Fujitsu Ltd 単語認識装置、単語認識方法、単語認識プログラム
US9190026B2 (en) * 2013-03-14 2015-11-17 Canon Kabushiki Kaisha Systems and methods for feature fusion
CN103995804B (zh) * 2013-05-20 2017-02-01 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
CN103473327A (zh) * 2013-09-13 2013-12-25 广东图图搜网络科技有限公司 图像检索方法与系统
CN107346328B (zh) * 2017-05-25 2020-09-08 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108960338B (zh) * 2018-07-18 2021-10-08 苏州科技大学 基于注意力反馈机制的图像自动语句标注方法
CN109359196B (zh) * 2018-10-22 2020-11-17 北京百度网讯科技有限公司 文本多模态表示方法及装置
CN109993197B (zh) * 2018-12-07 2023-04-28 天津大学 一种基于深度端对端示例差异化的零样本多标签分类方法
CN110222770B (zh) * 2019-06-10 2023-06-02 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110458282B (zh) * 2019-08-06 2022-05-13 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN111046664A (zh) * 2019-11-26 2020-04-21 哈尔滨工业大学(深圳) 基于多粒度的图卷积神经网络的假新闻检测方法及系统
CN111340122B (zh) * 2020-02-29 2022-04-12 复旦大学 一种多模态特征融合的文本引导图像修复方法
CN111680541B (zh) * 2020-04-14 2022-06-21 华中科技大学 一种基于多维度注意力融合网络的多模态情绪分析方法
CN111985369B (zh) * 2020-08-07 2021-09-17 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法

Also Published As

Publication number Publication date
CN112819052A (zh) 2021-05-18
US11436451B2 (en) 2022-09-06
US20220237420A1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
CN112819052B (zh) 多模态细粒度混合方法、系统、设备和存储介质
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
Villán Mastering OpenCV 4 with Python: a practical guide covering topics from image processing, augmented reality to deep learning with OpenCV 4 and Python 3.7
US11367271B2 (en) Similarity propagation for one-shot and few-shot image segmentation
JP7193252B2 (ja) 画像の領域のキャプション付加
EP3843004A1 (en) Portrait segmentation method, model training method and electronic device
JP2022554068A (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
WO2022247112A1 (zh) 任务处理方法、装置、设备、存储介质、计算机程序及程序产品
CN115757692A (zh) 一种数据处理方法及其装置
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
Xia et al. Multi-stream neural network fused with local information and global information for HOI detection
Ouali et al. An augmented reality for an arabic text reading and visualization assistant for the visually impaired
Kumar et al. Bird species classification from images using deep learning
Tang et al. Two-stage filtering method to improve the performance of object detection trained by synthetic dataset in heavily cluttered industry scenes
Li et al. Screencast tutorial video understanding
Newnham Machine Learning with Core ML: An iOS developer's guide to implementing machine learning in mobile apps
Marques Image processing and computer vision in iOS
CN113129399A (zh) 纹样生成
US12039431B1 (en) Systems and methods for interacting with a multimodal machine learning model
Baskaran et al. Comic character recognition (CCR): extraction of speech balloon context and character of interest in comics
US20240242465A1 (en) Cognitive placement of captioned text
Bornia et al. Deep learning and tensorflow for tracking people’s movements in a video
Shetty et al. Semantic Context and Attention-driven Framework for Predicting Visual Description Utilizing a Deep Neural Network and Natural Language Processing
Ashraf et al. Enhanced Emotion Recognition in Videos: A Convolutional Neural Network Strategy for Human Facial Expression Detection and Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant