CN112819052B - 多模态细粒度混合方法、系统、设备和存储介质 - Google Patents
多模态细粒度混合方法、系统、设备和存储介质 Download PDFInfo
- Publication number
- CN112819052B CN112819052B CN202110094267.1A CN202110094267A CN112819052B CN 112819052 B CN112819052 B CN 112819052B CN 202110094267 A CN202110094267 A CN 202110094267A CN 112819052 B CN112819052 B CN 112819052B
- Authority
- CN
- China
- Prior art keywords
- visual
- feature
- modal
- component
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000002156 mixing Methods 0.000 title claims abstract description 31
- 230000000007 visual effect Effects 0.000 claims abstract description 165
- 230000004927 fusion Effects 0.000 claims abstract description 43
- 238000012512 characterization method Methods 0.000 claims description 26
- 239000000470 constituent Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 abstract description 11
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/10—Recognition assisted with metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器视觉技术领域,公开了一种多模态细粒度混合方法、系统、设备和存储介质,所述多模态细粒度混合方法包括:从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征;对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。本发明实施例提供的多模态细粒度混合方法在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。
Description
技术领域
本发明涉及机器视觉技术领域,特别是涉及一种多模态细粒度混合方法、系统、设备和存储介质。
背景技术
随着互联网技术的飞速发展,文字、图像、音频、视频等数据正在呈指数式增长,多种模态的数据从不同的角度描述着同一个事件或者主题,使人们对其的理解更加充分与丰富。如何有效利用多模态数据完成相应场景下的指定任务,成为研究领域的研究热点。
近几年来,随着深度学习技术的快速发展,人们越来越有能力解决更加复杂的机器学习问题,在分析处理多模态数据方面也取得了巨大的进步。很多多模态应用领域也引起了研究者的研究兴趣,如人类行为识别(human activity recognition),医疗应用(medical applications),自动驾驶(autonomous driving),图像视频标注(image andvideo annotations),跨模态检索(cross-modal retrieval)等等。
然而,目前现有的多模态学习的方法选择模态间信息交互的方式时,都是以模态为单位。例如在图文多模态中,以图片模态和文本模态为单位,进行模态间和模态内的交互。对于单个模态中的不同组成成分,使用的是相同的交互方式。其中组成成分代表图片模态中的每一个区域特征或者是文本句子中的每一个单词。但是在多模态数据中,单模态内不同组成成分具有各自不同的特点,因此需要使用不同的交互方式。现有的多模态学习方法忽略了这一点,会使得单模态中某些组成成分融入另一个模态的无关信息。
发明内容
本发明的目的是:提供一种多模态细粒度混合方法,以多模态数据中单模态内的组成成分为单位,自适应的选择交互方式,实现多模态细粒度的信息交互。该方法将会根据不同组成成分的特点,选择合适的混合交互方法,在使用多模态数据中模态间关联关系的信息的同时,避免不相关信息的影响。
为了实现上述目的,本发明提供了一种多模态细粒度混合方法,所述方法包括:从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
可选的,所述从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分的步骤包括:从多模态图文数据中,通过Faster RCNN模型获得视觉区域特征V,V=RCNN(I;θRCNN);其中,I为输入的图片数据,LV为所述视觉区域特征中的组成成分的个数,dV为所述视觉区域特征的长度。
通过全连接层将所述视觉区域特征V和所述文本单词特征E转换到相同维度的向量,获得所述视觉区域特征V中的视觉特征组成成分Vi和所述文本单词特征E中的文本特征组成成分Ei。
可选的,所述对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果的步骤包括:计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果;计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果。
所述计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果的步骤包括:
可选的,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤包括:将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征;计算所述视觉区域特征的自身模态信息和跨模态信息;根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重,使用残差结构获得融合视觉特征。
可选的,所述将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征;计算所述视觉区域特征的自身模态信息和跨模态信息;根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重,使用残差结构获得融合视觉特征的步骤包括:
视觉区域查询特征VQ=Linear(V;θVQ);
视觉键特征VK=Linear(V;θVK);
区域值特征VV=Linear(V;θVV);
单词查询特征EQ=Linear(E;θEQ);
单词键特征EK=Linear(E;θEK);
单词值特征EV=Linear(E;θEV);
其中,Linear表示一个包含参数θ的全连接层,dim表示两个模态信息转化后的公共维度;
可选的,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤之后还包括:对所述融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,所述表征数据包括图片表征和文本表征。
本发明实施例还提供一种采用上面一些实施例中的所述的方法的多模态细粒度混合系统,包括:特征提取模块、细粒度分类模块和融合模块;所述特征提取模块,用于从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;所述细粒度分类模块,用于对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;所述融合模块,用于根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
本发明实施例还提供一种设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上面一些实施例中所述的方法。
可选的,本发明实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使得所述处理器执行如上面一些实施例中所述的方法中的一个或多个步骤。
本发明实施例一种多模态细粒度混合方法、系统、设备和存储介质与现有技术相比,其有益效果在于:本发明在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。
附图说明
图1是本发明实施例提供的一种多模态细粒度混合方法的流程图;
图2是本发明实施例提供的一种多模态细粒度混合方法S20的子步骤的流程图;
图3是本发明实施例提供的计算视觉特征组成成分模态内相关性的流程图;
图4是本发明实施例提供的计算视觉特征组成成分模态间相关性的流程图;
图5是本发明实施例提供的一种多模态细粒度混合方法S30的子步骤的流程图;
图6是本发明实施例提供的另一种多模态细粒度混合方法的流程图;
图7是本发明实施例提供的一种多模态细粒度混合系统的结构图。
图中,100、多模态细粒度混合系统;101、特征提取模块;102、细粒度分类模块;103、融合模块。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的描述中,应当理解的是,除非上下文另有要求,否则,在整个说明书和权利要求书中,术语“包括”被解释为开放、包含的意思,即为“包含,但不限于”。在说明书的描述中,术语“一些实施例”旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外,所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。
在本公开实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。“A和/或B”,包括以下三种组合:仅A,仅B,及A和B的组合。
如图1所示,本发明实施例优选实施例的一种多模态细粒度混合方法,包括:
S10:从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征。
可以理解的是,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等,以上的每一种都可以称为一种模态。针对任意模态可以提取相应的数据特征,本发明实施例中的数据特征并不仅限于视觉区域特征和文本单词特征。在一些实施例中,S10包括:
从多模态图文数据中,通过Faster RCNN模型获得视觉区域特征V,V=RCNN(I;θRCNN)。
示例性地,视觉区域特征V是通过在Visual Genome数据集上预训练后的FasterRCNN模型获得。对于每一张图片,提取100个候选区域即组成成分和其对应的区域特征。给定一个输入的图片I,提取到的区域视觉特征可以表示为其中LV表示视觉区域特征中的组成成分的个数,dV表示视觉区域特征的长度。第i个视觉特征组成成分的区域特征可以表示为
从多模态图文数据中,通过门控循环单元GRU获得文本单词特征E,E=GRU(Q,θGRU)。
示例性地,使用Glove词嵌入作为门控循环单元(Gated Recurrent Unit,GRU)的输入,以获得文本单词特征E。在给定一个文本输入Q,从GRU获得文本单词特征第j个文本特征组成成分可以表示为其中,LE表示文本数据的整体的长度,dE表示文本单词特征的组成成分的长度。
其中,视觉区域特征在整个系统模型的训练过程中是固定的,而文本单词特征是从头开始训练并伴随模型其他参数一起更新。
然后,通过全连接层将视觉区域特征V和文本单词特征E转换到相同维度的向量,获得视觉区域特征V中的视觉特征组成成分Vi和文本单词特征E中的文本特征组成成分Ei。
在S10完成之后执行S20,请再次参见图1,S20:对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果。
在一些实施例中,如图2所示,S20包括:
S21:计算各视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各视觉特征组成成分Vi的特性,得到分类结果。
其次,如图4所示,对于多模态图文数据中的每一个视觉特征组成成分Vi,首先计算一个余弦相似度矩阵S,矩阵中的每一个元素表示了视觉区域特征中第i个视觉特征组成成分和文本单词特征中第j个文本特征组成成分的相似度,即计算各所述视觉特征组成成分Vi的模态间相关性
在S21完成之后执行S22,请再次参见图2,S22:计算各文本特征组成成分Ei的模态内相关性和模态间相关性,获得各文本特征组成成分Ei的特性,得到分类结果。
需要说明的是,上述计算各文本特征组成成分Ei的模态内相关性和模态间相关性与计算各视觉特征组成成分Vi的模态内相关性和模态间相关性的步骤相似,此处不再赘述。
本发明实施例中,计算各视觉特征组成成分Vi和各文本特征组成成分Ei的模态内相关性和模态间相关性,可以得到各组成成分的特性及其所处的上下文环境的差异,为接下来的融合过程提供参考。
在S22成之后执行S30,请再次参见图1,S30:根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
在一些实施例中,如图5所示,S30包括:
S31:将视觉区域特征和文本单词特征转化为对应的查询特征和键值对特征。
视觉区域查询特征VQ=Linear(V;θVQ);
视觉键特征VK=Linear(V;θVK);
区域值特征VV=Linear(V;θVV);
单词查询特征EQ=Linear(E;θEQ);
单词键特征EK=Linear(E;θEK);
单词值特征EV=Linear(E;θEV);
其中,Linear表示一个包含参数θ的全连接层,dim表示两个模态信息转化后的公共维度。
S32:计算视觉区域特征的自身模态信息和跨模态信息。
示例性地,使用自注意力机制SA(Self-Attention),获得的自身模态信息,首先计算每一个视觉区域查询特征VQ和视觉键特征VK对的内积从而获得原始的用于聚合视觉区域特征到每一个视觉特征组成成分的注意力权重。然后通过对这些注意力权重做归一化处理得到最终的注意力权重。使用最终的注意力权重,从所有的视觉区域特征到某个特定视觉特征组成成分的信息可以表示为区域值特征VV的加权和。
示例性地,采用引导注意力机制GA(Guided-Attention),获得跨模态信息,首先计算每一个视觉区域特征VQ和单词键特征EK对的内积从而获得原始的用于聚合文本单词特征到每一个视觉特征组成成分的注意力权重。然后通过对这些注意力权重做归一化处理得到最终的注意力权重。使用最终的注意力权重,从所有的文本单词特征嵌入中到某个特定视觉特征组成成分的信息可以表示为单词值特征EV的加权和。
S33:根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重,使用残差结构获得融合视觉特征。
本发明实施例中,混合使用自注意力机制SA和引导注意力机制GA,能够在充分使用多模态数据互补特点的同时,防止不相干信息的干扰。通过残差结构能够使得模型更新时,避免出现退化问题,同时解决了梯度问题,实现多模态信息的细粒度混合融合。
在一些实施例中,如图6所示,本发明实施例中提供的多模态细粒度混合方法还包括:
S40:对融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,表征数据包括图片表征和文本表征。
本发明实施例中,对融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,表征数据包括图片表征和文本表征,分别对图片表征和文本表征进行均池化得到最终的图片表征和文本表征。这些表征特征可以使用例如串联、特征元素乘、特征相加等方式得到最后的融合后的特征,之后根据下游任务的不同,可以适配不同的损失函数。
本发明实施例提供的多模态细粒度混合方法与现有的融合方法相比,不以模态为单位进行,考虑到了模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。
如图7所示,本发明实施例还提供一种采用如上面一些实施例的方法的多模态细粒度混合系统100,包括:特征提取模块101、细粒度分类模块102和融合模块103。
特征提取模块101用于从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征。
细粒度分类模块102用于对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果。
融合模块103用于根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
关于多模态细粒度混合系统的具体限定可以参见上文中对于多模态细粒度混合方法的限定,上述实施例中提供的多模态细粒度混合系统和多模态细粒度混合方法均是基于相同的发明构思。因此,多模态细粒度混合方法中各个具体实施例的步骤均可以由对应的功能模块所执行,功能模块中具体的功能也可以在多模态细粒度混合系统中具有对应的方法步骤,在此不再赘述。上述多模态细粒度混合系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本发明实施例还提供一种设备,包括:存储器和一个或多个处理器。存储器用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行如上面一些实施例中的方法。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
本发明实施例还提供了一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质中存储有计算机程序指令,计算机程序指令在处理器上运行时,使得处理器执行如上述实施例中任一实施例所述的多模态细粒度混合方法中的一个或多个步骤。
示例性的,上述计算机可读存储介质可以包括,但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,CD(Compact Disk,压缩盘)、DVD(Digital VersatileDisk,数字通用盘)等),智能卡和闪存器件(例如,EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、卡、棒或钥匙驱动器等)。本公开描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于,无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
综上,本发明实施例提供一种多模态细粒度混合方法、系统、设备和存储介质与现有技术相比,其在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通计数人员来说,在不脱离本发明计数原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (6)
1.一种多模态细粒度混合方法,其特征在于,所述方法包括:
从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;
对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;
根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征;
其中,所述对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果的步骤包括:
计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果;
计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果;
所述计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果的步骤包括:归一化处理各所述视觉特征组成成分Vi的模态内相关性和模态间相关性获得各所述视觉特征组成成分Vi的特性为:
所述计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果的步骤包括:归一化处理各所述文本特征组成成分Ei的模态内相关性和模态间相关性获得各所述文本特征组成成分Ei的特性为:
所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤包括:
将各所述视觉特征组成成分和各所述文本特征组成成分转化为对应的查询特征和键值对特征;
计算各所述视觉特征组成成分对应的视觉区域查询特征和视觉键特征对的内积,获得各所述视觉特征组成成分的自身注意力权重,进行归一化处理,得到自身模态信息;以及计算各所述视觉特征组成成分对应的视觉区域查询特征和单词键特征对的内积,获得各所述视觉特征组成成分的跨模态注意力权重,进行归一化处理,获得各所述视觉特征组成成分对应的跨模态信息;
根据各所述视觉特征组成成分的特性分别乘以各所述视觉特征组成成分对应的自身模态信息和跨模态信息,使用残差结构获得融合视觉特征组成成分,并由各融合视觉特征组成成分构成融合视觉特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤之后还包括:
对所述融合特征通过多次的细粒度分类和信息融合,得到具有识别力的表征数据,所述表征数据包括图片表征和文本表征。
4.一种采用如权利要求1至3中任一项所述的方法的多模态细粒度混合系统,其特征在于,所述系统包括:特征提取模块、细粒度分类模块和融合模块;
所述特征提取模块,用于从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;
所述细粒度分类模块,用于对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;具体为:计算各所述视觉特征组成成分Vi的模态内相关性和模态间相关性,获得各所述视觉特征组成成分Vi的特性,得到分类结果;计算各所述文本特征组成成分Ei的模态内相关性和模态间相关性,获得各所述文本特征组成成分Ei的特性,得到分类结果;归一化处理各所述视觉特征组成成分Vi的模态内相关性和模态间相关性获得各所述视觉特征组成成分Vi的特性为:
所述融合模块,用于根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征;具体地:将各所述视觉特征组成成分和各所述文本特征组成成分转化为对应的查询特征和键值对特征;
计算各所述视觉特征组成成分对应的视觉区域查询特征和视觉键特征对的内积,获得各所述视觉特征组成成分的自身注意力权重,进行归一化处理,得到自身模态信息;以及计算各所述视觉特征组成成分对应的视觉区域查询特征和单词键特征对的内积,获得各所述视觉特征组成成分的跨模态注意力权重,进行归一化处理,获得各所述视觉特征组成成分对应的跨模态信息;
根据各所述视觉特征组成成分的特性分别乘以各所述视觉特征组成成分对应的的自身模态信息和跨模态信息,使用残差结构获得融合视觉特征组成成分,并由各融合视觉特征组成成分构成融合视觉特征。
5.一种设备,其特征在于,所述设备包括:存储器和一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至3中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使得所述处理器执行如权利要求1至3中任一项所述的方法中的一个或多个步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110094267.1A CN112819052B (zh) | 2021-01-25 | 2021-01-25 | 多模态细粒度混合方法、系统、设备和存储介质 |
US17/577,099 US11436451B2 (en) | 2021-01-25 | 2022-01-17 | Multimodal fine-grained mixing method and system, device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110094267.1A CN112819052B (zh) | 2021-01-25 | 2021-01-25 | 多模态细粒度混合方法、系统、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112819052A CN112819052A (zh) | 2021-05-18 |
CN112819052B true CN112819052B (zh) | 2021-12-24 |
Family
ID=75859073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110094267.1A Active CN112819052B (zh) | 2021-01-25 | 2021-01-25 | 多模态细粒度混合方法、系统、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11436451B2 (zh) |
CN (1) | CN112819052B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254741B (zh) * | 2021-06-16 | 2021-09-28 | 苏州大学 | 基于融合模态内和模态间关系的数据处理方法及系统 |
CN114792424B (zh) * | 2022-05-30 | 2024-08-30 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置及电子设备 |
CN114969534A (zh) * | 2022-06-04 | 2022-08-30 | 哈尔滨理工大学 | 一种融合多模态数据特征的移动群智感知任务推荐方法 |
CN114708466B (zh) * | 2022-06-08 | 2022-09-09 | 南京智莲森信息技术有限公司 | 零部件异常细粒度分类方法、系统、存储介质及计算设备 |
CN116089906B (zh) * | 2023-03-13 | 2023-06-16 | 山东大学 | 基于动态上下文表示和模态融合的多模态分类方法及系统 |
CN116452896B (zh) * | 2023-06-16 | 2023-10-20 | 中国科学技术大学 | 用于提升细粒度图像分类性能的方法、系统、设备及介质 |
CN117370933B (zh) * | 2023-10-31 | 2024-05-07 | 中国人民解放军总医院 | 多模态统一特征提取方法、装置、设备及介质 |
CN117809150B (zh) * | 2024-02-27 | 2024-04-30 | 广东工业大学 | 基于跨模态注意力机制的多模态错误信息检测方法及系统 |
CN117992800B (zh) * | 2024-03-29 | 2024-06-14 | 浪潮电子信息产业股份有限公司 | 图文数据匹配检测方法、装置、设备及介质 |
CN118170938B (zh) * | 2024-05-12 | 2024-08-23 | 西北工业大学 | 基于跨模态自进化知识泛化的信息引导目标搜索方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050210015A1 (en) * | 2004-03-19 | 2005-09-22 | Zhou Xiang S | System and method for patient identification for clinical trials using content-based retrieval and learning |
JP2006139659A (ja) * | 2004-11-15 | 2006-06-01 | Fujitsu Ltd | 単語認識装置、単語認識方法、単語認識プログラム |
US9190026B2 (en) * | 2013-03-14 | 2015-11-17 | Canon Kabushiki Kaisha | Systems and methods for feature fusion |
CN103995804B (zh) * | 2013-05-20 | 2017-02-01 | 中国科学院计算技术研究所 | 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置 |
CN103473327A (zh) * | 2013-09-13 | 2013-12-25 | 广东图图搜网络科技有限公司 | 图像检索方法与系统 |
CN107346328B (zh) * | 2017-05-25 | 2020-09-08 | 北京大学 | 一种基于多粒度层级网络的跨模态关联学习方法 |
CN108960338B (zh) * | 2018-07-18 | 2021-10-08 | 苏州科技大学 | 基于注意力反馈机制的图像自动语句标注方法 |
CN109359196B (zh) * | 2018-10-22 | 2020-11-17 | 北京百度网讯科技有限公司 | 文本多模态表示方法及装置 |
CN109993197B (zh) * | 2018-12-07 | 2023-04-28 | 天津大学 | 一种基于深度端对端示例差异化的零样本多标签分类方法 |
CN110222770B (zh) * | 2019-06-10 | 2023-06-02 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN110458282B (zh) * | 2019-08-06 | 2022-05-13 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN111046664A (zh) * | 2019-11-26 | 2020-04-21 | 哈尔滨工业大学(深圳) | 基于多粒度的图卷积神经网络的假新闻检测方法及系统 |
CN111340122B (zh) * | 2020-02-29 | 2022-04-12 | 复旦大学 | 一种多模态特征融合的文本引导图像修复方法 |
CN111680541B (zh) * | 2020-04-14 | 2022-06-21 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111985369B (zh) * | 2020-08-07 | 2021-09-17 | 西北工业大学 | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 |
-
2021
- 2021-01-25 CN CN202110094267.1A patent/CN112819052B/zh active Active
-
2022
- 2022-01-17 US US17/577,099 patent/US11436451B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11436451B2 (en) | 2022-09-06 |
CN112819052A (zh) | 2021-05-18 |
US20220237420A1 (en) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112819052B (zh) | 多模态细粒度混合方法、系统、设备和存储介质 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
Villán | Mastering OpenCV 4 with Python: a practical guide covering topics from image processing, augmented reality to deep learning with OpenCV 4 and Python 3.7 | |
AU2019200270B2 (en) | Concept mask: large-scale segmentation from semantic concepts | |
US11367271B2 (en) | Similarity propagation for one-shot and few-shot image segmentation | |
EP3843004A1 (en) | Portrait segmentation method, model training method and electronic device | |
JP2022554068A (ja) | ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス | |
CN113869138A (zh) | 多尺度目标检测方法、装置及计算机可读存储介质 | |
WO2022247112A1 (zh) | 任务处理方法、装置、设备、存储介质、计算机程序及程序产品 | |
CN115757692A (zh) | 一种数据处理方法及其装置 | |
Xia et al. | Multi-stream neural network fused with local information and global information for HOI detection | |
Kumar et al. | Bird species classification from images using deep learning | |
Liu et al. | Towards the unification of generative and discriminative visual foundation model: A survey | |
Tang et al. | Two-stage filtering method to improve the performance of object detection trained by synthetic dataset in heavily cluttered industry scenes | |
Li et al. | Screencast tutorial video understanding | |
Newnham | Machine Learning with Core ML: An iOS developer's guide to implementing machine learning in mobile apps | |
Marques | Image processing and computer vision in iOS | |
Pradeep et al. | Facial Emotion Detection using CNN and OpenCV | |
Bajpai et al. | Custom dataset creation with tensorflow framework and image processing for google t-rex | |
Shen et al. | TransFGVC: transformer-based fine-grained visual classification | |
Ashraf et al. | Enhanced Emotion Recognition in Videos: A Convolutional Neural Network Strategy for Human Facial Expression Detection and Classification | |
WO2024179037A9 (zh) | 用于音视频匹配的模型训练方法、音视频匹配方法及装置 | |
Shi | Long-term Human Participation Detection Using A Dynamic Scene Analysis Model | |
US12039431B1 (en) | Systems and methods for interacting with a multimodal machine learning model | |
Bornia et al. | Deep learning and tensorflow for tracking people’s movements in a video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |