CN112819052B

CN112819052B - 多模态细粒度混合方法、系统、设备和存储介质

Info

Publication number: CN112819052B
Application number: CN202110094267.1A
Authority: CN
Inventors: 廖清; 廖鑫鑫; 漆舒汉; 蒋琳; 王轩
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-12-24
Anticipated expiration: 2041-01-25
Also published as: US11436451B2; CN112819052A; US20220237420A1

Abstract

本发明涉及机器视觉技术领域，公开了一种多模态细粒度混合方法、系统、设备和存储介质，所述多模态细粒度混合方法包括：从多模态图文数据中提取数据特征，并获取数据特征的各个组成成分；数据特征包括视觉区域特征和文本单词特征；对数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果；根据分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征。本发明实施例提供的多模态细粒度混合方法在多模态细粒度混合时不以模态为单位进行，考虑到了各模态中不同组成成分的特点，所处上下文环境的差异，选择对应的合适的交互方式，可以使得多模态模型在利用多模态数据互补的特点的同时，避免不相关信息的影响。

Description

多模态细粒度混合方法、系统、设备和存储介质

技术领域

本发明涉及机器视觉技术领域，特别是涉及一种多模态细粒度混合方法、系统、设备和存储介质。

背景技术

随着互联网技术的飞速发展，文字、图像、音频、视频等数据正在呈指数式增长，多种模态的数据从不同的角度描述着同一个事件或者主题，使人们对其的理解更加充分与丰富。如何有效利用多模态数据完成相应场景下的指定任务，成为研究领域的研究热点。

近几年来，随着深度学习技术的快速发展，人们越来越有能力解决更加复杂的机器学习问题，在分析处理多模态数据方面也取得了巨大的进步。很多多模态应用领域也引起了研究者的研究兴趣，如人类行为识别(human activity recognition)，医疗应用(medical applications)，自动驾驶(autonomous driving)，图像视频标注(image andvideo annotations)，跨模态检索(cross-modal retrieval)等等。

然而，目前现有的多模态学习的方法选择模态间信息交互的方式时，都是以模态为单位。例如在图文多模态中，以图片模态和文本模态为单位，进行模态间和模态内的交互。对于单个模态中的不同组成成分，使用的是相同的交互方式。其中组成成分代表图片模态中的每一个区域特征或者是文本句子中的每一个单词。但是在多模态数据中，单模态内不同组成成分具有各自不同的特点，因此需要使用不同的交互方式。现有的多模态学习方法忽略了这一点，会使得单模态中某些组成成分融入另一个模态的无关信息。

发明内容

本发明的目的是：提供一种多模态细粒度混合方法，以多模态数据中单模态内的组成成分为单位，自适应的选择交互方式，实现多模态细粒度的信息交互。该方法将会根据不同组成成分的特点，选择合适的混合交互方法，在使用多模态数据中模态间关联关系的信息的同时，避免不相关信息的影响。

为了实现上述目的，本发明提供了一种多模态细粒度混合方法，所述方法包括：从多模态图文数据中提取数据特征，并获取所述数据特征的各个组成成分；所述数据特征包括视觉区域特征和文本单词特征；对所述数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果；根据所述分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征。

可选的，所述从多模态图文数据中提取数据特征，并获取所述数据特征的各个组成成分的步骤包括：从多模态图文数据中，通过Faster RCNN模型获得视觉区域特征V，V＝RCNN(I；θ_RCNN)；其中，I为输入的图片数据，

L_V为所述视觉区域特征中的组成成分的个数，d_V为所述视觉区域特征的长度。

从多模态图文数据中，通过门控循环单元GRU获得文本单词特征E，E＝GRU(Q,θ_GRU)；其中，Q为输入的文本数据，

L_E表示所述文本数据的整体的长度，d_E表示所述文本单词特征的组成成分的长度。

通过全连接层将所述视觉区域特征V和所述文本单词特征E转换到相同维度的向量，获得所述视觉区域特征V中的视觉特征组成成分V_i和所述文本单词特征E中的文本特征组成成分E_i。

其中，i∈[1,L_V]。

其中，i∈[1,L_E]。

可选的，所述对所述数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果的步骤包括：计算各所述视觉特征组成成分V_i的模态内相关性和模态间相关性，获得各所述视觉特征组成成分V_i的特性，得到分类结果；计算各所述文本特征组成成分E_i的模态内相关性和模态间相关性，获得各所述文本特征组成成分E_i的特性，得到分类结果。

可选的，所述计算各所述视觉特征组成成分V_i的模态内相关性和模态间相关性，获得各所述视觉特征组成成分V_i的特性，得到分类结果的步骤包括：计算各所述视觉特征组成成分V_i的模态内相关性

计算各所述视觉特征组成成分V_i的模态间相关性

归一化处理各所述视觉特征组成成分V_i的模态内相关性

和模态间相关性

获得各所述视觉特征组成成分V_i的特性为：

所述计算各所述文本特征组成成分E_i的模态内相关性和模态间相关性，获得各所述文本特征组成成分E_i的特性，得到分类结果的步骤包括：

计算各所述文本特征组成成分E_i的模态内相关性

计算各所述文本特征组成成分E_i的模态间相关性

归一化处理各所述文本特征组成成分E_i的模态内相关性

和模态间相关性

获得各所述文本特征组成成分E_i的特性为：

可选的，所述根据所述分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征的步骤包括：将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征；计算所述视觉区域特征的自身模态信息和跨模态信息；根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重，使用残差结构获得融合视觉特征。

可选的，所述将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征；计算所述视觉区域特征的自身模态信息和跨模态信息；根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重，使用残差结构获得融合视觉特征的步骤包括：

将所述视觉区域特征V转换到对应的视觉区域查询特征V_Q、视觉键特征V_K和区域值特征

视觉区域查询特征V_Q＝Linear(V；θ_VQ)；

视觉键特征V_K＝Linear(V；θ_VK)；

区域值特征V_V＝Linear(V；θ_VV)；

将所述文本单词特征E转换到对应的单词查询特征E_Q、单词键特征E_K和单词值特征

单词查询特征E_Q＝Linear(E；θ_EQ)；

单词键特征E_K＝Linear(E；θ_EK)；

单词值特征E_V＝Linear(E；θ_EV)；

其中，Linear表示一个包含参数θ的全连接层，dim表示两个模态信息转化后的公共维度；

计算所述视觉区域特征V对应的视觉区域查询特征V_Q和视觉键特征V_K对的内积

获得所述视觉区域特征V的自身注意力权重，进行归一化处理，得到自身模态信息：

计算所述视觉区域特征V对应的视觉区域查询特征V_Q和单词键特征E_K对的内积

获得所述视觉区域特征V的跨模态注意力权重，进行归一化处理，获得所述视觉区域特征V对应的跨模态信息：

根据各所述视觉区域组成成分V_i的特性

和

分别乘以各所述视觉区域组成成分V_i对应的自身注意力权重SA(V_i)和跨模态注意力权重GA(V_i)，使用残差结构获得融合视觉特征：

可选的，所述根据所述分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征的步骤之后还包括：对所述融合特征通过多次的细粒度分类和信息融合，得到具有识别力的表征数据，所述表征数据包括图片表征和文本表征。

本发明实施例还提供一种采用上面一些实施例中的所述的方法的多模态细粒度混合系统，包括：特征提取模块、细粒度分类模块和融合模块；所述特征提取模块，用于从多模态图文数据中提取数据特征，并获取所述数据特征的各个组成成分；所述数据特征包括视觉区域特征和文本单词特征；所述细粒度分类模块，用于对所述数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果；所述融合模块，用于根据所述分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征。

本发明实施例还提供一种设备，所述设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上面一些实施例中所述的方法。

可选的，本发明实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令在处理器上运行时，使得所述处理器执行如上面一些实施例中所述的方法中的一个或多个步骤。

本发明实施例一种多模态细粒度混合方法、系统、设备和存储介质与现有技术相比，其有益效果在于：本发明在多模态细粒度混合时不以模态为单位进行，考虑到了各模态中不同组成成分的特点，所处上下文环境的差异，选择对应的合适的交互方式，可以使得多模态模型在利用多模态数据互补的特点的同时，避免不相关信息的影响。

附图说明

图1是本发明实施例提供的一种多模态细粒度混合方法的流程图；

图2是本发明实施例提供的一种多模态细粒度混合方法S20的子步骤的流程图；

图3是本发明实施例提供的计算视觉特征组成成分模态内相关性的流程图；

图4是本发明实施例提供的计算视觉特征组成成分模态间相关性的流程图；

图5是本发明实施例提供的一种多模态细粒度混合方法S30的子步骤的流程图；

图6是本发明实施例提供的另一种多模态细粒度混合方法的流程图；

图7是本发明实施例提供的一种多模态细粒度混合系统的结构图。

图中，100、多模态细粒度混合系统；101、特征提取模块；102、细粒度分类模块；103、融合模块。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明的描述中，应当理解的是，除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一些实施例”旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。“A和/或B”，包括以下三种组合：仅A，仅B，及A和B的组合。

如图1所示，本发明实施例优选实施例的一种多模态细粒度混合方法，包括：

S10：从多模态图文数据中提取数据特征，并获取数据特征的各个组成成分；数据特征包括视觉区域特征和文本单词特征。

可以理解的是，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等，以上的每一种都可以称为一种模态。针对任意模态可以提取相应的数据特征，本发明实施例中的数据特征并不仅限于视觉区域特征和文本单词特征。在一些实施例中，S10包括：

从多模态图文数据中，通过Faster RCNN模型获得视觉区域特征V，V＝RCNN(I；θ_RCNN)。

其中，I为输入的图片数据，

L_V为视觉区域特征中的组成成分的个数，d_V为视觉区域特征的长度。

示例性地，视觉区域特征V是通过在Visual Genome数据集上预训练后的FasterRCNN模型获得。对于每一张图片，提取100个候选区域即组成成分和其对应的区域特征。给定一个输入的图片I，提取到的区域视觉特征可以表示为

其中L_V表示视觉区域特征中的组成成分的个数，d_V表示视觉区域特征的长度。第i个视觉特征组成成分的区域特征可以表示为

从多模态图文数据中，通过门控循环单元GRU获得文本单词特征E，E＝GRU(Q,θ_GRU)。

其中，Q为输入的文本数据，

L_E表示文本数据的整体的长度，d_E表示文本单词特征的组成成分的长度。

示例性地，使用Glove词嵌入作为门控循环单元(Gated Recurrent Unit,GRU)的输入，以获得文本单词特征E。在给定一个文本输入Q，从GRU获得文本单词特征

第j个文本特征组成成分可以表示为

其中，L_E表示文本数据的整体的长度，d_E表示文本单词特征的组成成分的长度。

其中，视觉区域特征在整个系统模型的训练过程中是固定的，而文本单词特征是从头开始训练并伴随模型其他参数一起更新。

然后，通过全连接层将视觉区域特征V和文本单词特征E转换到相同维度的向量，获得视觉区域特征V中的视觉特征组成成分V_i和文本单词特征E中的文本特征组成成分E_i。

其中，i∈[1,L_V]。

其中，i∈[1,L_E]。

在S10完成之后执行S20，请再次参见图1，S20：对数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果。

在一些实施例中，如图2所示，S20包括：

S21：计算各视觉特征组成成分V_i的模态内相关性和模态间相关性，获得各视觉特征组成成分V_i的特性，得到分类结果。

首先，根据每一个视觉特征组成成分V_i在多模态图文数据中的上下文信息进行模态内相关性

的计算，即计算各视觉特征组成成分V_i的模态内相关性

如图3所示，对于多模态图文数据中的每一个视觉特征组成成分V_i，计算一个余弦相似度矩阵M，矩阵中的每一个元素

表示了视觉区域特征中第i个视觉特征组成成分和第j个视觉特征组成成分的相似度。

对于视觉区域特征中的每一个视觉特征组成成分，定义一个视觉区域特征的加权联合表征

该表征表示在某个特定视觉特征组成成分的引导下，视觉区域特征的一个特定全局表示。

为了确定给定视觉区域特征上下文下每一个视觉特征组成成分的重要性，定义第i个视觉特征组成成分V_i和视觉区域特征的相关性为引导下视觉区域表征

和视觉特征组成成分V_i的余弦相似度。

其次，如图4所示，对于多模态图文数据中的每一个视觉特征组成成分V_i，首先计算一个余弦相似度矩阵S，矩阵中的每一个元素

表示了视觉区域特征中第i个视觉特征组成成分和文本单词特征中第j个文本特征组成成分的相似度，即计算各所述视觉特征组成成分V_i的模态间相关性

对于视觉区域特征中的每一个视觉特征组成成分，定义一个表征的加权联合表征

该表征表示在某个特定视觉特征组成成分的引导下，文本单词特征的一个特定全局表示。

为了确定给定文本单词特征上下文下每一个视觉特征组成成分的重要性，定义第i个视觉特征组成成分和文本单词特征的相关性为引导下文本单词特征表征

和视觉特征组成成分V_i的余弦相似度。

最后，归一化处理各视觉特征组成成分V_i的模态内相关性

和模态间相关性

获得各视觉特征组成成分V_i的特性为：

在S21完成之后执行S22，请再次参见图2，S22：计算各文本特征组成成分E_i的模态内相关性和模态间相关性，获得各文本特征组成成分E_i的特性，得到分类结果。

首先，计算各所述文本特征组成成分E_i的模态内相关性

其次，计算各所述文本特征组成成分E_i的模态间相关性

最后，归一化处理各所述文本特征组成成分E_i的模态内相关性

和模态间相关性

获得各所述文本特征组成成分E_i的特性为：

需要说明的是，上述计算各文本特征组成成分E_i的模态内相关性和模态间相关性与计算各视觉特征组成成分V_i的模态内相关性和模态间相关性的步骤相似，此处不再赘述。

本发明实施例中，计算各视觉特征组成成分V_i和各文本特征组成成分E_i的模态内相关性和模态间相关性，可以得到各组成成分的特性及其所处的上下文环境的差异，为接下来的融合过程提供参考。

在S22成之后执行S30，请再次参见图1，S30：根据分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征。

在一些实施例中，如图5所示，S30包括：

S31：将视觉区域特征和文本单词特征转化为对应的查询特征和键值对特征。

将视觉区域特征V转换到对应的视觉区域查询特征V_Q、视觉键特征V_K和区域值特征

视觉区域查询特征V_Q＝Linear(V；θ_VQ)；

视觉键特征V_K＝Linear(V；θ_VK)；

区域值特征V_V＝Linear(V；θ_VV)；

将文本单词特征E转换到对应的单词查询特征E_Q、单词键特征E_K和单词值特征

单词查询特征E_Q＝Linear(E；θ_EQ)；

单词键特征E_K＝Linear(E；θ_EK)；

单词值特征E_V＝Linear(E；θ_EV)；

其中，Linear表示一个包含参数θ的全连接层，dim表示两个模态信息转化后的公共维度。

S32：计算视觉区域特征的自身模态信息和跨模态信息。

其中，计算视觉区域特征V对应的视觉区域查询特征V_Q和视觉键特征V_K对的内积

获得视觉区域特征V的自身注意力权重，进行归一化处理，得到自身模态信息。

示例性地，使用自注意力机制SA(Self-Attention)，获得的自身模态信息，首先计算每一个视觉区域查询特征V_Q和视觉键特征V_K对的内积

从而获得原始的用于聚合视觉区域特征到每一个视觉特征组成成分的注意力权重。然后通过对这些注意力权重做归一化处理得到最终的注意力权重。使用最终的注意力权重，从所有的视觉区域特征到某个特定视觉特征组成成分的信息可以表示为区域值特征V_V的加权和。

获得所述视觉区域特征V的跨模态注意力权重，进行归一化处理，获得所述视觉区域特征V对应的跨模态信息。

示例性地，采用引导注意力机制GA(Guided-Attention)，获得跨模态信息，首先计算每一个视觉区域特征V_Q和单词键特征E_K对的内积

从而获得原始的用于聚合文本单词特征到每一个视觉特征组成成分的注意力权重。然后通过对这些注意力权重做归一化处理得到最终的注意力权重。使用最终的注意力权重，从所有的文本单词特征嵌入中到某个特定视觉特征组成成分的信息可以表示为单词值特征E_V的加权和。

S33：根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重，使用残差结构获得融合视觉特征。

示例性地，根据各所述视觉区域组成成分V_i的特性

和

本发明实施例中，混合使用自注意力机制SA和引导注意力机制GA，能够在充分使用多模态数据互补特点的同时，防止不相干信息的干扰。通过残差结构能够使得模型更新时，避免出现退化问题，同时解决了梯度问题，实现多模态信息的细粒度混合融合。

在一些实施例中，如图6所示，本发明实施例中提供的多模态细粒度混合方法还包括：

S40：对融合特征通过多次的细粒度分类和信息融合，得到具有识别力的表征数据，表征数据包括图片表征和文本表征。

本发明实施例中，对融合特征通过多次的细粒度分类和信息融合，得到具有识别力的表征数据，表征数据包括图片表征和文本表征，分别对图片表征和文本表征进行均池化得到最终的图片表征和文本表征。这些表征特征可以使用例如串联、特征元素乘、特征相加等方式得到最后的融合后的特征，之后根据下游任务的不同，可以适配不同的损失函数。

本发明实施例提供的多模态细粒度混合方法与现有的融合方法相比，不以模态为单位进行，考虑到了模态中不同组成成分的特点，所处上下文环境的差异，选择对应的合适的交互方式，可以使得多模态模型在利用多模态数据互补的特点的同时，避免不相关信息的影响。

如图7所示，本发明实施例还提供一种采用如上面一些实施例的方法的多模态细粒度混合系统100，包括：特征提取模块101、细粒度分类模块102和融合模块103。

特征提取模块101用于从多模态图文数据中提取数据特征，并获取数据特征的各个组成成分；数据特征包括视觉区域特征和文本单词特征。

细粒度分类模块102用于对数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果。

融合模块103用于根据分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征。

关于多模态细粒度混合系统的具体限定可以参见上文中对于多模态细粒度混合方法的限定，上述实施例中提供的多模态细粒度混合系统和多模态细粒度混合方法均是基于相同的发明构思。因此，多模态细粒度混合方法中各个具体实施例的步骤均可以由对应的功能模块所执行，功能模块中具体的功能也可以在多模态细粒度混合系统中具有对应的方法步骤，在此不再赘述。上述多模态细粒度混合系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明实施例还提供一种设备，包括：存储器和一个或多个处理器。存储器用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行如上面一些实施例中的方法。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

本发明实施例还提供了一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质中存储有计算机程序指令，计算机程序指令在处理器上运行时，使得处理器执行如上述实施例中任一实施例所述的多模态细粒度混合方法中的一个或多个步骤。

示例性的，上述计算机可读存储介质可以包括，但不限于：磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，CD(Compact Disk，压缩盘)、DVD(Digital VersatileDisk，数字通用盘)等)，智能卡和闪存器件(例如，EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、卡、棒或钥匙驱动器等)。本公开描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

综上，本发明实施例提供一种多模态细粒度混合方法、系统、设备和存储介质与现有技术相比，其在多模态细粒度混合时不以模态为单位进行，考虑到了各模态中不同组成成分的特点，所处上下文环境的差异，选择对应的合适的交互方式，可以使得多模态模型在利用多模态数据互补的特点的同时，避免不相关信息的影响。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通计数人员来说，在不脱离本发明计数原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种多模态细粒度混合方法，其特征在于，所述方法包括：

从多模态图文数据中提取数据特征，并获取所述数据特征的各个组成成分；所述数据特征包括视觉区域特征和文本单词特征；

对所述数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果；

根据所述分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征；

其中，所述对所述数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果的步骤包括：

计算各所述视觉特征组成成分V_i的模态内相关性和模态间相关性，获得各所述视觉特征组成成分V_i的特性，得到分类结果；

计算各所述文本特征组成成分E_i的模态内相关性和模态间相关性，获得各所述文本特征组成成分E_i的特性，得到分类结果；

所述计算各所述视觉特征组成成分V_i的模态内相关性和模态间相关性，获得各所述视觉特征组成成分V_i的特性，得到分类结果的步骤包括：归一化处理各所述视觉特征组成成分V_i的模态内相关性

和模态间相关性

获得各所述视觉特征组成成分V_i的特性为：

所述计算各所述文本特征组成成分E_i的模态内相关性和模态间相关性，获得各所述文本特征组成成分E_i的特性，得到分类结果的步骤包括：归一化处理各所述文本特征组成成分E_i的模态内相关性

和模态间相关性

获得各所述文本特征组成成分E_i的特性为：

所述根据所述分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征的步骤包括：

将各所述视觉特征组成成分和各所述文本特征组成成分转化为对应的查询特征和键值对特征；

计算各所述视觉特征组成成分对应的视觉区域查询特征和视觉键特征对的内积，获得各所述视觉特征组成成分的自身注意力权重，进行归一化处理，得到自身模态信息；以及计算各所述视觉特征组成成分对应的视觉区域查询特征和单词键特征对的内积，获得各所述视觉特征组成成分的跨模态注意力权重，进行归一化处理，获得各所述视觉特征组成成分对应的跨模态信息；

根据各所述视觉特征组成成分的特性分别乘以各所述视觉特征组成成分对应的自身模态信息和跨模态信息，使用残差结构获得融合视觉特征组成成分，并由各融合视觉特征组成成分构成融合视觉特征。

2.根据权利要求1所述的方法，其特征在于，所述计算各所述视觉特征组成成分V_i的模态内相关性和模态间相关性，获得各所述视觉特征组成成分V_i的特性，得到分类结果的步骤包括：

计算各所述视觉特征组成成分V_i的模态内相关性

计算各所述视觉特征组成成分V_i的模态间相关性

计算各所述文本特征组成成分E_i的模态内相关性

计算各所述文本特征组成成分E_i的模态间相关性

3.根据权利要求1所述的方法，其特征在于，所述根据所述分类结果，对各个组成成分进行来自模态内和模态间的信息融合，得到融合特征的步骤之后还包括：

对所述融合特征通过多次的细粒度分类和信息融合，得到具有识别力的表征数据，所述表征数据包括图片表征和文本表征。

4.一种采用如权利要求1至3中任一项所述的方法的多模态细粒度混合系统，其特征在于，所述系统包括：特征提取模块、细粒度分类模块和融合模块；

所述特征提取模块，用于从多模态图文数据中提取数据特征，并获取所述数据特征的各个组成成分；所述数据特征包括视觉区域特征和文本单词特征；

所述细粒度分类模块，用于对所述数据特征的各个组成成分的模态信息进行细粒度分类，得到分类结果；具体为：计算各所述视觉特征组成成分V_i的模态内相关性和模态间相关性，获得各所述视觉特征组成成分V_i的特性，得到分类结果；计算各所述文本特征组成成分E_i的模态内相关性和模态间相关性，获得各所述文本特征组成成分E_i的特性，得到分类结果；归一化处理各所述视觉特征组成成分V_i的模态内相关性