CN117113268A

CN117113268A - 多尺度数据融合方法、装置、介质及电子设备

Info

Publication number: CN117113268A
Application number: CN202310912294.4A
Authority: CN
Inventors: 林庆治; 周明振
Original assignee: Qianhai Feisuan Yunchuang Data Technology Shenzhen Co ltd
Current assignee: Qianhai Feisuan Yunchuang Data Technology Shenzhen Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-11-24

Abstract

本公开涉及一种多尺度数据融合方法、装置、介质及电子设备，属于数据处理技术领域，方法包括获取多尺度的文本数据和多尺度的图像数据；将文本数据输入至文本特征提取网络，通过文本特征提取网络从不同深度提取特征，获得多尺度的单模态文本特征，以及，将图像数据输入至图像特征提取网络，通过图像特征提取网络从不同深度提取特征，获得多尺度的单模态图像特征；将从同一深度下提取的单模态文本特征和单模态图像特征输入至交叉注意力层，获得多尺度的融合特征；将多尺度的融合特征输入循环编码网络，获得多尺度通用特征编码。本公开减小了计算复杂度并进一步扩大参数量，可以提高情感分析结果和/或视觉问答结果的精度和鲁棒性。

Description

多尺度数据融合方法、装置、介质及电子设备

技术领域

本公开涉及数据处理技术领域，具体地，涉及一种多尺度数据融合方法、装置、介质及电子设备。

背景技术

多模态特征融合是指将来自不同模态(如图像、文本、音频等)的特征结合在一起，以获得更准确、更全面的信息表示。在多模态特征融合中，可以使用不同的特征融合方法将这些特征结合起来，比如加权融合、级联融合、交叉融合等。

在实际应用中，多模态特征融合可以应用于例如语音识别、视觉问答、人脸识别、情感分析等任务。而现有的神经网络对多模态数据的融合的处理过程较复杂且输出结果的准确性较低。

发明内容

为了实现相关技术中的技术问题，本公开提供一种多尺度数据融合方法、装置、介质及电子设备。

本公开的第一方面提供一种多尺度数据融合方法，包括：

获取多尺度的文本数据和多尺度的图像数据；

将所述文本数据输入至文本特征提取网络，通过所述文本特征提取网络从不同深度提取特征，获得多尺度的单模态文本特征，以及，将所述图像数据输入至图像特征提取网络，通过所述图像特征提取网络从不同深度提取特征，获得多尺度的单模态图像特征；

将从同一深度下提取的所述单模态文本特征和所述单模态图像特征输入至交叉注意力层，获得多尺度的融合特征；

将所述多尺度的融合特征输入循环编码网络，获得多尺度通用特征编码，其中，所述循环编码网络包括多个堆叠的改进注意力块，所述多尺度通用特征编码被用于情感分析任务和/或视觉问答任务。

可选地，所述改进注意力块被配置为：

对所述改进注意力块的输入张量计算第一权重张量和第一值张量，并根据所述第一权重张量和所述第一值张量，得到输出结果，其中，所述第一权重张量和所述第一值张量通过可学习的随机参数矩阵与所述输入张量相乘得到；

将所述多尺度的融合特征输入循环编码网络，获得多尺度通用特征编码，包括：

将所述多尺度的融合特征输入循环编码网络，获得每一所述改进注意力块的所述输出结果，并根据每一所述改进注意力块的所述输出结果，得到多尺度通用特征编码。

可选地，所述改进注意力块被配置为通过如下计算式根据所述第一权重张量和所述第一值张量，得到输出结果：

W＝W₁X

V＝W₂X

其中，MAtten(W,V)为所述改进注意力块的输出结果，softmax()为softmax函数，W为所述第一权重张量，V为所述第一值张量，W₁和W₂为可学习的随机参数矩阵，X为所述输入张量，d_W为W的维度数。

可选地，所述多尺度的融合特征包括三个尺度，所述循环编码网络包括三组改进注意力网络，每一组改进注意力网络包括六层堆叠的所述改进注意力块，以输入数据在所述循环编码网络的数据处理流向为顺序，相邻两组改进注意力网络中第一层改进注意力块的输入端之间以及第六层改进注意力块的输出端之间相互连接，且前一组改进注意力网络的第四层改进注意力块的输出端与后一组改进注意力网络的第三层改进注意力块的输出端连接；

将第一尺度的融合特征输入至第一组改进注意力网络的第一层改进注意力块的输入端，将第二尺度的融合特征输入至第一组改进注意力网络的第四层改进注意力块的输入端，以及将第三尺度的融合特征输入至第一组改进注意力网络的第六层改进注意力块的输出端，通过所述循环编码网络进行循环处理，获得所述多尺度通用特征编码。

可选地，所述将从同一深度下提取的所述单模态文本特征和所述单模态图像特征输入至交叉注意力层，获得多尺度的融合特征，包括：

将从同一深度下提取的所述单模态文本特征和所述单模态图像特征分别输入至交叉注意力层，确定所述深度下提取的所述单模态文本特征的第二权重张量和第二值张量、以及所述深度下提取的所述单模态图像特征的第三权重张量和第三值张量，并对所述第二权重张量、所述第三权重张量、所述第二值张量和所述第三值张量进行非线性映射和加权求和，得到所述深度下的所述融合特征，将不同深度下的所述融合特征确定为多尺度的融合特征。

可选地，所述交叉注意力层的计算式如下：

mixed(X₁,X₂)＝w₁*atten(M₁,V₂)+w₂*atten(M₂,V₁)

其中，M₁为所述单模态文本特征的第二权重张量，V₂为所述单模态图像特征的第三值张量，softmax()为softmax函数，为M₁的维度数，M₂为所述单模态图像特征的第三权重张量，V₁为所述单模态文本特征的第二值张量，/>为M₂的维度数，mixed(X₁，X₂)为所述交叉注意力层的输出，X₁为所述单模态文本特征，X₂为所述单模态图像特征，w₁为所述单模态文本特征的权重值，w₂为所述单模态图像特征的权重值。

可选地，获取多尺度的文本数据和多尺度的图像数据，包括：

获取初始文本数据和初始图像数据；

对所述初始文本数据和所述初始图像数据进行预处理，获得中间文本数据和中间图像数据；

提取所述中间文本数据的文本碎片，获得所述多尺度的文本数据，以及将所述中间图像数据缩放到不同尺寸，获得所述多尺度的图像数据。

本公开的第二方面提供一种多尺度数据融合装置，包括：

获取模块，被配置为获取多尺度的文本数据和多尺度的图像数据；

第一获得模块，被配置为将所述文本数据输入至文本特征提取网络，通过所述文本特征提取网络从不同深度提取特征，获得多尺度的单模态文本特征，以及，将所述图像数据输入至图像特征提取网络，通过所述图像特征提取网络从不同深度提取特征，获得多尺度的单模态图像特征；

第二获得模块，被配置为将从同一深度下提取的所述单模态文本特征和所述单模态图像特征输入至交叉注意力层，获得多尺度的融合特征；

第三获得模块，被配置为将所述多尺度的融合特征输入循环编码网络，获得多尺度通用特征编码，其中，所述循环编码网络包括多个堆叠的改进注意力块，所述多尺度通用特征编码被用于情感分析任务和/或视觉问答任务。

本公开的第三方面提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开的第一方面提供的方法。

本公开的第四方面提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开的第一方面提供的方法。

在本公开实施例中，将多尺度的文本数据和多尺度的图像数据分别利用文本特征提取网络和图像特征提取网络进行特征提取，并将提取的特征通过交叉注意力层融合后，利用循环编码网络得到多尺度的通用特征编码，实现多尺度数据融合。多尺度的通用特征编码可以用于情感分析任务和/或视觉问答任务中，使用了两种模态的数据且每个模态的数据包括多个尺度，融合后的多尺度的融合特征包含更准确、更全面的上下文信息；并且循环编码网络包括多个堆叠的改进注意力块，改进注意力块相较于原有的自注意力模块，减小了计算复杂度并具有纵向扩展和横向扩展的能力，可以进一步扩大参数量，可以提高情感分析结果和/或视觉问答结果的精度和鲁棒性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例提供的一种多尺度数据融合方法的流程图。

图2是根据一示例性实施例示出的一种改进前的注意力层的结构示意图。

图3是根据一示例性实施例提供的一种多尺度数据融合方法的改进注意力块的结构示意图。

图4是图3中的改进注意力层的结构示意图。

图5是根据一示例性实施例示出的一种多尺度特征融合方法的流程示意图。

图6是根据一示例性实施例示出的一种多尺度特征融合方法中利用Mosaic算法处理图像数据的流程示意图。

图7是根据一示例性实施例提供的一种多尺度数据融合装置的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

多模态特征融合是机器学习、计算机视觉、自然语言处理等领域中的一个热门研究方向。在多模态特征融合的实际应用中，多模态特征融合可以应用于很多任务，例如视觉问答、情感分析、语音识别、人脸识别等。可以提高模型的精度和鲁棒性，同时也可以使模型更好地适应不同的应用场景。

基于注意力机制(attention)的双模态特征融合是一种常见的多模态特征融合方法，它可以同时融合图像和文本等两种不同模态的特征，并且能够自适应地学习两种模态之间的相关性。

具体来说，基于注意力机制(attention)的双模态特征融合一般分为以下三个步骤：

预处理：对图像数据、文本数据等多模态数据进行预处理和降维，以减少数据维度并提高模型的效率和精度。

特征提取：使用卷积神经网络(CNN)和循环神经网络(RNN)等模型对图像数据、文本数据等多模态数据的进行特征提取，得到针对图像数据和文本数据两种模态的特征向量。

特征融合：使用注意力机制对图像数据和文本数据两种模态的特征向量进行特征融合，得到融合后的特征编码。例如可以通过双线性注意力或多头注意力等方式来确定两种模态数据之间的相关性，并根据相关性权重来加权融合两种模态的特征向量，得到融合后的特征编码。

本公开提供了一种多尺度数据融合方法、装置、介质及电子设备，下面结合附图对本公开所提供的实施例进一步说明。

参见图1，图1是根据一示例性实施例提供的一种多尺度数据融合方法的流程图，如图1所示，多尺度数据融合方法包括以下步骤。

S101、获取多尺度的文本数据和多尺度的图像数据。

具体地，针对文本数据的不同尺度可以是词或字等类型的文本碎片，也可以是短语、短句等文本碎片，针对图像数据的不同尺度可以是缩放到不同尺寸的图像，也可以是在同一张图像上截取的不同位置的图像。

S102、将文本数据输入至文本特征提取网络，通过文本特征提取网络从不同深度提取特征，获得多尺度的单模态文本特征，以及，将图像数据输入至图像特征提取网络，通过图像特征提取网络从不同深度提取特征，获得多尺度的单模态图像特征。

示例地，文本特征提取网络可以采用改进的多尺度Transformer网络，图像特征提取网络可以采用改进的多尺度Vision Transformer网络，例如，多尺度Transformer网络可以包括六层堆叠的改进注意力块，多尺度Vision Transformer网络可以包括六层堆叠的改进注意力块。将文本数据输入至文本特征提取网络，可以是将三个尺度的文本数据分别输入至文本特征提取网络的第一层改进注意力块的输入端、第四层改进注意力块的输入端以及第六层改进注意力块的输入端；将图像数据输入至图像特征提取网络，可以是将三个尺度的图像数据分别输入至图像特征提取网络的第一层改进注意力块的输入端、第四层改进注意力块的输入端以及第六层改进注意力块的输入端。在文本特征提取网络和图像特征提取网络中的不同深度提取特征，例如可以是在文本特征提取网络和图像特征提取网络的第一层改进注意力块的输出端、第三层改进注意力块的输出端以及第六层改进注意力块的输出端提取输出的特征，得到多尺度的单模态文本特征以及多尺度的单模态图像特征。

S103、将从同一深度下提取的单模态文本特征和单模态图像特征输入至交叉注意力层，获得多尺度的融合特征。

示例地，例如可以将文本特征提取网络的第一层改进注意力块的输出端所输出的特征和图像特征提取网络的第一层改进注意力块的输出端所输出的特征通过交叉注意力层进行融合，获得该深度下的融合特征。将每一深度下提取的单模态文本特征和单模态图像特征输入至交叉注意力层，从而可以获得多尺度的融合特征。

S104、将多尺度的融合特征输入循环编码网络，获得多尺度通用特征编码，其中，循环编码网络包括多个堆叠的改进注意力块，多尺度通用特征编码被用于情感分析任务和/或视觉问答任务。

示例地，可以将多尺度的融合特征输入至循环编码网络的不同深度，获得多尺度通用特征编码，例如在上述尺度为三个尺度的情况下，输出包含为三个尺度的通用特征编码。

在实际应用中，多尺度的通用特征编码可以融合为融合编码信息后，通过全连接层进行特征级融合处理，也可以在输出的多尺度的通用特征编码分别通过一层全连接层作决策级融合。

例如在一种实施例中，情感分类任务中，可以通过一张人脸图像数据和含有情感表达的文本数据，通过如上的步骤S101至步骤S104，可以根据人脸图像数据和文本数据得到多尺度的通用特征编码，可以在多尺度的通用特征编码融合为融合编码信息后，通过一层全连接层进行情感分类预测，也可以在多尺度的通用特征编码分别通过一层全连接层后，得到每一尺度的通用特征编码所表征的情感倾向性，再根据至少两个全连接层输出的情感倾向性通过加权平均确定出的情感分类预测。

例如在另一种实施例中，视觉问答任务中，可以将多尺度的通用特征编码融合为融合编码信息，并输入至其他文本生成网络如RNN、Transformer等，以使文本生成网络根据融合编码信息或多尺度的通用特征编码中所包含的语义信息生成对应的回答。

在一些实施例中，改进注意力块被配置为：

对改进注意力块的输入张量计算第一权重张量和第一值张量，并根据第一权重张量和第一值张量，得到输出结果，其中，第一权重张量和第一值张量通过可学习的随机参数矩阵与输入张量相乘得到；

将多尺度的融合特征输入循环编码网络，获得多尺度通用特征编码，包括：

将多尺度的融合特征输入循环编码网络，获得每一改进注意力块的输出结果，并根据每一改进注意力块的输出结果，得到多尺度通用特征编码。

示例地，如图2所示的改进前的注意力层的结构示意图，其中，输入的Matmul为Q和K相乘，Scale为除以根号下d_K，d_K为K的维度数，Mask(opt.)为掩膜，SoftMax为softmax函数，最后MatMul为softmax函数的结果乘以输入数据V。

示例地，改进注意力块由改进的注意力层(Modified Self-Attention，MAtten)、归一化层(LayerNorm，LN)和线性层(Feed Forward，FF)组合而来，它的具体结构如图3所示，其中，输入改进的注意力层的数据和改进的注意力层输出的数据同时输入至第一层归一化层进行归一化操作后，输入至线性层，输入线性层的数据和线性层输出的数据同时输出至第二层归一化层进行归一化操作。

其中，归一化层旨在缓解深度神经网络中层与层之间的协变量偏移(CovariateShift)问题，从而提高神经网络的训练和泛化能力。归一化层与批归一化(BatchNorm)和实例归一化(InstanceNorm)不同，归一化层是在每个样本的单个特征维度上进行归一化，而不是在批次维度或实例维度上。

归一化层的计算方式是对每个输入样本的特征维度进行标准化处理，将每个特征维度的均值和方差作为归一化的参数，计算公式如下：

其中，x_i是输入样本的第i个特征维度，μ和σ²分别是第i个特征维度上的均值和方差，γ和β是可学习的缩放参数和偏置参数，∈用于避免分母为零而加上的一个极小值。

通过归一化层对每个特征维度进行标准化处理，可以让不同样本之间在同一特征维度上的分布保持一致，从而缓解深度神经网络中层之间的协变量偏移问题。

示例地，如图4所示的改进注意力块的结构示意图，其中，W1和W2为可学习的随机参数矩阵，X为输入张量，W为第一权重张量，V为第一值张量，Scale为除以根号下d_W，d_W为W的维度数，SoftMax为softmax函数，最后MatMul为softmax函数的结果乘以输入数据V。

具体地，在一些实施例中，改进注意力块被配置为通过如下计算式根据第一权重张量和第一值张量，得到输出结果：

W＝W₁X

V＝W₂X

其中，MAtten(W,V)为改进注意力块的输出结果，softmax()为softmax函数，W为第一权重张量，V为第一值张量，W₁和W₂为可学习的随机参数矩阵，X为输入张量，d_W为W的维度数。

在一些实施例中，多尺度的融合特征包括三个尺度，循环编码网络包括三组改进注意力网络，每一组改进注意力网络包括六层堆叠的改进注意力块，以输入数据在循环编码网络的数据处理流向为顺序，相邻两组改进注意力网络中第一层改进注意力块的输入端之间以及第六层改进注意力块的输出端之间相互连接，且前一组改进注意力网络的第四层改进注意力块的输出端与后一组改进注意力网络的第三层改进注意力块的输出端连接；

将第一尺度的融合特征输入至第一组改进注意力网络的第一层改进注意力块的输入端，将第二尺度的融合特征输入至第一组改进注意力网络的第四层改进注意力块的输入端，以及将第三尺度的融合特征输入至第一组改进注意力网络的第六层改进注意力块的输出端，通过循环编码网络进行循环处理，获得多尺度通用特征编码。

示例地，参照图5，图5是根据一示例性实施例示出的一种多尺度特征融合方法的流程示意图，其中，图嵌入是将不同尺度的图像数据输入图像特征提取网络，文本嵌入是将不同尺度的文本数据输入文本特征提取网络，改进的自注意力块即为本公开实施例的改进注意力块。其中，文本特征提取网络为改进的多尺度Transformer网络，包括六层依次连接的改进注意力块，所述图像特征提取网络为改进的多尺度Vision Transformer网络，包括六层依次连接的改进注意力块。

具体地，文本数据“一只秋田犬在笑”通过预处理提取文本碎片后，输入至文本特征提取网络的第一层改进注意力块，第一尺度、第二尺度以及第三尺度的图像数据分别输入至图像特征提取网络的第一层、第四层以及第六层改进注意力块，其中，第一尺度的图像数据尺寸大于第二尺度的图像数据尺寸大于第三尺度的图像数据尺寸。文本特征提取网络和图像特征提取网络的第一层改进注意力块的输出端经过交叉注意力层进行融合，获得第一尺度的融合特征。文本特征提取网络和图像特征提取网络的第三层改进注意力块的输出端经过交叉注意力层进行融合，获得第二尺度的融合特征。文本特征提取网络和图像特征提取网络的第六层改进注意力块的输出端经过交叉注意力层进行融合，获得第三尺度的融合特征。循环编码网络包括三组改进注意力网络，每一组改进注意力网络包括六层依次连接的改进注意力块，可以以交叉注意力层的输出端连接的改进注意力网络为第一组改进注意力网络，相邻两组改进注意力网络中第一层改进注意力块的输入端之间相互连接、以及第六层改进注意力块的输出端之间相互连接，且前一组改进注意力网络的第四层改进注意力块的输出端与后一组改进注意力网络的第三层改进注意力块的输出端连接，并在最后一组改进注意力网络中的第一层改进注意力块输出端输出第一尺度的通用特征编码、在第四层改进注意力块输出端输出第二尺度的通用特征编码、以及在第六层改进注意力块输出端输出第三尺度的通用特征编码，第一尺度、第二尺度以及第三尺度的通用特征编码组成该多尺度的通用特征编码。

在一些实施例中，将从同一深度下提取的单模态文本特征和单模态图像特征输入至交叉注意力层，获得多尺度的融合特征，包括：

将从同一深度下提取的单模态文本特征和单模态图像特征分别输入至交叉注意力层，确定深度下提取的单模态文本特征的第二权重张量和第二值张量、以及深度下提取的单模态图像特征的第三权重张量和第三值张量，并对第二权重张量、第三权重张量、第二值张量和第三值张量进行非线性映射和加权求和，得到深度下的融合特征，将不同深度下的融合特征确定为多尺度的融合特征。

示例地，交叉注意力层作为单模态文本特征和单模态图像特征的融合输入端，其结构与改进注意力块类似，是改进注意力机制的一种交叉输入形式，能够融合不同的输入数据得到混合的编码特征。

在一些实施例中，交叉注意力层的计算式如下：

mixed(X₁,X₂)＝w₁*atten(M₁,V₂)+w₂*atten(M₂,V₁)

其中，M₁为单模态文本特征的第二权重张量，V₂为单模态图像特征的第三值张量，softmax()为softmax函数，为M₁的维度数，M₂为单模态图像特征的第三权重张量，V₁为单模态文本特征的第二值张量，/>为M₂的维度数，mixed(X₁，X₂)为交叉注意力层的输出，X₁为单模态文本特征，X₂为单模态图像特征，w₁为单模态文本特征的权重值，w₂为单模态图像特征的权重值。

在一些实施例中，获取多尺度的文本数据和多尺度的图像数据，包括：

获取初始文本数据和初始图像数据；

对初始文本数据和初始图像数据进行预处理，获得中间文本数据和中间图像数据；

提取中间文本数据的文本碎片，获得多尺度的文本数据，以及将中间图像数据缩放到不同尺寸，获得多尺度的图像数据。

示例地，对初始文本数据和初始图像数据进行预处理，包括对初始文本数据通过文本清洗、裁切和填充、分词、标准化和归一化、记号(tokenization)化、构造序列等方法将初始文本数据变为文本特征提取网络可以处理的中间文本数据，以及包括对初始图像数据使用HSV图像空间映射、裁切、填充缩放使不同尺寸的图像缩放到同一尺寸，并使用Mosaic算法对图像数据集进行增强。

示例地，针对初始文本数据，通过文本清洗可以去除初始文本数据中的无用信息，例如HTML标签、特殊符号、标点、数字、空格等。通过标准化和归一化可以将初始文本数据转化为统一格式，例如将所有字母转化为小写字母。通过裁切和填充可以对过长的句子进行裁切，对不够长的句子用填充符填充；并且可以将原始文本分解成多个单词或子词(subword)等文本碎片，后续可以作为输入对文本特征提取网络的文本碎片。通过构造序列将文本碎片进行排序，其中，序列由三部分构成，即特殊的[CLS]标记(表示序列的开始)、原始文本、特殊的[SEP]标记(表示序列的结束)组成；在输入序列中，还可以添加其他的特征，如位置嵌入(Position Embeddings)和类型嵌入(Segment Embeddings)，以帮助模型理解单词之间的关系。

示例地，针对初始图像数据，通过HSV图像空间映射，可以将图片从RGB三色图空间映射到HSV空间。HSV是一种比较直观的颜色模型，所以在许多图像编辑工具中应用比较广泛，这个模型中颜色的参数分别是：色调(H，Hue)，饱和度(S，Saturation)，明度(V，Value)。

示例地，Mosaic算法是YOLO v4提出的图像增强算法，对四张图片进行裁切之后拼接在一张图像中，这样不仅丰富了图像的背景，而且也变相增加了数据集。具体操作步骤是在[img_size×0.5:img_size×1.5]之间随机选择一个拼接中心的坐标(xc,yc)；从[0,len(label)-1]之间随机选择3张图片的坐标与传入的图片坐标共同组成4张照片的集合，其中len(label)表示处理的一个批量数据集中目标数据集的长度；可以使用其他的数据增强方法，增强数据。其中，Mosaic算法处理图像数据的流程示意图如图6所示。

本公开所提供的多尺度特征融合方法，基于改进注意力机制和双模态数据的多尺度特征融合，在不同尺度上提取了文本数据和图像数据的特征，并融合了这些特征，得到了融合且语义一致的通用特征编码，是一种新的通用网络架构，循环编码网络通过横向和纵向叠加改进自注意力块，改进了原有的self-attention计算复杂度、具有纵向扩展和横向扩展的能力、在无需大规模改变网络架构的同时可以扩大参数量，在多模态特征编码领域引入了一种新的处理多尺度特征的可行架构，可以用于大神经网络模型研究，并可以适用于多种不同的下游任务，如视觉问答任务、情感分析任务等。

参见图7，图7是根据一示例性实施例提供的一种多尺度数据融合装置的框图，如图7所示，多尺度数据融合装置700包括获取模块710，第一获得模块720，第二获得模块730以及第三获得模块740。

获取模块710，被配置为获取多尺度的文本数据和多尺度的图像数据；

第一获得模块720，被配置为将文本数据输入至文本特征提取网络，通过文本特征提取网络从不同深度提取特征，获得多尺度的单模态文本特征，以及，将图像数据输入至图像特征提取网络，通过图像特征提取网络从不同深度提取特征，获得多尺度的单模态图像特征；

第二获得模块730，被配置为将从同一深度下提取的单模态文本特征和单模态图像特征输入至交叉注意力层，获得多尺度的融合特征；

第三获得模块740，被配置为将多尺度的融合特征输入循环编码网络，获得多尺度通用特征编码，其中，循环编码网络包括多个堆叠的改进注意力块，多尺度通用特征编码被用于情感分析任务和/或视觉问答任务。

在一些实施例中，改进注意力块被配置为：

第三获得模块740具体被配置为：

在一些实施例中，改进注意力块被配置为通过如下计算式根据第一权重张量和第一值张量，得到输出结果：

W＝W₁X

V＝W₂X

第三获得模块740具体被配置为：

在一些实施例中，第二获得模块730具体被配置为：

在一些实施例中，交叉注意力层的计算式如下：

mixed(X₁,X₂)＝w₁*atten(M₁,V₂)+w₂*atten(M₂,V₁)

在一些实施例中，获取模块710具体被配置为：

获取初始文本数据和初始图像数据；

关于上述实施例中的多尺度数据融合装置700，其中各个模块执行操作的具体方式已经在有关该多尺度数据融合方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开所提供的多尺度数据融合方法。

本公开的第四方面提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行存储装置中的计算机程序，以实现本公开所提供的多尺度数据融合方法。

图8是根据一示例性实施例示出的一种电子设备800的框图。如图8所示，该电子设备800可以包括：处理器801，存储器802。该电子设备800还可以包括多媒体组件803，输入/输出(I/O)接口804，以及通信组件805中的一者或多者。

其中，处理器801用于控制该电子设备800的整体操作，以完成上述的多尺度数据融合方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该电子设备800的操作，这些数据例如可以包括用于在该电子设备800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图像、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该电子设备800与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件805可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的多尺度数据融合方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的多尺度数据融合方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器802，上述程序指令可由电子设备800的处理器801执行以完成上述的多尺度数据融合方法。

在另一些实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的多尺度数据融合方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

Claims

1.一种多尺度数据融合方法，其特征在于，包括：

获取多尺度的文本数据和多尺度的图像数据；

2.根据权利要求1所述的方法，其特征在于，所述改进注意力块被配置为：

3.根据权利要求2所述的方法，其特征在于，所述改进注意力块被配置为通过如下计算式根据所述第一权重张量和所述第一值张量，得到输出结果：

W＝W₁X

V＝W₂X

4.根据权利要求1-3任一所述的方法，其特征在于，所述多尺度的融合特征包括三个尺度，所述循环编码网络包括三组改进注意力网络，每一组改进注意力网络包括六层堆叠的所述改进注意力块，以输入数据在所述循环编码网络的数据处理流向为顺序，相邻两组改进注意力网络中第一层改进注意力块的输入端之间以及第六层改进注意力块的输出端之间相互连接，且前一组改进注意力网络的第四层改进注意力块的输出端与后一组改进注意力网络的第三层改进注意力块的输出端连接；

5.根据权利要求1-3任一所述的方法，其特征在于，所述将从同一深度下提取的所述单模态文本特征和所述单模态图像特征输入至交叉注意力层，获得多尺度的融合特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述交叉注意力层的计算式如下：

mixed(X₁,X₂)＝w₁*atten(M₁,V₂)+w₂*atten(M₂,V₁)

7.根据权利要求1-3任一所述的方法，其特征在于，获取多尺度的文本数据和多尺度的图像数据，包括：

获取初始文本数据和初始图像数据；

8.一种多尺度数据融合装置，其特征在于，包括：

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一所述的方法。

10.一种电子设备，其特征在于，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-7中任一所述的方法。