CN115880556A

CN115880556A - 一种多模态数据融合处理方法、装置、设备及存储介质

Info

Publication number: CN115880556A
Application number: CN202310138891.6A
Authority: CN
Inventors: 戴健; 杨健; 吴锐; 朱松柏; 祝本明; 任珍文
Original assignee: Beijing Institute of Technology BIT; China South Industries Group Automation Research Institute
Current assignee: Beijing Institute of Technology BIT; China South Industries Group Automation Research Institute
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-03-31
Anticipated expiration: 2043-02-21
Also published as: CN115880556B

Abstract

本发明公开了一种多模态数据融合处理方法、装置、设备及存储介质，该方法在多模态数据融合过程中，采用多模态数据特征提取方法，将多域原始样本经过自动特征提取后映射到低维特征空间，再将图像数据通过多个编码器网络分别对不同传感器采集到的数据进行特征提取,得到不同数据域中的统一高层特征（学习紧致的哈希编码），并进行统一融合。原始数据在进行特征提取后有效压缩了数据量，并以特征的方式进行协同共享,丰富各个单位的数据源，大大降低了信道对带宽的需求,时延也进一步降低，精度进一步提升，满足了战场对智能算法实时性的要求。

Description

一种多模态数据融合处理方法、装置、设备及存储介质

技术领域

本发明涉及数据融合技术领域，特别是涉及一种多模态数据融合处理方法、装置、设备及存储介质。

背景技术

信息化条件下，信息技术的普遍运用颠覆了传统作战系统的概念，使战场对抗呈现出明显的体系化特征。作战战场扩展到了陆、海、空、天、电磁等多维空间。信息化条件下体系作战指的是战场对抗中，在指挥控制系统（或理解为C4ISR）的支撑下，各种作战要素、作战单元、作战系统融合成一个有机整体，共同感知战场态势、实时共享战场信息、准确协调战场行动、同步遂行作战任务。

在作战系统中每个探测单位分工不同,采集到的数据包括且不限于光学图像、红外图像、雷达点云等多模态异质数据，通过多模态异质数据进行特征提取并获取到多模态数据是实现系统可靠性与可行性的重点。由于多模态异质数据包含多个模态，需要面对多模态特征融合。特征融合方法是模式识别领域的一种重要的方法，计算机视觉领域的图像识别问题作为一种特殊的模式分类问题，仍然存在很多的挑战，特征融合方法能够综合利用多种图像特征，实现多特征的优势互补，获得更加鲁棒和准确性的识别结果。

由于作战系统中通过探测单元获取到的原始数据的数据量比较大，在进行特征融合时，需要较宽的信道来传输数据，会出现延时问题严重以及识别精度降低的问题。

因此，如何提供一种可以丰富各个单位的数据源，大大降低信道对带宽的需求的异构数据融合方法，是迫切需要本领域技术人员解决的技术问题。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的一种多模态数据融合处理方法、装置、设备及存储介质。

本发明提供了如下方案：

一种多模态数据融合处理方法，包括：

获取待融合处理的多模态异质数据，所述多模态异质数据包括：由作战系统中多种探测设备采集到的多种不同类型的数据；

在对所述多模态异质数据进行融合处理的过程中，通过改进协方差描述子计算所得的协方差矩阵，对所述多种不同类型的数据进行紧致化表征，以生成数据融合算法的输入数据；

其中，所述改进协方差描述子通过以下方式获得：

将标准协方差计算从欧几里德空间扩展到对称正定流形的完整内积空间；

根据满足目标条件的反余弦核来表征协方差结构，并基于正定流形矩阵进行均值中心化处理；其中，所述目标条件为：任何半正定的函数都可作为核函数；

使用监督方式的核对齐学习获得不同阶反余弦核的参数，并通过不同阶的反余弦核及其相应的参数得到所述改进协方差描述子。

优选地：通过语义哈希自动编码器从输入语义标签中学习汉明空间，并利用所述汉明空间，通过相应的多模态哈希网络学习特定于模态的紧致哈希码。

优选地：在进行多种类型的数据进行融合处理之前，将通过所述紧致哈希码表征的多模态数据的特征进行优化组合处理。

优选地：所述将通过所述紧致哈希码标准的各类型数据的特征进行优化组合处理，包括：

利用奇异值分解理论，联合使用大矩阵与小矩阵的乘积，以及小矩阵的分解技术，通过构建增广近似梯度算法，构建大尺度典型相关表示算法，以便通过所述大尺度典型相关表示算法进行所述优化组合处理。

优选地：在对多模态数据的特征进行优化组合处理后，利用深度哈希模型，将多模态数据的特征映射到公共语义子空间中，以便保持住多模态数据的相似性结构以及模态的配对结构信息。

优选地：通过量化技术对映射后的特征进行二值化处理，并在汉明空间中使用汉明距离进行表达。

一种多模态数据融合处理装置，包括：

多模态数据获取单元，用于获取待融合处理的多模态异质数据，所述多模态异质数据包括：由作战系统中多种探测设备采集到的多种不同类型的数据；

数据表征处理单元，用于在对所述多模态异质数据进行融合处理的过程中，通过改进协方差描述子计算所得的协方差矩阵，对所述多种不同类型的数据进行紧致化表征，以生成数据融合算法的输入数据；

其中，所述数据表征处理单元包括：

扩展子单元，用于将标准协方差计算从欧几里德空间扩展到对称正定流形的完整内积空间；

中心化处理子单元，用于根据满足目标条件的反余弦核来表征协方差结构，并基于正定流形矩阵进行均值中心化处理；其中，所述目标条件为：任何半正定的函数都可作为核函数；

参数学习子单元，用于使用监督方式的核对齐学习获得不同阶反余弦核的参数，并通过不同阶的反余弦核及其相应的参数得到所述改进协方差描述子。

一种多模态数据融合处理设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述的多模态数据融合处理方法。

一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的多模态数据融合处理方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本申请实施例提供的一种多模态数据融合处理方法、装置、设备及存储介质，该方法在多模态数据融合过程中，采用多模态数据特征提取方法，将多域原始样本经过自动特征提取后映射到低维特征空间，再将图像数据通过多个编码器网络分别对不同传感器采集到的数据进行特征提取, 得到不同数据域中的统一高层特征（学习紧致的哈希编码），并进行统一融合。原始数据在进行特征提取后有效压缩了数据量，并以特征的方式进行协同共享, 丰富各个单位的数据源，大大降低了信道对带宽的需求, 时延也进一步降低，精度进一步提升，满足了战场对智能算法实时性的要求。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多模态数据融合处理方法的流程图;

图2是本发明实施例提供的解耦快速紧致哈希表征模型框架图；

图3是本发明实施例提供的多模态架构下深度哈希融合处理流程图；

图4是本发明实施例提供的多模态深度哈希的训练流程图；

图5是本发明实施例提供的一种多模态数据融合处理装置的示意图；

图6是本发明实施例提供的一种多模态数据融合处理设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明实施例提供的一种多模态数据融合处理方法，如图1所示，该方法可以包括：

S101：获取待融合处理的多模态异质数据，所述多模态异质数据包括：由作战系统中多种探测设备采集到的多种不同类型的数据；

S102：在对所述多模态异质数据进行融合处理的过程中，通过改进协方差描述子计算所得的协方差矩阵，对所述多种不同类型的数据进行紧致化表征，以生成数据融合算法的输入数据；

其中，所述改进协方差描述子通过以下方式获得：

紧致化表征的第一个关键步骤是需要将模态数据转换为特征描述形式。理论上，现有特征描述子的研究成果是非常丰富多元的，代表性的有：Harris、Sobel、Prewitt、Canny、Brisk、LBP、SIFT、SURF、DoG、LoG以及HoG等。这些方法对于承载空域信息有着各自的独特优势，但并不适于表征多模态异构数据，因为此类数据有着明显的时域连续性。采用协方差描述子（Covariance Descriptors, CovDs）计算所得的协方差矩阵，不仅具备单个数据的描述能力，也适合于序列在内的数据集合表征。此外，这种算法还能一定程度缓解多模态数据的异质差异。

在CovDs理论中，对于待处理对象I，其特征提取过程可表示为

(1)

这里

可理解为任意映射关系（即特征提取描述子）。当表征区域满足/>

时，区域内特征点集/>

可按如下方式计算协方差矩阵

(2)

其中

表示点集平均值。CovDs的最大优势在于，其数据包容性可以为多模态特征融合提供一种天然的数据准备，同时这一架构对映射的泛化容忍几乎可以满足绝大多数智能应用需求。例如，对于目标行为表征问题，一种较为简单的CovDs实现思路具现为以下形式

(3)

若考虑提高该算法的光照鲁棒性等细节改进，则可将协方差矩阵调整为

(4)

而对于映射自身的紧凑性提高，可考虑借鉴低秩共享结构的概念。例如，某投影字典为

(/>

)，对子字典/>

引入低秩正则项

，由此低秩结构化正则项应该最小化为

(5)

结合后续检测、跟踪、识别、检索及感知等环节对于特征融合的紧凑型需求，本申请实施例提供的多模态数据融合处理方法，通过将传统CovDs从欧几里德空间扩展到对称正定流形，提出用于数据集编码的改进协方差描述子（Improved CovarianceDescriptors, iCovDs）。在对数欧氏框架中，定义对数乘法和标量对数乘法运算，保证SPD（Symmetric Positive Definite,对称正定）流形的完整内积空间框架，进而根据满足Mercer条件的反余弦核来表征协方差结构，并提出SPD矩阵的均值中心化操作。此外，通过使用监督方式的核对齐学习来获得不同阶反余弦核的参数，并通过不同阶的反余弦核及其相应的参数得到iCovDs。

进一步的，本申请实施例还可以提供通过语义哈希自动编码器从输入语义标签中学习汉明空间，并利用所述汉明空间，通过相应的多模态哈希网络学习特定于模态的紧致哈希码。在学习得到每个模态的特征描述子后，本申请实施例提供的方法通过语义哈希自动编码器从灵活的输入语义标签中学习汉明空间，然后使用它通过相应的多模态哈希网络学习特定于模态的紧致哈希码。

具体的，语义哈希自动编码器模块是一种传统的自动编码器，它只有一个由编码器和解码器共享的隐藏层。编码器的目的是将灵活的输入投影到一个有区别的汉明空间中，在该空间中得到的哈希码进一步用于重构输入。多模哈希网络尽可能继承和保留原始空间中的相似性关系，利用同一类的相似性很大，而不同类的相似性应该很小的判别关系，学习紧致二元哈希编码。表征过程中要尽量保持在特征提取器轻量的条件下信息损失足够低，图像在通过编码器进行特征提取后获得的压缩特征能在解码器重建并还原图像。

整体框架如图2所示，g是对应每个模态的输出，o为对应标签y学习的语义哈希码，W为语义哈希变换，由语义哈希自动编码器模块计算可得。LR和LH分别是哈希重构和语义哈希函数。在训练阶段，首先使用W将标签y重构为哈希码o，然后使用得到的哈希码用语义哈希重构正则化器指导特定模态的网络。这种学习方案使模态特定的神经网络(每个模态对应一个网络)可以单独训练，因为它们是解耦的，不共享任何可训练参数，从而很容易地扩展到大量模态。在推理阶段，每个训练好的模态特定网络可以用于计算样本的哈希码。

进一步的，本申请实施例还可以提供在进行多种类型的数据进行融合处理之前，将通过所述紧致哈希码表征的多模态数据的特征进行优化组合处理。在上述基于快速紧致哈希表征模型中，针对每个模态提取各自的哈希码，但单一模态往往只能表征该类数据的某一方面属性，而紧凑化的哈希码将使得这种趋势更加明显。这对于细粒度层面的类别划分会有好处，但是对于需要经常语义标签生成的这种抽象化应用则并不友好。因此，在进行多种特征的数据融合之前，先要处理好不同模态特征如何优化组合的问题。

进一步的，本申请实施例还可以提供利用奇异值分解理论，联合使用大矩阵与小矩阵的乘积，以及小矩阵的分解技术，通过构建增广近似梯度算法，构建大尺度典型相关表示算法，以便通过所述大尺度典型相关表示算法进行所述优化组合处理。

以典型相关分析（Canonical Correlation Analysis, CCA）为基础的多模态学习方法可以起到非常重要的作用。充分利用典型相关方法的奇异值分解理论，联合使用大矩阵与小矩阵的乘积，以及小矩阵的分解技术，通过构建增广近似梯度算法，构建大尺度典型相关表示算法。假设X和Y为两个样本矩阵，则CCA可被形式化为：

(6)

对于上述问题的求解，为实现效率和质量的提高，本申请实施例提供如下的迭代策略

(7)

由此可避免类内协方差阵的逆运算，提升典型相关方法在大规模数据多模态架构下的性能。

然后构造非线性映射下的相关性度量准则，如下所示

(8)/>

其中

和/>

表示深度神经网络的所有参数，/>

和/>

表示深度网络的输出表示。利用上述相关度量，采用梯度下降法近似求解典型矢量集，最后通过优化模型的求解获得多模态架构下的典型相关特征组合。

进一步的，本申请实施例还可以提供在对多模态数据的特征进行优化组合处理后，利用深度哈希模型，将多模态数据的特征映射到公共语义子空间中，以便保持住多模态数据的相似性结构以及模态的配对结构信息。通过量化技术对映射后的特征进行二值化处理，并在汉明空间中使用汉明距离进行表达。

将优化组合后的多模态特征转换为哈希编码，能够有效降低存储空间以及计算开销，大幅度地加速后续检测、跟踪及检索等处理环节。本申请实施例使用多模态深度哈希对数据融合表征，其流程如图3所示。比如将雷达、语音、图像、帧序列相关的多模态特征，通过提出的多模态深度哈希模型映射到公共语义子空间中，保持住多模态异构数据的相似性结构以及模态的配对结构信息，通过量化技术对特征进行二值化，在汉明空间中使用汉明距离为后续任务作准备。

由于多模态数据在实际场景中标签信息往往缺失或存在大量噪声，本申请实施例构建一种多模态深度哈希模型，挖掘反映多模态数据的本质分布是多模态深度哈希模型的关键，其能够自适应学习潜在的相似度矩阵，其训练流程如图4所示。具体途径主要包含如下三个方面：

训练深度神经网络。通过最小化多个神经神经网络的输出与潜在哈希码之间的误差来训练神经网络，对应的目标函数可定义为：

(9)

其中，

为视频的第/>

个模态，/>

为第/>

个模态对应的神经网络，

为相应的网络参数，/>

为双曲正切函数，将得到的潜在特征归一化到[-1,1]区间，B为潜在哈希码。

更新相似度矩阵。深度网络训练完以后，深度特征具备很强的表征能力，因此使用深度特征来更新相似度矩阵，使得到的相似图能够反映视频的本质结构。相似度矩阵

的更新策略定义为：

(10)

离散哈希码优化。采用相似度保持的准则可以构建关于哈希码的目标函数，由于之前得到了高质量的相似图，使得求解得到的哈希码能够较好地保持住视频的本质相似结构。对应的目标函数可定义为：

(11)

其中，拉普拉斯矩阵

。由于存在离散约束，上述问题是一个NP难问题。另外，由于交替方向乘子法（ADMM）比较容易并行化，同时具备良好的收敛性保障，可以采用ADMM对上述问题进行优化。通过引入新的变量，将原始问题分解成若干子问题，使得每个子问题较为容易地优化。对包含哈希码B的子问题，不对B进行松弛，直接采用近端梯度算法对B进行离散优化，提升哈希码的求解质量。

总之，本申请提供的多模态数据融合处理方法，在多模态数据融合过程中，采用多模态数据特征提取方法，将多域原始样本经过自动特征提取后映射到低维特征空间，再将图像数据通过多个编码器网络分别对不同传感器采集到的数据进行特征提取, 得到不同数据域中的统一高层特征（学习紧致的哈希编码），并进行统一融合。原始数据在进行特征提取后有效压缩了数据量，并以特征的方式进行协同共享, 丰富各个单位的数据源，大大降低了信道对带宽的需求, 时延也进一步降低，精度进一步提升，满足了战场对智能算法实时性的要求。

参见图5，本申请实施例还可以提供一种多模态数据融合处理装置，如图5所示，该装置可以包括：

多模态数据获取单元501，用于获取待融合处理的多模态异质数据，所述多模态异质数据包括：由作战系统中多种探测设备采集到的多种不同类型的数据；

数据表征处理单元502，用于在对所述多模态异质数据进行融合处理的过程中，通过改进协方差描述子计算所得的协方差矩阵，对所述多种不同类型的数据进行紧致化表征，以生成数据融合算法的输入数据；

其中，所述数据表征处理单元包括：

本申请实施例还可以提供一种多模态数据融合处理设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述的多模态数据融合处理方法的步骤。

如图6所示，本申请实施例提供的一种多模态数据融合处理设备，该设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行多模态数据融合处理方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

其中，所述改进协方差描述子通过以下方式获得：

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如初始化数据等。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图6所示的结构并不构成对本申请实施例中多模态数据融合处理设备的限定，在实际应用中多模态数据融合处理设备可以包括比图6所示的更多或更少的部件，或者组合某些部件。

本申请实施例还可以提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的多模态数据融合处理方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多模态数据融合处理方法，其特征在于，包括：

其中，所述改进协方差描述子通过以下方式获得：

2.根据权利要求1所述的方法，其特征在于，还包括：

通过语义哈希自动编码器从输入语义标签中学习汉明空间，并利用所述汉明空间，通过相应的多模态哈希网络学习特定于模态的紧致哈希码。

3.根据权利要求2所述的方法，其特征在于，还包括：

在进行多种类型的数据进行融合处理之前，将通过所述紧致哈希码表征的多模态数据的特征进行优化组合处理。

4.根据权利要求3所述的方法，其特征在于，

所述将通过所述紧致哈希码标准的各类型数据的特征进行优化组合处理，包括：

5.根据权利要求3所述的方法，其特征在于，

在对多模态数据的特征进行优化组合处理后，利用深度哈希模型，将多模态数据的特征映射到公共语义子空间中，以便保持住多模态数据的相似性结构以及模态的配对结构信息。

6.根据权利要求5所述的方法，其特征在于，还包括：

通过量化技术对映射后的特征进行二值化处理，并在汉明空间中使用汉明距离进行表达。

7.一种多模态数据融合处理装置，其特征在于，包括：

其中，所述数据表征处理单元包括：

8.一种多模态数据融合处理设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的多模态数据融合处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6任一项所述的多模态数据融合处理方法。