CN113963200A

CN113963200A - 模态数据融合处理方法、装置、设备及存储介质

Info

Publication number: CN113963200A
Application number: CN202111210370.4A
Authority: CN
Inventors: 陈恩庆; 郭佳乐; 丁英强; 刘强; 张娟; 马龙; 吕小永; 郭新; 王宏伟; 张丽娟; 张秀琳; 朱广磊
Original assignee: Henan Xintong Intelligent Iot Co ltd; Zhengzhou University
Current assignee: Henan Xintong Intelligent Iot Co ltd; Zhengzhou University
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-21

Abstract

本申请提供一种模态数据融合处理方法、装置、设备及存储介质，涉及计算机视觉技术领域。该方法包括：获取多个模态数据；将各模态数据输入预先训练得到的分类网络中，得到各模态数据的初始分类信息；将各分类以及概率输入目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重；根据各模态数据的各初始分类信息对应的目标权重，确定多个模态数据的目标分类结果。本方案为了改变各模态数据采用固定权重值进行融合方式，提出了基于深度强化学习的多模态融合权重分配网络，使得能够充分利用和挖掘各种动作类别不同的模态数据的表征能力，解决了对多模态数据融合过程中权重值的合理分配问题。

Description

模态数据融合处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体而言，涉及一种模态数据融合处理方法、装置、设备及存储介质。

背景技术

人体动作识别在智能视频监控、人机交互、视频检索等领域中具有广阔的应用前景，已逐渐成为计算机视觉领域的研究热点。通常，为了提高对人体动作识别的准确率，通过引入代表着同一个场景的不同形式的多种模态数据，比如，RGB信息、深度信息、骨架信息、热传感信息等，并将这些不同模态数据进行融合，以便于对人体动作进行更为全面地感知、分析和理解。

目前，在大多数的对模态数据进行融合处理的方法中，主要是采用固定权重方式，对不同模态数据进行加权融合，这种方式的权重通常由原始经验或遍历搜索获得，各权重值不准确且计算量非常大，容易忽略各种模态数据对于各种动作类别信息表征能力的不同。

因此，如何解决多模态数据融合过程中权重的合理分配，是亟待解决的技术问题。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种模态数据融合处理方法、装置、设备及存储介质，以便解决对多模态数据融合过程中权重值的合理分配问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种模态数据融合处理方法，包括：

获取多个模态数据，各所述模态数据包括：视频模态；

将各所述模态数据输入预先训练得到的分类网络中，得到各模态数据的初始分类信息，所述初始分类信息包括：至少一种分类以及所述模态数据属于所述分类的概率；

将各分类以及所述概率输入目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重，所述目标权重分配模型包括：策略网络和评估网络，所述策略网络用于根据所述评估网络输出的状态和奖励确定动作，并将所述动作发送给所述评估网络，所述评估网络用于根据所述动作对状态进行更新，并将更新后的状态发送给所述策略网络，所述状态用于表征各分类对应的权重，所述状态的初始值为所述模态数据属于所述分类的概率，所述动作用于表征针对所述分类的动作；

根据各模态数据的各初始分类信息对应的目标权重，确定所述多个模态数据的目标分类结果。

可选地，所述将各所述初始分类信息输入预先训练得到的目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重之前，还包括：

A、将第一分类的当前状态和奖励输入初始权重分配模型的策略网络中，得到所述第一分类的当前动作；所述第一分类的当前状态包括：当前分类概率、当前权重值、以及标签；所述当前动作用于表征对所述第一分类所包含的各模态数据的当前权重调整的幅度；

B、由所述初始权重分配模型的评估网络根据所述第一分类的当前动作，确定新的当前状态和新的奖励，并将所述新的当前状态和新的奖励发送给所述策略网络；

循环执行A-B，直至循环次数达到预设次数，根据循环结果修正所述初始权重分配模型的参数，得到所述目标权重分配模型。

可选地，所述将第一分类的当前状态和奖励输入初始权重分配模型的策略网络中，得到所述第一分类的当前动作，包括：

由所述策略网络根据所述第一分类的当前状态中的当前权重值、预设的权重调整步长，计算得到所述第一分类的当前动作。

可选地，所述由所述初始权重分配模型的评估网络根据所述第一分类的当前动作，确定新的当前状态和新的奖励，包括：

由所述评估网络根据第一分类的当前动作、所述第一分类的当前状态，确定所述新的当前状态和所述新的奖励。

可选地，所述初始权重分配模型还包括：第一目标网络、第二目标网络；

所述第一目标网络和所述第二目标网络的输入层均用于输入所述第一分类的新的当前状态和新的奖励，所述第一目标网络的输出层用于输出所述第一分类的第一目标值，所述第二目标网络的输出层用于输出所述第一分类的第二目标值；

所述根据循环结果修正所述初始权重分配模型的参数，得到所述目标权重分配模型，包括：

根据所述第一目标网络的第一目标值、所述第二目标网络的第二目标值、以及所述初始权重分配模型中评估网络输出的所述第一分类的当前目标值，确定损失函数；所述第一目标值、所述第二目标值、以及所述第一分类的当前目标值均用于表征所述第一分类的标签；

根据所述损失函数，修正所述初始权重分配模型中网络参数，得到所述目标权重分配模型。

可选地，所述根据所述第一目标值、所述第二目标值、以及所述第一分类的当前目标值，确定损失函数，包括：

判断所述第一目标值是否小于所述第二目标值；

若是，则根据所述第一目标值、所述第一分类的当前目标值，确定损失函数。

第二方面，本申请实施例提供了一种模态数据融合处理装置，所述装置包括：

获取模块，用于获取多个模态数据，各所述模态数据包括：视频模态；

分类模块，用于将各所述模态数据输入预先训练得到的分类网络中，得到各模态数据的初始分类信息，所述初始分类信息包括：至少一种分类以及所述模态数据属于所述分类的概率；

分配模块，用于将各分类以及所述概率输入目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重，所述目标权重分配模型包括：策略网络和评估网络，所述策略网络用于根据所述评估网络输出的状态和奖励确定动作，并将所述动作发送给所述评估网络，所述评估网络用于根据所述动作对状态进行更新，并将更新后的状态发送给所述策略网络，所述状态用于表征各分类对应的权重，所述状态的初始值为所述模态数据属于所述分类的概率，所述动作用于表征针对所述分类的动作；

所述分类模块，还用于根据各模态数据的各初始分类信息对应的目标权重，确定所述多个模态数据的目标分类结果。

可选地，所述装置还包括：

训练模块，用于：

可选地，所述训练模块，还用于：

所述训练模块，还用于：

根据所述第一目标值、所述第二目标值、以及所述初始权重分配模型中评估网络输出的所述第一分类的当前目标值，确定损失函数；所述第一目标值、所述第二目标值、以及所述第一分类的当前目标值均用于表征所述第一分类的标签；

可选地，所述训练模块，还用于：

判断所述第一目标值是否小于所述第二目标值；

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第一方面提供的所述方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面提供的所述方法的步骤。

本申请的有益效果是：

本申请实施例提供一种模态数据融合处理方法、装置、设备及存储介质，该方法包括：获取多个模态数据，各模态数据包括：视频模态；将各模态数据输入预先训练得到的分类网络中，得到各模态数据的初始分类信息，初始分类信息包括：至少一种分类以及模态数据属于分类的概率；将各分类以及概率输入目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重，目标权重分配模型包括：策略网络和评估网络，策略网络用于根据评估网络输出的状态和奖励确定动作，并将动作发送给评估网络，评估网络用于根据动作对状态进行更新，并将更新后的状态发送给策略网络，状态用于表征各分类对应的权重，状态的初始值为模态数据属于分类的概率，动作用于表征针对分类的动作；根据各模态数据的各初始分类信息对应的目标权重，确定多个模态数据的目标分类结果。在本方案中，为了改变各模态数据采用固定权重值进行融合方式，提出了基于深度强化学习的多模态融合权重分配网络，使得可以使用训练得到的目标权重分配模型得到各模态数据的各初始分类信息对应的目标权重，并根据各模态数据的各初始分类信息对应的目标权重，确定多个模态数据的目标分类结果。这样，使得能够充分利用和挖掘各种动作类别不同的模态数据的表征能力，有效改善了以往由原始经验或遍历搜索获得权重值的问题，使得到的目标权重更具理论性，解决了对多模态数据融合过程中权重值的合理分配问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一种模态数据融合处理方法的流程示意图；

图3为本申请实施例提供的一种模态数据融合处理方法的框架示意图一；

图4为本申请实施例提供的又一种模态数据融合处理方法的流程示意图；

图5为本申请实施例提供的一种模态数据融合处理方法的框架示意图二；

图6为本申请实施例提供的另一种模态数据融合处理方法的流程示意图；

图7为本申请实施例提供的又一种模态数据融合处理方法的流程示意图；

图8为本申请实施例提供的一种模态数据融合处理装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

首先，在对本申请所提供的技术方案展开具体说明之前，先对本申请所涉及的相关背景进行简单说明。

目前，在大多数的对模态数据进行融合处理的方法中，主要是由原始经验或遍历搜索获得各模态数据的固定权重值，并采用固定权重值对各模态数据进行加权融合。但是，这种融合方式，存在各权重值不准确且计算量非常大的问题，导致容易忽略各种模态数据对于各种动作类别信息表征能力的不同。

为了解决上述现有技术中存在的技术问题，本申请提出引入强化学习，将动作识别决策层融合问题建模为强化学习的决策问题，以实现对多模态数据融合过程中权重值的合理分配，动态化的多模态数据融合能够更好地利用各种动作类别不同的模态数据的表征能力，进而提升对人体动作识别的准确率。

图1为本申请实施例提供的一种电子设备的结构示意图；该电子设备如可以是计算机或者服务器等处理设备，以用于实现本申请提供的模态数据融合处理方法。如图1所示，电子设备包括：处理器101、存储器102。

处理器101、存储器102之间直接或间接地电性连接，以实现数据的传输或交互。例如，可通过一条或多条通信总线或信号线实现电性连接。

其中，处理器101可以是一种集成电路芯片，具有信号的处理能力。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器102可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

可以理解，图1所述的结构仅为示意，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

存储器102用于存储程序，处理器101调用存储器102存储的程序，以执行下面实施例提供的模态数据融合处理方法。

如下将通过多个实施例对本申请提供的一种模态数据融合处理方法和对应产生的有益效果进行说明。

图2为本申请实施例提供的一种模态数据融合处理方法的流程示意图，图3为本申请实施例提供的一种模态数据融合处理框架的结构示意图一，可选地，该方法的执行主体可以是服务器、计算机等电子设备，具有数据处理功能。应当理解，在其它实施例中模态数据融合处理方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。如图2所示，该方法包括：

S201、获取多个模态数据，各模态数据包括：视频模态。

示例性地，例如，多个模态数据可以包括：RGB数据、深度数据(Depth)、光流数据。比如，RGB数据与Depth数据包含了目标动作在空间上的特征信息，而光流数据包含的是目标动作在时间长度上的特征信息。

在本实施例中，例如，以选用的大型数据集是NTU RGB+D与HMDB51为例。

其中，对于NTU RGB+D数据集，使用了NTU RGB+D数据集中的Depth与RGB模态的视频数据，并分别从“Depth与RGB模态的视频数据”提取出光流数据，也即，该数据集包含的视频模态个数k＝4(如，RGB数据、Depth数据、RGB提取的光流数据、Depth提取的光流数据)，该数据集包含60个动作类别。

对于HMDB51数据集，所包含的动作类别个数n＝51，视频模态个数k＝2(仅有RGB提取的光流数据、Depth提取的光流数据)。

值得注意的是，在模态数据融合处理时，对于RGB数据、Depth数据按照运动能量分布均匀划分为5个片段，每个片段稀疏采样5帧，共计25帧；与其不同的是，两种光流数据是在每个小片段中采样5个连续的5帧，光流数据又分为x与y向，所以，光流数据的测试样本共计250帧(5*5*5*2)。其次，将采样到的样本帧裁剪出四个角与一个中心，再将其水平翻转，然后将处理好的多个视频模态帧送入到网络模型中，再进行多模态数据的融合处理。

S202、将各模态数据输入预先训练得到的分类网络中，得到各模态数据的初始分类信息。

其中，初始分类信息包括：至少一种分类以及模态数据属于分类的概率。分类是指各模态数据所表征的动作类别，模态数据属于分类的概率是指模态数据属于不同动作类别的概率。

在本实施例中，参照图3所示，例如，预先训练得到的分类网络可以是多流卷积神经网络(Convolutional Neural Networks，简称CNN)，该“多流CNN网络”包括两个空间流网络和两个时间流网络，并将“两个空间流网络”的基础架构选定为ResNeXt网络，将“两个时间流网络”的基础架构选定为BN-Inception网络。

具体的，将“多个模态数据”输入多流CNN网络中，空间流的ResNeXt网络分别单独从RGB与Depth视频中抽取到原始数据帧，时间流的BN-Inception网络分别单独处理从RGB与Depth视频中提取到光流数据帧，以得到各模态数据所表征的动作类别、以及各模态数据属于某一个动作类别的概率。

S203、将各分类以及概率输入目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重。

其中，继续参照图3所示，目标权重分配模型包括：策略网络和评估网络，策略网络用于根据评估网络输出的状态和奖励确定动作，并将动作发送给评估网络，评估网络用于根据动作对状态进行更新，并将更新后的状态发送给策略网络，状态用于表征各分类对应的权重，状态的初始值为模态数据属于分类的概率，动作用于表征针对分类的动作。

对于每一个动作类别的视频模态，本实施例中所涉及的调整多模态权重的过程是连续的，例如：权重取值可以是[0,2]之间的任何值，而不是离散的点。基于值函数的强化学习方法不能处理这类连续动作空间的决策问题。为此本申请提出采用基于值函数与策略梯度相结合的TD3(Twin Delayed Deep Deterministic)方法作为所提网络的强化学习求解方案，多层前馈(Feedforward Neural Network,FNN)神经元网络作为策略网络和评估网络的网络基础架构。

具体地，对于策略网络，设计了一个包含三个隐层的FNN神经网络，隐层的神经元个数分别为500、300、100，输入层与状态的维度一致，输出层与动作维度一致，不同数据集的状态和动作的维度不同。

对于评估网络，同样使用的是三个隐层FNN神经网络，隐层的神经元数量也与策略网络相同，只是输入层输入的是状态与动作的组合，输出层输出多个模态数据的目标分类结果。

可以选择使用ReLu函数作为策略网络和评估网络的非线性激活函数。两者不同的是，策略网络的输出层使用tanh激活函数，评估网络的输出层不再设置激活函数。

在本申请中，为了改变各模态数据采用固定权重值进行融合方式，提出了基于深度强化学习的多模态融合权重分配网络。具体是，将多模态数据融合问题建模为一个强化学习决策问题，其能够根据各模态数据的初始分类信息动态地调整权重，得到各模态数据的各初始分类信息对应的目标权重。这样，使得能够充分利用和挖掘各种动作类别不同的模态数据的表征能力，有效改善了以往由原始经验或遍历搜索获得权重值的问题，使得到的目标权重更具理论性，解决了对多模态数据融合过程中权重值的合理分配问题。

S204、根据各模态数据的各初始分类信息对应的目标权重，确定多个模态数据的目标分类结果。

在本实施例中，可以基于各模态数据的各初始分类信息对应的目标权重后，将各种模态视频的各初始分类信息进行加权融合，得到最终的目标动作类别的分类结果，进而使得可以根据最终得到的目标分类结果，实现对人体不同动作类别的识别，提高了动作识别的准确性。

综上所述，本申请实施例提供一种模态数据融合处理方法，该方法包括：获取多个模态数据，各模态数据包括：视频模态；将各模态数据输入预先训练得到的分类网络中，得到各模态数据的初始分类信息，初始分类信息包括：至少一种分类以及模态数据属于分类的概率；将各分类以及概率输入目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重，目标权重分配模型包括：策略网络和评估网络，策略网络用于根据评估网络输出的状态和奖励确定动作，并将动作发送给评估网络，评估网络用于根据动作对状态进行更新，并将更新后的状态发送给策略网络，状态用于表征各分类对应的权重，状态的初始值为模态数据属于分类的概率，动作用于表征针对分类的动作；根据各模态数据的各初始分类信息对应的目标权重，确定多个模态数据的目标分类结果。在本方案中，为了改变各模态数据采用固定权重值进行融合方式，提出了基于深度强化学习的多模态融合权重分配网络，使得可以使用训练得到的目标权重分配模型得到各模态数据的各初始分类信息对应的目标权重，并根据各模态数据的各初始分类信息对应的目标权重，确定多个模态数据的目标分类结果。这样，使得能够充分利用和挖掘各种动作类别不同的模态数据的表征能力，有效改善了以往由原始经验或遍历搜索获得权重值的问题，使得到的目标权重更具理论性，解决了对多模态数据融合过程中权重值的合理分配问题。

将通过如下实施例，具体讲解如何训练得到步骤S203中提到的“目标权重分配模型”。

参照图4所示，在上述S203之前，该方法还包括：

S401、将第一分类的当前状态和奖励输入初始权重分配模型的策略网络中，得到第一分类的当前动作。

第一分类的当前状态包括：当前分类概率、当前权重值、以及标签；当前动作用于表征对第一分类所包含的各模态数据的当前权重调整的幅度。

S402、由初始权重分配模型的评估网络根据第一分类的当前动作，确定新的当前状态和新的奖励，并将新的当前状态和新的奖励发送给策略网络。

值得说明的是，第一分类可以是指待融合的多种模态数据所属的动作类别。可以将第一分类的当前状态记作s_t，当前的奖励记作r_t，当前动作记作a_t。

在申请提供的实施例中，主要是利用深度强化学习强大的决策能力，提出了基于深度强化学习训练多模态融合权重分配网络。其中，强化学习的决策问题可以由经典的马尔科夫决策过程(Markov Decision Process，简称MDP)来建模，MDP可以由一个三元组(S,A,R)来表示，S表示环境的状态集合，A表示智能体(Agent)的动作集合，R表示的是环境给出的奖励函数。

在本实施例中，当前状态s_t包括各模态数据的初始分类信息、以及各模态数据使用分配权重值进行加权融合后的目标分类结果。

这样，就可以通过当前状态s_t，确定各模态原始数据以及权重分配情况。例如，第t轮循环交互后，新的当前状态S_t可以表示为：

其中，k≥2表示视频模态的个数。c_i是one-hot向量，表示第i个模态动作视频的分类概率。w_i,t表示第i个模态动作视频在第t轮交互后所分配到的权重，初始权重设置为1。

需要注意的是，对于包含n个动作类别的数据集，S_t的维度为(n×(k+1),1)。

当前动作a_t表示策略网络按照各模态数据的初始权重比，对初始权重比进行微调的幅度大小。例如，t时刻的当前动作可以表示为：

A_t＝{a_1,t,...,a_k,t} (2)

其中，a_k,t∈[-0.2,0.2]表示第t轮交互策略网络对于第k个模态数据的权重值进行调整的大小，此时，经调整后的权重大小为w_k,t＝w_k,t-1+a_k,t。A_t的维度为(k,1)。

也即，可以由策略网络根据第一分类的当前状态中的当前权重值、预设的权重调整步长，计算得到第一分类的当前动作。

奖励函数R(S,A)：是评估网络对当前状态给出的当前动作的反馈，表征着在当前t时刻的状态S_t采取动作A_t的优劣程度。

策略网络对于当前状态s_t会给出相应的动作a_t，然后，评估网络会根据动作a_t来更新当前状态s_t，得到新的当前状态S_t+1，并给予新的奖励r_t。

策略网络的任务就是在与评估网络的不断交互过程之中，学习到一种策略π，在这种策略的指导下，策略网络可以根据当前状态s_t，输出最有益的动作a_t。

强化学习的目的是使策略网络能够在与评估网络的交互中学习到的新的奖励(也即，累积奖励值)达到最大的最优策略π^*，累积奖励值的定义如下式：

其中，γ∈[0,1]表示将未来的奖励折算到当前时刻的折扣系数。T表示每个策略网络与评估网络循环交互过程的总次数，r(s_t′,a_t′)表示在t′次交互时环境给予的奖励。

状态-动作值函数Q(s_t,a_t)＝E[R_t|a_t,s_t]表示在状态s_t时执行动作a_t，然后，遵循当前的策略π。可以用下式所示的贝尔曼方程，求解最优的状态-动作值函数Q^*。

在使用强化学习建模的现实问题中，可以通过迭代公式(4)上式计算状态-动作Q函数。

S403、判断当前执行循环次数是否达到预设次数；若是，则执行步骤S404；若否，则跳转至S401，循环执行S401-S402，直至循环次数达到预设次数，输出最终的循环结果。

参照图3所示，强化学习任务可以抽象为策略网络与评估网络的不断循环交互的过程。在策略网络的训练中，策略网络与评估网络的循环交互过程的重复次数为预设的5次。

S404、根据循环结果修正初始权重分配模型的参数，得到目标权重分配模型。

值得说的是，在本实施例中，例如，针对同一个动作类别，策略网络与评估网络的循环交互次数是5；但针对某一个数据集所包含的所有动作类别，初始权重分配模型的循环训练次数可以设置成100。

将通过如下实施例，具体讲解如何根据循环结果修正初始权重分配模型的参数，得到目标权重分配模型。

为了降低训练过程中的误差高估，以提高“初始权重分配模型”训练过程的稳定性，如图5所示，该初始权重分配模型还包括：两个目标网络也即，两个Target网络，Target网络包括：第一目标网络和第二目标网络。

第一目标网络包括：第一策略网络Actor_Target1、第一评估网络Critic_Target1，第二目标网络包括：第二策略网络Actor_Target2、第二评估网络Critic_Target2。

在本实施例中，为了降低运算复杂度，将第一目标网络、第二目标网络的参数设置均与主网络(也即，上述实施例提到的策略网络Actor、评估网络Critic)保持相同。例如，随机初始化TD3算法的策略网络Actor、评估网络Critic的初始参数θ，并将初始参数赋值θ给Actor_Target1、Critic_Target1、Actor_Target2以及Critic_Target2。

Target网络的参数相较于主网络是延迟更新的，这种参数更新机制在一定程度上能够减轻主网络与Target网络的相关性，提高了训练得到的目标权重分配模型网络的稳定性。

继续参考图5所示，第一目标网络和第二目标网络的输入层均用于输入第一分类的新的当前状态(Next state)和新的奖励，第一目标网络的输出层用于输出第一分类的第一目标值Target Q_value1，第二目标网络的输出层用于输出第一分类的第二目标值Target Q_value2。

将第一分类的当前状态(state)和奖励输入初始权重分配模型的策略网络Actor中，得到第一分类的当前动作(action)，并将第一分类的当前动作action与当前状态state的组合一起输出至评估网络Critic，得到新的当前状态和新的奖励，从得到的新的当前状态，确定第一分类的当前目标值Q_value。

可以理解，可以通过两个Target网络分别生成当前动作的目标值，其类似于监督学习中的标签，也就是Target Q_value1和Target Q_value2。

可以使用第一目标值Target Q_value1、第二目标值Target Q_value2、以及初始权重分配模型中评估网络Critic输出的第一分类的当前目标值Q_value，确定损失函数。

如图6所示，上述步骤S404：根据循环结果修正初始权重分配模型的参数，得到目标权重分配模型，包括：

S601、根据第一目标值、第二目标值、以及初始权重分配模型中评估网络输出的第一分类的当前目标值，确定损失函数。

将通过如下实施例，具体讲解如何确定损失函数。参考图7所示，上述步骤S601包括：

S701、判断第一目标值是否小于第二目标值。

S702、若是，则根据第一目标值、第一分类的当前目标值，计算损失函数。

为了降低训练过程中的误差高估，在计算损失函数时，选取第一目标网络输出的第一目标值Target Q_value1、第二目标网络中输出的第二目标值Target Q_value1中最小值，并将选取的最小值作为“评估目标值y_t”，“评估目标值y_t”的定义如下式：

y_t＝r_t+γminQ(s_t+1,π(s_t+1|θ^π)|θ^Q) (5)

其中，θ^Q为TD3网络的超参数，θ^π为执行当前的策略π时网络的超参数。

损失函数可以使用主网络中评估网络输出的第一分类的当前目标值Q_value(Q(s_t，a_t))与“评估目标值y_t”计算均方误差损失，具体如下式：

L(θ)＝E[(y_t-Q(s_t,a_t))²] (6)

S602、根据损失函数，修正初始权重分配模型中网络参数，得到目标权重分配模型。

继续参考图6所示，可以使用根据损失函数计算得到的每一次训练过程的损失值Loss，对初始权重分配模型中网络参数进行迭代修正，直至某一次计算得到的损失值满足预设条件，则本次得到临时权重分配模型作为目标权重分配模型。

将通过如下实施例，具体讲解如何确定当前的奖励。

可选地，由初始权重分配模型的评估网络根据第一分类的当前动作，确定新的当前状态和新的奖励，包括：

由评估网络根据第一分类的当前动作、第一分类的当前状态，确定新的当前状态和新的奖励。

在本申请提供的实施例中，主要是根据多模态加权融合后的分类概率，确定当前的奖励函数，并通过分类概率的变化来改变奖励值，使策略网络能够学习到使“多模态加权融合后的分类概率”增加的策略。

需要说明的是，对于策略网络与评估网络的首轮交互，如果权重调整后加权融合后的分类概率比初始加权后的分类概率有所提高，则将当前的奖励设置为1，反之设置为-1。若两者相等，则设置为-0.5，具体如下：

其中，l表示视频模态所属的真实动作类别标签，p_t,l表示t次迭代后将视频模态分类为l的概率。所以，r₀的取值范围为{-1,-0.5,1}。除此之外，当动作的分类结果在一轮的交互后由不正确变为正确时，给予策略网络一个较大的正激励，记作

。反之，若分类结果由正确变为不正确，则给予其一个较大的惩罚。最终的奖励函数定义如下：

如下将通过一段伪代码对初始权重分配模型的迭代训练过程进行讲解。

具体是：“初始权重分配模型”的输入是各模态数据的初始分类信息，包括：至少一种分类(也即，标签l)、模态数据属于分类的概率。

过程如下：

输出：目标权重分配模型中策略网络的超参数θ。

第1行、是随机初始化TD3算法的策略网络和评估网络的参数θ，并将其初始参数复制给Target_Actor1、Target_Critic1、Target_Actor2和Target_Critic2。经验池D用于存放策略网络和评估网络交互过程中产生的经验数据(s_t,a_t,r_t,s_t+1)。

第2-10行、是强化学习中策略网络和评估网络的交互环节。在策略网络训练过程中，其与评估网络交互过程的重复次数为E，可以将其设置为100。对于每个训练视频模态的初始分类结果，策略网络都要用其与评估网络交互T个时间步，可以将T取值为5。在交互过程中为动作A_t添加了随机噪声，使评估网络能够探索到更多的可能性，从而网络参数能够更快地收敛。在训练中，随机噪声服从均值为0，方差为0.1的正态分布。在评估策略网络的性能时，不再添加随机噪声。

11-14行、为初始权重分配模型的更新过程，设置一个经验池D用于存储交互过程中所产生的经验数据，经验池的大小设置为5×10⁵。从经验池中随机采样出mini-batch的交互数据用于计算训练损失值。可以将batch size设置为100。其中，第一目标网络和第二目标网络的参数θ′是延迟更新的，延迟时间设置为2。并且将第一目标网络和第二目标网络的更新因子τ设置为0.995。

下述对用以执行本申请所提供的模态数据融合处理方法对应的装置及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图8为本申请实施例提供的一种模态数据融合处理装置的结构示意图；如图8所示，该装置包括：

获取模块801，用于获取多个模态数据，各模态数据包括：视频模态；

分类模块802，用于将各模态数据输入预先训练得到的分类网络中，得到各模态数据的初始分类信息，初始分类信息包括：至少一种分类以及模态数据属于分类的概率；

分配模块803，用于将各分类以及概率输入目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重，目标权重分配模型包括：策略网络和评估网络，策略网络用于根据评估网络输出的状态和奖励确定动作，并将动作发送给评估网络，评估网络用于根据动作对状态进行更新，并将更新后的状态发送给策略网络，状态用于表征各分类对应的权重，状态的初始值为模态数据属于分类的概率，动作用于表征针对分类的动作；

分类模块802，还用于根据各模态数据的各初始分类信息对应的目标权重，确定多个模态数据的目标分类结果。

可选地，该装置还包括：

训练模块，用于：

A、将第一分类的当前状态和奖励输入初始权重分配模型的策略网络中，得到第一分类的当前动作；第一分类的当前状态包括：当前分类概率、当前权重值、以及标签；当前动作用于表征对第一分类所包含的各模态数据的当前权重调整的幅度；

B、由初始权重分配模型的评估网络根据第一分类的当前动作，确定新的当前状态和新的奖励，并将新的当前状态和新的奖励发送给策略网络；

循环执行A-B，直至循环次数达到预设次数，根据循环结果修正初始权重分配模型的参数，得到目标权重分配模型。

可选地，训练模块，还用于：

由策略网络根据第一分类的当前状态中的当前权重值、预设的权重调整步长，计算得到第一分类的当前动作。

可选地，训练模块，还用于：

可选地，初始权重分配模型还包括：第一目标网络、第二目标网络；

第一目标网络和第二目标网络的输入层均用于输入第一分类的新的当前状态和新的奖励，第一目标网络的输出层用于输出第一分类的第一目标值，第二目标网络的输出层用于输出第一分类的第二目标值；

训练模块，还用于：

根据第一目标网络的第一目标值、第二目标网络的第二目标值、以及初始权重分配模型中评估网络输出的第一分类的当前目标值，确定损失函数；第一目标值、第二目标值、以及第一分类的当前目标值均用于表征第一分类的标签；

根据损失函数，修正初始权重分配模型中网络参数，得到目标权重分配模型。

可选地，训练模块，还用于：

判断第一目标值是否小于第二目标值；

若是，则根据第一目标值、第一分类的当前目标值，确定损失函数。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种模态数据融合处理方法，其特征在于，包括：

获取多个模态数据，各所述模态数据包括：视频模态；

2.根据权利要求1所述的方法，其特征在于，所述将各所述初始分类信息输入预先训练得到的目标权重分配模型中，得到各模态数据的各初始分类信息对应的目标权重之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述将第一分类的当前状态和奖励输入初始权重分配模型的策略网络中，得到所述第一分类的当前动作，包括：

4.根据权利要求2所述的方法，其特征在于，所述由所述初始权重分配模型的评估网络根据所述第一分类的当前动作，确定新的当前状态和新的奖励，包括：

由所述评估网络根据第一分类的当前动作、以及所述第一分类的当前状态，确定所述新的当前状态和所述新的奖励。

5.根据权利要求2所述的方法，其特征在于，所述初始权重分配模型还包括：第一目标网络、第二目标网络；

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一目标值、所述第二目标值、以及所述第一分类的当前目标值，确定损失函数，包括：

判断所述第一目标值是否小于所述第二目标值；

7.一种模态数据融合处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

训练模块，用于：

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-6任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-6任一所述方法的步骤。