CN110795973A

CN110795973A - 多模态融合的动作识别方法、装置及计算机可读存储介质

Info

Publication number: CN110795973A
Application number: CN201810877125.0A
Authority: CN
Inventors: 刘家瑛; 蒋鸿达; 宋思捷; 厉扬豪; 郭宗明
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Beijing Founder Electronics Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2020-02-14

Abstract

本发明提供一种多模态融合的动作识别方法、装置及计算机可读存储介质，方法包括：通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型；通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型；将待识别多模态数据添加至所述多模态神经网络模型中进行识别。从而能够实现对多模态待识别设备的处理，提高神经网络模型的性能。

Description

多模态融合的动作识别方法、装置及计算机可读存储介质

技术领域

本发明涉及计算机领域，尤其涉及一种多模态融合的动作识别方法、装置及计算机可读存储介质。

背景技术

随着科技的发展，用于认知的人工智能得到了很大的发展，应用新颖的材料和先进的技术，认知的能力也有了显著地进步，从环境的认知，到人体的认知，从静态的认知，到动态的认知。对于认知而言，一个重要环节就是对人体的认知，利用计算机视觉的人工智能在实际的认知中，动作的识别是其中比较重要的一个部分。人体的动作是指身体的活动或行动，在日常的生活，人体本身就是一个动态的生活过程，所谓的静态也只是动态的一个衔接过程。因而，提高认知的能力，其中的一个大问题就是人体动作的识别研究。

为了实现对动作的识别，现有技术中一般都是建立动作识别网络模型，并对其进行训练，后续可以将待识别数据添加至动作识别网络模型中进行识别。

但是，随着深度摄像机的发展，可以获取的视频信息越来越丰富，除传统的RGB视频之外，深度视频、红外视频、人体骨架视频等视频模态也更易获得。不同模态的视频具有不同的特征，以深度视频为例，相比较RGB视频，深度视频去除了纹理信息，但增加了第三维的信息，在刻画动作时具有更好的空域表现能力。然而，上述方法只能够实现对一种模态的数据进行动作识别，由于多模态数据在表现形式上的差异性，不同模态间互补信息的挖掘依然存在困难。

发明内容

本发明提供一种多模态融合的动作识别方法、装置及计算机可读存储介质，用于解决现有技术中由于多模态数据在表现形式上的差异性，不同模态的待识别数据无法进行动作识别的技术问题。

本发明的第一个方面是提供一种多模态融合的动作识别方法，包括：

通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；

在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型；

通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型；

将待识别多模态数据添加至所述多模态神经网络模型中进行识别。

本发明的另一个方面是提供一种多模态融合的动作识别装置，包括：

第一训练模块，用于通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；

连接模块，用于在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型；

第二训练模块，用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型；

识别模块，用于将待识别多模态数据添加至所述多模态神经网络模型中进行识别。

本发明的又一个方面是提供一种多模态融合的动作识别装置，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如上述的多模态融合的动作识别方法。

本发明的又一个方面是提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述的多模态融合的动作识别方法。

本发明提供的多模态融合的动作识别方法、装置及计算机可读存储介质，通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型；通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型；将待识别多模态数据添加至所述多模态神经网络模型中进行识别。从而能够实现对多模态待识别设备的处理，提高神经网络模型的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的多模态融合的动作识别方法的流程示意图；

图2为本发明实施例二提供的多模态融合的动作识别方法的流程示意图；

图3为本发明实施例三提供的多模态融合的动作识别装置的结构示意图；

图4为本发明实施例四提供的多模态融合的动作识别装置的结构示意图；

图5为本发明实施例五提供的多模态融合的动作识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的多模态融合的动作识别方法的流程示意图，如图1所示，所述方法包括：

步骤101、通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型。

随着深度摄像机的发展，可以获取的视频信息越来越丰富，除传统的RGB视频之外，深度视频、红外视频、人体骨架视频等视频模态也更易获得。不同模态的视频具有不同的特征，以深度视频为例，相比较RGB视频，深度视频去除了纹理信息，但增加了第三维的信息，在刻画动作时具有更好的空域表现能力。因此，为了实现对多种模态的视频的动作识别，首先，可以根据预设的单模态待训练数据对至少一个单模态待训练模型进行训练，具体地，单模态待训练数据包括但不限于RGB视频待训练数据、深度视频待训练数据等。可以根据当前单模态待训练数据的模态数量训练相应数量的单模态待训练模型，获得至少一个单模态神经网络模型。

步骤102、在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型。

在本实施方式中，通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型之后，由于单模态神经网络模型只能够实现对单模态的视频进行动作识别，因此，为了使神经网络模型能够兼容多种模态的视频，可以在任意两个单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型，该多模态待训练模型能够实现对多种模态的视频的动作识别。

具体地，以RGB和光流场同时作为输入为例，将封装好的Resnet101模型进行拆分和重组。Resnet101共有1个卷积层和4个卷积块，其中每个卷积块均会对输入先进行维度调整，然后进行残差学习，定义光流场模型的卷积块残差学习部分的输入为

输出为

RGB图像输出为

输出为

将

与相乘作为RGB图像新的残差学习对象，建立模态流动后输入输出分别如公式1所示：

其他模态间的融合也采用这种连接模型的方式，连接的方向由单模态下模型分类性能决定，数据由分类性能较高的模型流向较低的模型。

步骤103、通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型。

在本实施方式中，获得能够实现对多种模态的视频的动作识别的多模态待训练模型之后，可以对其进行训练，以提高多模态待训练模型的识别精准度。具体地，可以通过预设的多模态待训练数据对多模态待训练模型进行训练，其中多模态待训练数据中多个模态下的视频数据。对多模态待训练模型进行训练之后，获得多模态神经网络模型，该多模态神经网络模型能够用于对多个模态的视频进行动作识别。

步骤104、将待识别多模态数据添加至所述多模态神经网络模型中进行识别。

在本实施方式中，通过预设的多模态待训练数据对多模态待训练模型进行训练，获得多模态神经网络模型之后，可以将待识别的多模态数据添加至多模态神经网络模型中，从而能够获得多模态神经网络模型输出的识别结果。

本实施例提供的多模态融合的动作识别方法，通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型；通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型；将待识别多模态数据添加至所述多模态神经网络模型中进行识别。从而能够实现对多模态待识别设备的处理，提高神经网络模型的性能。

进一步地，在上述实施例的基础上，所述方法包括：

将所述单模态待训练数据转换为多帧图像，并根据所述单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练；

针对每一所述单模态待训练模型，接收所述单模态待训练模型输出的第一训练结果；

根据所述第一训练结果与预设的第一真实结果计算所述单模态待训练模型的第一网络误差；

根据所述第一网络误差对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛，获得所述单模态神经网络模型；

在本实施例中，为了方便单模态待训练模型对单模态待训练数据的识别，首先可以将单模态待训练数据转换为图像的形式，例如，可以将RGB视频待训练数据转换为多帧RGB待训练图像。并根据单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练。针对每一个单模态待训练模型，接收单模态待训练模型输出的第一训练结果。由于单模态待训练模型在训练过程中输出的第一训练结果可能不够准确，因此，为了提高单模态待训练模型的识别精准度，可以将第一训练结果与预设的标准结果进行比对，根据第一训练结果与预设的第一真实结果计算单模态待训练模型的第一网络误差；若二者误差超过预设的阈值时，则根据第一网络误差对单模态待训练模型进行参数调整，直至单模态待训练模型收敛，获得单模态神经网络模型。由于单模态神经网络模型只能够实现对单模态的视频进行动作识别，因此，为了使神经网络模型能够兼容多种模态的视频，可以在任意两个单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型，该多模态待训练模型能够实现对多种模态的视频的动作识别。通过预设的多模态待训练数据对多模态待训练模型进行训练，从而后续可以将待识别多模态数据添加至多模态神经网络模型中进行识别。

本实施例提供的多模态融合的动作识别方法，通过将单模态待训练数据转换为多帧图像，并根据单模态待训练模型输出的第一训练结果与预设的标准结果进行比对，不断调整单模态待训练模型的参数，直至模型收敛。从而能够提高单模态待训练模型的识别精度，进而为实现对多模态待识别设备的处理，提高神经网络模型的性能提供了基础。

进一步地，在上述任一实施例的基础上，所述方法包括：

将所述多模态待训练数据转换为多帧图像，并根据所述多模态待训练数据对应的多帧图像对所述多模态待训练模型进行训练；

接收所述多模态待训练模型输出的第二训练结果；

根据所述第二训练结果与预设的第二真实结果计算所述多模态待训练模型的第二网络误差；

根据所述第而网络误差对所述多模态待训练模型进行参数调整，直至所述多模态待训练模型收敛，获得所述多模态神经网络模型；

在本实施例中，通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；在任意两个单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型之后，为了方便多模态待训练模型对多模态待训练数据的识别，首先可以将多模态待训练数据转换为图像的形式，例如，可以将RGB视频待训练数据转换为多帧RGB待训练图像。并根据多模态待训练数据对应的多帧图像对所述多模态待训练模型进行训练。针对每二个多模态待训练模型，接收多模态待训练模型输出的第二训练结果。由于多模态待训练模型在训练过程中输出的第二训练结果可能不够准确，因此，为了提高多模态待训练模型的识别精准度，可以将第二训练结果与预设的标准结果进行比对，根据第二训练结果与预设的第二真实结果计算多模态待训练模型的第二网络误差；若二者误差超过预设的阈值时，则根据第二网络误差对多模态待训练模型进行参数调整，直至多模态待训练模型收敛，获得多模态神经网络模型。从而后续可以将待识别多模态数据添加至多模态神经网络模型中进行识别。

本实施例提供的多模态融合的动作识别方法，通过将多模态待训练数据转换为多帧图像，并根据多模态待训练模型输出的第二训练结果与预设的标准结果进行比对，不断调整多模态待训练模型的参数，直至模型收敛。从而能够提高多模态待训练模型的识别精度，进而为实现对多模态待识别设备的处理，提高神经网络模型的性能提供了基础。

进一步地，在上述任一实施例的基础上，所述方法包括：

根据所述第一网络误差通过反向传播的方法对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛，获得所述单模态神经网络模型；

在本实施例中，为了方便单模态待训练模型对单模态待训练数据的识别，首先可以将单模态待训练数据转换为图像的形式。并根据单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练。针对每一个单模态待训练模型，接收单模态待训练模型输出的第一训练结果。由于单模态待训练模型在训练过程中输出的第一训练结果可能不够准确，因此，为了提高单模态待训练模型的识别精准度，可以将第一训练结果与预设的标准结果进行比对，根据第一训练结果与预设的第一真实结果计算单模态待训练模型的第一网络误差；若二者误差超过预设的阈值时，则可以第一网络误差通过反向传播的方法对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛。

具体地，首先将视频数据转化成多帧的图像，训练RGB视频和深度视频等模态采用单张训练的方法，把视频中的一帧输入模型，前传网络获得各个动作类别的预测概率，对比预测概率和视频真实类别，使用交叉熵函数作为网络误差，误差L使用交叉熵函数衡量，交叉熵刻画实际概率分布p(x)与期望概率分布q(x)的距离如公式2所示：

以反向传播的方法调整模型的参数，设置学习率η，模型权重参数w_hj反向传播之后的结果为如公式3所示：

训练光流场视频则采用堆叠图像的方式，将连续的光流场图像堆叠起来作为模型的输入，模型的参数更新同样采取反向传播的方法。重复输入训练集，降低学习率，直到模型参数收敛。保存该模型，作为后续多模态结合的基础。

相应地，针对多模态待训练模型也可以采用反向传播的方法进行参数的调整。在前传网络模型输出各个动作类别的概率后，使用交叉熵代价函数计算误差，然后通过反向传播算法将误差用于调整模型的参数。重复输入训练数据，直到模型的参数趋于稳定。

本实施例提供的多模态融合的动作识别方法，通过反向传播的方法对单模态待训练模型进行参数调整，直至单模态待训练模型收敛，获得单模态神经网络模型从而能够提高单模态待训练模型的识别精度，进而为实现对多模态待识别设备的处理，提高神经网络模型的性能提供了基础。

图2为本发明实施例二提供的多模态融合的动作识别方法的流程示意图，在上述任一实施例的基础上，如图2所示，所述多模态融合的动作识别方法包括：

步骤201、通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；

步骤202、在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型；

步骤203、通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型；

步骤204、将所述待识别多模态数据转换为多帧图像，将所述待识别多模态数据对应的多帧图像添加至所述多模态神经网络模型中；

步骤205、选取所述待识别多模态数据对应的K帧图像对应的输出结果；

步骤206、计算所述K帧图像对应的输出结果的平均值，将所述平均值作为识别结果。

在本实施例中，通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型，在任意两个单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型，通过预设的多模态待训练数据对多模态待训练模型进行训练，获得多模态神经网络模型之后，为了方便多模态待训练模型对多模态待训练数据的识别，首先可以将多模态待训练数据转换为图像的形式，并将转换为多帧图像的待识别多模态数据添加至多模态神经网络模型中进行动作识别。为了提高多模态神经网络模型的识别精度，可以选取待识别多模态数据对应的K帧图像对应的输出结果，并求取该K帧图像的输出结果的平均值，将该均值作为识别结果。

具体地，为了提高动作识别的准确性，选取待测试视频中K帧的信息，并对它们的预测结果进行求和。对于一个有N类、M个模态的数据集的视频，第i个模态的第j帧的预测结果为一个N维向量score_ij，第i个模态最终的预测结果如公式4所示：

对于M个模态(RGB图像、光流场、深度图像等)的预测结果score_i，最终的各类动作的预测概率为它们的平均值，如公式5所示：

其中score是一个N维向量，第i个值代表视频为第i类动作的概率，概率最高的一项，即为该视频预测的动作类别，如公式6所示：

本实施例提供的多模态融合的动作识别方法，通过在多模态神经网络模型的识别过程中，选取K帧图像的识别结果，并将K帧图像的识别结果的均值作为最终识别结果，从而能够提高多模态神经网络模型的识别精度。

图3为本发明实施例三提供的多模态融合的动作识别装置的结构示意图，如图3所示，所述装置包括：

第一训练模块31，用于通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型。

连接模块32，用于在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型。

第二训练模块33，用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型。

识别模块34，用于将待识别多模态数据添加至所述多模态神经网络模型中进行识别。

本实施例提供的多模态融合的动作识别装置，通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型；通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型；将待识别多模态数据添加至所述多模态神经网络模型中进行识别。从而能够实现对多模态待识别设备的处理，提高神经网络模型的性能。

进一步地，在上述实施例的基础上，所述装置包括：

所述第一训练模块具体包括：

第一转换单元，用于将所述单模态待训练数据转换为多帧图像，并根据所述单模态待训练数据对应的多帧图像对所述单模态待训练模型进行训练；

第一接收单元，用于针对每一所述单模态待训练模型，接收所述单模态待训练模型输出的第一训练结果；

第一计算单元，用于根据所述第一训练结果与预设的第一真实结果计算所述单模态待训练模型的第一网络误差；

第一调整单元，用于根据所述第一网络误差对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛，获得所述单模态神经网络模型；

本实施例提供的多模态融合的动作识别装置，通过将单模态待训练数据转换为多帧图像，并根据单模态待训练模型输出的第一训练结果与预设的标准结果进行比对，不断调整单模态待训练模型的参数，直至模型收敛。从而能够提高单模态待训练模型的识别精度，进而为实现对多模态待识别设备的处理，提高神经网络模型的性能提供了基础。

进一步地，在上述任一实施例的基础上，所述装置包括：

所述第二训练模块具体包括：

第二转换单元，用于将所述多模态待训练数据转换为多帧图像，并根据所述多模态待训练数据对应的多帧图像对所述多模态待训练模型进行训练；

第二接收单元，用于接收所述多模态待训练模型输出的第二训练结果；

第二计算单元，用于根据所述第二训练结果与预设的第二真实结果计算所述多模态待训练模型的第二网络误差；

第二调整单元，用于根据所述第而网络误差对所述多模态待训练模型进行参数调整，直至所述多模态待训练模型收敛，获得所述多模态神经网络模型；

本实施例提供的多模态融合的动作识别装置，通过将多模态待训练数据转换为多帧图像，并根据多模态待训练模型输出的第二训练结果与预设的标准结果进行比对，不断调整多模态待训练模型的参数，直至模型收敛。从而能够提高多模态待训练模型的识别精度，进而为实现对多模态待识别设备的处理，提高神经网络模型的性能提供了基础。

进一步地，在上述任一实施例的基础上，所述装置包括：

所述第一训练模块具体包括：

第一调整单元具体包括：

调整子单元，用于根据所述第一网络误差通过反向传播的方法对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛，获得所述单模态神经网络模型；

本实施例提供的多模态融合的动作识别装置，通过反向传播的方法对单模态待训练模型进行参数调整，直至单模态待训练模型收敛，获得单模态神经网络模型从而能够提高单模态待训练模型的识别精度，进而为实现对多模态待识别设备的处理，提高神经网络模型的性能提供了基础。

图4为本发明实施例四提供的多模态融合的动作识别装置的结构示意图，在上述任一实施例的基础上，如图4所示，所述多模态融合的动作识别装置包括：

第一训练模块41，用于通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型；

连接模块42，用于在任意两个所述单模态神经网络模型之间添加信息流动连接，获得多模态待训练模型；

第二训练模块43，用于通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型；

识别模块44具体包括：

添加单元401，用于将所述待识别多模态数据转换为多帧图像，将所述待识别多模态数据对应的多帧图像添加至所述多模态神经网络模型中；

选取单元402，用于选取所述待识别多模态数据对应的K帧图像对应的输出结果；

第三计算单元403，用于计算所述K帧图像对应的输出结果的平均值，将所述平均值作为识别结果。

本实施例提供的多模态融合的动作识别装置，通过在多模态神经网络模型的识别过程中，选取K帧图像的识别结果，并将K帧图像的识别结果的均值作为最终识别结果，从而能够提高多模态神经网络模型的识别精度。

图5为本发明实施例五提供的多模态融合的动作识别装置的结构示意图，如图5所示，所述多模态融合的动作识别装置包括：存储器51，处理器52；

存储器51；用于存储所述处理器52可执行指令的存储器51；

其中，所述处理器52被配置为由所述处理器52执行如上述的多模态融合的动作识别方法。

本发明的又一实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述的多模态融合的动作识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多模态融合的动作识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过预设的单模态待训练数据对至少一个单模态待训练模型进行训练，获得至少一个单模态神经网络模型，包括：

根据所述第一网络误差对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛，获得所述单模态神经网络模型。

3.根据权利要求1所述的方法，其特征在于，所述通过预设的多模态待训练数据对所述多模态待训练模型进行训练，获得多模态神经网络模型，包括：

接收所述多模态待训练模型输出的第二训练结果；

根据所述第而网络误差对所述多模态待训练模型进行参数调整，直至所述多模态待训练模型收敛，获得所述多模态神经网络模型。

4.根据权利要求1所述的方法，其特征在于，所述将待识别多模态数据添加至所述多模态神经网络模型中进行识别，包括：

将所述待识别多模态数据转换为多帧图像，将所述待识别多模态数据对应的多帧图像添加至所述多模态神经网络模型中；

选取所述待识别多模态数据对应的K帧图像对应的输出结果；

计算所述K帧图像对应的输出结果的平均值，将所述平均值作为识别结果。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一网络误差对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛，获得所述单模态神经网络模型，包括：

根据所述第一网络误差通过反向传播的方法对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛，获得所述单模态神经网络模型。

6.一种多模态融合的动作识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一训练模块包括：

第一调整单元，用于根据所述第一网络误差对所述单模态待训练模型进行参数调整，直至所述单模态待训练模型收敛，获得所述单模态神经网络模型。

8.根据权利要求6所述的装置，其特征在于，所述第二训练模块包括：

第二调整单元，用于根据所述第而网络误差对所述多模态待训练模型进行参数调整，直至所述多模态待训练模型收敛，获得所述多模态神经网络模型。

9.一种多模态融合的动作识别装置，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如权利要求1-5所述的多模态融合的动作识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的多模态融合的动作识别方法。