CN112257579A

CN112257579A - 模型训练方法、动作识别方法、装置、设备及存储介质

Info

Publication number: CN112257579A
Application number: CN202011133950.3A
Authority: CN
Inventors: 李泽远; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-22
Also published as: WO2021189952A1

Abstract

本申请涉及人工智能和模型构建领域，具体使公开了一种动作识别模型训练方法、动作训练方法、装置、设备及存储介质，所述方法包括：获取视频图像、动作数据和视频图像、动作数据对应的动作标签；基于视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到网络模型和预测结果；基于动作数据和对应的动作标签对分类器进行训练，得到分类模型和分类结果；将网络模型和分类模型合并得到本地识别模型，以及根据预测结果和分类结果得到本地识别结果；将本地识别模型和本地识别结果上传进行联合学习，得到学习参数；接收学习参数，并根据学习参数更新本地识别模型。用于提高训练得到的动作识别模型的识别准确率。

Description

模型训练方法、动作识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种动作识别模型训练方法、动作训练方法、装置、设备及存储介质。

背景技术

在人际交互与协作、智能看护、智能监护以及运动分析等领域中，均需要对人体的动作行为进行识别，来判断人的行为类别。但传统的动作识别方法大多是利用计算机图像处理方法来提取视频帧中的运动轨迹和人物特征，然后训练分类器来识别人体行为，准确率较低且识别速度较慢。而利用卷积神经网络等方法构建的动作识别模型由于样本数量较少，也导致训练效果不够理想，进而导致识别准确率不高。

因此，如何提高训练得到的动作识别模型的识别准确率成为亟待解决的问题。

发明内容

本申请提供了一种动作识别模型训练方法、动作训练方法、装置、设备及存储介质，以提高训练得到的动作识别模型的识别准确率。

第一方面，本申请提供了一种动作识别模型训练方法，所述方法包括：

获取视频图像、动作数据和所述视频图像、动作数据对应的动作标签；基于所述视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果；基于所述动作数据和对应的动作标签对预先配置的分类器进行训练，得到训练完成的分类模型和分类结果；将所述训练完成的网络模型和所述训练完成的分类模型合并得到本地识别模型，以及根据所述预测结果和所述分类结果得到本地识别结果；将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习，以得到学习参数；接收所述云服务器发送的学习参数，并根据所述学习参数更新所述本地识别模型，将更新后的所述本地识别模型作为训练完成的动作识别模型。

第二方面，本申请还提供了一种动作识别方法，所述方法包括：

获取待识别图像和所述待识别图像对应的运动数据；将所述待识别图像和所述运动数据输入预先训练的动作识别模型进行动作识别，得到识别结果；其中，所述预先训练的动作识别模型为上述的动作识别模型训练方法训练得到的。

第三方面，本申请还提供了一种动作识别模型训练装置，所述装置包括：

样本获取模块，用于获取视频图像、动作数据和所述视频图像、动作数据对应的动作标签；网络训练模块，用于基于所述视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果；分类训练模块，用于基于所述动作数据和对应的动作标签对预先配置的分类器进行训练，得到训练完成的分类模型和分类结果；模型合并模块，用于将所述训练完成的网络模型和所述训练完成的分类模型合并得到本地识别模型，以及根据所述预测结果和所述分类结果得到本地识别结果；联合学习模块，用于将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习，以得到学习参数；模型更新模块，用于接收所述云服务器发送的学习参数，并根据所述学习参数更新所述本地识别模型，将更新后的所述本地识别模型作为训练完成的动作识别模型。

第四方面，本申请还提供了一种动作识别装置，所述装置包括：

数据获取模块，用于获取待识别图像和所述待识别图像对应的运动数据；动作识别模块，用于将所述待识别图像和所述运动数据输入预先训练的动作识别模型进行动作识别，得到识别结果；其中，所述预先训练的动作识别模型为上述的动作识别模型训练方法训练得到的。

第五方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的动作识别模型训练方法和上述的动作识别方法。

第六方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的动作识别模型训练方法和上述的动作识别方法。

本申请公开了一种动作识别模型训练方法、动作训练方法、装置、设备及存储介质，通过获取视频图像、动作数据和视频图像、动作数据对应的动作标签，随后基于视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果，同时基于动作数据和对应的动作标签对预先配置的分类器进行训练，得到训练完成的分类模型和分类结果，然后将训练完成的网络模型和训练完成的分类模型进行合并，得到本地识别模型，并且根据预测结果和分类结果得到本地识别结果，将本地识别模型的模型参数和本地识别结果上传至云服务器进行联合学习，得到学习参数，最终各个参与方接收云服务器发送的学习参数，根据学习参数更新本地识别模型，完成模型训练。各个参与方在本地进行模型训练得到各自的本地识别模型，然后将本地识别模型上传至云服务器进行联合学习，扩充训练模型时的样本数量，提高了训练得到的动作识别模型的识别准确率，并且由于各个参与方是在本地进行模型训练，训练数据并不互通，也保证了数据的安全性和隐私性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种动作识别模型训练方法的示意流程图；

图2是本申请实施例提供的网络模型的网络结构示意图；

图3是图1提供的一种动作识别模型训练方法的子步骤示意流程图；

图4是本申请实施例提供的一种动作识别方法；

图5是本申请的实施例还提供一种动作识别模型训练装置的示意性框图；

图6是本申请的实施例还提供一种动作识别装置的示意性框图；

图7是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种动作识别模型训练方法、装置、计算机设备及存储介质。动作识别模型训练方法可用于训练动作识别模型，以对人体动作进行识别，提高训练得到的动作识别模型的识别准确率，进而提高动作识别的准确率。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请实施例提供的一种动作识别模型训练方法的示意流程图。该动作识别模型训练方法可以应用于各个参与方，也即各个本地客户端中。该动作识别模型训练方法通过对多个参与方的样本数据进行联合训练，达到丰富样本数量，提高训练得到的动作识别模型的识别准确率的目的。

如图1所示，该动作识别模型训练方法，具体包括：步骤S101至步骤S106。

S101、获取视频图像、动作数据和所述视频图像、动作数据对应的动作标签。

由于动作识别模型包括两个部分，分别为网络模型和分类模型，因此，可以获取视频图像、动作数据和所述视频图像、动作数据对应的动作标签分别对网络模型和分类模型进行训练。

用户穿戴智能穿戴设备进行一个动作，然后对用户进行的动作进行拍摄，得到视频图像，根据智能穿戴设备中搭载的陀螺仪传感器和加速度传感器采集用户在运动过程中的动作数据。用户执行的动作即为视频图像和动作数据对应的动作标签。

其中，视频图像、动作数据和对应的动作标签均是各个参与方各自的本地数据，也即，各个参与方都根据本地数据进行模型训练，不必与其他参与方进行数据共享，由此提高数据安全性和可靠性。

S102、基于所述视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果。

根据视频图像和对应的动作标签对双流卷积神经网络进行模型训练，从而得到网络模型。

如图2所示，为网络模型的网络结构示意图。该网络模型包括空间流卷积网络和时间流卷积网络，空间流卷积网络和时间流卷积网络分别包括若干个卷积层、全连接层和softmax层。

在一些实施例中，如图3所示，步骤S102具体包括步骤S1021至步骤S1024。

S1021、根据所述视频图像提取与所述视频图像对应的光流图像。

在从视频图像中提取出对应的光流图像时，可以使用OpenCV处理视频图像中的某帧，得到关键点，然后对视频图像相邻帧进行梯度计算，得到关键点的像素点移动的信息，也即光流，将该帧以及后面的多个帧叠合成一个光流栈，也即光流图像。

S1022、利用所述视频图像和对应的动作标签对双流卷积神经网络中的空间流卷积网络进行训练，并得到空间预测结果。

将视频图像和对应的动作标签输入双流卷积神经网络中的空间流卷积网络进行训练，得到空间预测结果，在具体实施过程中，将视频图像终端每一帧分别输入空间流卷积网络进行训练。然后计算空间预测结果与对应的动作标签之间的损失，当损失值达到预设条件时，认为空间流卷积网络训练完成，得到空间预测结果。

在一实施例中，时间流卷积网络可使用L2正则化来监督损失，防止过拟合。

其中，使用L2正则化的目标函数表达式为：

其中，L表示带正则化的损失函数，J(θ)代表损失函数，θ表示卷积神经网络中的所有参数，λ表示正则系数，

则是指权重的平方和，i表示每个识别出的动作的动作编号，k表示识别出的动作总个数，其中，正则系数可以根据实际情况自行确定。

在得到全连接层的输出后，softmax层会基于全连接层的输出值进行数据的转换，以使得最终输出的空间预测结果为视频图像被预测为某一动作的概率。

其中，softmax层的转换公式可以为：

其中，V_i是全连接层的输出值，i表示任一动作类别，N表示动作类别的总数，S_i表示全连接层的当前输出值的指数与全连接层的所有输出值的指数和的比值，也即空间流卷积网络输出的概率。

S1023、利用所述光流图像和对应的动作标签对双流卷积神经网络中的时间流卷积网络进行训练，并得到时间预测结果。

由于光流图像中包括帧与帧之间的运动状态信息，因此，将光流图像和对应的动作标签输入双流卷积神经网络中的时间流卷积网络进行训练，得到时间预测结果，然后计算时间预测结果与对应的动作标签之间的损失，当损失值达到预设条件时，认为时间流卷积网络训练完成，得到时间预测结果。

其中，使用L2正则化的目标函数表达式为：

在得到全连接层的输出后，softmax层会基于全连接层的输出值进行数据的转换，以使得最终输出的时间预测结果为光流图像被预测为某一动作的概率。

其中，softmax层的转换公式可以为：

其中，V_i是全连接层的输出值，i表示任一动作类别，N表示动作类别的总数，S_i表示全连接层的当前输出值的指数与全连接层的所有输出值的指数和的比值，也即时间流卷积网络输出的概率。

S1024、将所述空间预测结果和所述时间预测结果进行聚合，得到预测结果。

在空间流卷积网络输出空间预测结果，以及时间流卷积网络输出时间预测结构后，即可将时间预测结果和空间预测结果进行聚合，得到预测结果P_A＝{a₁:p_a1；a₂:p_a2……a_n:p_an}，其中，a₁、a₂……a_n代表动作标签，p_a1、p_a2……p_an代表预测为相应人体动作的概率。其中，可以采用直接平均法，取平均值进行聚合，也可以采用SVM的方法进行聚合。

S103、基于所述动作数据和对应的动作标签对预先配置的分类器进行训练，得到训练完成的分类模型和分类结果。

运动数据包括用户在进行相应动作时，智能穿戴设备中搭载的陀螺仪传感器采集到的三轴角速度数据和加速度传感器采集到的三轴加速度数据。

分别计算三轴角速度数据和三轴加速度数据的均值、方差和均方根，并组成特征矩阵，然后将该特征矩阵和对应的动作标签输入至预先配置的分类器中进行动作分类，得到训练完成的分类模型和分类结果P_B＝{b₁:p_b1；b₂:p_b2……b_n:p_bn}，其中，b₁、b₂……b_n代表人体动作标签，p_b1、p_b2……p_bn代表预测为相应人体动作的概率。其中，预先配置的分类器可以是支持向量机。

S104、将所述训练完成的网络模型和所述训练完成的分类模型合并得到本地识别模型，以及根据所述预测结果和所述分类结果得到本地识别结果。

由于本地识别模型包括网络模型和分类模型两部分，因此，各个参与方将训练完成的网络模型和训练完成的分类模型进行合并，得到本地识别模型。得到本地识别模型后，再根据预测结果和分类结果得到本地识别结果。

在一实施例中，所述根据所述预测结果和所述分类结果得到本地识别结果，包括：基于权重计算公式，根据所述预测结果和所述分类结果得到本地识别结果。

由于本地识别模型中包括网络模型和分类模型两部分，因此，本地识别模型可以按照预先设置的权重系数，分别将网络模型的预测结果和分类模型的分类结果按照权重系数进行计算，从而得到最终的本地识别结果。

所述权重计算公式包括：

R＝λ₁P_a+λ₂P_b

其中，R表示本地识别结果，P_a表示预测结果中概率最大的结果，λ₁表示概率最大结果P_a的权重系数，P_b表示分类结果中概率最大的结果，λ₂表示概率最大结果P_b的权重系数。

S105、将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习，以得到学习参数。

在各个参与方在本地得到本地识别模型后，将本地识别模型的模型参数和本地识别模型的本地识别结果上传至云服务器，由云服务器根据接收到的这些信息进行联合学习，得到学习参数。

在具体实施过程中，云服务器可以采用全局平均法进行联合学习，得到学习参数，也即，分别计算本地识别模型模型中模型参数的平均值，然后对于一些与平均值相差过大的模型参数调低其参数权重，以得到学习参数。

在一实施例中，所述将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习，包括：对所述本地识别模型的模型参数和所述本地识别结果进行加密，得到加密数据；将所述加密数据上传至云服务器进行联合学习。

各个参与方对需要上传的数据进行数据加密，得到加密数据，然后将加密数据上传至云服务器，云服务器在接收到加密数据后，对加密数据进行解密，然后根据这些数据进行联合学习，减少数据在传输过程中的泄露情况，提高数据安全性。

在进行数据加密时，例如可以采用同态加密、差分隐私或多方安全计算等隐私计算方法。需要说明的是，当采用同态加密时，云服务器可以不对加密数据进行解密，直接根据加密数据进行联合学习。

在一实施例中，在步骤S104之前，所述方法包括：将训练完成的网络模型和预测结果上传至云服务器进行联合学习，得到联合网络模型；接收所述云服务器发送的所述联合网络模型，并将所述联合网络模型作为训练完成的网络模型；和/或将训练完成的分类模型和分类结果上传至云服务器进行联合学习，得到联合分类模型；接收所述云服务器发送的所述联合分类模型，并将所述联合分类模型作为训练完成的分类模型。

在各个参与方对本地的网络模型训练完成后，即可将本地的训练完成的网络模型的模型参数和预测结果上传至云服务器，使云服务器根据接收到的各个参与方上传的训练完成的网络模型的模型参数和预测结果进行联合学习，得到联合网络模型。

将所述联合网络模型作为训练完成的网络模型，也即，云服务器得到联合网络模型后，将联合网络模型的参数下发至各个参与方，各个参与方接收该联合网络模型的模型参数，并根据该联合网络模型的模型参数更新本地的训练完成的网络模型，然后将更新后的网络模型作为训练完成的网络模型。

同样的，在各个参与方对本地的分类模型训练完成后，即可将本地的训练完成的分类模型的模型参数和分类结果上传至云服务器，使云服务器根据接收到的各个参与方上传的训练完成的分类模型的模型参数和分类结果进行联合学习，得到联合分类模型。

将所述联合分类模型作为训练完成的分类模型，也即，云服务器得到联合分类模型后，将联合分类模型的参数下发至各个参与方，各个参与方接收该联合分类模型的模型参数，并根据该联合分类模型的模型参数更新本地的训练完成的分类模型，然后将更新后的分类模型作为训练完成的分类模型。

也即，在该动作识别模型的训练方法中，至多可进行三次不同的联合学习，所述三次不同的联合学习是指对本地的训练完成的网络模型的联合学习、对本地的训练完成的分类模型的联合学习以及对本地识别模型的联合学习。

S106、接收所述云服务器发送的学习参数，并根据所述学习参数更新所述本地识别模型，将更新后的所述本地识别模型作为训练完成的动作识别模型。

各个参与方接收云服务器发送的学习参数，并且根据学习参数更新本地识别模型，将更新后的本地识别模型作为训练完成的动作识别模型，完成动作识别模型的训练。

上述实施例提供的动作识别模型训练方法，通过获取视频图像、动作数据和视频图像、动作数据对应的动作标签，随后基于视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果，同时基于动作数据和对应的动作标签对预先配置的分类器进行训练，得到训练完成的分类模型和分类结果，然后将训练完成的网络模型和训练完成的分类模型进行合并，得到本地识别模型，并且根据预测结果和分类结果得到本地识别结果，将本地识别模型的模型参数和本地识别结果上传至云服务器进行联合学习，得到学习参数，最终各个参与方接收云服务器发送的学习参数，根据学习参数更新本地识别模型，完成模型训练。各个参与方在本地进行模型训练得到各自的本地识别模型，然后将本地识别模型上传至云服务器进行联合学习，扩充训练模型时的样本数量，提高了训练得到的动作识别模型的识别准确率，并且由于各个参与方是在本地进行模型训练，训练数据并不互通，也保证了数据的安全性和隐私性。

请参阅图4，图4是本申请实施例提供的一种动作识别方法。

如图4所示，该动作识别模型训练方法，具体包括：步骤S201和步骤S202。

S201、获取待识别图像和所述待识别图像对应的运动数据。

在对穿戴有可穿戴设备的用户的动作进行识别时，可以获取用户执行该动作时的待识别图像和待识别图像对应的动作数据。

其中，运动数据包括用户在进行相应动作时，智能穿戴设备中搭载的陀螺仪传感器采集到的三轴角速度数据和加速度传感器采集到的三轴加速度数据。

S202、将所述待识别图像和所述运动数据输入预先训练的动作识别模型进行动作识别，得到识别结果。

其中，预先训练的动作识别模型是指根据前述的动作识别模型训练方法训练得到的模型。

由于预先训练的动作识别模型中包括网络模型和预测模型，因此，将待识别图像输入网络模型中，由网络模型根据待识别图像进行动作预测，得到预测结果。将运动数据输入分类模型中，由分类模型根据运动数据进行动作分类，得到分类结果。

然后根据动作识别模型内配置的权重系数，将网络模型得到的预测结果和分类模型得到的分类结果分别按照对应的权重系数进行计算，最终得到一确定的识别结果，完成动作识别，并将识别结果进行输出。

需要说明的是，若仅有待识别图像或仅有运动数据，也可将待识别图像或运动数据输入预先训练的动作识别模型中进行动作识别。

上述实施例提供的一种动作识别方法，通过获取待识别图像和待识别图像对应的运动数据，然后将待识别图像和运动数据输入预先训练的动作识别模型进行动作识别，得到识别结果，完成动作识别。根据待识别图像和运动数据两者进行动作识别，将两者的识别结果进行结合，提高了动作识别的准确率。

请参阅图5，图5是本申请的实施例还提供一种动作识别模型训练装置的示意性框图，该动作识别模型训练装置用于执行前述的动作识别模型训练方法。其中，该动作识别模型训练装置可以配置于服务器或终端中。

其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

如图5所示，动作识别模型训练装置300包括：样本获取模块301、网络训练模块302、分类训练模块303、模型合并模块304、联合学习模块305和模型更新模块306。

样本获取模块301，用于获取视频图像、动作数据和所述视频图像、动作数据对应的动作标签。

网络训练模块302，用于基于所述视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果。

其中，网络训练模块302包括光流提取子模块3021、空间训练子模块3022、时间训练子模块3023和结果聚合子模块3024。

具体地，光流提取子模块3021，用于根据所述视频图像提取与所述视频图像对应的光流图像。空间训练子模块3022，用于利用所述视频图像和对应的动作标签对双流卷积神经网络中的空间流卷积网络进行训练，并得到空间预测结果。时间训练子模块3023，用于利用所述光流图像和对应的动作标签对双流卷积神经网络中的时间流卷积网络进行训练，并得到时间预测结果。结果聚合子模块3024，用于将所述空间预测结果和所述时间预测结果进行聚合，得到预测结果。

分类训练模块303，用于基于所述动作数据和对应的动作标签对预先配置的分类器进行训练，得到训练完成的分类模型和分类结果。

模型合并模块304，用于将所述训练完成的网络模型和所述训练完成的分类模型合并得到本地识别模型，以及根据所述预测结果和所述分类结果得到本地识别结果。

联合学习模块305，用于将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习，以得到学习参数。

模型更新模块306，用于接收所述云服务器发送的学习参数，并根据所述学习参数更新所述本地识别模型，将更新后的所述本地识别模型作为训练完成的动作识别模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的动作识别模型训练装置和各模块的具体工作过程，可以参考前述动作识别模型训练方法实施例中的对应过程，在此不再赘述。

请参阅图6，图6是本申请的实施例还提供一种动作识别装置的示意性框图，该动作识别装置用于执行前述的动作识别方法。其中，该动作识别装置可以配置于服务器或终端中。

如图6所示，动作识别装置400包括：数据获取模块401和动作识别模块402。

数据获取模块401，用于获取待识别图像和所述待识别图像对应的运动数据。

动作识别模块402，用于将所述待识别图像和所述运动数据输入预先训练的动作识别模型进行动作识别，得到识别结果；其中，所述预先训练的动作识别模型为根据上述的动作识别模型训练方法训练得到的。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的动作识别装置和各模块的具体工作过程，可以参考前述动作识别方法实施例中的对应过程，在此不再赘述。

上述的动作识别模型训练装置和动作识别装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

参阅图7，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种动作识别模型训练方法或动作识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种动作识别模型训练方法或动作识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，实现动作识别模型训练方法时，用于实现如下步骤：

在一个实施例中，所述处理器在实现所述基于所述视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果时，用于实现：根据所述视频图像提取与所述视频图像对应的光流图像；利用所述视频图像和对应的动作标签对双流卷积神经网络中的空间流卷积网络进行训练，并得到空间预测结果；利用所述光流图像和对应的动作标签对双流卷积神经网络中的时间流卷积网络进行训练，并得到时间预测结果；将所述空间预测结果和所述时间预测结果进行聚合，得到预测结果。

在一个实施例中，所述处理器在实现所述根据所述预测结果和所述分类结果得到本地识别结果时，用于实现：基于权重计算公式，根据所述预测结果和所述分类结果得到本地识别结果；所述权重计算公式包括：

R＝λ₁P_a+₂P_b

在一个实施例中，所述处理器在实现所述将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习时，用于实现：对所述本地识别模型的模型参数和所述本地识别结果进行加密，得到加密数据；将所述加密数据上传至云服务器进行联合学习。

在一个实施例中，所述处理器在实现所述将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习之前，用于实现：将训练完成的网络模型和预测结果上传至云服务器进行联合学习，得到联合网络模型；接收所述云服务器发送的所述联合网络模型，并将所述联合网络模型作为训练完成的网络模型；和/或将训练完成的分类模型和分类结果上传至云服务器进行联合学习，得到联合分类模型；接收所述云服务器发送的所述联合分类模型，并将所述联合分类模型作为训练完成的分类模型。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，实现动作识别方法时，用于实现如下步骤：

获取待识别图像和所述待识别图像对应的运动数据；将所述待识别图像和所述运动数据输入预先训练的动作识别模型进行动作识别，得到识别结果；其中，所述预先训练的动作识别模型为根据上述的动作识别模型训练方法训练得到的。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项动作识别模型训练方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种动作识别模型训练方法，其特征在于，所述方法包括：

获取视频图像、动作数据和所述视频图像、动作数据对应的动作标签；

基于所述视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果；

基于所述动作数据和对应的动作标签对预先配置的分类器进行训练，得到训练完成的分类模型和分类结果；

将所述训练完成的网络模型和所述训练完成的分类模型合并得到本地识别模型，以及根据所述预测结果和所述分类结果得到本地识别结果；

将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习，以得到学习参数；

接收所述云服务器发送的学习参数，并根据所述学习参数更新所述本地识别模型，将更新后的所述本地识别模型作为训练完成的动作识别模型。

2.根据权利要求1所述的动作识别模型训练方法，其特征在于，所述基于所述视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果，包括：

根据所述视频图像提取与所述视频图像对应的光流图像；

利用所述视频图像和对应的动作标签对双流卷积神经网络中的空间流卷积网络进行训练，并得到空间预测结果；

利用所述光流图像和对应的动作标签对双流卷积神经网络中的时间流卷积网络进行训练，并得到时间预测结果；

将所述空间预测结果和所述时间预测结果进行聚合，得到预测结果。

3.根据权利要求1所述的动作识别模型训练方法，其特征在于，所述根据所述预测结果和所述分类结果得到本地识别结果，包括：

基于权重计算公式，根据所述预测结果和所述分类结果得到本地识别结果；

所述权重计算公式包括：

R＝λ₁P_a+λ₂P_b

4.根据权利要求1所述的动作识别模型训练方法，其特征在于，所述将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习，包括：

对所述本地识别模型的模型参数和所述本地识别结果进行加密，得到加密数据；

将所述加密数据上传至云服务器进行联合学习。

5.根据权利要求1所述的动作识别模型训练方法，其特征在于，在所述将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习之前，所述方法包括：

将训练完成的网络模型和预测结果上传至云服务器进行联合学习，得到联合网络模型；接收所述云服务器发送的所述联合网络模型，并将所述联合网络模型作为训练完成的网络模型；和/或

将训练完成的分类模型和分类结果上传至云服务器进行联合学习，得到联合分类模型；接收所述云服务器发送的所述联合分类模型，并将所述联合分类模型作为训练完成的分类模型。

6.一种动作识别方法，其特征在于，包括：

获取待识别图像和所述待识别图像对应的运动数据；

将所述待识别图像和所述运动数据输入预先训练的动作识别模型进行动作识别，得到识别结果；

其中，所述预先训练的动作识别模型为根据权利要求1-5任一项所述的动作识别模型训练方法训练得到的。

7.一种动作识别模型训练装置，其特征在于，包括：

样本获取模块，用于获取视频图像、动作数据和所述视频图像、动作数据对应的动作标签；

网络训练模块，用于基于所述视频图像和对应的动作标签对双流卷积神经网络进行网络训练，得到训练完成的网络模型和预测结果；

分类训练模块，用于基于所述动作数据和对应的动作标签对预先配置的分类器进行训练，得到训练完成的分类模型和分类结果；

模型合并模块，用于将所述训练完成的网络模型和所述训练完成的分类模型合并得到本地识别模型，以及根据所述预测结果和所述分类结果得到本地识别结果；

联合学习模块，用于将所述本地识别模型的模型参数和所述本地识别结果上传至云服务器进行联合学习，以得到学习参数；

模型更新模块，用于接收所述云服务器发送的学习参数，并根据所述学习参数更新所述本地识别模型，将更新后的所述本地识别模型作为训练完成的动作识别模型。

8.一种动作识别装置，其特征在于，包括：

数据获取模块，用于获取待识别图像和所述待识别图像对应的运动数据；

动作识别模块，用于将所述待识别图像和所述运动数据输入预先训练的动作识别模型进行动作识别，得到识别结果；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至5中任一项所述的动作识别模型训练方法以及如权利要求6所述的动作识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至5中任一项所述的动作识别模型训练方法以及如权利要求6所述的动作识别方法。