CN113591647A

CN113591647A - 人体动作识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113591647A
Application number: CN202110828467.5A
Authority: CN
Inventors: 郑浩河; 乔丕业; 刘航; 刘朝鹏; 程俊; 牛茂龙; 程钦; 任子良
Original assignee: Shenzhen Institute of Advanced Technology of CAS; China Nuclear Power Engineering Co Ltd
Current assignee: Shenzhen Institute of Advanced Technology of CAS; China Nuclear Power Engineering Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-11-02
Anticipated expiration: 2041-07-22
Also published as: CN113591647B

Abstract

本申请涉及一种人体动作识别方法、装置、计算机设备和存储介质。该方法包括：基于目标RGB视频，获取m个图像组，对于m个图像组中任一图像组，对目标RGB视频进行分段处理，得到T个视频段，对于T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得，从而提高目标RGB视频的动作识别速度。

Description

人体动作识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人体行为识别技术领域，特别是涉及一种人体动作识别方法、装置、计算机设备和存储介质。

背景技术

动作识别是指：给定一个视频，通过机器来识别出视频里的主要动作类型。RGB彩色视频中的人体动作识别，是计算机视觉及模式识别研究中一个重要而富有挑战性的问题，其在人机交互、智能交通系统、紧急救援及视频监控等应用中发挥着重要作用。近年来，CNN(Convolutional Neural Networks，卷积神经网络)给动作识别带来了显著的推动。基于CNN(Convolutional Neural Networks，卷积神经网络)的动作方法能够从原始数据中自动学习特征。然而，出于背景杂乱、光照变化、视点变化及动作自由度大等原因，如何有效地完成动作识别任务仍然是一个挑战。

相关技术中，基于RGB彩色视频的动作识别工作主要集中在RGB图像和光流的结合。虽然运用光流的CNN(Convolutional Neural Networks，卷积神经网络)具有优越的识别性能，但是在提取光流时，涉及大量的解方程运算，从而导致运用光流的CNN(Convolutional Neural Networks，卷积神经网络)识别速度较慢，使得其在实时性要求高环境下存在难以应用的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够满足提高视频中人体动作识别的速度的人体动作识别方法、装置、计算机设备和存储介质。

一种人体动作识别方法，该方法包括：

基于目标RGB视频，获取m个图像组，m不小于2，m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得；

对于m个图像组中任一图像组，对目标RGB视频进行分段处理，得到T个视频段，T不小于3；

对于T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；

基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由T个视频段对应的T帧图像构成任一图像组；其中，预设范围为0至255，在获取m个图像组中每一图像组时所使用的预设间隔均不同；

将RGB数据流输入至预设模型，输出第一分类结果，RGB数据流是由目标RGB视频中的部分图像帧所组成的；

将多个图像组中每一图像组分别输入至预设模型，输出每一图像组的第二分类结果，第一分类结果包括RGB数据流中各种动作类别的概率，每一图像组的第二分类结果包括每一图像组中各种动作类别的概率；

将第一分类结果及每一第二分类结果进行融合，得到目标RGB视频的动作识别结果。

在其中一个实施例中，m不大于3。

在其中一个实施例中，T不大于7。

在其中一个实施例中，将RGB数据流输入至预设模型，输出第一分类结果之前，还包括：

从每一视频段中随机选取一帧图像，并由随机选取的所有图像构成RGB数据流。

在其中一个实施例中，对目标RGB视频进行分段处理，得到T个视频段，包括：

对目标RGB视频进行平均分段处理，得到均分的T个视频段。

在其中一个实施例中，将多个图像组中每一图像组分别输入至预设模型之前，还包括：

基于第一样本集对初始模型进行训练，得到预训练模型；

基于第二样本集对预训练模型进行再训练，得到预设模型，第二样本集是由包含动作的样本图像所确定的，第一样本集是由随机选取的样本图像所确定的，第一样本集中的样本总数量大于第二样本集中的样本总数量。

在其中一个实施例中，将第一分类结果及每一第二分类结果进行融合，得到目标RGB视频的动作识别结果，包括：

获取第一分类结果的权重及每一第二分类结果的权重；

其中，第一分类结果的权重高于每一图像组的第二分类结果的权重；

将第一分类结果中每种动作类别的概率与第一分类结果的权重进行相乘，将第一分类结果中每种动作类别对应的乘积重新作为第一分类结果中每种动作类别对应的概率，将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘，将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率；

将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加，将相加结果作为每一动作类别对应的最终概率；

将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。

一种人体动作识别装置，该装置包括：

获取模块，用于基于目标RGB视频，获取m个图像组，m不小于2，m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得；

处理模块，用于对于m个图像组中任一图像组，对目标RGB视频进行分段处理，得到T个视频段，T不小于3；

第一选取模块，用于对于T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；

构成模块，用于基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由T个视频段对应的T帧图像构成任一图像组；其中，预设范围为0至255，在获取m个图像组中每一图像组时所使用的预设间隔均不同；

第一输出模块，用于将RGB数据流输入至预设模型，输出第一分类结果，RGB数据流是由目标RGB视频中的部分图像帧所组成的；

第二输出模块，用于将多个图像组中每一图像组分别输入至预设模型，输出每一图像组的第二分类结果，第一分类结果包括RGB数据流中各种动作类别的概率，每一图像组的第二分类结果包括每一图像组中各种动作类别的概率；

融合模块，用于将第一分类结果及每一第二分类结果进行融合，得到目标RGB视频的动作识别结果。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

上述人体动作识别方法、装置、计算机设备和存储介质，通过基于目标RGB视频，获取m个图像组，对于m个图像组中任一图像组，对目标RGB视频进行分段处理，得到T个视频段，T不小于3，对于T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得，而不是像提取光流一样需要涉及大量的解方程运算，从而使得计算量减少，进而提高目标RGB视频的动作识别速度。

附图说明

图1为一个实施例中人体动作识别方法的流程示意图；

图2为另一个实施例中人体动作识别方法的流程示意图；

图3为一个实施例中人体动作识别装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对上述相关技术中存在的问题，本发明实施例提供了一种人体动作识别方法，该方法可以应用于服务器中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。需要说明的是，本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量，比如，“多个”指“至少两个”。

在对本发明实施例的具体实施方式进行说明之前，先对本发明实施例的主要应用场景进行说明。本发明实施例中的人体动作识别方法主要应用于识别出视频中的人体动作，例如，视频监控领域中，主要通过识别出监控视频中的人体动作，若监控视频中人体的动作存在异常，则及时向有关部门发送警报。

结合上述实施例的内容，在一个实施例中，如图1所示，提供了一种人体动作识别方法，以该方法应用于服务器，且执行主体为服务器为例进行说明，该方法包括如下步骤：

101、基于目标RGB视频，获取m个图像组，m不小于2，m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得；

102、对于m个图像组中任一图像组，对目标RGB视频进行分段处理，得到T个视频段，T不小于3；

103、对于T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；

104、基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由T个视频段对应的T帧图像构成任一图像组；其中，预设范围为0至255，在获取m个图像组中每一图像组时所使用的预设间隔均不同；

105、将RGB数据流输入至预设模型，输出第一分类结果，RGB数据流是由目标RGB视频中的部分图像帧所组成的；

106、将多个图像组中每一图像组分别输入至预设模型，输出每一图像组的第二分类结果，第一分类结果包括RGB数据流中各种动作类别的概率，每一图像组的第二分类结果包括每一图像组中各种动作类别的概率；

107、将第一分类结果及每一第二分类结果进行融合，得到目标RGB视频的动作识别结果。

在上述步骤101中，目标RGB视频可以为包含一种动作类别的视频段。对于m个图像组中任一图像组，本发明实施例不对基于目标RGB视频，获取该图像组的方式作具体限定，包括但不限于：基于预设间隔，在目标RGB视频中选取Y帧图像；对Y帧图像进行分段处理，得到Z个候选图像组，Z不小于3；对于Z个候选图像组中每一候选图像组，基于每一候选图像组对应的Y/Z帧图像，获取每一候选图像组对应的Y/Z帧图像中每相邻两帧图像之间的差值的绝对值；对每一候选图像组对应的Y/Z帧图像中每相邻两帧图像之间的差值的绝对值进行求和；将求和结果归一化至预设范围，以获得每一候选图像组对应的一帧图像，并由Z个候选图像组对应的Z帧图像构成任一图像组。

其中，预设范围为0至255。另外，对于m个图像组中其它图像组，在获取其它图像组时的方式也可参考上述内容，只是在获取m个图像组中每一图像组时所使用的预设间隔可以均不同。另外，对于某一图像组，由于该图像组是由各个候选图像组各确定一帧图像所构成的，从而Z越大，则该图像组中包含的图像数量越多。而图像组中包含的图像数量越多，则能够越多覆盖视频中呈现动作类别的相关信息。

以Y＝12、Z＝3为例，对“基于目标RGB视频，获取m个图像组中任一图像组”的具体过程进行解释说明：首先，基于预设间隔，在目标RGB视频中选取12帧图像；然后，将12帧图像分为3段，得到3个候选图像组，每个候选图像组均由4帧图像组成；最后，基于每一候选图像组对应的4帧图像，确定每一候选图像组对应的一帧图像，最终基于3个候选图像组，确定3帧图像，由这3帧图像构成该图像组。其中，对于m个图像组中其它图像组，在获取其它图像组时的方式也可参考上述内容，只是在获取m个图像组中每一图像组时所使用的预设间隔可以均不同，预设间隔不同，相应的，基于预设间隔，在目标RGB视频中选取的图像的数量也不同，预设间隔越小，在目标RGB视频中选取的图像的数量越多，而图像的数量越多，则能够越多覆盖视频中呈现动作类别的相关信息。另外，在目标RGB视频中选取Y帧图像进行平均分段处理，得到均分的Z个候选图像组，目的是使得基于每一候选图像组对应的Y/Z帧图像，所确定每一候选图像组对应的一帧图像包含的动作信息越多，不会出现基于某一候选图像组，所确定的一帧图像包含的动作信息很少。

在上述步骤102中，T的取值越大，得到的视频段数量越多，由此，得到的图像数量也越多，也即任一图像组包含的图像数量越多，从而能够越多覆盖视频中呈现动作类别的相关信息，进而使得目标RGB视频的动作识别结果更加精确。

以T＝3，n＝4为例，对基于目标RGB视频，获取m个图像组的具体过程进行解释说明：对目标RGB视频进行分段处理，得到3个视频段；对于3个视频段中每一视频段，基于预设间隔，在每一视频段中选取4帧图像，基于每一视频段对应的4帧图像，确定每一视频段对应的一帧图像，并由3个视频段对应的3帧图像构成任一图像组。

在上述步骤104中，“基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像”的步骤，获得每一视频段对应的一帧图像的计算式可以如下公式(1)及(2)所示，本发明实施例对此不作具体限定：

其中，MI是指该帧图像，∑是累加符号，a是预设间隔，frame是指视频中的一帧，frame的下标(i+1)×a代表frame在整个视频片段中所处的位置，

表示向下取整，x′代表处理后的像素，x代表处理前的像素，Xmin是指该帧图像中最低的像素值，Xmax是指该帧图像中最高的像素值。

其中，归一化的目的是因为基于求和结果确定的一帧图像，其像素值可能超出取值范围，引起图像失真，会影响目标RGB视频的动作识别结果，为了提高目标RGB视频的动作识别结果的精度，因此，对基于求和结果确定的一帧图像进行归一化处理，将像素值控制在0至255。

在上述步骤105中，预设模型可以为InceptionNet,ResNet,VGG等，本发明实施例对此不作具体限定。另外，将RGB数据流输入至预设模型，输出第一分类结果之前，还包括：基于预设间隔，从目标RGB视频中选取Z帧图像，并由选取的Z帧图像构成RGB数据流。

在上述步骤107中，将第一分类结果及每一第二分类结果进行融合，得到目标RGB视频的动作识别结果，包括：将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加，将相加结果作为每一动作类别对应的最终概率；将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。

例如，基于目标RGB视频，获取到一个RGB数据流及2个图像组，对应地，有一个第一分类结果及两个第二分类结果，两个第二分类结果分别为第一个第二分类结果及第二个第二分类结果；其中，第一分类结果包括RGB数据流中各种动作类别的概率，第一个第二分类结果包括其中一个图像组中各种动作类别的概率，第二个第二分类结果包括另外一个图像组中各种动作类别的概率。具体地，第一分类结果包括的各种动作类别的概率分别为：打篮球这种动作类别的概率为0.4，踢足球这种动作类别的概率为0.3，打羽毛球这种动作类别的概率为0.3；第一个第二分类结果包括的各种动作类别的概率分别为：打排球这种动作类别的概率为0.25，跑步这种动作类别的概率为0.25，打羽毛球这种动作类别的概率为0.2，打篮球这种动作类别的概率为0.3；第二个第二分类结果包括的各种动作类别的概率分别为：打排球这种动作类别的概率为0.3，打羽毛球这种动作类别的概率为0.15，跑步这种动作类别的概率为0.3，打篮球这种动作类别的概率为0.25。得到目标RGB视频的动作识别结果的过程可以为：

将第一分类结果中打篮球这种动作类别的概率及两个第二分类结果中打篮球这种动作类别的概率进行相加，得到打篮球这种动作类别对应的最终概率为0.4+0.3+0.25＝0.95；将第一分类结果中踢足球这种动作类别的概率及两个第二分类结果中踢足球这种动作类别的概率进行相加，得到踢足球这种动作类别对应的最终概率为0.3+0+0＝0.3；将第一分类结果中打羽毛球这种动作类别的概率及两个第二分类结果中打羽毛球这种动作类别的概率进行相加，得到打羽毛球这种动作类别对应的最终概率为0.3+0.2+0.15＝0.65；将第一分类结果中打排球这种动作类别的概率及两个第二分类结果中打排球这种动作类别的概率进行相加，得到打排球这种动作类别对应的最终概率为0+0.25+0.3＝0.55；将第一分类结果中跑步这种动作类别的概率及两个第二分类结果中跑步这种动作类别的概率进行相加，得到跑步这种动作类别对应的最终概率为0+0.25+0.3＝0.55；最大的最终概率为0.95，所对应的动作类别为打篮球这种动作类别，从而确定目标RGB视频的动作识别结果为打篮球。

本发明实施例提供的方法，通过对目标RGB视频进行分段处理，得到T个视频段，T不小于3，对于T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得，而不是像提取光流一样需要涉及大量的解方程运算，从而使得计算量减少，进而提高目标RGB视频的动作识别速度。

结合上述实施例的内容，在一个实施例中，m不大于3。具体的，当m为3时，所得到的目标RGB视频的动作识别结果是最精确的，当m大于3时，识别精度与m的取值不再呈正相关，也即识别精度不会随着m的取值变大而变得更高。

结合上述实施例的内容，在一个实施例中，T不大于7。具体的，当对目标RGB视频进行分段处理，得到7个视频段时，所得到的目标RGB视频的动作识别结果是最精确的，当T大于7时，识别精度与T的取值不再呈正相关，也即识别精度不会随着T的取值变大而变得更高。

结合上述实施例的内容，在一个实施例中，将RGB数据流输入至预设模型，输出第一分类结果之前，还包括：从每一视频段中随机选取一帧图像，并由随机选取的所有图像构成RGB数据流。

还是以T＝3为例，对从每一视频段中随机选取一帧图像，并由随机选取的所有图像构成RGB数据流的具体过程进行解释说明：

目标RGB视频被分为了3个视频段，从每一视频段中随机选取一帧图像，最终从3个视频段中一共选取出了3帧图像，由这3帧图像构成RGB数据流。

需要说明的是，T的取值越大，得到的视频段数量越多，对应地，随机选取出的图像数量也越多，也即RGB数据流包含的图像数量越多，从而能够越多覆盖视频中呈现动作类别的相关信息，进而使得目标RGB视频的动作识别结果更加精确。

结合上述实施例的内容，在一个实施例中，对目标RGB视频进行分段处理，得到T个视频段，包括：对目标RGB视频进行平均分段处理，得到均分的T个视频段。

其中，对目标RGB视频平均分段处理的目的是能够越多覆盖视频中呈现动作类别的相关信息，从而提高目标RGB视频的动作识别结果的精度。

本发明实施例提供的人体动作识别方法，通过对目标RGB视频进行平均分段处理，得到均分的T个视频段，从而使得能够越多覆盖视频中呈现动作类别的相关信息，进而提高目标RGB视频的动作识别结果的精度。

结合上述实施例的内容，在一个实施例中，如图2所示，将多个图像组中每一图像组分别输入至预设模型之前，还包括：

201、基于第一样本集对初始模型进行训练，得到预训练模型；

202、基于第二样本集对预训练模型进行再训练，得到预设模型，第二样本集是由包含动作的样本图像所确定的，第一样本集是由随机选取的样本图像所确定的，第一样本集中的样本总数量大于第二样本集中的样本总数量。

在上述步骤201中，第一样本集可以为ImageNet。相应的，本发明不对基于ImageNet对初始模型进行训练，得到预训练模型的方式作限定，包括但不限于：采用ResNet50在ImageNet数据集上训练，将训练好的ResNet50网络作为预训练模型。

在上述步骤202中，第二样本集可以包括UCF-101和/或HMDB-51。以第一样本集为ImageNet，第二样本集为HMDB-51为例，对基于第二样本集对预训练模型进行再训练，得到预设模型的具体过程进行解释说明：采用在ImageNet数据集上训练好的ResNet50网络作为初始参数，在HMDB-51数据集上进行微调训练，将训练好的ResNet50网络作为预设模型。

本发明实施例提供的人体动作识别方法，通过预先利用样本总数量较多的第一样本集，例如ImageNet对初始模型进行训练，使初始模型的内部参数优化到较好的状态，得到预训练模型，此时模型的内部参数已不需大幅改动；然后，再将预训练模型放到样本总数量较少的第二样本集上训练，得到预设模型，从而降低模型的训练时间，且能提高目标RGB视频的动作识别精度。

结合上述实施例的内容，在一个实施例中，将第一分类结果及每一第二分类结果进行融合，得到目标RGB视频的动作识别结果，包括：获取第一分类结果的权重及每一第二分类结果的权重；其中，第一分类结果的权重高于每一图像组的第二分类结果的权重；将第一分类结果中每种动作类别的概率与第一分类结果的权重进行相乘，将第一分类结果中每种动作类别对应的乘积重新作为第一分类结果中每种动作类别对应的概率，将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘，将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率；将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加，将相加结果作为每一动作类别对应的最终概率；将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。

以“基于目标RGB视频，获取到一个RGB数据流及2个图像组。相应地，有一个第一分类结果及两个第二分类结果，两个第二分类结果分别为第一个第二分类结果及第二个第二分类结果，且第一分类结果的权重为0.5，第一个第二分类结果的权重及第二个第二分类结果的权重均为0.25。其中，第一分类结果包括RGB数据流中各种动作类别的概率，第一个第二分类结果包括其中一个图像组中各种动作类别的概率，第二个第二分类结果包括另外一个图像组中各种动作类别的概率。具体地，第一分类结果包括的各种动作类别的概率分别为：打篮球这种动作类别的概率为0.4，踢足球这种动作类别的概率为0.3，打羽毛球这种动作类别的概率为0.3；第一个第二分类结果包括的各种动作类别的概率分别为：打排球这种动作类别的概率为0.25，跑步这种动作类别的概率为0.25，打羽毛球这种动作类别的概率为0.2，打篮球这种动作类别的概率为0.3；第二个第二分类结果包括的各种动作类别的概率分别为：打排球这种动作类别的概率为0.3，打羽毛球这种动作类别的概率为0.15，跑步这种动作类别的概率为0.3，打篮球这种动作类别的概率为0.25”为例，对将第一分类结果及每一第二分类结果进行融合，得到目标RGB视频的动作识别结果的具体过程进行解释说明：

将第一分类结果中打篮球这种动作类别的概率0.4与第一分类结果的权重0.5进行相乘，结果为0.2，将0.2重新作为第一分类结果中打篮球这种动作类别对应的概率；将第一分类结果中踢足球这种动作类别的概率0.3与第一分类结果的权重0.5进行相乘，结果为0.15，将0.15重新作为第一分类结果中踢足球这种动作类别对应的概率；将第一分类结果中打羽毛球这种动作类别的概率0.3与第一分类结果的权重0.5进行相乘，结果为0.15，将0.15重新作为第一分类结果中打羽毛球这种动作类别对应的概率。

将第一个第二分类结果中打排球这种动作类别的概率0.25与第一个第二分类结果的权重0.25进行相乘，结果为0.0625，将0.0625重新作为第一个第二分类结果中打排球这种动作类别对应的概率；将第一个第二分类结果中跑步这种动作类别的概率0.25与第一个第二分类结果的权重0.25进行相乘，结果为0.0625，将0.0625重新作为第一个第二分类结果中跑步这种动作类别对应的概率；将第一个第二分类结果中打羽毛球这种动作类别的概率0.2与第一个第二分类结果的权重0.25进行相乘，结果为0.05，将0.05重新作为第一个第二分类结果中打羽毛球这种动作类别对应的概率；将第一个第二分类结果中打篮球这种动作类别的概率0.3与第一个第二分类结果的权重0.25进行相乘，结果为0.075，将0.075重新作为第一第二分类结果中打篮球这种动作类别对应的概率。

将第二个第二分类结果中打排球这种动作类别的概率0.3与第二个第二分类结果的权重0.25进行相乘，结果为0.075，将0.075重新作为第二个第二分类结果中打排球这种动作类别对应的概率；将第二个第二分类结果中打羽毛球这种动作类别的概率0.15与第二个第二分类结果的权重0.25进行相乘，结果为0.0375，将0.0375重新作为第二个第二分类结果中打羽毛球这种动作类别对应的概率；将第二个第二分类结果中跑步这种动作类别的概率0.3与第二个第二分类结果的权重0.25进行相乘，结果为0.075，将0.075重新作为第二个第二分类结果中跑步这种动作类别对应的概率；将第二个第二分类结果中打篮球这种动作类别的概率0.25与第二个第二分类结果的权重0.25进行相乘，结果为0.0625，将0.0625重新作为第二个第二分类结果中打篮球这种动作类别对应的概率。

将第一分类结果中打篮球这种动作类别的概率及两个第二分类结果中打篮球这种动作类别的概率进行相加，得到打篮球这种动作类别对应的最终概率为0.2+0.075+0.0625＝0.3375；将第一分类结果中踢足球这种动作类别的概率及两个第二分类结果中踢足球这种动作类别的概率进行相加，得到踢足球这种动作类别对应的最终概率为0.15+0+0＝0.15；将第一分类结果中打羽毛球这种动作类别的概率及两个第二分类结果中打羽毛球这种动作类别的概率进行相加，得到打羽毛球这种动作类别对应的最终概率为0.15+0.05+0.0375＝0.2375；将第一分类结果中打排球这种动作类别的概率及两个第二分类结果中打排球这种动作类别的概率进行相加，得到打排球这种动作类别对应的最终概率为0+0.0625+0.075＝0.1375；第一分类结果中跑步这种动作类别的概率及两个第二分类结果中跑步这种动作类别的概率进行相加，得到跑步这种动作类别对应的最终概率为0+0.0625+0.075＝0.1375；最大的最终概率为0.3375，所对应的动作类别为打篮球这种动作类别，从而确定目标RGB视频的动作识别结果为打篮球。

本发明实施例提供的人体动作识别方法，通过采用加权融合的方式对第一分类结果和两个第二分类结果中动作类别的概率进行修正，从而使确定的目标RGB视频的动作识别结果更精确。

应该理解的是，虽然图1-图2的流程图中的各种步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

结合上述实施例的内容，在一个实施例中，如图3所示，提供了一种人体动作识别装置，该装置包括：

获取模块301，用于基于目标RGB视频，获取m个图像组，m不小于2，m个图像组中每一图像组均是由目标RGB视频中的部分图像帧计算所得；

处理模块302，用于对于m个图像组中任一图像组，对目标RGB视频进行分段处理，得到T个视频段，T不小于3；

第一选取模块303，用于对于T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；

构成模块304，用于基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由T个视频段对应的T帧图像构成任一图像组；其中，预设范围为0至255，在获取m个图像组中每一图像组时所使用的预设间隔均不同；

第一输出模块305，用于将RGB数据流输入至预设模型，输出第一分类结果，RGB数据流是由目标RGB视频中的部分图像帧所组成的；

第二输出模块306，用于将多个图像组中每一图像组分别输入至预设模型，输出每一图像组的第二分类结果，第一分类结果包括RGB数据流中各种动作类别的概率，每一图像组的第二分类结果包括每一图像组中各种动作类别的概率；

融合模块307，用于将第一分类结果及每一第二分类结果进行融合，得到目标RGB视频的动作识别结果。

在一个实施例中，m不大于3。

在一个实施例中，T不大于7。

在一个实施例中，该装置还包括：第二选取模块，用于从每一视频段中随机选取一帧图像，并由随机选取的所有图像构成RGB数据流。

在一个实施例中，处理模块302，还用于对目标RGB视频进行平均分段处理，得到均分的T个视频段。

在一个实施例中，该装置还包括：第一训练模块，用于基于第一样本集对初始模型进行训练，得到预训练模型；第二训练模块，用于基于第二样本集对预训练模型进行再训练，得到预设模型，第二样本集是由包含动作的样本图像所确定的，第一样本集是由随机选取的样本图像所确定的，第一样本集中的样本总数量大于第二样本集中的样本总数量。

在一个实施例中，融合模块307，还用于获取第一分类结果的权重及每一第二分类结果的权重；其中，第一分类结果的权重高于每一图像组的第二分类结果的权重；将第一分类结果中每种动作类别的概率与第一分类结果的权重进行相乘，将第一分类结果中每种动作类别对应的乘积重新作为第一分类结果中每种动作类别对应的概率，将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘，将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率；将每一动作类别在第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加，将相加结果作为每一动作类别对应的最终概率；将最大的最终概率所对应的动作类别作为目标RGB视频的动作识别结果。

本发明实施例提供的装置，通过处理模块302用于对目标RGB视频进行分段处理，得到T个视频段，T不小于3；通过第一选取模块303用于对于T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；通过构成模块304用于基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由T个视频段对应的T帧图像构成任一图像组。由于任一图像组是通过解少量线性方程计算所得，而不是像提取光流一样需要涉及大量的解方程运算，从而使得计算量减少，进而提高目标RGB视频的动作识别速度。

关于人体动作识别装置的具体限定可以参见上文中对于人体动作识别方法的限定，在此不再赘述。上述人体动作识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储退役电池的各项性能指标。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人体动作识别方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从每一视频段中随机选取一帧图像，并由随机选取的所有图像构成RGB数据流。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对目标RGB视频进行平均分段处理，得到均分的T个视频段。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于第一样本集对初始模型进行训练，得到预训练模型；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取第一分类结果的权重及每一第二分类结果的权重；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人体动作识别方法，其特征在于，所述方法包括：

基于目标RGB视频，获取m个图像组，所述m不小于2，所述m个图像组中每一图像组均是由所述目标RGB视频中的部分图像帧计算所得；

对于m个图像组中任一图像组，对所述目标RGB视频进行分段处理，得到T个视频段，所述T不小于3；

对于所述T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；

基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对所述每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由所述T个视频段对应的T帧图像构成所述任一图像组；其中，所述预设范围为0至255，在获取所述m个图像组中每一图像组时所使用的预设间隔均不同；

将所述RGB数据流输入至预设模型，输出第一分类结果，所述RGB数据流是由所述目标RGB视频中的部分图像帧所组成的；

将所述多个图像组中每一图像组分别输入至所述预设模型，输出每一图像组的第二分类结果，所述第一分类结果包括所述RGB数据流中各种动作类别的概率，每一图像组的第二分类结果包括每一图像组中各种动作类别的概率；

将所述第一分类结果及每一第二分类结果进行融合，得到所述目标RGB视频的动作识别结果。

2.根据权利要求1所述的方法，其特征在于，所述m不大于3。

3.根据权利要求1所述的方法，其特征在于，所述T不大于7。

4.根据权利要求1所述的方法，其特征在于，所述将所述RGB数据流输入至预设模型，输出第一分类结果之前，还包括：

从每一视频段中随机选取一帧图像，并由随机选取的所有图像构成所述RGB数据流。

5.根据权利要求4所述的方法，其特征在于，所述对所述目标RGB视频进行分段处理，得到T个视频段，包括：

对所述目标RGB视频进行平均分段处理，得到均分的T个视频段。

6.根据权利要求1所述的方法，其特征在于，所述将所述多个图像组中每一图像组分别输入至所述预设模型之前，还包括：

基于第一样本集对初始模型进行训练，得到预训练模型；

基于第二样本集对预训练模型进行再训练，得到所述预设模型，所述第二样本集是由包含动作的样本图像所确定的，所述第一样本集是由随机选取的样本图像所确定的，所述第一样本集中的样本总数量大于所述第二样本集中的样本总数量。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述将所述第一分类结果及每一第二分类结果进行融合，得到所述目标RGB视频的动作识别结果，包括：

获取所述第一分类结果的权重及每一第二分类结果的权重；

其中，所述第一分类结果的权重高于每一图像组的第二分类结果的权重；

将第一分类结果中每种动作类别的概率与所述第一分类结果的权重进行相乘，将所述第一分类结果中每种动作类别对应的乘积重新作为所述第一分类结果中每种动作类别对应的概率，将每一第二分类结果中每种动作类别的概率与每一第二分类结果的权重进行相乘，将每一第二分类结果中每种动作类别对应的乘积重新作为每一第二分类结果中每种动作类别对应的概率；

将每一动作类别在所述第一分类结果中的概率及每一动作类别在每一第二分类结果中的概率进行相加，将相加结果作为每一动作类别对应的最终概率；

将最大的最终概率所对应的动作类别作为所述目标RGB视频的动作识别结果。

8.一种人体动作识别装置，其特征在于，所述装置包括：

获取模块，用于基于目标RGB视频，获取m个图像组，所述m不小于2，所述m个图像组中每一图像组均是由所述目标RGB视频中的部分图像帧计算所得；

处理模块，用于对于m个图像组中任一图像组，对所述目标RGB视频进行分段处理，得到T个视频段，所述T不小于3；

第一选取模块，用于对于所述T个视频段中每一视频段，基于预设间隔，在每一视频段中选取n帧图像；

构成模块，用于基于每一视频段对应的n帧图像，获取每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值，对所述每一视频段对应的n帧图像中每相邻两帧图像之间的差值的绝对值进行求和，将求和结果归一化至预设范围，以获得每一视频段对应的一帧图像，并由所述T个视频段对应的T帧图像构成所述任一图像组；其中，所述预设范围为0至255，在获取所述m个图像组中每一图像组时所使用的预设间隔均不同；

第一输出模块，用于将所述RGB数据流输入至预设模型，输出第一分类结果，所述RGB数据流是由所述目标RGB视频中的部分图像帧所组成的；

第二输出模块，用于将所述多个图像组中每一图像组分别输入至所述预设模型，输出每一图像组的第二分类结果，所述第一分类结果包括所述RGB数据流中各种动作类别的概率，每一图像组的第二分类结果包括每一图像组中各种动作类别的概率；

融合模块，用于将所述第一分类结果及每一第二分类结果进行融合，得到所述目标RGB视频的动作识别结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。