CN112183252B

CN112183252B - 视频的动作识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112183252B
Application number: CN202010969777.4A
Authority: CN
Inventors: 高宗; 陈彦宇; 马雅奇; 谭龙田; 周慧子; 陈高
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2024-09-10
Anticipated expiration: 2040-09-15
Also published as: CN112183252A

Abstract

本发明提供一种视频的动作识别方法、装置、计算机设备和存储介质，该方法包括获取样本视频；采用目标检测模型对样本视频进行目标检测，获得样本视频中的动作目标；采用跟踪算法对动作目标在样本视频的各帧图像中进行跟踪，获得样本视频的各帧图像中动作目标的目标区域；将各目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各动作目标的动作类别。先采用目标检测算法实现对视频中的目标进行锁定，然后采用跟踪算法对目标位置进行跟踪，捕捉动作变化，将跟踪到的目标区域作为感兴趣区域截取出来，输入到预先训练得到的动作识别模型，进行动作识别。能够有效提高动作特征提取效率，能够达到提高动作识别准确率的效果。

Description

视频的动作识别方法、装置、计算机设备和存储介质

技术领域

本发明涉及视频的动作识别技术领域，特别涉及一种视频的动作识别方法、装置、计算机设备和存储介质。

背景技术

动作识别的目的是判断一段视频中目标动作的类别。其主要信息来源为视频帧，即RGB图像，相较于CNN(Convolutional Neural Networks，卷积神经网络)图像分类，该任务需要考虑在长范围时间内，网络对动作变化的建模能力。TSN(Temporal SegmentNetworks)检测方法以深度卷积神经网络为基础，通过稀疏时间采样策略对整段视频进行学习，完成动作建模，达到动作识别的目的。

TSN网络方法需要将采样到的视频帧作为网络输入，由于输入的是整幅图像，其中包含有很多背景信息，对于识别视频中目标动作类别而言，背景均属于干扰信息，不利于动作特征的学习。导致对于视频中小目标的动作识别准确率较低，而且对多目标动作类别的识别无能为力。

发明内容

基于此，有必要针对上述技术问题，提供一种视频的动作识别方法、装置、计算机设备和存储介质。

一种视频的动作识别方法，包括：

获取样本视频；

采用目标检测模型对所述样本视频进行目标检测，获得所述样本视频中的动作目标；

采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪，获得所述样本视频的各帧图像中所述动作目标的目标区域；

将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别。

在其中一个实施例中，所述采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪的步骤包括：

采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪；

每间隔预设时间，采用所述目标检测模型对跟踪的所述动作目标进行校正。

在其中一个实施例中，还包括：

获取动作数据集，其中，所述动作数据集标注了动作类别；

将所述动作数据集输入至神经网络进行模型训练，基于所述动作数据集，获得可用于判断动作目标的动作类别的动作识别模型。

在其中一个实施例中，所述将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别的步骤包括：

将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，输出M*C维的向量，其中，M为动作目标的数量，C为动作类别的数量；

获得M*C维的向量的向量值；

从各所述向量值中提取最大的向量值对应的动作类别，确定为所述动作目标的动作类别。

在其中一个实施例中，所述获取动作数据集的步骤之前还包括：

采集用于动作识别的动作数据集；

对所述动作数据集的各动作类别进行标注。

从所述样本视频平均间隔或者随机提取N帧图像，其中，N为大于1的整数，其中，N为大于1的整数；

将提取的N帧图像中的各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别。

在其中一个实施例中，所述从所述样本视频平均间隔或者随机提取N帧图像的步骤包括：

将所述样本视频平均划分为S段，并在每一段的所述样本视频中随机提取N帧图像，其中，S为大于1的整数。

一种视频的动作识别装置，包括：

样本视频获取模块，用于获取样本视频；

动作目标检测获得模块，用于采用目标检测模型对所述样本视频进行目标检测，获得所述样本视频中的动作目标；

目标区域获得模块，用于采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪，获得所述样本视频的各帧图像中所述动作目标的目标区域；

动作类别训练获得模块，用于将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

获取样本视频；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取样本视频；

上述视频的动作识别方法、装置、计算机设备和存储介质，在数据采样阶段，先采用目标检测算法实现对视频中的目标进行锁定，然后采用跟踪算法对目标位置进行跟踪，捕捉动作变化，将跟踪到的目标区域作为感兴趣区域截取出来，输入到预先训练得到的动作识别模型中，进行动作识别，从而识别出目标的动作类别。能够有效提高动作特征提取效率，并且能够达到提高动作识别准确率的效果。

附图说明

图1为一个实施例中视频的动作识别方法的流程示意图；

图2为一个实施例中视频的动作识别装置的结构框图；

图3为一个实施例中计算机设备的内部结构图；

图4为一个实施例中视频的动作识别方法的实施过程示意图；

图5为一个实施例中的视频的动作识别方法中目标检测和跟踪获得目标区域的过程的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例一

本实施例中，如图1所示，提供了一种视频的动作识别方法，其包括：

步骤110，获取样本视频。

具体地，该样本视频内包含至少一个活动的人物。

步骤120，采用目标检测模型对所述样本视频进行目标检测，获得所述样本视频中的动作目标。

具体地，动作目标即为视频中活动的人物，或者是，该动作目标为视频中实施动作的人物，该动作目标也可以称为该动作人物目标。目标检测模型也可以称为目标检测算法，用于对视频中的目标进行检测，确定视频中的目标。本实施例中，采用目标检测模型，对样本视频中的活动的人物进行检测，从样本视频中确定动作目标，从而将活动的人物从视频的背景中区分出来。

一个实施例中，目标检测模型为YOLOv3模型，比如，采用YOLOv3模型对所述样本视频进行目标检测，获得所述样本视频中的动作目标。应该理解的是，本申请中，还可以通过其他的目标检测模型进行目标检测，比如，SSD、Mask R-CNN、M2Det等。

一个实施例中，采用目标检测模型对所述样本视频的首帧进行目标检测，获得所述样本视频中的动作目标。

本实施例中，首帧即为样本视频的第一帧图像，本步骤中，以单个的样本视频片段V为例，对样本视频的首帧采用目标检测模型进行目标检测，可以得到其中所有类别为人的目标，并输出目标的边界，假设目标人数为M，则目标区域为M*(x0,y0,x1,y1)，本实施例中，目标区域的形状为矩形框，其中(x0,y0)，(x1,y1)分别为目标区域的左上角和右下角。

步骤130，采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪，获得所述样本视频的各帧图像中所述动作目标的目标区域。

具体地，由于样本视频包含多帧的图像，各帧图像中，人物的位置、大小将随着人物的运动发生改变，在视频的图像中表现为，动作目标的矩形框的坐标位置、尺寸将随着视频帧的播放和人物的运动而变化。这样，在首帧中确定的动作目标可能随着人物的位置、大小的变化而丢失，导致在样本视频的后续播放中，无法确定动作目标。

应该理解的是，单纯的目标检测模型在实际应用中难以达到随着视频播放实时检测动作目标效果，为弥补检测速度上的不足，结合速度更快的目标跟踪算法进行目标跟踪，以达到目标实时锁定的目的。本步骤中，以上述在样本视频的首帧检测到的动作目标的矩形框作为初始框，使用跟踪算法对检测到的动作目标的目标区域进行跟踪。该目标区域在图像中呈框型，因此，目标区域即为动作目标的矩形框或者目标框。

本实施例中，采用检测速度可达200Fps(Frames Per Second，每秒传输帧数)的相关滤波追踪算法DSST(Discriminative Scale Space Tracker)，该算法通过位置滤波器和尺度滤波器对目标进行定位和尺度评估，达到对目标的实时跟踪。

因此，本实施例中，采用跟踪算法对样本视频的各帧的图像的动作目标进行跟踪，以使得在样本视频的各帧图像中，均可对首帧图像中确定的动作目标进行跟踪，实时确定该动作目标的矩形框，避免动作目标的丢失，并且，能够快速地确定每一帧图像中的动作目标的位置、大小。

步骤140，将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别。

本实施例中，采用跟踪算法跟踪获得的各帧图像的动作目标的目标区域，为感兴趣区域(ROI，region of interest)，将目标区域作为感兴趣区域输入至神经网络进行训练，从而得到各动作人物的动作类别。具体地，上述步骤获得的目标区域做为输入，以动作类别作为标签，输入至预先训练得到的动作识别模型进行动作识别，即可得到该动作目标的动作类别，从而实现对人物的动作的识别。

上述实施例中，在数据采样阶段，先采用目标检测算法实现对视频中的目标进行锁定，然后采用跟踪算法对目标位置进行跟踪，捕捉动作变化，将跟踪到的目标区域作为感兴趣区域截取出来，输入到预先训练得到的动作识别模型中，进行动作识别，从而识别出目标的动作类别。能够有效提高动作特征提取效率，并且能够达到提高动作识别准确率的效果。

应该理解的是，在样本视频的播放过程中，存在着动作目标位移较大的情况，这样，可能导致动作目标的丢失，无法在视频播放过程中确定该人物，即使采用里跟踪算法，也会由于动作目标的位移多大而无法即使跟踪，导致目标丢失，同样地，如果目标消失后再出现，跟踪算法也是是无法对该目标进行再跟踪，此外，跟踪算法对目标的跟踪存在误差，在长时间跟踪过程中，将会导致误差累计，当误差累计到较大时，也会导致目标丢失，因此，为了避免这一问题，提高对动作目标的跟踪精度，在一个实施例中，所述采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪的步骤包括：采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪；每间隔预设时间，采用所述目标检测模型对跟踪的所述动作目标进行校正。

本实施例中，为防止在跟踪过程中出现目标框漂移过大的情况，每间隔时间t采用目标检测模型对动作目标的目标框进行校正，最终可以得到在每帧视频图像中，每个人物的目标区域，并可以截取出来，作为感兴趣区域(ROI)图像。应该理解的是，本实施例中采用的目标检测模型可以是与步骤120中的目标检测模型相同的模型，也可以是采用于步骤120中的目标检测模型相同的模型。本实施例中，通过每过一段时间，采用目标检测模型对样本视频中的其中一帧的图像进行再次的目标检测，以使得跟踪算法能够在每间隔一段时间对当前跟踪的目标进行校正，并且对丢失的目标进行再次跟踪。

这样，通过目标检测模型在跟踪过程中对动作目标的目标区域进行位置、尺寸的校正，一方面能够消除跟踪算法在跟踪过程中累计的误差，避免跟踪算法在样本视频的多帧播放过程中长时间跟踪导致的偏差增大；另一方面，避免了跟踪算法无法对该消失后再出现的目标无法进行跟踪，以及避免了由于运动幅度过大或者位移过大而导致的跟踪算法无法对目标进行跟踪的问题。从而使得动作目标的目标区域的获取更为精确。

本实施例中，通过目标检测模型和跟踪算法的结合，以形成互补，以实现对动作目标的捕捉的速度和准确性。具体地，如对视频的每一帧都进行目标检测，这样获得的目标虽然准确性高，但速度太慢，消耗较多的计算资源；如全程采用跟踪算法进行目标跟踪，虽然速度快，但准确性和鲁棒性较差。因此，本实施例中，通过目标检测模型和跟踪算法的结合，即可证速度，又可保证准确性。

在一个实施例中，该方法还包括：获取动作数据集，其中，所述动作数据集标注了动作类别；将所述动作数据集输入至神经网络进行模型训练，基于所述动作数据集，获得可用于判断动作目标的动作类别的动作识别模型。

本实施例中，应用于神经网络的训练阶段。本实施例中，该神经网络为TSN网络，该动作数据集中包含里了多个动作类别，并且这些动作类别都预先标注，这些已经预先标注的动作类别的动作数据集输入至作为神经网络进行训练，使得神经网络构建能够识别动作类别的动作识别模型，从而完成模型的训练，训练得到的模型即为动作识别模型，在对样本视频的动作类别进行识别中，即可利用该模型进行动作类别的识别。

一个实施例是，所述将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别的步骤为：将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，利用已训练得到的动作识别模型识别获得各所述动作目标的动作类别。

在一个实施例中，所述获取动作数据集的步骤之前还包括：采集用于动作识别的动作数据集；对所述动作数据集的各动作类别进行标注。

具体地，该数据集为视频片段，该视频片段为包含人物动作的视频片段。不同的视频片段中，人物的动作可能不同，并且，将这些不同的动作标注，进行分类，使得不同的动作类别得到分类，并且标注后，能够便于对比和识别。

本实施例中，首先采集用于动作识别的数据集并对动作进行标注，即采集包含有需要识别动作的视频片段，单目标单动作，假设需要对C类动作进行识别，对每类动作进行编号(1.2...C),标号0表示背景或其他动作。每个视频样本数据包含一个动作，每个类别(0～C)采集约1000个视频片段，然后对数据集进行标注，以如下样式：视频名称、动作类别标号。这样，通过对数据集中的动作类别进行标注，使得神经网络能够根据已经标注的动作类别，对输入的目标区域进行学习判定，获得目标区域的动作类别。

在一个实施例中，所述将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别的步骤包括：将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，输出M*C维的向量，其中，M为动作目标的数量，C为动作类别的数量；获得M*C维的向量的向量值；从各所述向量值中提取最大的向量值对应的动作类别，确定为所述动作目标的动作类别。

本实施例中，训练好的模型可以输出M*C维的向量，其中，M为动作目标的数量，C为动作类别的数量，该向量的向量值为识别为每类动作的置信度，置信度最高者所在索引即为目标的动作类别。这样，通过预先训练得到的动作识别模型输出各动作目标的多个向量值，并且获取这些向量值中最大的一个，以最大的向量值对应的在数据集中找到对应的动作类别，该动作类别即为动作目标的动作类别。

在一个实施例中，所述将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别的步骤包括：从所述样本视频平均间隔或者随机提取N帧图像，其中，N为大于1的整数；将提取的N帧图像中的各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别。

应该理解的是，由于样本视频的数据量较大，如将这些样本视频的每一帧的每一个动作目标作为预先训练得到的动作识别模型的感兴趣图像进行输入，将会由于计算量巨大而导致动作类别的识别效率低下。因此，本实施例中，对样本视频中的各帧图像进行提取，提取出N帧的图像，以提取的N帧的图像的目标区域作为感兴趣区域输入预先训练得到的动作识别模型进行动作识别，这样，能够有效减少数据量，提高识别效率。作为N帧图像的提取，可以是每间隔若干帧提取一帧图像，均匀地提取N帧，也可以是随机提取N帧。

为了减少输入至预先训练得到的动作识别模型的数据量，并提高数据的多样性，提高模型的鲁棒性，在一个实施例中，所述从所述样本视频平均间隔或者随机提取N帧图像的步骤包括：将所述样本视频平均划分为S段，并在每一段的所述样本视频中随机提取N帧图像，其中，S为大于1的整数。

应该了解的是，因为需要对整个视频片段中目标的动作类别进行判断，理想情况下是希望能将整个视频作为输入，但这样计算量巨大。考虑到邻近视频帧之间冗余信息较多，可以使用稀疏采样的方式，也就是从整段视频中取出几帧，但为保证取出的帧能包含整个视频频段的信息，先将其平均分为S段，每段中取N帧，这样取到的S*N帧可以近似代表原视频片段信息。此处采用随机的方式，可以理解为数据增强的一种方法，对同一个视频样本，每次取到的视频帧可能不一样，但该S*N帧又都可以代表该样本，这样提高了数据样本的多样性，可以提高模型的鲁棒性。

在其他实施例中，可以将样本视频随机划分为S段，并在每一段的所述样本视频中均匀间隔提取N帧图像，其中，S为大于1的整数。这样，也能够减少输入至神经网络的数据量，并提高数据的多样性，提高模型的鲁棒性。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

本实施例提供一种改进的TSN网络动作识别方法，请结合图4和图5，其实现步骤如下：

1)确定目标检测模型和数据集，当前目标检测方法比较成熟，考虑到检测速度，采用YOLOv3模型，使用公开数据集COCO进行训练，最终可以得到准确识别目标类别和目标边界的模型；

2)采集用于动作识别的数据集并对动作进行标注，即采集包含有需要识别动作的视频片段(单目标单动作)。假设需要对C类动作进行识别，对每类动作进行编号(1.2...C),标号0表示背景或其他动作。每个视频样本数据包含一个动作，每个类别(0～C)采集约1000个视频片段，然后对数据集进行标注，以如下样式(视频名称动作类别标号)；

3)以下4)、5)、6)为针对TSN检测方法进行改进的主要步骤(以检测人的动作为例)：

4)以单个数据样本视频片段V为例，对视频首帧采用1)中模型进行目标检测，可以得到其中所有类别为人的目标,并输出目标边界，假设目标人数为M，则目标区域为M*(x0,y0,x1,y1),其中(x0,y0),(x1,y1)分别为矩形框的左上角和右下角；；

5)考虑到1)中所述的目标检测算法在实际应用中很难达到实时效果,为弥补检测速度上的不足,结合速度更快的目标跟踪算法进行目标跟踪,以达到目标实时锁定的目的。以4)中检测到的目标框作为初始框，使用跟踪算法对检测到的目标进行跟踪，采用检测速度可达200Fps的相关滤波追踪算法DSST(Discriminative Scale Space Tracker),其通过位置滤波器和尺度滤波器对目标进行定位和尺度评估，达到对目标的实时跟踪。

为防止在跟踪过程中出现目标框漂移过大的情况，每间隔时间t使用1)中模型对目标框进行校正，如附图5所示。最终可以得到在每帧视频图像中，每个人的目标区域，并可以截取出来(以下称为ROI图像)。

一方面DDST跟踪会有误差累积，长时间跟踪偏差会变越来越大；另一方面，如果目标消失后再出现，DDST是没法再跟踪的，因此每过一段时间需要告诉它准确的目标在哪，让它以此再跟踪；总体上目标检测和DDST的结合是互补的方法。对视频每一帧都进行目标检测，也可以近似看做跟踪，准确性高但速度太慢，DDST速度快但准确性和鲁棒性较差，两种结合可以保证速度和准确性。

6)将视频V平均分为S段，则对于每个目标为人的对象，可以从每段视频对应的ROI中随机N帧图像，以此作为输入到TSN网络之前的原始数据；具体地址，因为需要对整个视频片段中目标的动作类别进行判断，理想情况下是希望能将整个视频作为输入，但这样计算量巨大。考虑到邻近视频帧之间冗余信息较多，可以使用稀疏采样的方式，也就是从整段视频中取出几帧，但为保证取出的帧能包含整个视频频段的信息，先将其平均分为S段，每段中取N帧，这样取到的S*N帧可以近似代表原视频片段信息。

此处采用随机的方式，可以理解为数据增强的一种方法，对同一个视频样本，每次取到的视频帧可能不一样，但该S*N帧又都可以代表该样本，这样提高了数据样本的多样性，可以提高模型的鲁棒性。

7)对于每个目标，可以得到的帧序列S*3N*H*W作为TSN网络的输入，其中，3为图像的R、G、B三个通道的通道数，H和W表示图像的高和宽，以动作类别作为标签，进行模型训练，最终得到可以识别动作类别的模型；

8)在模型推理阶段，输入视频片段，重复4)、5)、6)过程，可以得到M个目标人，每个目标的帧序列为S*3N*H*W，以此输入到7)中训练好的模型可以输出M*C维的向量，其中M为目标数，C为类别数，向量值为识别为每类动作的置信度，置信度最高者所在索引即为目标的动作类别。

本实施例中，1)中所述的目标检测模型不限于YOLOv3网络，可以用其它目标检测模型进行替代，如SSD、Mask R-CNN、M2Det等。4)中所述的跟踪算法不限于DDST算法，也可以用其它跟踪算法进行替代，例如KCF(Kernel Correlation Filter)、SiamNet(SiameseNetworks)等算法进行替代。

上述实施例中，结合目标检测、目标跟踪对TSN检测方法进行改进，提高动作识别的准确率并实现对小目标和多目标多动作识别。在数据采样阶段，先用目标检测算法实现对视频中的目标进行锁定，然后用跟踪算法对目标位置进行跟踪，捕捉动作变化，将跟踪到的目标区域作为ROI(Region Of Interest)截取出来，输入到TSN特征提取网络中，进行训练学习，提高动作特征提取效率。在推理阶段采用同样的方法进行提取、跟踪、识别，达到提高动作识别准确率和多目标动作识别的目的。

实施例三

本实施例中，如图2所示，提供一种视频的动作识别装置，包括：

样本视频获取模块210，用于获取样本视频；

动作目标检测获得模块220，用于采用目标检测模型对所述样本视频进行目标检测，获得所述样本视频中的动作目标；

目标区域获得模块230，用于采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪，获得所述样本视频的各帧图像中所述动作目标的目标区域；

动作类别训练获得模块240，用于将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别。

在一个实施例中，目标区域获得模块包括：

跟踪单元，用于采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪；

校正单元，用于每间隔预设时间，采用所述目标检测模型对跟踪的所述动作目标进行校正。

在一个实施例中，所述动作类别训练获得模块包括：

数据集获取单元，用于获取动作数据集，其中，所述动作数据集标注了动作类别；

动作类别训练获得单元，用于将所述动作数据集输入至神经网络进行模型训练，基于所述动作数据集，获得可用于判断动作目标的动作类别的动作识别模型。

在一个实施例中，所述动作类别训练获得单元包括：

向量输出子单元，用于将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，输出M*C维的向量，其中，M为动作目标的数量，C为动作类别的数量；

向量值获得子单元，用于获得M*C维的向量的向量值；

动作类别确定子单元，用于从各所述向量值中提取最大的向量值对应的动作类别，确定为所述动作目标的动作类别。

在一个实施例中，视频的动作识别装置还包括：

数据集采集模块，用于采集用于动作识别的动作数据集；

动作类别标注模块，用于对所述动作数据集的各动作类别进行标注。

在一个实施例中，所述动作类别训练获得模块包括：

N帧图像提取单元，用于从所述样本视频平均间隔或者随机提取N帧图像，其中，N为大于1的整数；

动作类别训练获得单元，用于将提取的N帧图像中的各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，获得各所述动作目标的动作类别。

在一个实施例中，所述N帧图像提取单元还用于将所述样本视频平均划分为S段，并在每一段的所述样本视频中随机提取N帧图像，其中，S为大于1的整数。

关于视频的动作识别装置的具体限定可以参见上文中对于视频的动作识别方法的限定，在此不再赘述。上述视频的动作识别装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个单元对应的操作。

实施例四

本实施例中，提供了计算机设备。其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序，且该非易失性存储介质部署有数据库，该数据库用于存储标注里动作类别的数据集。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与的其他计算机设备通信。该计算机程序被处理器执行时以实现一种视频的动作识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取样本视频；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取动作数据集，其中，所述动作数据集标注了动作类别；

获得M*C维的向量的向量值；

采集用于动作识别的动作数据集；

对所述动作数据集的各动作类别进行标注。

实施例五

本实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取样本视频；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取动作数据集，其中，所述动作数据集标注了动作类别；

获得M*C维的向量的向量值；

采集用于动作识别的动作数据集；

对所述动作数据集的各动作类别进行标注。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频的动作识别方法，其特征在于，包括：

获取样本视频；

获取动作数据集，其中，所述动作数据集标注了动作类别；

将所述动作数据集输入至神经网络进行模型训练，基于所述动作数据集，获得可用于判断动作目标的动作类别的动作识别模型；

采用目标检测模型对所述样本视频的首帧进行目标检测，获得所述样本视频中的动作目标；

采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪，每间隔预设时间，采用所述目标检测模型对跟踪的所述动作目标进行校正，获得所述样本视频的各帧图像中所述动作目标的目标区域；

将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，输出M*C维的向量，其中，M为动作目标的数量，C为动作类别的数量；获得M*C维的向量的向量值；从各所述向量值中提取最大的向量值对应的动作类别，确定为所述动作目标的动作类别。

2.根据权利要求1所述的方法，其特征在于，所述获取动作数据集的步骤之前还包括：

采集用于动作识别的动作数据集；

对所述动作数据集的各动作类别进行标注。

3.一种视频的动作识别装置，其特征在于，包括：

样本视频获取模块，用于获取样本视频；

动作识别模型训练模块，用于将所述动作数据集输入至神经网络进行模型训练，基于所述动作数据集，获得可用于判断动作目标的动作类别的动作识别模型；

动作目标检测获得模块，用于采用目标检测模型对所述样本视频的首帧进行目标检测，获得所述样本视频中的动作目标；

目标区域获得模块，用于采用跟踪算法对所述动作目标在所述样本视频的各帧图像中进行跟踪，每间隔预设时间，采用所述目标检测模型对跟踪的所述动作目标进行校正，获得所述样本视频的各帧图像中所述动作目标的目标区域；

动作类别训练获得单元，用于将各所述目标区域输入至预先训练得到的动作识别模型进行动作识别，输出M*C维的向量，其中，M为动作目标的数量，C为动作类别的数量；获得M*C维的向量的向量值；从各所述向量值中提取最大的向量值对应的动作类别，确定为所述动作目标的动作类别。

4.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。