CN112115788A

CN112115788A - 视频动作识别方法、装置、电子设备及存储介质

Info

Publication number: CN112115788A
Application number: CN202010817688.8A
Authority: CN
Inventors: 曹中强
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-12-22

Abstract

本发明实施例提供一种视频动作识别方法、装置、电子设备及存储介质；方法包括：从目标视频帧序列中确定第一数据；将第一数据输入预先训练的第一识别模型，得到所述目标视频帧序列的第一识别结果；从所述目标视频帧序列中确定第二数据；将所述第二数据输入预先训练的第二识别模型，得到所述目标视频帧序列的第二识别结果；根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别。本发明实施例通过第一识别模型提取待识别的视频帧序列的动作特征，通过第二识别模型提取待识别的视频帧序列的外观特征，通过两条路径提取特征的实现方式解耦了视频的空间特征与时序特征，有助于提升动作识别的准确率。

Description

视频动作识别方法、装置、电子设备及存储介质

技术领域

本发明涉及视频技术领域，尤其涉及一种视频动作识别方法、装置、电子设备及存储介质。

背景技术

视频动作识别是当前计算机视觉领域热门且有很大挑战性的方向，在舆情监控、广告投放、公共安全等多个领域都有广泛的应用前景。与图像识别相比，由于视频的内容和背景更加复杂多变，通常导致视频动作识别的准确率不足，因此如何提供一种准确率更高的视频动作识别方法，是本申请所要解决的技术问题。

发明内容

本发明实施例提供一种视频动作识别方法、装置、电子设备及存储介质，用以解决现有技术中的视频动作识别方法准确率不足的缺陷。

本发明第一方面实施例提供一种视频动作识别方法，包括：

从目标视频帧序列中确定第一数据，所述第一数据是基于所述目标视频帧序列中的多个连续视频帧得到的；

将所述第一数据输入预先训练的第一识别模型，得到所述目标视频帧序列的第一识别结果；其中，所述第一识别模型用于识别动作特征；

从所述目标视频帧序列中确定第二数据，所述第二数据是基于所述多个连续视频帧中的单个视频帧得到的；

将所述第二数据输入预先训练的第二识别模型，得到所述目标视频帧序列的第二识别结果；其中，所述第二识别模型用于识别外观特征；

根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别。

上述技术方案中，所述从目标视频帧序列中确定第一数据，包括：

从所述目标视频帧序列中选取多个连续的RGB帧；

为所述多个连续的RGB帧中的相邻RGB帧求差值，得到由多个相邻残差帧组成的堆叠残差帧；

根据所述堆叠残差帧，获取所述第一数据。

上述技术方案中，所述根据所述堆叠残差帧，获取所述第一数据，包括：

将所述堆叠残差帧作为所述第一数据；和/或，

对所述堆叠残差帧进行随机裁剪和随机水平翻转处理，并将处理结果作为所述第一数据。

上述技术方案中，所述第一识别模型是基于3D卷积神经网络训练得到的；和/或，

所述第二识别模型是基于2D卷积神经网络模型训练得到的。

上述技术方案中，所述3D卷积神经网络包括残差模块，所述残差模块包括最大池化层与卷积层。

上述技术方案中，所述根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别，包括：

采用平均值融合方法将所述第一识别结果与第二识别结果进行融合，确定所述目标视频帧序列中所包含动作的类别。

上述技术方案中，方法还包括：

从样本视频帧序列中确定第三数据；

对所述样本视频帧序列所包含的动作进行标记，得到所述样本视频帧序列的动作类别信息；

将所述样本视频帧序列中的第三数据作为训练使用的输入数据，将所述样本视频帧序列的动作类别信息作为标签，采用3D卷积神经网络进行训练，得到用于识别目标视频帧序列所包含动作的动作类别的第一识别模型；

以及，

从样本视频帧序列中确定第四数据；

将所述样本视频帧序列中的第四数据作为训练使用的输入数据，将所述样本视频帧序列的动作类别信息作为标签，采用2D卷积神经网络进行训练，得到用于识别目标视频帧序列所包含动作的动作类别的第二识别模型。

本发明第二方面实施例提供一种视频动作识别装置，包括：

第一数据确定模块，用于从目标视频帧序列中确定第一数据，所述第一数据是基于所述目标视频帧序列中的多个连续视频帧得到的；

第一识别结果生成模块，用于将所述第一数据输入预先训练的第一识别模型，得到所述目标视频帧序列的第一识别结果；其中，所述第一识别模型用于识别动作特征；

第二数据确定模块，用于从所述目标视频帧序列中确定第二数据，所述第二数据是基于所述多个连续视频帧中的单个视频帧得到的；

第二识别结果生成模块，用于将所述第二数据输入预先训练的第二识别模型，得到所述目标视频帧序列的第二识别结果；其中，所述第二识别模型用于识别外观特征；

识别结果确定模块，用于根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别。

本发明第三方面实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述视频动作识别方法的步骤。

本发明第四方面实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述视频动作识别方法的步骤。

本发明实施例提供的视频动作识别方法、装置、电子设备及存储介质，由于第一识别模型用于识别动作特征，并且第二识别模型用于识别外观特征，因此通过第一识别模型提取待识别的视频帧序列的第一识别结果能够反映其动作特征，通过第二识别模型提取待识别的视频帧序列的第二识别结果能够反映其外观特征，并根据两者来确定目标视频帧序列中所包含动作的类别，实现视频动作的识别。该识别方式通过两路模型，分别识别动作特征和外观特征，实现方式解耦了视频的空间特征与时序特征，有助于提升相似动作识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频动作识别方法的流程图；

图2为building block残差模块的结构示意图；

图3为bottleneck building block残差模块的结构示意图；

图4为经过结构调整的building block残差模块的结构示意图；

图5为本发明实施例提供的视频动作识别装置的示意图；

图6示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的视频动作识别方法的流程图，如图1所示，本发明实施例提供的视频动作识别方法包括：

步骤101、从目标视频帧序列中确定第一数据。

在本发明实施例中，目标视频帧序列为连续的多个视频帧。目标视频帧序列中所包含的视频动作可采用本发明实施例提供的视频动作识别方法进行动作类别的识别。例如，目标视频帧序列中包含有跑、走、跳等多种类型的动作，采用本发明实施例提供的视频动作识别方法可识别出跑、走、跳等动作类别。

目标视频帧序列可以是单独的视频，也可以是从单独的视频中截取出来的视频片段。在本发明实施例中不对其来源进行限定。

在本发明实施例中，也不对目标视频帧序列的内容进行限定。目标视频帧序列可以是体育比赛的视频或视频片段，也可以是电影或电影片段，还可以是记录动物行为或人类活动的纪录片。

目标视频帧序列的长度可根据实际需要确定。

第一数据是基于所述目标视频帧序列中的多个连续视频帧得到的。例如，第一数据的一种实现方式为堆叠RGB帧。RGB帧为RGB格式表示的视频帧，堆叠RGB帧是指一段连续的RGB帧。第一数据的另一种实现方式为堆叠残差帧。残差帧是相邻两个RGB帧之间的差值，堆叠残差帧是指连续的多个残差帧。在本发明实施例中，不对连续的视频帧数据的具体实现方式进行限定。

步骤102、将所述第一数据输入预先训练的第一识别模型，得到所述目标视频帧序列的第一识别结果。

所述第一识别模型用于识别目标视频帧序列的动作特征，并根据所述动作特征得到第一识别结果。

所述第一识别模型是将样本视频帧序列的第一数据作为训练使用的输入数据，将所述样本视频帧序列所包含动作的已知动作类别信息作为标签，采用机器学习方式进行训练，得到的用于识别目标视频帧序列所包含动作的动作类别的模型。

在本发明实施例中，第一识别模型是预先训练得到的，在本发明的其他实施例中，将对第一识别模型的训练过程做进一步说明。

作为一种优选方式，所述第一识别模型是对3D卷积神经网络进行训练得到的。在本发明实施例中，可具体采用诸如ResNet-18-3D网络的3D卷积神经网络。

所述第一识别结果描述了动作的类别以及相应的概率。例如，第一识别结果中包括：跑的概率为0.60；跳的概率为0.27；走的概率为0.34。

步骤103、从所述目标视频帧序列中确定第二数据。

在本发明实施例中，第二数据是基于所述目标视频帧序列中的单个视频帧得到的。具体的说，从用于确定第一数据的多个连续视频帧中选取一个视频帧，根据该视频帧确定第二数据。

从所述多个连续视频帧中选取一个视频帧时，可从选取该连续视频帧的第一个视频帧，也可以选取该连续视频帧的最后一个视频帧，还可以选取该连续视频帧中间部分的任意一个视频帧，在本发明实施例中，对具体的选取方式不做限定。

第二数据可以是单个的RGB帧。可从所述目标视频帧序列中用于生成第一数据的所述多个连续视频帧中任意选取其中的一个RGB帧作为第二数据。

用于生成第一数据的多个连续视频帧与用于生成第二数据的单个视频帧之间存在上述的对应关系，因此在之后的步骤中可基于第一数据和第二数据实现视频中的动作识别。

步骤104、将所述第二数据输入预先训练的第二识别模型，得到所述目标视频帧序列的第二识别结果。

所述第二识别模型用于识别目标视频帧序列的外观特征，并根据所述外观特征得到第二识别结果。

所述第二识别模型是将样本视频帧序列的第二数据作为训练使用的输入数据，将所述样本视频帧序列所包含动作的已知动作类别信息作为标签，采用机器学习方式进行训练，得到的用于识别目标视频帧序列所包含动作的动作类别的模型。

在本发明实施例中，第二识别模型是预先训练得到的，在本发明的其他实施例中，将对第二识别模型的训练过程做进一步说明。

作为一种优选方式，所述第二识别模型是对2D卷积神经网络进行训练得到的。在本发明实施例中，可具体采用诸如ResNet-18-2D网络的2D卷积神经网络。

所述第二识别结果描述了动作的类别以及相应的概率。例如，第二识别结果中包括：跑的概率为0.70；跳的概率为0.15；走的概率为0.24。

步骤105、根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别。

在本发明实施例中，将第一识别结果和第二识别结果进行融合，得到最终的识别结果。

在之前的描述中已经提到，第一识别结果、第二识别结果都描述了动作的类别以及相应的概率，在本步骤中，可将第一识别结果与第二识别结果进行融合，得到最终的识别结果。

在进行融合时，可采用多种类型融合方法中的任意一种实现，如max-fusion(最大值融合法),average-fusion(平均值融合法)和weighted-average-fusion(加权平均值融合法)。

融合后的识别结果也描述了动作的类别以及相应的概率。例如，融合后的识别结果包括：跑的概率为0.65；跳的概率为0.21；走的概率为0.28。

从融合后的识别结果中选取概率值最高的动作类别，或选取概率值高于预设阈值的动作类别作为最终的识别结果。例如，在前述的例子中，跑的概率值为0.65，远高于跳和走的概率值，因此最终的动作识别结果为跑。又如，在某些情况下，有两个或两个以上的动作类别的概率值较高且概率值大小较为接近，如：跑的概率为0.65；跳的概率为0.61；走的概率为0.03。这意味着在目标视频帧序列中可能同时存在着两个或两个以上的动作类别，因此，可以预先设置一个阈值，如果动作类别的概率值高于这一预设的阈值，就可以认为相应的动作类别属于最终的识别结果。

本发明实施例提供的视频动作识别方法通过第一识别模型提取待识别的视频帧序列的动作特征，通过第二识别模型提取待识别的视频帧序列的外观特征，通过两条路径提取特征的实现方式解耦了视频的空间特征与时序特征，有助于提升相似动作识别的准确率。

基于上述任一实施例，在本发明实施例中，所述从目标视频帧序列中确定第一数据，包括：

从所述目标视频帧序列中选取多个连续的RGB帧；

根据所述堆叠残差帧，获取所述第一数据。

在本发明之前实施例中提到，第一数据可以是堆叠RGB帧，或堆叠残差帧。作为一种优选实现方式，在本发明实施例中，第一数据为堆叠残差帧。

残差帧是相邻两个RGB帧之间的差值，残差帧保留了相邻两帧的差别，从残差的空间信息中即可得到运动信息。但在动作识别时需要更长时长的运动信息，因此在本发明实施例中，在残差帧的基础上进一步获取堆叠残差帧。堆叠残差帧包含了动作的空间信息和时序信息，与3D卷积操作更为匹配。堆叠残差帧忽略了运动对象的外观特征，更专注于对运动信息的描述。

残差帧的计算公式为：

resframe_i＝|frame_i+1-frame_i|；

其中，frame_i表示第i个原始RGB帧；resframe_i表示第i个残差帧。

堆叠残差帧是多个连续残差帧的组合，因此堆叠残差帧可以表示为：ResFrame_i～j；即该堆叠残差帧是第i个残差帧到第j个残差帧的组合。

堆叠残差帧的计算公式为：

ResFrame_i～j＝|Frame_i～j-Frame_i+1～j+1|；

该公式表示堆叠残差帧可以由两个堆叠RGB帧相减获取。公式中的Frame_i～j表示一个堆叠RGB帧，该堆叠RGB帧是从第i个原始RGB帧到第j个原始RGB帧的组合；Frame_i+1～j+1表示另一个堆叠RGB帧，该堆叠RGB帧是从第i+1个原始RGB帧到第j+1个原始RGB帧的组合。

作为一种优选的实现方式，16个残差帧组合为一个堆叠残差帧。

例如，第一堆叠RGB帧由下标为1到下标为16的RGB帧组成，第二堆叠RGB帧由下标为2到下标为17的RGB帧组成，按照上述堆叠残差帧的计算公式，将下标为2的RGB帧减去下标为1的RGB帧，得到下标为1的残差帧；将下标为3的RGB帧减去下标为2的RGB帧，得到下标为2的残差帧；依次类推，可得到堆叠残差帧中从下标1到下标16的16个连续的残差帧。

本发明实施例提供的视频动作识别方法选用堆叠残差帧作为3D卷积神经网络的输入数据。由于堆叠残差帧忽略了运动对象的外观特征，更专注于对运动信息的描述，因此更有助于提升动作识别的准确率。

基于上述任一实施例，在本发明实施例中，所述根据所述堆叠残差帧，获取所述第一数据，包括：

将所述堆叠残差帧作为所述第一数据；和/或，

在得到堆叠残差帧之后，可根据堆叠残差帧获取第一数据。

根据堆叠残差帧获取第一数据的一种实现方式是将所得到的堆叠残渣帧直接作为第一数据。

这一实现方式实现简单，在本发明实施例中不做进一步陈述。

根据堆叠残差帧获取第一数据的另一种实现方式是对所得到的堆叠残差帧进行随机裁剪和随机水平翻转处理，然后将随机裁剪和随机水平翻转处理的结果作为所述第一数据。

具体的说，为了防止过拟合，在本发明实施例中，从目标视频序列帧确定堆叠残差帧后，对堆叠残差帧中的各个残差帧进行随机裁剪与随机水平翻转操作。经过随机裁剪与随机水平翻转操作后的堆叠残差帧输入到作为第一识别模型的3D卷积神经网络中。

例如，在一个实例中，通过随机裁剪与随机水平翻转操作，将一个由16个残差帧组成的堆叠残差帧中的每个残差帧的大小调整为112×112×3，最后得到16×112×112×3的堆叠残差帧，作为3D-CNN网络的输入。

本发明实施例提供的视频动作识别方法通过对堆叠残差帧的处理，能够防止过拟合现象的发生，有助于更好地实现动作特征识别。

基于上述任一实施例，在本发明实施例中，方法还包括：

从样本视频帧序列中确定第三数据；其中，所述第三数据是基于所述样本视频帧序列中的多个连续视频帧得到的；

对样本视频帧序列所包含的动作进行标记，得到样本视频帧序列的动作类别信息；

将样本视频帧序列中的第三数据作为训练使用的输入数据，将样本视频帧序列的动作类别信息作为标签，采用3D卷积神经网络进行训练，得到用于识别目标视频帧序列所包含动作的动作类别的第一识别模型。

样本视频帧序列是用于训练第一识别模型的样本数据。样本视频帧序列可以是单独的视频，也可以是从单独的视频中截取出来的视频片段。在本发明实施例中不对其来源进行限定。

样本视频帧序列在内容上与待识别的目标视频帧序列的内容应当有一定的相关性或相似性。例如，若第一识别模型训练完成后主要用于对体育比赛视频的动作识别，那么在训练阶段，需要重点从体育比赛类视频中选取样本视频帧序列。又如，若第一识别模型训练完成后主要用于对野生动物的动作识别，那么在训练阶段，需要重点从诸如动物类纪录片的视频中选取样本视频帧序列。这样有助于提高动作识别的准确度。

样本视频帧序列应当有一定的数量要求。如至少需要200个样本视频帧序列。

作为一种优选实现方式，样本视频帧序列中的第三数据为堆叠残差帧。如何获取堆叠残差帧在之前的本发明实施例中已经有详细的说明，因此不在此处重复。

对样本视频帧序列所包含的动作进行标记可采用人工的方式，经过标记后，样本视频帧序列会有一个标签信息，所述标签信息记录了样本视频帧序列所包含动作的动作类别。

对3D卷积神经网络的训练为本领域技术人员的公知常识，因此不在此处做重复说明。

本发明实施例提供的视频动作识别方法通过样本视频帧序列中的第三数据以及对样本视频帧序列所包含的动作的标记，训练第一识别模型，进而通过第一识别模型对目标视频帧序列进行识别，为最终的动作识别打下了良好的基础。

基于上述任一实施例，在本发明实施例中，所述3D卷积神经网络包括残差模块，所述残差模块包括最大池化层与卷积层。

在现有技术中，ResNet网络结构中会用到两种残差模块。

一种残差模块的名称为building block。图2为building block残差模块的结构示意图，如图2所示，两个3*3*3的3D卷积网络串接在一起形成一个building block残差模块。

此类残差模块在运行时，64通道的feature map(特征图)经过3*3卷积后，通道依然是64，再通过Relu函数。接着，再进行一次64—>64的3*3卷积。此时加上64个通道的“Shortcut”，再过Relu函数。其中，Relu函数(Rectified Linear Unit)也被称为线性整流函数，是人工神经网络中常用的激活函数(activation function)，通常指代以斜坡函数及其变种为代表的非线性函数。

另一种残差模块的名称为bottleneck building block。图3为bottleneckbuilding block残差模块的结构示意图，如图3所示，1*1*1、3*3*3、1*1*1的3个3D卷积网络串接在一起形成一个bottleneck building block残差模块。

此类残差模块在运行时，256通道的feature map经过1*1卷积后，通道数变为64，再过Relu函数。接着，进行64—>64的3*3卷积，过Relu函数。再通过1*1卷积由64通道变为256通道。与Shortcut求和后通过Relu函数。

在本发明实施例中，对残差模块的结构进行调整，将残差模块中步长为2的卷积层替换为步长为2(stride＝2)的最大值池化层。图4为经过结构调整的building block残差模块的结构示意图。对于bottleneck building block残差模块，也可以采用类似的方法对其结构进行调整，如将bottleneck building block残差模块中的3*3，64conv替换成3*3,64max pooling stride＝2。

下面以ResNet-18-3D网络为例，将该网络内的残差模块的结构进行调整后，ResNet-18-3D的网络配置如下述的表1所示。

表1中的ResNet-18-3D网络采用的是building block残差模块。其中：

Conv1：用(7*7*7，64通道，2步长)对输入进行卷积。

Conv2_x：先进行3*3*3最大池化。其中的x指的是block过程，在这里是2，意思是有两个block过程：Conv2_1和Conv2_2。这两个过程内容相同。

Conv3_x、Conv4_x、Conv5_x：与Conv2_x相同，用buliding block搭建两阶段网络。只是每一层的第一个buliding block中第一个stride＝2的卷积被替换被最大值池化层。

Fc：经过平均池化后，由全连接层映射到400维，再由softmax转化为概率，进行分类。

表1

本发明实施例提供的视频动作识别方法对3D卷积神经网络中的残差模块的结构进行了调整，提升了动作类别的识别准确率。

基于上述任一实施例，在本发明实施例中，所述第二数据为单个的RGB帧，相应的，所述从所述目标视频帧序列中确定第二数据，包括：

从所述目标视频帧序列中确定单个的RGB帧；

对所述单个的RGB帧进行随机裁剪与随机水平翻转操作。

从所述目标视频帧序列中确定单个的RGB帧时，需要从形成堆叠残差帧的RGB帧中随机选取一个RGB帧作为所确定的单个的RGB帧。例如，堆叠残差帧由第1到第16的残差帧组成，则在选取单个的RGB帧时，需要从第1到第17的RGB帧随机选取一个。

为了防止过拟合，在本发明实施例中，从目标视频序列帧确定单个的RGB帧后，对单个的RGB帧进行随机裁剪与随机水平翻转操作。经过随机裁剪与随机水平翻转操作后的RGB帧输入到作为第二识别模型的2D卷积神经网络中。

例如，在一个实例中，通过随机裁剪与随机水平翻转操作，将RGB帧的大小调整为112×112×3，将其作为2D-CNN网络的输入。

本发明实施例提供的视频动作识别方法通过对所选取的RGB帧的处理，能够防止过拟合现象的发生，有助于更好地实现动作特征识别。

基于上述任一实施例，在本发明实施例中，方法还包括：

从样本视频帧序列中确定第四数据；其中，所述第四数据是基于所述样本视频帧序列中的单个视频帧得到的；

将样本视频帧序列中的第四数据作为训练使用的输入数据，将样本视频帧序列的动作类别信息作为标签，采用2D卷积神经网络进行训练，得到用于识别目标视频帧序列所包含动作的动作类别的第二识别模型。

样本视频帧序列在内容上与待识别的目标视频帧序列的内容应当有一定的相关性或相似性。例如，若第二识别模型训练完成后主要用于对体育比赛视频的动作识别，那么在训练阶段，需要重点从体育比赛类视频中选取样本视频帧序列。又如，若第二识别模型训练完成后主要用于对野生动物的动作识别，那么在训练阶段，需要重点从诸如动物类纪录片的视频中选取样本视频帧序列。这样有助于提高动作识别的准确度。

作为一种优选实现方式，样本视频帧序列中的第四数据为单个的RGB帧。如何获取单个的RGB帧在之前的本发明实施例中已经有详细的说明，因此不在此处重复。

对2D卷积神经网络的训练为本领域技术人员的公知常识，因此不在此处做重复说明。

本发明实施例提供的视频动作识别方法通过样本视频帧序列中的第四数据以及对样本视频帧序列所包含的动作的标记，训练第二识别模型，进而通过第二识别模型对目标视频帧序列进行识别，为最终的动作识别打下了良好的基础。

基于上述任一实施例，在本发明实施例中，所述2D卷积神经网络为ResNet-18 2D网络。

表2

在本发明实施例中，与3D卷积神经网络相比，2D卷积神经网络并未对网络内的残差模块的结构进行调整。ResNet-18 2D网络的网络配置如上述的表2所示：

在表2中，Conv3_x、Conv4_x、Conv5_x中的残差模块并未采用最大层池化替换stride＝2的卷积层。

基于上述任一实施例，在本发明实施例中，所述根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别，包括：

采用average fusion(平均值融合)方法将所述第一识别结果与第二识别结果进行融合，确定所述目标视频帧序列中所包含动作的类别。

本发明实施例提供的视频动作识别方法采用平均值融合法对采用两种路径获得的识别结果进行融合，融合效果好，有助于提高最终的动作识别结果的准确度。

图5为本发明实施例提供的视频动作识别装置的示意图，如图5所示，本发明实施例提供的视频动作识别装置包括：

第一数据确定模块501，用于从目标视频帧序列中确定第一数据，所述第一数据是基于所述目标视频帧序列中的多个连续视频帧得到的；

第一识别结果生成模块502，用于将所述第一数据输入预先训练的第一识别模型，得到所述目标视频帧序列的第一识别结果；其中，所述第一识别模型用于识别动作特征；

第二数据确定模块503，用于从所述目标视频帧序列中确定第二数据，所述第二数据是基于所述多个连续视频帧中的单个视频帧得到的；

第二识别结果生成模块504，用于将所述第二数据输入预先训练的第二识别模型，得到所述目标视频帧序列的第二识别结果；其中，所述第二识别模型用于识别外观特征；

识别结果确定模块505，用于根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别。

本发明实施例提供的视频动作识别装置通过第一识别模型提取待识别的视频帧序列的动作特征，通过第二识别模型提取待识别的视频帧序列的外观特征，通过两条路径提取特征的实现方式解耦了视频的空间特征与时序特征，有助于提升相似动作识别的准确率。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行如下方法：从目标视频帧序列中确定第一数据，所述第一数据是基于所述目标视频帧序列中的多个连续视频帧得到的；将所述第一数据输入预先训练的第一识别模型，得到所述目标视频帧序列的第一识别结果，其中，所述第一识别模型用于识别动作特征；从所述目标视频帧序列中确定第二数据，所述第二数据是基于所述多个连续视频帧中的单个视频帧得到的；将所述第二数据输入预先训练的第二识别模型，得到所述目标视频帧序列的第二识别结果，其中，所述第二识别模型用于识别外观特征；根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别。

需要说明的是，本实施例中的电子设备在具体实现时可以为服务器，也可以为PC机，还可以为其他设备，只要其结构中包括如图6所示的处理器610、通信接口620、存储器630和通信总线640，其中处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信，且处理器610可以调用存储器630中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：从目标视频帧序列中确定第一数据，所述第一数据是基于所述目标视频帧序列中的多个连续视频帧得到的；将所述第一数据输入预先训练的第一识别模型，得到所述目标视频帧序列的第一识别结果，其中，所述第一识别模型用于识别动作特征；从所述目标视频帧序列中确定第二数据，所述第二数据是基于所述多个连续视频帧中的单个视频帧得到的；将所述第二数据输入预先训练的第二识别模型，得到所述目标视频帧序列的第二识别结果，其中，所述第二识别模型用于识别外观特征；根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：从目标视频帧序列中确定第一数据，所述第一数据是基于所述目标视频帧序列中的多个连续视频帧得到的；将所述第一数据输入预先训练的第一识别模型，得到所述目标视频帧序列的第一识别结果，其中，所述第一识别模型用于识别动作特征；从所述目标视频帧序列中确定第二数据，所述第二数据是基于所述多个连续视频帧中的单个视频帧得到的；将所述第二数据输入预先训练的第二识别模型，得到所述目标视频帧序列的第二识别结果，其中，所述第二识别模型用于识别外观特征；根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频动作识别方法，其特征在于，包括：

2.根据权利要求1所述的视频动作识别方法，其特征在于，所述从目标视频帧序列中确定第一数据，包括：

从所述目标视频帧序列中选取多个连续的RGB帧；

根据所述堆叠残差帧，获取所述第一数据。

3.根据权利要求2所述的视频动作识别方法，其特征在于，所述根据所述堆叠残差帧，获取所述第一数据，包括：

将所述堆叠残差帧作为所述第一数据；和/或，

4.根据权利要求1所述的视频动作识别方法，其特征在于，

所述第一识别模型是基于3D卷积神经网络训练得到的；和/或，

所述第二识别模型是基于2D卷积神经网络模型训练得到的。

5.根据权利要求4所述的视频动作识别方法，其特征在于，所述3D卷积神经网络包括残差模块，所述残差模块包括最大池化层与卷积层。

6.根据权利要求1所述的视频动作识别方法，其特征在于，所述根据所述第一识别结果以及所述第二识别结果，确定所述目标视频帧序列中所包含动作的类别，包括：

7.根据权利要求1-6任一项所述的视频动作识别方法，其特征在于，方法还包括：

从样本视频帧序列中确定第三数据；

以及，

从样本视频帧序列中确定第四数据；

8.一种视频动作识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述视频动作识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述视频动作识别方法的步骤。