CN108681695A

CN108681695A - 视频动作识别方法及装置、电子设备和存储介质

Info

Publication number: CN108681695A
Application number: CN201810387535.7A
Authority: CN
Inventors: 赵岳; 熊元骏; 林达华; 汤晓鸥
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2018-10-19

Abstract

本发明实施例公开了一种视频动作识别方法及装置、电子设备和存储介质，其中的方法包括：基于待检测视频中的连续图像帧，得到待检测区域；对待检测区域进行特征提取，得到视觉底层特征；将视觉底层特征拆分为至少一个动作分支特征，并依据各个动作分支特征对应的动作分支识别网络分别对各个动作分支特征进行分类预测；对各个动作分支特征的分类预测结果进行融合处理，得到待检测视频的动作识别结果。本发明实施例基于共享的底层特征，在不同分支处理不同成分的信息，增强了对视频动态的表达能力。

Description

视频动作识别方法及装置、电子设备和存储介质

技术领域

本发明涉及技术图像处理技术领域，尤其是一种视频动作识别方法及装置、电子设备和存储介质。

背景技术

视频中的动作识别在实际应用中具有巨大的潜力，因而在近些年得到了巨大关注。有别于基于图像的物体识别任务，视频中的动作识别任务需要研究图像的动态特征，也就是视觉内容随着时间发生的变化。

发明内容

本发明实施例提供一种视频动作识别的技术方案。

本发明实施例提供的一种视频动作识别方法，包括：

基于待检测视频中的连续图像帧，得到待检测区域；

对所述待检测区域进行特征提取，得到视觉底层特征；

将所述视觉底层特征拆分为至少一个动作分支特征，并依据各个动作分支特征对应的动作分支识别网络分别对所述各个动作分支特征进行分类预测；

对所述各个动作分支特征的分类预测结果进行融合处理，得到所述待检测视频的动作识别结果。

在一种可选方式中，所述动作分支特征包括静态外貌特征、表观动作特征、外貌变化特征中的任一项或多项组合。

在一种可选方式中，

所述方法还包括：训练所述静态外貌特征对应的动作分支识别网络；

所述训练所述静态外貌特征对应的动作分支识别网络包括：

基于视频样本的样本视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从样本视觉底层特征中提取出外貌静态特征；

根据所述外貌静态特征对卷积神经网络进行分类训练，得到所述静态外貌特征对应的动作分支识别网络。

在一种可选方式中，

所述方法还包括：训练所述表观动作特征对应的动作分支识别网络；

所述训练所述表观动作特征对应的动作分支识别网络包括：

基于视频样本的样本视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到所述表观动作特征；

根据所述表观动作特征对卷积神经网络进行分类训练，得到所述表观动作特征对应的动作分支识别网络。

在一种可选方式中，所述从代价体中推导出每个像素的运动场包括：

针对所述代价体，根据匹配相似度，确定出每个像素的运动场；和/或，

根据代价体每个像素的强度计算出加权系数，并根据所述加权系数计算出每个像素的期望位移，从而确定出每个像素的运动场。

在一种可选方式中，

所述方法还包括：训练所述外貌变化特征对应的动作分支识别网络；

所述训练所述外貌变化特征对应的动作分支识别网络包括：

基于视频样本的样本视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征；

根据所述外貌变化特征对卷积神经网络进行分类训练，得到所述外貌变化特征对应的动作分支识别网络。

在一种可选方式中，所述基于视频样本的样本视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征，包括：

从样本视觉底层特征中得到两帧图像或两帧特征图，并预先获取所述样本视觉底层特征的运动场；

利用所述运动场将第一帧图像或第一帧特征图进行变形处理，得到变形后第一帧图像或变形后第一帧特征图；

计算变形后第一帧图像与第二帧图像之间的差值或变形后第一帧特征图与第二帧特征图之间的差值；

由所述差值表示所述外貌变化特征。

在一种可选方式中，所述将所述各个动作分支特征分类预测结果进行融合处理，得到所述待检测视频的动作识别结果，包括：

将所述各个动作分支特征分类预测结果进行加权求和处理，得到所述待检测视频的动作识别结果。

在一种可选方式中，所述基于待检测视频中的连续图像帧，得到待检测区域，包括：

预先确定待检测区域的尺寸；

在所述待检测视频中的连续图像帧中，随机裁剪出所述尺寸的待检测区域。

在一种可选方式中，所述动作分支特征为静态外貌特征；将所述视觉底层特征拆分为静态外貌特征包括：基于视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从视觉底层特征中提取出外貌静态特征；和/或，

所述动作分支特征为表观动作特征；将所述视觉底层特征拆分为表观动作特征包括：基于视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到所述表观动作特征；和/或，

所述动作分支特征为外貌变化特征；将所述视觉底层特征拆分为外貌变化特征包括：基于视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征。

本发明实施例提供的一种视频动作识别装置，包括：

待检测区域获取单元，用于基于待检测视频中的连续图像帧，得到待检测区域；

特征提取单元，用于对所述待检测区域进行特征提取，得到视觉底层特征；

动作分支特征获取单元，用于将所述视觉底层特征拆分为至少一个动作分支特征；

分类预测单元，用于依据各个动作分支特征对应的动作分支识别网络分别对所述各个动作分支特征进行分类预测；

融合处理单元，用于对所述各个动作分支特征的分类预测结果进行融合处理，得到所述待检测视频的动作识别结果。

在一种可选方式中，

所述装置还包括：静态外貌识别网络训练单元，用于训练所述静态外貌特征对应的动作分支识别网络；

所述静态外貌识别网络训练单元包括：

外貌静态特征获取子单元，用于基于视频样本的样本视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从样本视觉底层特征中提取出外貌静态特征；

训练子单元，用于根据所述外貌静态特征对卷积神经网络进行分类训练，得到所述静态外貌特征对应的动作分支识别网络。

在一种可选方式中，

所述装置还包括：表观动作识别网络训练单元，用于训练所述表观动作特征对应的动作分支识别网络；

所述表观动作识别网络训练单元包括：

表观动作特征获取子单元，用于基于视频样本的样本视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到所述表观动作特征；

训练子单元，用于根据所述表观动作特征对卷积神经网络进行分类训练，得到所述表观动作特征对应的动作分支识别网络。

在一种可选方式中，所述表观动作特征提取子单元具体用于：针对所述代价体，根据匹配相似度，确定出每个像素的运动场；和/或，根据代价体每个像素的强度计算出加权系数，并根据所述加权系数计算出每个像素的期望位移，从而确定出每个像素的运动场。

在一种可选方式中，

所述装置还包括：外貌变化识别网络训练单元，用于训练所述外貌变化特征对应的动作分支识别网络；

所述外貌变化识别网络训练单元包括：

外貌变化特征获取子单元，用于基于视频样本的样本视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征；

训练子单元，用于根据所述外貌变化特征对卷积神经网络进行分类训练，得到所述外貌变化特征对应的动作分支识别网络。

在一种可选方式中，所述外貌变化特征获取子单元具体用于：从样本视觉底层特征中得到两帧图像或两帧特征图，并预先获取所述样本视觉底层特征的运动场；利用所述运动场将第一帧图像或第一帧特征图进行变形处理，得到变形后第一帧图像或变形后第一帧特征图；计算变形后第一帧图像与第二帧图像之间的差值或变形后第一帧特征图与第二帧特征图之间的差值；由所述差值表示所述外貌变化特征。

在一种可选方式中，所述融合处理单元具体用于：将所述各个动作分支特征分类预测结果进行加权求和处理，得到所述待检测视频的动作识别结果。

在一种可选方式中，所述待检测区域获取单元具体用于：预先确定待检测区域的尺寸；在所述待检测视频中的连续图像帧中，随机裁剪出所述尺寸的待检测区域。

在一种可选方式中，

所述动作分支特征为静态外貌特征；所述动作分支特征获取单元具体用于：基于视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从视觉底层特征中提取出外貌静态特征；和/或，

所述动作分支特征为表观动作特征；所述动作分支特征获取单元具体用于：基于视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到所述表观动作特征；和/或，

所述动作分支特征为外貌变化特征；所述动作分支特征获取单元具体用于：基于视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征。

本发明实施例提供的一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述方法。

本发明实施例提供的一种电子设备，包括用于存储计算机程序的存储器和处理器，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述方法。

本发明实施例这种将视觉底层特征拆分为多个动作分支特征分别进行预测的方式，相比于现有技术具有显著的进步。例如，针对三维卷积网络对运动信息建模能力不足的问题，本发明提出仅从视频帧出发，将视频的短时动态成分(连续几帧组成的输入)拆解为多个成分(即多个动作分支特征)，基于共享的底层特征，在不同分支处理不同成分的信息，增强了对视频动态的表达能力。再如，针对双流卷积神经网络依赖额外光流估计、计算效率较低的问题，本发明实施例中可以直接从视频帧中获得运动场相关分支(表观动作特征)，无需依赖外光流。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明视频动作识别方法一个实施例的流程图。

图2为本发明视频动作识别方法一个实施例中静态外貌特征对应的动作分支识别网络的示意图。

图3为本发明视频动作识别方法一个实施例中针对表观动作特征的代价体的示意图。

图4为本发明视频动作识别方法一个实施例的示意图。

图5为本发明视频动作识别装置一个实施例的结构示意图。

图6为本发明视频动作识别装置另一个实施例的结构示意图。

图7为本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

针对视频中的动作识别，目前主流的视频建模方法主要分为两种。

一种是用多个输入模态的组合(比如外形和运动)表示视频，如双流卷积神经网络用视频的RGB图像帧和光流分别作为输入进行识别：一个分支是把视频帧作为输入，通过分类网络，得到外形分支(appearance stream)的分类得分；另一个分支是把连续多帧光流作为输入，通过分类网络，得到运动分支(motion stream)的分类得分。这种方法具有较高的识别准确率，但是依赖光流表达运动。光流的计算成本较高，需要预先计算，并且增加了存储的开销。

另一种是利用三维卷积直接对视频帧序列进行统一的表示。具体的，是把视频帧作为输入，用三维网络直接提取外形和运动信息，得到运动分类得分。这种方法的优点在于结构简单统一，缺点是性能比较差。

图1为本发明视频动作识别方法一个实施例的流程图。如图1所示，该实施例方法包括S101-S104。

S101：基于待检测视频中的连续图像帧，得到待检测区域。

针对给定的一个输入视频，从视频中获取连续几帧的图像帧，随机裁剪为一定尺寸确定出待检测区域。具体的，可以预先设定出待检测区域的尺寸，然后在待检测视频的连续图像帧上，裁剪出该预定大小的待检测区域。

S102：对待检测区域进行特征提取，得到视觉底层特征。

在一种可选方式中，可以基于预先建立的深度学习网络(例如卷积神经网络)对待检测区域的每帧图像进行特征提取，得到表征视频基本视觉特征的视觉底层特征。例如，用几层(不做限定)卷积神经网络对每帧图像分别得到一组维度为64的底层特征图，这些视觉底层特征主要提取了基本的视觉特征，并被后面各个分支网络所共享。

S103：将视觉底层特征拆分为至少一个动作分支特征，并依据各个动作分支特征对应的动作分支识别网络分别对各个动作分支特征进行分类预测。

本发明实施例中，对视觉底层特征拆分为多个动作分支特征。例如，动作分支特征包括但不限于：静态外貌特征(static appearance)、表观动作特征(apparent motion)、外貌变化特征(appearance change)等。

对于不同的动作分支特征，具体的获取方式不同。

例如，当动作分支特征为静态外貌特征时，其获取过程可以是：基于视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从视觉底层特征中提取出外貌静态特征。当动作分支特征为表观动作特征时，其获取过程可以是：基于视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到表观动作特征。当动作分支特征为外貌变化特征时，其获取过程可以是：基于视觉底层特征，通过运动场补偿差值的方式，得到外貌变化特征。

需要说明的是，可以将视觉底层特征拆分为一个动作分支特征、两个或更多动作分支特征的组合，比如，在一种可选方式中，将视觉底层特征拆分为静态外貌特征、表观动作特征、外貌变化特征这三种；在另一种可选方式中，将视觉底层特征拆分为静态外貌特征和表观动作特征这两种。对此，本发明实施例不做限定。为了实现对各个动作分支特征的分类预测，需要需要训练各个动作分支特征对应的动作分支识别网络。

在一种可选方式中，训练静态外貌特征对应的动作分支识别网络的过程例如包括：基于视频样本的样本视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从样本视觉底层特征中提取出外貌静态特征；根据外貌静态特征对卷积神经网络进行分类训练，得到静态外貌特征对应的动作分支识别网络。

在一种可选方式中，训练表观动作特征对应的动作分支识别网络的过程例如包括：基于视频样本的样本视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到表观动作特征；根据表观动作特征对卷积神经网络进行分类训练，得到表观动作特征对应的动作分支识别网络。

其中，从代价体中推导出每个像素的运动场的过程可以例如包括：针对代价体，根据匹配相似度，确定出每个像素的运动场；和/或，根据代价体每个像素的强度计算出加权系数，并根据加权系数计算出每个像素的期望位移，从而确定出每个像素的运动场。

在一种可选方式中，训练外貌变化特征对应的动作分支识别网络的过程例如包括：基于视频样本的样本视觉底层特征，通过运动场补偿差值的方式，得到外貌变化特征；根据外貌变化特征对卷积神经网络进行分类训练，得到外貌变化特征对应的动作分支识别网络。

其中，得到外貌变化特征的过程例如包括：从样本视觉底层特征中得到两帧特征图，并预先获取样本视觉底层特征的运动场；利用运动场将第一帧特征图进行变形处理，得到变形后第一帧特征图；计算变形后第一帧特征图与第二帧特征图之间的差值；由差值表示所述外貌变化特征。除了将第一帧特征图进行变形处理之外,也可以直接对第一帧图像本身进行变形处理；然后计算变形后第一帧图像与第二帧图像之间的差值；由差值表示所述外貌变化特征。

S104：对各个动作分支特征的分类预测结果进行融合处理，得到待检测视频的动作识别结果。

在一种可选方式中，可以将各个动作分支特征分类预测结果进行加权求和处理，得到待检测视频的动作识别结果。

下面结合图2-4、以将视觉底层特征拆分为静态外貌特征、表观动作特征和外貌变化特征这三个分支为例，对本发明实施例进行介绍。

给定一个输入视频，输入视频的连续几帧图像帧，随机裁剪为一定尺寸，首先用几层卷积神经网络对每帧图像分别得到一组维度例如64维的底层特征图，这些视觉底层特征主要提取了基本的视觉特征，并被后面三个分支网络所共享。

(一)静态外貌分支

在主流的双流卷积神经网络中，外貌分支的特征是由单帧计算得到，因此对运动模糊、摄像头抖动等细微变化非常敏感。本发明实施例中对此问题通过选择连续几帧间最高的响应解决。具体实现是通过引入时域池化(temporal pooling)。给定一系列单帧的视觉底层特征，通过重复使用二维(空间)卷积、二维(空间)池化和时域池化(如图2所示)，保证静态外貌分支可以逐步提取外貌特征信息，在这一系列重复操作中，特征图的空间分辨率和时间分辨率逐渐减小，通道数逐渐增加。

该静态外貌分支要得到的结果是基于静态外貌分支表征的分类结果。这个“静态外貌分支的表征”就是整个神经网络每层特征图。例如，开始是8帧、64通道、112x112的特征图，倒数第二层高层特征图是1帧、1024通道、7x7的特征图，最后得到1024维特征(以上这些数值都可以改变)，再经过一个N类的全连接层(其中N是动作分类的类别数)，就能得到静态外貌分支的分类结果。

(二)表观动作分支

表观动作特征表示的是视频帧上每个特征点的空间位移。鉴于传统光流方法计算费时，并且依赖外部模块，本发明实施例提出直接用代价体(cost volume)刻画运动信息，并从中导出运动场。

参见图3为代价体示意图。

代价体的构造：给定一堆特征图和我们可以通过匹配每个像素点与其周围大小为(2ΔH+1)×(2ΔW+1)的邻域点构造一个代价体具体来说C_t(i,j,δi,δj)表示F_t(i,j)和F_t(i+δi,j+δj)的匹配相似度(如余弦距离)。

代价体的处理：得到了C_t后，需要导出一个刻画运动信息的低维表示。一种可选的方法是“赢者通吃”(Winner-take-all)，选择匹配相似度最高的(δi*,δj*)作为(i,j)的运动位移，但是这种方法不能估计亚像素的运动位移。另一种可选的方法是，根据代价体每个元素的强度计算出一个加权系数，然后通过这个加权系数计算出每个点的期望位移，作为对这个点运动位移的“软分配”(soft assignment)。

得到运动场后，将其作为输入给卷积神经网络提取高层特征，整个输入视频帧序列最终得到一个例如1024维特征，再经过一个N类的全连接层(其中N是动作分类的类别数)，即能得到该分支的分类结果。

(三)外貌变化分支

除了由动作引发的变化，视频中还有一些由于光照等条件变化导致物体外貌发生的变化。简单的对视频帧计算差值(RGB-Diff)不能排除运动带来的变化，因此本发明实施例提出经运动场补偿的差值。一种可选的具体做法为，给定一组特征图F_t和F_t+1，以及预先获取的运动场V_t(可直接利用表观动作分支得到的运动场)，先用运动场V_t将前一帧的特征图F_t变形为F′_t+1＝W(F_t,V_t)，然后计算变形后的特征图和后一帧特征图的差值F_t+1-F′_t+1(也可以直接对前一帧图像进行变形处理，得到变形后图像与后一帧图像之间的差值)，作为外貌变化的表示，将其作为输入给后续卷积网络提取高层特征，整个输入视频帧序列最终得到一个例如1024维特征，再经过一个N类的全连接层(其中N是动作分类的类别数)，即能得到该分支的分类结果。

参见图4，为本发明视频动作识别方法一个实施例的示意图。首先，根据视频计算各个分支网络共享的视觉底层特征；然后，基于共享的视觉底层特征，分别输入三个不同的分支网络进行各个分支特征的预测：静态外貌分支网络、表观动作分支网络和外貌变化分支网络；最后，在最上层进行分类结果融合，得到动作预测结果。

可见，相比于现有仅从视频帧做动作识别的方案(例如三维卷积及其变种结构)对动作的建模并不很有效且准确率较低，本发明实施例仅从视频帧出发，例如，在一个可选方式中，将视频的动态信息拆解为三个部分：静态外貌、表观动作、外貌变化，从而对动作的建模更高效，提高了分类准确率；相比于现有双流卷积神经网络及其变种的需要计算光流且计算和存储开销较高的方案，本发明实施例在一种可选方式中，对运动的估计是从视频帧构造代价体推导运动场，不需要额外计算光流，从而提高了系统的测试速度，减少了外部存储。本发明实施例可具体应用在视频分享网站的自动标签、推送系统、视频分享网站或视频直播网站违规内容审核系统等场景。

图5为本发明视频动作识别装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图5所示，该实施例的装置包括：

待检测区域获取单元501，用于基于待检测视频中的连续图像帧，得到待检测区域；

特征提取单元502，用于对所述待检测区域进行特征提取，得到视觉底层特征；

动作分支特征获取单元503，用于将所述视觉底层特征拆分为至少一个动作分支特征；

分类预测单元504，用于依据各个动作分支特征对应的动作分支识别网络分别对所述各个动作分支特征进行分类预测；

融合处理单元505，用于对所述各个动作分支特征的分类预测结果进行融合处理，得到所述待检测视频的动作识别结果。

在一种可选方式中，所述融合处理单元505具体用于：将所述各个动作分支特征分类预测结果进行加权求和处理，得到所述待检测视频的动作识别结果。

在一种可选方式中，所述待检测区域获取单元501具体用于：预先确定待检测区域的尺寸；在所述待检测视频中的连续图像帧中，随机裁剪出所述尺寸的待检测区域。

在一种可选方式中，

所述动作分支特征为静态外貌特征；所述动作分支特征获取单元503具体用于：基于视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从视觉底层特征中提取出外貌静态特征；和/或，

所述动作分支特征为表观动作特征；所述动作分支特征获取单元503具体用于：基于视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到所述表观动作特征；和/或，

所述动作分支特征为外貌变化特征；所述动作分支特征获取单元503具体用于：基于视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征。

图6为本发明视频动作识别装置另一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图6所示，该实施例的装置包括：

待检测区域获取单元601，用于基于待检测视频中的连续图像帧，得到待检测区域；

特征提取单元602，用于对所述待检测区域进行特征提取，得到视觉底层特征；

动作分支特征获取单元603，用于将所述视觉底层特征拆分为至少一个动作分支特征；

分类预测单元604，用于依据各个动作分支特征对应的动作分支识别网络分别对所述各个动作分支特征进行分类预测；

融合处理单元605，用于对所述各个动作分支特征的分类预测结果进行融合处理，得到所述待检测视频的动作识别结果。

在一种可选方式中，所述融合处理单元605具体用于：将所述各个动作分支特征分类预测结果进行加权求和处理，得到所述待检测视频的动作识别结果。

在一种可选方式中，所述待检测区域获取单元601具体用于：预先确定待检测区域的尺寸；在所述待检测视频中的连续图像帧中，随机裁剪出所述尺寸的待检测区域。

在一种可选方式中，

所述动作分支特征为静态外貌特征；所述动作分支特征获取单元603具体用于：基于视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从视觉底层特征中提取出外貌静态特征；和/或，

所述动作分支特征为表观动作特征；所述动作分支特征获取单元603具体用于：基于视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到所述表观动作特征；和/或，

所述动作分支特征为外貌变化特征；所述动作分支特征获取单元603具体用于：基于视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征。

在一种可选方式中，

所述装置还包括：静态外貌识别网络训练单元606，用于训练所述静态外貌特征对应的动作分支识别网络；

所述静态外貌识别网络训练单元606包括：

外貌静态特征获取子单元6061，用于基于视频样本的样本视觉底层特征，通过重复二维卷积、二维池化及时域池化的操作，从样本视觉底层特征中提取出外貌静态特征；

训练子单元6062，用于根据所述外貌静态特征对卷积神经网络进行分类训练，得到所述静态外貌特征对应的动作分支识别网络。

在一种可选方式中，

所述装置还包括：表观动作识别网络训练单元607，用于训练所述表观动作特征对应的动作分支识别网络；

所述表观动作识别网络训练单元607包括：

表观动作特征获取子单元6071，用于基于视频样本的样本视觉底层特征，通过基于逐像素相关构造代价体，并从代价体中推导出每个像素的运动场，从而得到所述表观动作特征；

训练子单元6072，用于根据所述表观动作特征对卷积神经网络进行分类训练，得到所述表观动作特征对应的动作分支识别网络。

在一种可选方式中，所述表观动作特征提取子单元6071具体用于：针对所述代价体，根据匹配相似度，确定出每个像素的运动场；和/或，根据代价体每个像素的强度计算出加权系数，并根据所述加权系数计算出每个像素的期望位移，从而确定出每个像素的运动场。

在一种可选方式中，

所述装置还包括：外貌变化识别网络训练单元608，用于训练所述外貌变化特征对应的动作分支识别网络；

所述外貌变化识别网络训练单元608包括：

外貌变化特征获取子单元6081，用于基于视频样本的样本视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征；

训练子单元6082，用于根据所述外貌变化特征对卷积神经网络进行分类训练，得到所述外貌变化特征对应的动作分支识别网络。

在一种可选方式中，所述外貌变化特征获取子单元6081具体用于：从样本视觉底层特征中得到两帧图像或两帧特征图，并预先获取所述样本视觉底层特征的运动场；利用所述运动场将第一帧图像或第一帧特征图进行变形处理，得到变形后第一帧图像或变形后第一帧特征图；计算变形后第一帧图像与第二帧图像之间的差值或变形后第一帧特征图与第二帧特征图之间的差值；由所述差值表示所述外貌变化特征。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图7，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备700的结构示意图：如图7所示，计算机系统700包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)701，和/或一个或多个图像处理器(GPU)713等，处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，

处理器可与只读存储器702和/或随机访问存储器703中通信以执行可执行指令，通过总线704与通信部712相连、并经通信部712与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，基于待检测视频中的连续图像帧，得到待检测区域；对所述待检测区域进行特征提取，得到视觉底层特征；将所述视觉底层特征拆分为至少一个动作分支特征，并依据各个动作分支特征对应的动作分支识别网络分别对所述各个动作分支特征进行分类预测；对所述各个动作分支特征的分类预测结果进行融合处理，得到所述待检测视频的动作识别结果。

此外，在RAM 703中，还可存储有装置操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。在有RAM703的情况下，ROM702为可选模块。RAM703存储可执行指令，或在运行时向ROM702中写入可执行指令，可执行指令使中央处理单元701执行上述通信方法对应的操作。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

需要说明的，如图7所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU713和CPU701可分离设置或者可将GPU713集成在CPU701上，通信部712可分离设置，也可集成设置在CPU701或GPU713上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，接收待检测证件的图片或视频；对待检测证件的图片或视频进行处理后，得到待检测证件图像；对待检测证件图像进行特征提取，得到多个类别的特征信息；根据所述多个类别的特征信息进行证件伪造识别，得到所述证件的识别结果。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM702、RAM703、磁碟或者光盘等各种可以存储程序代码的介质。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种视频动作识别方法，其特征在于，

基于待检测视频中的连续图像帧，得到待检测区域；

对所述待检测区域进行特征提取，得到视觉底层特征；

2.根据权利要求1所述的方法，其特征在于，所述动作分支特征包括静态外貌特征、表观动作特征、外貌变化特征中的任一项或多项组合。

3.根据权利要求2所述的方法，其特征在于，

所述训练所述静态外貌特征对应的动作分支识别网络包括：

4.根据权利要求2所述的方法，其特征在于，

所述训练所述表观动作特征对应的动作分支识别网络包括：

5.根据权利要求4所述的方法，其特征在于，所述从代价体中推导出每个像素的运动场包括：

6.根据权利要求2所述的方法，其特征在于，

所述训练所述外貌变化特征对应的动作分支识别网络包括：

7.根据权利要求6所述的方法，其特征在于，所述基于视频样本的样本视觉底层特征，通过运动场补偿差值的方式，得到所述外貌变化特征，包括：

由所述差值表示所述外貌变化特征。

8.一种视频动作识别装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法。

10.一种电子设备，包括用于存储计算机程序的存储器和处理器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法。