CN109325430B

CN109325430B - 实时行为识别方法及系统

Info

Publication number: CN109325430B
Application number: CN201811058694.9A
Authority: CN
Inventors: 姚丽; 董远; 白洪亮; 熊风烨
Original assignee: Suzhou Feisou Technology Co ltd
Current assignee: Suzhou Feisou Technology Co ltd
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2021-08-20
Anticipated expiration: 2038-09-11
Also published as: CN109325430A

Abstract

本发明实施例提供了一种实时行为识别方法及系统，通过对待识别视频中的视频帧进行采样，并将采样结果输入至学习后的预设卷积神经网络，由学习后的预设卷积神经网络输出待识别视频产生的实时光流，可以大大降低获取实时光流的时间，再基于实时光流，确定待识别视频中行为的类别，可提高行为识别的速度。同时由于本发明实施例中采用学习后的预设卷积神经网络，可以避免单次计算产生的识别结果不准确的问题。而且，本发明实施例中在获取到采样结果后并不需要对采样结果进行保存，而是直接将采样结果输入至学习后的预设卷积神经网络中，并不需要对存储空间进行限定，进一步节约了行为识别的成本。

Description

实时行为识别方法及系统

技术领域

本发明实施例涉及计算机视觉技术领域，更具体地，涉及实时行为识别方法及系统。

背景技术

目前，人体行为识别技术是机器视觉领域的重要分支和前沿性技术，可广泛应用于智能视频监控、机器人视觉、人机交互、游戏控制等，应用市场前景广阔。

现有技术中的人体行为识别方法主要依靠如下三种卷积神经网络模型：1)时空双流卷积神经网络；2)三维卷积神经网络；3)在时空双流卷积神经网络顶部堆积模型如长短期记忆时间递归神经网络。这三种卷积神经网络模型在实现行为识别时，均需要确定待识别视频中的光流以表示待识别视频中行为的运动信息，现有技术中主要利用局部光流表示运动信息或者采用运动矢量代替光流表示运动信息，进而进行行为识别。其中的局部光流是指对一定时间段内的视频帧进行采样，并根据采样得到的视频帧计算得到的光流，这一过程的计算量很大，将大大降低行为识别的速度。而采用运动矢量代替光流表示运动信息这一方案也会因计算量很大，大大降低行为识别的速度。

因此，现急需提供一种实时行为识别方法，以解决现有技术中行为识别速度慢的问题。

发明内容

为克服上述问题或者至少部分地解决上述问题，本发明实施例提供了一种实时行为识别方法及系统。

第一方面，本发明实施例提供了一种实时行为识别方法，包括：

对待识别视频中的视频帧进行采样，并将采样结果输入至预设卷积神经网络，由所述预设卷积神经网络输出所述待识别视频产生的实时光流；

基于所述实时光流，确定所述待识别视频中行为的类别；

其中，所述预设卷积神经网络由样本视频中多个样本视频帧作为输入，所述样本视频产生的实时光流作为输出学习得到。

第二方面，本发明实施例提供了一种实时行为识别系统，包括：

实时光流产生模块，用于对待识别视频中的视频帧进行采样，并将采样结果输入至预设卷积神经网络，由所述预设卷积神经网络输出所述待识别视频产生的实时光流；

行为类别确定模块，用于基于所述实时光流，确定所述待识别视频中行为的类别；

第三方面，本发明实施例提供了一种电子设备，包括：

至少一个处理器、至少一个存储器、通信接口和总线；其中，

所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以执行第一方面提供的实时行为识别方法。

第四方面，本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面提供的实时行为识别方法。

本发明实施例提供的一种实时行为识别方法及系统，通过对待识别视频中的视频帧进行采样，并将采样结果输入至学习后的预设卷积神经网络，由学习后的预设卷积神经网络输出待识别视频产生的实时光流，可以大大降低获取实时光流的时间，再基于实时光流，确定待识别视频中行为的类别，可提高行为识别的速度。同时由于本发明实施例中采用学习后的预设卷积神经网络，可以避免单次计算产生的识别结果不准确的问题。而且，本发明实施例中在获取到采样结果后并不需要对采样结果进行保存，而是直接将采样结果输入至学习后的预设卷积神经网络中，并不需要对存储空间进行限定，进一步节约了行为识别的成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种实时行为识别方法的流程示意图；

图2为本发明实施例提供的一种实时行为识别系统的结构示意图；

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

由于现有技术中在行为识别过程中，通常采用局部光流表示运动信息或者采用运动矢量代替光流表示运动信息。但是无论是获取局部光流还是获取运动矢量，计算量均很大，将大大降低行为识别的速度同时增加成本。不仅如此，由于现有技术中需要对采样得到的视频帧进行保存，对存储空间要求很大，且采样得到的视频帧由于信息的缺失且单次计算将会导致识别结果不准确。

因此，为解决现有技术中在行为识别过程中产生的缺陷，本发明实施例中提供了一种实时行为识别方法及系统。

在说明本发明实施例中提供的技术方案之前，对本发明实施例中出现的技术名词进行解释：

1)卷积神经网络：一种深度学习算法。

2)行为识别：对分割好的待识别视频内人物的行为进行分类。

3)损失函数：在预设卷积神经网络学习过程中用来估量网络预测值与真实值的偏离程度，学习过程中的优化目标是最小化损失函数。

4)光流：是关于视域中的物体运动检测中的概念。用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。本发明实施例中可以通过每两个相邻的视频帧确定，用以表示视频中行为的运动信息，可以理解为行为的运动速度。

如图1所示，本发明实施例提供了一种实时行为识别方法，包括：

S1，对待识别视频中的视频帧进行采样，并将采样结果输入至学习后的预设卷积神经网络，由预设卷积神经网络输出待识别视频产生的实时光流；

S2，基于实时光流，确定待识别视频中行为的类别；

其中，预设卷积神经网络由样本视频中多个样本视频帧作为预设卷积神经网络的输入，样本视频产生的实时光流作为预设卷积神经网络的输出学习得到。

具体地，本发明实施例中首先对待识别视频中的视频帧进行采样，选取待识别视频中极少数的视频帧作为研究对象，可以大大降低行为识别的计算量，提高行为识别的速度。采样结果是指采样得到的多个视频帧，这里为区分说明，将采样得到的视频帧均即为采样视频帧，即采样结果包括多个采样视频帧。

本发明实施例中采用预设卷积神经网络模型获取待识别视频产生的实时光流，可以使得到实时光流的速度更快，可进一步提高行为识别的速度。预设卷积神经网络具有两个输入，分别为多个采样视频帧中的每两个相邻的采样视频帧，由于预设卷积神经网络具有固定的网络模型参数，两个输入经预设卷积神经网络处理后自动输出待识别视频产生的实时光流。

这里需要说明的是，在应用预设卷积神经网络模型之前，需要对预设卷积神经网络模型进行学习，即训练。具体学习是采用样本视频完成，样本视频可以为一个也可以为多个。首先需要对样本视频进行采样，获取样本视频中的样本视频帧，这里的样本视频帧是指对样本视频中的视频帧进行采样后得到的视频帧。将多个样本视频帧作为所述预设卷积神经网络的输入，所述样本视频产生的实时光流作为所述预设卷积神经网络的输出学习得到预设卷积神经网络。

在确定待识别视频产生的实时光流后，则可以根据实时光流确定出待识别视频中行为的类别。具体可以采用时空双流卷积神经网络实现。

本发明实施例中提供的实时行为识别方法，通过对待识别视频中的视频帧进行采样，并将采样结果输入至学习后的预设卷积神经网络，由学习后的预设卷积神经网络输出待识别视频产生的实时光流，可以大大降低获取实时光流的时间，再基于实时光流，确定待识别视频中行为的类别，可提高行为识别的速度。同时由于本发明实施例中采用学习后的预设卷积神经网络，可以避免单次计算产生的识别结果不准确的问题。而且，本发明实施例中在获取到采样结果后并不需要对采样结果进行保存，而是直接将采样结果输入至学习后的预设卷积神经网络中，并不需要对存储空间进行限定，进一步节约了行为识别的成本。

在上述实施例的基础上，本发明实施例中提供的实时行为识别方法，所述预设卷积神经网络具体通过如下方式学习得到：

对所述样本视频中的视频帧进行采样，获取多个样本视频帧；

将所述多个样本视频帧输入至所述预设卷积神经网络，对于所述多个样本视频帧中任意两个相邻的样本视频帧，获取所述任意两个相邻的样本视频帧产生的估计光流；

基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧，重构所述任意两个相邻的样本视频帧中的前一样本视频帧；

若判断获知重构结果、所述任意两个相邻的样本视频帧中的前一样本视频帧以及所述估计光流使得所述预设卷积神经网络的损失函数取值最小，则学习结束，并将所述多个样本视频帧中每两个相邻的样本视频帧产生的估计光流整合成所述样本视频产生的实时光流并输出。

具体地，本发明实施例中对预设卷积神经网络的学习过程进行说明，采用无监督学习的方法对预设卷积神经网络进行学习，使预设卷积神经网络能够根据多个样本视频帧中任意两个相邻的样本视频帧I₁和I₂对任意两个相邻的样本视频帧中的前一样本视频帧I₁(任意两个相邻的样本视频帧中的后一样本视频帧为I₂，前后的关系是指采样时间的先后)进行重构，得到重构结果I₁’，具体是根据I₁和I₂产生一个估计光流，估计光流通过流场V的形式表现，然后采用流场V和I₂重构出I₁’，当I₁、I₂以及V可以使预设卷积神经网络的损失函数取值最小，则训练结束，I₁和I₂产生的估计光流可以用于组成输出的实时光流，即将这种情况下每两个相邻的样本视频帧产生的估计光流进行整合可形成用于输出的实时光流。

本发明实施例中提供的预设卷积神经网络的学习过程，为预设卷积神经网络的学习提供一种新的方法。

在上述实施例的基础上，本发明实施例中提供的实时行为识别方法，所述基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧，重构所述任意两个相邻的样本视频帧中的前一样本视频帧，具体包括：

基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧，通过逆向映射算法，重构所述任意两个相邻的样本视频帧中的前一样本视频帧。

具体地，本发明实施例中在对预设卷积神经网络进行学习的过程中，重构的操作基于逆向映射算法(inverse warting)实现，即通过如下表达式实现：

I₁’＝T[I₂；V] (1)

其中，T函数为逆向映射函数，是指根据I₂和V进行重构计算，本发明实施例中采用空间变换器实现。

逆向映射算法的核心是：对于视频帧I₂上每个像素的位置坐标(x,y)，用逆向映射函数T找到它在样本视频帧为I₁中的对应位置(u,v)，即重构出I₁’。需要说明的是，流场V实际上可以看做是I₁变为I₂所需要引起的变化，而逆向映射函数T实际上是流场V的逆变化。

在上述实施例的基础上，本发明实施例中提供的实时行为识别方法，所述预设卷积神经网络的损失函数包括：像素重构误差子函数、光滑度子函数以及结构相似性子函数，所述损失函数由所述像素重构误差子函数、所述光滑度子函数以及所述结构相似性子函数按预设系数加权得到；

其中，所述像素重构误差子函数由基于所述估计光流的Charbonnier惩罚因子确定，所述光滑度子函数由基于所述估计光流在水平方向和竖直方向上的梯度的Charbonnier惩罚因子确定，所述结构相似性子函数由所述重构结果和所述任意两个相邻的样本视频帧中的前一样本视频帧的结构相似性确定。

具体地，本发明实施例中提供的预设卷积神经网络的损失函数并不是单一的表达式，而是考虑了像素重构误差、光滑度以及重构的结构相似性这三种因素对输出的光流的影响，综合形成的一种损失函数。其中损失函数的具体表达式如下：

L＝λ₁·L_pixel+λ₂·L_smooth+λ₃·L_ssim (2)

其中，L为损失函数，L_pixel为像素重构误差子函数，λ₁为像素重构误差因素对损失函数影响的权重，L_smooth为光滑度子函数，λ₂为光滑度因素对损失函数影响的权重，L_ssim为结构相似性子函数，λ₃为结构相似性因素对损失函数影响的权重。

其中，λ₁、λ₂、λ₃的具体取值可根据需要进行设定，本发明实施例中对此不作具体限定。

像素重构误差子函数L_pixel的具体表达式如下：

其中，N为每一样本视频帧I₁、I₂中像素点的个数，(i，j)表示每一样本视频帧中第i行第j列的像素点，I₁(i,j)表示样本视频帧I₁中像素点(i，j)的位置坐标，

表示样本视频帧I₁、I₂之间形成的估计光流对应的流场V在像素点(i，j)处x方向上的取值，

表示样本视频帧I₁、I₂之间形成的估计光流对应的流场V在像素点(i，j)处y方向上的取值。

实际上是通过I₁(i,j)以及流场V确定的在样本视频帧I₁下一时刻得到的样本视频帧I₂中像素点

的位置坐标。需要说明的是，本发明实施例中所有样本视频帧采用一个空间坐标系进行研究。

ρ函数为基于估计光流的Charbonnier惩罚因子，且有：

ρ(A)＝(A²+ε²)^α (5)

其中，ε为取值范围为0-0.001的常数，α为常数，通常取值为0.5。

本发明实施例中引入一个鲁棒的凸误差函数，即ρ函数，以减少异常值的影响。

光滑度子函数L_smooth的具体表达式如下：

其中，

和

分别表示样本视频帧I₁、I₂之间形成的估计光流对应的流场V在水平方向x上的分量在水平方向x上和竖直方向y上的梯度。类似地，

和

分别表示样本视频帧I₁、I₂之间形成的估计光流对应的流场V在竖直方向y上的分量在水平方向x上和竖直方向y上的梯度。

ρ函数可用公式(5)表示，其中A分别替换为

即可。

结构相似性子函数L_ssim的具体表达式如下：

其中，N为每一样本视频帧I₁以及重构结果I₁’中像素点的个数，I₁′(i,j)表示重构结果I₁’中像素点(i，j)的位置坐标，函数SSIM为结构相似性函数，用于表示重构结果I₁’和任意两个相邻的样本视频帧中的前一样本视频帧I₁的结构相似性。

在上述实施例的基础上，本发明实施例中提供的实时行为识别方法，所述预设卷积神经网络包括预设数量个卷积层，以及由卷积层和去卷积层组成的卷积链；

所述预设卷积神经网络中靠近输入端的两个卷积层的步长均为1。

具体地，本发明实施例中的预设卷积神经网络包括收缩部分和扩展部分。收缩部分包括预设数量个卷积层，扩展部分包括卷积层和去卷积层，由卷积层和去卷积层组合形成卷积链。

本发明实施例中采用的卷积层中靠近输入端的两个卷积层的步长均为1，这是为了保证经卷积层处理后的视频帧可以保持原来的大小，保证不失真或损失细节信息，这可适用于低分辨率的视频帧。同时在预设卷积神经网络中不采用池化层，而是直接采用分步卷积代替对视频帧的池化，以防止视频帧中的细节信息被去除，影响行为识别的结果。

作为优选方案，本发明实施例中采用3X3的卷积核进行卷积去检测局部细节运动。此外，为了保证细节动作不被去除，将视频帧的细节保留到最后一步，即在softmax分类层之前。

表1预设卷积神经网络中卷积层以及卷积链的信息表

如表1所示，为本发明实施例中提供的预设卷积神经网络中卷积层以及卷积链的信息表。表1中，name为卷积层的名称，Kernel为卷积层的卷积核，Str为卷积层的步长。从表1中可以看出，收缩部分共包括12个卷积层，分别为conv1、conv1_1、conv2、conv2_1、conv3、conv3_1、conv4、conv4_1、conv5、conv5_1、conv6、conv6_1，其中conv1和conv1_1的步长均设置为1，扩展部分包括4个由卷积层和去卷积层组合形成的卷积链，第一个卷积链包括flow6(loss6)、deconv5和xconv5，其中flow6(loss6)为计算前一层的损失误差的卷积层，deconv5为去卷积层，xconv5改变该卷积链的通道数，以使该卷积链与下一卷积链的通道数相匹配。同理，第二个卷积链包括flow5(loss5)、deconv4和xconv4，第三个卷积链包括flow4(loss4)、deconv3和xconv3，第四个卷积链包括flow3(loss3)、deconv2和xconv2，最后flow2(loss2)是用来计算第四个卷积链的损失误差的。

在上述实施例的基础上，本发明实施例中提供的实时行为识别方法，所述基于所述实时光流，确定所述待识别视频中行为的类别，具体包括：

将所述实时光流输入至时空双流卷积神经网络中的时间流卷积神经网络中，由所述时间流卷积神经网络输出所述待识别视频中行为的运动信息分类标签，并将所述采样结果输入至所述时空双流卷积神经网络中的空间流卷积神经网络，由所述空间流卷积神经网络输出所述待识别视频中行为的动作信息分类标签；

基于所述运动信息分类标签和所述动作信息分类标签，确定所述待识别视频中行为的类别。

具体地，采用时空双流卷积神经网络实现根据实时光流确定出待识别视频中行为的类别时，时空双流卷积神经网络包括时间流卷积神经网络和空间流卷积神经网络，时间流卷积神经网络中预先存储有大量的运动信息类别，空间流卷积神经网络中预先存储有大量的动作信息类别，将得到的实时光流输入至时间流卷积神经网络后，由时间流卷积神经网络输出待识别视频中行为的运动信息分类标签，这里的运动信息分类标签是指时间流卷积神经网络根据输入的实时光流确定出的与该实时光流表示的运动信息类别相近的运动信息类别，具体表体现方式是为每个运动信息类别赋予一个准确度，准确度越高，表示对应的运动信息类别与该实时光流表示的运动信息类别相同的可能性越大，反之可能性越小。同理，将采样结果输入至空间流卷积神经网络，由空间流卷积神经网络输出待识别视频中行为的动作信息分类标签，这里的动作信息分类标签是指空间流卷积神经网络根据输入的采样结果确定出的与该采样结果表示的动作信息类别相近的动作信息类别，具体表体现方式是为每个动作信息类别赋予一个准确度，准确度越高，表示对应的动作信息类别与该采样结果表示的动作信息类别相同的可能性越大，反之可能性越小。

最后根据得到的运动信息分类标签和动作信息分类标签，即可确定出待识别视频中行为的类别。

作为优选方案，本发明实施例中采用的时间流卷积神经网络和空间流卷积神经网络均为VGG16卷积神经网络。

在上述实施例的基础上，本发明实施例中提供的实时行为识别方法，所述运动信息分类标签包括表示所述待识别视频中行为的运动信息类别以及准确度，所述动作信息分类标签包括表示所述待识别视频中行为的动作信息类别以及准确度；

相应地，基于所述运动信息分类标签和所述动作信息分类标签，确定所述待识别视频中行为的类别，具体包括：

分别将所述运动信息分类标签中的运动信息类别和所述动作信息分类标签中的动作信息类别以预设比例进行融合，并将对应的准确度相乘；

相乘后准确度最高的融合结果为所述待识别视频中行为的类别。

具体地，本发明实施例中以预设比例分别将运动信息分类标签中的运动信息类别和动作信息分类标签中的动作信息类别进行融合，并将对应的准确度相乘，选取相乘后准确度最高的融合结果作为待识别视频中行为的类别。也可以选取相乘后准确度排名前n的融合结果分别作为待识别视频中行为的类别。

作为优选方案，本发明实施例中可将预设比例设定为1:1.5。

如图2所示，在上述实施例的基础上，本发明实施例中还提供了一种实时行为识别系统，包括：实时光流产生模块21和行为类别确定模块22。其中：

实时光流产生模块21用于对待识别视频中的视频帧进行采样，并将采样结果输入至预设卷积神经网络，由所述预设卷积神经网络输出所述待识别视频产生的实时光流；

行为类别确定模块22用于基于所述实时光流，确定所述待识别视频中行为的类别；

在上述实施例的基础上，本发明实施例中还提供了一种实时行为识别系统中还包括训练模块，训练模块包括帧获取子模块、估计光流获取子模块、重构子模块以及输出子模块。其中，

帧获取子模块用于对所述样本视频中的视频帧进行采样，获取多个样本视频帧；

估计光流获取子模块用于将所述多个样本视频帧输入至所述预设卷积神经网络，对于所述多个样本视频帧中任意两个相邻的样本视频帧，获取所述任意两个相邻的样本视频帧产生的估计光流；

重构子模块用于基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧，重构所述任意两个相邻的样本视频帧中的前一样本视频帧；

输出子模块用于若判断获知重构结果、所述任意两个相邻的样本视频帧中的前一样本视频帧以及所述估计光流使得所述预设卷积神经网络的损失函数取值最小，则学习结束，并将所述多个样本视频帧中每两个相邻的样本视频帧产生的估计光流整合成所述样本视频产生的实时光流并输出。

在上述实施例的基础上，本发明实施例中提供的实时行为识别系统中重构子模块具体用于：

在上述实施例的基础上，本发明实施例中提供的实时行为识别系统中行为类别确定模块包括：分类标签确定子模块和类别确定子模块。其中，

分类标签确定子模块用于将所述实时光流输入至时空双流卷积神经网络中的时间流卷积神经网络中，由所述时间流卷积神经网络输出所述待识别视频中行为的运动信息分类标签，并将所述采样结果输入至所述时空双流卷积神经网络中的空间流卷积神经网络，由所述空间流卷积神经网络输出所述待识别视频中行为的动作信息分类标签；

类别确定子模块用于基于所述运动信息分类标签和所述动作信息分类标签，确定所述待识别视频中行为的类别。

在上述实施例的基础上，所述运动信息分类标签包括表示所述待识别视频中行为的运动信息类别以及准确度，所述动作信息分类标签包括表示所述待识别视频中行为的动作信息类别以及准确度；相应地，所述类别确定子模块具体用于：分别将所述运动信息分类标签中的运动信息类别和所述动作信息分类标签中的动作信息类别以预设比例进行融合，并将对应的准确度相乘；相乘后准确度最高的融合结果为所述待识别视频中行为的类别。

如图3所示，在上述实施例的基础上，本发明实施例中还提供了一种电子设备，包括：处理器(processor)301、存储器(memory)302、通信接口(Communications Interface)303和总线304；其中，

所述处理器301、存储器302、通信接口303通过总线304完成相互间的通信。存储器302存储有可被处理器301执行的程序指令，处理器301用于调用存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：S1，对待识别视频中的视频帧进行采样，并将采样结果输入至预设卷积神经网络，由预设卷积神经网络输出待识别视频产生的实时光流；S2，基于实时光流，确定待识别视频中行为的类别。

存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述实施例的基础上，本发明实施例中还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：S1，对待识别视频中的视频帧进行采样，并将采样结果输入至预设卷积神经网络，由预设卷积神经网络输出待识别视频产生的实时光流；S2，基于实时光流，确定待识别视频中行为的类别。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种实时行为识别方法，其特征在于，包括：

基于所述实时光流，确定所述待识别视频中行为的类别；

其中，所述预设卷积神经网络由样本视频中多个样本视频帧作为输入，所述样本视频产生的实时光流作为输出学习得到；

所述预设卷积神经网络包括预设数量个卷积层，以及由卷积层和去卷积层组成的卷积链；所述预设卷积神经网络中靠近输入端的两个卷积层的步长均为1；所述预设卷积神经网络中不采用池化层；

所述预设卷积神经网络具体通过如下方式学习得到：

若判断获知重构结果、所述任意两个相邻的样本视频帧中的前一样本视频帧以及所述估计光流使得所述预设卷积神经网络的损失函数取值最小，则学习结束，并将所述多个样本视频帧中每两个相邻的样本视频帧产生的估计光流整合成所述样本视频产生的实时光流并输出；

所述预设卷积神经网络的损失函数包括：像素重构误差子函数、光滑度子函数以及结构相似性子函数，所述损失函数由所述像素重构误差子函数、所述光滑度子函数以及所述结构相似性子函数按预设系数加权得到；

2.根据权利要求1所述的实时行为识别方法，其特征在于，所述基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧，重构所述任意两个相邻的样本视频帧中的前一样本视频帧，具体包括：

3.根据权利要求1-2中任一项所述的实时行为识别方法，其特征在于，所述基于所述实时光流，确定所述待识别视频中行为的类别，具体包括：

4.根据权利要求3所述的实时行为识别方法，其特征在于，所述运动信息分类标签包括表示所述待识别视频中行为的运动信息类别以及准确度，所述动作信息分类标签包括表示所述待识别视频中行为的动作信息类别以及准确度；

5.一种实时行为识别系统，其特征在于，包括：

所述预设卷积神经网络具体通过如下方式学习得到：

6.一种电子设备，其特征在于，包括：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以执行如权利要求1至4任一项所述的实时行为识别方法。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4中任一项所述的实时行为识别方法。