CN107463949A

CN107463949A - 一种视频动作分类的处理方法及装置

Info

Publication number: CN107463949A
Application number: CN201710573692.2A
Authority: CN
Inventors: 陈雯婕; 伏文龙; 曹立宏
Original assignee: Beijing Collaborative Innovation Institute; Communication University of China
Current assignee: Beijing Collaborative Innovation Institute; Communication University of China
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2017-12-12
Anticipated expiration: 2037-07-14
Also published as: CN107463949B

Abstract

本发明实施例提供一种视频动作分类的处理方法及装置，方法包括：读取待识别的视频帧，并提取视频帧的光流图像；选择一帧视频帧作为起始帧，提取起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与起始帧的RGB图像作为一个样本；将每一个样本中的光流图像和起始帧的RGB图像同时输入SCNN和TCNN，以分别获得SCNN和TCNN的最高卷积层计算出的卷积投影；根据卷积投影和多尺度卷积核的融合模块，获取视频动作的时空融合特征投影；将时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算结果和分类器获得视频动作所属分类。装置执行上述方法。本发明实施例提供的视频动作分类的处理方法及装置，能够提高复杂场景下人物动作的识别准确率。

Description

一种视频动作分类的处理方法及装置

技术领域

本发明实施例涉及图像识别技术领域，具体涉及一种视频动作分类的处理方法及装置。

背景技术

近些年来，图像识别成为一个热门的研究领域，基于视频帧的动作识别也越来越被关注。

现有的视频人物动作识别方法有很多，比如双流算法、基于人体骨骼的算法，卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。现在，卷积神经网络已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用，但是，上述方法对于复杂场景下人物动作识别的准确性和速度都有待提高。

因此，如何提高复杂场景下人物动作的识别准确率，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种视频动作分类的处理方法及装置。

第一方面，本发明实施例提供一种视频动作分类的处理方法，所述方法包括：

读取待识别的视频帧，并提取所述视频帧的光流图像；

选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；

将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影；

根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影；

将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。

第二方面，本发明实施例提供一种视频动作分类的处理装置，所述装置包括：

提取单元，用于读取待识别的视频帧，并提取所述视频帧的光流图像；

选择单元，用于选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；

获得单元，用于将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影；

获取单元，用于根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影；

分类单元，用于将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。

第三方面，本发明实施例提供另一种视频动作分类的处理装置，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

读取待识别的视频帧，并提取所述视频帧的光流图像；

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

读取待识别的视频帧，并提取所述视频帧的光流图像；

本发明实施例提供的视频动作分类的处理方法及装置，能够提高复杂场景下人物动作的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例视频动作分类的处理方法流程示意图；

图2为本发明实施例的识别结果示意图；

图3为本发明另一实施例视频动作分类的处理方法流程示意图；

图4为本发明实施例视频动作分类的处理装置结构示意图；

图5为本发明实施例提供的装置实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例视频动作分类的处理方法流程示意图，如图1所示，本发明实施例提供的一种视频动作分类的处理方法，包括以下步骤：

S1：读取待识别的视频帧，并提取所述视频帧的光流图像。

具体的，装置读取待识别的视频帧，并提取所述视频帧的光流图像。可以采用opencv自带的TVL1方法提取视频帧的光流图像，这方面为较成熟的技术，不再赘述。

S2：选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本。

具体的，装置选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本。其中m的数值可以根据实际情况自主设置，可选为10，RGB是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。可以理解：视频帧包括有多个样本，每一个样本至少包括有起始帧的RGB图像和m帧视频帧x方向和y方向的光流图像。

S3：将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影。

具体的，装置将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影。空间卷积神经网络(SCNN)和时序卷积神经网络(TCNN)都可以使用VGG16模型，该模型的可以配置为：第一组卷积层(2,64,3,1,1)->最大池化(2*2)->第二组卷积层(2,128,3,1,1)->最大池化(2*2)->第三组卷积层(3,256,3,1,1)->最大池化(2*2)->第四组卷积层(3,512,3,1,1)->最大池化(2*2)->第五组卷积层(3,512,3,1,1)，每组卷积层之后括号内的数字依次代表：该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度，分别提取这两个通路最高层conv5_3层(第五组卷积层中的第3层卷积层)的卷积投影。

S4：根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影。

具体的，装置根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影。分别对所述空间卷积神经网络和所述时序卷积神经网络的卷积投影进行特征归一化计算，即：把每个样本的卷积投影均归一化到0至1的范围内。特征归一化的卷积投影设为C_norm(n,c,h,w)，可以分别根据如下公式进行计算：

其中minC_n(n,c,h,w)是指R个样本中第n个样本的conv5_3卷积投影的最小值，maxC_n(n,c,h,w)是指R个样本中第n个样本的conv5_3卷积投影的最大值，C(n,c,h,w)是指R个样本中第n个样本的conv5_3卷积投影。其中n、c、h、w分别表示R个样本中的样本个数、空间卷积神经网络或时序卷积神经网络的标识参数，即0≤c＜C₁表示卷积投影属于空间卷积神经网络；C₁≤c＜C₂表示卷积投影属于时序卷积神经网络，其中C₁和C₂可以自主设置、表示起始帧的RGB图像的高度数值、表示起始帧的RGB图像的宽度数值。

然后，将并联的归一化特征输入多尺度卷积核的融合模块，该多尺度卷积核的融合模块具有3个并联的卷积核，卷积核的空间尺度分别为1*1、3*3以及5*5；每个卷积核的计算结果之后还连接有relu激活函数(Rectified Linear Units，修正线性单元)进行非线性变换；并联多尺度卷积核的融合模块得到的3组非线性变换后的计算结果(特征投影)，得到该视频动作的时空融合特征投影。

S5：将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。

具体的，装置将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。将该时空融合特征投影通过尺度参数为1*1的卷积层、尺度参数为2*2的最大池化层，进行降维，得到降维特征；再将降维特征依次通过长度为4096和2048的全连接层计算处理，并选择所有样本的计算结果中的最大值，根据分类器的映射关系，为所有样本计算结果中的最大值匹配对应的分类类别作为视频动作所属分类类别。图2为本发明实施例的识别结果示意图，并将分类结果显示在如图2所示对话框中，该分类结果是frisbee(飞盘)。

本发明实施例提供的视频动作分类的处理方法，能够提高复杂场景下人物动作的识别准确率。

在上述实施例的基础上，所述多尺度卷积核的融合模块具有p个并联的卷积核，相应的，所述根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影，包括：

分别对所述空间卷积神经网络和所述时序卷积神经网络的卷积投影进行特征归一化计算。

具体的，装置分别对所述空间卷积神经网络和所述时序卷积神经网络的卷积投影进行特征归一化计算。可参照上述实施例，不再赘述。

将并联后的特征归一化计算结果输入多尺度卷积核的融合模块，以获得所述融合模块的p个计算结果。

具体的，装置将并联后的特征归一化计算结果输入多尺度卷积核的融合模块，以获得所述融合模块的p个计算结果。可参照上述实施例，不再赘述。

分别对所述p个计算结果进行非线性变换。

具体的，装置分别对所述p个计算结果进行非线性变换。可参照上述实施例，不再赘述。

并联非线性变换后的计算结果，以获取所述视频帧中视频动作的时空融合特征投影。

具体的，装置并联非线性变换后的计算结果，以获取所述视频帧中视频动作的时空融合特征投影。可参照上述实施例，不再赘述。

本发明实施例提供的视频动作分类的处理方法，通过归一化计算、输入多尺度卷积核的融合模块进行计算、非线性变换得到了时空融合特征投影，进一步能够提高复杂场景下人物动作的识别准确率。

在上述实施例的基础上，所述p的数值为3，相应的，3个卷积核的空间尺度分别为1*1、3*3以及5*5。

具体的，装置中的所述p的数值为3，相应的，3个卷积核的空间尺度分别为1*1、3*3以及5*5。可参照上述实施例，不再赘述。

本发明实施例提供的视频动作分类的处理方法，通过设置多尺度卷积核的融合模块3个卷积核的空间尺度具体数值，进一步优化了整体的运算过程，更加提高了复杂场景下人物动作的识别准确率。

在上述实施例的基础上，所述分别对所述p个计算结果进行非线性变换，包括：

将每个计算结果分别输入relu激活函数，根据所述relu激活函数以对每个计算结果进行非线性变换。

具体的，装置将每个计算结果分别输入relu激活函数，根据所述relu激活函数以对每个计算结果进行非线性变换。可参照上述实施例，不再赘述。

本发明实施例提供的视频动作分类的处理方法，通过relu激活函数对每个计算结果进行非线性变换，保证了复杂场景下人物动作的识别的准确性。

在上述实施例的基础上，所述视频帧包括R个所述样本、所述分类器为softmax分类器，相应的，所述并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别，包括：

选择R个所述样本计算结果中的最大值。

具体的，装置选择R个所述样本计算结果中的最大值。

将所述最大值在所述softmax分类器中对应的分类类别作为视频动作的所属分类类别。

具体的，装置将所述最大值在所述softmax分类器中对应的分类类别作为视频动作的所属分类类别。softmax分类器预先设置有多个数值与视频动作的所属分类类别的映射关系，举例说明如下：数值范围在100～1000之间对应的视频动作是走路、数值范围在1000～3000之间对应的视频动作是跑步。因此可以根据最大值对应的映射关系，获得该视频动作的所属分类类别。

本发明实施例提供的视频动作分类的处理方法，通过使用softmax分类器判断视频动作的所属分类类别，更加提高了复杂场景下人物动作的识别准确率。

在上述实施例的基础上，所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型，所述VGG16模型为：

第一组卷积层及其参数2,64,3,1,1、最大池化层；第二组卷积层及其参数2,128,3,1,1、最大池化层；第三组卷积层及其参数3,256,3,1,1、最大池化层；第四组卷积层及其参数3,512,3,1,1、最大池化层；第五组卷积层及其参数3,512,3,1,1，每组卷积层参数的数字依次代表：该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度，每组卷积层中的最大池化层的参数为2*2。

具体的，装置中的所述VGG16模型为：

第一组卷积层及其参数2,64,3,1,1、最大池化层；第二组卷积层及其参数2,128,3,1,1、最大池化层；第三组卷积层及其参数3,256,3,1,1、最大池化层；第四组卷积层及其参数3,512,3,1,1、最大池化层；第五组卷积层及其参数3,512,3,1,1，每组卷积层参数的数字依次代表：该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度，每组卷积层中的最大池化层的参数为2*2。可参照上述实施例，不再赘述。

本发明实施例提供的视频动作分类的处理方法，通过为空间卷积神经网络和时序卷积神经网络选择、配置VGG16模型，进一步提高了复杂场景下人物动作的识别准确率。

在上述实施例的基础上，所述最高卷积层为所述第五组卷积层中的第3层卷积层。

具体的，装置中的所述最高卷积层为所述第五组卷积层中的第3层卷积层。可参照上述实施例，不再赘述。

本发明实施例提供的视频动作分类的处理方法，通过将最高卷积层选为第五组卷积层中的第3层卷积层，保证了卷积投影获得的合理性，有助于提高复杂场景下人物动作的识别准确率。

进一步，本发明还可应用于以下两个方面：

(1)基于监控视频的犯罪报警：例如监控摄像头对某一路口的环境进行监控，有人在路口打架，那么应用该视频人物动作识别，可以对发生该情况的路口进行实时报警。

(2)电视互动：在体育比赛中，对运动员的动作进行识别，如果发生重要的动作，比如足球比赛中的进球，那么就可以进行提醒，与观众进行互动。

图3为本发明另一实施例视频动作分类的处理方法流程示意图，如图3所示再次对视频动作分类的处理方法流程作简要说明：

(1)将每一个样本中视频帧的起始帧的RGB图像和起始帧后连续10帧视频帧的x方向和y方向的光流图像同时输入SCNN和TCNN。

(2)提取SCNN和TCNN第五组卷积层的第三层卷积层的计算结果作为卷积投影。

(3)将两条通路的卷积投影进行特征归一化，得到特征归一化的计算结果。

(4)并联合并两条通路的特征归一化的计算结果，得到并联归一化特征。

(5)将并联归一化特征输入多尺度卷积核的融合模块，以获得3个计算结果。

(6)分别对该3个计算结果进行非线性变换(图3为示出)，并联非线性变换后的计算结果，以获取视频动作的时空融合特征投影。

(7)将时空融合特征投影进行卷积层、最大池化层和全连接层的计算，并选择R个样本计算结果中的最大值。

(8)根据softmax分类器的映射关系，为R个样本计算结果中的最大值匹配对应的分类类别作为输出结果。

图4为本发明实施例视频动作分类的处理装置结构示意图，如图4所示，本发明实施例提供了一种视频动作分类的处理装置，包括提取单元1、选择单元2、获得单元3、获取单元4和分类单元5，其中：

提取单元1用于读取待识别的视频帧，并提取所述视频帧的光流图像；选择单元2用于选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；获得单元3用于将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影；获取单元4用于根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影；分类单元5用于将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。

具体的，提取单元1用于读取待识别的视频帧，并提取所述视频帧的光流图像，提取单元1将视频帧和视频帧的光流图像发送给选择单元2；选择单元2用于选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本，选择单元2将每一个样本中的光流图像和起始帧的RGB图像发送给获得单元3；获得单元3用于将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影，获得单元3将卷积投影发送给获取单元4；获取单元4用于根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影，获取单元4将时空融合特征投影发送给分类单元5；分类单元5用于将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。

本发明实施例提供的视频动作分类的处理装置，能够提高复杂场景下人物动作的识别准确率。

本发明实施例提供的视频动作分类的处理装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图5为本发明实施例提供的装置实体结构示意图，如图5所示，所述装置包括：处理器(processor)501、存储器(memory)502和总线503；

其中，所述处理器501、存储器502通过总线503完成相互间的通信；

所述处理器501用于调用所述存储器502中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：读取待识别的视频帧，并提取所述视频帧的光流图像；选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影；根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影；将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：读取待识别的视频帧，并提取所述视频帧的光流图像；选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影；根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影；将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：读取待识别的视频帧，并提取所述视频帧的光流图像；选择一帧视频帧作为起始帧，提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像，并与所述起始帧的RGB图像作为一个样本；将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络，以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影；根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影；将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算，并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种视频动作分类的处理方法，其特征在于，包括：

读取待识别的视频帧，并提取所述视频帧的光流图像；

2.根据权利要求1所述的方法，其特征在于，所述多尺度卷积核的融合模块具有p个并联的卷积核，相应的，所述根据所述卷积投影和多尺度卷积核的融合模块，获取所述视频帧中视频动作的时空融合特征投影，包括：

分别对所述空间卷积神经网络和所述时序卷积神经网络的卷积投影进行特征归一化计算；

将并联后的特征归一化计算结果输入多尺度卷积核的融合模块，以获得所述融合模块的p个计算结果；

分别对所述p个计算结果进行非线性变换；

3.根据权利要求2所述的方法，其特征在于，所述p的数值为3，相应的，3个卷积核的空间尺度分别为1*1、3*3以及5*5。

4.根据权利要求2所述的方法，其特征在于，所述分别对所述p个计算结果进行非线性变换，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述视频帧包括R个所述样本、所述分类器为softmax分类器，相应的，所述并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别，包括：

选择R个所述样本计算结果中的最大值；

6.根据权利要求1至4任一所述的方法，其特征在于，所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型，所述VGG16模型为：

7.根据权利要求6所述的方法，其特征在于，所述最高卷积层为所述第五组卷积层中的第3层卷积层。

8.一种视频动作分类的处理装置，其特征在于，包括：

9.一种视频动作分类的处理装置，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。