CN108875756B

CN108875756B - 一种视频的行为类别获取方法及装置

Info

Publication number: CN108875756B
Application number: CN201710318330.9A
Authority: CN
Inventors: 黄欢; 赵刚
Original assignee: Shenzhen Jinghong Technology Co ltd
Current assignee: Shenzhen Jinghong Technology Co., Ltd
Priority date: 2017-05-08
Filing date: 2017-05-08
Publication date: 2021-01-05
Anticipated expiration: 2037-05-08
Also published as: CN108875756A

Abstract

本发明提供一种视频的行为类别获取方法及装置。该方法包括：提取训练集视频的轨迹信息和具有语义信息的视频块信息；采用预先训练的卷积神经网络分别对所述轨迹信息和具有语义信息的视频块信息进行编码，获取所述训练集视频的轨迹编码特征和视频块编码特征；分别对所述轨迹编码特征和视频块编码特征进行中层表达，获取所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征；根据由所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征融合得到的特征训练分类器；采用训练好的分类器对测试集视频进行分类，获取所述测试集视频的行为类别。本发明提高了分类精度。

Description

一种视频的行为类别获取方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种视频的行为类别获取方法及装置。

背景技术

随着互联网以及大数据存储等技术的发展，视频数据已经成为随处可见的媒体存储形式。监控摄像头、网络直播、电影短片等等都在不断产生大量的视频数据，如何对这些视频数据中包含的行为进行分类已经成为一个热点问题。相比静态图片，动态的视频数据具有数据变化性大、帧间冗余性高等特点，视频中包含的行为具有类间差异模糊、类内变化大等特点；上述特点都增加了对视频中的行为进行分类的难度。

现有的视频的行为类别获取方法主要分为两类，一类是基于手工设计特征的视频的行为类别获取方法，另一类是基于深度学习的视频的行为类别获取方法。

现有的基于手工设计特征的视频的行为类别获取方法，利用手工设计的特征来提取视频的低层特征(比如方向梯度直方图HOG特征、尺度不变特征变换SIFT特征)，再用聚类方法对这些低层特征进行中层表达，最后将这些中层表达得到的特征输入训练好的分类器，完成视频的行为类别获取。但该方法只考虑视频的低层特征，没有考虑视频的高层语义信息(视频的高层语义分为对象语义、空间关系语义、场景语义、行为语义和情感语义)，导致视频的行为类别获取精度差。同时利用手工设计的特征提取视频低层特征的处理过程需要耗费较长的时间。

现有的基于深度学习的视频的行为类别获取方法，首先提取视频的光流图像，再将三原色光模式RGB图像和光流图像作为两个通道分别输入各自的卷积神经网络CNN中，然后在全连接层将这两个通道的信息串联成一个向量，并将此向量输入分类器进行分类。这种方法的优点是利用了深度学习强大的特征学习能力，但该方法仅仅是根据视频图像的颜色、光场信息进行行为分类，无法处理视频时间信息，导致行为分类精度差。

发明内容

本发明实施例提供一种视频的行为类别获取方法及装置，用于解决现有的视频的行为类别获取方法分类精度差的问题。

本发明实施例提供了一种视频的行为类别获取方法，包括：

提取训练集视频的轨迹信息和具有语义信息的视频块信息；

采用预先训练的卷积神经网络分别对所述轨迹信息和具有语义信息的视频块信息进行编码，获取所述训练集视频的轨迹编码特征和视频块编码特征；

分别对所述轨迹编码特征和视频块编码特征进行中层表达，获取所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征；

根据由所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征融合得到的特征训练分类器；

采用训练好的分类器对测试集视频进行分类，获取所述测试集视频的行为类别。

可选地，所述采用预先训练的卷积神经网络分别对所述轨迹信息和具有语义信息的视频块信息进行编码，获取所述训练集视频的轨迹编码特征和视频块编码特征包括：

采用预先训练的第一卷积神经网络获取所述训练集视频的第一轨迹编码特征和第一具有语义信息的视频块编码特征，并采用预先训练的第二卷积神经网络获取所述训练集视频的第二轨迹编码特征和第二具有语义信息的视频块编码特征；

其中，所述第一卷积神经网络是根据所述训练集视频的三原色光模式RGB图像进行训练得到的，所述第二卷积神经网络是并根据所述训练集视频的光流图像进行训练得到的。

可选地，分别对所述轨迹编码特征和视频块编码特征进行中层表达，获取所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征，包括：

根据所述第一轨迹编码特征和所述第二轨迹编码特征获取所述轨迹信息的中层特征，并根据所述第一具有语义信息的视频块编码特征和所述第二具有语义信息的视频块编码特征获取所述具有语义信息的视频块信息的中层特征。

可选地，根据如下公式获取所述训练集视频的轨迹编码特征：

其中，T_k表示第k条轨迹，C_m ^a为第m层第a个特征图，

为第k条轨迹在第m层第a个特征图的轨迹特征编码；P表示轨迹的长度，p表示每条轨迹中的图像帧序号；

表示第k条轨迹的时空坐标，r_m表示第m层特征图的空间尺度变化率。

可选地，根据如下公式获取所述训练集视频的具有语义信息的视频块编码特征：

其中，V_k表示第k个具有语义信息的视频块，C_m ^a为第m层第a个特征图，

为第k个具有语义信息的视频块在第m层第a个特征图的具有语义信息的视频块编码特征；P表示轨迹的长度，p表示每条轨迹中的图像帧序号；

为V_k的时空坐标。

可选地，分别对所述轨迹编码特征和视频块编码特征进行中层表达，包括：

采用中层表达算法Fisher vector分别对所述轨迹编码特征和视频块编码特征进行中层表达。

可选地，所述分类器为支持向量机SVM分类器。

本发明实施例提供一种视频的行为类别获取装置，包括：

信息提取单元，用于提取训练集视频的轨迹信息和具有语义信息的视频块信息；

编码特征获取单元，用于采用预先训练的卷积神经网络分别对所述轨迹信息和具有语义信息的视频块信息进行编码，获取所述训练集视频的轨迹编码特征和视频块编码特征；

中层特征获取单元，用于分别对所述轨迹编码特征和视频块编码特征进行中层表达，获取所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征；

分类器训练单元，用于根据由所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征融合得到的特征训练分类器；

行为类别获取单元，用于采用训练好的分类器对测试集视频进行分类，获取所述测试集视频的行为类别。

可选地，所述编码特征获取单元进一步用于：

可选地，所述中层特征获取单元进一步用于：

可选地，所述编码特征获取单元进一步用于：

根据如下公式获取所述训练集视频的轨迹编码特征：

其中，T_k表示第k条轨迹，C_m ^a为第m层第a个特征图，

可选地，所述编码特征获取单元进一步用于：

根据如下公式获取所述训练集视频的具有语义信息的视频块编码特征：

为V_k的时空坐标。

可选地，所述中层特征获取单元进一步用于：

可选地，所述分类器为支持向量机SVM分类器。

本发明实施例提供一种电子设备，包括：处理器、存储器和总线；其中，

处理器和存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行上述的视频的行为类别获取方法。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的视频的行为类别获取方法。

本发明实施例提供的视频的行为类别获取方法及装置，通过融合轨迹信息和具有语义信息的视频块信息，充分利用视频中的尺度较小的轨迹信息(运动信息)以及尺度较大的具有语义信息的视频块信息(物体信息)，对视频进行更好的表达，克服了视频数据冗余性以及现有技术语义信息缺失导致的分类精度差的缺陷，提高了视频的行为类别获取方法的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的视频的行为类别获取方法的流程示意图；

图2是本发明一个实施例的视频的行为类别获取装置的结构示意图；

图3是本发明一个实施例的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的方法的流程示意图。如图1所示，该实施例的方法包括：

S11：提取训练集视频的轨迹信息和具有语义信息的视频块信息；

需要说明的是，本发明实施例的训练集中包括多种行为类别的视频子集，每种行为类别的视频子集至少包括一段视频。

视频的轨迹信息指的是将视频的首帧图像网格化，从网格节点中选取目标网格点，然后在随后的视频帧中跟踪目标网格点，连续跟踪一定数量的视频帧可获取一条轨迹；重复上述操作得到目标视频的大量的轨迹，上述大量的轨迹组成视频的轨迹信息。

需要说明的是，视频的具有语义信息的视频块video proposal信息指的是将每一帧图像划分为超像素块，再根据相邻帧间的颜色、光流、边缘等信息将相邻帧间的超像素块连接起来，构成一个三维的视频块video cube，三维的视频块video cube可以看作视频的具有语义信息的视频块video proposal信息。可理解的是，在计算机视觉领域，将图像细分为多个图像子区域(像素的集合)的过程为超像素过程。超像素是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的子区域。

S12：采用预先训练的卷积神经网络分别对所述轨迹信息和具有语义信息的视频块信息进行编码，获取所述训练集视频的轨迹编码特征和视频块编码特征；

需要说明的是，本发明实施例采用ImageNet数据库对卷积神经网络进行训练，ImageNet是目前最大的计算机视觉系统识别数据库，通过ImageNet数据库中的大量数据对卷积神经网络进行训练，解决卷积神经网络训练过程中的过拟合问题。

S13：分别对所述轨迹编码特征和视频块编码特征进行中层表达，获取所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征；

S14：根据由所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征融合得到的特征训练分类器；

需要说明的是，本发明实施例轨迹的中层特征和具有语义信息的视频块的中层特征要融合(向量串联)之后再输入分类器中训练。

在实际应用中，采用混合高斯模型对轨迹编码特征和视频块编码特征进行聚类，得到256个的高斯核；利用高斯核获取对应的中层特征；利用轨迹信息的中层特征和具有语义信息的视频块video proposal信息的中层特征训练分类器。

S15：采用训练好的分类器对测试集视频进行分类，获取所述测试集视频的行为类别；

需要说明的是，本发明实施例针对测试集视频采用步骤S11-步骤S13的方法提取轨迹信息和具有语义信息的视频块信息、获取轨迹编码特征和视频块编码特征、获取轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征，将获取到的测试集视频的轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征输入训练好的分类器，获取测试集视频的行为类别。

本发明实施例提供的视频的行为类别获取方法，通过融合轨迹信息和具有语义信息的视频块信息，充分利用视频中的尺度较小的轨迹信息(运动信息)以及尺度较大的具有语义信息的视频块信息(物体信息)，对视频进行更好的表达，克服了视频数据冗余性以及现有技术语义信息缺失导致的分类精度差的缺陷，提高了视频的行为类别获取方法的精度。

具体地，获取测试集视频的轨迹信息的步骤如下：

在测试集视频的首帧图像上选择网状分布的目标节点，节点之间的距离在纵坐标和横坐标上为5个像素(可根据实际需要进行设置，本发明对此不作限制)。

根据光流信息在之后的帧中跟踪目标节点。设在t帧目标节点位置为(x_t,y_t)，则t+1帧的位置(x_t+1,y_t+1)可由下式计算得到：

其中，ω＝(u_t,v_t)表示目标节点的光流场，M表示中值滤波器。

在实际应用中，为了避免跟踪漂移的情况发生，当跟踪长度达到15帧时，停止跟踪，重新选择新的跟踪点。

在本发明一种可选的实施方式中，与图1中的方法类似，步骤S12包括：

需要说明的是，在卷积神经网络训练的阶段，因为深度网络需要大量的数据来防止过拟合，所以采取在ImageNet预训练，再在训练集上细微调节的方式。

在实际应用中，获取视频数据的RGB图像和光流图像，将RGB图像和光流图像分别输入第一卷积神经网络和第二卷积神经网络，完成卷积神经网络的训练。

相应地，分别对所述轨迹编码特征和视频块编码特征进行中层表达，获取所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征，包括：

进一步地，根据如下公式获取所述训练集视频的轨迹编码特征：

其中，T_k表示第k条轨迹，C_m ^a为第m层第a个特征图，

进一步地，根据如下公式获取所述训练集视频的具有语义信息的视频块编码特征：

为V_k的时空坐标。

进一步地，分别对所述轨迹编码特征和视频块编码特征进行中层表达，包括：

进一步地，所述分类器为支持向量机SVM分类器。

本发明的效果可以通过以下实验做进一步的说明。

以下以仿真实验说明本发明实施例的技术效果。该仿真实验是在中央处理器为Intel(R)Core i3-2130 3.4GHZ、内存16G、WINDOWS 8操作系统上，运用MATLAB软件进行的。

仿真实验中使用的测试集为UCF tiny dataset数据集，该数据集为一个有10个行为类别的视频行为集。数据集中的每一类行为都被分为25组，每组包含至少四个视频片断。同一组内的视频都有某些共同点，比如行为由同一个人产生、相似的背景、相似的视角等。

依照上述具体实施方式中获取视频的中层特征，将中层特征输入SVM分类器，得到视频标签(视频的行为类别)。将得到的视频标签与实际的视频标签对比，统计得到本发明实施例的分类准确率。

表1为本发明实施例的方法(Trajectory+video proposal)与现有的方法(Trajectory)的结果对比表，可见，本发明实施例的方法提高了视频的行为类别获取方法的精度。

表1视频的行为类别获取方法结果对比表

分类方法	分类准确率
		Trajectory	89.64％
Trajectory+video proposal	93.01％

图2是本发明一个实施例的视频的行为类别获取装置的结构示意图。如图2所示，本发明实施例的装置包括信息提取单元21、编码特征获取单元22、中层特征获取单元23、分类器训练单元24和行为类别获取单元25，具体地：

信息提取单元21，用于提取训练集视频的轨迹信息和具有语义信息的视频块信息；

编码特征获取单元22，用于采用预先训练的卷积神经网络分别对所述轨迹信息和具有语义信息的视频块信息进行编码，获取所述训练集视频的轨迹编码特征和视频块编码特征；

中层特征获取单元23，用于分别对所述轨迹编码特征和视频块编码特征进行中层表达，获取所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征；

分类器训练单元24，用于根据由所述轨迹信息的中层特征和所述具有语义信息的视频块信息的中层特征融合得到的特征训练分类器；

行为类别获取单元25，用于采用训练好的分类器对测试集视频进行分类，获取所述测试集视频的行为类别。

本发明实施例提供的视频的行为类别获取装置，通过融合轨迹信息和具有语义信息的视频块信息，充分利用视频中的尺度较小的轨迹信息(运动信息)以及尺度较大的具有语义信息的视频块信息(物体信息)，对视频进行更好的表达，克服了视频数据冗余性以及现有技术语义信息缺失导致的分类精度差的缺陷，提高了视频的行为类别获取方法的精度。

在本发明实施例的一种可选的实施方式中，编码特征获取单元22进一步用于：

中层特征获取单元23进一步用于：

编码特征获取单元22进一步用于：

根据如下公式获取所述训练集视频的轨迹编码特征：

其中，T_k表示第k条轨迹，C_m ^a为第m层第a个特征图，

编码特征获取单元22进一步用于：

为V_k的时空坐标。

中层特征获取单元23进一步用于：

进一步地，所述分类器为支持向量机SVM分类器。

本发明实施例的视频的行为类别获取装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

图3是本发明一个实施例的电子设备的实体结构示意图。

参照图3，电子设备包括：处理器(processor)31、存储器(memory)32和总线33；其中，

处理器31和存储器32通过总线33完成相互间的通信；

处理器31用于调用存储器32中的程序指令，以执行上述各方法实施例所提供的视频的行为类别获取方法。

此外，上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的目标跟踪方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的目标跟踪方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。