CN109753884A

CN109753884A - 一种基于关键帧提取的视频行为识别方法

Info

Publication number: CN109753884A
Application number: CN201811529494.7A
Authority: CN
Inventors: 高陈强; 胡凯; 周美琪; 周风顺; 廖诗沙; 李鹏程
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-14

Abstract

本发明公开了一种基于关键帧提取的视频行为识别方法，具体包括1)将视频切成图片序列，提取所述图片序列的一维特征；2)从所述图片序列中选取满足至少一个预定义长度帧的图片序列，形成候选帧；3)从所述候选帧中选取至少一个关键帧；4)将所述选取的至少一个关键帧所对应的一维特征池化；5)从所述池化后的关键帧中进行识别，本发明能够根据动作的类别变化来灵活改变关键帧的提取策略，提高行为识别的准确性。

Description

一种基于关键帧提取的视频行为识别方法

技术领域

本发明属于图像处理与计算机视觉技术领域，涉及一种基于关键帧提取的视频行为识别方法。

背景技术

行为识别一直是计算机视觉研究的一个热点，其目标是从一个未知的视频或者图像序列中自动分析其中正在进行的行为。它的应用背景十分广泛，如在智能视频监控，家政监护系统，人机交互，无人驾驶，虚拟现实，智能家居中都有应用。

随着行为识别技术的发展，人们对行为识别算法的速度和精度提出了更高的要求。行为识别中，不同种类的动作在各自的图像帧之间的变化过程、速率等参数不一致，环境背景也千差万别，多种因素使得目前不存在一个算法适合所有的行为分类。

目前基于机器视觉的行为识别算法研究各种各样，算法各具特色。由于计算机资源的限制，很多早期算法都是基于纹理特征(如HOG，SIFT)或运动特征(如optical flow，MBH)等底层特征，使用费舍尔向量进行编码，然后将这种手工设计的特征送入支持向量机进行分类的方案。之后随着计算机计算能力的提升，神经网络在机器视觉领域突破性进展，人们开始使用2D卷积神经网络提取图片特征来进行行为识别。然而，2D卷积神经网络缺乏对行为动作时间维度上的处理，没有考虑到动作的时间连续性。研究者进一步研究出3D卷积神经网络，在视频行为识别中取得了显著的效果。近几年来，人们考虑使用不同的视频模态来提高行为识别的精度，因此two-stream架构随之产生。但是这些算法大多数都是将视频切成等长的视频片段，然后将片段作为输入。这样操作带来的弊端有：1.可能将同一动作切开分到不同的视频片段；2.视频片段之间相似度高，视频片段中帧间的信息冗余；3.针对不同动作，视频中动作的关键的帧足够代表这个动作，视频其他信息可能是噪声。

发明内容

有鉴于此，本发明的目的在于提供一种基于关键帧提取的视频行为识别方法，能够根据动作的类别变化来改变关键帧的提取策略，提高行为识别的准确性。

为达到上述目的，本发明提供如下技术方案：

一种基于关键帧提取的视频行为识别方法，包括以下步骤：

1)将视频切成图片序列，提取所述图片序列的一维特征；

2)从所述图片序列中选取满足至少一个预定义长度帧的图片序列，形成候选帧；

3)从所述候选帧中选取至少一个关键帧；

4)将所述选取的至少一个关键帧所对应的一维特征池化；

5)从所述池化后的关键帧中进行识别。

优选地，所述提取图片序列的一维特征包括，先采用2D卷积神经网络提取出大小相同的二维特征，将二维特征拼接起来，再经由3D卷积神经网络得到一维特征。

优选地，所述2D卷积神经网络包括采用全部相同的权重。

优选地，所述预定义长度帧包括N个(N≥1)不同长度的帧。

优选地，所述选取满足至少一个预定义长度帧的图片序列包括连续或不连续的图片序列。

优选地，所述候选帧中选取至少一个关键帧包括，通过选取网络从候选帧中选取关键帧，其中，所述选取网络采用以下条件选取：

其中，L为损失函数，p_i表示每个候选帧分类概率，f_i表示候选帧i，N_cls归一化值表示mini-batch的总量，L_cls表示softmax函数，p_i*是指真值，取0或者1，u为设定的权值比，N_reg归一化值为候选帧的总量，L_reg表示smooth L1函数，f_i ^m表示预定义长度帧与候选帧之间的关系。

优选地，所述从所述池化后的关键帧中进行识别包括，使用预定义算法计算关键帧分类的概率，并使用预定义阈值识别分类。

优选地，所述预定义阈值C≥0.7。

本发明的有益效果在于：1)本发明提出一种视频行为识别中采用关键的帧识别的算法，该方法能够准确的检测动作类别。2)本方法采用视频关键的帧萃取技术，用行为关键的帧的深层特征行为识别，更精确更快的识别出行为的类别。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明整体流程示意图；

图2为提取一维特征的示意图；

图3为关键帧选取网络的示意图；

图4为将不同长度关键帧池化的示意图。

具体实施方式

下面结合说明书附图对本发明一种基于关键帧提取的视频行为识别方法进行进一步的说明。需要注意的是，本发明中，图像与其对应的数据、特征在特定条件下可互相指代。

图1为本发明一种基于关键帧提取的视频行为识别方法的示意图，如图所示，本发明方法具体包括以下步骤：

1)将视频切成图片序列，提取所述图片序列的一维特征；

3)从所述候选帧中选取至少一个关键帧；

4)将所述选取的至少一个关键帧所对应的一维特征池化；

5)从所述池化后的关键帧中进行识别。

在本发明中，假定已有预先标注好的视频数据集，其中数据集一般地又可分为训练集，验证集，测试集等。其中训练集用于训练模型的参数，测试集测试模型的效果，验证集的作用在于有新的数据加入时，用于重新训练模型，提高模型的泛化能力。

在本发明中，将视频切成图片序列，提取所述图片序列的一维特征具体为，可以使用神经网络提取图片序列的特征。为便于描述，本发明采用训练好的2D和3D卷积神经网络进行特征提取。具体可以为，先采用相同权重的2D卷积神经网络对连续的图片提取出大小相同的二维特征，然后将这些连续的二维的特征按序拼接起来，再采用3D卷积神经网络得到一维特征。上述所属的2D卷积神经网络可以采用诸如resnet，VGG16等网络架构，3D卷积神经网络可以采用C3D，I3D等架构。

参照图2，本发明选用的2D卷积神经网络是去掉了全连接层的VGG16网络架构，包含13个卷积层和5个池化层。3D卷积网络选用的是7个3D卷积层，4个池化层和2个全连接层的网络架构。

进一步地，从所述图片序列中选取满足至少一个预定义长度帧的图片序列，形成候选帧组合包括，预定义多个不等长度的候选帧帧长，例如定义帧长度为2到N帧的至少一个候选帧帧长，使用所有长度的帧长，分别从图片序列中选取最具代表性的图片，形成多个不同长度的候选帧。例如从一组具有20帧的图片序列中分别选取了2帧，3帧，……，12帧……等不同长度帧的候选帧组合，每个候选帧组合中的帧不一定是连续的图片序列。

参照图3，所示为预定义的关键帧选取网络，该网络包含两个卷积层。进一步地，从所述已经选取好的多个不同长度帧的候选帧组合中选取至少一个组合作为关键帧。关键帧通过预定义的关键帧选取网络选取最优的M个候选帧，其中，关键帧选取网络的权值优化采用损失函数：

其中，L为损失函数，p_i表示每个候选帧分类概率，f_i表示候选帧i，N_cls归一化值表示mini-batch的总量，L_cls表示softmax函数，p_i*是指真值，取0或者1，u为设定的权值比，N_reg归一化值为候选帧的总量，L_reg表示smooth L1函数，f_i ^m表示候选帧与真值之间的关系。所述关系可以包括距离，图像差异等。满足损失函数最小化的候选帧即为关键帧。所谓真值，是指数据集中被正确标注的图片。

参照图4，将所述选取的至少一个关键帧所对应的一维特征池化进一步包括，把相应候选关键帧的特征池化成固定尺度的一维特征。由于关键帧的长度不一，导致关键帧的特征尺度也不一样，于是可以先选用与关键帧对应尺寸的空洞进行卷积，再对空洞卷积之后的特征进行池化，以求产生固定尺度的特征。

进一步地，从所述池化后的关键帧中进行识别包括，对池化的一维特征使用softmax算法得出相应类别的概率分数，再通过非极大值抑制算法选出概率分数大于阈值的类别作为识别结果。阈值的选择影响识别结果，识别的结果可能不唯一，因为单个视频中可能包含多个动作，通常阈值≥0.7可以认为识别正确。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键帧提取的视频行为识别方法，包括以下步骤：

1)将视频切成图片序列，提取所述图片序列的一维特征；

3)从所述候选帧中选取至少一个关键帧；

4)将所述选取的至少一个关键帧所对应的一维特征池化；

5)从所述池化后的关键帧中进行识别。

2.根据权利要求1所述的方法，其特征还在于，所述提取图片序列的一维特征包括，先采用2D卷积神经网络提取出大小相同的二维特征，将二维特征拼接起来，再经由3D卷积神经网络得到一维特征。

3.根据权利要求2所述的方法，其特征还在于，所述2D卷积神经网络包括采用全部相同的权重。

4.根据权利要求1所述的方法，其特征还在于，所述预定义长度帧包括N个(N≥1)不同长度的帧。

5.根据权利要求1所述的方法，其特征还在于，选取满足至少一个预定义长度帧的图片序列包括连续或不连续的图片序列。

6.根据权利要求1所述的方法，其特征还在于，所述候选帧中选取至少一个关键帧包括，通过选取网络从候选帧中选取关键帧，其中，所述选取网络采用以下条件选取：

其中，L为损失函数，p_i表示每个候选帧分类概率，f_i表示候选帧i，N_cls归一化值表示mini-batch的总量，L_cls表示softmax函数，p_i*是指真值，取0或者1，u为设定的权值比，N_reg归一化值为候选帧的总量，L_reg表示smooth L1函数，f_i ^m表示候选帧与真值之间的关系参数。

7.根据权利要求1所述的方法，其特征还在于，所述从所述池化后的关键帧中进行识别包括，使用预定义算法计算关键帧分类的概率，并使用预定义阈值识别分类。

8.根据权利要求7所述的方法，所述预定义阈值C≥0.7。