CN108288015B

CN108288015B - 基于时间尺度不变性的视频中人体动作识别方法及系统

Info

Publication number: CN108288015B
Application number: CN201710018095.3A
Authority: CN
Inventors: 胡瑞敏; 陈军; 陈华锋; 李红阳; 徐增敏; 吴华; 柴笑宇; 柯亨进; 张立国
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-01-10
Filing date: 2017-01-10
Publication date: 2021-10-22
Anticipated expiration: 2037-01-10
Also published as: CN108288015A

Abstract

本发明公开了一种基于时间尺度不变性的视频中人体动作识别方法及系统，包括步骤：S1基于原始视频构造子动作视频段；S2分别获取各子动作视频段的代表帧；S3获得各代表帧的光流强度图像集；S4分别获得各代表帧的图像卷积特征和光流卷积特征；S5分别融合各代表帧的图像卷积特征和光流卷积特征，获得融合特征，所有融合特征构成子动作特征集；S6采用LSTM神经网络对子动作特征集中各融合特征分别进行动作识别，获得多阶段的动作识别结果；S7融合多阶段的动作识别结果，得最终的动作识别结果。本发明对视频中持续时长变化差异很大的动作具有很好的适应性，可提升视频中人体动作特征描述的精确性和人体动作识别率。

Description

基于时间尺度不变性的视频中人体动作识别方法及系统

技术领域

本发明属于自动视频分析技术领域，涉及一种基于时间尺度不变性的视频中人体动作识别方法及系统。

背景技术

随着计算机技术的发展，如何利用计算机自动的对视频进行分析和理解显得越来越迫切。人体作为视频数据中人们关注的主要对象，识别视频中人体行为并生成人们更容易理解的高级语义信息就成为了用计算机分析和理解视频的主要内容。从应用角度来讲，作为计算机视觉领域的重要研究内容，人体行为识别将会满足智能视频监控、智能监护、基于内容的视频分析等任务对自动分析以及智能化的需求，推动社会发展进步。

发明内容

本发明的目的是提供一种基于时间尺度不变性的视频中人体动作识别方法及系统。

为达到上述目的，本发明采用如下技术方案：

一、一种基于时间尺度不变性的视频中人体动作识别方法，包括步骤：

S1利用子动作聚类法将原始视频拆分为多个视频子段，基于视频子段构造子动作视频段，所述的原始视频为原始视频训练样本或待测试原始视频；

S2分别获取各子动作视频段的代表帧，得代表帧集；所述代表帧的采样位置Loc(s_pα)为：

其中，Loc(s_pα)表示第p段子动作视频段S'_p的代表帧s_pα的采样位置；k_p-1表示S'_p-1中最后一帧图像在原始视频序列中的序号；k_p表示S'_p中最后一帧图像在原始视频序列中的序号；k₀＝0，k_a＝n；

表示下取整；α为步长参数，0＜α≤2；

S3在代表帧所对应的子动作视频段中，基于代表帧及其相邻帧图像计算帧间光流，获得各代表帧的光流强度图像集；

S4采用各原始视频训练样本的代表帧集以及光流强度图像集训练卷积神经网络；以各原始视频训练样本和待测试原始视频的代表帧集以及光流强度图像集为输入，采用训练后的卷积神经网络分别提取出各原始视频训练样本和待测试原始视频中各代表帧的图像卷积特征和光流卷积特征；

S5对各原始视频训练样本和待测试原始视频分别执行：分别融合各代表帧的图像卷积特征和光流卷积特征，获得融合特征，所有融合特征构成子动作特征集；

S6采用各原始视频训练样本的子动作特征集训练LSTM神经网络，采用训练后的LSTM神经网络对待测试原始视频的子动作特征集中各融合特征分别进行动作识别，获得多阶段的动作识别结果R＝[L₁,…,L_p,…L_a]，L_p表示第p个子动作视频段S'_p的动作识别结果；

S7融合多阶段的动作识别结果，得最终的动作识别结果

步骤S1中，所述的利用子动作聚类法将原始视频拆分为多个视频子段，具体为：

计算原始视频中各帧图像的二进制特征，基于帧间图像的二进制特征的海明距离，将原始视频拆分为多个视频子段。

步骤S1中，所述的基于视频子段构造子动作视频段，具体为：

将视频子段数量记为m，所有视频子段构成视频子段集；将子动作视频段的数量记为a，所有子动作视频段构成子动作视频段集，a为经验值，其取值范围为3～15；

若a＝m，将视频子段集作为子动作视频段集，视频子段集中各视频子段即子动作视频段。

若a＞m，执行如下子步骤：

(1a)从视频子段集中选择帧数最多的视频子段，利用子动作聚类法将将其拆分为两个视频子段，形成新的视频子段集；

(1b)判断新的视频子段集中视频子段数是否达到a，若达到，将该新的视频子段集作为子动作视频段集，该新的视频子段集中各视频子段即子动作视频段；否则，对新的视频子段集重复子步骤(1a)。

若a＜m，执行如下步骤：

(2a)从视频子段集中选择帧数最少的视频子段，将该帧数最少的视频子段合并到其相邻的两个视频子段中帧数较少的视频子段中，形成新的视频子段集；

(2b)判断新的视频子段集中视频子段数是否达到a，若达到，将该新的视频子段集作为子动作视频段集，该新的视频子段集中各视频子段即子动作视频段；否则，对新的视频子段集重复子步骤(2a)。

步骤S5中采用求和运算分别融合各代表帧的图像卷积特征和光流卷积特征。

二、基于时间尺度不变性的视频中人体动作识别系统，包括：

子动作视频段构造模块，用来利用子动作聚类法将原始视频拆分为多个视频子段，基于视频子段构造子动作视频段，所述的原始视频为原始视频训练样本或待测试原始视频；

代表帧获取模块，用来分别获取各子动作视频段的代表帧，得代表帧集；所述代表帧的采样位置Loc(s_pα)为：

表示下取整；α为步长参数，0＜α≤2；

帧间光流获取模块，用来在代表帧所对应的子动作视频段中，基于代表帧及其相邻帧图像计算帧间光流，获得各代表帧的光流强度图像集；

卷积特征获取模块，用来采用各原始视频训练样本的代表帧集以及光流强度图像集训练卷积神经网络；以各原始视频训练样本和待测试原始视频的代表帧集以及光流强度图像集为输入，采用训练后的卷积神经网络分别提取出各原始视频训练样本和待测试原始视频中各代表帧的图像卷积特征和光流卷积特征；

特征融合模块，用来对各原始视频训练样本和待测试原始视频分别执行：分别融合各代表帧的图像卷积特征和光流卷积特征，获得融合特征，所有融合特征构成子动作特征集；

动作识别模块，用来采用各原始视频训练样本的子动作特征集训练LSTM神经网络，采用训练后的LSTM神经网络对待测试原始视频的子动作特征集中各融合特征分别进行动作识别，获得多阶段的动作识别结果R＝[L₁,…,L_p,…L_a]，L_p表示第p个子动作视频段S'_p的动作识别结果；

动作识别结果融合模块，用来融合多阶段的动作识别结果，得最终的动作识别结果

和现有技术相比，本发明的主要有益效果为：

对视频中持续时长变化差异很大的动作具有很好的适应性，提升了视频中人体动作特征描述的精确性和人体动作识别率。

附图说明

图1为本发明方法的具体流程示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

参见图1，本发明实施例提供的一种基于时间尺度不变性的视频中人体动作识别方法，具体包括以下步骤：

步骤1：利用子动作聚类法将原始视频拆分为多个视频子段，并基于视频子段构造子动作视频段。

本步骤的具体实施过程如下：

对原始视频序列V＝[v₁,…,v_i,…,v_n]计算每帧图像的二进制特征，根据帧间图像二进制特征的海明距离将原始视频序列分解为m个视频子段，记为：

其中：

v_i表示原始视频序列中第i帧图像，i＝1,2,…,n，n表示原始视频序列中图像总帧数；

V'表示视频子段集，S_j表示第j个视频子段，j＝1,2,...m；k₀＝0，k_m＝n。

基于m个视频子段构造a(a为经验值，其取值范围为3～15，具体实施时根据动作识别结果进行调整，本实施例中a取为7)段子动作视频段，具体为：

若a＝m，构造的子动作视频段集记为V”＝[S'₁,…,S'_p,…S'_a]，S'_p表示子动作视频段集V”中第p个子动作视频段，p＝1,2,...a；其中，S'_p＝S_j，p＝j。

若a＞m，从视频子段集V'＝[S₁,…,S_j,…S_m]中选择帧数最多的视频子段，利用子动作聚类法将其拆分为两个视频子段，形成新的视频子段集；对新的视频子段集重复该拆分步骤，直至视频子段集中视频子段数达到a，此时的视频子段集即子动作视频段集V”＝[S'₁,…,S'_p,…S'_a]。

若a＜m，从视频子段集中选择帧数最少的视频子段，将该帧数最少的视频子段合并到其相邻的两个视频子段中帧数较少的视频子段中，形成新的视频子段集；对新的视频子段集重复该合成步骤，直至视频子段集中视频子段数达到a，此时的视频子段集即子动作视频段集V”＝[S'₁,…,S'_p,…S'_a]。

最终得到子动作视频段集V”＝[S₁',…,S_p',…S_a'，]其中

k_p-1+1表示S'_p中第一帧图像在原始视频序列中序号，k_p表示S'_p中最后一帧图像在原始视频序列中的序号，1≤p≤a，k₀＝0，k_a＝n。

步骤2：分别获取各子动作视频段的代表帧，得代表帧集。

具体描述如下：

对V”＝[S'₁,…,S'_p,…S'_a]中各子动作视频段S'_p，从中采样一帧图像作为该子动作视频段S'_p的代表帧s_pα，s_pα的采样位置为Loc(s_pα)，Loc(s_pα)即代表帧s_pα在原始视频序列中序号。

采样位置Loc(s_pα)的计算公式如下：

其中，

表示下取整；α表示步长参数，0＜α≤2。α为经验值，具体实施时根据动作识别结果进行调整，本实施例中取α＝1。

最终得到代表帧集V_a＝[s_1α,…,s_pα,…s_aα]，其中，s_pα表示第p段子动作视频段S'_p的代表帧。

步骤3：基于代表帧及其相邻帧图像计算帧间光流，获得各代表帧的光流强度图像集。

子动作视频段S'_p中，取与代表帧s_pα相邻的前t帧图像和后t帧图像计算帧间光流，并将计算所得帧间光流值缩放到[0,255]间的整数，即得到代表帧s_pα的光流强度图像集OF_pα。本发明中t为经验值，其优选的取值范围为5～10。

本实施例中t取5，所得光流强度图像集OF_pα如下：

OF_pα＝[of_pα1x,of_pα1y,…,of_pαqx,of_pαqy,…,of_pα10x,of_pα10y] (3)

其中，of_pαqx表示代表帧和第q个相邻帧图像在X方向的帧间光流，of_pαqy表示代表帧和第q个相邻帧图像在Y方向的帧间光流，q＝1,2,...10。这里，X方向即图像的横向水平方向，Y方向即图像的纵向水平方向。

步骤4：基于代表帧集和各代表帧的光流强度图像集分别获得代表帧的图像卷积特征和各光流强度图像的光流卷积特征。

基于代表帧集V_a和各代表帧s_pα的光流强度图像集OF_pα进行卷积神经网络特征的训练和学习，分别得到代表帧的图像卷积特征集CNN_rgb＝[c_rgb1,…,c_rgbp,…c_rgba]和光流强度图像的光流卷积特征集CNNo_f＝[co_f1,…,co_fp,…,co_fa]；其中，c_rgbp表示代表帧集中第p个代表帧s_pα的图像卷积特征，c_ofp表示代表帧集中第p个代表帧s_pα的光流强度图像集的光流卷积特征。

步骤5：采用求和运算对图像卷积特征CNN_rgb和相对应的光流卷积特征CNN_of进行融合，融合公式为：

f_p＝c_rgbp+c_ofp (4)

其中，f_p表示s_pα所在子动作视频段S'_p的融合特征。

所有子动作视频段的融合特征构成子动作特征集，记为CONV＝[f₁,…,f_p,…f_a]。

步骤6：将子动作特征集CONV＝[f₁,…,f_p,…f_a]中各融合特征依次采用LSTM(长短记忆递归)神经网络进行动作识别，得到多阶段的动作识别结果R＝[L₁,…,L_p,…L_a]，其中，L_p表示第p个子动作视频段的动作识别结果。

步骤7：融合多阶段动作的识别结果R＝[L₁,…,L_p,…L_a]，获得最终的动作识别结果R_final。

融合公式如下：

本发明包括训练和动作分类测试阶段。训练阶段，采用训练样本及其融合特征训练确定CNN网络和LSTM神经网络的权重参数。动作分类测试阶段，采用训练后的CNN网络和LSTM神经网络提取动作特征并进行分类，给出分类结果。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。