CN107609509A

CN107609509A - 一种基于运动显著性区域检测的动作识别方法

Info

Publication number: CN107609509A
Application number: CN201710808634.3A
Authority: CN
Inventors: 张国梁; 贾松敏; 徐涛; 李秀智; 张祥银
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-09-09
Filing date: 2017-09-09
Publication date: 2018-01-19

Abstract

本发明公开了一种基于运动显著性区域检测的动作识别方法，属于人体动作识别领域。该方法首先将图像按照5个的超像素尺度进行划分，并利用暗通道先验知识和区域对比度信息构筑相应的初始显著性图。参考影响因子矩阵和置信度矩阵的概念，引入一种基于元胞自动机理论的更新策略，进一步提高显著性图的准确性。之后采用贝叶斯理论实现各尺度显著性图的融合，并通过设置灰度阈值获得图像的二值分割图，得到当前视频序列的运动显著性子序列。最后，利用支持向量机多分类模型实现多种特征的评分级融合，进而获取测试样本的决策评分及分类标签。本发明基于改进显著性检测技术，对图像提取运动显著性区域，能够有效去除动作背景对识别造成的干扰，提高了系统的实时性。

Description

一种基于运动显著性区域检测的动作识别方法

技术领域

本发明属于人体动作识别领域。结合改进的显著性检测技术完成对视频序列中运动显著性区域的提取，涉及一种基于局部稠密轨迹特征的动作建模及分类方法。

背景技术

近年来，随着计算机视觉研究的不断推进，基于视频序列的人体动作识别方法被广泛应用在了机器人人机交互、智能视频监控、室内环境下的病患监护、基于内容的视频序列检索以及虚拟现实等诸多领域。但是由于不同视频段中的人体动作执行速度往往存在较大差异，拍摄视角、尺度很难保持一致，并且手动拍摄过程中往往存在着镜头抖动，以及动作背景本身存在的运动事物等都是动作识别任务完成所必须解决的问题。此外，各动作类别之间还存在着类内差异大，类间差异相对较小的情况，进而导致了动作自身定义的模糊性，这些都是基于视频的动作识别所面临的挑战。

人体动作识别技术属于机器视觉研究领域，目前的识别框架从提升动作特征的判别性能和特征编码的有效性两个方面考虑，主要针对局部时空特征的改进，人体关节姿态信息的挖掘，以及设计更为合理的特征编码框架，获取更加完备的视频中层表达等问题进行了研究。但是上述工作通常只针对原始视频序列进行处理，尽管改进的稠密轨迹特征能够一定程度上消除相机运动的影响，但是无法去除视频背景中本身存在的干扰运动，如树叶晃动，行人经过等，进而增加了不必要的特征计算时间，并且降低了识别准确率。

显著性检测技术作为一种降低图像处理复杂度的预处理步骤，能够有效去除动作背景对分类造成的干扰，提高特征提取效率及动作识别的准确率。本发明在改进的显著性检测技术基础上对视频图像中的人体显著区域进行提取，提出了一种基于局部稠密轨迹特征的动作建模及分类方法。利用暗通道先验信息和区域对比度在5个超像素尺度下构筑动作视频帧的初始显著性图，并基于元胞自动机理论对其进行逐尺度优化。通过贝叶斯融合算法获取最终的图像显著性区域以及二值分割图，完成动作显著性区域的提取。在识别阶段，对视频显著性区域提取稠密轨迹特征，并采用超向量对多种特征描述子进行编码，获取视频的中层语义表达。最终，通过支持向量机多分类模型实现特征的评分级融合，完成动作识别任务。

发明内容

本发明的目的是提供一种准确且高效的视频动作识别方法。

本发明采用如下的技术方案：

为了提高视频特征的判别性能和提取效率，进一步排除环境背景运动对识别的干扰，提出了基于改进显著性检测技术的人体动作识别方法。

一种基于运动显著性区域检测的动作识别方法，该方法的实现过程如下，首先，将图像按照5个的超像素尺度进行划分，并利用暗通道先验知识和区域对比度信息构筑相应的初始显著性图。参考影响因子矩阵和置信度矩阵的概念，引入一种基于元胞自动机理论的更新策略，进一步提高显著性图的准确性。之后采用贝叶斯理论实现各尺度显著性图的融合，并通过设置灰度阈值获得图像的二值分割图，得到当前视频序列的运动显著性子序列。在识别阶段，对运动显著性子序列提取局部稠密轨迹，以方向梯度直方图(HistogramofGray，HOG)、光流方向直方图(Histogram ofFlow，HOF)和运动边界直方图(MotionBoundaryHistograms，MBH)为轨迹描述子，采用Fisher向量实现对特征描述子的编码，进而得到动作在不同意义上的中层语义表达。最后，利用支持向量机多分类模型实现多种特征的评分级融合，进而获取测试样本的决策评分及分类标签。

本发明的技术特征如下：

(1)采用显著性检测技术完成视频图像预处理

由于显著性检测的结果很大程度上会受到超像素个数的影响，为了充分融合不同尺度下的检测结果，首先对每个视频帧构造多个超像素尺度空间。之后采用暗通道先验信息获取动作的初始显著性图，并利用元胞自动机更新策略实现对显著性图的优化，进而得到每幅视频帧中的人体显著性运动区域，为后续的动作建模及分类提供可靠且有效的输入数据。基于显著性检测技术的视频图像预处理具体包括以下步骤：

步骤一，设定图像中的超像素个数区间为[m，n]，以p个超像素为间隔，采用SLIC(Simple Linear Iterative Cluster)算法对每幅视频帧构造个超像素尺度空间。其中，m和n分别代表超像素个数区间的上限值和下限值。

步骤二，利用暗通道先验原理，对每一个超像素尺度空间计算像素点x的初始显著性值x属于某一超像素图像块：

其中y表示某超像素图像块的5×5邻域内任意一个像素点，T_C(y)表示超像素C的邻域点y在r、g和b三个颜色通道下的归一化颜色值。此外，表示像素点x的初始显著性值，y∈Ω(x)表示超像素图像块内的点y属于图像像素全集Ω(x)，则各个超像素单元的平均暗通道值通过公式(2)计算得到：

C_i表示第i个超像素图像块单元，G表示当前超像素C_i中所包含的像素点个数。结合高斯函数和中心先验信息设定超像素图像块C_i的分布权重函数为W(C_i)，则C_i区域内的初始显著性值I_o(C_i)通过如下公式计算得出。

式中，N表示被确定是背景部分的超像素数量，E_j表示第j个背景超像素图像块，j＝1...N。d(C_i，E_j)表示C_i和E_j两者之间的欧氏距离。由公式(3)得到图像全部超像素图像块的I_o(C_i)，进而得到整幅图像的初始显著性图。

步骤三，将超像素单元视为元胞，制定元胞自动机更新策略，实现对初始显著性图的优化，具体更新规则如下式所示。

I_t+1＝R^*·I_t+(H-R^*)·Z^*·I_t (4)

设元胞自动机遍历图像一次所用时间为单位时间，则I_t+1和I_t分别表示第t+1和t次更新的显著性图，此时I₀即为步骤二所得到的I_o。H为单位矩阵，Z^*和R^*分别为影响因子矩阵和置信度矩阵，Z^*计算过程如下：

Z^*＝D^-1·Z (5)

矩阵Z由若干z_ij构成。z_ij表示第i个元胞与第j个邻胞之间的影响因子，通过计算两者之间的欧氏距离倒数确定。D为对角矩阵，对角矩阵元素g_i＝∑_jz_ij，用于对Z做归一化处理。

置信度矩阵R^*是一个对角矩阵，其元素r_i ^*由如下公式计算得到：

其中α和β为设定的两个测试常数，r_j表示邻胞的置信度。在各超像素尺度空间执行上述更新规则，得到个优化显著性图。

步骤四，设一帧图像能够得到的一组优化显著性图{M_i}，其中则取其中任意的M_i作为贝叶斯先验概率，剩余优化后的显著性图M_j(j≠i)为观测似然概率。令M_i分别与不同的M_j执行基于概率评价的两两融合，得到属于M_i的个后验概率融合图，并将这些融合图进行相加后取平均值获取最终的动作显著性区域。

(2)基于局部稠密轨迹特征的动作建模及分类

稠密轨迹特征是一种局部时空特征，由图像空间的稠密采样点在时间轴上被跟踪而形成。这种稠密采样策略相比于传统的稀疏采样能够获取更加丰富的人体运动信息。首先对选取的动作数据集中的训练样本执行显著性检测处理，之后提取稠密轨迹特征，并选取多种描述符对所提轨迹进行描述；其次，采用Fisher编码策略获取不同描述符下的视频中层语义表达；最后，利用特征评分级融合策略实现动作分类。具体动作建模及分类步骤如下：

步骤一，将经过显著性检测预处理的训练视频按一定的缩放比划分成多个尺度，在每一个尺度上将显著性区域以k个像素点为间隔提取稠密采样点。

步骤二，设定轨迹跟踪长度，对每个采样点进行逐帧跟踪，进而形成动作显著性区域的稠密轨迹特征。

步骤三，沿着轨迹周围取一定大小的时空网格，对网格提取多种描述符，包括轨迹在每一帧中的坐标信息，以及用于描述轨迹表观信息和运动特性的HOG、HOF和MBH特征。

步骤四，对多种描述符执行Fisher编码之后分别级联送入支持向量机训练各自的多分类模型。

步骤五，在测试阶段，首先对测试样本执行显著性检测，并按照步骤一至步骤三获取测试视频的多种描述符集合。之后对各种描述符采取Fisher编码方法获取视频中层语义表达，并送入训练好的分类器中得到每个样本在5种特征，即轨迹坐标、HOG、HOF、MBHx和MBHy下的分类得分。最后对5个得分矩阵进行求和，得到最终的评分矩阵，并对评分矩阵计算行最大值，获取最终的测试样本分类标签，完成动作识别任务。

与现有技术相比，本发明具有如下有益效果。首先，传统的改进稠密轨迹特征尽管可以一定程度上消除相机抖动造成的干扰，但是无法消除图像本身存在的运动个体对识别准确率的影响，而本发明基于改进显著性检测技术，对图像提取运动显著性区域能够有效解决这一问题。此外，特征提取的实时性是影响识别效率的主要因素，本发明所提方法能够将特征计算区域集中在运动人体周围，避免了对非运动主体区域的特征计算，提高了系统的实时性。

附图说明

图1基于改进显著性检测技术的动作识别流程图。

图2运动显著性区域提取效果示意图。

图3显著性区域提取稠密轨迹特征效果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

本发明针对目前动作识别过程中普遍存在的背景运动问题，提出了一种基于运动显著性区域提取的动作识别方法。该方法首先对数据集样本执行运动显著性区域检测，进而缩小动作特征提取范围，能够有效去除动作背景对分类造成的干扰，提高动作识别的准确率。之后采用稠密轨迹特征和Fisher编码方法获取视频的中层语义表达，并通过支持向量机多分类模型完成动作识别任务。所涉及的方法整体流程如附图1所示，具体实施过程分为以下步骤：

步骤一，选取目前常用的动作数据集(如Sub-JHMDB和PennAction数据集)用于训练动作分类模型。

步骤二，利用SLIC算法对全部的数据集样本构造多个超像素尺度空间。

步骤三，采用暗通道先验知识和区域对比度信息构筑相应的初始显著性图。

步骤四，参考影响因子矩阵和置信度矩阵的概念，根据所提元胞自动机更新策略在每个超像素尺度空间上对初始显著图进行优化。

步骤五，采用贝叶斯融合算法获取最终的图像显著性区域以及二值分割图，完成对整个动作数据集样本的显著性区域提取。

步骤六，对经过显著性检测预处理的训练样本提取稠密轨迹，并用轨迹坐标、HOG、HOF、MBHx和MBHy五种描述符对轨迹进行描述。

步骤七，对每种描述符执行Fisher编码操作，并分别送入支持向量机训练多分类模型。

步骤八，对测试集样本执行步骤二到步骤六，之后执行Fisher编码操作获取测试视频的中层语义表达，并送入训练好的多分类模型中，获取不同特征下的分类得分。

步骤九，对5种特征的得分矩阵进行求和，得到最终的评分矩阵，求取该矩阵的行最大值，得到全部测试样本的分类标签。

下面为本发明在动作识别领域中的一个应用实例。

选取Sub-JHMDB数据集为动作识别任务的训练集和测试集，包含12种动作类别和316段视频序列。首先利用SLIC算法将数据集中的全部视频帧在超像素区间[0,250]范围内以50个超像素为间隔，划分出5个超像素尺度空间，每个尺度的超像素个数分别为50，100，150，200，250。按照具体实施步骤三到步骤五获取视频帧的初始显著性图和优化后的显著图，进而得到视频的动作显著性区域。具体图像的显著性图、二值分割图及提取出的动作显著性区域参见说明书附图2。

将经过显著性检测预处理的训练视频按照的缩放比例划分成8个尺度，在每一个尺度上将显著性区域以5个像素点为间隔提取稠密采样点，并设置轨迹长度为15帧对采样点进行跟踪，获取稠密轨迹特征。对实际视频样本显著性区域提取稠密轨迹特征的效果参见说明书附图3。之后，沿着轨迹周围取2×2×3的时空网格，对网格提取轨迹坐标、HOG、HOF、MBHx和MBHy特征，并采用Fisher向量对其进行编码。对每种特征的Fisher向量集合执行求和合并策略，并将视频的中层描述分别送入支持向量机训练多分类模型。在测试阶段，对测试集样本执行具体实施过程的步骤二到步骤六，之后采用Fisher编码获取测试视频的中层语义表达，送入训练好的多分类模型中，获取不同特征下的分类得分。最后，将5个得分矩阵进行求和，得到最终的评分矩阵，并对该矩阵求取行最大值，获得最终的动作视频分类标签，识别完毕。

Claims

1.一种基于运动显著性区域检测的动作识别方法，其特征在于：该方法的实现过程如下，首先，将图像按照5个的超像素尺度进行划分，并利用暗通道先验知识和区域对比度信息构筑相应的初始显著性图；参考影响因子矩阵和置信度矩阵的概念，引入一种基于元胞自动机理论的更新策略，进一步提高显著性图的准确性；之后采用贝叶斯理论实现各尺度显著性图的融合，并通过设置灰度阈值获得图像的二值分割图，得到当前视频序列的运动显著性子序列；在识别阶段，对运动显著性子序列提取局部稠密轨迹，以方向梯度直方图(Histogram of Gray，HOG)、光流方向直方图(Histogram of Flow，HOF)和运动边界直方图(Motion Boundary Histograms，MBH)为轨迹描述子，采用Fisher向量实现对特征描述子的编码，进而得到动作在不同意义上的中层语义表达；最后，利用支持向量机多分类模型实现多种特征的评分级融合，进而获取测试样本的决策评分及分类标签；

(1)采用显著性检测技术完成视频图像预处理

由于显著性检测的结果很大程度上会受到超像素个数的影响，为了充分融合不同尺度下的检测结果，首先对每个视频帧构造多个超像素尺度空间；之后采用暗通道先验信息获取动作的初始显著性图，并利用元胞自动机更新策略实现对显著性图的优化，进而得到每幅视频帧中的人体显著性运动区域，为后续的动作建模及分类提供可靠且有效的输入数据；基于显著性检测技术的视频图像预处理具体包括以下步骤：

步骤一，设定图像中的超像素个数区间为[m，n]，以p个超像素为间隔，采用SLIC(Simple Linear Iterative Cluster)算法对每幅视频帧构造个超像素尺度空间；其中，m和n分别代表超像素个数区间的上限值和下限值；

其中y表示某超像素图像块的5×5邻域内任意一个像素点，T_C(y)表示超像素C的邻域点y在r、g和b三个颜色通道下的归一化颜色值；此外，表示像素点x的初始显著性值，y∈Ω(x)表示超像素图像块内的点y属于图像像素全集Ω(x)，则各个超像素单元的平均暗通道值通过公式(2)计算得到：

C_i表示第i个超像素图像块单元，G表示当前超像素C_i中所包含的像素点个数；结合高斯函数和中心先验信息设定超像素图像块C_i的分布权重函数为W(C_i)，则C_i区域内的初始显著性值I_o(C_i)通过如下公式计算得出；

式中，N表示被确定是背景部分的超像素数量，E_j表示第j个背景超像素图像块，j＝1...N；d(C_i，E_j)表示C_i和E_j两者之间的欧氏距离；由公式(3)得到图像全部超像素图像块的I_o(C_i)，进而得到整幅图像的初始显著性图；

步骤三，将超像素单元视为元胞，制定元胞自动机更新策略，实现对初始显著性图的优化，具体更新规则如下式所示；

I_t+1＝R^*·I_t+(H-R^*)·Z^*·I_t (4)

设元胞自动机遍历图像一次所用时间为单位时间，则I_t+1和I_t分别表示第t+1和t次更新的显著性图，此时I₀即为步骤二所得到的I_o；H为单位矩阵，Z^*和R^*分别为影响因子矩阵和置信度矩阵，Z^*计算过程如下：

Z^*＝D^-1·Z (5)

矩阵Z由若干z_ij构成；z_ij表示第i个元胞与第j个邻胞之间的影响因子，通过计算两者之间的欧氏距离倒数确定；D为对角矩阵，对角矩阵元素g_i＝∑_jz_ij，用于对Z做归一化处理；

<mrow> <msubsup> <mi>r</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mi>&alpha;</mi> <mo>&CenterDot;</mo> <mfrac> <mrow> <msub> <mi>r</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>&beta;</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中α和β为设定的两个测试常数，r_j表示邻胞的置信度；在各超像素尺度空间执行上述更新规则，得到个优化显著性图；

步骤四，设一帧图像能够得到的一组优化显著性图{M_i}，其中则取其中任意的M_i作为贝叶斯先验概率，剩余优化后的显著性图M_j(j≠i)为观测似然概率；令M_i分别与不同的M_j执行基于概率评价的两两融合，得到属于M_i的个后验概率融合图，并将这些融合图进行相加后取平均值获取最终的动作显著性区域；

(2)基于局部稠密轨迹特征的动作建模及分类

稠密轨迹特征是一种局部时空特征，由图像空间的稠密采样点在时间轴上被跟踪而形成；这种稠密采样策略相比于传统的稀疏采样能够获取更加丰富的人体运动信息；首先对选取的动作数据集中的训练样本执行显著性检测处理，之后提取稠密轨迹特征，并选取多种描述符对所提轨迹进行描述；其次，采用Fisher编码策略获取不同描述符下的视频中层语义表达；最后，利用特征评分级融合策略实现动作分类。

2.根据权利要求1所述的一种基于运动显著性区域检测的动作识别方法，其特征在于：具体动作建模及分类步骤如下，

步骤一，将经过显著性检测预处理的训练视频按一定的缩放比划分成多个尺度，在每一个尺度上将显著性区域以k个像素点为间隔提取稠密采样点；

步骤二，设定轨迹跟踪长度，对每个采样点进行逐帧跟踪，进而形成动作显著性区域的稠密轨迹特征；

步骤三，沿着轨迹周围取一定大小的时空网格，对网格提取多种描述符，包括轨迹在每一帧中的坐标信息，以及用于描述轨迹表观信息和运动特性的HOG、HOF和MBH特征；

步骤四，对多种描述符执行Fisher编码之后分别级联送入支持向量机训练各自的多分类模型；

步骤五，在测试阶段，首先对测试样本执行显著性检测，并按照步骤一至步骤三获取测试视频的多种描述符集合；之后对各种描述符采取Fisher编码方法获取视频中层语义表达，并送入训练好的分类器中得到每个样本在5种特征，即轨迹坐标、HOG、HOF、MBHx和MBHy下的分类得分；最后对5个得分矩阵进行求和，得到最终的评分矩阵，并对评分矩阵计算行最大值，获取最终的测试样本分类标签，完成动作识别任务。