CN107220607A

CN107220607A - 基于3d平稳小波的运动轨迹行为识别方法

Info

Publication number: CN107220607A
Application number: CN201710361576.4A
Authority: CN
Inventors: 同鸣; 李金鹏
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2017-09-29
Anticipated expiration: 2037-05-22
Also published as: CN107220607B

Abstract

本发明公开了一种基于3D平稳小波变换轨迹的行为识别方法，主要解决现有小波域行为识别技术对时空信息提取不充足和鲁棒性低的问题。其技术方案是：1.对视频进行时空可分离的3D平稳小波变换分解，得到时域高频和中频子带以及空时域各方向子带；2.基于时域高频和中频子带的熵对其进行加权融合；3.基于能量阈值在融合后的子带内提取特征点；4.使用空时域各方向子带构建特征点的小波系数描述子，并根据其欧式距离在相邻帧间匹配特征点，得到运动轨迹；5.在轨迹周围构造小波方向能量直方图特征，并构建该直方图特征的词袋模型，再通过SVM分类器进行识别分类。本发明提高了人体行为识别的准确率，可应用于异常行为检测和人机交互。

Description

基于3D平稳小波的运动轨迹行为识别方法

技术领域

本发明属于视频处理技术领域，更进一步涉及一种行为识别方法，可用于异常行为检测和人机交互。

背景技术

近年来，计算机视觉作为一门新兴学科发展十分迅速，行为识别作为视频分析和理解的关键技术，重要的学术价值、潜在的商业价值和巨大的应用前景使其迅速成为计算机视觉领域研究的热点和难点，已广泛应用于视频检索、智能监控、机器人导航、智能交通及游戏娱乐等人机交互领域，越来越多的学者和机构在相关方面相继进行了大量的研究工作。人体行为分析的关键就是捕获视频中的运动信息以及帧序列间的关系，如何有效的从视频数据中获取时空信息成为行为识别领域的研究重点。一些学者发现小波变换多分辨率分析能力和优秀的时频分析特性有助于时空信息的挖掘和提取，将其与现有特征描述方法相结合用于行为识别。

(1).Shao L,Gao R.A Wavelet Based Local Descriptor for Human ActionRecognition[C]//BMVC.2010:1-10。这种方法将二维小波变换与兴趣点检测方法相结合用于人体行为识别。该方法在时空兴趣点周围的立方体中进行2D小波分解，可以获得具备鉴别性和可靠性的描述子，特征维度低，对噪声、光照等影响具有一定的容许性，但该方法在进行小波分解时只选取局部立方体内的三个代表平面，对数据的覆盖范围不足，获取空时信息不充分。此外对于运动或背景较复杂的情况，基于兴趣点检测方法鲁棒性较差。

(2).Omidyeganeh M,Ghaemmaghami S,Shirmohammadi S.Application of 3D-wavelet statistics to video analysis[J].Multimedia tools and applications,2013,65(3):441-465。这种方法将3D小波变换与概率统计方法相结合用于人体行为识别。该方法将小波系数使用广义高斯分布拟合，能够在一定程度上获取视频序列空时信息以及小波系数间的依赖性，选用概率模型参数作为特征描述子有助于特征降维，但是仅采用全局特征表示方法对视频结构信息获取不足，且对复杂背景、噪声等干扰较为敏感。

视频中的二维空间域和一维时间域的特性存在很大的差异，因此从直觉上应该针对这两者采用不同的处理方式而不是仅将二维空间方法扩展应用于联合三维空间，沿着视频序列对兴趣点进行跟踪是近些年学者们发现的适于处理上述问题的方法，然而目前并没有学者使用小波变换提取视频中运动轨迹，以将轨迹的优势引入小波域行为识别。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于3D平稳小波的运动轨迹行为识别方法，以更充分地提取视频序列中的时空信息，提高人体行为识别准确率。

实现本发明目的的方案是：利用时空可分离的3D平稳小波变换提取视频中的运动信息，通过基于熵的高频和中频小波系数子带加权融合和基于能量阈值的特征点提取，提高对噪声、背景干扰的鲁棒性，依据连续帧间特征点小波描述子欧式距离最小原则对特征点进行追踪提取运动轨迹，充分获取视频时空信息，并进一步滤除无关特征点。在所提取轨迹周围按不同系数子带方向统计并构建能量特征，最后使用词袋模型编码特征后，输入SVM分类器实现行为识别，其具体实现步骤包括如下：

(1)对行为视频进行时空可分离的3D平稳小波分解：

(1a)将彩色视频数据转换为灰度数据，完成对视频数据的预处理；

(1b)沿时间维方向对视频数据进行一维平稳小波分解，分解总级数为2，得到三个包含时域信息的系数子带：低频系数子带tLL，高频系数子带tH和中频系数子带tLH；

(1c)分别逐帧对三个小波系数子带tLL，tH和tLH进行二维平稳小波分解，获取包含时空域信息的12×l_s个12个方向的系数子带：tLL-LL_j，tLL-LH_j，tLL-HL_j，tLL-HH_j；tH-LL_j，tH-LH_j，tH-HL_j，tH-HH_j；tLH-LL_j，tLH-LH_j，tLH-HL_j，tLH-HH_j，其中j为小波分解级数，j＝1,2,...,l_s，l_s为分解总级数；

(2)基于系数子带的熵对高频tH和中频子带tLH进行加权：

(2a)将高频子带tH和中频子带tLH中系数值量化到[0-255]的灰度值范围内，分别在两个频率子带内，计算高频子带tH的熵E_h和中频子带tLH的熵E_m；

(2b)计算高频子带tH和中频子带tLH的权值：

其中，w_h和w_m分别表示高频子带tH和中频子带tLH对应的权值，表示向上取整；

(2c)对高频子带tH和中频子带tLH进行加权融合，得到融合后的系数子带：

Fu＝w_h×tH+w_m×tLH；

(3)基于系数能量阈值在融合后的子带内提取特征点：

(3a)对于融合之后的系数子带Fu中的每一个点，在其三维立方体邻域内，计算该邻域中所有系数值的平均能量值

(3b)将作为融合之后的系数子带Fu中的每一个系数的能量值E(x,y,t)，设定阈值为T_E，通过比较E(x,y,t)和T_E的大小，区分出特征点：

若E(x,y,t)≥T_E，则认为该能量值对应的像素点为特征点，

若E(x,y,t)＜T_E，则认为该能量值对应的像素点不是特征点；

(4)使用步骤(1c)中获得的各方向小波系数子带，对特征点进行描述，得到特征点的小波系数描述子；

(5)依据两点的小波系数描述子间的欧式距离最小原则，对相邻帧间特征点进行匹配，得到视频的运动轨迹；

(6)在沿轨迹弯曲的立方体内，构造小波方向能量直方图特征：

(6a)以提取的各条轨迹为中心，构建沿轨迹弯曲的立方体；

(6b)以步骤(1c)中获得的子带tLH-LH_j为例，根据步骤(3)中能量计算方法，计算tLH-LH_j中系数的能量值；

(6c)在沿轨迹弯曲的立方体中，将各级小波分解所得子带tLH-LL_j的系数所对应的能量值进行直方图统计，得到tLL-LL_j子带方向的能量直方图向量Ve；

(6d)依次计算高频子带tH分解所得的tH-LL_j，tH-LH_j，tH-HL_j，tH-HH_j，以及中频子带tLH分解所得的tLH-LL_j，tLH-LH_j，tLH-HL_j，tLH-HH_j，共八个子带方向的能量直方图向量，并将八个能量直方图串接，得到描述当前轨迹的小波方向能量直方图特征Vh＝[Ve₁,Ve₂,...,Ve_d,...,Ve₈]，其中，Ve_d表示第d个子带方向的能量直方图向量，d＝1,2,...,8；

(7)将所有视频样本的小波方向能量直方图特征划分为训练集Vh_tr和测试集Vh_te，使用词袋模型获到训练集Vh_tr的直方图向量H_tr和测试集Vh_te的直方图向量H_te；

(8)使用训练集的直方图向量H_tr训练SVM分类器，将测试集的直方图向量H_te输入到训练好的SVM中，输出测试集Vh_te对应的测试样本所属的行为类别。

本发明与现有技术相比具有以下优点：

1)本发明将轨迹跟踪引入小波域行为识别，能更有效的挖掘和获取视频中空时信息；同时结合基于熵的子带加权和基于能量阈值的特征点提取，提高了对背景、光照、噪声等的鲁棒性，并有效降低算法的计算复杂度；

2)本发明采用可时空分离的3D平稳小波变换，在保证平移稳定性的情况下，能获得更多方向的小波系数子带，并进一步降低计算复杂度；通过对小波系数能量的分方向统计，提高了系数能量特征的判别性。

附图说明

图1是本发明的实现流程图。

具体实施方式

参照图1，本发明的基于3D平稳小波的运动轨迹行为识别方法，步骤如下：

步骤1，使用时空可分离的3D平稳小波变换对行为视频进行分解，获得包含时域运动信息的高频和中频系数子带以及包含空时信息的各方向小波系数子带。

将行为视频视为由x,y,t三个方向构成的三维直角坐标系中的三维数据，其中x,y分别表示视频帧的宽方向和高方向，t表示时间方向；

3D平稳小波变换的实现过程是依次沿着x、y和t三个方向进行1D小波变换。为了获取更多结构信息，本发明采用时空可分离的3D平稳小波分解，首先沿着时间维t方向进行1D平稳小波变换，再对所获得的时域子带依次沿着x和y方向进行1D平稳小波变换，也就是空间维的2D平稳小波变换，此分解方法可以获得更多方向子带，且时间维和空间维的小波分解总级数可独立选择，能在一定程度上降低计算复杂度，其分解步骤如下：

(1.1)将数据集中的视频样本进行由彩色数据转换为灰度数据的预处理，以降低计算复杂度；

(1.2)沿视频数据t方向进行两级1D平稳小波分解，即沿时间维方向，将预处理后的视频数据分解为包含低频系数子带tLL，高频系数子带tH和中频系数子带tLH的三个时域系数子带；

(1.3)分别逐帧对三个小波系数子带tLL，tH和tLH进行2D平稳小波分解，获取包含时空域信息的12×l_s个12个方向的系数子带：tLL-LL_j，tLL-LH_j，tLL-HL_j，tLL-HH_j；tH-LL_j，tH-LH_j，tH-HL_j，tH-HH_j；tLH-LL_j，tLH-LH_j，tLH-HL_j，tLH-HH_j，其中j为小波分解级数，j＝1,2,...,l_s，l_s为分解总级数。

步骤2，利用熵值对步骤1中获取的时域高频子带tH和中频子带tLH进行加权，实现不同频率的子带间融合。

(2.1)高频子带tH表示行为视频帧间变化较剧烈的信息，即主要运动信息，系数值分布较集中；而中频子带tLH是分解低频系数子带tLL所得，因此比高频子带tH包含较多的近似信息，其中有非主要运动部位附带的运动信息或干扰信息，系数值分布较分散；系数值的分散程度可以用系数子带的熵来衡量，将高频子带tH和中频子带tLH中系数值量化到[0-255]的灰度值范围内，分别在两个频率子带内，计算高频子带tH的熵E_h和中频子带tLH的熵E_m：

其中，m_i表示高频子带tH中，灰度值为i的系数所占比例，n_i表示中频子带tLH中，灰度值为i的系数所占比例，log的底选为2。

(2.2)根据子带内系数值的分散程度与子带成正比，高频子带tH的熵小于中频子带tLH的熵，且tH包含的信息比中频子带tLH包含的运动信息更重要的特性，在进行加权处理时，给tH设置较大的权值w_h，给tLH设置较小的权值w_m，这两个权值w_h和w_m的计算公式如下：

其中，w_h和w_m分别表示高频子带tH和中频子带tLH对应的权值，表示向上取整；加权融合对非主要运动和干扰信息有一定的抑制作用；

(2.2)对高频子带tH和中频子带tLH进行加权融合，得到融合后的系数子带：

Fu＝w_h×tH+w_m×tLH。

步骤3，基于系数能量阈值在融合后的子带内提取特征点。

(3.1)对于融合之后的系数子带Fu中的每一个点，在其三维立方体邻域内，计算该邻域中所有系数值的平均能量值

其中，N为三维邻域中系数的总个数，w(x,y,t)表示融合后系数子带Fu中位置为(x,y,t)的系数值；

(3.2)将作为融合之后的系数子带Fu中的每一个点的能量值E(x,y,t)，设定阈值为T_E，通过比较E(x,y,t)和T_E的大小，区分出特征点：

若E(x,y,t)≥T_E，则说明该能量值对应的像素点属于主要运动的点，因此认为其是特征点；

若E(x,y,t)＜T_E，则说明该能量值对应的像素点对应非运动点，或者其产生的运动是非主要运动或是干扰运动，因此认为其不是特征点。

步骤4，使用步骤(1.3)中获得的各方向小波系数子带，对特征点进行描述，得到特征点的小波系数描述子，具体实现如下：

(4.1)以系数子带tLL-LL_j为例，将各级小波分解所得子带tLL-LL_j中与步骤(3.2)得到的一个特征点相对应的系数连接为一个向量，得到子带tLL-LL_j中该特征点的描述向量其中，a_j为特征点在第j级子带中对应的系数；

(4.2)计算步骤(1c)中得到的12个方向的系数子带中特征点F_p对应的描述向量，并将这12个向量串接，得到特征点F_p的小波系数描述子V＝[v₁,v₂,...,v_k,...v₁₂]，其中，v_k表示第k个方向系数子带中特征点F_p对应的描述向量，k＝1,2,...,12。

步骤5，依据小波系数描述子间欧式距离最小原则，通过相邻帧间特征点匹配，实现视频运动轨迹的提取：

(5.1)选取视频的第t帧为轨迹起始帧，对于第t帧中的一个特征点p_t，依据特征点的小波系数描述子间欧式距离最小原则，在t+1帧中的一个M×M的窗口中寻找特征点p_t的最佳匹配点p_t+1：

其中，Des(p_t)表示当前帧特征点p_t的小波系数描述子，Des(p_t+1)表示下一帧中的候选特征点p_t+1的小波系数描述子，t＝1,2,...,N_f，N_f为视频的总帧数；

当在t+1帧的邻域窗口中未匹配到特征点p_t+1时，则放弃当前轨迹，从第t帧中的下一个特征点开始新的特征点匹配；

(5.2)对步骤(5.1)中匹配到的候选特征点p_t+1，以t+1帧为当前帧，按照步骤(5.1)中的方法，在t+2帧的指定窗口中为其匹配特征点p_t+2，得到沿时间方向逐渐延伸的轨迹；

(5.3)重复步骤(5.2)，直到轨迹长度达到L时，从轨迹起始帧中的下一个特征点重新开始下一条轨迹的跟踪，其中，L是一个人为设定的固定值，可以避免因为轨迹过长而造成的轨迹漂移问题；

(5.4)在遍历了当前轨迹起始帧中所有的特征点之后，将下一帧作为新的轨迹起始帧，重复步骤(5.1)到(5.3)进行轨迹的跟踪，直到轨迹起始帧为第N_f-L+2帧时，轨迹跟踪结束，得到视频中所有的运动轨迹，这样可以保证轨迹能覆盖视频绝大部分信息，此时获得的一系列特征点的坐标，就是从该视频中提取的人体行为运动轨迹。

步骤6，在沿轨迹弯曲的立方体内，构造小波方向能量直方图特征：

(6.1)在每条轨迹周围构建的一个大小均为C×R×L的立方体，其中C和R分别为立方体一个时间点横截面的长和宽，L为轨迹的长度。

(6.2)以步骤(1.3)中获得的子带tLH-LH_j为例，根据步骤3中能量的计算方法，计算tLH-LH_j中系数的能量值；

(6d)依次计算高频子带tH分解所得的tH-LL_j，tH-LH_j，tH-HL_j，tH-HH_j，以及中频子带tLH分解所得的tLH-LL_j，tLH-LH_j，tLH-HL_j，tLH-HH_j，共八个子带方向的能量直方图向量，并将八个能量直方图串接，得到描述当前轨迹的小波方向能量直方图特征Vh＝[Ve₁,Ve₂,...,Ve_d,...,Ve₈]，其中，Ve_d表示第d个子带方向的能量直方图向量，d＝1,2,...,8，该方向能量直方图特征在不同方向上对小波系数能量进行统计，增加了特征的鉴别性。

步骤7，对小波方向能量直方图特征构建词袋模型，获取视频的表示，并训练SVM分类器。

(7.1)根据不同人体数据集常用划分比例，将所有视频样本对应的小波方向能量直方图特征划分为训练集Vh_tr和测试集Vh_te；以人体行为数据库UCF-Sports为例，该数据库包含10种不同的行为，共150个视频样本，每次将其中149个样本对应的小波方向能量直方图特征作为训练集，剩余1个样本对应的小波方向能量直方图特征作为测试集；

(7.2)对训练集Vh_tr采用K-means聚类方法生成词典DI_De×Ce，通过词典DI_De×Ce，将训练集Vh_tr和测试集Vh_te进行量化编码，得到训练集Vh_tr的直方图向量H_tr和测试集Vh_te的直方图向量H_te，其中De表示特征维数，Ce表示聚类中心数。

步骤8，使用训练集的直方图向量H_tr训练SVM分类器，将测试集的直方图向量H_te输入到训练好的SVM中，输出测试集Vh_te对应的测试样本所属的行为类别。

为验证本发明的有效性，在常用的人体行为数据库KTH和UCF-Sports上，利用本发明进行行为识别；

识别的结果为：在数据库KTH上的正确识别率为96.32％，在数据库UCF-Sports上的正确识别率为95.33％。

Claims

1.基于3D平稳小波的运动轨迹行为识别方法，包括：

(1)对行为视频进行时空可分离的3D平稳小波分解：

(2)基于系数子带的熵对高频tH和中频子带tLH进行加权：

(2b)计算高频子带tH和中频子带tLH的权值：

Fu＝w_h×tH+w_m×tLH；

(3)基于系数能量阈值在融合后的子带内提取特征点：

若E(x,y,t)≥T_E，则认为该能量值对应的像素点为特征点，

若E(x,y,t)＜T_E，则认为该能量值对应的像素点不是特征点；

(6a)以提取的各条轨迹为中心，构建沿轨迹弯曲的立方体；

2.根据权利要求1所述的方法，其中步骤(2a)中高频子带tH的熵E_h和中频子带tLH的熵E_m，计算如下：

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>E</mi> <mi>h</mi> </msub> <mo>=</mo> <mo>-</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>255</mn> </munderover> <msub> <mi>m</mi> <mi>i</mi> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>E</mi> <mi>m</mi> </msub> <mo>=</mo> <mo>-</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>255</mn> </munderover> <msub> <mi>n</mi> <mi>i</mi> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

3.根据权利要求1所述的方法，其中步骤(3a)中计算邻域中所有系数值的平均能量值通过如下公式计算：

<mrow> <mover> <mi>E</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mo>{</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>t</mi> <mo>}</mo> <mo>&Element;</mo> <mi>N</mi> </mrow> </munder> <mo>|</mo> <mi>w</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>;</mo> </mrow>

其中，N为三维邻域中系数的总个数，w(x,y,t)表示融合后系数子带Fu中位置为(x,y,t)的系数值。

4.根据权利要求1所述的方法，其中步骤(4)中使用各方向小波系数子带，对特征点进行描述，得到特征点的小波系数描述子，其实现如下：

(4a)以系数子带tLL-LL_j为例，将各级小波分解所得子带tLL-LL_j中与步骤(3b)得到的一个特征点F_p相对应的系数连接为一个向量，得到子带tLL-LL_j中特征点F_p的描述向量v＝[a₁,a₂,...,a_j,...a_ls]，其中，a_j为特征点在第j级子带中对应的系数；

(4b)计算步骤(1c)中得到的12个方向的系数子带中特征点F_p对应的描述向量，并将这12个向量串接，得到特征点F_p的小波系数描述子V＝[v₁,v₂,...,v_k,...v₁₂]，其中，v_k表示第k个方向系数子带中特征点F_p对应的描述向量，k＝1,2,...,12。

5.根据权利要求1所述的方法，其中步骤(5)中通过相邻帧间特征点匹配，提取视频中的运动轨迹，按如下步骤进行：

(5a)选取视频的第t帧为轨迹起始帧，对于第t帧中的一个特征点p_t，依据特征点的小波系数描述子间欧式距离最小原则，在t+1帧中的一个M×M的窗口中寻找特征点p_t的最佳匹配点p_t+1：

(5b)对匹配到的候选特征点p_t+1，以t+1帧为当前帧，按照步骤(5a)的方法，在t+2帧的指定窗口中为其匹配特征点p_t+2，得到沿时间方向逐渐延伸的轨迹；

(5c)重复步骤(5b)，直到轨迹长度达到L，从轨迹起始帧中的下一个特征点重新开始下一条轨迹的跟踪，其中，L是一个人为设定的固定值；

(5d)在遍历了当前轨迹起始帧中所有的特征点之后，将下一帧作为新的轨迹起始帧，重复步骤(5a)到(5c)进行轨迹的跟踪，直到轨迹起始帧为第N_f-L+2帧时，轨迹跟踪结束，得到视频中所有的运动轨迹。

6.根据权利要求1所述的方法，其中步骤(6a)中的立方体，是在每条轨迹周围构建的一个大小均为C×R×L的立方体，其中C和R分别为立方体一个时间点横截面的长和宽，L为轨迹的长度。