CN106295564B

CN106295564B - 一种邻域高斯结构和视频特征融合的动作识别方法

Info

Publication number: CN106295564B
Application number: CN201610651712.9A
Authority: CN
Inventors: 柏连发; 张毅; 韩静; 崔议尹
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2016-08-11
Filing date: 2016-08-11
Publication date: 2019-06-07
Anticipated expiration: 2036-08-11
Also published as: CN106295564A

Abstract

本发明公开了一种邻域高斯结构和视频特征融合的动作识别方法。本方法首先用3D LARK算子提取视频的局部结构特征，为了能够表达整体结构，提出一种基于多维高斯拟合的邻域结构评估算法。其次，邻域高斯结构和3D LARK特征分别经过多尺度模板和待测视频的局部匹配和统计过程，得到两个目标动作存在的统计概率矩阵。最后，将两个统计概率矩阵融合来提取目标，双重约束提高了目标动作存在的准确性。本发明在传统的LARK算子上提出邻域关系约束整体的思想，提出了一种新的动作识别模型。对比现有方法，本发明提取的目标动作更精准，识别准确率更高，适用于各种复杂场景的可见光和红外视频。

Description

一种邻域高斯结构和视频特征融合的动作识别方法

技术领域

本发明属于计算机视觉领域的移动目标识别技术，特别是一种邻域高斯结构和视频特征融合的动作识别方法。

背景技术

提高视频中目标识别的准确率是开展图像科学研究的不懈追求，高效的计算机自动识别目标技术，对公共安全等领域具有重大意义。目标识别的过程主要分为训练和非训练两种方法，传统训练方法的识别严重依赖于样本的数量，且分类过程容易产生过拟合问题。现阶段，目标识别技术主要采用非训练的新方法。

LARK特征由Seo等人在2010年提出，与HOG特征，LBP特征,Haar特征,SIFT特征等相比，具有旋转和尺度不变性，抓住图像潜在结构而不受噪声影响和稳定性好等优点。它关注每个像素点灰度变化，鲁棒的描述了图像的局部结构。但是Seo的方法使用单尺度模板，不能识别多尺度目标。模板包含背景，采用目标与模板整体匹配，导致待测视频适用场景有限，与模板背景不类似的视频，检测效果不好。LARK特征是局部特征，不能描述目标整体的形状。对于结构稳定的目标，使用LARK特征识别效果较好，对于姿态变化多的非紧凑型目标，则不能排除结构与目标类似的物体。

发明内容

本发明的目的是提供一种邻域高斯结构和视频特征融合的动作识别方法。

实现本发明目的的技术解决方案为：一种邻域高斯结构和视频特征融合的动作识别方法，具体步骤为：

步骤1、构建无背景多尺度模板，具体是：首先将模板图片转成灰度图，之后将图片的背景去除，最后对其进行缩放处理；

步骤2、对步骤1得到的多尺度模板进行3D LARK特征提取，之后对提取出的3DLARK特征进行去冗余处理；

步骤3、对步骤2得到的特征向量矩阵W_Q邻域窗口内的数据进行高斯拟合，之后对高斯拟合后的结果进行去冗余处理；

步骤4、将待测视频转换为灰度视频，然后提取显著区域，之后再提取显著区域内像素点的3D LARK特征，最后进行单个向量去冗余处理；

步骤5、将待测视频3D LARK特征集F_T邻域9×9窗口内的数据进行高斯多维拟合，之后对高斯多维拟合后的结果进行去冗余处理，得到：R为实数域，m₂为9×9窗口遍历待测视频后的循环次数。

步骤6、对3D LARK特征和邻域高斯结构特征的模板与待测视频进行局部匹配，并记录向量位置信息；

步骤7、对向量位置信息进行统计，具体是确定统计窗口内不重复的索引值个数，分别得到目标存在的统计概率矩阵T_3DLK和T_NRFM；

步骤8、将统计概率矩阵T_3DLK和T_NRFM相乘融合得到最终的统计概率矩阵T_final，在最终的统计概率矩阵T_final中用非极大值抑制的方法，逐帧提取出目标动作。

本发明与现有技术相比，其显著优点为：(1)本发明提出了目标动作的邻域关系约束，优化了评估目标动作是否存在的方法，使得目标识别准确率得到提高。(2)本发明采用无背景模板，关注动作的本质特征，而忽略背景、灰度等，能够解除待测视频的场景限制，抑制视频拍摄角度产生的影响，同时避免了识别过程中对像素灰度的依赖性，而且能够准确地识别出待测视频中是否包含与感兴趣动作。(3)本发明中的多尺度模板可以识别同一帧图片里面的不同尺寸的目标动作。

附图说明

图1为邻域高斯结构和3D LARK融合的动作识别方法总流程图。

图2为邻域高斯结构计算和性能分析图，其中图(a)为邻域结构计算窗口示例图，图(b)为邻域结构相似性性能分析图。

图3为确定非极大值抑制法的搜索阈值σ值的分析图，其中图(a)(b)为单目标和双目标T_final的概率密度曲线；图(c)为T_final的概率分布曲线图。

图4为单独用3D LARK特征识别和3DLARK与邻域高斯结构特征融合处理后识别结果对比图，其中图(a)(c)为单独使用3D LARK特征统计匹配后的识别行走动作的结果；图(b)(d)为3D LARK特征与邻域高斯结构特征融合处理后识别结果。

图5为多视角多场景目标行走动作的识别结果对比图，其中图(a)(c)(e)为本发明的识别结果；图(b)(d)(f)为H.J.Seo的3D LSK方法识别结果。

图6为利用本发明识别跳远动作时，采用的未经缩放的模板。

图7为利用本发明的方法对跳远动作进行识别的任意四帧的结果图。

图8为利用本发明识别滑雪动作时，采用的未经缩放的模板。

图9为利用本发明的方法对滑雪动作进行识别的任意四帧的结果图。

具体实施方式

结合图1，本发明的一种邻域高斯结构和视频特征融合的动作识别方法，具体步骤为：

所述模板图片为完成一个完整动作的几帧图片，对去背景后的图片序列进行缩放处理，具体是将去背景后的图片序列缩放为0.5倍、1倍和1.5倍。

步骤2、对步骤1得到的多尺度模板进行3D LARK特征提取，之后对提取出的3DLARK特征进行去冗余处理；具体为：

步骤2-1、对步骤1得到的多尺度模板进行3D LARK特征提取，得到特征向量矩阵为W_Q∈R^p×n，所述3D LARK特征是用于提取时空显著特征的局部自适应回归核，其公式为

式中，x_l是中心像素点，x_i是中心像素点邻域内像素点，h是全局平滑参数，C_l∈R^3×3是用于估算表面欧式距离ds²的协方差矩阵，用于确定中心像素点邻域大小的窗口为3×3×7，W_Q∈R^p×n中p＝3×3×7，为单个向量的维度；n为待测视频像素点的总个数；

步骤2-2、对步骤2-1得到的特征向量矩阵W_Q进行单个向量和向量之间去冗余处理，其中，采用主成分分析法即PCA降低单个向量的维度；采用匹配余弦相似度，对相似向量只保留一个的方法，去除向量之间的冗余，最后得到模板3D LARK特征集为F_Q。

步骤3、对步骤2得到的特征向量矩阵W_Q邻域窗口内的数据进行高斯拟合，之后对高斯拟合后的结果进行去冗余处理；具体为：

步骤3-1、对模板特征向量矩阵W_Q邻域9×9窗口内的数据进行高斯多维拟合，得到模板邻域高斯结构特征N_Q ¹∈R^8×m，m为9×9窗口遍历模板图片序列后的循环次数；

高斯多维拟合所用公式为：

其中，K为高斯分布的个数，μ为模型期望向量，δ为模型方差；

步骤3-2、对步骤3-1得到的特征向量矩阵N_Q ¹进行单个向量和向量之间去冗余处理，得到模板特征集为N_Q。

步骤4、将待测视频转换为灰度视频，然后提取显著区域，之后再提取显著区域内像素点的3D LARK特征，最后进行单个向量去冗余处理；具体为：

步骤4-1、将待测视频转换为灰度视频；

步骤4-2、提取灰度视频的显著区域；

步骤4-3、提取显著区域内像素点的3D LARK特征为W_T；

步骤4-4、对W_T进行单个向量去冗余处理，得到待测视频3D LARK特征集F_T。

步骤5、将待测视频3D LARK特征集F_T邻域9×9窗口内的数据进行高斯多维拟合，之后对高斯多维拟合后的结果进行去冗余处理，得到：R为实数域，m₂为9×9窗口遍历待测视频后的循环次数；

步骤6、对3D LARK特征和邻域高斯结构特征的模板与待测视频进行局部匹配，并记录向量位置信息；具体为：

步骤6-1、对模板3D LARK特征集F_Q和待测视频3D LARK特征集F_T进行局部结构匹配，将匹配的相似度记录在时空相似度矩阵ρ_3DLK；局部结构匹配所用公式为：

式中，为模板特征集中任意一个向量，为待测视频特征集中任意一个向量；

步骤6-2、将与待测视频3D LARK特征集中向量相似的模板特征集中向量的位置信息，记录在时空位置矩阵P_3DLK中，相似度信息记录在时空相似度矩阵ρ_3DLK中；

步骤6-3、对邻域高斯特征集N_Q和待测视频邻域高斯特征集N_T进行局部结构匹配，得到时空相似度矩阵ρ_NRFM；

步骤6-4、将与待测视频邻域高斯特征集中向量相似的模板特征集中向量的位置信息，记录在时空位置矩阵P_NRFM中，相似度信息记录在时空相似度矩阵ρ_NRFM中。

步骤8、将统计概率矩阵T_3DLK和T_NRFM相乘融合得到最终的统计概率矩阵T_final，在最终的统计概率矩阵T_final中用非极大值抑制的方法，逐帧提取出目标动作。非极大值抑制方法中搜索阈值σ的取值为0.95～0.98。

本发明创建了整个动作识别方法，提出模板和目标的局部结构基于邻域高斯结构和3D LARK特征的统计匹配，将双重约束融合，优化了目标存在的统计图，使得目标识别准确率得到提高。

下面结合实施例对本发明的目标动作识别方法做进一步详细的描述：

实施例

本发明的一种邻域高斯结构和视频特征融合的动作识别方法是利用邻域高斯结构和3D LARK特征进行匹配统计的目标检测，其中视频预处理部分包含构建多尺度模板和对待测视频提取显著区域，对模板特征提取和基于特征的邻域多维高斯拟合，并分别去除冗余后得到两个多尺度模板集,待测视频提取显著区域后，对其特征提取和基于特征的邻域多维高斯拟合，得到两个待测视频特征集，相似性评估部分包含模板与待测视频的匹配，统计不相关结构和融合，以及最后目标动作提取。具体为：

第一步：构建一个无背景多尺度模板特征集，选取目标完成一个完整动作的几帧图像，去除背景。然后无背景模板缩放为0.5和1.5倍，对得到模板计算3D LARK特征。3DLARK能够很好的描述局部数据结构，对图像的放大，缩小和旋转具有鲁棒性，适用于本文的多尺度模板。时空局部自适应回归核(3D LARK)定义如下：

x_l是中心像素点，x_i是窗口内的局部像素点。h是全局平滑参数，C_l∈R^3×3是根据表面弧长ds²算出的协方差矩阵。核K实质就是描述局部视频中，中心像素与时空邻域像素的相似度，这个相似度类似于表面弧长距离ds²。本发明设置计算LARK的3D小窗口为3×3×7,因此每个像素点的3D LARK向量大小为1×63，使用PCA降低单个向量的维度后为1×4。

再使用余弦相似度去冗余方法，降低3D LARK特征矩阵向量间的维度，最后得到局部结构之间互不相同的3D LARK模板特征集。用余弦相似度评估向量间相似性，对3D LARK特征做去除相似结构的处理，即去冗余。余弦相似度为：

在经过去冗余后，3D LARK模板特征集为F_Q。去冗余时，对3D LARK矩阵和邻域高斯结构矩阵分别设置阈值α₁和α₂，相似度大于阈值的向量只保留一个。选取α₁＝0.925，α₂＝0.95，实验表明适当的减少相似的向量数目不但对识别结果没有影响，而且降低了计算量，提高了检测速度。减少模板向量数目之后，保留的向量进入到与待测视频的匹配过程。

第二步：基于对于目标姿态多变的认识，考虑目标各局部结构关系的方法，即邻域结构关系。计算邻域结构关系矩阵时，不以单个像素点为单位。先取3×3小窗口整体为一个单位，代表局部结构，再选取中心单位周围的八个单位为一个大窗口，大小为9×9。计算方式如图2(a)所示，由于3D LARK代表了窗口内视频的局部特征，采用每个小窗口的第一个像素点的经过PCA后的局部结构特征向量，作为每个小窗口的结构数据W_i。将大窗口内的结构数据W_i，i＝1,2,…,9按序排列为一列向量，作为大窗口的邻域矩阵Ner，即Ner＝[W₁；W₂；…；W₉]∈9×4。邻域结构关系用向量r_ij表示，构造非线性函数f(Ner,r_ij)。根据邻域重建误差最小化和邻域权值归一化原则，引入约束条件r_ij≥0，非负非线性优化目标函数为：

根据约束条件求r_ij。由于高斯概率密度模型具有模型参数少，拟合性能好的特点，是应用最广泛的概率模型之一，使用多维高斯函数拟合可更快捷更高精度的表达数据关系。自然一组数据都有向某一中心值靠拢的集中趋势，近似复合高斯分布，因此选用多维高斯拟合。多维高斯分布概率密度函数定义：

其中，K为高斯分布的个数，μ为模型期望向量，δ为模型方差。将邻域矩阵Ner每一列都进行高斯多维拟合，得到期望和方差各4个，赋予邻域高斯结构特征向量r_ij∈1×8(i＝1,2,…,m；j＝1,2,…,n)。将9×9大窗口逐帧遍历整个视频，计算每一个大窗口内的邻域高斯结构向量，将向量按序排列，构成视频的邻域高斯结构关系矩阵N。

其中，C代表视频的第C帧。视频和模板的邻域高斯结构矩阵，经过余弦相似度去冗余以后，邻域高斯结构模板特征集为N_Q。

采用定性的评价方式，来评估本发明进行目标动作识别的效果。为了验证邻域高斯结构对目标和非目标的区分性能，我们选取滑雪模板作为目标，选取树木，窗户等作为非目标，分别计算他们的邻域高斯结构矩阵N_Skiing和N_tree。以目标的邻域高斯结构矩阵为例，计算N_Skiing的每一个向量与其中任意向量的相似性，代表目标与自身的相似性。然后计算N_Skiing每一个向量与N_tree中任意一个向量的相似性，代表目标与非目标的相似性。同理，对非目标的邻域高斯结构也做相应的计算。以两种相似性作为坐标，得到在邻域高斯结构的区分下，目标和非目标的分布。根据图3(b)所示，“+”点为目标分布，“*”点为非目标分布，“+”点集中在45度角以下，说明N_Skiing每一列与自身任一列相似度较大，而与树木等相似度较小。反之，“*”点集中在45度角以上，说明N_tree每一列与自身相似度较大，而与目标相似度较小。因此，邻域高斯结构，可以较好的区分出目标与非目标。

第三步，待测视频转成灰度图像序列，然后提取显著区域。为了减少大量不必要的计算量，只在显著区域内的像素点进行邻域结构和后续的匹配过程。用3D LARK特征提取待测视频的特征，经过PCA之后，得到待测视频3D LARK特征集F_T。

选取二维大窗口，遍历待测视频3D LARK特征集。对窗口内的3D LARK特征进行高斯多维拟合，得到的期望和方差作为邻域关系，经过PCA之后，得到待测视频的邻域高斯结构特征集N_T。

第四步，分别进行局部结构相似性评估。利用余弦相似度将待测视频和模板进行匹配，根据匹配相似度，判断待测视频中是否包含目标动作的局部结构。待测视频N_T的每一个向量，与模板N_Q中的所有向量匹配，得到该向量与模板中所有向量的相似度。保留最大相似值对应的那个向量，则找到了与待测视频最匹配的模板对应向量。设待测视频的大小为：m_T×n_T×t_T,对所有向量重复操作，得到时空相似度矩阵：

同理，对LARK矩阵进行匹配得到ρ_3DLK。

ρ值小的代表相似度低，即为不匹配。对两个时空相似度矩阵设立两个阈值η₁和η₂，低于阈值的ρ值赋为0，达到去除不相似结构的目的。将保留下来的对应向量的位置信息，记录在时空位置矩阵P_3DLK和P_NRFM中:

第五步：评估整体结构相似性。两个向量相似，代表对应像素点周围窗口内的局部结构相似。为了评估目标整体与模板的相似性，得到时空位置矩阵之后，使用统计不相关结构的方法。设置3时空统计窗口m₂×n₂×t₂，将窗口分别遍历P_3DLK和P_NRFM矩阵，并统计窗口内不重复的索引值个数。位置信息代表模板中第index个局部结构与待测视频相应结构相似。不同的索引值越多，表示窗口内的局部图像含有与模板相似的结构越多。我们记录下每个窗口的不重复索引值的个数，构建目标存在的统计概率矩阵T_NRFM∈R^A×B×C,A＝m_T-m₂,B＝n_T-n₂,C＝t_T-t₂。对LARK矩阵的P_3DLK，选取相同的统计窗口，重复上述操作，得到T_3DLK∈R^A×B×C。

图4中列出了直接采用3D LARK算子识别与融合后的识别结果对比。融合的统计概率图拥有更清晰的轮廓，更准确的目标位置范围。选取两个视频当中的任意一帧图片，(a)、(c)是单独使用3D LARK代入模型的识别结果，(b)、(d)是与邻域高斯融合后得到的结果。实验证明，融合后提取的的目标更准确，更精细。由于在目标与环境存在对比度的情况下，视频显著性提取才准确，因此对比度约明显，统计概率图越能清晰的表示目标。如图4中第二行为红外视频，对比度明显，目标动作区域也更容易被识别到。

第六步，融合可以提取各信道中的有利信息，提高信息的准确度。将评估的整体结构相似性T_3DLK和T_NRFM整体关系相似性相乘融合处理，最后得到动作是否存在的评估矩阵T_final。其同时包含了LARK特征和邻域关系特征，其元素值有更大的对比度，能够更精准地识别目标与非目标。在评估矩阵中用非极大值抑制的方法提取目标。置循环体逐步将最大值周围区域提取出来。

我们要提取T_final概率大的区域，即目标区域。图3(a)(b)分别为单目标和双目标的T_final的概率密度曲线，(a)为单峰，(b)为双峰，表明T_final中分别有单个和两个目标区域。图3(c)为目标的概率分布曲线，在概率为0.96后，两幅图片的曲线均趋于直线，表明前0.04的数据包含了大部分目标区域。因此我们设提取目标阈值σ为0.96，只需提取T_final的前0.04的数据，代表目标区域。

图5列出了本发明所得识别三个视频中任意帧与H.J.Seo的3D LSK算法对比结果，左列(a)(c)(e)右列(b)(d)(f)为H.J.Seo的算法的识别结果。在背景复杂的地铁站内，商店内部，本发明均有很好的识别动作的结果，而H.J.Seo的3D LSK算法识别结果较为混乱。

本发明不仅可以识别最为常见的行走动作，图6到图9列出来其他动作的识别效果。图6为识别跳远动作采用的未经缩放的模板。图7为跳远动作运用本发明识别的结果。图8为识别滑雪动作采用的未经缩放的模板。图9为滑雪动作运用本发明识别的结果，不仅在对比度强烈的雪地里，本发明可以识别出滑雪动作，在目标滑至空中，背景中包含观众的时候，本发明仍可以识别出目标动作。

由上可知，本发明的邻域高斯结构和视频特征融合的动作识别方法，使得提取的目标动作更精准，识别准确率更高，本发明适用于各种复杂场景的可见光和红外视频。

Claims

1.一种邻域高斯结构和视频特征融合的动作识别方法，其特征在于，具体步骤为：

步骤7、对向量位置信息进行统计，具体是确定统计窗口内不重复的索引值个数，分别得到目标存在的统计概率矩阵T_12LK和T_NRFM；

步骤8、将统计概率矩阵T_32LK和T_NRFM相乘融合得到最终的统计概率矩阵T_final，在最终的统计概率矩阵T_final中用非极大值抑制的方法，逐帧提取出目标动作。

2.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法，其特征在于，步骤1中所述模板图片为完成一个完整动作的几帧图片，对去背景后的图片序列进行缩放处理，具体是将去背景后的图片序列缩放为0.5倍、1倍和1.5倍。

3.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法，其特征在于，步骤2中对步骤1得到的多尺度模板进行3D LARK特征提取，之后对提取出的3DLARK特征进行去冗余处理，具体为：

4.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法，其特征在于，步骤3对模板特征向量矩阵W_Q邻域窗口内的数据进行高斯多维拟合，之后对高斯多维拟合后的结果进行去冗余处理，具体为：

高斯多维拟合所用公式为：

5.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法，其特征在于，步骤4将待测视频转换为灰度视频，然后提取显著区域，之后再提取显著区域内像素点的3DLARK特征，最后进行单个向量去冗余处理，具体为：

步骤4-1、将待测视频转换为灰度视频；

步骤4-2、提取灰度视频的显著区域；

步骤4-3、提取显著区域内像素点的3D LARK特征为W_T；

6.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法，其特征在于，步骤6对3D LARK特征和邻域高斯结构特征的模板与待测视频进行局部匹配，并记录向量位置信息，具体为：

步骤6-1、对模板3D LARK特征集F_Q和待测视频3D LARK特征集F_T进行局部结构匹配，将匹配的相似度记录在时空相似度矩阵ρ_32LK；局部结构匹配所用公式为：

步骤6-2、将与待测视频3D LARK特征集中向量相似的模板特征集中向量的位置信息，记录在时空位置矩阵P_32LK中，相似度信息记录在时空相似度矩阵ρ_32LK中；

7.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法，其特征在于，步骤8中非极大值抑制方法中搜索阈值σ的取值为0.95～0.98。