CN104156693A

CN104156693A - 一种基于多模态序列融合的动作识别方法

Info

Publication number: CN104156693A
Application number: CN201410337744.2A
Authority: CN
Inventors: 刘安安; 苏育挺; 马莉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-07-15
Filing date: 2014-07-15
Publication date: 2014-11-19
Anticipated expiration: 2034-07-15
Also published as: CN104156693B

Abstract

本发明公开了一种基于多模态序列融合的动作识别方法，包括以下步骤：获得原始视频多种模态下的信息，并进行预处理获取初始RGB图像序列及初始深度图像序列，以及获取骨架特征序列；对初始RGB图像序列进行背景建模，通过得到的背景建模结果来提取第一人体区域外接矩形，同时提取初始深度图像序列上相应位置的第二人体区域外接矩形；在第一、第二人体区域外接矩形上分别提取人体动作特征，得到RGB模态和深度模态下的特征向量；根据得到的RGB-LBP、D-LBP特征向量序列，以及骨架特征序列，通过多视角判别模型来进行动作识别。本发明能够将多种模态的序列信息进行互补融合，能够有效提高动作识别准确率。

Description

一种基于多模态序列融合的动作识别方法

技术领域

本发明涉及计算机视觉、人体动作识别领域，尤其涉及一种基于多模态序列融合的动作识别方法。

背景技术

人体动作识别在智能视频监控、人机交互、视频检索等领域中具有广阔的应用前景，已逐渐成为计算机视觉领域的研究热点。现有技术中的很多研究工作主要是利用普通RGB摄像机获得的图像序列来进行动作识别，并在一些经典的数据库上验证了其有效性。然而，由于光照变化、人体外形的多样性、遮挡等因素的干扰，人体动作识别仍然是一项具有挑战性的工作。

近年来，将深度图像序列引入人体动作识别领域成为了一个新兴的热点问题。这主要是由于深度摄像机的成本大大降低，尤其是微软推出的3D体感摄影机Kinect，其成本低廉、所摄取的图像分辨率高。与彩色图像相比，深度图像能直接反映物体表面的三维特征，且不受光照变化、阴影、环境变化等因素的干扰。此外，深度图像表示物体在3D空间中的坐标，可以很好的克服遮挡或重叠问题。人体骨架可以用来有效地表征人体区域及轮廓信息，它能反映出人体运动的轨迹，包含很多运动信息，骨架信息能够直接反映人体的位置信息，且不会受到光照、阴影、遮挡等因素的干扰。

RGB信息、深度信息、骨架信息、热传感信息等分别代表着同一个场景的不同形式，通过将这些不同模态的信息融合进行序列建模，可以提升动作识别的准确率。但是由于不同模态的信息于不同的流形空间且值域不同，直接将其融合并不能得到最佳效果。所以，如何进一步多模态序列进行互补融合，是人体动作识别中亟待解决的问题。

发明内容

本发明提供了一种基于多模态序列融合的动作识别方法，本发明实现了RGB信息与深度信息的互补，显著地提高了动作识别的准确率，详见下文描述：

一种基于多模态序列融合的动作识别方法，所述方法包括以下步骤：获得原始视频多种模态下的信息，并进行预处理。包括对原始视频的RGB图像序列和深度图像序列进行预处理，获取初始RGB图像序列及初始深度图像序列，以及获取骨架特征序列；

对初始RGB图像序列进行背景建模，通过得到的背景建模结果来提取第一人体区域外接矩形，同时提取初始深度图像序列上相应位置的第二人体区域外接矩形；

在第一、第二人体区域外接矩形上分别提取人体动作特征，得到RGB模态和深度模态下的特征向量；

根据步骤103中得到的RGB-LBP、D-LBP特征向量序列，以及步骤101中得到的骨架特征序列，通过多视角判别模型来进行动作识别。。

所述根据RGB-LBP、D-LBP特征向量，以及骨架特征序列，通过多视角判别模型来进行动作识别的步骤具体为：

(1)多视角判别模型的表示：

多视角判别模型的条件概率模型可以表示为：

P (Y | X, θ) = \underset{H}{Σ} P (Y, H | X, θ) = \frac{1}{Z} \underset{H}{Σ} e^{(θ^{T} \cdot φ (Y, H, X))}

其中，X是观测序列，Y是序列标记，H是隐状态变量，θ是权重向量且θ＝{θ₁,θ₂}，θ₁和θ₂表示权重，T表示转置，φ(Y,X,H)是特征函数，表示由图模型中节点位置以及节点之间的关联而决定的序列特征，Z是归一化的分配函数，用来进行概率归一化。

(2)多视角判别模型的学习：

目标函数为：

\min_{θ} L (θ) = \frac{1}{2} {| | θ | |}^{2} - Σ_{i = 1}^{N} \log p (Y_{i}, X_{i}; θ)

其中，X_i表示观测样例，Y_i表示观测样例真实的标注，使得上式取得最小值的θ值，即是最优参数θ。

(3)多视角判别模型的判断：在多视角判别模型参数已经确定之后，判断观测序列X的分类最优标记Y^*，确定动作类别，

本发明提供的技术方案的有益效果是：本方法根据得到的RGB-LBP、D-LBP特征向量，以及骨架特征序列，通过多视角判别模型的学习和判断来进行动作识别。本发明能够将RGB信息、深度信息和骨架信息进行互补，可以显著的提高动作识别的准确率。

附图说明

图1为基于多模态序列融合的动作识别方法的流程图；

图2为LBP特征算法示意图；

图3为多视角判别模型的示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了将多模态序列进行互补融合，提高动作识别的准确率，本发明实施例提供了一种基于多模态序列融合的动作识别方法，参见图1，详见下文描述：

101：获得原始视频多种模态下的信息，并进行预处理。包括对原始视频的RGB图像序列和深度图像序列进行预处理，获取初始RGB图像序列及初始深度图像序列，以及获取骨架特征序列；

对于同一动作序列，可以用不同模态进行表示，如RGB信息、深度信息、骨架信息、热传感信息等模态。本实验中选用RGB信息、深度信息和骨架信息三种模态。具体实现时，本发明实施例对此不做限制。

本发明实施例首先采用参考文献[1]中的高斯滤波方法，对原始视频的RGB图像序列和深度图像序列进行预处理。为了减小背景对目标的干扰，再对深度图像序列进行进一步处理，若深度像素值大于阈值T₁或小于阈值T₂时，认为此像素值不是有效值，将其标记为0。

D_{k} (x, y) = \{\begin{matrix} D_{k} (x, y), & T_{2} \leq D_{k} (x, y) {\leq T}_{1} \\ 0, & else \end{matrix}

其中，D_k(x,y)代表第k帧时，深度图像中像素(x,y)点处的深度值。阈值T₁和阈值T₂满足关系T₁＞T₂，其具体数值可以根据实际情况来设定，在本实验中设置T₁＝3500,T₂＝2000。具体实现时，本发明实施例对此不做限制。至此，得到初始RGB图像序列及初始深度图像序列。

本发明实施例采用Kinect SDK工具[2]获取人体20个骨架点所对应的位置坐标，将其串联得到骨架特征序列，作为骨架信息模态。具体实现时，本发明实例对获取骨架特征的方式不做限制。

102：对初始RGB图像序列进行背景建模，通过得到的背景建模结果来提取第一人体区域外接矩形，同时提取初始深度图像序列上相应位置的第二人体区域外接矩形；

由于特征检测是在每帧图像上遍历进行的，为此首先从初始RGB图像序列的每一帧中提取前景区域。由于本方法研究对象所处的环境比较理想，背景几乎无变化，因此可以采用最常用的背景差法来提取前景目标。背景差法实现简单、运算速度快，适用于摄像机静止的场景，并需要得到当前场景的静止背景图像。具体步骤为：

1)获得当前场景中不包含目标对象的静止背景图像B；

2)将当前帧(即第k帧)图像f_k(x,y)与背景图像B进行差值运算，得到差分图像C_k(x,y)，

C_k(x,y)＝|f_k(x,y)-B|。

3)对上述差分图像C_k(x,y)进行二值化，得到二值化图像R_k(x,y)，其中阈值T₃可以根据实际情况来设定，在本实验中设置T₃＝30。具体实现时，本发明实施例对此不做限制。

4)对二值化图像R_k(x,y)进行形态学滤波方法，并通过连通性分析，最终检测和分割出第一人体区域外接矩形，同时提取深度图像序列上相应位置的第二人体区域外接矩形。

其中，提取出的二值化图像R_k(x,y)可能会出现空洞、毛刺等现象，采用参考文献[3]中提出的形态学滤波方法，可以消除孤立噪声点并修复目标区域的空洞。再经过连通性分析，最终检测和分割出人体区域外接矩形，同时提取深度图像序列上相应位置的人体区域外接矩形。

103：在第一、第二人体区域外接矩形上分别提取人体动作特征，得到RGB模态和深度模态下的特征向量；

人体动作特征有多种提取和表示方法，常见的有梯度方向直方图特征(Histograms ofOriented Gradients,HOG)、光流直方图特征(Histogram of Optical Flows,HOF)、局部二值模式(Local Binary Patterns,LBP)等。不失一般性的，本方法使用参考文献[4]中提出的LBP特征来描述人体动作视觉特征。具体提取方法如下：

LBP是一种用来描述图像局部纹理特征的算子。LBP算子定义如下，在3*3像素的窗口内，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若相邻的8个像素的像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。用公式可以表示为：

f (I (X_{0}), I (X_{i})) = \{\begin{matrix} 1 & if & I (X_{i}) - I (X_{0}) &GreaterEqual; T_{4} \\ 0 & if & I (X_{i}) - I (X_{0}) < T_{4} \end{matrix}, i = 1,2, . . ., 8

其中，I(X₀)表示X₀点处的像素灰度值，I(X_i),i＝1,2,...，8表示X_i点处的像素灰度值。其中阈值T₄可以根据实际情况来设定，在本实验中设置T₄＝0。具体实现时，本发明实施例对此不做限制。

按照一定的顺序将上述得到的二值化结果组成一个8位的二进制数，再转化为一个十进制整数，即为此中心像素点的LBP值，如图2所示。将整个图像逐行扫描后，可以得到LBP响应图像，这个图像的直方图即为LBP特征。将第一、第二人体区域外接矩形分别执行上述操作，最终分别得到图像的RGB-LBP(RGB图像的局部二值模式)和D-LBP(深度图像的局部二值模式)特征向量。

104：根据步骤103中得到的RGB-LBP、D-LBP特征向量序列，以及步骤101中得到的骨架特征序列，通过多视角判别模型来进行动作识别。

传统的特征级融合和决策级融合[5]并不能很好的解决多模态时序信息融合的问题，这是由于以下两个原因：第一，尽管RGB图像和深度图像有同样的时间标记，但是并不完全同步；第二，决策级融合没有考虑到每个序列的上下文信息。为了解决这个问题，本方法采用参考文献[6]提出的耦合的多视角判别模型进行多模态序列融合问题的研究，其图模型结构如图3所示。

多视角判别模型是一种视角融合和动作识别的时序模型，在本实验中，将多种模态的特征向量序列分别输入到此模型中，进行多模态融合和模型学习，进行动作识别。

(1)多视角判别模型的表示：

设每个训练样本或测试样本含有M个模态的序列：X＝{x¹,x²,...,x^m,...,x^M}，其中，是第m个模态的观测序列，m＝1,2,...,M，T是观测序列的长度。M可以取任意整数，代表着M种模态(例如：RGB信息、深度信息、骨架信息等)。

不失一般性的，选取RGB信息、深度信息和骨架信息三种模态进行实验，即M＝3。即为步骤103中所提取的RGB-LBP和D-LBP特征序列、以及步骤101中得到的骨架特征序列。

每个X都与一个标签Y对应，其中代表着所有动作的种类。

为了得到观测序列x^m的特征，使用一个隐状态变量H＝{h¹,h²,...,h^m,h^m+1...,h^M}，其中，

h^{m} = {h_{1}^{m}, h_{2}^{m}, . . ., h_{t}^{m}, h_{t + 1}^{m}, . . ., h_{T}^{m}}

是与x^m相对应的隐状态，是第m个模态的有限离散集。同理，

h^{m + 1} = {h_{1}^{m + 1}, h_{2}^{m + 1}, . . ., h_{t}^{m + 1}, h_{t + 1}^{m + 1}, . . ., h_{T}^{m + 1}}

令G＝{γ,ε_p,ε_s}表示一个无向图，多视角判别模型可看作是其因式分解的条件概率分布。其中γ表示图的顶点，ε_p,ε_s表示图的两条边，其中ε_p代表着每个视角的时间上下文关系，ε_s代表着不同视角之间的联系。

多视角判别模型的条件概率模型可以表示为：

P (Y | X, θ) = \underset{H}{Σ} P (Y, H | X, θ) = \frac{1}{Z} \underset{H}{Σ} e^{(θ^{T} \cdot φ (Y, H, X))}

引入两个特征函数f_k(·)及g_k(·)，特征函数φ(Y,X,H)可表示为：

θ^{T} \cdot φ (Y, X, H) = \underset{(t, m) &Element; γ}{Σ} \underset{k}{Σ} θ_{1 k} f_{k} (Y, h_{t}^{m}, x^{m}) + \underset{(t, t + 1, m, m + 1) &Element; ϵ}{Σ} \underset{k}{Σ} θ_{2 k} g_{k} (Y, h_{t}^{m}, h_{t + 1}^{m + 1}, X)

其中，ε＝ε_p∪ε_s是观测序列，θ_1kf_k(·)表示由一个隐状态变量决定的特征函数，θ_2kg_k(·)代表由一对隐状态变量决定的特征函数。k是序列标记集合的任意元素，表示待比较的标记。θ_1,k是模型参数向量θ₁的一维，下标表示该θ_1,k对应序列类别标记为Y时的权重。θ_2,k是模型参数向量θ₂的一维，下标表示该θ_2,k对应序列类别标记为Y时的权重。

(2)多视角判别模型的学习：

为了寻找最优参数θ，根据条件似然准则，目标函数可以定义为：

\min_{θ} L (θ) = \frac{1}{2} {| | θ | |}^{2} - Σ_{i = 1}^{N} \log p (Y_{i}, X_{i}; θ)

其中，X_i表示观测样例，Y_i表示观测样例真实的标注。使得上式取得最小值的θ值，即是最优参数θ。

该问题可以参考非凸正则束方法^[7]进行求解。

(3)多视角判别模型的判断：

在多视角判别模型参数已经确定之后，可以判断观测序列X的分类最优标记Y^*，确定动作类别。具体实现公式如下：

Y^{*} = \arg \underset{Y}{\max p} (Y | X; θ^{*})

即Y^*是能使函数p(Y|X；θ^*)取得最大值的参数值，具体可参考文献[8]中的动态规划算法。

通过将多视角判别模型应用于多种模态序列融合的动作识别问题中，可以有效提高动作识别的准确率。

参考文献

[1]Lin,H.C.,Wang,L.L.,&Yang,S.N.Automatic determination of the spread parameter inGaussian smoothing,Pattern Recognition Letters,17(12),pp:1247-1252,1996.

[2]Webb J,Ashley J.Beginning Kinect Programming with the Microsoft Kinect SDK[M].Apress,2012.

[3]Comer,Mary L.,and Edward J.Delp,Morphological operations for color image processing,Journal of electronic imaging,8(3),pp:279-289,1999.

[4]Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant textureclassification with local binary patterns[J].Pattern Analysis and Machine Intelligence,IEEETransactions on,2002,24(7):971-987.

[5]L.Wu,S.L.Oviatt and P.R.Cohen,Multimodal integration-a statistical view,IEEETransactions on Multimedia,1999.

[6]Song Y,Morency L,Davis R.Multi-view latent variable discriminative models for actionrecognition[C].Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on.IEEE,2012:2120-2127.

[7]Do T M T,Artières T.Large margin training for hidden markov models with partiallyobserved states[C].Proceedings of the26th Annual International Conference on MachineLearning.ACM,

[8]R Bellman,Dynamic Programming,Princeton,NJ,Princeton University Press,1957.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态序列融合的动作识别方法，其特征在于，所述方法包括以下步骤：

获得原始视频多种模态下的信息，并进行预处理，获取初始RGB图像序列、初始深度图像序列，以及获取骨架特征序列；

对所述初始RGB图像序列进行背景建模，通过得到的背景建模结果来提取第一人体区域外接矩形，同时提取所述初始深度图像序列上相应位置的第二人体区域外接矩形；

在第一、第二人体区域外接矩形上分别提取人体动作特征，得到RGB模态和深度模态下的RGB-LBP、D-LBP特征向量序列；

根据所述RGB-LBP、D-LBP特征向量序列，以及所述骨架特征序列，通过多视角判别模型来进行动作识别。

2.根据权利要求1所述的一种基于多模态序列融合的动作识别方法，其特征在于，所述根据所述RGB-LBP、D-LBP特征向量序列，以及所述骨架特征序列，通过多视角判别模型来进行动作识别的步骤具体为：

(1)所述多视角判别模型的表示：

多视角判别模型的条件概率模型可以表示为：

P (Y | X, θ) = \underset{H}{Σ} P (Y, H | X, θ) = \frac{1}{Z} \underset{H}{Σ} e^{(θ^{T} \cdot φ (Y, H, X))}

其中，X是观测序列，Y是序列标记，H是隐状态变量，θ是权重向量，且θ＝{θ₁,θ₂}，θ₁和θ₂表示权重，T表示转置，φ(Y,X,H)是特征函数，表示由图模型中节点位置以及节点之间的关联而决定的序列特征，Z是归一化的分配函数，用来进行概率归一化；

(2)所述多视角判别模型的学习：

目标函数为：

\min_{θ} L (θ) = \frac{1}{2} {| | θ | |}^{2} - Σ_{i = 1}^{N} \log p (Y_{i}, X_{i}; θ)

其中，X_i表示观测样例，Y_i表示观测样例真实的标注，使得上式取得最小值的θ值，即是最优参数θ；

(3)所述多视角判别模型的判断：在所述多视角判别模型参数已经确定之后，判断观测序列X的分类最优标记Y^*，确定动作类别，