CN102930250B

CN102930250B - 一种多尺度条件随机场模型的动作识别方法

Info

Publication number: CN102930250B
Application number: CN201210406248.9A
Authority: CN
Inventors: 张二虎; 赵燕青; 赵永伟
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2012-10-23
Filing date: 2012-10-23
Publication date: 2015-11-18
Anticipated expiration: 2032-10-23
Also published as: CN102930250A

Abstract

本发明公开了一种多尺度条件随机场模型的动作识别方法，包括以下步骤，首先采集人体运动视频信息，预处理采集到的人体运动目标，然后同时考虑人的运动轨迹，人的体态特征以及人的肢体运动情况，利用多尺度特征提取的方法从大、中、小三个尺度上提取人体运动特征，最后使用多尺度条件随机场模型进行动作的建模与识别。本发明方法基于多尺度条件随机场模型，充分利用动作序列的上下文信息以及不同尺度状态之间的相互限制和影响信息，解决了人体运动过程中同一个时刻存在着多个动作模式进行识别的问题，且识别率明显提高。

Description

一种多尺度条件随机场模型的动作识别方法

技术领域

本发明属于智能视觉监控和机器学习技术领域，涉及一种多尺度条件随机场模型的动作识别方法。

背景技术

利用图像信息的视频分析系统越来越多的被应用于各个领域，如视频监控、视频检索、医疗诊断、运动视频分析及基于感知的高级人机接口等。

但是目前，在基于视频监控及分析的诸多研究领域中，大多数的研究都是从单尺度上研究人体运动，现实中，人的运动同时包含着多个尺度的运动细节，如果同一时刻人体运动存在着多种动作模式时，其识别率较低，难以达到识别技术要求。

因此，不同尺度上的运动特征在运动分析中具有不同的角色，恰当地将不同尺度上的动作特征结合起来对解决人体运动问题有重要意义。

发明内容

本发明的目的是提供一种多尺度条件随机场模型的动作识别方法，解决了现有技术在同一时刻存在着多种动作模式时，识别率较低的问题。

本发明所采用的技术方案是，一种多尺度条件随机场模型的动作识别方法，该方法按照以下步骤实施：

步骤1、多尺度特征描述

通过大、中、小三个尺度特征提取方法提取人体运动的多尺度特征；

步骤2、建立多尺度条件随机场模型

多尺度条件随机场模型的结构包含三层结构，分别对应着大、中、小三个尺度及各尺度间的关系，设x_1，t、x_2，t及x_3，t分别表示t时刻提取到的不同尺度上的特征值，y_1，t、y_2，t及y_3，t分别为对应的状态变量值，{f_k,g_k}分别表示给定的一个尺度内的状态转移特征函数和观察特征函数，{h_k,p_k，q_k}则表示两个尺度之间的状态转移特征函数和观察特征函数；

步骤3、建立多尺度条件随机场模型的表达式

设X＝{X₁,X₂,X₃}为提取出来的特征数据，其中X₁＝{x_1，1，x_1，2,…,x_1，t,…,x_1，T}、X₂＝{x_2，1，x_2，2，…,x_2，t，…,x_2,T}、X₃＝{x_3，1，x_3,2,…,x_3，t，…,x_3,T}分别表示大尺度、中尺度和小尺度上的特征数据；另外，Y＝{Y₁,Y₂,Y₃}表示三个尺度上对应的标记序列，其中的Y₁＝{y_1，1，...,y_1,T}、Y₂＝{y_2,1，...,y_2,T}、Y₃＝{y_3，1，...,y_3，T}，则所建立的多尺度条件随机场模型描述为：

P (Y | X) = \frac{1}{Z (X)} (Π_{t = 1}^{T - 1} Π_{l = 1}^{3} φ_{l, t} (y_{l, t}, y_{l, t + 1}, x_{l, t})) \times (Π_{t = 1}^{T - 1} Π_{l = 1}^{2} ψ_{l, t} (y_{l, t}, y_{l + 1, t}, x_{l, t}, x_{l + 1, t})), - - - (5)

其中的φ是链内的势函数，ψ是链间的势函数，具体的形式如下：

φ_{l, t} (y_{l, t}, y_{l + 1, t}, x_{l}) = \exp {Σ_{k = 1}^{J} λ_{k} f_{k} (y_{l, t}, y_{l, t + 1}) + Σ_{k = 1}^{K} μ_{k} g_{k} (y_{l, t}, x_{l, t})}, - - - (6)

ψ_{l, t} (y_{l, t}, y_{l + 1, t}, x_{l, t}, x_{l + 1, t}) = \exp {Σ_{k = 1}^{L} α_{k} h_{k} (y_{l, t}, y_{l + 1, t}) + Σ_{k = 1}^{M} β_{k} p_{k} (y_{l, t}, x_{l + 1, t}) + Σ_{k = 1}^{N} γ_{k} q_{k} (y_{l + 1, t}, x_{l, t})}, - - - (7)

其中，{f_k，g_k}分别表示给定的一个尺度内的状态转移特征函数和观察特征函数，{h_k,p_k，q_k}则表示两个尺度之间的状态转移特征函数和观察特征函数，λ_k,μ_k,α_k,β_k,γ_k分别为f_k,g_k,h_k，p_k,q_k所对应的权重，f_k,g_k,h_k,p_k,q_k的算式如下：

f_{k} (y_{l, t}, y_{l, t + 1}) = \{\begin{matrix} 1 & if & y_{l, t} = s_{m}^{l} and y_{i, t + 1} = s_{n}^{l} \\ 0 & otherwise \end{matrix}, - - - (8)

g_{k} (y_{l, t}, x_{l, t}) = \{\begin{matrix} x_{l, t} (i) & if & y_{l, t} = s_{m}^{l} \\ 0 & otherwise \end{matrix}, - - - (9)

h_{k} (y_{l, t}, y_{l + 1, t}) = \{\begin{matrix} 1 & if & y_{l, t} = s_{m}^{l} and y_{i + 1, t} = s_{n}^{l + 1} \\ 0 & otherwise \end{matrix}, - - - (10)

p_{k} (y_{l, t}, x_{l + 1, t}) = \{\begin{matrix} x_{l + 1, t} (i) & if & y_{i, t} = s_{m}^{l} \\ 0 & otherwise \end{matrix}, - - - (11)

q_{k} (y_{l + 1, t}, x_{l, t}) = \{\begin{matrix} x_{l, t} (i) & if & y_{l + 1, t} = s_{n}^{l + 1} \\ 0 & otherwise \end{matrix}, - - - (12)

其中，是第l层的状态空间中的第m个状态的标记值，在这里第1层的状态空间包括了场景中的各个位置区域的标记，是大尺度上的状态标记；第2层的状态空间包括了整个人体意义上的动作类型，表示“走”，是中尺度上的状态标记；第3层的状态空间包括了四肢和头的绝对位置和相对位置情况，表示“挥手”；

步骤4、对多尺度条件随机场模型的参数进行学习

4.1）多尺度条件随机场模型中包含了5组特征函数{f_k,g_k,h_k,p_k,q_k}，以及所对应的5组需要学习的模型参数{λ_k,μ_k,α_k,β_k,γ_k}，所有的参数表达式为：

Λ＝{λ₁,...λ_J,,μ₁,...μ_K，,α₁,...α_L，,β₁,...β_M，,γ₁,...γ_N，}；（13）

4.2）对式（13）所示的多尺度条件随机场模型参数，采用训练样本进行学习，

设(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,…,J)是输入的用于训练模型参数的特征数据和对应的标记序列对，采用式（5）的对数形式，得到如下的对数似然度函数，作为学习时的目标函数：

L (Λ) = Σ_{i = 1}^{J} \log P (Y^{(i)} | X^{(i)}) - Σ_{k = 1}^{K} \frac{Λ_{k}^{2}}{2 σ^{2}}; - - - (14)

其中是惩罚因子，σ²为高斯先验方差，

对于式（14），使用L-BFGS方法来求解这个大规模无约束问题，所得到的参数集Λ就是要学习的最终模型参数；

4.3）对每种动作类型都建立一个多尺度的条件随机场模型，并进行参数学习，

设共有C种动作类型，则按照式（13）对第i(i＝1,2,…,C)种动作类型采用步骤4.2）进行学习，则得到学习后的模型参数，记为Λ⁽ⁱ⁾；

步骤5、进行动作识别

首先获取各种动作的运动视频序列；

然后采用背景建模技术，通过背景减除技术检测到运动目标；

再根据步骤1中的方法提取待识别动作的多尺度特征数据X；

最后利用学习到的每种动作类型的模型参数Λ⁽ⁱ⁾和多尺度特征数据X，按照式（5）计算待识别的动作的条件概率，设对第i(i＝1,2,…,C)种动作类型（其对应的参数为Λ⁽ⁱ⁾），计算得到的条件概率为：P(Y⁽ⁱ⁾|X,Λ⁽ⁱ⁾)，若P(Y⁽ⁱ⁾|X,Λ⁽ⁱ⁾)是这些条件概率中的最大值，即如式（15）所示：

P(Y⁽ⁱ⁾|X,Λ⁽ⁱ⁾)＝max{P(Y⁽¹⁾|X,Λ⁽¹⁾),P(Y⁽²⁾|X,Λ⁽²⁾),…,P(Y^(C)|X,Λ^(C))}，（15）

则待识别的动作类型确定为第i种动作。

本发明的有益效果是，通过从大、中、小三个尺度上提取人体运动特征数据，建立多尺度条件随机场模型（Multi-scaleconditionrandomfieldmodel，MSCRF），最后使用所建立的模型对人体动作进行建模与识别。多尺度条件随机场模型可以充分利用动作序列的上下文信息以及不同尺度状态之间的相互限制和影响信息，识别效果较好。

附图说明

图1是本发明的多尺度条件随机场模型的动作识别方法原理示意图；

图2是本发明的多尺度条件随机场模型的总体结构示意图；

图3是本发明的多尺度条件随机场模型在横向上的结构分布示意图；

图4是本发明的多尺度条件随机场模型在纵向上的结构分布示意图；

图5是本发明的多尺度条件随机场模型动作识别示意图。

具体实施方式

如图1所示，本发明是一种多尺度条件随机场模型的动作识别方法，通过多尺度特征提取方法提取人体运动的多尺度特征，然后建立多尺度条件随机场模型（Multi-scaleconditionrandomfieldmodel，MSCRF），再对建立的模型进行参数学习，最后利用多尺度条件随机场模型进行建模与识别。

以下以目标对象行人边“走路”边“挥手”为例来说明本发明的方法，具体按照以下步骤实施：

步骤1、多尺度特征描述

1.1）大尺度特征提取

设t时刻处运动人体的大尺度特征向量表示为：x_1，，t＝{x_c,y_c,v,θ}，其中的(x_c，y_c)表示人的质心位置，v表示人的运动速度大小，θ是本帧图像中的运动人体相对于第一帧图像中运动人体的角度。

大尺度特征表示的是运动轨迹相关的信息。

1.2）中尺度特征提取

中尺度是根据整个人体的体态信息进行建模，表示的是整个人体的运动效果，通过关注动态部位进行中尺度动作特征提取，具体过程如下：

设M_t(x,y)表示t时刻的人体运动目标图，则在一个运动周期T内的运动能量图为：

MEV (x, y) = \frac{1}{T} Σ_{t = 1}^{T} M_{t} (x, y), - - - (1)

根据得到的运动能量图，计算该运动序列的动态权值掩膜：

DWM (x, y) = \sqrt{\frac{1}{T} Σ_{t = 1}^{T} {[M_{t} (x, y) - MEV (x, y)]}^{2}}, - - - (2)

最后，得到该运动序列对应的运动权值模型序列x_2，t，作为中尺度特征：

x_2,t＝M_t(x,y)×DWM(x,y)；（3）

1.3）小尺度特征提取

小尺度是根据四肢和头的相对位置来进行建模，表示的是四肢的运动情况，设t时刻处运动人体的小尺度特征表示为：

x_{3, t} = {x_{c}^{1, l}, y_{c}^{1, l}, x_{c}^{1, r}, y_{c}^{1, r}, x_{c}^{2, l}, y_{c}^{2, l}, x_{c}^{2, r}, y_{c}^{2, r}, x_{c}^{3}, y_{c}^{3} {, d}_{1}, d_{2}, d_{3}, d_{4}}, - - - (4)

其中，和分别表示人的左手质心和右手质心的坐标，和分别表示左脚质心和右脚质心的坐标，表示头的质心的坐标位置，d₁表示左手质心到右手质心的距离，d₂表示左脚质心到右脚质心的距离，d₃表示左手质心到头质心的距离，d₄表示右手质心到头质心的距离。

步骤2、建立多尺度条件随机场模型

图2是本发明的多尺度条件随机场模型的结构，包含三层结构，分别对应着大、中、小三个尺度及各尺度间的关系。图3是对图2中3个尺度的分解图，可以看出每个尺度都是由一个条件随机场模型组成的。图4是对图2中不同尺度之间的关系结构的分解图。从图3及图4可以看出，图2给出的多尺度条件随机场模型结构能够对不同尺度上的动作进行建模，并且能够表示不同尺度上的动作之间的关系，从而可以对同一时刻存在着多种人体动作进行建模。图2、图3及图4中，x_1，t、x_2，t及x_3，t分别表示t时刻提取到的不同尺度上的特征值，y_1，t、y_2，t及y_3，t分别为对应的状态变量值，{f_k,g_k}分别表示给定的一个尺度内的状态转移特征函数和观察特征函数，{h_k，p_k，q_k}则表示两个尺度之间的状态转移特征函数和观察特征函数。

步骤3、建立多尺度条件随机场模型的表达式

设X＝{X₁,X₂,X₃}为提取出来的特征数据，其中X₁＝{x_1，1,x_1，2,…,x_1，t,…,x_1，T}、X₂＝{x_2，1，x_2,2,…,x_2，t，…,x_2,T}、X₃＝{x_3，1,x_3，2，…,x_3，t，…,x_3,T}分别表示大尺度、中尺度和小尺度上的特征数据；另外，Y＝{Y₁,Y₂,Y₃}表示三个尺度上对应的标记序列，其中的Y₁＝{y_1，1，...,y_1,T}、Y₂＝{y_2，1，...,y_2,T}、Y₃＝{y_3，1，...,y_3，T}，则所建立的多尺度条件随机场模型描述为：

P (Y | X) = \frac{1}{Z (X)} (Π_{t = 1}^{T - 1} Π_{l = 1}^{3} φ_{l, t} (y_{l, t}, y_{l, t + 1}, x_{l, t})) \times (Π_{t = 1}^{T - 1} Π_{l = 1}^{2} ψ_{l, t} (y_{l, t}, y_{l + 1, t}, x_{l, t}, x_{l + 1, t})), - - - (5)

φ_{l, t} (y_{l, t}, y_{l + 1, t}, x_{l}) = \exp {Σ_{k = 1}^{J} λ_{k} f_{k} (y_{l, t}, y_{l, t + 1}) + Σ_{k = 1}^{K} μ_{k} g_{k} (y_{l, t}, x_{l, t})}, - - - (6)

ψ_{l, t} (y_{l, t}, y_{l + 1, t}, x_{l, t}, x_{l + 1, t}) = \exp {Σ_{k = 1}^{L} α_{k} h_{k} (y_{l, t}, y_{l + 1, t}) + Σ_{k = 1}^{M} β_{k} p_{k} (y_{l, t}, x_{l + 1, t}) + Σ_{k = 1}^{N} γ_{k} q_{k} (y_{l + 1, t}, x_{l, t})}, - - - (7)

其中，{f_k,g_k}分别表示给定的一个尺度内的状态转移特征函数和观察特征函数，{h_k,p_k,q_k}则表示两个尺度之间的状态转移特征函数和观察特征函数，λ_k,μ_k,α_k,β_k,γ_k分别为f_k,g_k,h_k,p_k,q_k所对应的权重，f_k,g_k,h_k,p_k,q_k的算式如下：

f_{k} (y_{l, t}, y_{l, t + 1}) = \{\begin{matrix} 1 & if & y_{l, t} = s_{m}^{l} and y_{i, t + 1} = s_{n}^{l} \\ 0 & otherwise \end{matrix}, - - - (8)

g_{k} (y_{l, t}, x_{l, t}) = \{\begin{matrix} x_{l, t} (i) & if & y_{l, t} = s_{m}^{l} \\ 0 & otherwise \end{matrix}, - - - (9)

h_{k} (y_{l, t}, y_{l + 1, t}) = \{\begin{matrix} 1 & if & y_{l, t} = s_{m}^{l} and y_{i + 1, t} = s_{n}^{l + 1} \\ 0 & otherwise \end{matrix}, - - - (10)

p_{k} (y_{l, t}, x_{l + 1, t}) = \{\begin{matrix} x_{l + 1, t} (i) & if & y_{i, t} = s_{m}^{l} \\ 0 & otherwise \end{matrix}, - - - (11)

q_{k} (y_{l + 1, t}, x_{l, t}) = \{\begin{matrix} x_{l, t} (i) & if & y_{l + 1, t} = s_{n}^{l + 1} \\ 0 & otherwise \end{matrix}, - - - (12)

其中，是第l层的状态空间中的第m个状态的标记值，在这里第1层的状态空间包括了场景中的各个位置区域的标记，是大尺度上的状态标记；第2层的状态空间包括了整个人体意义上的动作类型，表示“走”，是中尺度上的状态标记；第3层的状态空间包括了四肢和头的绝对位置和相对位置情况，表示“挥手”。

步骤4、对多尺度条件随机场模型的参数进行学习

4.1）多尺度条件随机场模型中包含了5组特征函数{f_k,g_k,h_k,p_k,q_k}，以及所对应的5组需要学习的模型参数{λ_k,μ_k，α_k，β_k,γ_k}，所有的参数表达式为：

Λ＝{λ₁,...λ_J,,μ1,...μ_K，,α₁,...α_L，,β₁,...β_M，,γ₁,...γ_N，}；（13）

4.2）对式（13）所示的多尺度条件随机场模型参数，采用训练样本进行学习。设(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,…,J)是输入的用于训练模型参数的特征数据和对应的标记序列对，采用式（5）的对数形式，得到如下的对数似然度（log-likelihood）函数，作为学习时的目标函数：

L (Λ) = Σ_{i = 1}^{J} \log P (Y^{(i)} | X^{(i)}) - Σ_{k = 1}^{K} \frac{Λ_{k}^{2}}{2 σ^{2}}; - - - (14)

其中是惩罚因子，σ²为高斯先验方差，

对于式（14），使用L-BFGS方法来求解这个大规模无约束问题，所得到的参数集Λ就是要学习的最终模型参数。

4.3）对每种动作类型都建立一个多尺度的条件随机场模型，如图2所示，并进行参数学习。

步骤5、进行动作识别。

如图5所示，首先获取各种动作的运动视频序列；

再根据步骤1中的方法提取待识别动作的多尺度特征数据X；

最后利用学习到的每种动作类型的模型参数Λ⁽ⁱ⁾和多尺度特征数据X，按照式（5）计算待识别的动作的条件概率，设对第i(i＝1,2,…,C)种动作类型（其对应的参数为Λ⁽ⁱ⁾），计算得到的条件概率为：P(Y⁽ⁱ⁾|X,Λ⁽ⁱ⁾)，若P(Y⁽ⁱ⁾|X，Λ⁽ⁱ⁾)是这些条件概率中的最大值，即如式（15）所示：

则待识别的动作类型确定为第i种动作。

Claims

1.一种多尺度条件随机场模型的动作识别方法，其特征在于，该方法按照以下步骤实施：

步骤1、多尺度特征描述

通过大、中、小三个尺度特征，进行提取人体运动的多尺度特征；

步骤2、建立多尺度条件随机场模型

多尺度条件随机场模型的结构包含三层结构，分别对应着大、中、小三个尺度及各尺度间的关系，设x_1,t、x_2,t及x_3,t分别表示t时刻提取到的不同尺度上的特征值，y_1,t、y_2,t及y_3,t分别为对应的状态变量值，{f_k,g_k}分别表示给定的一个尺度内的状态转移特征函数和观察特征函数，{h_k,p_k,q_k}则表示两个尺度之间的状态转移特征函数和观察特征函数；

步骤3、建立多尺度条件随机场模型的表达式

设X＝{X₁,X₂,X₃}为提取出来的特征数据，其中X₁＝{x_1,1,x_1,2,…,x_1,t,…,x_1,T}、X₂＝{x_2,1,x_2,2,…,x_2,t,…,x_2,T}、X₃＝{x_3,1,x_3,2,…,x_3,t,…,x_3,T}分别表示大尺度、中尺度和小尺度上的特征数据；另外，Y＝{Y₁,Y₂,Y₃}表示大、中、小三个尺度上对应的标记序列，其中的Y₁＝{y_1,1,...,y_1,T}、Y₂＝{y_2,1,...,y_2,T}、Y₃＝{y_3,1,...,y_3,T}，则所建立的多尺度条件随机场模型描述为：

其中，是第l层的状态空间中的第m个状态的标记值，是第l层的状态空间中的第n个状态的标记值，在这里第1层的状态空间包括了场景中的各个位置区域的标记，是大尺度上的状态标记；第2层的状态空间包括了整个人体意义上的动作类型，表示“走”，是中尺度上的状态标记；第3层的状态空间包括了四肢和头的绝对位置和相对位置情况，表示“挥手”；

步骤4、对多尺度条件随机场模型的参数进行学习

4.1)多尺度条件随机场模型中包含了5组特征函数{f_k,g_k,h_k,p_k,q_k}，以及所对应的5组需要学习的模型参数{λ_k,μ_k,α_k,β_k,γ_k}，所有的参数表达式为：

Λ＝{λ₁,...,λ_J,μ₁,...,μ_K,α₁,...,α_L,β₁,...,β_M,γ₁,...,γ_N}；(13)

4.2)对式(13)所示的多尺度条件随机场模型参数，采用训练样本进行学习，

设(X⁽ⁱ⁾,Y⁽ⁱ⁾)(i＝1,2,…,J)是输入的用于训练模型参数的特征数据和对应的标记序列对，采用式(5)的对数形式，得到如下的对数似然度函数，作为学习时的目标函数：

其中是惩罚因子，σ²为高斯先验方差，

对于式(14)，使用L-BFGS方法来求解这个大规模无约束问题，所得到的参数集Λ就是要学习的最终模型参数；

4.3)对每种动作类型都建立一个多尺度的条件随机场模型，并进行参数学习，

设共有C种动作类型，则按照式(13)对第i(i＝1,2,…,C)种动作类型采用步骤4.2)进行学习，则得到学习后的模型参数，记为Λ⁽ⁱ⁾；

步骤5、进行动作识别

首先获取各种动作的运动视频序列；

再根据步骤1中的方法提取待识别动作的多尺度特征数据X；

最后利用学习到的每种动作类型的模型参数Λ⁽ⁱ⁾和多尺度特征数据X，按照式(5)计算待识别的动作的条件概率，设对第i(i＝1,2,…,C)种动作类型，其对应的参数为Λ⁽ⁱ⁾，计算得到的条件概率为：P(Y⁽ⁱ⁾|X,Λ⁽ⁱ⁾)，若P(Y⁽ⁱ⁾|X,Λ⁽ⁱ⁾)是这些条件概率中的最大值，即如式(15)所示：

P(Y⁽ⁱ⁾|X,Λ⁽ⁱ⁾)＝max{P(Y⁽¹⁾|X,Λ⁽¹⁾),P(Y⁽²⁾|X,Λ⁽²⁾),…,P(Y^(C)|X,Λ^(C))}，(15)

则待识别的动作类型确定为第i种动作。

2.根据权利要求1所述的多尺度条件随机场模型的动作识别方法，其特征在于，所述的步骤1中的三个尺度特征提取过程是：

1.1)大尺度特征提取

设t时刻处运动人体的大尺度特征向量表示为：x_1,t＝{x_c,y_c,v,θ}，其中的(x_c,y_c)表示人的质心位置，v表示人的运动速度大小，θ是本帧图像中的运动人体相对于第一帧图像中运动人体的角度；

1.2)中尺度特征提取

根据得到的运动能量图，计算该运动序列的动态权值掩膜：

最后，得到该运动序列对应的运动权值模型序列x_2,t，作为中尺度特征：

x_2,t＝M_t(x,y)×DWM(x,y)；(3)

1.3)小尺度特征提取