CN103136730A

CN103136730A - 视频图像中内容的光流和轮廓特征动态结构融合方法

Info

Publication number: CN103136730A
Application number: CN2013100304017A
Authority: CN
Inventors: 蔺广逢; 朱虹; 范引娣; 张二虎; 缪亚林; 康晓兵
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2013-01-25
Filing date: 2013-01-25
Publication date: 2013-06-05
Anticipated expiration: 2033-01-25
Also published as: CN103136730B

Abstract

本发明公开了一种视频图像中内容特征动态结构融合方法，采用空间分布直方图特征描述光流和轮廓，提取各自特征序列的动态模型的不变参数构建动态特征，然后通过子空间度量的方法求出各自的结构表征，最后通过广义矩阵分解的方法求得融合结构，得出分类判别能力强的特征表征，获得了分类判别能力强的特征表征，解决了现有的方法无法进行特征的动态结构融合，无法准确的表征特定内容特征的问题。

Description

视频图像中内容的光流和轮廓特征动态结构融合方法

技术领域

本发明属于视频监控图像处理技术领域，涉及一种视频图像中内容的光流和轮廓特征动态结构融合方法。

背景技术

近年来，基于内容分析的智能监控系统、视频检索、运动分析和高级人机交互的应用越来越多，要智能分析和识别目标，特征表征与认知是需要解决的关键问题，因为视频图像中特定内容的光流和轮廓表征的序列中的动态性和多样性，使得单一特征表征不充分，序列动态特征和结构融合难以描述和获取，不能显现特征的分辨特性，对于这种情况当前的方法无法进行特征的动态结构融合，进而无法更加准确的表征特定内容的特征。

发明内容

本发明的目的是提供一种视频图像中内容的光流和轮廓特征动态结构融合方法，以解决现有的方法无法进行特征的动态结构融合，无法准确的表征特定内容特征的问题。

本发明所采用的技术方案是，视频图像中内容特征动态结构融合方法，采用空间分布直方图特征描述光流和轮廓，提取各自特征序列的动态模型的不变参数构建动态特征，然后通过子空间度量的方法求出各自的结构表征，最后通过广义矩阵分解的方法求得融合结构，得出分类判别能力强的特征表征。

本发明的特点还在于，具体按照以下步骤实施：

步骤1，特定内容的光流和轮廓特征描述

设I(x,y)为图像在点(x,y)处的像素值，其中，x和y分别表示点的横纵坐标，令有光流矢量起点坐标的图像像素值为1，有轮廓坐标的图像像素值为1，其它图像的像素值为0；

令c(x_c,y_c)为图像的重心，x_c和y_c分别是重心的横纵坐标，

x_{c} = \frac{\underset{x}{Σ} \underset{y}{Σ} x \times I (x, y)}{\underset{x}{Σ} \underset{y}{Σ} I (x, y)} - - - (1)

y_{c} = \frac{\underset{x}{Σ} \underset{y}{Σ} y \times I (x, y)}{\underset{x}{Σ} \underset{y}{Σ} I (x, y)} - - - (2)

特征表征为光流或轮廓空间点分布的特征，以距离重心c(x_c,y_c)最远光流或轮廓上非零信息点的欧氏距离为半径形成轮廓外接圆，外接圆的中心在重心c(x_c,y_c)上，以c(x_c,y_c)建立极坐标，在角度上分18等份，径向上分等5份，在外接圆上会形成90个区域，统计在每个区域上的非零信息点个数，根据角度从小到大和径向距离从小到大形成90维的向量，统计的起点为极坐标角度为0方向，光流或轮廓分别表征为90维的特征向量f₁和f₂；

步骤2，光流和轮廓特征序列动态特征获取

（2.1）光流特征序列为{f₁(t)}1<t<τ，τ为视频序列的帧数，t为序列数；

对光流特征序列进行奇异值分解得下式，

[f_{1} (1), f_{1} (2), . . ., f_{1} (τ)] = U_{1} S_{1} V_{1}^{T} - - - (3)

其中，U₁、V₁和S₁分别为式（3）左边奇异值分解的行正交矩阵、列正交矩阵和对角矩阵；

C₁=U₁ （4）

A_{1} = S_{1} {V_{1}}^{T} D_{11} V_{1} {({V_{1}}^{T} D_{12} V_{1})}^{- 1} S_{1}^{- 1} - - - (5)

其中，C₁和A₁分别为光流特征序列的测量矩阵和转换矩阵，D₁₁=[00;I_τ-10]，D₁₂=[I_τ-10;00]，I_τ-1为τ-1维单位矩阵；

则光流特征的序列动态特征为

，

O_{1}^{T} = [{C_{1}}^{T}, {(C_{1} A_{1})}^{T}, {(C_{1} {A_{1}}^{2})}^{T}, {(C_{1} {A_{1}}^{3})}^{T}, {(C_{1} {A_{1}}^{4})}^{T}, {(C_{1} {A_{1}}^{5})}^{T}] - - - (6);

（2.2）轮廓特征序列为{f₂(t)}1<t<τ，τ为视频序列的帧数，t为序列数；

对轮廓特征序列进行奇异值分解得下式，

[f_{2} (1), f_{2} (2), . . ., f_{2} (τ)] = U_{2} S_{2} V_{2}^{T} - - - (7)

其中，U₂、V₂和S₂分别为式（7）左边奇异值分解的行正交矩阵、列正交矩阵和对角矩阵；

C₂=U₂ （8）

A_{2} = S_{2} {V_{2}}^{T} D_{21} V_{2} {({V_{2}}^{T} D_{22} V_{2})}^{- 1} S_{2}^{- 1} - - - (9)

其中，C₂和A₂分别为轮廓特征序列的测量矩阵和转换矩阵，D₂₁=[00;I_τ-10]，D₂₂=[I_τ-10;00]，I_τ-1为τ-1维单位矩阵；

则轮廓特征的序列动态特征为

，

O_{2}^{T} = [{C_{2}}^{T}, {(C_{2} A_{2})}^{T}, {(C_{2} {A_{2}}^{2})}^{T}, {(C_{2} {A_{2}}^{3})}^{T}, {(C_{2} {A_{2}}^{4})}^{T}, {(C_{2} {A_{2}}^{5})}^{T}] - - - (10);

步骤3，动态特征结构的度量

设视频数据集的数目为m，

为光流的序列动态特征集，其中，

为

的第m段视频序列的光流特征的序列动态特征；

为轮廓的序列动态特征集，其中，

为

的第m段视频序列的轮廓特征的序列动态特征；

（3.1）对光流特征的序列动态特征度量，设

为

和的距离，

和

两个子空间的标准正交基为T1_i={t1_i1,t1_i2,...,t1_i5}和R1_j={r1_j1,r1_j2,...,r1_j5}，则有

d 1 (O_{1 i}^{T}, O_{1 j}^{T}) = {| | {B 1}_{{T 1}_{i}} - {B 1}_{{R 1}_{j}} | |}_{2} - - - (11)

其中，

{B 1}_{{T 1}_{i}} = {[{t 1}_{i 1}, {t 1}_{i 2}, . . ., {t 1}_{i 5}] \times [{t 1}_{i 1}, {t 1}_{i 2}, . . ., {t 1}_{i 5}]}^{T},

{B 1}_{{R 1}_{j}} = {[{r 1}_{j 1}, {r 1}_{j 2}, . . ., {r 1}_{j 5}] \times [{r 1}_{j 1}, {r 1}_{j 2}, . . ., {r 1}_{j 5}]}^{T};

（3.2）对轮廓特征的序列动态特征度量，设

为

和的距离，

和

两个子空间的标准正交基为T2_i={t2_i1,t2_i2,...,t2_i5}和R2_j={r2_j1,r2_j2,...,r2_j5}，则有

d 2 (O_{2 i}^{T}, O_{2 j}^{T}) = {| | {B 2}_{{T 2}_{i}} - {B 2}_{{R 2}_{j}} | |}_{2} - - - (12)

其中，

{B 2}_{{T 2}_{i}} = {[{t 2}_{i 1}, {t 2}_{i 2}, . . ., {t 2}_{i 5}] \times [{t 2}_{i 1}, {t 2}_{i 2}, . . ., {t 2}_{i 5}]}^{T},

{B 2}_{{R 2}_{j}} = {[{r 2}_{j 1}, {r 2}_{j 2}, . . ., {r 2}_{j 5}] \times [{r 2}_{j 1}, {r 2}_{j 2}, . . ., {r 2}_{j 5}]}^{T};

步骤4，动态特征结构融合映射

定义

P 1 = {O_{11}^{T}, O_{12}^{T}, . . ., O_{1 m}^{T}}

和

P 2 = {O_{21}^{T}, O_{22}^{T}, . . ., O_{2 m}^{T}}

特征结构测度相似矩阵，以步骤3计算度量的相似矩阵为W1={W1_i,j}和W2={W2_i,j}(i=1,2,...,m j=1,2,...,m)如下式：

{W 1}_{i, j} = \{\begin{matrix} e^{- d 1 (O_{1 i}^{T}, O_{1 j}^{T})} \\ 0 \end{matrix} - - - (13)

当

时，

和

是近邻，当W1_i,j=0时，和

不是近邻；

{W 2}_{i, j} = \{\begin{matrix} e^{- d 2 (O_{2 i}^{T}, O_{2 j}^{T})} \\ 0 \end{matrix} - - - (14)

当

时，

和

是近邻，当W2_i,j=0时，和

不是近邻；

P = [\begin{matrix} P 1 \\ P 2 \end{matrix}] = [p_{1}, p_{2}, . . ., p_{m}] - - - (15)

其中，

p_{i} = [\begin{matrix} O_{1 i}^{T} \\ O_{2 i}^{T} \end{matrix}];

W_i,j=W1_i,j+W2_i,j （16）

其中，W_i,j为W矩阵在i行j列的元素；

可以通过以下两式求解，

(D_U-W_U)v=λD_Uv （17）

(D_V-W_V)u=λD_Vu （18）

其中，

D_{U} = \underset{i}{Σ} D_{ii} p_{i} {UU}^{T} p_{i}^{T},

D_{ii} = \underset{j}{Σ} W_{ij},

W_{U} = \underset{i, j}{Σ} W_{ij} p_{i} {UU}^{T} p_{i}^{T},

D_{V} = \underset{i}{Σ} D_{ii} p_{i} {VV}^{T} p_{i}^{T},

v为求解式（17）最小的d个广义特征值λ₁<λ₂<...<λ_d对应的特征向量v₁,v₂,...,v_d，u为求解式（18）最小的d个广义特征值λ₁<λ₂<...<λ_d对应的特征向量u₁,u₂,...,u_d；

求解U和V矩阵过程如下：

①设U为单位矩阵，求解式（17）最小的d个广义特征值λ₁<λ₂<...<λ_d对应的特征向量v₁,v₂,...,v_d，则

V=[v₁,v₂,...,v_d] （19）

②将V带入式（18），求解最小的d个广义特征值λ₁<λ₂<...<λ_d对应的特征向量u₁,u₂,...,u_d，则

U=[u₁,u₂,...,u_d] （20）

再将U带入式（17）求解，重复以上①和②过程20次，最终求得U和V矩阵；

最终结构融合的特征为Y，

Y=U^TPV （21）。

本发明的有益效果是，通过本发明的针对视频图像中特定内容对象，分别描述光流和轮廓特征，在各自的特征序列上获取动态模型的不变参数组成特征向量空间，然后通过子空间度量的方法求出各自的结构表征，最后通过广义矩阵分解的方法求得融合结构，得出分类判别能力强的特征表征的方法，获得了分类判别能力强的特征表征，解决了现有的方法无法进行特征的动态结构融合，无法准确的表征特定内容特征的问题。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

本发明提供了一种视频图像中内容特征动态结构融合方法，采用空间分布直方图特征描述光流和轮廓，提取各自特征序列的动态模型的不变参数构建动态特征，然后通过子空间度量的方法求出各自的结构表征，最后通过广义矩阵分解的方法求得融合结构，得出分类判别能力强的特征表征，按照以下步骤实施：

步骤1，特定内容的光流和轮廓特征描述

光流和轮廓特征表征有多种方法，能充分表现空间点分布的特征为光流矢量起点和轮廓点分布直方图，因为其在特征描述时不仅考虑到相对距离，还考虑到了相关角度和空间位置分布信息。

令c(x_c,y_c)为图像的重心，x_c和y_c分别是重心的横纵坐标：

x_{c} = \frac{\underset{x}{Σ} \underset{y}{Σ} x \times I (x, y)}{\underset{x}{Σ} \underset{y}{Σ} I (x, y)} - - - (1)

y_{c} = \frac{\underset{x}{Σ} \underset{y}{Σ} y \times I (x, y)}{\underset{x}{Σ} \underset{y}{Σ} I (x, y)} - - - (2)

特征表征为光流或轮廓空间点分布的特征，以距离重心c(x_c,y_c)最远光流或轮廓上非零信息点的欧氏距离为半径形成轮廓外接圆，外接圆的中心在重心c(x_c,y_c)上，以c(x_c,y_c)建立极坐标，在角度上分18等份，径向上分等5份。在外接圆上会形成90个区域，统计在每个区域上的非零信息点个数，根据角度从小到大和径向距离从小到大形成90维的向量，统计的起点为极坐标角度为0方向。光流或轮廓分别表征为90维的特征向量f₁和f₂。为了保证尺度不变，向量除以向量的均值来归一化。因为参考点在光流或轮廓的非零信息点上，所以特征具有天然的平移不变性。

步骤2，光流和轮廓特征序列动态特征获取

（2.1）光流特征序列为{f₁(t)}1<t<τ，τ为视频序列的帧数，t为序列数，

对光流特征序列进行奇异值分解得下式，

[f_{1} (1), f_{1} (2), . . ., f_{1} (τ)] = U_{1} S_{1} V_{1}^{T} - - - (3)

其中，U₁、V₁和S₁分别为式（3）左边奇异值分解的行正交矩阵、列正交矩阵和对角矩阵;

C₁=U₁ （4）

A_{1} = S_{1} {V_{1}}^{T} D_{11} V_{1} {({V_{1}}^{T} D_{12} V_{1})}^{- 1} S_{1}^{- 1} - - - (5)

其中，D₁₁=[00;I_τ-10]，D₁₂=[I_τ-10;00]，I_τ-1为τ-1维单位矩阵，C₁和A₁分别为光流特征序列的测量矩阵和转换矩阵，

则光流特征的序列动态特征为

O_{1}^{T} = [{C_{1}}^{T}, {(C_{1} A_{1})}^{T}, {(C_{1} {A_{1}}^{2})}^{T}, {(C_{1} {A_{1}}^{3})}^{T}, {(C_{1} {A_{1}}^{4})}^{T}, {(C_{1} {A_{1}}^{5})}^{T}] - - - (6);

（2.2）轮廓特征序列为{f₂(t)}1<t<τ，τ为视频序列的帧数，t为序列数，对轮廓特征序列进行奇异值分解得下式，

[f_{2} (1), f_{2} (2), . . ., f_{2} (τ)] = U_{2} S_{2} V_{2}^{T} - - - (7)

其中U₂、V₂和S₂分别为式（7）左边奇异值分解的行正交矩阵、列正交矩阵和对角矩阵；

C₂=U₂ （8）

A_{2} = S_{2} {V_{2}}^{T} D_{21} V_{2} {({V_{2}}^{T} D_{22} V_{2})}^{- 1} S_{2}^{- 1} - - - (9)

其中，D₂₁=[00;I_τ-10]，D₂₂=[I_τ-10;00]，I_τ-1为τ-1维单位矩阵，C₂和A₂分别为轮廓特征序列的测量矩阵和转换矩阵，

则轮廓特征的序列动态特征为

O_{2}^{T} = [{C_{2}}^{T}, {(C_{2} A_{2})}^{T}, {(C_{2} {A_{2}}^{2})}^{T}, {(C_{2} {A_{2}}^{3})}^{T}, {(C_{2} {A_{2}}^{4})}^{T}, {(C_{2} {A_{2}}^{5})}^{T}] - - - (10);

步骤3，动态特征结构的度量

当一个视频数据集的数目为m时，

为光流的序列动态特征集，其中

为

的第m段视频序列的光流特征的序列动态特征；

为轮廓的序列动态特征集，其中

为

的第m段视频序列的轮廓特征的序列动态特征；因为P1和P2分别为向量空间的集合，所以各特征集的内在结构通过向量空间的距离进行度量；

（3.1）对光流特征的序列动态特征度量，设

为

和

的距离，

和

d 1 (O_{1 i}^{T}, O_{1 j}^{T}) = {| | {B 1}_{{T 1}_{i}} - {B 1}_{{R 1}_{j}} | |}_{2} - - - (11)

其中，

{B 1}_{{T 1}_{i}} = {[{t 1}_{i 1}, {t 1}_{i 2}, . . ., {t 1}_{i 5}] \times [{t 1}_{i 1}, {t 1}_{i 2}, . . ., {t 1}_{i 5}]}^{T},

{B 1}_{{R 1}_{j}} = {[{r 1}_{j 1}, {r 1}_{j 2}, . . ., {r 1}_{j 5}] \times [{r 1}_{j 1}, {r 1}_{j 2}, . . ., {r 1}_{j 5}]}^{T};

（3.2）对轮廓特征的序列动态特征度量，设

为和

的距离，

和

d 2 (O_{2 i}^{T}, O_{2 j}^{T}) = {| | {B 2}_{{T 2}_{i}} - {B 2}_{{R 2}_{j}} | |}_{2} - - - (12)

其中，

{B 2}_{{T 2}_{i}} = {[{t 2}_{i 1}, {t 2}_{i 2}, . . ., {t 2}_{i 5}] \times [{t 2}_{i 1}, {t 2}_{i 2}, . . ., {t 2}_{i 5}]}^{T},

{B 2}_{{R 2}_{j}} = {[{r 2}_{j 1}, {r 2}_{j 2}, . . ., {r 2}_{j 5}] \times [{r 2}_{j 1}, {r 2}_{j 2}, . . ., {r 2}_{j 5}]}^{T};

步骤4，动态特征结构融合映射

定义

P 1 = {O_{11}^{T}, O_{12}^{T}, . . ., O_{1 m}^{T}}

和

P 2 = {O_{21}^{T}, O_{22}^{T}, . . ., O_{2 m}^{T}}

{W 1}_{i, j} = \{\begin{matrix} e^{- d 1 (O_{1 i}^{T}, O_{1 j}^{T})} \\ 0 \end{matrix} - - - (13)

当时，和

是近邻，当W1_i,j=0时，

和

不是近邻；

{W 2}_{i, j} = \{\begin{matrix} e^{- d 2 (O_{2 i}^{T}, O_{2 j}^{T})} \\ 0 \end{matrix} - - - (14)

当时，

和

是近邻，当W2_i,j=0时，

和不是近邻；

P = [\begin{matrix} P 1 \\ P 2 \end{matrix}] = [p_{1}, p_{2}, . . ., p_{m}] - - - (15)

其中，

p_{i} = [\begin{matrix} O_{1 i}^{T} \\ O_{2 i}^{T} \end{matrix}]

W_i,j=W1_i,j+W2_i,j （16）

其中，W_i,j为W矩阵在i行j列的元素；

可以通过以下两式求解，

(D_U-W_U)v=λD_Uv （17）

(D_V-W_V)u=λD_Vu （18）

其中，

D_{U} = \underset{i}{Σ} D_{ii} p_{i} {UU}^{T} p_{i}^{T},

D_{ii} = \underset{j}{Σ} W_{ij},

W_{U} = \underset{i, j}{Σ} W_{ij} p_{i} {UU}^{T} p_{i}^{T},

D_{V} = \underset{i}{Σ} D_{ii} p_{i} {VV}^{T} p_{i}^{T},

求解U和V矩阵过程如下：

①最初设U为单位矩阵，求解式（17）最小的d个广义特征值λ₁<λ₂<...<λ_d对应的特征向量v₁,v₂,...,v_d，则

V=[v₁,v₂,...,v_d] （19）

②带入求解式（18）最小的d个广义特征值λ₁<λ₂<...<λ_d对应的特征向量u₁,u₂,...,u_d，则

U=[u₁,u₂,...,u_d] （20）

再带入求解式（17），重复以上①和②过程20次，最终求得U和V矩阵。

最终结构融合的特征为Y，

Y=U^TPV （21）。

本发明的方法首先通过全局建立相对极坐标和局部统计计数，对人体动作空间分布进行描述，获取了各个轮廓以及光流特征的空间结构，然后利用ARMA（自回归滑动平均）对各个特征的空间分布特征时序建立模型，分别获得模型参数特征，最后对模型参数计算动作相似矩阵，对相似矩阵关系进行线性假设，建立统一的融合优化式，求取结构融合参数，识别时直接利用融合后的映射特征进行最近邻分类。

Weizmann人体动作数据库是被广泛应用到人体动作识别中的数据库之一，这个数据库包含了9个人执行的10个动作类（bend,jack,jump,pjump,run,side,skip,walk,wave1和wave2），一共93个视频序列。

参见表1，可看出本发明的方法在Weizmann人体动作数据库中的识别率达到了100%，高于现有的方法，即使对于容易混淆的jump和skip，仍然具有很好的识别精度，虽然这些动作在表面轮廓特征表征时很相近，但是运动光流特征和动态建模取得的时间结构有较大差异，所以本发明的方法达到了很好的识别率。

表1Weizmann数据库中不同特征的人体动作ARMA动态建模识别结果