CN1352439A

CN1352439A - 对象行为建模方法

Info

Publication number: CN1352439A
Application number: CN01122631A
Authority: CN
Inventors: 崔良林; 刘允柱; 班加洛尔·S·曼朱纳思; 孙信鼎; 陈清威
Original assignee: Samsung Electronics Co Ltd; University of California
Current assignee: Samsung Electronics Co Ltd; University of California
Priority date: 2000-11-14
Filing date: 2001-06-26
Publication date: 2002-06-05
Anticipated expiration: 2021-06-26
Also published as: CN1200397C

Abstract

提供一种能够为比如人体之类的复杂对象有效地建模的对象行为建模方法。该对象行为建模方法包括步骤:(a)从视频序列中获取光流向量;(b)使用该光流向量,获取多个视频帧的特征向量的概率分布;(c)使用该特征向量的概率分布,进行状态建模;以及(d)基于状态变换,表达视频序列中对象的行为。根据该建模方法,在视频索引和识别领域,不用分割对象就可以有效地对比如人类活动之类的复杂行为进行建模并识别。

Description

对象行为建模方法

本发明涉及对象行为建模方法，具体地说，涉及一种有效分析诸如人类行为的复杂对象的行为的对象行为方法。本发明还涉及一种使用由对象行为建模方法建模的对象行为模型、识别视频序列中对象的行为或事件的对象行为识别方法。

包括坐、走、起立或转圈的人类行为能够使用摄像机捕获并存储为数字视频。在获取该数字视频之后，可以分析该数字视频的内容。例如，使用基于训练数据的随机模型能够刻画数字视频的行为的时间和空间特征。这些模型能够用于匹配提供的用于模式识别的视频序列和数据库视频。在模式分析之后，即能够使用这些模式从语义上索引视频。同样，在该处理中，能够获得视频内容的语义归纳。

传统的对象行为分析方法可以分为两类。在第一种分析方法中，将一个为分析行为而设计的装置附着在人体上并用于行为分析。在第二种分析方法中，将对象的几何特征或图像用于行为分析。但是，在第一种方法中，由于所述装置必须附着在人体上，所以该附着在人体上的装置限制了人的活动。同样，在第二种方法中，必需从视频中分割各单个对象。但是，在许多情况下，各单个对象不能从视频中精确分割。特别是，将第二种分析方法应用到比如不能方便地分割的人体的复杂对象是非常困难的。

为了解决上述问题，本发明的一个目的是提供一种能够为比如人体的复杂对象建模的对象行为建模方法。

本发明的另一个目的是提供一种使用通过对象行为建模方法建模的行为模型的、对象行为识别方法。

为了实现本发明的上述目的，提供一种对象行为建模方法，包括下列步骤：(a)从视频序列中获取光流向量；(b)使用该光流向量，获取多个视频帧的特征向量的概率分布；(c)使用该特征向量的概率分布，进行状态建模；以及(d)基于状态变换，表达视频序列中对象的行为。

最好步骤(a)基于仿射运动估计。

最好步骤(a)还包括子步骤：(a-1)将输入视频帧分组为多个视频帧组，并将每一个视频帧组划分为独立状态；(a-2)为每一独立状态的视频帧组中的每一视频获取仿射运动参数；以及(a-3)从仿射运动参数中获取光流向量。

最好步骤(a-2)包括以下步骤，当I表示强度、t表示时间、x表示像素位置(x，y)、V表示运动向量时，使给定视频中的、基于表达为I_t(x)＝I_t-1(x-V(x))的对象上的像素强度的差的平方和∑(I_t(x)-I_t-1(x-V(x)))²最小的参数确定为运动参数。

最好，步骤(b)包括步骤：按照下式计算概率分布P(Z|Ω)：

P (Z | Ω) = \frac{\exp (- \frac{1}{2} {(Z - m)}^{T}) Q^{- 1} (Z - m))}{{(2 π)}^{N} {| Q |}^{1 / 2}}

其中P＝(p₁，p₂，…p_d)表示在每一像素位置(x，y)计算的运动向量，L表示在一个视频帧或感兴趣的区域中的像素数目，d表示维数，d×L维向量的特征向量Z为Z＝(p¹ ₁，p² ₁，...，p^L ₁，p¹ ₂，p² ₂，...，p^L ₂，p¹ _d，p² _d，...，p^L _d)^T，m为特征向量Z的平均向量，Q为特征向量Z的协方差矩阵，并假定特征向量Z是从观测分类(observation class)Ω提供的。

最好步骤(b)还包括步骤：按照下式分解协方差矩阵Q：

Q＝φ∧φ^T

其中

等于Z-m，φ的列为协方差矩阵Q的正交特征值，A相应于对角特征值；以及按照下式计算概率分布P(Z|Ω)：

P (Z | Ω) = [\frac{\exp (- \frac{1}{2} Σ_{i}^{M} y_{i}^{2} / α_{i})}{{(2 π)}^{M} {| Λ |}^{1 / 2}}] [\frac{\exp {(- \frac{1}{2} Σ_{M + 1}^{N} y_{i}^{2} / 2 ρ)}_{i}}{{(2 πρ)}^{(N - M) / 2}}]

其中M为主要元素的数量，y_i为Y的第i个元素，α_i为Q的第i个特征值，ρ为通过获得的最优值，并假定特征向量Z是从观测分类Ω提供的。

最好在步骤(c)中，视频序列中的对象行为基于状态变换使用隐含马尔可夫模型(HMM)表达。

最好隐含马尔可夫模型(HMM)表达为λ＝{Ξ，А，В，∏}，其中N为可能状态的数量，Ξ满足Ξ＝{q₁，q₂，...q_N}，A为隐含状态i和j之间的变换{a_ij}，B为相应于状态j的观测符号概率{b_j(.)}，∏为初始状态分布，并且状态Ξ＝{q₁，q₂，...q_N}，和初始状态分布∏是基于视频数据事先确定的。

为了实现本发明的另一个目的，提供一种对象行为识别方法，包括步骤：(a)通过运动估计获取视频帧的特征向量；(b)使用获取的特征向量确定每一帧所属的状态；以及(c)使用用于确定的状态的变换矩阵，确定使行为模型和从给定的行为模型字典中提供的视频帧之间的概率最大的行为模型，作为所识别的行为。

通过以下借助附图对优选实施例的详细描述，本发明的上述目的和优点将变得更加清楚，其中：

图1为表示根据本发明的实施例的对象行为建模方法的主要步骤的流程图；

图2A为表示在训练前一个行为的隐含马尔可夫模型(HMM)的示例图，其中一个人开始站起来，但是又返回坐下位置；

图2B为表示在训练后一个行为的隐含马尔可夫模型(HMM)的示例图，其中一个人开始站起来，但是又返回坐下位置；和

图3为表示根据本发明的实施例的对象行为识别方法的主要步骤的流程图。

下面将参照附图详细描述本发明的实施例。本发明不仅限于下面的这些实施例，在本发明的构思和范围内可以对其进行多种改变。提供本发明的实施例仅用于向本领域的技术人员更加完整地解释本发明。

图1为表示根据本发明的实施例的对象行为建模方法的主要步骤的流程图。由于所有类型的对象行为都可以阐释为经历不同类型的运动的变化的对象，所以最好将行为认为是关于该对象的运动分布。因此，在本发明中，基于运动分布对人的行为进行建模。在本发明中，使用基于模型的运动估计替代精确的运动估计。

参照图1，在根据本发明的实施例的对象行为建模方法中，首先，在步骤102，将通过手动操纵的状态模型选择输入的视频帧分组为多个视频帧组，并将每一个分组的视频帧组划分为独立状态。

在步骤104，通过仿射运动估计为每一独立状态的视频帧组中的每一视频获取仿射运动参数。这里，当I表示强度、t表示时间、x表示像素位置(x，y)、V表示运动向量时，运动估计基于对象上的像素强度，像素强度表示为下面的公式1：

I_t(x)＝I_t-1(x-V(x)) ……(1)

也就是说，在给定区域中，将使差的平方和∑(I_t(x)-I_t-1(x-V(x)))²最小的参数估计为运动参数。

在基于模型的运动估计中，如果对象的尺寸比摄像机和对象之间的距离小很多，则可以使用仿射模型近似对象的运动。如果使用局部窗口表示视频中的每一点，比如，用5×5的像素尺寸窗口，则可以使用仿射模型参数近似运动。仿射模型用公式2表达：

V(x，y)＝ψ(x，y)K ……(2)

这里，(x，y)表示对象上任意一点的坐标，w(x，y)＝(u(x，y)，W(x，y))^T为运动向量，K＝(k₁，k₂，k₃，k₄，k₅，k₆)为仿射模型参数，。同时，应注意k₁和k₄相应于正交移动，而k₂、k₃、k₅和k₆相应于表面的变形。此时，如果忽略k₂、k₃、k₅和k₆，则运动向量V可以表达为V＝(k₁，k₄)^T。该运动向量V＝(k₁，k₄)^T是典型的光流向量。从而，在步骤106中，可以从仿射运动参数中获得光流向量。

下面考虑在每一像素位置(x，y)上计算的运动向量P＝(p₁，p₂，…P_d)。比如，P可以为6维(6-D)的仿射运动参数或2-D的光流向量。当L表示在一个视频帧或感兴趣的区域中的像素数目，d表示维数时，仿射运动参数可以用下面的公式3表示：

Z＝(p¹ ₁，p² ₁，…，p^L ₁，p¹ ₂，p² ₂，…，p^L ₂，p¹ _d，p² _d，…，p^L _d)^T ……(3)

即，由仿射运动向量或光流向量构成的特征向量Z可以表示为d×L维向量。使用该方法，在步骤108，从光流向量获得特征向量Z。

同时，可以使用高斯函数模拟特征向量Z。此时，将高斯函数的平均值称作m，用矩阵表达的特征向量Z的协方差矩阵称作Q。如果特征向量Z从观测分类Ω提供，则按照下面的公式4计算概率分布P(Z|Ω)：

P (Z | Ω) = \frac{\exp (- \frac{1}{2} {(Z - m)}^{T}) Q^{- 1} (Z - m))}{{(2 π)}^{N} {| Q |}^{1 / 2}} \cdot \cdot \cdot \cdot \cdot \cdot \cdot (4)

这里，Z表示特征向量，m表示特征向量Z的平均向量，Q为特征向量Z的协方差矩阵。

然而，如果按照公式4计算用于观测分类的概率，并考虑视频像素的数量和维数，则获取该概率所需要的计算量非常大。因此，在本实施例中，使用Karhunen-Loeve变换(KLT)使该公式的计算变得简单。首先，定义

等于Z-m。接下来，如果φ的列为Q的正交特征值，A相应于对角特征值，则协方差矩阵可以按照下式5分解：

Q＝φ∧φ^T ……(5)

基于此，如果M为主要元素的数量，y_i为Y的第i个元素，α_i为Q的第i个特征值，ρ为通过

获得的最优值，则公式4可以近似为下面的公式6：

P (Z | Ω) = [\frac{\exp (- \frac{1}{2} Σ_{i}^{M} y_{i}^{2} / α_{i})}{{(2 π)}^{M} {| Λ |}^{1 / 2}}] [\frac{\exp {(- \frac{1}{2} Σ_{M + 1}^{N} y_{i}^{2} / 2 ρ)}_{i}}{{(2 πρ)}^{(N - M) / 2}}] \cdot \cdot \cdot \cdot \cdot \cdot (6)

从而，在本实施例中，如果特征向量Z是从观测分类Ω提供的，则在步骤110中使用公式6计算概率分布P(Z|Ω)。接着，在步骤112中，使用如上所述计算的概率分布，对每一状态进行建模。

然后，在步骤114中，基于状态变换，表达视频序列中对象的行为。在本实施例中，使用隐含马尔可夫模型(HMM)表达视频序列中的对象行为。HMM在训练和识别随时间不同而变化的数据中是一个非常著名的随机模型。特别是，HMM广泛应用于在线特征或连续输入的语音识别中。在使用HMM的语音识别中，在假定能够将语音建模为马尔可夫模型的情况下，通过在训练处理时获取马尔可夫模型的概率参数生成基准马尔可夫模型。同样，在语音识别处理时，通过估计与输入表达最相似的基准马尔可夫模型来识别语音。通常，使用隐含马尔可夫模型作为识别语音的模型，其原因是为了适合语音模式的不同变化。这里，单词“隐含(hidden)”表示状态隐含在模型中，而不考虑语音的模式。当N为可能状态的数量、Ξ满足Ξ＝{q₁，q₂，...q_N}、A为隐含状态i和j之间的变换{a_ij}、B为相应于状态j的观测符号概率{b_j(.)}、以及∏为初始状态分布时，一般的HMM可以表达为下面的公式7：

λ＝{Ξ，А，В，∏) ......(7)

状态Ξ＝{q₁，q₂，...，q_N}和初始状态分布∏是基于视频数据事先确定的。可以使用公知的Baum-Welsh重估计公式重复训练隐含马尔可夫模型参数A和B。

可以从经验上确定状态模型或状态的数量，在本实施例中，将阐释一个选用4个状态的示例。同样，在本实施例中，使用4个状态对行为进行建模，并将阐述一个为每一状态的变换概率设定同一值的示例。

图2A和2B示出一个行为的隐含马尔可夫模型的示例，其中一个人开始站起来，但是又返回坐下位置(下文中称作“bd”)。图2A表示在训练前bd的隐含马尔可夫模型的示例；图2B表示在训练后bd的隐含马尔可夫模型的示例。参照图2A，将从一个状态到另一个状态的变换将发生的概率和从一个状态到前一个状态的变换发生的概率统一设定为0.333。为了便于模型开发，假定从一个称作4的状态返回到4发生的概率为1。但是，参照图2B，将从一个状态到另一个状态的变换发生的概率和从一个状态到前一个状态的变换发生的概率设定为不同的值。然后，使用该设置不同的变换概率，获得变换矩阵。接着，将通过各自不同的概率分布定义的多个不同状态和获得的变换矩阵确定为行为模型。这样，完成了行为建模。

根据上述的对象行为建模方法，在视频索引和识别领域，可以有效地对比如人类活动的复杂行为进行建模。特别是，根据本对象行为建模方法，可以对行为识别所需的对象行为进行建模而不用分割对象。

按照上述实施例的对象行为建模方法可以应用于诸如静态摄像的系统。但是，如果期望应用本方法的系统是一运动摄像机，则必须首先恢复人的运动。随后的步骤与上述实施例中的步骤相同。

现在将描述识别行为的处理。图3为表示根据本发明的实施例的对象行为识别方法的主要步骤的流程图。参照图3，首先在步骤302中，输入包含期望被识别的行为的视频帧。接着，在步骤304中，通过输入视频帧的运动估计获取特征向量。可以认为步骤304实质上与参照图1说明的步骤106相同。

接着，在步骤306，使用获取的特征向量确定每一视频帧所属的状态。如果T为表示形成视频序列的帧的数量的正整数、Z₁、Z₂、…、Z_T分别为第一帧、第二帧、...、第T帧的特征向量、以及如果给定视频帧O＝{Z₁，Z₂，…，Z_T}、E为状态模型的数量，则在步骤308中，将使提供的视频帧和给定的行为模型字典{λ₁，λ₂，…，λ_E}中的行为模型之间的概率P(O|λ)最大的一个行为模型确定为识别的行为。变换矩阵是在训练处理中通过使用基于相应于场景j的观测符号概率{b_j(.)}的最大期望(EM)算法获得的。为了提高搜索速度，最好在基于使用由包括初始化、状态预测、估量和更新三步构成的卡尔曼滤波的预测算法、具有与训练时使用的相同尺寸的窗口中跟踪运动轨迹。

以这种方式，可以有效地识别视频序列中比如人类活动的复杂对象行为。根据该对象行为识别方法，能够有效地识别比如人类行为的复杂行为。特别是，根据该对象行为识别方法，可以识别行为而无须分割对象。

此外，根据本发明对象行为建模方法和对象行为识别方法可以写成在个人计算机或服务器计算机上执行的程序。本领域的计算机编程人员能够非常容易地导出构建该程序的程序代码和代码段。另外，该程序可以存储到计算机可读记录介质中。该记录介质可以包括磁记录介质、光记录介质和无线电介质。

如上所述，根据本发明，在视频索引和识别领域，能够有效地对比如人类行为的复杂行为建模并识别，而无须分割对象。

Claims

1.一种对象行为建模方法，包括下列步骤：

(a)从视频序列中获取光流向量；

(b)使用该光流向量，获取多个视频帧的特征向量的概率分布；

(c)使用该特征向量的概率分布，进行状态建模；以及

(d)基于状态变换，表达视频序列中对象的行为。

2.如权利要求1所述的对象行为建模方法，其中步骤(a)基于仿射运动估计。

3.如权利要求2所述的对象行为建模方法，其中步骤(a)还包括子步骤：

(a-1)将输入视频帧分组为多个视频帧组，并将每一个视频帧组划分为独立状态；

(a-2)为每一独立状态的视频帧组中的每一视频获取仿射运动参数；和

(a-3)从仿射运动参数中获取光流向量。

4.如权利要求3所述的对象行为建模方法，其中步骤(a-2)包括步骤：当I表示强度、t表示时间、x表示像素位置(x，y)、V表示运动向量时，使给定视频中的、基于表达为I_t(x)＝I_t-1(x-V(x))的对象上的像素强度的差的平方和∑(I_t(x)-I_t-1(x-V(x)))²最小的参数确定为运动参数。

5.如权利要求1所述的对象行为建模方法，其中步骤(b)包括步骤：按照下式计算概率分布P(Z|Ω)：

P (Z | Ω) = \frac{\exp (- \frac{1}{2} {(Z - m)}^{T})^{Q^{- 1}} (Z - m))}{{(2 π)}^{N} {| Q |}^{1 / 2}}

其中P＝(p₁，p₂，…p_d)表示在每一像素位置(x，y)计算的运动向量，L表示在一个视频帧或感兴趣的区域中的像素数目，d表示维数，d×L维向量的特征向量Z为Z＝(p¹ ₁，p² ₁，...，p^L ₁，p¹ ₂，p² ₂，...，p^L ₂，p¹ _d，p² _d，...，p^L _d)^T，m为特征向量Z的平均向量，Q为特征向量Z的协方差矩阵，并假定特征向量Z是从观测分类Ω提供的。

6.如权利要求1所述的对象行为建模方法，其中步骤(b)还包括步骤：

按照下式分解协方差矩阵Q：

Q＝φ∧φ^T其中

等于Z-m，φ的列为协方差矩阵Q的正交特征值，A相应于对角特征值；以及

按照下式计算概率分布P(Z|Ω)：

P (Z | Ω) = [\frac{\exp (- \frac{1}{2} Σ_{i}^{M} y_{i}^{2} / α_{i})}{{(2 π)}^{M} {| Λ |}^{1 / 2}}] [\frac{\exp (- \frac{1}{2} Σ_{M + 1}^{N} y_{i}^{2} / 2 ρ)_{i}}{{(2 πρ)}^{(N - M) / 2}}]

其中M为主要元素的数量，y_i为Y的第i个元素，α_i为Q的第i个特征值，ρ为通过

获得的最优值，并假定特征向量Z从观测分类Ω提供。

7.如权利要求1所述的对象行为建模方法，其中在步骤(c)中，视频序列中的对象行为基于状态变换使用隐含马尔可夫模型(HMM)表达。

8.如权利要求7所述的对象行为建模方法，其中隐含马尔可夫模型(HMM)表达为λ＝{Ξ，А，В，∏}，，其中N为可能状态的数量，Ξ满足Ξ＝{q₁，q₂，…，q_N}，A为隐含状态i和j之间的变换{a_ij}，B为相应于状态j的观测符号概率{b_j(.)}，∏为初始状态分布，并且状态Ξ＝{q₁，q₂，...q_N}，和初始状态分布∏是基于视频数据事先确定的。

9.一种对象行为识别方法，包括步骤：

(a)通过运动估计获取视频帧的特征向量；

(b)使用获取的特征向量确定每一帧所属的状态；以及

(c)使用用于确定的状态的变换矩阵，确定使行为模型和从给定的行为模型字典中提供的视频帧之间的概率最大的行为模型，作为所识别的行为。

10.如权利要求9所述的对象行为识别方法，其中步骤(c)包括步骤：当T为表示形成视频序列的帧的数量的正整数、Z₁、Z₂、…、Z_T分别为第一帧、第二帧、...、第T帧的特征向量、以及给定视频帧O＝{Z₁，Z₂，…，Z_T}、E为状态模型的数量时，从给定的行为模型字典{λ₁，λ₂，…，λ_E}中找出使概率P(O|λ)最大的行为模型。

11.如权利要求10所述的对象行为识别方法，其中变换矩阵是在训练处理中通过使用基于相应于场景j的观测符号概率{b_j(.)}的最大期望(EM)算法获得的。