CN101093500A

CN101093500A - 视频中事件语义识别方法

Info

Publication number: CN101093500A
Application number: CN 200710052741
Authority: CN
Inventors: 曾承; 彭智勇
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2007-07-16
Filing date: 2007-07-16
Publication date: 2007-12-26
Anticipated expiration: 2027-07-16
Also published as: CN101093500B

Abstract

本发明是一种视频中事件语义识别方法，通过挖掘视频中前景对象关系及其变化，识别事件语义的方法。本方法将视频中的存在的普通事件语义视作一个多元事件语义，它由若干个单元事件语义按照一定规则和时序组合而成。单元事件语义描述视频中识别出的前景对象区域自身或两两之间的关系，多元事件语义利用马尔科夫链跌代计算，获得其包含的单元事件语义的稳定分布，从而分阶段的实现视频事件语义的自动识别。可以实现结构动态、持续时间较长、多对象多关系等较复杂高层语义的识别，具有应用领域广泛，可以自动快速的进行识别，人为依赖性小的优点。

Description

视频中事件语义识别方法

技术领域

本发明涉及多媒体数据挖掘、人工智能等领域，特别是利用马尔科夫链的原理实现视频中事件语义识别的方法。

背景技术

随着互联网和个人计算机上视频文件数量及容量的爆炸性增长，如何快速且准确地检索到与用户意愿相一致的视频文件变得越来越重要。目前，基于关键字的检索技术已被商业搜索引擎广泛采用；基于内容的图像、视频检索系统[1]也已在一些研究机构中诞生。然而，这些技术过多依赖人为参与，或者检索结果与用户需求相违背，无法满足大量多媒体数据的检索需求。

视频语义挖掘，即从视频媒体中挖掘出潜在的，与人类理解相似的语义信息。当前视频语义挖掘的研究，侧重于实现对象、静态场景、瞬息事件等语义信息的挖掘[2-9]，但其适用范围往往局限于特定领域，且语义信息较为简单，无法实现结构动态、持续时间较长、多对象多关系等较复杂高层语义的识别。

引证文件：

[1]Virage Inc.http://www.virage.com.

[2]M.Ramesh Naphade，I.V.Kozintsev，and T.S.Huang.A Factor Graph Framework forSemantic Video Indexing.IEEE Trans.on Circuits and Systems for Video Technology，12(1)：40-52，2002.

[3]Benitez A.B.，Smith J.R.，Chang S.F.，“MediaNet：A Multimedia Information Networkfor Knowledge Representation”，Proceedings of the SPIE 2000 Conference on InternetMultimedia Management Systems(IS&T/SPIE-2000)，Vol.4210，Boston，MA，Nov6-8，2000.

[4]K.Messer，W.J.Christmas，E.Jaser，J.Kittler，B.Levienaise-Obadial，D.Koubaroulis.A Unified Approach to The Generation of Semantic Cues For Sports VideoAnnotation.Signal Processing 85(2005)357-383

[5]Navid Serranoa，Andreas E.Savakis，Jiebo Luo.Improved Scene Classification UsingEffcient Low-level Features and Semantic cues.Pattern Recognition，37(2004)，p1773-1784

[6]Matthew R.Boutell，Jiebo Luo，Xipeng Shen，Christopher M.Brown.LearningMulti-label Scene Classiffcation.Pattern Recognition 37(2004)，p1757-1771

[7]Jurgen Assfalg，Marco Bertini，Carlo Colombo，Alberto Del Bimbo，Walter Nunziati.Semantic Annotation of Soccer Videos：Automatic Highlights Identification.ComputerVision and Image Understanding，v92，v2003，p285-305

[8]David A.Sadlier，Noel O’Connor，Noel Murphy，Sean Marlow.A Framework for EventDetection in Field-Sports Video Broadcasts based on SVM generated Audio-Visual FeatureModel.Case-Study：Soccer Video.http://www.cdvp.dcu.ie/Papers/sadlierIWSSIP2004.pdf，2004

[9]King-Shy Goh，Koji Miyahara，Regunathan Radhakrishan，Ziyou Xiong，AjayDivakaran.Audio-Visual Event Detection based on Mining of Semantic Audio-VisualLabels.http://www.merl.com/papers/docs/TR2004-008.pdf，2004

马尔科夫链是指时间离散，状态也离散的马尔科夫过程，包含有限个状态、状态转移概率矩阵和初始状态概率分布。

发明内容

本发明所要解决的技术问题是：将一个复杂的视频事件语义分解为若干个单元事件语义，把每个单元事件视为一个马尔科夫“状态”。对于“足球比赛中的射门”这个事件语义，它包含了“人向足球靠拢”、“人接触足球”、“足球飞出”、“足球进入球框”几个单元事件状态，则整个事件将演变成一系列状态转移的结果。

本发明的目的是提供一种视频中事件语义识别方法，是一种利用马尔科夫链技术实现较为复杂的视频事件语义识别的方法，它包括单元事件语义的识别与存储方法，多元事件语义的识别方法，以及实现视频事件语义识别的步骤。

本发明的技术方案是：视频中事件语义识别方法，其特征在于利用视频中识别出的前景对象，结合马尔科夫链技术，自动识别视频事件语义，将视频中事件语义视为一个多元事件语义，它由若干个符合一定规则和时序关系的单元事件组成；

单元事件语义的定义和构造步骤：单元事件语义被视为最小的事件语义表达单位，它由单个语义对象及其运动状态，或者两个对象及其运动关系组成；当对象发生变化，或者对象的运动状态或关系发生变化，均表示当前单元事件的结束，下一个单元事件的开始；

利用马尔科夫链技术，发现多元事件语义和单元事件语义之间的构造关系，其步骤是：

将单元事件语义视为一个马尔科夫状态，而多元事件语义的识别则转换为由若干个状态转移的结果；通过跌代式计算马尔科夫链的稳态分布，获得组成每个多元事件语义最适合的单元事件语义序列。

如上所述的视频中事件语义识别方法，其特征在于有如下步骤：

a)将运动状态相似的前景对象分为一类，包括仅存在一个前景对象；

b)构建每个前景对象类的最小凸多边形，并将其作为该类的代表；

c)选取任意两个类构成单元事件的描述单元，以其中一个类作为重点观察类，而另

外一个作为参考类，即若存在n个类，则需要分解为n(n-1)/2个单元事件进行描述，n＞2；

d)定义单个对象运动状态类型包括膨胀、收缩、静止、平移、徘徊；定义对象两两之间运动关系类型包括接近、远离、静止、经过、围绕、触碰；

e)通过三元组E(O_i，Z_t，O_j)存储单元事件语义，其中O_i，O_j为不同的对象语义概念，Z_t为运动状态的类型；

f)假设在时刻t，发生单元事件E^t的概率为π_t(E^t)，类似的在t+1时刻，发生单元事件E^t+1的概率为π_t+1(E^t+1)；

g)对可能在时刻t出现的所有单元事件，通过对当前单元事件的出现概率，与从当前单元事件E^t转移到下一个单元事件E^t+1的概率p(E^t→E^t+1)的乘积求和，计算

π_{t + 1} (E^{t + 1}) = \underset{E^{t}}{Σ} π_{t} (E^{t}) p (E^{t} &RightArrow; E^{t + 1});

h)对单元事件对应的状态空间E＝{E₁，E₂，...，E_N}进行反复分割，利用π_t＝π_t+1的马尔科夫链稳态分布原理，计算链中所有稳定分布向量；

i)获得每种事件语义所应包含的单元事件语义及其时序关系，从而能够用于实现事件语义的自动识别。

本发明的原理是：

(1)单元事件语义的识别与存储方法：

单元事件语义被视为最小的事件语义表达单位，若某个视频段中仅存在一个关注对象，则将它直接作为观察对象；若其中存在多个处于不同运动状态的关注对象，则需要进行分类处理：

①将运动状态相似的关注对象分为一类(可能仅存在一个关注对象)；

②构建关注对象类的最小凸多边形，并将其作为该类的代表；

③选取任意两个类构成单元事件的描述单元，以其中一个类作为重点观察类，而另外一个作为参考类，即若存在n个类，则需要分解为n(n-1)/2个单元事件进行描述，n＞2；。

单元事件语义实际上是用来描述语义对象(类)和它自身的运动状态，以及可能存在的两个对象(类)之间的运动关系。通过对象语义概念来表达某个类时，若该类中存在不同概念的语义对象，则使用其最近的父概念进行表达。当关注对象或任何对象运动状态发生变化时，则标志着当前单元事件的结束，下一个单元事件的开始。

另一个需要解决的重要问题是：如何识别关注对象的运动状态，以及对象之间的运动关系。我们对单个对象在Δt内表现出的运动关系状态为膨胀、收缩、静止、平移、徘徊，对两个对象在时间Δt内表现出的运动关系状态定义为接近、远离、静止、经过、围绕、触碰。

通过运动状态分类，单元事件语义的识别与表达变得相对简单，可通过一个三元组来存储和表达单元事件语义：

E_k＝E(O_i，Z_t，O_j) 公式(1)

其中O_i，O_j为单元事件语义中存在的关注对象语义概念，Z_t为运动状态的类型。当单元事件语义中仅存在单个关注对象，则O_j为空，Z_t对应单个语义对象自身运动状态的描述，此时t∈[1，5]；当单元事件语义中存在两个关注对象，则Z_t对应两个对象之间的运动关系状态的描述，此时t∈[1，6]，且i≠j。

因此，单元事件语义的识别问题转变成关注对象语义的识别，以及语义对象运动状态分类的问题。

(2)多元事件语义的识别方法

我们利用马尔科夫链的思想实现多元事件语义的识别。假设在时刻t，发生单元事件E^t的概率为π_t(E^t)，类似的在t+1时刻，发生单元事件E^t+1的概率为π_t+1(E^t+1)。若给定π_t(E^t)，对可能在时刻t出现的所有单元事件，通过对当前单元事件的出现概率，与从当前单元事件E^t转移到下一个单元事件E^t+1的概率p(E^t→E^t+1)的乘积求和，计算π_t+1(E^t+1)：

π_{t + 1} (E^{t + 1}) = \underset{E^{t}}{Σ} π_{t} (E^{t}) p (E^{t} &RightArrow; E^{t + 1})

公式(2)

当π_t＝π_t+1时，称作马尔科夫链满足稳态分布，即此时多元事件语义已由最稳定的单元事件按照一定时序关系组合而成。则多元事件语义的识别问题转换成求解(2)式所描述的马尔科夫链的稳态分布问题。我们对单元事件对应的状态空间E＝{E₁，E₂，...，E_N}进行反复分割，即通过降维类推的方式，计算稳态分布概率。

假设P＝[p_i，j](i，j∈E)是马尔科夫链在状态空间E中的状态转换概率最简矩阵。首先，状态空间将被分解为E＝{E₁，E₂，...，E_N-1}∪{E_N}形式，则矩阵P也会对应的被分解为式(3)所示：

P = (\begin{matrix} T & W \\ R & Q \end{matrix})

公式(3)

其中T为(N-1)×(N-1)维矩阵，W为(N-1)维纵向量，R为(N-1)维行向量，而Q则代表标量p_n，n。令π为马尔科夫链的稳态分布向量，则有π＝πP。(N-1)维的随机最简矩阵P’被定义为：

P′＝T+W(1-Q)^-1R 公式(4)

其稳态分布用符号π’表示，同样应该满足π’＝π’P’。若将π通过(x，π_N)分为两部分表示，其中x为(N-1)维行向量，则：

π_N＝xW+π_NQ 公式(5)

上式可以变形为π_N＝xW(1-Q)^-1 公式(6)

故π’与x是成比例的，x＝cπ’，其中c为比例系数。那么可由式(25)计算获得：

c＝1-π_N 其中

π_{N} = \frac{π^{'} W {(1 - Q)}^{- 1}}{1 + π^{'} W {(1 - Q)}^{- 1}}

公式(7)

通过π’可以计算出x的值。一旦获得P’，就不再需要向量R。从矩阵P’开始，通过(N-2)次同样的分割过程，能计算出原始马尔科夫链中的所有稳态分布向量，即获得组成该多元事件的所有单元事件的分布及时序关系。

本发明的有益效果：可以实现结构动态、持续时间较长、多对象多关系等较复杂高层语义的识别，具有应用领域广泛，可以自动快速的进行识别，人为依赖性小的优点。

附图说明

图1a-图1e为本发明实施的单个对象运动状态图，其中，图1a膨胀，图1b收缩，图1c静止，图1d平移，图1e徘徊。

图2a-图2e为本发明实施的对象间运动关系图，其中，图2a接近，图2b远离，图2c静止，图2d经过，图2e围绕，图2f碰撞。

具体实施方式

下面结合附图并以足球比赛中的射门事件为实例对本发明作进一步详述：

对于“足球比赛中的射门”这个事件语义概念，我们事先从中识别出人、足球、球框三个关注语义对象，并根据其运动状态直接分为三个类，构造每个类的最小凸多边形。在初始的视频段中，仅包含人和足球两个语义对象类，因此我们将其作为单元事件中的描述单元。根据图1所示的运动状态分类，我们选择对象两两之间运动关系分类规则。在第一个视频段中，关注对象为人和足球，其运动关系为接近，即构成单元事件语义“人接近足球”；在第二个视频段中，关注对象不变，但运动关系发生了变化，产生新的单元事件语义“人触碰足球”；第3个视频段中关注对象只包含足球，则应选择图1中的单个对象运动状态分类规则，构成单元事件语义“足球平移”；在随后的视频段中，关注对象变为足球和球框，依次产生单元事件语义“足球接近球框”、“足球经过球框”、“足球与球框静止”。

将获得的每个单元事件语义视为一个马尔科夫状态，则这些状态相互转移的结果就构成了一个马尔科夫链。根据马尔科夫链稳态分布求解过程，计算其中的所有稳态分布向量，即对应于一个多元事件语义，其包含的单元事件语义之间所有可能的时序关系，这种关系和多元事件语义将形成一种多对一的映射。对于以后入库的新视频文件，通过单元事件语义分割识别，利用事先存储的映射关系，则可以快速的识别出其最有可能包含的多元事件语义。

Claims

1、视频中事件语义识别方法，其特征在于利用视频中识别出的前景对象，结合马尔科夫链技术，自动识别视频事件语义，将视频中事件语义视为一个多元事件语义，它由若干个符合一定规则和时序关系的单元事件组成；

2.如权利要求1所述的视频中事件语义识别方法，其特征在于有如下步骤：

c)选取任意两个类构成单元事件的描述单元，以其中一个类作为重点观察类，而另外一个作为参考类，即若存在n个类，则需要分解为n(n-1)/2个单元事件进行描述，n＞2；

π_{t + 1} (E^{t + 1}) = \underset{E^{t}}{Σ} π_{t} (E^{t}) p (E^{t} &RightArrow; E^{t + 1});