CN100541523C

CN100541523C - 一种基于支持向量机的视频对象识别方法及系统

Info

Publication number: CN100541523C
Application number: CNB2007101615643A
Authority: CN
Inventors: 孔晓东; 罗青山; 曾贵华; 赵光耀
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-09-29
Filing date: 2007-09-29
Publication date: 2009-09-16
Anticipated expiration: 2027-09-29
Also published as: CN101140623A

Abstract

本发明公开了一种基于支持向量机的视频对象识别方法及系统，通过构造训练样本，从训练样本中根据选择的分辨率，利用小波轮廓描述符、形状因子与不变矩相结合的方法来描述训练样本轮廓特征，根据轮廓特征训练得到支持向量机模型，同时也确定了支持向量机模型最优分类面的决策函数的参数，然后从待识别的视频对象中提取轮廓特征，训练后的支持向量机模型根据输入的视频对象的轮廓特征，通过最优分类面的决策函数运算，对获取的视频对象进行分类。本发明具有计算速度快、识别准确率高、运算性能可靠、多分类识别，而且随着识别对象的增多，其识别性能仍保持平稳，识别的速度可以满足实时监控的需要。

Description

一种基于支持向量机的视频对象识别方法及系统

技术领域

本发明涉及视频对象识别技术，特别涉及一种基于支持向量机的视频对象识别方法及系统。

背景技术

随着我国经济的快速增长和科技水平的不断提高，视频安全监控技术在人们的生活和工作中应用的越来越普遍。在家庭生活中，该技术可以用来对家庭成员(病人、老人、婴儿等)进行监护，对其发生的危险事件(老人跌倒、病人突发症状、婴儿进入危险区域等)进行预警；在交通运输中，该技术可以用来对汽车、火车、地铁等交通工具进行实时监督，杜绝各类安全隐患，保证人民群众的出行安全；在公共安全中，可以用来对大型公共场所(火车站、地铁站、飞机场)进行监控，防止恶性破坏事件的发生。尤其在当今恐怖事件频发、恐怖分子活动日益猖獗的情况下，视频安全监控技术尤其是其核心智能安全监控技术已经成为涉及国家安全重大关键技术，加快对该项技术的研究有着十分重要的现实意义。

智能安全监控技术的关键是视频对象的识别方法。目前，国际主流的视频对象识别技术主要有两种，一种是基于模板匹配的对象识别方法，一种是基于形状参数的FISER线性判别方法，下面分别对这两种对象识别技术进行描述。

1.基于模板匹配的对象识别方法

该识别方法的主要思想是：为视频中可能出现的各个对象都各自构造一个或一组模板，然后在检测中，应用最近邻决策规则，将获得的视频对象与这些事先构造好的模板一一匹配，观测哪一个模板与该对象最符合，则该视频对象就被识别为模板所属的对象。

最近邻决策规则方法最初由Cover和Hart在1968年提出，是模式识别非参数法中最重要的方法之一，该方法假定有c个类别ω₁，ω₂，…，ω_c，每类别有标明类别的样本N_i个，则ω_i类别的判别函数为：

g_{i} (x) = \min_{k} | | x - x_{i}^{k} | |, k = 1,2, . . ., N_{i} - - - (1)

式中，x_i ^k的角标i表示ω_i类别，i＝1，2，…，c；k表示ω_i类别的N_i个样本中的第k个样本。

按照上式，决策规则可以写为

g_{j} (x) = \min_{i} g_{i} (x), i = 1,2, . . ., c - - - (2)

在模板匹配中，式(1)中的每一个样本x_i ^k都相当于一个事先构造好的模板，而x相当于待识别的视频对象，在识别时，通过分别比较x与c个类别样本总数

N = Σ_{i = 1}^{c} N_{i}

中各个样本的欧式距离，决策出x与离它欧式距离最近的样本同类，就可以识别出视频对象。

基于模板匹配的对象识别方法的主要优点是算法简单，当识别对象较少时计算速度较快、可靠性强，可以达到视频对象实时处理的要求。但一旦需要识别的视频对象增多，由于需要与所有构造好的模板比较欧式距离以及当欧式距离比较接近时，该方法的计算速度、识别准确率等各项性能都会急剧下降，尤其是识别率会变的十分糟糕甚至完全无法正确识别。

2.基于形状参数的FISHER线性判别方法

该判别方法的主要思想是：将高维空间数据向低维空间投影，从而可以使用低维空间的分析方法获得将不同类别的对象区分开来的FISHER判别参量，同时将低维空间划分成分属各个类别的区域，在识别时将视频对象投影到低维空间，则该视频对象就被识别为其投影区域所属的类别。

下面对FISHER线性判别函数涉及的基本参量进行描述。

a.在高维样本空间：

各类样本均值向量m_i：

m_{i} = \frac{1}{N_{i}} \underset{x &Element; x_{i}}{Σ} x, i = 1,2 . - - - (3)

定义样本类内离散度矩阵S_i，总类内离散度矩阵S，类间离散度矩阵S_b：

S_{i} = \underset{x &Element; ω_{i}}{Σ} (x - m_{i}) {(x - m_{i})}^{T} - - - (4)

S＝S₁+S₂ (5)

S_b＝(m₁-m₂)(m₁-m₂)^T (6)

b.在低维投影空间：

各类样本均值向量

{\tilde{m}}_{i} = \frac{1}{N_{i}} \underset{y &Element; y_{i}}{Σ} y, i = 1,2 . - - - (7)

式中，y为式(3)中x在低维空间的投影。

定义样本类内离散度矩阵

总类内离散度矩阵

{\tilde{S}}_{i}^{2} = \underset{y &Element; y_{i}}{Σ} {(y - {\tilde{m}}_{i})}^{2} - - - (8)

\tilde{S} = {\tilde{S}}_{1}^{2} + {\tilde{S}}_{2_{2}}^{2} - - - (9)

投影后，为了使投影空间里各类样本尽可能分开同时希望样本内部尽量密集，由此定义FISHER准则函数为：

J_{F} (w) = \frac{({\tilde{m}}_{1} - {\tilde{m}}_{2})}{{\tilde{S}}_{1}^{2} + {\tilde{S}}_{2}^{2}} - - - (10)

取式(10)的极值解w^*，w^*＝S^-1(m₁-m₂)

最后，在一维空间中通过下面两种方法获取一个判别阈值y₀：

y_{0} = \frac{{\tilde{m}}_{1} + {\tilde{m}}_{2}}{2},

或

y_{0} = \frac{N_{1} {\tilde{m}}_{1} + N_{2} {\tilde{m}}_{2}}{N_{1} + N_{2}}

根据下式将待识别的视频对象分属的不同类别区分开来。

y＝w^*Tx (11)

f (x) = \{\begin{matrix} ω_{1}, y > y_{0} \\ ω_{2}, y < y_{0} \end{matrix} - - - (12)

根据式(3)～(12)，通过计算选取的训练样本集，得到一组FISHER判别参量，这些判别参量将投影空间区分成各个类别区域，在识别时，同样地，将待识别的视频对象进行投影，它投影到哪个区域则该视频对象就被识别成该区域对应的类别。

相对于基于模板匹配的对象识别方法，基于形状参数的FISHER线性判别方法增加了一个判别函数的构造过程，这个构造过程一般都是在视频处理之前就已经完成，不会对识别性能产生影响；由于不需要将待识别的视频对象与各个样本之间的欧式距离进行一一比较并选取最小欧式距离，因此计算速度较快。但该方法是将高维空间数据投影到低维空间进行区分，通过与判别阀值的比较区分视频对象所属的类别，但当高维空间数据高度混杂时，其识别性能会变的很差，而且，随着识别对象的增多，其识别率和识别性能也会大幅下降。

近年来，一种新的模式识别方法，支持向量机(SVM，Support VectorMachine)逐渐发展和成熟起来，下面对支持向量机进行简要描述。

Boser，Guyon，Vapnik等人在统计学习理论的基础上对有限样本情况下的机器学习问题进行研究，到了90年代，有限样本情况下的机器学习理论研究逐渐成熟起来，形成了一个较完善的理论体系--统计学习理论(SLT，Statical Learning Theory)，并最终在统计学习理论的基础上发展出了一种新的模式识别方法，支持向量机。

SVM是从线性可分情况下的最优分类面发展而来的，其基本思想有以下三点：

(1)它是专门针对有限样本情况的学习机器，在对给定的数据逼近的精度与逼近函数的复杂性之间寻求折衷，以期获得最好的推广能力；

(2)最终解决凸二次规划问题，从理论上说，得到的将是全局最优解；

(3)将实际问题通过非线性变换转换到高维的特征空间，在高维空间中构造线性决策函数来实现原空间中的非线性决策函数，巧妙地解决了维数问题，而且算法复杂度与样本维数无关。

图1为现有技术二维两类别线性可分情况下的最优分类线(OptimalHyperplane)示意图。参见图1，图中的方形点和圆形点分别表示两个类别的训练样本，H是将两类没有错误分开的分类线，H1、H2分别为过两类样本中离分类线最近的训练样本且平行于分类线的直线，H1和H2之间的距离叫做两类的分类间隔(margin)。定义最优分类线为要求分类线不仅能将两类没有错误的分开(训练错误率为0)，而且要使两类的分类间隔最大。前者是为了保证经验风险最小，而后者是使推广能力最大。将上述问题扩展到高维空间，则最优分类线就成为最优分类面。

设线性可分样本集为(x_i，y_i)，其中，i＝1，2，…，n，x_i∈R^d，y_i∈{+1，-1}，是类别标号。d维空间中线性判别函数的一般形式为g(x)＝w·x+b，则分类面方程为：

w·x+b＝0 (13)

式中，x是d维特征矢量，又称样本矢量；w为权向量，和分类面(上面的任何矢量)正交；b为常数，表示阈值权。

可以求得，x到分类面的距离为：

r＝g(x)/||w|| (14)

将线性判别函数进行归一化，使两个类别的所有样本都满足|g(x)|≥1，也就是使离分类面最近的样本的|g(x)|＝1，当满足此条件时，两类别之间的分类间隔就等于2/||w||，因此使分类间隔最大的问题就转化为获取||w||最小的问题。

定义最优分类面：满足式(15)，

y_i[(w·x_i)+b]-1≥0，i＝1，2，…，n； (15)

且使2/||w||最大的分类面就叫做最优分类面，平行于最优分类面的H1和H2上的训练样本点就称作支持向量(Support Vectors)，也就是使式|g(x)|≥1等号成立的训练样本点。

由此，则建立支持向量机的问题就转化为求解如下一个二次凸规划问题：

由于目标函数和约束条件都是凸的，根据最优化理论，这一问题存在唯一的全局最优解，从而可以找到最优分类面以及对应的支持向量。应用Lagrange乘子法，可求的最优分类面的决策函数：

f (x) = sgn ((w^{*} \cdot x + b^{*}) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*}) - - - (17)

式中，

w^{*} = α_{i}^{*} y_{i} (x_{i} \cdot x),

α_i ^*、b^*是确定最优分类面的参数。

最优分类面的参数α_i ^*、b^*的获取：

对于α_i ^*，是在约束条件式(18)～(19)下，求函数

Q (α) = Σ_{i = 1}^{n} α_{i} - \frac{1}{2} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j})

最大值时的解，

Σ_{i = 1}^{n} y_{i} α_{i} = 0 - - - (18)

α_i≥0，i＝1，2，…，n (19)

式中，α_i为Lagrange系数。

对于b^*，为分类的阈值，可以通过将任意一个支持向量代入式y_i(w·x_i+b)-1＝0求得。

由于所有的非支持向量对应的α_i ^*均为0，所以式(17)的求和只对占全体样本中很少一部分的支持向量进行，从而也保证了分类的快速运算。

对非线性分类问题，参见图2，图2为现有技术非线性分类示意图，由于非线性可分数据样本在高维空间有可能转化为线性克服，因此支持向量机通过把样本升维，即从低维空间映射到高维甚至无穷维空间，再在高维空间中采用处理线性问题的方法，由于映射是非线性的，从而解决了样本空间中的高度非线性问题。

目前，SVM算法在模式识别、回归估计、概率密度函数估计等方面都有应用，在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中，但在视频对象识别领域中，如何应用SVM算法提高视频对象识别的准确率，还没有提及。

发明内容

有鉴于此，本发明实施例的提供一种基于支持向量机的视频对象识别方法，提高视频对象识别的准确率。

本发明实施例的还提供一种基于支持向量机的视频对象识别系统，提高视频对象识别的准确率。

为达到上述目的，本发明实施例的技术方案具体是这样实现的：

一种基于支持向量机的视频对象识别方法，该方法包含：

预先构造训练样本，提取训练样本轮廓特征，所述提取训练样本轮廓特征包含：根据训练样本查找出训练样本轮廓点，将所有轮廓点进行排序，生成仅包括训练样本的外围轮廓点轮廓矢量；计算获取的轮廓点质心坐标，获取归一化轮距矢量，对归一化轮距矢量重新排序得到旋转不变的定向轮距矢量，再对定向轮距矢量的长度进行归一化，形成固定长度的归一化定向轮距矢量；对长度归一化的定向轮距矢量进行小波变换，小波变换结果的系数用于构成小波轮廓描述符，根据小波轮廓描述符生成训练样本轮廓特征；

根据提取的训练样本轮廓特征训练得到支持向量机模型；

根据接收的视频对象构造视频对象样本，提取视频对象轮廓特征，根据输入的视频对象轮廓特征，识别视频对象所属的类别。

一种基于支持向量机的视频对象识别系统，该系统包含：样本生成单元、轮廓特征生成单元及支持向量机模型单元，其中，

样本生成单元，用于构造训练样本及根据接收的视频对象构造视频对象样本并输出至轮廓特征生成单元；

轮廓特征生成单元，用于根据接收的训练样本生成训练样本轮廓特征数据及根据接收的视频对象样本生成视频对象样本轮廓特征，包含：轮廓点模块、小波变换模块、小波轮廓描述符生成模块、以及轮廓特征模块，其中，

轮廓点模块，用于接收样本生成单元输出的样本，查找样本轮廓点，对查找到的轮廓点排序，计算获取的轮廓点质心坐标，根据轮廓点质心坐标计算归一化轮距矢量，将计算得到的归一化轮距矢量按照预先存储的方法排序获取定向轮距矢量，再对定向轮距矢量的长度进行归一化，形成固定长度的归一化定向轮距矢量，输出至小波变换模块；

小波变换模块，接收轮廓点模块输出的长度归一化定向轮距矢量，进行小波变换，将变换结果输出至小波轮廓描述符生成模块；

小波轮廓描述符生成模块，接收小波变换模块的输出结果，根据小波变换结果的系数，构成小波轮廓描述符，输出至轮廓特征模块；

轮廓特征模块，接收小波轮廓描述符生成模块输出的小波轮廓描述符，生成训练样本及视频对象样本轮廓特征或轮廓特征数据，输出至支持向量机模型单元；

支持向量机模型单元，用于根据接收的训练样本轮廓特征数据，生成支持向量机模型；根据接收的视频对象样本轮廓特征，识别出视频对象所属的类别并输出。

由上述技术方案可见，本发明实施例的一种基于支持向量机的视频对象识别方法及系统，通过构造训练样本，利用小波轮廓描述符、形状因子与不变矩相结合的方法来描述训练样本轮廓特征，根据轮廓特征训练得到支持向量机模型，同时确定支持向量机模型最优分类面的决策函数的参数，然后从待识别的视频对象中提取轮廓特征，训练后的支持向量机模型根据输入的视频对象的轮廓特征，通过最优分类面的决策函数运算，对获取的视频对象进行分类。因此，本发明实施例具有计算速度快、识别准确率高、运算性能可靠、多分类识别，而且识别性能不随识别对象增多而下降，识别速度可以满足实时监控的需要。

附图说明

图1为现有技术二维两类别线性可分情况下的最优分类线示意图。

图2为现有技术非线性分类示意图。

图3为本发明实施例基于支持向量机的视频对象识别系统结构示意图。

图4为本发明实施例一基于支持向量机的视频对象识别方法流程示意图。

图5为本发明实施例一训练图像库预先存储的训练图像示意图。

图6为本发明实施例一对图像进行自动分割和手工标注相结合后分割示意图。

图7为本发明实施例一对训练图像进行分割后获取的训练样本示意图。

图8为本发明实施例一轮廓点查找方法示意图。

图9为本发明实施例一轮廓点排序方法示意图。

图10为本发明实施例一从原始轮距矢量到长度归一化的定向轮距矢量的变换示意图。

图11为本发明实施例一对长度归一化的定向轮距矢量进行Haar小波变换后的结果示意图。

图12为本发明实施例二基于支持向量机的视频对象识别方法的识别结果示意图。

图13为本发明实施例三基于支持向量机的视频对象识别方法的识别率示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

本发明实施例是通过构造训练样本，从训练样本中提取轮廓特征，根据轮廓特征训练得到SVM模型，然后从待识别的视频对象中提取轮廓特征，训练后的SVM模型根据输入的视频对象的轮廓特征对获取的视频对象进行分类。

为了实现上述目的，本发明提出了一种基于支持向量机的视频对象识别系统。

图3为本发明实施例基于支持向量机的视频对象识别系统结构示意图。参见图3，该系统包含：样本生成单元31，轮廓特征生成单元32及SVM模型单元33，其中，

样本生成单元31，用于从存储的训练图像库中构造训练样本及根据接收的视频对象构造视频对象样本，输出至轮廓特征生成单元32，包含图像存储模块311、图像分割算法模块312及样本存储模块313；

图像存储模块311，预先存储不同类别对象的训练样本图像，不同类别对象的训练样本图像构成训练图像库，将训练样本图像输出至图像分割算法模决312进行分割运算；

图像分割算法模块312，接收图像存储模块311输出的训练样本图像以及外部输入的视频对象样本，进行自动分割运算或自动分割运算与手工标注相结合，将分割结果输出至样本存储模块313；

样本存储模块313，接收图像分割算法模块312的输出结果，保存为二值图像，生成训练样本及视频对象样本；

轮廓特征生成单元32，接收样本生成单元31输出的训练样本及视频对象样本，用于根据接收的训练样本生成训练样本轮廓特征数据及根据接收的视频对象样本生成视频对象样本轮廓特征，输出至SVM模型单元33，包含轮廓点模块321、小波变换模块322、小波轮廓描述符生成模块323、不变矩生成模块324、形状因子生成模块325及轮廓特征模块326；

轮廓点模块321，用于接收样本存储模块313输出的训练样本/视频对象样本，查找训练样本/视频对象样本轮廓点，对查找到的轮廓点排序，计算获取的轮廓点质心坐标，根据轮廓点质心坐标计算归一化轮距矢量，将计算得到的归一化轮距矢量按照预先存储的方法排序获取定向轮距矢量，再对定向轮距矢量的长度进行归一化，形成固定长度的归一化定向轮距矢量，输出至小波变换模块322，并将轮廓点坐标及轮廓点质心坐标输出至不变矩生成模块324，以及，将对象轮廓输出至形状因子生成模块325；

小波变换模块322，接收轮廓点模块321输出的长度归一化定向轮距矢量，进行小波变换，将变换结果输出至小波轮廓描述符生成模块323；

小波轮廓描述符生成模块323，接收小波变换模块322的输出结果，根据用户选择的分辨率N，截取小波变换结果的前N个系数，构成小波轮廓描述符，输出至轮廓特征模块326；

不变矩生成模块324，根据接收的轮廓点坐标及轮廓点质心坐标，生成轮廓的p+q阶中心矩，对轮廓的p+q阶中心矩进行归一化处理，得到归一化的p+q阶中心矩，由归一化的p+q阶中心矩，获取不变矩参数，输出至轮廓特征模块326；

形状因子生成模块325，根据轮廓点模块321输出的对象轮廓，获取对象轮廓的长度和对象轮廓内区域的面积，计算轮廓的形状因子参数，输出至轮廓特征模块326；

轮廓特征模块326，接收小波轮廓描述符生成模块323输出的小波轮廓描述符、不变矩生成模块324输出的不变矩参数及形状因子生成模块325输出的形状因子参数，分别生成训练样本及视频对象样本轮廓特征或轮廓特征数据；

SVM模型单元33，用于接收轮廓特征生成单元32输出的训练样本轮廓特征数据及视频对象样本轮廓特征，根据训练样本轮廓特征数据，构造线性可分样本集，通过最优分类面的决策函数，确定最优分类面的参数，生成SVM模型；根据接收的视频对象样本轮廓特征，通过最优分类面的决策函数运算，识别出视频对象所属的类别并输出。

基于图3，下面举三个实施例，对基于支持向量机的视频对象识别的系统中使用本发明的具体实施方式进行详细说明。

实施例一：

图4为本发明实施例一基于支持向量机的视频对象识别方法流程示意图。参见图4，该流程包含：

步骤401，构造训练样本；

本步骤中，首先确定需要区分的类别，如：人、动物、轿车等，然后从预先存储的训练图像库中，也可以采用其它方法获取训练图像，为每个类别选取一定数量的包含该类别对象的图像，如图5所示，图5为本发明实施例一训练图像库预先存储的训练图像示意图，本实施例中，为每个类别选取300幅左右包含该类别对象的图像。

接着，对选取的训练图像进行分割，可以使用自动分割方法，也可以使用自动分割与手工标注相结合的方法，分割算法可以是基于图象域的分割技术(JSEG，Segmentation of color-texture regions in images and video)算法，也可以是均值漂移(Meanshift)算法，本实施例中，由于JSEG算法分割效果好、算法稳定，选用JSEG自动分割及手工标注相结合的方法对训练图像进行分割。

图6为本发明实施例一对图像进行自动分割和手工标注相结合后分割示意图，参见图6，JSEG通过图像颜色的一致性将图像划分成最多255个区域，再通过手工标注方式将图像中的包含对象所有区域标示出来，然后将标注的结果保存成一个二值图像，获取需要的训练样本，如图7所示，图7为本发明实施例一对训练图像进行分割后获取的训练样本示意图。

实际应用中，由于对训练图像自动分割的结果往往不能准确的与希望获得的结果相符合，因此还需要对分割获取的训练样本进行进一步的分析和选取，本实施例中，为每个类别获取100个左右的训练样本。

步骤402，提取训练样本轮廓特征；

本步骤中，用于描述训练样本轮廓特征的方法包括：不变矩、偏心率、长宽比、球状性、形状因子、小波轮廓描述符等，本实施例中，利用小波轮廓描述符、形状因子与不变矩相结合的方法来描述训练样本轮廓特征，其中，关键是小波轮廓描述符的构造。

1).构造小波轮廓描述符

小波轮廓描述符具有物理意义明确、检索性能好、旋转平移缩放不变，对视频对象的识别性能有着非常重要的影响，具体构造方法如下：

假设某视频对象有N_p个轮廓点，则其轮廓矢量定义为：

{PX}_{k}^{j} = {x_{0}, x_{1}, . . ., x_{N_{p} - 1}}

[20]

{PY}_{k}^{j} = {y_{0}, y_{1}, . . ., y_{N_{p} - 1}}

式中，(x_i，y_i)，i∈(0，1，…，N_p-1)，为每个轮廓点在x，y平面上的坐标。

图8为本发明实施例一轮廓点查找方法示意图。参见图8，检测轮廓点的方法为：忽略中空对象的内部轮廓点，检查对象索引M_k ^j圈定的范围内所有的连通位图Vk，如果该点周围上、下、左、右(图中标号为1，2，3，4)中有一处为0，则该点为轮廓点。

查找完轮廓点后，将所有轮廓点进行排序，生成仅包括对象的外围轮廓点轮廓矢量PX_k ^j，PY_k ^j，其方法如图9所示：

图9为本发明实施例一轮廓点排序方法示意图。参见图9，从M_k ^j圈定的上边缘开始水平搜索到第1个轮廓点P₀，然后以该点为中心，按图9中8-1-2-3-4-5-6-7的顺序找到第2个轮廓点为P₁，然后再以P₁为中心从P₀位置开始按逆时针方向寻找第3个轮廓点为P₂，以此类推，直至循环一圈，找回轮廓点P₀，最后一个轮廓点就是

然后，计算获取的轮廓点质心坐标，计算公式如下：

{TX}_{k}^{j} = \frac{1}{N_{p}} Σ_{n = 0}^{N_{p} - 1} x_{n}

(21)

{TY}_{k}^{j} = \frac{1}{N_{p}} Σ_{n = 0}^{N_{p} - 1} y_{n}

计算平移、旋转、缩放皆不变的归一化轮距分以下三个步骤进行：

a)、按照公式(22)-(24)计算缩放不变归一化轮距矢量

U_{k}^{i} = {u_{0}, u_{1}, . . ., u_{N_{p} - 1}};

r_{n} = \sqrt{{(x_{n} - {TX}_{k}^{j})}^{2} + {(y_{n} - {TY}_{k}^{j})}^{2}} - - - (22)

r_max＝Max(r₀，r₁，…，r_n) (23)

u_n＝r_n/r_max n∈(0，1，…，N_p-1) (24)

b)、对归一化轮距矢量U_k ⁱ重新排序得到旋转不变的定向轮距矢量：

Q_{k}^{i} = {q_{0}, q_{1}, . . ., q_{N_{p} - 1}} - - - (25)

重新排序的方法是：从归一化的轮距矢量U_k ⁱ中找出最小值和最大值，包括相等的最小值以及相等的最大值，假设找到J个最大值和K个最小值，则它们可组成J×K个“最大值-最小值对”，从这些“最大值-最小值对”中，找出间隔最大的那一对，如果计算得到的间隔s值大于N_p/2，由于得到的距离矢量的第一项和最后一项在图形轮廓上是相邻的，可以通过循环使距离矢量中任意两项的间隔保持在N_p/2内，即使s＝N_p-s。如果只存在一个间隔最大的“最大值-最小值对”，则以最小值为定向轮距矢量的第一项，同时保证最大值在前N_p/2个元素内，并按照“最小值-最大值”方向对距离矢量重新排序，得到一个新的距离矢量，即定向距离矢量Q_k ⁱ；如果有多个间隔最大的“最大值-最小值对”，则可以通过比较其最小值或最大值的相邻项来确定选取“最大值-最小值对”，若这些相邻项都相等，则表明该视频对象的轮廓点是对称的，如圆形，方形，可以从中选取任意一对“最大值-最小值对”。

c)、对定向轮距矢量Q_k ⁱ的长度进行归一化，形成固定长度M(如M＝1024)的归一化定向轮距矢量

L_{k}^{j} = {L_{0}, L_{1}, . . ., L_{M - 1}} .

Integera = \frac{i}{M} N_{p}, i &Element; (0,1, . . ., N_{p} - 1), M \leq N_{p} - 1 - - - (26)

Integerb＝a+1 (27)

Floatc = \frac{i}{M} N_{p} - a - - - (28)

L_i＝(1-c)xq_a+cxq_b (29)

获取小波轮廓描述符：

图10为本发明实施例一从原始轮距矢量到长度归一化的定向轮距矢量的变换示意图。参见图10，图中所有横坐标表示轮廓点的个数；第一幅图的纵坐标表示像素的个数，也就是说轮廓点到轮廓质心的距离是用像素的个数来表示的；其余三幅图的纵坐标表示归一化后的轮廓点到质心的距离，也就是以当前轮廓点到质心的距离中最大的一个为基准，所有轮廓距离都以此基准进行归一化，从而保证轮廓距离的值在0～1之间，从而获得特征的尺度不变性；长度归一化的定向轮距矢量用来与M进行匹配运算，一般来说，M的取值越大，越能保证图形轮廓不失真，但较大的M值也会导致匹配运算变慢。

为此，在本实施例中，采用小波变换，即对该长度归一化的定向轮距矢量L_k ^j进行Haar小波变换，得到小波变换结果

W_{k}^{j} = {w_{0}, w_{1}, . . ., w_{M - 1}},

Haar小波变换公式如下：

WT (a, b) = \frac{1}{\sqrt{a}} {&Integral;}_{- \infty}^{+ \infty} f (t) ψ_{H} * (\frac{t - b}{a}) dt, a > 0 - - - (29 a)

式中，

为Haar小波基函数。

利用式(29a)，将长度归一化的定向轮矩矢量

L_{k}^{j} = {L_{0}, L_{1}, . . ., L_{M - 1}}

变换为

W_{k}^{j} = {w_{0}, w_{1}, . . ., w_{M - 1}},

L_k ^j和W_k ^j的固定长度都是M。

图11为本发明实施例一对长度归一化的定向轮距矢量进行Haar小波变换后的结果示意图。参见图11，图11是对图10的最后一幅图进行haar小波变换，横坐标表示小波变换后系数的个数，该个数与图10中轮廓点的个数是一样的；纵坐标表示小波变换后的系数的幅值，具体的数值与图10中的轮廓距离相关，本实施例中，由于图10中所有轮廓距离都在0～1之间，因此，根据haar小波变换的原理，其变换后的系数的幅值在-1～1之间。

取小波变换结果

W_{k}^{j} = {w_{0}, w_{1}, . . ., w_{M - 1}}

的前N个系数，构成小波轮廓描述符B，N即选择的分辨率。

B＝{b₀，b₁，…，b_N-1}＝{w₀，w₁，…，w_N-1} (30)

也就是说，小波轮廓描述符B是通过截取小波变换结果

W_{k}^{j} = {w_{0}, w_{1}, . . ., w_{M - 1}}

的前N个系数构成的，可以有效减小计算量，用户也可以灵活选择不同的分辨率来进行检索。

2).不变矩

不变矩是指物体图象经过平移、旋转以及比例变换仍然不变的矩特征量。轮廓无关矩是基于区域的物体形状表示方法，设轮廓上的轮廓点f(x，y)构成图像轮廓，则轮廓的p+q阶矩定义如下：

m_{pq} = \underset{x}{Σ} \underset{y}{Σ} x^{p} y^{q} f (x, y) - - - (31)

式中，f(x，y)表示轮廓上的轮廓点，x，y为轮廓点坐标，p，q＝0，1，2，...；由单值性定理可知，如果f(x，y)是分段连续的并且仅在xy平面内有限的部分具有非零值，则轮廓存在各阶矩，m_pq由f(x，y)唯一决定，而m_pq也唯一地决定f(x，y)，其中，一阶矩与形状有关，二阶矩显示曲线围绕直线平均值的扩展程度，三阶矩则是关于平均值的对称性的测量。

为获得平移无关性，可以利用轮廓的p+q阶中心矩：

μ_{pq} = \underset{x}{Σ} \underset{y}{Σ} {(x - \overset{&OverBar;}{x})}^{p} {(y - \overset{&OverBar;}{y})}^{q} f (x, y) - - - (32)

式中，x＝m₁₀/m₀₀，y＝m₀₁/m₀₀，(x，y)为轮廓点质心坐标。

对轮廓的p+q阶中心矩进行归一化处理，获得缩放无关性，得到归一化的p+q阶中心矩：

η_{pq} = \frac{μ_{pq}}{μ_{00}^{r}} - - - (33)

式中，

γ = \frac{p + q}{2} .

由归一化的轮廓二阶和三阶中心矩，可以得到不变矩的表达式：

Φ＝(φ₁，φ₂，…，φ₇) (34)

式中，φ₁，φ₂，φ₃，φ₄，φ₅，φ₆，φ₇，为七个不变矩组，

φ₁＝η₂₀+η₀₂

φ_{2} = {(η_{20} - η_{02})}^{2} + 4 η_{02}^{2}

φ₃＝(η₃₀-3η₁₂)²+(3η₂₁-η₀₃)²

φ₄＝(η₃₀+η₁₂)²+(η₂₁+η₀₃)²

φ₅＝(η₃₀-3η₁₂)(η₃₀+η₁₂)[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]+(3η₂₁-η₀₃)(η₂₁+η₀₃)[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]

φ₆＝(η₂₀-η₀₂)[(η₃₀+η₁₂)²-(η₂₁+η₀₃)²]+4η₁₁(η₃₀+η₁₂)²(η₂₁+η₀₃)²

φ₇＝(3η₂₁-η₀₃)(η₃₀+η₁₂)[(η₃₀+η₁₂)²-3(η₂₁+η₀₃)²]+(3η₁₂-η₃₀)(η₂₁+η₀₃)[3(η₃₀+η₁₂)²-(η₂₁+η₀₃)²] (35)

3).形状因子

形状因子GAR的表达式如下：

GAR = \frac{{| | L | |}^{2}}{4 πA} - - - (36)

式中，L表示对象轮廓的长度，A表示对象轮廓内区域的面积。

最终的轮廓特征F，由小波轮廓描述符B、形状因子GAR、不变矩Φ共同构成，以分辨率为16为例，其表达式如下：

F＝{f₁，f₂，…，f₂₄}＝{B，Φ，GAR}＝{b₁，b₂，…，b₁₆，φ₁，φ₂，…，φ₇，GAR} (37)

这样，对于每一个训练样本，对应一个轮廓特征数据，将样本的特征数据和其所属的类别组合构造成一个样本数据：

s_i＝(F_i，ω_i) (38)

式中，ω_i∈(1，2，3，…，c)，每一个数值表示一个类别；i∈(1，2，…，N)表示第ω_i别中的第i个训练样本，则最终可得到M×N个样本数据：

S＝{s₁，s₂，…，s_M×N} (39)

步骤403，训练SVM模型；

本步骤中，根据轮廓特征数据F_i，构造样本集为(x_i，y_i)，其中，x_i与F_i相对应，y_i∈{+1，-1}，是类别标号。

如前所述，通过最优分类面的决策函数：

f (x) = sgn ((w^{*} \cdot x + b^{*}) = sgn (Σ_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*})

式中，

w^{*} = α_{i}^{*} y_{i} (x_{i} \cdot x),

α_i ^*、b^*是确定最优分类面的参数，需要根据下式求取：

对于α_i ^*，在

Σ_{i = 1}^{n} y_{i} α_{i} = 0

及α_i≥0，i＝1，2，…，n约束条件下，求函数

Q (α) = Σ_{i = 1}^{n} α_{i} - \frac{1}{2} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j})

最大值时的解。

这样，最优分类面的决策函数中包含的最优分类面的参数α_i ^*和b^*就可以确定下来，当输入样本数据或样本集，通过最优分类面的决策函数运算并可判决出输入样本数据所属的类别。

本实施例中，使用的支持向量机源代码为支持向量机函数库libsvm，支持向量机模型训练可通过下列描述语句实现。

Model＝SVM_Train(S) (40)

其中，输入S就是得到的样本数据，输出就是训练好的支持向量机模型，该模型在程序里的表现形式就是一组参数，具体可见libsvm的数据结构，在此不再赘述。

实际应用中，对于多类别的识别问题，即样本集(x_i，y_i)中，y_i∈{1，2，…，c}，通过重新构造其类别对应的计算公式，分别确定不同类别对应的最优分类面的决策函数中包含的最优分类面的参数α_i ^*和b^*，当输入样本数据或样本集，通过最优分类面的决策函数运算并可判决出输入样本数据所属的类别。

在步骤401～步骤403执行完后，SVM模型的训练过程就完成了，后续流程中，当执行视频对象识别时，不需要每次都执行SVM模型的训练过程，即可以利用训练好的SVM模型，只需在已训练好的SVM模型中输入视频对象的轮廓特征，就可以获取视频对象所属的类别，也就是视频对象的检测过程，如步骤404～步骤406所示。

步骤404，构造视频对象样本，具体步骤同步骤401；

步骤405，提取视频对象轮廓特征，具体步骤同步骤402；

步骤406，SVM模型根据输入的视频对象轮廓特征，识别出视频对象所属的类别。

本步骤中，识别出视频对象所属的类别，也就是对步骤403训练好的SVM模型的应用，利用支持向量机函数库libsvm，通过函数式(41)来实现：

ω_i＝SVM_Classification(F) (41)

式中，输入为视频对象的轮廓特征F，输出就是该对象被识别的结果ω_i，i∈(1，2，3，…，c)。

上述步骤401～步骤406只是对本发明实施例的流程进行说明，实际应用中，执行完步骤401～步骤403后，可以多次执行步骤404～步骤406。

实施例二：

图12为本发明实施例二基于支持向量机的视频对象识别方法的识别结果示意图。参见图12，本实施例中，分别对人、动物、轿车三种视频对象进行分类。根据实施例1的方法流程，首先，为每个视频对象构造一个训练样本集，每个训练样本集中包含了100幅左右的训练样本，然后通过对训练样本中的各个训练图像分割、标注、训练样本生成、训练样本轮廓特征提取、SVM模型训练，从而获得需要的支持向量机识别模型，利用该模型对视频中的移动对象进行识别。

识别结果表明：基于支持向量机的视频对象识别方法对上述三种对象的识别率在97％以上，平均的识别速度是94ms，完全能够满足实时监控的需要。

实施例三：

图13为本发明实施例三基于支持向量机的视频对象识别方法的识别率示意图。参见图13，图中，横坐标为识别对象个数，纵坐标为识别率(％)。本实施例中，分别对四肢动物的侧面、轿车侧面、人的并腿站姿、人的分腿站姿、人的坐姿、人的卧姿、人的弯腰姿势、人骑车的侧面等九个对象进行识别，由图13可见，随着识别对象的增多，本发明实施例三的识别率只是略有下降，而且下降速度非常缓慢。具体的对多个对象的识别率如表1所示。

对象个数	2	3	4	5	6	7	8	9
对象个数	2	3	4	5	6	7	8	9	识别率(％)	100.00	98.65	97.97	97.96	97.96	98.02	97.56	97.59

表1

由上述实施例可见，本发明实施例的一种基于支持向量机的视频对象识别方法及系统，通过构造训练样本，从训练样本中根据选择的分辨率，利用小波轮廓描述符、形状因子与不变矩相结合的方法来描述训练样本轮廓特征，根据轮廓特征训练得到SVM模型，同时确定SVM模型最优分类面的决策函数的参数，然后从待识别的视频对象中提取轮廓特征，训练后的SVM模型根据输入的视频对象的轮廓特征，通过最优分类面的决策函数运算，对获取的视频对象进行分类。具有计算速度快、识别准确率高、运算性能可靠、多分类识别，而且随着识别对象的增多，其识别性能仍保持平稳，识别的速度可以满足实时监控的需要。

以上举较佳实施例，对本发明的目的、技术方案和优点进行了进一步详细说明，所应理解的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于支持向量机的视频对象识别方法，其特征在于，该方法包含：

根据提取的训练样本轮廓特征训练得到支持向量机模型；

2、如权利要求1所述的方法，其特征在于，所述构造训练样本包括：

从训练图像库中为每个类别选取一定数量的包含该类别对象的图像；

对选取的训练图像进行分割，将分割后的图像结果保存为二值图像，利用所述二值图像获得训练样本。

3、如权利要求2所述的方法，其特征在于，所述对选取的训练图像进行分割包括：使用基于图象域的分割技术算法或均值漂移算法对选取的训练图像进行分割。

4、如权利要求2所述的方法，其特征在于，所述将分割后的图像结果保存为二值图像后，获得训练样本之前，包括：从保存的二值图像中选择符合训练样本要求的二值图像，利用选择的二值图像获得训练样本。

5、如权利要求1所述的方法，其特征在于，所述根据训练样本查找出训练样本轮廓点的步骤包括：检查对象索引圈定的范围内任意点所有的连通位图，如果该点周围上、下、左、右中有一处为0，则判定该点为轮廓点。

6、如权利要求1所述的方法，其特征在于，所述将所有轮廓点进行排序的步骤包括：从对象索引圈定的上边缘开始水平搜索到第1个轮廓点，然后以该点为中心，以上边缘开始按逆时针的顺序找到第2个轮廓点，然后再以第2个轮廓点为中心从第1个轮廓点位置开始按逆时针方向寻找第3个轮廓点，以此类推，直至循环一圈找回第1个轮廓点。

7、如权利要求1所述的方法，其特征在于，所述对归一化轮距矢量重新排序的步骤包括：从归一化的轮距矢量中找出最小值和最大值，组成“最大值-最小值对”，从“最大值-最小值对”中，找出间隔最大的那一对，如果只存在一个间隔最大的“最大值-最小值对”，则以最小值为定向轮距矢量的第一项，同时保证最大值在轮廓点总数的前一半元素内，并按照“最小值-最大值”方向对归一化的轮距矢量重新排序，如果有多个间隔最大的“最大值-最小值对”，则比较其最小值或最大值的相邻项来确定选取“最大值-最小值对”，若这些相邻项都相等，从中选取任意一对“最大值-最小值对”。

8、如权利要求1所述的方法，其特征在于，所述小波变换为Haar小波变换。

9、如权利要求1所述的方法，其特征在于，所述小波变换结果的系数用于构成小波轮廓描述符进一步包括：根据用户选择的分辨率N，截取小波变换结果的前N个系数构成小波轮廓描述符。

10、如权利要求1所述的方法，其特征在于，所述根据提取的训练样本轮廓特征训练得到支持向量机模型包括：

根据提取的训练样本轮廓特征构造样本集；

根据样本集生成判别函数并进行归一化；

确定最优分类面及最优分类面的决策函数；

根据样本集确定最优分类面的参数。

11、如权利要求10所述的方法，其特征在于，所述归一化的步骤包括：使离分类面最近的样本到分类面的距离为1。

12、如权利要求10所述的方法，其特征在于，所述确定最优分类面的步骤包括：使离分类面最近的样本到分类面的距离不小于1，并且确定两类别之间的分类间隔最大的分类面为最优分类面。

13、一种基于支持向量机的视频对象识别系统，其特征在于，该系统包含：样本生成单元、轮廓特征生成单元及支持向量机模型单元，其中，

14、如权利要求13所述的系统，其特征在于，所述样本生成单元包含：图像存储模块、图像分割算法模块及样本存储模块，其中，

图像存储模块，预先存储不同类别对象的训练样本图像，输出至图像分割算法模块进行分割运算；

图像分割算法模块，接收图像存储模块输出的训练样本图像以及视频对象样本，进行自动分割运算或自动分割运算与手工标注相结合，将分割结果输出至样本存储模块；

样本存储模块，接收图像分割算法模块的输出结果，保存为二值图像，生成训练样本及视频对象样本，分别输出至轮廓特征生成单元。

15、如权利要求13所述的系统，其特征在于，所述小波轮廓描述符生成模块进一步用于根据用户选择的分辨率N，截取小波变换结果的前N个系数，构成小波轮廓描述符，输出至轮廓特征模块。

16、如权利要求13所述的系统，其特征在于，所述支持向量机模型单元根据接收的训练样本轮廓特征数据，构造样本集，通过最优分类面的决策函数，确定最优分类面的参数，生成支持向量机模型；根据接收的视频对象样本轮廓特征，通过最优分类面的决策函数运算，识别出视频对象所属的类别并输出。