CN101840518A

CN101840518A - 基于生物视觉机理的物体训练和识别方法

Info

Publication number: CN101840518A
Application number: CN 201010140974
Authority: CN
Inventors: 谭铁牛; 黄凯奇; 黄永祯
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-04-02
Filing date: 2010-04-02
Publication date: 2010-09-22

Abstract

一种基于生物视觉机理的物体训练方法，包括步骤：对训练图像进行Gabor滤波操作，生成各种尺度下的S1图像；对S1图像进行梯度滤波的稀疏化操作，生成图像的稀疏表达；对S1的稀疏表达进行降采样操作生成C1；对C1图像进行滤波操作，滤波卷积子随机采样于所有训练样本的C1图像，生成S2图像；对S2图像进行求最大值操作，生成C2；用C2作为特征向量送入支持向量机SVM分类器。本发明用于智能视觉监控系统，帮助监控系统识别场景中目标的类别，使得监控系统能真正理解场景中正在发生什么，而且可以根据不同的目标类别采取不同的安全级别。用于多媒体数字内容分析中的目标分析，判断目标的类别，用于分析顾客对特定产品或者特定娱乐项目喜好。

Description

基于生物视觉机理的物体训练和识别方法

技术领域

本发明涉及模式识别，特别涉及基于视觉神经机理的目标识别。

背景技术

目前，计算机视觉系统与人眼视觉系统仍存在着巨大的差异。科学家常以“过马路”这个简单的视觉任务为例来说明这一点。现代高速计算机的计算能力已达到相当惊人的程度，但计算机视觉系统却依然无法指导盲人过马路。很多研究者都将注意力集中在基于统计学习等传统方法上，而忽略了一个事实：人类视觉系统大大超过了当前最优秀的基于统计学习的计算机视觉系统。

因此，借鉴人眼视觉系统特性去研究计算机视觉中的相关问题日益变得迫切和必要。基于以上考虑，我们提出了一种基于生物视觉机理的物体训练和识别方法。

传统的物体训练和识别技术大部分是从机器学习的角度入手，从原始输入图像提取特征后，送入分类器进行模型构建，最后对新来样本进行分类。这些方法强调模型的鲁棒性，却忽略了生物视觉系统中的两个重要特点：1)生物视觉系统并不是对原始图像中提取的特征进行建模，而是先对原始图像进行复杂但快速的变换，然后再提取特征。2)训练结果对模型具有反馈作用。

传统的物体训练和识别技术在一些较复杂的情况下遇到了较大的挑战，比如，当目标发生位置变化、尺度变化、形状变化、颜色变换时，目标识别的成功率大大降低。

发明内容

为了解决现有技术存在的问题，本发明的目的是提供一种基于生物视觉神经机理的物体训练和识别方法。

根据本发明的一方面，一种基于生物视觉机理的物体训练方法，包括步骤：

步骤S11，对训练图像进行Gabor滤波操作，生成各种尺度下的S1图像；

步骤S12，对S1图像进行梯度滤波的稀疏化操作，生成图像的稀疏表达；

步骤S13，对S1的稀疏表达进行降采样操作生成C1；

步骤S14，对C1图像进行滤波操作，滤波卷积子随机采样于所有训练样本的C1图像，生成S2图像；

步骤S15，对S2图像进行求最大值操作，生成C2；

步骤S16，用C2作为特征向量送入支持向量机SVM分类器。

根据本发明的另一方面，一种基于生物视觉机理的物体识别方法，包括步骤：

步骤S21，对训练图像进行Gabor滤波操作，生成各种尺度下的S1图像；

步骤S22，对S1图像进行梯度滤波的稀疏化操作，生成图像的稀疏表达；

步骤S23，对S1的稀疏表达进行降采样操作生成C1；

步骤S24，对C1图像进行滤波操作，滤波卷积子随机采样于所有训练样本的C1图像，生成S2图像；

步骤S25，对S2图像进行求最大值操作，生成C2；

步骤S26，用C2作为特征向量送入支持向量机SVM分类器，根据SVM模型判断测试图像类别。

根据本发明的方法，图像目标在复杂的情况下，仍然可以鲁棒的达到识别的目的。在智能视觉监控系统中，帮助监控系统识别场景中目标的类别，使得监控系统能真正理解场景中正在发生什么，而且可以根据不同的目标类别采取不同的安全级别。对多媒体数字内容分析中的目标进行分析，判断目标的类别。

附图说明

图1是基于生物视觉神经机理的物体训练和识别系统框图；

图2是稀疏化限制的示意图；

图3是反馈控制的示意图。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

基于生物视觉神经机理，本发明实现了一个物体训练和识别系统。如图1示出基于生物视觉神经机理的物体训练和识别方法的流程框图，包括训练和识别两个部分：

所述的训练过程包括步骤：对已经标好类别的物体图像列进行特征提取，对提取的特征进行训练并建模。

所述的识别过程包括步骤：对含有新来的图像进行特征提取，将提取的特征输入到步骤S1训练得到的模型，获得新来图像的类别。

下面对本发明的方法涉及的关键步骤进行逐一详细说明，具体形式如下所述：

首先，对图像进行进行Gabor滤波操作，生成S1：

Gabor滤波器与哺乳动物的视觉神经皮的简单细胞的功能非常相似，在图像处理中，它具有较好的方向和频率选择性。所以我们采用Gabor滤波对输入图像进行处理。Gabot滤波器的数学表达方式如公式(1)和公式(2)所表示：

F (x, y) = \exp (- \frac{{x_{0}}^{2} + γ^{2} {y_{0}}^{2}}{{2 σ}^{2}}) \times \cos (\frac{2 π}{λ} x_{0}), - - - (1)

x₀＝xcosθ+ysinθ，y₀＝-xsinθ+ycosθ， (2)

其中，x和y的取值范围由Gabor滤波器的尺寸所决定。θ控制Gabor滤波器的方向。

通过Gabor滤波时候，生成的S1图像与输入的图像大小一样。

其二，对S1图像进行稀疏化控制，生成S1图像的稀疏化表达：

| F_{x (i)} | + | F_{y (i)} | &GreaterEqual; \frac{α}{n} Σ_{k = 1}^{n} (| F_{x (k)} | + | F_{y (k)} |), - - - (3)

其中，F_x和F_y分别指水平和竖直方向的梯度；n是S1图像中像素点的个数；a控制是稀疏化的程度。采用不同的α会得到不同程度的稀疏化图像表达，参见图2。

其三，对S1的稀疏表达进行降采样操作生成C1。在该降采样操作中，对每一个局部区域都只保留其最大像素点及其周围四个像素点的和，具体操作为：

C = \underset{x_{i}, y_{i} &Element; U (m)}{Σ} [S^{2} (x_{i}, y_{i})], m &Element; I_{c}, - - - (4)

其中，C对应视觉神经中复杂细胞的响应，S(x_i，y_i)对应视觉神经中第i个细胞的响应，I_c表示局部区域的范围(是一个预先定义的参数)，m是局部区域中的最大响应，U_m是指最大响应点的领域(最大像素点周围的四个像素点)。

其四，对C1图像进行滤波操作，滤波卷积子随机采样于所有训练样本的C1图像，生成S2图像。

其五，对S2进行求最大值操作，即对每一张S2图像，只保留其最大像素点，生成C2(C2特征向量)。

其六，把C2特征向量送入SVM分类器中，构造分类器模型。每一个图像块对应一个SVM模型，所有的SVM模型的权重是根据其分类结果的反馈而确定的，即分类结果越好，其权重越大。所有SVM模型的加权输出构成了最终的分类结果。其示意图如图3所示。

实施例

整个基于生物视觉神经机理的物体训练和识别方案主要包含训练和识别两个过程，为了详细说明该发明的具体实施方式，以某一个监控场景中行人检测系统为例说明。这个系统可以判断监控场景是否含有行人。

训练的目的是学习行人的特征。首先我们要收集大量行人图像和非行人图像，这些图像用于训练行人识别模型。训练步骤S1如下：

步骤S11：对2000张行人图像(正样本)和2000张非行人图像(副样本)进行Gabor滤波操作(参见公式(1)、(2))，生成S1图像4000张。

步骤S12：对4000张S1图像进行梯度滤波的稀疏化操作(参见公式(3))，生成图像的稀疏表达。

步骤S13：对4000张S1图像的稀疏表达进行降采样操作生成4000张C1图像(参见公式(4))。在该降采样操作中，对每一个局部区域都只保留其最大像素点及其周围四个像素点的和。

步骤S14：每一张C1图像与多个(比如1000个)滤波卷积子进行滤波操作，滤波卷积子随机采样于所有训练样本的C1图像，每一张C1图像生成1000张S2图像。

步骤S15：对每一张S2图像进行求最大值操作，即只保留S2图像中每一张图像的最大像素值，生成1000个C2。

步骤S16：S14中的每一个图像滤波卷积子对应一个SVM分类模型，根据这些SVM模型在训练集上的表现来进行反馈(参见图3)。具体操作为：每一个图像滤波卷积子与所有的4000张C1图像卷积后会生成4000个C2值(正副样本各2000个)，将这4000个C2值送入支持向量机(SVM)分类器进行训练，生成一个SVM模型。所以1000个图像滤波卷积子就会生成1000个SVM模型。反馈过程中，在训练集上表现最好的多个(比如100个、200个或300个)SVM模型会被留下来，其他SVM模型会被删除。同时每一个SVM模型的权重正比于该SVM模型在训练样本上分类正确率，比如分类正确率为80％，则该SVM的权重为0.8。

在识别阶段，将摄像头信号通过采集卡接入计算机，初始阶段的处理跟训练阶段的S11至S15一致，然后将C2特征输入到训练阶段所得的基于支持向量机的模型进行分类，输出分类结果。具体识别步骤如下：

步骤S21：输入一张测试图像，对其进行Gabor滤波操作，生成S1图像。

步骤S22：对S1图像进行梯度滤波的稀疏化操作，生成S1图像的稀疏表达。

步骤S23：对S1的稀疏表达进行降采样操作生成C1。在该降采样操作中，对每一个局部区域都只保留其最大像素点及其周围四个像素点的和。

步骤S24：对C1图像进行滤波操作，图像滤波子来自S16中选出来的100个(或200个、300个)SVM模型所对应的100个图像滤波子，生成100张S2图像。

步骤S25：对100张S2图像进行求最大值操作，即只保留S2图像中每一张图像的最大像素值，生成100个C2值。

步骤S26：用100个C2值分别送入S16中得到的100个SVM模型(一个C2输入给对应的SVM模型)，判断测试图像类别(含有行人还是不含有行人)。具体判断规则是：如果这100个分类器模型输出值的加权和大于某个预先定义的阈值，则认为含有行人，否则认为不含有行人。

总之，本发明提出了一种有效的于生物视觉神经机理的物体训练和识别方案。本发明易于实现、性能稳定。本发明能够提高智能监控系统对监控场景的理解能力，是下一代智能监控系统里的关键技术。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于生物视觉机理的物体训练方法，包括步骤：

步骤S13，对S1的稀疏表达进行降采样操作生成C1；

步骤S15，对S2图像进行求最大值操作，生成C2；

步骤S16，用C2作为特征向量送入支持向量机SVM分类器。

2.根据权利要求1所述的方法，其特征在于还包括从训练数据上的结果向S2图像的反馈过程。

3.根据权利要求2所述的方法，其特征在于所述反馈过程包括将训练集上表现最好的SVM模型保留。

4.根据权利要求1所述的方法，其特征在于在降采样操作中，对每一个局部区域都只保留最大像素点及其周围四个像素点的和。

5.一种基于生物视觉机理的物体识别方法，包括步骤：

步骤S23，对S1的稀疏表达进行降采样操作生成C1；

步骤S25，对S2图像进行求最大值操作，生成C2；

6.根据权利要求5所述的方法，其特征在于还包括从训练数据上的结果向S2图像的反馈过程。

7.根据权利要求6所述的方法，其特征在于所述反馈过程包括将训练集上表现最好的SVM模型保留。

8.根据权利要求5所述的方法，其特征在于在降采样操作中，对每一个局部区域都只保留最大像素点及其周围四个像素点的和。