CN102306301A

CN102306301A - 模拟初级视皮层脉冲神经元的动作识别系统

Info

Publication number: CN102306301A
Application number: CN201110248334A
Authority: CN
Inventors: 刘海华; 黄丽鸿; 谌先敢; 高智勇
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2011-08-26
Filing date: 2011-08-26
Publication date: 2012-01-04
Anticipated expiration: 2031-08-26
Also published as: CN102306301B

Abstract

本发明提出了一种模拟初级视皮层脉冲神经元的动作识别系统，包括视频图像预处理模块、特征提取模块和动作识别模块，首先采用三维Gabor(3D Gabor)时空滤波器模拟视觉初级皮层中的简单细胞，以此对视频图像进行处理，从而获取对运动速度和方向敏感的运动信息。其次，采用Integrate and Fire脉冲神经元模型模拟初级视觉皮层的神经元，将获取的运动信息转换为神经元响应的脉冲链。最后，根据脉冲链平均发放率及其行为特性提取运动特征向量，采用支持向量机方法对视频图像中的动作进行识别。试验结果表明，在Weiziman数据库的测试环境下，该系统不仅提高了动作的准确性，而且较大程度地加快了识别速率。

Description

模拟初级视皮层脉冲神经元的动作识别系统

技术领域

本发明涉及一种模拟生物视觉感知系统，尤其涉及一种基于V1层视觉感知实现的动作识别系统。

背景技术

从视频图像中识别出人体动作在视频监控、视频检索和人机接口等领域中有非常广泛的应用。然而，由于人体的结构复杂性，以及不同的人之间存在的个体差异，使得快速、准确动作识别变得十分困难。针对动作识别中有待解决的问题，近年来，研究者主要提出了两类方法：全局表示法和局部表示法。前者用背景相减或跟踪来定位人体，然后将感兴趣区域编码成一个整体进行识别；后者是通过探测时空兴趣点，得到特征小块，完成动作识别。由于全局表示法对视角、噪声和遮挡较敏感，从而导致这些因素对识别效果的影响。虽然局部表示法对噪声和部分遮挡不敏感，但是缺乏稳定的相关兴趣点，识别缺乏稳定性。虽然这些方法在一定程度上解决了动作识别中的部分问题，但与人类视觉系统对动作的识别相比存在着较大的差异，从而制约其应用。

神经生理学研究表明人类视觉系统对视觉信息加工存在有两条通路：腹部通路和背部通路。其中腹部通路与形状信息有关，背部通路与运动信息有关。就是说，根据运动信息进行动作识别主要是由背部通路完成。背部通路主要由初级视觉皮层(V1)及中间层(MT)构成。其中初级视皮层V1中神经元细胞分为简单细胞、复杂细胞，以及终端抑制细胞，而简单细胞的特性可以通过Gabor滤波器模拟，且被证实特别有效(Jones & Palmer1987)。

对于动作识别而言，关键的问题是运动模式是在视皮层的哪里完成的，不同的模型存在不同的推测。一种设想是运动模式是在MT层获得的，比如Minglla对V1的输出进行矢量平均或Simoncelli通过IOC规则在MT层结合后获取运动模式信息。这些模型结构大体相同，只是实现方式有所不同。然而，上述模型都没有进行真实的应用，缺乏应用的合理性，直到Escobar提出的用脉冲神经元模型模拟MT层的神经元^[7，8]，从而解决了实际应用性的问题，但该模型在动作识别过程中的计算量较大，耗时较长；另一种想法，根据V1中存在终端抑制细胞，对运动特征有较好的反应效果，以及网络模型中前馈机制的成立^[9]，运动模式本身可以在V1阶段计算获取^[10]。根据该结论，Jhuang根据层次化结构模型提出了在V1阶段完成的，具有实际应用的动作识别模型^[11]。

无论是Jhuang的层次化动作识别模型，还是Escobar的V1/MT仿生前馈脉冲神经元模行，在实际应用中都存在模型结构复杂，计算量大，实现效率低等缺陷。为此，本发明模拟视觉机制，利用脉冲神经元模型模，提出了在V1层中快速实现动作识别的方法。该方法使用3D Gabor时空滤波器模拟简单细胞，提取动作信息，通过脉冲神经元模型将运动信息转换成脉冲链，并根据脉冲链平均发放率的特性完成动作识别，从而提高了动作识别效率。

发明内容

为了提高人体动作识别的准确性，加快识别速率，提出了模拟视觉初级皮层脉冲神经元对视觉信息处理的动作识别系统。该系统首先采用三维Gabor(3D Gabor)时空滤波器模拟视觉初级皮层中的简单细胞，以此对视频图像进行处理，从而获取对运动速度和方向敏感的运动信息。其次，采用Integrate and Fire脉冲神经元模型模拟初级视觉皮层的神经元，将获取的运动信息转换为神经元响应的脉冲链。最后，根据脉冲链平均发放率的特性提取运动特征向量，采用支持向量机方法对视频图像中的动作进行识别。试验结果表明，在Weiziman数据库的测试环境下，该系统不仅提高了动作的准确性，而且较大程度地加快了识别速率。

本发明提供的模拟初级视皮层脉冲神经元的动作识别系统，利用初级视觉皮层(V1)中终端抑制细胞对运动特征的反应原理，模拟简单细胞，提取动作信息，通过脉冲神经元模型将运动信息转换成脉冲链，并根据脉冲链平均发放率的特性完成动作识别，包括视频图像预处理模块、特征提取模块和动作识别模块，其中，

视频图像预处理模块通过视频采集装置采集视频图像，对目标进行中心定位；

特征提取模块模拟简单细胞提取运动信息，将所获得的运动信息利用脉冲神经元模型转换为神经元所传递的脉冲链信息，从而构建了运动特征提取的初级视觉皮层(V1)模型；

运动识别模块根据脉冲链的平均发放率特性，提取特征向量，并将特征向量输入到支持向量机中进行识别，从而完成动作识别。

优选的，上述对目标进行中心定位的方法为基于显著性注意的方法定位目标。

优选的，在进行中心定位前对采集到的视频图像进行滤波处理。

优选的，上述特征提取模块构建运动特征提取模型分为三个阶段，第一阶段为检测局部运动信息，第二阶段为形成脉冲生成层，第三阶段为特征提取。

优选的，上述第一阶段检测局部运动信息通过使用一组时空滤波器完成。

优选的，上述时空滤波器为3D Gabor时空滤波器，以2D Gabor滤波器为基础构造而成，由空间Gaussian包络函数及时间Gaussian包络函数两个部分组成，该时空滤波器利用以下公式的核函数构造而成：

\overset{&OverBar;}{x} = x \cos (θ) + y \sin (θ)

\overset{&OverBar;}{y} = - x \sin (θ) + y \cos (θ)

ϵ (t) = \{\begin{matrix} 1 & t &GreaterEqual; 0 \\ 0 & t < 0 \end{matrix}

其中，γ表示Gaussian包椭圆函数在空间上的比率因子；σ参数表示Gaussian函数的标准差，该参数决定细胞感受野的大小，v参数表示滤波器中余弦函数的相位速率，决定运动速率；θ参数表示滤波器的在空间和运动上的方向；

表示滤波器在空间上相对于运动中心的对称性；v_c参数表示空间Gaussian函数沿

坐标的运动速率，u_t为均值、τ为标准差。

优选的，上述第二阶段形成脉冲生成层是采用均匀的方式在视觉皮层分布多个脉冲神经元，每个单元使用integrate-and-fire脉冲神经元模型来模拟。

优选的，上述integrate-and-fire脉冲神经元模型通过以下公式对运动信息进行切换：

\frac{{du}_{i} (t)}{dt} = G_{i}^{exc} (t) (E^{exc} - u_{i} (t)) + G_{i}^{inh} (t) (E^{inh} - u_{i} (t)) + g^{L} (E^{L} - u_{i} (t)) + V_{i} (t)

其中i表示定位在空间位置为x_i＝(x_i，y_i)的脉冲神经元，该神经元从与其突触相连的其他神经元上收集信号，作非线性处理，当细胞的归一化膜电位u_i(t)≥u时，产生脉冲，然后膜电位重置为静息电位E^L，V_i(t)为模拟加工层提取的运动能量；g^L为神经元的电导，由于神经元是神经网络的组成单元，其兴奋电导

及抑制电导

同上一层神经元的输出相关。

优选的，当只是考虑单层的神经元网络，不存在上一层的神经元网络时，上述公式变化为

\frac{{du}_{i} (t)}{dt} = g^{L} (E^{L} - u_{i} (t)) + V_{i} (t) .

优选的，上述运动识别模块建立每个神经元表示的脉冲链的平均发放率：

κ_{i} (t, Δt) = \frac{T_{i} (t - Δt, t)}{Δt}

其中[t-Δt，t]为定义在时间t上，宽度为Δt的滑动时间窗口；T_i(t-Δt，t)表示在t时刻脉冲链在滑动时间窗口Δt内脉冲的个数。计算选择时间段内神经元平均发放率的平均值作为特征，构建特征向量，H_I＝{r_i}_i＝1，...N，其中r_i为：

r_{i} = \frac{Σ_{t = 1}^{T_{\max}} κ_{i} (t, Δt)}{T_{\max}}

优选的，利用监督分类法对所述特征向量进行分类。

本发明的技术特点及有益效果：

(1)由于本系统采用的模型是以3D Gabor时空滤波器为基础，与其它时空滤波器相比，该滤波器将空间信息和时间信息作为一个整体来进行处理，而不是先进行时空信息处理，再进行空间信息处理。该滤波器的特性不仅与视觉皮层中简单细胞的属性吻合，而且对视频序列处理后的结果优于其它时空滤波器性能。

(2)利用生物视觉感知系统是一个复杂的神经网络，基本单元是脉冲神经元，建立脉冲神经元模型，利用所产生的脉冲链传递运动属性，具有生物合理性，通过建立V1模型，实现高效，快速，确的识别目标。

(3)该系统采用的V1模型是在分析脉冲链平均发放率特性的基础上，根据视频序列中动作的行为过程来获取特征向量，并进行识别，其反映的动作的行为过程，在识别过程中受序列的初始时刻、序列的长度等因素的影响较低。

附图说明

图1是本发明提供的动作识别系统结构示意图；

图2是感受野可视化图；

图3是视觉皮层神经元的分布图；

图4a行走动作的神经元脉冲响应图；

图4b是弯腰动作的神经元脉冲响应图；

图5是脉冲神经元平均发放率图；

图6是不同帧长的识别率图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及具体实施方式对本发明作进一步的详细描述。

生物视觉感知系统是一个非常复杂的系统。研究表明，生物视觉感知系统由视网膜，初级视觉皮层，和高级视觉皮层构成。视网膜所包含的大量光感受细胞接受到视觉信息；初级视觉皮层是人类视觉系统和大脑皮层高级认知功能的交界，含有多种对不同视觉刺激模式反应不同的神经元细胞，分别对视觉信息进行加工；高级视觉皮层接受初级视觉皮层的传入，处理更复杂的视觉特征。为了实现快速的动作识别，本发明模拟生物视觉感知系统，提出基于初级视觉皮层(V1)层实现的动作识别系统，其结构如图1所示。由图1可见，该系统主要包括3个部分，即视频图像预处理模块、特征提取模块和动作识别模块。

预处理模块主要完成视频图像的前期处理和视觉中心定位。由于光感受器细胞主要存在视网膜的中央凹，为保证脉冲神经元反应的完整性，减少噪声等外界因素对识别结果的影响，需要对输入视频序列中人体目标进行中心定位；为了避免图像中较强噪声对后期特征提取和识别的影响，利用形态学滤波器对视频序列进行预滤波处理。

特征提取模块是整个系统的核心部分，模拟初级视觉皮层对信息进行加工，分别使用3D Gabor时空滤波器模拟简单细胞提取运动信息，将所获得的运动信息利用脉冲神经元模型转换为神经元所传递的脉冲链信息，从而构建了运动特征提取的V1模型。

动作识别模块是根据脉冲链的平均发放率特性，提取特征向量，并将特征向量输入到支持向量机中进行识别，从而完成动作识别。

以下是分别对系统的几个模块进行详解：

(一)视频图像预处理

人眼通常是不停地移动的，直到它停留在某一目标上。研究发现，存在超过10多种不同的眼睛移动类型，其中最重要的是固视和扫视。固视是将眼睛停留集中在某点，并标记在中心凹的地方。当眼睛固视时，大脑就开始处理从眼部接受到的视觉信息。扫视是将眼睛在若干固视点间移动，平均时间为20～40ms。绝大多数的光感细胞位于视网膜的中央凹，这些光感细胞是大脑能否接受视觉信息的关键因素。这就是为什么只有固视某个目标或者接近它，才能较好地认知该目标。为此本发明在模拟视觉机制时充分考虑该特性，对视频图像中目标进行中心定位的预处理，从而有利于探索眼睛向大脑传递信息的属性，保证模型中脉冲神经元反应的完整性。

视频图像运动目标的中心定位也可以理解成目标跟踪，最常使用的方法是用背景相减来定位目标，也可以使用基于显著性注意的方法定位目标。在此基础上，设置相当人眼视野的窗口，其大小保证视频中目标在窗口中，且随着目标运动而运动，始终保持目标在窗口的中心位置。Weizmann数据库中的视频，已经存在目标跟踪与分割好的二值图，可直接进行中心定位。

由于视频图像采集环境的不同，设备性能的优劣，所获取的视频图像往往存在对比度较低、噪声较大等缺点。为了避免视频图像中较强噪声和杂乱背景等影响简单细胞对目标运动信息的检测，可以采用简单的滤波方法对图像进行预处理。如使用形态学滤波的方法消除杂乱背景和噪声。该滤波器采用半圆形的结构元素，利用公式(1)表示的形态学闭合操作消除杂乱背景和部分噪声。

I＝(f·b)-f (1)

其中f为视频图像，b为形态学结构元素，I为滤波后图像。

(二)运动特征提取模块

视觉系统的初级视皮层V1对应着大脑进行视觉处理的第一个区域，本发明主要致力于在V1层得到运动模式，为此所构建的运动特征提取模型也称之为V1模型(V1_model)，V1_model分成3个阶段：(1)局部运动信息探测，即使用时空滤波器模拟简单细胞获取运动信息；(2)脉冲生成层，即利用脉冲神经元模型将运动信息转换成脉冲的形式，从而形成包含运动特征的脉冲链；(3)特征提取，即通过对脉冲链的分析，获取反映动作信息的特征向量。

1、局部运动信息检测

为了模拟初级视皮层V1区的简单细胞提取视觉目标运动信息，通常使用一组时空滤波器完成。这主要是因为时空滤波器能较好地表达初级视觉皮层中简单细胞对速度和方向具有选择性的特征，从而能有效地进行运动分析，提取视频图像中目标的运动信息。

根据时空滤波器所具有的时间和空间特性，研究者设计出许多不同的时空滤波器，其主要区别在时间和空间信息的结合方式。其中，较典型的时空滤波器为Nicolat Petkov提出的3D Gabor时空滤波器，该时空滤波器利用如式(2)的核函数构造而成。

\overset{&OverBar;}{x} = x \cos (θ) + y \sin (θ)

\overset{&OverBar;}{y} = - x \sin (θ) + y \cos (θ)

ϵ (t) = \{\begin{matrix} 1 & t &GreaterEqual; 0 \\ 0 & t < 0 \end{matrix} - - - (2)

其中参数γ表示Gaussian包椭圆函数在空间上的比率因子；σ参数表示Gaussian函数的标准差，该参数决定细胞感受野的大小，v参数表示滤波器中余弦函数的相位速率，决定运动速率；θ参数表示滤波器的在空间和运动上的方向；

表示滤波器在空间上相对于运动中心的对称性；vc参数表示空间Gaussian函数沿

坐标的运动速率。

式(2)所表达的3D Gabor滤波器是以Adelson和Bergen的2D Gabor滤波器为基础构造的，由空间Gaussian包络函数及时间Gaussian包络函数两个部分组成，其中均值为u_t、标准差为τ的时间Gaussian包络函数表述了简单细胞感受野兴奋和抑制强度随时间的变化情况。

由于3D Gabor滤波器是根据模拟简单细胞在空间上对方向具有选择性的2D Gabor滤波器推广构建的，为了较好地说明3D Gabor滤波器的有效性，需要对其在感受野的地特性进行分析。大量的研究表明简单细胞的感受野比同心圆拮抗形复杂，它被认为是线条边缘等简单形状限速的特征提取器，其感受野特性在空间上的可视化描述如图2(a)所示。通过对3D Gabor时空滤波器的特性分析，得到如图2(b)所示的可视化图。由图2(b)可以发现，在灰色表示的负极性抑制区的两端是由黑色表示的正极性兴奋区域构成，该结构与图2(a)所示简单细胞的感受野在空间的特征完全类似，因此较好地模拟了简单细胞。

另外一方面，当滤波器的速度v越大时，感受野的范围也越大。并且当滤波器的运动方向和图像的运动方向一致时，滤波器的响应最大；当滤波器的速度和图像运动速度相同时，响应也最大。这也准确地模拟了视觉皮层中简单细胞的方向选择性。

利用(2)式模拟简单细胞所构建的3DGabor时空滤波器对视频图像进行处理，可获得视频图像中的运动信息。运动信息为3D Gabor滤波器的响应

即(3)式所给出的3D Gabor滤波器与视频图像进行卷积：

其中为3D Gabor时空滤波器的核函数，I(x，y，t)为输入的视频。

根据简单细胞所具有的方向选择性，可获得3D Gabor滤波器在不同方向上的响应。若选取N_o个不同的方向，这N_o个不同方向的3DGabor时空滤波器模拟简单细胞的感受野。简单细胞还具有另外一个特性，即对于在感受野中的运动刺激，其响应对相位也较敏感。为此，该响应V_v，θ(x，y，t)可通过两个相位相互正交滤波器响应的平方和表示：

V_{v, θ} (x, y, t) = \sqrt{r_{v, θ, 0}^{2} (x, y, t) + r_{v, θ, π / 2}^{2} (x, y, t)} - - - (4)

式(4)也称之为运动能量^[15]。为了减少计算量，也将(4)式作为复杂细胞的响应模型。

大量研究结果表明，MT的感受野是由具有方向选择性V1复杂细胞的输出汇聚产生的，提出了很多的计算方法。但是，为进一步减少计算量，加快系统的速率，本发明弱化MT的作用，而仅仅采用初级视皮层V1中复杂细胞N_o个不同方向响应的线性组合表示所提取的运动信息。即将(4)式表示的N_o个不同方向的响应取平均值，获取(5)式表示的V1模型第一个阶段提取的运动信息：

V (x, y, t) = \frac{1}{N_{o}} Σ_{j = 1}^{N} V_{v, θ_{j}} (x, y, t) - - - (5)

根据(5)式提取原始视频图像的运动信息，并将该信息作为神经元的输入。

2、脉冲生成层

脉冲生成层是模拟视皮层中脉冲神经元的脉冲特性，即将上述检测的局部运动信息转换成脉冲的形式。在脉冲生成层中，每个单元使用integrate-and-fire脉冲神经元模型来模拟。为了系统计算简便，但不缺乏一般性，将视觉皮层神经元的分布采用均匀的方式，如图3所示。分布图中白色的点表示单个脉冲神经元，红框表示脉冲神经元感受野的大小，其中脉冲神经元的分布与3D Gabor滤波器的窗口的大小相关。视频图像经时空滤波器提取运动信息将作为脉冲神经元模型的输入，模型根据输入信息将其转换成脉冲链输出。

虽然研究者提出了大量有关脉冲神经元的模型，但Wielaard等提出的integrate and fire神经元模型能既能满足生物合理性，又能获得较高的实现效率。为此，本发明选择使用式(6)所表达的Wielaard脉冲神经元模型对运动信息进行转换^[17]。

\frac{{du}_{i} (t)}{dt} = G_{i}^{exc} (t) (E^{exc} - u_{i} (t)) + G_{i}^{inh} (t) (E^{inh} - u_{i} (t)) + g^{L} (E^{L} - u_{i} (t)) + V_{i} (t) - - - (6)

其中i表示定位在空间位置为x_i＝(x_i，y_i)的脉冲神经元，该神经元从与其突触相连的其他神经元上收集信号，作非线性处理。当细胞的归一化膜电位u_i(t)≥u时，产生脉冲，然后膜电位重置为静息电位E^L。神经元是神经网络的组成单元，其兴奋电导

及抑制电导

同上一层神经元的输出相关。

由于本发明只考虑单层的神经元网络，因为不存在上一层的神经元网络，所以兴奋电导和抑制电导不作考虑，则式(6)的脉冲神经元模型公式变成：

\frac{{du}_{i} (t)}{dt} = g^{L} (E^{L} - u_{i} (t)) + V_{i} (t) - - - (7)

其中V_i(t)模拟加工层提取的运动能量；g^L为神经元的电导。

在获取运动信息的基础上，根据式(7)操作，行走walking、弯腰bending两个不同动作的神经元脉冲响应图如图4a、图4b所示，获得了Weizmann数据库中walking、bending两个动作的脉冲链，如图5所示，其中横坐标为视频图像帧的序号，纵坐标为视野中所分布的细胞。从图5(b)可以发现在两个不同动作(图5(a))的完成过程中，对不同细胞刺激所引起的兴奋是不同的。

3、特征向量

虽然每个神经元所产生的动作电位在幅值，延时和形状等方面都有所不同，但可只将其作为离散事件考虑。即可以忽略神经元的不同特性，而只考虑脉冲的发射时间。因此，为了描述神经元随时间变化而产生的脉冲链，只需要获取脉冲离散事件所产生的时间：

T_{i} = {. . ., t_{i}^{n}, . . .},

t_{i}^{1} < t_{i}^{2} < . . . < t_{i}^{n} . . . - - - (8)

其中

表示第i的神经元所产生的第n个脉冲。图5(a)给出了V1模型某个神经元产生的脉冲链。

由于缺乏足够多的生理知识，从V1模型中得到的脉冲链，不能以确定的方式预测到最初的发放时间，因此只能从非平稳的脉冲链上识别目标。对脉冲链的研究分析，提出了许多假设，给出了许多提取脉冲链特征的方法。然而，本发明的目的是根据在视觉应用中已有的方法，能较好地应用到本系统中，实现有效的神经脉冲编码分析。其中最直观有效的方法是神经元脉冲响应的平均发放率，该方法被认为是最普遍、简单而有效的。

对于某个神经元由(8)表示的脉冲链，其平均发放率可以根据下式(9)的定义计算：

κ_{i} (t, Δt) = \frac{T_{i} (t - Δt, t)}{Δt} - - - (9)

其中[t-Δt，t]为定义在时间t上，宽度为Δt的滑动时间窗口；T_i(t-Δt，t)表示在t时刻脉冲链在滑动时间窗口Δt内脉冲的个数。式(9)表达了在滑动时间窗Δt内，神经元i发放脉冲数量的平均值，该值随时间变化情况如图5(b)所示。

式(9)的表述有较多的优点，主要表现在其不依赖于序列长度和动作起始点，反映了神经元随时间变化的兴奋情况，因此可作为反映动作的运动特征^[7]，

但是，由于该特征是时间t的变量，给该特征的使用带来很多困难。另外一方面，由于动作是一个行为过程，体现在对每个神经元的激励上，其不同神经元脉冲存在精确的时间相关性，即每个动作过程所引起神经元响应是相似的，只要选取的时间满足每个动作所持续的时间。为此，可以重构依赖于世间的平均发放率，即计算所选择时间Tmax内神经元平均发放率的平均值作为运动特征，即用式(10)中的r_i代替κ_i(t，Δt)表示特征：

r_{i} = \frac{Σ_{t = 1}^{T_{\max}} κ_{i} (t, Δt)}{T_{\max}} - - - (10)

由式(10)构建的脉冲链特征向量H_I(·)为：

H_I＝{r_i}_i＝1，...N (11)

其中N表示脉冲神经元细胞的个数。

4、分类器

分类器是模式识别中最后的一步，是将待分对象被划归为某一类而使用的数学模型。然而，分类器的性能直接影响分类的结果，为此选择监督学习的方法进行动作的分类。为了减少计算量，通过运动信息提取后所获取的反映运动本质的特征向量的样本较少，因此选用支持向量机作为分类器。在使用支持向量机对Weizmann数据库中的9个动作进行分类时，核函数采取径向基核函数(RBF)，经过在数据集上反复测试，参数C和Gamma分别选取值为99、0.01。

以下是对本发明进行实验及分析：

1、数据库及参数设置

(1)Weizmann数据库

为了验证本系统的有效性，选择标准的Weizmann数据库作为实验对象。该数据库中包含有9个不同人的9个不同动作：跑步，走路，跳跃，双腿原地跳，单腿跳，侧身移动，挥动两只手，挥动一只手，和弯腰，总共有81个视频序列。在实验过程中，对数据库中的序列划分分成两种情况：一种是任取81个视频中的9个视频作测试集，其它的作训练集。实验经过10次9倍交叉验证，获取平均动作识别率。另一种是依据Escobar的V1/MT脉冲神经元模型对Weizmann数据库的划分方式^[8]，选数据库中任意3个人(3×9个序列)的动作序列作为测试集，其他的作训练集，获取平均动作识别率。根据上述的划分序列方法进行实验，分别与Escobarr的V1/MT脉冲神经元模型和Jhuang的层次化结构模型动作识别的实验结果比较^[8，11]。值得注意的是，V1/MT模型测试集的选择方式存在84种，最终识别结果为84次的平均值，而Juang的层次化结构模型是任取5次的平均值。

(2)参数设置

每个视频序列作为模型的输入，视频序列的帧长及大小是可以调整的。本发明提出的V1_model模型中的参数设置如下所述：与其它方法类似，运动信息提取层中简单细胞的方向θ选取通常的4个，分别为0°，45°，90°，135°；3D Gabor滤波器中，运动速度v设为1pixel，而与σ对应的窗口大小设置为6×6×6；根据生理学的定义，脉冲神经元模型的初始电位，阈值电位，及重置电位分别设为-80mv、1mv、0mv；根据Weizmann数据库中的81个视频，经目标跟踪处理获取目标的二值图，并确定其定位目标窗口大小为87×63；根据该窗口大小，构建一个m×n的脉冲生成层中神经元的数量，每个脉冲神经元模型窗口的大小与简单细胞的窗口大小相关。本实验选取两者胡大小一样，且脉冲神经元分布则按照均匀分布的方式(x＝5∶4∶m-4，y＝5∶4∶n-4)。

2、实验结果及分析

(1)不同参数间比较

根据上述参数设置，为验证本系统的性能，从Weiziman数据库9×9个视频序列中任意选取72个序列作训练集，剩余的9个作测试集，进行动作识别；经过10次9倍交叉验证，表1显示了平均动作识别率(T_max＝70)。从表1可以看出其平均识别率高达97.41％，且每次识别率的偏差较小，表明了该系统的稳健性。

	平均识别率	STD	trials
				V1_model(CRF)	97.41％	0.0148	90

表1本系统V1_Model的动作识别率

当利用式(11)计算视频序列动作特征向量时，使用了时间T_max参数，那么该参数对识别率的影响如何需要进一步验证。由于Weizimann数据库中81个视频序列的每个帧长各不相同，其中最长为146，最短为28，在选取帧长进行特征计算时，帧的长度设置为20至100，步长为10帧，且当序列长度不足时选取该序列最大长度。经过实验，获取了该系统对动作识别的识别率随帧长变化情况，如图6所示。从图6可以发现，动作识别率随着帧长的增加升高，当帧长达到40帧时，识别率上升至较大值。之后，虽然随着帧长的增加识别率仍升高，但增加量较小，识别率趋于平稳。

(2)不同模型间的比较

为了本系统中采用的V1_model模型分别与Escobar的V1/MT模型以及Jhuang的层次化结构模型的比较，在实验过程中，尽量采用与之相应的测试环境。Escobar的V1/MT模型对Weizimann数据库的划分是采用9×9个序列中的9×6个序列作为训练集，分别采用不加环绕抑制和加入环绕抑制进行验证，各自进行84次试验，可获得84次的平均识别率，表2给出了不同模型识别率，其中本发明建议的V1模型所获数据的测试环境与Escobar的V1/MT模型基本一样。从表2的数据比较后可以发现，本发明建议模型的识别率高于Escobar的V1/MT模型在两种情况下的识别率。

此外，从表2的数据可以发现，Jhuang的层次化结构模型所获得的识别率高于本发明建议的模型。但值得注意的是，本发明建议模型所获得结果是采用6个对象的84个序列作为训练集，并且这6个对象是任选的，包含所有可能的组合。然而，Jhuang的模型所获取的数据是只采用5序列实验所获结局的平均值。众所周知，动作识别的性能在很大程度上是随训练集的选择不同而变化的，这样可能导致Jhuang所获结果很难解释，缺乏普遍性。

动作识别的效率是另外一个系统需要评价的指标。Escobar提出的V1/MT模型中V1层采用了8个方向的时空滤波器，而本系统模型只采用了4个方向的时空滤波器，因此在V1层的计算量上少于Escobar模型；同时，本系统V1模型没有考虑MT层，从而大大减少了计算量，提高了系统的实现速率。Jhuang提出的是一个4层的层次化结构模型，除第一层中的时空滤波器计算与本系统的V1模型类似外，其它每层还需要大量的操作计算，其计算量远大于本系统模型的计算量，因此实现动作识别所需的时间较长。为了说明本系统在实现效率上与Jhuang的层次化模型的比较，在识别处理时间上本系统模型大约为Jhuang层次化模型所需时间的百分之一。由此可见，本系统不仅提高了动作识别的准确性，而且提高了系统的识别速率。

	平均识别率	STD	trials
				V1_model(CRF)	92.96％	0.0441	84
Escobar V1/Mtmodel(CRF)	90.92％	0.0440	84
				Escobar V1/Mtmodel(CRF+surround)	92.78％	0.0462	84
Juang et al(GrC2 dense C2 features)	91.1％	0.0590	5
				Juang et al(GrC2 sparse C2 features)	97.0％	0.0300	5

表2不同模型在Weizmann数据库上识别率

综上所述，本发明所构建的系统的主要目的是实现快速、准确的动作识别。首先由于本系统采用的模型是以3D Gabor时空滤波器为基础，与其它时空滤波器相比，该滤波器将空间信息和时间信息作为一个整体来进行处理，而不是先进行时空信息处理，再进行空间信息处理。该滤波器的特性不仅与视觉皮层中简单细胞的属性吻合，而且对视频序列处理后的结果优于其它时空滤波器性能。

其次，生物视觉感知系统是一个复杂的神经网络，但其基本单元是脉冲神经元，而脉冲神经元模型已获得了较好的证实，所产生的脉冲链传递运动属性，具有生物合理性。虽然脉冲链本身具有的延迟等属性，以及所隐含的其它属性，现在仍然无法完全理解，但是本发明的最主要的目标是通过建立V1模型，实现高效，快速，确的识别目标。

最后，该系统采用的V1模型是在分析脉冲链平均发放率特性的基础上，根据视频序列中动作的行为过程来获取特征向量，并进行识别，其反映的动作的行为过程，在识别过程中受序列的初始时刻、序列的长度等因素的影响较低。

总之，由于本系统采用的V1模型只在V1层上构建，没有加入MT层。相对于Escobar的V1/MT模型以及Juang的层次化结构模型，大大的减少了计算量，在保证识别性能的前提下，缩短了识别的时间，实现快速识别。

本系统的实现一方面验证视觉机制中有关可以在初级视觉皮层V1中得到运动模式的推测，另一方面又解决的现有的仿生模型识别目标速度低的问题。但是，本系统采用的模型仍然存在许多不足的地方，比如只考虑了视觉皮层V1中复杂细胞的基本属性，而其它特性如环绕抑制等没有考虑，因此，该系统模型有待进一步完善和发展。

以上所述，仅是用以说明本发明的具体实施案例而已，并非用以限定本发明的可实施范围，举凡本领域熟练技术人员在未脱离本发明所指示的精神与原理下所完成的一切等效改变或修饰，仍应由本发明权利要求的范围所覆盖。

Claims

1.一种模拟初级视皮层脉冲神经元的动作识别系统，利用初级视觉皮层(V1)中终端抑制细胞对运动特征的反应原理，模拟简单细胞，提取动作信息，通过脉冲神经元模型将运动信息转换成脉冲链，并根据脉冲链平均发放率及其行为特性完成动作识别，其特征在于：包括视频图像预处理模块、特征提取模块和动作识别模块，其中，

2.根据权利要求1所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：所述对目标进行中心定位的方法为基于显著性注意的方法定位目标；且在进行中心定位前对采集到的视频图像进行滤波处理。

3.根据权利要求1所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：所述特征提取模块构建运动特征提取模型分为三个阶段，第一阶段为检测局部运动信息，第二阶段为形成脉冲生成层，第三阶段为特征提取。

4.根据权利要求3所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：所述第一阶段检测局部运动信息通过使用一组时空滤波器完成。

5.根据权利要求4所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：所述时空滤波器为3D Gabor时空滤波器，以2D Gabor滤波器为基础构造而成，由空间Gaussian包络函数及时间Gaussian包络函数两个部分组成，该时空滤波器利用以下公式的核函数构造而成：

\overset{&OverBar;}{x} = x \cos (θ) + y \sin (θ)

\overset{&OverBar;}{y} = - x \sin (θ) + y \cos (θ)

ϵ (t) = \{\begin{matrix} 1 & t &GreaterEqual; 0 \\ 0 & t < 0 \end{matrix}

坐标的运动速率，u_t为均值、τ为标准差。

6.根据权利要求3所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：所述第二阶段形成脉冲生成层是采用均匀的方式在视觉皮层分布多个脉冲神经元，每个单元使用integrate-and-fire脉冲神经元模型来模拟。

7.根据权利要求6所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：所述integrate-and-fire脉冲神经元模型通过以下公式对运动信息进行切换：

\frac{{du}_{i} (t)}{dt} = G_{i}^{exc} (t) (E^{exc} - u_{i} (t)) + G_{i}^{inh} (t) (E^{inh} - u_{i} (t)) + g^{L} (E^{L} - u_{i} (t)) + V_{i} (t)

其中i表示定位在空间位置为x_i＝(x_i，y_i)的脉冲神经元，该神经元从与其突触相连的其他神经元上收集信号，作非线性处理，当细胞的归一化膜电位u_i(t)≥u时，产生脉冲，然后膜电位重置为静息电位E^L，V_i(t)为模拟加工层提取的运动能量；g^L上为神经元的电导，由于神经元是神经网络的组成单元，其兴奋电导

及抑制电导

同上一层神经元的输出相关。

8.根据权利要求7所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：当只是考虑单层的神经元网络，不存在上一层的神经元网络时，上述公式变化为

\frac{{du}_{i} (t)}{dt} = g^{L} (E^{L} - u_{i} (t)) + V_{i} (t) .

9.根据权利要求1所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：所述运动识别模块建立每个神经元表示的脉冲链的平均发放率：

κ_{i} (t, Δt) = \frac{T_{i} (t - Δt, t)}{Δt}

r_{i} = \frac{Σ_{t = 1}^{T_{\max}} κ_{i} (t, Δt)}{T_{\max}}

10.根据权利要求1所述的模拟初级视皮层脉冲神经元的动作识别系统，其特征在于：利用监督分类法对所述特征向量进行分类。