CN103761510A

CN103761510A - 模拟人类视皮层感知机制的动作识别方法

Info

Publication number: CN103761510A
Application number: CN201410004378.9A
Authority: CN
Inventors: 徐向民; 陈泉谷; 杨予奔; 陆湛; 李猛; 詹禹震
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-01-02
Filing date: 2014-01-02
Publication date: 2014-04-30

Abstract

本发明公开了一种模拟人类视皮层感知机制的动作识别方法，步骤为：对视频图像序列进行预处理；特征提取：建立S1单元模型，通过S1进行张量局部最大值滤波处理得到C1单元模型；从训练阶段得到的C1单元模型中随机提取片段与C1进行模版匹配得到S2单元模型，对S2进行全局最大值滤波，得到C2单元模型；选取训练阶段得到的C2单元模型中随机提取片段与C2单元模型进行模版匹配得到S3单元模型，对S3单元模型进行全局最大值滤波，得到特征张量C3单元；先后将经过预处理过的训练样本和测试样本进行上述特征提取处理，得到特征张量C3；特征张量C3输入分类器中进行分类。本发明能够高效﹑快速且准确地识别运动目标的动作。

Description

模拟人类视皮层感知机制的动作识别方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种模拟人类视皮层感知机制的动作识别方法。

背景技术

在计算机视觉领域，动作识别是近年来被广泛关注的研究热点。在视频监控领域，传统的视频监控手段都无法摆脱人的监控和管理，由于人对视频监控的注意力是随着时间逐步衰减的，长期的传统视频监控往往效率低下，丢失报警率高，因此传统的视频监控往往只起到犯罪发生后的取证作用。如果能够对视频序列进行自动分析和处理，识别其中人的动作，那么视频监控还可以用来预防犯罪的发生、对突发危险进行预警，从而发挥更大的作用。

在人机交互领域，人机交互的自然性愈来愈为系统设计所重视，理想的人机交互要求机器像人一样地理解人的行为动作，由此激发了基于视频理解的人动作识别的大量研究，由此可见，人的动作行为识别是安全监控、人机交互、视频检索等应用领域的核心关键技术，是一项非常有意义的工作。在计算机图像处理过程中，由于阴影和光照的变化、运动的非刚性和高自由度、动作发生场景的变化和人运动的模糊性等因素的影响，使得人的动作理解成为一个复杂且极具挑战性的任务。现有技术中所采用的动作识别方法主要可以归纳为三类：非参数法、容器法、参数法。但是这些动作识别方法的鲁棒性都不够强，而且对运动目标的大小变化以及一定范围内运动速度的变化非常敏感。

人眼作为一个优秀的天然视觉系统，其对视觉信息的处理机制非常完善，其工作性能远远比当前的计算机视觉系统优越。因此研究模拟视皮层神经细胞反应机制的视觉感知算法，将有助于提高计算机视觉系统的性能。随着生物神经学方面对生动运动识别研究的不断深入，部分视觉机制已被人们所了解，并在此基础上提出了神经学模型以及相应的生物视觉信息处理框架。在生物视觉系统中，识别是基于模板匹配的分层前馈型结构，其处理过程在大脑皮层中可以分为腹侧通路和背侧通路两条通道。腹侧通路主要经由初级视皮层（V1，V4区）到达能够对复杂形状产生反应的下颞叶皮层IT区，主要处理目标的形状、大小和颜色等静态信息，并具有位置尺度不变性。背侧通路则主要通过初级视皮层V1到中颞叶皮层MT区，主要处理动作和其他空间信息，实现视觉中运动信息的提取。最后大脑皮层STS区中的神经元将各部分信息整合，获得对视觉信息的认知。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种高效、快速且准确的模拟人类视皮层感知机制的动作识别方法。

本发明的目的通过下述技术方案实现：模拟人类视皮层感知机制的动作识别方法，包括以下步骤：

（1）对视频图像序列中运动目标进行中心定位的预处理，将视频图像中的运动目标限定在一个范围内；

（2）特征提取：

（2-1）使用梯度模型、光流模型或时空特征模型对经过步骤（1）预处理的视频图像序列进行处理，根据处理结果建立一个模拟V1区简单细胞对运动方向选择性的S1单元模型；

（2-2）对S1单元模型进行正方形的结构元素膨胀图像处理，对S1单元模型进行张量局部最大值滤波处理，得到C1单元模型；

（2-3）从步骤（2-2）在训练视频图像序列样本阶段得到的C1单元模型中随机提取P个n*n的片段，并建立第一片段库，然后将从C1单元模型随机提取的P个n*n的片段写入到第一片段库中；

（2-4）从第一片段库中读取所有n*n大小的片段，将步骤（2-2）中得到的C1单元模型与读取到的每一个n*n大小的片段进行模版匹配得到S2单元模型，

（2-5）对S2单元模型进行全局最大值滤波，得到C2单元模型；

（2-6）从步骤（2-5）在训练视频图像序列样本阶段得到的C2单元模型中随机提取P个n*n的片段，并建立第二片段库，然后将从C1单元模型随机提取的P个n*n的片段写入到第二片段库中；

（2-7）从第二片段库中读取所有n*n大小的片段，将步骤（2-5）中得到的C2单元模型与读取到的每一个n*n大小的片段进行模版匹配得到S3单元模型；

（2-8）对S3单元模型进行全局最大值滤波，得到特征张量C3单元；

（3）先将经过步骤（1）处理过的训练视频图像序列样本进行步骤（2）的处理，得到特征张量C3单元，然后将特征张量C3单元输入到分类器中进行处理；在训练视频图像序列样本完成上述操作时，将经过步骤（1）处理过的测试视频图像序列经过步骤（2-1）至（2-2）、（2-4）至（2-5）以及（2-7）至（2-8）处理，得到特征张量C3单元，然后将特征张量C3单元输入到分类器中进行分类，从而完成动作识别。

优选的，所述步骤（1）视频图像序列的预处理具体过程为：

（1-1）采用高斯混合模型判断视频图像中每一个像素点是否为运动点；

（1-2）计算出每一帧视频图像中运动点的中心点；

（1-3）根据运动点的中心点选取视频图像中运动目标的范围，将视频图像中的运动目标限定在一个范围内。

优选的，所述步骤（2-1）中梯度模型结合了空间上两个方向的梯度和视频序列中时间轴上的梯度建立S1单元模型，具体过程如下：

首先计算出每一帧视频图像在x轴和y轴的梯度Ix和Iy，及相邻帧之间的时间梯度It；其中梯度Ix和Iy由Sobel算子分别求x方向和y方向的方向导数得到：

Sobel(frame1，Ix，CV_32FC1，1，0，3)；

Sobel(frame1，Iy，CV_32FC1，0，1，3)；

然后通过梯度Ix、Iy和It得到以下结果：

|It/(Ix+1)|；

|It/(Iy+1)|；

最后将上述得到的结果|It/(Ix+1)|和|It/(Iy+1)|分别作为S1单元模型的第一维和第二维向量，将x方向和y方向的梯度模型计算结果Ix和Iy作为S1单元模型的第三维，将时间方向的帧数作为S1单元模型的第四维。

优选的，所述步骤（2-2）中对S1单元模型进行8×8正方形的结构元素膨胀图像处理，在S1单元模型选用张量局部最大值滤波，得到C1单元模型。

优选的，所述步骤（2-3）中在训练视频图像序列样本阶段，对每个动作行为选择T个关键帧；对应每个关键帧，在C1单元模型中随机选取q个片段；选取到的片段分别为P_j1,P_j2,...,P_jq;j=1,2...T，其中P_jq表示对应第j个关键帧中，在C1单元模型中随机选取的第q个片段；所述从C1单元模型中选取的片段总数P为T×q个。

更进一步的，所述步骤（2）中所述对每个动作行为选择的关键帧数目T为2，对应每个关键帧，在C1单元模型中随机选取的片段个数q为32，所述从C1单元模型中选取的片段总数P为64；各片段的大小n*n为4*4。

更进一步的，所述步骤（2-4）中采用稀疏特征模式或稠密特征模式进行模版匹配得到S2单元模型，其中采用稀疏特征模式进行模版匹配的公式：

yk = \frac{m . w_{k}}{| | m | | \times | | w_{k} | |}, k = 1,2,3 . . . P, w_{k} = P_{j 1}, P_{j 2}, . . ., P_{jq}, j = 1,2 . . . T;

其中m是步骤（2-2）中得到的C1单元模型，w_k是从第一片段库中读取的第k个片段，yk为采用稀疏特征模式对第k个片段w_k进行模版匹配的结果。

更进一步的，所述步骤（2-4）中采用稠密特征模式进行模版匹配得到S2单元模型，

所述采用稠密特征模式进行模版匹配的公式为：

yk=-||m-w_k||，k=1,2，3...P，w_k=P_j1,P_j2,...,P_jq，j=1,2...T；

其中m是步骤（2-2）中得到的C1单元模型，w_k为从第一片段库中读取的第k个片段，yk为采用稠密特征模式对第k个片段w_k进行模版匹配的结果。

更进一步的，所述S2单元模型为一个四维向量，根据模版匹配的结果得到S2单元模型为：

其中F₁₁至F_Tq变量分别为片段P₁₁至P_Tq与C1单元模型进行二维模版匹配的结果。

优选的，所述步骤（3）中的分类器为SVM分类器。

本发明相对于现有技术具有如下的优点及效果：

（1）本发明方法依据神经生理学研究结论，针对视频图像序列，在背侧通路建立S1、C1、S2、C2、S3和C3的层次化特征提取模型，构造刻画了运动信息的视频序列特征，最终实现具有准确刻画运动信息的运动特征提取；本发明将相关动作视频图像序列先经过训练，然后通过分类器将测试视频图像序列进行分类处理，能够高效﹑快速且准确地识别运动目标的动作，因此将本发明方法应用于视频监控能够有效的预防犯罪的发生、并且对突发危险进行及时的预警。

（2）本发明方法通过中心定位的方式对视频图像序列进行预处理，将视频图像中的运动目标限定在一个范围内，因此减少了运动无关信息对识别的干扰，同时降低算法复杂度。

附图说明

图1是本发明模拟人类视皮层感知机制的动作识别方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例公开了一种模拟人类视皮层感知机制的动作识别方法，其特征在于，包括以下步骤：

（1）对视频图像序列中运动目标进行中心定位的预处理，将视频图像中的运动目标限定在一个范围内；从而减少运动无关信息对识别的干扰，同时降低算法复杂度；在本实施例中具体的预处理步骤如下：

（1-2）计算出每一帧视频图像中运动点的中心点；

（1-3）根据运动点的中心点选取视频图像中运动目标的范围，将视频图像中运动目标限定在一个范围内。

（2）特征提取：

（2-1）使用梯度模型对经过步骤（1）预处理的视频图像序列进行处理，根据处理结果建立一个模拟V1区简单细胞对运动方向选择性的S1单元模型；本实施例也可以采用光流模型或时空特征模型建立S1单元模型，其中本实施例中所采用的梯度模型结合了空间上两个方向的梯度和视频序列中时间轴上的梯度建立了一个四维向量的S1单元模型，具体过程如下：

Sobel(frame1，Ix，CV_32FC1，1，0，3)；

Sobel(frame1，Iy，CV_32FC1，0，1，3)；

然后通过梯度Ix、Iy和It得到以下结果：

|It/(Ix+1)|；

|It/(Iy+1)|；

最后将上述得到的结果|It/(Ix+1)|和|It/(Iy+1)|分别作为S1单元模型的第一维和第二维向量，将x方向和y方向的处理结果Ix和Iy作为S1单元模型的第三维，将时间方向的帧数作为S1单元模型的第四维。

（2-2）对S1单元模型进行8×8正方形的结构元素膨胀图像处理，即对S1单元模型进行张量局部最大值滤波处理，得到C1单元模型。

（2-3）在训练视频图像序列样本阶段，对每个动作行为选择T=2个关键帧，对应每个关键帧，在训练视频图像序列样本阶段得到的C1单元模型中随机选取q=32个大小为n*n的片段（patch），选取到的片段分别为P_j1,P_j2,...,P_j32，j=1,2；其中P_j32表示对应第j个关键帧中，在C1单元模型中随机选取的第32个片段；总共选取到P=64个片段总数，并建立第一片段库，然后将从C1单元模型随机提取的片段写入到第一片段库中；其中各片段的大小n*n为4*4，即n为4。

（2-4）从第一片段库中读取所有4*4大小的片段，将步骤（2-2）中得到的C1单元模型与读取到的每个4*4大小的片段进行模版匹配，得到S2单元模型，本实施例在该步骤中采用稀疏特征模式进行模版匹配得到S2单元模型，其中所述稀疏特征模式为：

yk = \frac{m . w_{k}}{| | m | | \times | | w_{k} | |}, k = 1,2,3 . . . P, w_{k} = P_{j 1} {, P}_{j 2} {, . . ., P}_{jq}, j = 1,2 . . . T;

其中m是步骤（2-2）中得到的C1单元模型，w_k是从第一片段库中读取的第k个片段，yk为采用稀疏特征模式对第k个片段w_k进行模版匹配的结果，本实施例中P=64，q=32；

本实施例得到的S2单元模型为一个四维向量，模版匹配得到的匹配结果为二维向量；将二维模版匹配的结果分别作为S2单元模型的第一维和第二维，将时间方向的视频图像帧数作为S2单元模型的第三维，将第一片段库中片段的总数作为S2单元模型的第四维；其中根据模版匹配结果得到本实施例S2单元模型为：

F₁₁至F_Tq变量分别为片段P₁₁至P_Tq与C1单元模型进行二维模版匹配的结果。

（2-5）对S2单元模型进行全局最大值滤波，得到一个二维向量，然后对该二位向量其进行冒泡排序，取该排序中最大的一半数值，作为C2单元模型。

（2-6）从步骤（2-5）在训练视频图像序列样本阶段得到的C2单元模型中随机提取64个4*4的片段，并建立第二片段库，将从C2单元模型随机提取的64个4*4的片段写入到第二片段库中。

（2-7）从第二片段库中读取所有4*4大小的片段，将步骤（2-5）中得到的C2单元模型与读取到的每个4*4大小的片段进行模版匹配得到S3单元模型。

（2-8）对S3单元模型进行全局最大值滤波，得到一个二维向量，然后对该二位向量其进行冒泡排序，取该排序中最大的一半数值，作为特征张量C3单元。

（3）先将经过步骤（1）处理过的训练视频图像序列样本（包括正样本和负样本）进行步骤（2）的处理，得到特征张量C3单元，然后将特征张量C3单元输入到SVM分类器中进行处理；在训练视频图像序列样本完成上述操作时，将将经过步骤（1）处理过的测试视频图像序列经过步骤（2-1）至（2-2）、（2-4）至（2-5）以及（2-7）至（2-8）处理，得到特征张量C3单元，然后将特征张量C3单元输入到SVM分类器中进行分类，从而完成动作识别。

在本实施例步骤（2-4）中也可以采用稠密特征模式进行模版匹配得到S2单元模型，其中采用稠密特征模式进行模版匹配的公式为：

yk=-||m-w_k||，k=1,2，3...P，w_k=P_j1,P_j2,...,P_jq，j=1,2...T；

本实施例在建立S3单元模型时也采用在建立S2模型时所采用的稀疏特征模式或稠密特征模式进行模版匹配。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.模拟人类视皮层感知机制的动作识别方法，其特征在于，包括以下步骤：

（2）特征提取：

（2-5）对S2单元模型进行全局最大值滤波，得到C2单元模型；

2.根据权利要求1所述的模拟人类视皮层感知机制的动作识别方法，其特征在于，所述步骤（1）视频图像序列的预处理具体过程为：

（1-2）计算出每一帧视频图像中运动点的中心点；

3.根据权利要求1所述的模拟人类视皮层感知机制的动作识别方法，其特征在于，所述步骤（2-1）中梯度模型结合了空间上两个方向的梯度和视频序列中时间轴上的梯度建立S1单元模型，具体过程如下：

Sobel(frame1，Ix，CV_32FC1，1，0，3)；

Sobel(frame1，Iy，CV_32FC1，0，1，3)；

然后通过梯度Ix、Iy和It得到以下结果：

|It/(Ix+1)|；

|It/(Iy+1)|；

4.根据权利要求1所述的模拟人类视皮层感知机制的动作识别方法，其特征在于，所述步骤（2-2）中对S1单元模型进行8×8正方形的结构元素膨胀图像处理，在S1单元模型选用张量局部最大值滤波，得到C1单元模型。

5.根据权利要求1所述的模拟人类视皮层感知机制的动作识别方法，其特征在于，所述步骤（2-3）中在训练视频图像序列样本阶段，对每个动作行为选择T个关键帧；对应每个关键帧，在C1单元模型中随机选取q个片段；选取到的片段分别为P_j1,P_j2,...,P_jq;j=1,2...T；所述从C1单元模型中选取的片段总数P为T×q个。

6.根据权利要求5所述的模拟人类视皮层感知机制的动作识别方法，其征在于，所述步骤（2）中所述对每个动作行为选择的关键帧数目T为2，对应每个关键帧，在C1单元模型中随机选取的片段个数q为32，所述从C1单元模型中选取的片段总数P为64；各片段的大小n*n为4*4。

7.根据权利要求5所述的模拟人类视皮层感知机制的动作识别方法，其特征在于，所述步骤（2-4）中采用稀疏特征模式或稠密特征模式进行模版匹配得到S2单元模型，其中采用稀疏特征模式进行模版匹配的公式：

yk = \frac{m . w_{k}}{| | m | | \times | | w_{k} | |}, k = 1,2,3 . . . P, w_{k} = P_{j 1}, P_{j 2}, . . ., P_{jq}, j = 1,2 . . . T;

8.根据权利要求5所述的模拟人类视皮层感知机制的动作识别方法，其特征在于，所述步骤（2-4）中采用稠密特征模式进行模版匹配得到S2单元模型，

所述采用稠密特征模式进行模版匹配的公式为：

yk=-||m-w_k||，k=1,2，3...P，w_k=P_j1,P_j2,...,P_jq，j=1,2...T；

9.根据权利要求7或8所述的模拟人类视皮层感知机制的动作识别方法，其特征在于，所述S2单元模型为一个四维向量，根据模版匹配的结果得到S2单元模型为：

10.根据权利要求1所述的模拟人类视皮层感知机制的动作识别方法，其特征在于，所述步骤（3）中的分类器为SVM分类器。