CN103793054A

CN103793054A - 一种模拟陈述性记忆过程的动作识别方法

Info

Publication number: CN103793054A
Application number: CN201410021064.XA
Authority: CN
Inventors: 谌先敢; 刘海华; 高智勇; 高军峰; 唐文峰
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2014-01-17
Filing date: 2014-01-17
Publication date: 2014-05-14
Anticipated expiration: 2034-01-17
Also published as: CN103793054B

Abstract

本发明公开一种模拟陈述性记忆过程的动作识别方法，属于计算机视觉领域。本发明首先模拟视觉通路使用深度学习方法从视频序列中分别提取形状和运动特征，然后以视觉编码和语义编码的形式用树形结构将这些特征组织起来，模拟人脑的陈述性记忆，在识别阶段，通过检索陈述性记忆中的特征后投票得到视频中动作的语义标签，从而得到识别结果。本方法的优点在于，可以直接从数据学习得到特征，无需手工设计的特征；可以从新的视频数据集进行学习，能适应动作类别的不断增长，满足增量学习的要求。

Description

一种模拟陈述性记忆过程的动作识别方法

技术领域

本发明涉及一种模拟陈述性记忆过程的动作识别方法，属于计算机视觉领域，具体涉及一种可以从视频序列中的识别出人体动作的方法。

背景技术

从视频序列中识别出人体动作是一个非常重要的问题，可应用于视频监控、视频检索和人机交互。人体动作识别是指用计算机从视频序列中检测出人体动作，并进行描述和理解。

从视频中识别出人体动作的过程可以分为两个重要步骤：运动的表征和动作的分类。人体运动的表征是指从包含人体动作的视频序列中提取合适的特征数据来描述人体的运动状态。动作的分类，是指从训练数据学习得到分类模型，将测试集中表征这些人体动作的特征数据进行分类。

目前一般的动作识别方法采取的是批量学习或者在线学习的方式，批量学习需要在学习之前准备好所有的数据，难以适应动作类别的不断增长。而在线学习需要抛弃以前的学习结果，重新训练和学习，不便于利用已有的知识。这两种方式都难以满足增量学习的要求，不足以应对动作类别的不断增长。

发明内容

本发明的目的是：针对背景技术的不足，为了满足人体动作识别方面对增量学习的要求，本发明提出模拟陈述性记忆过程的动作识别方法，该方法可以从视频序列中识别出人体动作，并渐进更新知识，使更新后的知识能适应增加的动作类别。

为了实现上述目的，本发明采取的技术方案是：一种模拟陈述性记忆过程的动作识别方法，其特征在于，包括以下步骤：

第一步：模拟腹侧通路，用深度学习方法提取不同层次的形状特征；同时，模拟背侧通路，用深度学习方法提取不同层次的运动特征；所述形状特征的提取，首先在视频序列中的随机帧的随机位置选取小块，然后使用独立子空间分析（Independent Subspace Analysis, ISA）来学习不同层次的形状特征；所述运动特征的提取，首先计算视频序列的基于亮度梯度的稠密光流，在光流图像中的随机位置上选取小块，使用ISA来学习不同层次的运动特征；

第二步：在模型的训练阶段，训练集合中全部视频序列通过视觉通路进入长时记忆；模型的训练，即构建树模型的过程，对于一个训练视频，通过第一步，分别得到该视频的高级运动特征和高级形状特征，根据训练集合中全部视频的两种特征构建两棵SR树：运动SR树和形状SR树；

第三步：在识别阶段，通过检索长时记忆中的特征后投票得到视频中动作的语义标签；在识别阶段，对于一个查询视频，通过视觉通路分别得到其运动特征和形状特征，根据这两种特征分别查询运动SR树和形状SR树，然后进行投票得到视频中动作的语义标签，从而得到识别结果。

如上所述的模拟陈述性记忆过程的动作识别方法，其特征在于：所述第一步中的形状特征提取，具体步骤是：在视频序列中图像的随机位置上选取小块，用输入小块训练ISA网络，然后使用该学习到的网络，与图像中更大的区域进行卷积，卷积的结果作为第二层ISA网络的输入，第一层ISA网络的输出作为低级特征，第二层ISA网络的输出作为高级特征；一个ISA网络本身是一个两层的网络，第一层和第二层分别是平方和平方根；第一层的权重

Figure 201410021064X100002DEST_PATH_IMAGE001

被学习，第二层的权重

被固定来表示在第一层中神经元的子空间结构，其中，第二层的每个单元都汇集小邻域内的第一层单元，第二层中每个单元的输出表示为：

Figure 201410021064X100002DEST_PATH_IMAGE005

(1)

通过对下式求解来得到参数：

Figure 201410021064X100002DEST_PATH_IMAGE009

(2)

subject to

Figure 201410021064X100002DEST_PATH_IMAGE011

其中，

Figure 201410021064X100002DEST_PATH_IMAGE013

表示输入数据，

是连接输入数据到第一层单元的权重，

第一层单元到第二层单元的权重，目标函数的约束条件是正交。

如上所述的模拟陈述性记忆过程的动作识别方法，其特征在于：所述第一步中的运动特征提取，具体步骤是：首先计算视频序列的基于亮度梯度的稠密光流(Horn-Schunck)，然后在光流图像中的随机位置上选取小块，使用ISA算法来学习不同层次的运动特征；稠密光流的计算公式如下：

（3）

其中，分别表示沿着

,

和时间

轴求取图像的灰度梯度，

是归一化因子，

分别表示

,方向的光流，

是

Figure 201410021064X100002DEST_PATH_IMAGE029

与

Figure 201410021064X100002DEST_PATH_IMAGE031

卷积得到近似的拉普拉斯变化，上标

Figure 201410021064X100002DEST_PATH_IMAGE033

表示下一次迭代，经过公式（3）分别得到沿

,

轴方向的运动矢量，然后经过公式（4），可以得到图像中每个像素点最终的运动信息；

（4）

在光流图像的随机位置上选取时空小块，用输入时空小块训练ISA网络，然后使用该学习到的网络，与光流图像中更大的时空区域进行卷积，卷积的结果作为第二层ISA网络的输入，第一层ISA网络的输出作为低级特征，第二层ISA网络的输出作为高级特征。

如上所述的模拟陈述性记忆过程的动作识别方法，其特征在于：所述第三步中的识别过程，具体步骤如下：

第一步：输入一个查询视频，模拟视觉皮层中的腹侧通路，使用深度学习方法提取形状特征，包含高级特征和低级特征；同时，模拟视觉皮层中的背侧通路，使用深度学习方法提取运动特征，也包含高级特征和低级特征；视频中高级形状特征集合表示为，

，高级运动特征集合表示为

，

，用这两个特征集合共同来表示该查询视频；

第二步：对查询视频的高级形状特征集合中的每个特征

，检索形状SR树，得到

个最近邻居形状特征点

；同时对查询视频的高级运动特征集合中的每个特征

，检索运动SR树，得到

个最近邻居运动特征点

；

第三步：根据检索到的结果进行投票，获得识别结果；该过程整合来自视觉通路和长时记忆的各类特征，与工作记忆单元相关；

（5）

（6）

其中，

表示语义标签是否为

或

的指示函数，是则为1，否则为0；

为常量参数，在实验中确定；

如果

，说明通过形状和运动特征检索得到的结果一致，该语义标签所对应的即是识别结果；

如果

，说明仅通过高级特征不足以确定语义标签，要考虑低级特征；

（7）

分别为与

对应的联合特征，包含高级特征和低级特征；

为权重向量，表示形状特征在投票的时候所占的比重，在实验中确定，值对应的语义标签即为识别结果。

本发明能从视频序列中识别出人体动作，具体而言，本发明具有以下特点：

（1）模拟视觉皮层中的腹侧通路和背侧通路，用深度学习方法从视频序列中提取形状特征和运动特征来表征人体的动作；

（2）模拟长时记忆以树形结构将表征人体动作的特征组织起来，构建两类SR树；

（3）通过检索两类SR树识别出视频中人体动作的语义。

本发明实施例具有以下有益效果：

（1）本方法可以直接从数据学习得到特征，无需手工设计的特征；

（2）本方法可以从新的视频数据集进行学习，能适应动作类别的不断增长，满足增量学习的要求；

（3）本方法中，两类SR树中的叶子节点既保存高级特征供检索使用，还保存了人体动作特征相关的细节，即低级特征，这保证SR树结构可以保存大量的信息。这点与人脑的记忆结构保持一致。

附图说明

图1是本发明动作识别方法的视觉通路和记忆模块的结构图。

图2是人体动作特征进入长时记忆的过程。

图3是用ISA来学习形状特征。

图4是ISA网络结构图。

图5是树结构图。

图6是用ISA来学习运动特征。

图7是对查询视频识别其人体动作的过程。

具体实施方式

为了更好地理解本发明，下面结合实施例进一步阐明本发明的内容，但本发明的内容不仅仅局限于下面的实施例。本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样在本申请所列权利要求书限定范围之内。

下面首先对本发明所提到一些概念进行介绍：

按照信息的存贮和回忆的方式，人脑的记忆系统可分为两类：陈述性记忆和非陈述性记忆。陈述性记忆 (declarative memory )或称外显性记忆(explicit memory)，是对事实、事件以及它们之间相互关系的记忆，其特点是进入意识系统，比较具体，可以清楚地描述。非陈述性记忆 (nondeclarative memory )，也称为反射性记忆（reflexive memory）或称内隐性记忆(implicit memory) ，其特点是无意识成分参加，只涉及刺激顺序的相互关系，贮存各事件间相关联的信息，只有通过程序性的操作过程才能体现出来。

深度学习（deep learning）是机器学习领域的一个分支，其目的是建立模拟人脑进行分析的神经网络。深度学习通过组合低层特征形成更加抽象的高层特征来表示属性的类别，是一种自动学习特征的方法，无需人手工选取特征。深度学习的常用方法包括自动编码器（AutoEncoder）、稀疏编码（Sparse Coding）、限制波尔兹曼机（Restricted Boltzmann Machine）、深信度网络（Deep BeliefNetworks）、卷积神经网络（Convolutional Neural Networks）。在此，我们将独立子空间分析（Independent Subspace Analysis, ISA）结合堆积（stacking）和卷积（convolution）技术来实现深度学习方法。

独立子空间分析，是独立成分分析（Independent Component Analysis，ICA）的扩展版，ISA算法能学习到视觉皮层V1区域的感受野（当用在静态图像上的时候）和MT区域的感受野（当用到视频序列）。视觉皮层存在两条通路：与形状相关的腹侧通路，与运动相关的背侧通路。为了建立与这两条通路一致的特征提取模型，我们将ISA算法与堆积、卷积技术结合，在静态图像使用该技术来模拟腹侧通路，在视频序列上使用该技术来模拟背侧通路。

我们把动作识别问题看作是人脑对信息的学习和记忆过程，我们认为视频序列中人体动作特征进入长时记忆的过程就是联合动作特征及其语义构建树的过程，而动作识别过程就是利用动作的特征从树中检索出该动作语义的过程。

本发明直接对摄像机采集到的视频序列进行处理，实现了一种模拟陈述性记忆过程的动作识别方法。本发明分为两个部分：一、人体动作特征进入长时记忆，二、对查询视频识别其人体动作的语义。人体动作特征进入长时记忆的过程即是构建两类SR树的过程；对查询视频识别其人体动作的过程，即是通过检索两类SR树识别出视频中人体动作语义的过程。

以下结合附图对本发明做进一步的说明。

图1是视觉通路和记忆模块的结构图，人体动作特征进入长时记忆和对查询视频识别其人体动作的语义这两个过程均是以该结构为基础。

人体动作特征进入长时记忆的过程，即是构建两类SR树的过程，如图2，详细处理过程是，首先模拟视觉皮层中的腹侧通路，使用深度学习方法提取形状特征，然后联合形状特征和语义构成形状特征集合，接着构建形状SR树。提取形状特征的同时，模拟视觉皮层中的背侧通路，使用深度学习方法提取运动特征，然后联合运动特征和语义构成运动特征集合，接着构建运动SR树。形状SR树和运动SR树的构建是同时进行的。

人体动作特征进入长时记忆的过程，即是利用数据集中视频数据的特征同时构建形状SR树和运动SR树的过程，形状SR树的构建包括以下步骤：

第一步：模拟腹侧通路，用深度学习方法提取不同层次的形状特征。具体过程是：首先在视频序列中的随机帧的随机位置选取小块，使用ISA来学习不同层次的形状特征。

在视频序列中图像的随机位置上选取小块，用输入小块训练ISA网络，然后使用该学习到的网络，与图像中更大的区域进行卷积，卷积的结果作为第二层ISA网络的输入，如图3。第一层ISA网络的输出作为低级特征，第二层ISA网络的输出作为高级特征。

一个ISA网络本身是一个两层的网络（如图4），第一层和第二层分别是平方和平方根。第一层的权重

被学习，第二层的权重

被固定来表示在第一层中神经元的子空间结构。其中，第二层的每个单元都汇集小邻域内的第一层单元。第二层中每个单元的输出表示为

(1)

通过对下式求解来得到参数

(2)

subject to

表示输入数据，

是连接输入数据到第一层单元的权重，

第一层单元到第二层单元的权重，目标函数的约束条件是

正交。

第二步：联合形状特征和语义构成形状特征点。

视频序列经过上一步的处理，得到其形状特征，包括高级特征和低级特征，将这两种形状特征与该视频中动作的语义标签联合，构成形状特征点。

第三步：构建形状SR树。

在构建形状SR树的时候，我们只用到高级形状特征及其语义。（暂时不涉及低级形状特征，理由是我们认为低级形状特征属于细节信息，在检索的时候不需要使用，而是在识别的时候才会用到。）对于高级形状特征，联合其语义标签，组成一个二元组合。高级形状特征认为是视频编码，语义标签被认为是语义编码，两种编码联合，以树形结构组织起来，模拟人脑的陈述性记过程。联合视频编码和语义编码构建树的过程被认为是视频序列中动作的特征进入长时记忆的过程。构建树的过程中使用到的是高级形状特征及其标签，但节点处存储的信息除了高级形状特征，还包括相应的低级形状特征。树的结构如图5所示。

给出一个动作数据集

及其语义标签，我们从视频中提取

个高级形状特征

，其中

。联合高级形状特征和语义标签，形成二元特征组

。数据集中的每个视频得到一个形状特征集合

，使用数据集中的全部视频的形状特征集合

来构建形状SR树。

形状SR树的每个叶子节点在实体数目方面有最大和最小的限制。叶子中的实体存储的是形状特征点，如果其达到允许的最大数目则被分割并转换成中间节点，中间节点在其子节点的数目方面也有限制。

形状SR树的增长过程如下：

1.往树中插入一个新的形状特征点；

2.当一个叶子超过某个数目的时候，进行划分；

3.从第2步重新插入形状特征点。

运动SR树的构建包括以下步骤：

第一步：模拟背侧通路，用深度学习方法提取不同层次的运动特征。具体过程是：首先计算视频序列的基于亮度梯度的稠密光流(Horn-Schunck)，然后在光流图像中的随机位置上选取小块，使用ISA算法来学习不同层次的运动特征。

稠密光流的计算公式如下：

（3）

其中分别表示沿着

,

和时间

轴求取图像的灰度梯度。是归一化因子。

分别表示

,

方向的光流，是

与

卷积得到近似的拉普拉斯变化。上标

表示下一次迭代。经过公式（3）分别得到沿

,

轴方向的运动矢量，然后经过公式（4），我们可以得到图像中每个像素点最终的运动信息。

（4）

在光流图像的随机位置上选取时空小块，用输入时空小块训练ISA网络，然后使用该学习到的网络，与光流图像中更大的时空区域进行卷积，卷积的结果作为第二层ISA网络的输入，如图6。第一层ISA网络的输出作为低级特征，第二层ISA网络的输出作为高级特征。

第二步：联合运动特征和语义构成运动特征点。

视频序列经过上一步的处理，得到其运动特征，包括高级特征和低级特征，将这两种运动特征与该视频中动作的语义标签联合，构成运动特征点。

第三步：构建运动SR树。

运动SR树的构建与形状SR树相似。在构建运动SR树的时候，我们只用到运动特征点中的高级运动特征及其语义。（暂时不涉及低级运动特征，理由是我们认为低级运动特征属于细节信息，在检索的时候不需要使用，而是在识别的时候才会用到。）对于高级运动特征，联合其语义标签，组成一个二元组合。高级运动特征认为是视频编码，语义标签被认为是语义编码，两种编码联合，以树形结构组织起来，模拟人脑的陈述性记过程。联合视频编码和语义编码构建树的过程被认为是视频序列中动作的特征进入长时记忆的过程。构建树的过程中使用到的是高级运动特征及其标签，但节点处存储的信息除了高级运动特征，还包括相应的低级运动特征。树的结构如图5所示。

给出一个动作数据集及其语义标签

，我们从视频

中提取

个高级运动特征

，其中

。联合高级运动特征和语义标签，形成二元特征组

。数据集中的每个视频

得到一个运动特征集合，使用数据集中的全部视频的运动特征集合

来构建运动SR树。

运动SR树的每个叶子节点在实体数目方面有最大和最小的限制。叶子中的实体存储的是运动特征点，如果其达到允许的最大数目则被分割并转换成中间节点，中间节点在其子节点的数目方面也有限制。

运动SR树的增长过程如下：

1.往树中插入一个新的运动特征点；

2.当一个叶子超过某个数目的时候，进行划分；

3.从第2步重新插入运动特征点。

对查询视频识别其人体动作的过程，即是通过检索两类SR树识别出视频中人体动作语义的过程。首先模拟视觉皮层中的腹侧通路，使用深度学习方法提取形状特征，然后通过该特征检索形状SR树，得到一些包含语义信息的形状特征点。同时，模拟视觉皮层中的背侧通路，使用深度学习方法提取运动特征，通过该特征检索运动SR树，也得到一些包含语义信息的运动特征点。对获取的形状特征点和运动特征点进行投票，得到动作的语义标签，即为最终的识别结果。如图7，详细步骤如下：

第一步：输入一个查询视频，模拟视觉皮层中的腹侧通路，使用深度学习方法提取形状特征，包含高级特征和低级特征；同时，模拟视觉皮层中的背侧通路，使用深度学习方法提取运动特征，也包含高级特征和低级特征。用深度学习方法提取形状特征和运动特征的方式与图2中的特征提取方式相同。视频中高级形状特征集合表示为

，

，高级运动特征集合表示为

，

，用这两个特征集合共同来表示该查询视频。

第二步：对查询视频的高级形状特征集合中的每个特征

，检索形状SR树，得到

个最近邻居形状特征点

；同时对查询视频的高级运动特征集合中的每个特征

，检索运动SR树，得到

个最近邻居运动特征点。

第三步：根据检索到的结果进行投票，获得识别结果。该过程整合来自视觉通路和长时记忆的各类特征，与工作记忆单元相关。

（5）

（6）

其中，表示语义标签是否为

或

的指示函数，是则为1，否则为0。

为常量参数，在实验中确定。

如果

，说明通过形状和运动特征检索得到的结果一致，该语义标签所对应的即为识别结果。

如果

，说明仅通过高级特征不足以确定语义标签，要考虑低级特征。

（7）

分别为与

对应的联合特征（包含高级特征和低级特征）。

为权重向量，表示形状特征在投票的时候所占的比重，在实验中确定。

值对应的语义标签即为识别结果。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种模拟陈述性记忆过程的动作识别方法，其特征在于，包括以下步骤：

第一步：模拟腹侧通路，用深度学习方法提取不同层次的形状特征；同时，模拟背侧通路，用深度学习方法提取不同层次的运动特征；所述形状特征的提取，首先在视频序列中的随机帧的随机位置选取小块，然后使用ISA来学习不同层次的形状特征；所述运动特征的提取，首先计算视频序列的基于亮度梯度的稠密光流，在光流图像中的随机位置上选取小块，使用ISA来学习不同层次的运动特征；

2.根据权利要求1所述的模拟陈述性记忆过程的动作识别方法，其特征在于：所述第一步中的形状特征提取，具体步骤是：在视频序列中图像的随机位置上选取小块，用输入小块训练ISA网络，然后使用该学习到的网络，与图像中更大的区域进行卷积，卷积的结果作为第二层ISA网络的输入，第一层ISA网络的输出作为低级特征，第二层ISA网络的输出作为高级特征；一个ISA网络本身是一个两层的网络，第一层和第二层分别是平方和平方根；第一层的权重