CN103793054A - 一种模拟陈述性记忆过程的动作识别方法 - Google Patents

一种模拟陈述性记忆过程的动作识别方法 Download PDF

Info

Publication number
CN103793054A
CN103793054A CN201410021064.XA CN201410021064A CN103793054A CN 103793054 A CN103793054 A CN 103793054A CN 201410021064 A CN201410021064 A CN 201410021064A CN 103793054 A CN103793054 A CN 103793054A
Authority
CN
China
Prior art keywords
feature
motion
video
features
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410021064.XA
Other languages
English (en)
Other versions
CN103793054B (zh
Inventor
谌先敢
刘海华
高智勇
高军峰
唐文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN201410021064.XA priority Critical patent/CN103793054B/zh
Publication of CN103793054A publication Critical patent/CN103793054A/zh
Application granted granted Critical
Publication of CN103793054B publication Critical patent/CN103793054B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种模拟陈述性记忆过程的动作识别方法,属于计算机视觉领域。本发明首先模拟视觉通路使用深度学习方法从视频序列中分别提取形状和运动特征,然后以视觉编码和语义编码的形式用树形结构将这些特征组织起来,模拟人脑的陈述性记忆,在识别阶段,通过检索陈述性记忆中的特征后投票得到视频中动作的语义标签,从而得到识别结果。本方法的优点在于,可以直接从数据学习得到特征,无需手工设计的特征;可以从新的视频数据集进行学习,能适应动作类别的不断增长,满足增量学习的要求。

Description

一种模拟陈述性记忆过程的动作识别方法
技术领域
本发明涉及一种模拟陈述性记忆过程的动作识别方法,属于计算机视觉领域,具体涉及一种可以从视频序列中的识别出人体动作的方法。
背景技术
从视频序列中识别出人体动作是一个非常重要的问题,可应用于视频监控、视频检索和人机交互。人体动作识别是指用计算机从视频序列中检测出人体动作,并进行描述和理解。
从视频中识别出人体动作的过程可以分为两个重要步骤:运动的表征和动作的分类。人体运动的表征是指从包含人体动作的视频序列中提取合适的特征数据来描述人体的运动状态。动作的分类,是指从训练数据学习得到分类模型,将测试集中表征这些人体动作的特征数据进行分类。
目前一般的动作识别方法采取的是批量学习或者在线学习的方式,批量学习需要在学习之前准备好所有的数据,难以适应动作类别的不断增长。而在线学习需要抛弃以前的学习结果,重新训练和学习,不便于利用已有的知识。这两种方式都难以满足增量学习的要求,不足以应对动作类别的不断增长。
发明内容
本发明的目的是:针对背景技术的不足,为了满足人体动作识别方面对增量学习的要求,本发明提出模拟陈述性记忆过程的动作识别方法,该方法可以从视频序列中识别出人体动作,并渐进更新知识,使更新后的知识能适应增加的动作类别。
为了实现上述目的,本发明采取的技术方案是:一种模拟陈述性记忆过程的动作识别方法,其特征在于,包括以下步骤:
第一步:模拟腹侧通路,用深度学习方法提取不同层次的形状特征;同时,模拟背侧通路,用深度学习方法提取不同层次的运动特征;所述形状特征的提取,首先在视频序列中的随机帧的随机位置选取小块,然后使用独立子空间分析(Independent Subspace Analysis, ISA)来学习不同层次的形状特征;所述运动特征的提取,首先计算视频序列的基于亮度梯度的稠密光流,在光流图像中的随机位置上选取小块,使用ISA来学习不同层次的运动特征;
第二步:在模型的训练阶段,训练集合中全部视频序列通过视觉通路进入长时记忆;模型的训练,即构建树模型的过程,对于一个训练视频,通过第一步,分别得到该视频的高级运动特征和高级形状特征,根据训练集合中全部视频的两种特征构建两棵SR树:运动SR树和形状SR树;
第三步:在识别阶段,通过检索长时记忆中的特征后投票得到视频中动作的语义标签;在识别阶段,对于一个查询视频,通过视觉通路分别得到其运动特征和形状特征,根据这两种特征分别查询运动SR树和形状SR树,然后进行投票得到视频中动作的语义标签,从而得到识别结果。
如上所述的模拟陈述性记忆过程的动作识别方法,其特征在于:所述第一步中的形状特征提取,具体步骤是:在视频序列中图像的随机位置上选取小块,用输入小块训练ISA网络,然后使用该学习到的网络,与图像中更大的区域进行卷积,卷积的结果作为第二层ISA网络的输入,第一层ISA网络的输出作为低级特征,第二层ISA网络的输出作为高级特征;一个ISA网络本身是一个两层的网络,第一层和第二层分别是平方和平方根;第一层的权重                                                
Figure 201410021064X100002DEST_PATH_IMAGE001
被学习,第二层的权重
Figure 201410021064X100002DEST_PATH_IMAGE003
被固定来表示在第一层中神经元的子空间结构,其中,第二层的每个单元都汇集小邻域内的第一层单元,第二层中每个单元的输出表示为:
Figure 201410021064X100002DEST_PATH_IMAGE005
        (1)
通过对下式求解来得到参数
Figure 201410021064X100002DEST_PATH_IMAGE009
            (2)
subject to
Figure 201410021064X100002DEST_PATH_IMAGE011
其中,
Figure 201410021064X100002DEST_PATH_IMAGE013
表示输入数据,
Figure 15568DEST_PATH_IMAGE007
是连接输入数据到第一层单元的权重,
Figure 847258DEST_PATH_IMAGE003
第一层单元到第二层单元的权重,目标函数的约束条件是正交。 
如上所述的模拟陈述性记忆过程的动作识别方法,其特征在于:所述第一步中的运动特征提取,具体步骤是:首先计算视频序列的基于亮度梯度的稠密光流(Horn-Schunck),然后在光流图像中的随机位置上选取小块,使用ISA算法来学习不同层次的运动特征;稠密光流的计算公式如下:
       
Figure 306238DEST_PATH_IMAGE014
          (3)
其中, 分别表示沿着
Figure 506407DEST_PATH_IMAGE018
,
Figure 141787DEST_PATH_IMAGE020
和时间
Figure 563541DEST_PATH_IMAGE022
轴求取图像的灰度梯度,
Figure 642487DEST_PATH_IMAGE024
是归一化因子,
Figure 516902DEST_PATH_IMAGE026
分别表示
Figure 221553DEST_PATH_IMAGE018
,方向的光流,
Figure 996928DEST_PATH_IMAGE028
Figure 201410021064X100002DEST_PATH_IMAGE029
Figure 201410021064X100002DEST_PATH_IMAGE031
卷积得到近似的拉普拉斯变化,上标
Figure 201410021064X100002DEST_PATH_IMAGE033
表示下一次迭代,经过公式(3)分别得到沿
Figure 965496DEST_PATH_IMAGE018
,
Figure 942680DEST_PATH_IMAGE034
轴方向的运动矢量,然后经过公式(4),可以得到图像中每个像素点最终的运动信息;
Figure 89758DEST_PATH_IMAGE036
     (4)
在光流图像的随机位置上选取时空小块,用输入时空小块训练ISA网络,然后使用该学习到的网络,与光流图像中更大的时空区域进行卷积,卷积的结果作为第二层ISA网络的输入,第一层ISA网络的输出作为低级特征,第二层ISA网络的输出作为高级特征。
如上所述的模拟陈述性记忆过程的动作识别方法,其特征在于:所述第三步中的识别过程,具体步骤如下:
第一步:输入一个查询视频,模拟视觉皮层中的腹侧通路,使用深度学习方法提取形状特征,包含高级特征和低级特征;同时,模拟视觉皮层中的背侧通路,使用深度学习方法提取运动特征,也包含高级特征和低级特征;视频中高级形状特征集合表示为
Figure 874361DEST_PATH_IMAGE040
,高级运动特征集合表示为
Figure 655235DEST_PATH_IMAGE042
Figure 922399DEST_PATH_IMAGE044
,用这两个特征集合共同来表示该查询视频;
第二步:对查询视频的高级形状特征集合中的每个特征
Figure 497737DEST_PATH_IMAGE046
,检索形状SR树,得到
Figure 99620DEST_PATH_IMAGE048
个最近邻居形状特征点
Figure 418606DEST_PATH_IMAGE050
;同时对查询视频的高级运动特征集合中的每个特征
Figure 789544DEST_PATH_IMAGE052
,检索运动SR树,得到
Figure 552095DEST_PATH_IMAGE054
个最近邻居运动特征点
Figure 375694DEST_PATH_IMAGE056
第三步:根据检索到的结果进行投票,获得识别结果;该过程整合来自视觉通路和长时记忆的各类特征,与工作记忆单元相关;
Figure 763950DEST_PATH_IMAGE058
       (5)
Figure 989395DEST_PATH_IMAGE060
     (6)
其中,
Figure 654338DEST_PATH_IMAGE062
表示语义标签是否为
Figure 230813DEST_PATH_IMAGE064
Figure 891602DEST_PATH_IMAGE066
的指示函数,是则为1,否则为0;
Figure 971553DEST_PATH_IMAGE068
为常量参数,在实验中确定;
如果
Figure 590753DEST_PATH_IMAGE070
,说明通过形状和运动特征检索得到的结果一致,该语义标签所对应的即是识别结果;
如果
Figure 139678DEST_PATH_IMAGE072
,说明仅通过高级特征不足以确定语义标签,要考虑低级特征;
Figure 135315DEST_PATH_IMAGE074
(7)
Figure 804194DEST_PATH_IMAGE076
分别为与
Figure 594296DEST_PATH_IMAGE078
对应的联合特征,包含高级特征和低级特征;
Figure 630516DEST_PATH_IMAGE080
为权重向量,表示形状特征在投票的时候所占的比重,在实验中确定,值对应的语义标签即为识别结果。
本发明能从视频序列中识别出人体动作,具体而言,本发明具有以下特点:
(1)模拟视觉皮层中的腹侧通路和背侧通路,用深度学习方法从视频序列中提取形状特征和运动特征来表征人体的动作;
(2)模拟长时记忆以树形结构将表征人体动作的特征组织起来,构建两类SR树;
(3)通过检索两类SR树识别出视频中人体动作的语义。
本发明实施例具有以下有益效果:
(1)本方法可以直接从数据学习得到特征,无需手工设计的特征;
(2)本方法可以从新的视频数据集进行学习,能适应动作类别的不断增长,满足增量学习的要求;
(3)本方法中,两类SR树中的叶子节点既保存高级特征供检索使用,还保存了人体动作特征相关的细节,即低级特征,这保证SR树结构可以保存大量的信息。这点与人脑的记忆结构保持一致。
附图说明
图1是本发明动作识别方法的视觉通路和记忆模块的结构图。
图2是人体动作特征进入长时记忆的过程。
图3是用ISA来学习形状特征。
图4是ISA网络结构图。
图5是树结构图。
图6是用ISA来学习运动特征。
图7是对查询视频识别其人体动作的过程。
具体实施方式
为了更好地理解本发明,下面结合实施例进一步阐明本发明的内容,但本发明的内容不仅仅局限于下面的实施例。本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样在本申请所列权利要求书限定范围之内。
下面首先对本发明所提到一些概念进行介绍:
按照信息的存贮和回忆的方式,人脑的记忆系统可分为两类:陈述性记忆和非陈述性记忆。陈述性记忆  (declarative memory )或称外显性记忆(explicit memory),是对事实、事件以及它们之间相互关系的记忆,其特点是进入意识系统,比较具体,可以清楚地描述。非陈述性记忆  (nondeclarative memory ),也称为反射性记忆(reflexive memory)或称内隐性记忆(implicit memory) ,其特点是无意识成分参加,只涉及刺激顺序的相互关系,贮存各事件间相关联的信息,只有通过程序性的操作过程才能体现出来。
深度学习(deep learning)是机器学习领域的一个分支,其目的是建立模拟人脑进行分析的神经网络。深度学习通过组合低层特征形成更加抽象的高层特征来表示属性的类别,是一种自动学习特征的方法,无需人手工选取特征。深度学习的常用方法包括自动编码器(AutoEncoder)、稀疏编码(Sparse Coding)、限制波尔兹曼机(Restricted Boltzmann Machine)、深信度网络(Deep BeliefNetworks)、卷积神经网络(Convolutional Neural Networks)。在此,我们将独立子空间分析(Independent Subspace Analysis, ISA)结合堆积(stacking)和卷积(convolution)技术来实现深度学习方法。
独立子空间分析,是独立成分分析(Independent Component Analysis,ICA)的扩展版,ISA算法能学习到视觉皮层V1区域的感受野(当用在静态图像上的时候)和MT区域的感受野(当用到视频序列)。视觉皮层存在两条通路:与形状相关的腹侧通路,与运动相关的背侧通路。为了建立与这两条通路一致的特征提取模型,我们将ISA算法与堆积、卷积技术结合,在静态图像使用该技术来模拟腹侧通路,在视频序列上使用该技术来模拟背侧通路。
我们把动作识别问题看作是人脑对信息的学习和记忆过程,我们认为视频序列中人体动作特征进入长时记忆的过程就是联合动作特征及其语义构建树的过程,而动作识别过程就是利用动作的特征从树中检索出该动作语义的过程。
本发明直接对摄像机采集到的视频序列进行处理,实现了一种模拟陈述性记忆过程的动作识别方法。本发明分为两个部分:一、人体动作特征进入长时记忆,二、对查询视频识别其人体动作的语义。人体动作特征进入长时记忆的过程即是构建两类SR树的过程;对查询视频识别其人体动作的过程,即是通过检索两类SR树识别出视频中人体动作语义的过程。
以下结合附图对本发明做进一步的说明。
图1是视觉通路和记忆模块的结构图,人体动作特征进入长时记忆和对查询视频识别其人体动作的语义这两个过程均是以该结构为基础。
人体动作特征进入长时记忆的过程,即是构建两类SR树的过程,如图2,详细处理过程是,首先模拟视觉皮层中的腹侧通路,使用深度学习方法提取形状特征,然后联合形状特征和语义构成形状特征集合,接着构建形状SR树。提取形状特征的同时,模拟视觉皮层中的背侧通路,使用深度学习方法提取运动特征,然后联合运动特征和语义构成运动特征集合,接着构建运动SR树。形状SR树和运动SR树的构建是同时进行的。
人体动作特征进入长时记忆的过程,即是利用数据集中视频数据的特征同时构建形状SR树和运动SR树的过程,形状SR树的构建包括以下步骤:
第一步:模拟腹侧通路,用深度学习方法提取不同层次的形状特征。具体过程是:首先在视频序列中的随机帧的随机位置选取小块,使用ISA来学习不同层次的形状特征。
在视频序列中图像的随机位置上选取小块,用输入小块训练ISA网络,然后使用该学习到的网络,与图像中更大的区域进行卷积,卷积的结果作为第二层ISA网络的输入,如图3。第一层ISA网络的输出作为低级特征,第二层ISA网络的输出作为高级特征。
一个ISA网络本身是一个两层的网络(如图4),第一层和第二层分别是平方和平方根。第一层的权重
Figure 953230DEST_PATH_IMAGE007
被学习,第二层的权重
Figure 648653DEST_PATH_IMAGE003
被固定来表示在第一层中神经元的子空间结构。其中,第二层的每个单元都汇集小邻域内的第一层单元。第二层中每个单元的输出表示为
Figure DEST_PATH_IMAGE083
        (1)
通过对下式求解来得到参数
Figure 703328DEST_PATH_IMAGE007
Figure 775189DEST_PATH_IMAGE009
            (2)
subject to
Figure 684240DEST_PATH_IMAGE011
Figure 310086DEST_PATH_IMAGE013
表示输入数据,
Figure 570166DEST_PATH_IMAGE007
是连接输入数据到第一层单元的权重,
Figure 914560DEST_PATH_IMAGE003
第一层单元到第二层单元的权重,目标函数的约束条件是
Figure 943695DEST_PATH_IMAGE007
正交。
第二步:联合形状特征和语义构成形状特征点。
视频序列经过上一步的处理,得到其形状特征,包括高级特征和低级特征,将这两种形状特征与该视频中动作的语义标签联合,构成形状特征点。
第三步:构建形状SR树。
在构建形状SR树的时候,我们只用到高级形状特征及其语义。(暂时不涉及低级形状特征,理由是我们认为低级形状特征属于细节信息,在检索的时候不需要使用,而是在识别的时候才会用到。)对于高级形状特征,联合其语义标签,组成一个二元组合。高级形状特征认为是视频编码,语义标签被认为是语义编码,两种编码联合,以树形结构组织起来,模拟人脑的陈述性记过程。联合视频编码和语义编码构建树的过程被认为是视频序列中动作的特征进入长时记忆的过程。构建树的过程中使用到的是高级形状特征及其标签,但节点处存储的信息除了高级形状特征,还包括相应的低级形状特征。树的结构如图5所示。
给出一个动作数据集
Figure DEST_PATH_IMAGE085
及其语义标签,我们从视频中提取
Figure 158273DEST_PATH_IMAGE091
个高级形状特征
Figure 776336DEST_PATH_IMAGE093
,其中
Figure 250043DEST_PATH_IMAGE095
。联合高级形状特征和语义标签,形成二元特征组
Figure 969868DEST_PATH_IMAGE097
。数据集中的每个视频得到一个形状特征集合
Figure DEST_PATH_IMAGE100
,使用数据集中的全部视频的形状特征集合
Figure 718382DEST_PATH_IMAGE100
来构建形状SR树。
形状SR树的每个叶子节点在实体数目方面有最大和最小的限制。叶子中的实体存储的是形状特征点,如果其达到允许的最大数目则被分割并转换成中间节点,中间节点在其子节点的数目方面也有限制。
形状SR树的增长过程如下:
1.往树中插入一个新的形状特征点;
2.当一个叶子超过某个数目的时候,进行划分;
3.从第2步重新插入形状特征点。
运动SR树的构建包括以下步骤:
第一步:模拟背侧通路,用深度学习方法提取不同层次的运动特征。具体过程是:首先计算视频序列的基于亮度梯度的稠密光流(Horn-Schunck),然后在光流图像中的随机位置上选取小块,使用ISA算法来学习不同层次的运动特征。
稠密光流的计算公式如下:
       
Figure 456531DEST_PATH_IMAGE014
          (3)
其中  分别表示沿着
Figure 42681DEST_PATH_IMAGE018
,
Figure 798147DEST_PATH_IMAGE020
和时间
Figure 390803DEST_PATH_IMAGE022
轴求取图像的灰度梯度。是归一化因子。
Figure 897800DEST_PATH_IMAGE026
分别表示
Figure 191378DEST_PATH_IMAGE018
,
Figure 904119DEST_PATH_IMAGE020
方向的光流,
Figure 806664DEST_PATH_IMAGE029
Figure 903933DEST_PATH_IMAGE031
卷积得到近似的拉普拉斯变化。上标
Figure 471181DEST_PATH_IMAGE033
表示下一次迭代。经过公式(3)分别得到沿
Figure 628492DEST_PATH_IMAGE018
,
Figure 297502DEST_PATH_IMAGE034
轴方向的运动矢量,然后经过公式(4),我们可以得到图像中每个像素点最终的运动信息。
Figure 932883DEST_PATH_IMAGE036
     (4)
在光流图像的随机位置上选取时空小块,用输入时空小块训练ISA网络,然后使用该学习到的网络,与光流图像中更大的时空区域进行卷积,卷积的结果作为第二层ISA网络的输入,如图6。第一层ISA网络的输出作为低级特征,第二层ISA网络的输出作为高级特征。
第二步:联合运动特征和语义构成运动特征点。
视频序列经过上一步的处理,得到其运动特征,包括高级特征和低级特征,将这两种运动特征与该视频中动作的语义标签联合,构成运动特征点。
第三步:构建运动SR树。
运动SR树的构建与形状SR树相似。在构建运动SR树的时候,我们只用到运动特征点中的高级运动特征及其语义。(暂时不涉及低级运动特征,理由是我们认为低级运动特征属于细节信息,在检索的时候不需要使用,而是在识别的时候才会用到。)对于高级运动特征,联合其语义标签,组成一个二元组合。高级运动特征认为是视频编码,语义标签被认为是语义编码,两种编码联合,以树形结构组织起来,模拟人脑的陈述性记过程。联合视频编码和语义编码构建树的过程被认为是视频序列中动作的特征进入长时记忆的过程。构建树的过程中使用到的是高级运动特征及其标签,但节点处存储的信息除了高级运动特征,还包括相应的低级运动特征。树的结构如图5所示。
给出一个动作数据集及其语义标签
Figure 682850DEST_PATH_IMAGE087
,我们从视频
Figure 573577DEST_PATH_IMAGE089
中提取
Figure DEST_PATH_IMAGE103
个高级运动特征
Figure 809386DEST_PATH_IMAGE105
,其中
Figure 85647DEST_PATH_IMAGE107
。联合高级运动特征和语义标签,形成二元特征组
Figure 584761DEST_PATH_IMAGE109
。数据集中的每个视频
Figure 959854DEST_PATH_IMAGE098
得到一个运动特征集合,使用数据集中的全部视频的运动特征集合
Figure 598963DEST_PATH_IMAGE111
来构建运动SR树。
运动SR树的每个叶子节点在实体数目方面有最大和最小的限制。叶子中的实体存储的是运动特征点,如果其达到允许的最大数目则被分割并转换成中间节点,中间节点在其子节点的数目方面也有限制。
运动SR树的增长过程如下:
1.往树中插入一个新的运动特征点;
2.当一个叶子超过某个数目的时候,进行划分;
3.从第2步重新插入运动特征点。
对查询视频识别其人体动作的过程,即是通过检索两类SR树识别出视频中人体动作语义的过程。首先模拟视觉皮层中的腹侧通路,使用深度学习方法提取形状特征,然后通过该特征检索形状SR树,得到一些包含语义信息的形状特征点。同时,模拟视觉皮层中的背侧通路,使用深度学习方法提取运动特征,通过该特征检索运动SR树,也得到一些包含语义信息的运动特征点。对获取的形状特征点和运动特征点进行投票,得到动作的语义标签,即为最终的识别结果。如图7,详细步骤如下:
第一步:输入一个查询视频,模拟视觉皮层中的腹侧通路,使用深度学习方法提取形状特征,包含高级特征和低级特征;同时,模拟视觉皮层中的背侧通路,使用深度学习方法提取运动特征,也包含高级特征和低级特征。用深度学习方法提取形状特征和运动特征的方式与图2中的特征提取方式相同。视频中高级形状特征集合表示为
Figure DEST_PATH_IMAGE112
Figure 550870DEST_PATH_IMAGE113
,高级运动特征集合表示为
Figure DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE115
,用这两个特征集合共同来表示该查询视频。
第二步:对查询视频的高级形状特征集合中的每个特征
Figure DEST_PATH_IMAGE116
,检索形状SR树,得到
Figure 744085DEST_PATH_IMAGE048
个最近邻居形状特征点
Figure 524959DEST_PATH_IMAGE050
;同时对查询视频的高级运动特征集合中的每个特征
Figure 775812DEST_PATH_IMAGE052
,检索运动SR树,得到
Figure 616729DEST_PATH_IMAGE054
个最近邻居运动特征点
第三步:根据检索到的结果进行投票,获得识别结果。该过程整合来自视觉通路和长时记忆的各类特征,与工作记忆单元相关。
Figure DEST_PATH_IMAGE118
       (5)
     (6)
其中,表示语义标签是否为
Figure 721585DEST_PATH_IMAGE064
Figure 481206DEST_PATH_IMAGE066
的指示函数,是则为1,否则为0。
Figure 39227DEST_PATH_IMAGE068
为常量参数,在实验中确定。
如果
Figure 427483DEST_PATH_IMAGE070
,说明通过形状和运动特征检索得到的结果一致,该语义标签所对应的即为识别结果。
如果
Figure 652928DEST_PATH_IMAGE072
,说明仅通过高级特征不足以确定语义标签,要考虑低级特征。
(7)
Figure 117538DEST_PATH_IMAGE076
分别为与
Figure 225171DEST_PATH_IMAGE078
对应的联合特征(包含高级特征和低级特征)。
Figure 151539DEST_PATH_IMAGE080
为权重向量,表示形状特征在投票的时候所占的比重,在实验中确定。
Figure 982223DEST_PATH_IMAGE082
值对应的语义标签即为识别结果。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (4)

1.一种模拟陈述性记忆过程的动作识别方法,其特征在于,包括以下步骤:
第一步:模拟腹侧通路,用深度学习方法提取不同层次的形状特征;同时,模拟背侧通路,用深度学习方法提取不同层次的运动特征;所述形状特征的提取,首先在视频序列中的随机帧的随机位置选取小块,然后使用ISA来学习不同层次的形状特征;所述运动特征的提取,首先计算视频序列的基于亮度梯度的稠密光流,在光流图像中的随机位置上选取小块,使用ISA来学习不同层次的运动特征;
第二步:在模型的训练阶段,训练集合中全部视频序列通过视觉通路进入长时记忆;模型的训练,即构建树模型的过程,对于一个训练视频,通过第一步,分别得到该视频的高级运动特征和高级形状特征,根据训练集合中全部视频的两种特征构建两棵SR树:运动SR树和形状SR树;
第三步:在识别阶段,通过检索长时记忆中的特征后投票得到视频中动作的语义标签;在识别阶段,对于一个查询视频,通过视觉通路分别得到其运动特征和形状特征,根据这两种特征分别查询运动SR树和形状SR树,然后进行投票得到视频中动作的语义标签,从而得到识别结果。
2.根据权利要求1所述的模拟陈述性记忆过程的动作识别方法,其特征在于:所述第一步中的形状特征提取,具体步骤是:在视频序列中图像的随机位置上选取小块,用输入小块训练ISA网络,然后使用该学习到的网络,与图像中更大的区域进行卷积,卷积的结果作为第二层ISA网络的输入,第一层ISA网络的输出作为低级特征,第二层ISA网络的输出作为高级特征;一个ISA网络本身是一个两层的网络,第一层和第二层分别是平方和平方根;第一层的权重                                                
Figure 201410021064X100001DEST_PATH_IMAGE001
被学习,第二层的权重
Figure 201410021064X100001DEST_PATH_IMAGE003
被固定来表示在第一层中神经元的子空间结构,其中,第二层的每个单元都汇集小邻域内的第一层单元,第二层中每个单元的输出表示为:
        (1)
通过对下式求解来得到参数
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE009
            (2)
subject to
Figure 201410021064X100001DEST_PATH_IMAGE011
其中,
Figure 201410021064X100001DEST_PATH_IMAGE013
表示输入数据,
Figure 192425DEST_PATH_IMAGE007
是连接输入数据到第一层单元的权重,第一层单元到第二层单元的权重,目标函数的约束条件是
Figure 92565DEST_PATH_IMAGE007
正交。
3.根据权利要求1所述的模拟陈述性记忆过程的动作识别方法,其特征在于:所述第一步中的运动特征提取,具体步骤是:首先计算视频序列的基于亮度梯度的稠密光流,然后在光流图像中的随机位置上选取小块,使用ISA算法来学习不同层次的运动特征;稠密光流的计算公式如下:
     
Figure 222195DEST_PATH_IMAGE014
         (3)
其中, 分别表示沿着
Figure 115196DEST_PATH_IMAGE018
,
Figure 468817DEST_PATH_IMAGE020
和时间
Figure 142375DEST_PATH_IMAGE022
轴求取图像的灰度梯度,
Figure 75696DEST_PATH_IMAGE024
是归一化因子,分别表示
Figure 924889DEST_PATH_IMAGE018
,
Figure 210377DEST_PATH_IMAGE020
方向的光流,
Figure 353913DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE031
卷积得到近似的拉普拉斯变化,上标
Figure DEST_PATH_IMAGE033
表示下一次迭代,经过公式(3)分别得到沿
Figure 777765DEST_PATH_IMAGE018
,
Figure 738768DEST_PATH_IMAGE034
轴方向的运动矢量,然后经过公式(4),可以得到图像中每个像素点最终的运动信息;
Figure 636186DEST_PATH_IMAGE036
   (4)
在光流图像的随机位置上选取时空小块,用输入时空小块训练ISA网络,然后使用该学习到的网络,与光流图像中更大的时空区域进行卷积,卷积的结果作为第二层ISA网络的输入,第一层ISA网络的输出作为低级特征,第二层ISA网络的输出作为高级特征。
4.根据权利要求1所述的模拟陈述性记忆过程的动作识别方法,其特征在于:所述第三步中的识别过程,具体步骤如下:
第一步:输入一个查询视频,模拟视觉皮层中的腹侧通路,使用深度学习方法提取形状特征,包含高级特征和低级特征;同时,模拟视觉皮层中的背侧通路,使用深度学习方法提取运动特征,也包含高级特征和低级特征;视频中高级形状特征集合表示为
Figure 442468DEST_PATH_IMAGE038
Figure 492463DEST_PATH_IMAGE040
,高级运动特征集合表示为,用这两个特征集合共同来表示该查询视频;
第二步:对查询视频的高级形状特征集合中的每个特征
Figure 323781DEST_PATH_IMAGE046
,检索形状SR树,得到
Figure 352917DEST_PATH_IMAGE048
个最近邻居形状特征点
Figure 531089DEST_PATH_IMAGE050
;同时对查询视频的高级运动特征集合中的每个特征
Figure 216148DEST_PATH_IMAGE052
,检索运动SR树,得到
Figure 629812DEST_PATH_IMAGE054
个最近邻居运动特征点
Figure 638088DEST_PATH_IMAGE056
第三步:根据检索到的结果进行投票,获得识别结果;该过程整合来自视觉通路和长时记忆的各类特征,与工作记忆单元相关;
Figure 377374DEST_PATH_IMAGE058
       (5)
Figure 221833DEST_PATH_IMAGE060
     (6)
其中,表示语义标签是否为
Figure 800506DEST_PATH_IMAGE064
Figure 648376DEST_PATH_IMAGE066
的指示函数,是则为1,否则为0;
Figure 104765DEST_PATH_IMAGE068
为常量参数,在实验中确定;
如果
Figure 735598DEST_PATH_IMAGE070
,说明通过形状和运动特征检索得到的结果一致,该语义标签所对应的即为识别结果;
如果
Figure 328253DEST_PATH_IMAGE072
,说明仅通过高级特征不足以确定语义标签,要考虑低级特征;
Figure 533975DEST_PATH_IMAGE074
(7)
Figure 477660DEST_PATH_IMAGE076
分别为与
Figure 240080DEST_PATH_IMAGE078
对应的联合特征,包含高级特征和低级特征;
Figure 828187DEST_PATH_IMAGE080
为权重向量,表示形状特征在投票的时候所占的比重,在实验中确定,
Figure 814598DEST_PATH_IMAGE082
值对应的语义标签即为识别结果。
CN201410021064.XA 2014-01-17 2014-01-17 一种模拟陈述性记忆过程的动作识别方法 Expired - Fee Related CN103793054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410021064.XA CN103793054B (zh) 2014-01-17 2014-01-17 一种模拟陈述性记忆过程的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410021064.XA CN103793054B (zh) 2014-01-17 2014-01-17 一种模拟陈述性记忆过程的动作识别方法

Publications (2)

Publication Number Publication Date
CN103793054A true CN103793054A (zh) 2014-05-14
CN103793054B CN103793054B (zh) 2016-08-17

Family

ID=50668812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410021064.XA Expired - Fee Related CN103793054B (zh) 2014-01-17 2014-01-17 一种模拟陈述性记忆过程的动作识别方法

Country Status (1)

Country Link
CN (1) CN103793054B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616316A (zh) * 2014-05-23 2015-05-13 苏州大学 基于阈值矩阵和特征融合视觉单词的人物行为识别方法
CN105023000A (zh) * 2015-07-13 2015-11-04 中南民族大学 基于人脑视觉记忆原理的人体动作识别方法及系统
WO2018028102A1 (zh) * 2016-08-08 2018-02-15 河海大学 一种仿记忆引导的模式识别方法
CN108960031A (zh) * 2018-03-29 2018-12-07 中国科学院软件研究所 一种基于分层动力解析与编码的视频动作分类系统及方法
CN111382306A (zh) * 2018-12-28 2020-07-07 杭州海康威视数字技术股份有限公司 查询视频帧的方法和装置
US12079600B2 (en) 2019-06-28 2024-09-03 Microsoft Technology Licensing, Llc Visual programming for deep learning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4709723B2 (ja) * 2006-10-27 2011-06-22 株式会社東芝 姿勢推定装置及びその方法
CN102819751A (zh) * 2012-08-21 2012-12-12 长沙纳特微视网络科技有限公司 一种基于动作识别的人机互动方法及装置
CN103019530B (zh) * 2013-01-04 2016-09-28 深圳市中兴移动通信有限公司 基于手势识别的索引菜单的方法、装置及其终端

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616316A (zh) * 2014-05-23 2015-05-13 苏州大学 基于阈值矩阵和特征融合视觉单词的人物行为识别方法
CN104616316B (zh) * 2014-05-23 2017-11-10 苏州大学 基于阈值矩阵和特征融合视觉单词的人物行为识别方法
CN105023000A (zh) * 2015-07-13 2015-11-04 中南民族大学 基于人脑视觉记忆原理的人体动作识别方法及系统
CN105023000B (zh) * 2015-07-13 2018-05-01 中南民族大学 基于人脑视觉记忆原理的人体动作识别方法及系统
WO2018028102A1 (zh) * 2016-08-08 2018-02-15 河海大学 一种仿记忆引导的模式识别方法
GB2567595A (en) * 2016-08-08 2019-04-17 Univ Hohai Memory mimicry guided pattern recognition method
US10860891B2 (en) 2016-08-08 2020-12-08 Hohai University Memory-guide simulated pattern recognition method
GB2567595B (en) * 2016-08-08 2022-03-02 Univ Hohai Memory-guide simulated pattern recognition method
CN108960031A (zh) * 2018-03-29 2018-12-07 中国科学院软件研究所 一种基于分层动力解析与编码的视频动作分类系统及方法
CN111382306A (zh) * 2018-12-28 2020-07-07 杭州海康威视数字技术股份有限公司 查询视频帧的方法和装置
CN111382306B (zh) * 2018-12-28 2023-12-01 杭州海康威视数字技术股份有限公司 查询视频帧的方法和装置
US12079600B2 (en) 2019-06-28 2024-09-03 Microsoft Technology Licensing, Llc Visual programming for deep learning

Also Published As

Publication number Publication date
CN103793054B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103793054A (zh) 一种模拟陈述性记忆过程的动作识别方法
CN107564025A (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN106844614A (zh) 一种户型图功能区域快速识别系统
CN106156003A (zh) 一种问答系统中的问句理解方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN110826453A (zh) 一种通过提取人体关节点坐标的行为识别方法
CN114092832A (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
Bertrand et al. Bark and leaf fusion systems to improve automatic tree species recognition
CN103400160B (zh) 一种零训练样本行为识别方法
CN106022287A (zh) 一种基于深度学习与字典表示的跨年龄人脸验证方法
CN109978074A (zh) 基于深度多任务学习的图像美感和情感联合分类方法及系统
CN111046213B (zh) 一种基于图像识别的知识库构建方法
CN110366735A (zh) 分析数据的方法、设备及计算机程序
CN108073978A (zh) 一种人工智能超深度学习模型的构成方法
Kim et al. A study of an agricultural ontology model for an intelligent service in a vertical farm
CN110990589A (zh) 一种基于深度强化学习的知识图谱自动生成方法
CN114385846A (zh) 一种图像分类方法、电子设备、存储介质及程序产品
CN106055875A (zh) 一种基于大数据的皮纹分析处理装置
CN112818887A (zh) 基于无监督学习的人体骨架序列行为识别方法
Zhang et al. A pruned deep learning approach for classification of motor imagery electroencephalography signals
Acosta et al. Predicting city safety perception based on visual image content
CN106599988A (zh) 一种智能可穿戴设备行为数据的多级语义特征提取方法
CN108073985A (zh) 一种导入人工智能超深度学习用于语音识别的方法
CN116318856A (zh) 一种基于差分隐私和联邦学习的模型参数优化方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20210117

CF01 Termination of patent right due to non-payment of annual fee