CN104217214B - 基于可配置卷积神经网络的rgb‑d人物行为识别方法 - Google Patents

基于可配置卷积神经网络的rgb‑d人物行为识别方法 Download PDF

Info

Publication number
CN104217214B
CN104217214B CN201410415114.2A CN201410415114A CN104217214B CN 104217214 B CN104217214 B CN 104217214B CN 201410415114 A CN201410415114 A CN 201410415114A CN 104217214 B CN104217214 B CN 104217214B
Authority
CN
China
Prior art keywords
mrow
msub
personage
video
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410415114.2A
Other languages
English (en)
Other versions
CN104217214A (zh
Inventor
林倞
王可泽
李亚龙
王小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Original Assignee
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SYSU CMU Shunde International Joint Research Institute, National Sun Yat Sen University filed Critical SYSU CMU Shunde International Joint Research Institute
Priority to CN201410415114.2A priority Critical patent/CN104217214B/zh
Publication of CN104217214A publication Critical patent/CN104217214A/zh
Application granted granted Critical
Publication of CN104217214B publication Critical patent/CN104217214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种基于可配置卷积神经网络的RGB‑D人物行为识别方法,构建基于可动态调整结构(可配置)的深度卷积神经网络;该识别方法可以直接处理RGB‑D视频数据,并根据人物行为在时域上的变化动态调整网络结构,进而有效地自动抽取复杂人物行为的时空特征,最终大幅度提高人物行为识别的准确率。

Description

基于可配置卷积神经网络的RGB-D人物行为识别方法
技术领域
本发明涉及人物行为识别领域,更具体地,涉及一种基于可配置卷积神经网络的RGB-D人物行为识别方法。
背景技术
人物行为识别是计算机视觉研究的一个重要领域。它的应用包括智能监控、病人监护和一些涉及人机交互的系统。人物行为识别的目标是希望能够自动地从未知的视频中(例如,一段图像帧)分析和识别视频中正在发生的人物活动。简单来说,假如一个视频被分割成只包含一个单独的人物行为,系统的目标就是将该视频正确的分类到它所属的人物行为类别里。更一般的,人物行为识别希望能够持续地去识别视频中正在发生的人物活动,自动地标记出人物活动的开始时间和结束时间。
人物行为识别是一个非常具有挑战的工作,识别的准确性很容易受到具体环境的影响。例如,以前的很多人物行为识别的工作使用的都是可见光摄像机拍摄的视频(或图像帧)数据,这些数据对人物的颜色、光线强度、遮挡以及复杂背景十分敏感,使得识别的准确率低。
最近诞生的深度摄像机吸引了大批研究者的注意,且在视觉和机器人社区中有着广泛的应用。相对于传统的摄像机,深度摄像机提供了更丰富的场景信息(场景中物体距离摄像机的距离),并且能够在完全黑暗的环境中工作(这对一些病人监护系统、动物观测系统等有着很大的帮助)。深度摄像机捕获的视频称之为RGB-D视频。因而,深度摄像机的出现为人物姿势识别、动作行为识别等工作提供了更多的便利和可能。
现有对Kinect深度摄像机获取的RGB-D视频中人物复杂行为活动的识别,这里存在着两个主要的难点:
(1)对人物复杂行为的外观和运动信息的表达。由于人物个体的姿势和视角的不同,通常很难准确地抽取到人物的运动信息作为特征。同时,深度摄像机本身的机械噪声非常严重,使得人为的设计特征非常困难。
(2)人物行为在时域上的变化太大。单个人物的行为可以看作是时间序列上发生的一系列子动作。例如,“用微波炉加热食物”可以被分解成拾取食物,走动和操作微波炉等几个子动作。如附图2所示,不同的人物在做相同的行为时,在时间上具有很大的差异(子动作持续的时间不同),使得识别非常困难。
现有RGB-D人物行为识别的方法大多数是将视频表示成一系列固定长度的时间块,在该时间块上提取手工设计的特征,训练判别式或产生式的分类器来识别行为。由于手工设计的特征难以表达RGB-D视频数据中的运动信息,同时固定长度的时间块难以表达子动作在时间上的变化,其准确率不高。
发明内容
为了克服现有技术的不足,本发明提出一种结合深度学习和动态结构调整的基于可配置卷积神经网络的RGB-D人物行为识别方法,该人物行为识别方法可以直接处理RGB-D视频数据,有效地自动抽取复杂人物行为的时空特征,使得人物行为识别的准确率高。
为了实现上述的目的,本发明的技术方案为:
一种基于可配置卷积神经网络的RGB-D人物行为识别方法,包括:
S1.构建可配置的深度模型,该深度模型包含隐变量,其构建过程为;
S11.模型包括M个子网络和两个全连接层,每个子网络包括顺次连接的第一个三维卷积层、第一个降采样层、第二个三维卷积层、第二个降采样层和二维卷积层;M个子网络的输出合并在一起,连接两个串联的全连接层;
S12.在步骤S11的模型中引入隐变量,对输入的RGB-D视频帧在时间上进行划分,得到M个视频块,每个视频块作为一个子网络的输入;
S2.深度模型的学习,通过隐式网络结构反向传播算法来学习,算法迭代为:
S21.固定当前深度模型参数进行人物行为识别,同时获取每个训练样本视频在时域上的优化分解模式;
S22.固定输入视频的分解模式,使用反向传播算法学习网络的每层参数;
S3.采用深度模型对RGB-D视频的人物行为进行识别。
与现有技术相比,本发明的有益效果为:
本方法是将单个人物行为表示成一系列隐式的子动作,每个子动作都和一段不固定长度的类似立方体的视频段对应,利用深度网络,学习出一类人物行为在时域结构上特征,即可动态调整结构的深度卷积神经网络,具有以下特点:
第一,深度结构是能自动从RGB-D数据中学习出有效的特征。首先,通过堆砌三维卷积层,降采样层以及全连接层构建出深度网络。其中,每个深度网络由M个子网络构成。每个子网络的输入是分割后的视频段。在子网络中,先应用两组3D卷积核和降采样操作,抽取相邻视频帧包含的运动信息,再应用2D卷积层抽取更抽象的高层语义信息;然后,将M个子网络的输出串联成一个长向量,使得每个视频段抽取的运动特征融合在一起,作为后两层全连接层的输入,最终得到行为的识别结果。
第二,本发明公开的模型支持动态结构调整,是模型对复杂行为准确表达的关键。特别地,引入了隐变量来控制网络结构的动态调整。因此网络能够表达在时域上具有较大变化的人物行为。针对模型的特性,提出了一种两步迭代的优化方法来学习网络参数和确定隐变量,即隐结构的反向传播算法。
采样本发明的方法能够解决了RGB-D视频中复杂人物行为识别所存在两个主要问题,可以直接处理RGB-D视频数据,进而有效地自动抽取复杂人物行为的时空特征,使得人物行为识别的准确率高。
附图说明
图1是本发明系统的框图。
图2是相同行为不同用户的展示图。
图3是深度卷积神经网络示意图。
图4是三维卷积示意图。
图5是隐结构示意图。
图6是隐结构的反向传播算法图。
具体实施方式
下面结合附图对本发明做进一步的描述,但本发明的实施方式并不限于此。
1.结构化的深度模型
首先详细介绍结构化深度模型及引入的隐变量。
1.1深度卷积神经网络
为了对复杂的人物行为进行建模,在本实施方式中的深度模型如附图3所示。它由M个子网络和两个全连接层构成。其中,M个子网络的输出串联成一个长向量,再接两个全连接层。(图3中M为3,每个子网络用不同的图案来表示)每个子网络处理其相对应的视频段,该视频段跟一个从复杂行为中分解的子行为相关。每个子网络依次由三维卷积层、降采样层、三维卷积层、降采样层和二维卷积层级联构成。其中,三维卷积层能抽取出RGB-D视频的运动特征。降采样层能够对人物局部身体的变形进行很好的表达,同时对图像中的噪声不敏感。接下来详细的定义模型的各个重要部分。
三维卷积层:三维卷积是指对输入RGB-D视频帧在时间域和空间域上同时做卷积,使用它能够提取出人物的外观和运动信息。假设输入RGB-D视频帧的宽度和高度分别为w和h,三维卷积核的大小为w'×h'×m',其中w',h',m'分别表示宽度,高度和时域上的长度。如附图4所示,通过对从第s帧到s+m'-1帧的视频段应用三维卷积,可以获得一个特征图。其中位于特征图(x,y)位置处的值可以表示成,
其中p(x+i)(y+j)(s+k)表示输入的第(s+k)帧中(x+i,y+j)位置的像素值,ωijk表示卷积核的参数,b表示跟与该特征图相关的偏置。故此可以得到m-m'+1个特征图,每个特征图的大小为(w-w'+1,h-h'+1)。由于单个卷积核只能抽取一种类型的特征,因此在每一层卷积层引入了多个卷积核抽取多种不同的特征。对于每一个子网络,分别将第一,第二个卷积层的卷积核数量定义为c1和c2
经过第一个三维卷积层操作后,得到了c1个特征图集,每个包含m-m'+1个特征图。对于每一个特征图集,使用类似的三维卷积的方法得到更高层级、新的特征图集。由于在c1个特征集上使用了c2个新的第二三维卷积核,因而可以在下一层得到c1×c2个新的特征图集。
降采样层:在本实施方式中降采样使用max-pooling操作。该操作是指对特征图按照一定策略(选取最大值)进行降采样的过程。这是一种被广泛应用的有效过程,它能够提取出保持形状和偏移不变性的特征。对于一组特征图,max-pooling操作通过对它们降采样,得到同样数量的一组低分辨率特征图。更多地,如果在a1×a2大小的特征图上应用2×2的max-pooling操作,抽取2×2不重叠区域上的最大值,将得到大小为a1/2×a2/2的新特征图。
二维卷积层:二维卷积可以看成是三维卷积的特例,即将三维卷积核的时域维度的长度设置为1,例如,m'=1。通过在一组特征图上应用二维卷积,可以得到同样数量的一组新特征图。经过两层的二维卷积层以及max-pooling操作后,每组特征图在时间维度上都已经减小到足够小。在此基础上,继续应用二维卷积核来抽取特征图上更高层次的复杂特征。假设二维卷积核的数量为c3,并且在已经得到的c1×c2组特征图集上应用这些二维卷积,最终得到c1×c2×c3组新的特征图集。
全连接层:在模型中添加了两层全连接层,可以看做是在前面二维卷积层输出的基础上建立的感知机模型,全连接层分别隐藏层和逻辑回归层。首先将从M个子网络得到的特征图串联成一个长特征向量。该向量即是从RGB-D视频中抽取到的特征。它的每一维元素都连向第一个全连接层(隐藏层)的所有节点,并进一步全连接到所有的输出单元。输出单元共K个,等同于行为类别的数量K,每一个单元的输出可以看做输入视频中人的行为属于某类别的概率。为了归一化输出类别的概率,使用了softmax函数,即
zi是倒数第二层神经元乘以第i个输出层的权重后的加权求和。σ(zi)表示输出概率,且
输入数据细节:首先从每个RGB-D视频中抽取出视频帧对应的灰度图和深度图。用两个通道分别存放灰度图和深度图。在进行卷积时,分别对这两个通道内应用三维卷积,并且将两个通道的卷积结果加在一起得到最终的卷积结果,这样使得卷积的特征图保持维度的一致。当然,模型可以应用到有更多通道的视频帧(例如进一步得到视频帧的梯度或光流等通道信息)。
1.2引入了隐变量的网络结构
本实施方式的主要内容在于在深度模型结构中包含了隐变量。对于不同的包含人物行为的视频,每个子网络所对应的输入帧的起始点以及输入帧的帧数由隐变量控制。为了说明它,在附图5中展示了一个简单的例子,其中3个立方体块分别用不同的图案表示。对应起来讲,首先整个行为被分解成3个动作段,对应整个网络模型的3个子网络。每个子网络对应的输入的起始帧是可调整的,由隐变量控制。如果出现某些子网络所对应的输入帧的帧数不足m帧,那么子网络内部的部分单元将不会被激活(附图5中第一个和第三个子网络中黑色的点状圆圈)。对于给定的输入RGB-D视频,使用前向传播算法来识别视频中人物的行为。
对于单个视频样本,定义M个子网络的起始帧点为(s1,...,sM)并且对应的输入帧的数量为(t1,...t,M),其中1≤ti≤m。然后,模型的隐变量表示为H=(s1,...,sM,t1,...,tM),其表达的是每个子网络和视频段的对应关系。给定输入视频X,隐变量H以及模型的参数ω(包括网络的边权重和偏置),识别的结果可以表达成向量F(X,ω,H),其中每个元素表示视频X属于某一行为类别的概率。并且,将其属于第i类的概率简记为Fi(X,ω,H)。
2.模型的学习——隐结构的反向传播算法
由于在本实施方式的深度模型引入了隐变量,标准的反向传播算法不能优化模型的参数。因而,提出了一种隐结构的后向传播算法来学习模型参数。
隐变量指示如何对输入视频在时域上进行划分。针对在学习时模型的参数ω和隐变量H必须同时进行优化,提出了一种以下步骤迭代地优化ω和H算法:(i)给定模型参数ω,计算隐变量H,如附图6a;(ii)给定由H决定的输入帧,使用反向传播算法优化模型参数ω,如附图6b。
假设共有N个训练样本(X1,y1),...(XN,yN),其中Xi表示输入视频,yi∈{1,...K}表示行为的类别并且K是类别的数量,i=1,……,N。为了更好的表达,同时对所有样本定义了一组隐变量H={H1,...,HN}。在训练过程中,使用逻辑回归定义损失函数J(ω,H),定义为,
其中l(·)∈{0,1}是指示函数。损失函数(2.1)的前两项表示似然的相反数,而最后一项是正则项。
为了最小化损失J(ω,H),迭代地用以下步骤来优化参数ω和隐变量H。
(a)固定从上次迭代中优化的模型参数ω,可以通过最大化对应于每个样本(Xi,yi)的概率函数来最小化公式(2.1),这可以通过找到最优的隐变量H来实现,
需要提及的是,在输出结果上应用softmax分类,见公式(1.2)所示。最大化概率等价于降低样本属于其他类别的概率Fk(Xi,ω,Hi),这样使得log似然增加从而降低损失J(ω,H)。
(b)固定每个样本的隐变量,H={H1,...,HN},可以得到输入RGB-D视频在时域上的分解模式。计算此时相应的损失J(ω,H),能够获得J(ω,H)相对于参数ω的梯度。通过应用反向传播算法,能够进一步地降低损失J(ω,H)同时优化网络模型参数ω。值得注意的是,使用随机梯度下降算法更新模型的参数,并且每轮更新都使用所有的训练样本来计算。
该优化算法在步骤(a)、(b)两步中迭代直到公式(2.1)收敛为止。
3.模型的学习——基于海量普通视频的预训练
对庞大的深度卷积神经网络参数来说,RGB-D视频的数据量是太少了。为解决这一问题,同时提高识别的准确率。在本实施方式中采用了一种预训练的机制——使用传统的普通视频数据集来预训练。能够有监督地使用海量的、有动作类别标签的普通视频数据集来预训练模型。步骤如下:1)随机初始化网络参数;2)把每个普通视频从帧数上等分分解到子网络中;3)使用传统的后向传播算法来学习参数,再将学习到的子网络的参数来初始化深度模型。值得注意的是,由于预训练是普通视频数据集,只学出了第一层的三维卷积核的灰度通道的参数,没有学到深度通道的参数。而最终的输入是灰度/深度数据,所以需要将灰度通道的参数复制给深度信息的通道(D)。另外,由于高层语义需要从RGB-D数据集中学习,仅仅通过预学习来初始化子网络的参数,而全连接层的参数仍然是随机初始化。
将整个的学习过程总结为算法1。
4.人物行为识别
人物行为识别是识别输入视频X所包含的人物行为。正式的,搜索类别行为标签y和隐变量H使概率Fi(X,ω,H)最大化,
(y*,H*)=argmax(y,H)Fy(X,ω,H) (3.1)
通过优化H并搜索所有类别标签y(1≤y≤K)来计算最大的概率Fy(X,ω,H)。对于H的领域空间H=(s1,...,sM,t1,...,tM),限制每个模型块所包含的输入帧数量为τ≤ti≤m,并且不同的视频段不允许有重叠(例如,si+ti≤si+1)。在本实施方式中,将τ设置成常数τ=4。枚举在该限制条件下(该限制条件是指不同的视频段不允许有重叠)所有的H的取值情况,并通过前向算法求出概率Fy(X,ω,H)。通过选择最大的概率,得到更合适的Fy(X,ω,H*)。由于不同H决定的前向传播是相互独立的,可以通过并行计算来加速识别。在本实施方式中,使用型号为英伟达GTX TITAN的显卡,处理一个35帧的视频,只需要0.4秒。
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (9)

1.一种基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,包括以下步骤:
S1.构建可配置的深度模型,该深度模型引入隐变量,其构建过程为;
深度模型包括M个子网络和两个全连接层,每个子网络包括顺次连接的第一个三维卷积层、第一个降采样层、第二个三维卷积层、第二个降采样层和二维卷积层;M个子网络的输出合并在一起,连接两个串联的全连接层;
在深度模型中引入隐变量,对输入的RGB-D视频帧在时间上进行划分,得到M个视频块,每个视频块作为一个子网络的输入;
所述深度模型中每个子网络对应的输入的起始帧是可调整的,由隐变量控制;对于给定的输入RGB-D视频,使用前向传播算法来识别视频中人物的行为;
对于单个视频样本,定义M个子网络的起始帧点为(s1,...,sM)并且对应的输入帧的数量为(t1,...,tM),其中1≤ti≤m,
则深度模型的隐变量表示为H=(s1,...,sM,t1,...,tM),其表达的是每个子网络和视频段的对应关系;
给定输入视频X,隐变量H以及模型的参数ω,参数ω包括网络的边权重和偏置,识别的结果表达成向量F(X,ω,H),其中每个元素表示视频X属于某一行为类别的概率,将属于第i类的概率简记为Fi(X,ω,H);
S2.学习深度模型的参数,通过隐式网络结构反向传播算法来学习深度模型的参数,其学习过程为:
固定当前深度模型参数进行人物行为识别,同时获取每个训练样本视频在时域上的优化分解模式;
固定输入视频的分解模式,使用反向传播算法学习网络的每层参数;
S3.人物行为识别,在时间上枚举RGB-D视频流所有的分解模式,采用深度模型进行人物行为识别,获取最优分解模式,并在最优分解模式下输出人物行为的识别结果。
2.根据权利要求1所述的基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,步骤S1中所述三维卷积层是指对输入RGB-D视频帧在时间域和空间域上同时做卷积,使用三维卷积层能够提取出人物的外观和运动信息;
设输入RGB-D视频帧的宽度和高度分别为w和h,三维卷积核的大小为w'×h'×m',其中w',h',m'分别表示宽度,高度和时域上的长度,对从第s帧到s+m'-1帧的视频段应用三维卷积,能够获得一个特征图;
其中位于特征图(x,y)位置处的值表示成,
<mrow> <msub> <mi>v</mi> <mrow> <mi>x</mi> <mi>y</mi> <mi>s</mi> </mrow> </msub> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <mi>b</mi> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msup> <mi>w</mi> <mo>&amp;prime;</mo> </msup> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msup> <mi>h</mi> <mo>&amp;prime;</mo> </msup> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msup> <mi>m</mi> <mo>&amp;prime;</mo> </msup> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <mi>i</mi> <mo>)</mo> <mo>(</mo> <mi>y</mi> <mo>+</mo> <mi>j</mi> <mo>)</mo> <mo>(</mo> <mi>s</mi> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中p(x+i)(y+j)(s+k)表示输入的第(s+k)帧中(x+i,y+j)位置的像素值,ωijk表示卷积核的参数,b表示跟与该特征图相关的偏置;
应用三维卷积得到m-m'+1个特征图,每个特征图的大小为(w-w'+1,h-h'+,1)由于单个卷积核只能抽取一种类型的特征,则在每一层卷积层引入了多个卷积核抽取多种不同的特征,对于每一个子网络,分别将第一,第二个卷积层的卷积核数量定义为c1和c2
经过第一个三维卷积层操作后,得到了c1个特征图集,每个包含m-m'+1个特征图;对于每一个特征图集,使用与第一个三维卷积相同的三维卷积的方法得到更高层级、新的特征图集;在c1个特征图集上使用c2个新的卷积核,在第二个三维卷积层得到c1×c2个新的特征图集。
3.根据权利要求2所述的基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,步骤S1中所述降采样层使用max-pooling操作,该操作是指对特征图按照最大值的策略进行降采样的过程,能够提取出保持形状和偏移不变性的特征;对于一组特征图,max-pooling操作通过对它们降采样,得到同样数量的一组低分辨率特征图。
4.根据权利要求3所述的基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,步骤S1中所述二维卷积层是将三维卷积核的时域长度设置为1,m'=1,设二维卷积核的数量为c3,在已经得到的c1×c2组特征图集上应用二维卷积核,最终得到c1×c2×c3组新的特征图集。
5.根据权利要求4所述的基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,步骤S1中所述两个全连接层是在二维卷积层的输出上建立的感知机模型,两层全连接层分别为隐藏层和逻辑回归层;
将从M个子网络得到的特征图串联成一个长特征向量,该向量是从RGB-D视频中抽取到的特征;它的每一维元素都连向隐藏层的所有节点,并进一步全连接到网络顶部输出层所有的节点,共K个,等同于行为类别的数量K;
每一个单元的输出看做输入视频中人的行为属于某类别的概率,为了归一化输出类别的概率,使用了softmax函数,即:
<mrow> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
zi是上一层的网络节点乘以第i个输出层的权重后的加权求和,σ(zi)表示输出概率,且
6.根据权利要求1所述的基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,通过隐式网络结构反向传播算法来学习是过程为:
在学习时模型的参数ω和隐变量H必须同时进行优化,以两个步骤迭代地优化ω和H算法:
(101)给定参数ω,计算隐变量H;
(102)给定由隐变量H决定的输入帧,使用反向传播算法优化参数ω;
假设共有N个训练样本(X1,y1),...(XN,yN),其中Xi表示第i个输入视频(i=1,……,N),yi∈{1,...K}表示行为的类别,K是类别的数量;
对所有样本定义了一组隐变量H={H1,...,HN},在训练过程中,使用逻辑回归定义损失函数J(ω,H),定义为,
<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&amp;omega;</mi> <mo>,</mo> <mi>H</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>l</mi> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>k</mi> </mrow> <mo>)</mo> <mi>log</mi> <mi> </mi> <msub> <mi>F</mi> <mi>k</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&amp;omega;</mi> <mo>,</mo> <msub> <mi>H</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>l</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>k</mi> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mi>log</mi> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>F</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&amp;omega;</mi> <mo>,</mo> <msub> <mi>H</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mo>|</mo> <mo>|</mo> <mi>&amp;omega;</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中l(·)∈{0,1}是指示函数,损失函数的前两项表示似然的相反数,最后一项是正则项;
为了最小化损失J(ω,H),迭代地用以下步骤来优化参数ω和隐变量H,
(201)固定从上次迭代中优化的模型参数ω,通过最大化对应于每个样本(Xi,yi)的概率函数来最小化公式(3),通过找到最优的隐变量H来实现,
<mrow> <msubsup> <mi>H</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>=</mo> <msub> <mi>argmax</mi> <msub> <mi>H</mi> <mi>i</mi> </msub> </msub> <msub> <mi>F</mi> <msub> <mi>y</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&amp;omega;</mi> <mo>,</mo> <msub> <mi>H</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
在输出结果上应用softmax分类,最大化概率等价于降低样本属于其他类别的概率Fk(Xi,ω,Hi),
(202)固定每个样本的隐变量,H={H1,...,HN},得到输入RGB-D视频在时域上的分解模式,计算此时相应的损失J(ω,H),能够获得损失J(ω,H)相对于参数ω的梯度;通过应用反向传播算法,能够进一步地降低损失J(ω,H)同时优化网络模型参数ω,
使用随机梯度下降算法更新模型的参数,并且每轮更新都使用所有的训练样本计算;
该优化算法在步骤(201)和(202)中迭代直到公式(3)收敛为止。
7.根据权利要求6所述的基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,还包括基于海量普通视频的预训练,包括以下步骤:
1)随机初始化网络参数;
2)把每个普通视频从帧数上等分分解到子网络中;
3)使用后向传播算法学习参数,将学习到的子网络的参数初始化深度模型,深度模型最终的输入是灰度和深度数据,将灰度通道的参数复制给深度信息的通道;
通过预学习来初始化子网络的参数,全连接层的参数是随机初始化。
8.根据权利要求7所述的基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,步骤S3采用深度模型对RGB-D视频的人物行为进行识别,其具体过程为:
搜索类别行为标签y和隐变量H使概率Fi(X,ω,H)最大化,
(y*,H*)=argmax(y,H)Fy(X,ω,H) (5)
通过优化隐变量H并计算出第i个样本属于每一个类别标签的概率Fy(X,ω,H),选择最大概率;
对于H的领域空间H=(s1,...,sM,t1,...,tM),限制每个模型块所包含的输入帧数量为τ≤ti≤m,并且不同的视频段不允许有重叠;
枚举在该限制条件下所有的H的取值情况,并通过前向算法求出概率Fy(X,ω,H);通过选择最大的概率,得到更合适的Fy(X,ω,H*)。
9.根据权利要求8所述的基于可配置卷积神经网络的RGB-D人物行为识别方法,其特征在于,不同隐变量H决定的前向传播是相互独立的,能够通过并行计算来加速识别。
CN201410415114.2A 2014-08-21 2014-08-21 基于可配置卷积神经网络的rgb‑d人物行为识别方法 Active CN104217214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410415114.2A CN104217214B (zh) 2014-08-21 2014-08-21 基于可配置卷积神经网络的rgb‑d人物行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410415114.2A CN104217214B (zh) 2014-08-21 2014-08-21 基于可配置卷积神经网络的rgb‑d人物行为识别方法

Publications (2)

Publication Number Publication Date
CN104217214A CN104217214A (zh) 2014-12-17
CN104217214B true CN104217214B (zh) 2017-09-19

Family

ID=52098677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410415114.2A Active CN104217214B (zh) 2014-08-21 2014-08-21 基于可配置卷积神经网络的rgb‑d人物行为识别方法

Country Status (1)

Country Link
CN (1) CN104217214B (zh)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
JP6706788B2 (ja) * 2015-03-06 2020-06-10 パナソニックIpマネジメント株式会社 画像認識方法、画像認識装置およびプログラム
CN104850846B (zh) * 2015-06-02 2018-08-24 深圳大学 一种基于深度神经网络的人体行为识别方法及识别系统
US9633282B2 (en) 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105550749A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 一种新型网络拓扑结构的卷积神经网络的构造方法
CN105825509A (zh) * 2016-03-17 2016-08-03 电子科技大学 基于3d卷积神经网络的脑血管分割方法
CN105869016A (zh) * 2016-03-28 2016-08-17 天津中科智能识别产业技术研究院有限公司 一种基于卷积神经网络的点击通过率预估方法
CN105956558B (zh) * 2016-04-26 2019-07-23 深圳市联合视觉创新科技有限公司 一种基于三轴加速度传感器人体动作识别方法
CN105975915B (zh) * 2016-04-28 2019-05-21 大连理工大学 一种基于多任务卷积神经网络的前方车辆参数识别方法
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106096568B (zh) * 2016-06-21 2019-06-11 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法
CN106096584A (zh) * 2016-06-29 2016-11-09 深圳市格视智能科技有限公司 可拓展的基于深度卷积神经网络的间隔棒识别方法
CN106228177A (zh) * 2016-06-30 2016-12-14 浙江大学 基于卷积神经网络的日常生活物体图像识别方法
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
CN106599789B (zh) * 2016-07-29 2019-10-11 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106530284A (zh) * 2016-10-21 2017-03-22 广州视源电子科技股份有限公司 基于图像识别的焊点类型检测和装置
WO2018076130A1 (zh) * 2016-10-24 2018-05-03 中国科学院自动化研究所 物体识别模型的建立方法及物体识别方法
CN106297297B (zh) * 2016-11-03 2018-11-20 成都通甲优博科技有限责任公司 基于深度学习的交通拥堵判别方法
CN108062505B (zh) * 2016-11-09 2022-03-18 微软技术许可有限责任公司 用于基于神经网络的动作检测的方法和设备
CN106598921A (zh) * 2016-12-12 2017-04-26 清华大学 基于lstm模型的现代文到古诗的转换方法及装置
US10198655B2 (en) 2017-01-24 2019-02-05 Ford Global Technologies, Llc Object detection using recurrent neural network and concatenated feature map
CN108509827B (zh) * 2017-02-27 2022-07-08 阿里巴巴集团控股有限公司 视频流中异常内容的识别方法及视频流处理系统和方法
CN107103277B (zh) * 2017-02-28 2020-11-06 中科唯实科技(北京)有限公司 一种基于深度相机和3d卷积神经网络的步态识别方法
CN106910176B (zh) * 2017-03-02 2019-09-13 中科视拓(北京)科技有限公司 一种基于深度学习的人脸图像去遮挡方法
TWI753034B (zh) * 2017-03-31 2022-01-21 香港商阿里巴巴集團服務有限公司 特徵向量的產生、搜索方法、裝置及電子設備
CN106926242A (zh) * 2017-04-28 2017-07-07 深圳市唯特视科技有限公司 一种基于视觉上自监督学习与模仿的绳索操纵方法
CN107194559B (zh) * 2017-05-12 2020-06-05 杭州电子科技大学 一种基于三维卷积神经网络的工作流识别方法
CN107066995A (zh) * 2017-05-25 2017-08-18 中国矿业大学 一种基于卷积神经网络的遥感图像桥梁检测方法
CN107301377B (zh) * 2017-05-26 2020-08-18 浙江大学 一种基于深度相机的人脸与行人感知系统
CN109101858B (zh) * 2017-06-20 2022-02-18 北京大学 动作识别方法及装置
CN107492121B (zh) * 2017-07-03 2020-12-29 广州新节奏智能科技股份有限公司 一种单目深度视频的二维人体骨骼点定位方法
CN107403117A (zh) * 2017-07-28 2017-11-28 西安电子科技大学 基于fpga的三维卷积器
CN107506740B (zh) * 2017-09-04 2020-03-17 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN107563388A (zh) * 2017-09-18 2018-01-09 东北大学 一种基于深度信息预分割的卷积神经网络物体识别方法
CN108009486B (zh) * 2017-11-28 2021-06-08 中科亿海微电子科技(苏州)有限公司 基于深度学习训练重构图的视频识别方法及系统
CN107977930A (zh) * 2017-12-09 2018-05-01 北京花开影视制作有限公司 一种图像超分辨方法及其系统
CN108053410B (zh) * 2017-12-11 2020-10-20 厦门美图之家科技有限公司 运动目标分割方法及装置
CN108229548A (zh) * 2017-12-27 2018-06-29 华为技术有限公司 一种物体检测方法及装置
CN109416743B (zh) * 2018-01-15 2022-05-24 深圳鲲云信息科技有限公司 一种用于识别人为动作的三维卷积装置
EP3756129A1 (en) * 2018-02-21 2020-12-30 Robert Bosch GmbH Real-time object detection using depth sensors
CN108509954A (zh) * 2018-04-23 2018-09-07 合肥湛达智能科技有限公司 一种实时交通场景的多车牌动态识别方法
CN109165558B (zh) * 2018-07-26 2022-03-25 浙江大学 一种基于深度学习的电梯内异常行为检测系统
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
CN109087258B (zh) * 2018-07-27 2021-07-20 中山大学 一种基于深度学习的图像去雨方法及装置
CN109325435B (zh) * 2018-09-15 2022-04-19 天津大学 基于级联神经网络的视频动作识别及定位方法
CN109543556B (zh) * 2018-10-23 2021-06-25 北京市商汤科技开发有限公司 动作识别方法、装置、介质及设备
CN109558819B (zh) * 2018-11-20 2020-12-15 北京市遥感信息研究所 一种用于遥感图像目标检测的深度网络轻量化方法
CN109829542B (zh) * 2019-01-29 2021-04-16 武汉星巡智能科技有限公司 基于多核处理器的多元深度网络模型重构方法及装置
CN110059545A (zh) * 2019-03-08 2019-07-26 佛山市云米电器科技有限公司 一种基于卷积神经网络的智能家居用户行为识别方法
CN111860064B (zh) * 2019-04-30 2023-10-20 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
CN110210439A (zh) * 2019-06-10 2019-09-06 西北工业大学 基于轻量化三维卷积网络的行为识别方法
CN112116060B (zh) * 2019-06-21 2023-07-25 杭州海康威视数字技术股份有限公司 一种网络配置实现方法及装置
CN110348345B (zh) * 2019-06-28 2021-08-13 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
WO2021008032A1 (zh) * 2019-07-18 2021-01-21 平安科技(深圳)有限公司 监控视频处理方法、装置、计算机设备和存储介质
CN111310670B (zh) * 2020-02-19 2024-02-06 江苏理工学院 一种基于预定义和随机视点的多视图三维形状识别方法
CN111931747B (zh) * 2020-10-10 2021-01-29 中南大学 一种适于多任务迭代学习记忆的遥感图像分类方法
CN113269054B (zh) * 2021-04-30 2022-06-10 重庆邮电大学 一种基于时空2d卷积神经网络的航拍视频分析方法
CN115090200B (zh) * 2022-05-27 2023-04-07 福建省龙氟新材料有限公司 用于电子级氢氟酸制备的自动配料系统及其配料方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN103065149A (zh) * 2012-12-21 2013-04-24 上海交通大学 网纹甜瓜果实表型提取与量化方法
CN103295016A (zh) * 2013-06-26 2013-09-11 天津理工大学 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法
CN103903011A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 基于图像深度信息的智能轮椅手势识别控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN103065149A (zh) * 2012-12-21 2013-04-24 上海交通大学 网纹甜瓜果实表型提取与量化方法
CN103295016A (zh) * 2013-06-26 2013-09-11 天津理工大学 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法
CN103903011A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 基于图像深度信息的智能轮椅手势识别控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"3D Convolutional Neural Networks for Human Action Recognition ";Shuiwang Ji,Wei Xu,Ming Yang,Kai Yu;《IEEE Transations on Pattern Analysis and Machine Intelligence 》;20120306;第35卷(第1期);第221-231页 *

Also Published As

Publication number Publication date
CN104217214A (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
CN104217214B (zh) 基于可配置卷积神经网络的rgb‑d人物行为识别方法
Ghaderizadeh et al. Hyperspectral image classification using a hybrid 3D-2D convolutional neural networks
CN105320965B (zh) 基于深度卷积神经网络的空谱联合的高光谱图像分类方法
CN106023065B (zh) 一种基于深度卷积神经网络的张量型高光谱图像光谱-空间降维方法
CN105975931B (zh) 一种基于多尺度池化的卷积神经网络人脸识别方法
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN104281853B (zh) 一种基于3d卷积神经网络的行为识别方法
CN106682697A (zh) 一种基于卷积神经网络的端到端物体检测方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN108764308A (zh) 一种基于卷积循环网络的行人重识别方法
CN107818302A (zh) 基于卷积神经网络的非刚性多尺度物体检测方法
CN108830157A (zh) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN107392097A (zh) 一种单目彩色视频的三维人体关节点定位方法
CN109886358A (zh) 基于多时空信息融合卷积神经网络的人体行为识别方法
CN107463919A (zh) 一种基于深度3d卷积神经网络进行面部表情识别的方法
CN110110599B (zh) 一种基于多尺度特征融合的遥感图像目标检测方法
CN107451565B (zh) 一种半监督小样本深度学习图像模式分类识别方法
CN107229904A (zh) 一种基于深度学习的目标检测与识别方法
CN106897732A (zh) 一种基于连接文字段的自然图片中多方向文本检测方法
CN108734719A (zh) 一种基于全卷积神经网络的鳞翅目昆虫图像前背景自动分割方法
CN106326899A (zh) 一种基于高光谱图像和深度学习算法的烟叶分级方法
CN109543602A (zh) 一种基于多视角图像特征分解的行人再识别方法
CN108596327A (zh) 一种基于深度学习的地震速度谱人工智能拾取方法
CN107145830A (zh) 基于空间信息增强和深度信念网络的高光谱图像分类方法
CN109190643A (zh) 基于卷积神经网络中药识别方法及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant