CN107292247A - 一种基于残差网络的人体行为识别方法及装置 - Google Patents

一种基于残差网络的人体行为识别方法及装置 Download PDF

Info

Publication number
CN107292247A
CN107292247A CN201710413546.3A CN201710413546A CN107292247A CN 107292247 A CN107292247 A CN 107292247A CN 201710413546 A CN201710413546 A CN 201710413546A CN 107292247 A CN107292247 A CN 107292247A
Authority
CN
China
Prior art keywords
msub
mover
mrow
msup
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710413546.3A
Other languages
English (en)
Inventor
桂江生
迟元峰
包晓安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710413546.3A priority Critical patent/CN107292247A/zh
Publication of CN107292247A publication Critical patent/CN107292247A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于残差网络的人体行为识别方法及装置,首先通过opencv将视频转换为RGB图像和光流图像,然后使用残差网络提取空间特征和时间特征,再将这两个特征融合后送入分类器分类,确定视频中人体行为分类。本发明的装置包括转换模块、空间特征提取模块、时间特征提取模块、融合模块和分类模块。本发明的方法及装置,增加了网络的深度并提高了识别的准确度,同时降低了算法的时间复杂度。

Description

一种基于残差网络的人体行为识别方法及装置
技术领域
本发明属于视频识别技术领域,尤其涉及一种基于残差网络的人体行为识别方法。
背景技术
伴随着互联网技术的发展进步,网络环境的完善,以及数码相机、摄像录影机等视频获取设备的普及,网络视频、手机视频、监控视频数据呈现爆炸性的增长。为了迎接视频数据极速增长的挑战,解决大规模计算需求与高配硬件、海量视频数据与有效数据之间的矛盾,对视频内容的分析研究迫在眉睫。
对视频中人体行为的分析识别,是视频内容分析的重要组成部分。基于视频的人体行为识别是通过计算机对采集得到的未知视频序列进行处理,能自动地对视频中包含的人体行为进行检测、跟踪、分类和识别,从而使得计算机能够对人的行为进行描述和理解。由于视频中大部分有意义的信息都与人类活动有关,因此人体行为识别是智能监控、基于内容的视频检索、人机交互等应用的重要研究内容。
现有的人体行为识别方法主要有深度学习表示方法,其不需要像传统方法那样对特征提取方法进行人工设计,可以在视频数据上进行训练和学习,得到最有效的表征方法。这种思路对数据具有很强的适应性,尤其在标定数据较少的情况下能够获得更好的效果。
但是深度学习表示仍然存在一些缺点。首先深度学习表示一般直接从视频像素数据中学习特征,需要训练大量的网络参数,这造成了对行为视频样本的巨大的需求问题。其次,这些深度学习表示在训练学习的过程中,需要对海量视频数据执行卷积操作。在二维图像中,卷积操作计算量比较小,但是在三维视频中,该操作的复杂度呈指数级增长。最后,真实的行为视频场景一般都比较复杂,而大部分的行为特征对混杂背景、遮挡、镜头变换、服饰变化等因素比较敏感。那么,针对复杂场景中的行为识别,学习稳定鲁棒的不变特征,也是一个亟待解决的问题。
发明内容
本发明的目的是提供一种基于残差网络的人体行为识别方法,以避免卷积神经网络在使用高质量视频时产生的巨大计算量问题。
为了实现上述目的,本发明技术方案如下:
一种基于残差网络的人体行为识别方法,所述人体行为识别方法包括:
将视频转换为RGB图像和光流图像;
采用RGB图像作为输入,利用设定的残差网络的卷积网络提取视频的空间特征;
采用光流图像作为输入,利用所述残差网络的卷积网络提取视频的时间特征;
在卷积网络的最后一个卷积层之后,通过融合策略将视频的空间特征和时间特征融合;
将融合的空间特征和时间特征,经过残差网络的池化层和全连接层后,输入到分类器中进行分类,确定视频所属的人体行为类别。
本发明的一种实施方式,所述残差网络的卷积网络中各个卷积层为线性结构,每两层增加一个捷径连接。
本发明的另一种实施方式,所述残差网络的卷积网络包括第一个卷积层和至少两个分支结构,每个分支结构上的每两个卷积层增加一个捷径连接,并且相邻的分支结构之间的捷径连接交叉连接。
进一步地,所述将视频转换为光流图像,采用Brox光流算法,所述 Brox光流算法,包括:
将视频帧序列表示为其中表示一帧视频图像,x,y 表示视频图像中像素点的坐标;
基于图像亮度恒定假设:简记为:
其中其中就是要求的光流图像;
构造相应的能量泛函为:
其中递增凹函数ε为健壮因子;
采用欧拉-拉格朗日方程:
求解光流图像。
进一步地,所述通过融合策略将视频的空间特征和时间特征融合,采用相加融合。相加融合效率最高,并且准确度也很高。
本发明还公开了一种基于残差网络的人体行为识别装置,所述人体行为识别装置包括:
转换模块,用于将视频转换为RGB图像和光流图像;
空间特征提取模块,用于采用RGB图像作为输入,利用设定的残差网络的卷积网络提取视频的空间特征;
时间特征提取模块,用于采用光流图像作为输入,利用所述残差网络的卷积网络提取视频的时间特征;
融合模块,用于在卷积网络的最后一个卷积层之后,通过融合策略将视频的空间特征和时间特征融合;
分类模块,用于将融合的空间特征和时间特征,经过残差网络的池化层和全连接层后,输入到分类器中进行分类,确定视频所属的人体行为类别。
进一步地,所述转换模块将视频转换为光流图像,采用Brox光流算法,执行如下步骤:
将视频帧序列表示为其中表示一帧视频图像,x,y 表示视频图像中像素点的坐标;
基于图像亮度恒定假设:简记为:
其中其中就是要求的光流图像;
构造相应的能量泛函为:
其中递增凹函数ε为健壮因子;
采用欧拉-拉格朗日方程:
求解光流图像。
进一步地,所述融合模块通过融合策略将视频的空间特征和时间特征融合,采用相加融合。
本发明提出的一种基于残差网络的人体行为识别方法,通过残差网络分别提取视频的空间特征和时间特征,并将融合后的特征向量输入到训练好的分类其中进行分类,识别出视频中的人体行为,具有更好的鲁棒性,识别准确。增加了网络的深度并提高了识别的准确度,同时降低了算法的时间复杂度。
附图说明
图1为本发明人体行为行识别方法的流程图;
图2为本发明实施例残差网络示意图;
图3为本发明实施例空间特征和时间特征融合网络示意图;
图4为本发明另一实施例的残差网络示意图;
图5为本发明人体识别装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
本发明利用深度学习中的卷积神经网络技术提取视频中的人体行为的时间特征与空间特征,实现对视频中的人体行为快速准确地分类,最终构建新的行为识别解决方案与高效的识别方法,从而提高场景理解能力和准确率。
如图1所示,本技术方案一种基于残差网络的人体行为识别方法,包括如下步骤:
步骤S1、将视频转换为RGB图像和光流图像。
本实施例将需要进行识别的视频转换为RGB图像和光流图像,具体如何将YUV格式视频图像转换为RGB格式图像,在现有技术中已经比较成熟,这里不再赘述。光流是视频图像亮度模式的表面运动,光流计算是视频图像动态分析的主要方法之一。计算光流图像的方法很多,如基本的时空梯度法、Lucas-Kanade方法、高阶梯度方法等等。
本实施例首先利用opencv将视频流转换为RGB图像序列,然后利用 Brox算法转换为Brox光流图像。
Brox光流算法是基于亮度恒定假设,且假设光流场平滑,是一种全局方法,转换方法如下:
将视频帧序列表示为其中表示一帧视频图像,x,y 表示视频图像中像素点的坐标。
基于图像亮度恒定假设:
简记为:
其中其中就是要求的光流图像。在Brox算法中,相应的能量泛函为:
其中第一项和第二项是数据项,第三项是平滑项(先验项)。对应的欧拉-拉格朗日(Euler-Lagrange)方程:
其中
为了使结果更加具有鲁棒性,本实施例在能量泛函中增加递增凹函数其中包含健壮因子ε,定义能量泛函为:
其中,递增凹函数可以产生一个L1范数最小化,健壮因子ε=0.001,从而使结果更加健壮。
此时对应的欧拉-拉格朗日方程为:
其中因此对上式中的微分离散化,并利用Gauss-Seidel 迭代方法求得
步骤S2、采用RGB图像作为输入,利用设定的残差网络的卷积网络提取视频的空间特征。
本实施例预先设计了一种残差网络,如图2所示:包括卷积网络、池化层和全连接层,卷积网络中的长方形图形表示一个卷积层。
首先设计基准卷积网络,基准卷积网络主要是受VGG网络理论的启发,保持了简洁的网络设计风格,共有25个卷积层,除了在第一个卷积层使用7×7卷积核之外,基准卷积网络中其余卷积层的卷积核大小为3×3。该基准卷积网络为线性结构,并且在设计时遵从下列两条简单的规则:(1) 对于相同大小的输出特征图尺寸,层中的卷积核也需要一致;(2)若特征图尺寸减半时,则需要倍增卷积核数量来保持各层的时间复杂度。通过这两个策略,使得卷积网络与VGG相比具有较少的卷积核,较低的复杂度。在每一个卷积层后都连接一个组归一化层以及激励层,其中激励层使用 ReLu函数。
残差网络的卷积层在基准卷积网络的基础上每两层卷积层增加一个捷径连接,通过步长(stride)为2的卷积层直接进行降采样,从而将网络转化为相应的残差网络。步长的设定为2,是较佳的设定,为了降低计算量。当输入和输出具有相同的维度时,使用简单的标准捷径连接(恒等映射)。而在维数增加时,使用以下操作:利用投影捷径连接来匹配维数(通过1×1 的卷积层实现)。当捷径连接了两个不同尺寸的特征图时,它们将依步长2 进行排布。
最后一个卷积层的激励层后连接池化层后再接入全连接层。
残差网络设计完成后,将S1中获取的RGB图像序列作为残差网络的输入,经过残差网络的卷积网络,卷积网络的输出可以叫做特征图,在本实施例中就是提取得到的空间特征向量。本实施例空间特征包含形状特征、空间关系特征等。
需要说明的是,本实施例残差网络的卷积层的数量以及卷积核的大小,根据实际计算性能来设计,例如还可以采用14层卷积层、或38层卷积层来进行特征提取。
为了获得更加鲁棒性的技术效果,本实施例进一步对上述残差网络进行了改造,将卷积网络中的线性结构转换为多分支结构,如图4所示。对于25层卷积层的残差网络,包括第一个卷积层以及三个分支结构,每个分支结构上具有8个卷积层。第一个卷积层使用7×7卷积核之外,三个分支结构的卷积层的卷积核大小为3×3。每个分支结构上每两个卷积层增加一个捷径连接,并且相邻的分支结构之间的捷径连接交叉连接。如图4所示,第一个分支结构与第二分支结构之间,各自对应的捷径连接相连接;第二分支结构与第三分支结构之间,各自对应的捷径连接相连接。
改造后的卷积网络,降低了卷积层之间的相关性,从而提高了组合网络的多样性。在相同的层数下,本实施例残差网络的深度要远远低于相对应版本的卷积网络。
步骤S3、采用光流图像作为输入,利用残差网络的卷积网络提取视频的时间特征。
本实施例提取时间特征时所采用的残差网络与提取空间特征的残差网络使用了同样的网络结构。
不同的是,在利用残差网络来提取视频的时间特征时,通过堆叠连续几帧之间的光流位移场来构建残差网络的输入。这样的输入可以清晰的描述视频帧间的运动,这使得识别可以变得更加容易。
一个稠密光流可以看做是由一对连续帧t和t+1间的一组位移向量场dt。本实施例将dt(m,n)用来表示点(m,n)在t帧移动到t+1帧相对应的位置时的位移向量。是向量场的水平和垂直分量部分,可以看作是图像的通道,非常适合利用残差网络识别。为了表示序列帧间的运动,堆叠了 L个连续帧的光流图,用来构造2L输入,w和h表示视频的宽度和高度,对于任意帧t的卷积层输入It∈Rw×h×2L:
其中m=[1;w],n=[1;h],k=[1;L]。对于任意点(m,n),It(m,n,f),f=[1;2L] 编码了这点在L序列帧间的运动。本实施例中的L取10,并且使用步骤 S1中所获取的光流图像。
最后提取的时间特征包含视频中的人体运动特征。
步骤S4、在残差网络的最后一个卷积层之后,通过融合策略将视频的空间特征和时间特征融合。
对于空间特征和时间特征的融合,融合方式可以有相加融合、拼接融合、卷积融合、双线性融合等方式,本实施例采用相加融合方式。假设融合函数为f:
其中f在时刻t将两个特征图融合产生了输出图yt∈RH″×W″×D″。H、H′和H″表示高度,W、W′和W″表示宽度, D、D′和D″表示对应特征图的通道数。为了简单起见,将H=H'=H”, W=W'=W”,D=D'。并且将t舍弃。
相加融合:ysum=fsum(xa,xb)采用了相加的策略,在相同的网络位置i, j将对应的两个特征图相加,这两个特征图都有相同的特征通道d:
其中1≤i≤H,1≤j≤W,1≤d≤D,并且xa,xb,y∈RH×W×D。因为通道的编号是任意的,相加融合简单地定义了一个任意的网络之间的对应关系。
本实施例相加融合策略在残差网络的最后一个卷积层的激励函数ReLu后开始融合,之所以这样选择是因为,在初步实验中,它提供了比其他层后融合更好的结果。在这一点上的特征已经高度信息化,同时仍然可以提供粗略的位置信息。
步骤S5、将融合的空间特征和时间特征,经过残差网络的池化层和全连接层后,输入到分类器中进行分类,确定视频所属的人体行为类别。
通过融合策略将空间特征和时间特征融合后,将空间特征和时间特征融合的特征向量,经过池化层输入到全连接层,可以获得输出的特征向量,最后将其送入分类器中分类,确定视频所属的人体行为类别。
需要说明的是,本实施例残差网络实际是一种神经网络,其中分类器可以使用支持向量机、softmax等分类器,本实施例选择softmax分类器,速度比较快,softmax分类器是已经训练好的分类器,可以根据输入的视频图像的特征,识别出视频所属的人体行为类别,这里不再赘述。
如图5所示,本技术方案还提出了一种基于残差网络的人体行为识别装置,与上述方法对应地,本技术方案人体行为识别装置包括:
转换模块,用于将视频转换为RGB图像和光流图像;
空间特征提取模块,用于采用RGB图像作为输入,利用设定的残差网络的卷积网络提取视频的空间特征;
时间特征提取模块,用于采用光流图像作为输入,利用所述残差网络的卷积网络提取视频的时间特征;
融合模块,用于在卷积网络的最后一个卷积层之后,通过融合策略将视频的空间特征和时间特征融合;
分类模块,用于将融合的空间特征和时间特征,经过残差网络的池化层和全连接层后,输入到分类器中进行分类,确定视频所属的人体行为类别。
需要说明的是,本装置采用的残差网络,以及转换模块对视频进行转换所执行的步骤在前文已经进行了详细说明,这里不再赘述。
本发明技术方案,基于残差网络,分别提取视频的空间特征和时间特征,并将融合后的特征向量输入到训练好的分类其中进行分类,识别出视频中的人体行为,具有更好的鲁棒性,识别准确。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种基于残差网络的人体行为识别方法,其特征在于,所述人体行为识别方法包括:
将视频转换为RGB图像和光流图像;
采用RGB图像作为输入,利用设定的残差网络的卷积网络提取视频的空间特征;
采用光流图像作为输入,利用所述残差网络的卷积网络提取视频的时间特征;
在卷积网络的最后一个卷积层之后,通过融合策略将视频的空间特征和时间特征融合;
将融合的空间特征和时间特征,经过残差网络的池化层和全连接层后,输入到分类器中进行分类,确定视频所属的人体行为类别。
2.根据权利要求书1中所述的人体行为识别方法,其特征在于,所述残差网络的卷积网络中各个卷积层为线性结构,每两层增加一个捷径连接。
3.根据权利要求书1中所述的人体行为识别方法,其特征在于,所述残差网络的卷积网络包括第一个卷积层和至少两个分支结构,每个分支结构上的每两个卷积层增加一个捷径连接,并且相邻的分支结构之间的捷径连接交叉连接。
4.根据权利要求书1中所述的人体行为识别方法,其特征在于,所述将视频转换为光流图像,采用Brox光流算法,所述Brox光流算法,包括:
将视频帧序列表示为其中表示一帧视频图像,x,y表示视频图像中像素点的坐标;
基于图像亮度恒定假设:简记为:
其中其中就是要求的光流图像;
构造相应的能量泛函为:
<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&amp;Integral;</mo> <mi>&amp;Omega;</mi> </msub> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&amp;CenterDot;</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&amp;gamma;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mi>d</mi> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mo>+</mo> <mi>&amp;alpha;</mi> <msub> <mo>&amp;Integral;</mo> <mi>&amp;Omega;</mi> </msub> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msub> <msup> <mo>|</mo> <mn>2</mn> </msup> <mi>F</mi> </msub> <mo>)</mo> </mrow> <mi>d</mi> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mo>;</mo> </mrow>
其中递增凹函数ε为健壮因子;
采用欧拉-拉格朗日方程:
<mrow> <msup> <mi>&amp;Psi;</mi> <mo>,</mo> </msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&amp;CenterDot;</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&amp;gamma;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <msubsup> <mo>&amp;dtri;</mo> <mn>3</mn> <mi>T</mi> </msubsup> <mi>I</mi> <mo>+</mo> <msubsup> <mi>&amp;gamma;H</mi> <mn>3</mn> <mi>T</mi> </msubsup> <mo>(</mo> <mi>I</mi> <mo>)</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mo>)</mo> </mrow> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>-</mo> <mi>&amp;alpha;</mi> <mi>d</mi> <mi>i</mi> <mi>v</mi> <mrow> <mo>(</mo> <msup> <mi>&amp;Psi;</mi> <mo>,</mo> </msup> <mo>|</mo> <mo>|</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mn>0</mn> </mrow>
求解光流图像。
5.根据权利要求书1中所述的人体行为识别方法,其特征在于,所述通过融合策略将视频的空间特征和时间特征融合,采用相加融合。
6.一种基于残差网络的人体行为识别装置,其特征在于,所述人体行为识别装置包括:
转换模块,用于将视频转换为RGB图像和光流图像;
空间特征提取模块,用于采用RGB图像作为输入,利用设定的残差网络的卷积网络提取视频的空间特征;
时间特征提取模块,用于采用光流图像作为输入,利用所述残差网络的卷积网络提取视频的时间特征;
融合模块,用于在卷积网络的最后一个卷积层之后,通过融合策略将视频的空间特征和时间特征融合;
分类模块,用于将融合的空间特征和时间特征,经过残差网络的池化层和全连接层后,输入到分类器中进行分类,确定视频所属的人体行为类别。
7.根据权利要求书6中所述的人体行为识别装置,其特征在于,所述残差网络的卷积网络中各个卷积层为线性结构,每两层增加一个捷径连接。
8.根据权利要求书6中所述的人体行为识别装置,其特征在于,所述残差网络的卷积网络包括第一个卷积层和至少两个分支结构,每个分支结构上的每两个卷积层增加一个捷径连接,并且相邻的分支结构之间的捷径连接交叉连接。
9.根据权利要求书6中所述的人体行为识别装置,其特征在于,所述转换模块将视频转换为光流图像,采用Brox光流算法,执行如下步骤:
将视频帧序列表示为其中表示一帧视频图像,x,y表示视频图像中像素点的坐标;
基于图像亮度恒定假设:简记为:
<mrow> <mo>&amp;dtri;</mo> <mi>I</mi> <mo>&amp;CenterDot;</mo> <mover> <mi>d</mi> <mo>&amp;OverBar;</mo> </mover> <mo>+</mo> <msub> <mi>I</mi> <mi>t</mi> </msub> <mo>=</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&amp;CenterDot;</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>=</mo> <mn>0</mn> <mo>;</mo> </mrow>
其中其中就是要求的光流图像;
构造相应的能量泛函为:
<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&amp;Integral;</mo> <mi>&amp;Omega;</mi> </msub> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&amp;CenterDot;</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&amp;gamma;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mi>d</mi> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mo>+</mo> <mi>&amp;alpha;</mi> <msub> <mo>&amp;Integral;</mo> <mi>&amp;Omega;</mi> </msub> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msub> <msup> <mo>|</mo> <mn>2</mn> </msup> <mi>F</mi> </msub> <mo>)</mo> </mrow> <mi>d</mi> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mo>;</mo> </mrow>
其中递增凹函数ε为健壮因子;
采用欧拉-拉格朗日方程:
<mrow> <msup> <mi>&amp;Psi;</mi> <mo>,</mo> </msup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <mo>&amp;CenterDot;</mo> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&amp;gamma;</mi> <mo>|</mo> <mo>|</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> </mrow> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> <mrow> <mo>(</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mi>I</mi> <msubsup> <mo>&amp;dtri;</mo> <mn>3</mn> <mi>T</mi> </msubsup> <mi>I</mi> <mo>+</mo> <msubsup> <mi>&amp;gamma;H</mi> <mn>3</mn> <mi>T</mi> </msubsup> <mo>(</mo> <mi>I</mi> <mo>)</mo> <msub> <mi>H</mi> <mn>3</mn> </msub> <mo>(</mo> <mi>I</mi> <mo>)</mo> <mo>)</mo> </mrow> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>-</mo> <mi>&amp;alpha;</mi> <mi>d</mi> <mi>i</mi> <mi>v</mi> <mrow> <mo>(</mo> <msup> <mi>&amp;Psi;</mi> <mo>,</mo> </msup> <mo>|</mo> <mo>|</mo> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <msub> <mo>&amp;dtri;</mo> <mn>3</mn> </msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mn>0</mn> </mrow>
求解光流图像。
10.根据权利要求书6中所述的人体行为识别装置,其特征在于,所述融合模块通过融合策略将视频的空间特征和时间特征融合,采用相加融合。
CN201710413546.3A 2017-06-05 2017-06-05 一种基于残差网络的人体行为识别方法及装置 Pending CN107292247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710413546.3A CN107292247A (zh) 2017-06-05 2017-06-05 一种基于残差网络的人体行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710413546.3A CN107292247A (zh) 2017-06-05 2017-06-05 一种基于残差网络的人体行为识别方法及装置

Publications (1)

Publication Number Publication Date
CN107292247A true CN107292247A (zh) 2017-10-24

Family

ID=60095301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710413546.3A Pending CN107292247A (zh) 2017-06-05 2017-06-05 一种基于残差网络的人体行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN107292247A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229319A (zh) * 2017-11-29 2018-06-29 南京大学 基于帧间差异与卷积神经网络融合的船舶视频检测方法
CN108537195A (zh) * 2018-04-17 2018-09-14 深圳市唯特视科技有限公司 一种基于单帧表示模型的人类活动识别方法
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108875525A (zh) * 2018-01-04 2018-11-23 北京旷视科技有限公司 行为预测方法、装置、系统和存储介质
CN108985223A (zh) * 2018-07-12 2018-12-11 天津艾思科尔科技有限公司 一种人体动作识别方法
CN109241967A (zh) * 2018-09-04 2019-01-18 青岛大学附属医院 基于深度神经网络的甲状腺超声图像自动识别系统、计算机设备、存储介质
CN109409241A (zh) * 2018-09-28 2019-03-01 百度在线网络技术(北京)有限公司 视频核验方法、装置、设备及可读存储介质
CN109492579A (zh) * 2018-11-08 2019-03-19 广东工业大学 一种基于st-sin的视频物体检测方法及系统
CN109583335A (zh) * 2018-11-16 2019-04-05 中山大学 一种基于时空信息融合的视频人体行为识别方法
CN109886104A (zh) * 2019-01-14 2019-06-14 浙江大学 一种基于视频前后帧相关信息感知的运动特征提取方法
CN109886358A (zh) * 2019-03-21 2019-06-14 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110232361A (zh) * 2019-06-18 2019-09-13 中国科学院合肥物质科学研究院 基于三维残差稠密网络的人体行为意图识别方法与系统
CN110390315A (zh) * 2019-07-29 2019-10-29 深兰科技(上海)有限公司 一种图像处理方法及装置
CN110443182A (zh) * 2019-07-30 2019-11-12 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法
CN110766096A (zh) * 2019-10-31 2020-02-07 北京金山云网络技术有限公司 视频分类方法、装置及电子设备
CN111242068A (zh) * 2020-01-17 2020-06-05 科大讯飞(苏州)科技有限公司 基于视频的行为识别方法、装置、电子设备和存储介质
WO2020113886A1 (zh) * 2018-12-07 2020-06-11 中国科学院自动化研究所 基于时空频域混合学习的行为特征提取方法、系统、装置
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111597869A (zh) * 2020-03-25 2020-08-28 浙江工业大学 一种基于分组残差联合空间学习的人体活动识别方法
CN111859023A (zh) * 2020-06-11 2020-10-30 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质
CN112099629A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种提供工作操作指引的方法和系统
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164694A (zh) * 2013-02-20 2013-06-19 上海交通大学 一种人体动作识别的方法
CN106650674A (zh) * 2016-12-27 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于混合池化策略的深度卷积特征的动作识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164694A (zh) * 2013-02-20 2013-06-19 上海交通大学 一种人体动作识别的方法
CN106650674A (zh) * 2016-12-27 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于混合池化策略的深度卷积特征的动作识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH FEICHTENHOFER等: "Convolutional Two-Stream Network Fusion for Video Action Recognition", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
KAREN SIMONYAN等: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEM》 *
采石工: "图像分析之光流之经典", 《HTTP://WWW.CNBLOGS.COM/QUARRYMAN/P/OPTICAL_FLOW.HTML》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229319A (zh) * 2017-11-29 2018-06-29 南京大学 基于帧间差异与卷积神经网络融合的船舶视频检测方法
US11055516B2 (en) 2018-01-04 2021-07-06 Beijing Kuangshi Technology Co., Ltd. Behavior prediction method, behavior prediction system, and non-transitory recording medium
CN108875525A (zh) * 2018-01-04 2018-11-23 北京旷视科技有限公司 行为预测方法、装置、系统和存储介质
CN108537195A (zh) * 2018-04-17 2018-09-14 深圳市唯特视科技有限公司 一种基于单帧表示模型的人类活动识别方法
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108664931B (zh) * 2018-05-11 2022-03-01 中国科学技术大学 一种多阶段视频动作检测方法
CN108985223A (zh) * 2018-07-12 2018-12-11 天津艾思科尔科技有限公司 一种人体动作识别方法
CN108985223B (zh) * 2018-07-12 2024-05-07 天津艾思科尔科技有限公司 一种人体动作识别方法
CN109241967A (zh) * 2018-09-04 2019-01-18 青岛大学附属医院 基于深度神经网络的甲状腺超声图像自动识别系统、计算机设备、存储介质
CN109241967B (zh) * 2018-09-04 2021-01-05 青岛大学附属医院 基于深度神经网络的甲状腺超声图像自动识别系统、计算机设备、存储介质
CN109409241A (zh) * 2018-09-28 2019-03-01 百度在线网络技术(北京)有限公司 视频核验方法、装置、设备及可读存储介质
CN109492579A (zh) * 2018-11-08 2019-03-19 广东工业大学 一种基于st-sin的视频物体检测方法及系统
CN109492579B (zh) * 2018-11-08 2022-05-10 广东工业大学 一种基于st-sin的视频物体检测方法及系统
CN109583335A (zh) * 2018-11-16 2019-04-05 中山大学 一种基于时空信息融合的视频人体行为识别方法
WO2020113886A1 (zh) * 2018-12-07 2020-06-11 中国科学院自动化研究所 基于时空频域混合学习的行为特征提取方法、系统、装置
CN109886104A (zh) * 2019-01-14 2019-06-14 浙江大学 一种基于视频前后帧相关信息感知的运动特征提取方法
CN109886358A (zh) * 2019-03-21 2019-06-14 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN109886358B (zh) * 2019-03-21 2022-03-08 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110232361B (zh) * 2019-06-18 2021-04-02 中国科学院合肥物质科学研究院 基于三维残差稠密网络的人体行为意图识别方法与系统
CN110232361A (zh) * 2019-06-18 2019-09-13 中国科学院合肥物质科学研究院 基于三维残差稠密网络的人体行为意图识别方法与系统
CN110390315A (zh) * 2019-07-29 2019-10-29 深兰科技(上海)有限公司 一种图像处理方法及装置
CN110443182A (zh) * 2019-07-30 2019-11-12 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法
CN110766096A (zh) * 2019-10-31 2020-02-07 北京金山云网络技术有限公司 视频分类方法、装置及电子设备
CN111242068A (zh) * 2020-01-17 2020-06-05 科大讯飞(苏州)科技有限公司 基于视频的行为识别方法、装置、电子设备和存储介质
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111325253B (zh) * 2020-02-12 2023-05-05 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111597869A (zh) * 2020-03-25 2020-08-28 浙江工业大学 一种基于分组残差联合空间学习的人体活动识别方法
CN111859023A (zh) * 2020-06-11 2020-10-30 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质
CN111859023B (zh) * 2020-06-11 2024-05-03 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质
CN112099629B (zh) * 2020-09-11 2024-04-16 河北冀联人力资源服务集团有限公司 一种提供工作操作指引的方法和系统
CN112099629A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种提供工作操作指引的方法和系统
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Similar Documents

Publication Publication Date Title
CN107292247A (zh) 一种基于残差网络的人体行为识别方法及装置
CN110837778B (zh) 一种基于骨架关节点序列的交警指挥手势识别方法
EP3540637B1 (en) Neural network model training method, device and storage medium for image processing
Liu et al. Multiscale U-shaped CNN building instance extraction framework with edge constraint for high-spatial-resolution remote sensing imagery
CN110853026B (zh) 一种融合深度学习与区域分割的遥感影像变化检测方法
CN108399373B (zh) 人脸关键点的模型训练及其检测方法和装置
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN107808389A (zh) 基于深度学习的无监督视频分割方法
CN112651406B (zh) 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法
CN108171196A (zh) 一种人脸检测方法及装置
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN110222760A (zh) 一种基于winograd算法的快速图像处理方法
Wu et al. Dynamic attention network for semantic segmentation
CN106952286A (zh) 基于运动显著图和光流矢量分析的动态背景目标分割方法
CN110348383A (zh) 一种基于卷积神经网络回归的道路中心线和双线提取方法
CN110956646A (zh) 目标跟踪方法、装置、设备及存储介质
CN111507275A (zh) 一种基于深度学习的视频数据时序信息提取方法及装置
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
Chen et al. Laplacian pyramid neural network for dense continuous-value regression for complex scenes
CN107766864A (zh) 提取特征的方法和装置、物体识别的方法和装置
CN106295657A (zh) 一种视频数据结构化过程中提取人体高度特征的方法
CN107564007A (zh) 融合全局信息的场景分割修正方法与系统
Sang et al. Small-object sensitive segmentation using across feature map attention
CN114764941B (zh) 一种表情识别方法、装置以及电子设备
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171024