CN108038420A - 一种基于深度视频的人体行为识别方法 - Google Patents

一种基于深度视频的人体行为识别方法 Download PDF

Info

Publication number
CN108038420A
CN108038420A CN201711162729.9A CN201711162729A CN108038420A CN 108038420 A CN108038420 A CN 108038420A CN 201711162729 A CN201711162729 A CN 201711162729A CN 108038420 A CN108038420 A CN 108038420A
Authority
CN
China
Prior art keywords
mtd
mrow
mtr
video
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711162729.9A
Other languages
English (en)
Other versions
CN108038420B (zh
Inventor
肖阳
陈俊
曹治国
熊拂
张博深
胡桂雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711162729.9A priority Critical patent/CN108038420B/zh
Publication of CN108038420A publication Critical patent/CN108038420A/zh
Application granted granted Critical
Publication of CN108038420B publication Critical patent/CN108038420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

本发明公开了一种基于深度视频的人体行为识别方法,属于视频信息处理技术领域。本发明方法首先对视频序列的人体目标检测与行为定位,然后对视频的多视角投影形成多视角子视频序列,再对视频进行的动态图编码,之后采用多卷积神经网络模型进行训练提特征,再对特征进行PCA降维处理,最后训练线性支撑向量机分类器,利用支撑向量机分类器获得待测深度视频的行为识别结果;本发明方法从深度图的特点与视频编码的角度出发,充分挖掘图像中的空间信息,降低了处理视频的复杂性,采用的深度学习方法提供了强的特征表达能力,相对于现有其他的传统方法,该方法在算法复杂性、特征表达与识别精度上具有明显的优势。

Description

一种基于深度视频的人体行为识别方法
技术领域
本发明属于视频信息处理技术领域,更具体地,涉及一种基于深度视频的人体行为识别方法。
背景技术
随着深度摄像机日益广泛的使用,深度视频的获取越来越容易,基于视频的内容分析,尤其是对行为的分析,对于视频的理解与应用来说起到至关重要的作用。
针对深度视频行为识别的问题,现有技术主要从两类不同形式出发研究的解决方案。考虑到深度视频通常可以容易得到视频中人的骨架关节点信息,所以一类解决方案是根据骨架关节点信息作为输入进行的行为识别技术,由于视频是一种与时间序列有关的数据结构,处理该类问题一般使用递归神经网络RNN模型及其改进模型LSTM来进行编码视频信息。另一类解决方案是直接使用深度图像作为输入来进行的行为识别,该类方法主要依据深度图中点的实际空间位置产生梯度向量的统计直方图(如HON4D、HOPC等)、或者直接在4D空间上提特征来进行行为表述。
上述方法存在以下缺陷,对于第一类方法,使用骨架关节点作为输入的方法相对简单,噪声较少,带来的问题是没有真正有效的使用到深度信息,只是根据相对运动结构的特点来进行的行为识别,信息损失严重同时缺乏丰富的空间信息,准确率相对较低。对于第二类方法,由于真实场景下深度图像的噪声较大,目前基于梯度的方法很难得到准确的特征描述效果,同时该类方法中对于视频的时间序列信息只是简单帧之间的串联结构,没有比较好的描述能力,无法实现较好的识别效果。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度视频的人体行为识别方法,其目的在于通过对深度图像的降噪、对深度视频的编码以及充分利用深度卷积网络的强表达能力的优势得到更为准确的视频描述特征,从而提高深度视频人体行为识别的准确率。
为实现上述目的,本发明提供了一种基于深度视频的人体行为识别方法,所述方法包括:
(1)对数据集中深度视频采用多视角投影,获得深度视频的多个视角的子视频帧序列;
(2)对每个子视频帧序列使用动态图编码,将子视频帧序转化为动态图;
(3)对所有视角的动态图进行分组并训练各组的深度卷积神经网络,分别提取各组深度卷积神经网络全连接层的特征并串联起来作为各组的多视角特征;
(4)所有多视角特征分别进行降维处理,再将降维后所有多视角特征串联起来作为最终特征,然后针对最终特征采用多类分类策略训练线性的支撑向量机分类器;
(5)将待识别深度视频经过多视角变换和动态图编码再使用训练好的卷积神经网络提取特征后输入到支撑向量机分类器,输出结果即为人体行为识别结果。
进一步地,所述步骤(1)中深度视频的多视角投影具体包括:
(11)根据深度视频中每一帧图像的每个像素点深度值的信息进行旋转变换得到不同视角的三维空间位置,三维空间三个坐标轴的旋转变换矩阵可以表示为:
其中,α,θ,β分别表示三维空间三个坐标轴的旋转角度;
(12)对旋转后的三维视角图,选择一个投影面进行投影,得到二维灰度图像,三个投影面的投影矩阵分别表示为:
(13)通过旋转与投影变换得到三维空间任意其他视角下的深度图像,整体的变换矩阵T可以表示为:
T=Rrow*Rcol*Rdepth*Vsurface
其中,Vsurface表示所选择投影面的投影变换矩阵。
进一步地,所述步骤(2)中待编码视频的动态图为:
ξij≥0
其中,u为动态图模型参数;ξij为可松弛变量;C为惩罚系数;ti为视频第i帧时间;tj为视频的第j帧时间;uT为模型参数的转置;为视频第j帧图像的映射表示;为视频第i帧图像的映射表示。
进一步地,所述步骤(3)对所有视角的动态图进行分组具体按照视角所处的区间进行分组。
进一步地,所述步骤(3)中各组深度卷积神经网络的训练集为各组的动态图。
进一步地,所述步骤(4)中采用基于PCA的降维处理。
进一步地,所述步骤(1)中深度视频采用多视角投影之前还包括步骤(0):
(0)对深度视频的视频帧序列中的人体目标进行检测,并将检测得到的结果进行融合,得到人体目标的运动行为定位边框,在深度视频中截取运动行为定位边框部分获得新的深度视频。
进一步地,所述步骤(0)中人体目标检测具体方法为:
首先利用数据集中的深度视频训练人体目标检测的Yolo V2模型;再使用该模型去检测视频帧序列中的人体目标。
进一步地,所述步骤(0)中人体目标的运动行为定位边框具体为:
m=(xum,yum,xlm,ylm),
其中,边框左上角的坐标值 边框右下角的坐标值 表示单个人体目标左上角的坐标;表示单个人体目标右下角的坐标。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:
(1)本发明技术方案首先对视频中的目标进行了提取,对目标行为的范围进行了定位,避免直接对噪声严重的原始深度视频进行处理,而是在一个目标行为运动范围内进行特征提取与识别任务,这样可以有效的避免深度图像本身噪声严重的问题,提高识别的精度;
(2)本发明技术方案对深度图像进行了多视角的投影变换,充分利用了深度图像所携带的几何空间信息,变换后的多视角视频不仅增加了训练样本的数量使得训练更充分,同时也充分挖掘了行为动作所含有的各种模式信息,对于行为的特征表达起到了非常重要的作用;
(3)本发明技术方案对每个子视频序列采用动态图的编码方式,将视频变换成一张图来提特征而不是直接对视频提特征,这一方面降低了算法处理的复杂度,另一方面可以很好的嵌入使用深度卷积网络模型进行进一步的特征提取;
(4)本发明技术方案使用了多卷积神经网络模型,卷积神经网络模型是一种强大的图像特征提取方法,基于该网络使得本方法提取的行为表述特征更为强大,达到了更高的行为识别效果。
附图说明
图1是本发明实施例的识别方法流程图;
图2是本发明实施例的目标检测与视频行为定位示意图;
图3是本发明实施例的深度视频多视角投影变换示意图;
图4是本发明实施例的视频序列的动态图转化部分结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例的流程如图1所示,包含了对视频序列的人体目标检测与行为定位,对视频的多视角投影形成多视角子视频序列,对视频进行的动态图编码,采用多卷积神经网络模型进行训练提特征,对特征进行PCA降维处理,最后训练线性支撑向量机分类器获得最终的行为识别结果;以下结合实例来具体阐述本发明提供的基于深度视频的行为识别方法,具体步骤如下:
(1)对原始深度视频进行行为定位,包括如下子步骤:
(11)获得源深度视频序列数据集:
在本实施例中采用三种不同类型的数据集:60种不同类行为的NTURGB+D数据库,包含超过56000个视频序列,30种不同类行为的UWA3DII数据库,包含1075个视频序列,10种不同类行为的Northwestern-UCLA数据库,包含1475个视频序列;
(12)检测视频中的目标:在该实施例中,首先需要在各个数据集上训练对应人体目标检测的Yolo V2模型,然后使用该模型去检测不同测试视频序列中可能存在的目标,并得到目标的位置,如图2中的左图所示;
(13)生成视频的行为定位边框:在得到视频中所有目标的位置以后,基于该位置优化得到视频的运动行为定位边框:
其中,视频的行为定位边框用左上角和右下角坐标表示,具体为m=(xum,yum,xlm,ylm),表示单个人体目标左上角的坐标;表示单个人体目标右下角的坐标。得到的模拟结果如图2中的右图所示;
(2)对行为定位的视频进行多视角的投影变换,在本发明中我们的投影视角可以是一个半球形范围内的任意投影角,横向投影范围从-90°~90°,纵向投影范围从-90°~90°,为了避免投影视角过多引起的时间与空间计算量复杂,我们通过实验结果选择只在横向范围内进行投影变换,并将投影范围划分为4个差异较大的不同区间:-90°~-40°,-40°~0°,0°~40°,40°~90°,在这四个区间上,我们人为定义11个投影效果差异明显的投影变换视角作为最终的投影视角:-90°,-40°,-20°,-10°,-5°,0°,5°,10°,20°,40°,90°。采用的变换矩阵可以表示为:
T=Rrow*Rcol*Rdepth*Vsurface
其中Rrow、Rcol、Rdepth分别为三维空间三个轴的旋转变换矩阵,Vsurface为三维空间某一个面的投影变换矩阵:
其流程如图3所示,经过多视角投影变换后,一个深度图可以有多个视角的投影深度图,同理一个视频可以有多个视角的投影子视频。
(3)对视频进行动态图编码,在得到深度视频的多个视角子视频序列后,为了方便处理视频数据,采用动态图编码的方式对视频进行编码成图像的形式,采取的优化目标函数为:
ξij≥0
优化后得到最终的u*可以以一张灰度图像的形式表示,u为动态图模型参数;ξij为可松弛变量;C为惩罚系数;ti为视频第i帧时间;tj为视频的第j帧时间;uT为模型参数的转置;为视频第j帧图像的映射表示;为视频第i帧图像的映射表示。流程如图4所示,最终每一个子视角视频都可以是一张图,对视频的特征提取转化为对动态图的特征提取。
(4)采用深度卷积神经网络的模型进行特征提取,这里我们对上述得到的多视角动态图采用多个独立的深度卷积神经网络进行训练,并将全连接层特征提取出来作为动态图的表述特征,如图1的中间部分,包括如下子步骤:
(41)对多视角数据集进行进一步分组划分,这里按照步骤(2)中定义的4个投影视角区间与11个具体视角来划分对应的数据集,进一步将这11个视角融合成表1中的5个大的视角组合以降低计算复杂度:
表1
视角组合 选择视角
组合1(-90°~-40°) -90°,-40°
组合2(-40°~0°) -20°,-10°,-5°
组合3(0°)
组合4(0°~40°) 5°,10°,20°
组合5(40°~90°) 40°,90°
(42)对每个组合中的视角,将对应组合中所有视角的动态图作为单独的一个子数据集来训练单独的深度卷积神经网络,这里采用典型的5层卷积层与2层全连接层的AlexNet网络框架,针对5个不同视角组合,训练多个独立的网络,最后通过训练的多个网络模型分别提取全连接层的特征,并将其串联起来作为该组合下的视频动态图多视角特征;
(5)对得到的组合视角特征,首先进行PCA的降维处理得到低维度的表示特征,并将这些组合视角的特征再串联起来作为最终的一个视频的表达特征,如图1后半部分所示,针对最终视频的表达特征,采用一对一的多类分类策略训练线性的支撑向量机分类器;本实施里中采用开源的LIBLINEAR来训练支撑向量机模型;最后使用该模型进行预测,分类器的输出结果即为最后的行为识别结果。
以上内容本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度视频的人体行为识别方法,其特征在于,所述方法包括:
(1)对数据集中深度视频采用多视角投影,获得深度视频的多个视角的子视频帧序列;
(2)对每个子视频帧序列使用动态图编码,将子视频帧序转化为动态图;
(3)对所有视角的动态图进行分组并训练各组的深度卷积神经网络,分别提取各组深度卷积神经网络全连接层的特征并串联起来作为各组的多视角特征;
(4)所有多视角特征分别进行降维处理,再将降维后所有多视角特征串联起来作为最终特征,然后针对最终特征采用多类分类策略训练线性的支撑向量机分类器;
(5)将待识别深度视频经过多视角变换和动态图编码,再使用训练好的卷积神经网络提取特征后输入到支撑向量机分类器,输出结果即为人体行为识别结果。
2.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(1)中深度视频的多视角投影具体包括:
(11)根据深度视频中每一帧图像的每个像素点深度值的信息进行旋转变换得到不同视角的三维空间位置,三维空间三个坐标轴的旋转变换矩阵可以表示为:
<mrow> <msub> <mi>R</mi> <mrow> <mi>r</mi> <mi>o</mi> <mi>w</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
<mrow> <msub> <mi>R</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
<mrow> <msub> <mi>R</mi> <mrow> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
其中,α,θ,β分别表示三维空间三个坐标轴的旋转角度;
(12)对旋转后的三维视角图,选择一个投影面进行投影,得到二维灰度图像,三个投影面的投影矩阵分别表示为:
<mrow> <msub> <mi>V</mi> <mrow> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>*</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
<mrow> <msub> <mi>V</mi> <mrow> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>*</mo> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
<mrow> <msub> <mi>V</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>*</mo> <mi>d</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
(13)通过旋转与投影变换得到三维空间任意其他视角下的深度图像,整体的变换矩阵T可以表示为:
T=Rrow*Rcol*Rdepth*Vsurface
其中,Vsurface表示所选择投影面的投影变换矩阵。
3.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(2)中待编码视频的动态图为:
<mrow> <mtable> <mtr> <mtd> <mrow> <msup> <mi>u</mi> <mo>*</mo> </msup> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <mi>u</mi> </munder> <mfrac> <mi>1</mi> <mi>2</mi> </mfrac> <msup> <mi>||u||</mi> <mi>2</mi> </msup> <mo>+</mo> <mi>C</mi> <munder> <mo>&amp;Sigma;</mo> <mrow> <mo>&amp;ForAll;</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>&gt;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> </munder> <msub> <mi>&amp;xi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msup> <mi>u</mi> <mi>T</mi> </msup> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <msub> <mi>v</mi> <msub> <mi>t</mi> <mi>j</mi> </msub> </msub> <mo>-</mo> <msub> <mi>v</mi> <msub> <mi>t</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>&amp;GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;xi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&amp;xi;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> </mrow>
其中,u为动态图模型参数;ξij为可松弛变量;C为惩罚系数;ti为视频第i帧时间;tj为视频的第j帧时间;uT为模型参数的转置;为视频第j帧图像的映射表示;为视频第i帧图像的映射表示。
4.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(3)对所有视角的动态图进行分组具体按照视角所处的区间进行分组。
5.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(3)中各组深度卷积神经网络的训练集为各组的动态图。
6.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(4)中采用基于PCA的降维处理。
7.根据权利要求1所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(1)中深度视频采用多视角投影之前还包括步骤(0):
(0)对深度视频的视频帧序列中的人体目标进行检测,并将检测得到的结果进行融合,得到人体目标的运动行为定位边框,在深度视频中截取运动行为定位边框部分获得新的深度视频。
8.根据权利要求7所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(0)中人体目标检测具体方法为:
首先利用数据集中的深度视频训练人体目标检测的Yolo V2模型;再使用该模型去检测视频帧序列中的人体目标。
9.根据权利要求7所述的一种基于深度视频的人体行为识别方法,其特征在于,所述步骤(0)中人体目标的运动行为定位边框具体为:
m=(xum,yum,xlm,ylm),
其中,边框左上角的坐标值边框右下角的坐标值 表示单个人体目标左上角的坐标;表示单个人体目标右下角的坐标。
CN201711162729.9A 2017-11-21 2017-11-21 一种基于深度视频的人体行为识别方法 Active CN108038420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711162729.9A CN108038420B (zh) 2017-11-21 2017-11-21 一种基于深度视频的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711162729.9A CN108038420B (zh) 2017-11-21 2017-11-21 一种基于深度视频的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN108038420A true CN108038420A (zh) 2018-05-15
CN108038420B CN108038420B (zh) 2020-10-30

Family

ID=62092984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711162729.9A Active CN108038420B (zh) 2017-11-21 2017-11-21 一种基于深度视频的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN108038420B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830212A (zh) * 2018-06-12 2018-11-16 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN108960119A (zh) * 2018-06-28 2018-12-07 武汉市哈哈便利科技有限公司 一种用于无人售货柜的多角度视频融合的商品识别算法
CN109726652A (zh) * 2018-12-19 2019-05-07 杭州叙简科技股份有限公司 一种基于卷积神经网络检测值班人员睡觉行为的方法
CN109753948A (zh) * 2019-01-28 2019-05-14 珠海格力电器股份有限公司 基于微波雷达的空调控制方法和装置、存储介质和处理器
CN109815911A (zh) * 2019-01-26 2019-05-28 上海交通大学 基于深度融合网络的视频运动物体检测系统、方法及终端
CN109886102A (zh) * 2019-01-14 2019-06-14 华中科技大学 一种基于深度图像的跌倒行为时空域检测方法
CN109918996A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 人员违法动作识别方法、系统、计算机设备和存储介质
CN110647933A (zh) * 2019-09-20 2020-01-03 北京达佳互联信息技术有限公司 一种视频的分类方法及装置
CN110852247A (zh) * 2019-11-07 2020-02-28 北京云迹科技有限公司 异常检测方法、装置、电子设备及计算机可读存储介质
CN110910449A (zh) * 2019-12-03 2020-03-24 清华大学 识别物体三维位置的方法和系统
CN111028933A (zh) * 2019-12-23 2020-04-17 华中科技大学 一种基于行为识别的医院耗材库存管理系统及方法
CN112347879A (zh) * 2020-10-27 2021-02-09 中国搜索信息科技股份有限公司 一种针对视频运动目标的主题挖掘及行为分析方法
CN113743221A (zh) * 2021-08-04 2021-12-03 清华大学 一种边缘计算架构下的多视角人行为识别方法与系统
WO2023024658A1 (zh) * 2021-08-23 2023-03-02 苏州大学 一种基于深度视频联动特征的行为识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1313329A2 (en) * 2001-11-17 2003-05-21 Postech Foundation Multiview image synthesizing apparatus
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN102959586A (zh) * 2011-04-12 2013-03-06 松下电器产业株式会社 运动推测装置、深度推测装置以及运动推测方法
CN104063702A (zh) * 2014-07-16 2014-09-24 中南大学 一种基于遮挡修复和局部相似性匹配的三维步态识别方法
CN104599284A (zh) * 2015-02-15 2015-05-06 四川川大智胜软件股份有限公司 基于多视角手机自拍图像的三维人脸重建方法
CN106529441A (zh) * 2016-10-26 2017-03-22 江南大学 基于模糊边界分片的深度动作图人体行为识别方法
CN106815578A (zh) * 2017-01-23 2017-06-09 重庆邮电大学 一种基于深度运动图‑尺度不变特征变换的手势识别方法
CN107066979A (zh) * 2017-04-18 2017-08-18 重庆邮电大学 一种基于深度信息和多维度卷积神经网络的人体动作识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1313329A2 (en) * 2001-11-17 2003-05-21 Postech Foundation Multiview image synthesizing apparatus
US20110182469A1 (en) * 2010-01-28 2011-07-28 Nec Laboratories America, Inc. 3d convolutional neural networks for automatic human action recognition
CN102959586A (zh) * 2011-04-12 2013-03-06 松下电器产业株式会社 运动推测装置、深度推测装置以及运动推测方法
CN104063702A (zh) * 2014-07-16 2014-09-24 中南大学 一种基于遮挡修复和局部相似性匹配的三维步态识别方法
CN104599284A (zh) * 2015-02-15 2015-05-06 四川川大智胜软件股份有限公司 基于多视角手机自拍图像的三维人脸重建方法
CN106529441A (zh) * 2016-10-26 2017-03-22 江南大学 基于模糊边界分片的深度动作图人体行为识别方法
CN106815578A (zh) * 2017-01-23 2017-06-09 重庆邮电大学 一种基于深度运动图‑尺度不变特征变换的手势识别方法
CN107066979A (zh) * 2017-04-18 2017-08-18 重庆邮电大学 一种基于深度信息和多维度卷积神经网络的人体动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BASURA FERNANDO等: "Modeling video evolution for action recognition", 《IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830212A (zh) * 2018-06-12 2018-11-16 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN108830212B (zh) * 2018-06-12 2022-04-22 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN108960119A (zh) * 2018-06-28 2018-12-07 武汉市哈哈便利科技有限公司 一种用于无人售货柜的多角度视频融合的商品识别算法
CN108960119B (zh) * 2018-06-28 2021-06-08 武汉市哈哈便利科技有限公司 一种用于无人售货柜的多角度视频融合的商品识别算法
CN109726652A (zh) * 2018-12-19 2019-05-07 杭州叙简科技股份有限公司 一种基于卷积神经网络检测值班人员睡觉行为的方法
CN109886102A (zh) * 2019-01-14 2019-06-14 华中科技大学 一种基于深度图像的跌倒行为时空域检测方法
CN109918996A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 人员违法动作识别方法、系统、计算机设备和存储介质
CN109815911A (zh) * 2019-01-26 2019-05-28 上海交通大学 基于深度融合网络的视频运动物体检测系统、方法及终端
CN109753948A (zh) * 2019-01-28 2019-05-14 珠海格力电器股份有限公司 基于微波雷达的空调控制方法和装置、存储介质和处理器
CN109753948B (zh) * 2019-01-28 2021-06-04 珠海格力电器股份有限公司 基于微波雷达的空调控制方法和装置、存储介质和处理器
CN110647933A (zh) * 2019-09-20 2020-01-03 北京达佳互联信息技术有限公司 一种视频的分类方法及装置
CN110647933B (zh) * 2019-09-20 2023-06-20 北京达佳互联信息技术有限公司 一种视频的分类方法及装置
CN110852247A (zh) * 2019-11-07 2020-02-28 北京云迹科技有限公司 异常检测方法、装置、电子设备及计算机可读存储介质
CN110910449A (zh) * 2019-12-03 2020-03-24 清华大学 识别物体三维位置的方法和系统
CN110910449B (zh) * 2019-12-03 2023-10-13 清华大学 识别物体三维位置的方法和系统
CN111028933A (zh) * 2019-12-23 2020-04-17 华中科技大学 一种基于行为识别的医院耗材库存管理系统及方法
CN111028933B (zh) * 2019-12-23 2022-07-12 华中科技大学 一种基于行为识别的医院耗材库存管理系统及方法
CN112347879A (zh) * 2020-10-27 2021-02-09 中国搜索信息科技股份有限公司 一种针对视频运动目标的主题挖掘及行为分析方法
CN113743221A (zh) * 2021-08-04 2021-12-03 清华大学 一种边缘计算架构下的多视角人行为识别方法与系统
CN113743221B (zh) * 2021-08-04 2022-05-20 清华大学 一种边缘计算架构下的多视角人行为识别方法与系统
WO2023024658A1 (zh) * 2021-08-23 2023-03-02 苏州大学 一种基于深度视频联动特征的行为识别方法

Also Published As

Publication number Publication date
CN108038420B (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN108038420A (zh) 一种基于深度视频的人体行为识别方法
Song et al. Richly activated graph convolutional network for action recognition with incomplete skeletons
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
Peng et al. Detecting heads using feature refine net and cascaded multi-scale architecture
CN103729885B (zh) 多视角投影与三维注册联合的手绘场景三维建模方法
CN105205453B (zh) 基于深度自编码器的人眼检测和定位方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN106650630A (zh) 一种目标跟踪方法及电子设备
CN108898620A (zh) 基于多重孪生神经网络与区域神经网络的目标跟踪方法
CN107154023A (zh) 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN106023148B (zh) 一种序列聚焦观测模式下恒星像点位置提取方法
CN102509104B (zh) 基于置信度图的增强现实场景虚拟对象判别和检测方法
CN105069746A (zh) 基于局部仿射和颜色迁移技术的视频实时人脸替换方法及其系统
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN109145836A (zh) 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法
CN107437246A (zh) 一种基于端到端全卷积神经网络的共同显著性检测方法
CN106295564A (zh) 一种邻域高斯结构和视频特征融合的动作识别方法
CN104899896B (zh) 一种基于子空间特征的多任务学习目标跟踪方法
Si et al. Hand-raising gesture detection in real classrooms using improved R-FCN
CN114241422A (zh) 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
CN108961385A (zh) 一种slam构图方法及装置
Lu et al. A CNN-transformer hybrid model based on CSWin transformer for UAV image object detection
CN107944437A (zh) 一种基于神经网络和积分图像的人脸定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant