CN110232361B - 基于三维残差稠密网络的人体行为意图识别方法与系统 - Google Patents

基于三维残差稠密网络的人体行为意图识别方法与系统 Download PDF

Info

Publication number
CN110232361B
CN110232361B CN201910525116.XA CN201910525116A CN110232361B CN 110232361 B CN110232361 B CN 110232361B CN 201910525116 A CN201910525116 A CN 201910525116A CN 110232361 B CN110232361 B CN 110232361B
Authority
CN
China
Prior art keywords
behavior
dimensional
dimensional residual
video
dense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910525116.XA
Other languages
English (en)
Other versions
CN110232361A (zh
Inventor
宋全军
郭明祥
徐湛楠
曹平国
马婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN201910525116.XA priority Critical patent/CN110232361B/zh
Publication of CN110232361A publication Critical patent/CN110232361A/zh
Application granted granted Critical
Publication of CN110232361B publication Critical patent/CN110232361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于三维残差稠密网络的人体行为意图识别方法,包括:根据机器人的安保任务需求,创建一个包含多类行为的真实场景人体行为数据集;根据真实场景的视频人体行为识别需求,构建三维残差稠密网络;训练时,将训练集中预处理后的子数据集视频序列依次送入三维残差稠密网络中训练,最终得到视频人体行为识别模型;测试时,将测试集中的数据经过预处理后输入到三维残差稠密网络中,然后输出人体行为类型。本发明显著提升在KTH和UCF‑101等数据集上的识别精度,同时用于解决真实场景问题以及安保任务需求。

Description

基于三维残差稠密网络的人体行为意图识别方法与系统
技术领域
本发明涉及计算机视觉领、模式识别和智能机器人技术领域,尤其是一种基于三维残差稠密网络的人体行为意图识别方法与系统。
背景技术
视频中的人体行为识别是计算机视觉领域极具挑战性的一项任务,它作为视频理解的一个重要分支,人体行为识别的目标是让计算机能够正确的识别人体行为和动作,其在安防、智能视频监控、人机交互、虚拟现实等领域具有很强的理论意义和广阔的应用前景。早期传统算法多采用手工构造特征描述视频中的局部时空变化,它通常仿照人类视觉特点及其他先验知识来设计特征本身,它主要针对某一特定任务设计,往往无法适应所有场景,且计算复杂。深度学习作为目前行为识别研究的热点方法,它与传统手工提取特征的方式相比,它的优势在于省去了传统精心设计特征的冗长过程,让模型自主学习适用于当前任务的特征,还能够实现网络的端到端的训练,使得模型的计算更具效率。然而不同于二维的图像识别,由于视频中同时包含空间和时间的信息,模型就不仅需要考虑视频每帧的静态空间信息,还需要考虑帧与帧之间的时空动态信息,如何有效的提取视频序列的时空特征成为设计网络结构的核心工作。
三维卷积神经网络是目前视频中的行为识别的主流算法之一,它是由2D卷积神经网络进行了简单而有效的扩展得到,直接沿时间维度卷积,可用于学习动态连续的视频序列,深入学习时空特征。传统的三维卷积神经网络如C3D,Res3D,I3D已经在多种数据集上取得好的成绩,不过网络付出了高昂的计算代价。如何在网络的精度和运算速度上达到平衡,设计一个计算高效且高准确率的行为识别算法显得尤为重要。
发明内容
本发明的首要目的在于提供一种解决了传统的3D卷积神经网络算法缺乏对网络多层次时空特征的充分利用而导致识别率较低的问题,同时提高了模型的表达能力,还减少了模型参数量,加快了运算速度,在保证精度得到提升的同时提高计算效率的基于三维残差稠密网络的人体行为意图识别方法。
为实现上述目的,本发明采用了以下技术方案:一种基于三维残差稠密网络的人体行为意图识别方法,该方法包括下列顺序的步骤:
(1)根据机器人的安保任务需求,创建一个包含多类行为的真实场景人体行为数据集,包括训练集和测试集;
(2)根据真实场景的视频人体行为识别需求,构建三维残差稠密网络;
(3)训练时,将训练集中预处理后的子数据集视频序列依次送入三维残差稠密网络中训练,最终得到视频人体行为识别模型;
(4)测试时,将测试集中的数据经过预处理后输入到训练好的视频人体行为识别模型中,然后输出人体行为类型。
所述步骤(1)具体是指:创建一个包含多类行为的真实场景人体行为数据集,其视频数据取材于楼宇门禁附近,由进出门的流动人群完成的刷卡、徘徊、行走、站立四类动作,视频拍摄角度固定,视频数据的光照条件包括白天和晚上灯照情况,每类行为分为训练集和测试集。
所述步骤(2)具体包括以下步骤:
(2a)结合残差连接和稠密连接的思想,提出改进的三维卷积神经网络,即三维残差稠密网络,并构造三维残差稠密块作为网络构建模块;其中三维残差稠密块由多层稠密连接的三维卷积层和一个残差连接组成,三维残差稠密网络由多个三维残差稠密块、三维卷积层、拼接层和三维池化层组成;
(2b)三维残差稠密块内每一个卷积层的特征直接传递到所有后续层,然后进行局部稠密特征聚合自适应的保留有益信息,接着对输入和输出特征聚合进行局部残差学习;
(2c)三维残差稠密块经过采样后的输出会直接访问到下一个三维残差稠密块内中的所有层,形成一个特征连续传递和复用的状态;同时每个三维残差稠密块通过卷积采样后的特征输出被拼接起来利用,以全局方式自适应地保留多种层级特征,完成全局特征聚合。
所述步骤(3)具体包括以下步骤:
(3a)所述三维残差稠密网络的输入为训练集生成的连续16帧视频序列,对输入的连续16帧视频序列的分辨率进行调整,并设置相应的采样率,采用相应的预处理和数据增强方法;
(3b)将连续16帧视频帧序列送入三维残差稠密网络进行训练,经过三维卷积,非线性单元、批量正则化以及三维池化操作层层堆叠,网络提取到高层语义特征,然后输出有效的特征向量;
(3c)三维残差稠密网络训练采用反向传播算法,根据三维残差稠密网络的输出值与真实值计算损失函数,完成输出值的正向传播,接着用链式法则计算三维残差稠密网络各层的误差梯度,用误差梯度矫正各层的参数,完成误差的反向传播;三维残差稠密网络通过不断的正向传播和反向传播,直到三维残差稠密网络收敛,最终得到视频人体行为识别模型。
在所述步骤(4)中,测试时,使用训练好的模型估计每个视频片段序列的行为类型,并与真实行为标签做比对得到识别准确率。
本发明的另一目的在于提供一种基于三维残差稠密网络的人体行为意图识别系统,包括:
数据采集模块,用于利用监控设备采集人体行为视频;
数据预处理模块,其与所述的数据采集模块通讯连接,用于对模型的输入进行预处理,其中包括对输入视频序列去均值化和归一化,以加快模型收敛速度,以及跳过偶数帧采样,以减少视频连续帧中包含的冗余信息与噪声;
人体行为特征提取模块,其与所述的数据预处理模块连接,用于提取能够描述连续视频帧中人体对象行为特性的特征值,其中提取特征的模型为三维残差稠密网络;
行为分类模块,与人体行为特征提取模块连接,用于对人体对象行为的特征信息进行处理并分类,得到连续视频帧对应的行为分类,其中分类模型采用的分类器为softmax多分类器;
结果输出模块,与行为分类模块连接,用于将行为分类模块得到的行为检测结果分发给其他程序或设备,或者报警系统根据检测结果对可疑人员发出警告提示。
由上述技术方案可知,本发明的有益效果为:本发明设计的网络在结构上增强了对网络多层次时空特征的提取,利用局部和全局特征聚合,降低了原有视频信息在网络训练过程中丢失的风险,增强了模型的表达能力,使得能够在各种数据集以及真实场景下取得好的效果;本发明设计的三维残差稠密网络当中的所有三维残差稠密块的稠密连接都采用bottleneck layer,其增加的1×1×1卷积操作,可以起到减少输入特征数量、降维减少计算量以及融合各个通道特征等优势;同时网络利用局部和全局特征聚合,也起到了降维减少计算量的作用;最终都导致参数量降低,模型运算速度加快;本发明设计的网络在结构上保留了传统三维卷积的优势,同时还引入了残差连接,促进信息和梯度的传递,增强了网络的泛化性能;与现有的技术相比,本发明所述的行为识别方法在自己创建的数据集以及UCF101和HMDB51等公开数据集上的实验结果对比,本发明提供的方法在识别准确度上有较大提升。
附图说明
图1为本发明中的三维残差稠密网络;
图2为本发明中的三维残差稠密块;
图3为KTH数据集的六类动作;
图4为UCF-101数据集中的4类行为示例;
图5为本发明创建的真实场景数据集的四类动作示例;
图6为本发明的方法流程示意图;
图7为本系统的结构示意图。
具体实施方式
如图6所示,一种基于三维残差稠密网络的人体行为意图识别方法,该方法包括下列顺序的步骤:
(1)根据机器人的安保任务需求,创建一个包含多类行为的真实场景人体行为数据集,包括训练集和测试集;
(2)根据真实场景的视频人体行为识别需求,构建三维残差稠密网络;
(3)训练时,将训练集中预处理后的子数据集视频序列依次送入三维残差稠密网络中训练,最终得到视频人体行为识别模型;
(4)测试时,将测试集中的数据经过预处理后输入到训练好的视频人体行为识别模型中,然后输出人体行为类型。
所述步骤(1)具体是指:创建一个包含多类行为的真实场景人体行为数据集,其视频数据取材于楼宇门禁附近,由进出门的流动人群完成的刷卡、徘徊、行走、站立四类动作,视频拍摄角度固定,视频数据的光照条件包括白天和晚上灯照情况,每类行为分为训练集和测试集,本发明采用2/3的行为数据作为训练集,剩下1/3的行为数据作为测试集。所述机器人指安防巡逻机器人,其工作内容是感知和察觉外部环境,除围绕固定区域巡逻的时间外,其大部分时间是在楼宇门口进行安保工作。根据安防巡逻机器人安保任务的需求,建立真实场景的数据集。视频数据取材于楼宇门禁附近,由进出门的流动人群完成的刷卡、徘徊、行走、站立等四类动作,数据集每一类动作都包括100个视频段,共计400个视频样。
所述步骤(2)具体包括以下步骤:
(2a)结合残差连接和稠密连接的思想,提出改进的三维卷积神经网络,即三维残差稠密网络,并构造三维残差稠密块作为网络构建模块;其中三维残差稠密块由多层稠密连接的三维卷积层和一个残差连接组成,三维残差稠密网络由多个三维残差稠密块、三维卷积层、拼接层和三维池化层组成;
本发明提出的用于视频行为识别的三维残差稠密网络(3D-RDNet),它借鉴ResNet的残差学习和DenseNet网络稠密连接模式,构建了三维残差稠密块,提取多层次时空特征,再进行特征聚合,将底层特征和高层语义特征相结合,提高模型的表达能力;
如图1所示,将三维残差稠密网络分为三个部分,分别是:浅层特征提取层,残差稠密层,全局特征聚合层。浅层特征提取层(Part A)包括图示的两层3D ConV;残差稠密层(Part B)包括Maxpool层,多个残差稠密块(3D RDB)以及用于卷积降采样的3D ConV1和3DConV2等;全局特征聚合层(Part C)包含对特征拼接的拼接层(concatenate)和特征聚合的卷积层。
定义三维残差稠密网络的输入和输出分别为Pclip和Pcls,网络的前两层卷积层用来提取浅层特征,具体地,从浅层提取到特征的过程可描述为:
P0=Gsh(Pclip),
其中Gsh代表前两层卷积和下采样操作的复合函数,P0为视频片段clip中提取到的特征图,它用于第一层残差稠密块的输入。这里设置了N个残差稠密块,第n个残差稠密块的输出为Pn,其计算过程为:
Pn=G3DRDB,n(G3DRDB,n-1(...(G3DRDB,1(P0))...)),
这里的G3DRDB,n代表第n个残差稠密块(3D RDB)及其下采样的计算操作,而当n=N时,G3DRDB,N只包含残差稠密块的计算操作。G3DRDB,n是复合运算函数,包括了多层卷积和整流线性单位。由于Pn是由第n个残差稠密块内的多个卷积层运算产生的,我们可以将Pn视为局部稠密特征。
3D-RDNet通过多个3D-RDB提取到多层次局部稠密特征之后,我们进一步进行全局特征聚合(GFA,Global Feature Aggregation),GFA充分利用了前面所有层的特征。具体地,我们将输入的不同层次的特征Pn都卷积采样为1×7×7特征图Xn,并进行l2范数归一化,然后用拼接层(concatenate)对来自不同层次的局部稠密特征Xn进行拼接,再用1×1×1的卷积进行特征聚合和通道调整,得到全局特征聚合的特征图。其中对局部稠密特征拼接的过程可描述为:
PGFA=GGFA([X0,X1,...,XN]),
其中PGFA是经过全局特征聚合输出的特征图,GGFA是1×1×1卷积的复合函数,它用于自适应的融合来自不同层的特征,[X0,X1,...,XN]是指N个经过三维残差稠密块和卷积采样后的特征图的拼接。
综合上述操作,网络从输入clip中提取到浅层特征,然后经过多个残差稠密块得到丰富的局部特征,再经过全局特征聚合得到全局特征,最后通过softmax分类器得到各个种类的分数,整个网络3D-RDNet计算过程可表示为:
Pcls=GRDNet(Pclip),
其中GRDNet为3D-RDNet整个网络的运算操作,Pcls为网络的输出。
三维残差稠密网络有多个三维残差稠密块组成,图2为三维残余稠密块(3D-RDB)的网络结构图。3D-RDB主要包含稠密连接层、局部特征聚合(LFA)和局部残差学习(LRL),这使得网络能够充分学习多层卷积特征。
所述三维残差稠密块的稠密连接模式描述如下:
3D-RDB模块由多个卷积层、整流线性单元和批规范化层组成的特征提取单元重复多次的串联形成,这有利用于训练更深的网络。前面3D-RDB学习到的特征直接传递给当前3D-RDB内的每一层,同时,模块内部每层之间都有直接的连接,这种稠密连接方式使得特征和梯度的传递更加有效,促进了特征复用,保留了前向传播的特性,还提取了局部稠密特征。这里定义Pn-1和Pn分别为第n和n+1个3D-RDB的输入,那么第n个3D-RDB的第a个Conv层的输出可以表示为:
Pn,a=σ(Wn,a[Pn-1,Pn,1,...,Pn,a-1]),
其中σ表示内核为ReLU的激活函数。Wn,a中是第a个卷积层的权重,这里为简单起见省略了偏置项。我们假设Pn,a由G(也称为增长率)特征图组成。[Pn-1,Pn,1,...,Pn,a-1]是指由第(n-1)个3D-RDB,以及第n个3D-RDB内的卷积层1,…,(a-1)输出的特征图的串联。
所述三维残差稠密块模块的局部特征聚合(Local Feature Aggregation,LFA)描述如下:
3D-RDB通过稠密连接模式学习到多层次时空特征后,接下来对局部稠密特征进行融合,具体地,通过提取一系列来自先前3D-RDB和当前的3D-RDB中的卷积层特征,然后对其进行拼接,再引入了1×1×1卷积层用于自适应地融合具有不同层级的一系列特征,我们将此操作命名为局部特征聚合(LFA)。其计算过程可描述如下:
Figure BDA0002097956620000081
其中
Figure BDA0002097956620000082
表示第n个3D-RDB中1×1×1卷积层的复合运算,它可以减少特征图数量,减少计算量同时融合各个通道,随着稠密网络的增长率变大,LFA将有助于非常稠密的网络训练。
所述三维残差稠密块模块的局部残差学习(Local residual learning,LRL)描述如下:
在足够深的网络结构中,为了确保网络中各层级之间的最大信息流,3D-RDB中采用了残差网络的跳跃连接方式,它将具有相同特征映射大小的特征图连接起来,这样每一层的输出都直接连接到了后续层的输入,这种从前面层到后续层的跳跃连接缓解了网络梯度消失问题,增强了特征传播,促进了特征重用,保留了前向传播的特性。第n个3D-RDB的输出可表示为:
Pn=Pn-1+Pn,LF
LRL的使用能提高网络的表达能力,网络效果更佳。由于稠密连接模式和局部残差学习,我们将此模块体系结构称为三维残差稠密块(3D-RDB)。
本发明将在多个数据集上进行验证,进行实验的网络结构设置如下:三维残差稠密块数量设置为3个,每个三维残差稠密块内部的稠密层数量设置为4个。
(2b)三维残差稠密块内每一个卷积层的特征直接传递到所有后续层,然后进行局部稠密特征聚合自适应的保留有益信息,接着对输入和输出特征聚合进行局部残差学习;
(2c)三维残差稠密块经过采样后的输出会直接访问到下一个三维残差稠密块内中的所有层,形成一个特征连续传递和复用的状态;同时每个三维残差稠密块通过卷积采样后的特征输出被拼接起来利用,以全局方式自适应地保留多种层级特征,完成全局特征聚合。
所述步骤(3)具体包括以下步骤:
(3a)所述三维残差稠密网络的输入为训练集生成的连续16帧视频序列,对输入的连续16帧视频序列的分辨率进行调整,并设置相应的采样率,采用相应的预处理和数据增强方法;
(3b)将连续16帧视频帧序列送入三维残差稠密网络进行训练,经过三维卷积,非线性单元、批量正则化以及三维池化操作层层堆叠,三维残差稠密网络提取到高层语义特征,然后输出有效的特征向量;
(3c)三维残差稠密网络训练采用反向传播算法,根据三维残差稠密网络的输出值与真实值计算损失函数,完成输出值的正向传播,接着用链式法则计算三维残差稠密网络各层的误差梯度,用误差梯度矫正各层的参数,完成误差的反向传播;三维残差稠密网络通过不断的正向传播和反向传播,直到三维残差稠密网络收敛,最终得到视频人体行为识别模型。
训练集和测试集输入图像都采用相同的预处理方式,即对输入图片序列去均值归一化以加快模型收敛速度;
对训练集采用的数据扩充方式有以下三种:对图像进行一定角度的旋转;在一定范围内对图像进行水平偏移或竖直偏移;以50%的概率对图像进行随机水平翻转;
训练过程中,初始学习率为0.01,每隔4个周期学习率除以10,训练周期设置为16;使用随机梯度下降作为优化器学习网络参数,动量设置为0.9;批量大小设置为16;
三维残差稠密网络采用softmax损失函数,假设视频分类任务共有N个训练样本,针对网络最后分类层第i个样本的输入特征为χi,假设对应真实标记为yi∈{1,2,...C},另h=(h1,h2,...,hC)T为网络的最终输出,即样本i的预测结果,其中C为分类任务类别数,softmax具体形式如下:
Figure BDA0002097956620000091
在所述步骤(4)中,测试时,使用训练好的模型估计每个视频片段序列的行为类型,并与真实行为标签做比对得到识别准确率。
测试时,使用训练好的模型估计每个视频片段序列的行为类型,并与真实行为标签做比对得到识别准确率。
本发明在自己创建一个的包含多类行为的真实场景数据集进行了实验,实验结果表明在真实场景数据集上3D-RDNet网络取得了94.66%的识别率,超越C3D网络5.18%,其中识别准确率是基于视频连续16帧片段计算的。
本发明还在公开数据集包括KTH和UCF-101进行了验证性实验,其中KTH和UCF-101是计算机视觉行为识别领域最常用的数据集。在KTH数据集有六类动作,实验采用16人的行为视频作为训练,剩下9人的行为视频作为测试。如图3为KTH数据集的六类动作。在KTH数据集上,三维残差稠密网络取得了93.53%的识别率,这比C3D网络高出了3.93%,其中识别准确率是基于整个视频计算的。
取UCF-101数据集上101类动作的每类行为类的地8-25组作为训练组,第1-7组作为测试组。如图4为UCF-101列举的4类的行为。三维残差稠密网络取得了57.35%的识别率,这比C3D网络高出了13.91%,其中识别准确率是基于视频连续16帧片段计算的。
本发明还在自己创建一个的包含多类行为的真实场景数据集进行了实验,如图5所示为本发明创建的真实场景数据集的四类动作示例。实验结果表明在真实场景数据集上3D-RDNet网络取得了94.66%的识别率,超越C3D网络5.18%,其中识别准确率是基于视频连续16帧片段计算的。
如图7所示,本系统包括:
数据采集模块,用于利用监控设备采集人体行为视频;
数据预处理模块,其与所述的数据采集模块通讯连接,用于对模型的输入进行预处理,其中包括对输入视频序列去均值化和归一化,以加快模型收敛速度,以及跳过偶数帧采样,以减少视频连续帧中包含的冗余信息与噪声;
人体行为特征提取模块,其与所述的数据预处理模块连接,用于提取能够描述连续视频帧中人体对象行为特性的特征值,其中提取特征的模型为三维残差稠密网络;
行为分类模块,与人体行为特征提取模块连接,用于对人体对象行为的特征信息进行处理并分类,得到连续视频帧对应的行为分类,其中分类模型采用的分类器为softmax多分类器;假设对应真实标记为yi∈{1,2,...C},另h=(h1,h2,...,hC)T为网络的最终输出,即样本i的预测结果,其中C为分类任务类别数。softmax函数的表达式为:
Figure BDA0002097956620000111
结果输出模块,与行为分类模块连接,用于将行为分类模块得到的行为检测结果分发给其他程序或设备,或者报警系统根据检测结果对可疑人员发出警告提示。图7中的视频源取材于各种公开的视频行为识别数据集以及本发明创建的实际场景人体行为数据集。
综上所述,本发明显著提升在KTH和UCF-101等数据集上的识别精度。同时用于解决真实场景问题以及安保任务需求。

Claims (4)

1.一种基于三维残差稠密网络的人体行为意图识别方法,其特征在于:该方法包括下列顺序的步骤:
(1)根据机器人的安保任务需求,创建一个包含多类行为的真实场景人体行为数据集,包括训练集和测试集;
(2)根据真实场景的视频人体行为识别需求,构建三维残差稠密网络;
(3)训练时,将训练集中预处理后的子数据集视频序列依次送入三维残差稠密网络中训练,最终得到视频人体行为识别模型;
(4)测试时,将测试集中的数据经过预处理后输入到训练好的视频人体行为识别模型中,然后输出人体行为类型;
所述步骤(1)具体是指:创建一个包含多类行为的真实场景人体行为数据集,其视频数据取材于楼宇门禁附近,由进出门的流动人群完成的刷卡、徘徊、行走、站立四类动作,视频拍摄角度固定,视频数据的光照条件包括白天和晚上灯照情况,每类行为分为训练集和测试集;
所述步骤(2)具体包括以下步骤:
(2a)结合残差连接和稠密连接的思想,提出改进的三维卷积神经网络,即三维残差稠密网络,并构造三维残差稠密块作为网络构建模块;其中三维残差稠密块由多层稠密连接的三维卷积层和一个残差连接组成,三维残差稠密网络由多个三维残差稠密块、三维卷积层、拼接层和三维池化层组成;
(2b)三维残差稠密块内每一个卷积层的特征直接传递到所有后续层,然后进行局部稠密特征聚合自适应的保留有益信息,接着对输入和输出特征聚合进行局部残差学习;
(2c)三维残差稠密块经过采样后的输出会直接访问到下一个三维残差稠密块内中的所有层,形成一个特征连续传递和复用的状态;同时每个三维残差稠密块通过卷积采样后的特征输出被拼接起来利用,以全局方式自适应地保留多种层级特征,完成全局特征聚合。
2.根据权利要求1所述的基于三维残差稠密网络的人体行为意图识别方法,其特征在于:所述步骤(3)具体包括以下步骤:
(3a)所述三维残差稠密网络的输入为训练集生成的连续16帧视频序列,对输入的连续16帧视频序列的分辨率进行调整,并设置相应的采样率,采用相应的预处理和数据增强方法;
(3b)将连续16帧视频帧序列送入三维残差稠密网络进行训练,经过三维卷积,非线性单元、批量正则化以及三维池化操作层层堆叠,网络提取到高层语义特征,然后输出有效的特征向量;
(3c)三维残差稠密网络训练采用反向传播算法,根据三维残差稠密网络的输出值与真实值计算损失函数,完成输出值的正向传播,接着用链式法则计算三维残差稠密网络各层的误差梯度,用误差梯度矫正各层的参数,完成误差的反向传播;三维残差稠密网络通过不断的正向传播和反向传播,直到三维残差稠密网络收敛,最终得到视频人体行为识别模型。
3.根据权利要求1所述的基于三维残差稠密网络的人体行为意图识别方法,其特征在于:在所述步骤(4)中,测试时,使用训练好的模型估计每个视频片段序列的行为类型,并与真实行为标签做比对得到识别准确率。
4.一种实施如权利要求1至3中任一项所述的基于三维残差稠密网络的人体行为意图识别方法的系统,其特征在于:包括:
数据采集模块,用于利用监控设备采集人体行为视频;
数据预处理模块,其与所述的数据采集模块通讯连接,用于对模型的输入进行预处理,其中包括对输入视频序列去均值化和归一化,以加快模型收敛速度,以及跳过偶数帧采样,以减少视频连续帧中包含的冗余信息与噪声;
人体行为特征提取模块,其与所述的数据预处理模块连接,用于提取能够描述连续视频帧中人体对象行为特性的特征值,其中提取特征的模型为三维残差稠密网络;
行为分类模块,与人体行为特征提取模块连接,用于对人体对象行为的特征信息进行处理并分类,得到连续视频帧对应的行为分类,其中分类模型采用的分类器为softmax多分类器;
结果输出模块,与行为分类模块连接,用于将行为分类模块得到的行为检测结果分发给其他程序或设备,或者报警系统根据检测结果对可疑人员发出警告提示。
CN201910525116.XA 2019-06-18 2019-06-18 基于三维残差稠密网络的人体行为意图识别方法与系统 Active CN110232361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910525116.XA CN110232361B (zh) 2019-06-18 2019-06-18 基于三维残差稠密网络的人体行为意图识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910525116.XA CN110232361B (zh) 2019-06-18 2019-06-18 基于三维残差稠密网络的人体行为意图识别方法与系统

Publications (2)

Publication Number Publication Date
CN110232361A CN110232361A (zh) 2019-09-13
CN110232361B true CN110232361B (zh) 2021-04-02

Family

ID=67859520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910525116.XA Active CN110232361B (zh) 2019-06-18 2019-06-18 基于三维残差稠密网络的人体行为意图识别方法与系统

Country Status (1)

Country Link
CN (1) CN110232361B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659599A (zh) * 2019-09-19 2020-01-07 安徽七天教育科技有限公司 一种基于扫描试卷的离线笔迹鉴定系统以及使用方法
CN110978058B (zh) * 2019-12-24 2022-10-11 复旦大学 适用于工业机器人的位姿测量及其运动学模型修正的方法
CN111401207B (zh) * 2020-03-11 2022-07-08 福州大学 基于mars深度特征提取与增强的人体动作识别方法
CN113643189A (zh) * 2020-04-27 2021-11-12 深圳市中兴微电子技术有限公司 图像去噪方法、装置和存储介质
CN112633401B (zh) * 2020-12-29 2022-11-08 中国科学院长春光学精密机械与物理研究所 一种高光谱遥感图像分类方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
CN107292247A (zh) * 2017-06-05 2017-10-24 浙江理工大学 一种基于残差网络的人体行为识别方法及装置
CN109584248A (zh) * 2018-11-20 2019-04-05 西安电子科技大学 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109598728A (zh) * 2018-11-30 2019-04-09 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN109785249A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种基于持续性记忆密集网络的图像高效去噪方法
CN109829399A (zh) * 2019-01-18 2019-05-31 武汉大学 一种基于深度学习的车载道路场景点云自动分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2955007B1 (fr) * 2010-01-04 2012-02-17 Sagem Defense Securite Estimation de mouvement global et dense
US10425582B2 (en) * 2016-08-25 2019-09-24 Facebook, Inc. Video stabilization system for 360-degree video data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
CN107292247A (zh) * 2017-06-05 2017-10-24 浙江理工大学 一种基于残差网络的人体行为识别方法及装置
CN109584248A (zh) * 2018-11-20 2019-04-05 西安电子科技大学 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109598728A (zh) * 2018-11-30 2019-04-09 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN109785249A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种基于持续性记忆密集网络的图像高效去噪方法
CN109829399A (zh) * 2019-01-18 2019-05-31 武汉大学 一种基于深度学习的车载道路场景点云自动分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《TAN: Temporal Aggregation Network for Dense Multi-label Action Recognition》;Dai XY et al;《2019 IEEE Winter Conference on Applications of Computer Vision(WACV)》;20190307;正文第3、4部分 *
《基于多特征卷积神经网络的手写公式符号识别》;方定邦等;《基于多特征卷积神经网络的手写公式符号识别》;20190410;第56卷(第7期);全文 *
《正则化深度学习及其在机器人环境感知中的应用》;廖依伊;《中国博士学位论文全文数据库信息科技辑》;20180815(第2018年第08期);全文 *

Also Published As

Publication number Publication date
CN110232361A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110232361B (zh) 基于三维残差稠密网络的人体行为意图识别方法与系统
CN110458844B (zh) 一种低光照场景的语义分割方法
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN108830157A (zh) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN109740419A (zh) 一种基于Attention-LSTM网络的视频行为识别方法
CN111652903B (zh) 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN107833239B (zh) 一种基于加权模型约束的寻优匹配目标跟踪方法
CN107967695A (zh) 一种基于深度光流和形态学方法的运动目标检测方法
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN110472634A (zh) 基于多尺度深度特征差值融合网络的变化检测方法
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN113920581A (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN113378775A (zh) 一种基于深度学习的视频阴影检测与消除方法
CN116385873A (zh) 基于坐标感知注意力和空间语义上下文的sar小目标检测
CN112348033B (zh) 一种协同显著性目标检测方法
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN113255464A (zh) 一种飞机动作识别方法及系统
CN114694261A (zh) 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant