CN111814661A - 基于残差-循环神经网络的人体行为识别方法 - Google Patents

基于残差-循环神经网络的人体行为识别方法 Download PDF

Info

Publication number
CN111814661A
CN111814661A CN202010646462.6A CN202010646462A CN111814661A CN 111814661 A CN111814661 A CN 111814661A CN 202010646462 A CN202010646462 A CN 202010646462A CN 111814661 A CN111814661 A CN 111814661A
Authority
CN
China
Prior art keywords
neural network
residual error
recurrent neural
convolution
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010646462.6A
Other languages
English (en)
Other versions
CN111814661B (zh
Inventor
陈红颖
盛立杰
郝轩廷
卢旺林
金灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010646462.6A priority Critical patent/CN111814661B/zh
Publication of CN111814661A publication Critical patent/CN111814661A/zh
Application granted granted Critical
Publication of CN111814661B publication Critical patent/CN111814661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于残差‑循环神经网络的人体行为识别方法,其实现步骤为:获取多个人体骨架关键点信息;获取训练集、验证集和测试集;构建残差‑循环神经网络;对残差‑循环神经网络进行训练;获取人体行为识别结果;本发明通过检测提取视频中的单人图像,对其进行骨架关键点检测得到人体骨架关键点,并采用残差‑循环神经网络实现最终的行为识别,在去除视频中冗余信息的基础上融合了空间和时间维度的特征,极大的减少了模型的计算量并使得提取的特征信息更为全面,有效提高了视频中人体行为识别的准确率和速度。

Description

基于残差-循环神经网络的人体行为识别方法
技术领域
本发明属于图像处理技术领域,涉及一种行为识别方法,具体涉及一种基于残差-循环神经网络的人体行为识别方法,可用于智能监控、人机交互等领域。
背景技术
视频人体行为识别任务是利用计算机自动分析处理视频数据,得到人体行为类别的过程,是计算机视觉领域最具挑战的任务之一。主要是理解和研究视频和图像序列中以人体为主要对象的各类动作以及各种交互行为、交互关系。在人机交互、视频标注推荐、运动分析、安防监控等真实场景中有极强的应用性。
传统的人体行为识别算法通常采用人工设计特征的方式提取信息,而这些方法往往工作量较大,算法设计复杂。在面对复杂真实场景时,易受到遮挡、光线、角度变化等的干扰,识别准确率很大程度依赖于算法对视频中特征信息的表达能力。深度学习已经在图像及视频内容理解领域有了很好的发展,基于深度学习的特征提取方法自主的从样本中学习运动对象特征并进行描述,与人类认知的机理类似,相对于传统方法,在复杂背景和实际应用中有着更好的表现能力,为人体行为识别算法设计带来了新的思考,
例如申请公布号为CN 110321833 A,名称为“基于卷积神经网络和循环神经网络的人体行为识别方法”的专利申请,公开了一种基于卷积神经网络和循环神经网络的人体行为识别方法,包含如下步骤:使用传感器跟踪人体行为,收集该时间段内人体关节的三维坐标向量组以及RGB视频。然后使用循环神经网络RNN对人体关节的三维坐标进行训练,得出时间特征向量。使用卷积神经网络CNN对RGB视频训练,得到时空特征向量,最后结合时间特征向量和时空特征向量并归一化,并馈送到线性SVM的分类器,使用验证数据集,找到线性支持向量机SVM的参数C,最终得到一个综合识别模型。该方法的不足之处是:对于较长的视频序列,普通的循环神经网络在训练过程中易出现梯度传递的问题,无法捕获长时间依赖进而影响识别精度;并且人体骨架关键点的三维坐标信息需使用特定相机且在简单场景下才可精确获取,而实际生活中一般获取到的均为原始视频数据,该方法应用性不强。
例如申请公布号为CN 109101876 A,名称为“基于长短时记忆网络的人体行为识别方法”的专利申请,公开了一种基于长短时记忆网络的人体行为识别方法。该方法将所述视频分割成若干视频片段,通过VGG-16Net模型和RNN神经网络进行视频片段预处理,获得时间序列数据,数据归一化处理后,将无量纲数据输入到LSTM网络中,所述LSTM网络输出人体特征向量,将所述人体特征向量输入到softmax分类器中进行分类。该方法使用长短时记忆网络可有效过滤视频中的冗余信息并有效利用视频帧之间的时序信息,但是其直接对视频片段进行处理,计算量较大,且模型缺乏对视频空间信息的捕获,进而影响识别准确率及速度。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出一种基于残差-循环神经网络的人体行为识别方法,旨在提高人体行为识别的准确率和速度。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取多个人体骨架关键点信息:
(1a)从数据集中获取n个带类别标签的原始人体视频样本,组成人体视频样本集V={V1,V2,...,Vi,...,Vn},V的行为类别数量为R,并以t为帧间隔对每个视频样本Vi进行帧提取,得到V对应的帧图像集P={P1,P2,...,Pi,...,Pn},其中,Vi表示第i个人体视频样本,n≥25000,Pi表示Vi对应的帧图像集合,Pi={Pi1,Pi2,...,Pij,...,Pim},Pij表示Vi中的第j个帧图像,m表示帧图像的总数,m≥60;
(1b)对Pij中的人体位置进行检测,并提取检测结果中的单人图像,得到Pi对应的单人图像集合,Pi′={Pi1′,Pi2′,...,Pij′,...,Pim′},则P对应的单人图像集为P′={P1′,P2′,...,Pi′,...,Pn′};
(1c)对Pij′进行骨架关键点检测,得到Pi′对应的包含18个骨架关键点位置的单人分布热图集合,Qi′={Qi1′,Qi2′,...,Qij′,...,Qim′},则P′对应的单人分布热图集为Q′={Q1′,Q2′,...,Qi′,...,Qn′},其中18个骨架关键点包括鼻子、脖子、右肩、右肘、右手腕、左肩、左肘、左手腕、右臀、右膝盖、右脚踝、左臀、左膝盖、左脚踝、左眼、右眼、左耳、右耳;
(1d)将分布热图Qij′中高亮点坐标位置组合,得到单个视频样本Vi对应的带类别标签的骨架关键点集合Li′={Li1′,Li2′,...,Lij′,...,Lim′},则带类别标签的原始人体视频样本集合V对应的带类别标签的总骨架关键点集合表示为L′={L1′,L2′,...,Li′,...,Ln′},其中,Lij′表示所述单帧单人图像的骨架关键点集合,
Figure BDA0002573297270000031
其中,
Figure BDA0002573297270000032
表示单帧单人图像骨架关键点集合Lij′中的第k个关键点坐标;
(2)获取训练集、验证集和测试集:
将L′中半数以上带类别标签的骨架关键点集合组成训练集,其余带类别标签的骨架关键点集合一半组成验证集,一半组成测试集;
(3)构建残差-循环神经网络C:
构建包括残差神经网络以及与其级联的循环神经网络的残差-循环神经网络模型C,其中,残差神经网络包括依次连接的卷积层、池化层、多个残差单元和多个全连接层,循环神经网络包括依次连接的长短时间记忆网络、全连接层和softmax输出层;
(4)对残差-循环神经网络C进行训练:
(4a)设迭代次数为t,设迭代每进行10次的标志为b,最大迭代次数为T,T≥60,设定识别准确率阈值为α,并令t=0,b=tmod10;
(4b)将从训练集中随机且不放回的选取N1个Li′依次输入到C中,输出Li′对应的预测类别标签,并利用损失值计算公式,计算当前时刻残差-循环神经网络Ct的损失值Et,其中类别标签及预测类别标签均为行数等于1,列数等于原始人体视频样本集的类别数量R的向量;
(4c)采用反向传播算法,并通过损失值Et对残差神经网络中卷积层卷积核的参数ωkm、残差神经网络中各全连接层结点之间的连接参数θij、循环神经网络中长短时间记忆网络与全连接层之间的连接参数θi,以及残差神经网络与循环神经网络之间的连接参数θ进行更新,得到更新后的残差-循环神经网络Ct
(4d)判断t<T是否成立,若是,则进行步骤(4e),否则,执行步骤(4g);
(4e)判断b=0是否成立,若是执行步骤(4f),否则,令t=t+1,执行步骤(4b);
(4f)将验证集中所有的单个视频对应的骨架关键点集合及类别标签依次输入到Ct中,输出每个原始人体视频样本对应的预测类别标签,并利用识别准确率计算公式,计算残差-循环神经网络Ct在验证集上的识别准确率αt′;
(4g)判断αt′≥α是否成立,若是,得到训练好的残差-循环神经网络C′,否则,令t=t+1,执行步骤(4b);
(5)获取人体行为识别结果:
将测试集输入到C′中,得到识别结果。
本发明与现有技术相比,具有以下优点:
第一,本发明构建的残差-循环神经网络,其中残差单元模块的使用提升了网络提取更深层次信息的能力,并且其基于感受野大小不同的卷积核,融合了同一分辨率的信息;长短时间记忆网络的使用有效去除了视频中的冗余信息,并捕获视频帧之间的长距离依赖,模型整体融合了空间及时间维度的特征信息,解决了现有技术缺乏捕获长距离依赖能力及获取视频空间信息能力的问题,有效提高了人体行为识别的准确率。
第二,本发明通过对原始人体视频样本中的人体位置进行检测,提取检测结果中的单人图像,并进行骨架关键点检测得到视频中人体骨架关键点,解决了现有技术中直接对视频片段处理,导致模型参数量过大,进而对视频中人体行为识别速度下降的问题,有效提高了行为识别的速度。克服了现有技术中精确获取人体骨架关键点需使用特定相机且场景简单的限制,从而可对日常相机所采集的人体视频样本进行行为识别,易于推广应用。
附图说明
图1为本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
(1)获取多个人体骨架关键点信息:
(1a)本实施例采用同类中最大、最复杂的跨视角动作数据集NTU RGB+D,从数据集中获取n个带类别标签的原始人体视频样本,组成人体视频样本集V={V1,V2,...,Vi,...,Vn},V的行为类别数量为R,并以t为帧间隔对每个视频样本Vi进行帧提取,得到V对应的帧图像集P={P1,P2,...,Pi,...,Pn},其中,Vi表示第i个人体视频样本,n≥25000,Pi表示Vi对应的帧图像集合,Pi={Pi1,Pi2,...,Pij,...,Pim},Pij表示Vi中的第j个帧图像,m表示帧图像的总数,m≥60;
(1b)本实施例采取现阶段准确率较高的Yolo_V3模型对Pij中的人体位置进行检测,并提取检测结果中的单人图像,得到Pi对应的单人图像集合,Pi′={Pi1′,Pi2′,...,Pij′,...,Pim′},则P对应的单人图像集为P′={P1′,P2′,...,Pi′,...,Pn′};
(1c)本实施例采取现阶段准确率较高且速率较快的多尺度特征融合的多阶段级联新型网络HRNet模型对Pij′进行骨架关键点检测,得到Pi′对应的包含18个骨架关键点位置的单人分布热图集合,Qi′={Qi1′,Qi2′,...,Qij′,...,Qim′},则P′对应的单人分布热图集为Q′={Q1′,Q2′,...,Qi′,...,Qn′},其中18个骨架关键点包括鼻子、脖子、右肩、右肘、右手腕、左肩、左肘、左手腕、右臀、右膝盖、右脚踝、左臀、左膝盖、左脚踝、左眼、右眼、左耳、右耳;HRNet模型在网络计算过程中可一直保持输入特征图的高分辨率,特征图为高分辨率的网络做为主干网络,保留最精细的信息,接着把通过下采样得到的各低分辨率子网逐个渐进添加以形成多个网络阶段。主干网络并行连接各个多分辨率子网,以获取更多的全局信息。通过特征融合模块交换高分辨率表征信息和低分辨率表征信息,使得低分辨率表征信息可用来增强高分辨率主干网络的学习,高分辨率表征也可用于增强低分辨率子网的学习。并行连接使得高分辨率表征得以保持,预测结果在空间上更加准确。不同分辨率的图像采样到相同的尺度反复融合,加之网络的学习能力,会使得多次融合后的结果更加趋近于正确的表示;
(1d)将分布热图Qij′中高亮点坐标位置组合,得到单个视频样本Vi对应的带类别标签的骨架关键点集合Li′={Li1′,Li2′,...,Lij′,...,Lim′},则带类别标签的原始人体视频样本集合V对应的带类别标签的总骨架关键点集合表示为L′={L1′,L2′,...,Li′,...,Ln′},其中,Lij′表示所述单帧单人图像的骨架关键点集合,
Figure BDA0002573297270000061
其中,
Figure BDA0002573297270000062
表示单帧单人图像骨架关键点集合Lij′中的第k个关键点坐标;
(2)获取训练集、验证集和测试集:
将L′中半数以上带标签的骨架关键点集合组成训练集,其余带标签的骨架关键点集合一半组成验证集,一半组成测试集;
(3)构建残差-循环神经网络C:
构建包括残差神经网络以及与其级联的循环神经网络的残差-循环神经网络模型C。其中,残差神经网络包括依次连接的卷积层、池化层、七个残差单元和十三个全连接层,该残差神经网络各层具体参数如下:
卷积层的卷积核大小为7×7,卷积核数量为64,卷积核步长为2;
池化层的池化区域大小设置为3×3,池化步长为2;
第一、二、三个残差单元的卷积步长均为1,第四、五、六、七个残差单元的卷积步长均为2,数据经过残差单元时输入及输出维度相同,达到恒等映射的目的,并且基于感受野大小不同的卷积核,融合同一分辨率的信息,使得所构建的残差神经网络同时融合了空间及时间维度的信息,每个残差单元包含三个依次层叠的卷积层,各层具体参数如下:
第一个卷积层的卷积核大小为1×1,卷积核数量为64;
第二个卷积层的卷积核大小为3×3,卷积核数量为64;
第三个卷积层的卷积核大小为1×1,卷积核数量为256;
全连接层所连接的结点个数为512;
全连接层增加特征向量维度,可根据实际需要自动调节全连接层的长度,保证时间、空间上的权重均衡,以增加模型复杂度;
循环神经网络包括依次连接的长短时间记忆网络、全连接层和softmax输出层,其中所包含的全连接层所连接的结点个数与原始人体视频样本集的类别数量R相等,网络利用长短时间记忆网络输入门的特性有选择的输入,过滤掉多余的特征信息,减少对整体时序的干扰,遗忘门可将之前时刻所得到的特征信息有选择的向后传递,去除了原始数据中的冗余信息,并捕获视频帧图像间的长距离依赖;
(4)对残差-循环神经网络C进行训练:
(4a)设迭代次数为t,设迭代每进行10次的标志为b,最大迭代次数为T,T≥60,设定识别准确率阈值为α,并令t=0,b=tmod10;
(4b)将从训练集中随机且不放回的选取N1个单个视频样本对应的带标签的骨架关键点集合Li′依次输入到C中,输出Li′对应的预测类别标签,其中类别标签及预测类别标签均为行数等于1,列数等于原始人体视频样本集的类别数量R的向量。并利用损失值计算公式,计算当前时刻残差-循环神经网络Ct的损失值Et,其计算方式为:
Figure BDA0002573297270000071
其中,Et表示所选取的N1个单个视频样本对应的带标签的骨架关键点集合Li′输入到Ct后Ct的损失值,N1表示每次选取的Li′数量,即训练样本数量,∑表示求和操作,n1表示所选的单个训练样本的序号,c1表示训练集的类别标签总列数,k1表示单个训练样本类别标签的列数序号,
Figure BDA0002573297270000072
表示第n1个训练样本的类别标签中第k1列的元素,log表示以e为底的对数操作,
Figure BDA0002573297270000073
表示第n1个训练样本的预测类别标签中第k1列的元素;
(4c)采用反向传播算法,得到并通过损失值Et对残差神经网络中卷积层卷积核的参数ωkm、残差神经网络中各全连接层结点之间的连接参数θij、循环神经网络中长短时间记忆网络与全连接层之间的连接参数θi,以及残差神经网络与循环神经网络之间的连接参数θ进行更新,更新后的残差-循环神经网络Ct,其更新操作方式为:
Figure BDA0002573297270000081
Figure BDA0002573297270000082
Figure BDA0002573297270000083
Figure BDA0002573297270000084
其中,ωkm′表示ωkm的更新结果,θij′表示θij的更新结果,θi′表示θi的更新结果,θ′表示θ的更新结果,β表示残差-循环神经网络的学习速率,β为0.001,
Figure BDA0002573297270000085
表示求偏导操作,Et表示当前损失值;
(4d)判断t<T是否成立,若是,则进行步骤(4e),否则,执行步骤(4g);
(4e)判断b=0是否成立,若是执行步骤(4f),否则,令t=t+1,执行步骤(4b);
(4f)将验证集中所有的单个视频对应的骨架关键点集合及类别标签依次输入到Ct中,输出每个原始人体视频样本对应的预测类别标签,并利用识别准确率计算公式,计算残差-循环神经网络Ct在验证集上的识别准确率αt′,其计算方式为:
Figure BDA0002573297270000086
其中,N2表示验证集样本数量,∑表示求和操作,n2表示所选的单个验证集样本的序号,c2表示验证集的类别标签总列数,k2表示单个验证集样本类别标签的列数序号,⊙表示同或操作,argmax表示取最大值下标操作,
Figure BDA0002573297270000091
表示第n2个验证集样本的类别标签中第k2列的元素,
Figure BDA0002573297270000092
表示第n2个验证集样本的预测类别标签中第k2列的元素;
(4g)判断αt′≥α是否成立,若是,得到训练好的残差-循环神经网络C′,否则,令t=t+1,执行步骤(4b);
(5)获取人体行为识别结果:
将测试集输入到C′中,得到识别结果。

Claims (9)

1.一种基于残差-循环神经网络的人体行为识别方法,其特征在于,包括如下步骤:
(1)获取多个人体骨架关键点信息:
(1a)从数据集中获取n个带类别标签的原始人体视频样本,组成人体视频样本集V={V1,V2,...,Vi,...,Vn},V的行为类别数量为R,并以t为帧间隔对每个视频样本Vi进行帧提取,得到V对应的帧图像集P={P1,P2,...,Pi,...,Pn},其中,Vi表示第i个人体视频样本,n≥25000,Pi表示Vi对应的帧图像集合,Pi={Pi1,Pi2,...,Pij,...,Pim},Pij表示Vi中的第j个帧图像,m表示帧图像的总数,m≥60;
(1b)对Pij中的人体位置进行检测,并提取检测结果中的单人图像,得到Pi对应的单人图像集合,Pi′={Pi1′,Pi2′,...,Pij′,...,Pim′},则P对应的单人图像集为P′={P1′,P2′,...,Pi′,...,Pn′};
(1c)对Pij′进行骨架关键点检测,得到Pi′对应的包含18个骨架关键点位置的单人分布热图集合,Qi′={Qi1′,Qi2′,...,Qij′,...,Qim′},则P′对应的单人分布热图集为Q′={Q1′,Q2′,...,Qi′,...,Qn′},其中18个骨架关键点包括鼻子、脖子、右肩、右肘、右手腕、左肩、左肘、左手腕、右臀、右膝盖、右脚踝、左臀、左膝盖、左脚踝、左眼、右眼、左耳、右耳;
(1d)将分布热图Qij′中高亮点坐标位置组合,得到单个视频样本Vi对应的带类别标签的骨架关键点集合Li′={Li1′,Li2′,...,Lij′,...,Lim′},则带类别标签的原始人体视频样本集合V对应的带类别标签的总骨架关键点集合表示为L′={L1′,L2′,...,Li′,...,Ln′},其中,Lij′表示所述单帧单人图像的骨架关键点集合,
Figure FDA0002573297260000021
其中,
Figure FDA0002573297260000022
表示单帧单人图像骨架关键点集合Lij′中的第k个关键点坐标;
(2)获取训练集、验证集和测试集:
将L′中半数以上带类别标签的骨架关键点集合组成训练集,其余带类别标签的骨架关键点集合一半组成验证集,一半组成测试集;
(3)构建残差-循环神经网络C:
构建包括残差神经网络以及与其级联的循环神经网络的残差-循环神经网络模型C,其中,残差神经网络包括依次连接的卷积层、池化层、多个残差单元和多个全连接层,循环神经网络包括依次连接的长短时间记忆网络、全连接层和softmax输出层;
(4)对残差-循环神经网络C进行训练:
(4a)设迭代次数为t,设迭代每进行10次的标志为b,最大迭代次数为T,T≥60,设定识别准确率阈值为α,并令t=0,b=tmod10;
(4b)将从训练集中随机且不放回的选取N1个Li′依次输入到C中,输出Li′对应的预测类别标签,并利用损失值计算公式,计算当前时刻残差-循环神经网络Ct的损失值Et,其中类别标签及预测类别标签均为行数等于1,列数等于原始人体视频样本集的类别数量R的向量;
(4c)采用反向传播算法,并通过损失值Et对残差神经网络中卷积层卷积核的参数ωkm、残差神经网络中各全连接层结点之间的连接参数θij、循环神经网络中长短时间记忆网络与全连接层之间的连接参数θi,以及残差神经网络与循环神经网络之间的连接参数θ进行更新,得到更新后的残差-循环神经网络Ct
(4d)判断t<T是否成立,若是,则进行步骤(4e),否则,执行步骤(4g);
(4e)判断b=0是否成立,若是执行步骤(4f),否则,令t=t+1,执行步骤(4b);
(4f)将验证集中所有的单个视频对应的骨架关键点集合及类别标签依次输入到Ct中,输出每个原始人体视频样本对应的预测类别标签,并利用识别准确率计算公式,计算残差-循环神经网络Ct在验证集上的识别准确率αt′;
(4g)判断αt′≥α是否成立,若是,得到训练好的残差-循环神经网络C′,否则,令t=t+1,执行步骤(4b);
(5)获取人体行为识别结果:
将测试集输入到C′中,得到识别结果。
2.根据权利要求1所述的基于残差-循环神经网络的人体行为识别方法,其特征在于,步骤(1a)中所述的数据集采用NTU RGB+D数据集。
3.根据权利要求1所述的基于残差-循环神经网络的人体行为识别方法,其特征在于,步骤(1b)中所述的对Pij中的人体位置进行检测,并提取检测结果中的单人图像,所采用的方法为Yolo_V3或Mask RCNN。
4.根据权利要求1所述的基于残差-循环神经网络的人体行为识别方法,其特征在于,步骤(1c)中所述的对Pij′进行骨架关键点检测,所采用的方法为HRNet或Hourglass。
5.根据权利要求1所述的基于残差-循环神经网络的人体行为识别方法,其特征在于,步骤(3)所述的残差神经网络,其包含七个依次连接的残差单元,每个残差单元包含三个依次层叠的卷积层,全连接层的数量为十三,该残差神经网络各层具体参数如下:
卷积层的卷积核大小为7×7,卷积核数量为64,卷积核步长为2;
池化层的池化区域大小设置为3×3,池化步长为2;
第一、二、三个残差单元的卷积步长均为1,第四、五、六、七个残差单元的卷积步长均为2,每个残差单元各层具体参数如下:
第一个卷积层的卷积核大小为1×1,卷积核数量为64;
第二个卷积层的卷积核大小为3×3,卷积核数量为64;
第三个卷积层的卷积核大小为1×1,卷积核数量为256;
全连接层所连接的结点个数为512。
6.根据权利要求1中所述的基于残差-循环神经网络的人体行为识别方法,其特征在于,步骤(3)所述的循环神经网络,其所包含的全连接层所连接的结点个数与原始人体视频样本的类别数量R相等。
7.根据权利要求1所述的基于残差-循环神经网络的人体行为识别方法,其特征在于,步骤(4b)所述当前时刻残差-循环神经网络Ct的损失值Et,计算公式如下:
Figure FDA0002573297260000041
其中,Et表示所选取的N1个单个视频样本对应的带标签的骨架关键点集合Li′输入到Ct后Ct的损失值,N1表示每次选取的Li′数量,即训练样本数量,∑表示求和操作,n1表示所选的单个训练样本的序号,c1表示训练集的类别标签总列数,k1表示单个训练样本类别标签的列数序号,
Figure FDA0002573297260000042
表示第n1个训练样本的类别标签中第k1列的元素,log表示以e为底的对数操作,
Figure FDA0002573297260000043
表示第n1个训练样本的预测类别标签中第k1列的元素。
8.根据权利要求1所述的基于残差-循环神经网络的人体行为识别方法,其特征在于,步骤(4c)中所述的采用反向传播算法,通过损失值Et对残差神经网络中卷积层卷积核的参数ωkm、残差神经网络中各全连接层结点之间的连接参数θij、循环神经网络中长短时间记忆网络与全连接层之间的连接参数θi,以及残差神经网络与循环神经网络之间的连接参数θ进行更新,更新公式分别为:
Figure FDA0002573297260000051
Figure FDA0002573297260000052
Figure FDA0002573297260000053
Figure FDA0002573297260000054
其中,ωkm′表示ωkm的更新结果,θij′表示θij的更新结果,θi′表示θi的更新结果,θ′表示θ的更新结果,β表示残差-循环神经网络的学习速率,β为0.001,
Figure FDA0002573297260000055
表示求偏导操作,Et表示当前损失值。
9.根据权利要求1所述的基于残差-循环神经网络的人体行为识别方法,其特征在于,步骤(4f)中所述的残差-循环神经网络Ct在验证集上的识别准确率αt′,计算公式为:
Figure FDA0002573297260000056
其中,N2表示验证集样本数量,∑表示求和操作,n2表示所选的单个验证集样本的序号,c2表示验证集的类别标签总列数,k2表示单个验证集样本类别标签的列数序号,⊙表示同或操作,argmax表示取最大值下标操作,
Figure FDA0002573297260000057
表示第n2个验证集样本的类别标签中第k2列的元素,
Figure FDA0002573297260000058
表示第n2个验证集样本的预测类别标签中第k2列的元素。
CN202010646462.6A 2020-07-07 2020-07-07 基于残差-循环神经网络的人体行为识别方法 Active CN111814661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010646462.6A CN111814661B (zh) 2020-07-07 2020-07-07 基于残差-循环神经网络的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010646462.6A CN111814661B (zh) 2020-07-07 2020-07-07 基于残差-循环神经网络的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN111814661A true CN111814661A (zh) 2020-10-23
CN111814661B CN111814661B (zh) 2024-02-09

Family

ID=72842603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010646462.6A Active CN111814661B (zh) 2020-07-07 2020-07-07 基于残差-循环神经网络的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN111814661B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287855A (zh) * 2020-11-02 2021-01-29 东软睿驰汽车技术(沈阳)有限公司 基于多任务神经网络的驾驶行为检测方法和装置
CN112529934A (zh) * 2020-12-02 2021-03-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN112699730A (zh) * 2020-12-01 2021-04-23 贵州电网有限责任公司 一种基于yolo及卷积-循环网络的机房人物重识别方法
CN112733594A (zh) * 2020-12-01 2021-04-30 贵州电网有限责任公司 一种基于可变形卷积网络的机房人物重识别方法
CN112861696A (zh) * 2021-02-01 2021-05-28 电子科技大学中山学院 一种异常行为识别方法、装置、电子设备及存储介质
CN113111756A (zh) * 2021-04-02 2021-07-13 浙江工业大学 基于人体骨架关键点和长短期记忆人工神经网络的人体摔倒识别方法
CN113723169A (zh) * 2021-04-26 2021-11-30 中国科学院自动化研究所 基于SlowFast的行为识别方法、系统及设备
CN113822117A (zh) * 2021-06-04 2021-12-21 华南理工大学 一种数据处理方法、设备以及计算机可读存储介质
CN113887468A (zh) * 2021-10-14 2022-01-04 西安交通大学 一种三阶段网络框架的单视角人-物交互的识别方法
CN113901889A (zh) * 2021-09-17 2022-01-07 广州紫为云科技有限公司 一种基于时间和空间建立行为识别热度图的方法
CN115793490A (zh) * 2023-02-06 2023-03-14 南通弈匠智能科技有限公司 基于大数据的智能家居节能控制方法
CN116597426A (zh) * 2023-05-26 2023-08-15 北京中科睿途科技有限公司 一种司乘人员安全状态的识别方法和装置
WO2023173294A1 (zh) * 2022-03-15 2023-09-21 生物岛实验室 模型训练方法、装置、设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
US20180260951A1 (en) * 2017-03-08 2018-09-13 Siemens Healthcare Gmbh Deep Image-to-Image Recurrent Network with Shape Basis for Automatic Vertebra Labeling in Large-Scale 3D CT Volumes
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN111259735A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于多级预测特征增强卷积神经网络的单人姿态估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
US20180260951A1 (en) * 2017-03-08 2018-09-13 Siemens Healthcare Gmbh Deep Image-to-Image Recurrent Network with Shape Basis for Automatic Vertebra Labeling in Large-Scale 3D CT Volumes
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法
CN111259735A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于多级预测特征增强卷积神经网络的单人姿态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶青;杨航;: "基于深度学习的人体行为识别网络设计", 中国科技信息, no. 10 *
郭明祥;宋全军;徐湛楠;董俊;谢成军;: "基于三维残差稠密网络的人体行为识别算法", 计算机应用, no. 12 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287855A (zh) * 2020-11-02 2021-01-29 东软睿驰汽车技术(沈阳)有限公司 基于多任务神经网络的驾驶行为检测方法和装置
CN112287855B (zh) * 2020-11-02 2024-05-10 东软睿驰汽车技术(沈阳)有限公司 基于多任务神经网络的驾驶行为检测方法和装置
CN112733594A (zh) * 2020-12-01 2021-04-30 贵州电网有限责任公司 一种基于可变形卷积网络的机房人物重识别方法
CN112699730A (zh) * 2020-12-01 2021-04-23 贵州电网有限责任公司 一种基于yolo及卷积-循环网络的机房人物重识别方法
CN112529934B (zh) * 2020-12-02 2023-12-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN112529934A (zh) * 2020-12-02 2021-03-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN112861696B (zh) * 2021-02-01 2023-08-18 电子科技大学中山学院 一种异常行为识别方法、装置、电子设备及存储介质
CN112861696A (zh) * 2021-02-01 2021-05-28 电子科技大学中山学院 一种异常行为识别方法、装置、电子设备及存储介质
CN113111756A (zh) * 2021-04-02 2021-07-13 浙江工业大学 基于人体骨架关键点和长短期记忆人工神经网络的人体摔倒识别方法
CN113111756B (zh) * 2021-04-02 2024-05-03 浙江工业大学 基于人体骨架关键点和长短期记忆人工神经网络的人体摔倒识别方法
CN113723169A (zh) * 2021-04-26 2021-11-30 中国科学院自动化研究所 基于SlowFast的行为识别方法、系统及设备
CN113723169B (zh) * 2021-04-26 2024-04-30 中国科学院自动化研究所 基于SlowFast的行为识别方法、系统及设备
CN113822117A (zh) * 2021-06-04 2021-12-21 华南理工大学 一种数据处理方法、设备以及计算机可读存储介质
CN113822117B (zh) * 2021-06-04 2024-05-14 华南理工大学 一种数据处理方法、设备以及计算机可读存储介质
CN113901889B (zh) * 2021-09-17 2023-07-07 广州紫为云科技有限公司 一种基于时间和空间建立行为识别热度图的方法
CN113901889A (zh) * 2021-09-17 2022-01-07 广州紫为云科技有限公司 一种基于时间和空间建立行为识别热度图的方法
CN113887468A (zh) * 2021-10-14 2022-01-04 西安交通大学 一种三阶段网络框架的单视角人-物交互的识别方法
WO2023173294A1 (zh) * 2022-03-15 2023-09-21 生物岛实验室 模型训练方法、装置、设备、存储介质及程序产品
CN115793490B (zh) * 2023-02-06 2023-04-11 南通弈匠智能科技有限公司 基于大数据的智能家居节能控制方法
CN115793490A (zh) * 2023-02-06 2023-03-14 南通弈匠智能科技有限公司 基于大数据的智能家居节能控制方法
CN116597426A (zh) * 2023-05-26 2023-08-15 北京中科睿途科技有限公司 一种司乘人员安全状态的识别方法和装置

Also Published As

Publication number Publication date
CN111814661B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN111259850B (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN109543606B (zh) 一种加入注意力机制的人脸识别方法
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN111783576B (zh) 基于改进型YOLOv3网络和特征融合的行人重识别方法
CN107103613B (zh) 一种三维手势姿态估计方法
CN109919977B (zh) 一种基于时间特征的视频运动人物跟踪与身份识别方法
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN107767416B (zh) 一种低分辨率图像中行人朝向的识别方法
CN111582126B (zh) 基于多尺度行人轮廓分割融合的行人重识别方法
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN111639580B (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN114821014B (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN110263768A (zh) 一种基于深度残差网络的人脸识别方法
CN111353487A (zh) 用于变电站的设备信息提取方法
CN111914643A (zh) 一种基于骨骼关键点检测的人体动作识别方法
CN112184734A (zh) 一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统
CN106529441B (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN112308087B (zh) 基于动态视觉传感器的一体化成像识别方法
CN111401113A (zh) 一种基于人体姿态估计的行人重识别方法
CN113139489A (zh) 基于背景提取和多尺度融合网络的人群计数方法及系统
CN114998934A (zh) 基于多模态智能感知和融合的换衣行人重识别和检索方法
CN112507893A (zh) 一种基于边缘计算的分布式无监督行人重识别方法
CN110826534B (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant