CN107122736B - 一种基于深度学习的人体朝向预测方法及装置 - Google Patents

一种基于深度学习的人体朝向预测方法及装置 Download PDF

Info

Publication number
CN107122736B
CN107122736B CN201710282729.6A CN201710282729A CN107122736B CN 107122736 B CN107122736 B CN 107122736B CN 201710282729 A CN201710282729 A CN 201710282729A CN 107122736 B CN107122736 B CN 107122736B
Authority
CN
China
Prior art keywords
human body
pedestrian
body orientation
time
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710282729.6A
Other languages
English (en)
Other versions
CN107122736A (zh
Inventor
马华东
刘武
刘培业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710282729.6A priority Critical patent/CN107122736B/zh
Publication of CN107122736A publication Critical patent/CN107122736A/zh
Application granted granted Critical
Publication of CN107122736B publication Critical patent/CN107122736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Abstract

本发明实施例提供了一种基于深度学习的人体朝向预测方法及装置,应用于视频分析技术领域,所述方法包括:获取待检测视频对应的帧序列的每一帧中每一个行人的位置;根据位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取每一个行人的空间特征。根据空间特征和行人时空特征预测模型,通过门结构的循环神经网络提取帧序列的时间特征,得到每一个行人的时空特征。提取时空特征中的方向特征,得到每一个行人的人体朝向。本发明实施例针对行人的空间特征和时间特征进行建模,通过提供丰富的历史连续变化信息来辅助当前帧的预测,提高了人体朝向预测的准确性。

Description

一种基于深度学习的人体朝向预测方法及装置
技术领域
本发明涉及视频分析技术领域,特别是涉及一种基于深度学习的人体朝向预测方法及装置。
背景技术
智能视频监控系统在当前城市安防、交通管理、环境监测等领域有着广泛的应用,针对行人行为的监控分析系统在城市的人流量管理、特殊事件防范、交通安全等方面扮演着重要角色。其中,智能视频监控是信号采集与传输、图像处理、计算机视觉、机器学习和模式识别等多学科交叉的研究方向。目前针对行人行为的监控分析系统的研究非常广泛,例如,人群密度估计、人流量统计、行人姿态识别、特殊事件检测等等。然而,行人人体朝向预测是行人行为分析的基础。行人人体朝向预测是指,给定一个视频,根据每一帧的视觉特征、时空信息等,在视频中定位每一个行人的位置,并判断其身体的朝向(如东、西、南、北)。
目前行人人体朝向预测主要包括:根据单帧的图像特征进行人体朝向的判断以及通过视频的连续性利用多帧的时间特征进行行人人体朝向的判断。基于单帧图像对行人人体朝向预测的方法包括:2维方法和3维方法。其中,2维方法指的是仅依靠图片中的颜色特征和纹理特征,或者深度学习提取的高级抽象特征进行人体朝向的判断。例如,利用局部的纹理特征如HOG(Histogram of Oriented Gradient,方向梯度直方图),LBP(Local BinaryPatterns,局部二值模式)等算子,然后通过SVM(Support Vector Machine,支持向量机)训练出分类的模型,对行人进行朝向的分类。另外,通过对不同模型的融合,得到一个更加精确的后融合模型,进行分类得到更加精确的结果。而3维方法在2维方法的基础上通过引入图像的深度信息,或者同一场景的多角度信息,来增加特征维度,使得模型提取的特征更加丰富,对目标人体朝向描述的更加精确,这样使得3维方法得到了很高的预测精度。基于连续帧的行人人体朝向预测方法包括:通过更新模型给予模型随时间变化而变化的能力,这使得模型在不同的时间拥有不同的参数,从而对行人人体朝向的预测更加精确;利用隐马尔科夫算法对时间序列建模提取时间特征,也提高了行人人体朝向预测的准确性。
可见,上述2维方法虽然可以完成对行人人体朝向的判断,但是由于只考虑到了单帧的信息,该方法对光照和遮挡有很低的鲁棒性。3维方法由于获取深度信息和多角度拍摄信息在实际场景中是不现实且不合理的,所以3维方法很难得到实用。因此,根据单帧的图像特征进行人体朝向的判断由于损失掉了许多有用信息,使得预测结果对光照、遮挡、多向性的鲁棒性较低,导致人体朝向预测的准确性比较低。通过视频的连续性利用多帧的时间特征进行行人人体朝向的判断对行人前进的多向性鲁棒性很低,使得人体朝向预测的准确性比较低,无法适用于实际监控系统中。
发明内容
本发明实施例的目的在于提供一种基于深度学习的人体朝向预测方法及装置,以提高人体朝向预测的准确性。具体技术方案如下:
本发明实施例公开了一种基于深度学习的人体朝向预测方法,包括:
获取待检测视频对应的帧序列的每一帧中每一个行人的位置;
根据所述位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取所述每一个行人的空间特征;
根据所述空间特征和所述行人时空特征预测模型,通过门结构的循环神经网络提取所述帧序列的时间特征,得到所述每一个行人的时空特征;
提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向。
可选的,在所述获取待检测视频对应的帧序列的每一帧中每一个行人的位置之前,本发明实施例的基于深度学习的人体朝向预测方法还包括:
在对人体朝向数据库进行训练时,通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值;
计算所述人体朝向预测值与人体朝向真实值的偏差;
根据权重序列损失函数:
Figure BDA0001279931220000021
Figure BDA0001279931220000031
确定所述人体朝向数据库中所有图片的整体偏差Lwei,其中,
Figure BDA0001279931220000032
x′i=xi-max(x1,...,xn),Ln表示所述人体朝向数据库中的第n张图片的人体朝向的偏差,Wn表示权重损失函数的权重,xi表示第i张图片的空间特征;
在判断所述整体偏差Lwei大于或等于预设阈值时,重新对所述人体朝向数据库进行训练,返回所述通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值的步骤,直至所述整体偏差Lwei小于所述预设阈值;
在判断所述整体偏差Lwei小于所述预设阈值时,建立所述行人时空特征预测模型。
可选的,所述根据所述空间特征和所述行人时空特征预测模型,通过门结构的循环神经网络提取所述帧序列的时间特征,得到所述每一个行人的时空特征,包括:
如果t-1时刻所述门结构的循环神经网络模型输出的时空特征为ht-1,t时刻所述门结构的循环神经网络模型输入的空间特征为xt
根据公式:
Figure BDA0001279931220000033
zt=sigmoid(Wzxt+Uzht-1+bz),
Figure BDA0001279931220000034
rt=sigmoid(Wrxt+Urht-1+br),确定t时刻门结构的循环神经网络模型输出的时空特征ht
其中,zt表示t时刻更新门的输出结果,rt表示t时刻重置门的输出结果,所述更新门、所述重置门和隐藏层位于所述门结构的循环神经网络模型中,
Figure BDA0001279931220000035
表示中间变量,⊙表示向量之间的点乘,Wz表示更新门的空间特征xt的权重,Uz表示更新门的时空特征ht-1的权重,bz表示更新门的惩罚量,W表示隐藏层的空间特征xt的权重,U表示隐藏层rt和ht-1的点乘的权重,bh表示隐藏层的惩罚量,Wr表示重置门的空间特征xt的权重,Ur表示重置门的ht-1的权重,br表示重置门的惩罚量。
可选的,所述获取待检测视频对应的帧序列的每一帧中每一个行人的位置,包括:
通过基于区域的全卷积网络R-FCN提取所述每一个行人的位置。
可选的,所述提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向,包括:
通过卷积神经网络提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向。
本发明实施例还公开了一种基于深度学习的人体朝向预测装置,包括:
位置获取模块,用于获取待检测视频对应的帧序列的每一帧中每一个行人的位置;
空间特征提取模块,用于根据所述位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取所述每一个行人的空间特征;
时空特征获取模块,用于根据所述空间特征和所述行人时空特征预测模型,通过门结构的循环神经网络提取所述帧序列的时间特征,得到所述每一个行人的时空特征;
人体朝向预测模块,用于提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向。
可选的,本发明实施例的基于深度学习的人体朝向预测装置,还包括:
预测值计算模块,用于在对人体朝向数据库进行训练时,通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值;
偏差计算模块,用于计算所述人体朝向预测值与人体朝向真实值的偏差;
整体偏差计算模块,用于根据权重序列损失函数:
Figure BDA0001279931220000055
Figure BDA0001279931220000056
确定所述人体朝向数据库中所有图片的整体偏差Lwei,其中,
Figure BDA0001279931220000051
x′i=xi-max(x1,...,xn),Ln表示所述人体朝向数据库中的第n张图片的人体朝向的偏差,Wn表示权重损失函数的权重,xi表示第i张图片的空间特征;
循环执行模块,用于在判断所述整体偏差Lwei大于或等于预设阈值时,重新对所述人体朝向数据库进行训练,返回所述通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值的步骤,直至所述整体偏差Lwei小于所述预设阈值;
模型建立模块,用于在判断所述整体偏差Lwei小于所述预设阈值时,建立所述行人时空特征预测模型。
可选的,所述时空特征获取模块具体用于,如果t-1时刻所述门结构的循环神经网络模型输出的时空特征为ht-1,t时刻所述门结构的循环神经网络模型输入的空间特征为xt
根据公式:
Figure BDA0001279931220000052
zt=sigmoid(Wzxt+Uzht-1+bz),
Figure BDA0001279931220000053
rt=sigmoid(Wrxt+Urht-1+br),确定t时刻门结构的循环神经网络模型输出的时空特征ht
其中,zt表示t时刻更新门的输出结果,rt表示t时刻重置门的输出结果,所述更新门、所述重置门和隐藏层位于所述门结构的循环神经网络模型中,
Figure BDA0001279931220000054
表示中间变量,⊙表示向量之间的点乘,Wz表示更新门的空间特征xt的权重,Uz表示更新门的时空特征ht-1的权重,bz表示更新门的惩罚量,W表示隐藏层的空间特征xt的权重,U表示隐藏层rt和ht-1的点乘的权重,bh表示隐藏层的惩罚量,Wr表示重置门的空间特征xt的权重,Ur表示重置门的ht-1的权重,br表示重置门的惩罚量。
可选的,所述位置获取模块具体用于,通过基于区域的全卷积网络R-FCN提取所述每一个行人的位置。
可选的,所述人体朝向预测模块具体用于,通过卷积神经网络提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向。
本发明实施例提供的基于深度学习的人体朝向预测方法及装置,通过获取待检测视频对应的帧序列的每一帧中每一个行人的位置,根据位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取每一个行人的空间特征。根据空间特征和行人时空特征预测模型,通过门结构的循环神经网络提取帧序列的时间特征,得到每一个行人的时空特征。提取时空特征中的方向特征,得到每一个行人的人体朝向。本发明实施例通过行人空间特征的历史连续变化信息来辅助当前帧的预测,提高了人体朝向预测的准确性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于深度学习的人体朝向预测方法的一种流程图;
图2为本发明实施例的基于深度学习的人体朝向预测方法的另一种流程图;
图3为本发明实施例的门结构的循环神经网络的流程图;
图4为本发明实施例的基于深度学习的人体朝向预测装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在视频理解与视频分析中,针对行人的分析是很重要的部分。人体朝向预测是行人分析中的基础,也很重要的部分,对后续行人跟踪、行人姿态识别、行人流量统计等有着至关重要的影响。通常根据行人的外观视觉特征(衣着颜色、纹理、部件)等信息在监控视频中分析行人的人体朝向。然而,监控场景的光照影响、摄像机视角的多样性、行人移动的多向性和行人间的遮挡问题等等使得人体朝向预测的准确性比较低。
现有技术中,基于单帧的行人人体朝向预测方法可以得到较为准确的结果,但预测结果对光照变化、人群遮挡以及行人多形性等问题上表现出较低的鲁棒性,因此,人体朝向预测的准确性比较低。虽然3维特征的引入可以提升系统的鲁棒性,但由于较高的技术难度,使得该方法并不适用于普遍的监控系统中。而连续帧预测方法无法应对复杂的行人移动情况,导致无法应用在监控系统中。本发明实施例提供了一种基于深度学习的人体朝向预测方法及装置,通过深度学习得到一个稳定准确的预测模型,提高了人体朝向预测的准确性。
深度学习是机器学习的一个分支,通过非监督式或半监督式的特征学习和分层特征提取的高效算法来替代手工获取特征。目前主要的深度学习框架包括:深度神经网络、卷积神经网络、深度信念网络和递归神经网络等。
参见图1,图1为本发明实施例的基于深度学习的人体朝向预测方法的一种流程图,包括以下步骤:
S101,获取待检测视频对应的帧序列的每一帧中每一个行人的位置。
本发明实施例中,行人空间特征的提取需要依据行人在图片中的位置,一般的,待检测视频中的行人是运动的,那么,行人在每一张图片中的位置是不同的,为了提取待检测视频对应的帧序列的每一帧中行人的空间特征,本发明实施例需要获取待检测视频对应的帧序列的每一帧中每一个行人的位置。
S102,根据位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取每一个行人的空间特征。
具体的,在确定每一帧中每一个行人的位置之后,根据该位置和行人时空特征预测模型,通过卷积神经网络提取每一个行人的空间特征。与传统的颜色特征和纹理特征不同,本发明实施例采用卷积神经网络提取行人的高级抽象特征,相比于传统特征,由于深度学习的卷积层,使得高级抽象特征包含更加抽象的概念,例如:朝向,姿态等等。可选的,通过经典的VGG(Visual Geometry Group)模型的全连接层来获取行人的空间特征,即针对每一个行人的位置,得到4096维的空间特征。当然,通过其他模型提取行人的空间特征也属于本发明实施例的保护范围。由于本发明实施例需要对帧序列提取时间特征,因此,针对每一个行人提取N帧的空间特征可表示为{fi1,fi2…fiN},其中,fiN表示第N帧的空间特征,N为大于1的整数。
需要说明的是,VGG为牛津大学工程科学的一个组织,该组织通过对表情数据库进行深度学习建立的模型为VGG模型,VGG模型的特征为VGG特征,VGG特征包括:卷积神经网络的FC6层特征。
S103,根据空间特征和行人时空特征预测模型,通过门结构的循环神经网络提取帧序列的时间特征,得到每一个行人的时空特征。
本发明实施例中,行人时空特征预测模型中保存的是空间特征和时空特征的对应关系,将帧序列的空间特征输入行人时空特征预测模型,通过门结构的循环神经网络提取帧序列的时间特征,进而得到每一个行人的时空特征,其中,时空特征为空间特征和时间特征的综合特征。行人时空特征预测模型是通过门结构的循环神经网络建立的,因此,与传统模型相比,行人时空特征预测模型中的门结构使得该模型可以记忆更久的时间特征,并且该模型的门结构较为简单,在训练和预测时,可以更加快速地获得预测结果,从而进行实时预测。
在循环神经网络中,神经元的输出可以在下一个时刻直接作用到自身,即第i层神经元在t时刻的输入,除了包括上一层神经元在t时刻的输出以外,还包括t-1时刻的输出。因此,循环神经网络可以应对时间序列上的变化,这种对时间特征的提取能力在自然语言处理、语音识别、手写体识别等应用中有的非常重要的作用。而门结构的循环神经网络在循环神经网络的基础上增加门结构,门结构的循环神经网络的记忆效果可通过门结构来进行控制,门结构包括:更新门和充值门,这两个门结构使得门结构的循环神经网络可以进行长时间的时间特征记忆。行人时空特征预测模型的建立方法在下文将会进行详细描述,在此不再赘述。
S104,提取时空特征中的方向特征,得到每一个行人的人体朝向。
需要说明的是,通过行人时空特征预测模型得到的时空特征是一个高维的特征向量,该特征向量中包括表示人体朝向的方向特征(如东、西、南、北),也包括与人体朝向无关的其他的时空特征。因此,通过提取时空特征中的方向特征,即可得到每一个行人的人体朝向。
可见,本发明实施例的基于深度学习的人体朝向预测方法,通过获取待检测视频对应的帧序列的每一帧中每一个行人的位置,根据位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取每一个行人的空间特征。根据空间特征和行人时空特征预测模型,通过门结构的循环神经网络提取帧序列的时间特征,得到每一个行人的时空特征。提取时空特征中的方向特征,得到每一个行人的人体朝向。本发明实施例通过行人空间特征的历史连续变化信息来辅助当前帧的预测,提高了人体朝向预测的准确性。
参见图2,图2为本发明实施例的基于深度学习的人体朝向预测方法的另一种流程图,包括以下步骤:
S201,在对人体朝向数据库进行训练时,通过卷积神经网络和门结构的循环神经网络计算人体朝向数据库中每一张图片的人体朝向预测值。
本发明实施例中,人体朝向数据库为包含多个行人的图像数据库,通常,每一个行人包含多张连续的图像序列,并且每一个行人对应的图像序列中包含多个人体朝向。因此,通过对该人体朝向数据库进行训练,可以建立图像和人体朝向的对应关系。可选的,人体朝向数据库可以包括:CASIA人体朝向数据库和MCG-RGBD人体朝向数据库等。在对人体朝向数据库进行训练时,通过卷积神经网络提取图像的空间特征,通过门结构的卷积神经网络提取图像序列的时间特征,进而计算人体朝向数据库中每一张图片的人体朝向预测值。
S202,计算人体朝向预测值与人体朝向真实值的偏差。
具体的,对于进行训练的人体朝向数据库中的图像,图像中的每一个行人具有与该行人相对应的确定的人体朝向真实值。一般的,通过S201得到的人体朝向预测值与人体朝向真实值存在偏差,计算人体朝向预测值与人体朝向真实值的偏差,通过该偏差确定是否对人体朝向数据库继续进行训练。
S203,根据权重序列损失函数:
Figure BDA0001279931220000091
Figure BDA0001279931220000101
确定人体朝向数据库中所有图片的整体偏差Lwei,其中,
Figure BDA0001279931220000102
x′i=xi-max(x1,...,xn),Ln表示人体朝向数据库中的第n张图片的人体朝向的偏差,Wn表示权重损失函数的权重,xi表示第i张图片的空间特征。
需要说明的是,传统的损失函数仅仅考虑最后一帧的预测结果与真实值的偏差,并以此作为纠正训练方向的依据。但是,行人的每一帧的朝向是多向并且不确定的,因此,传统的损失函数很难表示出真实偏差。有鉴于此,本发明实施例提出了一个多帧的权重序列损失函数,计算每一帧与该帧真实值的偏差,并且根据不同帧的重要程度来决定该帧所对应的偏差的权重。最后,再对所有新的权重偏差进行加和,即可得到一个更加合理的整体偏差,用来指引新的模型的训练。
在对人体朝向预测时,由于首先要考虑行人移动时朝向的多变性和变化的不连续性,因此,可选的,本发明实施例中仅考虑行人朝向发生变化的视频帧,即在当前t时刻,行人的朝向与t-1时刻不同,那么,该时刻损失函数的权重即为1,若朝向为发生变化,则不考虑,即该时刻损失函数的权重为0。除此之外,最后一帧的偏差始终列入考虑范围之内。通过该策略,本发明实施例可以使深度学习框架捕捉到更准确的朝向变化时的特征变化,使得深度学习框架可以更好地对当前t时刻的行人身体朝向进行预测。
S204,判断整体偏差Lwei是否小于预设阈值。
当S204的判断结果为否时,返回S201;当S204的判断结果为是时,执行S205,建立行人时空特征预测模型。
具体的,当S204的判断结果为否时,表明整体偏差Lwei仍然比较大,需要重新对人体朝向数据库进行训练,那么,返回S201,重复执行以上步骤。当S204的判断结果为是时,表明整体偏差Lwei已经达到预期目标,可以建立行人时空特征预测模型。其中,预设阈值为根据实际情况设定的值,在此不做限定。
本发明实施例的一种实现方式中,根据空间特征和行人时空特征预测模型,通过门结构的循环神经网络提取帧序列的时间特征,得到每一个行人的时空特征,包括:
如果t-1时刻门结构的循环神经网络模型输出的时空特征为ht-1,t时刻门结构的循环神经网络模型输入的空间特征为xt
根据公式:
Figure BDA0001279931220000111
zt=sigmoid(Wzxt+Uzht-1+bz),
Figure BDA0001279931220000112
rt=sigmoid(Wrxt+Urht-1+br),确定t时刻门结构的循环神经网络模型输出的时空特征ht
其中,zt表示t时刻更新门的输出结果,rt表示t时刻重置门的输出结果,更新门、重置门和隐藏层位于门结构的循环神经网络模型中,
Figure BDA0001279931220000113
表示中间变量,⊙表示向量之间的点乘,Wz表示更新门的空间特征xt的权重,Uz表示更新门的时空特征ht-1的权重,bz表示更新门的惩罚量,W表示隐藏层的空间特征xt的权重,U表示隐藏层rt和ht-1的点乘的权重,bh表示隐藏层的惩罚量,Wr表示重置门的空间特征xt的权重,Ur表示重置门的ht-1的权重,br表示重置门的惩罚量。
需要说明的是,在经过了前一时刻的行人空间特征的提取之后,针对一个连续的视频帧,将得到的特征矩阵输入到循环神经网络中,但是,传统的单神经元激活函数为tanh的循环神经网络,该网络结构简单,并且只能利用当前帧的前一帧的特征信息,无法从之前的视频帧中提取长时间的特征信息。因此,本发明实施例通过门结构的循环神经网络模型以提取长时间的时间特征,参见图3,图3为本发明实施例的门结构的循环神经网络的流程图。可以看出,t时刻门结构的循环神经网络模型输出的时空特征ht,不仅与t时刻输入的空间特征xt相关,也与t-1时刻的时空特征ht-1相关,而t-1时刻的时空特征ht-1与t-2时刻的时空特征ht-2以及t-1时刻输入的空间特征xt-1相关,以此类推,门结构的循环神经网络模型可以提取长时间的时间特征,以达到更好的人体预测结果。
本发明实施例的一种实现方式中,获取待检测视频对应的帧序列的每一帧中每一个行人的位置,包括:
通过基于区域的全卷积网络R-FCN提取每一个行人的位置。
本发明实施例中,为了在待检测视频中得到行人的精确位置,通过目前表现最好的物体定位神经网络R-FCN(Region-based Fully Convolutional Networks,基于区域的全卷积网络)提取每一个行人的位置。该方法采用物体检测策略,包括:区域建议和区域分类,以求达到更好的精度。此外,该方法提出位置敏感打分图,可以考虑到平移不变性,对目标的平移做出准确响应。通过已有的模型,本发明实施例通过该模型得到待检测视频中每一个行人的精确位置及矩形框。
本发明实施例的一种实现方式中,提取时空特征中的方向特征,得到每一个行人的人体朝向,包括:
通过卷积神经网络提取时空特征中的方向特征,得到每一个行人的人体朝向。
具体的,卷积神经网络中的全连接层在卷积神经网络中起到“分类器”的作用,主要是对数据降维。由于卷积神经网络输出的信息中有冗余,去掉冗余信息有助于提高网络效率。因此,可选的,本发明实施例中,将输出的高维特征经过全连接层进行处理,输出8维的数据,该8维数据即可表示人体朝向。
相应于上述方法实施例,本发明实施例还公开了一种基于深度学习的人体朝向预测装置,参见图4,图4为本发明实施例的基于深度学习的人体朝向预测装置的结构图,包括:
位置获取模块401,用于获取待检测视频对应的帧序列的每一帧中每一个行人的位置。
空间特征提取模块402,用于根据位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取每一个行人的空间特征。
时空特征获取模块403,用于根据空间特征和行人时空特征预测模型,通过门结构的循环神经网络提取帧序列的时间特征,得到每一个行人的时空特征。
人体朝向预测模块404,用于提取时空特征中的方向特征,得到每一个行人的人体朝向。
本发明实施例的基于深度学习的人体朝向预测装置,通过获取待检测视频对应的帧序列的每一帧中每一个行人的位置,根据位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取每一个行人的空间特征。根据空间特征和行人时空特征预测模型,通过门结构的循环神经网络提取帧序列的时间特征,得到每一个行人的时空特征。提取时空特征中的方向特征,得到每一个行人的人体朝向。本发明实施例通过行人空间特征的历史连续变化信息来辅助当前帧的预测,提高了人体朝向预测的准确性。
需要说明的是,本发明实施例的装置是应用上述基于深度学习的人体朝向预测方法的装置,则上述基于深度学习的人体朝向预测方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
可选的,本发明实施例的基于深度学习的人体朝向预测装置,还包括:
预测值计算模块,用于在对人体朝向数据库进行训练时,通过卷积神经网络和门结构的循环神经网络计算人体朝向数据库中每一张图片的人体朝向预测值。
偏差计算模块,用于计算人体朝向预测值与人体朝向真实值的偏差。
整体偏差计算模块,用于根据权重序列损失函数:
Figure BDA0001279931220000131
Figure BDA0001279931220000132
确定人体朝向数据库中所有图片的整体偏差Lwei,其中,
Figure BDA0001279931220000133
x′i=xi-max(x1,...,xn),Ln表示人体朝向数据库中的第n张图片的人体朝向的偏差,Wn表示权重损失函数的权重,xi表示第i张图片的空间特征。
循环执行模块,用于在判断整体偏差Lwei大于或等于预设阈值时,重新对人体朝向数据库进行训练,返回通过卷积神经网络和门结构的循环神经网络计算人体朝向数据库中每一张图片的人体朝向预测值的步骤,直至整体偏差Lwei小于预设阈值。
模型建立模块,用于在判断整体偏差Lwei小于预设阈值时,建立行人时空特征预测模型。
可选的,时空特征获取模块具体用于,如果t-1时刻门结构的循环神经网络模型输出的时空特征为ht-1,t时刻门结构的循环神经网络模型输入的空间特征为xt
根据公式:
Figure BDA0001279931220000141
zt=sigmoid(Wzxt+Uzht-1+bz),
Figure BDA0001279931220000142
rt=sigmoid(Wrxt+Urht-1+br),确定t时刻门结构的循环神经网络模型输出的时空特征ht
其中,zt表示t时刻更新门的输出结果,rt表示t时刻重置门的输出结果,更新门、重置门和隐藏层位于门结构的循环神经网络模型中,
Figure BDA0001279931220000143
表示中间变量,⊙表示向量之间的点乘,Wz表示更新门的空间特征xt的权重,Uz表示更新门的时空特征ht-1的权重,bz表示更新门的惩罚量,W表示隐藏层的空间特征xt的权重,U表示隐藏层rt和ht-1的点乘的权重,bh表示隐藏层的惩罚量,Wr表示重置门的空间特征xt的权重,Ur表示重置门的ht-1的权重,br表示重置门的惩罚量。
可选的,位置获取模块具体用于,通过基于区域的全卷积网络R-FCN提取每一个行人的位置。
可选的,人体朝向预测模块具体用于,通过卷积神经网络提取时空特征中的方向特征,得到每一个行人的人体朝向。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于深度学习的人体朝向预测方法,其特征在于,包括:
在对人体朝向数据库进行训练时,通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值;
计算所述人体朝向预测值与人体朝向真实值的偏差;
根据权重序列损失函数:
Figure FDA0002324311470000011
Figure FDA0002324311470000012
确定所述人体朝向数据库中所有图片的整体偏差Lwei,其中,
Figure FDA0002324311470000013
x′i=xi-max(x1,…,xn),Ln表示所述人体朝向数据库中的第n张图片的人体朝向的偏差,Wn表示权重损失函数的权重,xi表示第i张图片的空间特征;
在判断所述整体偏差Lwei大于或等于预设阈值时,重新对所述人体朝向数据库进行训练,返回所述通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值的步骤,直至所述整体偏差Lwei小于所述预设阈值;
在判断所述整体偏差Lwei小于所述预设阈值时,建立行人时空特征预测模型;
获取待检测视频对应的帧序列的每一帧中每一个行人的位置;
根据所述位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取所述每一个行人的空间特征;
根据所述空间特征和所述行人时空特征预测模型,通过门结构的循环神经网络提取所述帧序列的时间特征,得到所述每一个行人的时空特征;
提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向。
2.根据权利要求1所述的基于深度学习的人体朝向预测方法,其特征在于,所述根据所述空间特征和所述行人时空特征预测模型,通过门结构的循环神经网络提取所述帧序列的时间特征,得到所述每一个行人的时空特征,包括:
如果t-1时刻所述门结构的循环神经网络模型输出的时空特征为ht-1,t时刻所述门结构的循环神经网络模型输入的空间特征为xt
根据公式:
Figure FDA0002324311470000021
zt=sigmoid(Wzxt+Uzht-1+bz),
Figure FDA0002324311470000022
rt=sigmoid(Wrxt+Urht-1+br),确定t时刻门结构的循环神经网络模型输出的时空特征ht
其中,zt表示t时刻更新门的输出结果,rt表示t时刻重置门的输出结果,所述更新门、所述重置门和隐藏层位于所述门结构的循环神经网络模型中,
Figure FDA0002324311470000023
表示中间变量,⊙表示向量之间的点乘,Wz表示更新门的空间特征xt的权重,Uz表示更新门的时空特征ht-1的权重,bz表示更新门的惩罚量,W表示隐藏层的空间特征xt的权重,U表示隐藏层rt和ht-1的点乘的权重,bh表示隐藏层的惩罚量,Wr表示重置门的空间特征xt的权重,Ur表示重置门的ht-1的权重,br表示重置门的惩罚量。
3.根据权利要求1所述的基于深度学习的人体朝向预测方法,其特征在于,所述获取待检测视频对应的帧序列的每一帧中每一个行人的位置,包括:
通过基于区域的全卷积网络R-FCN提取所述每一个行人的位置。
4.根据权利要求1所述的基于深度学习的人体朝向预测方法,其特征在于,所述提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向,包括:
通过卷积神经网络提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向。
5.一种基于深度学习的人体朝向预测装置,其特征在于,包括:
预测值计算模块,用于在对人体朝向数据库进行训练时,通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值;
偏差计算模块,用于计算所述人体朝向预测值与人体朝向真实值的偏差;
整体偏差计算模块,用于根据权重序列损失函数:
Figure FDA0002324311470000031
Figure FDA0002324311470000032
确定所述人体朝向数据库中所有图片的整体偏差Lwei,其中,
Figure FDA0002324311470000033
x′i=xi-max(x1,…,xn),Ln表示所述人体朝向数据库中的第n张图片的人体朝向的偏差,Wn表示权重损失函数的权重,xi表示第i张图片的空间特征;
循环执行模块,用于在判断所述整体偏差Lwei大于或等于预设阈值时,重新对所述人体朝向数据库进行训练,返回所述通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值的步骤,直至所述整体偏差Lwei小于所述预设阈值;
模型建立模块,用于在判断所述整体偏差Lwei小于所述预设阈值时,建立行人时空特征预测模型;
位置获取模块,用于获取待检测视频对应的帧序列的每一帧中每一个行人的位置;
空间特征提取模块,用于根据所述位置和预先建立的行人时空特征预测模型,通过卷积神经网络提取所述每一个行人的空间特征;
时空特征获取模块,用于根据所述空间特征和所述行人时空特征预测模型,通过门结构的循环神经网络提取所述帧序列的时间特征,得到所述每一个行人的时空特征;
人体朝向预测模块,用于提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向。
6.根据权利要求5所述的基于深度学习的人体朝向预测装置,其特征在于,所述时空特征获取模块具体用于,如果t-1时刻所述门结构的循环神经网络模型输出的时空特征为ht-1,t时刻所述门结构的循环神经网络模型输入的空间特征为xt
根据公式:
Figure FDA0002324311470000041
zt=sigmoid(Wzxt+Uzht-1+bz),
Figure FDA0002324311470000042
rt=sigmoid(Wrxt+Urht-1+br),确定t时刻门结构的循环神经网络模型输出的时空特征ht
其中,zt表示t时刻更新门的输出结果,rt表示t时刻重置门的输出结果,所述更新门、所述重置门和隐藏层位于所述门结构的循环神经网络模型中,
Figure FDA0002324311470000043
表示中间变量,⊙表示向量之间的点乘,Wz表示更新门的空间特征xt的权重,Uz表示更新门的时空特征ht-1的权重,bz表示更新门的惩罚量,W表示隐藏层的空间特征xt的权重,U表示隐藏层rt和ht-1的点乘的权重,bh表示隐藏层的惩罚量,Wr表示重置门的空间特征xt的权重,Ur表示重置门的ht-1的权重,br表示重置门的惩罚量。
7.根据权利要求5所述的基于深度学习的人体朝向预测装置,其特征在于,所述位置获取模块具体用于,通过基于区域的全卷积网络R-FCN提取所述每一个行人的位置。
8.根据权利要求5所述的基于深度学习的人体朝向预测装置,其特征在于,所述人体朝向预测模块具体用于,通过卷积神经网络提取所述时空特征中的方向特征,得到所述每一个行人的人体朝向。
CN201710282729.6A 2017-04-26 2017-04-26 一种基于深度学习的人体朝向预测方法及装置 Active CN107122736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710282729.6A CN107122736B (zh) 2017-04-26 2017-04-26 一种基于深度学习的人体朝向预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710282729.6A CN107122736B (zh) 2017-04-26 2017-04-26 一种基于深度学习的人体朝向预测方法及装置

Publications (2)

Publication Number Publication Date
CN107122736A CN107122736A (zh) 2017-09-01
CN107122736B true CN107122736B (zh) 2020-06-12

Family

ID=59724845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710282729.6A Active CN107122736B (zh) 2017-04-26 2017-04-26 一种基于深度学习的人体朝向预测方法及装置

Country Status (1)

Country Link
CN (1) CN107122736B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730887B (zh) * 2017-10-17 2020-05-15 海信集团有限公司 实现交通流量预测的方法及装置、可读存储介质
CN107808376B (zh) * 2017-10-31 2022-03-11 上海交通大学 一种基于深度学习的举手检测方法
CN107864334A (zh) * 2017-11-09 2018-03-30 睿魔智能科技(东莞)有限公司 一种使用深度学习的智能镜头拍摄方法及系统
US10264405B1 (en) * 2017-12-06 2019-04-16 Cognitive Systems Corp. Motion detection in mesh networks
CN108320051B (zh) * 2018-01-17 2021-11-23 哈尔滨工程大学 一种基于gru网络模型的移动机器人动态避碰规划方法
CN108416321A (zh) * 2018-03-23 2018-08-17 北京市商汤科技开发有限公司 用于预测目标对象运动朝向的方法、车辆控制方法及装置
CN108621159B (zh) * 2018-04-28 2020-05-19 首都师范大学 一种基于深度学习的机器人动力学建模方法
CN108846344B (zh) * 2018-06-05 2022-05-17 中南大学 一种融合深度学习的行人姿势多特征智能辨识方法
CN110580427A (zh) * 2018-06-08 2019-12-17 杭州海康威视数字技术股份有限公司 一种人脸检测方法、装置及设备
CN109815846B (zh) * 2018-12-29 2021-08-27 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和电子装置
CN109919977B (zh) * 2019-02-26 2020-01-17 鹍骐科技(北京)股份有限公司 一种基于时间特征的视频运动人物跟踪与身份识别方法
CN111753596A (zh) * 2019-03-29 2020-10-09 商汤集团有限公司 神经网络的训练方法及装置、电子设备和存储介质
CN110443829A (zh) * 2019-08-05 2019-11-12 北京深醒科技有限公司 一种基于运动特征和相似度特征的抗遮挡跟踪算法
CN110929242B (zh) * 2019-11-20 2020-07-10 上海交通大学 基于无线信号进行姿态无关的连续用户认证方法及系统
CN111612105A (zh) * 2020-07-01 2020-09-01 上海眼控科技股份有限公司 图像预测方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542240A (zh) * 2010-12-23 2012-07-04 三星电子株式会社 用于估计人体朝向的设备和方法
CN106548208A (zh) * 2016-10-28 2017-03-29 杭州慕锐科技有限公司 一种照片图像快速智能风格化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296720B (zh) * 2015-05-12 2019-01-25 株式会社理光 基于双目相机的人体朝向识别方法和系统
US9949714B2 (en) * 2015-07-29 2018-04-24 Htc Corporation Method, electronic apparatus, and computer readable medium of constructing classifier for disease detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542240A (zh) * 2010-12-23 2012-07-04 三星电子株式会社 用于估计人体朝向的设备和方法
CN106548208A (zh) * 2016-10-28 2017-03-29 杭州慕锐科技有限公司 一种照片图像快速智能风格化方法

Also Published As

Publication number Publication date
CN107122736A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN107122736B (zh) 一种基于深度学习的人体朝向预测方法及装置
CN110660082B (zh) 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法
CN109344725B (zh) 一种基于时空关注度机制的多行人在线跟踪方法
Chandan et al. Real time object detection and tracking using Deep Learning and OpenCV
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
JP6625220B2 (ja) シーン内のオブジェクトのアクションを検出する方法及びシステム
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN109325440B (zh) 人体动作识别方法及系统
CN111310659A (zh) 基于增进式图卷积神经网络的人体动作识别方法
CN107833239B (zh) 一种基于加权模型约束的寻优匹配目标跟踪方法
CN109993770B (zh) 一种自适应时空学习与状态识别的目标跟踪方法
Kang et al. Real-time multiple people tracking using competitive condensation
CN112052802A (zh) 一种基于机器视觉的前方车辆行为识别方法
CN112801019B (zh) 基于合成数据消除无监督车辆再识别偏差的方法及系统
CN113869274B (zh) 基于城市管理的无人机智能跟踪监控方法及系统
Wang et al. Foreground Object Detecting Algorithm based on Mixture of Gaussian and Kalman Filter in Video Surveillance.
Hajji et al. Incidents prediction in road junctions using artificial neural networks
Ikram et al. Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture
Wang et al. Research on improved pedestrian detection algorithm based on convolutional neural network
CN114581485A (zh) 一种基于语言建模式孪生网络的目标跟踪方法
CN111915647B (zh) 一种对象标签引导的自适应视频目标跟踪方法
ELBAŞI et al. Control charts approach for scenario recognition in video sequences
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
Jin et al. Real-time action recognition using multi-level action descriptor and DNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant