CN114373225A - 一种基于人体骨架的行为识别方法及系统 - Google Patents
一种基于人体骨架的行为识别方法及系统 Download PDFInfo
- Publication number
- CN114373225A CN114373225A CN202111647653.5A CN202111647653A CN114373225A CN 114373225 A CN114373225 A CN 114373225A CN 202111647653 A CN202111647653 A CN 202111647653A CN 114373225 A CN114373225 A CN 114373225A
- Authority
- CN
- China
- Prior art keywords
- skeleton
- time
- network
- sequence
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于人体骨架的行为识别方法及系统,方法包括:获取时间上连续的图像序列;使用姿态估计方法得到骨架序列;将骨架序列分别送入第一模型和第二模型,第一模型为时间卷积网络,用于提取骨架序列的时间特征,第二模型包括视图自适应网络和空间图卷积网络,用于提取骨架序列的空间特征;融合时间特征和空间特征,输出人类行为动作。与现有技术相比,本发明将图像信息转化为人体骨架序列信息,分别提取空间特征和时间特征,在空间特征提取中进行了视角自适应调整,并加入了关节点之间的连接关系,识别准确率和鲁棒性更好。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其是涉及一种基于人体骨架的、融合视角优化与时空图神经网络的行为识别方法及系统。
背景技术
近年来,人类行为识别已经成为一个活跃的研究领域,它在视频理解中起着重要的作用。行为识别成为计算机视觉领域的基本问题之一,基于深度学习的行为识别算法是当前行为识别的主流算法。人类行为是发生在一定时空的事件,具有空间性与时间性。行为识别的关键问题是如何有效的描述出时间特征和空间特征。从不同角度出发,部分研究通过两个神经网络将图像空间和时间信息分开处理,最后利用SVM将这两部分进行关联,实现目标体的静态和动态的融合;部分研究利用3D卷积网络在时间和空间维度上同时进行计算;研究人员采用图像2D上的算子、光流、图等多种方式进行特征的描述。
经过发明人的分析和研究,现有方法在视频背景较为简单的情况下获得了不错的精度,但在背景较为复杂的视频中精度还很有限。目前大多数行为识别方法缺乏鲁棒性,环境背景,光照明暗程度和人体外貌变化等对识别误差均有一定影响,行为识别仍是计算机视觉中最重要和最具挑战性的问题之一。
在2D或3D坐标形式下,动态骨骼模型姿态可以自然地由人类关节位置的时间序列表示。通过分析其动作模式进行人类行为识别可有效避免视频中的复杂背景,光照的变化和外貌的变化等不确定因素带来的影响。近几年,基于人体骨架的行为识别已有部分成果,这些工作在公开数据库上的精度都有很好的提升,但是仍然有一些问题没有解决。比如,人的运动是由各个部分协调完成的,如行走不仅需要腿的运动,还需要手臂的运动维持身体平衡,但是大部分的工作将人体的关键点直接链接成向量,然后输入到LSTM里面处理,这样很难学习到人体结构的空间特征。大多数的现有的方法利用LSTM网络直接对整个骨架序列进行时序建模,忽视了输入视频的拍摄视角影响。如果视频拍摄位置不合适,会对行为识别的结果造成一定影响。采集骨架点的相机视角的不同和视频中的人做动作方向的不同,给基于人体骨架的动作识别任务带来了一定困难。相关的现有技术及分析如下:
现有技术1:人类动作识别的3D卷积神经网络。3D卷积神经网络出现以前,行为识别方法都是基于一些对应用场景苛刻的假设上的,大部分方法都是在原始的输入中提取复杂的人工特征,然后在获取的特征上学习分类器。但在实际场景中,很难知道对于一个具体的任务什么样的特征才是重要的,因为特征的选择与具体的问题高度依赖。特别是行为识别上,不同的运动类型在外观和运动模型上都呈现出非常大的不同。Shuiwang[1]等人提出通过3D卷积核操作,自动提取视频数据的时间和空间特征。这些3D特征提取器在空间和时间维度上操作,因此可以捕捉视频流的运动信息。基于3D卷积特征提取器构造了一个3D卷积神经网络,简称3DCNN。这个架构可以从连续视频帧中产生多通道的信息,然后在每一个通道都分离地进行卷积和下采样操作。最后将所有通道的信息组合起来得到最终的特征描述。3D卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核。在这个结构中,卷积层中每一个特征图都会与上一层中多个邻近的连续帧相连,因此捕捉运动信息。一个卷积图的某一位置的值是通过卷积上一层的三个连续的帧的同一个位置的局部感受野得到的。在此基础上,Tran等[2]通过实验探索了最优的3D卷积核的尺寸,提出了一种简单而有效的方法对视频数据集进行时空特征学习,对3D CNN架构的所有网络层均采用3×3×3卷积核尺寸,这种网络结构被命名为C3D。Tran等人认为不那么过早地池化时间信息,可以在早期阶段保留更多的时间信息。已有的3D卷积神经网络结构的优势在于其实现速度,效率高于其他的深度学习方法,但3D卷积神经网络的识别精度一般较低,且该方法作用在视频图像上,相比基于骨架的行为识别,图像中的背景点产生大量冗余信息。
现有技术2:基于人体骨架行为识别的视角自适应循环神经网络。由于骨架的潜在优势,基于骨骼的人体动作识别越来越受到人们的关注,一个主要的挑战在于捕捉到的人类行为在很大程度上存在差异。在一个实际的场景中,相机的捕捉视点不同,得到的骨架序列是不同的,例如,相机的位置不同,导致骨架表现存在巨大差异。而且,行为人可以针对不同的方向执行动作,可能会随着时间的推移动态地改变自己的行为方向。当从不同的视角捕获到的相同姿势的骨架表示是非常不同的。为避免视角不同带来的影响,Zhang等[3]提出了一种新的视点适应方案来自动调节行为发生时的拍摄视点。设计一种基于LSTM结构的自适应递归神经网络,而不是基于人类定义的先验准则重新定位骨架。这使得网络本身能够从一端到另一端适应最合适的观察观点。通过大量的实验分析,证明了所提出的视图自适应RNN模型可将不同视图的骨架转换为更一致的视角,保持动作的连续性,而不是将每一帧转换为相同的位置和相同的身体方向。端到端视角自适应RNN的架构,它由视角自适应子网和主网络组成LSTM网络。视角自适应子网络在每个时隙确定合适的观察点。使用新的观察视点下的骨架表示,主LSTM网络决定动作类别。基于LSTM架构的视角自适应RNN,根据输入骨架学习和确定合适的视角。主LSTM网络利用在已确定的观察视点中新表示的骨架来方便动作识别。以识别性能优化为目标,对整个网络进行端到端的训练,以鼓励视角适应子网络学习并确定合适的视点。已有的视角自适应循环神经网络对时序信息的关注不足,轻视了时序信息中的包含的行为特征,并且视角调整后直接输入到LSTM里面处理,这样很难学习到人体结构的空间特征。比如,走路时手部与脚部的对应关系。
现有技术3:基于动态骨骼动作识别的时空图卷积网络模型。深度神经网络可以自动捕捉关节的空间构型、时间动态中所嵌入的模式。骨骼以图像的形式展现,因此,将卷积神经网络(CNN)泛化到任意结构图形的图卷积网络(GCN)得到广泛关注。Yan等[4]通过将图卷积网络扩展到时空图模型,设计用于行为识别的骨骼序列通用表示,称为时空图卷积网络,简称ST-GCN。该模型是在骨骼图序列上制定的,其中每个节点对应于人体的一个关节。图中存在两种类型的边,即符合关节的自然连接的空间边和在连续的时间步骤中连接相同关节的时间边。在此基础上构建多层的时空图卷积,它允许信息沿着空间和时间两个维度进行整合。ST-GCN的层次性消除了手动划分部分或遍历规则的需要。这不仅能获得更强的表达能力和更高的性能,而且还使其易于在不同的环境中推广。首先对视频进行姿态估计并在骨骼序列上构建时空图。然后,对其应用多层时空图卷积操作,并逐渐在图像上生成更高级的特征图。最后,利用标准的Softmax分类器,能将其分类到相应的行为类别中。由于ST-GCN在不同节点上共享权重,因此保持输入数据的比例在不同节点上保持一致。已有的时空图卷积网络模型,有效利用空间特征和时序特征,并通过多任务训练的方法对两个行为识别数据集进行分类,降低过拟合,但是对拍摄视角不合适带来的精度影响未作处理。
综上,有必要进行相关研究,克服上述传统行为识别方法的不足。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于人体骨架的行为识别方法及系统,将图像信息转化为人体骨架序列信息,分别提取空间特征和时间特征,在空间特征提取中进行了视角自适应调整,并加入了关节点之间的连接关系,识别准确率和鲁棒性更好。
本发明的目的可以通过以下技术方案来实现:
一种基于人体骨架的行为识别方法,包括以下步骤:
S1、获取时间上连续的图像序列,并进行预处理,所述图像序列中的图像为人类行为图像;
S2、使用姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列;
S3、将骨架序列分别送入第一模型和第二模型,第一模型为时间卷积网络,用于提取骨架序列的时间特征,第二模型包括视图自适应网络和空间图卷积网络,用于提取骨架序列的空间特征,所述视图自适应网络的输出送入空间图卷积网络;
S4、将骨架序列的时间特征和空间特征输入全连接网络进行融合,输出识别的人类行为动作。
进一步的,步骤S1中,获取视频或时间上连续的多张图像,按照预设的采样间隔进行采样,得到时间上连续的图像序列。
进一步的,所述预处理包括去噪、划定人体所在区域的感兴趣区域和图像缩放。
进一步的,步骤S2中,使用OpenPose姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列。
进一步的,所述时间卷积网络的输入为骨架序列,输出为时间特征张量,包括两个卷积层、两个池化层和一个全连接层;所述视图自适应网络的输入为骨架序列,包括LSTM层和全连接层,输出为视角自适应调整后的骨架序列,将视角自适应调整后的骨架序列利用邻接矩阵增加骨架上关节点之间的连接关系;所述空间图卷积网络的输入为视角自适应调整后的骨架序列以及邻接矩阵,输出为空间特征张量,包括两个图卷积层、两个图池化层和一个全连接层;所述全连接网络的输入为时间特征张量和空间特征张量,输出为人类各个行为动作的概率,包括时间全连接层、空间全连接层和Softmax分类器。
进一步的,步骤S1至步骤S4中的数据流动关系如下:
对于一个m×h×l的图像序列X,包含m帧图像,每帧的像素大小是h×l,使用姿态估计方法获取图像序列X的骨架序列W=F姿态估计(X),W为m×a×3的张量,其中a×3表示人体骨架信息中的a个关节点在图像中x轴、y轴的坐标以及置信分值;
张量W分别送入时间卷积网络和视图自适应网络:时间卷积网络输出时间特征张量T=F时间卷积(W),T为a×q×1的时间特征张量,q=[(a-k+2p)/s]+1,其中,时间卷积网络的卷积核大小为k×3,步长为s,填充层数为p;视图自适应网络输出视角自适应调整后的骨架序列R=F视角自适应(W),R为m×a×3的张量;
将视角自适应调整后的骨架序列利用大小为a×a的邻接矩阵增加骨架上关节点之间的连接关系,将视图自适应网络输出视角自适应调整后的骨架序列R和a×a的邻接矩阵送入空间图卷积网络,经过图卷积操作得到特征张量SC=F空间卷积(R),SC为m×a×3的特征张量,再做图池化操作得到空间特征张量Sp=F空间池化(SC),Sp为m×a×10×3的空间特征张量,10表示池化后的特征节点数,特征节点是通过池化操作从所有关节点中提取的影响动作类别的关键关节点;
将时间特征张量T和空间特征张量Sp分别输入全连接网络,分别得到时间特征向量v=T时间全连接(T)和空间特征向量u=F空间全连接(Sp),其中,v包含a个时间特征,u包含m×a个空间特征,再将时间特征向量v和空间特征向量u分别输入到Softmax分类器,Softmax分类器分别输出n维的第一向量和第二向量,n为人类行为动作的种类总数,第一向量和第二向量表示n种人类行为动作的概率估计值,汇总第一向量和第二向量,求出概率最大的人类行为动作并输出。
一种基于人体骨架的行为识别系统,包括:
数据采集模块,获取时间上连续的图像序列,并进行预处理,所述图像序列中的图像为人类行为图像;
骨架提取模块,使用姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列;
特征提取模块,将骨架序列分别送入第一模型和第二模型,第一模型为时间卷积网络,用于提取骨架序列的时间特征,第二模型包括视图自适应网络和空间图卷积网络,用于提取骨架序列的空间特征,所述视图自适应网络的输出送入空间图卷积网络;
特征融合模块,将骨架序列的时间特征和空间特征输入全连接网络进行融合,输出识别的人类行为动作。
进一步的,骨架提取模块使用OpenPose姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列。
进一步的,特征提取模块中,所述时间卷积网络的输入为骨架序列,输出为时间特征张量,包括两个卷积层、两个池化层和一个全连接层;所述视图自适应网络的输入为骨架序列,包括LSTM层和全连接层,输出为视角自适应调整后的骨架序列,将视角自适应调整后的骨架序列利用邻接矩阵增加骨架上关节点之间的连接关系;所述空间图卷积网络的输入为视角自适应调整后的骨架序列以及邻接矩阵,输出为空间特征张量,包括两个图卷积层、两个图池化层和一个全连接层;所述全连接网络的输入为时间特征张量和空间特征张量,输出为人类各个行为动作的概率,包括时间全连接层、空间全连接层和Softmax分类器。
进一步的,行为识别系统中的数据流动关系如下:
对于一个m×h×l的图像序列X,包含m帧图像,每帧的像素大小是h×l,使用姿态估计方法获取图像序列X的骨架序列W=F姿态估计(X),W为m×a×3的张量,其中a×3表示人体骨架信息中的a个关节点在图像中x轴、y轴的坐标以及置信分值;
张量W分别送入时间卷积网络和视图自适应网络:时间卷积网络输出时间特征张量T=F时间卷积(W),T为a×q×1的时间特征张量,q=[(a-k+2p)/s]+1,其中,时间卷积网络的卷积核大小为k×3,步长为s,填充层数为p;视图自适应网络输出视角自适应调整后的骨架序列R=F视角自适应(W),R为m×a×3的张量;
将视角自适应调整后的骨架序列利用大小为a×a的邻接矩阵增加骨架上关节点之间的连接关系,将视图自适应网络输出视角自适应调整后的骨架序列R和a×a的邻接矩阵送入空间图卷积网络,经过图卷积操作得到特征张量SC=F空间卷积(R),SC为m×a×3的特征张量,再做图池化操作得到空间特征张量Sp=F空间池化(SC),Sp为m×a×10×3的空间特征张量,10表示池化后的特征节点数,特征节点是通过池化操作从所有关节点中提取的影响动作类别的关键关节点;
将时间特征张量T和空间特征张量Sp分别输入全连接网络,分别得到时间特征向量v=T时间全连接(T)和空间特征向量u=F空间全连接(Sp),其中,v包含a个时间特征,u包含m×a个空间特征,再将时间特征向量v和空间特征向量u分别输入到Softmax分类器,Softmax分类器分别输出n维的第一向量和第二向量,n为人类行为动作的种类总数,第一向量和第二向量表示n种人类行为动作的概率估计值,汇总第一向量和第二向量,求出概率最大的人类行为动作并输出。
与现有技术相比,本发明具有以下有益效果:
(1)本申请获取时间上连续的图像序列,降低了计算量,通过姿态估计方法得到骨架信息,基于骨架进行行为识别,有效避免环境背景、光照明暗程度和人体外貌变化等对识别误差带来的影响。
(2)采用视角自适应方法调整视角,由时空图卷积网络提取出空间特征和时序特征,视角自适应方法与时空图神经网络的结合,对影响行为识别中的关键因素进行整合,在采用视角自适应方法调整视角后,有效利用空间特征和时序特征,提高了基于人体骨架的行为识别的鲁棒性。
(3)设计邻接矩阵记录骨架上关节点之间的连接关系,增加关键的关节点之间的连接,使用空间图卷积网络对加入多连接的骨架序列进行特征提取,突出特定动作的特定空间结构特征,提高识别准确率与模型鲁棒性,提高了基于人体骨架的行为识别的准确率。
附图说明
图1为本发明的流程图;
图2为基于人体骨架的行为识别的数据流示意图;
图3为时间卷积图解;
图4为空间图卷积图解;
图5为视角自适应子网络图解;
图6为增加关节点之间连接的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件。
实施例1:
一种基于人体骨架的行为识别方法,如图1所示,包括以下步骤:
S1、获取时间上连续的图像序列,并进行预处理,图像序列中的图像为人类行为图像;
可以获取视频或时间上连续的多张图像,按照预设的采样间隔进行采样,如相邻帧图像的时间间隔为0.1s等,得到时间上连续的图像序列。
图像预处理包括常用的去噪、划定人体所在区域的感兴趣区域和图像缩放、裁剪等,去噪可以降低干扰因素的影响,可以人工划定人体所在的感兴趣区域,或使用相应的人工智能检测算法进行识别,图像缩放、裁剪以将图像处理至合适的大小,与构建的网络适配,从而便于后续的处理和特征提取。
S2、使用姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列;
本实施例中使用OpenPose姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列,penPose人体姿态识别项目是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以Caffe为框架开发的开源库,可以实现人体动作、面部表情、手指运动等姿态估计,人体姿态评估效果较好。
S3、将骨架序列分别送入第一模型和第二模型,第一模型为时间卷积网络,用于提取骨架序列的时间特征,第二模型包括视图自适应网络和空间图卷积网络,用于提取骨架序列的空间特征,视图自适应网络的输出送入空间图卷积网络;
S4、将骨架序列的时间特征和空间特征输入全连接网络进行融合,输出识别的人类行为动作。
整体的网络架构和数据流动如图2所示:输入视频或多帧图片图像,通过OpenPose姿态估计方法得到骨架序列,然后分别进入两个分支,一个分支利用卷积神经网络提取时间特征(即时间卷积网络提取的时间特征张量),一个分支利用图卷积神经网络提取空间特征(即空间图卷积网络提取的空间特征张量)。其中,提取空间特征的分支内加入视角自适应网络,将骨架序列的视角调整到利于识别的视角,避免视角不好带来的识别困难。最后,利用全连接网络对时间特征与空间特征进行整合,全连接网络输出神经元的个数为动作标签个数(人类行为动作的种类总数n)一致,Softmax分类器对各类行为进行打分,综合两个分支的各行为的最终得分,输出得分最高的动作标签,完成基于人体骨架的行为识别。
如图3和图4所示,时间卷积过程是对不同帧的相同关节点和在连续的时间步骤中连接相同关节的时间边进行卷积操作,空间图卷积过程是对同一帧的不同关节点和符合关节的自然连接的空间边进行图卷积操作。如图5所示,本发明利用视角自适应网络来自动确定观测视点。观测视点的调节相当于移动虚拟相机的平移和旋转来重新定位,从而得到最佳观测点,可便于对空间结构特征的提取。LSTM网络具有建模长期时间动态和自动学习特征表示的能力,视角自适应子网络采用LSTM层和全连接层FC组成。
人类动作中很多均需要通过远距离关节协同运动来完成,而普通的图神经网络可能无法有效地识别出许多需要通过远距离关节协同运动来完成的人体运动。这是因为当图神经网络用分层图神经网络聚合更大范围的特征时,在扩散过程中,联合特征可能会被削弱。这使某些人类活动无法被有效识别。也就是说,图神经网络无法有效地提取动作的全局共现特征。
为解决以上问题,本发明在每一帧中找到骨骼的关节,并建立它们与其他远距离关节之间的连接关系。如图6所示,将最佳视角的骨架序列进行调整,然后再用图卷积网络进行全局共现特征提取。
视图自适应网络的输入为骨架序列,包括LSTM层和全连接层,输出为视角自适应调整后的骨架序列,且保证输入序列与输出序列的尺寸完全一致。将视角自适应网络输出的骨架序列利用邻接矩阵增加关节点之间的连接关系后输入空间图卷积网络。
空间图卷积网络的输入为视角自适应调整后的骨架序列以及邻接矩阵,输出为空间特征张量,包括两个图卷积层、两个图池化层和一个全连接层;输入经过图卷积层通道数增加,经过图池化层特征维度减小,经过全连接层将学到的分布式特征表示(空间特征张量)映射到样本标记空间,即对应到人类行为动作。
时间卷积网络的输入为骨架序列,输出为时间特征张量,包括两个卷积层、两个池化层和一个全连接层;时间卷积网络对所有帧的关节点分别进行卷积,输出关节点数不变的序列,再由池化层减小尺寸,经过全连接层输出降低维数到样本标记空间,即对应到人类行为动作。
全连接网络的输入为时间特征张量和空间特征张量,输出为人类行为动作,包括时间全连接层、空间全连接层和Softmax分类器。时间全连接层是对时间特征张量进行全连接操作后送入Softmax分类器打分,空间全连接层是对空间特征张量进行全连接操作后送入Softmax分类器打分,汇总两个Softmax分类器的打分结果,输出打分最高的人类行为动作的标签。
为了便于理解,对整个识别过程中的数据流动简单说明,内容如下:
对于一个m×h×l的图像序列X,包含m帧图像,每帧的像素大小是h×l,使用姿态估计方法获取图像序列X的骨架序列W=F姿态估计(X),W为m×a×3的张量,其中a×3表示人体骨架信息中的a个关节点在图像中x轴、y轴的坐标以及置信分值;
张量W分别送入时间卷积网络和视图自适应网络:时间卷积网络输出时间特征张量T=F时间卷积(W),T为a×q×1的时间特征张量,q=[(a-k+2p)/s]+1,其中,时间卷积网络的卷积核大小为k×3,步长为s,填充层数为p;视图自适应网络输出视角自适应调整后的骨架序列R=F视角自适应(W),R为m×a×3的张量;
将视角自适应调整后的骨架序列利用大小为a×a的邻接矩阵增加骨架上关节点之间的连接关系,将视图自适应网络输出视角自适应调整后的骨架序列R和a×a的邻接矩阵送入空间图卷积网络,经过图卷积操作得到特征张量SC=F空间卷积(R),SC为m×a×3的特征张量,再做图池化操作得到空间特征张量Sp=F空间池化(SC),Sp为m×a×10×3的空间特征张量,10表示池化后的特征节点数,特征节点是通过池化操作从所有关节点中提取的影响动作类别的关键关节点,其他实施方式中,可以根据应用场景,选择不同数量的特征节点,如8、11等;
将时间特征张量T和空间特征张量Sp分别输入全连接网络,分别得到时间特征向量v=F时间全连接(T)和空间特征向量u=F空间全连接(Sp),其中,v包含a个时间特征,u包含m×a个空间特征,再将时间特征向量v和空间特征向量u分别输入到Softmax分类器,Softmax分类器分别输出n维的第一向量和第二向量,n为人类行为动作的种类总数,第一向量和第二向量表示n种人类行为动作的概率估计值,汇总第一向量和第二向量,求出概率最大的人类行为动作并输出。
基于人体骨架的行为识别方法中的各种参数可以根据应用场景不同进行调整,如用于文明行为检测时,重点关注的人类行为动作为不文明行为的动作,用于摔倒报警检测时,重点关注的人类行为动作为摔倒的动作,时间卷积网络、视图自适应网络和空间图卷积网络是先构建再训练得到的,训练过程在此不再赘述,时间卷积网络、视图自适应网络和空间图卷积网络的具体结构也可以根据应用需要进行增删调整。
现有技术中,输入为视频图像的行为识别方法计算量大、信息冗余、容易受背景、光线以及外貌的影响。本申请获取时间上连续的图像序列,降低了计算量,通过姿态估计方法得到骨架信息,基于骨架进行行为识别,有效避免环境背景、光照明暗程度和人体外貌变化等对识别误差带来的影响。
经过发明人的分析和研究,发现影响识别结果的主要因素包括空间特征、时序特征以及拍摄视角,因此,采用视角自适应方法调整视角,由时空图卷积网络提取出空间特征和时序特征。视角自适应方法与时空图神经网络的结合,对影响行为识别中的关键因素进行整合,在采用视角自适应方法调整视角后,有效利用空间特征和时序特征,提高了基于人体骨架的行为识别的鲁棒性。
在实践中,发明人发现,人类动作中很多均需要通过远距离关节协同运动来完成,而普通的图神经网络可能无法有效地提取动作的全局共现特征,造成部分动作识别不准确,因此对识别模型进行改进,设计a×a的邻接矩阵记录骨架上关节点之间的连接关系,使用空间图卷积网络对加入多连接的骨架序列进行特征提取,提高识别准确率与模型鲁棒性。即本申请通过视角优化与时空图神经网络的融合方法的改进,增加关键的关节点之间的连接,突出特定动作的特定空间结构特征,提高了基于人体骨架的行为识别的准确率。
实施例2:
本申请还保护一种基于人体骨架的行为识别系统,包括:
数据采集模块,获取时间上连续的图像序列,并进行预处理,图像序列中的图像为人类行为图像;
骨架提取模块,使用姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列;
特征提取模块,将骨架序列分别送入第一模型和第二模型,第一模型为时间卷积网络,用于提取骨架序列的时间特征,第二模型包括视图自适应网络和空间图卷积网络,用于提取骨架序列的空间特征,视图自适应网络的输出送入空间图卷积网络;
特征融合模块,将骨架序列的时间特征和空间特征输入全连接网络进行融合,输出识别的人类行为动作。
数据采集模块、骨架提取模块、特征提取模块、特征融合模块中的处理方法已在实施例1中描述,在此不再赘述。
实施例3:
本发明所提出的基于人体骨架的视角优化与时空图神经网络融合的行为识别方法能够自动地从视频中识别人类行为动作,能被广泛地应用于安防主动预警、吸烟行为识别、儿童摔倒检测等计算机视觉应用中,为计算机视觉任务行为识别提供方法指导,具有广阔的应用前景和潜在的经济价值和社会价值。
本实施例中分别给出本发明在安防系统和城市文明监控网络以及摔倒检测系统中的具体实施方式。
(1)应用本申请建立智能安防的AI行为监控系统:
AI行为监控系统能识别出人的各种异常动作行为并预警的智能监控系统,它采用AI视觉神经网络的分析算法,根据人体骨架结构,以关节为运动节点,利用高清网络摄像机抓拍勾勒出人体骨架图形,通过后台大数据分析计算,从而判断出人的运动轨迹,结合系统设定的参数值,识别出人的动作行为,并通过后台预警,从而达到主动防御和提前预判的目的。
下面,就几种常见的行为识别应用场景做出简单介绍:当监控画面中有人翻越围墙或者栏杆时,系统预警屏幕弹出攀爬事件。当监控画面有人打架时,系统预警屏幕弹出打架事件。系统当发现有监控画面中设置的区域有人闯入监控画面时,系统预警屏幕弹出闯入事件。当监控画面有人发出求救动作时,预警屏幕弹出求救事件。
通过使用智能AI行为监控系统,能主动识别场景内各种求救事件、打架事件、闯入事件、攀爬事件,一旦被监控摄像机扑捉到类似行为,立即预警给监控中心,监控中心可以快速做出反应,及时防范,阻止事态恶化。我们还可以根据用户实际需求,由用户自定义各种符合管理要求的行为动作,从而实现各种异常行为动作的识别和预警。
(2)应用本申请进行不文明行为预警
城市公共文明建设,是衡量一个城市文明程度的重要标尺,是文明城市创建和精神文明建设的重要内容和基础工作,也是一个城市整体形象的重要体现。加强城市公共文明建设,营造整洁优美的城市环境,建设文明和谐的公共秩序,倡树互助友爱的人际关系,开展进步奉献的社会公益活动,是提高城市建设管理水平的需要,也是满足市民日益增长的物质文化生活需求的需要。公共文明直接关系人民群众的切身利益。创建文明城市是为人民群众创造一个优美的城市环境和优良的生活环境,提高人的文明素质,提高人民群众的生活质量和生活品位,让人民群众享受到更丰富的文明创建成果。有效的城市文明监控,可以促进城市公共文明建设。
将实施例2中的基于人体骨架的行为识别系统与城市中大街小巷的摄像头链接,识别视频中的市民的行为。在重点位置,如广场、主要商业大街、主干道、主要交通路口、公交线路、文化场所、火车站、汽车站等位置大部分均具有摄像头。如若摄像头拍摄下来的视频中出现不文明现象,比如吸烟,随地吐痰,践踏草坪,随地乱丢垃圾等现象,行为识别系统迅速识别出不文明现象,并及时做出预警提醒。
(3)应用本申请进行摔倒检测
对于家中有老人或小孩的家庭,年轻人需要工作和生活,不能把精力都放在老人和孩子身上。但是,孩子年纪太小,比较调皮不懂得危险性,而老人年纪大了,身体可能出现突发问题。因此,在家中安装摄像装置,将实施例2中的基于人体骨架的行为识别系统嵌入其中,检测视频中的老人或小孩,如若监控画面中有人晕倒或者摔倒等情况时,系统预警屏幕弹出倒地事件。年轻人可在第一时间看到预警并及时做出处理。
此外,针对幼儿园中每一位老师需要照顾多名儿童,不能每时每刻关注到所有孩子的问题。在幼儿园中安装摄像装置,将实施例2中的基于人体骨架的行为识别系统可嵌入其中,检测视频中的小孩,当监控画面中有人晕倒或者摔倒等情况时,系统预警屏幕弹出倒地事件。幼儿园的老师可在第一时间看到预警并及时做出处理,避免情况恶化。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于人体骨架的行为识别方法,其特征在于,包括以下步骤:
S1、获取时间上连续的图像序列,并进行预处理,所述图像序列中的图像为人类行为图像;
S2、使用姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列;
S3、将骨架序列分别送入第一模型和第二模型,第一模型为时间卷积网络,用于提取骨架序列的时间特征,第二模型包括视图自适应网络和空间图卷积网络,用于提取骨架序列的空间特征,所述视图自适应网络的输出送入空间图卷积网络;
S4、将骨架序列的时间特征和空间特征输入全连接网络进行融合,输出识别的人类行为动作。
2.根据权利要求1所述的一种基于人体骨架的行为识别方法,其特征在于,步骤S1中,获取视频或时间上连续的多张图像,按照预设的采样间隔进行采样,得到时间上连续的图像序列。
3.根据权利要求1所述的一种基于人体骨架的行为识别方法,其特征在于,所述预处理包括去噪、划定人体所在区域的感兴趣区域和图像缩放。
4.根据权利要求1所述的一种基于人体骨架的行为识别方法,其特征在于,步骤S2中,使用OpenPose姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列。
5.根据权利要求1所述的一种基于人体骨架的行为识别方法,其特征在于,所述时间卷积网络的输入为骨架序列,输出为时间特征张量,包括两个卷积层、两个池化层和一个全连接层;所述视图自适应网络的输入为骨架序列,包括LSTM层和全连接层,输出为视角自适应调整后的骨架序列,将视角自适应调整后的骨架序列利用邻接矩阵增加骨架上关节点之间的连接关系;所述空间图卷积网络的输入为视角自适应调整后的骨架序列以及邻接矩阵,输出为空间特征张量,包括两个图卷积层、两个图池化层和一个全连接层;所述全连接网络的输入为时间特征张量和空间特征张量,输出为人类各个行为动作的概率,包括时间全连接层、空间全连接层和Softmax分类器。
6.根据权利要求5所述的一种基于人体骨架的行为识别方法,其特征在于,步骤S1至步骤S4中的数据流动关系如下:
对于一个m×h×l的图像序列X,包含m帧图像,每帧的像素大小是h×l,使用姿态估计方法获取图像序列X的骨架序列W=F姿态估计(X),W为m×a×3的张量,其中a×3表示人体骨架信息中的a个关节点在图像中x轴、y轴的坐标以及置信分值;
张量W分别送入时间卷积网络和视图自适应网络:时间卷积网络输出时间特征张量T=F时间卷积(W),T为a×q×1的时间特征张量,q=[(a-k+2p)/s]+1,其中,时间卷积网络的卷积核大小为k×3,步长为s,填充层数为p;视图自适应网络输出视角自适应调整后的骨架序列R=F视角自适应(W),R为m×a×3的张量;
将视角自适应调整后的骨架序列利用大小为a×a的邻接矩阵增加骨架上关节点之间的连接关系,将视图自适应网络输出视角自适应调整后的骨架序列R和a×a的邻接矩阵送入空间图卷积网络,经过图卷积操作得到特征张量SC=F空间卷积(R),SC为m×a×3的特征张量,再做图池化操作得到空间特征张量Sp=F空间池化(SC),Sp为m×a×10×3的空间特征张量,10表示池化后的特征节点数,特征节点是通过池化操作从所有关节点中提取的影响动作类别的关键关节点;
将时间特征张量T和空间特征张量Sp分别输入全连接网络,分别得到时间特征向量v=F时间全连接(T)和空间特征向量u=F空间全连接(Sp),其中,v包含a个时间特征,u包含m×a个空间特征,再将时间特征向量v和空间特征向量u分别输入到Softmax分类器,Softmax分类器分别输出n维的第一向量和第二向量,n为人类行为动作的种类总数,第一向量和第二向量表示n种人类行为动作的概率估计值,汇总第一向量和第二向量,求出概率最大的人类行为动作并输出。
7.一种基于人体骨架的行为识别系统,其特征在于,基于如权利要求1-6中任一所述的一种基于人体骨架的行为识别方法,包括:
数据采集模块,获取时间上连续的图像序列,并进行预处理,所述图像序列中的图像为人类行为图像;
骨架提取模块,使用姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列;
特征提取模块,将骨架序列分别送入第一模型和第二模型,第一模型为时间卷积网络,用于提取骨架序列的时间特征,第二模型包括视图自适应网络和空间图卷积网络,用于提取骨架序列的空间特征,所述视图自适应网络的输出送入空间图卷积网络;
特征融合模块,将骨架序列的时间特征和空间特征输入全连接网络进行融合,输出识别的人类行为动作。
8.根据权利要求7所述的一种基于人体骨架的行为识别系统,其特征在于,骨架提取模块使用OpenPose姿态估计方法获取每张图像中的骨架信息,得到图像序列对应的骨架序列。
9.根据权利要求7所述的一种基于人体骨架的行为识别系统,其特征在于,特征提取模块中,所述时间卷积网络的输入为骨架序列,输出为时间特征张量,包括两个卷积层、两个池化层和一个全连接层;所述视图自适应网络的输入为骨架序列,包括LSTM层和全连接层,输出为视角自适应调整后的骨架序列,将视角自适应调整后的骨架序列利用邻接矩阵增加骨架上关节点之间的连接关系;所述空间图卷积网络的输入为视角自适应调整后的骨架序列以及邻接矩阵,输出为空间特征张量,包括两个图卷积层、两个图池化层和一个全连接层;所述全连接网络的输入为时间特征张量和空间特征张量,输出为人类各个行为动作的概率,包括时间全连接层、空间全连接层和Softmax分类器。
10.根据权利要求9所述的一种基于人体骨架的行为识别系统,其特征在于,行为识别系统中的数据流动关系如下:
对于一个m×h×l的图像序列X,包含m帧图像,每帧的像素大小是h×l,使用姿态估计方法获取图像序列X的骨架序列W=F姿态估计(X),W为m×a×3的张量,其中a×3表示人体骨架信息中的a个关节点在图像中x轴、y轴的坐标以及置信分值;
张量W分别送入时间卷积网络和视图自适应网络:时间卷积网络输出时间特征张量T=F时间卷积(W),T为a×q×1的时间特征张量,q=[(a-k+2p)/s]+1,其中,时间卷积网络的卷积核大小为k×3,步长为s,填充层数为p;视图自适应网络输出视角自适应调整后的骨架序列R=F视角自适应(W),R为m×a×3的张量;
将视角自适应调整后的骨架序列利用大小为a×a的邻接矩阵增加骨架上关节点之间的连接关系,将视图自适应网络输出视角自适应调整后的骨架序列R和a×a的邻接矩阵送入空间图卷积网络,经过图卷积操作得到特征张量SC=F空间卷积(R),SC为m×a×3的特征张量,再做图池化操作得到空间特征张量Sp=F空间池化(SC),Sp为m×a×10×3的空间特征张量,10表示池化后的特征节点数,特征节点是通过池化操作从所有关节点中提取的影响动作类别的关键关节点;
将时间特征张量T和空间特征张量Sp分别输入全连接网络,分别得到时间特征向量v=F时间全连接(T)和空间特征向量u=F空间全连接(Sp),其中,v包含a个时间特征,u包含m×a个空间特征,再将时间特征向量v和空间特征向量u分别输入到Softmax分类器,Softmax分类器分别输出n维的第一向量和第二向量,n为人类行为动作的种类总数,第一向量和第二向量表示n种人类行为动作的概率估计值,汇总第一向量和第二向量,求出概率最大的人类行为动作并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111647653.5A CN114373225A (zh) | 2021-12-30 | 2021-12-30 | 一种基于人体骨架的行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111647653.5A CN114373225A (zh) | 2021-12-30 | 2021-12-30 | 一种基于人体骨架的行为识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114373225A true CN114373225A (zh) | 2022-04-19 |
Family
ID=81141167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111647653.5A Pending CN114373225A (zh) | 2021-12-30 | 2021-12-30 | 一种基于人体骨架的行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114373225A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524601A (zh) * | 2023-06-21 | 2023-08-01 | 深圳市金大智能创新科技有限公司 | 辅助养老机器人监控的自适应多阶段人体行为识别模型 |
CN117423138A (zh) * | 2023-12-19 | 2024-01-19 | 四川泓宝润业工程技术有限公司 | 基于多分支结构的人体跌倒检测方法、装置及系统 |
-
2021
- 2021-12-30 CN CN202111647653.5A patent/CN114373225A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524601A (zh) * | 2023-06-21 | 2023-08-01 | 深圳市金大智能创新科技有限公司 | 辅助养老机器人监控的自适应多阶段人体行为识别模型 |
CN116524601B (zh) * | 2023-06-21 | 2023-09-12 | 深圳市金大智能创新科技有限公司 | 辅助养老机器人监控的自适应多阶段人体行为识别模型 |
CN117423138A (zh) * | 2023-12-19 | 2024-01-19 | 四川泓宝润业工程技术有限公司 | 基于多分支结构的人体跌倒检测方法、装置及系统 |
CN117423138B (zh) * | 2023-12-19 | 2024-03-15 | 四川泓宝润业工程技术有限公司 | 基于多分支结构的人体跌倒检测方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bansal et al. | Recycle-gan: Unsupervised video retargeting | |
Chen et al. | Event-based neuromorphic vision for autonomous driving: A paradigm shift for bio-inspired visual sensing and perception | |
WO2020228766A1 (zh) | 基于实景建模与智能识别的目标跟踪方法、系统及介质 | |
Liu et al. | Human pose estimation in video via structured space learning and halfway temporal evaluation | |
CN114220176A (zh) | 一种基于深度学习的人体行为的识别方法 | |
Chen et al. | End-to-end learning of object motion estimation from retinal events for event-based object tracking | |
Demiröz et al. | Feature-based tracking on a multi-omnidirectional camera dataset | |
CN114373225A (zh) | 一种基于人体骨架的行为识别方法及系统 | |
Li et al. | Sign language recognition based on computer vision | |
CN110428449A (zh) | 目标检测跟踪方法、装置、设备及存储介质 | |
CN112200106A (zh) | 跨相机行人重识别与跟踪方法 | |
CN113065515B (zh) | 基于相似度图神经网络的异常行为智能检测方法及系统 | |
CN110334607B (zh) | 一种视频人体交互行为识别方法及系统 | |
CN106815855A (zh) | 基于产生式和判别式结合的人体运动跟踪方法 | |
CN109858407A (zh) | 一种基于多种信息流特征和异步融合的视频行为识别方法 | |
CN114511931A (zh) | 基于视频图像的动作识别方法、装置、设备及存储介质 | |
Yan et al. | Human-object interaction recognition using multitask neural network | |
CN110335299A (zh) | 一种基于对抗网络的单目深度估计系统实现方法 | |
Zhou et al. | A study on attention-based LSTM for abnormal behavior recognition with variable pooling | |
Ding et al. | Machine learning model for feature recognition of sports competition based on improved TLD algorithm | |
Zhao et al. | Review of human gesture recognition based on computer vision technology | |
Pervaiz et al. | Artificial neural network for human object interaction system over Aerial images | |
Ye | Intelligent image processing technology for badminton robot under machine vision of internet of things | |
Pradeepa et al. | Artificial Neural Networks in Healthcare for Augmented Reality | |
Liu et al. | Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |