CN111160164A - 基于人体骨架和图像融合的动作识别方法 - Google Patents

基于人体骨架和图像融合的动作识别方法 Download PDF

Info

Publication number
CN111160164A
CN111160164A CN201911310343.7A CN201911310343A CN111160164A CN 111160164 A CN111160164 A CN 111160164A CN 201911310343 A CN201911310343 A CN 201911310343A CN 111160164 A CN111160164 A CN 111160164A
Authority
CN
China
Prior art keywords
skeleton
attention
network
sequence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911310343.7A
Other languages
English (en)
Other versions
CN111160164B (zh
Inventor
钱久超
刘桂玉
刘佩林
朱肖光
应忍冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201911310343.7A priority Critical patent/CN111160164B/zh
Publication of CN111160164A publication Critical patent/CN111160164A/zh
Application granted granted Critical
Publication of CN111160164B publication Critical patent/CN111160164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供了一种基于人体骨架和图像融合的动作识别方法及存储介质,包括:时间特征提取步骤:输入3D人体骨架序列并利用骨架网络实现时间特征提取;空间特征提取步骤:利用RGB图像使用双注意力神经网络实现空间特征提取;特征融合步骤:将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。本发明利用3D骨架序列主要是为了提取时间上的信息,利用图像信息主要是为了提取细节信息以及与人交互的物体信息,最后将二者进行融合,保证了动作识别的稳定性和准确性。

Description

基于人体骨架和图像融合的动作识别方法
技术领域
本发明涉及人工智能中的计算机视觉领域,具体地,涉及基于人体骨架和图像融合的动作识别方法。尤其地,涉及基于3D人体骨架和RGB图像融合的动作识别方法。
背景技术
在监控,人机交互,手势识别、行为分析等应用领域,人物动作的检测、识别和分析成为其中的重点。这些应用带动了一大批计算机视觉研究者开始进行动作识别的研究。动作识别作为人机交互的一个重要手段,得到了越来越多的关注。
动作识别的种类按输入信息主要分三种:基于RGB视频的动作识别,基于3D深度图片的动作识别和基于3D人体骨架序列的动作识别。基于RGB视频的动作识别,当前的研究主要利用3D卷积网络和双流网络。RGB视频中含有丰富的肢体和物体信息,但是缺乏肢体的运动变化。基于3D深度图片的动作识别,主要依赖于用深度相机提取的深度图片。但是,深度图片对相机的视角变化非常敏感。基于3D骨架的动作识别,利用深度相机直接提取出人体关节点的空间位置信息,然后将坐标信息送入循环神经网络进行识别。由于3D骨架的维度比较小,计算速度非常之快。但是3D骨架缺乏人体、物体的细节信息。本发明所提出的基于RGB图片和3D骨架的动作识别,首次提出将3D骨架信息和RGB图片特征进行融合。在提取图片特征的过程中,本发明提出的注意力模块可获取RGB图片中具有关键信息的部位。本发明通过RGB图片和3D骨架的融合,克服了3D骨架缺失物体信息和肢体细节信息的缺点,使识别精度得到了提高。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于人体骨架和图像融合的动作识别方法。
根据本发明提供的一种基于人体骨架和图像融合的动作识别方法,包括:
时间特征提取步骤:输入3D人体骨架序列并利用骨架网络实现时间特征提取;
空间特征提取步骤:利用RGB图像使用双注意力神经网络实现空间特征提取;
特征融合步骤:将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。
优选地,所述时间特征提取步骤包括:
骨架序列获取步骤:使用微软的Kinect相机获得3D人体骨架序列,所述3D人体骨架序列包括人体关节点相对于相机的三维坐标;
骨架数据坐标转换步骤:对3D骨架序列进行坐标变换,即将坐标系的原点设置为动作序列第一帧中第一个人的脊柱点,将所有帧所有坐标的值都进行转换;
对训练集中的3D骨架序列进行旋转而扩增数据,获得旋转后的骨架数据,具体的旋转方法如公式(4)所示,将每一个关节点的坐标x,y,z乘上公式(4),就得到了旋转后的坐标,公式(1),(2),(3)中的α,β,γ,分别表示x,y,z轴沿顺时针方向的旋转角度,这里,α,β在0°至30°之间随机取值,γ取值为0,公式(1)至(4)如下所示:
Figure BDA0002324348600000021
Figure BDA0002324348600000022
Figure BDA0002324348600000023
R=Rz(γ)Ry(β)Rx(α) (4)
其中,
Rx(α)表示x方向的旋转矩阵;
Ry(β)表示y方向的旋转矩阵;
Rz(γ)表示z方向的旋转矩阵;
R表示旋转在三个方向上总的旋转矩阵;
骨架数据增强步骤:对旋转后的骨架数据通过尺度变换进行扩增,扩增方法如公式(5)所示,将每一个关节点的坐标x,y,z乘上公式(5),就得到了尺度变换后的坐标,将尺度因子sx,sy,sz在1至1.2之间随机取值,公式(5)如下所示:
Figure BDA0002324348600000024
其中
S表示下x,y,z三个方向的尺度因子矩阵
sx表示x方向的尺度因子;
sy表示y方向的尺度因子;
sy表示z方向的尺度因子;
多层LSTM识别神经网络的搭建步骤:搭建多层双向LSTM网络,用来处理骨架序列,记为骨架网络;
神经网络训练步骤:利用训练集训练骨架网络,训练后保存骨架网络权重,对于骨架网络的训练,优化器为Adam,学习率为1e-4,batch size=128,使用的损失函数为交叉熵损失函数,交叉熵损失函数的定义如公式(6)所示:
Figure BDA0002324348600000031
其中,
Loss表示网络的损失函数;
i为类别变量;
C代表数据集中动作的总类别;
yi为一个动作序列的真实标签;
pi为神经网络所预测的概率。
特征获取步骤:将3D人体骨架序列输入到训练后的骨架网络,获得骨架序列的时间特征。
优选地,所述空间特征提取步骤包括:
图片数据的投影裁剪和增强步骤:将3D骨架利用投影方程投影到2D平面上,找出人体骨架的位置和边框,裁剪出带有人体部分的原图像,再根据找出的人体骨架的边框,对原图像再进行裁剪,并对剪裁后的图像进行水平镜像翻转,扩充图像数据集,获得RGB图像;
自注意力模块的设计步骤:构建自注意力模块,提取自注意力特征,所述自注意力模块包括:1×1的卷积层、全局平均池化层以及线性变换层;
骨架注意力的生成步骤:根据以下公式计算骨架注意力:
jmax=max_index(||J1-Jmiddle||2)
其中,
jmax表示移动距离最大的关节点;
J1,Jmiddle分别代表第一帧和中间帧关节点的3D空间位置;
找出移动距离最大的关节点jmax之后,开始生成骨架注意力M;
骨架注意力特征提取步骤:用Xception网络提取出图片的特征图,将特征图与骨架注意力相乘之后,经过全局平均池化,再经过全连接层降低维度,全连接层的输出的特征即骨架注意力特征;
双注意力网络的融合步骤:令两个注意力模块分别同时接收RGB图像和3D骨架序列所生成的骨架注意力,并将输出特征进行拼接,获得骨架序列的空间特征;
双注意力网络的训练步骤:对于双注意力网络网络的训练,获得训练后的双注意力神经网络权重,训练的优化器为Adam,学习率为1e-4,batch size=128,使用的损失函数为交叉熵损失函数,交叉熵损失函数的定义如公式(6)所示。
优选地,所述特征融合步骤包括:
搭建特征融合网络;
根据获得的骨架网络权重和双注意力神经网络权重,开始训练特征融合网络,优化器为Adam,学习率为预设值,训练完毕后,用该训练完毕后的神经网络进行动作识别。
优选地,所述找出移动距离最大的关节点jmax之后,开始生成骨架注意力M指:
首先计算出骨架序列中第一帧到中间帧移动距离最大的关节点,如下公式所示:
jmax=max_index(||J1-Jmiddle||2)
其中,
J1,Jmiddle分别代表第一帧和中间帧关节点的3D空间位置;
分别计算每一个关节点的移动距离,即公式(3)至(5)中关节点间的欧式距离;max_index函数代表找出其中最大值的索引,也即找出移动距离最大的关节点;
找出移动距离最大的关节点jmax之后,开始生成骨架注意力M了;
M在最初是和输入图片有同样的尺寸的矩阵;
对于M矩阵中的取值,在jmax为中心的一个方框中,设Mp=1,其他位置设Mp=0,其中p代表M矩阵中每个像素点的位置;
生成的矩阵M即为注意力权重。
优选地,所述特征融合网络:RGB图片流RGB stream、骨架流skeleton stream以及特征融合模块;
对于骨架流,有三层Bi-LSTM,对于时间特征,提取最后一个Bi-LSTM层最后一个时间步所输出的特征,维度为B×F,其中B为batch size,F为特征维度,双向LSTM的隐藏单元为N个,所以F=2N;
对于图片流,首先利用xception的特征提取层提取出了特征图,然后利用双注意力网络,得到空间特征;
在得到时间特征和空间特征之后,特征融合模块将时间特征和空间特征进行拼接,拼接之后进行L2 norm归一化,最后送入全连接层和softmax层进行分类识别,Softmax层的输出即为识别结果。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的基于人体骨架和图像融合的动作识别方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
本发明提出的于3D人体骨架和RGB图像融合的动作识别神经网络,旨在解决3D骨架动作识别中缺乏物体以及像素信息的问题。基于3D骨架的动作识别技术因为维度小,所以运算速度很快。但3D骨架缺乏细节的RGB像素信息,包括人物的肢体以及与人交互的物体信息。在相似的动作中,仅用3D骨架进行动作识别容易引起混淆。为了解决这个问题,使3D动作识别精度更高、更加稳定,本文提出了一个融合3D骨架信息和RGB图片信息的深度神经网络模型。该模型分为两个流,一个网络流用来处理3D骨架序列,另一个网络流处理2D图片,最后再将二者进行特征融合,以提高识别精度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明提出的3D骨架时间特征提取网络
图2是本发明提出的投影裁剪的图像预处理和扩增方法示意图。
图3是本发明提出的自注意力模块结构示意图。
图4是本发明提出大的骨架注意力生成方式示意图。
图5是本发明提出的双注意力网络的结构示意图。
图6是本发明提出的基于3D人体骨架和RGB图像融合的动作识别神经网络总体结构示意图。
图7是本发明提出的搭建整体的神经网络示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种基于人体骨架和图像融合的动作识别方法,包括:
时间特征提取步骤:输入3D人体骨架序列并利用骨架网络实现时间特征提取;
空间特征提取步骤:利用RGB图像使用双注意力神经网络实现空间特征提取;
特征融合步骤:将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。
具体地,所述时间特征提取步骤包括:
骨架序列获取步骤:使用微软的Kinect相机获得3D人体骨架序列,所述3D人体骨架序列包括人体关节点相对于相机的三维坐标;
骨架数据坐标转换步骤:对3D骨架序列进行坐标变换,即将坐标系的原点设置为动作序列第一帧中第一个人的脊柱点,将所有帧所有坐标的值都进行转换;
对训练集中的3D骨架序列进行旋转而扩增数据,获得旋转后的骨架数据,具体的旋转方法如公式(4)所示,将每一个关节点的坐标x,y,z乘上公式(4),就得到了旋转后的坐标,公式(1),(2),(3)中的α,β,γ,分别表示x,y,z轴沿顺时针方向的旋转角度,这里,α,β在0°至30°之间随机取值,γ取值为0,公式(1)至(4)如下所示:
Figure BDA0002324348600000061
Figure BDA0002324348600000062
Figure BDA0002324348600000063
R=Rz(γ)Ry(β)Rx(α) (4)
其中,
Rx(α)表示x方向的旋转矩阵;
Ry(β)表示y方向的旋转矩阵;
Rz(γ)表示z方向的旋转矩阵;
R表示旋转在三个方向上总的旋转矩阵;
骨架数据增强步骤:对旋转后的骨架数据通过尺度变换进行扩增,扩增方法如公式(5)所示,将每一个关节点的坐标x,y,z乘上公式(5),就得到了尺度变换后的坐标,将尺度因子sx,sy,sz在1至1.2之间随机取值,公式(5)如下所示:
Figure BDA0002324348600000064
其中
S表示下x,y,z三个方向的尺度因子矩阵
sx表示x方向的尺度因子;
sy表示y方向的尺度因子;
sy表示z方向的尺度因子;
多层LSTM识别神经网络的搭建步骤:搭建多层双向LSTM网络,用来处理骨架序列,记为骨架网络;
神经网络训练步骤:利用训练集训练骨架网络,训练后保存骨架网络权重,对于骨架网络的训练,优化器为Adam,学习率为1e-4,batch size=128,使用的损失函数为交叉熵损失函数,交叉熵损失函数的定义如公式(6)所示:
Figure BDA0002324348600000071
其中,
Loss表示网络的损失函数;
i为类别变量;
C代表数据集中动作的总类别;
yi为一个动作序列的真实标签;
pi为神经网络所预测的概率。
特征获取步骤:将3D人体骨架序列输入到训练后的骨架网络,获得骨架序列的时间特征。
具体地,所述空间特征提取步骤包括:
图片数据的投影裁剪和增强步骤:将3D骨架利用投影方程投影到2D平面上,找出人体骨架的位置和边框,裁剪出带有人体部分的原图像,再根据找出的人体骨架的边框,对原图像再进行裁剪,并对剪裁后的图像进行水平镜像翻转,扩充图像数据集,获得RGB图像;
自注意力模块的设计步骤:构建自注意力模块,提取自注意力特征,所述自注意力模块包括:1×1的卷积层、全局平均池化层以及线性变换层;
骨架注意力的生成步骤:根据以下公式计算骨架注意力:
jmax=max_index(||J1-Jmiddle||2)
其中,
jmax表示移动距离最大的关节点;
J1,Jmiddle分别代表第一帧和中间帧关节点的3D空间位置;
找出移动距离最大的关节点jmax之后,开始生成骨架注意力M;
骨架注意力特征提取步骤:用Xception网络提取出图片的特征图,将特征图与骨架注意力相乘之后,经过全局平均池化,再经过全连接层降低维度,全连接层的输出的特征即骨架注意力特征;
双注意力网络的融合步骤:令两个注意力模块分别同时接收RGB图像和3D骨架序列所生成的骨架注意力,并将输出特征进行拼接,获得骨架序列的空间特征;
双注意力网络的训练步骤:对于双注意力网络网络的训练,获得训练后的双注意力神经网络权重,训练的优化器为Adam,学习率为1e-4,batch size=128,使用的损失函数为交叉熵损失函数,交叉熵损失函数的定义如公式(6)所示。
具体地,所述特征融合步骤包括:
搭建特征融合网络;
根据获得的骨架网络权重和双注意力神经网络权重,开始训练特征融合网络,优化器为Adam,学习率为预设值,训练完毕后,用该训练完毕后的神经网络进行动作识别。
具体地,所述找出移动距离最大的关节点jmax之后,开始生成骨架注意力M指:
首先计算出骨架序列中第一帧到中间帧移动距离最大的关节点,如下公式所示:
jmax=max_index(||J1-Jmiddle||2)
其中,
J1,Jmiddle分别代表第一帧和中间帧关节点的3D空间位置;
分别计算每一个关节点的移动距离,即公式(3)至(5)中关节点间的欧式距离;max_index函数代表找出其中最大值的索引,也即找出移动距离最大的关节点;
找出移动距离最大的关节点jmax之后,开始生成骨架注意力M了;
M在最初是和输入图片有同样的尺寸的矩阵;
对于M矩阵中的取值,在jmax为中心的一个方框中,设Mp=1,其他位置设Mp=0,其中p代表M矩阵中每个像素点的位置;
生成的矩阵M即为注意力权重。
具体地,所述特征融合网络:RGB图片流RGB stream、骨架流skeleton stream以及特征融合模块;
对于骨架流,有三层Bi-LSTM,对于时间特征,提取最后一个Bi-LSTM层最后一个时间步所输出的特征,维度为B×F,其中B为batch size,F为特征维度,双向LSTM的隐藏单元为N个,所以F=2N;
对于图片流,首先利用xception的特征提取层提取出了特征图,然后利用双注意力网络,得到空间特征;
在得到时间特征和空间特征之后,特征融合模块将时间特征和空间特征进行拼接,拼接之后进行L2 norm归一化,最后送入全连接层和softmax层进行分类识别,Softmax层的输出即为识别结果。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的基于人体骨架和图像融合的动作识别方法的步骤。
下面通过优选例,对本发明进行更为具体地说明。
优选例1:
下面结合附图,对本发明提出的的基于3D人体骨架和RGB图像融合的动作识别神经网络识别方法进行详细说明:
如图1所示,在完成A1-A4步的预处理之后,每一个动作的骨架序列I变成了二维的矩阵。I∈RM×T,其中M代表骨架特征的维度M=J×3,J代表人物的关节点个数,T代表一个骨架序列的时间步数。
本发明所设计的骨架识别神经网络,是一个3层的循环神经网络,如图1所示,每个循环层之后都跟上了一个dropout层防止过拟合。本文对LSTM/双向LSTM/双向GRU的性能都进行了测试。其中每个循环层的隐藏单元为H,时间步为T。三层循环层后面是一个全连接层(Fully Connected layer),本文取最后一个循环层的最后一个时间步的输出,作为全连接层的输入特征。全连接层的参数维度为H×C,C为数据集中动作类别的个数。
网络的最后是一个softmax层。Softmax的表达式如下:
Figure BDA0002324348600000091
其中,z代表全连接层的输出特征,维度为C。通过公式可可以看出,softmax方程能将一个C维的向量压缩成一个0-1之间的数值,所有数值之和为1。在概率理论中,softmax的输出代表类别分布的概率。
通过softmax层的处理,我们可以将全连接层的输出能变成一个概率,即神经网络对输出个类别预测的概率。Softmax层的输出结果即为分类结果。
如图2所示,当知道3D骨架的三维空间坐标以及相机参数时,可以通过投影方程计算出人体的2D像素坐标。投影过后的2D像素坐标位置,如图2中间图片中的红色人体骨架所示。由图可知,人物在原始图片中很容易被定位出来。投影裁剪即表示通过投影出来的人物边框,对图片进行裁剪。
除了裁剪人体边框,本文还依此对图片数据集进行了扩增。设w和h分别为投影边框的宽和高。本文分别以边框的四个角为原点,按照宽和高分别为w+w′,h+h′依次对原始图片进行裁剪。这样,除了原始的人体边框图片,数据集中的图片又被扩增了4倍。本文又对裁剪过后的5张图片进行了镜像反转,这样图片数据集中的图片数量变成了原来的十倍。
如图3所示的自注意力模块的实现方法,本文首先取出Xception网络的最后一层特征图,然后再将特征图送入本文所提出的注意力模块。在输入图片为299×299时,Xception所输出的特征图尺寸为10×10×1280。特征图的宽和高均为10,通道数为1280。
自注意力模块如图3中的虚线框所示。图中的Conv1×1代表1×1的卷积层,Pool代表全局平均池化层,Linear代表线性变换层,输出维度为256,Concat代表拼接层。Conv1×1的输入为10×10×1280,输出为10×10×1。输出尺寸和特征图的尺寸相同,只不过通道数变成了1。Conv1×1的输出再经过一个sigmoid函数,就可以将值归一化到0-1之间。此时就得到了我们的注意力权重。注意力权重的参数共有10×10=100个,对应于特征图中的每个位置。
得到注意力权重后,再将之与特征图相乘,图3-6中的
Figure BDA0002324348600000101
代表每个对应位置的元素相乘。注意,本文所提出的注意力权重,对于特征图中同一个位置的所有通道都是相同的。经过相乘之后,特征图的尺寸不变,仍旧是10×10×1280。再通过Pool,即全局平均池化,得到一个1×1280的特征。然后再将这个特征送入线性变换层,线性变换层的输出维度为256。所以,线性变换层的参数个数为1280×256。
自注意力模块的具体表达式如公式(8)和公式(9)所示:
ei=Conv1D(ai),i=1,2…L (8)
αi=sigmoid(ei),i=1,2…L (9)
在公式8中,Conv1D代表1×1卷积,1×1卷积的输出就是本发明所谓的自注意力权重。对于唯一的输入ai,利用1×1的卷积核多层感知机由相同的功效。在公式9中,sigmoid函数被用来替代传统注意力模块中的softmax,sigmoid函数同样可以将注意力权重映射到0-1之间。
在公式(8)和公式(9)中,i仍然代表特征图中的不同位置,L=wf×hf,这里的wf和hf分别代表特征图的宽和高。
虚线框代表一个注意力模块。本文使用了两个注意力模块。每个注意力模块的输入为特征图,输出为一个256维的特征向量通过后面可视化可知,不同的注意力模块所关注的部位是不同的,因此要用到两个模块,这两个模块是并行的,输入相同都是Xception网络输出的特征图。将两个模块输出的用Concat层拼接,得到一个512维的特征向量。这个向量即为自注意力模块提取出来的特征向量。
如图4所示,本发明所提出的骨架注意力不同于自注意力或其他需要训练的注意力,它的生成是手工设定的。骨架注意力是作用于图片的注意力,但是需要依靠3D骨架的先验信息来生成。图4展示了骨架注意力生成的过程。
图4中t0代表第一帧的3D骨架信息,tm代表动作序列中间帧的骨架信息。骨架注意力具体的计算方式如公式10所示。首先要计算出第一帧到中间帧移动距离最大的关节点。J1,Jmiddle分别代表第一帧和中间帧关节点的3D空间位置。分别计算每一个关节点的移动距离,即公式3-5中关节点间的欧式距离。max_index函数代表找出其中最大值的索引,也就是找出移动距离最大的是哪个关节点。
jmax=max_index(||J1-Jmiddle||2) (10)
找出移动距离最大的关节点jmax之后,就可以开始生成骨架注意力M了。M在最初是和输入图片有同样的尺寸的矩阵,尺寸为299×299。对于M矩阵中的取值,在jmax为中心的一个方框中,设Mp=1,其他位置设Mp=0。方框的大小为80x80个像素大小。其中p代表M矩阵中每个像素点的位置。
在设置完M矩阵的取值后,最后将M的尺寸变换为wf×hf,也就是和Xception网络所提取的特征图相同的大小。在进行尺寸变换时,所采用的插值方式为双线性插值。在得到骨架注意力之后,就可以将之送入神经网络了。骨架注意力和神经网络的结合方式:首先,仍然是用Xception网络提取出图片的特征图。然后将骨架注意力与特征图相乘。与自注意力模块相比,可以发现二者的总体结构是相同的,都是利用注意力权重和特征图在每个像素位置上相乘。不同的是,自注意力的注意力权重是网络自己训练的,而骨架注意力的注意力权重是手工设定的。
如图5所示,双注意力网络有两个输入,一个是预处理过后的RGB图片(大小为299×299),另一个是3D骨架序列所生成的骨架注意力。两个注意力模块都能生成和特征图尺寸相同注意力权重,大小为10×10。这两种注意力权重都和特征图(10×10×1280)实现点对点的相乘。注意每种注意力权重只在空间位置上具有不同的值,在通道C=1280上是相同的。
特征图在与注意力权重相乘之后,分别经过全局平均池化,得到3个256维的向量,其中两个256维的模块是由自注意力模块生成的,另外一个256维的向量是由骨架注意力模块生成的。将这三个256维的向量拼接成一个768的向量。再送入全连接层和softmax层进行分类,softmax层的输出即为识别结果。
如图6所示,本文所提出的融合网络结构主要分为两个流以及一个特征融合部分。其中一个是RGB图片流(RGB stream),另一个是骨架流(skeleton stream)。其中RGB流用于提取空间上的特征(Spatial feature),而骨架网络流用于提取时间上的特征(Temporalfeature)。RGB流的输入为单张动作图片,骨架流的输入为多帧骨架序列。
对于时间特征,本文提取最后一个Bi-LSTM层最后一个时间步所输出的特征,维度为B×T,其中B为batch size。对于空间特征,本文利用了设计的双注意力网络,所提取的是双注意力模块输出后的融合特征。在得到时间特征和空间特征之后,本文将这两个特征进行了拼接。拼接之后进行了L2 norm归一化,最后送入全连接层和softmax层进行分类识别。
对于整个特征融合网络的训练,主要分以下三步:
1)RGB图片流网络训练:第一层至注意力模块前的网络层来自于原始的Xception网络,对于这部分网络参数载入Imagenet预训练的权重。利用图片训练整个注意力卷积网络,分类标签为该类动作的标签,训练好后保存权重。
2)骨架流网络训练:利用骨架序列直接训练整个骨架网络,分类标签为该骨架序列的工作类别,训练好后保存网络权重。
3)融合网络模块的训练:注意力网络部分,去掉最后一层全连接和softmax层,载入1)中提前训练好的权重。骨架网络部分,去掉最后一层全连接层和softmax层,载入2)中提前训练好的权重。固定以上两部分权重,同时输入两种数据,开始训练融合网络模块。训练完成。
优选例2:
本发明所要解决的问题在于克服3D骨架动作识别中缺乏物体信息的问题。3D骨架只有人体关节点,并没有人体的像素信息和与人交互的物体像素信息。所述方法通过利用自行设计的双注意网络流提取RGB图像中的空间特征,再与3D骨架进行融合,克服了这种缺点。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于3D人体骨架和RGB图像融合的动作识别方法,包括如下步骤:
步骤A,输入3D人体骨架序列利用骨架网络实现时间特征提取。人体骨架序列使用微软的Kinect相机获得,包含了人体25个关节点相对于相机的三维坐标。特征提取主要包括骨架数据坐标转换(步骤A-1,A-2)、骨架数据增强(步骤A-3)、多层LSTM识别神经网络的搭建(步骤A-5)、神经网络的训练(步骤A-6)。
步骤B,利用RGB图像使用双注意力神经网络实现空间特征提取,主要包括图片数据的投影裁剪和增强、自注意力模块的设计、骨架注意力的生成、双注意力网络的融合。
步骤C,将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。
步骤A中,利用多层双向LSTM网络实现时间特征提取,包括步骤如下:
步骤A-1,对3D骨架序列进行坐标变换,即将坐标系的原点设置为动作序列第一帧中第一个人的脊柱(torso)点,将所有帧所有坐标的值都进行转换。
步骤A-2,对训练集中的3D骨架序列进行旋转而扩增数据,具体的旋转方法如公式(4)所示。将每一个关节点的坐标x,y,z乘上公式(4),就得到了旋转后的坐标。公式(1),(2),(3)中的α,β,γ,分别表示x,y,z轴沿顺时针方向的旋转角度,再这里,α,β在0至30°之间随机取值。γ取值为0。
Figure BDA0002324348600000131
Figure BDA0002324348600000132
Figure BDA0002324348600000133
R=Rz(γ)Ry(β)Rx(α) (4)
其中,
Rx(α)表示x方向的旋转矩阵
Ry(β)表示y方向的旋转矩阵
Rz(γ)表示z方向的旋转矩阵
R表示旋转在三个方向上总的旋转矩阵
步骤A-3,对旋转过后的骨架数据通过尺度变换进行扩增,扩增方法如公式(5)所示,将每一个关节点的坐标x,y,z乘上公式(5),就得到了尺度变换后的坐标,将尺度因子也sx,sy,sz在1至1.2之间随机取值。
Figure BDA0002324348600000134
其中
S表示下x,y,z三个方向的尺度因子矩阵
sx表示x方向的尺度因子;
sy表示y方向的尺度因子;
sy表示z方向的尺度因子;
步骤A-4,对3D骨架序列再时间步上进行降采样。因为所截取的动作视频是变长的,而网络的输入要求定长,所以将动作序列降采样为T。
步骤A-5,搭建多层双向LSTM网络,用来处理骨架序列,本发明称之为骨架网络。骨架网络的具体结构如附图1所示。
步骤A-6,利用训练集训练骨架网络,保存权重。对于骨架网络的训练,优化器为Adam,学习率为1e-4,batch size=128本发明所使用的损失函数为交叉熵损失函数,交叉熵损失函数的定义如公式所示:
Figure BDA0002324348600000141
Loss表示网络的损失函数
i为类别变量,
C代表数据集中动作的总类别,
yi为一个动作序列的真实标签,
pi为神经网络所预测的概率。
步骤A-7,当骨架网络训练完毕之后,将全连接层之前的输出结果保存下来,此结果即为骨架序列的时间特征。
步骤B中,输入RGB图像使用双注意力神经网络实现空间特征提取,包括步骤如下:
步骤B-1,将3D骨架利用投影方程投影到2D平面上,找出人体骨架的位置和边框,裁剪出带有人体的那一部分图像,如附图2所示;
步骤B-2,利用B-1中找到的人体边框,分别以四个边框为顶点对原图像再进行裁剪,这样就得到了5张图片,并对这5张图片进行水平镜像翻转,图像数据集被扩充了十倍,如附图2所示;
步骤B-3,构建自注意力模块,提取自注意力特征,如附图3虚线框中所示;
步骤B-4,骨架注意力生成,骨架注意力的生成需要图片和骨架两种数据,如附图4所示;
步骤B-5,提取骨架注意力特征,骨架注意力就相当于代替了自注意力模块中的Conv1×1的输出结果。在特征图与骨架注意力相乘之后,经过全局平均池化“Pool”,得到一个1×1×1280维的向量。再经过全连接层降低维度,全连接层的输出为256维了,这256维的特征就是骨架注意力特征。
步骤B-6,双注意力网络的合并。合并方式即两个注意力网络同时接收输入,并将输出特征进行拼接。如附图5所示;
步骤B-7,双注意力网络的训练,仍然利用公式(6)的交叉熵损失函数,优化器为Adam,学习率为1e-4,batch size=128,保存权重。
步骤C,将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合,包括步骤如下:
步骤C-1,搭建整体的神经网络示意图,如附图6所示;
本文所提出的融合网络结构主要分为两个流以及一个特征融合部分。其中一个是RGB图片流(RGB stream),另一个是骨架流(skeleton stream)。其中RGB流的输入为单张动作图片,骨架流的输入为多帧骨架序列。
对于骨架流,如图7所示,有三层Bi-LSTM,其中Bi-LSTM是已有的发明,叫做双向长短时神经网络层。对于时间特征,本文提取最后一个Bi-LSTM层最后一个时间步所输出的特征,维度为B×F,其中B为batch size,F为特征维度,双向LSTM的隐藏单元为300个,所以F=600。
对于图片流,本文首先利用xception的特征提取层提取出了特征图。Xception是已有发明。然后利用了图五所示的双注意力网络,得到空间特征。
在得到时间特征和空间特征之后,本文将这两个特征进行了拼接。拼接之后进行了L2 norm归一化,最后送入全连接层和softmax层进行分类识别。Softmax层的输出即为识别结果。
步骤C-2,载入A-6和B-7中训练的两个神经网络的部分权重,开始训练整体神经网络,优化器为Adam,学习率为1e-4,batch size=16(可根据运行环境适当调整),训练完毕,即可用该神经网络进行动作识别。
本发明的有益效果是:本发明提出的于3D人体骨架和RGB图像融合的动作识别神经网络,旨在解决3D骨架动作识别中缺乏物体以及像素信息的问题。基于3D骨架的动作识别技术因为维度小,所以运算速度很快。但3D骨架缺乏细节的RGB像素信息,包括人物的肢体以及与人交互的物体信息。在相似的动作中,仅用3D骨架进行动作识别容易引起混淆。为了解决这个问题,使3D动作识别精度更高、更加稳定,本文提出了一个融合3D骨架信息和RGB图片信息的深度神经网络模型。该模型分为两个流,一个网络流用来处理3D骨架序列,另一个网络流处理2D图片,最后再将二者进行特征融合,以提高识别精度。
优选例3:
一种基于3D人体骨架和RGB图像融合的动作识别方法,包括如下步骤:
步骤A,输入3D人体骨架序列利用多层双向LSTM网络实现时间特征提取,主要包括骨架数据坐标转换、骨架数据增强、多层LSTM识别神经网络的搭建、神经网络的训练。
步骤B,利用RGB图像使用双注意力神经网络实现空间特征提取,主要包括图片数据的投影裁剪和增强、自注意力模块的设计、骨架注意力的生成、双注意力网络的融合。
步骤C,将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。
步骤A中,所述的骨架动作识别网络的预处理、搭建和训练,包括步骤如下:
步骤A-1,对3D骨架序列进行坐标变换,即将坐标系的原点设置为动作序列第一帧中第一个人的脊柱(torso)点,将所有帧所有坐标的值都进行转换。
步骤A-2,对训练集中的3D骨架序列进行旋转而扩增数据,具体的旋转方法如公式(4)所示。将每一个关节点的坐标x,y,z乘上公式(4),就得到了旋转后的坐标。公式(1),(2),(3)中的α,β,γ,分别表示x,y,z轴沿顺时针方向的旋转角度,再这里,α,β再0-30°之间随机取值。
Figure BDA0002324348600000161
Figure BDA0002324348600000162
Figure BDA0002324348600000163
4.R=Rz(γ)Ry(β)Rx(α) (4)
步骤A-3,对旋转过后的骨架数据通过尺度变换进行扩增,扩增方法如公式(5)所示,将每一个关节点的坐标x,y,z乘上公式(5),就得到了尺度变换后的坐标,将尺度因子也sx,sy再1-1.2之间随机取值。
Figure BDA0002324348600000164
步骤A-4,对3D骨架序列再时间步上进行降采样。因为所截取的动作视频是变长的,而网络的输入要求定长,所以将动作序列降采样为T。
步骤A-5,搭建多层双向LSTM网络,用来处理骨架序列,本发明称之为骨架网络。骨架网络的具体结构如附图1所示。
步骤A-6,利用训练集训练骨架网络,保存权重。对于骨架网络的训练,优化器为Adam,学习率为1e-4,batch size=128本发明所使用的损失函数为交叉熵损失函数,交叉熵损失函数的定义如公式所示:
Figure BDA0002324348600000165
公式中,i为类别变量,C代表数据集中动作的总类别,yi为一个动作序列的真实标签,pi为神经网络所预测的概率。
步骤B中,输入RGB图像使用双注意力神经网络实现空间特征提取,包括步骤如下:
步骤B-1,将3D骨架利用投影方程投影到2D平面上,找出人体骨架的位置和边框,裁剪出带有人体的那一部分图像,如附图2所示;
步骤B-2,利用B-1中找到的人体边框,分别以四个边框为顶点对原图像再进行裁剪,这样就得到了5张图片,并对这5张图片进行水平镜像翻转,图像数据集被扩充了十倍,如附图2所示;
步骤B-3,构建自注意力模块,提取自注意力特征,如附图3所示;
步骤B-4,骨架注意力生成,骨架注意力的生成需要图片和骨架两种数据,如附图4所示;
步骤B-5,提取骨架注意力特征,骨架注意力就相当于代替了自注意力模块中的Conv1×1的输出结果。在特征图与骨架注意力相乘之后,经过全局平均池化“Pool”,得到一个1×1×1280维的向量。再经过全连接层降低维度,全连接层的输出为256维了,这256维的特征就是骨架注意力特征。
步骤B-6,双注意力网络的合并,如附图5所示;
步骤B-7,双注意力网络的训练,仍然利用公式(6)的交叉熵损失函数,优化器为Adam,学习率为1e-4,batch size=128,保存权重。
步骤C,将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合,包括步骤如下:
步骤C-1,搭建整体的神经网络示意图,如附图7所示;
步骤C-2,载入A-6和B-7中训练的两个神经网络的部分权重,开始训练整体神经网络,优化器为Adam,学习率为1e-4,batch size=16(可根据运行环境适当调整),训练完毕,即可用该神经网络进行动作识别。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (7)

1.一种基于人体骨架和图像融合的动作识别方法,其特征在于,包括:
时间特征提取步骤:输入3D人体骨架序列并利用骨架网络实现时间特征提取;
空间特征提取步骤:利用RGB图像使用双注意力神经网络实现空间特征提取;
特征融合步骤:将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。
2.根据权利要求1所述的基于人体骨架和图像融合的动作识别方法,其特征在于,所述时间特征提取步骤包括:
骨架序列获取步骤:使用微软的Kinect相机获得3D人体骨架序列,所述3D人体骨架序列包括人体关节点相对于相机的三维坐标;
骨架数据坐标转换步骤:对3D骨架序列进行坐标变换,即将坐标系的原点设置为动作序列第一帧中第一个人的脊柱点,将所有帧所有坐标的值都进行转换;
对训练集中的3D骨架序列进行旋转而扩增数据,获得旋转后的骨架数据,具体的旋转方法如公式(4)所示,将每一个关节点的坐标x,y,z乘上公式(4),就得到了旋转后的坐标,公式(1),(2),(3)中的α,β,γ,分别表示x,y,z轴沿顺时针方向的旋转角度,这里,α,β在0°至30°之间随机取值,γ取值为0,公式(1)至(4)如下所示:
Figure FDA0002324348590000011
Figure FDA0002324348590000012
Figure FDA0002324348590000013
R=Rz(γ)Ry(β)Rx(α) (4)
其中,
Rx(α)表示x方向的旋转矩阵;
Ry(β)表示y方向的旋转矩阵;
Rz(γ)表示z方向的旋转矩阵;
R表示旋转在三个方向上总的旋转矩阵;
骨架数据增强步骤:对旋转后的骨架数据通过尺度变换进行扩增,扩增方法如公式(5)所示,将每一个关节点的坐标x,y,z乘上公式(5),就得到了尺度变换后的坐标,将尺度因子sx,sy,sz在1至1.2之间随机取值,公式(5)如下所示:
Figure FDA0002324348590000021
其中
S表示下x,y,z三个方向的尺度因子矩阵
sx表示x方向的尺度因子;
sy表示y方向的尺度因子;
sy表示z方向的尺度因子;
多层LSTM识别神经网络的搭建步骤:搭建多层双向LSTM网络,用来处理骨架序列,记为骨架网络;
神经网络训练步骤:利用训练集训练骨架网络,训练后保存骨架网络权重,对于骨架网络的训练,优化器为Adam,学习率为1e-4,batch size=128,使用的损失函数为交叉熵损失函数,交叉熵损失函数的定义如公式(6)所示:
Figure FDA0002324348590000022
其中,
Loss表示网络的损失函数;
i为类别变量;
C代表数据集中动作的总类别;
yi为一个动作序列的真实标签;
pi为神经网络所预测的概率。
特征获取步骤:将3D人体骨架序列输入到训练后的骨架网络,获得骨架序列的时间特征。
3.根据权利要求2所述的基于人体骨架和图像融合的动作识别方法,其特征在于,所述空间特征提取步骤包括:
图片数据的投影裁剪和增强步骤:将3D骨架利用投影方程投影到2D平面上,找出人体骨架的位置和边框,裁剪出带有人体部分的原图像,再根据找出的人体骨架的边框,对原图像再进行裁剪,并对剪裁后的图像进行水平镜像翻转,扩充图像数据集,获得RGB图像;
自注意力模块的设计步骤:构建自注意力模块,提取自注意力特征,所述自注意力模块包括:1×1的卷积层、全局平均池化层以及线性变换层;
骨架注意力的生成步骤:根据以下公式计算骨架注意力:
jmax=max_index(||J1-Jmiddle||2)
其中,
jmax表示移动距离最大的关节点;
J1,Jmiddle分别代表第一帧和中间帧关节点的3D空间位置;
找出移动距离最大的关节点jmax之后,开始生成骨架注意力M;
骨架注意力特征提取步骤:用Xception网络提取出图片的特征图,将特征图与骨架注意力相乘之后,经过全局平均池化,再经过全连接层降低维度,全连接层的输出的特征即骨架注意力特征;
双注意力网络的融合步骤:令两个注意力模块分别同时接收RGB图像和3D骨架序列所生成的骨架注意力,并将输出特征进行拼接,获得骨架序列的空间特征;
双注意力网络的训练步骤:对于双注意力网络网络的训练,获得训练后的双注意力神经网络权重,训练的优化器为Adam,学习率为1e-4,batch size=128,使用的损失函数为交叉熵损失函数,交叉熵损失函数的定义如公式(6)所示。
4.根据权利要求3所述的基于人体骨架和图像融合的动作识别方法,其特征在于,所述特征融合步骤包括:
搭建特征融合网络;
根据获得的骨架网络权重和双注意力神经网络权重,开始训练特征融合网络,优化器为Adam,学习率为预设值,训练完毕后,用该训练完毕后的神经网络进行动作识别。
5.根据权利要求3所述的基于人体骨架和图像融合的动作识别方法,其特征在于,所述找出移动距离最大的关节点jmax之后,开始生成骨架注意力M指:
首先计算出骨架序列中第一帧到中间帧移动距离最大的关节点,如下公式所示:
jmax=max_index(||J1-Jmiddle||2)
其中,
J1,Jmiddle分别代表第一帧和中间帧关节点的3D空间位置;
分别计算每一个关节点的移动距离,即公式(3)至(5)中关节点间的欧式距离;max_index函数代表找出其中最大值的索引,也即找出移动距离最大的关节点;
找出移动距离最大的关节点jmax之后,开始生成骨架注意力M了;
M在最初是和输入图片有同样的尺寸的矩阵;
对于M矩阵中的取值,在jmax为中心的一个方框中,设Mp=1,其他位置设Mp=0,其中p代表M矩阵中每个像素点的位置;
生成的矩阵M即为注意力权重。
6.根据权利要求4所述的基于人体骨架和图像融合的动作识别方法,其特征在于,所述特征融合网络:RGB图片流RGB stream、骨架流skeleton stream以及特征融合模块;
对于骨架流,有三层Bi-LSTM,对于时间特征,提取最后一个Bi-LSTM层最后一个时间步所输出的特征,维度为B×F,其中B为batch size,F为特征维度,双向LSTM的隐藏单元为N个,所以F=2N;
对于图片流,首先利用xception的特征提取层提取出了特征图,然后利用双注意力网络,得到空间特征;
在得到时间特征和空间特征之后,特征融合模块将时间特征和空间特征进行拼接,拼接之后进行L2 norm归一化,最后送入全连接层和softmax层进行分类识别,Softmax层的输出即为识别结果。
7.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于人体骨架和图像融合的动作识别方法的步骤。
CN201911310343.7A 2019-12-18 2019-12-18 基于人体骨架和图像融合的动作识别方法 Active CN111160164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911310343.7A CN111160164B (zh) 2019-12-18 2019-12-18 基于人体骨架和图像融合的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911310343.7A CN111160164B (zh) 2019-12-18 2019-12-18 基于人体骨架和图像融合的动作识别方法

Publications (2)

Publication Number Publication Date
CN111160164A true CN111160164A (zh) 2020-05-15
CN111160164B CN111160164B (zh) 2023-08-22

Family

ID=70557759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911310343.7A Active CN111160164B (zh) 2019-12-18 2019-12-18 基于人体骨架和图像融合的动作识别方法

Country Status (1)

Country Link
CN (1) CN111160164B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967379A (zh) * 2020-08-14 2020-11-20 西北工业大学 一种基于rgb视频和骨架序列的人体行为识别方法
CN112906604A (zh) * 2021-03-03 2021-06-04 安徽省科亿信息科技有限公司 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统
CN113139432A (zh) * 2021-03-25 2021-07-20 杭州电子科技大学 基于人体骨架和局部图像的工业包装行为识别方法
CN113158782A (zh) * 2021-03-10 2021-07-23 浙江工业大学 基于单帧图像的多人并发交互行为理解方法
CN113196289A (zh) * 2020-07-02 2021-07-30 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN113239819A (zh) * 2021-05-18 2021-08-10 西安电子科技大学广州研究院 一种基于视角归一化的骨架行为识别方法、装置及设备
CN113466852A (zh) * 2021-06-08 2021-10-01 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN113903083A (zh) * 2021-12-13 2022-01-07 中科视语(北京)科技有限公司 行为识别方法、装置、电子设备以及存储介质
CN114937285A (zh) * 2022-05-25 2022-08-23 兰州大学 动态手势识别方法、装置、设备及存储介质
CN116152519A (zh) * 2023-04-17 2023-05-23 深圳金三立视频科技股份有限公司 一种基于图像的特征提取方法及设备
CN116434335A (zh) * 2023-03-30 2023-07-14 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260951A1 (en) * 2017-03-08 2018-09-13 Siemens Healthcare Gmbh Deep Image-to-Image Recurrent Network with Shape Basis for Automatic Vertebra Labeling in Large-Scale 3D CT Volumes
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260951A1 (en) * 2017-03-08 2018-09-13 Siemens Healthcare Gmbh Deep Image-to-Image Recurrent Network with Shape Basis for Automatic Vertebra Labeling in Large-Scale 3D CT Volumes
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法
CN110532861A (zh) * 2019-07-18 2019-12-03 西安电子科技大学 基于骨架引导多模态融合神经网络的行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUIYU LIU,ET AL: "Action Recognition Based on 3D Skeleton and RGB Frame Fusion" *
田曼;张艺;: "多模型融合动作识别研究" *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113196289A (zh) * 2020-07-02 2021-07-30 浙江大学 人体动作识别方法、人体动作识别系统及设备
WO2022000420A1 (zh) * 2020-07-02 2022-01-06 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN111967379A (zh) * 2020-08-14 2020-11-20 西北工业大学 一种基于rgb视频和骨架序列的人体行为识别方法
CN112906604A (zh) * 2021-03-03 2021-06-04 安徽省科亿信息科技有限公司 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统
CN112906604B (zh) * 2021-03-03 2024-02-20 安徽省科亿信息科技有限公司 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统
CN113158782A (zh) * 2021-03-10 2021-07-23 浙江工业大学 基于单帧图像的多人并发交互行为理解方法
CN113158782B (zh) * 2021-03-10 2024-03-26 浙江工业大学 基于单帧图像的多人并发交互行为理解方法
CN113139432A (zh) * 2021-03-25 2021-07-20 杭州电子科技大学 基于人体骨架和局部图像的工业包装行为识别方法
CN113139432B (zh) * 2021-03-25 2024-02-06 杭州电子科技大学 基于人体骨架和局部图像的工业包装行为识别方法
CN113239819A (zh) * 2021-05-18 2021-08-10 西安电子科技大学广州研究院 一种基于视角归一化的骨架行为识别方法、装置及设备
CN113239819B (zh) * 2021-05-18 2022-05-03 西安电子科技大学广州研究院 一种基于视角归一化的骨架行为识别方法、装置及设备
CN113466852B (zh) * 2021-06-08 2023-11-24 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN113466852A (zh) * 2021-06-08 2021-10-01 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN113903083A (zh) * 2021-12-13 2022-01-07 中科视语(北京)科技有限公司 行为识别方法、装置、电子设备以及存储介质
CN114937285B (zh) * 2022-05-25 2023-04-07 兰州大学 动态手势识别方法、装置、设备及存储介质
CN114937285A (zh) * 2022-05-25 2022-08-23 兰州大学 动态手势识别方法、装置、设备及存储介质
CN116434335A (zh) * 2023-03-30 2023-07-14 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质
CN116152519A (zh) * 2023-04-17 2023-05-23 深圳金三立视频科技股份有限公司 一种基于图像的特征提取方法及设备
CN116152519B (zh) * 2023-04-17 2023-08-15 深圳金三立视频科技股份有限公司 一种基于图像的特征提取方法及设备

Also Published As

Publication number Publication date
CN111160164B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111160164B (zh) 基于人体骨架和图像融合的动作识别方法
CN110458939B (zh) 基于视角生成的室内场景建模方法
Liu et al. Multi-view hierarchical bidirectional recurrent neural network for depth video sequence based action recognition
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
Yang et al. A multi-task Faster R-CNN method for 3D vehicle detection based on a single image
CN107204010A (zh) 一种单目图像深度估计方法与系统
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN110109535A (zh) 增强现实生成方法及装置
CN111311729A (zh) 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
Huang et al. Joint representation learning for text and 3D point cloud
CN111311732B (zh) 3d人体网格获取方法及装置
Tang et al. A small object detection algorithm based on improved faster RCNN
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Shen et al. ImLiDAR: cross-sensor dynamic message propagation network for 3D object detection
CN111611869A (zh) 一种基于串行深度神经网络的端到端单目视觉避障方法
Chang et al. Multi-view 3d human pose estimation with self-supervised learning
Li et al. Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems
CN116524111B (zh) 一种航天员在轨支持按需轻量场景重建方法及系统
Song et al. Spatial-Aware Dynamic Lightweight Self-Supervised Monocular Depth Estimation
Su et al. Omnidirectional Depth Estimation With Hierarchical Deep Network for Multi-Fisheye Navigation Systems
Zhang et al. Cross-Dimensional Feature Fusion MLP Model for Human Behavior Recognition.
An et al. Generating infrared image from visible image using Generative Adversarial Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant