CN110532861B - 基于骨架引导多模态融合神经网络的行为识别方法 - Google Patents

基于骨架引导多模态融合神经网络的行为识别方法 Download PDF

Info

Publication number
CN110532861B
CN110532861B CN201910650238.1A CN201910650238A CN110532861B CN 110532861 B CN110532861 B CN 110532861B CN 201910650238 A CN201910650238 A CN 201910650238A CN 110532861 B CN110532861 B CN 110532861B
Authority
CN
China
Prior art keywords
layer
skeleton
neural network
convolution
fusion neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910650238.1A
Other languages
English (en)
Other versions
CN110532861A (zh
Inventor
谢雪梅
曹玉晗
潘庆哲
李佳楠
赵至夫
石光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910650238.1A priority Critical patent/CN110532861B/zh
Publication of CN110532861A publication Critical patent/CN110532861A/zh
Application granted granted Critical
Publication of CN110532861B publication Critical patent/CN110532861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于骨架引导多模态融合神经网络的行为识别方法。其步骤为:(1)构建RGB图像特征提取网络;(2)构建骨架特征提取网络;(3)构造特征引导模块;(4)构建融合模块;(5)搭建骨架引导多模态融合神经网络;(6)训练骨架引导多模态融合神经网络;(7)识别视频中的人体行为;本发明采用骨架引导多模态融合神经网络,用于识别相机拍摄到的视频中的人体行为,能够有效解决现有技术彻底分离了同一视频信号的不同特征进而不能准确的表示视频特征的问题,本发明具有能准确表示视频特征,对视频中人体行为识别精确的优点。

Description

基于骨架引导多模态融合神经网络的行为识别方法
技术领域
本发明属于视频处理技术领域,更进一步涉及模式识别技术领域中的一种基于骨架引导多模态融合神经网络的行为识别方法。本发明可用于对视频影像中的人体行为进行识别。
背景技术
多种模态融合的行为识别方法是将RGB图像、光流图像或骨架序列数据等不同模态融合起来的一种行为识别方法。目前多模态行为识别方法有两种实现方式:一种方法是分别提取不同模态数据特征,并使用后期融合方案来汇总两种模态的信息做最终分类预测;另一种方法是在输入层级对不同数据模态进行融合处理或相关性处理,再对处理后的数据进行特征提取和分类预测。其中RGB图像有着易获取,数据量大的特点。而骨架序列数据,具有存储量少,对环境因素的变化鲁棒性较强的特点,并且骨架数据是对人体特征的高度抽象,可以很好适用于人体行为识别。
西北大学在其申请的专利文献“一种基于多种信息流特征和异步融合的视频行为识别方法”(专利申请号CN201910043963,公开号CN109858407A)中公开了一种多模态融合的行为识别方法。该方法通过提取视频图像中的人体行为的外观流、动作流与关节点信息流三种不同的视频信息流,利用粗到细网络对三种信息流分别进行特征提取和特征细化,提取后的特征利用五单元LSTM进行异步融合,对融合后的特征进行分类。该方法存在的不足之处是:由于该方法利用粗到细网络对三种信息流分别进行特征提取和特征细化,这种分别进行的特征提取彻底分离了同一视频信号的不同特征,因此不能准确的表示视频特征,使得利用视频特征差别性对视频图像中的人体行为进行识别的准确性下降。
Jianfang Hu在其发表的论文“Deep bilinear learning for RGB-D actionrecognition.”(Proceedings of the European Conference on Compute Vision(ECCV),2018,pp.335–351.)中提出一种多模态的行为识别的方法。该方法基于视频图像中人体行为的三维骨架序列数据和RGB图像模态,利用深度神经网络实现行为识别。在输入深度神经网络之前利用骨架数据中人体关节点的位置信息对RGB图像进行区域选择,将所选区域图像作为真正的网络输入对其进行特征提取和识别。该方法存在的不足是:在输入深度神经网络之前利用骨架数据中人体关节点的位置信息对RGB图像进行区域选择,此时的RGB图像是低语义层级的而骨架序列是高语义层级的,因此在此处的交互是在不对等的语义层级下进行的,在输入数据时融合不对等的语义层级数据导致了输入信息混乱,无法实现对视频图像中人体行为的识别。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于骨架引导多模态融合神经网络的行为识别方法,解决现有方法中彻底分离了同一视频信号的不同特征,不能准确的表示视频特征的问题。
本发明的技术思路是,构建特征提取网络对不同视频信号分别进行特征提取得到同一视频信号的不同特征,构建特征引导模块整合同一视频信号的不同特征,作为最终准确的视频信号特征表示,对视频中的人体行为进行识别。
本发明的实现的具体步骤如下:
(1)构建RGB图像特征提取网络:
(1a)搭建一个7层的RGB图像特征提取网络,其结构依次为:输入卷积层,第一残差卷积层,第二残差卷积层,第三残差卷积层,第四残差卷积层,全局平均池化层,全连接层;
(1b)设置RGB图像特征提取网络各层参数如下:
将输入卷积层的空间卷积核大小设置为1×7×7,卷积步长[1,1],时间卷积核大小设置为3×1×1,卷积步长为1,卷积核数量均设置为64;
将四个残差卷积层的空间卷积核大小均设置为1×3×3,卷积步长均设置为[1,1],时间卷积核大小均设置为3×1×1,卷积步长均设置为1,卷积核数量依次设置为64,128,256,512;
将全连接层的输出神经元个数设置为60个;
(2)构建骨架特征提取网络:
(2a)搭建一个12层的骨架特征提取网络,其结构依次为:输入卷积层,第一卷积层,第二卷积层,第三卷积层,第四卷积层,第五卷积层,第六卷积层,第七卷积层,第八卷积层,第图卷积层,全局平均池化层,全连接层;
(2b)设置骨架特征提取网络各层参数如下:
将输入卷积层的空间卷积核大小设置为1×1,卷积步长1,时间卷积核大小设置为9×1,卷积步长为1,空间和时间卷积核数量相同,均设置为64;
将九个卷积层的空间卷积核大小均设置为1×1,卷积步长均为1,时间卷积核大小均设置为9×1,卷积步长依次设为1,1,1,2,1,1,2,1,1,每层的空间和时间卷积核数量保持一致,依次设置为64,64,64,128,128,128,256,256,256;
将全连接层的输出神经元个数设置为60个;
(3)构造特征引导模块:
搭建一个由紧凑双线性池化层和全连接层组成的特征引导模块,将紧凑双线性池化层的输出维度设置为1024,全连接层的输出神经元个数设置为512;
(4)构建融合模块:
搭建3层的融合模块,结构依次为:concat层,第一全连接层,第二全连接层;其中,concat层的拼接维度设置为512,第一全连接层的输出神经元个数设置为512,第二全连接层的输出神经元个数设置为60;
(5)搭建骨架引导多模态融合神经网络:
将RGB图像特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接,特征引导模块的全连接层与融合模块的concat层连接,骨架特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接,骨架特征提取网络的全连接层与特征融合模块的concat层连接后组成骨架引导多模态融合神经网络;
(6)训练骨架引导多模态融合神经网络:
(6a)在数据集中选择至少40000个视频样本组成训练集,所选的每个视频样本的数据包括视频的RGB图像数据,以及与该视频样本对应的视频中人体骨架数据和人体动作类别的标签值;
(6b)将训练集的数据输入到骨架引导多模态融合神经网络中,用梯度下降法,更新骨架引导多模态融合神经网络的各层参数,将更新后的参数值赋值给骨架引导多模态融合神经网络的各层参数,得到训练好的骨架引导多模态融合神经网络;
(7)对视频中的人体行为进行识别:
(7a)使用相机采集至少16张RGB图像,每张图像均含有待识别的人体行为,并利用骨架姿态估计工具,提取每张RGB图像的人体骨架序列;
(7b)将每张RGB图像裁剪为112×112大小,按人体骨架序列中的15个人体关键点及每个人体关键点所处位置对应的3个坐标值,将每个一维长度为45的人体骨架序列扩维成3×15大小;
(7c)将16张RGB图像和每张RGB图像的人体骨架序列输入到训练好的骨架引导多模态融合神经网络,输出对这16张RGB图像组成的人体行为的识别结果。
与现有技术相比,本发明具有以下优点:
第一,本发明构建了特征引导模块,使用一个模态的视频特征引导另一个模态视频特征的学习,克服了现有技术中彻底分离了同一视频信号的不同特征进而不能准确的表示视频特征,导致利用视频特征差别性对视频图像中的人体行为进行识别的准确性下降的问题,使得本发明对视频中的人体行为实现更好的识别效果。
第二,本发明搭建骨架引导多模态融合神经网络,克服了在输入数据时融合不对等的语义层级数据导致了输入信息混乱,无法实现对视频图像中人体行为的识别问题,使得本发明能够对在骨架数据的引导下进行不同输入信息的融合,在融合的同时保证信号的清晰和有效的表达能力。
附图说明
图1为本发明的流程图;
图2为本发明的人体骨架结构示意图。
具体实施方式
下面结合附图对本发明进行详细说明。
参照图1,对本发明的实现步骤做进一步的描述。
步骤1,构建RGB图像特征提取网络。
搭建一个7层的RGB图像特征提取网络,其结构依次为:输入卷积层,第一残差卷积层,第二残差卷积层,第三残差卷积层,第四残差卷积层,全局平均池化层,全连接层。
设置RGB图像特征提取网络各层参数如下:
将输入卷积层的空间卷积核大小设置为1×7×7,卷积步长[1,1],时间卷积核大小设置为3×1×1,卷积步长为1,卷积核数量均设置为64。
将四个残差卷积层的空间卷积核大小均设置为1×3×3,卷积步长均设置为[1,1],时间卷积核大小均设置为3×1×1,卷积步长均设置为1,卷积核数量依次设置为64,128,256,512。
将全连接层的输出神经元个数设置为60个。
步骤2,构建骨架特征提取网络。
搭建一个12层的骨架特征提取网络,其结构依次为:输入卷积层,第一卷积层,第二卷积层,第三卷积层,第四卷积层,第五卷积层,第六卷积层,第七卷积层,第八卷积层,第九卷积层,全局平均池化层,全连接层。
设置骨架特征提取网络各层参数如下:
将输入卷积层的空间卷积核大小设置为1×1,卷积步长1,时间卷积核大小设置为9×1,卷积步长为1,空间和时间卷积核数量相同,均设置为64。
将九个卷积层的空间卷积核大小均设置为1×1,卷积步长均为1,时间卷积核大小均设置为9×1,卷积步长依次设为1,1,1,2,1,1,2,1,1,每层的空间和时间卷积核数量保持一致,依次设置为64,64,64,128,128,128,256,256,256。
将全连接层的输出神经元个数设置为60个。
步骤3,构造特征引导模块。
搭建一个由紧凑双线性池化层和全连接层组成的特征引导模块,将紧凑双线性池化层的输出维度设置为1024,全连接层的输出神经元个数设置为512。
步骤4,构建融合模块。
搭建3层的融合模块,结构依次为:concat层,第一全连接层,第二全连接层;其中,concat层的拼接维度设置为512,第一全连接层的输出神经元个数设置为512,第二全连接层的输出神经元个数设置为60。
步骤5,搭建骨架引导多模态融合神经网络。
将RGB图像特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接,特征引导模块的全连接层与融合模块的concat层连接,骨架特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接,骨架特征提取网络的全连接层与特征融合模块的concat层连接后组成骨架引导多模态融合神经网络。
步骤6,训练骨架引导多模态融合神经网络。
在数据集中选择至少40000个视频样本组成训练集,所选的每个视频样本的数据包括视频的RGB图像数据,以及与该视频样本对应的视频中人体骨架数据和人体动作类别的标签值。
将训练集的数据输入到骨架引导多模态融合神经网络中,用梯度下降法更新骨架引导多模态融合神经网络的各层参数,将更新后的参数值赋值给骨架引导多模态融合神经网络的各层参数,得到训练好的骨架引导多模态融合神经网络。
所述的用梯度下降法更新骨架引导多模态融合神经网络的各层参数的步骤如下:
第1步,将骨架引导多模态融合神经网络的学习率设置为0.001。
第2步,将骨架引导多模态融合神经网络的输出值与视频样本中人体动作类别的标签值作为梯度值。
第3步,利用下式,更新骨架引导多模态融合神经网络的各层参数:
Figure GDA0002753496810000061
其中,
Figure GDA0002753496810000062
表示更新后的骨架引导多模态融合神经网络的参数值,←表示赋值操作,θ表示骨架引导多模态融合神经网络更新前的参数值,▽J表示骨架引导多模态融合神经网络的梯度值。
步骤7,对视频中的人体行为进行识别。
使用相机采集至少16张RGB图像,每张图像均含有待识别的人体行为,并利用骨架姿态估计工具,提取每张RGB图像的人体骨架序列。
所述人体骨架序列是指,将每张RGB图像中描述人体姿态的15个人体关键点所处位置对应的坐标值排成一列组成的人体骨架序列来表示人体骨架结构如图2所示。
图2中的黑色圆圈表示组成人体骨架的关键点,圆圈内的数字1至15分别表示关键点的编号,黑色直线表示两两关节点之间的连接线。具体的人体骨架序列的表示规则如下:
将15个人体关键点在图像中位置坐标按固定顺序排成一列,组成人体的骨架序列来抽象表示人体形态,其中15个人体关键点及其对应的固定排列序号为:1头,2脖子,3躯干,4左肩,5左胳膊肘,6左手,7右肩,8右胳膊肘,9右手,10左胯,11左膝,12左脚,13右胯,14右膝,15右脚。
基于上述表示规则,一个人的人体骨架序列为:
V=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,x6,y6,x7,y7,x8,y8,x9,y9,x10,y10,x11,y11,x12,y12,x13,y13,x14,y14,x15,y15],
其中x1,y1分别表示第一个人体关键点头在图像中的横纵坐标,x2~x15,y2~y15同理。
将每张RGB图像裁剪为112×112大小,按人体骨架序列中的15个人体关键点及每个人体关键点所处位置对应的3个坐标值,将每个一维长度为45的人体骨架序列扩维成3×15大小。
将RGB图像和人体骨架序列输入到训练好的骨架引导多模态融合神经网络,输出视频中的人体行为的识别结果。

Claims (3)

1.一种基于骨架引导多模态融合神经网络的行为识别方法,其特征在于,构建特征引导模块,搭建基于骨架引导多模态融合神经网络,对视频图像中的人体行为进行识别,该方法的步骤包括如下:
(1)构建RGB图像特征提取网络:
(1a)搭建一个7层的RGB图像特征提取网络,其结构依次为:输入卷积层,第一残差卷积层,第二残差卷积层,第三残差卷积层,第四残差卷积层,全局平均池化层,全连接层;
(1b)设置RGB图像特征提取网络各层参数如下:
将输入卷积层的空间卷积核大小设置为1×7×7,卷积步长[1,1],时间卷积核大小设置为3×1×1,卷积步长为1,卷积核数量均设置为64;
将四个残差卷积层的空间卷积核大小均设置为1×3×3,卷积步长均设置为[1,1],时间卷积核大小均设置为3×1×1,卷积步长均设置为1,卷积核数量依次设置为64,128,256,512;
将全连接层的输出神经元个数设置为60个;
(2)构建骨架特征提取网络:
(2a)搭建一个12层的骨架特征提取网络,其结构依次为:输入卷积层,第一卷积层,第二卷积层,第三卷积层,第四卷积层,第五卷积层,第六卷积层,第七卷积层,第八卷积层,第九卷积层,全局平均池化层,全连接层;
(2b)设置骨架特征提取网络各层参数如下:
将输入卷积层的空间卷积核大小设置为1×1,卷积步长1,时间卷积核大小设置为9×1,卷积步长为1,空间和时间卷积核数量相同,均设置为64;
将九个卷积层的空间卷积核大小均设置为1×1,卷积步长均为1,时间卷积核大小均设置为9×1,卷积步长依次设为1,1,1,2,1,1,2,1,1,每层的空间和时间卷积核数量保持一致,依次设置为64,64,64,128,128,128,256,256,256;
将全连接层的输出神经元个数设置为60个;
(3)构造特征引导模块:
搭建一个由紧凑双线性池化层和全连接层组成的特征引导模块,将紧凑双线性池化层的输出维度设置为1024,全连接层的输出神经元个数设置为512;
(4)构建融合模块:
搭建3层的融合模块,结构依次为:concat层,第一全连接层,第二全连接层;其中,concat层的拼接维度设置为512,第一全连接层的输出神经元个数设置为512,第二全连接层的输出神经元个数设置为60;
(5)搭建骨架引导多模态融合神经网络:
将RGB图像特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接,特征引导模块的全连接层与融合模块的concat层连接,骨架特征提取网络的全连接层与特征引导模块的紧凑双线性池化层连接,骨架特征提取网络的全连接层与特征融合模块的concat层连接后组成骨架引导多模态融合神经网络;
(6)训练骨架引导多模态融合神经网络:
(6a)在数据集中选择至少40000个视频样本组成训练集,每个视频样本的数据包括视频的RGB图像数据以及与该视频样本对应的视频中人体骨架数据和人体动作类别的标签值;
(6b)将训练集的数据输入到骨架引导多模态融合神经网络中,用梯度下降法,更新骨架引导多模态融合神经网络的各层参数,将更新后的参数值赋值给骨架引导多模态融合神经网络的各层参数,得到训练好的骨架引导多模态融合神经网络;
(7)识别视频中的人体行为:
(7a)使用相机采集至少16张RGB图像,每张图像均含有待识别的人体行为,并利用骨架姿态估计工具,提取每张RGB图像的人体骨架序列;
(7b)将每张RGB图像裁剪为112×112大小,按人体骨架序列中的15个人体关键点及每个人体关键点所处位置对应的3个坐标值,将每个一维长度为45的人体骨架序列扩维成3×15大小;
(7c)将16张RGB图像和每张RGB图像的人体骨架序列输入到训练好的骨架引导多模态融合神经网络,输出对这16张RGB图像组成的人体行为的识别结果。
2.根据权利要求1所述的基于骨架引导多模态融合神经网络的行为识别方法,其特征在于,步骤(6b)中所述的用梯度下降法更新骨架引导多模态融合神经网络的各层参数的步骤如下:
第一步,将骨架引导多模态融合神经网络的学习率设置为0.001;
第二步,将骨架引导多模态融合神经网络的输出值与视频样本中人体动作类别的标签值作为梯度值;
第三步,利用下式,更新骨架引导多模态融合神经网络的各层参数:
Figure FDA0002753496800000031
其中,
Figure FDA0002753496800000032
表示更新后的骨架引导多模态融合神经网络的参数值,←表示赋值操作,θ表示骨架引导多模态融合神经网络更新前的参数值,
Figure FDA0002753496800000033
表示骨架引导多模态融合神经网络的梯度值。
3.根据权利要求1所述的基于骨架引导多模态融合神经网络的行为识别方法,其特征在于,步骤(7a)中所述人体骨架序列是指,将每张RGB图像中描述人体姿态的15个人体关键点所处位置对应的坐标值排成一列组成的人体骨架序列。
CN201910650238.1A 2019-07-18 2019-07-18 基于骨架引导多模态融合神经网络的行为识别方法 Active CN110532861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650238.1A CN110532861B (zh) 2019-07-18 2019-07-18 基于骨架引导多模态融合神经网络的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650238.1A CN110532861B (zh) 2019-07-18 2019-07-18 基于骨架引导多模态融合神经网络的行为识别方法

Publications (2)

Publication Number Publication Date
CN110532861A CN110532861A (zh) 2019-12-03
CN110532861B true CN110532861B (zh) 2021-03-23

Family

ID=68660322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650238.1A Active CN110532861B (zh) 2019-07-18 2019-07-18 基于骨架引导多模态融合神经网络的行为识别方法

Country Status (1)

Country Link
CN (1) CN110532861B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989889B (zh) * 2019-12-17 2023-09-12 中南大学 一种基于姿态指导的步态识别方法
CN111160164B (zh) * 2019-12-18 2023-08-22 上海交通大学 基于人体骨架和图像融合的动作识别方法
CN111259735B (zh) * 2020-01-08 2023-04-07 西安电子科技大学 基于多级预测特征增强卷积神经网络的单人姿态估计方法
CN111723649B (zh) * 2020-05-08 2022-08-12 天津大学 一种基于语义分解的短视频事件检测方法
WO2022000420A1 (zh) * 2020-07-02 2022-01-06 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN111814661B (zh) * 2020-07-07 2024-02-09 西安电子科技大学 基于残差-循环神经网络的人体行为识别方法
CN111914807B (zh) * 2020-08-18 2022-06-28 太原理工大学 一种基于传感器和骨架信息的矿工行为识别方法
CN112149616B (zh) * 2020-10-13 2023-10-20 西安电子科技大学 基于动态信息的人物交互行为识别方法
CN112560618B (zh) * 2020-12-06 2022-09-16 复旦大学 基于骨架和视频特征融合的行为分类方法
CN112906604B (zh) * 2021-03-03 2024-02-20 安徽省科亿信息科技有限公司 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统
CN113033430B (zh) * 2021-03-30 2023-10-03 中山大学 基于双线性的多模态信息处理的人工智能方法、系统及介质
US11854305B2 (en) 2021-05-09 2023-12-26 International Business Machines Corporation Skeleton-based action recognition using bi-directional spatial-temporal transformer
CN113255514B (zh) * 2021-05-24 2023-04-07 西安理工大学 基于局部场景感知图卷积网络的行为识别方法
CN113792595A (zh) * 2021-08-10 2021-12-14 北京爱笔科技有限公司 目标行为检测方法、装置、计算机设备和存储介质
CN113902995B (zh) * 2021-11-10 2024-04-02 中国科学技术大学 一种多模态人体行为识别方法及相关设备
CN114612443B (zh) * 2022-03-16 2022-11-22 南京航空航天大学 一种多模态数据复杂缺陷特征检测方法
CN116434335B (zh) * 2023-03-30 2024-04-30 东莞理工学院 动作序列识别和意图推断方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160042227A1 (en) * 2014-08-06 2016-02-11 BAE Systems Information and Electronic Systems Integraton Inc. System and method for determining view invariant spatial-temporal descriptors for motion detection and analysis
CN104217226B (zh) * 2014-09-09 2017-07-11 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
CN104598890B (zh) * 2015-01-30 2017-07-28 南京邮电大学 一种基于rgb‑d视频的人体行为识别方法
KR101711736B1 (ko) * 2015-05-26 2017-03-02 이화여자대학교 산학협력단 영상에서 동작 인식을 위한 특징점 추출 방법 및 골격 정보를 이용한 사용자 동작 인식 방법
CN107239728B (zh) * 2017-01-04 2021-02-02 赛灵思电子科技(北京)有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN109508688B (zh) * 2018-11-26 2023-10-13 平安科技(深圳)有限公司 基于骨架的行为检测方法、终端设备及计算机存储介质
CN109858390B (zh) * 2019-01-10 2020-11-24 浙江大学 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN109919085B (zh) * 2019-03-06 2020-11-03 西安电子科技大学 基于轻量型卷积神经网络的人人交互行为识别方法
CN109886358B (zh) * 2019-03-21 2022-03-08 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法

Also Published As

Publication number Publication date
CN110532861A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532861B (zh) 基于骨架引导多模态融合神经网络的行为识别方法
Sun et al. Deep spatial-temporal feature fusion for facial expression recognition in static images
Soo Kim et al. Interpretable 3d human action analysis with temporal convolutional networks
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
CN108520535B (zh) 基于深度恢复信息的物体分类方法
US11328172B2 (en) Method for fine-grained sketch-based scene image retrieval
CN107886069A (zh) 一种多目标人体2d姿态实时检测系统及检测方法
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN110427867A (zh) 基于残差注意力机制的面部表情识别方法及系统
CN109919085B (zh) 基于轻量型卷积神经网络的人人交互行为识别方法
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
Lee et al. 3-D human behavior understanding using generalized TS-LSTM networks
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN108073851A (zh) 一种抓取手势识别的方法、装置及电子设备
CN108537109B (zh) 基于OpenPose的单目相机手语识别方法
CN112200110A (zh) 一种基于深度干扰分离学习的人脸表情识别方法
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN110348395B (zh) 一种基于时空关系的骨架行为识别方法
CN115205933A (zh) 面部表情识别方法、装置、设备及可读存储介质
CN115761905A (zh) 一种基于骨骼关节点的潜水员动作识别方法
CN114764941A (zh) 一种表情识别方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant