CN112906604A - 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 - Google Patents
一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 Download PDFInfo
- Publication number
- CN112906604A CN112906604A CN202110242365.5A CN202110242365A CN112906604A CN 112906604 A CN112906604 A CN 112906604A CN 202110242365 A CN202110242365 A CN 202110242365A CN 112906604 A CN112906604 A CN 112906604A
- Authority
- CN
- China
- Prior art keywords
- rgb
- size
- behavior recognition
- frame
- skeleton
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 44
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 82
- 238000011176 pooling Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 claims description 4
- 101150041570 TOP1 gene Proteins 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 230000010076 replication Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 abstract description 7
- 230000000295 complement effect Effects 0.000 abstract description 3
- 230000033001 locomotion Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于骨骼和RGB帧融合的行为识别方法、装置及系统,该方法包括利用RGB相机获取人体动作的RGB视频和深度相机获取深度图像和3D骨骼数据,建立行为识别数据集;将行为识别数据集进行预处理;利用时空图卷积神经网络ST‑GCN提取骨骼数据特征,利用轻量级GhostNet提取RGB帧数据特征;搭建骨骼和RGB帧在特征层面交互的网络;用训练集训练网络,优化参数,得到基于骨骼和RGB帧融合的行为识别网络;将所要识别的人体动作信息输入到行为识别网络进行预测,输出对应的动作类别。本发明提供了一种基于骨骼和RGB帧融合的行为识别方法,能够充分挖掘骨骼和RGB帧的互补信息,以一种轻量化的方式进一步提高了动作识别的准确率。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及是一种基于骨骼和RGB帧融合的行为识别方法、装置及系统。
背景技术
除了语音之外,人们很多时候是通过动作来传递信息的,比如交警使用手势指挥交通,人们使用特定的动作传递情感(挥手表达再见,摇头表示反对,比心表达爱意等)。因此,人体的动作对于理解人类的活动有着重要的作用。人体动作识别在计算机视觉领域一直是一个热门且具有挑战性的研究方向,它指的是输入一段分割好的视频,最后输出这段视频对应的动作类别,即是一个视频分类的任务。它有很多实际的应用,比如在智能安防领域,识别出打架斗殴行为然后报警,识别出有人在公共场所抽烟然后做出报警等。在老年健康呵护领域,识别出老人摔倒然后做出报警等。在人机交互领域,可以用手势隔空操纵电子产品等。因此,在计算机视觉领域,快速有效准确的识别人体动作显得尤为重要。
目前记录人体动作的常用传感器有RGB相机、深度相机和惯性传感器(比如加速度计和陀螺仪)等。从RGB相机我们能获取RGB视频;从深度相机我们能获取深度和骨架视频;从惯性传感器我们能获取加速度和角速度曲线。RGB、深度和骨架可以归为视觉数据。加速度和角速度可以归为非视觉数据。根据输入模态的种类人体动作识别方法可以分为基于单模态的方法和基于多模态的方法。
然而,基于RGB的人体动作识别在背景复杂和光照变化剧烈的条件下表现得很差。基于深度的人体动作识别比较容易受视角的影响。基于骨架的人体动作识别容易混淆运动模式相似的动作。基于惯性数据的人体动作识别往往要求人们佩戴可穿戴设备,另外它也不能很好区分运动模式相似的行为。由于每种模态都有各自的局限性,所以基于单模态的方法在复杂的实际场景中往往是受限的。
发明内容
针对现有的人体动作识别存在的技术问题,本发明提出的一种基于骨骼和RGB帧融合的行为识别方法、装置及系统具有较好的鲁棒性,能够降低延时同时具有更好的识别性能,并且具有能够进一步提高动作识别的准确率的优点。
第一方面,本发明保护一种基于骨骼和RGB帧融合的行为识别方法,该方法包括:
利用RGB相机获取人体动作的RGB视频和深度相机获取深度图像和3D骨骼数据,建立行为识别数据集;
将行为识别数据集进行预处理;
利用时空图卷积神经网络(ST-GCN)提取骨骼数据特征,利用轻量级GhostNet提取RGB帧数据特征;
搭建骨骼和RGB帧在特征层面交互的网络;
用训练集训练网络,优化参数,得到基于骨骼和RGB帧融合的行为识别网络;其中,训练集为事先采集用于训练的样本集合,主要用来训练神经网络中的参数;
将所要识别的人体动作信息输入到行为识别网络进行预测,输出对应的动作类别。
进一步地,所述预处理方法可以是:对于输入的骨骼数据,把每个关节点与中心点的坐标相减,用前面的帧填补使得所有样本的帧数和视频最长的帧数对齐,把脊柱与Z轴对齐,把肩膀和X轴对齐;对输入的RGB视频,以第一帧作为参考帧,然后通过计算所有帧与参考帧的帧坐标差,挑出其中差值最大的那帧作为代表该视频的RGB帧,然后利用深度相机提供的在图像上的人体坐标,把人体从RGB帧上裁剪出来。
进一步地,上述交互网路具体搭建过程包括:
ST-GCN提取的骨骼特征记为x_skeleton,尺寸为(N,C,T,V);GhostNet提取的RGB帧的特征记为x_rgb,尺寸为(N,C,H,W),其中N代表一个批量的大小,C代表特征通道的数目,T代表时间帧的数目,V代表骨骼关节点的数目,H代表图像的高度,W代表图像的宽度。首先,x_skeleton经过一个全局平均池化层把T和V这两个维度进行压缩,它的大小变为(N,C,1,1);然后为了实现通道之间的交互,经过一个1*1的卷积层尺寸仍为(N,C,1,1);接下来,用sigmoid激活函数把每个值限制在0到1之间得到x_skeleton_att,并通过复制,得到它的尺寸为(N,C,H,W);接着把x_skeleton_att和x_rgb进行哈达玛积运算,实现对RGB帧特征的校正,被校正后的x_rgb记为x_rgb_new;x_rgb_new再经过一个全局平均池化层,得到它的尺寸为(N,C);最后通过全连接层,对RGB帧输出为(N,C1)。
同步的,通过维度置换,把x_rgb_new的维度变换为(N,H*W,C,1);然后,经过一个1*1的卷积层,维度变为(N,V,C,1);之后再进行一次维度置换,得到的交换维度的顺序为(N,C,1,V),用sigmoid激活函数把每个值限制在0到1之间得到x_rgb_att,并通过复制,它的尺寸为(N,C,T,V);接下来把x_skeleton和x_rgb_att进行哈达玛积运算,得到被校正后的骨骼特征,被校正后的x_skeleton记为x_skeleton_new,它的尺寸为(N,C,T,V);接着,x_skeleton_new经过一个全局平均池化层把T和V这两个维度进行压缩,它的大小变为(N,C);最后通过全连接层,对骨骼输出为(N,C1)。
将上述校正后的RBG帧特征(N,C)和骨骼特征(N,C)进行拼接,拼接后的尺寸为(N,2C);再经过一个1*1的卷积层,得到融合输出为(N,C1)。
进一步地,用训练集训练网络,优化参数,得到基于骨骼和RGB帧融合的行为识别网络,包括:
选择交叉熵为损失函数,以top1、top5衡量准确率,并选择附加动量的随机梯度下降为优化函数;
对权重初始化,加载数据、模型、优化器,进行端到端的训练。
第二方面,本发明保护一种基于骨骼和RGB帧融合的行为识别装置,该装置包括如下模块:
数据预处理模块,用于对输入的待识别的行为动作的骨骼和视频信息进行预处理,用于对输入的骨骼数据集和RGB帧数据进行数据增强;
特征提取模块,用于对上述的骨骼数据集和RGB帧数据进行特征提取;
特征处理模块,用于将所述提取到的特征输入预先训练好的行为识别网络中进行处理,所述预先训练好的行为识别网络是利用训练集进行训练的;
结果判定模块,用于获取所述行为识别网络的输出结果,根据所述输出结果判定所述待识别行为的动作类别。
第三方面,本发明还保护一种基于骨骼和RGB帧融合的行为识别系统,包括RGB相机和深度相机和第二方面所述的骨骼和RGB帧融合的行为识别装置。
本发明的有益效果:比起RGB和骨骼分支都采用视频的建模形式,我们的方法可以以轻量化的方式充分挖掘骨骼和RGB信息之间的互补信息,在保证实时性的同时有效提升了行为识别方法的鲁棒性;能够进一步提高动作识别的准确率。
附图说明
图1为基于骨骼和RGB帧融合的行为识别方法的流程图;
图2为基于骨骼和RGB帧融合的行为识别方法中交互网络的流程图;
图3为人体骨骼关节点标号图;
图4为基于骨骼和RGB帧融合的行为识别装置图;
图5为基于骨骼和RGB帧融合的行为识别系统图;
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
一种基于骨骼和RGB帧融合的行为识别方法,如图1所示,该方法包括如下步骤S1至S6:
S1,利用RGB相机获取人体动作的RGB视频,利用深度相机获取深度图像和3D骨骼数据,建立行为识别数据集,该数据集包含了3D骨骼坐标和RGB视频两种模态;
S2,将行为识别数据集进行预处理;
S3,通过神经网络提取行为识别数据集的特征;
S4,搭建骨骼和RGB帧在特征层面交互的网络;
S5,用训练集训练网络,优化参数,得到基于骨骼和RGB帧融合的行为识别网络;
其中,训练集为事先采集用于训练的样本集合,主要用来训练神经网络中的参数。
S6,把需要识别的行为动作输入到行为识别网络进行预测,输出对应的动作类别。
上述S2步骤中,具体预处理方法可以是:对于输入的骨骼数据,把每个关节点与中心点的坐标相减,用前面的帧填补使得所有样本的帧数和视频最长的帧数对齐,把脊柱与Z轴对齐,把肩膀和X轴对齐;对输入的RGB视频,以第一帧作为参考帧,然后通过计算所有帧与参考帧的帧坐标差,挑出其中差值最大的那帧作为代表该视频的RGB帧,然后利用深度相机提供的在图像上的人体坐标,把人体从RGB帧上裁剪出来。完成对输入的骨骼数据集和RGB帧进行数据增强。
上述S3步骤中,特征提取具体为:利用时空图卷积神经网络ST-GCN提取3D骨骼数据特征x_skeleton,尺寸为(N,C,T,V),其中N代表一个批量的大小,C代表特征通道的数目,T代表时间帧的数目,V代表骨骼关节点的数目;利用轻量级GhostNet提取RGB帧数据特征x_rgb,尺寸为(N,C,H,W),其中N代表一个批量的大小,C代表特征通道的数目,H代表图像的高度,W代表图像的宽度。时空图卷积神经网络相比较一般卷积神经网络具有更好的表达能力、模型泛化能力,容错能力也大大增加;轻量级GhostNet能够提升计算速度、降低延时同时具有更好的识别性能。
具体来说,如图2所示,上述S4步骤中交互网路具体搭建过程包括:
S41,将x_skeleton的尺寸转换为与x_rgb一致的尺寸,得到尺寸(N,C,H,W)的3D骨骼数据特征x_skeleton_att;
S42,对x_skeleton_att和x_rgb进行哈达玛积运算,实现RGB帧数据特征的校正,得到校正后的RGB帧数据特征x_rgb_new,x_rgb_new经过全局平均池化层,得到尺寸(N,C)的RGB帧数据特征,再经过全连接层,得到尺寸(N,C1)的RGB帧输出;
S43,将x_rgb的尺寸转换为与x_skeleton一致的尺寸,得到尺寸(N,C,T,V)的RGB帧数据特征x_rgb_att;
S44,对x_skeleton和x_rgb_att进行哈达玛积运算,实现3D骨骼数据特征的校正,得到校正后的3D骨骼数据特征x_skeleton_new;x_skeleton_new经过全局平均池化层,得到尺寸(N,C)的3D骨骼数据特征,再经过全连接层,得到尺寸(N,C1)的骨骼输出;
S45,将尺寸同为(N,C)的RBG帧数据特征和3D骨骼数据特征(N,C)拼接,再经过1*1的卷积层,得到尺寸(N,C1)的融合输出。
其中,上述步骤S41的具体转换过程为:x_skeleton首先经过一个全局平均池化层把T和V这两个维度进行压缩,大小变为(N,C,1,1);然后经过一个1*1的卷积层尺寸仍为(N,C,1,1);接下来,用sigmoid激活函数把每个值限制在0到1之间得到x_skeleton_att,并通过复制,得到尺寸为(N,C,H,W)。
其中,上述步骤S41的具体转换过程为:首先,通过维度置换将x_rgb_new的维度变换为(N,H*W,C,1);然后,经过一个1*1的卷积层,维度变为(N,V,C,1);之后再进行一次维度置换,得到的交换维度的顺序为(N,C,1,V),用sigmoid激活函数把每个值限制在0到1之间得到x_rgb_att,并通过复制,得到的尺寸为(N,C,T,V)。
具体来说,上述S5步骤中,用训练集训练网络,优化参数,得到基于骨骼和RGB帧融合的行为识别网络,包括如下步骤S51至S52:
S51,选择交叉熵为损失函数,以top1、top5衡量准确率,并选择附加动量的随机梯度下降为优化函数;
S52,对权重初始化,加载数据、模型、优化器,进行端到端的训练,得到行为识别网络。
优选地,以NTU-RGB+D 120数据集作为行为识别数据集为例,说明基于骨骼和RGB帧融合的行为识别方法的具体过程。具体步骤为:
步骤1,RGB相机获取人体动作的RGB视频和深度相机获取深度图像和3D骨骼数据,建立NTU-RGB+D 120数据集,即行为识别数据集,该数据集包含了3D骨骼坐标和RGB视频两种模态;
步骤2,将骨骼和RGB视频行为识别数据集进行预处理。如图3所示,预处理的评价基准包括交叉设置和交叉主体。首先对于输入的骨骼数据,用1-25对骨骼的关节点进行标号,指定骨骼图的脊柱点(标号为2)作为中心点,把每个关节点与中心点的坐标相减;用前面的帧填补使得所有样本的帧数达到300帧;把标号1和2之间的边与Z轴对齐;把标号为5和9之间的边和X轴对齐。
其次,对输入的RGB视频,以第一帧作为参考帧,然后通过计算所有帧与参考帧的帧坐标差,挑出其中差值最大的那帧作为代表该视频的RGB帧,再利用深度相机提供的RGB图像上的人体坐标(x_left,y_left,x_right,y_right),把人体从RGB帧上按照坐标(x_left-50,y_left-50,x_right+50,y_right+50)裁剪出来。其中(x_left,y_left)为人体左上角的坐标,(x_right,y_right)为人体右下角的坐标。
步骤3,利用时空图卷积神经网络(ST-GCN)提取骨骼数据特征;提取的特征尺寸为(64,256,75,25),其中64为批量的大小,256为特征通道的数目,75为时间帧的长度,25为关节点的数目。利用轻量级GhostNet提取RGB帧数据特征;提取的特征尺寸为(64,256,7,7),其中64为批量的大小,256为特征通道的数目,第一个7为图像的高度,第二个7为图像的宽度。
步骤4,搭建骨骼和RGB帧在特征层面交互的网络。时空图卷积网络提取的骨骼特征记为x_skeleton,它的尺寸为(64,256,75,25)。轻量级GhostNet提取的RGB帧的特征记为x_rgb,它的尺寸为(64,256,7,7)。具体步骤为:
步骤4.1,首先,x_skeleton经过一个全局平均池化层把T和V这两个维度进行压缩,它的大小变为(64,256,1,1);然后为了实现通道之间的交互,经过一个1*1的卷积层尺寸仍为(64,256,1,1);接下来,用sigmoid激活函数把每个值限制在0到1之间得到x_skeleton_att,并进行复制;接着把x_skeleton_att和x_rgb进行哈达玛积运算,实现对RGB帧特征的校正,被校正后的x_rgb记为x_rgb_new;x_rgb_new再经过一个全局平均池化层;最后通过全连接层,对RGB帧输出。
步骤4.2,首先,通过维度置换,把x_rgb_new的维度变换为(64,49,256,1);然后,经过一个1*1的卷积层,维度变为(64,25,256,1);之后再进行一次维度置换,得到的交换维度的顺序为(64,256,1,25),用sigmoid激活函数把每个值限制在0到1之间得到x_rgb_att,并进行复制;接下来把x_skeleton和x_rgb_att进行哈达玛积运算,得到被校正后的骨骼特征,被校正后的x_skeleton记为x_skeleton_new;接着,x_skeleton_new经过一个全局平均池化层把T和V这两个维度进行压缩;最后通过全连接层,对骨骼输出。
步骤4.3,将上述校正后的RBG帧特征和骨骼特征进行拼接;再经过一个1*1的卷积层,进行融合输出。
步骤5,用训练集训练网络,优化参数,得到基于骨骼和RGB帧融合的行为识别网络。首先选择交叉熵为损失函数,以top1(预测结果中概率最大的那个分类正确,则预测正确,否则预测错误)、top5(预测结果中概率向量最大的前五名中,只要出现了正确的类别即为预测正确,否则预测错误)衡量准确率,附加动量的随机梯度下降为优化函数,具体设计为起始的学习率为0.1,动量设置为0.9,总共55个周期(epoch),至第40个周期学习率降为0.01,至第50个epoch学习率降为0.001,训练的样本批量大小为64。再对权重初始化,加载数据、模型、优化器,进行端到端的训练。其中,参数初始化时选择均值为0、方差为0.02的随机初始化。
步骤6,把需要识别的行为动作输入到行为识别网络进行预测,给出对应的动作类别。其中,测试的批量大小为64。
实施例2
与上述基于骨骼和RGB帧融合的行为识别方法相对应,本发明实施例还提供了一种基于骨骼和RGB帧融合的行为识别装置。如图4所示,该装置包括如下模块:
数据预处理模块401,用于对输入的待识别的行为动作的骨骼和视频信息进行预处理,用于对输入的骨骼数据集和RGB帧数据进行数据增强;
特征提取模块402,用于对上述的骨骼数据集和RGB帧数据进行特征提取;
特征处理模块403,用于将所述提取到的特征输入预先训练好的行为识别网络中进行处理,所述预先训练好的行为识别网络是利用训练集进行训练的;
结果判定模块404,用于获取所述行为识别网络的输出结果,根据所述输出结果判定所述待识别行为的动作类别。
实施例3
一种基于骨骼和RGB帧融合的行为识别系统,参见图5所示,包括RGB相机和深度相机501和实施例2中所述的基于骨骼和RGB帧融合的行为识别装置4。
为描述的方便和简洁,所属领域的技术人员可以清楚地了解到,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
一种基于骨骼和RGB帧融合的行为识别方法、装置及系统,可以以轻量化的方式充分挖掘了骨骼和RGB帧的互补信息,有效提升了行为识别方法的鲁棒性;能够进一步提高动作识别的准确率。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。
Claims (10)
1.一种基于骨骼和RGB帧融合的行为识别方法,其特征在于,构建基于骨骼和RGB帧融合的行为识别网络,通过该行为识别网络进行行为识别,行为识别网络构建,包括如下步骤:
S1,利用RGB相机获取行为动作的RGB数据,利用深度相机获取3D骨骼数据,构建行为识别数据集;
S2,对行为识别数据集进行预处理;
S3,通过神经网络分别提取RGB数据和3D骨骼数据的数据特征;
S4,搭建骨骼和RGB帧在特征层面交互的神经网络;
S5,利用训练集训练该神经网络实现优化参数,得到基于骨骼和RGB帧融合的行为识别网络。
2.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,所述步骤S3中,利用时空图卷积神经网络ST-GCN提取3D骨骼数据特征x_skeleton,尺寸为(N,C,T,V),其中N代表一个批量的大小,C代表特征通道的数目,T代表时间帧的数目,V代表骨骼关节点的数目;利用轻量级GhostNet提取RGB帧数据特征x_rgb,尺寸为(N,C,H,W),其中N代表一个批量的大小,C代表特征通道的数目,H代表图像的高度,W代表图像的宽度。
3.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,所述步骤S4中的骨骼和RGB帧在特征层面交互的神经网络的搭建包括如下步骤:
S41,将x_skeleton的尺寸转换为与x_rgb一致的尺寸,得到尺寸(N,C,H,W)的3D骨骼数据特征x_skeleton_att;
S42,对x_skeleton_att和x_rgb进行哈达玛积运算,实现RGB帧数据特征的校正,得到校正后的RGB帧数据特征x_rgb_new,x_rgb_new经过全局平均池化层,得到尺寸(N,C)的RGB帧数据特征,再经过全连接层,得到尺寸(N,C1)的RGB帧输出;
S43,将x_rgb的尺寸转换为与x_skeleton一致的尺寸,得到尺寸(N,C,T,V)的RGB帧数据特征x_rgb_att;
S44,对x_skeleton和x_rgb_att进行哈达玛积运算,实现3D骨骼数据特征的校正,得到校正后的3D骨骼数据特征x_skeleton_new;x_skeleton_new经过全局平均池化层,得到尺寸(N,C)的3D骨骼数据特征,再经过全连接层,得到尺寸(N,C1)的骨骼输出;
S45,将尺寸同为(N,C)的RBG帧数据特征和3D骨骼数据特征(N,C)拼接,再经过1*1的卷积层,得到尺寸(N,C1)的融合输出。
4.根据权利要求3所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,所述步骤S41中,将x_skeleton的尺寸转换为与x_rgb一致的尺寸,得到尺寸(N,C,H,W)的3D骨骼数据特征x_skeleton_att,具体转换为:x_skeleton首先经过一个全局平均池化层把T和V这两个维度进行压缩,大小变为(N,C,1,1);然后经过一个1*1的卷积层尺寸仍为(N,C,1,1);接下来,用sigmoid激活函数把每个值限制在0到1之间得到x_skeleton_att,并通过复制,得到尺寸为(N,C,H,W)。
5.根据权利要求3所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,所述步骤S43中,将x_rgb的尺寸转换为与x_skeleton一致的尺寸,得到尺寸(N,C,T,V)的RGB帧数据特征x_rgb_att,具体转换为:首先,通过维度置换将x_rgb_new的维度变换为(N,H*W,C,1);然后,经过一个1*1的卷积层,维度变为(N,V,C,1);之后再进行一次维度置换,得到的交换维度的顺序为(N,C,1,V),用sigmoid激活函数把每个值限制在0到1之间得到x_rgb_att,并通过复制,得到的尺寸为(N,C,T,V)。
6.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,步骤S5中,所述用训练集训练网络,优化参数,得到基于骨骼和RGB帧融合的行为识别网络,包括如下步骤:
S51,选择交叉熵为损失函数,以top1、top5衡量准确率,并选择附加动量的随机梯度下降为优化函数;
S52,对权重初始化,加载数据、模型、优化器,进行端到端的训练,得到行为识别网络。
7.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,步骤S2中,所述输入的骨骼数据预处理方法具体为:把每个关节点与中心点的坐标相减,用前面的帧填补使得所有样本的帧数和视频最长的帧数对齐,把脊柱与Z轴对齐,把肩膀和X轴对齐。
8.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,步骤S2中,所述输入的RGB视频数据预处理方法具体为:以第一帧作为参考帧,然后通过计算所有帧与参考帧的帧坐标差,挑出其中差值最大的那帧作为代表该视频的RGB帧,再利用深度相机提供的在图像上的人体坐标,把人体从RGB帧上裁剪出来。
9.一种基于骨骼和RGB帧融合的行为识别装置,其特征在于,所述装置包括:
数据预处理模块(401),用于对输入的待识别的行为动作的骨骼和视频信息进行预处理,用于对输入的骨骼数据集和RGB帧数据进行数据增强;
特征提取模块(402),用于对上述的骨骼数据集和RGB帧数据进行特征提取;
特征处理模块(403),用于将所述提取到的特征输入预先训练好的行为识别网络中进行处理,所述预先训练好的行为识别网络是利用训练集进行训练的;
结果判定模块(404),用于获取所述行为识别网络的输出结果,根据所述输出结果判定所述待识别行为的动作类别。
10.一种基于骨骼和RGB帧融合的行为识别系统,其特征在于,包括RGB相机和深度相机(501)和权利要求9所述的基于骨骼和RGB帧融合的行为识别装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110242365.5A CN112906604B (zh) | 2021-03-03 | 2021-03-03 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110242365.5A CN112906604B (zh) | 2021-03-03 | 2021-03-03 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906604A true CN112906604A (zh) | 2021-06-04 |
CN112906604B CN112906604B (zh) | 2024-02-20 |
Family
ID=76108627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110242365.5A Active CN112906604B (zh) | 2021-03-03 | 2021-03-03 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906604B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343950A (zh) * | 2021-08-04 | 2021-09-03 | 之江实验室 | 一种基于多特征融合的视频行为识别方法 |
CN113469018A (zh) * | 2021-06-29 | 2021-10-01 | 中北大学 | 基于rgb与三维骨骼的多模态交互行为识别方法 |
CN113468980A (zh) * | 2021-06-11 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种人体行为识别方法及相关装置 |
CN113505751A (zh) * | 2021-07-29 | 2021-10-15 | 同济大学 | 一种基于差异图卷积神经网络的人体骨骼动作识别方法 |
CN113537148A (zh) * | 2021-08-11 | 2021-10-22 | 泰康保险集团股份有限公司 | 人体动作识别方法及装置、可读存储介质、电子设备 |
CN114187606A (zh) * | 2021-10-21 | 2022-03-15 | 江阴市智行工控科技有限公司 | 一种采用分支融合网络轻量化的车库行人检测方法及系统 |
CN114637404A (zh) * | 2022-03-28 | 2022-06-17 | 湖南大学 | 一种多模态分层融合的人机交互方法和系统 |
CN116109522A (zh) * | 2023-04-10 | 2023-05-12 | 北京飞渡科技股份有限公司 | 一种基于图神经网络的轮廓矫正方法、装置、介质及设备 |
CN116434335A (zh) * | 2023-03-30 | 2023-07-14 | 东莞理工学院 | 动作序列识别和意图推断方法、装置、设备及存储介质 |
CN117137435A (zh) * | 2023-07-21 | 2023-12-01 | 北京体育大学 | 一种基于多模态信息融合的康复动作识别方法和系统 |
CN117238026A (zh) * | 2023-07-10 | 2023-12-15 | 中国矿业大学 | 一种基于骨骼和图像特征的姿态重建交互行为理解方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120964A1 (zh) * | 2016-12-30 | 2018-07-05 | 山东大学 | 一种基于深度信息和骨骼信息的姿势矫正方法 |
CN108647644A (zh) * | 2018-05-11 | 2018-10-12 | 山东科技大学 | 基于gmm表征的煤矿放炮不安全动作识别与判定方法 |
CN110059620A (zh) * | 2019-04-17 | 2019-07-26 | 安徽艾睿思智能科技有限公司 | 基于时空注意力的骨骼行为识别方法 |
US20190278983A1 (en) * | 2018-03-12 | 2019-09-12 | Nvidia Corporation | Three-dimensional (3d) pose estimation from a monocular camera |
US20190295278A1 (en) * | 2018-03-20 | 2019-09-26 | Electronics And Telecommunications Research Institute | Apparatus and method for generating synthetic training data for motion recognition |
CN110532861A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于骨架引导多模态融合神经网络的行为识别方法 |
CN110796110A (zh) * | 2019-11-05 | 2020-02-14 | 西安电子科技大学 | 一种基于图卷积网络的人体行为识别方法及系统 |
CN111160164A (zh) * | 2019-12-18 | 2020-05-15 | 上海交通大学 | 基于人体骨架和图像融合的动作识别方法 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN111814719A (zh) * | 2020-07-17 | 2020-10-23 | 江南大学 | 一种基于3d时空图卷积的骨架行为识别方法 |
CN111967379A (zh) * | 2020-08-14 | 2020-11-20 | 西北工业大学 | 一种基于rgb视频和骨架序列的人体行为识别方法 |
CN112270724A (zh) * | 2020-10-26 | 2021-01-26 | 徐尔灵 | 基于人工智能的光伏电池板焊带偏移检测方法及装置 |
-
2021
- 2021-03-03 CN CN202110242365.5A patent/CN112906604B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120964A1 (zh) * | 2016-12-30 | 2018-07-05 | 山东大学 | 一种基于深度信息和骨骼信息的姿势矫正方法 |
US20190278983A1 (en) * | 2018-03-12 | 2019-09-12 | Nvidia Corporation | Three-dimensional (3d) pose estimation from a monocular camera |
US20190295278A1 (en) * | 2018-03-20 | 2019-09-26 | Electronics And Telecommunications Research Institute | Apparatus and method for generating synthetic training data for motion recognition |
CN108647644A (zh) * | 2018-05-11 | 2018-10-12 | 山东科技大学 | 基于gmm表征的煤矿放炮不安全动作识别与判定方法 |
CN110059620A (zh) * | 2019-04-17 | 2019-07-26 | 安徽艾睿思智能科技有限公司 | 基于时空注意力的骨骼行为识别方法 |
CN110532861A (zh) * | 2019-07-18 | 2019-12-03 | 西安电子科技大学 | 基于骨架引导多模态融合神经网络的行为识别方法 |
CN110796110A (zh) * | 2019-11-05 | 2020-02-14 | 西安电子科技大学 | 一种基于图卷积网络的人体行为识别方法及系统 |
CN111160164A (zh) * | 2019-12-18 | 2020-05-15 | 上海交通大学 | 基于人体骨架和图像融合的动作识别方法 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN111814719A (zh) * | 2020-07-17 | 2020-10-23 | 江南大学 | 一种基于3d时空图卷积的骨架行为识别方法 |
CN111967379A (zh) * | 2020-08-14 | 2020-11-20 | 西北工业大学 | 一种基于rgb视频和骨架序列的人体行为识别方法 |
CN112270724A (zh) * | 2020-10-26 | 2021-01-26 | 徐尔灵 | 基于人工智能的光伏电池板焊带偏移检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
GUIYU LIU等: "Action Recognition Based on 3D Skeleton and RGB Frame Fusion", 《019 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS(IROS)》, pages 258 - 264 * |
王志华: "基于时空图卷积神经网络的人体动作识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 7, pages 138 - 1040 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468980A (zh) * | 2021-06-11 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种人体行为识别方法及相关装置 |
CN113468980B (zh) * | 2021-06-11 | 2024-05-31 | 浙江大华技术股份有限公司 | 一种人体行为识别方法及相关装置 |
CN113469018B (zh) * | 2021-06-29 | 2024-02-23 | 中北大学 | 基于rgb与三维骨骼的多模态交互行为识别方法 |
CN113469018A (zh) * | 2021-06-29 | 2021-10-01 | 中北大学 | 基于rgb与三维骨骼的多模态交互行为识别方法 |
CN113505751A (zh) * | 2021-07-29 | 2021-10-15 | 同济大学 | 一种基于差异图卷积神经网络的人体骨骼动作识别方法 |
CN113505751B (zh) * | 2021-07-29 | 2022-10-25 | 同济大学 | 一种基于差异图卷积神经网络的人体骨骼动作识别方法 |
CN113343950A (zh) * | 2021-08-04 | 2021-09-03 | 之江实验室 | 一种基于多特征融合的视频行为识别方法 |
CN113537148A (zh) * | 2021-08-11 | 2021-10-22 | 泰康保险集团股份有限公司 | 人体动作识别方法及装置、可读存储介质、电子设备 |
CN113537148B (zh) * | 2021-08-11 | 2024-04-19 | 泰康保险集团股份有限公司 | 人体动作识别方法及装置、可读存储介质、电子设备 |
CN114187606A (zh) * | 2021-10-21 | 2022-03-15 | 江阴市智行工控科技有限公司 | 一种采用分支融合网络轻量化的车库行人检测方法及系统 |
CN114187606B (zh) * | 2021-10-21 | 2023-07-25 | 江阴市智行工控科技有限公司 | 一种采用分支融合网络轻量化的车库行人检测方法及系统 |
CN114637404A (zh) * | 2022-03-28 | 2022-06-17 | 湖南大学 | 一种多模态分层融合的人机交互方法和系统 |
CN114637404B (zh) * | 2022-03-28 | 2024-09-06 | 湖南大学 | 一种多模态分层融合的人机交互方法和系统 |
CN116434335A (zh) * | 2023-03-30 | 2023-07-14 | 东莞理工学院 | 动作序列识别和意图推断方法、装置、设备及存储介质 |
CN116434335B (zh) * | 2023-03-30 | 2024-04-30 | 东莞理工学院 | 动作序列识别和意图推断方法、装置、设备及存储介质 |
CN116109522A (zh) * | 2023-04-10 | 2023-05-12 | 北京飞渡科技股份有限公司 | 一种基于图神经网络的轮廓矫正方法、装置、介质及设备 |
CN117238026A (zh) * | 2023-07-10 | 2023-12-15 | 中国矿业大学 | 一种基于骨骼和图像特征的姿态重建交互行为理解方法 |
CN117238026B (zh) * | 2023-07-10 | 2024-03-08 | 中国矿业大学 | 一种基于骨骼和图像特征的姿态重建交互行为理解方法 |
CN117137435A (zh) * | 2023-07-21 | 2023-12-01 | 北京体育大学 | 一种基于多模态信息融合的康复动作识别方法和系统 |
CN117137435B (zh) * | 2023-07-21 | 2024-06-25 | 北京体育大学 | 一种基于多模态信息融合的康复动作识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112906604B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112906604A (zh) | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 | |
US20240028896A1 (en) | Method and system for activity classification | |
CN110532861B (zh) | 基于骨架引导多模态融合神经网络的行为识别方法 | |
CN107103613B (zh) | 一种三维手势姿态估计方法 | |
CN114724241A (zh) | 基于骨骼点距离的动作识别方法、装置、设备及存储介质 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
Ahmad et al. | Human action recognition using convolutional neural network and depth sensor data | |
CN114821006B (zh) | 交互式间接推理的孪生体态检测方法及系统 | |
CN114511931A (zh) | 基于视频图像的动作识别方法、装置、设备及存储介质 | |
Hwang et al. | Multi-modal human action recognition using deep neural networks fusing image and inertial sensor data | |
Sawant | Sign language recognition system to aid deaf-dumb people using PCA | |
KR102377767B1 (ko) | 손동작 및 팔동작 학습기반 수화 번역 시스템 및 방법 | |
CN111461063A (zh) | 一种基于图卷积和胶囊神经网络的行为识别方法 | |
CN116895098A (zh) | 基于深度学习和隐私保护的视频人体动作识别系统与方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN111680660A (zh) | 基于多源异构数据流的人体行为检测方法 | |
CN111158476A (zh) | 一种虚拟键盘的按键识别方法、系统、设备及存储介质 | |
Xu et al. | Robust abnormal human-posture recognition using OpenPose and Multiview cross-information | |
CN113408435A (zh) | 一种安全监控方法、装置、设备和存储介质 | |
Wang et al. | Dynamic human behavior pattern detection and classification | |
CN113887373B (zh) | 基于城市智慧体育的并行融合网络的姿态识别方法和系统 | |
CN111310655A (zh) | 基于关键帧和组合注意力模型的人体动作识别方法和系统 | |
Shi et al. | Fbi-pose: Towards bridging the gap between 2d images and 3d human poses using forward-or-backward information | |
CN116030533A (zh) | 运动场景的高速动作捕捉与识别方法及系统 | |
CN111274854A (zh) | 一种人体动作识别方法和视觉增强处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |