CN113627326A - 一种基于可穿戴设备和人体骨架的行为识别方法 - Google Patents
一种基于可穿戴设备和人体骨架的行为识别方法 Download PDFInfo
- Publication number
- CN113627326A CN113627326A CN202110912123.2A CN202110912123A CN113627326A CN 113627326 A CN113627326 A CN 113627326A CN 202110912123 A CN202110912123 A CN 202110912123A CN 113627326 A CN113627326 A CN 113627326A
- Authority
- CN
- China
- Prior art keywords
- skeleton
- behavior
- information
- capsule
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000006399 behavior Effects 0.000 claims abstract description 116
- 230000015654 memory Effects 0.000 claims abstract description 4
- 239000002775 capsule Substances 0.000 claims description 93
- 230000006870 function Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 19
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 230000001133 acceleration Effects 0.000 claims description 7
- 230000006855 networking Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 229910052744 lithium Inorganic materials 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于可穿戴设备和人体骨架的行为识别方法。包括如下步骤:(1)基于可穿戴设备,获取人体整体行为状态;(2)基于深度相机,获取人体骨架信息;(3)通过图卷积网络提取人体骨架的空间特征;(4)使用长短时记忆网络提取骨架序列的时序信息;(5)将GCNN提取的空间信息与LSTM提取的时序信息进行融合;(6)通过SVM分类器进行分类识别,识别人体具体行为。本发明利用可穿戴设备获取人体整体位置和运动情况,利用深度学习网络模型对人体骨架信息进行识别与分类,准确识别人体行为。
Description
技术领域
本发明属于施工监控技术以及计算机视觉领域,更具体地,涉及一种基于可穿戴设备和人体骨架的行为识别方法。
背景技术
神经网络理论的复兴推动了人工智能技术的飞速发展。当今社会﹐智能机器人、无人驾驶汽车等即将走入人们的生活。智能交通、智能视频监控及智慧城市等都需要计算机对人的行为进行自动分析。当前,深度摄像机技术结合高精度的人体骨架估计算法,可以直接提供人体运动过程对应的骨架序列,基于该骨架序列可以对人的行为进行精确的识别。
传统的基于人体骨架序列的行为识别算法主要是在手工特征提取基础上经编码后设计分类器实现行为分类,手工特征的提取过程较为繁琐,且其与随后的特征编码及分类过程通常分离进行,虽可级联构成系统,但因效率较低不利于实际应用。此外,传统方法训练及测试通常是在小数据集上进行的,当数据量增大时,模型计算复杂度对于一般的硬件条件难以承受,很难在实际应用中发挥作用。
公开号为CN 112131972A的中国专利公开了“一种基于注意力机制使用WiFi数据进行人体行为识别的方法”,根据所述使用一种基于信道状态信息(CSI)的幅值和相位特征的行为识别的方法和一种用于CSI行为识别的注意力机制模型,来实现基于WiFi数据的人体行为识别,但是该技术仅仅通过超声检测,其运动序列切割鲁棒性不高,人体行为识别准确度不高,不能应对复杂的作业现场。
发明内容
本发明的目的在于解决识别作业现场中工作人员作业动作,防止因不规范动作而导致事故发生,提供一种基于可穿戴设备和人体骨架的行为识别方法。
为实现上述目的,本发明的技术方案是:一种基于可穿戴设备和人体骨架的行为识别方法,包括如下步骤:
(1)基于可穿戴设备,获取人体整体行为状态:
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(1)包括可穿戴设备采用3.7V的锂电池供电,Lora模块所采用的频段为433MHz。在实际测试环境中,在空旷的地方传输速率为5.12Kbps,传输距离200米。具体如下子步骤:
(1.1)采用MPU6050三轴加速度角速度传感器采集加速度、角速度,心率传感器采集人体心率数据,采用北斗定位模块实时获取位置信息;
(1.2)采用Lora模块进行组网实现行为信息的远距离、低功耗传输。
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(1.2)中行为信息的传输采用LPWAN中Lora组网技术,Lora是由Semtech公司发布的无线电调制解调技术。该技术具有Lora-WAN协议、Lora私有协议、CLASS协议和数据透传四个类别,相较于其他低功耗广域物联网技术,该技术在功耗、自组网等方面存在很大的优势。Lora可以选择多种组网方式来适应客户不同场景下的不同需求,多样化的组网方式提升系统的泛化性。
(1.3)将角速度、角速度以及心率数据输入神经网络,识别人体整体行为(如走路,跑步)。
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(1.3)中神经网络由四个层级构成,第一个层级为卷积层;第二、三个层级为胶囊层;第四个层级为全连接层,最后加入一个分类器进行分类。其中,胶囊的工作原理主要就是由目前的标量信息的输入、输出更改为矢量信息的输入、输出,从而为各个行为信息特征之间加入空间特性,胶囊层与胶囊层之间采用动态路由协议来进行模型参数的更新。
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(1.3)中神经网络模型具体包括如下子步骤:
步骤一:感知到的行为信息经过滑动窗口分割之后,每一个行为所对应的行为信息的大小为:1×Window_Size×3。其中,Window_Size是指一个行为完整周期的长度。网络架构模型的输入行为信息大小为:Batch_Size×1x×Window_Size×3,其中,Batch_Size是指一次训练输入行为信息的个数。
步骤二:将Batch_Size×1×Window_Size×3的行为信息通过CNN的卷积单元进行矢量化,其计算公式如下:
其中,Xi是指一次输入信息中的第i个输入信息。Wij是第j个卷积单元的权重参数,初始默认值为服从截断正态分布的随机数。bj是第j个卷积单元的偏置参数初始值默认为0.0。卷积核的数量使用n来表示。Yj是矢量输出数据。输出信息大小为:
步骤三:胶囊层由多个胶囊组成,每个胶囊封装了多组卷积核,将上一步的Y,输入到第一个胶囊层进行处理,其计算公式如下:
其中,Wjl是指第一个胶囊层中第l个胶囊单元的权重参数,初始值为服从截断正态分布的随机数;m表示第一个胶囊层中包含胶囊的数量。bl是指第一个胶囊层中第l个胶囊单元的偏置参数,初始值为0.0。squash(·)函数是一种对矢量信息进行处理的非线数,与对标量信息进行处理的非线性函数的功能类似,对标量信息进行处理的非线性函数包括tanh(·)、relu(·)等,是指第一个胶囊层的输出。令Con_layer表示则输出大小为
步骤四:将第一个胶囊层输出的具有空间特性的行为信息作为下一个胶囊层的输入,其中,参数的调整通过动态路由协议进行,其计算公式如下所示:
其中,bik是指第一个胶囊层中第i个胶囊单元和第二个胶囊层中第k个胶囊单元的动态路由权重。bij是指第一个胶囊层中第i个胶囊单元和第二个胶囊层中第j个胶囊单元的动态路由权重。是指每个胶囊的输出。Sj是指第二个胶囊层经过动态路由协议之后输出的行为信息特征。是指第二个胶囊层的输出。输出的大小为Batch_Size×Num_Output×Vec_Lenv×1。其中,Num_Output表示第二个胶囊层中胶囊单元的个数。
步骤五:将胶囊层处理完毕的信息通过全连接层单元进行处理,输出信息为:Batch_Size×Output_Length×1,其中Output_Length表示全连接层中单元的个数。
步骤六:最后将行为信息输入到Softmax分类器进行分类识别,该分类器处理完的结果为输入行为对应各个行为的概率值。并判定当前行为属于概率值最大的那类行为。
(2)基于深度相机,获取人体骨架信息;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(2)包括:对作业现象使用kinect深度相机实时拍摄。
(3)通过图卷积网络提取人体骨架的空间特征;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(3)包括如下子步骤:
(3.1)将人体骨架分解成5部分(两条胳膊、两条腿和躯干);
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(3.1)包括:对于人体骨架的空间特征,如果直接对人体骨架的空间关系进行三维图卷积,并没有探索身体各关节的联系。由于行为动作是由身体各部位之间相互协调完成的。例如,人在走路时除了腿在迈动,胳膊也在摆动。所以将人体骨架分解成5部分(两条胳膊、两条腿和躯干)。
(3.2)对人体骨架分解的5个部分经过全连接层进行处理确保每一部分的特征维度都相同,作为网络的输入;
(3.3)使用图卷积神经网络对人体骨架分解的每一部分进行建模,图卷积中的每个节点代表每个身体部分的特征;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(3.3)包括:首先使用图卷积对骨架序列的空间特征进行处理,对于单帧图卷积操作,在设定步长(stride)为Ⅰ且有合适padding的条件下,给定kernel大小为K×K的卷积算子和一个通道数为c的输入特征图fin﹐单通道在空间位置处的输出值可以表示为:
其中采样函数p用来列举位置x的邻域h=1,权重函数w用于计算和采用c维通道输入特征向量的内积,这里采用的是可变性卷积中的公式形式。
对于节点vti其邻近节点集合B(vti)={vtj|d(vtj,vti)≤D}上的采样函数,其中d(vtj,vti)表示从vtj到vti,的最小长度。采样函数可以被写作:
p(vtj,vti)=vtj
通过划分某一关节点vti的邻居集B(vti)到固定数量的K个子集来简化建立空间顺序索引这一过程,其中每个子集共用一个标签。因此我们可以有一个映射lti:B(vti)→{0,...,K-1},它将邻域中的节点映射到其子集标签。权重函数w(vtj,vti)可以通过索引一个(c,K)维的张量表述:
w(vtj,vti)=w’(lti(vtj))
则单通道在空间位置处的输出值更新为:
(3.4)融合图卷积中的各个节点作为人体骨架的空间结构特征。
(4)使用长短时记忆网络提取骨架序列的时序信息;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(4)包括如下子步骤:
(4.1)对长的骨架序列进行稀疏采样并时序分割以确保能够获取到骨架序列中的有用信息;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(4.1)包括:对于骨架序列集合其中为骨架序列Vm中的第t帧骨架,T为骨架序列的总帧数,采样后得到长度为s骨架序列集合采用平均下采样,即从第一帧开始每隔进行采样,对于s>t,则保持原骨架序列长度不变。
(4.2)将等长的短时序序列分别送入共享权重下的循环神经网络中的长短期记忆网络(LSTM)中;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(4.2)包括:由于骨架序列中包含丰富的时间动态信息,为了捕获骨架序列中详细的时序信息。将骨架序列分成多个时序clips,假设一组骨架序列有N帧组成,该骨架序列以d帧的间隔被分成M个clips。可以从LSTM网络中提取骨架序列的高级时序特征,如下所示:
{Q1,q2,...,QM}
其中,Qm={qmd+1,qmd+2,...,q(md+d)}代表经过时序网络后输出的时序特征。首先,要通过时序特征计算出运动特征及相邻帧之间的差值,用V表示:
Vm={vmd+1,vmd+2,...,v(md+d)}
vn=qn-qn-1
其中,vn表示骨架序列n的高级时序特征的时间差异。由于连续clips之间共享一个LSTM层,短时序的空间特征被馈送到共享LSTM层,以获得短时序特征:
h’m=fLSTM(Qm)
h’m=fLSTM({qmd+1,qmd+2,...,q(md+d)})
其中gm是短时序m共享LSTM的最后隐藏状态,fLsTM(·)表示两个短时序之间的共享值。
(4.3)融合每一短时序序列的输出结果作为骨架序列中的动态时序特征。
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(4.3)包括:对于人体骨架的空间特征,将人体骨架分解的每一部分定义为p,其中p∈{1,2,3,4,5},首先对人体骨架各个部分得到的特征进行归一化,选取每一部分的最大值作为该骨架部分的特征表示,然后选取每一部分的最大值进行聚合,对于特征向量的维度i求取的每一部分的最大值为人体骨架的空间特征则是聚合人体分解的五部分:
(5)将GCNN提取的空间信息与LSTM提取的时序信息进行融合;
(6)通过SVM分类器进行分类识别,识别人体具体行为。
相较于现有技术,本发明具有以下有益效果:
(1)本发明提供的一种基于可穿戴设备和人体骨架的行为识别方法,在系统运行过程中可以通过分析可穿戴设备采集的数据,识别出人体整体状态(走路、跑步)以及位置信息,防止工作人员进入危险区域或过度劳累而导致事故发生;
(2)本发明提供的一种基于可穿戴设备和人体骨架的行为识别方法,可以实时对作业现场工作人员行为进行检测,及时纠正不规范动作。本方法利用骨架信息识别人体行为,大大提升了检测鲁棒性。
附图说明
图1是本发明实施例提供的一种基于可穿戴设备和人体骨架的行为识别方法结流程意图;
图2是本发明实施例提供的一种基于可穿戴设备和人体骨架的行为识别方法可穿戴设备深度学习网络框架图;
图3是本发明实施例提供的一种基于可穿戴设备和人体骨架的行为识别方法主体网络框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1所示,是实施例提供的一种基于可穿戴设备和人体骨架的行为识别方法流程示意图;实施例提供的一种基于可穿戴设备和人体骨架的行为识别方法包括如下步骤:
(1)基于可穿戴设备,获取人体整体行为状态:
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(1)包括可穿戴设备采用3.7V的锂电池供电,Lora模块所采用的频段为433MHz。在实际测试环境中,在空旷的地方传输速率为5.12Kbps,传输距离200米。具体如下子步骤:
(1.1)采用MPU6050三轴加速度角速度传感器采集加速度、角速度,心率传感器采集人体心率数据,采用北斗定位模块实时获取位置信息;
(1.2)采用Lora模块进行组网实现行为信息的远距离、低功耗传输。
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(1.2)中行为信息的传输采用LPWAN中Lora组网技术,Lora是由Semtech公司发布的无线电调制解调技术。该技术具有Lora-WAN协议、Lora私有协议、CLASS协议和数据透传四个类别,相较于其他低功耗广域物联网技术,该技术在功耗、自组网等方面存在很大的优势。Lora可以选择多种组网方式来适应客户不同场景下的不同需求,多样化的组网方式提升系统的泛化性。
(1.3)将角速度、角速度以及心率数据输入神经网络,识别人体整体行为(如走路,跑步)。
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(1.3)中神经网络由四个层级构成,第一个层级为卷积层;第二、三个层级为胶囊层;第四个层级为全连接层,最后加入一个分类器进行分类。其中,胶囊的工作原理主要就是由目前的标量信息的输入、输出更改为矢量信息的输入、输出,从而为各个行为信息特征之间加入空间特性,胶囊层与胶囊层之间采用动态路由协议来进行模型参数的更新。
图2所示,是实施例提供的一种基于可穿戴设备和人体骨架的行为识别方法可穿戴设备深度学习网络框架图;优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(1.3)中神经网络模型具体包括如下子步骤:
步骤一:感知到的行为信息经过滑动窗口分割之后,每一个行为所对应的行为信息的大小为:1×Window_Size×3。其中,Window_Size是指一个行为完整周期的长度。网络架构模型的输入行为信息大小为:Batch_Size×1x×Window_Size×3,其中,Batch_Size是指一次训练输入行为信息的个数。
步骤二:将Batch_Size×1×Window_Size×3的行为信息通过CNN的卷积单元进行矢量化,其计算公式如下:
其中,Xi是指一次输入信息中的第i个输入信息。Wij是第j个卷积单元的权重参数,初始默认值为服从截断正态分布的随机数。bj是第j个卷积单元的偏置参数初始值默认为0.0。卷积核的数量使用n来表示。Yj是矢量输出数据。输出信息大小为:
步骤三:胶囊层由多个胶囊组成,每个胶囊封装了多组卷积核,将上一步的Y,输入到第一个胶囊层进行处理,其计算公式如下:
其中,Wjl是指第一个胶囊层中第l个胶囊单元的权重参数,初始值为服从截断正态分布的随机数;m表示第一个胶囊层中包含胶囊的数量。bl是指第一个胶囊层中第l个胶囊单元的偏置参数,初始值为0.0。squash(·)函数是一种对矢量信息进行处理的非线数,与对标量信息进行处理的非线性函数的功能类似,对标量信息进行处理的非线性函数包括tanh(·)、relu(·)等,是指第一个胶囊层的输出。令Con_layer表示则输出大小为
步骤四:将第一个胶囊层输出的具有空间特性的行为信息作为下一个胶囊层的输入,其中,参数的调整通过动态路由协议进行,其计算公式如下所示:
其中,bik是指第一个胶囊层中第i个胶囊单元和第二个胶囊层中第k个胶囊单元的动态路由权重。bij是指第一个胶囊层中第i个胶囊单元和第二个胶囊层中第j个胶囊单元的动态路由权重。是指每个胶囊的输出。Sj是指第二个胶囊层经过动态路由协议之后输出的行为信息特征。是指第二个胶囊层的输出。输出的大小为Batch_Size×Num_Output×Vec_Lenv×1。其中,Num_Output表示第二个胶囊层中胶囊单元的个数。
步骤五:将胶囊层处理完毕的信息通过全连接层单元进行处理,输出信息为:Batch_Size×Output_Length×1,其中Output_Length表示全连接层中单元的个数。
步骤六:最后将行为信息输入到Softmax分类器进行分类识别,该分类器处理完的结果为输入行为对应各个行为的概率值。并判定当前行为属于概率值最大的那类行为。
(2)基于深度相机,获取人体骨架信息;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(2)包括:对作业现象使用kinect深度相机实时拍摄。如图3所示,是本发明实施例提供的一种基于可穿戴设备和人体骨架的行为识别方法主体网络框架图。
(3)通过图卷积网络提取人体骨架的空间特征;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(3)包括如下子步骤:
(3.1)将人体骨架分解成5部分(两条胳膊、两条腿和躯干);
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(3.1)包括:对于人体骨架的空间特征,如果直接对人体骨架的空间关系进行三维图卷积,并没有探索身体各关节的联系。由于行为动作是由身体各部位之间相互协调完成的。例如,人在走路时除了腿在迈动,胳膊也在摆动。所以将人体骨架分解成5部分(两条胳膊、两条腿和躯干)。
(3.2)对人体骨架分解的5个部分经过全连接层进行处理确保每一部分的特征维度都相同,作为网络的输入;
(3.3)使用图卷积神经网络对人体骨架分解的每一部分进行建模,图卷积中的每个节点代表每个身体部分的特征;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(3.3)包括:首先使用图卷积对骨架序列的空间特征进行处理,对于单帧图卷积操作,在设定步长(stride)为Ⅰ且有合适padding的条件下,给定kernel大小为K×K的卷积算子和一个通道数为c的输入特征图fin﹐单通道在空间位置处的输出值可以表示为:
其中采样函数p用来列举位置x的邻域h=1,权重函数w用于计算和采用c维通道输入特征向量的内积,这里采用的是可变性卷积中的公式形式。
对于节点vti其邻近节点集合B(vti)={vtj|d(vtj,vti)≤D}上的采样函数,其中d(vtj,vti)表示从vtj到vti,的最小长度。采样函数可以被写作:
p(vtj,vti)=vtj
通过划分某一关节点vti的邻居集B(vti)到固定数量的K个子集来简化建立空间顺序索引这一过程,其中每个子集共用一个标签。因此我们可以有一个映射lti:B(vti)→{0,...,K-1},它将邻域中的节点映射到其子集标签。权重函数w(vtj,vti)可以通过索引一个(c,,K)维的张量表述:
w(vtj,vti)=w’(lti(vtj))
则单通道在空间位置处的输出值更新为:
(3.4)融合图卷积中的各个节点作为人体骨架的空间结构特征。
(4)使用长短时记忆网络提取骨架序列的时序信息;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(4)包括如下子步骤:
(4.1)对长的骨架序列进行稀疏采样并时序分割以确保能够获取到骨架序列中的有用信息;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(4.1)包括:对于骨架序列集合其中为骨架序列Vm中的第t帧骨架,T为骨架序列的总帧数,采样后得到长度为s骨架序列集合采用平均下采样,即从第一帧开始每隔进行采样,对于s>t,则保持原骨架序列长度不变。
(4.2)将等长的短时序序列分别送入共享权重下的循环神经网络中的长短期记忆网络(LSTM)中;
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(4.2)包括:由于骨架序列中包含丰富的时间动态信息,为了捕获骨架序列中详细的时序信息。将骨架序列分成多个时序clips,假设一组骨架序列有N帧组成,该骨架序列以d帧的间隔被分成M个clips。可以从LSTM网络中提取骨架序列的高级时序特征,如下所示:
{Q1,Q2,...,QM}
其中,Qm={qmd+1,qmd+2,…,q(md+d)}代表经过时序网络后输出的时序特征。首先,要通过时序特征计算出运动特征及相邻帧之间的差值,用V表示:
Vm={vmd+1,vmd+2,...,v(md+d)}
vn=qn-qn-1
其中,vn表示骨架序列n的高级时序特征的时间差异。由于连续clips之间共享一个LSTM层,短时序的空间特征被馈送到共享LSTM层,以获得短时序特征:
h’m=fLSTM(Qm)
h’m=fLSTM({qmd+1,qmd+2,…,q(md+d)})
其中hm是短时序m共享LSTM的最后隐藏状态,fLSTM(·)表示两个短时序之间的共享值。
(4.3)融合每一短时序序列的输出结果作为骨架序列中的动态时序特征。
优选的,所述的一种基于可穿戴设备和人体骨架的行为识别方法中步骤(4.3)包括:对于人体骨架的空间特征,将人体骨架分解的每一部分定义为p,其中p∈{1,2,3,4,5},首先对人体骨架各个部分得到的特征进行归一化,选取每一部分的最大值作为该骨架部分的特征表示,然后选取每一部分的最大值进行聚合,对于特征向量的维度i求取的每一部分的最大值为人体骨架的空间特征则是聚合人体分解的五部分:
(5)将GCNN提取的空间信息与LSTM提取的时序信息进行融合;
(6)通过SVM分类器进行分类识别,识别人体具体行为。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于可穿戴设备和人体骨架的行为识别方法,其特征在于,包括如下步骤:
(1)基于可穿戴设备,获取人体整体行为状态:
(2)基于深度相机,获取人体骨架信息;
(3)通过图卷积网络提取人体骨架的空间特征;
(4)使用长短时记忆网络提取骨架序列的时序信息;
(5)将GCNN提取的空间信息与LSTM提取的时序信息进行融合;
(6)通过SVM分类器进行分类识别,识别人体具体行为。
2.根据权利要求1所述的一种基于可穿戴设备和人体骨架的行为识别方法,其特征在于,所述步骤(1)包括如下子步骤:
(1.1)采用MPU6050三轴加速度角速度传感器采集加速度、角速度,采用心率传感器采集人体心率数据,采用北斗定位模块获取位置信息;
(1.2)采用Lora模块进行组网实现行为信息的远距离、低功耗传输;
(1.3)将加速度、角速度以及心率数据输入神经网络模型,识别人体整体行为。
3.根据权利要求2所述的一种基于可穿戴设备和人体骨架的行为识别方法,其特征在于,所述步骤(1.3)中神经网络模型由四个层级构成,第一个层级为卷积层;第二、三个层级为胶囊层;第四个层级为全连接层,最后加入一个分类器进行分类;其中,胶囊的工作原理是由目前的标量信息的输入、输出更改为矢量信息的输入、输出,从而为各个行为信息特征之间加入空间特性,胶囊层与胶囊层之间采用动态路由协议来进行模型参数的更新;具体包括如下子步骤:
步骤一:感知到的行为信息经过滑动窗口分割之后,每一个行为所对应的行为信息的大小为:1×Window_Size×3;其中,Window_Size是指一个行为完整周期的长度,神经网络模型的输入行为信息大小为:Batch_Size×1x×Window_Size×3,其中,Batch_Size是指一次训练输入行为信息的个数;
步骤二:将Batch_Size×1×Window_Size×3的行为信息通过CNN的卷积单元进行矢量化,其计算公式如下:
其中,Xi是指一次输入信息中的第i个输入信息;Wij是第j个卷积单元的权重参数,初始默认值为服从截断正态分布的随机数;bj是第j个卷积单元的偏置参数,初始值默认为0.0;卷积核的数量使用n来表示;Yj是矢量输出数据;输出信息大小为:
步骤三:胶囊层由多个胶囊组成,每个胶囊封装多组卷积核,将步骤二的Y输入到第一个胶囊层进行处理,其计算公式如下:
其中,Wjl是指第一个胶囊层中第l个胶囊单元的权重参数,初始值为服从截断正态分布的随机数;m表示第一个胶囊层中包含胶囊的数量;bl是指第一个胶囊层中第l个胶囊单元的偏置参数,初始值为0.0;squash(·)函数是一种对矢量信息进行处理的非线数;是指第一个胶囊层的输出;令Con_layer表示则输出大小为
步骤四:将第一个胶囊层输出的具有空间特性的行为信息作为下一个胶囊层的输入,其中,参数的调整通过动态路由协议进行,其计算公式如下所示:
其中,bik是指第一个胶囊层中第i个胶囊单元和第二个胶囊层中第k个胶囊单元的动态路由权重;bij是指第一个胶囊层中第i个胶囊单元和第二个胶囊层中第j个胶囊单元的动态路由权重;是指每个胶囊的输出;Sj是指第二个胶囊层经过动态路由协议之后输出的行为信息特征;是指第二个胶囊层的输出,输出的大小为Batch_Size×Num_Output×Vec_Lenv×1;其中,Num_Output表示第二个胶囊层中胶囊单元的个数;
步骤五:将胶囊层处理完毕的信息通过全连接层单元进行处理,输出信息为:Batch_Size×Output_Length×1,其中,Output_Length表示全连接层中单元的个数;
步骤六:最后将行为信息输入到Softmax分类器进行分类识别,该分类器处理完的结果为输入行为对应各个行为的概率值,并判定当前行为属于概率值最大的那类行为。
4.根据权利要求1所述的一种基于可穿戴设备和人体骨架的行为识别方法,其特征在于,所述步骤(3)包括如下子步骤:
(3.1)将人体骨架分解成5部分;
(3.2)对人体骨架分解的5个部分经过全连接层进行处理确保每一部分的特征维度都相同,作为网络的输入;
(3.3)使用图卷积神经网络对人体骨架分解的每一部分进行建模,图卷积中的每个节点代表每个身体部分的特征;
(3.4)融合图卷积中的各个节点作为人体骨架的空间结构特征。
5.根据权利要求4所述的一种基于可穿戴设备和人体骨架的行为识别方法,其特征在于,所述步骤(3.3)包括:首先使用图卷积对骨架序列的空间特征进行处理,对于单帧图卷积操作,在设定步长stride为I且在padding的条件下,给定kernel大小为K×K的卷积算子和一个通道数为c的输入特征图fin,单通道在空间位置处的输出值可表示为:
其中采样函数p用来列举位置x的邻域h=1,权重函数w用于计算和采用c维通道输入特征向量的内积,这里采用的是可变性卷积中的公式形式;
对于节点vti其邻近节点集合B(vti)={vtj|d(vtj,vti)≤D}上的采样函数,其中d(vtj,vti)表示从vtj到vti,的最小长度;采样函数可被写作:
p(vtj,vti)=vtj
通过划分一关节点vti的邻居集B(vti)到固定数量的K个子集来简化建立空间顺序索引这一过程,其中每个子集共用一个标签;因此有一个映射lti:B(vti)→{0,...,K-1},它将邻域中的节点映射到其子集标签;权重函数w(vtj,vti)可通过索引一个(c,K)维的张量表述:
w(vtj,vti)=w′(lti(vtj))
则单通道在空间位置处的输出值更新为:
6.根据权利要求1所述的一种基于可穿戴设备和人体骨架的行为识别方法,其特征在于,所述步骤(4)包括如下子步骤:
(4.1)对长的骨架序列进行稀疏采样并时序分割以确保能够获取到骨架序列中的有用信息;
(4.2)将等长的短时序序列分别送入共享权重下的循环神经网络中的长短期记忆网络(LSTM)中;
(4.3)融合每一短时序序列的输出结果作为骨架序列中的动态时序特征。
8.根据权利要求6所述的一种基于可穿戴设备和人体骨架的行为识别方法,其特征在于,所述步骤(4.2)中长短期记忆网络结构包括:由于骨架序列中包含丰富的时间动态信息,为捕获骨架序列中详细的时序信息,将骨架序列分成多个时序clips,假设一组骨架序列有N帧组成,该骨架序列以d帧的间隔被分成M个clips,可从LSTM网络中提取骨架序列的高级时序特征,如下所示:
{Q1,Q2,...,QM}
其中,Qm={qmd+1,qmd+2,...,q(md+d)}代表经过时序网络后输出的时序特征;首先,要通过时序特征计算出运动特征及相邻帧之间的差值,用V表示:
Vm={vmd+1,vmd+2,...,v(md+d)}
vn=qn-qn-1
其中,vn表示骨架序列n的高级时序特征的时间差异;由于连续clips之间共享一个LSTM层,短时序的空间特征被馈送到共享LSTM层,以获得短时序特征:
h′m=fLSTM(Qm)
h′m=fLSTM({qmd+1,qmd+2,...,q(md+d)})
其中hm是短时序m共享LSTM的最后隐藏状态,fLSTM(·)表示两个短时序之间的共享值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912123.2A CN113627326B (zh) | 2021-08-10 | 2021-08-10 | 一种基于可穿戴设备和人体骨架的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912123.2A CN113627326B (zh) | 2021-08-10 | 2021-08-10 | 一种基于可穿戴设备和人体骨架的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627326A true CN113627326A (zh) | 2021-11-09 |
CN113627326B CN113627326B (zh) | 2024-04-12 |
Family
ID=78383859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110912123.2A Active CN113627326B (zh) | 2021-08-10 | 2021-08-10 | 一种基于可穿戴设备和人体骨架的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627326B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114184883A (zh) * | 2021-11-22 | 2022-03-15 | 国网河南省电力公司漯河供电公司 | 一种基于配电网故障仿真的配网故障检测精度计算方法 |
CN114821766A (zh) * | 2022-03-10 | 2022-07-29 | 电子科技大学 | 一种基于时空卷积和时间序列特征融合的行为识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150279053A1 (en) * | 2014-03-31 | 2015-10-01 | Electronics And Telecommunications Research Institute | System and method for motion estimation |
JP2016099982A (ja) * | 2014-11-26 | 2016-05-30 | 日本電信電話株式会社 | 行動認識装置、行動学習装置、方法、及びプログラム |
CN108549876A (zh) * | 2018-04-20 | 2018-09-18 | 重庆邮电大学 | 基于目标检测和人体姿态估计的坐姿检测方法 |
CN110348524A (zh) * | 2019-07-15 | 2019-10-18 | 深圳市商汤科技有限公司 | 一种人体关键点检测方法及装置、电子设备和存储介质 |
KR20200016126A (ko) * | 2018-08-06 | 2020-02-14 | 주식회사 포리버 | 증강 현실용 스켈레톤 매핑에 의한 모션 표현 방법 |
CN112395945A (zh) * | 2020-10-19 | 2021-02-23 | 北京理工大学 | 基于骨骼关节点的图卷积行为识别方法及装置 |
-
2021
- 2021-08-10 CN CN202110912123.2A patent/CN113627326B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150279053A1 (en) * | 2014-03-31 | 2015-10-01 | Electronics And Telecommunications Research Institute | System and method for motion estimation |
JP2016099982A (ja) * | 2014-11-26 | 2016-05-30 | 日本電信電話株式会社 | 行動認識装置、行動学習装置、方法、及びプログラム |
CN108549876A (zh) * | 2018-04-20 | 2018-09-18 | 重庆邮电大学 | 基于目标检测和人体姿态估计的坐姿检测方法 |
KR20200016126A (ko) * | 2018-08-06 | 2020-02-14 | 주식회사 포리버 | 증강 현실용 스켈레톤 매핑에 의한 모션 표현 방법 |
CN110348524A (zh) * | 2019-07-15 | 2019-10-18 | 深圳市商汤科技有限公司 | 一种人体关键点检测方法及装置、电子设备和存储介质 |
CN112395945A (zh) * | 2020-10-19 | 2021-02-23 | 北京理工大学 | 基于骨骼关节点的图卷积行为识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114184883A (zh) * | 2021-11-22 | 2022-03-15 | 国网河南省电力公司漯河供电公司 | 一种基于配电网故障仿真的配网故障检测精度计算方法 |
CN114821766A (zh) * | 2022-03-10 | 2022-07-29 | 电子科技大学 | 一种基于时空卷积和时间序列特征融合的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113627326B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764059B (zh) | 一种基于神经网络的人体行为识别方法及系统 | |
CN110309861B (zh) | 一种基于生成对抗网络的多模态人类活动识别方法 | |
CN107403154A (zh) | 一种基于动态视觉传感器的步态识别方法 | |
Leon et al. | Video hand gestures recognition using depth camera and lightweight cnn | |
Filtjens et al. | Skeleton-based action segmentation with multi-stage spatial-temporal graph convolutional neural networks | |
US20220156587A1 (en) | Multi-head deep metric machine-learning architecture | |
CN111461063B (zh) | 一种基于图卷积和胶囊神经网络的行为识别方法 | |
CN111881802B (zh) | 基于双分支时空图卷积网络的交警手势识别方法 | |
Singh et al. | Human pose estimation using convolutional neural networks | |
CN113627326B (zh) | 一种基于可穿戴设备和人体骨架的行为识别方法 | |
Su et al. | HDL: Hierarchical deep learning model based human activity recognition using smartphone sensors | |
Zinonos et al. | Grape leaf diseases identification system using convolutional neural networks and Lora technology | |
CN110097029A (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
CN114550053A (zh) | 一种交通事故定责方法、装置、计算机设备及存储介质 | |
Li et al. | A novel spatial-temporal graph for skeleton-based driver action recognition | |
CN111914643A (zh) | 一种基于骨骼关键点检测的人体动作识别方法 | |
CN109362066B (zh) | 一种基于低功耗广域物联网和胶囊网络的实时行为识别系统及其工作方法 | |
Zheng et al. | Meta-learning meets the Internet of Things: Graph prototypical models for sensor-based human activity recognition | |
CN106548194A (zh) | 二维图像人体关节点定位模型的构建方法及定位方法 | |
Qin et al. | NDGCN: network in network, dilate convolution and graph convolutional networks based transportation mode recognition | |
Ahmed et al. | Robust Object Recognition with Genetic Algorithm and Composite Saliency Map | |
Shah et al. | Detection of different types of blood cells: A comparative analysis | |
CN112818942B (zh) | 一种车辆行驶过程中行人动作识别方法和系统 | |
Du | The computer vision simulation of athlete’s wrong actions recognition model based on artificial intelligence | |
Byukusenge et al. | Life detection based on uavs-thermal images in search and rescue operation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |