CN113239897B - 基于时空特征组合回归的人体动作评价方法 - Google Patents

基于时空特征组合回归的人体动作评价方法 Download PDF

Info

Publication number
CN113239897B
CN113239897B CN202110666807.9A CN202110666807A CN113239897B CN 113239897 B CN113239897 B CN 113239897B CN 202110666807 A CN202110666807 A CN 202110666807A CN 113239897 B CN113239897 B CN 113239897B
Authority
CN
China
Prior art keywords
space
feature
time
action
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110666807.9A
Other languages
English (en)
Other versions
CN113239897A (zh
Inventor
王正友
王佳辉
张志涛
孙鑫
杨桂懿
庄珊娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang Tiedao University
Original Assignee
Shijiazhuang Tiedao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang Tiedao University filed Critical Shijiazhuang Tiedao University
Priority to CN202110666807.9A priority Critical patent/CN113239897B/zh
Publication of CN113239897A publication Critical patent/CN113239897A/zh
Application granted granted Critical
Publication of CN113239897B publication Critical patent/CN113239897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空特征组合回归的人体动作评价方法,涉及人体动作识别方法技术领域。所述方法包括如下步骤:三维坐标动作序列提取:根据现有基于骨骼坐标的动作识别方法或者数据集,获取到已识别的三维坐标动作序列;特征编码提取:对获取到的已识别的动作序分别从时间特征、空间特征和时空特征三个方面进行特征编码;特征码融合:根据自注意力网络融合时间特征、空间特征和时空特征三个方面的特征编码信息;动作回归评分:将融合后的特征送入回归评价模块进行处理,给出动作的最终得分。所述方法通过人体特征编码提取以及特征码融合,使得具有评分准确度更高的优点。

Description

基于时空特征组合回归的人体动作评价方法
技术领域
本发明涉及人体动作识别方法技术领域,尤其涉及一种基于时空特征组合回归的人体动作评价方法。
背景技术
人体动作的相似性研究仍处于初级阶段,人体动作评价是动作执行状态的评估。对于动作评价任务,现阶段工作主要通过三种方式进行建模:1)将问题转化为分类任务,将测试者分为新手和专家;2)将问题转化为成对排序任务;
3)利用专家评委给出的可靠得分指导训练过程,最后利用训练好的参数将动作评价表述为回归任务。
将动作评价转化为分类任务方法仅仅是为了确定测试者的熟练级别,并不能得到测试者的具体得分。而且设定的级别过于粗糙,不能定量评价动作优劣。现有方法并不能将动作进行全局时空解耦分析。动作评价是时空序列综合评价,时间特征和空间特征分别决定了测试者的动作标准度和动作熟练度。
发明内容
本发明所要解决的技术问题是如何提供一种评分准确度高的基于时空特征组合回归的人体动作评价方法。
为解决上述技术问题,本发明所采取的技术方案是:一种基于时空特征组合回归的人体动作评价方法,其特征在于包括如下步骤:
三维坐标动作序列提取:根据现有基于骨骼坐标的动作识别方法或者数据集,获取到已识别的三维坐标动作序列;
特征编码提取:对获取到的已识别的动作序分别从时间特征、空间特征和时空特征三个方面进行特征编码;
特征码融合:根据自注意力网络融合时间特征、空间特征和时空特征三个方面的特征编码信息;
动作回归评分:将融合后的特征送入回归评价模块进行处理,给出动作的最终得分。
采用上述技术方案所产生的有益效果在于:所述方法通过对已识别的三维坐标动作序列进行时间特征值、空间特征和时空特征三个方面的特征编码,并通过自注意力网络融合三个特征编码信息,将融合后的特征送入回归模块,给出动作的最终得分。本方法充分考虑时空特征以及全局和局部特征,计算准确度高。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例所述方法的流程图;
图2是本发明实施例所述方法的处理流程图;
图3是本发明实施例所述方法中获取到的三维人体坐标图;
图4是本发明实施例所述方法中多层感知机模型图;
图5是本发明实施例所述方法中自适应空间结构特征融合块图;
图6是本发明实施例所述方法中时空结构特征自适应融合图卷积网络图;
图7是本发明实施例所述方法中自注意力机制网络方法图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1-图2所示,本发明实施例公开了基于时空特征组合回归的人体动作评价方法,包括如下步骤:
三维坐标动作序列提取:根据现有基于骨骼坐标的动作识别方法或者数据集,获取到已识别的三维坐标动作序列,人体动作三维骨骼节点数据可由Kinect摄像机或人体坐标数据集或OpenPose等现有方法提取获得,获得三维坐标数据如图3所示;
特征编码提取:对获取到的已识别的动作序分别从时间特征、空间特征和时空特征三个方面进行特征编码;
特征码融合:根据自注意力网络融合时间特征、空间特征和时空特征三个方面的特征编码信息;
动作回归评分:将融合后的特征送入回归评价模块进行处理,给出动作的最终得分。
下面结合具体的技术方案对以上内容进行说明:
对动作序列进行时间特征编码:
时空建模中,时间依赖性学习能力是评估模型的标准,基于CNN的TCN方法,TCN可以将任意长度序列映射为等长输入序列,继承了CNN优势,具有稳定梯度等优点,一定程度上避免了过拟合出现,所以时间卷积被广泛的应用于时空建模中。采用门控激活单元(Gated Activation Unit)优化TCN,利用Sigmoid和Tanh激活函数计算元素乘积,并且增加了残差连接以加速收敛,并使梯度下降能在更深的网络模型中传播。Gated TCN模块充分考虑了时间卷积单元之间关系,增强了时间网络非局部性。门控激活单元表达式如下:
h=tanh(Θ1x+b)⊙σ(Θ2x+c) (1)
其中,⊙表示哈达玛积,tanh(·)代表输出层激活函数,σ(·)表示Sigmoid函数,控制信息输出到下一层的比率。
对动作序列进行空间特征编码:
人体关节点坐标包含了人体位置信息,是动作识别重要数据来源,因此对关节点特征提取具有重要意义;GCN在非欧几里得域中处理节点信息,特征和邻接矩阵输入嵌入图中,GCN分层更新规则如下:
其中是增加了节点自身(self-loops)以保持恒等特征的邻接矩阵,I表示单位阵,/>是/>的度矩阵,σ(·)表示激活函数。
通过GCN提取骨架的结构信息,表达式如下:
其中,S1是骨架结构特征。
MLP使用不同节点集进行线性组合,具有较强全局推理能力。
训练多层感知机模型更新规则如下:
其中wk是参数权重,bl是参数偏置,η是超参数学习速率,m是后一层的输出节点个数,CXj是后一层的输入节点。
通过下采样操作,解决了非局部单元(NL-block)复杂度较高问题,下采样操作表达式如下:
S2=σ(fc(ReLU(fc(GAP(X)))) (5)
其中,X是节点特征矩阵,ReLU(·)和σ(·)表示激活函数,GAP(·)表示全局平均池化,fc(·)表示全连接层。
多层感知机模型如图4所示,fin表示输入矩阵,N×Cin×T×V表示矩阵维度,经过多级下采样输出矩阵fmlp,维度为N×Cout×1×1。
自适应空间结构特征融合块融合方法:
采用参数聚合来减少参数数量,如图5所示。通过元素乘积融合多个分支(GCN和MLP提取的特征流),其中Fsq,Fex分别表示压缩(squeeze)和激励(excitation)操作。人体动作识别不仅关注骨架关节点之间结构信息,还关注空间位置信息。
由于没有先验知识判断结构特征重要程度,需要利用加权求和方法学习不同分支的时空权重,得到注意力系数:
其中A,B为压缩后的特征向量。最终输出融合向量Sfusion
其中(:)表示S1,S2级联,softmax()是归一化指数函数。
对动作序列进行时空特征编码:
采用关节点和骨骼双流网络叠加以及多个基础网络模型迭代,结构特征自适应融合图卷积网络:
空间模块和时间模块交替处理维度为C×T×N的特征映射,如图6所示。基本块由门控TCN、结构特征空间卷积网络以及自适应融合模块组成。为了稳定训练以及保留特征数据完整性,在每个块之间增加一个跳接(skip connection)。最后利用一维卷积变换调整输出维度,将结果与残差求和送入下一个单元中。
自注意力网络实现时空特征编码融合:
自注意力机制从全局信息中寻找与自身联系较大关键信息,可以很好地利用图像的全局像素特征。同时,自注意力机制还可以学习输入的上下文信息,能够更好的处理图像中长距离和多层次依赖关系。自注意力机制流程如图7所示。
时空特征进行了提取和编码,映射为相同维度的数据。为了保留时空特征信息,时空特征编码融合过程:
其中,代表矩阵乘法,/>表示级联运算,/>和/>分别表示时空特征、时间特征和空间特征编码信息,W(t)表示注意力参数。
其中softmax(·)表示softmax函数,FCkey(·)表示学习输入映射的全连接层。
经过特征提取编码和融合,得到了评分依据信息,最后一步需要将融合特征送入回归模块得到动作的最终得分,回归模块预测动作得分如式:
其中,S代表动作预测分数,表示注意力融合特征,T表示骨骼序列的长度,/>表示回归模块。
损失函数选用均方误差,定义为其中yi和/>表示标签值和预测值,C表示样本数。
从时空角度分析人体动作,分别得到时间和空间得分以及总分,所以损失函数需要综合分析,损失函数时空表示如下:
L=Lst+θLs+(1-θ)Lt (11)
其中,Lst,Ls,Lt分别表示时空动作评价总分,空间得分和时间得分。θ表示可学习权重。
回归评价模块方法不但可以求出人体动作总分,而且分别得到了时间和空间得分。这样做可以让测试者更好的从空间得分中判断自己动作是否标准,从时间得分中判断自己的熟练度是否符合要求。

Claims (2)

1.一种基于时空特征组合回归的人体动作评价方法,其特征在于包括如下步骤:
特征编码提取:对获取到的已识别的动作序分别从时间特征、空间特征和时空特征三个方面进行特征编码;
特征码融合:根据自注意力网络融合时间特征、空间特征和时空特征三个方面的特征编码信息;
动作回归评分:将融合后的特征送入回归评价模块进行处理,给出动作的最终得分;
采用结构特征空间卷积网络图卷积GCN和多层感知机模型MLP分别对骨架节点和关节点特征进行提取,并利用自适应空间结构特征融合块进行融合,实现空间特征提取编码信息;
使用结构特征空间卷积网络图卷积GCN对骨架节点特征进行提取的方法如下:
通过GCN分层规则进行更新:
其中是增加了节点自身以保持恒等特征的邻接矩阵,I表示单位阵,/>是/>的度矩阵,σ(·)表示激活函数;
通过GCN提取骨架的结构信息,表达式如下:
其中S1是骨架结构特征;
使用多层感知机模型MLP对关节点特征进行提取的方法如下:
训练多层感知机模型MLP更新规则如下:
其中wk是参数权重,bl是参数偏置,η是超参数学习速率,m是后一层的输出节点个数,是后一层的输入节点;
通过下采样操作解决复杂度较高问题,表达式如下:
S2=σ(fc(ReLU(fc(GAP(X)))) (5)
其中X是节点特征矩阵,ReLU(·)和σ(·)表示激活函数,GAP(·)表示全局平均池化,fc(·)表示全连接层;
利用自适应空间结构特征融合块进行融合的方法如下:
学习不同分支的时空权重,得到注意力系数:
其中A,B为压缩后的特征向量,最终输出融合向量Sfusion
其中(:)表示S1,S2级联,softmax()是归一化指数函数;
所述自注意力网络进行融合的方法如下:
时空特征编码融合过程:
其中代表矩阵乘法,/>表示级联运算,/>ft (t)和fs (t)分别表示时空特征、时间特征和空间特征编码信息,W(t)表示注意力参数;
其中softmax(·)表示softmax函数,FCkey(·)表示学习输入映射的全连接层;
使用回归评价模块进行评价的方法如下:
回归评价模块预测动作得分如下式:
其中S代表动作预测分数,表示注意力融合特征,T表示骨骼序列的长度,/>表示回归模块;
损失函数选用均方误差,定义为其中yi和/>表示标签值和预测值,C表示样本数;
从时空角度分析人体动作,分别得到时间和空间得分以及总分,所以损失函数需要综合分析,损失函数时空表示如下:
其中分别表示时空动作评价总分,空间评价得分和时间评价得分,θ表示可学习权重;
采用门控TCN对时间特征进行特征编码提取;采用门控TCN对时间特征进行特征编码提取的方法如下:
采用门控激活单元优化TCN,利用Sigmoid和Tanh激活函数计算元素乘积,门控激活单元表达式如下:
h=tanh(Θ1x+b)⊙σ(Θ2x+c) (1)
其中⊙表示哈达玛积,tanh(·)代表输出层激活函数,σ(·)表示Sigmoid函数,控制信息输出到下一层的比率。
2.如权利要求1所述的基于时空特征组合回归的人体动作评价方法,其特征在于,所述方法还包括根据现有基于骨骼坐标的动作识别方法或者数据集,获取到已识别的三维坐标动作序列的步骤。
CN202110666807.9A 2021-06-16 2021-06-16 基于时空特征组合回归的人体动作评价方法 Active CN113239897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110666807.9A CN113239897B (zh) 2021-06-16 2021-06-16 基于时空特征组合回归的人体动作评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110666807.9A CN113239897B (zh) 2021-06-16 2021-06-16 基于时空特征组合回归的人体动作评价方法

Publications (2)

Publication Number Publication Date
CN113239897A CN113239897A (zh) 2021-08-10
CN113239897B true CN113239897B (zh) 2023-08-18

Family

ID=77140091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110666807.9A Active CN113239897B (zh) 2021-06-16 2021-06-16 基于时空特征组合回归的人体动作评价方法

Country Status (1)

Country Link
CN (1) CN113239897B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7387069B1 (ja) 2022-02-04 2023-11-27 三菱電機株式会社 機械学習装置、熟練行動判定装置、機械学習方法、及び機械学習プログラム
CN114625971B (zh) * 2022-05-12 2022-09-09 湖南工商大学 一种基于用户签到的兴趣点推荐方法及设备
CN117333950B (zh) * 2023-11-30 2024-03-12 苏州元脑智能科技有限公司 动作生成方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401270A (zh) * 2020-03-19 2020-07-10 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其系统
CN112364757A (zh) * 2020-11-09 2021-02-12 大连理工大学 一种基于时空注意力机制的人体动作识别方法
CN112396018A (zh) * 2020-11-27 2021-02-23 广东工业大学 一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401270A (zh) * 2020-03-19 2020-07-10 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其系统
CN112364757A (zh) * 2020-11-09 2021-02-12 大连理工大学 一种基于时空注意力机制的人体动作识别方法
CN112396018A (zh) * 2020-11-27 2021-02-23 广东工业大学 一种结合多模态特征分析与神经网络的羽毛球运动员犯规动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多模态信息的人体动作评价方法;王子健;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210115(第01期);正文第4章 *

Also Published As

Publication number Publication date
CN113239897A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113239897B (zh) 基于时空特征组合回归的人体动作评价方法
CN111476181B (zh) 一种人体骨架动作的识别方法
CN110309732B (zh) 基于骨架视频的行为识别方法
WO2022083624A1 (zh) 一种模型的获取方法及设备
CN113469356A (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
Ding et al. Where to prune: Using LSTM to guide data-dependent soft pruning
CN111204476B (zh) 一种基于强化学习的视触融合精细操作方法
CN111292195A (zh) 风险账户的识别方法及装置
CN113516133B (zh) 一种多模态图像分类方法及系统
CN113505924B (zh) 一种基于级联时空特征的信息传播预测方法及系统
CN112651360B (zh) 一种小样本下骨架动作识别方法
CN113688765B (zh) 一种基于注意力机制的自适应图卷积网络的动作识别方法
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN112560948A (zh) 数据偏差下的眼底图分类方法及成像方法
CN115659275A (zh) 非结构化人机交互环境中的实时准确轨迹预测方法及系统
Luo et al. Robust-EQA: robust learning for embodied question answering with noisy labels
Xiang et al. Spiking siamfc++: Deep spiking neural network for object tracking
CN111612046B (zh) 特征金字塔图卷积神经网络及其在3d点云分类中的应用
WO2023174064A1 (zh) 自动搜索方法、自动搜索的性能预测模型训练方法及装置
CN115512214A (zh) 一种基于因果注意力的室内视觉导航方法
CN115186804A (zh) 一种编码器-解码器网络结构及采用该网路结构的点云数据分类与分割方法
CN115018134A (zh) 一种基于三尺度时空信息的行人轨迹预测方法
CN110796195B (zh) 一种包含在线小样本激励的图像分类方法
CN111563413A (zh) 一种基于混合双模型的年龄预测方法
Puente et al. Predicting COVID-19 Cases using Deep LSTM and CNN Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant