CN117272168A - 基于运动时序特征编码的人体动作识别与预测方法 - Google Patents

基于运动时序特征编码的人体动作识别与预测方法 Download PDF

Info

Publication number
CN117272168A
CN117272168A CN202311167194.XA CN202311167194A CN117272168A CN 117272168 A CN117272168 A CN 117272168A CN 202311167194 A CN202311167194 A CN 202311167194A CN 117272168 A CN117272168 A CN 117272168A
Authority
CN
China
Prior art keywords
sequence
motion
action
model
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311167194.XA
Other languages
English (en)
Inventor
柳凌峰
李淑琴
肖勇
廖海斌
邱吉刚
谭杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Minxuan Intelligent Science & Technology Co ltd
Original Assignee
Jiangxi Minxuan Intelligent Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Minxuan Intelligent Science & Technology Co ltd filed Critical Jiangxi Minxuan Intelligent Science & Technology Co ltd
Priority to CN202311167194.XA priority Critical patent/CN117272168A/zh
Publication of CN117272168A publication Critical patent/CN117272168A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/10Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
    • G01C21/12Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
    • G01C21/16Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
    • G01C21/165Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation combined with non-inertial navigation instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于动作识别与预测技术领域,提供了基于运动时序特征编码的人体动作识别与预测方法,所述方法包括:建立人体骨架模型,基于人体骨架模型构建动作序列;根据自动分割模型对动作序列进行分割,得到子动作序列;根据聚类算法对子动作序列进行关键帧提取;将关键帧进行编码赋值,得到关键帧对应数字序列的编码表;基于注意力机制,重新分配普通帧和关键帧的权重比例;根据长短期记忆循环神经网络和注意力机制,构建人体动作识别模型;获取测试动作序列,根据人体动作识别模型,得到动作识别结果,本申请对于人体的行为动作序列,利用关键帧对运动序列进行描述,可以有效的提高模型的识别与预测效率。

Description

基于运动时序特征编码的人体动作识别与预测方法
技术领域
本申请属于动作识别与预测技术领域,尤其涉及基于运动时序特征编码的人体动作识别与预测方法。
背景技术
机器人或人工智能系统与人类主导的城市环境的无缝交互需要一定的行为识别和预测能力,高效的动作识别与预测的相关技术有助于智能系统更好的理解人类的意图和行为。
Meng等人提出了一种适用于安全系统、人机交互和智能环境的嵌入式计算机视觉应用的人体动作识别系统。利用分层运动历史直方图特征来表示运动信息,提取一个低维特征向量并将其应用到基于支持向量机分类器的人体动作识别系统。A.AravindKumar设计了基于视频分析的人体活动识别系统,主要运用了一种使用跟踪像素点的轨迹的方法,该方法利用信号处理技术找出它们的属性,提取其中的特征,用支持向量机对数据进行训练,最终对新视频进行分类。
但是,基于3D人体姿态的运动生成模型通常局限于少数活动,难以很好地推广到新的运动或应用。通常是对每帧获取直方图然后进行计算,整个过程实时性较差,同时在跟踪过程中,需要手动选择感兴趣的点或区域进行匹配,当区域旋转或改变其形状时,某些点可能会丢失,对特征提取的影响较大。
发明内容
本申请实施例的目的在于提供基于运动时序特征编码的人体动作识别方法,旨在解决基于3D人体姿态的运动生成模型通常局限于少数活动,难以很好地推广到新的运动或应用。
本申请实施例是这样实现的,基于运动时序特征编码的人体动作识别方法,所述方法包括:
建立人体骨架模型,基于所述人体骨架模型构建动作序列;
根据自动分割模型对所述动作序列进行分割,得到子动作序列;
根据聚类算法对所述子动作序列进行关键帧提取;
将所述关键帧进行编码赋值,得到关键帧对应数字序列的编码表;
基于注意力机制,重新分配普通帧和关键帧的权重比例;所述注意力机制是加权求和并重新分配权重;
根据长短期记忆循环神经网络和所述注意力机制,构建人体动作识别模型。
本申请实施例的另一目的在于基于运动时序特征编码的人体动作预测方法,所述方法包括:
获取动作序列;
根据自动分割模型对所述动作序列进行分割,得到子动作序列;
根据聚类算法对所述子动作序列进行关键帧提取;
将所述关键帧进行编码赋值,得到关键帧对应数字序列的编码表;
基于隐马尔可夫模型,根据所述编码表训练与优化隐马尔可夫模型参数;
通过基于关键帧的NG-HMM模型,对动作序列进行预测。
本申请实施例提供的基于运动时序特征编码的人体动作识别方法,通过建立人体骨架模型,基于所述人体骨架模型构建动作序列,在人体肢体运动过程中,根据运动的不同语义和姿态,可以得到肢骨的角度信息和空间位置信息;根据自动分割模型对所述动作序列进行分割,得到子动作序列,将在时间序列上的预测和拟合特性与人体运动在时间序列上的规律性相结合,更加符合运动规律,克服了传统模型仅适用于短期运动序列预测的局限性,允许模型对长期运动序列进行分割;根据聚类算法对所述子动作序列进行关键帧提取,可以简单的实现关键帧的提取,同时有不错的聚类效果,能够有效的将运动序列中的相似帧进行归类达到关键帧提取的目的;通过将所述关键帧进行编码赋值,得到关键帧对应数字序列的编码表,使得原来的表示动作姿态的动作序列被变换成数字序列,减少计算复杂度以提高人体动作的识别率;通过基于注意力机制,重新分配普通帧和关键帧的权重比例,聚合具有不同权重的运动特征表示,以减少信息碎片,将注意力引入人体动作序列中,使其赋予关键帧更多的注意,可以更加有效的进行人体动作的识别;根据长短期记忆循环神经网络和所述注意力机制,构建人体动作识别模型,权重值大的帧会获取更大的网络训练比例,携带更多有用信息的帧更有可能作为识别结果输出。极大的提高了数据利用率和识别模型的性能。
附图说明
图1为本申请实施例提供的基于运动时序特征编码的人体动作识别方法的流程图;
图2为本申请实施例提供的基于运动时序特征编码的人体动作识别方法的行走运动状态中的人体四肢骨段的角度特征图;
图3为本申请实施例提供的基于运动时序特征编码的人体动作识别方法的注意关键帧后的行走动作序列图;
图4为本申请实施例提供的基于运动时序特征编码的人体动作识别方法的人体骨骼和欧拉角;
图5为本申请实施例提供的基于运动时序特征编码的人体动作识别方法的LSTM网格架构图;
图6为本申请实施例提供的基于运动时序特征编码的人体动作预测方法的流程图;
图7为本申请实施例提供的基于运动时序特征编码的人体动作预测方法的NG-HMM模型结构图;
图8为本申请实施例提供的基于运动时序特征编码的人体动作识别与预测方法的运动数据采集图。
图9为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,在一个实施例中,提出了一种基于运动时序特征编码的人体动作识别方法,具体可以包括以下步骤:
步骤S102,建立人体骨架模型,基于所述人体骨架模型构建动作序列;
在本申请实施例中,针对人体动作的识别方法,首先是采集和处理不同行为动作的运动数据。在人体肢体运动过程中,根据运动的不同语义和姿态,可以得到肢骨的角度信息和空间位置信息。本申请中的人体骨架模型是一种树状层次结构模型,它由一个根节点和多个子树构成。整个骨架模型大致可以分为18个骨段,每个骨段都有一个父骨段和若干个子骨段,父骨段与子骨段之间由关节连接。
步骤S104,根据自动分割模型对所述动作序列进行分割,得到子动作序列;
在本申请实施例中,提出了一种基于肢体骨段间夹角结构表示和自回归移动平均(ARMA)模型拟合的无监督分割算法。将ARMA模型在时间序列上的预测和拟合特性与人体运动在时间序列上的规律性相结合。计算人体动作序列中的时间拐点,通过适应度算法识别并提取拐点,实现运动序列分割。该方法克服了ARMA模型仅适用于短期动作序列预测的局限性,允许ARMA模型进行长期动作序列分割。
步骤S106,根据聚类算法对所述子动作序列进行关键帧提取;
在本申请实施例中,利用自动分割模型将包含多个动作的复杂动作序列自动分割为多段子动作序列之后,采用K-Means聚类算法对子动作序列进行关键帧的提取。K-Means算法是一种无监督学习算法,其特点是实现较为简单,同时有不错的聚类的效果,该算法应用范围较广,其次K-means算法能够有效的将动作序列中的相似帧进行归类达到关键帧提取的目的。
步骤S108,将所述关键帧进行编码赋值,得到关键帧对应数字序列的编码表;
在本申请实施例中,采用了标签编码的方法降低动作序列的特征矩阵的维度,将提取出的人体动作关键帧进行编码赋值,使得原来的动作序列被变换成数字序列,减少计算复杂度以提高人体动作的识别率。在编码表的构建过程中,由于动作数据具备在时序上的特征,为了更好的对它们进行编码处理,需要分析这些动作在时序上的特征。以走路动作为例,图2分别展示了在行走的过程中人体四肢在时序上的角度特征,从图中可以观察到,同一肢体的骨分区在时序上具有周期性与因果性。这可以作为关键帧类型的判断依据。
步骤S110,基于注意力机制,重新分配普通帧和关键帧的权重比例;所述注意力机制是加权求和并重新分配权重;
在本申请实施例中,在大量的运动数据中,很多动作帧会提供相同的有用信息,而一些令人印象深刻的动作帧中可能包含了能够记录主要动作的最具辨别力的信息。因此采用了基于关键帧的注意力机制来进行注意力分配,并聚合具有不同权重的运动特征表示,以减少信息碎片。将注意力引入人体动作模型中,使其赋予关键帧更多的注意,可以更加有效的进行人体运动动作的识别。图3为提取关键帧后的行走动作序列。
步骤S112,根据长短期记忆循环神经网络和所述注意力机制,构建人体动作识别模型;
在本申请实施例中,对动作序列中的动作帧分配了不同的权重比例值之后,将带有注意权重值的动作序列和对应的数字序列输入长短期记忆循环神经(LSTM)网络进行训练,权重值大的动作帧会获取更大的网络训练比例,携带更多有用信息的动作帧更有可能作为识别结果输出。极大的提高了数据利用率和识别模型的性能。
在一个实施例中,如图4所示,建立人体骨架模型,基于所述人体骨架模型构建动作序列,具体可以包括以下步骤:
步骤S202,选择髋部作为人体骨架模型的根节点;
步骤S204,基于所述根节点,用空间位置坐标表示其他节点的位置;
步骤S206,使用特征向量描述所述人体骨架模型的动作;
步骤S208,多个动作组成动作序列。
在本申请实施例中,当人体运动时,各个肢体的运动可以描述为该肢体骨段相对其父骨段关节的运动,人体四肢会周期性地在弯曲和伸展姿势之间切换,然后,肢体将显示出周期性变化,肢体之间的变化将形成相关性。因此,可以用肢体分割角来改进运动序列的语义描述。在人体骨架模型的建立中,髋部节点通常被选作为树状人体骨架模型的根节点,它约束着其子节点。骨架模型由每个关节点的空间位置坐标表示,因此,需要将每个关节点的旋转角度的数据转换为关节点的坐标,
P=Proot+Or-1...+O2+O1+O0
其中,Mr是关节点的旋转矩阵,Proot是根节点的位置,Or是子节点相对于父节点的位置。图4(b)显示了欧拉角在笛卡尔坐标系Z-X-Y中的旋转顺序,其中滚转角用r表示,偏航角用y表示,俯仰角用p表示。
在本申请实施例中,选取了基于手工特征融合而成的特征向量。该特征向量包含三部分特征,分别为:相邻骨段间的夹角、四肢骨段与中心骨段(髋节点与脊椎节点之间的骨段)之间的夹角和各骨段至中心节点(髋节点)的空间位置距离。通过肢体骨段夹角结合关节点之间的空间距离,可以有效的对人体全身的运动姿态的语义进行描述。不同骨段的运动角度特征是由各个骨段之间的夹角大小变化决定的。对于四肢骨段与中心骨段之间的夹角大小和四肢相邻骨段之间的夹角大小的计算:
其中,θ∈[0,180°],θA为中心脊柱骨段分区上的方向向量,θB={θa,θb,...,θh}为人体各肢体分区上的方向向量。
不同骨段的运动三维空间特征是由各个四肢骨段与中心节点之间的空间位置距离的大小变化决定的。对于节点之间的空间位置距离计算:
其中,XA=(xa,ya,za)和XB=(xb,yb,zb)分别是笛卡尔坐标系中人体骨架中心节点(髋节点)的三维空间位置坐标和各四肢骨段的三维空间位置坐标。
在一个实施例中,根据自动分割模型对所述动作序列进行分割,得到子动作序列,具体可以包括以下步骤:
步骤S302,将运动序列与自动分割模型进行拟合;
步骤S304,选择分割窗口,根据所述自动分割模型计算分割点,得到子动作序列。
在本申请实施例中,关于ARMA模型,它是研究时间序列的重要模型。它由自回归(AR)模型和移动平均线(MA)模型组成。在ARMA模型中,一个变量Yt在任何时间t的数据被表示为其观测序列Yt-1、Yt-2、…,Yt-p和历史随机干扰序列εt-1、εt-2、…,εt-q的线性组合。ARMA(p,q)如下所示:
Yt=AR+MA,AR=c+β1Yt-11Yt-2+...+βpYt-p’
MA=λ1εt2εt-2+...+λqεt-q+c
其中,p和q分别是AR和MA的阶数。βp和λq分别为AR和MA的计算系数。c为剩余常数。
在ARMA模型中结合了人类肢体动作序列中每个肢体骨段和中央脊柱骨段之间的夹角特征。夹角序列的ARMA模型用公式表示:
其中θi为肢体骨段夹角的拟合数据,为线性近似系数,/>为残差。
对运动序列完成ARMA模型拟合后,选择合适的分割窗口,根据ARMA模型计算肢骨角度特征序列的分割点。提取人体骨骼姿态的肢骨角度信息序列,采用中值滤波的方法,得到最终的分割点集合,可以推导出公式:
s=median(Si)
在一个实施例中,根据聚类算法对所述子动作序列进行关键帧提取,具体可以包括以下步骤:
步骤S402,将子动作序列分为多个类簇,计算得到类簇的均值向量,所述类簇的维度相同,类簇内平方误差和最小;
步骤S404,基于欧几里得距离公式,重新计算类簇的均值向量,得到确定均值向量;
步骤S406,将确定均值向量作为所述子动作序列的关键帧,并提取。
在本申请实施例中,K-Means算法的原理是将数据集分成k个类簇,每个类簇中的动作帧都离该簇中心点最近。对于运动的动作序列U=[u1,u2,...,un]作为模型的输入。设其中每一个样本维度相同,有类簇集合C={C1,C2,...,Ck},K-Means算法可以将这n样本划分至k个类簇中,其中1<k<n,并且使得类内平方误差和E最小,
其中μi是类簇Ci的均值向量,即类簇的质心。
在算法执行的过程中,随机选取”k”个点作为初始的聚类中心,然后对数据集中每个点计算它离哪个中心点最近。在研究中,欧几里得距离是最常用的空间距离度量方式之一,该方法在三维空间均具有普遍性和适用性,如公式所示:
其中μi和μj分别是类簇Ci和Cj的均值向量。将C中所有的样本点重新计算新的质心μi,直到所有的质心向量都不再发生变化,最终输出重新划分后的类簇将确定的k个质心,作为该运动动作序列的关键帧将其提取出来。
在一个实施例中,将所述关键帧进行编码赋值,得到关键帧对应数字序列的编码表,具体可以包括以下步骤:
步骤S502,确定关键帧的动作类型和关键姿态;
步骤S504,基于码表,赋予关键帧对应的数字序列,所述码表包含了所有动作类型和关键姿态对应的数字序列。
在本申请实施例中,对于编码表的建立,先定义一个关键帧动作姿态的特征向量为Fak:其中a表示第a种动作类型;k表示第k类关键姿态。码表包含了所有动作类型和关键姿态的特征向量,所以码表也被定义为:CB={Fik},i=1,…,I。码表中的动作类型和关键姿态的特征向量根据训练样本数据的时间顺序进行排列,总共包括k个特征向量。这些动作类型和关键姿态根据在码表中的次序被赋值为1,2,…,K。将不同动作类型的关键姿态分别转换成数字序列{c1,c2,...cr},从而达到编码的目的,使得人体运动分析方法可以更好的推广到各种行为任务。
在一个实施例中,基于注意力机制,重新分配普通帧和关键帧的权重比例,具体可以包括以下步骤:
步骤S602,确定子动作序列中普通帧与关键帧的相关程度;
步骤S604,根据相关程度计算普通帧和关键帧在子动作序列中的权重值。
在本申请实施例中,应用了注意力机制,对不同运动类型下产生的关键帧进行了权重分配处理。注意力机制是一种加权求和并进行权重分配的机制,它会筛选并提取出序列中与关键帧相似性较高的帧,然后根据基于注意力机制的权重值重新分配这些帧的权重比例。具体地,不同帧与关键帧在特征序列中的相似度高低被用来决定它们在重新分配的权重比例中所占的比重。
在本申请实施例中,假设特征动作序列U的总帧数为n,按照公式得到变换后的特征序列U′为U′=[α1U1,α2U2,…,αiUi,…αnUn],其中,Ui为处理前的特征矩阵,αi为各个动作帧的权重。方法的关键就是计算出合适的αi
Qi为特征序列中各帧与关键帧之间的相关程度。当相关程度越高时,对应帧被分配的权重值越高;当相关程度越低时,对应帧被分配的权重值越低。相关计算公式如下:
其中,cov(·,·)为特征序列中普通帧与关键帧之间的协方差,σU为特征序列中普通帧的标准差,σL为关键帧的标准差。得到特征序列中各帧与关键帧的相关程度Qi后,即可得出最后各帧所分配的权重值
αi=f(Qi,Ui)
其中f(·)为帧与帧之间基于相关度Qi的权重分配函数。α表示当前序列的输出概率。它表示运动序列中动作的最终状态,作为各个动作帧的注意权重值。
在一个实施例中,如图5所示,根据长短期记忆循环神经网络和所述注意力机制,构建人体动作识别模型,具体可以包括以下步骤:
步骤S702,将样本特征动作序列和标签数字序列输入至Bi-LSTM层;
步骤S704,利用全连接层输出训练后的状态矩阵;
步骤S706,通过softmax层将网络的输出转换为各类动作状态的概率向量;
步骤S708,通过分类层得到不同的动作类型的相关参数。
在本申请实施例中,如图5所示的LSTM网络结构,将长度为N,维度为20的样本特征动作序列和长度为N,维度为1,包含20类动作状态的标签数字序列一同输入至Bi-LSTM层。分别得到隐藏状态为128的特征序列。然后利用全连接层(FC)输出长度为N,维度为20的训练后的状态矩阵。通过softmax层将网络的输出转换为各类动作状态的概率向量。最后通过分类层得到不同的动作类型的相关参数。
在一个实施例中,如图6所示,一种基于运动时序特征编码的人体动作预测方法,包括:
步骤S802,获取动作序列;
步骤S804,根据自动分割模型对所述动作序列进行分割,得到子动作序列;
步骤S806,根据聚类算法对所述子动作序列进行关键帧提取;
步骤S808,将所述关键帧进行编码赋值,得到关键帧对应数字序列的编码表;
步骤S810,基于隐马尔可夫模型,根据所述编码表训练与优化隐马尔可夫模型参数;
步骤S812,建立基于关键帧的NG-HMM模型,对动作序列进行预测。
在本申请实施例中,所述预测方法的一部分步骤是基于识别方法中的相关步骤得到的,方人体行为可以看作是一个可观察的序列,人体的运动姿态序列在时间上具有动态性,即观测到的行为骨架图像所属的状态随时间在发生转变。例如,某个行为周期开始时接近于一个状态,随着时间进行该姿势变化后就接近于另一个状态,然后接近第三个、第四个,如此循环。对于某个动作,其在足够小的时间段内的特性是相对稳定的,并且总的过程可以看作从一个特性过渡到另一个特性。因此,可以用马尔可夫链来描述某个行为,将许多线性模型串接起来。
在人体运动时,骨骼肌的紧张和放松是有一定顺序的。因此,我们可以将某个行为看作由一系列连续的姿势组成。在这个过程中,当前的姿势仅仅取决于前一个姿势,这正好符合马尔可夫性质。从统计学的角度,一个人的运动周期可以看作是一个概率模型,其中某个时刻的状态(如站立、行走、跑步等)与下一个时刻的可能状态之间存在概率依赖关系。这种依赖关系可以用概率转移矩阵来表示,其元素表示在某个状态下,转移到另一个状态的概率。在行为周期中,一个人可能停留在某个特定的状态一段时间,其停留时间可以用概率分布来刻画。因此,可以使用统计学方法对一个人的运动周期进行建模和分析。通过一个马尔可夫矩阵可以描述这些状态之间的转移关系。
矩阵编码了动态信息,其中包括某个时间点的运动状态持续时间密度以及从一个状态转移到另一个状态的转移概率。这种编码方式可以帮助我们在对人体运动周期进行建模和分析时,分析其状态持续时间和转移规律。然而,对于观察者来说,人体运动的某个状态的停留和转移是一个隐藏的过程,不容易直接观测到。因此,需要在观测到的运动数据中,通过概率推断技术去预测、估计运动状态的变化过程,通过观察动作姿态的骨架图像序列可以间接获取状态及其转移,因此适合利用基于HMM的方法对其进行建模和描述。
在一个实施例中,基于隐马尔可夫模型,根据所述编码表训练与优化隐马尔可夫模型参数,具体可以包括以下步骤:
步骤S902,将关键帧对应的数字序列添加到相应的HMM模型参数中;
步骤S904,对数字序列进行HMM模型训练,利用Baum-Welch算法对模型参数进行优化;
步骤S906,通过Viterbi算法输出训练后的概率分布矩阵并推断运动意图。
在本申请实施例中,对于有限个不同的姿势状态序列Q={q1,q2,...qN},N是模型的状态数,时段t所处的状态只能为{q1,q2,...qN}中的某一个。对于随机矢量O={o1,o2...oT},每个观察向量对不同的状态都有相应的输出概率。其中T代表时间序列的长度。每种动作都可以由一组隐马尔可夫模型参数很好地建模为λ=(A,B,π)。利用贝叶斯规则P(Oi|λ)作为计算该模型生成的动作的概率。其中参数A是表示状态转移概率的矩阵,参数π是初始状态分布概率,参数B表示所有状态的输出概率。
对于HMM模型中的隐藏状态,我们利用聚类后得到的包括五类动作的20类运动关键帧替代原动作序列中的真实帧,作为HMM模型中的隐藏状态。测试序列的每一帧特征矩阵作为观测值。利用样本运动数据建立运动数据库,通过数据库中动作数据在时序上的特征,得到识别模型的初始参数。
假设样本从隐藏状态qi转移到qj的频率计数是Aij,状态转移矩阵如下公式:
A=[αij]
假设样本隐藏状态为qj且观测状态为Ok的频率计数是Bjk。我们将观测状态O=[O1,O2...OT]中的每一动作帧与之前提取的20类动作关键帧利用公式进行相似度的对比,得到所有状态的输出概率:
其中m和n代表每一个动作帧的行和列,和/>分别为状态矩阵和观测矩阵的平均值。假设所有样本中初始隐藏状态为qi的频率计数为C(i),那么初始概率分布如下公式所示:
为了执行预测任务,参数设置λ在给定运动样本序列时,需要先对样本数据进行训练。通过运动数据库得到初始参数模型λI,参数设置λ由Baurn-Welch算法迭代细化。状态转移概率和初始概率分布/>是重新估计的结果,通过Baum-Welch算法训练后,得到重新优化后的HMM模型参数。
在本申请实施例中,在测试阶段,测试数据进入到训练后的HMM模型中,得到的贝叶斯概率分布矩阵,表示其似然性。对于测试得到概率分布矩阵,我们利用Viterbi算法对所有可能的路径结束的概率进行估计,并计算出最优的隐藏状态路径,即解决P(I|O,λ)最大化的问题,定义δt(i)是在沿着一条状态路径q1,q2,...,qt且qt=θi的情况下,得到观测序列O={o1,o2,...ot}的最大概率值:
计算最优路径序列Q*相关计算公式为:
初始化:δ1(i)=πibi(o1),ψ1(i)=0,1≤i≤N
递归:
终止:
最佳状态路径序列:
其中N是模型的状态数,δt(i)是在时段t隐藏状态为i的累积输出概率,即产出O={o1,o2...ot}最大概率的状态转移路径q1,q2,...,qt中的概率值,ψt(i)是一个二维数组,如果在t时刻处于状态qi,那么t-1时段所处的状态就是ψt(i),argmax表示使δt(i)最大时i的取值。为最优状态路径序列在t时段的状态,P*为最终的概率输出值。通过该算法,可以得到最优的隐藏状态序列。
在一个实施例中,通过基于关键帧的NG-HMM模型,对动作序列进行预测,基于HMM模型预测得到最优的离散的隐藏状态序列的概率,建立NG-HMM模型。
在本申请实施例中,本申请的预测方法中,人的一系列动作被表示为基于关键帧的离散的时间序列,可以将这个离散的时间序列看作是一个文本序列,其中每个关键姿态可以看作一个基本单元(词语),并根据先前的运动(上下文)来预测下一步运动的概率;例如,根据人的步态和行走习惯来推测下一步脚的位置和移动方向。同时,人体的运动是一个具有时序性和因果性的过程,其输出的变量之间不是互相独立,而是彼此依赖的,因此可以将其构建成一个结构化预测的问题,通过N-Gram模型的N元特征描述连续时刻(位置)的上下文信息,在很大程度上体现了结构化预测任务中“结构”的概念。因此,在基于HMM模型的预测方法上加以改进,结合N-Gram语言模型以及基于运动关键帧的人体运动数据库,构建了NG-HMM预测模型。
在本申请实施例中,如图7所示的NG-HMM的模型结构图,在Viterbi算法预测出最优隐藏状态路径的基础上,推导出一个N-Gram模型,可以提取基于关键帧的运动状态的过渡结构。模型通过标准数据库确定该局部状态动作序列在码本空间中的位置,以及后续发展的运动状态,实现了运动动作姿态的中长期的序列预测。
连续的运动数据可以表示为一系列分段运动模式数据O={o1,o2,...,ot...,oT}。通过先前的HMM模型,预测得到最优的离散的隐藏状态路径S={S1,…,St-1,St},其中的t表示一个连续的时间段,St即是t时段内的运动状态,该运动状态在t时段内的特性相对稳定,可以利用一个相对应的运动关键帧来表达该运动状态。假设路径S的隐藏状态搜索空间为Q={q1,q2,…qN},那么T+1时段的预测状态sT+1出现的概率可以用之前的最优的隐藏状态路径的概率建立一个N-Gram模型,利用HMM模型中的状态转移矩阵,可以推导出公式,
其中N是模型的状态数,C(·)为状态动作序列在训练动作的预测结果中出现的频率。转换概率和输出概率的集合形成了一个有向图。此外,有效地利用长期历史中的运动重复性可以实现运动的中长期预测。
在本申请实施例中,采用基于Matlab数据的分析编程语言进行网络的搭建和算法的设计,使用Axis Neuron Pro动捕软件进行BVH数据文件导出。同时采用了Noitom公司生产的Perception Neuron Pro惯性动作捕捉设备进行数据的采集。
Perception Neuron是一款基于惯性式传感器的动作捕捉系统,由传感器、信号收集和传输设备以及信号处理系统构成。其中,惯性式传感器负责采集数据,信号收集和传输设备负责收集和传输传感器采集的信号,最后,信号处理系统利用PC端的PerceptionNeuron软件对传感器采集到的信号进行处理,计算出人体各关节的相对偏移位置,从而获得并重建三维运动数据。Perception Neuron系统结合了导航和定向系统,具有操作简单、数据采集精度高等优点。
Perception Neuron动作捕捉系统利用可穿戴式IMU传感器(包括加速度计、陀螺仪和磁力计)来测量身体加速度、角速度和磁场强度等数据。该系统可以同时采集多个传感器的数据,以获取更加准确的人体运动姿态数据。在采集数据过程中,传感器被放置在人体的关键部位,例如头部、手臂、腰部和脚部等位置。在人体运动时,传感器可以测量许多有关运动的信息,例如加速度、角速度以及地磁场的强度等等,然后这些数据将通过无线传输技术传输到计算机上进行处理和储存。Perception Neuron系统使用高精度的数据处理算法,能够滤除采集到数据中的噪声和进行数据的校准等处理,确保采集到的数据的准确性和可靠性。采集到的数据可以以原始数据格式或者标准的运动捕捉格式进行存储,以便后续的信号处理和三维重建等应用。
在本申请实施例中,为了设计和评估所提出的动作识别体系,对四名受试者的动作数据进行了测量,其中包括三名男性和一名女性。图8显示了测量中不同类型的动作姿势,包括行走、跑步、举手、蹲下和抬腿等动作。
应该理解的是,虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.基于运动时序特征编码的人体动作识别方法,其特征在于,所述方法包括:
建立人体骨架模型,基于所述人体骨架模型构建动作序列;
根据自动分割模型对所述动作序列进行分割,得到子动作序列;
根据聚类算法对所述子动作序列进行关键帧提取;
将所述关键帧进行编码赋值,得到所述关键帧对应数字序列的编码表;
基于注意力机制,重新分配普通帧和关键帧的权重比例;所述注意力机制是加权求和并重新分配权重;
根据长短期记忆循环神经网络和所述注意力机制,构建人体动作识别模型。
2.根据权利要求1所述的基于运动时序特征编码的人体动作识别方法,其特征在于,所述建立人体骨架模型,基于所述人体骨架模型构建动作序列,包括以下步骤:
选择髋部作为人体骨架模型的根节点;
基于所述根节点,用空间位置坐标表示其他节点的位置;
使用特征向量描述所述人体骨架模型的动作;
多个动作组成动作序列。
3.根据权利要求1所述的基于运动时序特征编码的人体动作识别方法,其特征在于,所述根据自动分割模型对所述动作序列进行分割,得到子动作序列,包括以下步骤:
将动作序列与自动分割模型进行拟合;
选择分割窗口,根据所述自动分割模型计算分割点,得到子动作序列。
4.根据权利要求1所述的基于运动时序特征编码的人体动作识别方法,其特征在于,所述根据聚类算法对所述子动作序列进行关键帧提取,包括:
将子动作序列分为多个类簇,计算得到类簇的均值向量,所述类簇的维度相同,类簇内平方误差和最小;
基于欧几里得距离公式,重新计算类簇的均值向量,得到确定均值向量;
将确定均值向量作为所述子动作序列的关键帧,并提取。
5.根据权利要求1所述的基于运动时序特征编码的人体动作识别方法,其特征在于,所述将所述关键帧进行编码赋值,得到关键帧对应数字序列的编码表,包括:
确定关键帧的动作类型和关键姿态;
基于码表,赋予关键帧对应的数字序列,所述码表包含了所有动作类型和关键姿态对应的数字序列。
6.根据权利要求1所述的基于运动时序特征编码的人体动作识别方法,其特征在于,所述基于注意力机制,重新分配普通帧和关键帧的权重比例,包括:
确定子动作序列中普通帧与关键帧的相关程度;
根据相关程度计算普通帧和关键帧在子动作序列中的权重值。
7.根据权利要求1所述的基于运动时序特征编码的人体动作识别方法,其特征在于,所述根据长短期记忆循环神经网络和所述注意力机制,构建人体动作识别模型,包括:
将样本特征动作序列和标签数字序列输入至Bi-LSTM层;
利用全连接层输出训练后的状态矩阵;
通过softmax层将网络的输出转换为各类动作状态的概率向量;
通过分类层得到不同的动作类型的相关参数。
8.基于运动时序特征编码的人体动作预测方法,其特征在于,所述方法包括:
获取动作序列;
根据自动分割模型对所述动作序列进行分割,得到子动作序列;
根据聚类算法对所述子动作序列进行关键帧提取;
将所述关键帧进行编码赋值,得到关键帧对应数字序列的编码表;
基于隐马尔可夫模型,根据所述编码表训练与优化隐马尔可夫模型参数;
建立基于关键帧的NG-HMM模型,对动作序列进行预测。
9.根据权利要求8所述的基于运动时序特征编码的人体动作预测方法,其特征在于,所述基于隐马尔可夫模型,根据所述编码表训练与优化隐马尔可夫模型参数,包括以下步骤:
将关键帧对应的数字序列添加到相应的HMM模型参数中;
对数字序列进行HMM模型训练,利用Baum-Welch算法对模型参数进行优化;
通过Viterbi算法输出训练后的概率分布矩阵并推断运动意图。
10.根据权利要求8所述的基于运动时序特征编码的人体动作预测方法,其特征在于,所述通过基于关键帧的NG-HMM模型,对动作序列进行预测,基于HMM模型预测得到最优的离散的隐藏状态序列的概率,建立NG-HMM模型。
CN202311167194.XA 2023-09-11 2023-09-11 基于运动时序特征编码的人体动作识别与预测方法 Pending CN117272168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311167194.XA CN117272168A (zh) 2023-09-11 2023-09-11 基于运动时序特征编码的人体动作识别与预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311167194.XA CN117272168A (zh) 2023-09-11 2023-09-11 基于运动时序特征编码的人体动作识别与预测方法

Publications (1)

Publication Number Publication Date
CN117272168A true CN117272168A (zh) 2023-12-22

Family

ID=89215173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311167194.XA Pending CN117272168A (zh) 2023-09-11 2023-09-11 基于运动时序特征编码的人体动作识别与预测方法

Country Status (1)

Country Link
CN (1) CN117272168A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475518A (zh) * 2023-12-27 2024-01-30 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117558067A (zh) * 2023-12-28 2024-02-13 天津大学 基于动作识别和序列推理的动作预测方法
CN118470803A (zh) * 2024-07-11 2024-08-09 电子科技大学 基于多角度特征融合的骨骼点动作识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475518A (zh) * 2023-12-27 2024-01-30 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117475518B (zh) * 2023-12-27 2024-03-22 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117558067A (zh) * 2023-12-28 2024-02-13 天津大学 基于动作识别和序列推理的动作预测方法
CN118470803A (zh) * 2024-07-11 2024-08-09 电子科技大学 基于多角度特征融合的骨骼点动作识别方法
CN118470803B (zh) * 2024-07-11 2024-09-03 电子科技大学 基于多角度特征融合的骨骼点动作识别方法

Similar Documents

Publication Publication Date Title
Plappert et al. Learning a bidirectional mapping between human whole-body motion and natural language using deep recurrent neural networks
CN117272168A (zh) 基于运动时序特征编码的人体动作识别与预测方法
CN110020623B (zh) 基于条件变分自编码器的人体活动识别系统及方法
Xia et al. Complete random forest based class noise filtering learning for improving the generalizability of classifiers
CN110309861B (zh) 一种基于生成对抗网络的多模态人类活动识别方法
CN109086805B (zh) 一种基于深度神经网络和成对约束的聚类方法
CN111967495B (zh) 一种分类识别模型构建方法
Sayed et al. From time-series to 2d images for building occupancy prediction using deep transfer learning
CN111539941B (zh) 帕金森病腿部灵活性任务评估方法及系统、存储介质及终端
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN110298303B (zh) 一种基于长短时记忆网络扫视路径学习的人群识别方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN117407772B (zh) 监督对比学习网络模型训练多元时序数据分类方法及系统
CN116502161A (zh) 一种基于动态超图神经网络的异常检测方法
Sharma et al. Data pre-processing using neural processes for modeling personalized vital-sign time-series data
CN117974693B (zh) 图像分割方法、装置、计算机设备和存储介质
CN111652177A (zh) 基于深度学习的信号特征提取方法
Kiciroglu et al. Long term motion prediction using keyposes
Sun et al. Time pattern reconstruction for classification of irregularly sampled time series
CN105740815B (zh) 一种基于深度递归分层条件随机场的人体行为识别方法
Nguyen et al. Estimation of gait normality index based on point clouds through deep auto-encoder
Figueroa-Angulo et al. Compound hidden Markov model for activity labelling
CN111191475A (zh) 一种基于uhf rfid的被动式行为识别方法
Nia et al. The Power of ANN-Random Forest Algorithm in Human Activities Recognition Using IMU Data
CN115795347A (zh) 一种行为识别模型的构建方法、行为识别模型及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination