CN116189284A - 人体运动预测方法、装置、设备及存储介质 - Google Patents
人体运动预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116189284A CN116189284A CN202211637516.8A CN202211637516A CN116189284A CN 116189284 A CN116189284 A CN 116189284A CN 202211637516 A CN202211637516 A CN 202211637516A CN 116189284 A CN116189284 A CN 116189284A
- Authority
- CN
- China
- Prior art keywords
- training
- action
- motion
- motion prediction
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明涉及运动预测的技术领域,尤其涉及一种人体运动预测方法、装置、设备及存储介质,该人体运动预测方法包括:获取待预测动作的已观测动作序列;获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列;将待预测动作的已观测动作序列和各个训练动作的已观测动作序列共同输入目标运动预测模型,得到待预测动作和各个训练动作各自对应的预测序列;确定各个预测序列中与待预测动作对应的预测序列为运动预测结果。本发明实现了提高人体运动预测的准确性。
Description
技术领域
本发明涉及运动预测的技术领域,尤其涉及一种人体运动预测方法、装置、设备及存储介质。
背景技术
人体动作预测是跟根据过去一段时间内观测到的人体运动动作,来预测未来一段时间的人体运动动作。人体运动预测可以预测人体未来的姿态序列,这在众多领域中起着至关重要的作用,例如,人体运动预测对于自动驾驶、人机交互和行人跟踪等智能交互至关重要。
近年来,神经网络在人体运动预测中得到越来越多的应用。目前,现有的神经网络模型通常是输入单个过去动作序列,预测单个未来动作序列,串行处理各个不同动作的不同时间序列。这导致在预测过程中,用于运动预测的神经网络模型只能关注到单个的动作序列,导致人体运动预测的结果准确性不高。
发明内容
本发明的主要目的在于提供一种人体运动预测方法、装置、设备及计算机可读存储介质,旨在提高人体运动预测的准确性。
为实现上述目的,本发明提供一种人体运动预测方法,该人体运动预测方法包括以下步骤:
获取待预测动作的已观测动作序列;
获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到所述目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列;
将所述待预测动作的已观测动作序列和各个所述训练动作的已观测动作序列共同输入所述目标运动预测模型,得到所述待预测动作和各个所述训练动作各自对应的预测序列;
确定各个所述预测序列中与所述待预测动作对应的预测序列为运动预测结果。
可选地,在所述获取待预测动作的已观测动作序列的步骤之前,所述方法还包括:
获取编码单元联合注意力机制构建的初始运动预测模型,并获取待训练数据集中各个类别的训练动作各自的已观测动作序列;
将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征;
将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果;
基于损失函数,根据各个所述训练结果调整所述初始运动预测模型中的模型参数,得到目标运动预测模型。
可选地,所述编码单元包括注意力网络和级联网络;
所述将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征的步骤,包括:
将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型的所述编码单元;
基于各个所述训练动作的已观测动作序列,通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征;
将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征。
可选地,所述基于各个所述训练动作的已观测动作序列,通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征的步骤,包括:
分别将各个所述训练动作的已观测动作序列划分为查询、键和值三部分;
对于各个所述训练动作的已观测动作序列中的任一目标动作序列,基于所述目标动作序列的查询与各个第一动作序列的键,计算得到各个所述第一动作序列各自与所述目标动作序列的关联性权重,其中,所述第一动作序列为各个所述训练动作的已观测动作序列中除所述目标动作序列之外的动作序列;
通过各个所述关联性权重对各个所述关联性权重各自对应的所述第一动作序列的值中的各个元素进行加权处理;
将各个所述第一动作序列的加权处理后的值进行融合得到所述目标动作序列对应的所述训练动作的融合特征。
可选地,所述级联网络包括GCN(Graph Convolutional Neural Networks,图卷积神经网络)网络和GRU(Gate Recurrent Unit,循环神经网络)网络;所述将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征的步骤,包括:
将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络的GCN网络;
通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征;
将各个所述强化特征输入所述级联网络的GRU网络;
通过所述级联网络的GRU网络学习各个所述强化特征的时间依赖信息,得到各个所述训练动作各自的学习特征。
可选地,所述级联网络的GCN网络中引入特异性偏置矩阵;其中,所述特异性偏置矩阵基于所述训练动作中各个关节节点的速度向量之间的余弦相关性得到;所述通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征的步骤,包括:
通过引入特异性偏置矩阵的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的关联性,并学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征。
可选地,所述解码单元包括GRU网络;所述将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果的步骤,包括:
将各个所述学习特征输入所述解码单元的GRU网络;
通过所述解码单元的GRU网络递归产生各个所述训练动作各自对应的训练结果。
此外,为实现上述目的,本发明还提供一种人体运动预测装置,该人体运动预测装置包括:
获取模块,用于获取待预测动作的已观测动作序列;
所述获取模块,还用于获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到所述目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列;
预测模块,用于将所述待预测动作的已观测动作序列和各个所述训练动作的已观测动作序列共同输入所述目标运动预测模型,得到所述待预测动作和各个所述训练动作各自对应的预测序列;
确定模块,用于确定各个所述预测序列中与所述待预测动作对应的预测序列为运动预测结果。
此外,为实现上述目的,本发明还提供一种人体运动预测设备,所述人体运动预测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体运动预测程序,所述人体运动预测程序被所述处理器执行时实现上述人体运动预测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有人体运动预测程序,所述人体运动预测程序被处理器执行时实现上述的人体运动预测方法的步骤。
本发明中,通过获取待预测动作的已观测动作序列,获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列,将待预测动作的已观测动作序列和各个训练动作的已观测动作序列共同输入目标运动预测模型,得到待预测动作和各个训练动作各自对应的预测序列,确定各个预测序列中与待预测动作对应的预测序列为运动预测结果。
本发明中,通过目标运动预测模型对待预测动作和已观测动作同时进行预测,在预测过程中,目标运动预测模型中联合注意力机制的编码单元可以关注待预测动作与各个训练动作的关联性,训练数据集中的各个已观测动作为待预测动作提供辅助信息,使得通过目标预测模型预测的预测过程更符合人体的实际运动规律,提高了人体运动预测的准确性。
附图说明
图1为本发明人体运动预测方法第一实施例的流程示意图;
图2为本发明人体运动预测方法一实施例的框架示意图;
图3为本发明人体运动预测方法一实施例的结构示意图;
图4为本发明实施例方案涉及的人体运动预测装置的功能模块示意图;
图5为本发明实施例方案涉及的人体运动预测设备的结构示意图;
图6为本发明实施例方案涉及的计算机可读存储介质的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种人体运动预测方法,参照图1所示,图1是本发明人体运动预测方法第一实施例的流程示意图。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
本实施例中,执行本发明实施例人体运动预测方法的设备可以是检测人体动作的传感器,例如,图像传感器;也可以是与检测人体动作的传感器建立通信连接的设备,例如,智能手机、PC(Personal Computer,个人计算机)、平板电脑、便携计算机等等,以下为方便描述省略执行主体进行描述。本实施例人体运动预测方法包括:
步骤S10:获取待预测动作的已观测动作序列;
本实施例中,将需要预测对应的未来动作的动作称为待预测动作,将待预测动作的已观测得到的动作序列称为已观测动作序列。
具体地,本实施例中,获取待预测动作的已观测动作序列。在具体实施方式中,可以是通过图像传感器获取已观测动作序列,本实施方式中,已观测动作序列可以是待预测动作的连续多帧图像。
步骤S20:获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到所述目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列;
本实施例中,将已经训练完成的人体运动预测模型称为目标运动预测模型,获取目标运动预测模型。具体地,本实施例中,目标运动预测模型是编码-解码框架联合注意力机制构建得到的,具体地,是编码-解码框架中的编码单元联合注意力机制,编码单元联合注意力机制构建的目标运动预测模型可以同时预测多个动作的未来动作序列,注意力机制使得目标运动预测模型可以关注待预测动作和训练动作之间的关联性。
具体地,本实施例中,获取用于训练得到目标运动预测模型的待训练数据集中各个动作(以下称为训练动作以示区分)各自的已观测动作序列。
步骤S30:将所述待预测动作的已观测动作序列和各个所述训练动作的已观测动作序列共同输入所述目标运动预测模型,得到所述待预测动作和各个所述训练动作各自对应的预测序列;
本实施例中,目标运动预测模型可以同时预测多个动作的未来动作序列,将待预测动作的已观测动作序列和各个已观测动作序列共同输入目标运动预测模型。通过目标运动预测模型可以输出得到待预测动作和各个训练动作自对应的预测序列。
在具体实施方式中,将待预测动作的已观测动作序列和各个训练动作的已观测动作序列共同输入目标运动预测模型,得到待预测动作和各个训练动作各自对应的预测序列的具体过程可以是:将待预测动作的已观测动作序列和各个训练动作的已观测动作序列共同输入目标运动预测模型,通过目标运动预测模型中联合注意力机制的编码单元对各个已观测动作序列进行特征提取,得到训练动作和待预测动作各自的特征,其中,注意力机制可以关注已观测动作序列和各个已观测动作序列之间的关联性;将训练动作和待预测动作的特征输入目标运动预测模型的解码单元,得到各个训练动作和待预测动作各自对应的预测序列。
步骤S40:确定各个所述预测序列中与所述待预测动作对应的预测序列为运动预测结果。
本实施例中,在得到待预测动作和各个训练动作各自对应的预测序列后,从各个预测序列中确定待预测动作对应的预测序列为运动预测结果。
本实施例中,通过获取待预测动作的已观测动作序列,获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列,将待预测动作的已观测动作序列和各个训练动作的已观测动作序列共同输入目标运动预测模型,得到待预测动作和各个训练动作各自对应的预测序列,确定各个预测序列中与待预测动作对应的预测序列为运动预测结果。
本实施例中,通过目标运动预测模型对待预测动作和已观测动作同时进行预测,在预测过程中,目标运动预测模型中联合注意力机制的编码单元可以关注待预测动作与各个训练动作的关联性,训练数据集中的各个已观测动作为待预测动作提供辅助信息,使得通过目标预测模型预测的预测过程更符合人体的实际运动规律,提高了人体运动预测的准确性。
进一步地,基于上述第一实施例,提出本发明人体运动预测方法的第二实施例,本实施例中,在上述步骤S10之前,人体运动预测方法还包括:
步骤S50:获取编码单元联合注意力机制构建的初始运动预测模型,并获取待训练数据集中各个类别的训练动作各自的已观测动作序列;
本实施例中,将没有进行训练的运动预测模型称为初始运动预测模型,本实施例中,初始预测模型为编码-解码框架,其中,编码单元联合注意力机制构建,联合注意力机制的编码单元在进行特征提取时,使得初始运动预测模型可以同时学习多个不同的已观测动作序列。具体地,本实施例中,获取编码单元联合注意力机制构建的初始运动预测模型。
本实施例中,获取待训练数据集中各个训练动作各自的已观测动作序列,其中,训练数据集中包括多个类别的训练动作,例如,动作的类别可以包括走、跑以及跳跃等。在具体实施方式中,可以是通过训练完成的动作分类网络对各个训练动作进行分类后,基于分类完成的训练动作构建训练数据集,具体在此不进行限制,可以根据实际需求进行设置。
步骤S60:将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征;
本实施例中,在获取初始运动预测模型和待训练数据集中各个训练动作各自的已观测动作序列后,将各个训练动作的已观测动作序列共同输入初始运动预测模型,通过各个训练动作的已观测动作序列对初始运动预测模型进行训练。
具体地,本实施例中,将各个训练动作的已观测动作序列共同输入初始运动预测模型,通过初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个训练动作各自的特征(以下称为学习特征以示区分)。
步骤S70:将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果;
本实施例中,通过初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个训练动作各自的学习特征后,将各个学习特征输入初始运动预测模型的解码单元,得到各个训练动作各自对应的训练结果。
步骤S80:基于损失函数,根据各个所述训练结果调整所述初始运动预测模型中的模型参数,得到目标运动预测模型。
本实施例中,在将各个已观测动作序列共同输入初始运动预测模型,得到各个训练动作各自对应的训练结果后,基于损失函数,根据各个训练结果调整初始运动预测模型中的模型参数,得到目标运动预测模型。
进一步地,在一些可行的实施例中,在上述步骤S80:基于损失函数,根据各个所述训练结果调整所述初始运动预测模型中的模型参数,得到目标运动预测模型之前,人体运动预测方法还包括:
将通过初始运动预测模型输出的各个训练结果输入训练完成的动作分类网络,并且将各个训练结果各自对应的已知动作类别的训练动作输入该动作分类网络。在具体实施方式中,该动作分类网络可以是基于MLP(Multilayer Perceptron,多层感知机)构建的网络,具体可以根据和实际需求进行设置,在此不进行限制。
通过该动作分类网络输出各个训练结果各自的类别(以下称为训练类别以示区分),并通过该动作分类网络输出各个训练结果各自对应的训练动作的动作类别(以下称为已观测类别以示区分)。
基于各个训练结果各自对应的训练类别和已观测类别,确定该动作分类网络的交叉熵损失,本实施例中,将交叉熵损失添加至损失函数中。
具体地,参照图2,图2为本发明人体运动预测方法一实施例的框架示意图,如图2所示,本实施例中同时将多个已观测动作序列共同输入初始运动预测模型,得到各个训练动作各自对应的训练结果。
将各个训练结果(即图2中所示PF(predication frame,预测值))输入训练完成的动作分类网络,并且将各个训练结果各自对应的已知动作类别的已观测动作(即图2中所示GT(ground truth,真实值))输入该动作分类网络。
通过该动作分类网络基于各个训练结果输出各个训练结果各自的训练类别(即图2中所示label(类别)(PF)),并通过该动作分类网络输出各个训练结果各自对应的已观测类别(即图2中所示label(类别)(GT))。
本实施例中,可以结合动作分类网络的交叉熵损失和人体具有一些固有的身体信息构建损失函数,比如人体骨骼长度不变。具体地,在一可行的实施例中,在损失函数中引入骨骼不变性约束,本实施例中,结合人体的固有信息,例如,人体的骨骼长度不变,在损失函数中加入骨骼长度不变性约束。加入动作分类网络的交叉熵损失和骨骼长度不变性约束后的损失函数如下:
其中,损失函数的第一部分计算预测节点坐标和真实坐标的二范数,T为预测的时间长度,L为关节点数,第二部分计算预测的动作在T时间内平均骨骼长度误差,N为骨骼总数,为训练动作的动作序列的骨骼长度,B为训练结果的动作序列的骨骼长,第三部分为LC代表动作分类网络的交叉熵损失。
需要说明的是,本实施例中在损失函数中加入骨骼不变性约束,使得调整初始运动预测模型在训练时可以更符合人体结构,并且在损失函数中加入交叉熵损失,通过分类模型的通过动作分类网络对初始运动预测模型的训练结果进行进一步的修正,使得目标运动预测模型的预测结果更准确。
需要说明的是,本实施例中通过联合注意力机制构建初始运动预测模型,使得初始运动预测模型可以同时学习多个不同的已观测动作序列,在通过初始运动预测模型学习一个训练动作时,能够关注到其他训练动作的信息,使得初始运动预测模型能能够关注到各个训练动作之间的关联性,使训练得到的目标运动预测模型的预测结果可以更符合人体的运动规律,提高了运动预测的准确性。
进一步地,在一些可行的实施例中,初始运动预测模型中的编码单元包括注意力网络和级联网络。
本实施例中,上述步骤S60:将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征,包括:
步骤S601:将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型的所述编码单元;
本实施例中,在获取编码单元联合注意力机制构建的初始运动预测模型,并获取待训练数据集中各个训练动作各自的已观测动作序列后,将各个训练动作各自的已观测动作序列共同输入初始运动预测模型的编码单元,得到各个训练动作各自对应的训练结果。
本实施例中,初始运动预测模型包括编码单元和解码单元,其中,编码单元包括注意力网络和级联网络,用于进行特征提取。具体地,将各个已观测动作序列共同输入初始运动预测模型中的编码单元。
步骤S602:基于各个所述训练动作的已观测动作序列,通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征;
本实施例中,将各个训练动作的已观测动作序列的特征称为序列特征,将各个训练动作各自与其它训练动作之间的关联性特征称为融合特征。
具体地,在将各个训练动作的已观测动作序列共同输入初始运动预测模型中的编码单元后,基于各个训练动作的已观测动作序列,通过编码单元的注意力网络提取得到各个训练动作各自的序列特征和各个训练动作各自对应的多融合特征。
在具体实施方式中,通过注意力网络,提取各个已观测动作中的任一动作序列(以下称为目标动作序列以示区分)的融合特征,可以是融合目标动作序列和各个第一动作序列得到融合特征,具体在此不进行限制,可以根据实际需求进行设置。
步骤S603:将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征。
本实施例中,在基于各个训练动作的已观测动作序列,通过编码单元的注意力网络提取得到各个训练动作各自的序列特征和各个训练动作各自对应的融合特征后,将各个训练动作的已观测动作序列各自的序列特征和各个训练动作各自对应的融合特征共同输入级联网络进行学习,得到各个训练动作各自的用于进行训练的特征(以下称为学习特征以示区分)。
在具体实施方式中,级联网络可以是GCN网络和GRU网络,本实施方式中,通过级联网络中的GCN网络学习已观测动作中各个关节节点的空间依赖信息,再通过级联网络中GRU网络学习训练动作的时间依赖信息。
需要说明的是,本实施例中运动预测模型包括编码单元和解码单元,其中,编码单元包括注意力网络和级联网络,注意力网络对每个不同训练动作的已观测动作序列提取对应的融合特征,使得在通过初始运动预测模型学习一个训练动作时,能够关注到其他训练动作的信息,使得初始运动预测模型能能够关注到各个训练动作之间的关联性,使训练得到的目标运动预测模型的预测结果可以更符合人体的运动规律,提高了运动预测的准确性。
进一步地,在一些可行的实施例中,上述步骤S602:基于各个所述训练动作的已观测动作序列,通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征,包括:
步骤S6021:分别将各个所述训练动作的已观测动作序列划分为查询、键和值三部分;
本实施例中,通过编码单元的注意力网络提取得到各个训练动作各自对应的融合特征。具体地,本实施例中,分别将各个训练动作的已观测动作序列划分为查询、键和值三部分。
在具体实施方式中,查询、键和值在已观测动作序列的比例可以根据实际需求进行设置,例如,在一实施方式中,查询可以是整个已观测动作序列,键为已观测动作序列的前80%,值为已观测动作序列的后20%,具体在此不进行限制。
步骤S6022:对于各个所述训练动作的已观测动作序列中的任一目标动作序列,基于所述目标动作序列的查询与各个第一动作序列的键,计算得到各个所述第一动作序列各自与所述目标动作序列的关联性权重,其中,所述第一动作序列为各个所述训练动作的已观测动作序列中除所述目标动作序列之外的动作序列;
本实施例中,在分别将各个已观测动作序列划分为查询、键和值三部分后,对于各个已观测动作序列中的任一目标动作序列,基于目标动作序列的查询与各个第一动作序列的键,计算得到各个第一动作序列各自与目标动作序列的关联性权重。本实施例中,将各个训练动作的已观测动作序列中除目标动作序列之外的动作序列称为第一动作序列。
在具体实施方式中,计算关联性权重的具体过程可以是:使用目标预测动作序列的查询,与各个第一动作序列的键对比计算得到各个第一动作序列各自与目标动作序列的关联性分数,关联性分数做归一化后得到各个第一动作序列各自与目标动作序列的关联性权重。
步骤S6023:通过各个所述关联性权重对各个所述关联性权重各自对应的所述第一动作序列的值中的各个元素进行加权处理;
本实施例中,对于各个已观测动作序列中的任一目标动作序列,基于目标动作序列的查询与各个第一动作序列的键,计算得到各个第一动作序列各自与目标动作序列的关联性权重后,通过各个关联性权重对各个关联性权重各自对应的第一动作序列的值中的各个元素进行加权处理。
步骤S6024:将各个所述第一动作序列的加权处理后的值进行融合得到所述目标动作序列对应的所述训练动作的融合特征。
本实施例中,通过各个关联性权重对各个关联性权重各自对应的第一动作序列的值中的各个元素进行加权处理后,将各个第一动作序列的加权处理后的值进行融合得到目标动作的融合特征。
在具体实施方式中,通过注意力网络提取目标动作序列可以参照注意力机制的公式,具体公式如下:
其中,Q表示目标动作序列的查询,K为目标动作序列的键,V为目标动作序列的值,softmax为归一化操作。本实施方式中,使用目标预测动作序列的查询,与各个第一动作序列的键对比计算得到各个第一动作序列各自与目标动作序列的关联性分数,关联性分数做归一化后得到各个第一动作序列各自与目标动作序列的关联性权重。通过各个关联性权重对各个关联性权重各自对应的第一动作序列的值中的各个元素进行加权处理。根据以上公式可知,Q和K之间的相似值越大,第一动作序列与目标动作序列的权重也就越大,也即,第一动作序列与目标动作序列的关联性越大。
需要说明的是,注意力网络对每个不同的已观测动作序列提取对应的融合特征,使得在通过初始运动预测模型学习一个训练动作时,能够关注到其他训练动作的信息,使得初始运动预测模型能能够关注到各个训练动作之间的关联性,使训练得到的目标运动预测模型的预测结果可以更符合人体的运动规律,提高了运动预测的准确性。
进一步地,在一些可行的实施例中,级联网络包括GCN网络和GRU网络。本实施例中,上述步骤S603:将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征,包括:
步骤S6031:将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络的GCN网络;
本实施例中,级联网络包括GCN网络和GRU网络,本实施例中,将各个训练动作各自的序列特征和各个训练动作各自对应的融合特征共同输入级联网络的GCN网络。
步骤S6032:通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征;
本实施例中,在将各个训练动作各自的序列特征和各个训练动作各自对应的融合特征共同输入级联网络的GCN网络后,通过级联网络的GCN网络,学习各个训练动作各自的序列特征和各个训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个训练动作各自的强化空间依赖信息后的特征(以下称为强化特征以示区分)。
本实施例中,编码单元中GCN网络的计算公式为:
X(l+1)=σ(AX(l)W(l)+b(l))
其中,X(l)代表第l层序列特征和融合特征,σ表示非线性变换sigmoid,A表示一个可训练的邻接矩阵,用于表征各个节点之间的关联性,W和b分别表示第l层的权重和偏置。
步骤S6033:将各个所述强化特征输入所述级联网络的GRU网络;
本实施例中,通过级联网络的GCN网络,学习各个训练动作各自的序列特征和各个训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个训练动作各自的强化特征后,将各个强化特征输入级联网络的GRU网络。
步骤S6034:通过所述级联网络的GRU网络学习各个所述强化特征的时间依赖信息,得到各个所述训练动作各自的学习特征。
本实施例中,将各个强化特征输入级联网络的GRU网络,通过级联网络的GRU网络学习各个强化特征的时间依赖信息,得到各个训练动作各自的学习特征。
具体地,本实施例中,编码单元中GRU网络的计算公式为:
rt=σ(Wr*[ht-1,xt]+br)
zt=σ(Wt*[ht-1,xt]+bz)
其中,z表示更新门,作为权重控制前一时刻的状态信息被加入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息加入越多。r表示重置门,重置门控制前一状态有多少信息被写入到当前的候选隐藏状态ht表示t时刻的学习特征,在公式的最后一步,会根据更新门的权重决定保留和更新的信息,并传递到下一个单元中,W和b分别表示各自门控的权重和偏置。
需要说明的是,通过级联网络的GCN网络,学习各个训练动作各自的序列特征和各个训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个训练动作各自的强化特征,通过级联网络的GRU网络学习各个强化特征的时间依赖信息,使得初始运动预测模型和训练得到的目标运动预测模型可以兼顾模型中各个动作序列在时间和空间上的关联信息,使得目标运动预测模型在预测时更符合人体运动的在时间和空间上的规律,提高了使用目标运动预测模型预测的准确性。
进一步地,在一些可行的实施例中,上述级联网络的GCN网络中引入特异性偏置矩阵,其中,特异性偏置矩阵基于训练动作中各个关节节点的速度向量之间的余弦相关性得到。
本实施例中,上述步骤S6032:通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征,包括:
步骤S60321:通过引入特异性偏置矩阵的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的关联性,并学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征。
由于人体肢体长度差异,因此人体在进行动作时关节运动的速度也有一定差异,因此,本实施例中各个关节节点的节点速度之间的余弦相关性作为与已观测动作在空间和时间上相关的特异性偏置矩阵,并加入到解码单元的邻接矩阵中。
具体地,本实施例中,可以是计算已观测动作序列各个关节节点之间的差分信息,根据差分信息计算节点速度向量,根据节点速度向量计算余弦相关性,具体地,计算余弦相关性如下所示:
本实施例中,通过引入特异性偏置矩阵的GCN网络,学习各个训练动作各自的序列特征和各个训练动作各自对应的融合特征中各个关节节点的关联性,并学习各个训练动作各自的序列特征和各个训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个训练动作各自的强化特征。
具体地,本实施例中,将余弦相关性作为特异性偏置加入后的GCN网络公式如下所示:
Xt=σ((Acos_sim+A)X(l)W(l)+b(l))
其中,X(l)代表第l层序列特征和融合特征,σ表示非线性变换sigmoid,A表示一个可训练的邻接矩阵,用于表征各个节点之间的关联性,W和b分别表示第l层的权重和偏置。
需要说明的是,本实施例中考虑到不同动作的关节节点的相关性不同,因此本实施例在GCN的邻接矩阵中加入了特异性偏置,使GCN在面对不同动作不同序列的时候能关注到它们的差异,提高了目标运动预测模型的预测准确性。
进一步地,在一些可行的实施例中,解码单元包括GRU网络,本实施例中,上述步骤S70:将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果,包括:
步骤S701:将各个所述学习特征输入所述解码单元的GRU网络;
本实施例中,解码单元可以包括GRU网络,具体地,在将各个已观测动作序列共同输入初始运动预测模型,通过初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个训练动作各自的学习特征后,将各个学习特征输入解码单元的GRU网络。
步骤S702:通过所述解码单元的GRU网络递归产生各个所述训练动作各自对应的训练结果。
本实施例中,在将各个已观测动作序列共同输入初始运动预测模型,通过初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个训练动作各自的学习特征后,将各个学习特征输入解码单元的GRU网络得到各个训练动作各自对应的训练结果。
具体地,本实施例中,通过解码单元的GRU网络递归产生各个训练动作各自对应的训练结果,GRU网络的具体计算公式可以参照上述步骤S6034,在此不进行赘述。
进一步地,在一可行的实施例中,参照图3,图3为本发明人体运动预测方法一实施例的结构示意图,本实施例中,以三个已观测动作作为模型输入,如图3所示,初始运动预测模型为编码单元-解码单元框架,编码单元包括一个注意力网络、一个级联的GCN和GRU网络,解码单元包括GRU网络。本实施例中,注意力网络对每个训练动作的已观测动作序列,融合其他训练动作的序列特征,具体地,在提取第一个训练动作的已观测动作序列的序列特征时,注意力网络会根据第一个训练动作的已观测动作序列(即目标动作序列)的查询值和其他训练动作的已观测动作序列(即第一动作序列)的键运算,得出第一动作序列对于目标动作序列的关联性权重,然后使用关联性权重为出第一动作序列的值加权,得到各个第一动作序列加权后的值作为融合特征,将融合特征与目标动作序列的序列特征一同送进后续级联网络学习。
可以理解的是,本实施例中,在对待预测动作进行动作预测时可以参照本实施例训练过程对训练动作的已观测动作序列进行处理,具体地,本实施例中,将待预测动作的已观测动作序列和各个训练动作的已观测动作序列共同输入目标运动预测模型。
通过目标运动预测模型中的编码单元提取待预测动作和各个训练动作各自的序列特征和融合特征,将待预测动作和各个训练动作各自的序列特征和各自对应的融合特征共同输入级联网络进行学习,得到待预测动作和各个训练动作各自的学习特征。本实施例中个,得到待预测动作和各个训练动作各自的学习特征的具体过程可以参照本实施例中各个实施方式,具体在此不做赘述。
本实施例中,计算得到待预测动作和各个训练动作各自的学习特征后,将待预测动作和各个训练动作各自的序列特征和各自对应的融合特征共同输入级联网络的GCN网络,通过级联网络的GCN网络,学习待预测动作和各个训练动作各自的序列特征和各自对应的融合特征中各个关节节点的空间依赖信息,得到待预测动作和各个训练动作各自的强化特征。
将各个强化特征输入级联网络的GRU网络,通过级联网络的GRU网络学习各个强化特征的时间依赖信息,得到待预测动作和各个训练动作各自的学习特征。
将各个学习特征输入解码单元的GRU网络,通过解码单元的GRU网络递归产生待预测动作各个训练动作各自对应的预测序列,确定各个预测序列中与待预测动作对应的预测序列为运动预测结果。
本实施例中,通过获取编码单元联合注意力机制构建的初始运动预测模型,并获取待训练数据集中各个类别的训练动作各自的已观测动作序列,将各个训练动作的已观测动作序列共同输入初始运动预测模型,得到各个训练动作各自对应的训练结果,基于损失函数,根据各个训练结果调整初始运动预测模型中的模型参数,得到目标运动预测模型。
本实施例中,联合注意力机制构建初始运动预测模型,使得初始运动预测模型可以同时学习多个不同的已观测动作序列,在通过初始运动预测模型学习一个训练动作时,能够关注到除该训练动作之外的其他训练动作的信息,使得初始运动预测模型能能够关注到各个训练动作之间的关联性,使训练得到的目标运动预测模型的预测结果可以更符合人体的运动规律,提高了运动预测的准确性。
此外,本发明还提供一种人体运动预测装置,参照图4,图4为本发明实施例方案涉及的人体运动预测装置的功能模块示意图。本发明人体运动预测装置包括:
获取模块10,用于获取待预测动作的已观测动作序列;
上述获取模块10,还用于获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到所述目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列;
预测模块20,用于将所述待预测动作的已观测动作序列和各个所述训练动作的已观测动作序列共同输入所述目标运动预测模型,得到所述待预测动作和各个所述训练动作各自对应的预测序列;
确定模块30,用于确定各个所述预测序列中与所述待预测动作对应的预测序列为运动预测结果。
进一步地,上述人体运动预测装置还包括训练模块,该训练模块用于:
获取编码单元联合注意力机制构建的初始运动预测模型,并获取待训练数据集中各个类别的训练动作各自的已观测动作序列;
将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征;
将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果;
基于损失函数,根据各个所述训练结果调整所述初始运动预测模型中的模型参数,得到目标运动预测模型。
进一步地,所述编码单元包括注意力网络和级联网络,上述训练模块还用于:
将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型的所述编码单元;
基于各个所述训练动作的已观测动作序列,通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征;
将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征。
进一步地,上述训练模块还用于:
分别将各个所述训练动作的已观测动作序列划分为查询、键和值三部分;
对于各个所述训练动作的已观测动作序列中的任一目标动作序列,基于所述目标动作序列的查询与各个第一动作序列的键,计算得到各个所述第一动作序列各自与所述目标动作序列的关联性权重,其中,所述第一动作序列为各个所述训练动作的已观测动作序列中除所述目标动作序列之外的动作序列;
通过各个所述关联性权重对各个所述关联性权重各自对应的所述第一动作序列的值中的各个元素进行加权处理;
将各个所述第一动作序列的加权处理后的值进行融合得到所述目标动作序列对应的所述训练动作的融合特征。
进一步地,所述级联网络包括GCN网络和GRU网络,上述训练模块还用于:
将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络的GCN网络;
通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征;
将各个所述强化特征输入所述级联网络的GRU网络;
通过所述级联网络的GRU网络学习各个所述强化特征的时间依赖信息,得到各个所述训练动作各自的学习特征。
进一步地,所述级联网络的GCN网络中引入特异性偏置矩阵;
其中,所述特异性偏置矩阵基于所述训练动作中各个关节节点的速度向量之间的余弦相关性得到;
上述训练模块还用于:
通过引入特异性偏置矩阵的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的关联性,并学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征。
进一步地,所述解码单元包括GRU网络,上述训练模块还用于:
将各个所述学习特征输入所述解码单元的GRU网络;
通过所述解码单元的GRU网络递归产生各个所述训练动作各自对应的训练结果。
其中,人体运动预测装置的各个功能模块各自在运行时,实现如上述的人体运动预测方法的步骤。
此外,本发明还提供一种人体运动预测设备。参照图5,图5为本发明实施例方案涉及的人体运动预测设备的结构示意图。本发明实施例人体运动预测设备具体可以是为本地运行人体运动预测系统的设备。
如图5所示,本发明实施例人体运动预测设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。
存储器1005设置在人体运动预测设备主体上,存储器1005上存储有程序,该程序被处理器1001执行时实现相应的操作。存储器1005还用于存储供人体运动预测设备使用的参数。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图5中示出的人体运动预测设备结构并不构成对人体运动预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种存储介质的存储器1005中可以包括操作系统、网络处理模块、用户接口模块以及人体运动预测程序。
在图5所示的人体运动预测设备中,处理器1001可以用于调用存储器1005中存储的人体运动预测程序,并执行如下操作:
获取待预测动作的已观测动作序列;
获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到所述目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列;
将所述待预测动作的已观测动作序列和各个所述训练动作的已观测动作序列共同输入所述目标运动预测模型,得到所述待预测动作和各个所述训练动作各自对应的预测序列;
确定各个所述预测序列中与所述待预测动作对应的预测序列为运动预测结果。
进一步地,处理器1001还可以用于调用存储器1005中存储的人体运动预测程序,并执行如下操作:
获取编码单元联合注意力机制构建的初始运动预测模型,并获取待训练数据集中各个类别的训练动作各自的已观测动作序列;
将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征;
将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果;
基于损失函数,根据各个所述训练结果调整所述初始运动预测模型中的模型参数,得到目标运动预测模型。
进一步地,所述编码单元包括注意力网络和级联网络,所述将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征的操作,包括:
将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型的所述编码单元;
基于各个所述训练动作的已观测动作序列,通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征;
将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征。
进一步地,所述通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自对应的融合特征的操作,包括:
分别将各个所述训练动作的已观测动作序列划分为查询、键和值三部分;
对于各个所述训练动作的已观测动作序列中的任一目标动作序列,基于所述目标动作序列的查询与各个第一动作序列的键,计算得到各个所述第一动作序列各自与所述目标动作序列的关联性权重,其中,所述第一动作序列为各个所述训练动作的已观测动作序列中除所述目标动作序列之外的动作序列;
通过各个所述关联性权重对各个所述关联性权重各自对应的所述第一动作序列的值中的各个元素进行加权处理;
将各个所述第一动作序列的加权处理后的值进行融合得到所述目标动作序列对应的所述训练动作的融合特征。
进一步地,所述级联网络包括GCN网络和GRU网络,所述将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征的操作,包括:
将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络的GCN网络;
通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征;
将各个所述强化特征输入所述级联网络的GRU网络;
通过所述级联网络的GRU网络学习各个所述强化特征的时间依赖信息,得到各个所述训练动作各自的学习特征。
进一步地,所述级联网络的GCN网络中引入特异性偏置矩阵,其中,所述特异性偏置矩阵基于所述训练动作中各个关节节点的速度向量之间的余弦相关性得到;
所述通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征的操作,包括:
通过引入特异性偏置矩阵的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的关联性,并学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征。
进一步地,所述解码单元包括GRU网络,所述将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果的操作,包括:
将各个所述学习特征输入所述解码单元的GRU网络;
通过所述解码单元的GRU网络递归产生各个所述训练动作各自对应的训练结果。
此外,本发明还提供一种计算机可读存储介质。参照图6,图6为本发明实施例方案涉及的计算机可读存储介质的结构示意图。计算机可读存储介质上存储有人体运动预测程序,人体运动预测程序被处理器执行时实现如上述的人体运动预测方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台人体运动预测设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种人体运动预测方法,其特征在于,所述人体运动预测方法包括:
获取待预测动作的已观测动作序列;
获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到所述目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列;
将所述待预测动作的已观测动作序列和各个所述训练动作的已观测动作序列共同输入所述目标运动预测模型,得到所述待预测动作和各个所述训练动作各自对应的预测序列;
确定各个所述预测序列中与所述待预测动作对应的预测序列为运动预测结果。
2.如权利要求1所述的人体运动预测方法,其特征在于,在所述获取待预测动作的已观测动作序列的步骤之前,所述方法还包括:
获取编码单元联合注意力机制构建的初始运动预测模型,并获取待训练数据集中各个类别的训练动作各自的已观测动作序列;
将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征;
将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果;
基于损失函数,根据各个所述训练结果调整所述初始运动预测模型中的模型参数,得到目标运动预测模型。
3.如权利要求2所述的人体运动预测方法,其特征在于,所述编码单元包括注意力网络和级联网络;
所述将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型,通过所述初始运动预测模型中联合注意力机制的编码单元进行特征提取,得到各个所述训练动作各自的学习特征的步骤,包括:
将各个所述训练动作的已观测动作序列共同输入所述初始运动预测模型的所述编码单元;
基于各个所述训练动作的已观测动作序列,通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征;
将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征。
4.如权利要求3所述的人体运动预测方法,其特征在于,所述基于各个所述训练动作的已观测动作序列,通过所述编码单元的所述注意力网络提取得到各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征的步骤,包括:
分别将各个所述训练动作的已观测动作序列划分为查询、键和值三部分;
对于各个所述训练动作的已观测动作序列中的任一目标动作序列,基于所述目标动作序列的查询与各个第一动作序列的键,计算得到各个所述第一动作序列各自与所述目标动作序列的关联性权重,其中,所述第一动作序列为各个所述训练动作的已观测动作序列中除所述目标动作序列之外的动作序列;
通过各个所述关联性权重对各个所述关联性权重各自对应的所述第一动作序列的值中的各个元素进行加权处理;
将各个所述第一动作序列的加权处理后的值进行融合得到所述目标动作序列对应的所述训练动作的融合特征。
5.如权利要求3所述的人体运动预测方法,其特征在于,所述级联网络包括GCN网络和GRU网络;
所述将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络进行学习,得到各个所述训练动作各自的学习特征的步骤,包括:
将各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征共同输入所述级联网络的GCN网络;
通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征;
将各个所述强化特征输入所述级联网络的GRU网络;
通过所述级联网络的GRU网络学习各个所述强化特征的时间依赖信息,得到各个所述训练动作各自的学习特征。
6.如权利要求5所述的人体运动预测方法,其特征在于,所述级联网络的GCN网络中引入特异性偏置矩阵;
其中,所述特异性偏置矩阵基于所述训练动作中各个关节节点的速度向量之间的余弦相关性得到;
所述通过所述级联网络的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征的步骤,包括:
通过引入特异性偏置矩阵的GCN网络,学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的关联性,并学习各个所述训练动作各自的序列特征和各个所述训练动作各自对应的融合特征中各个关节节点的空间依赖信息,得到各个所述训练动作各自的强化特征。
7.如权利要求2至6中任一项所述的人体运动预测方法,其特征在于,所述解码单元包括GRU网络;
所述将各个所述学习特征输入所述初始运动预测模型的解码单元,得到各个所述训练动作各自对应的训练结果的步骤,包括:
将各个所述学习特征输入所述解码单元的GRU网络;
通过所述解码单元的GRU网络递归产生各个所述训练动作各自对应的训练结果。
8.一种人体运动预测装置,其特征在于,所述人体运动预测装置包括:
获取模块,用于获取待预测动作的已观测动作序列;
所述获取模块,还用于获取编码单元联合注意力机制构建的目标运动预测模型,并获取用于训练得到所述目标运动预测模型的待训练数据集中各个训练动作各自的已观测动作序列;
预测模块,用于将所述待预测动作的已观测动作序列和各个所述训练动作的已观测动作序列共同输入所述目标运动预测模型,得到所述待预测动作和各个所述训练动作各自对应的预测序列;
确定模块,用于确定各个所述预测序列中与所述待预测动作对应的预测序列为运动预测结果。
9.一种人体运动预测设备,其特征在于,所述人体运动预测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体运动预测程序,所述人体运动预测程序配置为实现如权利要求1至7中任一项所述的人体运动预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有人体运动预测程序,所述人体运动预测程序被处理器执行时实现如权利要求1至7中任一项所述的人体运动预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211637516.8A CN116189284A (zh) | 2022-12-16 | 2022-12-16 | 人体运动预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211637516.8A CN116189284A (zh) | 2022-12-16 | 2022-12-16 | 人体运动预测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116189284A true CN116189284A (zh) | 2023-05-30 |
Family
ID=86437488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211637516.8A Pending CN116189284A (zh) | 2022-12-16 | 2022-12-16 | 人体运动预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189284A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523665A (zh) * | 2023-11-13 | 2024-02-06 | 书行科技(北京)有限公司 | 人体动作预测模型的训练方法、相关方法及相关产品 |
CN117523664A (zh) * | 2023-11-13 | 2024-02-06 | 书行科技(北京)有限公司 | 人体动作预测模型的训练方法、相关方法及相关产品 |
-
2022
- 2022-12-16 CN CN202211637516.8A patent/CN116189284A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523665A (zh) * | 2023-11-13 | 2024-02-06 | 书行科技(北京)有限公司 | 人体动作预测模型的训练方法、相关方法及相关产品 |
CN117523664A (zh) * | 2023-11-13 | 2024-02-06 | 书行科技(北京)有限公司 | 人体动作预测模型的训练方法、相关方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472248B (zh) | 一种行人重识别方法、系统及电子设备和存储介质 | |
CN116189284A (zh) | 人体运动预测方法、装置、设备及存储介质 | |
CN116664719B (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN109543112A (zh) | 一种基于循环卷积神经网络的序列推荐方法及装置 | |
CN113742572B (zh) | 一种数据的推荐方法、装置、电子设备及存储介质 | |
CN114528490B (zh) | 一种基于用户长短期兴趣的自监督序列推荐方法 | |
CN114358657B (zh) | 一种基于模型融合的岗位推荐方法及装置 | |
US20210232855A1 (en) | Movement state recognition model training device, movement state recognition device, methods and programs therefor | |
CN114175017A (zh) | 模型构建方法、分类方法、装置、存储介质及电子设备 | |
CN118113815B (zh) | 内容搜索方法、相关装置和介质 | |
CN115311598A (zh) | 基于关系感知的视频描述生成系统 | |
CN112000788A (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
CN109858031B (zh) | 神经网络模型训练、上下文预测方法及装置 | |
CN111144567A (zh) | 神经网络模型的训练方法及装置 | |
CN113868451B (zh) | 基于上下文级联感知的社交网络跨模态对话方法及装置 | |
KR20210060563A (ko) | 검색 방법 및 장치, 저장 매체 | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
CN114330704A (zh) | 语句生成模型更新方法、装置、计算机设备和存储介质 | |
CN116205700A (zh) | 目标产品的推荐方法、装置、计算机设备和存储介质 | |
CN117474072A (zh) | 一种图卷积神经网络模型训练方法、装置及设备和介质 | |
CN114116692B (zh) | 一种基于mask和双向模型的缺失POI轨迹补全方法 | |
CN115293812A (zh) | 一种基于长短期兴趣的电商平台会话感知推荐预测方法 | |
CN114926210A (zh) | 评论生成方法、装置、设备及计算机可读存储介质 | |
Ghasemi-Naraghi et al. | Towards reliable multi-person pose estimation using Conditional Random Fields | |
CN117938951B (zh) | 信息推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |