CN115294228A - 基于模态引导的多图人体姿态生成方法及装置 - Google Patents

基于模态引导的多图人体姿态生成方法及装置 Download PDF

Info

Publication number
CN115294228A
CN115294228A CN202210911159.3A CN202210911159A CN115294228A CN 115294228 A CN115294228 A CN 115294228A CN 202210911159 A CN202210911159 A CN 202210911159A CN 115294228 A CN115294228 A CN 115294228A
Authority
CN
China
Prior art keywords
sequence
modal
graph
network
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210911159.3A
Other languages
English (en)
Other versions
CN115294228B (zh
Inventor
唐进
张晋
顾宝轩
尹建芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Zhongcan Cloud Information Technology Co ltd
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210911159.3A priority Critical patent/CN115294228B/zh
Publication of CN115294228A publication Critical patent/CN115294228A/zh
Application granted granted Critical
Publication of CN115294228B publication Critical patent/CN115294228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于模态引导的多图人体姿态生成方法及装置,其中方法包括,获取训练数据集,训练数据集包括人体动作序列;将训练数据集输入模态引导多图模型,其中模态引导多图网络包括时序特征增强子网络和特征提取子网络;通过时序特征增强子网络对人体动作序列进行裁剪,对后T帧的特征占比进行增强,获取特征增强数据集;同时通过复制最后一帧,提高输入序列中最后一帧的贡献度;根据动作幅度将特征增强数据集分为多个模态子集;通过特征提取子网络对多个模态子集分别进行建模提取特征,再根据动作幅度的划分方式还原至人体全局姿态序列。本发明实现了由模态引导的对动静态不同关节点的多图建模。

Description

基于模态引导的多图人体姿态生成方法及装置
技术领域
本发明属于人体姿态生成技术及深度学习技术领域。
背景技术
人体姿态生成算法目前在虚拟现实、机器人的人机交互等领域存在有相当广泛的需求与应用。服务型机器人通过视觉装置获取人体实时运动信息,并对服务对象的意图及位置做出预判,从而实现更好的人机交互体验,例如对人体的行走路线或手势动作中关节位置进行预判,可以有效实现跌倒防护、物体抓取、人性化沟通等需求。在电影制作或相关AR应用中,准确追踪人体姿态可以实现更加自然的动作捕捉与模仿,并针对演员或用户提供的部分动作姿态,生成其他虚拟人物的自然动作姿态。这样在大规模场景建模中,不仅可以减少建模的重复性工作,也保持了虚拟角色的自然与多样。以及在医学看护领域,针对儿童或老人,在行动或睡眠过程中若其行为轨迹存在一定危险,机器人可以在第一时间预判目标位置并提供援助,同时这样的帮助方案也更加符合人类思维。
人体姿态生成是机器人领域和计算机视觉领域的热门经典话题,是基于过去的视频画面输入信息或人体关节点姿态序列,生成人物虚拟姿态序列或预测未来一段时间内的动作姿态序列,如图2。该任务输入输出的人体姿态序列的表征方式多种多样,例如2D图像姿态、3D空间坐标点以及点云等等。其难点在于,人体动作姿态虽然离不开人体有限个关节在物理上的构造规律,但要想对人体各种各样的动作进行准确生成与预测,需要高效建模人体各关节的时空规律。例如,行走动作中,手臂与腿部以及相邻关节会有节奏均匀、规律明显的前后摆动,而在谈话动作中,人体躯干位置相对较为固定,而手部与头部可能会有规律性较弱的摆动,另外,在多个动作同时进行时,其动态规律则更难捕捉,例如边走边聊等等。因此,生成姿态所需的建模方法要更注重人体的动态规律、肢体协调性,从而生成自然的未来姿态。
目前,人体姿态生成领域常用卷积神经网络(CNN)对姿态序列进行建模,CNN适用于规则结构型数据的建模,如图像、音频等,但人体不同关节点的位置信息在空间上的连接关系与活动范围往往被卷积网络一视同仁,导致空间特征建模不精确。人体不同关节点携带着自身独有的运动规律与幅度范围等特征信息,同时也存在与其他关节点直接或间接的连接关系,故将人体各关节坐标构成输入图结构中的图节点信息,将关节之间的连接关系构成图结构的连接信息,则可由图卷积网络(GCN)同时学习关节自身的运动轨迹规律和关节之间的关联关系,解决传统卷积忽略建模节点结构信息的问题。另外,由于人体部分关节点存在其固有运动规律,如手部脚部关节点运动幅度往往大于胸部腰部关节点的运动幅度,而现有工作在初始输入网络时并未依据其运动模态进行联合建模,导致网络难以察觉活跃关节点的动态特征,动态规律混乱。故为提高图卷积网络建模效率,在网络建模人体全身姿态的空间信息时,可在学习过程添加人体关节运动幅度的先验知识,划分人体动态规律尺度不同的关节点,实现由模态引导的对动静态不同关节点的多图建模。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于模态引导的多图人体姿态生成方法,用于实现由模态引导的对动静态不同关节点的多图建模。
本发明的第二个目的在于提出一种基于模态引导的多图人体姿态生成装置。
本发明的第三个目的在于提出一种计算机设备。
为达上述目的,本发明第一方面实施例提出了一种基于模态引导的多图人体姿态生成方法,包括:
获取训练数据集,所述训练数据集包括人体动作序列;
将所述训练数据集输入模态引导多图模型,其中所述模态引导多图网络包括时序特征增强子网络和特征提取子网络;
通过所述时序特征增强子网络对所述人体动作序列进行裁剪,对后T帧的特征占比进行增强,获取特征增强数据集;同时通过复制最后一帧,提高输入序列中最后一帧的贡献度;
根据动作幅度将所述特征增强数据集分为多个模态子集,其中,所述多个模态子集包括静止模态子集、稳定模态子集和活跃模态子集;
通过所述特征提取子网络对所述多个模态子集分别进行建模提取特征,再根据所述动作幅度的划分方式还原至人体全局姿态序列。
另外,根据本发明上述实施例的基于模态引导的多图人体姿态生成方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,还包括:
将所述人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对所述模态引导多图模型进行优化,获取训练完成的模态引导多图模型。
进一步地,在本发明的一个实施例中,所述通过所述时序特征增强子网络对所述人体动作序列进行裁剪,对后T帧的特征占比进行增强,包括:
将输入序列O复制为M份子序列,并对M份子序列分别取后[T1,T2,…,Tm]帧,此时子序列描述为
Figure BDA0003774008720000031
每个裁剪后的子序列由一维卷积Cov1进行编码提取子序列特征,对第m个子序列的特征Fm的提取表示为:
Figure BDA0003774008720000032
进一步地,在本发明的一个实施例中,所述通过复制最后一帧,提高输入序列中最后一帧的贡献度,还包括:
将输入序列O的最后一帧PT复制为长度为T的新序列,并继续采用一维卷积提取其特征再与上述子序列特征拼接,最终得到增强终帧信息的特征FTRM,表示为:
FTRM=Concat(F1,F2,…FM,FT)。
进一步地,在本发明的一个实施例中,所述根据动作幅度将所述特征增强数据集分为多个模态子集,包括:
通过计算各关节点在相邻帧Δt内位移大小Δx来衡量该关节运动能量大小,构建不同模态关节轨迹的多图网络,根据所述多图网络将所述特征增强数据集分为静止模态子集、稳定模态子集和活跃模态子集。
进一步地,在本发明的一个实施例中,所述通过所述特征提取子网络对所述多个模态子集分别进行建模提取特征,包括:
采用图卷积层分路来构建各模态子集的关节运动规律,当建模包含K个节点的图结构数据时,图卷积层运算方式表示为:
H(p+1)=σ(A(p)H(p)W(p)),
其中,W(p)为第p层图卷积层的可学习参数,可更新矩阵A(p)为邻接矩阵学习特征H(p)内各节点之间的边权重,每层图卷积层衔接非线性激活函数σ(·)和失活操作。
进一步地,在本发明的一个实施例中,所述将所述人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对所述模态引导多图模型进行优化,包括:
采用MPJPE作为评价指标;具体包括取Ti+To长度的序列作为一个样本,并将前Ti帧输至网络,得到由预测关节点位置
Figure BDA0003774008720000041
组成的长度为To的预测序列
Figure BDA0003774008720000044
再与长度为to的真实姿态序列S按如下公式计算MPJPE:
Figure BDA0003774008720000042
其中,Jt,k代表真实姿态序列中第k关节在t时刻的3D坐标,
Figure BDA0003774008720000043
代表生成的结果序列中第k关节在t时刻的3D坐标,To和N分别代表输出序列长度以及人体骨架点个数。
为达上述目的,本发明第二方面实施例提出了一种基于模态引导的多图人体姿态生成装置,包括以下模块:
获取模块,用于获取训练数据集,所述训练数据集包括人体动作序列;
输入模块,用于将所述训练数据集输入模态引导多图模型,其中所述模态引导多图网络包括时序特征增强子网络和特征提取子网络;
增强模块,用于通过所述时序特征增强子网络对所述人体动作序列进行裁剪,对后T帧的特征占比进行增强,获取特征增强数据集;同时通过复制最后一帧,提高输入序列中最后一帧的贡献度
划分模块,用于根据动作幅度将所述特征增强数据集分为多个模态子集,其中,所述多个模态子集包括静止模态子集、稳定模态子集和活跃模态子集;
提取模块,用于通过所述特征提取子网络对所述多个模态子集分别进行建模提取特征,再根据所述动作幅度的划分方式还原至人体全局姿态序列。
进一步地,在本发明的一个实施例中,还包括优化模块,用于:
将所述人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对所述模态引导多图模型进行优化,获取训练完成的模态引导多图模型。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于模态引导的多图人体姿态生成方法。
本发明实施例提出的基于模态引导的多图人体姿态生成方法及装置,主要优点是:(1)提出了一种基于能量的关节识别方法,以揭示不同关节运动规律的不一致性,利用物理学能量公式区分人体相对活跃与相对静止的关节点,根据能量的不同将关节点划分为静止模态、稳定模态和活跃模态三种模态,并提出了多图网络结构来建模相同模态下关节点的关系或约束;(2)基于多图网络结构,我们设计了一个模态引导动静特征区分建模的多图网络DP-MGnet,依据人体各关节点的独有特性实现模态引导动静特征区分建模,通过关节的协作建模来完善模型对关节运动轨迹隐性规律的学习;(3)设计了一个新颖的时间强化模块(TRM),以更为可控的方式编码了人体姿态序列的时间特征,并相应地增强了后几帧尤其是序列最后一帧的特征占比,有助于网络更高效地捕捉动态规律,从而增强了模型提取时间特征关键帧信息的能力。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于模态引导的多图人体姿态生成方法流程示意图。
图2为本发明实施例所提供的一种人体姿态生成任务示意图。
图3为本发明实施例所提供的一种H3.6M序列样本能量统计结果中的关节能量统计示意图。
图4为本发明实施例所提供的一种H3.6M序列样本能量统计结果中的类别能量统计示意图。
图5为本发明实施例所提供的一种不同模态下关节轨迹幅度示意图。
图6为本发明实施例所提供的一种模态引导多图网络结构图。
图7为本发明实施例所提供的一种时序特征增强模块结构图。
图8为本发明实施例所提供的一种图卷积模块示意图中等跨度图卷积模块示意图。
图9为本发明实施例所提供的一种图卷积模块示意图中对称残差图卷积模块示意图。
图10为本发明实施例所提供的一种基于模态引导的多图网络结果可视化“Phoning”动作示意图。
图11为本发明实施例所提供的一种基于模态引导的多图网络结果可视化“Walking”动作示意图。
图12为本发明实施例所提供的一种基于模态引导的多图人体姿态生成装置流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于模态引导的多图人体姿态生成方法和装置。
实施例1
图1为本发明实施例所提供的一种基于模态引导的多图人体姿态生成方法的流程示意图。
如图1所示,该基于模态引导的多图人体姿态生成方法包括以下步骤:
S101:获取训练数据集,训练数据集包括人体动作序列;
S102:将训练数据集输入模态引导多图模型,其中模态引导多图网络包括时序特征增强子网络和特征提取子网络;
S103:通过时序特征增强子网络对人体动作序列进行裁剪,对后T帧的特征占比进行增强,获取特征增强数据集;同时通过复制最后一帧,提高输入序列中最后一帧的贡献度;
S104:根据动作幅度将所述特征增强数据集分为多个模态子集,其中,多个模态子集包括静止模态子集、稳定模态子集和活跃模态子集;
S105:通过特征提取子网络对多个模态子集分别进行建模提取特征,再根据动作幅度的划分方式还原至人体全局姿态序列。
人体动作序列中不同关节点具有自身的运动轨迹幅度。现有大多工作将人体关节点同等地输入网络,忽略了各关节点本身的动态特性。依据人体运动习惯,肢体边缘关节点如“手腕”、“脚踝”等关节相较“脊椎”、“肩膀”等关节点往往具有更大的运动幅度,携带的动态信息也更丰富。为印证人体各关节动态差异,借鉴物理学能量公式E=0.5*mv2=0.5*m(Δx/Δt)2,来区分人体相对活跃与相对静止的关节点,即通过计算各关节点在相邻帧Δt内位移大小Δx来衡量该关节运动能量大小。针对H3.6M数据集的各关节点能量统计结果如图3所示,图中横坐标为人体关节点,纵坐标为通过Δx2衡量的平均关节轨迹能量,其中能量相对较高的关节点明显分布在四肢边缘区域,如“左手指”、“右脚趾”,能量相对较低的关节点主要分布在肢体躯干部分,如“脊椎”、“左肩”等。针对各动作类别平均序列能量统计结果如图4所示,图中横坐标为动作类别,纵坐标为通过Δx2衡量的平均该类动作样本轨迹能量,“遛狗”、“走路”等动作幅度较大的类别样本相较“吸烟”、“坐下”等动作幅度较小的类别样本具有更高的能量。这就启发了本发明数据驱动的联合建模具有不同模态关节轨迹的多图网络,并依据图5将人体关节轨迹划为静止模态、稳定模态和活跃模态三种模态。
多图网络的网络结构如图6所示,网络包含两个模块,分别为时序特征增强模块(Temporal Reinforcement Module)和模态引导的特征提取模块(Dynamic Pattern-guided Feature Extractor)。其中时序特征增强模块首先沿时间维度编码隐含层特征,提取序列中的时维特征,并增强终帧信息在输入序列中的信息占比。然后特征提取模块依据关节点运动轨迹幅度区分轨迹特征,由三路图卷积网络多图建模各模态内轨迹信息的动态规律。最后由一个全连接层给出最终生成结果。
人体动作识别任务中基于图像帧或关节点姿态帧组成的序列提炼高维语义信息环节往往将序列各帧信息视为同等地位,而姿态生成任务需继承人体运动规律生成人物后续运动轨迹。这就要求网络不仅要学习整个序列各关节的动态规律,更要切实提炼输入序列中序列末端包含的动作惯性,使生成结果更加自然,避免输入序列末端与输出序列首端之间的不连续。网络中采用了时序特征增强模块增强关键帧所携带的特征,如图7所示。研究表明,输入序列的后几帧信息记录着更接近实时的惯性规律,因而往往更占据主导地位。因此时序特征增强模块将输入序列O复制为M份子序列,并对M份子序列分别取后[T1,T2,…,Tm]帧,此时子序列可描述为
Figure BDA0003774008720000081
每个裁剪后的子序列由一维卷积Cov1进行编码提取子序列特征,对第m个子序列的特征Fm的提取可表示为:
Figure BDA0003774008720000082
输入序列中的最后一帧所记录的位置信息占据着最重要的地位,不仅因为未来序列的关节点轨迹是基于此帧关节点位置推导,也因为终帧与上一帧形成的位移信息最具有时效性。因此,时序特征增强模块将输入序列O的最后一帧PT复制为长度为T的新序列,并继续采用一维卷积Cov1提取其特征再与上述子序列特征拼接,最终得到增强终帧信息的特征FTRM,表示为:
FTRM=Concat(F1,F2,…FM,FT) (2)
与传统将时间维度通道扩张为固定长度的图卷积网络编码器相比,时序特征增强模块以更为可控的方式编码了时间特征,并相应地增强了后几帧尤其是序列最后一帧的特征占比,有助于网络更高效地捕捉动态规律。
进一步地,在本发明的一个实施例中,通过时序特征增强子网络对人体动作序列进行裁剪,对后T帧的特征占比进行增强,包括:
将输入序列O复制为M份子序列,并对M份子序列分别取后[T1,T2,…,Tm]帧,此时子序列描述为
Figure BDA0003774008720000091
每个裁剪后的子序列由一维卷积Cov1进行编码提取子序列特征,对第m个子序列的特征Fm的提取表示为:
Figure BDA0003774008720000092
进一步地,在本发明的一个实施例中,通过复制最后一帧,提高输入序列中最后一帧的贡献度,还包括:
将输入序列P的最后一帧PT复制为长度为T的新序列,并继续采用一维卷积提取其特征再与上述子序列特征拼接,最终得到增强终帧信息的特征FTRM,表示为:
FTRM=Concat(F1,F2,…FM,FT)。
进一步地,在本发明的一个实施例中,根据动作幅度将特征增强数据集分为多个模态子集,包括:
通过计算各关节点在相邻帧Δt内位移大小Δx来衡量该关节运动能量大小,构建不同模态关节轨迹的多图网络,根据多图网络将所述特征增强数据集分为静止模态子集、稳定模态子集和活跃模态子集。
基于模态引导的多图网络的特征提取模块如图6所示。人体各关节的运动幅度是受躯干连接关系影响的,在3D空间相对坐标系下,距躯干中心较近的关节往往动态特征较弱,四肢末端关节往往动态规律较强,因此由躯干中心至四肢末端的各关节运动轨迹存在可由模型区分建模的隐性规律。因此网络串联了多个特征提取模块来实现对不同模态关节轨迹的联合建模。模块按照人体运动轨迹频度,将关节点划分为以下三种模态:Level 1:静止模态(Static pattern)、Level 2:稳定模态(Inactive pattern)、Level 3:活跃模态(Active pattern)。公式可描述为:
Figure BDA0003774008720000101
单帧姿态内人体关节点也相应被分为三个子集:
Figure BDA0003774008720000102
Figure BDA0003774008720000103
其中N1为躯干尺度内关节点数量,N2为四肢尺度内关节点数量,N3为边缘尺度内关节点数量。
接下来采用图卷积层分路来构建各尺度内的关节运动规律,沿用LTD表示方法,当建模包含K个节点的图结构数据时,图卷积层运算方式可由公式(4)表示:
H(p+1)=σ(A(p)H(p)W(p)) (4)
其中,W(p)为第p层图卷积层的可学习参数,可更新矩阵A(p)作为邻接矩阵学习特征H(p)内各节点之间的边权重。每层图卷积层衔接非线性激活函数σ(·)和失活操作。
为此,每个图的卷积层对输入关节点自身的隐含特征和关节点之间的边权重进行建模,其中各关节点在人体中并非一定存在直接连接关系。在串联图卷积层时,动静区分模块使用对称残差连接代替等距残差连接。与传统的等距连接(如图8)相比,,模块采用的对称残差连接使得每个图卷积模块的输出和输入之间的距离更近(如图9),,并且在模块末端引入了更浅层的动态特征。因此,后续模块在每个分支中可以通过前一个模块的第一个对称残差连接来继承初始特征,丰富了多粒度特征。
在训练过程中,图卷积层权重能拟合输入数据中的运动规律,然而人体姿态序列中既包含相对静态的关节点轨迹,也包括相对动态的关节点轨迹,若对人体全部关节点同时输入网络进行单图建模,则模型难以区分运动模态不同的关节点。按照动作幅度先验知识划分关节点再使用多路网络分别建模动静程度不一的轨迹信息,则可以降低网络所需拟合的运动规律的复杂度。另一方面,使用多图联合建模相较不作区分的单图网络使用了更小的关系矩阵A,还使A内的信息更容易建立空间关联。最后动静还原模块将三路特征按照之前的划分方式还原至人体全局姿态序列特征,保证后续特征耦合的空间一致性。
由于在针对不同尺度关节进行分路建模时,在同一肢体上的关节点被网络拆分后,网络无法获取所有相邻关节点的空间连接关系,导致全局空间信息丢失。因此网络在3路联合建模架构的基础上,附加了一路全局空间特征分支。该分支基于时序特征增强模块给出的特征,采用较浅的图卷积层模块引入三路建模的融合结果,因而即保持了全局空间信息的利用,又引入了较浅层的特征,减轻梯度消失。
进一步地,在本发明的一个实施例中,通过所述特征提取子网络对所述多个模态子集分别进行建模提取特征,包括:
采用图卷积层分路来构建各模态子集的关节运动规律,当建模包含K个节点的图结构数据时,图卷积层运算方式表示为:
H(p+1)=σ(A(p)H(p)W(p))
其中,W(p)为第p层图卷积层的可学习参数,可更新矩阵A(p)为邻接矩阵学习特征H(p)内各节点之间的边权重,每层图卷积层衔接非线性激活函数σ(·)和失活操作。
生成的人体姿态序列与真实姿态序列直接存在一定的误差,需要对二者进行比较从而得到误差对整个网络进行评价,通过误差反传迭代地对模型进行优化。在本发明中使用了MPJPE(Mean Per Joint Postion Error)作为模型评价指标。MPJPE作为常用的人体姿态生成评价指标可以衡量真实姿态与生成关节在欧氏空间中误差的平均值。数据集中包含多段人体动作姿态序列,划分训练集与测试集后,取Ti+To长度的序列作为一个样本,并将前Ti帧输至网络,得到由预测关节点位置
Figure BDA0003774008720000121
组成的长度为To的预测序列
Figure BDA0003774008720000122
再与长度为to的真实姿态序列S按如下公式(5)计算MPJPE。
Figure BDA0003774008720000123
Jt,k代表真实姿态序列中第k关节在t时刻的3D坐标。同理,
Figure BDA0003774008720000124
代表生成的结果序列中第k关节在t时刻的3D坐标。To和N分别代表输出序列长度以及人体骨架点个数。由于MPJPE的广泛应用,采用MPJPE作为评价指标有利于与其他人体姿态生成与预测模型进行比较。
进一步地,在本发明的一个实施例中,还包括:
将人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对模态引导多图模型进行优化,获取训练完成的模态引导多图模型。
进一步地,在本发明的一个实施例中,将所述人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对所述模态引导多图模型进行优化,包括:
采用MPJPE作为评价指标;具体包括取Ti+To长度的序列作为一个样本,并将前Ti帧输至网络,得到由预测关节点位置
Figure BDA0003774008720000125
组成的长度为To的预测序列
Figure BDA0003774008720000126
再与长度为to的真实姿态序列S按如下公式计算MPJPE:
Figure BDA0003774008720000127
其中,Jt,k代表真实姿态序列中第k关节在t时刻的3D坐标,
Figure BDA0003774008720000128
代表生成的结果序列中第k关节在t时刻的3D坐标,To和N分别代表输出序列长度以及人体骨架点个数。
基于模态引导的多图网络在H3.6M数据集上的“Phoning”、“Walking”动作定性可视化结果如图10、11所示。在“Phoning”动作中,对象保持右臂拿手机的动作,双腿向前走,左臂协调移动。此时,网络在下肢和左臂给出的结果的准确度优于其他方法。在“Walking”动作中,对象躯干保持相对静止,四肢协调摆动。本发明获得了最接近实际姿态的结果,验证了模态引导建模的重要性。
本发明实施例提出的基于模态引导的多图人体姿态生成方法,在现有人体姿态数据基础上生成未来一段时间的人体姿态序列,研究了基于模态引导的图卷积网络算法,验证图卷积网络相比卷积网络的建模特点与优势,利用图卷积的节点式运算特性由模态引导提取特征,建模人体动态信息,提出了依据人体各关节点独有特性实现的模态引导动静特征区分建模的多图网络DP-MGnet。在网络建模人体全身姿态的空间信息时,可在学习过程添加人体关节运动幅度的先验知识,划分人体动态规律尺度不同的关节点,实现了由模态引导的对动静态不同关节点的多图建模。
为了实现上述实施例,本发明还提出一种基于模态引导的多图人体姿态生成装置。
图12为本发明实施例提供的一种基于模态引导的多图人体姿态生成装置的结构示意图。
如图12所示,该基于模态引导的多图人体姿态生成装置包括:获取模块100,输入模块200,增强模块300,划分模块400,提取模块500,其中,
获取模块,用于获取训练数据集,训练数据集包括人体动作序列;
输入模块,用于将训练数据集输入模态引导多图模型,其中模态引导多图网络包括时序特征增强子网络和特征提取子网络;
增强模块,用于通过时序特征增强子网络对所述人体动作序列进行裁剪,对后T帧的特征占比进行增强,获取特征增强数据集;同时通过复制最后一帧,提高输入序列中最后一帧的贡献度;
划分模块,用于根据动作幅度将特征增强数据集分为多个模态子集,其中,多个模态子集包括静止模态子集、稳定模态子集和活跃模态子集;
提取模块,用于通过特征提取子网络对多个模态子集分别进行建模提取特征,再根据动作幅度的划分方式还原至人体全局姿态序列。
进一步地,在本发明的一个实施例中,还包括优化模块,用于:
将人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对模态引导多图模型进行优化,获取训练完成的模态引导多图模型。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于模态引导的多图人体姿态生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于模态引导的多图人体姿态生成方法,其特征在于,包括以下步骤:
获取训练数据集,所述训练数据集包括人体动作序列;
将所述训练数据集输入模态引导多图模型,其中所述模态引导多图网络包括时序特征增强子网络和特征提取子网络;
通过所述时序特征增强子网络对所述人体动作序列进行裁剪,对后T帧的特征占比进行增强,获取特征增强数据集;同时通过复制最后一帧,提高输入序列中最后一帧的贡献度;
根据动作幅度将所述特征增强数据集分为多个模态子集,其中,所述多个模态子集包括静止模态子集、稳定模态子集和活跃模态子集;
通过所述特征提取子网络对所述多个模态子集分别进行建模提取特征,再根据所述动作幅度的划分方式还原至人体全局姿态序列。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对所述模态引导多图模型进行优化,获取训练完成的模态引导多图模型。
3.根据权利要求1所述的方法,其特征在于,所述通过所述时序特征增强子网络对所述人体动作序列进行裁剪,对后T帧的特征占比进行增强,包括:
将输入序列O复制为M份子序列,并对M份子序列分别取后[T1,T2,…,Tm]帧,此时子序列描述为
Figure FDA0003774008710000011
每个裁剪后的子序列由一维卷积Cov1进行编码提取子序列特征,对第m个子序列的特征Fm的提取表示为:
Figure FDA0003774008710000021
4.根据权利要求1所述的方法,其特征在于,所述通过复制最后一帧,提高输入序列中最后一帧的贡献度,还包括:
将输入序列O的最后一帧PT复制为长度为T的新序列,并继续采用一维卷积提取其特征再与上述子序列特征拼接,最终得到增强终帧信息的特征FTRM,表示为:
FTRM=Concat(F1,F2,…FM,FT)。
5.根据权利要求1所述的方法,其特征在于,所述根据动作幅度将所述特征增强数据集分为多个模态子集,包括:
通过计算各关节点在相邻帧Δt内位移大小Δx来衡量该关节运动能量大小,构建不同模态关节轨迹的多图网络,根据所述多图网络将所述特征增强数据集分为静止模态子集、稳定模态子集和活跃模态子集。
6.根据权利要求1所述的方法,其特征在于,所述通过所述特征提取子网络对所述多个模态子集分别进行建模提取特征,包括:
采用图卷积层分路来构建各模态子集的关节运动规律,当建模包含K个节点的图结构数据时,图卷积层运算方式表示为:
H(p+1)=σ(A(p)H(p)W(p)),
其中,W(p)为第p层图卷积层的可学习参数,可更新矩阵A(p)为邻接矩阵学习特征H(p)内各节点之间的边权重,每层图卷积层衔接非线性激活函数σ(·)和失活操作。
7.根据权利要求2所述的方法,其特征在于,所述将所述人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对所述模态引导多图模型进行优化,包括:
采用MPJPE作为评价指标;具体包括取Ti+To长度的序列作为一个样本,并将前Ti帧输至网络,得到由预测关节点位置
Figure FDA0003774008710000031
组成的长度为To的预测序列
Figure FDA0003774008710000032
再与长度为to的真实姿态序列S按如下公式计算MPJPE:
Figure FDA0003774008710000033
其中,Jt,k代表真实姿态序列中第k关节在t时刻的3D坐标,
Figure FDA0003774008710000034
代表生成的结果序列中第k关节在t时刻的3D坐标,To和N分别代表输出序列长度以及人体骨架点个数。
8.一种基于模态引导的多图人体姿态生成装置,其特征在于,包括以下模块:
获取模块,用于获取训练数据集,所述训练数据集包括人体动作序列;
输入模块,用于将所述训练数据集输入模态引导多图模型,其中所述模态引导多图网络包括时序特征增强子网络和特征提取子网络;
增强模块,用于通过所述时序特征增强子网络对所述人体动作序列进行裁剪,对后T帧的特征占比进行增强,获取特征增强数据集;同时通过复制最后一帧,提高输入序列中最后一帧的贡献度;
划分模块,用于根据动作幅度将所述特征增强数据集分为多个模态子集,其中,所述多个模态子集包括静止模态子集、稳定模态子集和活跃模态子集;
提取模块,用于通过所述特征提取子网络对所述多个模态子集分别进行建模提取特征,再根据所述动作幅度的划分方式还原至人体全局姿态序列。
9.根据权利要求8所述的装置,其特征在于,还包括优化模块,用于:
将所述人体全局姿态序列与真实姿态序列进行比较,通过误差反传迭代地对所述模态引导多图模型进行优化,获取训练完成的模态引导多图模型。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7中任一所述的基于模态引导的多图人体姿态生成方法。
CN202210911159.3A 2022-07-29 2022-07-29 基于模态引导的多图人体姿态生成方法及装置 Active CN115294228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210911159.3A CN115294228B (zh) 2022-07-29 2022-07-29 基于模态引导的多图人体姿态生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210911159.3A CN115294228B (zh) 2022-07-29 2022-07-29 基于模态引导的多图人体姿态生成方法及装置

Publications (2)

Publication Number Publication Date
CN115294228A true CN115294228A (zh) 2022-11-04
CN115294228B CN115294228B (zh) 2023-07-11

Family

ID=83825798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210911159.3A Active CN115294228B (zh) 2022-07-29 2022-07-29 基于模态引导的多图人体姿态生成方法及装置

Country Status (1)

Country Link
CN (1) CN115294228B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469159A (zh) * 2022-11-16 2023-07-21 北京理工大学 一种获取人体运动数据的方法及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN112749585A (zh) * 2019-10-30 2021-05-04 南京理工大学 一种基于图卷积的骨架动作识别方法
CN113673560A (zh) * 2021-07-15 2021-11-19 华南理工大学 一种基于多流三维自适应图卷积的人体行为识别方法
CN113807266A (zh) * 2021-09-20 2021-12-17 哈尔滨理工大学 一种人体姿态估计方法与识别装置
WO2022000420A1 (zh) * 2020-07-02 2022-01-06 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN113989854A (zh) * 2021-11-22 2022-01-28 上海交通大学 一种三维人体姿态估计方法、系统、装置及介质
CN114693557A (zh) * 2022-03-31 2022-07-01 华南理工大学 基于姿态引导的行人视频修复方法、系统、设备和介质
CN114782998A (zh) * 2022-05-24 2022-07-22 上海大学 骨架关节点增强的异常行为识别方法、系统、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749585A (zh) * 2019-10-30 2021-05-04 南京理工大学 一种基于图卷积的骨架动作识别方法
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
WO2022000420A1 (zh) * 2020-07-02 2022-01-06 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN113673560A (zh) * 2021-07-15 2021-11-19 华南理工大学 一种基于多流三维自适应图卷积的人体行为识别方法
CN113807266A (zh) * 2021-09-20 2021-12-17 哈尔滨理工大学 一种人体姿态估计方法与识别装置
CN113989854A (zh) * 2021-11-22 2022-01-28 上海交通大学 一种三维人体姿态估计方法、系统、装置及介质
CN114693557A (zh) * 2022-03-31 2022-07-01 华南理工大学 基于姿态引导的行人视频修复方法、系统、设备和介质
CN114782998A (zh) * 2022-05-24 2022-07-22 上海大学 骨架关节点增强的异常行为识别方法、系统、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIN TANG、JIN ZHANG 等: "Temporal consistency two-stream CNN for human motion prediction", 《NEUROCOMPUTING》, pages 245 *
丁重阳;刘凯;李光;闫林;陈博洋;钟育民;: "基于时空权重姿态运动特征的人体骨架行为识别研究", 计算机学报, vol. 43, no. 1 *
尹建芹、 刘小丽等: "基于关键点序列的人体动作识别", 《CNKI》, vol. 38, no. 2 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116469159A (zh) * 2022-11-16 2023-07-21 北京理工大学 一种获取人体运动数据的方法及电子设备
CN116469159B (zh) * 2022-11-16 2023-11-14 北京理工大学 一种获取人体运动数据的方法及电子设备

Also Published As

Publication number Publication date
CN115294228B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
Green et al. Quantifying and recognizing human movement patterns from monocular video images-part i: a new framework for modeling human motion
Yuan et al. 3d ego-pose estimation via imitation learning
WO2021143289A1 (zh) 动画处理方法、装置、计算机存储介质及电子设备
CN111724459B (zh) 一种面向异构人体骨骼的运动重定向的方法及系统
Kitsikidis et al. Multi-sensor technology and fuzzy logic for dancer’s motion analysis and performance evaluation within a 3D virtual environment
Vondrak et al. Dynamical simulation priors for human motion tracking
Lin et al. Balancing and reconstruction of segmented postures for humanoid robots in imitation of motion
CN115294228A (zh) 基于模态引导的多图人体姿态生成方法及装置
CN115223201A (zh) 基于单目序列图像的三维人体关节点估算方法、系统及装置
CN113240714B (zh) 一种基于情境感知网络的人体运动意图预测方法
Sheu et al. Improvement of human pose estimation and processing with the intensive feature consistency network
TW202232284A (zh) 用於在虛擬實境環境中三維人類姿勢之模擬控制
CN112149531B (zh) 一种行为识别中人体骨骼数据的建模方法
CN117238448A (zh) 孤独症干预训练元宇宙系统、学习监测和个性化推荐方法
Zhao et al. Classifying in-place gestures with end-to-end point cloud learning
Su Implementation and rehabilitation application of sports medical deep learning model driven by big data
Zhou et al. Hierarchical learning recurrent neural networks for 3D motion synthesis
Chen et al. Spatiotemporal consistency learning from momentum cues for human motion prediction
Cai et al. A method for 3D human pose estimation and similarity calculation in Tai Chi videos
Zhao et al. In-Place Gestures Classification via Long-term Memory Augmented Network
Zhong Reliable deep learning for intelligent wearable systems
Huang et al. CoMo: Controllable Motion Generation through Language Guided Pose Code Editing
Vybornyi et al. Controlling the correctness of physical exercises performance
Jia Recognition model of sports athletes’ wrong actions based on computer vision
Kleine Deters Therapeutic exercise assessment automation, a hidden Markov model approach.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240306

Address after: 400010 21-12, Block B, China Resources Plaza, Jiulongpo District, Chongqing

Patentee after: Chongqing Zhongcan Cloud Information Technology Co.,Ltd.

Country or region after: China

Address before: Room 627, new research building, Beijing University of Posts and telecommunications, 10 Xitucheng Road, Haidian District, Beijing, 100876

Patentee before: Beijing University of Posts and Telecommunications

Country or region before: China

TR01 Transfer of patent right