CN115272541B

CN115272541B - 一种驱动智能体到达多目标点的姿态生成方法

Info

Publication number: CN115272541B
Application number: CN202211171031.4A
Authority: CN
Inventors: 张子懿; 唐浩
Original assignee: Chengdu Tishi Infinite Technology Co ltd
Current assignee: Chengdu Tishi Infinite Technology Co ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-01-03
Anticipated expiration: 2042-09-26
Also published as: CN115272541A

Abstract

本发明公开了一种驱动智能体到达多目标点的姿态生成方法，包括构建人型智能体的数字化物理仿真模型并建立初始世界坐标系；获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，将骨骼结构数据的关节旋转参数转换为关节指数参数作为参考特征；获取智能体状态信息并基于强化学习网络计算智能体的运动特征及奖励函数，基于奖励函数更新强化学习网络中各网络节点的权值；将运动特征和参考特征输入判别器网络输出网络损失并更新判别器网络；构建智能体状态信息并依次输入训练后的数字化物理仿真模型，输出智能体的运动特征并在物理仿真环境中完成渲染。本方法实现了对于不同运动方式的动态调整，极大地增加了智能体到达特定目标点的准确度。

Description

一种驱动智能体到达多目标点的姿态生成方法

技术领域

本发明涉及虚拟数字人技术领域，具体涉及一种驱动智能体到达多目标点的姿态生成方法。

背景技术

随着CG虚拟人在动画，电影，沉浸交互，VR/AR等领域的广泛应用，如何用技术实现虚拟数字人和真人的实时智能姿态交互尤为重要。目前完成智能体的驱动任务常常需要人工参与整个过程，利用控制器、手动K帧等方式完成一个动作流程。

具体的，在使用人工参与整体姿态生成的流程的时候，为了保证姿态生成的真实性与自然度，加大了人工参与的力度，缺点是硬件成本高昂、占地面积大、设备操作复杂不易移动，并且需要大量的人力成本，而且在实现具体任务的时候，会具有任务隔离性，即需要具体任务具体分配。

综上所述，传统的虚拟数字人姿态构建方法存在需要人工参与、人工成本高和任务隔离性的问题。

发明内容

有鉴于此，本发明提供一种驱动智能体到达多目标点的姿态生成方法，区别于目前行业内所有的姿态捕捉技术，不需要人工实时参与，而是通过AI技术直接在虚拟物理引擎中通过控制智能体完成不同的姿态任务，得到可以用于驱动虚拟数字人的自然的姿态动画序列数据，解决了传统的虚拟数字人姿态构建方法存在的需要的人工参与、人工成本高和任务隔离性的问题。

为解决以上问题，本发明的技术方案为采用一种驱动智能体到达多目标点的姿态生成方法，包括：以物理仿真环境为框架构建人型智能体的数字化物理仿真模型，并建立初始世界坐标系；获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，将所述骨骼结构数据的关节旋转参数转换为初始世界坐标系下的关节指数参数作为参考特征；获取与所述参考特征对应的智能体状态信息，并基于数字化物理仿真模型的强化学习网络计算智能体的运动特征及其对应的奖励函数，并基于所述奖励函数更新强化学习网络中各网络节点的权值；将所述运动特征和所述参考特征输入数字化物理仿真模型的判别器网络输出网络损失，并基于所述网络损失更新所述判别器网络；设置多目标点的位置信息并分别计算每个目标点对应的转向激活因子，构建每个目标点对应的智能体状态信息并依次输入训练后的所述数字化物理仿真模型，输出智能体的运动特征并在所述物理仿真环境中完成渲染。

可选地，计算每个目标点对应的转向激活因子，构建每个目标点对应的智能体状态信息，包括：基于智能体的当前位置信息及其对应的速度向量、所述目标点的位置信息计算偏转角度、方向转换点的坐标及其对应的速度向量、方向平稳点的速度向量；基于所述方向转换点的坐标、目标点的位置信息计算目标点的速度向量；由于智能体运动速度恒定，基于方向转换点的速度向量和所述目标点的速度向量进行速度分解，生成智能体转向时所做圆周运动的半径；随机采样所述匀速圆周运动中的任意圆上两点作为一组数据计算待校准圆心坐标，基于多组数据生成的待校准圆心坐标的均值作为圆心坐标；基于所述圆心坐标和所述目标点的速度向量生成方向平稳点的坐标；基于所述方向平稳点的坐标及其对应的速度向量、目标点的位置信息及其对应的速度向量生成激活因子；基于所述智能体的当前位置信息及其对应的速度向量、目标点的位置信息及其对应的速度向量、方向转换点的坐标及其对应的速度向量、所述方向平稳点的坐标及其对应的速度向量和所述激活因子构建所述目标点对应的智能体状态信息。

可选地，以物理仿真环境为框架构建人型智能体的数字化物理仿真模型，包括：在物理仿真环境中构建人型智能体的骨骼结构及其质量；在物理仿真环境中构建所述骨骼的关节指数参数；在物理仿真环境中构建用于模拟碰撞体积的体积参数。

可选地，获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，包括：基于动作捕捉方法获取多个不同目标任务的人体运动的姿态变化序列数据；使用动作捕捉编辑软件将所述多个姿态变化序列数据转换为与所述数字化物理仿真模型的所述骨骼结构适配的骨骼结构数据。

可选地，获取与所述参考特征对应的智能体状态信息，并基于数字化物理仿真模型的强化学习网络计算智能体的运动特征及其对应的奖励函数，包括：获取与所述参考特征对应的智能体状态信息si，并计算智能体前向量与局部坐标系x轴的夹角α和当前状态下的智能体根节点线速度v，从而构建强化学习网络的特征提取网络输入xi = si+ goals（θ- α，v），其中，θ为当前局部坐标系下目标的方向，其中，goals为目标函数，用于将智能体转向角度和智能体根节点线速度映射为目标特征；基于所述特征提取网络输入的xi = si+goals（θ - α，v），输出智能体的运动特征；构建奖励函数f(xi) = R(θ, v, v*)，其中，v*为预设的速度范围，v为当前状态下的智能体根节点线速度，θ为当前局部坐标系下目标的方向，即，目标方向与局部坐标系x轴的夹角。

可选地，将所述运动特征和所述参考特征输入数字化物理仿真模型的判别器网络输出网络损失，并基于所述网络损失更新所述判别器网络，包括：将所述运动特征A ̂_i和所述参考特征A_i输入数字化物理仿真模型的判别器网络输出（A ̂_i,A_i）的i*2维向量作为所述网络损失；基于所述网络损失，利用损失函数对所述判别器网络更新。

可选地，设置多目标点的位置信息，包括：将多目标点的位置信息配置为(（x₀,y₀）,...,（x_i, y_i）)，其中，x_i, y_i分别代表目标点相对于所述初始世界坐标系的x轴与y轴的位移。

可选地，所述姿态生成方法还包括：在目标任务存在多种类型时，构建的每个目标点对应的智能体状态信息还包括目标任务类型信息，将所述智能体状态信息输入训练后的所述数字化物理仿真模型，输出智能体的运动特征并在所述物理仿真环境中完成渲染，智能体在所述物理仿真环境中逐帧与环境交互直至完成目标任务；在所述交互的过程中，同步记录所述人型智能体的姿态信息，以用于驱动3D虚拟数字人。

本发明的首要改进之处为提供的驱动智能体到达多目标点的姿态生成方法，通过在物理仿真环境中构建人型智能体的数字化物理仿真模型，建立初始世界坐标系，并获取初始世界坐标系下的关节指数参数作为参考特征，进而获取与所述参考特征对应的智能体状态信息，并完成数字化物理仿真模型中的强化学习网络和判别器网络的更新，从而通过设置多目标点的位置信息并分别计算每个目标点对应的转向激活因子，构建每个目标点对应的智能体状态信息并依次输入训练后的所述数字化物理仿真模型，输出智能体的运动特征并在所述物理仿真环境中完成渲染。本方法训练得到的人型智能体在物理仿真环境下能够自然的完成多目标点的任务，且在目标角度中加入激活因子进行处理，实现了对于不同运动方式的动态调整，极大地增加了智能体到达特定目标点的准确度，并且能避免脚滑步和身体穿插等在动作捕捉技术中常见的问题，解决了传统的虚拟数字人姿态构建方法存在的需要的人工参与、人工成本高和任务隔离性的问题。

附图说明

图1是本发明的驱动智能体到达多目标点的姿态生成方法的简化流程图；

图2是本发明的计算激活因子的简化示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1所示，一种驱动智能体到达多目标点的姿态生成方法，包括：

S1：以物理仿真环境为框架构建人型智能体的数字化物理仿真模型。

进一步的，所述物理仿真环境可以基于Nvidia发布的Isaac gym构建的数字化物理模拟引擎。

进一步的，构建人型智能体的数字化物理仿真模型，包括：在物理仿真环境中构建人型智能体的骨骼结构及其质量；在物理仿真环境中构建所述骨骼的关节指数参数；在物理仿真环境中构建用于模拟碰撞体积的体积参数。

更进一步的，在物理仿真环境中构建人型智能体的骨骼结构及其质量，包括：在物理仿真环境中配置bvh骨骼点文件，并将其转换为mjcf带有绑定的格式文件。具体的，所述人型智能体由13个骨骼构成，骨骼的定义和质量如下(中文注释）：root 6.0kg 根骨骼，作为整体的相对骨骼；chest 14.0kg 前胸骨骼；neck 2.0kg 颈部骨骼；right_shoulder1.5kg 右肩骨骼；right_elbow 1.0kg 右臂骨骼；left_shoulder 1.5 kg 左肩骨骼；left_elbow 1.0 kg 左臂骨骼；right_hip 4.5 kg 右大腿骨骼；right_knee 3.0 kg 右膝盖及小腿骨骼；right_ankle 1.0 kg 右脚踝骨骼；left_hip 4.5 kg 左大腿骨骼；left_knee3.0 kg 左膝盖及小腿骨骼； left_ankle 1.0 kg 左脚踝骨骼。

更进一步的，在物理仿真环境中构建所述骨骼的关节指数参数包括：由于所述骨骼结构由关节连接，因此需构建每个关节的关节指数参数，即，旋转自由度。其中，所述旋转自由度的构建方式为骨骼名称加上（x, y, z），分别代表绕x, y, z轴旋转；不含x, y, z则代表该关节仅能按照固定方向旋转，以符合人体的自然能动性。具体的，关节指数参数被定义为：chest_x 、 chest_y、 chest_z、neck_x、neck_y、 neck_z、 right_shoulder_x、right_shoulder_y、right_shoulder_z、right_elbow、left_shoulder_x、 left_shoulder_y、left_shoulder_z、left_elbow、right_hip_x、right_hip_y、right_hip_z、 right_knee、right_ankle_x、right_ankle_y、right_ankle_z、left_hip_x、left_hip_y、 left_hip_z、left_knee、left_ankle_x、left_ankle_y、left_ankle_z。

更进一步的，在物理仿真环境中构建用于模拟碰撞体积的体积参数，包括：在构建所述人形智能体时，预设身体部分的体积参数，从而人型智能体在所述物理仿真环境中运动时，能够进行身体碰撞和外部环境碰撞的体积计算。更进一步的，为便于配置所述体积参数，能够采用与目标人体体型大小相近的圆球体，圆柱体，立方体参数组成所述身体部分，例如：人型智能体的头部可以用圆球体构成，手臂和腿部可以用圆柱体构成，脚部可以用立方体构成。

S2：获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，包括：基于动作捕捉方法获取多个不同目标任务的人体运动的姿态变化序列数据；使用动作捕捉编辑软件将所述多个姿态变化序列数据转换为与所述数字化物理仿真模型的所述骨骼结构适配的骨骼结构数据。其中，目标任务可以是行走、跑步、上楼梯等类型。

进一步的，动作捕捉编辑软件可以是motionbuilder工具软件等。

S3：将所述骨骼结构数据的关节旋转参数转换为初始世界坐标系下的关节指数参数作为参考特征。其中，所述关节指数参数的表达式可以是：(chest_x, chest_y, chest_z)。

S4：获取与所述参考特征对应的智能体状态信息，并基于数字化物理仿真模型的强化学习网络计算智能体的运动特征及其对应的奖励函数，包括：获取与所述参考特征对应的智能体状态信息si，并计算智能体前向量与局部坐标系x轴的夹角α和当前状态下的智能体根节点线速度v，从而构建强化学习网络的特征提取网络输入xi = si+ goals（θ - α，v），其中，θ为当前局部坐标系下目标的方向，其中，goals为目标函数，用于将智能体转向角度和智能体根节点线速度映射为目标特征；基于所述特征提取网络输入的xi = si+ goals（θ - α，v），输出智能体的运动特征；构建奖励函数f(xi) = R(θ, v, v*)，其中，v*为预设的速度范围，v为当前状态下的智能体根节点线速度，θ为当前局部坐标系下目标的方向，即，目标方向与局部坐标系x轴的夹角。其中，由于智能体的运动方向与智能体前向量（heading_vector）、目标方向的夹角、智能体根节点的线速度（linear_velocity）有关。因此，智能体朝目标方向运动时，它的速度会向目标方向进行逼近，即可以通过速度向量来作为智能体向目标方向移动的特征，因此，本申请通过对此特征进行函数映射构建该奖励函数。

S5：将所述运动特征和所述参考特征输入数字化物理仿真模型的判别器网络输出网络损失，并基于所述网络损失更新所述判别器网络，包括：将所述运动特征A ̂_i和所述参考特征A_i输入数字化物理仿真模型的判别器网络输出（A ̂_i,A_i）的i*2维向量作为所述网络损失；基于所述网络损失，利用利用LSGAN的损失函数对所述判别器网络更新。

S6：设置多目标点的位置信息并分别计算每个目标点对应的转向激活因子，构建每个目标点对应的智能体状态信息并依次输入训练后的所述数字化物理仿真模型，输出智能体的运动特征并在所述物理仿真环境中完成渲染。

进一步的，如图2所示，计算每个目标点对应的转向激活因子，构建每个目标点对应的智能体状态信息，包括：基于智能体的当前位置信息及其对应的速度向量、所述目标点的位置信息(x_t,y_t)计算偏转角度、方向转换点的坐标A(x₁,y₁)及其对应的速度向量V₁、方向平稳点的速度向量V₂；基于所述方向转换点的坐标A(x₁,y₁)、目标点target的位置信息(x_t,y_t)计算目标点的速度向量V₃；由于智能体运动速度恒定，基于方向转换点的速度向量和所述目标点的速度向量进行速度分解，生成智能体转向时所做圆周运动的半径r；随机采样所述匀速圆周运动中的任意圆上两点作为一组数据计算待校准圆心坐标，基于多组数据生成的待校准圆心坐标的均值作为圆心坐标o；基于所述圆心坐标o和所述目标点的速度向量V₃生成方向平稳点的坐标B(x₂,y₂)；基于所述方向平稳点的坐标B(x₂,y₂)及其对应的速度向量V₂、目标点的位置信息(x_t,y_t)及其对应的速度向量V₃生成激活因子δ，其中，δ为B点至目标点坐标连线所处向量与B点速度方向的夹角；基于所述智能体的当前位置信息及其对应的速度向量、目标点的位置信息及其对应的速度向量、方向转换点的坐标及其对应的速度向量、所述方向平稳点的坐标及其对应的速度向量和所述激活因子构建所述目标点对应的智能体状态信息。

由于智能体运动的多样性，在从一个方向过渡到另外一个方向时，因为需要保证姿态的自然，通常会出现行进一段不需要的弧度，这个弧度可以近似等效于圆的一部分。当角度拟合完成后，会与目标点的产生一段偏差。目前的研究是通过网络去避免这种偏差。但是通过实验发现，通过网络的方式效果并不好，且极其依赖于数据集。而本申请通过设置激活因子从数学上去重定向这个弧度，即让在其特定方向再进行一段偏移来达到返回目标点的作用，而这个激活因子是与智能体角速度、偏转角度相关的。换句话来说，角速度改变的是近似圆的半径与圆心，偏转角度决定的是智能体回归到目标角度后所对应的位置。因此，本申请通过在目标角度中加入激活因子进行处理，实现了对于不同运动方式的动态调整，极大地增加了智能体到达特定目标点的准确度。

更进一步的，设置多目标点的位置信息，包括：将多目标点的位置信息配置为(（x₀, y₀）,...,（x_i, y_i）)，其中，x_i, y_i分别代表目标点相对于所述初始世界坐标系的x轴与y轴的位移。

更进一步的，所述姿态生成方法还包括：在目标任务存在多种类型时，构建的每个目标点对应的智能体状态信息还包括目标任务类型信息，将所述智能体状态信息输入训练后的所述数字化物理仿真模型，输出智能体的运动特征并在所述物理仿真环境中完成渲染，智能体在所述物理仿真环境中逐帧与环境交互直至完成目标任务；在所述交互的过程中，同步记录所述人型智能体的姿态信息，以用于驱动3D虚拟数字人。

本发明通过在物理仿真环境中构建人型智能体的数字化物理仿真模型，建立初始世界坐标系，并获取初始世界坐标系下的关节指数参数作为参考特征，进而获取与所述参考特征对应的智能体状态信息，并完成数字化物理仿真模型中的强化学习网络和判别器网络的更新，从而通过设置多目标点的位置信息并分别计算每个目标点对应的转向激活因子，构建每个目标点对应的智能体状态信息并依次输入训练后的所述数字化物理仿真模型，输出智能体的运动特征并在所述物理仿真环境中完成渲染。本方法训练得到的人型智能体在物理仿真环境下能够自然的完成多目标点的任务，且在目标角度中加入激活因子进行处理，实现了对于不同运动方式的动态调整，极大地增加了智能体到达特定目标点的准确度，并且能避免脚滑步和身体穿插等在动作捕捉技术中常见的问题，解决了传统的虚拟数字人姿态构建方法存在的需要的人工参与、人工成本高和任务隔离性的问题。

以上对本发明实施例所提供的驱动智能体到达多目标点的姿态生成方法进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种驱动智能体到达多目标点的姿态生成方法，其特征在于，包括：

以物理仿真环境为框架构建人型智能体的数字化物理仿真模型，并建立初始世界坐标系；

获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，将所述骨骼结构数据的关节旋转参数转换为初始世界坐标系下的关节指数参数作为参考特征；

获取与所述参考特征对应的智能体状态信息，并基于数字化物理仿真模型的强化学习网络计算智能体的运动特征及其对应的奖励函数，并基于所述奖励函数更新强化学习网络中各网络节点的权值；

将所述运动特征和所述参考特征输入数字化物理仿真模型的判别器网络输出网络损失，并基于所述网络损失更新所述判别器网络；

设置多目标点的位置信息并分别计算每个目标点对应的转向激活因子，构建每个目标点对应的智能体状态信息并依次输入训练后的所述数字化物理仿真模型，输出智能体的运动特征并在所述物理仿真环境中完成渲染，其中，构建每个目标点对应的智能体状态信息，包括：基于智能体的当前位置信息及其对应的速度向量、所述目标点的位置信息计算偏转角度、方向转换点的坐标及其对应的速度向量、方向平稳点的速度向量；基于所述方向转换点的坐标、目标点的位置信息计算目标点的速度向量；由于智能体运动速度恒定，基于方向转换点的速度向量和所述目标点的速度向量进行速度分解，生成智能体转向时所做圆周运动的半径；随机采样匀速圆周运动中的任意圆上两点作为一组数据计算待校准圆心坐标，基于多组数据生成的待校准圆心坐标的均值作为圆心坐标；基于所述圆心坐标和所述目标点的速度向量生成方向平稳点的坐标；基于所述方向平稳点的坐标及其对应的速度向量、目标点的位置信息及其对应的速度向量生成激活因子；基于所述智能体的当前位置信息及其对应的速度向量、目标点的位置信息及其对应的速度向量、方向转换点的坐标及其对应的速度向量、所述方向平稳点的坐标及其对应的速度向量和所述激活因子构建所述目标点对应的智能体状态信息。

2.根据权利要求1所述的姿态生成方法，其特征在于，以物理仿真环境为框架构建人型智能体的数字化物理仿真模型，包括：

在物理仿真环境中构建人型智能体的骨骼结构及其质量；

在物理仿真环境中构建所述骨骼的关节指数参数；

在物理仿真环境中构建用于模拟碰撞体积的体积参数。

3.根据权利要求1所述的姿态生成方法，其特征在于，获取人体运动的姿态变化序列数据并将其转换为骨骼结构数据，包括：

基于动作捕捉方法获取多个不同目标任务的人体运动的姿态变化序列数据；

使用动作捕捉编辑软件将多个姿态变化序列数据转换为与所述数字化物理仿真模型的所述骨骼结构适配的骨骼结构数据。

4.根据权利要求3所述的姿态生成方法，其特征在于，获取与所述参考特征对应的智能体状态信息，并基于数字化物理仿真模型的强化学习网络计算智能体的运动特征及其对应的奖励函数，包括：

获取与所述参考特征对应的智能体状态信息si，并计算智能体前向量与局部坐标系x轴的夹角α和当前状态下的智能体根节点线速度v，从而构建强化学习网络的特征提取网络输入xi＝si+goals(θ-α，v)，其中，θ为当前局部坐标系下目标的方向，其中，goals为目标函数，用于将智能体转向角度和智能体根节点线速度映射为目标特征；

基于所述特征提取网络输入的xi＝si+goals(θ-α，v)，输出智能体的运动特征；

构建奖励函数f(xi)＝R(θ,v,v*)，其中，v*为预设的速度范围，v为当前状态下的智能体根节点线速度，θ为当前局部坐标系下目标的方向，即，目标方向与局部坐标系x轴的夹角。

5.根据权利要求1所述的姿态生成方法，其特征在于，将所述运动特征和所述参考特征输入数字化物理仿真模型的判别器网络输出网络损失，并基于所述网络损失更新所述判别器网络，包括：

将所述运动特征A^_i和所述参考特征A_i输入数字化物理仿真模型的判别器网络输出(A^_i,A_i)的i*2维向量作为所述网络损失；

基于所述网络损失，利用损失函数对所述判别器网络更新。

6.根据权利要求1所述的姿态生成方法，其特征在于，设置多目标点的位置信息，包括：将多目标点的位置信息配置为((x₀,y₀),...,(x_i,y_i))，其中，x_i代表目标点在所述初始世界坐标系的x轴上的位移，y_i代表目标点在所述初始世界坐标系的y轴上的位移。

7.根据权利要求1所述的姿态生成方法，其特征在于，所述姿态生成方法还包括：

在目标任务存在多种类型时，构建的每个目标点对应的智能体状态信息还包括目标任务类型信息，

将所述智能体状态信息输入训练后的所述数字化物理仿真模型，输出智能体的运动特征并在所述物理仿真环境中完成渲染，智能体在所述物理仿真环境中逐帧与环境交互直至完成目标任务；

在所述交互的过程中，同步记录所述人型智能体的姿态信息，以用于驱动3D虚拟数字人。