CN111340211B

CN111340211B - 一种动作控制模型的训练方法、相关装置及存储介质

Info

Publication number: CN111340211B
Application number: CN202010102248.4A
Authority: CN
Inventors: 陈添财
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-11-24
Anticipated expiration: 2040-02-19
Also published as: CN111340211A

Abstract

本申请公开了一种动作控制模型的训练方法，该方法应用于人工智能领域，具体包括：从待训练片段中获取目标角色所对应的第一状态数据；基于第一状态数据，通过待训练动作控制模型获取动作预测值；根据动作预测值以及M组偏移参数集合，确定目标角色的动作数据；根据第一状态数据和所述动作数据对待训练动作控制模型的模型参数进行更新。本申请还公开了一种模型训练装置及存储介质。本申请可以将关节的预测值变换到关节合理的运动范围内，且无需人为进行调整，不但可以提升模型训练的效率，而且还可以提升模型训练的效果，从而使角色表现的动画效果更好。

Description

一种动作控制模型的训练方法、相关装置及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种动作控制模型的训练方法、相关装置及存储介质。

背景技术

随着机器学习技术的不断发展，电影和游戏应用等动画效果也越来越逼真。无论是在电影还是游戏应用中，对于角色动画而言一个重要的目标就是，将当前自身状态和当前环境状态进行更好的融合，使其产生更加自然的动作。

为了能够使角色更好地融入真实的物理环境，可以采用基于物理引擎进行角色动作训练的方式。即获取关键帧数据作为参考动作，在基于物理引擎搭建的训练平台中，采用强化学习的方式训练角色，在强化学习的过程中，角色的各个关节都具有对应的旋转范围，且可以通过人工设置的方式设置每个旋转范围。

然而，角色往往具有较多的关节，不同的关节可能具有不同旋转范围，因此，人工设置每个关节的旋转范围不但会导致工作量较大，而且容易出现设置不合理的情况，从而导致模型训练的效果较差，进而导致角色所表现的动画效果较差。

发明内容

本申请实施例提供了一种动作控制模型的训练方法、相关装置及存储介质，可以将关节的预测值变换到关节合理的运动范围内，且无需人为进行调整，不但提升模型训练的效率，而且提升模型训练的效果，从而使角色表现的动画效果更好。

有鉴于此，本申请第一方面提供一种动作控制模型的训练方法，包括：

从待训练片段中获取目标角色所对应的第一状态数据，其中，第一状态数据包括M个关节在第一时刻所对应的状态数据，M个关节属于目标角色，M为大于或等于1的整数；

基于第一状态数据，通过待训练动作控制模型获取动作预测值，其中，动作预测值包括M个关节中每个关节在第二时刻所对应的预测值，第二时刻为第一时刻相邻的下一个时刻；

根据动作预测值以及M组偏移参数集合，确定目标角色的动作数据，其中，M组偏移参数集合中的偏移参数集合与M个关节中的关节具有对应关系，且每组偏移参数集合包括关节所对应的拉伸参数以及平移参数；

根据第一状态数据和动作数据对待训练动作控制模型的模型参数进行更新。

本申请第二方面提供一种模型训练装置，包括：

获取模块，用于从待训练片段中获取目标角色所对应的第一状态数据，其中，第一状态数据包括M个关节在第一时刻所对应的状态数据，M个关节属于目标角色，M为大于或等于1的整数；

获取模块，还用于基于第一状态数据，通过待训练动作控制模型获取动作预测值，其中，动作预测值包括M个关节中每个关节在第二时刻所对应的预测值，第二时刻为第一时刻相邻的下一个时刻；

确定模块，用于根据获取模块获取的动作预测值以及M组偏移参数集合，确定目标角色的动作数据，其中，M组偏移参数集合中的偏移参数集合与M个关节中的关节具有对应关系，且每组偏移参数集合包括关节所对应的拉伸参数以及平移参数；

更新模块，用于根据第一状态数据和动作数据对待训练动作控制模型的模型参数进行更新。

在一种可能的设计中，在本申请实施例的第二方面的第一种实现方式中，

更新模块，具体用于根据动作数据获取第二状态数据，其中，第二状态数据包括M个关节在第二时刻所对应的状态数据，第二时刻为第一时刻相邻的下一个时刻；

从待训练片段中获取第二时刻所对应的参考状态数据；

根据第二状态数据以及参考状态数据获取第一奖励值；

基于第一状态数据，通过判别网络模型获取状态价值；

根据状态价值以及第一奖励值对待训练动作控制模型的模型参数进行更新。

在一种可能的设计中，在本申请实施例的第二方面的第二种实现方式中，

获取模块，还用于在确定模块根据动作预测值以及M组偏移参数集合，确定目标角色的动作数据之前，获取目标角色所对应的待训练动画文件，其中，待训练动画文件包括至少一个关键帧，且每个关键帧对应于一个关键帧数据；

获取模块，还用于根据待训练动画文件获取N个关键帧数据，其中，每个关键帧数据包括M个关节的旋转参数，N为大于或等于1的整数；

确定模块，还用于根据获取模块获取的N个关键帧数据，确定M个关节中目标关节所对应的旋转值集合，其中，旋转值集合包括最大旋转值以及最小旋转值，目标关节表示M个关节中的任意一个关节；

确定模块，还用于根据目标关节所对应的旋转值集合，确定目标关节所对应的偏移参数集合。

在一种可能的设计中，在本申请实施例的第二方面的第三种实现方式中，

确定模块，具体用于根据N个关键帧数据，获取目标关节所对应的N组旋转参数；

从目标关节所对应的N组旋转参数中选择最大值作为最大旋转值；

从目标关节所对应的N组旋转参数中选择最小值作为最小旋转值。

在一种可能的设计中，在本申请实施例的第二方面的第四种实现方式中，

确定模块，具体用于根据目标关节所对应的最大旋转值以及最小旋转值，计算得到目标关节所对应的旋转差值；

根据目标关节所对应的旋转差值以及第一系数，计算得到的目标关节所对应的拉伸参数；

根据目标关节所对应的最大旋转值以及最小旋转值，计算得到目标关节所对应的旋转和值；

根据目标关节所对应的旋转和值以及第二系数，计算得到的目标关节所对应的平移参数。

在一种可能的设计中，在本申请实施例的第二方面的第五种实现方式中，

获取模块，还用于根据待训练动画文件获取N个关键帧数据之后，根据N个关键帧数据，获取目标关节所对应的N组旋转参数；

确定模块，还用于根据获取模块获取的目标关节所对应的N组旋转参数，确定最大参数以及最小参数，其中，每组旋转参数包括K个角度值，最大参数包括K个角度值，且最小参数包括K个角度值，K为大于或等于1的整数；

确定模块，还用于根据目标关节所对应的最大参数以及最小参数，确定目标关节所对应的关节类型，其中，关节类型用于确定关节所对应的维度空间。

在一种可能的设计中，在本申请实施例的第二方面的第六种实现方式中，

确定模块，具体用于根据目标关节所对应的最大参数以及最小参数，确定目标关节所对应的K个参数差值；

若K个参数差值中存在至少一个参数差值大于差值阈值，则确定目标关节的关节类型为第一关节类型，其中，第一关节类型对应于1个空间维度；

若K个参数差值中的参数差值均小于或等于差值阈值，则确定目标关节的关节类型为第二关节类型，其中，第二关节类型对应于0个空间维度。

在一种可能的设计中，在本申请实施例的第二方面的第七种实现方式中，

获取模块，还用于获取目标角色在目标时间段所对应的角度变化范围；

获取模块，还用于从角度变化范围内随机获取角度变化量；

获取模块，还用于根据角度变化量确定目标方向角度；

获取模块，具体用于从待训练片段中获取目标角色的M个关节在第一时刻所对应的状态数据；

获取目标角色在目标时间段所对应的运动方向角度；

从待训练片段中获取第二时刻所对应的参考状态数据；

根据第二状态数据以及参考状态数据获取第一奖励值；

基于第一状态数据，通过判别网络模型获取状态价值；

根据目标方向角度以及运动方向角度获取第二奖励值；

根据状态价值、第一奖励值以及第二奖励值，对待训练动作控制模型的模型参数进行更新。

在一种可能的设计中，在本申请实施例的第二方面的第八种实现方式中，

获取模块，具体用于获取目标时间段；

根据目标时间段确定角度变化幅度；

根据角度变化幅度确定目标时间段所对应的角度变化范围。

在一种可能的设计中，在本申请实施例的第二方面的第九种实现方式中，

更新模块，具体用于根据目标方向角度生成第一方向向量；

根据运动方向角度生成第二方向向量；

根据第一方向向量以及第二方向向量，计算目标方向角度与运动方向角度之间的余弦相似度；

根据余弦相似度确定第二奖励值，其中，余弦相似度越大，第二奖励值越高。

在一种可能的设计中，在本申请实施例的第二方面的第十种实现方式中，

获取模块，还用于基于第一状态数据，通过待训练动作控制模型获取动作预测值之前，从待训练片段中获取目标角色所对应的环境数据；

获取模块，具体用于基于第一状态数据以及环境数据，通过待训练动作控制模型获取动作预测值。

在一种可能的设计中，在本申请实施例的第二方面的第十一种实现方式中，

更新模块，具体用于若满足模型训练条件，则根据状态价值以及第一奖励值计算第一梯度；

获取P个计算机设备所对应的梯度平均值，其中，P为大于或等于1的整数；

根据第一梯度以及P个计算机设备所对应的梯度平均值，对待训练动作控制模型的模型参数进行更新。

本申请第三方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行上述各方面所述的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种动作控制模型的训练方法，首先需要从待训练片段中获取目标角色所对应的第一状态数据，然后基于第一状态数据，通过待训练动作控制模型获取动作预测值，再根据动作预测值以及M组偏移参数集合，确定目标角色的动作数据，最后根据第一状态数据和所述动作数据对待训练动作控制模型的模型参数进行更新。通过上述方式，在模型训练的过程中，可以对待训练动作控制模型输出的预测值进行处理，即基于每个关节对应的偏移参数集合，对目标角色的每个关节进行平移和拉伸的操作，由此可以将关节的预测值变换到关节合理的运动范围内，且无需人为进行调整，不但提升模型训练的效率，而且提升模型训练的效果，从而使角色表现的动画效果更好。

附图说明

图1为本申请实施例中动作控制模型训练系统的一个架构示意图；

图2为本申请实施例中基于Unity搭建的仿真平台一个示意图；

图3为本申请实施例中动作控制模型训练框架的一个示意图；

图4为本申请实施例中动作控制模型的训练方法一个实施例示意图；

图5为本申请实施例中仿真机器人的一个关节位置示意图；

图6为本申请实施例中使用玩家评判算法框架训练模型的一个实施例示意图；

图7为本申请实施例中基于仿真平台控制目标角色运动方向的一个界面示意图；

图8为本申请实施例中基于仿真平台控制目标角色运动方向的另一个界面示意图；

图9为本申请实施例中基于仿真平台提供环境数据的一个界面示意图；

图10为本申请实施例中去中心化分布式训练的一个架构示意图；

图11为本申请实施例中中心化分布式训练的一个架构示意图；

图12为本申请实施例中模型训练装置的一个实施例示意图；

图13为本申请实施例中终端设备的一个结构示意图；

图14为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的动作控制模型训练方法，用于更新待训练动作控制模型的模型参数，经过多次迭代训练后，可以得到性能较好的动作控制模型。该动作控制模型输出的动画效果逼真，能够应用于多种不同的动画场景，例如应用于增强现实((AugmentedReality，AR)游戏、虚拟现实(Virtual Reality，VR)游戏以及多人在线战术竞技(Multiplayer Online Battle Arena，MOBA)游戏等。

本申请提供的动作控制模型训练方法应用于游戏物理引擎所搭建的平台，由于物理引擎能够基于真实世界物理定律来实现游戏动画，因此，可以达到更逼真的动画效果。下面将介绍基于物理引擎可以实现的物理类型及其应用。

1、粒子效果，在动画中出现的大规模物理运动，比如用手雷将油桶引爆后所形成的碎石头、冲击波造成的尘土飞扬等效果。

2、刚体效果，在动画中刚体物理的应用非常广泛。常见的地形、建筑以及玩家等通常赋予的是刚体物理，动画中的弓箭和实体子弹也都是通过物理引擎来模拟计算的。涉及到的物理量包含但不仅限于速度、加速度、力旋转、动量、摩擦以及冲量。

3、破碎效果，在动画中一个对象受到一定力后可能会破碎，不同的力量大小会产生不同的表现效果。

4、流体效果，在动画中流体运动更多的是展现水从水管内喷出，水冲击到物体后，物体的表现，比如木箱被冲翻，而那些被冲翻的木箱翻倒的方向每次都各不相同。

5、物理效果，在动画中模仿现实中真实物理世界的运动方式，例如模拟重力和浮力对物体的影响，又例如模拟物体在移动过程中碰到障碍物之后会停止移动或者产生位移，还例如模拟头发和布料等容易变形的物体。

本申请采用上述物理引擎搭建的平台进行训练，为了便于理解，本申请提出了一种动作控制模型训练的方法，该方法应用于图1所示的动作控制模型训练系统，请参阅图1，图1为本申请实施例中动作控制模型训练系统的一个架构示意图，如图所示，动作控制模型训练系统包括至少一个终端设备，且每个终端设备可以包括两个部分，一个为客户端(表现为终端设备的前端展示部分)，另一个为服务端(表现为终端设备的后台处理部分)，其中，客户端和服务端部署在同一个终端设备上，比如图1所示的终端设备1。客户端将当前角色的状态数据和环境数据传递给后台的服务端，作为服务端中网络模型的输入，从而计算出下一帧的动作数据，并且返回至客户端。客户端执行服务端发送的动作数据，然后由客户端计算奖励值并反馈至服务端，服务端中存放从客户端收集到的样本和奖励值，结合强化学习算法更新待训练动作控制模型的模型参数。

需要说明的是，为了提升训练效率，可以采用多个终端设备分别进行上述处理，且多个终端设备之间可以实现通信，例如终端设备1基于本地数据计算得到梯度平均值后，可以向终端设备2、终端设备3、终端设备4和终端设备5广播该梯度平均值，类似地，终端设备1也会收到其他各个终端设备反馈的梯度平均值，结合各个终端设备反馈的梯度平均值以及自身的梯度平均值对待训练动作控制模型进行训练，即可达到并行训练的效果。

需要说明的是，图1所示的终端设备还可以被称为工作机(worker)，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personalcomputer，PC)，此处不做限定。

具体地，客户端是基于Unity搭建的一个仿真平台，基于该仿真平台执行服务端发送的动作数据。请参阅图2，图2为本申请实施例中基于Unity搭建的仿真平台一个示意图，如图所示，在仿真平台中可以展示角色以及环境，比如，图中展示有一个人型角色S1，此外，在动画中还可以展示机器人角色、霸王龙角色以及狮子角色等，图中还展示有山丘S2，此外，在动画中还可以展示树木以及墙面等障碍物。角色在接收到来自服务端的动作数据之后，可以将执行该动作数据后的奖励值反馈给服务端。

应理解，本申请提供的动作控制模型训练方法是基于强化学习实现的，其中，强化学习通常采用致动-评价(Actor-Critic)模型架构。为了便于理解，请参阅图3，图3为本申请实施例中动作控制模型训练框架的一个示意图，如图所示，具体地，服务端部署有Actor网络和Critic网络，在训练的过程中，需要更新的Actor网络和Critic网络的模型参数，Actor网络输出当前状态所对应的动作数据，将动作数据反馈至客户端，由客户端的微分比例(proportional plus derivative control，PD)控制器执行当前动作，基于物理引擎模拟该动作后得到下一个时刻的状态数据，客户端再基于该状态数据以及参考状态数据计算得到奖励值。于是客户端将奖励值反馈至服务端，服务端将奖励值存放至样本存储队列中，当满足训练条件时，可以将样本存储队列中的奖励值取出进行梯度计算，再基于计算得到的梯度更新Actor网络和Critic网络的模型参数。

本申请涉及到的强化学习过程是基于人工智能(Artificial Intelligence，AI)技术实现的，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，强化学习属常见的机器学习(Machine Learning，ML)技术，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

结合上述介绍，本申请实施例提供的方案涉及人工智能的机器学习等技术，下面将对本申请中动作控制模型的训练方法进行介绍，请参阅图4，本申请实施例中对象控制的方法一个实施例包括：

101、从待训练片段中获取目标角色所对应的第一状态数据，其中，第一状态数据包括M个关节在第一时刻所对应的状态数据，M个关节属于目标角色，M为大于或等于1的整数；

本实施例中，模型训练装置从待训练片段中提取目标角色所对应的第一状态数据，其中，待训练片段可以包括动画片段或者视频片段，该待训练片段包括多帧画面，且画面中包括目标角色。目标角色为动画中的一个角色，包含但不仅限于人型角色、仿真机器人(humanoid)、霸王龙、恐龙等角色，本申请以目标角色为仿真机器人为例进行介绍，然而不应理解为对本申请的限定。

可以理解的是，模型训练装置可以部署于终端设备，也可以部署于服务器，本申请以部署于终端设备为例进行介绍，进一步地，还可以理解为模型训练装置部署于worker上进行工作。

假设仿真机器人包括15个关节，其中包括1个跟(root)关节，而跟关节不需要控制，因此，目标角色具有14个可以控制的关节，即M为14，可以理解的是，不同类型的目标角色可能具有不同的可控关节个数，M的取值也可进行相应调整。为了便于说明，请参阅图5，图5为本申请实施例中仿真机器人的一个关节位置示意图，结合图5所示的各个关节的位置，请参阅表1，表1为各个关节对应信息的一个示意。

表1

所示位置	关节名称	关节类型	维度
				A1	胸膛	球面类型	4
A2	脖子	球面类型	4
				A3	右臀	球面类型	4
A4	右膝盖	旋转类型	1
				A5	右脚踝	球面类型	4
A6	右肩膀	球面类型	4
				A7	右肘	球面类型	4
A8	右手腕	固定类型	0
				A9	左臀	球面类型	4
A10	左膝盖	旋转类型	1
				A11	左脚踝	旋转类型	4
A12	左肩膀	旋转类型	4
				A13	左肘	旋转类型	4
A14	左手腕	固定类型	0

由表1可知，不同的关节类型对应于不同的维度，其中，维度表示对该关节进行表示的长度，比如球面(Spherical)类型的关节可以用轴角表示，轴角包括旋转轴(ax,ay,zy)和旋转角(angle)，即可以表现为4个维度的向量(ax,ay,zy,angle)。可选地，球面类型也可以表现为3个维度的向量(ax,ay,zy,angle)。比如旋转(Revolute)类型的关节可以用一个角度表示，即以表现为1个维度的向量(θ)。而固定(fixed)类型的关节无需进行表示。

其中，图5中标识A15所指示的关节为根(root)关节，在人型角色的盆骨位置，也是最顶层的父节点。可以理解的是，人型角色还可以包括其他数量的关节，此处仅为一个示意，不应理解为对本申请的限定。

102、基于第一状态数据，通过待训练动作控制模型获取动作预测值，其中，动作预测值包括M个关节中每个关节在第二时刻所对应的预测值，第二时刻为第一时刻相邻的下一个时刻；

本实施例中，模型训练装置获取第一状态数据，其中，第一状态数据为第t时刻下目标角色的状态数据，状态数据可以包括目标角色中每个关节与根关节的相对位置、每个关节的四元参数、每个关节的线速度和每个关节的角速度。模型训练装置将获取到的第一状态数据输入至待训练动作控制模型，由该待训练动作控制模型输出目标角色的动作预测值，该动作预测值为预测目标角色在第二时刻(即t+1个时刻)下每个关节的动作。

103、根据动作预测值以及M组偏移参数集合，确定目标角色的动作数据，其中，M组偏移参数集合中的偏移参数集合与M个关节中的关节具有对应关系，且每组偏移参数集合包括关节所对应的拉伸参数以及平移参数；

本实施例中，模型训练装置在预测得到第二时刻目标角色所对应的动作预测值之后，为了提升训练的准确度，还需要对动作预测值进行进一步处理，使得每个关节能够在一个合理的范围内运动。即模型训练装置需要结合M组偏移参数集合，对动作预测值进行转换从而得到动作数据，该动作数据为目标角色在第二时刻(即t+1个时刻)下每个关节需要执行动作。其中，每个关节对应一组偏移参数集合，即M个关节具有M组偏移参数集合，且每组偏移参数集合包括关节所对应的拉伸(scale)参数以及平移(offset)参数，在处理的过程中，将每个关节的预测值与该关节所对应的拉伸参数和平移参数进行计算，从而得到该关节所对应的动作。当获取到M个关节所对应的动作时，即得到目标角色在第二时刻的动作数据。

具体地，对于M个关节中的第i个关节而言，可以采用如下方式进行计算：

其中，a_i表示第i个关节的动作数据，i为大于或等于1，且小于或等于M的整数，

表示由待训练动作控制模型输出的第i个关节的预测值。scale_i表示第i个关节的拉伸参数，且代表第i个关节的运动范围。offset_i表示第i个关节的平移参数，且代表第i个关节的旋转偏置。scale_i和offset_i为第i个偏移参数集合。

在计算完各个关节所对应的动作数据之后，可以由PD控制器去执行该动作数据。

104、根据第一状态数据和动作数据对待训练动作控制模型的模型参数进行更新。

本实施例中，模型训练装置将第一状态数据输入至判别网络模型，由该判别网络模型输出状态价值，其中，判别网络模型可以是已经训练好的模型，也可以是待训练的判别网络模型，此次不做限定。然后基于处理后得到的动作数据，由Unity客户端执行当前的动作数据，从而得到第二状态数据，其中，第二状态数据包括M个关节在第二时刻所对应的状态数据。结合第二状态数据和待训练片段中第二时刻目标角色的真实状态数据，确定第一奖励值，根据第一奖励值以及状态价值，对待训练动作控制模型的模型参数进行更新。

为了便于介绍，请参阅图6，图6为本申请实施例中使用玩家评判算法框架训练模型的一个实施例示意图，如图所示，玩家评判算法框架包括待训练动作控制模型(即Actor模型)以及判别网络模型(即Critic模型)，其中，待训练动作控制模型训练的是当前时刻的策略，输出的是下一个时刻的动作预测值，例如待训练动作控制模型输入第一状态数据s_t，输出下一个时刻的动作预测值

再对动作预测值

进行如步骤103所描述的处理，从而得到动作数据a_t。

而判别网络模型用于指导待训练动作控制模型的学习，训练的时候需要对Actor模型和Critic模型均进行训练，实际预测的时候仅使用Actor模型即可。Critic模型学习的是价值函数(value function)所输出的状态价值，第一状态数据s_t所对应的状态价值V_t。基于动作数据a_t与环境进行交互，根据交互的情况，由环境反馈第一奖励值r_t。

其中，判别网络模型输出的状态价值的学习标准是由环境反馈的一系列奖励信息计算而来的，即得到多个时刻的奖励信息之后，可以通过时间差分学习(temporal-difference learning)估计出当前状态价值。时间差分学习是强化学习中的一个中心思想，类似蒙特卡洛方法，时间差分学习能够直接从经验中学习而不需要对于环境的完整知识。类似动态规划方法，时间差分学习能够在现有的估计结果上进行提升而不需要等待整个事件结束。

模型训练装置根据第一奖励值以及判别网络模型输出的状态价值，对待训练动作控制模型进行训练，即更新待训练动作控制模型的模型参数。在实际训练中可以采用近端策略优化(Proximal Policy Optimization，PPO)算法、柔性致动评价(soft actor-critic，SAC)算法、A3C算法以及深层确定性政策梯度(Deep Deterministic PolicyGradient，DDPG)算法。其中，SAC算法通过学习一个随机策略来对熵增加奖励值进行最大化，这个策略会把状态数据映射到动作以及一个Q函数上，Q函数会估计当前策略的目标价值，并通过逼近动态编程进行优化，由此，SAC算法可以让经过熵强化的回报最大化。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，根据动作预测值以及M组偏移参数集合，确定目标角色的动作数据之前，还可以包括：

获取目标角色所对应的待训练动画文件，其中，待训练动画文件包括至少一个关键帧，且每个关键帧对应于一个关键帧数据；

根据待训练动画文件获取N个关键帧数据，其中，每个关键帧数据包括M个关节的旋转参数，N为大于或等于1的整数；

根据N个关键帧数据，确定M个关节中目标关节所对应的旋转值集合，其中，旋转值集合包括最大旋转值以及最小旋转值，目标关节表示M个关节中的任意一个关节；

根据目标关节所对应的旋转值集合，确定目标关节所对应的偏移参数集合。

本实施例中，介绍了一种确定偏移参数集合的方式，为了便于介绍，下面将以M个关节中的任意一个关节为例进行介绍，且该关节为可以称为目标关节，可以理解的是，M个关节中的其他关节均采用类似方式得到对应的偏移参数集合，故此次不做赘述。

具体地，模型训练装置先获取目标角色所对应的待训练动画文件，由于不同的角色往往具有不同的运动规律，因此，在训练某一个目标角色时，需要先获取该目标角色的每个关节所对应的偏移参数集合，如果更换角色，则需要重新获取该角色在每个关节所对应的偏移参数集合。以目标角色为例，需要先提取与该目标角色相关的待训练动画文件，其中，待训练动画文件通常是指bvh(Biovision)格式的动画文件，bvh文件包括至少至少一个关键帧，且每个关键帧对应于一个关键帧数据(即角色的动画数据)。

待训练动画文件中包括关节旋转数据和旋转顺序，其中，旋转数据表示关节在X轴、Y轴和Z轴上的旋转分量，旋转顺序可依次为Z轴、X轴和Y轴的顺序。然后基于待训练动画文件中的旋转数据和旋转顺序，计算对应的四元数(Quaternions)，四元数可以表示为a+bi+cj+dk，这里的a、b、c和d都是实数，其中，i旋转代表X轴与Y轴相交平面中X轴正向向Y轴正向的旋转，j旋转代表Z轴与X轴相交平面中Z轴正向向X轴正向的旋转，k旋转代表Y轴与Z轴相交平面中Y轴正向向Z轴正向的旋转，-i旋转代表X轴与Y轴相交平面中X轴反向向Y轴反向的旋转，-j旋转代表Z轴与X轴相交平面中Z轴反向向X轴反向的旋转，-k旋转代表Y轴与Z轴相交平面中Y轴反向向Z轴反向的旋转。

再基于计算得到的四元数，将其转换为物理引擎中规定欧拉旋转顺序所对应的欧拉旋转数据，欧拉旋转数据可以表示为(α,β,γ)，欧拉旋转顺序可依次为Z轴、Y轴、X轴的顺序，其中，绕Y轴转动的角为偏航(yaw)角，绕X轴转动的角为俯仰(pitch)角，绕Z轴转动的角为翻滚(roll)角。

模型训练装置根据待训练动画文件获取N个关键帧数据，而每个关键帧包括目标角色的M个关节所对应的旋转参数，每个关节所对应的旋转参数具体可以包括欧拉旋转数据(α,β,γ)以及欧拉旋转顺序。以目标关节为例，假设N为100，那么目标关节具有100组欧拉旋转数据(α,β,γ)，即共有300个旋转角度，于是从中选择一个最大旋转值和一个最小旋转值组成该目标关节所对应的旋转值集合。然后，基于目标关节所对应的最大旋转值和最小旋转值，计算得到拉伸参数以及平移参数，即得到目标关节的偏移参数集合。

类似地，M个关节中的其他各个关节也可以分别得到对应的旋转值集合，再基于各自旋转值集合中的最大旋转值和最小旋转值，计算得到拉伸参数以及平移参数，从而得到各关节所对应的偏移参数集合。

其次，本申请实施例中，提供了一种确定偏移参数集合的方式，即可以先获取待训练动画文件，然后根据待训练动画文件获取N个关键帧数据，基于N个关键帧数据获取目标关节所对应的旋转值集合，最后基于旋转值集合，确定目标关节所对应的偏移参数集合。通过上述方式，能够利用动画文件中的关键帧数据，有针对性地生成每个关节所对应的偏移参数集合，在实际训练的过程中，可以基于关节的偏移参数集合对该关节的预测值进行处理，从而提升训练的可靠性和合理性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，根据N个关键帧数据，确定M个关节中目标关节所对应的旋转值集合，可以包括：

根据N个关键帧数据，获取目标关节所对应的N组旋转参数；

本实施例中，介绍了一种确定旋转值集合的方式，模型训练装置在根据待训练动画文件获取N个关键帧数据之后，可以基于N个关键帧数据分别获取每个关节所对应的N组旋转参数，为了便于理解，本实施例将继续以获取目标关节的旋转值集合为例进行介绍，目标关节为M个关节中的任意一个关节，可以理解的是，M个关节中的其他关节均采用类似方式得到对应的旋转值集合，故此次不做赘述。

具体地，假设N为5，即从5个关键帧数据中提取目标关节所对应的5组旋转参数，每组旋转参数可以表示为(α,β,γ)，请参阅表2，表2为关节与旋转参数之间关系的一个示意。

表2

由表2可知，假设M为3，即M个关节分别为关节1、关节2和关节3，其中，目标关节可以是关节1、关节2或者关节3，为了便于说明，假设目标关节为关节1，基于N个关键帧数据获取到5组旋转参数，分别为(50°,60°,70°)、(40°,50°,60°)、(90°,75°,70°)、(110°,120°,90°)以及(15°,30°,20°)，从这5组旋转参数中选择最大值作为最大旋转值，以表2为例，目标关节的最大旋转值为120°。类似地，从这5组旋转参数中选择最小值作为最大旋转值，目标关节的最小旋转值为15°，因此，目标关节所对应的旋转值集合为15°以及120°。

可以理解的是，参考上述方式，可以得到关节2的最大旋转值为122°，最小旋转值为5°，关节2所对应的旋转值集合为5°以及122°。而关节3的最大旋转值为114°，最小旋转值为17°，关节3所对应的旋转值集合为17°以及114°。

再次，本申请实施例中，提供了一种确定旋转值集合的方式，针对其中一个关节，需要获取该关节所对应的N组旋转参数，然后从N组旋转参数中选择最大值作为最大旋转值，并从N组旋转参数中选择最小值作为最小旋转值。通过上述方式，能够基于N组旋转参数获取极值，更好地界定数值的上限和下限，从而有利于计算得到更合理的拉伸参数以及平移参数。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，根据目标关节所对应的旋转值集合，确定目标关节所对应的偏移参数集合，可以包括：

根据目标关节所对应的最大旋转值以及最小旋转值，计算得到目标关节所对应的旋转差值；

本实施例中，介绍了一种计算关节对应的偏移参数集合的方式，为了便于介绍，下面将继续以目标关节所对应的偏移参数集合为例进行介绍，可以理解的是，M个关节中的其他关节均采用类似方式得到对应的偏移参数集合，故此次不做赘述。

具体地，目标关节对应的旋转值集合包括最大旋转值以及最小旋转值，基于最大旋转值以及最小旋转值，可采用如下方式计算目标关节所对应的拉伸参数：

scale＝2*(high-low)；

其中，scale表示目标关节所对应的拉伸参数，high表示目标关节对应旋转值集合中的最大旋转值，low表示目标关节对应旋转值集合中的最小旋转值。此时，(high-low)表示旋转差值，数值2为第一系数。

假设最大旋转值为90°，最小旋转值为60°，则拉伸参数为60°。

可采用如下方式计算目标关节所对应的平移参数：

offset＝0.5*(high+low)；

其中，offset表示目标关节所对应的平移参数，high表示目标关节对应旋转值集合中的最大旋转值，low表示目标关节对应旋转值集合中的最小旋转值。此时，(high+low)表示旋转和值，数值0.5为第二系数。

假设最大旋转值为90°，最小旋转值为60°，则平移参数为75°。

在得到目标关的拉伸参数和平移参数之后，可采用如下方式进行计算：

其中，a表示目标关节的动作数据，

表示由待训练动作控制模型输出的目标关节的预测值。scale表示目标关节的拉伸参数，offset表示目标关节的平移参数。

可以理解的是，M个关节中的其他关节也可以采用上述方式，分别计算各个关节所对应的拉伸参数以及平移参数，再分别基于自身对应的拉伸参数以及平移参数，计算关节所对应的动作数据，此处不做赘述。

再次，本申请实施例中，提供了一种计算关节对应的偏移参数集合的方式，即根据最大旋转值以及最小旋转值，分别计算得到旋转差值以及旋转和值，再基于旋转差值计算得到拉伸参数，并基于旋转和值计算得到平移参数。通过上述方式，为计算拉伸参数和平移参数提供了具体可行的方式，由此提升方案的可行性和可操作性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，根据待训练动画文件获取N个关键帧数据之后，还可以包括：

根据N个关键帧数据，获取目标关节所对应的N组旋转参数；

根据目标关节所对应的N组旋转参数，确定最大参数以及最小参数，其中，每组旋转参数包括K个角度值，最大参数包括K个角度值，且最小参数包括K个角度值，K为大于或等于1的整数；

根据目标关节所对应的最大参数以及最小参数，确定目标关节所对应的关节类型，其中，关节类型用于确定关节所对应的维度空间。

本实施例中，介绍了一种更新关节类型的方式，为了便于介绍，下面将继续以确定目标关节所对应的关节类型为例进行介绍，可以理解的是，M个关节中的其他关节均采用类似方式得到关节类型，故此次不做赘述。

具体地，在模型训练装置获取到N个关键帧数据之后，进而提取N组旋转参数，每组旋转参数包括K个角度值，假设K为3，即旋转参数表示为(α,β,γ)，假设N等于5，即包括5组旋转参数，请参阅表3，表3为目标关节对应旋转参数的一个示意。

表3

由表3可知，目标关节可以采用K个维度表示，即α、β和γ。分别从每个维度上获取最大值，组成最大参数，例如，获取α维度上的最大值，即110°，获取β维度上的最大值，即120°，获取γ维度上的最大值，即90°，于是目标关节所对应的最大参数为(110°,120°,90°)。类似地，分别从每个维度上获取最小值，组成最小参数，例如，获取α维度上的最小值，即15°，获取β维度上的最小值，即30°，获取γ维度上的最小值，即20°，于是目标关节所对应的最小参数为(15°,30°,20°)。

基于目标关节所对应的最大参数以及最小参数，可以分别计算得到K个维度上的参数差值，基于参数差值确定该目标关节所对应的关节类型。其中，经过调整后的关节类型为旋转类型或者固定类型，而调整前的关节类型为球面类型、旋转类型或者固定类型。不同的关节类型往往对应于不同的维度空间大小，比如，球面类型的空间维度为3或4，旋转类型的空间维度为1，固定类型的空间维度为0。

再次，本申请实施例中，提供了一种更新关节类型的方式，可以根据最大参数以及最小参数，将关节类型调整为旋转类型或者固定类型。通过上述方式，能够调整关节的类型，将空间维度较大的关节类型调整为空间维度较小的关节类型，由此减少了训练时动作数据的维度，从而降低了训练难度，并且提升训练效率。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，根据目标关节所对应的最大参数以及最小参数，确定目标关节所对应的关节类型，可以包括：

根据目标关节所对应的最大参数以及最小参数，确定目标关节所对应的K个参数差值；

本实施例中，介绍了一种确定关节类型的方式，为了便于介绍，下面将继续以确定目标关节具体的关节类型为例进行介绍，可以理解的是，M个关节中的其他关节均采用类似方式确定具体的关节类型，故此次不做赘述。

在一个示例中，在模型训练装置获取到N个关键帧数据之后，进而提取N组旋转参数，每组旋转参数包括K个角度值，假设K为3，即旋转参数表示为(α,β,γ)，假设N等于3，即包括3组旋转参数，请参阅表4，表4为目标关节对应旋转参数的一个示意。

表4

由表4可知，目标关节可以采用K个维度表示，即α、β和γ。分别从每个维度上获取最大值，组成最大参数，例如，获取α维度上的最大值，即51°，获取β维度上的最大值，即75°，获取γ维度上的最大值，即70°，于是目标关节所对应的最大参数为(51°,75°,70°)。类似地，分别从每个维度上获取最小值，组成最小参数，例如，获取α维度上的最小值，即50.5°，获取β维度上的最小值，即50°，获取γ维度上的最小值，即60°，于是目标关节所对应的最小参数为(50.5°,50°,60°)。

基于此，得到3个参数差值分别为：

参数差值1＝51°-50.5°＝0.5°；

参数差值2＝75°-50°＝25°；

参数差值3＝70°-60°＝15°；

假设差值阈值为1，则参数差值1小于差值阈值，而参数差值2和参数差值3均大于差值阈值，因此，K个参数差值中存在至少一个参数差值大于差值阈值，即确定该目标关节的关节类型为第一关节类型，第一关节类型具体可以是旋转类型，对应的空间维度为1。

在又一个示例中，在模型训练装置获取到N个关键帧数据之后，进而提取N组旋转参数，每组旋转参数包括K个角度值，假设K为3，即旋转参数表示为(α,β,γ)，假设N等于3，即包括3组旋转参数，请参阅表5，表5为目标关节对应旋转参数的另一个示意。

表5

由表5可知，目标关节可以采用K个维度表示，即α、β和γ。分别从每个维度上获取最大值，组成最大参数，例如，获取α维度上的最大值，即51°，获取β维度上的最大值，即60.5°，获取γ维度上的最大值，即70.5°，于是目标关节所对应的最大参数为(51°,60.5°,70.5°)。类似地，分别从每个维度上获取最小值，组成最小参数，例如，获取α维度上的最小值，即50.5°，获取β维度上的最小值，即60°，获取γ维度上的最小值，即70°，于是目标关节所对应的最小参数为(50.5°,60°,70°)。

基于此，得到3个参数差值分别为：

参数差值1＝51°-50.5°＝0.5°；

参数差值2＝60.5°-60°＝0.5°；

参数差值3＝70.5°-70°＝0.5°；

假设差值阈值为1，则参数差值1、参数差值2和参数差值3均小于差值阈值，因此，K个参数差值中的参数差值均小于或等于差值阈值，即确定该目标关节的关节类型为第二关节类型，第二关节类型具体可以是固定类型，固定类型的关节是跟随根关节移动的，其对应的空间维度为0。

进一步地，本申请实施例中，提供了一种确定关节类型的方式，即先根据目标关节所对应的最大参数以及最小参数，确定目标关节所对应的K个参数差值，如果K个参数差值中存在至少一个参数差值大于差值阈值，则确定目标关节的关节类型为第一关节类型，如果K个参数差值中的参数差值均小于或等于差值阈值，则确定目标关节的关节类型为第二关节类型。通过上述方式，能够利用参数差值的情况准确地更新关节的关节类型，从而减少了训练时动作数据的维度，并降低了训练难度。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，根据第一状态数据和动作数据对待训练动作控制模型的模型参数进行更新，可以包括：

根据动作数据获取第二状态数据，其中，第二状态数据包括M个关节在第二时刻所对应的状态数据，第二时刻为第一时刻相邻的下一个时刻；

从待训练片段中获取第二时刻所对应的参考状态数据；

根据第二状态数据以及参考状态数据获取第一奖励值；

基于第一状态数据，通过判别网络模型获取状态价值；

本实施例中，介绍了一种确定第一奖励值的方式，模型训练装置在获取到动作数据之后，可以通过客户端(即仿真平台)对目标角色进行模拟，从而得到第二时刻所对应的第二状态数据。模型训练装置从待训练片段中获取第二时刻所对应的参考状态数据，其中，参考状态数据为真实数据，而第二状态数据为预测数据，于是基于第二状态数据以及参考状态数据计算第一奖励值。模型训练装置可以根据状态价值以及第一奖励值对待训练动作控制模型的模型参数进行更新。

可以理解的是，第一奖励值虽然是基于第二时刻下的状态数据计算得到的，但是可以表示第一时刻的奖励情况。

在上述训练过程中，可以将计算得到的第一奖励值存储至样本存储队列(ReplayBuffer)中，可选地，还可以存储于哈希表、数组或者数据库，此处不做限定。以样本存储队列为例，该队列中的每条数据以向量的形式存储，为了便于理解，请参阅表6，表6为样本存储队列的一个示意。

表6

由表6可知，样本存储队列中可以存储多条向量，每个向量可以包括五个维度的参数，分别为第一状态数据、动作数据、第二状态数据、奖励值(即第一奖励值或第二奖励值)以及终止情况，其中，终止情况表示是否终止操作，输出奖励值，0表示终止，1表示未终止，可以理解的是，在实际应用中，还可以根据情况设定终止标识。

每当获取一条新数据，可以将该数据以向量的形式压进队尾，如果样本存储队列已满，则弹出队列头部的参数。

其次，本申请实施例中，提供了一种确定第一奖励值的方式，即先根据动作数据获取第二状态数据，并且从待训练片段中获取第二时刻所对应的参考状态数据，然后根据第二状态数据以及参考状态数据获取第一奖励值。通过上述方式，能够获取与关节旋转相关的奖励值，并基于该奖励值进行模型训练，从而提升方案的可操作性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，还可以包括：

获取目标角色在目标时间段所对应的角度变化范围；

从角度变化范围内随机获取角度变化量；

根据角度变化量确定目标方向角度；

从待训练片段中获取目标角色所对应的第一状态数据，可以包括：

从待训练片段中获取目标角色的M个关节在第一时刻所对应的状态数据；

获取目标角色在目标时间段所对应的运动方向角度；

根据第一状态数据和动作数据对待训练动作控制模型的模型参数进行更新，可以包括：

从待训练片段中获取第二时刻所对应的参考状态数据；

根据第二状态数据以及参考状态数据获取第一奖励值；

基于第一状态数据，通过判别网络模型获取状态价值；

根据目标方向角度以及运动方向角度获取第二奖励值；

本实施例中，介绍了一种训练目标角色转向能力的方式，为了能够实现在实际预测中响应于用户操作，控制目标角色转向，在训练过程中，还需要引入目标方向角度以及运动方向角度。然而，从待训练片段中提取的参考状态数据通常不包括目标角色的转向动作，比如，给定的参考状态数据是一小段直线走路的动作捕捉数据，而训练的目的是控制目标角色能够朝不同方向走动，于是通过评价训练过程中目标角色的运动方向角度与目标方向角度的差距，计算一个第二奖励值来引导待训练动作控制模型的训练。目标角色的运动方向角度与目标方向角度的差距越小，第二奖励值越高。为了提升转向的能力，本申请在训练的过程中逐步改变方向的角度变化范围。

可以理解的是，第一奖励值的确定方式已在上述实施例中进行描述，此处不做赘述。

具体地，假设最初的初始方向角度为θ₀，即目标角色在一个目标时间段(episode)内朝着初始方向角度θ₀移动，其中，目标时间段为强化学习中的样本生成单元，一个目标时间段的时间长度可以为几秒至几十秒，每间隔一个目标时间段或多个目标时间段更新一次网络的模型参数。在下一个目标时间段开始的时候，首先确定该目标时间段所对应的角度变化范围[-Δθ,Δθ]，在这个角度变化范围[-Δθ,Δθ]内随机一个值，即得到角度变化量δθ，再根据角度变化量确定目标方向角度，即采用如下方式进行计算：

θ₁＝θ₀+δθ；

其中，θ₁表示目标方向角度，θ₀表示初始方向角度，δθ表示角度变化量。

以此类推，由于Δθ会不断变化，从而使得角度变化量的取值范围不断发生变化，进而可以生成用于训练的目标方向角度。再根据目标方向角度和运动方向角度确定第二奖励值，最后模型训练装置利用状态价值、第一奖励值以及第二奖励值，对待训练动作控制模型的模型参数进行更新。

需要说明的是，在训练过程中从待训练片段中，除了需要获取目标角色的M个关节在第一时刻所对应的状态数据，还需要获取目标角色经过方向控制后对应的运动方向角度。

为了便于理解，请参阅图7，图7为本申请实施例中基于仿真平台控制目标角色运动方向的一个界面示意图，如图所示，图中包括目标角色M1、环境数据M2(如平面或者地形)以及目标角色M1的运动方向，其中，A1所指示的为环境数据M2下，目标角色M1在目标时间段(比如2秒内)所对应的运动方向角度，A2所指示的为环境数据M2下，目标角色M1在目标时间段所对应的目标方向角度。目标方向角度A2可以通过仿真平台界面上的方向按钮M3进行控制，目标角色M1能够根据目标方向角度A2调节目标角色的关节运动，使其更契合设定的目标方向角度A2。如图8所示，图8为本申请实施例中基于仿真平台控制目标角色M1运动方向的另一个界面示意图，B1所指示的为环境数据M2下，目标角色M1在下一个目标时间段所对应的运动方向角度，B2所指示的为环境数据M2下，目标角色M1在下一个目标时间段所对应的目标方向角度。类似地，目标方向角度B2可以通过仿真平台界面上的方向按钮M3进行控制，目标角色M1能够根据目标方向角度B2调节目标角色M1的关节运动，使其更契合设定的下一个目标时间段对应的目标方向角度B2。

再次，本申请实施例中，提供了一种训练目标角色转向能力的方式，即先从角度变化范围内随机获取角度变化量，基于目标方向角度以及运动方向角度确定第二奖励值，再根据状态价值、第一奖励值以及第二奖励值，对待训练动作控制模型的模型参数进行更新。通过上述方式，在训练的过程中，利用预测的运动方向角度和随机获取的目标方向角度之间的差异，能够训练出目标角色的转向能力，使得实际预测过程中，还可以使目标角色更好地执行用户触发的转向操作，从而提升模型预测的能力。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，获取目标角色在目标时间段所对应的角度变化范围，可以包括：

获取目标时间段；

根据目标时间段确定角度变化幅度；

根据角度变化幅度确定目标时间段所对应的角度变化范围。

本实施例中，介绍了一种获取角度变化范围的方式，基于前述实施例所描述的内容，在下一个目标时间段开始的时候，需要新确定该目标时间段所对应的角度变化范围，在这个角度变化范围内随机一个值，即得到角度变化量，再根据角度变化量确定目标方向角度。下面将介绍如何获取角度变化范围。

具体地，角度变化范围[-Δθ,Δθ]中角度变化幅度Δθ会不断改变，角度变化幅度Δθ与目标时间段具有关联关系，训练初始阶段的初始方向角度为θ₀，假设初始方向角度为θ₀为0，角度变化幅度为15°，于是下一个目标时间段所对应的角度变化范围为[-15°,15°]。为了便于说明，请参阅表7，表7为时间段与角度变化范围的一个示意。

表7

时间段	角度变化幅度	角度变化范围	时间段	角度变化幅度	角度变化范围
						T1	0	0	T8	15度	[-105°,105°]
T2	15度	[-15°,15°]	T9	15度	[-120°,120°]
						T3	15度	[-30°,30°]	T10	15度	[-135°,135°]
T4	15度	[-45°,45°]	T11	15度	[-150°,150°]
						T5	15度	[-60°,60°]	T12	15度	[-165°,165°]
T6	15度	[-75°,75°]	T13	15度	[-180°,180°]
						T7	15度	[-90°,90°]

由表7可知，角度变化范围会随着目标时间段变化而变化，当变化到[-180°,180°]时，表示角度变化量的取值范围达到最大，此时角度变化范围可以维持在最大范围内，也可以逐渐缩小。

进一步地，本申请实施例中，提供了一种获取角度变化范围的方式，首先需要确定目标时间段，然后根据目标时间段确定角度变化幅度，再根据角度变化幅度确定目标时间段所对应的角度变化范围。通过上述方式，可以在训练开始的阶段，使得角度变化范围的变化较小，从而提升强化学习和训练的稳定性，且为了提升转向训练的能力，在训练过程中可以逐步改变角度变化范围的大小。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，根据状态价值、第一奖励值以及第二奖励值，对待训练动作控制模型的模型参数进行更新之前，还可以包括：

根据目标方向角度生成第一方向向量；

根据运动方向角度生成第二方向向量；

本实施例中，介绍了一种确定第二奖励值的方式，通常可以采用计算相似度的方式确定第二奖励值，即目标角色的运动方向角度与目标方向角度的差距越小，第二奖励值越高。以计算余弦相似度为例进行介绍，假设目标方向角度为α，运动方向角度为β，根据目标方向角度生成第一方向向量，根据运动方向角度生成第二方向向量，采用如下方式计算目标方向角度与运动方向角度之间的余弦相似度：

其中，sim(A,B)表示目标方向角度与运动方向角度之间的余弦相似度，A表示第一方向向量，B表示第二方向向量。余弦相似度越接近于1，表示目标方向角度与运动方向角度之间的夹角越接近0，对应的第二奖励值也越大。

进一步地，本申请实施例中，提供了一种确定第二奖励值的方式，即先根据目标方向角度生成第一方向向量，并根据运动方向角度生成第二方向向量，然后根据第一方向向量以及第二方向向量，计算目标方向角度与运动方向角度之间的余弦相似度，最后根据余弦相似度确定第二奖励值。通过上述方式，能够获取与目标角色转向相关的奖励值，并基于该奖励值进行模型训练，从而提升方案的可操作性。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，基于第一状态数据，通过待训练动作控制模型获取动作预测值之前，还可以包括：

从待训练片段中获取目标角色所对应的环境数据；

基于第一状态数据，通过待训练动作控制模型获取动作预测值，可以包括：

基于第一状态数据以及环境数据，通过待训练动作控制模型获取动作预测值。

本实施例中，介绍了一种结合环境数据预测得到动作预测值方式，模型训练装置还可以获取环境数据，环境数据可以表示地形情况，例如平面为0，凸地形采用大于0的实数表示，凹地形采用小于0的实数表示。环境数据还可以表示障碍物位置或者目标物体的位置，比如篮筐的位置等。在实际训练中，模型训练装置还可以基于第一状态数据以及环境数据，通过待训练动作控制模型获取动作预测值。

为了便于介绍，请参阅图9，图9为本申请实施例中基于仿真平台提供环境数据的一个界面示意图，如图所示，在仿真平台中可以根据用户需求设置环境情况，比如在“环境”模块中选择K1所指示的“平地”或者K1所指示的“地形”，若选择“平地”，则在M1所示的环境中展示没有凹凸地形的平面，若选择“地形”，则在M1所示的环境中展示具有凹凸地形的平面。在确定环境之后可以进行绘制，同时采用相机的方式调整绘制的视角，以及观察环境的变化情况。如调整至K3所指示的“跟随”状态，则镜头会跟随目标角色进行移动。如调整至K4所指示的“关注”状态，则镜头会关注画面中的某个位置。如调整至K5所指示的“自由视角”状态，则镜头会根据用户选择进行切换。如调整至K6所指示的“固定视角”状态，则镜头会固定某个方向进行拍摄。此外，用户还可以通过仿真平台上K7所指示的拖动条调节视角的大小。

其次，本申请实施例中，提供了一种结合环境数据预测得到动作预测值方式，即还需要从待训练片段中获取目标角色所对应的环境数据，然后基于第一状态数据以及环境数据，通过待训练动作控制模型获取动作预测值。通过上述方式，能够考虑到环境因素对目标角色输出动作的影响，从而训练得到更具有动作目标性的模型，使得模型在实际预测的过程中，能够执行用户给出的相关指令。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的动作控制模型的训练方法另一个可选实施例中，根据状态价值以及第一奖励值对待训练动作控制模型的模型参数进行更新，可以包括：

若满足模型训练条件，则根据状态价值以及第一奖励值计算第一梯度；

本实施例中，介绍了多个设备并行训练模型的方式，模型训练装置在获取到第一奖励值之后，可以将第一奖励值存储至样本存储队列中。在分布式训练中，当各个计算机设备的样本存储队列总共采集到W条数据时，即满足模型训练条件。在单机训练时，当样本存储队列中采集到W条数据时，即满足模型训练条件。可选地，也可以设置一个固定时间T，在分布式训练中，当各个计算机设备采集到T时间段内的数据时，即满足模型训练条件。在单机训练时，当计算机设备采集到T时间段内的数据时，即满足模型训练条件。

为了便于理解，请参阅图10，图10为本申请实施例中去中心化分布式训练的一个架构示意图，如图所示，假设共有4台计算机设备，分别为设备1、设备2、设备3和设备4，当这4台计算机设备共采集到W条数据(例如4096条数据)时，各个计算机设备开始训练，假设本机设备为设备1，设备1在采集到第一奖励值之后，可以基于第一奖励值计算第一梯度，此外结合本机设备的样本存储队列中存储的其他奖励值，分别计算每个奖励值对应的梯度，再向本机设备的信息传递接口(Message Passing Interface，MPI)处理(Solver)模块上报各个梯度(包括第一梯度)，由该MPISolver模块计算这些梯度的梯度平均值，需要说明的是，每台设备均具有一个MPISolver模块，因此，每个设备都可以计算本机的梯度平均值。以设备1为例，假设设备1的MPISolver模块1计算得到梯度平均值A，通过MPISolver模块1将梯度平均值A广播至设备2、设备3和设备4，同样地，设备1也会收到来自设备2、设备3和设备4的梯度平均值，即获取P个计算机设备所对应的梯度平均值，且P为3。设备1基于自身计算得到的梯度平均值A以及来自其他各个设备的P个梯度平均值，对待训练动作控制模型的模型参数进行更新。

类似地，设备2也会收到来自设备1、设备3和设备4的梯度平均值，设备2基于自身计算得到的梯度平均值B以及来自其他各个设备的梯度平均值，对待训练动作控制模型的模型参数进行更新。可以理解的是，其他设备更新模型参数的方式类似，此处不做赘述。基于此，采用MPI并行的方式可以加快训练进程，且梯度是在各个设备中进行分布式计算的，即加快计算速度，在每个设备都确定模型参数之后，再同步各自的计算结果。

可选地，还可以采用中心化的方式进行训练，为了便于理解，请参阅图11，图11为本申请实施例中中心化分布式训练的一个架构示意图，如图所示，假设共有4台计算机设备，分别为设备1、设备2、设备3、设备4以及中心设备。假设本机设备为设备1，当设备1、设备2、设备3以及设备4共采集到W条数据(例如4096条数据)时，设备1在采集到第一奖励值之后，可以基于第一奖励值计算第一梯度，此外结合本机设备的样本存储队列中存储的其他奖励值，分别计算每个奖励值对应的梯度，再基于各个梯度(包括第一梯度)计算得到梯度平均值。以设备1为例，假设设备1计算得到梯度平均值A，以设备2为例，假设设备2计算得到梯度平均值B，以设备3为例，假设设备3计算得到梯度平均值C，以设备4为例，假设设备4计算得到梯度平均值D。由设备1向中心设备上报梯度平均值A，设备2向中心设备上报梯度平均值B，设备3向中心设备上报梯度平均值C，设备4向中心设备上报梯度平均值D，中心设备基于梯度平均值A、梯度平均值B、梯度平均值C和梯度平均值D计算总的梯度平均值，即生成P个计算机设备所对应的梯度平均值，此时P为4。中心服务器可以向任意一台计算机设备发送总的梯度平均值，以设备1为例，设备1可以根据总的梯度平均值对待训练动作控制模型的模型参数进行更新。

其次，本申请实施例中，提供了多个设备并行训练模型的方式，即本设备可以获取其他P个设备的梯度平均值，再结合自身计算得到的第一梯度以及P个设备的梯度平均值，对待训练动作控制模型的模型参数进行更新。通过上述方式，采用MPI并行的操作可以加快训练的进程，也就使得单位时间内能够生成更多的样本数量用于训练，并且梯度平均值分别在各个设备中进行分布式计算，从而加快计算进度。

下面对本申请中的模型训练装置进行详细描述，请参阅图12，图12为本申请实施例中模型训练装置一个实施例示意图，模型训练装置20包括：

获取模块201，用于从待训练片段中获取目标角色所对应的第一状态数据，其中，第一状态数据包括M个关节在第一时刻所对应的状态数据，M个关节属于目标角色，M为大于或等于1的整数；

获取模块201，还用于基于第一状态数据，通过待训练动作控制模型获取动作预测值，其中，动作预测值包括M个关节中每个关节在第二时刻所对应的预测值，第二时刻为第一时刻相邻的下一个时刻；

确定模块202，用于根据获取模块201获取的动作预测值以及M组偏移参数集合，确定目标角色的动作数据，其中，M组偏移参数集合中的偏移参数集合与M个关节中的关节具有对应关系，且每组偏移参数集合包括关节所对应的拉伸参数以及平移参数；

更新模块203，用于根据第一状态数据和动作数据对待训练动作控制模型的模型参数进行更新。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的模型训练装置20的另一实施例中，

更新模块203，具体用于根据动作数据获取第二状态数据，其中，第二状态数据包括M个关节在第二时刻所对应的状态数据，第二时刻为第一时刻相邻的下一个时刻；

从待训练片段中获取第二时刻所对应的参考状态数据；

根据第二状态数据以及参考状态数据获取第一奖励值；

基于第一状态数据，通过判别网络模型获取状态价值；

获取模块201，还用于在确定模块根据动作预测值以及M组偏移参数集合，确定目标角色的动作数据之前，获取目标角色所对应的待训练动画文件，其中，待训练动画文件包括至少一个关键帧，且每个关键帧对应于一个关键帧数据；

获取模块201，还用于根据待训练动画文件获取N个关键帧数据，其中，每个关键帧数据包括M个关节的旋转参数，N为大于或等于1的整数；

确定模块202，还用于根据获取模块201获取的N个关键帧数据，确定M个关节中目标关节所对应的旋转值集合，其中，旋转值集合包括最大旋转值以及最小旋转值，目标关节表示M个关节中的任意一个关节；

确定模块202，还用于根据目标关节所对应的旋转值集合，确定目标关节所对应的偏移参数集合。

确定模块202，具体用于根据N个关键帧数据，获取目标关节所对应的N组旋转参数；

确定模块202，具体用于根据目标关节所对应的最大旋转值以及最小旋转值，计算得到目标关节所对应的旋转差值；

获取模块201，还用于根据待训练动画文件获取N个关键帧数据之后，根据N个关键帧数据，获取目标关节所对应的N组旋转参数；

确定模块202，还用于根据获取模块201获取的目标关节所对应的N组旋转参数，确定最大参数以及最小参数，其中，每组旋转参数包括K个角度值，最大参数包括K个角度值，且最小参数包括K个角度值，K为大于或等于1的整数；

确定模块202，还用于根据目标关节所对应的最大参数以及最小参数，确定目标关节所对应的关节类型，其中，关节类型用于确定关节所对应的维度空间。

确定模块202，具体用于根据目标关节所对应的最大参数以及最小参数，确定目标关节所对应的K个参数差值；

获取模块201，还用于获取目标角色在目标时间段所对应的角度变化范围；

获取模块201，还用于从角度变化范围内随机获取角度变化量；

获取模块201，还用于根据角度变化量确定目标方向角度；

获取模块201，具体用于从待训练片段中获取目标角色的M个关节在第一时刻所对应的状态数据；

获取目标角色在目标时间段所对应的运动方向角度；

从待训练片段中获取第二时刻所对应的参考状态数据；

根据第二状态数据以及参考状态数据获取第一奖励值；

基于第一状态数据，通过判别网络模型获取状态价值；

根据目标方向角度以及运动方向角度获取第二奖励值；

获取模块201，具体用于获取目标时间段；

根据目标时间段确定角度变化幅度；

根据角度变化幅度确定目标时间段所对应的角度变化范围。

更新模块203，具体用于根据目标方向角度生成第一方向向量；

根据运动方向角度生成第二方向向量；

获取模块201，还用于基于第一状态数据，通过待训练动作控制模型获取动作预测值之前，从待训练片段中获取目标角色所对应的环境数据；

获取模块201，具体用于基于第一状态数据以及环境数据，通过待训练动作控制模型获取动作预测值。

更新模块203，具体用于若满足模型训练条件，则根据状态价值以及第一奖励值计算第一梯度；

本申请实施例还提供了另一种模型训练装置，该模型训练装置部署于终端设备，请参阅图13，如图13所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图13中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；可选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，可选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器380还具有以下功能：

根据第一状态数据和所述动作数据对待训练动作控制模型的模型参数进行更新。

本申请实施例还提供了另一种模型训练装置，该模型训练装置部署于服务器，请参阅图14，图14是本申请实施例提供的一种服务器结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作系统441，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

在本申请实施例中，该服务器所包括的CPU 422还具有以下功能：

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图1至图11所示实施例描述的方法中模型训练装置所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图1至图11所示实施例描述的方法中模型训练装置所执行的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种动作控制模型的训练方法，其特征在于，包括：

从待训练片段中获取目标角色所对应的第一状态数据，其中，所述第一状态数据包括M个关节在第一时刻所对应的状态数据，所述M个关节属于所述目标角色，所述M为大于或等于1的整数；

基于所述第一状态数据，通过待训练动作控制模型获取动作预测值，其中，所述动作预测值包括所述M个关节中每个关节在第二时刻所对应的预测值，所述第二时刻为所述第一时刻相邻的下一个时刻；

根据所述动作预测值以及M组偏移参数集合，确定所述目标角色的动作数据，其中，所述M组偏移参数集合中的偏移参数集合与所述M个关节中的关节具有对应关系，且每组偏移参数集合包括关节所对应的拉伸参数以及平移参数，其中，所述拉伸参数为根据关节的最大旋转值与最小旋转值之差以及第一系数确定的，所述平移参数为根据关节的最大旋转值与最小旋转值之和以及第二系数确定的；

根据所述第一状态数据、第二状态数据、所述第二时刻所对应的参考状态数据和所述动作数据，对待训练动作控制模型的模型参数进行更新，其中，所述第一状态数据用于通过判别网络模型获取状态价值，所述第二状态数据包括所述M个关节在所述第二时刻所对应的状态数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一状态数据、第二状态数据、所述第二时刻所对应的参考状态数据和所述动作数据对待训练动作控制模型的模型参数进行更新，包括：

根据所述动作数据获取所述第二状态数据；

从所述待训练片段中获取所述第二时刻所对应的参考状态数据；

根据所述第二状态数据以及所述参考状态数据获取第一奖励值；

基于所述第一状态数据，通过判别网络模型获取状态价值；

根据所述状态价值以及所述第一奖励值对所述待训练动作控制模型的模型参数进行更新。

3.根据权利要求1所述的训练方法，其特征在于，所述根据所述动作预测值以及M组偏移参数集合，确定所述目标角色的动作数据之前，所述方法还包括：

获取所述目标角色所对应的待训练动画文件，其中，所述待训练动画文件包括至少一个关键帧，且每个关键帧对应于一个关键帧数据；

根据所述待训练动画文件获取N个关键帧数据，其中，每个关键帧数据包括所述M个关节的旋转参数，所述N为大于或等于1的整数；

根据所述N个关键帧数据，确定所述M个关节中目标关节所对应的旋转值集合，其中，所述旋转值集合包括最大旋转值以及最小旋转值，所述目标关节表示所述M个关节中的任意一个关节；

根据所述目标关节所对应的旋转值集合，确定所述目标关节所对应的偏移参数集合。

4.根据权利要求3所述的训练方法，其特征在于，所述根据所述N个关键帧数据，确定所述M个关节中目标关节所对应的旋转值集合，包括：

根据所述N个关键帧数据，获取所述目标关节所对应的N组旋转参数；

从所述目标关节所对应的N组旋转参数中选择最大值作为最大旋转值；

从所述目标关节所对应的N组旋转参数中选择最小值作为最小旋转值。

5.根据权利要求3所述的训练方法，其特征在于，所述根据所述目标关节所对应的旋转值集合，确定所述目标关节所对应的偏移参数集合，包括：

根据所述目标关节所对应的最大旋转值以及最小旋转值，计算得到所述目标关节所对应的旋转差值；

根据所述目标关节所对应的旋转差值以及第一系数，计算得到的所述目标关节所对应的拉伸参数；

根据所述目标关节所对应的最大旋转值以及最小旋转值，计算得到所述目标关节所对应的旋转和值；

根据所述目标关节所对应的旋转和值以及第二系数，计算得到的所述目标关节所对应的平移参数。

6.根据权利要求3所述的训练方法，其特征在于，所述根据所述待训练动画文件获取N个关键帧数据之后，所述方法还包括：

根据所述目标关节所对应的N组旋转参数，确定最大参数以及最小参数，其中，每组旋转参数包括K个角度值，所述最大参数包括K个角度值，且所述最小参数包括K个角度值，所述K为大于或等于1的整数；

根据所述目标关节所对应的最大参数以及最小参数，确定所述目标关节所对应的关节类型，其中，所述关节类型用于确定关节所对应的空间维度。

7.根据权利要求6所述的训练方法，其特征在于，所述根据所述目标关节所对应的最大参数以及最小参数，确定所述目标关节所对应的关节类型，包括：

根据所述目标关节所对应的最大参数以及最小参数，确定所述目标关节所对应的K个参数差值；

若所述K个参数差值中存在至少一个参数差值大于差值阈值，则确定所述目标关节的关节类型为第一关节类型，其中，所述第一关节类型对应于1个空间维度；

若所述K个参数差值中的参数差值均小于或等于所述差值阈值，则确定所述目标关节的关节类型为第二关节类型，其中，所述第二关节类型对应于0个空间维度。

8.根据权利要求1至7中任一项所述的训练方法，其特征在于，所述方法还包括：

获取所述目标角色在目标时间段所对应的角度变化范围；

从所述角度变化范围内随机获取角度变化量；

根据所述角度变化量确定目标方向角度；

所述从待训练片段中获取目标角色所对应的第一状态数据，包括：

从所述待训练片段中获取所述目标角色的所述M个关节在所述第一时刻所对应的状态数据；

获取所述目标角色在目标时间段所对应的运动方向角度；

所述根据所述第一状态数据、第二状态数据、所述第二时刻所对应的参考状态数据和所述动作数据对待训练动作控制模型的模型参数进行更新，包括：

根据所述动作数据获取所述第二状态数据；

基于所述第一状态数据，通过判别网络模型获取状态价值；

根据所述目标方向角度以及所述运动方向角度获取第二奖励值；

根据所述状态价值、所述第一奖励值以及所述第二奖励值，对所述待训练动作控制模型的模型参数进行更新。

9.根据权利要求8所述的训练方法，其特征在于，所述获取所述目标角色在目标时间段所对应的角度变化范围，包括：

获取所述目标时间段；

根据所述目标时间段确定角度变化幅度；

根据所述角度变化幅度确定所述目标时间段所对应的角度变化范围。

10.根据权利要求8所述的训练方法，其特征在于，所述根据所述目标方向角度以及所述运动方向角度获取第二奖励值，包括：

根据所述目标方向角度生成第一方向向量；

根据所述运动方向角度生成第二方向向量；

根据所述第一方向向量以及所述第二方向向量，计算所述目标方向角度与所述运动方向角度之间的余弦相似度；

根据所述余弦相似度确定所述第二奖励值，其中，所述余弦相似度越大，所述第二奖励值越高。

11.根据权利要求1所述的训练方法，其特征在于，所述基于所述第一状态数据，通过待训练动作控制模型获取动作预测值之前，所述方法还包括：

从所述待训练片段中获取目标角色所对应的环境数据；

所述基于所述第一状态数据，通过待训练动作控制模型获取动作预测值，包括：

基于所述第一状态数据以及所述环境数据，通过所述待训练动作控制模型获取所述动作预测值。

12.根据权利要求2所述的训练方法，其特征在于，所述根据所述状态价值以及所述第一奖励值对所述待训练动作控制模型的模型参数进行更新，包括：

若满足模型训练条件，则根据所述状态价值以及第一奖励值计算第一梯度；

获取P个计算机设备所对应的梯度平均值，其中，所述P为大于或等于1的整数；

根据所述第一梯度以及所述P个计算机设备所对应的梯度平均值，对所述待训练动作控制模型的模型参数进行更新。

13.一种模型训练装置，其特征在于，包括：

获取模块，用于从待训练片段中获取目标角色所对应的第一状态数据，其中，所述第一状态数据包括M个关节在第一时刻所对应的状态数据，所述M个关节属于所述目标角色，所述M为大于或等于1的整数；

所述获取模块，还用于基于所述第一状态数据，通过待训练动作控制模型获取动作预测值，其中，所述动作预测值包括所述M个关节中每个关节在第二时刻所对应的预测值，所述第二时刻为所述第一时刻相邻的下一个时刻；

确定模块，用于根据所述获取模块获取的所述动作预测值以及M组偏移参数集合，确定所述目标角色的动作数据，其中，所述M组偏移参数集合中的偏移参数集合与所述M个关节中的关节具有对应关系，且每组偏移参数集合包括关节所对应的拉伸参数以及平移参数，其中，所述拉伸参数为根据关节的最大旋转值与最小旋转值之差以及第一系数确定的，所述平移参数为根据关节的最大旋转值与最小旋转值之和以及第二系数确定的；

更新模块，用于根据所述第一状态数据、第二状态数据、所述第二时刻所对应的参考状态数据和所述动作数据对待训练动作控制模型的模型参数进行更新，其中，所述第一状态数据用于通过判别网络模型获取状态价值，所述第二状态数据包括所述M个关节在所述第二时刻所对应的状态数据。

14.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求1至12中任一项所述的训练方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的训练方法。