CN112101327B

CN112101327B - 动作矫正模型的训练方法、动作矫正方法及装置

Info

Publication number: CN112101327B
Application number: CN202011292360.5A
Authority: CN
Inventors: 周严
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-01-29
Anticipated expiration: 2040-11-18
Also published as: CN112101327A

Abstract

本公开关于一种动作矫正模型的训练方法、动作矫正方法及装置。该训练方法包括：获取目标对象的多个按序排列的样本骨骼信息；按照样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息；将输入状态信息输入预设神经网络模型，得到样本矫正动作信息；根据样本骨骼信息和样本矫正动作信息驱动目标虚拟对象执行动作，得到样本骨骼信息关联的样本物理动作信息；根据样本骨骼信息以及样本骨骼信息关联的样本物理动作信息，确定奖励信息；根据奖励信息训练预设神经网络模型，得到动作矫正模型。根据本公开的技术方案，可以提高动作矫正模型的训练效率和精度。

Description

动作矫正模型的训练方法、动作矫正方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及一种动作矫正模型的训练方法、动作矫正方法及装置。

背景技术

目前在虚拟对象进行动作模仿中，比如在动画制作过程中，采集的人物动作不可避免地存在遮挡因素，导致根据这些人物动作得到的骨骼信息会带有噪声，因此要对骨骼信息进行去噪处理。但相关技术中，去噪处理方式不够高效，准确性以及实时性也欠佳。

发明内容

本公开提供一种动作矫正模型的训练方法、动作矫正方法及装置，以至少解决相关技术中如何使动作矫正模型的动作矫正更加高效、准确且实时性高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种动作矫正模型的训练方法，包括：

获取目标对象的多个按序排列的样本骨骼信息；

按照所述样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息；其中，每个样本骨骼信息对应的样本物理动作信息为每个样本骨骼信息的前一个样本骨骼信息关联的样本物理动作信息；

将所述输入状态信息输入所述预设神经网络模型，对所述样本骨骼信息进行动作矫正学习，得到样本矫正动作信息；

根据所述样本骨骼信息和所述样本矫正动作信息驱动目标虚拟对象执行动作，得到所述样本骨骼信息关联的样本物理动作信息；

根据所述样本骨骼信息以及所述样本骨骼信息关联的样本物理动作信息，确定奖励信息；

根据所述奖励信息训练所述预设神经网络模型，得到所述动作矫正模型。

在一种可能的实现方式中，在所述根据所述样本骨骼信息以及所述样本骨骼信息关联的样本物理动作信息，确定奖励信息步骤之后，所述训练方法还包括：

将所述奖励信息存入奖励信息集合；

当所述样本骨骼信息关联的样本物理动作信息为预设状态信息时，利用所述奖励信息集合中的奖励信息更新所述预设神经网络模型；根据所述多个按序排列的样本骨骼信息中的第一个样本骨骼信息以及所述第一个样本骨骼信息对应的预设样本物理动作信息，确定所述预设神经网络模型的输入状态信息；转至所述将所述输入状态信息输入所述预设神经网络模型，对所述样本骨骼信息进行动作矫正学习，得到样本矫正动作信息步骤；

当所述样本骨骼信息关联的样本物理动作信息不是预设状态信息时，转至所述按照所述样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息步骤。

在一种可能的实现方式中，所述按照所述样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息步骤包括：

按照所述样本骨骼信息的排列顺序，依次获取每个样本骨骼信息中的样本骨骼位姿信息和样本骨骼速度信息；

获取每个样本骨骼信息对应的样本物理动作信息中的第一样本物理位姿信息和第一样本物理速度信息；

根据所述样本骨骼位姿信息、所述样本骨骼速度信息、所述第一样本物理位姿信息和所述第一样本物理速度信息，确定所述输入状态信息。

在一种可能的实现方式中，所述根据所述样本骨骼位姿信息、所述样本骨骼速度信息、所述第一样本物理位姿信息和所述第一样本物理速度信息，确定所述输入状态信息步骤包括：

确定所述样本骨骼位姿信息与所述第一样本物理位姿信息的样本位姿差异信息；

确定所述样本骨骼速度信息与所述第一样本物理速度信息的样本速度差异信息；

将所述样本骨骼位姿信息、所述样本骨骼速度信息、所述第一样本物理位姿信息、所述第一样本物理速度信息、所述样本位姿差异信息以及所述样本速度差异信息作为所述输入状态信息。

在一种可能的实现方式中，所述根据所述样本骨骼信息以及所述样本骨骼信息关联的样本物理动作信息，确定奖励信息步骤包括：

获取所述样本骨骼信息中的样本骨骼位姿信息和样本骨骼速度信息；

从所述样本骨骼位姿信息中提取末端关节点骨骼位姿信息和根关节点骨骼位姿信息；

获取所述样本骨骼信息关联的样本物理动作信息中的第二样本物理位姿信息和第二样本物理速度信息；

从所述第二样本物理位姿信息中提取末端关节点物理位姿信息和根关节点物理位姿信息；

根据所述样本骨骼位姿信息与所述第二样本物理位姿信息的位姿差异信息、所述样本骨骼速度信息与所述第二样本物理速度信息的速度差异信息、所述末端关节点骨骼位姿信息与所述末端关节点物理位姿信息的末端位姿差异信息、所述根关节点骨骼位姿信息与所述根关节点物理位姿信息的根关节点位姿差异信息以及权重信息，得到所述奖励信息；其中，在所述权重信息中，末端位姿差异信息对应的权重大于所述位姿差异信息对应的权重和所述速度差异信息对应的权重；所述根关节点位姿差异信息对应的权重大于所述位姿差异信息对应的权重和所述速度差异信息对应的权重。

在一种可能的实现方式中，所述根据所述样本骨骼信息和所述样本矫正动作信息驱动目标虚拟对象执行动作，得到所述样本骨骼信息关联的样本物理动作信息步骤包括：

根据所述样本骨骼信息和所述样本矫正动作信息，确定目标样本矫正动作信息；

获取预设关节点对应的力矩范围信息以及所述预设关节点对应的角度范围信息；

根据所述预设关节点对应的角度范围信息，将所述目标样本矫正动作信息转化为样本矫正力矩信息；

根据所述预设关节点对应的力矩范围信息以及所述样本矫正力矩信息，确定样本力矩信息；

根据所述样本力矩信息驱动所述目标虚拟对象执行动作，得到所述样本骨骼信息关联的样本物理动作信息。

在一种可能的实现方式中，所述获取目标对象的多个按序排列的样本骨骼信息步骤包括：

采集所述目标对象的多个按照时间顺序排列的样本动作图像；

对所述多个按照时间顺序排列的样本动作图像进行骨骼信息提取处理，得到多个按序排列的初始样本骨骼信息；

在所述多个按序排列的初始样本骨骼信息中加入关节点噪声信息，得到所述多个按序排列的样本骨骼信息。

根据本公开实施例的第二方面，提供一种动作矫正方法，包括：

获取目标对象的多个按序排列的待矫正动作图像；

对所述多个按序排列的待矫正动作图像进行骨骼信息提取处理，得到对应的多个按序排列的待矫正骨骼信息；

将所述多个按序排列的待矫正骨骼信息输入动作矫正模型，进行动作矫正处理，得到多个按序排列的矫正动作信息；

其中，所述动作矫正模型为根据上述动作矫正模型的训练方法得到的。

在一种可能的实现方式中，在所述将所述多个按序排列的待矫正骨骼信息输入动作矫正模型，进行动作矫正处理，得到多个按序排列的矫正动作信息步骤之后，所述动作矫正方法还包括：

根据所述多个按序排列的待矫正骨骼信息和所述多个按序排列的矫正动作信息，确定多个按序排列的目标矫正动作信息；

根据所述预设关节点对应的角度范围信息，将所述多个按序排列的目标矫正动作信息转化为多个按序排列的目标矫正力矩信息；

根据所述预设关节点对应的力矩范围信息以及所述多个按序排列的目标矫正力矩信息，确定多个按序排列的目标力矩信息；

根据所述多个按序排列的目标力矩信息驱动所述目标虚拟对象执行动作。

根据本公开实施例的第三方面，提供一种动作矫正模型的训练装置，包括：

样本骨骼信息获取模块，被配置为执行获取目标对象的多个按序排列的样本骨骼信息；

输入状态信息确定模块，被配置为执行按照所述样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息；其中，每个样本骨骼信息对应的样本物理动作信息为每个样本骨骼信息的前一个样本骨骼信息关联的样本物理动作信息；

样本矫正动作信息获取模块，被配置为执行将所述输入状态信息输入所述预设神经网络模型，对所述样本骨骼信息进行动作矫正学习，得到样本矫正动作信息；

关联的样本物理动作信息获取模块，被配置为执行根据所述样本骨骼信息和所述样本矫正动作信息驱动目标虚拟对象执行动作，得到所述样本骨骼信息关联的样本物理动作信息；

奖励信息确定模块，被配置为执行根据所述样本骨骼信息以及所述样本骨骼信息关联的样本物理动作信息，确定奖励信息；

第一模型训练模块，被配置为执行根据所述奖励信息训练所述预设神经网络模型，得到所述动作矫正模型。

在一种可能的实现方式中，所述训练装置还包括：

奖励信息存储模块，被配置为执行将所述奖励信息存入奖励信息集合；

第二模型训练模块，被配置为执行当所述样本骨骼信息关联的样本物理动作信息为预设状态信息时，利用所述奖励信息集合中的奖励信息更新所述预设神经网络模型；根据所述多个按序排列的样本骨骼信息中的第一个样本骨骼信息以及所述第一个样本骨骼信息对应的预设样本物理动作信息，确定所述预设神经网络模型的输入状态信息；转至所述将所述输入状态信息输入所述预设神经网络模型，对所述样本骨骼信息进行动作矫正学习，得到样本矫正动作信息步骤；

第三模型训练模块，被配置为执行当所述样本骨骼信息关联的样本物理动作信息不是预设状态信息时，转至所述按照所述样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息步骤。

在一种可能的实现方式中，所述输入状态信息确定模块包括：

第一位姿和速度信息获取单元，被配置为执行按照所述样本骨骼信息的排列顺序，依次获取每个样本骨骼信息中的样本骨骼位姿信息和样本骨骼速度信息；

第一样本物理位姿信息和第一样本物理速度信息获取单元，被配置为执行获取每个样本骨骼信息对应的样本物理动作信息中的第一样本物理位姿信息和第一样本物理速度信息；

输入状态信息确定单元，被配置为执行根据所述样本骨骼位姿信息、所述样本骨骼速度信息、所述第一样本物理位姿信息和所述第一样本物理速度信息，确定所述输入状态信息。

在一种可能的实现方式中，所述输入状态信息确定单元包括：

样本位姿差异信息确定子单元，被配置为执行确定所述样本骨骼位姿信息与所述第一样本物理位姿信息的样本位姿差异信息；

样本速度差异信息确定子单元，被配置为执行确定所述样本骨骼速度信息与所述第一样本物理速度信息的样本速度差异信息；

输入状态信息确定子单元，被配置为执行将所述样本骨骼位姿信息、所述样本骨骼速度信息、所述第一样本物理位姿信息、所述第一样本物理速度信息、所述样本位姿差异信息以及所述样本速度差异信息作为所述输入状态信息。

在一种可能的实现方式中，所述奖励信息确定模块包括：

第一位姿和速度信息获取单元，被配置为执行获取所述样本骨骼信息中的样本骨骼位姿信息和样本骨骼速度信息；

第一末端关节点和根关节点位姿信息提取单元，被配置为执行从所述样本骨骼位姿信息中提取末端关节点骨骼位姿信息和根关节点骨骼位姿信息；

第二样本物理位姿信息和第二样本物理速度信息获取单元，被配置为执行获取所述样本骨骼信息关联的样本物理动作信息中的第二样本物理位姿信息和第二样本物理速度信息；

第二末端关节点和根关节点位姿信息提取单元，被配置为执行从所述第二样本物理位姿信息中提取末端关节点物理位姿信息和根关节点物理位姿信息；

奖励信息确定单元，被配置为执行根据所述样本骨骼位姿信息与所述第二样本物理位姿信息的位姿差异信息、所述样本骨骼速度信息与所述第二样本物理速度信息的速度差异信息、所述末端关节点骨骼位姿信息与所述末端关节点物理位姿信息的末端位姿差异信息、所述根关节点骨骼位姿信息与所述根关节点物理位姿信息的根关节点位姿差异信息以及权重信息，得到所述奖励信息；其中，在所述权重信息中，末端位姿差异信息对应的权重大于所述位姿差异信息对应的权重和所述速度差异信息对应的权重；所述根关节点位姿差异信息对应的权重大于所述位姿差异信息对应的权重和所述速度差异信息对应的权重。

在一种可能的实现方式中，所述关联的样本物理动作信息获取模块包括：

目标样本矫正动作信息确定单元，被配置为执行根据所述样本骨骼信息和所述样本矫正动作信息，确定目标样本矫正动作信息；

力矩范围信息和角度范围信息获取单元，被配置为执行获取预设关节点对应的力矩范围信息以及所述预设关节点对应的角度范围信息；

样本矫正力矩信息转化单元，被配置为执行根据所述预设关节点对应的角度范围信息，将所述目标样本矫正动作信息转化为样本矫正力矩信息；

样本力矩信息确定单元，被配置为执行根据所述预设关节点对应的力矩范围信息以及所述样本矫正力矩信息，确定样本力矩信息；

样本物理动作信息获取单元，被配置为执行根据所述样本力矩信息驱动所述目标虚拟对象执行动作，得到所述样本骨骼信息关联的样本物理动作信息。

在一种可能的实现方式中，所述样本骨骼信息获取模块包括：

样本动作图像采集单元，被配置为执行采集所述目标对象的多个按照时间顺序排列的样本动作图像；

初始样本骨骼信息单元，被配置为执行对所述多个按照时间顺序排列的样本动作图像进行骨骼信息提取处理，得到多个按序排列的初始样本骨骼信息；

样本骨骼信息获取单元，被配置为执行在所述多个按序排列的初始样本骨骼信息中加入关节点噪声信息，得到所述多个按序排列的样本骨骼信息。

根据本公开实施例的第四方面，提供一种动作矫正装置，包括：

待矫正动作图像获取模块，被配置为执行获取目标对象的多个按序排列的待矫正动作图像；

待矫正骨骼信息获取模块，被配置为执行对所述多个按序排列的待矫正动作图像进行骨骼信息提取处理，得到对应的多个按序排列的待矫正骨骼信息；

矫正动作信息获取模块，被配置为执行将所述多个按序排列的待矫正骨骼信息输入动作矫正模型，进行动作矫正处理，得到多个按序排列的矫正动作信息；

其中，所述动作矫正模型为根据上述动作矫正模型的训练装置得到的。

在一种可能的实现方式中，所述动作矫正装置还包括：

目标矫正动作信息确定模块，被配置为执行根据所述多个按序排列的待矫正骨骼信息和所述多个按序排列的矫正动作信息，确定多个按序排列的目标矫正动作信息；

力矩范围信息和角度范围信息获取模块，被配置为执行获取预设关节点对应的力矩范围信息以及所述预设关节点对应的角度范围信息；

目标矫正力矩信息转化模块，被配置为执行根据所述预设关节点对应的角度范围信息，将所述多个按序排列的目标矫正动作信息转化为多个按序排列的目标矫正力矩信息；

目标力矩信息确定模块，被配置为执行根据所述预设关节点对应的力矩范围信息以及所述多个按序排列的目标矫正力矩信息，确定多个按序排列的目标力矩信息；

动作驱动模块，被配置为执行根据所述多个按序排列的目标力矩信息驱动所述目标虚拟对象执行动作。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述动作矫正模型的训练方法和上述动作矫正方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述动作矫正模型的训练方法和上述动作矫正方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述动作矫正模型的训练方法和执行上述动作矫正方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过强化学习方式训练预设神经网络模型以得到动作矫正模型，可以提高动作矫正模型的训练效率和精度，还可以保证动作矫正模型的去噪处理可以更加高效和准确；并且，训练得到的动作矫正模型可以是轻量级神经网络模型，能够在终端灵活部署，满足终端侧进行动作矫正的实时性要求；

另外，根据样本骨骼信息和样本矫正动作信息驱动目标虚拟对象执行动作，为目标虚拟对象提供了真实场景的骨骼信息，使得训练得到的动作矫正模型更适应真实场景。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种动作矫正模型的训练方法的流程图。

图2是根据一示例性实施例示出的一种动作矫正模型的训练架构示意图。

图3是根据一示例性实施例示出的一种动作矫正模型的训练方法的流程图。

图4是根据一示例性实施例示出的一种获取目标对象的多个按序排列的样本骨骼信息的方法流程图。

图5是根据一示例性实施例示出的一种按照样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息的方法流程图。

图6是根据一示例性实施例示出的一种根据样本骨骼位姿信息、样本骨骼速度信息、第一样本物理位姿信息和第一样本物理速度信息，确定输入状态信息的方法流程图。

图7是根据一示例性实施例示出的一种根据样本骨骼信息以及样本骨骼信息关联的样本物理动作信息，确定奖励信息的方法流程图。

图8是根据一示例性实施例示出的一种根据样本骨骼信息和样本矫正动作信息驱动目标虚拟对象执行动作，得到样本骨骼信息关联的样本物理动作信息的方法流程图。

图9是根据一示例性实施例示出的一种动作矫正界面示意图。

图10是根据一示例性实施例示出的一种动作矫正方法的流程图。

图11是根据一示例性实施例示出的动作矫正以及驱动目标虚拟对象执行动作的架构示意图。

图12是根据一示例性实施例示出的一种动作矫正方法的流程图。

图13是根据一示例性实施例示出的一种动作矫正模型的训练装置框图。

图14是根据一示例性实施例示出的一种动作矫正装置框图。

图15是根据一示例性实施例示出的一种用于动作矫正的电子设备的框图。

图16是根据一示例性实施例示出的一种用于动作矫正模型训练的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

现有在控制目标虚拟对象进行动作模仿中，例如，在动画制作过程中，需要利用采集得到的多个按序排列的骨骼信息控制目标虚拟对象进行动作模仿，但骨骼信息可能会包含噪声，导致目标虚拟对象模仿的动作可能会出现噪声现象，该噪声现象可以包括滑步现象、穿刺现象、高频抖动现象等。本公开正是为了克服这些噪声现象，在驱动目标虚拟对象进行动作模仿之前，先利用动作矫正模型对多个按序排列的待矫正骨骼信息进行动作矫正处理，得到多个按序排列的矫正动作信息，使得多个按序排列的矫正动作信息中不再包含噪声，进而基于多个按序排列的矫正动作信息控制目标虚拟对象进行动作模仿，可以避免目标虚拟对象模仿的动作出现噪声现象。具体的动作矫正模型的训练方法以及动作矫正方法在下面介绍。

上述动作矫正模型可以是在服务器上训练得到、由服务器发送给终端使用的；终端可以基于动作矫正模型实现动作矫正方法。可选地，本公开的动作矫正方法也可以在服务器中实现，为了实现动作矫正的实时性要求，优选在终端中实现本公开的动作矫正方法，本公开对此不作限定。

本说明书实施例中，在动作矫正模型的训练方法之前，需要搭建物理引擎环境，例如，可以使用开源物理引擎环境搭建仿真运行环境，其中，可以构建目标虚拟对象，并可以设置目标虚拟对象的关节点标识与预设关节点的对应关系。这里的目标虚拟对象可以包括动画人物、其它动画动物等；开源物理引擎环境可以包括dart开源物理引擎环境，本公开对目标虚拟对象和开源物理引擎环境均不作限定。

本说明书实施例中，还需要建立预设关节点与PD(proportional plusderivative control，比例微分控制)参数的映射关系。在一种可能的实现方式中，PD参数可以包括预设关节点对应的力矩范围信息以及对应的角度范围信息，从而可以设置预设关节点对应的力矩范围信息以及对应的角度范围信息，以建立预设关节点与PD参数的映射关系。

本说明书实施例中，预设关节点可以是目标对象关节点中的全部关节点或部分关节点。本公开对此不作限定，只要预设关节点可以保证目标对象能够完成实际需要的动作即可。其中，目标对象可以包括人体、其它动物体等，目标对象与目标虚拟对象可以是对应的，比如目标对象为人体时，目标虚拟对象可以为动画人物。

上述预设关节点可以包括末端关节点、根关节点、连接关节点等。以目标对象为人体为例，末端关节点可以包括手指末端关节点、脚趾末端关节点、头关节点。根关节点可以为一个，该根关节点可以为臀部关节点。连接关节点可以是指根关节点与末端关节点之间的关节点，比如膝关节点、肘关节点等。

本说明书实施例中，可以根据经验值，设置预设关节点对应的力矩范围信息以及对应的角度范围信息，以用于约束目标虚拟对象关节点的运动范围，使得目标虚拟对象关节点的物理动作可以是合理自然的。例如，可以设置肘关节点的角度范围信息为0°至180°。

本说明书实施例中，可以将预设关节点对应的力矩范围信息以及对应的角度范围信息作为预设关节点对应的PD参数，即预设关节点具有对应的PD参数，可以得到预设关节点与PD参数的映射关系。其中，该预设关节点对应的PD参数可以作为预设关节点对应的PD控制器。相应地，后续可以从PD控制器中获取预设关节点对应的力矩范围信息以及预设关节点对应的角度范围信息。

搭建好物理引擎环境以及建立预设关节点与PD参数的映射关系，可以为动作矫正模型的训练以及动作矫正的实现提供基础。需要说明的是，该预设关节点与PD参数的映射关系可以设置在物理引擎环境中，本公开对此不作限定。下面先介绍动作矫正模型的训练方法。如图1所示，图1是根据一示例性实施例示出的一种动作矫正模型的训练方法的流程图，该训练方法可以包括以下步骤。

在步骤S11中，获取目标对象的多个按序排列的样本骨骼信息。

本说明书实施例中，样本骨骼信息可以包括样本骨骼位姿信息以及样本骨骼速度信息，样本骨骼位姿信息可以是指预设关节点的位姿信息，例如预设关节点的角度信息；样本骨骼速度信息可以是指预设关节点的速度信息。

本说明书实施例中，可以通过动作捕捉设备采集目标对象的样本动作图像序列，可以对样本动作图像序列中的样本动作图像进行骨骼信息提取处理，得到目标对象的多个按序排列的样本骨骼信息。本公开对骨骼信息提取处理方式不作限定。需要说明的是，动作捕捉设备可以是终端的摄像设备，本公开对此不作限定。

在步骤S12中，按照样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息；其中，每个样本骨骼信息对应的样本物理动作信息为每个样本骨骼信息的前一个样本骨骼信息关联的样本物理动作信息。

本说明书实施例中，多个按序排列的样本骨骼信息中的第一样本骨骼信息对应的样本物理动作信息可以是预设样本物理动作信息，预设样本物理动作信息可以包括预设物理位姿信息和预设物理速度信息，该预设物理位姿信息和预设物理速度信息可以为0。一个样本骨骼信息关联的样本物理动作信息可以是该一个样本骨骼信息经过预设神经网络模和物理引擎环境后输出的样本物理动作信息，如图2所示。

本说明书实施例中，可以按照样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息。例如，可以按照样本骨骼信息的排列顺序，依次遍历样本骨骼信息，每遍历到一个样本骨骼信息，可以将该遍历到的样本骨骼信息、该遍历到的样本骨骼信息对应的样本物理动作信息、该遍历到的样本骨骼信息与对应的样本物理动作信息的差值信息，作为预设神经网络模型的输入状态信息。需要说明的是，每次输入状态信息可以与遍历到的一个样本骨骼信息对应。

在步骤S13中，将输入状态信息输入预设神经网络模型，对样本骨骼信息进行动作矫正学习，得到样本矫正动作信息。

本说明书实施例中，样本矫正动作信息可以是指样本骨骼信息的矫正信息。作为一个示例，样本矫正动作信息可以是指样本骨骼信息中样本骨骼位姿信息的矫正信息，比如，可以是样本骨骼位姿信息的偏差角信息。

本说明书实施例中，可以将输入状态信息输入预设神经网络模型，进行动作矫正学习，获取样本矫正动作信息。例如，按照样本骨骼信息的排列顺序，可以将当前遍历到的样本骨骼信息对应的输入状态信息输入预设神经网络模型，对样本骨骼信息进行动作矫正学习，得到样本矫正动作信息。本公开对预设神经网络模型不作限定。

在步骤S14中，根据样本骨骼信息和样本矫正动作信息驱动目标虚拟对象执行动作，得到样本骨骼信息关联的样本物理动作信息。

本说明书实施例中，可以根据样本骨骼信息和样本矫正动作信息，确定目标样本矫正动作信息。可以将目标样本矫正动作信息转化为样本力矩信息，从而可以根据该样本力矩信息驱动目标虚拟对象执行动作，得到样本骨骼信息关联的样本物理动作信息。其中，样本物理动作信息可以是指目标虚拟对象的动作骨骼信息。其中，本公开对将目标样本矫正动作信息转化为样本力矩信息的方式不作限定。

在步骤S15中，根据样本骨骼信息以及样本骨骼信息关联的样本物理动作信息，确定奖励信息。

本说明书实施例中，可以将样本骨骼信息与样本骨骼信息关联的样本物理动作信息的差值确定为该样本骨骼信息对应的奖励信息。本公开对此不作限定，只要奖励信息能够使得预设神经网络模型有效学习即可。

在步骤S16中，根据奖励信息训练预设神经网络模型，得到动作矫正模型。

本说明书实施例中，可以根据奖励信息训练预设神经网络模型，通过重复上述步骤，得到动作矫正模型。例如，根据奖励信息训练预设神经网络模型后，可以返回步骤S12，按照样本骨骼信息的排列顺序，遍历到下一个样本骨骼信息，重复上述步骤，直至满足预设收敛条件，得到动作矫正模型。其中，预设收敛条件可以是指奖励信息变化值小于预设阈值。本公开对此不作限定。

图3是根据一示例性实施例示出的一种动作矫正模型的训练方法的流程图，如图3所示，在上述步骤S15之后，该训练方法还可以包括以下步骤：

在步骤S31中，将奖励信息存入奖励信息集合；

在步骤S32中，当样本骨骼信息关联的样本物理动作信息为预设状态信息时，利用奖励信息集合中的奖励信息更新预设神经网络模型；根据多个按序排列的样本骨骼信息中的第一个样本骨骼信息以及第一个样本骨骼信息对应的预设样本物理动作信息，确定预设神经网络模型的输入状态信息；转至将输入状态信息输入预设神经网络模型，对样本骨骼信息进行动作矫正学习，得到样本矫正动作信息步骤；即转至步骤S13。

本说明书实施例中，预设状态信息可以是指目标对象的至少一种姿态的骨骼信息，该骨骼信息可以包括各预设关节点的位姿信息和速度信息。可以根据动作矫正的目的确定预设状态信息。例如，动作矫正是为了矫正人体走路的动作，在这种情况下，可以确定预设状态信息包括摔倒状态信息。需要说明的是，在矫正匍匐动作时，预设状态信息可以不包括摔倒状态信息，例如可以是站立状态信息或下蹲状态信息。本公开对此不作限定。

本说明书实施例中，在样本物理动作信息为预设状态信息时，可以利用奖励信息集合中的奖励信息调整预设神经网络模型的参数以更新预设神经网络模型，可以重新从第一个样本骨骼信息对预设神经网络模型进行动作矫正学习，例如可以根据多个按序排列的样本骨骼信息中的第一个样本骨骼信息以及第一个样本骨骼信息对应的预设样本物理动作信息，确定预设神经网络模型的输入状态信息，从而转至步骤S13，进行动作矫正模型的训练过程。

在步骤S33中，当样本骨骼信息关联的样本物理动作信息不是预设状态信息时，转至按照样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息步骤。

本说明书实施例中，当样本骨骼信息关联的样本物理动作信息不是预设状态信息时，可以转至步骤S12，继续根据下一个样本骨骼信息以及下一个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息，进行动作矫正模型的训练过程。

通过设置预设状态信息，并判断样本物理动作信息为预设状态信息时，重新从第一个样本骨骼信息对预设神经网络模型进行动作矫正学习的训练方式，使得奖励信息可以作为经验存入奖励信息集合，进而使得预设神经网络模型的深度强化学习训练可以采用经验存储-离线学习方式，提高了动作矫正模型训练的效率。

图4是根据一示例性实施例示出的一种获取目标对象的多个按序排列的样本骨骼信息的方法流程图。如图4所示，在一种可能的实现方式中，该步骤S11可以包括以下步骤：

在步骤S41中，采集目标对象的多个按照时间顺序排列的样本动作图像。

本说明书实施例中，可以利用动作捕捉设备连续拍摄目标对象的动作，比如，连续拍摄人的走路动作，可以采集到多个按照时间顺序排列的样本动作图像。

在步骤S42中，对多个按照时间顺序排列的样本动作图像进行骨骼信息提取处理，得到多个按序排列的初始样本骨骼信息。

本说明书实施例中，可以对多个按照时间顺序排列的样本动作图像进行骨骼信息提取处理，得到多个按序排列的初始样本骨骼信息。本公开对骨骼信息提取处理的方式，不作限定。

在步骤S43中，在多个按序排列的初始样本骨骼信息中加入关节点噪声信息，得到多个按序排列的样本骨骼信息。

本说明书实施例中，可以以随机加噪方式，在多个按序排列的初始样本骨骼信息中加入关节点噪声信息，得到多个按序排列的样本骨骼信息。其中，随机加噪方式可以是指随机选择关节点和噪声的方式。本公开对此不作限定。

可选地，也可以根据去噪需求，加入关节点噪声信息。例如，去噪需求是对预设噪声现象的去噪，可以设置关节点噪声信息包括该预设噪声现象的关节点噪声信息，比如穿刺现象的关节点噪声信息。

通过在初始样本骨骼信息中加入关节点噪声信息，使得样本骨骼信息中的噪声种类更加丰富，进而使得基于样本骨骼信息训练的动作矫正模型可以适应更多的去噪(动作矫正)场景。

图5是根据一示例性实施例示出的一种按照样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息的方法流程图。如图5所示，该步骤S12可以包括以下步骤：

在步骤S51中，按照样本骨骼信息的排列顺序，依次获取每个样本骨骼信息中的样本骨骼位姿信息和样本骨骼速度信息。

本说明书实施例中，样本骨骼信息中可以包括样本骨骼位姿信息以及样本骨骼速度信息，从而可以从每个样本骨骼信息中提取出样本骨骼位姿信息以及样本骨骼速度信息。

本说明书实施例中，可以按照样本骨骼信息的排列顺序，一次遍历样本骨骼信息，每遍历到一个样本骨骼信息时，可以获取该一个样本骨骼信息中的样本骨骼位姿信息和样本骨骼速度信息。

在步骤S52中，获取每个样本骨骼信息对应的样本物理动作信息中的第一样本物理位姿信息和第一样本物理速度信息。

本说明书实施例中，样本物理信息中可以包括样本物理位姿信息以及样本物理速度信息。可以获取遍历到的样本骨骼信息对应的样本物理动作信息，从而可以从该样本物理动作信息中提取出第一样本物理位姿信息以及第一样本物理速度信息。

在步骤S53中，根据样本骨骼位姿信息、样本骨骼速度信息、第一样本物理位姿信息和第一样本物理速度信息，确定输入状态信息。

本说明书实施例中，可以将样本骨骼位姿信息与第一样本物理位姿信息的差异信息、样本骨骼速度信息与第一样本物理速度信息的差异信息，作为输入状态信息。

在一种可能的实现方式中，如图6所示，图6是根据一示例性实施例示出的一种根据样本骨骼位姿信息、样本骨骼速度信息、第一样本物理位姿信息和第一样本物理速度信息，确定输入状态信息的方法流程图。该步骤S53可以包括以下步骤：

在步骤S61中，确定样本骨骼位姿信息与第一样本物理位姿信息的样本位姿差异信息；

在步骤S62中，确定样本骨骼速度信息与第一样本物理速度信息的样本速度差异信息；

在步骤S63中，将样本骨骼位姿信息、样本骨骼速度信息、第一样本物理位姿信息、第一样本物理速度信息、样本位姿差异信息以及样本速度差异信息作为输入状态信息。

在一个示例中，可以通过以下公式(1)，确定输入状态信息。

其中，

可以为第

个样本骨骼信息对应的输入状态信息；

可以为第

个样本骨骼信息中的样本骨骼位姿信息；

可以为第

个样本骨骼信息中的样本骨骼速度信息；

可以为第

个样本骨骼信息对应的样本物理动作信息中的第一样本物理位姿信息(即第

个样本骨骼信息关联的样本物理动作信息中的样本物理位姿信息)；

可以为第

个样本骨骼信息对应的样本物理动作信息中的第一样本物理速度信息(即第

个样本骨骼信息关联的样本物理动作信息中的样本物理速度信息)；

可以为样本位姿差异信息；

可以为样本速度差异信息；

可以为样本骨骼信息在多个按序排列的样本骨骼信息中的序号，

可以为正整数。

需要说明的是，在state(1)的时候，第一个样本骨骼信息对应的样本物理动作信息

可以为预设样本物理动作信息(0,0)。

通过设置模型输入状态信息包括相邻两帧的差异信息，使得神经网络模型可以快速进行深度强化学习，并且可以提高动作矫正模型的动作矫正准确度。

图7是根据一示例性实施例示出的一种根据样本骨骼信息以及样本骨骼信息关联的样本物理动作信息，确定奖励信息的方法流程图。该步骤S15可以包括以下步骤：

在步骤S71中，获取样本骨骼信息中的样本骨骼位姿信息和样本骨骼速度信息；该步骤S71的实现方式可以参见步骤S51，在此不再赘述。

在步骤S72中，从样本骨骼位姿信息中提取末端关节点骨骼位姿信息和根关节点骨骼位姿信息。

本说明书实施例中，末端关节点骨骼位姿信息可以是指末端关节点的骨骼位姿信息；根关节点骨骼位姿信息可以是指根关节点的骨骼位姿信息。

在步骤S73中，获取样本骨骼信息关联的样本物理动作信息中的第二样本物理位姿信息和第二样本物理速度信息；

在步骤S74中，从第二样本物理位姿信息中提取末端关节点物理位姿信息和根关节点物理位姿信息。

本说明书实施例中，末端关节点物理位姿信息可以是指末端关节点的物理位姿信息；根关节点物理位姿信息可以是指根关节点的物理位姿信息。

在步骤S75中，根据样本骨骼位姿信息与第二样本物理位姿信息的位姿差异信息、样本骨骼速度信息与第二样本物理速度信息的速度差异信息、末端关节点骨骼位姿信息与末端关节点物理位姿信息的末端位姿差异信息、根关节点骨骼位姿信息与根关节点物理位姿信息的根关节点位姿差异信息以及权重信息，得到奖励信息。

本说明书实施例中，权重信息可以包括末端位姿差异信息对应的权重、位姿差异信息对应的权重、速度差异信息对应的权重、根关节点位姿差异信息对应的权重。在一个示例中，末端位姿差异信息对应的权重可以大于位姿差异信息对应的权重和速度差异信息对应的权重；根关节点位姿差异信息对应的权重可以大于位姿差异信息对应的权重和速度差异信息对应的权重。

本说明书实施例中，末端位姿差异信息对应的权重、位姿差异信息对应的权重、速度差异信息对应的权重、根关节点位姿差异信息对应的权重可以是预先设置的。

本说明书实施例中，可以利用末端位姿差异信息对应的权重、位姿差异信息对应的权重、速度差异信息对应的权重、根关节点位姿差异信息对应的权重，计算位姿差异信息、速度差异信息、末端位姿差异信息、根关节点位姿差异信息的加权信息，作为样本骨骼信息对应的奖励信息。本公开对加权信息的具体计算方式不作限定，只要确定的奖励信息能够使预设神经网络模型有效进行强化学习即可。

在一个示例中，可以通过以下公式(2)，确定样本骨骼信息对应的奖励信息。

其中，

可以为第

个样本骨骼信息对应的奖励信息；

可以为第

个样本骨骼信息中的样本骨骼位姿信息；

可以为第

个样本骨骼信息中的样本骨骼速度信息；

可以为第

个样本骨骼信息中的末端关节点骨骼位姿信息；

可以为第

个样本骨骼信息中的根关节点骨骼位姿信息；

可以为第

个样本骨骼信息关联的样本物理动作信息中的第二样本物理位姿信息；

可以为第

个样本骨骼信息关联的样本物理动作信息中的第二样本物理速度信息；

可以为第

个样本骨骼信息关联的样本物理动作信息中的末端关节点物理位姿信息；

可以为第

个样本骨骼信息关联的样本物理动作信息中的根关节点物理位姿信息；

可以为位姿差异信息对应的权重(位姿权重)、

可以为速度差异信息对应的权重(速度权重)、

可以为根关节点位姿差异信息对应的权重(根关节点权重)；

可以为末端位姿差异信息对应的权重(末端关节点权重)；

，

。

为样本骨骼信息在多个按序排列的样本骨骼信息的排列序号，

可以为正整数。

通过设置奖励信息中根关节点权重高于位姿权重和速度权重、且末端关节点权重高于位姿权重和速度权重，可以使得末端关节点以及根关节点的强化学习更加有效，从而可以使得训练得到的动作矫正模型可以有效的对末端关节点的噪声进行矫正。

图8是根据一示例性实施例示出的一种根据样本骨骼信息和样本矫正动作信息驱动目标虚拟对象执行动作，得到样本骨骼信息关联的样本物理动作信息的方法流程图。如图8所示，该步骤S14可以包括以下步骤：

在步骤S81中，根据样本骨骼信息和样本矫正动作信息，确定目标样本矫正动作信息。

本说明书实施例中，可以将样本矫正动作信息和样本骨骼信息叠加，得到目标样本矫正动作信息。这样可以为目标虚拟对象提供真实环境的模仿数据。

在一个示例中，可以删除样本骨骼信息中的根关节点信息，得到样本矫正骨骼信息；并可以根据样本矫正动作信息和样本矫正骨骼信息，确定目标样本矫正动作信息。例如，将样本矫正动作信息和样本矫正骨骼信息叠加，得到目标样本矫正动作信息。即可以通过以下公式(3)，得到目标样本矫正动作信息

。

其中，

可以为第

个样本骨骼信息对应的样本矫正动作信息；

可以为第

个样本骨骼信息对应的样本矫正骨骼信息；

可以为正整数。

通过删除不进行实际发力的根关节点信息，可以减少输入到物理引擎环境中的数据量。

在步骤S82中，获取预设关节点对应的力矩范围信息以及预设关节点对应的角度范围信息；

在步骤S83中，根据预设关节点对应的角度范围信息，将目标样本矫正动作信息转化为样本矫正力矩信息。

本说明书实施例中，可以获取目标样本矫正动作信息中的矫正骨骼位姿信息和矫正骨骼速度信息，从而可以从矫正骨骼位姿信息和矫正骨骼速度信息中，提取预设关节点的矫正角度信息和预设关节点的矫正速度信息。进一步地，可以判断预设关节点的矫正角度信息是否在对应的角度范围信息内，当预设关节点的矫正角度信息在对应的角度范围信息内时，可以将预设关节点的矫正角度信息作为预设关节点的目标矫正角度信息；当预设关节点的矫正角度信息不在对应的角度范围信息内时，可以获取预设关节点对应的角度范围信息中的上限值，将该上限值作为预设关节点的目标矫正角度信息。

举例来说，目标样本矫正动作信息可以包括肘关节点的矫正角度信息、脚趾末端关节点的矫正角度信息、手指末端关节点的矫正角度信息、头末端关节点的矫正角度信息。如果肘关节点的矫正角度信息不在肘关节点对应的角度范围信息(0°，180°)内，可以将肘关节点的矫正角度信息调整为180°，即可以将180°作为肘关节点的目标矫正角度信息。从而可以基于预设关节点的目标矫正角度信息和预设关节点的矫正速度信息，将目标样本矫正动作信息转化为样本矫正力矩信息。

在步骤S84中，根据预设关节点对应的力矩范围信息以及样本矫正力矩信息，确定样本力矩信息。

本说明书实施例中，样本矫正力矩信息可以是指各预设关节点的样本矫正力矩信息。可以判断各预设关节点的样本矫正力矩信息是否在力矩范围信息内，若在，可以将各预设关节点的样本矫正力矩信息作为各预设关节点的样本力矩信息；若不在，可以将力矩范围信息的上限值作为对应预设关节点的样本力矩信息。

在步骤S85中，根据样本力矩信息驱动目标虚拟对象执行动作，得到样本骨骼信息关联的样本物理动作信息。

本说明书实施例中，由于样本力矩信息是与预设关节点对应的，可以基于目标虚拟对象的关节点标识与预设关节点的对应关系，利用样本力矩信息驱动目标虚拟对象中对应的关节点执行动作。在利用样本力矩信息驱动物理引擎环境中的目标虚拟对象执行动作时，可以采集目标虚拟对象的样本物理动作信息作为样本骨骼信息关联的样本物理动作信息。例如，可以采集目标虚拟对象的各关节点的物理位姿信息和物理速度信息，从而可以将目标虚拟对象的各关节点的物理位姿信息和物理速度信息作为样本骨骼信息关联的样本物理动作信息。

通过设置预设关节点对应的力矩范围信息以及预设关节点对应的角度范围信息，能够保证用于驱动目标虚拟对象的样本力矩信息包含的噪音较少，且能够保证目标虚拟对象的动作更加自然，提高目标虚拟对象的动作合理性。

本说明书实施例中，在训练得到动作矫正模型后，可以使用该动作矫正模型对待矫正骨骼信息进行动作矫正处理。作为一个示例，可以在终端中提供如图9所示的界面，用户可以选择多个按序排列的待矫正动作图像，通过触发动作矫正指令，可以实现对多个按序排列的待矫正动作图像的动作矫正处理。如图10所示，图10是根据一示例性实施例示出的一种动作矫正方法的流程图。该动作矫正方法可以包括：

在步骤S101中，获取目标对象的多个按序排列的待矫正动作图像；

在步骤S102中，对多个按序排列的待矫正动作图像进行骨骼信息提取处理，得到对应的多个按序排列的待矫正骨骼信息。

上述步骤S101和S102的实现方式可以参见S41和S42，在此不再赘述。

在步骤S103中，将多个按序排列的待矫正骨骼信息输入动作矫正模型，进行动作矫正处理，得到多个按序排列的矫正动作信息。其中，该动作矫正模型可以为上述训练得到的动作矫正模型。

通过动作矫正模型对待矫正动作图像进行动作矫正处理，使得动作矫正处理可以更加高效且准确；并可以有效地对多种噪声动作进行矫正。

可选地，可以根据该多个按序排列的矫正动作信息驱动目标虚拟对象执行动作，即可以利用该多个按序排列的矫正动作信息控制目标虚拟对象进行动作模仿。如图11所示，图11是根据一示例性实施例示出的动作矫正以及驱动目标虚拟对象执行动作的架构示意图。可以根据该多个按序排列的矫正动作信息驱动物理引擎环境中的目标虚拟对象执行动作。例如，目标虚拟对象可以为动画人物，从而可以实现动画制作。

在一种可能的实现方式中，图12是根据一示例性实施例示出的一种动作矫正方法的流程图。在步骤S103之后，该动作矫正方法还可以包括以下步骤：

在步骤S121中，根据多个按序排列的待矫正骨骼信息和多个按序排列的矫正动作信息，确定多个按序排列的目标矫正动作信息；

在步骤S122中，获取预设关节点对应的力矩范围信息以及预设关节点对应的角度范围信息；

在步骤S123中，根据预设关节点对应的角度范围信息，将多个按序排列的目标矫正动作信息转化为多个按序排列的目标矫正力矩信息；

在步骤S124中，根据预设关节点对应的力矩范围信息以及多个按序排列的目标矫正力矩信息，确定多个按序排列的目标力矩信息；

在步骤S125中，根据多个按序排列的目标力矩信息驱动目标虚拟对象执行动作。

上述步骤S121至步骤S125的实现方式可以参见步骤S81至步骤S85，在此不再赘述。

通过该动作矫正方法得到的多个按序排列的目标力矩信息驱动目标虚拟对象执行动作，可以使得目标虚拟对象的物理动作更加合理自然。

图13是根据一示例性实施例示出的一种动作矫正模型的训练装置框图。参照图13，该装置可以包括：

样本骨骼信息获取模块131，被配置为执行获取目标对象的多个按序排列的样本骨骼信息；

输入状态信息确定模块132，被配置为执行按照所述样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息；其中，每个样本骨骼信息对应的样本物理动作信息为每个样本骨骼信息的前一个样本骨骼信息关联的样本物理动作信息；

样本矫正动作信息获取模块133，被配置为执行将所述输入状态信息输入所述预设神经网络模型，对所述样本骨骼信息进行动作矫正学习，得到样本矫正动作信息；

关联的样本物理动作信息获取模块134，被配置为执行根据所述样本骨骼信息和所述样本矫正动作信息驱动目标虚拟对象执行动作，得到所述样本骨骼信息关联的样本物理动作信息；

奖励信息确定模块135，被配置为执行根据所述样本骨骼信息以及所述样本骨骼信息关联的样本物理动作信息，确定奖励信息；

第一模型训练模块136，被配置为执行根据所述奖励信息训练所述预设神经网络模型，得到所述动作矫正模型。

在一种可能的实现方式中，所述训练装置还可以包括：

在一种可能的实现方式中，所述输入状态信息确定模块132可以包括：

在一种可能的实现方式中，所述输入状态信息确定单元可以包括：

在一种可能的实现方式中，所述奖励信息确定模块135可以包括：

在一种可能的实现方式中，所述关联的样本物理动作信息获取模块134可以包括：

在一种可能的实现方式中，所述样本骨骼信息获取模块131可以包括：

图14是根据一示例性实施例示出的一种动作矫正装置框图。参照图14，该装置可以包括：

待矫正动作图像获取模块141，被配置为执行获取目标对象的多个按序排列的待矫正动作图像；

待矫正骨骼信息获取模块142，被配置为执行对所述多个按序排列的待矫正动作图像进行骨骼信息提取处理，得到对应的多个按序排列的待矫正骨骼信息；

矫正动作信息获取模块143，被配置为执行将所述多个按序排列的待矫正骨骼信息输入动作矫正模型，进行动作矫正处理，得到多个按序排列的矫正动作信息；

在一种可能的实现方式中，所述动作矫正装置还可以包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图15是根据一示例性实施例示出的一种用于动作矫正的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图15所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种动作矫正方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图16是根据一示例性实施例示出的一种用于动作矫正模型训练的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图16所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种动作矫正模型训练的方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的动作矫正模型的训练方法以及动作矫正方法。

在示例性实施例中，还提供了一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的动作矫正模型的训练方法以及动作矫正方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的动作矫正模型的训练方法以及动作矫正方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种动作矫正模型的训练方法，其特征在于，包括：

获取目标对象的多个按序排列的、包含关节点噪声信息的样本骨骼信息；

2.根据权利要求1所述的训练方法，其特征在于，在所述根据所述样本骨骼信息以及所述样本骨骼信息关联的样本物理动作信息，确定奖励信息步骤之后，所述训练方法还包括：

将所述奖励信息存入奖励信息集合；

3.根据权利要求1或2所述的训练方法，其特征在于，所述按照所述样本骨骼信息的排列顺序，依次根据每个样本骨骼信息以及每个样本骨骼信息对应的样本物理动作信息，确定预设神经网络模型的输入状态信息步骤包括：

4.根据权利要求3所述的训练方法，其特征在于，所述根据所述样本骨骼位姿信息、所述样本骨骼速度信息、所述第一样本物理位姿信息和所述第一样本物理速度信息，确定所述输入状态信息步骤包括：

5.根据权利要求1或2所述的训练方法，其特征在于，所述根据所述样本骨骼信息以及所述样本骨骼信息关联的样本物理动作信息，确定奖励信息步骤包括：

6.根据权利要求1或2所述的训练方法，其特征在于，所述根据所述样本骨骼信息和所述样本矫正动作信息驱动目标虚拟对象执行动作，得到所述样本骨骼信息关联的样本物理动作信息步骤包括：

7.根据权利要求1或2所述的训练方法，其特征在于，所述获取目标对象的多个按序排列的、包含关节点噪声信息的样本骨骼信息步骤包括：

在所述多个按序排列的初始样本骨骼信息中加入关节点噪声信息，得到所述多个按序排列的、包含关节点噪声信息的样本骨骼信息。

8.一种动作矫正方法，其特征在于，包括：

获取目标对象的多个按序排列的待矫正动作图像；

其中，所述动作矫正模型为根据所述权利要求1-7任一项所述的动作矫正模型的训练方法得到的。

9.根据权利要求8所述的动作矫正方法，其特征在于，在所述将所述多个按序排列的待矫正骨骼信息输入动作矫正模型，进行动作矫正处理，得到多个按序排列的矫正动作信息步骤之后，所述动作矫正方法还包括：

10.一种动作矫正模型的训练装置，其特征在于，包括：

样本骨骼信息获取模块，被配置为执行获取目标对象的多个按序排列的、包含关节点噪声信息的样本骨骼信息；

11.根据权利要求10所述的训练装置，其特征在于，所述训练装置还包括：

12.根据权利要求10或11所述的训练装置，其特征在于，所述输入状态信息确定模块包括：

13.根据权利要求12所述的训练装置，其特征在于，所述输入状态信息确定单元包括：

14.根据权利要求10或11所述的训练装置，其特征在于，所述奖励信息确定模块包括：

15.根据权利要求10或11所述的训练装置，其特征在于，所述关联的样本物理动作信息获取模块包括：

16.根据权利要求10或11所述的训练装置，其特征在于，所述样本骨骼信息获取模块包括：

样本骨骼信息获取单元，被配置为执行在所述多个按序排列的初始样本骨骼信息中加入关节点噪声信息，得到所述多个按序排列的、包含关节点噪声信息的样本骨骼信息。

17.一种动作矫正装置，其特征在于，包括：

其中，所述动作矫正模型为根据所述权利要求10-16任一项所述的动作矫正模型的训练装置得到的。

18.根据权利要求17所述的动作矫正装置，其特征在于，所述动作矫正装置还包括：

19.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的动作矫正模型的训练方法。

20.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述指令，以实现如权利要求8或9所述的动作矫正方法。

21.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的动作矫正模型的训练方法。

22.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求8或9所述的动作矫正方法。