CN114630190A

CN114630190A - 关节姿态参数的确定方法、模型训练方法及装置

Info

Publication number: CN114630190A
Application number: CN202210193587.7A
Authority: CN
Inventors: 郭紫垣; 赵亚飞; 张世昌; 范锡睿
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-14

Abstract

本公开提供的关节姿态参数的确定方法、模型训练方法及装置，涉及深度学习技术、增强现实技术和数字人技术领域，包括：获取用于驱动数字人动作的音频数据和视频数据；视频数据中包括人物动作画面；提取音频数据中包括的音频帧的音频特征，以及视频数据中包括的视频帧的动作特征；根据音频特征和动作特征，确定出关节姿态参数，关节姿态参数用于控制数字人的动作。本公开提供的方案中，能够提取视频画面中人物做出的动作特征，并融合音频数据中的音频特征，得到关节姿态参数，使得关节姿态参数符合人物动作的特征，又符合音频数据中的音频特征，从而实现数字人的高效、高精度驱动。

Description

关节姿态参数的确定方法、模型训练方法及装置

技术领域

本公开涉及人工智能技术中的深度学习技术、增强现实技术和数字人技术领域，尤其涉及一种关节姿态参数的确定方法、模型训练方法、装置、电子设备、计算机可读存储介质及程序产品。

背景技术

数字人是虚拟的3D人形模型，数字人存在很多应用，比如可以控制数字人跳舞，以实现娱乐功能，再比如，可以控制数字人做出与正在播放的语音内容相符的手语动作。

目前，在驱动数字人的方案中，以驱动数字人跳舞为例，通常利用音频数据驱动数字人跳舞，或者利用视频数据驱动数字人跳舞。

在利用音频数据驱动数字人跳舞时，现有的基于音频驱动数字人跳舞的方法无法针对音频的音高和频率变化，对应产生富有节奏的舞蹈动作变化，具体表现在动作的速度和幅度不准确，没有打点的感觉。

而基于视频的驱动方案则需要采集真实用户的舞蹈视频，这就要求用户有较高的舞蹈基础，如果其动作不标准，最终驱动效果则会大打折扣，需要加入很多后处理或者人工动画修正才能驱动数字人做出合理的动作。

发明内容

本公开提供了一种关节姿态参数的确定方法、模型训练方法及装置，从而实现数字人的高效、高精度驱动。

根据本公开的第一方面，提供了一种数字人的关节姿态参数的确定方法，包括：

获取用于驱动数字人动作的音频数据，以及用于驱动数字人动作的视频数据；所述视频数据中包括人物动作画面；

提取所述音频数据中包括的音频帧的音频特征，以及所述视频数据中包括的视频帧的动作特征；

根据所述音频特征和所述动作特征，确定出关节姿态参数，所述关节姿态参数用于控制所述数字人的动作。

根据本公开的第二方面，提供了一种数字人的驱动方法，包括：

利用权利要求如第一方面所述的方法获取数字人的关节姿态参数；

基于所述关节姿态参数，控制所述数字人的动作。

根据本公开的第三方面，提供了一种模型训练方法，包括：

获取训练数据集，所述训练数据集中包括关节姿态标签参数、与所述关节姿态标签参数对应的样本音频帧数据，以及与所述关节姿态标签参数对应的样本视频帧数据；

提取所述样本音频帧数据包括的样本音频特征，以及所述样本视频帧数据包括的样本动作特征；

将所述样本音频特征和所述样本动作特征输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数；

根据与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态标签参数，以及与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态预测参数，调整所述模型中的参数，得到用于生成关节姿态参数的模型。

根据本公开的第四方面，提供了一种数字人的关节姿态参数的确定装置，包括：

获取单元，用于获取用于驱动数字人动作的音频数据，以及用于驱动所述数字人动作的视频数据；所述视频数据中包括人物动作画面；

提取单元，用于提取所述音频数据中包括的音频帧的音频特征，以及所述视频数据中包括的视频帧的动作特征；

生成单元，用于根据所述音频特征和所述动作特征，确定出关节姿态参数，所述关节姿态参数用于控制所述数字人的动作。

根据本公开的第五方面，提供了一种数字人的驱动装置，包括：

利用第六方面所述的装置获取数字人的关节姿态参数；

基于所述关节姿态参数，控制所述数字人的动作。

根据本公开的第六方面，提供了一种模型训练装置，包括：

数据获取单元，用于获取训练数据集，所述训练数据集中包括关节姿态标签参数、与所述关节姿态标签参数对应的样本音频帧数据，以及与所述关节姿态标签参数对应的样本视频帧数据；

特征提取单元，用于提取所述样本音频帧数据包括的样本音频特征，以及所述样本视频帧数据包括的样本动作特征；

参数生成单元，用于将所述样本音频特征和所述样本动作特征输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数；

调整单元，用于根据与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态标签参数，以及与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态预测参数，调整所述模型中的参数，得到用于生成关节姿态参数的模型。

根据本公开的第七方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面或第二方面所述的方法。

根据本公开的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如第一方面或第二方面所述的方法。

根据本公开的第九方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。

本公开提供的关节姿态参数的确定方法、模型训练方法及装置，包括：获取用于驱动数字人动作的音频数据，以及用于驱动数字人动作的视频数据；视频数据中包括人物动作画面；提取音频数据中包括的音频帧的音频特征，以及视频数据中包括的视频帧的动作特征；根据音频特征和动作特征，确定出关节姿态参数，关节姿态参数用于控制数字人的动作。本公开提供的方案中，能够提取视频画面中人物做出的动作特征，并融合音频数据中的音频特征，得到关节姿态参数，使得关节姿态参数符合人物动作的特征，又符合音频数据中的音频特征，从而实现数字人的高效、高精度驱动，能够高效的得到数字人做出有节奏的动作的画面。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开一示例性实施例示出的数字人的关节姿态参数的确定方法的流程示意图；

图2为本公开另一示例性实施例示出的数字人的关节姿态参数的确定方法的流程示意图；

图3为本公开一示例性实施例示出的通过模型生成关节姿态参数的流程示意图；

图4为本公开又一示例性实施例示出的数字人的关节姿态参数的确定方法的流程示意图；

图5为本公开另一示例性实施例示出的通过模型生成关节姿态参数的流程示意图；

图6为本公开一示例性实施例示出的模型训练方法的流程示意图；

图7为本公开另一示例性实施例示出的模型训练方法的流程示意图；

图8为本公开一示例性实施例示出的关节位置示意图；

图9为一示例性实施例示出的三维数字人的示意图；

图10为本公开一示例性实施例示出的用于生成关节姿态参数的装置的结构示意图；

图11为本公开一示例性实施例示出的数字人的关节姿态参数的确定装置的结构示意图；

图12为本公开另一示例性实施例示出的数字人的关节姿态参数的确定装置的结构示意图；

图13为本公开一示例性实施例示出的用于生成关节姿态参数的模型的训练装置的结构示意图；

图14为本公开另一示例性实施例示出的用于生成关节姿态参数的模型的训练装置的结构示意图；

图15是用来实现本公开实施例的任一方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，数字人的应用场景较多，比如可以通过数字人替换真人在舞台上表演。在这种应用场景中，通常需要使用音频数据或者视频数据驱动数字人舞动。

一种方式中，可以录制音频并采集真人的跳舞视频，再利用该跳舞视频计算出关节姿态，从而利用该关节姿态控制数字人舞动，在数字人舞动的同时，播放录制的音频，从而达到数字人跳舞的效果。但是，这种方式中，无法针对音频的音高和频率变化，对应产生富有节奏的舞蹈动作变化，具体表现在动作的速度和幅度不准确，没有打点的感觉。

另一种方式中，可以对预先采集的真人跳舞视频中的每一帧进行检测，建立视频特征和关节姿态系数的数据组合，并利用这些组合做视频驱动舞蹈动作的训练。在应用时，将音频数据或者视频输入模型，就能够得到数字人的关节姿态，进而形成数字人的舞蹈动画。但是，这种方式对用户有较高的舞蹈基础，如果其动作无法与训练集的分布相匹配，最终驱动效果则会大打折扣，由于模型稳定性不足，需要加入很多后处理或者人工动画修正才能产生合理的动作。

为了解决上述技术问题，本公开提供一种数字人的关节姿态参数的确定方法中，可以融合音频数据和视频数据中的特征，生成数字人的关节姿态参数，具体的确定方式可以通过训练得到，这种方式能够高效的生成更有节奏感的舞蹈动作。

图1为本公开一示例性实施例示出的数字人的关节姿态参数的确定方法的流程示意图。

如图1所示，本公开提供的数字人的关节姿态参数的确定方法，包括：

步骤101，获取用于驱动数字人动作的音频数据，以及用于驱动数字人动作的视频数据。

本公开提供的方法由具备计算能力的电子设备执行，例如可以是计算机。

其中，在驱动数字人跳舞的应用场景中，用户在驱动数字人跳舞时，可以输入音频数据和视频数据。音频数据例如可以是一首音乐，视频数据例如可以是预先录制的视频。该视频数据中包括人物动作画面，该画面例如可以是跳舞画面。

具体的，在驱动数字人做出手语动作的应用场景中，用户在驱动数字人做出手语动作时，可以输入音频数据和视频数据。音频数据例如可以包括讲话的语音内容，视频数据例如可以是真人做出与音频数据对应的手语动作。

进一步的，计算机可以根据用户输入的音频数据和视频数据，生成关节姿态参数。关节姿态参数用于驱动数字人动作，比如，计算机可以根据关节姿态参数控制数字人的关节姿态，进而形成数字人做出动作的画面，比如可以是跳舞画面。

步骤102，提取音频数据中包括的音频帧的音频特征，以及视频数据中包括的视频帧的动作特征。

实际应用时，音频数据中包括多帧数据，视频数据中也包括多个视频帧。计算机可以分别从音频帧和视频帧中提取特征。

若视频数据中包括跳舞画面，则一种可选的实现方式中，音频数据可以是与该舞蹈画面匹配的音乐。例如，播放音乐时，舞蹈演员根据该音乐的节奏舞动，则该音乐与拍摄的舞蹈视频是匹配的。另一种可选的实现方式中，音频数据也可以是与舞蹈视频不匹配的音乐，这种情况下，计算机可以剪裁音频数据或者视频数据，使二者时长一致。

其中，根据音频数据和视频数据的时间信息，可以确定具有对应关系的音频帧和视频帧，并分别提取音频帧和视频帧中的特征，从而基于提取的特征生成与该音频帧与视频帧对应的关节姿态参数。例如，针对第一帧音频和第一帧视频，能够确定出第一关节姿态参数；针对第二帧音频和第二帧视频，能够确定出第二关节姿态参数。

具体的，针对音频帧，计算机可以提取音频特征。音频特征能够表征出这一帧音频数据中的音乐的频率、音调等特征。针对视频帧，计算机可以提取动作特征。动作特征能够表征出这一帧视频数据中人物动作的频率、幅度等特征。

进一步的，音频帧和视频帧的时长相同，例如可以是520毫秒。

步骤103，根据音频特征和动作特征，确定出关节姿态参数，关节姿态参数用于控制数字人的动作。

实际应用时，计算机可以根据提取出的音频特征和动作特征，确定出与音频帧和视频帧对应的关节姿态参数。

其中，音频帧和视频帧的时间信息相同，比如都是第n帧，则确定出的关节姿态参数为第n帧画面的关节姿态参数。

具体的，计算机可以利用确定出的关节姿态参数控制数字人动作，比如，确定出的关节姿态参数为某个关节向上旋转90度，则计算机可以控制数字人的该关节向上旋转90度，从而调整数字人的姿态。

进一步的，计算机可以根据音频数据和视频数据，确定出与每一帧画面对应的关节姿态参数，此后可以利用这些关节姿态参数控制数字人的姿态，得到多帧数字人做出动作的画面，组合这些画面能够得到数字人连续动作的视频。

本公开提供的数字人的关节姿态参数的确定方法，包括：获取用于驱动数字人动作的音频数据，以及用于驱动数字人动作的视频数据；视频数据中包括人物动作画面；提取音频数据中包括的音频帧的音频特征，以及视频数据中包括的视频帧的动作特征；根据音频特征和动作特征，确定出关节姿态参数，关节姿态参数用于控制数字人的动作。本公开提供的方案中，能够提取视频画面中人物做出的动作特征，并融合音频数据中的音频特征，得到关节姿态参数，使得关节姿态参数符合人物动作的特征，又符合音频数据中的音频特征，从而实现数字人的高效、高精度驱动，高效的得到数字人做出有节奏的动作的画面。

图2为本公开另一示例性实施例示出的数字人的关节姿态参数的确定方法的流程示意图。

如图2所示，本公开提供的数字人的关节姿态参数的确定方法，包括：

步骤201，获取用于驱动数字人动作的音频数据，以及用于驱动数字人动作的视频数据；视频数据中包括人物动作画面。

步骤201的实现方式与步骤101相似，不再赘述。

步骤202，对音频数据包括的音频帧进行处理，得到音频帧的音频频率特征、音调特征和频域特征；音频特征包括音频频率特征、音调特征和频域特征。

其中，可以提取音频帧的音频频率特征、音调特征和频域特征。本公开的方案中，可以根据音频帧的频率以及音调和频域，生成与该音频帧对应的关节姿态参数，使得生成的关节姿态参数符合音频帧的频率特征和音调特征，从而更具有节奏感。

其中，一种可选的实施方式中，可以设置音频自编码器，用于提取音频特征。自编码器是一种能够通过无监督学习，学到输入数据高效表示的人工神经网络。可以预先训练音频自编码器，通过音频自编码器识别音频帧中的音频频率特征和音调特征。

例如，可以预先准备音频帧，这些音频帧具有标签数据，具体为频率标签和音调标签。通过该音频帧能够训练得到音频自编码器。

具体的，频域特征例如可以是音频帧的梅尔倒谱系数。梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换，可以利用现有技术中已有的方案提取音频帧的梅尔倒谱系数。

音频数据中的音调与频率信息不断变化，为了能够生成更富有节奏感的动作，本公开的方案中，解耦了音频数据中的频率和音调，在基于这两部分特征生成关节姿态参数时，生成的关节姿态参数与频率和音调是匹配的，因此，基于这种方式生成的关节姿态参数驱动数字人舞动时，动作与音频数据的节奏更加匹配。

在这种实施方式中，可以根据音频帧的音频频率特征、音调特征和频域特征，以及视频帧的动作特征，生成关节姿态参数。

步骤203，对视频数据包括的视频帧进行处理，得到视频帧中包括的动作频率特征和动作幅度特征；动作特征包括动作频率特征和动作幅度特征。

视频数据中的动作频率和幅度随着音乐的变化而变化，因此，是较为合理的舞蹈动作，因此，基于视频数据中的动作频率和幅度生成关节姿态参数后，基于该关节姿态参数驱动数字人舞动时，数字人能够做出较为合理的舞蹈动作，更符合人体行为的标准。同时，解耦视频数据中的动作频率和幅度，能够生成分别与动作频率和幅度对应的关节姿态参数，使得数字人的动作频率和幅度，与原视频画面中的人物的动作频率和幅度更加匹配。

进一步的，可以设置视频自编码器，用于提取动作特征。可以预先训练视频自编码器，通过视音频自编码器识别视帧中的动作频率特征和动作幅度特征。

例如，可以预先准备视频帧，这些视频帧具有标签数据，具体为动作频率标签和动作幅度标签。通过该视频帧能够训练得到视频自编码器。

在这种实施方式中，可以根据音频帧的音频特征，以及视频帧的动作频率特征和动作幅度特征，生成关节姿态参数。

步骤204，将音频特征和动作特征输入用于生成关节姿态参数的模型，得到与音频帧和视频帧对应的关节姿态参数，关节姿态参数用于控制数字人的动作。

其中，预先设置有用于生成关节姿态的模型，该模型是利用训练数据集训练得到的，训练数据集中包括关节姿态标签参数，以及与关节姿态标签参数对应的音频帧和视频帧。

具体的，在训练时，可以提取音频数据中包括的音频帧的音频特征，以及视频数据中包括视频帧的动作特征，再将音频特征和动作特征输入预先搭建好的神经网络中，该神经网络能够输出关节姿态参数，再比对神经网络输出的关节姿态参数与关节姿态标签参数，基于比对结果调整神经网络中的参数，通过多次迭代，能够将该神经网络训练成用于生成关节姿态的模型。

进一步的，计算机可以将提取出的音频特征和动作特征输入训练好的用于生成关节姿态的模型中，使得该模型输出关节姿态参数。

实际应用时，若音频特征包括音频频率特征、音调特征、频域特征，则可以将这些特征均输入模型中，若动作特征包括动作频率特征和动作幅度特征，则可以将这些特征均输入模型中。

这种方式中，即使音频数据和视频数据是未处理过的数据，未存储音频数据与舞蹈动作之间对应关系的数据，也能够通过预先训练好的模型，也能够确定出相应的关节姿态参数，进而驱动数字人跳舞。

图3为本公开一示例性实施例示出的通过模型生成关节姿态参数的流程示意图。

如图3所示，将音频帧31输入音频自编码器32，能够得到该音频帧的音频频率特征和音调特征33；还可以对音频帧31进行处理，得到频域特征34。

将视频帧35输入视频自编码器36，能够得到该视频帧的动作频率特征和动作幅度特征37。

再将音频频率特征和音调特征33、频域特征34、动作频率特征和动作幅度特征37均输入预先训练得到的模型38中，该模型能够输出关节姿态参数39。

在一种可选的实施方式中，模型输出的关节姿态参数中不包括用于控制数字人朝向的关节的参数，以及面部表情的关节的参数。从而降低模型的数据处理量，提高模型处理效率。

图4为本公开又一示例性实施例示出的数字人的关节姿态参数的确定方法的流程示意图。

如图4所示，本公开提供的数字人的关节姿态参数的确定方法，包括：

步骤401，获取用于驱动数字人动作的音频数据，以及用于驱动数字人动作的视频数据；视频数据中包括人物动作画面。

步骤402，提取音频数据中包括的音频帧的音频特征，以及视频数据中包括的视频帧的动作特征。

步骤401和步骤402的具体实现方式与图1和图2中所示的相应内容相似，不再赘述。

步骤403，获取风格参数信息；风格参数信息用于表征数字人根据关节姿态参数所作出的动作的风格。

在一种可选的实施方式中，为了满足对数字人跳舞风格的多种需求，本公开提供的方案中，用户还可以选择风格信息。比如，在输入了音频数据和视频数据之后，用户还可以选择舞蹈风格，从而输入风格信息。

风格信息例如可以包括拉丁风格、摩登风格、现代风格、自由舞风格等。计算机可以获取用户设置的风格信息，并生成符合这一风格信息的关节姿态参数时。

可以获取与用户设置的风格信息所对应的风格参数信息。

实际应用时，可以预先设置与风格信息对应的风格参数信息，比如，可以是关节的调整参数，还可以是关节姿态之间的约束参数等。

其中，这些参数可以是预先设置的。比如，可以是基于经验设置的，也可以是通过模型学习不同风格舞蹈动作得到的。

步骤404，根据音频特征、动作特征以及风格参数信息，确定出关节姿态参数。

实际应用时，计算机可以融合音频特征、动作特征以及风格参数信息，比如，在融合音频特征、动作特征得到关节姿态参数时，可以利用风格参数信息对关节姿态参数进行调整和约束，从而使得到的关节姿态参数不仅与音频特征、动作特征相匹配，还与风格参数信息相匹配，以满足用户对多种风格舞蹈的需求。

其中，将音频特征、动作特征以及风格参数信息输入用于生成关节姿态参数的模型，得到与音频帧和视频帧对应的关节姿态参数。

其中，模型是利用训练数据集训练得到的，训练数据集中包括关节姿态标签参数，以及与关节姿态标签参数对应的音频帧和视频帧。

该用于生成关节姿态的模型与图3中所述的相应模型类似，不再赘述。

具体的，模型能够直接对音频特征和动作特征进行处理，生成关节姿态参数。当用户设置了风格信息后，计算机将风格参数信息也输入该模型中。

模型接收到风格参数信息后，可以利用风格参数信息对动作特征进行调整，从而使最终输出的关节姿态参数与风格参数信息相符。

模型也可以根据音频特征和动作特征生成关节姿态参数，再基于风格参数信息对其调整，得到符合用户设置的风格信息的关节姿态参数。

通过这种实现方式，能够高效且快速的生成用于驱动数字人跳舞的关节姿态参数，并且，还可以基于用户对舞蹈风格的需求，得到相应的关节姿态参数。

图5为本公开另一示例性实施例示出的通过模型生成关节姿态参数的流程示意图。

如图5所示，将音频帧51输入音频自编码器52，能够得到该音频帧的音频频率特征和音调特征53；还可以对音频帧51进行处理，得到频域特征54。

将视频帧55输入视频自编码器56，能够得到该视频帧的动作频率特征和动作幅度特征57。

还可以获取与用户输入的风格信息对应的风格参数信息58，并将音频频率特征和音调特征53、频域特征54、动作频率特征、动作幅度特征57和风格参数信息58，均输入预先训练得到的模型59中，该模型能够输出关节姿态参数50。

一种可选的实施方式中，本公开还提供一种数字人的驱动方法，用于获取基于上述内容生成的关节姿态参数，再基于获取的关节姿态参数控制数字人的动作。

图6为本公开一示例性实施例示出的模型训练方法的流程示意图。

如图6所示，本公开提供的模型训练方法，包括：

步骤601，获取训练数据集，训练数据集中包括关节姿态标签参数，与关节姿态标签参数对应的样本音频帧数据，以及与关节姿态标签参数对应的样本视频帧数据。

本公开由具备计算能力的电子设备执行，例如可以是计算机。

其中，本公开训练得到的用于生成关节姿态的模型，可以应用在如图1-5任一种所述的实施例中。

具体的，可以预先准备训练数据集，训练集中包括样本音频帧数据和样本视频帧数据，以及与样本音频帧数据和样本视频帧数据对应的关节姿态标签参数。训练数据集中可以是样本音频帧数据-样本视频帧数据-关节姿态标签参数三者的对应关系。

进一步的，可以录制音频，以及用户基于该音乐跳舞的视频，可以根据视频中每帧画面的舞蹈动作确定关节姿态标签参数，并确定其与该帧对应的样本音频帧数据和样本视频帧数据具有对应关系。

步骤602，提取样本音频帧数据包括的样本音频特征，以及样本视频帧数据包括的样本动作特征。

实际应用时，计算机可以分别从样本音频帧数据和样本视频帧数据中提取样本特征。

其中，针对样本音频帧数据，计算机可以提取样本音频特征。样本音频特征能够表征出这一帧音频数据中的音乐的频率、音调等特征。针对样本视频帧数据，计算机可以提取样本动作特征。样本动作特征能够表征出这一帧视频数据中人物动作的频率、幅度等特征。

进一步的，样本音频帧数据和样本视频帧数据的时长相同，例如可以是520毫秒。

步骤603，将样本音频特征和样本动作特征输入预设的模型中，得到与样本音频帧数据和样本视频帧数据对应的关节姿态预测参数。

实际应用时，可以预先设置待训练的模型，将样本音频特征和样本动作特征输入预先搭建好的模型中，该模型能够输出关节姿态预测参数。该模型例如可以是神经网络。

步骤604，根据与样本音频帧数据和样本视频帧数据对应的关节姿态标签参数，以及与样本音频帧数据和样本视频帧数据对应的关节姿态预测参数，调整模型中的参数，得到用于生成关节姿态参数的模型。

其中，确定出与样本音频帧数据和样本视频帧数据对应的关节姿态预测参数之后，计算机可以获取与样本音频帧数据和样本视频帧数据对应的关节姿态标签参数，并根据该关节姿态预测参数和关节姿态标签参数构建损失函数，基于损失函数对模型进行梯度回传，调整模型中的参数。

其中，可以进行多次迭代，当该模型输出的关节姿态预测参数与对应的关节姿态标签参数之间的误差较小时，可以停止训练，得到用于生成关节姿态参数的模型。

本公开提供的用于生成关节姿态的模型的训练方法，包括：获取训练数据集，训练数据集中包括关节姿态标签参数，与关节姿态标签参数对应的样本音频帧数据，以及与关节姿态标签参数对应的样本视频帧数据；提取样本音频帧数据包括的样本音频特征，以及样本视频帧数据包括的样本动作特征；将样本音频特征和样本动作特征输入预设的模型中，得到与样本音频帧数据和样本视频帧数据对应的关节姿态预测参数；根据与样本音频帧数据和样本视频帧数据对应的关节姿态标签参数，以及与样本音频帧数据和样本视频帧数据对应的关节姿态预测参数，调整模型中的参数，得到用于生成关节姿态参数的模型。本公开提供的方案训练得到的模型，能够融合视频画面中人物做出的动作特征，与音频数据中的音频特征，得到关节姿态参数，使得关节姿态参数符合人物动作的特征，又符合音频数据中的音频特征，从而高效的得到数字人做出有节奏的动作的画面。

图7为本公开另一示例性实施例示出的模型训练方法的流程示意图。

如图7所示，本公开提供的模型训练方法，包括：

步骤701，在样本视频帧数据中识别人体关节的第一二维位置坐标，并将第一二维位置坐标转换为三维位置坐标。

本公开提供的方法中，为了提高准备训练数据集的速度，可以采用自动标注的方式，生成用于训练模型的训练数据。

其中，可以预先录制样本音频数据和样本视频数据，样本音频数据中的样本音频帧数据，与样本视频数据中的样本视频帧数据对应。比如，样本音频数据中的第一样本音频帧数据，与样本视频数据中的第一样本视频帧数据对应。

具体的，可以根据样本视频帧数据中人物的动作，确定与该样本视频帧数据的关节姿态标签参数。

一种可选的实施方式中，可以准备人物动作与样本音频数据的节奏感比较匹配的样本视频数据，通过这种样本视频数据生成的关节姿态标签参数的节奏感也比较强。

进一步的，可以在样本视频帧数据中识别人体关节的第一二维位置坐标。可以设置人体关键点检测模型，通过该模型识别样本视频帧数据中的人体关节的第一二维位置坐标。比如，可以是55个二维的关键点。

实际应用时，为了更准确的生成关节姿态标签参数。还可以从多个角度录制人物的动作，这种方式可以得到多个样本视频数据，各样本视频数据中的样本视频帧数据分别对应。比如，从前面录制的样本视频数据中的第一帧数据，与从后面录制的样本视频数据中的第一帧数据，具有对应关系。

这种实现方式，可以在多个具有对应关系的样本视频帧数据中识别第一二维位置坐标。

实际应用时，还可以将第一二维位置坐标转换为三维位置坐标。例如，可以基于多目三角测量的技术，将人体关节的第一二维位置坐标转换为三维位置坐标。比如，针对关节A，可以结合多个角度拍摄的视频帧数据中的关节A的第一二维位置坐标，确定关节A的三维位置坐标。

图8为本公开一示例性实施例示出的关节位置示意图。

如图8中，黑色圆标记为第一二维位置坐标，白色圆标记的是三维位置坐标。

步骤702，根据第一二维位置坐标和三维位置坐标，确定与视频帧对应的关节姿态标签参数。

其中，得到关节的三维位置坐标之后，可以通过该位置坐标确定出一系列的关节姿态参数。例如，关节A与关节B之间通过骨骼连接，关节A的姿态决定了关节B的位置坐标，则可以利用关节B的位置坐标推导关节A的旋转角度。

具体的，为了更准确的确定关节姿态标签参数，可以在得到当前的关节姿态参数之后，确定数字人在该关节姿态参数作用下的整体姿态。再获取数字人在该整体姿态下的二维图片，比对该二维图片中数字人的关节位置坐标以及上述第一二维位置坐标，从而确定数字人的整体姿态与真人是否一致，若是，则将当前的关节姿态参数确定为关节姿态标签参数。

在获取数字人在该整体姿态下的二维图片时，获取的角度与视频帧数据的获取角度相同。比如，视频帧数据是从人物前方获取的，则二维图片也是从数字人的前方获取的。

进一步的，由于姿态相同但骨骼比例不同时，关节位置坐标也会不同，因此，本公开的方案还可以预先设置三维数字人，并通过三维位置坐标调整三维数字人的骨骼结构，比如，调整关节之间的距离，使得三维数字人与真实人物的关节比例一致。

图9为一示例性实施例示出的三维数字人的示意图。

如图9所示，可以设置数字人的骨骼结构901，还可以设置蒙皮902，将蒙皮902匹配到骨骼结构901上，就能够得到903所示的三维数字人。

实际应用时，可以根据所述视频帧数据中的关节的三维位置坐标，调整所述三维数字人的关节姿态。具体可以根据视频帧数据中各关节的三维位置坐标，推断出各关节的姿态。比如，当关节姿态为向右旋转30度时，三维数字人的关节位置坐标符合视频中人体关节的三维位置坐标。

其中，调整了三维数字人的各关节姿态之后，还可以确定三维数字人的关节的第二二维位置坐标。具体可以获取调整了关节姿态后的三维数字人的图像，并在图像中确定三维数字人的关节的第二二维位置坐标。

具体的，可以利用拍摄视频帧数据的相机的内参、外参获取三维数字人的图像，具体获取的角度也可以与拍摄视频帧数据的角度相同。

进一步的，可以在获取的图像中确定三维数字人的关节的第二二维位置坐标。具体获取的方式与获取第一二维位置坐标的方式一致，比如，也可以采用关键点检测模型对三维数字人的图像进行处理，识别到第二二维位置坐标。

实际应用时，三维数字人的姿态可能与视频帧数据中人物的姿态不完全一样，因此，能够得到的第二二维位置坐标与第一二维位置坐标之间也会存在误差，此时，可以基于第一二维位置坐标和当前三维数字人关节的第二二维位置坐标之间的误差，再次调整三维数字人的关节姿态。

针对调整了关节姿态后的三维数字人，可以继续获取其图像，并再次识别关节的第二二维位置坐标，并与第一二维位置坐标比对。

通过多次调整，将三维数字人最终的关节姿态确定为与视频帧数据对应的关节姿态标签参数。

具体的，可以根据第一二维位置坐标和第二二维位置坐标，确定位置误差。根据位置误差拟合得到三维数字人调整后的关节姿态。比如，根据位置误差，确定如何调整三维数字人的关节姿态，能够纠正该位置误差。通过这种方式，能够拟合出三维数字人调整后的关节姿态参数。

确定出与视频帧数据对应的关节姿态标签参数后，可以确定相应的包括音频帧数据、视频帧数据和关节姿态标签参数的训练数据。其中，音频帧数据与视频帧数据之间具有对应关系，比如时间信息一致。

步骤703，获取训练数据集，训练数据集中包括关节姿态标签参数，以及与关节姿态标签参数对应的样本音频帧数据和样本视频帧数据。

步骤704，对样本音频帧数据进行处理，得到样本音频帧数据的样本音频频率特征、样本音调特征和样本频域特征。

其中，一种可选的实施方式中，可以设置音频自编码器，用于提取样本音频频率特征、样本音调特征。自编码器是一种能够通过无监督学习，学到输入数据高效表示的人工神经网络。可以预先训练音频自编码器，通过音频自编码器识别样本音频帧数据中的样本音频频率特征和音调特征。

例如，可以预先准备音频帧数据，这些音频帧数据具有标签数据，具体为频率标签和音调标签。通过该音频帧数据能够训练得到音频自编码器。

具体的，还可以提取样本音频帧数据的样本频域特征。例如可以是梅尔频率倒谱系数，梅尔频率倒谱系数(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

音频数据中的音调与频率信息不断变化，为了能够生成更富有节奏感的动作，本公开的方案中，解耦了音频数据中的频率和音调，模型训练时解耦了这两种特征，使得模型能够学习到生成与这两部分特征匹配的关节姿态参数的能力，能够生成与频率和音调匹配的关节姿态参数。

在这种实现方式中，将样本音频特征和样本动作特征输入预设的模型中时，可以将样本音频频率特征、所述样本音调特征、所述样本频域特征和所述样本动作特征，输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数。

步骤705，对样本视频帧数据进行处理，得到样本视频帧数据中包括的样本动作频率特征和样本动作幅度特征。

进一步的，可以设置视频自编码器，用于提取样本动作特征。可以预先训练视频自编码器，通过视频自编码器识别视帧中的样本动作频率特征和样本动作幅度特征。

例如，可以预先准备视频帧数据，这些视频帧数据具有标签数据，具体为动作频率标签和动作幅度标签。通过该视频帧数据能够训练得到视频自编码器。

视频数据中的动作频率和幅度随着音乐的变化而变化，因此，是较为合理的舞蹈动作，因此，基于视频数据中的动作频率和幅度训练模型，能够使模型学习到生成与这两部分特征匹配的关节姿态参数的能力。

步骤706，将样本音频特征和样本动作特征输入预设的模型中，得到与样本音频帧数据和样本视频帧数据对应的关节姿态预测参数。

步骤707，根据与样本音频帧数据和样本视频帧数据对应的关节姿态标签参数，以及与样本音频帧数据和样本视频帧数据对应的关节姿态预测参数，调整模型中的参数，得到用于生成关节姿态参数的模型。

步骤706和707与图6所示的相应内容相似，不再赘述。

图10为本公开一示例性实施例示出的用于生成关节姿态参数的装置的结构示意图。

如图10所示，本公开提供的用于生成关节姿态参数的装置1000，包括：

音频自编码器1010，用于对音频数据包括的音频帧进行处理，得到所述音频帧的音频频率特征和音调特征；

频域特征提取模块1020，用于对音频数据包括的音频帧进行处理，得到所述音频帧的频域特征；

视频自编码器1030，用于对所述视频数据包括的视频帧进行处理，得到所述视频帧中包括的动作频率特征和动作幅度特征；

关节姿态参数生成模型1040，用于对所述音频频率特征、所述音调特征、所述频域特征、所述动作频率特征和动作幅度特征进行处理，生成关节姿态参数。

图11为本公开一示例性实施例示出的数字人的关节姿态参数的确定装置的结构示意图。

本公开提供的数字人的关节姿态参数的确定装置1100，包括：

获取单元1110，用于获取用于驱动数字人动作的音频数据，以及用于驱动所述数字人动作的视频数据；所述视频数据中包括人物动作画面；

提取单元1120，用于提取所述音频数据中包括的音频帧的音频特征，以及所述视频数据中包括的视频帧的动作特征；

生成单元1130，用于根据所述音频特征和所述动作特征，确定出关节姿态参数，所述关节姿态参数用于控制所述数字人的动作。

本公开提供的方案中，能够提取视频画面中人物做出的动作特征，并融合音频数据中的音频特征，得到关节姿态参数，使得关节姿态参数符合人物动作的特征，又符合音频数据中的音频特征，从而高效的得到数字人做出有节奏的动作的画面。

图12为本公开另一示例性实施例示出的数字人的关节姿态参数的确定装置的结构示意图。

如图12所示，本公开提供的数字人的关节姿态参数1200中，获取单元1210与图11所示的获取单元1110相似，提取单元1220与图11所示的提取单元1120相似，生成单元1230与图11所示的生成单元1130相似。

其中，所述生成单元1230具体用于：

将所述音频特征和所述动作特征输入用于生成关节姿态参数的模型，得到与所述音频帧和所述视频帧对应的关节姿态参数。

其中，所述音频特征包括音频频率特征、音调特征和频域特征；

所述提取单元1220包括音频特征提取模块1221，用于：

对所述音频数据包括的音频帧进行处理，得到所述音频帧的音频频率特征、音调特征和频域特征；

所述生成单元1230具体用于：

根据所述音频频率特征、所述音调特征、所述频域特征和所述动作特征，确定出所述关节姿态参数。

其中，提取单元1220包括视频特征提取模块1222，用于：

对所述视频数据包括的视频帧进行处理，得到所述视频帧中包括的动作频率特征和动作幅度特征；

所述生成单元1230具体用于：

根据所述音频特征、所述动作频率特征和所述动作幅度特征，确定出所述关节姿态参数。

所述获取单元1210还包括风格获取模块1211，具体用于：

获取风格参数信息；所述风格参数信息用于表征数字人根据所述关节姿态参数所作出的动作的风格；

所述生成单元1230具体用于：

根据所述音频特征、所述动作特征以及所述风格参数信息，确定出所述关节姿态参数。

所述生成单元1230具体用于：

将所述音频特征、所述动作特征以及所述风格参数信息输入用于生成关节姿态参数的模型，得到所述关节姿态参数。

一种可选的实施方式中，本公开还提供一种数字人的驱动装置，包括：

获取单元，用于利用图11-12所示的任一项所述的装置获取数字人的关节姿态参数；

控制单元，用于基于所述关节姿态参数，控制所述数字人的动作。

图13为本公开一示例性实施例示出的用于生成关节姿态参数的模型的训练装置的结构示意图。

如图13所示，本公开提供的用于生成关节姿态参数的模型的训练装置1300，包括：

数据获取单元1310，用于获取训练数据集，所述训练数据集中包括关节姿态标签参数、与所述关节姿态标签参数对应的样本音频帧数据，以及与所述关节姿态标签参数对应的样本视频帧数据；

特征提取单元1320，用于提取所述样本音频帧数据包括的样本音频特征，以及所述样本视频帧数据包括的样本动作特征；

参数生成单元1330，用于将所述样本音频特征和所述样本动作特征输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数；

调整单元1340，用于根据与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态标签参数，以及与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态预测参数，调整所述模型中的参数，得到用于生成关节姿态参数的模型。

本公开提供的方案训练得到的模型，能够融合视频画面中人物做出的动作特征，与音频数据中的音频特征，得到关节姿态参数，使得关节姿态参数符合人物动作的特征，又符合音频数据中的音频特征，从而高效的得到数字人做出有节奏的动作的画面。

图14为本公开另一示例性实施例示出的用于生成关节姿态参数的模型的训练装置的结构示意图。

如图14所示，本公开提供的用于生成关节姿态的模型的训练装置1400中，数据获取单元1410与图13中的数据获取单元1310相似，特征提取单元1420与图13中的特征提取单元1320相似，参数生成单元1430与图13中的参数生成单元1330相似，调整单元1440与图13中的调整单元1340相似。

所述装置还包括数据预处理单元1450，包括：

第一位置识别模块1451，用于在所述样本视频帧数据中识别人体关节的第一二维位置坐标，并将所述第一二维位置坐标转换为三维位置坐标；

标签参数确定模块1452，用于根据所述第一二维位置坐标和所述三维位置坐标，确定与所述样本视频帧数据对应的关节姿态标签参数。

其中，所述标签参数确定模块1452，具体用于：

根据所述样本视频帧数据中人体关节的所述三维位置坐标，调整预设的三维数字人的关节姿态，并确定调整了关节姿态后的所述三维数字人的关节的第二二维位置坐标；

根据所述第一二维位置坐标和所述第二二维位置坐标，调整所述三维数字人的关节姿态，将调整后的关节姿态的参数确定为与所述样本视频帧数据对应的关节姿态标签参数。

其中，所述标签参数确定模块1452，具体用于：

获取调整了关节姿态后的所述三维数字人的图像，并在所述图像中确定所述三维数字人的关节的第二二维位置坐标。

其中，所述标签参数确定模块1452具体用于：

根据所述第一二维位置坐标和所述第二二维位置坐标，确定位置误差；

根据所述位置误差拟合得到所述三维数字人调整后的关节姿态参数，并根据调整后的关节姿态参数调整所述三维数字人的关节姿态。

所述特征提取单元1420，包括音频特征提取模块1421，用于：

对所述样本音频帧数据进行处理，得到所述样本音频帧数据的样本音频频率特征、样本音调特征和样本频域特征；

所述参数生成单元1430，具体用于：

将所述样本音频频率特征、所述样本音调特征、所述样本频域特征和所述样本动作特征，输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数。

其中，特征提取单元1420包括视频特征提取模块1422：

对所述样本视频帧数据进行处理，得到所述样本视频帧数据中包括的样本动作频率特征和样本动作幅度特征。

所述参数生成单元1430，具体用于：

将所述样本音频特征、所述样本动作频率特征和所述样本动作幅度特征，输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数。

本公开提供一种关节姿态参数的确定方法、模型训练方法及装置，应用于人工智能技术中的深度学习技术、增强现实技术和数字人技术领域，以生成更符合音频节奏的用于驱动数字人的关节姿态参数。

需要说明的是，本实施例中的视频数据和音频数据并不是针对某一特定用户的数据，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的数据来自于公开数据集。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如数字人的关节姿态参数的确定方法或模型训练方法。例如，在一些实施例中，数字人的关节姿态参数的确定方法或模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的数字人的关节姿态参数的确定方法或模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数字人的关节姿态参数的确定方法或模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数字人的关节姿态参数的确定方法，包括：

获取用于驱动数字人动作的音频数据，以及用于驱动所述数字人动作的视频数据；所述视频数据中包括人物动作画面；

2.根据权利要求1所述的方法，其中，所述根据所述音频特征和所述动作特征，确定出关节姿态参数，包括：

3.根据权利要求1或2所述的方法，其中，所述音频特征包括音频频率特征、音调特征和频域特征；

所述提取所述音频数据中包括的音频帧的音频特征，包括：

所述根据所述音频特征和所述动作特征，确定出关节姿态参数，包括：

4.根据权利要求1-3任一项所述的方法，其中，提取所述视频数据中包括的视频帧的动作特征，包括：

5.根据权利要求1-4任一项所述的方法，还包括：

6.根据权利要求5所述的方法，所述根据所述音频特征、所述动作特征以及所述风格参数信息，确定出所述关节姿态参数，包括：

7.一种数字人的驱动方法，包括：

利用权利要求1-6中任一项所述的方法获取数字人的关节姿态参数；

基于所述关节姿态参数，控制所述数字人的动作。

8.一种模型训练方法，包括：

9.根据权利要求8所述的方法，还包括：

在所述样本视频帧数据中识别人体关节的第一二维位置坐标，并将所述第一二维位置坐标转换为三维位置坐标；

根据所述第一二维位置坐标和所述三维位置坐标，确定与所述样本视频帧数据对应的关节姿态标签参数。

10.根据权利要求9所述的方法，其中，所述根据所述第一二维位置坐标和所述三维位置坐标，确定与所述样本视频帧数据对应的关节姿态标签参数，包括：

11.根据权利要求10所述的方法，其中，所述确定调整了关节姿态后的所述三维数字人的关节的第二二维位置坐标，包括：

12.根据权利要求10所述的方法，其中，所述根据所述第一二维位置坐标和所述第二二维位置坐标，调整所述三维数字人的关节姿态，包括：

13.根据权利要求8-12任一项所述的方法，其中，所述样本音频特征包括样本音频频率特征、样本音调特征和样本频域特征；

所述提取所述样本音频帧数据包括的样本音频特征，包括：

所述将所述样本音频特征和所述样本动作特征输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数，包括：

14.根据权利要求8-13任一项所述的方法，其中，提取所述样本视频帧数据包括的样本动作特征，包括：

对所述样本视频帧数据进行处理，得到所述样本视频帧数据中包括的样本动作频率特征和样本动作幅度特征；

15.一种数字人的关节姿态参数的确定装置，包括：

第一获取单元，用于获取用于驱动数字人动作的音频数据，以及用于驱动所述数字人动作的视频数据；所述视频数据中包括人物动作画面；

16.根据权利要求15所述的装置，其中，所述生成单元具体用于：

17.根据权利要求15或16所述的装置，其中，所述音频特征包括音频频率特征、音调特征和频域特征；

所述提取单元包括音频特征提取模块，用于：

所述生成单元具体用于：

18.根据权利要求15-17任一项所述的装置，其中，提取单元包括视频特征提取模块，用于：

所述生成单元具体用于：

19.根据权利要求15-18任一项所述的装置，

所述第一获取单元还包括风格获取模块，具体用于：

所述生成单元具体用于：

20.根据权利要求19所述的装置，所述生成单元具体用于：

21.一种数字人的驱动装置，包括：

第二获取单元，用于利用权利要求15-20中任一项所述的装置获取数字人的关节姿态参数；

22.一种模型训练装置，包括：

23.根据权利要求22所述的装置，还包括数据预处理单元，包括：

第一位置识别模块，用于在所述样本视频帧数据中识别人体关节的第一二维位置坐标，并将所述第一二维位置坐标转换为三维位置坐标；

标签参数确定模块，用于根据所述第一二维位置坐标和所述三维位置坐标，确定与所述样本视频帧数据对应的关节姿态标签参数。

24.根据权利要求23所述的装置，其中，所述标签参数确定模块，具体用于：

25.根据权利要求24所述的装置，其中，所述标签参数确定模块，具体用于：

26.根据权利要求24所述的装置，其中，所述标签参数确定模块具体用于：

27.根据权利要求22-26任一项所述的装置，其中，所述样本音频特征包括样本音频频率特征、样本音调特征和样本频域特征；

所述特征提取单元，包括音频特征提取模块，用于：

所述参数生成单元，具体用于：

28.根据权利要求22-27任一项所述的装置，其中，特征提取单元包括视频特征提取模块，用于：

所述参数生成单元，具体用于：

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-14中任一项所述方法的步骤。