CN112560622A

CN112560622A - 虚拟对象动作控制方法、装置及电子设备

Info

Publication number: CN112560622A
Application number: CN202011423815.2A
Authority: CN
Inventors: 王响; 王恺; 廉士国
Original assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-26
Anticipated expiration: 2040-12-08
Also published as: CN112560622B

Abstract

本发明实施例提供了一种虚拟对象动作控制方法、装置及电子设备，所述方法包括获取待模拟动作数据，将待模拟动作数据输入至多模态数据处理模型中进行识别，得到动作参数信息，其中，多模态数据处理模型为通过多种类型的待模拟动作训练数据训练得到的，根据动作参数信息生成虚拟对象的动作控制参数，并控制虚拟对象进行动作，将动作后的虚拟对象输出到显示设备进行显示。该实施例既降低了硬件成本，又提高了虚拟对象动作控制的实现效率。

Description

虚拟对象动作控制方法、装置及电子设备

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种虚拟对象动作控制方法、装置及电子设备。

背景技术

随着互联网技术的发展，电影、动画，以及游戏等依托于互联网技术的相关行业也得到了快速发展。

在电影、动画，以及游戏等行业，均需要依靠动作捕捉系统捕捉相关的动作，然后根据捕捉到的动作得到人体动作参数，再将得到的人体动作参数作用于虚拟对象生成相应的虚拟动作。

现有的动作捕捉系统需要依赖于一种或多种专业的传感器设备来采集动作数据，例如可以通过光学、电磁学、惯性导航等对应的传感器设备来定位跟踪，并获取人体关节点的位置及运动轨迹，进而控制虚拟对象生成相同的动作。然而，该方式需要新增专业的传感器设备，并根据新增的专业的传感器设备改变原生的实现逻辑，实现起来费时费力，且导致了硬件成本高的问题。

发明内容

本发明实施例提供一种虚拟对象动作控制方法、装置及电子设备，以降低实现控制虚拟对象动作的成本。

第一方面，本发明实施例提供一种虚拟对象动作控制方法，包括：

获取待模拟动作数据；

将所述待模拟动作数据输入至多模态数据处理模型中进行识别，得到动作参数信息，其中，所述多模态数据处理模型为通过多种类型的待模拟动作训练数据训练得到的；

根据所述动作参数信息生成虚拟对象的动作控制参数，并控制所述虚拟对象进行动作；

将动作后的虚拟对象输出到显示设备进行显示。

可选的，所述待模拟动作数据的类型包括视频类型、音频类型，以及文本类型中的任意一种或多种，

所述获取待模拟动作数据，包括：

获取所述视频类型、所述音频类型，以及所述文本类型中的任意一种或多种类型对应的待模拟动作数据。

可选的，若所述待模拟动作数据的类型为视频类型，则所述将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，包括：

将所述视频类型的待模拟动作数据按帧输入至多模态数据处理模型中，得到待生成的虚拟对象对应的各关节的三维位置坐标；

根据所述各关节的三维位置坐标生成动作参数信息。

可选的，若所述待模拟动作数据的类型为音频类型，则所述将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，包括：

将所述音频类型的待模拟动作数据输入至多模态数据处理模型的音频特征提取子模型进行识别，得到第一音频特征数据；

将所述音频类型的待模拟动作数据输入至所述多模态数据处理模型的关键词识别子模型进行识别，得到第一关键词向量数据；

将所述第一音频特征数据和所述第一关键词向量数据输入至预设的音频迁移网络模型，得到动作参数信息。

可选的，若所述待模拟动作数据的类型为文本类型，则所述将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，包括：

将所述文本类型的待模拟动作数据输入至语音转化系统，得到合成后的待模拟语音数据；

将所述待模拟语音数据输入至多模态数据处理模型的音频特征提取子模型中进行识别，得到第二音频特征数据；

从所述文本类型的待模拟动作数据中提取关键词，并将提取的关键词输入至所述多模态数据处理模型的文字识别子模型中进行识别，得到第二关键词向量数据；

将所述第二音频特征数据和所述第二关键词向量数据输入至预设的音频迁移网络模型，得到动作参数信息。

可选的，若所述待模拟动作数据的类型为视频类型、音频类型与文本类型的结合，则所述将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，包括：

将所述视频类型的待模拟动作数据、所述音频类型的待模拟动作数据和所述文本类型的待模拟动作数据输入至多模态数据处理模型的音视频文字对齐子模型中进行识别，得到对齐后的音视频与文字序列数据；

将对齐后的视频类型的待模拟动作数据输入至所述多模态数据处理模型的特征识别子模型中进行识别，得到所述待生成的虚拟对象对应的各关节的特征数据；

将对齐后的音频类型的待模拟动作数据输入至所述多模态数据处理模型的音频特征提取子模型中进行识别，得到第三音频特征数据；

提取对齐后的文本类型的待模拟动作数据的关键词，并将提取的关键词输入至所述多模态数据处理模型的文字识别子模型中进行识别，得到第三关键词向量数据；

将所述待生成的虚拟对象对应的各关节的特征数据、所述第三音频特征数据和所述第三关键词向量数据输入至预设的音视频迁移网络模型，得到动作参数信息。

可选的，在所述获取待模拟动作数据之前，还包括：

分别针对每种类型的待模拟动作训练数据构建目标网络；

将所述目标网络进行分割，形成至少一子神经网络模型；

根据预存的重组规则对各子神经网络模型进行重组，得到多模态数据处理模型。

第二方面，本发明实施例提供一种虚拟对象动作控制装置，包括：

获取模块，用于获取待模拟动作数据；

处理模块，用于将所述待模拟动作数据输入至多模态数据处理模型中进行识别，得到动作参数信息，其中，所述多模态数据处理模型为通过多种类型的待模拟动作训练数据训练得到的；

所述处理模块，还用于根据所述动作参数信息生成虚拟对象，并控制所述虚拟对象进行动作；

所述处理模块，还用于将动作后的虚拟对象输出到显示设备进行显示。第三方面，本发明实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的虚拟对象动作控制方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的虚拟对象动作控制方法。

本发明实施例提供了一种虚拟对象动作控制方法、装置及电子设备，采用上述方案后，可以先获取待模拟动作数据，然后将待模拟动作数据输入至预先训练好的多模态数据处理模型中进行识别，得到动作参数信息，再根据动作参数信息生成虚拟对象的动作控制参数，并控制虚拟对象进行动作，然后将动作后的虚拟对象输出到显示设备进行显示，无需再额外增加专业的传感器设备，进而无需根据新增的传感器设备改变原生的实现逻辑，既降低了硬件成本，又提高了虚拟对象动作控制的实现效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的虚拟对象动作控制方法的应用系统的架构示意图；

图2为本发明实施例提供的虚拟对象动作控制方法的流程示意图；

图3为本发明实施例提供的视频类型的数据识别过程的原理示意图；

图4为本发明实施例提供的音频类型的数据识别过程的原理示意图；

图5为本发明实施例提供的文本类型的数据识别过程的原理示意图；

图6为本发明实施例提供的视频类型、音频类型与文本类型结合的数据识别过程的原理示意图；

图7为本发明实施例提供的不同类型的待模拟动作数据的原理示意图；

图8为本发明实施例提供的虚拟对象动作控制装置的结构示意图；

图9为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例还能够包括除了图示或描述的那些实例以外的其他顺序实例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，在电影、动画，以及游戏等行业，均需要依靠动作捕捉系统捕捉相关的动作，然后根据捕捉到的动作得到人体动作参数，再将得到的人体动作参数作用于虚拟对象生成相应的虚拟动作。现有的动作捕捉系统需要依赖于一种或多种专业的传感器设备来采集动作数据，例如可以通过光学、电磁学、惯性导航等对应的传感器设备来定位跟踪，并获取人体关节点的位置及运动轨迹，进而控制虚拟对象生成相同的动作。此外，动作捕捉系统还可以应用于机器人等人工智能领域的应用场景，具体的，可以涉及到先根据捕捉到的动作得到人体动作参数，然后根据人体动作参数操控机器人产生躯体动作。然而，前述应用场景中，具体实现过程均需要新增专业的传感器设备，并根据新增的专业的传感器设备改变原生的实现逻辑，实现起来费时费力，且导致了硬件成本高的问题。

基于上述问题，本申请基于预先训练好的网络模型对获取到的动作数据进行识别，并根据识别结果控制虚拟对象进行动作，无需再额外增加专业的传感器设备，进而无需根据新增的传感器设备改变原生的实现逻辑，既降低了硬件成本，又达到了提高了虚拟对象动作控制的实现效率的技术效果。

图1为本发明实施例提供的虚拟对象动作控制方法的应用系统的架构示意图，如图1所示，在该实施例中，包括图像采集设备101、音频采集设备102、文本采集设备103、服务器104，其中，服务器104中部署有预先训练好的多模态数据处理模型105。通过图像采集设备101、音频采集设备102，以及文本采集设备103中的任意一种或多种设备可以获取到待模拟动作数据，然后将待模拟动作数据输入至多模态数据处理模型105中进行识别并处理，最终得到动作后的虚拟对象。此外，该实施例还可以包括显示设备106，可以将得到的动作后的虚拟对象输出到显示设备106进行显示。

其中，图像采集设备101用于采集视频类型的待模拟动作数据，可以为摄像头。音频采集设备102用于采集音频类型的待模拟动作数据，可以为麦克风阵列，也可以为单独的一个麦克风。文本采集设备103用于采集文本类型的待模拟动作数据，可以为键盘、鼠标等文本输入设备。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的虚拟对象动作控制方法的流程示意图，本实施例的方法可以由服务器104执行。如图2所示，本实施例的方法，可以包括：

S201：获取待模拟动作数据。

在本实施例中，待模拟动作数据的类型可以包括视频类型、音频类型，以及文本类型中的任意一种或多种，则获取待模拟动作数据，具体可以包括：获取视频类型、音频类型，以及文本类型中的任意一种或多种类型对应的待模拟动作数据。

对应的，用户可以通过摄像头采集视频类型的待模拟动作数据，用户可以在摄像头视域内正向面对摄像头做出各种躯体动作。还可以通过麦克风阵列采集音频类型的待模拟动作数据，用户可以在一定收音范围内说话。用户还可以通过键盘或鼠标等输入设备输入文字，得到文字类型的待模拟动作数据。

此外，待模拟动作数据可以是在线采集的，也可以是离线的。对应的，若待模拟动作数据为离线的，可以将事先准备好的视频类型、音频类型或文本类型的待模拟动作数据存储至数据库，在需要该待模拟动作数据时，可以直接从数据库中获取。

S202：将待模拟动作数据输入至多模态数据处理模型中进行识别，得到动作参数信息，其中，多模态数据处理模型为通过多种类型的待模拟动作训练数据训练得到的。

在本实施例中，在得到待模拟动作数据之后，可以将待模拟动作数据输入至多模态数据处理模型中进行识别，得到动作参数信息。

进一步的，若待模拟动作数据的类型为视频类型，则将待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，具体可以包括：

将视频类型的待模拟动作数据按帧输入至多模态数据处理模型中，得到待生成的虚拟对象对应的各关节的三维位置坐标。根据各关节的三维位置坐标生成动作参数信息。

具体的，图3为本发明实施例提供的视频类型的数据识别过程的原理示意图，如图3所示，视频类型的待模拟动作数据可以以视频帧序列的形式输入至多模态数据处理模型，然后得到各关节的三维位置坐标，再根据各关节的三维位置坐标转换为动作参数信息。

此外，若所述待模拟动作数据的类型为音频类型，则将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，具体可以包括：

将音频类型的待模拟动作数据输入至多模态数据处理模型的音频特征提取子模型进行识别，得到第一音频特征数据。将所述音频类型的待模拟动作数据输入至所述多模态数据处理模型的关键词识别子模型进行识别，得到第一关键词向量数据。将所述第一音频特征数据和所述第一关键词向量数据输入至预设的音频迁移网络模型，得到动作参数信息。

具体的，图4为本发明实施例提供的音频类型的数据识别过程的原理示意图，如图4所示，音频类型的待模拟动作数据可以以音频序列的形式输入至关键词识别子模型对应的关键词识别网络，以及音频特征提取子模型对应的音频特征提取网络中，对应得到关键词向量和音频特征，然后将关键词向量和音频特征输入至预设的音频迁移网络模型中进行识别，得到动作参数信息。示例性的，音频迁移网络模型可以为基于场景理解的音频迁移网络模型。

此外，若待模拟动作数据的类型为文本类型，则将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，具体可以包括：

将所述文本类型的待模拟动作数据输入至语音转化系统，得到合成后的待模拟语音数据。将所述待模拟语音数据输入至多模态数据处理模型的音频特征提取子模型中进行识别，得到第二音频特征数据。从所述文本类型的待模拟动作数据中提取关键词，并将提取的关键词输入至所述多模态数据处理模型的文字识别子模型中进行识别，得到第二关键词向量数据。将所述第二音频特征数据和所述第二关键词向量数据输入至预设的音频迁移网络模型，得到动作参数信息。

具体的，图5为本发明实施例提供的文本类型的数据识别过程的原理示意图，如图5所示，将文本数据中包含的文字序列输入语音转化系统输出合成语音数据。示例性的，语音转化系统可以为tts(text to speech，文字转换语音)系统。然后将合成语音分段输入音频特征提取网络得到音频特征向量。另一方面，提取文字序列中的关键词，将与语音片段对应文字中的关键词输入至文字识别子模型输出关键词向量，示例性的，文字识别子模型可以为word2vec网络。可以将音频特征向量与关键词向量输入基于场景理解的音频迁移网络，输出动作参数信息。

此外，若待模拟动作数据的类型为视频类型、音频类型与文本类型的结合，则将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，具体可以包括：

将视频类型的待模拟动作数据、音频类型的待模拟动作数据和文本类型的待模拟动作数据输入至多模态数据处理模型的音视频文字对齐子模型中进行识别，得到对齐后的音视频与文字序列数据。

将对齐后的视频类型的待模拟动作数据输入至所述多模态数据处理模型的特征识别子模型中进行识别，得到所述待生成的虚拟对象对应的各关节的特征数据。

将对齐后的音频类型的待模拟动作数据输入至所述多模态数据处理模型的中进行识别，得到第三音频特征数据。

提取对齐后的文本类型的待模拟动作数据的关键词，并将提取的关键词输入至所述多模态数据处理模型的文字识别子模型中进行识别，得到第三关键词向量数据。

具体的，图6为本发明实施例提供的视频类型、音频类型与文本类型结合的数据识别过程的原理示意图，如图6所示，将文本数据中包含的文字序列输入语音转化系统输出合成语音数据。示例性的，语音转化系统可以为tts(text to speech，文字转换语音)系统。然后将合成语音分段输入音频特征提取网络得到音频特征向量。另一方面，提取文字序列中的关键词，将与语音片段对应文字中的关键词输入至文字识别子模型输出关键词向量，示例性的，文字识别子模型可以为word2vec网络。可以将音频特征向量与关键词向量输入基于场景理解的音频迁移网络，输出动作参数信息。

此外，待模拟动作数据的类型还可以为视频类型与音频类型相结合。具体的，可以将视频数据和音频数据输入音视频对齐模块，输出对齐后的音视频序列。将视频帧输入人体特征识别网络，输出人体特征向量。将视频帧对应的音频片段输入音频特征提取网络，输出音频特征向量。将视频帧对应的音频片段输入关键词识别网络，输出关键词向量。将得到的人体特征向量、音频特征向量和关键词向量输入基于场景理解的音视频迁移网络，输出动作参数信息。该流程的最终目标是驱动虚拟人，在参考输入视频中的人体动作的同时，做出与输入音频相符的动作。

另外，待模拟动作数据的类型还可以为视频类型与文本类型相结合。具体的，可以将文本数据输入语音转化系统，生成合成语音数据。同时提取输入文本中的关键词。将输入视频与合成语音输入音视频对齐模块，输出对齐后的音视频序列。将视频帧输入人体特征识别网络，输出人体特征向量。将与视频帧对应的音频片段输入音频特征提取网络，输出音频特征向量。将与音频片段对应的关键词输入文字识别子模型，输出关键词向量。将得到的人体特征向量、音频特征向量和关键词向量输入基于场景理解的音视频迁移网络，输出动作参数信息。该流程的最终目标是驱动虚拟人，在参考输入视频中的人体动作的同时，做出与输入文本相符的动作。

另外，待模拟动作数据的类型还可以为音频类型与文本类型相结合。具体的，可以将音频数据与文本数据输入音频文字对齐模块，输出对齐的音频与文字序列。将音频分段输入音频特征提取网络，输出音频特征向量。提取输入文本的关键词，并将与音频片段对应的关键词输入至文字识别子模型，输出关键词向量。将得到的音频特征向量与关键词向量输入基于场景理解的音频迁移网络，输出动作参数信息。该流程的最终目标是驱动虚拟人做出与输入音频和文本相符的动作。

S203：根据动作参数信息生成虚拟对象的动作控制参数，并控制虚拟对象进行动作。

S204：将动作后的虚拟对象输出到显示设备进行显示。

在本实施例中，在根据动作参数信息生成虚拟对象之后，可以控制虚拟对象进行动作。示例性的，该虚拟对象可以为动画人物，可以控制动画人物进行动作，并将动作后的动画人员输出到显示设备进行显示。

具体的，可以将创建的虚拟对象的虚拟人模型加载到渲染引擎，并确保该虚拟人模型具有绑定的躯体骨骼。将多模态数据处理单元输出的人体动作参数转换为可以驱动虚拟人骨骼运动的旋转和平移数据，由此驱动虚拟人运动。

另外，还可以应用于机器人领域，将生成的动作参数信息输入至机器人控制单元，经过控制单元解算输出控制指令，操控机器人产生躯体运动。

采用上述方案后，可以先获取待模拟动作数据，然后将待模拟动作数据输入至预先训练好的多模态数据处理模型中进行识别，得到动作参数信息，再根据动作参数信息生成虚拟对象的动作控制参数，并控制虚拟对象进行动作，然后将动作后的虚拟对象输出到显示设备进行显示，无需再额外增加专业的传感器设备，进而无需根据新增的传感器设备改变原生的实现逻辑，既降低了硬件成本，又提高了虚拟对象动作控制的实现效率。

基于图2的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

此外，在另一个实施例中，在S201之前，所述方法还可以包括：

分别针对每种类型的待模拟动作训练数据构建目标网络。

将所述目标网络进行分割，形成至少一子神经网络模型。

在本实施例中，可以采用深度学习技术，通过训练多模态数据转换为人体动作数据的深度神经网络，得到多模态数据到人体动作参数的迁移模型。还可以根据输入数据的几种情况，首先分别针对每种情况单独构建神经网络，然后将这些网络进行分割，形成网络模块，这样不同的数据处理过程可以共享相同的神经网络模块。同时需要制定神经网络模块的重组机制，根据输入数据的不同激活相应的神经网络模块。神经网络的训练采用先模块后组合的机制。首先针对每个单独模块进行单独训练，然后针对不同模块的组合进行联合训练，最终得到多模态数据处理模型。

此外，本方案还可以包含若干不同的数据预处理方法，以及若干数据后处理方法，示例性的，可以为去噪处理、平滑处理，还可以为数据平滑处理。

此外，图7为本发明实施例提供的不同类型的待模拟动作数据的原理示意图，如图7所示，待模拟动作数据可以为视频、音频或文本，经过组合，可以得到视频、音频、文本、视频加音频、视频加文本、音频加文本，以及视频加音频加文本七种类型的数据，然后可以根据前述多种组合类型的数据可以得到动作参数信息。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置，图8为本发明实施例提供的虚拟对象动作控制装置的结构示意图，如图8所示，可以包括：

获取模块801，用于获取待模拟动作数据。

在本实施例中，所述待模拟动作数据的类型包括视频类型、音频类型，以及文本类型中的任意一种或多种。

所述获取模块801，还用于：获取所述视频类型、所述音频类型，以及所述文本类型中的任意一种或多种类型对应的待模拟动作数据。

处理模块802，用于将所述待模拟动作数据输入至多模态数据处理模型中进行识别，得到动作参数信息，其中，所述多模态数据处理模型为通过多种类型的待模拟动作训练数据训练得到的。

在本实施例中，若所述待模拟动作数据的类型为视频类型，所述处理模块802，还用于：

将所述视频类型的待模拟动作数据按帧输入至多模态数据处理模型中，得到待生成的虚拟对象对应的各关节的三维位置坐标。

根据所述各关节的三维位置坐标生成动作参数信息。

若所述待模拟动作数据的类型为音频类型，所述处理模块802，还用于：

将所述音频类型的待模拟动作数据输入至多模态数据处理模型的音频特征提取子模型进行识别，得到第一音频特征数据。

将所述音频类型的待模拟动作数据输入至所述多模态数据处理模型的关键词识别子模型进行识别，得到第一关键词向量数据。

若所述待模拟动作数据的类型为文本类型，所述处理模块802，还用于：

将所述文本类型的待模拟动作数据输入至语音转化系统，得到合成后的待模拟语音数据。

将所述待模拟语音数据输入至多模态数据处理模型的音频特征提取子模型中进行识别，得到第二音频特征数据。

从所述文本类型的待模拟动作数据中提取关键词，并将提取的关键词输入至所述多模态数据处理模型的文字识别子模型中进行识别，得到第二关键词向量数据。

若所述待模拟动作数据的类型为视频类型、音频类型与文本类型的结合，所述处理模块802，还用于：

将所述视频类型的待模拟动作数据、所述音频类型的待模拟动作数据和所述文本类型的待模拟动作数据输入至多模态数据处理模型的音视频文字对齐子模型中进行识别，得到对齐后的音视频与文字序列数据。

将对齐后的音频类型的待模拟动作数据输入至所述多模态数据处理模型的音频特征提取子模型中进行识别，得到第三音频特征数据。

所述处理模块802，还用于根据所述动作参数信息生成虚拟对象的动作控制参数，并控制所述虚拟对象进行动作。

所述处理模块802，还用于将动作后的虚拟对象输出到显示设备进行显示。

此外，在另一个实施例中，所述处理模块802，还用于：

分别针对每种类型的待模拟动作训练数据构建目标网络。

将所述目标网络进行分割，形成至少一子神经网络模型。

本发明实施例提供的装置，可以实现上述如图2所示的实施例的方法，其实现原理和技术效果类似，此处不再赘述。

图9为本发明实施例提供的电子设备的硬件结构示意图，如图9所示，本实施例提供的设备900包括：至少一个处理器901和存储器902。其中，处理器901、存储器902通过总线903连接。

在具体实现过程中，至少一个处理器901执行所述存储器902存储的计算机执行指令，使得至少一个处理器901执行上述方法实施例中的方法。

处理器901的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图9所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述方法实施例的虚拟对象动作控制方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种虚拟对象动作控制方法，其特征在于，包括：

获取待模拟动作数据；

将动作后的虚拟对象输出到显示设备进行显示。

2.根据权利要求1所述的方法，其特征在于，所述待模拟动作数据的类型包括视频类型、音频类型，以及文本类型中的任意一种或多种，

所述获取待模拟动作数据，包括：

3.根据权利要求2所述的方法，其特征在于，若所述待模拟动作数据的类型为视频类型，则所述将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，包括：

根据所述各关节的三维位置坐标生成动作参数信息。

4.根据权利要求2所述的方法，其特征在于，若所述待模拟动作数据的类型为音频类型，则所述将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，包括：

5.根据权利要求2所述的方法，其特征在于，若所述待模拟动作数据的类型为文本类型，则所述将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，包括：

6.根据权利要求2所述的方法，其特征在于，若所述待模拟动作数据的类型为视频类型、音频类型与文本类型的结合，则所述将所述待模拟动作数据输入至多模态数据处理模型中，得到动作参数信息，包括：

将对齐后的视频类型的待模拟动作数据输入至所述多模态数据处理模型的特征识别子模型中进行识别，得到待生成的虚拟对象对应的各关节的特征数据；

7.根据权利要求1-6任一项所述的方法，其特征在于，在所述获取待模拟动作数据之前，还包括：

分别针对每种类型的待模拟动作训练数据构建目标网络；

将所述目标网络进行分割，形成至少一子神经网络模型；

8.一种虚拟对象动作控制装置，其特征在于，包括：

获取模块，用于获取待模拟动作数据；

所述处理模块，还用于根据所述动作参数信息生成虚拟对象的动作控制参数，并控制所述虚拟对象进行动作；

所述处理模块，还用于将动作后的虚拟对象输出到显示设备进行显示。

9.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的虚拟对象动作控制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的虚拟对象动作控制方法。