CN112669417A

CN112669417A - 虚拟形象的生成方法、装置、存储介质及电子设备

Info

Publication number: CN112669417A
Application number: CN202011513783.5A
Authority: CN
Inventors: 雷超兵; 舒科
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-16
Anticipated expiration: 2040-12-18
Also published as: CN112669417B

Abstract

本申请公开了一种虚拟形象的生成方法、装置、存储介质及电子设备，属于人工智能技术领域。所述虚拟形象的生成方法包括：获取目标对象的基础虚拟形象视频，确定所述基础虚拟形象视频的头部动作信息，根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。故本申请基于语言情感分类模型生成对应的头部动作信息，进而合成更加自然的增加了头部动作的虚拟形象，提升真实感。

Description

虚拟形象的生成方法、装置、存储介质及电子设备

技术领域

本发明涉及人工智能技术领域，具体涉及一种虚拟形象的生成方法、装置、存储介质及电子设备。

背景技术

目前，随着互联网产业的高速发展，人工智能使得“虚拟世界”的应用越来越多，从动漫到直播、到在线教育、到短视频的运营等，都涉及到“虚拟形象”的构建。现有技术中虚拟人物的生成方案普遍使用先从语音生成人脸关键点，再从关键点生成虚拟人物人脸，但是目前生成的虚拟人物普遍存在头部动作僵硬等问题，缺乏真实感，进而影响用户体验。因此如何通过素材音频数据和视频数据来生成能够自然头部动作的虚拟人物形象是目前亟待解决的问题。

发明内容

本申请实施例提供了一种虚拟形象的生成方法、装置、存储介质及电子设备，基于语言情感分类模型生成对应的头部动作信息，进而合成更加自然的增加了头部动作的虚拟形象，提升真实感。所述技术方案如下：

第一方面，本申请实施例提供了一种虚拟形象的生成方法，包括：

获取目标对象的基础虚拟形象视频；

确定所述基础虚拟形象视频的头部动作信息；

根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。

第二方面，本申请实施例提供了一种虚拟形象的生成装置，所述装置包括：

获取模块，用于获取目标对象的基础虚拟形象视频；

确定模块，用于确定所述基础虚拟形象视频的头部动作信息；

生成模块，用于根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供了一种电子设备，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述计算机程序适用于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

上述虚拟形象的生成方法、装置、存储介质及电子设备工作时，获取目标对象的基础虚拟形象视频，确定所述基础虚拟形象视频的头部动作信息，其中，所述头部动作信息包括转动时刻、转动方向和转动幅度，根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。本申请实施例基于语言情感分类模型生成对应的头部动作信息，进而合成更加自然的增加了头部动作的虚拟形象，提升真实感。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种通信系统架构示意图；

图2是本申请实施例提供的一种虚拟形象的生成方法的流程示意图；

图3是本申请实施例提供的一种虚拟形象的生成方法的另一流程示意图；

图4是本申请实施例提供的一种虚拟形象的生成装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述设计附图时，除非另有表示，不同附图中的相同数字表示相同的或相似的要素。以下示例性实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了解决上述提到的现有技术中基于输入音频数据，实现对虚拟形象的合成(例如根据声音生成嘴唇动作，以模仿说话动作)，现有生成的虚拟形象不够真实，没有头部动作，降低了互动体验的问题，特提出了一种虚拟形象的生成方法，本申请实施例方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系且安装有摄像头或可旋转摄像头的计算机系统上。该计算机系统可以是智能手机、笔记本电脑、平板电脑等设备的计算机系统。

图1为本申请提供的一种通信系统架构示意图。

请参见图1，通信系统01包括终端设备101、网络设备102、服务器103；当通信系统01包括核心网时，该网络设备102还可以与核心网相连。网络设备102还可以与互联网协议(Internet Protocol，IP)网络进行通信，例如，因特网(internet)，私有的IP网，或其它数据网等。网络设备102为覆盖范围内的终端设备101和服务器103提供服务。用户可以使用终端设备101通过网络设备102与服务器103交互，以接收或发送消息等，终端设备101可以安装有各种通讯客户端应用，例如语音交互类应用、动画制作类应用等，服务器103可以是存储了本申请实施例提供的虚拟形象生成方法以及提供各种服务的服务器，用于对终端设备101上传的音频数据、视频数据、算法模型等文件进行存储和处理，并将处理结果发送给终端设备101。

在下述方法实施例中，为了便于说明，仅以各步骤的执行主体为计算机进行介绍说明。

下面将结合附图2至图3，对本申请实施例提供的虚拟形象的生成方法进行详细介绍。

请参见图2，为本申请实施例提供了一种虚拟形象的生成方法的流程示意图。所述方法可以包括以下步骤：

S201、获取目标对象的基础虚拟形象视频。

一般的，计算机对音频数据进行特征提取得到声音特征，通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征，根据所述人脸关键点特征生成基础虚拟形象视频。其中，所述基础虚拟形象视频中的虚拟形象在讲话时嘴部动，不具有头部动作。

S202、确定所述基础虚拟形象视频的头部动作信息。

一般的，所述头部动作信息包括转动时刻、转动方向和转动幅度。计算机获取目标对象的基础虚拟形象视频后，对多个素材视频数据进行语音识别处理得到文本信息，通过自然语言处理NLP模型对各个素材视频数据的文本信息提取情感关键字，根据提取的情感关键字对各个素材视频数据进行标记，统计多个视频素材的情感类别信息出现频率确定各个情感类别信息对应的转动方向，识别出所述各个情感类别信息的语调，根据所述语调确定转动幅度，根据所述转动幅度和所述转动幅度生成头部变化模型，确定所述情感关键字对应的情感类别信息，以及建立所述情感类别信息与所述头部变化模型的对应关系。然后计算机通过语言情感分类模型对所述基础虚拟形象视频进行检测得到情感类别信息，将各个情感类别信息的出现时刻确定为转动时刻，根据所述对应关系获取对应的头部变化模型，基于所述转动时刻和所述头部变化模型生成头部动作信息。

S203、根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。

一般的，计算机确定所述基础虚拟形象视频的头部动作信息之后，确定所述基础虚拟形象视频的多个转动时刻，提取各个转动时刻的所述基础虚拟形象视频中的人脸关键点特征，基于所述头部变化模型生成所述人脸关键点特征对应的变换矩阵，根据所述变换矩阵对所述人脸关键点特征的三维投影特征进行处理得到变换结果，基于所述变换结果生成具有头部动作特性的最终虚拟形象视频。其中，所述头部变化模型包括转动变化模型、点头变化模型和摇头变化模型。

由上述内容可知，获取目标对象的基础虚拟形象视频，确定所述基础虚拟形象视频的头部动作信息，根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。本申请实施例基于语言情感分类模型生成对应的头部动作信息，进而合成更加自然的增加了头部动作的虚拟形象，提升真实感。

请参见图3，为本申请实施例提供了一种虚拟形象的生成方法的另一流程示意图。该虚拟形象的生成方法可以包括以下步骤：

S301、对音频数据进行特征提取得到声音特征。

一般的，声音特征是表示语音声学特性的物理量，也是声音诸要素声学表现的统称，例如：表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。一般的声音特征包括梅尔频率倒谱系数(Mel-scaleFrequency Cepstral Cofficients，MFCC)特征、梅尔滤波器组(Mel Filter Bank，MFB)特征、频谱子带质心(Spectral Subband Centroid，SSC)特征等。计算机基于预设帧率计算在所述音频数据的时间区间上的中心位置，遍历所述时间区间提取所述中心位置前后预设长度的子时间区间内的梅尔倒谱系数MFCC声音特征，对所述MFCC声音特征进行处理得到声音特征，例如：生成一帧图像的声音特征用向量表示维度为(1,256)，则将N帧的所述声音特征进行叠加得到维度为(N,256)的声音特征，其中N为大于1的整数。

S302、通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征，根据所述人脸关键点特征生成基础虚拟形象视频。

一般的，人脸关键点特征是指人脸关键点坐标信息特征，例如：81个人脸关键点坐标或者68个人脸关键点坐标。人脸关键点生成模型是指能检测识别人脸关键点坐标信息的神经网络。计算机得到声音特征后，通过单层全连接网络对所述人脸关键点相关特征进行处理得到人脸关键点特征，其中，所述人脸关键点特征包括序列大小与音频数据长度关联参数、人脸关键点个数和对应坐标等信息，例如：计算机生成一帧图像的68个人脸关键点坐标信息((73,25)，(85,30)，(90,34)，...)。然后计算机根据所述人脸关键点特征生成基础虚拟形象视频，即将连续帧图像进行组合生成预设帧率、格式等的视频。

S303、对多个素材视频数据进行语音识别处理得到文本信息，通过自然语言处理NLP模型对各个素材视频数据的文本信息提取情感关键字，根据提取的情感关键字对各个素材视频数据进行标记。

一般的，计算机生成基础虚拟形象视频后，需要获取多个素材视频数据，对所述多个素材视频数据进行语音识别得到文本信息，再通过自然语言处理(Natural LanguageProcessing，NLP)模型在各个素材视频数据的文本信息提取情感关键字，根据提取的情感关键字对各个素材视频数据进行标记，例如：计算机对得到的文本信息提取出：高兴、悲伤、难受等情感关键字，然后标记出1号素材视频数据中情感关键字为高兴时的第3分钟，标记出2号素材视频数据中情感关键字为悲伤时的第7分钟。

S304、统计多个视频素材的情感类别信息出现频率确定各个情感类别信息对应的转动方向，识别出所述各个情感类别信息的语调，根据所述语调确定转动幅度。

一般的，计算机根据提取的情感关键字对各个素材视频数据进行标记后，统计多个视频素材的情感类别信息出现频率确定各个情感类别信息对应的转动方向，例如：计算机统计情感类别信息为嘲笑时，转动方向为90度的有30次，转动方向为45度的有5次，则确定情感类别信息为嘲笑对应的转动方向为90度，情感类别信息为悲伤对应的转动方向为0度等。然后计算机识别出所述各个情感类别信息的语调，根据所述语调确定转动幅度，例如：计算机识别出情感类别信息为第一次悲伤时的语调等级系数为2，则转动幅度45度，情感类别信息为第二次高兴时的语调等级系数为4，则转动幅度90度。

S305、根据所述转动幅度和所述转动幅度生成头部变化模型，确定所述情感关键字对应的情感类别信息，以及建立所述情感类别信息与所述头部变化模型的对应关系。

一般的，计算机根据所述语调确定转动幅度后，根据所述转动幅度和所述转动幅度生成头部变化模型，例如：计算机得到头部变化模型为[30,45]，表示转动方向为30度，转动幅度为45度等，然后计算机确定所述情感关键字对应的情感类别信息，以及建立所述情感类别信息与所述头部变化模型的对应关系，例如：计算机提取情感关键字为难受，则确定情感类别信息为悲伤，则对应的头部变化模型为[150,15]。

S306、通过语言情感分类模型对所述基础虚拟形象视频进行检测得到情感类别信息，将各个情感类别信息的出现时刻确定为转动时刻。

一般的，计算机建立所述情感类别信息与所述头部变化模型的对应关系之后，通过语言情感分类模型对所述基础虚拟形象视频进行检测得到情感类别信息，例如：计算机检测出所述基础虚拟形象视频的第3分钟对应的情感类别信息为高兴，第7分钟对应的情感类别信息为悲伤等。并且计算机将各个情感类别信息的出现时刻确定为转动时刻，例如：转动时刻为第3分钟、第7分钟等。

S307、根据所述对应关系获取对应的头部变化模型，基于所述转动时刻和所述头部变化模型生成头部动作信息。

一般的，计算机将各个情感类别信息的出现时刻确定为转动时刻后，根据所述对应关系获取对应的头部变化模型，例如：确定情感类别信息为嘲笑，则对应的头部变化模型为[75,30]。然后计算机基于所述转动时刻和所述头部变化模型生成头部动作信息，例如：生成头部动作信息为[3.45,22,43]，其中3.45表示转动时刻为3分45秒，转动方向为22度，转动幅度为43度。

S308、确定所述基础虚拟形象视频的多个转动时刻，提取各个转动时刻的所述基础虚拟形象视频中的人脸关键点特征。

一般的，计算机生成头部动作信息后，确定所述基础虚拟形象视频的多个转动时刻，提取各个转动时刻的所述基础虚拟形象视频中的人脸关键点特征，例如：确定4分15秒、5分45秒和7分32秒等多个转动时刻，然后提取4分15秒左右的连续的5帧图像的人脸关键点特征，提取5分45秒左右的连续的6帧图像的人脸关键点特征等。

S309、基于所述头部变化模型生成所述人脸关键点特征对应的变换矩阵，根据所述变换矩阵对所述人脸关键点特征的三维投影特征进行处理得到变换结果。

一般的，计算机提取各个转动时刻的所述基础虚拟形象视频中的人脸关键点特征后，基于所述头部变化模型生成所述人脸关键点特征对应的变换矩阵，例如：确定对应转动时刻提取的连续帧图像为5帧，得到头部变化模型为[150,15]，则将整个头部动作分为5个节点，基于所述头部变化模型生成5个变换矩阵，分别对应[50,5]、[100,10]、[150,15]、[100,10]和[50,5]，因为头部动作为对称动作，生成变换矩阵时可随机增加偏移量。然后计算机根据所述变换矩阵对所述人脸关键点特征的三维投影特征进行处理得到变换结果，例如：计算机将二维的所述人脸关键点特征(75,96)、(94,127)等，通过人脸模版投影到三维空间得到(124,75,83)、(167,86,99)等，再通过变换矩阵进行计算得到(145,24,75)、(187,52,86)等，最后基于人脸模板将三维坐标转换为二维坐标得到变换结果为(55,67)、(70,99)等。

S310、基于所述变换结果生成具有头部动作特性的最终虚拟形象视频。

一般的，计算机得到变换结果后，将新生成的连续帧图像替换掉对应位置的基础虚拟形象视频的图像，生成具有头部动作特性的最终虚拟形象视频。在一个实施例中计算机还可以基于现有的图片或者视频作为基础虚拟形象视频，然后基于所述头部动作信息确定所述原始虚拟形象基础虚拟形象视频对应的具有头部动作特性的最终虚拟形象视频。

本申请实施例的方案在执行时，获取目标对象的基础虚拟形象视频，确定所述基础虚拟形象视频的头部动作信息，其中，所述头部动作信息包括转动时刻、转动方向和转动幅度，根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。本申请实施例基于语言情感分类模型生成对应的头部动作信息，进而合成更加自然的增加了头部动作的虚拟形象，提升真实感。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图4，其示出了本申请一个示例性实施例提供的虚拟形象的生成装置的结构示意图，以下简称生成装置4。生成装置4可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。包括：

获取模块401，用于获取目标对象的基础虚拟形象视频；

确定模块402，用于确定所述基础虚拟形象视频的头部动作信息；

生成模块403，用于根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。

可选地，所述获取模块401，还包括：

提取单元，用于对音频数据进行特征提取得到声音特征；通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征；根据所述人脸关键点特征生成基础虚拟形象视频。

可选地，所述确定模块402，还包括：

标记单元，用于对多个素材视频数据进行语音识别处理得到文本信息；通过自然语言处理NLP模型对各个素材视频数据的文本信息提取情感关键字；根据提取的情感关键字对各个素材视频数据进行标记；提取标记后的各个素材视频数据对应的头部变化模型；确定所述情感关键字对应的情感类别信息，以及建立所述情感类别信息与所述头部变化模型的对应关系。

识别单元，用于统计多个视频素材的情感类别信息出现频率确定各个情感类别信息对应的转动方向；识别出所述各个情感类别信息的语调，根据所述语调确定转动幅度；根据所述转动幅度和所述转动幅度生成头部变化模型。

检测单元，用于通过语言情感分类模型对所述基础虚拟形象视频进行检测得到情感类别信息；将各个情感类别信息的出现时刻确定为转动时刻；根据所述对应关系获取对应的头部变化模型；基于所述转动时刻和所述头部变化模型生成头部动作信息。

可选地，所述生成模块403，还包括：

变换单元，用于确定所述基础虚拟形象视频的多个转动时刻；提取各个转动时刻的所述基础虚拟形象视频中的人脸关键点特征；基于所述头部变化模型生成所述人脸关键点特征对应的变换矩阵；根据所述变换矩阵对所述人脸关键点特征的三维投影特征进行处理得到变换结果；基于所述变换结果生成具有头部动作特性的最终虚拟形象视频。

本申请实施例和图2至图3的方法实施例基于同一构思，其带来的技术效果也相同，具体过程可参照图2至图3的方法实施例的描述，此处不再赘述。

所述装置4可以为实现相关功能的现场可编程门阵列(field-programmable gatearray，FPGA)，专用集成芯片，系统芯片(system on chip，SoC)，中央处理器(centralprocessor unit，CPU)，网络处理器(network processor，NP)，数字信号处理电路，微控制器(micro controller unit，MCU)，还可以采用可编程控制器(programmable logicdevice，PLD)或其他集成芯片。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述的方法步骤，具体执行过程可以参见图2或图3所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的模板的控制方法。

请参见图5，为本申请实施例提供了一种电子设备的结构示意图。如图5所示，所述电子设备5可以包括：至少一个处理器501，至少一个网络接口504，用户接口503，存储器505，至少一个通信总线502。

其中，通信总线502用于实现这些组件之间的连接通信。

其中，用户接口503可以包括显示屏(Display)、麦克风(Microphone)，可选用户接口503还可以包括标准的有线接口、无线接口。

其中，网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器501可以包括一个或者多个处理核心。处理器501利用各种借口和线路连接整个终端500内的各个部分，通过运行或执行存储在存储器505内的指令、程序、代码集或指令集，以及调用存储在存储器505内的数据，执行终端500的各种功能和处理数据。可选的，处理器501可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器501中，单独通过一块芯片进行实现。

其中，存储器505可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示，作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及虚拟形象的生成应用程序。

在图5所示的电子设备500中，用户接口503主要用于为用户提供输入的接口，获取用户输入的数据；而处理器501可以用于调用存储器505中存储的虚拟形象的生成应用程序，并具体执行以下操作：

获取目标对象的基础虚拟形象视频；

确定所述基础虚拟形象视频的头部动作信息；

在一个实施例中，处理器501执行所述获取目标对象的基础虚拟形象视频，包括：

对音频数据进行特征提取得到声音特征；

通过人脸关键点生成模型对所述声音特征进行处理得到人脸关键点特征；

根据所述人脸关键点特征生成基础虚拟形象视频。

在一个实施例中，处理器501执行所述确定所述基础虚拟形象视频的头部动作信息之前，还包括：

对多个素材视频数据进行语音识别处理得到文本信息；

通过自然语言处理NLP模型对各个素材视频数据的文本信息提取情感关键字；

根据提取的情感关键字对各个素材视频数据进行标记；

提取标记后的各个素材视频数据对应的头部变化模型；

确定所述情感关键字对应的情感类别信息，以及建立所述情感类别信息与所述头部变化模型的对应关系。

在一个实施例中，处理器501执行所述提取标记后的各个素材视频数据对应的头部变化模型，包括：

统计多个视频素材的情感类别信息出现频率确定各个情感类别信息对应的转动方向；

识别出所述各个情感类别信息的语调，根据所述语调确定转动幅度；

根据所述转动幅度和所述转动幅度生成头部变化模型。

在一个实施例中，处理器501执行所述确定所述基础虚拟形象视频的头部动作信息，包括：

通过语言情感分类模型对所述基础虚拟形象视频进行检测得到情感类别信息；

将各个情感类别信息的出现时刻确定为转动时刻；

根据所述对应关系获取对应的头部变化模型；

基于所述转动时刻和所述头部变化模型生成头部动作信息。

在一个实施例中，处理器501执行所述根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频，包括：

确定所述基础虚拟形象视频的多个转动时刻；

提取各个转动时刻的所述基础虚拟形象视频中的人脸关键点特征；

基于所述头部变化模型生成所述人脸关键点特征对应的变换矩阵；

根据所述变换矩阵对所述人脸关键点特征的三维投影特征进行处理得到变换结果；

基于所述变换结果生成具有头部动作特性的最终虚拟形象视频。

本申请实施例的技术构思和图2或图3的技术构思相同，具体过程可参照图2或图3的方法实施例，此处不再赘述。

在本申请实施例中，获取目标对象的基础虚拟形象视频，确定所述基础虚拟形象视频的头部动作信息，其中，所述头部动作信息包括转动时刻、转动方向和转动幅度，根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频。本申请实施例基于语言情感分类模型生成对应的头部动作信息，进而合成更加自然的增加了头部动作的虚拟形象，提升真实感。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种虚拟形象的生成方法，其特征在于，所述方法包括：

获取目标对象的基础虚拟形象视频；

确定所述基础虚拟形象视频的头部动作信息；

2.根据权利要求1所述方法，其特征在于，所述获取目标对象的基础虚拟形象视频，包括：

对音频数据进行特征提取得到声音特征；

根据所述人脸关键点特征生成基础虚拟形象视频。

3.根据权利要求1所述方法，其特征在于，所述头部动作信息包括转动时刻、转动方向和转动幅度。

4.根据权利要求3所述方法，其特征在于，所述确定所述基础虚拟形象视频的头部动作信息之前，还包括：

对多个素材视频数据进行语音识别处理得到文本信息；

根据提取的情感关键字对各个素材视频数据进行标记；

提取标记后的各个素材视频数据对应的头部变化模型；

5.根据权利要求4所述方法，其特征在于，所述提取标记后的各个素材视频数据对应的头部变化模型，包括：

根据所述转动幅度和所述转动幅度生成头部变化模型。

6.根据权利要求5所述方法，其特征在于，所述确定所述基础虚拟形象视频的头部动作信息，包括：

将各个情感类别信息的出现时刻确定为转动时刻；

根据所述对应关系获取对应的头部变化模型；

基于所述转动时刻和所述头部变化模型生成头部动作信息。

7.根据权利要求6所述方法，其特征在于，所述根据所述头部动作信息和所述基础虚拟形象视频生成具有头部动作特性的最终虚拟形象视频，包括：

确定所述基础虚拟形象视频的多个转动时刻；

8.根据权利要求4所述方法，其特征在于，所述头部变化模型包括转动变化模型、点头变化模型和摇头变化模型。

9.一种虚拟形象的生成装置，其特征在于，包括：

获取模块，用于获取目标对象的基础虚拟形象视频；

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

11.一种电子设备，其特征在于，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述计算机程序适用于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。