CN113760101B

CN113760101B - 一种虚拟角色控制方法、装置、计算机设备以及存储介质

Info

Publication number: CN113760101B
Application number: CN202111116514.XA
Authority: CN
Inventors: 唐迪; 刘汶斌; 南天骄; 温翔; 蒋昊; 王峰
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2023-04-18
Anticipated expiration: 2041-09-23
Also published as: CN113760101A

Abstract

本公开提供了一种虚拟角色控制方法、装置、计算机设备以及存储介质，其中，该方法包括：获取虚拟角色控制对象的表情数据；基于表情数据，识别虚拟角色控制对象的情绪状态信息，并确定与情绪状态信息匹配的脸部动作数据；基于表情数据中的音频数据，确定虚拟角色控制对象的音频属性特征，并确定与音频属性特征及情绪状态信息匹配的口型动作数据；基于脸部动作数据和口型动作数据，生成用于驱动虚拟角色做出相应面部表情的面部表情数据。本公开实施例得到的驱动虚拟角色面部表情动作的面部表情数据，受到传感器采集数据的精确度的影响较小，鲁棒性更强，能够更好地体现当前场景下的主播情绪状态。

Description

一种虚拟角色控制方法、装置、计算机设备以及存储介质

技术领域

本公开涉及数据处理技术领域，具体而言，涉及一种虚拟角色控制方法、装置、计算机设备以及存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的发展，虚拟角色出现在不同的应用场景中，例如虚拟主播、虚拟展会现场、可互动的虚拟前台等场景。

目前虚拟角色的面部表情主要是通过增强现实元件(ARKit)技术获取真人面部的混合形状(blendshape)数据控制的。在上述目前控制虚拟角色的面部表情的方法中，当使用ARKit技术的设备精确度不高时，得到的blendshape数据精确性也较差，导致虚拟角色的面部表情表现力不够。

发明内容

本公开实施例至少提供一种虚拟角色控制方法、装置以及计算机存储介质。

第一方面，本公开实施例提供了一种虚拟角色控制方法，包括：

获取虚拟角色控制对象的表情数据；

基于所述表情数据，识别所述虚拟角色控制对象的情绪状态信息，并确定与所述情绪状态信息匹配的脸部动作数据；

基于所述表情数据中的音频数据，确定所述虚拟角色控制对象的音频属性特征，并确定与所述音频属性特征及所述情绪状态信息匹配的口型动作数据；

基于所述脸部动作数据和所述口型动作数据，生成用于驱动虚拟角色做出相应面部表情的面部表情数据。

一种可选的实施方式中，所述获取虚拟角色控制对象的表情数据，包括：

获取所述虚拟角色控制对象的人脸图像、所述虚拟角色控制对象脸部的混合形状blendshape数据、以及虚拟角色控制对象的音频数据；

所述基于所述表情数据，识别所述虚拟角色控制对象的情绪状态信息，包括：

将所述人脸图像、blendshape数据、以及音频数据分别对应的特征数据，输入预先训练的深度学习模型，得到所述深度学习模型输出的所述虚拟角色控制对象的情绪状态信息。

一种可选的实施方式中，所述确定与所述情绪状态信息匹配的脸部动作数据，包括：

获取与所述情绪状态信息对应的美术制作的第一脸部动作数据；

将所述第一脸部动作数据，与获取的所述表情数据中的混合形状blendshape数据进行数据融合，得到第二脸部动作数据，将所述第二脸部动作数据作为确定的所述与所述情绪状态信息匹配的脸部动作数据。

一种可选的实施方式中，所述情绪状态信息中包括情绪类别和情绪强度；

所述获取与所述情绪状态信息对应的美术制作的第一脸部动作数据，包括：

根据所述情绪状态信息中的情绪类别，获取与所述情绪类别匹配的所述第一脸部动作数据；

所述将所述第一脸部动作数据，与获取的所述表情数据中的混合形状blendshape数据进行数据融合，得到第二脸部动作数据，包括：

根据所述情绪状态信息中的情绪强度，确定与所述第一脸部动作数据对应的第一权重和与所述blendshape数据对应的第二权重；

根据所述第一权重和第二权重，将所述第一脸部动作数据与所述blendshape数据进行数据融合，得到所述第二脸部动作数据。

一种可选的实施方式中，根据所述情绪状态信息中的情绪强度，确定与所述第一脸部动作数据对应的第一权重和与所述blendshape数据对应的第二权重，包括：

获取所述情绪类别的当前持续时长；

根据所述当前持续时长，以及所述情绪强度，确定与所述第一脸部动作数据对应的第一权重和与所述blendshape数据对应的第二权重。

一种可选的实施方式中，所述确定与所述音频属性特征及所述情绪状态信息匹配的口型动作数据，包括：

根据所述音频属性特征，确定所述虚拟角色控制对象的目标口型类型；

基于与所述情绪状态信息对应的多种口型类型的口型动作数据，以及所述目标口型类型，确定与所述音频属性特征及所述情绪状态信息匹配的口型动作数据。

一种可选的实施方式中，所述表情数据为按照预设的时间周期获取的；

所述基于与所述情绪状态信息对应的多种口型类型的口型动作数据，以及所述目标口型类型，确定与所述音频属性特征及所述情绪状态信息匹配的口型动作数据，包括：

从与所述情绪状态信息对应的多种口型类型的口型动作数据中，选择与所述目标口型类型对应的目标口型动作数据；

根据基于前一时间周期获取的表情数据确定的前一目标口型动作数据，以及当前选择的所述目标口型动作数据，确定在当前时间周期内，从前一目标口型动作数据过渡到当前选择的目标口型动作数据的各帧动画的口型动作数据。

一种可选的实施方式中，确定与所述情绪状态信息匹配的脸部动作数据之前，还包括：

确定所述虚拟角色控制对象的状态信息满足目标触发条件；所述目标触发条件用于指示能够基于所述情绪状态信息和音频属性特征生成所述面部表情数据；所述状态信息包括肢体动作信息、情绪状态信息、以及音频内容信息中的至少一种。

一种可选的实施方式中，所述音频属性特征包括声音强度。

一种可选的实施方式中，所述方法还包括：

根据识别的所述情绪状态信息，确定与所述情绪状态信息匹配的虚拟特效；

生成用于驱动虚拟角色做出相应面部表情的面部表情数据之后，还包括：

在基于所述面部表情数据驱动虚拟角色做出相应面部表情的同时，展示所述虚拟特效。

一种可选的实施方式中，在获取虚拟角色控制对象的表情数据之前，所述方法还包括：

获取预先存储的表演数据；

基于所述表演数据，确定所述虚拟角色的初始情绪状态信息；

生成与所述初始情绪状态信息匹配的初始面部表情数据，以在获取虚拟角色控制对象的表情数据之前驱动虚拟角色做出相应的初始面部表情。

第二方面，本公开实施例还提供一种虚拟角色控制装置，包括：

第一获取模块，用于获取虚拟角色控制对象的表情数据；

识别模块，用于基于所述表情数据，识别所述虚拟角色控制对象的情绪状态信息，并确定与所述情绪状态信息匹配的脸部动作数据；

第一确定模块，用于基于所述表情数据中的音频数据，确定所述虚拟角色控制对象的音频属性特征，并确定与所述音频属性特征及所述情绪状态信息匹配的口型动作数据；

第一生成模块，用于基于所述脸部动作数据和所述口型动作数据，生成用于驱动虚拟角色做出相应面部表情的面部表情数据。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本公开实施例中可以获取能够反映虚拟角色控制对象的情绪状态信息的各种表情数据(例如blendshape数据、图像数据、音频数据)，相对于现有技术中只通过blendshape数据生成反映虚拟角色控制对象的情绪状态信息的过程而言，增加了表情数据的多样性，使得识别出的情绪状态信息增加准确；确定出的脸部动作数据可以是将blendshape数据与美术制作的脸部动作数据相融合的结果，由于美术制作的脸部动作数据可以起到对blendshape数据校准的作用，从而可以提高脸部动作数据的准确性；并且，通过结合脸部动作数据，以及根据音频数据确定出的口型动作数据，生成面部表情数据，使得根据面部表情数据驱动的虚拟角色的面部表情更加协调、合理。从另一角度来说，本公开实施例能够结合虚拟角色控制对象的情绪状态来匹配脸部动作数据，同时，结合虚拟角色控制对象的音频属性特征及情绪状态信息来匹配口型动作数据，如此将体现情绪状态的脸部动作数据和体现音频属性的口型动作数据结合后，得到驱动虚拟角色面部表情动作的面部表情数据，这样的面部表情数据受到传感器的精确度的影响较小，鲁棒性更强，能够更好地体现当前场景下的主播情绪状态。

另外，本公开实施例通过将前一时间周期的前一目标口型动作数据与当前选择的所述目标口型动作数据进行融合，可以得到过渡更加自然的口型动作数据，进而提高虚拟角色的面部表情精度。

关于上述信息展示的装置、计算机设备、及计算机可读存储介质的效果描述参见上述信息展示的方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例提供的第一种虚拟角色控制方法的流程示意图；

图2为本公开实施例提供的疑问情绪状态下的面部表情示意图；

图3为本公开实施例提供的开心情绪状态下的面部表情示意图；

图4为本公开实施例提供的微笑情绪状态下的面部表情示意图；

图5为本公开实施例提供的伤心情绪状态下的面部表情示意图；

图6为本公开实施例提供的生气情绪状态下的面部表情示意图；

图7为本公开实施例提供的第二种虚拟角色控制方法的流程示意图；

图8为本公开实施例提供的一种虚拟角色控制装置示意图；

图9示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

在虚拟主播场景下，可由ARKit技术构建的彩色摄像头或深度传感器捕捉真实人物的面部表情数据，通过数据解算方法或模型预测方法对面部表情数据进行处理，得到针对预先定义的基表情的组合权重系数blendshape数据，然后将组合权重系数直接应用在以同样的方式对虚拟角色定义的基表情上，实现对虚拟角色的面部表情控制。在上述过程中，当捕捉面部表情数据的传感器精度不够高时，得到的blendshape数据不准确，从而使得虚拟角色的面部表情表现效果较差。

本公开实施例中可以获取能够反映虚拟角色控制对象的情绪状态信息的各种表情数据(例如blendshape数据、图像数据、音频数据)，相对于现有技术中只通过blendshape数据生成反映虚拟角色控制对象的情绪状态信息的过程而言，增加了表情数据的多样性，使得识别出的情绪状态信息更加准确；确定出的脸部动作数据可以是将blendshape数据与美术制作的脸部动作数据相融合的结果，由于美术制作的脸部动作数据可以起到对blendshape数据校准的作用，从而可以提高脸部动作数据的准确性；并且，通过组合脸部动作数据，以及根据音频数据确定出的口型动作数据，生成面部表情数据，使得根据面部表情数据驱动的虚拟角色的面部表情更加协调、合理。另外，本公开实施例将体现情绪状态的脸部动作数据和体现音频属性的口型动作数据结合后，得到的面部表情数据受到传感器的精确度的影响较小，鲁棒性更强，能够更好地体现当前场景下的主播情绪状态。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种虚拟角色控制方法进行详细介绍，本公开实施例所提供的虚拟角色控制方法的执行主体一般为具有一定计算能力的计算机设备。在一些可能的实现方式中，该虚拟角色控制方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例的虚拟角色控制方法做详细说明。

如图1所示，为本公开实施例提供的第一种虚拟角色控制方法的流程图，本公开实施例的虚拟角色控制方法主要应用于通过捕捉虚拟角色控制对象的面部表情来驱动虚拟角色做出对应面部表情的场景，主要包括以下步骤S101～S104：

S101：获取虚拟角色控制对象的表情数据。

在本公开实施例中虚拟角色可以是虚拟人物角色、虚拟动物角色等，虚拟角色控制对象是控制虚拟角色的面部动作的对象，这里可以是真人，对应的表情数据可以包括虚拟角色控制对象的人脸图像、虚拟角色控制对象脸部的混合形状blendshape数据、虚拟角色控制对象的音频数据等。

这里的表情数据可以通过传感器等设备进行采集，具体地，虚拟角色控制对象的人脸图像可以是通过彩色摄像头或深度传感器获取的彩色人脸图像、深度人脸图像等。通过对人脸图像进行面部中不同部位(比如眼睛、眉毛、嘴巴、脸部肌肉等部位)的动作捕捉，可以得到对应部位的动作数据。脸部混合形状blendshape数据可以通过增强现实元件(Augmented Reality，ARkit)捕捉得到的。音频数据可以是通过声音采集设备采集到的包含语音内容的音频数据。

S102：基于所述表情数据，识别所述虚拟角色控制对象的情绪状态信息，并确定与所述情绪状态信息匹配的脸部动作数据。

情绪是人对客观事物的态度体验以及相应的行为反应，情绪主要通过人的脸部动作、肢体动作、语音等信息表现出来，例如大笑的音频可以反映开心的情绪状态信息、眼睛瞪大动作可以反映愤怒的情绪。这里通过表情数据可以识别虚拟角色控制对象的情绪状态信息，其中情绪状态信息可以包括情绪类别、情绪强度等信息。情绪类别可以包括但不限于惊奇、恐惧、厌恶、愤怒、高兴、悲伤等。情绪强度可以包括微弱、强烈、极端强烈等程度。

在一种实施方式中，可以通过训练好的模型得到虚拟角色控制对象的情绪状态信息，具体地，获取的表情数据包括虚拟角色控制对象的人脸图像、虚拟角色控制对象脸部的混合形状blendshape数据、以及虚拟角色控制对象的音频数据时，可以将人脸图像、混合形状blendshape数据、以及音频数据分别对应的特征数据，输入预先训练的深度学习模型，得到深度学习模型输出的虚拟角色控制对象的情绪状态信息。

其中，人脸图像对应的特征数据可以反映脸部动作特征；blendshape数据也可以包括脸部不同部位的动作特征；音频数据对象的特征数据可以包括语速、语气、声音强度、声音持续时长等特征。深度学习模型可以根据输入的上述特征数据，得到对应的情绪状态信息。

与情绪状态信息匹配的脸部动作数据可以包括脸部各个部位的动作数据，具体地可以包括额头、眉毛、眼睛、脸的下半部(包括嘴巴、嘴唇、鼻孔、上下颚、舌头等)的动作数据。

这里的脸部动作数据指的是用于驱动虚拟角色做出相应面脸表情的数据。在确定与情绪状态信息匹配的脸部动作数据时，可以获取与情绪状态信息对应的美术制作的第一脸部动作数据；将第一脸部动作数据，与获取的表情数据中的混合形状blendshape数据进行数据融合，得到第二脸部动作数据，将第二脸部动作数据作为确定的与情绪状态信息匹配的脸部动作数据。

在本公开实施例中，美术人员可以预先针对不同的情绪状态信息制作不同的第一脸部动作数据，情绪状态信息中的情绪类别、情绪强度不同时，制作出的第一脸部动作数据可以是不同的。比如美术制作的微弱的悲伤情绪对应的第一脸部动作数据可以包括眉毛内角皱在一起，抬高，带动眉毛下的皮肤；眼内角的上眼皮抬高；嘴角下拉，嘴角颤抖，不同的虚拟角色表现悲伤情绪时都可以按照上述第一脸部动作数据驱动虚拟角色做出对应的面部表情。

在一种实施方式中，也可以只将获取的表情数据中的混合形状blendshape数据作为确定的与情绪状态信息匹配的脸部动作数据。但是只将混合形状blendshape数据作为确定的与情绪状态信息匹配的脸部动作数据时，可能存在获取的混合形状blendshape数据不准确的情况，继而无法得到准确的脸部动作数据。在本申请实施例中，通过将第一脸部动作数据与混合形状blendshape数据进行数据融合，可以利用第一脸部动作数据对获取的混合形状blendshape数据进行校准，避免在获取的混合形状blendshape数据不准确的情况下，无法得到准确的脸部动作数据的情况。

当情绪状态信息中包括情绪类别和情绪强度时，可以根据情绪状态信息中的情绪类别，获取与情绪类别匹配的美术制作的第一脸部动作数据。这里，设各种情绪类别的第一脸部动作数据为b_e，在混合形状blendshape数据为bs_arkit，确定出的情绪状态信息为e时，对应的情绪强度为p_e，情绪类别为c_e，可以利用融合函数进行融合，得到与确定出的情绪状态信息匹配的脸部动作数据

其中，y_t-1是前一帧的脸部动作数据，bc_e是与确定出的情绪状态信息匹配的第一脸部动作数据，g是时间上的混合函数，f是当前对输入的混合函数。

如前所述，不同的情绪强度对应的第一脸部动作数据是不同的，因此这里，可以根据情绪状态信息中的情绪强度，确定与第一脸部动作数据对应的第一权重和混合形状blendshape数据对应的第二权重；然后根据第一权重和第二权重，将第一脸部动作数据与混合形状blendshape数据进行融合，得到第二脸部动作数据。

由于混合形状blendshape数据无法真实反映虚拟角色控制对象的情绪状态，因此当情绪强度越强时，第一脸部动作数据对应的第一权重就越大。其中，第一权重和第二权重的分布还和情绪类别的持续时长有关，这里，可以获取情绪类别的当前持续时长；根据当前持续时长，以及情绪强度，确定与第一脸部动作数据对应的第一权重和blendshape数据对应的第二权重。其中，当前持续时长越长，第一脸部动作数据对应的第一权重越大。

上述基于情绪状态和音频属性特征来生成驱动虚拟角色的面部表情数据的方式可以是在某种前提下进行的，比如某种情绪非常明显的情况，或者虚拟角色控制对象主动触发的情况，在不满足这些前提条件的情况下，可以正常按照blendshape数据和/或发音内容等来驱动虚拟角色面部表情。

在一种实施方式中，在确定与情绪状态信息匹配的脸部动作数据之前，可以确定虚拟角色控制对象的状态信息满足目标触发条件；其中目标触发条件用于指示能够基于情绪状态信息和音频属性特征生成面部表情数据；状态信息包括肢体动作信息、情绪状态信息、以及音频内容信息中的至少一种。

也就是判断虚拟角色控制对象的肢体动作信息、情绪状态信息、以及音频内容信息中的至少一种是否满足能够基于情绪状态信息和音频属性特征生成面部表情数据的触发条件。

其中，肢体动作信息可以包括肢体动作的姿势、幅度、持续时长。肢体动作信息可以是不同肢体部位的动作信息，例如手部动作、脚部动作等。不同的肢体动作信息可以对应不同的情绪状态，例如双手捂住眼睛，可以代表恐惧的情绪状态。情绪状态信息，如前所述，可以包括情绪类别、情绪强度等信息。音频内容信息指的是虚拟角色控制对象发出的声音内容，可以包括具有明显的语义的语音内容，例如“今天很开心”，具有明显语义的语音内容可以直接根据语音内容判断出情绪状态；也可以包括不具有明显的语义的语气词，例如“哼”，不具有明显的语义的语气词可以通过发出该语气词的面部动作推断出对应的情绪状态。通过不同的音频内容信息可以反映不同的情绪，例如音频内容为语气词时，音频内容包括“哈哈哈”时，可以反映高兴的情绪；音频内容包括“哼”时，可以反映生气的情绪。

当状态信息中的上述至少一种信息满足目标触发条件时，可以根据情绪状态信息和音频属性特征生成面部表情数据。其中，情绪状态信息满足目标触发条件时，可以直接确定与情绪状态信息匹配的脸部动作数据；而当无法判断情绪状态信息是否满足目标触发条件时，还可以结合肢体动作信息和音频内容信息，推断出虚拟角色控制对象的情绪状态。例如虚拟角色控制对象面部表情平静、声音强度较弱，但是做出了鼓掌的动作、并且说出了“今天是一个值得庆贺的日子”的音频内容，此时可以推断出虚拟角色控制对象处于高兴的情绪状态，从而可以确定虚拟角色控制对象的状态信息满足目标触发条件，进而可以确定与高兴的情绪状态信息匹配的脸部动作数据。

S103：基于所述表情数据中的音频数据，确定所述虚拟角色控制对象的音频属性特征，并确定与所述音频属性特征及所述情绪状态信息匹配的口型动作数据。

这里，音频属性特征可以包括声音强度(例如音量)、声音频率等信息。通过音频数据中的语音内容，可以确定出虚拟角色控制对象的声音强度、声音频率等。

口型动作数据可以包括口型的形状、大小、变化方式。不同的音频属性特征和情绪状态信息可以对应不同的口型动作数据，例如悲伤情绪下的口型形状与高兴情绪下的口型形状不同；声音强度不同时，对应的口型大小不同。

这里可以根据音频属性特征，确定虚拟角色控制对象的目标口型类型；基于与情绪状态信息对应的多种口型类型的口型动作类型，以及目标口型类型，确定与音频属性特征及情绪状态信息匹配的口型动作数据。

其中，口型类型可以包括闭嘴口型、大口型和小口型。大口型和小口型是相对而言的，大口型相比小口型，最大张开程度更大。

在本公开实施例中，表情数据可以为按照预设的时间周期获取的，比如每隔30ms，获取虚拟角色控制对象的人脸图像、虚拟角色控制对象脸部的混合形状blendshape数据、虚拟角色控制对象的音频数据。

在根据音频属性特征，确定出虚拟角色控制对象的目标口型类型，也就是闭嘴口型、大口型或小口型之后，可以从与情绪状态信息对应的多种口型类型的口型动作数据中，选择与目标口型类型对应的目标口型动作数据；然后根据基于前一时间周期获取的表情数据确定的前一目标口型动作数据，以及当前选择的目标口型动作数据，确定在当前时间周期内，从前一目标口型动作数据过渡到当前选择的目标口型动作数据的各帧动画的口型动作数据。

其中目标口型动作数据可以包括目标口型动作类型下的口型动作姿势、口型动作时长等数据。

这里，每个时间周期的表情数据可以确定对应的目标口型动作数据。基于前一时间周期获取的表情数据可以确定前一目标口型动作数据，根据当前时间周期内的表情数据可以确定当前的目标口型动作数据。为了实现虚拟角色的口型动作连贯性，这里可以从前一目标口型动作数据过渡到当前选择的目标口型动作数据的各帧动画的口型动作数据，也就是进行口型融合。

这里，各种口型类型的口型动作数据可以是美术预先制作完成的针对各种情绪期望展示的二次元基础口型动作数据(例如开心的大口型、开心的小口型、开心的闭嘴口型、伤心的大口型、伤心的小口型等)，这里可以是以相应的混合形状blendshape数据的形式表示的。不同口型动作数据对应不同的驱动系数

驱动虚拟角色做出对应的面部表情时可以根据当前时间周期内音频属性特征S(这里可以是归一化到0～1数值范围内的声音强度)对应的不同的口型类型，具体地，闭嘴口型对应的声音强度特征为[0,s_small)，小口型对应的声音强度特征为[s_small,s_large)，大口型对应的声音强度特征为[s_large,1])。假设前一时间周期内为闭嘴口型，对应的声音强度特征为s_t-1<s_small，当前时间周期内的情绪状态信息为伤心的小口型状态，声音强度特征满足s_small<s_t<s_large，那么口型结果就是驱动系数

与驱动系数

的混合，这里混合后的数值可以通过曲线的形式绘制出来。

S104：基于所述脸部动作数据和所述口型动作数据，生成用于驱动虚拟角色做出相应面部表情的面部表情数据。

面部表情动作主要是基于脸部动作数据和口型动作数据得到的，因此这里基于脸部动作数据和口型动作数据，可以生成用于驱动虚拟角色做出相应面部表情的面部表情数据。通常情况下，针对同一情绪状态的脸部动作数据与口型动作数据所反映的情绪是一致的，生成的面部表情数据与上述情绪状态也是一致的。图2至图6为虚拟角色做出的几种面部表情的示意图，其中，图2为疑问情绪状态下的面部表情；图3为开心情绪状态下的面部表情；图4为微笑情绪状态下的面部表情；图5为伤心情绪状态下的面部表情；图6为生气情绪状态下的面部表情。不同情绪状态下，面部表情中脸部动作与口型动作都可以是不同的。

在具体实施中，虚拟角色做出的口型动作可以与实际的语音内容不一致；比如，存在一些实际的语音内容无法明显地体现对应的情绪的情况，例如语音内容为语气词“哼”，该语音内容对应的情绪是生气，而真实的口型可能是闭嘴的状态，此时虚拟角色可以做出张开嘴的口型动作，使得生气的状态更加明显，从而可以增强生气时的表现力。

在一种实施方式中，可以增加一些辅助情绪的虚拟特效。在基于面部标识数据驱动虚拟角色做出相应面部表情的同时，展示虚拟特效。

具体地，可以根据识别的情绪状态信息，确定与情绪状态信息匹配的虚拟特效，虚拟特效可以是镜头特效或者虚拟道具对应的特效。例如，在惊恐的情绪状态下，可以使用偏青色的镜头滤镜；在尴尬的情绪状态下，可以使用“满脸黑线”的虚拟特效；在开心的情绪状态，可以在眼睛内填充“星星”的虚拟特效，比如图3中虚拟角色的眼部表情。

考虑到实际中真实人物的面部表情可以在说话之前就能表现出来，比如处于生气的状态，在还未说话的时候就已经流露出了生气的表情。因此为了使得虚拟角色的面部表情更加连贯自然，在一种实施方式中，可以在获取虚拟角色控制对象的表情数据之前，获取预先存储的表演数据；基于表演数据，确定虚拟角色的初始情绪状态信息，然后生成与所述初始情绪状态信息匹配的初始面部表情数据，以在获取虚拟角色控制对象的表情数据之前驱动虚拟角色做出相应的初始面部表情。

这里，表演数据可以包括剧本台词、场景介绍等影响情绪状态的数据。在实施中，可以基于表演数据对虚拟角色的情绪状态进行预判，基于预判结果来确定在对虚拟角色控制对象进行动捕之前，虚拟角色开始显示的初始面部表情，之后，再根据捕捉的虚拟角色控制对象的表情数据，驱动虚拟角色进行面部表情的调整，如此可以使得虚拟角色的面部表情的表现更加完整连贯。

如图7所示，为本公开实施例提供的第二种虚拟角色控制方法的流程图。

首先，获取虚拟角色控制对象的表情数据，表情数据中包括虚拟角色控制对象的人脸图像、虚拟角色控制对象脸部的混合形状blendshape数据、以及虚拟角色控制对象的音频数据。

然后，基于表情数据可以识别虚拟角色控制对象的情绪状态信息，这里可以通过预先训练好的深度学习模型得到。在具体实施中，主要是根据虚拟角色控制对象脸部的混合形状blendshape数据以及人脸图像得到情绪状态信息，也可以根据虚拟角色控制对象脸部的混合形状blendshape数据、人脸图像以及音频数据得到情绪状态信息。并且通过音频数据可以得到与情绪状态信息匹配的口型动作数据。具体地，可以根据音频数据，确定虚拟角色控制对象的音频属性特征(这里可以是声音强度)，然后根据口型资源(例如获取的各个情绪状态下的口型动作)确定与音频属性特征及所述情绪状态信息匹配的口型动作数据。

然后，根据美术制作的第一脸部动作数据、以及获取的所述表情数据中的混合形状blendshape数据进行数据融合，得到与情绪状态信息匹配的脸部动作数据。这里，在进行融合时，可以基于情绪状态信息中的情绪强度，确定与第一脸部动作数据对应的第一权重和与blendshape数据对应的第二权重。也可以基于情绪类别的当前持续时长以及情绪强度，确定与第一脸部动作数据对应的第一权重和与blendshape数据对应的第二权重。然后基于第一权重和第二权重，对第一脸部动作数据与blendshape数据进行数据融合。

然后，基于脸部动作数据和口型动作数据，得到用于驱动虚拟角色做出相应面部表情的面部表情数据。

最后，根据面部表情数据确定虚拟角色模型做出相应面部表情。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与虚拟角色控制方法对应的虚拟角色控制装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述虚拟角色控制方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

如图8所示，为本公开实施例提供的一种虚拟角色控制装置示意图，包括：第一获取模块801、识别模块802、第一确定模块803和第一生成模块804；

第一获取模块801，用于获取虚拟角色控制对象的表情数据；

识别模块802，用于基于所述表情数据，识别所述虚拟角色控制对象的情绪状态信息，并确定与所述情绪状态信息匹配的脸部动作数据；

第一确定模块803，用于基于所述表情数据中的音频数据，确定所述虚拟角色控制对象的音频属性特征，并确定与所述音频属性特征及所述情绪状态信息匹配的口型动作数据；

第一生成模块804，用于基于所述脸部动作数据和所述口型动作数据，生成用于驱动虚拟角色做出相应面部表情的面部表情数据。

一种可选的实施方式中，第一获取模块801，具体用于：

一种可选的实施方式中，第一确定模块803，具体用于：

第一确定模块803，具体用于：

一种可选的实施方式中，第一确定模块803，具体用于：

获取所述情绪类别的当前持续时长；

一种可选的实施方式中，第一确定模块803，具体用于：

第一确定模块803，具体用于：

一种可选的实施方式中，所述装置还包括：

第二确定模块，用于确定所述虚拟角色控制对象的状态信息满足目标触发条件；所述目标触发条件用于指示能够基于所述情绪状态信息和音频属性特征生成所述面部表情数据；所述状态信息包括肢体动作信息、情绪状态信息、以及音频内容信息中的至少一种。

一种可选的实施方式中，所述音频属性特征包括声音强度。

一种可选的实施方式中，所述装置还包括：

第三确定模块，用于根据识别的所述情绪状态信息，确定与所述情绪状态信息匹配的虚拟特效；

展示模块，用于在基于所述面部表情数据驱动虚拟角色做出相应面部表情的同时，展示所述虚拟特效。

一种可选的实施方式中，所述装置还包括：

第二获取模块，用于获取预先存储的表演数据；

第四确定模块，用于基于所述表演数据，确定所述虚拟角色的初始情绪状态信息；

第二生成模块，用于生成与所述初始情绪状态信息匹配的初始面部表情数据，以在获取虚拟角色控制对象的表情数据之前驱动虚拟角色做出相应的初始面部表情。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图9所示，为本公开实施例提供的计算机设备900的结构示意图，包括处理器901、存储器902、和总线903。其中，存储器902用于存储执行指令，包括内存9021和外部存储器9022；这里的内存9021也称内存储器，用于暂时存放处理器901中的运算数据，以及与硬盘等外部存储器9022交换的数据，处理器901通过内存9021与外部存储器9022进行数据交换，当计算机设备900运行时，处理器901与存储器902之间通过总线903通信，使得处理器901在执行以下指令：

获取虚拟角色控制对象的表情数据；

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的虚拟角色控制方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的虚拟角色控制方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种虚拟角色控制方法，其特征在于，应用于通过捕捉虚拟角色控制对象的面部表情来驱动虚拟角色做出对应面部表情的场景，所述方法包括：

获取虚拟角色控制对象的表情数据；所述表情数据包括所述虚拟角色控制对象的人脸图像、所述虚拟角色控制对象脸部的混合形状blendshape数据、以及所述虚拟角色控制对象的音频数据；

基于所述表情数据，识别所述虚拟角色控制对象的情绪状态信息，并确定与所述情绪状态信息匹配的脸部动作数据；所述情绪状态信息包括情绪类别和情绪强度；

2.根据权利要求1所述的方法，其特征在于，所述基于所述表情数据，识别所述虚拟角色控制对象的情绪状态信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定与所述情绪状态信息匹配的脸部动作数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取与所述情绪状态信息对应的美术制作的第一脸部动作数据，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述情绪状态信息中的情绪强度，确定与所述第一脸部动作数据对应的第一权重和与所述blendshape数据对应的第二权重，包括：

获取所述情绪类别的当前持续时长；

6.根据权利要求1所述的方法，其特征在于，所述确定与所述音频属性特征及所述情绪状态信息匹配的口型动作数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述表情数据为按照预设的时间周期获取的；

8.根据权利要求1所述的方法，其特征在于，确定与所述情绪状态信息匹配的脸部动作数据之前，还包括：

9.根据权利要求1所述的方法，其特征在于，所述音频属性特征包括声音强度。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，在获取虚拟角色控制对象的表情数据之前，所述方法还包括：

获取预先存储的表演数据；

12.一种虚拟角色控制装置，其特征在于，应用于通过捕捉虚拟角色控制对象的面部表情来驱动虚拟角色做出对应面部表情的场景，所述装置包括：

第一获取模块，用于获取虚拟角色控制对象的表情数据；所述表情数据包括所述虚拟角色控制对象的人脸图像、所述虚拟角色控制对象脸部的混合形状blendshape数据、以及所述虚拟角色控制对象的音频数据；

识别模块，用于基于所述表情数据，识别所述虚拟角色控制对象的情绪状态信息，并确定与所述情绪状态信息匹配的脸部动作数据；所述情绪状态信息包括情绪类别和情绪强度；

13.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至11任一项所述的虚拟角色控制方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至11任一项所述的虚拟角色控制方法的步骤。