CN113763518A

CN113763518A - 基于虚拟数字人的多模态无限表情合成方法及装置

Info

Publication number: CN113763518A
Application number: CN202111057604.6A
Authority: CN
Inventors: 余国军; 毛海涛; 虞强
Original assignee: Beijing Shun Tian Li'an Technology Co ltd
Current assignee: Beijing Shun Tian Li'an Technology Co ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-07

Abstract

本发明公开一种基于虚拟数字人的多模态无限表情合成方法及装置，通过获取基础表情素材，将基础表情素材转换为表情数字模型进行存储；将表情数字模型进行分类，获得分类表情模型库；分类表情模型库包括微表情库、宏表情库和口型库，通过分类表情模型库存储基础表情素材的身份标签；利用身份标签，从分类表情模型库中选择待合成的表情数字模型，将选择的表情数字模型生成为合成表情。本发明理论上能够无限生成各种组合的面部表情，大大简化了人像的表情生产力，可以广泛应用于虚拟数字人、智能机器人、聊天机器人、情感机器人等场景，使这类虚拟人物具备了更加拟人的真实情感，大大增加了用户的交互体验。

Description

基于虚拟数字人的多模态无限表情合成方法及装置

技术领域

本发明涉及人工智能或增强现实技术领域，具体涉及一种基于虚拟数字人的多模态无限表情合成方法及装置。

背景技术

虚拟数字人是基于计算机视觉和语音合成等技术，进行形象、声音、动作等的模型训练后，可以通过在后台自由输入任意文字，便可以生成“真人”讲解的短视频。现阶段，在服务、游戏或影视等行业，对涉及虚拟人物时，需要根据场景使用各种表情，以此作为虚拟人物表情的依据，使人物越来越生动和逼真。

现有技术中，原始的表情捕捉系统需要演员穿戴专用的硬件设备，通过硬件传感器捕捉演员的表情，通过算法程序将表情数字化，最终将表情参数传导致虚拟角色，通过驱动对虚拟角色的骨骼调节从而生成表情，生成表情动画。这个过程非常复杂，该技术难以应用于更多泛化场景，尤其是在当今智能机器人、聊天机器人、情感机器人等快速发展下，传统的表情捕捉方式难以应用。

发明内容

为此，本发明提供一种基于虚拟数字人的多模态无限表情合成方法及装置，以解决现有表情处理技术处理过程复杂，难以应用于更多泛化场景的问题。

为了实现上述目的，本发明提供如下技术方案：基于虚拟数字人的多模态无限表情合成方法，包括以下步骤：

获取基础表情素材，将所述基础表情素材转换为表情数字模型进行存储；

将所述表情数字模型进行分类，获得分类表情模型库；所述分类表情模型库包括微表情库、宏表情库和口型库，通过所述分类表情模型库存储所述基础表情素材的身份标签；

利用所述身份标签，从所述分类表情模型库中选择待合成的表情数字模型，将选择的表情数字模型生成为合成表情。

作为基于虚拟数字人的多模态无限表情合成方法的优选方案，所述获取基础表情素材的方式包括：对目标基础表情素材进行采集或扫描，或通过三维建模软件构建目标表情数字模型。

作为基于虚拟数字人的多模态无限表情合成方法的优选方案，利用所述身份标签，从所述宏表情库中选择待合成的宏表情数字模型，从所述微表情库中选择待合成的微表情数字模型，从所述口型库中选择待合成的口型数字模型，将选择的所述宏表情数字模型、微表情数字模型和口型数字模型共同生成为合成表情。

作为基于虚拟数字人的多模态无限表情合成方法的优选方案，所述合成表情的生成方式为：将选择的若干所述宏表情数字模型、微表情数字模型和口型数字模型通过调整骨骼的方式生成为合成表情。

作为基于虚拟数字人的多模态无限表情合成方法的优选方案，所述合成表情的生成方式为：将选择的若干所述宏表情数字模型、微表情数字模型和口型数字模型通过Blendshape模型生成为合成表情。

作为基于虚拟数字人的多模态无限表情合成方法的优选方案，所述合成表情的生成方式为：将选择的若干所述宏表情数字模型、微表情数字模型、口型数字模型通过调整骨骼和Blend shape模型结合的方式生成为合成表情。

本发明还提供一种基于虚拟数字人的多模态无限表情合成装置，包括：

表情素材获取模块，用于获取基础表情素材，将所述基础表情素材转换为表情数字模型进行存储；

表情模型分类模块，用于将所述表情数字模型进行分类，获得分类表情模型库；所述分类表情模型库包括微表情库、宏表情库和口型库，通过所述分类表情模型库存储所述基础表情素材的身份标签；

合成表情生成模块，用于利用所述身份标签，从所述分类表情模型库中选择待合成的表情数字模型，将选择的表情数字模型生成为合成表情。

作为基于虚拟数字人的多模态无限表情合成装置的优选方案，所述表情素材获取模块获取基础表情素材的方式包括：对目标基础表情素材进行采集或扫描，或通过三维建模软件构建目标表情数字模型。

作为基于虚拟数字人的多模态无限表情合成装置的优选方案，所述合成表情生成模块中，利用所述身份标签，从所述宏表情库中选择待合成的宏表情数字模型，从所述微表情库中选择待合成的微表情数字模型，从所述口型库中选择待合成的口型数字模型，将选择的所述宏表情数字模型、微表情数字模型和口型数字模型共同生成为合成表情。

作为基于虚拟数字人的多模态无限表情合成装置的优选方案，所述合成表情生成模块中的合成表情生成方式包括：

将选择的若干所述宏表情数字模型、微表情数字模型和口型数字模型通过调整骨骼的方式生成为合成表情；

将选择的若干所述宏表情数字模型、微表情数字模型和口型数字模型通过Blendshape模型生成为合成表情；

将选择的若干所述宏表情数字模型、微表情数字模型、口型数字模型通过调整骨骼和Blend shape模型结合的方式生成为合成表情。

本发明具有如下优点：通过获取基础表情素材，将基础表情素材转换为表情数字模型进行存储；将表情数字模型进行分类，获得分类表情模型库；分类表情模型库包括微表情库、宏表情库和口型库，通过分类表情模型库存储基础表情素材的身份标签；利用身份标签，从分类表情模型库中选择待合成的表情数字模型，将选择的表情数字模型生成为合成表情。本发明理论上能够无限生成各种组合的面部表情，大大简化了人像的表情生产力，可以广泛应用于虚拟数字人、智能机器人、聊天机器人、情感机器人等场景，使这类虚拟人物具备了更加拟人的真实情感，大大增加了用户的交互体验。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例中提供的基于虚拟数字人的多模态无限表情合成方法流程示意图；

图2为本发明实施例中提供的基于虚拟数字人的多模态无限表情合成方法技术路线示意图；

图3为本发明实施例中提供的基于虚拟数字人的多模态无限表情合成方法中获取基础表情素材的示意图；

图4为本发明实施例中提供的基于虚拟数字人的多模态无限表情合成方法中表情合成示意图；

图5为本发明实施例中提供的基于虚拟数字人的多模态无限表情合成装置示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1和图2，提供一种基于虚拟数字人的多模态无限表情合成方法，包括以下步骤：

S1、获取基础表情素材，将所述基础表情素材转换为表情数字模型进行存储；

S2、将所述表情数字模型进行分类，获得分类表情模型库；所述分类表情模型库包括微表情库、宏表情库和口型库，通过所述分类表情模型库存储所述基础表情素材的身份标签；

S3、利用所述身份标签，从所述分类表情模型库中选择待合成的表情数字模型，将选择的表情数字模型生成为合成表情。

参见图3，本实施例中，所述获取基础表情素材的方式包括：对目标基础表情素材进行采集或扫描，或通过三维建模软件构建目标表情数字模型。

具体的，获取基础表情素材的方式有多种，可以对实体人物进行扫描或拍照，得到大量的表情资源。也可以采用3D MAX等三维建模软件构建人体面部模型。然后，将得到的基础表情素材转为数字模型信息进行存储。

具体的，基础表情素材需要全面，可以扫描面部各种表情，宏表情如喜怒哀乐等常见表情，这里的宏表情如大笑、端庄和沮丧等，同时还需要大量的微表情，比如微笑、浅笑等大量素材。

本实施例中，利用所述身份标签，从所述宏表情库中选择待合成的宏表情数字模型，从所述微表情库中选择待合成的微表情数字模型，从所述口型库中选择待合成的口型数字模型，将选择的所述宏表情数字模型、微表情数字模型和口型数字模型共同生成为合成表情。

具体的，对于一个合成表情，可以选择一组宏表情数字模型、微表情数字模型和口型数字模型进行合成，也可以选择多组宏表情数字模型、微表情数字模型和口型数字模型进行合成。

本实施例中，通过调用微表情库、宏表情库和口型库，可以从宏表情库选取最贴合目标表情的宏表情，以宏表情为基础，再从微表情库当中选取相应类似微表情进行匹配合成。

具体的，所述合成表情的生成方式为：将选择的若干所述宏表情数字模型、微表情数字模型和口型数字模型通过调整骨骼的方式生成为合成表情。所述合成表情的生成方式也可以为：将选择的若干所述宏表情数字模型、微表情数字模型和口型数字模型通过Blendshape模型生成为合成表情。所述合成表情的生成方式还可以为：将选择的若干所述宏表情数字模型、微表情数字模型、口型数字模型通过调整骨骼和Blend shape模型结合的方式生成为合成表情。

本实施例中，从微表情库、宏表情库和口型库当中选择想要合成的多组表情，挑选时尽可能选择可以组合的表情，避免将不匹配的表情进行合成产生搞怪表情，比如大哭和大笑，合成表情可以由多张宏表情和多张微表情组成。

参见图4，具体的，通过本发明方法进行获得合成的表情，变形R的原理是基于偏移量来计算，计算公式如下：

R＝Base+i∑w_iO_i

O_i＝B_i-Base

其中，O_i代表的是表情基相对于自然表情基的顶点偏移量，B_i代表表情基，Base代表自然表情基；i代表参与合成的表情素材编号，w_i代表变形系数。利用坐标轴微调从而得到融合结果，需要先把每个表情基偏移量算出，然后再去组合，从而得到合成的表情结果。

本实施例中，Blend shape(混合形状)是单个网格变形以实现许多预定义形状和任何数量之间组合的技术，在Maya/3D MAX中称为变形目标，例如单个网格是默认形状的基本形状(例如无表情的面)，并且基本形状的其他形状用于混合/变形，是不同的表达(笑、皱眉、闭合眼皮)，这些被统称为混合形状或变形目标。

本实施例中，骨骼调节可以利用3D骨骼蒙皮技术，对于虚拟数字人物，角色的表皮都是由许多网格组成的虚拟皮肤，骨骼也是按照一定的层次组织起来的，骨骼层次可以将骨架表现出来。骨骼和骨骼之间，通过关节的连接完成一系列的运动。利用3D骨骼蒙皮技术可以调整骨骼之间的相对距离和角度，完成动画表情的不同实现形式。骨骼会影响皮肤上的顶点，有时只有一块，有时甚至是多块。从而在外表上，看起来像肌肉运动。这些都是由骨骼和顶点之间的物理、几何关系决定的。为了使其能够自然运转，每个骨骼都会有两个相关的变化点，在皮肤外面有一个物体代替控制器。当移动物体控制器时，每个骨骼在骨架空间的摆放状况、位移和旋转矩阵都会随之变化。

综上所述，本发明通过获取基础表情素材，将基础表情素材转换为表情数字模型进行存储；将表情数字模型进行分类，获得分类表情模型库；分类表情模型库包括微表情库、宏表情库和口型库，通过分类表情模型库存储基础表情素材的身份标签；利用身份标签，从分类表情模型库中选择待合成的表情数字模型，将选择的表情数字模型生成为合成表情。本发明理论上能够无限生成各种组合的面部表情，大大简化了人像的表情生产力，可以广泛应用于虚拟数字人、智能机器人、聊天机器人、情感机器人等场景，使这类虚拟人物具备了更加拟人的真实情感，大大增加了用户的交互体验。

实施例2

参见图5，本发明还提供一种基于虚拟数字人的多模态无限表情合成装置，包括：

表情素材获取模块1，用于获取基础表情素材，将所述基础表情素材转换为表情数字模型进行存储；

表情模型分类模块2，用于将所述表情数字模型进行分类，获得分类表情模型库；所述分类表情模型库包括微表情库、宏表情库和口型库，通过所述分类表情模型库存储所述基础表情素材的身份标签；

合成表情生成模块3，用于利用所述身份标签，从所述分类表情模型库中选择待合成的表情数字模型，将选择的表情数字模型生成为合成表情。

本实施例中，所述表情素材获取模块1获取基础表情素材的方式包括：对目标基础表情素材进行采集或扫描，或通过三维建模软件构建目标表情数字模型。

本实施例中，所述合成表情生成模块3中，利用所述身份标签，从所述宏表情库中选择待合成的宏表情数字模型，从所述微表情库中选择待合成的微表情数字模型，从所述口型库中选择待合成的口型数字模型，将选择的所述宏表情数字模型、微表情数字模型和口型数字模型共同生成为合成表情。

本实施例中，所述合成表情生成模块3中的合成表情生成方式包括：

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请实施例1中的方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

实施例3

本发明实施例3提供一种非暂态计算机可读存储介质，所述计算机可读存储介质中存储有基于虚拟数字人的多模态无限表情合成方法的程序代码，所述程序代码包括用于执行实施例1或其任意可能实现方式的基于虚拟数字人的多模态无限表情合成方法的指令。

计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。

实施例4

本发明实施例4提供一种电子设备，包括：存储器和处理器；

所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的基于虚拟数字人的多模态无限表情合成方法。

具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于虚拟数字人的多模态无限表情合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于虚拟数字人的多模态无限表情合成方法，其特征在于，所述获取基础表情素材的方式包括：对目标基础表情素材进行采集或扫描，或通过三维建模软件构建目标表情数字模型。

3.根据权利要求1所述的基于虚拟数字人的多模态无限表情合成方法，其特征在于，利用所述身份标签，从所述宏表情库中选择待合成的宏表情数字模型，从所述微表情库中选择待合成的微表情数字模型，从所述口型库中选择待合成的口型数字模型，将选择的所述宏表情数字模型、微表情数字模型和口型数字模型共同生成为合成表情。

4.根据权利要求3所述的基于虚拟数字人的多模态无限表情合成方法，其特征在于，所述合成表情的生成方式为：将选择的若干所述宏表情数字模型、微表情数字模型和口型数字模型通过调整骨骼的方式生成为合成表情。

5.根据权利要求3所述的基于虚拟数字人的多模态无限表情合成方法，其特征在于，所述合成表情的生成方式为：将选择的若干所述宏表情数字模型、微表情数字模型和口型数字模型通过Blend shape模型生成为合成表情。

6.根据权利要求3所述的基于虚拟数字人的多模态无限表情合成方法，其特征在于，所述合成表情的生成方式为：将选择的若干所述宏表情数字模型、微表情数字模型、口型数字模型通过调整骨骼和Blend shape模型结合的方式生成为合成表情。

7.基于虚拟数字人的多模态无限表情合成装置，其特征在于，包括：

8.根据权利要求7所述的基于虚拟数字人的多模态无限表情合成装置，其特征在于，所述表情素材获取模块获取基础表情素材的方式包括：对目标基础表情素材进行采集或扫描，或通过三维建模软件构建目标表情数字模型。

9.根据权利要求7所述的基于虚拟数字人的多模态无限表情合成装置，其特征在于，所述合成表情生成模块中，利用所述身份标签，从所述宏表情库中选择待合成的宏表情数字模型，从所述微表情库中选择待合成的微表情数字模型，从所述口型库中选择待合成的口型数字模型，将选择的所述宏表情数字模型、微表情数字模型和口型数字模型共同生成为合成表情。

10.根据权利要求9所述的基于虚拟数字人的多模态无限表情合成装置，其特征在于，所述合成表情生成模块中的合成表情生成方式包括：