CN115330911A

CN115330911A - 一种利用音频驱动拟态表情的方法与系统

Info

Publication number: CN115330911A
Application number: CN202210951083.7A
Authority: CN
Inventors: 李博韧; 刘航欣
Original assignee: Beijing General Artificial Intelligence Research Institute
Current assignee: Beijing General Artificial Intelligence Research Institute
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-11

Abstract

本发明涉及一种利用音频驱动拟态表情的方法与系统，其包括以下步骤：将任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh输入预先构建的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画；基于得到的表情动画，采用重定向技术泛化到任意采用同一表情基标准的任意角色。本发明利用深度神经网络，基于情感模型对三维说话人脸表情生成进行监督训练，三维说话人可在完成对口型的同时，由情感模型可控生成三维说话人脸表情。本发明可以广泛应用于语音视觉多模态交互技术领域。

Description

一种利用音频驱动拟态表情的方法与系统

技术领域

本发明涉及一种利用音频驱动拟态表情的方法与系统，属于语音视觉多模态交互技术领域。

背景技术

基于语音的自然交互已经在家居、车载等领域广泛应用，被认为是下一代信息分发入口，是近年来各大科技巨头角逐的焦点。

如图1所示，由于纯语音交互缺乏信息呈现的丰富度，因此与屏幕结合成为必然趋势。将所有“AI灵魂”具象化的虚拟人，结合相应的信息展示“道具”，利用屏幕进行自然交互，被认为是一种最可能的人机交互终局形态，即：由当前的人与机器的交互演化为人与人的交互模式。而作为不可或缺的关键，由文本(即所需表达的内容)到虚拟人的表情呈现，是达成人机交互终局形态的基础之一。随着由文本生成语音(Text-To-Speech，TTS)技术的成熟，目前亟需解决的问题是如何由语音自动生成虚拟人表情。

传统的语音驱动三维说话人拟态技术只解决了对口型问题，却未考虑情感可控，主要原因有二：

1)语音驱动三维说话人拟态的任意语言对口型技术尚未成熟，因此其进阶版，也即带情绪的人脸表情生成更无从谈起；

2)缺乏不同情绪下三维说话人的3D数据用作训练。

发明内容

针对上述问题，本发明的目的是提供一种利用音频驱动拟态表情的方法与系统，可以在解决口型问题的基础上，同时完成按照指定情绪的三维人脸表情呈现，实现生动人脸动画的可控生成。

为实现上述目的，本发明采取以下技术方案：

第一方面，本发明提供一种利用音频驱动拟态表情的方法，其包括以下步骤：

将任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh输入预先构建的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画；

基于得到的表情动画，采用重定向技术泛化到任意采用同一表情基标准的角色。

进一步，所述将任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh输入预先构建的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画的方法，包括：

基于2D视频的3D表情捕捉技术获取离线训练数据，对构建的表情生成深度神经网络进行训练；

对输入的任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh进行编码后，输入到训练好的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画。

进一步，所述基于2D视频的3D表情捕捉技术获取离线训练数据，对构建的表情生成深度神经网络进行训练的方法，包括：

从2D视频中获取以三维可变形模型所表示的人脸脸型基系数与每帧表情基的系数；

从2D视频中获取每帧图像中目标人物的情感参数；

基于得到的人脸脸型基系数与每帧表情基的系数、目标人物的情感参数，对构建的表情生成深度神经网络进行训练。

进一步，所述从2D视频中获取以三维可变形模型所表示的人脸脸型基系数与每帧表情基的系数的方法，包括：

将2D视频数据结构化为3D音视频数据；其中，3D音视频数据包括音频，3D人脸表情以及所处情绪；

基于得到的3D音视频数据，获取以三维可变形模型所表示的人脸脸型基系数与每帧表情基的系数。

进一步，所述从2D视频中获取每帧图像中目标人物的情感参数时，采用典型情绪模型或正负性-唤醒度情绪模型；

所述典型情绪模型的输入为人脸表情2D图像，输出为中性，悲伤，欢快，蔑视，恶心，惊讶，恐惧，愤怒情感类型中的一种，以及该情感类型的情感强度；

所述正负性-唤醒度情绪模型的输入为人脸表情2D图像，输出为正负度与唤醒度。

进一步，所述对输入的任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh进行编码后，输入到训练好的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画的方法，包括：

采用通用语音编码器，将输入的任意语言下的语音序列转换为语音原子表征序列；

将三维说话人脸的中立态mesh转换为所用三维可变形模型的脸型基系数，得到脸型控制向量；

基于指定的三维说话人拟态所需呈现的情绪参数，按照预设映射方式，得到情感控制向量；

将语音原子表征序列、脸型控制向量和情感控制向量，输入到表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画。

进一步，所述采用通用语音编码器，将输入的任意语言下的语音序列转换为语音原子表征序列的方法，包括：

将输入的任意语言的语音序列，分割为若干长度为20ms的语音片段；

对每一语音片段进行编码，得到对应于该语音片段的语音原子表征，从而将该语音序列编码为语音原子表征序列。

进一步，所述表情生成深度神经网络包括编码器单元、解码器单元以及模型输出单元；所述编码器单元用于将输入的语音原子表征序列、脸型控制向量和情感控制向量转化为表情基的系数；所述解码器单元包含表情基本身，用于将所述表情基系数与表情基相乘，得到表情变化；所述模型输出单元用于将得到的表情变化与给定的三维说话人脸mesh相加，得到与语音序列和指定情绪相符合的逐帧三维说话人表情动画。

进一步，所述编码器单元包括时序融合层、第一全连接层、归一化网络层以及第二全连接层；所述时序融合层的输入是窗口化的语音原子表征序列所组成的矩阵以及条件向量，经所述第一全连接层后得到表情基系数；所述归一化网络层用于将编码得到的表情基系数归一化，并经第二全连接层输出。

第二方面，本发明提供一种利用音频驱动拟态表情的系统，其包括：

3D人脸表情生成模块，用于将任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh输入预先构建的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画；

重定向模块，用于基于得到的表情动画，采用重定向技术泛化到任意采用同一表情基标准的角色。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明利用表情生成深度神经网络，基于情感模型对三维说话人脸表情生成进行监督训练，在完成对口型的同时，由情感模型可控生成三维说话人脸表情。神经网络的设计符合重定向(retarget)标准，使之可泛化至任意角色。

2、为进一步改进任意语言对口型问题，本发明首先采用基于大规模语音数据的自监督预训练方式，训练多语语音原子表征(atomic speech representation)。基于此原子表征的泛化能力，进而在语音与3D人脸配对数据集上进行三维说话人脸表情生成的微调训练。相比传统基于音素(或字符)的生成，本生成方式真正做到多语，因为音素或字符只针对特定语言或语系有效。

3、为解决缺乏不同情绪下说话人的3D数据问题，本发明采用基于2D视频的情绪提取技术与3D表情捕捉技术，将2D视频中的说话人情绪与3D表情进行自动抽取与分类，对大规模2D人脸说话数据进行结构化，用作本任务的训练。

因此，本发明可以广泛应用于语音视觉多模态交互技术领域。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在整个附图中，用相同的附图标记表示相同的部件。在附图中：

图1是语音交互的发展背景图；

图2是本发明实施例提供的利用音频驱动拟态表情的方法的思路图；

图3是本发明实施例提供的利用音频驱动拟态表情的方法流程图；

图4是本发明实施例提供的从2D视频中提取3D表情的采集效果图；

图5是本发明实施例提供的基于人脸表情2D图像得到情绪抽取结果示意图；

图6a和图6b分别是本发明实施例提供的正负性—唤醒度(Valence-arousal)model图及其提取效果图；

图7是本发明实施例提供的利用音频驱动拟态表情的方法的整体框架图；

图8是本发明实施例提供的虚拟人语音驱动初步效果展示示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图2所示，本发明的核心主题是音频驱动拟态，其是一种描述语音与可控情感驱动下的三维说话人表情动画生成技术。本发明的主要研究内容是如何通过情感语音与时变情感状态函数，生成3D人脸表情拟态(也即粗模动画阶段)，进而通过重定向(retarget)技术，将3D人脸表情拟态泛化到任意动画角色(也即超逼真虚拟人动画阶段)。其中，情感语音基于TTS技术对时变情感状态函数和内容文本合成得到，而时变情感状态函数和内容文本则基于情感状态生成和对话内容生成得到，该技术为本领域技术人员公知技术，本发明对此不做过多解释。本发明提出的方案可使表情随人的情感变化而动，并可支持多种语言下的生成。

与之相对应地，本发明的另一些实施例中，提供一种利用音频驱动拟态表情的系统。

实施例1

如图3所示，本实施例提供一种利用音频驱动拟态表情的方法，其研究内容为其中，包括以下步骤：

1)将任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态(zero-pose)mesh输入预先构建的表情生成深度神经网络(articulationnetwork)中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画，即三维mesh序列。

2)基于得到的表情动画，采用重定向技术泛化到任意采用同一表情基标准的任意角色。

优选地，上述步骤1)可以通过以下方式实现：

1.1)离线训练数据获取：基于2D视频的3D表情捕捉技术获取离线训练数据，对构建的表情生成深度神经网络进行训练；

1.2)在线动画生成：对输入的任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh进行编码后，输入到训练好的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画。

优选地，上述步骤1.1)可以通过以下方式实现：

1.1.1)从2D视频中获取以三维可变形模型(3D Morphable Model(3DMM))所表示的人脸脸型基系数与每帧表情基的系数；

1.1.2)采用情感计算技术，从2D视频中获取每帧图像中目标人物的情感参数；

1.1.3)基于得到的人脸脸型基系数与每帧表情基的系数、目标人物的情感参数，对构建的表情生成深度神经网络进行训练。

优选地，上述步骤1.1.1)中，如图4所示，由于不同情绪下说话人3D数据缺失且难以大规模采集，本实施例基于2D视频的3D表情捕捉技术，从2D视频中获取以三维可变形模型(3D Morphable Model，3DMM)所表示的人脸脸型基系数与每帧表情基的系数。

具体地，可以通过以下步骤实现：

采用基于2D视频的3D表情捕捉技术，将2D音视频数据结构化为3D音视频数据；其中，3D音视频数据包括音频，3D人脸表情以及所处情绪。本实施例中采用3D表情捕捉技术自动从2D视频中进行数据抽取，这套数据采集机制无需标注，可低成本获取数据，为大规模训练提供了基础。

为了完成下游retarget任务，本发明中表情基在训练过程中冻结，表情基可采用如arkit标准进行预设，也可以适配各种不同类型的表情基。

优选地，上述3D表情捕捉技术为DECA(Detailed Expression Capture andAnimation，详细的表情捕捉和动画技术)。

优选地，上述三维可变形模型也可以根据实际需要选择其他统计人脸模型，如Basel face model(BFM)等。

优选地，上述步骤1.1.2)中，本实施例采用的情感计算技术，包括两种主流情感模型，即：典型情绪模型(prototypical emotion model)和正负性-唤醒度情绪模型(valence-arousal model)。典型情绪模型主要对应情感类型+情感强度，正负性-唤醒度情绪模型主要对应正负度(正面情感还是负面情感)以及唤醒度(离neutral的距离)。二者都是将情感划分为两个维度，且典型情绪模型是离散模型，而正负性-唤醒度情绪模型是连续模型。

如图5所示，对于离散的典型情绪模型参数的提取，本实施例采用深度神经网络表情识别方法，对数据源进行训练，该模型的输入为人脸表情2D图像，输出为中性(neutral)，悲伤(sad)，欢快(happy)，蔑视(contempt)，恶心(disgusted)，惊讶(surprised)，恐惧(fear)，愤怒(angry)等情感类型中的一种，并根据置信度区间，给出情感强度(weak，medium,strong)。

如图6a和图6b所示，对于连续的正负性-唤醒度情绪模型，本实施例采用深度学习方法提取valence(正负性)与arousal(唤醒度)值。该模型的输入为人脸表情2D图像，输出为valence值与arousal值，此二值可与离散的典型情绪模型的参数值对应。

具体地，本实施例中，典型情绪模型包含7*3+1＝22种情感类别，(happy*3+sad*3+…+angry*3+neutral＝22)。这22种情感，可由一个11维独热向量(one-hot vector)所编码，其中前3维表示三个情感强度，后8维表示情感类型。例如，可定义[1,0,0,1,0,0,0,0,0,0,0]向量表示happy+strong，其中第一个1表示strong，而第4个1表示happy。Valence-arousal model则为上图中，任何单位圆之内的值均可。

优选地，上述步骤1.1.3)中，如图7所示，本实施例构建的表情生成深度神经网络采用Encoder-Decoder(编码器-解码器)结构，其包括编码器单元、解码器单元以及模型输出单元。其中，编码器单元用于将输入的语音原子表征序列、条件向量转化为表情基的系数；解码器单元包含表情基本身，用于将表情基系数与表情基相乘，得到表情变化，即每个角点的位移(per-vertex displacement)；模型输出单元用于将得到的表情变化与给定的三维说话人的三维mesh模型相加，得到与语音序列和指定情绪相符合的逐帧三维说话人表情动画。

为了完成下游retarget任务，本实施例中表情基在训练过程中冻结，表情基可采用如arkit标准进行预设，本实施例可适配各种不同类型的表情基。

优选地，编码器单元包括时序融合(Temporal Fusion)层、第一全连接(FC)层、tanh网络层以及第二全连接层。其中，时序融合层的输入是窗口化的语音原子表征序列所组成的矩阵以及条件向量，经第一全连接层后得到表情发音嵌入(articulationembedding)，即表情基系数；tanh网络层为归一化层，用于将编码得到的表情基系数归一化到(-1,1)之间，并经第二全连接层输出。其中，语音原子表征序列所组成的矩阵中，中间一帧为当前帧，当前帧与邻近帧一起共同构成了一个语音片段表征，本实施例将其设置为16个音频帧长度，16*20＝320ms。

其中，当采用离散的典型情绪模型时，其输出的情感控制向量包含8种情感+3种情感强度，通过对其进行11维one-hot vector(独热向量)编码，并与脸型控制向量(21维，脸型基的前21个系数，由3D mesh而来)的21维相融合，得到32维输入向量。当采用连续的正负性-唤醒度模型时，其输出的情感控制向量按照2维valence-arousal方式进行连续编码，此2维向量为正负性-唤醒度模型的情感参数，将其与脸型控制向量取外积并展开成一个42x1的向量，用于融合脸型与情感信息。

优选地，时序融合层包括第一残差模块(Resnet Block)模块、第二残差模块、第三残差模块以及第四残差模块，4层残差模块构成深度神经网络，用于实现3个模态数据(脸型+情感+语音)数据的深度融合。

优选地，上述步骤1.2)可以通过以下方式实现：

1.2.1)语音信号编码：采用通用语音编码器(generic speech encoder)，将输入的任意语言下的语音序列转换为语音原子表征(atomic speech representation)序列；

1.2.2)形象信号：利用mesh fitting技术，将三维说话人脸的中立态mesh转换为所用三维可变形模型的脸型基系数，得到脸型控制向量；

1.2.3)情感信号：基于指定的三维说话人拟态所需呈现的情绪参数，按照预设映射方式，得到情感控制向量；

1.2.4)输出信号生成：将语音原子表征序列、脸型控制向量和情感控制向量，输入到表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画。

优选地，上述步骤1.2.1)中，通用语音编码器采用掩码语言模型(masked-language modeling)的自监督预训练方式，训练多语语音原子表征(atomic speechrepresenation)得到。具体地，转换方法包括：

对每一语音片段进行编码，得到对应于该语音片段的高维语音原子表征，进而得到表征该语音序列的语音原子表征序列。

其中，各高维语音原子表征作为码本(codebook)中的一个词，其维度根据实际需要确定，本实施例中，将高维语音原子表征的维度确定为768维。例如，假设输入的语音序列长度为1s，该通用语音编码器对语音序列编码后，将会输出由50个向量构成的语音原子表征序列，其中每个向量的维度均为768x1。

优选地，上述步骤1.2.2)中，由于每一个3D mesh模型，均由3D角点坐标和角点连接所构成的面组成。其中，3D mesh模型中角点及其连接关系，叫做这个3D mesh模型的拓扑结构。本实施例中，拓扑结构不能改变，即：角点个数，角点顺序，与角点的连接关系都不能改变。

每个脸型基可以认为是具有相同拓扑结构的一张3D人脸变形，可以表示为：

式中，S_mod为被表示人脸的角点坐标，S_i为每个脸型基，a_i为脸型基系数。假设任意人脸，可以被m个脸型基所线性表示。通常，第一个脸型基为平均脸，后面的每个脸型基则是相对于平均脸变化的主成分。由a_i所组成的向量，称之为脸型控制向量或脸型形状参数。

优选地，上述步骤2)中，由于本发明中构建的表情生成深度神经网络采用编码器-解码器结构，编码器的输出为表情基系数，因此，本发明可将该表情生成深度神经网络模型泛化到采用同一表情基标准的任意角色，包括但不限于超逼真虚拟人，卡通人物等。

实施例2

上述实施例1提供了利用音频驱动拟态表情的方法，与之相对应地，本实施例提供一种利用音频驱动拟态表情的系统。本实施例提供的系统可以实施实施例1的利用音频驱动拟态表情的方法，该系统可以通过软件、硬件或软硬结合的方式来实现。例如，该系统可以包括集成的或分开的功能模块或功能单元来执行实施例1各方法中的对应步骤。由于本实施例的系统基本相似于方法实施例，所以本实施例描述过程比较简单，相关之处可以参见实施例1的部分说明即可，本实施例提供的系统的实施例仅仅是示意性的。

本实施例提供的一种利用音频驱动拟态表情的系统，包括：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种利用音频驱动拟态表情的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种利用音频驱动拟态表情的方法，其特征在于，所述将任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh输入预先构建的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画的方法，包括：

3.如权利要求2所述的一种利用音频驱动拟态表情的方法，其特征在于，所述基于2D视频的3D表情捕捉技术获取离线训练数据，对构建的表情生成深度神经网络进行训练的方法，包括：

从2D视频中获取每帧图像中目标人物的情感参数；

4.如权利要求3所述的一种利用音频驱动拟态表情的方法，其特征在于，所述从2D视频中获取以三维可变形模型所表示的人脸脸型基系数与每帧表情基的系数的方法，包括：

5.如权利要求3所述的一种利用音频驱动拟态表情的方法，其特征在于，所述从2D视频中获取每帧图像中目标人物的情感参数时，采用典型情绪模型或正负性-唤醒度情绪模型；

6.如权利要求2所述的一种利用音频驱动拟态表情的方法，其特征在于，所述对输入的任意语言下的语音序列、三维说话人拟态所需呈现的指定情绪以及该三维说话人脸的中立态mesh进行编码后，输入到训练好的表情生成深度神经网络中，得到与语音序列和指定情绪相符合的该三维说话人的表情动画的方法，包括：

7.如权利要求6所述的一种利用音频驱动拟态表情的方法，其特征在于，所述采用通用语音编码器，将输入的任意语言下的语音序列转换为语音原子表征序列的方法，包括：

8.如权利要求3所述的一种利用音频驱动拟态表情的方法，其特征在于，所述表情生成深度神经网络包括编码器单元、解码器单元以及模型输出单元；所述编码器单元用于将输入的语音原子表征序列、脸型控制向量和情感控制向量转化为表情基的系数；所述解码器单元包含表情基本身，用于将所述表情基系数与表情基相乘，得到表情变化；所述模型输出单元用于将得到的表情变化与给定的三维说话人脸mesh相加，得到与语音序列和指定情绪相符合的逐帧三维说话人表情动画。

9.如权利要求8所述的一种利用音频驱动拟态表情的方法，其特征在于，所述编码器单元包括时序融合层、第一全连接层、归一化网络层以及第二全连接层；所述时序融合层的输入是窗口化的语音原子表征序列所组成的矩阵以及条件向量，经所述第一全连接层后得到表情基系数；所述归一化网络层用于将编码得到的表情基系数归一化，并经第二全连接层输出。

10.一种利用音频驱动拟态表情的系统，其特征在于，包括：