CN115311731A

CN115311731A - 一种手语数字人的表情生成方法和装置

Info

Publication number: CN115311731A
Application number: CN202211235204.4A
Authority: CN
Inventors: 刘逸颖; 李萌坚; 李融; 陈忠豪
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2022-11-08
Anticipated expiration: 2042-10-10
Also published as: CN115311731B

Abstract

本发明公开了一种手语数字人的表情生成方法和装置，包括以下步骤：步骤S1：将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库；步骤S2：获取手语语句的词目序列和手语语句的情感属性；步骤S3：估计所述音素序列中每个音素的持续时长；步骤S4：得到平滑后的口型混合变形权重序列；步骤S5：生成情感混合变形权重序列；步骤S6：得到混合变形权重；步骤S7：将所述混合变形权重应用到手语数字人人脸模型上，生成手语表情动画。本发明将口型及情感的表情合成应用到手语数字人当中，使得手语数字人更加生动形象，并大大提升手语数字人在听障人群中的可理解性，具有高稳定性、算法复杂度低的优点，能够进行实时运行。

Description

一种手语数字人的表情生成方法和装置

技术领域

本发明涉及一种人工智能技术领域，尤其涉及一种手语数字人的表情生成方法和装置。

背景技术

听障人士是社会的重要组成人群，手语是他们进行交流的工具。随着人工智能技术的发展以及“元宇宙”概念的提出，手语数字人技术也成为研究热点，它能够帮助听障人士的生活变得更加便利。手语作为一种视觉语言，依靠肢体动作和面部表情来传达信息。这其中，面部表情对于听障人士理解信息是非常重要的，但现有的解决方案往往没有做到自然的呈现效果，导致数字人的可理解度不高。因此如何产生更加生动的表情以及口型对于提升手语数字人交互能力是至关重要的。

目前市面上已有不少的手语数字人解决方案，如中国工商银行股份有限公司申请的发明专利“基于手语识别与合成的信息交互方法和装置”（CN202110519861.0）用以提升聋哑人与3D数字人的交互，但是它们仅考虑手势运动，而面部表情呆板不自然，降低了手语的可理解性和认知度，无法提供一个友好的用户体验。百度、华为等企业的手语数字人虽然也考虑了口型的生成，但未与情感结合，因此表情呈现上较生硬。

为此，我们提出一种手语数字人的表情生成方法和装置以解决上述技术问题。

发明内容

本发明为了解决上述技术问题，提供一种手语数字人的表情生成方法和装置。

本发明采用的技术方案如下：

一种手语数字人的表情生成方法，包括以下步骤：

步骤S1：构建手语数字人的面部混合变形，获取口型对应的口型混合变形权重和情感对应的情感混合变形权重，并将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库；

步骤S2：获取手语语句的词目序列和手语语句的情感属性；

步骤S3：将所述词目序列中的每个词目转换为音素序列，并利用音素时长预测器估计所述音素序列中每个音素的持续时长；

步骤S4：根据表情数据库将所述音素序列映射为口型混合变形权重，并根据每个音素的持续时长获取口型混合变形权重序列，利用卷积平滑对所述口型混合变形权重序列进行处理，得到平滑后的口型混合变形权重序列；

步骤S5：从所述表情数据库中获取所述情感属性对应的情感混合变形权重，并将对应的情感混合变形权重在时间维度上进行序列化，生成情感混合变形权重序列；

步骤S6：将所述口型混合变形权重序列与所述情感混合变形权重序列进行融合，得到混合变形权重；

步骤S7：将所述混合变形权重应用到手语数字人人脸模型上，生成手语表情动画。

进一步地，所述步骤S1具体包括以下子步骤：

步骤S11：通过动画师手工建模或采集网格形变迁移算法自动生成手语数字人的面部混合变形；

步骤S12：通过设置混合变形权重控制面部形变，生成不同的口型和情感的人脸，获取口型对应的口型混合变形权重和情感对应的情感混合变形权重；

步骤S13：将所有口型对应的口型混合变形权重和所有情感对应的情感混合变形权重构成表情数据库。

进一步地，所述步骤S2中手语语句的情感属性通过文本情感分析技术获取。

进一步地，所述步骤S3具体包括以下子步骤：

步骤S31：通过录制语音并记录文本，使用语音-文本对齐工具进行音素级语音文本对齐，获得语音文本中每个音素的持续时间作为训练数据；

步骤S32：利用所述训练数据训练深度神经网络，并将深度神经网络的输出值作为预测值，利用训练数据为真实值，计算与预测值在对数阈上的均方误差，直至总损失函数不再下降且所述均方误差低于预设阈值，停止训练，获得训练好的深度神经网络；

步骤S33：将所述词目序列中的每个词目转换为音素序列，所述训练好的深度神经网络作为音素时长预测器估计所述音素序列中每个音素的持续时长。

进一步地，所述步骤S4具体包括以下子步骤：

步骤S41：将所述音素序列中每个音素的持续时长与帧率相乘，并对结果进行取整，得到每个音素的持续帧数；

步骤S42：将所述音素序列中的每个音素从所述表情数据库中映射得到对应的口型混合变形权重；

步骤S43：根据每个音素的持续帧数，将每个音素对应的口型混合变形权重进行重复扩展对应帧数，得到口型混合变形权重序列；

步骤S44：在时序上对所述口型混合变形权重序列进行卷积平滑处理，得到平滑后的口型混合变形权重序列。

进一步地，所述步骤S44所述卷积平滑处理为：通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算。

进一步地，所述步骤S5具体包含开始、到达峰值和结束三个阶段，开始阶段为从中性表情到情感表情的过程，结束为从情感表情到中性表情的过程，通过中性表情和情感表情之间的线性插值来获得每个时刻的情感混合变形权重，并将对应的情感混合变形权重在时间维度上进行序列化，生成情感混合变形权重序列。

进一步地，所述步骤S6具体为：

当所述情感混合变形权重序列中的嘴张开表情基混合变形权重为0时，则融合处理的方式为将所述口型混合变形权重序列与所述情感混合变形权重序列直接相加，并将大于1的值设置为1，得到混合变形权重；

反之，则融合处理的方式为以下公式：

式中，

为口型混合变形权重，

将与嘴巴不相关的表情基的权重赋值为0，

为情感混合变形权重，

将与嘴巴相关的表情基的权重赋值为0，

为融合后的混合变形权重。

进一步地，所述步骤S7具体为：通过所述混合变形权重，对表情基进行线性加权，获得手语数字人每一帧的面部模型，生成手语表情动画。

本发明还提供一种手语数字人的表情生成装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述任一项所述的一种手语数字人的表情生成方法。

本发明的有益效果是：

1、本发明将口型及情感的表情合成应用到手语数字人当中，使得手语数字人更加生动形象，并大大提升了手语数字人在听障人群中的可理解性。

2、本发明训练了一个音素时长预测器用于预测词或者语句的每个发音的持续时长，使得口型的合成更加自然，符合说话韵律。此外，使用卷积平滑处理帧间的过渡，也很好的解决协同发音的问题。

3、本发明提出的方法具有高稳定性、算法复杂度低的优点，能够进行实时运行。

附图说明

图1为本发明一种手语数字人的表情生成方法的流程示意图；

图2为本发明实施例的口型及情绪的表情示意图；

图3为本发明实施例的情绪的表情动画的三阶段示意图；

图4为本发明一种手语数字人的表情生成装置的结构示意图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，一种手语数字人的表情生成方法，包括以下步骤：

步骤S2：获取手语语句的词目序列和手语语句的情感属性；

手语语句的情感属性通过文本情感分析技术获取。

步骤S44：在时序上对所述口型混合变形权重序列进行卷积平滑处理，得到平滑后的口型混合变形权重序列；

所述卷积平滑处理为：通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算。

具体包含开始、到达峰值和结束三个阶段，开始阶段为从中性表情到情感表情的过程，结束为从情感表情到中性表情的过程，通过中性表情和情感表情之间的线性插值来获得每个时刻的情感混合变形权重，并将对应的情感混合变形权重在时间维度上进行序列化，生成情感混合变形权重序列。

反之，则融合处理的方式为以下公式：

式中，

为口型混合变形权重，

将与嘴巴不相关的表情基的权重赋值为0，

为情感混合变形权重，

将与嘴巴相关的表情基的权重赋值为0，

为融合后的混合变形权重。

步骤S7：将所述混合变形权重应用到手语数字人人脸模型上，生成手语表情动画；

通过所述混合变形权重，对表情基进行线性加权，获得手语数字人每一帧的面部模型，生成手语表情动画。

实施例：一种手语数字人的表情生成方法，包括以下步骤：

混合变形是3D动画中常用的一种表情驱动方式，它包含了一组表情基，这种表情基通常基于面部动作编码系统的（FACS）定义。在本实施例中，数字人的人脸混合变形由美术师通过Maya软件手工建模完成，由于ARKit的混合变形模型在业界有着广泛的应用，因此本实施例选择使用苹果ARKit定义的52个表情基。可选地，还可以使用算法如（Example-Based Facial Rigging）自动化的生成数字人的混合变形。

通过对混合变形的表情基线性加权可以合成新的表情，公式如下：

其中，

为中性表情，

（

）不同的面部动作，n为表情基的数量，

为第i个表情基的混合变形权重，F为合成的新的表情。

本实施例针对中文将音素划分为14个分组，一个音素组的音素都对应了相同或相近的口型。通过使用了面部动作捕捉技术，在演员表演相应口型的情况下，获取了52个表情基的混合变形权重，通过混合变形权重加权得到相应口型的表情关键帧。同样的，同理获得了6个基本表情关键帧，包括：高兴、悲伤、恐惧、愤怒、吃惊和厌恶。如图2所示为本实施例的14个音素组和6个基本表情，其中；（1）为音素a,ia,ang,iang,ai对应的表情；（2）为音素o,ou,ong,iong对应的表情；（3）为音素d,t,l对应的表情；（4）为音素g,k,h对应的表情；（5）为音素b,p,m对应的表情；（6）为音素e,ei,en,eng,ie对应的表情；（7）为音素zh,ch,sh,r对应的表情；（8）为音素u,w,v,un,ui,对应的表情；（9）为音素n,in,ing对应的表情；（10）为音素z,c,s,i,j,q,x,y对应的表情；（11）为音素f对应的表情；（12）为音素er对应的表情；（13）为音素an,ian对应的表情；（14）为音素ao,iao对应的表情；（15）为高兴对应的表情；（16）为悲伤对应的表情；（17）为恐惧对应的表情；（18）为愤怒对应的表情；（19）为吃惊对应的表情；（20）为厌恶对应的表情。

可选地，可以将音素进行更细致的划分，以达到更高的精度需求。同时，针对不同的语言，由于发音的差异，涵盖的音素不同，需要的口型的数量也不同，例如，对于英文可以将音素划分为21个分组。可选地，根据需求，可以生成更多的表情，如基于上述6个基本表情的组合得到的复合表情：如惊喜（高兴＋吃惊）、悲愤（悲伤＋愤怒）。可选地，口型和表情的关键帧也可由美工对52个表情基混合变形权重进行手动的调整得到。

步骤S2：获取手语语句的词目序列和手语语句的情感属性；

手语语句的情感属性通过文本情感分析技术获取，手语数字人能够使数字人根据语境的不同，获得不同的情感表达。

手语语句与正常的说话的语序存在差异，手语的词目为手语语句划分的最小单元。手语数字人首先需要将输入的语句翻译为听障人士能够理解的语句，进而进行手语动作和面部表情的生成，这可以通过NLP技术实现。词目的持续时长是为了将面部动作和肢体动作进行同步。本实施例中，通过读取手语动作库中词目对应的肢体动作的持续时长作为词目的持续时长。

本实施例中，音素时长预测器由1个Embedding层，2个的ReLU激活的一维卷积层和1个全连接层组成，Embedding层对输入的序列化后的音素序列进行编码，每个卷积层之后是归一化层和dropout层，全连接层来将隐藏状态投影到输出序列中。可选地，还可以使用Transformer、LSTM等网络结构来构建音素时长预测器。

音素时长预测器的训练数据利用了开源语音-文本对齐系统Montreal ForcedAligner (MFA)生成。虽然唇语是不发声的，但其口型的韵律和说话时大致相同的。因此，本发明通过输入文本及对应的语音，来获得音素级的持续时间序列。进一步地，通过将音素时长乘以一个尺度系数，可以很轻松的控制口型的运动速度。

为了使网络的训练更加稳定，音素时长预测器输出的是时间的对数域的值，并计算了对数域上预测值与真实值的均方误差。

步骤S33：将所述词目序列中的每个词目转换为音素序列，所述训练好的深度神经网络作为音素时长预测器估计所述音素序列中每个音素的持续时长；

输入长度为k的音素序列P=[p1,p2,..,pk]，输出预测的时长序列D=[d1,d2,…,dk]；在预测过程中，可以根据需求对时长序列乘以一个系数，以达到加速或放慢的效果。

步骤S41：将所述音素序列中每个音素的持续时长与帧率相乘，并对结果进行取整，得到每个音素的持续帧数

；

步骤S42：将所述音素序列中的每个音素p从所述表情数据库中映射得到对应的口型混合变形权重；

其中，

，为通道数n的口型混合变形权重。

步骤S43：根据每个音素的持续帧数

，将每个音素对应的口型混合变形权重进行重复扩展对应帧数，得到大小为m×n的口型混合变形权重序列，其中

，为预测的音素序列的帧数之和；

卷积平滑处理通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算实现。本实施例中，当动画帧率为30fps时，使用的卷积核为k=[0.2,0.25,0.05,0,0.05,0.25,0.2]。

参见图3，具体包含开始、到达峰值和结束三个阶段，开始阶段为从中性表情到情感表情的过程，结束为从情感表情到中性表情的过程，通过中性表情和情感表情之间的线性插值来获得每个时刻的情感混合变形权重，并将对应的情感混合变形权重在时间维度上进行序列化，生成情感混合变形权重序列。

本实施例根据经验，将开始阶段和结束阶段的时长设为0.5s，也即，表情从中性到特定情感的变化过程和从特定情感到中性表情的过程分别持续了0.5s，采用了线性插值的方式，对S1所述的情感混合变形权重进行线性插值，生成获得变化过程中每一帧的情感混合变形权重。

反之，则融合处理的方式为以下公式：

式中，

为口型混合变形权重，

将与嘴巴不相关的表情基的权重赋值为0，

为情感混合变形权重，

将与嘴巴相关的表情基的权重赋值为0，

为融合后的混合变形权重。

与前述一种手语数字人的表情生成方法的实施例相对应，本发明还提供了一种手语数字人的表情生成装置的实施例。

参见图4，本发明实施例提供的一种手语数字人的表情生成装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种手语数字人的表情生成方法。

本发明一种手语数字人的表情生成装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种手语数字人的表情生成装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种手语数字人的表情生成方法，其特征在于，包括以下步骤：

步骤S2：获取手语语句的词目序列和手语语句的情感属性；

2.如权利要求1所述的一种手语数字人的表情生成方法，其特征在于，所述步骤S1具体包括以下子步骤：

3.如权利要求1所述的一种手语数字人的表情生成方法，其特征在于，所述步骤S2中手语语句的情感属性通过文本情感分析技术获取。

4.如权利要求1所述的一种手语数字人的表情生成方法，其特征在于，所述步骤S3具体包括以下子步骤：

5.如权利要求1所述的一种手语数字人的表情生成方法，其特征在于，所述步骤S4具体包括以下子步骤：

6.如权利要求5所述的一种手语数字人的表情生成方法，其特征在于，所述步骤S44所述卷积平滑处理为：通过使用卷积核在口型混合变形权重序列的时序上进行一维卷积计算。

7.如权利要求1所述的一种手语数字人的表情生成方法，其特征在于，所述步骤S5具体包含开始、到达峰值和结束三个阶段，开始阶段为从中性表情到情感表情的过程，结束为从情感表情到中性表情的过程，通过中性表情和情感表情之间的线性插值来获得每个时刻的情感混合变形权重，并将对应的情感混合变形权重在时间维度上进行序列化，生成情感混合变形权重序列。

8.如权利要求1所述的一种手语数字人的表情生成方法，其特征在于，所述步骤S6具体为：

反之，则融合处理的方式为以下公式：

式中，

为口型混合变形权重，

将与嘴巴不相关的表情基的权重赋值为0，

为情感混合变形权重，

将与嘴巴相关的表情基的权重赋值为0，

为融合后的混合变形权重。

9.如权利要求1所述的一种手语数字人的表情生成方法，其特征在于，所述步骤S7具体为：通过所述混合变形权重，对表情基进行线性加权，获得手语数字人每一帧的面部模型，生成手语表情动画。

10.一种手语数字人的表情生成装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-9中任一项所述的一种手语数字人的表情生成方法。