CN117351535A

CN117351535A - 文本驱动的数字人真实感表情生成方法、设备及存储介质

Info

Publication number: CN117351535A
Application number: CN202311142082.9A
Authority: CN
Inventors: 王志斌; 郭松睿; 高春鸣
Original assignee: Hunan Malanshan Computing Media Research Institute
Current assignee: Hunan Malanshan Computing Media Research Institute
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2024-01-05

Abstract

本发明公开了文本驱动的数字人真实感表情生成方法、设备及存储介质，包括由摄像头，麦克风，数据采集单元和模型训练单元实现，所述摄像头和麦克风分别用于录制视频数据和音频数据，所述数据采集单元用于采集视频数据和音频数据，所述模型训练单元用于通过数据样本使其自动学习和调整算法模型的过程，所述摄像头和麦克风与数据采集单元通信连接，所述数据采集单元和模型训练单元通信连接。本发明所述的文本驱动的数字人真实感表情生成方法、设备及存储介质，相较于现有技术，本发明提出了一种数字人真实感表情生成的方法，可以让数字人根据文本生成真实的表情动作，使得数字人更加灵动，更加像一个真实存在的人。

Description

文本驱动的数字人真实感表情生成方法、设备及存储介质

技术领域

本发明涉及数字人驱动领域，具体涉及文本驱动的数字人真实感表情生成方法、设备及存储介质。

背景技术

随着技术的发展，计算机已经成为生活中必不可少的一部分，人类随时随地都会有喜怒哀乐等情感的起伏变化，如何使数字人像真实存在的人一样展现出丰富多彩的表情成为了一个研究热点，科学家们通过赋予计算机系统类似于人类的观察、识别、理解、表达以及生成各类情感表现的能力，从而令计算机系统具备更高、更全面的智能，能使其如同人类般进行自然、生动且亲切地交流与互动，在很多场景中真实感表情生成是很有必要的，比如在手语翻译的过程中，数字人如果可以准确的展现出文本中所体现的情感，那么会极大的提供聋人对于手语的可懂度，带来更好的服务，让人机交互更加自然，顺畅，有温度；

表情生成主要包括情感识别和表情生成两个步骤，随着深度神经网络在语音识别、图像识别、文本语义理解领域取得的巨大成功，深度神经网路在情感计算领域也得到了应用和发展，并取得了不错的效果，但是，目前情感识别的大多是基于句子级别，算法判断完整个句子的情感倾向后，数字人在阅读整个句子时使用同一情感表达，造成与用户交互时生硬、不和谐的感觉；

人类的表情并不是单一的一个状态，是由一组连续的状态曲线构成，比如开心表情会由嘴角上翘到咧嘴笑等一系列状态构成，因此整句的情感标签很难指导数字人产生自然、连贯的表情，但是如何有效地进行生成连续的表情状态曲线任然是具有挑战性的问题，因此我们提出了一种文本驱动的数字人真实感表情生成方法，该方法通过阅读文本的视频中的提取出姿态数据与音频数据，对姿态数据进行情感和强度分类后与音频数据对应为文本对齐，训练文本生成离散情感状态曲线的模型，最后使用插值算法补齐完整情感状态曲线，从而生成自然流畅的数字人表情。

发明内容

本发明的主要目的在于提供文本驱动的数字人真实感表情生成方法、设备及存储介质，可以有效解决背景技术中技术问题。

为实现上述目的，本发明采取的技术方案为：

文本驱动的数字人真实感表情生成方法，包括由摄像头，麦克风，数据采集单元和模型训练单元实现，所述摄像头和麦克风分别用于录制视频数据和音频数据，所述数据采集单元用于采集视频数据和音频数据，所述模型训练单元用于通过数据样本使其自动学习和调整算法模型的过程，所述摄像头和麦克风与数据采集单元通信连接，所述数据采集单元和模型训练单元通信连接，该方法具体包括如下步骤：

S1：表情姿态及强度分类模型训练，录制人物各个表情的视频，使用OpenPose提取人脸姿态估计数据，并训练模型；

S2：数据准备，采集人物读文本时的表情视频与音频，通过表情姿态及强度分类模型与语音识别模型将数据对齐；

S3：表情生成，将对齐数据处理成模型所需格式，训练文本驱动的数字人真实感表情生成模型，然后使用插值算法生成表情。

作为本发明的进一步方案，所述S1中，人脸姿态特征提取方法包括如下步骤：

S11：录制大量人物各个表情的视频，使用OpenPose工具提取视频中的人脸姿态估计数据；

S12：对S11中人脸姿态估计数据进行标注，标注姿态估计数据所属情感类别以及情感强度类别；

S13：对S12中标注的姿态估计数据进行预处理，包括数据填充填充、裁剪操作，最后形成长度相同的姿态估计数据；

S14：采用双向LSTM神经网络对S13中的姿态估计数据进行训练，生成一个能对每一帧姿态估计数据进行情感及强度分类的模型。

作为本发明的进一步方案，所述S2中，数据准备方法包括如下步骤：

S21；采集大量人物读取文本是的视频以及音频，将录制过程中存在缺陷的数据进行删除；

S22：对S21中的视频数据，使用OpenPose工具提取视频中的人脸姿态估计数据，并用S1中训练出的表情姿态及强度分类模型对人脸姿态估计数据进行分类，获取各个时间戳的表情类别与表情强度；

S23：对S21中的音频数据，使用语音识别算法获取音频中每个字的时间戳；

S24：对S23和S22中获取的数据，使用时间戳将两个数据进行对齐，最后获取到的数据格式为文本中每个字都会对应情感类别与强度。

作为本发明的进一步方案，所述S3中，表情生成模型训练方法包括如下步骤：

S31：对S2中获取的数据进行预处理，包括在文本的开头和结尾分别添加“[CLS]”和“[SEP]”标签，并对文本进行补齐与删减；

S32：使用预训练模型BERT提出文本的语义信息，采用每个token位置的向量作为文本的语义特征向量，并对其情感类别和强度进行分类训练，获得表情生成模型；

S33：对S32中训练出来的模型，当新的文本出现时，模型可对文本中每个字的情感及其强度进行分类，对文本使用TTS算法可获得每个字的时间戳及其音频，对每个字之间的情感强度使用插值算法可以获得一个完整的表情动作曲线，配合音频可以做到数字人在说话时自然展示表情动作。

在本申请的一种示例性实施例中，所述模型数据集可通过文本情感数据集搭配个人即兴发挥的方式通过摄像头与麦克风进行捕捉，然后通过数据增强方案对采集数据进行扩充，减少标注成本。

在本申请的一种示例性实施例中，所述数据增强方案，具体包括：将无情感标签的下样本的音频文本进行替换；将所有样本中含有强烈情感且情感色彩相同的文本进行替换；将相同标签下样本情感词相关人脸进行替换。

在本申请的一种示例性实施例中，所述识别方法的模型结构包括：LSTM神经网络、BERT神经网络层、全连接神经网络层；所述注意力神经网络层与全连接神经网络层连接。通过LSTM神经网络层对文本情感进行标注，通过BERT神经网络对文本语义进行理解，然后，然后根据全连接神经网络层得出字符所属情感及强度对应的概率。

第二方面，本发明提供了一种存储一个或多个程序的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面所述的文本驱动的数字人真实感表情生成方法的步骤。

第三方面，本发明提供了提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得计算机执行如第一方面所述的文本驱动的数字人真实感表情生成方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：能够准确自然流畅的生成数字人表情动作。

与现有技术相比，本发明具有如下有益效果：

相较于现有技术，本发明提出了一种数字人真实感表情生成的方法，可以让数字人根据文本生成真实的表情动作，使得数字人更加灵动，更加像一个真实存在的人；

实现了通过在阅读文本的视频中的提取出姿态数据与音频数据，对姿态数据进行情感和强度分类后与音频数据对应为文本对齐，训练文本生成离散情感状态曲线的模型，最后使用插值算法补齐完整情感状态曲线，从而生成自然流畅的数字人表情。

附图说明

图1为本发明实施例提供的一种文本驱动的数字人真实感表情生成方法图；

图2为本发明实施例提供的一种文本驱动的数字人真实感表情生成方法整体流程图；

图3为本发明实施例提供的表情及强度识别模型训练流程图；

图4为本发明实施例提供的数据准备流程图；

图5为本发明实施例提供的音频特征提取流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1和图2所示，本申请实施例提供的文本驱动的数字人真实感表情生成方法，由摄像头，麦克风和情感处理单元实现，所述方法包括：

在一些实施例中，所述文本驱动的数字人真实感表情生成方法，包括：

S11：录制大量人物各个表情的视频，使用OpenPose工具提取视频中的人脸姿态估计数据，获取每秒50个姿态估计数据，形成一个姿态数据流；

在一些实施例中，使用OpenPose提取面部的135个关键点信息，每个视频的最长时间为10秒，即超过10秒的视频会被阶段，因此该步骤每个视频最多产生一个维度为500*135的表情姿态估计数据。

S12：对S11中人脸姿态估计数据进行标注，标注姿态估计数据所属情感类别以及情感强度类别，情感类别与强度类别采用联合标签的方式进行标注；

在一些实施例中，每135个面部关键点数据都会被标注上一个特定的标签，其中情感标签包括：喜、怒、哀、乐、悲、惧、无表情，情感强度分为10个级别，每组面部关键点数据都会被标注上一个联合标签，如“喜-5”表示喜悦表情，强度为5级，最终每个视频生成的表情姿态估计都会标记上合适的标签，标签长度与表情姿态估计数据的第一个维度相同。

S13：对S12中标注的姿态估计数据进行预处理，首先获取所有数据长度的九分位点作为最终数据的长度，对于长度低于最终数据长度的数据，填充一个无意义的特殊符号“[PAD]”，对应的情感标签也记为“无情感”，最终在训练时不计入损失函数；对于长度高于最终数据长度的数据，将其末尾的数据进行裁剪，对应的标签数据同样进行裁剪，最后形成长度一致的带情感标签的姿态估计数据；

在一些实施例中，最终数据的长度为300。

在一些实施例中，LSTM的隐藏层维度为512，输入维度为135，输出维度为70，为情感标签的数量，循环长度为300。模型训练损失函数使用的是交叉熵函数，优化器使用的Adam。最终模型取每个位置LSTM模型输出的向量作为各个时间内任务的表情类别及强度。

S21：采集大量人物读取文本是的视频以及音频，人工挑选出录音过程中咔哒声，翻书声，爆音等存在噪音音频；音频波段存在截幅现象音频；录制视频过程中表情不明显的视频等数据，将这些残次数据进行删除；

在一些实施例中，读取的文本以所有标点分号作为分隔符进行切分，每次录制时读取的文本均为一个很短的小句，大多文本不超过20个字，每个视频的录制之间不超过6秒。

S22：对S21中的视频数据，使用OpenPose工具提取视频中的每秒50个人脸姿态估计数据，将数据进行填充、裁剪之后，用S1中训练出的表情姿态及强度分类模型对人脸姿态估计数据进行分类，获得视频中人物每20毫秒的表情类别与表情强度；

在一些实施例中，使用OpenPose工具提取135个面部关键点，送入表情姿态及强度分类模型后，获取模型每个节点的输入向量，计算向量中最大概率的表情及强度标签。

在一些实施例中，语音识别算法采用基于whisper架构的深度学习模型，模型的输入输出维度均为51864，隐藏层维度为384。

S24：对S23和S22中获取的数据，使用时间戳将两个数据进行对齐，若一个字符的持续时间超过20毫秒，则该字符的标签为对应时间段内所有表情列表与表情强度的加权平均和。

在一些实施例中，对齐后的数据最长的文本长度为20。

S31：对S2中获取的数据进行预处理，包括在文本的开头和结尾分别添加“[CLS]”和“[SEP]”标签，并在情感标签的开头和结尾分别加上“无情感”标签，然后对较短文本填充一个无意义的特殊符号“[PAD]”，对应的情感标签也记为“无情感”，最终在训练时不计入损失函数；对于长度高于最终数据长度的数据，将其末尾的数据进行裁剪，对应的标签数据同样进行裁剪，最后形成长度一致的带情感标签的文本数据；

在一些实施例中，添加了开头和结尾标签后，文本数据长度均为22；

S32：使用预训练模型BERT提出文本的语义信息，采用每个token位置的向量作为文本的语义特征向量，在BERT模型的输出端再加上一个多层感知机模型对每个文本的情感类别和强度进行分类训练，获得表情生成模型；

在一些实施例中，BERT模型的隐藏层维度为1024，模型层数为12，输出层维度为768，输入文本长度为22，预训练模型采用谷歌开源的中文预训练BERT模型。

S33：对S32中训练出来的模型，当新的文本出现时，首先在文本的开头和结尾分别添加“[CLS]”和“[SEP]”标签，保证模型的训练数据与测试数据格式一致，然后使用模型可对文本中每个字的情感及其强度进行分类，对文本使用TTS算法可获得每个字的时间戳及其音频，对每个字之间的情感强度使用插值算法可以获得一个完整的表情动作曲线，配合音频可以做到数字人在说话时自然展示表情动作。

在一些实施例中，插值算法使用的是基于优化的规划算法，该算法能保证曲线具有良好的连续性，能生成自然连贯的表情曲线。

在一些实施例中，全连接层的输入维度为768，为BERT模型的输出维度，输出的维度为70，为情感及强度标签的数量，模型训练损失函数使用的是交叉熵函数，优化器使用的Adam。

优选的，本发明实施例还提供一种移动终端，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述手语计算中的语义消歧实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述手语计算中的语义消歧实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述语境词提取，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.文本驱动的数字人真实感表情生成方法，包括由摄像头，麦克风，数据采集单元和模型训练单元实现，其特征在于：所述摄像头和麦克风分别用于录制视频数据和音频数据，所述数据采集单元用于采集视频数据和音频数据，所述模型训练单元用于通过数据样本使其自动学习和调整算法模型的过程，所述摄像头和麦克风与数据采集单元通信连接，所述数据采集单元和模型训练单元通信连接，该方法具体包括如下步骤：

2.根据权利要求1所述的文本驱动的数字人真实感表情生成方法，其特征在于：所述S1中，人脸姿态特征提取方法包括如下步骤：

3.根据权利要求1所述的文本驱动的数字人真实感表情生成方法，其特征在于：所述S2中，数据准备方法包括如下步骤：

4.根据权利要求1所述的文本驱动的数字人真实感表情生成方法，其特征在于：所述S3中，表情生成模型训练方法包括如下步骤：

5.根据权利要求4所述的文本驱动的数字人真实感表情生成方法，其特征在于：所述模型数据集可通过文本情感数据集搭配个人即兴发挥的方式通过摄像头与麦克风进行捕捉，然后通过数据增强方案对采集数据进行扩充。

6.根据权利要求4所述的文本驱动的数字人真实感表情生成方法，其特征在于：所述识别方法的模型结构包括：LSTM神经网络层、BERT神经网络层、全连接神经网络层，所述BERT神经网络层与全连接神经网络层连接。

7.文本驱动的数字人真实感表情生成设备，其特征在于，该设备包括：摄像头、麦克风、存储器、处理器及存储在所述存储器上并可在所述处理器上运行文本驱动的数字人真实感表情生成方法的程序，所述文本驱动的数字人真实感表情生成方法程序配置为实现如权利要求1至6中任一项所述的文本驱动的数字人真实感表情生成方法的步骤。

8.一种文本驱动的数字人真实感表情生成设备存储介质，该储存介质上存储有一种文本驱动的数字人真实感表情生成程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的文本驱动的数字人真实感表情生成方法的步骤。