CN113538636A

CN113538636A - 一种虚拟对象的控制方法、装置、电子设备及介质

Info

Publication number: CN113538636A
Application number: CN202111077811.8A
Authority: CN
Inventors: 官奕聪; 吕欣; 靳聪; 郭越千; 左翼翀; 张子涵; 李晴
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-10-22
Anticipated expiration: 2041-09-15
Also published as: CN113538636B

Abstract

本申请提供了一种虚拟对象的控制方法、装置、电子设备及介质，该方法包括：接收到针对虚拟对象的第一文本信息后，根据文字拼音与发音的第一关联关系，将第一文本信息转换为第一语音数据；根据文字拼音与口型序列的第二关联关系，确定与第一文本信息关联的第一口型数据；预测第一文本信息对应的目标情感，并为目标情感匹配随机变化的面部特征；根据第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系；根据第一同步关系，控制虚拟对象以第一口型数据和面部特征播报第一语音数据；本申请能够让虚拟对象更加形象，并且富有感情。

Description

一种虚拟对象的控制方法、装置、电子设备及介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种虚拟对象的控制方法、装置、电子设备及介质。

背景技术

动画是一种综合艺术，它是集合了绘画、电影、数字媒体、摄影、音乐、文学等众多艺术门类于一身的艺术表现形式。动画中各个数字虚拟人的动态（动作和声音）是其吸引人的重要因素之一。

现有主流的驱动数字虚拟对象方案有动作捕捉和自动生成两大方向。其中，动作捕捉指使用数据采集设备捕捉真人的面部以及肢体动作，将其映射到虚拟对象的面部以及肢体动作上。自动生成指根据语音输入或者文字输入，将输入的信息自动转化为虚拟数字人的动画输出。

现有的驱动方案中，动作捕捉方案需要有特殊的采集设备和特定的场地，且需要真人模拟动作；自动生成方案缺乏情感和表情，导致与受众的共情能力差。

发明内容

有鉴于此，本申请的目的在于提供一种虚拟对象的控制方法、装置、电子设备及介质，能够让虚拟对象更加形象，并且富有感情。

第一方面，本申请实施例提供了一种虚拟对象的控制方法，所述方法包括：

在接收到针对虚拟对象的第一文本信息后，根据文字拼音与发音的第一关联关系，将所述第一文本信息转换为第一语音数据；其中，所述第一文本信息中顺序排列的每个文字依次关联所述第一语音数据在时间序列下的每段语音；

根据文字拼音与口型序列的第二关联关系，确定与所述第一文本信息关联的第一口型数据；其中，每一文字的拼音对应描述该拼音的完整的口型；

预测所述第一文本信息对应的目标情感，并为所述目标情感匹配随机变化的面部特征；

根据所述第一文本信息分别与所述第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下所述第一语音数据和所述第一口型数据、所述面部特征的第一同步关系；

根据所述第一同步关系，控制所述虚拟对象以所述第一口型数据和所述面部特征播报所述第一语音数据。

在本申请较佳的技术方案中，上述文字拼音与口型序列的第二关联关系，通过如下方式确定：

获取第二文本信息和所述第二文本信息对应的朗读视频数据，并从所述朗读视频数据中，同步提取与所述第二文本信息对应的第二语音数据和第二口型数据；

根据所述第二语音数据和所述第二口型数据第二同步关系，确定所述第二语音数据中每个文字拼音的发音与所述第二口型数据中每个口型序列的第三关联关系；

根据所述文字拼音与发音的第一关联关系、发音与口型序列的第三关联关系，确定文字拼音与口型序列的第二关联关系。

在本申请较佳的技术方案中，上述预测所述第一文本信息对应的目标情感，包括：

预测所述第一文本信息中文本情感的极性，计算得到所述第一文本信息对应的情感极性参考值；

预测所述第一文本信息中文本情感的类型，计算得到所述第一文本信息对应的情感类型参考值；

根据所述情感极性参考值和所述情感类型参考值，计算所述第一文本信息的情感综合参考值；

根据所述第一文本信息的情感综合参考值，确定所述第一文本信息对应的目标情感。

在本申请较佳的技术方案中，上述为所述目标情感匹配随机变化的面部特征，包括：

根据所述目标情感匹配的面部数据，生成所述面部数据对应的面部特征；所述面部数据在预设的所述目标情感对应的各个面部通道数据的起始值和最大值之间随机取值；所述面部数据包括多个面部通道数据，不同的面部数据对应不同的面部特征。

在本申请较佳的技术方案中，上述根据所述第一文本信息分别与所述第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下所述第一语音数据和所述第一口型数据、所述面部特征的第一同步关系，包括：

根据预设时间序列，建立所述第一文本信息、所述第一语音数据、所述第一口型数据第二同步关系；

根据预设时间序列和所述第二同步关系，建立所述第一文本信息分别与所述第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下所述第一语音数据和所述第一口型数据、所述面部特征的第一同步关系。

在本申请较佳的技术方案中，上述根据预设时间序列，建立所述第一文本信息、所述第一语音数据、所述第一口型数据第二同步关系，包括：

使用预设时间序列，对第一文本信息中的每个文字分别进行标注，确定所述第一文本信息中每个文字对应的时间段；

将所述第一文本信息中每个文字的文字拼音对应的语音和该语音对应的口型序列，依次对应在所述第一文本信息中该文字对应的时间段。

在本申请较佳的技术方案中，上述根据预设时间序列和所述第二同步关系，建立所述第一文本信息分别与所述第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下所述第一语音数据和所述第一口型数据、所述面部特征的第一同步关系，包括：

将所述面部特征，作用于所述预设时间序列的整体时段上。

第二方面，本申请实施例提供了一种虚拟对象的控制装置，所述装置包括：

转化模块，用于在接收到针对虚拟对象的第一文本信息后，根据文字拼音与发音的第一关联关系，将所述第一文本信息转换为第一语音数据；其中，所述第一文本信息中顺序排列的每个文字依次关联所述第一语音数据在时间序列下的每段语音；

确定模块，用于根据文字拼音与口型序列的第二关联关系，确定与所述第一文本信息关联的第一口型数据；其中，每一文字的拼音对应描述该拼音的完整的口型；

预测模块，用于预测所述第一文本信息对应的目标情感，并为所述目标情感匹配随机变化的面部特征；

建立模块，用于根据所述第一文本信息分别与所述第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下所述第一语音数据和所述第一口型数据、所述面部特征的第一同步关系；

控制模块，用于根据所述第一同步关系，控制所述虚拟对象以所述第一口型数据和所述面部特征播报所述第一语音数据。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的虚拟对象的控制方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的虚拟对象的控制方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请在接收到针对虚拟对象的第一文本信息后，根据文字拼音与发音的第一关联关系，将所述第一文本信息转换为第一语音数据；其中，所述第一文本信息中顺序排列的每个文字依次关联所述第一语音数据在时间序列下的每段语音；然后，根据文字拼音与口型序列的第二关联关系，确定与所述第一文本信息关联的第一口型数据；其中，每一文字的拼音对应描述该拼音的完整的口型；然后，预测所述第一文本信息对应的目标情感，并为所述目标情感匹配随机变化的面部特征；然后，根据所述第一文本信息分别与所述第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下所述第一语音数据和所述第一口型数据、所述面部特征的第一同步关系；然后，根据所述第一同步关系，控制所述虚拟对象以所述第一口型数据和所述面部特征播报所述第一语音数据；本申请能够让虚拟对象更加形象，并且富有感情。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种虚拟对象的控制方法的流程示意图；

图2示出了本申请实施例所提供的一种高兴数据mouthSmileRight通道数值直方图示意图；

图3为本申请实施例提供的一种拼音词典示意图；

图4为本申请实施例提供的一种对齐结果显示示意图；

图5为本申请实施例提供的一种虚拟对象的控制装置示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有主流的驱动数字虚拟人动画方案有动作捕捉和自动生成两大方向。

其中动作捕捉指使用数据采集设备捕捉真人的面部以及肢体动作，将其映射到虚拟数字人物的面部以及肢体动作上。目前主流的方式包括特征点方式和混合变形方式，其中特征点方式指使用摄像机拍摄得到面部图像，根据图像分析面部的特征点，追踪这些特征点的运动，将其对应到虚拟数字人的面部特征点的运动上，得到输出的动画。混合变形模式指根据虚拟数字人的三维模型建立多个典型表情的模型，根据摄像机拍摄到的图像分析得到人脸与这些典型表情的相似度，根据这些数据将虚拟数字人对应的模型按照权重混合得到输出的动画。

现有的动作捕捉技术是目前除传统动画制作以外，呈现效果最精确的方式之一，但是其缺点有：1.需要特殊采集设备，硬件成本以及场地限制较高。2.需要真人进行动作驱动，在内容生产的效率上与传统的真人内容没有较大的提高。

自动生成动画指根据语音输入或者文字输入将输入的信息自动转化为虚拟数字人的面部动画输出。其中语音驱动型动画通常对音频做声学上的分析，对音频特征与动画之间直接构建对应关系。最终根据音频波形输出对应的动画。文字驱动的动画通常使用语音转音频相关技术，将文字对应到不同的音素。然后对根据不同的音素构建典型的面部形态，在输出动画时根据音素的更替将虚拟数字人模型调整为对应的形态。

现有的自动生成动画能够实现高效率的自动内容生产，但是其缺点主要在于：1.口型大多数由若干个关键形态混合而成，大多数的动画是通过插值等方法在关键形态之间计算而得，而非对口型运动的完整还原。因而口型的准确度有限。2.由于缺乏真人面部的驱动，自动生成动画往往没有或者只有简单的面部表情运动。以虚拟数字人为载体表现出的动画常常因为情绪和表情的缺失导致其与受众的共情能力较差。

基于此，本申请实施例提供了一种虚拟对象的控制方法、装置、电子设备及介质，下面通过实施例进行描述。

图1示出了本申请实施例所提供的一种虚拟对象的控制方法的流程示意图，其中，该方法包括步骤S101-S105；具体的：

S101、在接收到针对虚拟对象的第一文本信息后，根据文字拼音与发音的第一关联关系，将第一文本信息转换为第一语音数据；其中，第一文本信息中顺序排列的每个文字依次关联第一语音数据在时间序列下的每段语音；

S102、根据文字拼音与口型序列的第二关联关系，确定与第一文本信息关联的第一口型数据；其中，每一文字的拼音对应描述该拼音的完整的口型；

S103、预测第一文本信息对应的目标情感，并为目标情感匹配随机变化的面部特征；

S104、根据第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系；

S105、根据第一同步关系，控制虚拟对象以第一口型数据和面部特征播报第一语音数据。

本申请为虚拟对象匹配每个文字对应的文字拼音完整的口型数据和丰富的面部特征，使得该虚拟对像更加逼真。

下面对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请将头的前部划分为面部和口部，这里的面部指的是头的前部除去口部的其他部分，包括：脸、鼻子、眼睛、眉毛等。

在本申请中需要采集朗读视频数据，对其进行分析，以便后续中进行使用。本申请的朗读视频数据采集部分采用具有3D结构光功能的iPhone作为采集设备。epic发布的LiveLinkFace应用可以实时收集58个头的前部混合变形通道的数据，该软件可以记录文本的朗读视频（.mov），生成随时间变化的csv文件。

该csv记录的数据为各个混合变形通道的混合权重，其中混合变形通道指特定的面部形态和口部形态，本申请认为通过对58个不同的形态（包括面部形态和口部形态）进行一定权重的混合可以模拟大多数的头的前部运动。因此记录不同的混合变形通道所对应的混合权重就可以记录头的前部运动的过程。

表1：录制文件格式

。

如表1所示，该文件的表头由timecode，BlendshapeCount、以及58个混合变形通道名字（例如eyeBlinkRight、jawRight、cheekPuff、noseSneerLeft、HeadYaw、等）组成。Timecode表示时间码，从上往下表达时间的前后。BlendshapeCount表示混合变形通道的数量。每个混合变形通道的数据对应该混合变形通道的权重。

根据多个说话的样本，该阶段可以形成一定规模的数据集用于后续的处理。

S101、在接收到针对虚拟对象的第一文本信息后，根据文字拼音与发音的第一关联关系，将第一文本信息转换为第一语音数据；其中，第一文本信息中顺序排列的每个文字依次关联第一语音数据在时间序列下的每段语音。

虚拟对象是动画中包含的内容，虚拟对象可以是人物形象，也可以是动物形象等，为了方便叙述，以下以虚拟人物形象为例进行介绍，即动画中包含的内容为一个虚拟人物。本申请为了让虚拟人物能够像真实的人一样能够说话、朗读，为虚拟人物匹配了真实的人说话时每个字的完整的口型和真实的人说话时随机变化的面部表情，使得虚拟人物可以更加逼真。

这里的针对虚拟对象的第一文本信息，即为想要这个虚拟人物想要表述的内容，可以是一句话，也可以是朗读的文章等。文字拼音与发音的第一关联关系为该文字的拼音与发音的对应关系。文字转换为对应的语音为现有技术可以实现的功能，这里不再赘述。

例如，遨游的熬对应语音为áo，翱翔的翱对应的语音也为áo。懊悔的懊的对应语音为ào。

S102、根据文字拼音与口型序列的第二关联关系，确定与第一文本信息关联的第一口型数据；其中，每一文字的拼音对应描述该拼音的完整的口型。

在说话时，不同读音的文字对应有不同的口型，本申请中的口型序列指的是某个文字表述时口型的完整变化。根据文字与口型变化的关系，确定第一文本信息中每个文字对应的完整口型。每个文字对应的完整口型（即本申请中的口型序列）指的是从开口说这个字到说完这个字闭口的完整口型变化。

仅仅看到一个文字的时候，没有该文字对应的语音是无法确定该文字的口型变化的，为了操作方便，本申请建立了文字拼音与口型序列的关系。

本申请中文字拼音与口型序列的第二关联关系，通过如下方式确定：

获取第二文本信息和第二文本信息对应的朗读视频数据，并从朗读视频数据中，同步提取与第二文本信息对应的第二语音数据和第二口型数据；

根据第二语音数据和第二口型数据第二同步关系，确定第二语音数据中每个文字拼音的发音与第二口型数据中每个口型序列的第三关联关系；

根据文字拼音与发音的第一关联关系、发音与口型序列的第三关联关系，确定文字拼音与口型序列的第二关联关系。

通过现有朗读视频数据进行分解，提取音频和图像。根据提取的音频（包括多个文字的发音）和图像（包括多个口型序列），确定出表述某个文字时的语音和该语音对应的口型序列，即可得到该文字对应的口型序列。

音频提取的方法是使用格式转换捕获的视频数据，从视频格式（.mov）文件中提取音频格式（.wav）文件。本申请对音频需要重新采样，以满足后续数据处理的格式要求，本申请中所有音频的统一参数为16kHZ采样率、16位深度和单声道。

第二文本信息对应的朗读视频中包括有同步的第二语音数据和第二口型数据，通过对朗读视频分析可以得到朗读视频中各个发音（音频）与各个口型序列（图像）的对应关系，即可得到发音与口型序列的第三关联关系，再通过文字拼音与发音的第一关联关系，就能确定文字与口型序列的第二关联关系。

S103、预测第一文本信息对应的目标情感，并为目标情感匹配随机变化的面部特征。

为了能够使得虚拟人物更加形象，本申请对虚拟人物要表述内容的情感进行预测，得到表述内容时所需要的目标情感。不同情感时，面部特征的变化随机性很强，所以为了使得虚拟人物与真实人物更加接近，本申请为虚拟人物匹配了目标情感下随机变化的面部特征。

为了使得对于表述内容的情感预测地更加准确，本申请通过如下方式预测第一文本信息对应的目标情感：

预测第一文本信息中文本情感的极性，计算得到第一文本信息对应的情感极性参考值；

预测第一文本信息中文本情感的类型，计算得到第一文本信息对应的情感类型参考值；

根据情感极性参考值和情感类型参考值，计算第一文本信息的情感综合参考值；

根据第一文本信息的情感综合参考值，确定第一文本信息对应的目标情感。

目前，文本情感的语义分析技术在现阶段的自然语言处理技术上主要分两大类，即文本情感的极性分析和文本情感的情感分类。前者将输入的文本分为积极情感、消极情感和无情感三大类，此系统的识别准确率一般可达85%左右，属于较高的识别准确率。后者将输入的文本分为六大类基本情绪，包含了喜欢、高兴、厌恶、愤怒、悲伤、无情绪这六大类基本情绪。

本申请使用了CUC平台提供的自然语言处理技术中的文本情感极性分类功能，此功能设定的参考值范围为[-1，1]，其中正值为正面情绪，负值为负面情绪，0为中性。距离区间两端越近，情感色彩的计算结果越强，能在一定程度上可以表达极性情感的程度。

本申请使用基于LSTM的中文情感识别工具sentiment_analysis，输入的单词能够得到无情绪、快乐、喜欢、悲伤、抑郁、愤怒六种情绪的预测结果，每种情绪的参考值在0-1之间，取最高的参考值作为情感类型参考值。

本申请同时基于CUC平台提供的极性分析接口，获得了高精度的极性分析结果，同时得到情感极性参考值。综合情感极性参考值和上述从情绪种类预测可以得到情感类型参考值。下述公式给出了本申请对于两种预测数据的具体结合方法：

K_m是sentiment_analysis给出的情感类型参考值，K_c是CUC平台给出的情感极性参考值，最终输出参考值为情感综合参考值y。根据情感综合参考值，输出情感为六种情感倾向中相同极性的最高值对应的情感。

本申请在确定了第一文本信息对应的情感之后，为了使得虚拟对象更加逼真，本申请为虚拟对象在目标情感下匹配了对应的随机变化的面部特征：

根据目标情感匹配的面部数据，生成面部数据对应的面部特征；面部数据在预设的目标情感对应的各个面部通道数据的起始值和最大值之间随机取值；面部数据包括多个面部通道数据，不同的面部数据对应不同的面部特征。

本申请为了量化不同通道中的表情变化，对上述采集的记录数据的每个通道进行积分操作，可以认为积分值的大小能够反映该通道中的情绪表达。对于高兴、悲伤、厌恶、愤怒四种情绪来说，将积分后的数据分通道与无情绪数据做差，以差值的绝对值为标准，可以得出情绪变化量，情绪变化量大的通道通常是情绪表达的关键通道。本申请为了找出主导情绪变化的主通道，对同一情绪的情绪变化量进行排序，取其中情绪变化较明显的通道作为分析的对象。

本申请将人脸混合变形通道分为两个区域用于特征提取。一个是口部通道，负责虚拟仿真角色发音的关键工作，以保证正确的口型。其次是面部通道，因为面部通道捕获的信息较少，其运动是随机的，所以需要增大其权重，使得这部分情感表现力更强。

表2：高兴数据积分排序

。

如表2所示，以高兴情绪的采集样本为例做积分排序操作，本申请认为积分数值较高的混合变形通道具有特征提取的价值，以上述样本中最显著的mouthSmileRight通道为例，对该通道的动画序列对应的数值做直方图，如图2所示。

在数据采集的过程中，完成表情并保持的时间比无表情到完成表情的时间要长得多。因此，可以认为一个通道的完整离散数据集中存在最多的值是情感表达时的特征值。直方图绘制在离散数据集上进行统计，本申请认为直方图中数值最多的区间的就是情感表达时的峰值特征值。本申请定义该数值为to_peak。

对于其他混合变形通道，本申请根据高兴、悲伤、厌恶、愤怒这四类基础情感的变化规律，将单通道数据随时间的变化分解为一个时间间隔内的线性变化，并将这种线性变化概括为持续时间和速率两个变量，持续时间是从某个速率出现到速率变化的持续时间，将数据中的所有持续时间分组为一个数据集，对所获得的数据集进行排序，按照标准正态分布，将正态分布±3σ对应为数据集的上下限，取该正态分布±σ对应值定义为t_max和t_min。对于速率按照同样的方法分别定义为diff_max和diff_min。

本申请对于情感特征的提取中，首先取无表情数据中的初始值定义为pre_status，取对应表情数据中的最大值定义为max_status，这是表情完成时的特征值。将从初始值到最高值的时间t_org定义为(pre_status-max_status)/diff_max。

本申请中最终形成的情感特征数据库包括面部通道对应的to_peak和其他通道对应的diff_max（速率上限），diff_min（速率下限），t_max（持续时间上限），t_min（持续时间下限），pre_status（起始值），max_status（特征值），t_org（到位时间）。

在随机过程中，max_status为上限，pre_status为下限，以防止通道数据超出正常范围。如果在随机过程中有数据落在区间之外，则随机过程中的差值设置为0。此方法可以使虚拟仿真角色模拟真人的随机表情变化，如眨眼、皱眉等等，这样一定程度上的随机表情变化使得最终输出的具象化呈现效果更像真人。

S104、根据第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系。

本申请在建立第一同步关系时，先根据预设时间序列，建立第一文本信息、第一语音数据、第一口型数据第二同步关系；

然后根据预设时间序列和第二同步关系，建立第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系。

在根据预设时间序列，建立第一文本信息、第一语音数据、第一口型数据第二同步关系时，使用预设时间序列，对第一文本信息中的每个文字分别进行标注，确定第一文本信息中每个文字对应的时间段；将第一文本信息中每个文字的文字拼音对应的语音和该语音对应的口型序列，依次对应在第一文本信息中该文字对应的时间段；

在根据预设时间序列和第二同步关系，建立第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系时，将面部特征，作用于预设时间序列的整体时段上。

语音同步工作主要采用语音识别技术，因此本申请主要使用了Montreal ForcedAligner以及kaldi Toolkit，其中Montreal Forced Aligner的功能是根据文本和语音之间的时间关系来标记每个文本的时间位置，kaldi Toolkit包括训练声学模型以及与语音和文本相关的强制对齐功能。

语音文字同步的第一步是建立G2P对应关系。由于汉语拼音和大多数拉丁文字不能完全准确、规范地表达音节。因此，有必要对拼音的声学部分分解进行标准化，也就是需要把语素分解成音素。其中，语素是指词和字的基本意义单位，音素是指声音和语义的最小组合。在这项工作中，G2P关系（grapheme-phoneme，字素对音素）的建立是指建立拼音文本和音素之间的关系，以便于随后的规范化。

在实践层面上，本申请使用kaldi的g2p模块生成一个使用汉语拼音音素模型生成的语音词典，并将汉字分解成可以分析的音素单元。

在图3中，左侧的单词为数字音调的拼音，尾数1，2，3，4分别代表了汉语拼音的一二三四声。右侧为被分解为音素的拼音，如ch,ng为辅音，a,ao为元音。

语音文字同步的第二步是建立语音文字语料库。语料库包括两个方面：由.lab文件组成的文本信息和由.wav文件组成的音频信息。.Lab文件是以声调标注拼音的文本，.wav文件是16 kHz 16位单声道语音文件。上述两项都可以由面部捕捉步骤中采集的数据转换而成。

语音文字同步的第三步是配置Montreal Forced Aligner工具箱进行强制对齐。根据上述步骤生成的字素-语素对应词典（G2P）和语音文字语料库以及自带的汉语声学模型，可以在时域内对相应的文本语音进行强制对齐，得到带有时间信息的文件。

其输出格式为.TextGrid文件，它标记每个拼音的初始和最终时间信息，以下是TextGrid文件的标识格式，其中intervals数组表示音节的个数，xmin表示音节的开始时间点，xmax表示音节的结束时间点，text表示音节对应的拼音文本，如图4所示。

根据文本和音频以及音频和口型序列这两对同步关系，可以间接的建立文本和口型序列的关系，由此建立本申请需要的训练集。其中语音和文本同步需要使用Montrealforced aligner工具完成。语音和口型序列之间的对应关系隐藏在捕捉生成的csv文件中。

本申请的预处理代码由Python脚本组成，它使用pandas、numpy、textgrid等模块实现自动化读取csv表格以及剪切。其功能是根据textgrid文件中记录的每个拼音的开始和结束时间，剪切捕捉得到的CSV文件中每个拼音的口型序列。

为了保证文字与口型序列的第二关联关系能够更加准确，本申请对获取的文本和口型序列的关系进行了训练。

表3：训练数据

。

表3展示了本申请训练数据的形式，其中time/s列代表了时间顺序，其数据代表了从录制开始到该时刻的帧数。Pinyin-text列表示了该时刻对应的拼音文本。其他的数据则表示代表口型数据的混合变形数据在每一时刻的权重变化。

由于在时域和振幅上统一动画序列是必要的，本申请需要对上述的numpy矩阵进行归一化处理。即在时域上，将不同发音长度的动画序列应统一到相同的长度。同时将不同波动幅度的动画序列统一到相同的水平。本申请的代码使用了图形库pillow来实现矩阵的缩放。对于振幅的归一化本申请使用列表记录每个口型序列中样本的最大值，并将它们的振幅统一为1以消除个体差异。

表4:经过预处理的矩阵

。

表4表示了经过预处理的矩阵形式，每个拼音文字对应了若干个100×61的矩阵，分别代表朗读者阅读过程中每一个该拼音对应的口型数据样本。因此本申请可以根据不同的拼音文本、不同的混合变形通道、取得一个100×1的向量，也就是100帧的动画序列，相同类别的向量被聚合为该拼音、该混合变形通道的训练集。

在具体操作中，本申请采用TensorFlow模块建立四层全连接网络，每一层的结构分别为[1,100]、[100,10]、[10,10]和[10,1]。其输入层为若干100×1的向量、输出层为100×1的向量作为对该样本的预测值。也就是对多个动画序列样本学习特征得到的预测动画序列。

为了确定优化方法，需要定义训练变量，设置学习率等参数。本申请根据采集数据的特点选择Adam方法。在本申请中，adam优化器的学习率为3E-4，参数beta1=0.9，beta2=0.999。对于四层网络，由于参数过多，会出现过拟合现象。因此在该全连接网络的后续增加了dropout层以避免过拟合现象。本申请将迭代次数定为5000次以保证迭代次数达到最优区间。

对应口型相关的通道处理如下：

其中

代表输出的富情感动画序列，x代表时间，

代表添加情感之前的动画序列，参数

对应情感特征数据库中的to_peak，

对应情感特征数据库中的pre_status，

对应数据库中的t_org。

本申请在无情绪动画序列对应的特征通道中找到第一个上升区间，将其极值点设为，对单调区间进行线性变换，使其极值定为情绪数据字典中的极值。这时候我们可以找到设定好的极值与原极值的差值H=

，使无表情动画序列中后续特征通道的值统一增加H，从而实现口型表情和发音的叠加。此方法可以让最终输出以最快的速度到达虚拟仿真角色所要表达情绪的峰值，并让最终输出的具象化呈现效果更优。

其他通道处理：

代表输出的富情感动画序列，x代表时间。

,

,

分别对应动画情感数据库中的pre_status，max_status， t_org。

分别对应数据库中的diff_min，diff_max，

分别对应数据库中的t_min,t_max。

首先，在情感特征库中取t_org，在t_org时间内将初始值线性化为情感动画特征库中的max_status。由于t_org时间较短，为了使每个特征通道同时达到表达完成状态，增强协调感，统一所有特征通道的 t_org为其中的最大值，这样也避免了部分通道速率可能超出diff_max或 diff_min导致的表情失真。此方法可以让最终输出更加贴近真人的情感表达，并让最终输出的具象化呈现效果更为拟真。

当达到max_status时，取间隔t_max和t_min中的随机值t_ran，取间隔t_max和t_min中的随机值diff_ran，并使用时间t_ran中的速率diff_ran。

根据建立的第一文本信息、第一语音数据、第一口型数据和面部特征的第一同步关系，控制虚拟对象以第一文本信息对应的口型和面部特征播报第一语音。

本申请中的一种虚拟对象的控制方法，也可以称为一种虚拟对象的语音控制方法，目的是为了控制虚拟对象以完整的口型和相应的情绪播报语音。

图5示出了本申请实施例所提供的一种虚拟对象的控制装置的结构示意图，装置包括：

转化模块，用于在接收到针对虚拟对象的第一文本信息后，根据文字拼音与发音的第一关联关系，将第一文本信息转换为第一语音数据；其中，第一文本信息中顺序排列的每个文字依次关联第一语音数据在时间序列下的每段语音；

确定模块，用于根据文字拼音与口型序列的第二关联关系，确定与第一文本信息关联的第一口型数据；其中，每一文字的拼音对应描述该拼音的完整的口型；

预测模块，用于预测第一文本信息对应的目标情感，并为目标情感匹配随机变化的面部特征；

建立模块，用于根据第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系；

控制模块，用于根据第一同步关系，控制虚拟对象以第一口型数据和面部特征播报第一语音数据。

确定模块，在用于根据文字拼音与口型序列的第二关联关系，确定与第一文本信息关联的第一口型数据；其中，每一文字的拼音对应描述该拼音的完整的口型时，文字拼音与口型序列的第二关联关系，通过如下方式确定：

预测模块，在用于预测第一文本信息对应的目标情感，并为目标情感匹配随机变化的面部特征时，包括：

预测第一文本信息对应的目标情感，包括：

为目标情感匹配随机变化的面部特征，包括：

建立模块，在用于根据第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系时，包括：

根据第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系，包括：

根据预设时间序列，建立第一文本信息、第一语音数据、第一口型数据第二同步关系；

根据预设时间序列和第二同步关系，建立第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系。

根据预设时间序列，建立第一文本信息、第一语音数据、第一口型数据第二同步关系，包括：

使用预设时间序列，对第一文本信息中的每个文字分别进行标注，确定第一文本信息中每个文字对应的时间段；

将第一文本信息中每个文字的文字拼音对应的语音和该语音对应的口型序列，依次对应在第一文本信息中该文字对应的时间段。

根据预设时间序列和第二同步关系，建立第一文本信息分别与第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下第一语音数据和第一口型数据、面部特征的第一同步关系，包括：

将面部特征，作用于预设时间序列的整体时段上。

如图6所示，本申请实施例提供了一种电子设备，用于执行本申请中的虚拟对象的控制方法，该设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，其中，上述处理器执行上述计算机程序时实现上述的虚拟对象的控制方法的步骤。

具体地，上述存储器和处理器可以为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机程序时，能够执行上述的虚拟对象的控制方法。

对应于本申请中的虚拟对象的控制方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的虚拟对象的控制方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述的虚拟对象的控制方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（RandomAccessMemory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语第一、第二、第三等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种虚拟对象的控制方法，其特征在于，所述控制方法包括：

2.根据权利要求1所述的方法，其特征在于，所述文字拼音与口型序列的第二关联关系，通过如下方式确定：

3.根据权利要求1所述的方法，其特征在于，所述预测所述第一文本信息对应的目标情感，包括：

4.根据权利要求1所述的方法，其特征在于，所述为所述目标情感匹配随机变化的面部特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本信息分别与所述第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下所述第一语音数据和所述第一口型数据、所述面部特征的第一同步关系，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据预设时间序列，建立所述第一文本信息、所述第一语音数据、所述第一口型数据第二同步关系，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据预设时间序列和所述第二同步关系，建立所述第一文本信息分别与所述第一语音数据、第一口型数据和面部特征的关联关系，建立在同一时间序列下所述第一语音数据和所述第一口型数据、所述面部特征的第一同步关系，包括：

将所述面部特征，作用于所述预设时间序列的整体时段上。

8.一种虚拟对象的控制装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的虚拟对象的控制方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的虚拟对象的控制方法的步骤。