CN112184858A

CN112184858A - 基于文本的虚拟对象动画生成方法及装置、存储介质、终端

Info

Publication number: CN112184858A
Application number: CN202010905539.7A
Authority: CN
Inventors: 柴金祥; 其他发明人请求不公开姓名
Original assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Current assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2021-01-05
Anticipated expiration: 2040-09-01
Also published as: US11908451B2; WO2022048405A1; US20230267916A1; CN112184858B

Abstract

一种基于文本的虚拟对象动画生成方法及装置、存储介质、终端，所述方法包括：获取文本信息，其中，所述文本信息包括待生成虚拟对象动画的原始文本；分析所述文本信息的情感特征；根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息，其中，所述音频信息包括基于所述原始文本转换得到的带有情感的语音；基于所述文本信息和音频信息生成对应的虚拟对象动画，并且，所述虚拟对象动画与所述音频信息在时间上是同步的。通过本发明方案能够从文本快速且高效的生成带情感语音的虚拟对象动画，通用性高，无需特定配音演员驱动。

Description

基于文本的虚拟对象动画生成方法及装置、存储介质、终端

技术领域

本发明涉及虚拟数字对象技术领域，具体地涉及一种基于文本的虚拟对象动画生成方法及装置、存储介质、终端。

背景技术

随着虚拟数字对象(可简称为虚拟对象)技术、动画产业等领域的飞速发展，市场对快速自动生成真实、逼真的虚拟形象的需求与日俱增。具体而言，虚拟对象动画的快速生成系统主要体现在如何从文本快速且高效的生成带情感的语音以及对应的虚拟对象动画。

传统系统在制作上述数据时，需要专业的录音师进行配音，并通过美术师进行对应的虚拟对象表情制作和肢体动作制作。需要投入大量的人力成本与时间成本。

并且，这样的制作方式依赖于具有特定声音特征的配音演员，严重制约了该技术的通用性以及对制作成本的进一步降低。美术师需要对演员的动作进行手工修复，耗时较大。

发明内容

本发明解决的技术问题是如何从文本快速且高效的生成带情感语音的虚拟对象动画。

为解决上述技术问题，本发明实施例提供一种基于文本的虚拟对象动画生成方法，包括：获取文本信息，其中，所述文本信息包括待生成虚拟对象动画的原始文本；分析所述文本信息的情感特征和韵律边界；根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息，其中，所述音频信息包括基于所述原始文本转换得到的带有情感的语音；基于所述文本信息和音频信息生成对应的虚拟对象动画，并且，所述虚拟对象动画与所述音频信息在时间上是同步的。

可选的，所述分析所述文本信息的情感特征和韵律边界包括：对所述文本信息进行分词处理；对于分词得到的每一字词，对所述字词进行情感分析以得到所述字词的情感特征；确定每一字词的韵律边界。

可选的，所述分析所述文本信息的情感特征和韵律边界包括：基于预设文本前端预测模型分析所述文本信息的情感特征，所述预设文本前端预测模型的输入为所述文本信息，所述预设文本前端预测模型的输出为所述文本信息的情感特征、韵律边界和分词。

可选的，所述根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息包括：将所述文本信息、情感特征和韵律边界输入预设语音合成模型，其中，所述预设语音合成模型用于将输入的文本序列按时序转换成语音序列，且所述语音序列中的语音带有对应时间点上文本的情感；获取所述预设语音合成模型输出的音频信息。

可选的，所述预设语音合成模型是基于训练数据训练得到的，其中，所述训练数据包括文本信息样本以及对应的音频信息样本，所述音频信息样本是根据所述文本信息样本预先录制得到的。

可选的，所述训练数据还包括扩展样本，其中，所述扩展样本是对所述文本信息样本以及对应的音频信息样本进行语音文本切片重组合得到的。

可选的，所述基于所述文本信息和音频信息生成对应的虚拟对象动画包括：接收输入信息，其中，所述输入信息包括所述文本信息和音频信息；将所述输入信息转换为发音单元序列；对所述发音单元序列进行特征分析，得到对应的语言学特征序列；将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

可选的，所述基于所述文本信息和音频信息生成对应的虚拟对象动画包括：将所述文本信息和音频信息输入预设时序映射模型，以生成对应的虚拟对象动画。

可选的，所述预设时序映射模型用于按时序将输入的特征序列映射至虚拟对象的表情参数和/或动作参数，以生成对应的虚拟对象动画。

可选的，在获取文本信息之后，分析所述文本信息的情感特征和韵律边界之前，所述虚拟对象动画生成方法还包括：根据上下文语境对所述文本信息进行归一化处理，以得到归一化处理后的文本信息。

可选的，所述归一化处理包括数字读法处理以及特殊字符读法处理。

可选的，所述基于所述文本信息和音频信息生成对应的虚拟对象动画包括：基于所述文本信息、所述文本信息的情感特征和韵律边界，以及所述音频信息生成对应的虚拟对象动画。

为解决上述技术问题，本发明实施例还提供一种基于文本的虚拟对象动画生成装置，包括：获取模块，用于获取文本信息，其中，所述文本信息包括待生成虚拟对象动画的原始文本；分析模块，用于分析所述文本信息的情感特征和韵律边界；语音合成模块，用于根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息，其中，所述音频信息包括基于所述原始文本转换得到的带有情感的语音；处理模块，用于基于所述文本信息和音频信息生成对应的虚拟对象动画，并且，所述虚拟对象动画与所述音频信息在时间上是同步的。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

为解决上述技术问题，本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种基于文本的虚拟对象动画生成方法，包括：获取文本信息，其中，所述文本信息包括待生成虚拟对象动画的原始文本；分析所述文本信息的情感特征和韵律边界；根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息，其中，所述音频信息包括基于所述原始文本转换得到的带有情感的语音；基于所述文本信息和音频信息生成对应的虚拟对象动画，并且，所述虚拟对象动画与所述音频信息在时间上是同步的。

较之现有必须依赖配音演员的特定音频特征来驱动虚拟对象动画生成的技术方案，本实施方案能够从文本快速且高效的生成带情感语音的虚拟对象动画，特别是3D动画，通用性高，无需特定配音演员驱动。具体而言，通过分析文本的情感特征和韵律边界来合成得到带有情感的语音。进一步，基于文本和带有情感的语音来生成对应的虚拟对象动画。进一步，生成的虚拟对象动画按时序排列的数据与音频信息在时间上是同步的，使得从文本直接生成虚拟对象动画成为可能，且生成的虚拟对象动画按时序动作时，能够与带有情感的语音保持同步。

进一步，所述基于所述文本信息和音频信息生成对应的虚拟对象动画包括：接收输入信息，其中，所述输入信息包括所述文本信息和音频信息；将所述输入信息转换为发音单元序列；对所述发音单元序列进行特征分析，得到对应的语言学特征序列；将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

采用本实施方案，提取原始音频或文本中对应的语言学特征序列，并以此作为预设时序映射模型的输入信息。由于语言学特征只与音频的语义内容相关，与音色、音调、基频F0特征等因发音人而异的特征无关。因此本实施例方案不会受限于特定发音人，具有不同音频特征的原始音频均可适用于本实施例所述预设时序映射模型。也就是说，由于本实施例方案不是对音频信息中的音频特征进行分析，而是将音频信息转换为发音单元后对发音单元的语言学特征进行分析，使得不依赖特定音频特征驱动神经网络模型生成虚拟对象动画成为可能。由此，本实施例方案提供的端到端的虚拟对象动画生成方法能够适用于任何配音演员、任何文本的端到端虚拟对象动画生成，解决了现有端到端自动化语音合成虚拟对象动画技术中对特定配音演员的依赖问题，真正实现该项技术的“通用性”。

进一步，基于深度学习技术训练构建预设时序映射模型，进而基于预设时序映射模型将输入的语言学特征序列映射至对应的虚拟对象的表情参数和/或动作参数。在动画生成过程中无需动画师和美术师的参与，完全依赖计算机的自动计算，从而极大的降低了人力成本和时间成本，真正意义上地实现端到端的自动化虚拟对象动画合成技术。

进一步，原始接收的输入信息可以为文本信息也可以为音频信息，使得本实施例方案能够根据不同的输入模态生成相应的虚拟对象动画。

附图说明

图1是本发明实施例一种基于文本的虚拟对象动画生成方法的流程图；

图2是图1中步骤S104的一个具体实施方式的流程图；

图3是图2中步骤S1043的一个具体实施方式的流程图；

图4是图2中步骤S1044的一个具体实施方式的流程图；

图5是本发明实施例一种基于文本的虚拟对象动画生成装置的结构示意图。

具体实施方式

如背景技术所言，现有的虚拟对象动画生成技术必须依赖于特定发音人驱动，通用性差。且制作过程中需要美术师提供人力支持，人力成本高，所需时间成本也非常高。

本实施方案能够从文本快速且高效的生成带情感语音的虚拟对象动画，特别是3D动画，通用性高，无需特定配音演员驱动。具体而言，通过分析文本的情感特征和韵律边界来合成得到带有情感的语音。进一步，基于文本和带有情感的语音来生成对应的虚拟对象动画。进一步，生成的虚拟对象动画按时序排列的数据与音频信息在时间上是同步的，使得从文本直接生成虚拟对象动画成为可能，且生成的虚拟对象动画按时序动作时，能够与带有情感的语音保持同步。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种基于文本的虚拟对象动画生成方法的流程图。

本实施例方案可以应用于虚拟数字对象生成、动画制作等应用场景。

虚拟对象可以包括虚拟人，也可以包括虚拟动物、虚拟植物等多类型的虚拟对象。如虚拟数字人语音助手、虚拟老师、虚拟顾问、虚拟新闻播报员等。虚拟对象可以是三维的也可以是二维的。

本实施方案所述基于文本的虚拟对象动画生成方法可以理解为一种端到端的虚拟对象动画生成方案。对于用户而言，用户只需提供原始文本并输入执行本实施方案的计算机，即可生成对应的虚拟对象动画以及相同步的带情感的语音。

例如，用户将原始文本输入执行本实施方案的计算机，即可生成对应的三维(3D)虚拟对象动画及相同步的带情感的语音。虚拟对象形象可以根据实际的情况进行设定，包括三维的虚拟对象和二维的虚拟对象。

端到端可以指从输入端到输出端均由计算机操作实现，从输入端到输出端之间没有人力(如动画师)介入。其中，输入端是指接收原始音频、原始文本的端口，输出端是指生成并输出虚拟对象动画的端口。

所述输出端输出的虚拟对象动画可以包括用于生成虚拟对象动画的控制器，具体表现形式为数字化向量的序列。例如，所述虚拟对象动画可以包括唇形动画，所述输出端输出的唇形动画的控制器可以包括唇形特征点的偏移信息，将所述唇形动画的控制器输入渲染引擎即可驱动虚拟对象的唇形做出相应的动作。

也就是说，所述用于生成虚拟对象动画的控制器可以是一段虚拟对象动画数据的序列，该序列中的数据按输入信息的时序排列并与基于输入信息生成的音频数据同步。通过所述虚拟对象动画数据可以驱动虚拟对象的人脸表情运动与人体姿态运动。通过渲染引擎就可以获得最终的虚拟对象动画。

所述虚拟对象动画数据可以包括虚拟对象的人脸表情动作数据以及肢体动作数据。其中人脸表情动作包括表情、眼神、唇形等信息，肢体动作可以包括虚拟对象的人体姿态、手势等信息。本实施例将所述人脸表情动作数据称作虚拟对象的表情参数，将所述肢体动作数据称作虚拟对象的动作参数。

具体地，参考图1，本实施例所述基于文本的虚拟对象动画生成方法可以包括如下步骤：

步骤S101，获取文本信息，其中，所述文本信息包括待生成虚拟对象动画的原始文本；

步骤S102，分析所述文本信息的情感特征和韵律边界；

步骤S103，根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息，其中，所述音频信息包括基于所述原始文本转换得到的带有情感的语音；

步骤S104，基于所述文本信息和音频信息生成对应的虚拟对象动画，并且，所述虚拟对象动画与所述音频信息在时间上是同步的。

在一个具体实施中，所述文本信息可以获取自需要生成虚拟对象动画的用户端。

具体地，所述原始文本可以为一个句子或包括多个句子的一段话。

进一步，所述原始文本可以包括汉字、英文、数字、特殊字符等常见字符。

在一个具体实施中，所述文本信息可以是基于键盘等设备实时输入得到的。或者，所述输入信息可以是预先采集得到的文本信息，并在需要生成相应的虚拟对象动画时通过有线或无线形式传输至执行本实施例方案的计算设备。

在一个具体实施中，在所述步骤S101之后，所述步骤S102之前，本实施例所述虚拟对象动画生成方法还可以包括步骤：根据上下文语境对所述文本信息进行归一化处理，以得到归一化处理后的文本信息。

具体地，所述归一化处理可以包括数字读法处理以及特殊字符读法处理。

所述数字读法处理可以根据规则匹配的方法确定原始文本中数字的正确读法。例如，数字“110”即可以读成“一百一十”又可以读成“幺幺零”，则在对数字“110”进行数字读法处理时，可以根据数字“110”前后的上下文语境确定数字“110”的正确读法。又如，数字“1983”即可以读成“一九八三”又可以读成“一千九百八十三”，假设原始文本中数字“1983”后面的文本内容为“年”，则可以确定数字“1983”在此的正确读法为“一九八三”。

所述特殊字符读法处理可以根据规则匹配确定原始文本中特殊字符的正确读法。可以预先构建特殊字符的读法字典，以对原始文本中的特殊字符执行特殊字符读法处理。例如，特殊字符“￥”为人民币符号，可以直接读“元”。

所述归一化处理还可以包括多音字的读法处理，用于根据上下文语境确定多音字的正确读法。

进一步，所述归一化处理后的文本信息可以作为步骤S102至步骤S104的数据处理基础。

在一个具体实施中，所述步骤S102可以包括步骤：对所述文本信息进行分词处理；对于分词得到的每一字词，对所述字词进行情感分析以得到所述字词的情感特征；确定每一字词的韵律边界。

具体地，可以基于自然语言处理对归一化处理后的文本信息进行分词处理，以得到最小单元的字词。例如，所述最小单元的字词可以是单个的字，也可以是能够表征特定含义的词组、成语等。

进一步，确定分词处理得到的每一个字词的情感特征，以得到所述归一化处理后的文本信息的情感特征。

进一步，在针对每一字词进行情感特征分析以及韵律边界估计时，可以结合位于所述字词前后的字词综合分析估计。

在一个具体实施中，所述步骤S102可以是基于预设文本前端预测模型执行的，其中，所述预设文本前端预测模型可以包括耦接的循环神经网络(Recurrent NeuralNetwork，简称RNN)和条件随机场(Conditional Random Fields，简称CRF)，所述预设文本前端预测模型的输入为所述文本信息，所述预设文本前端预测模型的输出为所述文本信息的情感特征、韵律边界和分词。

也就是说，本具体实施采用RNN+CRF的深度学习模型快速预测文本信息的各个字词的情感特征以及韵律边界估计。

需要指出的是，所述预设文本前端预测模型可以是同时输出所述文本信息的情感特征、韵律边界和分词结果的。而在预设文本前端预测模型内部，则可以按照前述具体实施中步骤S102的具体流程，先进行分词，然后再处理分词结果以得到对应的情感特征和韵律边界。

在一个具体实施中，所述步骤S103可以包括步骤：将所述文本信息、情感特征和韵律边界输入预设语音合成模型，其中，所述预设语音合成模型用于基于深度学习将输入的文本序列按时序转换成语音序列，且所述语音序列中的语音带有对应时间点上文本的情感；获取所述语音合成模型输出的音频信息。

具体地，所述对应时间点上文本的情感，可以包括所述文本的情感特征和韵律边界。

较之现有仅基于原始文本合成语音的语音合成方案，本具体实施将原始文本、原始文本的情感特征和韵律边界作为输入，基于预设语音合成模型转换得到带有情感的语音。

进一步，所述预设语音合成模型可以为序列到序列(Sequence to Sequence，简称Seq-to-Seq)模型。

例如，在语音合成时，针对步骤S102分词得到的每一字词，可以根据所述字词的文本、情感特征和韵律边界确定对应的语音。将文本信息的所有字词按时序排列经过语音合成模型，就可以得到对应的带有情感的语音序列，且所述带有情感的语音序列也是按时间排序的，且语音序列和文本序列同步。

进一步，所述预设语音合成模型可以实时运行，也可以离线运行。其中，实时运行是指边输入实时产生的文本信息及对文本信息预测得到的情感特征和韵律边界，边合成对应的带有情感的语音，如虚拟对象动画直播场景。离线运行是指，输入完整的文本信息及对文本信息预测得到的情感特征和韵律边界，合成对应的带有情感的语音，如离线制作动画场景。

由上，基于所述预设语音合成模型能够精准且快速的将文本转成高质量的带有情感的语音。

在一个具体实施中，所述预设语音合成模型可以是基于训练数据训练得到的，其中，所述训练数据可以包括文本信息样本以及对应的音频信息样本，所述音频信息样本是根据所述文本信息样本预先录制得到的。

例如，所述音频信息样本可以是由专业录音师在录音棚中根据文本信息样本录制得到的。

进一步，根据所述文本信息样本的文本语境，可以确定所录制音频信息样本中情感特征、韵律边界和分词。将根据所述音频信息样本结合文本语境确定的情感特征记作所述文本信息样本的标准情感特征。

录制时语音是有情感的，但文字是没有情感的。所以，为确保合成可控的情感语音，需要在合成时针对输入的文字信息增加对应情感信息、韵律边界等信息。因此，在预设文本前端预测模型的训练阶段，需要确保所述预设文本前端预测模型预测得到的情感特征(记作预测情感特征)与语音录制时确定的标准情感特征相匹配。

相应地，在训练所述预设文本前端预测模型时，可以比较所述预设文本前端预测模型输出的预测情感特征与标准情感特征之间的差异，进而调整所述预设文本前端预测模型的模型参数。

具体地，对所述预设文本前端预测模型的训练过程可以是迭代地执行的，也即，根据预测情感特征与标准情感特征之间的差异不断优化调参，使得预设文本前端预测模型输出的预测情感特征逐渐逼近标准情感特征。

进一步，所述音频样本信息可以是带有情感的语音。录制的音频样本信息可以根据文本信息的情景，带有相应的情感色彩。

在一个具体实施中，所述训练数据还可以包括扩展样本，其中，所述扩展样本可以是对所述文本信息样本以及对应的音频信息样本进行语音文本切片重组合得到的。

具体地，语音文本切片重组合可以指，将语音信息样本和文本信息样本分别切片成最小单元，然后排列组合。由此，能够实现样本数据的扩充和数据增强，利于训练得到泛化能力强大的深度学习模型。

进一步，可以根据情感特征和韵律边界进行切片，以得到最小单元。

例如，训练数据已经录入文本A：我来自沿海，对应语音As，记为A<“我来自沿海”,As>。还录入文本B：他来自重庆，语音Bs，记为B<“他来自重庆”,Bs>。假设A可以切成“我来自”与“沿海”，记为A₁<“我来自”，As₁>与A₂<“沿海”，As₂>。假设B可以切成“他来自”与“重庆”，记为B₁<“他来自”，Bs₁>与B₂<“重庆”，Bs₂>。

则可以重新组合成A₁B₂<“我来自重庆”，As₁Bs₂>，B₁A₂<“他来自沿海”，Bs₁As₂>。

以上提到的语音文本切片重组合要符合实际的语言用语习惯，例如，按照主语，谓语，宾语的顺序方式。而不是任意顺序的组合。

在一个具体实施中，所述步骤S104可以包括步骤：将所述文本信息和音频信息输入预设时序映射模型，以生成对应的虚拟对象动画。

具体地，所述预设时序映射模型可以用于按时序将输入的特征序列映射至虚拟对象的表情参数和/或动作参数，以生成对应的虚拟对象动画。

进一步，在所述步骤S104中，可以将所述文本信息、所述文本信息的情感特征和韵律边界，以及所述音频信息共同输入所述预设时序映射模型，以生成对应的虚拟对象动画。

接下来以基于语言学特征分析实现虚拟对象动画生成为例进行详细阐述。

在一个具体实施中，参考图2，所述步骤S104可以包括如下步骤：

步骤S1041，接收输入信息，其中，所述输入信息包括所述文本信息和音频信息；

步骤S1042，将所述输入信息转换为发音单元序列；

步骤S1043，对所述发音单元序列进行特征分析，得到对应的语言学特征序列；

步骤S1044，将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

具体地，本具体实施所述预设时序映射模型可以应用于多模态输入且任意发音人的端到端虚拟对象动画生成场景。多模态输入可以包括语音输入和文本输入。任意发音人可以指对发音人的音频特征没有限定。

更为具体地，所述语言学特征序列可以包括多个语言学特征，其中每一语言学特征至少包括对应的发音单元的发音特征。

进一步，所述预设时序映射模型可以用于基于深度学习按时序将输入的语言学特征序列映射至虚拟对象的表情参数和/或动作参数，以生成对应的虚拟对象动画。

进一步，所述发音单元序列和所述语言学特征序列均为时间对齐后的序列。

在一个具体实施中，可以将输入信息划分成最小发音单元组成的发音单元序列，以作为后续进行语言学特征分析的数据基础。

具体地，所述步骤S1042可以包括步骤：将所述输入信息转换为发音单元及对应的时间码；根据所述时间码对所述发音单元进行时间对齐操作，以得到所述时间对齐后的发音单元序列。为便于表述，本实施例将所述时间对齐后的发音单元序列简称为发音单元序列。

将单个发音单元和对应的时间码记作一组数据，通过执行所述步骤S102可以自输入信息中转换得到多组所述数据，其中每一组数据包含单个发音单元及对应的时间码。通过时间码可以将多组数据中的发音单元按时序对齐，以得到时间对齐后的发音单元序列。

当所述输入信息为音频信息时，可以将所述音频信息转换为文本信息后，再对所述文本信息进行处理以得到所述发音单元和对应的时间码。

当所述输入信息为文本信息时，可以直接对所述文本信息进行处理以得到所述发音单元和对应的时间码。

进一步，所述文本信息可以采用词语、文字、拼音、音素等文本表达形式。

当所述输入信息为音频信息时，可以基于自动语音识别(Automatic SpeechRecognition，简称ASR)技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码。

当所述输入信息为文本信息时，可以基于文本到语音(Text-to-Speech，简称TTS)技术中的前端(Front-End)模块和对齐(Alignment)模块，提取出文本信息中的基本发音单元及其在时间维度上的排列和时长信息，从而得到时间对齐后的基本发音单元序列。

当所述输入信息为文本信息和音频信息时，其中的文本信息可以起到引导作用，用于确定音频信息中每一语音的时间长度。

也就是说，在所述步骤S1042中，当所述输入信息为音频信息时，可以基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码，然后根据所述时间码对所述发音单元进行时间对齐操作，以得到时间对齐后的发音单元序列。

当所述输入信息为文本信息时，则可以基于语音合成技术将所述文本信息转换为发音单元及对应的时间码，然后根据所述时间码对所述发音单元进行时间对齐操作，以得到时间对齐后的发音单元序列。

以所述发音单元为音素为例，当输入信息为音频信息时，可基于语音识别技术以及事先拟定的发音字典，从原始音频中提取出相应的音素序列以及每个音素的时长信息。

又例如，当输入信息为文本信息时，可基于TTS技术中的前端(Front-End)模块和基于注意力机制的对齐(Attention-based Alignment)模块，得到原始文本未时间对齐的音素序列以及音素与输出音频梅尔谱的对齐矩阵。然后可基于动态规划算法求得每个时间片段所对应的音素，从而得到时间对齐后的音素序列。

在一个具体实施中，在得到时间对齐的发音单元序列后，为进一步提升预设时序映射模型的泛化能力，可以执行所述步骤S1043以对步骤S1042得到的基本发音单元序列进行语言学特征分析，从而得到时间对齐后的语言学特征序列(可简称为语言学特征序列)。

具体地，参考图3，所述步骤S1043可以包括如下步骤：

步骤S10431，对所述发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征；

步骤S10432，基于每个发音单元的语言学特征，生成对应的语言学特征序列。

更为具体地，所述语言学特征可以用于表征发音单元的发音特征。例如，所述发音特征包括但不限于所述发音单元为前鼻音还是后鼻音、所述发音单元为单元音还是双元音、所述发音单元为送气音还是非送气音、所述发音单元是否为摩擦音、所述发音单元是否为舌尖音等。

在一个具体实施中，所述发音单元的语言学特征可以包括对单个发音单元进行特征分析得到的独立语言学特征。

具体地，所述步骤S10431可以包括步骤：对于每个发音单元，分析所述发音单元的发音特征，以得到所述发音单元的独立语言学特征；基于所述发音单元的独立语言学特征生成所述发音单元的语言学特征。

更为具体地，所述独立语言学特征可以用于表征单个发音单元本身的发音特征。

以发音单元为音素为例，对于步骤S1042得到的时间对齐后的音素序列中的每一音素，可以对每一音素进行特征分析从而得到所述音素的发音特征。

针对每一音素需要分析的发音特征可以包括{是否为鼻音；是否为前鼻音；是否为后鼻音；是否为单元音；是否为双元音；是否为送气音；是否为摩擦音；是否为清音；是否为浊音；是否为唇音；是否为舌尖音；是否为前舌尖音；是否为后舌尖音；是否为翘舌音；是否为平舌音；是否为包含A的元音；是否为包含E的元音；是否为包含I的元音；是否为包含O的元音；是否为包含U的元音；是否为包含V的元音；是否为塞音；是否为静音符；是否为声母；是否为韵母}。

对于每一音素均判定上述所有问题的答案，以0代表“否”，以1代表“是”，从而以量化编码的形式生成各音素的独立语言学特征。

在一个具体实施中，考虑到协同发音以及生成动画的连贯性，单个发音单元在时序上前后邻接具有不同发音特征的发音单元可能影响当前发音单元对应的动画的动作特征的发音特征，因此，所述步骤S10431还可以包括步骤：对于每个发音单元，分析所述发音单元的发音特征，以得到所述发音单元的独立语言学特征；分析所述发音单元的邻接发音单元的发音特征，得到所述发音单元的邻接语言学特征；基于所述发音单元的独立语言学特征和邻接语言学特征生成所述发音单元的语言学特征。

具体而言，可以在一定的时间窗口范围内对每个发音单元的所有邻接发音单元进行分析，分析的维度包括但不限于当前发音单元的左侧窗口内有多少个元音或辅音、当前发音单元的右侧窗口内有多少个前鼻音或后鼻音等。

例如，统计所述邻接发音单元所具有发音特征的种类以及同种发音特征的数量，并根据统计结果得到所述邻接语言学特征。

进一步，可以将量化后的统计特征作为当前发音单元的邻接语言学特征。

进一步，所述发音单元的邻接发音单元可以包括：以所述发音单元为中心，在时序上位于所述发音单元前后的预设数量的发音单元。

所述预设数量的具体数值可以根据实验确定，如根据所述预设时序映射模型训练时的评价指标决定。

对于位于句子结束位置的发音单元，所述发音单元右侧的统计特征统一归零。

对于位于句子起始位置的发音单元，所述发音单元左侧的统计特征统一归零。

以发音单元为音素为例，对于步骤S1042得到的时间对齐后的音素序列中的每一音素，可以以当前音素为中心，左右侧各取连续的20个音素，并统计所有音素的发音特征。

针对位于当前音素左右侧的各20个音素的发音特征的统计维度可以包括{中心发音单元左侧共有多少个元音；中心发音单元左侧共有多少个辅音；中心发音单元右侧共有多少个元音；中心发音单元右侧共有多少个辅音；中心发音单元左侧有多少个邻接元音；中心发音单元左侧有多少个邻接辅音；中心发音单元右侧有多少个邻接元音；中心发音单元右侧有多少个邻接辅音；中心发音单元左侧有多少个邻接前鼻音；中心发音单元左侧有多少个邻接后鼻音；中心发音单元右侧有多少个邻接前鼻音；中心发音单元右侧有多少个邻接后鼻音}。

基于上述统计维度，对每个音素的所有邻接音素进行分析，并将量化后的统计特征作为当前音素的邻接语言学特征。

进一步，对于每一发音单元，将所述发音单元的独立语言学特征和邻接语言学特征相组合，以得到所述发音单元的完整的语言学特征。

例如，可以将量化编码形式表示的独立语言学特征和邻接语言学特征前后拼接起来，得到所述发音单元的语言学特征。也即，所述发音单元的语言学特征是由一系列量化数值组成的长数组。

在一个具体实施中，在所述步骤S10432中，将按照时序排列的各发音单元的语言学特征顺序拼接起来，可以得到量化的语言学特征序列。所述语言学特征序列是对所述输入信息的特征量化表达，且该表达方式不受特定的发音人制约，无需特定的发音人驱动。

进一步，在得到所述量化的语言学特征序列后，可以执行步骤S1044以将所述语言学特征序列输入已学习得到的预设时序映射模型中，得到对应的虚拟对象动画数据序列。

在一个具体实施中，参考图4，所述步骤S1044可以包括如下步骤：

步骤S10441，基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取，其中，所述多维度包括时间维度和语言学特征维度；

步骤S10442，基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换，以得到所述虚拟对象的表情参数和/或动作参数；

其中，所述特征域的映射是指语言学特征域到虚拟对象动画特征域的映射，所述虚拟对象动画特征域包括所述虚拟对象的表情特征和/或动作特征。

具体地，由于步骤S1041中输入的音频信息或文本信息的长度并不固定，因此，可以基于循环神经网络(Recurrent Neural Network，简称RNN)及其变体(如长短时记忆网络(Long Short-Term Memory，简称LSTM)等)处理基于输入信息处理得到的变长序列信息(即所述语言学特征序列)，从而从整体上提取特征信息。

进一步，特征映射模型通常涉及到特征域转换以及特征维度变换。对此，可以基于全链接网络(Fully Connected Network，简称FCN)实现此转换功能。

进一步，所述RNN网络可从时间维度上对输入特征进行处理，而为了在更多维度上对特征进行处理从而提取出更高维度的特征信息，进而增强模型的泛化能力，可以基于卷积神经网络(Convolutional Neural Network，简称CNN)及其变体(如膨胀卷积、因果卷积等)对输入信息进行处理。

进一步，预设时序映射模型这类特征映射模型通常涉及到特征域转换以及特征维度变换。对此，可以基于全链接网络(Fully Connected Network，简称FCN)实现此转换功能。

进一步，在设计好所述预设时序映射模型后，可利用事先准备好的训练数据和机器学习技术对该模型进行训练，寻找该预设时序映射模型的最优参数，从而实现由语言学特征序列到虚拟对象动画序列的映射。

进一步，所述预设时序映射模型可以是一种能够利用时序信息(如与时间同步对齐的文本信息、音频信息)，对其他时序信息(如虚拟对象动画)做预测的模型。

在一个具体实施中，所述预设时序映射模型的训练数据可以包括文本信息、与所述文本信息同步的语音数据以及虚拟对象动画数据。

具体可以是由专业录音师(兼演员)根据丰富且带有情感的文本信息，表现出与之对应的语音数据与动作数据(语音与动作一一对应)。其中动作数据包含了人脸表情动作与肢体动作。人脸表情动作涉及了表情、眼神等信息。

通过建立人脸表情动作与虚拟对象控制器的对应关系后，得到虚拟对象人脸表情控制器数据。肢体动作则可以通过表演捕捉平台捕获演员表演的高质量姿态信息数据获得，肢体动作数据与表情数据具有时间对应性。由此，可以基于数字化向量序列(即所述语言学特征序列)映射得到对应的虚拟对象动画数据。

与人脸表情动作的驱动逻辑相类似，对肢体动作的驱动也可以基于控制器实现。或者，对所述肢体动作的驱动也可以是骨骼驱动的。

在一个具体实施中，所述预设时序映射模型可以为卷积网络-长短时记忆网络-深度神经网络(Convolutional LSTM Deep Neural Networks，简称CLDNN)。

需要指出的是，虽然本具体实施是以上述三个网络构成的预设时序映射模型为例进行详细阐述的。但在实际应用中，所述预设时序映射模型的结构可以不限于此，如所述预设时序映射模型可以是上述三种网络中的任一种，还可以是上述三种网络中任两种的组合。

具体地，所述预设时序映射模型可以包括：多层卷积网络，用于接收所述语言学特征序列，并对所述语言学特征序列进行多维度的信息提取。

例如，所述多层卷积网络可以包括四层膨胀卷积网络，用于对步骤S1043处理得到的量化的语言学特征序列进行多维度的信息提取。所述语言学特征序列可以为二维数据，假设对于每一发音单元都由600位长度的发音特征表示且共有100个发音单元，则输入所述预设时序映射模型的语言学特征序列为100×600的二维数组。其中100这个维度代表时间维度，600这个维度代表语言学特征维度。相应的，所述多层卷积网络在时间和语言学特征两个维度上进行特征运算。

进一步，所述预设时序映射模型还可以包括：长短时记忆网络，用于对时间维度的信息提取结果进行信息聚合处理。由此，可以在时间维度上对经过多层卷积网络卷积处理后的特征从整体上进行连续性考虑。

例如，所述长短时记忆网络可以包括两层堆叠的双向LSTM网络，与所述多层卷积网络的耦接以获取所述多层卷积网络输出的对语言学特征序列在时间维度上的信息提取结果。进一步，所述两层堆叠的双向LSTM网络对语言学特征序列在时间维度上的信息提取结果进行高维度的信息加工，以进一步得到时间维度上的特征信息。

进一步，所述预设时序映射模型还可以包括：深度神经网络，与所述多层卷积网络和长短时记忆网络耦接，所述深度神经网络用于对所述多层卷积网络和长短时记忆网络的输出的多维度的信息提取结果进行特征域的映射和特征维度变换，以得到所述虚拟对象的表情参数和/或动作参数。

例如，所述深度神经网络可以接收所述多层卷积网络输出的语言学特征维度的信息提取结果，所述深度神经网络还可以接收所述长短时记忆网络输出的更新的时间维度上的信息提取结果。

所述维度变换可以指降维，如所述预设时序映射模型的输入为600个特征，输出则为100个特征。

例如，所述深度神经网络可以包括：多层串联连接的全连接层，其中，第一层全连接层用于接收所述多维度的信息提取结果，最后一层全连接层输出所述虚拟对象的表情参数和/或动作参数。

所述全连接层的数量可以为三层。

进一步，所述深度神经网络还可以包括：多个非线性变换模块，分别耦接于除最后一层全连接层外的相邻两层全连接层之间，所述非线性变化模块用于对耦接的上一层全连接层的输出结果进行非线性变换处理，并将非线性变换处理的结果输入耦接的下一层全连接层。

所述非线性变换模块可以为修正线性单元(Rectified linear unit，简称ReLU)激活函数。

所述非线性变换模块可以提升所述预设时序映射模型的表达能力和泛化能力。

在一个变化例中，多层卷积网络、长短时记忆网络和深度神经网络可以是依次串联连接的，所述多层卷积网络输出的语言学特征维度的信息提取结果经过长短时记忆网络透传至所述深度神经网络，所述多层卷积网络输出的时间维度的信息提取结果经过长短时记忆网络处理后传输至所述深度神经网络。

由上，采用本实施例方案，以多模态输入(音频和文本)作为原始信息，首先，将其转换为不受发音人、音频特征等影响的语言学发音单元及其特征(即所述语言学特征)；然后，在时间维度上将语言学特征与音频同步，得到时间对齐后的语言学特征序列；然后，输入预先学习得到的预设时序映射模型中，得到与输入信息对应的虚拟对象动画。

采用本实施例方案，不依赖于特定的发音演员对模型进行驱动，彻底解决对特定发音演员的依赖，有利于降低动画制作过程中的人力成本。

进一步，本实施例方案能够输出高质量的虚拟对象动画，特别是3D动画，减轻了动画师和美术师对动画进行人工修整的人力成本和时间成本，有助于提高动画的制作效率。

进一步，本实施例方案具备接收不同类型输入信息的能力，从而提高了适用范围，有助于进一步降低动画制作的相关成本和效率。

进一步，传统的端到端虚拟对象动画合成技术所生成的主要是二维动画，而本实施例方案能够生成高质量的三维动画，同时也能够生成二维动画。

本实施例方案中所述“虚拟对象动画序列”是对量化后的动画数据或动画控制器的一种泛化表达，不局限于二维或三维动画，取决于前述预设时序映射模型在学习最优参数时，所使用的训练数据中“虚拟对象动画序列”的表现形式。在得到虚拟对象动画控制器后，可借助Maya、UE等软件将其转换为对应的视频动画。

由上，能够从文本快速且高效的生成带情感语音的虚拟对象动画，特别是三维动画，通用性高，无需特定配音演员驱动。具体而言，通过分析文本的情感特征和韵律边界来合成得到带有情感的语音。进一步，基于文本和带有情感的语音来生成对应的虚拟对象动画。进一步，生成的虚拟对象动画按时序排列的数据与音频信息在时间上是同步的，使得从文本直接生成虚拟对象动画成为可能，且生成的虚拟对象动画按时序动作时，能够与带有情感的语音保持同步。

图5是本发明实施例一种基于文本的虚拟对象动画生成装置的结构示意图。本领域技术人员理解，本实施例所述基于文本的虚拟对象动画生成装置5可以用于实施上述图1至图4任一所述实施例中所述的方法技术方案。

具体地，参考图5，本实施例所述基于文本的虚拟对象动画生成装置5可以包括：获取模块51，用于获取文本信息，其中，所述文本信息包括待生成虚拟对象动画的原始文本；分析模块52，用于分析所述文本信息的情感特征和韵律边界；语音合成模块53，用于根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息，其中，所述音频信息包括基于所述原始文本转换得到的带有情感的语音；处理模块54，用于基于所述文本信息和音频信息生成对应的虚拟对象动画，并且，所述虚拟对象动画与所述音频信息在时间上是同步的。

关于所述基于文本的虚拟对象动画生成装置5的工作原理、工作方式的更多内容，可以参照上述图1至图4中的相关描述，这里不再赘述。

在一个典型的应用场景中，本实施例所述基于文本的虚拟对象动画生成方法可以由基于文本的虚拟对象动画生成方法系统实现。

具体而言，所述基于文本的虚拟对象动画生成方法系统可以包括：采集模块，用于采集得到所述文本信息；上述图5所示基于文本的虚拟对象动画生成方法装置5，其中的获取模块51与所述采集模块耦接以接收所述文本信息，所述基于文本的虚拟对象动画生成方法装置5执行上述图1至图4所示基于文本的虚拟对象动画生成方法以生成对应的虚拟对象动画和带情感的语音。

进一步，采集模块可以是键盘等文字输入设备，用于采集所述文本信息。

进一步，所述基于文本的虚拟对象动画生成方法装置5可以集成于终端、服务器等计算设备。例如，基于文本的虚拟对象动画生成方法装置5可以集中地集成于同一服务器内。或者，基于文本的虚拟对象动画生成方法装置5可以分散的集成于多个终端或服务器内并相互耦接。例如，所述预设时序映射模型可以单独设置于一终端或服务器上，以确保较优的数据处理速度。

基于本实施例所述基于文本的虚拟对象动画生成系统，用户在采集模块这端提供输入信息，即可在基于文本的虚拟对象动画生成方法装置5这端获得对应的虚拟对象动画和与之同步的带情感的语音。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图4所示实施例中所述的方法技术方案。优选地，所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图4所示实施例中所述的方法技术方案。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种基于文本的虚拟对象动画生成方法，其特征在于，包括：

获取文本信息，其中，所述文本信息包括待生成虚拟对象动画的原始文本；

分析所述文本信息的情感特征和韵律边界；

根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息，其中，所述音频信息包括基于所述原始文本转换得到的带有情感的语音；

基于所述文本信息和音频信息生成对应的虚拟对象动画，并且，所述虚拟对象动画与所述音频信息在时间上是同步的。

2.根据权利要求1所述的虚拟对象动画生成方法，其特征在于，所述分析所述文本信息的情感特征和韵律边界包括：

对所述文本信息进行分词处理；

对于分词得到的每一字词，对所述字词进行情感分析以得到所述字词的情感特征；

确定每一字词的韵律边界。

3.根据权利要求1或2所述的虚拟对象动画生成方法，其特征在于，所述分析所述文本信息的情感特征和韵律边界包括：

基于预设文本前端预测模型分析所述文本信息的情感特征，所述预设文本前端预测模型的输入为所述文本信息，所述预设文本前端预测模型的输出为所述文本信息的情感特征、韵律边界和分词。

4.根据权利要求1所述的虚拟对象动画生成方法，其特征在于，所述根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息包括：

将所述文本信息、情感特征和韵律边界输入预设语音合成模型，其中，所述预设语音合成模型用于将输入的文本序列按时序转换成语音序列，且所述语音序列中的语音带有对应时间点上文本的情感；

获取所述预设语音合成模型输出的音频信息。

5.根据权利要求4所述的虚拟对象动画生成方法，其特征在于，所述预设语音合成模型是基于训练数据训练得到的，其中，所述训练数据包括文本信息样本以及对应的音频信息样本，所述音频信息样本是根据所述文本信息样本预先录制得到的。

6.根据权利要求5所述的虚拟对象动画生成方法，其特征在于，所述训练数据还包括扩展样本，其中，所述扩展样本是对所述文本信息样本以及对应的音频信息样本进行语音文本切片重组合得到的。

7.根据权利要求1所述的虚拟对象动画生成方法，其特征在于，所述基于所述文本信息和音频信息生成对应的虚拟对象动画包括：

接收输入信息，其中，所述输入信息包括所述文本信息和音频信息；

将所述输入信息转换为发音单元序列；

对所述发音单元序列进行特征分析，得到对应的语言学特征序列；

将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

8.根据权利要求1所述的虚拟对象动画生成方法，其特征在于，所述基于所述文本信息和音频信息生成对应的虚拟对象动画包括：

将所述文本信息和音频信息输入预设时序映射模型，以生成对应的虚拟对象动画。

9.根据权利要求7或8所述的虚拟对象动画生成方法，其特征在于，所述预设时序映射模型用于按时序将输入的特征序列映射至虚拟对象的表情参数和/或动作参数，以生成对应的虚拟对象动画。

10.根据权利要求1所述的虚拟对象动画生成方法，其特征在于，在获取文本信息之后，分析所述文本信息的情感特征和韵律边界之前，还包括：

根据上下文语境对所述文本信息进行归一化处理，以得到归一化处理后的文本信息。

11.根据权利要求10所述的虚拟对象动画生成方法，其特征在于，所述归一化处理包括数字读法处理以及特殊字符读法处理。

12.根据权利要求1所述的虚拟对象动画生成方法，其特征在于，所述基于所述文本信息和音频信息生成对应的虚拟对象动画包括：

基于所述文本信息、所述文本信息的情感特征和韵律边界，以及所述音频信息生成对应的虚拟对象动画。

13.一种基于文本的虚拟对象动画生成装置，其特征在于，包括：

获取模块，用于获取文本信息，其中，所述文本信息包括待生成虚拟对象动画的原始文本；

分析模块，用于分析所述文本信息的情感特征和韵律边界；

语音合成模块，用于根据所述情感特征、所述韵律边界和所述文本信息进行语音合成，以得到音频信息，其中，所述音频信息包括基于所述原始文本转换得到的带有情感的语音；

处理模块，用于基于所述文本信息和音频信息生成对应的虚拟对象动画，并且，所述虚拟对象动画与所述音频信息在时间上是同步的。

14.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至12任一项所述方法的步骤。

15.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至12任一项所述方法的步骤。