CN114041183A

CN114041183A - 用于视听合成的持续时间通知注意力网络

Info

Publication number: CN114041183A
Application number: CN202080030508.XA
Authority: CN
Inventors: 卢恒; 俞承柱; 俞栋
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2019-08-23
Filing date: 2020-08-06
Publication date: 2022-02-11
Also published as: EP3942548A1; JP2022526668A; US20210375259A1; US11670283B2; WO2021040989A1; US20210056949A1; EP3942548A4; US11151979B2; JP7237196B2

Abstract

一种方法和装置包括接收包括文本构成要素序列的文本输入。使用持续时间模型确定文本构成要素的各个时间性持续时间。基于持续时间模型生成频谱图帧。基于频谱图帧生成音频波形。基于音频波形生成视频信息。音频波形与对应视频一起被提供作为输出。

Description

用于视听合成的持续时间通知注意力网络

相关技术的说明

近来，从合成语音的自然性以及韵律的角度来看，诸如Tacotron的端到端语音合成系统已经显示出令人印象深刻的文本到语音(text-to-speech，TTS)结果。然而，就在合成语音时跳过或重复输入文本中的一些单词而言，这样的系统具有明显的缺点。该问题是由使用不可控的注意力机制来生成语音的端到端性质引起的。

某些实施方式的效果和优点

本文中描述的实施方式涉及建模并生成谈话面部的语音信息和视频信息两者的方法和装置，并且在一些实施方式中，同时建模和生成谈话面部的语音信息和视频信息。这些实施方式基于不仅在本文中描述而且在美国申请第16/397,349号中描述的新模型——持续时间通知注意力网络(Duration Informed Attention Network，DurIAN)，如上所述，所述美国申请以其整体并入本公开内容。

以前，基于端到终端注意力的模型已经显示出优于传统的非端到端TTS框架的改进。然而，基于端到终端注意力的模型也遭受遗漏和重复原始输入文本中的单词的问题，这是端到端注意力框架中常见的缺陷。

本公开内容的实施方式将独立的电话持续时间建模引入至端到终端注意力框架中，并且成功地解决了传统端到端注意力框架中的问题。本公开内容的实施方式使用新提出的持续时间通知注意力网络(DurIAN)框架同时对谈话面部的语音信息和视频信息两者进行建模。本公开内容的实施方式显示出优于常规视听建模方法的更好的性能。本公开内容的实施方式还支持对具有不同风格例如快乐、悲伤、恼人、自然等的语音和面部进行建模和合成。本公开内容的实施方式还显示出优于常规框架的更好的持续时间和系统可控性。

本公开内容的实施方式还可以应用于虚拟人物、虚拟面部等。

本公开内容的实施方式利用DurIAN模型提供更好和更同步的视听建模和合成方法。

本公开内容的实施方式支持多风格视听建模和合成。

本公开内容的实施方式提供了相比于常规方法更好的对于视听建模和合成的可控性。

本公开内容的实施方式还可以应用于仅音频特征或仅视觉特征，或者将音频特征或视觉特征建模为多任务训练。

发明内容

根据一些可能的实现方式，一种方法可以包括：由设备接收包括文本构成要素序列的文本输入；由该设备并使用持续时间模型来确定文本构成要素的各个时间性持续时间；由该设备基于文本构成要素序列生成第一频谱组；由该设备基于第一频谱组和文本构成要素序列的各个时间性持续时间生成第二频谱组；由该设备基于第二频谱组生成频谱图帧；由该设备基于频谱图帧生成音频波形；由该设备生成与音频波形相对应的视频信息；以及由该设备基于视频信息提供音频波形和对应视频作为该设备的输出。

根据一些可能的实现方式，该方法可以包括训练持续时间模型。

根据一些可能的实现方式，在该方法中，文本输入可以通过以下获得：接收包括对应输入音频波形的输入视频作为输入；由该设备生成与输入音频波形相对应的输入视频信息；由该设备基于输入音频波形生成输入频谱图帧；由该设备基于输入频谱图帧生成第一输入频谱组；由该设备基于第一输入频谱组生成第二输入频谱组；以及由该设备并使用持续时间模型确定文本输入。

根据一些可能的实现方式，在该方法中，文本构成要素可以是音素或字符。

根据一些可能的实现方式，该方法还可以包括：由该设备接收与情绪状态相对应的信息，所述情绪状态与文本输入相关联，以及其中，作为输出提供的音频波形和对应视频可以基于与情绪状态相对应的信息。

根据一些可能的实现方式，在该方法中，可以基于视频信息的音频波形和对应视频可以同时被提供作为输出。

根据一些可能的实现方式，在该方法中，训练持续时间模型可以包括多任务训练。

根据一些可能的实现方式，在该方法中，输出的音频波形和输出的对应视频可以被应用于虚拟人物。

根据一些可能的实现方式，在该方法中，第二频谱组可以包括梅尔频率倒谱频谱。

根据一些可能的实现方式，在该方法中，训练持续时间模型可以包括使用预测帧组和训练文本构成要素。

根据一些可能的实现方式，一种设备可以包括：至少一个存储器，该至少一个存储器被配置成存储程序代码；至少一个处理器，该至少一个处理器被配置成读取程序代码并且按照由程序代码指示的进行操作，所述程序代码包括：接收代码，该接收代码被配置成使至少一个处理器接收包括文本构成要素序列的文本输入；确定代码，该确定代码被配置成使至少一个处理器使用持续时间模型确定文本构成要素的各个时间性持续时间；生成代码，该生成代码被配置成使至少一个处理器：基于文本构成要素序列生成第一频谱组；基于第一频谱组和文本构成要素序列的各个时间性持续时间生成第二频谱组；基于第二频谱组生成频谱图帧；基于频谱图帧生成音频波形；生成与音频波形相对应的视频信息；以及提供代码，该提供代码被配置成使至少一个处理器提供音频波形和对应视频作为输出。

根据一些可能的实现方式，程序代码还可以包括被配置成训练持续时间模型的训练代码。

根据一些可能的实现方式，接收代码被配置成使至少一个处理器接收的文本输入可以由程序代码获得，所述程序代码还包括：输入接收代码，所述输入接收代码被配置成使至少一个处理器接收包括对应输入音频波形的输入视频作为输入；生成输入代码，所述生成输入代码被配置成使至少一个处理器：生成与输入音频波形相对应的输入视频信息；基于输入音频波形生成输入频谱图帧；基于输入频谱图帧生成第一输入频谱组；以及基于第一输入频谱组生成第二输入频谱组；以及输入确定代码，所述输入确定代码被配置成通过使用所述持续时间模型根据第二输入频谱组提供文本输入。

根据一些可能的实现方式，文本构成要素可以是音素或字符。

根据一些可能的实现方式，接收代码还可以被配置成使至少一个处理器接收与情绪状态相对应的信息，所述情绪状态与所述文本输入相关联，并且其中，提供代码还被配置成基于与情绪状态相对应的信息来提供音频波形和对应视频作为输出。

根据一些可能的实现方式，提供代码还可以被配置成同时提供音频波形和对应视频作为输出。

根据一些可能的实现方式，训练代码可以被配置成使用多任务训练来训练持续时间模型。

根据一些可能的实现方式，提供代码还可以被配置成提供音频波形和对应视频作为输出应用于虚拟人物。

根据一些可能的实现方式，训练代码可以被配置成使用预测帧组和训练文本构成要素来训练持续时间模型。

根据一些可能的实现方式，可以提供一种存储指令的非暂态计算机可读介质，所述指令包括如下一个或更多个指令：当由设备的一个或更多个处理器执行所述一个或更多个指令时，使所述一个或更多个处理器：接收包括文本构成要素序列的文本输入；使用持续时间模型确定文本构成要素的各个时间性持续时间；基于文本构成要素序列生成第一频谱组；基于第一频谱组和文本构成要素序列的各个时间性持续时间生成第二频谱组；基于第二频谱组生成频谱图帧；基于频谱图帧生成音频波形；生成与音频波形相对应的视频信息；以及提供音频波形和对应视频作为输出。

附图说明

图1是本文中描述的示例实现方式的概述的图；

图2是其中可以实现本文中描述的系统和/或方法的示例环境的图；

图3是图2的一个或更多个设备的示例组件的图；

图4是根据实施方式的用于生成音频波形和对应视频的示例处理的流程图；以及

图5A和图5B是根据实施方式的包括持续时间模型的输入和输出的图。

具体实施方式

TTS系统具有多种应用。然而，大量采用的商业系统大多基于相比于自然人类语音有很大差距的参数系统。Tacotron是与常规的基于参数的TTS系统显著不同的TTS合成系统，并且Tacotron能够产生高度自然的语音句子。整个系统可以以端到端的方式进行训练，并且使用编码器-卷积-存储体(bank)-高速通道网络(highway network)-双向门控循环单元(encoder-convolution-bank-highway network-bidirectional-gated-recurrentunit，CBHG)模块替代常规的复杂语言特征提取部分。

利用端到端注意力机制替代已经在常规的参数系统中使用的持续时间模型，在所述端到端注意力机制中，在输入文本(或音素序列)与语音信号之间的对齐是从注意力模型中学习的而不是基于隐马尔可夫模型(Hidden Markov Model，HMM)的对齐。与Tacotron系统相关联的另一主要区别在于Tacotron系统直接预测了可以由诸如Wavenet和WaveRNN的高级声码器直接使用以合成高质量语音的mel/线性频谱。

基于Tacotron的系统能够生成更准确且听起来更自然的语音。然而，Tacotron系统包括诸如跳过和/或重复输入文本的不稳定性，这是在合成语音波形时的固有缺点。

本文中的一些实现方式解决了前述伴随基于Tacotron的系统的输入文本跳过和重复问题，同时保持基于Tacotron的系统的优异合成质量。此外，本文中的一些实现方式解决了这些不稳定性问题并且在合成语音中实现了显著改善的自然性。

Tacotron的不稳定性主要是由其不可控的注意力机制引起的，并且不能保证每个输入文本都可以在没有跳过或重复的情况下被顺序地合成。

本文中的一些实现方式使用基于持续时间的注意力机制替代这种不稳定和不可控的注意力机制，在所述基于持续时间的注意力机制中，保证输入文本在没有跳过或重复的情况下被顺序地合成。在基于Tacotron的系统中需要注意力的主要原因是在源文本与目标频谱图之间缺少对齐信息。

通常，输入文本的长度比生成的频谱图的长度短得多。来自输入文本的单个字符/音素可能生成多帧频谱图，而对于利用任何神经网络架构对输入/输出关系进行建模都需要该信息。

基于Tacotron的系统已经利用端到端机制主要解决了该问题，其中，频谱图的生成取决于对源输入文本的学习注意力。然而，这样的注意力机制因为其注意力是高度不可控的而从根本上不稳定。本文中的一些实现方式使用对单个输入字符和/或音素持续多长时间进行预测的持续时间模型替代Tacotron系统内的端到端注意力机制。换言之，在输出频谱图与输入文本之间的对齐是通过复制每个输入字符和/或音素达预定持续时间来实现的。从系统中学习的输入文本的基础真实持续时间使用基于HMM的强制对齐来实现。利用预测持续时间，频谱图中的每个目标帧可以与输入文本中的一个字符/音素匹配。整个模型架构绘制在以下附图中。

图1是本文中描述的实施方式的概述的图。如图1所示，并且通过附图标记110，平台(例如，服务器)可以接收包括文本构成要素序列的文本输入。如所示出的，文本输入可以包括诸如“this is a cat”的短语。文本输入可以包括被显示为字符“DH”、“IH”、“S”、“IH”、“Z”、“AX”、“K”、“AE”和“T”的文本构成要素序列。

如图1进一步所示，并且通过附图标记120，平台可以使用持续时间模型确定文本构成要素的各个时间性持续时间。持续时间模型可以包括接收输入文本构成要素并确定文本构成要素的时间性持续时间的模型。作为示例，短语“this is a cat”在可听地输出时可以包括一秒的全部时间性持续时间。短语的各个文本构成要素可以包括不同的时间性持续时间，其共同形成全部时间性持续时间。

作为示例，单词“this”可以包括400毫秒的时间性持续时间，单词“is”可以包括“200毫秒”的时间性持续时间，单词“a”可以包括100毫秒的时间性持续时间，以及单词“cat”可以包括300毫秒的时间性持续时间。持续时间模型可以确定文本构成要素的各个组成时间性持续时间。

如图1进一步所示，并且通过附图标记130，平台可以基于文本构成要素序列生成第一频谱组。例如，平台可以将文本构成要素输入至基于输入文本构成要素生成输出频谱的模型中。如所示出的，第一频谱组可以包括每个文本构成要素(例如，显示为“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”)的相应频谱。

如图1进一步所示，并且通过附图标记140，平台可以基于第一频谱组和文本构成要素序列的各个时间性持续时间来生成第二频谱组。平台可以通过基于频谱的各个时间性持续时间通过复制频谱来生成第二频谱组。作为示例，频谱“1”可以被复制，使得第二频谱组包括对应于频谱“1”等的三个频谱构成要素。平台可以使用持续时间模型的输出来确定以何种方式生成第二频谱组。

如图1进一步所示，并且通过附图标记140，平台可以基于第二频谱组生成频谱图帧。频谱图帧可以由第二频谱组的各个组成频谱构成要素形成。如图1所示，频谱图帧可以与预测帧对齐。换言之，由平台生成的频谱图帧可以准确地与文本输入的预期音频输出对齐。

如图1所示，可以在端到端注意力框架中引入电话持续时间模式，以将输入语言文本与输出声学特征对齐。如图1另外所示，音频特征和视觉特征两者可以用作自回归输出。此外，还可以将风格类型和情绪类型添加至编码语言特征中，用于控制视听风格。

平台可以使用各种技术来基于频谱图帧生成音频波形，并且提供音频波形作为输出。同样，平台也可以生成并输出对应视频。

以此方式，本文中的一些实现方式通过利用确定输入文本构成要素的各个时间性持续时间的持续时间模型来允许与语音到文本合成相关联的更准确的音频和视频输出生成。

图2是其中可以实现本文中描述的系统和/或方法的示例环境200的图。如图2所示，环境200可以包括用户设备210、平台220和网络230。环境200的设备可以经由有线连接、无线连接或有线连接和无线连接的组合进行互连。

用户设备210包括能够接收、生成、存储、处理和/或提供与平台220相关的信息的一个或更多个设备。例如，用户设备210可以包括计算设备(例如，台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如，智能电话、无线电话等)、可穿戴设备(例如，一副智能眼镜或智能手表)或类似设备。在一些实现方式中，用户设备210可以从平台220接收信息和/或向平台220发送信息。

平台220包括能够使用持续时间通知注意力网络生成音频波形用于文本到语音合成的一个或更多个设备，如本文中其他地方所描述的。在一些实现方式中，平台220可以包括云服务器或云服务器组。在一些实现方式中，平台220可以被设计成模块化的，使得软件组件可以根据特定需要被换入或换出。这样，可以容易地和/或快速地重新配置平台220以用于不同的用途。

在一些实现方式中，如所示出的，平台220可以被托管(hosted)在云计算环境222中。值得注意的是，虽然本文中描述的实现方式将平台220描述为被托管在云计算环境222中，但是在一些实现方式中，平台220不是基于云的(即，可以在云计算环境外部实现)或者可以是部分基于云的。

云计算环境222包括托管平台220的环境。云计算环境222可以提供计算、软件、数据访问、存储等服务，这些服务不需要终端用户(例如，用户设备210)了解托管平台220的系统以及/或者设备的物理位置和配置。如所示出的，云计算环境222可以包括一组计算资源224(被统称为“计算资源(computing resources)224”并且被单独称为“计算资源(computing resource)224”)。

计算资源224包括一个或更多个个人计算机、工作站计算机、服务器设备或其他类型的计算和/或通信设备。在一些实现方式中，计算资源224可以托管平台220。云资源可以包括在计算资源224中执行的计算实例、在计算资源224中提供的存储设备、由计算资源224提供的数据传输设备等。在一些实现方式中，计算资源224可以经由有线连接、无线连接或有线连接和无线连接的组合与其他计算资源224进行通信。

进一步如图2所示，计算资源224包括一组云资源，例如一个或更多个应用程序(“application，APP”)224-1、一个或更多个虚拟机(“virtual machine，VM”)224-2、虚拟化存储装置(“virtualized storage，VS”)224-3、一个或更多个管理程序(“hypervisor，HYP”)224-4等。

应用程序224-1包括一个或更多个软件应用程序，其可以被提供给用户设备210和/或传感器设备220或者由用户设备210和/或传感器设备220访问。应用程序224-1无需在用户设备210上安装和执行软件应用程序。例如，应用程序224-1可以包括与平台220相关的软件和/或能够通过云计算环境222提供的任何其他软件。在一些实现方式中，一个应用程序224-1可以通过虚拟机224-2向或从一个或更多个其他应用程序224-1发送信息/接收信息。

虚拟机224-2包括机器(例如，计算机)的软件实现，该机器执行程序，类似于物理机。虚拟机224-2可以是系统虚拟机，也可以是进程虚拟机，这取决于虚拟机224-2对任何真实机的使用和对应程度。系统虚拟机可以提供完整系统平台，其支持完整操作系统(“operating system，OS”)的执行。进程虚拟机可以执行单个程序，并且可以支持单个进程。在一些实现方式中，虚拟机224-2可以代表用户(例如，用户设备210)执行，并且可以管理云计算环境222的基础设施，例如数据管理、同步或长期数据传输。

虚拟化存储224-3包括一个或更多个存储系统和/或一个或更多个设备，该一个或更多个设备在计算资源224的存储系统或设备内使用虚拟化技术。在一些实现方式中，在存储系统的上下文内，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指代逻辑存储从物理存储的抽象(或分离)，使得可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员灵活地管理终端用户的存储。文件虚拟化可以消除在文件级别存取的数据与物理地存储文件的位置之间的依赖关系。这可以优化存储使用、服务器整合和/或无中断文件迁移的性能。管理程序(Hypervisor)224-4可以提供硬件虚拟化技术，其允许多个操作系统(例如，“客户操作系统”)在例如计算资源224的主机计算机上同时执行。管理程序224-4可以向客户操作系统提供虚拟操作平台，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。

网络230包括一个或更多个有线网络和/或无线网络。例如，网络230可以包括蜂窝网络(例如，第五代(fifth generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(Public Land Mobile Network,PLMN)、局域网(Local Area Network,LAN)、广域网(WideArea Network,WAN)、城域网(Metropolitan Area Network,MAN)、电话网络(例如，公共交换电话网络(Public Switched Telephone Network,PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等、以及/或者这些或其他类型网络的组合。

图2所示的设备和网络的数目和布置被作为示例提供。实际上，与图2所示的这些设备和/或网络相比，可以存在更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或者排列不同的设备和/或网络。此外，图2所示的两个或更多个设备可以在单个设备内实现，或者图2所示的单个设备可以被实现为多个分布式设备。另外地或可替选地，环境200的一组设备(例如，一个或更多个设备)可以执行被描述为由环境200的另一设备组执行的一个或更多个功能。

图3是设备300的示例组件的图。设备300可以对应于用户设备210和/或平台220。如图3所示，设备300可以包括总线310、处理器320、存储器330、存储部件340、输入组件350、输出组件360和通信接口370。

总线310包括允许设备300的组件之间的通信的组件。处理器320以硬件、固件或硬件和软件的组合来实现。处理器320是中央处理单元(central processing unit，CPU)、图形处理单元(graphics processing unit，GPU)、加速处理单元(accelerated processingunit，APU)、微处理器、微控制器、数字信号处理器(digital signal processor，DSP)、现场可编程门阵列(field-programmable gate array，FPGA)、专用集成电路(application-specific integrated circuit，ASIC)或另一类型的处理组件。在一些实现方式中，处理器320包括一个或更多个能够被编程以执行功能的处理器。存储器330包括随机存取存储器(random access memory，RAM)、只读存储器(read only memory，ROM)以及/或者存储供处理器320使用的信息和/或指令的另一类型的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)。

存储组件340存储与设备300的操作和使用相关的信息和/或软件。例如，存储组件340可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、致密盘(compact disc，CD)、数字通用盘(digital versatile disc，DVD)、软盘、盒式磁带、磁带和/或另一类型的非暂态计算机可读介质以及相应的驱动器。

输入组件350包括允许设备300例如通过用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)接收信息的组件。附加地或替选地，输入组件350可以包括用于感测信息的传感器(例如，全球定位系统(global positioning system，GPS)组件、加速度计、陀螺仪和/或致动器)。输出组件360包括提供来自设备300的输出信息的组件(例如，显示器、扬声器和/或一个或更多个发光二极管(light-emitting diode，LED))。

通信接口370包括类似收发器的组件(例如，收发器和/或单独的接收器和发送器)，该组件使设备300能够例如通过有线连接、无线连接或有线连接和无线连接的组合与其他设备进行通信。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如，通信接口370可以包括以太网接口、光接口、同轴接口、红外接口、射频(radio frequency，RF)接口、通用串行总线(universal serial bus，USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备300可以执行本文中描述的一个或更多个处理。设备300可以响应于处理器320执行由非暂态计算机可读介质例如存储器330和/或存储组件340存储的软件指令来执行这些处理。计算机可读介质在本文中被定义为非暂态存储器设备。存储器设备包括单个物理存储设备内的存储器空间或分布在多个物理存储设备上的存储器空间。

软件指令可以通过通信接口370从另一计算机可读介质或从另一设备读入至存储器330和/或存储组件340中。当被执行时，存储在存储器330和/或存储组件340中的软件指令可以使处理器320执行本文中描述的一个或更多个处理。

附加地或替选地，可以使用硬件连线电路来代替软件指令或者与软件指令组合以执行本文中描述的一个或更多个处理。因此，本文中描述的实现方式不限于硬件电路和软件的任何特定组合。

图3所示的组件的数目和排列被作为示例提供。实际上，与图3所示的这些组件相比，设备300可以包括更多的组件、更少的组件、不同的组件或排列不同的组件。附加地或替选地，设备300的一组组件(例如，一个或更多个组件)可以执行被描述为由设备300的另一组组件执行的一个或更多个功能。

图4是用于使用针对文本到语音合成的持续时间通知注意力网络来生成音频波形和对应视频的示例处理400的流程图。在一些实现方式中，图4的一个或更多个处理块可以通过平台220执行。在一些实现方式中，图4的一个或更多个处理块可以通过与平台220分离或包括平台220的另一设备或另一组设备例如用户设备210来执行。

如图4所示，处理可以包括由设备接收包括文本构成要素序列的文本输入(块410)。

例如，平台220可以接收要被转换成音频输出的文本输入。文本构成要素可以包括字符、音素、n-gram、单词、字母等。文本构成要素序列可以形成句子、短语等。

如图4进一步所示，处理可以包括由设备使用持续时间模型来确定文本构成要素的各个时间性持续时间(块420)。

持续时间模型可以包括接收输入文本构成要素并确定输入文本构成要素的时间性持续时间的模型。平台220可以训练持续时间模型。例如，平台220可以使用机器学习技术来分析数据(例如，诸如历史数据等的训练数据)并创建持续时间模型。机器学习技术可以包括例如有监督和/或无监督技术，例如，人工网络、贝叶斯统计、学习自动机、隐马尔可夫建模、线性分类器、二次分类器、决策树、关联规则学习等。

平台220可以通过对齐已知持续时间的频谱图帧和文本构成要素序列来训练持续时间模型。例如，平台220可以使用基于HMM的强制对齐来确定输入文本序列的文本构成要素的基础真实持续时间(ground truth duration)。平台220可以通过利用已知持续时间的预测频谱图帧或目标频谱图帧以及包括文本构成要素的已知输入文本序列来训练持续时间模型。

平台220可以将文本构成要素输入至持续时间模型中，并且基于模型的输出确定识别文本构成要素的各个时间性持续时间的信息或与文本构成要素的各个时间性持续时间相关联的信息。如下所述，识别各个时间性持续时间的信息或与各个时间性持续时间相关联的信息可以用于生成第二频谱组。

如图4进一步所示，处理可以包括基于文本构成要素序列生成第一频谱组(块430)。

例如，平台220可以生成对应于文本构成要素的输入序列的文本构成要素的输出频谱。平台220可以利用CBHG模块来生成输出频谱。CBHG模块可以包括一维卷积滤波器存储体、高速通道网络组、双向门控循环单元(gated recurrent unit，GRU)、循环神经网络(recurrent neural network，RNN)和/或其他组件。

在一些实现方式中，输出频谱可以是mel频率倒谱(mel-frequency cepstrsum，MFC)频谱。输出频谱可以包括用于生成频谱图帧的任何类型的频谱。

如图4进一步所示，处理可以包括基于第一频谱组和文本构成要素序列的各个时间性持续时间生成第二频谱组(块440)。

例如，平台220可以使用第一频谱组和识别文本构成要素的各个时间性持续时间的信息或与文本构成要素的各个时间性持续时间相关联的信息来生成第二频谱组。

作为示例，平台220可以基于对应于频谱的基本文本构成要素的各个时间性持续时间来复制第一频谱组中的各种频谱。在一些情况下，平台220可以基于复制因子、时间因子等来复制频谱。换言之，持续时间模型的输出可以用于确定下述因子，通过所述因子来复制特定频谱、生成附加频谱等。

如图4进一步所示，处理可以包括基于第二频谱组生成频谱图帧(块450)。

例如，平台220可以基于第二频谱组生成频谱图帧。共同地，第二频谱组形成频谱图帧。如本文中其他地方所提及的，使用持续时间模型生成的频谱图帧可以更准确地类似于目标帧或预测帧。以此方式，本文中的一些实现方式提高了TTS合成的准确度、提升了生成语音的自然性、改善了生成语音的韵律等。

如图4进一步所示，处理可以包括基于频谱图帧生成音频波形(460)。

例如，平台220可以基于频谱图帧生成音频波形，并且提供音频波形用于输出。作为示例，平台220可以向输出组件(例如，扬声器等)提供音频波形、可以向另一设备(例如，用户设备210)提供音频波形、可以向服务器或另一终端传输音频波形等。

如图4进一步所示，处理可以包括由设备生成与音频波形相对应的视频信息。

最后，如图4所示，处理可以包括提供音频波形和对应视频作为输出。

尽管图4示出了处理400的示例块，但是在一些实现方式中，与图4中描绘的这些块相比，处理400可以包括更多的块、更少的块、不同的块或排列不同的块。附加地或替选地，处理400的块中的两个或更多个块可以并行执行。

前述公开内容提供了说明和描述，但是并非旨在为穷举的或者将实现方式限制为所公开的精确形式。鉴于以上公开内容，可以进行修改和变型，或者可以从实现方式的实践中获得修改和变型。

如本文中使用的，术语组件旨在被广义地解释为硬件、固件或者硬件和软件的组合。

将明显的是，本文中所描述的系统和/或方法可以以不同形式的硬件、固件、或者硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码并不限制实现方式。因此，本文中在不参考特定软件代码的情况下描述了系统和/或方法的操作和行为——应当理解的是，可以将软件和硬件设计成基于本文中的描述实现系统和/或方法。

即使在权利要求中记载了和/或在说明书中公开了特征的特定组合，这些组合也并非旨在限制可能实现方式的公开内容。实际上，这些特征中的许多特征可以以未在权利要求中具体记载和/或在说明书中公开的方式组合。尽管以下所列出的每个从属权利要求可以直接从属于仅一个权利要求，但是可能的实现方式的公开内容包括每个从属权利要求与权利要求集中的每一个其他权利要求组合。

在本文中使用的元件、动作或指令均不应当被解释为关键或必要的元件、动作或指令，除非对此明确地描述。另外，如本文中所使用的，“一种”和“一个”旨在包括一个或更多个项，并且可以与“一个或更多个”互换使用。此外，如本文中所使用的，术语“组(set)”旨在包括一个或更多个项(例如，相关项、不相关项、相关项与不相关项的组合等)，并且可以与“一个或更多个”互换使用。在旨在仅一个项的情况下，使用术语“一个”或类似语言。另外，如本文中所使用的，术语“有(has)”、“具有(have)”、“具有(having)”等旨在为开放式术语。此外，短语“基于”旨在表示“至少部分地基于”，除非另有明确说明。

Claims

1.一种方法，包括：

由设备接收包括文本构成要素序列的文本输入；

由所述设备并使用持续时间模型来确定所述文本构成要素的各个时间性持续时间；

由所述设备基于所述文本构成要素序列生成第一频谱组；

由所述设备基于所述第一频谱组和所述文本构成要素序列的所述各个时间性持续时间生成第二频谱组；

由所述设备基于所述第二频谱组生成频谱图帧；

由所述设备基于所述频谱图帧生成音频波形；

由所述设备生成与所述音频波形相对应的视频信息；以及

由所述设备基于所述视频信息提供所述音频波形和对应视频作为所述设备的输出。

2.根据权利要求1所述的方法，还包括：

训练所述持续时间模型。

3.根据权利要求1所述的方法，其中，所述文本输入通过以下获得：

接收包括对应输入音频波形的输入视频作为输入；

由所述设备生成与所述输入音频波形相对应的输入视频信息；

由所述设备基于所述输入音频波形生成输入频谱图帧；

由所述设备基于所述输入频谱图帧生成第一输入频谱组；

由所述设备基于所述第一输入频谱组生成第二输入频谱组；以及

由所述设备并使用所述持续时间模型确定所述文本输入。

4.根据权利要求1所述的方法，其中，所述文本构成要素是音素或字符。

5.根据权利要求1所述的方法，还包括：

由所述设备接收与情绪状态相对应的信息，所述情绪状态与所述文本输入相关联，以及

其中，作为所述输出提供的所述音频波形和对应视频基于与所述情绪状态相对应的所述信息。

6.根据权利要求1所述的方法，其中，同时执行由所述设备基于所述视频信息提供所述音频波形和所述对应视频作为所述设备的输出。

7.根据权利要求2所述的方法，其中，所述训练持续时间模型包括多任务训练。

8.根据权利要求1所述的方法，其中，输出的音频波形和输出的对应视频被应用于虚拟人物。

9.根据权利要求1所述的方法，其中，所述第二频谱组包括梅尔频率倒谱频谱。

10.根据权利要求2所述的方法，其中，训练所述持续时间模型包括使用预测帧组和训练文本构成要素。

11.一种设备，包括：

至少一个存储器，所述至少一个存储器被配置成存储程序代码；

至少一个处理器，所述至少一个处理器被配置成读取所述程序代码并且按照由所述程序代码指示的进行操作，所述程序代码包括：

接收代码，所述接收代码被配置成使所述至少一个处理器接收包括文本构成要素序列的文本输入；

确定代码，所述确定代码被配置成使所述至少一个处理器使用持续时间模型确定所述文本构成要素的各个时间性持续时间；

生成代码，所述生成代码被配置成使所述至少一个处理器：

基于所述文本构成要素序列生成第一频谱组；

基于所述第一频谱组和所述文本构成要素序列的各个时间性持续时间生成第二频谱组；

基于所述第二频谱组生成频谱图帧；

基于所述频谱图帧生成音频波形；

生成与所述音频波形相对应的视频信息；以及

提供代码，所述提供代码被配置成使所述至少一个处理器提供所述音频波形和对应视频作为输出。

12.根据权利要求11所述的设备，其中，所述程序代码还包括被配置成训练所述持续时间模型的训练代码。

13.根据权利要求11所述的设备，其中，所述接收代码被配置成使所述至少一个处理器接收的所述文本输入由所述程序代码获得，所述程序代码还包括：

输入接收代码，所述输入接收代码被配置成使所述至少一个处理器接收包括对应输入音频波形的输入视频作为输入；

生成输入代码，所述生成输入代码被配置成使所述至少一个处理器：

生成与所述输入音频波形相对应的输入视频信息；

基于所述输入音频波形生成输入频谱图帧；

基于所述输入频谱图帧生成第一输入频谱组；以及

基于所述第一输入频谱组生成第二输入频谱组；以及

输入确定代码，所述输入确定代码被配置成通过使用所述持续时间模型根据所述第二输入频谱组提供所述文本输入。

14.根据权利要求11所述的设备，其中，所述文本构成要素是音素或字符。

15.根据权利要求11所述的设备，其中，所述接收代码还被配置成使所述至少一个处理器接收与情绪状态相对应的信息，所述情绪状态与所述文本输入相关联，并且其中，所述提供代码还被配置成基于与所述情绪状态相对应的信息来提供所述音频波形和所述对应视频作为所述输出。

16.根据权利要求11所述的设备，其中，所述提供代码还被配置成同时提供所述音频波形和所述对应视频作为所述输出。

17.根据权利要求12所述的设备，其中，所述训练代码被配置成使用多任务训练来训练所述持续时间模型。

18.根据权利要求11所述的设备，其中，所述提供代码还被配置成提供所述音频波形和所述对应视频作为所述输出应用于虚拟人物。

19.根据权利要求12所述的设备，其中，所述训练代码被配置成使用预测帧组和训练文本构成要素来训练所述持续时间模型。

20.一种存储指令的非暂态计算机可读介质，所述指令包括如下一个或更多个指令：当由设备的一个或更多个处理器执行一个或更多个指令时，使所述一个或更多个处理器：

接收包括文本构成要素序列的文本输入；

使用持续时间模型确定所述文本构成要素的各个时间性持续时间；

基于所述文本构成要素序列生成第一频谱组；

基于所述第二频谱组生成频谱图帧；

基于所述频谱图帧生成音频波形；

生成与所述音频波形相对应的视频信息；以及

提供所述音频波形和对应视频作为输出。