CN113761841B

CN113761841B - 将文本数据转换为声学特征的方法

Info

Publication number: CN113761841B
Application number: CN202110419629.XA
Authority: CN
Inventors: 林诗伦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2023-07-25
Anticipated expiration: 2041-04-19
Also published as: EP4235485A4; JP2024506049A; US20230087916A1; WO2022222757A1; EP4235485A1; CN113761841A

Abstract

本公开涉及人工智能服务领域，更具体地涉及一种将文本数据转换为声学特征的方法、电子设备及计算机可读存储介质，该方法利用一种能够多个转换器进行密集连接，并利用多头注意力层对不同转换器的输出进行可学习融合的高度融合编码器，来对文本数据对应的文本特征的融合过程进行学习，进而提高所提取声学特征的准确性和丰富性，从而能够鲁棒地生成自然的合成语音。本公开还利用一种长度调整器来代替编码器和解码器之间的注意力层，以解决注意力层带来的不稳定性的影响，从而能够鲁棒地生成自然的合成语音。本公开还利用一种非自回归的单层RNN结构的解码器来减少暴露偏差和局部信息偏好带来的不利影响，从而提高解码器解码的效率。

Description

将文本数据转换为声学特征的方法

技术领域

本公开涉及人工智能服务领域，更具体地涉及一种将文本数据转换为声学特征的方法、电子设备及计算机可读存储介质。

背景技术

目前已经提出了从文本到语音(Text-To-Speech，TTS)技术，来将文本数据转换为语音。TTS技术同时运用语言学和心理学，通过神经网络的设计，把文字智能地转化为自然的语音流。然而当前的TTS技术仍存在合成的语音音律停顿不自然、存在机器音、漏词漏句等问题，利用TTS技术合成的语音与真人朗读的语音之间仍存在明显差异。

目前TTS技术涉及的神经网络模型通常是基于注意力机制(attentive)的。注意力机制将编码器编码的序列和注意力层编码的注意力权重输入至解码器，能够较好的解决提高TTS技术处理文本数据的能力，提高神经网络模型的效率。使用注意力机制的神经网络模型中的编码器和解码器通常是相同架构的，例如，都是基于转换器(transformer)架构的。目前还提出了使用自回归的(Autoregressive)神经网络模型来提高合成语音的质量。

然而，注意力机制将减慢模型的收敛速度，使得生成声音特征不够稳定，并且在生成长句的声音数据时鲁棒性不足。相同架构的编码器和解码器会导致声学特征可能不符合从文本数据中提取出的文本条件(例如，需要保证合成的语音不会漏词)，或者从长文本中提取出的文本特征不够准确。而自回归的神经网络模型则有可能会削弱文本条件和合成的语音之间的依赖性，从而导致漏词漏句的情况。

因此，需要对现有的TTS技术进行进一步的改进，以更加鲁棒地合成更接近真人朗读的语音。

发明内容

本公开的实施例提供了一种将文本数据转换为声学特征的方法、电子设备及计算机可读存储介质。

本公开的实施例提供了一种将文本数据转换为声学特征的方法，包括：所述文本数据包括多个文本数据块，所述方法包括：对于多个文本数据块中的每个文本数据块，对所述文本数据块对应的隐藏文本特征和所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征进行粗融合处理，以获取至少一个粗融合文本特征；对所述至少一个粗融合文本特征进行细融合处理，以获取所述文本数据块对应的细融合文本特征；调整所述细融合文本特征对应的长度；以及将调整长度后的所述细融合文本特征转换成声学特征。

本公开实施例公开了一种电子设备，包括：一个或多个处理器；和一个或多个存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行上述的方法。

本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现上述方法。

根据本公开的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个方面或者上述各个方面的各种可选实现方式中提供的方法。

本公开的实施例提供一种将文本数据转换为声学特征的方法，该方法利用一种能够将多个转换器(transformer)与多头注意力层(multi-head attention layer)进行密集连接的高度融合(dense-fuse)编码器，来对文本数据对应的文本特征的融合过程进行学习，进而提高所提取声学特征的准确性和丰富性，从而能够鲁棒地生成自然的合成语音。

本公开的实施例还利用一种长度调整器来代替编码器和解码器之间的注意力层，以解决注意力层带来的不稳定性的影响，从而能够鲁棒地生成自然的合成语音。

本公开的实施例还利用一种非自回归的单层RNN结构的解码器来减少暴露偏差(exposure bias)和局部信息偏好(local information preference)带来的不利影响，从而提高解码器解码的效率以及解码出的声学特征的准确性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性实施例。

图1是示出根据本公开实施例的声学模型进行推理的场景的示例示意图。

图2是示出根据本公开实施例的将文本数据转换为声学特征的方法的流程图。

图3是示出根据本公开实施例的文本数据转换为声学特征的装置的示意图。

图4是示出根据本公开实施例的编码器的示意图。

图5是示出根据本公开实施例的编码器中的转换器的示意图。

图6是示出根据本公开实施例的长度调整器的示意图。

图7是示出根据本公开实施例的长度预测器的示意图。

图8A是示出根据本公开的实施例的声学模型的另一示意图。

图8B是使出根据本公开的实施例的方法的又一流程图。

图8C是示出训练图8A中的声学模型的训练流程示意图。

图9A是示出根据本公开的实施例的声学模型的再一示意图。

图9B是使出根据本公开的实施例的方法的又一流程图。

图9C是示出训练图9A中的声学模型的训练流程示意图。

图10是示出根据本公开实施例的声学模型的又一训练过程的示意图。

图11是示出根据本公开实施例的长度提取器的示例结构。

图12示出了根据本公开实施例的电子设备的示意图。

图13示出了根据本公开实施例的示例性计算设备的架构的示意图。

图14示出了根据本公开实施例的存储介质的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

为便于描述本公开，以下介绍与本公开有关的概念。

本公开可利用声学模型来实现所述将文本数据转换为声学特征的方法。下文中提及的编码器、解码器和长度调整器均为所述声学模型的组成部件。

本公开的声学模型可以是基于人工智能(Artificial intelligence，AI)的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如，对于本公开的声学模型而言，其能够以类似于人类阅读并理解多种不同语种的语言的方式，对该语种的语言进行翻译。人工智能通过研究各种智能机器的设计原理与实现方法，使本公开的声学模型具有理解多种不同语种的语言并将其翻译成另一种语种的语言的功能。

人工智能技术涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、自然语言处理和机器学习/深度学习等方向。

可选地，本公开中的声学模型采用了自然语言处理(Nature Languageprocessing,NLP)技术。自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向，其能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。由此，基于自然语言处理技术，本公开的声学模型可以分析输入的文本数据并提取文本数据中的特征，然后生成能够以人类朗读文本的方式的音频数据。

可选地，本公开的实施例采用的自然语言处理技术还可以是基于机器学习(Machine Learning,ML)和深度学习的。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。自然语言处理技术利用机器学习研究计算机怎样模拟或实现人类的学习语言的行为，通过分析已有的、已分类的文本数据来获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

可选地，下文中的可用于本公开的实施例的声学模型都可以是人工智能模型，尤其是基于人工智能的神经网络模型。通常，基于人工智能的神经网络模型被实现为无环图，其中神经元布置在不同的层中。通常，神经网络模型包括输入层和输出层，输入层和输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对在输出层中生成输出有用的表示。网络节点经由边全连接至相邻层中的节点，并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数据经由隐藏层、激活层、池化层、卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式，本公开对此不作限制。

本公开的实施例提供的方案涉及人工智能、自然语言处理和机器学习等技术，具体通过如下实施例进行说明。

本公开的实施例的声学模型具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。比如，该声学模型可以集成在终端中。终端可以是手机、平板电脑、笔记本电脑、台式计算机、个人计算机(PC，Personal Computer)、智能音箱或智能手表等，但并不局限于此。又比如，该声学模型可以集成在服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

可以理解的是，应用本公开的实施例的声学模型来进行推理的装置既可以是终端，也可以是服务器，还可以是由终端和服务器组成的系统。

可以理解的是，本公开的实施例的声学模型的将文本数据转换为声学特征的方法可以是在终端上执行的，也可以是在服务器上执行的，还可以是由终端和服务器共同执行的。

本公开实施例提供的声学模型还可以涉及云技术领域中的人工智能云服务。其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

其中，人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过应用程序接口(API，Application ProgrammingInterface)的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

图1是示出根据本公开实施例的声学模型进行推理的场景100的示例示意图。

目前，已经存在多种朗读应用。用户可以在其用户终端上安装的朗读应用，并向该朗读应用指示需要转换为音频数据的文本数据。接着用户终端可以通过网络向该应用的服务器传输文本数据转换请求，然后接收转换后的、与该文本数据对应的音频数据，然后将该音频数据播放出来。

服务器接收到待转换的文本数据后，利用声学模型对该文本数据进行转换以获得音频数据，然后向用户反馈音频数据(例如，图1中的与文本数据相对应的音频数据)。

用户可以对该音频数据进行打分。例如，如果用户认为该音频数据与文本数据的对应性较好，没有明显的漏词漏句，与真人朗读的效果接近，则用户可以对该音频数据给出较高的评分，而服务器可以将该文本数据-音频数据对作为用于实时训练声学模型的正样本。如果用户对该音频数据给出较低的评分，则服务器可以将该文本数据-音频数据对作为用于实时训练声学模型的负样本。

当然，服务器还可以使用其它的方式来获取用于训练该声学模型的样本。例如，服务器可以抓取当前互联网环境中已经存在的真人朗读文本的音频和对应的文本，然后，使用这样的真人朗读文本来对声学模型进行训练。例如，参照图1，服务器可以从数据库中获取文本，然后用于声学模型的训练。

目前用于将文本数据转换为音频数据的声学模型可能是基于注意力机制的自回归神经网络模型(例如，Tacotron)，或者是基于持续时间预测器的非自回归的前馈神经网络模型(例如，Fastspeech)。

Tacotron是基于注意力机制的自回归神经网络模型的一个示例。Y.Wang、R.Skerry-Ryan、D.Stanton、Y.Wu、R.J.Weiss、N.Jaitly、Z.Yang、Y.Xiao、Z.Chen、S.Bengio等研究者曾在“Tacotron:Towards end-to-end speech synthesis”一文中对Tacotron进行了详细介绍。在该文章中，提出Tacotron将语言特征和声学特征的生成合并到一个网络中，用海量数据进行端到端训练，这简化了传统的合成过程，并生成接近人类质量的高度自然语音。

然而，Tacotron仅能为域内文本(与训练文本类型/领域相同的文本)生成类人语音，而不能鲁棒地处理域外文本(与训练文本类型/领域不同的文本)。例如，Tacotron并不能很好的处理与训练文本的文本长度不同的测试文本。再例如，如果训练文本集中在新闻领域而测试文本集中在日常对话领域，Tacotron合成的测试文本的语音不够自然。造成Tacotron鲁棒性弱的原因大致可以分为以下几类。第一，Tacotron没有软注意机制来防止跳过、重复和错误发音。第二，Tacotron通过预测当前帧是否为停止帧来判断语音合成是否完成。因此，如果Tacotron对于停止帧的预测错误，就会导致提前截断和晚停等。第三，Tacotron采用基于监督的训练机制，该机制会引起训练期和推理期的不匹配(其又称为：暴露偏差)。此外，Tacotron采用了自回归解码器，而自回归解码器的局部信息偏好可能会削弱预测的声学特征与文本条件之间的依赖性，导致合成语音失败。

Fastspeech是基于持续时间预测器的非自回归的前馈神经网络模型的一个示例。Y.Ren、Y.Ruan、X.Tan、T.Qin、S.Zhao、Z.Zhao和T.-Y.Liu等研究者曾在“Fastspeech:Fast,robust and controllable text to speech”一文中提出依靠持续时间预测器代替注意力模块，消除了注意力失效和停帧预测带来的鲁棒性问题。然而，Fastspeech的合成语音的质量与Tacotron相比仍有差距。

此外，Tacotron的编码器和解码器类型相同，都是基于转换器(transformer)机制的。Fastspeech的编码器和解码器类型也都是基于转换器(transformer)机制的。相同架构的编码器和解码器会导致声学特征可能不符合从文本数据中提取出的文本条件，或者从长文本中提取出的文本特征不够准确。

本公开基于此，提供了一种将文本数据转换为声学特征的方法，包括：所述文本数据包括多个文本数据块，所述方法包括：对于多个文本数据块中的每个文本数据块，对所述文本数据块对应的隐藏文本特征和所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征进行粗融合处理，以获取至少一个粗融合文本特征；对所述至少一个粗融合文本特征进行细融合处理，以获取所述文本数据块对应的细融合文本特征；调整所述细融合文本特征对应的长度；以及将调整长度后的所述细融合文本特征转换成声学特征。该方法通过对隐藏文本特征进行粗融合处理和细融合处理，来对文本数据对应的文本特征的融合过程进行学习，进而提高所提取声学特征的准确性和丰富性，从而能够鲁棒地生成自然的合成语音。

本公开的实施例还利用一种长度调整器来代替编码器和解码器之间的注意力层，以解决注意力层带来的不稳定性的影响，从而能够鲁棒地生成自然的合成语音。本公开的实施例还利用一种非自回归的单层RNN结构的解码器来减少暴露偏差和局部信息偏好带来的不利影响，从而提高解码器解码的效率以及解码出的声学特征的准确性。

以下结合图2至图14对根据本公开实施例的进行详细介绍，以提高所提取声学特征的准确性和丰富性，从而使得声学模型能够鲁棒地生成自然的合成语音。

图2是示出根据本公开实施例的将文本数据转换为声学特征的方法200的流程图。根据本公开的实施例的方法200可以应用于任何的电子设备中。可以理解，电子设备可以是不同种类的硬件设备，例如个人数字助理(PDA)、音频/视频设备、移动电话、MP3播放器、个人计算机、膝上型计算机、服务器等等。例如，电子设备可以是图1中的服务器、用户终端、或由服务器和用户终端组成的系统等等。本领域技术人员应当理解本公开并不以此为限。

参见图2，在步骤S201中，对于多个文本数据块中的每个文本数据块，对所述文本数据块对应的隐藏文本特征和所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征进行粗融合处理，以获取至少一个粗融合文本特征；对所述至少一个粗融合文本特征进行细融合处理，以获取所述文本数据块对应的细融合文本特征。在步骤S202中，调整所述细融合文本特征对应的长度。在步骤S203中，将调整长度后的所述细融合文本特征转换成声学特征。

例如，本文中所述的文本数据块可以是组成图1中的待朗读文本的任意元素，例如，单词、句子、短语、段落、章节等等。本公开不对文本数据块的长度和语言类型进行任何限制，例如，文本数据块中可以包括英语、中文、印地语、俄罗斯语、日语、韩语等的文本信息，如中文的“爸爸你好”，英语的“Hello World”等。

可选地，可以采用各种能够从文本数据中提取文本特征的神经网络模型来执行步骤S201。可选地，该神经网络模型被实现为无环图，其中神经元布置在不同的层中。该神经网络模型包括输入层和输出层，输入层和输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对在输出层中生成输出有用的表示。网络节点经由边全连接至相邻层中的节点，并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数据经由多个隐藏层、多个激活层、多个池化层、多个卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式，本公开对此不作限制。

例如，所述文本数据块对应的隐藏文本特征(或所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征)可以是在生成粗融合文本特征和细融合文本特征的过程中产生的、非最终输出的任意特征向量，例如其可以是执行步骤S201的神经网络模型中的某个隐藏层、或某个卷积层、或某个激活层、或某个池化层的输出。

例如，对所述文本数据块对应的隐藏文本特征(和/或所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征)进行粗融合处理指示对该隐藏文本特征仅进行简单线性处理，且并未将该隐藏文本特征通过任何可学习/可训练的隐藏层。而对所述至少一个粗融合文本特征进行细融合处理指示对该至少一个粗融合文本特征通过至少一个可学习/可训练的隐藏层。粗融合处理可以以较大的限度保留某个隐藏文本特征中的信息，而细融合处理则可以对多个粗融合文本特征进行可学习的处理，提取更多层次更丰富的信息。

通常情况下，声学特征的长度是高于文本特征的，为此需要对文本特征进行长度扩充，使得文本特征能够被更好的解码成声学特征。当然在某些情况下，也可能对文本特征的长度进行缩减，以提高运算速度。因此，在步骤S202中，方法200调整了所述细融合文本特征对应的长度，使其能够更容易地被解码器解码。

在步骤S203中转换而成的声学特征融合有各种信息，例如，韵律信息、音素信息、声调信息、分词信息、情绪信息、文本信息、语义信息等。举例来说声学特征是可以直接被声码器(vocoder)解码的特征向量。例如，声学特征可以是待合成的语音的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents，MFCC)等等。

由于细融合文本特征通过对多种文本特征(例如隐藏文本特征和粗融合特征)进行了多层次和多长度的深度融合，由此，基于细融合文本特征生成的声学特征准确性和丰富性较高，从而可以合成更接近人声的语音。

由此，本公开的实施例提供一种将文本数据转换为声学特征的方法，该方法通过对不同文本数据块对应的隐藏文本特征进行粗融合处理和细融合处理，从而提高了所转换的声学特征的准确性和丰富性。基于此，本公开的实施例能够鲁棒地生成自然的合成语音。

图3是示出根据本公开实施例的文本数据转换为声学特征的装置300的示意图。以下，装置300又被称为声学模型300。以下以图3示出的声学模型为例来说明可用于执行方法200的神经网络模型的结构，本领域技术人员应当理解本公开并不以此为限。如图3所示，该声学模型包括编码器301、长度调整器302和解码器303。

例如，编码器301可以用于执行上述的步骤S201。也即，编码器301被配置为：对于多个文本数据块中的每个文本数据块，对所述文本数据块对应的隐藏文本特征和所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征进行粗融合处理，以获取至少一个粗融合文本特征；对所述至少一个粗融合文本特征进行细融合处理，以获取所述文本数据块对应的细融合文本特征。

进一步地，编码器301是可以一种基于转换器(transformer)结构的高度融合(dense-fuse)编码器。可选地，编码器301可以通过旁路连接将多个基本转换器密集地连接起来，将每个具有不同信息的转换器的输出以不可学习的方式(例如，粗融合处理)进行融合。编码器301中还可以包括一个多头注意力层(multi-head attention layer)，其进一步将多个基本转换器密集地连接起来，将每个具有不同信息的隐藏层的输出以可学习的方式(细融合处理)进行融合。由此，细融合文本特征融合有更丰富更精准的信息。

基于转换器结构的高度融合编码器能够获取更多的全局信息且训练快效率高，且能够利用自注意力机制(例如，多头注意力层)实现快速并行。可选地，编码器301中的每个转换器可以输出某个文本数据块对应的隐藏文本特征。

可选地，某个文本数据块对应的隐藏文本特征融合有该文本数据块的第一预测信息和第二预测信息，其中，所述第一预测信息是基于所述文本数据块预测的，所述第二预测信息是基于所述文本数据块后序的至少一个文本数据块预测的。

例如，第一预测信息可以是直接基于所述文本数据块而提取出的能够拼音信息、音素信息、语义信息、情绪信息等等。第二预测信息可以是基于后续文本数据块而提取出的情绪信息、语速信息等等。假设要朗读的文本为“今天天气真好”。在生成与词语“今天”相对应的隐藏文本特征时，需要考虑到后续词语“天气”和“真好”可能对其产生的影响。例如，“天气真好”表达了一种开心的情绪，那么基于“今天”相对应的隐藏文本特征合成的语音应当是轻快并自然，而不能是沉重的。当然，本领域技术人员应当理解，所述文本数据块对应的隐藏文本特征也可以融合有更多或更少的信息，本公开并不以此为限。

可选地，所述对所述文本数据块对应的隐藏文本特征和所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征进行粗融合处理还可以包括：对所述文本数据块后序的文本数据块对应的隐藏文本特征进行加法处理以得到所述文本数据块后序的文本数据块对应的粗融合文本特征，和/或对所述文本数据块对应的隐藏文本特征进行加法处理以得到所述文本数据块对应的粗融合文本特征。以下将参考图4进一步说明粗融合处理的过程，本公开在此不再赘述。当然，本领域技术人员应当理解，所述粗融合处理也可以包括更多或更少的处理方式，本公开并不以此为限。

可选地，所述对所述至少一个粗融合文本特征进行细融合处理还可以包括：以所述至少一个粗融合文本特征中的一个或多个粗融合文本特征作为查询特征，以所述文本数据块对应的隐藏文本特征作为值特征和/或键特征，和/或以所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征作为值特征和/或键特征，基于所述查询特征、值特征和键特征预测所述文本数据块对应的细融合文本特征。以下将参考图4进一步说明细融合处理的过程，本公开在此不再赘述。当然，本领域技术人员应当理解，所述细融合处理也可以包括更多或更少的处理方式，本公开并不以此为限。

例如，长度调整器302可以用于执行上述的步骤S202，以解决细融合文本特征与待生成的声学特征之间的长度不匹配问题。也即，长度调整器302被配置为：调整所述细融合文本特征对应的长度。长度调整器可以用来代替传统的声学模型中编码器301和解码器303之间的注意力层，以解决注意力层带来的不稳定性的影响，从而能够鲁棒地生成自然的合成语音。

例如，解码器303可以用于执行上述的步骤S203。也即，解码器303被配置为：将调整长度后的所述细融合文本特征转换成声学特征。可选地，解码器可以是非自回归的单层循环神经网络(Recurrent neural network：RNN)结构的。例如，解码器303的输入为调整长度后的所述细融合文本特征，所述解码器的输出为声学特征。相比于传统的声学模型中的基于转换器结构的自回归的解码器，非自回归的单层RNN结构的解码器更有利于文本条件生成，并能够减少暴露偏差和局部信息偏好带来的不利影响。

解码器303并没有采用强监督的方式来训练，而只将调整长度后的细融合文本特征反馈给解码器，这细融合文本特征提出了很高的要求。而上述的编码器301可以满足这些要求。

由此，本公开的实施例利用一种能够将多个转换器与多头注意力层进行密集连接的高度融合编码器，来对文本数据对应的文本特征的融合过程进行学习，进而提高所提取声学特征的准确性和丰富性，从而能够鲁棒地生成自然的合成语音。本公开的实施例还利用一种长度调整器来代替编码器和解码器之间的注意力层，以解决注意力层带来的不稳定性的影响，从而能够鲁棒地生成自然的合成语音。本公开的实施例还利用一种非自回归的单层RNN结构的解码器来减少暴露偏差和局部信息偏好带来的不利影响，从而提高解码器解码的效率以及解码出的声学特征的准确性。

图4是示出根据本公开实施例的编码器301的示意图。其中，编码器301中包括多个转换器。图5是示出根据本公开实施例的编码器301中的转换器的示意图。本领域技术人员应当理解图4和图5中示出的结构仅为示例，本公开并不以此为限。

参考图4，可选地，编码器301可以包括N个转换器、N个加法器和一个多头注意力层。其中，第n个转换器的输出与第n-1个加法器的输出均连接至第n个加法器的输入，第n个加法器的输出连接至第n+1个转换器的输入，所述多头注意力层的输入包括所述N个转换器的输出和第N个加法器的输出，其中，每个转换器输出一个隐藏文本特征，每个加法器输出一个粗融合文本特征，所述转换器的多头注意力层输出所述文本数据块对应的细融合文本特征，其中，n大于等于1且小于等于N，N为大于1的正整数。可选地，所述编码器还可以包括嵌入层和一维卷积网络，其示例也可以如图4所示。

对于第m个文本数据块，步骤S201中与粗融合处理相关的操作(也即，对所述文本数据块对应的隐藏文本特征和所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征进行粗融合处理以获取粗融合文本特征)可以以以下方式执行。

利用第N个转换器至第2个转换器以及第N个加法器至第2个加法器，生成N-1个隐藏文本特征和N-1个粗融合文本特征。

例如，对于第n个转换器和第n个加法器(n大于等于2且小于等于N)，首先利用第n个转换器，基于第n-1个粗融合文本特征，生成第m+N-n个文本数据块对应的隐藏文本特征。利用第n个加法器，基于第m+N-n个文本数据块对应的隐藏文本特征和第n-1个粗融合文本特征，生成第n个粗融合文本特征。例如，所述第n个粗融合文本特征为第m+N-n个文本数据块对应的隐藏文本特征和第n-1个粗融合文本特征之和。利用所述嵌入层，基于第m+N个文本数据块，生成第m+N个文本数据块对应的嵌入表示向量。利用所述一维卷积网络，基于第m+N个文本数据块对应的嵌入表示向量，生成包含第m+N个文本数据块的相对位置特征的上下文特征向量。利用第1个转换器，基于所述上下文特征向量，生成第m+N个文本数据块对应的隐藏文本特征。利用第1个加法器，基于第m+N个上下文特征向量和第m+N-1个文本数据块对应的隐藏文本特征，生成第1个粗融合文本特征，所述第1个粗融合文本特征为所述第m+N个上下文特征向量和所述第m+N-1个文本数据块对应的隐藏文本特征之和。

对于第m个文本数据块，步骤S201中与细融合处理相关的操作(也即，对所述至少一个粗融合文本特征进行细融合处理，以获取所述文本数据块对应的细融合文本特征)可以以下方式执行。

例如，利用多头注意力层，以第N个加法器输出的第N粗融合文本特征作为查询特征，以第m个文本数据块对应的隐藏文本特征至第m+N个文本数据块对应的隐藏文本特征作为值特征和键特征，生成第m个文本数据块对应的细融合文本特征。

图4中仅示出了编码器301包括4个转换器(例如示出的第4个转换器、第3个转换器、第2个转换器和第1个转换器)、4个加法器(示出为⊕，以下由上至下分别被称为第4个加法器、第3个加法器、第2个加法器、第1个加法器)、一个多头注意力层、一个嵌入层和一个一维卷积网络的示例。本领域技术人员理解应当本公开并不以此为限。

以图4中示出的N＝4，m＝2的情况来进行说明。假设编码器301要编码词序列{a，b，c，d，e，f}。此时，第m个文本数据块对应的词为“b”。

多头注意力层以第4个加法器输出的第4粗融合文本特征作为查询特征，以第2个文本数据块对应的隐藏文本特征至第6个文本数据块对应的隐藏文本特征作为值特征和键特征，生成第2个文本数据块对应的细融合文本特征。例如，多头注意力子层基于查询特征(Query特征，示出为Q)，通过计算值特征(Value特征，示出为V)的注意力分布，并将注意力分布该附加在键特征(Key特征，示出为K)上，从而计算包含“b”、“c”、“d”、“e”的自注意力信息的、对“b”、“c”、“d”、“e”的文本信息高度融合的细融合文本特征。

其中，利用第4个转换器，基于第3粗融合文本特征，生成第2个文本数据块(“b”)对应的隐藏文本特征。“b”对应的隐藏文本特征融合有第一预测信息和第二预测信息，其中，第一预测信息是基于文本数据块“b”预测的，第二预测信息是基于文本数据块“c”、“d”、“e”预测的。

利用第4个加法器，基于第2个文本数据块(“b”)对应的隐藏文本特征和第3粗融合文本特征，生成第4粗融合文本特征。所述第4粗融合文本特征为第2个文本数据块对应的隐藏文本特征和第3粗融合文本特征之和。

利用第3个转换器，基于第2粗融合文本特征，生成第3个文本数据块(“c”)对应的隐藏文本特征。“c”对应的隐藏文本特征融合有第一预测信息和第二预测信息，其中，第一预测信息是基于文本数据块“c”预测的，第二预测信息是基于文本数据块“d”、“e”预测的。

利用第3个加法器，基于第3个文本数据块(“c”)对应的隐藏文本特征和第2粗融合文本特征，生成第3粗融合文本特征。所述第3粗融合文本特征为第3个文本数据块对应的隐藏文本特征和第2粗融合文本特征之和。

利用第2个转换器，基于第1粗融合文本特征，生成第4个文本数据块(“d”)对应的隐藏文本特征。“d”对应的隐藏文本特征融合有第一预测信息和第二预测信息，其中，第一预测信息是基于文本数据块“d”预测的，第二预测信息是基于文本数据块“e”预测的。

利用第2个加法器，基于第4个文本数据块(“d”)对应的隐藏文本特征和第1个粗融合文本特征，生成第2个粗融合文本特征。所述第2个粗融合文本特征为第4个文本数据块对应的隐藏文本特征和第1个粗融合文本特征之和。

利用第1个转换器，基于“e”对应的上下文特征向量，生成第5个文本数据块(“e”)对应的隐藏文本特征，“e”对应的隐藏文本特征融合有第一预测信息，其中，第一预测信息是基于文本数据块“e”预测的。

利用第1个加法器，基于第5个上下文特征向量和第4个文本数据块对应的隐藏文本特征，生成第1个粗融合文本特征，所述第1个粗融合文本特征为第5个上下文特征向量和第4个文本数据块(“d”)对应的隐藏文本特征之和。

利用嵌入层(Embedding)，基于第5个文本数据块(“e”)，生成第5个文本数据块(“e”)对应的嵌入表示向量。然后利用一维卷积网络，基于第5个文本数据块(“e”)对应的嵌入表示向量，生成包含第5个文本数据块(“e”)的相对位置特征的上下文特征向量。一维卷积网络通过卷积操作能够捕获文本数据块(“e”)在整个词序列中的相对位置信息。

第1个转换器至第4个转换器的结构如图5所示，以下参照图5解释转换器如何基于文本数据块“e”对应上下文特征向量预测“e”对应的隐藏文本特征。

如图5所示，每个转换器都包括一个多头注意力子层，多个丢弃(dropout)层、多个子加法器、多个正则层、一维卷积子网络等。丢弃(dropout)层可以随机地使得前序隐藏层中的某些神经元不工作，以避免过拟合。

第1个转换器中的多头注意力子层以文本数据块“e”对应上下文特征向量作为查询特征、值特征和键特征，对文本数据块“e”对应上下文特征向量进行深度提取和融合。例如，多头注意力子层基于查询特征，通过计算键特征的注意力分布，并将注意力分布该附加在值特征上，从而计算包含“e”的自注意力信息的子特征向量。然后转换器对该子特征向量进行进一步处理，例如通过多个丢弃层、多个子加法器、多个正则层、一维卷积子网络等，对“e”对应上下文特征向量和包含“e”的自注意力信息的子特征向量进行进一步的特征提取和融合，从而预测出“e”对应的隐藏文本特征。

第1个转换器中的多头注意力子层以第1个粗融合文本特征作为查询特征、值特征和键特征，对第1个粗融合文本特征进行深度提取和融合，从而预测出“d”对应的隐藏文本特征。由于所述第1个粗融合文本特征为“e”的上下文特征向量和第4个文本数据块(“d”)经第1个转换器输出的隐藏文本特征之和，其预测出的“d”对应的隐藏文本特征包括“e”的信息和“d”的信息。以此可类推出其他转换器的深度融合和提取过程，本公开在此不再赘述。

可选地，以上所有的特征向量(隐藏文本特征、粗融合文本特征、细融合文本特征)都可以是256维或1024维的数值向量，其可以根据声学模型的配置精度来进行自定义的配置。

从特征融合的角度来看，如图4所示的密集连接的方式可以使得下层转换器输出的特征可以被上层的转换器重用。由于不同转换器提取的特征具有不同的信息，如图4所示的特征重用的方式可以增强编码器301最终的表示能力。从训练的角度来看，上层转换器的监督信号可以更好的回传到下层转换器，起到类似深度监督(强监督)的作用，使编码器更容易训练。

编码器301通过加法器直接用于粗融合文本特征的计算，其可以保持粗融合文本特征的迭代过程中的长度不变，并且加法器叠加的两个特征的权重相同，粗融合处理的过程更快。

编码器301还应用多头注意力层实现了多个文本特征向量的组合加权叠加，通过这种可学习的方式，将不同的隐藏文本特征向量和粗融合文本特征向量中融合的信息组合起来，得到信息丰富的细融合文本特征向量。

由此，本公开的实施例利用一种能够将多个转换器与多头注意力层进行密集连接的高度融合编码器，来对文本数据对应的文本特征的融合过程进行学习，进而提高所提取声学特征的准确性和丰富性，从而能够鲁棒地生成自然的合成语音。

图6是示出根据本公开实施例的长度调整器302的示意图。图7是示出根据本公开实施例的长度预测器的示意图。

如图6所示，长度调整器302包括长度预测器和长度规整器。

其中，上述步骤S202还包括：利用长度调整器中的长度预测器，预测所述细融合文本特征对应的声学特征的长度；以及利用长度调整器中的长度规整器，基于所述细融合文本特征对应的声学特征的长度以及所述细融合文本特征，调整所述细融合的文本特征对应的长度以生成调整长度后的细融合文本特征。

如图7所示，长度预测器包括级联的多个一维卷积神经网络、双向门控循环单元、和线性层，其中，所述一维卷积神经网络用于提取所述细融合文本特征中的相对位置特征，所述双向门控循环单元用于提取所述细融合文本特征中的全局上下文特征。

其中，所述级联的多个一维卷积神经网络的数量为K，K大于零，所述利用长度调整器中的长度预测器，预测所述细融合文本特征对应的声学特征的长度还包括：利用第1个一维卷积神经网络，基于所述细融合文本特征，提取所述细融合文本特征中的第1个相对位置特征；利用第2个一维卷积神经网络至第K个一维卷积神经网络，生成第K个相对位置特征，其中，对于第k个长度预测层，k大于等于2且小于等于K，利用第k个长度预测层中的一维卷积神经网络，基于第k-1相对位置特征，生成第k相对位置特征；利用所述双向门控循环单元，基于第K相对位置特征，生成全局上下文特征，利用所述线性层，基于全局上下文特征，生成所述细融合文本特征对应的声学特征的长度。

图7中示出了一种长度预测器的示例，其包括3个级联的以为卷积神经网络、一个双向门控循环单元和一个线性层。其中第1个一维卷积神经网络，以上述的细融合文本特征为输入，以所述细融合文本特征中的第1个相对位置特征为输出，其中第1个相对位置特征中不仅包括细融合文本特征中的相对位置特征，还包括细融合文本特征中包括的其他的与文本数据块有关的信息。接着第2个一维卷积神经网络以第1个相对位置特征为输入，以第2个相对位置特征为输出，第3个一维卷积神经网络以2个相对位置特征为输入以第3个相对位置特征为输出。接着双向门控循环单元，基于第3个相对位置特征，生成全局上下文特征。最后，线性层，基于全局上下文特征，生成所述细融合文本特征对应的声学特征的长度。

由此，通过一维卷积神经网络来处理所述细融合文本特征，其能够很好地提取到细融合文本特征中的局部位置相关的信息(local position-related information)。考虑到声学特征的长度不仅与该文本数据块的相对位置信息相关，还与全局上下文信息(global context information)相关，因此采用双向门控循环单元来提取相关信息，并通过线性层将该信息映射至一个标量(scalar)上。

由此长度调整器302可以解决细融合文本特征与待生成的声学特征之间的长度不匹配问题。长度调整器302可以用来代替传统的声学模型中编码器和解码器之间的注意力层，以解决注意力层带来的不稳定性的影响，从而能够鲁棒地生成自然的合成语音。

图8A是示出根据本公开的实施例的声学模型的另一示意图。图8B是使出根据本公开的实施例的方法200的又一流程图。图8C是示出训练图8A中的声学模型的训练流程示意图。

如图8A所示，所述声学模型300还可以包括合成层和线性层。可选地，声学模型300还可以包括声码器(vocoder)。由此，参见图8B，方法200还可以包括步骤S204至步骤S206。其中，在步骤S204中，可以利用合成层，将多个文本数据块对应的多个声学特征进行组合以生成组合声学特征；在步骤S205中，可以利用线性层，对组合声学特征进行线性调整。

可选地还可以利用声码器将所述线性调整后的组合声学特征直接转换为音频数据输出。可选地，声码器可以是轻量级的神经网络，其中可以使用LPC-Net技术。本领域技术人员应当理解声码器还可以是其他类型的声码器，本公开并不以此为限。

可选地，所述编码器、所述长度调整器、所述解码器、所述合成层和所述线性层是基于多组训练样本集训练的，其中所述多组训练样本集中的每个训练样本包括训练文本数据以及所述训练文本数据对应的目标声学特征。

可选地，所述多组训练样本集中的一部分训练样本可以由一位专业的中文女演讲者在录音棚里录制的。训练样本集中的文本内容涵盖了许多领域，平均句子长度为70个字符，用于训练的语句数量为9600个。训练使用的语句数量为9600个。可选地，所述多组训练样本集中的另一部分训练样本可以是由在线有声读物中提取的12000个音频文件组成，该音频文件由一位节奏感丰富的演员录制。文本可以是小说，平均句子长度为86个字符。以上的音频可以以是16kHz采样，并进行16位量化。可选地，所述多组训练样本集中的再一部分训练样本可以是选自生活化的录音，例如涵盖政治、体育、娱乐、文学、烹饪等领域的对话样本。这些对话样本中可以包括大量的热门词汇和较长的段落。

可选地，所述编码器、所述解码器、所述合成层和所述线性层的训练包括：利用所述编码器、所述解码器、所述合成层和所述线性层(可选地，还包括利用长度调整器)，将所述训练文本数据转换为所述线性调整后的组合声学特征，基于所述线性调整后的组合声学特征和所述训练文本数据对应的目标声学特征，计算第一目标函数对应的值，基于所述第一目标函数对应的值，调整所述编码器、所述解码器、所述合成层和所述线性层中的神经元的参数，以使得所述第一目标函数对应的值收敛。

可选地，第一目标函数指示：所述线性调整后的组合声学特征和所述训练文本数据对应的目标声学特征之间的相似度。也即，所述声学模型的训练是将所述线性调整后的组合声学特征和所述训练文本数据对应的目标声学特征的相似度最大化的过程。第一目标函数又被称为第一损失函数。

由此，经过以上训练过程，声学模型可以被训练完成。当任意文本通过所述编码器、所述长度调整器、所述解码器、所述合成层、所述线性层和所述第一声码器，都能够得到自然度较高的语音。

图9A是示出根据本公开的实施例的声学模型的再一示意图。图9B是使出根据本公开的实施例的方法200的又一流程图。图9C是示出训练图9A中的声学模型的训练流程示意图。

如图9A所示，所述声学模型300还可以包括后处理网络。可选地，所述声学模型300还可以包括第二声码器(vocoder)。由此，如图9B，方法200还可以包括步骤S204至步骤S207。其中，在步骤S204中，利用合成层，将多个文本数据块对应的多个声学特征进行组合以生成组合声学特征；在步骤S205中，利用线性层，对组合声学特征进行线性调整；在步骤S206中，利用后处理网络，将所述线性调整后的组合声学特征进行序列调整，在步骤S207中，利用声码器，将所述序列调整后的组合声学特征转换为音频数据输出。

可选地，所述编码器、所述长度调整器、所述解码器、所述合成层、所述线性层和所述后处理网络是基于多组训练样本集训练的，其中所述多组训练样本集中的每个训练样本包括训练文本数据以及所述训练文本数据对应的目标声学特征。其中，所述多组训练样本集可以与图8A至图8C中描述的实施例相同，本领域技术人员应当理解本公开并不以此为限。

可选地，所述编码器、所述解码器、所述合成层、所述线性层和所述后处理网络的训练可以包括：利用所述编码器、所述解码器、所述合成层、所述线性层和所述后处理网络(可选地，还包括利用长度调整器)，将所述训练文本数据转换为所述序列调整后的组合声学特征，基于所述序列调整后的组合声学特征和所述训练文本数据对应的目标声学特征，计算第二目标函数对应的值，基于所述第二目标函数对应的值，调整所述编码器、所述解码器、所述合成层、所述线性层和所述后处理网络中的神经元的参数，以使得所述第二目标函数对应的值收敛。

可选地，第二目标函数指示：所述序列调整后的组合声学特征和所述训练文本数据对应的目标声学特征之间的相似度。也即，所述声学模型的训练是将所述序列调整后的组合声学特征和所述训练文本数据对应的目标声学特征的相似度最大化的过程。第二目标函数又被称为第二损失函数。

可选地，所述编码器、所述长度调整器、所述解码器、所述合成层、所述线性层和所述后处理网络的训练还可以包括：计算所述第一目标函数对应的值和第二目标函数对应的值的加权和，调整所述编码器、所述长度调整器、所述解码器、所述合成层、所述线性层和所述后处理网络中的神经元的参数，以使得所述加权和对应的值收敛。

由此，经过以上训练过程，声学模型可以被训练完成。当任意文本通过所述编码器、所述长度调整器、所述解码器、所述合成层、所述线性层、所述后处理网络和所述声码器，都能够得到自然度较高的语音。

图10是示出根据本公开实施例的声学模型的又一训练过程的示意图。图11是示出根据本公开实施例的长度提取器的示例结构。

参见图10，其利用一个长度提取器来辅助长度预测器的训练。长度提取器的示例结构如图11所示。长度提取器由长度提取编码器、注意力网络和长度提取解码器组成。长度提取器提取的时间长度用于对长度提取编码器输出进行上采样(upsample)，以匹配训练过程中目标声学特征的长度。长度提取器的输出被用作长度预测器学习的标签。更进一步地，长度提取器仅用于训练长度预测器，而不用于训练编码器301，从而不会将衰减的梯度回传至编码器。可选地，长度提取解码器为双层的LSTM网络(长短时记忆网络)以更好捕捉上下文信息。可选地，长度提取器还可以包括一个前馈网络，以用于调整长度提取解码器的输出。

可选地，所述长度提取编码器与所述编码器的结构相同，所述解码器为双层自回归循环神经网络，所述长度提取器是利用所述多组训练样本集在所述长度预测器的训练之前训练的，其中，所述长度提取器的训练包括：利用所述长度提取器中的长度提取编码器，生成所述训练文本数据中的至少一个文本数据块对应的细融合文本特征；利用所述注意力网络和长度提取解码器，基于所述细融合文本特征，预测所述细融合文本特征对应的声学特征的长度；基于训练文本数据对应的声学特征的长度以及预测的细融合文本特征对应的声学特征的长度，计算第四目标函数对应的值；以及基于所述第四目标函数对应的值，调整所述长度提取器中的神经元的参数，以使得所述第四目标函数对应的值收敛。

可选地，第四目标函数指示训练文本数据对应的声学特征的长度以及预测的细融合文本特征对应的声学特征的长度的相似度。也即，所述长度提取器的训练是将目标声学特征的长度和预测声学特征的长度之间的相似度最大化的过程。第四目标函数又被称为第四损失函数。

在所述长度提取器训练完成之后，可以进一步辅助长度预测器的训练。所述长度预测器是基于多组训练样本集训练的，其中所述多组训练样本集中的每个训练样本包括训练文本数据以及训练文本数据对应的声学特征的长度。

其中，所述长度预测器的训练包括：利用经训练的长度提取器，基于所述训练文本数据以及训练文本数据对应的声学特征的长度，生成所述训练文本数据中的至少一个文本数据块对应的目标声学特征的长度，利用长度预测器，基于所述训练文本数据，生成所述训练文本数据中的至少一个文本数据块对应的预测声学特征的长度，基于所述训练文本数据中的至少一个文本数据块对应的目标声学特征的长度和预测声学特征的长度，计算第三目标函数对应的值，基于所述第三目标函数对应的值，调整所述长度预测器中的神经元的参数，以使得所述第三目标函数对应的值收敛。

可选地，第三目标函数指示目标声学特征的长度和预测声学特征的长度之间的相似度。也即，所述长度预测器的训练是将目标声学特征的长度和预测声学特征的长度之间的相似度最大化的过程。第三目标函数又被称为第三损失函数。

由此，本公开的实施例所提供的声学模型的训练收敛速度快，并且预测结果好。

以下示出应用本公开的实施例的方法的朗读APP与应用Fastspeech或Tacotron的朗读APP的声音自然度对比。

其中，平均意见分(MOS)和比较平均选择分(CMOS)是基于以下方式获取的。所有的MOS测试都邀请了两组母语为中文的人(每组5人)，每次听125个音频并打分，100个由相应模型合成的测试语句与25个原始录音混合，听众不知道每个音频属于哪个类别。评分范围从1到5，5代表"完全自然的语音"。最后的MOS是通过两组的平均分得到的。在上述表格中，±号之前的数字表示两组测试人员的打分均值，±号之后的数字表示方差。

对于CMOS测试，要求相同的听众以随机顺序听两个不同系统合成的配对测试语句，并使用[-3,3]中间隔为1的分数来评估后者与前者相比的感觉。以本公开的实施例为基准，不论是Fastspeech还是Tacotron的分数都低于本公开的实施例。

可以看出，根据本公开实施例的声学模型填补了Fastspeech和Tacotron在两个语体上的自然度差距。而且听众更喜欢本公开实施例合成的结果，而不是其他两个系统合成的结果。这些结果表明，本公开实施例在自然度方面取得了有竞争性的表现。

以下通过表2示出应用本公开的实施例的方法的朗读APP与应用Fastspeech或Tacotron的朗读APP的单词错误率(WER)进行对比，以衡量本公开实施例的鲁棒性。

鲁棒性可以通过测量失败率和/或单词错误率(WER)来评价鲁棒性。模型错误主要通过合成音频是否提前结束、是否重复同一片段、是否包含严重影响内容理解的无意义片段来识别。在鲁棒性方面，由于注意力排列不好，Tacotron与基于GMM的注意力在两个数据库上的失败率分别为1.5％和2.8％。在非注意模型中，没有出现严重的合成失败。一般语音识别对合成样本进行了按形识别，没有出现严重的失败。根据表2中记录的单词错误率(WER)结果，其表明无论使用录音室质量的语料，还是使用具有挑战性的有声书语料进行训练，本公开实施例都取得了最低的单词错误率。

以下通过表3来示出应用本公开的实施例的方法的朗读APP与应用其它类型的朗读APP的声音自然度对比。

以下通过表4来示出应用本公开的实施例的方法的朗读APP与应用其它类型的朗读APP的单词错误率对比。

如表3所示，如果将编码器301替换为传统的基于RNN的CBHG(卷积库(convolutional bank)、高速公路网络(highway network)和双向门控递归单元(bidirectional gated recurrent unit))编码器，其将使得测试结果中的MOS分别降低了1.7％和5.2％。在CMOS方面，听众更喜欢根据本公开的实施例的声学模型合成的结果，而不喜欢更换后的结果。如表4所示，使用CBHG编码器也使得WER值更高。由此可见，通过粗融合处理和细融合处理，编码器301的输出包含了更多的语言信息。一方面，编码器301有助于提高自然度，另一方面，编码器301的输出更适合基于非自回归RNN的解码器。

如表3所示，如果将基于非自回归RNN的解码器303替换为基于自回归的解码器(ARD)，替换后的模型在自然度和鲁棒性上都有明显的下降。特别是在更具挑战性的有声读物语料上，测试结果中在一些域内句子中存在明显的跳词和发音错误。由此，解码器303明显降低了基于自回归的解码器的暴露偏差和局部信息偏好导致的错误率。

根据本公开的又一方面，还提供了一种电子设备，用于实施根据本公开实施例的方法。图12示出了根据本公开实施例的电子设备2000的示意图。

如图12所示，所述电子设备2000可以包括一个或多个处理器2010，和一个或多个存储器2020。其中，所述存储器2020中存储有计算机可读代码，所述计算机可读代码当由所述一个或多个处理器2010运行时，可以执行如上所述的搜索请求处理方法。

本公开实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

例如，根据本公开实施例的方法或装置也可以借助于图13所示的计算设备3000的架构来实现。如图13所示，计算设备3000可以包括总线3010、一个或多个CPU 3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备，例如ROM 3030或硬盘3070可以存储本公开提供的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然，图13所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图13示出的计算设备中的一个或多个组件。

根据本公开的又一方面，还提供了一种计算机可读存储介质。图14示出了根据本公开的存储介质4000的示意图。

如图14所示，所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的方法。本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开实施例的方法。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在上面详细描述的本公开的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本公开的范围内。

Claims

1.一种将文本数据转换为声学特征的方法，所述文本数据包括多个文本数据块，所述方法包括：

对于多个文本数据块中的每个文本数据块，

对所述文本数据块对应的隐藏文本特征和所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征进行粗融合处理，以获取至少一个粗融合文本特征；

对所述至少一个粗融合文本特征进行细融合处理，以获取所述文本数据块对应的细融合文本特征；

调整所述细融合文本特征对应的长度；以及

将调整长度后的所述细融合文本特征转换成声学特征，

其中，所述粗融合处理和所述细融合处理由编码器执行，其中，

所述编码器包括N个转换器、N个加法器和一个多头注意力层，

其中，第n个转换器的输出与第n-1个加法器的输出均连接至第n个加法器的输入，第n个加法器的输出连接至第n+1个转换器的输入，所述多头注意力层的输入包括所述N个转换器的输出和第N个加法器的输出，

其中，每个转换器输出一个隐藏文本特征，每个加法器输出一个粗融合文本特征，所述转换器的多头注意力层输出所述文本数据块对应的细融合文本特征，

其中，n大于等于1且小于等于N，N为大于1的正整数。

2.如权利要求1所述的方法，其中，

所述文本数据块对应的隐藏文本特征融合有所述文本数据块的第一预测信息和第二预测信息，

其中，所述第一预测信息是基于所述文本数据块预测的，所述第二预测信息是基于所述文本数据块后序的至少一个文本数据块预测的。

3.如权利要求1所述的方法，其中，

所述对所述文本数据块对应的隐藏文本特征和所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征进行粗融合处理包括：

对所述文本数据块后序的文本数据块对应的隐藏文本特征进行加法处理以得到所述文本数据块后序的文本数据块对应的粗融合文本特征，和/或对所述文本数据块对应的隐藏文本特征进行加法处理以得到所述文本数据块对应的粗融合文本特征；

所述对所述至少一个粗融合文本特征进行细融合处理包括：

以所述至少一个粗融合文本特征中的一个或多个粗融合文本特征作为查询特征，以所述文本数据块对应的隐藏文本特征作为值特征和/或键特征，和/或以所述文本数据块后序的至少一个文本数据块对应的隐藏文本特征作为值特征和/或键特征，基于所述查询特征、值特征和键特征预测所述文本数据块对应的细融合文本特征。

4.如权利要求1所述的方法，其中，由长度调整器执行所述调整所述细融合文本特征对应的长度，所述调整所述细融合文本特征对应的长度还包括：

利用长度调整器中的长度预测器，预测所述细融合文本特征对应的声学特征的长度；以及

利用长度调整器中的长度规整器，基于所述细融合文本特征对应的声学特征的长度以及所述细融合文本特征，调整所述细融合的文本特征对应的长度以生成调整长度后的细融合文本特征。

5.如权利要求4所述的方法，其中，所述长度预测器包括级联的多个一维卷积神经网络、双向门控循环单元、和线性层，

其中，所述一维卷积神经网络用于提取所述细融合文本特征中的相对位置特征，所述双向门控循环单元用于提取所述细融合文本特征中的全局上下文特征。

6.如权利要求5所述的方法，其中，所述级联的多个一维卷积神经网络的数量为K，K大于零，所述利用长度调整器中的长度预测器，预测所述细融合文本特征对应的声学特征的长度还包括：

利用第1个一维卷积神经网络，基于所述细融合文本特征，提取所述细融合文本特征中的第一相对位置特征；

利用第2个一维卷积神经网络至第K个一维卷积神经网络，生成第K相对位置特征，其中，对于第k个长度预测层，k大于等于2且小于等于K，

利用第k个长度预测层中的一维卷积神经网络，基于第k-1相对位置特征，生成第k相对位置特征；

利用所述双向门控循环单元，基于第K相对位置特征，生成全局上下文特征，

利用所述线性层，基于全局上下文特征，生成所述细融合文本特征对应的声学特征的长度。

7.如权利要求1所述的方法，其中，利用解码器将调整长度后的所述细融合文本特征转换成声学特征，所述解码器为单层的非自回归的循环神经网络，所述解码器的输入为调整长度后的所述细融合文本特征，所述解码器的输出为声学特征。

8.如权利要求7所述的方法，还包括：

利用合成层，将多个文本数据块对应的多个声学特征进行组合以生成组合声学特征，以及

利用线性层，对组合声学特征进行线性调整。

9.如权利要求8所述的方法，还包括：

利用后处理网络，将所述线性调整后的组合声学特征进行序列调整，以及

利用声码器，将所述序列调整后的组合声学特征转换为音频数据输出。

10.如权利要求8所述的方法，其中，所述粗融合处理和所述细融合处理由编码器执行，所述编码器、所述解码器、所述合成层和所述线性层是基于多组训练样本集训练的，其中所述多组训练样本集中的每个训练样本包括训练文本数据以及所述训练文本数据对应的目标声学特征，

其中，所述编码器、所述解码器、所述合成层和所述线性层的训练包括：

利用所述编码器、所述解码器、所述合成层和所述线性层，将所述训练文本数据转换为所述线性调整后的组合声学特征，

基于所述线性调整后的组合声学特征和所述训练文本数据对应的目标声学特征，计算第一目标函数对应的值，

基于所述第一目标函数对应的值，调整所述编码器、所述解码器、所述合成层和所述线性层中的神经元的参数，以使得所述第一目标函数对应的值收敛。

11.如权利要求9所述的方法，其中，所述粗融合处理和所述细融合处理由编码器执行，所述编码器、所述解码器、所述合成层、所述线性层和所述后处理网络是基于多组训练样本集训练的，其中所述多组训练样本集中的每个训练样本包括训练文本数据以及所述训练文本数据对应的目标声学特征，

其中，所述编码器、所述解码器、所述合成层、所述线性层和所述后处理网络的训练包括：

利用所述编码器、所述解码器、所述合成层、所述线性层和所述后处理网络，将所述训练文本数据转换为所述序列调整后的组合声学特征，

基于所述序列调整后的组合声学特征和所述训练文本数据对应的目标声学特征，计算第二目标函数对应的值，

基于所述第二目标函数对应的值，调整所述编码器、所述解码器、所述合成层、所述线性层和所述后处理网络中的神经元的参数，以使得所述第二目标函数对应的值收敛。

12.如权利要求4所述的方法，其中，所述长度预测器是基于多组训练样本集训练的，其中所述多组训练样本集中的每个训练样本包括训练文本数据以及训练文本数据对应的声学特征的长度，

其中，所述长度预测器的训练包括：

利用经训练的长度提取器，基于所述训练文本数据以及训练文本数据对应的声学特征的长度，生成所述训练文本数据中的至少一个文本数据块对应的目标声学特征的长度，

利用长度预测器，基于所述训练文本数据，生成所述训练文本数据中的至少一个文本数据块对应的预测声学特征的长度，

基于所述训练文本数据中的至少一个文本数据块对应的目标声学特征的长度和预测声学特征的长度，计算第三目标函数对应的值，

基于所述第三目标函数对应的值，调整所述长度预测器中的神经元的参数，以使得所述第三目标函数对应的值收敛。

13.如权利要求12所述的方法，其中，所述长度提取器包括长度提取编码器、注意力网络和长度提取解码器，所述长度提取编码器与所述编码器的结构相同，所述解码器为双层自回归循环神经网络，所述长度提取器是利用所述多组训练样本集在所述长度预测器的训练之前训练的，

其中，所述长度提取器的训练包括：

利用所述长度提取器中的长度提取编码器，生成所述训练文本数据中的至少一个文本数据块对应的细融合文本特征；

利用所述注意力网络和长度提取解码器，基于所述细融合文本特征，预测所述细融合文本特征对应的声学特征的长度；

基于训练文本数据对应的声学特征的长度以及预测的细融合文本特征对应的声学特征的长度，计算第四目标函数对应的值；以及

基于所述第四目标函数对应的值，调整所述长度提取器中的神经元的参数，以使得所述第四目标函数对应的值收敛。

14.一种电子设备，包括：

一个或多个处理器；和

一个或多个存储器，

其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行如权利要求1-13任一所述的方法。