CN113450758B

CN113450758B - 语音合成方法、装置、设备及介质

Info

Publication number: CN113450758B
Application number: CN202110996774.4A
Authority: CN
Inventors: 郭少彤; 陈昌滨; 贺刚
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-16
Anticipated expiration: 2041-08-27
Also published as: CN113450758A

Abstract

本公开提供一种语音合成方法、装置、设备及介质，其中该方法包括：获取目标文本的语义特征、音素特征以及声学特征；对语义特征与声学特征执行第一对齐操作，得到第一对齐结果；对音素特征与声学特征执行第二对齐操作，得到第二对齐结果；根据第一对齐结果和第二对齐结果进行特征融合，得到融合特征；基于融合特征生成目标文本对应的合成语音。本公开可以较好地提升语音合成效果。

Description

语音合成方法、装置、设备及介质

技术领域

本公开涉及人工智能领域，尤其涉及语音合成方法、装置、设备及介质。

背景技术

随着人工智能的发展，诸如线上客服、线上教育、语音助手、智能音响、有声小说等多种实际场景都广泛应用有语音合成技术，该技术能够将文本自动转换为语音（合成音频）。然而，现有的语音合成技术所得到的语音效果不佳，也即，语音合成效果较差。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音合成方法、装置、设备及介质。

根据本公开的一方面，提供了一种语音合成方法，包括：获取目标文本的语义特征、音素特征以及声学特征；对所述语义特征与所述声学特征执行第一对齐操作，得到第一对齐结果；对所述音素特征与所述声学特征执行第二对齐操作，得到第二对齐结果；根据所述第一对齐结果和所述第二对齐结果进行特征融合，得到融合特征；基于所述融合特征得到所述目标文本对应的合成语音。

根据本公开的另一方面，提供了一种语音合成装置，包括：特征获取模块，用于获取目标文本的语义特征、音素特征以及声学特征；第一对齐模块，用于对所述语义特征与所述声学特征执行第一对齐操作，得到第一对齐结果；第二对齐模块，用于对所述音素特征与所述音素特征执行第二对齐操作，得到第二对齐结果；特征融合模块，用于基于所述第一对齐结果和所述第二对齐结果进行特征融合，得到融合特征；语音生成模块，用于基于所述融合特征生成所述目标文本对应的合成语音。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述的语音合成方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述语音合成方法。

本公开实施例中提供的上述技术方案，可以首先获取目标文本的语义特征、音素特征以及声学特征；然后对语义特征与声学特征执行第一对齐操作，得到第一对齐结果；以及对音素特征与声学特征执行第二对齐操作，得到第二对齐结果；之后可根据第一对齐结果和第二对齐结果进行特征融合，得到融合特征，进而基于融合特征得到目标文本对应的合成语音。上述方式可以将粗颗粒度的语义特征以及细颗粒度的音素特征分别与声学特征进行对齐，然后再将对齐结果进行融合来得到合成语音，能够充分利用不同颗粒度的特征，有助于较好地提升语音合成效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种语音合成方法的流程示意图；

图2为本公开实施例提供的一种语音合成系统的结构示意图；

图3为本公开实施例提供的另一种语音合成方法的流程示意图；

图4为本公开实施例提供的一种语音合成装置的结构示意图；

图5为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本公开使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

现有语音合成技术大多是基于端到端的语音合成系统实现，语音合成系统主要基于序列到序列框架进行构建，具体而言，主要包含编码器和解码器两部分，编码器用于将输入文本进行编码（特征提取），由编码器从文本中自动学习上下文关系，诸如学习文本特征与声学特征之间的对齐关系，解码器用于将编码后的文本（提取出的特征）进行解码，最终得到文本对应的音频（合成语音）。但是编码器从文本中学习的能力有限，导致最终得到的语音效果不佳，诸如，得到的语音普遍存在韵律、表达准确性等问题，诸如语音语调生硬，字词连读错误等。针对该问题，有研究提出，获取文本句子中较大粒度的语义级别文本特征以及较小（细）粒度的音素级别文本特征进行拼接，将拼接后的特征作为解码器的输入，然后由解码器基于拼接后的特征与声学特征进行对齐，也即同时在音素级别和语义级别计算文本特征和声学特征的对齐信息。然而这种方式最终对合成语音的自然度和韵律方面的提升程度有限，发明人经大量研究发现，主要原因在于将大粒度的语义级别文本特征（以下简称语义特征）与细粒度的音素级别文本特征（以下简称音素特征）拼接在一起进行对齐的方式，需要都落实在较细粒度的音素特征上计算，导致较粗粒度的语义特征所携带的部分信息被丢失掉（被忽略），从而没有很好的发挥较粗粒度的语义特征的信息，导致语音合成系统对文本整体上下文的理解不足，因此最终合成的语音在自然度、韵律、流畅性等方面都表现不佳。

可以理解的是，针对相关技术中的语音合成方案所存在的缺陷是申请人在经过实践并仔细研究后得出的结果，因此，上述缺陷的发现过程以及在下文中本申请实施例针对上述缺陷所提出的解决方案，都应该被认定为申请人对本申请做出的贡献。为改善上述问题，发明人提出了语音合成方法、装置、设备及介质，能够充分利用不同颗粒度的语义特征和音素特征，从而较好地实现语音合成，提升语音合成效果，从而较好地应用于各种需要语音合成的场合，诸如较好应用于线上客服、线上教育、语音助手、智能音箱、有声小说等场合，在此不进行限制。为便于理解，以下详细说明如下：

图1为本公开实施例提供的一种语音合成方法的流程示意图，该方法可以由语音合成装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法主要包括如下步骤S102~步骤S110：

步骤S102，获取目标文本的语义特征、音素特征以及声学特征。

其中，声学特征也可称之为语音特征。语义特征也可称为语义级别的文本特征，音素特征也可称为音素级别的文本特征，其中，音素是指是根据语音的自然属性划分出来的最小语音单位，换言之，音素是构成音节的最小单位或最小的语音片段，从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。可以理解的是，语义特征为较大颗粒度的特征，音素特征是较小颗粒度的特征，诸如，以包含有10个汉字的语句为例，如将其转换为字符序列，可能仅对应10个字符（假设一个汉字为一个字符），而如将其转换为音素序列，可能对应30个音素；基于包含有10个字符的字符序列所得到的语义特征与基于包含有30个音素的音素序列所得到的音素特征相比，语义特征的颗粒度大于音素特征的颗粒度。

在实际应用中，可以通过预训练所得的神经网络获取目标文本的语义特征、音素特征以及声学特征，在本公开实施例中，对获取目标文本的语义特征、音素特征以及声学特征的方式不进行具体限定。

步骤S104，对语义特征与声学特征执行第一对齐操作，得到第一对齐结果。

执行对齐操作的主要目的在于找到语义特征与声学特征之间的映射关系或关联关系，在本公开实施例中，对特征对齐操作不进行限制。为了达到更好的对齐效果，在一些实施方式中，第一对齐操作可以为基于注意力机制的对齐操作，第一对齐结果可以通过对齐矩阵的方式表示。也即，可以基于注意力机制对语义特征和声学特征进行对齐，得到第一对齐矩阵。

步骤S106，对音素特征与声学特征执行第二对齐操作，得到第二对齐结果。

在一些实施方式中，第二对齐操作可以为基于注意力机制的对齐操作，第二对齐结果可以通过对齐矩阵的方式表示。也即，可以基于注意力机制对音素特征和声学特征进行对齐，得到第二对齐矩阵。

上述步骤S104和步骤S106可以先后执行，先执行步骤S104，再执行步骤S106，或者，先执行步骤S106，再执行步骤S104，也可以同时执行步骤S104和步骤S106，本公开实施例对步骤的执行顺序不进行限制。但无论是何种执行顺序，都是不同颗粒度的语义特征与音素特征分别与声学特征进行对齐，也即采用双对齐机制得到两个对齐结果，以便于充分利用不同颗粒度的语义特征和音素特征，与现有技术相比，本公开实施例提供的上述步骤S104和步骤S106可以有效避免粗颗粒度的语义特征与细颗粒度的音素特征糅合在一起执行对齐操作时，容易出现丢失掉粗颗粒度的语义特征所包含的部分信息的问题。

步骤S108，根据第一对齐结果和第二对齐结果进行特征融合，得到融合特征。

本公开实施例对特征融合方式不进行限定。通过将第一对齐结果和第二对齐结果进行特征融合，所得到的融合特征既充分包含了语义信息，又充分包含了音素信息。

步骤S110，基于融合特征生成目标文本对应的合成语音。

将融合特征作为解码条件，可参与自回归解码过程，从而基于解码结果得到合成语音。在一些实施方式中，可以通过预训练得到的解码器对融合特征进行自回归解码，得到梅尔谱（也可称之为梅尔频谱）；然后通过声码器将梅尔谱转换为音频，并将音频作为目标文本对应的合成语音。可选地，声码器可以为Griffin-Lim声码器，具体实现时，可以将梅尔谱转换为幅度谱，然后采用Griffin-Lim声码器基于幅度谱得到语音信号（音频），其中，Griffin-Lim是在仅已知幅度谱、不知道相位谱的条件下也可以重建语音的算法。

本公开实施例提供的上述语音合成方式可以将粗颗粒度的语义特征以及细颗粒度的音素特征分别与声学特征进行对齐，然后再将对齐结果进行融合来得到合成语音，能够充分利用不同颗粒度的特征，有助于较好地提升语音合成效果，改善合成语音在自然度、流畅性、节奏韵律等方面的表现力。

进一步，本公开实施例提供了一种获取目标文本的语义特征的方式，包括：将目标文本输入至预训练得到的语义特征提取模型；通过语义特征提取模型对目标文本执行语义特征提取操作，得到目标文本的语义特征。语义特征提取模型是一种神经网络模型，其输入为文本，输出该文本对应的语义特征，通过神经网络模型可以更为方便快捷地实现语义特征提取，可以理解的是，网络模型通常具有较强的学习能力和处理能力，能够较好地学习文本中语义级别的上下文信息，从而提取出的语义特征较为丰富。此外，本公开实施例对语义特征提取模型的网络结构不进行限定，且语义特征提取模型的训练方式可参照相关技术中的网络训练方式实现，诸如采用无监督方式实现，在大量文本样本的基础上训练得到该模型，也即，该语义特征提取模型可以是无监督预训练模型，示例性地，该语义特征提取模型可采用诸如BERT（Bidirectional Encoder Representations from Transformers，基于转换器的双向编码表征）模型实现，在此不再赘述。

为了能够较好地提取出语义特征，语义特征提取模型所执行的语义特征提取操作包括如下步骤（1）~（3）：

（1），对目标文本进行字符切分，得到字符序列。在一些具体的实施方式中，可以按照预设的字符表（或字词表）对目标文本进行切分，然后按照切分所得的各个字符在原目标文本中的先后位置进行排序，得到字符序列。示例性地，目标文本为中文，将每个字做一次切分，并将切分结果作为一个字符（token），将切分所得的字符按照在文本中的先后顺序组成字符序列。通过该步骤，可以将目标文本拆分为以字符为单位的序列，以便于后续处理。

（2），获取字符序列对应的字符编码。

也即，对字符序列进行编码（也可理解为字符特征提取），提取出字符序列对应的字符编码，其中，该字符编码也可称之为字符嵌入（embedding）或字符特征。

（3），基于字符编码进行语义特征提取。在实际应用中，通过语义特征提取模型中的网络层对字符编码进行语义特征提取，将指定网络层的输出作为最终提取出的语义特征。

在一些实施方式中，语义特征提取模型包括BERT（Bidirectional EncoderRepresentations from Transformers，基于转换器的双向编码表征）模型。将目标文本输入至BERT模型，即可通过BERT模型输出该目标文本对应的语义特征，以目标文本是中文为例，该语义特征也为字符级别向量，该字符级别向量含有较为丰富的语义信息，可以作为语义级别的语言学特征。示例性地，输出的语义特征可以为二维矩阵[seq_len, dims]，其中seq_len表示文本长度，dims表示字级别向量的维度，诸如可以为768维。为便于理解，本公开实施例给出了BERT模型基于目标文本获取语义特征（语义级别的语言学特征）的获取过程，该获取过程即为上述（1）~（3）的实现过程，也可通过如下公式简要描述：

其中，S_text表示输入的目标文本，诸如可以为中文文本序列；Tokennizer()表示对输入的目标文本进行字符切分，得到多个字符（token）组成的字符序列T_s。Embedding()表示编码过程（也可理解为特征提取过程），Embedding(T_s)即为获取目标文本对应的字符编码，其中，E_w为获取到的字符编码，亦可称之为字符嵌入（embedding）或字符特征。Bert₁₁()表示获取BERT模型的第11层（也即，倒数第二层）的输出向量E_l，将该输出向量E_l作为BERT模型获取的语义特征。具体而言，BERT模型包括多个网络层（诸如，12个网络层），通过多个网络层基于字符编码进行语义特征提取，最终可选择第11层网络输出的语义特征，该语义特征已能够较为充分表征目标文本的语义信息。

进一步，本公开实施例还提供了一种获取目标文本的音素特征的方式，可以参照如下步骤a至步骤c实现：

步骤a，将目标文本输入至预设的字素转音素单元，得到字素转音素单元输出的音素序列。字素转音素单元也可称为G2P（Grapheme-to-Phoneme，字素转音素），可采用诸如循环神经网络（Recurrent Neural Network，RNN）、LSTM（Long Short-Termmemory Units，长短期记忆单元）等网络模型实现，在此不进行限制。字素转音素单元可以将输入的目标文本直接转换为音素序列，以目标文本是中文文本示例，字素转音素单元可以根据一定的拼音转换规则，将中文文本转换为对应的拼音标注，该拼音标注序列即为音素序列。该步骤首先将目标文本转换为音素序列，以便于后续针对音素进行处理。

步骤b，将音素序列输入至预训练得到的编码器。本公开实施例对编码器的结构不进行限制，且编码器的训练方式也可参照相关技术实现，具体不再赘述。

步骤c，通过编码器对音素序列执行音素特征提取操作，得到目标文本对应的音素特征。其中，音素特征也可称为音素级别的语言学特征。

在一些实施方式中，音素特征提取操作包括如下步骤1）~步骤3）：

1）获取音素序列对应的音素编码。诸如，通过对音素特征进行编码（embedding），即可得到音素编码。

2）根据音素编码提取中间特征向量；其中，中间特征向量体现有音素编码中的局部特征信息以及上下文信息。具体而言，可体现有局部特征和上下文依赖关系，以便基于音素局部以及整体上下文进行处理，有助于进一步提升最终得到的合成语音的自然度、韵律和流畅性。

为了提取出可充分体现有音素编码中的局部特征信息以及上下文信息的中间特征向量，在一些实施方式中，根据音素编码提取中间特征向量包括：基于音素编码连续执行N次指定的组合操作，将第N次组合操作输出的特征向量作为中间特征向量；其中，第1次组合操作的输入为音素编码，第i次组合操作的输入为第i-1次组合操作的输出；N为不小于1的自然数，i的取值范围为[2，N]；组合操作包括卷积操作和非线性变换操作。示例性地，非线性变换操作可采用激活函数relu实现。N值可根据实际情况而灵活设置，在此不进行限定，示例性地，N可以取3。可以理解的是，通过上述多次执行指定的组合操作的方式，最终所得到的中间特征向量可以包含有较为丰富的局部特征信息以及上下文信息。

3）基于中间特征向量进行音素特征提取。在一些实施方式中，可以通过预设的长短期记忆网络对中间特征向量进行音素特征提取。长短期记忆网络（LSTM）是递归神经网络的一种，可以根据输入序列进行自我调用的特殊神经网络，递归神经网络与其它网络的不同之处在于它的隐含层是能够跨越时间点的自连接隐含层，能够持续保留信息，并根据之前状态推出后面的状态。因此通过长短期记忆网络基于中间特征向量进行音素特征提取，可以进一步有效提取出能够充分表征目标文本的音素信息的音素特征。

为便于理解，本公开实施例给出了编码器对音素序列执行音素特征提取操作，得到目标文本对应的音素特征的实现方式，可通过如下公式简要描述：

其中，X_text是音素序列，Embedding()表示编码过程，Embedding(X_text)表示获取音素序列对应的音素编码，Conν_i，(i=1,2,3)表示一维卷积层，可用于学习音素序列中局部特征和上下文依赖关系，relu表示激活函数，主要用于实现非线性变换。E_c即为前述中间特征向量，LSTM()即为通过LSTM进行处理，E_r即为前述音素特征。

在实际应用中，本公开实施例可模拟文本与声学之间的映射关系，基于该映射关系可得到目标文本的声学特征，具体可参照相关技术实现，在此不进行限制。

在获取到目标文本的语义特征、音素特征以及声学特征后，本公开实施例分别对语义特征与声学特征执行第一对齐操作，以及对音素特征与声学特征执行第二对齐操作，在一些实施方式中，第一对齐操作和第二对齐操作均为基于注意力机制的对齐操作，基于注意力机制的对齐操作可以较好地确定语义特征与声学特征之间的关联性，以及音素特征与声学特征之间的关联性，然后再基于第一对齐结果和第二对齐结果进行特征融合，得到融合特征，从而使融合特征充分包含有不同颗粒度的特征信息，有助于后续生成更好的语音。为便于理解，上述过程也可参照采用如下简要描述：

其中，Attention()表示基于注意力机制对语言学特征与声学特征进行对齐，语言学特征包括语义级别的语言学特征（语义特征）或音素级别的语言学特征（音素特征）。E_r为音素特征，E_speech是声学特征，Attention(E_r,E_speech)即表示基于注意力机制对音素特征与声学特征进行对齐操作，Align_phone为音素特征与声学特征的对齐结果（前述第二对齐结果）；E_l是语义特征，Attention(E_l,E_speech)即表示基于注意力机制对语义特征与声学特征进行对齐操作，Align_sentence为语义特征与声学特征的对齐结果（前述第一对齐结果），Concat()表示对拼接操作，Conv()表示卷积操作，Align_fusion为融合特征。在实际应用中，Align_phone和Align_sentence均可以为经对齐的特征矩阵，Align_fusion则为特征融合之后的特征矩阵。

在前述语音合成方法的基础上，本公开实施例提供了一种可实现前述语音合成方法的语音合成系统，参见图2所示的一种语音合成系统的结构示意图，示意出了语音合成系统的主要功能模块，主要包含BERT模型、字素转音素单元、编码器、第一对齐单元、第二对齐单元、特征融合单元、解码器、声码器。其中，BERT模型和字素转音素单元的输入均为目标文本，BERT模型的输出为语义特征，字素转音素单元的输出为音素序列，编码器的输入为音素序列，编码器的输出为音素特征，第一对齐单元的输入为语义特征和预先映射所得的声学特征，输出为第一对齐结果，第二对齐单元的输入为音素特征和声学特征，输出为第二对齐结果，特征融合单元的输入为第一对齐结果和第二对齐结果，输出为融合特征，解码器的输入为融合特征，通过对融合特征进行自回归解码，输出梅尔谱，之后将梅尔谱输入至声码器，由声码器将梅尔谱转换为音频并输出。具体过程可参照前述相关内容，在此不再赘述。

上述语音合成系统与传统仅包含编码器和解码器的语音合成系统相比，不仅额外引入BERT模型，而且还设置双对齐机制，通过将不同颗粒度的语义特征和音素特征分别与声学特征进行对齐并进行后续融合，可以充分利用不同颗粒度的语义特征和音素特征，所得到的融合特征包含的语言学特征信息更为丰富，基于丰富的语言学特征信息所得到的合成音频能够在自然度、韵律及流畅性方面得以进一步提升。在实际应用中，语音合成系统中的各个功能单元可以共同训练，换言之，可以对语音合成系统进行整体训练，在训练过程中，向该语音合成系统输入训练文本以及训练文本对应的音频，通过有监督方式训练得到语音合成系统，训练结束后的语音合成系统可以针对输入的目标文本直接输出符合预期的音频，语音合成系统在训练时所需的步骤流程与实际应用时所需的步骤流程基本一致，换言之，语音合成系统中所包含的各功能单元在训练时的作用和实际应用时的作用基本一致，在此不再赘述。

为便于理解，在图2所示的语音合成系统的基础上，本公开实施例进一步提供了一种语音合成方法，参见图3所示的另一种语音合成方法的流程示意图，主要包括如下步骤：

步骤S302，将目标文本输入至BERT模型，通过BERT模型对目标文本执行语义特征提取操作，得到目标文本的语义特征。

步骤S304，将目标文本输入至预设的字素转音素单元，通过字素转音素单元得到目标文本对应的音素序列。

步骤S306，将音素序列输入至编码器，通过编码器对音素序列执行音素特征提取操作，得到目标文本对应的音素特征。

步骤S308，基于预测得到的目标文本与声学特征的映射关系，获取目标文本的声学特征。

步骤S310，基于注意力机制对语义特征和声学特征执行对齐操作，得到第一对齐结果。

步骤S312，基于注意力机制对音素特征和声学特征执行对齐操作，得到第二对齐结果。

步骤S314，基于第一对齐结果和第二对齐结果执行特征拼接操作，得到拼接后的特征。

步骤S316，对拼接后的特征执行卷积操作，得到融合特征。

步骤S318，通过解码器对融合特征进行自回归解码，得到梅尔谱。

步骤S320，通过声码器将梅尔谱转换为音频，并将音频作为目标文本对应的合成语音。声码器可以为Griffin-Lim声码器。

通过上述语音合成方法，不仅可以获取较为丰富的语义特征和音素特征，而且在不同粒度的语言学特征上分别计算音素特征、语义特征与声学特征的对齐，并进一步进行特征融合，可以充分利用不同颗粒度的语义特征和音素特征，所得到的融合特征包含的语言学特征信息更为丰富，基于丰富的语言学特征信息所得到的合成音频能够在自然度、韵律和流畅性等方面得以进一步提升，也即，保证合成语音发音准确的基础上，进一步提升了合成语音的自然度并进一步优化了合成语音的韵律节奏以及流畅程度。

对应于前述语音合成方法，本公开实施例还提供了一种语音合成装置，图4为本公开实施例提供的一种语音合成装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图4所示，语音合成装置400包括：

特征获取模块402，用于获取目标文本的语义特征、音素特征以及声学特征；

第一对齐模块404，用于对语义特征与声学特征执行第一对齐操作，得到第一对齐结果；

第二对齐模块406，用于对音素特征与音素特征执行第二对齐操作，得到第二对齐结果；

特征融合模块408，用于基于第一对齐结果和第二对齐结果进行特征融合，得到融合特征；

语音生成模块410，用于基于融合特征生成目标文本对应的合成语音。

上述装置可以将粗颗粒度的语义特征以及细颗粒度的音素特征分别与声学特征进行对齐，然后再将对齐结果进行融合来得到合成语音，能够充分利用不同颗粒度的特征，有助于较好地提升语音合成效果。

在一些实施方式中，特征获取模块402，具体用于：将所述目标文本输入至预训练得到的语义特征提取模型；通过所述语义特征提取模型对所述目标文本执行语义特征提取操作，得到所述目标文本的语义特征。

在一些实施方式中，所述语义特征提取操作包括：对目标文本进行字符切分，得到字符序列；获取所述字符序列对应的字符编码；基于所述字符编码进行语义特征提取。

在一些实施方式中，所述语义特征提取模型包括BERT模型。

在一些实施方式中，特征获取模块402，具体用于：将所述目标文本输入至预设的字素转音素单元，得到所述字素转音素单元输出的音素序列；将所述音素序列输入至预训练得到的编码器；通过所述编码器对所述音素序列执行音素特征提取操作，得到所述目标文本对应的音素特征。

在一些实施方式中，所述音素特征提取操作包括：获取所述音素序列对应的音素编码；根据所述音素编码提取中间特征向量；其中，所述中间特征向量体现有所述音素编码中的局部特征信息以及上下文信息；基于所述中间特征向量进行音素特征提取。

在一些实施方式中，所述音素特征提取操作具体包括：基于所述音素编码连续执行N次指定的组合操作，将第N次所述组合操作输出的特征向量作为中间特征向量；其中，第1次所述组合操作的输入为所述音素编码，第i次所述组合操作的输入为第i-1次所述组合操作的输出；N为不小于1的自然数，i的取值范围为[2，N]；所述组合操作包括卷积操作和非线性变换操作。

在一些实施方式中，所述音素特征提取操作具体包括：通过预设的长短期记忆网络对所述中间特征向量进行音素特征提取。

在一些实施方式中，所述第一对齐操作和所述第二对齐操作均为基于注意力机制的对齐操作。

在一些实施方式中，特征融合模块408，具体用于：基于所述第一对齐结果和所述第二对齐结果执行特征拼接操作，得到拼接后的特征；对所述拼接后的特征执行卷积操作，得到融合特征。

在一些实施方式中，语音生成模块410，具体用于：通过预训练得到的解码器对所述融合特征进行自回归解码，得到梅尔谱；通过声码器将所述梅尔谱转换为音频，并将所述音频作为所述目标文本对应的合成语音。

本公开实施例所提供的语音合成装置可执行本公开任意实施例所提供的语音合成方法，具备执行方法相应的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置实施例的具体工作过程，可以参考方法实施例中的对应过程，在此不再赘述。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的语音合成方法。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

参考图5，现将描述可以作为本公开实施例的服务器或客户端的电子设备500的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开实施例的实现。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器（ROM）502中的计算机程序或者从存储单元508加载到随机访问存储器（RAM）503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备，输入单元506可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元508可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如，在一些实施例中，语音合成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中，计算单元501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行语音合成方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音合成方法，包括：

获取目标文本的语义特征、音素特征以及声学特征；其中，所述声学特征是基于预先模拟的文本与声学之间的映射关系得到；

对所述语义特征与所述声学特征执行第一对齐操作，得到第一对齐结果；其中，所述第一对齐结果通过对齐矩阵的方式表示；

对所述音素特征与所述声学特征执行第二对齐操作，得到第二对齐结果；其中，所述第二对齐结果通过对齐矩阵的方式表示；

根据所述第一对齐结果和所述第二对齐结果进行特征融合，得到融合特征；

基于所述融合特征生成所述目标文本对应的合成语音；

其中，基于所述融合特征生成所述目标文本对应的合成语音包括：

通过预训练得到的解码器对所述融合特征进行自回归解码，得到梅尔谱；

通过声码器将所述梅尔谱转换为音频，并将所述音频作为所述目标文本对应的合成语音。

2.如权利要求1所述的语音合成方法，其中，获取目标文本的语义特征包括：

将所述目标文本输入至预训练得到的语义特征提取模型；

通过所述语义特征提取模型对所述目标文本执行语义特征提取操作，得到所述目标文本的语义特征。

3.如权利要求2所述的语音合成方法，其中，所述语义特征提取操作包括：

对目标文本进行字符切分，得到字符序列；

获取所述字符序列对应的字符编码；

基于所述字符编码进行语义特征提取。

4.如权利要求2所述的语音合成方法，其中，所述语义特征提取模型包括BERT模型。

5.如权利要求1所述的语音合成方法，其中，获取目标文本的音素特征包括：

将所述目标文本输入至预设的字素转音素单元，得到所述字素转音素单元输出的音素序列；

将所述音素序列输入至预训练得到的编码器；

通过所述编码器对所述音素序列执行音素特征提取操作，得到所述目标文本对应的音素特征。

6.如权利要求5所述的语音合成方法，其中，所述音素特征提取操作包括：

获取所述音素序列对应的音素编码；

根据所述音素编码提取中间特征向量；其中，所述中间特征向量体现有所述音素编码中的局部特征信息以及上下文信息；

基于所述中间特征向量进行音素特征提取。

7.如权利要求6所述的语音合成方法，其中，根据所述音素编码提取中间特征向量包括：

基于所述音素编码连续执行N次指定的组合操作，将第N次所述组合操作输出的特征向量作为中间特征向量；其中，第1次所述组合操作的输入为所述音素编码，第i次所述组合操作的输入为第i-1次所述组合操作的输出；N为不小于1的自然数， i的取值范围为[2，N]；所述组合操作包括卷积操作和非线性变换操作。

8.如权利要求6所述的语音合成方法，其中，基于所述中间特征向量进行音素特征提取包括：

通过预设的长短期记忆网络对所述中间特征向量进行音素特征提取。

9.如权利要求1至8任一项所述的语音合成方法，其中，所述第一对齐操作和所述第二对齐操作均为基于注意力机制的对齐操作。

10.如权利要求1所述的语音合成方法，其中，基于所述第一对齐结果和所述第二对齐结果进行特征融合，得到融合特征包括：

基于所述第一对齐结果和所述第二对齐结果执行特征拼接操作，得到拼接后的特征；

对所述拼接后的特征执行卷积操作，得到融合特征。

11.一种语音合成装置，包括：

特征获取模块，用于获取目标文本的语义特征、音素特征以及声学特征；其中，所述声学特征是基于预先模拟的文本与声学之间的映射关系得到；

第一对齐模块，用于对所述语义特征与所述声学特征执行第一对齐操作，得到第一对齐结果；其中，所述第一对齐结果通过对齐矩阵的方式表示；

第二对齐模块，用于对所述音素特征与所述声学特征执行第二对齐操作，得到第二对齐结果；其中，所述第二对齐结果通过对齐矩阵的方式表示；

特征融合模块，用于基于所述第一对齐结果和所述第二对齐结果进行特征融合，得到融合特征；

语音生成模块，用于基于所述融合特征生成所述目标文本对应的合成语音；

所述语音生成模块具体用于：通过预训练得到的解码器对所述融合特征进行自回归解码，得到梅尔谱；通过声码器将所述梅尔谱转换为音频，并将所述音频作为所述目标文本对应的合成语音。

12.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-10中任一项所述的语音合成方法。

13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-10中任一项所述的语音合成方法。