CN116052640A

CN116052640A - 一种语音合成方法及装置

Info

Publication number: CN116052640A
Application number: CN202310148873.6A
Authority: CN
Inventors: 张雅洁; 宋伟; 岳杨皓; 张政臣; 吴友政
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-05-02

Abstract

本公开提供一种语音合成方法及装置，其中，该方法包括：基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征；基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征；其中，所述历史句子为文本数据中待转换目标句子之前的句子；确定所述目标句子对应的音素嵌入序列，将音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定目标句子对应的语音波形。本公开提供的语音合成方法，能够提高语音合成韵律的连续性和丰富性，及对未见领域的泛化能力，从而提升了合成语音的自然度和表现力。

Description

一种语音合成方法及装置

技术领域

本公开涉及人工智能技术领域，具体涉及一种语音合成方法及装置。另外，还涉及一种电子设备及处理器可读存储介质。

背景技术

近年来，随着深度学习的快速发展，文语转换(Text-to-Speech，TTS)系统已经在中立风格上实现了接近人类录音的合成语音质量。现阶段流行的端到端的TTS方法可以分为两类：自回归模型以及非自回归模型。这种神经网络模型通常利用<文本，声学特征>对来进行训练，直接将输入的音素序列或字符文本序列转换为声学特征序列(比如梅尔域频谱)，并且不使用任何其他的辅助韵律特征。最后，神经网络声码器将声学特征转换为高保真语音波形。其虽然现阶段的语音合成技术在合成中立风格的语音时已经可以实现高保真的合成质量，但是像有声读物、对话聊天、演讲等场景，这些场景对合成语音的表现力和拟人度的要求较高，需要合成出韵律较为丰富的语音。然而，目前现有技术已满足不了高韵律丰富性和表现力等需求，为了解决这个问题，通常使用一些辅助特征作为TTS的附加输入，但是受限于在语音合成时需要参考音频的输入或者自定义风格权重，无法全自动化的实现大批量语音合成。因此，如何设计一种高效的语音合成方案来提升合成语音的自然度和表现力以及韵律的丰富性等成为亟待解决的难题。

发明内容

为此，本公开提供一种语音合成方法及装置，以解决现有技术中存在的语音合成方案局限性较高，导致合成语音韵律的丰富性和连续性较差，以及泛化能力不足等缺陷。

本公开提供一种语音合成方法，包括：

基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征；

基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征；所述历史句子为所述文本数据中待转换目标句子之前的句子；

确定所述目标句子对应的音素嵌入序列，将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形；其中，所述语音合成模型是基于样本文本数据、所述样本文本数据对应的样本语音波形训练得到的。

进一步的，所述跨句文本编码器包括多头注意力机制层和双向语义表征模型；

所述基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征，具体包括：

将所述文本数据中相邻的句子两两组合成相应的句子对序列，基于所述双向语义表征模型对所述句子对序列进行句子级表征，提取出所述句子对序列的分类标志维向量；

将所述句子对序列中相邻句子对的分类标志维向量输入到所述多头注意力机制层，输出所述文本数据中目标句子对应的上下文语义表征。

进一步的，所述跨句声学编码器包括长短期记忆网络层和语音表征模型；

所述基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征，具体包括：

确定所述目标句子之前的所述历史句子对应的语音波形，将所述语音波形输入到所述语音表征模型，得到所述语音表征模型输出的综合语音特征；其中，所述语音表征模型是通过预训练得到的语音特征提取器；

将所述综合语音特征输入到所述长短期记忆网络层，输出所述历史句子对应语音波形的声学表征。

进一步的，所述确定所述目标句子对应的音素嵌入序列，具体包括：获得所述目标句子对应的音素序列；

将所述音素序列输入到预设的音素嵌入层，并对所述音素嵌入层的输出信息进行位置编码，得到所述目标句子对应的音素嵌入序列。

进一步的，所述语音合成模型包括文本编码器；

将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列，具体包括：

将所述音素嵌入序列输入到所述语音合成模型中的文本编码器，得到所述文本编码器输出的音素隐状态序列。

进一步的，所述语音合成模型还包括用于合并多个数组的连接层、用于特征融合和调整序列维度的线性层、音素级特征预测器、解码层以及声码器；

基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形，具体包括：

基于所述连接层对所述文本编码器输出的音素隐状态序列、所述声学表征以及所述上下文语义表征进行拼接，得到拼接结果；

基于所述线性层对拼接结果进行特征融合及序列维度调整，得到跨句隐状态序列；

基于所述音素级特征预测器对所述跨句隐状态序列进行处理，获得提取到的目标信息；其中，所述目标信息包括用于表示语音情感和韵律的音素级的基频、音素级的时长、用于表示音量信息的音素级的能量；

将所述目标信息进行位置编码后输入到解码层，获得所述解码层输出的所述目标句子的梅尔频谱；

基于所述声码器将所述梅尔频谱进行还原，得到所述目标句子对应的语音波形。

进一步的，所述音素级特征预测器包括时长规整器、基频预测器、能量预测器和时长预测器；

基于所述音素级特征预测器对所述跨句隐状态序列进行处理，获得提取到的目标信息，具体包括：

将所述跨句隐状态序列分别输入到所述音素级特征预测器中的基频预测器和能量预测器，得到音素级的基频和音素级的能量，以及将所述跨句隐状态序列输入到所述音素级特征预测器中的时长预测器，得到音素级的时长，通过所述时长规整器将音素级的序列拓展到帧级序列，以得到所述目标信息；其中，所述音素级的序列包含所述音素级的基频、音素级的能量以及音素级的时长。

本公开还提供一种语音合成装置，包括：

跨句文本表征单元，用于基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征；

跨句声学表征单元，用于基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征；所述历史句子为所述文本数据中待转换目标句子之前的句子；

语音合成单元，用于确定所述目标句子对应的音素嵌入序列，将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形；其中，所述语音合成模型是基于样本文本数据、所述样本文本数据对应的样本语音波形训练得到的。

所述跨句文本表征单元，具体用于：

所述跨句声学表征单元，具体用于：

进一步的，所述语音合成单元，具体用于：获得所述目标句子对应的音素序列；

进一步的，所述语音合成模型包括文本编码器；

所述语音合成单元，具体用于：

本公开还提供一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的语音合成方法的步骤。

本公开还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上任意一项所述语音合成方法的步骤。

本公开提供的语音合成方法，使用预训练的跨句文本编码器和跨句声学编码器来提取上下文语义表征和声学表征，并将这些表征信息与语音合成模型相结合。通过引入了篇章级的上下文语义表征，弥补了其他工作中仅使用目标句子和目标句子前一句所获取语义信息不足的问题，进一步的通过使用预训练得到的跨句声学编码器提取的声学特征，其能够提高语音合成韵律的连续性和丰富性，及对未见领域的泛化能力，从而提升了合成语音的自然度和表现力。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1是本公开实施例提供的语音合成方法的流程示意图；

图2是本公开实施例提供的语音合成方法的完整流程示意图；

图3是本公开实施例提供的语音合成装置结构示意图；

图4是本公开实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本公开实施例的技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本公开保护的范围。

下面基于本公开所述的语音合成方法，对实施例进行详细描述。如图1所示，其为本公开实施例提供的语音合成方法的流程示意图，具体实现过程包括以下步骤：

步骤101：基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征。

其中，所述跨句文本编码器包括多头注意力机制层(Multi-head Attention)及多个双向语义表征模型，比如BERT(BidirectionalEncoder Representations fromTransformer)模型。所述文本数据可以是指包含若干个连续的句子组成的文本数据。所述上下文语义表征为所述待处理的文本数据中目标句子对应的上下文语义表征数据。

所述基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征，对应的具体实现过程包括：将所述文本数据中相邻的句子两两组合成相应的句子对序列，基于所述双向语义表征模型对所述句子对序列进行句子级表征，提取出所述句子对序列的分类标志维向量，然后将所述句子对序列中相邻句子对的分类标志维向量输入到多头注意力机制层，输出文本数据中目标句子对应的上下文语义表征。其中，所述双向语义表征模型是通过预训练得到的基于Transformer的双向编码器。

如图2所示，CU acoustic encoder为跨句声学编码器、LSTM(Long Short-TermMemory)为长短期记忆网络层、layer summation为分层总和法层、Phoneme sequence ofu_N-1为目标句子前一句对应的音素序列；CU text encoder为跨句文本编码器、Multi-headAttention为多头注意力机制层、BERT为BERT(Bidirectional Encoder Representationsfrom Transformer)模型、pair为文本数据包含的句子对；Phoneme sequence of u_N为目标句子对应的音素序列、Encoder为文本编码器、Variance adaptor为音素级特征预测器、Decoder为解码器、Concat为连接层、Linear Projection线性层(或线性映射层)、Vocoder为声码器、Positional Encoding为位置编码(或位置编码器)、Phoneme embedding为音素嵌入层、Mel-spectrogram为梅尔频谱、Waveform为目标句子对应的语音波形。

所述文本数据中相邻的句子两两组合成相应的句子对序列可以包括：(u_N，u_N+1)、(u_N+1，u_N+2)、(u_N+2，u_N+3)等。

步骤102：基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征

进一步的，所述跨句声学编码器包括长短期记忆网络层(LSTM，long short-termmemory)和语音表征模型(比如wav2vec 2.0模型)。所述历史句子为所述文本数据中待转换目标句子之前的句子。

所述基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征，对应的具体实现过程包括：确定所述目标句子之前的所述历史句子对应的语音波形，将所述语音波形输入到所述语音表征模型，得到所述语音表征模型输出的综合语音特征；所述综合语音特征包含局部声学特征(即局部声学信息)和文本语音特征(即文本语言特征)。其中，所述语音表征模型是通过预训练得到的语音特征提取器；将所述综合语音特征输入到所述长短期记忆网络层，输出所述历史句子对应语音波形的声学表征。

进一步的，所述确定所述目标句子对应的音素嵌入序列，对应的具体实现过程包括：获得所述目标句子对应的音素序列(Phoneme sequence of u_N)，将所述音素序列输入到预设的音素嵌入层(Phoneme embedding)，并对所述音素嵌入层的输出信息进行位置编码(Positional Encoding)，得到所述目标句子对应的音素嵌入序列。

步骤103：确定所述目标句子对应的音素嵌入序列，将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形；其中，所述语音合成模型是基于样本文本数据、所述样本文本数据对应的样本语音波形训练得到的。

进一步的，所述语音合成模型包括文本编码器(Encoder)、用于合并多个数组的连接层(Concat)、用于特征融合和调整序列维度的线性层(Linear Projection)、音素级特征预测器(Variance adaptor)、解码层(Decoder)以及声码器(Vocoder)。

将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列，对应的具体实现过程为：将所述音素嵌入序列输入到所述语音合成模型中的文本编码器进行相应的编码处理，得到所述文本编码器输出的音素隐状态序列。

进一步的，基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形，对应的具体实现过程包括：基于所述连接层对所述文本编码器输出的音素隐状态序列、所述声学表征以及所述上下文语义表征进行拼接，得到拼接结果；基于所述线性层对拼接结果进行特征融合及序列维度调整，得到跨句隐状态序列；基于所述音素级特征预测器对所述跨句隐状态序列进行处理，获得提取到的目标信息；其中，所述目标信息包括用于表示语音情感和韵律的音素级的基频、音素级的时长、用于表示音量信息的音素级的能量；将所述目标信息进行位置编码后输入到解码层，获得所述解码层输出的所述目标句子的梅尔频谱(Mel-spectrogram)；基于所述声码器将所述梅尔频谱进行还原，得到所述目标句子对应的语音波形。

更进一步的，所述音素级特征预测器包括时长规整器、基频预测器、能量预测器和时长预测器。

基于所述音素级特征预测器对所述跨句隐状态序列进行处理，获得提取到的目标信息，对应的具体实现过程包括：

将所述跨句隐状态序列分别输入到所述音素级特征预测器中的基频预测器和能量预测器，得到音素级的基频和音素级的能量，以及将所述跨句隐状态序列输入到所述音素级特征预测器中的时长预测器，得到音素级的时长，通过所述时长规整器将音素级的序列拓展到帧级序列，以得到所述目标信息。其中，所述音素级的序列包含所述音素级的基频、音素级的能量以及音素级的时长。

通过使用预训练得到的BERT模型来提取上下文语义表征，即跨句(Cross-Utteranc，CU)文本，以及使用预训练得到的Wav2Vec 2.0(即W2V2模型)来提取声学表征，并将这些CU表征与语音合成模型(比如Fastspeech2)相结合，有效提高了语音合成的韵律建模和提高合成语音的自然度和表现力。所述CU表征包括CU文本和声学表征。具体的，在文本语义表征层面，通过PBE(句子对嵌入)引入了篇章级的跨句文本，弥补了其他工作中仅使用目标句子和目标句子前一句所获取语义信息不足的问题，同时在声学表征层面，使用了用海量跨语种语音数据预训练得到的W2V2模型来提取声学特征。在网络结构层面，本公开在基础的语音合成模型(比如Fastspeech2模型)上添加了两个额外的跨句编码器：一个是跨句声学编码器(即CU声学编码器)，其使用W2V2模型为历史句子(即目标句子的前句)语音波形编码出声学表征；另一个是跨句文本编码器(即CU文本编码器)，其用BERT模型为所述目标句子的上下文文本编码出篇章级的语义表征，即得到所述文本数据中目标句子的上下文语义表征。需要说明的是，为了在语音合成模型训练中保持对未见领域的最佳泛化能力，本公开的TTS(Text-to-Speech)框架中，语音合成模型训练时BERT模型和W2V2模型的参数不需要再次被微调。

如图2所示，本公开所述的CU模型的框架包括语音合成模型、预训练的跨句文本编码器以及预训练的跨句声学编码器。具体的，CU模型的框架主要包含两大模块，第一部分是语音合成模型作为基本TTS框架，其输入为音素序列，其主干网络具体为图2的中间一列；第二部分是两个CU编码器(即预训练的跨句文本编码器以及预训练的跨句声学编码器)，具体为图2中点横状虚线框的两部分，其中一个是CU文本编码器(即预训练的跨句文本编码器)，其可以从预训练的BERT模型中提取出CU文本嵌入或CU文本，即对应的上下文语义表征，另一个是CU声学编码器(即预训练的跨句声学编码器)，其通过W2V2模型从目标句子的历史句子(目标句子的前句)中导出CU声学嵌入，即声学表征。本公开使用一个多头注意力机制将CU文本编码器与语音合成模型的文本编码器连接起来。在CU声学编码器中，LSTM层用于将不等长的声学嵌入序列转换为固定长度的句子级声学表征向量。之后，将两个CU编码器的输出与语音合成模型的文本编码器的输出连接起来，并进一步传输到解码器以生成语音的梅尔谱频谱。最后，本公开可使用Parallel WaveGAN神经网络声码器将预测的梅尔频谱转换为语音波形。

下面对组成CU模型的各个模型进行详细介绍：

如图2所示中间流程所示，语音合成模型至少包括一个文本编码器(Encoder)，一个音素级特征预测器(Variance adaptor)和一个解码器(Decoder)。文本编码器和解码器是多层的Transformer结构。文本编码器的输入是音素嵌入序列，其输出称为音素隐状态序列。然后音素隐状态序列和两个CU编码器的输出拼接在一起，再通过一个线性层进行特征融合和调整序列维度，得到的输出为CU隐状态序列(即跨句隐状态序列)。其中，Varianceadaptor包含了一个时长规整器和三个预测器，分别为基频预测器、能量预测器和时长预测器。本公开中CU隐状态序列首先通过基频和能量预测器预测得到音素级的基频(即用来来表达情感和韵律的音高Pitch)和音素级的能量(即用于表达音量的信息Energy)，然后再预测音素级的时长(即音素的时长phoneme duration)，最后通过时长规整器把音素级的序列拓展到帧级序列，最后基于解码器预测得到相应的梅尔频谱。所述音素是指声音变化的因素，比如音高、音量、时间、音色，最终使得在相同文本数据的情况下生成的频谱不同。

如图2右边的虚线框所示，CU文本编码器用于从原始的连续的文本数据中提取上下文语义表征。CU文本编码器包含了BERT模型和一个多头注意力机制。BERT模型用于提取上下文语义表征。BERT模型在文本数据中每个句子话前加一个[CLS]维作为句子级表征。在CU编码器里，通过将相邻的句子两两组合成句子对序列，得到句子对序列，然后基于BERT模型提取出句子对序列的分类标志[CLS]，由这些句子对[CLS]序列(即分类标志维向量序列)组成的特征称为PBE序列。

假设一段文本包含M+L个句子{u_N-L,…,u_N,u_N+1,…,u_N+M}，其中要合成的目标句子为u_N。那么，K对PBEs可以表示为，

E＝[e(u_N,u_N+1),…, u_N+K-1,u_N+K] (1)

其中，e(A，B)表示句子A和B拼接后送入BERT模型得到的[CLS]维向量，即分类标志维向量。之后，多头注意力机制根据query、key和value的值计算出value的权值系数。在本公开中，该注意力机制的query和key均是PBE矩阵E，value是整句话的音素隐状态序列。最后注意力机制的输出context vector(即上下文语义表征)与语音合成模型中文本编码器(比如Fastspeech2中的文本编码器)的输出相拼接，进一步送入Variance adaptor。

如图2左边的虚线框所示，CU声学编码器由一个预训练的W2V2模型和一层LSTM层构成。其输入是目标句子的前句的语音波形(即历史句子对应的语音波形)。在W2V2模型中，一个语音单元代表一段帧移为20ms帧长约为25ms的语音片段。W2V2模型提取声学表征的模块由多层Transformer层构成。需要说明的是，W2V2较前面的Transformer层输出会蕴含较多的局部声学信息，靠中后面的层的输出蕴含较多的文本语言特征。本公开提取W2V2的较前面层、中间层和最后一层的Transformer层的输出并将其相加得到综合语音特征，其目的是期望该表征能蕴含W2V2不同层的特性。最后，将该综合语音特征输入到LSTM层得到LSTM的最后一个隐状态，即相应的声学表征，之后与语音合成模型中文本编码器(比如Fastspeech2中的文本编码器)的输出拼接在一起送入Variance adaptor。

本公开所述的预训练的BERT模型和W2V2模型来提取CU文本和声学表征，将所述CU文本和声学表征作为CU表征，并将这些CU表征与语音合成模型相结合。通过引入了篇章级的CU文本，弥补了其他工作中仅使用目标句子和目标句子前一句子所获取语义信息不足的问题；另一方面，本公开使用了海量跨语种语音数据预训练得到的W2V2模型提取的声学特征，这些预训练特征的使用提高了CU模型对未见领域的泛化能力，进一步地提高了合成语音的自然度。

在训练阶段，CU声学编码器的输入是历史句子对应语音波形(即真实的前句语音)，CU文本编码器的输入是句子对序列。如图2所示，由点状虚线框起来的BERT模型和W2V2模型是由海量数据预训练好的，为了保持预训练模型(即BERT模型和W2V2模型)对未见领域的泛化能力，在TTS模型的训练阶段(即语音合成模型训练阶段)不更新BERT模型和W2V2模型的参数。需要说明的是，对于中文数据集，W2V2模型可由包含53个语种的跨语种数据集预训练得到；对于英文数据集，W2V2模型是由纯英文海量数据预训练得到。这是由于中文的开源数据相较于英文开源数据要少很多，使用多语种数据来预训练会比只使用少量中文数据进行预训练的效果更优。另外，需要说明的是，本公开中，模型训练的损失函数与Fastspeech2的损失函数相同，包括基频、能量和时长的MSE(mean square error)和梅尔频谱的MAE(mean absolute error)。

在推理阶段，CU声学编码器的输入既可以是文本数据中真实前文对应的语音，也可以是合成语音(即合成的前文音频)，使用真实前文对应的语音(即历史句子对应的语音波形)输入和语音合成模型的合成语音输入的结果是没有显著差别的。需要说明的是，如果使用合成的前文音频作为输入，其过程包括以下4个步骤：1)通过任何语音合成模型生成前文音频；2)使用W2V2模型提取合成语音的声学表征；3)输入前文(即目标句子的历史句子)的声学表征，上下文语义文本(即上下文语义表征)和目标句子的音素序列就可以合成目标句子的梅尔频谱；4)最后通过声码器将梅尔频谱还原回目标句子对应的语音波形，即得到需要的语音合成结果。

本公开实施例所述的语音合成方法，使用预训练的跨句文本编码器和跨句声学编码器来提取上下文语义表征和声学表征，并将这些表征信息与语音合成模型相结合。通过引入了篇章级的上下文语义表征，弥补了其他工作中仅使用目标句子和目标句子前一句所获取语义信息不足的问题，进一步的通过使用预训练得到的跨句声学编码器提取的声学特征，其能够提高语音合成韵律的连续性和丰富性，及对未见领域的泛化能力，从而提升了合成语音的自然度和表现力。

与上述提供的一种语音合成方法相对应，本公开还提供一种语音合成装置。由于该装置的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的语音合成装置的实施例仅是示意性的。请参考图3所示，其为本公开实施例提供的一种语音合成装置的结构示意图。

本公开所述的语音合成装置，具体包括如下部分：

跨句文本表征单元301，用于基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征；

跨句声学表征单元302，用于基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征；所述历史句子为所述文本数据中待转换目标句子之前的句子；

语音合成单元303，用于确定所述目标句子对应的音素嵌入序列，将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形；其中，所述语音合成模型是基于样本文本数据、所述样本文本数据对应的样本语音波形训练得到的。

所述跨句文本表征单元，具体用于：

将所述文本数据中相邻的句子两两组合成相应的句子对序列，基于所述双向语义表征模型对所述句子对序列进行句子级表征，提取出所述句子对序列的分类标志维向量；其中，所述双向语义表征模型是通过预训练得到的基于Transformer的双向编码器；

所述跨句声学表征单元，具体用于：

确定所述目标句子之前的所述历史句子对应的语音波形，将所述语音波形输入到所述语音表征模型，得到所述语音表征模型输出的综合语音特征；所述综合语音特征包含局部声学信息和文本语言特征；其中，所述语音表征模型是通过预训练得到的语音特征提取器；

进一步的，所述语音合成模型包括文本编码器；

所述语音合成单元，具体用于：

本公开实施例所述的语音合成装置，使用预训练的跨句文本编码器和跨句声学编码器来提取上下文语义表征和声学表征，并将这些表征信息与语音合成模型相结合。通过引入了篇章级的上下文语义表征，弥补了其他工作中仅使用目标句子和目标句子前一句所获取语义信息不足的问题，进一步的通过使用预训练得到的跨句声学编码器提取的声学特征，其能够提高语音合成韵律的连续性和丰富性，及对未见领域的泛化能力，从而提升了合成语音的自然度和表现力。

与上述提供的语音合成方法相对应，本公开还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的电子设备仅是示意性的。如图4所示，其为本公开实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括：处理器(processor)401、存储器(memory)402和通信总线403，其中，处理器401，存储器402通过通信总线403完成相互间的通信，通过通信接口404与外部进行通信。处理器401可以调用存储器402中的逻辑指令，以执行语音合成方法，该方法包括：基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征；基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征；所述历史句子为所述文本数据中待转换目标句子之前的句子；确定所述目标句子对应的音素嵌入序列，将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形；其中，所述语音合成模型是基于样本文本数据、所述样本文本数据对应的样本语音波形训练得到的。

此外，上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：存储芯片、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本公开实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的语音合成方法。该方法包括：基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征；基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征；所述历史句子为所述文本数据中待转换目标句子之前的句子；确定所述目标句子对应的音素嵌入序列，将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形；其中，所述语音合成模型是基于样本文本数据、所述样本文本数据对应的样本语音波形训练得到的。

又一方面，本公开实施例还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语音合成方法。该方法包括：基于预训练的跨句文本编码器，确定待处理的文本数据中目标句子对应的上下文语义表征；基于预训练的跨句声学编码器，确定历史句子对应语音波形的声学表征；所述历史句子为所述文本数据中待转换目标句子之前的句子；确定所述目标句子对应的音素嵌入序列，将所述音素嵌入序列输入到语音合成模型，得到所述语音合成模型输出的音素隐状态序列；基于所述音素隐状态序列、所述声学表征以及所述上下文语义表征，确定所述目标句子对应的语音波形；其中，所述语音合成模型是基于样本文本数据、所述样本文本数据对应的样本语音波形训练得到的。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，所述跨句文本编码器包括多头注意力机制层和双向语义表征模型；

3.根据权利要求1所述的语音合成方法，其特征在于，所述跨句声学编码器包括长短期记忆网络层和语音表征模型；

4.根据权利要求1所述的语音合成方法，其特征在于，所述确定所述目标句子对应的音素嵌入序列，具体包括：

获得所述目标句子对应的音素序列；

5.根据权利要求1所述的语音合成方法，其特征在于，所述语音合成模型包括文本编码器；

6.根据权利要求5所述的语音合成方法，其特征在于，所述语音合成模型还包括用于合并多个数组的连接层、用于特征融合和调整序列维度的线性层、音素级特征预测器、解码层以及声码器；

7.根据权利要求6所述的语音合成方法，其特征在于，所述音素级特征预测器包括时长规整器、基频预测器、能量预测器和时长预测器；

8.一种语音合成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述语音合成方法的步骤。

10.一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任意一项所述语音合成方法的步骤。