CN111754973B

CN111754973B - 一种语音合成方法及装置、存储介质

Info

Publication number: CN111754973B
Application number: CN201910901693.4A
Authority: CN
Inventors: 宋伟; 武执政; 张政臣
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2023-09-01
Anticipated expiration: 2039-09-23
Also published as: CN111754973A

Abstract

本发明实施例提供一种语音合成方法，包括：获取表征目标文本的符号序列，并对符号序列中每一个符号分别进行编码处理，得到特征向量序列；基于预设注意力模型和特征向量序列，依次预测符号序列中每一个符号对应的声学特征，得到声学特征序列；预设注意力模型为具备单调注意力机制和单步转移机制的模型；利用声学特征序列合成目标文本对应的语音。

Description

一种语音合成方法及装置、存储介质

技术领域

本发明涉及语音处理技术，尤其涉及一种语音合成方法及装置、存储介质。

背景技术

目前，基于编码器-解码器结构的神经网络语音合成系统，由于能够实现比传统技术更加接近于人声的语音合成效果，合成的语音更加自然，韵律更加丰富，因此，得到了广泛的关注与应用。

然而，现有的语音合成系统在语音合成过程中，只能通过解码器来预测当前语音合成是否完成，可能出现针对表征目标文本的符号序列，例如音素序列，在声学特征预测过程中跳过对部分音素的声学特征预测，产生丢音等情况，导致语音合成结果不准确。

发明内容

本发明实施例提供一种语音合成方法及装置、存储介质，在语音合成过程中依次预测表征目标文本的符号序列中每一个符号相应的声学特征，保证每个符号都能得到注意，避免出现丢音等情况，从而提高了语音合成结果的准确性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种语音合成方法，所述方法包括：

获取表征目标文本的符号序列，并对所述符号序列中每一个符号分别进行编码处理，得到特征向量序列；

基于预设注意力模型和所述特征向量序列，依次预测所述符号序列中每一个符号对应的声学特征，得到声学特征序列；所述预设注意力模型为具备单调注意力机制和单步转移机制的模型；

利用所述声学特征序列合成所述目标文本对应的语音。

在上述方法中，所述基于预设注意力模型和所述特征向量序列，依次预测所述符号序列中每一个符号对应的声学特征，得到声学特征序列，包括：

在第1解码时刻，获取预设声学特征，并基于所述预设声学特征、所述预设注意力模型和所述特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量；

当第i-1解码时刻确定的第i-1个终止概率小于预设终止概率时，在第i解码时刻，对所述第i-1解码时刻确定的第i-1段声学特征进行预处理，得到第i个查询向量；i为大于1的自然数；

利用所述预设注意力模型，基于所述第i个查询向量、所述第i-1解码时刻确定的第i-1个上下文向量和所述特征向量序列，确定第i个上下文向量；

利用所述第i个查询向量和所述第i个上下文向量，预测出第i段声学特征和第i个终止概率；

当所述第i个终止概率小于所述预设终止概率时，继续在第i+1解码时刻预测第i+1段声学特征和第i+1个终止概率，直至在第m解码时刻预测出的第m个终止概率大于等于所述预设终止概率，停止声学特征预测，并将得到的m段声学特征组成所述声学特征序列；m为大于2的自然数。

在上述方法中，所述利用所述预设注意力模型，基于所述第i个查询向量、所述第i-1解码时刻确定的第i-1个上下文向量和所述特征向量序列，确定第i个上下文向量，包括：

利用所述预设注意力模型，确定所述第i个查询向量与所述第i-1个上下文向量之间的能量关系，得到第i个能量结果；

对所述第i个能量结果进行概率转换，得到第i个转移概率；

基于所述第i个转移概率，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量。

在上述方法中，所述基于所述第i个转移概率，从所述第i-1个上下文向量和所述特征向量序列中选取出第i个上下文向量，包括：

当所述第i个转移概率小于或者等于预设转移概率时，将所述第i-1个上下文向量确定为所述第i个上下文向量；

当所述第i个转移概率大于预设所述预设转移概率时，将所述特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为所述第i个上下文向量。

在上述方法中，所述对所述第i个能量结果进行概率转换，得到第i个转移概率之后，所述方法还包括：

获取前i-1个上下文向量中，与所述第i-1个上下文向量相同的上下文向量的数量；

从所述符号序列中，获取所述特征向量序列中与所述第i-1个上下文向量相同的特征向量对应的目标符号，并基于所述数量和预设单位注意时长，确定所述目标符号的历史注意时长；所述预设单位注意时长为一个解码时刻下，利用一个上下文向量预测出的声学特征的时长；

基于所述第i个转移概率和所述历史注意时长，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量。

在上述方法中，所述基于所述第i个转移概率和所述历史注意时长，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量，包括：

当所述第i个转移概率小于或者等于预设转移概率，且所述历史注意时长大于或者等于所述目标符号的预设最长注意时长时，将所述特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为所述第i个上下文向量。

当所述第i个转移概率大于预设转移概率，且所述历史注意时长小于所述目标符号的预设最短注意时长时，将所述第i-1个上下文向量确定为所述第i个上下文向量。

在上述方法中，所述基于所述预设声学特征、所述预设注意力模型和所述特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量，包括：

对所述预设声学特征进行预处理，得到第1个查询向量；

利用所述预设注意力模型，基于所述第1个查询向量，将所述特征向量序列中的第1个特征向量确定为所述第1个上下文向量；

利用所述第1个查询向量和所述第1个上下文向量，预测出所述第1段声学特征和所述第1个终止概率。

本发明实施例提供了一种语音合成装置，所述装置包括：

编码模块，用于获取表征目标文本的符号序列，并对所述符号序列中每一个符号分别进行编码处理，得到特征向量序列；

预测模块，用于基于预设注意力模型和所述特征向量序列，依次预测所述符号序列中每一个符号对应的声学特征，得到声学特征序列；所述预设注意力模型为具备单调注意力机制和单步转移机制的模型；

合成模块，用于利用所述声学特征序列合成所述目标文本对应的语音。

在上述装置中，所述预测模块，具体用于在第1解码时刻，获取预设声学特征，并基于所述预设声学特征、所述预设注意力模型和所述特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量；当第i-1解码时刻确定的第i-1个终止概率小于预设终止概率时，在第i解码时刻，对所述第i-1解码时刻确定的第i-1段声学特征进行预处理，得到第i个查询向量；i为大于1的自然数；利用所述预设注意力模型，基于所述第i个查询向量、所述第i-1解码时刻确定的第i-1个上下文向量和所述特征向量序列，确定第i个上下文向量；利用所述第i个查询向量和所述第i个上下文向量，预测出第i段声学特征和第i个终止概率；当所述第i个终止概率小于所述预设终止概率时，继续在第i+1解码时刻预测第i+1段声学特征预测和第i+1个终止概率，直至在第m解码时刻预测出的第m个终止概率大于等于所述预设终止概率，停止声学特征预测，并将得到的m段声学特征组成所述声学特征序列；m为大于2的自然数。

在上述装置中，所述预测模块，具体用于利用所述预设注意力模型，确定所述第i个查询向量与所述第i-1个上下文向量之间的能量关系，得到第i个能量结果；对所述第i个能量结果进行概率转换，得到第i个转移概率；基于所述第i个转移概率，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量。

在上述装置中，所述预测模块，具体用于当所述第i个转移概率小于或者等于预设转移概率时，将所述第i-1个上下文向量确定为所述第i个上下文向量；当所述第i个转移概率大于所述预设转移概率时，将所述特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为所述第i个上下文向量。

在上述装置中，所述预测模块，还用于获取前i-1个上下文向量中，与所述第i-1个上下文向量相同的上下文向量的数量；从所述符号序列中，获取所述特征向量序列中与所述第i-1个上下文向量相同的特征向量对应的目标符号，并基于所述数量和预设单位注意时长，确定所述第i-1个上下文向量对应的历史注意时长；所述预设单位注意时长为一个解码时刻下，利用一个上下文向量预测出的声学特征的时长；基于所述第i个转移概率和所述历史注意时长，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量。

在上述装置中，所述预测模块，具体用于所述第i个转移概率小于或者等于预设转移概率，且所述历史注意时长大于或者等于所述目标符号的预设最长注意时长时，将所述特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为所述第i个上下文向量。

在上述装置中，所述预测模块，具体用于当所述第i个转移概率大于预设转移概率，且所述历史注意时长小于所述目标符号的预设最短注意时长时，将所述第i-1个上下文向量确定为所述第i个上下文向量。

在上述装置中，所述预测模块，具体用于对所述预设声学特征进行预处理，得到第1个查询向量；利用所述预设注意力模型，基于所述第1个查询向量，将所述特征向量序列中的第1个特征向量确定为所述第1个上下文向量；利用所述第1个查询向量和所述第1个上下文向量，预测出所述第1段声学特征和所述第1个终止概率。

本发明实施例提供了一种语音合成装置，所述装置包括：处理器、存储器和通信总线；

所述通信总线，用于实现所述处理器和所述存储器之间的通信连接；

所述处理器，用于执行所述存储器中存储的语音合成程序，以实现上述语音合成方法。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现上述语音合成方法。

本发明实施例提供了一种语音合成方法，包括：获取表征目标文本的符号序列，并对符号序列中每一个符号分别进行编码处理，得到特征向量序列；基于预设注意力模型和特征向量序列，依次预测符号序列中每一个符号对应的声学特征，得到声学特征序列；预设注意力模型为具备单调注意力机制和单步转移机制的模型；利用声学特征序列合成目标文本对应的语音。在本发明实施例提供的技术方案，在语音合成过程中依次预测表征目标文本的符号序列中每一个符号相应的声学特征，保证每个符号都能得到注意，避免出现丢音等情况，从而提高了语音合成结果的准确性。

附图说明

图1为本发明实施例提供的一种语音合成方法的流程示意图；

图2为本发明实施例提供的一种预测声学特征的流程示意图；

图3为本发明实施例提供的一种示例性的注意转移示意图一；

图4为本发明实施例提供的一种示例性的注意转移示意图二；

图5为本发明实施例提供的一种示例性的注意转移示意图三；

图6为本发明实施例提供的一种示例性的注意转移示意图四；

图7为本发明实施例提供的一种示例性的声学特征预测过程示意图；

图8为本发明实施例提供的一种语音合成装置的结构示意图一；

图9为本发明实施例提供的一种语音合成装置的结构示意图二。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

本发明实施例提供了一种语音合成方法，通过语音合成装置实现。图1为本发明实施例提供的一种语音合成方法的流程示意图。如图1所示，主要包括以下步骤：

S101、获取表征目标文本的符号序列，并对符号序列中每一个符号分别进行编码处理，得到特征向量序列。

在本发明的实施例中，语音合成装置可以先获取表征目标文本的符号序列，并对符号序列中每一个符号分别进行编码处理，得到特征向量序列。

需要说明的是，在本发明的实施例中，目标文本为用户需要合成相应语音的文本，表征目标文本的符号序列，可以为目标文本对应的音素序列或者字符序列。例如，“那咱俩一起属羊吧”这一段文字为目标文本，可以将该段文字的音素序列确定相应的符号序列。具体的目标文本和表征目标文本的符号序列本发明实施例不作限定。

需要说明的是，在本发明的实施例中，语音合成装置可以利用特定神经网络，例如，三层一维卷积和双向长短期记忆网络(Long Short-Term Memory，LSTM)组成的神经网络，对符号序列进行编码处理，从而得到相应的特征向量序列。其中，三层一维卷积可以针对每一个符号，学习到其对应的局部上下文信息，双向LSTM可以计算出每一个符号的双向全局信息，从而获得每一个序号具有表现力并且包含上下文信息的内部表示，即对应的特征向量。具体的编码处理方式本发明实施例不作限定。

可以理解的是，在本发明的实施例中，符号序列中的符号按照目标文本对应的顺序进行排列，相应的，语音合成装置对符号序列中每一个序号分别进行编码处理，得到对应的特征向量同样按照序号序列中的符号的顺序进行排列，从而得到特征向量序列。也就是说，符号序列和特征向量序列中，处在同一排序位置的符号和特征向量一一对应。

S102、基于预设注意力模型和特征向量序列，依次预测符号序列中每一个符号对应的声学特征，得到声学特征序列；预设注意力模型为具备单调注意力机制和单步转移机制的模型。

在本发明的实施例中，语音合成装置在获得符号序列对应的特征向量序列之后，进一步的，基于预设注意力模型和特征向量序列，依次预测符号序列中每一个符号对应的声学特征，得到声学特征序列。

需要说明的是，在现有语音合成技术方案中，只能通过解码器来预测当前语音合成是否完成，不能对输入的符号序列，例如音素序列，其中的每个音素的合成过程进行相关控制，因此，在预测声学特征过程中，容易出现丢音等问题。而在本发明的实施例中，语音合成装置利用具备单调注意力机制和单步转移机制的预设注意力模型，即在每一次进行解码预测声学特征时，仅关注符号序列中一个符号对应的特征向量，并且，在进行注意力跳转时，仅向前转移一步注意力，即关注下一个符号对应的特征向量，从而保证依次预测符号序列中每一个符号对应的声学特征。

需要说明的是，在本发明的实施例中，语音合成装置是按照时间顺序进行依次预测符号序列中每一个符号对应的声学特征。语音合成装置基于预设注意力模型和特征向量序列进行声学特征预测，特征向量序列中每一个特征向量即对对应符号进行编码获得的，因此，预测过程也实际上就是解码的过程，实质是进行了符号在语音方面的映射。

图2为本发明实施例提供的一种预测声学特征的流程示意图。如图2所示，在本发明的实施例中，语音合成装置基于预设注意力模型和特征向量序列，依次预测符号序列中每一个符号对应的声学特征，得到声学特征序列，包括以下步骤：

S201、在第1解码时刻，获取预设声学特征，并基于预设声学特征、预设注意力模型和特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量。

在本发明的实施例中，语音合成装置在进行声学特征预测的过程中，在第1解码时刻，获取预设声学特征，并基于预设声学特征、预设注意力模型和特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量。

具体的，在本发明的实施例中，语音合成装置需要在第1解码时刻确定第1段声学特征、第1个终止概率和第1个上下文向量，该过程实际上就是初始化，包括：在第1解码时刻，获取预设声学特征，并对预设声学特征进行预处理，得到第1个查询向量；利用预设注意力模型，基于第1查询向量，将特征向量序列中的第1个特征向量确定为第1个上下文向量；利用第1个查询向量和第1个上下文向量，预测出第1段声学特征和第1个终止概率。

需要说明的是，在本发明的实施例中，语音合成装置可以存储有预设声学特征，以进行初始化，生成第1个查询向量。具体的预设声学特征可以根据实际需求预先设置，本发明实施例不作限定。

需要说明的是，在本发明的实施例中，语音合成装置可以利用两层全连接层和两层LSTM组成的神经网络对预设声学特征进行预处理，从而得到第1个查询向量。此外，语音合成装置在将第1个查询向量输入预设注意力模型之后，由于并没有前置信息的输入，且预设注意力模型为具备单调注意机制的模型，因此，预设注意力模型直接基于第1个查询向量，将特征向量序列中的第1个特征向量选取出，并为第1个特征向量配置权重1，其它特征向量配置权重均为0，从而加权求和后直接输出第1个上下文向量即第1个特征向量。

S202、当第i-1解码时刻确定的第i-1个终止概率小于预设终止概率时，在第i解码时刻，对第i-1解码时刻确定的第i-1段声学特征进行预处理，得到第i个查询向量；i为大于1的自然数。

在本发明的实施例中，当第i-1解码时刻确定的第i-1个终止概率小于预设终止概率时，在第i解码时刻，语音合成装置对第i-1解码时刻确定的第i-1段声学特征进行预处理，得到第i个查询向量。

需要说明的是，在本发明的实施例中，语音合成装置在不同解码时刻均可以预测出一段声学特征和一个终止概率，并在预测过程中，确定出预测使用的一个上下文向量，预测出的一段声学特征即为符号序列中某个符号对应的全部或者一段声学特征。符号序列中一个符号实际上对应声学特征序列中至少一段顺序排列的声学特征。

需要说明的是，在本发明的实施例中，语音合成装置可以先根据第i-1解码时刻确定的第i-1个终止概率确定是否继续在下一解码时刻，即在第i解码时刻对符号序列中的符号进行声学特征预测。

需要说明的是，在本发明的实施例中，声学特征预测的过程实际上是一个循环过程，对于语音合成装置如何在第i-1解码时刻获得第i-1段声学特征、第i-1个终止概率和第i-1个上下文向量，实际上是循环过程中的一部分。

在本发明的实施例中，当第i-1个终止概率小于预设终止概率时，说明还需要进行下一解码时刻的声学特征预测，因此，在第i解码时刻，对第i-1解码时刻获得第i-1段声学特征进行预处理，得到第i个查询向量。

可以理解的是，在本发明的实施例中，语音合成装置在每一个当前解码时刻，都是利用上一解码时刻预测出的声学特征，进行查询向量的生成。

具体的，在本发明的实施例中，与上述第1解码时刻相同，语音合成装置可以利用两层全连接层和两层LSTM组成的神经网络对第i-1段声学特征进行预处理，从而得到第i个查询向量。

S203、利用预设注意力模型，基于第i个查询向量、第i-1解码时刻确定的第i-1个上下文向量和特征向量序列，确定第i个上下文向量。

在本发明的实施例中，语音合成装置在得到第i个查询向量之后，即可利用预设注意力模型，基于第i个查询向量、第i-1解码时刻确定的第i-1个上下文向量和特征向量序列，确定第i个上下文向量。

具体的，在本发明的实施例中，语音合成装置利用预设注意力模型，基于第i个查询向量、第i-1解码时刻确定的第i-1个上下文向量和特征向量序列，确定第i个上下文向量，包括：利用预设注意力模型，确定第i个查询向量与第i-1个上下文向量之间的能量关系，得到第i个能量结果；对第i个能量结果进行概率转换，得到第i个转移概率；基于第i个转移概率，从第i-1个上下文向量和特征向量序列中，确定第i个上下文向量。

需要说明的是，在本发明的实施例中，预设注意力模型具体按照以下公式(1)至公式(3)，确定第i个上下文向量：

e_i＝a(s_i，h_i-1) (1)

p_i＝σ(e_i) (2)

z_i～Bernoulli(p_i) (3)

需要说明的是，在本发明的实施例中，如公式(1)所示，预设注意力模型可以确定输入的第i个查询向量s_i，以及第i-1解码时刻确定的第i-1个上下文向量h_i-1之间的能量关系，得到第i个能量结果e_i，能量结果e_i实际上可以表征第i个查询向量s_i和第i-1个上下文向量h_i-1之间的相似程度。其中，查询向量s_i是基于第i-1个解码时刻预测出的第i-1段声学特征获得的，第i-1个上下文向量h_i-1实际上是在第i-1个解码时刻，从特征向量序列中确定出的一个用于预测第i-1段声学特征的特征向量，在第i-1个解码时刻，预设注意力模型为该特征向量配置权重1，其它特征向量配置权重均为0，从而加权求和确定的第i-1个上下文向量即为该特征向量本身。

需要说明的是，在本发明的实施例中，如公式(2)所示，预设注意力模型还将对第i个能量结果e_i进行概率转换，从而得到第i个转移概率p_i。具体的转换方式本发明实施例不作限定。

需要说明的是，在本发明的实施例中，如公式(3)所示，预设注意力模型在获得第i个转移概率p_i之后，将进行概率的判断，从而确定z_i为0还是1。具体的，语音合成装置基于第i个转移概率，从第i-1个上下文向量和特征向量序列中选取出第i个上下文向量，包括：当第i个转移概率小于或者等于预设转移概率时，将第i-1个上下文向量确定为第i个上下文向量；当第i个转移概率大于预设转移概率时，将特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为第i个上下文向量。实际上就是当第i个转移概率p_i小于或者等于预设转移概率时，预设注意力模型将第i-1个上下文向量确定为第i个上下文向量，也就是维持注意力不变，在预测过程中，实际表征第i-1个上下文向量在符号序列中对应符号的声学特征，在第i-1解码时刻预测的并未预测完成，还需在第i解码时刻继续预测，相应的，表征该结果的z_i即为1。同样的，当第i个转移概率p_i大于预设转移概率时，预设注意力模型将特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为第i个上下文向量，也就是注意力向后移动一步，在预测过程中，实际表征第i-1个上下文向量在符号序列中对应符号的声学特征，在第i-1解码时刻预测的已经预测完成，基于单步转移机制，由于第i-1个上下文向量实际上是从特征向量序列中确定的一个向量，因此，可以获取第i-1个上下文向量在特征向量序列中的排序，从而将排序在其后面的下一个特征向量确定为第i个上下文向量，相应的，表征该结果的z_i即为0。

图3为本发明实施例提供的一种示例性的注意转移示意图一。如图3所示，表征目标文本的符号序列为音素序列，共包括8个音素，即p1至p8，相应的，编码生成了8个特征向量，组成特征向量序列。在t1解码时刻，预设注意力模型将音素p1对应的特征向量确定为第1个上下文向量，以用于预测第1段声学特征，之后，在t2解码时刻，预设注意力模型基于第1段声学特征，按照上述方法确定仍然需要对音素p1进行声学特征预测，即将第1个上下文向量继续确定为第2个上下文向量，以此类推，进行后续注意转移控制，确定上下文向量。其中，每一次仅关注一个音素，也就是将相应的一个特征向量直接用于声学特征预测，并且，每次注意转移时仅向后转移一步。

图4为本发明实施例提供的一种示例性的注意转移示意图二。如图4所示，纵坐标为目标文本“那咱俩一起属羊吧”的音素序列，横坐标为解码时刻，按照本发明的声学特征预测方式对音素序列中的每一个音素依次进行声学特征预测，每一次解码只关注一个音素，也就是对一个音素的特征向量权重设置为1，其它为0。从图4中可以明显看出，对于发音比较短的音素，例如n，a4，z等都获得了比较短的注意时长，也就是解码时刻较少，对于发音比较长的音素，例如iang2，b，a5等都获得了比较长的注意时长，也就是解码时刻较长。

可以理解的是，在本发明的实施例中，如图5所示，目标文本为“上涨0.22元”，其对应的音素序列中er4音素得到的注意时长，即其对应的特征向量作为上下文向量的时长持续了6个解码时刻，从而最终造成重复发音的问题。如图6所示，目标文本为“等于13.222”，其对应的音素序列中因为第2个音素e r和第3个音素er获得的注意时长，即对应的特征向量作为上下文向量的时长过短，造成两个音素连起来读了，导致最终合成为“等于13.22”。基于上述问题，语音合成装置还可以结合注意时长进行第i个上下文向量的确定。

就需要进一步在确定上下文向量的过程中重新调整之前确定的上下文向量。也就是说，语音合成装置在确定第i个上下文向量之后，还可以进一步针对确定的第i个特征向量进行调整。

具体的，在本发明的实施例中，语音合成装置对第i个能量结果进行概率转换，得到第i个转移概率之后，还可以按照以下步骤确定第i个上下文向量：获取前i-1个上下文向量中，与第i-1个上下文向量相同的上下文向量的数量；从符号序列中，获取特征向量序列中与第i-1个上下文向量相同的特征向量对应的目标符号，并基于数量和预设单位注意时长，确定目标符号的历史注意时长；预设单位注意时长为一个解码时刻下，利用一个上下文向量预测出的声学特征的时长；基于第i个转移概率和历史注意时长，从第i-1个上下文向量和特征向量序列中，确定第i个上下文向量。

需要说明的是，在本发明的实施例中，第i-1个上下文向量实际上是从特征向量序列中确定出的一个向量，因此，在特征向量序列中必然存在一个与第i-1个上下文向量相同的特征向量。由于特征向量序列和符号序列存在对应关系，因此，语音合成装置可以从符号序列中，获取到与第i-1个上下文向量相同的特征向量对应的目标符号，该目标符号实际上也与第i-1个上下文向量相对应。

具体的，在本发明的实施例中，语音合成装置基于第i个转移概率和历史注意时长，从第i-1个上下文向量和特征向量序列中，确定第i个上下文向量，包括：当第i-1个转移概率小于或者等于预设转移概率，且历史注意时长大于或者等于目标符号的预设最长注意时长时，将特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为第i个上下文向量。

具体的，在本发明的实施例中，语音合成装置基于第i个转移概率和历史注意时长，从第i-1个上下文向量和特征向量序列中，确定第i个上下文向量，包括：当第i个转移概率大于预设转移概率，且历史注意时长小于目标符号的预设最短注意时长时，将第i-1个上下文向量确定为第i个上下文向量。

需要说明的是，在本发明的实施例中，预设单位注意时长为一个解码时刻下，利用一个上下文向量预测出的声学特征的时长。语音合成装置在每一个解码时刻利用确定的上下文向量和查询向量可以预测4帧声学特征，一帧为15ms，即每一个解码时刻预测出60ms的声学特征。因此，语音合成装置可以获取到前i-1个上下文向量中，与第i-1个上下文向量相同的上下文向量的数量，相当于特征向量序列中，第i-1个上下文向量对应的特征向量被作为上下文向量的次数，从而乘以60ms获得历史注意时长，实际上也表征了符号序列中，与第i-1个上下文向量对应的符号在声学特征预测过程中被关注的时长。具体的预设单位注意时长可以根据实际需求预设，本发明实施例不作限定。

需要说明的是，在本发明的实施例中，第i-1个上下文向量实际上就是特征向量序列中的一个特征向量，其对应符号序列中的一个符号。针对于符号序列中的每一个符号，可以根据先验知识在语音合成装置中预设最长注意时长和预设最短注意时长，该预设最长注意时长和预设最短注意时长可以为根据大量数据统计确定的，也可以为根据不同第i-1上下文向量对应的符号的上一个符号或者下一个符号确定的，即上下文信息确定的。

示例性的，在本发明的实施例中，如图5所示，er音素获得了6个解码时刻的注意，即利用其对应的特征向量作为上下文向量持续了6个解码时刻，一个解码时刻预测60ms声学特征，共360ms的特征特征，而根据先验知识er音素的预设最长注意时长为200ms，因此，在解码过程中，可以强制在第4个解码时刻，将下一个音素的特征向量作为上下文向量。

示例性的，在本发明的实施例中，如图6所示，er音素被关注，即对应的特征向量作为上下文向量的时长过短，导致两个er被连在一起发音的问题，语音合成装置可以根据先验知识获知er音素至少要持续120ms注意，即对应的特征向量至少要在连续的两个解码时刻作为上下文向量，因此，在仅在一个解码时刻作为上下文向量，且确定下一个解码时刻转移注意，即以下一个音素的特征向量作为上下文向量的情况下，将强制继续以该音素的特征向量在下一个解码时刻作为上下文向量，从而避免发音过短，两个音素发音被连在一起的情况。

需要说明的是，在本发明的实施例中，语音合成装置可以预先进行模型训练，从而生成具备单调注意力机制和单步转移机制的预设注意力模型。其中，单调注意力机制实际上就是为预设注意力模型设置即在每将一个特征向量确定为上下文向量时，为其配置权重1，而其它特征向量的权重配置为0，这样在加权求和的情况下，得到的上下文向量还是该特征向量，也就相当于直接输出该特征向量用于声学特征预测。具体的，为了解决上述公式(3)不可导的问题，语音合成装置可以基于以下公式(4)进行模型训练，从而生成预设注意力模型：

α_i，j＝α_i-1，jp_i，j+α_i-1，j-1(1-p_i，j-1) (4)

其中，a_i，j为第i解码时刻下，特征向量序列中第j个特征向量获得注意的期望概率，a_i-1，j为第i-1解码时刻，第j个特征向量获得注意的期望概率，p_i，j为第i解码时刻，第j个特征向量的转移概率，a_i-1，j-1为第i-1解码时刻，第j-1个特征向量获得注意的期望概率，p_i，j-1为第i解码时刻，第j-1个特征向量的转移概率。基于期望概率和预设阈值的关系进行注意转移的判断。需要说明的是，语音合成的过程实际上是利用上述公式(1)、公式(2)和公式(3)实现的，而预设注意力模型的训练过程是利用上述公式(4)实现的。

S204、利用第i个查询向量和第i个上下文向量，预测出第i段声学特征和第i个终止概率。

在本发明的实施例中，语音合成装置在确定出第i个上下文向量和第i个查询向量之后，即可利用第i个查询向量和第i个上下文向量，预测出第i段声学特征和第i个终止概率。

具体的，在本发明的实施例中，语音合成装置可以将第i个查询向量和第i个上下文向量先拼接在一起，得到一个拼接向量，之后对该拼接向量进行一些特定的线性变换，从而得到第i段声学特征。此外，语音合成装置可以对拼接向量进行特定的线性变换和概率变换，得到第i个终止概率。具体可以采用现有常用预测方式进行预测，在此不再赘述。

S205、当第i个终止概率小于预设终止概率时，继续在第i+1解码时刻预测第i+1段声学特征和第i+1个终止概率，直至在第m解码时刻预测出的第m个终止概率大于等于预设终止概率，停止声学特征预测，并将得到的m段声学特征组成声学特征序列；m为大于2的自然数。

在本发明的实施例中，语音合成装置在获得第i个终止概率之后，可以进行是否终止预测的判断，第i个终止概率小于预设终止概率时，继续在第i+1解码时刻进行声学特征预测，直至在第m解码时刻预测出的第m个终止概率大于等于预设终止概率，停止声学特征预测，并将得到的m段声学特征组成声学特征序列。

示例性的，在本发明的实施例中，预设终止概率可以设置为0.5，即如果第i个终止概率大于等于0.5，则不再进行第i+1解码时刻的声学特征预测，完成对符号序列中每一个符号的声学特征预测。相应的，如果第i个终止概率小于0.5，则继续进行第i+1解码时刻的声学特征预测，直至得到一个终止概率大于等于0.5。具体的预设终止概率本发明实施例不作限定。

可以理解的是，在本发明的实施例中，语音合成装置在每一个解码时刻预测终止概率进行是否结束预测的判断，在确定终止时，实际上刚好就完成了符号序列中最后一个符号的声学特征的预测。

可以理解的是，在本发明的实施例中，预设注意力模型控制实现了对符号序列中每一个符号依次预测对应的声学特征，是具有时间顺序的，因此，按照该时间顺序依次得到的m段声学特征实际上组成了符号序列对应的声学特征序列。

图7为本发明实施例提供的一种示例性的声学特征预测过程示意图。如图7所示，语音合成装置可以将输入的表征目标文本的音素序列经过三层一维卷积和双向长短期记忆网络进行编码处理，得到对应的特征向量序列，之后，利用预设注意力模型，基于当前解码时刻获取到的查询向量进行上下文向量的确定，从而利用查询向量和上下文向量预测出一段声学特征和一个终止概率。其中，当前解码时刻获取到的查询向量为上一解码时刻预测出的一段声学特征，经过两层全连接层和两层长短期记忆网络处理后得到的。

S103、利用声学特征序列合成目标文本对应的语音。

在本发明的实施例中，语音合成装置在获得声学特征序列之后，即可利用声学特征序列合成目标文本对应的语音。

需要说明的是，在本发明的实施例中，语音合成装置可以对声学特征序列中的每一段声学特征依次进行发音的合成，并输出得到目标文本的语音。

需要说明的是，在本发明的实施例中，语音合成装置可以对声学特征序列中的声学特征进行一些特定的后处理，然后通过声码器获得对应的语音波形，从而再利用语音波形进行生成声音，即获得目标文本的语音。具体的利用声学特征合成语音为现有技术，在此不再赘述。

本发明实施例提供了一种语音合成方法，包括：获取表征目标文本的符号序列，并对符号序列中每一个符号分别进行编码处理，得到特征向量序列；基于预设注意力模型和特征向量序列，依次预测符号序列中每一个符号对应的声学特征，得到声学特征序列；预设注意力模型为具备单调注意力机制和单步转移机制的模型；利用声学特征序列合成目标文本对应的语音。本发明实施例提供的技术方案，在语音合成过程中依次预测表征目标文本的符号序列中每一个符号相应的声学特征，保证每个符号都能得到注意，避免出现丢音等情况，从而提高了语音合成结果的准确性。

本发明实施例提供了一种语音合成装置。图8为本发明实施例提供的一种语音合成装置的结构示意图一。如图8所示，所述装置包括：

编码模块801，用于获取表征目标文本的符号序列，并对所述符号序列中每一个符号分别进行编码处理，得到特征向量序列；

预测模块802，用于基于预设注意力模型和所述特征向量序列，依次预测所述符号序列中每一个符号对应的声学特征，得到声学特征序列；所述预设注意力模型为具备单调注意力机制和单步转移机制的模型；

合成模块803，用于利用所述声学特征序列合成所述目标文本对应的语音。

可选的，所述预测模块802，具体用于在第1解码时刻，获取预设声学特征，并基于所述预设声学特征、所述预设注意力模型和所述特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量；当第i-1解码时刻确定的第i-1个终止概率小于预设终止概率时，在第i解码时刻，对所述第i-1解码时刻确定的第i-1段声学特征进行预处理，得到第i个查询向量；i为大于1的自然数；利用所述预设注意力模型，基于所述第i个查询向量、所述第i-1解码时刻确定的第i-1个上下文向量和所述特征向量序列，确定第i个上下文向量；利用所述第i个查询向量和所述第i个上下文向量，预测出第i段声学特征和第i个终止概率；当所述第i个终止概率小于所述预设终止概率时，继续在第i+1解码时刻预测第i+1段声学特征预测和第i+1个终止概率，直至在第m解码时刻预测出的第m个终止概率大于等于所述预设终止概率，停止声学特征预测，并将得到的m段声学特征组成所述声学特征序列；m为大于2的自然数。

可选的，所述预测模块802，具体用于利用所述预设注意力模型，确定所述第i个查询向量与所述第i-1个上下文向量之间的能量关系，得到第i个能量结果；对所述第i个能量结果进行概率转换，得到第i个转移概率；基于所述第i个转移概率，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量。

可选的，所述预测模块802，具体用于当所述第i个转移概率小于或者等于预设转移概率时，将所述第i-1个上下文向量确定为所述第i个上下文向量；当所述第i个转移概率大于所述预设转移概率时，将所述特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为所述第i个上下文向量。

可选的，所述预测模块802，还用于获取前i-1个上下文向量中，与所述第i-1个上下文向量相同的上下文向量的数量；从所述符号序列中，获取所述特征向量序列中与所述第i-1个上下文向量相同的特征向量对应的目标符号，并基于所述数量和预设单位注意时长，确定所述目标符号的历史注意时长；所述预设单位注意时长为一个解码时刻下，利用一个上下文向量预测出的声学特征的时长；基于所述第i个转移概率和所述历史注意时长，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量。

可选的，所述预测模块802，具体用于当所述第i个转移概率小于或者等于预设转移概率，且所述历史注意时长大于或者等于所述目标符号的预设最长注意时长时，将所述特征向量序列中，从未被确定为上下文向量，且排序最前的特征向量确定为所述第i个上下文向量。

可选的，所述预测模块802，具体用于当所述第i个转移概率大于预设转移概率，且所述历史注意时长小于所述目标符号的预设最短注意时长时，将所述第i-1个上下文向量确定为所述第i个上下文向量。

可选的，所述预测模块802，具体用于对所述预设声学特征进行预处理，得到第1个查询向量；利用所述预设注意力模型，基于所述第1个查询向量，将所述特征向量序列中的第1个特征向量确定为所述第1个上下文向量；利用所述第1个查询向量和所述第1个上下文向量，预测出所述第1段声学特征和所述第1个终止概率。

图9为本发明实施例提供的一种语音合成装置的结构示意图二。如图9所示，所述装置包括：处理器901、存储器902和通信总线903；

所述通信总线903，用于实现所述处理器901和所述存储器902之间的通信连接；

所述处理器901，用于执行所述存储器902中存储的语音合成程序，以实现上述语音合成方法。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现上述语音合成方法。计算机可读存储介质可以是是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Me mory，ROM)，快闪存储器(flash memory)，硬盘(Hard DiskDrive，HDD)或固态硬盘(Solid-State Drive，SSD)；也可以是包括上述存储器之一或任意组合的各自设备，如移动电话、计算机、平板设备、个人数字助理等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信号处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信号处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信号处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信号处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

在第1解码时刻，获取预设声学特征，并基于所述预设声学特征、预设注意力模型和所述特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量；所述预设注意力模型为具备单调注意力机制和单步转移机制的模型；

利用所述预设注意力模型，确定所述第i个查询向量与第i-1个上下文向量之间的能量关系，得到第i个能量结果；

对所述第i个能量结果进行概率转换，得到第i个转移概率；

基于所述第i个转移概率和所述历史注意时长，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量；

当所述第i个终止概率小于所述预设终止概率时，继续在第i+1解码时刻预测第i+1段声学特征和第i+1个终止概率，直至在第m解码时刻预测出的第m个终止概率大于等于所述预设终止概率，停止声学特征预测，并将得到的m段声学特征组成声学特征序列；m为大于2的自然数；

利用所述声学特征序列合成所述目标文本对应的语音。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第i个转移概率，从所述第i-1个上下文向量和所述特征向量序列中选取出第i个上下文向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述第i个转移概率和所述历史注意时长，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第i个转移概率和所述历史注意时长，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述预设声学特征、所述预设注意力模型和所述特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量，包括：

对所述预设声学特征进行预处理，得到第1个查询向量；

6.一种语音合成装置，其特征在于，所述装置包括：

预测模块，用于在第1解码时刻，获取预设声学特征，并基于所述预设声学特征、预设注意力模型和所述特征向量序列，确定第1段声学特征、第1个终止概率和第1个上下文向量；所述预设注意力模型为具备单调注意力机制和单步转移机制的模型；

当第i-1解码时刻确定的第i-1个终止概率小于预设终止概率时，在第i解码时刻，对所述第i-1解码时刻确定的第i-1段声学特征进行预处理，得到第i个查询向量；i为大于1的自然数；所述预测模块，还用于利用所述预设注意力模型，确定所述第i个查询向量与第i-1个上下文向量之间的能量关系，得到第i个能量结果；对所述第i个能量结果进行概率转换，得到第i个转移概率；获取前i-1个上下文向量中，与所述第i-1个上下文向量相同的上下文向量的数量；从所述符号序列中，获取所述特征向量序列中与所述第i-1个上下文向量相同的特征向量对应的目标符号，并基于所述数量和预设单位注意时长，确定所述目标符号的历史注意时长；所述预设单位注意时长为一个解码时刻下，利用一个上下文向量预测出的声学特征的时长；基于所述第i个转移概率和所述历史注意时长，从所述第i-1个上下文向量和所述特征向量序列中，确定所述第i个上下文向量；利用所述第i个查询向量和所述第i个上下文向量，预测出第i段声学特征和第i个终止概率；当所述第i个终止概率小于所述预设终止概率时，继续在第i+1解码时刻预测第i+1段声学特征和第i+1个终止概率，直至在第m解码时刻预测出的第m个终止概率大于等于所述预设终止概率，停止声学特征预测，并将得到的m段声学特征组成声学特征序列；m为大于2的自然数；

7.一种语音合成装置，其特征在于，所述装置包括：处理器、存储器和通信总线；

所述处理器，用于执行所述存储器中存储的语音合成程序，以实现权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现权利要求1-5任一项所述的方法。