CN114783406A

CN114783406A - 语音合成方法、装置和计算机可读存储介质

Info

Publication number: CN114783406A
Application number: CN202210678718.0A
Authority: CN
Inventors: 钟雨崎; 凌明; 杨作兴; 艾国
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-07-22
Anticipated expiration: 2042-06-16
Also published as: CN114783406B

Abstract

本发明实施方式提出一种语音合成方法、装置和计算机可读存储介质。方法包括：将文本转换为多个发音特征；以相同的倍数重复所述多个发音特征中的每个发音特征，其中所述倍数是基于语谱图提取步长及基准语音数据的发音特征平均时长所确定的；基于所述语谱图提取步长，将重复后的所述多个发音特征转换为语谱图；将所述语谱图转换为对应于所述文本的语音。本发明实施方式无需预测每个发音特征的发音时长，以相同的倍数重复每个发音特征，提升了语音合成速度，降低了设备功耗。而且，本发明实施方式基于语谱图提取步长及基准语音数据的发音特征平均时长共同确定倍数，保证了发音时长的准确度。

Description

语音合成方法、装置和计算机可读存储介质

技术领域

本发明属于语音处理技术领域，特别是涉及一种语音合成方法、装置和计算机可读存储介质。

背景技术

语音合成又称文语转换（Text to Speech）技术，是利用电子计算机和一些专门装置模拟人，以制造语音的技术。

自回归语音合成技术具有语音合成速度慢、重复吐词或漏词等缺点，目前通常采用非自回归语音合成技术。非自回归语音合成通常包括：（1）将文本转换为发音特征（比如声韵母特征）；（2）、利用时长模型预测每个发音特征的发音时长；（3）、利用声学模型，结合发音特征以及各自的发音时长，预测语谱图；（4）、利用声码器将语谱图转换为语音信号。

然而，由于需要预测每个发音特征的发音时长，导致语音合成速度下降，且增加了设备功耗。

发明内容

本发明实施方式提出一种语音合成方法、装置和计算机可读存储介质。

本发明实施方式的技术方案如下：

一种语音合成方法，包括：

将文本转换为多个发音特征；

以相同的倍数重复所述多个发音特征中的每个发音特征，其中所述倍数是基于语谱图提取步长及基准语音数据的发音特征平均时长所确定的；

基于所述语谱图提取步长，将重复后的所述多个发音特征转换为语谱图；

将所述语谱图转换为对应于所述文本的语音。

在示范性实施方式中，所述方法还包括：

确定所述基准语音数据中的发音特征的数目；

确定所述基准语音数据的总时长；

确定所述基准语音数据的发音特征平均时长，其中所述发音特征平均时长等于所述总时长除以所述基准语音数据中的发音特征的数目；

确定所述发音特征平均时长除以所述语谱图提取步长的运算结果；

将所述运算结果的取整值确定为所述倍数。

在示范性实施方式中，所述将所述运算结果的取整值确定为所述倍数至少包括如下之一：

将所述运算结果的向上取整值，确定为所述倍数；

将所述运算结果的向下取整值，确定为所述倍数；

将以四舍五入方式确定的、所述运算结果的取整值，确定为所述倍数。

在示范性实施方式中，所述以相同倍数重复每个发音特征至少包括如下之一：

以相同倍数复制所述每个发音特征；

单级上采样所述每个发音特征，其中所述单级上采样中的上采样倍率等于所述倍数；

多级上采样所述每个发音特征，其中所述多级上采样中的每级上采样倍率的乘积等于所述倍数。

在示范性实施方式中，所述将文本转换为多个发音特征包括：基于非自回归语音合成模型中的编码器，将所述文本转换为多个发音特征；

所述基于所述语谱图提取步长，将所述重复后的多个发音特征转换为语谱图包括：基于所述非自回归语音合成模型中的解码器，将所述重复后的多个发音特征转换为语谱图；

其中所述非自回归语音合成模型的训练数据包含所述基准语音数据及对应于所述基准语音数据的训练文本。

在示范性实施方式中，所述方法还包括：

确定所述基准语音数据中的发音特征的数目；

基于所述倍数、所述基准语音数据中的发音特征的数目以及所述语谱图提取步长，确定所述基准语音数据的变更时长；

以变速不变调方式，将所述基准语音数据的时长变更为所述变更时长；

基于包含变更后的基准语音数据的训练数据，对所述非自回归语音合成模型进行训练。

在示范性实施方式中，所述基于包含变更后的基准语音数据的训练数据，对所述非自回归语音合成模型进行训练包括：

将所述训练文本输入所述编码器，以由所述编码器将所述训练文本转换为多个训练发音特征；

基于上采样方式重复所述多个训练发音特征，其中所述上采样方式中的上采样倍率等于所述倍数；

将重复后的所述多个训练发音特征输入所述解码器，以由所述解码器将所述重复后的所述多个训练发音特征转换为训练语谱图；

确定所述变更后的基准语音数据的基准语谱图；

基于所述训练语谱图与所述基准语谱图的差异，确定所述非自回归语音合成模型的损失函数值；

配置所述非自回归语音合成模型的模型参数，以使所述损失函数值低于预设阈值。

在示范性实施方式中，所述发音特征至少包括如下之一：

声母特征；韵母特征。

一种语音合成装置，包括：

第一转换模块，被配置为将文本转换为多个发音特征；

重复模块，被配置为以相同的倍数重复所述多个发音特征中的每个发音特征，其中所述倍数是基于语谱图提取步长及基准语音数据的发音特征平均时长所确定的；

第二转换模块，被配置为基于所述语谱图提取步长，将重复后的所述多个发音特征转换为语谱图；

第三转换模块，被配置为将所述语谱图转换为对应于所述文本的语音。

在示范性实施方式中，所述重复模块，被配置为：确定所述基准语音数据中的发音特征的数目；确定所述基准语音数据的总时长；确定所述基准语音数据的发音特征平均时长，其中所述发音特征平均时长等于所述总时长除以所述基准语音数据中的发音特征的数目；确定所述发音特征平均时长除以所述语谱图提取步长的运算结果；将所述运算结果的取整值确定为所述倍数。

在示范性实施方式中，所述重复模块，被配置为执行下列中的一个：

将所述运算结果的向上取整值，确定为所述倍数；

将所述运算结果的向下取整值，确定为所述倍数；

以相同倍数复制所述每个发音特征；

在示范性实施方式中，所述第一转换模块，被配置为基于非自回归语音合成模型中的编码器，将所述文本转换为多个发音特征；

所述第二转换模块，被配置为基于所述非自回归语音合成模型中的解码器，将所述重复后的多个发音特征转换为语谱图；

在示范性实施方式中，所述装置还包括：

训练模块，被配置为：确定所述基准语音数据中的发音特征的数目；基于所述倍数、所述基准语音数据中的发音特征的数目以及所述语谱图提取步长，确定所述基准语音数据的变更时长；以变速不变调方式，将所述基准语音数据的时长变更为所述变更时长；基于包含变更后的基准语音数据的训练数据，对所述非自回归语音合成模型进行训练。

在示范性实施方式中，所述训练模块，被配置为：将所述训练文本输入所述编码器，以由所述编码器将所述训练文本转换为多个训练发音特征；基于上采样方式重复所述每个训练发音特征，其中所述上采样方式中的上采样倍率等于所述倍数；将重复后的多个训练发音特征输入所述解码器，以由所述解码器将所述重复后的多个训练发音特征转换为训练语谱图；确定所述变更后的基准语音数据的基准语谱图；基于所述训练语谱图与所述基准语谱图的差异，确定所述非自回归语音合成模型的损失函数值；配置所述非自回归语音合成模型的模型参数，以使所述损失函数值低于预设阈值。

一种语音合成装置，包括：

存储器；

处理器；

其中所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上任一项所述的语音合成方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使所述处理器执行如上任一项所述的语音合成方法。

从上述技术方案可以看出，在本发明实施方式中，将文本转换为多个发音特征；以相同的倍数重复多个发音特征中的每个发音特征，其中倍数是基于语谱图提取步长及基准语音数据的发音特征平均时长所确定的；基于语谱图提取步长，将重复后的多个发音特征转换为语谱图；将语谱图转换为对应于文本的语音。可见，本发明实施方式无需预测每个发音特征的发音时长，提升了语音合成速度，降低了设备功耗。而且，本发明实施方式基于语谱图提取步长及基准语音数据的发音特征平均时长共同确定倍数，保证了发音时长的准确度。

附图说明

图1为现有技术的非自回归语音合成过程的示范性示意图。

图2为本发明实施方式的语音合成方法的流程图。

图3为本发明实施方式采用Transformer结构的语音合成过程的示范性示意图。

图4为本发明实施方式以单级上采样方式重复发音特征的示范性流程图。

图5为本发明实施方式以多级上采样方式重复发音特征的示范性流程图。

图6为本发明实施方式的语音合成装置的示范性结构图。

图7为本发明实施方式的具有存储器-处理器架构、语音合成装置的示范性结构图。

图8为本发明实施方式的语音合成装置的示范性结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

为了描述上的简洁和直观，下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

以下，对本公开实施方式涉及的术语进行解释说明。

发音特征：也可称为音素。在语音合成中，中文的发音特征常使用拼音，包括声母特征和韵母特征，而英文的发音特征通常使用 ARPAbet 符号集。

语谱图（spectrogram）：在音频、语音信号处理领域，通常将信号转换成对应的语谱图，语谱图上的数据作为信号的特征。语谱图的横坐标为时间，纵坐标为频率，坐标点值为语音能量。由于采用二维平面表达三维信息，能量值的大小通常通过颜色进行表示，一般情况下，颜色深处的语音能量越强。

声码器：可执行降噪、变调、变速、音量调节等工作，还可以将后端生成的声学特征（比如语谱图）转换为音频。

在现有技术中，语音合成深度学习模型通常包括：（1）添加注意力机制的、序列到序列（seq2seq）的自回归模型（比如，Tacotron 模型）；（2）、预测每个发音特征的发音时长，再基于发音时长对发音特征进行扩展的非自回归模型（比如，FastSpeech 模型）。

申请人发现：在目前的深度学习非自回归语音合成模型中，需要预测每个发音特征的发音时长，并由此导致语音合成速度较慢以及设备功耗较大。

图1为现有技术的非自回归语音合成过程的示范性示意图。在图1中，以包含编码器（Encoder）和解码器（Decoder）的Transformer结构为例，对现有技术的非自回归语音合成过程及其缺点进行推导说明。需要注意的是：此处对现有技术缺点的分析过程，是申请人基于持续观察和自身推理所得出的，并不应视为本领域技术人员的已掌握知识。

在图1中，编码器从输入文本中提取发音特征，比如提取中文文本中的声母特征和韵母特征，其中声母特征和韵母特征共同称为声韵母特征。时长模型（duration）对每个声韵母特征进行发音时长预测。比如，在图1中，编码器提取出6个声韵母特征。针对这6个声韵母特征，时长模型预测出的发音时长分别为2、2、4、4、3和3。重复模块按照时长模型的预测结果，一一对应地重复（repeat）每个声韵母特征。以复制为例对重复过程进行说明，其中：将第一个声韵母特征复制为2份（即复制出一份，加上复制前的一份，总共为2份，下面类似处理），第二个声韵母特征复制为2份，第三个声韵母特征复制为4份，第四个声韵母特征复制为4份，第五个声韵母特征复制为3份，第六个声韵母特征复制为3份。复制后的全部声韵母特征被送入作为声学模型的解码器，以得到对应的语谱图。然后，声码器将语谱图转换为音频。

申请人发现：在重复声韵母特征时，由于时长模型的预测结果是不确定数值，因此重复操作是动态执行的，从而导致语音合成较慢。尤其是，当通过硬件实现语音合成时，上述缺点更加明显。比如，当采用神经网络处理器（NPU）实现语音合成时，在执行重复操作之前，NPU需要利用中断调用CPU执行重复过程。等CPU完成重复过程后，NPU再完成后续步骤。然而，中断会导致整体的语音合成速度较慢，而且CPU的引入还导致额外功耗。

申请人发现：导致上述缺点的原因是时长模型的引入，尤其是时长模型的预测值不为定值。在本发明实施方式中，不再采用时长模型预测每个发音特征的发音时长，而是以相同的固定倍数对每个发音特征进行重复，从而克服上述技术问题。

图2为本发明实施方式的语音合成方法的流程图。

如图2所示，语音合成方法包括：

步骤201：将文本转换为多个发音特征。

在示范性实施方式中，当文本为中文时，可以将文本转换为多个声韵母特征（声母特征和韵母特征）。当文本为英文时，可以将文本转换为多个ARPAbet 符号特征。在这里，文本还可以实施为其它语言，本发明实施方式对此并无限定。

步骤202：以相同的倍数重复多个发音特征中的每个发音特征，其中倍数是基于语谱图提取步长及基准语音数据的发音特征平均时长所确定的。

在这里，以相同的倍数重复每个发音特征的含义是：假定相同的倍数为N，则每个发音特征都新重复出（N-1）份。每个发音特征被重复后，加上重复前已有的1份发音特征，总共包括N份发音特征，其中N为正整数。

根据语谱图提取步长及基准语音数据的发音特征平均时长，确定出该相同的倍数。其中：语谱图提取步长是将发音特征转换为语谱图的过程中所采用的提取步长；基准语音数据是用于确定出发音特征平均时长的语音数据。比如，当具体采用非自回归语音合成模型执行语音合成时，基准语音数据可以实施为非自回归语音合成模型的训练数据中的一部分，训练数据的另一部分包括该基准语音数据所对应的文本（称为训练文本）。

在示范性实施方式中，该方法还包括：确定基准语音数据中的发音特征的数目；确定基准语音数据的总时长；确定基准语音数据的发音特征平均时长，其中发音特征平均时长为总时长除以基准语音数据中的发音特征的数目；确定发音特征平均时长除以语谱图提取步长的运算结果；将运算结果的取整值，确定为倍数。

比如，假定基准语音数据的总时长为M，基准语音数据中的发音特征的数目为T，语谱图提取步长为P。那么，发音特征平均时长为M/T；发音特征平均时长除以语谱图提取步长的运算结果为：M/（T*P）。

在示范性实施方式中，将运算结果的取整值，确定为倍数，具体包括：

方式（1）、将运算结果的向上取整值，确定为倍数。

比如，假定基准语音数据的发音特征平均时长为112毫秒（ms），语谱图提取步长为10ms，则运算结果为112/10=11.2，11.2的向上取整值为12，即倍数为12。此时，每个发音特征都新重复出11份，加上重复前的1份发音特征，每个发音特征被重复后总共包括12份。

方式（2）、将运算结果的向下取整值，确定为倍数。

比如，假定基准语音数据的发音特征平均时长为116 ms，语谱图提取步长为10ms，则运算结果为116/10=11.6，11.6的向下取整值为11，即倍数为11。此时，每个发音特征都新重复出10份，加上重复前的1份发音特征，每个发音特征被重复后总共包括11份。

方式（3）、将以四舍五入方式确定的、运算结果的取整值，确定为倍数。

比如，假定基准语音数据的发音特征平均时长为115 ms，语谱图提取步长为20ms，则运算结果为116/20=5.75，四舍五入后为6，即倍数为6。此时，每个发音特征都新重复出5份，加上重复前的1份发音特征，每个发音特征被重复后总共包括6份。

以上示范性描述了运算结果的取整方式，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

可见，本发明实施方式无需采用时长模型预测每个发音特征的发音时长，降低了成本。而且，每个发音特征的重复倍数都相同，且为固定值，因此重复操作是静态执行的，从而提高了语音合成速度。还有，本发明实施方式无需通过额外的设备（比如CPU）执行重复操作，进一步降低了设备功耗。另外，本发明实施方式基于语谱图提取步长及基准语音数据的发音特征平均时长共同确定倍数，保证了发音时长的准确度。

在示范性实施方式中，以相同倍数重复每个发音特征至少包括如下之一：

（1）、以相同倍数复制每个发音特征。

（2）、基于单级上采样方式重复每个发音特征，其中单级上采样方式中的上采样倍率等于倍数。

（3）、基于多级上采样方式重复每个发音特征，其中多级上采样方式中的每级上采样倍率的乘积等于倍数。

其中，无论是单级上采样还是多级上采样，每级上采样都可以实施为：基于线性插值的上采样、基于深度学习的上采样或基于上池化（unpooling）的上采样，等等。基于线性插值的上采样可以包括：最近邻插值算法、双线性插值算法或双三次插值算法，等等。基于深度学习的上采样可以包括：转置卷积、亚像素卷积（比如，PixelShuffle或Dupsampling）或任意尺度缩放（比如Meta-Upscale），等等。

可见，由于倍数是固定值，可以采用上采样方式重复发音特征，从而规避中断，使得语音合成过程的硬件实现变得简易。

步骤203：基于语谱图提取步长，将重复后的多个发音特征转换为语谱图。

步骤204：将语谱图转换为对应于文本的语音。

比如，在步骤204中，可以采用声码器将语谱图转换为对应于文本的语音。

在示范性实施方式中，步骤201包括：基于非自回归语音合成模型中的编码器，将文本转换为多个发音特征；步骤203包括：基于非自回归语音合成模型中的解码器，将重复后的多个发音特征转换为语谱图；其中非自回归语音合成模型的训练数据包含基准语音数据及对应于基准语音数据的训练文本。

可见，通过将非自回归语音合成模型实施为包含编码器和解码器的模型结构，可以提高语音合成效率。而且，将基准语音数据包含在训练数据中，还降低了训练难度。

在示范性实施方式中，方法还包括：确定基准语音数据中的发音特征的数目；基于倍数、基准语音数据中的发音特征的数目以及语谱图提取步长，确定基准语音数据的变更时长；以变速不变调方式，将基准语音数据的时长变更为变更时长；基于包含变更后的基准语音数据的训练数据，对非自回归语音合成模型进行训练。其中，基于倍数、基准语音数据中的发音特征的数目以及语谱图提取步长，确定基准语音数据的变更时长包括：假定基准语音数据中的发音特征的数目为T，语谱图提取步长为P，倍数为K，则基准语音数据的变更时长Q=（T*K）/（1/P）=（T*K*P）。

举例：假定基准语音数据包括两条语音样本，分别为语音样本a和语音样本b。将基准语音数据的总时长（也就是，语音样本a和语音样本b的时长之和），除以基准语音数据中包含的发音特征的数目（也就是，语音样本a中的发音特征数与语音样本b中的发音特征数之和），得到发音特征平均时长。将发音特征平均时长除以语谱图提取步长的运算结果的取整值确定为倍数。假定计算出的倍数K为12，语音样本a的发音特征数目Ta等于10，语谱图提取步长P为10ms（即0.01秒），训练样本b的发音特征数目Tb等于20。

可得到：语音样本a的变更时长Qa=（Ta*K*P）=10*12*0.01=1.2秒；语音样本b的变更时长Qb=（Tb*K*P）=20*12*0.01=2.4秒。

在示范性实施方式中，方法还包括针对非自回归语音合成模型的训练过程。训练过程包括：将训练文本输入编码器，以由编码器将训练文本转换为多个训练发音特征；基于上采样方式重复每个训练发音特征，其中上采样方式中的上采样倍率等于倍数；将重复后的多个训练发音特征输入解码器，以由解码器将重复后的多个训练发音特征转换为训练语谱图；确定变更后的基准语音数据的基准语谱图；基于训练语谱图与基准语谱图的差异，确定非自回归语音合成模型的损失函数值；配置非自回归语音合成模型的模型参数，以使损失函数值低于预设阈值。

可见，利用变更后的基准语音数据的基准语谱图训练语音合成模型，保证了训练准确度。

图3为本发明实施方式采用Transformer结构的语音合成过程的示范性示意图。以包含编码器和解码器的Transformer结构为例，对本发明实施方式的语音合成过程进行说明。

首先，执行确定倍数的过程。确定倍数的过程具体包括：

步骤（1）：确定该Transformer结构的训练数据。训练数据包含基准语音数据及对应于基准语音数据的训练文本。比如，采集用户朗诵训练文本的音频文件，以得到基准语音数据。

步骤（2）：基于语谱图提取步长及基准语音数据的发音特征平均时长确定出倍数，该倍数用于后续过程中重复每个发音特征。

比如，假定训练数据包括1000条训练样本，每条训练样本包括1条基准语音数据（语音样本）及对应于该基准语音数据的1个训练文本。计算出这1000条基准语音数据的总时长以及1000个基准语音数据中的发音特征的总数目，将总时长除以总数目，即为发音特征平均时长。而且，发音特征平均时长除以语谱图提取步长的运算结果的取整值，即为倍数。

接着，执行变更训练数据的过程。变更训练数据的过程具体包括：

步骤（1）：基于倍数、每条基准语音数据中的发音特征的数目以及语谱图提取步长，确定每个基准语音数据的变更时长。

步骤（2）：以变速不变调方式，将每个基准语音数据的时长变更为各自的变更时长。

因此，变更后的训练数据包含1000条变更后的训练样本。也就是，变更后的训练数据包含：变更时长后的1000条基准语音数据及对应于各自基准语音数据的1000个训练文本。

然后，利用变更后的训练数据，执行非自回归语音合成模型的训练过程。对于每一条训练样本，非自回归语音合成模型的训练过程具体包括：

步骤（1）：将训练样本中的训练文本输入非自回归语音合成模型中的编码器，以由编码器将训练文本转换为多个训练发音特征。

步骤（2）：基于上采样方式重复每个训练发音特征，其中上采样方式中的上采样倍率等于上述确定倍数的过程中已确定的倍数。

步骤（3）：将重复后的多个训练发音特征输入非自回归语音合成模型中的解码器，以由解码器将重复后的多个训练发音特征转换为训练语谱图。

步骤（4）：计算训练样本中的、变更时长后的基准语音数据的基准语谱图。

步骤（5）：基于训练语谱图与基准语谱图的差异，确定该训练样本的单训练样本损失函数值。

将全部训练样本的单训练样本损失函数值的加权求和值，确定为非自回归语音合成模型的损失函数值。接着，配置非自回归语音合成模型的模型参数，以使非自回归语音合成模型的损失函数值低于预设阈值，从而完成训练过程。

非自回归语音合成模型完成上述训练过程后，即可执行语音合成的测试过程。测试过程具体包括：

步骤（1）：编码器从输入的测试文本中提取发音特征，比如提取中文测试文本中的声母特征和韵母特征，其中声母特征和韵母特征共同称为声韵母特征。

步骤（2）：对每个声韵母特征按照相同的倍数进行重复。其中，关于如何确定倍数，请参照上述确定倍数的过程。如图3所示，假定倍数为3。编码器提取出6个声韵母特征。针对这6个声韵母特征，以上采样为例对重复过程进行说明，其中：将第一个声韵母特征上采样为3份（即上采样出两份，加上上采样前的一份，总共为3份，下面类似处理），第二个声韵母特征上采样为3份，第三个声韵母特征上采样为3份，第四个声韵母特征上采样为3份，第五个声韵母特征上采样为3份，第六个声韵母特征上采样为3份。

步骤（3）：上采样后的全部声韵母特征（一共18份）被送入作为声学模型的解码器，以得到对应的语谱图。然后，声码器将语谱图转换为音频。

在图4中，利用编码器将文本转换为发音特征。然后，利用单个的上采样电路（上采样倍率为12），将发音特征重复12倍。

在图5中，利用编码器1对文本进行第一次编码，以输出具有第一维度的发音特征。利用第一级上采样电路（上采样倍率为2）将编码器1输出的发音特征重复2倍。利用编码器2对第一级上采样电路输出的发音特征进行第二次编码，以输出第二维度的发音特征（第二维度高于第一维度）。利用第二级上采样电路（上采样倍率为2）将编码器2输出的发音特征重复2倍。接着，利用编码器3对第二级上采样电路输出的发音特征编码，以输出第三维度的发音特征（第三维度高于第二维度）。利用第三级上采样电路（上采样倍率为3）将编码器3输出的发音特征重复3倍。利用这三级上采样电路，同样可以将发音特征重复12倍。另外，发音特征的维度逐步获得提升，从而提供更丰富的表征内容。

以上示范性描述了以上采样方式重复发音特征的典型实例，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

图6为本发明实施方式的语音合成装置的示范性结构图。

如图6所示，语音合成装置600包括：

第一转换模块601，被配置为将文本转换为多个发音特征；重复模块602，被配置为以相同的倍数重复多个发音特征中的每个发音特征，其中倍数是基于语谱图提取步长及基准语音数据的发音特征平均时长所确定的；第二转换模块603，被配置为基于语谱图提取步长，将重复后的多个发音特征转换为语谱图；第三转换模块604，被配置为将语谱图转换为对应于文本的语音。

在示范性实施方式中，重复模块602，被配置为：确定基准语音数据中的发音特征的数目；确定基准语音数据的总时长；确定基准语音数据的发音特征平均时长，其中发音特征平均时长为总时长除以基准语音数据中的发音特征的数目；确定发音特征平均时长除以语谱图提取步长的运算结果；将运算结果的取整值，确定为倍数。

在示范性实施方式中，重复模块602，被配置为执行下列中的一个：将运算结果的向上取整值，确定为倍数；将运算结果的向下取整值，确定为倍数；将以四舍五入方式确定的、运算结果的取整值，确定为倍数。

在示范性实施方式中，重复模块602，被配置为执行下列中的一个：单级上采样每个发音特征，其中单级上采样中的上采样倍率等于倍数；多级上采样每个发音特征，其中多级上采样中的每级上采样倍率的乘积等于倍数。

在示范性实施方式中，第一转换模块601，被配置为基于非自回归语音合成模型中的编码器，将文本转换为多个发音特征；第二转换模块603，被配置为基于非自回归语音合成模型中的解码器，将重复后的多个发音特征转换为语谱图；其中非自回归语音合成模型的训练数据包含基准语音数据及对应于基准语音数据的训练文本。

在示范性实施方式中，装置600还包括：训练模块605，被配置为：确定基准语音数据中的发音特征的数目；基于倍数、基准语音数据中的发音特征的数目以及语谱图提取步长，确定基准语音数据的变更时长；以变速不变调方式，将基准语音数据的时长变更为变更时长；基于包含变更后的基准语音数据的训练数据，对非自回归语音合成模型进行训练。

在示范性实施方式中，训练模块605被配置为：将训练文本输入编码器，以由编码器将训练文本转换为多个训练发音特征；基于上采样方式重复每个训练发音特征，其中上采样方式中的上采样倍率等于倍数；将重复后的多个训练发音特征输入解码器，以由解码器将重复后的多个训练发音特征转换为训练语谱图；确定变更后的基准语音数据的基准语谱图；基于训练语谱图与基准语谱图的差异，确定非自回归语音合成模型的损失函数值；配置非自回归语音合成模型的模型参数，以使损失函数值低于预设阈值。

图7为本发明具有存储器-处理器架构的、语音合成装置的示范性结构图。

如图7所示，语音合成装置包括：处理器701；存储器702；其中存储器702中存储有可被处理器701执行的应用程序，用于使得处理器701执行如上实施方式的语音合成方法。

其中，存储器702具体可以实施为电可擦可编程只读存储器（EEPROM）、快闪存储器（Flash memory）、可编程程序只读存储器（PROM）等多种存储介质。处理器701可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU、MCU或数字信号处理器（DSP）。

图8为本发明的语音合成装置的示范性结构图。通常，语音合成装置800为边缘设备，包括：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器（Central ProcessingUnit，CPU）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施方式中，处理器801可以在集成有图像处理器（Graphics Processing Unit，GPU），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施方式中，处理器801还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。比如，AI处理器可以实施为神经网络处理器。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。

在一些实施方式中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本公开中各个实施方式提供的语音合成方法。在一些实施方式中，语音合成装置800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将输入/输出（Input /Output，I/O）相关的至少一个外围设备连接到处理器801和存储器802。在一些实施方式中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施方式中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施方式对此不加以限定。

射频电路804用于接收和发射射频（Radio Frequency，RF）信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或无线保真（Wireless Fidelity，Wi-Fi）网络。在一些实施方式中，射频电路804还可以包括近距离无线通信（Near Field Communication，NFC）有关的电路，本公开对此不加以限定。

显示屏805用于显示用户界面（User Interface，UI）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施方式中，显示屏805可以为一个，设置在语音合成装置800的前面板；在另一些实施方式中，显示屏805可以为至少两个，分别设置在语音合成装置800的不同表面或呈折叠设计；在一些实施方式中，显示屏805可以是柔性显示屏，设置在语音合成装置800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用液晶显示屏（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施方式中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实（Virtual Reality，VR）拍摄功能或者其它融合拍摄功能。在一些实施方式中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在语音合成装置800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施方式中，音频电路807还可以包括耳机插孔。

定位组件808用于定位语音合成装置800的当前地理位置，以实现导航或基于位置的服务（Location Based Service，LBS）。定位组件808可以是基于美国的全球定位系统（Global Positioning System，GPS）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为语音合成装置800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。

本领域技术人员可以理解，上述的结构并不构成对语音合成装置800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件（如专用处理器，如FPGA或ASIC）用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路（如包括通用处理器或其它可编程处理器）用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路（如由软件进行配置）来实现硬件模块，可以根据成本和时间上的考虑来决定。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本申请方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施方式中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机（或CPU或MPU）读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。

用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

以上，仅为本发明的较佳实施方式而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

将文本转换为多个发音特征；

将所述语谱图转换为对应于所述文本的语音。

2.根据权利要求1所述的语音合成方法，其特征在于，所述方法还包括：

确定所述基准语音数据中的发音特征的数目；

确定所述基准语音数据的总时长；

将所述运算结果的取整值确定为所述倍数。

3.根据权利要求2所述的语音合成方法，其特征在于，所述将所述运算结果的取整值确定为所述倍数至少包括如下之一：

将所述运算结果的向上取整值，确定为所述倍数；

将所述运算结果的向下取整值，确定为所述倍数；

4.根据权利要求2所述的语音合成方法，其特征在于，所述以相同倍数重复每个发音特征至少包括如下之一：

以相同倍数复制所述每个发音特征；

5.根据权利要求1所述的语音合成方法，其特征在于，

所述将文本转换为多个发音特征包括：基于非自回归语音合成模型中的编码器，将所述文本转换为多个发音特征；

6.根据权利要求5所述的语音合成方法，其特征在于，所述方法还包括：

确定所述基准语音数据中的发音特征的数目；

7.根据权利要求6所述的语音合成方法，其特征在于，所述基于包含变更后的基准语音数据的训练数据，对所述非自回归语音合成模型进行训练包括：

确定所述变更后的基准语音数据的基准语谱图；

8.根据权利要求1-7中任一项所述的语音合成方法，其特征在于，所述发音特征至少包括如下之一：

声母特征；韵母特征。

9.一种语音合成装置，其特征在于，包括：

第一转换模块，被配置为将文本转换为多个发音特征；

10.一种语音合成装置，其特征在于，包括：

存储器；

处理器；

其中所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至8中任一项所述的语音合成方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的语音合成方法。