CN116453500A

CN116453500A - 小语种的语音合成方法、系统、电子设备和存储介质

Info

Publication number: CN116453500A
Application number: CN202310340836.5A
Authority: CN
Inventors: 文晨锐
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-18

Abstract

本发明实施例提供一种小语种的语音合成方法、系统、电子设备和存储介质。该方法包括：接收用于语音合成的小语种文本；将小语种文本中的专有符号转写成可解释文本，得到正则化小语种文本；基于国际音标将正则化小语种文本转换为通用语种音素，利用双向长短期记忆网络以及条件随机场对通用语种音素中多音字和/或文本连读的音素进行调整，得到发音校正的通用语种音素；将发音校正的通用语种音素输入至预训练的小语种声学模型中，得到小语种语音。本发明实施例针对语种进行音素发音纠正，使得文本转音素的准确率的提高，能够适应不同语种的不同情况，并在面对数据量有限的小语种训练数据不足的情况下，实现低成本高质量的语音合成。

Description

小语种的语音合成方法、系统、电子设备和存储介质

技术领域

本发明涉及智能语音领域，尤其涉及一种小语种的语音合成方法、系统、电子设备和存储介质。

背景技术

语言模型是由大量语音训练，然而小语种的语音通常难以获得，生成小语种的合成语音相对较难。针对小语种语音和合成的不足和难点，通常会使用基于隐式音素转换的小语种迁移学习语音合成方法，利用迁移学习将主流语种中学到的知识应用到小语种合成中隐式音素转换的小语种迁移学习语音合成方法的主要步骤有：

1、收集大量主流语种语料与少量小语种语料；

2、获得预训练的语音生成模型；

3、利用收集的大量主流语种语料与少量小语种语料训练音素转换模型，得到训练好的音素转换模型，其中，音素转换模型包括一个编码器和两个解码器，编码器用以将词嵌入向量编码成隐向量且不区分语种，不同的语种具有不同的解码器，解码器用于从隐向量中解码出对应的语种音素；

4、利用训练好的音素转换模型对小语种数据进行音素转换，并利用音素转换得到的小语种音素数据重新对预训练的语音合成模型进行训练；

5、最后利用语音合成模型进行小语种语音合成。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

在小语种音素的转换中，由于发音不同，可能会存在音素转换错误，如果发生音素转换错误，必定会导致语音合成的发音错误。由于训练音素转换模型的数据中只含有少量语种数据，音素转换也可能会产生错误。

发明内容

为了至少解决现有技术中小语种语音合成时，转换的音素错误率较高，语音合成中会出现发音错误、音质较差的问题。

第一方面，本发明实施例提供一种小语种的语音合成方法，包括：

接收用于语音合成的小语种文本；

将所述小语种文本中的专有符号转写成可解释文本，得到正则化小语种文本；

基于国际音标将所述正则化小语种文本转换为通用语种音素，利用双向长短期记忆网络以及条件随机场对所述通用语种音素中多音字和/或文本连读的音素进行调整，得到发音校正的通用语种音素；

将所述发音校正的通用语种音素输入至预训练的小语种声学模型中，得到小语种语音。

第二方面，本发明实施例提供一种小语种的语音合成系统，包括：

文本接收程序模块，用于接收用于语音合成的小语种文本；

正则化程序模块，用于将所述小语种文本中的专有符号转写成可解释文本，得到正则化小语种文本；

通用语种音素确定程序模块，用于基于国际音标将所述正则化小语种文本转换为通用语种音素，利用双向长短期记忆网络以及条件随机场对所述通用语种音素中多音字和/或文本连读的音素进行调整，得到发音校正的通用语种音素；

语音合成程序模块，用于将所述发音校正的通用语种音素输入至预训练的小语种声学模型中，得到小语种语音。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的小语种的语音合成方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的小语种的语音合成方法的步骤。

本发明实施例的有益效果在于：对于语音合成方面，针对语种进行音素发音纠正，使得文本转音素的准确率的提高。能够适应不同语种的不同情况，小语种面对的发音错误，包括音调错误等，均可实现一定程度上的降低。在小语种声学模型训练方面，在小语种小样本的条件下，利用非目标音色非目标语种做目标音色目标语种的增强数据，可以在面对数据量有限的小样本小语种，训练数据不足的情况下，利用该种训练增强方法，实现低成本高质量的语音合成。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种小语种的语音合成方法的流程图；

图2是本发明一实施例提供的一种小语种的语音合成方法的整体结构图；

图3是本发明一实施例提供的一种小语种的语音合成方法的音调调整流程图；

图4是本发明一实施例提供的一种小语种的语音合成方法的模型训练示意图；

图5是本发明一实施例提供的一种小语种的语音合成系统的结构示意图；

图6为本发明一实施例提供的一种小语种的语音合成的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种小语种的语音合成方法的流程图，包括如下步骤：

S11：接收用于语音合成的小语种文本；

S12：将所述小语种文本中的专有符号转写成可解释文本，得到正则化小语种文本；

S13：基于国际音标将所述正则化小语种文本转换为通用语种音素，利用双向长短期记忆网络以及条件随机场对所述通用语种音素中多音字和/或文本连读的音素进行调整，得到发音校正的通用语种音素；

S14：将所述发音校正的通用语种音素输入至预训练的小语种声学模型中，得到小语种语音。

在本实施方式中，考虑到小语种本身收集数据的难度较大，在小样本的情况下，本方法统一不同语种音素，通过其他不同语种的数据用来增强小语种，一定程度减少了录音与标注成本。另外，文本转音素过程中，由于不同语种的语音现象不同，转换音素的过程中添加适应不同语种的语音现象的转换模块，整体合成步骤如图2所示。

对于步骤S11，小语种的语音合成，输入的文本是该小语种需合成的内容，其中，小语种指除联合国通用语种(汉语、英语、法语、西班牙语、俄语、阿拉伯语)以外的语种。例如，在欧洲地区，小语种包括德语、意大利语、瑞典语、捷克语、葡萄牙语、波兰语、塞尔维亚语等，在亚非地区，小语种包括日语、波斯语、泰语、越南语、印尼语、印地语、马来语、缅甸语、僧伽罗语、豪萨语、斯瓦希里语等。

在中文互联网环境中，法语、西班牙语、俄语、阿拉伯语的使用范围相对较小，这些语种的音频收集难度也相对较大，如果上述语种的音频难以大范围获取，也可以将上述语种确定为小语种语言。

例如，输入的小语种文本为“Das heutige Wetter ist sonnig,die Temperatur20°,geeignet zum Ausgehen”(德语，中文的意思为“今天天气晴朗，气温20°，适合外出”)。

作为一种实施方式，在将所述小语种文本中的专有符号转写成可解释文本之前，所述方法还包括：对所述小语种文本进行句子级别的分割

在本实施方式中，对“Das heutige Wetter ist sonnig,die Temperatur20°,geeignet zum Ausgehen”进行句子级别的分割，得到“Das heutige Wetter istsonnig”，“die Temperatur/>20°”，“geeignet zum Ausgehen”。经过分割后，可以保证在不影响句意的完整性的情况下提高合成效率，也保证了语音合成的稳定性。

对于步骤S12，本方法对小语种语音合成从两个方面进行改进，一方面是改进小语种声学模型，另一方面是改进小语种语音合成的过程。考虑到小语种声学模型的小语种的训练数据少，模型合成音的音质差，针对这一问题，在小语种语音合成中，要将所有语种的音素转换为统一的标准，进行TN(Text Normalization，文本规范化)处理。首先考虑到不同语种的符号意思可能会有差距，要将小语种文本中“die Temperatur20°”的专有符号“°”转换为可解释的文本“Grad”，文本规范化是本方法小语种语音合成重要的环节之一。进一步地，为了进一步的规范化，也可以对数字进行规范化处理，“die Temperatur/>20°”经过规范化后的为“die Temperatur/>zwanzig Grad”。规范化的步骤，不但可以帮助小语种语音合成的准确合成，同时在小语种声学模型训练方面也可以进一步提升模型学习效果。

对于步骤S13，将正则化小语种文本转换为通用语种音素是本方法的核心，由于不同语种间需保持统一的音素表现形式，所以从文本中的词到音素的转换，不论语种全部用国际音标代替。例如，对于正则化小语种文本中的元音部分，使用“/i:”、“pi:p”、“bi:t”等元音进行转换，对于正则化小语种文本中的辅音部分，使用“ti:”、“bi:”、“di”等辅音进行转换。

要注意的是，这种转换方式会出现一个新的问题，那就是对于多音字、变调字、连读的发音有多种方式，如果发音选择错误，也会影响小语种合成语音的准确性。不同语种拥有的语音发音情况有所不同，例如，日语的语调变调现象，法语的意群重音等。以较为直观、易于理解的方式举例，在中文中“调”这个字就是多音字，“你怎么这个调(diao)性”，“调(tiao)整一下文本格式”。日语中，男生和女生发音也有所不同，相同的文字也有不同的变调，例如，日语中“我”的日文为“私”，通常是利用发音“わたし”(罗马音为：Wa ta shi)，然而由于男女的不同，发音也会使用“あたし”(罗马音为：a ta shi)。在西班牙语中，前一个词尾音素和之后词的词首音素连读衔接，包括元音-元音连读、辅音-元音连读、辅音-辅音连读。例如，“她是小驰”的西班牙发音为Ella es Xiao chi。其中，“Ella”的“a”与“es”中的“e”产生连读。本方法根据音素调整模块来进行音素调整。

其中，音素调整模块主要分为两大部分如图3所示，一部分是基于BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)和CRF(conditionalrandom field，条件随机场)多音字或音调预测功能，主要是应对具有多音字或出现发音变调的语种，例如，双向长短期记忆网络能够利用过去和未来的信息，分别从不同韵律的方向得到正向输出以及反向输出，条件随机场利用句子级别的信息对韵律边界进行预测。另一部分是针对小语种出现的连读现象，这一部分根据词性等设置相应地逻辑规则即可实现。例如对上述列举的“元音-元音连读、辅音-元音连读、辅音-辅音连读”设置不同的逻辑规则。通过音素调整模块辅助音素转换，减少了发音错误，为小语种声学模型提供了准确的发音校正的通用语种音素，这是现有技术G2P(Grapheme to Phoneme，从字形到音素的模型)无法解决这一实际问题。

对于步骤S14，利用本方法预训练的小语种声学模型来对发音校正的通用语种音素进行语音合成，得到最终的小语种语音。

如上文所述，本方法也对小语种声学模型进行改进，作为一种实施方式，所述小语种声学模型由多语种训练语音预训练获得，包括：

确定所述多语种训练语音的国际音标的音素序列，其中，所述多语种训练语音包括：第一数据量的小语种训练语音以及第二数据量的非小语种训练语音，且所述第一数据量小于所述第二数据量；

将所述国际音标的音素序列输入至所述小语种声学模型的编码器，将所述编码器的输出与所述多语种训练语音的语种向量输入至所述小语种声学模型的解码器中，得到预测声学音素；

将所述预测声学音素输入至声码器，得到预测多语种合成音，基于所述预测多语种合成音以及所述多语种训练语音的损失对所述小语种声学模型进行训练，直至所述预测多语种合成音趋近于所述多语种训练语音为止。

在本实施方式中，对于多语种训练语音，本方法共采集了包含普通话、英语、粤语方言，目标小语种等共500小时的训练数据，其中，目标小语种的训练数据仅为2小时。普通话、英文数据、小语种均为录音棚录制而成，这些数据大部分为非专业录制，少量为专业录制。利用国际音标对多语种训练语音进行转换，得到国际音标的IPA(InternationalPhonetic Alphabet，全程国际音标)的音素序列，作为小语种声学模型的输入，训练过程如图4所示。

本方法小语种声学模型结构采用fastspeech2，编解码结构为multi head self-attention多头自注意机制。将国际音标的音素序列输入至小语种声学模型的编码器中，得到这些音素序列的编码。

多语种训练语音中还包括了预先准备的语种向量，所述语种向量包括：语言嵌入、梅尔频谱、韵律信息以及多语种训练语音的说话人信息和这些训练语音对应的文本。各语种语音对应的语言嵌入结果(language embedding)、各语种语音的梅尔频谱信息、各语种语音的发音韵律以及各语种语音的发音人信息，例如是哪国人，男人、女人或是儿童。这些信息也对应了上述举例的不同语种拥有的多音字、变调字、连读的语音发音情况。

将语种向量与音素序列的编码输入至解码器中，通过解码器将标记有语种向量的音素序列的编码转换成对应语种的声学音素序列，利用声码器得到预测多语种合成音，利用预测多语种合成音以及多语种训练语音的损失loss对小语种声学模型进行训练，优化模型中的参数信息，直至预测多语种合成音趋近于多语种训练语音为止(例如，损失小于预设数值为止)。

将本方法与现有技术进行比对，在小语种测试集(20句)的情况下进行测试，现有技术的小样本小语种基础方案的语音自然度为3.8。本方法小样本小语种语音合成的语音自然度为4.0。

通过该实施方式可以看出，对于语音合成方面，针对语种进行音素发音纠正，使得文本转音素的准确率的提高。能够适应不同语种的不同情况，小语种面对的发音错误，包括音调错误等，均可实现一定程度上的降低。在小语种声学模型训练方面，在小语种小样本的条件下，利用非目标音色非目标语种做目标音色目标语种的增强数据，可以在面对数据量有限的小样本小语种，训练数据不足的情况下，利用该种训练增强方法，实现低成本高质量的语音合成。

如图5所示为本发明一实施例提供的一种小语种的语音合成系统的结构示意图，该系统可执行上述任意实施例所述的小语种的语音合成方法，并配置在终端中。

本实施例提供的一种小语种的语音合成系统10包括：文本接收程序模块11，正则化程序模块12，通用语种音素确定程序模块13和语音合成程序模块14。

其中，文本接收程序模块11用于接收用于语音合成的小语种文本；正则化程序模块12用于将所述小语种文本中的专有符号转写成可解释文本，得到正则化小语种文本；通用语种音素确定程序模块13用于基于国际音标将所述正则化小语种文本转换为通用语种音素，利用双向长短期记忆网络以及条件随机场对所述通用语种音素中多音字和/或文本连读的音素进行调整，得到发音校正的通用语种音素；语音合成程序模块14用于将所述发音校正的通用语种音素输入至预训练的小语种声学模型中，得到小语种语音。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的小语种的语音合成方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

接收用于语音合成的小语种文本；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的小语种的语音合成方法。

图6是本申请另一实施例提供的小语种的语音合成方法的电子设备的硬件结构示意图，如图6所示，该设备包括：

一个或多个处理器610以及存储器620，图6中以一个处理器610为例。小语种的语音合成方法的设备还可以包括：输入装置630和输出装置640。

处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的小语种的语音合成方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例小语种的语音合成方法。

存储器620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器620可选包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可接收输入的数字或字符信息。输出装置640可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器620中，当被所述一个或者多个处理器610执行时，执行上述任意方法实施例中的小语种的语音合成方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的小语种的语音合成方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种小语种的语音合成方法，包括：

接收用于语音合成的小语种文本；

2.根据权利要求1所述的方法，其中，所述小语种声学模型由多语种训练语音预训练获得，包括：

3.根据权利要求2所述的方法，其中，所述语种向量包括：语言嵌入、梅尔频谱、韵律信息以及多语种训练语音的说话人信息。

4.根据权利要求1所述的方法，其中，在将所述小语种文本中的专有符号转写成可解释文本之前，所述方法还包括：对所述小语种文本进行句子级别的分割。

5.一种小语种的语音合成系统，包括：

文本接收程序模块，用于接收用于语音合成的小语种文本；

6.根据权利要求5所述的系统，其中，所述小语种声学模型由多语种训练语音预训练获得，包括：

音素序列确定程序模块，用于确定所述多语种训练语音的国际音标的音素序列，其中，所述多语种训练语音包括：第一数据量的小语种训练语音以及第二数据量的非小语种训练语音，且所述第一数据量小于所述第二数据量；

声学音素预测程序模块，用于将所述国际音标的音素序列输入至所述小语种声学模型的编码器，将所述编码器的输出与所述多语种训练语音的语种向量输入至所述小语种声学模型的解码器中，得到预测声学音素；

模型训练程序模块，用于将所述预测声学音素输入至声码器，得到预测多语种合成音，基于所述预测多语种合成音以及所述多语种训练语音的损失对所述小语种声学模型进行训练，直至所述预测多语种合成音趋近于所述多语种训练语音为止。

7.根据权利要求6所述的系统，其中，所述语种向量包括：语言嵌入、梅尔频谱、韵律信息以及多语种训练语音的说话人信息。

8.根据权利要求5所述的系统，其中，所述系统还包括断句程序模块，用于对所述小语种文本进行句子级别的分割。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。