CN118298796A

CN118298796A - 语音合成模型的训练方法、语音合成方法、装置及可读介质

Info

Publication number: CN118298796A
Application number: CN202410397236.7A
Authority: CN
Inventors: 叶林勇; 肖龙源; 李海洲; 李稀敏; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2024-04-03
Filing date: 2024-04-03
Publication date: 2024-07-05

Abstract

本发明公开了一种语音合成模型的训练方法、语音合成方法、装置及可读介质，该训练方法包括：获取若干单个说话人的多语种的语音数据并进行预处理，得到训练数据；分别针对每个语种构建改进的Bert模型并训练，改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块，HUK模块再与编码模块和解码模块的前面的加法器连接；构建基于改进的VITS模型的语音合成模型并分阶段训练，将文本输入到经训练的改进的Bert模型中，得到Bert特征向量，将Bert词向量以及文本生成的音素均输入到VITS模型的文本编码器中，并将VITS模型中的随机时长预测器替换为改进的随机时长预测器，得到经训练的语音合成模型，解决改善跨语种语音合成效果不稳定、语速异常问题。

Description

语音合成模型的训练方法、语音合成方法、装置及可读介质

技术领域

本发明涉及语音合成领域，具体涉及一种语音合成模型的训练方法、语音合成方法、装置及可读介质。

背景技术

随着电子信息处理技术的不断发展，语音作为人们获取信息的重要载体，已经被广泛应用于日常生活和工作中。涉及语音的实施场景中，通常会包括语音合成的处理，语音合成是指将指定的文本或音频合成为符合需求的目标音频。

语音合成技术主要包括波形拼接语音合成、参数合成语音合成和端到端的语音合成技术。其中，波形拼接语音合成是通过前期录制大量的音频，尽可能全的覆盖所有的音节音素，基于统计规则的大语料库拼接成对应的文本音频。此技术需要大量的录音，并且对录音质量要求较高。参数合成语音合成则是基于语音信号处理和语音学的一些基本原理，建立语音的参数模型，如共振峰模型、线性预测模型等，通过调整模型参数来合成语音，该技术计算量大，参数计算复杂。而端到端的语音合成技术则是一种新型的语音合成方法，它直接将文本转换为语音波形，不需要显式地建立语音的参数模型，该技术需要处理自然语言理解和语音识别等复杂的问题，如何提高技术的准确率和效率是一个需要解决的问题。

在大屏讲解、科普介绍等应用场景中，经常会遇到同一个音色跨语种文本的语音合成情况，比如说中英文混合播报。现有语音合成方法存在跨语种语音合成效果不稳定的问题，中文文本语音合成较稳定，遇到其它语种发音时，发声存在习惯细节以及发音模糊的问题。

发明内容

本申请的目的在于针对上述提到的技术问题提出一种语音合成模型的训练方法、语音合成方法、装置及可读介质。

第一方面，本发明提供了一种语音合成模型的训练方法，包括以下步骤：

获取若干单个说话人的多语种的语音数据并进行预处理，得到训练数据；

分别针对每个语种构建改进的Bert模型并训练，得到每个语种对应的经训练的改进的Bert模型，改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块，编码模块的输出特征和编码模块的输出特征输入HUK模块中，得到中间特征，中间特征输入到编码模块和解码模块的前面的加法器中；

构建基于改进的VITS模型的语音合成模型，语音合成模型中将VITS模型与经训练的改进的Bert模型结合，将文本输入到经训练的改进的Bert模型中，得到Bert特征向量，将Bert词向量以及文本生成的音素均输入到VITS模型的文本编码器中，并将VITS模型中的随机时长预测器替换为改进的随机时长预测器；

采用公共语音数据和训练数据对语音合成模型进行分阶段训练，得到经训练的语音合成模型。

作为优选，改进的随机时长预测器的计算公式如下：

其中，u和v表示与时长序列d具有相同时间分辨率和维度的随机变量，c_text表示文本生成的音素，p_θ(d|c_text)表示预测时长序列d的先验分布，q_φ(u,v|d,c_text)表示近似后验分布，p_θ(d-u,v|c_text)表示预测时长序列d与数据点u的差值(d-u)和数据点v的似然函数，λ的取值范围为[-1，1]。

作为优选，HUK模块包括依次连接的第一卷积层、平均池化层、第一全连接层、第一RELU激活函数层、归一化层、第二RELU激活函数层、第二全连接层、第二卷积层和第三全连接层。

作为优选，采用训练数据对语音合成模型进行分阶段训练，得到经训练的语音合成模型，具体包括：

语音合成模型的训练分为两个阶段：

在第一阶段，采用公共语音数据对语音合成模型进行训练，直至模型收敛，得到第一训练模型；

在第二阶段，采用训练数据对第一训练模型进行训练，直至模型收敛，得到经训练的语音合成模型。

作为优选，获取若干单个说话人的多语种的语音数据并进行预处理，得到训练数据，具体包括：

采用下式计算语音数据中每个语音采样点的语音能量：

其中，RMS表示语音能量，x_i表示第i个语音采样点的量化数值，N表示语音数据中语音采样点的总数；

采用下式计算每个语音采样点的语音分贝：

其中，L_p表示语音分贝，p_rms为语音采样点的RMS，p_ref为语音能量的最大值；

将语音分贝在分贝阈值以下的语音采样点确定为静音段，采用预设时长阈值在位于静音段结束位置的静音处对语音数据进行切分，得到若干个有效时长为预设时长阈值的语音片段，对每个语音片段标注说话人ID、语种和文本，标注后得到的语音片段的格式为：path|spkid|language|text，并提取对应的线性谱；

调整所有的语音片段的采样率；

对所有的语音片段进行数据增强处理、降噪、分离背景音乐和人声，得到保留人声的语音片段；

对每个语音片段所对应的文本进行规范化处理，得到对应的音素。

第二方面，本发明提供了一种语音合成模型的训练装置，包括：

预处理模块，被配置为获取若干单个说话人的多语种的语音数据并进行预处理，得到训练数据；

改进的Bert模型构建训练模块，被配置为分别针对每个语种构建改进的Bert模型并训练，得到每个语种对应的经训练的改进的Bert模型，改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块，编码模块的输出特征和编码模块的输出特征输入HUK模块中，得到中间特征，中间特征输入到编码模块和解码模块的前面的加法器中；

语音合成模型构建模块，被配置为构建基于改进的VITS模型的语音合成模型，语音合成模型中将VITS模型与经训练的改进的Bert模型结合，将文本输入到经训练的改进的Bert模型中，得到Bert特征向量，将Bert词向量以及文本生成的音素均输入到VITS模型的文本编码器中，并将VITS模型中的随机时长预测器替换为改进的随机时长预测器；

语音合成模型训练模块，被配置为采用公共语音数据和训练数据对语音合成模型进行分阶段训练，得到经训练的语音合成模型。

第三方面，本发明提供了一种语音合成方法，采用如第一方面中任一实现方式描述的方法训练得到的经训练的语音合成模型，包括以下步骤：

获取待合成的文本和噪音，对待合成的文本进行规范化处理，得到对应的音素；

将待合成的文本和噪音输入经训练的语音合成模型，通过正则表达式检索待合成的文本对应的文本内容，对待合成的文本进行切分、分片，确定每个语种对应的文本，并将每个语种对应的文本输入所属的语种对应的经训练的改进的Bert模型中，分别提取得到各个语种对应的Bert特征向量，将各个语种对应的Bert特征向量合并后与待合成的文本生成的音素共同输入文本编码器中，得到第一特征，第一特征经过投影层，得到第二特征，噪音输入改进的随机时长预测器，得到第三特征，第二特征和第三特征在对齐搜索层进行对齐，得到第四特征，第四特征经过解码器，得到合成语音。

第四方面，本发明提供了一种语音合成装置，采用如第一方面中任一实现方式描述的方法训练得到的经训练的语音合成模型，包括：

数据获取模块，被配置为获取待合成的文本和噪音，对待合成的文本进行规范化处理，得到对应的音素；

合成模块，被配置为将待合成的文本和噪音输入经训练的语音合成模型，通过正则表达式检索待合成的文本对应的文本内容，对待合成的文本进行切分、分片，确定每个语种对应的文本，并将每个语种对应的文本输入所属的语种对应的经训练的改进的Bert模型中，分别提取得到各个语种对应的Bert特征向量，将各个语种对应的Bert特征向量合并后与待合成的文本生成的音素共同输入文本编码器中，得到第一特征，第一特征经过投影层，得到第二特征，噪音输入改进的随机时长预测器，得到第三特征，第二特征和第三特征在对齐搜索层进行对齐，得到第四特征，第四特征经过解码器，得到合成语音。

第五方面，本发明提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第六方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

相比于现有技术，本发明具有以下有益效果：

(1)本发明提出的语音合成模型的训练方法针对每个语种训练一个改进的Bert模型，改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块，HUK模块再与编码模块和解码模块前面的加法器连接，因此可以改善跨语种语音合成效果不稳定的问题

(2)本发明提出的语音合成模型的训练方法将经训练的改进的Bert模型与VITS模型结合，可以提升模型的合成语音质量，并对VITS模型中的随机时长预测器进行改进，能够有效解决合成语音的语速异常问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的实施例的语音合成模型的训练方法的流程示意图；

图2为传统的Bert模型的transformer结构的结构示意图；

图3为本申请的实施例的语音合成模型的训练方法的改进的Bert模型的结构示意图；

图4为本申请的实施例的语音合成模型的训练方法的改进的Bert模型中的HUK模块的结构示意图；

图5为传统的VITS模型在训练阶段的结构示意图；

图6为本申请的实施例的语音合成模型的训练方法的改进的VITS模型在训练阶段的结构示意图；

图7为本申请的实施例的语音合成模型的训练装置的示意图；

图8为本申请的实施例的语音合成模型的训练方法的改进的VITS模型在推理阶段的结构示意图；

图9为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了本申请的实施例提供的一种语音合成模型的训练方法，包括以下步骤：

S1，获取若干单个说话人的多语种的语音数据并进行预处理，得到训练数据。

在具体的实施例中，获取若干单个说话人的多语种的语音数据并进行预处理，得到训练数据，具体包括：

采用下式计算语音数据中每个语音采样点的语音能量：

采用下式计算每个语音采样点的语音分贝：

调整所有的语音片段的采样率；

具体的，在数据准备阶段，首先收集单个说话人多语种语音数据，每个语种的语音数据的总时长为10小时，切分成10秒左右为一条训练数据，遇到停顿的地方需要在训练数据的文本中加入正确的标点符号。每条语音片段需要标注好说话人id、语种和文本。语音片段的格式如下：path|spkid|language|text。

语音数据的切分流程如下：

首先计算输入的每个语音采样点的语音分贝，语音分贝在-40db以下的判断为静音段，用预设的语音时长阈值(10s)在静音处对语音数据进行切分，就可以得到一条有效时长为10s左右的训练数据中的语音片段，并提取每个语音片段对应的线性谱。

进一步的，将所有的语音片段的采样率重采样为16000Hz。在其他可选的实施例中，也可以选择合适的采样率进行重采样。对所有收集到的语音片段做数据增强处理、降噪、分离背景音乐还有人声等预处理过程。

进一步的，还需要对训练数据中的文本进行规范化处理，流程如下：

1.文本预处理：

解决文本中书写错误、一些语种中的同形异码等问题，对算法暂时无法解决的发音字，采用相似发音字替换，例如将“嗯”发音替换成“恩”，“呣”发音替换成“母”。

2.文本归一化：

主要解决文本中的特殊符号读法，比如“2kg”转换为“两千克”，“共465篇，约315万字”转换为“共四百六十五篇，约三百一十五万字”。

3.文本转音素：

将文本转换为注音，比如“中国”转化为“zhong1 guo2”，“good moning”转化为“guh d mao r n ih ng”，其它语种以此类推。

因此训练数据中包括语音片段及其对应的线性谱和音素。语音片段还标注有对应的说话人id、语种和文本。同样，在部署推理阶段，也需要将待合成的文本进行规范化处理，以提高语音合成的准确性。

S2，分别针对每个语种构建改进的Bert模型并训练，得到每个语种对应的经训练的改进的Bert模型，改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块，编码模块的输出特征和编码模块的输出特征输入HUK模块中，得到中间特征，中间特征输入到编码模块和解码模块的前面的加法器中。

在具体的实施例中，HUK模块包括依次连接的第一卷积层、平均池化层、第一全连接层、第一RELU激活函数层、归一化层、第二RELU激活函数层、第二全连接层、第二卷积层和第三全连接层。

具体的，参考图2和图3，对传统的Bert模型的transformer结构进行改进，加入HUK模块，得到改进的Bert模型，在具体的实施例中，编码模块和解码模块的后面均增加一个HUK模块，HUK模块又与编码模块和解码模块前面的加法器连接，即编码模块和解码模块的输出特征分别输入HUK模块，HUK模块输出的中间特征再输入到编码模块和解码模块前面的加法器，HUK模块可以对输入文本的韵律做预测，使提取的BERT特征向量停顿更加自然，音调更加逼真。使用改进的Bert模型对训练数据提取N维的BERT特征向量，合成中文的语音数据使用中文的改进的BERT模型提取N维的BERT特征向量，合成英文的语音数据使用英文的改进的BERT模型提取N维的BERT特征向量，其它语种依此类推。

参考图4，HUK模块包括依次堆叠连接的第一卷积层、平均池化层、第一全连接层、第一RELU激活函数层、归一化层、第二RELU激活函数层、第二全连接层、第二卷积层和第三全连接层，其中，第一卷积层的卷积核大小为3×3，维度为64，平均池化层的池化核为2，步长为2，第一全连接层的维度为128，归一化层的均值为0，方差为1，第二全连接层为64维，第二卷积层的卷积核大小为3×3，维度为64，第三全连接层的维度为64。

S3，构建基于改进的VITS模型的语音合成模型，语音合成模型中将VITS模型与经训练的改进的Bert模型结合，将文本输入到经训练的改进的Bert模型中，得到Bert特征向量，将Bert词向量以及文本生成的音素均输入到VITS模型的文本编码器中，并将VITS模型中的随机时长预测器替换为改进的随机时长预测器。

在具体的实施例中，改进的随机时长预测器的计算公式如下：

具体的，本申请的实施例中的语音合成模型使用基于变分推断和对抗学习的端到端的文本到语音转换方法的VITS(Variational Inference with adversarial learningfor end-to-end Text-to-Speech)模型，并对其进行改进，得到改进的VITS模型。参考图5和图6，在传统的VITS模型的基础上，将经训练的改进的Bert模型，经训练的改进的Bert模型在与VITS模型结合后取得了更好的语音合成效果，并且采用不同语种对应的经训练的改进的Bert模型与VITS模型结合，能够改善跨语种语音合成效果不稳定的问题。进一步对传统的VITS模型中的随机时长预测器进行改进，即在随机时长预测器的公式中增加e^λ，机时长预测器负责预测每个音素的持续时间，这是生成听起来自然的合成语音的关键因素，通过对随机时长预测器进行改进，能够解决合成语音的语速异常问题。改进的VITS模型能够有效提升了合成语音的质量，解决了合成语音的语速异常问题，并且可以在跨语种文本之间无缝切换，得到混合不同语种的合成语音。

S4，采用公共语音数据和训练数据对语音合成模型进行分阶段训练，得到经训练的语音合成模型。

在具体的实施例中，步骤S4具体包括：

语音合成模型的训练分为两个阶段：

具体的，模型的训练分为两个阶段：

1、需要先使用开源的公共语音数据(语音格式参考数据准备阶段)训练语音合成模型，直至模型收敛，达到较好的语音合成质量以后停止训练，训练好的模型称为第一训练模型。

2、使用收集到的单个说话人的多语种的语音数据制备而成的训练数据对第一训练模型微调，直至模型收敛，达到较好的语音合成质量以后停止，完成模型训练，训练好的模型称为经训练的语音合成模型。

值得注意的是，以上训练过程仅对改进的VITS模型中除经训练的改进的Bert模型以外的结构进行训练，经训练的改进的Bert模型属于已经训练的模块，不参与到语音合成模型的训练过程中。其余训练的细节与传统的VITS模型的训练过程一致，在此不再赘述。

以上步骤S1-S4并不一定代表步骤之间的顺序，而是步骤符号表示，步骤间的顺序可调整。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种语音合成模型的训练装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

本申请实施例提供了一种语音合成模型的训练装置，包括：

预处理模块1，被配置为获取若干单个说话人的多语种的语音数据并进行预处理，得到训练数据；

改进的Bert模型构建训练模块2，被配置为分别针对每个语种构建改进的Bert模型并训练，得到每个语种对应的经训练的改进的Bert模型，改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块，编码模块的输出特征和编码模块的输出特征输入HUK模块中，得到中间特征，中间特征输入到编码模块和解码模块的前面的加法器中；

语音合成模型构建模块3，被配置为构建基于改进的VITS模型的语音合成模型，语音合成模型中将VITS模型与经训练的改进的Bert模型结合，将文本输入到经训练的改进的Bert模型中，得到Bert特征向量，将Bert词向量以及文本生成的音素均输入到VITS模型的文本编码器中，并将VITS模型中的随机时长预测器替换为改进的随机时长预测器；

语音合成模型训练模块4，被配置为采用公共语音数据和训练数据对语音合成模型进行分阶段训练，得到经训练的语音合成模型。

本申请实施例还提供了一种语音合成方法，采用根据上述的语音合成模型的训练方法训练得到的经训练的语音合成模型，包括以下步骤：

具体的，参考图8，在推理阶段，改进的VITS模型也与传统的VITS模型有所不同，在改进的VITS模型中，文本同样需要经过文本所属的语种对应的经训练的改进的Bert模型提取Bert特征向量，并且采用改进的随机时长预测器，其余与传统的VITS模型一致。将根据上述的语音合成模型的训练方法训练得到的经训练的语音合成模型部署到服务器，推理阶段，首先对输入的文本按照语种类别进行识别切分，输入经训练的语音合成模型，然后分别用文本所属的语种对应的经训练的改进的Bert模型提取Bert特征向量，并提取文本对应的音素，将Bert特征向量和音素输入文本编码器，得到第一特征，第一特征经过投影层，得到第二特征，噪音输入改进的随机时长预测器，得到第三特征，第二特征和第三特征在对齐搜索层进行对齐，得到第四特征，第四特征经过解码器，得到合成语音。

本申请实施例还提供了一种语音合成装置，采用根据上述的语音合成模型的训练方法训练得到的经训练的语音合成模型，包括：

图9为本发明实施例提供的电子设备的硬件结构示意图。如图6所示，本实施例的电子设备包括：处理器901以及存储器902；其中存储器902，用于存储计算机执行指令；处理器901，用于执行存储器存储的计算机执行指令，以实现上述实施例中电子设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，存储器902既可以是独立的，也可以跟处理器901集成在一起。

当存储器902独立设置时，该电子设备还包括总线903，用于连接存储器902和处理器901。

本发明实施例还提供一种计算机存储介质，计算机存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上的方法。

本发明实施例还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，实现如上的方法。

在本发明所提供的实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，简称ISA)总线、外部设备互连(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括以下步骤：

分别针对每个语种构建改进的Bert模型并训练，得到每个语种对应的经训练的改进的Bert模型，所述改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块，所述编码模块的输出特征和编码模块的输出特征输入所述HUK模块中，得到中间特征，所述中间特征输入到所述编码模块和解码模块的前面的加法器中；

构建基于改进的VITS模型的语音合成模型，所述语音合成模型中将VITS模型与所述经训练的改进的Bert模型结合，将文本输入到所述经训练的改进的Bert模型中，得到Bert特征向量，将所述Bert词向量以及文本生成的音素均输入到所述VITS模型的文本编码器中，并将所述VITS模型中的随机时长预测器替换为改进的随机时长预测器；

采用公共语音数据和所述训练数据对所述语音合成模型进行分阶段训练，得到经训练的语音合成模型。

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述改进的随机时长预测器的计算公式如下：

3.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述HUK模块包括依次连接的第一卷积层、平均池化层、第一全连接层、第一RELU激活函数层、归一化层、第二RELU激活函数层、第二全连接层、第二卷积层和第三全连接层。

4.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述采用所述训练数据对所述语音合成模型进行分阶段训练，得到经训练的语音合成模型，具体包括：

所述语音合成模型的训练分为两个阶段：

在第一阶段，采用公共语音数据对所述语音合成模型进行训练，直至模型收敛，得到第一训练模型；

在第二阶段，采用所述训练数据对所述第一训练模型进行训练，直至模型收敛，得到所述经训练的语音合成模型。

5.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述获取若干单个说话人的多语种的语音数据并进行预处理，得到训练数据，具体包括：

采用下式计算所述语音数据中每个语音采样点的语音能量：

其中，RMS表示语音能量，x_i表示第i个语音采样点的量化数值，N表示所述语音数据中语音采样点的总数；

采用下式计算每个语音采样点的语音分贝：

将所述语音分贝在分贝阈值以下的语音采样点确定为静音段，采用预设时长阈值在位于所述静音段结束位置的静音处对所述语音数据进行切分，得到若干个有效时长为预设时长阈值的语音片段，对每个语音片段标注说话人ID、语种和文本，标注后得到的语音片段的格式为：path|spkid|language|text，并提取对应的线性谱；

调整所有的语音片段的采样率；

6.一种语音合成模型的训练装置，其特征在于，包括：

改进的Bert模型构建训练模块，被配置为分别针对每个语种构建改进的Bert模型并训练，得到每个语种对应的经训练的改进的Bert模型，所述改进的Bert模型在Bert模型的transformer结构中的编码模块和解码模块的后面均增加一个HUK模块，所述编码模块的输出特征和编码模块的输出特征输入所述HUK模块中，得到中间特征，所述中间特征输入到所述编码模块和解码模块的前面的加法器中；

语音合成模型构建模块，被配置为构建基于改进的VITS模型的语音合成模型，所述语音合成模型中将VITS模型与所述经训练的改进的Bert模型结合，将文本输入到所述经训练的改进的Bert模型中，得到Bert特征向量，将所述Bert词向量以及文本生成的音素均输入到所述VITS模型的文本编码器中，并将所述VITS模型中的随机时长预测器替换为改进的随机时长预测器；

语音合成模型训练模块，被配置为采用公共语音数据和所述训练数据对所述语音合成模型进行分阶段训练，得到经训练的语音合成模型。

7.一种语音合成方法，其特征在于，采用根据权利要求1-5中任一项所述的语音合成模型的训练方法训练得到的经训练的语音合成模型，包括以下步骤：

获取待合成的文本和噪音，对所述待合成的文本进行规范化处理，得到对应的音素；

将所述待合成的文本和噪音输入所述经训练的语音合成模型，通过正则表达式检索所述待合成的文本对应的文本内容，对所述待合成的文本进行切分、分片，确定每个语种对应的文本，并将每个语种对应的文本输入所属的语种对应的所述经训练的改进的Bert模型中，分别提取得到各个语种对应的Bert特征向量，将所述各个语种对应的Bert特征向量合并后与所述待合成的文本生成的音素共同输入所述文本编码器中，得到第一特征，所述第一特征经过投影层，得到第二特征，所述噪音输入所述改进的随机时长预测器，得到第三特征，所述第二特征和第三特征在对齐搜索层进行对齐，得到第四特征，所述第四特征经过解码器，得到合成语音。

8.一种语音合成装置，其特征在于，采用根据权利要求1-5中任一项所述的语音合成模型的训练方法训练得到的经训练的语音合成模型，包括：

合成模块，被配置为将所述待合成的文本和噪音输入所述经训练的语音合成模型，通过正则表达式检索所述待合成的文本对应的文本内容，对所述待合成的文本进行切分、分片，确定每个语种对应的文本，并将每个语种对应的文本输入所属的语种对应的所述经训练的改进的Bert模型中，分别提取得到各个语种对应的Bert特征向量，将所述各个语种对应的Bert特征向量合并后与所述待合成的文本生成的音素共同输入所述文本编码器中，得到第一特征，所述第一特征经过投影层，得到第二特征，所述噪音输入所述改进的随机时长预测器，得到第三特征，所述第二特征和第三特征在对齐搜索层进行对齐，得到第四特征，所述第四特征经过解码器，得到合成语音。

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。