CN115223537A

CN115223537A - 一种面向空管培训场景的语音合成方法及装置

Info

Publication number: CN115223537A
Application number: CN202211146535.0A
Authority: CN
Inventors: 林毅; 李锦恒; 杨波
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-10-21
Anticipated expiration: 2042-09-20
Also published as: CN115223537B

Abstract

本发明涉及语音合成领域和民用航空空中交通管制领域，特别是一种面向空管培训场景的语音合成方法及装置。本发明通过采用文本样本及其对应音素序列和语音样本的训练数据集，来训练建立的基于非自回归的语音合成初步模型，并基于多目标损失函数来对模型进行训练优化，从而得到一个有效的语音合成模型。采用非自回归的方式建立模型，并且采用音素作为模型的输入能够有效地解决空管领域获取大量训练语料困难的问题，节省了人力以及物力。且所述模型加入了说话人信息编码器以及额外信息预测器，能够对合成的语音的音色以及其余信息（包括语速、音高以及能量）进行控制。

Description

一种面向空管培训场景的语音合成方法及装置

技术领域

本发明涉及语音合成领域和民用航空空中交通管制领域，特别是一种面向空管培训场景的语音合成方法及装置。

背景技术

语音合成是指根据输入的文本输出对应的语音的一项技术，是语音信号处理领域中一项重要的研究分支。同时，随着民航运输业的快速发展，飞行流量不断增加，空中交通日益复杂，出现航班冲突的概率越来越高，空中交通存在一定的安全隐患。因此，对于高素质的空中管制人员的需求越来越大，陆空通话标准用语（ATC 指令）的训练是空中管制模拟训练的重要内容，在专业人员的陪同下，管制员使用空管模拟机来进行标准用语的培训，培训过程由管制员通过语音发送指令，模拟机长席位对管制指令做出相应的应答，并执行操作。而将语音合成技术引入空管培训，使得模拟机长能够以语音的形式作出应答，从而能够使得培训的过程更加的智能化。

在目前的语音合成研究中，在语料充足的情况下，构建出一个指定语言的声学模型是容易的。但是在空管领域，收集单空中交通管制员与飞行员的对话语料非常困难，并且收集到的对话语料通常会因为采集设备、传输装置等原因而带有噪声，因此很难用于语音合成模型的训练。且空中交通管制员发出的空中交通管制指令的语音，具有极强的专业性，与其他普通语音存在很大的不同，采用通用领域的说话人语料来训练语音合成模型，在语速、语调等方面均与真实的空中交通管制员的录音有一定的差距，在空管模拟培训的场景下缺乏真实感。基于此，如何使生成的空中交通管制指令的语音在语速、语调等方面都更接近于真实的空中交通管制员的录音，成为本领域技术人员亟待解决的问题。

因此，如今需要一种能够解决空管领域获取单说话人语料困难问题的、能够有效进行面向空管培训场景的语音合成的方法及装置。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种面向空管培训场景的语音合成方法及装置。

为了实现上述发明目的，本发明提供了以下技术方案：

一种面向空管培训场景的语音合成方法，包括以下步骤：

S1：获取训练数据集；所述训练数据为空管指令对应的文本样本，以及所述文本样本对应的音素序列和语音样本；

S2：对所述训练数据集进行预处理，输出语音样本信息集；所述语音样本信息包括所述语音样本中每个音素的时长信息、音高信息和能量信息，以及所述语音样本对应的梅尔频谱；

S3：构建语音合成初步模型；所述语音合成初步模型包括编码器、说话人信息编码器、额外信息预测器、解码器以及声码器；

S4：构建所述语音合成初步模型的多目标损失函数；

S5：基于所述多目标损失函数，通过神经网络训练算法对所述语音合成初步模型进行训练优化，输出语音合成模型；

S6：将待合成文本输入到所述语音合成模型，输出对应的合成音频。本发明通过采用文本样本及其对应音素序列和语音样本的训练数据集，来训练建立的基于非自回归的语音合成初步模型，并基于多目标损失函数来对模型进行训练优化，从而得到一个有效的语音合成模型。采用非自回归的方式建立模型，并且采用音素作为模型的输入能够有效地解决空管领域获取大量单说话人语料困难的问题，节省了人力以及物力。且所述模型加入了说话人信息编码器以及额外信息预测器，能够对合成的语音的音色以及其余信息（包括语速、音高以及能量）进行控制。

作为本发明的优选方案，所述S1包括以下步骤：

S11：构建音素表，并根据所述音素表建立音素词典；所述音素表包括所有中文音素、所有英文音素以及表示停顿和静音的特殊符号；所述音素词典包括中文音素词典以及英文音素词典；所述中文音素词典包括预设普通话词汇拼音及其对应的音素序列；所述英文音素词典包括预设英文词汇及其对应的音素序列；

S12：录入各个空管指令对应的文本样本；所述空管指令为人工录入的各种真实地空通信场景下的管制指令以及复诵指令；所述真实地空通信场景包括区管、放行、进近和塔台；所述文本样本包括所述空管指令的中文文本样本以及英文文本样本，且所述中文文本样本覆盖所有中文音素，所述英文文本样本覆盖所有英文音素；

S13：根据所述音素词典，对所述文本样本标注其对应的音素序列；其中，所述中文文本样本还标注对应的拼音序列；

S14：根据标注后的所述文本样本，录制对应的语音样本；

S15：输出训练数据集。本发明通过建立音素表以及音素词典来标注和录制样本，极大的提高了所述训练数据集的可靠性；从而使得后续建立训练的模型更加有效可靠。

作为本发明的优选方案，所述S2包括以下步骤：

S21：对所述语音样本进行切除静音处理；

S22：对切除静音处理后的所述语音样本进行预加重、分帧加窗、短时傅里叶变换、频谱取模平方以及梅尔滤波器组处理，得到所述语音样本对应的梅尔频谱；

S23：通过蒙特利尔强制对齐算法，对齐切除静音处理后的所述语音样本以及其对应的音素序列，得到切除静音处理后的所述语音样本中每个音素的时长信息；

S24：获取切除静音处理后的所述语音样本中每个音素的音高信息以及能量信息；

S25：输出语音样本信息集。

作为本发明的优选方案，所述语音合成初步模型具体为；

所述编码器包括若干由多头自注意力模块和卷积神经网络模块组成的编码器层；

所述说话人信息编码器用于提取语音中说话人的特征向量，包括若干长短期记忆网络模块以及1层全连接网络模块；

所述额外信息预测器包括持续时间预测器、音高预测器以及能量预测器；

所述解码器包括若干由多头自注意力模块和卷积神经网络模块组成的解码器层，以及一个全连接网络模块；

所述声码器为HIFIGAN声码器。本发明通过采用非自回归的方式构建模型，通过可并行的编码和解码，大大提高了模型处理数据的效率，也有效的加快了语音合成的速度。

作为本发明的优选方案，所述编码器和所述说话人信息编码器包括以下运行步骤：

S311：将所述音素序列转换为对应的向量矩阵E；E∈R^B×L×C，R为数域，B为批次的大小，L为数据的长度，C为音素向量的维度；所述向量矩阵E的转换方法为：将所述音素序列映射到一个向量空间，加上位置编码后，得到所述音素序列对应的向量矩阵E；

S312：在每层编码器层内，通过所述多头自注意力模块提取所述向量矩阵的上下文信息，得到全局特征；再通过所述卷积神经网络模块提取所述向量矩阵的局部信息，得到局部特征；融合所述全局特征与所述局部特征，得到音素序列第一隐藏特征矩阵Ui；其运算式为：

WE_i = U_i-1 + LN(MHSA(U_i-1))，WE_i∈R^B×L×C；

U_i = WE_i + LN(Cov1d(WE_i))，U_i∈R^B×L×C；

其中，i为所述编码器层的序号，WE_i为第i层编码器层中多头自注意力模块的输出，U_i-1为所述编码器中上一层所述编码器层输出的第一隐藏特征矩阵，第一层所述编码器层的输入为音素序列对应的向量矩阵E，LN为层归一化操作，MHSA为多头自注意力运算，Cov1d为一维卷积运算；

经过预设编码器层数的运算后，输出当前第一隐藏特征矩阵Ui为最终第一隐藏特征矩阵U，U∈R^B×L×C；

S313：通过所述说话人信息编码器提取预设参考音频的说话人隐藏特征向量，并将所述说话人隐藏特征向量与所述音素序列的最终第一隐藏特征矩阵U相加，得到第二隐藏特征矩阵H，其运算式为：

H = U + SENC(m)， H、U∈R^B×L×C，m∈R^B×C1；

其中，SENC为所述说话人信息编码器，m为所述预设参考音频对应的梅尔频谱，C1为所述梅尔频谱的维度。

作为本发明的优选方案，所述额外信息预测器包括以下运行步骤：

S321：通过所述持续时间预测器预测所述第二隐藏特征矩阵H中的每个音素的预测时长信息，并根据每个音素的所述预测时长信息，将所述编码器输出的隐藏特征矩阵H复制展开为帧级别的特征，输出融合了时长信息的第三隐藏特征矩阵H_D，其运算式为：

H_D= LR(d，H)， d∈R^B×L×1，H_D∈R^B×LD×C；

其中，LR为复制展开操作，d为音素的预测时长信息，LD为复制展开后数据的长度；

S322：通过所述音高预测器以及所述能量预测器预测所述第三隐藏特征矩阵H_D中每个音素的预测音高信息和预测能量信息，并将所述预测音高信息和所述预测能量信息叠加到所述第三隐藏特征矩阵H_D中，得到融合了时长、音高以及能量信息的第四隐藏特征矩阵H_DPE，其运算式为：

H_DPE = H_D+ pitch + energy，H_DPE∈R^B×LD×C；

其中pitch为音素的所述预测音高信息，energy为音素的所述预测能量信息。

作为本发明的优选方案，所述解码器包括以下运行步骤：

S331：在每层所述解码器层内，通过所述多头自注意力模块提取所述第四隐藏特征矩阵H_DPE的上下文信息，得到全局信息；并通过所述卷积神经网络模块提取所述第四隐藏特征矩阵H_DPE的局部信息；融合所述全局信息与所述局部信息得到所述解码器的隐含状态O_i；其运算式为：

WD_i = U_i-1 + LN(MHSA(O_i-1))，W_i∈R^B×LD×C；

O_i = W_i + LN(Cov1d(WD_i))，O_i∈R^B×LD×C；

其中，i为所述解码器的序号，WD_i为第i层解码器层中多头自注意力模块的输出，O_i-1为所述解码器中上一层所述解码器层输出的隐含状态，其中第一层所述解码器层输入为所述第四隐藏特征矩阵H_DPE；

S332：通过所述解码器的所述全连接网络模块将所述解码器输出的隐含状态进行维度上的变化，得到目标梅尔频谱mel_target，其运算式为：

mel_target= Linear(O)，mel_target∈R^B×LD×MC；

其中O为所述解码器中最后一层所述解码器输出的隐含状态，MC为目标梅尔频谱的维度，Linear为线性变换操作。

作为本发明的优选方案，所述S4包括以下步骤：

S41：根据每个音素的所述时长信息及其对应的所述预测时长信息，计算得到持续时间损失L_d；

S42：根据每个音素的所述音高信息及其对应的所述预测音高信息，计算得到音高损失L_P；

S43：根据每个音素的所述能量信息及其对应的所述预测能量信息，计算得到能量损失L_e；

S44：根据每个语音样本的所述梅尔频谱与所述目标梅尔频谱，计算得到梅尔频谱损失L_mel；

S45：根据所述持续时间损失L_d、所述音高损失L_P、所述能量损失L_e以及所述梅尔频谱损失L_mel，构建多目标损失函数L_total，其运算式为：

L_total= L_D+L_P+L_E+L_mel。

作为本发明的优选方案，所述合成音频还包括以下控制方法：

通过更换所述预设参考音频，调整所述说话人信息编码器提取的说话人的特征向量，来对所述合成音频的音色进行控制；

所述时间预测器能够通过为所述预测时长信息赋予系数对所述合成音频的语速进行控制；当系数大于1时，语速放慢；当系数小于1时，语速加快；

所述音高预测器能够通过为所述预测音高信息赋予系数对所述合成音频的音高进行控制；当系数大于1时，音高提高；当系数小于1时，音高降低；

所述能量预测器能够通过为所述预测能量信息赋予系数对所述合成音频的能量进行控制；当系数大于1时，能量加大；当系数小于1时，能量减小。本发明通过在语音合成模型中加入说话人信息编码器、时间预测器、音高预测器以及能量预测器，从而实现对合成音频的音色、语速、音高以及能量进行有效的控制。

一种面向空管培训场景的语音合成装置，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。

与现有技术相比，本发明的有益效果：

1.本发明通过采用文本样本及其对应音素序列和语音样本的训练数据集，来训练建立的基于非自回归的语音合成初步模型，并基于多目标损失函数来对模型进行训练优化，从而得到一个有效的语音合成模型。首先，非自回归模型不需要去学习音频与音素的对齐，从而对数据集的质量的要求低于自回归模型，其次，音素作为发音的最小单元，本身就包括发音的属性，降低了对神经网络学习发音规则的能力的要求。因此，采用非自回归的方式建立模型，并且采用音素作为模型的输入能够有效地解决空管领域获取大量训练语料困难的问题，节省了人力以及物力。且所述模型加入了说话人信息编码器以及额外信息预测器，能够对合成的语音的音色以及其余信息（包括语速、音高以及能量）进行控制。

2.本发明通过建立音素表以及音素词典来标注和录制样本，极大的提高了所述训练数据集的可靠性；从而使得后续建立训练的模型更加有效可靠。

3.本发明通过采用非自回归的方式构建模型，通过可并行的编码和解码，大大提高了模型处理数据的效率，也有效的加快了语音合成的速度。

4.本发明通过在语音合成模型中加入说话人信息编码器、时间预测器、音高预测器以及能量预测器，从而实现对合成音频的音色、语速、音高以及能量进行有效的控制。

附图说明

图1为本发明实施例所述的自回归模型（以tactron2为例）与非自回归模型的合成效率对比结果。

图2为本发明实施例1所述的一种面向空管培训场景下语音合成方法的流程示意图。

图3为本发明实施例2所述的一种面向空管培训场景下语音合成方法中所述语音合成初步模型的结构示意图。

图4为本发明实施例3所述的一种面向空管培训场景下语音合成方法中合成音频与真实语音的梅尔频谱对比实验结果图。

图5为本发明实施例4所述的一种利用了实施例1所述的一种面向空管培训场景的语音合成方法的一种面向空管培训场景的语音合成装置的结构示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

语音合成的速度是将语音合成技术用于空管领域需要考虑的重要因素之一，语音合成的快慢不仅会影响培训的效率，同时会对参加培训的管制员的培训体验造成影响。目前语音合成模型分为自回归模型和非自回归模型，由图1可知，非自回归模型的合成速度要明显快于非自回归模型的合成速度。且自回归模型由于需要训练注意力机制来对齐音素和语音帧，因此自回归模型对数据集的质量以及数据集的总时长有更高的要求；但在空管培训场景下，由于收集单管制员的语音并且使得语音能够覆盖所有中文音素、英文音素以及所有空管航路五字码等空管专有词汇是非常困难的，进而导致自回归模型合成的语音错误率较高，通常会出现漏读、错读、重复读等问题；同时，自回归模型难以对合成的语音的语速等进行控制。

根据以上分析可知，自回归模型对数据的依赖性更强，并且速度比较慢，而空管培训时，对语音合成的实时性有较高要求，因此本发明选用非自回归模型。

实施例1

如图2所示，一种面向空管培训场景的语音合成方法，包括以下步骤：

S1：获取训练数据集；所述训练数据为空管指令对应的文本样本，以及所述文本样本对应的音素序列和语音样本。

S2：对所述训练数据集进行预处理，输出语音样本信息集；所述语音样本信息包括所述语音样本中每个音素的时长信息、音高信息和能量信息，以及所述语音样本对应的梅尔频谱。

S3：构建语音合成初步模型；所述语音合成初步模型包括说话人信息编码器以及额外信息预测器。

S4：构建所述语音合成初步模型的多目标损失函数。

S5：基于所述多目标损失函数，通过神经网络训练算法对所述语音合成初步模型的模型训练优化，输出语音合成模型。

S6：将待合成文本输入到所述语音合成模型，输出对应的合成音频。

实施例2

本实施例为实施例1所述方法的一种具体实施方式，包括以下步骤：

S1：获取训练数据集。

S11：构建音素表，并根据所述音素表建立音素词典；所述音素表包括所有中文音素、所有英文音素以及表示停顿和静音的特殊符号；所述音素词典包括中文音素词典以及英文音素词典；所述中文音素词典包括预设普通话词汇拼音（即普通话中所有拼音）及其对应的音素序列；所述英文音素词典包括预设英文词汇（包括英文常用单词和航路点五字码等空管专有英文词汇）及其对应的音素序列；在本实施例中，该音素词典用于将音素映射到其在该音素词典中的下标，然后根据这个下标获取该音素对应的嵌入向量。

S12：录入各个空管指令对应的文本样本；所述空管指令为人工录入的各种真实地空通信场景下的管制指令以及复诵指令；所述真实地空通信场景包括区管、放行、进近和塔台；所述文本样本包括所述空管指令的中文文本样本以及英文文本样本，且所述中文文本样本覆盖所有中文音素，所述英文文本样本覆盖所有英文音素（具体包括所有常用管制指令以及空管航路五字码等空管专有词汇）。

S13：根据所述音素词典，对所述文本样本标注其对应的音素序列；其中，所述中文文本样本还标注对应的拼音序列；本实施例中标注后的文本样本均删除了标点符号。

S14：根据标注后的所述文本样本，录制对应的语音样本。

S15：输出训练数据集。

S2：对所述训练数据集进行预处理，输出语音样本信息集。

S21：对所述语音样本进行切除静音处理；在本发明中，所述语音样本在开头和结尾会有一些静音段，这些静音段不包含任何信息，所以在提取特征前需要进行切除，避免影响模型的效果。

S22：对切除静音处理后的所述语音样本进行预加重、分帧加窗、短时傅里叶变换、频谱取模平方以及梅尔滤波器组处理，得到所述语音样本对应的梅尔频谱。

S23：通过蒙特利尔强制对齐算法，对齐切除静音处理后的所述语音样本以及其对应的音素序列，得到切除静音处理后的所述语音样本中每个音素的时长信息。

S24：获取切除静音处理后的所述语音样本中每个音素的音高信息以及能量信息。

S25：输出语音样本信息集。

S3：构建语音合成初步模型；如图3所示，所述语音合成初步模型包括说话人信息编码器、额外信息预测器、编码器、解码器以及声码器。

其中，所述编码器包括若干由多头自注意力模块和卷积神经网络模块组成的编码器层；所述说话人信息编码器用于提取语音中说话人的特征向量，包括若干长短期记忆网络模块以及1层全连接网络模块。所述编码器和所述说话人信息编码器中，利用所述编码器提取所述音素序列的上下文信息并融入所述说话人信息提取器所提取的预设参考音频的说话人隐藏特征向量，得到隐藏特征矩阵，具体包括以下运行步骤：

WE_i = U_i-1 + LN(MHSA(U_i-1))，WE_i∈R^B×L×C；

U_i = WE_i + LN(Cov1d(WE_i))，U_i∈R^B×L×C；

H = U + SENC(m)， H、U∈R^B×L×C，m∈R^B×C1；

所述额外信息预测器包括持续时间预测器、音高预测器以及能量预测器。所述额外信息预测器用于对隐藏特征矩阵进行变换，得到融合了更多信息的隐藏特征矩阵，包括以下运行步骤：

H_D= LR(d，H)， d∈R^B×L×1，H_D∈R^B×LD×C；

其中，LR为复制展开操作，d为音素的预测时长信息，LD为复制展开后数据的长度；具体的，在训练时，d为真实的音素的时长信息，在推理时，d为持续时间预测器的预测时长信息。

H_DPE = H_D+ pitch + energy，H_DPE∈R^B×LD×C；

所述解码器包括若干由多头自注意力模块和卷积神经网络模块组成的解码器层，以及一个全连接网络模块。所述解码器用于根据隐藏特征矩阵来预测梅尔频谱，包括以下运行步骤：

WD_i = U_i-1 + LN(MHSA(O_i-1))，W_i∈R^B×LD×C；

O_i = W_i + LN(Cov1d(WD_i))，O_i∈R^B×LD×C；

其中，i为所述解码器的序号，WD_i为第i层解码器层中多头自注意力模块的输出，O_i-1为所述解码器中上一层所述解码器层输出的隐含状态，其中第一层所述解码器层输入为所述第四隐藏特征矩阵H_DPE。

mel_target= Linear(O)，mel_target∈R^B×LD×MC；

所述声码器为HIFIGAN声码器。

S4：构建所述语音合成初步模型的多目标损失函数。

S41：根据每个音素的所述时长信息及其对应的所述预测时长信息，计算得到持续时间损失Ld；

L_d= MSE(d，d_pred)；

其中，MSE为均方误差，d为真实的每个音素的时长信息，d_pred为时间预测器预测的每个音素的时长信息。

L_P= MSE(p，p_pred)；

其中，p为真实的每个音素的音高信息，p_pred为音高预测器预测的每个音素的音高信息。

L_e= MSE(e，e_pred)；

其中，e为真实的每个音素的能量信息，e_pred为能量预测器预测的每个音素的能量信息。

L_mel = MAE(mel，mel_target)；

其中，MAE为平均绝对误差，mel为真实梅尔频谱，mel_target为解码器得到的梅尔频谱。

L_total= L_D+L_P+L_E+L_mel。

所述待合成文本包括以下生成步骤：

S61：获取待合成文本样本。

首先通过识别管制员的管制语音得到管制文本；再通过对所述文本样本进行语义理解，得到包括所述管制文本对应的管制意图、意图参数、航班号、跑道号、航道号等信息的JSON文本；接着根据所述JSON文本以及空中交通用语标准得到飞行员对所述管制指令的指令复诵文本样本，将该指令复诵文本样本作为待合成文本样本。

S62：对所述待合成文本样本进行处理得到对应的音素序列以及语种信息。

通过文本归一化对所述待合成文本样本进行处理，把待合成文本样本中的数字、物理量、货币符号、缩略词等进行标准化操作，而在空管培训场景下，最重要的是对数字以及航空公司的处理，以中文文本为例，“CCA4367上高度下9200保持”，其中“CCA”为航空公司，需要转换为“国航”，“4367”以及“9200”为阿拉伯数字，需要转化为汉字“四三六拐”、“九千二”，这样便于分词以及文字转音素等后续过程。

再通过对所述待合成文本进行语种分析，确定所述待合成文本的语种，如果待合成文本为中文，则需要先对文本进行分词处理，以便后续根据预设中文音素词典对待合成文本进行音素转换，得到所述待合成文本对应的音素序列；如果待合成文本为英文，则可以直接通过预设英文音素词典对待合成文本进行音素转换。

S63：利用目标语音合成模型对所述待合成文本进行语音合成，得到合成语音。

其中，所述合成音频可通过以下方式进行调整控制：

所述能量预测器能够通过为所述预测能量信息赋予系数对所述合成音频的能量进行控制；当系数大于1时，能量加大；当系数小于1时，能量减小。

实施例3

本实施例为实施例2所述方法中的合成音频的梅尔频谱与对应真实语音的梅尔频谱进行对比的具体实验例，其中部分参数设置如下：

1）所述S14中，所述语音样本由专业录音人员根据所述文本样本在专业录音室使用高保真麦克风进行录制，其采样率为16Khz，量化深度为16bit。

2）所述S21中，本实施例采用基于能量的方式切除静音段，首先设定阈值为40分贝，若语音帧能量小于这个阈值，则认为该语音帧为静音，需要切除。

3）所述S22中，预加重的系数为0.98，帧长为1024，帧移为256，窗口为汉宁窗，从0-8000Hz范围内划分了80个梅尔滤波器，梅尔频谱的维度为80。

其合成音频的梅尔频谱与对应真实语音的梅尔频谱对比如图4所示，可以看出本发明所述方法可以很好的根据输入文本进行语音合成。

实施例4

如图5所示，一种面向空管培训场景的语音合成装置，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述实施例所述的一种面向空管培训场景的语音合成方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及USB接口，用于输入输出数据；电源用于为面向空管培训场景的语音合成装置提供电能。

本领域技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（Read Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向空管培训场景的语音合成方法，其特征在于，包括以下步骤：

S4：构建所述语音合成初步模型的多目标损失函数；

2.根据权利要求1所述的一种面向空管培训场景的语音合成方法，其特征在于，所述S1包括以下步骤：

S14：根据标注后的所述文本样本，录制对应的语音样本；

S15：输出训练数据集。

3.根据权利要求1所述的一种面向空管培训场景的语音合成方法，其特征在于，所述S2包括以下步骤：

S21：对所述语音样本进行切除静音处理；

S25：输出语音样本信息集。

4.根据权利要求1所述的一种面向空管培训场景的语音合成方法，其特征在于，所述语音合成初步模型具体为：

所述声码器为HIFIGAN声码器。

5.根据权利要求4所述的一种面向空管培训场景的语音合成方法，其特征在于，所述编码器和所述说话人信息编码器包括以下运行步骤：

S311：将所述音素序列转换为对应的向量矩阵E；E∈R^B×L×C，B为批次的大小，L为数据的长度，C为音素向量的维度；所述向量矩阵E的转换方法为：将所述音素序列映射到一个向量空间，加上位置编码后，得到所述音素序列对应的向量矩阵E；

WE_i= U_i-1 + LN(MHSA(U_i-1))，WE_i∈R^B×L×C；

U_i = WE_i + LN(Cov1d(WE_i))，U_i∈R^B×L×C；

H = U + SENC(m)， H、U∈R^B×L×C，m∈R^B×C1；

6.根据权利要求5所述的一种面向空管培训场景的语音合成方法，其特征在于，所述额外信息预测器包括以下运行步骤：

H_D= LR(d，H)， d∈R^B×L×1，H_D∈R^B×LD×C；

H_DPE = H_D+ pitch + energy，H_DPE∈R^B×LD×C；

7.根据权利要求6所述的一种面向空管培训场景的语音合成方法，其特征在于，所述解码器包括以下运行步骤：

WD_i = U_i-1 + LN(MHSA(O_i-1))，WD_i∈R^B×LD×C；

O_i = W_i + LN(Cov1d(WD_i))，O_i∈R^B×LD×C；

mel_target= Linear(O)，mel_target∈R^B×LD×MC；

8.根据权利要求4所述的一种面向空管培训场景的语音合成方法，其特征在于，所述S4包括以下步骤：

L_total= L_D+L_P+L_E+L_mel。

9.根据权利要求6所述的一种面向空管培训场景的语音合成方法，其特征在于，所述合成音频还包括以下控制方法：

10.一种面向空管培训场景的语音合成装置，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。