CN115641834A

CN115641834A - 一种语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN115641834A
Application number: CN202211101806.0A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-01-24

Abstract

本申请实施例提供了一种语音合成方法、装置、电子设备及存储介质，属于语音处理技术领域。该方法包括：对获取到的样本文本进行预处理，得到样本文本的样本音素特征；基于预设扩散模型中的声学特征生成器对样本音素特征进行特征转换，对转换后的样本音素特征进行变量映射，得到隐藏序列；基于声学特征生成器对隐藏序列进行解码，得到样本音素特征的梅尔频谱；对梅尔频谱进行噪声扩散，得到噪声扩散样本；将梅尔频谱以及噪声扩散样本输入到预设扩散模型进行训练，得到去噪模型；将获取到的目标文本输入去噪模型进行音波合成，得到与目标文本对应的语音波形。本申请实施例能够提高语音合成的质量以及稳定性，提高梅尔频谱的保真度。

Description

一种语音合成方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

随着语音信号处理技术的发展，语音合成逐渐成为语音信号处理领域的重要研究分支，其中，最常见的语音合成的技术手段为基于TTS(Text To Speech，从文本到语音)对语音进行合成，从文本到语音合成是一个典型的多模态生成任务，这一任务将给定的文本输入序列转化为具有不同说话者身份、情绪、风格的语音输出。目前，主流的文本到语音合成系统主要文本前端、声学模型以及声码器三个部分组成，通过文本到语音合成系统可以实现对目标说话人的语音波形的构建，然而，在具有多个说话人的从文本到语音任务中，现有的基于自回归方法的模型在推理时会不断累积预测误差，导致生成的合成语音出现跳字、重复等问题，从而影响了生成语音的质量。

发明内容

本申请实施例的主要目的在于提出一种语音合成方法、装置、电子设备及存储介质，能够提高语音合成的质量以及稳定性，提高梅尔频谱的保真度。

为实现上述目的，本申请实施例的第一方面提出了一种语音合成方法，所述方法包括：

对获取到的样本文本进行预处理，得到所述样本文本的样本音素特征；

基于所述预设扩散模型中的声学特征生成器对所述样本音素特征进行特征转换，对转换后的所述样本音素特征进行变量映射，得到隐藏序列；

基于所述声学特征生成器对所述隐藏序列进行解码，得到所述样本音素特征的梅尔频谱；

对所述梅尔频谱进行噪声扩散，得到噪声扩散样本；

将所述梅尔频谱以及所述噪声扩散样本输入到所述预设扩散模型进行训练，得到去噪模型；

将获取到的目标文本输入所述去噪模型进行音波合成，得到与所述目标文本对应的语音波形。

在一些实施例，所述预设扩散模型包括文本前端模块，所述将获取到的样本文本进行预处理，得到所述样本文本的样本音素特征，包括：

将所述样本文本输入所述文本前端模块进行同形异码替换，得到替换文本；

对所述替换文本进行文本规范，得到音素序列；

根据所述音素序列生成所述样本音素特征。

在一些实施例，所述声学特征生成器包括编码器和适配器；所述基于所述预设扩散模型中的声学特征生成器对所述样本音素特征进行特征转换，对转换后的所述样本音素特征进行变量映射，得到隐藏序列，包括：

将所述样本音素特征中的所述音素序列输入所述声学特征生成器中的所述编码器进行序列转换，得到转换结果；

对所述样本音素特征进行标注，得到所述样本音素特征的音频能量标签、音调标签以及时长标签；

将所述转换结果、所述音频能量标签、所述音调标签以及所述时长标签输入所述适配器进行变量映射，得到所述隐藏序列。

在一些实施例，所述适配器包括时长预测器、能量预测器和音高预测器；所述将所述转换结果、所述音频能量标签、所述音调标签以及所述时长标签输入所述适配器进行变量映射，得到所述隐藏序列，包括：

将所述时长标签输入所述时长预测器进行预测，得到时长信息；

将所述音频能量标签输入所述能量预测器进行预测，得到音频能量信息；

将所述音调标签输入所述音高预测器进行预测，得到音调信息；

将所述时长信息、所述音频能量信息以及所述音调信息添加至所述转换结果，生成所述隐藏序列。

在一些实施例，所述声学特征生成器包括解码器；所述基于所述声学特征生成器对所述隐藏序列进行解码，得到所述样本音素特征的梅尔频谱，包括：

将所述隐藏序列输入所述解码器进行因果卷积，得到卷积结果；

对所述卷积结果进行概率预测，得到所述隐藏序列的时间步；

根据所述时间步对所述隐藏序列进行解码，得到所述梅尔频谱。

在一些实施例，所述对所述梅尔频谱进行噪声扩散，得到噪声扩散样本，包括：

根据所述时间步对所述梅尔频谱进行噪声添加，得到添加结果；

对所述添加结果进行去噪操作，得到所述噪声扩散样本。

在一些实施例，所述预设扩散模型包括第一预设损失函数和第二预设损失函数；所述将所述梅尔频谱以及所述噪声扩散样本输入到所述预设扩散模型进行训练，得到去噪模型，包括：

根据所述梅尔频谱以及所述第一预设损失函数对所述声学特征生成器进行计算，得到重建损失值；

计算所述梅尔频谱以及所述噪声扩散样本之间的距离，得到判别损失值；

根据所述噪声扩散样本以及所述第二预设损失函数进行计算，得到匹配损失值；

根据所述重建损失值、所述判别损失值以及所述匹配损失值更新所述预设扩散模型，得到所述去噪模型。

为实现上述目的，本申请实施例的第二方面提出了一种语音合成装置，所述装置包括：

音素提取模块，用于对获取到的样本文本进行预处理，得到所述样本文本的样本音素特征；

特征转换模块，用于基于所述预设扩散模型中的声学特征生成器对所述样本音素特征进行特征转换，对转换后的所述样本音素特征进行变量映射，得到隐藏序列；

频谱获取模块，用于基于所述声学特征生成器对所述隐藏序列进行解码，得到所述样本音素特征的梅尔频谱；

噪声扩散模块，用于对所述梅尔频谱进行噪声扩散，得到噪声扩散样本；

模型训练模块，用于将所述梅尔频谱以及所述噪声扩散样本输入到所述预设扩散模型进行训练，得到去噪模型；

语音确定模块，用于将获取到的目标文本输入所述去噪模型进行音波合成，得到与所述目标文本对应的语音波形。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的语音合成方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音合成方法。

本申请提出的语音合成方法和装置、电子设备及存储介质,首先，对获取到的样本文本进行预处理，以得到样本文本的样本音素特征，再基于预设扩散模型中的声学特征生成器对样本音素特征进行特征转换，并对转换后的样本音素特征进行变量映射，从而得到隐藏序列，之后通过声学特征生成器对隐藏序列进行解码，得到样本音素特征的梅尔频谱，再对梅尔频谱进行噪声扩散，得到噪声扩散样本，从而避免语音转换过程中的噪声影响，最后将梅尔频谱以及噪声扩散样本输入到预设扩散模型进行训练，得到训练好的去噪模型，加强预设扩散模型的鲁棒性与稳定性，将获取得到的目标文本输入去噪模型进行音波合成，得到与目标文本对应的语音波形，从而实现对合成语音的去噪，提高合成的语音波形的质量。

附图说明

图1是本申请实施例提供的语音合成方法的流程图；

图2是图1中的步骤S101的流程图；

图3是图1中的步骤S102的流程图；

图4是图3中的步骤S303的流程图；

图5是图1中的步骤S103的流程图；

图6是图1中的步骤S104的流程图；

图7是图1中的步骤S105的流程图；

图8是本申请实施例提供的语音合成装置的结构示意图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

马尔可夫链(Markov Chain,MC)：马尔可夫链是概率论和数理统计中具有马尔可夫性质且存在于离散的指数集和状态空间内的随机过程。适用于连续指数集的马尔可夫链被称为马尔可夫过程，但有时也被视为马尔可夫链的子集，即连续时间马尔可夫链，与离散时间马尔可夫链相对应，因此马尔可夫链是一个较为宽泛的概念，其中，马尔可夫链可通过转移矩阵和转移图定义，除马尔可夫性外，马尔可夫链可能具有不可约性、常返性、周期性和遍历性。一个不可约和正常返的马尔可夫链是严格平稳的马尔可夫链，拥有唯一的平稳分布。遍历马尔可夫链的极限分布收敛于其平稳分布。

高斯噪声(Gaussian noise)：高斯噪声是指它的概率密度函数服从高斯分布(即正态分布)的一类噪声。常见的高斯噪声包括起伏噪声、宇宙噪声、热噪声和散粒噪声等等。除常用抑制噪声的方法外，对高斯噪声的抑制方法常常采用数理统计方法。

字素到音素(Grapheme-to-Phoneme，G2P)：G2P通过使用循环神经网络(RecurrentNeural Network,RNN)和长短期记忆网络(Long Short-Term Memory，LSTM)，来实现从英文单词到音素的转化。其中，长短期记忆网络的序列到序列模型已经被成功地应用到许多项目中，这些应用包括机器翻译，字素转因素等等。

修正线性单元(Rectified Linear Unit，ReLU)：ReLU激活函数是常用的神经激活函数。ReLU函数其实是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。

信息抽取(Information Extraction)：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。

用于高效和高保真语音合成的生成对抗网络(Generative AdversarialNetworks for Efficient and High Fidelity Speech Synthesis，HiFi-GAN)：包括一个生成器和两个判别器，可以将低质量的录音转换为高质量的录音室音质音频，以往的人工智能音频处理方法通常只能改善录音音质的某一方面，如过滤背景噪音或去除混响，而这种新方法是一种多功能工具。

随机失活(Dropout)：随机失活是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性从而实现神经网络的正则化，降低其结构风险。

时间步(Timesteps)：在解非线性问题的时候，把整个求解过程分成小段。对于结构问题，这种分段等同于把加载过程分成多个步，每步结构加载变化一点，直到完成整个加载过程。如果是动力问题，那么这个加载步可以理解为真正的时间区间。如果是静力问题，这个加载步就是很多求解器所谓的伪时间步。

统一码(Unicode)：统一码(Unicode)，也叫万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

基于此，本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质，旨在实现对合成语音的去噪，提高合成的语音波形的质量。

本申请实施例提供的语音合成方法和装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的语音合成方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音合成技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的语音合成方法，涉及人工智能技术领域。本申请实施例提供的语音合成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现语音合成方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本申请实施例提供的语音合成方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S106。

步骤S101，对获取到的样本文本进行预处理，得到样本文本的样本音素特征；

在一些实施例的步骤S101中，对获取到的样本文本进行预处理，从而提取出样本文本的样本音素特征，便于后续根据音素特征提取梅尔频谱。

步骤S102，基于预设扩散模型中的声学特征生成器对样本音素特征进行特征转换，对转换后的样本音素特征进行变量映射，得到隐藏序列；

在一些实施例的步骤S102中，将样本音素特征输入预设扩散模型中的声学特征生成器进行特征转换，添加不同的变量信息至样本音素特征中，之后对转换后的样本音素特征进行变量映射，得到与样本音素特征对应的隐藏序列，从而提供足够的信息去预测变化的语音，解决语音合成中的一对多映射问题。

需要说明的是，除了样本文本，在语音或者录音中通常包含了大量的其他变量信息，例如，音素时长、音高或者能量等，其中，音素时长代表了语音中的语速；音高代表了语音中的说话情感变化，对于感知有着很大的影响；而能量则代表梅尔频谱的帧级幅度，直接影响梅尔频谱计算的损失。因此，变量信息不完全是样本文本决定的，可能存在一对多映射问题，通过预设扩散模型中的声学特征生成器对样本音素特征进行特征转换，解决语音合成中的一对多的映射问题。

步骤S103，基于声学特征生成器对隐藏序列进行解码，得到样本音素特征的梅尔频谱；

在一些实施例的步骤S103中，对步骤S102得到的隐藏序列进行解码，得到与样本音素特征对应的梅尔频谱，从而提高语音合成的质量。

步骤S104，对梅尔频谱进行噪声扩散，得到噪声扩散样本；

在一些实施例的步骤S104中，对步骤S103得到的梅尔频谱进行噪声扩散，得到噪声扩散样本，从而提高梅尔频谱的保真度，避免噪声的影响。

需要说明的是，对梅尔频谱进行噪声扩散为将梅尔频谱输入扩散模型进行噪声扩散，其中，扩散模型包括一个无参数马尔可夫链以及一个参数化马尔可夫链，无参数马尔可夫链用于对梅尔频谱中的声学特征进行扩散，参数化马尔可夫链用于对梅尔频谱进行去噪，在扩散过程中，将高斯噪声添加至梅尔频谱的数据结构中，直到数据结果被完全破坏，在去噪过程中通过去噪函数来去除添加的噪声并恢复数据结构，从而得到噪声扩散样本。

步骤S105，将梅尔频谱以及噪声扩散样本输入到预设扩散模型进行训练，得到去噪模型；

在一些实施例的步骤S105中，将梅尔频谱以及噪声扩散样本输入到预设扩散模型进行训练，得到去噪模型，从而增强去噪模型的去噪能力，增强去噪模型语音合成的质量。

需要说明的是，去噪模型通过梅尔频谱以及噪声扩散样本对预设扩散模型进行训练得到，因此去噪模型具备梅尔频谱提取以及噪声扩散的能力。

步骤S106，将获取到的目标文本输入去噪模型进行音波合成，得到与目标文本对应的语音波形。

在一些实施例的步骤S106中，将获取到的目标文本输入去噪模型进行音波合成，得到与目标文本对应的语音波形，从而增强语音波形的质量，能够有效生成高质量的语音波形。

需要说明的是，将获取到的目标文本输入去噪模型，首先去噪模型中的文本前端模块对目标文本进行预处理，得到目标文本的目标音素特征，再基于去噪模型中的声学特征生成器对目标音素特征进行变量添加以及变量映射，再对变量映射后的目标音素特征进行解码，得到与目标音素特征对应的目标梅尔频谱，之后基于去噪模型中的声码器生成与目标梅尔频谱对应的时域波形，并对时域波形进行波形重建，最后，得到与目标文本对应的语音波形，实现对梅尔频谱的波形重建，生成高质量的合成语音，避免噪声的影响。

可以理解的是，声码器可以为HiFi-GAN，波形重建包括但不限于包括反卷积、多感受野融合等操作，本实施例不做具体限制。

需要说明的是，声码器中的判断别器包括多尺度判别器和多周期判别器，因此本申请可以从两个不同角度对语音波形进行鉴别，本实施例不做具体限制。

本申请实施例所示意的步骤S101至步骤S106，对获取到的样本文本进行预处理，以得到样本文本的样本音素特征，再基于预设扩散模型中的声学特征生成器对样本音素特征进行特征转换，并对转换后的样本音素特征进行变量映射，从而得到隐藏序列，之后通过声学特征生成器对隐藏序列进行解码，得到样本音素特征的梅尔频谱，再对梅尔频谱进行噪声扩散，得到噪声扩散样本，从而避免语音转换过程中的噪声影响，最后将梅尔频谱以及噪声扩散样本输入到预设扩散模型进行训练，得到训练好的去噪模型，加强预设扩散模型的鲁棒性与稳定性，将获取得到的目标文本输入去噪模型进行音波合成，得到与目标文本对应的语音波形，从而实现对合成语音的去噪，提高合成的语音波形的质量。

请参阅图2，在一些实施例中，步骤S101可以包括但不限于包括步骤S201至步骤S203：

需要说明的是，预设扩散模型包括文本前端模块。

步骤S201，将样本文本输入文本前端模块进行同形异码替换，得到替换文本；

步骤S202，对替换文本进行文本规范，得到音素序列；

步骤S203，根据音素序列生成样本音素特征。

在一些实施例中，首先将样本文本输入文本前端模块进行识别，确定样本文本的语种，例如，汉语、英语、或者日语等，并且文本前端模块会对样本文本的非法输入进行处理，之后再对样本文本进行同形异码替换，从而将不可见字符去除、标点符号统一以及将全角输入转换为半角输入等，得到替换文本，再对不同格式的物理量、货币、日期等进行文本规范，得到音素序列，最后根据音素序列生成样本音素特征，从而实现对样本文本规范化处理，能够减少提取样本音素特征过程中的干扰。

在一些实施例的步骤S201中，将样本文本输入文本前端模块进行同形异码替换，得到替换文本，其中，可以采用Unicode编码进行同形异码替换，避免相同写法的文本的干扰，减小转换误差。

在一些实施例的步骤S202中，对替换文本进行文本规范，得到音素序列，将文本格式统一，便于生成规范的样本音素特征。

需要说明的是，进行文本规范包括但不限于将不同格式的数学符号、物理符号以及日期等信息进行统一，本实施例不做具体限制。

在一些实施例的步骤S203中，根据音素序列生成样本音素特征，其中，生成样本音素特征的方法可以采用开源的文本转音素模型或者利用基础词典训练的G2P模型等。

请参阅图3，在一些实施例中，步骤S102可以包括但不限于包括步骤S301至步骤S303：

需要说明的是，声学特征生成器包括编码器和适配器。

可以理解的是，声学特征生成器中的编码器为Transformer编码器，适配器为变量适配器。

步骤S301，将样本音素特征中的音素序列输入声学特征生成器中的编码器进行序列转换，得到转换结果；

在一些实施例的步骤S301中，将样本音素特征中的音素序列输入声学特征生成器中的编码器进行序列转换，其中，声学特征生成器的编码器包括4个前馈形的Transformer模块，每个模块是由自注意力层和卷积叠加而成，Transformer模块中包括隐藏节点、注意力头、卷积核以及滤波器等，其中，隐藏节点的数量为256个、注意力头的数量为2个、卷积核大小为9、滤波器的大小为1024，将音素序列进行卷积以及滤波，得到转换结果，提高序列转换的准确性，并且增强对复杂过程的拟合能力。

步骤S302，对样本音素特征进行标注，得到样本音素特征的音频能量标签、音调标签以及时长标签；

步骤S303，将转换结果、音频能量标签、音调标签以及时长标签输入适配器进行变量映射，得到隐藏序列。

在一些实施例中，首先将样本音素特征中的音素序列输入声学特征生成器的编码器中进行序列转换，得到经过卷积、滤波以及叠加，得到转换结果，之后再对样本音素特征进行标注处理，得到样本音素特征的音频能量标签、音调标签以及时长标签，从而实现对样本音素特征的预测，最后将转换结果、音频能量标签、音调标签以及时长标签输入适配器进行变量映射，便于通过各种标签进行变量映射，得到隐藏序列，从而解决语音合成过程中一对多的映射问题，提高映射的准确性。

请参阅图4，在一些实施例中，步骤S303可以包括但不限于包括步骤S401至步骤S404：

需要说明的是，适配器包括时长预测器、能量预测器和音高预测器。

可以理解的是，适配器由2层的修正线性单元激活的卷积网络组成，每一层都紧跟着层标准化和随机失活层，并且一个额外的线性层去投影隐藏状态到输出序列，时长预测器、能量预测器和音高预测器的模型结构相同，参数不同。

步骤S401，将时长标签输入时长预测器进行预测，得到时长信息；

在一些实施例的步骤S401中，将时长标签输入时长预测器进行预测，得到与样本音素特征对应的时长信息，从而提高隐藏序列的分割准确性并减少输出之间的信息差距。

需要说明的是，为了提高时长信息分割的准确性并减少输入输出之间的信息差距，本实施例中将时长标签输入时长预测器进行预测，其中，时长预测器为一个高性能的开源的语音文字切割系统，无需任何手动对齐注释，从而得到与样本音素特征对应的时长信息。

步骤S402，将音频能量标签输入能量预测器进行预测，得到音频能量信息；

在一些实施例的步骤S402中，将音频能量标签输入能量预测器进行预测，得到音频能量信息，从而得到样本音素特征的音频能量信息，便于后续生成隐藏序列，从而得到梅尔频谱。

步骤S403，将音调标签输入音高预测器进行预测，得到音调信息；

在一些实施例的步骤S403中，将音调标签输入音高预测器进行预测，得到与样本音素特征对应的音调信息，从而直接将没有声音的序列帧置零，避免没有声音的音素特征的干扰。

步骤S404，将时长信息、音频能量信息以及音调信息添加至转换结果，生成隐藏序列。

在一些实施例的步骤S404中，将时长信息、音频能量信息以及音调信息作为变量添加至转换结果中，从而生成隐藏序列，减少音素信息输出的差距，解决语音合成过程中一对多的映射问题，便于后续得到高质量的梅尔频谱。

请参阅图5，在一些实施例中，步骤S103还可以包括但不限于包括步骤S501至步骤S503：

需要说明的是，声学特征生成器包括解码器。

可以理解的是，解码器为一个能够生成原始音频波形的深度神经网络，步骤S501，将隐藏序列输入解码器进行因果卷积，得到卷积结果；

在一些实施例的步骤S501中，将隐藏序列输入解码器进行因果卷积，从而得到卷积结果，通过因果卷积避免出现违反数据的顺序的情况。

需要说明的是，也可以采用遮蔽卷积对隐藏序列进行卷积，当采用遮蔽卷积对隐藏序列处理，可以在使用前通过构建一个遮蔽张量与卷积核进行点乘来实现。

可以理解的是，由于使用因果卷积的模型中没有循环连接，因此，在因果卷积的过程中将扩张率设置为1，以使感受野足够大，减少计算成本。

步骤S502，对卷积结果进行概率预测，得到隐藏序列的时间步；

在一些实施例的步骤S502中，对步骤S501得到的卷积结果输入无参数马尔科夫链和参数化马尔科夫链进行概率预测，得到隐藏序列的时间步，便于对隐藏序列的分类。

步骤S503，根据时间步对隐藏序列进行解码，得到梅尔频谱。

在一些实施例的步骤S503中，根据时间步对隐藏序列的解码情况进行限制，从而得到梅尔频谱，例如，无参数马尔科夫链和参数化马尔科夫链的时间步均为5步，因此在进行噪声扩散的过程中，数据结构在第五步被完全破坏。

请参阅图6，在一些实施例，步骤S104包括但不限于包括步骤S601至步骤S602：

步骤S601，根据时间步对梅尔频谱进行噪声添加，得到添加结果；

步骤S602，对添加结果进行去噪操作，得到噪声扩散样本。

在一些实施例中，将梅尔频谱输入鉴别器，使得鉴别器能够根据时间步对梅尔频谱进行说话人噪声添加，得到添加结果，再对添加结果进行去噪，将时间步以及说话人噪声等去除，对添加结果进行恢复，从而得到噪声扩散样本。

请参阅图7，在一些实施例中，步骤S105可以包括但不限于包括步骤S701至步骤S704：

需要说明的是，预设扩散模型包括第一预设损失函数和第二预设损失函数。

步骤S701，根据梅尔频谱以及第一预设损失函数对声学特征生成器进行计算，得到重建损失值。

步骤S702，计算梅尔频谱以及噪声扩散样本之间的距离，得到判别损失值；

步骤S703，根据噪声扩散样本以及第二预设损失函数进行计算，得到匹配损失值；

步骤S704，根据重建损失值、判别损失值以及匹配损失值更新预设扩散模型，得到去噪模型。

在一些实施例中，首先根据梅尔频谱以及第一预设损失函数L_recon对声学特征生成器进行计算，得到重建损失值，之后计算梅尔频谱以及噪声扩散样本之间的距离，并通过判别器的损失函数L_adv进行计算，得到判别损失值，再根据噪声扩散样本以及第二预设损失函数L_fm进行计算，得到匹配损失值，最后，根据重建损失值、判别损失值以及匹配损失值训练预设扩散模型，得到去噪模型。

需要说明的是，第一预设损失函数为声学特征生成器的损失函数，第二预设损失函数为特征匹配损失函数，通过相似性度量区分真假数据。

可以理解的是，去噪模型通过最小化以下损失函数来训练，如下公式(1)所示：

L_G＝L_adv+L_recon+λL_fm (1)

需要说明的是，参数λ为动态缩放参数，设置为λ＝L_recon/L_fm。

请参阅图8，本申请实施例还提供一种语音合成装置，可以实现上述语音合成方法，该装置包括：

音素提取模块801，用于对获取到的样本文本进行预处理，得到样本文本的样本音素特征；

特征转换模块802，用于基于预设扩散模型中的声学特征生成器对样本音素特征进行特征转换，对转换后的样本音素特征进行变量映射，得到隐藏序列；

频谱获取模块803，用于基于声学特征生成器对隐藏序列进行解码，得到样本音素特征的梅尔频谱，其中，梅尔频谱携带目标说话人的语音特征信息；

噪声扩散模块804，用于对梅尔频谱进行噪声扩散，得到噪声扩散样本；

模型训练模块805，用于将梅尔频谱以及噪声扩散样本输入到预设扩散模型进行训练，得到去噪模型；

语音确定模块806，用于将获取到的目标文本输入去噪模型进行音波合成，得到与目标文本对应的语音波形。

该语音合成装置的具体实施方式与上述语音合成方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述语音合成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application SpecificIntegrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器902，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本申请实施例的语音合成方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述语音合成方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的语音合成方法、语音合成装置、电子设备及存储介质，首先，对获取到的样本文本进行预处理，以得到样本文本的样本音素特征，再基于预设扩散模型中的声学特征生成器对样本音素特征进行特征转换，并对转换后的样本音素特征进行变量映射，从而得到隐藏序列，之后通过声学特征生成器对隐藏序列进行解码，得到样本音素特征的梅尔频谱，再对梅尔频谱进行噪声扩散，得到噪声扩散样本，从而避免语音转换过程中的噪声影响，最后将梅尔频谱以及噪声扩散样本输入到预设扩散模型进行训练，得到训练好的去噪模型，加强预设扩散模型的鲁棒性与稳定性，将获取得到的目标文本输入去噪模型进行音波合成，得到与目标文本对应的语音波形，从而实现对合成语音的去噪，提高合成的语音波形的质量。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-7中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

基于预设扩散模型中的声学特征生成器对所述样本音素特征进行特征转换，对转换后的所述样本音素特征进行变量映射，得到隐藏序列；

对所述梅尔频谱进行噪声扩散，得到噪声扩散样本；

2.根据权利要求1所述的语音合成方法，其特征在于，所述预设扩散模型包括文本前端模块；所述将获取到的样本文本进行预处理，得到所述样本文本的样本音素特征，包括：

对所述替换文本进行文本规范，得到音素序列；

根据所述音素序列生成所述样本音素特征。

3.根据权利要求2所述的语音合成方法，其特征在于，所述声学特征生成器包括编码器和适配器；所述基于所述预设扩散模型中的声学特征生成器对所述样本音素特征进行特征转换，对转换后的所述样本音素特征进行变量映射，得到隐藏序列，包括：

4.根据权利要求3所述的语音合成方法，其特征在于，所述适配器包括时长预测器、能量预测器和音高预测器；所述将所述转换结果、所述音频能量标签、所述音调标签以及所述时长标签输入所述适配器进行变量映射，得到所述隐藏序列，包括：

5.根据权利要求1所述的语音合成方法，其特征在于，所述声学特征生成器包括解码器；所述基于所述声学特征生成器对所述隐藏序列进行解码，得到所述样本音素特征的梅尔频谱，包括：

6.根据权利要求5所述的语音合成方法，其特征在于，所述对所述梅尔频谱进行噪声扩散，得到噪声扩散样本，包括：

对所述添加结果进行去噪操作，得到所述噪声扩散样本。

7.根据权利要求1所述的语音合成方法，其特征在于，所述预设扩散模型包括第一预设损失函数和第二预设损失函数；所述将所述梅尔频谱以及所述噪声扩散样本输入到所述预设扩散模型进行训练，得到去噪模型，包括：

8.一种语音合成装置，其特征在于，所述装置包括：

特征转换模块，用于基于预设扩散模型中的声学特征生成器对所述样本音素特征进行特征转换，对转换后的所述样本音素特征进行变量映射，得到隐藏序列；

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音合成方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音合成方法。