CN117809620A - 语音合成方法、装置、电子设备和存储介质 - Google Patents

语音合成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN117809620A
CN117809620A CN202410088183.0A CN202410088183A CN117809620A CN 117809620 A CN117809620 A CN 117809620A CN 202410088183 A CN202410088183 A CN 202410088183A CN 117809620 A CN117809620 A CN 117809620A
Authority
CN
China
Prior art keywords
information
phoneme
sample
duration
voice synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410088183.0A
Other languages
English (en)
Inventor
高强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Youdao Information Technology Beijing Co Ltd
Original Assignee
Netease Youdao Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Youdao Information Technology Beijing Co Ltd filed Critical Netease Youdao Information Technology Beijing Co Ltd
Priority to CN202410088183.0A priority Critical patent/CN117809620A/zh
Publication of CN117809620A publication Critical patent/CN117809620A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明的实施方式提供了一种语音合成方法、装置、电子设备和存储介质。该语音合成方法包括:获取待合成的文本信息;将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。以解决现有技术中,语音合成速度比较慢,效率较低的问题。

Description

语音合成方法、装置、电子设备和存储介质
技术领域
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及语音合成方法、装置、电子设备和存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着语音合成技术的发展和应用的普及,语音合成业务正越来越多的被用户接受和使用。
现有技术中,在进行语音合成时,往往基于于前一刻的生成结果作为后续输入的自回归方式。但是这种方式语音合成速度比较慢,效率较低。
发明内容
本申请提供了一种语音合成方法、装置、电子设备和存储介质,用以解决现有技术中,语音合成速度比较慢,效率较低的问题。
在本上下文中,本发明的实施方式期望提供一种语音合成方法、装置、电子设备和存储介质。
在本发明实施方式的第一方面中,提供了一种语音合成方法,包括:
获取待合成的文本信息;
将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
可选的,所述将所述音素与所述持续时长对齐,得到对齐音素信息,包括:
按照所述音素的持续时长,对所述音素进行扩帧,得到每个音素的扩帧信息;
确定所有音素的所述扩帧信息为所述对齐音素信息。
可选的,所述按照所述音素的持续时长,对所述音素进行扩帧,得到每个音素的扩帧信息,包括:
按照所述持续时长,对所述音素进行复制,得到所述扩帧信息。
可选的,预先训练的语音合成模型的过程,包括:
获取多个训练样本,各所述训练样本包括文本样本、所述文本样本的梅尔频谱特征、所述文本样本的真实音频;
对每个所述训练样本执行如下训练过程:
将所述训练样本依次输入初始网络模型中;所述初始网络模型包括音素编码器模块、时长预测模块、单元解码器、对齐模块、量化模块和声码器模块;
基于所述音素编码器模块将所述文本样本转换为音素,得到音素样本信息,基于所述对齐模块将所述音素样本信息与所述梅尔频谱特征进行对齐,得到对齐样本信息,以使所述对齐样本信息的时长与所述梅尔频谱特征的时长一致;
利用所述时长预测模块对所述音素样本信息中每个音素的持续时长进行预测,得到预测时长;基于所述对齐样本信息中每个音素的时长与所述预测时长计算第一损失函数;
利用量化模块对所述梅尔频谱特征进行量化编码,得到样本编码,基于所述样本编码和所述对齐样本信息对所述单元解码器进行训练,得到第二损失函数;
确定所述梅尔频谱特征对应的真实编码,基于所述真实编码和所述样本编码计算得到第三损失函数;
将所述真实编码输入所述声码器模块,以对所述真实编码进行还原得到还原音频;基于所述还原音频和所述真实音频进行对抗训练,得到第四损失函数;
基于最终损失对所述初始网络模型中的时长预测模块、单元解码器、对齐模块、量化模块和声码器模块进行调参,所述最终损失包括所述第一损失函数、第二损失函数、第三损失函数和所述第四损失函数;
重复执行所述训练过程,直至所述最终损失满足预设条件时,确定所述初始网络模型为所述语音合成模型。
可选的,所述样本编码中每一帧包括至少一个子编码,所述基于所述样本编码和所述对齐样本信息对所述单元解码器进行训练,得到第二损失函数,包括:
将所述对齐样本信息输入所述单元解码器,得到第一输出结果;
将所述第一输出结果输入至线性层进行分类,得到第一分类结果;
计算所述第一分类结果与当前帧的第一个子编码的第一交叉熵损失;
在所述子编码有M个的情况下,从第二个子编码开始,第N个子编码按照如下方式进行解码训练,其中,M为大于1的正整数,N为2到M中的任一值:
将所述所述对齐样本信息与第N-1个子编码的编码特征信息的和值输入所述单元解码器,得到第N输出结果;
将所述第N输出结果输入至线性层进行分类,得到第N分类结果;
计算所述第N分类结果与当前帧的第N个子编码的第N交叉熵损失;
重复执行上述解码训练过程,直至所述样本编码中的所有帧中的子编码均被计算完成;
确定所述第一交叉熵损失至第M交叉熵损失为所述第二损失函数。
可选的,确定所述梅尔频谱特征对应的真实编码,包括:
计算所述梅尔频谱特征与预设编码的编码特征之间的相似度;
确定所述相似度最大的编码特征对应的预设编码为所述真实编码。
可选的,所述初始网络模型还包括梅尔频谱编码器,所述文本样本的梅尔频谱特征是通过获取所述文本样本的梅尔频谱后,将所述梅尔频谱输入梅尔频谱编码器后,得到所述梅尔频谱特征。
在本发明实施方式的第二方面中,提供了一种语音合成装置,包括:
获取模块,用于获取待合成的文本信息;
合成模块,用于将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
在本发明实施方式的第三方面中,提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的语音合成方法。
在本发明实施方式的第四方面中,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的语音合成方法。
根据本发明实施方式的语音合成方法、装置、电子设备和存储介质,可以通过获取待合成的文本信息;将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。如此,通过预先训练的语音合成模型对待合成的文本信息进行语音合成,在语音合成模型中,通过生成量化编码并对量化编码直接进行语音还原,避免了自回归的合成方式,能够提高语音合成效率。并且,通过将音频量化过程与语音合成过程同时训练,能够将两个过程同时优化,使得语音合成模型合成的结果更加准确。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的语音合成方法的应用场景图;
图2示意性地示出了根据本发明一实施例的语音合成方法的流程图;
图3示意性地示出了根据本发明一实施例的初始网络模型的结构示意图;
图4示意性地示出了根据本发明一实施例的语音合成模型的结构示意图;
图5示意性地示出了根据本发明一实施例的语音合成装置的结构图;
图6示意性地示出了根据本发明一实施例的电子设备的结构图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
应用场景总览
根据本申请一实施例提供了一种语音合成方法。可选地,在本申请实施例中,上述语音合成方法可以应用于如图1所示的由终端101和服务器102所构成的硬件环境中。如图1所示,服务器102通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如视频服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器102提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑、电子辞典或个人数字助理机等。
本申请实施例的语音合成方法可以由服务器102来执行,也可以由终端101来执行,还可以是由服务器102和终端101共同执行。其中,终端101执行本申请实施例的语音合成方法,也可以是由安装在其上的客户端来执行。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于语音合成方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
本申请一实施例中提供了一种语音合成方法,该方法可以应用于任意一种形式的电子设备中,如终端和服务器中。如图2所示,该语音合成方法,包括:
步骤201、获取待合成的文本信息。
一些实施例中,待合成的文本信息可以是中文和/或英文。
待合成的文本信息的获取的方式可以但不限于包括:人工编写、用户输入,以及基于业务提取,也可以根据具体的应用场景确定。
步骤202、将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
一些实施例中,在语音合成模型的音频量化过程中可以配置音素编码器模块、时长预测模块、对齐模块以及量化模块,并对上述模块进行训练,从而实现输入的文本信息处理得到量化编码。
其中,可以通过音素编码器模块将文本信息转换为初始音素信息。在待合成的文本信息为中文的情况下,可以先将文本信息转换为汉语拼音,得到初始音素信息;在本文信息为英文的情况下,可以直接将其作为初始音素信息。
通过时长预测模块,对每个音素的持续时长进行预测,并通过对齐模块将每个音素与其对应的持续时长进行对齐,从而得到对齐音素信息。
在一个可选实施例中,将所述音素与所述持续时长对齐,得到对齐音素信息,包括:
按照所述音素的持续时长,对所述音素进行扩帧,得到每个音素的扩帧信息;确定所有音素的所述扩帧信息为所述对齐音素信息。
一些实施例中,可以先确定各音素之间的分界,确定每个音素的当前的时长,在基于预测得到的持续时长,将音素扩帧,使得扩帧后的音素能够保持在预测的持续时长内,从而得到对齐音素信息。
进一步的,所述按照所述音素的持续时长,对所述音素进行扩帧,得到每个音素的扩帧信息,包括:
按照所述持续时长,对所述音素进行复制,得到所述扩帧信息。
示例性的,初始音素信息中包括a、b、c三个音素,经过对齐后他们的持续时长是3,4,5,那么扩帧就是将三个音素按照时长进行重复,得到对齐音素信息为a a a b b b b cc c c c。
在得到对齐音素信息后,通过量化模块对对齐音素信息进行音频量化,得到量化编码。
其中,音频在进行网络传输的时候由于音频比较大,对带宽要求高,因此需要进行压缩,音频量化能够尽可能在不损失信息的前提下将音频压缩成更小的表示,即量化编码(code),方便网络传输,传输完成后,再通过解码器将音频表示(code)还原回音频。
在语音合成过程中,将量化编码还原成音频信息,从而,得到文本信息对应的音频信息。
相关技术中,往往先训练一个音频量化的模型,再用这个模型生产数据,然后进行音频大模型的训练(往往是自回归算法)。本发明就是将音频量化和TTS训练进行了结合,实现了端到端建模,同时在非自回归的机制下实现的这一操作,所以模型的训练和推理的效率更高。
在一个可选实施例中,预先训练的语音合成模型的过程,包括:
获取多个训练样本,各所述训练样本包括文本样本、所述文本样本的梅尔频谱特征、所述文本样本的真实音频;
对每个所述训练样本执行如下训练过程:
将所述训练样本依次输入初始网络模型中;所述初始网络模型包括音素编码器模块、时长预测模块、单元解码器、对齐模块、量化模块和声码器模块;
基于所述音素编码器模块将所述文本样本转换为音素,得到音素样本信息,基于所述对齐模块将所述音素样本信息与所述梅尔频谱特征进行对齐,得到对齐样本信息,以使所述对齐样本信息的时长与所述梅尔频谱特征的时长一致;
利用所述时长预测模块对所述音素样本信息中每个音素的持续时长进行预测,得到预测时长;基于所述对齐样本信息中每个音素的时长与所述预测时长计算第一损失函数;
利用量化模块对所述梅尔频谱特征进行量化编码,得到样本编码,基于所述样本编码和所述对齐样本信息对所述单元解码器进行训练,得到第二损失函数;
确定所述梅尔频谱特征对应的真实编码,基于所述真实编码和所述样本编码计算得到第三损失函数;
将所述真实编码输入所述声码器模块,以对所述真实编码进行还原得到还原音频;基于所述还原音频和所述真实音频进行对抗训练,得到第四损失函数;
基于最终损失对所述初始网络模型中的时长预测模块、单元解码器、对齐模块、量化模块和声码器模块进行调参,所述最终损失包括所述第一损失函数、第二损失函数、第三损失函数和所述第四损失函数;
重复执行所述训练过程,直至所述最终损失满足预设条件时,确定所述初始网络模型为所述语音合成模型。
一些实施例中,参见图3,图3示出了初始网络模型的结构图。其中,初始网络模型包括音素编码器模块、时长预测模块、单元解码器、对齐模块、量化模块和声码器模块。
在得到训练样本后,将文本样本转成音素,输入到音素编码器模型中,梅尔频谱特征输入到梅尔频谱编码器中。音素编码器和梅尔频谱编码器的输出,输入到对齐模块进行对齐和扩帧。音素编码器的输出输入到时间预测模块进行学习预测计算每一个音素的持续时间,其学习目标就是对齐和上采样模块中对齐出来的每一个音素的持续时间。
梅尔频谱编码器的输出输入到量化模块进行音频量化,会得到量化后的码(code),每一帧的code有X个,其中,X的数量可以基于实际情况进行设置,例如可以是1、2、4、6、8、12等,以code中包括4个为例,比如输入梅尔频谱特征的维度是(batch,feature,time),量化后变成了(batch,time,4)。
进而,量化后的码(code)输入到单元解码器模块中还原为音频,还原后的音频和真实音频一起输入到判别器中进行对抗训练。
对齐模块中上采样完成后的输出输入到参数共享的单元解码器中用来学习预测音频量化后的码(code)。每一帧的4个code共用同一个单元解码器进行预测,因此进行了参数共享。
在一个可选实施例中,确定所述梅尔频谱特征对应的真实编码,包括:
计算所述梅尔频谱特征与预设编码的编码特征之间的相似度;
确定所述相似度最大的编码特征对应的预设编码为所述真实编码。
一些实施例中,通过计算梅尔频谱特征与预设编码的编码特征间的相似度,能够从多个预设编码中,确定梅尔频谱特征对应的真实编码。可以理解的是,上述梅尔频谱特征对应的真实编码也可以是在用户计算后直接得到的。
在一个可选实施例中,所述初始网络模型还包括梅尔频谱编码器,所述文本样本的梅尔频谱特征是通过获取所述文本样本的梅尔频谱后,将所述梅尔频谱输入梅尔频谱编码器后,得到所述梅尔频谱特征。
一些实施例中,通过设置梅尔频谱编码器,能够将利用该梅尔频谱编码器直接获取得到梅尔频谱的梅尔频谱特征,进而,基于该梅尔频谱特征进行时长预测。
在一个可选实施例中,所述样本编码中每一帧包括至少一个子编码,所述基于所述样本编码和所述对齐样本信息对所述单元解码器进行训练,得到第二损失函数,包括:
将所述对齐样本信息输入所述单元解码器,得到第一输出结果;
将所述第一输出结果输入至线性层进行分类,得到第一分类结果;
计算所述第一分类结果与当前帧的第一个子编码的第一交叉熵损失;
在所述子编码有M个的情况下,从第二个子编码开始,第N个子编码按照如下方式进行解码训练,其中,M为大于1的正整数,N为2到M中的任一值:
将所述所述对齐样本信息与第N-1个子编码的编码特征信息的和值输入所述单元解码器,得到第N输出结果;
将所述第N输出结果输入至线性层进行分类,得到第N分类结果;
计算所述第N分类结果与当前帧的第N个子编码的第N交叉熵损失;
重复执行上述解码训练过程,直至所述样本编码中的所有帧中的子编码均被计算完成;
确定所述第一交叉熵损失至第M交叉熵损失为所述第二损失函数。
一些实施例中,以每帧的子编码的数量为4个为例,进行具体说明。将上述实施例中的对齐样本信息输入到单元解码器,单元解码器的输出输入到一个线性层映射到分类,并和学习目标的当前帧的第一个code计算交叉上损失。
对齐样本信息再加上当前帧第一个子编码code的编码特征信息(embedding特征)再输入到单元解码器,单元解码器输出输入到一个线性层映射到分类,并和学习目标的当前帧的第二个code计算交叉上损失。
对齐样本信息加上当前帧第二个code的embedding特征再输入到单元解码器,单元解码器输出输入到一个线性层映射到分类,并和学习目标的当前帧的第三个code计算交叉上损失。
对齐样本信息加上当前帧第三个code的embedding特征再输入到单元解码器,单元解码器输出输入到一个线性层映射到分类,并和学习目标的当前帧的第四个code计算交叉上损失。
通过上述方式,将每一帧的code均通过单元解码器进行训练,从而使得单元解码器,训练完成后能够实现音频量化,得到相应的量化编码。
其他数量的code的操作方式与上述类似,此处不再赘述。
在一个具体实施例中,参见图4,训练完成的语音合成模型,包括:音素编码器模块、时长预测模块、单元解码器、对齐模块和声码器模块;
在进行语音合成时,将待合成的文本转成音素,输入到音素编码器模块中,音素编码器模块的输出输入到时长预测模块进行计算每一个音素的持续时间。音素编码器模块和时长预测模块的输出,共同输入到对齐和上采样模块,基于时长预测模块预测到音素时长对音素编码器的输出进行上采样实现时间维度的变换。在对齐模块中上采样完成后的输出输入到参数共享的单元解码器中用来预测音频量化后的码(code),将量化后的码(code)输入到离散单元声码器模块中还原为音频,从而实现语音合成。基于本申请的语音合成方法,实现了在端到端架构下将音频量化任务和语音合成任务进行了结合,一次性同时优化两个任务,从而使得语音合成的结果更加准确。另外,以往基于code作为中间特征的语音合成算法均是自回归算法,本发明基于非自回归算法,对音频量化过程进行训练,实现了以code作为中间特征的语音合成。
示例性装置
基于同一构思,本申请实施例中提供了一种语音合成装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图5所示,该装置主要包括:
获取模块501,用于获取待合成的文本信息;
合成模块502,用于将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
示例性设备
基于同一构思,本申请实施例中还提供了一种电子设备,如图6所示,该电子设备主要包括:处理器601和存储器602。其中,存储器602中存储有可被处理器601执行的程序,处理器601执行存储器602中存储的程序,实现如下步骤:
获取待合成的文本信息;
将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
存储器602可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器601的存储装置。
上述的处理器601可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述电子设备中的处理器601和存储器602可以通过通信总线连接。通信总线603可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请实施例提供的电子设备,具体可以为能够实现通信功能的模组或包含该模组的终端设备等,该终端设备可以为移动终端或智能终端。移动终端具体可以为手机、平板电脑、笔记本电脑等中的至少一种;智能终端具体可以是智能汽车、智能手表、共享单车、智能柜等含有无线通信模组的终端;模组具体可以为无线通信模组,例如2G通信模组、3G通信模组、4G通信模组、5G通信模组、NB-IOT通信模组等中的任意一种。
示例性存储介质
基于同一构思,在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的语音合成方法。
应当注意,尽管在上文详细描述中提及了语音合成装置的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。

Claims (10)

1.一种语音合成方法,其特征在于,包括:
获取待合成的文本信息;
将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
2.根据权利要求1所述的语音合成方法,其特征在于,所述将所述音素与所述持续时长对齐,得到对齐音素信息,包括:
按照所述音素的持续时长,对所述音素进行扩帧,得到每个音素的扩帧信息;
确定所有音素的所述扩帧信息为所述对齐音素信息。
3.根据权利要求2所述的语音合成方法,其特征在于,所述按照所述音素的持续时长,对所述音素进行扩帧,得到每个音素的扩帧信息,包括:
按照所述持续时长,对所述音素进行复制,得到所述扩帧信息。
4.根据权利要求1所述的语音合成方法,其特征在于,预先训练的语音合成模型的过程,包括:
获取多个训练样本,各所述训练样本包括文本样本、所述文本样本的梅尔频谱特征、所述文本样本的真实音频;
对每个所述训练样本执行如下训练过程:
将所述训练样本依次输入初始网络模型中;所述初始网络模型包括音素编码器模块、时长预测模块、单元解码器、对齐模块、量化模块和声码器模块;
基于所述音素编码器模块将所述文本样本转换为音素,得到音素样本信息,基于所述对齐模块将所述音素样本信息与所述梅尔频谱特征进行对齐,得到对齐样本信息,以使所述对齐样本信息的时长与所述梅尔频谱特征的时长一致;
利用所述时长预测模块对所述音素样本信息中每个音素的持续时长进行预测,得到预测时长;基于所述对齐样本信息中每个音素的时长与所述预测时长计算第一损失函数;
利用量化模块对所述梅尔频谱特征进行量化编码,得到样本编码,基于所述样本编码和所述对齐样本信息对所述单元解码器进行训练,得到第二损失函数;
确定所述梅尔频谱特征对应的真实编码,基于所述真实编码和所述样本编码计算得到第三损失函数;
将所述真实编码输入所述声码器模块,以对所述真实编码进行还原得到还原音频;基于所述还原音频和所述真实音频进行对抗训练,得到第四损失函数;
基于最终损失对所述初始网络模型中的时长预测模块、单元解码器、对齐模块、量化模块和声码器模块进行调参,所述最终损失包括所述第一损失函数、第二损失函数、第三损失函数和所述第四损失函数;
重复执行所述训练过程,直至所述最终损失满足预设条件时,确定所述初始网络模型为所述语音合成模型。
5.根据权利要求4所述的语音合成方法,其特征在于,所述样本编码中每一帧包括至少一个子编码,所述基于所述样本编码和所述对齐样本信息对所述单元解码器进行训练,得到第二损失函数,包括:
将所述对齐样本信息输入所述单元解码器,得到第一输出结果;
将所述第一输出结果输入至线性层进行分类,得到第一分类结果;
计算所述第一分类结果与当前帧的第一个子编码的第一交叉熵损失;
在所述子编码有M个的情况下,从第二个子编码开始,第N个子编码按照如下方式进行解码训练,其中,M为大于1的正整数,N为2到M中的任一值:
将所述所述对齐样本信息与第N-1个子编码的编码特征信息的和值输入所述单元解码器,得到第N输出结果;
将所述第N输出结果输入至线性层进行分类,得到第N分类结果;
计算所述第N分类结果与当前帧的第N个子编码的第N交叉熵损失;
重复执行上述解码训练过程,直至所述样本编码中的所有帧中的子编码均被计算完成;
确定所述第一交叉熵损失至第M交叉熵损失为所述第二损失函数。
6.根据权利要求4所述的语音合成方法,其特征在于,确定所述梅尔频谱特征对应的真实编码,包括:
计算所述梅尔频谱特征与预设编码的编码特征之间的相似度;
确定所述相似度最大的编码特征对应的预设编码为所述真实编码。
7.根据权利要求4所述的语音合成方法,其特征在于,所述初始网络模型还包括梅尔频谱编码器,所述文本样本的梅尔频谱特征是通过获取所述文本样本的梅尔频谱后,将所述梅尔频谱输入梅尔频谱编码器后,得到所述梅尔频谱特征。
8.一种语音合成装置,其特征在于,包括:
获取模块,用于获取待合成的文本信息;
合成模块,用于将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1-7任一项所述的语音合成方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的语音合成方法。
CN202410088183.0A 2024-01-22 2024-01-22 语音合成方法、装置、电子设备和存储介质 Pending CN117809620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410088183.0A CN117809620A (zh) 2024-01-22 2024-01-22 语音合成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410088183.0A CN117809620A (zh) 2024-01-22 2024-01-22 语音合成方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN117809620A true CN117809620A (zh) 2024-04-02

Family

ID=90427516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410088183.0A Pending CN117809620A (zh) 2024-01-22 2024-01-22 语音合成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN117809620A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116363A (zh) * 2024-04-26 2024-05-31 厦门蝉羽网络科技有限公司 基于时间感知位置编码的语音合成方法及其模型训练方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116363A (zh) * 2024-04-26 2024-05-31 厦门蝉羽网络科技有限公司 基于时间感知位置编码的语音合成方法及其模型训练方法

Similar Documents

Publication Publication Date Title
KR102135865B1 (ko) 종단 간 텍스트 대 스피치 변환
CN112786006B (zh) 语音合成方法、合成模型训练方法、装置、介质及设备
CN111583900B (zh) 歌曲合成方法、装置、可读介质及电子设备
US11355097B2 (en) Sample-efficient adaptive text-to-speech
CN112183120A (zh) 语音翻译方法、装置、设备和存储介质
CN111368559A (zh) 语音翻译方法、装置、电子设备及存储介质
CN112786011A (zh) 语音合成方法、合成模型训练方法、装置、介质及设备
CN117809620A (zh) 语音合成方法、装置、电子设备和存储介质
WO2021127817A1 (zh) 一种多语言文本合成语音方法、装置、设备及存储介质
CN111292719A (zh) 语音合成方法、装置、计算机可读介质及电子设备
CN113781995B (zh) 语音合成方法、装置、电子设备及可读存储介质
CN111383628B (zh) 一种声学模型的训练方法、装置、电子设备及存储介质
CN111241853B (zh) 一种会话翻译方法、装置、存储介质及终端设备
CN113327580A (zh) 语音合成方法、装置、可读介质及电子设备
US20230122659A1 (en) Artificial intelligence-based audio signal generation method and apparatus, device, and storage medium
CN112365878A (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN114678032B (zh) 一种训练方法、语音转换方法及装置和电子设备
CN114495977A (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN115798455B (zh) 语音合成方法、系统、电子设备及存储介质
CN116863912A (zh) 语音合成方法、装置、设备及介质
CN111653261A (zh) 语音合成方法、装置、可读存储介质及电子设备
CN114613351A (zh) 韵律预测方法、装置、可读介质及电子设备
CN113947060A (zh) 文本转换方法、装置、介质及电子设备
CN113450765B (zh) 语音合成方法、装置、设备及存储介质
CN118098222B (zh) 语音关系提取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination