CN118430508B - 基于神经音频编解码器的语音合成方法 - Google Patents

基于神经音频编解码器的语音合成方法 Download PDF

Info

Publication number
CN118430508B
CN118430508B CN202410677482.8A CN202410677482A CN118430508B CN 118430508 B CN118430508 B CN 118430508B CN 202410677482 A CN202410677482 A CN 202410677482A CN 118430508 B CN118430508 B CN 118430508B
Authority
CN
China
Prior art keywords
voice
training
basic
model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410677482.8A
Other languages
English (en)
Other versions
CN118430508A (zh
Inventor
邹亮
闫祖龙
雷萌
凌辉轩
宁琪玥
周星翰
许世凡
赵荣焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202410677482.8A priority Critical patent/CN118430508B/zh
Publication of CN118430508A publication Critical patent/CN118430508A/zh
Application granted granted Critical
Publication of CN118430508B publication Critical patent/CN118430508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于神经音频编解码器的语音合成方法。其包括:将参考语音、待合成文本加载到预先构建的语音合成模型Zero‑TTS,语音预测编码器接收待合成文本,并对待合成文本进行语音预测,以在语音预测后生成文本‑语音预测编码,神经音频编解码器接收参考语音,在神经音频编解码器内,将文本‑语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。本发明能提高对目标说话人的语音合成质量,大大降低对目标说话人的数据以及模型微调的需求,实现了高效率、高质量、高保真地生成目标语音。

Description

基于神经音频编解码器的语音合成方法
技术领域
本发明涉及一种语音合成方法,尤其是一种基于神经音频编解码器的语音合成方法。
背景技术
随着人工智能的发展,人们对智能化生活的需求更加迫切。目前,语音合成技术,在视听障碍人群的辅助交流、人工智能艺术创作、智能设备人机交互等领域发挥了重要作用,促进了产业智能化发展,提高了人民生活水平。
传统的语音合成方法,依赖于统计参数合成与音频拼接,合成出的语音音质低、不真实。深度学习合成模型可以生成高质量语音,但深度学习合成模型需要进行训练,在训练时,需要利用大量相应说话人的语音数据和文本数据,对于新的说话人,则需要过程复杂、繁琐的微调以及新的数据资源。由此,低质量的语音合成,已经无法满足人们的需求;而复杂的深度学习模型,会增加用户的使用成本,不同语音合成方法的局限性,限制了语音合成技术的推广与应用,阻碍了人工智能产业的发展进程。
现有基于深度学习的多说话人语音合成方法,利用声学模型对不同说话人的声学特征建模,不能自适应获取说话人信息,导致模型对于不同说话人泛化能力不足。基于大模型的多说话人自适应合成方法,则受限于模型过大的参数量,难以部署到更广泛的算力平台。
公开号CN117649839A的申请文件,记载了一种基于低秩适应的个性化语音合成方法,该申请通过一种基于变分推断的低秩的语音合成网络,得到更加轻量的、保真率更高的语音合成模型,能够提高语音合成的速度和合成音质。但是该申请仅仅对训练过的说话人拥有较好的建模能力,当未知的说话人输入到网络中,该发明就失去了作用。
公开号CN117496944A的申请文件,记载了一种多情感多说话人语音合成方法,该申请通过文本特征提取模块获取文本特征,通过情感编码模块提取情感特征,将情感特征与文本特征结合生成具有特定情感的语音。但是该申请仅仅对于给定的说话人音色建模并转换情感。当所需情感类别或者说话人超出训练集范围,该模型无法有效合成。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于神经音频编解码器的语音合成方法,其能提高对目标说话人的语音合成质量,大大降低对目标说话人的数据以及模型微调的需求,实现了高效率、高质量、高保真地生成目标语音。
按照本发明提供的技术方案,一种基于神经音频编解码器的语音合成方法,所述语音合成方法包括:
提供待合成文本以及目标说话人的参考语音,并将所述参考语音、待合成文本加载到预先构建的语音合成模型Zero-TTS,其中,
所述语音合成模型Zero-TTS包括神经音频编解码器、语音特征解耦模块以及语音预测编码器,其中,语音预测编码器、语音特征解耦模块与神经音频编解码器适配连接;
语音预测编码器接收待合成文本,并对待合成文本进行语音预测,以在语音预测后生成文本-语音预测编码,且将所生成的文本-语音预测编码加载至神经音频编解码器;
神经音频编解码器接收参考语音,并对所接收的参考语音依次进行语音编码以及编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码,并将所生成的参考语音连续残差量化编码加载至语音特征解耦模块;
对接收的参考语音连续残差量化编码,语音特征解耦模块提取得到目标说话人的说话人特征编码,并将所提取目标说话人的说话人特征编码加载至神经音频编解码器;
在神经音频编解码器内,将文本-语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,
对参考语音,神经音频编码器对所述参考语音进行语音编码,以在语音编码后生成参考语音编码信息;
连续残差向量量化器对参考语音编码信息进行编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码;
神经音频解码器将语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
所述语音特征解耦模块至少包括说话人特征编码器,其中,
对参考语音连续残差量化编码,说话人特征编码器提取得到目标说话人的说话人特征编码,并将所述目标说话人的说话人特征编码加载到神经音频解码器。
语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流,其中,
文本语义编码器对待合成文本编码,以在编码后生成文本语义编码;
随机时长预测器基于随机采样生成所述待合成文本的时长信息;
基于待合成文本的文本语义编码以及待合成文本的时长信息,通过正则化流生成文本-语音预测编码。
构建语音合成模型Zero-TTS时,构建方法包括:
构建语音合成基础模型以及用于对语音合成基础模型进行模型训练的基础模型训练数据集,其中,
语音合成基础模型,包括神经音频编解码基础单元、语音特征解耦基础单元以及语音预测编码基础单元,其中,语音预测基础单元、语音特征解耦基础单元均与神经音频编解码基础单元适配连接;
所述基础模型训练数据集包括若干基础模型训练样本,对每个基础模型训练样本包括训练提示音以及与所述训练提示音对应的训练提示文本;
对上述的基础模型训练数据集进行划分,以至少划分生成训练样本集A以及训练验证集B,其中,训练样本集A的训练提示音所出自的说话人与训练验证集B的训练提示音所出自的说话人相一致,且训练样本集A内训练样本与训练验证集B内训练样本完全不同;
利用训练样本集A对语音合成基础模型进行一轮模型训练后,利用训练验证集B计算语音合成基础模型在当前轮模型训练后的模型损失;
利用训练样本集A对语音合成基础模型进行目标轮次的模型训练后,在所有计算的模型损失中确定模型损失优选值;
基于所确定的模型损失优选值选定对应的语音合成基础模型,并将所选定的语音合成基础模型配置为语音合成模型Zero-TTS。
神经音频编解码基础单元包括神经音频基础编码器、连续残差向量量化基础单元以及神经音频基础解码器;
利用基础模型训练数据集对语音合成基础模型进行模型训练前,将预训练生成的编码器预训练权重加载到神经音频基础编码器;
对每个基础模型训练样本中的训练提示音,神经音频基础编码器对训练提示音进行语音编码,以在语音编码后生成训练语音编码信息;
连续残差向量量化基础单元将训练语音编码信息进行编码连续量化,以在编码连续量化后生成训练语音连续向量编码;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于选定语音合成基础模型内的神经音频编解码基础单元,形成语音合成模型Zero-TTS内的神经音频编解码器。
语音特征解耦基础单元包括语音语义编码器、说话人特征基础编码器和对数梅尔频谱解码器,其中,
对训练语音连续向量编码,利用语音语义编码器进行语音语义提取,以生成样本语音语义编码,并利用说话人特征基础编码器提取得到训练提示音的说话人特征编码;
在模型训练时,将样本语音语义编码与由语音预测基础单元生成的样本文本语义编码进行对比提纯,以得到语音语义对比提纯编码;
将语音语义对比提纯编码、训练提示音的说话人特征编码加载到对数梅尔频谱解码器,以由所述对数梅尔频谱解码器生成训练样本解耦对数梅尔频谱;
最大化合成对数梅尔频谱的似然,最小化文本语义和语音语义距离,基于编解码器的编码-解码结构构建的信息频率的提纯说话人特征;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于语音特征解耦基础单元形成语音特征解耦模块,其中,
基于说话人特征基础编码器形成语音特征解耦模块内的说话人特征编码器。
对于语音预测基础单元,包括基础文本语义编码器、基础随机时长预测器以及基础正则化流,其中,
对训练样本集A内的任一训练样本,基础文本语音编码器对训练提示文本进行编码,以在编码后生成训练文本语义编码,并将生成的训练文本语义编码加载到语音特征解耦基础单元;
基于训练文本语义编码,基础随机时长预测器预测训练提示文本的时长对齐信息的分布,
在模型训练时,对由连续残差向量量化基础单元生成的提示语音连续向量编码,经基础正则化流计算得到隐变量;
采用单调对齐搜索方法确定隐变量与当前训练提示文本的对齐矩阵;
基础随机时长预测器预测所述对齐矩阵的分布,并基于对齐矩阵分布的最大似然估计的最小化,以优化所述基础随机时长预测器;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于语音预测基础单元形成语音合成模型Zero-TTS内的语音预测编码器。
在计算模型损失时,包括:
其中,Lbackbone为主干网络的损失,LC-RVQ为主干网络的编码对比损失,Lrecon为主干网络的语音对比损失,Ladv为主干网络的语音判别损失,Ldis为语音特征解耦基础单元的训练损失,Lmel为对数梅尔频谱解码器的频谱对比损失,Lsem为语义对比损失。
构建基础模型训练数据集时,包括:
提供模型训练基础数据集,其中,所述模型训练基础数据集包括若干基础样本,对任一基础样本包括基础提示音以及与所述基础提示音对应的基础文本;
对每个基础样本进行标准化处理,以在标准化处理后生成训练样本,其中,
对基础样本内的基础提示音进行标准化处理时,包括依次进行的降采样以及响度归一化;
对基础样本内的基础文本进行标准化处理时,包括在基本文本中的所有符号后添加一个空格,和/或,将每个句子的第一个字母大写;
当对基础样本进行标准化处理生成训练样本时,在语音合成前,对待合成文本、参考语音进行相同的标准化处理。
本发明的优点:对待合成文本,利用语音预测编码器进行语音预测并生成文本-语音预测编码;对参考语音,利用神经音频编解码器生成参考语音连续残差量化编码,利用语音特征解耦模块提取得到目标说话人的说话人特征编码,在神经音频编解码器内,将文本-语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音;
生成目标语音时,可大大降低了对参考语音以及语音合成模型Zero-TTS微调的需求,实现了高效率、高质量、高保真地生成目标语音,可以帮助视听障人群交流,提升人工智能应用与人机交互水平。
附图说明
图1为本发明训练生成语音合成模型Zero-TTS以及利用语音合成模型Zero-TTS进行语音合成的一种实施例示意图。
图2为本发明神经音频编解码器的一种实施例示意图。
图3为本发明语音特征解耦模块与神经音频编解码器在模型训练时的一种实施例示意图。
图4为本发明语音特征解耦基础单元在训练阶段的优化效果示意图。
图5为本发明语音合成模型Zero-TTS在不同数据集上的解耦效果的示意图。
图6为本发明神经音频编码器的一种实施例示意图。
图7为图6中残差单元的一种实施例示意图。
图8为本发明连续残差向量量化器的一种实施例工作示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
为了能提高对目标说话人的语音合成质量,大大降低对目标说话人的数据以及模型微调的需求,对基于神经音频编解码器的语音合成方法,本发明的一种实施例中,所述语音合成方法包括:
提供待合成文本以及目标说话人的参考语音,并将所述参考语音、待合成文本加载到预先构建的语音合成模型Zero-TTS,其中,
所述语音合成模型Zero-TTS包括神经音频编解码器、语音特征解耦模块以及语音预测编码器,其中,语音预测编码器、语音特征解耦模块与神经音频编解码器适配连接;
语音预测编码器接收待合成文本,并对待合成文本进行语音预测,以在语音预测后生成文本-语音预测编码,且将所生成的文本-语音预测编码加载至神经音频编解码器;
神经音频编解码器接收参考语音,并对所接收的参考语音依次进行语音编码以及编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码,并将所生成的参考语音连续残差量化编码加载至语音特征解耦模块;
对接收的参考语音连续残差量化编码,语音特征解耦模块提取得到目标说话人的说话人特征编码,并将所提取目标说话人的说话人特征编码加载至神经音频编解码器;
在神经音频编解码器内,将文本-语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
需要说明的是,在进行语音合成时,一般需要提供待合成文本以及目标说话人的参考语音,目标说话人的参考语音,即为目标说话人说的一段话并作为语音合成的参考,待合成文本即为文字表述的内容,其中,将待合成文本与参考语音合成,即待合成文本以参考语音作为基准的方式语音输出,因此,本发明语音合成的目的与现有技术相一致。
为了能实现语音高质量的合成,本发明需要预先构建语音合成模型Zero-TTS,图1中示出了利用预先构建的语音合成模型Zero-TTS进行语音合成的一种实施例,图中,语音合成模型Zero-TTS包括语音预测编码器、语音特征解耦模块以及神经音频编解码器,语音预测编码器、语音特征解耦模块与神经音频编解码器适配连接,其中,待合成文本加载到语音预测编码器,参考语音加载到神经音频编解码器(neural speech codec)。
语音合成时,语音预测编码器对待合成文本进行语音预测,其中,语音预测即为根据待合成文本的内容预测与所述待合成文本对应的语音,在语音预测后可生成文本-语音预测编码,为了能进行语音合成,需要将文本-语音预测编码加载到神经音频编解码器内。
同时,神经音频编解码器对参考语音依次进行语音编码以及编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码。为了能获得目标说话人的说话人特征编码,需要将生成的参考语音连续残差量化编码加载到语音特征解耦模块内。语音特征解耦模块可对参考语音连续残差量化编码进行特征提取,以能得到目标说话人的说话人特征编码,并将所提取目标说话人的说话人特征编码加载至神经音频编解码器内。需要说明的是,参考语音连续残差量化编码一般可包括说话人特征编码以及参考语音编码,由此可知,目标说话人的说话人特征编码,即为除参考语音编码外的特征编码。
在神经音频编解码器内,将文本-语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后可生成与目标说话人适配的目标语音。目标语音与目标说话人适配,具体是指目标语音与目标说话人的说话方式相一致,如说话的音色、说话方式(韵律、抑扬顿挫等特征)相一致,此时即实现了将待合成文本以及参考语音的语音合成。
本发明的一种实施例中,所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,
对参考语音,神经音频编码器对所述参考语音进行语音编码,以在语音编码后生成参考语音编码信息;
连续残差向量量化器对参考语音编码信息进行编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码;
神经音频解码器将语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
图1中示出了神经音频编解码器的一种实施例,图中,神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,图1中,在神经音频编码器与神经音频解码器之间多个方格区域即为连续残差向量量化器,图2和图3中示出了连续残差向量量化器的一种实施例,由图2和图3可知,连续残差向量量化器可包括残差向量量化器以及编码层,其中,神经音频编码器与残差向量量化器连接,残差向量量化器通过编码层与神经音频解码器适配连接。
语音合成时,利用神经音频编码器对参考语音进行语音编码,以在语音编码后可生成参考语音编码信息。连续残差向量量化器对参考语音编码信息进行编码连续量化,可生成参考语音连续残差量化编码。由上述说明可知,生成的参考语音连续残差量化编码可被语音特征解耦模块进行特征提取,以得到目标说话人的说话人特征编码。对于神经音频解码器,可将将语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
下面对连续残差向量量化器进行编码连续量化的方式以及过程进行具体解释说明;具体地:
连续残差向量量化器利用多个码本分层对编码量化,以残差的方式提取不同颗粒度特征,最终利用可学习的加权向量对不同颗粒度特征求和,得到连续的向量,即称为连续量化编码,其中,通过残差向量量化器可进行编码量化,通过编码层进行加权求和的生成连续向量。一般地,连续残差向量量化器包括N层的量化器,如图2和图3所示,图2和图3中,连续残差向量量化器的宽度为T,宽度T可与音频时长相关,如宽度T可选为语音时长的200倍,具体实施时,可根据语音合成的场景,选择确定宽度T。
图8中示出了连续残差向量量化器工作的一种实施例,图中,Q0~Q11为量化器,RVQ0~RVQ11分别为量化编码,也即示出了连续残差向量量化器为12层量化器的一种实施例,此时N为12;量化器Q0~量化器Q11依次连接。工作时,神经音频编码器输出的参考语音编码信息加载到量化器Q0,经量化器Q0可得到离散向量编码0,其中,离散向量编码0也即为量化编码RVQ0。
将离散向量编码0与参考语音编码信息进行作差,即可得到残差0;此后,残差0经量化器Q1进行量化后可得到离散向量编码1,其中,离散向量编码1即为量化编码RVQ1。将离散向量编码1与残差0作差,即可得到残差1;残差1经量化器Q2量化后可得到离散向量编码2,其他情况的量化过程可参考量化器Q0~量化器Q2的量化说明,也即量化器Q2~量化器Q11间以残差的方式提取不同颗粒度特征的方式以及过程可参考此处量化器Q0~量化器Q1的工作说明。
将离散向量编码0、离散向量编码1~离散向量编码11进行加权求和,即可生成连续残差量化编码,从而,对参考语音,可生成参考语音连续残差量化编码。图3中的编码层即为对离散向量编码0、离散向量编码1~离散向量编码11进行加权求和,以在加权求和后,生成连续残差量化编码,图2和图3中的连续残差量化编码即为经过加权求和后生成连续残差量化编码的结果。
图2和图3中还示出了神经音频编码器、神经音频解码器的一种实施例,图中,神经音频编码器包括4个依次连接的编码块,每个编码块可采用相同的形式,图6中示出了神经音频编码器的一种实施例,图中,神经音频编码器除了具有4个依次连接的编码块外,还包括编码前导部以及编码后导部,图中,利用编码前导部可接收参考语音,利用编码后导部可输出参考语音编码信息,编码前导部通过四个依次连接的编码块与编码后导部连接。
图6中,编码前导部可包括依次连接的前导一维卷积、前导权重归一化、前导Sanke激活函数;编码后导部可包括依次连接的后导Snake激活函数、后导权重归一化以及后导一维卷积。
对于每个编码块,可包括依次连接的编码块第一残差单元、编码块第二残差单元、编码块第三残差单元、编码块Snake激活函数、编码块一维卷积以及编码块权重归一化,图6中编码块×4,即表示神经音频编码器的四个编码块。工作时,每一个编码块接收上一层编码块的输入,并基于上述的结构进行相应的编码处理。
编码块中的编码块第一残差单元、编码块第二残差单元、编码块第三残差单元可采用相同的结构形式,图7中示出了残差单元的一种实施例,图中,残差单元包括残差单元内的Snake激活函数、残差单元内的一维卷积、残差单元内的权重归一化,且加载到残差单元内的Snake激活函数的输入与残差单元内的权重归一化通过残差单元内的乘法器相乘后输出。
对于神经音频解码器,可采用与神经音频编码器相对称的结构分布,从而基于神经音频编码器进行对称即可得到神经音频解码器的形式,将神经音频编码器对称得到神经音频解码器的方式,可与现有相一致,具体以能实现语音重构的目的为准。
由上述说明可知,本发明的神经音频编解码器可形成现有VQGan的网络架构。对神经网络编码器中,每个Snake激活函数可采用相同的形式,如前导Sanke激活函数、后导Snake激活函数、编码块Snake激活函数、残差单元内的Snake激活函数可采用现有常用的形式。对Snake激活函数,一种可行的形式为:
其中,x为输入数据,a为输入信号周期频率,是一个可学习的数值。Snake激活函数可以更好捕捉周期信号的频率信息。
本发明的一种实施例中,所述语音特征解耦模块至少包括说话人特征编码器,其中,
对参考语音连续残差量化编码,说话人特征编码器提取得到目标说话人的说话人特征编码,并将所述目标说话人的说话人特征编码加载到神经音频解码器。
由图1可知,在进行语音合成时,只需要利用语音特征解耦模块提取目标说话人的说话人编码特征,因此,在语音合成时,语音特征解耦模块可仅包括说话人特征编码器,利用说话人特征编码器可提取目标说话人的说话人编码特征,并将目标说话人的说话人特征编码记载到神经音频解码器内。图2和图3中,对语音特征解码模块提取的说话人特征编码,加载到与神经音频解码器连接的加法器上,并进而可被神经音频解码器读取。
本发明的一种实施例中,语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流,其中,
文本语义编码器对待合成文本编码,以在编码后生成文本语义编码;
随机时长预测器基于随机采样生成所述待合成文本的时长信息;
基于待合成文本的文本语义编码以及待合成文本的时长信息,通过正则化流生成文本-语音预测编码。
图1中示出了语音编码预测器的一种实施例,图中,语音预测编码器可至少包括文本语音编码器、随机时长预测器以及正则化流,其中,提供的待合成文本加载到文本语义编码器,由文本语音编码器进行编码,以在编码后生成文本语义编码。
对得到的文本语义编码,利用随时时长预测器进行时长预测,以能得到待合成文本的时长信息。由于随机时长预测器基于随机采样生成时长分布信息,也即引入了随机性,可使得生成的文本-语义预测编码可更接近人类的说话方式。具体地,对随机时长预测器预测的时长信息,服从类高斯分布,通过对标准高斯分布随机采样,映射到预测的时长信息,即得到待合成文本的时长。
基于待合成文本的文本语义编码以及待合成文本的时长分布信息,通过正则化流生成文本-语音预测编码。
对上述的语音合成模型Zero-TTS,可采用下述的构建方法构建得到,本发明的一种实施例中,构建语音合成模型Zero-TTS时,构建方法包括:
构建语音合成基础模型以及用于对语音合成基础模型进行模型训练的基础模型训练数据集,其中,
语音合成基础模型,包括神经音频编解码基础单元、语音特征解耦基础单元以及语音预测编码基础单元,其中,语音预测基础单元、语音特征解耦基础单元均与神经音频编解码基础单元适配连接;
所述基础模型训练数据集包括若干基础模型训练样本,对每个基础模型训练样本包括训练提示音以及与所述训练提示音对应的训练提示文本;
对上述的基础模型训练数据集进行划分,以至少划分生成训练样本集A以及训练验证集B,其中,训练样本集A的训练提示音所出自的说话人与训练验证集B的训练提示音所出自的说话人相一致,且训练样本集A内训练样本与训练验证集B内训练样本完全不同;
利用训练样本集A对语音合成基础模型进行一轮模型训练后,利用训练验证集B计算语音合成基础模型在当前轮模型训练后的模型损失;
利用训练样本集A对语音合成基础模型进行目标轮次的模型训练后,在所有计算的模型损失中确定模型损失优选值;
基于所确定的模型损失优选值选定对应的语音合成基础模型,并将所选定的语音合成基础模型配置为语音合成模型Zero-TTS。
具体实施时,需要先构建语音合成基础模型,通过模型训练后,可由语音合成基础模型生成语音合成模型Zero-TTS。由于语音合成模型Zero-TTS可由语音合成基础模型训练得到,因此,构建语音合成基础模型的架构应与语音合成模型Zero-TTS的架构相一致,从而,语音合成基础模型可包括神经音频编解码基础单元、语音特征解耦基础单元以及语音预测编码基础单元,在模型训练后,可基于神经音频编解码基础单元可形成神经音频编解码器,可基于语音特征解耦基础单元可形成语音特征解耦模块,以及,可基于语音预测编码基础单元形成语音预测编码器。
对于基础模型训练数据集,可包括若干基础模型训练样本,每个基础模型训练样本包括一个训练提示音以及与所述训练提示音对应的训练提示文本,其中,训练提示文本与训练提示音对应,具体是指训练提示文本可由训练提示音得到,两者具有相同的意思表达。
本发明的一种实施例中,构建基础模型训练数据集时,包括:
提供模型训练基础数据集,其中,所述模型训练基础数据集包括若干基础样本,对任一基础样本包括基础提示音以及与所述基础提示音对应的基础文本;
对每个基础样本进行标准化处理,以在标准化处理后生成训练样本,其中,
对基础样本内的基础提示音进行标准化处理时,包括依次进行的降采样以及响度归一化;
对基础样本内的基础文本进行标准化处理时,包括在基本文本中的所有符号后添加一个空格,和/或,将每个句子的第一个字母大写;
当对基础样本进行标准化处理生成训练样本时,在语音合成前,对待合成文本、参考语音进行相同的标准化处理。
具体实施时,模型训练基础数据集可采用现有常用的数据集,如可为LibriTTS数据集、VCTK数据集、Hi-Fi TTS数据集或TED-LIUM语料库中的一个,如可选为LibriTTS数据集作为模型训练基础数据集,LibriTTS数据集是一个包含约585小时英语语音数据的多说话人英语语料库,来自2456位发言人,采样率为24kHz。
此外,需要说明的是,VCTK数据集中包含来自109位具有不同口音的英语母语者的语音样本,每位发言者贡献了大约400段语音数据,采样率为48kHz,16位。Hi-Fi TTS数据集包含大约291.6小时来自10位发言者的语音,每位发言者至少贡献了17小时的数据,采样率为44.1kHz。TED-LIUM语料库包括118小时英语TED演讲,采样率为16kHz。当然,还可以采用其他常用的语音数据集作为模型训练基础数据集,此处不再一一举例说明。
需要注意的是,数据集中,不同语音的响度一般不同,且部分文本语音对的时长过长或者过短,不利于模型训练。因此,为了提高模型训练的可靠性,需要滤除相对应的文本语音对,所述滤除的文本语音对即为语音以及与所述语文对应的文本。滤除文本语音对时,一种可行的方式为:通过剔除长度在2秒-15秒之间的语音,以滤除相应的文本语音对;当然,还可以采用其他方式滤除相应的文本语音对。
滤除文本语音对后,剩余的文本语音对中,利用一个文本语音对即形成一个基础训练样本,也即在滤除文语音对的上述语音数据库中,每段语音以及每段语音对应的文本配置为一个基础训练样本。基础训练样本中,基础提示音、基础文本之间的对应关系,与上述训练提示音与训练文本之间的对应关系相一致,具体可参考上述说明,此处不再赘述。具体实施时,参考语音的说话人可与基础训练样本的说话人完全不同,也即本发明得到的语音合成模型Zero-TTS不会局限于模型训练中所涉及到的说话人的语音合成,具有较广的适用范围。
对数据集内的数据,在进行文本语音对过滤后,需要将剩余的文本语音对进行存储处理。存储处理时,可将文本语音对内的语音存储为16位整数序列,此后,可对所有存储的语音进行降采样处理,其中,降采样处理时,对每个基础提示音进行统一的采样频率的采样,采样频率可为16000Hz,当然,采样频率还可以为其他的频率,具体可根据需要选择。在降采样处理后,需要对每个语音进行响度归一化,其中,响度归一化时,可采用现有常用的归一化方式,具体响度归一化的方式可根据需要选择,此处不再赘述。
由上述说明可知,对基础训练样本内的基础提示音,经过上述存储处理、降采样处理、响度归一化处理以及分帧提取频谱特征后,可由基础提示音形成训练提示音。
对于基础文本,进行标准化时,包括:在基础文本中的所有符号后添加一个空格、将每个句子的第一个字母大写,和/或,将某些特殊缩写转换为其全名,以提高可读性。
本发明的一种实施例中,当对基础样本进行标准化处理生成训练样本时,在语音合成前,对待合成文本、参考语音也需进行相同的标准化处理;对参考语音进行标准化处理时,即依次进行上述的存储处理、降采样处理、响度归一化处理,对参考语音、待合成文本进行上述的标准化处理的方式以及过程可参考上述说明,此处不再赘述。
构建得到基础模型训练数据集后,对基础模型训练数据集进行划分,以在划分后至少生成训练样本集A以及训练验证集B,本发明的一种实施例中,训练样本集A的训练提示音所出自的说话人与训练验证集B的训练提示音所出自的说话人相一致,且训练样本集A内训练样本与训练验证集B内训练样本完全不同;具体地,训练样本集A的训练提示音所出自的说话人与训练验证集B的训练提示音所出自的说话人相一致,如训练样本集A内的训练提示音出自10个说话人,则训练验证集B内训练提示音也出自10个相同的说话人。训练样本集A内训练样本与训练验证集B内训练样本完全不同,具体是指训练样本集A内的训练提示音、训练提示文本与训练验证集B中的训练提示音、训练提示文本均完全不同;如训练样本集A内的任一训练样本,在训练验证集B内均不存在相同的训练样本。
一般地,训练样本集A内的训练样本数量多于训练验证集B内训练样本的数量,具体划分形成训练样本集A以及训练验证集B的方式可根据实际需要选择,以能满足上述要求以及对语音合成基础模型进行模型训练为准。
利用训练样本集A对语音合成基础模型进行模型训练时,还需要配置模型训练参数,其中,所配置的模型训练参数包括:批量大小、初始学习率以及优化器;一种实施例中,批量大小可为64,初始学习率可为1e-4,优化器采用AdamW优化器;此外,配置的模型训练参数还可包括epsilon参数、beta1参数以及beta2参数,其中,epsilon参数可为1e-9,beta1参数可为0.9,beta2参数可为0.99。对语音合成基础模型进行模型训练时,可在2张RTXA6000GPU上训练。
对本技术领域人员而言,可以理解的是,批量大小是一次输入进语音合成基础模型用于训练的数据,如当批量大小为64时,则一次输入64个训练样本进入语音合成基础模型。初始学习率为刚开始训练的学习率,学习率越大模型根据损失更新参数的灵敏度越高。AdamW优化器是在Adam优化器的基础上加入了权重衰减(L2正则化),有助于防止模型过拟合。在AdamW中权重衰减参数不受动量影响,可以独立调整,其中,beta1是一阶矩估计的指数衰减率,用于计算梯度的指数移动平均值,反映了之前梯度的平滑程度。beta2是二阶矩估计的指数衰减率,用于计算梯度平方的指数移动平均值,反映了之前梯度的方差。epsilon这是一个非常小的数,用来避免在计算梯度更新时除以零。
具体实施时,配置模型训练参数的方式以及过程可与现有相一致,具体以能满足模型训练的需求为准,配置模型训练参数的情况为本技术领域人员所熟知,此处不再赘述。
利用训练样本集A对语音合成基础模型进行模型训练时,一般还需要设置目标轮次,一般地,利用训练样本集A内所有的训练样本对语音合成基础模型进行一次训练时,即为进行一次迭代;目标轮次,即为对语音合成基础模型进行目标数量次的迭代。具体实施时,目标轮次的数量可根据需要选择,以能满足语音合成精度以及进行模型训练的条件为准。
由上述说明可知,对语音合成基础模型进行目标轮次的模型训练后,需利用训练验证集B进行目标轮次的验证,也即可得到目标轮次的模型损失。在得到目标轮次的模型损失后,在所有的模型损失中,确定模型损失优选值,模型损失优选值一般可选择为模型损失的最小值。本发明的一种实施例中,基于所确定的模型损失优选值选定对应的语音合成基础模型,并将所选定的语音合成基础模型配置为语音合成模型Zero-TTS,也即实现了构建语音合成模型Zero-TTS。
本发明的一种实施例中,神经音频编解码基础单元包括神经音频基础编码器、连续残差向量量化基础单元以及神经音频基础解码器;
利用基础模型训练数据集对语音合成基础模型进行模型训练前,将预训练生成的编码器预训练权重加载到神经音频基础编码器;
对每个基础模型训练样本中的训练提示音,神经音频基础编码器对训练提示音进行语音编码,以在语音编码后生成训练语音编码信息;
连续残差向量量化基础单元将训练语音编码信息进行编码连续量化,以在编码连续量化后生成训练语音连续向量编码;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于选定语音合成基础模型内的神经音频编解码基础单元,形成语音合成模型Zero-TTS内的神经音频编解码器。
具体实施时,神经音频编解码基础单元与上述的神经音频编解码器可具有相同的架构形式,也即神经音频编解码基础单元也包括神经音频基础编码器、连续残差向量量化基础单元以及神经音频基础解码器,其中,神经音频基础解码器与神经音频解码器对应,神经音频基础编码器与神经音频编码器对应,连续残差向量量化基础单元与连续残差向量量化器对应,因此,可根据上述说明的神经音频编解码器,可构建得到神经音频编解码基础单元,构建得到神经音频编解码基础单元的方式以及过程可与现有相一致,此处不再赘述。
为了使语音编码在模型训练开始阶段即可得到较丰富的信息量,本发明的一种实施例中,可将预训练生成的编码器预训练权重加载到神经音频基础编码器,也即在模型训练前,先配置神经音频基础编码器的权重。在预训练时,一般需要提供预训练数据集,如上述的LibriTTS数据集作为模型训练数据集时,可将Libriheavy数据集作为本发明的预训练数据集。具体地,预训练数据集的情况与所选择的模型训练数据集相关,以能满足预训练得到神经音频基础编码器的编码器预训练权重为准。
确定预训练数据集后,将预训练数据集划分为预训练训练集以及预训练验证集,其中,预训练训练集、预训练验证集内均包括若干预训练样本。预训练时,一种可行的预训练方法为:将预训练训练集中的预训练样本批量加载到神经音频编解码基础单元内,并得到重构的语音,计算重构的语音与原始语音间的损失,利用计算的损失在反向传播过程中优化神经音频编解码基础单元的参数,具体地,利用损失在反向传播过程中优化神经音频编解码基础单元的参数的方式以及过程均与现有相一致。
当对神经音频编解码基础单元训练到目标迭代次数后,即终止对神经音频编解码基础单元进行迭代训练。具体地,在每次迭代训练后,均续利用预训练验证集计算验证集损失,从而,在经过目标迭代次数后,可得到与目标迭代次数相一致的验证集损失。在所有的验证集损失中,搜索确定数值最小的验证集损失,并将数值最小的验证集损失对应的神经音频编解码基础单元作为目标神经音频编解码基础单元。此后,采用本技术领域常用的技术手段提取得到目标神经音频编解码基础单元内神经音频基础编码器的权重参数作为编码器预训练权重。
将编码器预训练权重加载到神经音频基础编码器后,语音合成基础模型的其他部分的参数采用随机初始化方式进行初始化。在初始化后,可进行正常的训练,直至达到目标训练状态,如对神经音频基础模型训练达到上述的目标轮次。
由于神经音频编解码基础单元与上述的神经音频编解码器采用相同的架构形式,因此,神经音频编解码基础单元在训练时的工作方式可参考上述神经音频编解码器在语音合成时的工作说明,此处不再赘述。当配置得到语音合成模型Zero-TTS时,可基于相应先语音合成基础模型内的神经编码解码基础单元形成神经音频编解码器。
本发明的一种实施例中,语音特征解耦基础单元包括语音语义编码器、说话人特征基础编码器和对数梅尔频谱解码器,其中,
对训练语音连续向量编码,利用语音语义编码器进行语音语义提取,以生成样本语音语义编码,并利用说话人特征基础编码器提取得到训练提示音的说话人特征编码;
在模型训练时,将样本语音语义编码与由语音预测基础单元生成的样本文本语义编码进行对比提纯,以得到语音语义对比提纯编码;
将语音语义对比提纯编码、训练提示音的说话人特征编码加载到对数梅尔频谱解码器,以由所述对数梅尔频谱解码器生成训练样本解耦对数梅尔频谱;
最大化合成对数梅尔频谱的似然,最小化文本语义和语音语义距离,基于编解码器的编码-解码结构构建的信息频率的提纯说话人特征;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于语音特征解耦基础单元形成语音特征解耦模块,其中,
基于说话人特征基础编码器形成语音特征解耦模块内的说话人特征编码器。
图3中示出了语音特征解耦基础单元的一种实施例,由图3可知,语音特征解耦基础单元需包括语音语义编码器、说话人特征基础编码器以及对数梅尔频谱解码器,因此,语音合成基础模型的语音特征解耦基础单元,与语音合成模型Zero-TTS内的语音特征解耦模块有所不同,由上述说明可知,语音特征解耦基础单元与语音特征解耦模块相比,多了语音语义编码器以及对数梅尔频谱解码器,而说话人特征基础编码器可与语音特征解耦模块内的说话人特征编码器对应,也即语音语义编码器以及对数梅尔频谱解码器均用于模型训练,而不参与后续的语音合成。
具体实施时,语音语义编码器、说话人特征基础编码器可采用上述神经音频编码器、神经音频基础编码器相同的架构形式,但不同的是,语音语义编码器、说话人特征基础编码器可省去Snake激活函数,因此,基于上述的神经音频基础编码器,可构建本发明的语音语义编码器、说话人特征基础编码器。
对数梅尔频谱解码器,可采用现有技术中deep voice3的解码器的架构形式,当然,对数梅尔频谱解码器还可以采用其他的架构形式,以能满足生成下述的训练样本解耦对数梅尔频谱为准。
由上述说明可知,在模型训练时,神经音频编解码器单元可输出训练语音连续向量编码,而利用语音语义编码器可对训练语音连续向量编码进行语音语义提取,从而可生成样本语音语义编码。同时,利用说话人特征基础编码器提取得到训练提示音的说话人特征编码,也即训练语音连续向量编码可至少包括样本语音语义编码以及训练提示音的说话人特征编码。
同时,在模型训练时,可利用语音预测基础单元可对训练提示文本进行编码,此时,将样本语音语义编码与由语音预测基础单元生成的样本文本语义编码进行对比提纯,以得到语音语义对比提纯编码,具体地,对比提纯时,可通过信息瓶颈理论进行对比提纯,此外,语音信息提纯之后,说话人特征基础编码器可选择地放弃语音信息的提取,因此,说话人信息得到提纯,也即可得到训练提示音的说话人特征编码。通过信息瓶颈理论进行对比提纯的方式以及过程,可与现有相一致,以能得到语音语义对比提纯编码为准。
进一步地,可将语音语义对比提纯编码、训练提示音的说话人特征编码通过特征通道拼接方式加载到对数梅尔频谱解码器,以由所述对数梅尔频谱解码器生成训练样本解耦对数梅尔频谱,如图3所示。
对每个训练样本内的训练提示音,可采用本技术领域常用的技术手段计算得到训练样本初始对数梅尔频谱。对每个训练样本,可确定训练样本初始对数梅尔频谱与训练样本解耦对数梅尔频谱之间的损失。在计算训练提示音的训练样本初始对数梅尔频谱时,一般需要设置对数梅尔频频计算参数,所设置的对数梅尔频谱计算参数包括帧大小和帧间隔,其中,帧大小可设置为1024,帧间隔可设置为256,当然,帧大小、帧间隔还可以设置为其他情况,具体可根据需要选择。
具体实施时,根据每个训练样本的训练样本解耦对数梅尔频谱以及训练样本初始对数梅尔频谱,可计算两者的似然,并优化语音特征解耦基础单元的参数。优化语音特征解耦基础单元的参数的方式以及过程,会在下述具体解释说明。
图4中示出了在模型训练过程中的变化,具体地,在第一个epoch(第一次迭代训练),特征解耦器无法区分不同说话人,经过5个epochs后,不同说话人开始呈现不同分布,10个epochs后,能看出不同说话人的分布分散,同一个人集中。由此可知,三张图可以看出训练阶段语音特征解耦基础单元的优化效果。
由上述说明可知,当将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于语音特征解耦基础单元形成语音特征解耦模块,其中,基于说话人特征基础编码器形成语音特征解耦模块内的说话人特征编码器。
本发明的一种实施例中,对于语音预测基础单元,包括基础文本语义编码器、基础随机时长预测器以及基础正则化流,其中,
对训练样本集A内的任一训练样本,基础文本语音编码器对训练提示文本进行编码,以在编码后生成训练文本语义编码,并将生成的训练文本语义编码加载到语音特征解耦基础单元;
基于训练文本语义编码,基础随机时长预测器预测训练提示文本的时长对齐信息的分布,
在模型训练时,对由连续残差向量量化基础单元生成的提示语音连续向量编码,经基础正则化流计算得到隐变量;
采用单调对齐搜索方法确定隐变量与当前训练提示文本对应的对齐矩阵;
基础随机时长预测器预测所述对齐矩阵的分布,并基于对齐矩阵分布的最大似然估计的最小化,以在模型训练时优化所述基础随机时长预测器;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于语音预测基础单元形成语音合成模型Zero-TTS内的语音预测编码器。
具体地,基础文本语义编码器可基于Transformer的编码器构建形成,基础文本语义编码器在预训练阶段根据上下文预测掩码,拥有上下文理解能力,从训练提示文本中提取语义编码,以生成训练文本语义编码。
正则化流是一种完全可逆的概率模型,本发明的一种实施例中,正向过程时,从训练语音连续向量编码经过正则化流可输出得到文本语义编码,反向过程时,从文本语义编码输出为训练语音连续向量编码,如图1所示。
构建的基础正则化流时,可参考George Papamakarios、Eric Nalisnick、DaniloJimenez Rezende、Shakir Mohamed、Balaji Lakshminarayanan 2021年在Journal ofMachine Learning Research上发表的论文:Normalizing Flows for ProbabilisticModeling and Inference。当然,还可以采用其他方式构建正则化流。
基础正则化流和基础随机时长预测器可简述为概率模型,因此,在构建得到正则化流后,可构建基础随机时长预测器,也即随机时长预测器的主要部分包括基础正则化流的架构,与基础正则化流不同的是,随机时长预测器在正则化流上加了一个变分去量化层和变分数据增广层,基于基础正则化流构建基础随机时长预测期的方法以及过程可与现有相一致,为本技术领域人员所熟知。当然,随机时长预测器还可以采用其他方式构建形成,以能满足本发明随机时长预测器的工作需求为准。
基础随机时长预测器预测每一个训练提示文本对应训练提示音的时长对齐信息的分布,具体地,预测的时长分布服从类高斯分布,通过对标准高斯分布随机采样,映射到预测的时长分布得到输出时长。在模型训练中,采用单调对齐搜索算法获取语音特征对应文本语义编码的对齐信息。具体地,单调对齐搜索是一种硬对齐算法,要求满足单调性、满射性,计算所有的允许对齐的概率,寻找一条最大概率搜索路径,搜索算法采用Viterbi算法,利用Viterbi算法进行搜索,利用单调对齐搜索进行对齐的方式以及过程均可与现有相一致。
图1示出了在模型训练中随机时长预测器的优化细节。训练语音连续向量编码经过基础正则化流反向计算得到隐变量。采用单调对齐搜索的硬对齐策略得到隐变量对应文本语义编码的对齐矩阵。采用基于变分推断的随机时长预测器预测对齐矩阵的分布,优化随机时长预测器,优化随机时长预测期即更新随机时长预测器的参数,其中,变分推断是将后验推断问题转化为优化问题求解的贝叶斯近似推断方法,基于变分推断的随机时长预测器预测对齐矩阵的分布的方式以及过程,与现有相一致。在语音合成阶段,对齐矩阵通过对随机时长预测器输出的对齐分布随机采样获取。其中,预测时长分布通过连续的正则化流实现,而单调对齐搜索算法获得的对齐标签为离散值,不能直接用于正则化流的梯度回传,因此,在模型训练时,要在时长预测器内部完成变分去量化将离散的对齐标签连续化。
本发明的一种实施例中,在计算模型损失时,包括:
其中,Lbackbone为主干网络的损失,LC-RVQ为主干网络的编码对比损失,Lrecon为主干网络的语音对比损失,Ladv为主干网络的语音判别损失,Ldis为语音特征解耦基础单元的训练损失,Lmel为对数梅尔频谱解码器的频谱对比损失,Lsem为语义对比损失。
本发明的一种实施例,将神经音频编解码基础单元以及语音预测编码基础单元作为一个主干网络,此时,在计算模型损失时,可计算得到主干网络的损失Lbackbone,以及计算得到语音特征解耦基础单元的训练损失Ldis。下面对主干网络的损失Lbackbone以及语音特征解耦基础单元的训练损失Ldis进行具体说明。
主干网络的编码对比损失LC-RVQ,具体为图1中连续残差向量量化器生成的训练语音连续向量编码,与图1中经基础正则化得到训练语音连续向量编码之间的距离;其中,计算主干网络的编码对比损失LC-RVQ时,损失函数可选为现有的负对数似然损失函数。在确定连续残差向量量化器生成的训练语音连续向量编码,以及经基础正则化得到训练语音连续向量编码后,利用负对数似然损失函数计算得到主干网络的编码对比损失LC-RVQ的方式以及过程可与现有相一致,此处不再赘述。
由于任一训练样本包括训练提示音以及训练提示文本;在训练时,可基于一个训练样本,通过神经音频基础解码器生成一个训练语音。对于主干网络的语音对比损失Lrecon,具体为图1中由神经音频基础解码器所输出的训练语音,与当前输出训练语音对应训练样本内的训练提示音的距离,其中,所计算的距离即为主干网络的语音对比损失Lrecon;具体实施时,计算语音对比损失Lrecon时,损失函数可采用现有常用的L2损失函数,基于L2损失函数计算得到语音对比损失Lrecon的方式以及过程可与现有相一致。
对主干网络的语音判别损失Ladv,即为神经音频基础解码器所生成的训练语音的真实状态对比损失;计算主干网络的语音判别损失Ladv时,主要判断生成的训练语音是否为真实语音,主干网络的语音判别损失Ladv的作用主要让生成的训练语音可以假乱真,越分辨不清楚为合成语音的状态越好。计算主干网络的语音判别损失Ladv,可采用生成对抗损失的方式计算语音判别损失Ladv
下面对生成对抗方式计算得到主干网络的语音判别损失Ladv的方式进行举例说明,一种实施例中,包括:
为了使神经音频基础解码器获得更好的还原音频的能力,本发明的一种实施例中,对神经音频基础解码器,利用多尺度判别器用以对抗训练,提升重构语音的音质和拟真度。其中,多尺度判别指神经音频基础解码器的不同输出层输出的结果都经过判别,得到判别损失,也即得到主干网络的语音判别损失Ladv
由上述说明可知,神经音频基础解码器包括四层解码器块,具体地,对四层解码器块,损失沿从输入到输出层方向,按1:4:16:64的比例加和最为最终判别损失;如第一层解码器块的损失为b1,第二层解码器块的损失为b2、第三解码器块的损失为b3,第四层解码器块的损失为b4,则比例加权为(1*b1+4*b2+16*b3+64*b4)/(1+4+16+64)。具体实施时,神经音频基础解码器内每层解码器块的损失可采用现有方式计算得到,本发明将每层解码器块的损失进行判别。当然,比例加和的比例还可以根据实际需要选择,以能满足实际的判别损失计算为准。
对语义对比损失Lsem,具体为图3中文本语义编码与语音语义编码之间的对比损失,在计算语义对比损失Lsem时,可将L1+L2+KL散度损失函数作为计算语义对比损失的损失函数,并基于损失函数计算得到相应的对比损失,其中,L1、L2、KL散度损失函数即为现有通用的损失函数类型。
对数梅尔频谱解码器的频谱对比损失Lmel,具体为对数梅尔频谱解码器所输出训练样本解耦对数梅尔频谱,与生成训练样本解耦对数梅尔频谱对应训练提示音的训练样本初始对数梅尔频谱之间的频谱对比损失,计算频谱对比损失时,损失函数可采用L2损失函数,当损失函数采用L2损失函数时,计算得到频谱对比损失Lmel的情况与现有相一致,此处不再赘述。
由上述说明可知,模型训练时,训练样本采用批量方式加载到语音合成基础模型内,因此,在一次批量的训练样本对语音合成基础模型训练后,即需要计算一次模型损失。
可以理解的是,上述计算的损失用于反向传播时的更新网络梯度。语音特征解耦基础单元的训练损失Ldis只用于更新语音特征解耦基础单元,在语音特征解耦基础单元与主干网络中间加入梯度停止,使语音特征解耦基础单元的训练以及更新网络梯度,不影响主干网络。
本发明的一种实施例中,更新语音特征解耦基础单元的参数时,一种可行的方法可为:在生成训练样本解耦对数梅尔频谱后,可计算所述频谱对比损失Lmel的似然,并计算上述语义对比损失Lsem,其中,更新语音特征解耦基础单元的参数,使得频谱对比损失Lmel的似然尽可能地大,且使得语义对比损失Lsem尽可能地小,此后可得到满足两种情况下的语音特征解耦基础单元的参数。在每个批量的训练样本加载后,均进行一次对应的更新语音特征解耦基础单元的参数。
类似的,基础随机时长预测器的时长预测损失Ldur,只单独优化基础随机时长预测器,通过梯度停止不影响主干网络,如图1所示。计算基础随机时长预测器的时长预测损失Ldur时,损失函数可采用负对数似然损失函数,基于负对数似然损失函数可计算得到时长预测损失Ldur。具体地,计算时长预测损失Ldur时,将基础随机时长预测器输出的预测时长对齐信息,与由单调对齐搜索得到的真实时长对齐信息计算损失。
优化更新基础随机时长预测器时,一般以时长预测损失Ldur向最小化的方向更新基础随机时长预测器的参数;也即实现基于对齐矩阵分布的最大似然估计损失的最小化,以在优化所述基础随机时长预测器。
对主干网络,以主干网络的损失Lbackbone最小作为基本原则,基于主干网络的网络参数,以在更新后,即可确定神经音频编解码器基础单元、文本语音编码器以及基础正则化流相应的参数。
利用训练验证集B对语音合成基础模型进行验证时,可采用上述的模型损失计算方法计算得到模型,由上述说明可知,在计算模型损失时,可计算得到主干网络的损失Lbackbone、语音特征解耦基础单元的训练损失Ldis以及时长预测损失Ldur;因此,在训练验证集B上确定模型损失优选值时,具体是指选择主干网络的损失Lbackbone、语音特征解耦基础单元的训练损失Ldis以及时长预测损失Ldur相对较为较优的模型损失值,由此,基于所确定的模型损失优选值选定对应的语音合成基础模型,并将所选定的语音合成基础模型配置为语音合成模型Zero-TTS。
此外,还可构建训练测试集C和开集测试数据集D,其中,训练样本集A、训练验证集B、训练测试集C来自同一模型训练基础数据集,也即来自同一个数据集,如均来自上述提到的LibriTTS数据集,其中,对训练数据集A和训练验证集B,说话人相同,但训练文本无交叉。训练测试集C与训练数据集A、训练验证集相比,说话人不同且无数据交叉,其中,无数据交叉,具体是指训练样本内的训练提示音、训练提示文本均不相同。
进一步地,开集测试数据集D的数据分布与训练样本集A、训练验证集B、训练测试集C来自不同的数据集、说话人不同,且无数据交叉。开集测试数据集D可由多个数据集组成,用于验证本发明语音合成模型Zero-TTS的自适应能力。
具体实施时,得到语音合成模型Zero-TTS后,可利用训练测试集C内的训练样本评估生成语音的质量以及音色相似度;利用开集测试数据集D进行同样的实验用以评估语音合成模型Zero-TTS的域泛化能力。
进一步地,评估方法可采用人工主观评分结合神经网络评估的方法,具体地:
主观评分:将语音合成模型Zero-TTS与对比网络合成的语音、语音录音的文件名称加密并混合,交给评分人员评估音质与音色相似度,所有主观评分采用五分制。
具体地:通过人工主观标注来评估合成语音的声音质量和音色相似度。平均意见分数(MOS)被用来评估语音的声音质量和自然度。此外,还采用相似度平均意见分数(SMOS)和比较平均意见分数(CMOS)来评估合成语音和目标语音之间的音色相似度和自然度水平。最终结果是通过对七名评分者的评分进行平均得出的,MOS和SMOS采用五分制评定(1:差,2:较差,3:一般,4:好,5:优秀),CMOS采用和基准的差值评估法。
神经网络评估:采用说话人识别网络DeepSpeaker用于对合成数据说话人识别,结果越接近真实数据说明合成质量越好。采用语音识别网络WhisperV2用于识别合成语音文本,识别准确率越高说明发音越准确。采用音质评估网络UTMOS测试合成语音音质得分。采用说话人验证网络WeSpeaker提取说话人特征向量,通过余弦相似度计算不同语音的音色相似度。
具体地,为了客观评估语音合成模型Zero-TTS的性能,采用了几种神经网络来测量合成语音的声音质量、自然度和音色相似度。具体而言,利用Open AI的Whisper v2进行生成的语音文本识别。Whisper v2以其性能而闻名,在我们的真实录音测试集上表现出较低的词错误率(WER)。在生成的测试集上,较低的WER意味着生成语音的质量和自然度较高。
此外,利用Deep Speaker对生成的语音进行说话者识别。测试合成模型生成的语音时,更高的准确率意味着相同说话者之间的内类间隔较小,不同说话者之间的间类间隔较大。还通过一个名为UTMOS的MOS预测网络对生成的语音进行测量,这用于补充人工MOS。最后,采用了基于说话者验证模型WeSpeaker的客观评估方法,以获得余弦相似度分数,用于评估音色相似度程度。
可视化评估:绘制了解耦的与说话者相关的特征的t-SNE图,以确认来自不同说话者的信息是否被区分并添加到编解码器中。图5的t-SNE图展示了多个数据集上的解耦效果。在训练过程中,为了评估训练效果,我们观察输出数据的对数梅尔频谱图。通过观察了测试集上说话者识别网络的准确率曲线,通过比较多个说话者曲线的变化和最终准确率来评估不同合成模型的说话者适应能力。
表格1不同方法下的语音合成音质与自然度
从表格1中可以看出,与其他主流语音合成方法相比,所提出的语音合成模型Zero-TTS相比网络MOS、UTMOS达到了最高分,在WER相较于VITS略低,强于其他模型。语音合成模型Zero-TTS的性能接近真实录音,合成音质与自然度卓越。
表格2不同方法下的语音合成音色相似度与自然度
从表格2中可以看出,与YourTTS的语音合成方法相比,所提出的语音合成模型Zero-TTS网络在SMOS、CMOS、UTMOS、余弦相似度达到了最高分,在WER与YourTTS一致。语音合成模型Zero-TTS的性能接近真实录音,合成的语音与真人发音音色十分相似并且发音自然度较高。
以上示意性地对本发明创造及其实施方式进行了描述,该描述没有限制性,在不背离本发明的精神或者基本特征的情况下,能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一,实际的结构并不局限于此,权利要求中的任何附图标记不应限制所涉及的权利要求。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利的保护范围。此外,“包括”一词不排除其他元件或步骤,在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种基于神经音频编解码器的语音合成方法,其特征是,所述语音合成方法包括:
提供待合成文本以及目标说话人的参考语音,并将所述参考语音、待合成文本加载到预先构建的语音合成模型Zero-TTS,其中,
所述语音合成模型Zero-TTS包括神经音频编解码器、语音特征解耦模块以及语音预测编码器,其中,语音预测编码器、语音特征解耦模块与神经音频编解码器适配连接;
语音预测编码器接收待合成文本,并对待合成文本进行语音预测,以在语音预测后生成文本-语音预测编码,且将所生成的文本-语音预测编码加载至神经音频编解码器;
神经音频编解码器接收参考语音,并对所接收的参考语音依次进行语音编码以及编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码,并将所生成的参考语音连续残差量化编码加载至语音特征解耦模块;
对接收的参考语音连续残差量化编码,语音特征解耦模块提取得到目标说话人的说话人特征编码,并将所提取目标说话人的说话人特征编码加载至神经音频编解码器;
在神经音频编解码器内,将文本-语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
2.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,
对参考语音,神经音频编码器对所述参考语音进行语音编码,以在语音编码后生成参考语音编码信息;
连续残差向量量化器对参考语音编码信息进行编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码;
神经音频解码器将语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
3.根据权利要求2所述的基于神经音频编解码器的语音合成方法,其特征是,所述语音特征解耦模块至少包括说话人特征编码器,其中,
对参考语音连续残差量化编码,说话人特征编码器提取得到目标说话人的说话人特征编码,并将所述目标说话人的说话人特征编码加载到神经音频解码器。
4.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流,其中,
文本语义编码器对待合成文本编码,以在编码后生成文本语义编码;
随机时长预测器基于随机采样生成所述待合成文本的时长信息;
基于待合成文本的文本语义编码以及待合成文本的时长信息,通过正则化流生成文本-语音预测编码。
5.根据权利要求1至4任一项所述的基于神经音频编解码器的语音合成方法,其特征是,构建语音合成模型Zero-TTS时,构建方法包括:
构建语音合成基础模型以及用于对语音合成基础模型进行模型训练的基础模型训练数据集,其中,
语音合成基础模型,包括神经音频编解码基础单元、语音特征解耦基础单元以及语音预测编码基础单元,其中,语音预测基础单元、语音特征解耦基础单元均与神经音频编解码基础单元适配连接;
所述基础模型训练数据集包括若干基础模型训练样本,对每个基础模型训练样本包括训练提示音以及与所述训练提示音对应的训练提示文本;
对上述的基础模型训练数据集进行划分,以至少划分生成训练样本集A以及训练验证集B,其中,训练样本集A的训练提示音所出自的说话人与训练验证集B的训练提示音所出自的说话人相一致,且训练样本集A内训练样本与训练验证集B内训练样本完全不同;
利用训练样本集A对语音合成基础模型进行一轮模型训练后,利用训练验证集B计算语音合成基础模型在当前轮模型训练后的模型损失;
利用训练样本集A对语音合成基础模型进行目标轮次的模型训练后,在所有计算的模型损失中确定模型损失优选值;
基于所确定的模型损失优选值选定对应的语音合成基础模型,并将所选定的语音合成基础模型配置为语音合成模型Zero-TTS。
6.根据权利要求5所述的基于神经音频编解码器的语音合成方法,其特征是,神经音频编解码基础单元包括神经音频基础编码器、连续残差向量量化基础单元以及神经音频基础解码器;
利用基础模型训练数据集对语音合成基础模型进行模型训练前,将预训练生成的编码器预训练权重加载到神经音频基础编码器;
对每个基础模型训练样本中的训练提示音,神经音频基础编码器对训练提示音进行语音编码,以在语音编码后生成训练语音编码信息;
连续残差向量量化基础单元将训练语音编码信息进行编码连续量化,以在编码连续量化后生成训练语音连续向量编码;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于选定语音合成基础模型内的神经音频编解码基础单元,形成语音合成模型Zero-TTS内的神经音频编解码器。
7.根据权利要求6所述的基于神经音频编解码器的语音合成方法,其特征是,语音特征解耦基础单元包括语音语义编码器、说话人特征基础编码器和对数梅尔频谱解码器,其中,
对训练语音连续向量编码,利用语音语义编码器进行语音语义提取,以生成样本语音语义编码,并利用说话人特征基础编码器提取得到训练提示音的说话人特征编码;
在模型训练时,将样本语音语义编码与由语音预测基础单元生成的样本文本语义编码进行对比提纯,以得到语音语义对比提纯编码;
将语音语义对比提纯编码、训练提示音的说话人特征编码加载到对数梅尔频谱解码器,以由所述对数梅尔频谱解码器生成训练样本解耦对数梅尔频谱;
最大化合成对数梅尔频谱的似然,最小化文本语义和语音语义距离,基于编解码器的编码-解码结构构建的信息频率的提纯说话人特征;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于语音特征解耦基础单元形成语音特征解耦模块,其中,
基于说话人特征基础编码器形成语音特征解耦模块内的说话人特征编码器。
8.根据权利要求7所述的基于神经音频编解码器的语音合成方法,其特征是,对于语音预测基础单元,包括基础文本语义编码器、基础随机时长预测器以及基础正则化流,其中,
对训练样本集A内的任一训练样本,基础文本语音编码器对训练提示文本进行编码,以在编码后生成训练文本语义编码,并将生成的训练文本语义编码加载到语音特征解耦基础单元;
基于训练文本语义编码,基础随机时长预测器预测训练提示文本的时长对齐信息的分布,
在模型训练时,对由连续残差向量量化基础单元生成的提示语音连续向量编码,经基础正则化流计算得到隐变量;
采用单调对齐搜索方法确定隐变量与当前训练提示文本的对齐矩阵;
基础随机时长预测器预测所述对齐矩阵的分布,并基于对齐矩阵分布的最大似然估计的最小化,以优化所述基础随机时长预测器;
将选定的语音合成基础模型作为语音合成模型Zero-TTS时,基于语音预测基础单元形成语音合成模型Zero-TTS内的语音预测编码器。
9.根据权利要求8所述的基于神经音频编解码器的语音合成方法,其特征是,在计算模型损失时,包括:
其中,Lbackbone为主干网络的损失,LC-RVQ为主干网络的编码对比损失,Lrecon为主干网络的语音对比损失,Ladv为主干网络的语音判别损失,Ldis为语音特征解耦基础单元的训练损失,Lmel为对数梅尔频谱解码器的频谱对比损失,Lsem为语义对比损失。
10.根据权利要求5所述的基于神经音频编解码器的语音合成方法,其特征是,构建基础模型训练数据集时,包括:
提供模型训练基础数据集,其中,所述模型训练基础数据集包括若干基础样本,对任一基础样本包括基础提示音以及与所述基础提示音对应的基础文本;
对每个基础样本进行标准化处理,以在标准化处理后生成训练样本,其中,
对基础样本内的基础提示音进行标准化处理时,包括依次进行的降采样以及响度归一化;
对基础样本内的基础文本进行标准化处理时,包括在基本文本中的所有符号后添加一个空格,和/或,将每个句子的第一个字母大写;
当对基础样本进行标准化处理生成训练样本时,在语音合成前,对待合成文本、参考语音进行相同的标准化处理。
CN202410677482.8A 2024-05-29 2024-05-29 基于神经音频编解码器的语音合成方法 Active CN118430508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410677482.8A CN118430508B (zh) 2024-05-29 2024-05-29 基于神经音频编解码器的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410677482.8A CN118430508B (zh) 2024-05-29 2024-05-29 基于神经音频编解码器的语音合成方法

Publications (2)

Publication Number Publication Date
CN118430508A CN118430508A (zh) 2024-08-02
CN118430508B true CN118430508B (zh) 2024-09-17

Family

ID=92315847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410677482.8A Active CN118430508B (zh) 2024-05-29 2024-05-29 基于神经音频编解码器的语音合成方法

Country Status (1)

Country Link
CN (1) CN118430508B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
CN117789771A (zh) * 2023-11-20 2024-03-29 中国科学院声学研究所 一种跨语言端到端情感语音合成方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230156121A (ko) * 2021-03-22 2023-11-13 구글 엘엘씨 비지도 병렬 타코트론 비-자기회귀 및 제어 가능한 TTS(text-to-speech)
WO2024091564A1 (en) * 2022-10-26 2024-05-02 Google Llc Massive multilingual speech-text joint semi-supervised learning for text-to-speech
CN117995161A (zh) * 2024-02-22 2024-05-07 上海交通大学 一种基于离散语音标记和离散扩散模型的语音合成系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
CN117789771A (zh) * 2023-11-20 2024-03-29 中国科学院声学研究所 一种跨语言端到端情感语音合成方法及系统

Also Published As

Publication number Publication date
CN118430508A (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
US11587569B2 (en) Generating and using text-to-speech data for speech recognition models
Sun et al. Generating diverse and natural text-to-speech samples using a quantized fine-grained vae and autoregressive prosody prior
Yu et al. DurIAN: Duration Informed Attention Network for Speech Synthesis.
CN112017644B (zh) 一种声音变换系统、方法及应用
McLoughlin Line spectral pairs
Fazel et al. Synthasr: Unlocking synthetic data for speech recognition
Sreenivas et al. Codebook constrained Wiener filtering for speech enhancement
Wang et al. Semantic mask for transformer based end-to-end speech recognition
CN112530403B (zh) 基于半平行语料的语音转换方法和系统
Cernak et al. Composition of deep and spiking neural networks for very low bit rate speech coding
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Kim et al. Assem-vc: Realistic voice conversion by assembling modern speech synthesis techniques
Lim et al. Robust low rate speech coding based on cloned networks and wavenet
Kumar Real‐time implementation and performance evaluation of speech classifiers in speech analysis‐synthesis
CN113436607B (zh) 一种快速语音克隆方法
Devi et al. A novel approach for speech feature extraction by cubic-log compression in MFCC
CN117275498A (zh) 语音转换方法及语音转换模型的训练方法、电子设备和存储介质
CN118430508B (zh) 基于神经音频编解码器的语音合成方法
CN114203151A (zh) 语音合成模型的训练的相关方法以及相关装置、设备
Bouchakour et al. Improving continuous Arabic speech recognition over mobile networks DSR and NSR using MFCCS features transformed
Qiu et al. Context-aware neural confidence estimation for rare word speech recognition
Liu et al. Multimodal speech emotion recognition based on aligned attention mechanism
Zhang Research on Phoneme Recognition using Attention-based Methods
Hosoda et al. Artificial bandwidth extension for lower bandwidth using sinusoidal synthesis based on first formant location
US11735158B1 (en) Voice aging using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant