CN114283824A - 一种基于循环损失的语音转换方法及装置 - Google Patents

一种基于循环损失的语音转换方法及装置 Download PDF

Info

Publication number
CN114283824A
CN114283824A CN202210201058.7A CN202210201058A CN114283824A CN 114283824 A CN114283824 A CN 114283824A CN 202210201058 A CN202210201058 A CN 202210201058A CN 114283824 A CN114283824 A CN 114283824A
Authority
CN
China
Prior art keywords
voice
speech
loss
loss value
cyclic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210201058.7A
Other languages
English (en)
Other versions
CN114283824B (zh
Inventor
郑方
李鹏琦
李蓝天
徐明星
万化
张琛
潘仰耀
谢弈峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Tsinghua University
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Shanghai Pudong Development Bank Co Ltd filed Critical Tsinghua University
Priority to CN202210201058.7A priority Critical patent/CN114283824B/zh
Publication of CN114283824A publication Critical patent/CN114283824A/zh
Application granted granted Critical
Publication of CN114283824B publication Critical patent/CN114283824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种基于循环损失的语音转换方法及装置,所述方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。本发明能够基于循环损失实现语音内容信息以及说话人风格信息的分离,从而提高了语音转换的效率和语音转换质量。

Description

一种基于循环损失的语音转换方法及装置
技术领域
本发明涉及语音转换的技术领域,尤其涉及一种基于循环损失的语音转换方法及装置。
背景技术
语音转换技术作为个性化语音生成的一种重要技术手段,主要旨在将一个说话人的语音风格转换成另一个说话人的语音风格,同时保持说话内容信息不变。
当源说话人与目标说话人的语音风格相差较大时(如跨性别、跨语种的语音转换),语音转换的质量将显著下降,主要体现在语音中的说话人风格信息和语音内容信息存在明显缺失。
因此如何解决语音转换过程中实现语音内容信息和说话人风格特征的分离,提高语音转换质量,是当前课题亟需解决的问题。
发明内容
本发明提供一种基于循环损失的语音转换方法及装置,用以解决现有技术中说话人风格信息和语音内容信息存在明显缺失的缺陷,实现语音转换质量的提高。
本发明提供一种基于循环损失的语音转换方法,包括:
获取不同说话人的语音信息;
将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;
获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;
其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
根据本发明提供的一种基于循环损失的语音转换方法,所述语音转换模型的训练方法包括:
获得第一语音样本和第二语音样本;
基于短时傅里叶变换,将所述第一语音样本和第二语音样本分别转换为第一语音频谱和第二语音频谱;
建立待训练的语音转换模型;其中所述语音转换模型包括共享编码器、第一解码器和第二解码器;
将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值;
基于所述综合损失值对所述语音转换模型进行参数更新,直至模型收敛停止更新。
根据本发明提供的一种基于循环损失的语音转换方法,所述将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值,包括:
将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值;
将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值;
基于所述语音重构损失值和所述综合循环损失值,获取综合损失值。
根据本发明提供的一种基于循环损失的语音转换方法,将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值,包括:
将所述第一语音频谱和第二语音频谱分别输入至所述共享编码器中,得到第一瓶颈层特征和第二瓶颈层特征;
将所述第一瓶颈层特征输入至所述第一解码器中,得到第一重构语音频谱,将所述第二瓶颈层特征输入至第二解码器中,得到第二重构语音频谱;
基于所述第一语音频谱和第一重构语音频谱获取第一重构损失值,基于所述第二语音频谱和第二重构语音频谱获取第二重构损失值;
基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值。
根据本发明提供的一种基于循环损失的语音转换方法,所述将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值,包括:
将所述第一瓶颈层特征输入至所述第二解码器中,得到第三重构语音频谱,将所述第二瓶颈层特征输入至所述第一解码器中,得到第四重构语音频谱;
将所述第三重构语音频谱和第四重构语音频谱分别输入至所述共享编码器中,获取第一循环瓶颈层特征和第二循环瓶颈层特征;
基于所述第一瓶颈层特征和所述第一循环瓶颈层特征获取第一循环损失值,基于所述第二瓶颈层特征和所述第二循环瓶颈层特征获取第二循环损失值;
基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值。
根据本发明提供的一种基于循环损失的语音转换方法,所述基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值,基于以下公式实现:
Figure 911DEST_PATH_IMAGE001
其中,
Figure 279445DEST_PATH_IMAGE002
为语音重构损失值,
Figure 958688DEST_PATH_IMAGE003
为语音重构损失函数,
Figure 874954DEST_PATH_IMAGE004
为第一重构损 失值,
Figure 145398DEST_PATH_IMAGE005
为第二重构损失值,
Figure 380071DEST_PATH_IMAGE006
分别为第一语音频谱和第一重构语音频谱,
Figure 863004DEST_PATH_IMAGE007
分别为第二语音频谱和第二重构语音频谱。
根据本发明提供的一种基于循环损失的语音转换方法,所述基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值,基于以下公式实现:
Figure 684375DEST_PATH_IMAGE008
其中,
Figure 797824DEST_PATH_IMAGE009
为综合循环损失值,
Figure 582110DEST_PATH_IMAGE003
为循环损失函数,
Figure 868734DEST_PATH_IMAGE010
为第一循环损失值,
Figure 759592DEST_PATH_IMAGE011
为第二循环损失值,
Figure 106260DEST_PATH_IMAGE012
分别为第一瓶颈层特征和第一循环瓶颈层特征,
Figure 581104DEST_PATH_IMAGE013
分别 为第二瓶颈层特征和第二循环瓶颈层特征。
本发明还提供一种基于循环损失的语音转换装置,包括:
语音获取模块,用于获取不同说话人的语音信息;
重构模块,用于将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;
分离模块,用于获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;
其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于循环损失的语音转换方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于循环损失的语音转换方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于循环损失的语音转换方法的步骤。
本发明提供的基于循环损失的语音转换方法及装置,通过获取不同人的语音信息,通过训练好的语音转换模型的共享编码器和解码器对语音信息进行语音转换,在语音转换的过程中产生重构语音与语音信息的循环损失,并基于循环损失实现语音内容信息以及说话人风格信息的分离,从而提高了语音转换的效率和语音转换质量。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于循环损失的语音转换方法的流程示意图之一;
图2是本发明提供的基于循环损失的语音转换方法的流程示意图之二;
图3是本发明提供的基于循环损失的语音转换方法的流程示意图之三;
图4是本发明提供的基于循环损失的语音转换方法的流程示意图之四;
图5是本发明提供的基于循环损失的语音转换方法的流程示意图之五;
图6是本发明提供的基于循环损失的语音转换方法的流程示意图之六;
图7是本发明提供的基于循环损失的语音转换方法的流程示意图之七;
图8是本发明提供的基于循环损失的语音转换方法的整体架构示意图;
图9是本发明提供的基于循环损失的语音转换装置的结构示意图;
图10是本发明提供的电子设备的结构示意图。
具体实施方式
语音转换技术作为个性化语音生成的一种重要技术手段,主要旨在将一个说话人的语音风格转换成另一个说话人的语音风格,同时保持说话内容信息不变。
参照图1,图1为一个典型的语音转换系统原理图。一个语音转换系统通常包含训练和转换两个阶段。在训练阶段,首先对源说话人和目标说话人的语音进行特征提取,然后对提取特征进行映射处理,最后对这些映射特征进行模型训练,进而得到语音转换模型。
参照图2,图2给出了一个样例自编码器的具体实例。其网络结构主要包括三个部 分:编码器、解码器及声码器。给定一个语音的输入x,首先使用短时傅里叶变换STFT,将时 域信号x变换为频域信号m;其次使用编码器-解码器的结构,使用一个较小的瓶颈层压缩出 语音中的内容信息w,然后对语音风格特征s进行转换,得到频域信号
Figure 405840DEST_PATH_IMAGE014
;最后,使用声码器 (如WaveNet)对频域信号
Figure 151205DEST_PATH_IMAGE014
进行还原,得到时域信号
Figure 668774DEST_PATH_IMAGE015
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图3-图7描述本发明的提供的基于循环损失的语音转换方法。
参照图3,本发明提供的基于循环损失的语音转换方法,包括以下步骤:
步骤310、获取不同说话人的语音信息。
具体地,本实施例中的说话人即语音信息的来源,在实际应用中,说话人可为跨语言、跨语种以及多风格的目标说话人。
步骤320、将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息。
可以理解为,本实施例利用训练完成的语音转换模型应用于实际的语音转换场景中,针对不同的说话人信息,通过训练完成的共享编码器进行编码,只需对解码器部分进行单独微调,便可实现特定的语音转换任务。
步骤330、获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;
其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
具体地,在不同的语音信息通过共享编码器和解码器生成转换后的重构语音过程中,利用共享编码器可根据语音信息中语音内容信息和说话人风格方差的大小,实现对语音内容信息和风格特征的分离。
本发明提供的基于循环损失的语音转换方法,通过获取不同人的语音信息,通过训练好的语音转换模型的共享编码器和解码器对语音信息进行语音转换,在语音转换的过程中产生重构语音与语音信息的循环损失,并基于循环损失实现语音内容信息以及说话人风格信息的分离,从而提高了语音转换的效率和语音转换质量。
基于以上实施例,参照图4,所述语音转换模型的训练方法包括以下步骤:
步骤410、获得第一语音样本和第二语音样本;
步骤420、基于短时傅里叶变换,将所述第一语音样本和第二语音样本分别转换为第一语音频谱和第二语音频谱;
步骤430、建立待训练的语音转换模型;其中所述语音转换模型包括共享编码器、第一解码器和第二解码器;
步骤440、将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值;
步骤450、基于所述综合损失值对所述语音转换模型进行参数更新,直至模型收敛停止更新。
具体地,本实施例提供了语音转换模型的训练方法,即语音转换模型的获得过程。首先获取两个不同说话人的语音样本,并根据短时傅里叶变换,将语音样本转换为语音频谱,即将时域信号转换为频域信号。然后建立需要训练的语音转换模型,将频域信号的语音频谱输入到模型中进行训练,具体体现为分别对共享编码器进行训练,对第一语音样本对应的第一解码器进行训练,以及对第二语音样本对应的第二解码器进行训练。
在训练过程中,需要进行多次编码和解码,重新生成的语音频谱和输入的语音频谱直接将产生损失值,即综合损失值,可利用综合损失值对共享编码器、第一解码器以及第二解码器的参数进行调整更新,通过多次迭代更新,最终获得一个参数达到预期的模型即为训练完成的语音转换模型。
基于以上实施例,参照图5,所述将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值,包括:
步骤510、将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值;
步骤520、将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值;
步骤530、基于所述语音重构损失值和所述综合循环损失值,获取综合损失值。
具体地,本实施例中,通过对第一语音频谱以及第二语音频谱进行两轮编码,分别得到语音重构损失值以及综合循环损失值,再将语音重构损失值以及综合循环损失值合成综合损失值,即模型训练过程中的总损失值,根据总损失值进行模型参数的调整。
基于以上实施例,参照图6,将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值,包括:
步骤610、将所述第一语音频谱和第二语音频谱分别输入至所述共享编码器中,得到第一瓶颈层特征和第二瓶颈层特征。
步骤620、将所述第一瓶颈层特征输入至所述第一解码器中,得到第一重构语音频谱,将所述第二瓶颈层特征输入至第二解码器中,得到第二重构语音频谱。
步骤630、基于所述第一语音频谱和第一重构语音频谱获取第一重构损失值,基于所述第二语音频谱和第二重构语音频谱获取第二重构损失值。
步骤640、基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值。
具体地,本实施例提供了语音转换模型实现语音重构的训练过程。首先通过共享编码器对第一语音频谱和第二语音频谱进行编码,生成对应的第一瓶颈层特征和第二瓶颈层特征。然后将第一瓶颈层特征和第二瓶颈层特征分别通过第一解码器和第二解码器生成第一重构语音频谱和第二重构语音频谱。重新生成的第一、第二重构语音频谱与输入的第一、第二语音频谱之间的误差值分别作为第一重构损失值和第二重构损失值。
根据语音重构的损失函数,计算语音重构过程中的语音重构损失值。基于语音重构损失函数、第一重构损失值和第二重构损失值获取语音重构损失值,基于以下公式(1)实现:
Figure 630913DEST_PATH_IMAGE001
(1)
其中,
Figure 259341DEST_PATH_IMAGE002
为语音重构损失值,
Figure 859212DEST_PATH_IMAGE003
为语音重构损失函数,
Figure 547682DEST_PATH_IMAGE004
为第一重构损 失值,
Figure 997118DEST_PATH_IMAGE005
为第二重构损失值,
Figure 163657DEST_PATH_IMAGE006
分别为第一语音频谱和第一重构语音频谱,
Figure 618034DEST_PATH_IMAGE007
分别为第二语音频谱和第二重构语音频谱。
基于以上实施例,参照图7,所述将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值,包括:
步骤710、将所述第一瓶颈层特征输入至所述第二解码器中,得到第三重构语音频谱,将所述第二瓶颈层特征输入至所述第一解码器中,得到第四重构语音频谱。
步骤720、将所述第三重构语音频谱和第四重构语音频谱分别输入至所述共享编码器中,获取第一循环瓶颈层特征和第二循环瓶颈层特征。
步骤730、基于所述第一瓶颈层特征和所述第一循环瓶颈层特征获取第一循环损失值,基于所述第二瓶颈层特征和所述第二循环瓶颈层特征获取第二循环损失值。
步骤740、基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值。
具体地,本实施例提供了语音转换模型的训练过程。首先将第一瓶颈层特征和第二瓶颈层特征分别输入与其交叉的解码器中进行解码,也就是将第一瓶颈层特征输入至所述第二解码器中,将第二瓶颈层特征输入至所述第一解码器中,分别获取第三重构语音频谱和第四重构语音频谱,其中第三重构语音频谱对应第一瓶颈层特征,第四重构语音频谱对应第二瓶颈层特征。然后再将第三重构语音频谱和第四重构语音频谱输入到共享编码其中,生成第一循环瓶颈层特征和第二循环瓶颈层特征。
重新生成的第一循环瓶颈层特征、第二循环瓶颈层特征与输入的第一瓶颈层特征、第二瓶颈层特征之间的误差作为第一循环损失值和第二循环损失值。根据循环损失函数,可求得综合循环损失值。
基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值,基于以下公式(2)实现:
Figure 477406DEST_PATH_IMAGE008
(2)
其中,
Figure 148559DEST_PATH_IMAGE009
为综合循环损失值,
Figure 384368DEST_PATH_IMAGE003
为循环损失函数,
Figure 958831DEST_PATH_IMAGE010
为第一循环损失值,
Figure 989104DEST_PATH_IMAGE011
为第二循环损失值,
Figure 147553DEST_PATH_IMAGE012
分别为第一瓶颈层特征和第一循环瓶颈层特征,
Figure 655895DEST_PATH_IMAGE013
分别 为第二瓶颈层特征和第二循环瓶颈层特征。
参照图8,图8为基于循环损失的语音转换方法的整体架构示意图。
具体包括五个步骤:第一轮编码、语音重构、第二轮编码、循环损失计算、模型更新。
其中,第一轮编码包括:在两个不同说话人Spk1和Spk2中,各自随机采样一条语音,得到x1和x2。x1和x2经过短时傅里叶变换得到对应地两个语音频谱m1和m2。然后,分别将m1和m2输入到共享编码器中,得到对应地瓶颈层特征c1和c2。
语音重构包括:将x1的瓶颈层特征c1输入到Spk1的解码器1中,得到Spk1的重构语 音频谱
Figure 350443DEST_PATH_IMAGE016
;类似地,将x2的瓶颈层特征c2输入到Spk2的解码器2中,得到Spk2的重构语音频 谱
Figure 551618DEST_PATH_IMAGE017
语音重构的损失函数可由以下公式(1)表示:
Figure 197362DEST_PATH_IMAGE001
(1)
其中,
Figure 509395DEST_PATH_IMAGE002
为语音重构损失值,
Figure 58450DEST_PATH_IMAGE003
为语音重构损失函数,
Figure 430526DEST_PATH_IMAGE004
为第一重构损 失值,
Figure 563567DEST_PATH_IMAGE005
为第二重构损失值,
Figure 679291DEST_PATH_IMAGE006
分别为第一语音频谱和第一重构语音频谱,
Figure 891309DEST_PATH_IMAGE007
分别为第二语音频谱和第二重构语音频谱。
第二轮编码包括:将c1和c2传入到与其不匹配的说话人解码器中,即将c1传入到 Spk2的解码器2中,c2传入到Spk1的解码器1中。然后分别将得到的重构语音频谱再经过共 享编码器进行编码,得到瓶颈层特征
Figure 434286DEST_PATH_IMAGE018
Figure 789043DEST_PATH_IMAGE019
循环损失计算包括:
Figure 209923DEST_PATH_IMAGE018
和c1中,应当得到相同的内容信息;类似地,在
Figure 966526DEST_PATH_IMAGE019
和c2中,也 应当得到相同的内容信息。因此,循环损失函数可通过公式(2)计算得出:
Figure 680404DEST_PATH_IMAGE008
(2)
其中,
Figure 788038DEST_PATH_IMAGE009
为综合循环损失值,
Figure 481449DEST_PATH_IMAGE003
为循环损失函数,
Figure 92559DEST_PATH_IMAGE010
为第一循环损失值,
Figure 508497DEST_PATH_IMAGE011
为第二循环损失值,
Figure 572268DEST_PATH_IMAGE012
分别为第一瓶颈层特征和第一循环瓶颈层特征,
Figure 69371DEST_PATH_IMAGE013
分别 为第二瓶颈层特征和第二循环瓶颈层特征。
模型更新包括:基于语音重构损失
Figure 800566DEST_PATH_IMAGE002
和综合循环损失
Figure 121826DEST_PATH_IMAGE009
获取综合损失 值,得到最终的损失函数通过以下公式(3)实现;然后可采用模型优化算法(如梯度下降法) 对共享编码器、Spk1解码器1和Spk2解码器2进行模型训练。
Figure 672893DEST_PATH_IMAGE020
(3)
其中,
Figure 239266DEST_PATH_IMAGE021
为综合损失值,
Figure 621706DEST_PATH_IMAGE002
为语音重构损失值,
Figure 848288DEST_PATH_IMAGE009
为综合循环损失值。
下面对本发明提供的基于循环损失的语音转换装置进行描述,下文描述的基于循环损失的语音转换装置与上文描述的基于循环损失的语音转换方法可相互对应参照。
参照图9,本发明提供的基于循环损失的语音转换装置,包括:
语音获取模块910,用于获取不同说话人的语音信息;
重构模块920,用于将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;
分离模块930,用于获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;
其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
基于以上实施例,基于循环损失的语音转换装置,包括:
样本获取模块,用于获得第一语音样本和第二语音样本;
频谱获取模块,用于基于短时傅里叶变换,将所述第一语音样本和第二语音样本分别转换为第一语音频谱和第二语音频谱;
模型建立模块,用于建立待训练的语音转换模型;其中所述语音转换模型包括共享编码器、第一解码器和第二解码器;
训练模块,用于将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值;
更新模块,用于基于所述综合损失值对所述语音转换模型进行参数更新,直至模型收敛停止更新。
基于以上实施例,训练模块具体用于:
将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值;
将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值;
基于所述语音重构损失值和所述综合循环损失值,获取综合损失值。
基于以上实施例,训练模块具体用于:
将所述第一语音频谱和第二语音频谱分别输入至所述共享编码器中,得到第一瓶颈层特征和第二瓶颈层特征;
将所述第一瓶颈层特征输入至所述第一解码器中,得到第一重构语音频谱,将所述第二瓶颈层特征输入至第二解码器中,得到第二重构语音频谱;
基于所述第一语音频谱和第一重构语音频谱获取第一重构损失值,基于所述第二语音频谱和第二重构语音频谱获取第二重构损失值;
基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值。
基于以上实施例,训练模块具体用于:
将所述第一瓶颈层特征输入至所述第二解码器中,得到第三重构语音频谱,将所述第二瓶颈层特征输入至所述第一解码器中,得到第四重构语音频谱;
将所述第三重构语音频谱和第四重构语音频谱分别输入至所述共享编码器中,获取第一循环瓶颈层特征和第二循环瓶颈层特征;
基于所述第一瓶颈层特征和所述第一循环瓶颈层特征获取第一循环损失值,基于所述第二瓶颈层特征和所述第二循环瓶颈层特征获取第二循环损失值;
基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值。
基于以上实施例,训练模块具体用于:
基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值,基于以下公式实现:
Figure 152230DEST_PATH_IMAGE001
(1)
其中,
Figure 256715DEST_PATH_IMAGE002
为语音重构损失值,
Figure 431344DEST_PATH_IMAGE003
为语音重构损失函数,
Figure 94407DEST_PATH_IMAGE004
为第一重构损 失值,
Figure 620066DEST_PATH_IMAGE005
为第二重构损失值,
Figure 528241DEST_PATH_IMAGE006
分别为第一语音频谱和第一重构语音频谱,
Figure 88536DEST_PATH_IMAGE007
分别为第二语音频谱和第二重构语音频谱。
基于以上实施例,训练模块具体用于:
基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值,基于以下公式实现:
Figure 453658DEST_PATH_IMAGE008
(2)
其中,
Figure 233657DEST_PATH_IMAGE009
为综合循环损失值,
Figure 178480DEST_PATH_IMAGE003
为循环损失函数,
Figure 327701DEST_PATH_IMAGE010
为第一循环损失值,
Figure 863725DEST_PATH_IMAGE011
为第二循环损失值,
Figure 853722DEST_PATH_IMAGE012
分别为第一瓶颈层特征和第一循环瓶颈层特征,
Figure 602236DEST_PATH_IMAGE013
分别 为第二瓶颈层特征和第二循环瓶颈层特征。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行基于循环损失的语音转换方法,该方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于循环损失的语音转换方法,该方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于循环损失的语音转换方法,该方法包括:获取不同说话人的语音信息;将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于循环损失的语音转换方法,其特征在于,包括:
获取不同说话人的语音信息;
将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;
获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;
其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
2.根据权利要求1所述的基于循环损失的语音转换方法,其特征在于,所述语音转换模型的训练方法包括:
获得第一语音样本和第二语音样本;
基于短时傅里叶变换,将所述第一语音样本和第二语音样本分别转换为第一语音频谱和第二语音频谱;
建立待训练的语音转换模型;其中所述语音转换模型包括共享编码器、第一解码器和第二解码器;
将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值;
基于所述综合损失值对所述语音转换模型进行参数更新,直至模型收敛停止更新。
3.根据权利要求2所述的基于循环损失的语音转换方法,其特征在于,所述将第一语音频谱和第二语音频谱分别输入至所述语音转换模型中进行训练,获取综合损失值,包括:
将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值;
将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值;
基于所述语音重构损失值和所述综合循环损失值,获取综合损失值。
4.根据权利要求3所述的基于循环损失的语音转换方法,其特征在于,将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第一轮编码并进行语音重构,获取语音重构损失值,包括:
将所述第一语音频谱和第二语音频谱分别输入至所述共享编码器中,得到第一瓶颈层特征和第二瓶颈层特征;
将所述第一瓶颈层特征输入至所述第一解码器中,得到第一重构语音频谱,将所述第二瓶颈层特征输入至第二解码器中,得到第二重构语音频谱;
基于所述第一语音频谱和第一重构语音频谱获取第一重构损失值,基于所述第二语音频谱和第二重构语音频谱获取第二重构损失值;
基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值。
5.根据权利要求3所述的基于循环损失的语音转换方法,其特征在于,所述将所述第一语音频谱和第二语音频谱分别输入语音转换模型中,进行第二轮编码并进行循环损失计算,获取综合循环损失值,包括:
将所述第一瓶颈层特征输入至所述第二解码器中,得到第三重构语音频谱,将所述第二瓶颈层特征输入至所述第一解码器中,得到第四重构语音频谱;
将所述第三重构语音频谱和第四重构语音频谱分别输入至所述共享编码器中,获取第一循环瓶颈层特征和第二循环瓶颈层特征;
基于所述第一瓶颈层特征和所述第一循环瓶颈层特征获取第一循环损失值,基于所述第二瓶颈层特征和所述第二循环瓶颈层特征获取第二循环损失值;
基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值。
6.根据权利要求4所述的基于循环损失的语音转换方法,其特征在于,所述基于语音重构损失函数、所述第一重构损失值和第二重构损失值获取所述语音重构损失值,基于以下公式实现:
Figure 377524DEST_PATH_IMAGE001
其中,
Figure 553291DEST_PATH_IMAGE002
为语音重构损失值,
Figure 540838DEST_PATH_IMAGE003
为语音重构损失函数,
Figure 827463DEST_PATH_IMAGE004
为第一重构损 失值,
Figure 452742DEST_PATH_IMAGE005
为第二重构损失值,
Figure 64989DEST_PATH_IMAGE006
分别为第一语音频谱和第一重构语音频谱,
Figure 274253DEST_PATH_IMAGE007
分别为第二语音频谱和第二重构语音频谱。
7.根据权利要求5所述的基于循环损失的语音转换方法,其特征在于,所述基于循环损失函数、第一循环损失值和第二循环损失值获取所述综合循环损失值,基于以下公式实现:
Figure 98990DEST_PATH_IMAGE008
其中,
Figure 844354DEST_PATH_IMAGE009
为综合循环损失值,
Figure 361923DEST_PATH_IMAGE003
为循环损失函数,
Figure 324063DEST_PATH_IMAGE010
为第一循环损失值,
Figure 952490DEST_PATH_IMAGE011
为第二循环损失值,
Figure 540642DEST_PATH_IMAGE012
分别为第一瓶颈层特征和第一循环瓶颈层特征,
Figure 229113DEST_PATH_IMAGE013
分别为第二瓶颈层特征和第二循环瓶颈层特征。
8.一种基于循环损失的语音转换装置,其特征在于,包括:
语音获取模块,用于获取不同说话人的语音信息;
重构模块,用于将所述语音信息输入至训练好的语音转换模型中,基于所述语音转换模型的共享编码器和解码器转换为重构语音信息;
分离模块,用于获取所述重构语音与语音信息之间的循环损失,并基于所述循环损失对所述语音信息进行语音内容信息以及说话人风格信息的分离;
其中,所述语音转换模型是基于不同语音样本以及样本的语音转换结果训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于循环损失的语音转换方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于循环损失的语音转换方法的步骤。
CN202210201058.7A 2022-03-02 2022-03-02 一种基于循环损失的语音转换方法及装置 Active CN114283824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210201058.7A CN114283824B (zh) 2022-03-02 2022-03-02 一种基于循环损失的语音转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210201058.7A CN114283824B (zh) 2022-03-02 2022-03-02 一种基于循环损失的语音转换方法及装置

Publications (2)

Publication Number Publication Date
CN114283824A true CN114283824A (zh) 2022-04-05
CN114283824B CN114283824B (zh) 2022-07-08

Family

ID=80882130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210201058.7A Active CN114283824B (zh) 2022-03-02 2022-03-02 一种基于循环损失的语音转换方法及装置

Country Status (1)

Country Link
CN (1) CN114283824B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111247585A (zh) * 2019-12-27 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
US20200365166A1 (en) * 2019-05-14 2020-11-19 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
US20210200965A1 (en) * 2019-12-30 2021-07-01 Tmrw Foundation Ip S. À R.L. Cross-lingual voice conversion system and method
CN113903347A (zh) * 2021-09-28 2022-01-07 平安科技(深圳)有限公司 一种基于机器学习的语音处理方法、装置、设备及介质
CN114023343A (zh) * 2021-10-30 2022-02-08 西北工业大学 基于半监督特征学习的语音转换方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200365166A1 (en) * 2019-05-14 2020-11-19 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
CN111247585A (zh) * 2019-12-27 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、装置、设备及存储介质
US20210200965A1 (en) * 2019-12-30 2021-07-01 Tmrw Foundation Ip S. À R.L. Cross-lingual voice conversion system and method
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN113903347A (zh) * 2021-09-28 2022-01-07 平安科技(深圳)有限公司 一种基于机器学习的语音处理方法、装置、设备及介质
CN114023343A (zh) * 2021-10-30 2022-02-08 西北工业大学 基于半监督特征学习的语音转换方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张帅、贾珈、杨大利、徐明星、蔡莲红: "方言转换系统中的音节切分算法研究", 《计算机技术与发展》 *
李涛: "基于CycleGAN网络实现非平行语料库条件下的语音转换", 《万方数据库》 *
高俊峰等: "基于Style-CycleGAN-VC 的非平行语料下的语音转换", 《计算机应用与软件》 *
黄国捷等: "增强变分自编码器做非平行语料语音转换", 《信号处理》 *

Also Published As

Publication number Publication date
CN114283824B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN111247585B (zh) 语音转换方法、装置、设备及存储介质
JP6019266B2 (ja) ステレオ・オーディオ・エンコーダおよびデコーダ
KR101513184B1 (ko) 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉
CN110335587B (zh) 语音合成方法、系统、终端设备和可读存储介质
CN112767954B (zh) 音频编解码方法、装置、介质及电子设备
CN111653285B (zh) 丢包补偿方法及装置
KR101665882B1 (ko) 음색변환과 음성dna를 이용한 음성합성 기술 및 장치
CN111326168B (zh) 语音分离方法、装置、电子设备和存储介质
CN109147805B (zh) 基于深度学习的音频音质增强
US20220180881A1 (en) Speech signal encoding and decoding methods and apparatuses, electronic device, and storage medium
CN115631275B (zh) 多模态驱动的人体动作序列生成方法及装置
WO2022228144A1 (zh) 音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品
CN107274883B (zh) 语音信号重构方法及装置
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
JPH1055199A (ja) 音声符号化並びに復号化方法及びその装置
CN112786001B (zh) 语音合成模型训练方法、语音合成方法和装置
CN114283824B (zh) 一种基于循环损失的语音转换方法及装置
EP3751565B1 (en) Parameter determination device, method, program and recording medium
CN116312502A (zh) 基于顺序采样分块机制的端到端流式语音识别方法及装置
CN111524500B (zh) 语音合成方法、装置、设备和存储介质
CN111048065B (zh) 文本纠错数据生成方法及相关装置
CN112687262A (zh) 语音转换方法、装置、电子设备及计算机可读存储介质
CN112669857B (zh) 一种语音处理的方法、装置及设备
CN110610713B (zh) 一种声码器余量谱幅度参数重构方法及系统
CN112906872B (zh) 乐谱转化为声谱的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zheng Fang

Inventor after: Liang Weida

Inventor after: Li Lantian

Inventor after: Xu Mingxing

Inventor after: Wan Hua

Inventor after: Zhang Chen

Inventor after: Pan Yangyao

Inventor after: Xie Yizheng

Inventor before: Zheng Fang

Inventor before: Li Pengqi

Inventor before: Li Lantian

Inventor before: Xu Mingxing

Inventor before: Wan Hua

Inventor before: Zhang Chen

Inventor before: Pan Yangyao

Inventor before: Xie Yizheng