CN112652318B

CN112652318B - 音色转换方法、装置及电子设备

Info

Publication number: CN112652318B
Application number: CN202011522489.0A
Authority: CN
Inventors: 王愈; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2024-03-29
Anticipated expiration: 2040-12-21
Also published as: CN112652318A

Abstract

本申请公开了一种音色转换方法、装置及电子设备，属于音频处理技术领域。所述方法包括：对接收到的目标语音信息进行特征提取处理，获得输入谱参数；基于所述输入谱参数确定第一语音文本参数；基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；基于所述输出谱参数确定音色转换后的目标语音信息。本申请实施例可以实现通过确定语音声音参数，减小了基于第一语音文本参数确定输出谱参数进行音色转换的误识别，实现了对误识别的纠错和容错，保证了音色转换的转换效果，提高了音色转换的可靠性。

Description

音色转换方法、装置及电子设备

技术领域

本申请属于音频处理技术领域，具体涉及一种音色转换方法、装置及电子设备。

背景技术

随着音频处理技术领域的不断发展，音色转换作为音频处理技术领域的一个分支也得到了快速发展。音色转换(Voice Conversion)指的是将一个人语音的声线音色进行转换，而对其语音内容保持不变。

目前，传统的音色转换方案是基于语音识别因素后验概率的符合系统方案，也即是通过引入语音识别，实现“任意对一”的灵活转换和高自然度的发音效果。因此，转换效果依赖于语音识别的准确率，语音识别作为音色转换方案中转换模型的特征提取器，在训练阶段和使用阶段都是音色转换模型的上游输入，决定着输入数据流的质量，任何的识别错误到会传递到最终结果。

最常见的识别错误可以包括：汉语中平舌和翘舌之前的混淆(例如“sh”和“s”)或者声调错误，或者出现完全错误的字。在使用阶段，对输入的待转换语音，语音识别阶段的任何识别错误，在音色转换后一定也是错误的；在训练阶段，语音识别阶段的错误识别直接影响最终的训练结果，导致音色转换方案损害了音色转换的转换效果，降低了音色转换的可靠性。

发明内容

本申请实施例的目的是提供一种音色转换方法、装置及电子设备，能够解决现有技术中音色转换方案损害了音色转换的转换效果，降低了音色转换的可靠性的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音色转换方法，该方法包括：

对接收到的目标语音信息进行特征提取处理，获得输入谱参数；

基于所述输入谱参数确定第一语音文本参数；

基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；

基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；

基于所述输出谱参数确定音色转换后的目标语音信息。

可选地，所述基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数，包括：

基于所述音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数概率分布的均值和方差；

基于正态分布函数生成所述语音声音参数概率分布的随机变量；

基于所述均值、所述方差和所述随机变量，确定所述语音声音参数。

可选地，所述基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数，包括：

基于所述音色转换模型对所述第一语音文本参数进行预设轮次的长度减半的卷积操作，确定第二语音文本参数；

基于所述音色转换模型将所述语音声音参数添加至所述第二语音文本参数中，确定目标语音参数；

对所述目标语音参数进行所述预设轮次的长度加倍的反卷积操作，确定所述输出谱参数。

可选地，所述基于所述音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数概率分布的均值和方差，包括：

基于所述音色转换模型对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作，确定目标输入谱参数；

基于所述目标输入谱参数确定语音声音参数法律分布的所述均值和所述方差。

可选地，还包括：

基于样本语音信息训练所述音色转换模型；

所述基于样本语音信息训练所述音色转换模型，包括：

对所述样本语音信息进行特征提取处理，得到样本输入谱参数、样本基频和样本非周期成分信息；

基于所述样本基频和所述样本非周期成分信息，确定样本输出目标谱参数；

基于所述样本输入谱参数确定样本语音文本参数；

对每一条所述样本语音信息，建立一组由所述输入谱参数和所述语音文本参数组成的样本输入信息，以及由所述样本输出谱参数构成的训练数据组；

基于所述训练数据组，按照神经网络训练方法训练得到所述音色转换模型。

第二方面，本申请实施例提供了一种音色转换装置，该装置包括：

输入谱参数获得模块，用于对接收到的目标语音信息进行特征提取处理，获得输入谱参数；

第一语音文本参数确定模块，用于基于所述输入谱参数确定第一语音文本参数；

语音声音参数确定模块，用于基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；

输出谱参数确定模块，用于基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；

目标语音信息确定模块，用于基于所述输出谱参数确定音色转换后的目标语音信息。

可选地，所述语音声音参数确定模块包括：

均值方差确定子模块，用于基于所述音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数概率分布的均值和方差；

随机变量生成子模块，用于基于正态分布函数生成所述语音声音参数概率分布的随机变量；

语音声音参数确定子模块，用于基于所述均值、所述方差和所述随机变量，确定所述语音声音参数。

可选地，所述输出谱参数确定模块包括：

第二语音文本参数确定子模块，用于基于所述音色转换模型对所述第一语音文本参数进行预设轮次的长度减半的卷积操作，确定第二语音文本参数；

目标语音参数确定子模块，用于基于所述音色转换模型将所述语音声音参数添加至所述第二语音文本参数中，确定目标语音参数；

输出谱参数确定子模块，用于对所述目标语音参数进行所述预设轮次的长度加倍的反卷积操作，确定所述输出谱参数。

可选地，所述均值方差确定子模块包括：

目标输入谱参数确定单元，用于基于所述音色转换模型对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作，确定目标输入谱参数；

均值方差确定单元，用于基于所述目标输入谱参数确定语音声音参数法律分布的所述均值和所述方差。

可选地，还包括：

音色转换模型训练模块，用于基于样本语音信息训练所述音色转换模型；

所述音色转换模型训练模块包括：

特征提取子模块，用于对所述样本语音信息进行特征提取处理，得到样本输入谱参数、样本基频和样本非周期成分信息；

样本输出目标谱参数确定子模块，用于基于所述样本基频和所述样本非周期成分信息，确定样本输出目标谱参数；

样本语音文本参数确定子模块，用于基于所述样本输入谱参数确定样本语音文本参数；

训练数据组建立子模块，用于对每一条所述样本语音信息，建立一组由所述输入谱参数和所述语音文本参数组成的样本输入信息，以及由所述样本输出谱参数构成的训练数据组；

音色转换模型训练子模块，用于基于所述训练数据组，按照神经网络训练方法训练得到所述音色转换模型。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的音色转换方法。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的音色转换方法。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的音色转换方法。

在本申请实施例中，通过对接收到的目标语音信息进行特征提取处理，获得输入谱参数；基于所述输入谱参数确定第一语音文本参数；基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；基于所述输出谱参数确定音色转换后的目标语音信息，可以实现通过确定语音声音参数，减小了基于第一语音文本参数确定输出谱参数进行音色转换的误识别，实现了对误识别的纠错和容错，保证了音色转换的转换效果，提高了音色转换的可靠性。

附图说明

图1为本申请实施例一提供的一种音色转换方法的步骤流程图；

图2示出了本申请实施例提供的一种音色转换系统的结构示意图；

图3示出了本申请实施例提供的一种音色转换模型的内部结构图；

图4为本申请实施例二提供的一种音色转换方法的步骤流程图；

图5示出了本申请实施例提供的一种音色转换模型训练的结果示意图；

图6为本申请实施例四提供的一种音色转换装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的参数调整方案进行详细地说明。

参照图1，示出了本申请实施例一提供的一种音色转换方法的步骤流程图，如图1所示，该音色转换方法具体可以包括如下步骤：

步骤101：对接收到的目标语音信息进行特征提取处理，获得输入谱参数。

电子设备中的音色转换系统中的特征预提取子模块可以对接收到的目标语音信息进行特征提取，从目标语音信息中提取出输入谱参数(MFCC)。

输入谱参数指的是梅尔倒谱系数(Mel-frequency Cepstral Coefficients，MFCC)，MFCC的物理含义就是--在语音识别领域，将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。

梅尔倒谱(Mel-cepstrum，MCEPs)，用于描述发音细节，包含了说话人的个人特性。由于每个人的声带、口腔特征的不同，不同人发出的声音波形具有不同特征，梅尔倒谱MCEPs描述不同人发出的声音波形的差异特征的参数。

音色转换(Voice Conversion)是指将一个人语音的声线音色转换为另一个人的声线音色，语音内容不变。音色转换的应用较广，市场从普通娱乐、发音矫正、直到身份攻防，都可广泛应用。

可选地，图2示出了本申请实施例提供的一种音色转换系统的结构示意图，如图2所示，音色转换系统00包括：语音识别模型01，音色转换模型02和声码器单元03，其中，语音识别模型01包括特征预提取子模型011、语音识别子模型012和声码器参数提取子模型(图中未画出)，音色转换模型02包括音色转换子模型021和变分自编码子模型022。

一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，该最低震动产生的音是基音(fundamental tone)。基频F0是指基音的频率，决定声音的音高。

现实世界中大部分的声音，都可以根据声音的周期特性将其分为周期性声音和非周期性声音。由于周期性声音的声音波型都具有一定的重复性，可以将声音分为纯音和复合音；纯音是含单一频率，同时声压随时间按正弦函数规律变化的声波。在自然界和日常生活中很少遇到纯音，纯音可由音叉产生，也可用电子振荡电路或音响合成器产生。而非周期性声音由许多频率、强度和相位不同的声音无规律性地组合在一起形成。非周期性成分AP是指：用于表示非周期性声音在不同周期间的声音频率、强度和相位的差异特征。

具体地，语音识别模型(ASR)01负责从目标语音信息中提取一种与发音人无关的、只体现发音内容的声学特征，称为第一语音文本参数(Phonetic Posterior Grams，PPGs)。音色转换模型02将第一语音文本参数转换到特定人的谱参数，也即是转换为输出谱参数。语音识别模型01还可以获取目标语音信息中得到基频(F0)和非周期成分信息(AP)。则声码器单元03可以在接收到输出谱参数连同基频和非周期成分信息后完成目标信息的转换和发声。

需要说明的是，变分自编码子模型022可以是变分自编码器(Variational AutoEncoder，VAE),VAE从概率论的角度，本质上是对一个有观测样本集的变量X与另一个不可观测的连续随机因变量Z建立联系，VAE可以包括编码器和解码器两部分，编码器负责从输入的训练集中学习因变量Z的概率分布模型，例如以均值方差为参数的高斯模型。解码器负责在输入为Z概率分布模型中随机采样的任何值都能近似重构出编码器的输出。也即是，无论VAE内部有任何的扰动，最终都能保证重构出输出。在本申请中，音色转换子模型021也即是VAE的解码器，实现从因变量Z采样值到重构输出的功能。

在对接收到的目标语音信息进行特征提取处理，获得输入谱参数之后，执行步骤102。

步骤102：基于所述输入谱参数确定第一语音文本参数。

参见图2，语音识别模型(ASR)01负责从目标语音信息中提取一种与发音人无关的、只体现发音内容的声学特征，称为第一语音文本参数(Phonetic Posterior Grams，PPGs)。

具体地，语音识别模型01中的特征预提取子模型011在对接收到的目标语音信息进行特征提取处理，获得输入谱参数后，语音识别子模型012可以对该输入谱参数进行语音识别，得到PPGs。

在基于所述输入谱参数确定第一语音文本参数之后，执行步骤103。

步骤103：基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数。

参见图2，音色转换模型02中的变分自编码子模型022可以对输入谱参数进行变分自编码处理，确定语音声音参数。

语音声音参数指的是可以直接表征语音声音信息的参数。

变自分编码模型可以基于所述音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数概率分布的均值和方差；并基于正态分布函数生成所述语音声音参数概率分布的随机变量；最后基于所述均值、所述方差和所述随机变量，确定所述语音声音参数。

其中，可以基于所述音色转换模型对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作，确定目标输入谱参数；基于所述目标输入谱参数确定语音声音参数法律分布的所述均值和所述方差，预设轮次可以是2轮次，也可以是4轮次，所述预设轮次应是2的整数倍，对于其具体轮次数，本申请实施例在此不做限定，可以根据实际应用做具体标定调整。

图3示出了本申请实施例提供的一种音色转换模型的内部结构图，如图3所示，音色转换模型02包括音色转换子模型021和变分自编码子模型022。

具体地，参见图3，设变分自编码子模型的输入为尺寸为设VAE编码器的输入为尺寸为[T，_DM]的MFCC矩阵，其中_T表示时间长度(与PPGs等长)，_DM表示每帧的MFCC维度(与PPGs的维度_D一般不同)，示例的，该MFCC维度可以是13，PPGs的维度_D可以是300，本申请实施例对此均不作具体限定，可以根据实际应用场景做标定。计算流程如下：

子步骤A1：对输入的结尾沿时间轴补0，得到尺寸为[T,_DM]的矩阵INM，使得补足后的长度T刚好是2的整数次方，例如可以是4、8、16、32、64、128等。

子步骤A2：INM经过卷积层AM1(卷积核尺寸为3，输出特征维度为F)以及配套的激励函数组，得到尺寸为[T,F]的矩阵O_AM1，也即是图3中的A代表的是降维阶段的卷积。

子步骤A3：O_AM1经过平均值Pooling层BM1(单元尺寸为2，跳跃单位2)，得到尺寸为[T/2，F]的矩阵O_BM1，也即是图3中的B，表示的是合并的平均值。

子步骤A4：O_BM1经过卷积层AM2(卷积核尺寸为3，输出特征维度为2F)以及配套的激励函数组，得到尺寸为[T/2，2F]的矩阵O_AM2。

子步骤A5：O_AM2经过平均值Pooling层BM2(单元尺寸为2，跳跃单位2)，得到尺寸为[T/4，2F]的矩阵O_BM2。

子步骤A6：将O_BM2在最后一维拆成等长的两个矩阵，作为尺寸均为[T/4，F]的均值μ和方差ρ。

子步骤A7：使用正态分布函数(如python里面的random.normal)随机生成尺寸为[T/4，F]的随机变量ε。

子步骤A8：计算语音声音参数z＝μ+ρ⊙ε。

子步骤A9：将z加到基础音色转换子模型021中间的O_B2。

使得在音色转换子模型中，O_B2之前和之后的结构保持不变，最终正常输出MCEPs。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

在基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数之后，执行步骤104。

步骤104：基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数。

可选地，音色转换模型可以基于所述音色转换模型对所述第一语音文本参数进行预设轮次的长度减半的卷积操作，确定第二语音文本参数；基于所述音色转换模型将所述语音声音参数添加至所述第二语音文本参数中，确定目标语音参数；对所述目标语音参数进行所述预设轮次的长度加倍的反卷积操作，确定所述输出谱参数。

示例的，参见图3，当预设轮次为2时，PPGs先经过2轮长度减半的卷积操作AB，得到尺寸为[T/4，F]的O_B2，将z加到上半部分的中间结果O_B2上得到目标语音参数，再经2轮长度加倍的反卷积操作CD恢复到原来输入的尺寸，得到输出谱参数MCEPs，其中，C表示反卷积操作，D表示升维阶段的卷积操作，E表示最后卷积操作。

在基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数之后，执行步骤105。

步骤105：基于所述输出谱参数确定音色转换后的目标语音信息。

声码器参数提取子模型可以提取目标语音信息中得到基频(F0)和非周期成分信息(AP)，可对得到的基频进行简单的线性变换得到目标基频，将该目标基频、AP和输出谱参数送入声码器单元，得到最终转换后的目标语音信息。

本申请实施例提供的音色转换方法，通过对接收到的目标语音信息进行特征提取处理，获得输入谱参数；基于所述输入谱参数确定第一语音文本参数；基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；基于所述输出谱参数确定音色转换后的目标语音信息，可以实现通过确定语音声音参数，减小了基于第一语音文本参数确定输出谱参数进行音色转换的误识别，实现了对误识别的纠错和容错，保证了音色转换的转换效果，提高了音色转换的可靠性。

参照图4，示出了本申请实施例二提供的一种音色转换方法的步骤流程图，该音色转换方法应用于电子设备，如图4所示，该音色转换方法具体可以包括如下步骤：

步骤201：基于样本语音信息训练所述音色转换模型。

可选地，步骤201的具体实现过程可以包括以下步骤：

步骤B1：对所述样本语音信息进行特征提取处理，得到样本输入谱参数、样本基频和样本非周期成分信息。

步骤B2：基于所述样本基频和所述样本非周期成分信息，确定样本输出目标谱参数。

步骤B3：基于所述样本输入谱参数确定样本语音文本参数。

步骤B4：对每一条所述样本语音信息，建立一组由所述输入谱参数和所述语音文本参数组成的样本输入信息，以及由所述样本输出谱参数构成的训练数据组。

步骤B5：基于所述训练数据组，按照神经网络训练方法训练得到所述音色转换模型。

示例的，图5示出了本申请实施例提供的一种音色转换模型训练的结果示意图，如图5所示：声码器参数提取子模型013可以提取样本语音信息中得到基频(F0)和非周期成分信息(AP)；基于所述样本基频和所述样本非周期成分信息，确定样本输出目标谱参数(MCEPs)；特征预提取子模块011可以对接收到的样本语音信息进行特征提取，从样本语音信息中提取出输入谱参数(MFCC)；语音识别子模型012负责提取一种与发音人无关的、只体现发音内容的声学特征，称为第一语音文本参数(Phonetic Posterior Grams，PPGs)，最终该句样本语音样本，得到最终格式的训练数据组([MFCC，PPGs]；MCEPs)，样本集中的每条语音样本都得到一组([MFCC，PPGs]；MCEPs)，基于所述训练数据组，按照神经网络训练方法训练得到所述音色转换模型。

在基于样本语音信息训练所述音色转换模型之后，执行步骤202。

步骤202：对接收到的目标语音信息进行特征提取处理，获得输入谱参数。

在对接收到的语音信息进行特征提取处理，获得输入谱参数之后，可以执行步骤203。

步骤203：基于所述输入谱参数确定第一语音文本参数。

具体地，语音识别模型01中的特征预提取子模型011在对接收到的目标语音信息进行特征提取处理，获得输入谱参数后，语音识别子模型012可以对该输入谱参数进行语音识别，得到PPGs。在基于所述输入谱参数确定第一语音文本参数，进而，执行步骤204。

步骤204：基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数。

语音声音参数指的是可以直接表征语音声音信息的参数。

图3示出了本申请实施例提供的一种音色转换模型的内部结构图，如图3所示，音色转换模型包括音色转换子模型021和变分自编码子模型022。

子步骤A8：计算语音声音参数z＝μ+ρ⊙ε。

子步骤A9：将z加到基础音色转换子模型021中间的O_B2。

在基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数，可以执行步骤205。

步骤205：基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数。

在基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数之后，执行步骤206。

步骤206：基于所述输出谱参数确定音色转换后的目标语音信息。

需要说明的是，本申请实施例提供的音色转换方法，执行主体可以为音色转换装置，或者该音色转换装置中的用于执行加载音色转换方法的控制模块。本申请实施例中以音色转换装置执行加载音色转换方法为例，说明本申请实施例提供的音色转换方法。

参照图6，示出了本申请实施例四提供的一种音色转换装置的结构示意图，该音色转换装置可以应用于电子设备，如图6所示，该音色转换装置具体可以包括如下模块：

输入谱参数获得模块301，用于对接收到的目标语音信息进行特征提取处理，获得输入谱参数；

第一语音文本参数确定模块302，用于基于所述输入谱参数确定第一语音文本参数；

语音声音参数确定模块303，用于基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；

输出谱参数确定模块304，用于基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；

目标语音信息确定模块305，用于基于所述输出谱参数确定音色转换后的目标语音信息。

可选地，所述语音声音参数确定模块包括：

可选地，所述输出谱参数确定模块包括：

可选地，所述均值方差确定子模块包括：

可选地，还包括：

所述音色转换模型训练模块包括：

本申请实施例提供的音色转换装置，通过对接收到的目标语音信息进行特征提取处理，获得输入谱参数；基于所述输入谱参数确定第一语音文本参数；基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；基于所述输出谱参数确定音色转换后的目标语音信息，可以实现通过确定语音声音参数，减小了基于第一语音文本参数确定输出谱参数进行音色转换的误识别，实现了对误识别的纠错和容错，保证了音色转换的转换效果，提高了音色转换的可靠性。

本申请实施例中的音色转换装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音色转换装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音色转换装置能够实现图1至图4的方法实施例中音色转换方法实现的各个过程，为避免重复，这里不再赘述。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的转换歌曲音色的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的转换歌曲音色的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种转换歌曲音色的方法、系统、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音色转换方法，其特征在于，包括：

基于所述输入谱参数确定第一语音文本参数；

基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数概率分布的均值和方差；基于正态分布函数生成所述语音声音参数概率分布的随机变量；基于所述均值、所述方差和所述随机变量，确定语音声音参数；

基于所述音色转换模型对所述第一语音文本参数进行预设轮次的长度减半的卷积操作，确定第二语音文本参数；基于所述音色转换模型将所述语音声音参数添加至所述第二语音文本参数中，确定目标语音参数；对所述目标语音参数进行所述预设轮次的长度加倍的反卷积操作，确定输出谱参数；

基于所述输出谱参数确定音色转换后的目标语音信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数概率分布的均值和方差，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

基于样本语音信息训练所述音色转换模型；

所述基于样本语音信息训练所述音色转换模型，包括：

基于所述样本输入谱参数确定样本语音文本参数；

4.一种音色转换装置，其特征在于，包括：

语音声音参数确定模块，用于基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数概率分布的均值和方差；基于正态分布函数生成所述语音声音参数概率分布的随机变量；基于所述均值、所述方差和所述随机变量，确定语音声音参数；

输出谱参数确定模块，用于基于所述音色转换模型对所述第一语音文本参数进行预设轮次的长度减半的卷积操作，确定第二语音文本参数；基于所述音色转换模型将所述语音声音参数添加至所述第二语音文本参数中，确定目标语音参数；对所述目标语音参数进行所述预设轮次的长度加倍的反卷积操作，确定输出谱参数；

5.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现权利要求1至3任一项所述的音色转换方法。

6.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现权利要求1至3任一项所述的音色转换方法。