CN110164463A

CN110164463A - 一种语音转换方法、装置、电子设备及存储介质

Info

Publication number: CN110164463A
Application number: CN201910434804.5A
Authority: CN
Inventors: 黄星
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-08-23
Anticipated expiration: 2039-05-23
Also published as: CN110164463B

Abstract

本公开关于一种语音转换方法、装置、电子设备及存储介质，属于计算机技术领域。采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示；采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征；将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征；将所述目标特征转换为目标语音。通过预先训练的编码器提取语音信息的语义特征后，利用矢量量化器对语义特征进行矢量量化处理后与预设特征结合，最后利用解码器恢复，缩小了语音转换前后特征之间的差距，提高了语音转换效果的稳定性，在语音转换的过程中无需进行人为调试，减少了人为参与。

Description

一种语音转换方法、装置、电子设备及存储介质

技术领域

本公开属于信息技术领域，特别是涉及一种语音转换方法、装置、电子设备及存储介质。

背景技术

语音风格迁移是指改变说话人的语音个性特征，使其具有目标说话人的语音个性特征，也就是让一个人说的语音经过转换后听起来是另一个人说的语音，并且语义并不发生改变。

相关技术中，语音风格迁移通常采用基于生成对抗的语音迁移算法，这种算法生成的模型较大，包含有包括生成模型和判别模型在内的多个部分，这种模型不仅需要生成模型和判别模型之间进行互相博弈学习，导致模型训练难度较高，并且需要大量的人工干预及处理才能保证模型的效果。还可基于VQ-VAE(Vector Quantised-VariationalAutoEncoder，向量量化变分自动编码器)等的模型直接对语音进行矢量量化的方式进行训练，但是这种方式需要对模型进行先验证设置，才能保证模型训练的稳定性，训练难度较大。

可以发现，现有的针对非平行预料的语音迁移模型的生成过程不仅结构复杂，训练难度大，而且需要过多的人工参与才能保证模型的效果。

公开内容

本公开提供一种语音转换方法、装置、电子设备及存储介质，以至少解决相关技术中语音风格迁移模型结构复杂，训练难度大，而且需要过多的人工参与的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音转换方法，包括：

采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示；

采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征；

将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征；

将所述目标特征转换为目标语音。

可选的，所述矢量量化器包含有根据预设配置建立的矢量量化空间；所述采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征的步骤，包括：

采用预先训练的矢量量化器将所述语义特征中的第一向量替换为所述矢量量化空间中相对应的第二向量，得到量化特征，所述第一向量与所述第二向量在所述矢量量化空间中的距离最小。

可选的，所述采用预先训练的编码器从原始语音信息中提取语义特征的步骤之前，所述方法还包括：

对输入的语音信息进行短时傅里叶变换与缩放得到以频域表示的原始语音信息。

可选的，所述将所述目标特征转换为目标语音的步骤，包括：

对所述目标特征进行短时傅里叶逆变换得到以时域表示的目标语音。

可选的，所述将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征，包括：

将所述量化特征与预设特征拼接得到拼接特征；

将所述拼接特征输入至预先训练的解码器中，预测得到目标特征。

可选的，所述编码器、解码器、矢量量化器通过以下步骤训练得到：

初始化预选的编码器、矢量量化器、解码器；

获取以频域表示的样本语音信息；

通过所述样本语音信息对所述编码器、矢量量化器、解码器同时进行训练。

可选的，所述通过所述样本语音信息对所述编码器、矢量量化器、解码器同时进行训练，包括：

将样本语音信息输入至所述编码器得到样本语义特征；

采用所述矢量量化器对所述样本语义特征进行量化处理得到样本量化特征；

将所述样本量化特征与预设特征输入至所述解码器得到样本目标特征；

根据所述样本语音信息、所述样本目标特征、所述样本语义特征、所述样本量化特征确定样本损失值；

若所述样本损失值大于或等于预设损失值阈值，则基于所述样本损失值调整所述编码器、矢量量化器、解码器的参数，以继续训练；

若所述样本损失值小于预设损失值阈值，则训练结束，并将当前编码器、矢量量化器、解码器作为训练得到的编码器、矢量量化器、解码器。

可选的，所述根据所述样本语音信息、所述样本目标特征、所述样本语义特征、所述样本量化特征确定样本损失值，包括：

计算所述样本语音信息与所述样本目标特征之间的均方误差；

计算所述样本语义特征与所述样本量化特征之间的平均距离；

将所述均方误差与所述平均距离结合得到样本损失值。

可选的，所述预设特征预先通过如下步骤得到：

确定目标类型的语音信息，所述目标类型至少包括：目标语言风格、目标语言种类其中的一种；

对所述目标类型的语音信息进行短时傅里叶变换与缩放得到预设特征。

根据本公开实施例的第二方面，提供一种语音转换装置，包括：

提取模块，被配置为采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示；

矢量量化模块，被配置为采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征；

预测模块，被配置为将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征；

转换模块，被配置为将所述目标特征转换为目标语音。

可选的，所述矢量量化器包含有根据预设配置建立的矢量量化空间；所述矢量量化模块，被配置为：

可选的，所述提取模块之前，所述装置还包括：

变换模块，被配置为对输入的语音信息进行短时傅里叶变换与缩放得到以频域表示的原始语音信息。

可选的，所述转换模块，被配置为：

可选的，所述预测模块，包括：

拼接子模块，被配置为将所述量化特征与预设特征拼接得到拼接特征；

预测子模块，被配置为将所述拼接特征输入至预先训练的解码器中，预测得到目标特征。

可选的，所述编码器、解码器、矢量量化器通过以下模块训练得到：

初始化模块，被配置为初始化预选的编码器、矢量量化器、解码器；

获取模块，被配置为获取以频域表示的样本语音信息；

训练模块，被配置为通过所述样本语音信息对所述编码器、矢量量化器、解码器同时进行训练。

可选的，所述训练模块，包括：

第一输入子模块，被配置为将样本语音信息输入至所述编码器得到样本语义特征；

矢量量化子模块，被配置为采用所述矢量量化器对所述样本语义特征进行量化处理得到样本量化特征；

第二输入子模块，被配置为将所述样本量化特征与预设特征输入至所述解码器得到样本目标特征；

损失子模块，被配置为根据所述样本语音信息、所述样本目标特征、所述样本语义特征、所述样本量化特征确定样本损失值；

第一确认模块，被配置为若所述样本损失值大于或等于预设损失值阈值，则基于所述样本损失值调整所述编码器、矢量量化器、解码器的参数，以继续训练；

第二确认模块，被配置为若所述样本损失值小于预设损失值阈值，则训练结束，并将当前编码器、矢量量化器、解码器作为训练得到的编码器、矢量量化器、解码器。

可选的，所述损失子模块，被配置为：

将所述均方误差与所述平均距离结合得到样本损失值。

可选的，所述预设特征预先通过如下模块得到：

预设确定模块，被配置为确定目标类型的语音信息，所述目标类型至少包括：目标语言风格、目标语言种类其中的一种；

预设语音模块，被配置为对所述目标类型的语音信息进行短时傅里叶变换与缩放得到预设特征。

根据本公开实施例的第三方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一所述的语音转换方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的语音转换方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例中，采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示；采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征；将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征；将所述目标特征转换为目标语音。通过预先训练的编码器提取语音信息的语义特征后，利用矢量量化器对语义特征进行矢量量化处理后与预设特征结合，最后利用解码器恢复，缩小了语音转换前后特征之间的差距，提高了语音转换效果的稳定性，在语音转换的过程中无需进行人为调试，减少了人为参与。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起被配置为解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音转换方法的流程图；

图2是根据一示例性实施例示出的另一种语音转换方法的流程图；

图3是根据一示例性实施例示出的一种生成量化特征的流程图；

图4是根据一示例性实施例示出的一种生成预设的编码器、矢量量化器、解码器的流程图；

图5是根据一示例性实施例示出的一种编码器、矢量量化器、解码器训练的流程图；

图6是根据一示例性实施例示出的一种样本损失值计算方法的流程图；

图7是根据一示例性实施例示出的一种语音转换装置的框图；

图8是根据一示例性实施例示出的另一种语音转换装置的框图；

图9是根据一示例性实施例示出的一种生成预设的编码器、矢量量化器、解码器的模块框图；

图10是根据一示例性实施例示出的一种生成预设特征的模块框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是被配置为区别类似的对象，而不必被配置为描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是本公开实施例提供的一种语音转换方法的步骤流程图，如图1所示，该方法可以包括：

步骤S101，采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示。

在本公开实施例中，所述预先训练的编码器是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，能将输入压缩成潜在空间表征，可以用编码函数h＝f(x)表示，用于为特征降维。

所述原始语音信息为需要进行风格转换语音的频域信息特征，所述频域信息特征可以是梅尔频谱，梅尔频谱是一个可用来代表短期音讯的频谱，其原理是基于非线性的梅尔刻度表示对数频谱及其线性余弦转换。

当需要对一语音信息转换成其他语音风格时，将该语音信息转换为频域格式的语音信息，再利用通过预先训练得到的编码器，提取语义特征，所述语义特征是指反映语音信息表达意义所具有的语义特征向量集合。

步骤S102，采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征。

在本公开实施例中，所述矢量量化器是利用矢量量化算法训练得到的，矢量量化是一种数据压缩技术，将若干个标量数据组构成一个矢量，然后在矢量空间给以整体化，从而压缩了数据而不损失多少信息。

虽然通过提取原始语音信息的语义特征可以体现原始语音信息的表达意义，但所达到的效果与原始语音信息仍然差距过大，由于不同人说的相同意义的话所对应的语义特征之间差距大，因此需要通过预先训练的矢量量化器对所述语义特征的向量进行量化处理，以减少不同人所说相同意义的话之间语义特征的差距。矢量量化可以看作是一种更优的聚类方向，因为它保留有原始数据的信息，是减少差距。因为这里语音转换的级别是音素级，所以内容相同也会因为每个人的差别而不同。

步骤S103，将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征。

在本公开实施例中，所述解码器是一种无监督的神经网络模型，它用学习到的新特征可以重构出原始输入数据。通过将量化特征与所述预设特征进行拼接，得到基于需要转换语音风格对应的目标特征。这里的目标特征与输入的原始语音信息对应，均以频域表示。

步骤S104，将所述目标特征转换为目标语音。

在本公开实施例中，利用预先训练的解码器将量化特征恢复为频域格式的目标特征，再通过音频信号转换器，例如wavenet(一种频谱与语音的转化器)将所述目标特征对应的频域信息转换为可被人听觉识别的语音信息，并通过音频输出数据设备进行输出。

在实际应用中，若所述目标语音与语音信息之间的差异未达到预期的效果或者想要获得更好的语音转换效果，可以利用所述语音信息对所述编码器、矢量量化器、解码器进行进一步的训练，以对编码器、矢量量化器、解码器中的参数进行调节，直到利用语音信息、语义特征、目标特征、量化特征确定的损失值小于预期损失值，则确定语音转换达到了预期的效果，将所述目标特征转换成目标语音。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例中，采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示；采用预先训练的矢量量化器对所述语义特征进行量化处理得到量化特征采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征；将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征；将所述目标特征转换为目标语音。通过预先训练的编码器提取语音信息的语义特征后，利用矢量量化器对语义特征进行矢量量化处理后与预设特征结合，最后利用解码器恢复，缩小了语音转换前后语义特征之间的差距，提高了语音转换效果的稳定性。

图2是本公开实施例提供的另一种语音转换方法的步骤流程图，如图2所示，该方法可以包括：

步骤S201，对输入的语音信息进行短时傅里叶变换与缩放得到以频域表示的原始语音信息。

在本公开实施例中，所述语音信息可以通过音频采集设备输入语音信息忽获得，也可以通过音频处理软件从视频中剥离获得，或者通过捕获、截取光盘音频获得。

短时傅里叶变换与缩放是与傅里叶变换与缩放相关的一种数据变换，用于确定识别信息中局部区域的正弦波的频率与相位。通过短时傅里叶变换与缩放处理后得到频域表示的原始语音信息，即梅尔频谱，由于梅尔频谱的频带是均匀分布在梅尔刻度上的，也就是说，这样的频带会较一般的线性频谱相比，和人类非线性的听觉系统更为接近，有利于语义特征的提取。

步骤S202，采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示。

该步骤可以参照步骤S101的详细说明，此处不再赘述。

步骤S203，采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征。

该步骤可以参照步骤S102的详细说明，此处不再赘述。

可选的，所述矢量量化器包含有根据预设配置建立的矢量量化空间；所述步骤S203，可以包括：

子步骤S2031，采用预先训练的矢量量化器将所述语义特征中的第一向量替换为所述矢量量化空间中相对应的第二向量，得到量化特征，所述第一向量与所述第二向量在所述矢量量化空间中的距离最小。

在本公开实施例中，所述矢量量化器中构建有s*q的矢量量化空间，s表示空间的大小，q表示空间的维度。其中q与语义特征的维度相同，并且s和q都是可以根据实际效果预先配置的，以获取最优的效果。语义特征是特征隐变量标识集合dn，由n个第一向量di组成，1<i<＝n。矢量量化空间由q*s个第二向量qt组成，1<q<＝n。

所述矢量量化器通过将语义特征dn中的第一向量di，采用以下公式(1)进行替换：

di’＝qt＝arg min(D(qt,di)) (1)

D为距离函数，可以使用欧式距离，arg将di替换为矢量量化空间中与之距离最近的qt，替换后的di’组成量化特征dn’。

通过将语义信息进行矢量量化处理，缩小了语义信息转换前后的差距，提高了语音转换的稳定性。

步骤S204，将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征。

该步骤可以参照步骤S103的详细说明，此处不再赘述。

可选的，所述预设特征预先通过如下步骤A1至A2得到：

步骤A1，确定目标类型的语音信息，所述目标类型至少包括：目标语言风格、目标语言种类其中的一种。

步骤A2，对所述目标类型的语音信息进行短时傅里叶变换与缩放得到预设特征。

在本公开实施例中，目标语言风格是指语音信息的语义类型，例如女声、男声、童声等，目标语言种类可以包括语音信息所涉及的语种、应用场景，例如歌声、演讲等。通过确定不同目标类型的语音信息，可以提高语音转换的多样性和针对性。

可选的，参照图3，所述步骤S204，可以包括：

子步骤S2041，将所述量化特征与预设特征拼接得到拼接特征。

在本公开实施例中，将量化特征与预设特征通过concat函数进行拼接，所述concat函数是一种数据拼接方法，该函数不会改变现有的数组，而仅会返回连接数组的一个副本，将拼接得到的新数组作为所述拼接特征。

具体地，可以将量化特征拼接到预设特征之后，还可以将预设特征拼接到量化特征之后，本发明对拼接顺序不加以限制。

子步骤S2042，将所述拼接特征输入至预先训练的解码器中，预测得到目标特征。

在本公开实施例中，由于所述解码器是与之前的编码器和矢量量化器一同进行训练得到的，因此所述解码器可以将一组特征向量还原成频域的形式。此处所述解码器将所述拼接特征进行解码，得到频域形式的目标特征。

通过将目标特征与预设特征进行拼接并解码还原成频域形式的目标特征，对预设特征进行灵活替换从而获得不同语音转换的风格，提高了语音性格的灵活性和可拓展性。

步骤S205，将所述目标特征转换为目标语音。

该步骤可以参照步骤S104的详细说明，此处不再赘述。

可选的，所述步骤S205，可以包括：

步骤S2051，对所述目标特征进行短时傅里叶逆变换得到以时域表示的目标语音。

在本公开实施例中，由于所述目标特征是频域形式的梅尔频谱，因此通过将所述目标特征利用频谱与语音转换器，例如wavenet，即可获得可被人听觉识别的目标语音，无需对目标特征再进行其他处理，简化语音转换的程序，减少了语音转换过程中的人为参与。

可选的，参照图4，所述编码器、解码器、矢量量化器通过以下步骤训练得到：

步骤S301，初始化预选的编码器、矢量量化器、解码器。

在本公开实施例中，编码器、矢量量化器、解码器是同时进行训练的，在均处于初始化的状态下，通过对矢量量化器中矢量量化空间的维度和空间大小进行预先配置后，开始进行训练。

具体地，可以为编码器、矢量量化器、解码器随机分配参数，还可以根据经验值分配，从而可以使得收敛速度更快，训练时间较短。

步骤S302，获取以频域表示的样本语音信息。

在本公开实施例中，所述样本语音信息可以是一个或多个语音风格的语音信息。

具体地，首先，收集大量时域的语音信息，例如，输入的语音信息；然后，将时域的语音信息转换为频域，得到样本语音信息。

步骤S303，通过所述样本语音信息对所述编码器、矢量量化器、解码器同时进行训练。

在本公开实施例中，在模型训练时，由于预设特征是初始化的，也就是预设特征初始为0，因此仅编码器与解码器的训练过程其实是训练转换和恢复的过程，模型训练的时候并不是针对某一具体预设特征，训练的目的是为了减少输入与输出之间的差距，可以理解，当训练结束时，转换前后的特征集合几乎是相同的。在实际应用中，只需输入具体的预设特征对原有的预设特征进行替换即可，也可以根据输入的预设特征进行进一步优化训练。

可选的，参照图5，所述步骤S303，可以包括：

子步骤S3031，将样本语音信息输入至所述编码器得到样本语义特征。

在本公开实施例中，将频域形式的样本语音信息通过编码器提取样本语义特征。

该步骤可以参照应用步骤S101的详细说明，在此不再赘述，区别在于，此时的编码器的参数可能不是最优的，还需要调整，但应用步骤S101对应的编码器的参数是最优的。

子步骤S3032，采用所述矢量量化器对所述样本语义特征进行量化处理得到样本量化特征。

在本公开实施例中，通过将语义特征输入到矢量量化器中进行训练，对所述矢量量化中的参数进行调整，并且也可以根据输出的量化特征与样本语义特征的差距对矢量量化器的空间维度和空间大小配置进行调整。

该步骤可以参照应用步骤S102的详细说明，在此不再赘述，区别在于，此时的矢量量化器的参数可能不是最优的，还需要调整，但应用步骤S102对应的矢量量化器的参数是最优的。

子步骤S3033，将所述样本量化特征与预设特征输入至所述解码器得到样本目标特征。

在本公开实施例中，通过concat函数将样本量化特征与预设特征进行拼接后得到样本拼接特征，并将所述样本拼接特征输入到所述解码器进行转换得到频域形式的样本目标特征。

该步骤可以参照应用步骤S103的详细说明，在此不再赘述，区别在于，此时的解码器的参数可能不是最优的，还需要调整，但应用步骤S103对应的解码器的参数是最优的。

子步骤S3034，根据所述样本语音信息、所述样本目标特征、所述样本语义特征、所述样本量化特征确定样本损失值。

在本公开实施例中，通过将样本语音信息与样本目标特征的差距，结合样本语义特征与样本量化特征之间的差距确定所述编码器、矢量量化器、解码器所组成模型的损失值。

子步骤S3035，若所述样本损失值大于或等于预设损失值阈值，则基于所述样本损失值调整所述编码器、矢量量化器、解码器的参数，以继续训练。

在本公开实施例中，通常情况下，所述预设损失值阈值可以在0.04-0.05之间，当所述损失值大于或等于预设损失预置，则确定该模型还需要继续训练。利用新输入的样本语音信息或原有的样本语音信息继续对所述编码器、矢量量乎其和解码器继续进行训练。

可以理解，预设损失值阈值可以根据实际应用场景设定，本发明对其不加以限制。当然，损失值阈值越小，模型越准确，但训练时间越长；损失值阈值越大，模型准确度越差，但训练时间越短。

子步骤S3036，若所述样本损失值小于预设损失值阈值，则训练结束，并将当前编码器、矢量量化器、解码器作为训练得到的编码器、矢量量化器、解码器。

在本公开实施例中，当该模型的训练的损失值稳定地小于预设损失阈值时，可确定所述编码器、矢量量化器、解码器的效果已达到预期效果，可以结束训练，将所述编码器、矢量量器、解码器作为预先训练的编码器、矢量量器、解码器。

本公开实施例通过样本语义特征、样本目标特征、样本量化特征、样本信息确定样本损失值训练所述编码器、矢量量化器、解码器，减少了样本语音转换前后的特征差距，提高了在使用所述编码器、量化器、解码器组成的模型进行语音转换的稳定性。

可选的，参照图6，所述S3034，可以包括：

子步骤S3034A，计算所述样本语音信息与所述样本目标特征之间的均方误差。

子步骤S3034B，计算所述样本语义特征与所述样本量化特征之间的平均距离。

子步骤S3035C，将所述均方误差与所述平均距离结合得到样本损失值。

在本公开实施例中，参照公式(2)，所述通过将频域形式的所述样本语音信息m与频域形式的样本目标特征m’之间的均方误差，结合所述样本语义特征di与所述样本目标特征di’之间的距离得到的损失值作为优化目标，对所述编码器、矢量量化器、解码器进行训练。

loss＝MSE(m’，m)+D(di，di’) (2)

其中，MSE(m’，m)为样本语音信息m与样本目标特征m’之间的均方误差，D(di，di’)为样本语义特征di与样本目标特征di’之间的距离。

通过将编码器、矢量量化器、解码器根据输出和输出的样本特征向量的样本损失值进行训练，优化了模型的使用时的效果，提高了语音转换的稳定性。

本公开实施例中，采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示；采用预先训练的矢量量化器对所述语义特征进行量化处理得到量化特征采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征；将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征；将所述目标特征转换为目标语音。通过预先训练的编码器提取语音信息的语义特征后，利用矢量量化器对语义特征进行矢量量化处理后与预设特征结合，最后利用解码器恢复，缩小了语音转换前后特征之间的差距，提高了语音转换效果的稳定性，在语音转换的过程中无需进行人为调试，减少了人为参与。

图7是根据一示例性实施例示出的一种语音转换装置30的结构框图，参照图7，所述装置包括：

提取模块301，被配置为采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示。

矢量量化模块302，被配置为采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征。

预测模块303，被配置为将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征。

转换模块304，被配置为将所述目标特征转换为目标语音。

本公开实施例中，提取模块，被配置为采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示；矢量量化模块，被配置为采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征；预测模块，被配置为将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征；转换模块，被配置为将所述目标特征转换为目标语音。通过预先训练的编码器提取语音信息的语义特征后，利用矢量量化器对语义特征进行矢量量化处理后与预设特征结合，最后利用解码器恢复，缩小了语音转换前后特征之间的差距，提高了语音转换效果的稳定性，在语音转换的过程中无需进行人为调试，减少了人为参与。

图8是根据一示例性实施例示出的另一种语音转换装置40的结构框图，参照图8，所述装置包括：

变换模块401，被配置为对输入的语音信息进行短时傅里叶变换与缩放得到以频域表示的原始语音信息。

提取模块402，被配置为采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示。

矢量量化模块403，被配置为采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征。

可选的，所述矢量量化器包含有根据预设配置建立的矢量量化空间；所述矢量量化模块403，被配置为：

预测模块404，被配置为将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征。

转换模块405，被配置为将所述目标特征转换为目标语音。

可选的，所述转换模块405，被配置为：

可选的，所述预测模块404，可以包括：

拼接子模块4041，被配置为将所述量化特征与预设特征拼接得到拼接特征；

预测子模块4041，被配置为将所述拼接特征输入至预先训练的解码器中，预测得到目标特征。

可选的，参照图9，所述编码器、解码器、矢量量化器通过以下模块训练得到：

初始化模块501，被配置为初始化预选的编码器、矢量量化器、解码器；

获取模块502，被配置为获取以频域表示的样本语音信息；

训练模块503，被配置为通过所述样本语音信息对所述编码器、矢量量化器、解码器同时进行训练。

可选的，所述训练模块503，包括：

第一输入子模块5031，被配置为将样本语音信息输入至所述编码器得到样本语义特征；

矢量量化子模块5032，被配置为采用所述矢量量化器对所述样本语义特征进行量化处理得到样本量化特征；

第二输入子模块5033，被配置为将所述样本量化特征与预设特征输入至所述解码器得到样本目标特征；

损失子模块5034，被配置为根据所述样本语音信息、所述样本目标特征、所述样本语义特征、所述样本量化特征确定样本损失值；

第一确认模块5035，被配置为若所述样本损失值大于或等于预设损失值阈值，则基于所述样本损失值调整所述编码器、矢量量化器、解码器的参数，以继续训练；

第二确认模块5036，被配置为若所述样本损失值小于预设损失值阈值，则训练结束，并将当前编码器、矢量量化器、解码器作为训练得到的编码器、矢量量化器、解码器。

可选的，所述损失子模块5034，被配置为：

将所述均方误差与所述平均距离结合得到样本损失值。

可选的，参照图10，所述预设特征预先通过如下模块得到：

预设确定模块601，被配置为确定目标类型的语音信息，所述目标类型至少包括：目标语言风格、目标语言种类其中的一种；

预设语音模块602，被配置为对所述目标类型的语音信息进行短时傅里叶变换与缩放得到预设特征。

本公开实施例中，提取模块，被配置为采用预先训练的编码器从原始语音信息中提取语义特征，所述原始语音信息以频域表示；矢量量化模块，被配置为采用预先训练的矢量量化器对所述语义特征进行量化处理得到量化特征采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征；预测模块，被配置为将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征；转换模块，被配置为将所述目标特征转换为目标语音。通过预先训练的编码器提取语音信息的语义特征后，利用矢量量化器对语义特征进行矢量量化处理后与预设特征结合，最后利用解码器恢复，缩小了语音转换前后特征之间的差距，提高了语音转换效果的稳定性，在语音转换的过程中无需进行人为调试，减少了人为参与。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

另外，本公开实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在处理上运行的计算机程序，该计算机程序被处理器执行时实现上述语音转换方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音转换方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，可以为只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本公开的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的语音转换方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本公开方案的系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的语音转换方法中的一些或者全部部件的一些或者全部功能。本公开还可以实现为被配置为执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种语音转换方法，其特征在于，包括:

将所述目标特征转换为目标语音。

2.根据权利要求1所述的方法，其特征在于，所述矢量量化器包含有根据预设配置建立的矢量量化空间；所述采用预先训练的矢量量化器对所述语义特征进行矢量量化处理得到量化特征的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述采用预先训练的编码器从原始语音信息中提取语义特征的步骤之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述目标特征转换为目标语音的步骤，包括：

5.根据权利要求1至4其中任一项所述的方法，其特征在于，所述将所述量化特征与预设特征输入至预先训练的解码器中，预测得到目标特征，包括：

将所述量化特征与预设特征拼接得到拼接特征；

6.根据权利要求5所述的方法，其特征在于，所述编码器、解码器、矢量量化器通过以下步骤训练得到：

初始化预选的编码器、矢量量化器、解码器；

获取以频域表示的样本语音信息；

7.根据权利要求6所述的方法，其特征在于，所述通过所述样本语音信息对所述编码器、矢量量化器、解码器同时进行训练，包括：

将样本语音信息输入至所述编码器得到样本语义特征；

8.一种语音转换装置，其特征在于，包括:

转换模块，被配置为将所述目标特征转换为目标语音。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一所述的语音转换方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一所述的语音转换方法。