CN111433847A

CN111433847A - 语音转换的方法及训练方法、智能装置和存储介质

Info

Publication number: CN111433847A
Application number: CN201980003377.3A
Authority: CN
Inventors: 王若童; 黄东延; 李贤�; 谢杰斌; 汤志超; 丁万; 刘洋; 李柏; 熊友军
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-07-17
Anticipated expiration: 2039-12-31
Also published as: US20210201890A1; US11282503B2; CN111433847B; WO2021134520A1

Abstract

本发明公开了一种语音转换的训练方法，包括：建立第一训练数据集合，第一训练数据集合包括多组训练语音数据组；从第一训练数据集合中选择两组训练语音数据组输入语音转换神经网络进行训练；建立第二训练数据集合，第二训练集合包括第一训练数据集合以及第一源说话人语音数据组，从第一训练数据集合中选择一组训练语音数据和第一源说话人语音数据输入语音转换神经网络进行训练；建立第三训练数据集合，第三训练数据集合包括互为平行语料的第二源说话人语音数据组和个性语音数据组，将第二源说话人语音数据组和个性语音数据组输入语音转换神经网络进行训练。本发明还公开了语音转换的方法、智能装置和存储介质，本发明可以有效节约时间和存储空间。

Description

语音转换的方法及训练方法、智能装置和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及语音转换的方法及训练方法、智能装置和存储介质。

背景技术

语音转换技术，是一种将源语音转换为目标语音的技术。源语音和目标语音所表达的内容相同，但在音色、风格上有所不同。基于信号处理方法与传统及其学习方法的语音转换技术得到的语音转换模型，合成语音不够自然流畅，效果欠佳。基于深度学习的语音转换技术可以转换出相似度高，流畅自然的语音，特点是需要大量的语音数据进行训练。

发明内容

基于此，有必要针对上述问题，提出了语音转换的方法及训练方法、智能装置和存储介质。

一种语音转换的训练方法，所述方法包括：建立第一训练数据集合，所述第一训练数据集合包括多组训练语音数据组；从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练；建立第二训练数据集合，所述第二训练集合包括所述第一训练数据集合以及第一源说话人语音数据组；从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练；建立第三训练数据集合，所述第三训练数据集合包括第二源说话人语音数据组和个性语音数据组，所述第二源说话人语音数据组包括第二数量条第二源说话人语音数据，且与所述第一源说话人语音数据组对应同一说话人，所述个性语音数据组包括第二数量条个性语音数据，所述第二数量小于所述第一数量；将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。

一种语音转换方法，包括：获取待转换语音数据；将所述待转换语音数据输入预训练的所述语音转换神经网络，根据所述语音转换神经网络的输出获取目标语音数据；其中，所述语音转换神经网络经过如上所述的方法训练；所述待转换语音属于与所述个性语音数据组对应同一说话人。

一种智能装置，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如下方法：建立第一训练数据集合，所述第一训练数据集合包括多组训练语音数据组；从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练；建立第二训练数据集合，所述第二训练集合包括所述第一训练数据集合以及第一源说话人语音数据组；从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练；建立第三训练数据集合，所述第三训练数据集合包括第二源说话人语音数据组和个性语音数据组，所述第二源说话人语音数据组包括第二数量条第二源说话人语音数据，且与所述第一源说话人语音数据组对应同一说话人，所述个性语音数据组包括第二数量条个性语音数据，所述第二数量小于所述第一数量；将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。

一种智能装置，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如下方法：获取待转换语音数据；将所述待转换语音数据输入预训练的所述语音转换神经网络，根据所述语音转换神经网络的输出获取目标语音数据；其中，所述语音转换神经网络经过如上所述的方法训练；所述待转换语音属于与所述个性语音数据组对应同一说话人。

一种存储介质，存储有计算机程序，所述计算机程序能够被处理器执行以实现如上所述的方法。

采用本发明实施例，具有如下有益效果：

先通过第一训练数据集合中的两组训练语音数据组对语音转换神经网络进行训练，使得语音转换神经网络学习覆盖大量语料，学习到足够泛化的概率分布，再通过第一源说话人语音数据组至多组训练语音数据组的转换训练，使得语音转换神经网学习到从源说话人转换到不同说话人的概率分布，最后进行源说话人到指定说话人的训练时，只需要很小数据量的第二源说话人语音数据和个性语音数据即可完成训练，在实际使用时，可以由商家提供第一训练数据集合和第二训练数据集合，用户只需要准备少量的语音数据即可完成对语音转换神经网络的训练，操作简便，可以有效节约时间和存储空间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明一个实施例中语音转换的训练方法应用环境图；

图2是本发明提供的语音转换的训练方法的第一实施例的流程示意图；

图3是本发明提供的语音转换的训练方法中训练语音转换神经网络的方法的一实施例的流程示意图；

图4是本发明提供的语音转换的训练方法中动态规划时间对齐的方法的一实施例的流程示意图；

图5为动态规划时间对齐的原理示意图；

图6是本发明提供的语音转换方法的一实施例的流程示意图；

图7是本发明提供的智能装置的第一实施例的结构示意图；

图8是本发明提供的智能装置的第二实施例的结构示意图；

图9是本发明提供的智能装置的第三实施例的结构示意图；

图10是本发明提供的智能装置的第四实施例的结构示意图；

图11是本发明提供的存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中基于信号处理方法和传统机器学习方法的语音转换技术得到的语音转换模型，合成语音不够自然流畅，效果欠佳。基于深度学习的语音转换技术可以转换出相似度高，流畅自然的语音，特点是需要大量的语音数据进行训练。

在本实施例中，为了解决上述问题，提供了一种语音转换的方法，操作简便，可以有效节约时间和存储空间。

请参阅图1，图1是本发明一个实施例中语音转换的训练方法应用环境图。参照图1，该语音转换的训练方法应用于语音转换的训练系统。该语音转换的训练系统包括终端110和服务器120。终端110和服务器120通过网络连接，终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取个性语音数据组，服务器120用于建立第一训练数据集合，第一训练数据集合包括多组训练语音数据组，每组训练语音数据组包括第一数量条训练语音数据，任意两组训练语音数据互为平行语料；从第一训练数据集合中选择两组训练语音数据组，其中一组训练语音数据组作为源语音数据组，另一组作为目标语音数据组；将源语音数据组和目标语音数据组输入语音转换神经网络进行训练；建立第二训练数据集合，第二训练集合包括第一训练数据集合以及第一源说话人语音数据组，第一源说话人语音数据组包括第一数量条第一源说话人语音数据，第一源说话人语音数据组与任意一组训练语音数据互为平行语料；从第一训练数据集合中选择一组训练语音数据组作为目标语音数据组，将源说话人语音数据组作为源语音数据组；将源语音数据组和目标语音数据组输入语音转换神经网络进行训练；建立第三训练数据集合，第三训练数据集合包括互为平行语料的第二源说话人语音数据组和个性语音数据组，第二源说话人语音数据组包括第二数量条第二源说话人语音数据，个性语音数据组包括第二数量条个性语音数据，第二数量小于第一数量；将第二源说话人语音数据组作为源语音数据组，将个性语音数据组作为目标语音数据组；将源语音数据组和目标语音数据组输入语音转换神经网络进行训练。

请参阅图2，图2是本发明提供的语音转换的训练方法的第一实施例的流程示意图。本发明提供的语音转换的训练方法包括如下步骤：

S101：建立第一训练数据集合，第一训练数据集合包括多组训练语音数据组。

在一个具体的实施场景中，建议第一训练数据集合，第一训练数据集合中包括多组训练语音数据组，每组训练语音数据组对应不同的说话人，任意两组训练语音数据组互为平行语料，每组训练语音数据组中语音的文本内容均相同。每组训练语音数据组包括第一数量条训练语音数据。在本实施场景中第一数量为300，在其他实施场景中，第一数量还可以是200、500等。

第一训练数据集合可以由商家提供，商家可以事先采集，或者从数据库中获取多组训练语音数据组，从而建立第训练数据集合。

S102：从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练。

在一个具体的实施场景中，从第一训练数据集合中选择两组训练语音数据组，其中一组作为源语音数据组，另一组作为目标语音数据组。例如，在本实施场景中有10组训练语音数据组，则可以组成10*9*300＝27000对不同的从源语音数据到目标语音数据的训练组合。

在本实施场景中，可以按照排列组合的顺序依次选择两组训练语音数据组，直至遍历第一训练数据集合中全部的训练语音数据组。

在本实施场景中，将选择的源语音数据组和目标语音数据组输入语音转换神经网络进行训练。具体地说，从源语音数据组中选择一条源语音数据，从而目标语音数据中选择一条与源语音数据具有相同文本内容的目标语音数据，将这一对源语音数据和目标语音数据输入语音转换神经网络进行训练。

S103：建立第二训练数据集合，第二训练集合包括第一训练数据集合以及第一源说话人语音数据组。

在本实施场景中，建立第二训练数据集合，第二训练数据集合包括第一训练数据集合以及第一源说话人语音数据组，第一源说话人语音数据组包括第一数量条第一源说话人语音数据，且第一源说话人语音数据组与任意一组训练语音数据互为平行语料。

在其他实施场景中，第二训练数据组合还可以是包括第一源说话人语音数据组和若干组其他人说话语音数据组，其他人说话语音数据组包括第一数量条其他说话语音数据，且任意一组其他人说话语音数据组与第一源说话人语音数据组互为平行语料。其他人说话语音数据组可以与第一训练数据集合至少部分重合，也可以不重合。

S104：从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练。

在本实施场景中，从第一训练数据集合中选择一组训练语音作为目标语音数据组，将第一源说话人语音数据组作为源语音数据组。在本实施场景中，可以依次选择一组训练语音数据组作为目标语音数据组，直至遍历第一训练数据集合。

S105：建立第三训练数据集合，第三训练数据集合包括第二源说话人语音数据组和个性语音数据组，第二源说话人语音数据组包括第二数量条第二源说话人语音数据，个性语音数据组包括第二数量条个性语音数据。

在一个具体的实施场景中，建立第三训练数据集合，第三训练数据集合包括互为平行语料的第二源说话人语音数据组和个性语音数据组，其中，第二源说话人语音数据组和第一源说话人语音数据组对应同一说话人，个性语音数据组为用户提供，可以是用户为说话人的语音数据组。第二元说话人语音数据组包括第二数量条第二元说话人语音数据，个性语音数据组包括第二数量条个性语音数据。第二数量小于第一数量。由于语音转换神经网络经过两次训练后，已经获取了由源说话人到不同说话的人转换的工作，因此第二数量可以是一个很小的数值，例如20。

S106：将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。

在本实施场景中，将第二源说话人语音数据组作为源语音数据组，将个性语音数据组作为目标语音数据组。

通过上述描述可知，在本实施例中，先通过第一训练数据集合中的两组训练语音数据组对语音转换神经网络进行训练，使得语音转换神经网络学习覆盖大量语料，学习到足够泛化的概率分布，再通过第一源说话人语音数据组至多组训练语音数据组的转换训练，使得语音转换神经网学习到从源说话人转换到不同说话人的概率分布，最后进行源说话人到指定说话人的训练时，只需要很小数据量的第二源说话人语音数据和个性语音数据即可完成训练，在实际使用时，可以由商家提供第一训练数据集合和第二训练数据集合，用户只需要准备少量的语音数据即可完成对语音转换神经网络的训练，操作简便，可以有效节约时间和存储空间。

请参阅图3，图3是本发明提供的语音转换的训练方法中训练语音转换神经网络的方法的一实施例的流程示意图。本发明提供的语音转换的训练方法中训练语音转换神经网络的方法包括如下步骤：

S201：从源语音数据组中选择一条源语音数据，从目标语音数据组中选择对应于源语音数据的一条目标语音数据。

在一个具体的实施场景中，从源语音数据组中选择一条源语音数据，从而目标语音数据中选择一条与源语音数据具有相同文本内容的目标语音数据，将这一对源语音数据和目标语音数据用于进行训练。

S202：获取源语音数据的至少一个源语音声学参数和目标语音数据的至少一个目标语音声学参数。

在本实施场景中，分别获取源语音数据的至少一个源语音声学参数和目标语音数据的至少一个目标语音声学参数。例如，可以通过world语音特征分析器分别对源语音数据和目标语音数据进行分析，以分别获取至少一个源语音声学参数和至少一个目标语音声学参数。

在本实施场景中，通过world语音特征分析器分别对源语音数据和目标语音数据进行分析，分别获取源语音数据和目标语音数据的频谱、基频和非周期频率中的至少一个。

在其他实施场景中，至少一个源语音声学参数和至少一个目标语音声学参数还包括了源语音数据的清浊音和目标语音的清浊音。可以通过对源语音数据和目标语音数据的基频取对数，根据各自基频的对数获取源语音数据的清浊音和目标语音的清浊音。

在本实施场景中，在获取源语音数据的至少一个源语音声学参数和目标语音数据的至少一个目标语音声学参数之前，先对源语音数据和目标语音数据进行重采样。

S203：根据至少一个目标语音声学参数将至少一个源语音声学参数进行动态规划时间对齐，获取对齐后的至少一个源语音声学参数。

在本实施场景中，由于不同人讲话的语速不同，因此，说同一句话所需的时间不同，同一发音音素的时刻也不同。因此需要根据至少一个目标语音声学参数将至少一个源语音声学参数进行动态规划时间对齐。具体地，请结合参阅图4，图4是本发明提供的语音转换的训练方法中动态规划时间对齐的方法的一实施例的流程示意图。本发明提供的语音转换的训练方法中动态规划时间对齐的方法包括如下步骤：

S301：计算源语音数据的频谱的梅尔倒谱，源语音数据的基频的对数，根据基频的对数计算出源语音数据的清浊音。

在一个具体的实施场景中，通过语音信号处理工具SPTK获取源语音数据的频谱的梅尔倒谱。通过公式

lf₀＝log₂f₀

计算源语音数据的基频的对数，其中，f₀为源语音数据的基频。根据源语音数据的基频的对数计算源语音数据的清浊音。

S302：计算目标语音数据的频谱的梅尔倒谱，目标语音数据的基频的对数，根据基频的对数计算出目标语音数据的清浊音。

在本实施场景中，获取目标语音数据的频谱的梅尔倒谱、基频的对数和清浊音的方法与获取源语音数据的基本一致，此处不再进行赘述。

S303：依据目标语音数据的频谱的梅尔倒谱、目标语音数据的基频的对数、目标语音数据的清浊音和目标语音数据的非周期频率分别对源语音数据的频谱的梅尔倒谱、源语音数据的基频的对数、源语音数据的清浊音和源语音数据的非周期频率进行动态规划时间对齐。

在本实施场景中，需要将它们在时间轴上进行长度对齐，才能送入神经网络种。这里采用了动态规划时间对齐(Dynamic Time Warping)的方法，将源语音的声学特征对齐到目标语音的声学特征长度上去。衡量t时刻帧与帧之间的距离函数为：

其中，I,J为特征矩阵，维度为T(帧数)×N(特征维度)。

请结合参阅图5，图5为动态规划时间对齐的原理示意图。

在本实施场景中，将源语音数据的频谱的梅尔倒谱依据目标语音数据的频谱的梅尔倒谱进行动态规划时间对齐，将源语音数据的基频的对数依据目标语音数据的基频的对数进行动态规划时间对齐，将源语音数据的清浊音依据目标语音数据的清浊音进行动态规划时间对齐，将源语音数据的非周期频率依据目标语音数据的非周期频率进行动态规划时间对齐。

S204：将对齐后的至少一个源语音声学参数和至少一个目标语音声学参数输入语音转换神经网络进行训练。

在本实施场景中，在本实施场景中，对齐后的至少一个源语音声学参数为T×N的矩阵x。至少一个目标语音声学参数为矩阵y。将矩阵x和矩阵y输入双向长短记忆循环神经网络当中进行训练。

在本实施场景中，语音转换神经网络为双向长短记忆循环神经网络。定义双向长短记忆循环神经网络的参数如下表：

输出的经过转换后的语音声学特征

为TxN的矩阵。定义损失函数为：

根据计算出的loss，进行梯度下降，更新神经网络参数权值，以及根据损失函数的结果判断训练是否结束。

通过上述描述可知，在本实施例中对源语音数据的至少一个源语音声学参数和目标语音的至少一个目标语音声学参数进行动态规划时间对齐可以进一步提升训练的准确性，从而提升转换的准确性。

请参阅图6，图6是本发明提供的语音转换方法的一实施例的流程示意图。本发明提供的语音转换方法包括如下步骤：

S401：获取待转换语音数据，待转换语音属于与个性语音数据组对应同一说话人。

在一个具体的实施场景中，获取待转换语音数据，该语音数据与训练语音转换神经网络时的个性语音数据组对应同一说话人。

在本实施场景中，获取待转换语音数据之后，获取该语音数据的至少一个待转换语音声学参数，包括待转换语音数据的基频、频谱和非周期频率中的至少一个，获取至少一个待转换语音声学参数的方法与前文中基本一致，此处不再进行赘述。

在本实施场景中，在获取至少一个待转换语音声学参数之前，对待转换语音参数进行重采样。

S402：将待转换语音数据输入预训练的语音转换神经网络，根据语音转换神经网络的输出获取目标语音数据。

在本实施场景中，将待转换语音数据的至少一个待转换语音声学参数输入预训练的语音转换神经网络，该语音转换神经网络经过图2-图3的方法进行训练，因此可以输出至少一个目标声学参数。

该至少一个目标声学参数包括目标语音数据的梅尔倒谱，目标语音数据的基频的对数和目标语音数据的非周期频率。对至少一个目标声学参数通过mlpg(MaximumLikelihood Parameter Generation，最大似然参数生成)进行平滑处理。然后通过SPTK将目标语音数据梅尔倒谱(Mel-generalized Cepstral)转换为目标语音数据的频谱，根据目标语音数据的基频的对数求出目标语音数据的基频，将目标语音数据的频谱、基频和非周期频率输入world语音特征分析器或者wavenet声码器得到目标语音数据。

通过上述描述可知，在本实施例中通过将待转换语音数据输入预训练的语音转换神经网络，根据语音转换神经网络的输出获取目标语音数据，可以准确获取目标语音数据。

请参阅图7，图7是本发明提供的智能装置的第一实施例的结构示意图。智能装置10包括：第一集合模块11、第一训练模块12、第二集合模块13、第二训练模块14、第三集合模块15、第三训练模块16。第一集合模块11用于建立第一训练数据集合，第一训练数据集合包括多组训练语音数据组。第一训练模块12用于从第一训练数据集合中选择两组训练语音数据组输入语音转换神经网络进行训练。第二集合模块13用于建立第二训练数据集合，第二训练集合包括第一训练数据集合以及第一源说话人语音数据组。第二训练模块14用于从第一训练数据集合中选择一组训练语音数据组和源说话人语音数据组输入语音转换神经网络进行训练；第三集合模块15用于建立第三训练数据集合，第三训练数据集合包括第二源说话人语音数据组和个性语音数据组，第二源说话人语音数据组包括第二数量条第二源说话人语音数据，且与第一源说话人语音数据组对应同一说话人，个性语音数据组包括第二数量条个性语音数据，第二数量小于第一数量；第三训练模块16用于将第二源说话人语音数据组和个性语音数据组输入语音转换神经网络进行训练。

其中，每组训练语音数据组包括第一数量条训练语音数据，任意两组训练语音数据互为平行语料；第一源说话人语音数据组包括第一数量条第一源说话人语音数据，第一源说话人语音数据组与任意一组训练语音数据互为平行语料；第二源说话人语音数据组和个性语音数据组互为平行语料。

第一训练模块12用于将两组训练语音数据组其中一组训练语音数据组作为源语音数据组，另一组作为目标语音数据组；将源语音数据组和目标语音数据组输入语音转换神经网络进行训练。

第二训练模块14用于从第一训练数据集合中选择一组训练语音数据组作为目标语音数据组，将源说话人语音数据组作为源语音数据组；将源语音数据组和目标语音数据组输入语音转换神经网络进行训练。

第三训练模块16用于将第二源说话人语音数据组作为源语音数据组，将个性语音数据组作为目标语音数据组；将源语音数据组和目标语音数据组输入语音转换神经网络进行训练。

第一训练模块12、第二训练模块14和第三训练模块16还用于从源语音数据组中选择一条源语音数据，从目标语音数据组中选择对应于源语音数据的一条目标语音数据；获取源语音数据的至少一个源语音声学参数和目标语音数据的至少一个目标语音声学参数；根据至少一个目标语音声学参数将至少一个源语音声学参数进行动态规划时间对齐，获取对齐后的至少一个源语音声学参数；将对齐后的至少一个源语音声学参数和至少一个目标语音声学参数输入语音转换神经网络进行训练。

其中，至少一个源语音声学参数包括源语音数据的频谱、基频、非周期频率和清浊音中的至少一项；至少一个目标语音声学参数包括目标语音数据的频谱、基频、非周期频率和清浊音中的至少一项。

第一训练模块12、第二训练模块14和第三训练模块16还用于通过语音特征分析器分别获取源语音数据的频谱、基频、非周期频率中的至少一项，以及目标语音数据的频谱、基频、非周期频率中的至少一项。

第一训练模块12、第二训练模块14和第三训练模块16还用于计算源语音数据的频谱的梅尔倒谱，源语音数据的基频的对数，根据基频的对数计算出源语音数据的清浊音；计算目标语音数据的频谱的梅尔倒谱，目标语音数据的基频的对数，根据基频的对数计算出目标语音数据的清浊音；依据目标语音数据的频谱的梅尔倒谱、目标语音数据的基频的对数、目标语音数据的清浊音和目标语音数据的非周期频率分别对源语音数据的频谱的梅尔倒谱、源语音数据的基频的对数、源语音数据的清浊音和源语音数据的非周期频率进行动态规划时间对齐。

第一训练模块12、第二训练模块14和第三训练模块16还用于对源语音数据和目标语音数据进行重采样。

其中，语音转换神经网络为双向长短记忆神经网络。

通过上述描述可知，在本实施例中智能装置先通过第一训练数据集合中的两组训练语音数据组对语音转换神经网络进行训练，使得语音转换神经网络学习覆盖大量语料，学习到足够泛化的概率分布，再通过第一源说话人语音数据组至多组训练语音数据组的转换训练，使得语音转换神经网学习到从源说话人转换到不同说话人的概率分布，最后进行源说话人到指定说话人的训练时，只需要很小数据量的第二源说话人语音数据和个性语音数据即可完成训练，在实际使用时，可以由商家提供第一训练数据集合和第二训练数据集合，用户只需要准备少量的语音数据即可完成对语音转换神经网络的训练，操作简便，可以有效节约时间和存储空间。

请参阅图8，图8是本发明提供的智能装置的第二实施例的结构示意图。智能装置20包括获取模块21和转换模块22。获取模块21用于获取待转换语音数据，待转换语音属于与个性语音数据组对应同一说话人。转换模块22用于将待转换语音数据输入预训练的语音转换神经网络，根据语音转换神经网络的输出获取目标语音数据；

转换模块22还用于获取待转换语音数据的至少一个待转换语音声学参数，至少一个待转换语音参数包括待转换语音数据的基频、频谱和非周期频率中的至少一个；将待转换语音数据的至少一个待转换语音参数输入语音转换神经网络。

转换模块22还用于对待转换语音参数进行重采样。

其中，语音转换神经网络的输出包括目标语音数据至少一个目标声学参数。至少一个目标声学参数包括：目标语音数据的梅尔倒谱，目标语音数据的基频的对数和目标语音数据的非周期频率。

转换模块22还用于根据目标语音数据的梅尔倒谱计算目标语音数据的频谱，根据目标语音数据的频率的对数计算目标语音数据的基频。将目标语音数据的频谱、目标语音数据的基频和目标语音数据的非周期频率合成，获取目标语音数据。

转换模块22还用于对至少一个目标声学参数进行平滑处理。

请参阅图9，图9是本发明提供的智能装置的第三实施例的结构示意图。智能装置30包括处理器31、存储器32和获取电路33。处理器31耦接存储器32和获取电路33。存储器32中存储有计算机程序，处理器31在工作时执行该计算机程序以实现如图2、图3和图4所示的方法。详细的方法可参见上述，在此不再赘述。

请参阅图10，图10是本发明提供的智能装置的第四实施例的结构示意图。智能装置40包括处理器41、存储器42和获取电路43。处理器41耦接存储器42和获取电路43。存储器42中存储有计算机程序，处理器41在工作时执行该计算机程序以实现如图6所示的方法。详细的方法可参见上述，在此不再赘述。

请参阅图11，图11是本发明提供的存储介质的一实施例的结构示意图。存储介质50中存储有至少一个计算机程序51，计算机程序51用于被处理器执行以实现如图2-图4或图6所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，存储介质50可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音转换的训练方法，其特征在于，包括：

建立第一训练数据集合，所述第一训练数据集合包括多组训练语音数据组；

从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练；

建立第二训练数据集合，所述第二训练集合包括所述第一训练数据集合以及第一源说话人语音数据组；

从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练；

建立第三训练数据集合，所述第三训练数据集合包括第二源说话人语音数据组和个性语音数据组，所述第二源说话人语音数据组包括第二数量条第二源说话人语音数据，且与所述第一源说话人语音数据组对应同一说话人，所述个性语音数据组包括第二数量条个性语音数据，所述第二数量小于所述第一数量；

将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练。

2.根据权利要求1中所述的语音转换的训练方法，其特征在于，

每组所述训练语音数据组包括第一数量条训练语音数据，任意两组所述训练语音数据互为平行语料；

所述第一源说话人语音数据组包括第一数量条第一源说话人语音数据，所述第一源说话人语音数据组与任意一组所述训练语音数据互为平行语料；

所述第二源说话人语音数据组和所述个性语音数据组互为平行语料。

3.根据权利要求2中所述的语音转换的训练方法，其特征在于，所述从所述第一训练数据集合中选择两组所述训练语音数据组输入语音转换神经网络进行训练的步骤，包括：

将所述两组训练语音数据组其中一组所述训练语音数据组作为源语音数据组，另一组作为目标语音数据组；

将所述源语音数据组和所述目标语音数据组输入语音转换神经网络进行训练；

所述从所述第一训练数据集合中选择一组所述训练语音数据组和所述源说话人语音数据组输入语音转换神经网络进行训练的步骤，包括：

从所述第一训练数据集合中选择一组所述训练语音数据组作为目标语音数据组，将所述源说话人语音数据组作为源语音数据组；

所述将所述第二源说话人语音数据组和所述个性语音数据组输入语音转换神经网络进行训练的步骤，包括：

将所述第二源说话人语音数据组作为源语音数据组，将所述个性语音数据组作为目标语音数据组；

将所述源语音数据组和所述目标语音数据组输入语音转换神经网络进行训练。

4.根据权利要求3所述的语音转换的训练方法，其特征在于，所述将所述源语音数据组和所述目标语音数据组输入语音转换神经网络进行训练的步骤包括：

从所述源语音数据组中选择一条源语音数据，从所述目标语音数据组中选择对应于所述源语音数据的一条目标语音数据；

获取所述源语音数据的至少一个源语音声学参数和所述目标语音数据的至少一个目标语音数据；

根据所述至少一个目标语音声学参数将所述至少一个源语音声学参数进行动态规划时间对齐，获取对齐后的至少一个源语音声学参数；

将所述对齐后的至少一个源语音声学参数和所述至少一个目标语音声学参数输入所述语音转换神经网络进行训练。

5.根据权利要求3所述的语音转换的训练方法，其特征在于，

所述至少一个源语音声学参数包括通过语音特征分析器获取所述源语音数据的频谱、基频、非周期频率和清浊音中的至少一项；

所述至少一个目标语音声学参数包括通过语音特征分析器获取所述目标语音数据的频谱、基频、非周期频率和清浊音中的至少一项。

6.根据权利要求5所述的语音转换的训练方法，其特征在于，

所述根据所述至少一个目标语音声学参数将所述至少一个源语音声学参数进行动态规划时间对齐的步骤，包括：

计算所述源语音数据的频谱的梅尔倒谱，所述源语音数据的基频的对数，根据所述源语音数据的基频的对数计算出所述源语音数据的清浊音；

计算所述目标语音数据的频谱的倒谱，所述目标语音数据的基频的对数，根据所述目标语音数据的基频的对数计算出所述目标语音数据的清浊音；

依据所述目标语音数据的频谱的梅尔倒谱、所述目标语音数据的基频的对数、所述目标语音数据的清浊音和所述目标语音数据的非周期频率分别对所述源语音数据的频谱的梅尔倒谱、所述源语音数据的基频的对数、所述源语音数据的清浊音和所述源语音数据的非周期频率进行动态规划时间对齐。

7.一种语音转换方法，其特征在于，包括：

获取待转换语音数据，所述待转换语音属于与所述个性语音数据组对应同一说话人；

将所述待转换语音数据输入预训练的所述语音转换神经网络，根据所述语音转换神经网络的输出获取目标语音数据；

其中，所述语音转换神经网络经过权利要求1-9所述的方法训练。

8.根据权利要求7所述的语音转换方法，其特征在于，所述将所述待转换语音数据输入预训练的所述语音转换神经网络的步骤包括：

获取所述待转换语音数据的至少一个待转换语音参数，所述至少一个待转换语音参数包括所述待转换语音数据的基频、频谱和非周期频率中的至少一个；

将所述待转换语音数据的至少一个待转换语音参数输入所述语音转换神经网络。

9.根据权利要求8所述的语音转换方法，其特征在于，

所述语音转换神经网络的输出包括所述目标语音数据至少一个目标声学参数；

所述至少一个目标声学参数包括：所述目标语音数据的梅尔倒谱，所述目标语音数据的基频的对数和所述目标语音数据的非周期频率；

所述根据所述语音转换神经网络的输出获取目标语音数据的步骤，包括：

根据所述目标语音数据的梅尔倒谱计算所述目标语音数据的频谱，根据所述目标语音数据的频率的对数计算所述目标语音数据的基频；

将所述目标语音数据的频谱、所述目标语音数据的基频和所述目标语音数据的非周期频率合成，获取所述目标语音数据。

10.一种智能装置，其特征在于，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如下方法：

11.一种智能装置，其特征在于，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如下方法：

获取待转换语音数据；

其中，所述语音转换神经网络经过权利要求10所述的智能装置的训练；

所述待转换语音数据与所述个性语音数据组对应同一说话人。

12.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1或7所述的方法。