CN113674735B

CN113674735B - 声音转换方法、装置、电子设备及可读存储介质

Info

Publication number: CN113674735B
Application number: CN202111131099.5A
Authority: CN
Inventors: 周勇
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-01-18
Anticipated expiration: 2041-09-26
Also published as: CN113674735A

Abstract

本发明提供了一种声音转换方法、装置、电子设备及可读存储介质，属于计算机技术领域。该方法提取一歌唱语音数据的歌唱文本特征并得到所述歌唱文本特征的歌唱编码器特征；提取该歌唱语音数据的歌唱音高数据输入音高网络，得到歌唱音高特征；通过目标说话人语音数据得到目标说话人语音特征，所述目标说话人语音特征包括：目标说话人语音向量或目标说话人唯一标识码；将歌唱编码器特征、歌唱音高特征和目标说话人语音特征组合后输入训练好的语音转换模型，输出变声梅尔谱图数据，再输入声码器中，输出目标歌唱语音数据的变声歌唱语音数据。实现了无须大量唱歌音频数据，而通过目标说话人的说话语音数据训练模型，即可实现转换唱歌声音的目的。

Description

声音转换方法、装置、电子设备及可读存储介质

技术领域

本发明属于计算机技术领域，特别是涉及一种声音转换方法、装置、电子设备及可读存储介质。

背景技术

唱歌变声，也叫唱歌声音转换，即把一段现成的唱歌声音变成另一个人的声音，同时保留其它特征不变的技术，例如唱词、唱调、停顿、节奏等不变而声音转换。

现有的技术，需要唱歌数据作为训练数据，或者需要复杂的模型和训练方法，例如基于信号处理的特殊模型设计和对抗式生成网络，来实现歌唱声音的转换。

然而，在实际应用中，唱歌数据稀缺性和模型实现的复杂性都对歌唱变声的实现和应用造成了障碍，所以一种不需要大量歌唱训练数据以及实现简单的变声方法是亟待解决的问题。

发明内容

本发明提供一种声音转换方法、装置、电子设备及可读存储介质，以便解决目前歌唱变声技术中需要大量歌唱训练数据和变声模型训练复杂，导致的变声技术难以应用的问题。

提取目标歌唱语音数据的第一文本特征；

通过编码器网络对所述第一文本特征进行处理，得到所述第一文本特征的歌唱编码器特征；

提取所述目标歌唱语音数据的歌唱音高数据；

将所述歌唱音高数据输入音高网络，得到歌唱音高特征；

通过目标说话人语音数据得到目标说话人语音特征，所述目标说话人语音特征包括：目标说话人语音向量或目标说话人唯一标识码；

将所述歌唱编码器特征、所述歌唱音高特征和所述目标说话人语音特征组合形成变声组合特征；

将所述变声组合特征输入训练好的语音转换模型，输出所述变声组合特征的变声梅尔谱图数据；

将所述变声梅尔谱图数据输入声码器中，输出所述目标歌唱语音数据的变声歌唱语音数据；所述变声歌唱语音数据中的歌唱音色为目标说话人音色。

依据本发明的第二方面，提供了一种声音转换装置，所述装置包括：

歌唱文本特征提取模块，用于提取目标歌唱语音数据的第一文本特征；

歌唱编码器特征获取模块，用于通过编码器网络对所述第一文本特征进行处理，得到所述第一文本特征的歌唱编码器特征；

歌唱音高数据提取模块，用于提取所述目标歌唱语音数据的歌唱音高数据；

歌唱音高特征提取模块，用于将所述歌唱音高数据输入音高网络，得到歌唱音高特征；

说话人语音向量或标识得到模块，用于通过目标说话人语音数据得到目标说话人语音特征，所述目标说话人语音特征包括：目标说话人语音向量或目标说话人唯一标识码；

变声组合特征形成模块，用于将所述歌唱编码器特征、所述歌唱音高特征和所述目标说话人语音特征组合形成变声组合特征；

变声梅尔谱图数据获取模块，用于将所述变声组合特征输入训练好的语音转换模型，输出所述变声组合特征的变声梅尔谱图数据；

变声歌唱语音数据获取模块，用于将所述变声梅尔谱图数据输入声码器中，输出所述目标歌唱语音数据的变声歌唱语音数据；所述变声歌唱语音数据中的歌唱音色为目标说话人音色。

针对在先技术，本发明具备如下优点：

通过提取歌唱语音数据的歌唱文本特征后，通过编码器网络对歌唱文本特征进行处理，得到歌唱文本特征的歌唱编码器特征；再提取目标歌唱语音数据的歌唱音高数据并输入音高网络，得到歌唱音高特征；最后通过目标说话人语音数据得到目标说话人语音特征后，将歌唱编码器特征、歌唱音高特征和目标说话人语音特征组合成变声组合特征比并输入解码器，输出变声梅尔谱图数据，梅尔谱图数据为声音特征数据，可以通过将变声梅尔谱图数据输入声码器中，得到目标歌唱语音数据，其中歌唱音色变换为预先训练好的变声语音数据中的说话人音色。实现了不需要唱歌数据作为训练数据，只使用说话数据作为训练数据训练目标变声语音特征的目的，大大降低了稀缺的唱歌数据的获取成本和模型训练复杂性的问题，从而显著提高了歌唱变声技术的实用性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种声音转换方法的步骤流程图；

图1A是本发明实施例提供的换声方法应用过程示意图；

图1B是本发明实施例提供的目标声音训练过程示意图；

图2是本发明实施例提供的一种声音转换装置的框图；

图3是本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种声音转换方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、提取目标歌唱语音数据的第一文本特征。

可选地，所述第一文本特征和第二文本特征包括语音后验图特征、瓶颈特征以及嵌入式特征中的一种或多种。

本发明实施例中，在欲替换目标歌唱语音数据中的声音，实现歌唱者的变声，首先需要提取该目标歌唱语音数据的歌唱文本特征，如图1A所示，通过语音识别模型(ASR)提取语音的表征语音内容（即歌词或说话的文本）的特征，其中，表征语音内容的特征类型可以为Phonetic PosteriorGram (PPG)语音后验图特征，也叫作语音后验概率特征。还可以是模型输出的其它特征，例如瓶颈特征（bottleneck features)和嵌入式特征embedding。

可以理解地，在实际应用中，可以表征语音内容的特征可以是任意形式的特征数据，不限于上述描述，也可以是多种特征的结合。以实际应用中由相关技术人员进行设定，本发明实施例对此不加以具体限定。

步骤102、通过编码器网络对所述第一文本特征进行处理，得到所述第一文本特征的歌唱编码器特征。

本发明实施例中，如图1A所示，通过一个编码器网络(encoder)对歌唱文本特征进行处理，输出编码器特征。

在实际应用中，编码器网络是应用多个计算机程序或算法以达到音频编码的最佳效果的系统，它的结构没有理论上的限制。例如，它可以是任意的语音生成模型中的编码器，如完全端到端的文本到语音合成模型Tacotron中的编码器，或快速的端到端的语音合成系统Fastspeech中的编码器，或者是类似的变种。本发明实施例根据实际使用场景选择合适的编码器网络，对此不加以具体限制。

步骤103、提取所述目标歌唱语音数据的歌唱音高数据。

本发明实施例中，如图1A所示，在提取目标歌唱语音数据中文本特征的同时提取该目标歌唱语音数据中的音高数据，定义为歌唱音高数据。

其中，音高（pitch）是声音的三大属性（音量、音高、音色）之一。除去个别极端情况，音高是由声音的基频（fundamental frequency）决定的。由有规律的振动发出的声音，一般都会有基频，语音的基频一般在100 Hz - 400 Hz之间，女声比男声的基频高，童声更高。歌声以及乐器发出的声音则会有更广的基频范围，低可以低到50 Hz甚至更低，高可以超过1000 Hz。

基频提取（pitch estimation, pitch tracking）在声音处理中有广泛的应用。它最直接的应用，是用来识别音乐的旋律。它也可以用于辅助带声调语言（如汉语）的语音识别，以及识别语音中的情感。

在实际应用中，音高，即基频的提取方法有很多，本发明根据具体应用场景由相关技术人员选择，对此不加以限制。

步骤104、将所述歌唱音高数据输入音高网络，得到歌唱音高特征。

可选地，所述音高网络为多层的一维空洞转置卷积网络。

本发明实施例中，如图1A所示，把音高输入到音高网络，得到音高的特征。音高网络是一个多层的一维空洞转置卷积网络。对于网络的层数，除了不能太少外（例如少于五层），没有其它限制。

在实际应用中，网络层数设置为十层。每层的卷积核大小都为50,参数stride为1,参数padding为0。每层空洞参数（dilation）分别是1,3,5...19，共十个，分别对应一层。

可以理解地，在具体应用中，音高特征的提取方法由相关技术人员根据具体应用场景进行调整和设置，不限于上述描述的多层的一维空洞转置卷积网络，本发明实施例对于方法以及方法中包含的参数不加以限制。

步骤105、通过目标说话人语音数据得到目标说话人语音特征，所述目标说话人语音特征包括：目标说话人语音向量或目标说话人唯一标识码。

本发明实施例中，如图1A所示，通过目标说话人语音数据得到目标说话人的语音特征。

其中，将待转换的目标说话人语音数据通过“说话人识别模型”转换为语音向量。或者，由相关技术人员对目标说话人的语音数据指定一个表征目标说话人身份的唯一标识码。

可以理解地，特征向量可以是d-vector，也可以是x-vector和i-vector等，通常由“说话人识别模型”得到，而“说话人识别模型”通常是通过目标说话人语音样本数据提前训练好的。

其中，i-vector，是一个特定语音片段的频谱特征，通常是音素的一个音素，很少与整个音素一样大。基本上，这是一个离散谱图，以与时间片的高斯混合同构的形式表达。

进一步地，d-vector从i-vector序列中提取，并且可以用于可靠地将声音片段与其来源进行匹配，例如提取给定短语的说话者。

其中，x-vector 是d-vector的升级版，它不像d-vector那样简单的取平均，而是把每一小段的声音信号输出的特征。

可以理解地，在提取的目标说话人的语音向量可以是上述任何一种类型的向量，也可是其他类型的特征向量，并且语音向量转换方法也取决于具体应用场景和应用效果，对此本发明实施例不加以具体限制。

进一步地，说话人标识号是代表同一说话人的唯一数字标识，即第一个说话人为0，第二个说话人为1，以此类推。说话人标识号和说话人向量是表征说话人的两种方式，二者选一即可”。如图1A所示，如果采用的输出是说话人向量，则将其维度进行复制扩充，以便能和其它特征组合。如果选择由相关技术人员指定的说话人唯一标识码，即通过一个查找表（Lookup Table），将此标识转为说话人向量，之后的处理和输入是说话人向量的时候相同。

另外，需要说明的是，“说话人识别模型”使用时输入一段目标说话人语音数据，取出它中间层的输出作为目标说话人语音向量。或者由相关技术人员针对语音的说话人是谁，指定一个说话人唯一标识码。

其中，“说话人识别模型”在训练时输入是目标说话人语音数据样本，输出取决于针对不同的使用场景，由相关技术人员指定目标说话人唯一标识码，或选取模型中间层输出的目标说话人语音向量。

可以理解地，“说话人识别模型”的训练方法由相关技术人员根据具体数据类型和应用场景设置，具体使用算法本发明实施例不加以具体限制。

步骤106、将所述歌唱编码器特征、所述歌唱音高特征和所述目标说话人语音特征组合形成变声组合特征。

本发明实施例中，如图1A所示，将上述得到的歌唱编码器特征、歌唱音高特征和目标说话人语音特征（目标说话人语音向量或目标说话人唯一标识码二选一）进行组合，生成变声组合特征。

进一步地，目标说话人语音向量只有一个维度，例如它就是256维，但音高特征和编码器特征都有两个维度，例如分别是T*200和T*512。在组合前必须对说话人语音向量进行维度扩充，扩充成T*256（也就是原来的256向量复制T遍形成另一个维度），然后组合。这个“组合”如果是拼接的话，则拼接的结果的维度是T*(200+512+256) = T*968。

进一步地，在步骤105中，如果采用的是目标说话人唯一标识码，那须通过一个查找表（Lookup Table），将此标识码转为说话人向量，再将向量进行维度扩充，实现与歌唱编码器特征以及歌唱音高特征维度相同的目的，以便三个特征向量进行组合。

可以理解地，拼接不是组合的唯一方式，例如相加是另一种组合的方式，但相加要求各个特征的维度完全相同才能相加，例如都是T*256，相加后还是T*256。所以组合方式由相关技术人员根据实际应用场景进行设置，本发明实施例对此不加以具体限制。

步骤107、将所述变声组合特征输入训练好的语音转换模型，输出所述变声组合特征的变声梅尔谱图数据。

本发明实施例中，将上步骤生成的组合特征输入训练好的语音转换模型，得到组合特征的梅尔谱图。

其中，语音转换模型是利用目标说话人的说话音频数据进行训练得到，说话语音数据比歌唱语音数据获取的范围更广，成本更低，所以用目标说话人语音数据训练模型大大降低了声音转换在实际应用中的成本。

可以理解地，语音转换模型也可以通过目标说话人的唱歌数据训练得到，或者由目标说话人的说话音频数据和唱歌数据综合训练得到。

当然，针对训练数据的类型由相关技术人员针对应用场景进行设置，本发明实施例对此不加以限制。

步骤108、将所述变声梅尔谱图数据输入声码器中，输出所述目标歌唱语音数据的变声歌唱语音数据；所述变声歌唱语音数据中的歌唱音色为目标说话人音色。

本发明实施例中，将上述步骤得到的梅尔谱图输入声码器，将该梅尔谱图识别为歌唱语音数据，并且该歌唱语音数据中的歌唱音色即为之前训练好的目标说话人的音色。

可以理解地，梅尔频谱为声音特征数据，不是声音信号数据，如此可以将梅尔频谱输入声码器，输出音频数据，也即最后的变声语音。由于语音信号相对语音特征包含更多的信息，提高了训练的难度，所以梅尔频谱降低了模型训练和应用成本及难度。

可选地，在本发明的另一实施例中，步骤105中预先训练好的目标变声语音数据的训练步骤为：

步骤A1、提取目标变声语音数据的第二文本特征。

本发明实施例中，如图1B所示，目标变声语音数据通常不是歌唱数据，通常为目标说话人的说话音频数据。可以是一定数量的目标说话人的说话音频数据，将上述数据中作为训练数据，提取说话人的文本特征，定义为第二文本特征。与步骤101一样，从上述得到的目标变声语音数据中提取表征语音内容的特征，可以是Phonetic PosteriorGram (PPG)语音后验图特征，也叫作语音后验概率特征。还可以是模型输出的其它特征，例如瓶颈特征（bottleneck features)和嵌入式特征embedding其中的一种或多种。

具体特征类型本发明实施例不加以具体限制。

步骤A2、通过编码器网络对所述第二文本特征进行处理，得到所述第二文本特征的目标变声编码器特征。

本发明实施例中，如图1B所示，通过一个编码器网络(encoder)对目标变声文本特征进行处理，输出目标变声编码器特征。

具体处理方式与步骤102的描述一致，在此不再详述。

步骤A3、提取所述目标变声语音数据的目标变声音高数据。

本发明实施例中，如图1B所示，提取目标变声语音数据的中的音高数据，定义为目标变声音高数据。

具体提取音高数据的方式与步骤103相同，在此不再详述。

步骤A4、将所述目标变声音高数据输入音高网络，得到目标变声音高特征。

本发明实施例中，如图1B所示，将上述得到的目标变声音高数据输入音高网络后得到的音高特征，定义为目标变声音高特征。

具体处理方式与步骤104的描述一致，在此不再详述。

步骤A5、通过所述目标变声语音数据得到目标变声说话人语音特征；所述目标变声说话人语音特征包括：目标变声说话人语音向量或目标变声说话人唯一标识码。

本发明实施例中，如图1B所示，提取上述得到的目标变声语音数据中的目标变声说话人向量，或由相关技术人员指定的目标变声语音数据的可以表征目标变声说话人的唯一标识码。

具体处理方式与步骤105的描述一致，在此不再详述。

步骤A6、将所述目标变声编码器特征、所述目标变声音高特征和所述目标变声说话人语音特征组合形成目标变声组合特征。

本发明实施例中，如图1B所示，将上述得到的目标变声编码器特征、目标变声音高特征和目标变声说话人语音特征（目标变声说话人向量或目标变声说话人唯一标识二选一）组合在一起，生产目标变声组合特征。

具体组合方式与步骤106的描述一致，在此不再详述。

步骤A7、将所述目标变声组合特征输入解码器，输出所述目标组合特征的目标梅尔谱图数据。

本发明实施例中，如图1B所示，目标变声组合特征输入解码器，得到目标组合特征的目标梅尔谱图数据。

其中，解码器可以是Tacotron中的解码器，或Fastspeech中的解码器，或者是类似的变种。

进一步地，如图1B所示，通过损失函数计算美尔普图真值与目标梅尔谱图数据之间的损失值。

其中，常用的损失函数有三个：

1）均方误差(mean squared error, MSE)，即计算模型输出的mel-spectrogram和mel-spectrogram真值的MSE。

2）L1范数损失函数，计算模型输出的mel-spectrogram和mel-spectrogram真值的L1范数损失。

3）L2正则化损失函数(L2 regularization loss），为防止模型的过拟合，对模型参数进行正则化约束的损失函数

其中，在实际应用中，将各个损失函数算出来的损失值相加作为整体的损失值。

其中，计算损失函数并通过梯度下降可以更新模型参数。

至此完成对目标变声语音数据的训练。

可选地，所述解码器通过注意力机制对组合特征中各特征进行定位。

具体地，如图1B中注意力模块中注意力机制的具体应用和定义进行描述：

为了在时间步长t生成一个单词，我们需要对输入序列中的每个单词给予多少关注，这就是注意力机制概念背后的关键直觉。例如:

Question: In the last decade, *who*is the best *Footballer*

Answer: *L M* is the best *player*.

在上面的例子中，问题中的第五个单词和LM有关，第九个单词足球运动员和第六个单词球员有关。

因此，可以增加源序列中产生目标序列的特定部分的重要性，而不是查看源序列中的所有单词。这是注意力机制背后的基本思想。

所以，在本实施例中，针对组合特征生成的过程中制定特定位置的重要性，并进行标记。

具体地，特征有两个维度，一个是时间维度，另一个是特征本身的维度。例如音频文本特征输入到编码器出来的特征的维度可能是T*256，其中T是时间维度，与音频的时长成正比例，256是编码器的维度。音高特征维度也许是T*256，说话人特征向量扩充后可能是T*256，三者如果是通过相加的方式进行组合的话，因为相加后三者完全融合在一起了，不存在也不可能“对各特征进行定位”。所以对于相加的情况，注意力机制只能是对特征的时间维度上进行定位，例如在生成第一个字的mel-spectrogram过程中注意力应该集中在特征时间维度上的最开始部分，而不是中间或者最后的部分。但对于“组合”是拼接的情况，注意力不但需要在时间维度上进行定位，还需要对组合特征中的各特征进行定位。

在本发明实施例中，通过提取一歌唱语音数据的歌唱文本特征并得到所述歌唱文本特征的歌唱编码器特征；提取该歌唱语音数据的歌唱音高数据输入音高网络，得到歌唱音高特征；通过目标说话人语音数据得到目标说话人语音特征（包括目标说话人语音向量或目标说话人唯一标识码）；将歌唱编码器特征、歌唱音高特征和目标说话人语音特征组合后输入训练好的语音转换模型，输出变声梅尔谱图数据，再输入声码器中，输出目标歌唱语音数据的变声歌唱语音数据，其中变声歌唱语音数据中的歌唱音色为目标说话人音色。实现了不需要唱歌数据作为训练数据就能达到歌唱声音转换的目的。并且避免大量级的唱歌数据的获取成本，具备只使用说话数据作为训练数据可以较大地提升方法的实用性的有益效果。

图2是本发明实施例提供的一种声音转换装置的框图，如图2所示，该装置20可以包括：

歌唱文本特征提取模块201，用于提取目标歌唱语音数据的第一文本特征；

歌唱编码器特征获取模块202，用于通过编码器网络对所述第一文本特征进行处理，得到所述第一文本特征的歌唱编码器特征；

歌唱音高数据提取模块203，用于提取所述目标歌唱语音数据的歌唱音高数据；

歌唱音高特征提取模块204，用于将所述歌唱音高数据输入音高网络，得到歌唱音高特征；

说话人语音向量或标识得到模块205，用于通过目标说话人语音数据得到目标说话人语音特征，所述目标说话人语音特征包括：目标说话人语音向量或目标说话人唯一标识码；

变声组合特征形成模块206，用于将所述歌唱编码器特征、所述歌唱音高特征和所述目标说话人语音特征组合形成变声组合特征；

变声梅尔谱图数据获取模块207，用于将所述变声组合特征输入训练好的语音转换模型，输出所述变声组合特征的变声梅尔谱图数据；

变声歌唱语音数据获取模块208，用于将所述变声梅尔谱图数据输入声码器中，输出所述目标歌唱语音数据的变声歌唱语音数据；所述变声歌唱语音数据中的歌唱音色为目标说话人音色。

优选地，所述语音转换模型的训练步骤，所述变声语音数据训练模块包括：

目标变声文本特征提取模块，用于提取目标变声语音数据的第二文本特征；

目标变声编码器特征获取模块，用于通过编码器网络对所述第二文本特征进行处理，得到所述第二文本特征的目标变声编码器特征；

目标变声音高数据提取模块，用于提取所述目标变声语音数据的目标变声音高数据；

目标变声音高特征获取模块，用于将所述目标变声音高数据输入音高网络，得到目标变声音高特征；

目标变声说话人语音特征得到模块，用于通过所述目标变声语音数据得到目标变声说话人语音特征；所述目标变声说话人语音特征包括：目标变声说话人语音向量或目标变声说话人唯一标识码；

目标变声组合特征获取模块，用于将所述目标变声编码器特征、所述目标变声音高特征和所述目标变声说话人语音特征组合形成目标变声组合特征；

目标梅尔谱图数据获取模块，用于将所述目标变声组合特征输入解码器，输出所述目标组合特征的目标梅尔谱图数据；

目标说话人语音数据获取模块，用于将所述目标梅尔谱图数据输入声码器中，输出目标说话人语音数据。

可选地，所述音高网络为多层的一维空洞转置卷积网络。

综上所述，本发明实施例提供的声音转换装置，通过提取一歌唱语音数据的歌唱文本特征并得到所述歌唱文本特征的歌唱编码器特征；提取该歌唱语音数据的歌唱音高数据输入音高网络，得到歌唱音高特征；通过目标说话人语音数据得到目标说话人语音特征，所述目标说话人语音特征包括：目标说话人语音向量或目标说话人唯一标识码；将歌唱编码器特征、歌唱音高特征和目标说话人语音向量或目标说话人唯一标识码组合后输入训练好的语音转换模型，输出变声梅尔谱图数据，再输入声码器中，输出目标歌唱语音数据的变声歌唱语音数据，其中变声歌唱语音数据中的歌唱音色为目标说话人音色。实现了不需要唱歌数据作为训练数据就能达到歌唱声音转换的目的。并且避免大量级的唱歌数据的获取成本，具备只使用说话数据作为训练数据可以较大地提升方法的实用性的有益效果。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图3所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现如下步骤：

提取目标歌唱语音数据的第一文本特征；

提取所述目标歌唱语音数据的歌唱音高数据；

将所述歌唱音高数据输入音高网络，得到歌唱音高特征；

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的声音转换方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的声音转换方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种声音转换方法，其特征在于，所述方法包括：

提取目标歌唱语音数据的第一文本特征；

提取所述目标歌唱语音数据的歌唱音高数据；

将所述歌唱音高数据输入音高网络，得到歌唱音高特征；所述歌唱音高特征包括时间维度；

将所述变声梅尔谱图数据输入声码器中，输出所述目标歌唱语音数据的变声歌唱语音数据；所述变声歌唱语音数据中的歌唱音色为目标说话人音色，所述变声歌唱语音数据为对所述目标歌唱语音数据经唱歌变声后得到的数据。

2.据权利要求1所述的方法，其特征在于，所述语音转换模型的训练步骤包括：

提取目标变声语音数据的第二文本特征；

通过编码器网络对所述第二文本特征进行处理，得到所述第二文本特征的目标变声编码器特征；

提取所述目标变声语音数据的目标变声音高数据；

将所述目标变声音高数据输入音高网络，得到目标变声音高特征；

通过所述目标变声语音数据得到目标变声说话人语音特征；所述目标变声说话人语音特征包括：目标变声说话人语音向量或目标变声说话人唯一标识码；

将所述目标变声编码器特征、所述目标变声音高特征和所述目标变声说话人语音特征组合形成目标变声组合特征；

将所述目标变声组合特征输入解码器，输出所述目标组合特征的目标梅尔谱图数据。

3.根据权利要求2所述的方法，其特征在于，所述文本特征包括语音后验图特征、瓶颈特征以及嵌入式特征中的一种或多种。

4.根据权利要求3所述的方法，其特征在于，所述音高网络为多层的一维空洞转置卷积网络。

5.根据权利要求1-4任一所述的方法，其特征在于，所述解码器通过注意力机制对组合特征中各特征进行定位。

6.一种声音转换装置，其特征在于，所述装置包括：

歌唱音高特征提取模块，用于将所述歌唱音高数据输入音高网络，得到歌唱音高特征；所述歌唱音高特征包括时间维度；

变声歌唱语音数据获取模块，用于将所述变声梅尔谱图数据输入声码器中，输出所述目标歌唱语音数据的变声歌唱语音数据；所述变声歌唱语音数据中的歌唱音色为目标说话人音色，所述变声歌唱语音数据为对所述目标歌唱语音数据经唱歌变声后得到的数据。

7.根据权利要求6所述的装置，其特征在于，所述语音转换模型的训练步骤包括：

8.根据权利要求6所述的装置，其特征在于，所述文本特征包括语音后验图特征、瓶颈特征以及嵌入式特征中的一种或多种。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。