CN112331222A

CN112331222A - 一种转换歌曲音色的方法、系统、设备及存储介质

Info

Publication number: CN112331222A
Application number: CN202011013244.5A
Authority: CN
Inventors: 王愈; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-02-05

Abstract

本申请提供了一种转换歌曲音色的方法、系统、设备及存储介质，涉及音频合成技术领域。旨在将歌曲中的人声音色从原唱的音色转换为目标人的音色。利用预设声源分离模型对待转换音色的目标歌曲进行声源分离，得到对应目标歌曲原有人声的第一音频和对应器物声的第二音频；提取第一音频的音素特征，得到第一音素特征；利用预设音色转换模型对第一音素特征添加目标发音人的音色特征，得到对应目标发音人音色的第一特征谱；其中，目标发音人的音色特征包括：第一梅尔倒谱、第一基频和第一非周期性成分；根据第一特征谱，生成对应目标发音人音色的第三音频；利用音频合成模型合并第二音频和第三音频，得到音色转换后的目标歌曲。

Description

一种转换歌曲音色的方法、系统、设备及存储介质

技术领域

本申请涉及音频合成技术领域，特别是涉及一种转换歌曲音色的方法、系统、设备及存储介质。

背景技术

移动互联网时代，用户更加看重个性的表达，乃至希望拥有具有自己声线的多媒体作品或者AI角色(智能机器人角色)。但并非每个用户都有丰富的配音知识和歌唱技巧，针对此问题，用户可以利用音色转换的应用程序或者装置协助制作具有自己声线的多媒体作品或者AI角色(智能机器人角色)。

然而现有技术下的音色转换产品只支持单纯人声的音色转换，即只能对没有杂音和声音起伏的人声进行音色转换。多数的多媒体作品都是器物声音频和人声音频混合的形式，例如歌曲，而目前只支持对单纯人声进行音色转换的产品，不能对歌曲中的人声进行音色转换。

发明内容

本申请实施例提供一种转换歌曲音色的方法、系统、设备及存储介质，旨在将歌曲中的人声音色从原唱的音色转换为目标人的音色。

本申请实施例第一方面提供一种转换歌曲音色的方法，所述方法包括：利用预设声源分离模型对待转换音色的目标歌曲进行声源分离，得到对应所述目标歌曲原有人声的第一音频和对应器物声的第二音频；提取所述第一音频的音素特征，得到第一音素特征；利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱；其中，所述目标发音人的音色特征包括：第一梅尔倒谱、第一基频和第一非周期性；根据所述第一特征谱，生成对应所述目标发音人音色的第三音频；利用音频合成模型合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲。

可选地，提取所述第一音频的音素特征之前，所述方法还包括：

按照预设播放时长，将所述第一音频分割为多个第一音频帧；根据所述多个第一音频帧，将所述第二音频分割为多个第二音频帧；提取所述第一音频的音素特征，得到第一音素特征，包括：依次提取所述多个第一音频帧中每个第一音频帧的音素特征，得到多个第二音素特征；利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱，包括：利用预设音色转换模型依次对所述多个第二音素特征中的每个第二音素特征添加所述目标发音人的音色特征，得到多个第二特征谱；根据所述第一特征谱，生成对应所述目标发音人音色的第三音频，包括：根据所述多个第二特征谱，生成对应所述目标发音人音色的多个第三音频帧；合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲，包括：依次将所述目标歌曲的所有歌词段的每个歌词段确定为当前歌词段，并计算所述当前歌词段占用的播放时长；根据所述当前歌词段占用的播放时长，分别计算所述当前歌词段对应的第三音频帧的第一数量，以及确定所述第二音频中待合并的第二音频帧的第二数量；将第一数量的第三音频帧和第二数量的第二音频帧进行合并，得到音色转换后的所述当前歌词段；合并所有音色转换后的所述当前歌词段，得到音色转换后的目标歌曲。

可选地，所述方法包括：

获得歌曲音频样本；将歌曲音频样本输入第一预设模型，并获取所述第一预设模型对所述歌曲音频样本分离得到的第一清唱音频和第一伴奏音频，将所述第一伴奏音频输入音频合成模型；将所述第一伴奏音频输入预设音色转换模型，并获取所述预设音色转换模型对所述第一清唱音频进行音色转换后得到的第二清唱音频，并将所述第二清唱音频输入音频合成模型；获得所述音频合成模型合并所述第二清唱音频和所述第一伴奏音频后得到的合成歌曲音频；将所述合成歌曲音频返回所述第一预设模型；利用所述合成歌曲音频和所述歌曲音频样本对所述第一预设模型进行多次训练，得到所述预设声源分离模型。

可选地，在将所述第二清唱音频输入音频合成模型之前，所述方法还包括：所述预设音色转换模型将所述第二清唱音频返回所述第一预设模型；利用所述合成歌曲音频和所述歌曲音频样本对所述第一预设模型进行多次训练，得到所述预设声源分离模型，包括：利用所述第一预设模型对所述第二清唱音频进行声源分离，得到第三清唱音频；利用所述第一预设模型对所述合成歌曲音频进行声源分离，得到第四清唱音频；计算所述第三清唱音频和所述第四清唱音频的相差程度；根据所述相差程度，以梯度回传的方式调整所述第一预设模型的参数，得到所述预设声源分离模型。

可选地，所述方法还包括：

获得所述目标发音人音频录音；提取所述音频录音的梅尔倒谱系数、第二梅尔倒谱、第二基频和第二非周期性成分；根据梅尔倒谱系数，得到所述音频录音的音素特征；拼接所述第二梅尔倒谱、所述第二基频和所述第二非周期性成分，得到第三特征谱；将所述音素特征和所述第三特征谱输入第二预设模型，对所述第二预设模型进行训练；将经过多次训练的第二预设模型确定为所述预设音色转换模型。

本申请实施例第二方面提供一种转换歌曲音色的系统，所述转换歌曲音色的系统包括：声源分离模块、音色转换模块以及音频合成模块；

所述声源分离模块，用于利用预设声源分离模型对待转换音色的目标歌曲进行声源分离，得到对应所述目标歌曲原有人声的第一音频和对应器物声的第二音频；所述音色转换模块用于提取所述第一音频的音素特征，得到第一音素特征；所述音色转换模块用于利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱；其中，所述目标发音人的音色特征包括：第一梅尔倒谱、第一基频和第一非周期性；所述音色转换模块用于根据所述第一特征谱，生成对应所述目标发音人音色的第三音频；所述音频合成模块用于利用音频合成模型合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

本申请实施例先对真实伴奏丰富的目标歌曲进行声源分离，目标歌曲为歌手录制的原唱歌曲，区别于照搬音高变化曲线，本申请实施例得到分离后的原唱人声(第一音频)和伴奏声(第二音频)后，提取原唱音频中与原唱人声音色无关，表示歌词发音特点的音素特征，利用音色转换模型对音素特征添加目标发音人的音色特征，即目标发音人的第一梅尔倒谱、第一基频和第一非周期性，合成能够深入捕捉目标发音人声音本质的声音特征谱，再根据声音特征谱生成第三音频，不改变原唱人声(第一音频)的旋律，得到音色已转换的目标发音人声(第三音频)，最后合并第三音频和第二音频，得到以目标发音人声音色演唱歌词的目标歌曲。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提出的转换歌曲音色的系统的结构示意图；

图2是本申请实施例提出的转换歌曲音色的步骤流程图；

图3是本申请实施例的一种示例中合并第二音频和第三音频的示意图；

图4是本申请实施例获得预设音色转换模型的步骤流程图；

图5是本申请实施例训练预设音色转换模型的流程图；

图6是本申请实施例训练预设声源分离模型的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

音色转换(Voice Conversion)是指将一个人语音的声线音色转换为另一个人的声线音色，语音内容不变。音色转换的应用较广，市场从普通娱乐、发音矫正、直到身份攻防，都可广泛应用。

音色转换的现状有：一：采集两个发音人朗读同样内容文本得到的语音音频，得到平行语料音频1和音频2，平行语料音频1和音频2除音色外，其他参数相同。利用音频1和音频2训练“一对一”的音色转换模型，得到的音色转换模型只能将两个发音人中一个人录制的音频的音色转换为另一个的音色，训练时对训练数据总量要求高，并且音色转换不稳定，应用范围狭窄。二、现有技术下的音色转换产品只支持内容是讲话的音频的音色转换，不支持唱歌音频的音色转换。

鉴于上述问题，本申请提出转换歌曲音色的方法，能够将任意歌曲中的人声音色转换为目标发音人音色，应用于转换歌曲音色的系统。图1是本申请实施例提出的转换歌曲音色的系统的结构示意图。如图1所示，转换歌曲音色的系统包括：声源分离模块11、音色转换模块12以及音频合成模块13。

声源分离模块11、音色转换模块12和音频合成模块13可以是计算机、集成芯片或者其他具有计算、存储数据能力的硬件。声源分离模块11包括但不限于预设声源分离模型、微处理器、集成电路、可编程逻辑器件、传输模块等。音色转换模块12包括但不限于预设音色转换模型、微处理器、集成电路、可编程逻辑器件、传输模块等。音频合成模块13包括但不限于音频合成模型、微处理器、集成电路、可编程逻辑器件、传输模块等。

图2是本申请实施例提出的转换歌曲音色的步骤流程图，如图2所示，转换歌曲音色的方法包括：

步骤S21：利用预设声源分离模型对待转换音色的目标歌曲进行声源分离，得到对应所述目标歌曲原有人声的第一音频和对应器物声的第二音频；

用户获取到目标歌曲后，先将目标歌曲输入声源分离模块11。

目标歌曲是用户选取的任意的歌曲音频，选取渠道可以是网络下载、录制等。目标歌曲中不仅有人声还有器物声。

预设声源分离模型用于从一段包含多种发音的录音中分离出各个发音者的独立干净发音，即从歌曲中分离出歌手清唱(人声)和伴奏乐(器物声)两部分。

第一音频可以看作目标歌曲中的人声音频，即歌手清唱的音频。第二音频可以看作目标歌曲中的器物声音频，即伴奏乐的音频。

步骤S22：提取所述第一音频的音素特征，得到第一音素特征；

声源分离模块11输出的第一音频输入音色转换模块12，声源分离模块11输出的第一音频输入音频合成模块13。

第一音素特征是待转换音色的目标歌曲中清唱音频的音素特征。音素特征指的是PPGs(Phonetic posteriorgrams音素后验概率特征)，即用于表示清唱音频发音特征的特征，与清唱音频的音色无关。

示例地，音素特征可以是一个70维的向量[x1,x2,........,x70]，音素概率向量中的每个元素都是介于0-1之间的概率，70个元素的总和等于1。目标歌曲是伴奏丰富的歌曲“为你而来”，那么经过声源分离后得到的第一音频是目标歌曲原唱的清唱音频“为你而来”。对第一音频提取音素特征后，清除了原唱的音色，只保留了音频“为你而来”中每个字的客观发音。

基于清唱音频“为你而来”提取得到的第一音素特征可以是：“weinierlai”。

音色转换模块中除了音色转换模型还有相应的语音信号分析单元，用于使用提取第一音频的第一音素特征。

步骤S23：利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱；其中，所述目标发音人的音色特征包括：第一梅尔倒谱、第一基频和第一非周期性；

本申请实施例提出的预设音色转换模型可以对第一音素特征添加目标发音人的音色特征，渲染得到目标发音人的第一特征谱。第一特征谱是指的是对第一音素特征渲染后的得到的合成声音谱。

若用户甲拟将歌手A的歌曲音色转换为自己的音色，那么用户甲则是目标发音人。预设音色转换模型可以是根据目标发音人的音色特征训练得到的神经网络模型，具有将原有人声的音色转换为目标发音人音色的功能。

第一梅尔倒谱可以指训练完成的预设音色转换模型能够以目标发音人的梅尔倒谱特点，对第一音素特征添加的梅尔倒谱。第一基频是指训练完成的预设音色转换模型能够以目标发音人的音高特点，对第一音素特征添加的基频。第一非周期性成分是指训练完成的预设音色转换模型能够以目标发音人的周期性发音特点，对第一音素特征添加的非周期性成分。

梅尔倒谱MCEPs(Mel-cepstrum)，用于描述发音细节，包含了说话人的个人特性。由于每个人的声带、口腔特征的不同，不同人发出的声音波形具有不同特征，梅尔倒谱MCEPs描述不同人发出的声音波形的差异特征的参数。

一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，该最低震动产生的音是基音(fundamental tone)。基频F0是指基音的频率，决定声音的音高。

现实世界中大部分的声音，都可以根据声音的周期特性将其分为周期性声音和非周期性声音。由于周期性声音的声音波型都具有一定的重复性，可以将声音分为纯音和复合音；纯音是含单一频率，同时声压随时间按正弦函数规律变化的声波。在自然界和日常生活中很少遇到纯音，纯音可由音叉产生，也可用电子振荡电路或音响合成器产生。而非周期性声音由许多频率、强度和相位不同的声音无规律性地组合在一起形成。非周期性成分(BAP，BandAperiodicity)是指：用于表示非周期性声音在不同周期间的声音频率、强度和相位的差异特征。

步骤S24：根据所述第一特征谱，生成对应所述目标发音人音色的第三音频；

步骤S25：利用音频合成模型合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲。

音色转换模块12输出的第三音频输入音频合成模块13。

本申请另一个实施例提出的转换歌曲音色的方法，分帧对第一音频进行音色转换，再根据每个歌词旋律的所占用的音频帧数，合并由第一音频转换音色后得到的第三音频和第二音频，即合并目标发音人的清唱音频和伴奏音频，由于歌词每个字，或者每个旋律的长短不变，所以目标发音人的清唱音频和伴奏音频节拍匹配，合成的音色转换后的目标歌曲自然。

按照预设播放时长，将所述第一音频分割为多个第一音频帧；

根据所述多个第一音频帧，将所述第二音频分割为多个第二音频帧；

声源分离模块在利用声源分离模型将目标歌曲分离成原唱人声(第一音频)和伴奏声(第二音频)两部分后，按照预设播放时长，将第一音频和第二音频分割为一一对应的多个音频帧。假设第一音频帧的数量是10，第二音频帧的数量也是10，以保证第一音频帧和第二音频帧的一一对应。

预设播放时长是指每帧预设的时长。假设预设播放时间是10ms，那么每个第一音频帧的时间长度就是10ms。

根据所述多个第一音频帧，将所述第二音频分割为多个第二音频帧指的是，按照第一音频帧每帧预设的时长和第一音频帧的数量，对第二音频进行分割。假设第一音频帧的时间长度是10ms，第二音频帧的时间长度也是10ms。

声源分离模块11在完成第一音频和第二音频的分割后，将多个第二音频帧输入音频合成模块13，将多个第一音频帧输入音色转换模块12。

提取所述第一音频的音素特征，得到第一音素特征，包括：

依次提取所述多个第一音频帧中每个第一音频帧的音素特征，得到多个第二音素特征；

第二音素特征是指在对目标歌曲进行音色转换的过程，提取的目标歌曲的每帧原唱声音的音素特征。

利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱，包括：利用预设音色转换模型依次对所述多个第二音素特征中的每个第二音素特征添加所述目标发音人的音色特征，得到多个第二特征谱；

第二特征谱是用于表示对应单个第一音频帧的第一特征谱。

根据所述第一特征谱，生成对应所述目标发音人音色的第三音频，包括：

根据所述多个第二特征谱，生成对应所述目标发音人音色的多个第三音频帧；

音色转换模块12得到多个第三音频帧后，将多个第三音频帧输入音频合成模块13。由于多个第一音频帧和多个第二音频帧是一一对应的，多个第三音频帧由多个第一音频帧一一转换音色得到的，即多个第一音频帧和多个第三音频帧是一一对应的，所以多个第三音频帧和多个第二音频帧是一一对应的。因此音频合成模块13合并第二音频和第三音频可以采用以下方式进行：

依次将所述目标歌曲的所有歌词段的每个歌词段确定为当前歌词段，并计算所述当前歌词段占用的播放时长；

歌词段可以是歌词，也是根据歌词设置的空时长。一段清唱人声音频中，有歌词的部分，也有停顿的部分(没有歌词的部分)，对于歌词部分，可以直接将每个歌词作为歌词段，例如“为你而来一辈子”，歌词“为”“你”都是歌词段。而“为你而来一辈子”和“只是想和你有关”两句歌词之间有停顿间隙，可以设置1s为歌词段，也可以将停顿的总时长作为对应没有歌词部分的歌词段，即对应第三音频的停顿部分的歌词段。

对于清唱人声音频中没有歌词(停顿)的部分，没有旋律，因此只要保证后一段的歌词能够与旋律匹配即可。

根据所述当前歌词段占用的播放时长，分别计算所述当前歌词段对应的第三音频帧的第一数量，以及确定所述第二音频中待合并的第二音频帧的第二数量；

假设当前歌词段占用的时长是2s，第三音频帧的时间长度是10ms，那么当前歌词段对应的第三音频帧的第一数量是200，待合并的第二音频帧的第二数量也是200。

将第一数量的第三音频帧和第二数量的第二音频帧进行合并，得到音色转换后的所述当前歌词段；合并所有音色转换后的所述当前歌词段，得到音色转换后的目标歌曲。

按照歌词段合并第三音频(音色转换后的清唱)和第二音频(伴奏)，精确到10ms，减少了旋律的误差，保证了每个字播放的时长和每个字对应的旋律时长相等。

图3是本申请实施例的一种示例中合并第二音频和第三音频的示意图。如图3所示，假设第三音频共有20个音频帧，每个音频帧1ms，对应清唱歌词“我和你～”，“～”表示停顿，即没有歌词的部分。歌词段“我”的播放时长是8ms，歌词段“和”的播放时长是4ms，歌词段“你”的播放时长是6ms，“～”的播放时长是2ms。

由于第三音频帧是以1ms为单元对应第二音频帧，在此基础上按照歌词段的时长，确定与每个歌词段对应的第二音频帧，即可保证音色转换后的清唱音频中每个歌词段匹配的伴奏与原有人声清唱音频中每个歌词段匹配的伴奏是同一段伴奏。

本申请实施例采用单位单元处理的方式，将第一音频和第二音频分割为音频帧，对每个第一音频帧进行音色转换，得到音色转换后的第三音频帧，使第三音频和第二音频以音频帧为单位一一对齐。再以歌词为参照，二次对齐第三音频和第二音频，即对齐歌词和与歌词匹配的旋律，保证了音色转换后的目标歌曲的每个字的旋律长短，与目标歌曲原有人声的每个字的旋律长短相同，进而保证音色转换后的目标歌曲只是音色发生变化，旋律和节拍不变。

音频合成模型可以采用现有的音频信号合成器或现有的AI音频合成模型。本申请实施例对此不作限制。

本申请另一个实施例提出了获得预设音色转换模型的方法。图4是本申请实施例获得预设音色转换模型的步骤流程图。图5是本申请实施例训练预设音色转换模型的流程图。如图4和图5所示，获得预设音色转换模型的方法如下：

步骤S41：获得所述目标发音人音频录音；

目标发音人音频录音是采集的目标发音人说话的音频。具体可以使目标发音人朗读对各文本，录制大量的音频录音。

步骤S42：提取所述音频录音的梅尔倒谱系数、第二梅尔倒谱、第二基频和第二非周期性成分；

声道的形状会在语音功率谱的包络中显示出来，梅尔倒谱系数(Mel FrequencyCepstrum Coefficient)是一种能准确描述包络特征的参数。由于不同人的声道不同，所以梅尔倒谱系数能够表示特定人的发音特征。

第二梅尔倒谱是指在训练预设音色转换模型的过程中，提取的录音音频的梅尔倒谱。第二基频是指在训练预设音色转换模型的过程中，提取的录音音频的基频。第二非周期性成分是指在训练预设音色转换模型的过程中，提取的录音音频的非周期性成分

同时本申请实施例利用声音素材库中的数据样本训练语音识别系统ASR，先对数据样本的语音数据进行信号参数提取，将提取的信号参数输入语音识别系统，获得语音识别系统输出的文本，根据数据样本的文本数据与输出的文本的相差程度，调整语音识别系统ASR的参数，直到语音识别系统能够准确地将语音转换为文本。

训练完成的语音识别系统能够基于梅尔倒谱系数得到音素特征PPGs(音素后验概率特征)。音素用于描述相同内容发的音共性是根据语音的自然属性划分出来的最小语音单位。例如，对于“你好”的内容，所有的人对其的发音都是以音素“nihao”为基础的。音素概率向量PPGs是指特定内容的音素的概率，能够代表不同人发音的共性，例如都做相同的发音动作，发出的就是ɑ的音，都做另一种发音动作，发出的就是Λ的音。

步骤S43：根据梅尔倒谱系数，得到所述音频录音的音素特征；

将梅尔倒谱系数MFCC输入训练完成的语音识别系统，得到音频录音的音素概率向量PPGs。假设当前音素为[a、b、d、e、f、g]，音频录音是“歌”的发音，训练完成的语音识别系统输出的音素特征是音素概率向量PPGs[a-1％、b-12％、d-7％、e-30％、f-10％、g-40％]和PPGs[a-2％、b-11％、d-6％、e-45％、f-31％、g-5％]。

步骤S44：拼接所述第二梅尔倒谱、所述第二基频和所述第二非周期性成分，得到第三特征谱；

第三特征谱是指具有目标发音人音色特征的声音谱。

步骤S45：将所述音素特征和所述第三特征谱输入第二预设模型，对所述第二预设模型进行训练；

第二预设模型可以包括卷积神经网络、序列神经网络、循环神经网络等。本申请实施例对此不做限定。

步骤S46：将经过多次训练的第二预设模型确定为所述预设音色转换模型。

经过多次训练的第二预设模型能够根据目标发音人的发音特征，对音素特征进行渲染，得到具有目标发音人音色特征的声音谱。而能够表示目标发音人的发音特征是指的与音色相关的：第二梅尔倒谱、第二基频和第二非周期性成分。

本申请实施例在音色转换时，通过第二梅尔倒谱、第二基频和第二非周期性成分表示目标发音人的音色特征，其中，第二梅尔倒谱能够描述目标发音人声音人声的声音波形的差异特征，在此基础上进一步融合人声的音高特征(第二基频)和原有人声的发音非周期性特征，能够全方位目标发音人声音的音色。因此根据第二梅尔倒谱、第二基频和第二非周期性拼接得到的第三特征谱训练第二预设模型，得到的预设音色转换模型能够从声音波形的差异特征、音高特征、和非周期成分多方面出发，全方位地对输入的音频帧作音色作替换，将原有人声的声音音色的替换为目标发音人的声音音色，保证音色转换的完整。换言之，由梅尔倒谱、基频和非周期性拼接得到的特征谱能够全面地描述声音的音色，而非只从单个音高特征的角度对声音进行音色转换。将任意的音素输入经过上述训练步骤得到的预设音色转换模型，能够对音素特征进行渲染，得到具有目标发音人音色特点的声音谱。

训练第二预设模型的数据可以是目标发音人朗读文本的语音，因此在本申请实施例中，无需目标发音人的唱歌，就能得到可以对任意清唱音频进行音色转换的预设音色转换模型，结合本申请实施例采用的以声源分离，音色转换、音频合成的方法，实现将任意歌曲转换为目标发音人演唱的歌曲的目的。

本申请另一个实施例提出了训练预设声源分离模型的方法。图6是本申请实施例训练预设声源分离模型的流程图。如图6所示，以搭建的第一预设模型、训练完成的预设音色转换模型和训练完成的音频合成模型组成训练预设声源分离模型的系统。

训练预设声源分离模型前，先获得训练数据，即三元组样本；所述三元组样本包括：歌曲音频样本、原曲清唱样本和原曲伴奏样本；

三元组样本来自于人工加工好的数据，即每首歌曲和其原始制作时歌手音轨和伴奏音轨的原始录音。

先使用三元组样本训练神经网络模型得到第一预设模型，第一预设模型可以完成普通的声源分离任务，进一步地为了使第一预设模型分离歌曲得到的清唱音频更加纯净，本申请提出了如下优化声源分离模型的方法。

首先获得优化声源分离模型的样本：歌曲音频样本。歌曲音频样本可以从三元组样本中获得，也可以通过其他渠道获得。

将所述歌曲音频样本输入第一预设模型，并获取所述第一预设模型对所述歌曲音频样本分离得到的第一清唱音频和第一伴奏音频，将所述第一伴奏音频输入音频合成模型；

训练第一预设模型分为两个阶段，第一阶段是第一预设模型经过学习大量的三元组样本后，能够将歌曲的伴奏音轨和清唱音轨分离。第二阶段是利用歌曲音频样本结合训练完成的预设音色转换模型、训练完成的音频合成模型反向训练，优化经过第一阶段训练的第一预设模型，使第一预设模型对伴奏音轨和清唱音轨的分割更契合后续音色转换和音频合成。

获取第一预设模型对歌曲音频样本分离得到的第一清唱音频和第一伴奏音频时利用的第一预设模型，是经过第一阶段训练后的第一预设模型。

将所述第一伴奏音频输入预设音色转换模型，并获取所述预设音色转换模型对所述第一清唱音频进行音色转换后得到的第二清唱音频，并将所述第二清唱音频输入音频合成模型；

第二清唱音频是目标发音人音色的清唱音频。第一清唱音频是歌曲音频样本中原有人声音色的清唱音频。第一伴奏音频是指歌曲音频样本中原有伴奏的音频，由于初始制作歌曲音频样本时使用的是第一伴奏音频和第一清唱音频，那么初始制作歌曲音频样本中具有第一伴奏音频和第一清唱音频的关联特征，例如伴奏声音波形和清唱声音被波形的振幅、频率等参数的相同点。第一预设模型在优化初期进行声源分离时，是根据原有人声音色的清唱音频和原有伴奏的音频的关联特征进行的声源分离，第一清唱音频音色转换后得到的第二清唱音频与第一伴奏音频的关联特征也会不同。

获得所述音频合成模型合并所述第二清唱音频和所述第一伴奏音频后得到的合成歌曲音频；

合成歌曲音频是第二清唱音频与第一伴奏音频合成的歌曲。

将所述合成歌曲音频返回所述第一预设模型；

将合成歌曲返回第一预设模型，第一预设模型学习音色转换后的歌曲中第二清唱音频与第一伴奏音频的关联特征，使得第一预设模型进行声源分离时以目标发音人的音色特征作为参考，分离出的清唱音频更符合目标发音人的音色特征，也使得转换音色后的清唱音频更加自然。

利用所述合成歌曲音频和所述歌曲音频样本对所述第一预设模型进行多次训练，得到所述预设声源分离模型。

在本申请另一种实施例中，还对第一清唱音频进行音色转换后得到的第二清唱音频进行了再次的声源分离，得到没有伴奏残留的清唱音频，以没有伴奏残留的清唱音频作为监督条件，对基于合成歌曲音频进行声源分离后得到的清唱音频计算损失函数，训练第一预设模型声源分离的精确程度。

利用训练过程如下：

所述预设音色转换模型将所述第二清唱音频返回所述第一预设模型；

利用所述合成歌曲音频和所述歌曲音频样本对所述第一预设模型进行多次训练，包括：利用所述第一预设模型对所述第二清唱音频进行声源分离，得到第三清唱音频；利用所述第一预设模型对所述合成歌曲音频进行声源分离，得到第四清唱音频；计算所述第三清唱音频和所述第四清唱音频的相差程度；

第三清唱音频是对歌曲音频样本进行多次声源分离后得到的没有伴奏杂音的清唱音频。第四清唱音频是，对歌曲音频样本声源分离后得到的清唱音频进行音色转换后得到的清唱音频，与对歌曲音频样本声源分离后得到的伴奏音频合成的歌曲进行声源分离后，得到的具有目标发音人音色特定的清唱音频，该清唱音频保留了目标发音人的音色特点，以及具有目标发音人音色特点的清唱音频与伴奏的关联特征。

相差程度可以是第三清唱音频和第四清唱音频的损失函数的损失值。

根据所述相差程度，以梯度回传的方式调整所述经过多次训练的第一预设模型的参数，得到所述预设声源分离模型。

如图6所示，示例地，假设用于训练声源分离模型的某条训练数据为三元组[m,v,a]。m是歌曲音频样本，v是原曲清唱样本，a是原曲伴奏样本。第一预设模型经过多个三元组的多次训练后，能够将m分离得到贴近v的v₁，与贴近a的a₁。

将v₁输入预设音色转换模型，得到音色是目标发音人音色的v₂。

将v₂和a₁输入音频合成模型合并，得到合成歌曲音频va₂。

将va₂输入第一预设模型，分离得到v₃和a₃。

将v₂输入第一预设模型，分离得到v₄和a₄。

以v₃为训练目标，计算v₄与v₃的误差，通过标准的梯度回传调优模型第一预设模型的参数。

本申请实施例以音色转换结果和音频合成的结果反向训练第一预设模型，优化第一预设模型的声源分离结果，得到预设声源分离模型；其中，反向训练过程中得到的合成歌曲音频是经过音色转换后的音频，即目标发音人的清唱音频和原歌曲的伴奏音频的合成音频，以合成歌曲音频训练声源分离模型，使声源分离模型能够以标发音人的清唱音频和伴奏音频的关联特征为依据，对歌曲进行声源分离。反向训练过程中得到的歌曲音频样本经过多次声源分离得到的第三清唱音频是没有器物声，即没有伴奏杂音的目标发音人的清唱音频，是声源分离模型对歌曲进行声源分离的理想效果，将声源分离的理想效果作为训练目标，优化声源分离模型对合成歌曲音频进行声源分离的精准度，保证声源分离模型能够对任意歌曲分离出契合音色转换的，伴奏音杂质较少的清唱音频。

基于同一发明构思，本申请实施例提供一种转换歌曲音色系统。如图1所示，转换歌曲音色的系统包括：声源分离模块11、音色转换模块12以及音频合成模块13。

所述声源分离模块11用于利用预设声源分离模型对待转换音色的目标歌曲进行声源分离，得到对应所述目标歌曲原有人声的第一音频和对应器物声的第二音频；

所述音色转换模块12用于提取所述第一音频的音素特征，得到第一音素特征；

所述音色转换模块12用于利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱；其中，所述目标发音人的音色特征包括：第一梅尔倒谱、第一基频和第一非周期性；

所述音色转换模块12用于根据所述第一特征谱，生成对应所述目标发音人音色的第三音频；

所述音频合成模块13用于利用音频合成模型合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲。

可选地，所述声源分离模块用于：按照预设播放时长，将所述第一音频分割为多个第一音频帧；根据所述多个第一音频帧，将所述第二音频分割为多个第二音频帧；提取所述第一音频的音素特征，得到第一音素特征，包括：依次提取所述多个第一音频帧中每个第一音频帧的音素特征，得到多个第二音素特征；利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱，包括：利用预设音色转换模型依次对所述多个第二音素特征中的每个第二音素特征添加所述目标发音人的音色特征，得到多个第二特征谱；根据所述第一特征谱，生成对应所述目标发音人音色的第三音频，包括：根据所述多个第二特征谱，生成对应所述目标发音人音色的多个第三音频帧；合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲，包括：依次将所述目标歌曲的所有歌词段的每个歌词段确定为当前歌词段，并计算所述当前歌词段占用的播放时长；根据所述当前歌词段占用的播放时长，分别计算所述当前歌词段对应的第三音频帧的第一数量，以及确定所述第二音频中待合并的第二音频帧的第二数量；将第一数量的第三音频帧和第二数量的第二音频帧进行合并，得到音色转换后的所述当前歌词段；合并所有音色转换后的所述当前歌词段，得到音色转换后的目标歌曲。

可选地，所述转换歌曲音色的系统还包括第一模型训练模块；

所述第一模型训练模块用于获得歌曲音频样本；所述第一模型训练模块还用于将所述歌曲音频样本输入第一预设模型，并获取所述第一预设模型对所述歌曲音频样本分离得到的第一清唱音频和第一伴奏音频，将所述第一伴奏音频输入音频合成模型；所述第一模型训练模块还用于将所述第一伴奏音频输入预设音色转换模型，并获取所述预设音色转换模型对所述第一清唱音频进行音色转换后得到的第二清唱音频，并将所述第二清唱音频输入音频合成模型；所述第一模型训练模块还用于以所述第一模型训练模块用于获得所述音频合成模型合并所述第二清唱音频和所述第一伴奏音频后得到的合成歌曲音频；所述第一模型训练模块还用于将所述合成歌曲音频返回所述第一预设模型；所述第一模型训练模块还用于利用所述合成歌曲音频和所述歌曲音频样本对所述第一预设模型进行多次训练，得到所述预设声源分离模型。

可选地，所述第一模型训练模块还用于通过所述预设音色转换模型将所述第二清唱音频返回所述第一预设模型；所述第一模型训练模块还用于利用所述第一预设模型对所述第二清唱音频进行声源分离，得到第三清唱音频；所述第一模型训练模块还用于利用所述第一预设模型对所述合成歌曲音频进行声源分离，得到第四清唱音频；所述第一模型训练模块还用于计算所述第三清唱音频和所述第四清唱音频的相差程度；所述第一模型训练模块还用于根据所述相差程度，以梯度回传的方式调整所述经过多次训练的第一预设模型的参数，得到所述预设声源分离模型。

可选地，所述转换歌曲音色的系统还包括第二模型训练模块；所述第二模型训练模块用于获得所述目标发音人音频录音；所述第二模型训练模块还用于提取所述音频录音的梅尔倒谱系数、第二梅尔倒谱、第二基频和第二非周期性成分；所述第二模型训练模块还用于根据梅尔倒谱系数，得到所述音频录音的音素特征；所述第二模型训练模块还用于拼接所述第二梅尔倒谱、所述第二基频和所述第二非周期性成分，得到第三特征谱；所述第二模型训练模块还用于将所述音素特征和所述第三特征谱输入第二预设模型，对所述第二预设模型进行训练；所述第二模型训练模块还用于将经过多次训练的第二预设模型确定为所述预设音色转换模型。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的转换歌曲音色的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的转换歌曲音色的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种转换歌曲音色的方法、系统、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种转换歌曲音色的方法，其特征在于，所述方法包括：

利用预设声源分离模型对待转换音色的目标歌曲进行声源分离，得到对应所述目标歌曲原有人声的第一音频和对应器物声的第二音频；

提取所述第一音频的音素特征，得到第一音素特征；

利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱；其中，所述目标发音人的音色特征包括：第一梅尔倒谱、第一基频和第一非周期性成分；

根据所述第一特征谱，生成对应所述目标发音人音色的第三音频；

利用音频合成模型合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲。

2.根据权利要求1所述的方法，其特征在于，提取所述第一音频的音素特征之前，所述方法还包括：

提取所述第一音频的音素特征，得到第一音素特征，包括：

依次提取所述多个第一音频帧中每个第一音频帧的音素特征，得到多个第二音素特征；；

利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱，包括：

利用预设音色转换模型依次对所述多个第二音素特征中的每个第二音素特征添加所述目标发音人的音色特征，得到多个第二特征谱；

合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲，包括：

将第一数量的第三音频帧和第二数量的第二音频帧进行合并，得到音色转换后的所述当前歌词段；

合并所有音色转换后的所述当前歌词段，得到音色转换后的目标歌曲。

3.根据权利要求1所述的方法，其特征在于，所述方法包括：

获得歌曲音频样本；

将所述合成歌曲音频返回所述第一预设模型；

4.根据权利要求3所述的方法，其特征在于，在将所述第二清唱音频输入音频合成模型之前，所述方法还包括：

利用所述合成歌曲音频和所述歌曲音频样本对所述第一预设模型进行多次训练，得到所述预设声源分离模型，包括：

利用所述第一预设模型对所述第二清唱音频进行声源分离，得到第三清唱音频；

利用所述第一预设模型对所述合成歌曲音频进行声源分离，得到第四清唱音频；

计算所述第三清唱音频和所述第四清唱音频的相差程度；

根据所述相差程度，以梯度回传的方式调整所述第一预设模型的参数，得到所述预设声源分离模型。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获得所述目标发音人音频录音；

提取所述音频录音的梅尔倒谱系数、第二梅尔倒谱、第二基频和第二非周期性成分；

根据梅尔倒谱系数，得到所述音频录音的音素特征；

拼接所述第二梅尔倒谱、所述第二基频和所述第二非周期性成分，得到第三特征谱；

将所述音素特征和所述第三特征谱输入第二预设模型，对所述第二预设模型进行训练；

将经过多次训练的第二预设模型确定为所述预设音色转换模型。

6.一种转换歌曲音色的系统，其特征在于，所述转换歌曲音色的系统包括：声源分离模块、音色转换模块以及音频合成模块；

所述声源分离模块用于利用预设声源分离模型对待转换音色的目标歌曲进行声源分离，得到对应所述目标歌曲原有人声的第一音频和对应器物声的第二音频；

所述音色转换模块用于提取所述第一音频的音素特征，得到第一音素特征；

所述音色转换模块用于利用预设音色转换模型对所述第一音素特征添加目标发音人的音色特征，得到对应所述目标发音人音色的第一特征谱；其中，所述目标发音人的音色特征包括：第一梅尔倒谱、第一基频和第一非周期性；

所述音色转换模块用于根据所述第一特征谱，生成对应所述目标发音人音色的第三音频；

所述音频合成模块用于利用音频合成模型合并所述第二音频和所述第三音频，得到音色转换后的目标歌曲。

7.根据权利要求6所述的转换歌曲音色的系统，其特征在于，所述声源分离模块用于：

提取所述第一音频的音素特征之前，所述方法还包括：

提取所述第一音频的音素特征，得到第一音素特征，包括：

8.根据权利要求6所述的转换歌曲音色的系统，其特征在于，所述转换歌曲音色的系统还包括第一模型训练模块；

所述第一模型训练模块用于获得歌曲音频样本；

所述第一模型训练模块还用于将所述歌曲音频样本输入第一预设模型，并获取所述第一预设模型对所述歌曲音频样本分离得到的第一清唱音频和第一伴奏音频，将所述第一伴奏音频输入音频合成模型；

所述第一模型训练模块还用于将所述第一伴奏音频输入预设音色转换模型，并获取所述预设音色转换模型对所述第一清唱音频进行音色转换后得到的第二清唱音频，并将所述第二清唱音频输入音频合成模型；

所述第一模型训练模块还用于以所述第一模型训练模块用于获得所述音频合成模型合并所述第二清唱音频和所述第一伴奏音频后得到的合成歌曲音频；

所述第一模型训练模块还用于将所述合成歌曲音频返回所述第一预设模型；

所述第一模型训练模块还用于利用所述合成歌曲音频和所述歌曲音频样本对所述第一预设模型进行多次训练，得到所述预设声源分离模型。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。