CN115410551A

CN115410551A - 歌曲转换方法、装置和存储介质及电子设备

Info

Publication number: CN115410551A
Application number: CN202110574340.5A
Authority: CN
Inventors: 孙洪文; 陈传艺; 肖纯智; 劳振锋; 关迪聆
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-11-29

Abstract

本发明公开了一种歌曲转换方法、装置和存储介质及电子设备。其中，该方法包括：获取音源数据；对音源数据进行特征提取，以获得目标音色特征，其中，目标音色特征用于表示产生音源数据的音源对象的音色；在获取到初始歌曲关联的目标音高特征的情况下，对目标音色特征以及目标音高特征进行整合处理，以获得音源对象对应的目标声学特征，其中，目标音高特征用于表示初始歌曲中各个音的音调高度，目标声学特征用于表示音源对象在初始歌曲上的声音表现；根据目标声学特征将初始歌曲转换为目标歌曲。本发明解决了歌曲转换的准确性较低的技术问题。

Description

歌曲转换方法、装置和存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种歌曲转换方法、装置和存储介质及电子设备。

背景技术

现有技术往往通过截取说话者不同发音片段，拼接成要歌唱的发音，通过拼接、变速变调、平滑过渡等方法进行调整，但毕竟说话者不同发音片段的音高与要歌唱的音高无法保证较高的匹配度，进而导致无法通过歌曲转换以得到精准的目标歌曲。即，现有技术中存在歌曲转换的准确性较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种歌曲转换方法、装置和存储介质及电子设备，以至少解决歌曲转换的准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种歌曲转换方法，包括：获取音源数据；对上述音源数据进行特征提取，以获得目标音色特征，其中，上述目标音色特征用于表示产生上述音源数据的音源对象的音色；在获取到初始歌曲关联的目标音高特征的情况下，对上述目标音色特征以及上述目标音高特征进行整合处理，以获得上述音源对象对应的目标声学特征，其中，上述目标音高特征用于表示上述初始歌曲中各个音的音调高度，上述目标声学特征用于表示上述音源对象在上述初始歌曲上的声音表现；根据上述目标声学特征将上述初始歌曲转换为目标歌曲。

根据本发明实施例的另一方面，还提供了一种歌曲转换装置，包括：第一获取单元，用于获取音源数据；提取单元，用于对上述音源数据进行特征提取，以获得目标音色特征，其中，上述目标音色特征用于表示产生上述音源数据的音源对象的音色；整合单元，用于在获取到初始歌曲关联的目标音高特征的情况下，对上述目标音色特征以及上述目标音高特征进行整合处理，以获得上述音源对象对应的目标声学特征，其中，上述目标音高特征用于表示上述初始歌曲中各个音的音调高度，上述目标声学特征用于表示上述音源对象在上述初始歌曲上的声音表现；转换单元，用于根据上述目标声学特征将上述初始歌曲转换为目标歌曲。

作为一种可选的方案，上述第三获取单元，包括：第四获取模块，用于获取上述多个第二样本音频数据，其中，上述第二样本音频数据包括样本音高数据、样本音源数据以及样本歌曲数据；第一标记模块，用于对每个上述样本音高数据中的音高数据在上述样本歌曲数据上的音高分布进行位置标记，得到标记后的多个上述样本音高数据；第二标记模块，用于对每个上述样本音源数据中的音源数据在上述样本歌曲数据上的人声分布进行位置标记，得到标记后的多个上述样本音源数据；第一输入模块，用于将标记后的多个上述样本音高数据以及多个上述样本音源数据输入初始声学模型，以训练得到上述声学模型。

作为一种可选的方案，上述转换单元，包括：第二输入模块，用于将上述目标声学特征输入声码器，以使上述声码器将初始歌曲转换为上述目标歌曲，其中，上述声码器为利用多个第三样本音频数据进行训练后得到的用于输出歌曲音频的神经网络模型。

作为一种可选的方案，包括：第四获取单元，用于在上述根据上述目标声学特征将上述初始歌曲转换为目标歌曲之后，获取歌曲播放请求，其中，上述歌曲播放请求用于播放上述目标歌曲；响应单元，用于在上述根据上述目标声学特征将上述初始歌曲转换为目标歌曲之后，响应上述歌曲播放请求，对上述目标歌曲对应的音频数据执行播放操作。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述歌曲转换方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的歌曲转换方法。

在本发明实施例中，获取音源数据；对上述音源数据进行特征提取，以获得目标音色特征，其中，上述目标音色特征用于表示产生上述音源数据的音源对象的音色；在获取到初始歌曲关联的目标音高特征的情况下，对上述目标音色特征以及上述目标音高特征进行整合处理，以获得上述音源对象对应的目标声学特征，其中，上述目标音高特征用于表示上述初始歌曲中各个音的音调高度，上述目标声学特征用于表示上述音源对象在上述初始歌曲上的声音表现；根据上述目标声学特征将上述初始歌曲转换为目标歌曲，利用初始歌曲本身的音高特征，与音源数据相结合的方式，保证了转换后的目标歌曲的音高与初始歌曲本身的音高拥有较高的匹配度，进而达到了在兼顾保留音源对象的原音的同时，还保证了转换后的目标歌曲拥有较高的音准的目的，从而实现了提高歌曲转换的准确性的技术效果，进而解决了歌曲转换的准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的歌曲转换方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的歌曲转换方法的流程的示意图；

图3是根据本发明实施例的一种可选的歌曲转换方法的示意图；

图4是根据本发明实施例的另一种可选的歌曲转换方法的示意图；

图5是根据本发明实施例的另一种可选的歌曲转换方法的示意图；

图6是根据本发明实施例的另一种可选的歌曲转换方法的示意图；

图7是根据本发明实施例的另一种可选的歌曲转换方法的示意图；

图8是根据本发明实施例的一种可选的歌曲转换装置的示意图；

图9是根据本发明实施例的另一种可选的歌曲转换装置的示意图；

图10是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种歌曲转换方法，可选地，作为一种可选的实施方式，上述歌曲转换方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102、网络110及服务器112，其中，该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。

具体过程可如下步骤：

步骤S102，用户设备102获取目标用户账号(如账号A)触发的转化请求，其中，该转化请求还携带有待转化的(初始)歌曲(如歌曲B)，以及目标用户账号关联的音源数据(如账号A数据库中录入的音频数据)；

步骤S104-S106，用户设备102通过网络110将转化请求发送给服务器112；

步骤S108，服务器112通过处理引擎116提取目标用户账号关联的音源数据的音色特征，并通过数据库114查找歌曲B的音高特征，以及通过处理引擎116将该音色特征以及音高特征进行处理，从而获取目标声学特征，并基于该目标声学特征将歌曲B转化为目标歌曲；

步骤S110-S112，服务器112通过网络110将目标歌曲对应的音频数据发送给用户设备102，用户设备102中的处理器106根据目标歌曲对应的音频数据进行播放处理，并将目标歌曲对应的音频数据存储在存储器104中。

除图1示出的示例之外，上述步骤可以由用户设备102独立完成，即由用户设备102执行图像的处理、采集姿态正常或异常的判断等步骤，从而减轻服务器的处理压力。该用户设备102包括但不限于手持设备(如手机)、笔记本电脑、台式电脑、车载设备等，本发明并不限制用户设备102的具体实现方式。

可选地，作为一种可选的实施方式，如图2所示，歌曲转换方法包括：

S202，获取音源数据；

S204，对音源数据进行特征提取，以获得目标音色特征，其中，目标音色特征用于表示产生音源数据的音源对象的音色；

S206，在获取到初始歌曲关联的目标音高特征的情况下，对目标音色特征以及目标音高特征进行整合处理，以获得音源对象对应的目标声学特征，其中，目标音高特征用于表示初始歌曲中各个音的音调高度，目标声学特征用于表示音源对象在初始歌曲上的声音表现；

S208，根据目标声学特征将初始歌曲转换为目标歌曲。

可选地，在本实施例中，上述歌曲转换方法可以但不限于应用在利用合成音源对象的原音音色以及初始歌曲的标准音高，以将初始歌曲转换为通过原音音色演唱的目标歌曲，进而完成任意音源对象都可制作专业级别的歌曲演唱作品的效果，其中，目标歌曲与初始歌曲之间的音调、音高、歌词等歌曲信息的相似度达到相似阈值。具体的例如，获取音源对象A的人声数据，以及待转换的初始歌曲B的音高数据，进而通过上述歌曲转换方法将人声数据以及音高数据进行合成，已完成对初始歌曲B转换为目标歌曲C的操作执行，其中，初始歌曲B与目标歌曲C之间除人声信息外的其他歌曲信息一致，不同在于初始歌曲B可能是由专业歌手D演唱的，而目标歌曲C是由音源对象A演唱的。如此一来，将专业歌手D演唱的初始歌曲B转换为由音源对象A演唱的目标歌曲C，其中，由于转换期间还结合了专业歌手D在演唱初始歌曲B时的音高数据，使得目标歌曲C在音源对象A的演唱下，也相当于具有专业歌手D一般专业的音准，进而即使音源对象A不会演唱初始歌曲B，或无法很好地完成初始歌曲B的演唱，仍能将初始歌曲B转换为带有自己音色且音准接近专业歌手D的目标歌曲D。

可选地，在本实施例中，音源数据的获取可以但不限于目标用户账号上传的音频数据，例如目标用户账号将本地数据库中存储的一段音频数据上传至目标客户端，以供目标客户端进行音源数据的提取；也可以但不限于为目标用户账号关联的客户端采集到的音频数据，例如目标客户端采集一段时间内目标用户账号关联的音频数据，作为目标用户账号的音源数据；还可以但不限于为目标用户账号提供的多媒体信息中识别到的音频数据，例如目标用户账号给出了一个视频的网址(如某主播A的直播视频)，则在该视频中采集并识别出主播A的音源数据，或者说将主播A作为音源数据的音源对象；

可选地，在本实施例中，对所述音源数据进行特征提取可以但不限于先将音频数据中的人声音频数据进行筛选，再对该人声音频数据进行特征提取；或，音源数据可以但不限于为目标用户账号关联的人声音频数据，对音频数据进行特征提起可以但不限于理解为对上述人声音频数据进行特征提取。

可选地，在本实施例中，目标音色特征用于表示产生音源数据的音源对象的音色，其中，音色可以但不限于指不同声音表现在波形方面的特性，通常不同的物体振动都有不同的特点，进而不同音源对象的声音表现也有不同的特点，而目标音色特征可以但不限用于表示产生目标用户账号关联的音源数据的音源对象的声音表现特点。

可选地，在本实施例中，目标音高特征用于表示初始歌曲中各个音的音调高度，其中，由于音的本质可以但不限于理解为机械波，所以音的音调高低也可以但不限于理解为机械波的频率决定的，进而声速一定时，和波长也有关系，频率高，波长短，则音高，反之，频率低，波长长，则低。在歌曲演唱的场景下，歌曲在创造出的时，规定了每个音调的高低，而歌手通过控制音调高低完成对上述规定好的音调匹配，进而目标音高特征可以但不限于理解为初始歌曲中各个音规定好的音调高度。

可选地，在本实施例中，目标声学特征用于表示音源对象在初始歌曲上的声音表现，其中，由于每个歌曲在创作初通常就已规定好音调高低的分配信息(如音谱)，进而在所有歌手都按照该分配信息进行演唱时，观众之所以可以区分开是哪一歌手进行演唱的，是因为每个歌手的音色存在或大或小的不同，进而目标声学特征可以但不限用于表示使用音源对象的音色，按照初始歌曲对应的分配信息进行演唱时的声音表现。

需要说明的是，利用初始歌曲本身的音高特征，与目标用户账号的音源数据相结合的方式，保证了转换后的目标歌曲的音高与初始歌曲本身的音高拥有较高的匹配度，进而在兼顾保留音源对象的原音的同时，还保证了转换后的目标歌曲拥有较高的音准。

进一步举例说明，可选的例如图3所示，目标用户账号可以但不限于为XX直播平台的主播A，则假设将该主播A作为音源对象，进而通过音频采集，采集到主播A在直播过程中所产生的音频数据作为目标用户账号关联的音源数据304；此外，假设将待转换的歌曲确定为初始歌曲302，并基于标准版本的初始歌曲302(如纯享歌曲版本或专业歌手演唱的版本或官方提供的歌曲版本等)以识别出对应的音高数据308；进一步，分别对音源数据304以及音高数据308进行特征提取，以获得对应的目标音色特征306以及目标音高特征310；再者，对目标音色特征306以及目标音高特征310进行特征整合，以获得目标声学特征312，并基于目标声学特征312生成目标歌曲314，以完成对初始歌曲302的转换操作；基于此，即使主播A并未演唱过初始歌曲302，但仍获取到基于主播A的音色所产生的目标歌曲314，且由于在歌曲转换过程中，结合初始歌曲302本申请的音高数据308，进而使得即使主播A并非专业歌手，但所生成的目标歌曲314仍具备较高的音准表现。

通过本申请提供的实施例，获取音源数据；对音源数据进行特征提取，以获得目标音色特征，其中，目标音色特征用于表示产生音源数据的音源对象的音色；在获取到初始歌曲关联的目标音高特征的情况下，对目标音色特征以及目标音高特征进行整合处理，以获得音源对象对应的目标声学特征，其中，目标音高特征用于表示初始歌曲中各个音的音调高度，目标声学特征用于表示音源对象在初始歌曲上的声音表现；根据目标声学特征将初始歌曲转换为目标歌曲，利用初始歌曲本身的音高特征，与音源数据相结合的方式，保证了转换后的目标歌曲的音高与初始歌曲本身的音高拥有较高的匹配度，进而达到了在兼顾保留音源对象的原音的同时，还保证了转换后的目标歌曲拥有较高的音准的目的，从而实现了提高歌曲转换的准确性的技术效果。

作为一种可选的方案，对音源数据进行特征提取，以获得目标音色特征，包括：

S1，对音源数据进行特征提取，以获得第一音色特征，其中，第一音色特征用于表示音源数据对应的音色信息；

S2，根据第一音色特征获取目标音色特征。

可选地，在本实施例中，第一音色特征用于表示音源数据对应的音色信息，其中，音色信息可以但不限于理解为一种音源对象的发声特性的综合信息，或可理解为音源对象在发各种类型音时具有的同一或相似度较高的共性。

需要说明的是，在音源数据比较全面的情况下，可通过对音源数据的特征提取以获取到音源对象的发声特性，即音色信息，进而根据该音色信息生成对应的目标音色特征，其中，目标音色特征的生成过程可以但不限于理解为将音色信息进行一系列的整合、筛选等过程，从而将最能体现音源对象的发声特性的特征表现作为目标音色特征。

进一步举例说明，可选的例如对影视演员A的音源数据进行特征提取，以获得第一音色特征，再根据第一音色特征获取目标音色特征，其中，第一音色特征可理解为影视演员A的全部音源数据对应的音色信息，而目标音色特征则可理解为影视演员A的全部音源数据中，最能代表影视演员A的发生特性的部分音源数据对应的音色信息，或可理解为影视演员A的全部音源数据中，可能包括一些大家听到也无法意识到这是影视演员A的声音对应的音源数据，而目标音色特征则表示将大家听到就意识到这是影视演员A的声音对应的音源数据的特性。

通过本申请提供的实施例，对音源数据进行特征提取，以获得第一音色特征，其中，第一音色特征用于表示音源数据对应的音色信息；根据第一音色特征获取目标音色特征，利用数据与特征之间的处理，实现了提高歌曲转换的准确性的效果。

作为一种可选的方案，根据第一音色特征获取目标音色特征，包括：

S1，在音源数据中的音素量未达到目标阈值的情况下，根据第一音色特征获取第二音色特征，其中，第二音色特征用于表示音素量达到目标阈值的音源数据对应的音色信息；

S2，根据第二音色特征获取目标音色特征。

可选地，在本实施例中，音素量可以但不限于理解为音素的量化单位，如在英语国际音标中共有48个音素，可理解为英语国际音标或英语的音素量为48，而现代汉语中共有32个音素，则可理解为现代汉语或中文的音素量为32，其中，音素可以但不限于根据语言的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素，具体的，音素分为元音和辅音两大类，如汉语音节(a)只有一个音素，“ai”有两个音素，“dai”有三个音素。

可选地，在本实施例中，音源数据中的音素量未达到目标阈值可以但不限于理解为单纯的(数)量未达到目标阈值，也可以但不限于对应的音素的数量未达到目标阈值，如初始歌曲所需的音素为“a”、“b”以及“c”，而音素数据中虽然包括了“a”、“b”以及“d”，但缺少“c”，则视为音素“c”的量未达到目标阈值；或，目标阈值可以设置为低于全部音素的量值，例如初始歌曲所需的音素为“a”、“b”以及“c”，而音素数据中虽然包括了“a”、“b”以及“d”，但目标阈值被设置为2，即表示音素满足2个即可，进而缺少“c”，但持有音素“a”、“b”，仍满足目标阈值达到这一条件。

需要说明的是，在音源数据比较全面的情况下，可直接对音源数据的特征提取结果(第一音色特征)，以获取目标音色特征，但往往音源数据做不到一定程度的全面，例如音源数据中只包括了英文数据，而待转换的初始歌曲为中文，所需的音素自然也为中文对应的音素，进而可理解为该音素数据中的音素量为0，在这种情况下，要么提示目标用户账号关联的音源数据不足，请补充，要么就仅基于目标用户账号关联的音源数据进行相关处理，以补全不足的因素量。

进一步举例说明，可选地假设音源对象C关联的音源数据为外文数据，则为其提供包含中文发音数据的训练数据，通过两种数据混合训练，使音源对象C学习到中文的发声特性；

再例如，可选地假如音源对象D关联的音源数据较少，缺少多个发音音素的数据，那么同样为其提供包含多个发音数据的训练数据，使音源对象D学习到缺失音素对应的发声特性。

通过本申请提供的实施例，在音源数据中的音素量未达到目标阈值的情况下，根据第一音色特征获取第二音色特征，其中，第二音色特征用于表示音素量达到目标阈值的音源数据对应的音色信息；根据第二音色特征获取目标音色特征，达到了即使在音源数据缺失或不满足歌曲转换条件的情况下，仍能完成歌曲转换的目的，实现了提高歌曲转换的可拓展性的效果。

作为一种可选的方案，在对目标音色特征以及目标音高特征进行整合处理，以获得音源对象对应的目标声学特征之前，包括以下至少之一：

S1，获取音高模型，其中，音高模型为利用多个第一样本音频数据进行训练后得到的用于输出音高特征的模型；

S2，获取声学模型，其中，声学模型为利用多个第二样本音频数据进行训练后得到的用于输出声学特征的模型。

需要说明的是，音源数据的特征提取、以及初始歌曲关联的目标音高特征的获取，可以但不限于至少之一都借用高效的模型技术进行处理。

进一步举例说明，可选的例如图4所示，包括音高模型402以及声学模型404，具体的，将初始歌曲406的乐谱信息408输入至音高模型402中，以获得初始歌曲406对应的音高特征；将音源数据410输入至声学模型404中，以获得音源数据410对应的音色特征；进一步，音高模型402将音源数据410对应的音高特征输出至声学模型404中，并由声学模型404完成特征之间(音色特征以及音高特征)的整合处理，以生成目标歌曲412。

通过本申请提供的实施例，获取音高模型，其中，音高模型为利用多个第一样本音频数据进行训练后得到的用于输出音高特征的模型；获取声学模型，其中，声学模型为利用多个第二样本音频数据进行训练后得到的用于输出声学特征的模型，利用高效的模型技术以完成歌曲转换过程中的相关步骤，进而实现了提高歌曲转换的效率的效果。

作为一种可选的方案，获取音高模型，包括：

S1，获取多个第一样本音频数据，其中，第一样本音频数据包括样本歌曲数据以及样本歌声数据，样本歌声数据中各个音与样本歌曲数据中的音调信息相对应；

S2，重复执行以下步骤，直至得到音高模型：

S3，从多个第一样本音频数据中确定出当前第一样本音频数据，并确定当前音高模型，其中，当前第一样本音频数据包括当前样本歌曲数据以及当前样本歌声数据；

S4，通过当前第一样本音频数据识别出当前识别结果，其中，当前识别结果用于表示当前样本歌声数据中各个音对应样本歌曲数据中的音调信息的实际音调高度；

S5，在当前识别结果未达到输出收敛条件的情况下，获取下一个第一样本音频数据作为当前第一样本音频数据；

S6，在当前识别结果达到输出收敛条件的情况下，确定当前音高模型为音高模型。

可选地，在本实施例中，第一样本音频数据可以但不限于为初始歌曲的音频数据，也可以但不限于为各种类型的歌曲的音频数据；再者，第一样本音频数据可以但不限于为歌曲的标准音频数据，例如第一样本音频数据为由专业歌手演唱的歌曲音频，进而在训练过程中，将专业歌手在演唱对应歌曲时不同高音表现的特性进行学习。

通过本申请提供的实施例，获取多个第一样本音频数据，其中，第一样本音频数据包括样本歌曲数据以及样本歌声数据，样本歌声数据中各个音与样本歌曲数据中的音调信息相对应；重复执行以下步骤，直至得到音高模型：从多个第一样本音频数据中确定出当前第一样本音频数据，并确定当前音高模型，其中，当前第一样本音频数据包括当前样本歌曲数据以及当前样本歌声数据；通过当前第一样本音频数据识别出当前识别结果，其中，当前识别结果用于表示当前样本歌声数据中各个音对应样本歌曲数据中的音调信息的实际音调高度；在当前识别结果未达到输出收敛条件的情况下，获取下一个第一样本音频数据作为当前第一样本音频数据；在当前识别结果达到输出收敛条件的情况下，确定当前音高模型为音高模型，实现了提高音高特征的准确性的效果。

作为一种可选的方案，获取声学模型，包括：

S1，获取多个第二样本音频数据，其中，第二样本音频数据包括样本音高数据、样本音源数据以及样本歌曲数据；

S2，对每个样本音高数据中的音高数据在样本歌曲数据上的音高分布进行位置标记，得到标记后的多个样本音高数据；

S3，对每个样本音源数据中的音源数据在样本歌曲数据上的人声分布进行位置标记，得到标记后的多个样本音源数据；

S4，将标记后的多个样本音高数据以及多个样本音源数据输入初始声学模型，以训练得到声学模型。

可选地，在本实施例中，为提高训练效率，第二样本音频数据可以但不限于包括第一样本音频数据，或者说第二样本音频数据可以但不限于在第一样本音频数据的基础上，加上样本音源对象的音源数据。

可选地，在本实施例中，对每个样本音源数据中的音源数据在样本歌曲数据上的人声分布进行位置标记，可以但不限于理解为，一段歌曲通常可分为人声部分和音乐部分，在人声部分中，每一个音节往往对应一个或多个字节发音，而上述位置标记可以但不限于为标记与音节对应的字节发音位置；

进一步举例说明，可选地例如图5所示，假设样本音频数据502包括了5个发音字节(如A、B、C、D、E)，则每个发音字节在该样本音频数据502的位置分布存在明显差异，如A分布在首位，E分布在最后，其中，图5中的5个发音字节相对应虚线的位置关系，则可理解为是发音字节的在样本音频数据502中的音调数据。

通过本申请提供的实施例，获取多个第二样本音频数据，其中，第二样本音频数据包括样本音高数据、样本音源数据以及样本歌曲数据；对每个样本音高数据中的音高数据在样本歌曲数据上的音高分布进行位置标记，得到标记后的多个样本音高数据；对每个样本音源数据中的音源数据在样本歌曲数据上的人声分布进行位置标记，得到标记后的多个样本音源数据；将标记后的多个样本音高数据以及多个样本音源数据输入初始声学模型，以训练得到声学模型，实现了提高音学特征的准确性的效果。

作为一种可选的方案，根据目标声学特征将初始歌曲转换为目标歌曲，包括：

将目标声学特征输入声码器，以使声码器将初始歌曲转换为目标歌曲，其中，声码器为利用多个第三样本音频数据进行训练后得到的用于输出歌曲音频的神经网络模型。

需要说明的是，为提高目标歌曲的输出效率以及准确性，在输出端可以但不限于应用一个深度学习的声码器。

通过本申请提供的实施例，将目标声学特征输入声码器，以使声码器将初始歌曲转换为目标歌曲，其中，声码器为利用多个第三样本音频数据进行训练后得到的用于输出歌曲音频的神经网络模型，实现了提高目标歌曲的转换效率的效果。

作为一种可选的方案，在根据目标声学特征将初始歌曲转换为目标歌曲之后，包括：

S1，获取歌曲播放请求，其中，歌曲播放请求用于播放目标歌曲；

S2，响应歌曲播放请求，对目标歌曲对应的音频数据执行播放操作。

可选地，在本实施例中，上述歌曲转换方法可以但不限于应用在服务类型的客户端上，为该客户端的使用者(用户)提供多样性的歌曲转化服务。

进一步举例说明，可选的例如图6所示，客户端602的账号A触发了歌曲转换请求，其中，该歌曲转换请求用于将歌曲B转换为账号A关联的音源数据(如账号A提前上传的音频数据)对应的目标歌曲；响应歌曲转换请求，生成目标歌曲，其中，目标歌曲的歌曲本质还是歌曲B，但演唱者已由原唱更改为音源数据的音源对象，如图6中的(a)所示；进一步，获取客户端602的账号A触发的歌曲播放请求，并响应歌曲播放请求，以播放转换后的目标歌曲。

通过本申请提供的实施例，获取歌曲播放请求，其中，歌曲播放请求用于播放目标歌曲；响应歌曲播放请求，对目标歌曲对应的音频数据执行播放操作，达到了帮助用户实现完成任一歌曲作品的需求的目的，实现了提高用户体验的效果。

作为一种可选的方案，为方便理解，以一种具体的应用场景阐述上述歌曲转换方法，例如图7所示，首先用歌者B的数据训练音高模型702，在合成过程中可以利用音高模型702产生歌声所需要的的音高信息；而声学模型704则利用A的说话数据和B的歌声数据进行混合训练，将B的发音在不同音高表现的特性迁移到说话人A上，这样A虽然训练数据只有说话数据，也能够学习到B唱歌时发音特性，产生A的歌声声学特征；最后经过一个深度学习声码器706生成A的歌声；

可选地，可以将音高信息作为声学模型704的输入信号，首先能够使歌声数据和语音数据一同训练声学模,704，并且合成过程中可以通过估计歌声的音高信息作为条件传入声学模型704，合成说话人的歌声数据；

此外，混合说话数据、歌声数据以训练声学模型704，利用声学模型704的迁移特点，能够合成仅有说话数据的说话者A的歌声信号，具体方法如下：

音高信息的迁移，A说话者说话数据发音音高比较低，而B歌者歌声数据有一些较高的歌声数据，通过两种数据的混合训练，能够使A说话者学习到B的高音发音方法。

音素信息的迁移，C说话者说话数据为外文数据，数据中包含中文发音数据，通过两种数据混合训练，可以使C说话者学习到中文的发声方法。除此之外，假如说话者D说话数据较少，缺少某个发音的数据，同样可以从其他中文发声数据中学习到。

通过利用声学模型704的这种迁移的特性，并且优化模型的迁移能力，能够使混合数据训练的声学模型能够合成说话人A的歌声数据；

进一步，图7所示的系统输入可以但不限于包括以下至少之一：音素信息、乐谱信息、说话人id等，进而通过音高模型702、声学模型704、声码器706，合成说话人高质量的歌声信号声学特征.

通过本申请提供的实施例，通过专业歌手数据训练音高模型，然后利用说话人的说话数据训练声学模型及声码器。合成时，通过音高模型生成歌声对应的音高数据，然后将音高数据与发音信息一起传入声学模型，生成歌声对应的声学特征，最后通过声码器生成歌声信号；该系统分离音高模型为单独的模型，能够分离音高线和声学模型，合成歌声信号所需的音色无关的音高信息；声学模型部分利用并提升了声学模型的迁移特征，使用歌声数据和说话数据混合训练声学模型，在缺少数据甚至不同语种的情况下，能够生成只有说话数据说话人A音色的歌声数据。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述歌曲转换方法的歌曲转换装置。如图8所示，该装置包括：

第一获取单元802，用于获取音源数据；

提取单元804，用于对音源数据进行特征提取，以获得目标音色特征，其中，目标音色特征用于表示产生音源数据的音源对象的音色；

整合单元806，用于在获取到初始歌曲关联的目标音高特征的情况下，对目标音色特征以及目标音高特征进行整合处理，以获得音源对象对应的目标声学特征，其中，目标音高特征用于表示初始歌曲中各个音的音调高度，目标声学特征用于表示音源对象在初始歌曲上的声音表现；

转换单元808，用于根据目标声学特征将初始歌曲转换为目标歌曲。

具体实施例可以参考上述歌曲转换方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，如图9所示，提取单元804，包括：

提取模块902，用于对音源数据进行特征提取，以获得第一音色特征，其中，第一音色特征用于表示音源数据对应的音色信息；

第一获取模块904，用于根据第一音色特征获取目标音色特征。

作为一种可选的方案，第一获取模块904，包括：

第一获取子模块，用于在音源数据中的音素量未达到目标阈值的情况下，根据第一音色特征获取第二音色特征，其中，第二音色特征用于表示音素量达到目标阈值的音源数据对应的音色信息；

第二获取子模块，用于根据第二音色特征获取目标音色特征。

作为一种可选的方案，包括以下至少之一：

第二获取单元，用于在对目标音色特征以及目标音高特征进行整合处理，以获得音源对象对应的目标声学特征之前，获取音高模型，其中，音高模型为利用多个第一样本音频数据进行训练后得到的用于输出音高特征的模型；

第三获取单元，用于在对目标音色特征以及目标音高特征进行整合处理，以获得音源对象对应的目标声学特征之前，获取声学模型，其中，声学模型为利用多个第二样本音频数据进行训练后得到的用于输出声学特征的模型。

作为一种可选的方案，第二获取单元，包括：

第二获取模块，用于获取多个第一样本音频数据，其中，第一样本音频数据包括样本歌曲数据以及样本歌声数据，样本歌声数据中各个音与样本歌曲数据中的音调信息相对应；

第一重复模块，用于重复执行以下步骤，直至得到音高模型：

第一确定模块，用于从多个第一样本音频数据中确定出当前第一样本音频数据，并确定当前音高模型，其中，当前第一样本音频数据包括当前样本歌曲数据以及当前样本歌声数据；

第一识别模块，用于通过当前第一样本音频数据识别出当前识别结果，其中，当前识别结果用于表示当前样本歌声数据中各个音对应样本歌曲数据中的音调信息的实际音调高度；

第三获取模块，用于在当前识别结果未达到输出收敛条件的情况下，获取下一个第一样本音频数据作为当前第一样本音频数据；

第二确定模块，用于在当前识别结果达到输出收敛条件的情况下，确定当前音高模型为音高模型。

作为一种可选的方案，第三获取单元，包括：

第四获取模块，用于获取多个第二样本音频数据，其中，第二样本音频数据包括样本音高数据、样本音源数据以及样本歌曲数据；

第一标记模块，用于对每个样本音高数据中的音高数据在样本歌曲数据上的音高分布进行位置标记，得到标记后的多个样本音高数据；

第二标记模块，用于对每个样本音源数据中的音源数据在样本歌曲数据上的人声分布进行位置标记，得到标记后的多个样本音源数据；

第一输入模块，用于将标记后的多个样本音高数据以及多个样本音源数据输入初始声学模型，以训练得到声学模型。

作为一种可选的方案，转换单元808，包括：

第二输入模块，用于将目标声学特征输入声码器，以使声码器将初始歌曲转换为目标歌曲，其中，声码器为利用多个第三样本音频数据进行训练后得到的用于输出歌曲音频的神经网络模型。

作为一种可选的方案，包括：

第四获取单元，用于在根据目标声学特征将初始歌曲转换为目标歌曲之后，获取歌曲播放请求，其中，歌曲播放请求用于播放目标歌曲；

响应单元，用于在根据目标声学特征将初始歌曲转换为目标歌曲之后，响应歌曲播放请求，对目标歌曲对应的音频数据执行播放操作。

根据本发明实施例的又一个方面，还提供了一种用于实施上述歌曲转换方法的电子设备，如图10所示，该电子设备包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取音源数据；

S2，对音源数据进行特征提取，以获得目标音色特征，其中，目标音色特征用于表示产生音源数据的音源对象的音色；

S3，在获取到初始歌曲关联的目标音高特征的情况下，对目标音色特征以及目标音高特征进行整合处理，以获得音源对象对应的目标声学特征，其中，目标音高特征用于表示初始歌曲中各个音的音调高度，目标声学特征用于表示音源对象在初始歌曲上的声音表现；

S4，根据目标声学特征将初始歌曲转换为目标歌曲。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的歌曲转换方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的歌曲转换方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储音源数据、目标音色特征、初始歌曲、目标音高特征、目标声学特征以及目标歌曲等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述歌曲转换装置中的获取单元1602、处理单元1604及调整单元1606。此外，还可以包括但不限于上述歌曲转换装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1008，用于显示上述音源数据、目标音色特征、初始歌曲、目标音高特征、目标声学特征以及目标歌曲等信息；和连接总线1010，用于连接上述电子设备中的各个模块部件。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取音源数据；

S4，根据目标声学特征将初始歌曲转换为目标歌曲。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种歌曲转换方法，其特征在于，包括：

获取音源数据；

对所述音源数据进行特征提取，以获得目标音色特征，其中，所述目标音色特征用于表示产生所述音源数据的音源对象的音色；

在获取到初始歌曲关联的目标音高特征的情况下，对所述目标音色特征以及所述目标音高特征进行整合处理，以获得所述音源对象对应的目标声学特征，其中，所述目标音高特征用于表示所述初始歌曲中各个音的音调高度，所述目标声学特征用于表示所述音源对象在所述初始歌曲上的声音表现；

根据所述目标声学特征将所述初始歌曲转换为目标歌曲。

2.根据权利要求1所述的方法，其特征在于，所述对所述音源数据进行特征提取，以获得目标音色特征，包括：

对所述音源数据进行特征提取，以获得第一音色特征，其中，所述第一音色特征用于表示所述音源数据对应的音色信息；

根据所述第一音色特征获取所述目标音色特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一音色特征获取所述目标音色特征，包括：

在所述音源数据中的音素量未达到目标阈值的情况下，根据所述第一音色特征获取第二音色特征，其中，所述第二音色特征用于表示所述音素量达到所述目标阈值的所述音源数据对应的音色信息；

根据所述第二音色特征获取所述目标音色特征。

4.根据权利要求1所述的方法，其特征在于，在所述对所述目标音色特征以及所述目标音高特征进行整合处理，以获得所述音源对象对应的目标声学特征之前，包括以下至少之一：

获取音高模型，其中，所述音高模型为利用多个第一样本音频数据进行训练后得到的用于输出音高特征的模型；

获取声学模型，其中，所述声学模型为利用多个第二样本音频数据进行训练后得到的用于输出声学特征的模型。

5.根据权利要求4所述的方法，其特征在于，所述获取音高模型，包括：

获取所述多个第一样本音频数据，其中，所述第一样本音频数据包括样本歌曲数据以及样本歌声数据，所述样本歌声数据中各个音与所述样本歌曲数据中的音调信息相对应；

重复执行以下步骤，直至得到所述音高模型：

从所述多个第一样本音频数据中确定出当前第一样本音频数据，并确定当前音高模型，其中，所述当前第一样本音频数据包括当前样本歌曲数据以及当前样本歌声数据；

通过所述当前第一样本音频数据识别出当前识别结果，其中，所述当前识别结果用于表示所述当前样本歌声数据中各个音对应所述样本歌曲数据中的音调信息的实际音调高度；

在所述当前识别结果未达到输出收敛条件的情况下，获取下一个第一样本音频数据作为所述当前第一样本音频数据；

在所述当前识别结果达到所述输出收敛条件的情况下，确定所述当前音高模型为所述音高模型。

6.根据权利要求4所述的方法，其特征在于，所述获取声学模型，包括：

获取所述多个第二样本音频数据，其中，所述第二样本音频数据包括样本音高数据、样本音源数据以及样本歌曲数据；

对每个所述样本音高数据中的音高数据在所述样本歌曲数据上的音高分布进行位置标记，得到标记后的多个所述样本音高数据；

对每个所述样本音源数据中的音源数据在所述样本歌曲数据上的人声分布进行位置标记，得到标记后的多个所述样本音源数据；

将标记后的多个所述样本音高数据以及多个所述样本音源数据输入初始声学模型，以训练得到所述声学模型。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述目标声学特征将所述初始歌曲转换为目标歌曲，包括：

将所述目标声学特征输入声码器，以使所述声码器将初始歌曲转换为所述目标歌曲，其中，所述声码器为利用多个第三样本音频数据进行训练后得到的用于输出歌曲音频的神经网络模型。

8.根据权利要求1至6中任一项所述的方法，其特征在于，在所述根据所述目标声学特征将所述初始歌曲转换为目标歌曲之后，包括：

获取歌曲播放请求，其中，所述歌曲播放请求用于播放所述目标歌曲；

响应所述歌曲播放请求，对所述目标歌曲对应的音频数据执行播放操作。

9.一种歌曲转换装置，其特征在于，包括：

第一获取单元，用于获取音源数据；

提取单元，用于对所述音源数据进行特征提取，以获得目标音色特征，其中，所述目标音色特征用于表示产生所述音源数据的音源对象的音色；

整合单元，用于在获取到初始歌曲关联的目标音高特征的情况下，对所述目标音色特征以及所述目标音高特征进行整合处理，以获得所述音源对象对应的目标声学特征，其中，所述目标音高特征用于表示所述初始歌曲中各个音的音调高度，所述目标声学特征用于表示所述音源对象在所述初始歌曲上的声音表现；

转换单元，用于根据所述目标声学特征将所述初始歌曲转换为目标歌曲。

10.根据权利要求9所述的装置，其特征在于，所述提取单元，包括：

提取模块，用于对所述音源数据进行特征提取，以获得第一音色特征，其中，所述第一音色特征用于表示所述音源数据对应的音色信息；

第一获取模块，用于根据所述第一音色特征获取所述目标音色特征。

11.根据权利要求10所述的装置，其特征在于，所述获取模块，包括：

第一获取子模块，用于在所述音源数据中的音素量未达到目标阈值的情况下，根据所述第一音色特征获取第二音色特征，其中，所述第二音色特征用于表示所述音素量达到所述目标阈值的所述音源数据对应的音色信息；

第二获取子模块，用于根据所述第二音色特征获取所述目标音色特征。

12.根据权利要求9所述的装置，其特征在于，包括以下至少之一：

第二获取单元，用于在所述对所述目标音色特征以及所述目标音高特征进行整合处理，以获得所述音源对象对应的目标声学特征之前，获取音高模型，其中，所述音高模型为利用多个第一样本音频数据进行训练后得到的用于输出音高特征的模型；

第三获取单元，用于在所述对所述目标音色特征以及所述目标音高特征进行整合处理，以获得所述音源对象对应的目标声学特征之前，获取声学模型，其中，所述声学模型为利用多个第二样本音频数据进行训练后得到的用于输出声学特征的模型。

13.根据权利要求12所述的装置，其特征在于，所述第二获取单元，包括：

第二获取模块，用于获取所述多个第一样本音频数据，其中，所述第一样本音频数据包括样本歌曲数据以及样本歌声数据，所述样本歌声数据中各个音与所述样本歌曲数据中的音调信息相对应；

第一重复模块，用于重复执行以下步骤，直至得到所述音高模型：

第一确定模块，用于从所述多个第一样本音频数据中确定出当前第一样本音频数据，并确定当前音高模型，其中，所述当前第一样本音频数据包括当前样本歌曲数据以及当前样本歌声数据；

第一识别模块，用于通过所述当前第一样本音频数据识别出当前识别结果，其中，所述当前识别结果用于表示所述当前样本歌声数据中各个音对应所述样本歌曲数据中的音调信息的实际音调高度；

第三获取模块，用于在所述当前识别结果未达到输出收敛条件的情况下，获取下一个第一样本音频数据作为所述当前第一样本音频数据；

第二确定模块，用于在所述当前识别结果达到所述输出收敛条件的情况下，确定所述当前音高模型为所述音高模型。

14.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至8任一项中所述的方法。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。