CN111370013A

CN111370013A - 声音自动迁移方法及系统、存储介质

Info

Publication number: CN111370013A
Application number: CN202010106020.2A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-07-03

Abstract

本申请实施例公开了声音自动迁移方法及系统、存储介质，方法包括：对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数；根据所述每一个歌词对应的音频数据的参数，对所述人声音频数据进行人声到乐器声音的特征迁移，得到结果序列；输出所述结果序列。上述方案实现了人声演唱与乐器演奏的快速准确转换，降低了人工成本，提升了转换效果。

Description

声音自动迁移方法及系统、存储介质

技术领域

本申请涉及音频文件处理领域，尤其涉及了声音自动迁移方法及系统、存储介质。

背景技术

在现有技术背景下，如果人们想要将自己演唱的声音作品以一种或者多种乐器演奏的形式表现出来，一般需要通过乐器演奏者人工识别这段声音作品的旋律，并用乐器演奏这段旋律，同时将演奏的声音录制下来。而对于一些听音能力较差和节奏感较弱的演奏者，则需要通过人工先将该声音作品用乐谱记录下来，再在乐器演奏者演奏这段旋律的同时将演奏的声音录制下来。这种方式不仅费时费力，而且无法保证录制效果，难以快速满足大量用户的需求，成本比较高昂。

因此，有必要开发一种歌唱和器乐声音的自动迁移方法，实现人声演唱与乐器演奏的快速准确转换，降低人工成本，提升转换效果。

发明内容

本申请实施例提供一种声音的自动迁移方法及系统、存储介质，以实现人声演唱与乐器演奏的快速准确转换，降低人工成本，提升转换效果。

第一方面，本申请实施例提供了一种声音自动迁移方法，包括：

例如当用户需要进行人声至乐器演奏的快速迁移时，声音自动迁移系统对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数。所述声音自动迁移系统根据所述每一个歌词对应的音频数据的参数，对所述人声音频数据进行人声到乐器声音的特征迁移，得到结果序列。所述声音自动迁移系统输出所述结果序列。

可以看出，上述声音自动迁移方案中，通过歌词信息和音频识别技术，基于乐器的声音数据，将人声演唱的歌曲转换为一种或者多种乐器演奏的器乐声音，实现了人声演唱与乐器演奏的快速准确转换，降低了人工成本，满足了广大用户需求，提升了转换效果。

在一些可能的实施方式中，对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数，可包括：读取人声音频数据，获得所述人声音频数据中每一个歌词对应的音频数据；获取每一个歌词对应的音频数据的参数，所述参数包括以下至少一个：基频信号、响度和持续时间。

其中，所述音频的格式包括但不限于：wav、mp3、flac。音频的声道数包括但不限于：单声道、双声道、多声道。将读取的音频记为y，所述音频是时域音频波形的采样值。

在一些可能的实施方式中，读取人声音频数据，获得所述人声音频数据中每一个歌词对应的音频数据，可包括：读取所述人声音频数据，获取所述人声音频数据中的歌词信息，所述歌词信息包括每一个歌词的起始时间和结束时间；根据所述每一个歌词的起始时间和结束时间，截取获得多段所述每一个歌词的起始时间和结束时间之间对应的有效音频数据；将所述多段有效音频数据按照预设的帧长和帧移进行分帧，得到多帧的时域波形。

其中，将各一个演唱歌词的起止时间对应读取的音频，截取获得有歌词时间的有效音频，即y[1ts,1te；2ts,2te；…；Nts,Nte]。其中，its和ite分别为第i个歌词的起始时间ts和结束时间te，y[its,ite]为该时间段内的人声音频。将每一个歌词对应的波形y[its,ite]按照一定帧长和帧移进行分帧，获得多帧的时域波形。如帧长为15毫秒，帧移为50％。也可以为其它值，如帧长为30毫秒，帧移25％。

在一些可能的实施方式中，所述获取每一个歌词对应的音频数据的基频信号、响度和持续时间，可包括：提取所述多帧的时域波形的基频信号；根据所述多帧的时域波形的能量和声压，得到所述多帧的时域波形的响度；根据所述每一个歌词的起始时间和结束时间，得到每一个歌词的持续时间。

其中，将各帧信号作为输入，通过基频提取技术，得到各帧信号的基频f，单位为Hz。其中，基频提取技术包括但不限于DIO方法、Harvest方法、PYIN方法等。这些方法是从业人员所熟知的方法，它们的准确度和计算耗时各有特点，可以根据实际情况选择适合的一种。将各帧的信号做傅里叶变换，得到1000Hz处的能量，再计算声压级，得到响度E。根据歌词信息中的歌词起始和结束时间，得到每个歌词的持续时间(ts,te)。

在一些可能的实施方式中，所述方法还包括：检测有人声活动的持续时间；获取所述每一个歌词的持续时间和所述有人声活动的持续时间的交集，得到多个人声持续时间。

其中，根据VAD(Voice Activity Detection，静音抑制)检测，判断有人声活动的持续时间(vts,vte)。取它们的交集时间，即：(max(ts,vts),min(te,vte))。这样可以防止用户在实际演唱中出现与歌词时间有偏差的情况，可以提升识别准确率。

在一些可能的实施方式中，所述方法还包括：分别记录预设乐器的每个音高在多个播放时间下的声音，得到乐器原声素材库；对所述乐器原声素材库进行编码，得到所述预设乐器的每个音调的共振频率和持续时间的对应关系。

以钢琴为例，记录每个按键在不同播放时间下的声音，得到钢琴原声的素材库，对素材库进行编码，得到音调的共振频率和持续时间的二维码表。如list＝[key1,key2,…keyN]，其中keyn是同一个音调在不同播放时间下的声音，如keyn＝[t1,t2,…,tM]。

在一些可能的实施方式中，所述根据所述预处理信息，对原始音频文件进行人声到乐器声音的特征迁移，得到结果序列，包括：对所述多帧的时域波形对应的基频信号和所述预设乐器的每个音调的共振频率进行频率映射，得到映射频率；根据所述预设乐器的每个音调的共振频率和持续时间的对应关系，得到与所述映射频率对应的所述多个人声持续时间最接近的所述乐器的多个输出音高；根据多个所述时域波形的响度，得到所述结果序列的多个输出响度；根据时间顺序，将所述多个输出音高、多个持续时间、多个输出响度进行排列，生成结果序列。

以人声迁移至钢琴为例，由于人声的基频范围较小，记为fA-fB；而钢琴的频率范围较宽，记为Fmin-Fmax，因此先根据实际基频f在fA-fB中的相对位置映射到Fmin-Fmax，如fA＝70Hz,fB＝470Hz；Fmin＝50Hz，Fmax＝4050Hz，则当基频f＝200Hz时，映射得到ff＝(f-fA)/(fB-fA)*(Fmax-Fmin)+Fmin＝1350Hz。查找二维码表list，得到与频率ff和持续时间T最接近的钢琴key，记为keyNeed。根据响度E的大小得到keyNeed的强度，响度E越大，keyNeed的强度越大。按此方法，在每个人声识别出的结果中都有一个对应的keyNeed，按照时间顺序，即可获得如下类似序列：

祝你生日快乐

ABCDEF

其中，A＝(key1,t1,e1)；B＝(key2,t2,e2)；C＝(key3,t3,e3)；D＝(key4,t4,e4)；E＝(key5,t5,e5)；F＝(key6,t6,e6)。每一个key、t和e分别代指音调、持续时间和响度。

在一些可能的实施方式中，所述输出所述结果序列之前，还包括：平滑所述结果序列。如将A和B的连接处进行平滑，将B和C的连接处进行平滑。平滑的方法包括但不限于淡入淡出，将音频波形的包络与余弦函数相乘，获得能量缓慢减小的时间变换特点。淡入淡出处理可以使音频听起来更自然。

第二方面，本申请实施例还提供一种声音自动迁移系统，包括：

预处理单元，用于对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数；

特征迁移单元，用于根据所述每一个歌词对应的音频数据的参数，对所述人声音频数据进行人声到乐器声音的特征迁移，得到结果序列；

输出单元，用于输出所述结果序列。

在一些可能的实施方式中，在所述对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数的方面，所述预处理单元具体用于：读取人声音频数据，获得所述人声音频数据中每一个歌词对应的音频数据；获取每一个歌词对应的音频数据的参数，所述参数包括以下至少一个：基频信号、响度和持续时间。

在一些可能的实施方式中，所述系统还包括编码单元，用于：分别记录预设乐器的每个音高在多个播放时间下的声音，得到乐器原声素材库；对所述乐器原声素材库进行编码，得到所述预设乐器的每个音调的共振频率和持续时间的对应关系。

在一些可能的实施方式中，在所述根据所述预处理信息，对原始音频文件进行人声到乐器声音的特征迁移，得到结果序列的方面，所述特征迁移单元具体用于：对所述多帧的时域波形对应的基频信号和所述预设乐器的每个音调的共振频率进行频率映射，得到映射频率；根据所述预设乐器的每个音调的共振频率和持续时间的对应关系，得到与所述映射频率对应的所述多个人声持续时间最接近的所述乐器的多个输出音高；根据多个所述时域波形的响度，得到所述结果序列的多个输出响度；根据时间顺序，将所述多个输出音高、多个持续时间、多个输出响度进行排列，生成结果序列。

第三方面，本申请实施例还提供一种声音自动迁移系统，包括：

输入系统、输出系统、存储器和处理器；

所述输入系统、输出系统、存储器和处理器可以通过一条或多条通信总线相互连接，也可以通过其他方式相连接，所述存储器中存储有计算机程序，所述处理器用于调用所述计算机程序执行本申请实施例中的第一方面或第一方面的任一个实现的部分或全部步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被硬件(例如处理器等)执行，以本申请实施例中的任意一种方法的部分或全部步骤。

第五方面，本申请实施例还提供了一种包括指令的计算机程序产品，当所述计算机程序产品在声音自动迁移系统上运行时，使得所述声音自动迁移系统执行以上第一方面或第一方面的任一个实现的声音自动迁移方法的部分或全部步骤。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种声音自动迁移系统的结构示意图；

图2是本申请实施例提供的一种声音自动迁移方法的流程示意图；

图3是图2中步骤201进一步实现的流程示意图；

图4是图3中步骤2011进一步实现的流程示意图；

图5是图3中步骤2012进一步实现的流程示意图；

图6是本申请实施例提供的另一种声音自动迁移方法的流程示意图；

图7是图2中步骤202进一步实现的流程示意图；

图8是本申请实施例提供的一种声音自动迁移设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面对本申请实施例进行详细介绍。

首先请参见图1，图1是本申请实施例提供的一种声音自动迁移系统的结构示意图，声音自动迁移系统110可以包括：预处理单元111、特征迁移单元112、输出单元113。预处理单元111主要用于对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数；特征迁移单元112主要用于根据所述每一个歌词对应的音频数据的参数，对所述人声音频数据进行人声到乐器声音的特征迁移，得到结果序列；输出单元113主要用于输出所述结果序列。

下面通过一些更为具体的场景进行描述。

请参见图2，图2是本申请实施例提供的一种声音自动迁移方法的流程示意图，这种方法可包括但不限于如下步骤：

201、对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数。

其中，所述人声音频的格式包括但不限于：wav、mp3、flac。音频的声道数包括但不限于：单声道、双声道、多声道。将读取的音频记为y，所述音频是时域音频波形的采样值。

具体地，对人声音频数据进行预处理包括：读取输入的人声音频数据和歌词数据，获得对应的有效信息；通过音频信号处理，识别所述有效信息，并得到人声的基频、响度、持续时间等信息。

202、根据所述每一个歌词对应的音频数据的参数，对所述人声音频数据进行人声到乐器声音的特征迁移，得到结果序列。

其中，在进行特征迁移之前，还需分别记录预设乐器的每个音高在多个播放时间下的声音，得到乐器原声素材库；对所述乐器原声素材库进行编码，得到所述预设乐器的每个音调的共振频率和持续时间的对应关系。以钢琴为例，记录每个按键在不同播放时间下的声音，得到钢琴原声的素材库，对素材库进行编码，得到音调的共振频率和持续时间的二维码表。

然后通过识别得到的人声的基频、响度、持续时间等信息，将所述信息映射到乐器的特征域，实现特征迁移。

203、输出所述结果序列。

其中，在输出所述结果序列之前，还需平滑所述结果序列。如将A和B的连接处进行平滑，将B和C的连接处进行平滑。平滑的方法包括但不限于淡入淡出，将音频波形的包络与余弦函数相乘，获得能量缓慢减小的时间变换特点。淡入淡出处理可以使音频听起来更自然。其中，输出所述结果序列的方式包括但不限于：显示在显示屏上、保存为音频文件、存储在磁盘或者其它媒介上。

具体地，输出所述结果序列的方式包括但不限于：显示在显示屏上、保存为音频文件、存储在磁盘或者其它媒介上。

请参见图3，图3是图2中步骤201进一步实现的流程示意图，可包括但不限于如下步骤：

2011、读取人声音频数据，获得所述人声音频数据中每一个歌词对应的音频数据。

2012、获取每一个歌词对应的音频数据的参数，所述参数包括以下至少一个：基频信号、响度和持续时间。

请参见图4，图4是图3中步骤2011进一步实现的流程示意图，可包括但不限于如下步骤：

2111、读取所述人声音频数据，获取所述人声音频数据中的歌词信息，所述歌词信息包括每一个歌词的起始时间和结束时间。

2112、根据所述每一个歌词的起始时间和结束时间，截取获得多段所述每一个歌词的起始时间和结束时间之间对应的有效音频数据。

例如：获得每一个演唱歌词的起始时间和结束时间，将各一个演唱歌词的起止时间对应读取的音频，截取获得有歌词时间的有效音频，即y[1ts,1te；2ts,2te；…；Nts,Nte]。其中，its和ite分别为第i个歌词的起始时间ts和结束时间te，y[its,ite]为该时间段内的歌唱音频。

2113、将所述多段有效音频数据按照预设的帧长和帧移进行分帧，得到多帧的时域波形。

在一些可能的实施方式中，将每一个歌词对应的波形y[its,ite]按照预设的帧长和帧移进行分帧，获得多帧的时域波形。例如：设置帧长为15毫秒，帧移为50％。也可以将帧长与帧移设置为其它值，如帧长为30毫秒，帧移25％。

请参见图5，图5是图3中步骤2012进一步实现的流程示意图，可包括但不限于如下步骤：

2121、提取所述多帧的时域波形的基频信号。

在一些可能的实施方式中，将各帧信号作为输入，通过基频提取技术，得到各帧信号的基频信号f，单位为Hz。其中，基频提取技术包括但不限于DIO方法、Harvest方法、PYIN方法等。这些方法是从业人员所熟知的方法，它们的准确度和计算耗时各有特点，可以根据实际情况选择适合的一种。

2122、根据所述多帧的时域波形的能量和声压，得到所述多帧的时域波形的响度。

在一些可能的实施方式中，将各帧的信号做傅里叶变换，得到1000Hz处的能量，再计算声压级，得到响度E。

2123、根据所述每一个歌词的起始时间和结束时间，得到每一个歌词的持续时间。

在一些可能的实施方式中，根据歌词信息中的歌词起始和结束时间，得到每个歌词的持续时间(ts,te)。

2124、检测有人声活动的持续时间。

在一些可能的实施方式中，根据VAD检测，得到有人声活动的持续时间(vts,vte)。其中，VAD检测的目的是从声音信号流里识别长时间的静音期，通过识别静音期的时间节点，获取人声活动的起止时间。

2125、获取所述每一个歌词的持续时间和所述有人声活动的持续时间的交集，得到多个人声持续时间。

在一些可能的实施方式中，根据歌词信息中的歌词起始和结束时间，得到每个歌词的持续时间(ts,te)；再根据VAD检测，判断有人声活动的持续时间(vts,vte)。取它们的交集时间，即：(max(ts,vts),min(te,vte))。这样可以防止用户在实际演唱中出现与歌词时间有偏差的情况，可以提升识别准确率。

在一些可能的实施方式中，在进行特征迁移前，需要记录乐器声音。请参见图6，图6是本申请实施例提供的另一种声音自动迁移方法的流程示意图，可包括但不限于如下步骤：

601、分别记录预设乐器的每个音高在多个播放时间下的声音，得到乐器原声素材库。

602、对所述乐器原声素材库进行编码，得到所述预设乐器的每个音调的共振频率和持续时间的对应关系。

具体地，以钢琴为例，记录每个按键在不同播放时间下的声音，得到钢琴原声的素材库，对素材库进行编码，得到音调的共振频率和持续时间的二维码表。如list＝[key1,key2,…keyN]，其中keyn是同一个音调在不同播放时间下的声音，如keyn＝[t1,t2,…,tM]。

同理，记录其它乐器的声音时，记录该乐器演奏不同音高在不同播放时间下的声音，得到该乐器原声的素材库，对素材库进行编码，得到音调的共振频率和持续时间的二维码表。

请参见图7，图7是图2中步骤202进一步实现的流程示意图，可包括但不限于如下步骤：

701、对所述多帧的时域波形对应的基频信号和所述预设乐器的每个音调的共振频率进行频率映射，得到映射频率。

在一些可能的实施方式中，由于人声的基频范围较小，记为fA-fB；而一般乐器的频率范围比人声的基频范围更宽，记为Fmin-Fmax，因此先根据实际基频f在fA-fB中的相对位置映射到Fmin-Fmax，如fA＝70Hz,fB＝470Hz；Fmin＝50Hz，Fmax＝4050Hz。则当基频f＝200Hz时，映射得到ff＝(f-fA)/(fB-fA)*(Fmax-Fmin)+Fmin＝1350Hz。

702、根据所述预设乐器的每个音调的共振频率和持续时间的对应关系，得到与所述映射频率对应的所述多个人声持续时间最接近的所述乐器的多个输出音高。

703、根据多个所述时域波形的响度，得到所述结果序列的多个输出响度。

在一些可能的实施方式中，以钢琴为例，查找二维码表list，得到与频率ff和持续时间T最接近的钢琴key，记为keyNeed。根据响度E的大小得到keyNeed的强度，响度E越大，keyNeed的强度越大。

同理，在进行其他乐器的声音迁移时，查找二维码表list，得到与频率ff和持续时间T最接近的乐器key，记为keyNeed。根据响度E的大小得到keyNeed的强度，响度E越大，keyNeed的强度越大。

704、根据时间顺序，将所述多个输出音高、多个持续时间、多个输出响度进行排列，生成结果序列。

在一些可能的实施方式中，在每个人声识别出的结果中都有一个对应的keyNeed，按照时间顺序，即可获得诸如这样的一个序列：

祝你生日快乐

ABCDEF

请参见图8，图8是本申请实施例提供的一种声音自动迁移设备的结构示意图，该设备800包括：

输入系统810、输出系统820、存储器830和处理器840；输入系统810、输出系统820、存储器830和处理器840通过总线850耦合。

输入系统810可以用于接收数据和/或信令，输出系统820可以用于发送数据和/或信令。应用在本申请实施例中，输入系统810可以用于接收用户输入的人声音频数据，输出系统820可以用于向用户输出所述结果序列。

存储器830用于存储程序代码等。存储器830可以包括易失性存储器(volatilememory)，例如随机存取存储器(random access memory，RAM)；存储器830也可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器(flashmemory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器830还可以包括上述种类的存储器的组合。

处理器840可以是一个或多个中央处理器(Central Processing Unit,CPU)，在处理器840是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器840可以调用存储器830中存储的程序代码以执行以下操作：

对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数；根据所述每一个歌词对应的音频数据的参数，对所述人声音频数据进行人声到乐器声音的特征迁移，得到结果序列；输出所述结果序列。

在一些可能的实施方式中，处理器840对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数时，具体可以执行以下操作：读取人声音频数据，获得所述人声音频数据中每一个歌词对应的音频数据；获取每一个歌词对应的音频数据的参数，所述参数包括以下至少一个：基频信号、响度和持续时间。

在一些可能的实施方式中，处理器840读取人声音频数据，获得所述人声音频数据中每一个歌词对应的音频数据时，具体可以执行以下操作：读取所述人声音频数据，获取所述人声音频数据中的歌词信息，所述歌词信息包括每一个歌词的起始时间和结束时间；根据所述每一个歌词的起始时间和结束时间，截取获得多段所述每一个歌词的起始时间和结束时间之间对应的有效音频数据；将所述多段有效音频数据按照预设的帧长和帧移进行分帧，得到多帧的时域波形。

在一些可能的实施方式中，处理器840获取每一个歌词对应的音频数据的基频信号、响度和持续时间时，具体可以执行以下操作：提取所述多帧的时域波形的基频信号；根据所述多帧的时域波形的能量和声压，得到所述多帧的时域波形的响度；根据所述每一个歌词的起始时间和结束时间，得到每一个歌词的持续时间。

在一些可能的实施方式中，处理器840还可以执行以下操作：检测有人声活动的持续时间；获取所述每一个歌词的持续时间和所述有人声活动的持续时间的交集，得到多个人声持续时间。

在一些可能的实施方式中，处理器840还可以执行以下操作：分别记录预设乐器的每个音高在多个播放时间下的声音，得到乐器原声素材库；对所述乐器原声素材库进行编码，得到所述预设乐器的每个音调的共振频率和持续时间的对应关系。

在一些可能的实施方式中，处理器840根据所述预处理信息，对原始音频文件进行人声到乐器声音的特征迁移，得到结果序列时，具体可以执行以下操作：对所述多帧的时域波形对应的基频信号和所述预设乐器的每个音调的共振频率进行频率映射，得到映射频率；根据所述预设乐器的每个音调的共振频率和持续时间的对应关系，得到与所述映射频率对应的所述多个人声持续时间最接近的所述乐器的多个输出音高；根据多个所述时域波形的响度，得到所述结果序列的多个输出响度；根据时间顺序，将所述多个输出音高、多个持续时间、多个输出响度进行排列，生成结果序列。

进一步地，处理器840还可以执行图2至图7所示实施例中声音自动迁移系统对应的操作，具体可参见方法实施例中的描述，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，可以用于存储图1所示实施例中声音自动迁移系统所用的计算机软件指令，其包含用于执行上述实施例中为声音自动迁移系统所设计的程序。

上述计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘。

本申请实施例还提供一种计算机程序产品，该计算机产品被计算设备运行时，可以执行上述图2至图7实施例中为声音自动迁移系统所设计的方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声音自动迁移方法，其特征在于，包括：

对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数；

根据所述每一个歌词对应的音频数据的参数，对所述人声音频数据进行人声到乐器声音的特征迁移，得到结果序列；

输出所述结果序列。

2.根据权利要求1所述的方法，其特征在于，所述对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数，包括：

读取人声音频数据，获得所述人声音频数据中每一个歌词对应的音频数据；

获取每一个歌词对应的音频数据的参数，所述参数包括以下至少一个：基频信号、响度和持续时间。

3.根据权利要求2所述的方法，其特征在于，所述读取人声音频数据，获得所述人声音频数据中每一个歌词对应的音频数据，包括：

读取所述人声音频数据，获取所述人声音频数据中的歌词信息，所述歌词信息包括每一个歌词的起始时间和结束时间；

根据所述每一个歌词的起始时间和结束时间，截取获得多段所述每一个歌词的起始时间和结束时间之间对应的有效音频数据；

将所述多段有效音频数据按照预设的帧长和帧移进行分帧，得到多帧的时域波形。

4.根据权利要求3所述的方法，其特征在于，所述获取每一个歌词对应的音频数据的基频信号、响度和持续时间，包括：

提取所述多帧的时域波形的基频信号；

根据所述多帧的时域波形的能量和声压，得到所述多帧的时域波形的响度；

根据所述每一个歌词的起始时间和结束时间，得到每一个歌词的持续时间。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

检测有人声活动的持续时间；

获取所述每一个歌词的持续时间和所述有人声活动的持续时间的交集，得到多个人声持续时间。

6.根据权利要求1所述的方法，其特征在于，还包括：

分别记录预设乐器的每个音高在多个播放时间下的声音，得到乐器原声素材库；

对所述乐器原声素材库进行编码，得到所述预设乐器的每个音调的共振频率和持续时间的对应关系。

7.根据权利要求6所述的方法，其特征在于，所述根据所述预处理信息，对原始音频文件进行人声到乐器声音的特征迁移，得到结果序列，包括：

对所述多帧的时域波形对应的基频信号和所述预设乐器的每个音调的共振频率进行频率映射，得到映射频率；

根据所述预设乐器的每个音调的共振频率和持续时间的对应关系，得到与所述映射频率对应的所述多个人声持续时间最接近的所述乐器的多个输出音高；

根据多个所述时域波形的响度，得到所述结果序列的多个输出响度；

根据时间顺序，将所述多个输出音高、多个持续时间、多个输出响度进行排列，生成结果序列。

8.根据权利要求1～7任一项所述的方法，其特征在于，所述输出所述结果序列之前，还包括：

平滑所述结果序列。

9.一种声音自动迁移系统，其特征在于，所述系统包括：

输出单元，用于输出所述结果序列。

10.根据权利要求9所述的声音自动迁移系统，其特征在于，在所述对人声音频数据进行预处理，得到所述人声音频数据中每一个歌词对应的音频数据的参数的方面，所述预处理单元具体用于：

11.根据权利要求9所述的声音自动迁移系统，其特征在于，还包括编码单元，用于：

12.根据权利要求11所述的声音自动迁移系统，其特征在于，在所述根据所述预处理信息，对原始音频文件进行人声到乐器声音的特征迁移，得到结果序列的方面，所述特征迁移单元具体用于：

13.根据权利要求9～12任一项所述的系统，其特征在于，还包括：

平滑单元，用于平滑所述结果序列。

14.一种声音自动迁移系统，其特征在于，所述系统包括：

输入系统、输出系统、存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于调用所述计算机程序执行如权利要求1至8中任一项所述的方法。

15.一种计算机可读取存储介质，其特征在于，存储有计算机程序，所述计算机程序被硬件执行以实现如权利要求1至8中任意一项所述的方法。