CN109903745A

CN109903745A - 一种生成伴奏的方法和系统

Info

Publication number: CN109903745A
Application number: CN201711283286.9A
Authority: CN
Inventors: 高超; 马哲
Original assignee: BEIJING THUNDERSTONE TECHNOLOGY Ltd
Current assignee: BEIJING THUNDERSTONE TECHNOLOGY Ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2019-06-18
Anticipated expiration: 2037-12-07
Also published as: CN109903745B

Abstract

本发明实施例提供了一种生成伴奏的方法和系统。该方法包括：将音频文件切割为等时长的多个音频切片；提取每个音频切片的音频指纹；根据所述音频切片的时长将钢琴音的整个音域进行切片，得到每个切片的钢琴音指纹；将所述钢琴音指纹与所述音频切片的音频指纹逐一进行匹配；将匹配的钢琴音按其对应的音频切片的时序进行排列并合成，得到钢琴音伴奏文件。该方法和系统精确度高，适用范围广泛，合成的歌曲伴奏音频和原歌曲高度契合，得到的伴奏音频准确且品质高。

Description

一种生成伴奏的方法和系统

技术领域

本发明涉及歌曲音频处理领域，特别涉及基于钢琴音的智能扒带卡拉OK伴奏的生成方法和系统。

背景技术

现有技术中可以利用一些音频播放软件或音频处理软件把伴奏音乐单独从原唱歌曲中提取出来。目前的音频播放软件或音频处理软件在提取伴奏乐时，往往利用大多数歌曲中人声在左右两个声道中基本相同的特点，采用将两个声道中的信号直接对减的方法来消除人声。

现有技术中至少存在如下问题：现有技术的提取歌曲伴奏的方法会在消除人声的同时也会消除一部分伴奏音乐，从而引起伴奏音乐音质的下降。并且采用现有技术的提取歌曲伴奏的方法会在消除人声的同时也会消除一部分伴奏音乐，从而引起伴奏音乐音质的下降。并且声道对减的方法适用范围有限，部分歌曲无法采用此方法提取歌曲伴奏。综上，现有技术的歌曲伴奏提取方法费事费力，而且伴奏音乐音质难以达到卡拉OK中的高品质伴奏的需求。

发明内容

本发明实施例提供一种生成伴奏的方法和系统，以达到使所有歌曲的伴奏可以自动生成钢琴音伴奏音频的目的，克服上述现有技术的伴奏提取损耗原有歌曲音频音质和适用范围小的问题。

一方面，本发明实施例提供了一种生成伴奏的方法，该方法包括：

将音频文件切割为等时长的多个音频切片；

提取每个音频切片的音频指纹；

根据所述音频切片的时长将钢琴音的整个音域进行切片，得到每个切片的钢琴音指纹；

将所述钢琴音指纹与所述音频切片的音频指纹逐一进行匹配；

将匹配的钢琴音按其对应的音频切片的时序进行排列并合成，得到钢琴音伴奏文件。

可选的，所述音频切片及钢琴音切片的时长为0.2秒。

可选的，提取每个音频切片的音频指纹，包括：

将每个音频切片均分为N个小份，对每个小份进行快速傅里叶变换，得到每个小份的频域能量值；将该N个小份的频域能量值按时序排列，得到音频指纹。

可选的，所述根据所述音频切片的时长将钢琴音的整个音域进行切片，得到每个切片的钢琴音指纹，包括：

选取钢琴音8个音符；

每个音符按音调或音量切割为时长为预设时长的钢琴音切片；

对切片进行快速傅里叶变换处理，生成钢琴音切片的钢琴音指纹。

可选的，所述将匹配的钢琴音按其对应的音频切片的时序进行排列并合成，得到钢琴音伴奏文件包括：

将所述每个音频切片的音频指纹按顺序排列；

逐一将所述音频切片替换为与该音频切片的音频指纹匹配的钢琴音指纹对应的钢琴音切片；

将全部替换后的钢琴音切片合成，得到钢琴音伴奏文件。

另一方面，本发明实施例提供一种生成伴奏的系统，包括：

切片单元，用于将音频文件切割为等时长的多个音频切片；

音频指纹提取单元，用于提取每个音频切片的音频指纹；

钢琴音指纹生成单元，用于根据所述音频切片的时长将钢琴音的整个音域进行切片，得到每个切片的钢琴音指纹；

匹配单元，用于将所述钢琴音指纹与所述音频切片的音频指纹逐一进行匹配；

伴奏生成单元，用于将匹配的钢琴音按其对应的音频切片的时序进行排列并合成，得到钢琴音伴奏文件。

可选的，所述音频切片及钢琴音切片的时长为0.2秒。

可选的，所述音频指纹提取单元，包括：

分割子单元，用于将每个音频切片均分为N个小份；

傅氏变换子单元，用于对每个小份进行快速傅里叶变换，得到每个小份的频域能量值；将该N个小份的频域能量值按时序排列，得到音频指纹。

可选的，所述钢琴音指纹生成单元，包括：

音符选取子单元，用于选取钢琴音8个音符；

切片子单元，用于将每个音符按音调或音量切割为时长为预设时长的钢琴音切片；

傅氏变换子单元，用于对切片进行快速傅里叶变换处理，生成钢琴音切片的钢琴音指纹。

可选的，所述伴奏生成单元，包括：

排序子单元，用于将所述每个音频切片的音频指纹按顺序排列；

替换子单元，用于逐一将所述音频切片替换为与该音频切片的音频指纹匹配的钢琴音指纹对应的钢琴音切片；

合成子单元，用于将全部替换后的钢琴音切片合成，得到钢琴音伴奏文件。

上述技术方案具有如下有益效果：通过各个歌曲切片的频域能量值来刻画待合成伴奏歌曲各个切片的特征，即歌曲切片的音频指纹，并使用钢琴音数据库中拥有相同或类似音频指纹的钢琴音切片进行歌曲切片的替换，合成该歌曲的伴奏音频文件，以得到高品质无损的伴奏音频；由于钢琴音的覆盖范围最广，因此能够覆盖歌曲伴奏所需的音频信号，能够保证合成的歌曲伴奏音频和原歌曲高度契合，得到准确且品质高的伴奏音频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种生成伴奏的方法的流程图；

图2为本发明实施例一种生成伴奏的系统的结构图；

图3为本发明实施例的音频指纹提取单元202的结构图；

图4为本发明实施例的钢琴音指纹生成单元203的结构图；

图5为本发明实施例的伴奏生成单元205的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下通过具体实施例对本发明进行说明。

图1为本发明实施例提供了一种生成伴奏的方法的流程图，如图1所示，该方法包括：

步骤101，将音频文件切割为等时长的多个音频切片；

采用加窗方式待处理的歌曲划分为多个歌曲切片，其中，在划分歌曲切片时按照从一段歌曲切片信号中每移动一个设定平移长度划分一个切片，且划分的切片的长度为设定加窗宽度；

步骤102，提取每个音频切片的音频指纹；

步骤103，根据所述音频切片的时长将钢琴音的整个音域进行切片，得到每个切片的钢琴音指纹；

步骤104，将所述钢琴音指纹与所述音频切片的音频指纹逐一进行匹配；

步骤105，将匹配的钢琴音按其对应的音频切片的时序进行排列并合成，得到钢琴音伴奏文件。

可选的，所述音频切片及钢琴音切片的时长为0.2秒。

0.2s是人耳能识别原音和回声的最小时间段。

优选地，作为本发明的其中一个实施例，以设定平移长度为0.2s，即200ms，设定加窗宽度为200ms为例，则对于一个待处理的一个300s时长的歌曲信号，划分出的歌曲切片为：

第一个歌曲切片为0-200ms；

第二个切片为201ms-400ms；

以此类推；

歌曲切片的数量由歌曲的时长决定，如一个歌曲的长度为300s，因此该歌曲切片的数量为1500个；

其中，200ms的时间长度是人耳能对声音大小分辨的最小单位，小于200ms，人耳将不能分辨原音与回声。

可选的，提取每个音频切片的音频指纹，包括：

本发明中，对一个歌曲切片进行傅里叶变换处理，歌曲切片的时长为预设时长，例如预设时长为0.2s，即200ms，一个歌曲切片进行傅里叶转换的情况见图1，记录歌曲切片在歌曲中的位置时间和该歌曲切片中的频点能量值。

优选地，对每一歌曲切片的傅里叶转换后的频域能量值进行记录，歌曲时长为300s，计算全歌曲1500个歌曲切片的频域能量值，取该歌曲切片中的能量最大值和该歌曲切片的时间；

在其中一个实施例中，第一切片为0-200ms，T值为T1；

第二切片为201-400ms，T值为T2；

第三切片为401-600ms，T值为T3；

以此类推，记录得到的歌曲各个切片中各频点的能量值数据。

作为本发明的一个实施例，根据切片的频域能量值提取音频指纹，包括以下步骤：

将歌曲切片再等分为N个小份；

记录每一小份的频域能量最高值；

按顺序排列N个小份的频域能量最高值生成音频指纹(N1、N2…NN)；

优选地，作为本发明的一个实施例，N的值为4，4个频域段分别为E1，E2，E3和E4；

记录4个频域段的频域能量最高值；

E1为1-1000000频域段的频域能量最高值；

E2为1000001-2000000频域段的频域能量最高值；

E3为2000001-3000000频域段的频域能量最高值；

E4为3000001-4000000频域段的频域能量最高值；

则该歌曲切片的频域能量分布数据为(E1，E2，E3，E4)；

同时记录该歌曲切片的时间T1，将时间信息加入音频指纹：T1&(E1，E2，E3，E4).

选取钢琴音8个音符；

将所述每个音频切片的音频指纹按顺序排列；

将全部替换后的钢琴音切片合成，得到钢琴音伴奏文件。

在其中一个实施例中，歌曲切片的音频指纹数据为T1&(E1，E2，E3，E4)，则标记匹配钢琴音为T11；

在其中一个实施例中，歌曲切片的时间数据为T1至Tn，则标记匹配钢琴音为T11至Tnn；

例如，用标记为T11钢琴音切片替换歌曲切片T1；

用标记为T22钢琴音切片替换歌曲切片T2；

用标记为T33钢琴音切片替换歌曲切片T3；

以此类推，直至替换完该歌曲的所有切片；

使用替换后的所有钢琴音切片合成歌曲伴奏音频文件。

由于一首歌曲频率的分量并不是平均的，差异是非常大的，是一首歌曲的独有特征。歌曲的频率分量对应傅里叶能量转换后的频域能量值，频域能量值体现了歌曲频率的分量，通过各个歌曲切片的频域能量值来刻画待合成伴奏歌曲各个切片的特征，即歌曲切片的音频指纹，并使用钢琴音数据库中拥有相同或类似音频指纹的钢琴音切片进行歌曲切片的替换，合成该歌曲的伴奏音频文件，即可以得到高品质无损的伴奏音频。

图2为本发明实施例一种生成伴奏的系统的结构图，如图所示，包括：

切片单元201，用于将音频文件切割为等时长的多个音频切片；

音频指纹提取单元202，用于提取每个音频切片的音频指纹；

钢琴音指纹生成单元203，用于根据所述音频切片的时长将钢琴音的整个音域进行切片，得到每个切片的钢琴音指纹；

匹配单元204，用于将所述钢琴音指纹与所述音频切片的音频指纹逐一进行匹配；

伴奏生成单元205，用于将匹配的钢琴音按其对应的音频切片的时序进行排列并合成，得到钢琴音伴奏文件。

可选的，所述音频切片及钢琴音切片的时长为0.2秒。

可选的，如图3所示，所述音频指纹提取单元202，包括：

分割子单元2021，用于将每个音频切片均分为N个小份；

傅氏变换子单元2022，用于对每个小份进行快速傅里叶变换，得到每个小份的频域能量值；将该N个小份的频域能量值按时序排列，得到音频指纹。

可选的，如图4所示，所述钢琴音指纹生成单元203，包括：

音符选取子单元2031，用于选取钢琴音8个音符；

切片子单元2032，用于将每个音符按音调或音量切割为时长为预设时长的钢琴音切片；

傅氏变换子单元2033，用于对切片进行快速傅里叶变换处理，生成钢琴音切片的钢琴音指纹。

可选的，如图5所示，所述伴奏生成单元205，包括：

排序子单元2051，用于将所述每个音频切片的音频指纹按顺序排列；

替换子单元2052，用于逐一将所述音频切片替换为与该音频切片的音频指纹匹配的钢琴音指纹对应的钢琴音切片；

合成子单元2053，用于将全部替换后的钢琴音切片合成，得到钢琴音伴奏文件。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑系统，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算系统的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储系统，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成伴奏的方法，其特征在于，该方法包括：

将音频文件切割为等时长的多个音频切片；

提取每个音频切片的音频指纹；

2.根据权利要求1所述的方法，其特征在于，所述音频切片及钢琴音切片的时长为0.2秒。

3.根据权利要求1所述的方法，其特征在于，提取每个音频切片的音频指纹，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述音频切片的时长将钢琴音的整个音域进行切片，得到每个切片的钢琴音指纹，包括：

选取钢琴音8个音符；

5.根据权利要求4所述的方法，其特征在于，所述将匹配的钢琴音按其对应的音频切片的时序进行排列并合成，得到钢琴音伴奏文件包括：

将所述每个音频切片的音频指纹按顺序排列；

将全部替换后的钢琴音切片合成，得到钢琴音伴奏文件。

6.一种生成伴奏的系统，其特征在于，包括：

切片单元，用于将音频文件切割为等时长的多个音频切片；

音频指纹提取单元，用于提取每个音频切片的音频指纹；

7.根据权利要求6所述的系统，其特征在于，所述音频切片及钢琴音切片的时长为0.2秒。

8.根据权利要求6所述的系统，其特征在于，所述音频指纹提取单元，包括：

分割子单元，用于将每个音频切片均分为N个小份；

9.根据权利要求6所述的系统，其特征在于，所述钢琴音指纹生成单元，包括：

音符选取子单元，用于选取钢琴音8个音符；

10.根据权利要求9所述的系统，其特征在于，所述伴奏生成单元，包括：