CN108648733A

CN108648733A - 一种迪曲生成方法及系统

Info

Publication number: CN108648733A
Application number: CN201810213463.4A
Authority: CN
Inventors: 马哲; 邢航
Original assignee: BEIJING THUNDERSTONE TECHNOLOGY Ltd
Current assignee: BEIJING THUNDERSTONE TECHNOLOGY Ltd
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-10-12
Anticipated expiration: 2038-03-15
Also published as: CN108648733B

Abstract

本发明实施例提供了一种基于音频指纹的迪曲生成方法，包括：根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件；对所述分帧文件使用音频指纹算法计算，得到各分帧中的关键帧；在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素，得到迪曲音频文件。同时本发明实施例还提供了一种基于音频指纹的迪曲生成系统，包括：分帧模块、计算模块和处理模块。在本发明中，使用音频指纹算法，插入不同强度的预设迪曲元素，能够实现歌曲高效全自动生成迪曲，减少人工成本，生成迪曲效果好。

Description

一种迪曲生成方法及系统

技术领域

本发明涉及音频处理技术，尤其涉及一种基于音频指纹的迪曲生成方法及系统。

背景技术

音频指纹(fingerprint)是根据音频信号计算出的一组独特标识。音频指纹技术(Audio fingerprinting technology)是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来，用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹作为内容自动识别技术的核心算法，已广泛应用于音乐识别，版权内容监播，内容库去重和电视第二屏互动等领域。

目前传统的卡拉ok迪曲的制作方法是通过人工手动制作,这种制作方法的特征是效果很好,但是效率很低,并不适用于传统歌曲进行大规模的迪曲版本的适配。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有技术的迪曲制作方法完全依靠人工，不能实现全自动生成.效率低，不能进行大规模的推广。

发明内容

本发明实施例提供一种基于音频指纹的迪曲生成方法及系统，能够实现歌曲高效全自动生成迪曲，减少人工成本，生成迪曲效果好。

一方面，本发明实施例提供了一种基于音频指纹的迪曲生成方法，包括：

根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件；

对所述分帧文件使用音频指纹算法计算，得到各分帧中的关键帧；

在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素，得到迪曲音频文件。

在上述方案中，所述根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件，包括：

取出所述音频文件对应的歌词文件时间轴；

根据歌词文件时间轴对歌词按句进行句分帧处理；

对所述的分帧处理的句根据歌词文件时间轴进行字分帧处理获得字分帧文件。

在上述方案中，所述对分帧文件使用音频指纹算法计算，得到各分帧中的关键帧通过音频指纹算法找到所述分帧处理所得到的各分帧中的关键帧，包括：

对所述分帧处理后得到的字分帧文件进行快速傅氏变换，并提取所述各分帧的特征参数，根据所述特征参数确定所述各分帧中的关键帧。

在上述方案中，所述提取所述各分帧的特征参数，根据所述特征参数确定所述各分帧中的关键帧，包括：

对所述字分帧文件计算频域平均值；

频域平均值排名前N的字分帧文件是所述关键帧。

在上述方案中，所述在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素包括：

将所有所述关键帧的频域平均值进行排名，根据该排名对应插入不同强度的预设迪曲元素。

另一方面，本发明实施例提供了一种基于音频指纹的迪曲生成系统，包括：

分帧模块，用于根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件；

计算模块，用于对所述分帧文件使用音频指纹算法计算，得到各分帧中的关键帧；

处理模块，在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素，得到迪曲音频文件。

在上述方案中，所述分帧模块，用于根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件，包括：

分帧获取单元，用于取出所述音频文件对应的歌词文件时间轴；

分帧处理一单元，用于根据歌词文件时间轴对歌词按句进行句分帧处理；

分帧处理二单元，用于对所述的分帧处理的句根据歌词文件时间轴进行字分帧处理获得字分帧文件。

在上述方案中，所述计算模块的对所述分帧文件使用音频指纹算法计算，得到各分帧中的关键帧，包括：

在上述方案中，所述计算模块还包括一个分析单元，用于提取所述各分帧的特征参数，包括：

第一计算单元，用于对所述字分帧文件计算频域平均值；

第二分析单元，用于获得频域平均值排名前N的字分帧文件是所述关键帧。

在上述方案中，处理模块在原音频文件中所述各关键帧起始时刻插入预设迪曲元素包括：

在本发明中，使用音频指纹算法，本发明方案中对歌曲音频文件根据一一对应的歌词时间轴对歌曲音频进行分帧，获得句分帧文件和进一步分帧的字分帧文件，通过音频指纹算法，获得字分帧文件的频域值排名，根据排名对应插入不同强度的预设迪曲元素，能够实现歌曲高效全自动生成迪曲，减少人工成本，生成迪曲效果好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种基于音频指纹的迪曲生成方法的流程示意图；

图2是本发明实施例一，步骤101的流程示意图；

图3是本发明实施例一，步骤102的流程示意图；

图4是本发明实施例一种基于音频指纹的迪曲生成系统的结构框图；

图5是本发明实施例二，分帧模块10的结构示意图；

图6是本发明实施例二，计算模块20的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种基于音频指纹的迪曲生成方法，参照图1所示，主要包括如下步骤：

步骤101：根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件；

具体的，所述根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件，如图2所示，包括：

步骤201：取出所述音频文件对应的歌词文件时间轴；

步骤202：根据歌词文件时间轴对歌词按句进行句分帧处理；

步骤203：对所述的分帧处理的句根据歌词文件时间轴进行字分帧处理获得字分帧文件。

在其中一个实施例中，歌曲的时间轴文件如下：

{00：28.052}时间的歌

{00：28.052}(300)(350)(450)(1954)

歌曲中句歌词“时间的歌”开始时间为28.052s；

对应的每个字的时间轴时间为“时”为28.052-(28.052s+0.3s＝28.352s)；

对应“间”的时间轴时间为28.352-(28.052s+0.35s＝28.402s)；

对应“的”的时间轴时间为28.402-(28.052s+0.45s＝28.502s)；

对应“歌”的时间轴时间为28.502-(28.052s+1.954s＝30.006s)；

具体的，根据歌词文件时间轴对歌词按句进行句分帧处理：歌句“时间的歌”划分时间为“28.052s-30.006s”，获得句分帧文件；

再对所述的分帧处理的句“时间的歌”根据歌词文件时间轴进行每个字分别分帧处理：“时”为“28.052-28.352s”、“间”为“28.352-28.402s”、“的”为“28.402-28.502s”、“歌”为“28.502-30.006s”，获得字分帧文件。

步骤102：对所述分帧文件使用音频指纹算法计算，得到各分帧中的关键帧；

具体的，对所述分帧文件使用音频指纹算法计算，得到各分帧中的关键帧，包括：

对所述分帧处理后得到的字分帧文件进行快速傅氏变换，并提取所述各分帧的特征参数，根据所述特征参数确定所述各分帧中的关键帧；

在其中一个实施例中，“时间的歌”按字进行分帧后得到4个字的分帧文件：“时”、“间”、“的”和“歌”；

对应的字分帧文件进行快速傅氏变换；

所述提取所述各分帧的特征参数，根据所述特征参数确定所述各分帧中的关键帧，如图3所示，包括：

步骤301：对所述字分帧文件计算频域平均值；

所述4个字的频域值为(39，65，110，131)，(15，66，108，161)，(3，63，118，146)，(11，62，82，158)；

各自的频域平均值为“时”为(39+65+110+131)/4＝86.25；

以此类推，“间”为(15+66+108+161)/4＝87.5；

“的”为(3+63+118+146)/4＝82.5；

“歌”为(11+62+82+158)/4＝78.25；

步骤302：频域平均值排名前N的字分帧文件是所述关键帧；

其中，N为大于1的自然数；

如上数据，频域平均值排名为“间”，“时”，“的”,“歌”；

在其中一个实施例中，可设定N为2，则在“时”“间”为歌句“时间的歌”的关键帧。

步骤103：在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素，得到迪曲音频文件。

具体的，所述在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素包括：将所有所述关键帧的频域平均值进行排名，根据该排名对应插入不同强度的预设迪曲元素；

在其中一个实施例中，将所述关键帧进行排名，歌句“时间的歌”中，频域平均值排名为“间”，“时”，“的”,“歌”；

根据该排名对应插入不同强度的预设迪曲元素，当N值为2时，“时”“间”为歌句“时间的歌”的关键帧，在的开始时间28.052s和28.352s加入预设迪曲元素；

在其中一个实施例中，可根据排名对应插入不同强度的预设迪曲元素，所述迪曲元素为鼓点声，“间”的开始时间28.352s加入的鼓点声强度应大于“时”的开始时间28.052s加入的鼓点声强度。

本发明进一步提供一种基于音频指纹的迪曲生成系统。

参照图4，图4为本发明一种基于音频指纹的迪曲生成系统结构框图。

在本实施例中，该基于音频指纹的迪曲生成系统包括：

分帧模块10，用于根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件；

计算模块20，用于对所述分帧文件使用音频指纹算法计算，得到各分帧中的关键帧；

处理模块30，在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素，得到迪曲音频文件。

如图5所示，所示分帧模块10包括：

分帧获取单元11，用于取出所述音频文件对应的歌词文件时间轴；

分帧处理一单元12，用于根据歌词文件时间轴对歌词按句进行句分帧处理；

分帧处理二单元13，用于对所述的分帧处理的句根据歌词文件时间轴进行字分帧处理获得字分帧文件。

具体的，分帧模块根据歌词文件时间轴对歌词按句进行句分帧处理，歌句划分时间为对应歌曲时间轴上歌句第一个字开始的时间至最后一个字结束的时间，分帧后获得句分帧文件；

再对所述的分帧处理的句，根据歌词文件时间轴进行每个字分别分帧处理，对歌句中的字按照该字开始的时间至下个一字开始的时间分帧，获得字分帧文件。

在其中一个实施例中，所述计算模块20的对所述的字分帧文件使用音频指纹算法计算，得到各分帧中的关键帧，包括：

如图6所示，计算模块20包括分析单元21，用于提取所述各分帧的特征参数；

所述分析单元21，包括：

第一计算单元211，用于对所述字分帧文件计算频域平均值；

第二分析单元212，用于频域平均值排名前N的字分帧文件是所述关键帧。

在其中一个实施例中，所述处理模块30在原音频文件中所述各关键帧起始时刻插入预设迪曲元素包括：

将所有所述关键帧的频域平均值进行排名，根据该排名对应插入不同强度的预设迪曲元素；

具体的，所述在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素包括：将所有所述关键帧的频域平均值进行排名，根据该排名对应插入不同强度的预设迪曲元素。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于音频指纹的迪曲生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据歌词时间轴对原音频文件进行分帧处理，得到分帧文件，包括：

取出所述音频文件对应的歌词文件时间轴；

根据歌词文件时间轴对歌词按句进行句分帧处理；

3.根据权利要求1所述的方法，其特征在于，所述对分帧文件使用音频指纹算法计算，得到各分帧中的关键帧，包括：

4.根据权利要求3所述的方法，所述提取所述各分帧的特征参数，根据所述特征参数确定所述各分帧中的关键帧，包括：

对所述字分帧文件计算频域平均值；

频域平均值排名前N的字分帧文件是所述关键帧。

5.根据权利要求4所述的方法，其特征在于，所述在原音频文件中对应所述各关键帧的起始时刻插入预设迪曲元素包括：

6.一种基于音频指纹的迪曲生成系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述分帧模块，包括：

8.根据权利要求6所述的系统，其特征在于，所述计算模块的对所述分帧文件使用音频指纹算法计算，得到各分帧中的关键帧，包括：

9.根据权利要求7所述的系统，其特征在于，所述计算模块还包括一个分析单元，用于提取所述各分帧的特征参数，包括：

第一计算单元，用于对所述字分帧文件计算频域平均值；

10.根据权利要求9所述的系统，其特征在于，所述处理模块在原音频文件中对应所述各关键帧起始时刻插入预设迪曲元素包括：