CN106708990B

CN106708990B - 一种音乐片段提取方法和设备

Info

Publication number: CN106708990B
Application number: CN201611159796.0A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2020-04-24
Anticipated expiration: 2036-12-15
Also published as: CN106708990A

Abstract

本发明实施例公开一种音乐片段提取方法及其设备，其中方法包括：分别从多个节目音频数据中的每个节目音频数据中提取至少一个节目音频段；分别获取多个节目音频段的音频指纹数据以及所述多个节目音频数据的频谱能量编码数据；在预设的音乐指纹数据库中查找与节目音频段的音频指纹数据匹配的音乐音频指纹数据，将查找到的音乐音频指纹数据对应的音乐确定为节目音乐，并获取对应的节目音乐的音频数据的频谱能量编码数据；通过对频谱能量编码数据进行比较，得到目标节目音乐在目标节目音频数据中出现的时间片段，从而输出至少一个节目音乐的音乐片段。采用本发明，可以聚类出出现频率较高的音乐片段并生成铃声，提高铃声制作的精确度。

Description

一种音乐片段提取方法和设备

技术领域

本发明涉及电子技术领域，尤其涉及一种音乐片段提取方法和设备。

背景技术

现阶段，人们对智能终端的需求越来越趋向于个性化，例如，设置自己喜欢的壁纸、主题或者铃声的等等。在设置铃声时，用户一般需要自己截取自己喜欢的音乐的某一音乐片段作为铃声，但是截取音乐片段需要使用一些软件工具，还需要掌握一些截取技巧等等，因此对用户的要求很高，便利性太低。现有的方案中，铃声提供商会将已经制作好的铃声提供给用户下载和使用，但是通常铃声提供商提供的这些已经制作好的铃声也都是根据一些当时比较流行的歌曲中适合作为铃声的片段进行人工截取的，需要很多人力和时间；另外，由于铃声所用的音乐片段都是人工选择和截取的，因此精确度也不高，

发明内容

本发明实施例提供一种音乐片段提取方法和设备，可以基于大量的节目音频数据，聚类出出现频率较高的音乐片段并生成铃声，从而节约人力成本并提高铃声制作的精确度。

本发明第一方面提供一种音乐片段提取方法，包括：

分别从多个节目音频数据中的每个节目音频数据中提取至少一个节目音频段，得到多个节目音频段；

分别获取多个节目音频段的音频指纹数据以及所述多个节目音频数据的频谱能量编码数据；

根据所述节目音频段的音频指纹数据，在预设的音乐指纹数据库中查找与所述节目音频段的音频指纹数据匹配的音乐音频指纹数据，将查找到的音乐音频指纹数据对应的音乐确定为节目音乐，并获取与各个节目音频数据对应的节目音乐的音频数据的频谱能量编码数据；

通过将所述多个节目音频数据中的目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，得到所述目标节目音乐在所述目标节目音频数据中出现的时间片段，从而得到各个节目音乐在对应的节目音频数据中出现的时间片段；

根据各个节目音乐在对应的节目音频数据中出现的时间片段，输出至少一个节目音乐的音乐片段。

本发明第二方面提供一种音乐片段提取设备，包括：

音频段提取模块，用于分别从多个节目音频数据中的每个节目音频数据中提取至少一个节目音频段，得到多个节目音频段；

指纹数据获取模块，用于分别获取多个节目音频段的音频指纹数据；

能量编码数据获取模块，用于获取所述多个节目音频数据的频谱能量编码数据；

节目音乐确定模块，用于根据所述节目音频段的音频指纹数据，在预设的音乐指纹数据库中查找与所述节目音频段的音频指纹数据匹配的音乐音频指纹数据，并将查找到的音乐音频指纹数据对应的音乐确定为节目音乐；

所述能量编码数据获取模块，还用于获取与各个节目音频数据对应的节目音乐的音频数据的频谱能量编码数据；

时间片段确定模块，用于通过将所述多个节目音频数据中的目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，得到所述目标节目音乐在所述目标节目音频数据中出现的时间片段，从而得到各个节目音乐在对应的节目音频数据中出现的时间片段；

音乐片段输出模块，用于根据各个节目音乐在对应的节目音频数据中出现的时间片段，输出至少一个节目音乐的音乐片段。

本发明实施例中，通过提取节目音频数据中的至少一个节目音频段，获取多个节目音频段的音频指纹数据，在预设的音乐指纹数据库中查找与所述节目音频段的音频指纹数据匹配的音乐音频指纹数据，将查找到的音乐音频指纹数据对应的音乐确定为节目音乐，获取所述多个节目音频数据的频谱能量编码数据以及与各个节目音频数据对应的节目音乐的音频数据的频谱能量编码数据并将两者进行比较，得到所述目标节目音乐在所述目标节目音频数据中出现的时间片段，根据各个节目音乐在对应的节目音频数据中出现的时间片段，输出至少一个节目音乐的音乐片段，可以基于大量的节目音频数据，聚类出出现频率较高的音乐片段并生成铃声，从而节约人力成本并提高铃声制作的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音乐片段提取方法的流程示意图；

图2是本发明实施例提供的一种音乐片段提取设备的结构示意图；

图3是本发明实施例提供的指纹数据获取模块的结构示意图；

图4是本发明实施例提供的时间片段确定模块的结构示意图；

图5是本发明实施例提供的音乐片段输出模块的结构示意图；

图6是本发明实施例提供的另一种音乐片段提取设备的结构示意图；

图7是本发明实施例提供的另一种音乐片段提取设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种音乐片段提取方法的流程示意图，本方法流程可以由音乐片段提取设备实施，所述音乐片段提取设备可以为数据处理设备。如图所示，所述方法至少包括：

步骤S101，分别从多个节目音频数据中的每个节目音频数据中提取至少一个节目音频段，得到多个节目音频段。

具体的，视频数据或者电台节目等音频数据中都包含了很多精心挑选的用户比较喜欢的歌曲，而且带有时效性、热点性和经典性。本发明实施例中的节目音频数据就是指视频数据库(电影、电视剧、电视节目等)以及电台节目音频数据库中的音频数据。具体实施中，音乐片段提取设备可以从多个节目音频数据中的每个节目音频数据中提取至少一个节目音频段，其中至少一个节目音频段可以是音乐片段提取设备对每个节目音频数据按照预设的帧长和帧移进行分割，从而得到多个相同时长的节目音频段。例如，可以以10s为帧长，1s为帧移对某一个电影的音频数据进行分割，从而得到多个以10s为单位的节目音频段，也即得到多个以10s为单位的数据帧。进一步的，在提取至少一个节目音频段之前，音乐片段提取设备可以先将每个节目音频数据转换为8k 16bit的PCM格式。

步骤S102，分别获取多个节目音频段的音频指纹数据。

具体的，音频指纹数据是指可以用来表征每个节目音频段的一种数据。具体实施中，针对某一目标节目音频段，音乐片段提取设备可以先通过傅里叶变换提取目标节目音频段的频谱数据，然后再根据频谱数据提取目标节目音频段的频谱峰值点，在目标节目音频段的频谱峰值点中选取至少一对相邻频谱峰值点对。在选取相邻频谱峰值点对时，音乐片段提取设备先确定一个目标频谱峰值点，然后获取该目标频谱峰值点周围预设区域内，与该目标频谱峰值点的时间差最小的预设数目个频谱峰值点，该目标频谱峰值点与在其周围确定的时间差最小的预设数目个频谱峰值点分别组成相邻频谱峰值点对。例如，设目标频谱峰值点为A(t1，f1)，音乐片段提取可以预先设定目标区域为时间区域15～63帧、频域区域-31～31个频带的区域范围，预设数目为2，设在目标频谱峰值点A附近的目标区域内的所有频谱峰值点中，频谱峰值点B(t2，f2)和C(t3，f3)对应的时间参数是与目标频谱峰值点A的时间差最小的两个频谱峰值点，则音乐片段提取设备可以选取A和B、A和C作为两对相邻频谱峰值点对。

进一步，针对某一目标相邻频谱峰值点对，音乐片段提取设备可以获取该目标相邻频谱峰值点对包含的两个频谱峰值点分别对应的频率参数和时间参数，根据频率参数和时间参数确定目标相邻频谱峰值点对对应的指纹特征值。比如指纹特征值可以是两个频谱峰值点中的任一个频谱峰值点的频率参数和时间参数以及两个频谱峰值点分别对应的频率参数的差以及时间参数的差形成的数据结构。例如，A(t1，f1)和B(t2，f2)这对相邻频谱峰值点对，t1、f1以及t2、f2分别为A和B的时间参数和频率参数，其指纹特征值就可以为D{t1，f1，Δf，Δt}，其中，其中Δf＝f2-f1，Δt＝t2-t1。

按照上述方法，音乐片段提取设备可以获取目标节目音频段的所有相邻频谱峰值点对对应的指纹特征值，将这些指纹特征值通过预设的音频指纹数据的转换公式，转换为对应的音频指纹数据。例如，获取到的某一个指纹特征值为D{t1，f1，Δf，Δt}，音频指纹数据的转换公式可以具体表示为：Y＝f1·2^12+Δf·2^6+Δt。

需要说明的是，由于人对声音感知时，短时谱峰值频率点之间是相互影响，一个频率分量可能掩蔽与其相近的频率分量，即所谓的听觉掩蔽效应。因此音乐片段提取设备在选择峰值频率点时需要使选取的峰值点沿时间和频率轴分布比较均匀，可以将距离较小的峰值点裁剪掉，以保证峰值点间的间距。具体实施中，在目标节目音频段的频谱峰值点中选取至少一对相邻频谱峰值点对之前，音乐片段提取设备可以检测目标节目音频段的频谱峰值点中是否存在频率差小于预设频率阈值并且时间差小于预设时间阈值的掩蔽频谱峰值点对，也即是否存在可能产生听觉掩效应的频谱峰值点，若存在，则音乐片段提取设备可以将掩蔽频谱峰值点对被掩蔽的频谱峰值点滤除。

步骤S103，获取所述多个节目音频数据的频谱能量编码数据。

具体的，音乐片段提取设备按照预设的帧长和帧移对多个节目音频数据进行采样和分帧处理，然后对每一帧节目音频数据进行傅里叶变换得到频谱，将得到的频谱平均分成预设数量的n个频段，为每个频段计算均值作为此频段的频谱能量。也就是说，每一帧音频数据对应n个频段，每个频段对应存在一个频谱能量。接着音乐片段提取设备按照每一帧在节目音频数据中的时间顺序，依次比较每一帧的每个频段的频谱能量与上一帧的每个频段的频谱能量之间的大小关系，根据比较得到结果，确定每一帧的频谱能量编码，从而可以确定每个节目音频数据的频谱能量编码数据，该频谱能量编码数据由每个节目音频数据中的各个音频帧的频谱能量编码组成。

在一种可能的实施场景中，音乐片段提取设备可以先将每个节目音频数据的格式解码为8k 16bit的PCM格式，然后按照预设的1856个采样点为一帧、58个采样点为帧移对确定的每个节目音频数据进行分帧处理，对每一帧节目音频数据进行傅里叶变换得到频谱后，将得到的频谱平均分成32个频段，为每个频段计算均值作为此频段的频谱能量。接着音乐片段提取设备按照每一帧在节目音频数据中的时间顺序，依次比较每一帧的每个频段的频谱能量与上一帧的每个频段的频谱能量之间的大小关系，当某一目标音频帧的目标频段的频谱能量大于该目标音频帧的上一音频帧对应频段的频谱能量时，可以将该目标频段的对比结果确定为1，当某一目标音频帧的目标频段的频谱能量小于该目标音频帧的上一音频帧对应频段的频谱能量时，可以将该目标频段的对比结果设为0，从而根据比较得到结果，音乐片段提取设备可以得到目标音频帧的32个频段与该目标音频帧的上一音频帧的32个频段的比较结果，最终得到目标音频帧的32位频谱能量编码。

例如，设节目音频数据A中的某一音乐帧n2，其上一音乐帧为n1，经过比较后得到音乐帧n2的32位频谱能量编码为10……11，也就是说，n2相较于n1来说，n2的第一个频段的频谱能量大于n1，n2的第二个频段的频谱能量小于n1，n2的最后两个频段的频谱能量均大于n1。

需要说明的是，本发明实施例中步骤S102与步骤S103没有必然的执行先后顺序，也可以同时执行，这里不作具体限定。

步骤S104，根据所述节目音频段的音频指纹数据，在预设的音乐指纹数据库中查找与所述节目音频段的音频指纹数据匹配的音乐音频指纹数据，并将查找到的音乐音频指纹数据对应的音乐确定为节目音乐。

具体的，预设的音乐指纹数据库是指包含多个音乐指纹数据以及各音乐指纹数据对应的音乐的数据存储空间。其中，音乐指纹数据库中的音乐指纹数据是音乐片段提取设备从音乐曲库中获取大量的音乐，然后按照与步骤S101和步骤S102所描述的方法类似的方法，对大量的音乐数据进行分帧处理，对每一帧数据进行傅里叶变换并提取频谱，再提取频谱峰值点，选取至少一对相邻频谱峰值点对，获取每一对相邻频谱峰值点对包含的两个频谱峰值点分别对应的频率参数和时间参数，根据频率参数和时间参数确定每一对相邻频谱峰值点对对应的指纹特征值，将这些指纹特征值通过预设的音频指纹数据的转换公式，转换为对应的音频指纹数据。其中，这里的音频指纹数据的转换公式与步骤S102中预设的音频指纹数据的转换公式设置为同一个。

可以理解的是，一个音频指纹数据是从某一目标音乐的音频数据中提取出来的，因此一个音频指纹数据必然存在一个对应的音乐，一个音乐可以存在多个对应的音频指纹数据。在预设的音乐指纹数据库中，每一个音乐可以有一个标识，音乐指纹数据库就可以存储多个音频指纹数据与其对应的音乐标识的映射关系。

在本发明实施例中，音乐片段提取设备确定了多个节目音频段的音频指纹数据后，就在预设的音乐指纹数据库中查找是否存在各个节目音频段的音频指纹数据，当存在某一节目音频段的音频指纹数据时，则获取该音频指纹数据对应的音乐，并将该音乐作为节目音乐。进一步的，音乐片段提取设备还可以对每个音频指纹数据对应的音乐出现的重复次数进行计数，将重复次数超过预设的次数阈值的音乐作为节目音乐。又进一步的，音乐片段提取设备还可以对每个音频指纹数据对应的音乐出现的重复次数进行计数，对重复次数进行排序，获取排序中排名前N个重复次数对应的音乐作为节目音乐，N为预先设定的。从而，音乐片段提取设备就可以获取多个节目音乐，也即获取到在大量视频的音频数据或电台的音频数据中出现的多个节目音乐。

例如，如表1所示为音乐指纹数据库中存储的多个音频指纹数据与音乐标识的映射关系表，设音乐片段提取设备提取到的10个节目音频段的音频指纹数据分别为：A1、A2、A2、A2、A3、A4、A3、B3、B4、B1。在一种可能的实施场景中，音乐片段提取设备可以确定多个音频指纹数据对应的音乐为音乐标识1和音乐标识2对应的音乐，并将音乐标识1和音乐标识2对应的音乐确定为节目音乐。在另一种可能的实施场景中，音乐片段提取设备可以确定多个音频指纹数据中对应的音乐标识1对应的音乐的出现次数为7，多个音频指纹数据中对应音乐标识2对应的音乐的出现次数为3，若预设的次数阈值为6，那么音乐标识1的音乐的出现次数超过了次数阈值，则可以将音乐标识1对应的音乐作为节目音乐。在又一种可能的实施场景中，音乐片段提取设备预先设定仅取重复次数排名第一的音乐为节目音乐，那么音乐标识1的音乐的重复次数排名第一，即作为节目音乐。

音频指纹数据	音乐标识
		A1、A2、A3、A4	1
B1、B2、B3、B4	2
		C1、C2、C3、C4	3
……	……
		N1、N2、N3、N4	n

表1：音频指纹数据与音乐标识映射关系表(示例)

步骤S105，获取与各个节目音频数据对应的节目音乐的音频数据的频谱能量编码数据。

具体的，音乐片段提取设备确定了节目音乐后，可以重新按照预设的帧长和帧移对各个节目音乐进行采样和分帧处理，然后对每一帧音频数据进行傅里叶变换得到频谱，将得到的频谱平均分成预设数量的n个频段，为每个频段计算均值作为此频段的频谱能量。也就是说，每一帧音频数据对应n个频段，每个频段对应存在一个频谱能量。接着音乐片段提取设备按照每一帧在节目音乐中的时间顺序，依次比较每一帧的每个频段的频谱能量与上一帧的每个频段的频谱能量之间的大小关系，根据比较得到结果，确定每一帧的频谱能量编码，从而可以确定每个节目音乐的音频数据的频谱能量编码数据，该频谱能量编码数据由每个节目音乐的音频数据中的各个音频帧的频谱能量编码组成。

在一种可能的实施场景中，音乐片段提取设备可以先将节目音乐的格式解码为8k16bit的PCM格式，然后按照预设的1856个采样点为一帧、58个采样点为帧移对确定的每个节目音乐进行分帧处理，对每一帧音频数据进行傅里叶变换得到频谱后，将得到的频谱平均分成32个频段，为每个频段计算均值作为此频段的频谱能量。接着音乐片段提取设备按照每一帧在节目音乐中的时间顺序，依次比较每一帧的每个频段的频谱能量与上一帧的每个频段的频谱能量之间的大小关系，当某一目标音频帧的目标频段的频谱能量大于该目标音频帧的上一音频帧对应频段的频谱能量时，可以将该目标频段的对比结果确定为1，当某一目标音频帧的目标频段的频谱能量小于该目标音频帧的上一音频帧对应频段的频谱能量时，可以将该目标频段的对比结果设为0，从而根据比较得到结果，音乐片段提取设备可以得到目标音频帧的32个频段与该目标音频帧的上一音频帧的32个频段的比较结果，最终得到目标音频帧的32位频谱能量编码。

例如，设节目音乐A中的某一音乐帧n2，其上一音乐帧为n1，经过比较后得到音乐帧n2的32位频谱能量编码为10……11，也就是说，n2相较于n1来说，n2的第一个频段的频谱能量大于n1，n2的第二个频段的频谱能量小于n1，n2的最后两个频段的频谱能量均大于n1。

需要说明的是，本发明实施例中步骤S104与步骤S105没有必然的执行先后顺序，也可以同时执行，这里不作具体限定。

步骤S106，通过将所述多个节目音频数据中的目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，得到所述目标节目音乐在所述目标节目音频数据中出现的时间片段，从而得到各个节目音乐在对应的节目音频数据中出现的时间片段。

具体的，这里的目标节目音频数据可以是多个节目音频数据中的任何一个节目音频数据，也就是说音乐片段提取设备将多个节目音频数据中的每一个节目音频数据依次作为目标节目音频数据，并确定每一个与目标节目音频数据对应的目标节目音乐在目标节目音频数据中出现的时间片段。

在第一种可能的实施场景中，音乐片段提取设备可以将某一目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，确定出两者的频谱能量编码数据中相互匹配的至少一段连续的频谱能量编码数据，从而可以确定至少一段连续的相互匹配的频谱能量编码数据所对应的目标节目音乐中的音频帧，从而得到目标节目音乐在目标节目音频数据中出现的至少一个时间片段。例如，目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较后，可以确定其中目标节目音乐的音乐帧n2～n5以及n7～n9的频谱能量编码数据与目标节目音乐对应的目标节目音频数据的两段频谱能量编码数据相互匹配，则可以确定目标节目音乐在目标节目音频数据中出现的时间片段为音乐帧n2～n5以及n7～n9对应的音频数据。

在第二种可能的实施场景中，音乐片段提取设备通过将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，确定出两者的频谱能量编码数据中相互匹配的至少一段连续的频谱能量编码数据后，选择其中匹配长度最长的一段连续的频谱能量编码数据，从而可以确定该段最长的连续的相互匹配的频谱能量编码数据所对应的目标节目音乐中的音频帧，从而得到目标节目音乐在目标节目音频数据中出现的一个最长的时间片段。例如，目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较后，可以确定其中，目标节目音乐的音乐帧n2～n5以及n7～n9的频谱能量编码数据与目标节目音乐对应的目标节目音频数据的两段频谱能量编码数据相互匹配，其中n2～n5比n7～n9的匹配长度长，因此可以确定目标节目音乐在目标节目音频数据中出现的时间片段为音乐帧n2～n5对应的音频数据。

在第三种可能的实施场景中，音乐片段提取设备通过将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，在目标节目音乐的音频数据中查找与目标节目音频数据的音频匹配比例大于预设匹配比例阈值的最长时间片段，作为目标节目音乐在所述目标节目音频数据中出现的时间片段。也就是说，音乐片段提取设备先确定出两者的频谱能量编码数据中相互匹配的至少一段连续的频谱能量编码数据后，选择其中匹配长度最长的一段连续的频谱能量编码数据作为参考匹配片段，然后以该参考匹配片段为中心，向该参考匹配片段的上一段时间片段或者后一段时间片段扩展，直至获取到一个目标时间片段，可以使目标节目音乐的音频数据在该目标时间片段的频谱能量编码数据与目标节目音频数据在该目标时间片段的频谱能量编码数据的匹配比例大于预设匹配比例阈值，也即确定可以使目标节目音乐的音频数据与目标节目音频数据的音频匹配比例大于预设匹配比例阈值的目标时间片段，该目标时间片段即为目标节目音乐在目标节目音频数据中出现的时间片段。

进一步的，音乐片段提取设备可以获取每个时间片段出现的起始时间、结束时间以及目标节目音乐的音乐标识，用来表征每个时间片段。

需要说明的是，目标节目音频数据包括多个音频帧，目标节目音乐的音频数据也包括多个音频帧，如步骤S105所述，每个音频帧都有对应的频谱能量编码，因此音乐片段提取设备在将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较时，可以先将目标节目音频数据的每个音频帧的频谱能量编码与该目标节目音频数据对应的目标节目音乐的音频数据的每个音频帧的频谱能量编码进行比较，也就是将两者的每个音频帧的频谱能量编码的每一位进行对比，若目标节目音频数据的音频帧的频谱能量编码与目标节目音乐的音频帧的频谱能量编码的匹配度达到预设匹配度阈值，也即如果两者的频谱能量编码的匹配的位数达到预设的预设匹配度阈值，则确定该目标节目音频数据的音频帧为目标节目音乐的音频帧的匹配帧。

对于第三种可能的实施情况，音乐片段提取设备确定目标节目音频数据与目标节目音乐的音频数据之间的所有匹配帧后，可以确定连续的匹配帧数量最多的一段时间片段中某一段连续的时间片段作为参考匹配片段，然后以该参考匹配片段为中心，向该参考匹配片段的上一段时间片段或者后一段时间片段扩展，直至获取到一个目标时间片段，可以使目标节目音乐的音频数据在该目标时间片段中与目标节目音频数据在该目标时间片段中匹配帧数量与目标时间片段的总帧数的比值大于预设匹配比例阈值，也即匹配比例大于预设匹配比例阈值，则该目标时间片段即为目标节目音乐在目标节目音频数据中出现的时间片段。

例如，一个目标节目音频数据有30个音频帧，一个目标节目音频数据对应的目标节目音乐的音频数据有20个音频帧，则分别以目标节目音频数据的1～10音频帧为起始点分别与目标节目音乐的20个音频帧比较。设每个音频帧对应32位频谱能量编码，30为预设匹配度阈值，则音乐片段提取设备可以统计每次比对时，帧与帧之间相同位的数量，将匹配位数大于30的音频帧标记为匹配帧。然后找出目标节目音频数据与目标节目音乐的音频数据之间匹配帧数量最多的一段时间片段为第3帧～第13帧。然后提取第3帧～第13帧中最长的一段连续片段作为参考匹配片段，设参考匹配片段为第3帧～第8帧，并以此为中心向两边进行扩展，其中第1帧、第2帧和第9帧为不匹配帧，第10帧～第13帧为匹配帧。若设匹配比例阈值为90％，则可以扩展得到一个第3帧～第13帧的目标时间片段，在该目标时间片段中的匹配帧数为10，总的音频帧数量为11，匹配比例10/11大于预设的匹配比例阈值90％，从而可以确定目标节目音乐的音频数据中的第3帧～第13帧为目标节目音乐在目标节目音频数据中出现的时间片段。进而，音乐片段提取设备可以获取目标节目音乐的音频数据中的第3帧～第13帧所对应的起始时间、结束时间以及该目标节目音乐的音乐标识，组成一个三元组信息来表示目标节目音乐在对应的节目音频数据中出现的时间片段。例如，三元组可以为(10231，221，546)，其中，10231为音乐标识，221和546为起始时间信息和结束时间信息，按照四舍五入的方式规整为以100ms为最小单位，也就是0.1s。即该三元组代表音乐标识为10231的音乐中第22.1秒到第54.6秒在对应的节目音频数据中出现。

步骤S107，根据各个节目音乐在对应的节目音频数据中出现的时间片段，输出至少一个节目音乐的音乐片段。

具体的，音乐片段提取设备得到各个节目音乐在对应的节目音频数据中出现的时间片段后，可以根据各个节目音乐在对应的节目音频数据中出现的时间片段的重复次数，确定各个节目音乐在对应的节目音频数据中出现的重复次数最多的至少一个预设时长的时间片段作为对应节目音乐的备选片段。也就是说，音乐片段提取设备对各个目标节目音乐在对应的节目音频数据中出现的每一个时间片段的重复次数进行统计，然后确定一段时间长度为预设时长的目标时间片段，该预设时长的目标时间片段所包含的各个时间片段的重复次数的和，是目标节目音乐中所有在对应的节目音频数据中出现的各时间片段中在预设的时长内重复次数的和最大的一段时间片段，音乐片段提取设备将该预设时长的目标时间片段作为备选片段。根据该方法，音乐片段提取设备就可以确定各个节目音乐的备选片段。

进一步的，音乐片段提取设备根据各个备选片段在多个节目音频数据中出现的重复次数，将至少一个备选片段确定为音乐片段并输出。也就是说，音乐片段提取设备在确定了每个节目音乐的备选片段后，需要从这些备选片段中选择一定数量的备选片段作为音乐片段进行输出。因此，音乐片段提取设备可以对每个节目音乐的备选片段在多个节目音频数据中出现的重复次数进行排序，获取重复次数排序中的前N个节目音乐的备选片段作为音乐片段进行输出，其中，N可以预先设定的需要获取的备选片段的数量，也可以是在多个节目音频数据中出现的重复次数超过预设的重复阈值的备选片段的数量决定的。

例如，设确定了三首节目音乐，音乐标识分别为1、2和3，以100ms为单位进行重复次数的投票计数，每首节目音乐的总时长设为150秒(这里仅为举例，真实情况每首歌曲长度不等，投票单元按实际长度设置)，则一共有3*150*10＝4500个投票单元。若音乐片段提取设备与10个节目音频数据进行匹配后，得到的3个节目音乐在10个节目音频数据中出现的时间片段分别为如下三元组：

(1，223，478) (1，328，568) (1，402，756) (1，404，742)

(1，534，912) (1，1230，1498) (2，221，546) (2，245，631)

(2，382，664) (3，986，1132)

初始投票单元均为0，以(1，223，478)为例，则对第223～478个投票单元的投票计数加1，(2，221，546)为例，则对第1721～2046个投票单元加1(1721是指1500+221＝1721)，按照该原理，可以得出以下投票结果：

1～222(投票单元)：0 223～327：1 328～401：2 402～403：3

404～478：4 479～533：3 534～568：4 569～742：3 743～756：2

757～912：1 913～1229：0 1230～1498：1 1499～1720：0

1721～1744：1 1745～1881：2 1882～2046：3 2047～2131：2

2132～2164：1 2165～3985：0 3986～4132：1 4133～4500：0

其中，以1～222：0为例，表示1～222的每个投票单元的票数均为0，以223～327：1为例，表示223～327的每个投票单元的票数均为1。

设预设时长为30s，则音乐片段提取设备需要计算这三首节目音乐中票数排名前N个的30s内的连续音频作为备选片段。本例中可以设N为2，音乐片段提取设备可以获得票数排名前两名的30s片段，本例结果取票数排名前两名则为[402～701]与[1747～2046]这两个时间片段。则音乐片段提取设备可以从节目音乐1截取40.2秒到第70.1秒的片段，从节目音乐2截取24.7秒到第54.6秒的片段，作为音乐片段输出。其中，音乐片段提取设备可以根据预设的最大票数公式，获取预设时长内票数最多的时间片段，在本例中，预设的最大票数公式可以为：

其中，i表示投票单元i，x_j表示第j个投票单元的投票数大小，

表示连续300个投票单元的投票数大小的和。通过预设的最大票数公式，获取票数最的30秒片段的排名。

可以理解的，音乐片段提取设备将至少一个备选片段确定为音乐片段后，在输出之前，需要将有时间的冲突的片段去掉，也就是每一个音乐片段均不能有共同的片段。本发明实施例中的音乐片段可以用于作为铃声提供给用户进行使用。

进一步的，音乐片段提取设备不仅可以按照上述方法根据备选片段在多个节目音频数据中出现的重复次数确定至少一个音乐片段，还可以结合多个节目音频数据对应的热点权重值确定各个备选片段的投票计数值，将投票计数值最高的预设数量个备选片段确定为所述音乐片段并输出。例如，可以设定音乐标识1的节目音乐对应的节目音频数据的热点权重值为2，那么在对音乐标识1的节目音乐的备选片段进行投票时，每重复一次的投票计数都为2，例如，在上例中音乐标识1的节目音乐的223～327的投票单元的投票计数值即为2。需要说明的是，音乐片段提取设备可以根据节目音频数据的时效性和热点性对节目音频数据对应热点权重值进行预先设置，例如，新出品的节目音频数据的热点权重值可以设置的比较高，如近一周上线的电影对应的节目音频数据的热点权重值为10，近一个月上线的电影对应的节目音频数据的热点权重值为5等。

又进一步的，当音乐片段提取设备获取到新的节目音乐或者节目音频数据时，可以重新执行本实施例的步骤，从而获取更新后的至少一个音乐片段。

下面将结合图2-图6，对本发明实施例提供的音乐片段提取设备进行详细介绍。需要说明的是，图2-图6所示的音乐片段提取设备，用于执行本发明图1所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1所示的实施例。

图2是本发明实施例提供的一种音乐片段提取设备的结构示意图，所述音乐片段提取设备包括：

音频段提取模块210，用于分别从多个节目音频数据中的每个节目音频数据中提取至少一个节目音频段，得到多个节目音频段。

具体的，视频数据或者电台节目等音频数据中都包含了很多精心挑选的用户比较喜欢的歌曲，而且带有时效性、热点性和经典性。本发明实施例中的节目音频数据就是指视频数据库(电影、电视剧、电视节目等)以及电台节目音频数据库中的音频数据。具体实施中，音频段提取模块210可以从多个节目音频数据中的每个节目音频数据中提取至少一个节目音频段，其中至少一个节目音频段可以是音乐片段提取设备对每个节目音频数据按照预设的帧长和帧移进行分割，从而得到多个相同时长的节目音频段。例如，可以以10s为帧长，1s为帧移对某一个电影的音频数据进行分割，从而得到多个以10s为单位的节目音频段，也即得到多个以10s为单位的数据帧。进一步的，在提取至少一个节目音频段之前，音频段提取模块210可以先将每个节目音频数据转换为8k 16bit的PCM格式。

指纹数据获取模块220，用于分别获取多个节目音频段的音频指纹数据。

具体的，音频指纹数据是指可以用来表征每个节目音频段的一种数据。

可选的，可以一并参见图3，图3是本发明实施例提供的指纹数据获取模块的结构示意图，所述指纹数据获取模块220包括：

峰值点提取单元221，用于提取目标节目音频段的各帧音频数据的频谱峰值点。

具体实施中，针对某一目标节目音频段，指纹数据获取模块220可以先通过傅里叶变换提取目标节目音频段的频谱数据，然后峰值点提取单元221再根据频谱数据提取目标节目音频段的频谱峰值点。

峰值点对选取单元222，用于在各帧音频数据的频谱峰值点中选取至少一对相邻频谱峰值点对。

峰值点对选取单元222在目标节目音频段的频谱峰值点中选取至少一对相邻频谱峰值点对。在选取相邻频谱峰值点对时，峰值点对选取单元222先确定一个目标频谱峰值点，然后获取该目标频谱峰值点周围预设区域内，与该目标频谱峰值点的时间差最小的预设数目个频谱峰值点，该目标频谱峰值点与在其周围确定的时间差最小的预设数目个频谱峰值点分别组成相邻频谱峰值点对。

特征值确定单元223，用于根据目标相邻频谱峰值点对的频率参数和时间参数，确定目标相邻频谱峰值点对对应的指纹特征值。

进一步，针对某一目标相邻频谱峰值点对，特征值确定单元223可以获取该目标相邻频谱峰值点对包含的两个频谱峰值点分别对应的频率参数和时间参数，根据频率参数和时间参数确定目标相邻频谱峰值点对对应的指纹特征值。比如指纹特征值可以是两个频谱峰值点中的任一个频谱峰值点的频率参数和时间参数以及两个频谱峰值点分别对应的频率参数的差以及时间参数的差形成的数据结构。例如，A(t1，f1)和B(t2，f2)这对相邻频谱峰值点对，t1、f1以及t2、f2分别为A和B的时间参数和频率参数，其指纹特征值就可以为D{t1，f1，Δf，Δt}，其中，其中Δf＝f2-f1，Δt＝t2-t1。

指纹数据确定单元224，用于根据所有相邻频谱峰值点对对应的指纹特征值，确定所述目标节目音频段的音频指纹数据。

按照上述方法，可以获取目标节目音频段的所有相邻频谱峰值点对对应的指纹特征值，指纹数据确定单元224将这些指纹特征值通过预设的音频指纹数据的转换公式，转换为对应的音频指纹数据。例如，获取到的某一个指纹特征值为D{t1，f1，Δf，Δt}，音频指纹数据的转换公式可以具体表示为：Y＝f1·2^12+Δf·2^6+Δt。

节目音乐确定模块230，用于根据所述节目音频段的音频指纹数据，在预设的音乐指纹数据库中查找与所述节目音频段的音频指纹数据匹配的音乐音频指纹数据，并将查找到的音乐音频指纹数据对应的音乐确定为节目音乐。

具体的，预设的音乐指纹数据库是指包含多个音乐指纹数据以及各音乐指纹数据对应的音乐的数据存储空间。其中，音乐指纹数据库中的音乐指纹数据是音乐片段提取设备从音乐曲库中获取大量的音乐，然后节目音乐确定模块230按照与音频段提取模块210和指纹数据获取模块220所描述的方法类似的方法，对大量的音乐数据进行分帧处理，对每一帧数据进行傅里叶变换并提取频谱，再提取频谱峰值点，选取至少一对相邻频谱峰值点对，获取每一对相邻频谱峰值点对包含的两个频谱峰值点分别对应的频率参数和时间参数，根据频率参数和时间参数确定每一对相邻频谱峰值点对对应的指纹特征值，将这些指纹特征值通过预设的音频指纹数据的转换公式，转换为对应的音频指纹数据。其中，这里的音频指纹数据的转换公式与指纹数据获取模块220中预设的音频指纹数据的转换公式设置为同一个。

在本发明实施例中，节目音乐确定模块230确定了多个节目音频段的音频指纹数据后，就在预设的音乐指纹数据库中查找是否存在各个节目音频段的音频指纹数据，当存在某一节目音频段的音频指纹数据时，则获取该音频指纹数据对应的音乐，并将该音乐作为节目音乐。进一步的，节目音乐确定模块230还可以对每个音频指纹数据对应的音乐出现的重复次数进行计数，将重复次数超过预设的次数阈值的音乐作为节目音乐。从而，节目音乐确定模块230就可以获取多个节目音乐，也即获取到在大量视频的音频数据或电台的音频数据中出现的多个节目音乐。

能量编码数据获取模块240，用于获取所述多个节目音频数据的频谱能量编码数据，还用于获取与各个节目音频数据对应的节目音乐的音频数据的频谱能量编码数据。

具体的，确定了节目音乐后，能量编码数据获取模块240可以重新按照预设的帧长和帧移对各个节目音乐进行采样和分帧处理，然后对每一帧音频数据进行傅里叶变换得到频谱，将得到的频谱平均分成预设数量的n个频段，为每个频段计算均值作为此频段的频谱能量。也就是说，每一帧音频数据对应n个频段，每个频段对应存在一个频谱能量。接着能量编码数据获取模块240按照每一帧在节目音乐中的时间顺序，依次比较每一帧的每个频段的频谱能量与上一帧的每个频段的频谱能量之间的大小关系，根据比较得到结果，确定每一帧的频谱能量编码，从而可以确定每个节目音乐的音频数据的频谱能量编码数据，该频谱能量编码数据由每个节目音乐的音频数据中的各个音频帧的频谱能量编码组成。

在一种可能的实施场景中，能量编码数据获取模块240可以先将节目音乐的格式解码为8k 16bit的PCM格式，然后按照预设的1856个采样点为一帧、58个采样点为帧移对确定的每个节目音乐进行分帧处理，对每一帧音频数据进行傅里叶变换得到频谱后，将得到的频谱平均分成32个频段，为每个频段计算均值作为此频段的频谱能量。接着能量编码数据获取模块240按照每一帧在节目音乐中的时间顺序，依次比较每一帧的每个频段的频谱能量与上一帧的每个频段的频谱能量之间的大小关系，当某一目标音频帧的目标频段的频谱能量大于该目标音频帧的上一音频帧对应频段的频谱能量时，可以将该目标频段的对比结果确定为1，当某一目标音频帧的目标频段的频谱能量小于该目标音频帧的上一音频帧对应频段的频谱能量时，可以将该目标频段的对比结果设为0，从而根据比较得到结果，音乐片段提取设备可以得到目标音频帧的32个频段与该目标音频帧的上一音频帧的32个频段的比较结果，最终得到目标音频帧的32位频谱能量编码。

按照上述方法，能量编码数据获取模块240可以获取用于确定节目音乐的每个节目音频段所对应的节目音频数据的频谱能量编码数据。

时间片段确定模块250，用于通过所述多个节目音频数据中的将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，得到所述目标节目音乐在所述目标节目音频数据中出现的时间片段，从而得到各个节目音乐在对应的节目音频数据中出现的时间片段。

在第一种可能的实施场景中，时间片段确定模块250确定了各个节目音频数据的频谱能量编码数据和节目音乐的频谱能量编码数据之后，可以将某一目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，确定出两者的频谱能量编码数据中相互匹配的至少一段连续的频谱能量编码数据，从而可以确定至少一段连续的相互匹配的频谱能量编码数据所对应的目标节目音乐中的音频帧，从而得到目标节目音乐在目标节目音频数据中出现的至少一个时间片段。

在第二种可能的实施场景中，时间片段确定模块250通过将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，确定出两者的频谱能量编码数据中相互匹配的至少一段连续的频谱能量编码数据后，选择其中匹配长度最长的一段连续的频谱能量编码数据，从而可以确定该段最长的连续的相互匹配的频谱能量编码数据所对应的目标节目音乐中的音频帧，从而得到目标节目音乐在目标节目音频数据中出现的一个最长的时间片段。

可选的，所述时间片段确定模块250用于：

通过将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，在所述目标节目音乐的音频数据中查找与所述目标节目音频数据的音频匹配比例大于预设匹配比例阈值的最长时间片段，作为所述目标节目音乐在所述目标节目音频数据中出现的时间片段。

在第三种可能的实施场景中，时间片段确定模块250通过将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，在目标节目音乐的音频数据中查找与目标节目音频数据的音频匹配比例大于预设匹配比例阈值的最长时间片段，作为目标节目音乐在所述目标节目音频数据中出现的时间片段。也就是说，时间片段确定模块250先确定出两者的频谱能量编码数据中相互匹配的至少一段连续的频谱能量编码数据后，选择其中匹配长度最长的一段连续的频谱能量编码数据作为参考匹配片段，然后以该参考匹配片段为中心，向该参考匹配片段的上一段时间片段或者后一段时间片段扩展，直至获取到一个目标时间片段，可以使目标节目音乐的音频数据在该目标时间片段的频谱能量编码数据与目标节目音频数据在该目标时间片段的频谱能量编码数据的匹配比例大于预设匹配比例阈值，也即确定可以使目标节目音乐的音频数据与目标节目音频数据的音频匹配比例大于预设匹配比例阈值的目标时间片段，该目标时间片段即为目标节目音乐在目标节目音频数据中出现的时间片段。

进一步的，时间片段确定模块250可以获取每个时间片段出现的起始时间、结束时间以及目标节目音乐的音乐标识，用来表征每个时间片段。

可选的，可以一并参见图4，图4是本发明实施例提供的时间片段确定模块的结构示意图，所述时间片段确定模块250包括：

匹配帧确定单元251，用于将目标节目音频数据的音频帧的频谱能量编码与该目标节目音频数据对应的目标节目音乐的音频数据的音频帧的频谱能量编码进行比较，若目标节目音频数据的音频帧的频谱能量编码与目标节目音乐的音频帧的频谱能量编码的匹配度达到预设匹配度阈值，则确定该目标节目音频数据的音频帧为目标节目音乐的音频帧的匹配帧。

需要说明的是，目标节目音频数据包括多个音频帧，目标节目音乐的音频数据也包括多个音频帧，每个音频帧都有对应的频谱能量编码，因此匹配帧确定单元251在将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较时，可以先将目标节目音频数据的每个音频帧的频谱能量编码与该目标节目音频数据对应的目标节目音乐的音频数据的每个音频帧的频谱能量编码进行比较，也就是将两者的每个音频帧的频谱能量编码的每一位进行对比，若目标节目音频数据的音频帧的频谱能量编码与目标节目音乐的音频帧的频谱能量编码的匹配度达到预设匹配度阈值，也即如果两者的频谱能量编码的匹配的位数达到预设的预设匹配度阈值，则确定该目标节目音频数据的音频帧为目标节目音乐的音频帧的匹配帧。

匹配比例确定单元252，用于按照时序先后关系，将目标节目音乐的音频数据中的目标时间片段的音频帧中被确定为目标节目音频数据中的相应时间片段的音频帧的匹配帧的比例，作为所述目标节目音乐的目标时间片段与所述目标节目音频数据的音频匹配比例。

对于第三种可能的实施情况，确定目标节目音频数据与目标节目音乐的音频数据之间的所有匹配帧后，匹配比例确定单元252可以确定连续的匹配帧数量最多的一段时间片段中某一段连续的时间片段作为参考匹配片段，然后以该参考匹配片段为中心，向该参考匹配片段的上一段时间片段或者后一段时间片段扩展，直至获取到一个目标时间片段，可以使目标节目音乐的音频数据在该目标时间片段中与目标节目音频数据在该目标时间片段中匹配帧数量与目标时间片段的总帧数的比值大于预设匹配比例阈值，也即匹配比例大于预设匹配比例阈值，则该目标时间片段即为目标节目音乐在目标节目音频数据中出现的时间片段。

音乐片段输出模块260，用于根据各个节目音乐在对应的节目音频数据中出现的时间片段，输出至少一个节目音乐的音乐片段。

具体的，音乐片段输出模块260得到各个节目音乐在对应的节目音频数据中出现的时间片段后，可以根据各个节目音乐在对应的节目音频数据中出现的时间片段的重复次数，确定各个节目音乐在对应的节目音频数据中出现的重复次数最多的至少一个预设时长的时间片段作为对应节目音乐的备选片段。进一步的，当音乐片段提取设备获取到新的节目音乐或者节目音频数据时，可以重新执行本实施例的步骤，从而获取更新后的至少一个音乐片段。

可以理解的，音乐片段输出模块260将至少一个备选片段确定为音乐片段后，在输出之前，需要将有时间冲突的片段去掉，也就是每一个音乐片段均不能有共同的片段。本发明实施例中的音乐片段可以用于作为铃声提供给用户进行使用。

可选的，可以一并参见图5，图5是本发明实施例提供的音乐片段输出模块的结构示意图，所述音乐片段输出模块260包括：

备选片段确定单元261，用于根据各个节目音乐在对应的节目音频数据中出现的时间片段的重复次数，确定各个节目音乐在对应的节目音频数据中出现的重复次数最多的至少一个预设时长的时间片段作为对应节目音乐的备选片段。

备选片段确定单元261对各个目标节目音乐在对应的节目音频数据中出现的每一个时间片段的重复次数进行统计，然后确定一段时间长度为预设时长的目标时间片段，该预设时长的目标时间片段所包含的各个时间片段的重复次数的和，是目标节目音乐中所有在对应的节目音频数据中出现的各时间片段中在预设的时长内重复次数的和最大的一段时间片段，备选片段确定单元261将该预设时长的目标时间片段作为备选片段。根据该方法，备选片段确定单元261就可以确定各个节目音乐的备选片段。

音乐片段输出单元262，用于根据各个备选片段在所述多个节目音频数据中出现的重复次数，将至少一个备选片段确定为所述音乐片段并输出。

进一步的，音乐片段输出单元262根据各个备选片段在多个节目音频数据中出现的重复次数，将至少一个备选片段确定为音乐片段并输出。也就是说，音乐片段输出单元262在确定了每个节目音乐的备选片段后，需要从这些备选片段中选择一定数量的备选片段作为音乐片段进行输出。因此，音乐片段输出单元262可以对每个节目音乐的备选片段在多个节目音频数据中出现的重复次数进行排序，获取重复次数排序中的前N个节目音乐的备选片段作为音乐片段进行输出，其中，N可以预先设定的需要获取的备选片段的数量，也可以是在多个节目音频数据中出现的重复次数超过预设的重复阈值的备选片段的数量决定的。

可选的，所述音乐片段输出单元262用于：

根据所述备选片段在所述多个节目音频数据中出现的重复次数以及出现的节目音频数据对应的热点权重值，确定所述各个备选片段的投票计数值；

将投票计数值最高的预设数量个备选片段确定为所述音乐片段并输出。

进一步的，音乐片段输出单元262可以不仅可以按照上述方法根据备选片段在多个节目音频数据中出现的重复次数确定至少一个音乐片段，还可以结合多个节目音频数据对应的热点权重值确定各个备选片段的投票计数值，将投票计数值最高的预设数量个备选片段确定为所述音乐片段并输出。例如，可以设定音乐标识1的节目音乐对应的节目音频数据的热点权重值为2，那么在对音乐标识1的节目音乐的备选片段进行投票时，每重复一次的投票计数都为2，需要说明的是，音乐片段输出单元262可以根据节目音频数据的时效性和热点性对节目音频数据对应热点权重值进行预先设置，例如，新出品的节目音频数据的热点权重值可以设置的比较高，如近一周上线的电影对应的节目音频数据的热点权重值为10，近一个月上线的电影对应的节目音频数据的热点权重值为5等。

图6是本发明实施例提供的另一种歌曲音频拼接设备的结构示意图，所述设备包括：音频段提取模块210、指纹数据获取模块220、节目音乐确定模块230、能量编码数据获取模块240、时间片段确定模块250和音乐片段输出模块260，还包括：

掩蔽峰值点检测模块270，用于检测目标节目音频段的各帧音频数据的频谱峰值点中是否存在频率差小于预设频率阈值并且时间差小于预设时间阈值的掩蔽频谱峰值点对。

掩蔽峰值点滤除模块280，用于当存在频率差小于预设频率阈值并且时间差小于预设时间阈值的掩蔽频谱峰值点对时，将所述掩蔽频谱峰值点对被掩蔽的频谱峰值点滤除。

由于人对声音感知时，短时谱峰值频率点之间是相互影响，一个频率分量可能掩蔽与其相近的频率分量，即所谓的听觉掩蔽效应。因此音乐片段提取设备在选择峰值频率点时需要使选取的峰值点沿时间和频率轴分布比较均匀，可以将距离较小的峰值点裁剪掉，以保证峰值点间的间距。具体实施中，在目标节目音频段的频谱峰值点中选取至少一对相邻频谱峰值点对之前，掩蔽峰值点检测模块270可以检测目标节目音频段的频谱峰值点中是否存在频率差小于预设频率阈值并且时间差小于预设时间阈值的掩蔽频谱峰值点对，也即是否存在可能产生听觉掩效应的频谱峰值点，若存在，则掩蔽峰值点滤除模块280可以将掩蔽频谱峰值点对被掩蔽的频谱峰值点滤除。

图7是本发明实施例提供的另一种音乐片段提取设备的结构示意图。如图7所示，所述音乐片段提取设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及片段提取应用程序。

在图7所示的音乐片段提取设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的音频拼接应用程序，并具体执行以下操作：

在一个实施例中，所述处理器1001根据各个节目音乐在对应的节目音频数据中出现的时间片段，输出至少一个节目音乐的音乐片段时，具体执行以下操作：

根据各个节目音乐在对应的节目音频数据中出现的时间片段的重复次数，确定各个节目音乐在对应的节目音频数据中出现的重复次数最多的至少一个预设时长的时间片段作为对应节目音乐的备选片段；

根据各个备选片段在所述多个节目音频数据中出现的重复次数，将至少一个备选片段确定为所述音乐片段并输出。

在一个实施例中，所述处理器1001分别获取多个节目音频段的音频指纹数据时，具体执行以下操作：

提取目标节目音频段的频谱峰值点；

在所述目标节目音频段的频谱峰值点中选取至少一对相邻频谱峰值点对；

根据目标相邻频谱峰值点对的频率参数和时间参数，确定目标相邻频谱峰值点对对应的指纹特征值；

根据所有相邻频谱峰值点对对应的指纹特征值，确定所述目标节目音频段的音频指纹数据。

在一个实施例中，在所述目标节目音频段的频谱峰值点中选取至少一对相邻频谱峰值点对之前，所述处理器1001还用于执行以下操作：

检测目标节目音频段的各帧音频数据的频谱峰值点中是否存在频率差小于预设频率阈值并且时间差小于预设时间阈值的掩蔽频谱峰值点对；

若存在，则将所述掩蔽频谱峰值点对被掩蔽的频谱峰值点滤除。

在一个实施例中，所述处理器1001通过所述多个节目音频数据中的将目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，得到所述目标节目音乐在所述目标节目音频数据中出现的时间片段时，具体执行以下操作：

在一个实施例中，所述频谱能量编码数据包括音频数据中每个音频帧的频谱能量编码，所述处理器1001通过将所述多个节目音频数据中的目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较时，具体执行以下操作：

将目标节目音频数据的音频帧的频谱能量编码与该目标节目音频数据对应的目标节目音乐的音频数据的音频帧的频谱能量编码进行比较，若目标节目音频数据的音频帧的频谱能量编码与目标节目音乐的音频帧的频谱能量编码的匹配度达到预设匹配度阈值，则确定该目标节目音频数据的音频帧为目标节目音乐的音频帧的匹配帧；

按照时序先后关系，将目标节目音乐的音频数据中的目标时间片段的音频帧中被确定为目标节目音频数据中的相应时间片段的音频帧的匹配帧的比例，作为所述目标节目音乐的目标时间片段与所述目标节目音频数据的音频匹配比例。

在一个实施例中，所述处理器1001根据各个备选片段在所述多个节目音频数据中出现的重复次数，将至少一个备选片段确定为所述音乐片段并输出时，具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音乐片段提取方法，其特征在于，所述方法包括：

分别获取多个节目音频段的音频指纹数据；

获取所述多个节目音频数据的频谱能量编码数据，任一节目音频数据的频谱能量编码数据由所述任一节目音频数据中的各个音频帧的频谱能量编码组成，任一音频帧的频谱能量由所述任一音频帧的n个频段中各个频段的频谱均值组成；

2.如权利要求1所述的音乐片段提取方法，其特征在于，所述根据各个节目音乐在对应的节目音频数据中出现的时间片段，输出至少一个节目音乐的音乐片段包括：

3.如权利要求1所述的音乐片段提取方法，其特征在于，所述分别获取多个节目音频段的音频指纹数据包括：

提取目标节目音频段的频谱峰值点；

4.如权利要求3所述的音乐片段提取方法，其特征在于，所述在所述目标节目音频段的频谱峰值点中选取至少一对相邻频谱峰值点对之前还包括：

5.如权利要求1-4所述的任一音乐片段提取方法，其特征在于，所述通过将所述多个节目音频数据中的目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较，得到所述目标节目音乐在所述目标节目音频数据中出现的时间片段包括：

6.如权利要求5所述的音乐片段提取方法，其特征在于，所述频谱能量编码数据包括音频数据中每个音频帧的频谱能量编码；

所述通过将所述多个节目音频数据中的目标节目音频数据的频谱能量编码数据与该目标节目音频数据对应的目标节目音乐的音频数据的频谱能量编码数据进行比较包括：

7.如权利要求2所述的音乐片段提取方法，其特征在于，所述根据各个备选片段在所述多个节目音频数据中出现的重复次数，将至少一个备选片段确定为所述音乐片段并输出包括：

8.一种音乐片段提取设备，其特征在于，所述设备包括：

能量编码数据获取模块，用于获取所述多个节目音频数据的频谱能量编码数据，任一节目音频数据的频谱能量编码数据由所述任一节目音频数据中的各个音频帧的频谱能量编码组成，任一音频帧的频谱能量由所述任一音频帧的n个频段中各个频段的频谱均值组成；

9.如权利要求8所述的音乐片段提取设备，其特征在于，所述音乐片段输出模块包括：

备选片段确定单元，用于根据各个节目音乐在对应的节目音频数据中出现的时间片段的重复次数，确定各个节目音乐在对应的节目音频数据中出现的重复次数最多的至少一个预设时长的时间片段作为对应节目音乐的备选片段；

音乐片段输出单元，用于根据各个备选片段在所述多个节目音频数据中出现的重复次数，将至少一个备选片段确定为所述音乐片段并输出。

10.如权利要求8所述的音乐片段提取设备，其特征在于，所述指纹数据获取模块包括：

峰值点提取单元，用于提取目标节目音频段的频谱峰值点；

峰值点对选取单元，用于在所述目标节目音频段的频谱峰值点中选取至少一对相邻频谱峰值点对；

特征值确定单元，用于根据目标相邻频谱峰值点对的频率参数和时间参数，确定目标相邻频谱峰值点对对应的指纹特征值；

指纹数据确定单元，用于根据所有相邻频谱峰值点对对应的指纹特征值，确定所述目标节目音频段的音频指纹数据。

11.如权利要求10所述的音乐片段提取设备，其特征在于，所述音乐片段提取设备还包括：

掩蔽峰值点检测模块，用于检测目标节目音频段的各帧音频数据的频谱峰值点中是否存在频率差小于预设频率阈值并且时间差小于预设时间阈值的掩蔽频谱峰值点对；

掩蔽峰值点滤除模块，用于当存在频率差小于预设频率阈值并且时间差小于预设时间阈值的掩蔽频谱峰值点对时，将所述掩蔽频谱峰值点对被掩蔽的频谱峰值点滤除。

12.如权利要求8-11所述的任一音乐片段提取设备，其特征在于，所述时间片段确定模块用于：

13.如权利要求12所述的音乐片段提取设备，其特征在于，所述频谱能量编码数据包括音频数据中每个音频帧的频谱能量编码；

所述时间片段确定模块包括：

匹配帧确定单元，用于将目标节目音频数据的音频帧的频谱能量编码与该目标节目音频数据对应的目标节目音乐的音频数据的音频帧的频谱能量编码进行比较，若目标节目音频数据的音频帧的频谱能量编码与目标节目音乐的音频帧的频谱能量编码的匹配度达到预设匹配度阈值，则确定该目标节目音频数据的音频帧为目标节目音乐的音频帧的匹配帧；

匹配比例确定单元，用于按照时序先后关系，将目标节目音乐的音频数据中的目标时间片段的音频帧中被确定为目标节目音频数据中的相应时间片段的音频帧的匹配帧的比例，作为所述目标节目音乐的目标时间片段与所述目标节目音频数据的音频匹配比例。

14.如权利要求9所述的音乐片段提取设备，其特征在于，所述音乐片段输出单元用于：