CN109271501A

CN109271501A - 一种音频数据库的管理方法及系统

Info

Publication number: CN109271501A
Application number: CN201811095312.XA
Authority: CN
Inventors: 孙昌勋
Original assignee: Beijing Ronglian Ets Information Technology Co Ltd
Current assignee: Beijing Ronglian Ets Information Technology Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-01-25
Anticipated expiration: 2038-09-19
Also published as: CN109271501B

Abstract

本发明涉及一种音频数据库的管理方法及系统。在更新个人音频数据库时，首先将音频数据划分为不同的子片段，获取待比对音频数据各子片段音频数据的频谱能量以及该子片段的用户点击率，基于所述频谱能量和用户点击率确定该子片段音频指纹对应的权重系数；基于所述权重系数将待比对音频数据的音频指纹与个人音频数据库中音频数据的音频指纹进行比对，获取二者的相似度值。所述计算音频数据相似度的方法充分将音频数据的特点和用户使用情况考虑在内，能够更准确的计算出两个音频数据之间的相似度。所述方法还将系统自动识别和用户人工识别相结合，有效提高了识别的准确性和效率。

Description

一种音频数据库的管理方法及系统

技术领域

本发明涉及音频识别技术领域，特别涉及一种音频数据库的管理方法及系统。

背景技术

音频指纹是通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来，用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹作为内容自动识别技术的核心算法，已被广泛应用于音乐识别，版权内容监播，内容库去重和电视第二屏互动等领域。

音频指纹技术通过提取声音中的数据特征，将需要被识别的内容与建立的音频指纹数据库进行比对完成的。识别过程不受音频本身的存储格式，编码方式，码率和压缩技术影响。音频指纹的匹配是高度精确的匹配，不依赖于文件meta信息，加水印和文件哈希值。

音频指纹技术最早应用于听歌识曲功能。当用户听到一段喜爱的旋律却不知道歌名的情况下，用户只需要用手机录制一段听到的歌曲片段，即可通过音频指纹检索的方式获取歌曲的名称。基于音频指纹技术，全球著名歌曲识别有Shazam，Musixmatch，Soundhound等。其中Musixmatch作为全球最大的在先歌词库服务，不但能识别出歌手，歌名，还可以将歌曲播放当前进度的歌词实时展示给用户。

音乐爱好者一般都拥有个人音频数据库，在通过网络播放设备听音乐时，会根据个人喜好选择对某些歌曲进行下载并保存在个人音频数据库中，现有保存方式一般是由用户手动保存，不同歌曲按照歌名进行区分。但同一首歌，可能会有多个不同版本，单纯采用歌名进行手动保存会导致音频数据库中不同的歌曲被错误的覆盖或替换。随着音频数据库中音频数量的增加，通过用户人工进行确认又耗时较长。

Jaap Haitsma等人在论文“A Highly Robust AudioFingerprinting System”中提出了一种音频指纹提取方法和相应的检测算法。在该论文中，作者通过比较预设模板和待测音频的音频指纹是否相同来判断待测音频中是否含有预设模板。通过试验，我们发现采用该方法进行判断的查全率较低，分析发现该方法提取的音频指纹抗噪性能较差。若待测音频经过一定的变换(压缩、传输)后，音频的音质将发生变化，采用该方法获得的音频指纹也将会发生较大的变化，从而使得查全率较低。在这个基础上，Jerome Lebosse等人在“ARobust Audio Fingerprint Extraction Algorithm”中提出了累加能量的差分方法。与Jaap Haitsma等人的方法相比，Lebosse等人的方法的音频指纹的鲁棒性得到了增强，使得检测时音频指纹的击中率增加，提高了查全率，但是相应地又带来了一定的虚警。

而现有技术中基于Philips算法对音频文件进行检索：对音频片段按照一定的帧叠进行加窗和分帧，得到多个音频帧后，对每个音频帧进行快速傅里叶变换(FFT，FastFourier Transformation)，得到每个音频帧的频谱，将每个音频帧在频域上划分为33个子带，基于音频帧的频谱，计算每个子带的能量。之后，对于每个音频帧，计算该音频帧的任意两个相邻子带之间的能量差分，得到该音频帧的32个能量差分，之后，对于多个音频帧中时序相邻的每两个音频帧，计算上一个音频帧的每个能量差分与下一个音频帧对应的能量差分的差值，得到32个差值，对于这32个差值中的每个差值，当差值大于0时取1，当差值小于0时取0，得到32位音频指纹，再基于音频指纹在音频文件库中进行检索。但Philips算法容易产生伪共振峰问题，导致提取的音频指纹准确性差，影响了对音频文件进行检索的准确性，匹配程度不高。

因此，如何快速并准确识别出当前播放歌曲与个人音频数据库中所保存歌曲的相似度，并据此对个人音频数据库进行维护是亟待解决的一个问题。

发明内容

本发明公开了一种音频数据库的管理方法及系统，能够实现快速并准确识别出当前播放歌曲与个人音频数据库中所保存歌曲的相似度。

所述管理方法具体如下：

采集用户当前所播放的音频数据作为待比对音频数据，所述音频数据来自于网络服务器；

对所述待比对音频数据进行预处理后将其划分为多个子片段，针对所述每个子片段分别提取音频指纹，采用同样的方法对个人音频数据库的音频数据进行子片段划分和音频指纹的提取；

获取待比对音频数据各子片段音频数据的频谱能量以及该子片段的用户点击率，基于所述频谱能量和用户点击率确定该子片段音频指纹对应的权重系数；

基于所述权重系数将待比对音频数据的音频指纹与个人音频数据库中音频数据的音频指纹进行比对，获取二者的相似度值；

基于上述相似度值对个人音频数据库中音频数据进行处理。

所述预处理操作包括音频重采样和音频滤波。

将待比对音频数据划分为n个子片段，其中n为大于2的自然数。每个子片段的权重系数k_i的计算方法如下：k_i＝αE+βR，其中i＝1，2，……，n，E为该子片段的频谱能量，R为该子片段的用户点击率，α，β为相应系数，且满足α+β＝1。

所述基于所述权重系数将待比对音频数据的音频指纹与个人音频数据库中音频数据的音频指纹进行比对，获取二者的相似度值S的具体方法如下：其中，P_i和P′_i分别为待比对音频数据的音频指纹和个人音频数据库中音频数据的音频指纹。

所述基于相似度值对个人音频数据库中音频数据进行处理，包括以下步骤：计算当前所播放的音频数据与个人音频数据库中每一个音频数据的相似度值，将上述相似度值与第一阈值比较，若所有相似度值均小于第一阈值，直接将当前所播放的音频数据保存至个人音频数据库，否则将相似度值大于第二阈值的音频数据按照相似度从高到低的顺序表列并显示给用户，由用户判断是否需要添加当前所播放的音频数据。

本发明还公开了一种音频数据库的管理系统，包括：

采集模块：用于采集用户当前所播放的音频数据作为待比对音频数据，所述音频数据来自于网络服务器；

处理模块：用于对所述待比对音频数据进行预处理后将其划分为多个子片段，针对所述每个子片段分别提取音频指纹，采用同样的方法对个人音频数据库的音频数据进行子片段划分和音频指纹的提取；

权重系数确定模块：获取待比对音频数据各子片段音频数据的频谱能量以及该子片段的用户点击率，基于所述频谱能量和用户点击率确定该子片段音频指纹对应的权重系数；

相似度计算模块：基于所述权重系数将待比对音频数据的音频指纹与个人音频数据库中音频数据的音频指纹进行比对，获取二者的相似度值；

处理模块：用于基于上述相似度值对个人音频数据库中音频数据进行处理。

所述采集模块中的预处理操作包括音频重采样和音频滤波。

所述权重系数确定模块中的权重系数的确定方法如下：将待比对音频数据划分为n个子片段，其中n为大于2的自然数；每个子片段的权重系数记为k_i，k_i＝αE+βR，其中i＝1，2，……，n，E为该子片段的频谱能量，R为该子片段的用户点击率，α，β为相应系数，且满足α+β＝1。

所述相似度计算模块中相似度值的确定方法如下：其中，P_i和P′_i分别为待比对音频数据的音频指纹和个人音频数据库中音频数据的音频指纹。

所述处理模块中基于上述相似度值对个人音频数据库中音频数据进行处理的具体方法如下：计算当前所播放的音频数据与个人音频数据库中每一个音频数据的相似度值，将上述相似度值与第一阈值比较，若所有相似度值均小于第一阈值，直接将当前所播放的音频数据保存至个人音频数据库，否则将相似度值大于第二阈值的音频数据按照相似度从高到低的顺序表列并显示给用户，由用户判断是否需要添加当前所播放的音频数据。

本发明实施例提供的技术方案带来的有益效果是：在更新个人音频数据库时，即基于音频指纹确定两个音频数据是否相同时，首先将音频数据划分为不同的子片段，获取待比对音频数据各子片段音频数据的频谱能量以及该子片段的用户点击率，基于所述频谱能量和用户点击率确定该子片段音频指纹对应的权重系数；基于所述权重系数将待比对音频数据的音频指纹与个人音频数据库中音频数据的音频指纹进行比对，获取二者的相似度值。所述计算音频数据相似度的方法充分将音频数据的特点和用户使用情况考虑在内，能够更准确的计算出两个音频数据之间的相似度。所述方法还将系统自动识别和用户人工识别相结合，有效提高了识别的准确性和效率。

附图说明

图1本发明实施例的一种实施环境示意图；

图2本发明实施例的一种音频数据相似度计算流程图；

图3本发明实施例的一种音频数据库的管理方法流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等。

附图1所示为本发明实施例的一种实施环境示意图，包括终端设备101和网络服务器102。用户通过终端设备101中的音乐播放软件打开来自于网络服务器102的音频数据。

终端设备101中保存有用户个人音频数据库。用户在听音乐时，会根据个人喜好选择对某些歌曲进行下载并保存在个人音频数据库中。

所述管理方法具体如下，首先计算音频数据相似度，具体流程如附图2所示：

步骤101：采集用户当前所播放的音频数据作为待比对音频数据，所述音频数据来自于网络服务器；

用于利用终端设备101，如个人计算机、手持设备或便携式设备、平板型设备等，从网络服务器获取音频数据，网络服务器中针对每个音频数据保存有不同用户的访问历史记录。

步骤102：对所述待比对音频数据进行预处理后将其划分为多个子片段，针对所述每个子片段分别提取音频指纹，采用同样的方法对个人音频数据库的音频数据进行子片段划分和音频指纹的提取；

所述预处理操作包括音频重采样和音频滤波。一般的音频数据都包含噪声，因此，为了更好的提取音频指纹，在提取前需要对音频数据进行音频重采样和音频滤波处理，消除噪声，使得原始音频数据更适于特征提取。

将预处理后的音频数据划分为多个子片段，子片段的划分可基于音频的总时长，音频数据的类型进行划分。

每个子片段音频指纹的提取方法具体如下：

首先，对音频数据进行傅里叶变换，从每帧的频谱中提取能量最大点的位置信息，即频谱峰值点。峰值点的选取包括以下步骤：确定候选峰值点，在候选峰值点中使用阈值向量前向和后向选择峰值点。

其次，以峰值点中的极大值点为中心，确定候选区域，在候选区域中选择两个极值点与极大值点构成三角形向量作为音频指纹。所述候选区域为极大值点后按照时间排序的m个节点，m为大于2的自然数。

将所有的音频指纹映射为整数作为哈希键值，插入到哈希表中。

步骤103：获取待比对音频数据各子片段音频数据的频谱能量以及该子片段的用户点击率，基于所述频谱能量和用户点击率确定该子片段音频指纹对应的权重系数；

音乐的频谱数据具有某些特定的属性，如音乐的副歌部分具有较高的辨识率，通过副歌部分较容易匹配到相同的音乐。

副歌部分的音频通常具有较高的频谱能量幅度值，因而，提高该部分音频指纹的权重系数能够提高音频数据匹配的精度。

同时，音乐爱好者对音乐的副歌部分收听频率相对其他部分也会较高，因此，基于网络服务器中针对每个音频数据保存的访问历史记录，统计网络服务器中当前播放歌曲各个子片段的用户点击率，提高点击频率高的片段的音频指纹的权重系数同样能够提高音频数据匹配的精度。

基于此，将待比对音频数据划分为n个子片段，其中n为大于2的自然数。每个子片段的权重系数k_i的计算方法如下：k_i＝αE+βR，其中i＝1，2，……，n，E为该子片段的频谱能量，R为该子片段的用户点击率，α，β为相应系数，且满足α+β＝1。

通过综合考虑频谱能量和用户点击率确定相应子片段音频指纹的权重系数，能够更好的发挥辨识度高的部分的匹配功能，进一步使得匹配记过更精确。

步骤104：基于所述权重系数将待比对音频数据的音频指纹与个人音频数据库中音频数据的音频指纹进行比对，获取二者的相似度值；

P_i和P′_i可通过哈希表获取。

其次，基于上述相似度值对个人音频数据库中音频数据进行处理。

本发明还公开了一种音频数据库的管理系统，包括：

所述采集模块中的预处理操作包括音频重采样和音频滤波。

在示例性实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，例如存储有计算机程序的存储器，上述计算机程序被处理执行时实现上述实施例中所示的音频文件检索方法。例如，上述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据库的管理方法，具体包括如下步骤：

步骤1)：采集用户当前所播放的音频数据作为待比对音频数据，所述音频数据来自于网络服务器；

步骤2)：对所述待比对音频数据进行预处理后将其划分为多个子片段，针对所述多个子片段分别提取音频指纹，采用同样的方法对个人音频数据库的音频数据进行子片段划分和音频指纹的提取；

步骤3)：获取待比对音频数据各子片段音频数据的频谱能量以及该子片段的用户点击率，基于所述频谱能量和用户点击率确定该子片段音频指纹对应的权重系数；

步骤4)：基于所述权重系数将待比对音频数据的音频指纹与个人音频数据库中音频数据的音频指纹进行比对，获取二者的相似度值；

步骤5)：基于上述相似度值对个人音频数据库中音频数据进行处理。

2.根据权利要求1所述的方法，其特征在于，所述步骤2)中的预处理操作包括音频重采样和音频滤波。

3.根据权利要求1所述的方法，其特征在于，所述步骤3)中的权重系数的确定方法如下：将待比对音频数据划分为n个子片段，其中n为大于2的自然数；每个子片段的权重系数记为k_i，k_i＝αE+βR，其中i＝1，2，……，n，E为该子片段的频谱能量，R为该子片段的用户点击率，α，β为相应系数，且满足α+β＝1。

4.根据权利要求3所述的方法，其特征在于，所述步骤4)中相似度值的确定方法如下：其中，P_i和P_i′分别为待比对音频数据的音频指纹和个人音频数据库中音频数据的音频指纹。

5.根据权利要求1所述的方法，其特征在于，所述步骤5)中基于上述相似度值对个人音频数据库中音频数据进行处理的具体方法如下：计算当前所播放的音频数据与个人音频数据库中每一个音频数据的相似度值，将上述相似度值与第一阈值比较，若所有相似度值均小于第一阈值，直接将当前所播放的音频数据保存至个人音频数据库，否则将相似度值大于第二阈值的音频数据按照相似度从高到低的顺序表列并显示给用户，由用户判断是否需要添加当前所播放的音频数据。

6.一种音频数据库的管理系统，包括：

处理模块：用于对所述待比对音频数据进行预处理后将其划分为多个子片段，针对所述多个子片段分别提取音频指纹，采用同样的方法对个人音频数据库的音频数据进行子片段划分和音频指纹的提取；

7.根据权利要求6所述的系统，其特征在于，采集模块中的预处理操作包括音频重采样和音频滤波。

8.根据权利要求6所述的系统，其特征在于，权重系数确定模块中的权重系数的确定方法如下：将待比对音频数据划分为n个子片段，其中n为大于2的自然数；每个子片段的权重系数记为k_i，k_i＝αE+βR，其中i＝1，2，……，n，E为该子片段的频谱能量，R为该子片段的用户点击率，α，β为相应系数，且满足α+β＝1。

9.根据权利要求8所述的系统，其特征在于，所述相似度计算模块中相似度值的确定方法如下：其中，P_i和P_i′分别为待比对音频数据的音频指纹和个人音频数据库中音频数据的音频指纹。

10.根据权利要求6所述的系统，其特征在于，所述处理模块中基于上述相似度值对个人音频数据库中音频数据进行处理的具体方法如下：计算当前所播放的音频数据与个人音频数据库中每一个音频数据的相似度值，将上述相似度值与第一阈值比较，若所有相似度值均小于第一阈值，直接将当前所播放的音频数据保存至个人音频数据库，否则将相似度值大于第二阈值的音频数据按照相似度从高到低的顺序表列并显示给用户，由用户判断是否需要添加当前所播放的音频数据。