CN112732972B

CN112732972B - 一种音频指纹生成系统及方法

Info

Publication number: CN112732972B
Application number: CN202011547042.9A
Authority: CN
Inventors: 曹杰; 申冬琴; 王昌辉; 刘金良
Original assignee: Yunjing Business Intelligence Research Institute Nanjing Co ltd; Nanjing University of Finance and Economics
Current assignee: Yunjing Business Intelligence Research Institute Nanjing Co ltd; Nanjing University of Finance and Economics
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-10-27
Anticipated expiration: 2040-12-24
Also published as: CN112732972A

Abstract

本发明公开了一种音频指纹生成系统及方法，首先对目标音频进行离散傅里叶变换，得到所述目标音频相关数据；然后将所述目标音频相关数据组合为对应的二维信号强度矩阵，在所述二维信号强度矩阵中确定极值和所述极值的时间频率信息，最后调用组合锚点原则对所述极值对应的时间频率信息进行分析，得到目标音频的音频指纹；所述音频指纹生成系统包括数据采集模块、颜色图像生成模块、信号强度极值模块、组合锚点分析模块和数据库添加单元；本发明采用组合锚点原则可以进一步扩大音频指纹的哈希空间，降低指纹间碰撞的概率，增加了音频指纹的匹配速度；进一步降低数据库的大小有助于后续的数据库并行查找，大大缩短了指纹检索时间。

Description

一种音频指纹生成系统及方法

技术领域

本发明涉及音频数据处理技术领域，主要涉及一种音频指纹生成系统及方法。

背景技术

随着人们生活水平和鉴赏水平的不断提高，对音乐的追求也在不断提高，可面对海量的音频资源时，即使听到自己喜欢的音乐，也无法有效的确定歌曲信息，因此，最初的音频指纹技术应运而生。音频指纹技术指的是根据一定原则从目标音频提取指纹的方法，音频指纹包含了目标音频的特征信息，通过将测试音频指纹与数据库中的音频指纹进行比较，来确定歌曲之间的相似度，最终获得所需的歌曲信息，日常应用如：听歌识曲。同样，因为音频指纹可以确定歌曲之间的相似度，所以音频指纹技术也可以用作版权保护，来确定目标是否侵权。

目前市场上现有的音频指纹技术，数据库的体积会很大，相应的查询时间也会很高。目前缺少一种高效的音频指纹技术。

发明内容

发明目的：本发明提供了一种音频指纹生成系统及方法，可以在降低数据库大小和搜索时间的基础上有效识别目标音频。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种音频指纹生成方法，包括以下步骤：

步骤S1、读取目标音频数据，将目标音频数据分割成若干重叠帧，对所述重叠帧分别进行离散傅里叶变换，获取目标音频的时频及信号强度信息；

步骤S2、将所述目标音频的时频及信号强度信息组合为对应的二维信号强度矩阵；其中信号强度信息即为该矩阵的值，时频信息即为该矩阵的标签；在所述二维信号强度矩阵中确定极值和所述极值的时频信息；

步骤S3、基于组合锚点原则，对所述极值的时频信息进行分析，获取目标音频的音频指纹；具体地，

步骤S3.1、将所述极值对应的时频信息按照时间优先原则进行排序，转化为有序的一维时频序列；

步骤S3.2、对该有序序列应用组合锚点原则，将锚点分为奇锚点组和偶锚点组两组，每个锚点组由M个锚点构成；

步骤S3.3、确定目标区域；所述目标区域的边界与最后一个锚点相距不小于预设阈值N；

步骤S3.4、根据摘要算法，依据各锚点的频率和时间差，生成字符串如下：

锚点1频率|锚点2频率…|时间差1|时间差2…

对上述字符串进行处理生成相应的哈希指纹，并对上述字符串加上锚点1的时间，构成如下形式：

(摘要算法(锚点1频率|锚点2频率…|时间差1|时间差2…)，锚点1时间)

按照上述规则，对所述有序一维时频序列进行处理，即可得到目标音频的音频指纹；

步骤S4、根据步骤S3中划分的奇锚点组和偶锚点组，分别创建奇数据库和偶数据库，用于存储所述目标音频的奇锚点组和偶锚点组音频指纹。

进一步地，在对音频指纹进行搜索时，对所述奇偶两个数据库进行并行查询，当其中一个数据库的连续匹配项达到设定阈值K后，放弃对另一个数据库的查询。

进一步地，所述预设阈值K的取值优选为5。

进一步地，所述步骤S1中对目标音频数据的处理过程具体如下：

对原始音频数据进行加窗操作，窗口函数选取汉明窗，窗口大小设为4096；每次加窗操作后进行离散傅里叶变换，得到一列固定时间下，不同频率下的信号强度数据；对整个目标音频数据进行上述操作，最后得到多列时频和信号强度信息；其中离散傅里叶变化公式如下：

进一步地，所述步骤S2中确定极值和所述极值的时频信息具体方法如下：

取一个n*n的辅助矩阵，以辅助矩阵的中心为标记，在二维信号强度矩阵中按行移动，当位于辅助矩阵中心的点的值比其他在辅助矩阵范围内点的值都大时，将该点确定为极值点，该点的时频信息即为极值的时频信息。

进一步地，所述步骤S3中每个锚点组的锚点个数M大于1。

一种采用上述音频指纹生成方法的音频指纹生成系统，包括：数据采集模块、颜色图像生成模块、信号强度极值模块；组合锚点分析模块和数据库添加单元；

所述数据采集模块采集目标音频数据，并对目标音频数据进行离散傅里叶变换，获取目标音频的时频及信号强度信息；所述颜色图像生成模块根据特定时间频率下信号强度的数据组合为对应的色差信息图像；信号强度极值模块用于在所述二维信号强度矩阵中确定极值和所述极值的时频信息；所述组合锚点分析模块包括排序单元和音频指纹生成单元；所述排序单元用于对极值对应的时间频率信息进行预设优先原则进行排序，生成一维有序的时间频率序列；所述音频指纹生成单元用于将所述一维有序的时间频率序列分为奇锚点组和偶锚点组，取相应锚点的频率和时间差值生成目标音频的音频指纹；所述数据库添加单元根据划分好的奇锚点组和偶锚点组分别创建奇数据库和偶数据库，用于存储所述目标音频的奇锚点组和偶锚点组音频指纹。

有益效果：

(1)本发明采用组合锚点原则可以进一步扩大音频指纹的哈希空间，降低指纹间碰撞的概率，增加了音频指纹的匹配速度。

(2)本发明中音频指纹分成多个类别的锚点组生成，进一步降低数据库的大小，同时可以将其分为不同的数据库进行存储，有助于后续的数据库并行查找。

(3)由于组合锚点原则的设计，这里数据库并行查找成为可能，提高了目标音频指纹匹配的速度。

(4)本发明设计了相应的搜索规则，在后续检索时无需全部检索所有备选数据库，大大缩短了检索时间。

附图说明

图1是本发明提供的一种音频指纹的生成方法流程图；

图2是本发明提供的多锚点组音频指纹生成方法流程图；

图3是本发明提供的一种音频指纹在数据中添加指纹的方法流程图；

图4是本发明提供的一种组合锚点的生成方法的流程图；

图5是本发明提供的一种音频指纹生成系统的结构示意图；

图6是本发明实施例提供的仿真实验过滤后光谱图；

图7是本发明实施例提供的仿真实验歌曲匹配指纹个数图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示的一种音频指纹生成方法，包括如下步骤：

步骤S1、读取目标音频数据，将目标音频数据分割成若干重叠帧，对重叠帧分别进行离散傅里叶变换，获取目标音频的时频及信号强度信息。

人们通常“看到”的音频是以波形的形式展现，但实际上波形形式对于音频的分析不是很有效。光谱图是一种更加有效的表示方式，它显示了特定频率上的信号强度如何随时间变化。本发明首先读取音频数据，将原始音频数据分割成许多重叠的帧并对它们进行傅里叶变化("离散傅里叶变换")来得到时频和信号强度信息。这里原始音频数据来源分为从硬盘读取(无噪声)，从麦克风录制(有噪声)。例如，对原始音频数据进行加窗操作，窗口函数可以选取汉明窗，窗口大小设为4096，每次加窗操作后进行离散傅里叶变换得到一列固定时间下，不同频率下的信号强度数据,为了使该过程更加高效、快速，这里使用快速傅里叶变化来计算离散傅里叶变化。对整个原始音频数据进行上述操作，最后得到多列时频和信号强度信息。离散傅里叶变化公式如下：

这里具体解释上式各字符含义：

·x[k]表示音频的第k个时域信号

@N表示所使用的滑动窗口大小

·X(n)表示音频的第n个频域信号

步骤S2、将目标音频的时频及信号强度信息组合为对应的二维信号强度矩阵；其中信号强度信息即为该矩阵的值，时频信息即为该矩阵的标签。在二维信号强度矩阵中确定极值和所述极值的时频信息。

虽然光谱图是一种更加有效的表示方式，但为了便于对确定极值和极值所对应的时间频率信息，这里根据所述时频和信号强度信息组合成对应的二维信号强度矩阵。那么提取光谱图中的信号强度极大值，就转化为了提取二维信号强度矩阵中的极大值(“峰值”)。极大值意为提取的值要比其一定相邻范围内的值都要大。具体地，例如，取一个n*n的辅助矩阵，以辅助矩阵的中心为标记，在二维信号强度矩阵中一行接着一行地移动，当位于辅助矩阵中心的点的值要比其他在辅助矩阵范围内点的值都要大时，就可以确定该点为“峰值”。对于辅助矩阵的大小，还要根据具体情况进行相应调整。比如，音频的噪声越少，所需要的指纹也就可以越少，窗口大小就要相应增加。另外，辅助矩阵的存在也是为了使极值点相对离散，避免出现极值点出现在相距太近，使数据失去其代表性。

执行完极值的提取，就相当于将原本时频和信号强度三维的信息降低为只有时间频率两维信息，这样便于进行下一步的分析，如图2-4所示。

步骤S3、基于组合锚点原则，对所述极值的时频信息进行分析，获取目标音频的音频指纹。具体地，

步骤S3.1、将极值对应的时频信息按照时间优先原则进行排序，转化为有序的一维时频序列。

步骤S3.2、对该有序序列应用组合锚点原则，将锚点分为奇锚点组和偶锚点组两组，每个锚点组由M个锚点构成。锚点个数M大于1。例如，一个有序序列的序号为0，1，2，3，4，5，6…，如果每个锚点组的锚点个数为二，那么第一个奇锚点组的锚点就为锚点1和锚点3，相应的，第一个偶锚点组的锚点就为锚点0和锚点2。

需要说明的是，本发明采用奇偶形式区分组合锚点。实际实施过程中，可以分为三个锚点组，甚至更多。对应分配的数据库也就为三个及以上。上述奇锚点组和偶锚点组的说明仅仅是其中一种实施。

步骤S3.3、确定目标区域；所述目标区域的边界与最后一个锚点相距不小于预设阈值N。确定了相应的锚点组，还需要确定相应的目标区域，目标区域的确定增加了指纹的鲁棒性，减少指纹之间的相互碰撞。这里目标区域需要与锚点组中最后一个锚点相距一定的距离，相距过近，锚点与目标区域中的点的时间相似程度就会很高，这样就会增加指纹间碰撞的几率。例如，目标区域的大小设置为10，目标区域与锚点组中最后一个点的距离为5。同样，目标区域的大小和锚点组的距离都要根据音频含有的噪声程度而适当进行调整。

锚点1频率|锚点2频率…|时间差1|时间差2…

由上述规则可知，根据组合锚点原则分为奇偶两个部分的指纹。因此我们也可以分为奇偶两个数据库，分别存储奇锚点组指纹和偶锚点组指纹。之后，就可以对两个数据库进行并行查询，查询速度提高近一倍。同时由于组合锚点原则的存在，在进行数据库查询时，当其中一个数据库中匹配指纹的个数达到一定阈值时，就可以放弃对另一个数据库的搜索，进一步提高了数据库查询速度。

在对音频指纹进行搜索时，对所述奇偶两个数据库进行并行查询，当其中一个数据库的连续匹配项达到设定阈值K后，放弃对另一个数据库的查询。此处设定阈值K优选为5。

如图5所示的一种音频指纹生成系统，包括：数据采集模块、颜色图像生成模块、信号强度极值模块；组合锚点分析模块和数据库添加单元；

数据采集模块采集目标音频数据，并对目标音频数据进行离散傅里叶变换，获取目标音频的时频及信号强度信息。颜色图像生成模块根据特定时间频率下信号强度的数据组合为对应的色差信息图像。信号强度极值模块用于在所述二维信号强度矩阵中确定极值和极值的时频信息。组合锚点分析模块包括排序单元和音频指纹生成单元。排序单元用于对极值对应的时间频率信息进行预设优先原则进行排序，生成一维有序的时间频率序列。音频指纹生成单元用于将所述一维有序的时间频率序列分为奇锚点组和偶锚点组，取相应锚点的频率和时间差值生成目标音频的音频指纹。数据库添加单元根据划分好的奇锚点组和偶锚点组分别创建奇数据库和偶数据库，用于存储目标音频的奇锚点组和偶锚点组音频指纹。

如图6所示为本发明实施例中提供的仿真实验过滤后光谱图，可以清晰找出极值点，并对其进行后续音频指纹分析。

如图7所示为本发明实施例提供的仿真实验歌曲匹配指纹个数图。根据该图可以证实本发明的具体技术效果，本发明实施例提供的仿真实验是以18首12s的音频片段进行测试的，可以清晰地看出每一首歌都有一定数量的音频指纹得到了匹配，也就意味着该测试音频匹配到了相应的音频源，达到了本发明的目的。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频指纹生成方法，其特征在于，包括以下步骤：

锚点1频率|锚点2频率…|时间差1|时间差2…

2.根据权利要求1所述的一种音频指纹生成方法，其特征在于，在对音频指纹进行搜索时，对所述奇偶两个数据库进行并行查询，当其中一个数据库的连续匹配项达到设定阈值K后，放弃对另一个数据库的查询。

3.根据权利要求2所述的一种音频指纹生成方法，其特征在于，所述预设阈值K的取值优选为5。

4.根据权利要求1所述的一种音频指纹生成方法，其特征在于，所述步骤S1中对目标音频数据的处理过程具体如下：

5.根据权利要求1所述的一种音频指纹生成方法，其特征在于，所述步骤S2中确定极值和所述极值的时频信息具体方法如下：

6.根据权利要求1所述的一种音频指纹生成方法，其特征在于，所述步骤S3中每个锚点组的锚点个数M大于1。

7.一种基于权利要求1-6中任一项所述音频指纹生成方法的音频指纹生成系统，其特征在于，包括：数据采集模块、颜色图像生成模块、信号强度极值模块、组合锚点分析模块和数据库添加单元；