CN104050259A

CN104050259A - 一种基于som算法的音频指纹提取方法

Info

Publication number: CN104050259A
Application number: CN201410266868.6A
Authority: CN
Inventors: 余小清; 汪文根; 熊玮; 万旺根; 王牧昕
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2014-06-16
Filing date: 2014-06-16
Publication date: 2014-09-17

Abstract

本发明涉及一种使用于音乐检索系统的音频指纹提取方法。该发明属于基于内容的音乐检索技术领域，具体为一种基于SOM（自组织特征映射）算法的音频指纹提取方法。本发明主要完成在音频指纹系统中实现音频指纹的提取功能，本方法首先将时域音频信号转化为频域信号，然后提取频域信号的能量信息，最后获得相关音频特征。为了减少音频特征的数据量，减少存储音频所需的存储空间，提高数据的检索效率，采用了SOM算法实现对音频特征数据的降维处理。本发明能够有效的在移动嵌入式设备上运行实现，具有执行速度快、指纹数据量较少、音频检索速度快等特点。

Description

一种基于SOM算法的音频指纹提取方法

技术领域

本发明涉及基于内容的音频指纹领域，具体涉及一种基于SOM算法的音频指纹提取方法。

背景技术

音频指纹是指基于内容的引用检测技术领域，可以代表一段音乐重要声学特征的基于内容的紧致的数字签名，其主要目的是建立一种有效的机制来比较两个音频数据的感知和听觉质量的相似程度，使人们可以仅仅通过一个没有任何文本标记的音频片段，便可以得到和该音频片段相关的元数据，如音频的名字。这里不是直接比较通常很大的音频数据本身，而是比较其相应通常较小的数字指纹。大量音频数据的指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中，并采用指纹作为相应元数据的索引。

音频指纹有着较多好处，具体来说。首先：因为指纹占用的存储空间远小于音频数据本身，这样可以节省很多的计算和内存要求。其次，指纹往往保留了音频数据在听觉感知上的一些不变特性，因此，能够在音频遭受到信号攻击后，数据本身遭到破坏，而感知特性变化较小时，依然可以进行有效比对。最后，保持指纹的数据库往往远小于媒体数据库，这样可以进行高效的搜索。音频指纹现在已经有着很多发展较为明朗的商业应用场景，主要如下：音频识别、内容完整性校验、广播监听等领域。

发明内容

本发明的目的在于针对已有技术存在的不足，提供一种基于SOM算法的音频指纹提取方法，是一种鲁棒的音频指纹提取算法，其巧妙地利用了SOM算法的特性，有效地提高了音频特征的紧致程度，最终实现对音频指纹数据的降维，减少音频指纹的数据量，提高检索效率。本发明的实现步骤包括指纹的构造过程。

如图1所示，具体的指纹构造过程如下：

步骤1 将输入的音频信号转化为单声道：对输入的音频信号做基本的预处理，将音频信号数据归一化，提取标准的PCM音频信号对其做判断，如果此音频信号不是单声道，则将此音频信号数据转换为单声道。

步骤2 将音频信号统一到8kHz采样率：判断转换后的音频信号的采样率是否大于8kHz，如果大于8kHz，则通过FIR滤波器将其降采样到8kHz。

步骤3 重叠分帧并加汉明窗：将归一化后的音频信号进行重叠分帧，每帧帧长为0.256秒，按照相邻帧重叠率为31/32做分帧处理，然后对处理后的音频信号加汉明窗。

步骤4 FFT时频变换：对分帧的音频信号进行时频变换，通过2048位的FFT变换来实现该转换，最终获得2048位的频域系数。

步骤5 获取低1024位特征数据：考虑4kHz以下的能量点作为该指纹的音频特征，将2048位的频域系数中的低1024位系数作为该指纹的音频特征数据。

步骤6 计算特征数据的SOM特征：其步骤为

1) 将获取的低位的1024位特征值初始化为向量，设所选择的帧数为，故每位均为维，即

同时初始化的权值向量（可依照经验选取）：

2) 分别对和按照式（1）和式（2）进行归一化处理得到结果和：

（1）

其中：

归一化权值向量（2）

其中：

3) 从向量中选取样本及其对应权值向量样本，按照式（3）计算其欧式距离：

（3）

其中： n 为迭代次数，表示第 n 次迭代所对应的权值。

4) 通过式（4）计算欧式距离最小的标准，来获取输出矩阵，从而实现矩阵的降维过程。

（4）

其中，和为满足式(4)的特征向量和权值向量，由此构成新的降维矩阵。

5) 按照式（5）更新参数，通过式（6）更新权值向量。

（5）

（6）

其中，n表示迭代次数。

6) 按照式（7）对更新后的权值向量重新进行归一化处理。

（7）

其中

7) 判断输出矩阵的大小是否等于32个向量，如果等于则结束迭代，如果大于则回到3）中继续迭代。

步骤7 相邻帧比对，获得二进制指纹：由步骤6中的7），当输出矩阵的大小等于32个向量，将最终获得的32个特征值设为，依据公式（8）计算相邻帧之间指纹的符号差异，作为最终的存储数据，就的到了二进制指纹。

（8）

其中M为子帧内数据的个数，这里为32。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：

1. 提高了音频特征的紧致程度，减少了音频特征的数据量，从而提高了将其用于音频检索中的效率。

2. 实现了对音频指纹数据的降维，减少存储音频所需的存储空间。

3. 能够有效地在移动嵌入式设备上运行实现，执行速度快。

附图说明

图1是基于SOM算法的指纹提取流程图。

图2是将基于SOM算法的指纹用于音频检索的正确率示意图。

具体实施方式

本发明一种基于SOM算法的音频指纹提取方法的一个优选实施例结合附图说明如下，需要依照发明内容中的5个步骤来操做，其中具体的匹配过程步骤为：

在匹配过程中，首先将获取一段未知的需要匹配的音频数据，通过相同的构造方法计算出该音频片段的指纹，然后与数据库中的已经计算好的已知音频的指纹进行匹配。因为，使用的是0/1串作为音频指纹最后的存储形式，所以，使用汉明距离作为距离的测量标准。因此误码率（BER）作为该指纹匹配过程的评价标准。

匹配过程中，其具体实现方法如下：设M代表数据库中的歌曲数，则其中第k首歌指纹就可以表示为，同样，需要检索的指纹片段记为。通常，在检索时，不用使用整个音频片段来提取音频指纹，只需去音频中的子片段来提取指纹，然后再匹配。在该算法中，一般取256个帧获取的指纹片段来实现检索，那么N的大小是32×256。然后，对该指纹片段到数据库中进行匹配检索。在检索时，采用误码率（汉明距离/N）作为衡量两个指纹序列之间的相似性。使提取的待检索指纹块在数据库中滑动比对，最终获得BER最小值的音频片段为检索片段，然后输出该片段的相关数据信息，该信息在构建数据库时已经标注。因此，就获得了该音频片段的元信息，实现了对该音频的检索。

实验结果

为了验证该方法的有效性，本发明进行了如下实验。在实验中，首先建立了一个包含2000首音乐的数据库，并按照上文提出的方法提取指纹。原始的音频数据采用的是wav格式，单声道,采样率为44.1kHz，码率为64Kbps。在进行音频检索时，为了在检索鲁棒性和检索效率之间一个折中，我们使用100首6秒长的音频片段作为需要识别的片段去测试。然后对音频片段添加白噪声进行检索，实验中的信噪比分别为15dB、10dB、5dB、0dB；另外对在实验室环境录制的音乐片段进行检索，其信噪比为10db~15dB，用检索的正确率来评估基于SOM算法的音频指纹的性能，其正确率的计算公式为：

上述情况的音频指纹提取方法的检索正确率如图2所示。实验结果表明：本系统能够在日常生活环境中正常使用，能够满足人们在实际中对音乐检索的需要。

本指纹提取方法与常规的音频指纹提取方法比较起来，其特点是该方法具有指纹提取效率高，指纹数据量小，检索速度快等优点。同时也能够满足常规的音乐检索需要，因此具有更大的实用价值。

Claims

1.一种基于SOM算法的音频指纹提取方法，其特征在于具体步骤如下：

步骤1 将输入的音频信号转化为单声道：对输入的音频信号做基本的预处理，将音频信号数据归一化，提取标准的PCM音频信号对其做判断，如果此音频信号不是单声道，则将此音频信号数据转换为单声道；

步骤2 将音频信号统一到8kHz采样率：判断转换后的音频信号的采样率是否大于8kHz，如果大于8kHz，则通过FIR滤波器将其降采样到8kHz；

步骤3 重叠分帧并加汉明窗：将归一化后的音频信号进行重叠分帧，每帧帧长为0.256秒，按照相邻帧重叠率为31/32做分帧处理，然后对处理后的音频信号加汉明窗；

步骤4 FFT时频变换：对分帧的音频信号进行时频变换，通过2048位的FFT变换来实现该转换，最终获得2048位的频域系数；

步骤5 获取低1024位特征数据：考虑4kHz以下的能量点作为该指纹的音频特征，将2048位的频域系数中的低1024位系数作为该指纹的音频特征数据；

步骤6 计算特征数据的SOM特征：其步骤为

将获取的低位的1024位特征值初始化为向量，设所选择的帧数为，故每位均为维，即

同时初始化的权值向量（可依照经验选取）：

分别对和按照式（1）和式（2）进行归一化处理得到结果和：

（1）

其中：

归一化权值向量（2）

其中：

从向量中选取样本及其对应权值向量样本，按照式（3）计算其欧式距离：

（3）

其中：n为迭代次数，表示第 n 次迭代所对应的权值；

通过式（4）计算欧式距离最小的标准，来获取输出矩阵，从而实现矩阵的降维过程；

（4）

其中，和为满足式(4)的特征向量和权值向量，由此构成新的降维矩阵；

按照式（5）更新参数，通过式（6）更新权值向量；

（5）

（6）

其中，n表示迭代次数；

按照式（7）对更新后的权值向量重新进行归一化处理；

（7）

其中

判断输出矩阵的大小是否等于32个向量，如果等于则结束迭代，如果大于则回到3）中继续迭代；

步骤7 相邻帧比对，获得二进制指纹：由步骤6中的7），当输出矩阵的大小等于32个向量，将最终获得的32个特征值设为，依据公式（8）计算相邻帧之间指纹的符号差异，作为最终的存储数据，就的到了二进制指纹；

（8）

其中M为子帧内数据的个数，这里为32。