CN104050259A - 一种基于som算法的音频指纹提取方法 - Google Patents
一种基于som算法的音频指纹提取方法 Download PDFInfo
- Publication number
- CN104050259A CN104050259A CN201410266868.6A CN201410266868A CN104050259A CN 104050259 A CN104050259 A CN 104050259A CN 201410266868 A CN201410266868 A CN 201410266868A CN 104050259 A CN104050259 A CN 104050259A
- Authority
- CN
- China
- Prior art keywords
- audio
- fingerprint
- frame
- sound signal
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Abstract
本发明涉及一种使用于音乐检索系统的音频指纹提取方法。该发明属于基于内容的音乐检索技术领域,具体为一种基于SOM(自组织特征映射)算法的音频指纹提取方法。本发明主要完成在音频指纹系统中实现音频指纹的提取功能,本方法首先将时域音频信号转化为频域信号,然后提取频域信号的能量信息,最后获得相关音频特征。为了减少音频特征的数据量,减少存储音频所需的存储空间,提高数据的检索效率,采用了SOM算法实现对音频特征数据的降维处理。本发明能够有效的在移动嵌入式设备上运行实现,具有执行速度快、指纹数据量较少、音频检索速度快等特点。
Description
技术领域
本发明涉及基于内容的音频指纹领域,具体涉及一种基于SOM算法的音频指纹提取方法。
背景技术
音频指纹是指基于内容的引用检测技术领域,可以代表一段音乐重要声学特征的基于内容的紧致的数字签名,其主要目的是建立一种有效的机制来比较两个音频数据的感知和听觉质量的相似程度,使人们可以仅仅通过一个没有任何文本标记的音频片段,便可以得到和该音频片段相关的元数据,如音频的名字。这里不是直接比较通常很大的音频数据本身,而是比较其相应通常较小的数字指纹。大量音频数据的指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中,并采用指纹作为相应元数据的索引。
音频指纹有着较多好处,具体来说。首先:因为指纹占用的存储空间远小于音频数据本身,这样可以节省很多的计算和内存要求。其次,指纹往往保留了音频数据在听觉感知上的一些不变特性,因此,能够在音频遭受到信号攻击后,数据本身遭到破坏,而感知特性变化较小时,依然可以进行有效比对。最后,保持指纹的数据库往往远小于媒体数据库,这样可以进行高效的搜索。音频指纹现在已经有着很多发展较为明朗的商业应用场景,主要如下:音频识别、内容完整性校验、广播监听等领域。
发明内容
本发明的目的在于针对已有技术存在的不足,提供一种基于SOM算法的音频指纹提取方法,是一种鲁棒的音频指纹提取算法,其巧妙地利用了SOM算法的特性,有效地提高了音频特征的紧致程度,最终实现对音频指纹数据的降维,减少音频指纹的数据量,提高检索效率。本发明的实现步骤包括指纹的构造过程。
如图1所示,具体的指纹构造过程如下:
步骤1 将输入的音频信号转化为单声道:对输入的音频信号做基本的预处理,将音频信号数据归一化,提取标准的PCM音频信号对其做判断,如果此音频信号不是单声道,则将此音频信号数据转换为单声道。
步骤2 将音频信号统一到8kHz采样率:判断转换后的音频信号的采样率是否大于8kHz,如果大于8kHz,则通过FIR滤波器将其降采样到8kHz。
步骤3 重叠分帧并加汉明窗:将归一化后的音频信号进行重叠分帧,每帧帧长为0.256秒,按照相邻帧重叠率为31/32做分帧处理,然后对处理后的音频信号加汉明窗。
步骤4 FFT时频变换:对分帧的音频信号进行时频变换,通过2048位的FFT变换来实现该转换,最终获得2048位的频域系数。
步骤5 获取低1024位特征数据:考虑4kHz以下的能量点作为该指纹的音频特征,将2048位的频域系数中的低1024位系数作为该指纹的音频特征数据。
步骤6 计算特征数据的SOM特征:其步骤为
1) 将获取的低位的1024位特征值 初始化为向量,设所选择的帧数为,故每位均为维,即
同时初始化的权值向量(可依照经验选取):
2) 分别对和按照式(1)和式(2)进行归一化处理得到结果和:
(1)
其中:
归一化权值向量 (2)
其中:
3) 从向量中选取样本及其对应权值向量样本,按照式(3)计算其欧式距离:
(3)
其中: n 为迭代次数,表示第 n 次迭代所对应的权值。
4) 通过式(4)计算欧式距离最小的标准,来获取输出矩阵,从而实现矩阵的降维过程。
(4)
其中,和为满足式(4)的特征向量和权值向量,由此构成新的降维矩阵。
5) 按照式(5)更新参数,通过式(6)更新权值向量。
(5)
(6)
其中,n表示迭代次数。
6) 按照式(7)对更新后的权值向量重新进行归一化处理。
(7)
其中
7) 判断输出矩阵的大小是否等于32个向量,如果等于则结束迭代,如果大于则回到3)中继续迭代。
步骤7 相邻帧比对,获得二进制指纹:由步骤6中的7),当输出矩阵的大小等于32个向量,将最终获得的32个特征值设为,依据公式(8)计算相邻帧之间指纹的符号差异,作为最终的存储数据,就的到了二进制指纹。
(8)
其中M为子帧内数据的个数,这里为32。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著技术进步:
1. 提高了音频特征的紧致程度,减少了音频特征的数据量,从而提高了将其用于音频检索中的效率。
2. 实现了对音频指纹数据的降维,减少存储音频所需的存储空间。
3. 能够有效地在移动嵌入式设备上运行实现,执行速度快。
附图说明
图1是基于SOM算法的指纹提取流程图。
图2是将基于SOM算法的指纹用于音频检索的正确率示意图。
具体实施方式
本发明一种基于SOM算法的音频指纹提取方法的一个优选实施例结合附图说明如下,需要依照发明内容中的5个步骤来操做,其中具体的匹配过程步骤为:
在匹配过程中,首先将获取一段未知的需要匹配的音频数据,通过相同的构造方法计算出该音频片段的指纹,然后与数据库中的已经计算好的已知音频的指纹进行匹配。因为,使用的是0/1串作为音频指纹最后的存储形式,所以,使用汉明距离作为距离的测量标准。因此误码率(BER)作为该指纹匹配过程的评价标准。
匹配过程中,其具体实现方法如下:设M代表数据库中的歌曲数,则其中第k首歌指纹就可以表示为,同样,需要检索的指纹片段记为。通常,在检索时,不用使用整个音频片段来提取音频指纹,只需去音频中的子片段来提取指纹,然后再匹配。在该算法中,一般取256个帧获取的指纹片段来实现检索,那么N的大小是32×256。然后,对该指纹片段到数据库中进行匹配检索。在检索时,采用误码率(汉明距离/N)作为衡量两个指纹序列之间的相似性。使提取的待检索指纹块在数据库中滑动比对,最终获得BER最小值的音频片段为检索片段,然后输出该片段的相关数据信息,该信息在构建数据库时已经标注。因此,就获得了该音频片段的元信息,实现了对该音频的检索。
实验结果
为了验证该方法的有效性,本发明进行了如下实验。在实验中,首先建立了一个包含2000首音乐的数据库,并按照上文提出的方法提取指纹。原始的音频数据采用的是wav格式,单声道,采样率为44.1kHz,码率为64Kbps。在进行音频检索时,为了在检索鲁棒性和检索效率之间一个折中,我们使用100首6秒长的音频片段作为需要识别的片段去测试。然后对音频片段添加白噪声进行检索,实验中的信噪比分别为15dB、10dB、5dB、0dB;另外对在实验室环境录制的音乐片段进行检索,其信噪比为10db~15dB,用检索的正确率来评估基于SOM算法的音频指纹的性能,其正确率的计算公式为:
上述情况的音频指纹提取方法的检索正确率如图2所示。实验结果表明:本系统能够在日常生活环境中正常使用,能够满足人们在实际中对音乐检索的需要。
本指纹提取方法与常规的音频指纹提取方法比较起来,其特点是该方法具有指纹提取效率高,指纹数据量小,检索速度快等优点。同时也能够满足常规的音乐检索需要,因此具有更大的实用价值。
Claims (1)
1.一种基于SOM算法的音频指纹提取方法,其特征在于具体步骤如下:
步骤1 将输入的音频信号转化为单声道:对输入的音频信号做基本的预处理,将音频信号数据归一化,提取标准的PCM音频信号对其做判断,如果此音频信号不是单声道,则将此音频信号数据转换为单声道;
步骤2 将音频信号统一到8kHz采样率:判断转换后的音频信号的采样率是否大于8kHz,如果大于8kHz,则通过FIR滤波器将其降采样到8kHz;
步骤3 重叠分帧并加汉明窗:将归一化后的音频信号进行重叠分帧,每帧帧长为0.256秒,按照相邻帧重叠率为31/32做分帧处理,然后对处理后的音频信号加汉明窗;
步骤4 FFT时频变换:对分帧的音频信号进行时频变换,通过2048位的FFT变换来实现该转换,最终获得2048位的频域系数;
步骤5 获取低1024位特征数据:考虑4kHz以下的能量点作为该指纹的音频特征,将2048位的频域系数中的低1024位系数作为该指纹的音频特征数据;
步骤6 计算特征数据的SOM特征:其步骤为
将获取的低位的1024位特征值 初始化为向量,设所选择的帧数为,故每位均为维,即
同时初始化的权值向量(可依照经验选取):
分别对和按照式(1)和式(2)进行归一化处理得到结果和:
(1)
其中:
归一化权值向量 (2)
其中:
从向量中选取样本及其对应权值向量样本,按照式(3)计算其欧式距离:
(3)
其中:n为迭代次数,表示第 n 次迭代所对应的权值;
通过式(4)计算欧式距离最小的标准,来获取输出矩阵,从而实现矩阵的降维过程;
(4)
其中,和为满足式(4)的特征向量和权值向量,由此构成新的降维矩阵;
按照式(5)更新参数,通过式(6)更新权值向量;
(5)
(6)
其中,n表示迭代次数;
按照式(7)对更新后的权值向量重新进行归一化处理;
(7)
其中
判断输出矩阵的大小是否等于32个向量,如果等于则结束迭代,如果大于则回到3)中继续迭代;
步骤7 相邻帧比对,获得二进制指纹:由步骤6中的7),当输出矩阵的大小等于32个向量,将最终获得的32个特征值设为,依据公式(8)计算相邻帧之间指纹的符号差异,作为最终的存储数据,就的到了二进制指纹;
(8)
其中M为子帧内数据的个数,这里为32。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410266868.6A CN104050259A (zh) | 2014-06-16 | 2014-06-16 | 一种基于som算法的音频指纹提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410266868.6A CN104050259A (zh) | 2014-06-16 | 2014-06-16 | 一种基于som算法的音频指纹提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104050259A true CN104050259A (zh) | 2014-09-17 |
Family
ID=51503091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410266868.6A Pending CN104050259A (zh) | 2014-06-16 | 2014-06-16 | 一种基于som算法的音频指纹提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104050259A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992713A (zh) * | 2015-05-14 | 2015-10-21 | 电子科技大学 | 一种快速广播音频比对方法 |
CN105589970A (zh) * | 2015-12-25 | 2016-05-18 | 小米科技有限责任公司 | 音乐搜索方法和装置 |
CN106910494A (zh) * | 2016-06-28 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种音频识别方法和装置 |
CN107633078A (zh) * | 2017-09-25 | 2018-01-26 | 北京达佳互联信息技术有限公司 | 音频指纹提取方法、音视频检测方法、装置及终端 |
CN108268572A (zh) * | 2017-01-04 | 2018-07-10 | 北京酷我科技有限公司 | 一种歌曲同步方法及系统 |
CN108399913A (zh) * | 2018-02-12 | 2018-08-14 | 北京容联易通信息技术有限公司 | 高鲁棒性音频指纹识别方法及系统 |
CN109102811A (zh) * | 2018-07-27 | 2018-12-28 | 广州酷狗计算机科技有限公司 | 音频指纹的生成方法、装置及存储介质 |
CN109947978A (zh) * | 2017-07-28 | 2019-06-28 | 杭州海康威视数字技术股份有限公司 | 一种音频存储、播放方法及装置 |
WO2019184517A1 (zh) * | 2018-03-29 | 2019-10-03 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
CN110767248A (zh) * | 2019-09-04 | 2020-02-07 | 太原理工大学 | 一种抗变调干扰的音频指纹提取方法 |
CN112752144A (zh) * | 2016-02-17 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 一种无线媒体互动方法和系统 |
CN113614828A (zh) * | 2018-09-07 | 2021-11-05 | 格雷斯诺特有限公司 | 经由归一化对音频信号进行指纹识别的方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177722A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 一种基于音色相似度的歌曲检索方法 |
-
2014
- 2014-06-16 CN CN201410266868.6A patent/CN104050259A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177722A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 一种基于音色相似度的歌曲检索方法 |
Non-Patent Citations (3)
Title |
---|
张敏等: "一种快速的特定音频指纹提取方法", 《计算机工程》 * |
曾柏森: "基于内容的音频检索研究", 《中国优秀硕士学位论文全文数据库》 * |
贺金戈: "基于自组织神经网络的语音识别研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992713B (zh) * | 2015-05-14 | 2018-11-13 | 电子科技大学 | 一种快速广播音频比对方法 |
CN104992713A (zh) * | 2015-05-14 | 2015-10-21 | 电子科技大学 | 一种快速广播音频比对方法 |
CN105589970A (zh) * | 2015-12-25 | 2016-05-18 | 小米科技有限责任公司 | 音乐搜索方法和装置 |
CN112752144B (zh) * | 2016-02-17 | 2024-03-08 | 阿里巴巴集团控股有限公司 | 一种无线媒体互动方法和系统 |
CN112752144A (zh) * | 2016-02-17 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 一种无线媒体互动方法和系统 |
TWI659410B (zh) * | 2016-06-28 | 2019-05-11 | 香港商阿里巴巴集團服務有限公司 | Audio recognition method and device |
WO2018001125A1 (zh) * | 2016-06-28 | 2018-01-04 | 阿里巴巴集团控股有限公司 | 一种音频识别方法和装置 |
KR20190021421A (ko) * | 2016-06-28 | 2019-03-05 | 알리바바 그룹 홀딩 리미티드 | 오디오 인식을 위한 방법 및 디바이스 |
CN106910494A (zh) * | 2016-06-28 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种音频识别方法和装置 |
US11133022B2 (en) | 2016-06-28 | 2021-09-28 | Advanced New Technologies Co., Ltd. | Method and device for audio recognition using sample audio and a voting matrix |
US10910000B2 (en) | 2016-06-28 | 2021-02-02 | Advanced New Technologies Co., Ltd. | Method and device for audio recognition using a voting matrix |
KR102220964B1 (ko) | 2016-06-28 | 2021-03-02 | 어드밴스드 뉴 테크놀로지스 씨오., 엘티디. | 오디오 인식을 위한 방법 및 디바이스 |
CN108268572A (zh) * | 2017-01-04 | 2018-07-10 | 北京酷我科技有限公司 | 一种歌曲同步方法及系统 |
CN109947978B (zh) * | 2017-07-28 | 2021-04-02 | 杭州海康威视数字技术股份有限公司 | 一种音频存储、播放方法及装置 |
CN109947978A (zh) * | 2017-07-28 | 2019-06-28 | 杭州海康威视数字技术股份有限公司 | 一种音频存储、播放方法及装置 |
CN107633078A (zh) * | 2017-09-25 | 2018-01-26 | 北京达佳互联信息技术有限公司 | 音频指纹提取方法、音视频检测方法、装置及终端 |
CN108399913A (zh) * | 2018-02-12 | 2018-08-14 | 北京容联易通信息技术有限公司 | 高鲁棒性音频指纹识别方法及系统 |
WO2019184517A1 (zh) * | 2018-03-29 | 2019-10-03 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
US10950255B2 (en) | 2018-03-29 | 2021-03-16 | Beijing Bytedance Network Technology Co., Ltd. | Audio fingerprint extraction method and device |
CN110322886A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
CN109102811B (zh) * | 2018-07-27 | 2021-03-30 | 广州酷狗计算机科技有限公司 | 音频指纹的生成方法、装置及存储介质 |
CN109102811A (zh) * | 2018-07-27 | 2018-12-28 | 广州酷狗计算机科技有限公司 | 音频指纹的生成方法、装置及存储介质 |
CN113614828A (zh) * | 2018-09-07 | 2021-11-05 | 格雷斯诺特有限公司 | 经由归一化对音频信号进行指纹识别的方法和装置 |
CN110767248A (zh) * | 2019-09-04 | 2020-02-07 | 太原理工大学 | 一种抗变调干扰的音频指纹提取方法 |
CN110767248B (zh) * | 2019-09-04 | 2022-03-22 | 太原理工大学 | 一种抗变调干扰的音频指纹提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104050259A (zh) | 一种基于som算法的音频指纹提取方法 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN103440313A (zh) | 基于音频指纹特征的音乐检索系统 | |
CN107293307A (zh) | 音频检测方法及装置 | |
Venkatachalam et al. | Automatic identification of sound recordings | |
CN109308912A (zh) | 音乐风格识别方法、装置、计算机设备及存储介质 | |
Chen et al. | Audio hash function based on non-negative matrix factorisation of mel-frequency cepstral coefficients | |
Zhang et al. | An efficient perceptual hashing based on improved spectral entropy for speech authentication | |
CN102436806A (zh) | 一种基于相似度的音频拷贝检测的方法 | |
CN101063970B (zh) | 一种基于音频特征码识别技术的音频文件管理方法和系统 | |
Kong et al. | Adversarial audio: A new information hiding method and backdoor for dnn-based speech recognition models | |
CN101594527B (zh) | 从音频视频流中高精度检测模板的两阶段方法 | |
CN101882439A (zh) | 一种基于Zernike矩的压缩域音频指纹方法 | |
Zhang et al. | Content-based encrypted speech retrieval scheme with deep hashing | |
CN102214219B (zh) | 音视频内容检索系统及其方法 | |
CN106782612B (zh) | 一种逆向爆音检测方法及其装置 | |
CN107665240A (zh) | 音频文件聚类方法和装置 | |
CN115083397A (zh) | 歌词声学模型的训练方法、歌词识别方法、设备和产品 | |
Fan et al. | Notice of violation of ieee publication principles: A music identification system based on audio fingerprint | |
EP3477505B1 (en) | Fingerprint clustering for content-based audio recogntion | |
Qian et al. | A novel algorithm for audio information retrieval based on audio fingerprint | |
Bharadwaj et al. | Multimodal Modeling For Spoken Language Identification | |
CN117392986B (zh) | 声纹处理方法、装置、设备、存储介质和程序产品 | |
Horsburgh et al. | Music-inspired texture representation | |
Huang et al. | A high-performance speech BioHashing retrieval algorithm based on audio segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140917 |