CN102332262B - 基于音频特征的歌曲智能识别方法 - Google Patents
基于音频特征的歌曲智能识别方法 Download PDFInfo
- Publication number
- CN102332262B CN102332262B CN2011102858507A CN201110285850A CN102332262B CN 102332262 B CN102332262 B CN 102332262B CN 2011102858507 A CN2011102858507 A CN 2011102858507A CN 201110285850 A CN201110285850 A CN 201110285850A CN 102332262 B CN102332262 B CN 102332262B
- Authority
- CN
- China
- Prior art keywords
- song
- audio
- frame
- frequency characteristics
- eigenwert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于音频特征的歌曲智能识别方法,其包括以下步骤:(1)服务器对歌曲建立音频特征库;(2)在客户端设置好采样率,对外界歌曲进行录音t秒时间以上;(3)然后采用特定的音频特征提取算法提取该段音频的特征值;(4)处理完毕后,将音频特征参数通过网络上传到服务器;(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配;(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端;匹配失败则反馈匹配失败的信息。本发明的目的在于设计出一种高性能高识别率的歌曲识别方案,实现起来比较灵活又具有良好的模块化和可扩展性。
Description
技术领域
本发明涉及歌曲或乐曲的识别。
背景技术
传统的音频特征常用来识别字、词、说话人和场景识别,比如:
(1)连续语音识别系统,把输入的语流切分为小的片段,在识别前先把各字分开,识别单词之间的边界。整个识别系统分为三层:声学-语音层、词层和句法层。采用隐式马尔可夫模型框架,将各层次组成一个统一的结构。
(2)基于内容的音频检索,通过反复重复一个歌曲的曲调,可以将歌曲的曲调片段从一系列音频信号中检索出来。
(3)嵌入式语音识别系统
在嵌入式平台实现的特定人孤立词语音识别系统。特定人语音识别系统可以对孤立词汇进行声学建模,识别采用动态时间归整等匹配算法,对小词汇量识别实现效果比较理想。
尽管传统音频特征可以被用来识别字词和语句曲调,但在用来识别歌曲音乐的时候,也存在一些问题或缺陷:
例如利用连续语音识别系统进行歌曲识别。由于歌词速度不固定,时快时慢,对歌曲内容进行分割建立单词之间的边界是非常困难的。尽管有时可以采用能量最低点作为边界,但通常还要根据发音信息加以验证。利用Mel频率倒谱系数为特征以及一个树形结构的分类器进行分类的方法,可以实现对音乐和声音的检索,但该方法对音乐和环境声音分类效果不够好。另外目前在嵌入式平台实现的主要是对系统的运算资源和存储资源要求比较低的特定人孤立词语音识别系统。
综上,现有音频特征识别系统实现方案主要针对说话语音语义进行识别,在歌曲识别方面要么不能进行有效的识别,要么带有一些局限性。本发明的目的在于设计出一种高性能高识别率的歌曲识别方案,实现起来比较灵活又具有良好的模块化和可扩展性。
发明内容
为了解决现有技术中问题,本发明提供了一种基于音频特征的歌曲智能识别方法,其包括以下步骤:
(1)服务器对歌曲建立音频特征库;
(2)在客户端设置好采样率,对外界歌曲进行录音t秒时间以上;
(3)然后采用特定的音频特征提取算法提取该段音频的特征值;
(4)处理完毕后,将音频特征参数通过网络上传到服务器;
(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配;
(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端;匹配失败则反馈匹配失败的信息。
作为本发明的进一步改进, 所述步骤(1)中,服务器对歌曲建立音频特征库,具体如下:将音频数据流进行采样、分帧,假设分为x帧,通过对每帧PCM数据提取一个y位的0/1值作为特征,共提取y×x个特征值。Pulse Code Modulation----脉码调制录音, 所谓PCM录音就是将声音等模拟信号变成符号化的脉冲列,再予以记录。
作为本发明的进一步改进,所述步骤(3)中具体操作如下:以一定的采样频率采集t秒的音频流得到PCM数据,对PCM数据分帧,设按N个采样点划分为一帧,对每一帧的采样点进行快速傅里叶变换,设每一帧采样点x (0), x (1), …, x(N-1)经过快速傅里叶变换得到了一串频域幅值X(0), X(1), … ,X(N-1),其中
为了提取y位的音频特征,把快速傅里叶变换之后的N个频域幅值,按照所在频带平均分成y+1等份,
计算每等份频带内各个频域值的绝对值的和S,用S(n,m)表示第n帧第m个等份频带所有频域幅值的和值,用F(n,m)表示第n帧第m个等份频带的特征值,则:
这样,每个音频帧共提取y个特征值,x为音频段的总帧数,这样整个音频流共采集了y × x个特征值。
作为本发明的进一步改进,数字录音装置的采样频率为44.1kHz。
作为本发明的进一步改进,频域幅值的频率范围为和人的听觉感知最相关的300Hz~22000Hz。
作为本发明的进一步改进,步骤(5)中匹配方法如下:
将音频流的y × x特征值组成y × x维特征向量A,用这个特征向量与歌曲特征库中已经事先提取保存的特征向量B进行匹配,判断是否是同一首歌曲,匹配采用计算向量余弦夹角的方法:
设置一个比较门限值为T,当向量余弦夹角d>T时,认为歌曲匹配成功,否则认为匹配不成功。
作为本发明的进一步改进,比较门限值为T取值范围在0.5~0.7之间。
本发明的有益效果是:本发明所提出的基于音频特征的歌曲识别系统实现方案不存在现有的其他类似系统在实际实现上对歌曲识别存在的困难:
(1)图1所示的方框图中将客户端和服务端分离开来,特别适合应用在智能手持终端和后端服务器。手持终端只需计算小数据量的音频特征片段然后发送即可,把歌曲特征匹配识别的大批量数据运算放在后端服务器由高性能处理器来完成,很好的平衡系统负载。
(2)在音频特征提取算法中,根据人耳听觉特性将音频频带等分,对每份频带幅值求模。采用等分频带的方法提取音频特征,得到的数据量比原始数据要小很多。
(3)采用计算空间向量夹角余弦的方法对样本歌曲特征片段和特征库进行匹配。特征片段和特征库中特征相似度越大,得到的值越接近于1。虽然实际录音中由于环境的嘈杂,会引入大量的噪声,但该匹配方法依然能很好的进行识别。
在基于音频特征提取方法的系统方案中,采用音频频段划分提取音频特征的方法和采用空间向量夹角余弦的匹配方法进行歌曲识别,能够准确有效的识别待识别歌曲。以服务端/客户端的方式实现特征算法提取处理和匹配识别过程分离所呈现的高效率和灵活性,充分验证了本发明所提出的歌曲识别实现方案的优越性。
【附图说明】
图1是本发明基于音频特征提取的歌曲识别客户端和服务端框架结构;
图2是本发明音频特征提取算法方框图。
【具体实施方式】
下面结合附图说明及具体实施方式对本发明进一步说明。
如图1所示,在客户端设置好采样率对外界歌曲进行录音t秒时间以上。然后采用特定的音频特征提取算法提取该段音频的特征参数。处理完毕后,将音频特征参数通过网络上传到服务器。服务器预先对歌曲建立了音频特征库,在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配。匹配成功则将歌曲的元信息如歌曲名称、歌手、专辑名称等发送到客户端;匹配失败则反馈匹配失败的信息。
如图2所示,将音频数据流进行采样、分帧,假设分为x帧,通过对每帧PCM数据提取一个y位的0/1值作为特征,共提取y×x(x为音频帧数)个特征值。每帧的y个0/1值可以用一个y位的数据保存,这样提取出的特征比原始音频小的多。
以一定的采样频率(例如一般数字录音装置的采样频率为44.1kHz)采集8到15秒的音频流得到PCM数据。对PCM数据分帧,设按N = 8192个采样点划分为一帧。对每一帧的采样点进行快速傅里叶变换,设每一帧采样点x (0), x (1), …, x (N-1)经过快速傅里叶变换得到了一串频域幅值X(0), X(1), … ,X(N-1)。其中
这些频域幅值的频率范围为和人的听觉感知最相关的300Hz~22000Hz,符合音频特征的感知相关特性。为了提取y位的音频特征,把快速傅里叶变换之后的N个频域幅值,按照所在频带平均分成y+1等份。例如,希望在每一帧内提取y = 49个特征向量,则可以把频率范围分为50等份。具体分法如下表:
帧号 | 频率范围(Hz) | 帧号 | 频率范围(Hz) | 帧号 | 频率范围(Hz) | 帧号 | 频率范围(Hz) |
1 | 300~734 | 14 | 5942~6376 | 27 | 11584~12018 | 40 | 17226~17660 |
2 | 734~1168 | 15 | 6376~6810 | 28 | 12018~12452 | 41 | 17660~18094 |
3 | 1168~1602 | 16 | 6810~7244 | 29 | 12452~12886 | 42 | 18094~18528 |
4 | 1602~2036 | 17 | 7244~7678 | 30 | 12886~13320 | 43 | 18528~18962 |
5 | 2036~2470 | 18 | 7678~8112 | 31 | 13320~13754 | 44 | 18962~19396 |
6 | 2470~2904 | 19 | 8112~8546 | 32 | 13754~14188 | 45 | 19396~19830 |
7 | 2904~3338 | 20 | 8546~8980 | 33 | 14188~14622 | 46 | 19830~20264 |
8 | 3338~3772 | 21 | 8980~9414 | 34 | 14622~15056 | 47 | 20264~20698 |
9 | 3772~4206 | 22 | 9414~9848 | 35 | 15056~15490 | 48 | 20698~21132 |
10 | 4206~4640 | 23 | 9848~10282 | 36 | 15490~15924 | 49 | 21132~21566 |
11 | 4640~5074 | 24 | 10282~10716 | 37 | 15924~16358 | 50 | 21566~22000 |
12 | 5074~5508 | 25 | 10716~11150 | 38 | 16358~16792 | ||
13 | 5508~5942 | 26 | 11150~11584 | 39 | 16792~17226 |
计算每等份频带内各个频域值的绝对值的和S。用S(n,m)表示第n帧第m个等份频带所有频域幅值的和值,用F(n,m)表示第n帧第m个等份频带的特征值,则:
这样,每个音频帧共提取y个特征值,x为音频段的总帧数,这样整个音频流共采集了y × x个特征值。
将音频流的y × x特征值组成y × x维特征向量A,用这个特征向量可以与歌曲特征库中已经事先提取保存的特征向量B进行匹配,判断是否是同一首歌曲。匹配采用计算向量余弦夹角的方法:
设置一个比较门限值为T(一般取值范围在0.5~0.7),当向量余弦夹角d>T时,认为歌曲匹配成功,否则认为匹配不成功。匹配成功后,将数据库中存储的歌曲元信息通过网络发送给客户端,实现歌曲的识别信息显示。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于音频特征的歌曲智能识别方法,其特征在于:其包括以下步骤:
(1)服务器对歌曲建立音频特征库;
(2)在客户端设置好采样率,对外界歌曲进行录音t秒时间以上;
(3)然后采用特定的音频特征提取算法提取该段音频的特征值;
(4)处理完毕后,将音频特征参数通过网络上传到服务器;
(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配;
(6)匹配成功则将歌曲的原信息发送到客户端;匹配失败则反馈匹配失败的信息;
所述步骤(3)中具体操作如下:以一定的采样频率采集t秒的音频流得到PCM数据,对PCM数据分帧,设按N个采样点划分为一帧,对每一帧的采样点进行快速傅里叶变换,设每一帧采样点x (0), x (1), …, x(N-1)经过快速傅里叶变换得到了一串频域幅值X(0), X(1), … ,X(N-1),其中
为了提取y位的音频特征,把快速傅里叶变换之后的N个频域幅值,按照所在频带平均分成y+1等份,
计算每等份频带内各个频域值的绝对值的和S,用S(n,m)表示第n帧第m个等份频带所有频域幅值的和值,用F(n,m)表示第n帧第m个等份频带的特征值,则:
这样,每个音频帧共提取y个特征值,x为音频段的总帧数,这样整个音频流共采集了y × x个特征值。
2.根据权利要求1所述的基于音频特征的歌曲智能识别方法,其特征在于:所述步骤(1)中,服务器对歌曲建立音频特征库,具体如下:将音频数据流进行采样、分帧,分为x帧,通过对每帧PCM数据提取一个y位的0/1值作为特征,共提取y×x个特征值。
3.根据权利要求1所述的基于音频特征的歌曲智能识别方法,其特征在于:数字录音装置的采样频率为44.1kHz。
4.根据权利要求1所述的基于音频特征的歌曲智能识别方法,其特征在于:频域幅值的频率范围为和人的听觉感知最相关的300Hz~22000Hz。
5.根据权利要求1所述的基于音频特征的歌曲智能识别方法,其特征在于:步骤(5)中匹配方法如下:
将音频流的y × x特征值组成y × x维特征向量A,用这个特征向量与歌曲特征库中已经事先提取保存的特征向量B进行匹配,判断是否是同一首歌曲,匹配采用计算向量余弦夹角的方法:
设置一个比较门限值为T,当向量余弦夹角d>T时,认为歌曲匹配成功,否则认为匹配不成功。
6.根据权利要求5所述的基于音频特征的歌曲智能识别方法,其特征在于:比较门限值为T取值范围在0.5~0.7之间。
7.根据权利要求1所述的基于音频特征的歌曲智能识别方法,其特征在于:歌曲的原信息为歌曲名称、歌手、专辑名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102858507A CN102332262B (zh) | 2011-09-23 | 2011-09-23 | 基于音频特征的歌曲智能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102858507A CN102332262B (zh) | 2011-09-23 | 2011-09-23 | 基于音频特征的歌曲智能识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102332262A CN102332262A (zh) | 2012-01-25 |
CN102332262B true CN102332262B (zh) | 2012-12-19 |
Family
ID=45484018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102858507A Active CN102332262B (zh) | 2011-09-23 | 2011-09-23 | 基于音频特征的歌曲智能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102332262B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568478B (zh) * | 2012-02-07 | 2015-01-07 | 合一网络技术(北京)有限公司 | 一种基于语音识别的视频播放控制方法和系统 |
US9373336B2 (en) | 2013-02-04 | 2016-06-21 | Tencent Technology (Shenzhen) Company Limited | Method and device for audio recognition |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
CN103108229A (zh) * | 2013-02-06 | 2013-05-15 | 上海云联广告有限公司 | 一种通过音频跨屏识别视频内容的方法 |
CN103150671A (zh) * | 2013-04-09 | 2013-06-12 | 上海合合信息科技发展有限公司 | 利用移动终端进行电视购物的方法及系统 |
CN103685520A (zh) * | 2013-12-13 | 2014-03-26 | 深圳Tcl新技术有限公司 | 基于语音识别的歌曲推送的方法和装置 |
CN103986964A (zh) * | 2014-05-09 | 2014-08-13 | 苏州乐聚一堂电子科技有限公司 | 卡拉ok自动识别影像特效系统 |
CN103987166A (zh) * | 2014-05-09 | 2014-08-13 | 苏州乐聚一堂电子科技有限公司 | 卡拉ok自动识别灯光特效系统 |
CN103986768A (zh) * | 2014-05-19 | 2014-08-13 | 苏州乐聚一堂电子科技有限公司 | 歌曲自动识别影像特效系统 |
CN104023247B (zh) | 2014-05-29 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 获取、推送信息的方法和装置以及信息交互系统 |
CN104053280A (zh) * | 2014-06-12 | 2014-09-17 | 苏州乐聚一堂电子科技有限公司 | 歌曲自动识别灯光特效系统 |
KR102255152B1 (ko) * | 2014-11-18 | 2021-05-24 | 삼성전자주식회사 | 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램 |
CN104819727B (zh) * | 2015-04-13 | 2018-11-13 | 福建天晴数码有限公司 | 一种导航方法及系统 |
CN105025356B (zh) * | 2015-07-29 | 2018-09-14 | 广东欧珀移动通信有限公司 | 音频播放设备的音频播放系统方法和系统 |
CN105139866B (zh) * | 2015-08-10 | 2018-10-16 | 泉州师范学院 | 南音的识别方法及装置 |
WO2017028115A1 (zh) * | 2015-08-16 | 2017-02-23 | 胡丹丽 | 智能桌面音箱和智能桌面音箱的控制方法 |
CN105448290B (zh) * | 2015-11-16 | 2019-03-01 | 南京邮电大学 | 一种变帧率的音频特征提取方法 |
CN107784020A (zh) * | 2016-08-31 | 2018-03-09 | 司邦杰 | 一种动植物昆虫品种识别方法 |
CN106570094B (zh) * | 2016-10-31 | 2019-06-28 | 广东电网有限责任公司惠州供电局 | 定值项匹配方法及匹配系统 |
CN108765162A (zh) * | 2018-05-10 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种金融数据输出方法、装置及电子设备 |
CN112102848B (zh) * | 2019-06-17 | 2024-04-26 | 华为技术有限公司 | 一种用于识别音乐的方法、芯片和终端 |
CN110675893B (zh) * | 2019-09-19 | 2022-04-05 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲识别方法、装置、存储介质及电子设备 |
CN111400543B (zh) * | 2020-03-20 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、设备及存储介质 |
CN111724824B (zh) * | 2020-06-11 | 2021-12-03 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1953046B (zh) * | 2006-09-26 | 2010-09-01 | 中山大学 | 一种基于哼唱的乐曲自动选择装置和方法 |
CN101271457B (zh) * | 2007-03-21 | 2010-09-29 | 中国科学院自动化研究所 | 一种基于旋律的音乐检索方法及装置 |
EP2140372A4 (en) * | 2007-04-23 | 2012-09-05 | Lsi Corp | SYSTEMS AND METHODS FOR MUSIC RECOGNITION |
CN101471068B (zh) * | 2007-12-26 | 2013-01-23 | 三星电子株式会社 | 通过哼唱音乐旋律搜索基于波形的音乐文件的方法和系统 |
-
2011
- 2011-09-23 CN CN2011102858507A patent/CN102332262B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102332262A (zh) | 2012-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102332262B (zh) | 基于音频特征的歌曲智能识别方法 | |
Cano et al. | Robust sound modeling for song detection in broadcast audio | |
EP3816998A1 (en) | Method and system for processing sound characteristics based on deep learning | |
CN101477798B (zh) | 一种分析和提取设定场景的音频数据的方法 | |
CN102122506B (zh) | 一种语音识别的方法 | |
CN105788592A (zh) | 一种音频分类方法及装置 | |
CN103700370A (zh) | 一种广播电视语音识别系统方法及系统 | |
WO2012075641A1 (en) | Device and method for pass-phrase modeling for speaker verification, and verification system | |
CN103403710A (zh) | 对来自音频信号的特征指纹的提取和匹配 | |
CN107293307A (zh) | 音频检测方法及装置 | |
EP2324475A1 (en) | Robust media fingerprints | |
CN110675886A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
KR20060091063A (ko) | 음악 컨텐츠 분류 방법 그리고 이를 이용한 음악 컨텐츠 제공 시스템 및 그 방법 | |
WO2016189307A1 (en) | Audio identification method | |
Neuschmied et al. | Content-based identification of audio titles on the internet | |
Kim et al. | Comparison of MPEG-7 audio spectrum projection features and MFCC applied to speaker recognition, sound classification and audio segmentation | |
Batlle et al. | Automatic song identification in noisy broadcast audio | |
Rougui et al. | Fast incremental clustering of gaussian mixture speaker models for scaling up retrieval in on-line broadcast | |
JP2005532763A (ja) | 圧縮ビデオをセグメント化する方法 | |
Thiruvengatanadhan | Music Classification using MFCC and SVM | |
CN101594527A (zh) | 从音频视频流中高精度检测模板的两阶段方法 | |
CN103247316B (zh) | 一种音频检索中构建索引的方法及系统 | |
WO2023030017A1 (zh) | 音频数据处理方法、装置、设备以及介质 | |
CN102375834A (zh) | 音频文件检索方法、系统和音频文件类型识别方法、系统 | |
Salimbajevs | Creating Lithuanian and Latvian speech corpora from inaccurately annotated web data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |