CN103180847A - 音乐查询方法和装置 - Google Patents

音乐查询方法和装置 Download PDF

Info

Publication number
CN103180847A
CN103180847A CN2011800021708A CN201180002170A CN103180847A CN 103180847 A CN103180847 A CN 103180847A CN 2011800021708 A CN2011800021708 A CN 2011800021708A CN 201180002170 A CN201180002170 A CN 201180002170A CN 103180847 A CN103180847 A CN 103180847A
Authority
CN
China
Prior art keywords
music
fingerprint characteristic
checked
snatch
framing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800021708A
Other languages
English (en)
Other versions
CN103180847B (zh
Inventor
许洁萍
袁斌
崔建伟
王君
何山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Fangwei Information Technology Co ltd
Wang Jiacheng
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103180847A publication Critical patent/CN103180847A/zh
Application granted granted Critical
Publication of CN103180847B publication Critical patent/CN103180847B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供一种音乐查询方法和装置,该音乐查询方法包括:从待查询音乐文件中截取待查询音乐片段,对待查询音乐片段进行分帧;提取待查询音乐片段包含的分帧片段的指纹特征,以获得待查询音乐片段的指纹特征;根据待查询音乐片段包含的分帧片段的指纹特征,在指纹数据库存储的指纹特征中查询与待查询音乐片段的指纹特征匹配的指纹特征,并根据待查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果。本发明对音乐查询片段的长度和起始点等没有要求,可以提高音乐的查询效率。

Description

音乐查询方法和装置
技术领域 本发明实施例涉及通信技术领域, 尤其涉及一种音乐查询方法和装 置。
背景技术
随着互联网和数字多媒体的迅猛发展, 如何快速而有效地进行音乐检 索成为目前关注的研究热点之一, 基于文本的传统检索方式只能对有标注 信息的文件进行检索, 而基于内容的的检索则不依靠标注信息, 而是通过 获取音乐的一个片段或部分内容进行检索, 这是一个极具挑战的研究课 题。 随着基于内容的音乐检索的发展和实现, 最终会给广大音乐听众的检 索带来极大的方便性。
音乐指纹, 简称为乐纹( Audio Fingerprint ) , 定义为一段经过处理后 能表征音乐 "身份" 的音频片段特征序列。 乐纹识别和检索研究的方法与 传统的基于歌名、 演唱者等元数据的音乐检索具有明显的不同。 乐纹中不 包含一首音乐的所有信息, 但是可以用来识别一首独一无二的音乐, 即通 过乐纹可以从海量数据中查询到想要的音乐。
现有的音乐查询技术一般对歌曲查询片段的长度和起始点等都有具 体的要求, 查询效率较低。 。 发明内容
本发明实施例提供一种音乐查询方法和装置, 以提高音乐的查询效 率。
本发明实施例提供一种音乐查询方法, 包括:
从待查询音乐文件中截取待查询音乐片段, 对所述待查询音乐片段进 行分帧;
提取所述待查询音乐片段包含的分帧片段的指纹特征, 以获得所述待 查询音乐片段的指紋特征;
根据所述待查询音乐片段包含的分帧片段的指纹特征, 在指纹数据库 存储的指纹特征中查询与所述待查询音乐片段的指纹特征匹配的指纹特 征, 并根据所述待查询音乐片段的指纹特征与查询到的指纹特征的相似程 度返回查询结果。
本发明实施例还提供一种音乐查询装置, 包括:
截取模块, 用于从待查询音乐文件中截取待查询音乐片段;
分帧模块, 用于对所述待查询音乐片段进行分帧;
提取模块, 用于提取所述待查询音乐片段包含的分帧片段的指纹特 征, 以获得所述待查询音乐片段的指纹特征;
查询模块, 用于根据所述提取模块提取的所述待查询音乐片段包含的 分帧片段的指纹特征, 在指纹数据库存储的指纹特征中查询与所述待查询 音乐片段的指纹特征匹配的指纹特征;
返回模块, 用于根据所述待查询音乐片段的指纹特征与所述查询模块 查询到的指纹特征的相似程度返回查询结果。
本发明实施例首先从待查询音乐文件中截取待查询音乐片段, 并对待 查询音乐片段进行分帧, 然后提取上述待查询音乐片段包含的分帧片段的 指纹特征, 以获得待查询音乐片段的指纹特征; 最后根据所述待查询音乐 片段包含的分帧片段的指纹特征, 在指纹数据库存储的指纹特征中查询与 上述待查询音乐片段的指纹特征匹配的指纹特征, 并根据待查询音乐片段 的指纹特征与查询到的指纹特征的相似程度返回查询结果; 本发明实施例 对音乐查询片段的长度和起始点等没有要求, 可以提高音乐的查询效率。 附图说明
实施例或现有技术描述中所需要使用的附图作一简单地介绍, 显而易见 地, 下面描述中的附图是本发明的一些实施例, 对于本领域普通技术人员 来讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的 附图。
图 1为本发明音乐查询方法一个实施例的流程图; 图 2为本发明指纹特征提取过程一个实施例的流程图;
图 3为本发明提取频谱包络和降维处理一个实施例的示意图; 图 4为本发明音乐查询装置一个实施例的结构示意图;
图 5为本发明音乐查询装置另一个实施例的结构示意图;
图 6为本发明计算机设备一个实施例的结构示意图。 具体实施方式 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本 发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描 述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例, 都属于本发明保护的范围。
图 1为本发明音乐查询方法一个实施例的流程图, 如图 1所示, 该音 乐查询方法可以包括:
步骤 101 , 从待查询音乐文件中截取待查询音乐片段, 对待查询音乐 片段进行分帧。
步骤 102 , 提取上述待查询音乐片段包含的分帧片段的指纹特征, 以 获得所述待查询音乐片段的指纹特征。
步骤 103 , 根据上述待查询音乐片段包含的分帧片段的指纹特征, 在 指纹数据库存储的指纹特征中查询与上述待查询音乐片段的指纹特征匹 配的指纹特征, 并根据上述待查询音乐片段的指纹特征与查询到的指纹特 征的相似程度返回查询结果。
进一步地, 根据上述待查询音乐片段包含的分帧片段的指纹特征, 在 指纹数据库存储的指纹特征中查询与上述待查询音乐片段的指纹特征匹 配的指纹特征之前, 需要先对已知音乐文件进行分帧; 然后提取已知音乐 文件包含的分帧片段的指纹特征, 以获得上述已知音乐文件的指纹特征, 最后将上述已知音乐文件的指纹特征存储到指纹数据库。
本实施例中, 提取上述待查询音乐片段包含的分帧片段的指纹特征可 以为: 对上述待查询音乐片段包含的分帧片段进行时频转换, 对时频转换 获得的频域数据进行求模; 根据人耳听觉特性在求模后的频域数据中选择 预定频带上的频域数据; 提取上述预定频带上的频域数据的频谱包络; 对 提取频谱包络后获得的特征矩阵进行降维处理, 获得待查询音乐片段包含 的分帧片段的指紋特征。
本实施例中, 提取已知音乐文件包含的分帧片段的指纹特征可以为: 对上述已知音乐文件包含的分帧片段进行时频转换, 对时频转换获得的频 域数据进行求模; 根据人耳听觉特性在求模后的频域数据中选择预定频带 上的频域数据; 提取上述预定频带上的频域数据的频谱包络; 对提取频谱 包络后获得的特征矩阵进行降维处理, 获得已知音乐文件包含的分帧片段 的指纹特征。
本实施例中, 步骤 103可以为: 首先, 根据待查询音乐片段包含的分 帧片段的指纹特征, 在上述指纹数据库存储的指纹特征中查询与上述待查 询音乐片段包含的分帧片段的指纹特征匹配的指纹特征; 其次, 根据指纹 数据库存储的所述匹配的指纹特征在所属歌曲中的位置, 从上述位置开始 在指纹数据库中读取预定数量的指纹特征, 该预定数量与待查询音乐片段 包含的分帧片段数相同; 最后, 比较上述预定数量的指纹特征与待查询音 乐片段包含的所有分帧片段的指纹特征的相似程度, 根据该相似程度返回 查询结果。
上述实施例对音乐查询片段的长度和起始点等没有要求, 可以提高音 乐的查询效率; 并且在有噪声的环境下, 能有效地完成音乐指纹查询, 返 回歌曲容噪下的匹配结果。
下面从音乐指纹提取过程、 指纹数据库建立过程和音乐指纹查询过程 这三个方面对本发明实施例提供的音乐查询方法进行详细介绍。
1、 音乐指纹提取过程。
本实施例中, 音乐指纹提取过程可以包括: 解码、 降采样和指纹特征 提取。 下面分别加以描述:
( 1 ) 解码过程: 由于音乐文件一般是经过编码压缩处理的, 因此在 提取该音乐文件的指纹特征之前, 首先要对该音乐文件进行解码, 将音乐 文件解码为波形 (Wave; 以下简称: WAV ) 文件, 解码后的音乐文件的 采样率跟原始音乐相同,常见的音乐文件的采样率一般为 44KHz或 22KHz 等。 ( 2 ) 降采样过程: 由于音乐文件的采样率一般较高, 包含了大部分 高频信息, 对音乐文件的识别带来困难, 因此, 对于解码后的音乐文件, 还需要进行降采样处理, 即将解码后的音乐文件从 44KHz或 22KHz等较 高的采样率降低到较低的采样率上, 本实施例中, 将解码后的音乐文件统 一降到 5KHz采样率上, 并将进行降采样处理后的音乐文件转换成脉冲编 码调制 ( Pulse Code Modulation; 以下简称: PCM )格式的文件。
( 3 ) 指纹特征提取过程: 在经过解码过程和降采样过程之后, 进行 指纹特征提取过程, 如图 2所示, 图 2为本发明指纹特征提取过程一个实 施例的流程图, 包括:
步骤 201 , 对进行降采样处理后的音乐文件进行分帧。
本实施例中, 在进行分帧时需保证相邻两帧之间有部分重叠, 以保持 信号的短时平稳性。 具体地, 分帧的过程是通过加窗实现, 例如: 可以采 用汉宁窗进行分帧, 汉宁窗窗长为 2048个点。
步骤 202, 对分帧得到的分帧片段进行时频转换。
具体地, 可以采用多种方式对上述分帧片段进行时频转换, 本实施例 对时频转换的实现方式不作限定。 本实施例以对上述分帧片段进行 2048 个点的快速傅里叶变换( Fast Fourier Transform; 以下简称: FFT )为例进 行说明, 本实施例中, 相邻两帧的数据重复率为 31/32, 也就是后一帧相 对于前一帧大约有 60个新的 PCM数据进行 FFT。 步骤 202得到的数值是 复数。
步骤 203 , 对时频转换获得的频域数据进行求模。
步骤 204, 根据人耳听觉特性在求模后的频域数据中选择预定频带上 的频域数据。
本实施例中, 根据人耳的听觉特性从求模后的频域数据中选定了 33 个子带, 这些子带的频率分布空间范围是 0〜2.5kHz, 并且上述 33个子带 的带宽, 在对数域上成线性关系分布。
步骤 205 , 提取上述预定频带上的频域数据的频谱包络。
具体地, 提取频谱包络可以采用多种方式, 本实施例对提取频谱包络 所采用的方式不作限定, 但本实施例以采用小波变换提取上述频域数据的 频媒包络为例进行说明。 小波变换是空间和频率的局部变换, 通过伸缩和平移等运算功能可对 函数或信号进行多尺度的细化分析, 因而能有效地从信号中提取信息。 本 实施例采用标准的哈尔 (Haar ) 小波对上述频域数据进行分析, 只保留最 大的 300个小波系数(按频谱能量绝对值) , 不在最大的 300个小波系数 中的其它系数均量化为 "00" 。 对于最大的 300个小波系数中的每一个系 数, 若为正数, 则量化为 " 10" , 否则量化为 "01 " 。
步骤 206, 对提取频谱包络后获得的特征矩阵进行降维处理, 获得上 述音乐文件包含的分帧片段的指纹特征。
由于小波变换之后得到的是高维的 0-1特征矩阵, 因此需要进行降维 处理。 本实施例使用最小哈希 (MinHash ) 算法进行降维处理, 即对每个 0-1特征矩阵任意位置任意交换 P次, 每次记录第一个 1的位置; 一般说 来,在第 255位之后第一次出现 1的概率很小,所以 255之后统一取为 255; 这样就把高维的 0-1特征矩阵压缩成 P维的特征值, 每组 P维 0〜255的整 数称为乐纹的一个子乐纹。 在实际实现时, 可以取 P = 100, 这样降维处 理后可以得到 100维 0〜255的数, 本实施例中, 将每组 100维 0〜255的整 数称为乐纹的一个子乐纹。
图 3为本发明提取频谱包络和降维处理一个实施例的示意图, 如图 3 所示, 本实施例按照时间顺序读入 PCM数据, 每一帧数据相对于前一帧 多读入 60个 PCM数据, 这个过程一直循环下去, 直到到达 PCM数据的 末端。 然后, 按照步骤 205提供的方法提取每帧 PCM数据的频谱包络, 再按照步骤 206提供的方法对提取频谱包络后获得的特征矩阵进行降维处 理, 获得上述音乐文件包含的分帧片段的指纹特征。 下面将分帧片段的指 纹特征称为子乐纹, 将上述音乐文件的指纹特征称为乐纹, 由图 3可以看 出, 乐纹为子乐纹的一个序列, 序列中子乐纹的先后顺序反应了该子乐纹 对应的分帧片段在时间上的先后顺序关系。
2、 指纹数据库建立过程。
( 1 ) 按照上述音乐指纹提取过程中提供的方法, 提取需要入库的 已知音乐文件的指纹特征。
( 2 ) 指纹数据库中保存两个数据表, 一个是索引表, 一个是乐纹 表。 索引表中的每个表项存储一个子乐纹和该子乐纹在指纹数据库中的唯 一标识, 以及该子乐纹在所属歌曲中的具体时间位置。 乐纹表中的每个表 项存储一首歌曲的乐纹, 即这首歌曲包含的全部子乐纹。
( 3 ) 乐纹入库: 具体操作为依次将每首歌曲的每个子乐纹录入索 引表, 并在索引表中为每个子乐纹分配在指纹数据库中的唯一标识, 并每 首歌曲包含的全部子乐纹录入到乐纹表里。
3、 音乐指纹查询过程。
本发明实施例中, 在音乐指纹查询过程中, 先要按照上述音乐指纹提 取过程中提供的方法提取待查询音乐片段的指纹特征, 然后对于待查询音 乐片段包含的分帧片段的指纹特征, 先要在索引表中查询与待查询音乐片 段包含的分帧片段的指纹特征匹配的指纹特征, 然后根据索引表中保存的 上述匹配的指纹特征的标识, 查找到乐纹表中与上述匹配的指纹特征对应 的表项, 再根据索引表中保存的上述匹配的指纹特征在所属歌曲中的位 置, 从上述位置开始在乐纹表与上述匹配的指纹特征对应的表项中读取预 定数量的子乐纹, 其中该预定数量与待查询音乐片段包含的分帧片段数相 同。 最后比较读取的预定数量的子乐纹与待查询音乐片段包含的所有分帧 片段的指纹特征的相似程度, 根据该相似程度返回查询结果列表。
综上所述, 本发明实施例提供的音乐查询方法具有以下优 , :
1、 乐纹压缩比都可达到百倍以上的压缩, 压缩比大, 并且表征性强。 在噪声环境下, 利用小波变换可以剔出噪声细节的特点, 将频谱图中 的高能量信息部分进行哈希压缩处理, 使一帧数据由原来的 8192个点压 缩到 100个字节; 使音乐数据缩小为原数据的几百分之一; 因此, 特征压 缩比大并且表征性强。
2、 乐纹设计具有一定的抗噪性。
在提取能量谱的基础上进一步做小波变换, 并且只提取幅度较为明显 的最大的 300个小波系数, 从而避免了一定的噪声信号影响; 使用最小哈 希算法对特征矩阵进行处理, 使得长达 8192维度的特征得到了降维, 同 时使得特征经过很简单的比较计算就可以得到相似度; 在制造数据库链表 时, 考虑到乐纹局部特征的变化特性, 引入了局部敏感哈希, 适用性较强, 大大降低了候选的乐纹查找范围。 由于在乐纹提取阶段就考虑到了一定抗 噪容忍性, 并不含有专门的去噪系统, 所以最终的无噪乐纹, 具有一定的 抗噪性。
3、 对不同的查询需求, 进行不同的查询。
本发明实施例从实际应用考虑出发, 能够按照相似程度返回查询结果 列表。
4、 本发明实施例还可以对相似音乐片段进行相似度比较和重叠部分 的度量。
由于本发明实施例提取的乐纹在时间上具有顺序性, 所以可以很方便 地知道两个片段的来源, 和在所属歌曲中的位置, 由此可以判断出两个相 似音乐片段的相似度以及重叠部分所占的比例。 这种乐纹在指纹数据库存 放的顺序性以及查询的高效性, 保证了这类需求方面的实现。
本领域普通技术人员可以理解: 实现上述方法实施例的全部或部分步 骤可以通过程序指令相关的硬件来完成, 前述的程序可以存储于一计算机 可读取存储介质中, 该程序在执行时, 执行包括上述方法实施例的步骤; 而前述的存储介质包括: ROM、 RAM, 磁碟或者光盘等各种可以存储程 序代码的介质。
图 4为本发明音乐查询装置一个实施例的结构示意图, 如图 4所示, 该音乐查询装置可以包括: 截取模块 41、 分帧模块 42、 提取模块 43、 查 询模块 44和返回模块 45。
其中, 截取模块 41 , 用于从待查询音乐文件中截取待查询音乐片段; 分帧模块 42, 用于对上述待查询音乐片段进行分帧;
提取模块 43 ,用于提取上述待查询音乐片段包含的分帧片段的指纹特 征, 以获得上述待查询音乐片段的指纹特征;
查询模块 44, 用于根据提取模块 43提取的待查询音乐片段包含的分 帧片段的指纹特征, 在指纹数据库存储的指纹特征中查询与上述待查询音 乐片段的指纹特征匹配的指纹特征;
返回模块 45 , 用于根据待查询音乐片段的指纹特征与查询模块 44查 询到的指纹特征的相似程度返回查询结果。
上述音乐查询装置对音乐查询片段的长度和起始点等没有要求, 可以 提高音乐的查询效率; 并且在有噪声的环境下, 能有效地完成音乐指纹查 询, 返回歌曲容噪下的匹配结果。 图 5为本发明音乐查询装置另一个实施例的结构示意图,如图 5所示, 该音乐查询装置还可以包括: 存储模块 46;
本实施例中, 分帧模块 42 , 还用于对已知音乐文件进行分帧; 提取模块 43 ,还用于提取上述已知音乐文件包含的分帧片段的指纹特 征, 以获得上述已知音乐文件的指纹特征;
存储模块 46 , 用于将提取模块 43获得的上述已知音乐文件的指纹特 征存储到指纹数据库。
具体地, 提取模块 43可以包括: 转换子模块 43 1、 求模子模块 432、 选择子模块 433、 包络提取子模块 434和降维子模块 435。
转换子模块 43 1 , 用于对上述待查询音乐片段包含的分帧片段进行时 频转换;
求模子模块 432 , 用于对时频转换获得的频域数据进行求模; 选择子模块 433 , 用于根据人耳听觉特性在求模子模块 432获得的频 域数据中选择预定频带上的频域数据;
包络提取子模块 434 , 用于提取上述预定频带上的频域数据的频谱包 络;
降维子模块 435 , 用于对包络提取子模块 434提取频谱包络后获得的 特征矩阵进行降维处理, 获得上述待查询音乐片段包含的分帧片段的指纹 特征。
具体地, 本实施例中, 查询模块 44 可以包括: 特征查询子模块 441 和特征读取子模块 442;
其中, 特征查询子模块 441 , 用于根据上述待查询音乐片段包含的分 帧片段的指纹特征, 在指纹数据库存储的指纹特征中查询与上述待查询音 乐片段包含的分帧片段的指纹特征匹配的指纹特征;
特征读取子模块 442 , 用于根据指纹数据库存储的所述匹配的指纹特 征在所属歌曲中的位置, 从该位置开始在指纹数据库中读取预定数量的指 纹特征, 该预定数量与待查询音乐片段包含的分帧片段数相同。
本实施例中, 返回模块 45可以比较特征读取子模块 442读取的预定 数量的指纹特征与上述待查询音乐片段包含的所有分帧片段的指纹特征 的相似程度, 根据上述相似程度返回查询结果。 上述音乐查询装置对音乐查询片段的长度和起始点等没有要求, 可以 提高音乐的查询效率; 并且在有噪声的环境下, 能有效地完成音乐指纹查 询, 返回歌曲容噪下的匹配结果。
图 6为本发明计算机设备一个实施例的结构示意图, 本实施例中的计 算机设备可以实现本发明图 4或图 5所示实施例中音乐查询装置的功能, 如图 6所示, 该计算机设备可以包括: 中央处理单元 ( Central Processing Unit; 以下简称: CPU ) 61、 总线控制逻辑 62、 系统总线 63、 内存 64、 接口 65和输入输出 ( Input I Output; 以下简称: I/O )子系统 66; 其中 I/O 子系统 66包括 I/O设备 661和存储器 662。
本实施例中, CPU 61 ,用于从待查询音乐文件中截取待查询音乐片段, 对上述待查询音乐片段进行分帧, 提取上述待查询音乐片段包含的分帧片 段的指纹特征, 以获得上述待查询音乐片段的指纹特征, 根据提取的待查 询音乐片段包含的分帧片段的指纹特征, 在指纹数据库存储的指纹特征中 查询与上述待查询音乐片段的指纹特征匹配的指纹特征, 并根据待查询音 乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果; 本实施 例中的 CPU 61可以实现本发明图 4或图 5所示实施例中截取模块 41、 分 帧模块 42、 提取模块 43和查询模块 44的功能。
其中, 上述指纹数据库存储在存储器 662中; 具体地, CPU 61返回 查询结果可以为: CPU 61将查询结果发送给总线控制逻辑 62, 由总线控 制逻辑 62将上述查询结果通过系统总线 63和接口 65 ,发送给 I/O设备 661 , 由 I/O设备 661将上述查询结果发送出去; 另外, 在 I/O设备 661发送上 述查询结果之前, 上述查询结果可以先緩存在内存 64 中。 也就是说, 本 实施例中, CPU 61、 总线控制逻辑 62、 系统总线 63、 内存 64、 接口 65 和 I/O设备 661共同完成本发明图 4或图 5所示实施例中返回模块 45的功 能。
进一步地, CPU 61 还可以对已知音乐文件进行分帧, 提取上述已知 音乐文件包含的分帧片段的指纹特征, 以获得上述已知音乐文件的指纹特 征。
本实施例中, 存储器 662, 用于保存指纹数据库, 将 CPU 61获得的 上述已知音乐文件的指纹特征存储到指纹数据库; 本实施例中的存储器 662可以实现本发明图 5所示实施例中存储模块 46的功能。
上述计算机设备对音乐查询片段的长度和起始点等没有要求, 可以提 高音乐的查询效率;并且在有噪声的环境下,能有效地完成音乐指纹查询, 返回歌曲容噪下的匹配结果。
本领域技术人员可以理解附图只是一个优选实施例的示意图, 附图中 的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例 描述进行分布于实施例的装置中, 也可以进行相应变化位于不同于本实施 例的一个或多个装置中。 上述实施例的模块可以合并为一个模块, 也可以 进一步拆分成多个子模块。
最后应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对 其限制; 尽管参照前述实施例对本发明进行了详细的说明, 本领域的普通 技术人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修 改, 或者对其中部分技术特征进行等同替换; 而这些修改或者替换, 并不 使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (1)

  1. 权 利 要 求 书
    1、 一种音乐查询方法, 其特征在于, 包括:
    从待查询音乐文件中截取待查询音乐片段, 对所述待查询音乐片段进 行分帧;
    提取所述待查询音乐片段包含的分帧片段的指纹特征, 以获得所述待 查询音乐片段的指紋特征;
    根据所述待查询音乐片段包含的分帧片段的指纹特征, 在指纹数据库 存储的指纹特征中查询与所述待查询音乐片段的指纹特征匹配的指纹特 征, 并根据所述待查询音乐片段的指纹特征与查询到的指纹特征的相似程 度返回查询结果。
    2、 根据权利要求 1 所述的方法, 其特征在于, 所述根据所述待查询 音乐片段包含的分帧片段的指纹特征, 在指纹数据库存储的指纹特征中查 询与所述待查询音乐片段的指纹特征匹配的指纹特征之前, 还包括: 对已知音乐文件进行分帧;
    提取所述已知音乐文件包含的分帧片段的指纹特征, 以获得所述已知 音乐文件的指纹特征;
    将所述已知音乐文件的指纹特征存储到所述指纹数据库。
    3、 根据权利要求 1 所述的方法, 其特征在于, 所述提取所述待查询 音乐片段包含的分帧片段的指纹特征包括:
    对所述待查询音乐片段包含的分帧片段进行时频转换, 对所述时频转 换获得的频域数据进行求模;
    根据人耳听觉特性在求模后的频域数据中选择预定频带上的频域数 据;
    提取所述预定频带上的频域数据的频谱包络;
    对提取频谱包络后获得的特征矩阵进行降维处理, 获得所述待查询音 乐片段包含的分帧片段的指纹特征。
    4、 根据权利要求 2所述的方法, 其特征在于, 所述提取所述已知音 乐文件包含的分帧片段的指纹特征包括:
    对所述已知音乐文件包含的分帧片段进行时频转换, 对所述时频转换 获得的频域数据进行求模; 根据人耳听觉特性在求模后的频域数据中选择预定频带上的频域数 据;
    提取所述预定频带上的频域数据的频谱包络;
    对提取频谱包络后获得的特征矩阵进行降维处理, 获得所述已知音乐 文件包含的分帧片段的指纹特征。
    5、 根据权利要求 3或 4所述的方法, 其特征在于, 所述根据所述待 查询音乐片段包含的分帧片段的指纹特征, 在指纹数据库存储的指纹特征 中查询与所述待查询音乐片段的指纹特征匹配的指纹特征, 并根据所述待 查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果 包括:
    根据所述待查询音乐片段包含的分帧片段的指纹特征, 在所述指纹数 据库存储的指纹特征中查询与所述待查询音乐片段包含的分帧片段的指 纹特征匹配的指纹特征;
    根据所述指纹数据库存储的所述匹配的指纹特征在所属歌曲中的位 置, 从所述位置开始在所述指纹数据库中读取预定数量的指纹特征, 所述 预定数量与所述待查询音乐片段包含的分帧片段数相同;
    比较所述预定数量的指纹特征与所述待查询音乐片段包含的所有分 帧片段的指纹特征的相似程度, 根据所述相似程度返回查询结果。
    6、 一种音乐查询装置, 其特征在于, 包括:
    截取模块, 用于从待查询音乐文件中截取待查询音乐片段; 分帧模块, 用于对所述待查询音乐片段进行分帧;
    提取模块, 用于提取所述待查询音乐片段包含的分帧片段的指纹特 征, 以获得所述待查询音乐片段的指纹特征;
    查询模块, 用于根据所述提取模块提取的所述待查询音乐片段包含的 分帧片段的指纹特征, 在指纹数据库存储的指纹特征中查询与所述待查询 音乐片段的指纹特征匹配的指纹特征;
    返回模块, 用于根据所述待查询音乐片段的指纹特征与所述查询模块 查询到的指纹特征的相似程度返回查询结果。
    7、 根据权利要求 6所述的装置, 其特征在于, 还包括: 存储模块; 所述分帧模块, 还用于对已知音乐文件进行分帧; 所述提取模块, 还用于提取所述已知音乐文件包含的分帧片段的指纹 特征, 以获得所述已知音乐文件的指纹特征;
    所述存储模块, 用于将所述提取模块获得的所述已知音乐文件的指纹 特征存储到所述指纹数据库。
    8、 根据权利要求 6或 7所述的装置, 其特征在于, 所述提取模块包 括:
    转换子模块, 用于对所述待查询音乐片段包含的分帧片段进行时频转 换;
    求模子模块, 用于对所述时频转换获得的频域数据进行求模; 选择子模块, 用于根据人耳听觉特性在所述求模子模块获得的频域数 据中选择预定频带上的频域数据;
    包络提取子模块, 用于提取所述预定频带上的频域数据的频谱包络; 降维子模块, 用于对所述包络提取子模块提取频谱包络后获得的特征 矩阵进行降维处理, 获得所述待查询音乐片段包含的分帧片段的指纹特 征。
    9、 根据权利要求 8所述的装置, 其特征在于, 所述查询模块包括: 特征查询子模块, 用于根据所述待查询音乐片段包含的分帧片段的指 纹特征, 在所述指纹数据库存储的指纹特征中查询与所述待查询音乐片段 包含的分帧片段的指纹特征匹配的指纹特征;
    特征读取子模块, 用于根据所述指纹数据库存储的所述匹配的指纹特 征在所属歌曲中的位置, 从所述位置开始在所述指纹数据库中读取预定数 量的指纹特征, 所述预定数量与所述待查询音乐片段包含的分帧片段数相 同。
    10、 根据权利要求 9所述的装置, 其特征在于,
    所述返回模块, 具体用于比较所述特征读取子模块读取的预定数量的 指纹特征与所述待查询音乐片段包含的所有分帧片段的指纹特征的相似 程度, 根据所述相似程度返回查询结果。
CN201180002170.8A 2011-10-19 2011-10-19 音乐查询方法和装置 Expired - Fee Related CN103180847B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/080977 WO2012163013A1 (zh) 2011-10-19 2011-10-19 音乐查询方法和装置

Publications (2)

Publication Number Publication Date
CN103180847A true CN103180847A (zh) 2013-06-26
CN103180847B CN103180847B (zh) 2016-03-02

Family

ID=47258328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180002170.8A Expired - Fee Related CN103180847B (zh) 2011-10-19 2011-10-19 音乐查询方法和装置

Country Status (2)

Country Link
CN (1) CN103180847B (zh)
WO (1) WO2012163013A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633078A (zh) * 2017-09-25 2018-01-26 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端
WO2018027606A1 (zh) * 2016-08-10 2018-02-15 董访问 音乐匹配和分析技术的数据采集方法以及分享系统
WO2018027605A1 (zh) * 2016-08-10 2018-02-15 董访问 根据录音分享音乐的方法以及分享系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018027607A1 (zh) * 2016-08-10 2018-02-15 董访问 根据录音匹配歌曲的信息推送方法以及分享系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1708758A (zh) * 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
US20090012638A1 (en) * 2007-07-06 2009-01-08 Xia Lou Feature extraction for identification and classification of audio signals
CN101959191A (zh) * 2010-09-25 2011-01-26 华中科技大学 一种无线网络安全认证方法及其系统
CN102096780A (zh) * 2010-12-17 2011-06-15 华中科技大学 大规模用户环境下数字指纹的快速检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
DE60302651T2 (de) * 2002-02-06 2006-08-10 Koninklijke Philips Electronics N.V. Schnelles hash-basiertes metadatenretrieval für multimediaobjekte
KR20050003457A (ko) * 2002-05-16 2005-01-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 신호 처리 방법 및 장치
EP1647144A1 (en) * 2003-07-11 2006-04-19 Koninklijke Philips Electronics N.V. Method and device for generating and detecting a fingerprint functioning as a trigger marker in a multimedia signal
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
CN101673267B (zh) * 2008-09-12 2012-11-07 未序网络科技(上海)有限公司 音频、视频内容的搜索方法
CN101673262B (zh) * 2008-09-12 2012-10-10 未序网络科技(上海)有限公司 音频内容的搜索方法
CN101673266B (zh) * 2008-09-12 2012-09-05 未序网络科技(上海)有限公司 音频、视频内容的搜索方法
CN101673264B (zh) * 2008-09-12 2012-11-07 未序网络科技(上海)有限公司 音频内容的搜索装置
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
CN101882439B (zh) * 2010-06-10 2012-02-08 复旦大学 一种基于Zernike矩的压缩域音频指纹方法
CN102214219B (zh) * 2011-06-07 2013-04-17 盛乐信息技术(上海)有限公司 音视频内容检索系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1708758A (zh) * 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
US20090012638A1 (en) * 2007-07-06 2009-01-08 Xia Lou Feature extraction for identification and classification of audio signals
CN101959191A (zh) * 2010-09-25 2011-01-26 华中科技大学 一种无线网络安全认证方法及其系统
CN102096780A (zh) * 2010-12-17 2011-06-15 华中科技大学 大规模用户环境下数字指纹的快速检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡建建: ""基于高斯低通滤波器的音乐节拍提取"", 《东华大学学报(自然科学版)》, vol. 37, no. 1, 28 February 2011 (2011-02-28) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018027606A1 (zh) * 2016-08-10 2018-02-15 董访问 音乐匹配和分析技术的数据采集方法以及分享系统
WO2018027605A1 (zh) * 2016-08-10 2018-02-15 董访问 根据录音分享音乐的方法以及分享系统
CN107633078A (zh) * 2017-09-25 2018-01-26 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端
CN107633078B (zh) * 2017-09-25 2019-02-22 北京达佳互联信息技术有限公司 音频指纹提取方法、音视频检测方法、装置及终端

Also Published As

Publication number Publication date
CN103180847B (zh) 2016-03-02
WO2012163013A1 (zh) 2012-12-06

Similar Documents

Publication Publication Date Title
US8977067B1 (en) Audio identification using wavelet-based signatures
EP2507790B1 (en) Method and system for robust audio hashing.
US9659092B2 (en) Music information searching method and apparatus thereof
CN108595443A (zh) 同声翻译方法、装置、智能车载终端及存储介质
CN104252862B (zh) 处理音频信号的方法和装置
CN102063904B (zh) 一种音频文件的旋律提取方法及旋律识别系统
CN103403710A (zh) 对来自音频信号的特征指纹的提取和匹配
CN103180847B (zh) 音乐查询方法和装置
CN104142831B (zh) 应用程序搜索方法及装置
Kim et al. Robust audio fingerprinting using peak-pair-based hash of non-repeating foreground audio in a real environment
Dimoulas et al. Investigation of wavelet approaches for joint temporal, spectral and cepstral features in audio semantics
CN107680584B (zh) 用于切分音频的方法和装置
Zhang et al. An encrypted speech retrieval algorithm based on Chirp-Z transform and perceptual hashing second feature extraction
CN102622353B (zh) 一种固定音频检索方法
CN104866604B (zh) 一种信息处理方法及服务器
CN102375834B (zh) 音频文件检索方法、系统和音频文件类型识别方法、系统
CN103354091B (zh) 基于频域变换的音频特征提取方法及装置
Wang et al. Robust audio fingerprint extraction algorithm based on 2-D chroma
CN113515662A (zh) 一种相似歌曲检索方法、装置、设备以及存储介质
Zhang et al. Robust audio retrieval method based on anti‐noise fingerprinting and segmental matching
You et al. Using paired distances of signal peaks in stereo channels as fingerprints for copy identification
You et al. Comparative study of methods for reducing dimensionality of MPEG-7 audio signature descriptors
Xiong et al. An improved audio fingerprinting algorithm with robust and efficient
KR102661876B1 (ko) 합성곱 신경망 기반 오디오 핑거프린트 추출 방법 및 장치
Wang et al. Speeding up audio fingerprinting over GPUs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210806

Address after: 572000 No. 110, Xinjian street, Tianya District, Sanya City, Hainan Province

Patentee after: Wang Jiacheng

Address before: 510670 Room 518, 91 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Fangwei Information Technology Co.,Ltd.

Effective date of registration: 20210806

Address after: 510670 Room 518, 91 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Fangwei Information Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160302

Termination date: 20211019