CN102063904B - 一种音频文件的旋律提取方法及旋律识别系统 - Google Patents

一种音频文件的旋律提取方法及旋律识别系统 Download PDF

Info

Publication number
CN102063904B
CN102063904B CN201010567156XA CN201010567156A CN102063904B CN 102063904 B CN102063904 B CN 102063904B CN 201010567156X A CN201010567156X A CN 201010567156XA CN 201010567156 A CN201010567156 A CN 201010567156A CN 102063904 B CN102063904 B CN 102063904B
Authority
CN
China
Prior art keywords
audio
audio file
digital label
data information
identity data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010567156XA
Other languages
English (en)
Other versions
CN102063904A (zh
Inventor
谢振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201010567156XA priority Critical patent/CN102063904B/zh
Publication of CN102063904A publication Critical patent/CN102063904A/zh
Application granted granted Critical
Publication of CN102063904B publication Critical patent/CN102063904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供一种音频文件的旋律提取方法及旋律识别系统,其不依赖于音频文件中绑定的身份数据信息,能够准确地识别音频文件的身份,并且对音频文件的识别具有较高的速度。所述音频文件的旋律提取方法包括以下步骤:保存预先建立的标签库,其中,所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息;在一个音频文件中截取若干个音频片段,分别提取所述若干个音频片段的音频特征生成所述音频文件的第二数字标签;根据所述第二数字标签查找所述标签库,获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息;将所述身份数据信息与所述音频文件相匹配。

Description

一种音频文件的旋律提取方法及旋律识别系统
技术领域
本发明涉及一种音频文件的旋律提取方法,以及一种音频文件的旋律识别系统。
背景技术
传统的音频播放器或者音乐下载器中,常常通过与音频文件绑定的身份数据信息来识别音频文件,这部分身份数据信息通常设置在音频文件的开头或末尾的若干字节内,称为ID3信息,所述ID3信息常常记载了所述音频文件的歌手、标题、专辑名称、年代、风格等信息。播放器或者下载器在音频文件中提取这部分身份数据信息,然后显示给用户查看。
然而,如今通过相关的软件可以轻易地修改音频文件中的所述身份数据信息,在网络上传播的音频文件,所述身份数据信息在多次转载的过程中可能会被不同的用户修改甚至删除,导致所述音频文件的身份数据信息与实际不符甚至无法识别,给用户使用带来不便。
发明内容
本发明要解决的技术问题是提供一种较准确的音频文件的旋律提取方法,其不依赖于音频文件中绑定的身份数据信息,能够准确地识别音频文件的身份。
一种音频文件的旋律提取方法,包括以下步骤:对所有用户保存的所述音频文件的身份数据信息进行统计,将最多用户保存或者使用的身份数据信息确定为所述音频文件标准的身份数据信息,将所述标准的身份数据信息与所述音频文件的第一数字标签建立一一对应的关系,建立标签库,保存所述标签库,其中,所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息;在一个音频文件中截取若干个音频片段,分别提取所述若干个音频片段的音频特征生成所述音频文件的第二数字标签;根据所述第二数字标签查找所述标签库,获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息;将所述身份数据信息与所述音频文件相匹配。
本发明要解决的技术问题还在于提供一种较准确的音频文件的旋律识别系统。
所述音频文件的旋律识别系统包括客户端和服务器,所述客户端用于在一个音频文件中截取若干个音频片段;分别提取所述若干个音频片段的音频特征,生成所述音频文件的第二数字标签,然后将所述第二数字标签发送至所述服务器;接收所述服务器发送的身份数据信息,将所述身份数据信息与所述音频文件相匹配。所述服务器用于对所有用户保存的所述音频文件的身份数据信息进行统计,将最多用户保存或者使用的身份数据信息确定为所述音频文件标准的身份数据信息,将所述标准的身份数据信息与所述音频文件的第一数字标签建立一一对应的关系,建立标签库,保存所述标签库,其中,所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息;接收所述客户端发送的第二数字标签,根据所述第二数字标签查找所述标签库,获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息,并将所述身份数据信息发送至所述客户端。
与现有技术相比较,本发明的音频文件的旋律提取方法及旋律识别系统中,对一个音频文件截取音频片段,提取所述音频片段的特征生成所述第二数字标签,查找所述标签库,获取与所述第二数字标签对应的音频文件身份数据信息并匹配至对应的音频文件。因为在识别音频文件的过程中不依赖于所述音频文件上附带的身份数据信息,而是直接根据其本身的音频特征来识别所述音频文件,因为每个所述音频文件都有其唯一的音频特征,所以本发明的音频文件的旋律提取方法及旋律识别系统能够准确地识别各个不同的音频文件,不会因为在转载过程中身份数据信息的修改而导致无法识别。并且,由于不是对整个音频文件生成所述第二数字标签,而是截取音频文件中的音频片段来生成所述第二数字标签,所以,所述第二数字标签的数据量比较小;通过截取数据片段的过程筛选出非静音的音频片段,还可以在生成所述第二数字标签时过滤掉连续静音的音频片段,进一步减小所述数字标签的数据量,因此可以加快在所述标签库中查找数字标签的速度,从而提高整个音频文件识别过程的效率;另外,还可以使所述标签库中储存更多的数字标签,增强对音频文件的识别能力。
附图说明
图1是本发明音频文件的旋律提取方法的步骤流程图;
图2是本发明音频文件的旋律识别系统的结构示意图;
图3是本发明音频文件的旋律识别系统中客户端的结构示意图。
具体实施方式
请参阅图1,图1是本发明音频文件的旋律提取方法的步骤流程图。
所述音频文件的旋律提取方法包括以下步骤:
在步骤S101,保存预先建立的标签库。
其中,所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息。
在本步骤中,可以先对音频库中的音频文件进行音频片段的截取,然后根据所述音频片段的音频特征生成所述音频库中所有音频文件的第一数字标签,然后将所述音频文件标准的身份数据信息与所述第一数字标签建立一一对应的关系,建立所述标签库。所述第一数字标签根据所述音频文件的音频特征生成,其生成步骤可与步骤S102中所述第二数字标签的生成方法相同。
在所述标签库中,对于一个音频文件,可以保存根据所述音频文件的一个音频片段的音频特征生成的第一数字标签,也可以同时保存分别根据所述音频文件的多个音频片段的音频特征生成的多个第一数字标签。
所述音频文件的身份数据信息的确定可以采用趋势算法,即,在多个用户的音频库中,所述音频文件可能对应保存有不同的身份数据信息,此时,对所有用户保存的所述音频文件的身份数据信息进行统计,将最多用户保存或者使用的身份数据信息确定为所述音频文件标准的身份数据信息,则,将所述标准的身份数据信息与所述音频文件的第一数字标签建立一一对应的关系,建立所述标签库。其中,所述身份数据信息包括:歌手、歌词、所属专辑、流派等。
在步骤S102,在一个音频文件中截取若干个音频片段,分别根据所述若干个音频片段的音频特征生成所述音频文件的第二数字标签。
在本步骤中,首先获取用户指定的音频文件,然后根据用户选定的范围在所述音频文件中截取相应的音频片段,然后分析提取所述音频片段的音频特征,生成相应的第二数字标签。
其中,本步骤中的所述第二数字标签和步骤S101中的第一数字标签可以根据所述音频文件的某种音频特征或者多种音频特征组合形成,例如:响度、亮度、音调、短时平均能量、过零率、能量谱、Mel倒谱系数、线性预测系数等。通过对上述各种音频特征的检测、采样、量化、编码,从而生成对应的数字标签。
所述音频文件的音频特征分为时域特征和频域特征。时域特征如:短时平均能量、过零率。其中,短时平均能量反映了音频能量幅度的变化,而过零率则表示语音信号波形超过横轴(零电平)的次数。短时平均能量和过零率结合常常用来区分静音、非静音、清音、浊音,以及音乐的开始和结束。
特别地,在提取所述音频文件的过零率特征时,为了避免静音段的随机噪声带来过高的过零率,预先设定一个门限值,如:delta=0.02,如果在单位时间内样点值改变符号,并且差值的绝对值大于0.02,则过零率加1。
而音频文件的频域特征包括:能量谱、倒谱值等。在提取所述音频文件的频域特征时,可以先对音频信号进行傅立叶变换,分析出组成该信号的不同频率和不同幅值的谐波,然后分别对这些谐波进行频域特征系数的提取。其中,能量谱用于分析该音频文件的能量分布,可获得构成该音频文件的主要频率;而检测倒谱值则可以获得声门波的频率(音调)和声道的特征(共振峰)。
再者,某些音频信号具有很强的时变特性,即在一段时间内表现出周期信号的特性,而在另一段时间段则表现出噪音特性。对于这些时变剧烈的音频信号,既要考虑其时域特性,也要考虑其频域特性,则,可以采取短时傅里叶变换思想:假定非平稳的音频信号x(t)在分析窗函数g(t)的一个短时间间隔内是平稳的,移动分析窗函数g(t),使x(t)g(t-τ)在不同的有限时间宽度内是平稳信号,从而计算出所述音频信号x(t)在各个不同时刻的能量谱。
在生成所述第一数字标签或者所述第二数字标签时,可以根据实际需要,单独提取所述音频文件的时域特征来生成所述第一数字标签或者所述第二数字标签,或者单独提取所述音频文件的频域特征来生成所述第一数字标签或者所述第二数字标签,也可以同时提取音频文件的时域特征和频域特征,将两者互相结合来生成所述第一数字标签或者所述第二数字标签。
进一步地,在所述音频文件中截取所述音频片段时,可以预先根据隐马尔科夫模型建立分割所述音频文件的音频片段筛选模板,由于隐马尔科夫模型具有良好的随机时序性,并且不依赖于具体的阈值,因此,通过所述音频片段筛选模板可以筛选出所述音频文件中用户应用较多或者检索较多的音频片段,例如含有音乐高潮部分的音频片段;同时过滤掉所述音频文件中用户应用较少或者检索较少的音频片段,例如静音部分的音频片段,从而大大提高生成所述第一数字标签或者所述第二数字标签的速度,也提高了音频文件识别的准确率。
进一步地,在本步骤中,将所述音频文件分成多个帧,帧与帧之间互相重叠,每一帧即为对所述音频文件截取的音频片段,则,对所述音频文件截取的若干个音频片段覆盖了整个所述音频文件所有部分的音频特征,如此可以提高识别音频文件的准确率。
在步骤S103,根据所述第二数字标签查找所述标签库,获取与所述第二数字标签相匹配的第一数字标签及其对应的音频文件身份数据信息。
在查找所述标签库时,因为截取音频片段和提取音频片段的音频特征时可能会有误差,导致所述第一数字标签和所述第二数字标签可能并不完全相同,因此在本步骤中,可对所述第一数字标签和所述第二数字标签采取模糊类聚算法来对比,即在预设的误差范围内查找与所述第二数字标签相似度最高的所述第一数字标签,并获取所述第一数字标签及其对应的音频文件身份数据信息。
在步骤S104,将所述身份数据信息与所述音频文件相匹配。
在本步骤中,可以将上述步骤S103中获取的所述音频文件身份数据信息,替换原来混乱的或者错误的身份数据信息。
与现有技术相比较,本发明的音频文件的旋律提取方法中,对一个音频文件截取音频片段,提取所述音频片段的特征生成所述第二数字标签,查找所述标签库,获取与所述第二数字标签对应的音频文件身份数据信息并匹配至对应的音频文件。因为在识别音频文件的过程中不依赖于所述音频文件上附带的身份数据信息,而是直接根据其本身的音频特征来识别所述音频文件,因为每个所述音频文件都有其唯一的音频特征,所以本发明的音频文件的旋律提取方法及旋律识别系统能够准确地识别各个不同的音频文件,不会因为在转载过程中身份数据信息的修改而导致无法识别。并且,由于不是对整个音频文件生成所述第二数字标签,而是截取音频文件中的音频片段来生成所述第二数字标签,所以,所述第二数字标签的数据量比较小;通过截取数据片段的过程筛选出非静音的音频片段,还可以在生成所述第二数字标签时过滤掉连续静音的音频片段,进一步减小所述数字标签的数据量,因此可以加快在所述标签库中查找数字标签的速度,从而提高整个音频文件识别过程的效率;另外,还可以使所述标签库中储存更多的数字标签,增强对音频文件的识别能力。
请一并参阅图2和图3,图2是本发明音频文件的旋律识别系统的结构示意图;图3是本发明音频文件的旋律识别系统中客户端的结构示意图。
所述音频文件的旋律识别系统包括:客户端21和服务器22;
所述客户端21用于在一个音频文件中截取若干个音频片段;分别提取所述若干个音频片段的音频特征,生成所述音频文件的第二数字标签,然后将所述第二数字标签发送至所述服务器22;接收所述服务器22发送的身份数据信息,将所述身份数据信息与所述音频文件相匹配;
所述服务器22用于保存预先建立的标签库,其中,所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息;接收所述客户端21发送的第二数字标签,根据所述第二数字标签查找所述标签库,获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息,并将所述身份数据信息发送至所述客户端21。
所述服务器22中储存所述标签库,在本实施方式中,可以先对连接所述服务器22各个所述客户端21的音频库中的音频文件进行音频片段的截取,然后根据所述音频片段的音频特征生成所述音频库中所有音频文件的第一数字标签,将所述第一数字标签保存在所述服务器22中,与所述第一数字标签建立一一对应的关系,建立所述标签库。所述第一数字标签根据所述音频文件的音频特征生成,其生成方式可与所述第二数字标签的生成方法相同。
在所述标签库中,对于一个音频文件,可以保存根据所述音频文件的一个音频片段的音频特征生成的第一数字标签,也可以同时保存分别根据所述音频文件的多个音频片段的音频特征生成的多个第一数字标签。
所述音频文件的身份数据信息的确定可以采用趋势算法,即,在多个所述客户端21的音频库中,所述音频文件可能对应保存有不同的身份数据信息,此时,对所有所述客户端21的音频库中保存的所述音频文件的身份数据信息进行统计,将最多客户端21保存或者使用的身份数据信息确定为所述音频文件标准的身份数据信息,则,将所述标准的身份数据信息与所述音频文件的第一数字标签建立一一对应的关系,在所述服务器22中建立所述标签库。其中,所述身份数据信息包括:歌手、歌词、所属专辑、流派等。
在所述客户端21包括音频库211和数字标签生成模块212。
所述数字标签生成模块212用于获取所述音频库211中用户指定的音频文件,然后根据用户选定的范围在所述音频文件中截取相应的音频片段,分析提取所述音频片段的音频特征,生成相应的第一数值标签或者第二数字标签。
其中,所述第二数字标签和所述第一数字标签可以根据所述音频文件的某种音频特征或者多种音频特征组合形成,例如:响度、亮度、音调、短时平均能量、过零率、能量谱、Mel倒谱系数、线性预测系数等。所述数字标签生成模块212通过对上述各种音频特征的检测、采样、量化、编码,从而生成对应的数字标签。
所述音频文件的音频特征分为时域特征和频域特征。时域特征如:短时平均能量、过零率。其中,短时平均能量反映了音频能量幅度的变化,而过零率则表示语音信号波形超过横轴(零电平)的次数。短时平均能量和过零率结合常常用来区分静音、非静音、清音、浊音,以及音乐的开始和结束。
特别地,所述数字标签生成模块212在提取所述音频文件的过零率特征时,为了避免静音段的随机噪声带来过高的过零率,预先设定一个门限值,如:delta=0.02,如果在单位时间内样点值改变符号,并且差值的绝对值大于0.02,则过零率加1。
而音频文件的频域特征包括:能量谱、倒谱值等。所述数字标签生成模块212在提取所述音频文件的频域特征时,可以先对音频信号进行傅立叶变换,分析出组成该信号的不同频率和不同幅值的谐波,然后分别对这些谐波进行频域特征系数的提取。其中,能量谱用于分析该音频文件的能量分布,可获得构成该音频文件的主要频率;而检测倒谱值则可以获得声门波的频率(音调)和声道的特征(共振峰)。
再者,某些音频信号具有很强的时变特性,即在一段时间内表现出周期信号的特性,而在另一段时间段则表现出噪音特性。对于这些时变剧烈的音频信号,所述数字标签生成模块212在提取其音频特征时既要考虑其时域特性,也要考虑其频域特性,则,可以采取短时傅里叶变换思想:假定非平稳的音频信号x(t)在分析窗函数g(t)的一个短时间间隔内是平稳的,移动分析窗函数g(t),使x(t)g(t-τ)在不同的有限时间宽度内是平稳信号,从而计算出所述音频信号x(t)在各个不同时刻的能量谱。
所述数字标签生成模块212在生成所述第一数字标签或者所述第二数字标签时,可以根据实际需要,单独提取所述音频文件的时域特征来生成所述第一数字标签或者所述第二数字标签,或者单独提取所述音频文件的频域特征来生成所述第一数字标签或者所述第二数字标签,也可以同时提取音频文件的时域特征和频域特征,将两者互相结合来生成所述第一数字标签或者所述第二数字标签。
进一步地,所述数字标签生成模块212中可以根据隐马尔科夫模型建立音频文件数字标签提取的音频片段筛选模板,由于隐马尔科夫模型具有良好的随机时序性,并且不依赖于具体的阈值,因此,通过所述音频片段筛选模板可以筛选出所述音频文件中用户应用较多或者检索较多的音频片段,例如含有音乐高潮部分的音频片段;同时过滤掉所述音频文件中用户应用较少或者检索较少的音频片段,例如静音部分的音频片段,从而大大提高生成所述第一数字标签或者所述第二数字标签的速度,也提高了音频文件识别的准确率。
进一步地,所述数字标签生成模块212中,将用户选定的所述音频文件分成多个帧,帧与帧之间互相重叠,每一帧即为对所述音频文件截取的音频片段,使所述数字标签生成模块212对所述音频文件截取的若干个音频片段覆盖了整个所述音频文件所有部分的音频特征,如此可以提高识别音频文件的准确率。
所述服务器22在查找所述标签库时,因为截取音频片段和提取音频片段的音频特征时可能会有误差,可能会导致所述第一数字标签和所述第二数字标签不完全相同,因此所述服务器22可对所述第一数字标签和所述第二数字标签采取模糊类聚算法,即在预设的误差范围内查找与所述第二数字标签相似度最高的所述第一数字标签,获取所述第一数字标签及其对应的音频文件身份数据信息,并将所述身份数据信息发送至所述客户端21。
所述客户端21接收所述服务器22发送的所述身份数据信息,将所述音频文件身份数据信息,替换原来保存在所述音频库211中的混乱的或者错误的身份数据信息。
与现有技术相比较,本发明的音频文件的旋律识别系统中,所述客户端21中的数字标签生成模块212根据音频片段的特征生成所述第二数字标签,所述服务器22根据所述第二数字标签查找所述标签库,获取与所述第二数字标签对应的音频文件身份数据信息并匹配至对应的音频文件。因为在识别音频文件的过程中不依赖于所述音频文件上附带的身份数据信息,而是直接根据其本身的音频特征来识别所述音频文件,又因为每个所述音频文件都有其唯一的音频特征,所以本发明的音频文件的旋律提取方法及旋律识别系统能够准确地识别各个不同的音频文件,不会因为在转载过程中对身份数据信息的修改而导致无法识别。并且,由于所述客户端21不是对整个音频文件生成所述第二数字标签,而是截取音频文件中的音频片段来生成所述第二数字标签,所以,所述第二数字标签的数据量比较小;通过截取数据片段的过程筛选出非静音的音频片段,还可以在生成所述第二数字标签时过滤掉连续静音的音频片段,进一步减小所述数字标签的数据量,因此可以加快所述数字标签在所述客户端21和所述服务器22之间传输的速度,同时加快所述服务器22在所述标签库中查找匹配数字标签的速度,从而提高整个音频文件的旋律识别系统的工作效率;另外,因为数字标签的数据量较小,所以所述服务器22保存的所述标签库中可以储存更多的数字标签,增强所述音频文件的旋律识别系统对音频文件的识别能力。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (10)

1.一种音频文件的旋律提取方法,其特征在于包括以下步骤:
对所有用户保存的所述音频文件的身份数据信息进行统计,将最多用户保存或者使用的身份数据信息确定为所述音频文件标准的身份数据信息,将所述标准的身份数据信息与所述音频文件的第一数字标签建立一一对应的关系,建立标签库,保存所述标签库,其中,所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息;
在一个音频文件中截取若干个音频片段,分别提取所述若干个音频片段的音频特征生成所述音频文件的第二数字标签;
根据所述第二数字标签查找所述标签库,获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息;
将所述身份数据信息与所述音频文件相匹配。
2.如权利要求1所述的音频文件的旋律提取方法,其特征在于,查找所述标签库,获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息的步骤包括:
在预设的误差范围内,查找与所述第二数字标签相似度最高的所述第一数字标签,获取所述第一数字标签及其对应的音频文件身份信息。
3.如权利要求1所述的音频文件的旋律提取方法,其特征在于,在一个音频文件中截取若干个音频片段的步骤包括:
将所述音频文件分成多个帧,帧与帧之间互相重叠,将每一帧作为一个所述音频片段。
4.如权利要求1、2或者3所述的音频文件的旋律提取方法,其特征在于,分别提取所述若干个音频片段的音频特征生成所述音频文件的第二数字标签的步骤包括:
检测所述音频片段的下述各种音频特征参数中的一种或多种,通过采样、量化和编码生成所述第二数字标签:
响度、亮度、音调、短时平均能量、过零率、能量谱、Mel倒谱系数以及线性预测系数。
5.如权利要求4所述的音频文件的旋律提取方法,其特征在于:在检测所述音频片段的过零率时,预先设定一门限值,如果在单位时间内样点值改变符号,并且差值的绝对值大于所述门限值,则所述过零率加1。
6.一种音频文件的旋律识别系统,包括客户端和服务器,其特征在于:
所述客户端用于在一个音频文件中截取若干个音频片段;分别提取所述若干个音频片段的音频特征,生成所述音频文件的第二数字标签,然后将所述第二数字标签发送至所述服务器;接收所述服务器发送的身份数据信息,将所述身份数据信息与所述音频文件相匹配;
所述服务器用于对所有用户保存的所述音频文件的身份数据信息进行统计,将最多用户保存或者使用的身份数据信息确定为所述音频文件标准的身份数据信息,将所述标准的身份数据信息与所述音频文件的第一数字标签建立一一对应的关系,建立标签库,并保存所述标签库,其中,所述标签库中预先保存多个音频文件的第一数字标签以及所述音频文件的身份数据信息;接收所述客户端发送的第二数字标签,根据所述第二数字标签查找所述标签库,获取与所述第二数字标签相匹配的第一数字标签及其对应的身份数据信息,并将所述身份数据信息发送至所述客户端。
7.如权利要求6所述的音频文件的旋律识别系统,其特征在于:所述服务器在预设的误差范围内,查找与所述第二数字标签相似度最高的所述第一数字标签,获取所述第一数字标签及其对应的音频文件身份信息。
8.如权利要求6所述的音频文件的旋律识别系统,其特征在于:所述客户端将所述音频文件分成多个帧,帧与帧之间互相重叠,将每一帧作为一个所述音频片段。
9.如权利要求6、7或者8所述的音频文件的旋律识别系统,其特征在于:所述客户端检测所述音频片段的下述各种音频特征参数中的一种或多种,通过采样、量化和编码生成所述第二数字标签:
响度、亮度、音调、短时平均能量、过零率、能量谱、Mel倒谱系数以及线性预测系数。
10.如权利要求9所述的音频文件的旋律识别系统,其特征在于:所述客户端在检测所述音频片段的过零率时,预先设定一门限值,如果在单位时间内样点值改变符号,并且差值的绝对值大于所述门限值,则所述过零率加1。
CN201010567156XA 2010-11-30 2010-11-30 一种音频文件的旋律提取方法及旋律识别系统 Active CN102063904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010567156XA CN102063904B (zh) 2010-11-30 2010-11-30 一种音频文件的旋律提取方法及旋律识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010567156XA CN102063904B (zh) 2010-11-30 2010-11-30 一种音频文件的旋律提取方法及旋律识别系统

Publications (2)

Publication Number Publication Date
CN102063904A CN102063904A (zh) 2011-05-18
CN102063904B true CN102063904B (zh) 2012-06-27

Family

ID=43999151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010567156XA Active CN102063904B (zh) 2010-11-30 2010-11-30 一种音频文件的旋律提取方法及旋律识别系统

Country Status (1)

Country Link
CN (1) CN102063904B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123787B (zh) * 2011-11-21 2015-11-18 金峰 一种移动终端与媒体同步与交互的方法
CN102984147A (zh) * 2012-11-23 2013-03-20 上海吟隆信息科技有限公司 一种基于旋律识别的多媒体安全过滤方法
US9373336B2 (en) 2013-02-04 2016-06-21 Tencent Technology (Shenzhen) Company Limited Method and device for audio recognition
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
CN104252464B (zh) * 2013-06-26 2018-08-31 联想(北京)有限公司 信息处理方法和装置
CN104023247B (zh) 2014-05-29 2015-07-29 腾讯科技(深圳)有限公司 获取、推送信息的方法和装置以及信息交互系统
CN105589970A (zh) * 2015-12-25 2016-05-18 小米科技有限责任公司 音乐搜索方法和装置
CN105679319B (zh) * 2015-12-29 2019-09-03 百度在线网络技术(北京)有限公司 语音识别处理方法及装置
CN106528706B (zh) * 2016-10-26 2020-02-07 北京邮电大学 音乐检索方法及装置
CN106844528A (zh) * 2016-12-29 2017-06-13 广州酷狗计算机科技有限公司 获取多媒体文件的方法和装置
CN108831423B (zh) * 2018-05-30 2023-06-06 腾讯音乐娱乐科技(深圳)有限公司 提取音频数据中主旋律音轨的方法、装置、终端及存储介质
CN112634939A (zh) * 2020-12-11 2021-04-09 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备、介质
CN112837690B (zh) * 2020-12-30 2024-04-16 科大讯飞股份有限公司 一种音频数据生成方法、音频数据转写方法及其装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1890665A (zh) * 2003-12-08 2007-01-03 皇家飞利浦电子股份有限公司 旋律数据库搜索
CN1953046A (zh) * 2006-09-26 2007-04-25 中山大学 一种基于哼唱的乐曲自动选择装置和方法
EP1787283A1 (de) * 2004-10-11 2007-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem audiosignal zu grunde liegenden melodie

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1890665A (zh) * 2003-12-08 2007-01-03 皇家飞利浦电子股份有限公司 旋律数据库搜索
EP1787283A1 (de) * 2004-10-11 2007-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem audiosignal zu grunde liegenden melodie
CN1953046A (zh) * 2006-09-26 2007-04-25 中山大学 一种基于哼唱的乐曲自动选择装置和方法

Also Published As

Publication number Publication date
CN102063904A (zh) 2011-05-18

Similar Documents

Publication Publication Date Title
CN102063904B (zh) 一种音频文件的旋律提取方法及旋律识别系统
EP2659480B1 (en) Repetition detection in media data
EP2791935B1 (en) Low complexity repetition detection in media data
Zhang Automatic singer identification
Cano et al. A review of algorithms for audio fingerprinting
EP1760693B1 (en) Extraction and matching of characteristic fingerprints from audio signals
CN103971689B (zh) 一种音频识别方法及装置
Ramalingam et al. Gaussian mixture modeling of short-time Fourier transform features for audio fingerprinting
CN101014953A (zh) 音频指纹识别系统和方法
CN1991976A (zh) 基于音素的语音识别方法与系统
CN111326171B (zh) 一种基于简谱识别和基频提取的人声旋律提取方法及系统
CN113421589B (zh) 歌手识别方法、装置、设备及存储介质
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
CN117409761B (zh) 基于频率调制的人声合成方法、装置、设备及存储介质
Dupraz et al. Robust frequency-based audio fingerprinting
CN109271501A (zh) 一种音频数据库的管理方法及系统
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Betser et al. Audio Identification Using Sinusoidal Modeling and Application to Jingle Detection.
Khemiri et al. Automatic detection of known advertisements in radio broadcast with data-driven ALISP transcriptions
CN113066512A (zh) 佛教音乐识别方法、装置、设备及存储介质
Yadav et al. Real time audio synchronization using audio fingerprinting techniques
Ghouti et al. A robust perceptual audio hashing using balanced multiwavelets
Martin et al. Exemplar-based Assignment of Large Missing Audio Parts using String Matching on Tonal Features.
Valero-Mas et al. Analyzing the influence of pitch quantization and note segmentation on singing voice alignment in the context of audio-based Query-by-Humming
KR20100056430A (ko) 오디오 데이터의 특징 벡터 추출방법 및 이를 이용한 오디오 데이터의 매칭 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: No. 315, Huangpu Avenue middle, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU KUGOU COMPUTER TECHNOLOGY Co.,Ltd.

Address before: 510665 13th floor, building B1, 16 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU KUGOU COMPUTER TECHNOLOGY Co.,Ltd.