CN104184697B - 一种音频指纹的提取方法及系统 - Google Patents

一种音频指纹的提取方法及系统 Download PDF

Info

Publication number
CN104184697B
CN104184697B CN201310187677.6A CN201310187677A CN104184697B CN 104184697 B CN104184697 B CN 104184697B CN 201310187677 A CN201310187677 A CN 201310187677A CN 104184697 B CN104184697 B CN 104184697B
Authority
CN
China
Prior art keywords
quantization step
value
audio
audio data
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310187677.6A
Other languages
English (en)
Other versions
CN104184697A (zh
Inventor
田彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Taile Culture Technology Co ltd
Original Assignee
Beijing Yinzhibang Culture Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yinzhibang Culture Technology Co ltd filed Critical Beijing Yinzhibang Culture Technology Co ltd
Priority to CN201310187677.6A priority Critical patent/CN104184697B/zh
Publication of CN104184697A publication Critical patent/CN104184697A/zh
Application granted granted Critical
Publication of CN104184697B publication Critical patent/CN104184697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种音频指纹的提取方法,包括:音频客户端对原始的音频数据进行降采样处理,得到低频带的音频数据,并对低频带的音频数据进行量化编码处理,得到编码值,将所述编码值发送到服务器;服务器对收到的编码值进行逆量化解码处理,得到重建的音频数据,从重建的音频数据中提取音频指纹;本发明还提供一种音频指纹的提取系统。据本发明提供的技术方案,在降低音频数据的传输量的同时提高从音频数据中提取的音频指纹的准确率。

Description

一种音频指纹的提取方法及系统
【技术领域】
本发明涉及互联网应用领域,尤其涉及一种音频指纹的提取方法及系统。
【背景技术】
当用户使用音乐播放器播放本地音频时或当用户在音乐播放器中输入一段音频时,可以利用音频指纹技术从互联网的音频数据库中获得歌名、歌手、专辑名等音频信息,还可以获得高质量的正版音频资源。音频指纹技术中,需要为每一首歌曲编制特征码,用以实现歌曲的精确匹配和识别,为广大用户提供音频识别服务。
目前,利用音频指纹技术从音频数据库中获得音频或音频信息时,需要由音频客户端(如音乐播放器软件、MP3播放器等)将压缩后的音频数据通过互联网上传到服务器,由服务器从音频数据中提取音频指纹,再依据提取的音频指纹在音频数据库中进行匹配,识别出音频或音频信息;其中,音频客户端利用wma编码器对原始的音频数据进行编码,得到wma格式的音频数据。 wma编码器是基于模型的编码方式,虽然能够提高音频数据的压缩比,降低数据传输量,但也会丢失很多音频数据,使得提取的音频指纹准确率较低,最终将导致服务器的识别结果的准确率较低;而且,wma编码器的编码过程非常复杂,需要进行大量运算,产生大量数据,因此无法在各种移动终端中应用,使得音频客户端存在局限性。
【发明内容】
本发明提供了一种音频指纹的提取方法及系统,能够在降低音频数据的传输量的同时提高从音频数据中提取的音频指纹的准确率。
本发明的具体技术方案如下:
根据本发明一优选实施例,一种音频指纹的提取方法,包括:
音频客户端对原始的音频数据进行降采样处理,得到低频带的音频数据,并对低频带的音频数据进行量化编码处理,得到编码值,将所述编码值发送到服务器;
服务器对收到的编码值进行逆量化解码处理,得到重建的音频数据,从重建的音频数据中提取音频指纹。
上述方法中,所述对原始的音频数据进行降采样处理具体为:
将原始的音频数据通过截止频率为1/M的低通滤波器,然后每M个样点抽取一个样点,得到样点的采样值,所述采样值为低频带的音频数据;其中,M为正整数。
上述方法中,所述对低频带的音频数据进行量化编码处理具体为:
计算当前输入的采样值与预设的预测采样值之间的差值;
利用存储的上一个采样值的量化步长索引查询预设的步长调整表,得到量化步长,如果所述差值为负数,则4位的编码值中的第3位的值设置为1,反之,设置为0;如果所述差值大于量化步长,则4位的编码值中的第2位的值设置为1,反之,设置为0;如果差值与量化步长的差值大于二分之一的量化步长,则4位的编码值中的第1位的值设置为1,反之,设置为0;如果差值减去量化步长再减去二分之一的量化步长后大于四分之一的量化步长,则4 位的编码值中的第0位的值设置为1,反之,设置为0。
上述方法中,该方法还包括:
利用得到的编码值查询预设的索引调整表,得到量化步长索引,将所述量化步长索引与存储的量化步长索引相加,得到新的量化步长索引,存储新的量化步长索引,所述新的量化步长索引在对下一个采样值进行量化编码时用于查询步长调整表。
上述方法中,所述对收到的编码值进行逆量化解码处理具体为:
利用预设的量化步长索引查询步长调整表,得到量化步长;
依据所述量化步长对当前的编码值进行逆量化处理,得到差值;
将预设的预测解码值与差值相加得到解码值,所述解码值为重建的音频数据。
上述方法中,该方法还包括:
存储所述解码值,所述解码值作为新的预测解码值;
用当前编码值调整量化步长索引,存储新的量化步长索引,所述新的量化步长索引用于进行下一个编码值的逆量化解码处理。
一种音频指纹的提取系统,包括:音频客户端、服务器;其中,
音频客户端,用于对原始的音频数据进行降采样处理,得到低频带的音频数据,并对低频带的音频数据进行量化编码处理,得到编码值,将所述编码值发送到服务器;
服务器,用于对收到的编码值进行逆量化解码处理,得到重建的音频数据,从重建的音频数据中提取音频指纹。
上述系统中,所述音频客户端进一步包括:
重采样单元,用于将原始的音频数据通过截止频率为1/M的低通滤波器,然后每M个样点抽取一个样点,得到样点的采样值,所述采样值为低频带的音频数据;其中,M为正整数。
上述系统中,所述音频客户端还包括:
ADPCM编码单元,用于计算当前输入的采样值与预设的预测采样值之间的差值;利用存储的上一个采样值的量化步长索引查询预设的步长调整表,得到量化步长,如果所述差值为负数,则4位的编码值中的第3位的值设置为1,反之,设置为0;如果所述差值大于量化步长,则4位的编码值中的第2位的值设置为 1,反之,设置为0;如果差值与量化步长的差值大于二分之一的量化步长,则4 位的编码值中的第1位的值设置为1,反之,设置为0;如果差值减去量化步长再减去二分之一的量化步长后大于四分之一的量化步长,则4位的编码值中的第 0位的值设置为1,反之,设置为0。
上述系统中,所述ADPCM编码单元,还用于利用得到的编码值查询预设的索引调整表,得到量化步长索引,将所述量化步长索引与存储的量化步长索引相加,得到新的量化步长索引,存储新的量化步长索引,所述新的量化步长索引在对下一个采样值进行量化编码时用于查询步长调整表。
上述系统中,所述服务器进一步包括:
ADPCM解码单元,用于利用预设的量化步长索引查询步长调整表,得到量化步长;依据所述量化步长对当前的编码值进行逆量化处理,得到差值;将预设的预测解码值与差值相加得到解码值,所述解码值为重建的音频数据。
上述系统中,所述ADPCM解码单元,还用于存储所述解码值,所述解码值作为新的预测解码值;用当前编码值调整量化步长索引,存储新的量化步长索引,所述新的量化步长索引用于进行下一个编码值的逆量化解码处理。
由以上技术方案可以看出,本发明提供的具有以下有益效果:
对原始的音频数据进行降采样处理,实现在保留了最重要的音频数据的同时去除了多余的其他频带的音频数据,从而减少音频客户端的处理数据量和传输数据量,提高音频客户端的工作效率,使得更多的移动终端能够支持这种音频客户端,提高音频客户端的应用范围;而且,利用对音频数据进行量化编码后发送到服务器,在对音频数据进行压缩的同时可以最大程度的保存原始的音频数据的音频信息,从而有利于音频数据中音频指纹的提取,提高提取的音频指纹的准确率,进而提高服务器的识别准确率。
【附图说明】
图1是本发明实现音频指纹的提取系统的优选实施例的结构示意图;
图2是本发明实现音频指纹的提取方法的优选实施例的流程示意图;
图3是本发明中提取的音频指纹的示例图。
【具体实施方式】
本发明的基本思想是:音频客户端对原始的音频数据进行降采样处理,得到低频带的音频数据,并对低频带的音频数据进行量化编码处理,得到编码值,将所述编码值发送到服务器;服务器对收到的编码值进行逆量化解码处理,得到重建的音频数据,从重建的音频数据中提取音频指纹。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供一种利用音频指纹的提取系统,图1是本发明实现音频指纹的提取系统的优选实施例的结构示意图,如图1所示,该系统包括:音频客户端10、服务器11。
音频客户端10进一步包括:重采样单元101、ADPCM编码单元102、发送单元103。
服务器11进一步包括:接收单元111、ADPCM解码单元112、指纹提取单元113、音频识别单元114。
基于上述系统,本发明还提供一种音频指纹的提取方法,图2是本发明实现音频指纹的提取方法的优选实施例的流程示意图,如图2所示,该优选实施例包括以下步骤:
步骤S201,音频客户端对原始的音频数据进行降采样处理,得到低频带的音频数据。
具体的,在音频客户端,重采样单元对输入的原始的音频数据进行降采样处理,所述原始的音频数据指的是采样率为44.1KHz的音频数据;该降采样处理为:基于奈奎斯特采样定律,利用s i nc函数对原始的音频数据进行降采样处理,例如,采样率降低M倍,用x(k)表示输入的原始的音频数据,用y(m) 表示降采样后得到的音频数据,则降采样处理后得到的音频数据为
其中h(m)=sinc(m/M),表示先将原始的音频数据通过截止频率为1/M的低通滤波器,然后每M个样点抽取一个样点,得到该样点的采样值,从而实现将采样率降低M倍,得到的采样值就是低频带的音频数据,重采样单元将得到的低频带的音频数据发送给ADPCM编码单元;其中,M为正整数,可以依据需要的采样率设置M的具体数值。实际应用中,一般将原始的音频数据的44.1KHz的采样率降为8KHz或5KHz的采样率。
音频信息在音频数据的全频带都会存在,但是从人耳的感知角度来说,音频数据中最重要的音频信息多位于低频带,即低频带的音频数据足够用来表征一个唯一的声学信号,例如一首歌曲;因此本优选实施例中对原始的音频数据进行降采样处理,得到其中的低频带的音频数据,在保留了最重要的音频数据的同时去除了多余的其他频带的音频数据,从而减少音频客户端的处理数据量和传输数据量,提高音频客户端的工作效率,使得更多的移动终端能够支持这种音频客户端,提高音频客户端的应用范围。
步骤S202,音频客户端对低频带的音频数据进行量化编码处理,得到编码值。
具体的,ADPCM(Adapt ive Different ia l Pu l se Code Modu l at ion,自适应差分脉冲编码调制)编码单元从重采样单元接收低频带的音频数据,这里,所接收的低频带的音频数据为一系列的采样值,下面以采样值是16b it 的二进制补码的音频数据为例,说明ADPCM编码单元对低频带的音频数据进行量化编码处理得到编码值的方法:
首先,依据预设的预测采样值Sp,计算当前输入的采样值Si与预测采样值Sp之间的差值d,其中,预测采样值Sp是通过对当前输入的采样值Si的上一个采样值进行量化编码后生成的,可以将预先生成的预测采样值Sp存储在预设的结构变量中。
然后,依据量化步长q对得到的差值d进行量化编码,得到4位的编码值 I,4位的编码值I中包括一个符号位和三个幅度位,具体为:预先设置索引调整表和步长调整表,所述索引调整表的输入为编码值I,输出为量化步长索引,所述步长调整表的输入为量化步长索引,输出为输入的量化步长索引对应的量化步长q;量化编码时,先利用结构变量中存储的上一个采样值的量化步长索引查询步长调整表,得到量化步长q,如果当前输入的采样值Si和预测采样值Sp之间的差值d为负数,则4位的编码值I中的第3位的值设置为1,反之,设置为0;如果当前输入的采样值Si和预测采样值Sp之间的差值d大于量化步长q,则4位的编码值I中的第2位的值设置为1,反之,设置为0;如果差值d与量化步长q的差值大于q/2,则4位的编码值I中的第1位的值设置为1,反之,设置为0;如果(d-q-q/2)大于q/4,则4位的编码值I中的第0 位的值设置为1,反之,设置为0,这样就得到了4位的编码值I。
最后,利用得到的编码值I查询索引调整表,得到量化步长索引,将该量化步长索引与结构变量中存储的量化步长索引相加,得到新的量化步长索引,将新的量化步长索引存储到结构变量中,替换原先存储的量化步长索引;在对下一个采样值进行量化编码时,利用新的量化步长索引来查询步长调整表。
ADPCM编码单元将对当前输入的采样值进行量化编码后得到的编码值I提供给发送单元,然后ADPCM编码单元还需要重复上述过程,继续对下一个采样值进行量化编码处理。
本优选实施例中,利用基于波形编码的ADPCM编码单元对音频数据进行量化编码,相对于基于参数编码的wma编码技术,在对音频数据进行压缩的同时可以最大程度的保存原始的音频数据的音频信息,从而有利于音频数据中音频指纹的提取;而且,ADPCM编码单元进行量化编码时,计算复杂度低,计算量较少,适合各种移动终端;而且,基于参数编码的wma编码技术中,利用wma编码器对原始的音频数据(如44.1KHz采样率的mp3音频数据)进行降采样处理,得到采样率为8KHz的音频数据,然后wma编码器再对采样率为8KHz的音频数据进行编码处理,将其编码为20k字节大小的wma格式的文件,本优选实施例中,ADPCM编码单元对降采样处理后得到的音频数据进行编码处理后,一般会得到10k字节的音频数据,因此,与现有技术相比,本优选实施例中,音频客户端传输给服务器的流量减少了一半。
步骤S203,音频客户端将编码值发送给服务器。
具体的,发送单元从ADPCM编码单元接收到编码值I后,通过网络将该编码值I发送到服务器的接收单元,接收单元从音频客户端的发送单元接收到音频数据的编码值,将所接收的编码值发送给ADPCM解码单元进行解码处理。
步骤S204,服务器对收到的编码值进行逆量化解码处理,得到重建的音频数据。
具体的,ADPCM解码单元对从接收单元得到的编码值I进行逆量化解码处理,该过程是步骤202中量化编码处理的逆过程,逆量化解码处理的方法为:
首先,利用预设的量化步长索引查询步长调整表,得到量化步长q;其中,由于编码值I的解码处理是ADPCM编码单元对音频数据进行量化处理的逆过程,因此,逆量化解码时利用的量化步长索引、索引调整表和步长调整表与音频客户端中ADPCM编码单元中的量化步长索引、索引调整表和步长调整表是一致的。
然后,依据量化步长q对当前编码值I进行逆量化处理,得到差值dq,其中,ADPCM解码单元收到的编码值为I=0000、I=0001、I=0010、I=0011、I=0100、 I=0101、I=0110、I=0111、I=1000、I=1001、I=1010、I=1011、I=1100、I=1101、 I=1110、I=1111,例如,对于编码值I=0000,dq=8/q,对于编码值I=0111, dq=q+q/2+q/4+8/q,对于编码值I=0110,则dq=q+q/2+8/q;如此,进行求编码值I的逆过程。
最后,将预设的预测解码值Sp与差值dq相加得到解码值Sr,该解码值Sr就是ADPCM解码单元依据编码值重建的音频数据;此外,用解码值Sr作为新的预测解码值Sp保存到预设的结构变量中,用当前编码值I调整量化步长索引,将新的量化步长索引保存到预设的结构变量中,以便进行下一个编码值的逆量化解码处理。
步骤S205,服务器从重建的音频数据中提取音频指纹。
具体的,指纹提取单元从ADPCM解码单元接收重建的音频数据,从该音频数据的第1帧开始,对于音频数据中的每一帧,利用如下公式得到音频指纹:
该公式中,F(n,m)表示音频数据中的第n帧的第m个频带对应的数值, E(n,m)-E(n,m+1)表示第n帧中第m个频带与第m+1个频带的能量变化,E(n-1,m)-E(n-1,m+1)表示第n-1帧中第m个频带与第m+1个频带的能量变化,利用该公式,可以得到当前帧的相邻频带的能量变化和当前帧的前一帧的相同的相邻频带的能量变化,如果当前帧的相邻频带的能量变化大于当前帧的前一帧的相同的相邻频带的能量变化,即 E(n,m)-E(n,m+1)-(E(n-1,m)-E(n-1,m+1))>0,则当前帧中相邻频带的前一个频带对应的数值为1,如果当前帧的相邻频带的能量变化小于等于当前帧的前一帧的相同的相邻频带的能量变化,即 E(n,m)-E(n,m+1)-(E(n-1,m)-E(n-1,m+1))≤0,则当前帧中相邻频带的前一个频带对应的数值为0,以此类推,为当前帧中除最后一个频带以外的每个频带得到一个对应的数值,将每个频带对应的数值组合得到该当前帧的音频指纹;如图3所示,本优选实施例中有33个频带,因此存在32组相邻频带,对应得到32个数值,依据得到32数值组成音频指纹,该音频指纹是由1和0组成的32bit的数据;利用该方法对音频数据中的每一帧都进行处理,对应每一帧都得到一个音频指纹;本优选实施例中重建的音频指纹有256帧,将得到255个32b i t的音频指纹;指纹提取单元将得到的音频指纹发送给音频识别单元进行匹配。
步骤S206,服务器依据提取的音频指纹在音频数据库进行匹配,得到匹配的音频信息。
具体的,音频识别单元从指纹提取单元接收到提取出的音频指纹,将255 个32b it的音频指纹与音频数据库中音频信息的255个32b i t的音频指纹进行匹配,进行匹配时,统计提取出的音频指纹与音频数据库中音频信息的音频指纹中,相应的32b i t的音频指纹中数值的不匹配个数,然后每个32b i t 的音频指纹中的不匹配个数相加,得到音频指纹与该音频信息的音频指纹的不匹配总数nomatchsum。
然后利用如下公式计算该音频信息的音频指纹的匹配分数:
score=1-nomatchsum/(255×32)
该公式中,score表示音频信息的音频指纹与提取的音频指纹的匹配分数,nomatchsum表示该音频信息的音频指纹与提取的音频指纹的不匹配总数。
用计算出的匹配分数与预设的匹配门限(如0.275)进行比较,如果计算出的匹配分数大于匹配门限,表示该音频信息的音频指纹与提取的音频指纹相匹配,如果计算出的匹配分数小于等于匹配门限,表示该音频信息的音频指纹与提取的音频指纹不匹配。
一般的,音频客户端将发送给服务器3×2×8000/4个或3×2×5000/4 个编码值,其中,3指的是3秒,2指的是双声道,8000或5000分别指的是采样率8KHz和采样率5KHz,4指的是压缩比,这些编码值将包括两段音频数据,从这两段中提取两个音频指纹,利用上述方法,将音频数据库中的音频指纹与提取的两段音频指纹进行匹配,当匹配结果是两个音频指纹都匹配时,表示音频数据库中的该音频指纹对应的音频信息是提取的音频指纹的音频信息;当匹配结果是两个音频指纹都不匹配或只有一个匹配时,表示该音频信息不是提取的音频指纹对应的音频信息,继续在音频数据库中进行匹配;如果存在多个音频信息都是提取的音频指纹的音频信息,则取其中匹配分数最高的音频信息作为最终的识别结果。
图1所示的音频指纹的提取系统中:
音频客户端10,用于对原始的音频数据进行降采样处理,得到低频带的音频数据,并对低频带的音频数据进行量化编码处理,得到编码值,将所述编码值发送到服务器11;
服务器11,用于对收到的编码值进行逆量化解码处理,得到重建的音频数据,从重建的音频数据中提取音频指纹。
其中,重采样单元101,用于将原始的音频数据通过截止频率为1/M的低通滤波器,然后每M个样点抽取一个样点,得到样点的采样值,所述采样值为低频带的音频数据;其中,M为正整数。
ADPCM编码单元102,用于计算当前输入的采样值与预设的预测采样值之间的差值;利用存储的上一个采样值的量化步长索引查询预设的步长调整表,得到量化步长,如果所述差值为负数,则4位的编码值中的第3位的值设置为1,反之,设置为0;如果所述差值大于量化步长,则4位的编码值中的第2位的值设置为1,反之,设置为0;如果差值与量化步长的差值大于二分之一的量化步长,则4位的编码值中的第1位的值设置为1,反之,设置为0;如果差值减去量化步长再减去二分之一的量化步长后大于四分之一的量化步长,则4位的编码值中的第0位的值设置为1,反之,设置为0。
其中,所述ADPCM编码单元102,还用于利用得到的编码值查询预设的索引调整表,得到量化步长索引,将所述量化步长索引与存储的量化步长索引相加,得到新的量化步长索引,存储新的量化步长索引,所述新的量化步长索引在对下一个采样值进行量化编码时用于查询步长调整表。
其中,ADPCM解码单元112,用于利用预设的量化步长索引查询步长调整表,得到量化步长;依据所述量化步长对当前的编码值进行逆量化处理,得到差值;将预设的预测解码值与差值相加得到解码值,所述解码值为重建的音频数据。
所述ADPCM解码单元112,还用于存储所述解码值,所述解码值作为新的预测解码值;用当前编码值调整量化步长索引,存储新的量化步长索引,所述新的量化步长索引用于进行下一个编码值的逆量化解码处理。
本发明的上述技术方案,对原始的音频数据进行降采样处理,实现在保留了最重要的音频数据的同时去除了多余的其他频带的音频数据,从而减少音频客户端的处理数据量和传输数据量,提高音频客户端的工作效率,使得更多的移动终端能够支持这种音频客户端,提高音频客户端的应用范围;而且,利用ADPCM编码技术对音频数据进行编码后发送到服务器,在对音频数据进行压缩的同时可以最大程度的保存原始的音频数据的音频信息,从而有利于音频数据中音频指纹的提取,提高提取的音频指纹的准确率,进而提高服务器的识别准确率;ADPCM编码方式的计算复杂度低,计算量较少,适合各种移动终端。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种音频指纹的提取方法,其特征在于,该方法包括:
音频客户端对原始的音频数据进行降采样处理,得到低频带的音频数据,并对低频带的音频数据进行量化编码处理,得到编码值,将所述编码值发送到服务器;所述对低频带的音频数据进行量化编码处理包括,计算当前输入的采样值与预设的预测采样值之间的差值;利用存储的上一个采样值的量化步长索引查询预设的步长调整表,得到量化步长,如果所述差值为负数,则4位的编码值中的第3位的值设置为1,反之,设置为0;如果所述差值大于量化步长,则4位的编码值中的第2位的值设置为1,反之,设置为0;如果差值与量化步长的差值大于二分之一的量化步长,则4位的编码值中的第1位的值设置为1,反之,设置为0;如果差值减去量化步长再减去二分之一的量化步长后大于四分之一的量化步长,则4位的编码值中的第0位的值设置为1,反之,设置为0;得到4位的编码值;利用得到的编码值查询预设的索引调整表,得到量化步长索引,将所述量化步长索引与存储的量化步长索引相加,得到新的量化步长索引,存储新的量化步长索引,所述新的量化步长索引在对下一个采样值进行量化编码时用于查询步长调整表;
服务器对收到的编码值进行逆量化解码处理,得到重建的音频数据,从重建的音频数据中提取音频指纹。
2.根据权利要求1所述的方法,其特征在于,所述对原始的音频数据进行降采样处理具体为:
将原始的音频数据通过截止频率为1/M的低通滤波器,然后每M个样点抽取一个样点,得到样点的采样值,所述采样值为低频带的音频数据;其中,M为正整数。
3.根据权利要求1所述的方法,其特征在于,所述对收到的编码值进行逆量化解码处理具体为:
利用预设的量化步长索引查询步长调整表,得到量化步长;
依据所述量化步长对当前的编码值进行逆量化处理,得到差值;
将预设的预测解码值与差值相加得到解码值,所述解码值为重建的音频数据。
4.根据权利要求3所述的方法,其特征在于,该方法还包括:
存储所述解码值,所述解码值作为新的预测解码值;
用当前编码值调整量化步长索引,存储新的量化步长索引,所述新的量化步长索引用于进行下一个编码值的逆量化解码处理。
5.一种音频指纹的提取系统,其特征在于,该系统包括:音频客户端、服务器;其中,
音频客户端,用于对原始的音频数据进行降采样处理,得到低频带的音频数据,并对低频带的音频数据进行量化编码处理,得到编码值,将所述编码值发送到服务器;所述音频客户端还包括ADPCM编码单元,用于计算当前输入的采样值与预设的预测采样值之间的差值;利用存储的上一个采样值的量化步长索引查询预设的步长调整表,得到量化步长,如果所述差值为负数,则4位的编码值中的第3位的值设置为1,反之,设置为0;如果所述差值大于量化步长,则4位的编码值中的第2位的值设置为1,反之,设置为0;如果差值与量化步长的差值大于二分之一的量化步长,则4位的编码值中的第1位的值设置为1,反之,设置为0;如果差值减去量化步长再减去二分之一的量化步长后大于四分之一的量化步长,则4位的编码值中的第0位的值设置为1,反之,设置为0;得到4位的编码值;利用得到的编码值查询预设的索引调整表,得到量化步长索引,将所述量化步长索引与存储的量化步长索引相加,得到新的量化步长索引,存储新的量化步长索引,所述新的量化步长索引在对下一个采样值进行量化编码时用于查询步长调整表;
服务器,用于对收到的编码值进行逆量化解码处理,得到重建的音频数据,从重建的音频数据中提取音频指纹。
6.根据权利要求5所述的系统,其特征在于,所述音频客户端进一步包括:
重采样单元,用于将原始的音频数据通过截止频率为1/M的低通滤波器,然后每M个样点抽取一个样点,得到样点的采样值,所述采样值为低频带的音频数据;其中,M为正整数。
7.根据权利要求5所述的系统,其特征在于,所述服务器进一步包括:
ADPCM解码单元,用于利用预设的量化步长索引查询步长调整表,得到量化步长;依据所述量化步长对当前的编码值进行逆量化处理,得到差值;将预设的预测解码值与差值相加得到解码值,所述解码值为重建的音频数据。
8.根据权利要求7所述的系统,其特征在于,所述ADPCM解码单元,还用于存储所述解码值,所述解码值作为新的预测解码值;用当前编码值调整量化步长索引,存储新的量化步长索引,所述新的量化步长索引用于进行下一个编码值的逆量化解码处理。
CN201310187677.6A 2013-05-20 2013-05-20 一种音频指纹的提取方法及系统 Active CN104184697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310187677.6A CN104184697B (zh) 2013-05-20 2013-05-20 一种音频指纹的提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310187677.6A CN104184697B (zh) 2013-05-20 2013-05-20 一种音频指纹的提取方法及系统

Publications (2)

Publication Number Publication Date
CN104184697A CN104184697A (zh) 2014-12-03
CN104184697B true CN104184697B (zh) 2018-11-09

Family

ID=51965452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310187677.6A Active CN104184697B (zh) 2013-05-20 2013-05-20 一种音频指纹的提取方法及系统

Country Status (1)

Country Link
CN (1) CN104184697B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108198573B (zh) * 2017-12-29 2021-04-30 北京奇艺世纪科技有限公司 音频识别方法及装置、存储介质及电子设备
CN110289013B (zh) * 2019-07-24 2023-12-19 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101002254A (zh) * 2004-07-26 2007-07-18 M2Any有限公司 音频信号的鲁棒分类设备和方法、建立并操作音频信号数据库的方法和计算机程序
CN101882439A (zh) * 2010-06-10 2010-11-10 复旦大学 一种基于Zernike矩的压缩域音频指纹方法
CN102169694A (zh) * 2010-02-26 2011-08-31 华为技术有限公司 生成心理声学模型的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8649523B2 (en) * 2011-03-25 2014-02-11 Nintendo Co., Ltd. Methods and systems using a compensation signal to reduce audio decoding errors at block boundaries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101002254A (zh) * 2004-07-26 2007-07-18 M2Any有限公司 音频信号的鲁棒分类设备和方法、建立并操作音频信号数据库的方法和计算机程序
CN102169694A (zh) * 2010-02-26 2011-08-31 华为技术有限公司 生成心理声学模型的方法及装置
CN101882439A (zh) * 2010-06-10 2010-11-10 复旦大学 一种基于Zernike矩的压缩域音频指纹方法

Also Published As

Publication number Publication date
CN104184697A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
CN100583241C (zh) 音频编码设备、音频解码设备、音频编码方法和音频解码方法
CN1942928B (zh) 用于处理音频信号的模块和方法
CN105210149B (zh) 用于音频信号解码或编码的时域电平调整
CN103415884B (zh) 用于执行霍夫曼编码的装置和方法
RU2366007C2 (ru) Способ и устройство для восстановления речи в системе распределенного распознавания речи
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
CN1552059A (zh) 分布式语音识别系统中语音识别的方法和设备
CN1334952A (zh) 用于改善编码通信信号性能的编码增强特性
CN103325377A (zh) 音频编码方法
CN101485094B (zh) 最大熵意义下后向兼容多通道音频编码与解码方法和系统
CN104025190A (zh) 能量无损编码方法和设备、音频编码方法和设备、能量无损解码方法和设备、以及音频解码方法和设备
CN101542599A (zh) 用于编码和解码宽带语音信号的方法、装置和系统
CN1193344C (zh) 语音解码器和一种语音解码方法
CN101176148A (zh) 编码装置、解码装置和其方法
CN101149926A (zh) 音频信号插补方法及装置
CN104184697B (zh) 一种音频指纹的提取方法及系统
CN103714822A (zh) 基于silk编解码器的子带编解码方法及装置
CN100585700C (zh) 语音编码装置及其方法
CN101303855B (zh) 一种舒适噪声参数产生方法和装置
CN102982807B (zh) 用于对语音信号lpc系数进行多级矢量量化的方法和系统
CN101960514A (zh) 信号分析控制系统及其方法、信号控制装置及其方法和程序
CN101814289A (zh) 低码率dra数字音频多声道编码方法及其系统
CN116935903A (zh) 音频均衡器的调节方法、装置、计算机设备及存储介质
CN103761969A (zh) 基于高斯混合模型的感知域音频编码方法及系统
CN108877815B (zh) 一种立体声信号处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160316

Address after: 100027 Haidian District, Qinghe Qinghe East Road, No. 23, building two, floor 2108, No., No. 18

Applicant after: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the street Baidu building, No. 10

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220510

Address after: 518057 3305, floor 3, building 1, aerospace building, No. 51, Gaoxin South ninth Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen Taile Culture Technology Co.,Ltd.

Address before: 2108, floor 2, building 23, No. 18, anningzhuang East Road, Qinghe, Haidian District, Beijing 100027

Patentee before: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right