CN110647656B - 一种利用变换域稀疏化和压缩降维的音频检索方法 - Google Patents
一种利用变换域稀疏化和压缩降维的音频检索方法 Download PDFInfo
- Publication number
- CN110647656B CN110647656B CN201910876038.8A CN201910876038A CN110647656B CN 110647656 B CN110647656 B CN 110647656B CN 201910876038 A CN201910876038 A CN 201910876038A CN 110647656 B CN110647656 B CN 110647656B
- Authority
- CN
- China
- Prior art keywords
- audio
- signal
- frame
- fingerprint
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明智能应用型音频信号处理领域,具体涉及一种利用变换域稀疏化和压缩降维的音频检索方法。该方法用音频指纹作为音频检索特征,本技术在音频检索的训练阶段通过利用变换域稀疏化和压缩降维先对样本音频数据进行压缩,再对压缩后的音频序列提取音频指纹,使得提取的音频指纹数据量减小,从而减小样本音频指纹库的数据量。在音频检索的识别(检索)阶段用相同的算法压缩待检音频后提取待检音频指纹和样本音频指纹匹配很大程度上提高了检索效率。
Description
技术领域
本发明智能应用型音频信号处理领域,具体涉及一种利用变换域稀疏化和压缩降维的音频检索方法。
背景技术
近年来,随着数字化信息的快速发展,各种以音频为载体的作品也越来越多,如何管理这些种类繁多的音频文件就成为一个突出的问题,特别是涉及到音频作品的版权问题。而现实生活中的音频文件版本种类繁多,丰富了人们生活同时也给人们带来了麻烦,人们如何准确、高效的从数据库中检索获得自己想要的信息,已经成为信息时代人们迫切需要同时也是音频检索领域有待解决的重要问题之一。
对于上述问题,有一些研究人员通过提取传统音频特征构建音频数据库,进行音频目标数据检索。但是,由于特征维数较大增加了特征库存储量、降低了检索效率。对此,在保证有效音频特征的前提下减小样本音频特征库存储量对于音频检索速率具有重要的意义。
发明内容
针对样本数据量大且检索效率低等问题,本发明设计一种利用变换域稀疏化和压缩降维的音频检索方法,该方法的特点在于在提取音频特征前对原始音频数据进行压缩,压缩后的音频数据量在很大程度上减小,这就为接下来的特征提取减少了很多时间,且经此压缩后的音频序列提取的音频特征的数据量也减少很多。
针对样本音频指纹库数据量大检索速率慢问题,本发明提供一种利用变换域稀疏化和压缩降维的算法对样本音频先压缩在提取音频指纹特征,该方法包括①样本音频的压缩、②音频指纹特征的提取、③目标音频特征库的建立、④待检音频指纹与样本音频指纹库的匹配方法。
本发明的技术方案用于解决音频检索过程中样本音频指纹库数据量较大的问题,通过对样本音频库中的音频采取先压缩再提取音频指纹建立样本音频指纹库的方法,实现降低样本音频指纹库的数据量,主要分为以下几个步骤:
步骤1,构建样本声音库
根据音频种类的不同以及现有的音频数据将音频数据进行同类分组。同类分组的目的是便于提高音频检索速率,将样本音频按上述分组分别建立音频子库以备音频训练使用。音频检索主要分为样本音频的训练阶段和待测音频的识别阶段,总体框架图如图1.所示:
步骤2,训练阶段,利用变换域稀疏化和压缩降维对样本音频进行压缩处理
选取上述样本声音库中的各类音频数据作为原始训练数据,对上述各类音频进行压缩处理,具体流程如下:
Step2.1:声音预处理
由于音频信号具有短时平稳性,且音频的首末段以及中间段有不含信息的音频段,为了更高效的压缩样本音频,需要对样本音频进行预处理,分为带通滤波、预加重、分帧、加窗和静音帧判别。音频预处理流程图如图2.所示。
(1)选取8kHz采样音频信号作为处理对象,为提取人耳感知最重要的频率成分,选用通带范围为300Hz-2000Hz的带通滤波器对信号进行滤波、预加重处理。
(2)对滤波、预加重后的信号进行加窗分帧处理,本次分帧和加窗是针对样本压缩无需考虑帧与帧之间的平滑过渡,因此本次分帧采用连续分段的方法,以帧长为0.064秒对音频进行分帧,每一帧用相同长度的矩形窗进行加权。加窗公式如下:
其中,p是样点编号,N为矩形窗的长度,大小为一帧音频的样点数。
(3)静音帧的判别,在上一段音频事件的结束和本段音频事件的起始之间通常会有一定的静音时段,在音频特征库的构建过程中这类信号是不需要进行分析处理的。对于本段音频事件内部也存在静音帧(信号幅度为零或很小),如果将这些帧也纳入特征提取的范围内会影响音频特征提取的准确度,最终影响音频的正确识别。因此在对提取音频特征之前要排除静音帧的干扰。解决办法是求取每一帧音频信号的短时能量信息,设定能量阈值为2~4,如果计算该帧能量低于设定的阈值,则视该帧为静音帧,丢弃该帧继续计算下一帧的短时能量信息,直到找到非静音帧为止或音频结束。短时能量的计算公式如下:
其中,xn(p)是音频信号第n帧第p个样点,L为帧长,E(n)为第n帧音频信号的平均帧能量。
Step2.2:利用变换域稀疏化和压缩降维对样本音频进行压缩处理
音频信号压缩的前提是信号具有稀疏性,由于并不是所有的音频信号都具有稀疏性,因此,在进行音频信号压缩前要先将音频信号转化为具有稀疏性的音频信号,本设计利用一组稀疏基对其信号进行稀疏化。具体流程如下:
(1)对预处理后的音频信号进行DCT域稀疏化处理,将音频信号转化为具有频域稀疏特性的音频信号,设X为上述预处理后的第n帧音频信号,长度为N,每个样点处信号记为xn(p),p∈[1,2,.......,N],根据稀疏编码模型音频信号xn(p)在离散余弦变换(DiscreteCosine Transform,DCT)域的稀疏系数α可用以下公式表示:
α=ΨTX
其中,X=[xn(1),xn(2),......,xn(N)],Ψ为DCT基,ΨT表示矩阵Ψ的转置矩阵,α与X都是N×1维的向量,Ψ为N×N的矩阵。ΨT=[Ψ1,Ψ2,.....,ΨN],α=[α1,α2,......,αN]T,音频信号序列xn(p)在DCT域的稀疏系数α第p个系数表示为:
其中
其矩阵形式为:
可得稀疏基矩阵:
音频信号X在DCT域基Ψ上仅有q(q<<N)个非零系数,称Ψ为音频信号X的稀疏基。
由此,构建频域稀疏化后的音频信号:
(2)对稀疏音频信号进行压缩,要实现稀疏音频信号的压缩,需要通过一个观测矩阵才能够把稀疏信号投影到低维空间,由于音频检索过程中要求观测矩阵在训练和识别阶段保持一致,因此选择一个稳定的观测矩阵至关重要。将上述q-稀疏音频信号经过观测投影矩阵Φ=[Φ1,Φ2,.......ΦM]投影后的序列即为观测序列信号,表示为:
其中,ΦT为Φ的转置表示M×N的观测矩阵(M<<N),yn(p)表示第n帧的第p个观测序列信号,维度是M×1的一维向量。
或是为:
当压缩比为4∶1时,观测矩阵表示为:
或者为:
根据上述观测矩阵可以推知其他压缩比之下的观测矩阵,考虑到适用性及效果,通常优选4∶1和3∶1两种压缩比之的情况。
步骤3,训练阶段,建立样本音频指纹库
选取上述压缩后的各类音频数据作为原始训练数据,提取压缩后的音频数据指纹特征建立样本音频指纹库,音频指纹特征提取流程图如图3.所示,具体流程如下:
Step3.1:对上述压缩后的样本音频数据进行指纹提取
一个数字音频指纹可视为一段音频的浓缩精华,它包含了音频数据听觉最重要的部分,它相对于音频数据本身,具有数据量小、被检索速率快等优点,在众多的音频指纹中,Philips音频指纹模型因具有较高的鲁棒性且算法较为简单,本文以此指纹模型为基础进行音频指纹提取,其具体提取步骤如下:
(1)对上述压缩后的音频数据yn(p)进行二次分帧加窗,为了使帧与帧之间过渡平滑,分帧使用交叠分段方法,帧长取0.064秒,帧与帧之间保持75%的重叠率,每一帧用相同长度的汉宁窗进行加权。加窗公式如下:
其中,N为汉宁窗的长度,大小为一帧音频的样点数。
(2)对分帧加窗后的信号yn(p)进行离散傅里叶变换,变换公式如下:
其中,Yn(k)为频域信号,yn(p)为压缩后的第n帧时域信号,k为频率索引,N为离散傅里叶变换的样本长度。
(3)对离散傅里叶变换后的频域信号进行频谱子带划分,从频谱中选取33个非重叠的频带,频带之间是等对数间隔的,第m子带的起始频率也即第m-1子带的终止频率f(m)可表示为下式:
其中Fmin为映射下限,此处为300Hz,Fmax为映射上限,此处为2000Hz,M为子带个数,此处为33。
(4)计算每帧音频的各个子带能量,分别求其上述选取的33个非重叠频带的能量,假设第m个子带起始频率为f(m),终止频率为f(m+1),离散傅里叶变换后的频域信号为Yn(k),则第n帧的第m个子带能量的公式如下:
(5)生成每帧音频的子指纹,对上述每帧所求的33个子带能量作比特差分判别,生成每帧音频的32位二进制码(子指纹),第n帧的第m个子带能量为E(n,m),其对应的二进制比特信息为F(n,m),则每帧的二进制音频指纹信息判别公式如下:
由上式可知,每帧音频最后生成一个32维的二进制子指纹信息,子指纹所含信息较少,一个音频指纹特征常有多个子指纹构成。
步骤4,识别阶段,提取待检测音频的指纹特征与模板进行匹配
将待测音频按照训练阶段的步骤进行音频压缩、音频指纹提取,将提取的待测音频指纹与样本音频指纹库中的音频指纹进行匹配得出结果,具体流程如下:(1)选取一段8kHz待测音频经上述预处理得到待测音频序列信号Z,待测音频信号第n帧的信号记为Zn(p),p∈[1,2,.......,N],则待测音频序列信号Zn(p)在DCT域的稀疏系数α可用以下公式表示:
α=ΨTZ
其中,Z=[Zn(1),Zn(2),.....,Zn(N)],α与Z都是N×1维的向量,ΨT为N×N的矩阵,ΨT为待测音频信号Zn(p)在DCT域的基。
待测音频信号Zn(p)在DCT域基ΨT上最多有l(l<<N)个非零系数,称Ψ为待测音频信号Zn(p)的稀疏基。
由此,构建频域稀疏化后的音频信号:
(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配,本技术选取比特误差率(Bit Error Rate,BER)作为匹配算法比较两个音频片段之间的相似度,其计算公式如下:
其中,F(n,m),F′(n,m)分别代表样本音频和待检音频第n帧音频指纹的第m位,T为音频总帧数,M为音频指纹位数。
(5)设置比特误差率的阈值为0.35,求其BER的值,若其值小于0.35则表示待检音频与样本音频库中的音频相似度较高,反之,待检音频与样本音频库中的音频相似度较低,从而得出检测结果。
本发明的优点在于:
1、算法复杂度低且灵活性更强
2、比传统的音频特征数据量更小
3、引入改进压缩感知算法,复杂度低且大量减少了样本数据库的数据量
4、检索速度比传统检索算法快
附图说明
图1.音频检索总框架流程图
图2.音频预处理流程图
图3.音频指纹特征提取流程图
具体实施方式
本发明的技术方案用于解决音频检索过程中样本音频指纹库数据量较大的问题以及解决音频检索速率较慢等问题,主要分为以下几个步骤:
步骤1,构建样本声音库
根据音频种类的不同以及现有的音频数据将音频数据进行同类分组。同类分组的目的是便于提高音频检索速率,将样本音频按上述分组分别建立音频子库以备音频训练使用。音频检索主要分为样本音频的训练阶段和待测音频的识别阶段,总体框架图如图1.所示:
步骤2,训练阶段,利用变换域稀疏化和压缩降维对样本音频进行压缩处理
选取上述样本声音库中的各类音频数据作为原始训练数据,对上述各类音频进行压缩处理,具体流程如下:
Step2.1:声音预处理
由于音频信号具有短时平稳性,且音频的首末段以及中间段有不含信息的音频段,为了更高效的压缩样本音频,需要对样本音频进行预处理,分为带通滤波、预加重、分帧、加窗和静音帧判别。
(1)选取8kHz采样音频信号作为处理对象,为提取人耳感知最重要的频率成分,选用通带范围为300Hz-2000Hz的带通滤波器对信号进行滤波、预加重处理。
(2)对滤波、预加重后的信号进行加窗分帧处理,本次分帧和加窗是针对样本压缩无需考虑帧与帧之间的平滑过渡,因此本次分帧采用连续分段的方法,以帧长为0.064秒对音频进行分帧,每一帧用相同长度的矩形窗进行加权。加窗公式如下:
其中,p是样点编号,N为矩形窗的长度,大小为一帧音频的样点数。
(3)静音帧的判别,在上一段音频事件的结束和本段音频事件的起始之间通常会有一定的静音时段,在音频特征库的构建过程中这类信号是不需要进行分析处理的。对于本段音频事件内部也存在静音帧(信号幅度为零或很小),如果将这些帧也纳入特征提取的范围内会影响音频特征提取的准确度,最终影响音频的正确识别。因此在对提取音频特征之前要排除静音帧的干扰。解决办法是求取每一帧音频信号的短时能量信息,设定能量阈值一般为2~4,但具体情况以用户实际测量为准,比如有轻微背景噪声时,阈值就应该大一些,如果计算结果该帧能量低于设定的阈值,则视该帧为静音帧,丢弃该帧继续计算下一帧的短时能量信息,直到找到非静音帧为止或音频结束。短时能量的计算公式如下:
其中,xn(p)是音频信号第n帧第p个样点,L为帧长,E(n)为第n帧音频信号的平均帧能量。
Step2.2:利用变换域稀疏化和压缩降维对样本音频进行压缩处理
音频信号压缩的前提是信号具有稀疏性,由于并不是所有的音频信号都具有稀疏性,因此,在进行音频信号压缩前要先将音频信号转化为具有稀疏性的音频信号,本设计利用一组稀疏基对其信号进行稀疏化。具体流程如下:
(1)对预处理后的音频信号进行DCT域稀疏化处理,将音频信号转化为具有频域稀疏特性的音频信号,设X为上述预处理后的第n帧音频信号,长度为N,每个样点处信号记为xn(p),p∈[1,2,.......,N],根据稀疏编码模型音频信号xn(p)在离散余弦变换(DiscreteCosine Transform,DCT)域的稀疏系数α可用以下公式表示:
α=ΨTX
其中,X=[xn(1),xn(2),.....,xn(N)],Ψ为DCT基,ΨT表示矩阵Ψ的转置矩阵,α与X都是N×1维的向量,Ψ为N×N的矩阵。ΨT=[Ψ1,Ψ2,.....,ΨN],α=[α1,α2,......,αN]T,音频信号序列xn(p)在DCT域的稀疏系数α第p个系数表示为:
其中
其矩阵形式为:
可得稀疏基矩阵:
音频信号X在DCT域基Ψ上仅有q(q<<N)个非零系数,称Ψ为音频信号X的稀疏基。
由此,构建频域稀疏化后的音频信号:
(2)对稀疏音频信号进行压缩,要实现稀疏音频信号的压缩,需要通过一个观测矩阵才能够把稀疏信号投影到低维空间,由于音频检索过程中要求观测矩阵在训练和识别阶段保持一致,因此选择一个稳定的观测矩阵至关重要。将上述q-稀疏音频信号经过观测投影矩阵Φ=[Φ1,Φ2,......ΦM]投影后的序列即为观测序列信号,表示为:
其中,ΦT为Φ的转置表示M×N的观测矩阵(M<<N),yn(p)表示第n帧的第p个观测序列信号,维度是M×1的一维向量。
或是为:
当压缩比为4∶1时,观测矩阵表示为:
或者为:
若压缩比设为4∶1,则样本音频数据库的数据量就会减少4倍,用压缩后的音频数据提取的样本音频指纹数据也将减少4倍,用此音频指纹库作为样本音频指纹库可提高音频的检索速率。
步骤3,训练阶段,建立样本音频指纹库
选取上述压缩后的各类音频数据作为原始训练数据,提取压缩后的音频数据指纹特征建立样本音频指纹库,音频指纹特征提取流程图如图3.所示,具体流程如下:
Step3.1:对上述压缩后的样本音频数据进行指纹提取
一个数字音频指纹可视为一段音频的浓缩精华,它包含了音频数据听觉最重要的部分,它相对于音频数据本身,具有数据量小、被检索速率快等优点,音频指纹的具体提取步骤如下:
(1)对上述压缩后的音频数据yn(p)进行二次分帧加窗,为了使帧与帧之间过渡平滑,分帧使用交叠分段方法,帧长取0.064秒,帧与帧之间保持75%的重叠率,每一帧用相同长度的汉宁窗进行加权。加窗公式如下:
其中,N为汉宁窗的长度,大小为一帧音频的样点数。
(2)对分帧加窗后的信号yn(p)进行离散傅里叶变换,变换公式如下:
其中,Yn(k)为频域信号,yn(p)为压缩后的第n帧时域信号,k为频率索引,N为离散傅里叶变换的样本长度。
(3)对离散傅里叶变换后的频域信号进行频谱子带划分,从频谱中选取33个非重叠的频带,频带之间是等对数间隔的,第m子带的起始频率也即第m-1子带的终止频率f(m)可表示为下式:
其中Fmin为映射下限,此处为300Hz,Fmax为映射上限,此处为2000Hz,M为子带个数,此处为33。
(4)计算每帧音频的各个子带能量,分别求其上述选取的33个非重叠频带的能量,假设第m个子带起始频率为f(m),终止频率为f(m+1),离散傅里叶变换后的频域信号为Yn(k),则第n帧的第m个子带能量的公式如下:
(5)生成每帧音频的子指纹,对上述每帧所求的33个子带能量作比特差分判别,生成每帧音频的32位二进制码(子指纹),第n帧的第m个子带能量为E(n,m),其对应的二进制比特信息为F(n,m),则每帧的二进制音频指纹信息判别公式如下:
由上式可知,每帧音频最后生成一个32维的二进制子指纹信息,子指纹所含信息较少,一个音频指纹特征常有多个子指纹构成。
步骤4,识别阶段,提取待检测音频的指纹特征与模板进行匹配
将待测音频按照训练阶段的步骤进行音频压缩、音频指纹提取,将提取的待测音频指纹与样本音频指纹库中的音频指纹进行匹配得出结果,具体流程如下:(1)选取一段8kHz待测音频经上述预处理得到待测音频序列信号Z,待测音频信号第n帧的信号记为Zn(p),p∈[1,2,.......,N],则待测音频序列信号Zn(p)在DCT域的稀疏系数α可用以下公式表示:
α=ΨTZ
其中,Z=[Zn(1),Zn(2),.....,Zn(N)],α与Z都是N×1维的向量,ΨT为N×N的矩阵,ΨT为待测音频信号Zn(p)在DCT域的基。
待测音频信号Zn(p)在DCT域基ΨT上最多有l(l<<N)个非零系数,称Ψ为待测音频信号Zn(p)的稀疏基。
由此,构建频域稀疏化后的音频信号:
(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配,本技术选取比特误差率(Bit Error Rate,BER)作为匹配算法比较两个音频片段之间的相似度,其计算公式如下:
其中,F(n,m),F′(n,m)分别代表样本音频和待检音频第n帧音频指纹的第m位,T为音频总帧数,M为音频指纹位数。
(5)设置比特误差率的阈值为0.35,求其BER的值,若其值小于0.35则表示待检音频与样本音频库中的音频相似度较高,反之,待检音频与样本音频库中的音频相似度较低,从而得出检测结果。
本发明技术方案可通过音频固定检索用于音频文件的版权保护,比如,对一段疑似侵权的音频文件进行特征提取与版权音频库特征进行匹配,如若匹配成功,则说明该音频文件为侵权文件;也可用于单独或组合的音频密码锁,比如,事前将用户的一段或多段音频进行训练构建样本音频特征库,在进行密码唤醒时,对唤醒音频特征提取并与样本音频特征库匹配,若匹配成功,则密码锁开启,否则,不开启;本发明不局限于上述应用领域,也可扩展至一些其他的音频唤醒设备,上述描述不构成对本发明的限定。
Claims (3)
1.一种利用变换域稀疏化和压缩降维的音频检索方法,其特征在于包括以下步骤:
步骤1,构建样本声音库
根据音频种类的不同以及现有的音频数据将音频数据进行同类分组;
步骤2,训练阶段,利用变换域稀疏化和压缩降维对样本音频进行压缩处理
选取上述样本声音库中的各类音频数据作为原始训练数据,对上述各类音频进行压缩处理,具体流程如下:
Step2.1:声音预处理
(1)选取上述音频信号作为处理对象,对每一帧音频信号进行带通滤波、预加重、加窗、分帧处理;
(2)对加窗分帧后的信号静音帧的判别,求取每一帧音频信号的短时能量信息,设定能量阈值为2~4,如果该帧能量低于设定的阈值,则视该帧为静音帧,丢弃该帧继续计算下一帧的短时能量信息,直到找到非静音帧为止或音频结束,短时能量的计算公式如下:
其中,p是样点编号,xn(p)是音频信号第n帧第p个样点,L为帧长,E(n)为第n帧音频信号的平均帧能量;
Step2.2:利用变换域稀疏化和压缩降维对样本音频进行压缩处理
根据稀疏编码模型计算DCT基Ψ,预处理后的音频信号xn(p)在DCT域的稀疏系数α可用以下公式表示:
α=ΨTX
其中,X=[xn(1),xn(2),.....,xn(N)]为上述预处理后的第n帧音频信号,长度为N,每个样点处信号记为xn(p),p∈[1,2,.......,N],ΨT表示矩阵Ψ的转置矩阵,α与X都是N×1维的向量,Ψ为N×N的矩阵,ΨT=[Ψ1,Ψ2,.....,ΨN],α=[α1,α2,...αp,...,αN]T,音频信号序列xn(p)在DCT域的稀疏系数α第p个系数表示为:
其中
由此,构建频域稀疏化后的音频信号:
(2)对稀疏音频信号进行压缩,将上述稀疏音频信号经过观测投影矩阵Φ=[Φ1,Φ2,...,Φr,...,ΦM],其中Φr=[Φr(1),Φr(2),......,Φr(N)]T投影,得到观测序列信号,表示为:
其中,Φ表示N×M的观测矩阵,投影矩阵ΦT表示M×N的观测矩阵,M<<N,yn(p)表示第n帧的第p个观测序列信号,维度是M×1的一维向量;
步骤3,训练阶段,建立样本音频指纹库
Step3.1:对上述压缩后的样本音频序列yn(p)进行指纹提取,选取Philips音频指纹模型为指纹特征,具体提取过程如下:
首先,对上述压缩后的音频数据yn(p)进行二次分帧加窗,然后,对分帧加窗后的信号进行离散傅里叶变换并对频域信号进行频谱子带划分,从频谱中选取33个非重叠的频带,频带之间是等对数间隔的,接着,计算每帧音频的各个子带能量,分别求其上述选取的33个非重叠频带的能量,最后,根据子带能量的判别生成每帧音频的子指纹,上述每帧所求的33个子带能量比特差分判别公式如下:
其中,E(n,m)表示音频第n帧的第m个子带能量,F(n,m)表示其对应的二进制比特指纹信息;
步骤4,识别阶段,提取待检测音频的指纹特征与模板进行匹配
(1)选取一段待测音频经上述Step2.1预处理得到待测音频序列信号Z,待测音频信号第n帧的信号记为Zn(p),p∈[1,2,.......,N],则待测音频序列信号Zn(p)经步骤Step2.2中(1)处理可构建频域稀疏化后的待测音频信号:
(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配,选取比特误差率(Bit Error Rate,BER)作为匹配算法比较两个音频片段之间的相似度,其计算公式如下:
其中,F(n,m),F′(n,m)分别代表样本音频和待检音频第n帧音频指纹的第m位,T为音频总帧数,M为音频指纹位数;
(5)设置比特误差率的阈值,若BER值小于阈值则表示待检音频与样本音频库中的音频相似度高,反之,待检音频与样本音频库中的音频相似度低。
2.根据权利要求1所述的一种利用变换域稀疏化和压缩降维的音频检索方法,其特征在于Step2.1中带通滤波器的通带范围为300Hz-2000Hz,加窗算法为矩形窗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876038.8A CN110647656B (zh) | 2019-09-17 | 2019-09-17 | 一种利用变换域稀疏化和压缩降维的音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876038.8A CN110647656B (zh) | 2019-09-17 | 2019-09-17 | 一种利用变换域稀疏化和压缩降维的音频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110647656A CN110647656A (zh) | 2020-01-03 |
CN110647656B true CN110647656B (zh) | 2021-03-30 |
Family
ID=69010587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910876038.8A Active CN110647656B (zh) | 2019-09-17 | 2019-09-17 | 一种利用变换域稀疏化和压缩降维的音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647656B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681664A (zh) * | 2020-07-24 | 2020-09-18 | 北京百瑞互联技术有限公司 | 一种降低音频编码码率的方法、系统、存储介质及设备 |
CN112784099B (zh) * | 2021-01-29 | 2022-11-11 | 山西大学 | 抵抗变调干扰的采样计数音频检索方法 |
CN113157967A (zh) * | 2021-04-19 | 2021-07-23 | 中国科学院声学研究所 | 一种音频检索方法及装置 |
CN113704707A (zh) * | 2021-08-26 | 2021-11-26 | 湖南天河国云科技有限公司 | 基于区块链的音频防篡改方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100749045B1 (ko) * | 2006-01-26 | 2007-08-13 | 삼성전자주식회사 | 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치 |
CN102405495B (zh) * | 2009-03-11 | 2014-08-06 | 谷歌公司 | 使用稀疏特征对信息检索进行音频分类 |
CN102129456B (zh) * | 2011-03-09 | 2012-07-04 | 天津大学 | 去相关稀疏映射音乐流派有监督自动分类方法 |
CN103854646B (zh) * | 2014-03-27 | 2018-01-30 | 成都康赛信息技术有限公司 | 一种实现数字音频自动分类的方法 |
-
2019
- 2019-09-17 CN CN201910876038.8A patent/CN110647656B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110647656A (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647656B (zh) | 一种利用变换域稀疏化和压缩降维的音频检索方法 | |
EP2507790B1 (en) | Method and system for robust audio hashing. | |
US7460994B2 (en) | Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal | |
US10019998B2 (en) | Detecting distorted audio signals based on audio fingerprinting | |
TWI480855B (zh) | 聲音訊號之特徵指紋擷取與匹配 | |
US7081581B2 (en) | Method and device for characterizing a signal and method and device for producing an indexed signal | |
US10089994B1 (en) | Acoustic fingerprint extraction and matching | |
US20090012638A1 (en) | Feature extraction for identification and classification of audio signals | |
CN106294331A (zh) | 音频信息检索方法及装置 | |
CN110600038B (zh) | 一种基于离散基尼系数的音频指纹降维方法 | |
CN110767248B (zh) | 一种抗变调干扰的音频指纹提取方法 | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
JP5772957B2 (ja) | 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム | |
Agarwaal et al. | Robust and lightweight audio fingerprint for Automatic Content Recognition | |
CN108877816B (zh) | 基于qmdct系数的aac音频重压缩检测方法 | |
CN116612746B (zh) | 一种基于人工智能在声学库中进行语音编码识别方法 | |
CN117854540B (zh) | 基于神经网络和多维特征融合的水声目标识别方法及系统 | |
CN113470693B (zh) | 假唱检测方法、装置、电子设备及计算机可读存储介质 | |
Ashurov et al. | Classification of Environmental Sounds Through Spectrogram-Like Images Using Dilation-Based CNN | |
CN114937459A (zh) | 一种层级融合的音频数据增强方法及系统 | |
Ravindran et al. | IMPROVING THE NOISE-ROBUSTNESS OF MEL-FREQUENCY CEPSTRAL COEFFICIENTS FOR SPEECH DISCRIMINATION | |
CN118038887A (zh) | 一种混合语音的处理方法、装置、计算机设备及存储介质 | |
CN112489627A (zh) | 一种工业流水线音频识别方法、装置及存储介质 | |
Hsieh et al. | Feature extraction for audio fingerprinting using wavelet transform | |
Tanweer et al. | The Noise-Robustness of Mel-Frequency Cepstral Coefficients (MFCC) for Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |