CN110647656A - 一种利用变换域稀疏化和压缩降维的音频检索方法 - Google Patents

一种利用变换域稀疏化和压缩降维的音频检索方法 Download PDF

Info

Publication number
CN110647656A
CN110647656A CN201910876038.8A CN201910876038A CN110647656A CN 110647656 A CN110647656 A CN 110647656A CN 201910876038 A CN201910876038 A CN 201910876038A CN 110647656 A CN110647656 A CN 110647656A
Authority
CN
China
Prior art keywords
audio
frame
signal
fingerprint
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910876038.8A
Other languages
English (en)
Other versions
CN110647656B (zh
Inventor
赵文兵
杨淇善
贾懋珅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910876038.8A priority Critical patent/CN110647656B/zh
Publication of CN110647656A publication Critical patent/CN110647656A/zh
Application granted granted Critical
Publication of CN110647656B publication Critical patent/CN110647656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明智能应用型音频信号处理领域,具体涉及一种利用变换域稀疏化和压缩降维的音频检索方法。该方法用音频指纹作为音频检索特征,本技术在音频检索的训练阶段通过利用变换域稀疏化和压缩降维先对样本音频数据进行压缩,再对压缩后的音频序列提取音频指纹,使得提取的音频指纹数据量减小,从而减小样本音频指纹库的数据量。在音频检索的识别(检索)阶段用相同的算法压缩待检音频后提取待检音频指纹和样本音频指纹匹配很大程度上提高了检索效率。

Description

一种利用变换域稀疏化和压缩降维的音频检索方法
技术领域
本发明智能应用型音频信号处理领域,具体涉及一种利用变换域稀疏化和压缩降维的音频检索方法。
背景技术
近年来,随着数字化信息的快速发展,各种以音频为载体的作品也越来越多,如何管理这些种类繁多的音频文件就成为一个突出的问题,特别是涉及到音频作品的版权问题。而现实生活中的音频文件版本种类繁多,丰富了人们生活同时也给人们带来了麻烦,人们如何准确、高效的从数据库中检索获得自己想要的信息,已经成为信息时代人们迫切需要同时也是音频检索领域有待解决的重要问题之一。
对于上述问题,有一些研究人员通过提取传统音频特征构建音频数据库,进行音频目标数据检索。但是,由于特征维数较大增加了特征库存储量、降低了检索效率。对此,在保证有效音频特征的前提下减小样本音频特征库存储量对于音频检索速率具有重要的意义。
发明内容
针对样本数据量大且检索效率低等问题,本发明设计一种利用变换域稀疏化和压缩降维的音频检索方法,该方法的特点在于在提取音频特征前对原始音频数据进行压缩,压缩后的音频数据量在很大程度上减小,这就为接下来的特征提取减少了很多时间,且经此压缩后的音频序列提取的音频特征的数据量也减少很多。
针对样本音频指纹库数据量大检索速率慢问题,本发明提供一种利用变换域稀疏化和压缩降维的算法对样本音频先压缩在提取音频指纹特征,该方法包括①样本音频的压缩、②音频指纹特征的提取、③目标音频特征库的建立、④待检音频指纹与样本音频指纹库的匹配方法。
本发明的技术方案用于解决音频检索过程中样本音频指纹库数据量较大的问题,通过对样本音频库中的音频采取先压缩再提取音频指纹建立样本音频指纹库的方法,实现降低样本音频指纹库的数据量,主要分为以下几个步骤:
步骤1,构建样本声音库
根据音频种类的不同以及现有的音频数据将音频数据进行同类分组。同类分组的目的是便于提高音频检索速率,将样本音频按上述分组分别建立音频子库以备音频训练使用。音频检索主要分为样本音频的训练阶段和待测音频的识别阶段,总体框架图如图1.所示:
步骤2,训练阶段,利用变换域稀疏化和压缩降维对样本音频进行压缩处理
选取上述样本声音库中的各类音频数据作为原始训练数据,对上述各类音频进行压缩处理,具体流程如下:
Step2.1:声音预处理
由于音频信号具有短时平稳性,且音频的首末段以及中间段有不含信息的音频段,为了更高效的压缩样本音频,需要对样本音频进行预处理,分为带通滤波、预加重、分帧、加窗和静音帧判别。音频预处理流程图如图2.所示。
(1)选取8kHz采样音频信号作为处理对象,为提取人耳感知最重要的频率成分,选用通带范围为300Hz-2000Hz的带通滤波器对信号进行滤波、预加重处理。
(2)对滤波、预加重后的信号进行加窗分帧处理,本次分帧和加窗是针对样本压缩无需考虑帧与帧之间的平滑过渡,因此本次分帧采用连续分段的方法,以帧长为0.064秒对音频进行分帧,每一帧用相同长度的矩形窗进行加权。加窗公式如下:
Figure BDA0002204392850000031
其中,p是样点编号,N为矩形窗的长度,大小为一帧音频的样点数。
(3)静音帧的判别,在上一段音频事件的结束和本段音频事件的起始之间通常会有一定的静音时段,在音频特征库的构建过程中这类信号是不需要进行分析处理的。对于本段音频事件内部也存在静音帧(信号幅度为零或很小),如果将这些帧也纳入特征提取的范围内会影响音频特征提取的准确度,最终影响音频的正确识别。因此在对提取音频特征之前要排除静音帧的干扰。解决办法是求取每一帧音频信号的短时能量信息,设定能量阈值为2~4,如果计算该帧能量低于设定的阈值,则视该帧为静音帧,丢弃该帧继续计算下一帧的短时能量信息,直到找到非静音帧为止或音频结束。短时能量的计算公式如下:
Figure BDA0002204392850000032
其中,xn(p)是音频信号第n帧第p个样点,L为帧长,E(n)为第n帧音频信号的平均帧能量。
Step2.2:利用变换域稀疏化和压缩降维对样本音频进行压缩处理
音频信号压缩的前提是信号具有稀疏性,由于并不是所有的音频信号都具有稀疏性,因此,在进行音频信号压缩前要先将音频信号转化为具有稀疏性的音频信号,本设计利用一组稀疏基对其信号进行稀疏化。具体流程如下:
(1)对预处理后的音频信号进行DCT域稀疏化处理,将音频信号转化为具有频域稀疏特性的音频信号,设X为上述预处理后的第n帧音频信号,长度为N,每个样点处信号记为xn(p),p∈[1,2,.......,N],根据稀疏编码模型音频信号xn(p)在离散余弦变换(DiscreteCosine Transform,DCT)域的稀疏系数α可用以下公式表示:
α=ΨTX
其中,X=[xn(1),xn(2),......,xn(N)],Ψ为DCT基,ΨT表示矩阵Ψ的转置矩阵,α与X都是N×1维的向量,Ψ为N×N的矩阵。ΨT=[Ψ1,Ψ2,.....,ΨN],α=[α1,α2,......,αN]T,音频信号序列xn(p)在DCT域的稀疏系数α第p个系数表示为:
Figure BDA0002204392850000041
其中
Figure BDA0002204392850000042
其矩阵形式为:
可得稀疏基矩阵:
Figure BDA0002204392850000051
音频信号X在DCT域基Ψ上仅有q(q<<N)个非零系数,称Ψ为音频信号X的稀疏基。
由此,构建频域稀疏化后的音频信号:
其中,
Figure BDA0002204392850000053
为第n帧得到的稀疏音频信号,长度为N,每个样点处稀疏信号记为
Figure BDA0002204392850000054
p∈[1,2,.......,N],即,
Figure BDA0002204392850000055
q反应了音频信号DCT域稀疏化程度。
(2)对稀疏音频信号进行压缩,要实现稀疏音频信号的压缩,需要通过一个观测矩阵才能够把稀疏信号投影到低维空间,由于音频检索过程中要求观测矩阵在训练和识别阶段保持一致,因此选择一个稳定的观测矩阵至关重要。将上述q-稀疏音频信号
Figure BDA0002204392850000056
经过观测投影矩阵Φ=[Φ1,Φ2,.......ΦM]投影后的序列即为观测序列信号,表示为:
Figure BDA0002204392850000057
其中,ΦT为Φ的转置表示M×N的观测矩阵(M<<N),yn(p)表示第n帧的第p个观测序列信号,维度是M×1的一维向量。
因此,维度为N×1稀疏音频信号
Figure BDA0002204392850000058
经过观测矩阵Φ投影后得到维度为M×1的观测信号yn(p),压缩比为g=N/M,当压缩比为3∶1时,观测矩阵表示为:
Figure BDA0002204392850000061
或是为:
Figure BDA0002204392850000062
当压缩比为4∶1时,观测矩阵表示为:
Figure BDA0002204392850000063
或者为:
Figure BDA0002204392850000064
故N×1稀疏音频信号
Figure BDA0002204392850000065
经过观测矩阵Φ压缩投影后得到维度为M×1的观测信号yn(p)在很大程度上减小了音效序列的数据量。
根据上述观测矩阵可以推知其他压缩比之下的观测矩阵,考虑到适用性及效果,通常优选4∶1和3∶1两种压缩比之的情况。
步骤3,训练阶段,建立样本音频指纹库
选取上述压缩后的各类音频数据作为原始训练数据,提取压缩后的音频数据指纹特征建立样本音频指纹库,音频指纹特征提取流程图如图3.所示,具体流程如下:
以压缩比为4∶1为例,压缩后的音频序列yn(p)与稀疏音频序列
Figure BDA0002204392850000071
均关系可以表示为:
Figure BDA0002204392850000072
Step3.1:对上述压缩后的样本音频数据进行指纹提取
一个数字音频指纹可视为一段音频的浓缩精华,它包含了音频数据听觉最重要的部分,它相对于音频数据本身,具有数据量小、被检索速率快等优点,在众多的音频指纹中,Philips音频指纹模型因具有较高的鲁棒性且算法较为简单,本文以此指纹模型为基础进行音频指纹提取,其具体提取步骤如下:
(1)对上述压缩后的音频数据yn(p)进行二次分帧加窗,为了使帧与帧之间过渡平滑,分帧使用交叠分段方法,帧长取0.064秒,帧与帧之间保持75%的重叠率,每一帧用相同长度的汉宁窗进行加权。加窗公式如下:
Figure BDA0002204392850000073
其中,N为汉宁窗的长度,大小为一帧音频的样点数。
(2)对分帧加窗后的信号yn(p)进行离散傅里叶变换,变换公式如下:
Figure BDA0002204392850000074
其中,Yn(k)为频域信号,yn(p)为压缩后的第n帧时域信号,k为频率索引,N为离散傅里叶变换的样本长度。
(3)对离散傅里叶变换后的频域信号进行频谱子带划分,从频谱中选取33个非重叠的频带,频带之间是等对数间隔的,第m子带的起始频率也即第m-1子带的终止频率f(m)可表示为下式:
Figure BDA0002204392850000081
其中Fmin为映射下限,此处为300Hz,Fmax为映射上限,此处为2000Hz,M为子带个数,此处为33。
(4)计算每帧音频的各个子带能量,分别求其上述选取的33个非重叠频带的能量,假设第m个子带起始频率为f(m),终止频率为f(m+1),离散傅里叶变换后的频域信号为Yn(k),则第n帧的第m个子带能量的公式如下:
Figure BDA0002204392850000082
(5)生成每帧音频的子指纹,对上述每帧所求的33个子带能量作比特差分判别,生成每帧音频的32位二进制码(子指纹),第n帧的第m个子带能量为E(n,m),其对应的二进制比特信息为F(n,m),则每帧的二进制音频指纹信息判别公式如下:
Figure BDA0002204392850000083
由上式可知,每帧音频最后生成一个32维的二进制子指纹信息,子指纹所含信息较少,一个音频指纹特征常有多个子指纹构成。
步骤4,识别阶段,提取待检测音频的指纹特征与模板进行匹配
将待测音频按照训练阶段的步骤进行音频压缩、音频指纹提取,将提取的待测音频指纹与样本音频指纹库中的音频指纹进行匹配得出结果,具体流程如下:(1)选取一段8kHz待测音频经上述预处理得到待测音频序列信号Z,待测音频信号第n帧的信号记为Zn(p),p∈[1,2,.......,N],则待测音频序列信号Zn(p)在DCT域的稀疏系数α可用以下公式表示:
α=ΨTZ
其中,Z=[Zn(1),Zn(2),.....,Zn(N)],α与Z都是N×1维的向量,ΨT为N×N的矩阵,ΨT为待测音频信号Zn(p)在DCT域的基。
待测音频信号Zn(p)在DCT域基ΨT上最多有l(l<<N)个非零系数,称Ψ为待测音频信号Zn(p)的稀疏基。
由此,构建频域稀疏化后的音频信号:
Figure BDA0002204392850000091
其中,
Figure BDA0002204392850000092
为第n帧得到的稀疏音频信号,长度为N,每个样点处稀疏信号记为
Figure BDA0002204392850000093
p∈[1,2,.......,N],即,
Figure BDA0002204392850000094
l反应了音频信号DCT域稀疏化程度。
(2)将上述l-稀疏待测音频信号
Figure BDA0002204392850000095
经过观测投影矩阵Φ=[Φ1,Φ2,......ΦM]投影后的得到待测观测序列信号,表示为:
其中,ΦT为Φ的转置表示M×N的观测矩阵(M<<N),
Figure BDA0002204392850000097
表示第n帧的待测观测序列信号,维度是M×1的一维向量。
(3)将上述压缩处理后的待测观测序列信号
Figure BDA0002204392850000098
经Step3.1步骤处理得到待测音频指纹F′(n,m),其中,F′(n,m)表示待测音频信号序列第n帧音频指纹的第m位。
(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配,本技术选取比特误差率(Bit Error Rate,BER)作为匹配算法比较两个音频片段之间的相似度,其计算公式如下:
其中,F(n,m),F′(n,m)分别代表样本音频和待检音频第n帧音频指纹的第m位,T为音频总帧数,M为音频指纹位数。
(5)设置比特误差率的阈值为0.35,求其BER的值,若其值小于0.35则表示待检音频与样本音频库中的音频相似度较高,反之,待检音频与样本音频库中的音频相似度较低,从而得出检测结果。
本发明的优点在于:
1、算法复杂度低且灵活性更强
2、比传统的音频特征数据量更小
3、引入改进压缩感知算法,复杂度低且大量减少了样本数据库的数据量
4、检索速度比传统检索算法快
附图说明
图1.音频检索总框架流程图
图2.音频预处理流程图
图3.音频指纹特征提取流程图
具体实施方式
本发明的技术方案用于解决音频检索过程中样本音频指纹库数据量较大的问题以及解决音频检索速率较慢等问题,主要分为以下几个步骤:
步骤1,构建样本声音库
根据音频种类的不同以及现有的音频数据将音频数据进行同类分组。同类分组的目的是便于提高音频检索速率,将样本音频按上述分组分别建立音频子库以备音频训练使用。音频检索主要分为样本音频的训练阶段和待测音频的识别阶段,总体框架图如图1.所示:
步骤2,训练阶段,利用变换域稀疏化和压缩降维对样本音频进行压缩处理
选取上述样本声音库中的各类音频数据作为原始训练数据,对上述各类音频进行压缩处理,具体流程如下:
Step2.1:声音预处理
由于音频信号具有短时平稳性,且音频的首末段以及中间段有不含信息的音频段,为了更高效的压缩样本音频,需要对样本音频进行预处理,分为带通滤波、预加重、分帧、加窗和静音帧判别。
(1)选取8kHz采样音频信号作为处理对象,为提取人耳感知最重要的频率成分,选用通带范围为300Hz-2000Hz的带通滤波器对信号进行滤波、预加重处理。
(2)对滤波、预加重后的信号进行加窗分帧处理,本次分帧和加窗是针对样本压缩无需考虑帧与帧之间的平滑过渡,因此本次分帧采用连续分段的方法,以帧长为0.064秒对音频进行分帧,每一帧用相同长度的矩形窗进行加权。加窗公式如下:
Figure BDA0002204392850000111
其中,p是样点编号,N为矩形窗的长度,大小为一帧音频的样点数。
(3)静音帧的判别,在上一段音频事件的结束和本段音频事件的起始之间通常会有一定的静音时段,在音频特征库的构建过程中这类信号是不需要进行分析处理的。对于本段音频事件内部也存在静音帧(信号幅度为零或很小),如果将这些帧也纳入特征提取的范围内会影响音频特征提取的准确度,最终影响音频的正确识别。因此在对提取音频特征之前要排除静音帧的干扰。解决办法是求取每一帧音频信号的短时能量信息,设定能量阈值一般为2~4,但具体情况以用户实际测量为准,比如有轻微背景噪声时,阈值就应该大一些,如果计算结果该帧能量低于设定的阈值,则视该帧为静音帧,丢弃该帧继续计算下一帧的短时能量信息,直到找到非静音帧为止或音频结束。短时能量的计算公式如下:
Figure BDA0002204392850000121
其中,xn(p)是音频信号第n帧第p个样点,L为帧长,E(n)为第n帧音频信号的平均帧能量。
Step2.2:利用变换域稀疏化和压缩降维对样本音频进行压缩处理
音频信号压缩的前提是信号具有稀疏性,由于并不是所有的音频信号都具有稀疏性,因此,在进行音频信号压缩前要先将音频信号转化为具有稀疏性的音频信号,本设计利用一组稀疏基对其信号进行稀疏化。具体流程如下:
(1)对预处理后的音频信号进行DCT域稀疏化处理,将音频信号转化为具有频域稀疏特性的音频信号,设X为上述预处理后的第n帧音频信号,长度为N,每个样点处信号记为xn(p),p∈[1,2,.......,N],根据稀疏编码模型音频信号xn(p)在离散余弦变换(DiscreteCosine Transform,DCT)域的稀疏系数α可用以下公式表示:
α=ΨTX
其中,X=[xn(1),xn(2),.....,xn(N)],Ψ为DCT基,ΨT表示矩阵Ψ的转置矩阵,α与X都是N×1维的向量,Ψ为N×N的矩阵。ΨT=[Ψ1,Ψ2,.....,ΨN],α=[α1,α2,......,αN]T,音频信号序列xn(p)在DCT域的稀疏系数α第p个系数表示为:
Figure BDA0002204392850000122
其中
Figure BDA0002204392850000131
其矩阵形式为:
Figure BDA0002204392850000132
可得稀疏基矩阵:
Figure BDA0002204392850000133
音频信号X在DCT域基Ψ上仅有q(q<<N)个非零系数,称Ψ为音频信号X的稀疏基。
由此,构建频域稀疏化后的音频信号:
Figure BDA0002204392850000134
其中,为第n帧得到的稀疏音频信号,长度为N,每个样点处稀疏信号记为
Figure BDA0002204392850000136
p∈[1,2,.......,N],即,q反应了音频信号DCT域稀疏化程度。
(2)对稀疏音频信号进行压缩,要实现稀疏音频信号的压缩,需要通过一个观测矩阵才能够把稀疏信号投影到低维空间,由于音频检索过程中要求观测矩阵在训练和识别阶段保持一致,因此选择一个稳定的观测矩阵至关重要。将上述q-稀疏音频信号
Figure BDA0002204392850000141
经过观测投影矩阵Φ=[Φ1,Φ2,......ΦM]投影后的序列即为观测序列信号,表示为:
其中,ΦT为Φ的转置表示M×N的观测矩阵(M<<N),yn(p)表示第n帧的第p个观测序列信号,维度是M×1的一维向量。
因此,维度为N×1稀疏音频信号
Figure BDA0002204392850000143
经过观测矩阵Φ投影后得到维度为M×1的观测信号yn(p),压缩比为g=N/M,本技术的压缩比根据不同音频种类的实际情况进行设置,当压缩比为3∶1时,观测矩阵表示为:
Figure BDA0002204392850000144
或是为:
Figure BDA0002204392850000145
当压缩比为4∶1时,观测矩阵表示为:
Figure BDA0002204392850000146
或者为:
Figure BDA0002204392850000151
故N×1稀疏音频信号经过观测矩阵Φ压缩投影后得到维度为M×1的观测信号yn(p)在很大程度上减小了音效序列的数据量。
若压缩比设为4∶1,则样本音频数据库的数据量就会减少4倍,用压缩后的音频数据提取的样本音频指纹数据也将减少4倍,用此音频指纹库作为样本音频指纹库可提高音频的检索速率。
步骤3,训练阶段,建立样本音频指纹库
选取上述压缩后的各类音频数据作为原始训练数据,提取压缩后的音频数据指纹特征建立样本音频指纹库,音频指纹特征提取流程图如图3.所示,具体流程如下:
以压缩比为4∶1为例,压缩后的音频序列yn(p)与稀疏音频序列的关系可以表示为:
Step3.1:对上述压缩后的样本音频数据进行指纹提取
一个数字音频指纹可视为一段音频的浓缩精华,它包含了音频数据听觉最重要的部分,它相对于音频数据本身,具有数据量小、被检索速率快等优点,音频指纹的具体提取步骤如下:
(1)对上述压缩后的音频数据yn(p)进行二次分帧加窗,为了使帧与帧之间过渡平滑,分帧使用交叠分段方法,帧长取0.064秒,帧与帧之间保持75%的重叠率,每一帧用相同长度的汉宁窗进行加权。加窗公式如下:
Figure BDA0002204392850000161
其中,N为汉宁窗的长度,大小为一帧音频的样点数。
(2)对分帧加窗后的信号yn(p)进行离散傅里叶变换,变换公式如下:
Figure BDA0002204392850000162
其中,Yn(k)为频域信号,yn(p)为压缩后的第n帧时域信号,k为频率索引,N为离散傅里叶变换的样本长度。
(3)对离散傅里叶变换后的频域信号进行频谱子带划分,从频谱中选取33个非重叠的频带,频带之间是等对数间隔的,第m子带的起始频率也即第m-1子带的终止频率f(m)可表示为下式:
Figure BDA0002204392850000163
其中Fmin为映射下限,此处为300Hz,Fmax为映射上限,此处为2000Hz,M为子带个数,此处为33。
(4)计算每帧音频的各个子带能量,分别求其上述选取的33个非重叠频带的能量,假设第m个子带起始频率为f(m),终止频率为f(m+1),离散傅里叶变换后的频域信号为Yn(k),则第n帧的第m个子带能量的公式如下:
(5)生成每帧音频的子指纹,对上述每帧所求的33个子带能量作比特差分判别,生成每帧音频的32位二进制码(子指纹),第n帧的第m个子带能量为E(n,m),其对应的二进制比特信息为F(n,m),则每帧的二进制音频指纹信息判别公式如下:
Figure BDA0002204392850000171
由上式可知,每帧音频最后生成一个32维的二进制子指纹信息,子指纹所含信息较少,一个音频指纹特征常有多个子指纹构成。
步骤4,识别阶段,提取待检测音频的指纹特征与模板进行匹配
将待测音频按照训练阶段的步骤进行音频压缩、音频指纹提取,将提取的待测音频指纹与样本音频指纹库中的音频指纹进行匹配得出结果,具体流程如下:(1)选取一段8kHz待测音频经上述预处理得到待测音频序列信号Z,待测音频信号第n帧的信号记为Zn(p),p∈[1,2,.......,N],则待测音频序列信号Zn(p)在DCT域的稀疏系数α可用以下公式表示:
α=ΨTZ
其中,Z=[Zn(1),Zn(2),.....,Zn(N)],α与Z都是N×1维的向量,ΨT为N×N的矩阵,ΨT为待测音频信号Zn(p)在DCT域的基。
待测音频信号Zn(p)在DCT域基ΨT上最多有l(l<<N)个非零系数,称Ψ为待测音频信号Zn(p)的稀疏基。
由此,构建频域稀疏化后的音频信号:
Figure BDA0002204392850000172
其中,
Figure BDA0002204392850000173
为第n帧得到的稀疏音频信号,长度为N,每个样点处稀疏信号记为
Figure BDA0002204392850000174
p∈[1,2,.......,N],即,
Figure BDA0002204392850000175
l反应了音频信号DCT域稀疏化程度。
(2)将上述l-稀疏待测音频信号
Figure BDA0002204392850000176
经过观测投影矩阵Φ=[Φ1,Φ2,......ΦM]投影后的得到待测观测序列信号,表示为:
Figure BDA0002204392850000177
其中,ΦT为Φ的转置表示M×N的观测矩阵(M<<N),
Figure BDA0002204392850000178
表示第n帧的待测观测序列信号,维度是M×1的一维向量。
(3)将上述压缩处理后的待测观测序列信号经Step3.1步骤处理得到待测音频指纹F′(n,m),其中,F′(n,m)表示待测音频信号序列第n帧音频指纹的第m位。
(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配,本技术选取比特误差率(Bit Error Rate,BER)作为匹配算法比较两个音频片段之间的相似度,其计算公式如下:
Figure BDA0002204392850000182
其中,F(n,m),F′(n,m)分别代表样本音频和待检音频第n帧音频指纹的第m位,T为音频总帧数,M为音频指纹位数。
(5)设置比特误差率的阈值为0.35,求其BER的值,若其值小于0.35则表示待检音频与样本音频库中的音频相似度较高,反之,待检音频与样本音频库中的音频相似度较低,从而得出检测结果。
本发明技术方案可通过音频固定检索用于音频文件的版权保护,比如,对一段疑似侵权的音频文件进行特征提取与版权音频库特征进行匹配,如若匹配成功,则说明该音频文件为侵权文件;也可用于单独或组合的音频密码锁,比如,事前将用户的一段或多段音频进行训练构建样本音频特征库,在进行密码唤醒时,对唤醒音频特征提取并与样本音频特征库匹配,若匹配成功,则密码锁开启,否则,不开启;本发明不局限于上述应用领域,也可扩展至一些其他的音频唤醒设备,上述描述不构成对本发明的限定。

Claims (3)

1.一种利用变换域稀疏化和压缩降维的音频检索方法,其特征在于包括以下步骤:
步骤1,构建样本声音库
根据音频种类的不同以及现有的音频数据将音频数据进行同类分组;
步骤2,训练阶段,利用变换域稀疏化和压缩降维对样本音频进行压缩处理
选取上述样本声音库中的各类音频数据作为原始训练数据,对上述各类音频进行压缩处理,具体流程如下:
Step2.1:声音预处理
(1)选取上述音频信号作为处理对象,对每一帧音频信号进行带通滤波、预加重、加窗、分帧处理;
(2)对加窗分帧后的信号静音帧的判别,求取每一帧音频信号的短时能量信息,设定能量阈值为2~4,如果该帧能量低于设定的阈值,则视该帧为静音帧,丢弃该帧继续计算下一帧的短时能量信息,直到找到非静音帧为止或音频结束,短时能量的计算公式如下:
Figure FDA0002204392840000011
其中,p是样点编号,xn(p)是音频信号第n帧第p个样点,L为帧长,E(n)为第n帧音频信号的平均帧能量;
Step2.2:利用变换域稀疏化和压缩降维对样本音频进行压缩处理
(1)对预处理后的音频信号进行离散余弦变换(Discrete Cosine Transform,DCT)域稀疏化处理,用于将音频信号转化为具有频域稀疏特性的音频信号
Figure FDA0002204392840000012
具体转化过程如下:
根据稀疏编码模型计算DCT基Ψ,预处理后的音频信号xn(p)在DCT域的稀疏系数α可用以下公式表示:
α=ΨTX
其中,X=[xn(1),xn(2),.....,xn(N)]为上述预处理后的第n帧音频信号,长度为N,每个样点处信号记为xn(p),p∈[1,2,…….,N],ΨT表示矩阵Ψ的转置矩阵,α与X都是N×1维的向量,Ψ为N×N的矩阵,ΨT=[Ψ12,.....,ΨN],α=[α12,…αp,…,αN]T,音频信号序列xn(p)在DCT域的稀疏系数α第p个系数表示为:
其中
Figure FDA0002204392840000022
由此,构建频域稀疏化后的音频信号:
Figure FDA0002204392840000023
其中,
Figure FDA0002204392840000024
为第n帧得到的稀疏音频信号,长度为N,每个样点处稀疏信号记为
Figure FDA0002204392840000025
即,
Figure FDA0002204392840000026
(2)对稀疏音频信号
Figure FDA0002204392840000027
进行压缩,将上述稀疏音频信号
Figure FDA0002204392840000028
经过观测投影矩阵Φ=[Φ12,……ΦM]投影,得到观测序列信号,表示为:
Figure FDA0002204392840000029
其中,ΦT为Φ的转置表示M×N的观测矩阵,M<<N,yn(p)表示第n帧的第p个观测序列信号,维度是M×1的一维向量;
步骤3,训练阶段,建立样本音频指纹库
Step3.1:对上述压缩后的样本音频序列yn(p)进行指纹提取,选取Philips音频指纹模型为指纹特征,具体提取过程如下:
首先,对上述压缩后的音频数据yn(p)进行二次分帧加窗,然后,对分帧加窗后的信号进行离散傅里叶变换并对频域信号进行频谱子带划分,从频谱中选取33个非重叠的频带,频带之间是等对数间隔的,接着,计算每帧音频的各个子带能量,分别求其上述选取的33个非重叠频带的能量,最后,根据子带能量的判别生成每帧音频的子指纹,上述每帧所求的33个子带能量比特差分判别公式如下:
Figure FDA0002204392840000031
其中,E(n,m)表示音频第n帧的第m个子带能量,F(n,m)表示其对应的二进制比特指纹信息;
步骤4,识别阶段,提取待检测音频的指纹特征与模板进行匹配
(1)选取一段待测音频经上述Step2.1预处理得到待测音频序列信号Z,待测音频信号第n帧的信号记为Zn(p),p∈[1,2,…….,N],则待测音频序列信号Zn(p)经步骤Step2.2中(1)处理可构建频域稀疏化后的待测音频信号:
Figure FDA0002204392840000032
其中,
Figure FDA0002204392840000033
为第n帧得到的稀疏音频信号,长度为N,每个样点处稀疏信号记为
Figure FDA0002204392840000034
即,
Figure FDA0002204392840000035
(2)将上述稀疏待测音频信号
Figure FDA0002204392840000036
经过观测投影矩阵Φ=[Φ12,……ΦM]投影后的得到待测观测序列信号,表示为:
Figure FDA0002204392840000037
其中,ΦT为Φ的转置表示M×N的观测矩阵,与上述Step2.2中(2)的ΦT同为固定矩阵且相同,表示第n帧的待测观测序列信号,维度是M×1的一维向量;
(3)将上述压缩处理后的待测观测序列信号
Figure FDA0002204392840000041
经Step3.1步骤处理得到待测音频指纹F′(n,m);
(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配,选取比特误差率(Bit Error Rate,BER)作为匹配算法比较两个音频片段之间的相似度,其计算公式如下:
Figure FDA0002204392840000042
其中,F(n,m),F′(n,m)分别代表样本音频和待检音频第n帧音频指纹的第m位,T为音频总帧数,M为音频指纹位数;
(5)设置比特误差率的阈值,若BER值小于阈值则表示待检音频与样本音频库中的音频相似度高,反之,待检音频与样本音频库中的音频相似度低。
2.根据权利要求1所述的一种利用变换域稀疏化和压缩降维的音频检索方法,其特征在于Step2.1中带通滤波器的通带范围为300Hz-2000Hz,加窗算法为矩形窗。
3.根据权利要求1所述的一种利用变换域稀疏化和压缩降维的音频检索方法,其特征在于:Step2.2中的观测投影矩阵具体如下:
当压缩比为3:1时,观测矩阵表示为:
Figure FDA0002204392840000043
或是为:
当压缩比为4:1时,观测矩阵表示为:
或者为:
Figure FDA0002204392840000052
CN201910876038.8A 2019-09-17 2019-09-17 一种利用变换域稀疏化和压缩降维的音频检索方法 Active CN110647656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910876038.8A CN110647656B (zh) 2019-09-17 2019-09-17 一种利用变换域稀疏化和压缩降维的音频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910876038.8A CN110647656B (zh) 2019-09-17 2019-09-17 一种利用变换域稀疏化和压缩降维的音频检索方法

Publications (2)

Publication Number Publication Date
CN110647656A true CN110647656A (zh) 2020-01-03
CN110647656B CN110647656B (zh) 2021-03-30

Family

ID=69010587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910876038.8A Active CN110647656B (zh) 2019-09-17 2019-09-17 一种利用变换域稀疏化和压缩降维的音频检索方法

Country Status (1)

Country Link
CN (1) CN110647656B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681664A (zh) * 2020-07-24 2020-09-18 北京百瑞互联技术有限公司 一种降低音频编码码率的方法、系统、存储介质及设备
CN112784099A (zh) * 2021-01-29 2021-05-11 山西大学 抵抗变调干扰的采样计数音频检索方法
CN113157967A (zh) * 2021-04-19 2021-07-23 中国科学院声学研究所 一种音频检索方法及装置
CN113704707A (zh) * 2021-08-26 2021-11-26 湖南天河国云科技有限公司 基于区块链的音频防篡改方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7626111B2 (en) * 2006-01-26 2009-12-01 Samsung Electronics Co., Ltd. Similar music search method and apparatus using music content summary
CN102129456A (zh) * 2011-03-09 2011-07-20 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
US8463719B2 (en) * 2009-03-11 2013-06-11 Google Inc. Audio classification for information retrieval using sparse features
CN103854646A (zh) * 2014-03-27 2014-06-11 成都康赛信息技术有限公司 一种实现数字音频自动分类的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7626111B2 (en) * 2006-01-26 2009-12-01 Samsung Electronics Co., Ltd. Similar music search method and apparatus using music content summary
US8463719B2 (en) * 2009-03-11 2013-06-11 Google Inc. Audio classification for information retrieval using sparse features
CN102129456A (zh) * 2011-03-09 2011-07-20 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
CN103854646A (zh) * 2014-03-27 2014-06-11 成都康赛信息技术有限公司 一种实现数字音频自动分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAN-ZHOU QIAN.ETL: "A Novel Algorithm for Audio Information Retrieval Based on Audio Fingerprint", 《2010 INTERNATIONAL CONFERENCE ON INFORMATION, NETWORKING AND AUTOMATION (ICINA)》 *
齐晓倩等: "基于K.L距离的两步固定音频检索方法", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681664A (zh) * 2020-07-24 2020-09-18 北京百瑞互联技术有限公司 一种降低音频编码码率的方法、系统、存储介质及设备
CN112784099A (zh) * 2021-01-29 2021-05-11 山西大学 抵抗变调干扰的采样计数音频检索方法
CN112784099B (zh) * 2021-01-29 2022-11-11 山西大学 抵抗变调干扰的采样计数音频检索方法
CN113157967A (zh) * 2021-04-19 2021-07-23 中国科学院声学研究所 一种音频检索方法及装置
CN113704707A (zh) * 2021-08-26 2021-11-26 湖南天河国云科技有限公司 基于区块链的音频防篡改方法及装置

Also Published As

Publication number Publication date
CN110647656B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN110647656B (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
EP2507790B1 (en) Method and system for robust audio hashing.
CN103403710B (zh) 对来自音频信号的特征指纹的提取和匹配
US10019998B2 (en) Detecting distorted audio signals based on audio fingerprinting
US7460994B2 (en) Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal
US7081581B2 (en) Method and device for characterizing a signal and method and device for producing an indexed signal
US10089994B1 (en) Acoustic fingerprint extraction and matching
US20090012638A1 (en) Feature extraction for identification and classification of audio signals
CN106294331A (zh) 音频信息检索方法及装置
CN110600038B (zh) 一种基于离散基尼系数的音频指纹降维方法
CN110767248B (zh) 一种抗变调干扰的音频指纹提取方法
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
JP5772957B2 (ja) 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム
CN108877816B (zh) 基于qmdct系数的aac音频重压缩检测方法
Agarwaal et al. Robust and lightweight audio fingerprint for Automatic Content Recognition
CN116612746B (zh) 一种基于人工智能在声学库中进行语音编码识别方法
CN117854540B (zh) 基于神经网络和多维特征融合的水声目标识别方法及系统
CN114937459A (zh) 一种层级融合的音频数据增强方法及系统
Ravindran et al. IMPROVING THE NOISE-ROBUSTNESS OF MEL-FREQUENCY CEPSTRAL COEFFICIENTS FOR SPEECH DISCRIMINATION
CN118038887A (zh) 一种混合语音的处理方法、装置、计算机设备及存储介质
Hsieh et al. Feature extraction for audio fingerprinting using wavelet transform
Tanweer et al. The Noise-Robustness of Mel-Frequency Cepstral Coefficients (MFCC) for Speech Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant