CN110647656B

CN110647656B - 一种利用变换域稀疏化和压缩降维的音频检索方法

Info

Publication number: CN110647656B
Application number: CN201910876038.8A
Authority: CN
Inventors: 赵文兵; 杨淇善; 贾懋珅
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2021-03-30
Anticipated expiration: 2039-09-17
Also published as: CN110647656A

Abstract

本发明智能应用型音频信号处理领域，具体涉及一种利用变换域稀疏化和压缩降维的音频检索方法。该方法用音频指纹作为音频检索特征，本技术在音频检索的训练阶段通过利用变换域稀疏化和压缩降维先对样本音频数据进行压缩，再对压缩后的音频序列提取音频指纹，使得提取的音频指纹数据量减小，从而减小样本音频指纹库的数据量。在音频检索的识别(检索)阶段用相同的算法压缩待检音频后提取待检音频指纹和样本音频指纹匹配很大程度上提高了检索效率。

Description

一种利用变换域稀疏化和压缩降维的音频检索方法

技术领域

本发明智能应用型音频信号处理领域，具体涉及一种利用变换域稀疏化和压缩降维的音频检索方法。

背景技术

近年来，随着数字化信息的快速发展，各种以音频为载体的作品也越来越多，如何管理这些种类繁多的音频文件就成为一个突出的问题，特别是涉及到音频作品的版权问题。而现实生活中的音频文件版本种类繁多，丰富了人们生活同时也给人们带来了麻烦，人们如何准确、高效的从数据库中检索获得自己想要的信息，已经成为信息时代人们迫切需要同时也是音频检索领域有待解决的重要问题之一。

对于上述问题，有一些研究人员通过提取传统音频特征构建音频数据库，进行音频目标数据检索。但是，由于特征维数较大增加了特征库存储量、降低了检索效率。对此，在保证有效音频特征的前提下减小样本音频特征库存储量对于音频检索速率具有重要的意义。

发明内容

针对样本数据量大且检索效率低等问题，本发明设计一种利用变换域稀疏化和压缩降维的音频检索方法，该方法的特点在于在提取音频特征前对原始音频数据进行压缩，压缩后的音频数据量在很大程度上减小，这就为接下来的特征提取减少了很多时间，且经此压缩后的音频序列提取的音频特征的数据量也减少很多。

针对样本音频指纹库数据量大检索速率慢问题，本发明提供一种利用变换域稀疏化和压缩降维的算法对样本音频先压缩在提取音频指纹特征，该方法包括①样本音频的压缩、②音频指纹特征的提取、③目标音频特征库的建立、④待检音频指纹与样本音频指纹库的匹配方法。

本发明的技术方案用于解决音频检索过程中样本音频指纹库数据量较大的问题，通过对样本音频库中的音频采取先压缩再提取音频指纹建立样本音频指纹库的方法，实现降低样本音频指纹库的数据量，主要分为以下几个步骤：

步骤1，构建样本声音库

根据音频种类的不同以及现有的音频数据将音频数据进行同类分组。同类分组的目的是便于提高音频检索速率，将样本音频按上述分组分别建立音频子库以备音频训练使用。音频检索主要分为样本音频的训练阶段和待测音频的识别阶段，总体框架图如图1.所示：

步骤2，训练阶段，利用变换域稀疏化和压缩降维对样本音频进行压缩处理

选取上述样本声音库中的各类音频数据作为原始训练数据，对上述各类音频进行压缩处理，具体流程如下：

Step2.1：声音预处理

由于音频信号具有短时平稳性，且音频的首末段以及中间段有不含信息的音频段，为了更高效的压缩样本音频，需要对样本音频进行预处理，分为带通滤波、预加重、分帧、加窗和静音帧判别。音频预处理流程图如图2.所示。

(1)选取8kHz采样音频信号作为处理对象，为提取人耳感知最重要的频率成分，选用通带范围为300Hz-2000Hz的带通滤波器对信号进行滤波、预加重处理。

(2)对滤波、预加重后的信号进行加窗分帧处理，本次分帧和加窗是针对样本压缩无需考虑帧与帧之间的平滑过渡，因此本次分帧采用连续分段的方法，以帧长为0.064秒对音频进行分帧，每一帧用相同长度的矩形窗进行加权。加窗公式如下：

其中，p是样点编号，N为矩形窗的长度，大小为一帧音频的样点数。

(3)静音帧的判别，在上一段音频事件的结束和本段音频事件的起始之间通常会有一定的静音时段，在音频特征库的构建过程中这类信号是不需要进行分析处理的。对于本段音频事件内部也存在静音帧(信号幅度为零或很小)，如果将这些帧也纳入特征提取的范围内会影响音频特征提取的准确度，最终影响音频的正确识别。因此在对提取音频特征之前要排除静音帧的干扰。解决办法是求取每一帧音频信号的短时能量信息，设定能量阈值为2～4，如果计算该帧能量低于设定的阈值，则视该帧为静音帧，丢弃该帧继续计算下一帧的短时能量信息，直到找到非静音帧为止或音频结束。短时能量的计算公式如下：

其中，x_n(p)是音频信号第n帧第p个样点，L为帧长，E(n)为第n帧音频信号的平均帧能量。

Step2.2：利用变换域稀疏化和压缩降维对样本音频进行压缩处理

音频信号压缩的前提是信号具有稀疏性，由于并不是所有的音频信号都具有稀疏性，因此，在进行音频信号压缩前要先将音频信号转化为具有稀疏性的音频信号，本设计利用一组稀疏基对其信号进行稀疏化。具体流程如下：

(1)对预处理后的音频信号进行DCT域稀疏化处理，将音频信号转化为具有频域稀疏特性的音频信号，设X为上述预处理后的第n帧音频信号，长度为N，每个样点处信号记为x_n(p)，p∈[1,2,.......,N]，根据稀疏编码模型音频信号x_n(p)在离散余弦变换(DiscreteCosine Transform,DCT)域的稀疏系数α可用以下公式表示：

α＝Ψ^TX

其中，X＝[x_n(1)，x_n(2)，......，x_n(N)]，Ψ为DCT基，Ψ^T表示矩阵Ψ的转置矩阵，α与X都是N×1维的向量，Ψ为N×N的矩阵。Ψ^T＝[Ψ₁，Ψ₂，.....，Ψ_N]，α＝[α₁，α₂，......，α_N]^T，音频信号序列x_n(p)在DCT域的稀疏系数α第p个系数表示为：

其中

其矩阵形式为：

可得稀疏基矩阵：

音频信号X在DCT域基Ψ上仅有q(q＜＜N)个非零系数，称Ψ为音频信号X的稀疏基。

由此，构建频域稀疏化后的音频信号：

其中，

为第n帧得到的稀疏音频信号，长度为N，每个样点处稀疏信号记为

p∈[1，2，.......，N]，即，

q反应了音频信号DCT域稀疏化程度。

(2)对稀疏音频信号进行压缩，要实现稀疏音频信号的压缩，需要通过一个观测矩阵才能够把稀疏信号投影到低维空间，由于音频检索过程中要求观测矩阵在训练和识别阶段保持一致，因此选择一个稳定的观测矩阵至关重要。将上述q-稀疏音频信号

经过观测投影矩阵Φ＝[Φ₁，Φ₂，.......Φ_M]投影后的序列即为观测序列信号，表示为：

其中，Φ^T为Φ的转置表示M×N的观测矩阵(M＜＜N)，y_n(p)表示第n帧的第p个观测序列信号，维度是M×1的一维向量。

因此，维度为N×1稀疏音频信号

经过观测矩阵Φ投影后得到维度为M×1的观测信号y_n(p)，压缩比为g＝N/M，当压缩比为3∶1时，观测矩阵表示为：

或是为：

当压缩比为4∶1时，观测矩阵表示为：

或者为：

故N×1稀疏音频信号

经过观测矩阵Φ压缩投影后得到维度为M×1的观测信号y_n(p)在很大程度上减小了音效序列的数据量。

根据上述观测矩阵可以推知其他压缩比之下的观测矩阵，考虑到适用性及效果，通常优选4∶1和3∶1两种压缩比之的情况。

步骤3，训练阶段，建立样本音频指纹库

选取上述压缩后的各类音频数据作为原始训练数据，提取压缩后的音频数据指纹特征建立样本音频指纹库，音频指纹特征提取流程图如图3.所示，具体流程如下：

以压缩比为4∶1为例，压缩后的音频序列y_n(p)与稀疏音频序列

均关系可以表示为：

Step3.1：对上述压缩后的样本音频数据进行指纹提取

一个数字音频指纹可视为一段音频的浓缩精华，它包含了音频数据听觉最重要的部分，它相对于音频数据本身，具有数据量小、被检索速率快等优点，在众多的音频指纹中，Philips音频指纹模型因具有较高的鲁棒性且算法较为简单，本文以此指纹模型为基础进行音频指纹提取，其具体提取步骤如下：

(1)对上述压缩后的音频数据y_n(p)进行二次分帧加窗，为了使帧与帧之间过渡平滑，分帧使用交叠分段方法，帧长取0.064秒，帧与帧之间保持75％的重叠率，每一帧用相同长度的汉宁窗进行加权。加窗公式如下：

其中，N为汉宁窗的长度，大小为一帧音频的样点数。

(2)对分帧加窗后的信号y_n(p)进行离散傅里叶变换，变换公式如下：

其中，Y_n(k)为频域信号，y_n(p)为压缩后的第n帧时域信号，k为频率索引，N为离散傅里叶变换的样本长度。

(3)对离散傅里叶变换后的频域信号进行频谱子带划分，从频谱中选取33个非重叠的频带，频带之间是等对数间隔的，第m子带的起始频率也即第m-1子带的终止频率f(m)可表示为下式：

其中Fmin为映射下限，此处为300Hz，Fmax为映射上限，此处为2000Hz，M为子带个数，此处为33。

(4)计算每帧音频的各个子带能量，分别求其上述选取的33个非重叠频带的能量，假设第m个子带起始频率为f(m)，终止频率为f(m+1)，离散傅里叶变换后的频域信号为Y_n(k)，则第n帧的第m个子带能量的公式如下：

(5)生成每帧音频的子指纹，对上述每帧所求的33个子带能量作比特差分判别，生成每帧音频的32位二进制码(子指纹)，第n帧的第m个子带能量为E(n，m)，其对应的二进制比特信息为F(n，m)，则每帧的二进制音频指纹信息判别公式如下：

由上式可知，每帧音频最后生成一个32维的二进制子指纹信息，子指纹所含信息较少，一个音频指纹特征常有多个子指纹构成。

步骤4，识别阶段，提取待检测音频的指纹特征与模板进行匹配

将待测音频按照训练阶段的步骤进行音频压缩、音频指纹提取，将提取的待测音频指纹与样本音频指纹库中的音频指纹进行匹配得出结果，具体流程如下：(1)选取一段8kHz待测音频经上述预处理得到待测音频序列信号Z，待测音频信号第n帧的信号记为Z_n(p)，p∈[1，2，.......，N]，则待测音频序列信号Z_n(p)在DCT域的稀疏系数α可用以下公式表示：

α＝Ψ^TZ

其中，Z＝[Z_n(1)，Z_n(2)，.....，Z_n(N)]，α与Z都是N×1维的向量，Ψ^T为N×N的矩阵，Ψ^T为待测音频信号Z_n(p)在DCT域的基。

待测音频信号Z_n(p)在DCT域基Ψ^T上最多有l(l＜＜N)个非零系数，称Ψ为待测音频信号Z_n(p)的稀疏基。

由此，构建频域稀疏化后的音频信号：

其中，

p∈[1，2，.......，N]，即，

l反应了音频信号DCT域稀疏化程度。

(2)将上述l-稀疏待测音频信号

经过观测投影矩阵Φ＝[Φ₁，Φ₂，......Φ_M]投影后的得到待测观测序列信号，表示为：

其中，Φ^T为Φ的转置表示M×N的观测矩阵(M＜＜N)，

表示第n帧的待测观测序列信号，维度是M×1的一维向量。

(3)将上述压缩处理后的待测观测序列信号

经Step3.1步骤处理得到待测音频指纹F′(n，m)，其中，F′(n，m)表示待测音频信号序列第n帧音频指纹的第m位。

(4)将得到的待测音频指纹与样本音频指纹库中的音频指纹进行相似度匹配，本技术选取比特误差率(Bit Error Rate，BER)作为匹配算法比较两个音频片段之间的相似度，其计算公式如下：

其中，F(n，m)，F′(n，m)分别代表样本音频和待检音频第n帧音频指纹的第m位，T为音频总帧数，M为音频指纹位数。

(5)设置比特误差率的阈值为0.35，求其BER的值，若其值小于0.35则表示待检音频与样本音频库中的音频相似度较高，反之，待检音频与样本音频库中的音频相似度较低，从而得出检测结果。

本发明的优点在于：

1、算法复杂度低且灵活性更强

2、比传统的音频特征数据量更小

3、引入改进压缩感知算法，复杂度低且大量减少了样本数据库的数据量

4、检索速度比传统检索算法快

附图说明

图1.音频检索总框架流程图

图2.音频预处理流程图

图3.音频指纹特征提取流程图

具体实施方式

本发明的技术方案用于解决音频检索过程中样本音频指纹库数据量较大的问题以及解决音频检索速率较慢等问题，主要分为以下几个步骤：

步骤1，构建样本声音库

Step2.1：声音预处理

由于音频信号具有短时平稳性，且音频的首末段以及中间段有不含信息的音频段，为了更高效的压缩样本音频，需要对样本音频进行预处理，分为带通滤波、预加重、分帧、加窗和静音帧判别。

(3)静音帧的判别，在上一段音频事件的结束和本段音频事件的起始之间通常会有一定的静音时段，在音频特征库的构建过程中这类信号是不需要进行分析处理的。对于本段音频事件内部也存在静音帧(信号幅度为零或很小)，如果将这些帧也纳入特征提取的范围内会影响音频特征提取的准确度，最终影响音频的正确识别。因此在对提取音频特征之前要排除静音帧的干扰。解决办法是求取每一帧音频信号的短时能量信息，设定能量阈值一般为2～4，但具体情况以用户实际测量为准，比如有轻微背景噪声时，阈值就应该大一些，如果计算结果该帧能量低于设定的阈值，则视该帧为静音帧，丢弃该帧继续计算下一帧的短时能量信息，直到找到非静音帧为止或音频结束。短时能量的计算公式如下：

(1)对预处理后的音频信号进行DCT域稀疏化处理，将音频信号转化为具有频域稀疏特性的音频信号，设X为上述预处理后的第n帧音频信号，长度为N，每个样点处信号记为x_n(p)，p∈[1，2，.......，N]，根据稀疏编码模型音频信号x_n(p)在离散余弦变换(DiscreteCosine Transform，DCT)域的稀疏系数α可用以下公式表示：

α＝Ψ^TX

其中，X＝[x_n(1)，x_n(2)，.....，x_n(N)]，Ψ为DCT基，Ψ^T表示矩阵Ψ的转置矩阵，α与X都是N×1维的向量，Ψ为N×N的矩阵。Ψ^T＝[Ψ₁，Ψ₂，.....，Ψ_N]，α＝[α₁，α₂，......，α_N]^T，音频信号序列x_n(p)在DCT域的稀疏系数α第p个系数表示为：

其中

其矩阵形式为：

可得稀疏基矩阵：

由此，构建频域稀疏化后的音频信号：

其中，

p∈[1，2，.......，N]，即，

q反应了音频信号DCT域稀疏化程度。

经过观测投影矩阵Φ＝[Φ₁，Φ₂，......Φ_M]投影后的序列即为观测序列信号，表示为：

因此，维度为N×1稀疏音频信号

经过观测矩阵Φ投影后得到维度为M×1的观测信号y_n(p)，压缩比为g＝N/M，本技术的压缩比根据不同音频种类的实际情况进行设置，当压缩比为3∶1时，观测矩阵表示为：

或是为：

当压缩比为4∶1时，观测矩阵表示为：

或者为：

故N×1稀疏音频信号

若压缩比设为4∶1，则样本音频数据库的数据量就会减少4倍，用压缩后的音频数据提取的样本音频指纹数据也将减少4倍，用此音频指纹库作为样本音频指纹库可提高音频的检索速率。

步骤3，训练阶段，建立样本音频指纹库

的关系可以表示为：

Step3.1：对上述压缩后的样本音频数据进行指纹提取

一个数字音频指纹可视为一段音频的浓缩精华，它包含了音频数据听觉最重要的部分，它相对于音频数据本身，具有数据量小、被检索速率快等优点，音频指纹的具体提取步骤如下：

其中，N为汉宁窗的长度，大小为一帧音频的样点数。

α＝Ψ^TZ

由此，构建频域稀疏化后的音频信号：

其中，

p∈[1，2，.......，N]，即，

l反应了音频信号DCT域稀疏化程度。

(2)将上述l-稀疏待测音频信号

经过观测投影矩阵Φ＝[Φ1，Φ2，......Φ_M]投影后的得到待测观测序列信号，表示为：

其中，Φ^T为Φ的转置表示M×N的观测矩阵(M＜＜N)，

表示第n帧的待测观测序列信号，维度是M×1的一维向量。

(3)将上述压缩处理后的待测观测序列信号

本发明技术方案可通过音频固定检索用于音频文件的版权保护，比如，对一段疑似侵权的音频文件进行特征提取与版权音频库特征进行匹配，如若匹配成功，则说明该音频文件为侵权文件；也可用于单独或组合的音频密码锁，比如，事前将用户的一段或多段音频进行训练构建样本音频特征库，在进行密码唤醒时，对唤醒音频特征提取并与样本音频特征库匹配，若匹配成功，则密码锁开启，否则，不开启；本发明不局限于上述应用领域，也可扩展至一些其他的音频唤醒设备，上述描述不构成对本发明的限定。

Claims

1.一种利用变换域稀疏化和压缩降维的音频检索方法，其特征在于包括以下步骤：

步骤1，构建样本声音库

根据音频种类的不同以及现有的音频数据将音频数据进行同类分组；

Step2.1：声音预处理

(1)选取上述音频信号作为处理对象，对每一帧音频信号进行带通滤波、预加重、加窗、分帧处理；

(2)对加窗分帧后的信号静音帧的判别，求取每一帧音频信号的短时能量信息，设定能量阈值为2～4，如果该帧能量低于设定的阈值，则视该帧为静音帧，丢弃该帧继续计算下一帧的短时能量信息，直到找到非静音帧为止或音频结束，短时能量的计算公式如下：

其中，p是样点编号，x_n(p)是音频信号第n帧第p个样点，L为帧长，E(n)为第n帧音频信号的平均帧能量；

(1)对预处理后的音频信号进行离散余弦变换Discrete Cosine Transform,DCT域稀疏化处理，用于将音频信号转化为具有频域稀疏特性的音频信号

具体转化过程如下：

根据稀疏编码模型计算DCT基Ψ，预处理后的音频信号x_n(p)在DCT域的稀疏系数α可用以下公式表示:

α＝Ψ^TX

其中，X＝[x_n(1),x_n(2),.....,x_n(N)]为上述预处理后的第n帧音频信号，长度为N，每个样点处信号记为x_n(p),p∈[1,2,.......,N]，Ψ^T表示矩阵Ψ的转置矩阵，α与X都是N×1维的向量，Ψ为N×N的矩阵，Ψ^T＝[Ψ₁,Ψ₂,.....,Ψ_N]，α＝[α₁,α₂,...α_p,...,α_N]^T,音频信号序列x_n(p)在DCT域的稀疏系数α第p个系数表示为：

其中

由此，构建频域稀疏化后的音频信号:

其中，

为第n帧得到的稀疏音频信号，长度为N,每个样点处稀疏信号记为

即，

(2)对稀疏音频信号

进行压缩，将上述稀疏音频信号

经过观测投影矩阵Φ＝[Φ₁,Φ₂,...,Φ_r,...,Φ_M],其中Φ_r＝[Φ_r(1),Φ_r(2),......,Φ_r(N)]^T投影，得到观测序列信号，表示为：

其中，Φ表示N×M的观测矩阵，投影矩阵Φ^T表示M×N的观测矩阵，M＜＜N，y_n(p)表示第n帧的第p个观测序列信号，维度是M×1的一维向量；

步骤3，训练阶段，建立样本音频指纹库

Step3.1：对上述压缩后的样本音频序列y_n(p)进行指纹提取，选取Philips音频指纹模型为指纹特征，具体提取过程如下：

首先，对上述压缩后的音频数据y_n(p)进行二次分帧加窗，然后，对分帧加窗后的信号进行离散傅里叶变换并对频域信号进行频谱子带划分，从频谱中选取33个非重叠的频带，频带之间是等对数间隔的，接着，计算每帧音频的各个子带能量，分别求其上述选取的33个非重叠频带的能量，最后，根据子带能量的判别生成每帧音频的子指纹，上述每帧所求的33个子带能量比特差分判别公式如下：