CN101594527B

CN101594527B - 从音频视频流中高精度检测模板的两阶段方法

Info

Publication number: CN101594527B
Application number: CN2009100598245A
Authority: CN
Inventors: 戴兵; 周后林; 姚太平
Original assignee: CHENGDU I-SONIX VOICE TECHNOLOGICAL Co Ltd
Current assignee: CHENGDU I-SONIX VOICE TECHNOLOGICAL Co Ltd
Priority date: 2009-06-30
Filing date: 2009-06-30
Publication date: 2011-01-05
Anticipated expiration: 2029-06-30
Also published as: CN101594527A

Abstract

本发明公开了一种从音频视频流中高精度检测模板的两阶段方法，属于一种音频指纹检测方法，解决了现有技术中检测虚警率高、速度慢的问题。所述从音频视频流中高精度检测模板的两阶段方法包括两个阶段：一、采用累加能量的差分特征进行粗匹配，二、采用QPLP特征对粗匹配的结果进行确认。本发明将累加能量的差分特征与QPLP特征结合起来，使两者形成了优势互补，在降低虚警率的同时保持了较高的目标查全率。

Description

从音频视频流中高精度检测模板的两阶段方法

技术领域

本发明涉及一种信号检测方法，具体地说，是涉及一种检测音频视频流中是否存在预设模板的两阶段方法。

背景技术

在一些应用中，需要根据事先指定的音频视频片断(也称为模板)在大量的音频视频流中检测该模板。例如，在电视监控中要检测某个广告是否在节目中出现；在版权保护中，检测某个正在播放的音乐或电视节目是否是事先指定的保护节目。由于即使相同的音频经过不同的信道传输、信源编解码后，其数字形态也可能发生很大变化，因此直接将待测的音频数字信号与预设模板进行比较没有任何作用。

音频指纹是从音频片断中抽取的反映其独特性的数字串。这里的独特性指同样的音频经过反复的录音、数字化后，仍然能够抽取出相同的指纹。由于音频指纹具有受外界因素影响较小的特性，而且不同的音频所抽取的音频指纹不同，因此，通过音频指纹来实现在待测音频中检测预设模板便成了一种可行的方案。

Jaap Haitsma等人在论文“A Highly Robust AudioFingerprinting System”中提出了一种音频指纹提取方法和相应的检测算法。在该论文中，作者通过比较预设模板和待测音频的音频指纹是否相同来判断待测音频中是否含有预设模板。通过试验，我们发现采用该方法进行判断的查全率较低，分析发现该方法提取的音频指纹抗噪性能较差。若待测音频经过一定的变换(压缩、传输)后，音频的音质将发生变化，采用该方法获得的音频指纹也将会发生较大的变化，从而使得查全率较低。在这个基础上，Jerome Lebosse等人在“A Robust Audio Fingerprint Extraction Algorithm”中提出了累加能量的差分方法。与Jaap Haitsma等人的方法相比，Lebosse等人的方法的音频指纹的鲁棒性得到了增强，使得检测时音频指纹的击中率增加，提高了查全率，但是相应地又带来了一定的虚警。

通过试验发现，相邻帧往往存在相同的指纹特征。Jaap Haitsma等在“A Highly Robust Audio Fingerprinting System”中对音频模板的所有帧的指纹特征做倒排索引，采用散列表的形式存放。但这些方法并没有利用帧间的相关性，匹配速度较低。

Akisato Kimura等人在论文“Very Quck Audio Searching：Introducing Global Pruning to the Time-Series Active Search”中提出了一种根据特征直方图的相似性检测音频模板的方法。实验发现，上述方法仍然存在虚警较高的问题，而且与Jaap Haitsma等人的方法相比，匹配速度较慢。

以上各种方法都只是根据音频段某一种指纹进行检测，并没有对音频的多种指纹进行综合利用。

发明内容

本发明的目的在于提供一种从音频视频流中高精度检测模板的两阶段方法，将音频信号中累积能量的差分特征与量化的感知线性预测参数特征优势互补，从而降低检测的虚警率，保证较高的查全率，提高匹配速度。

为了实现上述目的，本发明采用的技术方案如下：

从音频视频流中高精度检测模板的两阶段方法，包括第一阶段：采用累加能量的差分特征进行粗匹配，还包括第二阶段：采用量化的感知线性预测参数特征对粗匹配成功的音频进行确认。

所述采用量化的感知线性预测参数特征进行确认包括以下步骤：(1)对待测音频流通过哈明窗来进行分帧，并对每一帧进行FFT；(2)计算每一帧音频信号的临界带听觉谱；(3)获取等响度曲线；(4)进行离散傅立叶反变换；(5)通过Durbin算法获得全极点模型的系数，并计算其倒谱系数，得到感知线性预测参数；(6)对每一帧的感知线性预测参数进行矢量化，得到每一帧量化的感知线性预测参数特征；(7)比较待测音频流量化的感知线性预测参数特征与预设模板量化的感知线性预测参数特征是否相同，若相同，则表明待测音频流中含有预设模板，反之，则不含预设模板。

所述第一阶段中，对相邻帧中累加能量差分特征相同的帧只进行一次索引。所述临界带听觉谱的计算方法如下：

一个临界带宽单位用Bark来表示。临界带宽编号Z(Bark)与频率f(Hz)之间的关系式为：

Z (Bark) = 6 \times \ln (\frac{f}{600} + \sqrt{{(\frac{f}{600})}^{2} + 1})

其中0≤Z≤21.6Bark(0≤f＜4kHz)，临界带k的中心频率Zk则位于0.98k Bark(k＝1，2，...，22)处。去掉第一个和最后一个频带，只用中间20个频带。这20个频带中每个频带内的能量谱与如下的加权重函数相乘，求和后得到临界带听觉谱。加权重公式为：

C_{k} (Z) = \{\begin{matrix} 10^{(Z - Z_{k} + 0.5)} & Z \leq Z_{k} - 0.5 \\ 1 & Z_{k} - 0.5 \leq Z \leq Z_{k} + 0.5 \\ 10^{- 2.5 (Z - Z_{k} - 0.5)} & Z &GreaterEqual; Z_{k} + 0.5 \end{matrix} .

本发明主要是在Jaap Haitsma等人的方法上改进而来，包括两个阶段：第一阶段，与Jaap Haitsma所述的方法相同，采用“累加能量的差分”特征，迅速去掉大多数不是模板的匹配；第二阶段，利用音频信号量化的感知线性预测参数(QPLP)特征，对第一阶段的命中结果进行确认，最终判定待测音频中是否存在预设模板。

所谓QPLP特征，即量化的PLP特征，是指抽取音频的感知线性预测参数，并对感知线性预测参数矢量化，得到的符号化特征。感知线性预测参数是一种基于听觉模型的特征参数，目前已经在各种传统的音频识别领域得到广泛应用。该参数是全极点模型预测多项式的一组系数，等效于一种LPC特征。实验证明，若音频流的内容相同，那么它们的QPLP特征将呈现很高的相似性，而内容不同的音频流，其QPLP特征将不具有相似性。根据这一特性，可以准确地判断出待测音频中是否存在预设模板。

本发明与现有技术相比，具有以下有益效果：

(1)模板约减(template reducing)技术提高匹配速度

通过模板约减技术可以降低存储量，加快匹配速度。音频信号存在短时相关的特性，音频指纹的提取过程中采取了部分重叠的分帧策略。通过实验发现，相邻的音频帧中存在较多指纹相同的帧，那么在对指纹做倒排索引时，就可以对这些时间上相差很小(10ms)而指纹相同的帧只做一次索引，在检测时可以减少待检测音频指纹在索引库中击中的次数，从而减少做匹配的次数，达到加快匹配速度而不影响查全率的目的。实验结果证明通过模板约减首次击中率下降了30％而查全率并没有下降。

(2)两阶段检测方法提高了性能

对于音频信号，分别提取累积能量的差分特征，然后使用该特征进行检测，如果没有匹配则意味着本次检测没有发现模板。如果匹配了，则使用QPLP特征进行第二阶段的确认，如果仍然匹配则认为发现模板。QPLP特征和累加能量的差分特征所得的指纹形成了很好的互补，因此，本发明所述的两阶段检测方法可以有效的降低错误率，实验证明，通过两阶段检测方法能够有效去除约90％的虚警。

下面通过附图及具体实例来对本发明作进一步说明。

附图说明

图1为现有技术的基本流程图。

图2为本发明中Jaap Haitsma等人所述的音频指纹提取方法示意图。

图3为获取QPLP特征的基本流程。

图4为本发明的基本流程图。

具体实施方式

下面通过举例来对本发明做进一步说明。

如图1所示，音频指纹提取的一般流程如下：首先离线完成预设模板的指纹提取，并将其存入模板指纹库，对指纹建立索引；然后在待测音频信号输入后，对待测音频信号进行指纹提取；最后将待测音频信号的指纹与预设模板的指纹进行对比，如果两者相似度超过预先设定的门限，则报告匹配位置，反之，则不匹配。

如图2所示，Jaap Haitsma等人所述的音频指纹提取过程包括：首先对输入的音频信号通过Hamming窗来分帧，对每一帧进行FFT；然后对一定频率范围内的信号进行频带划分(等间隔或者Mel对数)，并计算每一帧每一频带内的能量。提取出的指纹为bit形式，第n帧的第m个频带计算出的指纹为：

F (n, m) = \{\begin{matrix} 1 & if & E (n, m) - E (n, m - 1) - (E (n - 1, m) - E (n - 1, m - 1)) > 0 \\ 0 & if & E (n, m) - E (n, m - 1) - (E (n - 1, m) - E (n - 1, m - 1)) \leq 0 \end{matrix}

其中F(n，m)代表在帧n的第m个频带的特征取值，E(n，m)代表频谱在帧n的第m个频带的能量值。

为了增加Jaap Haitsma等人的方法的鲁棒性，可对上述方法提取的音频指纹进行累积能量，帧n的第m个频带的累积能量定义为：

(n, m) = \frac{1}{m} Σ_{j = 0}^{m} E (n, j)

然后进一步采用累积能量的差分以提取指纹：

F (n, m) = \{\begin{matrix} 1 & if & S (n, m) - S (n, m - 1) - (S (n - 1, m) - S (n - 1, m - 1)) > 0 \\ 0 & if & S (n, m) - S (n, m - 1) - (S (n - 1, m) - S (n - 1, m - 1)) \leq 0 \end{matrix}

通过上述方法，可以得到待测音频的指纹，将待测音频的指纹与预设模板的指纹进行对比，可以剔除大多数与模板不相符的匹配，只剩下很少一部分可能与模板相同的匹配，即完成了本发明所述的第一阶段的任务。在第一阶段中，虽然音频指纹的鲁棒性得到增强，使检测时的击中率得到增加，但是也带来一定的虚警率，为保证检测的准确性，必须对第一阶段的结果进行确认。

下面重点介绍第二阶段的任务——利用QPLP特征对第一阶段的结果进行确认。

以8k采样、16比特量化的音频数字信号为例，信号每512点为一帧，加哈明窗，用FFT求得512点能量谱，再计算听觉能量谱，即临界带听觉谱。一个临界带宽单位用Bark来表示。临界带宽编号Z与频率f之间的关系式为：

Z = 6 \times \ln (\frac{f}{600} + \sqrt{{(\frac{f}{600})}^{2} + 1})

式中0≤z≤21.6Bark，临界带的中心频率位于0.98kBark处，4k所对应的256点能量谱被划分成22个频带，去掉第一个和最后一个频带，只用中间20个频带。这20个频带中每个频带内的能量谱与如下的加权重函数相乘，求和得到临界带听觉谱。，加权重公式为

C_{k} (z) = \{\begin{matrix} 10^{(z - z_{k} + 0.5)} & z \leq z_{k} - 0.5 \\ 1 & z_{k} - 0.5 \leq z \leq z_{k} + 0.5 \\ 10^{(z - z_{k} - 0.5)} & z &GreaterEqual; z_{k} + 0.5 \end{matrix} .

在相同的声强下，人耳对不同的频率所感到的响度并不相同，为了模拟人耳的特点，对上一步的输出做反对数后，做lg40dB等响度曲线函数变换。等响度曲线函数公式如下：

e (ω) = \frac{ω^{2} \times (ω^{2} + 1.44 \times 10^{6})}{(ω^{2} + 1.6 \times 10^{5}) \times (ω^{2} + 9.61 \times 10^{6})}

经过20点的离散傅立叶反变换后，用Durbin算法计算M阶全极点模型得到系数再计算倒谱系数，最后的结果为PLP参数，将PLP参数矢量化，得到QPLP特征。

将音频数字信号的QPLP特征与预设模板的QPLP特征进行比较，若匹配，则说明音频数字信号中含有预设模板，反之，则不含有预设模板。

Claims

1.从音频视频流中高精度检测模板的两阶段方法，包括第一阶段：提取累加能量的差分特征进行粗匹配，其特征在于，还包括第二阶段：提取量化的感知线性预测参数特征对粗匹配成功的音频视频进行确认，所述第二阶段包括以下步骤：

(1)对待测音频流进行分帧，并对每一帧进行FFT；

(2)计算每一帧音频信号的临界带听觉谱；

(3)获取等响度曲线；

(4)进行离散傅立叶反变换；

(5)计算全极点模型获取系数，并计算其倒谱系数，得到感知线性预测参数；

(6)对每一帧的感知线性预测参数进行矢量化，得到每一帧量化的感知线性预测参数特征 ;

(7)比较待测音频流量化的感知线性预测参数特征与预设模板量化的感知线性预测参数特征是否相同，若相同，则表明待测音频流中含有预设模板，反之，则不含预设模板。

2.根据权利要求1所述的从音频视频流中高精度检测模板的两阶段方法，其特征在于，所述第一阶段中，对相邻帧中累加能量差分特征相同的帧只进行了一次索引。

3.根据权利要求1所述的从音频视频流中高精度检测模板的两阶段方法，其特征在于，所述步骤(1)是通过哈明窗来实现分帧的。

4.根据权利要求1所述的从音频视频流中高精度检测模板的两阶段方法，其特征在于，所述临界带听觉谱的计算方法如下：

一个临界带宽单位用Bark来表示，临界带宽编号Z(Bark)与频率f(Hz)之间的关系式为：

其中0≤Z≤21.6Bark(0≤f＜4kHz)，临界带k的中心频率Z_k则位于0.98k Bark(k＝1，2，...，22)处，去掉第一个和最后一个频带，只用中间20个频带，这20个频带中每个频带内的能量谱与如下的加权重函数相乘，求和后得到临界带听觉谱，加权重公式为：

5.根据权利要求1所述的从音频视频流中高精度检测模板的两阶段方法，其特征在于，所述全极点模型的系数通过Durbin算法得到。