CN100530196C

CN100530196C - 一种基于分层匹配的快速音频广告识别方法

Info

Publication number: CN100530196C
Application number: CNB2007101775178A
Authority: CN
Inventors: 朱振峰; 刘楠; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2007-11-16
Filing date: 2007-11-16
Publication date: 2009-08-19
Anticipated expiration: 2027-11-16
Also published as: CN101158967A

Abstract

一种能够快速检测电视或广播节目中是否存在数据库中广告的基于分层匹配的快速广告识别方法，其特征在于包括下列步骤：离线数据库建立与在线监测，其中离线数据库建立分为离线预处理与哈希表建立；在线处理部分分为在线预处理、由粗糙到精细的二级匹配和后处理三个部分。

Description

一种基于分层匹配的快速音频广告识别方法

技术领域

本发明属于音频广告识别方法领域，特别涉及一种基于分层匹配的快速音频广告识别方法。

背景技术

随着科学技术和信息技术的进步，特别是计算机技术、网络技术和大容量存储技术的不断发展，人们已经运用各种手段大量的采集和生产了各种类型的多媒体信息数据。多媒体已成为信息高速公路上传送数据的主要组成部分。各种多媒体数据中大多都包含音频数据，如何超越传统的基于文本的检索，利用音频的幅度、频谱等物理特征，响度、音高、音色等听觉特征，词字、旋律等语义特征实现基于内容的音频信息检索(Content-Based Audio Information Retrieval，CBAIR)已成为国内外研究的热点问题之一。音频信息的内容、存在形式与表达方式多种多样。在种类繁多的音频数据中，如何能够自动、准确、快速地寻找到感兴趣的内容，实现基于内容的音频信息检索，是一个既迫切又具有挑战性的研究课题。

音频信息检索技术有着广泛的应用前景，它是音频信息搜索引擎的关键技术，用户可通过该技术快速获取所需的信息资源，实施更加灵活的搜索策略。音频信息检索还可实现对音视频的点播，对网上电视节目等媒体中的音频信息进行实时检索、审查和有效监控；可应用于市场调查、网络管理、信息安全等诸多领域；同时也在各种数字音频产品的版权保护，音频信息分类与统计技术中扮演重要的角色。

广告检测作为音频信息检索的一个方面，正引起人们越来越多的关注。这是因为广告在日常的信息传递中占据着越来越重要的角色，随着商业化进程的加快，广告越来越频繁的出现在电视、广播、互联网等多个媒体平台，潜移默化的影响着人们的生活方式。广告作为媒体中商业信息的主要载体在数字化的今天依然扮演着不可或缺的角色。伴随着网络技术及多媒体技术的日益普及，大量的计算机技术在广播电视领域得到了广泛的应用，例如广播电视节目转录软件，广播电视节目监测系统等。如何通过计算机自动甄别广告与正常节目成为了迫切的市场需要。

通过观察，广告的受众可以分为一般观众群体、广告公司和监测机构，不同的人群对广告内容的需求不尽相同。对于观众来说，一方面广告影响了节目的播放，扰乱了人们正常地观看收听模式，有时用户在录制节目的过程中，也不得不花费大量的存储空间，录制这些对自己没有用处的信息。另一方面，观众如何从浩如烟海的众多广告中，快速寻找自己感兴趣的内容，也已成为一个亟待解决的问题。对于广告公司而言，广告在商业信息的传递中占据着越来越重要的地位，他们通过对广告的分析，帮助客户了解竞争对手的产品情况，检测无线电电台、电视台是否完全履行广告合同或是通过监测其他广告公司的广告提高自身的广告创作自技术。监测机构往往是隶属于国家的专业管理部门，他们实时监测广告，保留违法的证据与信息用以查处违反国家政策法规的公司与个人，维护社会的正常秩序。每一天，各个电台都会产生海量的多媒体数据，如果对广告的监测、过滤、分析等工作，完全通过人工来完成，处理一个电台一天的广告数据，往往需要耗费多名工作人员四五天的工作量，如果考虑到全国多个电台的监测，工作量更是呈现指数级的增长。如何开发一种能够自动识别广告的广播电视监测系统，分析、监测、滤除广告，越来越受到了各方面的重视与关注。

发明内容

本发明提出一种能够快速监测电视或广播节目中是否存在数据库中广告的基于分层匹配的快速广告识别方法，通过局部敏感性哈希算法(LocalitySensitive Hash，LSH)和精细尺度连续过滤算法(Fine Granularity SuccessiveElimination，FGSE)，利用广告的音频特征结合后处理技术而开发。

本发明的目的是通过如下技术方案实现的：一种基于分层匹配的快速音频广告识别方法，其特征在于包括下列步骤：离线数据库建立与在线监测，其中离线数据库建立分为离线预处理与哈希表建立；在线监测部分分为在线预处理、由粗糙到精细的二级匹配和后处理三个部分。

所述的离线预处理包括：音频广告分割与音频特征提取。对于广告数据库中每一个音频广告，分割为长短为20ms的音频帧，每个音频帧之间都有50％即10ms的重叠部分，同时，在音频帧的基础上，选择连续的64个音频帧组成音频段，650ms时长，作为特征向量提取的基本单元，数据库中的每一个广告从起始点开始都被分割为连续等长无重叠的音频段，并且标注上该广告的名称与此音频段在该广告中的序号，使用平均过零率(Zero Crossing Rate，ZCR)作为音频特征，提取数据库中所有广告音频段的特征，由此将广告数据库映射成为音频特征数组。

所述哈希表建立包括：将获得的特征向量数组和与之对应的广告镜头名称和镜头编号，用于构造局部敏感性哈希表。设定子哈希表的个数(10个)与哈希键长(键长为20)，对于每一个子哈希表产生过程为，根据初始设定的两个变量，利用随机函数产生不同的哈希系数，利用这些系数将特征向量映射到汉明空间，转化为0和1的组合序列，根据序列中的0和1的个数，选择不同的哈希表位置，将产生的所有子哈希表组成局部敏感性哈希表，将特征向量与标注信息存入哈希表中。

所述在线预处理包括音频分割与特征提取，其中所述音频分割与特征提取过程为：对于音频文件中的数据，按照与数据库中相同的方式，将文件分为20ms长的音频帧，用一个滑动窗口在音频帧序列上滑动，滑动窗口的长度为音频段的长度，如果上一个窗口中的数据被认为是数据库中某一个广告的音频段，滑动窗口以650ms的步长滑动，读入新的650ms的音频数据，否则以20ms的步长滑动，读入含有630ms重复信息的音频数据，分别提取平均过零率特征。

所述由粗糙到精细的二级匹配，包括在局部敏感性哈希表中查询与精细尺度连续过滤两部分，具体步骤为：将获得的一个音频段的特征向量通过局部敏感性哈希方法，将其映射到数据库的10个哈希表对应的条目中，获得与查询向量最为相近的20个候选向量，这20个候选特征向量将通过精细尺度连续过滤算法(FGSE)进行更为精细的匹配，在规定的阈值下，寻找数据库中是否有与之相似的特征向量，即判断该音频段是否为数据库中某个广告的一部分，如果是，则将数据库中这个对应的广告音频段的名称和序号标注到查询音频段上，如果输入的音频特征是文件中的最后一个音频段，系统对得到的标注音频段序列进行后处理操作；否则，读入新的音频数据。

所述后处理具体步骤为：当文件中的所有音频段匹配完毕后，我们可以得到一系列标注好的音频段序列，由于音频的分割以及噪声的干扰，在结果中会出现一定的漏检或误检。后处理程序将处理这些错误，尽可能的得到正确的结果。首先，按照标注序列中不同的广告名称的数量，将具有相同标注广告名称的音频段组成若干个子段。对每一个子段，根据音频段在原始文件中的位置，在时间轴上依次排列，利用标注的广告时间序号与起始点之间的位置关系消除其中的漏检与误检，获得连续完整的标注信息。经过纠正的标注段，如果其长度大于数据库中该广告本身长度的一半，则认为标注成功，同时以还可以找出同一文件中相同的多个广告。处理完所有子段后，对结果按照时间先后顺序排序，输出。

将精细尺度连续过滤算法(Fine Granularity Successive Elimination，FGSE)应用于一维特征向量的相似性匹配中，其步骤如下：

(1)初始化分段的层数l＝0，块序号order为0，块长度m等于向量的维数len，在第0层中子块的个数S_l为1，分块总的次数L＝len+1；

(2)计算两个特征向量块对应的差值和BV_l；

{BV}_{l} = Σ_{k = 0}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

其中Q_l ^(k)和R_l ^(k)分别对应查询向量和候选向量在第l层时对应的第k个小块的每一维特征向量值之和；

(3)如果BV_l大于等于阈值SAD_min跳转至(5)，否则置l＝l+1，对向量进行分块，每次分块，仅对向量中的第一个未分割的子块进行分割：

a.将长度为m的第i块分割为两个长度为m/2的子块，更新S_l＝S_l+1，order中第i块及以前的块序号保持不变，后面的序号依次加1；

b.判断是否所有的长度为m的小块均完成了分割，如果完成，令i＝0，m＝m/2，否则i＝i+2指向下一个长度为m的块；

(4)重复(2)，(3)直到最后一层L分割完成，如果BV_L＜SAD_min，则令SAD_min＝BV_L；

(5)检测是否还有未检测的候选向量，如果存在至步骤(1)，否则输出是否匹配的结果。

利用标注序号关系与音频文件中的时间信息，消除错误标注，提高整体正确率的后处理过程，其步骤如下：

(1)统计标注结果中的不同广告名称的个数，并把具有相同广告名称的标注音频段放入同一子段；

(2)根据标注音频的起始点位置的时间信息，将标注音频段按照时间顺序排序，如果两个连续音频段之间在时间上不是连续的，则在其中补充空白的音频段，补充音频段的个数等于之间间隔时间长度除以650ms的商并向上取整。该步骤名称为时间扩充；

(3)得到了时间扩充后的标注段后，根据标注的时间序号与之间存在的空白段的关系可以进行如下操作：对于出现错误的134、1034、1094、1324、1294、1023、1293分别纠正为1234、1234、1234、1234、1234、123和123；其中加黑序号代表错误标注音频段，0代表在时间扩充过程中添加的空白音频段；

(4)根据数据库中广告模板的时间长度，以及检测出的时间长度，判断该文件中可能存在的广告个数，根据广告个数将标注序列进一步分割为几个子段，分别与阈值进行比较，判断广告是否存在；

(5)判断是否所有的拥有不同文件名的序列都已经被检测，检测未完转(2)，检测完成转(6)。

(6)根据时间顺序将获得结果排列，输出。

本发明的效果是：与现有的广告监测技术相比，本发明仅通过简单的音频分割与特征提取技术，尽可能地减轻了预处理阶段的计算量与计算复杂度，对提取的特征通过在局部敏感性哈希表中的检索，获得与检索特征相似的候选特征向量，利用一种快速的特征匹配算法——精细尺度连续过滤技术，进一步匹配获得精确的标注结果，在系统最后通过后处理模块对标注信息进行结果校正。和以往广告监测系统不同的是，本发明以一种快速鲁棒的广告识别技术，通过一个由粗糙到精细的匹配过程逐渐滤除差异很大的候选特征，通过有效的后处理模块，获得最后的结果。本系统的优点是只需要很低的CPU负荷，就可以计算输入音频的特征，通过两层筛选过程有效的减少匹配次数，利用后处理进一步提高检测的正确率与查全率，并且通过对数据库构造局部敏感性哈希表，大大减少所需要的存储空间，由于关注于广告的音频信息，本系统既可以用于无线广播节目的检测，同时也可用于各个电视台的广告监测中。具体来说，用户输入系统一段音频，系统自动将这段音频分割为650ms时长的音频段，在音频段中提取64维平均过零率特征，以这些特征为基本格式，在局部敏感性哈希表的映射空间中，查找与之最为相近的K个特征向量。这些候选特征将通过精细尺度连续过滤模块，快速输出在规定阈值下与输入特征最为近似的标注结果，根据标注结果选择不同的步长在输入音频段中继续寻找下一个新的输入段，进行下一轮的匹配。在匹配进行完成后，利用后处理技术判断标注的内容是否可以组成一个相对完整的音频广告。

附图说明

图1本发明的整体系统框图；

图2局部敏感性哈希算法方案框图；

图3精细尺度连续过滤技术滤除过程示意图；

图4后处理方案框图；

图5本系统性能随参数变化实验图；

图6本系统对广告部分丢失和部分受到噪声干扰性能实验图；

图7本系统对音频文件受干扰和不同采样率文件测试性能实验图；

图8精细尺度连续过滤算法性能测试图；

图9本系统识别界面。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的描述。

根据以上介绍的技术方案，我们可以很容易将本发明应用于广告监测中，为用户提供精确的广告识别服务。结合附图，我们对本发明的具体实施方式作详细阐述。

1.平均过零率特征提取

在本发明中，使用平均过零率表示音频段的特性。平均过零率是音频帧中采样信号时域中通过零点的次数除以本音频中的样本总数，这类特征便于计算，并且可以消除不同幅度信号所引起的误差。平均过零率的计算公式如下：

{ZCR}_{n} = \frac{1}{2} \underset{m}{Σ} | sgn [x (m)] - sgn [x (m - 1)] ω (n - m)

其中：

sgn [x (n)] = \{\begin{matrix} 1, & x (n) &GreaterEqual; 0 \\ - 1, & x (n) < 0 \end{matrix}

ω(n)为窗函数，本发明使用的是矩形窗，长度为20ms，假设音频的采样率为samplerate(Hz)，则样本点个数为M＝samplerate*0.02，则该音频帧过零率计算公式为：

{ZCR}_{n} = \frac{1}{2} Σ_{m = 1}^{M} | sgn [x (m)] - sgn [x (m - 1)]

650ms时长的音频段的音频特征为Feature＝{ZCR₁|i≤i≤64}。

2、滑动窗口采取双步长移动方式：

在系统输入的音频文件上设置长度为650ms的滑动窗口。该窗口的移动与窗口中音频段在系统监测的结果进行实时交互，如果该音频段被系统确认为广告数据库中某一个广告音频段之一，那么可认为该音频文件中下一个输入的音频段属于数据库中广告的概率是非常大的，使用650ms长的步长，读取新的650ms长的数据。否则只移动一个音频帧20ms的长度，读取与上一音频段有重复的630ms音频数据的音频段。

3、局部敏感性哈希算法：

在高维特征空间中，由于“维数灾难”的原因，对于一个查询，寻找一个精确的匹配往往需要耗费大量的计算，直接影响了索引的速度。局部敏感性哈希算法提供了一种快速的近似性返回机制，而且索引速度不会因为维数的增长发生过多的恶化。局部敏感性哈希算法的主要思路是使用不同的局部敏感性哈希函数，根据特征之间的相似性，将特征映射到各个哈希表的不同条目中去。这些哈希表组成构成一个局部敏感性哈希表。如果两个特征被分到一个条目中的概率很大，就说明这两个特征向量越接近。

假设查询向量为Q_m，局部敏感性哈希函数可以将该特征向量通过第i个哈希表的哈希函数h_i(·)，映射到条目h_i(Q_m)中。假设若干个哈希函数h_i(·)构成了局部敏感性哈希函数族H，对于查询向量Q_m与数据库中向量R在距离测度l下，可以得到局部敏感性哈希的基本数学思想：

If||Q-R||_l≤r₁，P_rH[h(Q)＝h(R)]≥p₁，

If||Q-R||_l＞r₂，P_rH[h(Q)＝h(R)]≤p₂.

其中r₁，r₂，p₁和p₂为常数，且p₁＞p₂，r₁＜r₂。对于函数族H它保证了在一定距离测度下，向量Q和R的距离小于一定的阈值时，其落入同一条目的概率大于p₁。在本系统中，使用的距离测度为欧式距离，那么两个向量之间的相似度度量方法为：

对于查询向量Q映射到第i个哈希表的条目h_i(Q_m)中，其中有相似的特征向量R_ij，我们将所有哈希表对应条目中的所有相似特征向量集合在一起，选出最相近的K个候选特征向量。

建立局部敏感性哈希表的操作过程如下：

(1)获得数据库的特征向量组，将特征向量数组的各个特征值整数化，初始化局部敏感性哈希表中包含的子哈希表的个数l＝10，哈希主键(Hash Key)的长度hk＝20以及特征向量数组中的最大值C。

(2)将每一个特征向量p_j＝(x₁，...，x₆₄)映射到汉明空间H^d′中，其中d′＝C*64，映射为p_j′＝Unary_C(x₁)，...，Unary_C(x₆₄)，其中Unary_C(x)表示对于特征向量中该维的特征值映射为x个1与C-x个0的序列组合。

(3)对于i＝1，..，l，将映射后的每一个特征向量通过哈希表T_i的哈希函数g_i(·)，根据hk的值映射到对应的条目中存储，构建哈希表。

在LSH哈希表中查询近似向量的过程，如附图2所示：

(1)设定返回的相似向量的个数K，本系统设置为20。设置相似向量的缓冲区S＝φ。

(2)对于输入的查询向量q，映射到汉明空间q′。

(3)进入每一个哈希表T_i，i＝1，...，l。利用各个哈希表的哈希函数g_i(·)将q′映射到哈希表的条目中，将条目中的向量存入S←S∪{p in g_i(q)of T_i}。

(4)在向量缓冲区S中使用最近邻线性搜索算法，寻找K个最相近的向量并返回这些向量。

2.精细尺度连续过滤技术算法

精细尺度连续过滤技术应用于视频压缩中宏块间寻找最优的运动向量，本系统将该技术改进后用于快速的模式匹配过程。假设Q和R分别表示查询与候选的特征向量，两个向量相互之间每一维的差值和为：

SAD = Σ_{i = 0}^{N - 1} | V_{Q} (i) - V_{R} (i) |,

用Q₀和R₀表示两个特征向量各维特征之和，根据不等式|a+b|≤|a|+|b|，可以得到|Q₀-R₀|≤SAD。假设SAD_min为阈值，如果出现|Q₀-R₀|≥SAD_min，就可以从这一等级判断两个特征向量是不匹配的。通过对特征向量进行不断的分段，并且计算每个子段差值的和，在不同的分段层次l和l+1时，差值和有如下关系：

{BV}_{l} = Σ_{k = 0}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

。因为，

{BV}_{l + 1} = Σ_{k = 0}^{m} | Q_{l}^{(k)} - R_{l}^{(k)} | + Σ_{k = m + 1}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |,

所以

\begin{matrix} {BV}_{l + 1} = Σ_{k = 0}^{S_{l + 1} - 1} | Q_{l + 1}^{(k)} - R_{l + 1}^{(k)} | & + | Q_{l + 1}^{(m)} - R_{l + 1}^{(m)} | + | Q_{l + 1}^{(m + 1)} - R_{l + 1}^{(m + 1)} | \end{matrix}

{BV}_{l} \leq {BV}_{l + 1} .

可以看到在不断的细分过程中，差值和BV是不断的增大，如果BV_l≤BV_l+1≥SAD_min，就可以滤除这些不匹配的特征向量。只有最优匹配的特征向量，可以细分到特征向量每一维的水平，并且保证BV＜SAD_min。

图3给出了本方案的滤除原理图以及分块示例过程：

(1)初始化分段的层数l＝0，块序号order为0，块长度m等于向量的维数len。在第0层中子块的个数S_l为1，分块总的次数L＝len+1。

(2)计算两个特征向量块对应的差值和BV_l。

{BV}_{l} = Σ_{k = 0}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

其中Q_l ^(k)和R_l ^(k)分别对应查询向量和候选向量在第l层时对应的第k个小块的每一维特征向量值之和。

(3)如果BV_l大于等于阈值SAD_min跳转至(5)，否则置l＝l+1。对向量进行分块。每次分块，仅对向量中的第一个未分割的子块进行分割：

a.将长度为m的第i块分割为两个长度为m/2的子块，更新S_l＝S_l+1，order中第i块及以前的块序号保持不变，后面的序号依次加1。

b.判断是否所有的长度为m的小块均完成了分割，如果完成，令i＝0，m＝m/2，否则i＝i+2指向下一个长度为m的块。

(4)重复(2)，(3)直到最后一层L分割完成，如果BV_L＜SAD_min，则令SAD_min＝BV_L。

(5)检测是否还有未检测的候选向量，如果存在至(1)，否则输出是否匹配的结果。

4.后处理实施方案

图4给出了本方案操作过程

(1)统计标注结果中的不同广告名称的个数，并把具有相同广告名称的标注音频段放入同一子段。

(2)根据标注音频的起始点位置的时间信息，将标注音频段按照时间顺序排序，如果两个连续音频段之间在时间上不是连续的，则在其中补充空白的音频段，补充音频段的个数等于之间间隔时间长度除以650ms的商并向上取整。该步骤名称为时间扩充。

(3)得到了时间扩充后的标注段后，根据标注的时间序号与之间存在的空白段的关系可以进行如下操作：

错误情况	纠正前的序号排列	纠正后
错误情况	纠正前的序号排列	纠正后	漏检	134	1234
漏检	1034	1234	漏检	134	1234
漏检	1034	1234	漏检	1094	1234
交叉错误	1324	1234	漏检	1094	1234
交叉错误	1324	1234	误检	1294	1234
误检	1023	123	误检	1294	1234
误检	1023	123	误检r	1293	123

其中粗体字序号代表错误标注音频段，0代表在时间扩充过程中添加的空白音频段。

(4)根据数据库中广告模板的时间长度，以及检测出的时间长度，判断该文件中可能存在的广告个数，根据广告个数将标注序列进一步分割为几个子段，分别与阈值进行比较，判断广告是否存在。

(6)根据时间顺序将获得结果排列，输出。

为了验证本发明的有效性和优点，使用本发明对其识别的性能与鲁棒性进行了测试。我们从北京、安徽、四川等各个电视台录制了一定量的电视数据，抽取其中的音频信息，存储为44100kHz、8位的Wave文件。从中手工挑选了120个左右的长度从4秒至120秒不同长度的广告，建立广告数据库，数据库的存储空间大约在95MB左右。我们利用时间总长度近60分钟包含近50％广告的测试音频文件，对系统的性能进行测试，与其它系统相比，我们所设计的基于音频特征的广告识别方案在大大减轻计算机与处理复杂度的情况下，取得了优异的识别性能，正确率与查全率分别达到了100％与97％，通过数据库建立的哈希表的大小仅为444KB，节约了99％以上的数据存储空间。如附图5所示，我们进行了FGSE阈值和滑动窗口的小步长大小对系统的识别性能影响的实验，其中深色曲线代表正确率，浅色代表查全率。通过附图5我们可以观察到，随着FGSE阈值的不断加大，系统性能在阈值为500时达到最优后，伴随着阈值增大，误检的广告个数增多，系统性能下降。伴随着不同窗口长度的增加，数据窗口中引入更多的噪声，系统的性能逐渐下降。通过实验，本系统的参数设置阈值为500，小步长为20ms。如附图6、7所示，我们对系统的鲁棒性能进行了测试，其中深色曲线代表了经过后处理后，正确检测的镜头的比率，浅色代表未经过后处理时的效果，当正确率大于50％时，系统可做出正确的判断。如图所示，本系统对于电视或广播中广告内容的部分缺失以及噪声的干扰具有很好的鲁棒性，不管广告缺失的位置，在缺失部分低于数据库广告模板长度20％以下时(附图6-1)，都可以进行正确的监测。在广告部分内容受到严重干扰的情况下，只要干扰部分低于数据库中广告模板长度的45％(附图6-2)，系统仍然可以做出正确的判断。在高斯加性白噪声的影响下，我们的系统在信噪比高于6dB的情况下，具有良好的效果(附图7-1)。本系统还可以对不同频率的音频文件进行监测，并取得了一定的效果(附图7-2)。同时我们对于本系统标注广告的起始点的实际位置与真实的位置之间的差距进行了统计，经过本系统标注，起始点与真实情况相差0.05s的广告个数在62％左右，与实际位置差异在0.4s(视频中一帧的长度)以内的广告个数占总体的在93％以上，相差1s的广告个数的比例则达到了99％左右。

边界点D位置	起点(个)	起点(百分比)	终点(个)	终点(百分比)
边界点D位置	起点(个)	起点(百分比)	终点(个)	终点(百分比)	D＜＝0.05s	37	66.1	32	57.1
0.05s＜D＜＝0.1s	8	14.3	7	12.5	D＜＝0.05s	37	66.1	32	57.1
0.05s＜D＜＝0.1s	8	14.3	7	12.5	0.1s＜D＜＝0.2s	7	12.5	9	16.1
0.2s＜D＜＝0.5s	2	3.6	3	5.4	0.1s＜D＜＝0.2s	7	12.5	9	16.1
0.2s＜D＜＝0.5s	2	3.6	3	5.4	0.5s＜D＜＝1.0s	2	3.6	4	7.1
D＞1.0s	0	0	1	1.8	0.5s＜D＜＝1.0s	2	3.6	4	7.1
D＞1.0s	0	0	1	1.8		56	100	56	100

在实验的最后，我们将FGSE算法与一般的匹配算法进行了比较，如附图8所示，我们发现随着比较样本的不断增多，FGSE体现出了优异的快速匹配性能。

Claims

1、一种基于分层匹配的快速音频广告识别方法，其特征在于包括下列步骤：离线数据库建立与在线监测，其中离线数据库建立分为离线预处理与哈希表建立；在线监测部分分为在线预处理、由粗糙到精细的二级匹配和后处理三个部分；

所述的离线预处理包括：音频广告分割与音频特征提取；对于离线数据库中每一个音频广告，分割为长短为20ms的音频帧，每个音频帧之间都有50％即10ms的重叠部分，同时，在音频帧的基础上，选择连续的64个音频帧组成音频段，650ms时长，作为特征向量提取的基本单元，离线数据库中的每一个广告从起始点开始都被分割为连续等长无重叠的音频段，并且标注上该广告的名称与此音频段在该广告中的序号，使用平均过零率作为音频特征，提取离线数据库中所有广告音频段的特征，由此将离线数据库映射成为音频特征数组；

所述哈希表建立包括：将获得的音频特征数组和与之对应的广告名称和广告序号，用于构造局部敏感性哈希表；设定子哈希表的个数与哈希键长，对于每一个子哈希表产生过程为，根据初始设定的两个变量，利用随机函数产生不同的哈希系数，利用这些系数将特征向量映射到汉明空间，转化为0和1的组合序列，根据序列中的0和1的个数，选择不同的哈希表位置，将产生的所有子哈希表组成局部敏感性哈希表，将特征向量与标注信息存入局部敏感性哈希表中；

所述在线预处理包括音频分割与特征提取，其中所述音频分割与特征提取过程为：对于音频文件中的数据，按照与离线数据库中相同的音频数据方式，将文件分为20ms长的音频帧，用一个滑动窗口在音频帧序列上滑动，滑动窗口的长度为音频段的长度，如果上一个窗口中的数据被认为是离线数据库中某一个广告的音频段，滑动窗口以650ms的步长滑动，读入新的650ms的音频数据，否则以20ms的步长滑动，读入含有630ms重复信息的音频数据，分别提取平均过零率特征；

所述由粗糙到精细的二级匹配，包括在局部敏感性哈希表中查询与精细尺度连续过滤两部分，具体步骤为：将获得的一个音频段的特征向量通过局部敏感性哈希方法，将其映射到离线数据库的10个哈希表对应的条目中，获得与查询向量最为相近的20个候选向量，这20个候选特征向量将通过精细尺度连续过滤算法进行更为精细的匹配，在规定的阈值下，寻找离线数据库中是否有与之相似的特征向量，如果离线数据库中有与之相似的特征向量，则将离线数据库中这个对应的广告音频段的广告名称和广告序号标注到查询音频段上；如果输入的音频特征是文件中的最后一个音频段，系统对得到的标注音频段序列进行后处理操作，否则，读入新的音频数据；

所述后处理具体步骤为：当文件中的所有音频段匹配完毕后，我们能够得到一系列标注好的音频段序列，由于音频的分割以及噪声的干扰，在结果中会出现一定的漏检或误检；后处理程序将处理这些错误，尽可能的得到正确的结果；首先，按照标注序列中不同的广告名称的数量，将具有相同标注广告名称的音频段组成若干个子段；对每一个子段，根据音频段在原始文件中的位置，在时间轴上依次排列，利用标注的广告序号与起始点之间的位置关系消除其中的漏检与误检，获得连续完整的标注信息；经过纠正的标注段，如果其长度大于离线数据库中该广告本身长度的一半，则认为标注成功，同时还能够找出同一文件中相同的多个广告；处理完所有子段后，对结果按照时间先后顺序排序，输出。

2、根据权利要求1所述的一种基于分层匹配的快速音频广告识别方法，其特征在于将所述精细尺度连续过滤算法应用于一维特征向量的相似性匹配中，其步骤如下：

(2)计算两个特征向量块对应的差值和BV_l；

{BV}_{l} = Σ_{k = 0}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

3、根据权利要求1所述的一种基于分层匹配的快速音频广告识别方法，其特征在于所述后处理过程中利用标注序号关系与音频文件中的时间信息，消除错误标注，提高整体正确率，其步骤如下：

(2)根据标注音频的起始点位置的时间信息，将标注音频段按照时间顺序排序，如果两个连续音频段之间在时间上不是连续的，则在其中补充空白的音频段，补充音频段的个数等于之间间隔时间长度除以650ms的商并向上取整，该步骤名称为时间扩充；

(3)得到了时间扩充后的标注段后，根据标注的序号与之间存在的空白段的关系能够进行如下操作：对于出现错误的134、1034、1094、1324、1294、1023、1293分别纠正为1234、1234、1234、1234、1234、123和123；其中加黑序号代表错误标注音频段，0代表在时间扩充过程中添加的空白音频段；

(4)根据离线数据库中广告模板的时间长度，以及检测出的时间长度，判断该文件中可能存在的广告个数，根据广告个数将标注序列进一步分割为几个子段，分别与阈值进行比较，判断广告是否存在；

(5)判断是否所有的拥有不同文件名的序列都已经被检测，检测未完转(2)，检测完成转(6)；

(6)根据时间顺序将获得结果排列，输出。