CN101162470A

CN101162470A - 一种基于分层匹配的视频广告识别方法

Info

Publication number: CN101162470A
Application number: CNA2007101775233A
Authority: CN
Inventors: 赵耀; 刘楠; 朱振峰
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2007-11-16
Filing date: 2007-11-16
Publication date: 2008-04-16
Anticipated expiration: 2027-11-16
Also published as: CN101162470B

Abstract

一种基于分层匹配的视频广告识别方法，通过局部敏感性哈希算法(Locality Sensitive Hash，LSH)和精细尺度连续过滤算法(Fine Granularity Successive Elimination，FGSE)，利用广告的新颖的视频特征结合后处理技术开发出一套能够快速检测电视节目中是否存在数据库中的广告。技术方案是：其特征在于包含以下步骤：离线数据库建立与在线监测，其中离线数据库建立分为离线预处理与哈希表建立；在线监测部分分为在线预处理、由粗糙到精细的二级匹配和后处理。

Description

一种基于分层匹配的视频广告识别方法

技术领域

本发明属于视频广告识别方法领域，尤其涉及一种基于分层匹配的视频广告识别方法。

背景技术

随着科学技术和信息技术的进步，特别是计算机技术、网络技术和大容量存储技术的不断发展，人们已经运用各种手段大量的采集和生产了各种类型的多媒体信息数据。多媒体已成为信息高速公路上传送数据的主要组成部分。在这些多媒体信息中，数字化媒体结合了视觉和听觉，有效地向人们提供了大量的信息，具有重要的应用和研究价值。

多媒体数据流中，既包括结构化的数据也含有非结构化数据。在多媒体数据中除了包含传统的文本和数字外，其它主要包含的数据类型还有：图形、图像、动画、视频、音频以及上述各种媒体的组合。为了能够在数据量巨大和结构复杂的多媒体数据中快速的定位感兴趣的信息，人们提出了比较有效的检索算法——基于内容的多媒体信息检索(Content-based multimedia informationretrieval，CMIR)。所谓基于内容的多媒体检索是指对多媒体数据(如视频、音频流等)中所蕴藏的物理和语义内容进行计算机分析和理解，以方便用户查询，其本质是对无序的多媒体数据流结构化，提取语义信息，保证多媒体内容能被快速检索。多媒体检索与文本信息检索相比要复杂的多。

广告视频检索作为多媒体视频检索的一个方面，正引起人们越来越多的关注。这是因为广告视频在日常的信息传递中占据着越来越重要的角色，随着商业化进程的加快，广告越来越频繁的出现在电视、广播、互联网等多个媒体平台，潜移默化的影响着人们的生活方式。广告作为媒体中商业信息的主要载体在数字化的今天依然扮演着不可或缺的角色。伴随着网络技术及多媒体技术的日益普及，数字电视技术在个人与专业应用领域得到了广泛的应用，例如电视节目转录软件，电视节目监测系统等。如何通过计算机自动甄别广告与正常的视频节目成为了迫切的市场需要。

通过观察，广告的受众可以分为一般观众群体、广告公司和监测机构，不同的人群对广告内容的需求不尽相同。对于观众来说，一方面广告影响了正常的视频节目的播放，扰乱了人们正常地观看模式，有时用户在录制电视节目的过程中，也不得不花费大量的存储空间，录制这些对自己没有用处的信息。另一方面，观众如何从浩如烟海的众多广告中，快速寻找自己感兴趣的内容，也已成为一个亟待解决的问题。对于广告公司而言，广告视频在商业信息的传递中占据着越来越重要的地位，他们通过对广告的分析，帮助客户了解竞争对手的产品情况，检测电视台是否完全履行广告合同或是通过监测其他广告公司的广告提高自身的广告创作技术。监测机构往往是隶属于国家的专业管理部门，他们实时监测广告，保留违法的证据与信息用以查处违反国家政策法规的公司与个人，维护社会的正常秩序。每一天，各个电视台都会产生海量的视频数据，如果对广告的监测、过滤、分析等工作，完全通过人工来完成，处理一个电视台一天的广告数据，往往需要耗费多名工作人员四五天的工作量，如果考虑到全国多个电台的监测，工作量更是呈现指数级的增长。如何开发一种能够自动识别广告的电视监测系统，分析、监测、滤除广告，越来越受到了各方面的重视与关注。

针对广告视频和普通节目视频之间的特征区别，人们提出了很多的广告检索算法。根据检索算法基于的特征不同，比较实用的广告监测系统的检索算法大体上可以分成以下三类：

1、基于标识的方法(Logo-based methods)

此方法是最早被提出用于广告视频定位的方法。它主要是利用电视台的台标来进行检测的。电视台在播放一般的节目时会将自己的台标显示出来，而当播放广告时一般就会隐去台标，这使得我们可以通过检索台标的存在与否来区分广告视频和一般视频。台标一般分为三种：静态台标、半透明台标和动态台标。针对不同形态的台标，都有相应的检索算法，以实现对广告视频的定位。其中对于静态台标的研究是比较深入的，而且应用得很广泛。但是对于后两种台标，因为其自身的制作手法和演示特点，检测起来比较困难。所以还没有比较成熟的检测算法。

2、基于规则的方法(Rule-based methods)

基于规则的系统大多是利用广告镜头信息来进行检测，通过多组特征和规则区分广告视频与一般电视节目视频。由于广告视频和普通的电视节目在某些特征方面存在着比较明显的差异，因此通过定义和利用这些区分性比较强的特征，就可以实现对广告视频的检测。比如在视频方面可以通过提取一段视频帧的平均边缘变化率A-ECR(Average of Edge Change Ratio)和边缘变化方差V-ECR(Variance of Change Ratio)以及平均帧差A-FD(Average of Frame Difference)和帧方差V-FD(Variance of Frame Difference)来实现检测。在音频方面，广告视频部分的音频内容和普通的节目部分的音频信息也存在一些明显的特征，比如音频多维频率普系数(Mel-frequency Cepstral Coefficient)和音频信息熵来实现对视频广告的分割检测。不过音频方面的特征一般都是用于辅助视频特征检测方面，通过两者的结合实现对广告段更加精确的分割检测。在近期的研究中，很多基于规则的检索方法中有引入了分类器算法，通过对样本的训练，获得分类性比较好的分类器，然后对广告镜头和普通节目镜头进行分类，从而得到比较精确的检测结果。

3、基于识别的方法(Recognition-based methods)

此方法利用视频数据库预先储存大量的已知广告的特征信息，采用相应的匹配算法计算待确定镜头和广告样本镜头之间的相似度，从而确定其是否为数据库中的广告。在实际的检索系统中首先检测出一些潜在的、可能是广告的视频或音频段，然后将其特征和广告数据库里面的广告视频段或音频段的特征逐一进行比较，然后可以判断出此部分是否为数据库里面的广告。

但是由于广告数据是一种非格式化、时空并存、数据量大的信息，对于它的检测就会涉及到很多的问题。此外由于不同的广告视频在制作方式和表现手法上的多种多样，使得上述三大类广告检测算法在对广告视频检测上都存在着很多问题。

(1)、对于基于标识的检测算法来说，它只是简单的依靠台标的存在来判断广告视频的存在，因此首先必须能正确的检测出台标。但是现在很多电台在电视节目里面插播广告视频的时候也往往会将台标显示出来，这样基于标识的检测算法就会失效；另外，现在电视台的台标越来越复杂，从早期的静态台标演变成现在的动态的、半透明的、时隐时现的台标，这些使得台标的检测越来越困难。

(2)、对于基于规则的方法来说，此方法需要定义多组用来区分广告和普通节目的特征和阈值。因此区分特征和阈值的选择是十分重要的。但是由于广告是多格式化的，风格不同的广告之间的区别也十分明显，因此很难找到通用的区分特征。另外检测系统可能对于某些阈值比较敏感，所以对于所有类型的视频很难找到一组统一的阈值。而且这类方法过分依赖于各国各地的法律法规，剪切手段，以及各种节目的制作风格，不能够形成一种通用的电视监测系统。监测的正确率和查全率往往受到一些视觉信息或听觉信息相类似的节目的干扰，正确率与查全率往往不高。

(3)、对于基于识别的方法来说，此方法虽然只能检索事先已经获知的数据库中的广告，但是这种系统的正确率与查全率可以达到较高的水平，能够满足实用的需要，而且这种方法并不需要依靠各种广告法规或制作技术等主观的人为因素，完全通过客观信息进行检测，尽可能大的排除了人为因素的干扰，可以跨越不同电视机构平台构建通用的监测系统。同时人们也有理由相信，在高检出率与正确率的前提下，可以通过融合第一第二类技术或者结合对重复音视频探测技术，实现对未知的广告探测，因此的其应用前景十分的广阔。在这类技术中，关键的瓶颈问题在于匹配的速度与数据库存储的大小，如何在数据库很大的情况下，节省存储空间，保持搜索速度，显得尤为重要。

发明内容

本发明正是基于第三类方法，提出一种基于分层匹配的视频广告识别方法，通过局部敏感性哈希算法(Locality Sensitive Hash，LSH)和精细尺度连续过滤算法(Fine Granularity Successive Elimination，FGSE)，利用广告的新颖的视频特征结合后处理技术开发出一套能够快速检测电视节目中是否存在数据库中广告的方法。

本发明的目的是通过如下技术方案实现的。

一种基于分层匹配的视频广告识别系统，其特征在于包含以下步骤：离线数据库建立与在线监测，其中离线数据库建立分为离线预处理与哈希表建立；在线监测部分分为在线预处理、由粗糙到精细的二级匹配和后处理。

所述离线预处理包括数据库广告镜头分割与特征提取，具体内容包括：对于广告数据库中每一个广告，将每一帧由RGB颜色空间转化为灰度空间，将灰度图像从中心区域划分为8个64*64像素的小块，通过计算每个小块对应的灰度直方图之间的差异，乘以相应的权值并求和，得到帧间灰度变化率，如果这个变化率大于设定的阈值，则视为两帧之间发生了镜头的切变，并记录镜头变化的位置，将每一个广告分为一系列的镜头序列；

对于每一个镜头，取镜头中心位置前后各25％的视频帧，对这些视频帧进行累加平均，获得代表镜头内容的平均关键帧，保留关键帧中心160*160像素区域的子图像，用作特征提取，在子图像中提取36维HSV颜色空间直方图与64维边缘角度直方图，以及边缘角度分布图特征，将每个图像的颜色直方图与边缘角度直方图分别归一化，组成100维特征向量用于建立局部敏感哈希表，同时，系统将存储所有镜头的100维联合特征以及边缘角度分布图特征，用于在线监测时与查询特征作比较。

所述离线建立哈希表包括：将获得的特征向量数组和与之对应的广告镜头名称和镜头编号，用于构造局部敏感性哈希表。设定子哈希表的个数(10个)与哈希键长(键长为20)，对于每一个子哈希表产生过程为，根据初始设定的两个变量，利用随机函数产生不同的哈希系数，利用这些系数将特征向量映射到汉明空间，转化为0和1的组合序列，根据序列中的0和1的个数，选择不同的哈希表位置，将所有产生的子哈希表组成局部敏感性哈希表，将特征向量与标注信息存入哈希表中。

所述在线预处理，包括镜头分割与特征提取，具体内容包括：对于输入的视频文件，系统将按照与数据库中相同的方式，进行镜头分割与特征提取，获得对应的100维联合特征与边缘角度分布图特征。

所述由粗糙到精细的匹配，包括在局部敏感性哈希表中查询与精细尺度连续过滤两部分，具体内容包括：将获得的一个镜头的联合特征向量通过局部敏感性哈希方法，将其映射到数据库的10个哈希表对应的条目中，获得与查询向量最为相近的50个候选向量及其对应的镜头与边缘分布图，比较这50个镜头与查询镜头包含的帧数的差异，如果相差小于25帧，就利用精细尺度连续过滤算法(FGSE)对二者分别对应的边缘角度分布图进行更为精细的匹配，在设定的阈值下，如果匹配成功，即可判断该镜头为数据库中某个广告的一部分，将数据库中对应的广告镜头的名称和序号标注到查询镜头上，如果输入的镜头是视频文件中的最后一个镜头，进行后处理，否则转否则读入下一个视频镜头。

所述后处理内容包括：首先，按照标注序列中的广告名称，将具有不同标注广告名称的镜头划分到若干个子段，对每一个子段，根据镜头在原始文件中的起始位置，在时间轴上依次排列，利用标注的广告镜头序号与起始点之间的位置关系消除其中的漏检与误检，获得连续完整的标注信息；经过纠正的标注段，如果其播放长度大于数据库中该广告长度的一半，同时检测到的镜头数量大于数据库中广告镜头个数的三分之一，则认为标注成功，处理完所有子段后，对结果按照时间先后顺序排序，输出。

所述平均关键帧计算方法，包括如下步骤：

(1)判断镜头中包含的视频帧的个数，如果等于1，将该帧作为平均关键帧，结束；否则，转步骤(2)；

(2)提取镜头中心位置前后各25％的视频帧，如果提取的视频帧数量包含小数，则向上取整，其数量占镜头中视频帧总数的50％；

(3)累加图像像素的值，求平均，获得平均关键帧。

所述平均关键帧中提取64维边缘角度直方图特征，其步骤如下：

(1)将RGB彩色图像转化为灰度图像。在平均关键帧中，对同一幅图像分别从中心位置截取160*161和161*160像素的两张子图；

(2)将160*161像素的子图像，按照从左到右的顺序，用每一个像素减去右方相邻像素，得到160*160的x方向上的边缘分布dx。将161*160像素的子图像，按照从上到下的顺序，用每一个像素减去下方相邻像素，得到160*160的y方向上的边缘分布dy；

(3)计算当dx≠0 & & dy≠0时，每个像素的边缘角度：Ang＝arctan(dy/dx)，得到160*160的边缘角度分布图。统计每个角度区间中像素的个数；

(4)归一化，将特征中每一维除以该特征中的最大值，得到全局边缘角度的分布。

所述在平均关键帧中提取边缘角度分布图特征，其步骤如下：

(3)计算当dx≠0 & & dy≠0时，每个像素的边缘角度：Ang＝arctan(dy/dx)，得到160*160的边缘角度图；

(4)将边缘角度图平均分为4*4个子块，统计每一幅子图中，每个角度区间中的像素点的个数。每一个子块中的区间个数为16，区间间隔为360/16。

(5)将每个子块中的16位一维直方图按照4*4的顺序重新排列，根据子图在边缘角度分布图中的位置，可以得到16*16维边缘角度分布图特征。

所述将精细尺度连续过滤算法FGSE，应用于图像识别中。其步骤如下：

(1)初始化分割的层数l＝0，子图像序号order为0，子图像的大小M等于图像的大小n*n。在第0层中子图像的个数S_l为1，分割的总次数L＝n*n+3，初始化每次分块的大小m＝n；

(2)计算两个图像中各个子图像对应的BV_l：

{BV}_{l} = Σ_{k = 0}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

其中Q_l ^(k)和R_l ^(k)分别对应查询图像和候选图像在第l层时对应的第k个子图像中各像素值的和；

(3)如果BV_l大于等于阈值SAD_min跳转至(5)，否则置l＝l+1。对图像进行分割，每次分割，仅对图像中的第一个未分割的子图像进行分割：

a.将大小为m*m的第i个子图分割为四个大小为

的子图，更新S_l＝S_l+3，order中第i块及以前的块序号保持不变，后面的序号依次加3；

b.判断是否所有的长度为m*m的子图像均完成了分割，如果完成，令i＝0，m＝m/2，否则i＝i+4指向下一个大小为m*m的子图像；

(4)重复(2)，(3)直到最后一层L分割完成，如果BV_L＜SAD_min，则令SAD_min＝BV_L；

(5)检测是否还有未检测的候选图像，如果存在至(1)，否则输出是否匹配的结果。

所述后处理过程，还包括如下步骤：

(1)统计标注结果中的不同名称的广告个数，并把具有相同广告名称的标注镜头放入同一子段；

(2)根据标注镜头的在原视频中起始位置的时间信息，将标注镜头按照时间顺序排序，如果两个连续镜头之间存在未标注的视频帧，则在其中补充一个空白的镜头，其中记录未标注视频帧的数量与起始位置。该步骤名称为时间扩充；

(3)得到了时间扩充的标注段后，标注的时间序号与空白镜头之间存在着一定关系，如果两个相邻的镜头之间的序号连续，则记录这些正确的镜头，如果不连续且中间存在空白镜头，则计算空白镜头中包含的未标注视频帧的数量，并与标注镜头间所缺失的视频帧数量进行比较，如果两者差距在25帧以内，可以进行如下操作并记录这些纠正后的镜头：对于出现错误的134、1034、1094、1324、1294、1023、1293分别纠正为1234、1234、1234、1234、1234、123和123；其中粗字体序号代表错误标注的镜头，0代表在时间扩充过程中添加的空白镜头。如果两个镜头之间没有必然的联系，则认为其间存在错误，放弃记录；直到这个标注段中所有镜头检测完毕为止；

(4)根据数据库中广告的时间长度，判断该文件中可能存在的广告个数，广告个数为识别到的视频帧数量与数据库的对应广告的视频帧数量之比，并向上取整；根据获得的广告个数，系统将标注序列进一步分割为几个子序列，分别与阈值进行比较，判断广告是否存在；本系统中包含两个阈值，分别为数据库中广告所包含的视频帧数量的二分之一与镜头个数的三分之一；

(5)判断是否所有不同广告名称的序列都已经被检测，检测未完转(2)，检测完成转(6)。

(6)根据时间顺序将获得结果排列，输出。

本发明的效果是：与现有的广告监测技术相比，本发明通过一种对广告视频进行优化的镜头分割算法，将视频分割为一组镜头序列，利用镜头中的一组帧提取特征，消除关键帧选取的影响，对提取的特征通过在局部敏感性哈希表中的检索，获得与检索特征相似的候选特征向量，并利用一种快速的特征匹配算法——精细尺度连续过滤技术，在本系统提出的边缘角度分布图之间进一步匹配获得精确的标注结果，在系统最后通过后处理模块对标注信息进行校正。和以往广告监测系统不同的是，本发明以一种鲁棒的广告识别技术，通过一个由粗糙到精细的匹配过程逐渐滤除差异很大的候选特征，通过有效的后处理模块，获得最后的结果。本系统的优点是只需要很低的CPU负荷，就可以计算输入视频的特征，通过两层筛选过程有效的减少匹配次数，利用后处理进一步提高检测的正确率与查全率，并且通过对数据库构造局部敏感性哈希表，大大减少所需要的存储空间。具体来说，用户输入系统一段视频，系统自动将这段视频分割为若干个镜头，在镜头中，利用中间50％的视频帧，提取36维HSV颜色空间直方图与64维边缘角度直方图，组成100维特征，在局部敏感性哈希表的映射空间中，查找与之最为相近的K个特征向量的位置。同时在镜头中，提取16*16的边缘角度分布图特征，查询镜头将与这些候选镜头利用边缘角度分布图在精细尺度连续过滤模块中进行比较，快速输出在规定阈值下与查询镜头最为近似的结果。在所有镜头的匹配进行完成后，利用后处理技术判断标注的内容是否可以组成一个相对完整的广告。

为了验证本发明的有效性和优点，使用本发明对其识别的性能与鲁棒性进行了测试。我们从北京、安徽、四川等多个电视台录制了一定量的电视数据，存储为240*320，25fps的avi文件。从中手工挑选了170个左右，长度从5秒至120秒不等的广告，建立广告数据库，数据库的存储空间大约在635MB左右。我们利用时间总长度近4小时的视频，作为测试文件，对系统的性能进行测试，要特别说明的是，测试文件中包含近1个小时的广告，这些广告并不简单的是数据库中广告的拷贝，其中的20％是在不同时间或不同频道中录制下来的，与数据库中颜色或边缘特征存在着差异。与其它系统相比，我们所设计的广告识别方案在大大减轻计算机与处理复杂度的情况下，取得了优异的识别性能，正确率与查全率均达到了100％，通过数据库建立的哈希表与特征向量组所占用的存储空间仅为2MB，节约了99.9％以上的数据存储空间。如附图5所示，我们进行了FGSE阈值对系统识别性能影响的实验，其中黑色曲线代表正确率，灰色代表查全率。通过附图我们可以观察到，随着FGSE阈值的不断加大，系统性能在阈值为4800时，达到最优；伴随着阈值增大，误检的广告个数增多，系统性能缓慢下降。如附图6所示，我们对系统的特征选取进行了测试，其中黑色曲线代表了本系统中所采用的颜色加边缘构造局部敏感哈希表的方法，浅灰色曲线代表单纯使用颜色构建哈希表的方法，灰色代表单纯使用边缘构造的方法。通过实验我们观察到，边缘特征比颜色特征具有更强的表达能力。在融合两种特征以后，我们的系统在查全率方面有显著的提高，而在正确率方面，由于小阈值可以为系统带来更高的执行效率，通过观察实验结果，可以看到，融合的方法在阈值很较小时具有优异的效果。我们同样对边缘角度分布图的性能进行了测试，如附图7所示，其中黑色曲线代表本系统所采用的边缘角度分布图的正确率与查全率，灰色曲线代表使用边缘角度直方图作为FGSE匹配特征时系统的性能，通过实验，我们可以看到由于考虑了图像的空间信息，边缘角度分布图比一维边缘特征具有更好的效果。附图8是对系统建立颜色边缘联合哈希表和独立建立颜色哈希表、边缘哈希表方法之间的对比。我们可以看到，采用联合建立哈希表的方法，在阈值很小的情况下可以得到更好的性能。同时我们对于本系统标注广告的起始点位置与真实的位置之间的差距进行了统计，经过本系统标注，起始点与真实情况完全一致的广告个数在86.55％左右，与实际位置差异在0.4s以内的广告个数占总体的在96.7％以上，相差1s以内的广告个数的比例则达到了99％以上。

边界点D位置	起点(个)	起点(百分比)	终点(个)	终点(百分比)
边界点D位置	起点(个)	起点(百分比)	终点(个)	终点(百分比)	D＝0.0s0.0s＜D＜＝0.1s0.1s＜D＜＝0.2s0.2s＜D＜＝0.4s0.4s＜D＜＝1.0D＞1.0s	20273121216	93.53.21.40.50.90.5100	1722310461216	79.610.64.61.92.80.5100

附图说明

图1本发明的工作流程框图；

图2局部敏感性哈希算法方案框图；

图3精细尺度连续过滤技术滤除过程示意图；

图4后处理方案框图；

图5本系统随阈值变化的整体性能实验图；

图6选取不同特征构造哈希表时的系统性能实验图；

图7选取不同特征进行FGSE匹配时的系统性能实验图；

图8利用不同方法构造哈希表时的系统性能实验图；

图9本系统识别结果图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的描述。

根据以上介绍的技术方案，我们可以很容易将本发明应用于广告监测中，为用户提供精确的广告识别服务。结合附图，我们对本发明的具体实施方式作详细阐述。

1、广告镜头分割

在本发明中，由于视频分割的目的并不是将视频分为语义单元，而是希望通过将相似的视频帧进行聚类，减少计算复杂度。本系统使用经过优化的单阈值突变镜头分割方法。其操作过程如下：

(1)按帧的格式读取输入的视频文件，将读入的每一帧由RGB空间转化为灰度空间，剪切图像，仅保留图像中心位置8个64*64的小块。

(2)计算连续的两帧之间所有对应的64*64小块的灰度直方图，并计算其差值。对于位于图像中心处的4个小块的差值乘以0.6的权重，其他的小块乘以0.4的权重，求和。得到两帧之间的直方图之差。

(3)将差值与设定的阈值进行比较，如果大于阈值，证明该位置为切变发生位置。记录该位置。

(4)转(2)，继续比较视频中剩余的连续帧之间直方图的差值，直到所有帧之间比较完成。

2、平均关键帧提取方法：

为了避免关键帧选取的差异给识别系统带来影响，本系统采取利用平均关键帧的方法，表达镜头的内容。本系统中使用镜头中心位置向前25％和向后25％的视频帧构造平均关键帧

(1)判断镜头中包含的视频帧的个数，如果等于1，将该帧作为平均关键帧，结束。否则，转(2)

(2)提取镜头中心位置前后各25％的视频帧(如果提取的视频帧数量包含小数，则向上取整)，其数量占镜头中视频帧总数的50％。

(3)累加图像像素的值，求平均，获得平均关键帧。

3、边缘角度直方图提取

考虑到不同电视台在播放相同广告时会在其中加入一些滚动字幕或数字时钟，我们仅提取平均关键帧中心位置的160*161和161*160像素的区域作为子图像，提取特征。64维边缘角度直方图提取过程如下：

(1)将RGB彩色图像转化为灰度图像。在平均关键帧中，对同一幅图像分别从中心位置截取160*161和161*160像素的两张子图。

(2)将160*161像素的子图像，按照从左到右的顺序，用每一个像素减去右方相邻像素，得到160*160的x方向上的边缘分布dx。将161*160像素的子图像，按照从上到下的顺序，用每一个像素减去下方相邻像素，得到160*160的y方向上的边缘分布dy。

(3)计算当dx≠0&&dy≠0时，每个像素的边缘角度：Ang＝arctan(dy/dx)。统计每个角度区间中像素的个数，本系统采用的为64维特征，故区间的间隔为360/64。

4、特征合并：

本系统采用36维HSV颜色直方图与64维边缘角度直方图作为在局部敏感哈希算法的输入向量，在平均关键帧中心位置的160*160像素的区域作为子图像，提取归一化的36维HSV颜色直方图特征。将两个经过归一化的特征按顺序拼接成100维联合特征，并将其扩大10000倍，以便在局部敏感哈希算法中得到更好的效果。

5、边缘角度分布图的提取：

(3)计算当dx≠0 & & dy≠0时，每个像素的边缘角度：Ang＝arctan(dy/dx)，得到160*160的边缘角度图。

6、局部敏感性哈希算法：

在高维特征空间中，由于“维数灾难”的原因，对于一个查询，寻找一个精确的匹配往往需要耗费大量的计算，直接影响了索引的速度。局部敏感性哈希算法提供了一种快速的近似性返回机制，而且索引速度不会因为维数的增长发生过多的恶化。局部敏感性哈希算法的主要思路是使用不同的局部敏感性哈希函数，根据特征之间的相似性，将特征映射到多个哈希表的不同条目中去。这些哈希表组成构成一个局部敏感性哈希表。如果两个特征被分到一个条目中的概率越大，就说明这两个特征向量越接近。

假设查询向量为Q_m，局部敏感性哈希函数可以将该特征向量通过第i个哈希表的哈希函数h_i(·)，映射到条目h_i(Q_m)中。假设若干个哈希函数h_i(·)构成了局部敏感性哈希函数族H，对于查询向量Q_m与数据库中向量R在距离测度l下，可以得到局部敏感性哈希的基本数学思想：

If‖Q-R‖_l≤r₁，P_rH[h(Q)＝h(R)]≥p₁，

If‖Q-R‖_l＞r₂，P_rH[h(Q)＝h(R)]≤p₂

其中r₁，r₂，p₁和p₂为常数，且p₁＞p₂，r₁＜r₂。对于函数族H它保证了在一定距离测度下，向量Q和R的距离小于一定的阈值时，其落入同一条目的概率大于p₁。在本系统中，使用的距离测度为欧式距离，那么两个向量之间的相似度度量方法为：

Σ_{i = 1}^{n} | Q (i) - R (i) | .

对于查询向量Q映射到第i个哈希表的条目h_i(Q_m)中，其中有相似的特征向量R_ij，我们将所有哈希表对应条目中的所有相似特征向量集合在一起，选出最相近的K个候选特征向量。

建立局部敏感性哈希表的操作过程如下：

(1)获得数据库的特征向量组，将特征向量数组的各个特征值整数化，初始化局部敏感性哈希表中包含的哈希表的个数，l＝10，哈希主键(Hash Key)的长度，hk＝20，以及特征向量数组中的最大值C。

(2)将每一个特征向量p_j＝(x₁，...，x₁₀₀)映射到汉明空间H^d′中，其中d′＝C*100，映射为p_j′＝Unary_C(x₁)，...，Unary_C(x₁₀₀)，其中Unary_C(x)表示对于特征向量中将每一维的特征值x映射为x个1与C-x个0的序列组合。

(3)对于i＝1，..，l，将映射后的每一个特征向量通过哈希表T_i的哈希函数g_i(·)，根据hk的值映射到对应的条目中存储，构建哈希表。

在LSH哈希表中查询近似向量的过程，如附图2所示：

(1)设定返回的相似向量的个数K，本系统设置为50。设置相似向量的缓冲区S＝φ。

(2)对于输入的查询向量q，映射到汉明空间q′。

(3)进入每一个哈希表T_i，i＝1，...，l。利用各个哈希表的哈希函数g_i(·)将q′映射到哈希表的条目中，将条目中的向量存入S←S∪{p in g_i(q)of T_i}。

(4)在向量缓冲区S中使用最近邻线性搜索算法，寻找50个最相近的向量并返回这些向量。

7、精细尺度连续过滤技术算法

精细尺度连续过滤技术应用于视频压缩中，宏块间寻找最优的运动向量，本系统将该技术改进后用于快速的模式匹配过程。假设Q和R分别表示查询与候选的边缘角度分布图，两个图像相互之间每一像素的差值和为：

SAD = Σ_{i = 0}^{N - 1} Σ_{j = 0}^{N - 1} | Q (i, j) - R (i, j) |,

用Q₀和R₀表示两个边缘角度分布图各像素之和，根据不等式|a+b|≤|a|+|b|，可以得到|Q₀-R₀|≤SAD。其中：

Q_{0} = Σ_{i = 0}^{N - 1} Σ_{j = 0}^{N - 1} Q (i, j)

R_{0} = Σ_{i = 0}^{N - 1} Σ_{j = 0}^{N - 1} R (i, j)

假设SAD_min为阈值，如果出现|Q₀-R₀|≥SAD_min，就可以从这一等级判断两个边缘图是不匹配的。通过对图像进行不断的分块，并且计算所有子块差值的和，在不同的分段层次l和l+1时，差值和有如下关系：

{BV}_{l} = Σ_{k = 0}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

{BV}_{l + 1} = Σ_{k = 0}^{S_{l + 1} - 1} | Q_{l + 1}^{(k)} - R_{l + 1}^{(k)} |

因为：

{BV}_{l + 1} = Σ_{k = 0}^{m} | Q_{l}^{(k)} - R_{l}^{(k)} | + Σ_{k = m + 4}^{S_{l + 1} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

+ Σ_{i = m}^{m + 3} | Q_{l + 1}^{(i)} - R_{l + 1}^{(i)} |

所以：BV_l≤BV_l+1

可以看到在不断的细分过程中，差值和BV是不断的增大，如果BV_l≤BV_l+1≥SAD_min，就可以滤除这些不匹配的边缘角度分布图。只有最优匹配的图像，可以细分到图像的像素水平，并且保证BV＜SAD_min。

图3给出了本方案的滤除原理图以及分块示例过程：

(1)初始化分割的层数l＝0，子图像序号order为0，子图像的大小M等于图像的大小n*n。在第0层中子图像的个数S_l为1，分割的总次数L＝n*n+3，初始化每次分块的大小m＝n。

(2)计算两个图像中各个子图像对应的BV_l：

{BV}_{l} = Σ_{k = 0}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

其中Q_l ^(k)和R_l ^(k)分别对应查询图像和数据库图像在第l层时对应的第k个子图像中各像素值的和。

(3)如果BV_l大于等于阈值SAD_min跳转至(5)，否则置l＝l+1。对图像进行分割。每次分割，仅对图像中的第一个未分割的子图像进行分割：

a.将大小为m*m的第i个子图分割为四个大小为

的子图，更新S_l＝S_l+3，order中第i块及以前的块序号保持不变，后面的序号依次加3。

b.判断是否所有的长度为m*m的子图像均完成了分割，如果完成，令i＝0，m＝m/2，否则i＝i+4指向下一个大小为m*m的子图像。

(4)重复(2)，(3)直到最后一层L分割完成，如果BV_L＜SAD_min，则令SAD_min＝BV_L。

7、后处理实施方案

图4给出了本方案操作过程

(1)统计标注结果中的不同名称的广告个数，并把具有相同广告名称的标注镜头放入同一子段。

(2)根据标注镜头的在原视频中起始位置的时间信息，将标注镜头按照时间顺序排序，如果两个连续镜头之间存在未标注的视频帧，则在其中补充一个空白的镜头，其中记录未标注视频帧的数量与起始位置。该步骤名称为时间扩充。

(3)得到了时间扩充的标注段后，标注的时间序号与空白镜头之间存在一定关系，如果两个相邻的镜头之间的序号连续，我们记录这些正确的镜头，如果不连续且中间存在空白镜头，我们计算空白镜头中包含的未标注视频帧的数量，并与标注镜头间所缺失的视频帧数量进行比较，如果两者差距在25帧以内，可以进行如下操作并记录这些纠F后的镜头：

错误情况纠正前的序号排列纠正后

漏检 134 1234

漏检 1034 1234

漏检 1094 1234

交叉错误 1324 1234

误检 1294 1234

误检 1023 123

误检r 1293 123

其中粗体字序号代表错误标注的镜头，0代表在时间扩充过程中添加的空白镜头。如果两个镜头之间没有必然的联系，则认为其间存在错误，放弃记录。直到这个标注段中所有镜头检测完毕为止。

(4)根据数据库中广告的时间长度，判断该文件中可能存在的广告个数，广告个数为识别到的视频帧数量与数据库的对应广告的视频帧数量之比，并向上取整。根据获得的广告个数，系统将标注序列进一步分割为几个子序列，分别与阈值进行比较，判断广告是否存在。本系统中包含两个阈值，分别为数据库中广告所包含的视频帧数量的二分之一与镜头个数的三分之一。

(6)根据时间顺序将获得结果排列，输出。

Claims

1.一种基于分层匹配的视频广告识别系统，其特征在于包含以下步骤：离线数据库建立与在线监测，其中离线数据库建立分为离线预处理与哈希表建立；在线处理部分分为在线预处理、由粗糙到精细的二级匹配和后处理。

2.根据权利要求1所述的基于分层匹配的视频广告识别系统，其特征在于所述离线预处理包括数据库广告镜头分割与特征提取，具体内容包括：对于广告数库中每一个广告，将每一帧由RGB颜色空间转化为灰度空间，将灰度图像从中心区域划分为8个64*64像素的小块，通过计算每个小块对应的灰度直方图之间的差异，乘以相应的权值并求和，得到帧间灰度变化率，如果这个变化率大于设定的阈值，则视为两帧之间发生了镜头的切变，并记录镜头变化的位置，将每一个广告分为一系列的镜头序列；

3.根据权利要求1或2所述的基于分层匹配的视频广告识别系统，其特征在于所述离线建立哈希表包括：将获得的特征向量数组和与之对应的广告镜头名称和镜头编号，用于构造局部敏感性哈希表。设定子哈希表的个数与哈希键长，对于每一个子哈希表产生过程为，根据初始设定的两个变量，利用随机函数产生不同的哈希系数，利用这些系数将特征向量映射到汉明空间，转化为0和1的组合序列，根据序列中的0和1的个数，选择不同的哈希表位置，将所有产生的子哈希表组成局部敏感性哈希表，将特征向量与标注信息存入哈希表中。

4.根据权利要求1所述的基于分层匹配的视频广告识别系统，其特征在于所述在线预处理，包括镜头分割与特征提取，具体内容包括：对于输入的视频文件，系统将按照与数据库中相同的方式，进行镜头分割与特征提取，获得对应的100维联合特征与边缘角度分布图特征。

5.根据权利要求1所述的基于分层匹配的视频广告识别系统，其特征在于所述由粗糙到精细的匹配，包括在局部敏感性哈希表中查询与精细尺度连续过滤两部分，具体内容包括：将获得的一个镜头的联合特征向量通过局部敏感性哈希方法，将其映射到数据库的10个哈希表对应的条目中，获得与查询向量最为相近的50个候选向量及其对应的镜头与边缘分布图，比较这50个镜头与查询镜头包含的帧数的差异，如果相差小于25帧，就利用精细尺度连续过滤算法(FGSE)对二者分别对应的边缘角度分布图进行更为精细的匹配，在设定的阈值下，如果匹配成功，即可判断该镜头为数据库中某个广告的一部分，将数据库中对应的广告镜头的名称和序号标注到查询镜头上，如果输入的镜头是视频文件中的最后一个镜头，进行后处理，否则读入下一个视频镜头。

6.根据权利要求1所述的基于分层匹配的视频广告识别系统，其特征在于所述后处理内容包括：首先，按照标注序列中的广告名称，将具有不同标注广告名称的镜头划分到若干个子段，对每一个子段，根据镜头在原始文件中的起始位置，在时间轴上依次排列，利用标注的广告镜头序号与起始点之间的位置关系消除其中的漏检与误检，获得连续完整的标注信息；经过纠正的标注段，如果其播放长度大于数据库中该广告长度的一半，同时检测到的镜头数量大于数据库中广告镜头个数的三分之一，则认为标注成功，处理完所有子段后，对结果按照时间先后顺序排序，输出。

7.根据权利要求2所述的基于分层匹配的视频广告识别方法，其特征在于所述平均关键帧计算方法，包括如下步骤：

(3)累加图像像素的值，求平均，获得平均关键帧。

8.根据权利要求2所述的基于分层匹配的视频广告识别方法，其特征在于所述平均关键帧中提取64维边缘角度直方图特征，其步骤如下：

(3)计算当dx≠0 & &dy≠0时，每个像素的边缘角度：Ang＝arctan(dy/dx)，得到160*160的边缘角度分布图。统计每个角度区间中像素的个数；

9.根据权利要求2所述的基于分层匹配的视频广告识别方法，其特征在于所述在平均关键帧中提取边缘角度分布图特征，其步骤如下：

(4)将边缘角度图平均分为4*4个子块，统计每一幅子图中，每个角度区间中的像素点的个数。每一个子块中的区间个数为16，区间间隔为360/16；

10.根据权利要求1所述的基于分层匹配的视频广告识别方法，其特征在于所述将精细尺度连续过滤算法FGSE，应用于图像识别中。其步骤如下：

(2)计算两个图像中各个子图像对应的BV_l：

{BV}_{l} = Σ_{k = 0}^{S_{l} - 1} | Q_{l}^{(k)} - R_{l}^{(k)} |

a.将大小为m*m的第i个子图分割为四个大小为

11.根据权利要求6所述的一种基于分层匹配的视频广告识别系统，其特征在于所述后处理过程，还包括如下步骤：

(5)判断是否所有不同广告名称的序列都已经被检测，检测未完转(2)，检测完成转(6)；

(6)根据时间顺序将获得结果排列，输出。