CN108540833A

CN108540833A - 一种基于镜头的电视广告识别方法

Info

Publication number: CN108540833A
Application number: CN201810338252.3A
Authority: CN
Inventors: 陈帅; 陈一帅; 李梦月; 郭宇春; 陈勣
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2018-09-14

Abstract

本发明公开一种基于镜头的电视广告识别方法，首先将连续的视频数据分解成镜头，然后使用卷积神经网络提取每个镜头的特征，并对特征向量进行降维处理，利用本发明训练好的分类模型将镜头分类为广告与非广告，分类出广告镜头之后，利用镜头中的图像和音频特征，识别出广告镜头的内容，也就是识别出该镜头是哪一家公司或产品的广告。本发明的目的是监测电视广播中播放的商业广告，能够在影视、综艺、新闻、体育等多种节目中以及不同节目之间识别出广告，并且能够降低计算成本，提高效率。

Description

一种基于镜头的电视广告识别方法

技术领域

本发明涉及广告识别技术领域，尤其涉及一种基于镜头的电视广告识别方法。

背景技术

广告对当今商业的发展越来越重要，而目前大多数的研究放在了互联网广告上面，对于电视广告则鲜有分析与监测。由于成本高昂，往往电视广告更能反映一个公司或一个产品的发展方向。广告自动识别技术是准确有效地监测广告播放量的关键技术，对于广告投放客户而言，可以通过监测实际播放量，结合收视率数据和销售情况，分析广告投放效果；对于市场分析咨询机构而言，这种测量为其分析企业发展状况提供数据参考。

目前关于电视广告的研究可分为两种类型：一是监测一种节目中的广告，例如监测新闻节目或体育节目中播放的广告。该方法需要提取视频帧的基本特征，如颜色直方图、亮度信息、边缘特征等，对比广告与正常节目中这些特征的差异，以此来判断所播放的节目是否为广告。由于新闻或体育节目的特征比较明显，而且特征数量相对较少，很容易与广告区分。但是这种方法只能解决单一类型节目中的广告监测，而现实中同一电视台往往会播放多种节目，如综艺、新闻、电视剧等。另一种是维护了一个广告数据库，用电视广播中的视频去匹配数据库中的广告，若匹配成功，则判断该视频为广告，同时根据数据库中的信息识别出该广告内容。实际上电视广播中的广告只占少部分，如果把所有视频都与数据库中的广告相匹配，不仅效率低，还会增加计算成本。

现有技术的缺点：

1、只能够在一种节目类型的情况下区分广告与非广告。例如只能在新闻节目中区分哪些是新闻，哪些是广告。

2、计算成本高，识别效率低。现有技术用电视广播中所有的视频与广告进行匹配，但实际上广播中广告只占一小部分。

发明内容

本发明公开一种基于镜头的电视广告识别系统，能够在影视、综艺、新闻、体育等多种节目中以及不同节目之间识别出广告部分，并且能够降低计算成本，提高效率。

为了实现上述目的，本发明采取了如下技术方案：

一种基于镜头的电视广告识别方法，包括：

S1：获取电视广播中的连续视频并进行预处理；

S2：通过计算所述连续视频中相邻帧的曼哈顿距离以及曼哈顿距离的差分，检测出镜头的边界，用于将所述连续视频分解成连续镜头；

S3：利用卷积神经网络提取到的镜头特征训练分类模型，利用所述分类模型将所述连续镜头分为广告镜头和非广告镜头；

S4：依据预先建立的广告数据库，先识别单个广告镜头中的广告内容，然后组合连续相同的广告镜头，最终识别出整条广告内容。

进一步地，所述S1还包括：

使用视频处理工具实时获取广播中的视频数据，分离视频数据中的音频数据与图像数据，并将视频数据分解成帧。

进一步地，所述S2具体包括：

提取每一帧中图像的颜色统计特征作为图像的特征向量，利用该特征向量计算各个镜头中，从第二帧起每一帧与前一帧的曼哈顿距离值，对所述曼哈顿距离值作差分计算，若差分计算结果大于设定阈值，则视为该镜头的边界帧，根据镜头的边界帧，将连续视频分解成连续镜头。

进一步地，所述S3中卷积神经网络提取到的镜头特征具体包括：

使用等间隔采样的方法从每个镜头中提取四帧，使用卷积神经网络提取每一帧的特征，得到一个2048维的特征向量，使用PCA算法把该特征向量降低到84维，对所述四帧中图像的特征向量做均值计算，最终得到以84维特征向量来表示的镜头特征。

进一步地，所述S3中利用卷积神经网络提取到的镜头特征训练分类模型，利用所述分类模型将剩余镜头分为广告镜头和非广告镜头；具体包括：

S31：手动标注视频镜头，广告镜头为1，非广告镜头为0；

S32：利用卷积神经网络提取镜头特征向量；

S33：将提取到的镜头特征向量输入SVM分类器进行模型训练，通过调节SVM分类器参数优化分类结果；

S34：使用训练好的分类模型将镜头分为广告镜头和非广告镜头。

进一步地，所述S4中依据预先建立的广告数据库，先识别单个广告镜头中的广告内容，具体为：

S41：创建广告数据库，所述广告数据库包含广告中的图像特征，以及广告中的音频特征；

S42：提取广告镜头中的音频特征，并与广告数据库中的音频特征对比相似度，如果匹配成功，则把该广告镜头识别为该音频特征所对应的广告，并标记该广告镜头，否则执行S43；

S43：如果匹配失败，则提取广告镜头中的图像特征，并与广告数据库中的图像特征对比相似度，如果匹配成功，则把该广告镜头识别为该图像特征所对应的广告，并标记该广告镜头。

进一步地，一条完整广告下的广告镜头的标记相同，并依照整条广告的内容顺序排列广告镜头。

进一步地，所述S4中组合连续相同的广告镜头，最终识别出完整的广告，具体为：

将广告内容连续相同的一组广告镜头视为一条完整广告，如果一个广告镜头的内容与前后相邻广告镜头的内容不同，而该前后相邻的两个广告镜头内容相同，则认为该广告镜头识别错误，并纠正为与前后相邻广告镜头的广告内容连续相同的广告镜头，依照此方法最终识别出完整广告内容。

由上述本发明提供的技术方案可以看出，本发明具有如下技术效果：

镜头切分的方法；传统方法只计算相邻帧之间的差异，本发明对这种差异(曼哈顿距离)做了差分计算，可以忽略掉镜头渐变的情况。

镜头分类的方法；本发明使用卷积神经网络提取镜头的特征，并采用支持向量机(SVM)分类器分类广告与非广告镜头，达到筛选出广告镜头的目的。

先分类再识别的思想；电视广播中广告内容只占少数部分，本发明首先区分出哪些是广告，然后只对广告镜头进行识别，可以减少计算量，提高识别效率。

镜头识别的方法；本发明首先用音频特征识别广告内容，音频识别效果不好的情况下再使用图像特征，这样可以提高识别的准确率。

由广告镜头到广告的识别过程；识别出镜头的内容之后，本发明把连续相同的广告镜头认为是同一个广告，并且提出了一种纠正方法，以减少识别错误的情况。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于镜头的电视广告识别方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

术语解释：

卷积神经网络(ConvolutionalNeural Network,CNN):一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，在图像处理中有出色表现。卷积神经网络的结构包括卷积层(alternative convolutional layer)和池层(poolinglayer)。

支持向量机(SupportVector Machine,SVM):是一种监督式学习的方法，广泛应用于统计分类以及回归分析中。

镜头(Shot)：这里指从摄像机打开到关闭期间记录的一段无间隔的画面，或两个剪切点之间的画面。也称作镜头画面，是影视造型语言中最基本的单位，是一部影视剧的基本构成单元。

视频(Video)：泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。

色度特征：音频的一种特征，表示一段音频在12个音级中的能量，经常用于表征声音旋律。

SIFT特征：是一种图像的局部描述特征，当图像发生尺度缩放、亮度变化或者旋转等，这种描述保持不变，当图像发生仿射变换、视角变换或者存在噪声干扰时，描述依然存在一定程度的稳定性。

本发明提供一种基于镜头的电视广告识别方法，主要包括：

S1：获取电视广播中的连续视频并进行预处理；

S4：依据预先建立的广告数据库，先识别单个广告镜头中的广告内容，然后组合连续相同的广告镜头，最终识别出完整广告内容。

通过实施例结合图1对本发明技术方案详细阐述：

实施例

本发明实施例首先将连续的视频数据分解成不同的镜头，然后使用卷积神经网络提取每个镜头的特征，并对特征向量进行降维处理，利用训练好的支持向量机分类该镜头是否为广告。分类出广告镜头之后，利用镜头中的图像和音频特征，识别出广告镜头的内容，也就是识别出这个镜头是哪一家公司或产品的广告。

本发明的目的是监测电视广播中播放的商业广告，本实施例中的商业广告是指电视广播中播放的关于企业、集团或所生产的产品的宣传视频，不包括公益广告以及地方政府的旅游宣传广告，综艺节目以及影视节目中出现的植入广告同样不在我们的监测范围之内。

具体的方法步骤如下：

1、数据的获取与预处理

这一步的目的是获取电视广播中的视频内容，方法如下：

使用开源的视频处理工具FFmpeg实时的获取广播中的视频数据，分离视频中的音频数据与图像数据，并将视频分解成帧。

2、镜头边界检测

这一步的目的是将连续的视频分解成一个个镜头，方法如下：

镜头边界检测是指在连续的视频中检测出一个镜头的起始帧和结束帧。镜头的切换方式有突变和渐变两种，突变是指一个镜头的结束帧紧接着下一个镜头的起始帧，中间没有过渡画面。渐变是指使用特效(如淡入淡出、溶解等)连接两个镜头，逐渐地从一个镜头切换到另一个镜头。电视广播中，使用特效连接的两个镜头必定属于同一个节目，广告镜头与非广告镜头之间是不会有渐变的，因此本实施例需要忽略这种转换方式，将由渐变连接的两个镜头视为一个镜头。在镜头边界检测问题中，传统的方法是提取每一帧的图像特征，如颜色直方图、亮度特征、边缘特征等，计算相邻帧之间的特征差异，将差异大的两帧判断为镜头边界。

本发明实施例中使用的特征是图像的颜色统计特征，即分别计算图像在R、G、B三个通道的像素均值，作为图像的特征向量。使用这个特征向量计算每一帧(第一帧除外)与前一帧的曼哈顿距离，由于镜头内相邻两帧之间的变化很小，因此所对应的曼哈顿距离值也很小，大多在10以下。但是镜头切换部分，包括突变和渐变，帧之间的变化比较大，对应的曼哈顿距离也比较大，在几十至几百之间。本发明实施例的方法改进的地方是对曼哈顿距离值做了差分计算，以此来忽略镜头渐变的部分。因为镜头渐变是一个连续的过程，对应的曼哈顿距离值也是一段连续较大的值，做差分计算后，则会成为较小的值。最后找一个合适的阈值(本文中阈值为16)，如果差分值大于阈值，则认为此处是镜头边界。本实施例的方法使用的是像素特征，不仅减少了计算量，也通过差分方法忽略了镜头渐变的部分。

3、镜头特征提取

这一步的目的是提取每一个镜头的特征，用一个向量表示，方法如下：

每一个镜头的帧数不同，为了统一长度，本发明实施例使用等间隔采样的方法，假设间隔为t，则每隔t个样本采样一次，从每个镜头中提取四帧。本发明实施例使用一个开源的卷积神经网络Inception-V3来提取每一帧的特征，得到一个2048维的向量。若直接使用该特征向量训练分类器则会造成过拟合，因此，本发明实施例使用PCA算法把该向量降低到84维。为了把一个镜头的数据用一个向量来表示，本发明实施例对四帧图像的特征向量做均值计算，即计算4个特征向量对应维度上的均值，最终一个镜头的特征以一个84维的向量来表示。

4、镜头分类

这一步的目的是把镜头分成广告和非广告两类，方法如下：

在进行分类器训练之前，本发明实施例已标注训练集中的每一个镜头是否为广告，并使用这些镜头的特征训练一个支持向量机(SVM)分类器，具体训练步骤如下：

①标注视频镜头，广告镜头标为1，非广告镜头标为0；

②按照3中所述的方法提取镜头特征向量；

③将数据输入SVM分类器，调节分类器中的参数C与γ，以获取最好的分类效果；

④将训练好的模型保存至本地，用于分类新的数据；

⑤对于待分类的镜头，按照3中所述方法得到镜头特征向量后，使用训练好的SVM分类模型来分类该镜头是否为广告镜头，至此达到判断电视广播中的镜头是否为广告的目的。

5、镜头识别

这一步的目的是识别出广告镜头的内容，即识别出这个镜头是哪家公司或那个产品的广告，方法如下：

识别一个广告，需要事先了解这个广告，因此需要创建一个广告数据库，包含每个广告中出现的商标，和每个广告中音频的色度特征。因为公司或产品的商标都是唯一的，可以根据商标识别出这个广告。同时，每一个广告中的声音也是唯一的，根据音频的色度特征也可以识别出该广告。

在识别过程中，使用音频的识别准确率比使用商标的准确率高，因此本发明实施例优先使用音频特征。提取每一个广告镜头中音频的色度特征，与数据库中的色度特征相匹配。如果匹配成功，则把该镜头识别为这个音频特征所对应的广告，如果匹配失败(相似度小于0.5)，则使用图像特征进行匹配。在镜头中随机选取一帧，提取SIFT特征，与商标图案的SIFT特征进行匹配，如果匹配成功，则认为该镜头的内容为这个商标所对应的广告。

6、广告识别

这一步的目的是识别完整的广告，方法如下：

电视广播中，一个广告通常包括多个镜头，第5步中识别出了单个镜头的广告内容，最后还需要识别出一个完整广告的内容。具体做法是将广告内容连续相同一组镜头视为一个广告，如果一个完整广告中间的一个镜头识别错误，就会把一个广告分成了多个广告。为此，本实施例提出了一个纠正的方法：如果一个广告镜头的内容与前后相邻广告镜头的内容不同，而前后相邻的广告镜头的内容相同，则认为这个镜头被识别错了，纠正为与前后相邻镜头相同的结果。最终，本实施例使用这种方法识别出了完整广告的内容。

视频分解后得到的一组镜头是有顺序的，识别每一个广告镜头的内容。这里的‘连续相同’是指镜头顺序相连且广告内容相同。

综上所述，在本发明实施例中提出如下改进：

镜头分类的方法；本发明使用卷积神经网络提取镜头的特征，并采用支持向量机SVM分类器分类广告与非广告镜头，达到筛选出广告镜头的目的。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于镜头的电视广告识别方法，其特征在于，包括：

S1：获取电视广播中的连续视频并进行预处理；

2.根据权利要求1所述的电视广告识别方法，其特征在于，所述S1还包括：

3.根据权利要求2所述的电视广告识别方法，其特征在于，所述S2具体包括：

4.根据权利要求3所述的电视广告识别方法，其特征在于，所述S3中卷积神经网络提取到的镜头特征具体包括：

5.根据权利要求4所述的电视广告识别方法，其特征在于，所述S3中利用卷积神经网络提取到的镜头特征训练分类模型，利用所述分类模型将剩余镜头分为广告镜头和非广告镜头；具体包括：

S31：手动标注视频镜头，广告镜头为1，非广告镜头为0；

S32：利用卷积神经网络提取镜头特征向量；

6.根据权利要求5所述的电视广告识别方法，其特征在于，所述S4中依据预先建立的广告数据库，先识别单个广告镜头中的广告内容，具体为：

7.根据权利要求6所述的电视广告识别方法，其特征在于，一条完整广告下的广告镜头的标记相同，并依照整条广告的内容顺序排列广告镜头。

8.根据权利要求7所述的电视广告识别方法，其特征在于，所述S4中组合连续相同的广告镜头，最终识别出完整的广告，具体为：