CN109977779A

CN109977779A - 对视频创意中插入的广告进行识别的方法

Info

Publication number: CN109977779A
Application number: CN201910141743.3A
Authority: CN
Inventors: 郭宇春; 张莹; 陈一帅
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2019-07-05
Anticipated expiration: 2039-02-26
Also published as: CN109977779B

Abstract

本发明提供了一种对视频创意中插入的广告进行识别的方法。该方法包括：对输入的视频进行镜头切分，将所述视频切分成突变镜头和渐变镜头；利用CNN网络对镜头进行特征提取，根据提取出来的镜头的音频特征和图像特征利用LSTM网络和Attention网络判断所述待分类的渐变镜头是广告镜头或者非广告镜头；对广告镜头的文字特征和音频特征进行识别。本发明的方法可以较好地实现对视频创意中插入的广告进行分类与识别，有助于商业分析机构获取企业的运营状况、市场细分情况等商业信息。

Description

对视频创意中插入的广告进行识别的方法

技术领域

本发明涉及广告识别技术领域，尤其涉及一种对视频创意中插入的广告进行识别的方法。

背景技术

视频创意中插广告，也称原创贴，沿用剧中的主创和人物关系，打造主线剧情外的番外小剧场，广告演员是剧中的“角色”，广告创意也通常和剧情有一定的关联。视频创意中插广告的出现模糊了广告与电视剧的界限。视频创意中插广告2017年开始在视频网站播出的剧中遍地开花，随后各大综艺甚至电视剧中也均出现了此类广告。艺恩数据显示，2017年视频中插广告的市场规模突破了8亿大关。视频创意中插广告正在呈爆发式增长，大有取代传统广告位置之势，成为市场监测的新挑战。

视频中的商业广告，一方面宣传了商业信息，另一方面也通过产品信息反映出一个公司的发展状况，而识别广告视频内容可以帮助广告商判断网站是否投放广告，同时对市场分析有重要作用。

对于广告商来说，广告是营销工具，通过广告吸引对产品的关注，来增加产品的销量。他们需要通过广告识别来验证广告是以合同形式播出的，或许公司也想关注他们的竞争者在做什么。

对于商业分析机构而言，广告识别对市场分析有重要的作用。具体来说，通过观察视频流中不同品牌广告的播放时间及播放时长，有助于分析企业的运营状况、市场细分情况等许多商业信息。

传统的视频中广告的识别主要基于图像和声音，由于广告中的场景、人物以及声音和电视剧中都是不一样的，有较明显的区分。而视频创意中插广告中的人物是剧中演员，场景和剧中也十分相似，因此单靠传统的广告识别的方法不能很好的区分广告，需要另外对视频创意中插广告的特征寻找新的方法进行识别。

由于创意中插广告的新颖性与难识别，目前，现有技术中还没有对这种视频创意中插广告的识别方法，与此相近的广告识别是Mengyue Li等人提出的一种对传统广告分类与识别的方法。首先是镜头切分，利用M和DM对突变镜头进行切分，DM能够增加突变和渐变的距离，将突变镜头切分开，而不会将渐变镜头误切分，而创意中插广告和电视剧的分界有一部分是渐变的，镜头边界情况更为复杂，而且剧情镜头和广告镜头中都存在渐变情况，传统的DM方法不能将这两种情况区分。

接着是镜头分类，将镜头分为广告与非广告两类。镜头分类指通过分析图像(RGB)和光流以及音频信息，将镜头分类为广告和非广告镜头。目前关于视频分类的研究多集中在对视频场景区分和目标检测这两个问题上，视频场景是根据拍摄背景以及背景区域特定建筑等信息进行识别，目标检测是在视频中检测某个具体的事物。而视频创意中插广告的演员是剧中的“角色”，广告创意也通常和剧情有一定的关联。已有分析视频工作中，往往只使用图像信息进行分类，而视频创意中插广告的演员以及服饰和剧中是一样的，甚至连场景都是相似的，因此单独靠传统的广告特征不能获得很好的效果。

最后是广告识别，将广告镜头的具体内容识别出来。广告logo是广告的一种标志，而视频创意中插广告不再仅仅局限于logo标志，文字则取代logo成为了更明显的识别标志。

因此，开发一种对视频创意中插广告进行有效的分类和识别的方法是一个亟待解决的问题。

发明内容

本发明的实施例提供了一种对视频创意中插入的广告进行识别的方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种对视频创意中插入的广告进行识别的方法，包括：

对输入的视频进行镜头切分，将所述视频切分成突变镜头和渐变镜头；

利用CNN网络对镜头进行特征提取，根据提取出来的镜头的音频特征和图像特征利用LSTM网络和Attention网络判断所述待分类的渐变镜头是广告镜头或者非广告镜头；

对广告镜头的文字特征和音频特征进行识别。

进一步地，所述的对输入的视频进行镜头切分，将所述视频切分成突变镜头和渐变镜头，包括：

利用M曼哈顿距离和DM曼哈顿差分距离识别突变镜头的边界，将视频中突变镜头切分出来，所述突变镜头是指后一个镜头的开始连接前一个镜头的结尾，中间没有过渡画面；

利用颜色的变化趋势以及P值将渐变镜头进行切分，所述P值是指R、G、B三个颜色空间的像素平均值，渐变镜头是指在镜头切换的时候使用某种效果，从而将整个视频切分成突变镜头和渐变镜头，所述突变镜头和渐变镜头是视频中的一组无间隔的连续画面，是视频的基本组成单位，包含声音和图像。

进一步地，所述的利用CNN网络对镜头进行特征提取，根据提取出来的镜头的音频特征和图像特征利用LSTM网络和Attention网络判断所述待分类的渐变镜头是广告镜头或者非广告镜头，包括：

提取待分类的镜头的音频数据，将该音频数据转化为二维图像，提取待分类的镜头中四帧图像作为镜头的图像数据，利用CNN网络对所述二维图像和图像数据进行特征提取，得到图像特征向量和音频特征向量，将所述图像特征向量和音频特征向量融合后输入到LSTM网络和Attention网络，所述LSTM网络捕获前后帧的关系，所述Attention网络通过训练获得图像特征向量和音频特征向量分别对应的权重，根据特征向量和音频特征向量的权重得到图像和音频对镜头的分类结果的贡献比重；利用LSTM网络和Attention网络搭建镜头分类模型，通过训练来调节镜头分类模型的参数，将训练过程中的准确率最高的模型保存下来得到镜头分类模型；

如果音频对镜头的分类结果的贡献比重大，则将所述音频特征向量输入到训练好的镜头分类模型中，所述镜头分类模型输出所述待分类的镜头是广告镜头还是非广告镜头的判断结果；如果图像对镜头的分类结果的贡献比重大，则将所述图像特征向量输入到训练好的镜头分类模型中，所述镜头分类模型输出所述待分类的镜头是广告镜头还是非广告镜头的判断结果。

进一步地，所述的将所述图像特征向量和音频特征向量融合后输入到LSTM网络和Attention网络，包括：

将所述图像特征向量和音频特征向量直接进行拼接后，先输入到LSTM网络中，再将LSTM网络的输出分值输入到Attention网络；

或者，

将所述音频特征向量作为待分类的镜头的一个新特征向量，将所述图像特征向量和音频特征向量先输入到Attention网络中，后输入到LSTM网络。

进一步地，所述的对广告镜头的文字特征和音频特征进行识别，包括：

将广告镜头的一帧图像输入到Faster R-CNN网络得到feature map特征图，再将feature map特征图输入到RPN网络，产生一组k个候选边界框，对每个候选框提取特征得到特征向量，根据该特征向量通过分类器来判断该区域是否是文字区域；

在判断所述区域是文字区域后，将该区域中的文字内容识别出来，使用CTC时序分类算法对所述文字区域的图像进行文字内容识别，并输出一系列字符；

提取广告镜头的音频特征，并将提取得到的镜头音频特征与数据库中完整广告的音频特征进行匹配，将两者特征的相似性作为匹配得分，匹配得分最高的广告视为所述广告镜头的音频特征的识别结果。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例的方法可以较好地实现对视频创意中插入的广告进行分类与识别，有助于商业分析机构获取企业的运营状况、市场细分情况等商业信息。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种对视频创意中插入的广告进行识别的方法的处理流程图；

图2为本发明实施例提供的一种完整视频的组成结构示意图；

图3为本发明实施例提供的一种对视频进行镜头切分的示意图；

图4为本发明实施例提供的一种对渐变镜头进行分类处理的过程示意图；

图5为本发明实施例提供的一种文字识别的过程示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出了一种对视频创意中插入的广告进行识别的方法。该方法能够将广告与非广告镜头进行准确的切分，并通过深度学习中LSTM+Attention算法对广告与非广告镜头进行分类，最后通过文字识别和音频匹配相结合的方法对广告镜头内容进行识别，不仅能判断出该视频中是否存在广告，同时还可以将广告内容识别出来。

本发明实施例提出了一种对视频创意中插入的广告进行识别的方法的处理流程如图1所示，该方法首先对输入的视频进行镜头切分，利用相邻帧的变化差异寻找镜头边界，将视频分解成多个镜头。接着是镜头分类，将镜头分为广告与非广告两类。最后是广告识别，将广告镜头的具体内容识别出来。具体处理流程包括如下的处理步骤：

步骤S110、对输入的视频进行镜头切分，整个视频切分成突变镜头和渐变镜头。

视频内容识别是在镜头级别进行，首先将输入的视频分解成帧，在帧的基础上检测出镜头边界帧，其余的为镜头内部帧，这样便可以将一段视频分解成一组连续的帧序列。

图2为本发明实施例提供的一种完整视频的组成结构示意图，由高到低依次为场景、镜头、帧序列。场景为一段独立的故事情节，镜头是视频中的一组无间隔的连续画面，是视频的基本组成单位，包含声音和图像。

图3为本发明实施例提供的一种对视频进行镜头切分的示意图。本发明实施例利用M(曼哈顿距离)和DM(曼哈顿差分距离)识别突变镜头的边界，将视频中突变镜头切分出来。上述突变镜头是指后一个镜头的开始连接前一个镜头的结尾，中间没有过渡画面。

渐变镜头是指在镜头切换的时候使用特殊效果，常用的特效有淡入淡出、溶解、扫换等。基于对创意中插广告的观察，我们发现由剧情进入广告时都会存在渐变黑镜头，在渐变镜头中颜色变化趋势由亮变暗再变亮，而电视剧的镜头颜色基本相同，所以利用颜色的变化趋势以及P值将渐变镜头进行切分，上述P值是指R、G、B三个颜色空间的像素平均值。从而将整个视频切分成突变镜头和渐变镜头。

步骤S120、对镜头进行分类处理。

本发明实施例提供的一种对镜头进行分类处理的过程如图4所示，具体处理过程包括：提取待分类的镜头的音频数据，将该音频数据转化为二维图像，每个镜头中提取四帧图像作为镜头的图像数据，利用CNN(Convolutional Neural Network，卷积神经网络)网络对上述二维图像和图像数据进行特征提取，得到图像特征向量和音频特征向量。本发明实施例考虑了多个维度，包括图像特征和音频特征进行镜头分类，图像和音频的融合方式有两种，一种是将视频和音频直接进行拼接，另一种是直接将音频向量作为镜头的一个新特征向量，在视频特征后一起输入LSTM(Long Short-Term Memory，长短期记忆网络)网络中，LSTM网络能够捕获前后帧的关系，Attention(注意力)网络通过训练可以获得图像特征向量和音频特征向量的权重，进而得到在不同镜头中图像和音频对分类结果的贡献比重，捕捉关键时间序列关系，将注意力集中在那些对当前任务更重要的特征向量上，本发明实施例中Attention有两种，一种是对输入向量进行Attention，叫做前向Attention，即原始输入向量先输入Attention网络，再输入LSTM；另一种是对输出结果的分值进行Attention，叫做后向Attention，即原始向量先输入LSTM网络，再将LSTM网络的输出分值输入到Attention网络。

本发明实施例利用LSTM网络和Attention网络搭建镜头分类模型，镜头分类模型通过训练来调节参数，以达到最好的分类效果，将训练过程中的准确率最高的模型保存下来就是镜头分类模型。最后，利用镜头分类模型输出上述待分类的镜头是广告还是非广告的分类结果。

每个图像特征向量和音频特征向量都对应一个权重，权重是在训练过程中得到的，根据特征向量和音频特征向量的权重得到图像和音频对镜头的分类结果的贡献比重。图像特征向量和音频特征向量是5×1024维的向量，根据权重比，图像和音频各自得到的分类结果不一样。如果音频的贡献比重大，则以音频的分类结果为准；如果图像的贡献比重大，则更关注于图像的特征来获得分类结果。

训练的时候将广告镜头的label设为1，非广告的设为0，训练结束后，在模型上输入镜头向量，输出label为0或1，以此判断是广告镜头还是非广告镜头。

镜头分类实验结果表明，直接将音频向量作为镜头的一个新特征向量，在视频特征后一起输入LSTM网络中，对输出结果的分值进行Attention结果最好。

步骤S130、对广告镜头进行文字特征和音频特征的内容识别。

广告镜头的内容识别包括广告镜头的文字特征和音频特征，为了提升识别准确率，本发明实施例选择将文字特征和音频特征相结合的方式对广告镜头进行内容识别。

本发明实施例提供的一种文字识别的过程如图5所示，具体处理过程包括：文字特征识别分为两部分，首先检测广告镜头的一帧图像中可能包含文本的区域，将广告镜头的一帧图像输入到Faster R-CNN(Faster Regions with CNN features，快速区域卷积神经网络)得到feature map(特征图)，然后将特征图输入到RPN(Region Proposal Network，区域建议网络)，产生一组k个候选边界框，这些边框很大可能性具有文本，以及概率分数，然后对每个候选框提取特征得到特征向量，根据该特征向量通过分类器来判断该区域是否是文字区域。

在判断上述区域是文字区域后，接着是将该区域中的文字内容识别出来，使用CTC(Connectionist Temporal Classification，时序分类算法)对上述文字区域的图像进行文字内容识别，并输出一系列字符。CTC采用一个端到端的网络，无需对训练数据进行预先分隔，或者对输出数据进行处理，而是直接对输入序列进行建模，并且直接得到输出序列。CTC网络最基本的思路是，首先在输出字符集中添加blank占位符；然后对输入图片进行多尺度地分割和识别，从而得到包含blank占位符的中间结果及其概率；再将包含blank占位符的中间结果映射到不包含blank占位符的所有可能的输出序列，并以可能的输出序列为单位求和；最后按照可能的输出序列所对应的概率进行排序，概率最大的即为输出序列。

对广告镜头的音频特征进行识别时，使用的是音频的色度特征，色度能够很好地描述声音的特征，具有很好的辨识能力。首先提取一个广告镜头的音频特征，并将提取得到的镜头音频特征与数据库中完整广告的音频特征进行匹配，将两者特征的相似性作为匹配得分，匹配得分最高的广告视为上述广告镜头的音频特征的识别结果。上述数据库中存放的是完整广告的音频，不是一个镜头的音频。

综上所述，本发明实施例的方法可以较好地实现对视频创意中插入的广告进行分类与识别，有助于商业分析机构获取企业的运营状况、市场细分情况等商业信息。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种对视频创意中插入的广告进行识别的方法，其特征在于，包括：

对广告镜头的文字特征和音频特征进行识别。

2.根据权利要求1所述的方法，其特征在于，所述的对输入的视频进行镜头切分，将所述视频切分成突变镜头和渐变镜头，包括：

3.根据权利要求1所述的方法，其特征在于，所述的利用CNN网络对镜头进行特征提取，根据提取出来的镜头的音频特征和图像特征利用LSTM网络和Attention网络判断所述待分类的渐变镜头是广告镜头或者非广告镜头，包括：

4.根据权利要求3所述的方法，其特征在于，所述的将所述图像特征向量和音频特征向量融合后输入到LSTM网络和Attention网络，包括：

或者，

5.根据权利要求1至4任一项所述的方法，其特征在于，所述的对广告镜头的文字特征和音频特征进行识别，包括：