CN104967885A

CN104967885A - 一种基于视频内容感知的广告推荐方法及系统

Info

Publication number: CN104967885A
Application number: CN201510142208.1A
Authority: CN
Inventors: 张海军; 曹雄; 黄晓辉
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2015-03-27
Filing date: 2015-03-27
Publication date: 2015-10-07
Anticipated expiration: 2035-03-27
Also published as: US10171844B2; CN104967885B; WO2016155345A1; US20180020247A1

Abstract

本发明涉及一种基于视频内容感知的广告推荐方法，包括：A、镜头分割步骤，利用基于聚类的方法将源视频分割为独立的场景；B、对象检测步骤，对每个独立场景利用基于区域卷积特征探测获得视频中物体的相关信息；C、广告图片检索步骤，利用衣服检索和基于类别的策略在数据库中搜索匹配物体的广告对象；D、广告目标物体优化步骤，对搜索到的匹配物体的广告对象通过优化处理得到候选广告；E、广告插入位置优化步骤，优化广告和目标物之间的距离及广告与所有物体之间的重叠区域的面积。视频广告投放优化模型提高广告的吸引力，并降低了广告给用户带来的干扰。

Description

一种基于视频内容感知的广告推荐方法及系统

技术领域

本发明属于视频内容感知领域，尤其涉及一种互联网视频内容感知的广告推荐方法及系统。

背景技术

近年来，在互联网广告快速和持续发展的同时，网络视频得到大量普及。互联网广告市场存在着巨大商机，吸引着互联网公司开发新的多媒体广告，比如谷歌的AdSense，YouTube的植入式视频广告和雅虎视频等等。大多数企业宣称自己的产品和用户体验在线广告上获得了重大的进步，但是广告的根本目标并没有改变。它的目的在于吸引真正想购买的用户，而减少对不感兴趣的用户的干扰。在现实世界的广告系统中，这两个目标是冲突的，即提高收入和改善用户体验，所以需要权衡这两个目标，寻找出版商和用户之间的一种折衷的关键是使广告更具吸引力并且减少干扰。

从广告出版商的角度，在线广告的效果通常是广告受众对一个广告或品牌认知度的表现。最近研究发现，对用户体验的深度理解可以帮助理解在线广告所产生的本质和正、负面的影响，因此，用户体验从另一个角度反应了广告投放的效果。人们已经认识到，干扰和广告的不相关性会对用户体验造成负面影响。干扰是认知或心理过程在持续进行中受到突然的打扰，比如在激动人心的电影画面后播放与视频无关的广告。因此，有效的在线广告推荐系统的设计应该考虑到视频内容与广告的相关性并降低干扰。

随着个人计算机和移动手持设备的普及，网络视频已经成为最常用的网络服务之一。观看在线视频已经从一个很小的活动变为互联网的主流。除此之外，网络视频所占用的流量也快速增长。思科预测，全球范围内，网络视频将会在2016占据互联网流量的55％。对于在线视频网站，大部分收入来自于广告。2012年，中国在线视频市场规模达90亿人民币(约合14.7亿美元)，比去年同期相比增加43.9％。在线视频网站的收入增长主要源于广告收入的增长。在线视频网站的广告形式是非常多样的，包括Flash广告，富媒体广告，关键字广告。在中国网络广告市场中，在植入式视频广告的收入的市场份额只有6.4％。相对于其所占的网络流量，这点市场份额显得太微不足道。本文认为，低市场份额可能主要是由于普遍采用在视频的开头或末尾显示广告的广告策略。在这种策略中，用户被迫观看广告，但他们通常忽略它，因为它与视频的内容无关。为了提高吸引力，降低广告对用户干扰，可以在播放视频的同时插入广告，确保广告与视频内容相关。特别地，可以让广告与视频流中出现的物体相关。例如，一个用户可能是朱莉娅·罗伯茨的粉丝。当用户观看电影《诺丁山》，他或她可能会被佩戴朱莉娅·罗伯茨裙子所吸引。此时，如果一个类似的裙子的广告弹出到屏幕上或朱莉娅·罗伯茨附近，用户可能会很乐意点击，而不是对广告感到反感。

发明内容

本发明的目的在于提供一种基于视频内容感知的广告推荐方法及系统，旨在解决上述的技术问题。

本发明是这样实现的，一种基于视频内容感知的广告推荐方法，所述广告推荐方法包括以下步骤：

A、镜头分割步骤，利用基于聚类的方法将源视频分割为独立的场景；

B、对象检测步骤，对每个独立场景利用基于区域卷积特征探测获得视频中物体的相关信息；

C、广告图片检索步骤，利用衣服检索和基于类别的策略在数据库中搜索匹配物体的广告对象；

D、广告目标物体优化步骤，对搜索到的匹配物体的广告对象通过优化处理得到候选广告；

E、广告插入位置优化步骤，优化广告和目标物之间的距离及广告与所有物体之间的重叠区域的面积。

本发明的进一步技术方案是：所述镜头分割步骤包括以下步骤：

A1、根据视频时间计算聚类的类别数目N；

A2、根据时间随机选取N个帧作为初始中心；

A3、分别计算每帧与时间相近中心的距离并更新中心；

A4、重复步骤A3知道收敛或达到运行次数上限。

本发明的进一步技术方案是：所述对象检测步骤包括以下步骤：

B1、运用选择性地搜索在独立场景中生成与类别独立的候选区域；

B2、利用CNN网络对每个候选区域提取4096维特征向量并在倒数第二层输出；

B3、对提取的4096维特征向量的物体分类。

本发明的进一步技术方案是：所述广告图片检索步骤包括以下步骤：

C1、利用基于卷积神经网络对视频中人进行性别识别；

C2、对视频中人的人体特征提取；

C3、对提取的人体特征进行特征匹配。

本发明的进一步技术方案是：广告插入视频中是采用的无缝插入。

本发明的另一目的在于提供一种基于视频内容感知的广告推荐系统，所述广告推荐系统包括：

镜头分割模块，用于利用基于聚类的方法将源视频分割为独立的场景；

对象检测模块，用于对每个独立场景利用基于区域卷积特征探测获得视频中物体的相关信息；

广告图片检索模块，用于利用衣服检索和基于类别的策略在数据库中搜索匹配物体的广告对象；

广告目标物体优化模块，用于对搜索到的匹配物体的广告对象通过优化处理得到候选广告；

广告插入位置优化模块，用于优化广告和目标物之间的距离及广告与所有物体之间的重叠区域的面积。

本发明的进一步技术方案是：所述镜头分割模块包括：

类别数目统计单元，用于根据视频时间计算聚类的类别数目N；

中心初始化单元，用于根据时间随机选取N个帧作为初始中心；

距离计算单元，用于分别计算每帧与时间相近中心的距离并更新中心；

反复计算单元，重复步骤A3知道收敛或达到运行次数上限。

本发明的进一步技术方案是：所述对象检测模块包括：

区域生成单元，用于运用选择性地搜索在独立场景中生成与类别独立的候选区域；

提取单元，用于利用CNN网络对每个候选区域提取4096维特征向量并在倒数第二层输出；

分类单元，用于对提取的4096维特征向量的物体分类。

本发明的进一步技术方案是：所述广告图片检索模块包括：

性别识别单元，用于利用基于卷积神经网络对视频中人进行性别识别；

特征提取单元，用于对视频中人的人体特征提取；

特征匹配单元，用于对提取的人体特征进行特征匹配。

本发明的有益效果是：开发了一个视频广告推荐系统，同时考虑到内容相关性和插入广告的干扰。对于给定视频，该系统能够自动探测到出现的视频物体，并选择与该物体相关的广告，然后把所选择的广告插入在相关物体出现的位置。特别是，对于服装广告，本发明设计了一种基于深度卷积神经网络的方法识别人的性别，然后提取特征进行衣服检索。最后，对于物体级视频广告系统(Object Level Video Advertising，OLVA)，本发明提出了全局的优化模型，该模型考虑了视频广告四个方面：内容的相关性，对用户的吸引度，广告展示时间的分散性，广告类别的多样性。具体来说，本发明的主要贡献有以下三点：首先，提出了OLVA的在线视频广告的框架。在此框架下，广告发行商可以自动探测由视频物体，并插入与视频内容相关的广告，而无需使用任何其他的信息，如描述视频的文本信息。二，为了提高用户体验，提出了一个优化模型，该模型旨在提高广告的吸引力，降低对用户的干扰。本发明提出了一种启发式算法(Heuristic Algorithm，HA)，来解决优化问题。本发明还采用遗传算法(Genetic Algorithm，GA)，用合适的基因编码方式解决全局优化问题。在进一步的工作中，本发明对比了两种方法的实验结果。这项工作表明，遗传算法相对于启发式算法能得到更好的全局最优解，但是需要的运算时间较长。与此相反，启发式算法所需的运算时间较短，同时为视频广告的优化问题产生令人满意的解决方案。三，在所提出的框架下，对视频展示的策略进行了讨论。在视频广告的展示中，本发明提出了广告展示位置的优化模型，旨在最大限度地缩小了选择的广告和目标物体的距离，以及广告和视频中出现的物体之间的重叠区域的面积。本发明采用梯度下降法求出最优位置，然后在屏幕上的最佳位置显示广告。

附图说明

图1是本发明实施例提供的基于视频内容感知的广告推荐方法的流程图；

图2是本发明实施例提供的基于视频内容感知的广告推荐系统的结构图。

具体实施方式

图1示出了本发明提供的基于视频内容感知的广告推荐方法的流程图，其详述如下：

步骤S1，镜头分割步骤，利用基于聚类的方法将源视频分割为独立的场景；提取HOG特征值，用聚类的方法进行镜头分割，通过提取每张图片的特征值，然后进行无监督的学习，得到分割的场景；具体实施过程如下：通过提取每张图片的特征值，然后进行无监督的学习，得到分割的场景。场景聚类不同于其他聚类方法，需要考虑帧出现的时间，只有时间的帧相近才能聚在一起。具体镜头分割包含的如下步骤：(1)根据视频时间计算聚类的类别数目N；(2)根据时间随机选取N个帧作为初始中心；(3)分别计算每帧与时间相近中心的距离，更新中心。(4)重复步骤(3)直到收敛或达到运行次数上限。

步骤S2，对象检测步骤，对每个独立场景利用基于区域卷积特征探测获得视频中物体的相关信息；用基于区域卷积方法的探测物体对象，通过物体探测，能够得到视频中物体的类别和物体的位置，该方法对于一个输入的图片先提取候选区域，每张图片提取2000个候选区域，对于每个候选区域，进行图片大小归一化，将图片归一化到同样大小，然后使用CNN(Convolutional Neural Networks，卷积神经网络)方法对这些归一化后的区域提取特征值。最后将提取的特征值输入线性支持向量机，进行分类；在每一个场景中，使用基于区域卷积特征的物体探测方法。通过该方法处理，能够获得探测到的物体的某些信息，包括该物体类别，属于该类别的概率，该物体出现时间以及出现在屏幕中的位置。具体实施过程如下：基于区域卷积特征的物体探测系统如图2所示。对于一个输入的图片先提取候选区域，每张图片提取2000个候选区域。对于每个候选区域，进行图片大小归一化，将图片归一化到同样大小。然后使用CNN对这些归一化后的区域提取特征值。最后将提取的特征值输入给线性支持向量机，进行分类。这样可以得到这些区域属于特点物体的概率，当概率大于阈值，就可以把区域提取出来作为该物体。这些通过物体探测所获得的信息对于后续的广告投放是非常重要的。例如，所提出的广告目标物体优化模型依赖于该物体类别，探测的准确率和物体的位置信息，以便能同时考虑广告的吸引力和干扰。与之前所提到的一样，本发明只探测五种类型的物体：人、车、瓶子、狗和自行车。具体物体探测的步骤如下：(1)候选区域产生最新的很多论文提供了用于生成与类别独立的候选区域的方法。其中有：选择性地搜索，约束参数最小割集(Constrained Parametric Min-Cuts，CPMC)。而基于区域卷积的物体探测使用选择性地搜索。(2)CNN特征提取使用Caffe实现Krizhevsky等人所提出的CNN网络，对于每个区域提取4096维特征向量，该特征向量是CNN网络中倒数第二层的输出。根据实践经验，CNN在分类任务取得较好的效果，在探测中也会取得一致的效果。根据实验，CNN的层数越深，效果越好。(3)物体的分类考虑一个二分类器探测车辆，很明显，图像区域紧紧包围一辆汽车应该是一个正例。同样，很明显，没有车辆的背景区域应该是做负例。但是对于那些覆盖到一部分的区域是否表为正例是一个不确定的问题。计算重叠部分的比例，如果该比例超过阈值，就视为正例。试验中，重叠的阈值为0.3，这是通过实验不同的阈值选取最好的结果得到的。

步骤S3，广告图片检索步骤，利用衣服检索和基于类别的策略在数据库中搜索匹配物体的广告对象；广告图片检索，包括两种策略：衣服检索和基于类别的检索，在衣服检索中使用人体部分对齐和人体分割来过滤背景并且提取特征，然后使用性别识别方法识别演员的性别。如果通过优化模型选择的物体是人，则进一步处理特征以便进行衣服检索。在衣服检索中，本发明采用性别识别，人体部分对齐，然后特征提取进行匹配。反之，如果所选择的物体是其他类型的，本发明使用一个简单的基于类别的检索，其工作方式是随机检索与物体属于同一类别的广告。

具体实施过程如下：

为了找到相关的衣服广告，本发明对人体做进一步处理从而提取的特征，然后通过特征匹配检索相关广告。本发明设计的衣服检索系统。该系统包含两个主要部分：人体特征提取，该部分使用到人体部分对齐和人体分割；性别识别用来识别人的性别，以便在不同性别的数据库中的检索广告。在实践中，直接提取整张图片的特征进行匹配的结果往往不够理想，因为可能会出现上衣的特征去匹配裤子的特征。对于衣服检索，人体部位对齐或人体部分探测已被证明是有效的部分匹配方式。但提取的人体部位可能仍含有一定的背景特征。特别是，广告图像的背景通常是与视频的背景不同。这些背景被视为噪音，可能会影响到随后的衣服匹配的效果。因此，通过人体分割方法以过滤掉背景，是必要的。另一方面，如果仅使用人体特征在广告数据库中检索最相关的广告，可能会发生将男演员匹配女士衣服的情况。为了避免这一点，本发明使用性别识别将人分成男性或女性。因此，如果人的性别是男/女，则将在男/女的数据库中进行特征匹配。这个简单策略背后的理由是，可以利用一些先验知识，以增加广告的吸引力。例如，如果选择的物体是狗，嵌入宠物用品广告到视频更可能会吸引观众的注意力。具体步骤如下：

(1)基于卷积神经网络的性别识别。使用卷积神经网络对人的头像训练和识别的性别。

(2)人体特征提取。提取人体特征主要包括两个步骤：人体部分对齐，其目的是让上衣特征与上衣特征进行匹配而不是裤子的；以及人体分割，这是用来过滤背景不同所带来的噪音；最后提取一些特征用于检索。经过上述两个步骤，我们可以从人体的各个部分提取特征进行匹配，与此同时背景的特征也被过滤掉。本发明提取了三种特征，包括HOG，LBP和颜色直方图。广告图片也采用类似的处理方式提取特征。通过计算一个人体的特征向量和广告图像的特征向量之间的距离，从而检索出类似的衣服。

(3)特征匹配。将提取的三种特征即HOG，LBP和颜色直方图级联为向量。假设广告图像的特征向量表示为H＝[h₁，h₂，...，h_M]，而视频中人类的特征向量表示为根据文献，本文使用詹森-香农散度(JSD)来计算两个特征向量的距离：

d_{JSD} (H, H^{'}) = Σ_{m = 1}^{M} h_{m} \log \frac{{2 h}_{m}}{h_{m} + h_{m}^{'}} + h_{m}^{'} \log \frac{{2 h}_{m}^{'}}{h_{m} + h_{m}^{'}}

通过计算该距离，可以在数据库中找到与该目标的人体最相关的服装广告图片。

步骤S4，广告目标物体优化步骤，对搜索到的匹配物体的广告对象通过优化处理得到候选广告；考虑到广告的吸引力和对观众干扰问题，本发明在优化的过程中同时考虑时间的分散性、类别多样性、局部吸引性和干扰，采用最优化方法选取插入广告的物体；通过优化模型得到了可以插入广告的物体，通过检索得到了候选广告，候选广告即将被插入到视频流中，需要探测广告在屏幕中的位置。

具体实施过程如下：

为了确定选择哪个场景插入的广告，以及场景中的哪个物体作为插入广告的目标物体，本发明的OLVA系统考虑很多方面的因素并建立优化的模型。首先，广告在一个视频流的时间分布最好尽量分散，因为强迫用户在一段短的时间内反复观看很多的广告可能会导致用户反感。其次，我们在视频中探测到不同的物体，针对于不同类型的物体，可以插入不同类型的广告。从广告出版商的角度考虑，肯定希望插入尽可能多的类型的广告。因为多样化的广告类型，更可能引起用户的注意。因为广告的类型直接和目标物体的类型相关，所以应该选择尽量多类型的物体。第三，物体在一个场景中出现的次数是不同的。有些物体可能频繁出现，而有些物体只出现一次。本发明希望针对频繁物体插入广告，而不是很少出现的物体。一方面，频繁出现的物体通常是更为重要。另一方面，根据广告策略，针对频繁出现的物体插入广告时，广告停留在屏幕中的时间更长。因此，如果选择频繁出现的物体插入广告，相对于出现次数较少的物体，它更容易吸引观看者的注意。第四，从一个物体出现在屏幕上的位置的方面，重要物体或聚焦的物体位于屏幕中心附近。因此，如果多个物体在同一帧中被探测到，本发明希望选择距离屏幕中心更近的物体作为目标物体。这样做，所插入的广告可能更吸引观众的注意力。第五，通过物体探测得到每个物体的置信水平必须加以考虑，因为对于以确保该物体和广告之间的相关性它是必不可少的。如果探测错误，那么插入的广告也会不相关。所以我们需要选择探测置信水平加高的物体插入广告。最后，最好在干净的场景中插入广告，也就是只包含一个或非常少的物体的场景。如果在一个场景内出现较多的物体，那么这个场景的情节和内容可能会比较复杂。如果在这样的一个场景中插入广告，所生成的视频将显得更为复杂。其结果是，对用户带来的干扰就会很大。通过考虑以上可能会对OLVA系统性能带来巨大影响的六个因素，本发明将其转换为数学优化问题，用优化方法求解，以提高了吸引力降低干扰。下面，本发明给出了该优化问题的详细定义以及具体的求解方法。

一个视频包含N^S个场景，可以表示为对于每一个场景i，它包含个物体，可以表示为而一个视频中所有的物体可以表示为本发明的优化目标在于选择合适的场景以及合适的物体插入广告。

定义以下的变量

x &Element; R^{N^{s}}, y &Element; R^{Σ_{i = 1}^{N^{s}} N_{i}^{o}}, y_{i} &Element; R^{N_{i}^{o}}, x = [x_{1}, ..., x_{i}, ... x_{N_{s}}], x_{i} &Element; {0, 1},

和其中x_i和y_i，j分别表示场景i和场景i中的物体j是否被选中。本发明只允许同一个场景中选择一个物体。将在不同的N个场景中选择物体。每个物体都与广告相关联。本发明定义选择的场景为选择的物体为物体和场景的选择的过程。

根据前面的讨论可知，建立优化模型需要考虑很多的因素。本发明把所考虑的因素分为三类：

时间的分散性：广告在视频流中的时间分布。插入的广告最好分散在视频流中，而不是集中在一段时间内。对于这个问题，最好的结果是对于任意两个相邻的广告，时间间隔是一致的。换句话说，广告的时间分布是均匀的，即广告的时间间隔为其中T^v表示视频的播放时长。在优化过程中，可以使用任何两个相邻的所选的场景之间的最小时间间隔作为一个变量，以反映时间分散度。显然，该值最小的时候广告的时间分布是均匀的。本发明将场景出现的顺序看做时间，最小时间间隔定义如下。

D^{t} = \underset{i, k}{\arg \min} (g (| k - i | \cdot x_{i} \cdot x_{k})),

g (a) = \{\begin{matrix} ρ, a = 0 \\ a, a &NotEqual; 0 \end{matrix}

其中ρ是一个很大的数字。这样，对于每一对选择的场景，计算出这两个场景的时间差，然后，选择的最小差值来反映时间分散程度。

类别多样性：它代表了所选物体的类别的多样性。因为按照类别检索相关广告，所以物体的类别就意味着相关的广告类别。插入广告的类别更多样化，观众被广告吸引的概率就更大。为了使广告类型更多样化，本发明选择不同类型的物体作为目标物体。这样，类别的多样性定义为：

D^{c} = \frac{1}{N (N - 1)} \underset{i, j, k, l}{Σ} f ((c_{ij}^{o} - c_{kl}^{o}) \cdot x_{i} \cdot y_{ij} \cdot x_{k} \cdot y_{kl}),

f (a) = \{\begin{matrix} 0, a = 0 \\ 1, a &NotEqual; 0 \end{matrix}

其中表示物体的类别。在实现中，用一个整数来表示的物体的类别。

局部吸引性和干扰：这些因素只和局部的物体和场景相关。它包含四个因素：1)探测到的物体的置信水平；2)物体的出频率；3)在物体与屏幕的中心之间的距离；4)插入广告可能带来的干扰。首先，定义场景i中的物体j的置信水平为A^d _ij。第二，对于计算场景中物体出现的频率本文使用了两种策略。对于人，使用人脸聚类，将同一个人的图片归为一类。通过计算该人在场景中出现的次数来计算这个人出现的现频率。对于其他类型的物体，计算在场景中同一类别的物体出现的次数作为该物体出现的次数。假设出现在场景i中的所有物体的个数为而物体j在场景i中出现的次数为这物体出现的频率定义为第三，通过物体探测，我们获得物体的位置信息。定义为场景i物体j的中心与视频画面的中心之间的距离。最后，定义场景i物体j插入广告的干扰为I_ij，其值为广告插入时间范围内的物体数量。而广告插入的时间范围就是物体出现的时间范围。基于以上定义，局部吸引力和干扰所用的形式来定义

L = \frac{1}{N} \underset{i, j}{Σ} ((ξ_{1} A_{ij}^{d} + ξ_{2} F_{ij} + ξ_{3} / (D_{ij}^{s} + 1) + ξ_{4} / I_{ij}) \cdot x_{i} \cdot y_{ij})

其中ξ₁+ξ₂+ξ₃+ξ₄＝1，和ξ₁，ξ₂，ξ₃，ξ₄表示各个因素的重要性。在本发明中，设定ξ₁＝0.5，ξ₂＝0.1，ξ₃＝0.1，ξ₄＝0.3。另外，F_ij，和1/I_ij都被归一化到(0，1]的范围内。

考虑上述因素，我们定义如下优化模型：

\begin{matrix} \max h (x, y) = w_{1} \cdot D^{t} + w_{2} \cdot D^{c} + w_{3} \cdot L \\ = w_{1} \cdot \underset{i, k}{\arg \min} (g (| i - k |) \cdot x_{i} \cdot x_{k}) \\ w_{2} \cdot \frac{1}{N (N - 1)} \underset{i, j, k,}{Σ} f ((C_{ij}^{o} - C_{kl}^{o}) \cdot x_{i} \cdot y_{ij} \cdot x_{k} \cdot y_{kl}) + \\ w_{3} \cdot \frac{1}{N} \underset{i, j}{Σ} (ξ_{1} A_{ij}^{d} + ξ_{2} F_{ij} + ξ_{3} / (D_{ij}^{s} + 1) + ξ_{4} / I_{ij}} \cdot x_{i} \cdot y_{ij}), \end{matrix}

满足约束条件

∑x_i＝N，∑x_i·y_ij＝N，x_i∈{0，1}，y_ij∈{0，1}，

其中w₁，w₂，w₃是三个预定义的权重参数。设置w₁＝w₂＝w₃＝1，这表对于因素D^t，D^c，和L是一样重要的。

假设每个场景中含有相同的物体N_o，那么优化问题将会有个不同的解。当场景和物体的数量比较大时，搜索空间将显着增加。根据试验的经验，对于有100个场景，每个场景有10个物体的视频，用穷举搜索方法搜索最优解这将花费大约一天的时间。为了提高效率，本发明设计了一个启发式算法(HA)来搜索最优解。其基本思想是，在每步搜索最好的物体和场景，直到找到N物体为止。虽然启发式算法容易陷入局部最小值，但是它能较快的求得较好的解。利用启发式算法，可以只用NN_o(N^s-(N-1/2))步求得解。

为了便于比较，本发明采用遗传算法(GA)从全局角度求解问题。在执行遗传算法之前，将优化问题编码为一个的向量称为染色体，形式如下：

遗传算法操作这些二进制染色体的集合，称为群体，群体是随机初始化的，但是要满足Σx_i＝N，Σx_i·y_ij＝N，x_i∈{0，1}，y_ij∈{0，1}的条件。遗传算法使用两个操作产生新的个体：交叉，其原理是将两个染色体(称为祖先)结合在一起，形成新的染色体(称为后代)；变异，其目的是将随机改变的基因引入染色体中。这是值得指出的是，本发明的遗传算法与与传统的遗传算法略有不同，因为在交叉和变异的时候需要满足约束Σx_i＝N，Σx_i·y_ij＝N，x_i，y_ij∈{0，1}。在初始化的时候，随机地选择N个场景，并设置对应的x_i为1，以便满足约束Σx_i＝N。同时，在每个选择的场景中分别选择一个物体，设置对应的y._，j为1，以满足约束Σx_i·y_ij＝N。在交叉操作的时候，我们将x，y₁，y₂，...，视为基本部分，这样交叉操作就与传统遗传算法的交叉操作一致。在变异操作的时候，分别处理组件x和y_u (u＝1，2，...，N^s)。具体而言，将这些组件中的0和1的位置随机交换。在本发明中，我们设置种群规模为200，交叉率为0.25，变异率为0.01，迭代次数为200。

步骤S5，广告插入位置优化步骤，优化广告和目标物之间的距离及广告与所有物体之间的重叠区域的面积。广告插入点选择，通过优化广告和目标物体的距离以及广告和所有该场景中的物体之间的重叠区域，做到和目标物体最近，但不覆盖到其他物体。利用模型去优化广告和目标物体之间的距离以及广告并与所有物体之间的重叠区域的面积。本发明认为距离和重叠面越小越好。梯度下降方法用来解决这个最优化问题。经过上述步骤后，一个带有与内容相关的广告的视频将呈现在用户面前。

具体实施过程如下：

上述优化方法使我们能确定在那是场景中的那些物体插入广告。此外，通过检索，每一个物体已经有对应的相关广告。随后的工作是如何找到广告在屏幕中的显示位置。事实上，有很多显示广告的策略和方法。具体地说，广告可以显示在：1)视频的开始或者结束；2)每个场景结束的时候；3)场景中不重要的位置；4)屏幕中目标物体的附近。第一种策略已被广泛用于在当前网络视频网站，例如YouTube的和雅虎视频。但是，这些网站通常不考虑显示广告和视频内容之间的相关性。此外，如前面提到的，文本信息是视频的仅粗略描述。所得到的相关性是不充分的，不足以弥补视频内容和广告之间的语义差距。与此相反，物体级别关联使本文的系统能够最大化视频广告的价值。第三个策略是一个简单的选择，这是类似与许多网站的弹出式Flash广告。一个不重要的地方可以是屏幕的一角。但是从观看者的角度，可能没有注意到那些角落，因为他们更可能专注于播放视频的屏幕的中心区域。从广告出版商角度，更多的观众的注意力被插入的广告所吸引，才是更有价值的广告系统。最后一个策略的目的是通过定位目标物体，围绕该物体插入一个相关的广告，以吸引观众的注意力。但是，如果当目标物体出现的帧中包含一些其它物体，所显示的广告可覆盖其他物体，从而导致对观众干扰。在本发明中，我们定义了插入位置探测的优化模型，并使用最后一种策略去插入广告。

在探测最优插入位置时考虑一下两点因素：

距离：所插入的广告和目标物体之间的距离。将广告和物体的矩形块，定义广告的中心为(x_a，y_a)，高度的一半为h_a，宽度的一半为w_a。同样的，定义目标物体的中心为(x_t，o，y_t，o)，高度的一半为h_t，o，宽度的一半为w_t，o。如图所示，广告和物体之间的距离可以通过以下公式表示：

D_{ato} = \{\begin{matrix} \sqrt{{(x_{a} - x_{t, o})}^{2} + {(y_{a} - y_{t, o})}^{2}} (1 + \frac{w_{a} + w_{t, o}}{| x_{a} - x_{t, o} |}) & | x_{a} - x_{t, o} | > w_{a} + w_{t, o}, \\ \sqrt{{(x_{a} - x_{t, o})}^{2} + {(y_{a} - y_{t, o})}^{2}} (1 + \frac{h_{a} + h_{t, o}}{| y_{a} - y_{t, o} |}) & | x_{a} - x_{t, o} | < w_{a} + w_{t, o} | y_{a} - y_{t, o} | > h_{a} + h_{t, o}, \\ 0 & otherwise . \end{matrix}

重叠：是指广告和视频帧中所有物体重合的面积。在广告和物体之间的重叠区域可以定义为

Q_i＝W_i·H_i

其中，宽度

W_{i} = \{\begin{matrix} (w_{a} + x_{a}) - (x_{i, o} - w_{i, o}) & w_{i, o} + w_{a} > x_{a} - x_{i, o}, x_{a} > x_{i, o}, \\ (w_{i, o} + x_{i, o}) - (x_{a} - w_{a}) & w_{i, o} + w_{a} > x_{i, o} - x_{a}, x_{a} < x_{i, o}, \\ 0 & w_{i, o} + w_{a} \leq | x_{i, o} - x_{a} |, \end{matrix}

高度

H_{i} = \{\begin{matrix} (h_{i, o} + y_{i, o}) - (h_{a} - y_{a}) & h_{i, o} + h_{a} > y_{a} - y_{i, o}, y_{i, o} < y_{a,} \\ (h_{a} + y_{a}) - (h_{i, o} - y_{i, o}) & h_{i, o} + h_{a} > y_{i, o} - y_{a}, y_{i, o} > y_{a}, \\ 0 & h_{i, o} + h_{a} \leq | y_{i, o} - y_{a} | . \end{matrix}

综合考虑上述两个因素，我们可以探测广告的最佳插入位置的问题变成一个优化模型：

\min_{(x_{a}, y_{a})} f (x_{a}, y_{a}) = Σ_{i = 1}^{N_{o}} Q_{i} + D_{ato}

其中N_o在帧中探测到的物体的数目，Q_i表示该广告和物体i之间的重叠区域的面积。

为了解决上述问题，本发明设计了一种基于梯度下降的方法去寻找函数f(x_a，y_a)对应的最优解x_a和y_a。梯度可以按如下公式产生：

&dtri; x_{a} = \frac{&PartialD; f (x_{a}, y_{a})}{&PartialD; x_{a}} = Σ_{i = 1}^{N_{o}} \frac{&PartialD; Q_{i}}{&PartialD; x_{a}} + \frac{&PartialD; D_{ato}}{&PartialD; x_{a}} = Σ_{i = 1}^{N_{o}} (\frac{&PartialD; W_{i}}{&PartialD; x_{a}} H_{i}) + \frac{&PartialD; D_{ato}}{&PartialD; x_{a}}

&dtri; y_{a} = \frac{&PartialD; f (x_{a}, y_{a})}{&PartialD; y_{a}} = Σ_{i = 1}^{N_{o}} \frac{&PartialD; Q_{i}}{&PartialD; y_{a}} + \frac{&PartialD; D_{ato}}{&PartialD; y_{a}} = Σ_{i = 1}^{N_{o}} (\frac{&PartialD; W_{i}}{&PartialD; x_{a}} W_{i}) + \frac{&PartialD; D_{ato}}{&PartialD; y_{a}} .

其中，

\frac{&PartialD; W_{i}}{&PartialD; x_{a}} = \{\begin{matrix} x_{a} & w_{i, o} + w_{a} > x_{a} - x_{i, o}, x_{a} > x_{i, o} \\ x_{a} & w_{i, o} + w_{a} > x_{i, o} - x_{a}, x_{a} < x_{i, o} \\ 0 & w_{i, o} + w_{a} \leq | x_{i, o} - x_{a} | \end{matrix}\}

\frac{&PartialD; D_{ato}}{&PartialD; x_{a}} = \{\begin{matrix} \frac{x_{a} - x_{t, o}}{\sqrt{{(x_{a} - x_{t, o})}^{2} {(y_{a} - y_{t, o})}^{2}}} (1 - \frac{w_{a} + w_{t, o}}{x_{a} - x_{t, o}}) + \sqrt{{(x_{a} - x_{t, o})}^{2} + {(y_{a} - y_{t, o})}^{2}} \cdot \frac{w_{a} + w_{t, o}}{x_{t, o} - x_{a}} \\ x_{a} - x_{t, o} > w_{a} + w_{t, o}, x_{a} > x_{t, o} \\ \frac{x_{a} - x_{t, o}}{\sqrt{{(x_{a} - x_{t, o})}^{2} + {(y_{a} - y_{t, o})}^{2}}} (1 - \frac{w_{a} + w_{t, o}}{x_{t, o} - x_{a}}) + \sqrt{{(x_{a} - x_{t, o})}^{2} + {(y_{a} - y_{t, o})}^{2}} \cdot \frac{w_{a} + w_{t, o}}{x_{a} - x_{t, o}} \\ x_{t, o} - x_{a} > w_{a} + w_{t, o}, x_{a} < x_{t, o} \\ \frac{x_{a} - x_{t, o}}{\sqrt{{(x_{a} - x_{t, o})}^{2} + {(y_{a} - y_{t, o})}^{2}}} (1 - \frac{h_{a} + h_{t, o}}{| y_{a} - y_{t, o} |}) x_{a} - x_{t, o} < w_{a} - w_{t, o}, | y_{a} - y_{t, o} | > h_{a} + h_{t, o} \\ 0 & otherwise \end{matrix}\}

广告的插入位置(x_a(t)，y_a(t))可以按照如下步骤更新：

(x_{a} (t + 1), y_{a} (t + 1)) = (x_{a} (t), y_{a} (t)) + μ \cdot (- &dtri; x_{a}, - &dtri; y_{a})

其中μ是每次迭代的学习率。然后，不停地迭代更新插入广告的位置，直到位置变化||(x_a(t)，y_a(t))-(x_a(t-1)，y_a(t-1))||₂达到预定的阈值或迭代次数达到最大迭代次数。使用梯度下降搜索最优插入位置的过程，可以看到在大多数情况下，梯度下降能够找到一个最优位置，虽然有很多个最优位置，所需要的迭代次数并不多，10步左右的迭代就可以找到最优位置。

本发明的视频内容感知的广告推荐方法及系统，尤其涉及互联网视频内容感知的广告推荐方法及系统。本发明的主要创新的工作为以下两个部分：1)OLVA广告系统；2)视频广告投放优化模型。第一部分的有效性依赖于物体探测技术。优化模型的工作原理是同时考虑提高广告的吸引力，并降低了广告给用户带来的干扰。

图2示出了一种基于视频内容感知的广告推荐系统，所述广告推荐系统包括：

所述镜头分割模块包括：

反复计算单元，重复步骤A3知道收敛或达到运行次数上限。

所述对象检测模块包括：

分类单元，用于对提取的4096维特征向量的物体分类。

所述广告图片检索模块包括：

特征提取单元，用于对视频中人的人体特征提取；

特征匹配单元，用于对提取的人体特征进行特征匹配。

广告插入视频中是采用的无缝插入。

在镜头分割时，通过提取每张图片的特征值，然后进行无监督的学习，得到分割的场景。场景聚类不同于其他聚类方法，需要考虑帧出现的时间，只有帧的时间相近才能聚在一起。

在对象检测时，采用基于区域卷积特征的物体探测系统。对于一个输入的图片先提取候选区域，每张图片提取2000个候选区域。对于每个候选区域，进行图片大小归一化，将图片归一化到同样大小。然后使用CNN对这些归一化后的区域提取特征值。最后将提取的特征值输入给线性支持向量机，进行分类。这样，可以得到这些区域属于特定物体的概率，当概率大于阈值，就可以把区域提取出来作为该物体。

在广告图片检索时，为了找到相关的衣服广告，本发明对人体做进一步的特征提取，然后通过特征匹配检索相关广告。该系统包含两个主要部分：人体特征提取，该部分使用到人体部分对齐和人体分割；性别识别，用来识别人的性别，以便在不同性别的数据库中检索广告。对于衣服检索，人体部位对齐或人体部分探测已被证明是有效的部分匹配方式。但提取的人体部位可能仍含有一定的背景特征。特别是，广告图像的背景通常是与视频的背景不同。这些背景被视为噪音，可能会影响到随后的衣服匹配的效果。因此，通过人体分割方法以过滤掉背景，是必要的。另一方面，如果仅使用人体特征在广告数据库中检索最相关的广告，可能会发生将男演员匹配女士衣服的情况。为了避免这一点，本文使用性别识别将人分成男性或女性。因此，如果人的性别是男/女，则将在男/女的数据库中进行特征匹配。

广告目标物体优化，经过以上步骤，我们能得到每个物体对应的相关广告。由于视频中的物体很多，不能针对每个物体都插入一个广告。这样一个视频将被广告所充满，因此需要选择性的插入广告。选择物体时，需要考虑到广告的吸引力以及插入广告对用户的干扰。为了选择合适的场景以及目标物体，本发明设计一个模型对选择的结果进行优化。

广告插入位置的优化，当得到插入广告的目标物体，通过该物体找到对应的检索结果，也就得到了需要插入的广告。广告插入在目标物体出现的时间范围内，但是广告插入在屏幕中的哪个位置还没有确定。为了提高对用户的吸引，本发明希望广告距离目标物体越近越好。为了减少插入的干扰，广告应该尽量不要覆盖到其他物体。基于以上两点，本发明用梯度下降的方法求出插入位置，最终将广告插入到视频中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频内容感知的广告推荐方法，其特征在于，所述广告推荐方法包括以下步骤：

2.根据权利要求1所述的广告推荐方法，其特征在于，所述镜头分割步骤包括以下步骤：

A1、根据视频时间计算聚类的类别数目N；

A2、根据时间随机选取N个帧作为初始中心；

A3、分别计算每帧与时间相近中心的距离并更新中心；

A4、重复步骤A3知道收敛或达到运行次数上限。

3.根据权利要求1所述的广告推荐方法，其特征在于，所述对象检测步骤包括以下步骤：

B3、对提取的4096维特征向量的物体分类。

4.根据权利要求1所述的广告推荐方法，其特征在于，所述广告图片检索步骤包括以下步骤：

C1、利用基于卷积神经网络对视频中人进行性别识别；

C2、对视频中人的人体特征提取；

C3、对提取的人体特征进行特征匹配。

5.根据权利要求1-4任一项所述的广告推荐方法，其特征在于，广告插入视频中是采用的无缝插入。

6.一种基于视频内容感知的广告推荐系统，其特征在于，所述广告推荐系统包括：

7.根据权利要求6所述的广告推荐系统，其特征在于，所述镜头分割模块包括：

反复计算单元，重复步骤A3知道收敛或达到运行次数上限。

8.根据权利要求6所述的广告推荐系统，其特征在于，所述对象检测模块包括：

分类单元，用于对提取的4096维特征向量的物体分类。

9.根据权利要求6所述的广告推荐系统，其特征在于，所述广告图片检索模块包括：

特征提取单元，用于对视频中人的人体特征提取；

特征匹配单元，用于对提取的人体特征进行特征匹配。

10.根据权利要求6-9任一项所述的广告推荐系统，其特征在于，广告插入视频中是采用的无缝插入。