CN105913275A

CN105913275A - 一种基于视频主角识别的服装广告投放方法及系统

Info

Publication number: CN105913275A
Application number: CN201610177425.9A
Authority: CN
Inventors: 张海军; 安玉松
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2016-08-31

Abstract

本发明涉及一种基于视频主角识别的服装广告投放方法及系统，所述方法包括以下步骤：A、人脸检测：得到视频图片中的人脸图片以及坐标位置等信息；B、人脸跟踪：将连续视频帧中同一人的人脸图片聚集到一起，实现人脸的初步聚类；C、人脸验证：计算两两人脸图片之间的距离；D、人脸聚类：把同一人的人脸图片聚集到一起，找到视频中的主要角色；E、人体探测：对每帧视频图片利用基于区域卷积特征探测获得视频中人体的相关信息；F衣服标注：人体图片中衣服的分类和标注；G背景去除以及人体分割与聚类：把人体从图片中剪切出来，去掉与人体无关的背景，把人体衣服分割为多个区域；H衣服图片检索，利用衣服检索数据库中搜索匹配衣服的广告对象。

Description

一种基于视频主角识别的服装广告投放方法及系统

技术领域

本发明属于视频内容感知领域，尤其涉及一种互联网视频内容感知的广告推荐方法及系统。

背景技术

随着互联网和移动端的迅速普及，在线视频已经成为互联网领域最重要的应用之一。2014年全球在线视频广告市场持续高速增长，国内相关市场则保持着高达40％以上的增长率，而传统的电视媒体广告已经开始面临萎缩的历史转折，随着用户的迁移，运营商正把传统电视的预算，逐渐往在线视频转。目前，互联网视频广告基本是采用了传统电视广告的投放方式，主要是在视频播放前、播放中间、播放结束等时段植入一定时间的广告。经调查统计认为，在线视频广告的特性决定了广告播放时间不能过长，否则广告投放将对产品产生很大的负面影响。因此在线视频广告投放专家建议最好根据互联网视频或其它数字媒体的内容和特性进行更精确的挖掘，制作更好体验的视频广告，而不是直接就把超长乏味的广告用于在线视频广告的投放。因为在用户至上的时代，很少会有人能够看完60秒的视频广告。

互联网运营商一直喊着用户至上的口号，但实际情况却是越来越长广告时间。某一些视频门户网站已经破天慌地把视频开始前植入的广告播放时间提到90秒。用户不会为了广告花费如此长的时间，导致大部分用户选择静音逃避广告，从而造成了广告投放效果的严重下降。用户体验代表着广告的投放效果，强制性观看毫无兴趣的广告可能带来相反的作用。在互联网竞争激烈和顾客至上的时代，一味的追求商业利益，将会使客户选择离开你。视频广告投放方式的单一以及越来越长的播放时间，使观众对广告产生了强大的抗拒感，不管广告商愿意为此花多大代价，互联网运营商也不能去挑战用户的忍耐力。现有的投放策略都是强制用户观看广告，而大部分观众对广告没有兴趣而选择忽略它。如何提高视频广告的亲和力，减少广告对视频的侵犯，使视频广告有更好的用户体验，是现有互联网运行商必须考虑解决的问题。为了让投放的广告与视频内容紧密的融合起来，降低对视频的侵扰，使视频广告更加精确、自然的展示给观众，我们需要研究新的广告投放方式。明星是商品最好的推销者，如果视频中植入的广告能够与剧情、角色紧密结合，将会加深观众对广告的印象。例如，如果视频主角穿了一款很时尚漂亮的衣服或背了最新款式的包包，系统知道后就会根据商品库识别除它是哪一款包。当视频放到这个场景的时候，就会提示用户，你如果想买与主角同款的包包，可以直接点击，然后右侧会出现电商的广告，告诉你去哪个电商平台。如果采用这种方式广告投放，将会直接拉近视频内容和电商之间的距离，增加观众对广告的兴趣。

发明内容

本发明的目的在于提供一种基于视频主角识别的服装广告投放方法及系统，旨在解决上述的技术问题。

本发明通过以下技术方案实现：一种基于视频主角识别的服装广告投放方法，所述方法包括以下步骤：

A、人脸检测：得到视频帧图片中的人脸图片以及坐标位置；、

B、人脸跟踪：将连续视频帧中同一人的人脸图片聚集到一起，实现人脸的初步聚类；

C、人脸验证：计算两两人脸图片之间的距离；

D、人脸聚类：把同一人的人脸图片聚集到一起，找到视频中的主要角色；

E、人体探测：对每帧视频图片利用基于区域卷积特征探测获得视频中人体的相关信息；

F、衣服标注：实现人体图片中衣服的分类和标注；

G、背景去除以及人体分割与聚类：把人体从图片中剪切出来，去掉与物体无关的背景；把人体衣服分割为多个区域；

H、衣服图片检索：利用衣服检索数据库中搜索匹配衣服的广告对象。

作为本发明的进一步改进，所述人脸检测包括以下步骤：

A1、提取图片中区域的HOG特征和LUV特征；

A2、利用多示例支持向量机算法训练模型，对图片中区域进行分类；

A3、根据多个区域的综合得分判断人脸是否存在。

作为本发明的进一步改进，所述人脸跟踪步骤包括以下步骤：

B1、通过对基础图像利用循环偏移的方法得到一些近似的负样本；

B2、利用这些负样本进行训练，得到的样本循环矩阵，把岭回归的求解问题转换到傅里叶变换域；

B3、计算基于测试样本的循环偏移构成的所有测试样本的响应；

B4、利用KCF跟踪器根据跟踪规则实现人脸图片的初步聚类。

作为本发明的进一步改进，所述人脸验证步骤包括以下步骤：

C1、人脸图片通过卷积神经网络得到160维的向量；

C2、连接两张人脸图片的向量；

C3、利用分类器计算两两人脸之间的距离。

作为本发明的进一步改进，所述人脸聚类步骤包括以下步骤：

D1、初步聚类，当两两人脸图片的距离小于阈值，即可判断为一类，形成较多的类簇；

D2、继续聚类，使用更大的人脸距离阈值，当两个类簇元素之间距离小于阈值个数大于阈值y才能融合为一类；

D3、重复步骤D2，直到所有的人脸图片属于某一类不再变化。

作为本发明的进一步改进，所述人体探测步骤包括以下步骤：

E1、运用选择性地搜索在独立场景中生成与类别独立的候选区域；

E2、利用CNN网络对每个候选区域提取4096维特征向量并在倒数第二层输出；

E3、对提取的4096维特征向量的物体分类。

作为本发明的进一步改进，所述衣服标注步骤包括以下步骤：

F1、对人体图片进行超像素化，利用函数来表示一个具有一定形状、性质的像素点；

F2、使用人体对齐的方法把人体分为多个部分；

F3、提取各个区域的多种特征，利用已有模型预测衣服类型。

作为本发明的进一步改进，所述背景去除以及人体分割与聚类步骤包括以下步骤：

G1、使用上下文建模算法和条件随机场进行背景去除；

G2、利用基于图的图像分割算法和近似高斯混合聚类实现衣服区域的分割；

作为本发明的进一步改进，所述衣服图片检索步骤包括以下步骤：

H1、利用人体部分对齐方法实现人体的分割；

H2、对视频中人的人体特征提取；

H3、对提取的人体特征进行特征匹配。

本发明的有益效果是：本发明的基于视频主角识别的服装广告投放方法及系统，能够实现广告与视频主要角色相连，与视频内容相关。主角是整个视频的核心部分，如果能够实现视频广告与主角的关联，同时与视频的剧情相关，这样的广告会给观众留下更加深刻的印象。同时基于主角的广告投放方式可以把集中在一起的超长广告分散开来，合理的分散到视频中，使广告和视频角色、场景更加完美的融合。人性化投放广告是未来的发展方向，对观众来说，广告推荐的人性化可以增加观众的兴趣，把广告与视频场景结合，可以使观众深入其中，将极大的提高了广告投放效果。通过分析给定的视频，本发明采用基于人脸验证的聚类算法，能够自动挖掘出视频中的主要角色，检测出视频中可以投放广告的对象，并选择与该对象最接近的广告。

附图说明

图1是本发明的基于视频主角识别的服装广告投放方法的流程图；

图2是本发明的基于视频主角识别的服装广告投放系统的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

附图1示出了本发明提供的基于视频主角识别的服装广告投放方法的流程图，其详述如下：

步骤S1，在不同分辨率情况下，提取不同的方向梯度直方图(HOG)和LUV特征。训练模型时，DPM(Deformable Part Model)使用了多示例支持向量机算法(MI-SVM)，相比普通的支持向量机算法，MI-SVM把样本间隔最大化转化为样本集间隔最大化，具体来讲就是使用最关键的正样本和负样本训练模型。DPM探测物体的时候，通过计算图片多个区域是否有该物体的概率，最后根据多个区域的综合得分判断物体是否存在。由于脸部皮肤颜色都是分布在一个较窄的频道上，人脸检测采用LUV可以得到更好的效果，因为它对于光照条件等不敏感，减缓光照的影响。

步骤S2，人脸跟踪。跟踪器通过循环偏移构建分类器的训练样本，从而把数据矩阵变成了一个循环矩阵。然后利用循环矩阵的特性把问题的求解变换到了傅里叶变换域，从而避免了矩阵求逆的过程，极大降低了算法的复杂度。同时，利用核函数对多通道的HOG特征进行了融合，使得训练得到的分类器对待检测目标有更强的解释力。

训练跟踪样本的过程属于正则化最小二乘问题，我们假设跟踪训练样本及其回归值为{(x₁,y₁),(x₂,y₂),......,(x_i,y_i),.....}，其训练的最终目的是找到一个函数f(z)＝w^Tz能够使得残差函数最小。

其中，λ是正则化参数，解决了逆问题的不适定性，防止解的过拟合。闭式解可以参照线性最小二乘的求解过程，求解得出如下结果：

w＝(X^TX+λI)^-1X^Ty

其中，X是矩阵，由样本的特征向量组合而成的，y是由所有样本的回归值y_i组成的列向量，I为单位矩阵。因为后面的计算要在傅里叶域进行，这里给出一个复数情况下的求解结果，其中X^H是X的共轭转置矩阵，w*是w的共轭转置矩阵。

w^*＝(X^HX+λI)^-1X^Hy

如果直接求上述闭式解，随着跟踪过程中样本数量的不断增大，求解逆矩阵将会变得非常慢，将直接降低跟踪器的跟踪速度。通过把闭式解变换到傅里叶变换域的方式，避免了逆矩阵求解的过程，极大的提高了运行速度。

当跟踪器失去目标或者新的人脸出现时，会使镜头中的跟踪目标数量小于人脸的实际数目，此时应该建立新的目标跟踪并产生一个新的Track。实际运行中，我们对比当前帧目标跟踪数目与人脸数目，确定是否添加新的跟踪目标。当跟踪器出现错误，导致跟踪目标的坐标与相关人脸坐标无法重合匹配时，应该结束当前跟踪，同时根据正确的坐标信息和人脸数目确定是否建立新的跟踪目标并产生一个Track，最终，我们把海量的人脸图像聚集到更少数量的Tracks中。根据试验结果，使用跟踪器可以将聚类人脸数目减少两个数量级，为下一步人脸验证和人脸聚类打好了基础。极大的提高了人脸验证的速度和人脸聚类的准确率。

步骤S3，人脸验证步骤利用卷积神经网络进行人脸图片特征的学习，通过卷积神经网络可以学习到一个160维的向量，然后利用160维向量，使用现有已训练好的分类器，即可得到结果。网络架构是在简单卷积神经网络基础进行了改进，把最后的输出层同时和隐藏层倒数第一层卷积层与倒数第二层最大池化层相连，通过这样的组合方式可以同时学习到局部特征和全局特征，使学习到的特征更加丰富，提高了特征的学习能力，

步骤S4基于人脸验证的聚类来确定视频中的主要角色，因为人脸具有传递性，我们假定代表人脸所有Tracks，其中代表了第i个tracks中第j个人脸，m代表共有m个Tracks，n_i代表了第i个track中有n_i张人脸。上一步骤中，每一个track中抽取一定数量的人脸进行相互人脸验证，得到众多人脸之间的距离，假定代表i₁个track的j₁张人脸与i₂个track的j₂张人脸的距离，其中i₁与i₂不相等。使用δ代表人脸距离的阈值，首先，设定一个较小的阈值δ₁，样本人脸与类C_k中任一元素距离小于δ₁即可表示此样本属于C_k类。如果设定δ₁值过小，将会使得到类簇个数太多；如果太大将会使不同的人脸融合到一起，类个数又会变得太少。所以我们增设一个阈值δ₂，其中δ₁<δ₂。先初步聚类，当人脸距离小于δ₁可以直接化为一类。当初步聚类完成后，形成较多的类簇。然后我们使用δ₂阈值继续聚类，但两个类是否可以融合起来必须满足一定条件，即两个类簇元素之间距离小于δ₂的个数必须大于阈值y，才能融合起来。

步骤S5，对每个独立场景利用基于区域卷积特征探测获得视频中人体的相关信息；用基于区域卷积方法的探测物体对象，通过物体探测，能够得到视频中物体的类别和物体的位置，该方法对于一个输入的图片先提取候选区域，每张图片提取2000个候选区域，对于每个候选区域，进行图片大小归一化，将图片归一化到同样大小，然后使用CNN(Convolutional Neural Networks，卷积神经网络)方法对这些归一化后的区域提取特征值。最后将提取的特征值输入线性支持向量机，进行分类；在每一个场景中，使用基于区域卷积特征的物体探测方法。通过该方法处理，能够获得探测到的物体的某些信息，包括该物体类别，属于该类别的概率，该物体出现时间以及出现在屏幕中的位置。具体实施过程如下：对于一个输入的图片先提取候选区域，每张图片提取2000个候选区域。对于每个候选区域，进行图片大小归一化，将图片归一化到同样大小。然后使用CNN对这些归一化后的区域提取特征值。最后将提取的特征值输入给线性支持向量机，进行分类。这样可以得到这些区域属于特点物体的概率，当概率大于阈值，就可以把区域提取出来作为该物体。这些通过物体探测所获得的信息对于后续的广告投放是非常重要的。例如，所提出的广告目标物体优化模型依赖于该物体类别，探测的准确率和物体的位置信息，以便能同时考虑广告的吸引力和干扰。具体物体探测的步骤如下：(1)候选区域产生最新的很多论文提供了用于生成与类别独立的候选区域的方法。其中有：选择性地搜索，约束参数最小割集(Constrained Parametric Min-Cuts，CPMC)。而基于区域卷积的物体探测使用选择性地搜索。(2)CNN特征提取使用Caffe实现Krizhevsky等人所提出的CNN网络，对于每个区域提取4096维特征向量，该特征向量是CNN网络中倒数第二层的输出。根据实践经验，CNN在分类任务取得较好的效果，在探测中也会取得一致的效果。根据实验，CNN的层数越深，效果越好。(3)物体的分类考虑一个二分类器探测车辆，很明显，图像区域紧紧包围一辆汽车应该是一个正例。同样，很明显，没有车辆的背景区域应该是做负例。但是对于那些覆盖到一部分的区域是否表为正例是一个不确定的问题。计算重叠部分的比例，如果该比例超过阈值，就视为正例。试验中，重叠的阈值为0.3，这是通过实验不同的阈值选取最好的结果得到的。

步骤S6，使用I代表一个人的图片，然后为每一个像素分配一个衣服标签或背景。在此我们假设一块均匀的区域属于同一类标签，并通过超像素方法减少区域的标注。使用U来表示I图片的超像素集合，L≡{l_i}代表衣服分类的集合，其中i∈U，l_i是i个区域的标签，使用s_i代表像素集合在第i区域，用P(L|I)表示I区域属于L类型的概率。衣服标注步骤主要分为三个部分(1)超像素化；(2)人体部位对齐；(3)预测衣服类型。

超像素化:超像素是把图片根据像素划分为多个小块，利用函数来表示一个具有一定形状、性质的像素点。我们利用图像分割方法来获取图片的超像素，该方法提供了一种分层分割，通过设置阈值为0.05，把图片分割为几百到一千左右的区域。

人体部位对齐:针对人体姿势的多样性，使用人体对齐的方法，我们把人体分为多个部分，X≡{x_p}，x_p代表人体某个部分。可以计算P(L|X,I)的概率，即某个部分的某个区域属于I类型的概率。人体部位对齐是把人体分为分割为26块，其中上身分割为18个部分和8个下半身部分。

预测衣服类型：我们获得人体各部分位置后，可以进一步估计衣服的类型：

利用二阶条件概率随机场可以把上述模型概率分布P(L|X,I)转化为：

然后提取各个区域的归一化的RGB颜色直方图，归一化的CIE颜色直方图，Gabor滤波器直方图，归一化图像的二维坐标，以及与每个人体部分关联的归一化坐标。利用已经训练好的模型即可得到某个区域的衣服类型。

通过以上流程，通过训练好的模型实现了人体衣服款式的标注，衣服类型包括夹克、皮肤、头发、外套、上衣、鞋子等。衣服标注主要是对完整人体的衣服图片进行标注，图片像素大小对衣服标注有较大的影响，像素较低的图片无法准确的进行人体姿势估计，从而造成衣服标注的错误。

步骤S7，背景去除是把目标物体从图片中剪切出来，去掉与物体无关的背景，这样可以减少衣服匹配时背景带来的影响。首先，使用6000多个人的图片用来训练模型，实现人体与背景的分离。直接提取特征和训练模型会使人体与背景分离有很大的误差，现有的图片分割一般会利用条件随机场(Conditional Random Field：CRF)的方法进行改进。通过利用更多的图像特征在条件随机场中进行训练，人体去除背景效果很大的提升。

CRF用于图像分割的原理，使用x＝{x₁,...,x_n}表示图片，其中x_i代表图片像素点，并使用标签y＝{y₁,...,y_n}表示像素点x_i对应物体的类别。图片像素点x对应物体的类别以及周围像素点对应物体类别的相关性，图像分割的整个流程属于条件随机场，利用条件随机场的联合分布公式，可以得到图像类标和像素的联合分布：

提取图片多样的特征可以提高物体分割的效果，即通过定义不同的状态转移特征函数f_k和状态特征函数g_k。本发明提取了人体图片多种特征，包括了颜色直方图、LBP(Local Binary Pattern，局部二值模式)特征、梯度直方图特征、以及卷积神经网络提取的特征。

把人体图片背景去掉后，我们再利用所提出的基于图的图像分割分割算法把上一步所得图片进行大致的分割，分割后图像将分割为若干个区域。但很容易把一件衣服分成几个区域，使衣服碎片化。在此情况下我们提取各个区域的特征，利用近似高斯混合(AGM)聚类就可以把分割为几个区域的衣服聚合在一起。

步骤S8，衣服匹配检索主要有三个部分：

(1)人体部位对齐。人体部位对齐方法能够探测到人体的不同部位，并可以对人体进行估计。该方法的基本思想是，虽然人体姿势变化多样，但人体各个部位的特征变化较小，而且各个部位具有很强的关联性。例如，人的手臂有多种姿态，但手臂基本特征变化不大，而且前臂与后臂是相连的。通过人体姿势对齐，可以准确确定人体的重要部位，从而可以在重要部分准确的提取衣服，提高衣服匹配的准确率。人体部位对齐实现主要从人体部位的特征和各个部位的关联性两方面入手，首先提取人体每个部位的HOG特征，用来描述每个区域的特性，然后根据人体各个部位的关联性，使用混合模型建立树状结构的共生关系。

(2)人体特征提取：经过上面几步处理，我们对不同比例的人体图片选择不同方式进行衣服标注，然后我们再通过人体部位对齐，来体提取人体重要部位特征。对衣服来说颜色、款式、图案是最重要的特征，我们可以从人体的各个部分提取某件衣服的特征进行匹配。本发明对衣服图片提取了3种重要特征，包括HOG，LBP和颜色直方图。衣服广告图片同样采用类似的处理方式提取上述特征。然后，通过计算视频中角色衣服的特征向量和衣服广告图像的特征向量之间的距离，从而检索出类似的衣服。

(3)特征匹配。对衣服匹配广告来说，颜色、花纹、款式都是非常重要的特征，如果把HOG，LBP和颜色直方图级联为向量与广告进行匹配可能有很大误差，而且对衣服来说某个部分重要性不同的，所以我们通过权重来解决这个问题。对于上衣，假设衣服图像的颜色特征向量表示为H_c＝[h₁,h₂...h_n]，重要部分的HOG、LBP组合特征为H_l＝[h₁,h₂...h_n]，如T恤的衣领等部位，衣服HOG、LBP联合特征H_x＝[h₁,h₂...h_n]。广告的衣服图像的颜色特征向量表示为H′_c＝[h′₁,h′₂...h′_n]，衣领部位的HOG、LBP组合特征为H′_l＝[h′₁,h′₂...h′_n]，衣服图片实物HOG、LBP组合特征H′_x＝[h′₁,h′₂...h′_n]。我们设置权重ω₁、ω₂、ω₃分别为颜色特征权重、衣领处特征权重,衣服整体特征权重，其中ω₁+ω₂+ω₃＝1，衣服与广告之间的距离为：

选用欧式距离计算距离视频对象图片与广告图片之间的距离，通过计算该距离，可以在数据库中找到与该目标的人体最相关的服装广告图片。实验中通常不同类型衣服采用不同的权重，像上衣的衣领处的形状可能决定衣服的款型；对于衣裤、样色和布料可能需要更大的权重。

附图2所示为本发明的基于视频内容感知的服装广告投放系统，包括：人脸检测模块，用于得到视频帧图片中的人脸图片以及坐标位置；人脸跟踪模块，用于将连续视频帧中同一人的人脸图片聚集到一起，实现人脸的初步聚类；人脸验证模块，用于计算两两人脸图片之间的距离；人脸聚类模块，用于把同一人的人脸图片聚集到一起，找到视频中的主要角色；人体探测模块，用于对每帧视频图片利用基于区域卷积特征探测获得视频中人体的相关信息；衣服标注模块，用于实现人体图片中衣服的分类和标注；背景去除人体分割与聚类模块，用于把人体从图片中剪切出来，去掉与物体无关的背景，把人体衣服分割为多个区域；衣服图片检索模块，用于利用衣服检索数据库中搜索匹配衣服的广告对象。

本发明的主要贡献有以下两点：(1)对于不知道主要角色的视频，本发明采用基于人脸验证的聚类算法，该算法把难度较大的视频人脸聚类转化为成熟且效果较好的人脸识别问题。视频中的人脸，由于光照变化、面目表情、面部角度的多样、部分对象的遮挡，如眼镜和头发造成的遮挡使聚类准确率较低。利用人脸的传递性实现视频中人脸聚类，提高了聚类的准确率和稳定性，准确的找到了视频的主要角色。(2)对于视频中多种姿势人体，本发明采用了视频中衣服匹配检索的方法，该方法对视频中不同尺寸的人体采用不同的策略，对全身的人体图片直接训练衣服模型实现衣服标注；对半身的人体图片通过背景去除和图片分割、聚类实现衣服的提取。最后利用人体部位对齐方法，提取各部位的多种特征，实现衣服识别和匹配。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频主角识别的服装广告投放方法，其特征在于：所述方法包括以下步骤：

C、人脸验证：计算两两人脸图片之间的距离；

F、衣服标注：实现人体图片中衣服的分类和标注；

2.根据权利要求1所述的方法，其特征在于：所述步骤A包括以下步骤：

A1、提取图片中区域的HOG特征和LUV特征；

A3、根据多个区域的综合得分判断人脸是否存在。

3.根据权利要求1所述的服装广告投放方法，其特征在于：所述步骤B包括以下步骤：

B4、利用KCF跟踪器根据跟踪规则实现人脸图片的初步聚类。

4.根据权利要求1所述的服装广告投放方法，其特征在于：所述步骤D包括以下步骤：

D3、重复步骤D2，直到所有的人脸图片属于某一类不再变化。

5.根据权利要求1所述的服装广告投放方法，其特征在于，所述步骤F包括以下步骤：

F2、使用人体对齐的方法把人体分为多个部分；

6.一种基于视频主角识别的服装广告投放系统，其特征在于：所述系统包括：

人脸检测模块，用于得到视频帧图片中的人脸图片以及坐标位置；

人脸跟踪模块，用于将连续视频帧中同一人的人脸图片聚集到一起，实现人脸的初步聚类；

人脸验证模块，用于计算两两人脸图片之间的距离；

人脸聚类模块，用于把同一人的人脸图片聚集到一起，找到视频中的主要角色；

人体探测模块，用于对每帧视频图片利用基于区域卷积特征探测获得视频中人体的相关信息；

衣服标注模块，用于实现人体图片中衣服的分类和标注；

背景去除人体分割与聚类模块，用于把人体从图片中剪切出来，去掉与物体无关的背景，把人体衣服分割为多个区域；

衣服图片检索模块，用于利用衣服检索数据库中搜索匹配衣服的广告对象。

7.根据权利要求6所述的系统，其特征在于：所述人脸检测模块包括：

特征提取子模块，用于提取图片中每个区域的HOG特征和LUV特征；

分类子模块，用于利用多示例支持向量机训练模型，对图片中的区域进行分类；

判断子模块，用于计算图片多个区域是否有该物体的概率，最后根据多个区域的综合得分判断人脸是否存在。

8.根据权利要求6所述的系统，其特征在于：所述人脸跟踪模块包括：

样本获取子模块，用于通过对目标区域利用循环偏移的方法得到一些近似的负样本；

样本训练子模块，用于利用这些负样本进行训练，得到的样本循环矩阵，把岭回归的求解问题转换到傅里叶变换域；

计算响应子模块，用于计算基于测试样本的循环偏移构成的所有测试样本的响应；

初步聚类子模块，用于利用KCF跟踪器根据跟踪规则实现人脸图片的初步聚类。

9.根据权利要求6所述的系统，其特征在于：所述人脸验证模块包括：

初步聚类子模块，用于当两两人脸图片的距离小于阈值，即可判断为一类，形成较多的类簇；

继续聚类子模块，用于使用更大的人脸距离阈值，当两个类簇元素之间距离小于阈值个数大于阈值y才能融合为一类；重复进行直到所有的人脸图片属于某一类不再变化；重复上述操作，直到所有的人脸图片属于某一类不再变化。

10.根据权利要求6所述的系统，其特征在于，所述衣服标注模包括：

超像素子模块，用于对人体图片进行超像素化，利用函数来表示一个具有一定形状、性质的像素点；

人体姿势估计子模块，用于使用人体对齐的方法把人体分为多个部分；

衣服分类子模块，用于提取各个区域的多种特征，利用已有模型预测衣服类型。