CN103458279A

CN103458279A - 一种基于广告视频图像数据的吸引力判定方法

Info

Publication number: CN103458279A
Application number: CN2013103802461A
Authority: CN
Inventors: 韩军伟; 权荣; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2013-08-27
Filing date: 2013-08-27
Publication date: 2013-12-18
Anticipated expiration: 2033-08-27
Also published as: CN103458279B

Abstract

本发明提出一种基于广告视频图像数据的吸引力判定方法，首先对得到的训练样本集中的每个广告视频数据进行特征提取，从视觉和听觉方面共提取出58个特征，形成特征向量；然后根据训练样本视听觉特征向量以及其吸引力的类别标签来训练分类模型。最后根据已经训练出的分类模型，对输入的每个吸引力类别未知的广告视频数据，首先计算其视听觉特征向量，作为分类模型的输入，接着用分类模型输出该广告视频数据的吸引力类别。本发明可以根据输入广告视频数据的视觉特征和听觉特征来对其吸引力大小进行判定，判定为吸引力大或吸引力小。该方法的判定结果具有较高的准确度，并且具有较低的运算复杂度。

Description

一种基于广告视频图像数据的吸引力判定方法

技术领域

本发明属于计算机数据图像处理，涉及一种基于广告视频图像数据的吸引力判定方法。

背景技术

随着互联网、数字电视等多媒体的快速发展，以数字媒体作为载体传播广告视频已经成为商家的主要宣传手段，同时越来越多的用户将广告视频作为了解商品的主要途径。然而在广告视频数量快速增长的同时，对广告的效果评价仍缺乏有效的手段，广告效果对广告的定价，投放等都起着至关重要的作用。现阶段主要是以人工观测的方式对广告效果进行评价，但是这种观测方式的主观性大，效率低，很难满足广告视频的快速增长速度，所以找到一种可以快速，客观准确对广告视频效果进行评价的手段是一个亟待解决的问题。广告视频对人们的吸引力是决定其效果的一个关键指标，一段吸引人的广告视频也一定能够带来很好的广告效果，但是目前在视频研究领域还没有人对广告视频的吸引力进行研究。

目前已有的对广告视频的研究主要是学习怎样将一段广告视频最无缝地插入到其他视频中，并且能够引起人们对该广告视频最多的关注。这种方法主要是根据给定广告视频和源视频之间的相关性，并不能单独用来对广告视频的吸引力进行研究。此外，在专利号为7742762的美国专利Systems and methods for generating acomprehensive user attention model中提到了一种通过建立用户注意度模型来估计用户对视频的注意程度的方案。该方案首先从视频数据中提取出特征成分；然后对提取出的特征成分应用多种注意度模型生成注意度数据；最后将产生的注意度数据集成到一个综合的用户注意度模型上来对视频数据进行计算分析，产生一个用户注意度模型，用来估计用户在观看视频过程中被吸引的程度。但是这种方法只是在视频内部进行吸引人程度分析，用来对视频数据进行检索摘要，并没有对视频数据的整体吸引人程度进行度量，因此不能直接用来对广告视频数据的整体吸引力进行判定。本发明提出了一种广告视频数据的判定方法，该方法通过对广告视频数据的视听觉特征的分析来对其吸引力进行判定。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于广告视频图像数据的吸引力判定方法，自动地将输入的广告视频数据判定为吸引力大或吸引力小，判定结果具有很高的准确度。

技术方案

一种基于广告视频图像数据的吸引力判定方法，其特征在于：

步骤1、提取每一个输入的广告视频图像数据的视觉特征和提取每一个输入的广告视频图像数据的听觉特征：

提取每一个输入的广告视频图像数据的视觉特征，具体的步骤如下：

步骤a：对广告视频图像数据进行镜头分割并提取视频镜头关键帧：将整段视频Video1分成n个单独的视频镜头，对于每个视频镜头i，提取出其中间帧作为该视频镜头的关键帧P_i；

步骤b：计算广告视频图像数据的动态视觉特征——视频总体运动强度特征，具体实施如下：

●计算广告视频图像数据的平均视频镜头运动矢量

：对步骤a中镜头分割得到的每个视频镜头i用全搜索块匹配算法计算其运动矢量M_i，再根据加权平均法计算视频内部的平均视频镜头运动矢量

，计算公式为

其中t_i为第i个视频镜头的持续时间，T为整个广告视频图像数据的持续时间；

●计算广告视频图像数据的连续视频镜头之差的和D；计算公式为：

其中，D_i表示第i+1个视频镜头和第i个视频镜头之间的差，用步骤a中提取出的视频镜头的关键帧P_i+1和P_i之间的欧氏距离来计算；

计算视频总体运动强度特征S：根据计算出的和D，利用公式

计算广告视频图像数据的总体运动强度特征，其中v₁,v₂是预先设定的比例系数；

步骤c：计算广告视频图像数据的静态视觉特征：首先计算一个广告视频图像数据中所有视频镜头关键帧图像的亮度特征，对比度特征，高频边缘空间分布特征、色相计数特征，饱和度特征，视彩度特征，自然性特征等特征；然后将它们平均起来作为该广告视频图像数据相应的静态视觉特征；

提取每一个输入的广告视频图像数据的听觉特征，具体步骤如下：

步骤d:利用Olivier Lartillot和Petri Toiviainen在2008年发布的MIRtoolbox工具箱，对输入的每个广告视频图像数据，计算其音频信号的均方根能量特征rms1，平均过零率特征zcr1以及短时能量曲线ste_curve，短时平均过零率曲线zcr_curve，粗糙度曲线rough_curve；

步骤e:利用步骤d计算出的短时能量曲线ste_curve来计算广告视频图像数据音频信号的低短时能量率特征lster和窗内短时能量方差特征

其中，计算窗内短时能量方差特征时，首先对音频信号的短时能量曲线进行分割，每十帧分为一个小窗，对每个小窗j用公式

计算其窗内短时能量方差其中，ste(k)表示第k个时间帧的短时能量值，

表示第j个窗中10帧音频信号短时能量的平均值；然后用公式

求所有窗的窗内短时能量方差的平均值

其中，w是指将整段音频信号短时能量曲线分割成的窗的个数；

步骤f:利用步骤d计算出的粗糙度曲线rough_curve来计算广告视频图像数据音频信号的粗糙度特征；计算公式如下：R_roughness＝C1/C，其中，C为音频信号的总帧数，C1为音频信号粗糙度曲线中粗糙度值大于αm的帧数，m为粗糙度曲线上的最大值，α为一个预先设定的阈值；

步骤g:利用步骤d计算出的短时平均过零率曲线zcr_curve来计算广告视频图像数据音频信号的高过零率比特征hzcrr和语音、音乐信号成分比例特征R_speech以及R_music；

其中：计算语音、音乐信号成分比例特征时，首先对音频信号的短时平均过零率曲线进行分割，每十帧分为一个小窗，对每个窗计算一个局部高过零率比hzcrr_j；然后根据speech＝{j|0.1＜hzcrr_j＜0.25}来找出所有窗中的语音窗，放入语音信号集合speech中；再根据music＝{j|hzcrr_j＝0}来找出所有窗中的音乐窗，放入音乐窗集合music中；最后，分别统计两个集合中窗的个数C_speech和C_music；用公式R_speech＝C_speech/C和R_music＝C_music/C计算广告视频音频信号中语音及音乐信号占的比例；

步骤h:计算广告视频图像数据音频信号的MFCC特征：首先利用MIRtoolbox工具箱计算音频信号的MFCC系数，然后对MFCC系数进行一阶和二阶差分，将MFCC系数以及其差分结果都作为广告视频的听觉特征；

步骤2:训练分类模型：用吸引力已知的广告视频图像数据集作为训练样本集,利用步骤1中的方法，提取训练样本集中广告视频图像数据的视觉特征以及听觉特征，然后构成一个58维的特征向量，利用训练样本集中广告视频图像数据的吸引力类别作为训练标签，训练得到一个支持向量机分类模型；

步骤3:对于一个输入的广告视频图像数据，首先通过步骤1提取其视觉特征和听觉特征，然后利用步骤2中得到的支持向量机分类模型，对该广告视频图像数据的吸引力进行分类，分为吸引力大或吸引力小，将分类结果作为对该广告视频图像数据吸引力的判定结果。

所述步骤1的c步骤中的亮度特征，对比度特征，高频边缘分布特征，色相计数特征为Jose San Pedro,Stefan Siersdorfer.Ranking and Classifying Attractiveness ofPhotos in Folksonomies[J].WWW'09，2009中的特征。

所述步骤1的b步骤中的视彩度特征，饱和度特征，自然性特征为Yan Ke,XiaoouTang,Feng Jing.The Design of High-Level Features for Photo Quality Assessment[J].Computer Vision and Pattern Recognition,2006中的特征。

所述步骤1的e步骤中的低短时能量率特征为Lie Lu,Hao Jiang and HongJiangZhang.A Robust Audio Classification and Segmentation Method[J].Multimedia'01,2001中的特征。

所述步骤1的g步骤中的高过零率比特征为Lie Lu,Hao Jiang and HongJiangZhang.A Robust Audio Classification and Segmentation Method[J].Multimedia'01,2001中的特征。

有益效果

本发明提出的一种基于广告视频图像数据的吸引力判定方法，将广告视频数据的视觉特征和听觉特征作为其吸引力判定的主要依据。首先对得到的训练样本集中的每个广告视频数据进行特征提取，从视觉和听觉方面共提取出58个特征，形成特征向量；然后根据训练样本视听觉特征向量以及其吸引力的类别标签来训练分类模型。最后根据已经训练出的分类模型，对输入的每个吸引力类别未知的广告视频数据，首先计算其视听觉特征向量，作为分类模型的输入，接着用分类模型输出该广告视频数据的吸引力类别。

本发明提出了一广告视频数据的吸引力判定方法，可以根据输入广告视频数据的视觉特征和听觉特征来对其吸引力大小进行判定，判定为吸引力大或吸引力小。该方法的判定结果具有较高的准确度，并且具有较低的运算复杂度。

附图说明

图1：用两两比较法收集广告视频数据吸引力真值的流程图

图2：广告数据吸引力真值分布图

图3：广告视频数据动态视觉特征提取的流程图

图4：广告视频数据音频信号短时能量曲线以及窗内短时能量方差分布图

（a）：一个广告视频数据音频信号的短时能量曲线

（b）：广告视频数据音频信号窗内短时能量方差分布图

图5：广告视频音频信号短时过零率曲线

具体实施方式

现结合实施例、附图对本发明作进一步描述：

用于实施的硬件环境是：Intel Pentium2.93GHz CPU计算机、2.0GB内存，运行的软件环境是：Matlab R2011b和Windows XP。训练样本集中共有120个广告视频数据，它们都被预处理为统一的格式：帧图像大小为352×288像素，长度为14s左右，帧速率为29帧/秒，数据速率为662kbps，总比特率为790kbps，音频采样速率为44KHZ格式为.avi格式。

本发明具体实施如下：

1、训练样本集最终确定：

●首先使用两两比较的主观评价方法来获得训练样本集中广告视频数据的吸引力真值：首先对收集到的120个广告视频进行两两组合；共有7140中组合方式。然后对每个组合中的两个广告视频进行一次比较，选出一个从视觉和听觉方面考虑比较吸引人的广告视频，将其序号存入比较结果矩阵A中；将所有组合都比较一遍之后，A中共有7140个序号。最后统计矩阵A中每个广告视频数据序号出现的次数，作为该广告视频数据的吸引力真值，记录在真值向量B中。

●然后根据训练样本集中广告视频数据的吸引力真值来确定其吸引力类别：如果广告视频数据的吸引力真值大于所有广告视频数据吸引力真值均值与标准差一半的和，则将其定义为吸引力大；如果广告视频数据的吸引力真值小于所有广告视频数据吸引力真值均值与标准差一半的差，则将其定义为吸引力小；对于吸引力真值在上述两个范围之间的广告视频数据，不再将其作为训练样本。将吸引力大的广告视频数据类记为“1”类，吸引力小的广告视频数据类记为“0”类。

具体实施：挑选“1”类广告视频数据样本集H时，使用公式H＝{x|B(x)＞μ_B+σ_B/2},挑选“0”类广告视频数据样本集L时，使用公式L＝{x|B(x)＜μ_B-σ_B/2}；其中μ_B是指真值向量B的均值，σ_B是真值向量B的标准差，x是指第x个广告视频数据。最后根据这两个公式，从原始广告视频数据集合中挑选出41个“1”类广告视频数据，42个“0”类广告视频数据，将这83个具有吸引力类别标签的广告视频数据作为最终的训练样本集。

2、特征提取：对训练样本集中的83个广告视频数据进行视听觉特征提取

（1）、广告视频数据视觉特征的提取：

●动态视觉特征的提取：首先对一个广告视频数据Video1进行镜头分割，分为n个独立视频镜头，对每个视频镜头i提取出其中间帧作为该视频镜头的关键帧P_i；接下来对于每个视频镜头i，先使用全搜索块匹配算法计算其运动矢量M_i，再根据该视频镜头的持续时间t_i，以及整个广告视频数据的持续时间T，通过加权平均计算出其平均视频镜头运动矢量

再接着计算广告视频数据中每两个连续视频镜头关键帧之间的欧氏距离，作为这两个连续视频镜头之差D_i，接着求出广告视频数据连续镜头之差的和

最后以3:7的比例将广告视频数据平均镜头运动矢量以及连续镜头之差的和进行加权,得出该广告视频数据的总体运动强度

●静态视觉特征的提取：首先使用了文章The Design of High-Level Features forPhoto Quality Assessment中的边缘空间分布特征、色相计数特征等高阶特征以及亮度和对比度等低阶特征。然后使用了文献Ranking and Classifying Attractivenessof Photos in Folksonomies中的饱和度，视彩度，自然性等特征，共提取出13个广告视频数据静态视觉特征。

（2）、广告视频数据听觉特征的提取：听觉特征的提取使用了MIRtoolbox工具箱，具体过程如下：

●首先使用

计算出音频信号的总体均方根能量特征，用zcr1＝mirzerocross(Audio1)计算出音频信号的平均过零率特征；然后用ste_curve＝mirrms(Audio1,'Frame')计算出音频信号的短时能量曲线，用zcr_curve＝mirzerocross(Audio1,'Frame')计算出音频信号的短时平均过零率曲线，用rough_curve＝mirroughness(Audio1,'Frame')计算出音频信号的粗糙度曲线等曲线，这些曲线用来后续计算广告视频数据的其他听觉特征；其中Audio1为输入的广告视频数据的音频信号，mirrms、mirzerocross和mirroughness函数都是MIRtoolbox工具箱中的函数，mirrms函数的功能是计算输入信号的均方根能量值，mirzerocross函数的功能是用来计算输入信号的平均过零率，mirroughness函数的功能是计算输入信号的粗糙度；而选项'Frame'表示对音频信号的每一帧计算该函数值，这里的帧是指音频信号中的时间帧，异于广告视频数据图像流中的帧。

●在短时能量曲线ste_curve上计算低短时能量率特征lster和窗内短时能量方差特征

首先对短时能量曲线ste_curve使用文章A Robust Audio Classification andSegmentation Method中的方法计算低短时能量率特征lster。然后对短时能量曲线进行分割，每十帧分为一个小窗；再根据公式

计算每个窗的窗内短时能量方差

最后用公式

求所有窗的窗内短时能量方差的平均值

其中，ste(k)表示第k帧处信号的短时能量值，

表示第j个窗中10个帧音频信号短时能量的平均值；w是指将整段音频信号的短时能量曲线分割成的窗的个数；

●在粗糙度曲线rough_curve上计算音频信号的粗糙度特征R_roughness：首先找出粗糙度曲线上的最大值m，然后根据一个预先设定的阈值α，计算音频信号粗糙度曲线中粗糙度值大于αm的帧数C1，用它除以音频信号的总帧数C，得到音频信号的粗糙度特征R_roughness＝C1/C，本发明的α参数使用的值为0.25；

●在短时平均过零率曲线zcr_curve计算音频信号的高过零率比特征hzcrr与语音、音乐信号成分比例特征R_speech和R_music：首先在过零率曲线上利用文章A RobustAudio Classification and Segmentation Method中的方法计算高过零率比特征hzcrr。然后对过零率曲线进行分割，每10帧分为一个小窗，对每个窗计算一个高过零率比值hzcrr_j，并根据

来判断哪些窗是语音窗，并将其放入到speech集合中；再根据music＝{j|hzcrr_j＝0}来判断哪些窗是音乐窗，并将其放入到music集合中，最后，分别统计两个集合中窗的个数C_speech和C_music。用公式R_speech＝C_speech/C和R_music＝C_music/C计算音频信号中语音及音乐信号占的比例。

●计算音频信号的MFCC特征：首先使用mirmfcc函数来计算音频信号的MFCC系数，然后对MFCC结果进行一阶和二阶差分，将MFCC结果以及其差分结果都作为广告视频的听觉特征。其中：mirmfcc是MIRtoolbox工具箱中用来计算梅尔频率倒谱系数的函数。

3、训练分类模型：对于步骤1中确定的广告视频数据训练样本集，使用步骤2中的方法，提取训练样本集中广告视频数据的视觉特征和听觉特征，构成一个58维的特征向量，将训练样本的吸引力类别作为训练标签，训练出一个支持向量机分类模型，本发明使用Libsvm工具箱，训练出的分类模型参数设置为C=0.26，γ＝4^-8,r＝19,d＝5。

4、广告视频数据的注意度判定：对输入的一个吸引力大小未知的广告视频数据，首先使用步骤2中的特征提取方法提取其视听觉特征，然后利用训练得到的支持向量机分类模型，对广告视频数据的吸引力进行分类，分为吸引力大或吸引力小，并将这个分类结果作为对该广告视频数据的吸引力判定结果。

选用分类模型的分类精确度来对本发明的有效性进行评估：用训练出的分类模型对实验数据集中83个广告视频数据的吸引力进行分类，并将分类结果与广告视频数据的真实吸引力类别进行比较，找出分类正确的广告视频数据的个数，将它除以实验数据集中样本总数，就得到分类模型的分类精确度。结果如表1所示，分类精确度评价指标表明了本发明中分类模型的有效性。

表1：检测结果评价

样本总数	83
		正确分类样本个数	70
误分类样本个数	13
		分类精确度	83.34%

Claims

1.一种基于广告视频图像数据的吸引力判定方法，其特征在于：

●计算广告视频图像数据的平均视频镜头运动矢量

，计算公式为

计算视频总体运动强度特征S：根据计算出的

和D，利用公式

其中，计算窗内短时能量方差特征时，首先对音频信号的短时能量曲线进行分割，每十帧分为一个小窗，对每个小窗j用公式计算其窗内短时能量方差其中，ste(k)表示第k个时间帧的短时能量值，

表示第j个窗中10帧音频信号短时能量的平均值；然后用公式求所有窗的窗内短时能量方差的平均值，其中，w是指将整段音频信号短时能量曲线分割成的窗的个数；

2.根据权利要求1所述的一种广告视频图像数据的吸引力判定方法，其特征在于：所述步骤1的c步骤中的亮度特征，对比度特征，高频边缘分布特征，色相计数特征为Jose San Pedro,Stefan Siersdorfer.Ranking and Classifying Attractiveness of Photos inFolksonomies[J].WWW'09，2009中的特征。

3.根据权利要求1所述的一种广告视频图像数据的吸引力判定方法，其特征在于：所述步骤1的b步骤中的视彩度特征，饱和度特征，自然性特征为Yan Ke,Xiaoou Tang,Feng Jing.The Design of High-Level Features for Photo Quality Assessment[J].Computer Vision and Pattern Recognition,2006中的特征。

4.根据权利要求1所述的一种广告视频图像数据的吸引力判定方法，其特征在于：所述步骤1的e步骤中的低短时能量率特征为Lie Lu,Hao Jiang and HongJiang Zhang.ARobust Audio Classification and Segmentation Method[J].Multimedia'01,2001中的特征。

5.根据权利要求1所述的一种广告视频图像数据的吸引力判定方法，其特征在于：所述步骤1的g步骤中的高过零率比特征为Lie Lu,Hao Jiang and HongJiang Zhang.ARobust Audio Classification and Segmentation Method[J].Multimedia'01,2001中的特征。