CN108307205A

CN108307205A - 融合视听觉特征的视频表现力识别方法、终端及存储介质

Info

Publication number: CN108307205A
Application number: CN201711275404.1A
Authority: CN
Inventors: 仝小敏; 李鹏; 吉祥; 吴鸽鹏
Original assignee: China Electronics Technology Group Corp CETC
Current assignee: China Electronics Technology Group Corp CETC; Electronic Science Research Institute of CTEC
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-07-20

Abstract

本发明公开了一种融合视听觉特征的视频表现力识别方法、终端及计算机可读存储介质，本发明通过根据预设视频的访问量和上传时长得到视频表现力真值，并根据所述视频的视频特征和音频特征以及该视频对应的视频表现力真值进行训练，得到视频表现力识别模型，后续将待测视频的视觉特征和音频特征带入所述模型，从而快速且准确的得到所述待测视频的视频表现力真值，从而有效解决现有技术中不能对视频表现力客观准确定性的问题。

Description

融合视听觉特征的视频表现力识别方法、终端及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种融合视听觉特征的视频表现力识别方法、终端及计算机可读存储介质。

背景技术

互联网和智能终端的飞速发展，使得互联网上的视频数量急剧增长，视频广告作为与商业直接相关的数据近年来发展迅速，其制作数量与日俱增，各大厂商花费巨资打造视频广告，以提高品牌的影响力和产品的销售额，广告视频的表现力强，会迅速给观众留下深刻的印象，提升产品的知名度，给厂家带来丰厚的利润，反之，对产品的销售提升则没有太多帮助。

视频的表现力识别目前尚未得到深入的研究，视频广告的表现力通常取决于广告的构思和设计，凭借主观经验决定，缺少客观的、定量的分析，而视频的颜色等视觉特征和视频中的音频特征等往往可以客观反映视频本身的表现力，但是并未被充分挖掘应用于分析视频的表现力。

发明内容

鉴于上述的分析，本发明旨在提供一种融合视听觉特征的视频表现力识别方法、终端及计算机可读存储介质，用以解决现有技术中不能客观准确的对视频表现力进行定性的问题。

为解决上述问题，本发明主要是通过以下技术方案实现的：

本发明提供了一种融合视听觉特征的视频表现力识别方法，该方法包括：

根据预设视频的访问量和上传时长得到视频表现力真值，提取所述视频的视觉特征和音频特征，并将所述视频的视觉特征、音频特征以及该视频对应的视频表现力真值进行训练，得到视频表现力识别模型；

提取待测视频的视觉特征，并提取待测视频的音频特征，将所述视觉特征和音频特征，带入所述视频表现力识别模型得到所述待测视频的视频表现力真值。

进一步地，所述预设视频为互联网上的视频广告。

进一步地，将所述视频和该视频对应的视频表现力真值进行训练，得到视频表现力识别模型，具体包括：将所述视频和该视频对应的视频表现力真值带入支持向量机SVM进行SVM训练，得到视频表现力识别模型。

进一步地，所述视觉特征包括以下中的一种或多种：BoW特征、GIST特征、颜色矩特征和颜色直方图特征。

进一步地，提取待测视频的音频特征，具体包括：将待测视频转化为音频格式的音频文件，并对音频文件提取音频特征。

进一步地，对音频文件提取音频特征，具体包括：提取音频文件中的节奏、音调、音量和音色信息。

另一方面，本发明还提供一种服务器，所述服务器包括处理器、存储器及通信总线；所述通信总线用于实现处理器和存储器之间的连接通信；所述处理器用于执行存储器中存储的计算机指令，以实现上述任一种所述的融合视听觉特征的视频表现力识别方法。

再一方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一种所述的融合视听觉特征的视频表现力识别方法。

本发明有益效果如下：

本发明通过根据预设视频的访问量和上传时长得到视频表现力真值，并根据所述视频的视频特征和音频特征以及该视频对应的视频表现力真值进行训练，得到视频表现力识别模型，后续将待测视频的视觉特征和音频特征带入所述模型，从而快速且准确的得到所述待测视频的视频表现力真值，从而有效解决现有技术中不能对视频表现力客观准确定性的问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明实施例的一种融合视听觉特征的视频表现力识别方法的流程示意图；

图2是本发明实施例的一种融合视听觉特征的视频表现力识别方法的流程示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。为了清楚和简化目的，当其可能使本发明的主题模糊不清时，将省略本文所描述的器件中已知功能和结构的详细具体说明。

本发明通过根据预设视频的访问量和上传时长得到视频表现力真值，并根据所述视频的视频特征和音频特征以及该视频对应的视频表现力真值进行训练，得到视频表现力识别模型，后续将待测视频的视觉特征和音频特征带入所述模型，从而快速且准确的得到所述待测视频的视频表现力真值，从而有效解决现有技术中不能对视频表现力客观准确定性的问题。以下结合附图以及几个实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明实施例提供了一种融合视听觉特征的视频表现力识别方法，参见图1，该方法包括：

S101、根据预设视频的访问量和上传时长得到视频表现力真值，提取所述视频的视觉特征和音频特征，并将所述视频的视觉特征、音频特征以及该视频对应的视频表现力真值进行训练，得到视频表现力识别模型；

S102、提取待测视频的视觉特征，并提取待测视频的音频特征，将所述视觉特征和音频特征，带入所述视频表现力识别模型得到所述待测视频的视频表现力真值。

也就是说，本发明通过根据预设视频的访问量和上传时长得到视频表现力真值，并根据所述视频的视频特征和音频特征以及该视频对应的视频表现力真值进行训练，得到视频表现力识别模型，后续将待测视频的视觉特征和音频特征带入所述模型，从而快速且准确的得到所述待测视频的视频表现力真值，从而有效解决现有技术中不能对视频表现力客观准确定性的问题。

需要说明的是，本发明实施例所述预设视频为互联网上的视频广告。

进一步地，本发明实施例中，将所述视频和该视频对应的视频表现力真值进行训练，得到视频表现力识别模型，具体包括：将所述视频和该视频对应的视频表现力真值带入支持向量机SVM进行SVM训练，得到视频表现力识别模型。

进一步地，本发明实施例中，所述视觉特征包括以下中的一种或多种：BoW特征、GIST特征、颜色矩特征和颜色直方图特征。

具体实施时，本发明实施例所述提取待测视频的音频特征，具体包括：

将待测视频转化为音频格式的音频文件，并对音频文件提取音频特征。

本发明实施例所述对音频文件提取音频特征，具体包括：提取音频文件中的节奏、音调、音量和音色信息。

图2是本发明实施例的一种融合视听觉特征的视频表现力识别方法的流程示意图，下面将结合图2对本发明所述的方法进行详细的解释和说明：

为了自动、量化的让计算机识别广告视频的表现力，本发明提出一种利用视音频特征对视频广告表现力进行识别的方法，通过融合BoW、GIST、颜色矩特征、颜色直方图和音频特征，利用多源特征之间的互补冗余，得到视频广告表现力的自动定量识别结果，同时验证多种特征的融合识别率要高于单独使用一种特征。

具体来说，本发明利用视频本身具有的视音频特征来识别视频的表现力。首先，从互联网上收集视频广告作为数据库，将这些视频的点击率和上传时长进行处理得到视频表现力的真值，把这些视频分为训练集和测试集；其次，提取视频的视觉特征和音频特征；第三，融合训练视频的视音频特征和真值进行SVM训练，得到训练模型；最后，利用训练好的模型预测测试样本的视频表现力，将预测得到的视频表现力与真值进行比较，得到视频广告识别准确率。

本发明实施例所述的时间特征包括：

BoW特征：BoW特征全称为Bag ofWords(词袋)模型，是目前应用最广泛的视觉特征之一，本发明采用基于SIFT(尺度不变特征变换)算子的BoW特征，SIFT特征为图像中的兴趣点，在图像缩放和旋转时候具有不变性，另外，对光照和噪声等也具有相当的鲁棒性，所以在计算机视觉中应用广泛。

GIST特征：GIST特征是图像的全局描述特征，可以表示图像的一些重要统计信息。该特征可以编码图像中垂直和水平线条的数量和强度，这些信息可以用于图像匹配中，一般是通过在几个不同方向和尺度上的对图像卷积一个定向滤波器实现。

颜色矩特征：颜色是彩色图像最重要的特征之一，颜色矩特征不需要颜色空间量化，是一种简单有效的颜色表示方法，由于颜色分布信息主要集中在低阶矩中，所以本发明采用颜色的一阶矩(mean)、二阶矩(variance)来表示该特征。

颜色直方图特征：提取视频中每帧图像RGB三通道上的颜色信息，获取三通道的颜色直方图作为颜色信息向量，然后将三个通道颜色信息向量首尾串联起来得到该帧的直方图向量特征。

本发明实施例所述支持向量机(support vector machine，SVM)训练分类技术是一种分类算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

本发明提出的融合视听觉特征的视频表现力识别技术实现方案主要包括以下步骤：

(1)建立视频广告数据库

从互联网上选择了103个视频广告作为实验数据库，这些视频包括汽车广告、食品广告、饮料广告、首饰广告、酒类广告和公益广告等多个种类。其中50个视频作为训练样本，构成训练集，其余53个作为测试样本，构成测试集。同时采集了每个视频截止到某一天的访问量和上传时长，将每天的平均访问量作为该广告视频表现力的指标，将大于110次点击率/天指标的视频广告标签置为1，表示视频的表现力较高，将小于等于110次点击率/天指标的视频广告标签置为-1，表示视频的表现力较低。

(2)提取视觉特征

本发明对视频广告库中视频的视觉特征进行了提取，这些特征包括BoW特征、GIST特征、颜色矩特征和颜色直方图特征。

BoW特征：本发明采用基于SIFT算子的BoW特征。在提取SIFT特征时候，第一，对图像进行高斯平滑滤波，高斯核宽参数为0.5，对滤波得到的图像进行卷积，得到图像金字塔，其次，对金字塔进行差分，得到图像显著点，并将其周围区域称为显著区域，由此我们可以得到一系列的显著点。第三，将图像显著点的显著区域按照主方向和垂直方向分成16个区域，在每个区域中统计方向直方图，将每个方向直方图的数值量化到0到255之间，这样就得到一个SIFT描述向量。然后，利用K-means算法对所有视频的SIFT特征进行聚类，统计每个图像拥有的SIFT特征属于每个类别个数，将这些个数排列为一个向量作为该BoW特征。

GIST特征：通过在几个不同方向和尺度上对图像卷积Gabor滤波器，提取每个视频中图像的GIST特征，然后对这些特征在所有图像上进行平均得到该视频的GIST特征。

颜色矩特征：本发明提取每一帧图像颜色的一阶矩、二阶矩，将每一帧的矩特征求平均作为视频颜色矩特征。

颜色直方图特征：提取视频中每帧图像直方图向量，将所有帧的颜色直方图向量平均值作为该视频的颜色直方图特征。

(3)提取音频特征

视频中也包含音频信息，为了提取音频特征，我们首先将视频转化为音频格式的文件，然后利用MIR工具箱[8]对音频文件提取了音频特征。这些音频特征可以表示音频文件中的节奏、音调、音量、音色等信息。

(4)融合视音频特征对广告视频进行识别

在获得视频的视觉和音频特征后，将这些特征的首尾相接，作为融合后的视音频特征用于视频表现力训练中。首先利用训练集中视频的视音频特征和真值标签输入到SVM中训练分类器，然后将测试集中视频的视音频特征输入到训练好的模型中，得到预测标签，将预测得到的标签与测试视频的真值对比，计算得到准确率。

总体来说，本发明提出一种新颖的融合视觉和音频特征进行视频广告表现力识别的方法，该方法模型经过视音频特征和表现力标签的训练后，可以很好的对测试广告视频的表现力进行预测，为广告视频表现力的识别提供了定量、客观的方法，同时，多种视音频特征融合识别可以从不同方面描述视频广告的表现力，得到了比单独使用一种特征更高的识别率。

本发明有效性验证涉及总共103个视频广告，这些视频包括酒类广告、汽车广告、食品广告、饮料广告、公益广告等种类，其中，50个视频为训练集，53个视频为测试视频。实验分为两个阶段，第一个阶段是训练阶段，利用SVM对训练视频的视音频特征和视频表现力标签进行训练，得到分类模型，SVM采用LibSVM程序进行测试。第二个阶段是测试阶段，利用训练好的SVM模型对测试视频的视音频特征进行分类，得到测试视频的预测标签，将预测标签和测试视频的真值进行比较，获得视频表现力的识别准确率，融合视音频特征的识别准确率达79.25％。相比于分别单独采用Bow特征、GIST特征、颜色矩特征、颜色直方图特征、音频特征进行了SVM训练和测试，融合视音频特征进行视频广告表现力识别的准确率有显著提高，同时也表明，计算机利用视频广告自身的特征可以很好的广告的表现力进行识别。

相应的，本发明的实施例还提供一种终端，所述终端包括处理器、存储器及通信总线；所述通信总线用于实现处理器和存储器之间的连接通信；所述处理器用于执行存储器中存储的计算机指令，以实现上述任一种所述的融合视听觉特征的视频表现力识别方法，并达到相应的技术效果。

相应的，本发明的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现前述实施例提供的任一种所述的融合视听觉特征的视频表现力识别方法，因此也能实现相应的技术效果，相关部分可参照方法实施例进行理解，在此不再详细赘述。

需要说明的是，本发明实施例所述的计算机可读存储介质与存储介质是同一介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种融合视听觉特征的视频表现力识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述预设视频为互联网上的视频广告。

3.根据权利要求1所述的方法，其特征在于，将所述视频和该视频对应的视频表现力真值进行训练，得到视频表现力识别模型，具体包括：

将所述视频和该视频对应的视频表现力真值带入支持向量机SVM进行SVM训练，得到视频表现力识别模型。

4.根据权利要求1所述的方法，其特征在于，

所述视觉特征包括以下中的一种或多种：BoW特征、GIST特征、颜色矩特征和颜色直方图特征。

5.根据权利要求1所述的方法，其特征在于，提取待测视频的音频特征，具体包括：

6.根据权利要求5所述的方法，其特征在于，对音频文件提取音频特征，具体包括：

提取音频文件中的节奏、音调、音量和音色信息。

7.一种终端，其特征在于，所述终端包括处理器、存储器及通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的计算机指令，以实现权利要求1至6中任一项所述的融合视听觉特征的视频表现力识别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至6中的任一项所述的融合视听觉特征的视频表现力识别方法。