CN107516084B

CN107516084B - 一种基于多特征融合的互联网视频作者身份识别方法

Info

Publication number: CN107516084B
Application number: CN201710762954.XA
Authority: CN
Inventors: 郭金林; 陈立栋; 白亮; 老松杨
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2020-01-17
Anticipated expiration: 2037-08-30
Also published as: CN107516084A

Abstract

本发明公开了一种基于多特征融合的互联网视频作者身份识别方法，包括：输入视频，对视频帧图像进行均匀降采样；在提取的任一帧图像及其前序帧图像中提取背景相机运动向量，进而计算视频图像中的相机运动特征；在视频镜头分割的基础上，计算平均镜头长度、突变镜头比率，得到视频结构特征；通过融合上述特征，利用支撑向量机分类器学习与识别视频制作者身份是专业视频制作人员还是业余视频制作人员。本发明在充分考虑专业视频和业余视频制作特点的基础上，通过融合互联网视频中相机运动特征及结构特征，利用支撑向量机分类器能够准确地学习与识别互联网视频制作者的身份为专业视频制作人员还是业余视频制作人员。

Description

一种基于多特征融合的互联网视频作者身份识别方法

技术领域

本发明涉及多媒体通信技术、互联网技术领域，特别是一种基于多特征融合的互联网视频作者身份识别方法。

背景技术

视频内容一般是由一些专业的视频制作公司所制作，如电视台等。这些视频一般由专业人士录制，经过后期处理，后被大众观看消费，视频质量一般较高。该类视频一般由专业人士通过专业摄像设备录制，并遵循一定的规则经过后期处理，最终经过稳定的信道推送给用户观看。

摄像设备(如带摄像头的智能手机)的普及和大容量存储设备价格的下降，导致了海量的个人视频内容。而互联网技术的发展和普及正在重塑视频消费模式，尤其是视频分享网站的兴起和流行，如YouTube，YouKu等，使互联网用户能够方便地上传、管理和分享视频。总之，互联网上的用户不仅仅是视频的消费者，更是视频的参与者和制作者。

互联网上的成百上千万用户既是互联网视频的发布者，又是消费者，这导致了互联网视频数量的爆炸性增加。近期统计表明，在著名的视频分享网站YouTube上，用户每分钟上传的视频高达120小时，导致每天上传的视频时长超过一年。用户上传的视频按照视频的原始制作者身份(视频的上传者不一定是视频的制作者)，一般可以分为专业视频(PPV，professional produced video)或业余视频(APV，amateur produced video)。

业余视频由不具有制作视频丰富经验的业余人员使用个人摄像设备(如手机)录制的，经过很少的后期制作，并由用户上传到网络的视频。相反，专业视频由专业人员通过专业摄像设备录制，并遵循一定规则编辑过的视频，如新闻视频，体育视频。值得注意的是，很多网络视频是通过从专业视频，如电视节目视频，电影中提取部分片段，并上传到网络(也有的只是添加了字幕、背景音乐等)，这类视频仍被认为是专业视频。

比较专业视频与业余视频，具有如下区别：

(1)互联网上的业余视频数量正以爆炸性的速度增加。由于不需要经过精良的后期制作，任何人可以轻松地利用摄像机或手机录制业余视频，并上传到互联网视频分享网站，因此，互联网上的业务视频正大量地出现；

(2)由于拍摄环境较差，摄像设备不够精良，业余视频的质量普遍比专业视频差，如含有较多的不规则相机运动，模糊的背景等等；

(3)相较于专业视频，如新闻视频，业余视频结构性较差。如新闻视频一般可以物理上分割为镜头、场景、故事；体育视频(以网球为例)可以物理上分割为盘、局等。而由于缺少后期精心制作，业余视频的结构一般不够清晰；

(4)相较于专业视频，业余视频中所伴宿的音频类型比较多样。专业视频中伴随音频类型较单一，如新闻视频中，音频类型主要是播音员的解说，体育视频中的音频主要包含解说员的语音及现场欢呼声。

发明内容

随着互联网技术的发展和摄像设备的普及，视频内容不再是只有专业视频制作公司(如电视台)才能生产，任何业余爱好者也可以快速的录制视频并发布。因此互联网上的专业制作视频(简称专业视频)和业余者制作视频(简称业余视频)的数量正以爆炸性的速度增加。有鉴于此，本发明提供一种基于多特征融合的互联网视频作者身份识别方法，该方法融合视频中背景相机运动特征、视频结构信息特征及伴随音频特征，利用支撑向量机分类器学习与识别视频制作者身份是专业视频制作人员还是业余视频制作人员。

为此，本发明采用如下技术方案：

一种基于多特征融合的互联网视频作者身份识别方法，包括以下步骤：

S1提取视频图像中的相机运动特征

S11对输入的视频图像帧进行均匀降采样，整段输入视频经均匀降采样提取得到M帧图像帧。

S12对于S11中提取到的M帧图像帧，提取相邻图像帧间的背景相机运动向量。

S13根据任意三个连续图像帧之间的背景相机运动向量计算视频图像中相机运动加速度集合与运动方向变化角度集合，获得整段视频中任意连续两个图像帧之间的相机运动向量集合

及任意连续三个图像帧之间运动向量计算相机运动加速度集合A与运动方向变化角度集合Θ。

S14根据视频中相机运动向量集合

加速度集合A与运动方向变化角度集合Θ，分别计算相机运动向量集合

加速度集合A和方向变化角度集合Θ的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征。

S15融合相机运动特征统计信息。

将运动向量的上述所有统计特征(即S14中计算得到的运动向量集合

的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起，构成了一个8维的运动向量特征描述。将相机运动加速度的上述所有统计特征(即S14中计算得到的相机运动加速度集合的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起，也构成了一个8维的相机运动加速特征描述。将运动方向变化角度的上述所有统计特征(S14中计算得到的运动方向变化角度集合的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起，也构成了一个4维的相机运动方向变化特征描述。

最终，将8维运动向量特征描述、8维相机运动加速度特征描述、4维相机运动方向变化特征描述进行水平拼接，可以获得一个20维的向量用于描述视频中的相机运动特征。

S2提取视频结构信息特征。

S3视频特征融合。

将S1中提出得到的视频图像中的相机运动特征及S2中提取得到的视频结构信息特征进行拼接，获得一个24维的向量用于描述视频特征，该特征将被输入到分类器中用于识别视频制作者身份为专业视频制作人员还是业余视频制作人员。

S4采用分类器识别视频制作者身份。

本发明中采用支撑向量机(support vector machine，SVM)作为分类器，并采用高斯径向基核函数作为SVM的核函数，分类识别专业视频和业余视频。

支持向量机是由Vapnik领导的AT&T Bell实验室研究小组在1995年提出的一种新的非常有潜力的分类技术，SVM是一种基于统计学习理论的模式识别方法。在解决小样本、非线性及高维模式识别问题中，SVM表现出许多特有的优势，并能够推广应用到分类识别等其他机器学习问题中。经过三十多年的深入研究，支持向量机已经非常成熟。

本发明S11中，对输入的视频图像帧进行均匀降采样实现方式是：每秒钟视频图像中均匀提取5帧图像帧。

在本发明S12中采用块匹配算法计算S11所提取的M帧图像帧中相邻图像帧间的背景相机运动向量。具体地，其实现方式是：

S121把当前图像帧K及其前序图像帧K-1均匀分割为多个同样大小的图像块；设图像块的尺寸大小为S*S，S＝10个像素大小。

S122选取当前图像帧K中的任一图像块作为测试图像块，S*S为测试图像块的尺寸大小，以测试图像块的中心点(x_t,y_t)为中心在其前序图像帧K-1中选定3S*3S大小的临近搜索区域。

对于当前图像帧K中处于其边缘的测试图像块，在前序图像帧K-1中选择距测试图像块对应位置最近的3S*3S大小的正方形块作为临近搜索区域，可设定水平方向区域选择优先。

S123：在临近搜索区域中，以5个像素为滑动步长，构建S*S大小的滑动图像块，通过计算最大匹配像素数指标，在滑动图像块中搜索与测试图像块相似的图像区域；其中最大匹配像素数指标计算方式如下：

其中，(x_t,y_t)是测试图像块的中心位置，(x_p,y_p)是滑动图像块(也即被搜索图像块)的中心位置，P_c是测试图像块中像素点的色彩亮度值，Q_c是滑动图像块(也即被搜索图像块)中像素点的色彩亮度值；(x,y)是测试图像块左下角坐标；测试图像块中心位置与滑动图像块中心位置的偏移为：d_x＝x_p-x_t，d_y＝y_p-y_t，T为匹配阈值。

S124：对于任一测试图像块，其中心为(x_t,y_t)，及其相似图像块，其中心为(x_p,y_p)。根据测试图像块及其相似图像块位置计算该测试图像块的运动向量v＝(v_x,v_y)，计算方式为：

v_x＝x'_p-x_t (3)

v_y＝y'_p-y_t (4)

其中，v_x和v_y分别是v运动向量在X和Y方向上的运动分量；

优选地，在检测相似图像块时，可能因为图像帧中存在许多一致纹理的区域，而导致检测到测试图像块的运动向量v不可靠。为此，本发明检查在该临近搜索区域中检测到的相似图像块的数量。如果在临近搜索区域中检测到相似图像块的数量超过D块，D＝4，则意味着该临近搜索区域是一个一致纹理区域，检测到的运动向量v可信度较低，则设置该测试图像块的运动向量为v＝0。

S125：重复步骤S122-S124，直到检测到当前图像帧K中所有测试图像块的运动向量v。

S126：统计当前图像帧K中所有测试图像块运动向量v的方向分布直方图；将当前图像帧K中所有测试图像块的运动向量按其方向分配到8个方向区间中，即[0,π/4)，[π/4,π/2)，[π/2,3π/4)，[3π/4,π)，[π,5π/4)，[5π/4,3π/2)，[3π/2,7π/4)，[7π/4,2π)八个方向区间；选择S125中运动向量方向落在最大直方图柱所代表方向区间中的测试图像块作为背景区域B。

S127：计算当前图像帧K与其前序图像帧K-1之间的背景相机运动向量，计算方式如下：

其中N_B为背景区域B中的图像块的数量，v_t为背景区域图像块t的运动向量。

本发明S13中根据三个连续图像帧之间的背景相机运动向量计算相机运动加速度与运动方向变化角度，计算方法如下：

其中，Δt为两个连续提取图像帧之间的时间间隔，由于本发明是均匀的提取图像帧(每秒提取5帧图像)，因此Δt是一个常数；加速度变化

等于两个连续图像帧之间的背景相机运动向量的差的大小。

通过上述计算，可获得整段视频中任意连续两个图像帧之间的相机运动向量集合

及任意连续三个图像帧之间运动向量计算相机运动加速度集合A＝{a_1,2,3,a_2,3,4,...,a_k-1,k,k+1,...,a_M-2,M-1,M,}与运动方向变化角度集合Θ＝{θ_1,2,3,θ_2,3,4,...,θ_k-1,k,k+1,...,θ_M-2,M-1,M,}。

本发明S14中，根据视频中相机运动向量集合

对于运动向量集合其均值计算如下：

对于运动向量集合

其t阶中心距计算如下：

其中t∈{2,3,4}。

对于加速度集合A与运动方向变化角度集合Θ，也计算上述统计信息，加速度集合A的均值以及方向变化角度集合Θ的均值，计算如下：

对于加速度集合A与运动方向变化角度集合Θ，其t阶中心距计算分别如下：

本发明S2提取视频结构信息特征，其实现方法如下：

采用视频镜头探测算法提取镜头数量N_shot；然后在视频镜头探测的基础上，再提取如下结构信息特征：平均镜头长度突变镜头比率R_{cut_shot}，及渐变镜头比率R_{grandual_shot}。

其中，平均镜头长度

计算如下：

L为视频图像总长度。

突变镜头比率R_{cut_shot}计算如下：

N_{cut_shot}为突变镜头数量。

渐变镜头比率计算为：

R_{grandual_shot}＝1-R_{cut_shot} (16)

将视频图像中提取的上述所有结构信息(即镜头数量N_shot，平均镜头长度

突变镜头比率R_{cut_shot}，及渐变镜头比率R_{grandual_shot})水平拼接在一起，构成了一个4维的视频结构信息特征描述。

本发明在充分考虑专业视频和业余视频制作特点的基础上，通过融合互联网视频中相机运动特征及结构特征，利用支撑向量机分类器能够准确地学习与识别互联网视频制作者的身份为专业视频制作人员还是业余视频制作人员。

经实验证明，本发明提供的一种基于多特征融合的互联网视频作者身份识别方法能够有效区分视频制作者身份为专业视频制作人员还是业余视频制作人员。尤其地，当专业视频为新闻、体育视频、电视广告视频和音乐视频时，而业余视频为互联网用户自制视频时，本发明提供的实施能够准确地区分视频制作者身份为专业视频制作人员还是业余视频制作人员。

附图说明

图1为本发明的流程图；

图2为本发明提取视频图像中的相机运动特征的流程图

图3为本发明其图像块搜索匹配方法示意图；

图4为本发明中图像块运动向量方向分配示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1，为本发明基于多特征融合的互联网视频作者身份识别方法的流程图，包括以下步骤：

S1提取视频图像中的相机运动特征；参见图2为本发明提取视频图像中的相机运动特征的流程图。本实施例采用块匹配算法计算所提取的相邻两帧图像间的背景相机运动向量：首先把一帧图像分割为若干同样大小的图像块，再查找当前帧的每个数据块在前一帧的位置。图3示例了本发明其图像块搜索匹配方法示意图。

本实施例将降采样后的一图像帧分隔为多个大小均为10×10像素的图像块，再以这些图像块为单位计算背景相机运动向量，目的是为了提高匹配的效率，而又能保证一定的精度。

对输入的视频图像进行均匀降采样，通过视频图像帧降采样，可以减少需要处理的图像帧数量，进而有效减少计算量。具体实现方式为每秒钟视频中均匀提取5帧图像，对于输入的整段视频共提取得到M帧图像帧。

S123：在临近搜索区域中，以5个像素为滑动步长，构建S*S大小的滑动图像块，通过计算最大匹配像素数指标，在滑动图像块中搜索与测试图像块相似的图像区域。其中最大匹配像素数指标计算方式如下：

S124：计算测试图像块的运动向量。

对于任一测试图像块，其中心为(x_t,y_t)，及其相似图像块，其中心为(x_p,y_p)。根据测试图像块及其相似图像块位置计算该测试图像块的运动向量v＝(v_x,v_y)，计算方式为：

v_x＝x'_p-x_t (3)

v_y＝y'_p-y_t (4)

其中，v_x和v_y分别是v运动向量在X和Y方向上的运动分量；

S126：统计当前图像帧K中所有测试图像块运动向量v的方向分布直方图；

具体的，将当前图像帧K中所有测试图像块的运动向量按其方向分配到8个方向区间中，即[0,π/4)，[π/4,π/2)，[π/2,3π/4)，[3π/4,π)，[π,5π/4)，[5π/4,3π/2)，[3π/2,7π/4)，[7π/4,2π)八个方向区间，参见图4。选择S125中运动向量方向落在最大直方图柱所代表方向区间中的测试图像块作为背景区域B。

S13计算任意连续三个图像帧间的相机运动加速度与运动方向变化角度

根据任意三个连续图像帧之间的背景相机运动向量，可计算视频图像中相机运动加速度与运动方向变化角度，计算方法如下：

其中，Δt为两个连续提取图像帧之间的时间间隔，由于本发明是均匀的提取图像帧(每秒提取5帧图像)，因此Δt是一个常数；加速度变化等于两个连续运动向量的差。

S14根据视频图像中相机运动加速度集合与运动方向变化角度集合，分别计算相机运动加速度集合与运动方向变化角度集合的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征。

根据视频图像中相机运动向量集合

对于运动向量集合其均值计算如下：

对于运动向量集合

其t阶中心距计算如下：

其中t∈{2,3,4}。

S15融合相机运动特征统计信息。

最终，将8维运动向量特征描述、8维相机运动加速度特征描述、4维相机运动方向变化特征描述进行水平拼接，可以获得一个20维的向量用于描述视频片段中的相机运动特征。

S2提取视频结构信息特征。

相较于专业视频，业余视频结构性较差。专业视频中结构或时序性信息较强，如广告或音乐视频中视觉节奏较快，镜头的平均时长较短。广告视频经常还含有较多的渐变镜头。因此视频结构信息能够有效区分业余视频和专业视频。

视频镜头探测是一个已经被研究的非常成熟的技术，本实施例可以采用成熟的镜头探测算法，镜头探测准确度可以达到90％以上。

本实施例采用视频镜头探测算法提取镜头数量N_shot；然后在视频镜头探测的基础上，再提取如下结构信息特征：平均镜头长度

突变镜头比率R_{cut_shot}，及渐变镜头比率R_{grandual_shot}。

其中，平均镜头长度

计算如下：

L为视频图像总长度。

突变镜头比率R_{cut_shot}计算如下：

N_{cut_shot}为突变镜头数量。

渐变镜头比率计算为：

R_{grandual_shot}＝1-R_{cut_shot} (16)

突变镜头比率R_{cut_shot}，及渐变镜头比率R_{grandual_shot})前后拼接在一起，构成了一个4维的视频结构信息特征描述。

S3视频特征融合。

S4分类器识别视频制作者身份。

经实验证明，本发明提供的实施例能够有效区分视频制作者身份为专业视频制作人员还是业余视频制作人员。尤其地，当专业视频为新闻、体育视频、电视广告视频和音乐视频时，而业余视频为互联网用户自制视频时，本发明提供的实施能够准确地区分视频制作者身份为专业视频制作人员还是业余视频制作人员。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多特征融合的互联网视频作者身份识别方法，其特征在于，包括以下步骤：

S1提取视频图像中的相机运动特征；

S11对输入的视频图像帧进行均匀降采样，整段输入视频经均匀降采样提取得到M帧图像帧；

S12对于S11中提取到的M帧图像帧，提取相邻图像帧间的背景相机运动向量；

及任意连续三个图像帧之间运动向量计算相机运动加速度集合A与运动方向变化角度集合Θ；

S14根据视频中相机运动向量集合

加速度集合A和方向变化角度集合Θ的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征；

S15融合相机运动特征统计信息；

将S14中计算得到的运动向量集合

的所有相机运动特征前后拼接在一起，构成了一个8维的运动向量特征描述；将S14中计算得到的相机运动加速度集合A的所有相机运动特征前后拼接在一起，也构成了一个8维的相机运动加速特征描述；将S14中计算得到的运动方向变化角度集合Θ的所有相机运动特征前后拼接在一起，也构成了一个4维的相机运动方向变化特征描述；

最终，将8维运动向量特征描述、8维相机运动加速度特征描述、4维相机运动方向变化特征描述进行水平拼接，获得一个20维的向量用于描述视频图像中的相机运动特征；

S2提取视频结构信息特征；

S3视频特征融合；

将S1中提出得到的视频图像中的相机运动特征及S2中提取得到的视频结构信息特征进行拼接，获得一个24维的向量用于描述视频特征，该特征将被输入到分类器中用于识别视频制作者身份为专业视频制作人员还是业余视频制作人员；

S4采用分类器识别视频制作者身份。

2.根据权利要求1所述的基于多特征融合的互联网视频作者身份识别方法，其特征在于，S11中，对输入的视频图像帧进行均匀降采样的实现方式是：每秒钟视频图像中均匀提取5帧图像帧。

3.根据权利要求1所述的基于多特征融合的互联网视频作者身份识别方法，其特征在于，S12中采用块匹配算法计算S11所提取的M帧图像帧中相邻图像帧间的背景相机运动向量。

4.根据权利要求1所述的基于多特征融合的互联网视频作者身份识别方法，其特征在于，S12的实现方法如下：

S121把当前图像帧K及其前序图像帧K-1均匀分割为多个同样大小的图像块；设图像块的尺寸大小为S*S，S＝10个像素大小；

S122选取当前图像帧K中的任一图像块作为测试图像块，S*S为测试图像块的尺寸大小，以测试图像块的中心点(x_t,y_t)为中心在其前序图像帧K-1中选定3S*3S大小的临近搜索区域；

对于当前图像帧K中处于其边缘的测试图像块，在前序图像帧K-1中选择距测试图像块对应位置最近的3S*3S大小的正方形块作为临近搜索区域，可设定水平方向区域选择优先；

其中，(x_t,y_t)是测试图像块的中心位置，(x_p,y_p)是滑动图像块的中心位置，P_c是测试图像块中像素点的色彩亮度值，Q_c是滑动图像块中像素点的色彩亮度值；(x,y)是测试图像块左下角坐标；测试图像块中心位置与滑动图像块中心位置的偏移为：d_x＝x_p-x_t，d_y＝y_p-y_t，T为匹配阈值；

S124：对于任一测试图像块，其中心为(x_t,y_t)，及其相似图像块，其中心为(x_p,y_p)；根据测试图像块及其相似图像块位置计算该测试图像块的运动向量v＝(v_x,v_y)，计算方式为：

v_x＝x'_p-x_t (3)

v_y＝y'_p-y_t (4)

其中，v_x和v_y分别是v运动向量在X和Y方向上的运动分量；

S125：重复步骤S122-S124，直到检测到当前图像帧K中所有测试图像块的运动向量v；

S126：统计当前图像帧K中所有测试图像块运动向量v的方向分布直方图；将当前图像帧K中所有测试图像块的运动向量按其方向分配到8个方向区间中，即[0,π/4)，[π/4,π/2)，[π/2,3π/4)，[3π/4,π)，[π,5π/4)，[5π/4,3π/2)，[3π/2,7π/4)，[7π/4,2π)八个方向区间；选择S125中运动向量方向落在最大直方图柱所代表方向区间中的测试图像块作为背景区域B；

5.根据权利要求4所述的基于多特征融合的互联网视频作者身份识别方法，其特征在于，S124中还包括检查在该临近搜索区域中检测到的相似图像块的数量，如果在临近搜索区域中检测到相似图像块的数量超过D块，D＝4，则意味着该临近搜索区域是一个一致纹理区域，检测到的运动向量v可信度较低，则设置该测试图像块的运动向量为v＝0。

6.根据权利要求4或5所述的基于多特征融合的互联网视频作者身份识别方法，其特征在于，S13中根据三个连续图像帧之间的背景相机运动向量计算相机运动加速度与运动方向变化角度，计算方法如下：