CN107516084B - 一种基于多特征融合的互联网视频作者身份识别方法 - Google Patents

一种基于多特征融合的互联网视频作者身份识别方法 Download PDF

Info

Publication number
CN107516084B
CN107516084B CN201710762954.XA CN201710762954A CN107516084B CN 107516084 B CN107516084 B CN 107516084B CN 201710762954 A CN201710762954 A CN 201710762954A CN 107516084 B CN107516084 B CN 107516084B
Authority
CN
China
Prior art keywords
video
image
motion
camera motion
image block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710762954.XA
Other languages
English (en)
Other versions
CN107516084A (zh
Inventor
郭金林
陈立栋
白亮
老松杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710762954.XA priority Critical patent/CN107516084B/zh
Publication of CN107516084A publication Critical patent/CN107516084A/zh
Application granted granted Critical
Publication of CN107516084B publication Critical patent/CN107516084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多特征融合的互联网视频作者身份识别方法,包括:输入视频,对视频帧图像进行均匀降采样;在提取的任一帧图像及其前序帧图像中提取背景相机运动向量,进而计算视频图像中的相机运动特征;在视频镜头分割的基础上,计算平均镜头长度、突变镜头比率,得到视频结构特征;通过融合上述特征,利用支撑向量机分类器学习与识别视频制作者身份是专业视频制作人员还是业余视频制作人员。本发明在充分考虑专业视频和业余视频制作特点的基础上,通过融合互联网视频中相机运动特征及结构特征,利用支撑向量机分类器能够准确地学习与识别互联网视频制作者的身份为专业视频制作人员还是业余视频制作人员。

Description

一种基于多特征融合的互联网视频作者身份识别方法
技术领域
本发明涉及多媒体通信技术、互联网技术领域,特别是一种基于多特征融合的互联网视频作者身份识别方法。
背景技术
视频内容一般是由一些专业的视频制作公司所制作,如电视台等。这些视频一般由专业人士录制,经过后期处理,后被大众观看消费,视频质量一般较高。该类视频一般由专业人士通过专业摄像设备录制,并遵循一定的规则经过后期处理,最终经过稳定的信道推送给用户观看。
摄像设备(如带摄像头的智能手机)的普及和大容量存储设备价格的下降,导致了海量的个人视频内容。而互联网技术的发展和普及正在重塑视频消费模式,尤其是视频分享网站的兴起和流行,如YouTube,YouKu等,使互联网用户能够方便地上传、管理和分享视频。总之,互联网上的用户不仅仅是视频的消费者,更是视频的参与者和制作者。
互联网上的成百上千万用户既是互联网视频的发布者,又是消费者,这导致了互联网视频数量的爆炸性增加。近期统计表明,在著名的视频分享网站YouTube上,用户每分钟上传的视频高达120小时,导致每天上传的视频时长超过一年。用户上传的视频按照视频的原始制作者身份(视频的上传者不一定是视频的制作者),一般可以分为专业视频(PPV,professional produced video)或业余视频(APV,amateur produced video)。
业余视频由不具有制作视频丰富经验的业余人员使用个人摄像设备(如手机)录制的,经过很少的后期制作,并由用户上传到网络的视频。相反,专业视频由专业人员通过专业摄像设备录制,并遵循一定规则编辑过的视频,如新闻视频,体育视频。值得注意的是,很多网络视频是通过从专业视频,如电视节目视频,电影中提取部分片段,并上传到网络(也有的只是添加了字幕、背景音乐等),这类视频仍被认为是专业视频。
比较专业视频与业余视频,具有如下区别:
(1)互联网上的业余视频数量正以爆炸性的速度增加。由于不需要经过精良的后期制作,任何人可以轻松地利用摄像机或手机录制业余视频,并上传到互联网视频分享网站,因此,互联网上的业务视频正大量地出现;
(2)由于拍摄环境较差,摄像设备不够精良,业余视频的质量普遍比专业视频差,如含有较多的不规则相机运动,模糊的背景等等;
(3)相较于专业视频,如新闻视频,业余视频结构性较差。如新闻视频一般可以物理上分割为镜头、场景、故事;体育视频(以网球为例)可以物理上分割为盘、局等。而由于缺少后期精心制作,业余视频的结构一般不够清晰;
(4)相较于专业视频,业余视频中所伴宿的音频类型比较多样。专业视频中伴随音频类型较单一,如新闻视频中,音频类型主要是播音员的解说,体育视频中的音频主要包含解说员的语音及现场欢呼声。
发明内容
随着互联网技术的发展和摄像设备的普及,视频内容不再是只有专业视频制作公司(如电视台)才能生产,任何业余爱好者也可以快速的录制视频并发布。因此互联网上的专业制作视频(简称专业视频)和业余者制作视频(简称业余视频)的数量正以爆炸性的速度增加。有鉴于此,本发明提供一种基于多特征融合的互联网视频作者身份识别方法,该方法融合视频中背景相机运动特征、视频结构信息特征及伴随音频特征,利用支撑向量机分类器学习与识别视频制作者身份是专业视频制作人员还是业余视频制作人员。
为此,本发明采用如下技术方案:
一种基于多特征融合的互联网视频作者身份识别方法,包括以下步骤:
S1提取视频图像中的相机运动特征
S11对输入的视频图像帧进行均匀降采样,整段输入视频经均匀降采样提取得到M帧图像帧。
S12对于S11中提取到的M帧图像帧,提取相邻图像帧间的背景相机运动向量。
S13根据任意三个连续图像帧之间的背景相机运动向量计算视频图像中相机运动加速度集合与运动方向变化角度集合,获得整段视频中任意连续两个图像帧之间的相机运动向量集合
Figure GDA0002278561090000031
及任意连续三个图像帧之间运动向量计算相机运动加速度集合A与运动方向变化角度集合Θ。
S14根据视频中相机运动向量集合
Figure GDA0002278561090000032
加速度集合A与运动方向变化角度集合Θ,分别计算相机运动向量集合
Figure GDA0002278561090000033
加速度集合A和方向变化角度集合Θ的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征。
S15融合相机运动特征统计信息。
将运动向量的上述所有统计特征(即S14中计算得到的运动向量集合
Figure GDA0002278561090000034
的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起,构成了一个8维的运动向量特征描述。将相机运动加速度的上述所有统计特征(即S14中计算得到的相机运动加速度集合的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起,也构成了一个8维的相机运动加速特征描述。将运动方向变化角度的上述所有统计特征(S14中计算得到的运动方向变化角度集合的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起,也构成了一个4维的相机运动方向变化特征描述。
最终,将8维运动向量特征描述、8维相机运动加速度特征描述、4维相机运动方向变化特征描述进行水平拼接,可以获得一个20维的向量用于描述视频中的相机运动特征。
S2提取视频结构信息特征。
S3视频特征融合。
将S1中提出得到的视频图像中的相机运动特征及S2中提取得到的视频结构信息特征进行拼接,获得一个24维的向量用于描述视频特征,该特征将被输入到分类器中用于识别视频制作者身份为专业视频制作人员还是业余视频制作人员。
S4采用分类器识别视频制作者身份。
本发明中采用支撑向量机(support vector machine,SVM)作为分类器,并采用高斯径向基核函数作为SVM的核函数,分类识别专业视频和业余视频。
支持向量机是由Vapnik领导的AT&T Bell实验室研究小组在1995年提出的一种新的非常有潜力的分类技术,SVM是一种基于统计学习理论的模式识别方法。在解决小样本、非线性及高维模式识别问题中,SVM表现出许多特有的优势,并能够推广应用到分类识别等其他机器学习问题中。经过三十多年的深入研究,支持向量机已经非常成熟。
本发明S11中,对输入的视频图像帧进行均匀降采样实现方式是:每秒钟视频图像中均匀提取5帧图像帧。
在本发明S12中采用块匹配算法计算S11所提取的M帧图像帧中相邻图像帧间的背景相机运动向量。具体地,其实现方式是:
S121把当前图像帧K及其前序图像帧K-1均匀分割为多个同样大小的图像块;设图像块的尺寸大小为S*S,S=10个像素大小。
S122选取当前图像帧K中的任一图像块作为测试图像块,S*S为测试图像块的尺寸大小,以测试图像块的中心点(xt,yt)为中心在其前序图像帧K-1中选定3S*3S大小的临近搜索区域。
对于当前图像帧K中处于其边缘的测试图像块,在前序图像帧K-1中选择距测试图像块对应位置最近的3S*3S大小的正方形块作为临近搜索区域,可设定水平方向区域选择优先。
S123:在临近搜索区域中,以5个像素为滑动步长,构建S*S大小的滑动图像块,通过计算最大匹配像素数指标,在滑动图像块中搜索与测试图像块相似的图像区域;其中最大匹配像素数指标计算方式如下:
Figure GDA0002278561090000042
其中,(xt,yt)是测试图像块的中心位置,(xp,yp)是滑动图像块(也即被搜索图像块)的中心位置,Pc是测试图像块中像素点的色彩亮度值,Qc是滑动图像块(也即被搜索图像块)中像素点的色彩亮度值;(x,y)是测试图像块左下角坐标;测试图像块中心位置与滑动图像块中心位置的偏移为:dx=xp-xt,dy=yp-yt,T为匹配阈值。
S124:对于任一测试图像块,其中心为(xt,yt),及其相似图像块,其中心为(xp,yp)。根据测试图像块及其相似图像块位置计算该测试图像块的运动向量v=(vx,vy),计算方式为:
vx=x'p-xt (3)
vy=y'p-yt (4)
其中,vx和vy分别是v运动向量在X和Y方向上的运动分量;
优选地,在检测相似图像块时,可能因为图像帧中存在许多一致纹理的区域,而导致检测到测试图像块的运动向量v不可靠。为此,本发明检查在该临近搜索区域中检测到的相似图像块的数量。如果在临近搜索区域中检测到相似图像块的数量超过D块,D=4,则意味着该临近搜索区域是一个一致纹理区域,检测到的运动向量v可信度较低,则设置该测试图像块的运动向量为v=0。
S125:重复步骤S122-S124,直到检测到当前图像帧K中所有测试图像块的运动向量v。
S126:统计当前图像帧K中所有测试图像块运动向量v的方向分布直方图;将当前图像帧K中所有测试图像块的运动向量按其方向分配到8个方向区间中,即[0,π/4),[π/4,π/2),[π/2,3π/4),[3π/4,π),[π,5π/4),[5π/4,3π/2),[3π/2,7π/4),[7π/4,2π)八个方向区间;选择S125中运动向量方向落在最大直方图柱所代表方向区间中的测试图像块作为背景区域B。
S127:计算当前图像帧K与其前序图像帧K-1之间的背景相机运动向量,计算方式如下:
Figure GDA0002278561090000051
其中NB为背景区域B中的图像块的数量,vt为背景区域图像块t的运动向量。
本发明S13中根据三个连续图像帧之间的背景相机运动向量计算相机运动加速度与运动方向变化角度,计算方法如下:
Figure GDA0002278561090000061
Figure GDA0002278561090000062
其中,Δt为两个连续提取图像帧之间的时间间隔,由于本发明是均匀的提取图像帧(每秒提取5帧图像),因此Δt是一个常数;加速度变化
Figure GDA0002278561090000063
等于两个连续图像帧之间的背景相机运动向量的差的大小。
通过上述计算,可获得整段视频中任意连续两个图像帧之间的相机运动向量集合
Figure GDA0002278561090000064
及任意连续三个图像帧之间运动向量计算相机运动加速度集合A={a1,2,3,a2,3,4,...,ak-1,k,k+1,...,aM-2,M-1,M,}与运动方向变化角度集合Θ={θ1,2,32,3,4,...,θk-1,k,k+1,...,θM-2,M-1,M,}。
本发明S14中,根据视频中相机运动向量集合
Figure GDA0002278561090000065
加速度集合A与运动方向变化角度集合Θ,分别计算相机运动向量集合
Figure GDA0002278561090000066
加速度集合A和方向变化角度集合Θ的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征。
对于运动向量集合其均值计算如下:
Figure GDA0002278561090000068
对于运动向量集合
Figure GDA0002278561090000069
其t阶中心距计算如下:
其中t∈{2,3,4}。
对于加速度集合A与运动方向变化角度集合Θ,也计算上述统计信息,加速度集合A的均值以及方向变化角度集合Θ的均值,计算如下:
Figure GDA0002278561090000071
Figure GDA0002278561090000072
对于加速度集合A与运动方向变化角度集合Θ,其t阶中心距计算分别如下:
Figure GDA0002278561090000073
Figure GDA0002278561090000074
本发明S2提取视频结构信息特征,其实现方法如下:
采用视频镜头探测算法提取镜头数量Nshot;然后在视频镜头探测的基础上,再提取如下结构信息特征:平均镜头长度突变镜头比率Rcut_shot,及渐变镜头比率Rgrandual_shot
其中,平均镜头长度
Figure GDA0002278561090000076
计算如下:
Figure GDA0002278561090000077
L为视频图像总长度。
突变镜头比率Rcut_shot计算如下:
Ncut_shot为突变镜头数量。
渐变镜头比率计算为:
Rgrandual_shot=1-Rcut_shot (16)
将视频图像中提取的上述所有结构信息(即镜头数量Nshot,平均镜头长度
Figure GDA0002278561090000081
突变镜头比率Rcut_shot,及渐变镜头比率Rgrandual_shot)水平拼接在一起,构成了一个4维的视频结构信息特征描述。
本发明在充分考虑专业视频和业余视频制作特点的基础上,通过融合互联网视频中相机运动特征及结构特征,利用支撑向量机分类器能够准确地学习与识别互联网视频制作者的身份为专业视频制作人员还是业余视频制作人员。
经实验证明,本发明提供的一种基于多特征融合的互联网视频作者身份识别方法能够有效区分视频制作者身份为专业视频制作人员还是业余视频制作人员。尤其地,当专业视频为新闻、体育视频、电视广告视频和音乐视频时,而业余视频为互联网用户自制视频时,本发明提供的实施能够准确地区分视频制作者身份为专业视频制作人员还是业余视频制作人员。
附图说明
图1为本发明的流程图;
图2为本发明提取视频图像中的相机运动特征的流程图
图3为本发明其图像块搜索匹配方法示意图;
图4为本发明中图像块运动向量方向分配示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,为本发明基于多特征融合的互联网视频作者身份识别方法的流程图,包括以下步骤:
S1提取视频图像中的相机运动特征;参见图2为本发明提取视频图像中的相机运动特征的流程图。本实施例采用块匹配算法计算所提取的相邻两帧图像间的背景相机运动向量:首先把一帧图像分割为若干同样大小的图像块,再查找当前帧的每个数据块在前一帧的位置。图3示例了本发明其图像块搜索匹配方法示意图。
本实施例将降采样后的一图像帧分隔为多个大小均为10×10像素的图像块,再以这些图像块为单位计算背景相机运动向量,目的是为了提高匹配的效率,而又能保证一定的精度。
S11对输入的视频图像帧进行均匀降采样,整段输入视频经均匀降采样提取得到M帧图像帧。
对输入的视频图像进行均匀降采样,通过视频图像帧降采样,可以减少需要处理的图像帧数量,进而有效减少计算量。具体实现方式为每秒钟视频中均匀提取5帧图像,对于输入的整段视频共提取得到M帧图像帧。
S12对于S11中提取到的M帧图像帧,提取相邻图像帧间的背景相机运动向量。
S121把当前图像帧K及其前序图像帧K-1均匀分割为多个同样大小的图像块;设图像块的尺寸大小为S*S,S=10个像素大小。
S122选取当前图像帧K中的任一图像块作为测试图像块,S*S为测试图像块的尺寸大小,以测试图像块的中心点(xt,yt)为中心在其前序图像帧K-1中选定3S*3S大小的临近搜索区域。
对于当前图像帧K中处于其边缘的测试图像块,在前序图像帧K-1中选择距测试图像块对应位置最近的3S*3S大小的正方形块作为临近搜索区域,可设定水平方向区域选择优先。
S123:在临近搜索区域中,以5个像素为滑动步长,构建S*S大小的滑动图像块,通过计算最大匹配像素数指标,在滑动图像块中搜索与测试图像块相似的图像区域。其中最大匹配像素数指标计算方式如下:
Figure GDA0002278561090000091
Figure GDA0002278561090000092
其中,(xt,yt)是测试图像块的中心位置,(xp,yp)是滑动图像块(也即被搜索图像块)的中心位置,Pc是测试图像块中像素点的色彩亮度值,Qc是滑动图像块(也即被搜索图像块)中像素点的色彩亮度值;(x,y)是测试图像块左下角坐标;测试图像块中心位置与滑动图像块中心位置的偏移为:dx=xp-xt,dy=yp-yt,T为匹配阈值。
S124:计算测试图像块的运动向量。
对于任一测试图像块,其中心为(xt,yt),及其相似图像块,其中心为(xp,yp)。根据测试图像块及其相似图像块位置计算该测试图像块的运动向量v=(vx,vy),计算方式为:
vx=x'p-xt (3)
vy=y'p-yt (4)
其中,vx和vy分别是v运动向量在X和Y方向上的运动分量;
优选地,在检测相似图像块时,可能因为图像帧中存在许多一致纹理的区域,而导致检测到测试图像块的运动向量v不可靠。为此,本发明检查在该临近搜索区域中检测到的相似图像块的数量。如果在临近搜索区域中检测到相似图像块的数量超过D块,D=4,则意味着该临近搜索区域是一个一致纹理区域,检测到的运动向量v可信度较低,则设置该测试图像块的运动向量为v=0。
S125:重复步骤S122-S124,直到检测到当前图像帧K中所有测试图像块的运动向量v。
S126:统计当前图像帧K中所有测试图像块运动向量v的方向分布直方图;
具体的,将当前图像帧K中所有测试图像块的运动向量按其方向分配到8个方向区间中,即[0,π/4),[π/4,π/2),[π/2,3π/4),[3π/4,π),[π,5π/4),[5π/4,3π/2),[3π/2,7π/4),[7π/4,2π)八个方向区间,参见图4。选择S125中运动向量方向落在最大直方图柱所代表方向区间中的测试图像块作为背景区域B。
S127:计算当前图像帧K与其前序图像帧K-1之间的背景相机运动向量,计算方式如下:
其中NB为背景区域B中的图像块的数量,vt为背景区域图像块t的运动向量。
S13计算任意连续三个图像帧间的相机运动加速度与运动方向变化角度
根据任意三个连续图像帧之间的背景相机运动向量,可计算视频图像中相机运动加速度与运动方向变化角度,计算方法如下:
Figure GDA0002278561090000111
Figure GDA0002278561090000112
其中,Δt为两个连续提取图像帧之间的时间间隔,由于本发明是均匀的提取图像帧(每秒提取5帧图像),因此Δt是一个常数;加速度变化等于两个连续运动向量的差。
通过上述计算,可获得整段视频中任意连续两个图像帧之间的相机运动向量集合
Figure GDA0002278561090000114
及任意连续三个图像帧之间运动向量计算相机运动加速度集合A={a1,2,3,a2,3,4,...,ak-1,k,k+1,...,aM-2,M-1,M,}与运动方向变化角度集合Θ={θ1,2,32,3,4,...,θk-1,k,k+1,...,θM-2,M-1,M,}。
S14根据视频图像中相机运动加速度集合与运动方向变化角度集合,分别计算相机运动加速度集合与运动方向变化角度集合的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征。
根据视频图像中相机运动向量集合
Figure GDA0002278561090000115
加速度集合A与运动方向变化角度集合Θ,分别计算相机运动向量集合
Figure GDA0002278561090000116
加速度集合A和方向变化角度集合Θ的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征。
对于运动向量集合其均值计算如下:
Figure GDA0002278561090000118
对于运动向量集合
Figure GDA0002278561090000119
其t阶中心距计算如下:
Figure GDA0002278561090000121
其中t∈{2,3,4}。
对于加速度集合A与运动方向变化角度集合Θ,也计算上述统计信息,加速度集合A的均值以及方向变化角度集合Θ的均值,计算如下:
Figure GDA0002278561090000122
对于加速度集合A与运动方向变化角度集合Θ,其t阶中心距计算分别如下:
Figure GDA0002278561090000124
Figure GDA0002278561090000125
S15融合相机运动特征统计信息。
将运动向量的上述所有统计特征(即S14中计算得到的运动向量集合
Figure GDA0002278561090000126
的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起,构成了一个8维的运动向量特征描述。将相机运动加速度的上述所有统计特征(即S14中计算得到的相机运动加速度集合的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起,也构成了一个8维的相机运动加速特征描述。将运动方向变化角度的上述所有统计特征(S14中计算得到的运动方向变化角度集合的均值、二阶中心距、三阶中心距和四阶中心距)前后拼接在一起,也构成了一个4维的相机运动方向变化特征描述。
最终,将8维运动向量特征描述、8维相机运动加速度特征描述、4维相机运动方向变化特征描述进行水平拼接,可以获得一个20维的向量用于描述视频片段中的相机运动特征。
S2提取视频结构信息特征。
相较于专业视频,业余视频结构性较差。专业视频中结构或时序性信息较强,如广告或音乐视频中视觉节奏较快,镜头的平均时长较短。广告视频经常还含有较多的渐变镜头。因此视频结构信息能够有效区分业余视频和专业视频。
视频镜头探测是一个已经被研究的非常成熟的技术,本实施例可以采用成熟的镜头探测算法,镜头探测准确度可以达到90%以上。
本实施例采用视频镜头探测算法提取镜头数量Nshot;然后在视频镜头探测的基础上,再提取如下结构信息特征:平均镜头长度
Figure GDA0002278561090000131
突变镜头比率Rcut_shot,及渐变镜头比率Rgrandual_shot
其中,平均镜头长度
Figure GDA0002278561090000132
计算如下:
Figure GDA0002278561090000133
L为视频图像总长度。
突变镜头比率Rcut_shot计算如下:
Figure GDA0002278561090000134
Ncut_shot为突变镜头数量。
渐变镜头比率计算为:
Rgrandual_shot=1-Rcut_shot (16)
将视频图像中提取的上述所有结构信息(即镜头数量Nshot,平均镜头长度
Figure GDA0002278561090000135
突变镜头比率Rcut_shot,及渐变镜头比率Rgrandual_shot)前后拼接在一起,构成了一个4维的视频结构信息特征描述。
S3视频特征融合。
将S1中提出得到的视频图像中的相机运动特征及S2中提取得到的视频结构信息特征进行拼接,获得一个24维的向量用于描述视频特征,该特征将被输入到分类器中用于识别视频制作者身份为专业视频制作人员还是业余视频制作人员。
S4分类器识别视频制作者身份。
本发明中采用支撑向量机(support vector machine,SVM)作为分类器,并采用高斯径向基核函数作为SVM的核函数,分类识别专业视频和业余视频。
支持向量机是由Vapnik领导的AT&T Bell实验室研究小组在1995年提出的一种新的非常有潜力的分类技术,SVM是一种基于统计学习理论的模式识别方法。在解决小样本、非线性及高维模式识别问题中,SVM表现出许多特有的优势,并能够推广应用到分类识别等其他机器学习问题中。经过三十多年的深入研究,支持向量机已经非常成熟。
经实验证明,本发明提供的实施例能够有效区分视频制作者身份为专业视频制作人员还是业余视频制作人员。尤其地,当专业视频为新闻、体育视频、电视广告视频和音乐视频时,而业余视频为互联网用户自制视频时,本发明提供的实施能够准确地区分视频制作者身份为专业视频制作人员还是业余视频制作人员。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于多特征融合的互联网视频作者身份识别方法,其特征在于,包括以下步骤:
S1提取视频图像中的相机运动特征;
S11对输入的视频图像帧进行均匀降采样,整段输入视频经均匀降采样提取得到M帧图像帧;
S12对于S11中提取到的M帧图像帧,提取相邻图像帧间的背景相机运动向量;
S13根据任意三个连续图像帧之间的背景相机运动向量计算视频图像中相机运动加速度集合与运动方向变化角度集合,获得整段视频中任意连续两个图像帧之间的相机运动向量集合
Figure FDA0002278561080000014
及任意连续三个图像帧之间运动向量计算相机运动加速度集合A与运动方向变化角度集合Θ;
S14根据视频中相机运动向量集合
Figure FDA0002278561080000013
加速度集合A与运动方向变化角度集合Θ,分别计算相机运动向量集合
Figure FDA0002278561080000012
加速度集合A和方向变化角度集合Θ的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征;
S15融合相机运动特征统计信息;
将S14中计算得到的运动向量集合
Figure FDA0002278561080000011
的所有相机运动特征前后拼接在一起,构成了一个8维的运动向量特征描述;将S14中计算得到的相机运动加速度集合A的所有相机运动特征前后拼接在一起,也构成了一个8维的相机运动加速特征描述;将S14中计算得到的运动方向变化角度集合Θ的所有相机运动特征前后拼接在一起,也构成了一个4维的相机运动方向变化特征描述;
最终,将8维运动向量特征描述、8维相机运动加速度特征描述、4维相机运动方向变化特征描述进行水平拼接,获得一个20维的向量用于描述视频图像中的相机运动特征;
S2提取视频结构信息特征;
S3视频特征融合;
将S1中提出得到的视频图像中的相机运动特征及S2中提取得到的视频结构信息特征进行拼接,获得一个24维的向量用于描述视频特征,该特征将被输入到分类器中用于识别视频制作者身份为专业视频制作人员还是业余视频制作人员;
S4采用分类器识别视频制作者身份。
2.根据权利要求1所述的基于多特征融合的互联网视频作者身份识别方法,其特征在于,S11中,对输入的视频图像帧进行均匀降采样的实现方式是:每秒钟视频图像中均匀提取5帧图像帧。
3.根据权利要求1所述的基于多特征融合的互联网视频作者身份识别方法,其特征在于,S12中采用块匹配算法计算S11所提取的M帧图像帧中相邻图像帧间的背景相机运动向量。
4.根据权利要求1所述的基于多特征融合的互联网视频作者身份识别方法,其特征在于,S12的实现方法如下:
S121把当前图像帧K及其前序图像帧K-1均匀分割为多个同样大小的图像块;设图像块的尺寸大小为S*S,S=10个像素大小;
S122选取当前图像帧K中的任一图像块作为测试图像块,S*S为测试图像块的尺寸大小,以测试图像块的中心点(xt,yt)为中心在其前序图像帧K-1中选定3S*3S大小的临近搜索区域;
对于当前图像帧K中处于其边缘的测试图像块,在前序图像帧K-1中选择距测试图像块对应位置最近的3S*3S大小的正方形块作为临近搜索区域,可设定水平方向区域选择优先;
S123:在临近搜索区域中,以5个像素为滑动步长,构建S*S大小的滑动图像块,通过计算最大匹配像素数指标,在滑动图像块中搜索与测试图像块相似的图像区域;其中最大匹配像素数指标计算方式如下:
Figure FDA0002278561080000021
其中,(xt,yt)是测试图像块的中心位置,(xp,yp)是滑动图像块的中心位置,Pc是测试图像块中像素点的色彩亮度值,Qc是滑动图像块中像素点的色彩亮度值;(x,y)是测试图像块左下角坐标;测试图像块中心位置与滑动图像块中心位置的偏移为:dx=xp-xt,dy=yp-yt,T为匹配阈值;
S124:对于任一测试图像块,其中心为(xt,yt),及其相似图像块,其中心为(xp,yp);根据测试图像块及其相似图像块位置计算该测试图像块的运动向量v=(vx,vy),计算方式为:
vx=x'p-xt (3)
vy=y'p-yt (4)
其中,vx和vy分别是v运动向量在X和Y方向上的运动分量;
S125:重复步骤S122-S124,直到检测到当前图像帧K中所有测试图像块的运动向量v;
S126:统计当前图像帧K中所有测试图像块运动向量v的方向分布直方图;将当前图像帧K中所有测试图像块的运动向量按其方向分配到8个方向区间中,即[0,π/4),[π/4,π/2),[π/2,3π/4),[3π/4,π),[π,5π/4),[5π/4,3π/2),[3π/2,7π/4),[7π/4,2π)八个方向区间;选择S125中运动向量方向落在最大直方图柱所代表方向区间中的测试图像块作为背景区域B;
S127:计算当前图像帧K与其前序图像帧K-1之间的背景相机运动向量,计算方式如下:
Figure FDA0002278561080000031
其中NB为背景区域B中的图像块的数量,vt为背景区域图像块t的运动向量。
5.根据权利要求4所述的基于多特征融合的互联网视频作者身份识别方法,其特征在于,S124中还包括检查在该临近搜索区域中检测到的相似图像块的数量,如果在临近搜索区域中检测到相似图像块的数量超过D块,D=4,则意味着该临近搜索区域是一个一致纹理区域,检测到的运动向量v可信度较低,则设置该测试图像块的运动向量为v=0。
6.根据权利要求4或5所述的基于多特征融合的互联网视频作者身份识别方法,其特征在于,S13中根据三个连续图像帧之间的背景相机运动向量计算相机运动加速度与运动方向变化角度,计算方法如下:
Figure FDA0002278561080000032
Figure FDA0002278561080000033
其中,Δt为两个连续提取图像帧之间的时间间隔,Δt是一个常数;加速度变化
Figure FDA0002278561080000034
等于两个连续图像帧之间的背景相机运动向量的差的大小;
通过上述计算,可获得整段视频中任意连续两个图像帧之间的相机运动向量集合
Figure FDA0002278561080000035
及任意连续三个图像帧之间运动向量计算相机运动加速度集合A={a1,2,3,a2,3,4,...,ak-1,k,k+1,...,aM-2,M-1,M,}与运动方向变化角度集合Θ={θ1,2,32,3,4,...,θk-1,k,k+1,...,θM-2,M-1,M,}。
7.根据权利要求6所述的基于多特征融合的互联网视频作者身份识别方法,其特征在于,S14中,计算相机运动向量集合
Figure FDA0002278561080000041
加速度集合A和方向变化角度集合Θ的均值、二阶中心距、三阶中心距和四阶中心距并将其作为相机运动特征,方法如下:
对于运动向量集合
Figure FDA0002278561080000042
其均值计算如下:
Figure FDA0002278561080000043
对于运动向量集合其t阶中心距计算如下:
Figure FDA0002278561080000045
其中t∈{2,3,4};
对于加速度集合A与运动方向变化角度集合Θ,加速度集合A的均值以及方向变化角度集合Θ的均值,计算如下:
Figure FDA0002278561080000046
Figure FDA0002278561080000047
对于加速度集合A与运动方向变化角度集合Θ,其t阶中心距计算分别如下:
Figure FDA0002278561080000048
Figure FDA0002278561080000049
8.根据权利要求1所述的基于多特征融合的互联网视频作者身份识别方法,其特征在于,S2提取视频结构信息特征,其实现方法如下:
首先采用视频镜头探测算法提取镜头数量Nshot;然后再提取如下结构信息特征:平均镜头长度
Figure FDA0002278561080000051
突变镜头比率Rcut_shot,及渐变镜头比率Rgrandual_shot
其中,平均镜头长度
Figure FDA0002278561080000052
计算如下:
Figure FDA0002278561080000053
L为视频图像总长度;
突变镜头比率Rcut_shot计算如下:
Figure FDA0002278561080000054
Ncut_shot为突变镜头数量;
渐变镜头比率计算为:
Rgrandual_shot=1-Rcut_shot (16)
将视频图像中提取的镜头数量Nshot、平均镜头长度
Figure FDA0002278561080000055
突变镜头比率Rcut_shot和渐变镜头比率Rgrandual_shot前后拼接在一起,构成了一个4维的视频结构信息特征描述。
CN201710762954.XA 2017-08-30 2017-08-30 一种基于多特征融合的互联网视频作者身份识别方法 Active CN107516084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710762954.XA CN107516084B (zh) 2017-08-30 2017-08-30 一种基于多特征融合的互联网视频作者身份识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710762954.XA CN107516084B (zh) 2017-08-30 2017-08-30 一种基于多特征融合的互联网视频作者身份识别方法

Publications (2)

Publication Number Publication Date
CN107516084A CN107516084A (zh) 2017-12-26
CN107516084B true CN107516084B (zh) 2020-01-17

Family

ID=60723582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710762954.XA Active CN107516084B (zh) 2017-08-30 2017-08-30 一种基于多特征融合的互联网视频作者身份识别方法

Country Status (1)

Country Link
CN (1) CN107516084B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657100B (zh) * 2019-01-25 2021-10-29 深圳市商汤科技有限公司 视频集锦生成方法及装置、电子设备及存储介质
CN110717470B (zh) * 2019-10-16 2023-09-26 山东瑞瀚网络科技有限公司 一种场景识别方法、装置、计算机设备和存储介质
WO2022081127A1 (en) * 2020-10-12 2022-04-21 Hewlett-Packard Development Company, L.P. Document language prediction

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
CN106779073A (zh) * 2016-12-27 2017-05-31 西安石油大学 基于深度神经网络的媒体信息分类方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229324B2 (en) * 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469314A (zh) * 2016-08-31 2017-03-01 深圳市唯特视科技有限公司 一种基于时空共生双流网络的视频图像分类方法
CN106779073A (zh) * 2016-12-27 2017-05-31 西安石油大学 基于深度神经网络的媒体信息分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A New Method for Camera Motion Estimation in Video";Lin Liu;《The 9th International Conference for Young Computer Scientists》;20081231;全文 *
"Detecting Complex Events in User-Generated Video Using Concept Classifiers";Jinlin Guo 等;《2012 10th International Workshop on Content-Based Multimedia Indexing(CBMI)》;20121231;全文 *
"基于运动矢量的摄像机运动定性分类方法";朱兴全 等;《计算机研究与发展》;20010430;第38卷(第4期);全文 *

Also Published As

Publication number Publication date
CN107516084A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
Choi et al. Unsupervised and semi-supervised domain adaptation for action recognition from drones
Guan et al. Keypoint-based keyframe selection
CN105100894B (zh) 面部自动标注方法及系统
CN108537134B (zh) 一种视频语义场景分割及标注方法
CN104994426B (zh) 节目视频识别方法及系统
US20050228849A1 (en) Intelligent key-frame extraction from a video
Karpenko et al. Tiny videos: a large data set for nonparametric video retrieval and frame classification
WO2010000163A1 (zh) 提取视频摘要的方法、系统及设备
CN101137986A (zh) 音频和/或视频数据的概括
CN107516084B (zh) 一种基于多特征融合的互联网视频作者身份识别方法
WO2013056311A1 (en) Keypoint based keyframe selection
Mademlis et al. Multimodal stereoscopic movie summarization conforming to narrative characteristics
JP5116017B2 (ja) 動画検索方法およびシステム
Damnjanovic et al. Event detection and clustering for surveillance video summarization
Jin et al. Network video summarization based on key frame extraction via superpixel segmentation
Sano et al. Degree of loop assessment in microvideo
Zhu et al. Video scene segmentation and semantic representation using a novel scheme
Haroon et al. Video scene detection using compact bag of visual word models
Tsao et al. Thumbnail image selection for VOD services
Widiarto et al. Video summarization using a key frame selection based on shot segmentation
Ramya et al. Visual saliency based video summarization: A case study for preview video generation
CN107748761B (zh) 一种视频摘要的关键帧提取方法
Khan et al. RICAPS: residual inception and cascaded capsule network for broadcast sports video classification
Cricri et al. Multimodal Semantics Extraction from User‐Generated Videos
Dong et al. Automatic and fast temporal segmentation for personalized news consuming

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant