CN103578094A - 镜头分割方法 - Google Patents

镜头分割方法 Download PDF

Info

Publication number
CN103578094A
CN103578094A CN201210254690.4A CN201210254690A CN103578094A CN 103578094 A CN103578094 A CN 103578094A CN 201210254690 A CN201210254690 A CN 201210254690A CN 103578094 A CN103578094 A CN 103578094A
Authority
CN
China
Prior art keywords
feature words
distance
feature
frame
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210254690.4A
Other languages
English (en)
Other versions
CN103578094B (zh
Inventor
刘永进
郭文静
罗曦
张金凯
苏舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210254690.4A priority Critical patent/CN103578094B/zh
Publication of CN103578094A publication Critical patent/CN103578094A/zh
Application granted granted Critical
Publication of CN103578094B publication Critical patent/CN103578094B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种镜头分割方法,包括步骤:A、提取视频中每一帧的尺度不变特征转换SIFT特征作为当前帧的特征,将所有特征聚类得到包含第一预设数量特征词的特征词典;B、计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界。应用本发明所述的镜头分割方法,有效地实现了对一段视频的镜头分割,较好的提取了视频数据中的镜头边界。

Description

镜头分割方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种镜头分割方法。
背景技术
随着信息传播工具的迅速发展,视频己经渐渐取代文本、图像成为人们日常生活中获取信息的一个主要途径,如何对这些视频进行有效的检索和识别已经成为互联网应用的一个重要问题。由于视频信息数据量大、分辨率统一、编码多种多样等特点,制约着基于视频内容检索的发展。因此,如何提高视频内容检测的准确度与效率,成为视频内容检索关注的问题。
为了对视频内容进行有效的组织,需要将视频分解为一个个基本单元,而一般认为视频的基本物理单元是镜头,一个镜头由一组摄像机连续拍摄得到的时间上连续的若干帧图像组成。镜头的自动分割是视频结构化的基础,也是视频分析和视频检索过程中的首要任务,镜头分割在基于内容的视频分析与检索的研究中具有重要地位,镜头分割的好坏将直接影响到更高一级的视频结构化以及后续视频检索的效果。
为了实现镜头分割,需要找出每个镜头边界,但是镜头边界之间存在突变型和连续渐变的情况,尤其对于连续渐变的情况难于处理。
因此亟需一种能够准确分割镜头的方法。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是,针对上述缺陷,如何提供一种镜头分割方法,其能够准确的分割视频片段中的镜头。
(二)技术方案
为解决上述技术问题,本发明提供了一种镜头分割方法,包括步骤:
A、提取视频中每一帧的尺度不变特征转换SIFT特征作为当前帧的特征,将所有特征聚类得到包含第一预设数量特征词的特征词典;
B、计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界。
其中,所述将所有特征聚类包括:
采用近邻传播算法将所有特征聚类。
其中,所述尺度不变特征转换SIFT特征为128维的向量。
其中,所述相邻两帧之间的距离由当前每个帧中的特征词与相邻帧特征词的距离最小值之和的平均值来计算;所述相邻两个特征词的距离由静态距离和动态距离构成,
所述相邻两个特征词的静态距离sim(w1,w2)的计算公式为sim(w1,w2)=||w1-w2||2,其中w1,w2分别为两个特征词;
所述相邻两个特征词的动态距离md(i,j)的计算公式为 md ( i , j ) = 1 N i 1 N j Σ r = 1 N i Σ s = 1 N j | | m i r - m j s | | , 其中,
Figure BDA00001914947900022
是第i个特征词的第r个特征词实例,Ni、Nj分别为第i、j两个特征词的特征词实例的总数,
Figure BDA00001914947900023
是第j个特征词的第s个特征词实例;
所述相邻两个特征词的距离wd(i,j)的计算公式为wd(i,j)=λsim(w1,w2)+(1-λ)md(i,j),其中0≤λ≤1为权重值;
所述相邻两帧之间的距离D(i,j)的计算公式为 D ( i , j ) = 1 n ( i ) Σ r = 1 n ( i ) min { wd ( w r i , w s j ) : 1 ≤ s ≤ n ( j ) } + 1 n ( j ) Σ s = 1 n ( j ) min { wd
( w s j , w r i ) : 1 ≤ r ≤ n ( i ) } , 其中n(i)为第i帧特征词总数,n(j)为第j帧特征词总数,
Figure BDA00001914947900026
为第i帧中第r个特征词,为第j帧中第s个特征词。
其中,所述计算相邻两帧之间的距离最大值具体包括:
将视频中连续的第二预设数量的帧组成滑动窗口,计算滑动窗口中相邻两帧之间的距离最大值。
其中,所述的镜头分割方法还包括步骤:
C、移动滑动窗口,返回步骤B。
(三)有益效果
本发明提出了一种镜头分割方法,提取视频中每一帧的SIFT特征作为当前帧的特征,采用例如近邻传播算法将所有特征聚类得到包含第一预设数量特征词的特征词典,计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界,从而有效地实现了对一段视频的镜头分割,较好的提取了视频数据中的镜头边界。
附图说明
图1是本发明实施例的镜头分割方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明所述的镜头分割方法包括步骤:
A、提取视频中每一帧的SIFT(Scale-invariant feature transform,尺度不变特征转换)特征作为当前帧的特征,采用例如近邻传播算法将所有特征聚类得到包含第一预设数量特征词的特征词典;
采用近邻传播的方法,将所有特征自动聚类为m个类,m为近邻传播方法根据输入特征自动确定的最优类别数,每个类中心定义为一个特征词ω,所有类中心组成一段视频的特征词典,表示为V=(ω1,ω2,…,ωm),类中的所有特征就是该特征词的实例;
每一帧由特征词典中的特征词表示,每个特征词在帧上有相应的特征词实例。
SIFT特征为128维的向量;
B、将视频中连续的第二预设数量的帧组成滑动窗口,计算滑动窗口中相邻两帧之间的距离最大值,所述相邻两帧之间的距离由当前每个帧中的特征词与相邻帧特征词的距离最小值之和的平均值来计算;所述相邻两个特征词的距离由静态距离和动态距离构成,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界;
把视频分成滑动窗口处理可以降低处理器和存储器的要求,适合小型或移动办公设备应用。
相邻两个特征词的静态距离sim(w1,w2)采用所述特征向量2-范数计算,sim(w1,w2)=||w1-w2||2,其中w1,w2分别为两个特征词;
特征词wi的特征词实例在帧中具有位置信息,表示为坐标(x,y)。根据位置信息,采用光流算法计算连续两个帧中特征词实例的移动向量,其向量表示为
Figure BDA00001914947900041
相邻两个特征词的动态距离md(i,j)为特征词实例的移动向量距离总和的平均值,即, md ( i , j ) = 1 N i 1 N j Σ r = 1 N i Σ s = 1 N j | | m i r - m j s | | , 其中,
Figure BDA00001914947900043
是第i个特征词的第r个特征词实例,Ni、Nj是特征词实例的总数,是第j个特征词的第s个特征词实例;
特征词典中相邻两个特征词的距离wd(i,j)为静态距离和动态距离的加权平均值,即,wd(i,j)=λsim(w1,w2)+(1-λ)md(i,j),其中0≤λ≤1为权重值;
所述相邻两帧之间的距离D(i,j)为当前每个帧中的特征词与相邻帧特征词的距离最小值之和的平均值,即
D ( i , j ) = 1 n ( i ) Σ r = 1 n ( i ) min { wd ( w r i , w s j ) : 1 ≤ s ≤ n ( j ) } + 1 n ( j ) Σ s = 1 n ( j ) min { wd
( w s j , w r i ) : 1 ≤ r ≤ n ( i ) } , 其中n(i)为第i帧特征词总数,n(j)为第j帧特征词总数,
Figure BDA00001914947900052
为第i帧中第r个特征词,
Figure BDA00001914947900053
为第j帧中第s个特征词。
优选地,所述将视频中连续的第二预设数量的帧组成滑动窗口包括:
假设当前连续镜头的边界为第k帧,滑动窗口大小为2T,从k′=k+T帧开始移动滑动窗口,当前窗口包含k′-T到k′+T之间的帧;
计算当前滑动窗口内每两个帧之间的距离,取这些距离中最大的作为当前窗口中帧变化的显著值,阈值为τ,如果大于阈值,则当前的位置为镜头的边界,其中T和τ为设定常量,k初始为0。如当前已经检测h个连续镜头,边界为第k帧,则检测下一边界k′≥k+T,计算当前滑动窗口变化值,SC(k′)=max{D(i,j)∶i≠j,i,j∈[k′-T,k′+T]},其中D(i,j)为帧i,j之间的距离,τ=SCtotal/10,如果SC(k′)≥τ,则取当前边界为k′,h初始为0。
C、移动滑动窗口,返回步骤B。
本发明提出了一种镜头分割方法,提取视频中每一帧的SIFT特征作为当前帧的特征,采用例如近邻传播算法将所有特征聚类得到包含第一预设数量特征词的特征词典,计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界,从而有效地实现了对一段视频的镜头分割,较好的提取了视频数据中的镜头边界。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (6)

1.一种镜头分割方法,其特征在于,包括步骤:
A、提取视频中每一帧的尺度不变特征转换SIFT特征作为当前帧的特征,将所有特征聚类得到包含第一预设数量特征词的特征词典;
B、计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界。
2.根据权利要求1所述的镜头分割方法,其特征在于,所述将所有特征聚类包括:
采用近邻传播算法将所有特征聚类。
3.根据权利要求1所述的镜头分割方法,其特征在于,所述尺度不变特征转换SIFT特征为128维的向量。
4.根据权利要求1所述的镜头分割方法,其特征在于,所述相邻两帧之间的距离由当前每个帧中的特征词与相邻帧特征词的距离最小值之和的平均值来计算;所述相邻两个特征词的距离由静态距离和动态距离构成,
所述相邻两个特征词的静态距离sim(w1,w2)的计算公式为sim(w1,w2)=||w1-w2||2,其中w1,w2分别为两个特征词;
所述相邻两个特征词的动态距离md(i,j)的计算公式为 md ( i , j ) = 1 N i 1 N j Σ r = 1 N i Σ s = 1 N j | | m i r - m j s | | , 其中,
Figure FDA00001914947800012
是第i个特征词的第r个特征词实例,Ni、Nj分别为第i、j两个特征词的特征词实例的总数,
Figure FDA00001914947800013
是第j个特征词的第s个特征词实例;
所述相邻两个特征词的距离wd(i,j)的计算公式为wd(i,j)=λsim(w1,w2)+(1-λ)md(i,j),其中0≤λ≤1为权重值;
所述相邻两帧之间的距离D(i,j)的计算公式为 D ( i , j ) = 1 n ( i ) Σ r = 1 n ( i ) min { wd ( w r i , w s j ) : 1 ≤ s ≤ n ( j ) } + 1 n ( j ) Σ s = 1 n ( j ) min { wd
( w s j , w r i ) : 1 ≤ r ≤ n ( i ) } , 其中n(i)为第i帧特征词总数,n(j)为第j帧特征词总数,
Figure FDA00001914947800022
为第i帧中第r个特征词,
Figure FDA00001914947800023
为第j帧中第s个特征词。
5.根据权利要求1-4中任一项所述的镜头分割方法,其特征在于,所述计算相邻两帧之间的距离最大值具体包括:
将视频中连续的第二预设数量的帧组成滑动窗口,计算滑动窗口中相邻两帧之间的距离最大值。
6.根据权利要求5所述的镜头分割方法,其特征在于,还包括步骤:
C、移动滑动窗口,返回步骤B。
CN201210254690.4A 2012-07-20 2012-07-20 镜头分割方法 Expired - Fee Related CN103578094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210254690.4A CN103578094B (zh) 2012-07-20 2012-07-20 镜头分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210254690.4A CN103578094B (zh) 2012-07-20 2012-07-20 镜头分割方法

Publications (2)

Publication Number Publication Date
CN103578094A true CN103578094A (zh) 2014-02-12
CN103578094B CN103578094B (zh) 2016-07-13

Family

ID=50049820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210254690.4A Expired - Fee Related CN103578094B (zh) 2012-07-20 2012-07-20 镜头分割方法

Country Status (1)

Country Link
CN (1) CN103578094B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202130A (zh) * 2015-05-08 2016-12-07 无锡天脉聚源传媒科技有限公司 一种镜头分割的方法及装置
CN107749075A (zh) * 2017-10-26 2018-03-02 太平洋未来科技(深圳)有限公司 视频中虚拟对象光影效果的生成方法和装置
CN110121107A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频素材收集方法及装置
CN111641869A (zh) * 2020-06-04 2020-09-08 虎博网络技术(上海)有限公司 视频分镜方法、装置、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030058268A1 (en) * 2001-08-09 2003-03-27 Eastman Kodak Company Video structuring by probabilistic merging of video segments
CN101676953A (zh) * 2008-08-22 2010-03-24 奥多比公司 自动视频图像分割
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030058268A1 (en) * 2001-08-09 2003-03-27 Eastman Kodak Company Video structuring by probabilistic merging of video segments
CN101676953A (zh) * 2008-08-22 2010-03-24 奥多比公司 自动视频图像分割
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李远宁,刘汀,蒋树强,黄庆明: "基于"bag of words"的视频匹配方法", 《通信学报》 *
郭小川: "基于内容的视频场景分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202130A (zh) * 2015-05-08 2016-12-07 无锡天脉聚源传媒科技有限公司 一种镜头分割的方法及装置
CN107749075A (zh) * 2017-10-26 2018-03-02 太平洋未来科技(深圳)有限公司 视频中虚拟对象光影效果的生成方法和装置
CN107749075B (zh) * 2017-10-26 2021-02-12 太平洋未来科技(深圳)有限公司 视频中虚拟对象光影效果的生成方法和装置
CN110121107A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频素材收集方法及装置
CN111641869A (zh) * 2020-06-04 2020-09-08 虎博网络技术(上海)有限公司 视频分镜方法、装置、电子设备和计算机可读存储介质
CN111641869B (zh) * 2020-06-04 2022-01-04 虎博网络技术(上海)有限公司 视频分镜方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN103578094B (zh) 2016-07-13

Similar Documents

Publication Publication Date Title
CN105320957B (zh) 分类器训练方法和装置
US10452893B2 (en) Method, terminal, and storage medium for tracking facial critical area
CN106557778B (zh) 通用物体检测方法和装置、数据处理装置和终端设备
US10438050B2 (en) Image analysis device, image analysis system, and image analysis method
CN108960080B (zh) 基于主动防御图像对抗攻击的人脸识别方法
CN113379718B (zh) 一种目标检测方法、装置、电子设备以及可读存储介质
KR101912748B1 (ko) 확장성을 고려한 특징 기술자 생성 및 특징 기술자를 이용한 정합 장치 및 방법
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN111950723A (zh) 神经网络模型训练方法、图像处理方法、装置及终端设备
CN113742483A (zh) 文档分类的方法、装置、电子设备和存储介质
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110598622B (zh) 视频字幕定位方法、电子设备以及计算机存储介质
CN105550641B (zh) 基于多尺度线性差分纹理特征的年龄估计方法和系统
WO2021196896A1 (zh) 目标检测方法、装置、电子设备和可读存储介质
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
US9659235B2 (en) Low-dimensional structure from high-dimensional data
CN103578094A (zh) 镜头分割方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN112560856A (zh) 车牌检测识别方法、装置、设备及存储介质
CN110555406A (zh) 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法
CN115169489A (zh) 数据检索方法、装置、设备以及存储介质
CN108475339B (zh) 用于对图像中的对象分类的方法和系统
CN111553364B (zh) 图片处理方法及装置
CN112036501A (zh) 基于卷积神经网络的图片的相似度检测方法及其相关设备
CN114328884B (zh) 一种图文去重方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160713