CN103578094B - 镜头分割方法 - Google Patents

镜头分割方法 Download PDF

Info

Publication number
CN103578094B
CN103578094B CN201210254690.4A CN201210254690A CN103578094B CN 103578094 B CN103578094 B CN 103578094B CN 201210254690 A CN201210254690 A CN 201210254690A CN 103578094 B CN103578094 B CN 103578094B
Authority
CN
China
Prior art keywords
feature
feature words
distance
frame
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210254690.4A
Other languages
English (en)
Other versions
CN103578094A (zh
Inventor
刘永进
郭文静
罗曦
张金凯
苏舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210254690.4A priority Critical patent/CN103578094B/zh
Publication of CN103578094A publication Critical patent/CN103578094A/zh
Application granted granted Critical
Publication of CN103578094B publication Critical patent/CN103578094B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种镜头分割方法,包括步骤:A、提取视频中每一帧的尺度不变特征转换SIFT特征作为当前帧的特征,将所有特征聚类得到包含第一预设数量特征词的特征词典;B、计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界。应用本发明所述的镜头分割方法,有效地实现了对一段视频的镜头分割,较好的提取了视频数据中的镜头边界。

Description

镜头分割方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种镜头分割方法。
背景技术
随着信息传播工具的迅速发展,视频己经渐渐取代文本、图像成为人们日常生活中获取信息的一个主要途径,如何对这些视频进行有效的检索和识别已经成为互联网应用的一个重要问题。由于视频信息数据量大、分辨率统一、编码多种多样等特点,制约着基于视频内容检索的发展。因此,如何提高视频内容检测的准确度与效率,成为视频内容检索关注的问题。
为了对视频内容进行有效的组织,需要将视频分解为一个个基本单元,而一般认为视频的基本物理单元是镜头,一个镜头由一组摄像机连续拍摄得到的时间上连续的若干帧图像组成。镜头的自动分割是视频结构化的基础,也是视频分析和视频检索过程中的首要任务,镜头分割在基于内容的视频分析与检索的研究中具有重要地位,镜头分割的好坏将直接影响到更高一级的视频结构化以及后续视频检索的效果。
为了实现镜头分割,需要找出每个镜头边界,但是镜头边界之间存在突变型和连续渐变的情况,尤其对于连续渐变的情况难于处理。
因此亟需一种能够准确分割镜头的方法。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是,针对上述缺陷,如何提供一种镜头分割方法,其能够准确的分割视频片段中的镜头。
(二)技术方案
为解决上述技术问题,本发明提供了一种镜头分割方法,包括步骤:
A、提取视频中每一帧的尺度不变特征转换SIFT特征作为当前帧的特征,将所有特征聚类得到包含第一预设数量特征词的特征词典;
B、计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界。
其中,所述将所有特征聚类包括:
采用近邻传播算法将所有特征聚类。
其中,所述尺度不变特征转换SIFT特征为128维的向量。
其中,所述相邻两帧之间的距离由当前每个帧中的特征词与相邻帧特征词的距离最小值之和的平均值来计算;所述相邻两个特征词的距离由静态距离和动态距离构成,
所述相邻两个特征词的静态距离sim(w1,w2)的计算公式为sim(w1,w2)=||w1-w2||2,其中w1,w2分别为两个特征词;
所述相邻两个特征词的动态距离md(i,j)的计算公式为其中,是第i个特征词的第r个特征词实例,Ni、Nj分别为第i、j两个特征词的特征词实例的总数,是第j个特征词的第s个特征词实例;
所述相邻两个特征词的距离wd(i,j)的计算公式为wd(i,j)=λsim(w1,w2)+(1-λ)md(i,j),其中0≤λ≤1为权重值;
所述相邻两帧之间的距离D(i,j)的计算公式为
D ( i , j ) = 1 n ( i ) Σ r = 1 n ( i ) min { w d ( w r i , w s j ) : 1 ≤ s ≤ n ( j ) } + 1 n ( j ) Σ s = 1 n ( j ) min { w d ( w s j , w r i ) : 1 ≤ r ≤ n ( i ) }
其中n(i)为第i帧特征词总数,n(j)为第j帧特征词总数,为第i帧中第r个特征词,为第j帧中第s个特征词。
其中,所述计算相邻两帧之间的距离最大值具体包括:
将视频中连续的第二预设数量的帧组成滑动窗口,计算滑动窗口中相邻两帧之间的距离最大值。
其中,所述的镜头分割方法还包括步骤:
C、移动滑动窗口,返回步骤B。
(三)有益效果
本发明提出了一种镜头分割方法,提取视频中每一帧的SIFT特征作为当前帧的特征,采用例如近邻传播算法将所有特征聚类得到包含第一预设数量特征词的特征词典,计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界,从而有效地实现了对一段视频的镜头分割,较好的提取了视频数据中的镜头边界。
附图说明
图1是本发明实施例的镜头分割方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明所述的镜头分割方法包括步骤:
A、提取视频中每一帧的SIFT(Scale-invariantfeaturetransform,尺度不变特征转换)特征作为当前帧的特征,采用例如近邻传播算法将所有特征聚类得到包含第一预设数量特征词的特征词典;
采用近邻传播的方法,将所有特征自动聚类为m个类,m为近邻传播方法根据输入特征自动确定的最优类别数,每个类中心定义为一个特征词ω,所有类中心组成一段视频的特征词典,表示为V=(ω1,ω2,…,ωm),类中的所有特征就是该特征词的实例;
每一帧由特征词典中的特征词表示,每个特征词在帧上有相应的特征词实例。
SIFT特征为128维的向量;
B、将视频中连续的第二预设数量的帧组成滑动窗口,计算滑动窗口中相邻两帧之间的距离最大值,所述相邻两帧之间的距离由当前每个帧中的特征词与相邻帧特征词的距离最小值之和的平均值来计算;所述相邻两个特征词的距离由静态距离和动态距离构成,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界;
把视频分成滑动窗口处理可以降低处理器和存储器的要求,适合小型或移动办公设备应用。
相邻两个特征词的静态距离sim(w1,w2)采用所述特征向量2-范数计算,sim(w1,w2)=||w1-w2||2,其中w1,w2分别为两个特征词;
特征词wi的特征词实例在帧中具有位置信息,表示为坐标(x,y)。根据位置信息,采用光流算法计算连续两个帧中特征词实例的移动向量,其向量表示为
相邻两个特征词的动态距离md(i,j)为特征词实例的移动向量距离总和的平均值,即,其中,是第i个特征词的第r个特征词实例,Ni、Nj是特征词实例的总数,是第j个特征词的第s个特征词实例;
特征词典中相邻两个特征词的距离wd(i,j)为静态距离和动态距离的加权平均值,即,wd(i,j)=λsim(w1,w2)+(1-λ)md(i,j),其中0≤λ≤1为权重值;
所述相邻两帧之间的距离D(i,j)为当前每个帧中的特征词与相邻帧特征词的距离最小值之和的平均值,即
D ( i , j ) = 1 n ( i ) Σ r = 1 n ( i ) min { w d ( w r i , w s j ) : 1 ≤ s ≤ n ( j ) } + 1 n ( j ) Σ s = 1 n ( j ) min { w d ( w s j , w r i ) : 1 ≤ r ≤ n ( i ) } ,
其中n(i)为第i帧特征词总数,n(j)为第j帧特征词总数,为第i帧中第r个特征词,为第j帧中第s个特征词。
优选地,所述将视频中连续的第二预设数量的帧组成滑动窗口包括:
假设当前连续镜头的边界为第k帧,滑动窗口大小为2T,从k′=k+T帧开始移动滑动窗口,当前窗口包含k′-T到k′+T之间的帧;
计算当前滑动窗口内每两个帧之间的距离,取这些距离中最大的作为当前窗口中帧变化的显著值,阈值为τ,如果大于阈值,则当前的位置为镜头的边界,其中T和τ为设定常量,k初始为0。如当前已经检测h个连续镜头,边界为第k帧,则检测下一边界k′≥k+T,计算当前滑动窗口变化值,SC(k′)=max{D(i,j):i≠j,i,j∈[k′-T,k′+T]},其中D(i,j)为帧i,j之间的距离,τ=SCtotaA/10,如果SC(k′)≥τ,则取当前边界为k′,h初始为0。
C、移动滑动窗口,返回步骤B。
本发明提出了一种镜头分割方法,提取视频中每一帧的SIFT特征作为当前帧的特征,采用例如近邻传播算法将所有特征聚类得到包含第一预设数量特征词的特征词典,计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界,从而有效地实现了对一段视频的镜头分割,较好的提取了视频数据中的镜头边界。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (5)

1.一种镜头分割方法,其特征在于,包括步骤:
A、提取视频中每一帧的尺度不变特征转换SIFT特征作为当前帧的特征,将所有特征聚类得到包含第一预设数量特征词的特征词典;
B、计算相邻两帧之间的距离最大值,所述两帧之间的距离最大值大于预设阈值的位置为视频镜头分割的边界;
其中,所述相邻两帧之间的距离由当前每个帧中的特征词与相邻帧特征词的距离最小值之和的平均值来计算;所述相邻两个特征词的距离由静态距离和动态距离构成,
所述相邻两个特征词的静态距离sim(w1,w2)的计算公式为sim(w1,w2)=||w1-w2||2,其中w1,w2分别为两个特征词;
所述相邻两个特征词的动态距离md(i,j)的计算公式为其中,是第i个特征词的第r个特征词实例,Ni、Nj分别为第i、j两个特征词的特征词实例的总数,是第j个特征词的第s个特征词实例;
所述相邻两个特征词的距离wd(i,j)的计算公式为wd(i,j)=λsim(w1,w2)+(1-λ)md(i,j),其中0≤λ≤1为权重值;
所述相邻两帧之间的距离D(i,j)的计算公式为
其中n(i)为第i帧特征词总数,n(j)为第j帧特征词总数,为第i帧中第r个特征词,为第j帧中第s个特征词。
2.根据权利要求1所述的镜头分割方法,其特征在于,所述将所有特征聚类包括:
采用近邻传播算法将所有特征聚类。
3.根据权利要求1所述的镜头分割方法,其特征在于,所述尺度不变特征转换SIFT特征为128维的向量。
4.根据权利要求1-3中任一项所述的镜头分割方法,其特征在于,所述计算相邻两帧之间的距离最大值具体包括:
将视频中连续的第二预设数量的帧组成滑动窗口,计算滑动窗口中相邻两帧之间的距离最大值。
5.根据权利要求4所述的镜头分割方法,其特征在于,还包括步骤:
C、移动滑动窗口,返回步骤B。
CN201210254690.4A 2012-07-20 2012-07-20 镜头分割方法 Expired - Fee Related CN103578094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210254690.4A CN103578094B (zh) 2012-07-20 2012-07-20 镜头分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210254690.4A CN103578094B (zh) 2012-07-20 2012-07-20 镜头分割方法

Publications (2)

Publication Number Publication Date
CN103578094A CN103578094A (zh) 2014-02-12
CN103578094B true CN103578094B (zh) 2016-07-13

Family

ID=50049820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210254690.4A Expired - Fee Related CN103578094B (zh) 2012-07-20 2012-07-20 镜头分割方法

Country Status (1)

Country Link
CN (1) CN103578094B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202130A (zh) * 2015-05-08 2016-12-07 无锡天脉聚源传媒科技有限公司 一种镜头分割的方法及装置
CN107749075B (zh) * 2017-10-26 2021-02-12 太平洋未来科技(深圳)有限公司 视频中虚拟对象光影效果的生成方法和装置
CN110121107A (zh) * 2018-02-06 2019-08-13 上海全土豆文化传播有限公司 视频素材收集方法及装置
CN111641869B (zh) * 2020-06-04 2022-01-04 虎博网络技术(上海)有限公司 视频分镜方法、装置、电子设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676953A (zh) * 2008-08-22 2010-03-24 奥多比公司 自动视频图像分割
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7296231B2 (en) * 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676953A (zh) * 2008-08-22 2010-03-24 奥多比公司 自动视频图像分割
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于"bag of words"的视频匹配方法;李远宁,刘汀,蒋树强,黄庆明;《通信学报》;20071231;第28卷(第12期);第147-151页 *

Also Published As

Publication number Publication date
CN103578094A (zh) 2014-02-12

Similar Documents

Publication Publication Date Title
US20200005022A1 (en) Method, terminal, and storage medium for tracking facial critical area
US10438050B2 (en) Image analysis device, image analysis system, and image analysis method
US11816149B2 (en) Electronic device and control method thereof
US20170236032A1 (en) Accurate tag relevance prediction for image search
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
US9659235B2 (en) Low-dimensional structure from high-dimensional data
CN103578094B (zh) 镜头分割方法
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
Zhai et al. Group-split attention network for crowd counting
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN112396060A (zh) 基于身份证分割模型的身份证识别方法及其相关设备
Yang et al. Substation meter detection and recognition method based on lightweight deep learning model
CN113139539B (zh) 渐近回归边界的任意形状场景文字检测方法及装置
CN114328884A (zh) 一种图文去重方法及装置
EP3848778B1 (en) Fingertip detection method, fingertip detection means, fingertip detection device, and medium
CN115147434A (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
Peng et al. Instance-based dynamic label assignment for object detection
Fu et al. A novel shot boundary detection technique for illumination and motion effects
Jin et al. A vehicle detection algorithm in complex traffic scenes
Kim et al. Weighing classes and streams: toward better methods for two-stream convolutional networks
Ma et al. A Lightweight Neural Learning Algorithm for Real-Time Facial Feature Tracking System via Split-Attention and Heterogeneous Convolution
Shen et al. Vehicle detection method based on adaptive multi-scale feature fusion network
Ye et al. Multi-scale small object detection based on improved Faster R-CNN
Wu et al. Boundary-enhanced attention-aware network for detecting salient objects in RGB-depth images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160713