CN108182421A - 视频分割方法和装置 - Google Patents
视频分割方法和装置 Download PDFInfo
- Publication number
- CN108182421A CN108182421A CN201810068616.0A CN201810068616A CN108182421A CN 108182421 A CN108182421 A CN 108182421A CN 201810068616 A CN201810068616 A CN 201810068616A CN 108182421 A CN108182421 A CN 108182421A
- Authority
- CN
- China
- Prior art keywords
- frame
- visual word
- description
- similarity
- key point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种视频分割方法和装置,该方法包括:全局特征分析步骤、局部特征分析步骤和镜头分割步骤,其中,全局特征分析步骤基于颜色空间计算视频的每一帧与该帧的前一帧之间的第一相似度,根据第一相似度确定新镜头的候选起始帧;局部特征分析步骤分别计算所述候选起始帧与其前一帧中关键点的描述子到视觉词的距离值,将描述子与视觉词相对应,分别构建视觉词直方图,计算第二相似度;镜头分割步骤对所述第二相似度进行判断,对候选起始帧进行归并和确认。该方法将全局特征分析和局部特征分析相结合,在使用全局特征衡量镜头变化的同时,进一步参考画面的局部特征,解决了镜头分割不准确的问题。
Description
技术领域
本申请涉及图像处理领域,特别是涉及视频图像自动化处理等领域。
背景技术
镜头是摄像机的一个连续拍摄过程,表示了一个时间或空间上连续的动作。视频由帧画面组成,一组连续的帧可以构成一个镜头,若干连续且相关的镜头构成一个视频场景,而语义相关的一组视频场景即构成基本的叙事情节片段。可见,镜头在这个层次关系中处于非常基础而且重要的位置。随着多媒体、数字电视、网络视频应用的发展,对于视频数据结构化的需求应运而生,而寻求一个有效的算法对视频进行镜头切分,是诸如视频分析与检索等后续处理工作的基本要求。
常见的镜头分割方法一般都是基于颜色空间的变化幅度,例如,考虑相邻两帧每个像素位置的RGB(红绿蓝)颜色或HSV(Hue,Saturation,Value,色调、饱和度、明度)颜色的差异,若其合计超过一个预先设定的阈值,则认为在此处发生了镜头的切换;也有的算法提取视频中每一帧的RGB或HSV颜色直方图,然后通过在窗口函数中计算前半部分和后半部分的概率分布,若两个概率不同则认为此时的窗口中心为镜头边界。但是不管是哪种方法、不管采用RGB颜色空间还是HSV颜色空间,都限于画面的全局特征,不能反映画面的细节特征的异同,在应用中效果不佳。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种视频分割方法,所述方法包括:
全局特征分析步骤:基于颜色空间计算视频的每一帧与该帧的前一帧之间的第一相似度,将所述第一相似度与第一阈值进行比较,若所述第一相似度小于所述第一阈值,则将该帧作为新镜头的候选起始帧;
局部特征分析步骤:分别计算所述候选起始帧与其前一帧中关键点的描述子到每一个视觉词的距离值,将描述子与所述距离值最小的视觉词相对应,基于描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,计算视觉词直方图之间的第二相似度,其中,所述视觉词采用视觉词计算步骤得到:
视觉词计算步骤:提取所述视频的帧的关键点,生成与所述关键点的每一个相对应的描述子,对所述描述子进行聚类,得到若干个视觉词;和
镜头分割步骤:对所述第二相似度进行判断,若所述第二相似度大于或者等于第二阈值,则将所述候选起始帧和其前一帧归并为同一个镜头,若所述第二相似度小于所述第二阈值,则将所述候选起始帧确定为新镜头的起始帧。
该方法将全局特征分析和局部特征分析相结合,在使用全局特征衡量镜头变化的同时,进一步参考画面的局部特征,解决了镜头分割不准确的问题。
可选地,所述视觉词计算步骤包括:
利用Harris(哈里斯)算法提取所述帧的角点作为关键点;
利用SIFT(Scale-invariant feature transform,尺度不变特征转换)算法生成与所述关键点的每一个相对应的描述子;和
利用K-means方法对所述描述子进行聚类,得到若干个簇,对于每个簇,计算所述视觉词。
通过该方法采用视觉词计算步骤能得到稳定的视觉词分类,从而使局部特征分析步骤的结果更加准确。
可选地,所述局部特征分析步骤包括:
利用下式分别计算所述候选起始帧和其前一帧的关键点的描述子到每一个视觉词的距离值ρ:
其中,ρ(D,C)表示关键点的描述子D到视觉词C的距离值,di和ci分别表示关键点D的描述子和视觉词C的描述子的第i个参数,n表示参数的个数;
将所述距离值最小的视觉词与该描述子相对应;
基于该描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,该视觉词直方图的横轴表示视觉词,纵轴表示与视觉词对应的描述子的数量;和
利用下式计算视觉词直方图之间的第二相似度S2:
其中,l表示帧的视觉词直方图的组数;bins2表示组的总数,该总数等于视觉词的总数;和分别表示在所述帧与该帧的前一帧中第l个视觉词对应的描述子的数量。
本方法采用视觉词直方图能够描述帧的局部特征,将相邻帧的视觉词直方图进行相似度比较,能够判断两帧的关联性,进而判断是否属于同一个镜头。
可选地,所述方法还包括:
阈值确定步骤:分别将所述帧与所述第一相似度和所述第二相似度的关系利用图形进行显示,基于所述图形,确定所述第一阈值和/或所述第二阈值。
本方法结合数据可视化手段进行阈值确定,使得使用者能够直观地看出两个相似度与帧的关系,从而判断并设定第一阈值和/或第二阈值。
根据本申请的另一个方面,还提供了一种视频分割装置,包括:
全局特征分析模块,其配置成基于颜色空间计算视频的每一帧与该帧的前一帧之间的第一相似度,若所述第一相似度小于第一阈值,则将该帧作为新镜头的候选起始帧;
局部特征分析模块,其配置成分别计算所述候选起始帧与其前一帧中关键点的描述子到每一个视觉词的距离值,将描述子与所述距离值最小的视觉词相对应,基于描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,计算视觉词直方图之间的第二相似度,其中,所述视觉词采用视觉词计算模块得到;
视觉词计算模块,其配置成提取所述视频的帧的关键点,生成与所述关键点的每一个相对应的描述子,对所述描述子进行聚类,得到若干个视觉词;和
镜头分割模块,其配置成对所述第二相似度进行判断,若所述第二相似度大于或者等于第二阈值,则将所述候选起始帧和其前一帧归并为同一个镜头,若所述第二相似度小于所述第二阈值,则将所述候选起始帧确定为新镜头的起始帧。
该装置将全局特征分析模块和局部特征分析模块相结合,在使用全局特征衡量镜头变化的同时,进一步参考画面的局部特征,解决了镜头分割不准确的问题。
可选地,所述全局特征分析模块包括:
HSV直方图构建模块,其配置成基于HSV颜色空间,对所述帧的HSV数据进行归一化处理,构建归一化后HSV直方图,该直方图的横轴表示归一化的级数,纵轴表示所述级数对应的像素点数量;
第一相似度计算模块,其配置成利用下式计算所述帧与该帧的前一帧之间的第一相似度S1:
其中,l表示归一化的级数,bins1表示归一化的总级数,和分别该帧与该帧的前一帧的第l级对应的像素点数量;和
第一阈值比较模块,其配置成将所述第一相似度与第一阈值进行比较,若所述第一相似度小于所述第一阈值,则将该帧作为新镜头的候选起始帧。
可选地,所述视觉词计算模块包括:
关键点提取模块,其配置成利用Harris算法提取所述帧的角点作为关键点;
描述子生成模块,其配置成利用SIFT算法生成与所述关键点的每一个相对应的描述子;和
视觉词计算模块,其配置成利用K-means方法对所述描述子进行聚类,得到若干个簇,对于每个簇,计算所述视觉词。
可选地,所述局部特征分析模块包括:
距离值计算模块,其配置成利用下式分别计算所述候选起始帧和其前一帧的关键点的描述子到每一个视觉词的距离值ρ:
其中,ρ(D,C)表示关键点的描述子D到视觉词C的距离值,di和ci分别表示关键点D的描述子和视觉词C的描述子的第i个参数,n表示参数的个数;
视觉词分配模块,其配置成将所述距离值最小的视觉词与该描述子相对应;
视觉词直方图构建模块,其配置成基于该描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,该视觉词直方图的横轴表示视觉词,纵轴表示与视觉词对应的描述子的数量;和
第二相似度计算模块,其配置成利用下式计算视觉词直方图之间的第二相似度S2:
其中,l表示帧的视觉词直方图的组数;bins2表示组的总数,该总数等于视觉词的总数;和分别表示在所述帧与该帧的前一帧中第l个视觉词对应的描述子的数量。
可选地,所述装置还包括:
阈值确定模块,其配置成分别将所述帧与所述第一相似度和所述第二相似度的关系利用图形进行显示,基于所述图形,确定所述第一阈值和/或所述第二阈值
根据本申请的一个方面,还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述的方法。
根据本申请的一个方面,还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述的方法。
根据本申请的一个方面,还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的方法。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请的视频分割方法的一个实施例的流程图;
图2是根据本申请的视频分割方法的全局特征分析步骤的一个实施例的流程图;
图3是根据本申请的视频分割方法的视觉词计算步骤的一个实施例的流程图;
图4是根据本申请的视频分割方法的局部特征分析步骤的一个实施例的流程图;
图5是根据本申请的视频分割装置的一个实施例的框图;
图6是根据本申请的视频分割装置的全局特征分析模块的一个实施例的框图;
图7是根据本申请的视频分割装置的视觉词计算模块的一个实施例的框图;
图8是根据本申请的视频分割装置的局部特征分析模块的一个实施例的框图。
具体实施方式
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
参见图1,本申请提供了一种视频分割方法,该方法包括:S1全局特征分析步骤。
可选地,S1全局特征分析步骤包括:基于颜色空间计算视频的每一帧与该帧的前一帧之间的第一相似度,将所述第一相似度与第一阈值进行比较,若所述第一相似度小于所述第一阈值,则将该帧作为新镜头的候选起始帧。
该方法不依赖于视频的编码格式,该视频可以是解码完成后的视频流,例如,mp4、avi、wmv等各种类型的视频文件。可以理解的是,描述该视频镜头分割的结果时,可以用帧或者时间进行表征。帧和时间的换算关系为:
f_index=s*f_rate
式中,f_index为一个新镜头的起始帧的索引号,s为其对应的时间,单位为秒,而f_rate为视频的播放帧率,单位为帧/秒。
颜色空间可以包括:RGB、CMY(三基色)、HSV(Hue,Saturation,Value,色调、饱和度、亮度)、HIS(Hue,Saturation,Intensity,色调、饱和度、强度)。基于上述的颜色空间中的一种计算视频的每一帧与该帧的前一帧之间的第一相似度。优选地,由于HSV颜色空间与人的视觉感知系统有较好的一致性,并可以克服RGB颜色空间对于亮度变化敏感的不足,所以选择HSV颜色空间来表示帧的颜色分量。
以HSV为例,在一个优选实施方案中,参见图2,S1全局特征分析步骤可以包括:
S11基于HSV颜色空间,对所述帧的HSV数据进行归一化处理,构建归一化后HSV直方图,该直方图的横轴表示归一化的级数,纵轴表示所述级数对应的像素点数量。
归一化处理时,可选地,把H、S、V分别分为8份、3份、3份,即8-3-3模式,此时级数取值为8+3+3=14。确定级数并进行归一化处理的原因是考虑到人类的视觉分辨能力和计算机的处理速度,因此按照颜色的不同范围和主观颜色感知进行间隔不等的归一化处理,即量化处理。
S12利用下式计算所述帧与该帧的前一帧之间的第一相似度S1:
其中,l表示归一化的级数,bins1表示归一化的总级数,和分别该帧与该帧的前一帧的第l级对应的像素点数量。需要说明的是,bins1是直方图的bin(盒子)的数目,在HSV直方图中,表示归一化的总级数,优选地,bins1取14。
S13将所述第一相似度与第一阈值进行比较,若所述第一相似度小于第一阈值,则将该帧作为新镜头的候选起始帧。可选地,第一阈值取0.75。
该视频分割方法还可以包括:S2局部特征分析步骤。
该S2局部特征分析步骤可以包括:分别计算所述候选起始帧与其前一帧中关键点的描述子到每一个视觉词的距离值,将描述子与所述距离值最小的视觉词相对应,基于描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,计算视觉词直方图之间的第二相似度,其中,所述视觉词采用S0视觉词计算步骤得到。可以理解的是,视觉词计算步骤采用S0进行编号并不代表该步骤的执行顺序,该S0视觉词计算步骤可以在S1全局特征分析步骤之前或者之后执行,可以在S2局部特征分析步骤之前或者与S2同时执行。该S0视觉词计算步骤的执行时间可以根据需要确定。
该S0视觉词计算步骤可以包括:提取所述视频的帧的关键点,生成与所述关键点的每一个相对应的描述子,对所述描述子进行聚类,得到若干个视觉词。
在一个优选实施方案中,参见图3,所述S0视觉词计算步骤包括:
S01利用Harris算法提取所述帧的角点作为关键点;
S02利用SIFT算法生成与所述关键点的每一个相对应的描述子;和
S03利用K-means方法对所述描述子进行聚类,得到若干个簇,对于每个簇,计算所述视觉词。
可选地,S01可以包括:
S011将待处理的视频每隔x帧进行采样,得到N个采样帧,其中,N=视频总帧数/x。优选地,x取值范围为10至20。对视频帧进行抽样的目的是为了减少计算量。可以理解的是,可以对视频等间隔抽样,也可以根据视频的特点进行非等间隔抽样。
S012对于第i个采样帧,使用Harris算法提取Hi个角点作为关键点,其中,i=1,2,3…,N。
Harris算法是进行计算机视觉处理时一种比较典型的角点检测算法。角点经常在图像边缘的交界处、被遮挡的边缘处、纹理性很强的部分被检测到。在图像的变化中一般体现为稳定的、重复性比较高的点。使用角点作为关键点可以很好的反映图像的局部特征。
可选地,S02可以包括:
S021使用SIFT算法为每个关键点生成描述子。
设整个视频的描述子的总数为D。每个关键点的描述子,即SIFT特征,是一个128维的向量,该向量用于描述该关键点在规定尺度下的梯度方向的直方图。该向量的计算过程包括:首先统计关键点周围的16像素*16像素区域内的梯度方向直方图,并将最大梯度模值得方向选作主方向;然后将该16像素*16像素区域均匀划分成4*4的小块(共计16个),分别在每个小块中统计8个梯度方向上的直方图,最终形成16*8=128维的SIFT特征。
S022,在D个描述子中进行随机采样,得到R个描述子。例如,假设平均每帧提取1000个关键点,从步骤S011中的N个帧里,共产生1000*N个关键点,优选地,R在50000至60000之间。
可选地,S03可以包括:
S031对该R个描述子使用K-means方法进行聚类,得到K个簇,计算每个簇中所有描述子的均值作为该簇的视觉词,也被称为质心。优选地,K为500。
S032从R个描述子中随机选择K个描述子作为起始视觉词。
S033对于R个描述子中的每一个,利用下式计算其到每个视觉词的距离:
其中,ρ(D,C)表示关键点的描述子D到视觉词C的距离值,di和ci分别表示关键点D的描述子和视觉词C的描述子的第i个参数,n表示参数的个数。
S034将描述子分配到距其最近的视觉词所在的簇中。
S035重新计算每个簇中所有描述子的均值,将该均值作为新的视觉词。
S036重复上述S033至S035的计算,直到每一个关键点的描述子的簇分配结果不再发生变化为止。
可选地,参见图4,S2局部特征分析步骤可以包括:
S21利用下式分别计算所述候选起始帧和其前一帧的关键点的描述子到每一个视觉词的距离值ρ:
其中,ρ(D,C)表示关键点的描述子D到视觉词C的距离值,di和ci分别表示关键点D的描述子和视觉词C的描述子的第i个参数,n表示参数的个数。
S22将所述距离值最小的视觉词与该描述子相对应。
S23基于该描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,该视觉词直方图的横轴表示视觉词,纵轴表示与视觉词对应的描述子的数量。
对于该候选起始帧,构建视觉词直方图时,可以将横轴按照上述步骤S031中得到的K个视觉词划分为K个组或K个区间,该K个组或区间分别对应视觉词w1,w2,…,wi…,wk,其中,第i个区间上的纵向高度值为该候选起始帧中对应于第wi个视觉词的描述子的个数。对于该候选起始帧的前一帧,可以采用相同的方法构建视觉词直方图。
S24利用下式计算视觉词直方图之间的第二相似度S2:
其中,l表示帧的视觉词直方图的组数;bins2表示组的总数,该总数等于视觉词的总数;和分别表示在所述帧与该帧的前一帧中第l个视觉词对应的描述子的数量。优选地,bins2的取值为K。优选地,bins2的取值为500。
可选地,该视频分割方法还可以包括:S3镜头分割步骤。
S3镜头分割步骤可以包括:对所述第二相似度进行判断,若所述第二相似度大于或者等于第二阈值,则将所述候选起始帧和其前一帧归并为同一个镜头,若所述第二相似度小于所述第二阈值,则将所述候选起始帧确定为新镜头的起始帧。
对所有的候选起始帧,重复步骤S2至S3的步骤,进行二次确认。本申请的方法通过全局特征分析步骤对视频进行粗分割,再通过局部特征分析步骤对粗分割的结果进行确认,对于满足合并条件的候选起始帧,进行合并操作,对于不满足合并条件的候选起始帧,则保持粗分割的结果不变,将该候选起始帧确定为新镜头的起始帧,从而生成镜头分割的最终结果。这样可以通过局部相似度对全局相似度进行检测,弥补粗分割的误差,提高镜头分割的准确率。
可选地,该视频分割方法还可以包括:阈值确定步骤。
该阈值确定步骤可以包括:分别将所述帧与所述第一相似度和所述第二相似度的关系利用图形进行显示,基于所述图形,确定所述第一阈值和/或所述第二阈值。
本申请结合数据可视化手段进行阈值确定,把帧间的HSV相似度和视觉词相似度用图形(例如,折线图、散点图、柱状图等)的方式进行呈现,使得使用者能够直观地看出两个相似度与帧的关系,从而判断并设定第一阈值和/或第二阈值。
本申请可用于进一步进行场景分割、基于语义的故事情节分割等方法的基础,可以用于视频播放器关键帧预览、基于场景和语义的视频检索等许多应用场景。
根据本申请的另一个方面,参见图5,提供了一种视频分割装置,该装置可以包括该全局特征分析模块1。
该全局特征分析模块1被配置成基于颜色空间计算视频的每一帧与该帧的前一帧之间的第一相似度,若所述第一相似度小于第一阈值,则将该帧作为新镜头的候选起始帧。
在一个优选实施方案中,参见图6,所述全局特征分析模块1包括:
HSV直方图构建模块11,其配置成基于HSV颜色空间,对所述帧的HSV数据进行归一化处理,构建归一化后HSV直方图,该直方图的横轴表示归一化的级数,纵轴表示所述级数对应的像素点数量;
第一相似度计算模块12,其配置成利用下式计算所述帧与该帧的前一帧之间的第一相似度S1:
其中,l表示归一化的级数,bins1表示归一化的总级数,和分别该帧与该帧的前一帧的第l级对应的像素点数量。优选地,bins1取14;以及
第一阈值比较模块13,其配置成将所述第一相似度与第一阈值进行比较,若所述第一相似度小于所述第一阈值,则将该帧作为新镜头的候选起始帧。可选地,第一阈值取0.75。
可选地,该装置还可以包括:局部特征分析模块2。
该局部特征分析模块2被配置成分别计算所述候选起始帧与其前一帧中关键点的描述子到每一个视觉词的距离值,将描述子与所述距离值最小的视觉词相对应,基于描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,计算视觉词直方图之间的第二相似度,其中,所述视觉词采用视觉词计算模块0得到;
视觉词计算模块0,其配置成提取所述视频的帧的关键点,生成与所述关键点的每一个相对应的描述子,对所述描述子进行聚类,得到若干个视觉词。
在一个优选实施方案中,参见图7,所述视觉词计算模块0包括:
关键点提取模块01,其配置成利用Harris算法提取所述帧的角点作为关键点;
描述子生成模块02,其配置成利用SIFT算法生成与所述关键点的每一个相对应的描述子;和
视觉词计算模块03,其配置成利用K-means方法对所述描述子进行聚类,得到若干个簇,对于每个簇,计算所述视觉词。
可选地,关键点提取模块01可以包括:
视频采样模块011,其配置成将待处理的视频每隔x帧进行采样,得到N个采样帧,其中,N=视频总帧数/x。
角点提取模块012,其配置成对于第i个采样帧,使用Harris算法提取Hi个角点作为关键点,其中,i=1,2,3…,N。
可选地,描述子生成模块02可以包括:
描述子生成模块021,其配置成使用SIFT算法为每个关键点生成描述子。
描述子采样模块022,其配置成在D个描述子中进行随机采样,得到R个描述子。
可选地,视觉词计算模块03可以包括:
聚类模块031,其配置成对该R个描述子使用K-means方法进行聚类,得到K个簇,计算每个簇中所有描述子的均值作为该簇的视觉词。优选地,K为500。
起始视觉词选择模块032,其配置成从R个描述子中随机选择K个描述子作为起始视觉词。
视觉词的距离计算模块033,其配置成对于R个描述子中的每一个,利用下式计算其到每个视觉词的距离:
其中,ρ(D,C)表示关键点的描述子D到视觉词C的距离值,di和ci分别表示关键点D的描述子和视觉词C的描述子的第i个参数,n表示参数的个数。
关键点分配模块034,其配置成将描述子分配到距其最近的视觉词所在的簇中。
视觉词更新模块035,其配置成重新计算每个簇中所有描述子的均值,将该均值作为新的视觉词。
视觉词确定模块036,其配置成重复上述关键点分配模块033至视觉词更新模块035的计算,直到每一个关键点的描述子的簇分配结果不再发生变化为止。
在一个优选实施方案中,参见图8,所述局部特征分析模块2包括:
距离值计算模块21,其配置成利用下式分别计算所述候选起始帧和其前一帧的关键点的描述子到每一个视觉词的距离值ρ:
其中,ρ(D,C)表示关键点的描述子D到视觉词C的距离值,di和ci分别表示关键点D的描述子和视觉词C的描述子的第i个参数,n表示参数的个数;
视觉词分配模块22,其配置成将所述距离值最小的视觉词与该描述子相对应;
视觉词直方图构建模块23,其配置成基于该描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,该视觉词直方图的横轴表示视觉词,纵轴表示与视觉词对应的描述子的数量。
第二相似度计算模块24,其配置成利用下式计算视觉词直方图之间的第二相似度S2:
其中,l表示帧的视觉词直方图的组数;bins2表示组的总数,该总数等于视觉词的总数;和分别表示在所述帧与该帧的前一帧中第l个视觉词对应的描述子的数量。
可选地,该装置还可以包括:镜头分割模块3。
该镜头分割模块3被配置成对所述第二相似度进行判断,若所述第二相似度大于或者等于第二阈值,则将所述候选起始帧和其前一帧归并为同一个镜头,若所述第二相似度小于所述第二阈值,则将所述候选起始帧确定为新镜头的起始帧。
可选地,该装置还可以包括:阈值确定模块。
该阈值确定模块被配置成分别将所述帧与所述第一相似度和所述第二相似度的关系利用图形进行显示,基于所述图形,确定所述第一阈值和/或所述第二阈值。
本申请的装置通过全局特征分析模块对视频进行粗分割,再通过局部特征分析模块对粗分割的结果进行确认,对于满足合并条件的候选起始帧,进行合并操作,对于不满足合并条件的候选起始帧,则保持粗分割的结果不变,将该候选起始帧确定为新镜头的起始帧,从而生成镜头分割的最终结果,从而提高镜头分割的准确率。
根据本申请的一个方面,还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述的方法。
根据本申请的一个方面,还提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述的方法。
根据本申请的一个方面,还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种视频分割方法,所述方法包括:
全局特征分析步骤:基于颜色空间计算视频的每一帧与该帧的前一帧之间的第一相似度,将所述第一相似度与第一阈值进行比较,若所述第一相似度小于所述第一阈值,则将该帧作为新镜头的候选起始帧;
局部特征分析步骤:分别计算所述候选起始帧与其前一帧中关键点的描述子到每一个视觉词的距离值,将描述子与所述距离值最小的视觉词相对应,基于描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,计算视觉词直方图之间的第二相似度,其中,所述视觉词采用视觉词计算步骤得到:
视觉词计算步骤:提取所述视频的帧的关键点,生成与所述关键点的每一个相对应的描述子,对所述描述子进行聚类,得到若干个视觉词;和
镜头分割步骤:对所述第二相似度进行判断,若所述第二相似度大于或者等于第二阈值,则将所述候选起始帧和其前一帧归并为同一个镜头,若所述第二相似度小于所述第二阈值,则将所述候选起始帧确定为新镜头的起始帧。
2.根据权利要求1所述的方法,其特征在于,所述全局特征分析步骤包括:
基于HSV颜色空间,对所述帧的HSV数据进行归一化处理,构建归一化后HSV直方图,该直方图的横轴表示归一化的级数,纵轴表示所述级数对应的像素点数量;
利用下式计算所述帧与该帧的前一帧之间的第一相似度S1:
其中,l表示归一化的级数,bins1表示归一化的总级数,和分别该帧与该帧的前一帧的第l级对应的像素点数量;
若所述第一相似度小于第一阈值,则将该帧作为新镜头的候选起始帧。
3.根据权利要求1所述的方法,其特征在于,所述视觉词计算步骤包括:
利用Harris算法提取所述帧的角点作为关键点;
利用SIFT算法生成与所述关键点的每一个相对应的描述子;和
利用K-means方法对所述描述子进行聚类,得到若干个簇,对于每个簇,计算所述视觉词。
4.根据权利要求1所述的方法,其特征在于,所述局部特征分析步骤包括:
利用下式分别计算所述候选起始帧和其前一帧的关键点的描述子到每一个视觉词的距离值ρ:
其中,ρ(D,C)表示关键点的描述子D到视觉词C的距离值,di和ci分别表示关键点D的描述子和视觉词C的描述子的第i个参数,n表示参数的个数;
将所述距离值最小的视觉词与该描述子相对应;
基于该描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,该视觉词直方图的横轴表示视觉词,纵轴表示与视觉词对应的描述子的数量;和
利用下式计算视觉词直方图之间的第二相似度S2:
其中,l表示帧的视觉词直方图的组数;bins2表示组的总数,该总数等于视觉词的总数;和分别表示在所述帧与该帧的前一帧中第l个视觉词对应的描述子的数量。
5.根据权利要求1至4的任一项所述的方法,其特征在于,所述方法还包括:
阈值确定步骤:分别将所述帧与所述第一相似度和所述第二相似度的关系利用图形进行显示,基于所述图形,确定所述第一阈值和/或所述第二阈值。
6.一种视频分割装置,包括:
全局特征分析模块,其配置成基于颜色空间计算视频的每一帧与该帧的前一帧之间的第一相似度,若所述第一相似度小于第一阈值,则将该帧作为新镜头的候选起始帧;
局部特征分析模块,其配置成分别计算所述候选起始帧与其前一帧中关键点的描述子到每一个视觉词的距离值,将描述子与所述距离值最小的视觉词相对应,基于描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,计算视觉词直方图之间的第二相似度,其中,所述视觉词采用视觉词计算模块得到;
视觉词计算模块,其配置成提取所述视频的帧的关键点,生成与所述关键点的每一个相对应的描述子,对所述描述子进行聚类,得到若干个视觉词;和
镜头分割模块,其配置成对所述第二相似度进行判断,若所述第二相似度大于或者等于第二阈值,则将所述候选起始帧和其前一帧归并为同一个镜头,若所述第二相似度小于所述第二阈值,则将所述候选起始帧确定为新镜头的起始帧。
7.根据权利要求6所述的装置,其特征在于,所述全局特征分析模块包括:
HSV直方图构建模块,其配置成基于HSV颜色空间,对所述帧的HSV数据进行归一化处理,构建归一化后HSV直方图,该直方图的横轴表示归一化的级数,纵轴表示所述级数对应的像素点数量;
第一相似度计算模块,其配置成利用下式计算所述帧与该帧的前一帧之间的第一相似度S1:
其中,l表示归一化的级数,bins1表示归一化的总级数,和分别该帧与该帧的前一帧的第l级对应的像素点数量;和
第一阈值比较模块,其配置成将所述第一相似度与第一阈值进行比较,若所述第一相似度小于所述第一阈值,则将该帧作为新镜头的候选起始帧。
8.根据权利要求6所述的装置,其特征在于,所述视觉词计算模块包括:
关键点提取模块,其配置成利用Harris算法提取所述帧的角点作为关键点;
描述子生成模块,其配置成利用SIFT算法生成与所述关键点的每一个相对应的描述子;和
视觉词计算模块,其配置成利用K-means方法对所述描述子进行聚类,得到若干个簇,对于每个簇,计算所述视觉词。
9.根据权利要求6所述的装置,其特征在于,所述局部特征分析模块包括:
距离值计算模块,其配置成利用下式分别计算所述候选起始帧和其前一帧的关键点的描述子到每一个视觉词的距离值ρ:
其中,ρ(D,C)表示关键点的描述子D到视觉词C的距离值,di和ci分别表示关键点D的描述子和视觉词C的描述子的第i个参数,n表示参数的个数;
视觉词分配模块,其配置成将所述距离值最小的视觉词与该描述子相对应;
视觉词直方图构建模块,其配置成基于该描述子和对应的视觉词,分别构建所述候选起始帧和其前一帧的视觉词直方图,该视觉词直方图的横轴表示视觉词,纵轴表示与视觉词对应的描述子的数量;和
第二相似度计算模块,其配置成利用下式计算视觉词直方图之间的第二相似度S2:
其中,l表示帧的视觉词直方图的组数;bins2表示组的总数,该总数等于视觉词的总数;和分别表示在所述帧与该帧的前一帧中第l个视觉词对应的描述子的数量。
10.根据权利要求6至9的任一项所述的装置,其特征在于,所述装置还包括:
阈值确定模块,其配置成分别将所述帧与所述第一相似度和所述第二相似度的关系利用图形进行显示,基于所述图形,确定所述第一阈值和/或所述第二阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810068616.0A CN108182421B (zh) | 2018-01-24 | 2018-01-24 | 视频分割方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810068616.0A CN108182421B (zh) | 2018-01-24 | 2018-01-24 | 视频分割方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108182421A true CN108182421A (zh) | 2018-06-19 |
CN108182421B CN108182421B (zh) | 2020-07-14 |
Family
ID=62551386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810068616.0A Active CN108182421B (zh) | 2018-01-24 | 2018-01-24 | 视频分割方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108182421B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740499A (zh) * | 2018-12-28 | 2019-05-10 | 北京旷视科技有限公司 | 视频分割方法、视频动作识别方法、装置、设备及介质 |
CN110012350A (zh) * | 2019-03-25 | 2019-07-12 | 联想(北京)有限公司 | 一种视频处理方法及装置、设备、存储介质 |
CN110427517A (zh) * | 2019-07-18 | 2019-11-08 | 华戎信息产业有限公司 | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 |
CN110430443A (zh) * | 2019-07-11 | 2019-11-08 | 平安科技(深圳)有限公司 | 视频镜头剪切的方法、装置及计算机设备 |
CN110879952A (zh) * | 2018-09-06 | 2020-03-13 | 阿里巴巴集团控股有限公司 | 一种视频帧序列的处理方法及装置 |
CN110913243A (zh) * | 2018-09-14 | 2020-03-24 | 华为技术有限公司 | 一种视频审核的方法、装置和设备 |
CN112613516A (zh) * | 2020-12-11 | 2021-04-06 | 北京影谱科技股份有限公司 | 用于航拍视频数据的语义分割方法 |
CN112785606A (zh) * | 2021-01-26 | 2021-05-11 | 上海明略人工智能(集团)有限公司 | 一种镜头分割方法、装置、电子设备和计算机可读介质 |
CN112800278A (zh) * | 2021-03-30 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 视频类型的确定方法和装置及电子设备 |
CN113255493A (zh) * | 2021-05-17 | 2021-08-13 | 南京信息工程大学 | 一种融合视觉词和自注意力机制的视频目标分割方法 |
CN114827665A (zh) * | 2022-05-31 | 2022-07-29 | 北京奇艺世纪科技有限公司 | 视频分析方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744973A (zh) * | 2014-01-11 | 2014-04-23 | 西安电子科技大学 | 基于多特征哈希的视频拷贝检测方法 |
CN106933816A (zh) * | 2015-12-29 | 2017-07-07 | 北京大唐高鸿数据网络技术有限公司 | 基于全局特征和局部特征的跨镜头目标检索系统及方法 |
-
2018
- 2018-01-24 CN CN201810068616.0A patent/CN108182421B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744973A (zh) * | 2014-01-11 | 2014-04-23 | 西安电子科技大学 | 基于多特征哈希的视频拷贝检测方法 |
CN106933816A (zh) * | 2015-12-29 | 2017-07-07 | 北京大唐高鸿数据网络技术有限公司 | 基于全局特征和局部特征的跨镜头目标检索系统及方法 |
Non-Patent Citations (3)
Title |
---|
HYUN-SEOK MIN等: "VIDEO COPY DETECTION USING INCLINED VIDEO TOMOGRAPHY AND BAG-OF-VISUAL-WORDS", 《2012 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 * |
曲阳: "视频检索中的镜头分割及关键帧提取方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
郭小川等: "基于频繁镜头集合的视频场景分割方法", 《计算机应用与软件》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110879952B (zh) * | 2018-09-06 | 2023-06-16 | 阿里巴巴集团控股有限公司 | 一种视频帧序列的处理方法及装置 |
CN110879952A (zh) * | 2018-09-06 | 2020-03-13 | 阿里巴巴集团控股有限公司 | 一种视频帧序列的处理方法及装置 |
CN110913243A (zh) * | 2018-09-14 | 2020-03-24 | 华为技术有限公司 | 一种视频审核的方法、装置和设备 |
CN109740499B (zh) * | 2018-12-28 | 2021-06-11 | 北京旷视科技有限公司 | 视频分割方法、视频动作识别方法、装置、设备及介质 |
CN109740499A (zh) * | 2018-12-28 | 2019-05-10 | 北京旷视科技有限公司 | 视频分割方法、视频动作识别方法、装置、设备及介质 |
CN110012350A (zh) * | 2019-03-25 | 2019-07-12 | 联想(北京)有限公司 | 一种视频处理方法及装置、设备、存储介质 |
CN110430443B (zh) * | 2019-07-11 | 2022-01-25 | 平安科技(深圳)有限公司 | 视频镜头剪切的方法、装置、计算机设备及存储介质 |
CN110430443A (zh) * | 2019-07-11 | 2019-11-08 | 平安科技(深圳)有限公司 | 视频镜头剪切的方法、装置及计算机设备 |
CN110427517B (zh) * | 2019-07-18 | 2023-04-25 | 华戎信息产业有限公司 | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 |
CN110427517A (zh) * | 2019-07-18 | 2019-11-08 | 华戎信息产业有限公司 | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 |
CN112613516A (zh) * | 2020-12-11 | 2021-04-06 | 北京影谱科技股份有限公司 | 用于航拍视频数据的语义分割方法 |
CN112785606A (zh) * | 2021-01-26 | 2021-05-11 | 上海明略人工智能(集团)有限公司 | 一种镜头分割方法、装置、电子设备和计算机可读介质 |
CN112785606B (zh) * | 2021-01-26 | 2024-04-09 | 上海明略人工智能(集团)有限公司 | 一种镜头分割方法、装置、电子设备和计算机可读介质 |
CN112800278A (zh) * | 2021-03-30 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 视频类型的确定方法和装置及电子设备 |
CN112800278B (zh) * | 2021-03-30 | 2021-07-09 | 腾讯科技(深圳)有限公司 | 视频类型的确定方法和装置及电子设备 |
CN113255493A (zh) * | 2021-05-17 | 2021-08-13 | 南京信息工程大学 | 一种融合视觉词和自注意力机制的视频目标分割方法 |
CN113255493B (zh) * | 2021-05-17 | 2023-06-30 | 南京信息工程大学 | 一种融合视觉词和自注意力机制的视频目标分割方法 |
CN114827665A (zh) * | 2022-05-31 | 2022-07-29 | 北京奇艺世纪科技有限公司 | 视频分析方法、装置、设备及存储介质 |
CN114827665B (zh) * | 2022-05-31 | 2023-10-10 | 北京奇艺世纪科技有限公司 | 视频分析方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108182421B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108182421A (zh) | 视频分割方法和装置 | |
CN111950653B (zh) | 视频处理方法和装置、存储介质及电子设备 | |
Hannane et al. | An efficient method for video shot boundary detection and keyframe extraction using SIFT-point distribution histogram | |
CN104408429B (zh) | 一种视频代表帧提取方法及装置 | |
CN110913243B (zh) | 一种视频审核的方法、装置和设备 | |
EP1233374A2 (en) | Apparatus and method for extracting objects based on feature matching between segmented regions in images | |
CN111950543B (zh) | 一种目标检测方法和装置 | |
KR20200145827A (ko) | 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체 | |
US8897566B2 (en) | Image identity scale calculation stystem | |
US8768064B2 (en) | Image feature extraction device | |
CN113112519A (zh) | 基于感兴趣目标分布的关键帧筛选方法 | |
CN106157330B (zh) | 一种基于目标联合外观模型的视觉跟踪方法 | |
WO2021108626A1 (en) | System and method for correspondence map determination | |
CN111179276B (zh) | 一种图像处理方法和装置 | |
WO2023221790A1 (zh) | 图像编码器的训练方法、装置、设备及介质 | |
CN115115855A (zh) | 图像编码器的训练方法、装置、设备及介质 | |
Feng et al. | A novel saliency detection method for wild animal monitoring images with WMSN | |
CN112785595B (zh) | 目标属性检测、神经网络训练及智能行驶方法、装置 | |
CN107301421A (zh) | 车辆颜色的识别方法及装置 | |
WO2021051382A1 (zh) | 白平衡处理方法和设备、可移动平台、相机 | |
CN112966687B (zh) | 图像分割模型训练方法、装置及通信设备 | |
CN116258864B (zh) | 一种村庄规划建设大数据管理系统 | |
CN104766068A (zh) | 一种多规则融合的随机游走舌像提取方法 | |
CN115114963B (zh) | 基于卷积神经网络的智能流媒体视频大数据分析方法 | |
CN113139540B (zh) | 背板检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Video segmentation methods and devices Effective date of registration: 20230713 Granted publication date: 20200714 Pledgee: Bank of Jiangsu Limited by Share Ltd. Beijing branch Pledgor: BEIJING MOVIEBOOK SCIENCE AND TECHNOLOGY Co.,Ltd. Registration number: Y2023110000278 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |