CN107590420A - 视频分析中的场景关键帧提取方法及装置 - Google Patents

视频分析中的场景关键帧提取方法及装置 Download PDF

Info

Publication number
CN107590420A
CN107590420A CN201610533798.5A CN201610533798A CN107590420A CN 107590420 A CN107590420 A CN 107590420A CN 201610533798 A CN201610533798 A CN 201610533798A CN 107590420 A CN107590420 A CN 107590420A
Authority
CN
China
Prior art keywords
video
key frame
cluster
frame
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610533798.5A
Other languages
English (en)
Inventor
白永强
罗旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Original Assignee
BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd filed Critical BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201610533798.5A priority Critical patent/CN107590420A/zh
Publication of CN107590420A publication Critical patent/CN107590420A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频分析中的场景关键帧提取方法及装置,该方法包括:获取待分析的视频文件;将所述视频文件分给为若干视频镜头,从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧;对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中;将时间上连续、镜头关键帧属于相同关键帧聚类的视频镜头,组合成视频场景;从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧。能够全面、准确的提取视频分割出的中镜头中的关键帧用于视频检索分析,提高视频搜索匹配的准确率。

Description

视频分析中的场景关键帧提取方法及装置
技术领域
本发明属于视频分析检索技术领域,尤其涉及一种视频分析中的场景关键帧提取方法及装置。
背景技术
随着网络技术的不断发展,网络视频越来越普及,人们通过网络搜索获取自己想要观看的视频并在线观看,网络上视频的数量也越来越多,因此,从海量视频中搜索到用户所需要的视频,属于视频搜索领域中备受关注的问题。
传统的视频搜索技术,一般都是基于文字的视频搜索技术,通常需要针对视频文件进行人工注释,但现在网络上的视频越来越多,对于大量的视频文件逐一进行注释工作量很大,需要大量的人力资源,增加人力成本,且效率低下。
因此,基于内容的视频搜索技术开始兴起,这种方式能够自动提取视频特征,方便用户视频搜索,从一定程度上避免上述缺点。用户通过客户端检索工具实现视频搜索,通过视频分析获取视频的特征,以方便视频检索。这种方式需要准确的获取视频的特征,才能实现准确的视频搜索匹配,现有的视频检索系统虽然包含一个视频信息数据库系统来存储视频的特征信息,但这些视频信息往往仅包含人工输入的视频特征数据信息,信息形式单一、信息量小,难以满足用户的检索需求。
为了改变视频数据检索的这种状况,必须将无序的视频数据有序化,从而建立基于内容的视频检索工具,让用户能随时检索到想要的视频数据,让视频能自动地适应环境,可以互动式操作,快速地检索,并在网上迅速、可靠地传送。这就需要对视频进行分析并提取其特征信息。
因此,在视频分析过程中,如何实现全面准确的视频特征信息的提取则成为亟待解决的技术问题。
发明内容
有鉴于此,本发明的一个目的是提供一种视频分析中的场景关键帧提取方法及装置,用以解决现有技术中存在不能全面、准确的提取用于视频搜索的视频特征信息的问题,通过对视频场景的准确分割及场景关键帧提取使提取的视频特征更全面准确。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
本发明实施例提供一种视频分析中的场景关键帧提取方法,包括:
获取待分析的视频文件;
将所述视频文件分给为若干视频镜头,从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧;
对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中;
将时间上连续、镜头关键帧属于相同关键帧聚类的视频镜头,组合成视频场景;
从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧。
在一些可选的实施例中,所述将所述视频文件分给为若干视频镜头,具体包括:
在设定的滑动窗口中,计算相邻两个视频帧之间的距离;
根据每个滑动窗口中各相邻视频帧之间的距离,确定对视频文件进行镜头分割的分割点;
根据确定出的分割点,将所述视频文件分割为若干视频镜头。
在一些可选的实施例中,所述对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中,具体包括:
针对每个镜头关键帧:
计算当前关键帧与设定的关键帧聚类的质心的距离,如果该距离大于设定的该关键帧聚类的距离阈值,则当前关键帧不加入该关键帧聚类中;否则记录该关键帧聚类为当前关键帧的备选关键帧聚类;
如果当前关键帧与设定的所有设定的关键帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的关键帧聚类;
否则从记录的当前帧的备选关键帧聚类中选择与当前关键帧相似度最大的关键帧聚类加入。
在一些可选的实施例中,当一个视频镜头中的镜头关键帧不止一个时,确定每个镜头关键帧所属的关键帧聚类,将包含镜头关键帧最多的一个关键帧聚类作为该视频镜头的关键帧聚类,用于确定该视频镜头是否与时间上相邻的视频镜头属于相同的关键帧聚类。
在一些可选的实施例中,所述从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧,具体包括:
针对分割出的每个视频场景:
将视频场景中包含的各视频帧,归类到不同的视频帧聚类中;
从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧;
由抽取出的所有代表帧组成该场景关键帧。
本发明实施例还提供一种视频分析中的场景关键帧提取装置,包括:
获取模块,获取待分析的视频文件;
镜头分割模块,用于将所述视频文件分给为若干视频镜头;
第一提取模块,用于从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧;
关键帧聚类模块,用于对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中;
场景分割模块,用于将时间上连续、镜头关键帧属于相同关键帧聚类的视频镜头,组合成视频场景;
第二提取模块,用于从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧。
在一些可选的实施例中,所述镜头分割模块,具体用于:
在设定的滑动窗口中,计算相邻两个视频帧之间的距离;
根据每个滑动窗口中各相邻视频帧之间的距离,确定对视频文件进行镜头分割的分割点;
根据确定出的分割点,将所述视频文件分割为若干视频镜头。
在一些可选的实施例中,所述关键帧聚类模块,具体用于:
针对每个镜头关键帧:
计算当前关键帧与设定的关键帧聚类的质心的距离,如果该距离大于设定的该关键帧聚类的距离阈值,则当前关键帧不加入该关键帧聚类中;否则记录该关键帧聚类为当前关键帧的备选关键帧聚类;
如果当前关键帧与设定的所有设定的关键帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的关键帧聚类;
否则从记录的当前帧的备选关键帧聚类中选择与当前关键帧相似度最大的关键帧聚类加入。
在一些可选的实施例中,所述场景分割模块,具体用于:
当一个视频镜头中的镜头关键帧不止一个时,确定每个镜头关键帧所属的关键帧聚类,将包含镜头关键帧最多的一个关键帧聚类作为该视频镜头的关键帧聚类,用于确定该视频镜头是否与时间上相邻的视频镜头属于相同的关键帧聚类。
在一些可选的实施例中,所述场景分割模块,具体用于:
针对分割出的每个视频场景:
将视频场景中包含的各视频帧,归类到不同的视频帧聚类中;
从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧;
由抽取出的所有代表帧组成该场景关键帧。
本发明实施例提供的视频分析中的场景关键帧提取方法及装置,对待分析的视频文件,实现准确的镜头分割和镜头关键帧提取后,进一步通过镜头关键帧的聚类实现准确的场景分割和场景关键帧提取,从而能够从场景关键帧中全面、准确的提取视频的特征信息,用于视频搜索匹配,以便能够快速的提供给用户所需要搜索的视频文件,提高视频搜索匹配的准确率,提高视频搜索匹配的速度和效率。
为了上述以及相关的目的,一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面,并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显,所公开的实施例是要包括所有这些方面以及它们的等同。
说明书附图
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施例一中视频分析中的镜头关键帧提取方法的流程图;
图2是本发明实施例二中视频分析中的镜头关键帧提取方法的流程图;
图3是本发明实施例三中视频分析中的镜头关键帧提取装置的结构示意图;
图4是本发明实施例四中视频分析中的场景关键帧提取方法的结构示意图;
图5是本发明实施例五中视频分析中的场景关键帧提取方法的结构示意图;
图6是本发明实施例六中视频分析中的场景关键帧提取装置的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的组件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,本发明的这些实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。
为了解决现有技术中存在不能全面、准确的提取用于视频搜索的视频特征信息的问题,本发明实施例提供一种视频分析中的镜头关键帧提取方法和视频分析中的场景关键帧提取方法,能够实现对镜头和场景的准确分割,从而为实现更全面、准确的视频特征提取做好准备,提高视频检索分析的准确度。
实施例一
本发明实施例一提供一种视频分析中的镜头关键帧提取方法,其流程如图1所示,包括如下步骤:
步骤S101:获取待分析的视频文件。
镜头是对视频流进行处理的最小物理单元,在同一组镜头中,视频帧的图像特征保持稳定,因此,为了更全面、准确的视频特征,可以将视频文件划分为若干镜头,再进行视频特征的提取。
步骤S102:在设定的滑动窗口中,计算相邻两个视频帧之间的距离。
可以采用滑动窗口的形式,实现相邻视频帧之间的距离计算,以便根据距离来确定镜头分割点。可选的,根据视频帧的颜色直方图,计算相邻两个视频帧之间的直方图距离;或根据视频帧的二值图像,计算相邻两个视频帧之间的欧氏距离。
步骤S103:根据每个滑动窗口中各相邻视频帧之间的距离,确定对视频文件进行镜头分割的分割点。
计算出相邻视频帧之间的距离后,根据在每个滑动窗口中相邻两个视频帧之间的距离的最大值和两个视频帧之间的距离的平均值,来确定镜头分割点,比如:距离的最大值和距离的平均值的比值大于设定的距离变化阈值时,确定该相邻两个视频帧为视频切割点,否则认为该滑动窗口中不存在切割点。
滑动窗口的大小和距离变化阈值根据视频所属的应用、视频的类别或视频的格式中的至少一项进行设定。
步骤S104:根据确定出的分割点,将待分析的视频文件分割为若干视频镜头。
所划分出来的视频镜头的数量是随机的,有确定出的分割点的数量而定。
步骤S105:从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧。
针对分割出的每个视频镜头提取其中的镜头关键帧时,可以通过聚类的方式实现,将视频镜头中包含的各视频帧,归类到不同的视频帧聚类中;从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧;由抽取出的所有代表帧组成该镜头关键帧。
实施例二
本发明实施例二提供一种视频分析中的镜头关键帧提取方法,其流程如图2所示,包括如下步骤:
步骤S201:获取待分析的视频文件。
步骤S202:在设定的滑动窗口中,计算相邻两个视频帧之间的距离。
采用滑动窗口的方式实现时,可以设置窗口默认大小为任何指定的大小,具体根据需要设置。
以根据视频帧的颜色直方图计算为例,用H(f,k)表示视频帧f的颜色直方图中对应颜色k的像素点总数。k的范围为[0,N],N是颜色离散值域区间的最大值。相邻两个视频帧之间的颜色直方图距离采用直方图求交的方法度量,两个视频帧f和f’之间的直方图距离d(f,f')计算公式如下:
以根据视频帧的二值图像计算为例,相邻两个视频帧之间的欧氏距离可以采用下列公式计算:
(1)二维平面上两点a(x1,y1)与b(x2,y2)之间的欧氏距离:
(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)之间的欧氏距离:
(3)两个n维向量a(x11,x12,……,x1n)与b(x21,x22,……,x2n)之间的欧氏距离:
根据视频帧的具体情况,选用给出的公式进行计算。
步骤S203:确定出在每个滑动窗口中相邻两个视频帧之间的距离的最大值和两个视频帧之间的距离的平均值。
在每一滑动窗中确定出两视频真之间距离的最大值为dmax,同时确定出同一滑动窗中两视频帧之间距离的平均值为davr,设置距离变化阈值为T,当dmax/davr>T时,认为该点为镜头切割点,反之,认为当前窗口中无切割点。该方法能够有效地避免毛刺对镜头分割的影响。
步骤S204:判断确定出的距离的最大值和距离的平均值的比值,是否大于设定的距离变化阈值。
当判断为是时,执行步骤S205;当判断为否时,,执行步骤S206。
步骤S205:确定该相邻两个视频帧为视频切割点。
步骤S206:认为该滑动窗口中不存在切割点。
步骤S203-步骤S206实现了根据每个滑动窗口中各相邻视频帧之间的距离,确定对视频文件进行镜头分割的分割点。
步骤S207:根据确定出的分割点,将视频文件分割为若干视频镜头。
步骤S208:针对分割出的每个视频镜头,执行以下步骤:
步骤S209:将视频镜头中包含的各视频帧,归类到不同的视频帧聚类中。
针对视频镜头中的每一个视频帧:
计算当前帧与设定的视频帧聚类的质心的距离,如果该距离大于设定的该视频帧聚类的距离阈值,则当前帧不加入该视频帧聚类中;否则记录该视频帧聚类为当前帧的备选视频帧聚类;
如果当前帧与设定的所有设定的视频帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的视频帧聚类;
否则从记录的当前帧的备选视频帧聚类中选择与当前帧相似度最大的视频帧聚类加入。
步骤S210:从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧。
步骤S211:由抽取出的所有代表帧组成该镜头关键帧。
设某个镜头Si包含n个视频帧,可以表示为Si={Fi1,……,Fin},其中Fi1为首帧和Fin为尾帧。相邻两视频帧之间的相似度定义为这相邻两帧颜色直方图的相似度,预定义一个距离阈值δ控制聚类的密度。
计算当前视频帧Fim与现存某个视频帧聚类质心之间的距离,如果该值大于δ,则该视频帧与该视频帧聚类之间距离较大,Fim不加入该视频帧聚类中。
如果Fim与现存所有视频帧聚类质心之间的距离均大于δ,Fim形成新的视频帧聚类,Fim为新视频帧聚类的质心;否则将该视频帧加入到与之相似度最大的聚类中,使该视频帧与这个视频帧聚类的质心距离最小,并如下相应调整该聚类质心:
centrod'=centrod×Fn/(Fn+1)+1/(Fn+1)×Fim
其中,centrod'、centrod和Fn分别是聚类群原有质心、聚类群更新后质心和该聚类群帧数。
通过上面方法将镜头Si所包含的n个视频帧,分别归类到不同视频帧聚类后,就可以选择镜头关键帧。从每个视频帧聚类中抽取离聚类质心最近的作为这个视频帧聚类的代表帧,所有视频帧聚类的代表帧就构成了镜头的镜头关键帧。
对视频帧聚类结果,可以考虑加入了一些约束条件,比如:规定任一招聘者聚类的总帧数不能小于镜头总帧数的10%,对质心相似的视频帧聚类进行合并。
其中阈值δ可以根据不同应用不同视频的需要,进行调整,以得到不同数量的镜头关键帧。
步骤S208-步骤S211实现了从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧。
实施例三
本发明实施例三提供一种基于视频分析中的镜头关键帧提取装置,其结构如图3所示,包括:获取模块301、镜头分割模块302和第一提取模块303。
获取模块301,用于获取待分析的视频文件。
镜头分割模块302,用于在设定的滑动窗口中,计算相邻两个视频帧之间的距离;根据每个滑动窗口中各相邻视频帧之间的距离,确定对视频文件进行镜头分割的分割点;根据确定出的分割点,将视频文件分割为若干视频镜头。
第一提取模块303,用于从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧。
优选的,上述镜头分割模块302,具体用于根据视频帧的颜色直方图,计算相邻两个视频帧之间的直方图距离;或根据视频帧的二值图像,计算相邻两个视频帧之间的欧氏距离。
优选的,上述镜头分割模块302,具体用于确定出在每个滑动窗口中相邻两个视频帧之间的距离的最大值和两个视频帧之间的距离的平均值;判断距离的最大值和距离的平均值的比值,是否大于设定的距离变化阈值;当判断为是时,确定该相邻两个视频帧为视频切割点,否则认为该滑动窗口中不存在切割点。
优选的,上述第一提取模块303,具体用于针对分割出的每个视频镜头:将视频镜头中包含的各视频帧,归类到不同的视频帧聚类中;从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧;由抽取出的所有代表帧组成该镜头关键帧。
优选的,上述第一提取模块303,具体用于针对视频镜头中的每一个视频帧:计算当前帧与设定的视频帧聚类的质心的距离,如果该距离大于设定的该视频帧聚类的距离阈值,则当前帧不加入该视频帧聚类中;否则记录该视频帧聚类为当前帧的备选视频帧聚类;如果当前帧与设定的所有设定的视频帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的视频帧聚类;否则从记录的当前帧的备选视频帧聚类中选择与当前帧相似度最大的视频帧聚类加入。
实施例四
本发明实施例四提供一种基于视频分析中的场景关键帧提取方法,其流程如图4所示,包括如下步骤:
步骤S401:获取待分析的视频文件。
步骤S402:将视频文件分给为若干视频镜头,从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧。
将视频文件划分为若干镜头并提取镜头关键帧的实现过程参见实施例一和实施例二的相关描述。
步骤S403:对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中。
每个镜头中可能有一个或多个镜头关键帧,对这些镜头关键帧进行关键帧的聚类分析,以便确定镜头关键帧所归属的关键帧聚类。
对于新闻视频,根据新闻视频所具有的特点——两个主持人之间往往包含一个完整的新闻片段,因此,提取出正确的主持人镜头,以时间上连续出现的两个不同的主持人镜头之间的镜头构成一个场景,完成新闻视频的场景分割。
步骤S404:将时间上连续、镜头关键帧属于相同关键帧聚类的视频镜头,组合成视频场景。
当一个视频镜头中的镜头关键帧不止一个时,确定每个镜头关键帧所属的关键帧聚类,将包含镜头关键帧最多的一个关键帧聚类作为该视频镜头的关键帧聚类,用于确定该视频镜头是否与时间上相邻的视频镜头属于相同的关键帧聚类。
比如,一个视频镜头中有10个镜头关键帧,其中7个镜头关键帧与相邻的后一视频镜头所属的关键帧聚类相同,则该视频镜头与后一视频镜头属于同一个视频场景;3个镜头关键帧与相邻的前一视频镜头所属的关键帧聚类相同,则该视频镜头与前一视频镜头不属于同一个视频场景。
步骤S405:从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧。
针对分割出的每个视频场景:
将视频场景中包含的各视频帧,归类到不同的视频帧聚类中;
从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧;
由抽取出的所有代表帧组成该场景关键帧。
实施例五
本发明实施例五提供一种基于视频分析中的场景关键帧提取方法,其流程如图5所示,包括如下步骤:
步骤S501:获取待分析的视频文件。
步骤S502:将视频文件分给为若干视频镜头,从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧。
步骤S503:对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中。
针对每个镜头关键帧:
计算当前关键帧与设定的关键帧聚类的质心的距离,如果该距离大于设定的该关键帧聚类的距离阈值,则当前关键帧不加入该关键帧聚类中;否则记录该关键帧聚类为当前关键帧的备选关键帧聚类;
如果当前关键帧与设定的所有设定的关键帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的关键帧聚类;
否则从记录的当前帧的备选关键帧聚类中选择与当前关键帧相似度最大的关键帧聚类加入。
步骤S504:将时间上连续、镜头关键帧属于相同关键帧聚类的视频镜头,组合成视频场景。
步骤S505:针对分割出的每个视频场景,执行以下步骤:
步骤S506:将视频场景中包含的各视频帧,归类到不同的视频帧聚类中。
针对视频场景中的每一个视频帧:
计算当前帧与设定的视频帧聚类的质心的距离,如果该距离大于设定的该视频帧聚类的距离阈值,则当前帧不加入该视频帧聚类中;否则记录该视频帧聚类为当前帧的备选视频帧聚类;
如果当前帧与设定的所有设定的视频帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的视频帧聚类;
否则从记录的当前帧的备选视频帧聚类中选择与当前帧相似度最大的视频帧聚类加入。
步骤S507:从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧。
步骤S508:由抽取出的所有代表帧组成该场景关键帧。
步骤S505-步骤S508实现了从分割出的各个视频场景中提取能够代表场景主要内容的场景关键帧。具体算法实现可参照镜头关键帧提取的过程。
实施例六
本发明实施例六提供一种基于视频分析中的场景关键帧提取装置,其结构如图6所示,包括:获取模块601、镜头分割模块602、第一提取模块603、关键帧聚类模块604、场景分割模块605和第二提取模块606。
获取模块601,获取待分析的视频文件。
镜头分割模块602,用于将视频文件分给为若干视频镜头。
第一提取模块603,用于从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧。
关键帧聚类模块604,用于对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中。
场景分割模块605,用于将时间上连续、镜头关键帧属于相同关键帧聚类的视频镜头,组合成视频场景。
第二提取模块606,用于从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧。
优选的,上述镜头分割模块602,具体用于在设定的滑动窗口中,计算相邻两个视频帧之间的距离;根据每个滑动窗口中各相邻视频帧之间的距离,确定对视频文件进行镜头分割的分割点;根据确定出的分割点,将视频文件分割为若干视频镜头。
优选的,上述关键帧聚类模块604,具体用于针对每个镜头关键帧:计算当前关键帧与设定的关键帧聚类的质心的距离,如果该距离大于设定的该关键帧聚类的距离阈值,则当前关键帧不加入该关键帧聚类中;否则记录该关键帧聚类为当前关键帧的备选关键帧聚类;如果当前关键帧与设定的所有设定的关键帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的关键帧聚类;否则从记录的当前帧的备选关键帧聚类中选择与当前关键帧相似度最大的关键帧聚类加入。
优选的,上述场景分割模块605,具体用于当一个视频镜头中的镜头关键帧不止一个时,确定每个镜头关键帧所属的关键帧聚类,将包含镜头关键帧最多的一个关键帧聚类作为该视频镜头的关键帧聚类,用于确定该视频镜头是否与时间上相邻的视频镜头属于相同的关键帧聚类。
优选的,上述场景分割模块605,具体用于针对分割出的每个视频场景:
将视频场景中包含的各视频帧,归类到不同的视频帧聚类中;
从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧;
由抽取出的所有代表帧组成该场景关键帧。
除非另外具体陈述,术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程,所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如,在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (10)

1.一种视频分析中的场景关键帧提取方法,其特征在于,包括:
获取待分析的视频文件;
将所述视频文件分给为若干视频镜头,从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧;
对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中;
将时间上连续、镜头关键帧属于相同关键帧聚类的视频镜头,组合成视频场景;
从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧。
2.如权利要求1所述的方法,其特征在于,所述将所述视频文件分给为若干视频镜头,具体包括:
在设定的滑动窗口中,计算相邻两个视频帧之间的距离;
根据每个滑动窗口中各相邻视频帧之间的距离,确定对视频文件进行镜头分割的分割点;
根据确定出的分割点,将所述视频文件分割为若干视频镜头。
3.如权利要求1所述的方法,其特征在于,所述对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中,具体包括:
针对每个镜头关键帧:
计算当前关键帧与设定的关键帧聚类的质心的距离,如果该距离大于设定的该关键帧聚类的距离阈值,则当前关键帧不加入该关键帧聚类中;否则记录该关键帧聚类为当前关键帧的备选关键帧聚类;
如果当前关键帧与设定的所有设定的关键帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的关键帧聚类;
否则从记录的当前帧的备选关键帧聚类中选择与当前关键帧相似度最大的关键帧聚类加入。
4.如权利要求1所述的方法,其特征在于,当一个视频镜头中的镜头关键帧不止一个时,确定每个镜头关键帧所属的关键帧聚类,将包含镜头关键帧最多的一个关键帧聚类作为该视频镜头的关键帧聚类,用于确定该视频镜头是否与时间上相邻的视频镜头属于相同的关键帧聚类。
5.如权利要求1-4任一所述的方法,其特征在于,所述从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧,具体包括:
针对分割出的每个视频场景:
将视频场景中包含的各视频帧,归类到不同的视频帧聚类中;
从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧;
由抽取出的所有代表帧组成该场景关键帧。
6.一种视频分析中的场景关键帧提取装置,其特征在于,包括:
获取模块,获取待分析的视频文件;
镜头分割模块,用于将所述视频文件分给为若干视频镜头;
第一提取模块,用于从分割出的各个视频镜头中提取能够代表镜头主要内容的镜头关键帧;
关键帧聚类模块,用于对分割出的视频镜头包含的镜头关键帧进行关键帧聚类,将各个镜头关键帧归类到不同的关键帧聚类中;
场景分割模块,用于将时间上连续、镜头关键帧属于相同关键帧聚类的视频镜头,组合成视频场景;
第二提取模块,用于从分割出的各个视频场景中提取能够代表场景主要特征的场景关键帧。
7.如权利要求6所述的装置,其特征在于,所述镜头分割模块,具体用于:
在设定的滑动窗口中,计算相邻两个视频帧之间的距离;
根据每个滑动窗口中各相邻视频帧之间的距离,确定对视频文件进行镜头分割的分割点;
根据确定出的分割点,将所述视频文件分割为若干视频镜头。
8.如权利要求6所述的装置,其特征在于,所述关键帧聚类模块,具体用于:
针对每个镜头关键帧:
计算当前关键帧与设定的关键帧聚类的质心的距离,如果该距离大于设定的该关键帧聚类的距离阈值,则当前关键帧不加入该关键帧聚类中;否则记录该关键帧聚类为当前关键帧的备选关键帧聚类;
如果当前关键帧与设定的所有设定的关键帧聚类的质心的距离均大于设定的阈值,则以当前帧为质心形成新的关键帧聚类;
否则从记录的当前帧的备选关键帧聚类中选择与当前关键帧相似度最大的关键帧聚类加入。
9.如权利要求6所述的装置,其特征在于,所述场景分割模块,具体用于:
当一个视频镜头中的镜头关键帧不止一个时,确定每个镜头关键帧所属的关键帧聚类,将包含镜头关键帧最多的一个关键帧聚类作为该视频镜头的关键帧聚类,用于确定该视频镜头是否与时间上相邻的视频镜头属于相同的关键帧聚类。
10.如权利要求6-9任一所述的装置,其特征在于,所述场景分割模块,具体用于:
针对分割出的每个视频场景:
将视频场景中包含的各视频帧,归类到不同的视频帧聚类中;
从每个视频帧聚类中抽取离聚类质心最近的视频帧作为该聚类的代表帧;
由抽取出的所有代表帧组成该场景关键帧。
CN201610533798.5A 2016-07-07 2016-07-07 视频分析中的场景关键帧提取方法及装置 Pending CN107590420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610533798.5A CN107590420A (zh) 2016-07-07 2016-07-07 视频分析中的场景关键帧提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610533798.5A CN107590420A (zh) 2016-07-07 2016-07-07 视频分析中的场景关键帧提取方法及装置

Publications (1)

Publication Number Publication Date
CN107590420A true CN107590420A (zh) 2018-01-16

Family

ID=61045907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610533798.5A Pending CN107590420A (zh) 2016-07-07 2016-07-07 视频分析中的场景关键帧提取方法及装置

Country Status (1)

Country Link
CN (1) CN107590420A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416013A (zh) * 2018-03-02 2018-08-17 北京奇艺世纪科技有限公司 视频匹配、检索、分类和推荐方法、装置及电子设备
CN108647641A (zh) * 2018-05-10 2018-10-12 北京影谱科技股份有限公司 基于双路模型融合的视频行为分割方法和装置
CN108769458A (zh) * 2018-05-08 2018-11-06 东北师范大学 一种深度视频场景分析方法
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110166829A (zh) * 2019-05-15 2019-08-23 上海商汤智能科技有限公司 视频处理方法及装置、电子设备和存储介质
CN110427517A (zh) * 2019-07-18 2019-11-08 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN112653918A (zh) * 2020-12-15 2021-04-13 咪咕文化科技有限公司 预览视频生成方法、装置、电子设备及存储介质
CN112714336A (zh) * 2020-12-01 2021-04-27 万兴科技集团股份有限公司 视频分割方法和装置、电子设备、计算机可读存储介质
CN113014831A (zh) * 2021-03-05 2021-06-22 上海明略人工智能(集团)有限公司 用于对体育视频进行场景获取的方法及装置、设备
CN113051984A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 视频拷贝检测方法和装置、存储介质和电子装置
CN116405745A (zh) * 2023-06-09 2023-07-07 深圳市信润富联数字科技有限公司 视频信息的提取方法、装置、终端设备及计算机介质
CN117640988A (zh) * 2023-12-04 2024-03-01 书行科技(北京)有限公司 一种视频处理方法、装置、电子设备和存储介质

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416013A (zh) * 2018-03-02 2018-08-17 北京奇艺世纪科技有限公司 视频匹配、检索、分类和推荐方法、装置及电子设备
CN108769458A (zh) * 2018-05-08 2018-11-06 东北师范大学 一种深度视频场景分析方法
CN108647641A (zh) * 2018-05-10 2018-10-12 北京影谱科技股份有限公司 基于双路模型融合的视频行为分割方法和装置
CN112966646B (zh) * 2018-05-10 2024-01-09 北京影谱科技股份有限公司 基于双路模型融合的视频分割方法、装置、设备及介质
CN112966646A (zh) * 2018-05-10 2021-06-15 北京影谱科技股份有限公司 基于双路模型融合的视频分割方法、装置、设备及介质
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110166829A (zh) * 2019-05-15 2019-08-23 上海商汤智能科技有限公司 视频处理方法及装置、电子设备和存储介质
WO2020228418A1 (zh) * 2019-05-15 2020-11-19 上海商汤智能科技有限公司 视频处理方法及装置、电子设备和存储介质
CN110427517A (zh) * 2019-07-18 2019-11-08 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN110427517B (zh) * 2019-07-18 2023-04-25 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN113051984A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 视频拷贝检测方法和装置、存储介质和电子装置
CN112714336A (zh) * 2020-12-01 2021-04-27 万兴科技集团股份有限公司 视频分割方法和装置、电子设备、计算机可读存储介质
CN112653918B (zh) * 2020-12-15 2023-04-07 咪咕文化科技有限公司 预览视频生成方法、装置、电子设备及存储介质
CN112653918A (zh) * 2020-12-15 2021-04-13 咪咕文化科技有限公司 预览视频生成方法、装置、电子设备及存储介质
CN113014831A (zh) * 2021-03-05 2021-06-22 上海明略人工智能(集团)有限公司 用于对体育视频进行场景获取的方法及装置、设备
CN113014831B (zh) * 2021-03-05 2024-03-12 上海明略人工智能(集团)有限公司 用于对体育视频进行场景获取的方法及装置、设备
CN116405745A (zh) * 2023-06-09 2023-07-07 深圳市信润富联数字科技有限公司 视频信息的提取方法、装置、终端设备及计算机介质
CN116405745B (zh) * 2023-06-09 2023-11-17 深圳市信润富联数字科技有限公司 视频信息的提取方法、装置、终端设备及计算机介质
CN117640988A (zh) * 2023-12-04 2024-03-01 书行科技(北京)有限公司 一种视频处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107590420A (zh) 视频分析中的场景关键帧提取方法及装置
CN107590419A (zh) 视频分析中的镜头关键帧提取方法及装置
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN109284729B (zh) 基于视频获取人脸识别模型训练数据的方法、装置和介质
CN111460153B (zh) 热点话题提取方法、装置、终端设备及存储介质
US11727053B2 (en) Entity recognition from an image
CN110083741B (zh) 文本与图像联合建模的面向人物的视频摘要提取方法
CN110263659B (zh) 一种基于三元组损失和轻量级网络的指静脉识别方法及系统
WO2021129145A1 (zh) 一种图像特征点过滤方法以及终端
Xu et al. A supervoxel approach to the segmentation of individual trees from LiDAR point clouds
CN111950728B (zh) 图像特征提取模型的构建方法、图像检索方法及存储介质
WO2020155921A1 (zh) 以图搜图的方法、计算机可读存储介质及服务器
CN107590150A (zh) 基于关键帧的视频分析实现方法及装置
CN110688524A (zh) 视频检索方法、装置、电子设备及存储介质
CN104537028B (zh) 一种网页信息处理方法及装置
CN108897824A (zh) 兴趣点空间拓扑关系构建方法、装置及存储介质
AU2018202767A1 (en) Data structure and algorithm for tag less search and svg retrieval
CN111767420B (zh) 一种生成服饰搭配数据的方法和装置
CN111182367A (zh) 一种视频的生成方法、装置及计算机系统
CN105956051A (zh) 信息查找的方法、装置及系统
Zhang et al. Image composition assessment with saliency-augmented multi-pattern pooling
CN108958592B (zh) 视频处理方法及相关产品
CN115379290A (zh) 视频处理方法、装置、设备及存储介质
CN115062186A (zh) 一种视频内容检索方法、装置、设备以及存储介质
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180116

WD01 Invention patent application deemed withdrawn after publication