CN101425069B - 视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法 - Google Patents
视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法 Download PDFInfo
- Publication number
- CN101425069B CN101425069B CN2008101375108A CN200810137510A CN101425069B CN 101425069 B CN101425069 B CN 101425069B CN 2008101375108 A CN2008101375108 A CN 2008101375108A CN 200810137510 A CN200810137510 A CN 200810137510A CN 101425069 B CN101425069 B CN 101425069B
- Authority
- CN
- China
- Prior art keywords
- video
- video scene
- scene
- relating value
- key frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法,属于视频分析与理解领域。目的是解决视频浏览检索准确率和查全率不高的问题。本发明主要创新点在于:利用了视频镜头内部各个场景之间的物理关联线索,即不同表观的场景在同一视频镜头内共同出现的频度,来计算视频场景的关联关系G<V,L>,并利用视频场景之间的关联关系进行视频快速浏览与检索。本发明不受场景表观上的影响,能够准确的表达两个视频场景之间的物理关联关系,从而解决了传统方法准确率和查全率不高的问题。
Description
技术领域
本发明涉及视频场景之间的关联值的获取方法及应用该方法实现视频快速浏览和检索方法,属于视频分析与理解领域。
背景技术
由于现代人生活节奏较快,不少用户希望能够快速浏览视频中感兴趣的内容。目前用于视频浏览技术的检索项目有人物、地点、事件、物品、关键帧等,场景是视频的重要组成元素,也可以作为用户浏览和搜索视频的依据。但是现有的技术仅仅专注于采用何种方式(特征)对场景进行底层表达,有一定的局限性,检索结果准确率和查全率不高。现有技术忽视了场景在视频镜头内部的关联关系,由于镜头移动、缩放等操作,同一视频镜头内部会出现不同的场景,这些场景虽然在底层表达上没有什么相似之处,但从物理关联性上来讲,它们却是紧密联系的。
发明内容
本发明的目的是解决目前利用场景作为检索项目对视频进行浏览或检索时准确率和查全率不高,忽视场景内部的关联关系的问题,提供一种基于视频场景关联关系的视频快速浏览和检索方法。
本发明视频场景关联值的获取方法实现的步骤包括:
步骤a:对欲浏览的视频进行预处理,提取出多个关键帧;
步骤b:对所述多个关键帧利用K均值聚类算法进行聚类,初始化各视频场景之间的关联图G<V,L>,
其中,<V>表示视频场景类别的集合,<L>表示每两个视频场景之间的关联值的集合,所述集合<V>与<L>初始均为空;
步骤c:令m表示视频场景的变量,初始化该视频场景的变量m=1;
步骤d:判断m是否满足m≤N,N表示视频场景的数量;
判断结果为是,执行下一步,判断结果为否,执行步骤l,
步骤e:初始化n=1,n表示每个视频场景包括的关键帧的变量;
步骤f:判断n是否满足n≤Km,Km表示每个视频场景包括的关键帧数量;
判断结果为是,执行下一步,判断结果为否,执行步骤k,
步骤g:将n赋予p,p=n,p表示两个视频场景之间的关联值;
步骤h:判断p是否满足p≤Km;
判断结果为是,执行下一步,判断结果为否,执行步骤j,
步骤i:将集合<L>中<Vn,Vp>对应的关联值p自增1,p=p+1,
Vn表示第n个关键帧所属的视频场景的类别,Vp表示第p个关键帧所属的视频场景的类别;
然后执行步骤h,
步骤j:n=n+1;
然后执行步骤f,
步骤k:m=m+1;
然后执行步骤d,
步骤l:保存计算后的N个视频场景之间的新关联图G′<V,L′>,获得了每两个视频场景之间的关联值的集合<L′>,
N、Km均为自然数。
应用上述视频场景关联值的获取方法的视频快速浏览方法实现步骤包括:将所述N个视频场景按与目标场景之间的关联值从小到大排序,即N个视频场景按与目标视频场景之间相似度从小到大排序,进而完成视频场景的快速浏览。
应用上述视频场景关联值的获取方法的视频检索方法实现步骤包括:选取阈值T,保留所述N个视频场景中所有与目标视频场景之间的关联值大于T的视频场景,即获得与目标视频场景的相似度大于阈值T的视频场景,检索完成。
本发明的优点是:由于镜头移动、缩放等操作,同一视频镜头内部会出现不同的场景,这些场景虽然在底层表达上没有什么相似之处,但从物理关联性上来讲,它们却是紧密联系的。基于上述特性,本发明充分利用了视频镜头内部的物理关联信息,计算视频场景之间的关联值,实现视频场景的快速浏览和检索。
附图说明
图1是实施方式一的流程图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述的视频场景关联值的获取方法,实现该方法的步骤包括:
步骤a:对欲浏览的视频进行预处理,提取出多个关键帧;
步骤b:对所述多个关键帧利用K均值聚类算法进行聚类,初始化各视频场景之间的关联图G<V,L>,
其中,<V>表示视频场景类别的集合,<L>表示每两个视频场景之间的关联值的集合,初始为空;
步骤c:令m表示视频场景的变量,初始化该视频场景的变量m=1;
步骤d:判断m是否满足m≤N,N表示视频场景的数量;
判断结果为是,执行下一步,判断结果为否,执行步骤l,
步骤e:初始化n=1,n表示每个视频场景包括的关键帧的变量;
步骤f:判断n是否满足n≤Km,Km表示每个视频场景包括的关键帧数量;
判断结果为是,执行下一步,判断结果为否,执行步骤k,
步骤g:将n赋予p,p=n,p表示两个视频场景之间的关联值;
步骤h:判断p是否满足p≤Km;
判断结果为是,执行下一步,判断结果为否,执行步骤j,
步骤i:将集合<L>中<Vn,Vp>对应的关联值p自增1,p=p+1,
Vn表示第n个关键帧所属的视频场景的类别,Vp表示第p个关键帧所属的视频场景的类别;
然后执行步骤h,
步骤j:n=n+1;
然后执行步骤f,
步骤k:m=m+1;
然后执行步骤d,
步骤l:保存计算后的N个视频场景之间的新关联图G′<V,L′>,获得了每两个视频场景之间的关联值的集合<L′>,
N、Km均为自然数。
步骤a中所述的对欲浏览的视频进行预处理的方法为:
采用视频切分工具将欲浏览的视频分割成多个视频镜头,所述视频的分割准确率大于90%;抽取视频镜头的关键帧;利用高斯混合模型分离关键帧中的前景和背景;滤除背景比例在0.5以下的视频场景;提取关键帧背景的视觉底层特征,并定义相似度度量准则。以上对视频进行的预处理,利用现有技术,具体采用何种方法不限。
所述视觉底层特征可以采用颜色直方图、颜色相关图,纹理直方图,纹理共生矩阵等。
步骤b中所述的K均值聚类算法为:
K均值聚类算法接受输入量K;然后将n个数据对象划分为K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
K均值聚类算法的工作过程说明如下:首先从步骤a提取的多个关键帧对象中任意选择s个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与所述s个初始聚类中心的相似度,分别将它们分配给与其最相似的聚类;然后重新计算每个聚类的聚类中心,即该聚类中所有对象的均值;不断重复上述过程,直到标准测度函数开始收敛为止,形成集合<V>,集合<V>中的每一个聚类代表一个视频场景类别,所述s为自然数。
一般都采用均方差作为标准测度函数,K个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
本步骤中集合<V>中存放的就是各聚类的集合,每个聚类作为一个场景类别,<L>表示每两个场景之间的关联值的集合,初始为空,在后续的步骤中会计算出每两个聚类(即每两个场景)之间的关联值。
步骤d中说明设定视频场景的数量为N,我们要计算N个视频场景中所有的每两个场景之间的关联值,所以设计此循环步骤。
步骤l计算得到的N个视频场景的新关联图G′<V,L′>就是我们想要的信息,根据这个新关联图,能够实现快速浏览和检索的功能。
具体实施方式二:本实施方式所述的应用实施方式一所述的视频场景关联值的获取方法的视频快速浏览方法,实现该方法的步骤包括:选定目标视频场景,将所述N个视频场景按与目标场景之间的关联值从小到大排序,即N个视频场景按与目标视频场景之间相似度从小到大排序,进而完成视频场景的快速浏览。
本实施方式中所述的目标视频场景是用户希望能够快速浏览视频中感兴趣的内容之一。场景是视频的重要组成元素,可以作为用户浏览和搜索视频的依据,我们首先选取一个感兴趣的一个场景,设定它为目标视频场景,然后,按照各视频场景与目标视频场景的关联程度的大小,将各个场景快速的排序,这样,就可以轻松的转到与选中场景相似度近的相关场景去观看感兴趣的视频,达到快速浏览的目的,而不用花费太多的时间去找相关的感兴趣的视频。
具体实施方式三:本实施方式所述的应用实施方式一所述的视频场景关联值的获取方法的视频检索方法,实现该方法的步骤包括:选定目标视频场景,选取阈值T,保留所述N个视频场景中所有与目标视频场景之间的关联值大于T的视频场景,即获得与目标视频场景的相似度大于阈值T的视频场景,检索完成;
完成检索功能后,为了让用户方便浏览,还可以包括:将检索获得的视频场景按关联值从小到大排序,即按照与目标视频场景的相似度进行排序。
在实际应用过程中,除了依据关联值排序之外,我们还可以同时选择利用视觉底层特征对视频场景进行排序,来实现更优化的快速浏览和检索功能,所述视觉底层特征有很多种,全局的有颜色直方图,颜色相关图,纹理直方图,纹理共生矩阵等等,局部的有SIFT、LBP等等,每个关键帧可以提取这些视觉特征,得到一定长度的特征向量。这些特征向量可以代表图像参与相似性的计算。提取特征之后,得到的是关键帧的特征向量,此时需要定义相似度量准则,即利用特征向量计算两个关键帧相似度的具体算法。可以采用最简单的欧式距离,当然采用其他的度量准则也可以(这主要还取决于对特征的选择)。下面针对欧式距离计算两个关键帧的相似度做一简单介绍:
N维向量的欧式距离:
Claims (6)
1.视频场景关联值的获取方法,其特征在于实现该方法的步骤包括:
步骤a:对欲浏览的视频进行预处理,提取出多个关键帧;
步骤b:对所述多个关键帧利用K均值聚类算法进行聚类,初始化各视频场景之间的关联图G<V,L>,
其中,<V>表示视频场景类别的集合,<L>表示每两个视频场景之间的关联值的集合,所述集合<V>与<L>初始均为空;
步骤c:令m表示视频场景的变量,初始化该视频场景的变量m=1;
步骤d:判断m是否满足m≤N,N表示视频场景的数量;
判断结果为是,执行下一步,判断结果为否,执行步骤l,
步骤e:初始化n=1,n表示每个视频场景包括的关键帧的变量;
步骤f:判断n是否满足n≤Km,Km表示每个视频场景包括的关键帧数量;
判断结果为是,执行下一步,判断结果为否,执行步骤k,
步骤g:将n赋予p,p=n,p表示两个视频场景之间的关联值;
步骤h:判断p是否满足p≤Km;
判断结果为是,执行下一步,判断结果为否,执行步骤j,
步骤i:将集合<L>中<Vn,Vp>对应的关联值p自增1,p=p+1,
Vn表示第n个关键帧所属的视频场景的类别,Vp表示第p个关键帧所属的视频场景的类别;
然后执行步骤h,
步骤j:n=n+1;
然后执行步骤f,
步骤k:m=m+1;
然后执行步骤d,
步骤l:保存计算后的N个视频场景之间的新关联图G′<V,L′>,获得了每两个视频场景之间的关联值的集合<L′>,
N、Km均为自然数。
2.根据权利要求1所述的视频场景关联值的获取方法,其特征在于步骤a中所述的对欲浏览的视频进行预处理的方法为:
采用视频切分工具将欲浏览的视频分割成多个视频镜头,所述视频的分割准确率大于90%;抽取视频镜头的关键帧;利用高斯混合模型分离关键帧中的前景和背景;滤除背景比例在0.5以下的视频场景;提取关键帧背景的视觉底层特征,并定义相似度度量准则。
3.根据权利要求1所述的视频场景关联值的获取方法,其特征在于步骤b所述的K均值聚类算法为:
首先从步骤a提取的多个关键帧对象中任意选择s个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与所述s个初始聚类中心的相似度,分别将它们分配给与其最相似的聚类;然后重新计算每个聚类的聚类中心,具体为该聚类中所有对象的均值;不断重复上述过程,直到标准测度函数开始收敛为止,形成集合<V>,集合<V>中的每一个聚类代表一个视频场景类别,所述s为自然数。
4.应用权利要求1所述的视频场景关联值的获取方法的视频快速浏览方法,其特征在于它包括:选定目标视频场景,将所述N个视频场景按与目标场景之间的关联值从小到大排序,具体为:将N个视频场景按与目标视频场景之间相似度从小到大排序,进而完成视频场景的快速浏览。
5.应用权利要求1所述的视频场景关联值的获取方法的视频检索方法,其特征在于它包括:选定目标视频场景,选取阈值T,保留所述N个视频场景中所有与目标视频场景之间的关联值大于T的视频场景,获得与目标视频场景的相似度大于阈值T的视频场景,检索完成。
6.根据权利要求5所述的视频场景关联值的获取方法的视频检索方法,其特征在于它还包括:将检索获得的视频场景按关联值从小到大排序,具体是按照与目标视频场景的相似度从小到大进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101375108A CN101425069B (zh) | 2008-11-12 | 2008-11-12 | 视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101375108A CN101425069B (zh) | 2008-11-12 | 2008-11-12 | 视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101425069A CN101425069A (zh) | 2009-05-06 |
CN101425069B true CN101425069B (zh) | 2010-07-14 |
Family
ID=40615689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101375108A Expired - Fee Related CN101425069B (zh) | 2008-11-12 | 2008-11-12 | 视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101425069B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112285698A (zh) * | 2020-12-25 | 2021-01-29 | 四川写正智能科技有限公司 | 一种基于雷达传感器的多目标跟踪装置及方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376078A (zh) * | 2010-08-25 | 2012-03-14 | 北京中科亚创科技有限责任公司 | 对场景自动标记的排序方法及装置 |
CN103118220B (zh) * | 2012-11-16 | 2016-05-11 | 佳都新太科技股份有限公司 | 一种基于多维特征向量的关键帧提取算法 |
-
2008
- 2008-11-12 CN CN2008101375108A patent/CN101425069B/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112285698A (zh) * | 2020-12-25 | 2021-01-29 | 四川写正智能科技有限公司 | 一种基于雷达传感器的多目标跟踪装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101425069A (zh) | 2009-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Effective multi-query expansions: Collaborative deep networks for robust landmark retrieval | |
Cetinic et al. | A deep learning perspective on beauty, sentiment, and remembrance of art | |
Zheng et al. | Person re-identification meets image search | |
CN112101150B (zh) | 一种基于朝向约束的多特征融合行人重识别方法 | |
CN100578508C (zh) | 交互式图像搜索系统和方法 | |
CN101599179B (zh) | 场地运动精彩镜头集锦自动生成方法 | |
CN102542058B (zh) | 一种融合全局与局部视觉特征的层次化地标识别方法 | |
CN101894125B (zh) | 一种基于内容的视频分类方法 | |
CN103324677B (zh) | 一种可分级的快速图像gps位置估计方法 | |
CN101770578B (zh) | 图像特征提取方法 | |
Zhang et al. | A triplet nonlocal neural network with dual-anchor triplet loss for high-resolution remote sensing image retrieval | |
CN103336795A (zh) | 基于多特征的视频索引方法 | |
CN102663448A (zh) | 一种基于网络的增强现实物体识别分析方法 | |
US20150332117A1 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
CN105141903A (zh) | 一种基于颜色信息的在视频中进行目标检索的方法 | |
CN110188225B (zh) | 一种基于排序学习和多元损失的图像检索方法 | |
CN105631037B (zh) | 一种图像检索方法 | |
CN106250431B (zh) | 一种基于分类服装的颜色特征提取方法及服装检索系统 | |
CN102890700A (zh) | 一种基于体育比赛视频的相似视频片段检索方法 | |
CN106933867A (zh) | 一种图像查询方法和装置 | |
CN103617263A (zh) | 一种基于多模态特征的电视广告片花自动检测方法 | |
CN107977948A (zh) | 一种面向社群图像的显著图融合方法 | |
CN101425069B (zh) | 视频场景关联值的获取方法及应用该方法的视频快速浏览和检索方法 | |
Xue et al. | Visual summarization of landmarks via viewpoint modeling | |
Kim et al. | Classification and indexing scheme of large-scale image repository for spatio-temporal landmark recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100714 Termination date: 20121112 |