CN110427517B - 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 - Google Patents
一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110427517B CN110427517B CN201910648005.8A CN201910648005A CN110427517B CN 110427517 B CN110427517 B CN 110427517B CN 201910648005 A CN201910648005 A CN 201910648005A CN 110427517 B CN110427517 B CN 110427517B
- Authority
- CN
- China
- Prior art keywords
- scene
- image
- dictionary tree
- feature
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000006835 compression Effects 0.000 claims abstract description 11
- 238000007906 compression Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质,建立视频场景特征库方法包括:对镜头图像进行分割;提取镜头全局特征;提取镜头图像中的关键帧;提取关键帧的关键帧特征;对全局特征进行聚类处理;配置局部特征压缩编码,得到场景特征库。图搜视频方法包括,将待查询图像生成查询图像特征向量;与场景进行相似度比较;将相似度比较结果进行相似度排序。本发明对场景进行关键帧提取,并对场景关键帧进行特征压缩编码得到,基于场景的关键帧特征向量,可有效进行特征压缩,大大缩小了存储空间和大幅度减少了相似度计算量,实现在海量数据中实时检索的功能。
Description
技术领域
本发明涉及视频数据处理技术领域,尤其涉及一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质。
背景技术
随着“平安城市”建设的不断深入,视频安防监控技术的更新换代、新技术的更迭以及未来的发展越来越受到各界的高度重视,视频检索成为当前视频技术发展的主要方面之一,图搜视频解决了当前针对海量视频内容的精准快速检索的硬伤。
以图搜视频的技术包括经典的模式识别、深度学习领域相关技术,其原理是通过经典的模式识别技术和深度学习技术的融合,达到海量视频搜索在精准度、速度上的最佳组合。在互联网安全领域,目前对图像、视频内容的审核,都无法做到自动审核,还很大程度上要依赖人力,通过以图搜视频技术,可以自动审核图片或者视频中包含的内容信息,这就提高了互联网安全领域的图像以及视频内容的过滤和审核效率。类似的应用场景还存在于安防、电视媒体、个人图片以及视频管理应用等诸多领域。
视频的本质就是图像序列,所以以图搜视频,面临的一个最直接的问题就是数据量非常庞大,一秒钟的视频就相当于25-30张图片,因此需要一个非常好的方法来把这些图像序列的特征进行紧凑快速有效的融合,而不是简单的把每帧图片分别进行特征提取然后采用以图搜图的方式实现视频搜索。简而言之,相比较以图搜图,以图搜视频必须要通过视频为单位进行特征提取,才能在实际应用中达到实施的可能,这是相对于以图搜图,以图搜视频的重点和难点。
视频数据可以分为四个层次:视频、场景、镜头和图像帧。视频检索一般分为镜头检索和片段检索。片段概念等价于场景概念,是由一连串语义相关的连续镜头构成,不同的是片段可以是一段完整场景的部分或全部。目前大多是研究集中在镜头检索上。但是从用户的角度来分析,他们对视频的数据库的查询通常会是一个视频片段很少是单个物理镜头。从信息量角度分析,由几个镜头组成的视频片段有比单个镜头更多的语义,它可以表示用户感兴趣的事件,因此,查询的结果也比较有意义。例如在新闻中检索感兴趣的事件、电影中检索喜欢的情节、体育节目中检索喜爱的体育运动、电视台检索某条广告是否播出等。
目前图搜视频存在的问题:
(1)目前的图搜视频,单纯的检索到相似的某一帧或单个镜头不符合用户需求;
(2)海量视频数据在提取的特征量很大,不仅占用较大的存储空间,而且在计算相似度时,大大增加了计算量;
(3)在全局特征提取时,全局特征是基于镜头进行特征提取,在以图搜视频时,需要达到的目的是根据一张图像可以搜索到相似的视频场景。
发明内容
本发明提供一种以视频场景为单位,用图像快速、准确检索相似视频场景功能的基于场景词典树的图搜视频方法,
其中,建立视频场景特征库方法包括:
步骤一,对镜头图像进行分割;
步骤二,提取镜头全局特征;
步骤三,提取镜头图像中的关键帧;
步骤四,提取关键帧的关键帧特征;
步骤五,对全局特征进行聚类处理;
步骤六,配置局部特征压缩编码,得到场景特征库。
本发明提供的图搜视频方法包括:
将待查询图像生成查询图像特征向量;
与场景进行相似度比较;
将相似度比较结果进行相似度排序。
本发明还提供一种基于场景词典树的图搜视频方法的装置,包括:存储器,用于存储计算机程序及基于场景词典树的图搜视频方法;处理器,用于执行所述计算机程序及基于场景词典树的图搜视频方法,以实现基于场景词典树的图搜视频方法的步骤。
本发明还提供一种具有基于场景词典树的图搜视频方法的计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现基于场景词典树的图搜视频方法的步骤。
从以上技术方案可以看出,本发明具有以下优点:
本发明提出了基于场景词典树的以图搜视频的方法,其特点如下:
(1)将视频进行镜头检测和全局特征提取,并进一步进行镜头聚类,得到视频场景,对视频场景建立索引;
(2)对场景进行关键帧提取,并对场景关键帧进行特征压缩编码得到,基于场景的关键帧特征向量,可有效进行特征压缩,大大缩小了存储空间和大幅度减少了相似度计算量,实现在海量数据中实时检索的功能;
(3)相似度比较,将图像进行特征提取压缩编码,之后与场景中关键帧进行比较,根据相似度,对视频场景进行排序。
本发明实现在海量视频的快速、准确检索。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于场景词典树的图搜视频方法流程图;
图2为视频场景特征库建立流程图;
图3为系统流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将运用具体的实施例及附图,对本发明保护的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明中涉及的场景是构成视频的单元,一个场景由多个镜头组成。
BoF为视觉词典向量,是对图像特征进行聚类、构建码本、建立视觉词典的一种方法;
FV为Fisher Vector,是一种图像特征表达方法。
本发明提供的一种基于场景词典树的图搜视频方法中涉及了建立视频场景特征库方法和图搜视频方法。具体的如图1至3所示,
其中本发明的实施例中,建立视频场景特征库方法包括:
步骤一,对镜头图像进行分割;
步骤二,提取镜头全局特征;
步骤三,提取镜头图像中的关键帧;
步骤四,提取关键帧的关键帧特征;
步骤五,对全局特征进行聚类处理;
步骤六,配置局部特征压缩编码,得到场景特征库
具体过程如下:
1)镜头分割。
采用基于直方图镜头分割算法。基于直方图的算法是最普遍的分割方法,简单方便,而且对大多数视频能得到较好的分割效果。具体是将相邻两帧之间的各个像素的灰度、亮度等分为N个等级,再针对每个等级统计像素数值做成直方图比较,给出两个图像的直方图,直方图计算公式如下:
其中,N为图像帧像素的总数。hm(i)-hn(i)表示的是两帧在i的这个像素值的直方图的距离。设定阈值u,当距离D大于阈值u时,说明检测到镜头转变。
2)提取镜头全局特征
利用FV(Fisher Vectors)提取镜头的全局特征。FV本质是用似然函数的梯度向量表示一幅图像。假设一幅图像,有T个描述子,那么图像I可以表示为X={xt,t=1,...,T}。并且假设特征的每个xt维度符合一定的分布而且这些分布之间相互独立。就可以将图像的概率分布表示为各个维度上概率分布的乘积。那么图像I的概率分布表示:其中λ表示参数集λ={wi,μi,∑i,i=1,...,K},取对数:
接着K个高斯分布的线性组合逼近,假设高斯混合分布参数也是λ,于是:
其中,pi表示高斯分布,w表示组合系数D表示特征向量的维度,这里假设协方差矩阵是对角矩阵,也就是特征的不同维度之间的相互独立。根据公式(3)、(4)对公式(2)进行求偏导,即可得到Fisher Vector,即为镜头的全局变量。
3)关键帧提取
关键帧必须能够反映镜头中主要事件,数据量应尽量小,且计算量不宜太复杂。本发明采用基于帧平均法,具体步骤如下:
(1)计算所有帧在某个位置上像素的平均值;
(2)将镜头中该点位置的像素值最接近平均值的帧作为关键帧。
4)关键帧特征提取
采用传统特征SIFT进行关键帧的特征提取,SIFT特征即尺度不变特征变换,具有如下特点:(1)局部特征,对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变化、噪声也保持一定程度的稳定性;(2)区分性好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配;(3)多量性,即使少数的几个物体也可以产生大量的SIFT特征向量;(4)高速性,SIFT特征匹配可以达到实时的要求;(5)可扩展性,可以很方便的与其他形式的特征向量进行联合因此,本发明利用SIFT特征进行关键帧表达。
5)全局特征聚类
利用K-Means,根据提取的镜头全局变量FV对镜头进行聚类,得到以场景为单位的视频信息。
6)局部特征压缩编码
利用BoF算法对场景中的所有关键帧的特征进行压缩编码。具体步骤如下:
(1)关键帧图像局部特征SIFT,得到特征集合U;
(2)对特征集合U进行分层聚类得到一个具有h层,每层最多有k个聚类中心的词典树;
(3)计算关键帧的词典向量。基于图像特征提取阶段提取到的图像特征和构建的视觉词典树,计算每张图像的每个图像特征距离词典树节点的距离,将每个图像特征归入距离最近的词典树节点中,然后统计每个节点中包含此张图像的特征个数,得到该图像在词典树各个节点出现的频率向量Fj。图像特征的词典向量公式为:
其中WT=lpg(N/NT),其中N表示图像库的图像总数,NT表示对于节点T中的特征涵盖的图像数量。将关键帧根据场景分来进行索引存储,这样最后得到场景特征库。
本发明提供的图搜视频方法实施例中,以图搜索相似视频。主要包括三部分:生成查询图像特征向量、与场景进行相似度比较、相似度排序。
1)生成查询图像特征向量,提取SIFT特征,使用第一阶段词典树,生成查询图像词典向量。
2)计算相似度,对某个场景中所有的关键帧词典向量,利用欧式距离计算距离,进行累加,计算公式如下:
其中sim(qi,scenej)表示查询图像qi与第j个场景scenej的相似度,表示查询图像的词典向量,表示场景j的第l个关键帧的词典向量,p表示词典向量的维数。对公示进行归一化,得到最后的计算相似度的公式,如下:
得到查询图像与视频场景的相似度。
3)相似度排序
根据相似度,对场景进行排序,将前n个场景视频作为查询结果进行保存。
实施例中图搜视频的关键技术:
(1)关键帧提取,关键帧可有效表示视频信息,可大幅度缩小计算量;
(2)特征提取,全局特征和局部特征;
(3)视频聚类,将相似视频片段进行聚类;
(4)相似度计算,根据输入的图像,计算图像与视频片段的相似度。
作为本发明图搜视频方法的另一个实施方式还包括:
将待查找镜头图像,提取镜头全局特征;
利用FV(Fisher Vectors)提取待查找镜头图像的全局特征。假设一幅图像,有T个描述子,那么图像I可以表示为X={xt,t=1,...,T}。并且假设特征的每个xt维度符合一定的分布而且这些分布之间相互独立。就可以将图像的概率分布表示为各个维度上概率分布的乘积。那么图像I的概率分布表示:其中λ表示参数集λ={wi,μi,∑i,i=1,...,K},取对数:
接着K个高斯分布的线性组合逼近,假设高斯混合分布参数也是λ,于是:
其中,pi表示高斯分布,w表示组合系数D表示特征向量的维度,这里假设协方差矩阵是对角矩阵,也就是特征的不同维度之间的相互独立。根据公式(3)、(4)对公式(2)进行求偏导,即可得到Fisher Vector,即为待查找镜头图像的全局变量。
提取镜头全局特征中的关键帧特征;
这里采用基于帧平均法,具体步骤如下:计算所有帧在某个位置上像素的平均值;将镜头中该点位置的像素值最接近平均值的帧作为关键帧。
将关键帧特征以及关键帧特征所对应的场景配置为一个辨识特征区;
每个待查找镜头图像的镜头全局特征配置多个辨识特征区,即为Bi=(i=1,……n);
对任意辨识特征区Bi,利用式下式计算辨识特征区Bi与其周围辨识特征区的匹配度m1,m2,K,mn,
式中ac为辨识特征区灰度调节参数,B为辨识特征区,Bi为B周围的第i个辨识特征区,将匹配度m1,m2,K,mn和辨识特征区Bi所包含的预设数量的B1,B2,K,Bn进行归一化处理,得到一个待查找镜头图像的多维图像特征向量;
通过下式计算每维图像特征向量的方差,并获取每个图像特征向量值以及方差最大的图像特征向量值;
以所述方差最大的图像特征向量所对应的辨识特征区作为多维树的根节点,将小于方差最大的图像特征向量的图像特征向量配置到第一子树中,将大于方差最大的图像特征向量的图像特征向量配置到第二子树中,形成镜头图像检索树;
当然这里还可以基于其他条件分出多种条件下的子树。
从镜头图像检索树的根节点开始检索,利用下式计算待辨识特征区与镜头图像检索树中辨识特征区的相似度,
式中PF为待查询图像生成的查询图像特征向量,PFi为图像库的图像特征向量,b为辨识特征区灰度调节参数,预设查询比对图像特征向量阈值,将cfi与预设查询比对图像特征向量阈值进行比对;
如果cfi在预设查询比对图像特征向量阈值内,则将当前图像库的图像特征向量作为待查询图像生成的查询图像特征向量相似的图像;
如果cfi未在预设查询比对图像特征向量阈值内则继续检索。
这样基于场景特征库来进行待查找镜头图像的提取和查找。可以滤出多数干扰项,能够实现快速,大范围的找到相似或相同图像,满足用的需要。
本发明还提供了一种基于场景词典树的图搜视频方法的装置,包括:存储器,用于存储计算机程序及基于场景词典树的图搜视频方法;处理器,用于执行所述计算机程序及基于场景词典树的图搜视频方法,以实现基于场景词典树的图搜视频方法的步骤。
基于场景词典树的图搜视频方法的装置可以实现在硬件,软件,固件或它们的任何组合。所述的各种特征为模块,单元或组件可以一起实现在集成逻辑装置或分开作为离散的但可互操作的逻辑器件或其他硬件设备。在一些情况下,电子电路的各种特征可以被实现为一个或多个集成电路器件,诸如集成电路芯片或芯片组。
在装置中,上述基于场景词典树的图搜视频方法的实现可以基于处理器或者集成电路装置实现,诸如集成电路芯片或芯片组。可替换地或附加地,如果软件或固件中实现,所述技术可实现至少部分地由计算机可读的数据存储介质,包括指令,当执行时,使处理器执行一个或更多的上述方法。例如,计算机可读的数据存储介质可以存储诸如由处理器执行的指令。
本发明还提供一种具有基于场景词典树的图搜视频方法的计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现基于场景词典树的图搜视频方法的步骤。
基于场景词典树的图搜视频方法的计算机可读存储介质可以包括包装材料。数据的计算机可读介质可以包括计算机存储介质,诸如随机存取存储器(RAM),只读存储器(ROM),非易失性随机存取存储器(NVRAM),电可擦可编程只读存储器(EEPROM),闪存,磁或光学数据存储介质,和类似物。在一些实施例中,一种制造产品可包括一个或多个计算机可读存储媒体。
可以实现对基于场景词典树的图搜视频方法的存储,以便于多个客户端,多个服务器,多个终端使用。
在一些实施例中,计算机可读存储介质可以包括非易失性介质。术语“非暂态”所述存储介质可以指示不包含在载波或传播信号。在某些实施例中,非临时性存储介质可以存储数据,它可以随时间改变(例如,RAM或者高速缓存)中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (5)
1.一种基于场景词典树的图搜视频方法,其特征在于,建立视频场景特征库方法包括:
步骤一,对镜头图像进行分割;
将相邻两帧之间的各个像素的灰度、亮度等分为N个等级,再针对每个等级统计像素数值做成直方图比较,给出两个图像的直方图,直方图计算公式如下:
其中,N为图像帧像素的总数;hm(i)-hn(i)表示的是两帧在i的这个像素值的直方图的距离;设定阈值u,当距离D大于阈值u时,检测到镜头转变;
步骤二,提取镜头全局特征;
步骤三,提取镜头图像中的关键帧;
(1)计算所有帧在预设位置上像素的平均值;
(2)将镜头中该点位置的像素值最接近平均值的帧作为关键帧;
步骤四,提取关键帧的关键帧特征;
采用传统特征SIFT进行关键帧的特征提取;
步骤五,对全局特征进行聚类处理;
利用K-Means,根据提取的镜头全局变量FV对镜头进行聚类,得到以场景为单位的视频信息;
步骤六,配置局部特征压缩编码,得到场景特征库;
利用BoF算法对场景中的所有关键帧的特征进行压缩编码;具体步骤如下:
(1)关键帧图像局部特征SIFT,得到特征集合U;
(2)对特征集合U进行分层聚类得到一个具有h层,每层最多有k个聚类中心的词典树;
(3)计算关键帧的词典向量;基于图像特征提取阶段提取到的图像特征和构建的视觉词典树,计算每张图像的每个图像特征距离词典树节点的距离,将每个图像特征归入距离最近的词典树节点中,然后统计每个节点中包含此张图像的特征个数,得到所述图像在词典树各个节点出现的频率向量Fj;图像特征的词典向量公式为:
dj=WT·Fj (5)
其中WT=log(N/NT),N表示图像库的图像总数,NT表示对于节点T中的特征涵盖的图像数量;
将关键帧根据场景来进行索引存储,得到场景特征库。
2.根据权利要求1所述的基于场景词典树的图搜视频方法,其特征在于,图搜视频方法包括:将待查询图像生成查询图像特征向量;与场景进行相似度比较;将相似度比较结果进行相似度排序。
3.根据权利要求2所述的基于场景词典树的图搜视频方法,其特征在于,步骤将待查询图像生成查询图像特征向量还包括:对待查询图像提取SIFT特征,使用第一阶段词典树,生成查询图像词典向量;步骤与场景进行相似度比较还包括:对某个场景中所有的关键帧词典向量,利用欧式距离计算距离,进行累加,计算公式如下:
对公式(6)进行归一化处理,得到最后的计算相似度的公式,如下:
得到查询图像与视频场景的相似度;步骤将相似度比较结果进行相似度排序还包括:根据相似度,对场景进行排序,将前n个场景视频作为查询结果进行保存。
4.一种基于场景词典树的图搜视频方法的装置,其特征在于,包括:存储器,用于存储计算机程序及基于场景词典树的图搜视频方法;处理器,用于执行所述计算机程序及基于场景词典树的图搜视频方法,以实现如权利要求1至3任意一项所述基于场景词典树的图搜视频方法的步骤。
5.一种具有基于场景词典树的图搜视频方法的计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至3任意一项所述基于场景词典树的图搜视频方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910648005.8A CN110427517B (zh) | 2019-07-18 | 2019-07-18 | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910648005.8A CN110427517B (zh) | 2019-07-18 | 2019-07-18 | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427517A CN110427517A (zh) | 2019-11-08 |
CN110427517B true CN110427517B (zh) | 2023-04-25 |
Family
ID=68410889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910648005.8A Active CN110427517B (zh) | 2019-07-18 | 2019-07-18 | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427517B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078940B (zh) * | 2019-12-16 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机存储介质及电子设备 |
CN111178244B (zh) * | 2019-12-27 | 2024-03-15 | 北京首钢自动化信息技术有限公司 | 一种异常生产场景的识别方法 |
CN111597911B (zh) * | 2020-04-22 | 2023-08-29 | 成都运达科技股份有限公司 | 一种基于图像特征快速提取关键帧的方法和系统 |
CN113810695A (zh) * | 2020-06-15 | 2021-12-17 | 中国电信股份有限公司 | 视频编码方法、装置及计算机可读存储介质 |
CN112364832B (zh) * | 2020-12-02 | 2023-02-03 | 华戎信息产业有限公司 | 一种基于欧拉影像放大的人脸识别方法和系统 |
CN117473120A (zh) * | 2023-12-27 | 2024-01-30 | 南京邮电大学 | 一种基于镜头特征的视频检索方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5836003A (en) * | 1993-08-26 | 1998-11-10 | Visnet Ltd. | Methods and means for image and voice compression |
CN102508923A (zh) * | 2011-11-22 | 2012-06-20 | 北京大学 | 基于自动分类和关键字标注的自动视频注释方法 |
CN103824278A (zh) * | 2013-12-10 | 2014-05-28 | 清华大学 | 监控摄像机的标定方法和系统 |
CN103838744A (zh) * | 2012-11-22 | 2014-06-04 | 百度在线网络技术(北京)有限公司 | 一种查询词需求分析的方法及装置 |
CN103902569A (zh) * | 2012-12-27 | 2014-07-02 | 重庆凯泽科技有限公司 | 基于Bag of Words的视频匹配方法 |
CN105843223A (zh) * | 2016-03-23 | 2016-08-10 | 东南大学 | 一种基于空间词袋模型的移动机器人三维建图与避障方法 |
CN107220585A (zh) * | 2017-03-31 | 2017-09-29 | 南京邮电大学 | 一种基于多特征融合镜头聚类的视频关键帧提取方法 |
CN107291825A (zh) * | 2017-05-26 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种视频中同款商品的检索方法和系统 |
CN107590420A (zh) * | 2016-07-07 | 2018-01-16 | 北京新岸线网络技术有限公司 | 视频分析中的场景关键帧提取方法及装置 |
CN108182421A (zh) * | 2018-01-24 | 2018-06-19 | 北京影谱科技股份有限公司 | 视频分割方法和装置 |
CN108415937A (zh) * | 2018-01-24 | 2018-08-17 | 博云视觉(北京)科技有限公司 | 一种图像检索的方法和装置 |
CN108632625A (zh) * | 2017-03-21 | 2018-10-09 | 华为技术有限公司 | 一种视频编码方法、视频解码方法和相关设备 |
CN108710836A (zh) * | 2018-05-04 | 2018-10-26 | 南京邮电大学 | 一种基于级联特征提取的唇部检测及读取方法 |
CN109241342A (zh) * | 2018-07-23 | 2019-01-18 | 中国科学院计算技术研究所 | 基于深度线索的视频场景检索方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8467610B2 (en) * | 2010-10-20 | 2013-06-18 | Eastman Kodak Company | Video summarization using sparse basis function combination |
-
2019
- 2019-07-18 CN CN201910648005.8A patent/CN110427517B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5836003A (en) * | 1993-08-26 | 1998-11-10 | Visnet Ltd. | Methods and means for image and voice compression |
CN102508923A (zh) * | 2011-11-22 | 2012-06-20 | 北京大学 | 基于自动分类和关键字标注的自动视频注释方法 |
CN103838744A (zh) * | 2012-11-22 | 2014-06-04 | 百度在线网络技术(北京)有限公司 | 一种查询词需求分析的方法及装置 |
CN103902569A (zh) * | 2012-12-27 | 2014-07-02 | 重庆凯泽科技有限公司 | 基于Bag of Words的视频匹配方法 |
CN103824278A (zh) * | 2013-12-10 | 2014-05-28 | 清华大学 | 监控摄像机的标定方法和系统 |
CN105843223A (zh) * | 2016-03-23 | 2016-08-10 | 东南大学 | 一种基于空间词袋模型的移动机器人三维建图与避障方法 |
CN107590420A (zh) * | 2016-07-07 | 2018-01-16 | 北京新岸线网络技术有限公司 | 视频分析中的场景关键帧提取方法及装置 |
CN108632625A (zh) * | 2017-03-21 | 2018-10-09 | 华为技术有限公司 | 一种视频编码方法、视频解码方法和相关设备 |
CN107220585A (zh) * | 2017-03-31 | 2017-09-29 | 南京邮电大学 | 一种基于多特征融合镜头聚类的视频关键帧提取方法 |
CN107291825A (zh) * | 2017-05-26 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种视频中同款商品的检索方法和系统 |
CN108182421A (zh) * | 2018-01-24 | 2018-06-19 | 北京影谱科技股份有限公司 | 视频分割方法和装置 |
CN108415937A (zh) * | 2018-01-24 | 2018-08-17 | 博云视觉(北京)科技有限公司 | 一种图像检索的方法和装置 |
CN108710836A (zh) * | 2018-05-04 | 2018-10-26 | 南京邮电大学 | 一种基于级联特征提取的唇部检测及读取方法 |
CN109241342A (zh) * | 2018-07-23 | 2019-01-18 | 中国科学院计算技术研究所 | 基于深度线索的视频场景检索方法和系统 |
Non-Patent Citations (2)
Title |
---|
Fast similarity search and clustering of video sequences on the world-wide-web;A.Zakhor 等;《IEEE Transactions on Multimedia》;20050516;第7卷(第3期);524-537 * |
基于融合SIFT特征和二次聚类视觉词典生成的场景分类方法;郭乐新 等;《厦门大学学报(自然科学版)》;20130328;第52卷(第2期);196-201 * |
Also Published As
Publication number | Publication date |
---|---|
CN110427517A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427517B (zh) | 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质 | |
Matsui et al. | Sketch-based manga retrieval using manga109 dataset | |
Chou et al. | Pattern-based near-duplicate video retrieval and localization on web-scale videos | |
Zhou et al. | Movie genre classification via scene categorization | |
Douze et al. | INRIA-LEARs video copy detection system | |
Gharbi et al. | Key frame extraction for video summarization using local description and repeatability graph clustering | |
Küçüktunç et al. | Video copy detection using multiple visual cues and MPEG-7 descriptors | |
US10387731B2 (en) | Systems and methods for extracting and matching descriptors from data structures describing an image sequence | |
Padmakala et al. | An effective content based video retrieval utilizing texture, color and optimal key frame features | |
Liao et al. | IR feature embedded bof indexing method for near-duplicate video retrieval | |
Prathiba et al. | RETRACTED ARTICLE: Content based video retrieval system based on multimodal feature grouping by KFCM clustering algorithm to promote human–computer interaction | |
Mohan et al. | Domain independent static video summarization using sparse autoencoders and K-means clustering | |
Mounika et al. | Content based video retrieval using dynamic textures | |
Souza et al. | A unified approach to content-based indexing and retrieval of digital videos from television archives. | |
Haroon et al. | Video scene detection using compact bag of visual word models | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
Liao et al. | An efficient content based video copy detection using the sample based hierarchical adaptive k-means clustering | |
JP6364387B2 (ja) | 特徴量生成装置、方法、及びプログラム | |
Natsev et al. | Design and evaluation of an effective and efficient video copy detection system | |
Abbas et al. | Vectors of locally aggregated centers for compact video representation | |
Chou et al. | Multimodal video-to-near-scene annotation | |
Han et al. | Video scene change detection using convolution neural network | |
Potluri et al. | Content based video retrieval using SURF, BRISK and HARRIS features for query-by-image | |
Chatur et al. | A simple review on content based video images retrieval | |
Sasithradevi et al. | Content based video retrieval via object based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |