CN103902569A - 基于Bag of Words的视频匹配方法 - Google Patents

基于Bag of Words的视频匹配方法 Download PDF

Info

Publication number
CN103902569A
CN103902569A CN201210578139.5A CN201210578139A CN103902569A CN 103902569 A CN103902569 A CN 103902569A CN 201210578139 A CN201210578139 A CN 201210578139A CN 103902569 A CN103902569 A CN 103902569A
Authority
CN
China
Prior art keywords
video
sub
camera lens
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210578139.5A
Other languages
English (en)
Inventor
屈景春
吴军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHONGQING KAIZE TECHNOLOGY Co Ltd
Original Assignee
CHONGQING KAIZE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHONGQING KAIZE TECHNOLOGY Co Ltd filed Critical CHONGQING KAIZE TECHNOLOGY Co Ltd
Priority to CN201210578139.5A priority Critical patent/CN103902569A/zh
Publication of CN103902569A publication Critical patent/CN103902569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Bag of Words的视频匹配方法,具体步骤如下:(a)提取图像的局部特征;(b)量化图像的局部特征,构建视觉关键词辞典;(c)将图像表示为由若干视觉关键词组成的集合。本发明的基于BagofWords的视频匹配方法,将视频子镜头描述为若干视觉关键词组成的序列,在保留局部特征的同时压缩了视频的索引数据,并在此基础上构建了基于子镜头特征编码的倒排索引表,解决了视频子镜头的快速查找和匹配的问题,比传统基于特征相似性比较的方法具有更高的匹配精度和更快的检索速度。

Description

基于Bag of Words的视频匹配方法
技术领域
本发明涉及一种基于Bag of Words的视频匹配方法。
背景技术
随着电视节目的积累和网络视频的普及,视频数据库的规模和容量正在迅速增加,于是自动地对大量的并且正在不断增加的视频进行分析和理解成为一项越来越紧迫的任务。与此同时,如何组织视频数据并实现快速检索也成为越来越重要的研究课题。
对于视频检索,现有通用的方法主要是通过手动的方法对视频中的内容进行标注,然后按照这种标注对视频进行组织和索引。这种方法的缺点是在大量甚至海量的视频样本空间中,使用手工标注是一件费时费力的工作,同时使用若干标注词或者文字段落很难将视频中全部的内容都表述清楚。所以从发展的角度来看,对于海量的视频存储组织与索引应当更多地从视频的内容出发,在视频库中找到与目标视频最匹配的视频。
大样本空间中的视频匹配技术是根据用户提交的待查询视频,在视频数据库中查找与其内容一致的视频片段。比如对一个包含多个广告的视频序列,在视频数据库中进行查找与其内容一致的视频片段,根据匹配查找的结果就能得到对应广告视频的具体信息,并且能够确定该广告出现在该视频序列中的位置。
视频匹配技术与传统的基于内容的视频检索(content-based video retrieval)存在许多相似之处。基于内容的视频检索,是根据用户提交的视频实例,在视频数据库中查找与其相似的视频片断,其基本思想是提取视频片段的特征并计算与视频数据库中各视频片断的相似度,通过对相似度从高到底排列得到检索结果。虽然视频检索和视频匹配的目标都是为了实现目标视频的一到多的查询,但两者仍存在显著的差异。视频检索更注重相似度度量方面的研究,关心如何快速查找出与查询相关的视频,视频匹配更注重视频数据的建模和索引,关心如何快速查找出查询视频中与视频样本一致的视频片段。
由于视频的内在特性,顺序扫描并计算视频片段相似性的方法在视频匹配问题中效率低下。许多研究者提出了不同的视频建模方法以提高相似性查询的效率。文献[1]采用随机采样的办法,将视频描述为若干关键帧ViSig(Video Signature)的集合,以达到压缩视频索引提高查询速度的目的。但以帧为单位建立索引,忽略了视频序列中各帧的时间顺序,影响了查询精度。文献[2]提出了一种介于镜头和帧之间的视频表示形式,并以此为基本单位提取全局特征,通过K均值聚类的方法加速了高维索引查询过程,但查询精度易受聚类效果影响。文献[3]在文献[2]的基础上利用VA-File (vector- approximation file)组织视频数据库,通过数据压缩和近似计算提高查询效率。这些方法或者从视频帧或者从视频片段中提取高维的特征向量以实现视频的相似性计算,但由于要同时考虑全局和局部的特征,即使使用了不同的降维方法,高维特征的索引和相似性计算的代价仍然是视频检索和匹配系统的一大瓶颈。
发明内容
本发明要解决的技术问题是:为了克服上述中存在的问题,提供一种基于Bag of Words的视频匹配方法。
本发明解决其技术问题所采用的技术方案是:一种基于Bag of Words的视频匹配方法,其特征是具体步骤如下:
(a)提取图像的局部特征;
(b)量化图像的局部特征,构建视觉关键词辞典;
(c)将图像表示为由若干视觉关键词组成的集合。
(a)中提取图像的局部特征的具体步骤如下:步骤1:将一个镜头内部的内容分解为复数个子镜头;
步骤2:对每个子镜头内每一帧图像进行特征抽取:(1)图像的统计特征;(2)局部区域的兴趣点描述子;
步骤3:选择64维亮度直方图作为图像的统计特征;选择计算8*8=64维SIFT描述子作为兴趣点描述子;将每帧图像分为4×4=16个区域;
步骤4:利用在线滑动窗口的方法提取子镜头,其具体算法步骤如下:
(1)利用子镜头依次进行输入视频V,提取当前帧图像T m ,提取帧特征F m ,当前活动子镜头的特征S n
(2)计算S n F m 之间的距离, 。
(b)量化图像的局部特征,构建视觉关键词辞典的具体步骤如下:(1)输入视频;
(2)对输入视频利用子镜头分割特征提取;
(3)将提取到的特征输入视觉关键词辞典;
(4)视觉关键词辞典构建后进行子镜头特征量化;
(5)量化后的子镜头特征作为索引的基本单位,用于构建出子镜头编码索引表和子镜头倒排索引表。
(c)将图像表示为由若干视觉关键词组成的集合的具体步骤如下:(1)提取局部特征,视频数据库中子镜头的所有子区域特征被k-means聚类方法量化为k个离散的特征向量,k个均值特征向量为局部特征对应的视觉关键词;
(2)子镜头的每个子区域特征被映射到这k个视觉关键词中,并用该视觉关键词对应的标号(1…k)表示;
(3)子镜头则相应地表示为16个整数,当中的每个整数与子区域映射的视觉关键词的标号对应。
本发明的有益效果是,本发明的基于Bag of Words的视频匹配方法,将视频子镜头描述为若干视觉关键词组成的序列, 在保留局部特征的同时压缩了视频的索引数据,并在此基础上构建了基于子镜头特征编码的倒排索引表,解决了视频子镜头的快速查找和匹配的问题,比传统基于特征相似性比较的方法具有更高的匹配精度和更快的检索速度。 
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明的子镜头分割流程图;
图2是本发明子镜头分割示例图;
图3是本发明子镜头检索流程图;
图4是本发明子镜头的表示方法示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
本发明的基于Bag of Words的视频匹配方法,具体步骤如下:
(a)提取图像的局部特征;
(b)量化图像的局部特征,构建视觉关键词辞典;
(c)将图像表示为由若干视觉关键词组成的集合。
如图1和图2所示的基于Bag of Words的视频匹配方法,(a)中提取图像的局部特征的具体步骤如下:步骤1:将一个镜头内部的内容分解为复数个子镜头;
步骤2:对每个子镜头内每一帧图像进行特征抽取:(1)图像的统计特征;(2)局部区域的兴趣点描述子;
步骤3:选择64维亮度直方图作为图像的统计特征;选择计算8*8=64维SIFT描述子作为兴趣点描述子;将每帧图像分为4×4=16个区域;
步骤4:利用在线滑动窗口的方法提取子镜头,其具体算法步骤如下:
(1)利用子镜头依次进行输入视频V,提取当前帧图像T m ,提取帧特征F m ,当前活动子镜头的特征S n
(2)计算S n F m 之间的距离, 。
如图3所示的基于Bag of Words的视频匹配方法,(b)量化图像的局部特征,构建视觉关键词辞典的具体步骤如下:(1)输入视频;
(2)对输入视频利用子镜头分割特征提取;
(3)将提取到的特征输入视觉关键词辞典;
(4)视觉关键词辞典构建后进行子镜头特征量化;
(5)量化后的子镜头特征作为索引的基本单位,用于构建出子镜头编码索引表和子镜头倒排索引表。
如图4所示的基于Bag of Words的视频匹配方法,(c)将图像表示为由若干视觉关键词组成的集合的具体步骤如下:(1)提取局部特征,视频数据库中子镜头的所有子区域特征被k-means聚类方法量化为k个离散的特征向量,k个均值特征向量为局部特征对应的视觉关键词;
(2)子镜头的每个子区域特征被映射到这k个视觉关键词中,并用该视觉关键词对应的标号(1…k)表示;
(3)子镜头则相应地表示为16个整数,当中的每个整数与子区域映射的视觉关键词的标号对应。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (4)

1.一种基于Bag of Words的视频匹配方法,其特征是具体步骤如下:
(a)提取图像的局部特征;
(b)量化图像的局部特征,构建视觉关键词辞典;
(c)将图像表示为由若干视觉关键词组成的集合。
2.根据权利要求1所述的基于Bag of Words的视频匹配方法,其特征是:(a)中提取图像的局部特征的具体步骤如下:步骤1:将一个镜头内部的内容分解为复数个子镜头;
步骤2:对每个子镜头内每一帧图像进行特征抽取:(1)图像的统计特征;(2)局部区域的兴趣点描述子;
步骤3:选择64维亮度直方图作为图像的统计特征;选择计算8*8=64维SIFT描述子作为兴趣点描述子;将每帧图像分为4×4=16个区域;
步骤4:利用在线滑动窗口的方法提取子镜头,其具体算法步骤如下:
(1)利用子镜头依次进行输入视频V,提取当前帧图像T m ,提取帧特征F m ,当前活动子镜头的特征S n
(2)计算S n F m 之间的距离, 。
3.根据权利要求1所述的基于Bag of Words的视频匹配方法,其特征是:(b)量化图像的局部特征,构建视觉关键词辞典的具体步骤如下:(1)输入视频;
(2)对输入视频利用子镜头分割特征提取;
(3)将提取到的特征输入视觉关键词辞典;
(4)视觉关键词辞典构建后进行子镜头特征量化;
(5)量化后的子镜头特征作为索引的基本单位,用于构建出子镜头编码索引表和子镜头倒排索引表。
4.根据权利要求1所述的基于Bag of Words的视频匹配方法,其特征是:(c)将图像表示为由若干视觉关键词组成的集合的具体步骤如下:(1)提取局部特征,视频数据库中子镜头的所有子区域特征被k-means聚类方法量化为k个离散的特征向量,k个均值特征向量为局部特征对应的视觉关键词;
(2)子镜头的每个子区域特征被映射到这k个视觉关键词中,并用该视觉关键词对应的标号(1…k)表示;
(3)子镜头则相应地表示为16个整数,当中的每个整数与子区域映射的视觉关键词的标号对应。
CN201210578139.5A 2012-12-27 2012-12-27 基于Bag of Words的视频匹配方法 Pending CN103902569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210578139.5A CN103902569A (zh) 2012-12-27 2012-12-27 基于Bag of Words的视频匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210578139.5A CN103902569A (zh) 2012-12-27 2012-12-27 基于Bag of Words的视频匹配方法

Publications (1)

Publication Number Publication Date
CN103902569A true CN103902569A (zh) 2014-07-02

Family

ID=50993897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210578139.5A Pending CN103902569A (zh) 2012-12-27 2012-12-27 基于Bag of Words的视频匹配方法

Country Status (1)

Country Link
CN (1) CN103902569A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902605A (zh) * 2012-12-28 2014-07-02 重庆凯泽科技有限公司 一种折中特征量化的方法
CN104239897A (zh) * 2014-09-04 2014-12-24 天津大学 一种基于自编码器词袋的视觉特征表示方法
CN106021321A (zh) * 2016-05-06 2016-10-12 成都索贝数码科技股份有限公司 基于图片的在线实时视频的检索方法
CN107153670A (zh) * 2017-01-23 2017-09-12 合肥麟图信息科技有限公司 基于多幅图像融合的视频检索方法及系统
CN110427517A (zh) * 2019-07-18 2019-11-08 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN111914117A (zh) * 2020-07-03 2020-11-10 武汉邦拓信息科技有限公司 一种面向检索的监控视频大数据记录方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘存娜: "基于时空短语的视频检索", 《中国优秀硕士学位论文全文数据库》 *
周志立: "基于内容的视频拷贝检测算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902605A (zh) * 2012-12-28 2014-07-02 重庆凯泽科技有限公司 一种折中特征量化的方法
CN104239897A (zh) * 2014-09-04 2014-12-24 天津大学 一种基于自编码器词袋的视觉特征表示方法
CN104239897B (zh) * 2014-09-04 2017-05-17 天津大学 一种基于自编码器词袋的视觉特征表示方法
CN106021321A (zh) * 2016-05-06 2016-10-12 成都索贝数码科技股份有限公司 基于图片的在线实时视频的检索方法
CN106021321B (zh) * 2016-05-06 2019-05-21 成都索贝数码科技股份有限公司 基于图片的在线实时视频的检索方法
CN107153670A (zh) * 2017-01-23 2017-09-12 合肥麟图信息科技有限公司 基于多幅图像融合的视频检索方法及系统
CN110427517A (zh) * 2019-07-18 2019-11-08 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN110427517B (zh) * 2019-07-18 2023-04-25 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN111914117A (zh) * 2020-07-03 2020-11-10 武汉邦拓信息科技有限公司 一种面向检索的监控视频大数据记录方法及系统

Similar Documents

Publication Publication Date Title
CN109815364B (zh) 一种海量视频特征提取、存储和检索方法及系统
CN105027162B (zh) 图像解析装置、图像解析系统、图像解析方法
CN103902569A (zh) 基于Bag of Words的视频匹配方法
CN104199931B (zh) 一种商标图像一致语义提取方法及商标检索方法
CN107169106B (zh) 视频检索方法、装置、存储介质及处理器
CN103226585B (zh) 面向图像检索的自适应哈希重排方法
Ayed et al. MapReduce based text detection in big data natural scene videos
CN1851710A (zh) 嵌入式多媒体基于关键帧的视频检索的实现方法
CN107153670B (zh) 基于多幅图像融合的视频检索方法及系统
EP2639745A1 (en) Object identification in images or image sequences
CN1851709A (zh) 嵌入式多媒体基于内容的查询和检索的实现方法
CN102890700A (zh) 一种基于体育比赛视频的相似视频片段检索方法
CN105589974A (zh) 基于Hadoop平台的监控视频检索方法和系统
CN105022752A (zh) 图像检索方法与装置
CN111382620B (zh) 视频标签添加方法、计算机存储介质和电子设备
CN107229710A (zh) 一种基于局部特征描述符的视频分析方法
CN103279473A (zh) 海量视频内容检索方法、系统及移动终端
CN104317946A (zh) 一种基于多张关键图的图像内容检索方法
CN111651635A (zh) 一种基于自然语言描述的视频检索方法
Pattanaik et al. Efficient content based image retrieval system using mpeg-7 features
KR20220032627A (ko) 프레임 처리방법 및 장치
Lin et al. A local bag-of-features model for large-scale object retrieval
CN114637886A (zh) 一种基于多协议的机器视觉系统
CN109241342B (zh) 基于深度线索的视频场景检索方法和系统
CN107609104B (zh) 根据视频图像素材查找相关视频的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140702