CN103279579B - 基于视觉空间的视频检索方法 - Google Patents
基于视觉空间的视频检索方法 Download PDFInfo
- Publication number
- CN103279579B CN103279579B CN201310252964.0A CN201310252964A CN103279579B CN 103279579 B CN103279579 B CN 103279579B CN 201310252964 A CN201310252964 A CN 201310252964A CN 103279579 B CN103279579 B CN 103279579B
- Authority
- CN
- China
- Prior art keywords
- concept
- space
- initial
- visual
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于视觉空间的视频检索方法。首先构建一个代表视觉关系的知识库,形成初始的视觉概念集。然后采集大量的视频样本应用于初始概念集上,得到初始的训练集,再建立初始训练集内部关系矩阵,对该矩阵进行谱分解,得到每个初始视觉概念的向量表示。将得到的视觉概念向量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,形成视觉概念空间,查询视频通过投射到视觉概念空间进行视频检索。本发明通过构建视觉概念空间的方式,为传统的视频检索提供了一种有效的解决方法,且检索速度快,精度较高,有很大的实时性应用潜力。
Description
技术领域
本发明涉及视频检索技术领域,提出了一种基于视觉空间的视频检测方法。
背景技术
视频检索是一门交叉学科,以图像处理、模式识别、计算机视觉和图像理解等领域的知识为基础,引入媒体数据表示和数据模型,设计出可靠有效的检索算法,从而在大量的视频数据中找到所需的视频资料。
基于内容的视频检索技术是通过提取视频数据中的各种视觉特征,例如颜色、纹理、形状、运动等来建立视频内容索引,以满足用户基于视觉、运动和语义属性等方面的查询要求。目前,针对视频内容的检测认知仍然是以基于底层特征的传统信息检索或者匹配方法为主,而从底层视觉特征到高层语义的映射,高层语义特征和底层视觉特征的融合仍然是一大技术难题。
发明内容
本发明针对上述存在的技术问题而提出一种检测速度快速、精度高的基于视觉空间的视频检索,具体解决方案如下:
基于视觉空间的视频检索方法,其特征在于包括以下步骤:
步骤1、构建初始视觉概念空间:
1A、构建代表视觉关系的知识库;
1B、对视觉关系的知识库进行扩展构成初始的概念集C,C=[C1,C2,…,Cn]里面含有n个概念;
步骤2、构成初始的训练检测集:
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’;
步骤3、构建视觉空间:
3A、衡量所有概念对之间的相似度,得到一个矩阵R,对R进行谱分解,得到每个概念的向量表示;
3B、量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念;
3C、选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S;
步骤4、基于视觉空间的查询过程:
4A、将视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,获得样本Q在视觉空间中表达向量CQ={q1,q2,…};
4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,CQ就得到一组概念{Cq1,Cq2,…},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度,
4C、计算该查询对于某个视频片段I的相似度,计算公式如下:
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,利用公式(7)得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询。
上述技术方案中,所述步骤3中3A步中:
衡量所有概念对之间的相似度采用WordNet的WUP公式计算相似度,公式如下:
其中Ci和Cj表示C’中不相同的两个概念,D(pij)返回一个概念的深度,L(Ci,Cj)返回在WordNet中概念对的路径长度;
C’形成的所有概念对应用公式(1)得到一个矩阵R,表示为:
CTC=R(2)
接着对R进行谱分解如下:
其中∧表示矩阵R在斜对角线上的所有特征值,V表示相应的特征值矩阵,根据公式(2)和(3)可得如下表示:
上述技术方案中,所述步骤4中4A步中:对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,公式如下:
CTCQ=RQ
CQ=(CT)-1RQ(5)
其中RQ为通过计算WUP中CQ到概念空间C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1。
本发明具有以下有益效果:
本发明相对于传统的视频检索技术,提出构建视觉概念空间模型。该模型利用各个视觉概念学习相互关系,形成多维的正交空间,有效的解决了不同概念间无法直接进行衡量比较的问题。同时以视觉概念为检索基础,有效地填补了现实世界与底层特征空间的语义鸿沟,提高了视频检索的精度。同时构建的视觉空间极大的抽象出视频库的内容,减少了视频检索的时间消耗,达到可实时性应用的目的。
附图说明
图1为本发明的流程图。
具体实施方式
本发明提出一种检测速度快速、精度高的基于视觉空间的视频检索,具体解决方案如下:
1.初始视觉概念空间的构建
首先要构建代表视觉关系的知识库,这里选择已有的检测器集合进行扩展(如:可以使用NUS-Wide对Columbia-374或者Vireo-374等进行扩展)从而构成初始的概念集C。这里得到的概念集C相当于一系列检测器的集合,每一个检测器作用表示针对某种概念的检测。例如C=[C1,C2,…,Cn]里面含有n个概念,Ci表示某一个概念,如飞机。
2.初始训练检测集的构建
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,得到初始的训练检测集C’。例如,一个训练样本A(A视频片段中包含飞机、白云和鸟),用检测器集合C进行检测,表示概念飞机、白云和鸟的Ci、Cj和Ck的输出响应值较高,其他的检测器响应值相对较低,A应用于初始概念集C上得出的值可用一个向量表示,A=[A1,A2,...An]。若训练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’。
3.视觉空间构建
矩阵C’,每一行表示一个样本的输出向量,每一列表示一个检测器Ci应用于测试集上的输出集合,记为Ci=[K1,K2,…,Km],此时每一个概念都能表示为Ci的形式。接着衡量所有概念对之间的关系,利用WordNet的WUP公式计算相似度,公式如下:
其中Ci和Cj表示C’中不相同的两个概念,D(pij)返回一个概念的深度,L(Ci,Cj)返回在WordNet中概念对的路径长度。C’形成的所有概念对应用公式(1)得到一个矩阵R,表示为:
CTC=R(2)
接着对R进行谱分解如下:
其中∧表示矩阵R在斜对角线上的所有特征值,V表示相应的特征值矩阵。根据公式(2)和(3)可得如下表示:
从而可以得到每个概念的向量表示。得到的向量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念。选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S。
4.基于视觉空间的查询过程
对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,公式如下:
CTCQ=RQ
CQ=(CT)-1RQ(5)
其中RQ为通过计算WUP中CQ到概念空间C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1。计算两个概念相似关系可以直接采用余弦相似度公式:
通过公式(5),获得样本Q在视觉空间中表达向量CQ={q1,q2,…}。然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,那么CQ可以得到一组概念{Cq1,Cq2,…},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度。接着计算该查询对于某个视频片段I的相似度,计算公式如下:
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,Score(.)是介绍Score这个函数的功能表示。利用公式(7)可以得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询。
Claims (1)
1.基于视觉空间的视频检索方法,其特征在于包括以下步骤:
步骤1、构建初始视觉概念空间:
1A、构建代表视觉关系的知识库;
1B、对视觉关系的知识库进行扩展构成初始概念集C,C=[C1,C2,…,Cn]里面含有n个概念;
步骤2、构成初始的训练检测集:
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,训练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’;
步骤3、构建视觉概念空间:
3A、衡量所有概念对之间的相似度,得到一个矩阵R,对R进行谱分解,得到每个概念的向量表示;
3B、向量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念;
3C、选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间;
步骤4、基于视觉空间的查询过程:
4A、将视觉查询样本Q,将其投射到视觉概念空间中形成一个向量CQ,获得样本Q在视觉空间中表达向量CQ={q1,q2,…qi};
4B、然后利用公式(6)计算qi和初始概念集C中所有概念的相似度,得到相似度最高的Cqi,CQ就得到一组概念{Cq1,Cq2,…},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度;
4C、计算该查询对于某个视频片段I的相似度,计算公式如下:
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,利用公式(7)得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询;
所述步骤4中4A步中:对于一个视觉查询样本Q,将其投射到视觉概念空间中形成一个向量CQ,
公式如下:CTCQ=RQ
CQ=(CT)-1RQ(5)
其中RQ为通过计算WUP中CQ到初始概念集C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1;
所述步骤3中3A步中:
衡量所有概念对之间的相似度采用WordNet的WUP公式计算相似度,公式如下:
其中Ci和Cj表示C’中不相同的两个概念,D(pij)返回一个概念的深度,L(Ci,Cj)返回在WordNet中概念对的路径长度;
C’形成的所有概念对应用公式(1)得到一个矩阵R,表示为:
CTC=R(2)
接着对R进行谱分解如下:
其中∧表示矩阵R在斜对角线上的所有特征值,V表示相应的特征值矩阵,根据公式(2)和(3)可得初始概念集C的如下表示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310252964.0A CN103279579B (zh) | 2013-06-24 | 2013-06-24 | 基于视觉空间的视频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310252964.0A CN103279579B (zh) | 2013-06-24 | 2013-06-24 | 基于视觉空间的视频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103279579A CN103279579A (zh) | 2013-09-04 |
CN103279579B true CN103279579B (zh) | 2016-07-06 |
Family
ID=49062096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310252964.0A Active CN103279579B (zh) | 2013-06-24 | 2013-06-24 | 基于视觉空间的视频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279579B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142995B (zh) * | 2014-07-30 | 2017-09-26 | 中国科学院自动化研究所 | 基于视觉属性的社会事件识别方法 |
CN105139421B (zh) * | 2015-08-14 | 2018-07-24 | 西安西拓电气股份有限公司 | 电力系统基于互信息量的视频关键帧提取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN101968797A (zh) * | 2010-09-10 | 2011-02-09 | 北京大学 | 一种基于镜头间上下文的视频概念标注方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011034502A1 (en) * | 2009-09-16 | 2011-03-24 | Nanyang Technological University | Textual query based multimedia retrieval system |
-
2013
- 2013-06-24 CN CN201310252964.0A patent/CN103279579B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN101968797A (zh) * | 2010-09-10 | 2011-02-09 | 北京大学 | 一种基于镜头间上下文的视频概念标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103279579A (zh) | 2013-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cao et al. | An improved faster R-CNN for small object detection | |
KR101768521B1 (ko) | 이미지에 포함된 객체에 대한 정보 데이터를 제공하는 방법 및 시스템 | |
CN104239898B (zh) | 一种快速卡口车辆比对和车型识别方法 | |
CN105027162B (zh) | 图像解析装置、图像解析系统、图像解析方法 | |
CN102549603B (zh) | 基于相关性的图像选择 | |
CN111666313A (zh) | 基于多源异构遥感数据关联构建及多用户数据匹配方法 | |
CN110059807A (zh) | 图像处理方法、装置和存储介质 | |
CN104572965A (zh) | 基于卷积神经网络的以图搜图系统 | |
WO2015175736A1 (en) | Natural language image search | |
Bui et al. | Scalable sketch-based image retrieval using color gradient features | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
Xie et al. | Combination of dominant color descriptor and Hu moments in consistent zone for content based image retrieval | |
CN105849720A (zh) | 视觉语义复合网络以及用于形成该网络的方法 | |
CN105893573B (zh) | 一种基于地点的多模态媒体数据主题提取模型 | |
CN106228539A (zh) | 一种三维点云中多种几何基元自动识别方法 | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
Quan et al. | Improved deeplabv3 for better road segmentation in remote sensing images | |
CN103279579B (zh) | 基于视觉空间的视频检索方法 | |
Zhao et al. | Hybrid generative/discriminative scene classification strategy based on latent Dirichlet allocation for high spatial resolution remote sensing imagery | |
CN109583371A (zh) | 基于深度学习的陆标信息提取与匹配方法 | |
Sun et al. | Learning spatio-temporal co-occurrence correlograms for efficient human action classification | |
CN105740879A (zh) | 基于多模态判别分析的零样本图像分类方法 | |
Jiang et al. | IARet: A lightweight multiscale infrared aerocraft recognition algorithm | |
Zhai et al. | GAN-BiLSTM network for field-road classification on imbalanced GNSS recordings | |
Guo et al. | Object discovery in high-resolution remote sensing images: a semantic perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |