CN103279579A - 基于视觉空间的视频检索方法 - Google Patents
基于视觉空间的视频检索方法 Download PDFInfo
- Publication number
- CN103279579A CN103279579A CN2013102529640A CN201310252964A CN103279579A CN 103279579 A CN103279579 A CN 103279579A CN 2013102529640 A CN2013102529640 A CN 2013102529640A CN 201310252964 A CN201310252964 A CN 201310252964A CN 103279579 A CN103279579 A CN 103279579A
- Authority
- CN
- China
- Prior art keywords
- concept
- visual
- space
- video
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于视觉空间的视频检索方法。首先构建一个代表视觉关系的知识库,形成初始的视觉概念集。然后采集大量的视频样本应用于初始概念集上,得到初始的训练集,再建立初始训练集内部关系矩阵,对该矩阵进行谱分解,得到每个初始视觉概念的向量表示。将得到的视觉概念向量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,形成视觉概念空间,查询视频通过投射到视觉概念空间进行视频检索。本发明通过构建视觉概念空间的方式,为传统的视频检索提供了一种有效的解决方法,且检索速度快,精度较高,有很大的实时性应用潜力。
Description
技术领域
本发明涉及视频检索技术领域,提出了一种基于视觉空间的视频检测方法。
背景技术
视频检索是一门交叉学科,以图像处理、模式识别、计算机视觉和图像理解等领域的知识为基础,引入媒体数据表示和数据模型,设计出可靠有效的检索算法,从而在大量的视频数据中找到所需的视频资料。
基于内容的视频检索技术是通过提取视频数据中的各种视觉特征,例如颜色、纹理、形状、运动等来建立视频内容索引,以满足用户基于视觉、运动和语义属性等方面的查询要求。目前,针对视频内容的检测认知仍然是以基于底层特征的传统信息检索或者匹配方法为主,而从底层视觉特征到高层语义的映射,高层语义特征和底层视觉特征的融合仍然是一大技术难题。
发明内容
本发明针对上述存在的技术问题而提出一种检测速度快速、精度高的基于视觉空间的视频检索,具体解决方案如下:
基于视觉空间的视频检索方法,其特征在于包括以下步骤:
步骤1、构建初始视觉概念空间:
1A、构建代表视觉关系的知识库;
1B、对视觉关系的知识库进行扩展构成初始的概念集C,C=[C1,C2,…,Cn]里面含有n个概念;
步骤2、构成初始的训练检测集:
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’;
步骤3、构建视觉空间:
3A、衡量所有概念对之间的相似度,得到一个矩阵R,对R进行谱分解,得到每个概念的向量表示;
3B、量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念;
3C、选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S;
步骤4、基于视觉空间的查询过程:
4A、将视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,获得样本Q在视觉空间中表达向量CQ={q1,q2,…};
4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,CQ就得到一组概念{Cq1,Cq2,…},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度,
4C、计算该查询对于某个视频片段I的相似度,计算公式如下:
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,利用公式(7)得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询。
上述技术方案中,所述步骤3中3A步中:
衡量所有概念对之间的相似度采用WordNet的WUP公式计算相似度,公式如下:
其中Ci和Cj表示C’中不相同的两个概念,D(pij)返回一个概念的深度,L(Ci,Cj)返回在WordNet中概念对的路径长度;
C’形成的所有概念对应用公式(1)得到一个矩阵R,表示为:
CTC=R (2)
接着对R进行谱分解如下:
其中∧表示矩阵R在斜对角线上的所有特征值,V表示相应的特征值矩阵,根据公式(2)和(3)可得如下表示:
上述技术方案中,所述步骤4中4A步中:对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,公式如下:
CTCQ=RQ
CQ=(CT)-1RQ (5)
其中RQ为通过计算WUP中CQ到概念空间C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1。
本发明具有以下有益效果:
本发明相对于传统的视频检索技术,提出构建视觉概念空间模型。该模型利用各个视觉概念学习相互关系,形成多维的正交空间,有效的解决了不同概念间无法直接进行衡量比较的问题。同时以视觉概念为检索基础,有效地填补了现实世界与底层特征空间的语义鸿沟,提高了视频检索的精度。同时构建的视觉空间极大的抽象出视频库的内容,减少了视频检索的时间消耗,达到可实时性应用的目的。
附图说明
图1为本发明的流程图。
具体实施方式
本发明提出一种检测速度快速、精度高的基于视觉空间的视频检索,具体解决方案如下:
1.初始视觉概念空间的构建
首先要构建代表视觉关系的知识库,这里选择已有的检测器集合进行扩展(如:可以使用NUS-Wide对Columbia-374或者Vireo-374等进行扩展)从而构成初始的概念集C。这里得到的概念集C相当于一系列检测器的集合,每一个检测器作用表示针对某种概念的检测。例如C=[C1,C2,…,Cn]里面含有n个概念,Ci表示某一个概念,如飞机。
2.初始训练检测集的构建
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,得到初始的训练检测集C’。例如,一个训练样本A(A视频片段中包含飞机、白云和鸟),用检测器集合C进行检测,表示概念飞机、白云和鸟的Ci、Cj和Ck的输出响应值较高,其他的检测器响应值相对较低,A应用于初始概念集C上得出的值可用一个向量表示,A=[A1,A2,...An]。若训练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’。
3.视觉空间构建
矩阵C’,每一行表示一个样本的输出向量,每一列表示一个检测器Ci应用于测试集上的输出集合,记为Ci=[K1,K2,…,Km],此时每一个概念都能表示为Ci的形式。接着衡量所有概念对之间的关系,利用WordNet的WUP公式计算相似度,公式如下:
其中Ci和Cj表示C’中不相同的两个概念,D(pij)返回一个概念的深度,L(Ci,Cj)返回在WordNet中概念对的路径长度。C’形成的所有概念对应用公式(1)得到一个矩阵R,表示为:
CTC=R (2)
接着对R进行谱分解如下:
其中∧表示矩阵R在斜对角线上的所有特征值,V表示相应的特征值矩阵。根据公式(2)和(3)可得如下表示:
从而可以得到每个概念的向量表示。得到的向量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念。选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S。
4.基于视觉空间的查询过程
对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,公式如下:
CTCQ=RQ
CQ=(CT)-1RQ (5)
其中RQ为通过计算WUP中CQ到概念空间C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1。计算两个概念相似关系可以直接采用余弦相似度公式:
通过公式(5),获得样本Q在视觉空间中表达向量CQ={q1,q2,…}。然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,那么CQ可以得到一组概念{Cq1,Cq2,…},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度。接着计算该查询对于某个视频片段I的相似度,计算公式如下:
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,Score(.)是介绍Score这个函数的功能表示。利用公式(7)可以得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询。
Claims (3)
1.基于视觉空间的视频检索方法,其特征在于包括以下步骤:
步骤1、构建初始视觉概念空间:
1A、构建代表视觉关系的知识库;
1B、对视觉关系的知识库进行扩展构成初始的概念集C,C=[C1,C2,…,Cn]里面含有n个概念;
步骤2、构成初始的训练检测集:
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,训练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’;
步骤3、构建视觉空间:
3A、衡量所有概念对之间的相似度,得到一个矩阵R,对R进行谱分解,得到每个概念的向量表示;
3B、量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念;
3C、选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S;
步骤4、基于视觉空间的查询过程:
4A、将视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,获得样本Q在视觉空间中表达向量CQ={q1,q2,...};
4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,CQ就得到一组概念{Cq1,Cq2,...},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度,公式如下:
4C、计算该查询对于某个视频片段I的相似度,计算公式如下:
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,利用公式(7)得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询。
3.根据权利要求1所述的基于视觉空间的视频检索方法,其特征在于:所述步骤4中4A步中:对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,公式如下:
CTCQ=RQ
CQ=(CT)-1RQ (5)
其中RQ为通过计算WUP中CQ到概念空间C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310252964.0A CN103279579B (zh) | 2013-06-24 | 2013-06-24 | 基于视觉空间的视频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310252964.0A CN103279579B (zh) | 2013-06-24 | 2013-06-24 | 基于视觉空间的视频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103279579A true CN103279579A (zh) | 2013-09-04 |
CN103279579B CN103279579B (zh) | 2016-07-06 |
Family
ID=49062096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310252964.0A Expired - Fee Related CN103279579B (zh) | 2013-06-24 | 2013-06-24 | 基于视觉空间的视频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279579B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142995A (zh) * | 2014-07-30 | 2014-11-12 | 中国科学院自动化研究所 | 基于视觉属性的社会事件识别方法 |
CN105139421B (zh) * | 2015-08-14 | 2018-07-24 | 西安西拓电气股份有限公司 | 电力系统基于互信息量的视频关键帧提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN101968797A (zh) * | 2010-09-10 | 2011-02-09 | 北京大学 | 一种基于镜头间上下文的视频概念标注方法 |
US20120179704A1 (en) * | 2009-09-16 | 2012-07-12 | Nanyang Technological University | Textual query based multimedia retrieval system |
-
2013
- 2013-06-24 CN CN201310252964.0A patent/CN103279579B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
US20120179704A1 (en) * | 2009-09-16 | 2012-07-12 | Nanyang Technological University | Textual query based multimedia retrieval system |
CN101968797A (zh) * | 2010-09-10 | 2011-02-09 | 北京大学 | 一种基于镜头间上下文的视频概念标注方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142995A (zh) * | 2014-07-30 | 2014-11-12 | 中国科学院自动化研究所 | 基于视觉属性的社会事件识别方法 |
CN104142995B (zh) * | 2014-07-30 | 2017-09-26 | 中国科学院自动化研究所 | 基于视觉属性的社会事件识别方法 |
CN105139421B (zh) * | 2015-08-14 | 2018-07-24 | 西安西拓电气股份有限公司 | 电力系统基于互信息量的视频关键帧提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103279579B (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948425B (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
CN107273517B (zh) | 基于图嵌入学习的图文跨模态检索方法 | |
CN103049526B (zh) | 基于双空间学习的跨媒体检索方法 | |
CN100388282C (zh) | 基于多模态信息融合分析的跨媒体检索方法 | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
CN104156433B (zh) | 一种基于语义映射空间构建的图像检索方法 | |
CN106203483B (zh) | 一种基于语义相关多模态映射方法的零样本图像分类方法 | |
CN103778240B (zh) | 基于功能磁共振成像和图像字典稀疏分解的图像检索方法 | |
CN107123033A (zh) | 一种基于深度卷积神经网络的服装搭配方法 | |
CN104572965A (zh) | 基于卷积神经网络的以图搜图系统 | |
CN114461836A (zh) | 一种用于图像-文本的跨模态检索方法 | |
CN105849720A (zh) | 视觉语义复合网络以及用于形成该网络的方法 | |
CN106034264B (zh) | 基于协同模型的获取视频摘要的方法 | |
CN106844620B (zh) | 一种基于视图的特征匹配三维模型检索方法 | |
CN102693316B (zh) | 基于线性泛化回归模型的跨媒体检索方法 | |
CN110348494A (zh) | 一种基于双通道残差神经网络的人体动作识别方法 | |
CN103577537A (zh) | 面向图像分享网站图片的多重配对相似度确定方法 | |
CN105701225A (zh) | 一种基于统一关联超图规约的跨媒体检索方法 | |
CN109583371A (zh) | 基于深度学习的陆标信息提取与匹配方法 | |
CN108280158A (zh) | 基于梯度方向累加热核特征的非刚性三维模型检索方法 | |
CN103279579B (zh) | 基于视觉空间的视频检索方法 | |
CN116049434A (zh) | 电力施工安全知识图谱的构建方法、装置及电子设备 | |
CN103279580A (zh) | 基于新型语义空间的视频检索方法 | |
CN108763560B (zh) | 基于图模型的三维人体运动检索方法 | |
Sun et al. | Learning spatio-temporal co-occurrence correlograms for efficient human action classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160706 |