CN103279579A - 基于视觉空间的视频检索方法 - Google Patents

基于视觉空间的视频检索方法 Download PDF

Info

Publication number
CN103279579A
CN103279579A CN2013102529640A CN201310252964A CN103279579A CN 103279579 A CN103279579 A CN 103279579A CN 2013102529640 A CN2013102529640 A CN 2013102529640A CN 201310252964 A CN201310252964 A CN 201310252964A CN 103279579 A CN103279579 A CN 103279579A
Authority
CN
China
Prior art keywords
concept
space
visual
video
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102529640A
Other languages
English (en)
Other versions
CN103279579B (zh
Inventor
魏骁勇
杨震群
孙洋
黄劲
徐浩然
Original Assignee
魏骁勇
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 魏骁勇 filed Critical 魏骁勇
Priority to CN201310252964.0A priority Critical patent/CN103279579B/zh
Publication of CN103279579A publication Critical patent/CN103279579A/zh
Application granted granted Critical
Publication of CN103279579B publication Critical patent/CN103279579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于视觉空间的视频检索方法。首先构建一个代表视觉关系的知识库,形成初始的视觉概念集。然后采集大量的视频样本应用于初始概念集上,得到初始的训练集,再建立初始训练集内部关系矩阵,对该矩阵进行谱分解,得到每个初始视觉概念的向量表示。将得到的视觉概念向量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,形成视觉概念空间,查询视频通过投射到视觉概念空间进行视频检索。本发明通过构建视觉概念空间的方式,为传统的视频检索提供了一种有效的解决方法,且检索速度快,精度较高,有很大的实时性应用潜力。

Description

基于视觉空间的视频检索方法
技术领域
本发明涉及视频检索技术领域,提出了一种基于视觉空间的视频检测方法。
背景技术
视频检索是一门交叉学科,以图像处理、模式识别、计算机视觉和图像理解等领域的知识为基础,引入媒体数据表示和数据模型,设计出可靠有效的检索算法,从而在大量的视频数据中找到所需的视频资料。
基于内容的视频检索技术是通过提取视频数据中的各种视觉特征,例如颜色、纹理、形状、运动等来建立视频内容索引,以满足用户基于视觉、运动和语义属性等方面的查询要求。目前,针对视频内容的检测认知仍然是以基于底层特征的传统信息检索或者匹配方法为主,而从底层视觉特征到高层语义的映射,高层语义特征和底层视觉特征的融合仍然是一大技术难题。
发明内容
本发明针对上述存在的技术问题而提出一种检测速度快速、精度高的基于视觉空间的视频检索,具体解决方案如下:
基于视觉空间的视频检索方法,其特征在于包括以下步骤:
步骤1、构建初始视觉概念空间:
1A、构建代表视觉关系的知识库;
1B、对视觉关系的知识库进行扩展构成初始的概念集C,C=[C1,C2,…,Cn]里面含有n个概念;
步骤2、构成初始的训练检测集:
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’;
步骤3、构建视觉空间:
3A、衡量所有概念对之间的相似度,得到一个矩阵R,对R进行谱分解,得到每个概念的向量表示;
3B、量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念;
3C、选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S;
步骤4、基于视觉空间的查询过程:
4A、将视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,获得样本Q在视觉空间中表达向量CQ={q1,q2,…};
4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,CQ就得到一组概念{Cq1,Cq2,…},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度,
Semantic ( C i , C j ) = C i C j | C i | * | C j | - - - ( 6 )
4C、计算该查询对于某个视频片段I的相似度,计算公式如下:
Sim ( Q , I ) = Σ C qi ∈ C Q Semantic ( qi , C qi ) * Score ( C qi , I ) - - - ( 7 )
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,利用公式(7)得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询。
上述技术方案中,所述步骤3中3A步中:
衡量所有概念对之间的相似度采用WordNet的WUP公式计算相似度,公式如下:
WUP ( C i , C j ) = 2 D ( p ij ) L ( C i , C j ) + 2 D ( p ij ) - - - ( 1 )
其中Ci和Cj表示C’中不相同的两个概念,D(pij)返回一个概念的深度,L(Ci,Cj)返回在WordNet中概念对的路径长度;
C’形成的所有概念对应用公式(1)得到一个矩阵R,表示为:
CTC=R            (2)
接着对R进行谱分解如下:
Figure BDA00003397827700024
其中∧表示矩阵R在斜对角线上的所有特征值,V表示相应的特征值矩阵,根据公式(2)和(3)可得如下表示:
上述技术方案中,所述步骤4中4A步中:对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,公式如下:
CTCQ=RQ
CQ=(CT)-1RQ      (5)
其中RQ为通过计算WUP中CQ到概念空间C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1
本发明具有以下有益效果:
本发明相对于传统的视频检索技术,提出构建视觉概念空间模型。该模型利用各个视觉概念学习相互关系,形成多维的正交空间,有效的解决了不同概念间无法直接进行衡量比较的问题。同时以视觉概念为检索基础,有效地填补了现实世界与底层特征空间的语义鸿沟,提高了视频检索的精度。同时构建的视觉空间极大的抽象出视频库的内容,减少了视频检索的时间消耗,达到可实时性应用的目的。
附图说明
图1为本发明的流程图。
具体实施方式
本发明提出一种检测速度快速、精度高的基于视觉空间的视频检索,具体解决方案如下:
1.初始视觉概念空间的构建
首先要构建代表视觉关系的知识库,这里选择已有的检测器集合进行扩展(如:可以使用NUS-Wide对Columbia-374或者Vireo-374等进行扩展)从而构成初始的概念集C。这里得到的概念集C相当于一系列检测器的集合,每一个检测器作用表示针对某种概念的检测。例如C=[C1,C2,…,Cn]里面含有n个概念,Ci表示某一个概念,如飞机。
2.初始训练检测集的构建
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,得到初始的训练检测集C’。例如,一个训练样本A(A视频片段中包含飞机、白云和鸟),用检测器集合C进行检测,表示概念飞机、白云和鸟的Ci、Cj和Ck的输出响应值较高,其他的检测器响应值相对较低,A应用于初始概念集C上得出的值可用一个向量表示,A=[A1,A2,...An]。若训练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’。
3.视觉空间构建
矩阵C’,每一行表示一个样本的输出向量,每一列表示一个检测器Ci应用于测试集上的输出集合,记为Ci=[K1,K2,…,Km],此时每一个概念都能表示为Ci的形式。接着衡量所有概念对之间的关系,利用WordNet的WUP公式计算相似度,公式如下:
WUP ( C i , C j ) = 2 D ( p ij ) L ( C i , C j ) + 2 D ( p ij ) - - - ( 1 )
其中Ci和Cj表示C’中不相同的两个概念,D(pij)返回一个概念的深度,L(Ci,Cj)返回在WordNet中概念对的路径长度。C’形成的所有概念对应用公式(1)得到一个矩阵R,表示为:
CTC=R      (2)
接着对R进行谱分解如下:
Figure BDA00003397827700042
其中∧表示矩阵R在斜对角线上的所有特征值,V表示相应的特征值矩阵。根据公式(2)和(3)可得如下表示:
Figure BDA00003397827700043
从而可以得到每个概念的向量表示。得到的向量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念。选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S。
4.基于视觉空间的查询过程
对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,公式如下:
CTCQ=RQ
CQ=(CT)-1RQ      (5)
其中RQ为通过计算WUP中CQ到概念空间C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1。计算两个概念相似关系可以直接采用余弦相似度公式:
Semantic ( C i , C j ) = C i C j | C i | * | C j | - - - ( 6 )
通过公式(5),获得样本Q在视觉空间中表达向量CQ={q1,q2,…}。然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,那么CQ可以得到一组概念{Cq1,Cq2,…},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度。接着计算该查询对于某个视频片段I的相似度,计算公式如下:
Sim ( Q , I ) = Σ C qi ∈ C Q Semantic ( qi , C qi ) * Score ( C qi , I ) - - - ( 7 )
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,Score(.)是介绍Score这个函数的功能表示。利用公式(7)可以得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询。

Claims (3)

1.基于视觉空间的视频检索方法,其特征在于包括以下步骤:
步骤1、构建初始视觉概念空间:
1A、构建代表视觉关系的知识库;
1B、对视觉关系的知识库进行扩展构成初始的概念集C,C=[C1,C2,…,Cn]里面含有n个概念;
步骤2、构成初始的训练检测集:
采集大量的视频序列,提取关键帧以及视频场景片段构成训练集,然后应用于初始概念集C上,训练样本为M,所有的训练样本得到的M个向量构成一个M*N的矩阵,构成初始的训练检测集C’;
步骤3、构建视觉空间:
3A、衡量所有概念对之间的相似度,得到一个矩阵R,对R进行谱分解,得到每个概念的向量表示;
3B、量集张成一个多维的正交空间,针对空间中映射的向量进行聚类,类的数目用类间不一致性系数进行衡量,并且保证尽量达到最优,得到的每个类代表一个抽象概念;
3C、选取每个类的中心代表该类,所有概念类的中心构成一个能够覆盖初始视觉空间的集合,称为视觉概念空间S;
步骤4、基于视觉空间的查询过程:
4A、将视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,获得样本Q在视觉空间中表达向量CQ={q1,q2,...};
4B、然后利用公式(6)计算qi和概念集C中所有概念的相似度,得到相似度最高的Cqi,CQ就得到一组概念{Cq1,Cq2,...},用来表达查询所携带的视觉信息,每个概念的权重为其余弦相似度,公式如下:
Semantic ( C i , C j ) = C i C j | C i | * | C j | - - - ( 6 )
4C、计算该查询对于某个视频片段I的相似度,计算公式如下:
Sim ( Q , I ) = Σ C qi ∈ C Q Semantic ( qi , C qi ) * Score ( C qi , I ) - - - ( 7 )
Score(.)输出一个通过概念Cqi找到视频片段I的一个概率,利用公式(7)得到查询视频Q与所有相关视频查询的相似度值,将相似度值排序,返回相似度较高的视频片段给查询用户,完成视频片段的查询。
2.根据权利要求1所述的基于视觉空间的视频检索方法,其特征在于:所述步骤3中3A步中:
衡量所有概念对之间的相似度采用WordNet的WUP公式计算相似度,公式如下:
WUP ( C i , C j ) = 2 D ( p ij ) L ( C i , C j ) + 2 D ( p ij ) - - - ( 1 )
其中Ci和Cj表示C’中不相同的两个概念D(pij):返回一个概念的深度,L(Ci,Cj)L(Ci,Cj)返回在WordNet中概念对的路径长度;
C'形成的所有概念对应用公式(1)得到一个矩阵R,表示为:
CTC=R      (2)
接着对R进行谱分解如下:
Figure FDA00003397827600022
其中∧表示矩阵R在斜对角线上的所有特征值,V表示相应的特征值矩阵,根据公式(2)和(3)可得初始概念集C的如下表示:
Figure FDA00003397827600023
3.根据权利要求1所述的基于视觉空间的视频检索方法,其特征在于:所述步骤4中4A步中:对于一个视觉查询样本Q,将其投射到视觉空间中形成一个向量CQ,公式如下:
CTCQ=RQ
CQ=(CT)-1RQ      (5)
其中RQ为通过计算WUP中CQ到概念空间C获得的一个向量,在公式(5)中,使用广义逆的方法计算(CT)-1
CN201310252964.0A 2013-06-24 2013-06-24 基于视觉空间的视频检索方法 Active CN103279579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310252964.0A CN103279579B (zh) 2013-06-24 2013-06-24 基于视觉空间的视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310252964.0A CN103279579B (zh) 2013-06-24 2013-06-24 基于视觉空间的视频检索方法

Publications (2)

Publication Number Publication Date
CN103279579A true CN103279579A (zh) 2013-09-04
CN103279579B CN103279579B (zh) 2016-07-06

Family

ID=49062096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310252964.0A Active CN103279579B (zh) 2013-06-24 2013-06-24 基于视觉空间的视频检索方法

Country Status (1)

Country Link
CN (1) CN103279579B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142995A (zh) * 2014-07-30 2014-11-12 中国科学院自动化研究所 基于视觉属性的社会事件识别方法
CN105139421A (zh) * 2015-08-14 2015-12-09 西安西拓电气股份有限公司 电力系统基于互信息量的视频关键帧提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN101968797A (zh) * 2010-09-10 2011-02-09 北京大学 一种基于镜头间上下文的视频概念标注方法
US20120179704A1 (en) * 2009-09-16 2012-07-12 Nanyang Technological University Textual query based multimedia retrieval system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
US20120179704A1 (en) * 2009-09-16 2012-07-12 Nanyang Technological University Textual query based multimedia retrieval system
CN101968797A (zh) * 2010-09-10 2011-02-09 北京大学 一种基于镜头间上下文的视频概念标注方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142995A (zh) * 2014-07-30 2014-11-12 中国科学院自动化研究所 基于视觉属性的社会事件识别方法
CN104142995B (zh) * 2014-07-30 2017-09-26 中国科学院自动化研究所 基于视觉属性的社会事件识别方法
CN105139421A (zh) * 2015-08-14 2015-12-09 西安西拓电气股份有限公司 电力系统基于互信息量的视频关键帧提取方法
CN105139421B (zh) * 2015-08-14 2018-07-24 西安西拓电气股份有限公司 电力系统基于互信息量的视频关键帧提取方法

Also Published As

Publication number Publication date
CN103279579B (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
KR101768521B1 (ko) 이미지에 포함된 객체에 대한 정보 데이터를 제공하는 방법 및 시스템
KR102422977B1 (ko) 자연어 이미지 검색 기법
KR101856120B1 (ko) 이미지로부터 상가 발견
US9372920B2 (en) Identifying textual terms in response to a visual query
CN102549603B (zh) 基于相关性的图像选择
US10438050B2 (en) Image analysis device, image analysis system, and image analysis method
US20170351934A1 (en) Object recognition device, object recognition method, and program
CN111666313A (zh) 基于多源异构遥感数据关联构建及多用户数据匹配方法
US20150178321A1 (en) Image-based 3d model search and retrieval
CN103984738A (zh) 一种基于搜索匹配的角色标注方法
CN110059807A (zh) 图像处理方法、装置和存储介质
CN108694223A (zh) 一种用户画像库的构建方法及装置
US20160217158A1 (en) Image search method, image search system, and information recording medium
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN104572965A (zh) 基于卷积神经网络的以图搜图系统
CN101458695A (zh) 基于关键词和内容特征的混合图片索引构建和查询方法及其应用
CN103577537B (zh) 面向图像分享网站图片的多重配对相似度确定方法
CN105849720A (zh) 视觉语义复合网络以及用于形成该网络的方法
CN105844230B (zh) 一种基于云平台的遥感影像分割方法
CN105893573A (zh) 一种基于地点的多模态媒体数据主题提取模型
CN101256594A (zh) 一种图结构相似度测量方法及其系统
CN117671267A (zh) 一种基于双域优化类感知注意力的遥感图像语义分割方法
CN103279579B (zh) 基于视觉空间的视频检索方法
Tencer et al. A new framework for online sketch-based image retrieval in web environment
Kore et al. Survey of image retrieval techniques and algorithms for image-rich information networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant