CN103999097B - 用于视觉搜索的紧致描述符的系统和方法 - Google Patents
用于视觉搜索的紧致描述符的系统和方法 Download PDFInfo
- Publication number
- CN103999097B CN103999097B CN201280034727.0A CN201280034727A CN103999097B CN 103999097 B CN103999097 B CN 103999097B CN 201280034727 A CN201280034727 A CN 201280034727A CN 103999097 B CN103999097 B CN 103999097B
- Authority
- CN
- China
- Prior art keywords
- close
- feature point
- parameter
- image
- point set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000000007 visual effect Effects 0.000 title claims description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 8
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 9
- 230000000717 retained effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000006835 compression Effects 0.000 description 15
- 238000007906 compression Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004380 ashing Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
- G06K7/14—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
- G06K7/1404—Methods for optical code recognition
- G06K7/1439—Methods for optical code recognition including a method step for retrieval of the optical code
- G06K7/1447—Methods for optical code recognition including a method step for retrieval of the optical code extracting optical codes from image or text carrying said optical code
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
Abstract
用于处理图像的一种方法和一种设备,使用线性嵌入算子根据所述图像的第一特征点集合生成第二特征点集合,这样,所述第一特征点集合中的成对最近邻(NN)拓扑关系便被保留在所述第二特征点集合中。所述线性嵌入算子由密切模型确定,所述密切模型包括第一密切参数、第二密切参数和密切矩阵,其中所述密切矩阵的稀疏度由所述第一密切参数和所述第二密切参数来控制。
Description
本发明要求2011年12月29日提交的发明名称为“用于视觉搜索的紧致描述符的系统和方法(System and Method for Compact Descriptor for Visual Search)”的第61/340,327号美国非临时申请案的在先申请优先权,该申请案要求2011年7月11日提交的发明名称为“作为视觉搜索中紧致描述符的拉普拉斯SURF所用的系统和方法(System andMethod for Laplacian SURF as Compact Descriptor for Visual Search)”第61/506,615号美国临时申请案的在先申请优先权,这两个在先申请的内容以全文引入的方式并入本文本中。
技术领域
本发明涉及图像处理方法和系统,并且在特定实施例中,涉及用于视觉搜索应用下图像的视觉描述符中紧凑表示的系统和方法。
背景技术
现代的移动电话、手机、平板计算机、移动终端、移动装置或用户设备已发展为有效的图像和视频处理装置,该图像和视频处理装置配备有高分辨率相机、彩色显示器,和硬件加速图形。随着像android、iPhone之类的移动装置迅速发展,基于移动的多媒体视觉服务正经历着激烈的变革及开发。移动视觉搜索服务的应用场景可以是基于位置的服务、图标搜索等等,其中从移动装置中发送的一个图像或多媒体与存储在数据库或图像存储库中的另一图像或多媒体相匹配。移动视觉搜索系统的第一部署应用包括谷歌的Goggles、诺基亚的Point and Find、Kooaba和Snaptell。
移动装置经由无线网络而发送的图像查询通常在计算上开销很大,需要相当高的通信成本,而且无法支持实时操作。在受欢迎的应用程序中,其中移动装置捕获某些对象的图片,并经由无线网络将这一图片作为查询而发送以搜索较大的存储库,降低位速率同时保持匹配准确度是在MPEG下进行标准化努力所面临的主要问题和主要重点。
视觉描述符或图像描述符是对产生此类描述的图像和视频中的内容的视觉特征点的描述。这些描述符描述了形状、颜色、纹理或动作等基本特性,以及其他基本特性,并且这些描述使得可以更快速更有效地来搜索音频-视频内容。处理音频-视频描述符的标准化组织是运动图像专家组-7(MPEG-7)。
然而,对于移动装置来说,视觉描述符通常还是非常多,这是因为它们由数百个具有尺度与旋转不变性的特征点及其位置组成。有时这些尺度不变特征点可能比图像本身还要大。尺度不变特征变换(SIFT)的一个实例特征点由具有2048位的128维组成。快速鲁棒特征(SURF)的另一实例特征点由具有1024位的64维组成。
因此,需要去找到一种模型,使得能够缩减图像特征点表示的尺寸,同时保留匹配性能以用于由所缩减的特征点表示组成的查询。
发明内容
随着互联网中视觉内容存储库的飞速发展,可以在无线链路上支持通过捕获进行的查询的视觉描述符方案在多种应用中都存在着很大的吸引力。在本发明中,提出了基于图谱嵌入模型的压缩方案,用于将图像的视觉描述符中的高维特征点缩减到较低维的表示。该压缩方案在所需用于在网络中传输视觉描述符中特征点的查询准确度以及位速率方面实现了良好的扩展性。
根据一项实例实施例,提供了一种用于处理图像的方法。所述方法使用可以为矩阵形式的线性嵌入算子,根据所述图像的第一特征点集合而生成了第二特征点集合,这样,所述第一特征点集合中的成对最近邻(NN)拓扑关系便被保留在所述第二特征点集合中,其中特征点为用一组数字来表示的一个点。
根据一项实例实施例,提供了一种用于处理图像的设备。所述设备可以位于用户设备中或位于基站中。所述设备可以包括:一个接收器,其用于接收所述图像的第一特征点集合;一个线性嵌入单元,其用于使用可以为矩阵形式的线性嵌入算子,根据所述第一特征点集合生成第二特征点集合,其中所述第一特征点集合中的成对最近邻(NN)拓扑关系保留在所述第二特征点集合中。
根据一项实例实施例,提供了一种用于处理图像的设备。所述设备可以包括:一个图像存储库,其中所述图像存储库中的图像用一特征点集合来表示;一个接收器,其用于接收第一图像的一组压缩特征点;以及一个搜索单元,其用于将所述存储库中所存储的图像特征点与所述第一图像的所接收压缩特征点集合相匹配,其中所述压缩特征点由线性嵌入算子生成,所述线性嵌入算子由密切模型确定,所述密切模型包括第一密切参数、第二密切参数和密切矩阵,其中所述密切矩阵的稀疏度由所述第一密切参数和所述第二密切参数来控制。
附图说明
为了更完整地理解本发明及其优点,现在参考以下结合附图进行的描述,其中:
图1(a)和图1(b)所示为具有移动终端的内容分布网络和视觉搜索系统的一个实例;
图2(a)和图2(b)所示为对图像执行以用一组压缩特征点表示出图像的操作序列;
图3所示为寻找用于特征点压缩的嵌入矩阵的过程;
图4所示为寻找用于特征点压缩的密切矩阵以及密切模型的过程;
图5所示为用于特征点压缩的设备;以及
图6所示为所述方法的一项实例实施形式。
具体实施方式
下文详细论述当前优选实施例的制作和使用。然而,应了解,本发明提供可在广泛多种具体上下文中体现的许多适用发明性概念。所论述的具体实施例仅仅说明用以制作和使用本发明的具体方式,而并不限制本发明的范围。
如在下文更详细说明,将揭示一种特征点的压缩系统,其也称为线性嵌入系统。所述系统使得表示图像特征点所需的位数变少,且同时保持了所述特征点中的成对最近邻(NN)拓扑关系,其中所述特征点为图像的表示。
图1(a)图示了视觉搜索系统100的实例实施例,其中移动装置或用户设备(UE)UE1101或UE2103经由基站105和内容分布网络(CDN)107发送多媒体查询111或113。以可互换的方式使用术语移动电话、手机、平板计算机、移动终端、移动装置或用户设备。查询111、113由服务器129内的接收器121接收为查询117,其中该查询117由搜索单元119用来搜索图像存储库109。UE1101、UE2103或基站eNB105可以统称为客户端,并且包括接收器121、搜索单元119及图像存储库109的服务器129可以统称为服务器129。
视觉搜索系统100可以是基于位置的服务、图标搜索等等。UE101和103可以通过无线通信信道连接到基站eNB105。UE101和103可以是移动电话、用户终端、移动台、iPHONE或任何其他类似的装置。可以存在不同数目的UE连接到基站eNB105。UE101或103可以将多个查询111、113发送到基站105。
UE101、103、基站105和CDN107可以是以下系统的一部分:长期演进(LTE)无线系统、长期演进高级(LTE-A)系统、IEEE802.16m系统,或任何其他种类的无线系统。图1(a)所示的视觉搜索系统100可以按照其他方式来实施,并且可以表示为图1(b)中所示的抽象级别(abstract level),其中UE1101连接到图像存储库109,并且UE1101将服务器内的接收器121所接收的查询111作为查询117进行发送,该查询用于搜索图像存储库109。
查询111或113从UE101或103发送到基站105。在一些实施例中,基站105可以直接将查询111或113传送到服务器129,并以查询117的形式被服务器129接收。基站105可以对查询111或113执行某些操作以生成另外的查询115,然后经由CDN107发送查询115,该查询从而由服务器129接收为经接收的查询117。
如果从UE101中发送的查询111以及经接收的查询117是一个图像,那么图像查询可以用以搜索存储在数据库或图像存储库109中的图像并与之匹配。通常,该操作是使用允许快速访问图像列表的特殊索引结构来完成的。基于图像的查询111或117通常在计算上开销很大,需要额外的相当高的通信成本,并且无法支持CDN应用程序所需的实时操作。
查询111或查询117可以是视觉描述符。视觉描述符或图像描述符是对产生此类描述的图像和视频中的内容的视觉特征的描述。这些描述符描述了形状、颜色、纹理或动作等基本特性,以及其他基本特性,并且这些描述使得可以快速有效地来搜索音频-视频内容。视觉描述符可以划分为两个主要群组。通用信息描述符含有低级别描述符,这种描述符给出了关于形状、颜色、区域、纹理或运动的描述。特定域信息描述符给出了关于场景中对象和事件的描述。一个具体的实例可以是面部识别。其他高区分力的描述符包括快速鲁棒特征(SURF)和尺度不变特征变换(SIFT),这些是鲁棒图像(robust image)检测符和描述符。在视觉搜索应用程序中,查询图像的描述符与数据库图像的描述符之间的匹配能力对于成功匹配来说很关键。
视觉描述符可以将视觉对象及兴趣点表示为一个特征点集合,该特征点集合可以具有尺度与旋转不变性或任何其他性质。在一项实施例中,当视觉描述符用以匹配图像时,经接收的查询117可以是从图像中提取的特征点集合。这些特征点以及它们的拓扑信息的集合给出了对尺度、旋转以及某种程度视角变化均不变的某些对象的唯一表示。匹配两个图像等于匹配图像中的两个特征点集合,并且经匹配的特征的数目作用于匹配的指示符。
根据一项实施例,特征点Fj为Rnj中的点,其中nj为特征点Fj的维数,并且特征点Fj的特征维数i∈Rnj具有用pi位表示的pi位精度。这可以被称为特征点在维数i下的分辨率。对于特征点集合来说,该集合中的特征点的维数可以相同也可以不同。
图2(a)所示为根据一项实施例的可以在使用视觉描述符的特征点来执行视觉搜索的时候使用的操作流程图。图2(a)中所示的操作可以由移动终端来执行,或者由移动终端和基站的组合,或网络中的任何其他组件来执行。
作为一项实例实施例,在步骤201处,提供图像。在步骤203处,可以使用由移动终端或基站执行的重复特征提取器来选择特征点。当对例如SURF和SIFT特征点的具有尺度与旋转不变性的特征点进行收集所得的集合用作视觉描述符时,通过多个尺度的边缘检测而在视觉对象中找到这些特征点。在一项实施例中,仅仅将具有尺度一致的强边缘信息的那些点选择为特征点。旋转不变性是由描述边缘定向的描述符来实现。特征点集合可以由数百个具有尺寸与旋转不变性的特征点,以及这些特征点在原始图像中的位置组成。也可以提取其他视觉描述符特征点来代替SURF或SIFT。SURF和SIFT的使用仅仅是出于说明的目的,并非是限制性的。
在一项实施例中,例如,在步骤205处,表示出特征点。例如SURF或SIFT特征点的各种特征点以不同方式表示出。例如,SURF的每个特征点为具有2048位的128维。另一方面,SIFT的特征点具有1024位的64维。由于典型的索引方案在使用高维数时会出现故障,因此特征点的高维度会使得大尺度视觉对象和兴趣点存储库搜索无效。
因此,可能需要对特征点进行压缩,以降低位速率。作为一项实施实施例,在步骤207处,执行特征点压缩操作,例如,可以对任何特征点或一些特征点执行所述特征点压缩操作,从而缩减表示尺寸,同时仍保持匹配性能。该压缩操作也可以称为线性嵌入。根据一项实施例,该压缩操作可以由特征点压缩单元来执行。特征点压缩单元可以位于终端上,或位于基站上。经压缩的特征点被传输到服务器端,该服务器端将会处理搜索并把结果发回到移动终端。
在步骤207中可以存在多种途径来缩减特征点尺寸,例如由单元2071执行的维数缩减、由单元2072执行的散列/量化,或由单元2073执行的自适应量化。在另一项实施例中,可以将这些不同的方法组合,从而对同一特征点集合执行该组合方法,以实现进一步缩减。
维数缩减方法使用维数缩减途径,在保留某些信息的同时缩减特征点维数。例如,散列方法尝试为每个特征点使用一个索引。在某些条件下,输入特征点被映射在分辨率较小的某个存储桶(bucket)中。存储桶中所有的点都被视为匹配。位置敏感散列、谱散列及矢量量化均属于这一类别。这些方法因散列而具有快速匹配的优势,但是它们缺少准确性,因为同一存储桶中的点对于输入特征点而言可能并非是真正的匹配。自适应量化进一步将每个特征点映射到不同的分辨率。例如,特征点具有针对第一维数的第一精度以及针对第二维数的第二精度。该自适应量化可以基于例如特征点方差的某一标准而进行。在一些实施例中,特征点具有针对第一维数的第一精度和针对第二维数的第二精度,其中针对特征点方差较大的第一维数的第一精度大于针对特征点方差较小的第二维数的第二精度。
图2(b)所示为用于压缩特征点的更详细的操作流程图。在步骤201提供图像。在步骤203处,从图像中提取一个特征点集合,例如,{Fk|k=1,...,n},其中每个特征点Fk位于根据一项实施例的图像位置{xk,yk}。该集合可以由数百个(例如242个)特征点构成。在步骤205处,将特征点表示为d-维空间Rd中的一个点。例如,对于SIFT特征点而言,d=128;对于SURF特征点而言,d=64。在步骤207中,使用线性嵌入矩阵A将特征点集合{Fk}映射或投射到Rp中的较小空间{fk},其中p小于d,同时仍然保留匹配准确度损失最小的成对最近邻fk=AFk关系。因为使用了线性嵌入矩阵来执行对特征点的压缩,因此,压缩方案也可以称作线性嵌入。
根据一项实施例,可以存在线性嵌入矩阵A的多种选择。更为紧致的特征点表示可以通过保留特征空间几何位置构建出,确切地说,是保留特征点之间的最近邻(NN)拓扑关系。保留最近邻(NN)拓扑关系对视觉搜索应用程序更具关键性。在一些实施例中,所得的紧致特征点可以实现具有8维度且每个维度为6位的高匹配准确度,其每个特征点共有48位。
图3所示为如何找到线性嵌入矩阵A的一项实施例。线性嵌入矩阵A由密切模型确定,所述密切模型包括第一密切参数dmax、第二密切参数a和尺寸为n*n的密切矩阵W=(wj,k),其中所述密切矩阵W=(wj,k)的稀疏度由所述第一密切参数和所述第二密切参数来控制,n为特征点的个数。密切矩阵W=(wj,k)反映出待保留的成对特征点密切关系。线性嵌入矩阵A为目标方程的一个解,其中尺寸为n*n的W=(wj,k)为密切矩阵,Fj和Fk为待压缩的特征点。
如图3所示,在步骤301处,确定特征点密切模型(dmax,a)以及密切参数W=(wj,k)。对于特征点集合密切参数(dmax,a)来说,密切矩阵W=(wj,k)被确定为随后在步骤303中,计算密切矩阵W=(wj,k)的拉普拉斯矩阵L,其中矩阵L=S–W,其中S为具有项的对角矩阵,并且n为特征点的个数。在步骤305中,根据A=eigenvalue(L)计算出线性嵌入矩阵A。
图4所示为构建密切模型的一种实施例方法,其用于确定线性嵌入矩阵A。在步骤403处,确定第一密切参数dmax,称为核参数,确定方式是将其作为样本特征点存储库的已排序成对距离函数的第一零梯度,所述样本特征点存储库包括在步骤401处抽样出的多个特征点。在步骤407处,选择第二密切参数a,称为截断阈值,以使得步骤405中所示的密切矩阵W=(wj,k)是稀疏的。当a变大时,保留的邻居信息变多。当a变下时,一些所需信息可能会丢失。因此,a提供了对精度与保留所需信息之间的权衡。实行一些实验,例如,对10,000特征的随机抽样,来找出最佳阈值。
在一些实施例中,第二密切参数a值是通过方程来获得。所得的压缩模型A给出了SIFT以及SURF的良好检索性能。
特征点压缩可以将不同方法组合起来。在一些实施例中,在进行由上文描述的线性嵌入矩阵进行的维度缩减之后,图2中所示的作为单元2073的自适应量化方法可以进一步与图3中图示的压缩执行结合起来,使得,图2中的单元2073能进一步将每个特征点映射到不同的分辨率。最直接的量化方式是在每个维度上分配相等数目的位。这是次最优的,因为不同维度的数目具有不同的方差。位的均分分配可能会一些量化箱变得非常拥挤,而其他的箱则非常稀疏,这应当是直观上的坏处。自适应量化方案根据每个维度的方差来选择该维度的量化速率。例如,特征点具有针对第一维数的第一精度以及针对第二维数的第二精度。在一些实施例中,特征点具有针对第一维数的第一精度和针对第二维数的第二精度,其中针对特征点方差较大的第一维数的第一精度大于针对特征点方差较小的第二维数的第二精度。
图5中示出了用于处理图像的设备的一项实例实施例。设备包括接收器507和线性嵌入单元505,所述接收器用于接收该图像的第一特征点集合。线性嵌入单元505用于使用线性嵌入矩阵A根据第一特征点集合生成第二特征点集合,其中所述第一特征点集合中的成对最近邻(NN)拓扑关系保留在所述第二特征点集合中。特征点Fj为中的点,特征点Fj的特征维度具有用pi位表示的pi位精度。
根据一项实施例,图5中所示的设备可以进一步包括密切单元503,其用于生成密切模型,所述密切模型用于确定线性嵌入矩阵A,其中所述密切模型包括第一密切参数dmax、第二密切参数a和大小为n*n的密切矩阵W=(wj,k),n为第一特征点集合中的特征点个数,其中所述密切矩阵W=(wj,k)的稀疏度由所述第一密切参数和所述第二密切参数来控制。第一密切参数dmax和第二密切参数a可以通过在图像存储库501上实行的实验来确定。密切矩阵由第一密切参数dmax与第二密切参数a确定为其中Fj和Fk为第一特征点集合中的特征点。
作为一项实例实施例,图5中所示的设备可以位于用户设备中或位于基站中。图5中的设备生成的压缩特征点可以由图1单元129所示的服务器所接收。
图1所示的服务器单元129可以包括:图像存储库,其中所述图像存储库中的图像用一个特征点集合来表示;接收器,其用于接收第一图像的一个压缩特征点集合;以及搜索单元,其将所述存储库中所存储的图像的特征点与所述第一图像的所接收压缩特征点集合相匹配。压缩特征点由线性嵌入矩阵生成,所述线性嵌入矩阵由密切模型确定,所述密切模型包括第一密切参数dmax、第二密切参数a和尺寸为n*n的密切矩阵W=(wj,k),其中所述密切矩阵W=(wj,k)的稀疏度由所述第一密切参数和所述第二密切参数来控制,n为第一特征点集合中的特征点的个数。
搜索单元119在特征点上执行搜索。特征点可以进行压缩。在它们与查询图像共有的特征数目的基础上,从数据库中选出一张较短的潜在类似图像的列表。对这些图像进行进一步的审查,包括几何验证步骤,该步骤查找查询图像的特征与候选数据库图像的特征之间的相干空间图案,以确保匹配正确。
经由前述实施例的描述,本发明可以仅仅使用硬件来实施,或者可以使用软件和必要的通用硬件平台来实施。图6所示为根据本发明的一项实施例的单元或控制器600的一个实例。单元600可以结合本发明所述的功能而使用,并且可以执行这些功能。在相同的实施例或替代实施例中,控制器600可以存在于一个或多个UE、eNB和服务器中,成为其组件,或者可以由一个或多个UE、eNB和服务器使用。
单元600可以含有处理器602,其通过执行定义控制器600总体操作的计算机程序指令来控制此类操作。处理器602可以包括一个或多个中央处理单元、只读存储器(ROM)装置和/或随机存取存储器(RAN)装置。处理器602可以是ASIC、通用处理器、数字信号处理器、处理器的组合、具有专用电路的处理器、用作处理器的专用电路,以及以上装置的组合。
计算机程序指令可以存储在存储装置604(例如,磁盘、数据库等)中,并且在需要执行计算机程序指令时载入存储器606中。因此,用于执行本文中所述的例如预编码、调度、传输和接收数据的方法步骤的应用程序可以由存储在存储器606或存储装置604中的计算机程序指令定义,并且由执行这些计算机程序指令的处理器602控制。
在替代实施例中,硬连线电路或集成电路可以用来代替软件指令或与所述软件指令结合使用,以实施本发明的过程。因此,本发明的实施例并不限制于硬件、固件或软件的任何特定组合。存储器606可以存储用于控制器600的软件,该软件可以适于执行软件程序,且由此根据本发明,且尤其根据上文详细描述的方法来进行操作。然而,如本文中所描述的本发明可以使用各种编程技术以及通用硬件子系统或专用控制器而按照很多不同方式来实施。
单元600还可以包括用于经由网络而与其他装置通信的一个或多个网络接口608。在网络的无线部分中,网络接口可以包括天线及相关处理。在网络的有线部分,网络接口可以包括其与将该单元连接到其他单元的电缆的连接。在每一情况中,网络接口可以被视为用于接入物理通信部分(例如天线)的电路。
单元600也可以包括使用户与控制器600能够进行互动的输入/输出装置610(例如,显示器、键盘、鼠标、扬声器、按钮等)。这些用户I/O装置是可选的,且如果单元600仅仅由网络接口接入,那么将不需要这一装置。
单元600的实施也可以含有其他组件,且出于说明性目的,图6的控制器为此类控制器的一些组件的高级别表示。
本发明的实施例提供了若干新的有利特征。例如,一项实施例提供一种新的视觉特征描述压缩方案,该方案在非常低的位速率下获得非常高的准确度。另一项实施例提供一种位速率和准确度可扩展的压缩方案。本发明的实施例可以用于多种产品、过程和服务中。这些实施方案的一些实例包括基于云的媒体处理、下一代CDN产品、CDN措施及操作。实施例是可取的,因为它们可以在客户端提供实时的、低计算/通信成本的体验质量(QoE)估计。例如,可以获得在计算和通信资源中具有较轻重量的视频签名(video signature)以及最小成本的鲁棒性QoE估计器。这在CDN和无线多媒体市场中将会是有用的。
尽管详细描述了各项实施例及其优势,但应理解,在不脱离由所附权利要求书界定的本实施例的精神和范围的情况下,可以对本文做出各种改变、替代和更改。举例来说,上文所论述的许多特征和功能可以用软件、硬件、固件或其组合来实施。
此外,本申请案的范围不希望限于本说明书中所描述的过程、机器、制造、物质成分、构件、方法和步骤的特定实施例。如所属领域的技术人员将从本发明的揭示内容容易了解,可以根据本发明利用执行与本文中所描述的对应实施例大致相同的功能或实现与本文中所描述的对应实施例大致相同的结果的目前存在或稍后将开发的过程、机器、制造、物质成分、构件、方法或步骤。因此,所附权利要求书既定在其范围内包括此类过程、机器、制造、物质成分、构件、方法或步骤。
Claims (18)
1.一种用于处理图像的方法,所述方法包括:
使用线性嵌入算子,根据所述图像的第一特征点集合而生成了第二特征点集合,其中所述第一特征点集合中的成对最近邻(NN)拓扑关系便被保留在所述第二特征点集合中,特征点为用一组数字来表示的一个点;
其中所述线性嵌入算子由密切模型确定,所述密切模型包括第一密切参数dmax、第二密切参数a和尺寸为n*n的密切矩阵W=(wj,k),其中所述密切矩阵W=(wj,k)的稀疏度由所述第一密切参数和所述第二密切参数来控制,n为所述第一特征点集合中的特征点的个数。
2.根据权利要求1所述的方法,其中所述第一特征点集合中的特征点具有用第一数字量表示的第一维度,并且所述第二特征点集合中的特征点具有用第二数字量表示的第二维度,所述第二维度小于所述第一维度。
3.根据权利要求2所述的方法,其中所述第二特征点集合中的一个特征点具有八维度,并且其每个维度的个数用六位表示。
4.根据权利要求1所述的方法,其中所述第二特征点集合用于视觉搜索以识别图像储存库中的图像。
5.根据权利要求1所述的方法,其中所述第一特征点集合与所述第二特征点集合具有的特征点数目相同。
6.根据权利要求1所述的方法,其中所述第一特征点集合为所述图像的尺度不变特征变换(SIFT)特征点,或者为所述图像的快速鲁棒特征(SURF)特征点。
7.根据权利要求1所述的方法,其中所述线性嵌入算子为目标方程的解A,其中尺寸为n*n的W=(wj,k)为所述密切矩阵,Fj和Fk为所述第一特征点集合的特征点。
8.根据权利要求1所述的方法,其中所述线性嵌入算子为根据A=eigenvalue(L)计算出的矩阵A,其中所述矩阵L=S-W,S为具有项的对角矩阵,并且n为特征点的个数。
9.根据权利要求1所述的方法,其中所述密切矩阵由所述第一密切参数dmax与所述第二密切参数a确定为其中Fj和Fk为所述第一特征点集合中的特征点。
10.根据权利要求1所述的方法,其中所述第一密切参数dmax为包括多个特征点的样本特征点存储库的已排序成对距离函数的第一零梯度。
11.根据权利要求1所述的方法,其中所述第二密切参数a经选择使得所述密切矩阵W=(wj,k)为稀疏的。
12.根据权利要求11所述的方法,其中所述第二密切参数a值根据方程获得。
13.根据权利要求1所述的方法,其中所述第二特征点集合中的中特征点Fj具有针对第一维度的第一精度以及针对第二维度的第二精度。
14.根据权利要求13所述的方法,其中所述第一维度的所述第一精度大于特征点Fj方差,所述第二维度的所述第二精度小于所述特征点Fj方差,所述第一精度大于所述第二精度。
15.一种用于处理图像的设备,所述设备包括:
接收器,其用于接收所述图像的第一特征点集合;以及
线性嵌入单元,其用于使用线性嵌入算子,根据所述第一特征点集合生成第二特征点集合,其中所述第一特征点集合中的成对最近邻(NN)拓扑关系便被保留在所述第二特征点集合中,特征点为用一组数字来表示的一个点;
其中所述线性嵌入算子由密切模型确定,所述密切模型包括第一密切参数dmax、第二密切参数a和尺寸为n*n的密切矩阵W=(wj,k),其中所述密切矩阵W=(wj,k)的稀疏度由所述第一密切参数和所述第二密切参数来控制,n为所述第一特征点集合中的特征点的个数。
16.根据权利要求15所述的设备,其中所述密切矩阵由所述第一密切参数dmax与所述第二密切参数a确定为其中Fj和Fk为所述第一特征点集合中的特征点。
17.根据权利要求15所述的设备,其中所述设备位于用户设备中或位于基站中。
18.一种用于处理图像的设备,所述设备包括:
图像存储库,其中所述图像存储库中的图像用一个特征点集合来表示;
接收器,其用于接收第一图像的压缩特征点集合;以及
搜索单元,其用于将所述存储库中所存储的图像的所述特征点与所述第一图像的所接收压缩特征点集合相匹配,并且
其中所述压缩特征点由线性嵌入算子生成,所述线性嵌入算子由密切模型确定,所述密切模型包括第一密切参数、第二密切参数和密切矩阵,其中所述密切矩阵的稀疏度由所述第一密切参数和所述第二密切参数来控制。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161506615P | 2011-07-11 | 2011-07-11 | |
US61/506,615 | 2011-07-11 | ||
US13/340,327 US8755605B2 (en) | 2011-07-11 | 2011-12-29 | System and method for compact descriptor for visual search |
US13/340,327 | 2011-12-29 | ||
PCT/CN2012/070006 WO2012167618A1 (en) | 2011-07-11 | 2012-01-04 | System and method for compact descriptor for visual search |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103999097A CN103999097A (zh) | 2014-08-20 |
CN103999097B true CN103999097B (zh) | 2017-04-12 |
Family
ID=47295431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280034727.0A Active CN103999097B (zh) | 2011-07-11 | 2012-01-04 | 用于视觉搜索的紧致描述符的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8755605B2 (zh) |
EP (1) | EP2707836A4 (zh) |
CN (1) | CN103999097B (zh) |
WO (1) | WO2012167618A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8948518B2 (en) * | 2011-07-14 | 2015-02-03 | Futurewei Technologies, Inc. | Scalable query for visual search |
KR20140112635A (ko) * | 2013-03-12 | 2014-09-24 | 한국전자통신연구원 | 특징점 기반 영상처리 장치 및 그 영상 처리 방법 |
US10408613B2 (en) | 2013-07-12 | 2019-09-10 | Magic Leap, Inc. | Method and system for rendering virtual content |
US9384213B2 (en) | 2013-08-14 | 2016-07-05 | Google Inc. | Searching and annotating within images |
US9639761B2 (en) | 2014-03-10 | 2017-05-02 | Mitsubishi Electric Research Laboratories, Inc. | Method for extracting low-rank descriptors from images and videos for querying, classification, and object detection |
CN107480581B (zh) * | 2017-03-31 | 2021-06-15 | 触景无限科技(北京)有限公司 | 物体识别方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5721788A (en) * | 1992-07-31 | 1998-02-24 | Corbis Corporation | Method and system for digital image signatures |
CN1570958A (zh) * | 2004-04-23 | 2005-01-26 | 清华大学 | 多字体多字号印刷体藏文字符识别方法 |
CN101980250A (zh) * | 2010-10-15 | 2011-02-23 | 北京航空航天大学 | 基于降维局部特征描述子和隐条件随机场的目标识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6614914B1 (en) * | 1995-05-08 | 2003-09-02 | Digimarc Corporation | Watermark embedder and reader |
US7171016B1 (en) * | 1993-11-18 | 2007-01-30 | Digimarc Corporation | Method for monitoring internet dissemination of image, video and/or audio files |
US6879701B1 (en) * | 1994-10-21 | 2005-04-12 | Digimarc Corporation | Tile-based digital watermarking techniques |
CN101211355B (zh) | 2006-12-30 | 2010-05-19 | 中国科学院计算技术研究所 | 一种基于聚类的图像查询方法 |
-
2011
- 2011-12-29 US US13/340,327 patent/US8755605B2/en active Active
-
2012
- 2012-01-04 EP EP12797441.8A patent/EP2707836A4/en not_active Withdrawn
- 2012-01-04 WO PCT/CN2012/070006 patent/WO2012167618A1/en active Application Filing
- 2012-01-04 CN CN201280034727.0A patent/CN103999097B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5721788A (en) * | 1992-07-31 | 1998-02-24 | Corbis Corporation | Method and system for digital image signatures |
CN1570958A (zh) * | 2004-04-23 | 2005-01-26 | 清华大学 | 多字体多字号印刷体藏文字符识别方法 |
CN101980250A (zh) * | 2010-10-15 | 2011-02-23 | 北京航空航天大学 | 基于降维局部特征描述子和隐条件随机场的目标识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2012167618A1 (en) | 2012-12-13 |
US20130016908A1 (en) | 2013-01-17 |
CN103999097A (zh) | 2014-08-20 |
EP2707836A4 (en) | 2014-06-18 |
US8755605B2 (en) | 2014-06-17 |
EP2707836A1 (en) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duan et al. | Overview of the MPEG-CDVS standard | |
CN103999097B (zh) | 用于视觉搜索的紧致描述符的系统和方法 | |
US20170060867A1 (en) | Video and image match searching | |
CN103026368B (zh) | 使用增量特征提取的对象辨识 | |
Girod et al. | Mobile visual search: Architectures, technologies, and the emerging MPEG standard | |
CN104169946B (zh) | 用于视觉搜索的可扩展查询 | |
Duan et al. | Compact descriptors for visual search | |
US8718378B2 (en) | Image topological coding for visual search | |
Huang et al. | Aitransfer: Progressive ai-powered transmission for real-time point cloud video streaming | |
CN110163061B (zh) | 用于提取视频指纹的方法、装置、设备和计算机可读介质 | |
US20150169410A1 (en) | Method and apparatus for image search using feature point | |
CN110929081A (zh) | 一种图片查询方法、计算机设备和存储介质 | |
KR102210693B1 (ko) | 경계 비트맵을 이용하는 이미지 분류 개선 기법 | |
CN110008892A (zh) | 一种基于四连指指纹图像采集的指纹核验方法及装置 | |
CN106407268A (zh) | 一种基于覆盖率最优化法的内容检索方法及系统 | |
CN113051984A (zh) | 视频拷贝检测方法和装置、存储介质和电子装置 | |
CN111191065B (zh) | 一种同源图像确定方法及装置 | |
CN111309946B (zh) | 一种已建立档案优化方法及装置 | |
Gao et al. | Efficient view-based 3-D object retrieval via hypergraph learning | |
CN111767419B (zh) | 图片搜索方法、装置、设备及计算机可读存储介质 | |
JP2019028700A (ja) | 検証装置、方法、及びプログラム | |
Chen et al. | Context-aware discriminative vocabulary learning for mobile landmark recognition | |
Xin et al. | Robust feature selection with self-matching score | |
Gao et al. | Data-driven lightweight interest point selection for large-scale visual search | |
Qi et al. | An efficient deep learning hashing neural network for mobile visual search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |