CN104160409A - 用于图像分析的方法和系统 - Google Patents

用于图像分析的方法和系统 Download PDF

Info

Publication number
CN104160409A
CN104160409A CN201280069515.6A CN201280069515A CN104160409A CN 104160409 A CN104160409 A CN 104160409A CN 201280069515 A CN201280069515 A CN 201280069515A CN 104160409 A CN104160409 A CN 104160409A
Authority
CN
China
Prior art keywords
array
descriptor
key point
descriptor array
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280069515.6A
Other languages
English (en)
Other versions
CN104160409B (zh
Inventor
M·巴尔斯特里
G·弗朗西尼
S·莱珀索伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Original Assignee
Telecom Italia SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia SpA filed Critical Telecom Italia SpA
Publication of CN104160409A publication Critical patent/CN104160409A/zh
Application granted granted Critical
Publication of CN104160409B publication Critical patent/CN104160409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Abstract

提出一种用于处理图像的方法。该方法包括标识图像中的一组关键点。所述方法还包括对于所述组中的每个关键点,计算包括多个阵列元素的对应描述符阵列,其中,每个阵列元素存储在所述关键点邻居内的图像的相应子区域的对应颜色梯度直方图所取的值。所述方法还包括对于所述组中的每个关键点,将所述描述符阵列再分成至少两个子阵列,每个子阵列包括所述描述符阵列的相应数量的元素,并且生成压缩的描述符阵列,所述压缩的描述符阵列针对所述至少两个子阵列中的每一个包括对应压缩的子阵列。每个压缩的子阵列通过使用相应码本利用矢量量化对所述至少两个子阵列中的对应子阵列压缩来获得。所述方法还包括利用所述组中的关键点的压缩的描述符阵列来分析图像。对于所述组中的每个关键点,描述符阵列再分成至少两个子阵列是基于其值存储在所述每个关键点的描述符阵列的元素中的颜色梯度直方图之中的相关关系将而被执行的。

Description

用于图像分析的方法和系统
技术领域
本发明涉及图像分析领域。
背景技术
在图像分析领域中,常见操作是比较两个图像以在这两个图像包括同一场景或同一对象的至少一部分的情况下找到其间发生的关系。
在大量的应用之中,至关重要的是进行图像比较来校准属于多相机系统的摄像机,评估在所拍摄视频的两帧之间发生的动作,并且识别图像(例如,照片)内的对象。由于被专门设计成在所谓的可视搜索引擎中利用的对象识别算法最近的发展,导致后一个应用呈现出越来越重要,即,从照片开始的自动化服务能够标识其内描绘的对象并且提供与所标识的对象相关的信息。这种类型的已知服务示例包括Google Goggles、Nokia Point&Find和kooaba Smart Visuals。对象识别应用被提供用于比较描绘待识别对象的第一图像(在行业术语中,被称为“查询图像”)与多个模型图像,每个模型图像描绘一个已知对象;这样允许执行在查询图像中描绘的对象和模型图像中描绘的对象之间的比较。
模型图像通常被布置在适当的模型数据库中。例如,在在线购物场景中利用对象识别的情况下,每个模型图像对应于在线商店提供的一个项目(例如,图书封面、DVD封面和/或CD封面的照片)。这里数据库中包括的模型图像的数量会相当大;例如在线购物服务的模型数据库可以包括数百万不同的模型图像。
用于执行两个图像之间的比较操作的一种非常有效的方式被提供用于在第一图像中选择点(在行业术语中,被称为关键点)的集合并随后将该集合中的每个关键点与第二图像中的一个对应关键点匹配。通过提前环绕该点本身的图像区域的局部特征(例如,点提取标度、区域优先定向以及所谓的“描述符”),有利地执行选择第一图像中的哪个点必须变成关键点的步骤。在图像分析领域,关键点的描述符是描述以关键点为中心的图像区域(称为贴片)的亮度梯度的数学算符,这种贴片根据贴片本身的主亮度梯度定向。
在David G.Lowe的“Distinctive image features from scale-invariant keypoints”(国际计算机视觉期刊,2004)中,提出了标度不变特征变换(SIFT)描述符;简单地说,为了允许可靠的图像识别,SIFT描述符在计及从与每个关键点对应的图像中提取的局部特征即便在图像标度、噪声和光照改变时也应该可检测的每个情况下生成。SIFT描述符因此对于均匀标度、定向是不变的,并且对于仿射失真和光照变化是部分不变的。
SIFT描述符是非常强大的工具,其允许选择关键点用以执行精确的图像比较。然而,这种精确性只有利用非常大量的数据才能被实现;例如,典型的SIFT描述符是128数据字节的阵列。由于每个每个图像中的关键点的数量相对较大(例如,对于标准VGA照片,1000-1500个关键点),并且由于每个每个关键点与对应的SIFT描述符关联,因此待处理数据的总量可能变得过多而难以有效管理。
这一缺点在场景涉及使用移动终端(例如,标识从通过智能电话的相机拍摄的照片提取的对象)的情况下加重。实际上,由于为了进行图像分析而将执行的操作非常复杂并且对计算负荷有要求,因此在这种情况下大多数操作通常在服务器侧执行;为了拥有执行分析所需的全部信息,服务器需要从移动终端接收全部所需的数据,包括用于所有关键点的SIFT描述符。因此,将从终端发送至服务器的数据的量可能变得过多而难以保证服务的良好效率。
根据本领域已知的解决方案(例如,Google Goggles所采用的方案),这一缺点通过从移动终端向服务器直接发送图像而非描述符来从根本上解决。的确,由于非常大量的关键点,对应的SIFT描述符的数据的量可能超过标准VGA照片本身的大小(以字节计)。
待处理数据的量可以通过在发送描述符阵列之前对其进行压缩而被有利地减少。例如,可通过矢量量化来压缩描述符阵列,所述矢量量化被提供用于将描述符阵列可具有的元组值近似为码本的码字的缩减集合。
待处理数据的量的进一步减少可以通过乘积码矢量量化(即,通过将描述符阵列再分成子阵列并在随后对每个每个子阵列应用矢量量化)压缩描述符阵列来实现。
Chandrasekhar V.等人:“Survey of SIFT CompressionSchemes”(第二届国际移动多媒体处理研讨会暨第20届国际模式识别会议”ICPR 2010;伊斯坦布尔,土耳其;2010年8月23-26,2010年8月22(2010-08-22),第1-8页)执行文献中提出的标度不变特征变换(SIFT)压缩方案的综合调查,并在通用框架中对其进行评估。
H Jegou等人:“Product Quantization for Nearest NeighborSearch”(IEEE模式分析与机器智能汇刊,第33卷,第1期,2011年1月1日(2011-01-01),第117-128页)介绍了一种用于近似最邻近搜索的基于乘积量化的方法。该构思是将空间分解成低维子空间的笛卡尔乘积,并且分别量化每个每个子空间。矢量由其子空间量化索引构成的短码来表示。两矢量之间的欧几里得距离可从它们的码有效地估计。不对称版本增加了精度,因为其计算的是矢量和码之间的近似距离。
发明内容
申请人发现,本领域已知方法效率不高,仍需要管理大量数据和/或大部分操作仍集中于服务器侧,这限制了系统的可扩展性和总体性能。
例如,Google Goggles所采用的从移动终端向服务器直接发送图像(而不是描述符)的解决方案要求整个计算负荷朝着服务器移动,服务器的负担可能过重。此外,发送压缩的图像仍需要相当可观的数据量(例如,对于VGA图像而言,几十千字节)。
申请人致力于解决如何在待处理数据的量方面改进这些方法的问题。
具体地,申请人致力于通过提供一种需要管理的数据量减少的处理图像的方法来解决所述问题。
申请人发现能够通过基于存储在描述符阵列中的颜色梯度直方图之间的相关关系将图像中标识的描述符阵列再分成对应的子阵列并在随后利用矢量量化压缩子阵列来有利地减少为执行图像分析程序步骤而需要处理的数据量。
本发明的一方面涉及一种用于处理图像的方法。该方法包括标识图像中的一组关键点。所述方法还包括对于所述组中的每个每个关键点,计算包括多个阵列元素的一个对应的描述符阵列,其中,每个每个阵列元素存储在所述关键点邻居内图像的相应子区域的对应颜色梯度直方图所取的值。所述方法还包括对于所述组中的每个关键点,将所述描述符阵列再分成至少两个子阵列,每个子阵列包括所述描述符阵列的相应数量的元素,并且生成对于所述至少两个子阵列中的每一个子阵列包括对应的压缩子阵列的压缩的描述符阵列。每个压缩的子阵列通过使用相应码本利用矢量量化对所述至少两个子阵列中的对应子阵列进行压缩来获得。所述方法还包括利用所述组中的关键点的压缩的描述符阵列来分析图像。对于所述组中的每个关键点,基于颜色梯度直方图之间的相关关系执行描述符阵列到至少两个子阵列的再分,所述颜色梯度直方图的值存储在所述每个关键点的描述符阵列的元素中。
申请人已观察到,通过压缩的描述符阵列(通过将描述符阵列再分成子阵列而压缩)的解压缩获得的解压缩的描述符阵列可能受失真的影响(即,解压缩的描述符阵列在一定程度上不同于压缩之前的原始描述符阵列)。基于这一观察,申请人发现一种方法,利用该方法,可通过计及解压缩期间围绕一般关键点的区域的各种子区域之间的统计空间相关性来显著降低失真。因此,根据本发明的实施方式,所述解压缩基于在关键点邻居内图像的子区域的位置之间的统计空间相关关系进行。
根据另一方面,提供一种如权利要求26所述的方法。
根据另一方面,提供一种如权利要求32所述的方法。
根据另一方面,提供一种如权利要求33所述的系统。
根据另一方面,提供一种如权利要求34所述的系统。
根据另一方面,提供一种如权利要求35所述的系统。
优选实施方式在从属权利要求中阐述。
附图说明
本发明的这些和其它特征和优点将通过以下结合附图阅读的本发明的一些示例性和非限制性实施方式的描述而变得显见,在附图中:
图1以功能块示出了根据本发明的实施方式的用于从查询图像中提取最佳关键点集合并生成压缩的描述符集合的提取过程;
图2A-2F是根据本发明的一些示例性实施方式的关键点的对应选择的局部特征的统计分布;
图2G是根据图1的提取过程处理的示例性照片;
图3A示出了SIFT型示例性描述符;
图3B示出了图3A的描述符的示例性描述符阵列;
图4A示出了根据本领域已知解决方案的示例性描述符阵列压缩;
图4B示出了根据本领域另一已知解决方案的示例性描述符阵列压缩;
图5示出了根据本发明的实施方式的相关族中的描述符的子直方图的布置;
图6A-6D示出了根据本发明的示例性实施方式如何压缩描述符阵列;
图7A示出了关键点KP的示例性分布;
图7B示出了为了量化图7A的关键点的坐标能够如何将网格叠加在查询图像上;
图7C是通过将图7B的网格叠加在图7A的关键点KP的集合上而获得的直方图的示例性图形描绘;
图7D标识了图7B的网格的完全由不包括任何关键点的单元形成的列和行;
图7E示出了秩1支集上的示例性直方图;
图7F示出了与图7E的秩1支集上的直方图对应的直方图映射;
图8A示出了字直方图的示例;
图8B示出了直方图映射的示例;
图9以功能块示出了根据本发明的实施方式的用于进行两个图像之间的比较的匹配过程;
图10以功能块示出了根据本发明的实施方式的用于从模型数据库检索描绘查询图像中所描绘的同一对象/场景的模型图像的检索过程;
图11以功能块示出了根据本发明的实施方式的用于对压缩的描述符阵列进行解压缩的优化解压缩过程;
图12图形描绘了描述符的区间的定向;
图13A示出了与被提供用于将描述符阵列再分成四个子阵列并针对每个子阵列使用包括2^13个码字的码本的压缩方案对应的示例性补偿矩阵;
图13B是示出了图13A的补偿矩阵的列元素所具有的值的示图。
图14A示出了与将描述符阵列再分成八个子阵列并针对每个子阵列使用包括2^11个码字的码本的压缩方案对应的示例性补偿矩阵Z,并且
图14B是示出了图14A的补偿矩阵的列的元素所具有的值的示图。
具体实施方式
提取过程(图1)
图1以功能块示出了根据本发明的实施方式的用于处理输入图像以便获得最佳关键点集合并生成对应的描述符集合的过程(以下称作“提取过程”,用参考编号100来标识)。随后将出于图像分析的目的利用关键点和描述符。在以下描述中,一般性的表达“图像分析”和“分析图像”旨在包括所有那些被提供用于将图像与至少一个其它图像进行比较的操作。这些操作可在多种多样的应用中执行,例如,在对象识别应用中,以及在被提供用于从多个不同的照片开始创建单个全景照片的应用中。
如稍后将描述的,根据本发明的实施方式的提取过程还用于选择关键点的最佳子集并将这些关键点的描述符在一定程度上压缩以极大地改进后续过程的效率。
在这一章节中描述的提取过程100的步骤可由恰当的处理单元执行,所述处理单元的结构和功能取决于它们所属的特定应用领域。例如,每个处理单元可以是专门被设计为执行该方法的一个或多个步骤的硬件单元。此外,该方法的各步骤可以在对应指令集控制下由可编程机器(例如,计算机)执行。
关键点提取(阶段110)
提取过程100的第一阶段110用于接收查询图像115并从中提取关键点KP的第一集合,每个关键点与对应的一对空间坐标C关联,所述空间坐标标识该关键点KP在查询图像115内的位置。
这一操作可利用已知的高斯差(DoG)关键点提取算法来执行;然而,类似考虑同样适用于采用不同的关键点提取算法(例如,Hessians行列式(DoH)关键点提取算法)的情况。参照DoG关键点提取算法,在一个序列中按照不同的标度使查询图像115与高斯滤波器卷积。然后,在该序列中在相邻对的高斯模糊的图像之间进行差分运算。然后在多个标度下选择关键点KP作为具有最大/最小高斯差(DoG)值的点。具体地讲,将DoG图像中的每个像素与其相同标度下的八个邻居进行比较,并与每一邻居标度(即,序列中的后续标度和先前标度)下的九个邻居像素进行比较。如果像素值在所有比较的像素之中是最大或最小值,则认为该点是候选关键点KP。
阶段110还基于局部图像亮度梯度方向将每个关键点KP指派给一个或多个定向。例如,形成具有多个区间的定向直方图,每个区间覆盖一个对应度的间隔。添加至直方图区间的邻居窗口中的每个样本按照其梯度幅值并通过高斯加权圆形窗口加权。所得直方图中的峰值对应于主要定向。一旦直方图被填充,与最高峰值以及最高峰值的80%内的局部峰值对应的定向被指派给关键点KP。在指派了多个定向的情况下,针对每个附加定向创建具有与原始关键点相同的位置和标度的附加关键点KP。
在阶段110结束时,由此生成关键点KP的集合,以及对应坐标C、用以提取关键点的标度S、其主要定向O和峰值P,即,与该关键点对应的DoG的绝对值(表征其对比度)。
描述符生成(阶段120)
随后的阶段120用于处理查询图像115以便针对每个关键点KP计算对应的描述符D。在所讨论的示例中,在阶段120计算出的描述符D是SIFT型描述符。尽管按照确保图像位置、标度和旋转的不变性的方式提取了关键点KP,但SIFT描述符D则以极为不同且对光照和视点部分不变的方式算出。具体地,对于每个关键点KP,在以关键点KP位置为中心并根据关键点KP的主要定向来定向的4x4网格上计算一组16个子直方图。每个子直方图包括8区间,每一区间对应于相对于主要定向的角度为n*π/4(n=0,1,…7)的定向;子直方图的每个区间的频率与该子直方图所对应的网格单元(以下称作子区域)沿着由该区间标识的方向的亮度梯度成比例。这些定向直方图的值按照阵列布置,形成关键点KP的描述符D。由于8个区间各自具有4 x 4=16个子直方图,因此描述符D是具有128个项的阵列。
如果在包括不同数量的单元的网格上计算SIFT描述符和/或每直方图具有不同数量的区间,本发明的概念也适用。
此外,即使在所讨论的示例中参照了SIFT型描述符,类似考虑同样适用于采用不同类型的描述符(例如,加速鲁棒特征(SURF)和定向梯度直方图(HOG)或者可能的其它类型)的情况。另外,即使已参照了并且将在下面参照包括与亮度梯度有关的数据的描述符,类似考虑同样适用于考虑不同参数的梯度的情况。实际上,如本领域技术人熟知的,亮度仅是颜色的物理特性之一。因此,即使确定了对于图像分析而言亮度是最佳(即,最鲁棒)的物理特性,也可考虑不同类型的描述符,例如,包括与色度梯度、饱和度梯度或者甚至颜色(包括亮度、饱和度和色度)梯度有关的数据。
如上面已经提及的,执行图像分析操作涉及管理非常大量的数据:实际上,每个关键点KP与包括坐标C、标度S、主要定向O和峰值P以及由128项的阵列形成的对应描述符D在内的多个局部特征(以下利用标号LFkp全局标识)关联。为此,为了减少待管理(例如,待存储和/或待发送)的数据的总量,根据本发明的实施方式的提取过程100考察两种情况,即:
1)通过选择最相关的关键点KP(从图像比较的角度)来减少先前生成的关键点KP的数量,以便获得关键点KP的最佳子集SUB,以及
2)恰当地压缩坐标C和描述符D二者。
提取过程100的阶段130专注于选择最佳子集SUB,阶段140专注于描述符D的压缩,阶段150专注于坐标C的压缩。
关键点的最佳子集的选择(阶段130)
根据本发明的实施方式,最佳子集SUB的选择这样进行:针对查询图像115的每个关键点KP的至少一个局部特征LFkp(坐标C、标度S、主要定向O、峰值P和描述符D)计算至少一个对应特征相关概率FRP,基于其局部特征LFkp的特征相关概率FRP根据关键点相关概率KRP对关键点KP进行排序,然后选择具有最高关键点相关概率KRP的关键点KP。
根据本发明的实施方式,一般关键点KP的每个局部特征LFkp的特征相关概率FRP利用已在对基准图像数据库进行统计评价之后预先确定的对应参考统计分布Rsd来计算。
参考统计分布Rsd以这样的方式形成以反映被认为可用于图像分析目的的关键点KP的局部特征LFkp的统计行为。
例如,在对象识别过程的情况下,基准图像数据库是包括多个图像对的数据库,每个图像对由描绘同一对象/场景的两个照片组成。根据本发明的实施方式,按照以下方式生成参考统计分布。
首先从基准数据库的所有图像提取关键点。然后,对所有提取的关键点的一个或多个选择的局部特征执行第一统计分析,以生成这些选择的局部特征的第一统计分布。局部特征的每个第一统计分布以直方图的形式布置,所述直方图通过(在从基准数据库的图像提取的关键点的总数之中)对该局部特征的值落入多个预定的局部特征值间隔(区间)的每一个内的关键点的数量(关键点频率)进行计数来获得。然后,对于每个图像对,使一个照片的关键点与另一照片的关键点匹配。利用图像比较过程(例如基于图像特征匹配的已知图像比较过程中的任一个)处理这些关键点之间的匹配,以便标识哪一匹配是正确的(内点),哪一匹配是不正确的(外点)。然后对同一特征或者为了生成参考统计分布Rsd(将用于计算特征相关概率FRP)而考虑的先前特征执行第二统计分析。这次,通过针对每个区间计算属于内点并且对应局部特征的值落入所述区间内的关键点的数量与对应局部特征的值落入同一区间内的关键点(属于内点和外点)的总数之比来进行参考统计分布Rsd的生成。申请人观察到,第一统计分布和参考统计分布Rsd彼此非常不同。由于参考统计分布Rsd是计及有关正确特征匹配的关键点(内点)而生成的,因此申请人已发现,这些统计分布良好地代表了与用于图像分析目的相关的关键点(以下,“相关关键点”)的统计行为,并且尤其适合于在图像比较过程中有效地利用。
图2A-2F示出了根据本发明的一些示例性实施方式的关键点KP的对应选择的局部特征LFkp的一些统计分布Rsd。具体地,图2A-2F的统计分布Rsd是从专门为对象识别应用布置的基准数据库的图像生成的。如果考虑不同的图像分析应用(例如,从多个不同的照片开始创建单个全景照片),则基准图像并且因此,所得统计分布Rsd将不同。
图2A是与关键点KP的坐标C有关的统计分布Rsd。对应直方图的每个区间表示一般关键点KP距图像中心的距离(以像素计)。在所讨论的示例中,考虑的图像为VGA型(即,具有640 x 480的分辨率),因此中心对应于坐标(320,240)。根据图2A所示的直方图,具有最高关键点KP频率的区间是与图像中心对应的区间。这意味着关键点KP离中心越近,该关键点KP是相关关键点的概率越高;直方图频率的趋势是随着距中心的距离增大而单调减小的。这可通过拍摄对象时所述对象很可能被取景于照片的中心的事实而方便地解释。必须理解,在这种情况下,直方图的区间不全具有同一的宽度;这是因为通过(标量和/或矢量)量化器恰当地将每个区间的宽度确定为计算少量区间,因此避免过拟合现象的发生。本发明的概念也适用于采用(标量和/或矢量)均匀量化(即,直方图的所有区间具有同一宽度)的情况。
图2B是与关键点KP的主要定向O有关的统计分布Rsd。对应直方图的每个区间表示一般关键点KP的主要方向相对于地平线(对应于0弧度)的角度(以弧度计)。根据图2B所示的直方图,具有最高关键点KP频率的区间是与地平线定向平行或垂直的定向所对应(即,对应于π/2、0、-π/2、-π)的区间。这意味着关键点KP的定向越接近所述定向中的一个,该关键点KP是相关关键点的概率越高。这可通过拍摄对象时所述对象很可能被取景为主要平行和/或垂直于地平线延伸的事实来解释。在这种情况下,也利用量化器确定区间的宽度。
图2C是与关键点KP的峰值P有关的统计分布Rsd。对应直方图的每个区间表示一般关键点KP与邻居点之中的最相似点之间的对比度。根据图2C所示的直方图,具有最高关键点KP频率的区间是与最高峰值对应的区间。这意味着关键点KP的对比度越高,该关键点KP是相关关键点的概率越高;直方图频率的趋势是随着对比度增加而单调增加的。这可通过具有高对比度的照片的点可被容易识别和标识的事实而容易地解释。在这种情况下,也利用量化器确定区间的宽度。
图2D是与关键点KP的标度S有关的统计分布Rsd。对应直方图的每个区间表示关键点KP可被提取的特定标度S。根据图2D所示的直方图,具有最高关键点KP频率的区间对应于中低标度。在这种情况下,也利用量化器确定区间的宽度。
图2E是与关键点KP的描述符D有关的第一统计分布Rsd。在这种情况下,对应直方图是三维的,其每个区间对应于一般关键点KP的描述符D的两个参数(即,描述符D的均值(x轴)和方差(y轴))的间隔值。较大的频率值由较大直径的圆指示。均值和方差由于彼此有联系而被一起考虑以形成同一直方图。根据该直方图,具有最高关键点KP频率的区间(由较大的圆表示)是与最高均值和最低方差对应的区间。这可通过如下事实来解释:关键点KP的描述符D的均值越大,与该关键点KP对应的亮度梯度越高,并且关键点KP的描述符D的方差越低,影响该关键点KP的不想要的噪声越低。
图2F是与关键点KP的描述符D有关的第二统计分布Rsd。在这种情况下,每个区间对应于关键点KP的描述符D与同一图像的其它关键点KP的描述符D之间的特定最大距离。例如,该最大距离可基于描述符之间的欧几里得距离来计算,还可考虑其它已知方法,例如利用对称的Kullback-Leibler散度。
参照图1,根据本发明的实施方式,提取过程100的阶段130用于针对在阶段110提取的每个关键点KP计算:
-第一特征相关概率FRP1,其从与所述关键点KP的坐标C有关的统计分布Rsd获得。检测与所述分布对应的直方图以便标识拟合所述关键点KP的坐标C的区间;然后,将特征相关概率FRP1设定为等于标识的区间的关键点频率。
-第二特征相关概率FRP2,其从与所述关键点KP的主要定向O有关的统计分布Rsd获得。检测与所述分布对应的直方图以便标识拟合所述关键点KP的主要定向O的区间;然后,将特征相关概率FRP2设定为等于标识的区间的关键点频率。
-第三特征相关概率FRP3,其从与所述关键点KP的峰值P有关的统计分布Rsd获得。检测与所述分布对应的直方图以便标识拟合所述关键点KP的峰值P的区间;然后,将特征相关概率FRP3设定为等于标识的区间的关键点频率。
-第四特征相关概率FRP4,其从与所述关键点KP的标度S有关的统计分布Rsd获得。检测与所述分布对应的直方图以便标识拟合所述关键点KP的标度S的区间;然后,将特征相关概率FRP4设定为等于标识的区间的关键点频率。
-第五特征相关概率FRP5,其从与所述关键点KP的描述符D的均值和方差有关的统计分布Rsd获得。检测与所述分布对应的直方图以便标识拟合所述关键点KP的描述符D的元素的均值和方差的区间;然后,将特征相关概率FRP5设定为等于标识的区间的关键点频率。
-第六特征相关概率FRP6,其从与所述关键点KP的描述符D与其它关键点KP的描述符D之间的最大距离(例如,欧几里得距离)有关的统计分布Rsd获得。检测与所述分布对应的直方图以便标识拟合该距离的区间;然后,将特征相关概率FRP6设定为等于标识的区间的关键点频率。
因此,对于每个关键点KP,通过其局部特征的特征相关概率FRP中的至少一个(或之中其中的组合)来获得关键点相关概率KRP。例如,首先假设特征相关概率FRP彼此独立,通过将其对应特征相关概率FRP彼此相乘来计算一般关键点KP的关键点相关概率KRP。通常,用于计算关键点相关概率KRP的不同特征相关概率FRP的数量越大,采用该方法可获得的结果越好。考虑SIFT描述符用于视觉搜索应用的示例,优选的是为了计算关键点相关概率所考虑的特征相关概率至少包括与标度、峰值和距中心的距离对应的那些特征相关概率。
图2G是利用对应圆点标识多个关键点的示例性照片,每个圆点的直径与关键点的相关概率KRP成比例。
一旦算出在阶段110提取的所有关键点KP的关键点相关概率KRP,所述关键点KP根据关键点相关概率KRP的降序排序。然后,通过从有序序列的第一序列中取出一定数量(基于待管理数据量的期望减少度)的关键点KP来形成最佳子集SUB。选择的属于最佳子集SUB的关键点KP结果是在阶段110提取的关键点KP的总数之中的最相关关键点KP(从图像比较的角度)。这样,仅计及相关关键点KP而丢弃不太有用的那些关键点KP,以聪明且有效的方式实现数据总量的减少。
需要强调的是,尽管上述根据本发明的实施方式的关键点的最佳子集的选择利用对应统计分布Rsd(通过针对其的每个区间计算对应局部特征的值落在所述区间内的关键点内点与对应局部特征的值落在同一区间内的关键点的总数之比获得)计算每个特征相关概率,但本发明的概念也适用于采用不同的统计上等效的统计分布的情况,所述统计分布利用不同的(甚至手动)方法获得。在以下描述中,如果两个统计分布允许从同一关键点集合获得相似的特征相关概率,则将其考虑为统计上彼此等效。
描述符的压缩(阶段140)
根据本发明的实施方式,通过利用数量减少的优化码本而由矢量量化实现描述符D的压缩。
图3A示出与一般关键点KP对应的SIFT型示例性描述符D(在图1的提取过程100的阶段120生成的描述符D之一,其被选择为是最佳子集SUB的一部分)。如上面已经提及的,描述符D包括十六个子直方图shi(i=1,2,…,16),每个子直方图示出靠近关键点KP的图像的各个子区域的亮度梯度如何沿着八个方向分布。具体地,每个子直方图shi与以关键点KP位置为中心并且根据关键点KP的主要定向O定向的4x4网格的16个单元中的一个所对应的子区域关联;每个子直方图shi包括八个区间,每个区间对应于相对于主要定向O的角度为n*π/4(n=0,1,…7)的定向。
如图3B所示,描述符D的所有定向直方图shi的值按照对应描述符阵列(在图中用标号DA标识)布置。描述符阵列DA包括十六个元素ai(i=1,2,…,16),每一个元素存储对应子直方图shi(i=1,2,…,16)所取的值;每个元素ai继而包括八个相应的子元素,每一个子元素存储与子直方图shi的八个区间中相应的一个区间对应的频率值。因此,每个描述符阵列DA包括16*8=128个子元素(被标识为se(h)(h=1,2,…,128))。考虑到在SIFT描述符D中典型频率值可在0至255的范围内,描述符阵列DA的每个子元素se(h)可用字节表示;因此,描述符阵列DA的内存占用等于128字节。因此,再次参照图1的提取过程100,与属于选择的最佳子集SUB的关键点KP的所有描述符D对应的数据量(字节)等于128乘以最佳子集SUB中的关键点KP的数量。
为了减少该数据量,通过矢量量化压缩与这些描述符D对应的描述符阵列DA。
如本领域技术人员熟知的,利用矢量量化压缩由n个元素(n元组)形成的数据阵列用于将数据阵列可具有的所有可能的n元组值的集合联合量化为包括较少数量的n元组值的缩减集合(所述值甚至可不同于待量化的集合中的值)。由于缩减集合包括较少数量的n元组值,它需要较少的存储空间。形成缩减集合的n元组值也称作“码字”。每个码字与阵列可具有的不同n元组值的对应集合关联。数据阵列的n元组值与码字之间的关联关系利用对应码本来确定。
具体参照描述符阵列DA,该描述符阵列DA包括16个元素ai,元素ai继而由八个子元素se(h)形成,每个子元素se(h)的值在0至255的范围内,描述符阵列DA可取N=256128个不同的16元组值。通过矢量量化应用压缩,该N个不同的16元组值用码本的N1<N个码字近似。码本确定每个码字与描述符阵列DA的16元组值的对应集合之间的关联关系。因此,码本的每个码字是用于“近似”描述符阵列DA的16元组值的对应集合的16元组值。矢量量化是有损数据压缩,其精度可通过称为失真的参数来测量。例如,失真可被计算为码本的一般码字与由该码字近似的阵列的n元组值的集合之间的欧几里得距离。即使用不同的方法计算失真,类似考虑也同样适用。在任何情况下,一般来讲,码本的码字的数量N1越大,压缩的失真越小。
如本领域技术人员熟知的,码本的码字的生成通常通过对包括非常大量的训练阵列的集合的训练数据库执行统计操作(称作训练操作)来完成。具体参照描述符阵列DA,训练数据库可包括几百万的训练描述符阵列,其中,每个训练描述符阵列是描述符阵列DA可具有的N=256128个可能的16元组值中的一个。
根据图4A所示的方案,利用包括N1个16元组值码字CWj(j=1,2,…N1)的单个码本CBK压缩整个描述符阵列DA。因此,对于N1个不同的码字CWj,标识码字所需的最少比特数等于log2N1。如上面已经提及的,该单个码本CBK的N1个不同码字CWj的生成通过对多个训练描述符阵列执行训练操作来完成,其中,每个训练描述符阵列是描述符阵列DA可具有的N=256128个可能的16元组值中的一个。
为了将压缩失真保持在足够减小的阈值以下以不损害后续图像分析操作的结果,所需的码字数N1可能变得非常高。从不同的观点看,由过高数量N1的码字形成的码本是不利的。实际上,将用于生成码字的训练阵列的数量将会得过多,处理时间将变得过长。此外,为了利用码本执行压缩操作,形成码本的全部N1个码字必须被存储在某处,占据不可忽略的存储空间量。后一缺点非常关键,因为用于图像分析应用的硬件(例如,图形处理单元GPU)可能未配备有容量如此大的内存。
参照图4B,为了在不增加失真的同时减少待管理码字CWj的总数,描述符阵列DA可被再分成多个子阵列SDAk(k=1,2,…),每一个子阵列包括描述符阵列DA的相应数量mk的元素ai,然后,利用包括N2个mk元组值码字CWj(j=1,2,…N2)的相应码本CBKk单独地对每个子阵列SDAk进行压缩。
在图4B所示的示例中,描述符阵列DA被再分成四个子阵列SDAk(k=1,2,3,4),每一子阵列包括描述符阵列DA的mk=4个元素ai:
-第一子阵列SDA1由元素序列a1、a2、a3、a4形成;
-第二子阵列SDA2由元素序列a5、a6、a7、a8形成;
-第三子阵列SDA3由元素序列a9、a10、a11、a12形成,以及
-第四子阵列SDA4由元素序列a13、a14、a15、a16形成。
每个子阵列SDAk的压缩利用包括N2个4元组值码字CWj(j=1,2,…N2)的相应码本CBKy(y=k)来进行。因此,对于4*N2个不同的码字CWj,标识所有码字所需的最少比特数等于4*log2 N2。即使在所考虑的情况下利用包括同一数量N2的码字CWj的码本CBKy压缩每个子阵列SDAk,类似考虑同样适用于利用相应的不同数量的码字CWj压缩每个子阵列SDAk的情况。
在图4B所示的情况下,通过对训练描述符阵列的相应子集执行训练操作来生成每个码本CBKy的N2个不同的码字CWj。码本CBKk的训练描述符阵列的每个子集对应于四个子阵列SDAk中的一个,并且可通过从用于生成图4A的单个码本CBK的每个训练描述符阵列中仅考虑其与子阵列SDAk对应的那部分来获得。例如,为了生成码本CBK1,仅采用用于生成图4A的单个码本CBK的16元组训练描述符阵列的前四个元素a1、a2、a3、a4。
与图4A的利用由具有描述符阵列DA本身的同一维度(16个元素)的码字CWj形成的单个码本CBK压缩整个描述符阵列DA的情况相比,由具有其子阵列SDAk的(较小)维度mk(例如,mk=4个元素)的码字CWj形成的码本CBKy的使用允许利用同一数量的码字CWj获得较低的失真。
在码字CWj总数固定的情况下,描述符阵列DA被再分成的子阵列SDAk的数量越高,失真越低,但与此同时标识所有码字CWj所需的最少比特数越高。
根据本发明的实施方式,为了压缩目的将描述符阵列DA再分成子阵列SDAk通过计及描述符阵列DA的元素ai之间出现的相关关系来完成。
如已经参照图3A和图3B描述的,描述符阵列DA的每个元素ai存储与相应子区域关联的子直方图shi所取的值,所述子区域则对应于以与该描述符阵列DA对应的关键点KP为中心的4x4网格的单元。
根据图5所示的本发明的实施方式,在对大量描述符阵列DA(例如,利用训练数据库的训练描述符阵列)进行了统计行为分析之后,已发现一般关键点KP的子直方图shi可布置在相关族CFx(x=1,2,3,4)中,每个相关族CFx包括具有相似统计行为(即,具有类似的区间频率趋势)的相关的子直方图shi的集合。例如,属于同一相关族CFx的两个子直方图shi可在相同(或相似)区间处具有相似数量的频率峰值。
用于形成相关族CFx的统计行为分析表明,在用于压缩描述符阵列DA的码字CWj的最大数量固定的情况下,如果相关族CFx中的子直方图shi的布置变化(通过将子直方图shi指派给不同的相关族CFx),则所得失真相应地变化。于是相关族CFx通过在所有可能的子直方图shi再分中考虑与最低失真对应的一个再分来形成。
在执行了该统计行为分析之后,还发现,两个子直方图shi的统计行为之间的相关取决于两个主要参数,即,与子直方图shi关联的子区域距关键点KP的距离及其主要定向。
参照图5,关键点KP的十六个子直方图shi被布置在四个相关族中,即:
-第一相关族CF1包括子直方图sh1、sh4、sh13和sh16;
-第二相关族CF2包括子直方图sh2、sh3、sh14和sh15;
-第三相关族CF3包括子直方图sh5、sh8、sh9和sh12,以及
-第四相关族CF4包括子直方图sh6、sh7、sh10和sh11。
根据本发明的实施方式,有利地利用以上标识的相关族CFx,以便利用数量减少的优化码本CBKy压缩描述符阵列DA。以使得至少两个子阵列SDAk具有相同的全局(即,考虑其所有元素)统计行为的方式将描述符阵列DA再分成子阵列SDAk;这样,可使用单个码本CBKy压缩不止一个子阵列SDAk。为此,描述符阵列DA的再分以获得一组(多组)子阵列SDAk,其中对于每个组,在所有子阵列SDAk中占据相同位置的元素ai属于同一相关族CFx。因此,可有利地利用相同的对应码本CBKy压缩属于同一组的所有子阵列SDAk,所述码本CBKy的码字CWj通过从用于生成图4A的单个码本CBK的每个训练描述符阵列中仅考虑其属于该组的子阵列SDAk的元素ai所属的相关族CFx的元素来获得。
根据图6A所示的本发明的示例性实施方式,描述符阵列DA被再分成四个子阵列SDA1-SDA4,这些子阵列被布置在单个组中。因此,利用同一码本CBK1压缩所有子阵列SDAk。具体地:
-第一子阵列SDA1由元素序列a1、a2、a6、a5形成;
-第二子阵列SDA2由元素序列a4、a3、a7、a8形成;
-第三子阵列SDA3由元素序列a16、a15、a11、a12形成,以及
-第四子阵列SDA4由元素序列a13、a14、a10、a9形成。
在这种情况下:
-每个子阵列SDAk的第一元素ai属于第一相关族CF1;
-每个子阵列SDAk的第二元素ai属于第二相关族CF2;
-每个子阵列SDAk的第三元素ai属于第四相关族CF4,以及
-每个子阵列SDAk的第四元素ai属于第三相关族CF3。
用于压缩一般子阵列SDA1-SDA4的码本CBK1包括N3个码字CWj,其中,每个码字CWj具有属于第一相关族CF1的第一元素、属于第二相关族CF2的第二元素、属于第四相关族CF4的第三元素以及属于第三相关族CF3的第四元素。
对于N3个不同的码字CWj,标识所有码字所需的最少比特数等于4*(log2 N3)。
根据图6B所示的本发明的另一示例性实施方式,描述符阵列DA被再分成布置于单个组中的两个子阵列SDA1、SDA2。因此,利用同一码本CBK1压缩所有子阵列SDAk。具体地:
-第一子阵列SDA1由元素序列a1、a2、a3、a4、a5、a6、a7、a8形成,以及
-第二子阵列SDA2由元素序列a13、a14、a15、a16、a9、a10、a11、a12形成。
在这种情况下:
-每个子阵列SDAk的第一和第四元素ai属于第一相关族CF1;
-每个子阵列SDAk的第二和第三元素ai属于第二相关族CF2;
-每个子阵列SDAk的第五和第八元素ai属于第三相关族CF3,以及
-每个子阵列SDAk的第六和第七元素ai属于第四相关族CF4。
用于压缩一般子阵列SDA1、SDA2的码本CBK1包括N4个码字CWj,其中,每个码字CWj具有属于第一相关族CF1的第一和第四元素、属于第二相关族CF2的第二和第三元素、属于第三相关族CF3的第五和第八元素以及属于第四相关族CF3的第六和第七元素。
对于N4个不同的码字CWj,标识所有码字所需的最少比特数等于2*(log2 N4)。
根据图6C所示的本发明的另一示例性实施方式,描述符阵列DA被再分成六个子阵列SDA1-SDA6,其中的四个子阵列(SDA1-SDA4)布置于第一组中,两个子阵列(SDA5,SDA6)布置于第二组中。因此,利用同一第一码本CBK1压缩子阵列SDA1-SDA4,同时利用同一第二码本CBK2压缩子阵列SDA5-SDA6。具体地:
-第一子阵列SDA1由元素序列a5、a1、a2形成;
-第二子阵列SDA2由元素序列a8、a4、a3形成;
-第三子阵列SDA3由元素序列a9、a13、a14形成;
-第四子阵列SDA4由元素序列a12、a16、a15形成;
-第五子阵列SDA5由元素序列a6、a7形成,以及
-第六子阵列SDA6由元素序列a10、a11形成。
在这种情况下:
-第一组的每个子阵列SDA1-SDA4的第一元素ai属于第三相关族CF3;
-第一组的每个子阵列SDA1-SDA4的第二元素ai属于第一相关族CF1;
-第一组的每个子阵列SDA1-SDA4的第三元素ai属于第二相关族CF2,以及
-第二组的每个子阵列SDA5-SDA6的第一和第二元素属于第
四相关族CF4。
用于压缩属于第一组的一般子阵列SDA1-SDA4的码本CBK1包括N5个码字CWj,其中,每个码字CWj具有属于第三相关族CF3的第一元素、属于第一相关族CF1的第二元素以及属于第二相关族CF2的第三元素。用于压缩属于第二组的一般子阵列SDA5-SDA6的码本CBK2包括N6个码字CWj,其中,每个码字CWj具有属于第四相关族CF4的第一和第二元素。
对于N5+N6个不同的码字CWj,标识所有码字所需的最少比特数等于4*(log2 N5)+2*(log2 N6)。
根据图6D所示的本发明的另一示例性实施方式,描述符阵列DA被再分成八个子阵列SDA1-SDA8,其中的四个子阵列(SDA1-SDA4)布置于第一组中,四个子阵列(SDA5-SDA8)布置于第二组中。因此,利用同一第一码本CBK1压缩子阵列SDA1-SDA4,同时利用同一第二码本CBK2压缩子阵列SDA5-SDA8。具体地:
-第一子阵列SDA1由元素序列a5、a1形成;
-第二子阵列SDA2由元素序列a8、a4形成;
-第三子阵列SDA3由元素序列a9、a13形成;
-第四子阵列SDA4由元素序列a12、a16形成;
-第五子阵列SDA5由元素序列a6、a2形成;
-第六子阵列SDA6由元素序列a7、a3形成;
-第七子阵列SDA7由元素序列a10、a14形成,以及
-第八子阵列SDA8由元素序列a11、a15形成。
在这种情况下:
-第一组的每个子阵列SDA1-SDA4的第一元素ai属于第三相关族CF3;
-第一组的每个子阵列SDA1-SDA4的第二元素ai属于第一相关族CF1;
-第二组的每个子阵列SDA5-SDA8的第一元素ai属于第四相关族CF4,以及
-第二组的每个子阵列SDA5-SDA8的第二元素ai属于第二相关族CF2。
用于压缩属于第一组的一般子阵列SDA1-SDA4的码本CBK1包括N7个码字CWj,其中,每个码字CWj具有属于第三相关族CF3的第一元素以及属于第一相关族CF1的第二元素。用于压缩属于第二组的一般子阵列SDA5-SDA8的码本CBK2包括N8个码字CWj,其中,每个码字CWj具有属于第四相关族CF4的第一元素以及属于第二相关族CF2的第二元素。
因此,对于N7+N8个不同的码字CWj,标识所有码字所需的最少比特数等于4*(log2 N7)+4*(log2 N8)。
自然,本发明的概念也适用于再分成不同数量的子阵列和/或不同数量的码本。此外,即使在本说明书中参照了在包括4x4单元的网格上(每直方图具有八个区间)计算的SIF描述符的压缩,类似考虑适用于单元的数量和/或每直方图的区间的数量不同的情况,并且也可考虑其它类型的描述符。
与已知的方案相比,对于相同的压缩失真,将描述符阵列DA再分成子阵列SDAk和针对不止一个子阵列SDAk采用同一码本CBKy的组合使用实现了存储用于压缩描述符阵列DA的码本CBKy所需的存储空间的大幅缩减。这是极为有利的,因为如上面已经提及的,用于图像分析应用的硬件(例如,图形处理单元GPU)可能未配备有容量如此大的内存。将描述符阵列DA再分成子阵列SDAk和针对不止一个子阵列SDAk采用同一码本CBKy的组合使用所给出的另一优点在于用于码本CBKy生成的训练过程变得更快。
在提取过程100(参见图1)的阶段140中对每个接收的描述符D执行的压缩操作作为结果生成对应压缩的描述符阵列CDA,该描述符阵列CDA近似相应描述符阵列DA所取的值。更具体地,对于用于压缩描述符阵列DA的每个码本CBKy,该码本CBKy的每个码字CWj由对应压缩索引Cy标识;如果码本CBKy由N个不同的码字CWj形成,则压缩索引Cy由至少log2 N比特形成。对于再分成子阵列SDAk的集合的描述符阵列DA,对应压缩的描述符阵列CDA包括用于集合中的每个子阵列SDAk的压缩索引Cy,其中,每个压缩索引Cy标识用于近似所述子阵列SDAk的码本CBKy的码字CWj。
坐标的压缩(阶段150)
根据本发明的实施方式,通过压缩属于在提取过程100(参见图1)的阶段130算出的最佳子集SUB的关键点KP的坐标C来进一步减少为执行图像分析操作而待管理(例如,待存储和/或发送)的数据的量。
图7A示出了在与查询图像115对应的二维空间内最佳子集SUB的关键点KP的示例性分布;每个关键点KP与标识在查询图像115内该关键点KP的位置的一对对应的空间坐标C关联。
首先,对子集SUB的所有关键点KP的坐标C进行量化。为此,将n x m网格叠加在查询图像115上。在图7B所示的示例中,网格具有n=10行和m=15列。
然后,通过针对网格的每个单元(与直方图的区间对应)对落在其内的关键点KP的数量进行计数来生成二维直方图。图7C是通过将图7B的网格叠加在图7A的关键点KP的集合上而获得的直方图的示例性图形描绘。在图7C的图形描绘中,没有关键点KP的单元为黑色,而包括至少一个关键点KP的单元为灰色。在所讨论的示例中(其中包括最多数量的关键点的单元包括两个关键点),包括单个关键点KP的单元为深灰色,而包括两个关键点KP的那些单元为浅灰色。
从关键点计数获得的直方图具有大量频率等于零的区间,即,不包括任何关键点KP的对应单元(图7C中所描绘的黑色单元)。
表示直方图的数据可有利地通过考虑到其与零频率区间对应的部分仅提供其对应单元不包括任何关键点的信息而被压缩。
为此,可有利地去除网格的完全由不包括任何关键点KP的单元形成的行和列。然而,由于去除这些行和/或列将改变关键点KP的绝对位置和相对位置,因此应该记录没有关键点KP的所有行和列的位置(包括与待去除的行和/或列对应的那些位置)的指示。
为此,按照以下方式定义两个阵列r和c:
-阵列r是针对网格的每一行包括一个元素的阵列,其中,如果网格的对应单元不包括任何关键点KP,则该阵列的一般元素被设定为第一值(例如,0),如果网格的对应单元包括至少一个关键点KP,则其被设定为第二值(例如,1),并且
-阵列c是针对网格的每一列包括一个元素的阵列,其中,如果网格的对应单元不包括任何关键点KP,则该阵列的一般元素被设定为第一值(例如,0),如果网格的对应单元包括至少一个关键点KP,则其被设定为第二值(例如,1)。
一旦生成了阵列r和c,下一步骤则用于标识完全由不包括任何关键点KP的单元形成的行和/或列。参照所讨论的示例,这些行和列在图7D中被描绘为黑色。
然后,去除网格的完全由不包括任何关键点KP的单元形成的行和/或列,使所得的网格部分紧凑,以便填充由于去除而留下的空白空间。因此,在所得的(紧凑)网格(称作秩1支集)中,所有行和所有列中的至少一个单元包括至少一个关键点KP。图7E示出了与所讨论的示例对应的秩1支集上的直方图。
从该直方图,能够提取两条不同的信息,即,:
1)秩1支集的包括至少一个关键点KP的单元的位置,以及
2)对于点1)处标识的秩1支集的每个单元,其中包括的关键点KP的数量。
有利地,如S.Tsai、D.Chen、G.Takacs、V.Chandrasekhar、J.P.Singh和B.Girod在“Location coding for mobile imageretrieval”(国际移动多媒体会议(MobiMedia)会报,2009)中所建议的,与点1)对应的信息可利用所谓的“直方图映射”来提取,而与点2)对应的信息可被布置在所谓的“直方图计数”中。
直方图映射是标识其频率大于等于1的区间的秩1支集上的直方图的二维映射。与图7E的秩1支集上的直方图对应的直方图映射于图7F中示出。
直方图映射可利用对应矩阵来表示,如果秩1支集的对应单元不包括任何关键点KP,则该矩阵的一般元素等于零,如果秩1支集的对应单元包括至少一个关键点KP,则等于一。图7F所示的直方图映射的矩阵如下:
1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0
根据本发明的实施方式,可有利地利用基于从大量训练图像的分析中学习的示例性秩1支集直方图的统计行为而优化的熵编码来压缩由直方图映射提供的信息。
从这样的分析发现,一般图像内的关键点KP的位置导致直方图映射的矩阵内的“1”的常见统计分布。
按照以下方式进行熵编码。
扫描直方图映射的矩阵(例如,逐列)以将其再分成多个各个具有相同长度x的字。基于对训练图像进行的统计分析,生成针对一般字的x元组可能取的每一可能值包括一个区间的字直方图,每个区间的频率指示字的x元组取与该区间关联的值的概率。简单地讲,基于直方图映射的矩阵的元素彼此独立的假设进行这种统计分析。通过分析非常大的数量的训练图像,可标识出矩阵中每n个“0”出现一个“1”的概率是多少;然后,基于该概率生成字直方图。
图8A示出了字的长度x等于六并且每个区间由对应x元组值的十进制值标识的字直方图的示例。正如预期,最高频率对应于x元组(0,0,0,0,0,0),这是因为秩1支集的一般单元不包括任何关键点KP的概率非常高。第二高的概率是与单个关键点KP的单元(x-元组(1,0,0,0,0,0)、(0,1,0,0,0,0)、(0,0,1,0,0,0)、(0,0,0,1,0,0)、(0,0,0,0,1,0)、(0,0,0,0,0,1))对应的概率,然后是与两个关键点KP的单元对应的概率,以此类推。
利用熵编码技术(例如,Huffman技术或算术编码技术)通过针对每个字使用编码字bci(i=1,2,…)来对字进行编码,编码字bci的比特数取决于字直方图中的对应区间的概率。字的概率越高,用于编码该字的编码字bci的比特数越少。
可从秩1支集上的直方图提取的其它信息涉及直方图映射的包括至少一个关键点KP的每个单元中所包括的关键点KP的数量。该信息被布置于对应直方图(称作直方图计数)中。直方图计数的每个区间对应于秩1支集的包括至少一个关键点KP的单元之中对应的一个单元。直方图计数针对每个区间列出对应单元中所包括的关键点KP的数量。所讨论的示例的直方图映射于图8B中示出,其中有11个单元各包括单个关键点KP,有两个单元各包括两个关键点KP。图8B的直方图映射的区间遵循秩1支集的列方向扫描排序。
由直方图计数提供的关键点计数信息被编码为不同长度的编码字wj(j=1,2,…)的集合,集合中的每个编码字wj指示相应直方图计数区间的集合的哪个(哪些)区间对应于大于等于特定值的关键点KP数量。
更具体地,如果每个区间内计数的关键点KP的最高数量等于Nmax,则该编码字wj的集合包括数量等于Nmax-2的编码字wj。通过执行Nmax-2个过程步骤的集合之中的对应一个过程步骤来生成每个编码字wj。根据本发明的实施方式,这些过程步骤描述如下。
步骤1–将第一编码字w1设定为针对直方图映射的每个区间包括一个元素。因此,第一编码字w1包括的元素数量等于直方图映射的区间的数量。如果直方图计数的对应区间对应于大于一的关键点KP数量,则第一编码字w1的每个元素被设定为第一值(例如,“1”),否则被设定为第二值(例如,“0”)。如果Nmax大于2,则执行第二步骤以生成第二编码字w2,否则处理终止。在后一种情况下,由直方图计数提供的整个信息结果将仅利用第一编码字w1进行编码。
步骤j(j>1)–生成第j编码字wj。第j编码字wj被设定为针对直方图映射的包括超过j个关键点KP的每个区间包括一个元素。因此,第j编码字wj包括的元素的数量小于等于j-1编码字w(j-1)。如果直方图计数的对应区间对应于大于j的关键点KP数量,则第j编码字wj的每个元素被设定为第一值,否则被设定为第二值。如果Nmax大于j+1,则执行第(j+1)步骤,以生成第(j+1)编码字w(j+1),否则处理终止。在后一种情况下,由直方图计数提供的整个信息利用编码字w1-wj进行编码。
在提取过程100(参见图1)的阶段150中执行的压缩操作允许针对属于子集SUB的关键点KP的坐标C获得对应压缩的坐标集合CC,其包括:
-阵列r和阵列c;
-编码字bci,以及
-编码字wj。
管理(存储和/或发送)压缩的坐标集合CC所需的数据量显著低于管理(未压缩的)坐标C的集合所需的数据量。
匹配过程(图9)
图9以功能块示出了根据本发明的实施方式的用于通过针对每个图像使用通过图1的提取过程100生成的相应关键点的最佳子集以及对应压缩的描述符和坐标,执行两个图像I1、I2之间的比较的图像分析过程(以下称作“匹配过程”,并用参考编号900标识)。
匹配过程900的步骤可通过恰当的处理单元执行;例如,每个处理单元可以是专门被设计为执行搜索过程的一个或多个步骤的硬件单元。一个可能的场景可以用于期望利用图像比较服务(服务器侧)以将图像I1与图像I2进行比较的用户(客户机侧)。在这种情况下,可在客户机处根据图1的提取过程100处理图像I1和I2以便于生成关键点的最佳子集以及对应压缩的描述符和坐标;然后,将关键点的最佳子集以及对应压缩的描述符和坐标发送至服务器,服务器利用接收到的数据执行匹配过程900并在随后将结果提供给客户机。在这种情况下,提取过程100可由位于客户机处的处理单元(例如,利用用户的智能电话)执行,而匹配过程900可由位于服务器处的处理单元(例如,利用适于提供图像比较服务的一个或多个服务器单元)执行。另一个可能的场景可以代替地用于匹配过程900直接在客户机处执行。还可以想到其中在客户机处利用由服务器发送的压缩的描述符和坐标执行匹配过程900的混合场景。
图像I1的压缩的坐标用参考编号CC1来标识,而图像I1的压缩的描述符用参考编号CDA1来标识。类似地,图像I2的压缩的坐标用参考编号CC2来标识,而图像I2的压缩的描述符用参考编号CDA2来标识。
第一图像I1的压缩的描述符CDA1被解压缩以便检索对应的(解压缩的)描述符D1(阶段902)。类似地,第二图像I2的压缩的描述符CDA2被解压缩以便检索对应的(解压缩的)描述符D2(阶段904)。描述符的解压缩可利用在提取过程100的阶段140中执行的压缩操作的逆版本来执行。参照SIFT型描述符,在阶段902和904之后,描述符D1和D2因此由128个子元素se(h)所形成的对应描述符阵列表示。
在阶段906,通过利用本领域已知的特征匹配算法中的任一个(例如,欧几里得距离比测试)来执行第一图像I1的描述符D1和第二图像I2的描述符D2之间的匹配。
然后,在阶段908,执行几何验证操作以确定在阶段906处形成的那些匹配之中哪些匹配是正确的(内点),哪些匹配是不正确的(外点)。如本领域技术人员已知的,除了描述符以外,这一类型的操作需要其对应描述符与另一关键点的描述符匹配的每个关键点的坐标。为此,图像I1的压缩的坐标CC1和图像I2的压缩的坐标CC2也应该被解压缩,例如,通过利用在提取过程100的阶段150中执行的压缩操作的逆版本。专用于对压缩的坐标CC1进行解压缩的阶段在图9中用参考编号910标识,而专用于对压缩的坐标CC2进行解压缩的阶段在图9中用参考编号912标识。一旦标识出内点,几何验证作为结果可提供表征图像I1和I2之间的匹配程度的参数DOM。例如,如果该参数DOM高于预定阈值,则图像I1和I2被认为描绘同一对象/场景。
另外,还可执行定位操作(阶段914)以检索两个图像I1、I2内的同一对象/场景的位置L。
参照先前提及的客户机-服务器图像比较场景,由于匹配过程900被配置为利用数量减少的关键点(仅属于利用提取过程100生成的子集SUB的那些关键点)操作,并且由于按照压缩方式接收这些数量减少的关键点的描述符和坐标,则利用所提出的方案,要从客户机发送至服务器的数据的总量与已知方案相比大大减少。
检索过程(图10)
图10以功能块示出了根据本发明的实施方式的将描绘待识别的对象/场景的查询图像(例如,图1的查询图像115)与存储在模型数据库中的多个模型图像(每个模型图像描绘相应的已知对象/场景)进行比较,以便检索描绘与查询图像中所描绘的相同对象/场景的模型图像的图像分析过程(以下称作“检索过程”并用参考编号1000标识)。
类似图9的匹配过程900,检索过程1000的各步骤可由恰当的处理单元执行;例如,每个处理单元可以是专门被设计为执行该过程的一个或多个步骤的硬件单元。典型场景可以用于期望利用图像识别服务(服务器侧)以便自动识别查询图像115中描绘的对象/场景的用户(客户机侧)。在这种情况下,可在客户机处根据图1的提取过程100处理查询图像115以便于生成关键点的最佳子集SUB以及对应压缩的描述符CDA和坐标CC;然后,将关键点的最佳子集以及对应压缩的描述符和坐标发送给服务器,服务器利用接收到的数据执行检索过程1000,然后将结果提供给客户机。将用于识别查询图像115中描绘的对象/场景的多个模型图像存储在位于服务器侧的模型数据库1002中。
对压缩的描述符CDA进行解压缩以便检索对应(解压缩的)描述符DD(阶段1004)。描述符的解压缩可利用在提取过程100的阶段140中执行的压缩操作的逆版本来执行。同样,参照SIFT型描述符,在阶段1004之后,描述符DD因此使用由128个子元素se(h)形成的对应描述符阵列表示。
由于标准对象识别过程通常需要执行查询图像与非常大量的模型图像(例如,包括在模型数据库1002中的模型图像可为几百万个)之间的比较操作,因此该过程耗时并且占内存。为此,一种已知的解决方案用于在两个不同的阶段执行这些比较操作。代替直接将查询图像的描述符与所有模型图像的描述符进行比较,在从查询图像提取的视觉字与从模型图像提取的视觉字之间初步进行快速、粗略的比较;然后,仅在查询图像的描述符与基于初步比较选择的模型图像的缩减集合的描述符之间进行描述符的(精确)比较。视觉字是通过执行描述符的矢量量化获得的阵列;换言之,每个视觉字是视觉码本的码字。针对查询图像的每个描述符和模型图像的每个描述符生成视觉字。例如,通过对查询图像与每个模型图像之间共用的视觉字的数量进行计数来进行初步比较。然后,针对每个模型图像,基于共用视觉字的数量的计数计算相似等级(similitude rank)。类似考虑同样适用于通过利用替换方法比较视觉字来生成相似等级的情况。这样,可有利地仅在查询图像与具有最高相似等级的模型图像(即,与查询图像共有最高数量的视觉字的模型图像)之间进行描述符之间的精确比较。从文本分析领域衍生的这一方法也称作“利用特征包(BoF)的排序”.
再次参照图10,为了允许执行利用BoF的排序,必须为查询图像的每个描述符生成视觉字VD并且为每个模型图像的每个描述符生成视觉字VDR。
需要指出的是,为了允许视觉字之间的比较,应该使用同一码本来生成视觉字VD和视觉字VDR。
尽管每当执行检索过程1000时不得不生成查询图像115的视觉字VD(阶段1006),但为了大幅缩短操作时间,模型图像的视觉字VDR的生成可有利地仅被执行一次,然后所得的多个视觉字VDR可被直接存储在模型数据库1002中;作为替换,可定期更新视觉字VDR。
在针对查询图像的每个描述符DD生成对应视觉字VD之后,在阶段1008,于是执行利用BoF的排序。这样,对于每个模型图像,通过对该模型图像的视觉字VDR(同样是查询图像的视觉字VD)的的数量进行计数来计算等级索引。这种计数可利用凭借BoF实现的已知排序(也称为反向索引)来实现。然而,类似考虑同样适用于应用不同实现的情况。一旦计算出所有等级索引,生成其中数据库的模型图像根据等级索引降序排序的列表。然后,选择具有最高等级索引值的模型图像的集合SR用以经历后续(精确)比较操作。
需要指出的是,由于根据本发明的实施方式,每个图像的描述符的数量被有利地减少为仅对应于被认为相关的关键点的最佳子集SUB(参见图1的提取过程100的阶段130),因此必须被加载到工作内存中(例如,位于服务器侧的RAM存储体中)的执行利用BoF的排序(阶段1008)所需的数据量被极大地减少,从而大幅提高处理速度。此外,由于仅计及被认为相关的关键点的描述符而进行比较,因此比较的精确度归因于噪声的降低而增加。为了进一步提高速度和精确度,也针对包括在模型数据库1002中的每个模型图像生成包括数量减少的描述符的最佳子集。
已发现,形成最佳子集SUB的关键点的数量极大地影响利用BoF的排序的结果。实际上,对于考虑的同一数量的图像,查询图像115中所描绘的对象/场景也在属于选择的模型图像的集合SR的至少一个模型图像中描绘的概率随着最佳子集SUB的关键点的数量的减少而增加。然而,如果最佳子集SUB的关键点的数量落于较低阈值以下,则该过程的性能降低,这是因为包括在子集SUB中的关键点的数量变得太少,难以令人满意地表示每个图像。
就此,在查询图像115与模型图像的集合SR之间进行第二精确比较(阶段1010)。可采用已知的特征匹配过程之一来将查询图像115的描述符DD与集合SR的模型图像的描述符进行匹配(子阶段1012)(例如,通过计算描述符之间的欧几里得距离),然后执行几何验证以确定哪些匹配是内点,哪些匹配是外点(子阶段1014)。这样,如果其存在,在阶段结束时检索到描绘有查询图像115中也有描绘的对象/场景的集合SR的模型图像RI。
根据本发明的实施方式,代替直接对查询图像115的描述符DD和集合SR的模型图像的描述符执行特征匹配操作,对通过将对应描述符阵列再分成子阵列并基于矢量量化利用码本压缩每个子阵列而获得的其压缩版本执行特征匹配操作。为此,在阶段1016压缩查询图像115的描述符DD,例如,通过将对应描述符阵列再分成四个子阵列并利用相应码本压缩所述四个子阵列中的每一个。类似于视觉字的生成,模型数据库1002针对每个模型图像存储其对应的预计算的压缩版本,该压缩版本利用压缩查询图像115的描述符DD所使用的同一码本进行了压缩。根据此实施方式,可按照非常快速且有效的方式执行特征匹配(子阶段1012)。实际上,由于在压缩空间(查询图像和模型图像二者的描述符均被压缩)中进行特征匹配,并且由于要考虑的描述符的数量减少(仅对应于关键点的最佳子集),因此还可直接将表示模型数据库的模型图像的数据加载到主存中。此外,由于通过将描述符阵列再分成子阵列来执行描述符阵列的压缩,于是大幅减少了对应码本的码字的数量,因此包括每个码本的每个码字之间所有可能的欧几里得距离的列表可预先被预计算并加载到主存中,从而进一步增加子阶段1012的速度。类似考虑同样适用于利用不使用欧几里得距离的不同算法进行特征匹配的情况。
根据本发明的实施方式,可利用图1的提取过程100的阶段140中所使用的类似方法,通过使用同一码本压缩每个描述符的子阵列来进一步改进子阶段1012。
由于除了描述符以外,几何验证(子阶段1014)还需要其对应描述符与其他关键点的描述符匹配的关键点的坐标,因此查询图像115的关键点的压缩的坐标CC也应该被解压缩(阶段1018)。
描述符的优化解压缩(图11)
图11以功能块示出了根据本发明的实施方式的用于对压缩的描述符阵列CDA进行解压缩的过程(以下称作“优化解压缩过程”并用参考编号1100标识)。优化解压缩过程1100的步骤可由恰当的处理单元执行;例如,每个处理单元可以是专门被设计为执行该过程的一个或多个步骤的硬件单元。
压缩的描述符阵列CDA近似描述符阵列DA所取的值。如先前详细描述的,对于已被再分成子阵列SDAk的集合的描述符阵列DA,对应压缩的描述符阵列CDA包括集合中的每个子阵列SDAk的压缩索引Cy,其中,每个压缩索引Cy标识用于近似所述子阵列SDAk的码本CBKy的码字CWj(参见例如图4B)。
为了对描述符阵列DA进行解压缩,对于压缩的描述符阵列CDA中所包括的每个压缩索引Cy,(在用于近似子阵列SDAk的码本CBKy内)基于该压缩索引Cy的值标识对应码字CWj;然后,遵循接收到的压缩的描述符阵列CDA中的压缩索引Cy的顺序,将标识的码字CWj结合以形成对应的第一解压缩的描述符阵列DA’(方框1110)。该第一解压缩的描述符阵列DA’是接收到的压缩的描述符阵列CDA从其生成的描述符阵列DA的大致近似版本。如在本说明书中已经提及的,造成第一解压缩的描述符阵列DA’与描述符阵列DA之间的差异(即,失真)的原因之一是矢量量化过程的不可避免的有损本质。
申请人已发现,失真的另一原因源于量化描述符阵列DA的每个子阵列SDAk,而非直接量化整个描述符阵列DA。实际上,即使对描述符阵列DA的每个子阵列SDAk应用不同的矢量量化能够有利地减少存储码本所使用的内存总量,仍独立地执行每个子阵列SDAk的量化,而不计及:
-与描述符D对应的描述符阵列DA的元素ai基于与描述符D的对应子直方图shi(参见图3A)关联的子区域的位置之间的空间距离通过统计相关关系彼此相关。在图3A和图3B所示的示例中,由于与描述符D的子直方图sh4关联的子区域靠近与子直方图sh3、sh7、sh8关联的子区域,所以描述符阵列DA的元素a4与元素a3、a7、a8具有所谓的“统计空间相关性”(其高于与例如元素a9的统计空间相关性)。
-描述符阵列DA的一对不同的元素ai、aj的子元素se(h)基于子直方图shi、shj的对应区间的定向之间的角距离通过统计关系彼此相关。为了更好地示出角距离这一概念,参照描绘了示例性描述符D的图12,其中,描述符D的每个子直方图shi包括八个区间,每个区间对应于相对于主要定向O的角度为n*π/4(n=0,1,…,7)的定向。在图12中以图形方式利用根据其对应角度定向的相应箭头描绘了每个区间。在此示例中,被标记为“64”的子直方图sh8的区间所对应的描述符阵列DA的元素a8的子元素se(64)与被标记为“32”的子直方图sh4的区间所对应的描述符阵列DA的元素a4的子元素se(32)具有所谓的“统计角相关性”(其高于与被标记为“31”的子直方图sh4的区间所对应的描述符阵列DA的元素a4的子元素的统计角相关性),这是因为子元素se(64)和se(32)均对应于相对于主要定向O的角度为π/4的定向,而子元素eh(31)对应于相对于主要定向O的角度为π/2的定向。
返回参照图11,申请人已发现,如果矢量量化独立地应用于描述符阵列DA的每个子阵列SDAk,则会丢失属于不同子阵列SDAk的子元素se(h)之间的统计空间相关性和统计角相关性。因此,如果计及这些相关性,则可进一步降低由压缩/解压缩操作引入的总体失真,并由此进一步降低第一解压缩的描述符阵列DA’与描述符阵列DA之间的差异。
根据本发明的实施方式,有利地通过将第一解压缩的描述符阵列DA’乘以FxF补偿矩阵Z(其中,F是描述符阵列DA的子元素se(h)的数量,即,对于SIFT的情况,F=128)来降低这种失真,其中补偿矩阵Z的元素zk,l(k,l=1,2,…,F)被布置为平衡由子阵列的再分引起的描述符阵列的子元素se(h)之间的统计空间相关性(以及优选地,统计角相关性)的上述损失,以此获得第二解压缩的描述符阵列DA”(方框1120),其中该第二解压缩的描述符阵列DA”比第一解压缩的描述符阵列DA’更接近(即,更类似)原始描述符阵列DA。
详细地,第二解压缩的描述符阵列DA”被获得为:
DA”=DA’Z,
即:
其中,se(h)”是第二解压缩的描述符阵列DA”的一般第h子元素,se(h)’是第一解压缩的描述符阵列DA’的一般第h子元素。因此,利用第一解压缩的描述符阵列DA’的子元素se(h)’的线性组合生成第二解压缩的描述符阵列DA”的每个子元素se(h)”。补偿矩阵Z的元素zk,l以使得子元素se(h)’的这种线性组合被加权以反映一般描述符阵列DA的子元素se(h)之间出现的统计空间相关性和统计角相关性的方式。
换言之,根据本发明的实施方式,补偿矩阵Z允许就数学关系表示一般描述符阵列DA的子元素se(h)之间出现的统计空间相关性(以及优选地,统计角相关性),而上述相关性在通过将描述符阵列再分成子阵列然后对每个子阵列应用矢量量化来对其进行压缩的情况下会损失。
补偿矩阵Z的元素zk,l的值取决于描述符阵列DA的大小和类型,并且取决于子阵列SDAk的数量以及用于获得压缩的描述符阵列CDA的码本CBKy的类型。
根据本发明的实施方式,按照以下方式生成补偿矩阵Z。
1)从恰当的数据库(例如,视觉搜索数据库MIRFLICKR25000)提取大量M(例如,M≈1000000)个样本描述符阵列UDA。每个样本描述符阵列UDA包括F个子元素u(h)(h=1,2,…,F)。为了生成适于优化解压缩的补偿矩阵Z,M应该足够高以形成有效的统计群体。
2)然后,通过将样本描述符阵列UDA再分成子阵列并利用对应码本压缩每个子阵列来将每个样本描述符阵列UDA压缩在对应压缩的样本描述符阵列CUDA中。
3)(利用点2处所使用的同一码本)对每个压缩的样本描述符阵列CUDA进行解压缩,以获得对应解压缩的样本描述符阵列TDA。每个解压缩的样本描述符阵列TDA包括F个子元素t(h)(h=1,2,…,F)。
4)补偿矩阵Z被设定为等于使范数||TZ-U||最小化的那一矩阵,其中,T是MxF矩阵,其行是M个解压缩的样本描述符阵列TDA,U是MxF矩阵,其行是M个样本描述符阵列UDA。使范数||TZ-U||最小化的补偿矩阵Z可通过计算机辅助的线性最小二乘过程来计算。另外,随后可应用已知的正则化过程(例如,Tikhonov正则化)。
这样获得的补偿矩阵Z表明如何组合T的列以最佳地近似(从||TZ-U||方面)U的列。
如果在不将描述符阵列再分成子阵列的情况下进行描述符阵列的压缩,则补偿矩阵Z将几乎等于单位矩阵。通过对样本描述符阵列UDA的子阵列独立地进行矢量量化,统计空间和角相关性被损失掉,并且补偿矩阵Z不同于单位矩阵。
图13A示出了与用于将描述符阵列再分成四个子阵列并针对每个子阵列使用包括2^13个码字的码本的压缩方案(例如,在图6A所示的情况)对应的示例性补偿矩阵Z。图13B是示出了图13A的补偿矩阵Z的第43列的元素zk,43(k=1,2,…,F)所具有的值的示图。
图14A示出了与用于将描述符阵列再分成八个子阵列并针对每个子阵列使用包括2^11个码字的码本的压缩方案(例如,在图6D所示的情况)对应的另一示例性补偿矩阵Z。图14B是示出了图14A的补偿矩阵Z的第43列的元素zk,43(k=1,2,…,F)所具有的值的示图。
通过观察图13A、图13B、图14A和图4B,具有最高值的补偿矩阵Z的元素zk,l是属于主对角线的那些元素。这意味着,当补偿矩阵Z用于从第一解压缩的描述符阵列DA’(参见图11)获得第二解压缩的描述符阵列DA”时,在用于生成第二解压缩的描述符阵列DA”的特定子元素se(h)”的第一解压缩的描述符阵列DA’的F个子元素se(h)’的线性组合中的最高权重(即,元素zk,l)是精确地与所述特定子元素se(h)”对应的那个元素。例如,在用于生成子元素se(43)”的子元素se(h)’的线性组合中,最高权重精确地是与子元素se(43)’相乘的元素z43,43
在用于生成第二解压缩的描述符阵列DA”的特定子元素se(h)”的第一解压缩的描述符阵列DA’的F个子元素se(h)’的线性组合中存在的值显著不同于零的其它元素zk,l对应于与该特定子元素se(h)”具有统计空间和/或角相关性的其它子元素se(h)’。例如,在用于生成子元素se(43)”的子元素se(h)’的线性组合中,在图14B所示的情况下,显著不同于(高于)零的三个其它元素zk,l是分别与子元素se(35)’、se(51)’和se(75)’相乘的元素z35,43、z51,43和z75,43
利用上述过程,可能出现第二解压缩的描述符DA”的所得子元素se(h)”中的一些超出值的允许范围的情况。在这种情况下,根据本发明的实施方式,所述子元素se(h)”被有利地设定为该范围的最近端点。例如,考虑在SIFT描述符中,子元素具有通常在0至255的范围内的值,如果通过补偿矩阵Z计算的子元素se(h)”的值高于255或低于0,则其分别被设定为255或0。
必须理解,所提出的优化解压缩过程可适用于通过将描述符阵列再分成子阵列然后通过对每个子阵列应用矢量量化来压缩的任何压缩的描述符阵列,而不管码本的使用方式。例如,所提出的优化解压缩过程适于用在利用相应不同的码本压缩每个子阵列的情况(例如,在图4B所示的情况)以及用在不止一个子阵列利用同一码本压缩的情况(例如,在图6A-6D所示的情况)。申请人注意到,在一些或所有子阵列仅包含一个元素时所应用的标量量化的限制情况下,所提出的优化解压缩过程仍适用。
由于所提出的优化解压缩过程,可增加解压缩的质量,而无需增加存储压缩的描述符阵列所需的比特量,从而有利地影响了利用这些压缩的描述符阵列的图像分析的结果。
先前描述详细呈现并讨论了本发明的多个实施方式;然而,在不脱离由所附权利要求限定的范围的情况下,可对所描述的实施方式进行多种改变,并且本发明的不同的实施方式也是可能的。

Claims (35)

1.一种用于处理图像的方法,包括:
-标识图像中的一组关键点;
-对于所述组中的每个关键点:
a)计算包括多个阵列元素的对应描述符阵列,每个阵列元素存储在所述关键点邻居内的图像的相应子区域的对应颜色梯度直方图所取的值;
b)将所述描述符阵列再分成至少两个子阵列,每个子阵列包括所述描述符阵列的相应数量的元素,并且
c)生成压缩的描述符阵列,所述压缩的描述符阵列针对所述至少两个子阵列中的每一个包括对应压缩的子阵列,每个压缩的子阵列通过使用相应码本利用矢量量化对所述至少两个子阵列中的对应子阵列压缩来获得;
-利用所述组中的关键点的压缩的描述符阵列来分析所述图像,其中:
-对于所述组中的每个关键点,将描述符阵列再分成至少两个子阵列是基于其值存储在所述每个关键点的描述符阵列的元素中的颜色梯度直方图之间的相关关系而执行的。
2.根据权利要求1所述的方法,还包括,对于所述组中的每个关键点:
-将所述至少两个子阵列布置到至少一组的子阵列内,并且
-使用相同码本压缩所述至少一组的子阵列中的同一组的子阵列。
3.根据权利要求2所述的方法,还包括,对于所述组中的每个关键点:
-将颜色梯度直方图布置到多个相关族内,每个相关族包括具有相似统计行为的相关的颜色梯度直方图的对应集合,其中,对于所述至少一组的子阵列中的每个组:
-在所述组的所有子阵列中占据相同位置的阵列元素对应于属于相同相关族的颜色梯度直方图。
4.根据权利要求3所述的方法,其中,对于所述组中的每个关键点:
-所述关键点与其邻居内的十六个相应子区域关联;
-对应描述符阵列包括十六个阵列元素,每个阵列元素对应于其邻居内的十六个子区域之中相应的一个子区域,以及
-所述将颜色梯度直方图布置到多个相关族内包括将颜色梯度直方图布置到四个相关族内,每个相关族包括四个相关的颜色梯度直方图。
5.根据权利要求4所述的方法,其中,对于所述组中的每个关键点:
-所述十六个相应的子区域根据以所述关键点为中心并且包括四行和四列的网格布置来布置,所述将颜色梯度直方图布置到多个相关族内包括:
-将网格布置的第一行的第一和第四子区域以及网格布置的第四行的第一和第四子区域布置到第一相关族内;
-将网格布置的第一行的第二和第三子区域以及网格布置的第四行的第二和第三子区域布置到第二相关族内;
-将网格布置的第二行的第一和第四子区域以及网格布置的第三行的第一和第四子区域布置到第三相关族内,以及
-将网格布置的第二行的第二和第三子区域以及网格布置的第三行的第二和第三子区域布置到第四相关族内。
6.根据权利要求5所述的方法,还包括,对于所述组中的每个关键点:
-将描述符阵列再分成:
-第一子阵列,其包括与描述符阵列的第一阵列元素对应的第一元素、与描述符阵列的第二阵列元素对应的第二元素、与描述符阵列的第六阵列元素对应的第三元素以及与描述符阵列的第五阵列元素对应的第四元素;
-第二子阵列,其包括与描述符阵列的第四阵列元素对应的第一元素、与描述符阵列的第三阵列元素对应的第二元素、与描述符阵列的第七阵列元素对应的第三元素以及与描述符阵列的第八阵列元素对应的第四元素;
-第三子阵列,其包括与描述符阵列的第十六阵列元素对应的第一元素、与描述符阵列的第十五阵列元素对应的第二元素、与描述符阵列的第十一阵列元素对应的第三元素以及与描述符阵列的第十二阵列元素对应的第四元素,以及
-第四子阵列,其包括与描述符阵列的第十三阵列元素对应的第一元素、与描述符阵列的第十四阵列元素对应的第二元素、与描述符阵列的第十阵列元素对应的第三元素以及与描述符阵列的第九阵列元素对应的第四元素,
-使用相同码本来压缩第一子阵列、第二子阵列、第三子阵列和第四子阵列。
7.根据权利要求5所述的方法,还包括,对于所述组中的每个关键点:
-将描述符阵列再分成:
-第一子阵列,其包括与描述符阵列的第一阵列元素对应的第一元素、与描述符阵列的第二阵列元素对应的第二元素、与描述符阵列的第三阵列元素对应的第三元素、与描述符阵列的第四阵列元素对应的第四元素、与描述符阵列的第五阵列元素对应的第五元素、与描述符阵列的第六阵列元素对应的第六元素、与描述符阵列的第七元素对应的第七元素以及与描述符阵列的第八元素对应的第八元素,和
-第二子阵列,其包括与描述符阵列的第十三阵列元素对应的第一元素、与描述符阵列的第十四阵列元素对应的第二元素、与描述符阵列的第十五阵列元素对应的第三元素、与描述符阵列的第十六阵列元素对应的第四元素、与描述符阵列的第九阵列元素对应的第五元素、与描述符阵列的第十阵列元素对应的第六元素、与描述符阵列的第十一元素对应的第七元素以及与描述符阵列的第十二元素对应的第八元素,
-使用相同码本来压缩第一子阵列和第二子阵列。
8.根据权利要求5所述的方法,还包括,对于所述组中的每个关键点:
-将描述符阵列再分成:
-第一子阵列,其包括与描述符阵列的第五阵列元素对应的第一元素、与描述符阵列的第一阵列元素对应的第二元素以及与描述符阵列的第二阵列元素对应的第三元素;
-第二子阵列,其包括与描述符阵列的第八阵列元素对应的第一元素、与描述符阵列的第四阵列元素对应的第二元素以及与描述符阵列的第三阵列元素对应的第三元素;
-第三子阵列,其包括与描述符阵列的第九阵列元素对应的第一元素、与描述符阵列的第十三阵列元素对应的第二元素以及与描述符阵列的第十四阵列元素对应的第三元素;
-第四子阵列,其包括与描述符阵列的第十二阵列元素对应的第一元素、与描述符阵列的第十六阵列元素对应的第二元素以及与描述符阵列的第十五阵列元素对应的第三元素;
-第五子阵列,其包括与描述符阵列的第六阵列元素对应的第一元素以及与描述符阵列的第七阵列元素对应的第二元素,以及
-第六子阵列,其包括与描述符阵列的第十阵列元素对应的第一元素以及与描述符阵列的第十一阵列元素对应的第二元素,
-使用第一相同码本来压缩第一子阵列、第二子阵列、第三子阵列和第四子阵列,并且
-使用第二相同码本来压缩第五子阵列和第六子阵列。
9.根据权利要求5所述的方法,还包括,对于所述组中的每个关键点:
-将描述符阵列再分成:
-第一子阵列,其包括与描述符阵列的第五阵列元素对应的第一元素以及与描述符阵列的第一阵列元素对应的第二元素;
-第二子阵列,其包括与描述符阵列的第八阵列元素对应的第一元素以及与描述符阵列的第四阵列元素对应的第二元素;
-第三子阵列,其包括与描述符阵列的第九阵列元素对应的第一元素以及与描述符阵列的第十三阵列元素对应的第二元素;
-第四子阵列,其包括与描述符阵列的第十二阵列元素对应的第一元素以及与描述符阵列的第十六阵列元素对应的第二元素;
-第五子阵列,其包括与描述符阵列的第六阵列元素对应的第一元素以及与描述符阵列的第二阵列元素对应的第二元素;
-第六子阵列,其包括与描述符阵列的第七阵列元素对应的第一元素以及与描述符阵列的第三阵列元素对应的第二元素;
-第七子阵列,其包括与描述符阵列的第十阵列元素对应的第一元素以及与描述符阵列的第十四阵列元素对应的第二元素,以及
-第八子阵列,其包括与描述符阵列的第十一阵列元素对应的第一元素以及与描述符阵列的第十五阵列元素对应的第二元素,
-使用第一相同码本来压缩第一子阵列、第二子阵列、第三子阵列和第四子阵列,并且
-使用第二相同码本来压缩第五子阵列、第六子阵列、第七子阵列和第八子阵列。
10.根据前述权利要求中任一项所述的方法,其中,所述标识一组关键点包括标识图像中的第一组关键点,所述方法还包括:
-对于第一组中的每个关键点:
a)标识与所述每个关键点有关的关键点局部特征的对应集合;
b)对于对应集合的局部特征之中的至少一个关键点局部特征,计算对应局部特征相关概率;
c)基于所述至少一个局部特征的局部特征相关概率计算关键点相关概率;
-在第一组的关键点之中选择具有最高关键点相关概率的关键点,以形成第二组的关键点,其中:
-所述利用压缩的描述符阵列分析图像包括利用第二组的关键点的压缩的描述符阵列来分析图像,以及
-针对关键点的局部特征计算的局部特征相关概率通过将所述局部特征所具有的值与所述局部特征的值的对应参考统计分布进行比较来获得。
11.根据权利要求10所述的方法,其中,每个所述对应参考统计分布在统计上等效于通过在多个参考图像对中标识的多个参考关键点之中收集与每个参考图像对的被确定为涉及该对的参考图像之间的正确特征匹配的那些参考关键点对应的局部特征值而生成的对应统计分布。
12.根据权利要求10或权利要求11所述的方法,其中,与所述每个关键点有关的关键点局部特征的集合包括下列项中的至少一个:
-关键点的坐标;
-关键点被标识的标度;
-关键点的主要定向;
-关键点的峰值,以及
-关键点的描述符。
13.根据权利要求11或从属于权利要求11的权利要求12所述的方法,其中:
-每个参考统计分布按照具有多个区间的对应直方图的形式布置,每个区间对应于对应局部特征的值的预定义范围,每个区间的频率对应于下列项之比:
a)被确定为涉及正确特征匹配并且对应局部特征的值落在所述区间内的参考关键点的数量,以及
b)对应局部特征的值落在所述区间内的参考关键点的总数,
-所述针对关键点的局部特征计算局部特征相关概率包括:
c)检查与该局部特征对应的直方图以便标识其拟合关键点的局部特征所取的值的区间,以及
d)将局部特征相关概率设定为标识的区间的频率。
14.根据权利要求10-13中任一项所述的方法,其中,所述计算第一组的关键点的关键点相关概率包括将对应关键点的所述至少一个局部特征中的每一个的局部特征相关概率组合。
15.根据权利要求14所述的方法,其中,所述计算第一组的关键点的关键点相关概率包括将对应关键点的所述至少一个局部特征中的每一个的局部特征相关概率彼此相乘。
16.根据前述权利要求中任一项所述的方法,还包括:
-在图像上方设置包括按照行和列布置的多个单元的参考网格以使得所述组的每个关键点落在网格的相应单元内;
-标识参考网格的完全由没有关键点的单元形成的行和列;
-从参考网格去除完全由没有关键点的单元形成的所述行和列,并生成其中每一行和每一列包括具有至少一个关键点的至少一个单元的紧凑的网格布置;
-生成包括按照行和列布置的多个元素的坐标矩阵,其中,每个矩阵元素对应于紧凑的网格布置的单元,所述矩阵元素在紧凑的网格布置的对应单元包括至少一个关键点的情况下等于第一值,在紧凑的网格布置的对应单元没有关键点的情况下等于第二值;
-将坐标矩阵再分成多个子字,每个子字包括相同数量的矩阵元素;
-生成子字直方图,该子字直方图针对子字可取的每个可能的值包括一个区间,每个区间的频率指示子字取与所述区间关联的值的概率;
-基于所述子字直方图利用熵编码技术对每个子字进行编码,以针对每个子字获得压缩的子字,以及
-利用压缩的子字来分析图像,其中:
-所述生成子字直方图包括基于对多个训练图像的统计分析设定区间的频率,所述统计分析基于从这些训练图像生成的坐标矩阵的元素彼此独立的假设进行,以及
-所述基于所述子字直方图利用熵编码技术对每个子字进行编码包括将每个子字编码为压缩的子字,所述压缩的子字包括的矩阵元素的数量取决于与所述子字的值对应的区间的频率。
17.根据权利要求10以及从属于权利要求10的权利要求11-16中任一项所述的方法,其中,所述分析图像包括在该图像与另一图像之间进行比较。
18.根据权利要求10以及从属于权利要求10的权利要求11-16中任一项所述的方法,其中,所述图像描绘对象/场景,所述分析图像包括从包括各自描绘相应对象/场景的多个模型图像的模型数据库检索描绘与所述图像中所描绘的对象/场景对应的对象/场景的模型图像。
19.根据前述权利要求中任一项所述的方法,其中,所述利用所述组中的关键点的压缩的描述符阵列来分析图像包括:
-将压缩的描述符阵列解压缩以获得对应解压缩的描述符阵列,以及
-利用所述解压缩的描述符阵列来分析图像,
其中:
-对于所述组中的每个关键点,基于在关键点邻居内的图像的子区域的位置之间的统计空间相关关系进行所述解压缩。
20.根据权利要求19所述的方法,其中,所述统计空间相关关系基于在关键点邻居内的图像的子区域的位置之间的空间距离。
21.根据权利要求19或20所述的方法,其中,对于所述组中的每个关键点:
-对应描述符阵列的每个阵列元素包括一组子元素,每个子元素存储对应颜色梯度直方图的相应区间的频率值,颜色梯度直方图的每个区间则又对应于相对于关键点的主要定向的相应定向,以及
-所述解压缩基于与描述符阵列的不同阵列元素对应的颜色梯度直方图的区间所对应的定向之中的统计角相关关系进行。
22.根据权利要求21所述的方法,其中所述统计角相关关系基于与描述符阵列的不同阵列元素对应的颜色梯度直方图的区间所对应的定向之中的角距离。
23.根据权利要求21或22所述的方法,其中,对于所述组中的每个关键点,所述解压缩包括:
-将利用矢量量化从所述至少两个子阵列生成的压缩的子阵列相联合以形成包括多个第一子元素的第一解压缩的描述符阵列,以及
-从第一解压缩的描述符阵列计算第二解压缩的描述符阵列,该第二解压缩的描述符阵列包括多个第二子元素,其中,所述计算第二解压缩的描述符阵列包括将每个第二子元素设定为至少两个第一子元素的加权线性组合,
其中:
所述利用解压缩的描述符阵列来分析图像包括:
-对于所述组中的每个关键点,利用对应第二解压缩的描述符阵列来分析图像。
24.根据权利要求23所述的方法,其中,所述计算第二解压缩的描述符阵列包括将第一解压缩的描述符阵列乘以补偿矩阵,所述补偿矩阵如下计算:
-将多个样本描述符阵列布置在第一样本矩阵内;
-通过将每个样本描述符阵列再分成至少两个对应子阵列并经矢量量化压缩所述至少两个对应子阵列中的每一个来压缩每个样本描述符阵列,生成压缩的样本描述符阵列;
-对于每个压缩的样本描述符阵列,将对应压缩的子阵列相联合以获得解压缩的样本描述符阵列;
-将所述解压缩的样本描述符阵列布置在第二样本矩阵内;
-设定补偿矩阵以使得下列项的范数最小化:
a)第二样本矩阵乘以补偿矩阵
减去
b)第一样本矩阵。
25.根据权利要求1所述的方法,其中,所述利用所述组中的关键点的压缩的描述符阵列来分析图像包括:
-将压缩的描述符阵列解压缩以获得对应解压缩的描述符阵列,以及
-利用所述解压缩的描述符阵列来分析图像,
其中:
对于所述组中的每个关键点,所述解压缩包括:
-将利用矢量量化从所述至少两个子阵列生成的压缩的子阵列相联合以形成包括多个第一子元素的第一解压缩的描述符阵列,以及
-从第一解压缩的描述符阵列计算第二解压缩的描述符阵列,第二解压缩的描述符阵列包括多个第二子元素,其中,所述计算第二解压缩的描述符阵列包括将每个第二子元素设定为至少两个第一子元素的加权线性组合,
其中:
所述利用解压缩的描述符阵列来分析图像包括:
-对于所述组中的每个关键点,利用对应第二解压缩的描述符阵列来分析图像。
26.一种用于处理图像的方法,包括:
-接收至少一个压缩的描述符阵列,所述压缩的描述符阵列如下获得:
-标识图像中的至少一个关键点;
-对于所述至少一个关键点:
a)计算包括多个阵列元素的对应描述符阵列,每个阵列元素存储在关键点邻居内的图像的相应子区域的对应颜色梯度直方图所取的值;
b)将描述符阵列再分成至少两个子阵列,每个子阵列包括描述符阵列的相应数量的元素,并且
c)生成压缩的描述符阵列,所述压缩的描述符阵列包括针对所述至少两个子阵列中的每一个的对应压缩的子阵列,每个压缩的子阵列通过使用相应码本利用矢量量化压缩所述至少两个子阵列中的对应子阵列来获得;
-将所述至少一个接收到的压缩的描述符阵列解压缩以获得对应至少一个解压缩的描述符阵列,以及
-利用所述至少一个解压缩的描述符阵列来分析图像,
其中:
-对于所述至少一个标识的关键点中的每一个,所述解压缩基于在关键点邻居内的图像的子区域的位置之中的统计空间相关关系进行。
27.根据权利要求26所述的方法,其中,所述统计空间相关关系基于在关键点邻居内的图像的子区域的位置之中的空间距离。
28.根据权利要求26或27所述的方法,其中,对于所述组中的每个关键点:
-对应描述符阵列的每个阵列元素包括一组子元素,每个子元素存储对应颜色梯度直方图的相应区间的频率值,颜色梯度直方图的每个区间则又对应于相对于关键点的主要定向的相应定向,以及
-所述解压缩基于与描述符阵列的不同阵列元素对应的颜色梯度直方图的区间所对应的定向之中的统计角相关关系进行。
29.根据权利要求28所述的方法,其中,所述统计角相关关系基于与描述符阵列的不同阵列元素对应的颜色梯度直方图的区间所对应的定向之中的角距离。
30.根据权利要求28或29所述的方法,其中,对于所述组中的每个关键点,所述解压缩包括:
-将利用矢量量化从所述至少两个子阵列生成的压缩的子阵列相联合以形成包括多个第一子元素的第一解压缩的描述符阵列,以及
-从第一解压缩的描述符阵列计算第二解压缩的描述符阵列,该第二解压缩的描述符阵列包括多个第二子元素,其中,所述计算第二解压缩的描述符阵列包括将每个第二子元素设定为第一子元素的加权线性组合,
其中:
所述利用解压缩的描述符阵列来分析图像包括:
-对于所述组中的每个关键点,利用对应第二解压缩的描述符阵列来分析图像。
31.根据权利要求30所述的方法,其中,所述计算第二解压缩的描述符阵列包括将第一解压缩的描述符阵列乘以补偿矩阵,所述补偿矩阵如下计算:
-将多个样本描述符阵列布置在第一样本矩阵内;
-通过将每个样本描述符阵列再分成至少两个对应子阵列并经矢量量化压缩所述至少两个对应子阵列中的每一个来压缩每个样本描述符阵列,生成压缩的样本描述符阵列;
-对于每个压缩的样本描述符阵列,将对应压缩的子阵列相联合以获得解压缩的样本描述符阵列;
-将所述解压缩的样本描述符阵列布置在第二样本矩阵内;
-设定补偿矩阵以使得下列项的范数最小化:
a)第二样本矩阵乘以补偿矩阵
减去
b)第一样本矩阵。
32.一种用于处理图像的方法,包括:
-接收至少一个压缩的描述符阵列,所述压缩的描述符阵列通过以下步骤获得:
-标识图像中的至少一个关键点;
-对于所述至少一个关键点:
a)计算包括多个阵列元素的对应描述符阵列,每个阵列元素存储在关键点邻居内的图像的相应子区域的对应颜色梯度直方图所取的值;
b)将描述符阵列再分成至少两个子阵列,每个子阵列包括描述符阵列的相应数量的元素,以及
c)生成压缩的描述符阵列,所述压缩的描述符阵列包括用于所述至少两个子阵列中的每一个的对应压缩的子阵列,每个压缩的子阵列通过使用相应码本利用矢量量化压缩所述至少两个子阵列中的对应子阵列来获得;
-将所述至少一个接收到的压缩的描述符阵列解压缩以获得对应至少一个解压缩的描述符阵列,以及
-利用所述至少一个解压缩的描述符阵列来分析图像,
其中:
对于所述至少一个关键点中的每一个,所述解压缩包括:
-将利用矢量量化从所述至少两个子阵列生成的压缩的子阵列相联合以形成包括多个第一子元素的第一解压缩的描述符阵列,以及
-从第一解压缩的描述符阵列计算第二解压缩的描述符阵列,该第二解压缩的描述符阵列包括多个第二子元素,其中,所述计算第二解压缩的描述符阵列包括将每个第二子元素设定为至少两个第一子元素的加权线性组合,
其中:
所述利用解压缩的描述符阵列来分析图像包括:
-对于所述至少一个关键点中的每个关键点,利用对应第二解压缩的描述符阵列来分析图像。
33.一种用于处理图像的系统,包括:
-第一处理单元,其被配置为标识图像中的一组关键点;
-第二处理单元,其被配置为针对所述组中的每个关键点执行以下操作:
a)计算包括多个阵列元素的对应描述符阵列,每个阵列元素存储在所述关键点邻居内的图像的相应子区域的对应颜色梯度直方图所取的值;
b)将所述描述符阵列再分成至少两个子阵列,每个子阵列包括所述描述符阵列的相应数量的元素,并且
c)生成压缩的描述符阵列,所述压缩的描述符阵列针对所述至少两个子阵列中的每一个包括对应压缩的子阵列,每个压缩的子阵列通过使用相应码本利用矢量量化对所述至少两个子阵列中的对应子阵列压缩来获得;
-第三处理单元,其被配置为利用所述组中的关键点的压缩的描述符阵列来分析图像,其中:
-对于所述组中的每个关键点,所述第二处理单元被配置为基于颜色梯度直方图之中的相关关系将描述符阵列再分成至少两个子阵列,所述颜色梯度直方图的值存储在所述每个关键点的描述符阵列的元素中。
34.一种用于处理图像的系统,包括:
-第一处理单元,其被配置为接收至少一个压缩的描述符阵列,所述压缩的描述符阵列通过以下步骤获得:
-标识图像中的至少一个关键点;
-对于所述至少一个关键点:
a)计算包括多个阵列元素的对应描述符阵列,每个阵列元素存储在关键点邻居内的图像的相应子区域的对应颜色梯度直方图所取的值;
b)将描述符阵列再分成至少两个子阵列,每个子阵列包括描述符阵列的相应数量的元素,并且
c)生成压缩的描述符阵列,所述压缩的描述符阵列包括所述至少两个子阵列中的每一个的对应压缩的子阵列,每个压缩的子阵列通过使用相应码本利用矢量量化压缩所述至少两个子阵列中的对应子阵列来获得;
-第二处理单元,其被配置为解压缩所述至少一个接收的压缩的描述符阵列以获得对应至少一个解压缩的描述符阵列,以及
-第三处理单元,其被配置为利用所述至少一个解压缩的描述符阵列来分析图像,
其中:
-对于所述至少一个标识的关键点中的每一个,所述第二处理单元被配置为基于在关键点邻居内的图像的子区域的位置之中的统计空间相关关系解压缩所述至少一个接收到的压缩的描述符阵列。
35.一种用于处理图像的系统,包括:
-第一处理单元,其被配置为接收至少一个压缩的描述符阵列,所述压缩的描述符阵列通过以下步骤获得:
-标识图像中的至少一个关键点;
-对于所述至少一个关键点:
a)计算包括多个阵列元素的对应描述符阵列,每个阵列元素存储在关键点邻居内的图像的相应子区域的对应颜色梯度直方图所取的值;
b)将描述符阵列再分成至少两个子阵列,每个子阵列包括描述符阵列的相应数量的元素,并且
c)生成压缩的描述符阵列,所述压缩的描述符阵列包括所述至少两个子阵列中的每一个的对应压缩的子阵列,每个压缩的子阵列通过使用相应码本利用矢量量化压缩所述至少两个子阵列中的对应子阵列来获得;
-第二处理单元,其被配置为解压缩所述至少一个接收的压缩的描述符阵列以获得对应至少一个解压缩的描述符阵列,以及
-第三处理单元,其被配置为利用所述至少一个解压缩的描述符阵列来分析图像,
其中:
对于所述至少一个关键点中的每一个,所述第二处理单元被配置为通过以下步骤解压缩所述至少一个接收到的压缩的描述符阵列:
-将利用矢量量化从所述至少两个子阵列生成的压缩的子阵列相联合以形成包括多个第一子元素的第一解压缩的描述符阵列,以及
-从第一解压缩的描述符阵列计算第二解压缩的描述符阵列,该第二解压缩的描述符阵列包括多个第二子元素,其中,所述计算第二解压缩的描述符阵列包括将每个第二子元素设定为至少两个第一子元素的加权线性组合,
其中:
所述第三处理单元被配置为通过以下步骤利用解压缩的描述符阵列来分析图像:
-对于所述至少一个关键点中的每个关键点,利用对应第二解压缩的描述符阵列来分析图像。
CN201280069515.6A 2012-01-02 2012-10-12 用于图像分析的方法和系统 Active CN104160409B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
ITMI20120004 2012-01-02
ITMI2012A000004 2012-01-02
US201261599586P 2012-02-16 2012-02-16
US61/599,586 2012-02-16
PCT/EP2012/070321 WO2013102503A1 (en) 2012-01-02 2012-10-12 Method and system for image analysis

Publications (2)

Publication Number Publication Date
CN104160409A true CN104160409A (zh) 2014-11-19
CN104160409B CN104160409B (zh) 2017-12-19

Family

ID=45809456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280069515.6A Active CN104160409B (zh) 2012-01-02 2012-10-12 用于图像分析的方法和系统

Country Status (6)

Country Link
US (1) US9412037B2 (zh)
EP (1) EP2801055B1 (zh)
KR (1) KR101954395B1 (zh)
CN (1) CN104160409B (zh)
AR (1) AR089622A1 (zh)
WO (1) WO2013102503A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368834A (zh) * 2016-05-12 2017-11-21 北京君正集成电路股份有限公司 一种方向梯度积分图存储方法及装置
CN117392038A (zh) * 2023-12-05 2024-01-12 北京智源人工智能研究院 医学图像直方图均衡化方法、装置、电子设备和存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITTO20120602A1 (it) * 2012-07-09 2014-01-10 Sisvel Technology Srl Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus.
US9075847B2 (en) * 2012-11-28 2015-07-07 Sap Se Methods, apparatus and system for identifying a document
KR101710967B1 (ko) * 2013-01-16 2017-02-28 후아웨이 테크놀러지 컴퍼니 리미티드 이미지의 히스토그램 맵을 컨텍스트 기반 인코딩하기 위한 방법
ITTO20130629A1 (it) * 2013-07-24 2015-01-25 Sisvel Technology Srl Method for encoding an image descriptor based on a gradient histogram and relative image processing apparatus
US9697233B2 (en) * 2014-08-12 2017-07-04 Paypal, Inc. Image processing and matching
CN104615988A (zh) * 2015-02-04 2015-05-13 四川中科腾信科技有限公司 一种图像识别方法
US9846808B2 (en) * 2015-12-31 2017-12-19 Adaptive Computation, Llc Image integration search based on human visual pathway model
US10311288B1 (en) 2017-03-24 2019-06-04 Stripe, Inc. Determining identity of a person in a digital image
CN107368827B (zh) * 2017-04-01 2020-09-15 阿里巴巴集团控股有限公司 字符识别方法及装置、用户设备、服务器
WO2019205069A1 (en) * 2018-04-27 2019-10-31 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for updating 3d model of building
KR102528453B1 (ko) 2018-10-18 2023-05-02 삼성전자주식회사 영상 내의 특징 추출 방법, 이를 이용하는 영상 매칭 방법 및 영상 처리 방법
EP3900340A4 (en) * 2018-12-21 2022-08-17 Zeropoint Technologies AB EFFECTIVE COMPRESSION AND DECOMPRESSION METHODS, DEVICES AND SYSTEMS TO ACHIEVE HIGHER THROUGHPUT
CN117275130B (zh) * 2023-11-17 2024-01-26 长春金融高等专科学校 基于人脸识别的智慧门禁验证系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594382B1 (en) * 1999-11-04 2003-07-15 The United States Of America As Represented By The Secretary Of The Navy Neural sensors
CN101986295A (zh) * 2010-10-28 2011-03-16 浙江大学 基于流形稀疏编码的图像聚类的方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US560662A (en) * 1896-05-26 Brush
US608848A (en) * 1898-08-09 Ice-tongs
JP2626528B2 (ja) * 1993-11-22 1997-07-02 日本電気株式会社 図形認識装置
US6088482A (en) * 1998-10-22 2000-07-11 Symbol Technologies, Inc. Techniques for reading two dimensional code, including maxicode
FI113930B (fi) * 2002-05-31 2004-06-30 Oplayo Oy Menetelmä ja järjestely digitaalikuvien kompressoimiseksi
JP4532419B2 (ja) * 2006-02-22 2010-08-25 富士フイルム株式会社 特徴点検出方法および装置並びにプログラム
US8044830B2 (en) * 2007-09-20 2011-10-25 Lg Electronics Inc. Method and an apparatus for processing a signal
US8144947B2 (en) 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints
US8488883B2 (en) 2009-12-28 2013-07-16 Picscout (Israel) Ltd. Robust and efficient image identification
US8731317B2 (en) * 2010-09-27 2014-05-20 Xerox Corporation Image classification employing image vectors compressed using vector quantization
US8473679B2 (en) * 2011-03-31 2013-06-25 Ceva D.S.P. Ltd. System, data structure, and method for collapsing multi-dimensional data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594382B1 (en) * 1999-11-04 2003-07-15 The United States Of America As Represented By The Secretary Of The Navy Neural sensors
CN101986295A (zh) * 2010-10-28 2011-03-16 浙江大学 基于流形稀疏编码的图像聚类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIE CHEN ET AL.: "Peking Compact Descriptor-PQ-SIFT", 《98.MEPG MEETING》 *
SAM S. ET AL.: "Location Coding for Mobile Image Retrieval", 《PROCEEDINGS OR THE 5TH INTERNATIONAL MOBILE MULTIMEDIA》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368834A (zh) * 2016-05-12 2017-11-21 北京君正集成电路股份有限公司 一种方向梯度积分图存储方法及装置
CN117392038A (zh) * 2023-12-05 2024-01-12 北京智源人工智能研究院 医学图像直方图均衡化方法、装置、电子设备和存储介质
CN117392038B (zh) * 2023-12-05 2024-03-08 北京智源人工智能研究院 医学图像直方图均衡化方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN104160409B (zh) 2017-12-19
EP2801055A1 (en) 2014-11-12
AR089622A1 (es) 2014-09-03
KR101954395B1 (ko) 2019-03-05
US20140363078A1 (en) 2014-12-11
WO2013102503A1 (en) 2013-07-11
KR20140111007A (ko) 2014-09-17
US9412037B2 (en) 2016-08-09
EP2801055B1 (en) 2016-04-20

Similar Documents

Publication Publication Date Title
CN104160409A (zh) 用于图像分析的方法和系统
Seeland et al. Plant species classification using flower images—A comparative study of local feature representations
EP2842106B1 (en) Method and system for image analysis
Kekre et al. Improved texture feature based image retrieval using Kekre’s fast codebook generation algorithm
US9721186B2 (en) Global signatures for large-scale image recognition
CN103026368B (zh) 使用增量特征提取的对象辨识
US20200104721A1 (en) Neural network image search
Girod et al. Mobile visual search: Architectures, technologies, and the emerging MPEG standard
US9373056B2 (en) Image analysis
Diallo et al. Robust forgery detection for compressed images using CNN supervision
US20140254936A1 (en) Local feature based image compression
CN108154094B (zh) 基于子区间划分的高光谱图像非监督波段选择方法
CN103843011A (zh) 特征位置信息的译码
CN115937655B (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN110046660B (zh) 一种基于半监督学习的乘积量化方法
US20170300775A1 (en) Method for transforming an image descriptor based on a gradient histogram and relative image processing apparatus
US8774509B1 (en) Method and system for creating a two-dimensional representation of an image based upon local representations throughout the image structure
CN110442749B (zh) 视频帧处理方法及装置
Asif et al. Composite description based on color vector quantization and visual primary features for CBIR tasks
Khwildi et al. A new retrieval system based on low dynamic range expansion and SIFT descriptor
Choudhury et al. Boosting performance and speed of single-image super-resolution based on partitioned linear regression
BR112014016400B1 (pt) Método e sistema para processar uma imagem, e, método para gerar uma distribuição estatística de referência de valores de uma característica local de ponto chave
Yan et al. Learning the histogram sequences of generalized local ternary patterns for blind image quality assessment
Sudeep et al. Improved texture feature based image retrieval using Kekre’s fast codebook generation algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant