CN103843011A - 特征位置信息的译码 - Google Patents

特征位置信息的译码 Download PDF

Info

Publication number
CN103843011A
CN103843011A CN201280038785.0A CN201280038785A CN103843011A CN 103843011 A CN103843011 A CN 103843011A CN 201280038785 A CN201280038785 A CN 201280038785A CN 103843011 A CN103843011 A CN 103843011A
Authority
CN
China
Prior art keywords
histogram
encoded
feature locations
hexagonal
hexagonal cells
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280038785.0A
Other languages
English (en)
Other versions
CN103843011B (zh
Inventor
尤里娅·列兹尼克
奥努尔·C·哈姆西奇
桑迪普·瓦达迪
约翰·H·洪
重·U·李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103843011A publication Critical patent/CN103843011A/zh
Application granted granted Critical
Publication of CN103843011B publication Critical patent/CN103843011B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/005Statistical coding, e.g. Huffman, run length coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/19Image acquisition by sensing codes defining pattern positions

Abstract

本发明揭示用于对特征位置进行译码的方法和装置。在一个实施例中,一种对图像的特征位置信息进行译码的方法包含:产生六角形网格,其中所述六角形网格包含多个六角形单元;使用所述六角形网格对图像的特征位置进行量化;产生直方图以记录特征位置在每一六角形单元中的出现;以及根据特征位置在每一六角形单元中的出现对所述直方图进行编码。所述对所述直方图进行编码的方法包含:应用相邻六角形单元的上下文信息对所述直方图中待编码的后续六角形单元的信息进行编码,其中所述上下文信息包含来自所述待编码的后续六角形单元的一级相邻单元的上下文信息和来自所述待编码的后续六角形单元的二级相邻单元的上下文信息。

Description

特征位置信息的译码
相关申请案的交叉参考
本申请案主张2011年9月9日申请的第13/229,654号美国申请案“特征位置信息的译码(Coding of Feature Location Information)”的权益,所述申请案又主张2011年8月10日申请的第61/522,171号美国临时申请案“特征位置信息的译码(Coding ofFeature Location Information)”的权益。前述美国申请案的全文以引用的方式并入本文中。
技术领域
本发明涉及处理数字图像数据的领域。确切地说,本发明涉及图像的特征位置信息的译码。
背景技术
随着相机电话和个人数字助理(PDA)在市场上广泛使用,这些装置变成用于视觉搜索和移动增强现实应用的广泛平台。为了支持需要图像比较的应用,需要从移动装置向服务器上载信息,或者需要从服务器向移动装置下载信息。有待经由无线网络发射和/或接收的数据量对于这些应用的性能和易用性变得至关重要。
常规基于特征的检索系统通常采用直接方案对位置信息进行译码。在这些系统中,每一特征的(x,y)坐标被量化成某个固定分辨率,例如每个特征位置8位。接着存储和发射这些经量化的(x,y)对。举例来说,在使用具有一千个特征和8位分辨率的图像的情况下,这个方案将需要每个图像大约2K字节的数据。这些数据译码方案产生大量需要经由无线网络发射的数据,这又会不利地影响视觉搜索和移动增强现实应用的性能和易用性。
因此,需要用于对特征位置信息进行译码的可以解决常规系统的上述问题的系统和方法。
发明内容
本发明涉及图像的特征位置信息的译码。根据本发明的实施例,一种对图像的特征位置信息进行译码的方法包含:产生六角形网格,所述六角网格包含多个六角形单元;使用所述六角形网格对图像的特征位置进行量化;产生直方图以记录特征位置在每一六角形单元中的出现;以及根据特征位置在每一六角形单元中的出现次数对直方图进行编码。
所述产生六角形网格的方法包含根据特征位置信息的预定量化等级确定六角形单元的大小。所述对特征位置进行量化的方法包含:执行每一特征位置从二维平面到三维空间的坐标变换;将经变换的坐标舍入成对应的最接近的整数;以及验证经变换的坐标属于所述三维空间中的六角形平面。应注意,所述变换是可逆的。为了验证经变换的坐标属于三维空间中的六角形平面,所述方法计算经变换的坐标的总和,并且验证经变换的坐标的总和等于零。
所述产生直方图的方法包含产生经配置以包含特征位置在每一六角形单元中的出现的直方图映射,以及产生经配置以描述特征位置在每一六角形单元中的出现次数的直方图计数。所述对直方图进行编码的方法可包含应用相邻六角形单元的上下文信息对在直方图中待编码的后续六角形单元的信息进行编码,其中所述上下文信息包含来自待编码的后续六角形单元的一级相邻单元的上下文信息和来自待编码的后续六角形单元的二级相邻单元的上下文信息。
在另一实施例中,一种移动装置包含:图像模块,其经配置以获得图像;视觉搜索模块,其经配置以产生图像的经编码的特征位置信息;以及控制器,其经配置以经由无线网络将图像的经编码的特征位置信息传送到服务器。所述移动装置的视觉搜索模块包含:用于产生六角形网格的逻辑,其中所述六角形网格包含多个六角形单元;用于使用所述六角形网格对图像的特征位置进行量化的逻辑;用于产生直方图以记录特征位置在每一六角形单元中的出现的逻辑;以及用于根据特征位置在每一六角形单元中的出现对直方图进行编码的逻辑。
附图说明
在配合以下图式阅读了本发明的实施例的详细描述之后,本发明的前述特征和优点及其额外特征和优点将可更加明确地理解。
图1a-1b图解说明根据本发明的一些方面产生特征位置直方图的方法。
图2图解说明根据本发明的一些方面产生特征位置直方图的另一方法。
图3a图解说明根据本发明的一些方面在三维(3D)空间中用六角形平面表示特征位置信息的方法。
图3b图解说明根据本发明的一些方面的六角形单元的特性。
图4a-4b图解说明根据本发明的一些方面对直方图值的自适应统计编码应用上下文配置。
图5图解说明根据本发明的某一方面利用正方形网格和六角形网格的特征位置译码方案的比较。
图6a图解说明根据本发明的一些方面经配置以执行视觉搜索的移动装置的框图。
图6b图解说明根据本发明的实施例的用于图像检索的方法。
图6c图解说明根据本发明的实施例对图像的特征位置信息进行译码的方法。
图7a-7b图解说明根据本发明的实施例的视觉搜索功能性的示范性实施方案。
图8a-8b图解说明根据本发明的实施例在特征位置编索引时使用词汇树和相关联的倒排索引。
具体实施方式
本发明揭示对特征位置信息进行译码的实施例。呈现以下描述以便使得所属领域的技术人员能够制作和使用本发明。具体实施例和应用的描述仅是作为实例提供。所属领域的技术人员将容易明白本文所述的实例的各种修改和组合,并且在不脱离本发明的精神和范围的情况下,本文中所界定的一般原理可以应用于其它实例和应用。因而,本发明并不希望限于所描述和展示的实例,而是应被赋予符合本文揭示的原理和特征的最宽范围。
图1a图解说明如2009年9月《国际移动多媒体通信会议论文集》中蔡(Tsai)等人的“用于移动图像检索系统的位置译码(Location coding for mobile image retrievalsystems)”所描述的使用矩形网格产生特征位置直方图的方法。这份参考文献的全文以引用的方式并入本文中。在102中,黑点表示图像的特征。在104中,图像上覆盖着正方形网格,其中所述正方形网格包含多个正方形单元。根据应用,每一正方形单元的大小可以从2x2个正方形像素向32x32个正方形像素变化。在106中,产生直方图映射以展示图像的特征的位置。直方图映射中的含有黑点的单元用灰色展示,并且不含有黑点的单元用白色展示。在特征处于两个正方形单元之间的边界上的情况下,选择含有较大特征区域的正方形单元。在特征在两个单元之间同等分布的情况下,可以选择所述单元中的任一者。在108中,基于106的直方图映射产生直方图计数。正方形单元中的数字表示106的属于直方图映射中的所述单元中的特征的数目。
根据本发明的实施例,假设n指示图像的特征的数目,并且假设m指示直方图中的单元的数目。接着,在给定视频图形阵列(VGA)图像的情况下,并且使用比例不变特征变换(SIFT)或加速稳固特征(SURF),在n=1000的情况下,于是m=640*480/w2,其中w是所述单元的大小(以像素为单位)。
应注意,可以使用多重集的观念来表示特征位置信息的直方图,在多重集中允许成员出现一次以上。一个元素属于多重集的次数是所述成员的多重性。多重集中的元素的总数(包含重复的成员)是多重集的基数性。举例来说,在多重集{a,a,b,b,b,c}中,成员a、b和c的多重性分别是2、3和1,并且多重集的基数性是6。
在图1a中所示的实例中,基数性的多重集的数目n(其中元素是取自基数性m的有限集)是多重集系数或多重集数目。通过多重集系数表示具有m个单元和n个总数的可能直方图的数目:
m n = n + m - 1 m - 1 .
因此,假设所有直方图的概率相等,可能花费大约
Figure BDA0000464322090000042
个位对其进行编码。在上述表达式中,O表示大O符号,其描述当自变量倾向于特定值或无限大时(通常就较简单的函数而言)所述函数的限制性行为。大O符号根据函数的增长率表征函数,以使得具有相同增长率的不同函数可以使用相同O符号表示。并且,假设α是常数,并且H(.)是熵函数以使得:
H(x)=-xlogx-(1-x)log(1-x)。
在n=1000并且m=640*480/w2的情况下展示通过使用这个公式获得的数字,其中w表示位置直方图的块大小。图1b中展示每个特征位置的位对位置直方图块大小w的曲线图。在这个曲线图中,当块大小较小(例如,2个像素)时,对特征位置信息进行译码的速率较大(大约8位/特征)。随着块大小增加,对特征位置信息进行译码的速率减小。当块大小大约是30像素时,译码速率大约是1位/特征。图1b包含蔡等人的文章中报告的经验熵估计。应注意,经验熵估计并未考虑到模型信息的发射成本,并且因而其在上述公式预测的曲线稍微下方。总的来说,其遵循相对于位置直方图块大小w的类似趋势。
还应注意,通过这个方案引入的失真(覆盖半径)可以与块大小w成正比,并且在给定点q和其对应经重建点q′的情况下,其是:
Figure BDA0000464322090000052
Figure BDA0000464322090000053
使用上述关系,可以如下表达用于直方图位置译码的速率失真特性(例如,针对L2范数):
R ( ϵ 2 ) log n - m ( ϵ 2 ) - 1 m ( ϵ 2 ) - 1 = log n - W H 2 ϵ 2 2 - 1 W H 2 ϵ 2 2 ~ n log W H 2 ϵ 2 2 - log n ! ~ ( log W H 2 ϵ 2 2 n - 1 )
其中W和H指代输入图像的宽度和高度,n是特征的数目,并且其中右侧渐进表述是针对高保真度(ε→0)体系获得的。
图2图解说明根据本发明的一些方面产生特征位置直方图的另一方法。在202中,黑点表示图像的特征。在204中,图像上覆盖着六角形网格(也称为六角形栅格),其中所述六角形网格包含多个六角形单元。在206中,可以形成直方图映射以展示图像的特征的位置。在这个实例中,直方图映射中含有黑点的单元用灰色展示,而不含有黑点的单元用白色展示。在特征处于两个六角形单元之间的边界上的情况下,选择含有较大特征区域的六角形单元。在特征在两个单元之间同等分布的情况下,可以选择所述单元中的任一者。在208中,可以基于206的直方图映射形成直方图计数。六角形单元中的数目表示属于206的直方图映射中的所述单元中的特征的数目。应注意,可以采用不同大小的六角形单元来产生特征位置信息上的不同量化等级,例如每个特征4、5或6个位。举例来说,六角形网格中的六角形单元的一条边可以具有2、4、8、16或32个像素的大小。对于每一大小的六角形单元,直方图映射的熵可以每个特征具有不同位速率且每个图像具有不同位速率,并且直方图计数的熵可以每个特征具有不同位速率,其中位速率可以针对不同图像而变化。类似地,每一大小的六角形单元(即2、4、8、16或32个像素)可以产生特征位置信息上的不同量化等级。直方图映射和直方图计数可以分开编码,并且当对直方图映射进行译码时可以使用相邻六角形单元的特征的空间关系。
图2中展示的方法用六角形栅格分区替代了空间特征位置的正方形栅格分区。使用这种方法,计算被量化成六角形栅格的特征位置的直方图,并且接着对计算结果进行编码。创建特征位置直方图的目标是减少对每一特征的位置信息进行编码所需的位的数目。一种方法不是对每一特征的位置信息进行译码,而是将特征的位置信息转换成位置直方图,并且对所述位置直方图进行译码。将位置信息转换成位置直方图和对直方图进行译码存在若干益处。首先,其允许译码方法不基于经译码的项目的次序,并且因而减少译码的位速率。此外,因为特征可以是图像中的结构点,所以可以在译码过程中采用特征之间的空间结构关系。
图3a图解说明根据本发明的一些方面在三维(3D)空间中用六角形平面表示特征位置信息的方法。如图3a中所示,3D空间被展示为通过u轴、v轴和w轴所界定的立方体302。六角形平面304可以如所示形成为具有在305、306、307、308、309和310上的顶点。这个实例中的六角形平面304的中心312还是立方体302的中心,其具有坐标(0.0,0.0和0.0)。
根据本发明的实施例,用六角形平面表示特征位置信息的方法可以将图像特征的坐标(x,y)从二维(2D)空间投影到3D空间中的六角形平面304。当3D空间中的点的u、v和w坐标的总和满足以下条件时,这个点位于六角形平面上。
u+v+w=0。
在一种示范性方法中,使用以下矩阵将2D空间中的点变换到3D空间:
M = 1 2 1 0 - 1 1 3 - 2 3 1 3 ,
并且上述矩阵满足以下条件:
M · M T = 1 0 0 1 .
这意味着以下变换:
(u,v,w)=(x,y)·M
可以是可逆的:
(x,y)=(u,v,w)·MT
图3a中展示了这个变换的实例。u+v+w=0平面上的六角形栅格是一组具有整数坐标的点,例如点314a和314b:
(u,v,w)lattice3
根据本发明的实施例,一种对3D空间中的经变换的点进行量化的方法包含以下计算。
在给定3D空间中的具有以下坐标的点q的情况下
q=(uq,vq,wq)
界定点:
q′=(〈uq〉,〈vq〉,〈wq〉)
其中〈x〉指示最接近实数x的整数。
计算总和并且验证经量化点是否位于六角形平面上:
Δ=〈uq〉+〈vq〉+〈wq〉。
如果Δ=0,这意味着经量化点位于六角形平面上,那么这个过程完成。换句话说,q′属于六角形平面(u+v+w=0),并且因而其是有效的栅格点。
计算误差:
δ=(uq-〈uq〉,vq-〈vq〉,wq-〈wq〉)
并且对误差进行排序以使得
- 1 2 ≤ δ 1 ≤ δ 2 ≤ δ 3 ≤ 1 2 .
如果Δ>0,那么从q′的具有最高误差值δi的Δ个分量减去1。如果Δ<0,那么向具有最小误差值δi的q′的|Δ|个分量加上1。为了控制图像特征位置(x,y)向栅格点的映射的粗度,可以引入比例参数σ。应注意,整个量化过程可以描述成一系列变换:
(x,y)→(u,v,w)=σ-1(x,y)M→(u,v,w)lattice
经重建值(x′,y′)如下获得:
(u,v,w)lattice→σ(u,v,w)latticeMT→(x′,y′)
根据本发明的实施例,存在可以枚举和编码栅格点的几种技术。一种方法是遵循其中随着所述方法执行图像坐标(x,y)的光栅扫描出现六角形单元的次序。或者,所述方法根据六角形单元的坐标的值的字典次序枚举六角形单元。
在一些实施方案中,所述方法扫描含有图像坐标的单元,并且对变成映射到每一单元的特征的数目进行计数。在计算了直方图之后,其可以映射到唯一索引并且接着被编码。如上文所指示,可以通过多重集系数表示具有m个单元和n的总数的可能直方图的数目:
m n = n + m - 1 m - 1 .
并且表示直方图索引所需的速率是:
Figure BDA0000464322090000091
个位。
根据本发明的实施例,可以采用各种译码技术对图2的直方图映射206和直方图计数208进行译码。在一种方法中,直方图可以转换成唯一的词典式索引,并且接着使用具有R(m,n)位的固定长度代码经编码。如Y.A.瑞斯尼克(Y.A.Reznik)在“用于离散概率分布的量化的算法(An Algorithm for Quantization of Discrete ProbabilityDistributions)”(《数据压缩会议论文集(DCC′11)》,2011年3月,第333-343页,其全部内容以引用的方式并入本文中)中描述的,在给定具有m个二进制数、n个总计数和每一二进制数中的各个计数k1,....km的直方图的情况下,可以如下获得唯一索引I(k1,...,km):
I ( k 1 , . . . , k m ) = &Sigma; j = 1 m - 2 &Sigma; i = 0 k j - 1 n - i - &Sigma; l = 1 j - 1 k l + m - j m - j + k m - 1
这个公式通过归纳(从m=2,3,...开始)继续,并且实施各种类型的字典式枚举。举例来说,
I(0,0,...,0,n)=0,
I(0,0,...,1,n-1)=1,
I ( n , 0 , . . . , 0,0 ) = n + m - 1 m - 1 - 1 .
在另一方法中,直方图映射中的空的块可以用光栅扫描次序转换成游程长度。接着使用熵译码器对游程长度进行译码。熵译码器可以采用哥伦布-莱斯代码、霍夫曼代码或算术代码中的至少一者。在另一方法中,所述方法采用可变长度译码方案,其捕获关键点的空间分布的特性。在又一方法中,将几个周围六角形单元中的直方图值用作上下文。进一步结合图4a和图4b描述这些上下文配置。
图4a-4b图解说明根据本发明的一些方面对直方图值的自适应统计编码应用上下文配置。在图4a中,为了对六角形网格中的六角形单元X进行编码,可以使用来自一级相邻单元A、B和C的上下文信息对六角形直方图映射和直方图计数进行编码。在这个实例中,一级相邻单元A、B和C是先前已经编码的六角形单元,并且六角形单元X是待编码的后续六角形单元。类似地在图4b中,为了对六角形网格中的六角形单元Y进行编码,可以使用来自一级和二级相邻单元(A、B、C、D、E、F、G、H和I)的上下文信息对六角形直方图映射和直方图计数进行编码。一级和二级相邻单元A、B、C、D、E、F、G、H和I是先前已经编码的六角形单元,并且六角形单元Y是待编码的后续六角形单元。
应注意,与正方形栅格相比,六角形栅格提供可以用作上下文的点的更好放置。举例来说,在图4a中,三个一级相邻六角形单元A、B和C可以用作上下文。虽然在正方形栅格中,仅存在两个可供使用的这些一级相邻正方形单元,即上方的正方形单元和左侧的正方形单元,假设扫描方向是从左到右并且从上到下。
应注意,与正方形栅格相比,六角形栅格产生二维(2D)空间的更薄覆盖。这会改进特征位置表示的准确性。如图4a和4b中所示,对于六角形空间的映射从上下文建模和熵译码观点看是有益的。应注意,图像特征位置到六角形空间的转译方法并不会修改实际像素值,这意味着其就计算资源而言可以用有效的方式执行。
以下段落分析利用六角形栅格对特征位置信息进行译码的益处。一种方法是估计所提议的方案的速率失真特性,并且与利用正方形栅格对特征位置信息进行译码的方案比较。
考虑两个栅格点:(0,0,0)和(0,1,1),并且将其转换回像素域。请记住,这个转换是通过映射进行的:
(u,v,w)lattice→σ(u,v,w)latticeMT→(x′,y′)
其中σ是比例参数。这得出:
( 0,0,0 ) &RightArrow; &sigma; 2 ( 0,0,0 ) 1 1 3 0 - 2 3 - 1 1 3 = ( 0,0 ) ; 并且
( 0 , 1 , 0 ) &RightArrow; &sigma; 2 ( 0 , 1 , 0 ) 1 1 3 0 - 2 3 - 1 1 3 &RightArrow; ( 0 , - 2 3 &sigma; )
像素域中的这些点之间的距离是:
D = 2 3 &sigma; .
应注意,栅格域中的相同距离对应于图3b中所展示的六角形单元的高度是:
D = 2 &rho; = 3 r .
像素域中的单元半径可以表达成;
r = 2 3 &sigma;
类似地,单个六角形单元占据的区域可以表达成:
A = 3 3 2 r 2 = 1 3 &sigma; 2
在具有H x w个像素的图像的情况下,其将需要至少
m = HW A = 3 HW &sigma; 2
个六角形单元对其进行覆盖。在这种情况下,基于L2范数的量化误差等于覆盖半径:
&epsiv; 2 = r 2 3 &sigma; .
这进一步产生以下关系:
m ( &epsiv; 2 ) = 3 HW &sigma; 2 = 2 3 3 HW &epsiv; 2 2 ,
以及速率失真函数:
R hex ( &epsiv; 2 ) = log n - m ( &epsiv; 2 ) - 1 m ( &epsiv; 3 ) - 1 = log n - 2 3 3 HW &epsiv; 2 2 - 1 2 3 3 HW &epsiv; 2 2 - 1 ~ n log 2 3 3 HW &epsiv; 2 2 - log n ! ~ n ( log 2 3 3 HW &epsiv; 2 2 n - 1 ) = n ( log HW &epsiv; 2 2 n + log 2 3 3 - 1 ) &ap; n ( log HW &epsiv; 2 2 n - 2.37744 )
比较起来,用于正方形栅格的速率失真函数是:
R square ( &epsiv; 2 ) = log n - m ( &epsiv; 2 ) - 1 m ( &epsiv; 3 ) - 1 = log n - WH 2 &epsiv; 2 2 - 1 WH 2 &epsiv; 2 2 - 1 ~ n log WH 2 &epsiv; 2 2 - log n ! ~ n ( log WH 2 &epsiv; 2 2 n - 1 ) = n ( log WH &epsiv; 2 2 n - 2 )
因此,所提议的量化方案可以节省大约
log 2 ( 4 3 3 ) &ap; 0.37744
位/特征点,同时保持相同的最坏情况精确度。
图5图解说明根据本发明的某一方面利用正方形栅格和六角形栅格的特征位置译码方案的比较。曲线502表示使用六角形栅格译码方案的每个特征位置的位对量化误差。曲线504表示使用正方形栅格译码方案的每个特征位置的位对量化误差。这两个曲线都使用具有大约一千个特征的VGA图像。如这个实例中所示,如果位置译码在5位/特征的位速率下操作,那么六角形栅格译码方案具有优于正方形栅格译码方案的大约8.16%的位速率改进。
本发明的实施例描述用于图像特征位置信息的译码的改进型技术。所述技术利用用于特征位置的量化的六角形栅格、特征位置在栅格单元中的出现的直方图的构造和此直方图的编码。分析了这种技术的性能,并且将这种技术与利用正方形栅格(位置参数的标量量化)的直方图译码的性能加以比较。展示了所提议的方案导致了位置译码的位速率的明显改进。所述技术适合于在移动平台上实施。
所揭示的方法可以适用于其中视觉搜索和增强现实(AR)系统依赖于特征位置信息来执行多个任务的移动装置。举例来说,特征位置信息可以用于1)图像之间匹配的几何验证;2)计算相同对象的视图之间的几何变换的参数;3)定位和投影所关注的对象的边界;以及4)使用额外信息增强所俘获图像或视频中的所辨识对象的视图,和其它目的。
在一些情况下,如果用紧凑并且易用的形式表示位置信息,那么AR和视觉搜索系统可以受益。如果需要经由无线网络发射位置信息,那么紧凑性尤其重要。还可允许位置信息的某一精确度损失,但仅允许某一程度的损失,因为这可能会影响到检索准确性以及几何变换的匹配区域/对象和参数的局部化的准确性。
图6a图解说明根据本发明的一些方面经配置以执行视觉搜索的移动装置的框图。在移动装置处,天线602从基站接收经调制信号,并且将接收到的信号提供到调制解调器604的解调器(DEMOD)部分。解调器处理(例如,调节和数字化)接收到的信号并且获得输入样本。其进一步对输入样本执行正交频分多路复用(OFDM)解调,并且提供所有子载波的频域接收到的符号。RX数据处理器606处理(例如,符号解映射、解交错和解码)频域接收到的符号,并且将经解码的数据提供到移动装置的控制器/处理器608。
控制器/处理器608可经配置以控制移动装置经由无线网络与服务器通信。TX数据处理器610产生信令符号、数据符号和导频符号,这些符号可以通过调制解调器604的调制器(MOD)处理,并且经由天线602被发射到基站。此外,控制器/处理器608引导移动装置处的各种处理单元的操作。存储器612可经配置以存储用于移动装置的程序代码和数据。图像模块616可经配置以获得图像。视觉搜索模块614可经配置以实施对图像的特征位置信息译码的方法以及如下所述的图像检索方法。
根据本发明的实施例,基于内容的图像检索可以使用被称作“特征包”(BoF)或“词语包”(BoW)的方法。BoW方法是从文本文档检索导出的。为了寻找特定文本文档,例如网页,使用几个良好选择的词语就够了。在数据库中,文档本身可以同样由突出词语的“包”表示,不管这些词语出现在文档中的哪个位置。对于图像,是特定图像的特性的稳固的局部特征充当“视觉词语”的角色。与文本检索一样,BoF图像检索不考虑特征出现在图像中的哪个位置,至少在检索管线的初始阶段中是这样。
图6b图解说明根据本发明的实施例的用于图像检索的方法。在框622中,所述方法获得查询图像。在框624中,从查询图像提取局部图像特征/描述符。在框626中,接着将这些描述符与数据库630中存储的图像的描述符匹配。描述符匹配函数可以进一步包含匹配局部图像特征,选择具有最高得分的图像,和执行几何验证。在框628中,接着选择和列举与查询图像具有许多共同特征的图像。如下所述的几何验证步骤可以用于拒绝具有与不能通过更换查看位置来可信地解释的特征位置的匹配。
图6b中展示的方法可以实施为用于大规模图像检索的管线。首先,从查询图像提取局部特征(也称为描述符)。使用所述组局部特征来评估查询图像与数据库图像之间的相似性。为了能用于移动应用,各个特征应当相对于在用户与对应数据库图像相比从不同视点并且用不同光照获取查询照片时遇到的几何和光度失真是稳固的。接下来,将查询特征与存储在数据库中的图像的特征匹配。通过使用特殊索引结构从而允许快速存取含有匹配特征的图像列表,可以实现这个结果。基于其与查询图像共同的特征的数目,从数据库中选择潜在地相似图像的短列表。最后,向数据库中的最相似匹配应用几何验证步骤。几何验证找到查询图像的特征与候选数据库图像的特征之间的相干的空间模式以确保匹配是正确的。
图6c图解说明根据本发明的实施例对图像的特征位置信息进行译码的方法。如图6c中所示,在框632中,所述方法产生包含多个六角形单元的六角形网格,并且基于特征位置信息的预定量化等级(例如每个特征4、5或6位)确定六角形单元的大小。
在框634中,所述方法使用六角形网格对图像的特征位置进行量化。对于每一特征位置,所述方法产生特征位置的从二维平面到三维空间的经变换的坐标,将经变换的坐标舍入成对应的最接近的整数,并且验证经变换的坐标属于三维空间中的六角形平面。通过计算经变换的坐标的总和并且验证经变换的坐标的总和等于零来验证经变换的坐标。
在框636中,所述方法产生直方图以记录特征位置在每一六角形单元中的出现。所述直方图包含经配置以包含特征位置在每一六角形单元中的出现的直方图映射,和经配置以描述特征位置在每一六角形单元中的出现次数的直方图计数。
在框638中,所述方法根据特征位置在每一六角形单元中的出现对直方图进行编码。所述方法将直方图转换成唯一词典式索引,并且使用固定长度代码对所述唯一词典式索引进行编码。此外,所述方法用光栅扫描次序将直方图的空的块转换成游程长度,并且使用熵译码器对游程长度进行编码。熵译码器可以采用哥伦布-莱斯代码、霍夫曼代码或算术代码。
在另一方法中,对直方图进行编码可以应用相邻六角形单元的上下文信息对直方图中待编码的后续六角形单元的信息进行编码。所述上下文信息包含来自待编码的后续六角形单元的一级相邻单元和二级相邻单元的上下文信息。将所述上下文信息用作算术编码器的输入。
根据本发明的实施例,哥伦布-莱斯译码是一种使用系列数据压缩代码的无损数据压缩方法,其中在自适应译码方案中遵循几何分布的字母表可以具有哥伦布-莱斯代码作为字首码。哥伦布-莱斯代码具有可调谐的参数(是二的幂),这使得这些代码方便用于计算机上,因为在二进制算术中可以更高效地实施二的乘法与除法。霍夫曼译码使用可变长度代码表对源符号进行编码以进行无损数据压缩。可变长度代码表可以基于源符号的每一可能值的出现的估计概率而导出。霍夫曼译码使用特定的方法来选择每一符号的表示,从而产生字首码,所述字首码使用比用于较不常见的源符号的位串更短的位串来表达最常见的源符号。对于具有均一概率分布和多个是二的幂的成员的一组符号,霍夫曼译码等效于二进制块编码。算术译码是一种用于无损数据压缩的形式的可变长度熵编码。可以使用每个字符的固定数目的位来表示一串字符,与ASCII代码中一样。当将串转换成算术编码时,可以用较少位存储经常使用的字符,并且用较多位存储不那么经常出现的字符,从而使得总共使用的位较少。算术译码不同于其它形式的熵编码(例如霍夫曼译码),因为算术译码不是将输入分开成分量符号并且用代码替代每一分量符号,而是将整个消息编码成单个数字,即分数n,其中(0.0≤n<1.0)。
图7a-7b图解说明根据本发明的实施例的视觉搜索功能性的示范性实施方案。如本发明中所描述的对特征位置信息进行译码的方法可以在如图7a和图7b中所示的客户端和服务器环境中实施。
如图7a中所示,所述系统包含移动装置702(例如移动电话)、视觉搜索服务器704和无线网络706。移动装置702包含图像捕获模块703、图像编码模块705和过程与显示结果模块707。视觉搜索服务器704包含图像解码模块711、描述符提取模块713、描述符匹配模块715、搜索结果模块717和数据库719。移动装置702的组件、无线网络706和视觉搜索服务器704以通信方式耦合,如图7a的流程图中所示。移动装置702分析查询图像,提取局部图像特征(描述符),并且发射特征数据。检索方法使用经发射的特征作为查询以执行搜索而在视觉搜索服务器704上运行。
在图7b中展示的实例中,所述系统包含移动装置722(展示为移动电话)、视觉搜索服务器724和无线网络726。移动装置722包含图像捕获模块723、描述符提取模块725、描述符编码模块727、描述符匹配模块729、决策分支731、过程和显示结果模块733以及本地数据库(D/B)或高速缓存735。视觉搜索服务器724包含描述符解码模块741、描述符匹配模块743、搜索结果模块745和数据库747。移动装置722的组件、无线网络726和视觉搜索服务器724以通信方式耦合,如图7b的流程图中所示。移动装置722维持数据库的高速缓存并且在本地执行图像匹配。在没找到匹配的情况下,移动装置722向视觉搜索服务器724发送查询请求。以此方式,其进一步减少经由网络所发送的数据量。
在图7a和图7b的每一情况下,检索框架可以适应严格的移动系统要求。所述移动装置上的处理需要快速并且在功率消耗方面经济。经由网络发射的数据大小需要尽可能小,以便使网络等待时间降至最低,并且因而提供最佳用户体验。用于检索的方法需要可缩放成潜在地极大的数据库,并且能够用低等待时间交出准确结果。此外,检索系统需要是稳固的,以便允许可靠地识别在多种多样的条件下捕获的对象,所述条件包含不同距离、视角和光照条件或在存在部分闭塞或运动模糊的情况下。
特征提取过程识别图像中的突出兴趣点。为了实现稳固的图像匹配,这些兴趣点需要可以在视角变换(例如比例变化、旋转和平移)和照明变化下重复。为了实现比例不变性,可以使用图像金字塔在多个比例下计算兴趣点。为了实现旋转不变性,每一兴趣点周围的插入码在主要梯度的方向上定向。将每一路径中的梯度进一步归一化以使其对于照度变化稳固。
应注意,不同兴趣点检测器提供可重复性与复杂度的不同折中。举例来说,通过SIFT产生的高斯差(DoG)点可能计算起来较慢,但其可以高度可重复;而角检测器方法可能快速但是其提供较低的可重复性。在可以实现可重复性与复杂度之间的良好折中的各种方法当中的是用完整图像加速的海赛-二进制大对象检测器(Hessian-blob detector)。对VGA图像使用这种方法,可以在一些当前移动电话上用大约少于一秒执行兴趣点检测。
在兴趣点检测之后,使用这些点周围的较小图像插入码计算“视觉词语”描述符。计算特征描述符时的一个难题是使其非常能辨别一个图像或较小组图像的特性。在几乎每个图像中出现的描述符(例如文本文档中的词语“和”的等效物)将不适用于检索。
在一个实施方案中,如下描述计算描述符的过程:
●将插入码划分成几个(例如5个到9个)空间上局部化的二进制数;
●接着计算每一空间二进制数中的联合(dx,dy)梯度直方图。CHoG直方图二进制化利用对于在关键点周围提取的插入码观察到的梯度统计数据中的典型偏斜;以及
●将来自每一空间二进制数的梯度的直方图量化并且作为描述符的一部分而存储。
在上述用于提取图像的特征的实施方案中,提取不同比例下的兴趣点(例如,角、二进制大对象)。不同比例下的插入码沿最主要梯度定向。使用规范地定向并且归一化的插入码计算描述符。将插入码划分成局部化的空间二进制数,并且其提供对于兴趣点局部化误差的稳固性。直接压缩每一空间二进制数中的梯度的分布以便获得插入码的紧凑的描述。
使用直方图允许采用信息距离量度(例如KL发散)来评估图像特征之间的不匹配程度。直方图还允许简单并且有效的编码。在一些实例中,仅需要50到60个位以将每一插入码变成压缩的基于直方图的描述符。
发射或存储局部图像特征的移动AR和视觉搜索系统需要高效地对特征和特征位置信息集合进行编码(和/或多路复用)。特征位置信息也需要被编码,因为这是几何验证所需要的。在一种方法中,为了实现匹配准确性,通常至少需要500个局部特征。这些特征通常在空间上非常相关。如上述图2到图4所示,通过首先将其量化成2D直方图并且接着使用基于上下文的算术译码技术以利用空间相关,可以实现特征位置信息的编码。这种技术可以实现大约5位/特征译码速率,同时提供特征位置信息表示的足够高的精度。
通过首先发射特征位置直方图并且接着依次(即在对直方图进行解码时其位置出现的次序)发射特征,可以实现整组局部特征和其对应位置的编码。举例来说,如果直方图指示块(x,y)包含三个特征,那么编码器可以在位流中依次输出三个对应描述符的代码。
使用紧凑的描述符(例如上文所描述的描述符)和特征位置译码,可以通过大约4K字节(500×(60+5)/8)来表示具有500个特征的查询图像。考虑JPEG压缩查询图像通常采用大约40-80K字节,所揭示的方法表示位速率的数量级降低。
为了对大型图像数据库中的图像的特征编索引和匹配,所揭示的实施例使用一种数据结构,所述数据结构传回很可能与查询图像匹配的数据库候选物的短列表。只要包含正确匹配,所述短列表就可能含有假阳性。随后可以仅对候选物的短列表而非整个数据库执行更短的成对比较。
可以采用各种数据结构为图像数据库中的局部特征编索引。一种方法是用首先最佳二进制数策略使用SIFT描述符的近似最接近相邻者(ANN)搜索。此外,可以使用特征包(BoF)模型。BoF码簿是通过描述符训练集合的k均值集群构建的。在查询期间,通过使用与BoF码簿相关联的倒排文件索引,可以执行对数据库图像的评分。为了产生大型码簿,可以利用分级k均值集群来创建词汇树VT)。也可使用其它搜索技术,例如局部性敏感的散列(LSH)和传统的基于树的方法的改进。
图8a图解说明根据本发明的实施例通过训练特征描述符的分级k均值集群构建词汇树的方法。这个实例中展示的词汇树具有2个等级。使用分支因子k=3,并且词汇树具有k^2=9个叶节点。图8b图解说明根据本发明的实施例的词汇树和相关联的倒排索引。倒排索引含有图像列表,并且指示文件中的特征数目的计数器遵循词汇树中的相同路径。
如图8a-8b中所示,在为图像特征编索引和匹配时使用词汇树(VT)和其相关联的倒排索引结构。如图8a中图解说明,通过对表示数据库的训练特征描述符集合执行分级k均值集群,可以构建用于数据库的VT。首先,为所有训练描述符产生k个大型集群。通过用适当距离函数(例如L2范数或KL发散的对称形式)使用k均值算法(量化成k个单元)进行这个操作。接着,对于每一大型集群,向指派给所述集群的训练描述符应用k均值集群以产生k个较小集群。这个描述符空间的递归划分一直重复到存在足够确保良好分类性能的二进制数为止。举例来说,实际上,可以使用具有高度6、分支因子k=10并且产生1百万个(106)节点的VT设计。
与VT相关联的倒排索引每个叶节点维持两个列表,如图8b中所示。对于叶节点x,存在图像识别符的经排序的阵列{ix1,...,ixNx},其指示哪些Nx数据库图像具有属于与这个节点相关联的集群的特征。类似地,存在对应的计数器阵列{Cxl,...,CxNx},其指示每一对应图像中的特征的数目属于相同集群。
在查询期间,针对查询图像中的每一特征遍历所述VT,每次在叶节点中的一者上结束。随后使用图像和频率计数的对应列表来计算这些图像与查询图像之间的相似性得分。可以采用标准词频-逆文档频率(TF-IDF)加权方案来计算这些得分。通过从所有这些列表拉取图像并且根据得分将其排序,可以导出很可能含有与查询图像的真实匹配的数据库图像子集。因为每一查询特征仅需要执行少量查找,并且从倒排索引可以直接获得所有相关文件的列表,所以这个方案可以缩放以支持大型数据库。
在特征匹配之后执行几何验证。在这个阶段中,使用查询图像和数据库图像中的特征的位置信息来确认特征匹配符合两个图像之间的视点的变化。使用回归技术估计查询图像与数据库图像之间的几何变换。通常由并入有3D几何形状、单应性或仿射模型的基本矩阵表示变换。
应注意,[0090]段、图2、图6a-6c和其对应描述提供用于产生包含多个六角形单元的六角形网格的装置,用于使用六角形网格对图像的特征位置进行量化的装置,用于产生直方图以记录特征位置在每一六角形单元中的出现的装置和用于根据特征位置在每一六角形单元中的出现对直方图进行编码的装置。[0090]段、图2、图3a-3b、图6a-6c和其对应描述提供用于产生特征位置的从二维平面到三维空间的经变换的坐标的装置,用于将经变换的坐标舍入成对应最接近的整数的装置,和用于验证经变换的坐标属于三维空间中的六角形平面的装置。[0090]段、图2、图6a-6c和其对应描述提供用于产生经配置以包含特征位置在每一六角形单元中的出现的直方图映射的装置,和用于产生经配置以描述特征位置在每一六角形单元中的出现次数的直方图计数的装置。段[0090]、图4a-4b、图6a-6c和其对应描述提供用于应用相邻六角形单元的上下文信息以对直方图中待编码的后续六角形单元的信息进行编码的装置。
本文所述的方法和移动装置可以取决于应用而通过各种装置实施。举例来说,这些方法可以用硬件、固件、软件或其组合实施。对于硬件实施方案,处理单元可以在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、其它经设计以执行本文所述的功能的电子单元或其组合内实施。本文中,术语“逻辑控制”涵盖通过软件、硬件、固件或组合实施的逻辑。
对于固件和/或软件实施方案,可用执行本文所描述的功能的模块(例如,程序、函数等)来实施所述方法。任何有形地体现指令的机器可读媒体都可以用于实施本文所述的方法。举例来说,软件代码可以存储在存储器中并且通过处理单元执行。存储器可以实施在处理单元内或处理单元外部。如本文所使用,术语“存储器”是指任何类型的长期、短期、易失性、非易失性或其它存储装置并且不限于任何特定类型的存储器或数目的存储器,或任何特定类型的存储着存储器的媒体。
如果用固件和/或软件实施,那么可将所述功能作为一个或一个以上指令或代码存储在计算机可读媒体上。实例包含编码有数据结构的计算机可读媒体和编码有计算机程序的计算机可读媒体。计算机可读媒体可以采用制造品的形式。计算机可读媒体包含物理计算机存储媒体。存储媒体可为可由计算机存取的任何可用媒体。借助于实例而非限制,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或任何其它可用于存储指令或数据结构的形式的期望程序代码并且可通过计算机存取的媒体;在本文中使用时,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD),软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上述装置的组合也应包含在计算机可读媒体的范围内。
除了存储在计算机可读媒体上之外,还可将指令和/或数据提供为通信设备中包含的发射媒体上的信号。举例来说,通信设备可包含具有指示指令和数据的信号的收发器。所述指令和数据经配置以致使一个或一个以上处理器实施权利要求书中概述的功能。也就是说,通信设备包含具有指示用以执行所揭示的功能的信息的发射媒体。在第一时间,通信设备中包含的发射媒体可包含用以执行所揭示的功能的信息的第一部分,而在第二时间,通信设备中包含的发射媒体可包含用以执行所揭示的功能的信息的第二部分。
本发明可以配合例如无线广域网(WWAN)、无线局域网(WLAN)、无线个域网(WPAN)等各种无线通信网络实施。术语“网络”和“系统”常常互换使用。术语“位置”和“地点”常常互换使用。WWAN可以是码分多址(CDMA)网络、时分多址(TDMA)网络、频分多址(FDMA)网络、正交频分多址(OFDMA)网络、单载波频分多址(SC-FDMA)网络、长期演进(LTE)网络、WiMAX(IEEE802.16)网络等。CDMA网络可以实施一种或一种以上无线电接入技术(RAT),例如cdma2000、宽带CDMA(W-CDMA)等。Cdma2000包含IS-95、IS2000和IS-856标准。TDMA网络可实施全球移动通信系统(GSM)、数字高级移动电话系统(D-AMPS)或某一其它RAT。GSM和W-CDMA描述于来自名为“第三代合作伙伴计划”(3GPP)的协会的文献中。Cdma2000描述于来自名为“第三代合作伙伴计划2”(3GPP2)的协会的文献中。3GPP和3GPP2文献是公众可获得的。WLAN可以是IEEE802.11x网络,并且WPAN可以是蓝牙网络、IEEE802.15x或某种其它类型的网络。所述技术也可配合WWAN、WLAN和/或WPAN的任何组合实施。
移动台是指例如蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PIM)、个人数字助理(PDA)、膝上型计算机或其它能够接收无线通信和/或导航信号的合适的移动装置等装置。术语“移动台”还希望包含例如通过短程无线、红外线、有线连接或其它连接(不管是在所述装置处还是在PND处发生卫星信号接收、辅助数据接收和/或与位置相关的处理)与个人导航装置(PND)通信的装置。并且,“移动台”希望包含所有装置,包含无线通信装置、计算机、膝上型计算机等,其能够例如经由因特网、Wi-Fi或其它网络与服务器通信,并且不管是在所述装置处、服务器处还是在与所述网络相关联的另一装置处发生卫星信号接收、辅助数据接收和/或与位置相关的处理。上述装置的任何可操作组合也被视为“移动台”。
某个事物“被优化”、“必需”的说法或其它说法并不指示本发明仅适用于被优化的系统或其中存在所述“必需”元件的系统(或其它归因于其它说法的局限性)。这些说法仅指代特定的所描述的实施方案。当然,许多实施方案是可能的。所述技术可以与除了本文中论述的协议之外的协议一起使用,包含正在开发或有待开发的协议。
相关领域的技术人员将认识到,可以使用所揭示的实施例的许多可能修改和组合,同时仍然采用相同的基本基础机构和方法。出于解释的目的,前文描述是参考具体实施例撰写的。但是,上文的说明性论述并不希望是穷举的或将本发明限于所揭示的精确形式。鉴于以上教示,许多修改和变化均是可能的。选择和描述所述实施例是为了阐释本发明的原理和其实际应用,并且为了使得所属领域的技术人员能够以适合于所涵盖的特定用法的各种修改最好地利用本发明和各种实施例。

Claims (38)

1.一种对图像的特征位置信息进行译码的方法,其包括:
产生六角形网格,其中所述六角形网格包含多个六角形单元;
使用所述六角形网格对图像的特征位置进行量化;
产生直方图以记录特征位置在每一六角形单元中的出现;以及
根据特征位置在每一六角形单元中的所述出现对所述直方图进行编码。
2.根据权利要求1所述的方法,其中产生六角形网格包括:
根据特征位置信息的预定量化等级确定所述六角形单元的大小。
3.根据权利要求1所述的方法,其中对特征位置进行量化包括:
对于每一特征位置,产生所述特征位置的从二维平面到三维空间的经变换的坐标;
将所述经变换的坐标舍入成对应最接近的整数;以及
验证所述经变换的坐标属于所述三维空间中的六角形平面。
4.根据权利要求3所述的方法,其中验证所述经变换的坐标包括:
计算所述经变换的坐标的总和;以及
验证所述经变换的坐标的所述总和等于零。
5.根据权利要求1所述的方法,其中产生直方图包括:
产生经配置以包含特征位置在每一六角形单元中的出现的直方图映射。
6.根据权利要求5所述的方法,其进一步包括:
产生经配置以描述特征位置在每一六角形单元中的出现次数的直方图计数。
7.根据权利要求1所述的方法,其中对直方图进行编码包括:
将所述直方图转换成唯一词典式索引;以及
使用固定长度代码对所述唯一词典式索引进行编码。
8.根据权利要求1所述的方法,其中对直方图进行编码进一步包括:
将所述直方图的空块以光栅扫描次序转换成游程长度;以及
使用熵译码器对所述游程长度进行编码。
9.根据权利要求8所述的方法,其中所述熵译码器采用哥伦布-莱斯代码。
10.根据权利要求8所述的方法,其中所述熵译码器采用霍夫曼代码。
11.根据权利要求8所述的方法,其中所述熵译码器采用算术代码。
12.根据权利要求1所述的方法,其中对所述直方图进行编码进一步包括:
应用相邻六角形单元的上下文信息对所述直方图中的待编码的后续六角形单元的信息进行编码。
13.根据权利要求12所述的方法,其中所述上下文信息包括:
来自所述待编码的后续六角形单元的一级相邻单元的上下文信息。
14.根据权利要求13所述的方法,其中所述上下文信息进一步包括:
来自所述待编码的后续六角形单元的二级相邻单元的上下文信息。
15.根据权利要求12所述的方法,其中将上下文信息用作算术编码器的输入。
16.一种移动装置,其包括:
图像模块,其经配置以获得图像;
视觉搜索模块,其经配置以产生所述图像的经编码的特征位置信息;以及
控制器,其经配置以经由无线网络将所述图像的所述经编码的特征位置信息传送到服务器;
其中所述视觉搜索模块包含
用于产生六角形网格的逻辑,其中所述六角形网格包含多个六角形单元;
用于使用所述六角形网格对图像的特征位置进行量化的逻辑;
用于产生直方图以记录特征位置在每一六角形单元中的出现的逻辑;以及
用于根据特征位置在每一六角形单元中的所述出现对所述直方图进行编码的逻辑。
17.根据权利要求16所述的移动装置,其中用于产生六角形网格的逻辑包括:
用于根据特征位置信息的预定量化等级确定所述六角形单元的大小的逻辑。
18.根据权利要求16所述的移动装置,其中用于对特征位置进行量化的逻辑包括:
对于每一特征位置,用于产生所述特征位置从二维平面到三维空间的经变换的坐标的逻辑;
用于将所述经变换的坐标舍入成对应最接近的整数的逻辑;以及
用于验证所述经变换的坐标属于所述三维空间中的六角形平面的逻辑。
19.根据权利要求18所述的移动装置,其中用于验证所述经变换的坐标的逻辑包括:
用于计算所述经变换的坐标的总和的逻辑;以及
用于验证所述经变换的坐标的所述总和等于零的逻辑。
20.根据权利要求16所述的移动装置,其中用于产生直方图的逻辑包括:
用于产生经配置以包含特征位置在每一六角形单元中的出现的直方图映射的逻辑。
21.根据权利要求20所述的移动装置,其进一步包括:
用于产生经配置以描述特征位置在每一六角形单元中的出现次数的直方图计数的逻辑。
22.根据权利要求16所述的移动装置,其中用于对直方图进行编码的逻辑包括:
用于将所述直方图转换成唯一词典式索引的逻辑;以及
用于使用固定长度代码对所述唯一词典式索引进行编码的逻辑。
23.根据权利要求16所述的移动装置,其中用于对直方图进行编码的逻辑进一步包括:
用于将所述直方图的空块以光栅扫描次序转换成游程长度的逻辑;以及
用于使用熵译码器对所述游程长度进行编码的逻辑。
24.根据权利要求16所述的移动装置,其中用于对所述直方图进行编码的逻辑进一步包括:
用于应用相邻六角形单元的上下文信息对所述直方图中的待编码的后续六角形单元的信息进行编码的逻辑。
25.根据权利要求24所述的移动装置,其中所述上下文信息包括:
来自所述待编码的后续六角形单元的一级相邻单元的上下文信息。
26.根据权利要求25所述的移动装置,其中所述上下文信息进一步包括:
来自待编码的所述后续六角形单元的二级相邻单元的上下文信息。
27.一种移动装置,其包括:
图像模块,其经配置以获得图像;
视觉搜索模块,其经配置以产生所述图像的经编码的特征位置信息;以及
控制器,其经配置以经由无线网络将所述图像的所述经编码的特征位置信息传送到服务器;
其中所述视觉搜索模块包含
用于产生六角形网格的装置,其中所述六角形网格包含多个六角形单元;
用于使用所述六角形网格对图像的特征位置进行量化的装置;
用于产生直方图以记录特征位置在每一六角形单元中的出现的装置;以及
用于根据特征位置在每一六角形单元中的所述出现对所述直方图进行编码的装置。
28.根据权利要求27所述的移动装置,其中用于对特征位置进行量化的装置包括:
对于每一特征位置,用于产生所述特征位置的从二维平面到三维空间的经变换的坐标的装置;
用于将所述经变换的坐标舍入成对应最接近的整数的装置;以及
用于验证所述经变换的坐标属于所述三维空间中的六角形平面的装置。
29.根据权利要求27所述的移动装置,其中用于产生直方图的装置包括:
用于产生经配置以包含特征位置在每一六角形单元中的出现的直方图映射的装置。
30.根据权利要求29所述的移动装置,进一步包括:
用于产生经配置以描述特征位置在每一六角形单元中的出现次数的直方图计数的装置。
31.根据权利要求27所述的移动装置,其中用于对所述直方图进行编码的装置进一步包括:
用于应用相邻六角形单元的上下文信息对所述直方图中待编码的后续六角形单元的信息进行编码的装置。
32.根据权利要求31所述的移动装置,其中所述上下文信息包括:
来自所述待编码的后续六角形单元的一级相邻单元的上下文信息。
33.根据权利要求32所述的移动装置,其中所述上下文信息进一步包括:
来自待编码的所述后续六角形单元的二级相邻单元的上下文信息。
34.一种用于对图像的特征位置信息进行译码的计算机程序产品,其包括存储有供一个或一个以上计算机系统执行的计算机程序的非暂时媒体,所述计算机程序产品包括:
用于产生六角形网格的代码,其中所述六角形网格包含多个六角形单元;
用于使用所述六角形网格对图像的特征位置进行量化的代码;
用于产生直方图以记录特征位置在每一六角形单元中的出现的代码;以及
用于根据特征位置在每一六角形单元中的所述出现对所述直方图进行编码的代码。
35.根据权利要求34所述的计算机程序产品,其中用于对特征位置进行量化的代码包括:
对于每一特征位置,用于产生所述特征位置的从二维平面到三维空间的经变换的坐标的代码;
用于将所述经变换的坐标舍入成对应最接近的整数的代码;以及
用于验证所述经变换的坐标属于所述三维空间中的六角形平面的代码。
36.根据权利要求34所述的计算机程序产品,其中用于产生直方图的代码包括:
用于产生经配置以包含特征位置在每一六角形单元中的出现的直方图映射的代码。
37.根据权利要求36所述的计算机程序产品,进一步包括:
用于产生经配置以描述特征位置在每一六角形单元中的出现次数的直方图计数的代码。
38.根据权利要求36所述的计算机程序产品,其中用于对所述直方图进行编码的代码进一步包括:
用于应用相邻六角形单元的上下文信息对所述直方图中的待编码的后续六角形单元的信息进行编码的代码。
CN201280038785.0A 2011-08-10 2012-07-31 特征位置信息的译码 Expired - Fee Related CN103843011B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161522171P 2011-08-10 2011-08-10
US61/522,171 2011-08-10
US13/229,654 2011-09-09
US13/229,654 US8571306B2 (en) 2011-08-10 2011-09-09 Coding of feature location information
PCT/US2012/049055 WO2013022656A2 (en) 2011-08-10 2012-07-31 Coding of feature location information

Publications (2)

Publication Number Publication Date
CN103843011A true CN103843011A (zh) 2014-06-04
CN103843011B CN103843011B (zh) 2017-05-31

Family

ID=46634570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280038785.0A Expired - Fee Related CN103843011B (zh) 2011-08-10 2012-07-31 特征位置信息的译码

Country Status (6)

Country Link
US (1) US8571306B2 (zh)
EP (1) EP2742486A2 (zh)
JP (1) JP5911578B2 (zh)
KR (1) KR101565265B1 (zh)
CN (1) CN103843011B (zh)
WO (1) WO2013022656A2 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396421B2 (en) 2010-08-14 2016-07-19 Rujan Entwicklung Und Forschung Gmbh Producing, capturing and using visual identification tags for moving objects
CN103858433B (zh) * 2011-08-25 2017-08-15 汤姆逊许可公司 分层熵编码及解码
US20130114900A1 (en) * 2011-11-07 2013-05-09 Stanford University Methods and apparatuses for mobile visual search
US9412020B2 (en) * 2011-11-09 2016-08-09 Board Of Regents Of The University Of Texas System Geometric coding for billion-scale partial-duplicate image search
JP6168303B2 (ja) * 2012-01-30 2017-07-26 日本電気株式会社 情報処理システム、情報処理方法、情報処理装置およびその制御方法と制御プログラム、通信端末およびその制御方法と制御プログラム
US9449249B2 (en) * 2012-01-31 2016-09-20 Nokia Corporation Method and apparatus for enhancing visual search
EP2801190B1 (en) * 2012-04-20 2018-08-15 Huawei Technologies Co., Ltd. Method for processing an image
CA2900841C (en) 2013-01-16 2018-07-17 Huawei Technologies Co., Ltd. Context based histogram map coding for visual search
KR102113813B1 (ko) * 2013-11-19 2020-05-22 한국전자통신연구원 정합 쌍을 이용한 신발 영상 검색 장치 및 방법
US10423596B2 (en) * 2014-02-11 2019-09-24 International Business Machines Corporation Efficient caching of Huffman dictionaries
WO2015164724A1 (en) * 2014-04-24 2015-10-29 Arizona Board Of Regents On Behalf Of Arizona State University System and method for quality assessment of optical colonoscopy images
ES2898868T3 (es) * 2015-06-23 2022-03-09 Torino Politecnico Método y dispositivo para la búsqueda de imágenes
US10885098B2 (en) 2015-09-15 2021-01-05 Canon Kabushiki Kaisha Method, system and apparatus for generating hash codes
US9727775B2 (en) * 2015-12-01 2017-08-08 Intel Corporation Method and system of curved object recognition using image matching for image processing
CN107341191B (zh) * 2017-06-14 2020-10-09 童晓冲 一种三维空间的多尺度整数化编码方法和装置
CN111818346B (zh) 2019-04-11 2023-04-18 富士通株式会社 图像编码方法和装置、图像解码方法和装置
CN113114272B (zh) * 2021-04-12 2023-02-17 中国人民解放军战略支援部队信息工程大学 全球瓦片一致的六边形格网数据结构编码方法与装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101069401A (zh) * 2004-11-15 2007-11-07 艾利森电话股份有限公司 利用取决于媒体特性的上下文信息的传输的标题压缩的方法和设备
US20080101464A1 (en) * 2006-10-27 2008-05-01 Shawmin Lei Methods and Systems for Low-Complexity Data Compression
US20100303354A1 (en) * 2009-06-01 2010-12-02 Qualcomm Incorporated Efficient coding of probability distributions for image feature descriptors
CN102138160A (zh) * 2008-07-15 2011-07-27 韩国巴斯德研究所 用于成像基底上的特征的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5658368A (en) * 1979-10-17 1981-05-21 Matsushita Electric Ind Co Ltd Band compressing method
JPH03110691A (ja) * 1989-09-25 1991-05-10 Meidensha Corp 辞書作成方法
JPH0746599A (ja) * 1993-07-15 1995-02-14 Kyocera Corp 動画像の動き補償回路
JPH08149016A (ja) * 1994-11-17 1996-06-07 N T T Ido Tsushinmo Kk 文字列の符号化方法
DE60117930T2 (de) 2000-06-06 2006-10-05 Agilent Technologies Inc., A Delaware Corp., Palo Alto Verfahren und System zur automatischen Extraktion von Daten aus einem Molekülarray
JP2006121302A (ja) * 2004-10-20 2006-05-11 Canon Inc 符号化装置および符号化方法
JPWO2007088926A1 (ja) * 2006-02-01 2009-06-25 日本電気株式会社 画像処理、画像特徴抽出、および画像照合の装置、方法、およびプログラム並びに画像照合システム
US7876959B2 (en) 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
US7894668B1 (en) 2006-09-28 2011-02-22 Fonar Corporation System and method for digital image intensity correction
US8712109B2 (en) 2009-05-08 2014-04-29 Microsoft Corporation Pose-variant face recognition using multiscale local descriptors
US9449249B2 (en) * 2012-01-31 2016-09-20 Nokia Corporation Method and apparatus for enhancing visual search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101069401A (zh) * 2004-11-15 2007-11-07 艾利森电话股份有限公司 利用取决于媒体特性的上下文信息的传输的标题压缩的方法和设备
US20080101464A1 (en) * 2006-10-27 2008-05-01 Shawmin Lei Methods and Systems for Low-Complexity Data Compression
CN102138160A (zh) * 2008-07-15 2011-07-27 韩国巴斯德研究所 用于成像基底上的特征的方法和装置
US20100303354A1 (en) * 2009-06-01 2010-12-02 Qualcomm Incorporated Efficient coding of probability distributions for image feature descriptors

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALJOSCHA SMOLIC等: "Interactive 3-D Video Representation and Coding Technologies", 《PROCEEDINGS OF THE IEEE (VOLUME:93,ISSUE: 1 )》 *
ANTHONY VETRO等: "Overview of the Stereo and Multiview Video Coding Extensions of theH.264/MPEG-4 AVC Standard", 《PROCEEDINGS OF THE IEEE (VOLUME:99,ISSUE: 4 )》 *
杨海涛: "三维视频编码技术研究", 《中国博士学位论文全文数据库信息科技辑》 *
陈林杰等: "基于直方图变换的多光谱图像3D SPIHT压缩编码算法", 《光学技术》 *

Also Published As

Publication number Publication date
EP2742486A2 (en) 2014-06-18
JP5911578B2 (ja) 2016-04-27
US20130039566A1 (en) 2013-02-14
KR101565265B1 (ko) 2015-11-02
WO2013022656A2 (en) 2013-02-14
CN103843011B (zh) 2017-05-31
JP2014524693A (ja) 2014-09-22
US8571306B2 (en) 2013-10-29
KR20140045585A (ko) 2014-04-16
WO2013022656A3 (en) 2014-03-13

Similar Documents

Publication Publication Date Title
CN103843011A (zh) 特征位置信息的译码
Girod et al. Mobile visual search
Tsai et al. Location coding for mobile image retrieval
He et al. Mobile product search with bag of hash bits and boundary reranking
US9131163B2 (en) Efficient compact descriptors in visual search systems
Fan et al. Unsupervised feature learning for land-use scene recognition
US8891878B2 (en) Method for representing images using quantized embeddings of scale-invariant image features
CN102147815B (zh) 图片搜索方法和图片搜索系统
US9420299B2 (en) Method for processing an image
US20200104721A1 (en) Neural network image search
Lin et al. Rate-adaptive compact fisher codes for mobile visual search
Uricchio et al. Fisher encoded convolutional bag-of-windows for efficient image retrieval and social image tagging
CN104160409A (zh) 用于图像分析的方法和系统
CN102521618A (zh) 局部描述子的提取方法、图片检索方法及图像匹配方法
Chandrasekhar et al. Low latency image retrieval with progressive transmission of chog descriptors
CN106503112B (zh) 视频检索方法和装置
Kumar et al. Near lossless image compression using parallel fractal texture identification
Chen et al. A hybrid mobile visual search system with compact global signatures
Vimina et al. Feature fusion method using BoVW framework for enhancing image retrieval
JP6042778B2 (ja) 画像に基づくバイナリ局所特徴ベクトルを用いた検索装置、システム、プログラム及び方法
Chen et al. Efficient video hashing based on low‐rank frames
Qi et al. A low transmission overhead framework of mobile visual search based on vocabulary decomposition
CN105205487B (zh) 一种图片处理方法及装置
CN113727050B (zh) 面向移动设备的视频超分辨率处理方法、装置、存储介质
Zhang et al. Blind image quality assessment based on local quantized pattern

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170531

Termination date: 20190731