CN104303207B

CN104303207B - 广义鲁棒多通道特征检测器

Info

Publication number: CN104303207B
Application number: CN201180076135.0A
Authority: CN
Inventors: P·S·斯米尔诺夫; P·K·谢苗诺夫; A·N·列德金; D·A·古谢夫
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2018-02-16
Anticipated expiration: 2031-12-29
Also published as: KR101435730B1; KR20130086275A; US20140219556A1; CN104303207A; RU2563152C2; JP2014507722A; AU2011383562A1; RU2012118502A; JP5710787B2; WO2013100779A1

Abstract

一种方法可以包括：执行局部搜索以得到多通道图像的局部邻域内的局部最优色彩；将所述多通道图像的所述局部邻域投影到单通道基上；以及将单通道检测器应用于投影后的局部邻域。

Description

广义鲁棒多通道特征检测器

技术领域

所公开的技术总体上涉及电路和系统，并且更具体地，涉及用于计算机视觉、图像特征检测以及图像识别应用和技术的设备和系统。

背景技术

移动增强现实(MAR)是当今电脑、智能手机、游戏机以及家庭娱乐系统的一项重要技术。依赖于MAR的应用的一些例子包括注释场景(例如虚拟旅游)、识别物体(例如购物)以及识别用于控制视频游戏或电视机的手势。图像识别过程通常涉及：(1)图像特征或兴趣点的识别，和(2)来自查询或目标图像的这些图像特征与来自图像数据库的那些图像特征的比较。成功的MAR实现通常需要在包括图像缩放、旋转、移动以及亮度和图像噪声变化的一系列条件下可靠地检测到关键的图像特征。

兴趣点和图像特征的示例包括以下：边缘、斑点(例如，没有内部结构的图像区域)、脊部(例如，线性连续斑点)、尺度空间斑点、角、交叉以及区域、边缘结和脊部的接合点。基于对人类视觉或者某种色彩模型(例如Gaussian或Kubelka-Munk)或者其它光测量方法的模仿，目前的特征检测器使用灰度值不变量或某些光测量不变量。存在这样的情况：其中“图像”是一组不能直接表示为人类的“色彩”的通道。例如，图1示出了灰度图像、彩色图像和光谱带(spectrozonal)(具有条件性的通道到色彩的映射)图像。

图2是来自Jet Propulsion实验室的先进星载热发射与反射辐射仪(ASTER)图库的Arizona森林火灾的示例性光谱带图像。在本例中，左边的图像用RGB显示波段3、2和1，将植被显示为红色。大的暗区代表烧毁的森林，并且在边缘可以看到小烟羽，在那里烈火正在燃烧。右边的图像用短波红外(SWIR)波段8替代波段3。明亮的红点代表烈火，其是可见的，这是因为SWIR波长区域具有穿透烟雾的能力。

此外，在当前的系统中，通道不仅能够被映射到微波强度通道，还能够被映射到雷达/激光雷达通道(例如，多普勒频移)或者超声波测距仪通道或不同的Z传感器类型。例如，图3示出了Microsoft Kinect Z-传感器的深度图的示例。但是，光测量方法并不适合于上面所讨论的通道类型，这是因为距离和速度值分布显著不同于可见光谱域电磁场功率的分布。

诸如SURF和SIFT之类的当前技术例如使用多通道(例如，着色的)输入图像到单通道(例如，灰度的)输入图像的转换作为必要的预备步骤，从而失去了重要的图像信息。虽然一些当前的技术尝试使用图像的彩色图，但是这些技术无法使用完整的图像光谱数据，其要么通过在某个中间步骤将所述图像转换为“特殊”的单通道表示，要么试图通过显著性的某种全局标量测量来局部化图像特征。

附图说明

在附图中通过例子的方式而不是限制的方式示出了所公开技术的实施例，并且在附图中类似的附图标记表示类似的元件。

图1示出了灰度图像、彩色图像和光谱带(具有条件性的通道到色彩映射)图像。

图2是来自Jet Propulsion实验室的先进星载热发射与反射辐射仪(ASTER)图库的Arizona森林火灾的示例性光谱带图像。

图3示出了Microsoft Kinect Z-传感器的深度图的示例。

图4示出了单通道图像的不同表示，其中给灰度图像着色并没有产生额外的信息。

图5示出了等效色彩空间转换，其中色彩围绕RGB向量{5，-7，3}旋转了

图6是灰度化破坏图像特征的欧拉测试的例子。

图7示出了色盲测试的例子。

图8示出了对图7所示色盲测试的基于Hessian的检测器的响应的行列式。

图9示出了某个通道中的弱密集斑点(weak-intensive blob)，其位于其它通道中的强密集鞍点。

图10示出了当前的(即现有的)多通道检测器对不同等级的响应，其中不存在对斑点的响应。

图11示出了单通道检测器对不同等级的响应，其中经典检测器在大等级下检测到斑点。

图12示出了的例子展示了多通道检测器如何优于单通道检测器。

图13示出了多通道检测器的对鞍场景处的不同尺度的斑点的响应，其中，识别出了鞍上的斑点。

图14示出了多通道检测器对不同尺度的色盲测试的着色响应。

图15示出了测试图像的ColorSIFT输出的示例，其中并没有识别出所有斑点，并且没有通过色盲测试。

图16示出了测试图像的色彩Harris检测器输出的示例，其中没有通过欧拉测试。

图17示出了测试图像的增强的色彩Harris检测器输出的示例，其中仍然没有通过欧拉测试。

图18示出了可以实现所公开技术的实施例的系统的示例。

具体实施方式

许多知名的用于图像特征检测的计算机视觉算法仅使用亮度或某种特定的色彩模型。虽然这些方法在许多情况下可能是有效的，但是可以表明的是，由于方法所引入的限制，对完整图像信息进行的这样的变换降低了检测性能。

所公开技术的实施例包括实现一种正式的方法来为任意数量的通道构造多通道兴趣点检测器，而不管数据的本质，这使得通过使用来自这些额外通道的信息可以实现的益处最大化。某些实现在本文中可以被称为广义鲁棒多通道(GRoM)特征检测器(其基于本文描述的技术)，并且包括一组说明性例子以突出其与现存方法的区别。

通过将多通道图像缩减为单通道图像，人们可以获得自然图像的良好结果。然而，可能存在对这样的检测器是隐藏的兴趣点，这是由于其固有的色盲。例如，组合色彩分量的当前方法在图像中的通道的不同等级化(scale)和偏移之后易于显著地丢失来自源的信息。所公开技术的实现通过利用来自所有色彩分量的信息来在空间位置和光谱位置中识别兴趣点，来避免这些缺点。这产生了明显更好的性能，尤其是在协同试验中。例如，图6(下面讨论)示出了Euler-Venn图，其是用于斑点交叉检测的测试。这样的方法不仅可以用在三通道可视图像中，而且可以用在更大的维度以及来自任意的自然源的图像中，例如，深度图、多普勒频移和人口密度。

除了斑点兴趣点的位置之外，这里描述的技术可以被扩展用于任意数量的类型，例如诸如边缘和脊。在这些情况下，可以应用对色彩子空间条件的相应修改。

多通道兴趣点检测器特征

A.一般要求

本节将为理想的广义兴趣点检测器以及为多通道检测器定义一般要求，特别是为了扩展众所周知的单通道检测器算法的目的。

1)平凡图像(Trivial image)

对于平凡图像(例如，恒定图像)而言，其中图像的值不依赖于空间坐标，检测器φ检测到的组兴趣点集合应当是空的：

在多通道图像中能够容易地移除平凡通道，正如在αRGB图像中移除未使用的(例如，恒定的)α通道的情况。

2)对比度不变性(contrast invariance)

令非平凡图像J作为非平凡图像I的值的均匀缩放(scaling)和偏移转换的结果：

如果检测器φ在图像I中检测到P个兴趣点，则应当在J中检测到相同的集合：

3)单通道图像的表示的兼容性

令多通道图像J＝{J₁，J₂，……，J_N}是非平凡单通道图像从1到N通道的的映射，其自己的均匀缩放和偏移变换用于对每个通道，其中存在至少一个非平凡通道。例如，图4示出了单通道图像的不同表示，其中对灰度图像的着色不产生任何额外信息。

通道检测器φ₁在图像I中找到的兴趣点集合与多通道检测器φ_N在多通道图像J(即图像I的复制)中找到的兴趣点集合应当是等价的：

对于给定的图像表示，类似的检测器应当产生相同的结果，而在等价的多通道图像中不存在“鬼影”检测。白盒检测器测试可以允许人们检查这种类型的弱点。单通道图像和多通道图像在特征检测器角度方面的等价性允许人们减少线性相关通道的数量。

4)非奇异通道转换不变性

令M-通道图像J＝{J₁，J₂，……，J_M}是N-通道图像I＝{I₁，I₂，……，I_N}到新通道(例如，“色彩”)基的转换，所述转换使用了通道变换矩阵K_M,N＝(k_i,j)和通道偏移向量c_M＝(c_i)：

例如，图5示出了等效色彩空间转换，其中色彩围绕RGB向量{5，-7，3}旋转了

如果秩(K_M,N)＝N并且因此转换是可逆的，那么在图像I和J中检测到的兴趣点集合应当是等价的：

如果M>N，则图像J具有线性相关的通道。对于每个具有线性相关通道的图像而言，存在产生具有线性无关通道的图像的转换(例如，缩减到线性无关的通道基)。关于单通道检测器在所有通道中检测到的兴趣点集合的并集是超集合或等价于多通道检测器检测到的点集合的假设并不是真的，如下面的例子所描述的。

图6是灰度化破坏图像特征的Euler-Venn图的例子。边缘检测器可以检测给定图像中的所有边缘。所有的针对每个通道的边缘集合的并集等价于全彩检测器的边缘集合。但针对每个通道的斑点检测器只能在它“自己的”通道集合中找到这些兴趣点，并不能在所有微分的交集和并集中找到斑点。只有使用来自不同通道的信息的“协同”检测器才能够检测到所有的这些兴趣点。

虽然某种色彩基转换可以将这种图的所有子集(例如，基集合、交集和并集)映射到新的色彩基上(其中每个子集“色彩”被映射到它自己的通道)，但是单通道检测器在每一个新通道中单独检测到的兴趣点集合的并集在这个简单情况中等价于整个的多通道兴趣点集合。

5)到缩减基的转换

从检测器的角度看，秩(K_M,N)<N的通道的转换并不等价于初始图像。初始图像可以具有能够在与新基正交的通道中找到的兴趣点。这可以被称为“色盲”效应。图7示出了色盲测试的示例，并且图8示出了基于Hessian的检测器对图7所示的色盲测试的响应的行列式(determinant)。图8示出了用灰度识别不到的彩色图案。

6)分段标准

如果一个图像被分割成空间域的片段，则片段的检测到的兴趣点集合的并集应当是整个图像的检测到的兴趣点集合的子集。

与整个图像相比，图像片段可以使用强调兴趣点检测的独特通道转换。如果兴趣额点是在这样增强的片段中找到的，那么这个点也应当在整个图像中被找到。兴趣点检测估计(例如，检测增强)在空间中应当是局部的。例如，如果相机闪光灯被用于某个图像，那么对比度、亮度和光谱对短距离和远距离的物体应当是不同的。因此，在这种情况下，全局通道统计一般将是没有用的。

B.目前的图像特征检测器

用于兴趣点检测的算法通常应用与空间域滤波核的卷积，并且然后通过计算梯度、拉普拉斯算子或找到局部极值来分析作为标量值的所产生的响应。

在检测器中对于色彩图像而言，色彩响应到标量值的映射可能具有各种缺点，如下面所解释的。对于色盲测试(例如参见上面的图7和图8)，SIFT检测器(例如，使用高斯或LoG逼近的差、高斯拉普拉斯算子)和SURF检测器(例如，使用Hessian行列式)仅使用标量值。彩色图像在SIFT或SURF图像处理前被转换为灰度。这些算法不能在色盲测试图像(例如图7和图8中所示的那些图像)中检测到兴趣点。

基于Hessian行列式值的阳性规则(positivity rule)的多通道检测器用通道中的值向量的内积来改变标量的积。由于微分算子的使用，这种方法对来自不同通道的信号中的恒定分量是不变的。但是它对通道中的值的范围来说不是不变的。

为了演示这一原则的失败，人们可以采用特殊的彩色图像，例如某个通道中的弱密集斑点，其位于另一通道中的强密集鞍点处，如图9所示的示例中示出的。图9示出了弱的绿色斑点和强的不对称红色鞍：两个相关的图像特征。当前的多通道检测器无法识别这个特征(例如，弱的斑点)，但它的单通道模拟可以。对于RGB示例，当前的检测器导致以下：

这个表达式具有对应于鞍点的强L_x,y分量。它们抑制了对应于斑点的弱的正值，并且结果为负值。但是基于Hessian行列式的检测器仅搜索正值。经典的基于强度的单通道检测器可以识别这些特征。例如，图10示出了当前的多通道检测器对不同等级的响应，其中不具有对斑点的响应。图11示出了单通道检测器对不同等级的响应，其中经典的检测器在大等级上检测到斑点。因此，这种多通道检测器是不可靠的。

其它当前的检测器独立地为每个通道计算多通道Hessians分量。在这种方法中，对图像应用卷积运算，之后是高斯核微分。由于这种运算的线性，其等价于图像通道的线性组合。因此，该方法可能是色盲的。换句话说，存在这样的图像，所述图像在恒定区域中可能被这种线性组合退化了。另外，对于这些类型的图像，应当存在允许人们识别丢失的特征的线性组合。

广义鲁棒多通道(GRoM)图像特征检测器

可能的信号移位需要使用差分检测器方法。可能具有倒转的信号缩放限制了绝对阈值的使用。局部极值搜索的使用是更可取的。位于强鞍处的弱斑点的测试(例如参见以上图9及相关描述)表明：并不存在使得人们能够区分这种兴趣点的通用色彩模型。因此，对于每一个兴趣点，还应当在通道分量中执行局部搜索(例如，根据上面的要求6))以便为兴趣点找到最佳的“色彩”。多通道检测任务可以被缩简成以下任务：“局部最优色彩”的搜索(例如，最大化问题的精确解)，局部邻域从多通道图像到单通道基的转换，以及单通道检测器在局部邻域中的应用。

“色彩”是指一个向量，其定义了各个通道值到单通道的投影(例如，到灰度的转换)。单通道检测器响应函数定义了“色彩”的最佳(或搜索的近似(次优)解的“差分”)选择的方法。计算与被转换为某种“最佳斑点色彩”的高斯核进行卷积的通道值的Hessian矩阵，斑点的这种Hessian矩阵H的本征值λ₁和λ₂两者应当都是正的(或者两者都是负的，这是因为方向标志并不是有意义的)，并且本征值的差与本征值的和的比(Tr(H))应当尽可能最小(例如，最对称的斑点)。这个比可以是圆锥曲线偏心率∈的等价(例如，与“斑点圆度”相比)。

偏心率值∈能够有助于对当前点进行分类：斑点(∈<1)，脊部(∈＝1)或鞍点(∈>1)。在这个点上斑点检测的标准是多通道“色彩到所选择的“最佳色彩”向量的投影的拉普拉斯算子(Tr(H))的局部最大值。在某些实施例中，基于GRoM的斑点检测器算法被示为以下算法1，其中，“最佳斑点色彩”u是非斑点分量被离心率因子抑制的拉普拉斯算子：

算法1-GRoM算法

1.计算“局部”差分色彩

1.1.计算点(x₀，y₀)处的Hessian张量：

1.2.计算“最佳的斑点色彩”：

其中H_i和L_i相应地表示某个点(x，y)处的仅在第i个通道中计算的Hessian算子和拉普拉斯算子。

2.(x₀，y₀)处测试极值点(作为到u的最大投影)：

可以在协同测试中说明基于拉普拉斯算子的多通道检测器的能力。多通道图像在不同通道中具有交叉的斑点。这种交叉已经在图像中创建了新的特征。例如，人们可以将图像从RGB转换到灰度：红色30％，绿色59％，蓝色11％。然而，从图6的Euler-Venn图中明显看出，这样的变换失去了很多信息，并且黑色色彩编码起始强度的11％。例如，在图12中可以看到的，多通道检测器能够比单通道竞争者识别更多的图像特征。这个测试表明：如果使用从初始色彩空间到灰度空间的退化的对应矩阵，那么单通道检测器特征在变换后的图像中将是不能识别的。

与此相反，所公开技术的实施例可以包括例如检测到图6的图像中的所有兴趣点以及图9的弱斑点(例如参见图13)的检测器。这种检测器也成功地通过了色盲测试(例如，参见图14所示的检测器响应)。本文所描述的GRoM图像特征检测不是“另一种色彩斑点检测器”，而是一种用于多通道检测器开发的方法。例如，在某些实施例中，GRoM图像特征检测器可以使用另一种“最佳色彩”搜索算法来得到Harris-Stephens检测器响应R＝Det(H)-kTR(H)的最大化。

某些经典的图像特征检测器方法包括将图像特征定义为三元组(x，y，σ)，其中x和y是空间坐标，并且σ是尺度。对于这种三元组，位于(x，y)处的特征具有其邻域S_σ(x,y)的所有点中的显著性测量的最大值。所述显著性测量将关于色彩的向量信息“卷积”为标量。此外，由于这种测量是全局性的，所以它并不依赖于点(x，y)。所公开的技术的某些实施例可以包括将图像特征定义为四元组(x，y，σ，v)，其中v是位于点(x，y)处的特征的“局部”色彩，v可以被选择以获得一测量，所述测量在集合S_σ,v(x,y)中在(x，y)处具有最大值，并且当将来自S_σ(x,y)的点的色彩投影到v上时可以给出灰度邻域S_σ,v(x,y)。

解决该问题的经典无色(color-less)方法是将图像特征定义为通过某种标量测量而在其灰度邻域中占主导地位的点。然而最近可能尝试将图像特征定义为通过相同标量测量而在其着色邻域中占主导地位的点，公开技术的实施例可以包括：将图像特征定义为一点，所述点通过标量测量而在其着色邻域中占主导地位，所述着色邻域在色彩空间中被投影到其“局部”灰度平面。通过以这种方式定义图像特征，其变为“原生的”多通道(例如，着色的)，以及相应的特征检测器能够使用完整的图像信息，并且比当前检测器定位更多的图像特征。

所公开的技术所解决的当前图像特征检测器的缺点

与诸如ColorSIFT和色彩Harris检测器之类的当前色彩检测器不同，根据公开技术的GRoM图像特征检测器能够很好地处理诸如强密集鞍处的弱密集斑点(例如参见图9)、Euler-Venn图(例如参见图6)和色盲测试(例如参见图7)之类的测试图像，如上面所讨论的。

ColorSIFT检测器是一种斑点检测器。图15将ColorSIFT可视化注释用于兴趣点，图15示出了测试图像的ColorSIFT输出的例子，其中，并没有识别出所有的斑点，并且没有通过色盲测试。因此，ColorSIFT检测器并不满足测试案例中的任何一个。

色彩Harris检测器是一种角检测器。存在两个版本的色彩Harris检测器：经典的色彩Harris检测器和增强的色彩Harris检测器。图16示出了测试图像的色彩Harris检测器输出的例子，其中，没有通过Euler测试。从图16可以看出，尽管由于斑点角检测该检测器可以很好地处理鞍和色盲测试，但是它不能很好地处理Euler-Venn图。如在图17中可以看到的，增强的色彩Harris检测器具有相同的行为/缺点。

图18示出了可以实现所公开技术的实施例的系统1800的示例。系统1800可以包括但不限于：诸如膝上型计算机之类的计算设备、诸如手持式或平板电脑之类的移动设备、或者诸如智能手机之类的通信设备。系统1800包括外壳1802、与外壳1802相关联的显示器1804、与外壳1802相关联的相机1806、外壳1802内的处理器1808以及外壳1802内的存储器1810。处理器1808可以包括视频处理器或其它类型的处理器。相机1806可以提供要发送到处理器1808的输入图像。存储器1810可以存储处理器1808对输入图像所执行的处理所得到的输出图像。处理器1808实质上可以执行上述各种图像处理操作的任何组合。

本文描述的技术可以包含在各种硬件架构中。例如，公开技术的实施例可以被实现为下面的任何一个或组合：使用母板互连的一个或多个微芯片或集成电路、图形和/或视频处理器、多核处理器、硬连线逻辑、由存储装置存储的并由微处理器执行的软件、固件、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)。举例来说，本文所用的术语“逻辑”可以包括软件、硬件或它们的任意组合。

尽管本文已经示出并描述了具体的实施例，但是本领域普通技术人员将理解的是，各种各样的替代和/或等效实现可以取代所示出和描述的具体实施例，而不偏离公开技术的实施例的范围。本申请意在涵盖本文所示出和描述的实施例的任何调整或变化。因此，其目的显然在于公开技术的实施例仅由以下权利要求及其等同形式限定。

Claims

1.一种方法，包括：

执行局部搜索以得到多通道图像的局部邻域内的局部最优色彩；

将所述多通道图像的所述局部邻域投影到单通道上；以及

将单通道检测器应用于投影后的局部邻域，

其中，所述多通道图像内的图像特征被定义为四元组(x,y,σ,v)，其中，x和y是空间坐标，σ是尺度，v是位于点(x,y)处的图像特征的局部色彩，所述点(x,y)在其邻域S_σ,v(x,y)的每一个点当中具有最大的显著性测量，并且所述邻域S_σ,v(x,y)表示来自S_σ(x,y)的点的色彩被投影到v上。

2.根据权利要求1所述的方法，其中，所述局部最优色彩包括：一个定义了各个通道值到单通道的投影的向量。

3.根据权利要求1所述的方法，其中，所述执行包括：执行所述局部搜索以得到所述多通道图像中的多个兴趣点中的每一个兴趣点。

4.根据权利要求1所述的方法，其中，执行所述局部搜索包括：计算局部差分色彩。

5.根据权利要求4所述的方法，其中，计算所述局部差分色彩包括：使用下式来计算点(x₀，y₀)处的Hessian矩阵H：

6.根据权利要求5所述的方法，其中，所述Hessian矩阵H的本征值λ₁和λ₂都是正的。

7.根据权利要求5所述的方法，其中，所述Hessian矩阵H的本征值λ₁和λ₂都是负的。

8.一种装置，包括：

用于执行局部搜索以得到多通道图像的局部邻域内的局部最优色彩的模块；

用于将所述多通道图像的所述局部邻域投影到单通道上的模块；以及

用于将单通道检测器应用于投影后的局部邻域的模块，

9.根据权利要求8所述的装置，其中，所述局部最优色彩包括：一个定义了各个通道值到单通道的投影的向量。

10.根据权利要求8所述的装置，其中，所述执行包括：执行所述局部搜索以得到所述多通道图像中的多个兴趣点中的每一个兴趣点。

11.根据权利要求8所述的装置，其中，执行所述局部搜索包括：计算局部差分色彩。

12.根据权利要求11所述的装置，其中，计算所述局部差分色彩包括：使用下式来计算点(x₀，y₀)处的Hessian矩阵H：

13.根据权利要求12所述的装置，其中，所述Hessian矩阵H的本征值λ₁和λ₂都是正的。

14.根据权利要求12所述的装置，其中，所述Hessian矩阵H的本征值λ₁和λ₂都是负的。

15.一种装置，包括：

输入端口，被配置为接收多通道图像；以及

视频处理器，被配置为：

执行局部搜索以得到所述多通道图像的局部邻域内的局部最优色彩；

将所述多通道图像的所述局部邻域投影到单通道上；以及

将单通道检测器应用于投影后的局部邻域，

16.根据权利要求15所述的装置，其中，所述局部最优色彩包括：一个定义了各个通道值到单通道的投影的向量。

17.根据权利要求15所述的装置，其中，所述执行包括：执行所述局部搜索以得到所述多通道图像中的多个兴趣点中的每一个兴趣点。

18.根据权利要求15所述的装置，其中，执行所述局部搜索包括：计算局部差分色彩。

19.一种非暂时性计算机可读介质，其存储有指令，所述指令在被处理器执行时使所述处理器执行根据权利要求1-7中的任意一项所述的方法。