CN104508706B

CN104508706B - 特征提取方法、程序和系统

Info

Publication number: CN104508706B
Application number: CN201380040301.0A
Authority: CN
Inventors: 高桥俊博
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-08-15
Filing date: 2013-06-13
Publication date: 2017-03-22
Anticipated expiration: 2033-06-13
Also published as: US20140050353A1; CN104508706A; GB2519266A; GB2519266B; JP5878634B2; DE112013003541B4; GB201502309D0; US20140050359A1; US9020196B2; DE112013003541T5; WO2014027500A1; JPWO2014027500A1; US9087268B2

Abstract

本发明的目的在于提供快速且鲁棒地获得SfM的技术。作为服务器的计算机系统从智能电话接收图像以及加速度传感器的测量结果。计算机系统首先仅仅从图像提取竖直边缘。为了该目的，所述系统使用加速度传感器获得重力向量。所述系统然后使用所述重力向量来获得在屏幕坐标系的竖直方向上的消失点(u′，v′)。然后该计算机系统计算每个像素(u，v)的色饱和度在屏幕坐标系的u和v方向上的微分向量。所述计算机系统然后获得一组沿着所述竖直方向的边缘的边缘强度的和，从而提取竖直方向上的线条。所述计算机系统使用所提取线条的周缘计算特征向量。

Description

特征提取方法、程序和系统

技术领域

本发明涉及从图像中提取特征量来进行位置估计的技术。

背景技术

近年来，为了分析诸如购物中心和公共设施处的顾客流动路线，以及为了进行在库控制，对于室内位置估计技术的要求越来越大。

对于室内位置进行精确估计是比较困难的，因为诸如WiFi或RFID设备的无线设备在室内使用时会产生许多噪声。GPS提供相对精确的位置估计，但是不能在室内使用。因此，技术上已经注意到，在移动对象上附加摄像头来拍摄图像，并且所拍摄的图像被分析以用来预测位置。

与此有关的现有技术包括在WO2008/087974中所披露的技术。WO2008/087974涉及用于计算多个摄像头之间的位置关系的技术，以及用于基于所计算出的位置关系生成用户界面的技术，其披露了基于所拍摄的图像在不使用GPS的情况下计算多个摄像头的位置。

在″Gradient-Based Feature Extraction：SIFT and HOG″，InformationProcessing Society of Japan Technical Report，CVIM[Computer Vision and ImageMedia]，2007，(87)，211-224，2007-09-03这篇文章中，藤吉弘亘(Hironobu Fujiyoshi)提供了关于SIFT算法的概述，并且描述了在DoG图像的极值检测以及HOG。

JP2011-53181A披露了使用SIFT(Scale-Invariant Feature Transform)特征值进行朝向估计，从而提供了一种可靠的信息终端设备，该设备能够在不需要引入地磁传感器的情况下估计用户的朝向，并且基于所述估计的结果在显示器上控制显示信息。

SIFT是图像特征提取技术的一种，其涉及特征点的检测和围绕特征点计算特征向量的方法。除此以外，已经知道运动结构(SfM，Structure from Motion)，这是一种从图像来重构奇点间和摄像头位置之间的的三维位置关系的技术。在诸如JP10-40385A，JP2009-237845A和JP2009-237847A中描述了 SfM。

SfM是这样一种技术，诸如角落的特征点从图像中被抽取，然后，特征点周围的8×8像素的色饱和度被布置为简单地生成64比特的特征向量，或者以其他的方式从特征点周围的像素计算出特征向量，然后在多个像素之间进行匹配。这样，特征点的三维位置和摄像头的位置就可以同时被重构。

为了稳定地获得SfM，需要一种特征量计算方法，这种方法要对噪声鲁棒，即对于图像中的起伏鲁棒，并且对图像的旋转和缩放鲁棒。然而，传统的方法具有高计算开销的问题。为了获得SfM，通常需要与像素数目成比例的计算量，因此对于计算开销的考虑是关键的。

引证清单

专利文献

[专利文献1]WO2008/087974

[专利文献2]JP2011-53181A

[专利文献3]JP10-40385A

[专利文献4]JP2009-237845A

[专利文献5]JP2009-237847A

非专利文献

[非专利文件1]藤吉弘亘，″Gradient-Based Feature Extraction：SIFT andHOG″，Information Processing Society of Japan Technical Report，CVIM[ComputerVision and Image Media]，2007，(87)，211-224，2007-09-03

发明内容

技术问题

因此，本发明的一个目标是提供快速而鲁棒地获得SfM的技术。

对该问题的解决方案

本发明通过利用以下事实解决了上述问题：SfM中使用的许多特征是与重力方向平行的线条，并且诸如智能电话的移动设备包括加速度传感器或陀螺仪。

根据本发明，作为服务器的计算机系统通过通信功能从智能电话接收图像和加速度传感器的测量结果。

该计算机系统首先从图像中仅仅提取竖直边缘。为此，计算机系统使用加速度传感器来获得摄像头坐标系中的重力向量。该系统然后在屏幕坐标系中，使用该重力向量来获得竖直方向上的消失点(u′，v′)。

该计算机系统然后在屏幕坐标系中计算每个像素(u，v)的色饱和度在u方向和v方向上的微分向量。该计算机系统获得由每个微分向量和(u′-u，v′-v)所形成的余弦分量，归一化这两个向量到长度为1，然后计算这两个向量的内积。如果余弦的绝对值大于或者等于某个阈值，该计算机系统确定该像素具有竖直边缘。

该计算机系统然后针对沿着竖直方向分布的一组边缘获得竖直方向上的边缘强度和。具体而言，计算机系统将屏幕坐标(u，v)转换为摄像头坐标，将屏幕坐标(u，v)的两个轴投影为一个轴。计算机系统计算(u，v)处的差分向量的绝对值，然后将该绝对值写到表sum[q]中。

一旦提供了sum[q]，计算机系统将sum[q]假设为w×1的长度沿水平方向的图像，并且使用高斯差分(DoG，Difference of Gaussian)函数来计算极值。计算机系统使用该极值来计算特征量。

发明的有益效果

根据本发明，从移动设备接收图像和加速度传感器的测量结果，依此检测沿竖直方向的边缘，并且使用这些边缘来提取特征，因此可以用较少量的计算来进行快速的位置估计。

附图说明

图1是示意图，示出使用智能电话获取加速度数据和图像数据，并且将这些数据传送给计算机以便进行室内处理；

图2是方框图，示出用于本发明的计算机的硬件的示例；

图3是根据本发明的过程的功能性方框图；

图4是用于计算sum的过程的流程图；

图5是用于计算DoG和检测极值的过程的流程图；

图6是特征量计算过程的流程图；

图7是示意图，示出摄像头坐标系、屏幕和重力方向之间的关系；

图8是示意图，示出将像素的两个轴的坐标投影到与重力方向正交的一个轴上的方法；

图9是示意图，示出将连接像素与消失点并且与地平面垂直的线条投影到屏幕；

图10是示意图，示出提取图像中的关键点。

具体实施方式

下面参照附图描述本发明的示例性实施例。在附图中，除非特殊说明，同样的附图标记表示同样的项目。应该理解以下是对本发明的一个实施例的描述，而不意图将本发明限制为所描述的示例性实施例。

图1是示意图，概要性地示出用于执行本发明的示例的一般配置。在图1中，诸如柜子104的位置特征对象被放置在房间102中。

操作员106用智能电话108对房间102的内景进行拍照，智能电话108包括加速度传感器和摄像头功能，然后将所拍摄图像数据和加速度传感器的测量数据通过无线通信发送到屋内放置的计算机。

计算机110接收所传送的图像数据和加速度传感器测量数据，通过使用这些数据来提取特征，然后进行估计位置的过程。计算机110可以被放置在远程站点，只要计算机110具有能够从智能电话108接收加速度传感器测量数据和图像数据的配置。在这种情况下，通过诸如WiFi站点的接收站点将信息转送给布置在远程站点中的计算机110。作为替换地，将要在后面描述的用于提取特征的过程可以在智能电话108中执行，因为当前的智能电话很强大。为了解释方便，在以下对示例性实施例的描述中假设在与智能电话108分离的计算机110中执行特征提取和位置估计过程。

图2是方框图，示出计算机110的硬件配置。在图2中，CPU204，主存储器(RAM)206，硬盘驱动器(HDD)208，键盘210，鼠标212，以及显示器214被连接到系统总线202。优选地，CPU204是基于32位或64位架构的，并且可以例如是Intel公司的Core(商标)i7或者Core(商标)i5，或者AMD Athlon(商标)II。主存储器206优选地具有4GB或者更多的容量。

通信接口216也连接到系统总线202。通信接口216能够通过符合标准，例如IEEE802.11a/b/g，的天线218与智能电话108通信。注意计算机110从智能电话108接收数据的方法不限于IEEE 802.11a/b/g；任何方法可以被使用，例如报文通信。

在硬盘驱动器208中存储有操作系统。操作系统可以是任何与CPU 204 兼容的操作系统，例如Linux(商标)，来自微软公司的Windows 7(商标)或者Window XP(商标)，或者来自苹果计算机公司的Mac OSC(商标)。

硬盘驱动器208中还存储有主程序302，sum计算例程306，DoG计算和极值检测例程308，这些将在下面结合图3进行描述。它们可以用任何现有编程语言来编写，例如C，C++和Java(R)。

图3是计算机110的一部分的软件配置的框图，其用于执行与本发明有关的功能。

在图3中，主程序302响应于键盘210或者鼠标212的操作而激活，其通过诸如WiFi的机制，通过通信模块304的功能，从智能电话108接收图像数据和加速度传感器测量数据，然后将这些数据优选地存储在硬盘驱动器208中。

主程序302激活sum计算例程306，DoG计算和极值检测例程308以及特征值计算例程310，以便根据本发明，基于从智能电话108传送来的图像数据和加速度传感器测量数据发起特征提取。

更具体地说，sum计算例程306根据从智能电话108传送来的图像数据和加速度传感器测量数据来进行计算sum的过程，所述sum是一个一维数组。下面将参考图4中的流程图详细描述sum计算例程306的过程。

DoG计算和极值检测例程308使用sum计算例程306计算出的sum的值来进行计算DoG(高斯差分)和检测极值的过程。以下将参照图5中的流程图详细描述DoG计算和极值检测例程308的过程。

特征值计算例程310基于DoG计算和极值检测例程308检测到的极值(关键点)来进行计算特征值的过程。以下将参照图6中的流程图详细描述特征量计算例程310的过程。

下面参照图4的流程图描述sum计算例程306的过程。如步骤402处所示，sum计算例程306被主程序调用，其中图像的色饱和度I(u，v)和阈值作为调用参数。这里，图像的色饱和度I(u，v)的每一个是位于像素坐标(x，y)＝(u，v)处的像素的色饱和度。在一个示例性实施例中，阈值被设置为0.95。

sum计算例程306在步骤404中获得消失点u′，v′。具体而言，sum计算例程306根据以下公式计算消失点u′，v′

u′＝f*x_g/Z_g+w/2

v′＝-f*y_g/z_g+h/2

其中w是图像宽度，h是图像高度，f是焦距，V_g＝(x_g，y_g，z_g)是从智能电话108收到的表示重力方向的加速度值向量。

在步骤406中，sum计算例程306根据以下公式，针对每个像素(u，v)获得du(u，v)，dv(u，v)，和dlen(u，v)：

【公式1】

其中du(u，v)是(u，v)处在u方向的微分，dv(u，v)是(u，v)处在v方向的微分。

虽然此处将上述微分计算为前向差分和后向差分的平均，但是可以采用任何合适的其他方法来计算微分。例如，可以只计算前向差分，或者只计算后向差分。

在步骤408，sum计算例程306根据以下公式，针对每个像素(u，v)获得由(-dv(u，v)，du(u，v))和指向消失点的向量(u′-u，v′-v)所形成的夹角的余弦分量c(u，v)。

【公式2】

sum计算例程306然后在步骤410中获得投影到水平面的点q(u，v)。更具体地说，sum计算例程306首先根据V＝(x，y，1)＝((u-w/2)/f，-(v-h/2)/f，1)将一个点的屏幕坐标转换成该点的摄像头坐标。图7是概要性地示出摄像头坐标系，屏幕和重力方向之间的关系的示意图。sum计算例程306然后获得以下位置：在该位置，通过V_h＝(x_h，y_h，1)＝V-V_g*<V，V_g>/<V_g，V_g>和(x_g/Z_g，y_g/z_g，1)的线条，与屏幕(z＝1)上的V_g正交地交叉；sum计算例程306然后对V_h的x坐标x_h进行下取整到最接近的整数，获得值q(u，v)。也就是说，q(u，v)＝(int)x_h。这里，<V，V_g>表示向量V和V_g的内积。图8概要性地示出获得q(u，v)的投影过程。

sum计算例程306然后在步骤412提供一维数组sum。

sum计算例程306然后对每个像素(u，v)进行从步骤414到420的过程。具体而言，sum计算例程306确定对于特定像素(u，v)，|c(u，v)|是否＞阈值，如果是，则通过sum[q(u，v)]+＝dlen(u，v)累加dlen(u，v)的值。在本示例性实施例中，阈值被设置为0.95.注意对于每个(u，v)，已经在步骤406中计算了dlen(u，v)的值。

这里sum[q(u，v)]的值是这样一条线条上的竖直边缘的强度的和：该线条是通过q(u，v)且与地面垂直的线条在屏幕上的投影。q(u，v)表示通过q(u，v)且与地面垂直的线条。

一旦针对所有像素(u，v)完成从步骤414到步骤420的过程，就生成了计算DoG和极值检测所需的sum值。

接下来结合附图5的流程图描述DoG计算和极值检测例程308的过程。如步骤502所示，DoG计算和极值检测例程308被主程序302调用，输入为sum计算例程306计算得到的sum，以及参数d。

在步骤504，DoG计算和极值检测例程308利用标准差σ＝σ₀，σ₀k，σ₀k²，σ₀k³，...对sum进行高斯平滑，从而获得sum₁，sum₂，sum₃，sum₄，...。

高斯平滑意味着进行如下函数卷积：

【公式3】

其中k是标准差σ的数目，并且被设置为k＝2^1/s，其中s是尺度空间中尺度的数目。这里，假设σ₀＝1.6，并且尺度数目为s＝3，基础是例如藤吉弘亘的″Gradient-BasedFeature Extraction：SIFT and HOG″，Information Processing Society of JapanTechnical Report，CVIM[Computer Vision and Image Media]，2007，(87)，211-224，2007-09-03一文中所进行的描述。

在步骤506，DoG计算和极值检测例程308如下地计算差分图像以得到dog₁，dog₂，dog₃，...：

dog₁＝sum₂-sum₁

dog₂＝sum₃-sum₂

dog₃＝sum₄-sum₃

针对q和i的每个组合执行从步骤508到518的过程。在步骤510，DoG 计算和极值检测例程308确定对于q，i附近的所有q′，i′是否成立dog_i[q]＜dog_i′[q′]-d，也就是说，是否dog_i[q]是极值。如果是的话，则DoG计算和极值检测例程308在步骤512中记录q，i作为检测到的线条。注意q，i附近的q′，i′是在q±δ和i±δ范围内的。例如，选择δ＝2。关于d的值，所设置的条件是d的值越大，则所选择的极值越尖锐。

当DoG计算和极值检测例程308在步骤510确定dog_i[q]＜dog_i′[q′]对q，i附近的所有q′，i′都成立时，DoG计算和极值检测例程308在步骤512记录q，i作为检测到的线条。

对q，i的每个组合执行步骤508到514的过程，以便获得极值(q，i)的所有组合。令σ为极值(q，i)处用于获得第i个DoG值的标准差，则(q，σ)称为关键点。对于dog_i＝sum_i+1-sum_i，标准差σ例如是对sum_i+1或sum_i进行高斯平滑时的标准差。

图10示出图像中提取的示例性关键点。

下面参照图6的流程图描述特征值计算例程310的过程。特征值计算例程310被主程序302调用，输入为所有关键点的(q，σ)值。特征值计算例程310基于梯度方向直方图(Histograms of Oriented Gradients，HoG)来进行特征提取，所述HoG在藤吉弘亘的文章″Gradient-Based Feature Extraction：SIFT and HOG″，Information ProcessingSociety of Japan Technical Report，CVIM[Computer Vision and Image Media]，2007，(87)，211-224，2007-09-03中进行了描述。

从图6中的步骤602到步骤620的循环是针对每个关键点的每个值(p，σ)的过程。这里σ是在对计算极值(q，i)处的dog_i所用到的sum_i+1或sum_i进行高斯平滑时的标准差。

在步骤604中，特征值计算例程310根据以下公式为q获得屏幕上的线条u＝av+b：

x_h＝(q-w/2)/f

y_h＝-(x_g*x_h+z_g)/y_g

u_h＝q

v_h＝-y_h*f+h/2

a＝(u_h-u′)/(v_h-v′)

b＝u_h-a*v_h

从步骤606到步骤614的循环是针对0，1，2，...，h中的每一个的v的过程。

特征值计算例程310使用步骤604所确定的a，b来在步骤608中计算u＝av+b。

在步骤610，特征值计算例程310确定(u，v)是否为竖直边缘。如果不是，特征值计算例程310跳过下个步骤612；如果是，特征值计算例程310计算def＝I(u-σ，v)-I(u+σ，v)和dot(u，v)。这里，dot(u，v)是(u′-u，v′-v)和(-dv(u，v)，du(u，v))的内积，σ是在计算关键点时用到高斯平滑中的标准差。

如此对于v＝0，1，，...，h中的每一个进行从步骤606到步骤614的循环，以对于v＝0，1，，...，h中的每一个获得def＝I(u-σ，v)-I(u+σ，v)和dot(u，v)。然后特征值计算例程310按照降序对def进行排序，并且对对应于def的dot(u，v)进行求和。当dot的累积和超过dot的总和的一般时，该点处的def的值被选作def的中值。

在步骤618，特征值计算例程310然后将与在步骤616所选择作为中值的def所对应的(u，v)处的两个色饱和度I(u-σ，v)和I(u+σ，v)作为该线条的特征量。

如此这般对所有关键点(q，σ)进行步骤602到步骤620的过程，以获得所有关键点(q，σ)的特征值。

主程序302使用如此获得的关键点(q，σ)的特征值来搜索这样一条线条：其特征值与从已有图像中提取的特征值向匹配。一旦完成对查询图像和已有图像中的线条的匹配，可以用光束平差法(Bundle Adjustment)来估计智能电话108的位置。

虽然在已经描述的例子中，加速度数据和图像数据是从包括加速度传感器和摄像头功能的智能电话获得的，本发明并不限于智能电话。本发明可以用于任何包括测量加速度功能和摄像头功能的设备。进一步，加速度可以用陀螺仪测量而不是用加速度传感器。

除了WiFi以外，可以使用任何无线通信技术来向计算机传送加速度数据和图像数据。也可以使用有线通信。

在以上描述的示例性实施例中，从智能电话的加速度传感器和摄像头获取的数据被使用，然后在所述数据被送往的分离的计算机上执行上述过程，以便提取特征值或者估计位置。然后，考虑到当下智能电话的处理能力和规格，在分离的计算机上执行的上述过程的一部分或者全部可以在智能电话上执行。

此外，处理加速度数据和图像数据的计算机不限于特定的硬件或者特定的操作系统；可以使用具有任何平台的任何计算机。

附图标记清单

108...智能电话

110...计算机

204...CPU

206...RAM

208...硬盘驱动器

216...通信接口

304...通信模块

306...Sum计算例程

308...DoG计算和极值检测例程

310...特征值计算例程

Claims

1.一种特征提取方法，用于通过计算机处理从图像中提取特征，该方法包括以下步骤：

从包括图像获取装置和加速度测量装置的移动设备接收图像数据和所测量的加速度数据；

基于所测量的加速度数据，在摄像头坐标系中获得图像中的重力向量；

通过使用所述重力向量，在屏幕坐标系中，获得图像中在竖直方向上的消失点；

对于屏幕坐标系中的每个像素，获得沿着两个轴的微分向量；

获得连接每个像素与所述消失点的连接线向量；

基于确定由所述微分向量和所述连接线向量所形成的夹角处于一定阈值范围之内，识别竖直边缘；

获得竖直边缘的强度和，并且将所述和写入到预定的变量数组中；

基于所述变量数组提取关键点；和

从所述关键点计算特征量。

2.如权利要求1所述的方法，其中所述加速度测量装置是加速度传感器。

3.如权利要求1所述的方法，其中所述获得竖直边缘的强度和并且将所述和写入到预定的变量数组中的步骤包括以下步骤：计算所述微分向量和(u'-u,v'-v)的内积的绝对值，并且将所述绝对值写入到所述变量数组中，其中(u,v)是屏幕坐标并且(u',v')是消失点。

4.如权利要求1所述的方法，其中提取关键点的步骤包括以下步骤：将所述变量数组假设为长度沿水平方向的图像，并且通过使用DoG函数来计算极值。

5.如权利要求1所述的方法，其中所述移动设备是智能电话。

6.如权利要求1所述的方法，其中所述计算特征量的步骤包括计算HoG的步骤。

7.如权利要求1所述的方法，其中一部分步骤或全部步骤由移动设备执行。

8.一种特征提取装置，用于通过计算机处理从图像中提取特征，所述装置中存储程序，所述程序使得计算机执行以下步骤：

获得连接每个像素与所述消失点的连接线向量；

基于所述变量数组提取关键点；和

从所述关键点计算特征量。

9.如权利要求8所述的装置，其中所述移动设备是智能电话。

10.如权利要求8所述的装置，其中所述加速度测量装置是加速度传感器。

11.如权利要求8所述的装置，其中所述获得竖直边缘的强度和并且将所述和写入到预定的变量数组中的步骤包括以下步骤：计算所述微分向量和(u'-u,v'-v)的内积的绝对值，并且将所述绝对值写入到所述变量数组中，其中(u,v)是屏幕坐标并且(u',v')是消失点。

12.如权利要求8所述的装置，其中提取关键点的步骤包括以下步骤：将所述变量数组假设为长度沿水平方向的图像，并且通过使用DoG函数来计算极值。

13.如权利要求8所述的装置，其中所述计算特征量的步骤包括计算HoG的步骤。

14.如权利要求8所述的装置，其中一部分步骤或全部步骤由移动设备执行。

15.一种特征提取系统，用于通过计算机处理从图像中提取特征，所述系统包括：

配置为从包括图像获取装置和加速度测量装置的移动设备接收图像数据和所测量的加速度数据的装置；

配置为基于所测量的加速度数据，在摄像头坐标系中获得图像中的重力向量的装置；

配置为通过使用所述重力向量，在屏幕坐标系中，获得图像中在竖直方向上的消失点的装置；

配置为对于屏幕坐标系中的每个像素，获得沿着两个轴的微分向量的装置；

配置为获得连接每个像素与所述消失点的连接线向量的装置；

配置为基于确定由所述微分向量和所述连接线向量所形成的夹角处于一定阈值范围之内，识别竖直边缘的装置；

配置为获得竖直边缘的强度和，并且将所述和写入到预定的变量数组中的装置；

配置为基于所述变量数组提取关键点的装置；和

配置为从所述关键点计算特征量的装置。

16.如权利要求15所述的系统，其中所述移动设备是智能电话。

17.如权利要求16所述的系统，其中所述加速度测量装置是加速度传感器。

18.如权利要求15所述的系统，其中所述配置为获得竖直边缘的强度和并且将所述和写入到预定的变量数组中的装置进行如下处理：计算所述微分向量和(u'-u,v'-v)的内积的绝对值，并且将所述绝对值写入到所述变量数组中，其中(u,v)是屏幕坐标并且(u',v')是消失点。

19.如权利要求15所述的系统，其中所述配置为提取关键点的装置进行如下处理：将所述变量数组假设为长度沿水平方向的图像，并且通过使用DoG函数来计算极值。

20.如权利要求15所述的系统，其中所述配置为计算特征量的装置进行如下处理：计算HoG。

21.一种通过计算机处理从图像提取特征的移动设备，该移动设备包括：

图像获取装置；

加速度测量装置；

配置为基于来自加速度测量装置的测量数据，在摄像头坐标系中获得由所述图像获取装置所获取的图像中的重力向量的装置；

配置为基于所述变量数组提取关键点的装置；和

配置为从所述关键点计算特征量的装置。