CN105814609B

CN105814609B - 用于用户识别、跟踪与设备关联的融合设备与图像运动

Info

Publication number: CN105814609B
Application number: CN201480066398.7A
Authority: CN
Inventors: A·D·威尔逊; H·本克
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-12-04
Filing date: 2014-11-26
Publication date: 2019-11-12
Anticipated expiration: 2034-11-26
Also published as: US9679199B2; EP3077992A1; EP3077992B1; CN105814609A; US20170330031A1; US20150154447A1; WO2015084667A1

Abstract

本文所描述的交叉模态传感器融合技术跟踪移动设备以及携带它们的用户。该技术将来自移动设备上的传感器的运动特征与从设备的图像获得的图像运动特征进行匹配。例如，将如由板上内部测量单元测得的移动设备的加速度与在深度照相机的颜色和深度图像中观察的类似加速度进行比较。该技术不需要用户或设备的外观的模型，在很多情况下也不需要到设备的直接视线。该技术能够实时操作且能够应用于各种普遍存在的计算场景。

Description

用于用户识别、跟踪与设备关联的融合设备与图像运动

背景技术

在室内设置中跟踪移动设备及其拥有者的位置的能力可用于多种普遍存在的计算场景。跟踪智能手机能够用于识别和跟踪智能手机的拥有者从而提供基于室内位置的服务，诸如建立智能手机与附近的基础设施(如壁挂式显示器)的连接，或者用于为电话的用户提供地点特定信息和广告。

发明内容

提供该概述以简化形式介绍概念的选择，其在下面的具体实施方式中进一步说明。该概述不意在标识权利要求主题的关键特征或主要特征，也不意在用于限制权利要求主题的范围。

本文所描述的交叉模态(cross-modal)传感器融合技术提供了一种交叉模态传感器融合方法来跟踪移动设备以及携带所述移动设备的用户。该技术将利用移动设备上的传感器捕获的运动特征与设备的图像中所捕获的运动特征进行匹配，从而跟踪移动设备和/或其用户。例如，在一个实施例中，该技术将板上测量单元所测得的移动设备的速度与在设备的图像中观察到的类似速度进行匹配，以跟踪设备以及刚性地附连到设备的任何对象(例如，用户)。该运动特征匹配过程构思上简单。该技术不需要用户或设备的外观的模型，在很多情况下也不需要到设备的直接视线。实际上，该技术能够在即使设备不可见时(例如，设备在用户口袋中)也能跟踪设备的位置。该技术能够实时地操作且能够应用于各种场景。

在一个实施例中，交叉模态传感器融合技术利用加速度在视频中定位并跟踪移动设备及其用户。该技术在每像素基础上将移动设备的加速度与视频的图像(例如，颜色和深度图像)中观察到的加速度进行匹配，在一个或多个捕获图像中的多个像素位置处计算图像运动特征与设备运动特征之间的差别。能够根据需要来预先确定像素数量，所选的像素位置也能够预先确定。该技术使用许多移动设备所共用的惯性传感器来得到移动设备的加速度。在环境的3D坐标系中比较设备加速度和图像加速度，这是借助于诸如例如智能手机的当今的移动计算设备中常见的绝对方位感测能力，以及深度照相机的范围感测能力，这使得能够计算图像特征的现实世界坐标(米)。在图像中的各位置处的预定数量的像素处比较设备和图像加速度。最小差指示在该位置处移动设备的存在。

附图说明

通过结合下面的说明、随附的权利要求以及附图，能够更好的理解本公开的具体的特征、方面和优点，在附图中：

图1描绘了用于实践本文所描述的交叉模态传感器融合技术的一个示例性的实施例的过程的流程图。

图2描绘了用于实践本文所描述的交叉模态传感器融合技术的另一示例性的实施例的过程的流程图。

图3描绘了用于实践本文所描述的交叉模态传感器融合技术的又一示例性的实施例的过程的流程图。

图4示出了使用根据本文所描述的交叉模态传感器融合技术将从移动设备获得的运动特征和从设备的图像获得的运动特征相关从而跟踪设备的系统的一个示范性的环境。

图5示出了能够在图4中的示例性的环境中使用的示例性的交叉模态传感器融合系统的高级描绘。

图6示出了用于图5的系统中的说明性的移动设备。

图7示出了用于图5的系统中的说明性的外部照相机系统。

图8示出了能够与图7的外部照相机系统相结合使用的说明性的交叉模态传感器融合系统。

图9是能够用于实践交叉模态传感器融合技术的示例性的计算环境的示意图。

具体实施方式

在下面的交叉模态传感器融合技术的说明中，参考了附图，附图构成了说明的一部分，并且通过说明示例的方式显示出附图，可实践本文所描述的交叉模态传感器融合技术。应当理解，可使用其它实施例，并且可以进行结构改变，而不偏离权利要求主题的范围。

1.0交叉模态传感器融合技术

下面的部分提供了对交叉模态传感器融合技术的介绍，传感器融合的论述，以及用于实践该技术的过程和系统的示例性的实施例。还提供了交叉模态传感器融合技术的各个实施例和组件的细节。

作为首要事项，附随的一些图在多样化地称为功能、模块、特征、元素等一个或多个结构组件的背景下描述了概念。图中所示的各个组件能够以任意方式来实现。在一种情况下，图中示出的各组件分开成不同的单元可以反映在实际实现方式中对应的不同组件的使用。可替选地，或者另外地，图中所示的任何单个组件可以通过多个实际组件来实现。可替选地，或者另外地，图中任意两个以上分开的组件的描绘可以反映单个实际组件所执行的不同功能。

其它的图以流程图的形式描述了概念。通过这种方式，一些操作被描述为构成了以某顺序执行的不同的块。该实现方式是说明性的，而不是限制性的。本文所描述的一些块能够组合在一起并且在单个操作中执行，一些块能够分解成多个组件块，并且一些块能够以不同于本文中图示的顺序来执行(包括并行执行块的方式)。流程图中所示的块能够以任意方式来实现。

1.1介绍

在室内设置中跟踪移动设备及其拥有者的位置的能力可用于多种场景。然而，许多智能手机小、有光泽且颜色暗，使得它们难以清楚地成像。有可能不能区分相同型号的两个设备。握持在用户手中的设备可能部分被挡住，而保存在钱包或衣物口袋中的设备根本不能被看到。诸如红外发光二极管(LED)的主动标记物能够辅助跟踪和识别。例如，用于下一代游戏控制台的控制器使用红外以及可见LED来辅助跟踪玩家以及将控制器与玩家关联。然而，该主动标记物少有，并且需要视线；即，照相机必须能够看到它们。

交叉模态传感器融合技术是一种在视频中定位和跟踪移动设备及其用户的传感器融合方法。该技术将设备上的传感器所测得的运动特征与从设备取得的图像中提取的图像运动特征进行匹配。这些运动特征可以是例如速度或加速度。在一个实施例中，该技术将设备加速度与在照相机(诸如例如，深度照相机)取得的图像(例如，颜色和深度图像)中观察到的设备的加速度进行匹配。该技术使用许多移动设备中常见的惯性传感器找到设备在三维中的加速度。设备和图像加速度在环境的3D坐标系中进行比较，这多亏了当今的智能手机中常见的绝对方位感测能力，以及深度照相机的范围感测能力，其使得能够计算图像特征的现实世界坐标(米)。

多个工作探索设备传感器和视觉特征的融合以找到携带设备的用户。这些依赖于建议视频中的候选对象的某种外部手段。例如，一个称为ShakeID的示例考虑多达四个被跟踪手中的哪一个正握持设备。在本文所描述的交叉模态传感器融合技术中，不是将视频中的少量的候选对象的运动进行比较，能够在视频图像中的每个像素处执行融合，并且无需分开的处理来建议跟踪的候选对象。交叉模态传感器技术不需要设备或用户的外观的知识，并且允许有各种各样的照相机放置选项和应用。该技术的有趣且有力的结果是，移动设备用户以及在许多情况下设备本身，可以被可靠地跟踪，即使设备处于用户口袋中，完全在照相机的视野外。

移动设备及其用户的跟踪能够用于许多现实世界应用。例如，其能够用于为用户提供导航指令或者其能够用于提供位置特定广告。还可用于物理安全相关应用。例如，可用于跟踪关心的对象或关心的人。许多许多其它应用是可能的。

1.2传感器融合

“传感器融合”是指多个全异传感器组合来获得更有用的信号。

1.2.1使用传感器融合的设备关联

存在一些通过找到从两个设备取得的传感器值之间的相关性来寻求关联两个设备的融合技术。例如，当两个移动设备被保持在一起且被摇动时，来自这两个设备的加速度计读数将高度相关。检测该相关性能够使得应用软件以某种有用的方式将设备配对或连接。类似地，当观察到唯一事件在两个设备处同时发生时，可以建立各种配对。可能，最简单的例子是通过同时按下两个设备上的按钮来连接两个设备，但是相同的思想能够被跨各种传感器应用。例如，物理上块接在一起的两个设备将在相同的时刻测得加速度峰值。这些交互有时称为“同步姿势”。

尤其有用的是跨极其不同的模态建立相关性，因为经常这些模态彼此互补。下面提到这些“交叉模态”方法中的几个。例如，通过将设备中的加速度峰值与触碰接触的外观相关，或者当表面在电话被触发时的确切时刻检测到电话的可见闪光时，移动电话可被定位且与交互表面配对。通过将新的表面接触的外观与新的RFID码的外观相关，借助射频识别(RFID)芯片加标签的对象能够在其被放置在交互表面时被检测到且定位。

1.2.2将图像和设备运动相关

少量的工作已经调查了将移动设备惯性传感器读数与在视频照相机中观察到的运动相关的思想。

一些研究者已经提出了将手腕佩戴的加速度计与可视特征相关来跟踪学校的年幼的孩子。他们考虑跟踪头戴式的红色LED，以及跟踪运动斑点的位置。对于加速度计测量，他们考虑集成以获得用于与可视跟踪数据直接比较的位置，以及取得类似步程计的特征。该研究赞成步程计特征与无标记物的运动斑点可视特征结合。

其它研究者提出计算对象的运动轨迹与设备加速度计读数之间的标准化交叉相关以判定多个被跟踪对象中的哪一个包含设备。他们的方法要求多个样本的窗来执行相关并且依赖于外部处理来从单目视频找到和跟踪对象。其它研究者使用类似的方法来同步惯性传感器和视频照相机。

另外的其它研究者已经提出了通过将移动设备加速度计和磁力计读数相关来跨多个现有的安全照相机识别并跟踪人。他们描述了基于隐马尔科夫模型的方法来得到感测到的设备给被跟踪人的最佳分配。他们依赖于外部处理来生成被跟踪对象且使用大的匹配窗，但是他们演示了他们的方法如何能够从某共同跟踪特征中恢复。

一个称为ShakeID系统的系统将智能手机加速度计值与深度照相机(例如，Microsoft Corporation的传感器)所跟踪的多达四只手的加速度匹配。握持电话的手是通过在短的时间窗(1s)内将设备加速度与手位置的加速度进行匹配来推导出的。卡尔曼滤波器用于估计每只手的加速度。具有最相似的加速度模式的手被判定为握持着设备。该工作进一步研究了通过相反的手接触触摸屏的相关性。最终，通过看起来正握持设备的跟踪骨架的方式将触摸的接触与被握持设备相关联。

上述的所有将设备运动与视频中的运动相关的工作要求：首先跟踪少量的候选对象。后续的相关过程涉及到判定这些对象的运动中的哪一个最紧密匹配设备的运动。生成候选对象的步骤易于发生失败。例如，ShakeID将传感器骨架跟踪过程所检测到的一个或两个用户的被跟踪手的运动进行比较。如果设备没有握在手中，或者如果骨架跟踪失败，则设备不能被跟踪到。此外，握持移动设备会影响手跟踪过程达到如下程度：鲁棒地估计手加速度很难。骨架跟踪要求用户的额平行视图。因此，依赖于可放置照相机的骨架跟踪约束。例如，当照相机安装在屋顶以获取房间的不受遮挡的俯视图时，骨架跟踪失败。

本文所描述的交叉模态传感器融合技术避免了通过在整个图像中匹配低水平运动特征而选择候选对象的难题。该技术可在骨架跟踪有噪声或者完全失败的许多情形中使用，并且因此用于各种应用场景。虽然大多数上述工作在显著的时间窗内执行匹配，但是本文所描述的交叉运动传感器融合技术使用了依赖于仅存储前一帧的结果而不是运动历史的缓冲的全递归算法。事实上，计算的递归本质允许其实时地应用于图像中的每个地方，避免了跟踪离散对象的需要。

为了定位设备或者携带设备的用户的目的而将图像和设备运动相关是有争议的，最佳方法是直接匹配图像运动，因为如同“同步姿势”，图像运动模式将提供鲁棒地检测设备或其用户的区别的能力。关于设备或用户的外观做出更少的假设扩展了该方法的应用范围，并且使得该技术复杂度低，更加鲁棒，最终更有用。

1.2.3用于实现技术的示例性的过程

下面的段落描述了各种用于实现交叉模态传感器融合技术的示范性的过程。一般地，该技术将在移动设备上测得的运动特征与在设备的图像中观察到的运动特征匹配从而跟踪设备(及其用户)。该技术的一些实施例使用如下面段落所描述的颜色和深度图像，但是能够利用灰度级和/或仅二维图像来实现该技术。

在该技术的一个实施例中，在从彩色图像中的各位置选出的预定数量的像素处执行匹配过程。用于匹配的像素能够基于图像中的各种分布来选择。在一个实施例中，匹配过程在彩色图像中的每个像素处执行。通过可在诸如例如智能手机的移动设备上可用的绝对方位感测以及确定通过深度照相机所拍摄的彩色图像中观察点的3D位置的能力，在共同的3D坐标系中执行匹配。

图1描绘了用于实现交叉模态传感器融合技术的一个示例性的过程100。如框102所示，移动设备的运动特征由设备上的传感器来测量，并且同时捕获设备的图像以及设备刚性附连的任意对象的图像。

找到捕获的图像中的设备的图像运动特征(框104)。例如，图像运动特征可以是在图像中的各个位置处在逐像素基础上确定的速度或加速度。图像运动特征转换成移动设备的相同的坐标系，如框106所示。

然后，将设备上测得的设备运动特征与设备的图像运动特征匹配，如框108所示的。例如，设备运动特征可以是设备上的传感器测得的速度或加速度。在共同(可能是现实世界)坐标系中捕获的图像中的一个或多个中的多个像素位置处，在每像素基础上计算图像运动特征与设备运动特征之间的差，如框110所示。该像素数量可以是例如图像中的每个像素，图像中的每另一像素，图像中的随机像素分布，像素的均匀分布，等等。此外，像素的数量能够根据需要而预先确定，所选的像素位置也能够根据需要预先确定。在该技术的一个实施例中，设备的运动的现实世界坐标由设备上的传感器来提供，而图像运动特征的现实世界坐标是利用来自捕获图像的照相机的坐标而确定的。

然后，利用选定像素处的差来确定设备以及刚性地附连到设备的对象的存在，如框112所示。图像中的最小差确定了共同(例如，现实世界)坐标系中的设备位置(以及与设备附连的任何刚性对象，诸如设备的用户)。

图2描绘了用于实现匹配作为加速度的运动特征的交叉模态传感器融合技术的另一示例性的过程200。如框202所示，同时捕获移动设备加速度以及移动设备及其用户的颜色和深度图像。

在捕获的图像中找到三维(3D)图像加速度，如框204所示。这些能够通过例如计算捕获的彩色图像上的2D光流以及使用对应的深度图像计算3D加速度来找到。然后，将这些3D图像加速度转换成移动设备的相同的坐标系，如框206所示。

然后，匹配通过设备上的传感器测得的设备加速度和图像加速度，如框206所示。在彩色图像中的多个像素位置处，在每像素基础上计算图像与设备加速度之间的差，如框210所示。最小差值指示在该像素或点处设备的存在，如框212所示。

图3描绘了用于实现交叉模态传感器融合技术的又一示例性的过程300。如框302所示，找到移动设备加速度。在捕获移动设备加速度的同时，捕获移动设备以及可选地其用户的颜色深度图像。

通过同时对捕获的彩色图像计算流向量的稠密光流，在捕获的图像中找到二维(2D)图像运动，如框304所示。利用深度图像将每个流向量转换成3D运动，如框306所示，并且每个流向量变换成移动设备的坐标系，如框308所示。估计图像加速度，如框310所示。该3D加速度通过在图像的每个点处的卡尔曼滤波器来估计，在该点处的3D流被提供作为输入。

然后匹配3D设备和图像加速度，如框312所示。在彩色图像中的一个或多个中的多个像素或点处，计算图像与设备加速度之间的差。能够根据需要来预先确定像素或点位置的数量，也能够预先确定所选的像素或点位置。在各图像中的最小差值指示在那些像素或点位置处设备的存在，如框314所示。

上述用于实现交叉模态传感器融合技术的示例性的过程提供了这些过程的一般描述。该说明书的部分2提供了在该过程中执行的各动作中所执行的计算的具体细节。

已经描述了用于实现交叉模态传感器融合技术的多个示例性的过程，并且下一部分描述了能够用于实现该技术的示例性的系统。

1.2.4用于实现技术的示例性的系统

图4示出了说明性的环境400，其充当了介绍用于实现本文所描述的交叉模态传感器融合技术的系统的媒介物。系统从移动设备402接收运动信息。更具体地，系统接收在至少一个移动设备402上的传感器测量的设备运动特征。系统进一步从至少一个外部照相机系统404接收移动设备402的捕获图像，根据移动设备402的捕获图像计算图像运动特征。相对于移动设备402的参考系406，通过移动设备402本身来生成来自移动设备的设备运动特征。通过在移动设备402之外的来自参照系408的外部照相机系统404来捕获捕获图像。换言之，外部照相机系统404从移动设备402之外的有利点观察移动设备402。

一般而言，移动设备402与至少一个对象相关联。该对象可以是例如在现场内移动的用户412。例如，移动设备402包括与用户412刚性附连的手持式单元。对象(例如，用户)412的任意部分可以在任意给定时间处于运动中。

如下面将详细说明的，该系统的一个用途是跟踪与移动设备402相关联的对象(例如，用户412)。例如，在图4中，该系统寻求跟踪正握持移动设备402的用户412。该系统通过将自移动设备402获得的设备运动特征与从捕获图像获得的移动设备402的图像运动特征相关来执行该任务。例如，该系统将来自移动设备(通过移动设备402上的传感器生成)的设备运动特征与从捕获图像提取的图像运动特征进行匹配。然后，该系统计算来自移动设备(由移动设备402生成)的运动特征与从捕获图像提取的运动特征之间的差。在系统的一个实施例中，在图像中的各位置处对于预定数量的像素，在逐像素基础上计算差。最小差被确定为移动设备402的位置(用户412刚性地附连到移动设备402)。该系统随后能够使用该结束来执行任何环境特定动作。

该系统能够应用于许多其它的方案。例如，在图4中，移动设备402对应于用户用手抓握且操纵的一件装备。例如，该类型的装备可以包括指针设备、移动电话设备、游戏控制器设备、游戏工具(例如桨或球拍)等等。但是，更一般地，移动设备402可对应于能够监测其自身运动且报告该运动给系统的任意尺寸和形状和功能的任意件装备。例如，在其它环境中，移动设备402可对应于用户412佩戴或者以其它方式可拆卸地固定到用户的任意件装备。例如，移动设备402可以与腕式手表、裤子、礼服、衬衣、鞋、帽子、皮带、腕带、吸汗带、眼罩、扣子、别针、项链、环、手镯、眼镜、护目镜等等集成(或以其它方式与其关联)。

在其它情况下，现场包含了两个以上的对象，诸如两个以上的用户(图4中未示出)。每个用户可以握持(或佩戴)他或她自己的移动设备。在该背景下，该系统能够确定移动设备与相应的用户之间的关联。在多于一个移动设备的情况下，对于每个设备运行匹配过程。然而，作为计算上昂贵的计算的图像运动估计需要仅运行一次，而无论匹配多少设备。

在又其它情况下，与移动设备402相关联的对象实际上是移动设备402本身的部分。例如，对象可对应于移动电话的壳体、游戏工具的桨，等等。此外，术语“移动设备”和“对象”的其它解释是可能的。然而，为利于说明，下面的多数示例将假设对象对应于握持移动设备402或以其它方式与移动设备402相关联的用户412。

图5示出了执行上面概述的功能的系统500的高级框图绘图。系统500包括移动设备502、外部照相机系统504以及交叉模态传感器融合处理系统506。移动设备502将在移动设备上测得的设备运动特征供给到交叉模态传感器融合处理系统506。外部照相机系统504捕获设备502的图像且将这些送到交叉模态传感器融合处理系统506。交叉模态传感器融合处理系统506计算图像运动特征。交叉模态传感器融合处理系统506还执行在移动设备上测得的运动特征与从在图像中各位置处的捕获图像获得的图像运动特征的相关性分析。在图像中多个像素位置处利用逐像素分析，交叉模态传感器融合处理系统506计算在移动设备上测得的设备运动特征与从在这些像素位置处的捕获图像获得的图像运动特征之间的差，并且最小差指示移动设备(以及因此与其附连的用户)在该图像中的位置。

图6示出了一种移动设备602的概览。移动设备602包含了一个或多个位置确定设备610或者以其它方式与一个或多个位置确定设备610相关联。例如，移动设备602可以包括一个或多个加速度计604、一个或多个陀螺仪设备606、一个或多个磁力计608、一个或多个GPS单元(未示出)、一个或多个航迹推算单元(未示出)，等等。每个位置确定设备610使用不同的技术来检测设备的运动，并且结果是提供在移动设备602上测得的运动特征的部分。

移动设备602可包括一个或多个其它设备处理组件612，其利用移动设备的运动特征用于任何环境特定目的(与本文所描述的运动分析功能无关)。移动设备602还将移动设备的运动特征发送到一个或多个目的地，诸如交叉模态传感器融合处理系统(图5的506)。移动设备602还能够将移动设备的运动特征发送到任何其它目标系统，诸如游戏系统。

图7示出了一种外部照相机系统704的概览。一般地，外部照相机系统704能够使用一个或多个数据捕获技术来捕获包含移动设备和诸如用户的对象的现场。例如，外部照相机系统704能够通过利用包括可见光、红外光、无线电波等中的一个或多个在内的任何类型的电磁辐射照射现场来调查现场。

外部照相机系统704能够可选地包括以红外光撒满现场的照射源702。例如，红外光可对应于提供元素的模式(例如，点、线等)的结构光。结构光在其投射到现场中的对象表面上时会变形。深度照相机710能够捕获结构光变形的方式。基于该信息，深度照相机710能够取得现场的不同部分与外部照相机系统704之间的距离。深度照相机710能够可选地或者另外地使用其它技术来生成深度图像，诸如飞行时间技术、立体成像对应技术，等等。

外部照相机系统704能够可选地或者另外地捕获现场的其它图像。例如，视频照相机706能够捕获现场的RGB视频图像或现场的灰度级视频图像。

图像处理模块708能够处理由深度照相机704提供的深度图像和/或由其它捕获单元提供的现场的一个或多个其它图像。

由位于华盛顿雷德蒙德的微软公司提供的控制器能够用于实现外部照相机系统的至少部分。

如上所论述的，外部照相机系统704能够捕获现场的视频图像。外部照相机系统704将视频图像发送到交叉模态传感器融合系统806，如参考图8更详细描述的。

如图8所示，交叉模态传感器融合处理系统806的一个实施例位于计算设备900上，结合图9更详细对其进行描述。交叉模态传感器融合处理系统806接收移动设备的板上测得的设备运动特征以及通过之前论述的外部照相机系统捕获的图像。图像运动特征由交叉模态传感器融合处理系统806来计算。设备运动特征可以是移动设备上的传感器所报告的速度或3D加速度。移动设备的运动特征以及捕获的图像能够经由诸如例如WiFi链路的通信链路或其它通信链路传送到交叉模态传感器融合系统806。

系统806包括确定图像特征的2D速度的速度确定模块802。该系统806还包括通过将深度信息添加到2D图像速度来估计3D图像加速度的图像加速度估计模块。转换模块814将图像坐标转换成移动设备使用的共同(例如，现实世界)坐标系。

该系统806还包括匹配模块810，其将设备运动特征和图像运动特征匹配(例如，将图像速度与设备速度匹配，或者将图像加速度与设备加速度匹配，取决于使用何种类型的运动特征)。差计算模块812计算在捕获图像的点处设备运动特征与图像运动特征(例如，3D设备加速度和3D图像加速度)之间的差。差计算模块812将移动设备的位置确定为各图像中差最小的点。

上述用于实现交叉模态传感器融合技术的示例性的系统提供了能够用于实现技术的系统的一般描述。该说明书的部分2提供了在系统的各组件中执行的计算的具体细节。

2.0用于实现交叉模态传感器融合技术的过程和系统的细节

在下面的部分中，更详细地描述了图1至图8所描绘的交叉模态传感器融合技术的过程和系统组件的计算的细节。

2.1设备运动

许多移动设备API提供了实时设备方位信息。在许多设备中，通过将来自板上加速度计、陀螺仪和磁力计的信息组合来计算方位。因为该方位是关于磁北(如磁力计所测的)和重力(如当设备不运动时由加速度计所测的)，所以其经常视为“绝对”方位。在交叉模态传感器融合技术的一些实施例中，移动设备将方位报告给标准“ENU”(东，北，上)坐标系。虽然磁北受室内环境存在的金属和其它磁场存在的干扰，但是实际上在给定房间内其趋于恒定。唯一重要的是，磁北不随着设备绕深度照相机(例如，传感器)成像的区域移动而显著地变化。

移动设备加速度计报告设备的3D坐标系中的设备加速度。利用磁力计、陀螺仪和加速度计来计算绝对方位后，易于将加速度计输出变换成ENU坐标系以及减去由于重力引起的加速度。一些移动设备提供了执行该计算以给出ENU坐标系中设备的加速度的API，而没有由于重力引起的加速度。当然，因为其取决于设备方位，其精度仅如方位估计一样好。原型实现中的一个移动设备将该设备加速度(ENU坐标，重力被去除)在WiFi上传送到执行传感器融合的交叉模态传感器融合系统。

2.2图像运动

如上文结合图1-3以及图5-8所论述的，交叉模态传感器融合技术将来自设备图像的图像运动特征与来自设备上的传感器的设备运动特征进行比较从而跟踪设备(及其用户)。在该技术的一些实施例中，仅计算速度。在其它实施例中，还计算加速度。下面的论述更集中于使用加速度来跟踪移动设备。在利用速度跟踪移动设备所使用的处理基本上是利用加速度跟踪移动设备所使用的处理的子集。例如，根据图像估计速度已经通过计算光流来实现。计算如移动设备上的速度涉及到将来自设备的加速度计值集成。

在该技术的一个实施例中，交叉模态传感器融合技术将移动设备的3D加速度与在视频中观察到的3D加速度进行比较。该技术通过首先利用标准光流技术来计算彩色图像中的全部像素的运动速度来找到视频中的加速度。该2D图像空间速度由深度信息增强且转换成现实世界3D坐标中的速度(每秒米数)。利用卡尔曼滤波器估计图像中的每个点处的加速度。下面的段落具体地描述了这些步骤中的每个步骤。

2.2.1借助光流找到2D速度

不是跟踪现场中已知对象的离散集合的位置，而是通过对整个彩色图像计算稠密光流来找到图像运动。稠密光流算法将一对图像中观察到的运动建模为每个像素处的位移u，v。存在各种光流算法。该技术的一个实现使用对多个因素执行非线性优化的因其精度而为人所知的光流算法。然而，存在许多其它计算流的方式，包括概念上更简单的块匹配技术，其中在时刻t对于图像中的每个点，利用图像像素强度上平方差的和、或其它相似度度量，在时刻t+1在该点近邻处找到围绕该点的最近补片(patch)。虽然光流典型地用于计算从时刻t-1向前到时刻t的帧的运动，对于后述原因，交叉模态传感器融合技术计算从时刻t的当前帧到时刻t-1的帧的流。在每个点x，y处的速度u，v标示为u_x,y和v_x,y。值得注意的是x，y是整数值，而u，v是实数值。

2.2.2转换成3D运动

诸如例如微软公司的传感器的深度照相机报告在其深度图像中的每个点处到最近表面的距离。已知深度和彩色照相机的焦距及其相对位置和方位，可计算彩色图像中的点的3D位置。一种已知的外部照相机系统提供计算彩色照相机中的点以现实世界单位(米)计的3D位置的API。在时刻t处对应于彩色图像中的2D点x，y的3D位置被标示为z_x,y,t。

不直接将2D速度(如通过光流计算出的)转换到3D量，交叉模态传感器融合技术的一个实施例使用基于卡尔曼滤波器的技术，其估计每个像素处的速度和加速度。

2.2.3估计加速度

交叉模态传感器融合技术的一些实施例使用卡尔曼滤波器来估计图像中的移动对象的加速度。卡尔曼滤波器并入了传感器噪声的知识并且是递归的(也即，其并入了全部之前的观察)。该技术因此与使用有限差的方法相比允许更佳地估计加速度。下面描述了在交叉模态传感器融合技术的一个实施例中采用的估计加速度的基本原理。

卡尔曼滤波器与较简单的“指数”滤波器紧密相关。指数滤波器利用递归关系计算标量z_t的平滑的估计：

x_t＝x_t-1+α(z_t-x_t-1)

其中增益α∈(0，1)控制滤波器并入“创新”z_t-x_t-1的程度。增益越小，滤波器越不跟随观察z_t，信号越平滑。该滤波器的改进版本是

x_t＝x_t-1+α(z_t-x_t ^*)

其中x_t ^*是给定x_t-1的情况下x_t的预测。卡尔曼滤波器基本上是该改进的指数滤波器，并且包括在给定预测x_t ^*和观察z_t的不确定性的情况下设定增益的值的基本方式。

对于根据图像运动估计加速度的问题，首先考虑3D中单个对象的运动。运动等式根据先前的值x_t-1，v_t-1和a_t-1来预测对象的位置x_t ^*，速度v_t ^*和加速度a_t ^*。

x_t ^*＝x_t-1+v_t-1Δt+¹/₂a_t-1Δt²

v_t ^*＝v_t-1+a_t-1Δt

a_t ^*＝a_t-1

给定被跟踪对象的位置的观察z_t，所述技术通过以下来更新位置、速度和加速度的估计

x_t＝x_t-1+k_x*(z_t-x_t ^*)

v_t＝v_t-1+k_v*(z_t-x_t ^*)

a_t＝a_t-1+k_a*(z_t-x_t ^*)

其中*表示元素级相乘，卡尔曼增益k_x，k_v，k_a将位置预测的创新或误差与位置、速度和加速度的每个估计的变化相关。经由利用预测和更新两个不同阶段计算最优卡尔曼增益的常规方法来计算卡尔曼增益。预测阶段使用来自前一时间步长的状态估计来产生当前时间步长的状态的估计。该预测状态估计或者先验状态估计是一种当前时间步长的状态的估计，但是不包括来自当前时间步长的观察信息。在更新阶段中，当前的先验预测与当前观察信息组合来细化状态估计(称为后验状态估计)。典型地，两个阶段交替，预测推进状态直至下一观察，并更新并入观察，但是这不是必要的。因此，卡尔曼增益是预测模型和观察的不确定性的函数。特别地，优选的是将高不确定性分配给加速度a_t的估计以反映对象的加速度随时间变化的确信。类似地，z_t的不确定性与传感器的噪声有关。

最后，值得注意的是卡尔曼增益的有用数学表述是时变的。然而，如果预测模型和观察的不确定性是恒定，则卡尔曼增益收敛到恒定值，如上所呈现。这导致了更新等式的简化实现方式，并且进一步强调了卡尔曼滤波器与较简单指数滤波器之间的关系。

2.2.4并入流

交叉模态传感器融合技术维持上述形式的卡尔曼滤波器来估计图像中的像素位置处(在一些实施例中为每个像素处)的3D加速度。在每个像素位置x，y处的估计的位置、速度和加速度分别标示为x_x，y，t，、v_x，y，t和a_x，y，t。

光流信息以两种方式使用：首先，在图像中的点处的流是在该点下的对象的速度的测量。因此，光流信息充当了利用卡尔曼滤波器来估计加速度的输入。其次，该技术能够使用流来在空间上传播运动估计，使得它们跟踪其运动正被估计的图像的补片。这样，卡尔曼滤波器能够使用许多观察来精确地估计在对象围绕图像移动时对象的给定补片的加速度。这以如下方式来实现：

卡尔曼更新等式被精细化以指示在每个像素处存在滤波器的分开的实例，并且并入流u_x，y和v_x，y(它们缩写为u和v)：

x_x，y，t＝x_{x+u，y+v，t-1}+k_x*(z_x，y，t-x^* _x，y，t)

v_x，y，t＝v_{x+u，y+v，t-1}+k_v*(z_x，y，t-x^* _x，y，t)

a_x，y，t＝a_{x+u，y+v，t-1}+k_a*(z_x，y，t-x^* _x，y，t)

值得注意的是x，y是整数值，而u，v是实数值。实际上，x_x，y，t-1，v_x，y，t-1和a_x，y，t-1被存储为与彩色图像的维度相同的阵列，但是因为x+u和y+v都是实数值，所以通过双线性插值能够最佳地计算量x_{x+u，y+v，t-1}，v_{x+u，y+v，t-1}和a_{x+u，y+v，t-1}。在该过程中，在x，y处的卡尔曼滤波器更新了在前一时间步长中x+u，y+v处的找到的运动估计。这样，运动估计跟踪其运动正被估计的对象。

该插值激励以逆向方式计算光流，从时刻t到时刻t-1：对于全部整数值x，y定义u_x，y和v_x，y。以常规方式从时刻t-1到时刻t计算流可能使得一些像素没有来自前一帧的“前辈”，即使利用双线性插值将先前的运动估计跨多个像素分布。从时刻t到时刻t-1计算流避免了该问题。

2.3传感器融合

下面的段落描述了在该技术的一些实施例中采用的传感器融合计算。

2.3.1共同坐标系

下面，描述关于移动设备的ENU坐标系来获得照相机的方位的一次校准程序。在照相机中观察到的运动随后可变换成ENU坐标且直接与设备加速度比较。

虽然存在许多计算深度照相机与移动设备所使用的坐标系的相对方位的方式，在该技术的一个实施例中采用易于实现且得到良好结果的直接的半自动程序。首先，移动设备放置在照相机易于观察到的平面如墙壁或桌面上显示面向下。观看照相机的彩色视频流，用户点击平面上的三个以上的点。

在照相机的坐标中平面的3D单位法线(normal)n_k是通过首先计算每个点击点的3D位置且通过最小二乘程序来拟合平面而计算的。在ENU坐标中相同的法线n_w是通过将单位向量z(设备的显示器之外)旋转设备方位来计算的。类似地，照相机坐标中的重力单位向量g_k从内置于一些照相机系统诸如例如传感器中的3轴加速度计取得。ENU坐标系中的重力g_w是按照定义-z。

将3D照相机点带到ENU坐标系的3x3旋转矩阵M_{camera→world}是通过匹配法线n_k和n_w，以及重力向量g_k和g_w，并且通过连续的叉积形成正交基K和W来计算的：

M_{camera→world}＝K^-1W

2.3.2匹配

在交叉模态传感器融合技术的一个实施例中，在每个像素处估计3D图像加速度，并且如上所述，将3D图像加速度变换成ENU坐标系。在每个像素处观察到的加速度可直接与设备加速度d_t比较：

随设备移动的图像的区域将给出r_x，y，t的小值。特别地，希望位于设备上的像素将给出最小值。如果假设设备存在于现场中，则通过找到最小化r_x，y，t的x^*，y^*来定位其在图像中的位置可能是足够的。然而，随设备瞬间移动的其它对象，诸如刚性附连的对象(例如，握持设备的手和手臂)也会匹配极好。

实际上，在该技术的一些实施例中，通过计算在r_x，y，t上的瞬时最小值来定位设备在设备瞬间静止或者以恒定速度移动时将不能找到设备。在这些情况下，设备加速度可能近似为零，并且因此匹配没有运动的现场的许多部分，诸如背景。这是通过用指数滤波器平滑r_x，y，t以获得s_x，y，t来解决的。利用光流和双线性插值来“跟踪”该平滑的值，方式与卡尔曼运动估计相同。在平滑的值s_x，y，t上的小的值将挑选出在最近的过去(取决于平滑参数α)匹配设备加速度的对象并且“记住”某非零设备加速度将其唯一地标识在图像中的时刻。在设备停止移动的情况下，小的值s_x，y，t将在某时间内与设备保留在一起，有希望直至设备再次移动。

执行上述匹配过程的一个重要的考虑是，深度照相机(例如，传感器)的延迟比移动设备的大很多，包括WiFi通信。不解释该差别，相似度的测量可能是不精确的。在一个实施例中，交叉模态传感器融合技术通过将移动设备读数人工地滞后某少量帧来解释照相机(例如，传感器)的相对延迟。在一个原型实现方式中，该滞后根据经验调谐成四个帧，近似为64ms。

在一些应用中，假设设备处于现场中可能是不恰当的。例如，握持设备的用户可能离开了照相机的视野。在该情况下，可针对阈值来校验在s_x，y，t上的最小值以拒绝差品质的匹配。在x^*，y^*处的最小值被标示为S^*。

3.0示例性的操作环境：

本文所描述的交叉模态传感器融合技术能够运行在多种类型的通用或专用计算系统环境或配置中。图9示出了通用计算机系统的简化示例，在该通用计算机系统中可以实现如本文所描述的交叉模态传感器融合技术的各个实施例和元素。应当注意，由图9中的折线或虚线所表示的任何框表示简化的计算设备的替选实施例，并且如下文所描述的这些替选实施例中的任一个或全部可与在该文档中通篇描述的其它替选实施例相结合使用。

例如，图9示出了普通系统图，示出了简化的计算设备900。该计算设备可以典型地见于具有至少一些最小计算能力的设备中，包括但不限于个人计算机、服务器计算机、手持式计算设备、膝上型或移动计算机、诸如蜂窝电话和PDA的通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子设备、网络PC、微型计算机、主机计算机、音频或视频媒体播放器，等等。

为了允许设备实现交叉模态传感器融合技术，设备应当具有足够的计算能力和系统存储器来实现基本计算操作。特别地，如图9所示的，计算能力通常由一个或多个处理单元910来说明，并且还可以包括一个或多个GPU 915，其任意一个或两个与系统存储器920通信。注意，通用计算设备的处理单元910可以是专业微处理器，诸如DSP、VLIW或其它微型控制器，或者能够是具有一个或多个处理核心的常规的CPU，包括多核CPU中的专业化的基于GPU的核心。当在专用设备如交叉模态传感器融合技术中使用时，计算设备能够实现为例如ASIC或FPGA。

另外，图9的简化的计算设备还可以包括其它组件，诸如例如通信接口930。图9的简化的计算设备还可以包括一个或多个常规计算机输入设备940(例如，指针设备、键盘、音频和语言输入设备、视频输入设备、触觉输入设备、用于接收有线或无线数据传输的设备，等等)。图9的简化的计算设备还可以包括其它可选的组件，诸如例如一个或多个常规的计算机输出设备950(例如，显示设备955、音频输出设备、视频输出设备、用于传输有线或无线数据传输的设备，等等)。注意，用于通用计算机的典型的通信接口930、输入设备940、输出设备950和存储设备960是本领域技术人员公知的，并且将不在此进行具体描述。

图9的简化的计算设备还可以包括各种计算机可读介质。计算机可读介质可以是能够由计算机900经由存储设备960访问的任何可用介质并且包括易失性和非易失性的介质，它们是可移除的970和/或非可移除的980，用于诸如计算机可读或计算机可执行指令、数据结构、程序模块或其它数据的信息的存储。计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质是指有形计算机或机器可读介质或存储设备，诸如DVD、CD、软盘、磁带驱动器、硬盘驱动器、光驱动器、固态存储器设备、RAM、ROM、EEPROM、闪速存储器或其它存储器技术、磁盒、磁带、磁盘存储或其它磁存储设备、或者任何其它能够用于存储期望的信息且能够由一个或多个计算设备访问的设备的。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等的信息的存储还能够通过使用多种前述通信介质中的任一种来对一个或多个调制数据信号或载波进行编码、或其它传输机制或通信协议来实现，并且包括任何有线或无线信息输送机制。注意，术语“调制数据信号”或“载波”通常是指使其特性中的一个或多个以将信息编码在信号中的方式而被设定或改变的信号。例如，通信介质包括有线介质，诸如承载一个或多个调制数据信号的有线网或直接接线连接，以及无线介质，诸如声、RF、红外、激光和其它用于发送和/或接收一个或多个调制数据信号或载波的无线介质。任意上述的组合也应包含在通信介质的范围内。

此外，具体实施本文所描述的交叉模态传感器融合技术的各实施例中的一些或全部的软件、程序和/或计算机程序产品、或其部分可以被存储、接收、发送、或者以计算机可执行指令或其它数据结构的形式从计算机或机器可读介质或存储设备以及通信介质的任何期望组合中读取。

最后，本文描述的交叉模态传感器融合技术可进一步在计算设备执行的计算机可执行指令的一般背景下描述，诸如程序模块。一般地，程序模块包括例程、程序、对象、组件、数据结构等，其执行特定的任务或者实现特定的抽象数据类型。本文所描述的实施例还可以实现在分布式计算环境中，其中通过一个或多个远程处理设备或者在通过一个或多个通信网络链接的一个或多个设备的云内执行任务。在分布式计算环境中，程序模块可位于包含介质存储设备的本地和远程计算机存储介质中。此外，前述指令可部分地或者整体地实现为硬件逻辑电路，其可以包括或者不包括处理器。

还应当指出，本文所描述的前述任意或全部替选实施例可以任何期望的组合使用来形成附加的混合实施例。虽然以特定于结构特征和/或方法行为的语言描述了主题，但是应当理解的是，在随附的权利要求中限定的主题不一定局限于上述的具体特征或行为。上述的具体特征和行为被公开作为实现权利要求的示例的形式。

Claims

1.一种用于定位设备所刚性附连的对象的计算机实现方法，包括：

从所述设备上的传感器接收按照设备速度或设备加速度来表达的设备运动特征；

捕获所述设备和所述设备所刚性附连的所述对象的图像；

在所捕获的图像中找到按照图像速度或图像加速度来表达的图像运动特征，其中，图像运动特征是通过使用在图像中的点处的流来测量所述点下的对象的速度来找到的，并且其中，跟踪图像的补片以估计当对象在图像中各处运动时对象的给定补片的加速度；

在共同坐标系中，根据使用何种类型的运动特征，通过以下步骤将所述设备速度与所述图像速度进行匹配，或者将所述设备加速度与所述图像加速度进行匹配：

在每像素基础上计算一个或多个所捕获的图像中的多个预定或随机像素位置处所述图像运动特征与所述设备运动特征之间的差别；以及

确定所述设备和任何刚性附连的对象在图像中的位置为所述共同坐标系中在所述设备运动特征和所述图像运动特征之间的最小差别的位置。

2.如权利要求1所述的计算机实现方法，其中，多个像素是图像中的每个像素。

3.如权利要求1所述的计算机实现方法，其中所述图像运动特征和所述设备运动特征分别是按照图像速度和设备速度来表达的，并且其中通过利用光流技术对于图像中所有像素计算速度来找到所述图像运动特征的图像速度。

4.如权利要求3所述的计算机实现方法，其中所述光流是从时刻t的当前图像帧到时刻t-1的前一图像帧计算出的。

5.如权利要求1所述的计算机实现方法，其中所述共同坐标系是现实世界坐标系。

6.如权利要求1所述的计算机实现方法，其中所述设备捕获实时设备方位。

7.如权利要求6所述的计算机实现方法，其中所述设备将设备方位报告给标准的东、北、上(ENU)坐标系。

8.如权利要求1所述的计算机实现方法，其中所述图像运动特征和所述设备运动特征分别是按照图像加速度和设备加速度来表达的。

9.如权利要求8所述的计算机实现方法，其中图像中所述图像运动特征的图像加速度是通过如下来找到的：

利用光流技术来计算所述图像中全部像素的运动速度；

通过相对应的深度信息来增强所述图像中计算的像素的运动速度；

将所述图像中像素的增强的运动速度转换成所述设备的三维坐标系；以及

利用转换的增强的运动速度来估计三维坐标系中所述图像的全部像素的加速度。

10.一种用于确定移动设备位置的系统，包括：

计算设备；

计算机程序，包括存储在一个或多个存储设备上并且能够由所述计算设备执行的子程序，其中所述计算设备由所述计算机程序的子程序引导用于，

从所述移动设备上的传感器接收移动设备3D加速度；

在从所述移动设备接收到3D设备加速度的同时确定由深度照相机对所述移动设备捕获的图像中的3D图像加速度，其中，所述3D图像加速度是通过跟踪其运动正被估计的图像的补片从而估计当对象在所述其运动正被估计的图像中各处运动时对象的给定补片的加速度来确定的；

在共同坐标系中，在每像素基础上计算在所捕获的图像中的多个像素位置处所述3D设备加速度与所述3D图像加速度之间的差别；以及

确定所述移动设备的3D位置为图像中所述加速度差别最小的像素位置。