CN111753622A

CN111753622A - 用于室内环境的定位的计算机实现的方法、服务器和介质

Info

Publication number: CN111753622A
Application number: CN202010165027.1A
Authority: CN
Inventors: 金哲暄; C·A·巴特; M·帕特尔; D·G·金贝尔
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-03-29
Filing date: 2020-03-11
Publication date: 2020-10-09
Also published as: US10977525B2; US20200311468A1; JP7435130B2; JP2020166856A

Abstract

用于室内环境的定位的计算机实现的方法、服务器和介质。提供了一种用于室内环境的定位的计算机实现的方法，该方法包括以下步骤：实时地接收来自第一源的动态查询和来自第二源的静态输入；通过应用度量学习卷积神经网络(CNN)来提取静态输入的特征，并且聚合所提取的静态输入的特征来产生特征变换；以及在作为嵌入网络的深度CNN上迭代地提取动态查询的特征并且将特征变换融合到深度CNN中，并且应用三元组损失函数来优化嵌入网络并且提供定位结果。

Description

用于室内环境的定位的计算机实现的方法、服务器和介质

技术领域

示例实现方式的一些方面涉及与在学习实时上下文信息的同时基于来自用用户装置所捕获的图像增强的静态图像(诸如，监视相机所捕获的静态图像)中的视觉特征来提供室内定位信息关联的方法、系统和用户体验。

背景技术

现有技术需要能够容易地导航通过未知的室内建筑物或大型综合体。诸如全球定位系统(GPS)或其它导航工具这样的现有技术方法不能够提供足够的信息。例如，除了人类导航之外，在机器人学中，现有技术方法已经集中于具有诸如物联网(IoT)和/或计算机视觉(CV)这样的大规模传感基础设施的解决方案。这些现有技术方法可以在可预测的场景(诸如，冬天和夏天之间的季节更替或者白天和晚上之间的更替以及诸如具有不经常变化的建筑结构的街道这样的结构化的场景)下提供可视化。

在现有技术中，用户期望室内定位，以对诸如办公室、大学、购物中心、机场、运动场馆、会议厅等这样的大型建筑物中的人和地点进行定位。这种室内定位可用于提供关于用户位置的感知，并且可用于与可以执行诸如自动标记帖子和图片这样的功能的应用(例如，上下文感知应用)集成。另外，现有技术的室内定位可用于室内环境中的机器人应用以及AR/VR应用。

现有技术的室内定位方法已经集中于诸如用于全球导航卫星系统(GNSS)辅助的接收器的GNSS这样的智能电话设备的使用。这种现有技术方法的可用性限于诸如用智能电话的街道导航这样的功能。另外，由于与在室内环境中遭受非视线(NLOS)问题的GPS信号关联的问题和缺点，导致诸如GPS这样的现有技术方法不可行。

现有技术方法具有各种缺点和问题。例如，但不作为限制，现有技术方法不能针对其中存在诸如比如由于事件导致的封闭地点中的人的数目的变化这样的不可预测的变化以及诸如与封闭空间关联的家具或楼层平面图的变化这样的非结构化的变化的情形提供准确的定位。现有技术系统无法解释这些类型的变化。

更具体地，现有技术方法没有提供能够使用终端装置可靠地传送室内定位的技术。已经在智能电话上尝试了包括诸如无线局域网、蜂窝、UWB、RFID、NFC、Bluetooth LowEnergy(蓝牙低功耗)等这样的射频(RF)信号的现有技术方法。然而，这些现有技术方法无法提供对室内定位要求的完整解决方案。另外，这些现有技术方法需要部署新的基础设施。现有技术方法对于具有多个传感器的基础设施的维护而言也可能具有高成本，并且可能无法随着传感器和基础设施变化而提供结果。

其它现有技术方法与基于计算机视觉的智能电话和监视相机关联。然而，这些现有技术方法涉及大规模图像，并且需要预先校准以构建图像数据库。这种相关方法需要大量的劳力和开销，因此不能满足实时定位要求。另外，由于诸如人的数目或环境的布局的变化这样的因素，导致这些现有技术方法得到在不同的时刻收集的图像数据之间的实质性变化。

更具体地，使用基于现有技术特征的图像的基于计算机视觉的技术不能够提供准确的结果。例如，除了各区域内的静态相机图像和动态相机图像之间之外，在从不同的视角捕获的内容的方面也存在大的变化。另外，个体监视相机各自具有有限的视野，这可能无法覆盖各区域内的整个环境上下文。另外，缺乏在所有区域中结合完整环境上下文的现有技术可能引起完整的环境中的诸如类似墙壁、地毯或天花板这样的多个不同区域内的大的视觉相似度这样的各种问题和缺点。这些现有技术方法可能使计算机视觉的区域检测任务混乱，并且造成不正确的检测结果。

图1例示了现有技术方法无法提供室内定位的各种情形100。例如，在101中，示出了具有大量的人并且百叶窗敞开的室内环境。在103中，示出了没有任何人并且百叶窗关闭的同一室内环境。另外，在105中，示出了在墙上具有带框的艺术品，在桌子上有计算机监视器，顶灯熄灭并且椅子远离桌子的室内环境。在107中，示出了墙上没有带框的艺术品，在桌子上的同一位置处有计算机监视器，顶灯亮并且椅子被重新定位在各计算机监视器的前方的同一室内环境。在这些环境中的每一个中，现有技术方法都无法提供解释局部环境的变化的定位信息。

因此，存在未满足的提供考虑局部环境的变化的室内定位信息的需求。

发明内容

根据示例实现方式的方面，一种用于室内环境的定位的计算机实现的方法包括以下步骤：实时地接收来自第一源的动态查询和来自第二源的静态输入；在作为嵌入网络的深度卷积神经网络(CNN)上提取所述动态查询的特征；通过应用作为条件网络的CNN来提取所述静态输入的特征，并且聚合所提取的所述静态输入的特征以生成特征变换，并且通过使用所述特征变换来对所述嵌入网络的中间特征进行调制；以及应用三元组损失函数来优化所述嵌入网络和所述条件网络，并且提供定位结果。

根据示例实现方式的方面，在所述深度CNN上提取所述动态查询的特征的步骤还包括以下步骤：应用度量学习CNN，以及在所述深度CNN上迭代地提取所述动态查询的特征并且将所述特征变换融合到所述深度CNN中。

根据示例实现方式的一些方面，所述定位结果包括指示所述第一源在所述室内环境中的位置的预测。

根据示例实现方式的其它方面，所述动态查询包括图像，并且所述第一源是与用户关联的移动终端装置，并且实时的所述静态输入包括来自所述第二源的静态图像，所述第二源包括在所述室内环境中联网的相机。

根据附加的方面，所述静态输入是带有地理标记的(geo-tagged)。

根据又一些方面，其中，在所述室内环境中的不可预测的条件和/或非结构化的条件下提供所述定位结果。另外，所述不可预测的条件可以是所述室内环境中的物体和/或人的变化，并且所述非结构化的条件可以是所述室内环境的布局的变化。

根据另外的方面，所提取的与所述静态输入关联的特征包括高级上下文信息，并且其中，所述特征变换包括缩放参数和移位参数。

示例实现方式还可以包括一种非暂时性计算机可读介质，该非暂时性计算机可读介质具有存储器和处理器，所述处理器能够执行用于评估专利是否具有条件的指令。

附图说明

本专利或申请文件包含至少一张彩色附图。专利局将按必要费用的请求和支付提供带有彩色附图的该专利或专利申请公开的副本。

图1例示了与各种示例环境关联的现有技术失败情况。

图2例示了根据示例实现方式的基线网络架构。

图3例示了根据第一示例实现方式的信息融合。

图4例示了根据第二示例实现方式的信息融合。

图5例示了在各种示例实现方式下由动态传感器和静态传感器感测的示例环境。

图6例示了根据示例实现方式的示例环境中的示例动态传感器。

图7例示了根据一个或更多个示例实现方式的与示例基线架构关联的示例处理。

图8例示了具有适用于在一些示例实现方式使用的示例计算机装置的示例计算环境。

图9示出了适用于一些示例实现方式的示例环境。

图10(a)至图10(e)例示了与示例实现方式关联的示例用户体验。

具体实施方式

下面的详细描述提供了本申请的附图和示例实现方式的更多细节。为了清楚起见，省略了附图的冗余元件的参考标号和描述。整个说明书中使用的术语仅被作为示例提供，并不旨在进行限制。

示例实现方式的方面涉及在学习实时上下文信息的同时基于由诸如监视相机等这样的感测装置所捕获的、用动态信息增强的、由来自诸如智能装置等这样的用户装置的图像提供的静态图像来提供用于室内定位的可视化信息，以便传送准确的定位。例如，而非限制地，对于具有不可预测的和非结构化的变化的环境，示例实现方式可以向一个或更多个用户提供离散位置信息，这些离散位置信息能够被用于室内环境中的导航和/或定位。

根据示例实现方式，提供了基于视觉的室内定位系统，该室内定位系统可以被用在具有诸如在大多数商业建筑空间和大型公共聚集环境中发现的监视相机系统这样的现有静态感测基础设施的室内环境中。通过使用静态感测基础设施所捕获的图像，示例实现方式将静态信息与用户装置所提供的动态图像相组合，以获得室内环境内的区域级位置并且辅助用户或机器人成功地导航室内环境。例如，示例实现方式可以提供诸如低成本、更快且更加可缩放的输出以及在现有技术方法失败的环境中的可用性这样的优点。

更具体地，示例实现方式涉及有效图像匹配和检索。来自静态感测基础设施的静态图像的(诸如来自连续地监视环境的监视相机的)信息与环境中的诸如智能电话提供的图像这样的动态的、用户生成的图像相融合。因此，除了与动态图像中的环境关联的实时显著信息之外，示例实现方式还利用跨来自静态图像的区域的不可预测的和非结构化的环境变化。

根据示例实现方式的一些方面，提供了图像检索流水线。更具体地，提供了查询图像，以使用图像匹配算法来在视觉上搜索带有地理标记的图像数据库。使用匹配的数据库图像的位置来近似查询图像的位置。

对于图像匹配的视觉分析，可以将图像编码为可辨性高的紧凑视觉特征，以实现搜索性能上的高精度和效率。与使用手工设计的局部特征描述符和/或聚合技术将视觉特征压缩到单个矢量中的现有技术的图像检索系统相比，示例实现方式涉及使用用于使用深度卷积神经网络(CNN)来学习紧凑欧几里得嵌入空间的度量学习技术。这些距离与图像的视觉相似性的度量直接对应。包括度量学习的示例实现方式大幅地简化了视觉匹配，可以使用学习嵌入空间中的简单平方L2欧几里德距离度量来执行视觉匹配。

根据示例实现方式，三元组损失用于学习嵌入。更具体地，在同一地点拍摄的图像之间的欧几里得距离(无论由于诸如相机姿势和环境变化这样的因素而导致的观看条件如何)被显著最小化，而在不同地方捕获的一对图像之间的距离大。对于特征提取，实现深度CNN架构以将图像编码成局部描述符，接着是全局池化层，从而将所有局部描述符聚合到低维空间中的单个矢量中。将按照示例实现方式的架构的参数以端到端的方式进行训练，使用三元组损失直接优化用于视觉搜索任务的嵌入空间。

图2例示了200中的根据示例实现方式的网络架构。例如，从诸如与用户的智能电话关联的相机这样的动态传感器接收信息201。图像代表查询图像。在203、205、207、209、211处将查询图像提供到深度CNN架构，该深度CNN架构将图像编码为局部描述符。在215处，全局池化层将局部描述符聚合到低维空间中的单个向量中。在217处，确定三元组损失。换句话说，应用三元组损失函数来优化用于在室内环境中提供定位结果(例如，对第一源的位置区域的预测)的嵌入网络。

根据示例实现方式，在度量学习框架中，提供了两种方法来将从静态感测基础设施捕获的信息和动态感测输入融合。分别在图3和图4中例示了这些示例方法，并且下面对此进行更详细的描述。

图3例示了根据示例实现方式的将静态信息与动态信息融合的第一方法。如在300中所示，通过用与动态源以及静态源连接的图像构成小批量，在在线三元组挖掘中使用诸如来自监视相机的静态感测图像这样的静态感测图像。这分别在301和303中被示出为输入，以生成包括静态图像和动态图像的小批量305。

一旦产生了嵌入空间，就执行来自静态源和动态源(以上也被说明为相对于图2的智能电话相机图像)的查询图像之间的图像匹配。图像匹配与图像的收集同时执行，而不需要从预先收集的数据库中搜索信息，使得示例实现方式可以使用来自当前监视相机的实时信息，这些监视相机是明式方式的静态信息源。如以下(1)中示出地表示区域级预测标签：

注意的是，x_d(t)表示诸如智能电话相机这样的动态传感器在时间t捕获的查询图像，而x_si(t)表示诸如监视相机这样的静态源在同一时间t在区域i中捕获的图像。

一旦已经执行了以上操作，就在307处执行特征提取和聚合，并且在309处获得嵌入矢量，并且在311处使用三元组损失来优化307中的参数，如以上相对于图2说明的。

根据第二示例方法，使用允许以静态相机图像为条件的嵌入网络的行为的交替的基于特征的变换来融合动态信息源和静态信息源。

图4例示了根据示例实现方式的第二示例方法400。主嵌入网络接收动态传感器图像作为其输入，并且将动态传感器图像嵌入到紧凑欧几里得空间中，如本文中说明的。更具体地，这被示出为正馈送到嵌入网络407中的诸如从用户终端接收到的智能电话图像这样的输入401。

另外，提供第二网络，该第二网络在相同的时刻接收从可以是一个或更多个监视相机的静态源接收到的各种图像作为其输入，如在403、405处示出的。在413和415处使用CNN架构从图像中提取高级上下文信息并且将其进行聚合，如在417处呈现的，在多个监视相机之间共享各卷积。

提供高级上下文信息的在419处的提取聚合的结果，以通过经由特征变换层FT对网络的中间层的特征进行变换的方式来对主嵌入网络407进行调制。特征变换层FT将调节信息整合到网络中，并且变换可以按下面的(2)来表示：

FT(x)＝γ×x+β (2)

注意的是，x表示在407处的嵌入网络的中间层的特征激活，并且γ和β分别表示由条件网络产生的缩放参数和移位参数。

一旦如上说明的度量学习已经被执行并整合到嵌入网络407中，就如以上说明地执行池化，随后在409处嵌入并且在411处确定三元组损失。

用三元组损失以端到端的方式对嵌入网络407和条件网络413、415、419的全部参数进行训练，以直接优化用于视觉搜索任务的嵌入空间。

一旦产生了经调节的嵌入空间，训练集中的动态相机图像就被转换成嵌入矢量，并且计算出属于同一区域的嵌入的均值。所有区域的平均嵌入例如不受限制地被存储在诸如离线数据库中。通过利用上述经训练的两个网络，使用同一时刻的诸如来自智能电话的查询图像和对应的静态源图像(诸如监视相机图像)来计算嵌入矢量。使用与查询最接近的数据库均值嵌入矢量来确定区域索引。

图5例示了实现示例实现方式的示例室内环境500。根据示例实现方式，没有作为同一室内环境的查询图像的包含具有区域级标签的查询图像以及与对应时间戳的关联监视图像的公共数据集。尽管这些数据集涉及小房间规模场景或多个房间，但是示例实现方式不限于此，因此可以在不脱离发明范围的情况下替代室内空间的其它规模和范围。

用静态监视相机捕获室内环境的不同部分(在本文中被表示为办公楼)，并且在一时间窗口内定期地查询动态智能电话捕获的图像。在该时间窗口期间，生成复杂的场景，包括但不限于由于事件而导致的不可预测的人流以及诸如家具、墙壁等的重新配置这样的非结构化的变化。

更具体地，501表示室内空间的楼层平面图。在区域503中，安装了多个监视相机505、507、509、511、513、515作为静态感测基础设施。用图中的相机周围的框描绘了监视相机的视野所覆盖的区域。使用诸如与一个或更多个智能电话关联的相机这样的一个或更多个动态相机来在不同的时间内捕获来自多个不同用户的查询图像。

在图5的场景中，六个不同的监视视频与该区域中存在的个人正在变化的场景以及该区域被重新布置的场景关联。根据示例实现方式，针对用户使用智能电话在该区域中捕获的查询图像标识该区域。如下面更详细说明的图10(a)至图10(e)提供了与上述示例环境关联的示例用例。

图6例示了根据与以上描述的并在图5中例示的示例实现方式关联的示例实现方式的数据收集方法。如在600中所示的，例如设置观看条件。在601和603处，提供默认条件下的场景的图像。在605和607处，所提供的图像分别包括601和603的场景，在所述场景中，人们在该区域中四处移动。在609和611处，601和603的场景的图像分别被设置有正跨区域移动的诸如桌子和椅子这样的家具。在613和615处，提供人们手持指示复杂定位条件的标志的图像。

可以通过将数据集划分为针对不同观看条件中的每一个的训练集和测试集来评估以上的不可预测的和非结构化的室内环境条件的影响。例如，但并非限制地，可以在一个条件下利用一数据集训练所提出的模型，而在不同的条件下对其它数据集进行测试。为了评估动态信息与静态信息融合的影响，将示例实现方式与使用图2中示出的示例实现方式仅在动态相机图像上训练的基线进行比较。

如下表1中所示，相对于意外条件，示出了相对于查询图像的区域级位置的预测的示例实现方式的精度。如可以看到的，与根据使用融合方法的示例实现方式的方法相比，在基线方法的区域检测精度方面显著提高。因此，除了用三元组损失在所有区域之间利用完整的上下文之外，示例实现方式还针对在各区域内捕获的静态图像和动态图像之间的大变化提供了更好的表示。

表1

如上所示，在指示不可预测的条件和非结构化的条件二者的“复杂”场景中，融合方法优于基线。另外，在实时测试中合并与查询图像对应的实时监视图像有改善。

通过与基线方法相比，合并与查询对应的实时监视图像，在不合并针对查询的任何对应的实时监视图像的情况下，对第一融合方法和第二融合方法是有利的，第一融合方法通过基于与查询图像最接近的嵌入空间中的监视图像计算区域标签，显式地利用了与查询关联的所有监视标签，在第二融合方法中，显式地利用了关联的监视图像，合并了它们的高级上下文信息，以产生经调节的嵌入空间，使用针对所有区域的平均嵌入来计算区域标签。

因此，示例实现方式可以被示出为使用具有基于低成本监视系统的定位的计算机视觉技术，以便合并实时的环境上下文，以克服由于高度动态的环境中的不可预测的和非结构化的变化而可能出现的图像匹配的大变化。

图7例示了根据示例实现方式的示例处理700。可以在一个或更多个装置上执行示例处理700，如本文中说明的。

在701处，从主体环境中存在的传感器接收静态信息。例如，而不是限制性地，静态相机可以接收诸如图像或视频这样的感测到的输入。

在703处，处理接收到的静态信息，使得使用上述CNN架构来从图像中提取高级上下文信息。另外，在705处，在该操作中还执行跨多个静态输入的聚合。

在707处，将提取并聚合的结果提供给嵌入网络，如在下面更详细说明的。注意的是，以上度量学习处理因此被用于将与主体环境关联的静态信息与诸如来自与用户关联的移动用户装置的动态信息整合。

在709处，在正接收静态图像信息的同时，从存在于主体环境中的至少一个传感器接收动态信息。例如，而不是限制性地，可以感测并接收诸如智能电话上的相机这样的可以与用户终端处的传感器关联的装置上的一个或更多个相机的动态信息。

在711处，在如上所述的深度CNN架构中使用接收到的动态信息。更具体地，对于CNN的各卷积，提供特征变换函数FT。

在卷积完成时，在将动态输入与经历条件网络和度量学习的静态输入整合的深度CNN架构中，在713处，提供全局池化层以将局部描述符聚合到单个矢量中，并且执行嵌入。

在715处，确定三元组损失，并且使用该三元组损失来训练嵌入和条件网络，如以上更详细说明的。另外，在717处，生成定位信息，并且向用户提供指示室内环境中的局部位置信息的输出。

图8例示了具有适用于在一些示例实现方式使用的示例计算机装置805的示例计算环境800。计算环境800中的计算装置805可以包括其中任一个都能够联接到用于传达信息的通信机构或总线830上或者被嵌入在计算装置805中的一个或更多个处理单元、核或处理器810、存储器815(例如，RAM、ROM等)、内部存储器820(例如，磁性、光学、固态存储和/或有机)和/或I/O接口825。

计算装置805可以在通信上联接到输入/用户接口835和输出装置/接口840。输入/用户接口835和输出装置/接口840中的任一个或两个可以是有线或无线接口并且可以是可拆卸的。输入/用户接口835可以包括能够被用于提供输入的任何装置、组件、传感器或接口(物理的或虚拟的)(例如，按钮、触摸屏界面、键盘、指向/光标控件、麦克风、相机、盲文、运动传感器、光学阅读器等)。

输出装置/接口840可以包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现方式中，输入/用户接口835(例如，用户接口)和输出设备/接口840可以被嵌入有或者物理联接到计算装置805。在其它示例实现方式中，其它计算装置可以用作计算装置805的输入/用户接口835和输出装置/接口840，或者提供计算装置805的输入/用户接口835和输出装置/接口840的功能。

计算装置805的示例可以包括但不限于高度移动装置(例如，智能电话、车辆和其它机器中的装置、人类和动物携带的装置等)、移动装置(例如，平板计算机、笔记本计算机、便携式计算机、个人计算机、便携式电视、无线电等)以及未被设计用于移动性的装置(例如，台式计算机、服务器装置、其它计算机、信息亭、其中嵌入有一个或更多个处理器和/或与一个或更多个处理器联接的电视、无线电等)。

计算装置805可以在通信上联接(例如，经由I/O接口825)到外部存储器845和网络850，以便与包括相同或不同配置的一个或更多个计算装置的任何数目的联网的组件、装置和系统进行通信。计算装置805或任何连接的计算装置可以用作服务器、客户端、瘦服务器、通用机、专用机或另一标签，提供服务器、客户端、瘦服务器、通用机、专用机或另一标签的服务，或者被称为服务器、客户端、瘦服务器、通用机、专用机或另一标签。例如，而不是限制性地，网络850可以包括区块链网络和/或云。

I/O接口825可以包括但不限于使用任何通信或I/O协议或标准(例如，Ethernet、802.11xs、通用系统总线、WiMAX、调制解调器、蜂窝网络协议等)以便与计算环境800中的至少所有连接的组件、装置和网络进行信息通信的有线和/或无线接口。网络850可以是任何网络或网络的组合(例如，因特网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

计算装置805可以使用计算机可用的或计算机可读的介质(包括暂时性介质和非暂时性介质)和/或使用计算机可用的或计算机可读的介质(包括暂时性介质和非暂时性介质)进行通信。暂时性介质包括传输介质(例如，金属电缆、光纤)、信号、载波等。非暂时性介质包括磁性介质(例如，磁盘和磁带)、光学介质(例如，CD ROM、数字视频盘、蓝光盘)、固态介质(例如，RAM、ROM、闪存、固态存储器)和其它非易失性存储器或内存。

计算装置805可以用于在一些示例计算环境中实现技术、方法、应用、处理或计算机可执行的指令。计算机可执行的指令可以被从暂时性介质中获取，以及被存储在非暂时性介质上并且从该非暂时性介质中获取。可执行的指令可以源自任何编程、脚本和机器语言(例如，C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)中的一种或更多种。

处理器810可以在本地或虚拟环境中在任何操作系统(OS)(未示出)下执行。可以部署一个或更多个应用，包括逻辑单元855、应用编程接口(API)单元860、输入单元865、输出单元870、动态/静态处理单元875、融合单元880、定位信息单元885以及便于不同单元彼此通信、与OS通信和与其它应用(未示出)通信的单元间通信机构895。

例如，动态/静态处理单元875、融合单元880和定位信息单元885可以实现以上相对于上述结构示出的一个或更多个处理。所描述的单元和元件可以在设计、功能、配置或实现方式上有所不同，并且不限于所提供的描述。

在一些示例实现方式中，当API单元860接收到信息或执行指令时，可以将信息或执行指令传达给一个或更多个其它单元(例如，逻辑单元855、输入单元865、动态/静态处理单元875、融合单元880和定位信息单元885)。

例如，动态/静态处理单元875可以从各种静态传感器(例如，安保相机)和动态传感器(例如，诸如具有相机的智能电话这样的用户装置)接收信息并处理信息。动态/静态处理单元875的输出被提供到融合单元880，融合单元880执行一个或更多个处理以融合静态信息和动态信息，例如，如诸如相对于图3和图4更详细说明的。融合单元880的输出被提供到定位信息单元885，定位信息单元885提供用户装置可以接收到的输出，例如，以提供与室内定位信息关联的信息。

在一些情形下，在上述的一些示例实现方式中，逻辑单元855可以被配置为控制单元之间的信息流并且引导由API单元860、输入单元865、动态/静态处理单元875、融合单元880和定位信息单元885提供的服务。例如，一个或更多个处理或实现方式的流程可以由逻辑单元855单独地或者与API单元860结合地控制。

图9示出了适用于一些示例实现方式的示例环境。环境900包括装置905-945，并且各装置经由例如网络960(例如，通过有线连接和/或无线连接)在通信上连接到至少一个其它装置。一些装置可以在通信上连接到一个或更多个存储装置930和945。

一个或更多个装置905-945的示例可以分别是图8中描述的计算装置805。装置905-945可以包括但不限于具有如以上说明的监视器和关联的网络摄像头的计算机905(例如，膝上型计算装置)、移动装置910(例如，智能电话或平板计算机)、电视915、与车辆920关联的装置、服务器计算机925、计算装置935-940、存储装置930和945。

在一些实现方式中，装置905-920可以被认为是与企业的用户关联的用户装置。装置925-945可以是与服务提供商关联的装置(例如，由外部主机使用它来提供如上所述的并且相对于各种附图的服务，和/或存储诸如网页、文本、文本部分、图像、图像部分、音频、音频片段、视频、视频片段和/或与其有关的信息这样的数据)。在当前的示例实现方式中，这些用户装置中的一个或更多个可以与静态信息传感器关联，并且所述一个或更多个装置中的其它装置可以与动态信息传感器关联。

图10(a)至图10(e)例示了与当前示例实现方式关联的示例用户体验。如以上公开的，与诸如智能电话这样的终端装置关联的用户可以诸如通过智能电话上的相机来接收感测到的动态图像。根据示例实现方式，可以向用户提供在线应用，该在线应用作为由处理器执行的一系列指令来操作。指令可以被本地存储在终端装置处或者被远程地(诸如云或在别处)存储。另外，可以在处理器上执行如以上说明的可以被本地存储在终端装置处或者被远程地存储的指令。在线应用的输出被提供到用户，使得用户具有提供室内定位信息的室内体验。

如图10(a)中所示，在线应用可以由用户在终端装置上启动，并且可以提供与用户的位置关联的初始楼层平面图1001。另外，图像1003可以被提供给用户；该图像是基于从在用户装置上启动的传感器接收到的信息。

如图10(b)中所示，图像可以被用户捕获。在1007处，还向用户显示捕获的图像，该捕获的图像被作为输入动态信息提供到示例实现方式。在1001处示出的楼层平面图保持与原始楼层平面图相同。

此时，以上示例实现方式正使用被捕获并在1007处示出的、与来自例如在如上所述的图5中示出的一个或更多个静态图像传感器的静态图像相结合的感测到的动态图像。例如，而不是限制性地，可以执行以上相对于图4和图7描述的操作，这些操作在如同在1005处示出的用户界面中被呈现为指示正在进行的处理操作的符号。

如图10(c)中所示，一旦示例实现方式完成了如以上说明的操作，就在1011处提供与基于监视系统的预测区域关联的图像。另外，在如同在1009处示出的楼层平面图上突出显示该预测区域。

此时，用户经由与用户关联的装置上的接口接收当前相机图像1003、已被提供以便作为动态信息处理的所捕获的相机图像1007以及在1011处的针对预测区域的监视系统的图像的显示。

如图10(d)中所示，用户可能希望使用楼层平面图作为指导从在1009处示出的预测的当前位置导航到另一位置。因此，用户可以诸如通过触摸具有与监视系统关联的静态传感器的楼层平面图的一部分来向在线应用提供输入。

此时，用户将楼层平面图上的另一位置选择为1013。在线应用生成通向在另一位置处的期望目的地的路径，如在图10(d)中用虚线所示出的。因此，用户可以基于以上示例实现方式所提供的预测，使用楼层平面图从当前位置导航到所期望的位置。

随着用户从当前位置导航到所期望的位置，与用户装置关联的相机的当前图像信息可以改变，如图10(e)中所示。例如，在1015处，用户正从在楼层平面图上示出为1009的位置步行到1013处的所期望的位置。可选地，取决于静态传感器的存在，随着用户从原始位置行进到所期望的目的地，可以提供一个或更多个附加界面来示出与新的当前位置关联的用户信息。

根据另一示例实现方式，在存在许多与目的地非常相似的环境的情况下，还可以在整个过程中向用户提供与所期望的目的地关联的预测的或历史的图像(例如，来自过去的导航迭代，或者来自实际的监视系统信息)。例如，在具有许多可能看起来彼此相似的出口的火车站的示例实现方式中，此信息可以是可用的，使得用户能够确定用户是否处于所期望的目的地。如果不是，则用户可以接着调整他们的定位并且尝试再次导航到所期望的目的地。

一旦用户成功地到达了目的地，用户就可以经由在线应用提供关于结果的正确性的反馈。例如，这可以采用二进制批准或不批准的形式，如在1017处所示。另选地，可以向用户提供其它选项，诸如当关于不正确的部分的结果不正确时更细化的反馈请求，或者能够被反馈到模型中以供将来使用的与环境的变化关联的信息。

示例实现方式可以具有各种益处和/或优点。例如，而不是限制性地，示例实现方式用基于多个监视相机的真实世界系统来利用完整的环境上下文，并且不会遭受依赖于语义检测器的现有技术的弱框架的困扰。因此，通过独立于个体语义检测器，并且通过将实时的上下文与基于深度学习的融合合并，示例实现方式提供了可靠的、实时的、基于上下文的方法。可以聚合来自多个用户的响应，以提供更大规模的反馈。

示例实现方式的附加方面可以可选地包括利用现有的区域级定位来减少搜索空间，并且用相机姿势细节提供高效的用于定位的计算。另外，可以在各区域内以及跨区域执行自我监管的语义活动检测和监视，以提供超越定位信息和以用户或装置为中心的活动模式的高质量上下文。示例实现方式可以适合于室内导航、机器人重新定位、免校准大规模AR/VR等的上下文。使用环境可以包括但不限于繁忙的火车站、拥挤的大型购物中心、展览馆等。

另外，与诸如使用磁场来利用局部异常和稳定的地磁场进行室内定位的方法这样的现有技术方法相比，示例实现方式提供了比基于磁场的现有技术方法的3.5m精度高得多的定位精度。由于现有技术方法的精度低，因此不能保证现有技术定位指纹的唯一性。

另外，与现有技术方法相比，示例实现方式不需要修改现有的静态感测基础设施(例如，安保相机系统)，而同时结合了不依赖于媒介、低精度语义推断模块、启发式模型或其它昂贵的传感器基础设施的计算机视觉方法。根据示例实现方式，这是通过以下操作来实现的：将该方法表述为利用实时监视数据信息而无需用于生成大规模图像数据库的劳动密集型地面实况标记的高效图像检索深度学习模型来预测精确的室内定位，即便是在高度动态环境中，在这些环境中具有不可预测的和非结构化的变化。因此，可以提供低成本的、高精度的室内定位系统，该室内定位系统可以能够提供详细的姿势估计，并且还可以与包括但不限于室内导航、机器人重新定位和/或免校准的大规模AR/VR的其它应用整合。

尽管已示出并描述了一些示例实现方式，但是提供这些示例实现方式是为了将本文中描述的主题传达给熟悉该领域的人。应该理解，本文中描述的主题可以按各种形式实施，而不限于所描述的示例实现方式。可以在没有那些具体限定或描述的主题的情况下或者在没有描述的其它或不同的元素或主题的情况下实践本文中描述的主题。本领域技术人员应该了解，可以在不脱离如所附的权利要求及其等同物所限定的本文中描述的主题的情况下对这些示例实现方式进行改变。

Claims

1.一种用于室内环境的定位的计算机实现的方法，该方法包括以下步骤：

实时地接收来自第一源的动态查询和来自第二源的静态输入；

在作为嵌入网络的深度卷积神经网络CNN上提取所述动态查询的特征；

通过应用作为条件网络的CNN来提取所述静态输入的特征，并且聚合所提取的所述静态输入的特征以生成特征变换，并且通过使用所述特征变换来对所述嵌入网络的中间特征进行调制；以及

应用三元组损失函数来优化所述嵌入网络和所述条件网络，并且提供定位结果。

2.根据权利要求1所述的计算机实现的方法，其中，所述定位结果包括指示所述第一源在所述室内环境中的位置的预测。

3.根据权利要求1所述的计算机实现的方法，其中，所述动态查询包括图像，并且所述第一源是与用户关联的移动终端装置，并且实时的所述静态输入包括来自所述第二源的静态图像，所述第二源包括在所述室内环境中联网的相机。

4.根据权利要求1所述的计算机实现的方法，其中，所述静态输入是带有地理标记的。

5.根据权利要求1所述的计算机实现的方法，其中，在所述室内环境中的不可预测的条件和/或非结构化的条件下提供所述定位结果。

6.根据权利要求5所述的计算机实现的方法，其中，所述不可预测的条件包括所述室内环境中的物体和/或人的变化，并且所述非结构化的条件包括所述室内环境的布局的变化，并且其中，所提取的与所述静态输入关联的特征包括高级上下文信息，并且其中，所述特征变换包括缩放参数和移位参数。

7.根据权利要求1所述的计算机实现的方法，其中，在所述深度CNN上提取所述动态查询的特征的步骤还包括以下步骤：应用度量学习CNN，以及在所述深度CNN上迭代地提取所述动态查询的特征并且将所述特征变换融合到所述深度CNN中。

8.一种能够用于室内环境的定位的服务器，该服务器被配置为执行以下操作：

9.根据权利要求8所述的服务器，其中，所述定位结果包括指示所述第一源在所述室内环境中的位置的预测。

10.根据权利要求8所述的服务器，其中，所述动态查询包括图像，并且所述第一源是与用户关联的移动终端装置，并且实时的所述静态输入包括来自所述第二源的静态图像，所述第二源包括在所述室内环境中联网的相机。

11.根据权利要求8所述的服务器，其中，所述静态输入是带有地理标记的。

12.根据权利要求8所述的服务器，其中，在所述室内环境中的不可预测的条件和/或非结构化的条件下提供所述定位结果，并且其中，所述不可预测的条件包括所述室内环境中的物体和/或人的变化，并且所述非结构化的条件包括所述室内环境的布局的变化。

13.根据权利要求8所述的服务器，其中，在所述深度CNN上提取所述动态查询的特征还包括应用度量学习CNN，以及在所述深度CNN上迭代地提取所述动态查询的特征并且将所述特征变换融合到所述深度CNN中。

14.根据权利要求8所述的服务器，其中，所提取的与所述静态输入关联的特征包括高级上下文信息，并且其中，所述特征变换包括缩放参数和移位参数。

15.一种非暂时性计算机可读介质，该非暂时性计算机可读介质具有存储有由处理器执行的指令的存储器，所述指令包括：

通过应用作为条件网络的CNN来提取所述静态输入的特征，并且聚合所提取的所述静态输入的特征来生成特征变换；以及

16.根据权利要求15所述的非暂时性计算机可读介质，其中，所述定位结果包括指示所述第一源在室内环境中的位置的预测。

17.根据权利要求15所述的非暂时性计算机可读介质，其中，所述动态查询包括图像，并且所述第一源是与用户关联的移动终端装置，并且实时的所述静态输入包括来自所述第二源的静态图像，所述第二源包括在室内环境中联网的相机，并且其中，所述静态输入是带有地理标记的。

18.根据权利要求15所述的非暂时性计算机可读介质，在所述深度CNN上提取所述动态查询的特征还包括应用度量学习CNN，以及在所述深度CNN上迭代地提取所述动态查询的特征并且将所述特征变换融合到所述深度CNN中。

19.根据权利要求15所述的非暂时性计算机可读介质，其中，在室内环境中的不可预测的条件和/或非结构化的条件下提供所述定位结果，其中，所述不可预测的条件包括所述室内环境中的物体和/或人的变化，并且所述非结构化的条件包括所述室内环境的布局的变化。

20.根据权利要求15所述的非暂时性计算机可读介质，其中，所提取的与所述静态输入关联的特征包括高级上下文信息，并且其中，所述特征变换包括缩放参数和移位参数。