CN108932275B

CN108932275B - 用于地理空间对象/特性检测的贝叶斯方法

Info

Publication number: CN108932275B
Application number: CN201810150231.9A
Authority: CN
Inventors: 迈克尔·格林
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-05-24
Filing date: 2018-02-13
Publication date: 2021-08-31
Anticipated expiration: 2038-02-13
Also published as: US20210350189A1; CN108932275A; US11915478B2; US11087181B2; EP3580690A1; EP3580690B1; WO2018217193A1; US20200012903A1

Abstract

公开了用于地理空间对象/特性检测的贝叶斯方法。使用观察和非观察来确定感兴趣对象(205)的位置。多个图像(341‑345)与图像捕获信息(包括图像捕获位置(221‑225))相关联地存储在数据库中。图像识别用于确定图像中的哪些图像包括感兴趣对象(205)以及图像中的哪些图像不包括感兴趣对象。对于捕获图像的区域内的多个候选位置(455)中的每一个，使用确定为包括感兴趣对象的图像的图像捕获信息，并且使用确定为不包括感兴趣对象的图像的图像捕获信息来计算在候选位置处存在感兴趣对象的可能性值。使用多个候选位置的可能性值来确定该对象的位置。

Description

用于地理空间对象/特性检测的贝叶斯方法

背景技术

随着时间的推移，越来越多的地理空间影像(imagery)变得可用。通过这样的影像执行语义搜索随着数量的增加变得更具挑战性。语义搜索是通过名称而不是精确的像素模式寻找特定的对象或环境属性，诸如灯柱或公园土地。传统的语义搜索方法需要手动查看，并且新兴的方法需要精心训练和特定于调整目的的图像识别模型。例如，手动三角测量非常劳动密集、速度慢且成本高，而自动三角测量需要复杂和费力地创建特定于本地化的图像识别模型或非常高分辨率的影像，并且仍可提供不精确的位置。虽然通用图像分类模型可用于照片存储或网页搜索，但这些非特定模型缺乏精确性来充分定位对象。

发明内容

本公开的一个方面提供了一种确定感兴趣对象的位置的方法。该方法包括从图像的数据库中识别与感兴趣区域有关的多个图像的集合，多个图像中的每一个图像具有与其相关联的图像捕获信息，所述图像捕获信息至少包括图像捕获位置。该方法进一步包括：将图像识别工具应用于多个图像的集合中的每一个图像；以及基于图像识别工具的应用，确定所述多个图像中的哪些图像包括感兴趣对象以及所述多个图像中的哪些图像不包括感兴趣对象。对于感兴趣区域中的多个候选位置中的每一个候选位置，使用所述多个图像的集合中被确定为包括感兴趣对象的图像的图像捕获信息，并且使用所述多个图像的集合中被确定为不包括感兴趣对象的图像的图像捕获信息，计算在相应候选位置处存在所述感兴趣对象的可能性值。使用多个候选位置的可能性值来确定所述感兴趣对象的位置。

根据一些示例，用于所述多个图像中的至少一些图像的图像捕获信息包括图像捕获位置和图像捕获定向，并且其中计算在给定位置处存在所述感兴趣对象的所述可能性值包括使用图像捕获定向。

在前述任一实施例中，确定所述多个图像中的哪些图像包括感兴趣对象以及所述多个图像中的哪些图像不包括感兴趣对象包括确定图像包括或不包括感兴趣对象的置信度因子，以及其中计算在位置处存在所述感兴趣对象的所述可能性值包括使用所确定的置信度因子。

在任何前述实施例中，计算在候选位置处存在的感兴趣对象的所述可能性值包括：对多个图像的集合中被确定为包括感兴趣对象的图像应用具有第一符号的因子，对多个图像的集合中被确定为不包括感兴趣对象的图像应用具有第二符号的因子，第二符号与第一符号相反。

在任何前述实施例中，感兴趣区域中的多个候选位置可以包括多个位置的网格。

在任何前述实施例中，多个候选位置可以包括包含在多个图像的集合中的每一个图像的视场中的位置。

在任何前述实施例中，图像识别工具可以被配置为检测离散对象。

在任何前述实施例中，图像识别工具可以被配置为检测具有特定特性的对象。

在任何前述实施例中，图像识别工具可以是从图像识别工具的库中选择的。

本公开的另一方面提供了一种系统，该系统包括存储与位置信息相关联的多个图像的存储器以及与存储器通信的一个或多个处理器。一个或多个处理器被编程为从多个图像中识别与感兴趣区域有关的图像的集合，使用图像识别来确定所述图像中的哪些图像包括感兴趣对象，并且使用图像识别来确定所述图像中的哪些图像不包括感兴趣对象。对于感兴趣区域中的多个候选位置中的每一个候选位置，使用所述图像的集合中被确定为包括感兴趣对象的图像的位置信息，并且使用所述图像的集合中被确定为不包括感兴趣对象的图像的位置信息，计算在相应候选位置处存在所述感兴趣对象的可能性值。一个或多个处理器被进一步编程为使用多个候选位置的可能性值来确定所述感兴趣对象的位置。在一些示例中，该系统还可以包括用于识别图像中的对象或属性的图像识别工具。此外，一个或多个处理器还可以被配置为提供所确定的位置信息以供输出到显示器。

本发明的另一个方面提供一种存储指令的计算机可读介质，指令可由处理器执行以执行确定感兴趣对象的位置的方法。这样的指令提供用于从图像的数据库中识别与感兴趣区域有关的多个图像的集合，图像中的每一个图像具有与其相关联的图像捕获信息，图像捕获信息至少包括图像捕获位置，将图像识别工具应用于所述多个图像的集合中的每一个图像；基于图像识别工具的应用，确定所述多个图像中的哪些图像包括感兴趣对象以及所述多个图像中的哪些图像不包括感兴趣对象。指令还提供对于感兴趣区域中的多个候选位置中的每一个候选位置，使用所述多个图像的集合中被确定为包括感兴趣对象的图像的图像捕获信息，并且使用所述多个图像的集合中被确定为不包括感兴趣对象的图像的图像捕获信息，计算在相应候选位置处存在所述感兴趣对象的可能性值，并且使用多个候选位置的可能性值来确定所述感兴趣对象的位置。

附图说明

图1是根据本公开的方面的示例系统的框图。

图2是根据本公开的方面的示例观察和非观察的俯视图图示。

图3示出了与图2的观察和非观察的俯视图图示相关联的街道级别影像。

图4是根据本公开的方面的与多个小区有关的观察和非观察的俯视图图示。

图5是根据本公开的方面的观察和非观察的另一个示例的俯视图图示。

图6是根据本公开的方面的观察和非观察的另一个示例的俯视图图示。

图7是根据本公开的方面的使用边界框的示例聚焦观察的俯视图图示。

图8是根据本公开的方面的示例障碍的俯视图图示。

图9是根据本公开的方面的影响观察的障碍的示例概率的俯视图图示。

图10图示出了根据本公开的方面的使用观察和非观察的语义搜索的示例输出。

图11是图示出根据本公开的方面的使用观测和非观测来确定对象位置的示例方法的流程图。

具体实施方式

概述

本技术一般涉及图像识别和地图。更具体地，从观察和非观察二者导出的信息被用于定位特定对象或特征。例如，为了在目标地理区域内定位所有消防栓，可以对该区域的图像执行图像识别，其中包括消防栓的图像以及不包括消防栓的图像被用于更精确地计算每一个消防栓的位置。观察附近的非观察显著缩小了对象可以处于的位置范围。通过使用图像识别工具并计算多个位置的可能性，即使图像不是高分辨率和/或与低分辨率或不可靠的图像捕获信息相关联，也可以相对容易地并以相对高的置信度确定对象的位置。例如，这可以允许使用例如来自智能电话的非专业内容执行对象位置识别。通过使用未被确定为包括感兴趣对象的图像的信息，可以改善对象位置识别。此外，这可以以没有或相对较少的计算成本实现。

对于特定对象或特征的候选位置集合确定初始化值。例如，可以将每一个候选位置的初始化值设置为零，或者在更复杂的版本中，在图像识别分析之前将其设置为先前可能性值，表示对象或特征存在于该位置的可能性。例如，对于每一个位置，在应用图像识别工具之前，基于目标区域中的消防栓的数量和目标区域的尺寸，该位置包含消防栓的可能性可以是x％。候选位置可以均由例如站点的离散列表(例如，仅街道拐角)、目标区域的网格或网格分割、目标区域的栅格化地图(例如，栅格的每一个像素是单元)、或连续的向量和渐变定义的区域集合来限定。

对于多个图像中的每一个图像，将图像识别工具应用于图像以获得特定对象或特征在图像中可见的分值或置信度评级。可以将该分值或置信度评级转换为指示在图像识别之后对象位于图像中所描绘的区域中的可能性增加的量的归一化值。例如，在图像包含消防栓的先前可能性(在图像识别分析之前)为x％的情况下，在图像识别之后，取决于图像中是否识别到消防栓可能性可以从x％增加到(x+n)％或从(x％)减小到(x-m)％。并且在处理连续的图像之后，先前可能性可以连续地(相加地或以其他方式)增加或减少为后验概率和/或归一化的可能性分值。在一些示例中，可以使用日志贝叶斯因子。这可以提供使用对象的观察和对象的非观察二者来识别对象的位置的特别计算有效的方式。

包含在每一个图像的视场内的候选位置例如使用相机特性和姿态被识别。在一些示例中，相机几何结构加上一些默认水平距离可以定义与初始化的候选位置集合进行比较的扇区，以确定哪些候选位置包含在该扇区内。在其他示例中，可以使用衰减函数来表示对象在实际存在的条件下其在图像中可见的可能性，例如将对象在图像中可能的遮挡因子考虑在内。衰减函数可以是非径向的和/或位置相关的，例如考虑到其他因子，如会增加遮挡风险的局部人口密度或植被密度。使用与图像捕获设备的定向有关的信息可以允许改进的对象位置检测。然而，即使一些或全部图像不包括图像捕获定向信息，也可以执行对象位置检测。

可以基于这些位置候选中的每一个位置候选的标准化值和初始化值，对于确定为在图像中可见的每一个候选位置计算可能性分值。例如，标准化值可以被添加到初始化值或与初始化值相乘，如果使用衰减函数，则打折扣。在一些示例中，可能性分值可以与阈值进行比较，超过该阈值则可以将对象确定为在对应于该可能性分值的候选位置处。在其他示例中，可能性分值可以被转换为该对象或属性出现在该候选位置处的概率。即使在来自图像识别工具的对象识别中不存在绝对置信度，这也可以允许将信息用于对象位置识别。

示例系统

图1图示出了用于图像的语义搜索的示例系统。不应将其视为限制公开的范围或本文所述特征的有用性。在该示例中，系统100可以包括通过网络150与一个或多个客户端设备160、170以及存储系统140通信的计算设备110。每一个计算设备110可以包含一个或多个处理器120、存储器130和通常存在于通用计算设备中的其他组件。计算设备110中的每一个的存储器130可以存储可由一个或多个处理器120访问的信息，包括可由一个或多个处理器120执行的指令134。

存储器130还可以包括可以由处理器检索、操纵或存储的数据132。存储器可以是能够存储处理器可访问的信息的任何非暂时类型，诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD ROM、可写入和只读存储器。

指令134可以是诸如机器代码的要由一个或多个处理器直接执行的任何指令集合，或诸如脚本的间接执行的任何指令集合。就此而言，术语“指令”、“应用”、“步骤”和“程序”在本文中可以互换使用。指令可以以目标代码格式存储以供处理器直接处理，或以任何其他计算设备语言(包括脚本或按需解释或预先编译的独立源代码模块的集合)存储。下面将更详细地解释指令的功能、方法和例程。

数据132可以根据指令134由一个或多个处理器220检索、存储或修改。例如，尽管本文描述的主题不受任何特定数据结构的限制，但是数据可以被存储在计算机寄存器中、在关系数据库中作为具有许多不同字段和记录的表、或XML文档。数据也可以以任何计算设备可读格式格式化，诸如但不限于二进制值、ASCII或Unicode。此外，数据可以包括足以识别相关信息的任何信息，诸如数字、描述性文本、专有代码、指针、存储在其他存储器中(诸如在其他网络位置处)的数据的引用、或者由函数用于计算相关数据的信息。

一个或多个处理器120可以是任何常规的处理器，诸如市售CPU。替选地，处理器可以是专用组件，诸如专用集成电路(“ASIC”)或其他基于硬件的处理器。虽然不是必需的，但是计算设备110中的一个或多个可以包括专用硬件组件以执行诸如图像识别、对象识别、图像编码、标记等的特定计算过程。

虽然图1在功能上将计算设备110的处理器、存储器和其他元件示出为处于相同的块内，但是处理器、计算机、计算设备或存储器实际上可以包括可以存储或不存储在相同物理壳体内的多个处理器、计算机、计算设备或存储器。例如，存储器可以是位于与计算设备110不同的壳体中的硬盘驱动器或其他存储介质。因此，对处理器、计算机、计算设备或存储器的引用将被理解为包括对可以并行或不可以并行操作的处理器、计算机、计算设备，或存储器的集合的引用。例如，计算设备110可以包括作为负载平衡服务器群、分布式系统等进行操作的服务器计算设备。另外，尽管下面描述的一些功能被指示为发生在具有单个处理器的单个计算设备上，但是本文所述主题的各种方面可以例如在“云”中由多个计算设备来实现。类似地，不同位置处的存储器组件可以存储指令134的不同部分，并共同形成用于存储指令的介质。本文描述为由计算设备执行的各种操作可以由虚拟机执行。举例来说，指令134可以特定于第一类型的服务器，但是相关的操作可以由运行模拟第一类型的服务器的管理程序的第二类型的服务器来执行。操作也可以由容器执行，例如，不依赖与特定类型的硬件绑定的操作系统的计算环境。

计算设备110、160、170中的每一个可以位于网络150的不同节点处，并且能够直接和间接地与网络150的其他节点进行通信。尽管在图1中仅描绘了少数几个计算设备，但是应当认识到典型的系统可以包括大量的连接的计算设备，其中每一个不同的计算设备在网络150的不同的节点处。本文描述的网络150和中间节点可以使用各种协议和系统来互连，使得该网络可以是互联网、万维网、特定内联网、广域网或局域网的一部分。网络可以使用标准通信协议，诸如以太网、WiFi和HTTP，专用于一个或多个公司的协议以及前述的各种组合。尽管当如上所述发送或接收信息时获得了某些优点，但是本文描述的主题的其它方面不限于任何特定的信息传输方式。

作为示例，计算设备110中的每一个可以包括能够经由网络150与存储系统140以及计算设备160、170进行通信的网络服务器。例如，服务器计算设备110中的一个或多个可以使用网络150在诸如计算设备160的显示器165的显示器上向用户传送和呈现信息。就此而言，计算设备160、170可以被认为是客户端计算设备并且可以执行本文描述的全部或一些特征。

客户端计算设备160、170中的每一个可以与服务器计算设备110类似地配置，具有如上所述的一个或多个处理器、存储器和指令。每一个客户端计算设备160、170可以是旨在供用户使用的个人计算设备，并且具有通常与个人计算设备结合使用的所有组件，诸如中央处理单元(CPU)、存储数据和指令的存储器(例如RAM和内部硬盘驱动器)、诸如显示器165的显示器(例如，具有屏幕的监视器、触摸屏、投影仪、电视机或可操作来显示信息的其他设备)以及用户输入设备166(例如，鼠标、键盘、触摸屏或麦克风)。客户端计算设备还可以包括用于记录视频流和/或捕获图像的相机167、扬声器、网络接口设备以及用于将这些元件彼此连接的所有组件。客户端计算设备160还可以包括位置确定系统，诸如GPS 168。位置确定系统的其它示例可以基于无线接入信号强度、诸如地标的地理对象的图像、诸如光或噪声级别的语义指示符等来确定位置。

虽然客户端计算设备160、170都可以包括全尺寸的个人计算设备，但是它们可以可选地包括能够通过诸如互联网的网络与服务器无线地交换数据的移动计算设备。仅作为示例，客户端计算设备160可以是移动电话或诸如支持无线的PDA、平板电脑、上网本、智能手表、头戴式计算系统的设备或者能够经由互联网获得信息的任何其他设备。作为示例，用户可以使用小键盘、键盘、麦克风、使用相机或触摸屏的可视信号来输入信息。

在其他示例中，客户端设备160、170中的一个或多个可以主要用于输入到服务器110或存储器140。例如，客户端设备170可以是捕获地理图像的图像捕获设备。例如，图像捕获设备170可以是安装到车辆用于收集街道级别影像的静止相机或视频相机。作为另一个示例，图像捕获设备170可以使用声纳、LIDAR、雷达、激光或其他图像捕获技术。在其他示例中，设备160可以是音频捕获设备，诸如用于获取音频的麦克风或其他设备。在进一步的示例中，图像捕获装置可以是无线电频率收发器或电磁场检测器。此外，图像捕获设备170可以是手持的或者安装到诸如无人驾驶飞行器的设备上。相应地，图像捕获设备170可以捕获街道级别图像、航拍图像或以任何其他角度的图像。

与存储器130一样，存储系统140可以是能够存储服务器计算设备110可访问的信息的任何类型的计算机化的存储器，诸如硬盘驱动器、存储卡、ROM、RAM、DVD、CD ROM、可写入和只读存储器。另外，存储系统140可以包括分布式存储系统，其中数据存储在可以物理上位于相同或不同地理位置的多个不同存储设备上。存储系统140可以经由网络150连接到计算设备，如图1所示和/或可以直接连接到计算设备110中的任何一个。

存储系统140可以存储数据，诸如地理图像。地理图像可以与其他数据(诸如位置数据)相关联地存储。例如，每一个地理图像可以包括识别在此图像被捕获的位置、相机角度、时间、日期、环境条件等的元数据。作为另一个示例，地理图像可以例如基于区域、日期或任何其他信息被分类或分组。

图2是特定对象205的示例观察和非观察的俯视图图示。在该示例中，沿着道路210移动的图像捕获设备捕获沿着道路210在多个捕获位置221-225中的每一个位置处的图像。每一个图像具有相关联的视场231-235。例如，基于图像捕获设备在捕获位置221处的位置和角度，其捕获视场231内的所有事物的影像。类似地，在随后的捕获位置223处，图像捕获设备将会捕获视场233内的对象的影像。当搜索特定对象205时，包括对象205的视场233和234被视为该对象的观察。不包括对象205的视场231、232和235被视为非观察。

观察和非观察都用于精确确定对象205的位置。例如，考虑对象205不位于哪里有助于缩小对象205位于哪里的可能性。如下面进一步详细解释的，使用观察和非观察来确定对象205的位置包括初始化检测位置候选集合，诸如通过设置为零或设置为候选位置的可能性，其中在查看影像之前确定可能性。这样的确定可以基于可用的信息，诸如分区、人口密度、非视觉信号等。然后查看每一个图像以获得对象在图像中可见的分值或置信度评级。使用归一化函数，将置信度评级转换成一个值，在该图像的观察的条件下，该值接近于位于该图像的视场中的对象的后置图像查看几率超过先前几率的量。相机特性和姿态被用来确定哪些候选位置被包含在该图像的视场中。候选位置可以是例如相机几何定义的扇区和一些默认的水平距离。然后归一化的值被与确定为在图像中可见的候选位置中的每一个候选位置的初始化值相加或相乘。结果，产生每一个候选位置的可能性分值。该可能性分值可以与阈值进行比较，超过阈值则确定对象位于该候选位置。

在一些示例中，可以通过使用诸如径向衰减函数的衰减函数来实现更高的精度，所述衰减函数表示在对象实际存在的条件下在每一个图像中对象将是可见的概率。例如，有时对象可能被其他对象(诸如树木、汽车、栅栏等)在图像中遮挡。通过使用非径向或位置相关的衰减函数，可以达到更高的精度。这种函数可以考虑其他因子，如本地人口密度或植被密度，这会增加遮挡的风险。在这些示例中，结果不仅是简单的布尔是/否以便包含，而且还包括折扣因子，其反映了除了不存在(non-presence)之外的原因(诸如遮挡)的假否定(false negative)的可能性。

除了检测对象之外，这些技术还可以用于确定属性的精确位置。例如，可以对于阳光明媚的地理区域执行搜索，诸如用于房地产搜索目的。因此，描绘高于阈值的自然光级别的图像可以被识别为观察，并且描绘低于阈值的自然光级别的图像可以被识别为非观察。也可以考虑相关时间戳信息，诸如通过将搜索到的图像限制为在一天中的特定时间(例如，白天)期间拍摄的图像。与非观察相关联的图像捕获信息可以用于帮助精确定位阳光明媚的区域。

图3图示出了与从捕获位置221-225捕获的图像相对应的街道级别影像的示例。影像包括重叠的多个单独图像341-345，从而形成扩展或全景图像。每一个图像341-345的视场对应于来自图像捕获位置221-225的视场231-235。在该示例中，对象205对应于消防栓305。然而，可以搜索任何其他类型的对象或属性，诸如洗手间362、游乐场设备364、天气状况366或未示出的各种其他对象或属性中的任何一种。

在一些示例中，感兴趣区域可以由包括多个单元的网格来定义。例如，图4提供了关于网格450中的多个单元455的观察和非观察的俯视图图示。每一个单元455可以对应于地理区域的子划分，其中每一个单元在尺寸和形状上大体相等。在一个示例中，单元可以由纬度和经度的点来定义。

网格450可以用于定义对象205的候选位置。例如，在查看图像之前，可以确定包含对象205的每一个单元的概率。例如，如果对象205是消防栓，则地理区域中的消防栓数量可以是已知的，并且该数量可以除以单元455的数量。然后对于沿着道路210拍摄的每一个图像，可以确定该图像是否指向包括单元的方向。例如，每一个图像可以与图像捕获位置相关联地存储，并且还可以存储方向，诸如在图像捕获设备指向的方向上。方向可以由诸如北、西等常规坐标相对于诸如第一街和第二街之间的其他对象或通过任何其他机制来定义。单元455的位置可以是已知的，因此可以执行比较以确定图像是否包括单元。每一个单元可以被视为离散数据点，正的或负的。在图4的示例中，单元455中的每一个可以被认为是对象205的候选位置。在查看图像之前，包括对象205的每一个单元的初始概率对于每一个单元455可以是近似相同的。

然后可以例如使用图像识别工具来查看图像341-345以检测图像中的对象。基于查看，可以为每一个候选位置计算分值或置信度评级，分值或置信度评级指示该对象位于候选位置内的可能性。对于每一个图像，可以使用归一化函数将该置信度评级转换为值。在一些示例中，归一化可以包括调整每一个单元455的先前计算的概率。例如，对于每一个观察，包括在那些观察的视场233、234中的单元可以以对象205位于该单元中的概率增加。非观察的视场231、232、235内的单元可归因于减少的概率。

例如，基于与所查看的图像内的对象205的一般位置相比较的单元的位置，特定视场中的一些单元可归因于比其他单元更高的分值或置信度评级。例如，消防栓205被示为定位在图像343的左侧部分中。因此，视场233的左侧部分中的单元可以归因于比视场233的右侧部分中的单元更高的置信度。在其他示例中，可以使用其他相机特性和姿态信息来计算对候选位置的置信度评级。例如，可以使用深度、焦点或任何其他信息。

在一些示例中，随着连续的图像被查看，置信度评级可以被提高或进一步改善。例如，如果首先查看与捕获位置223相对应的图像343，则视场233中的每一个单元可以归因于包括对象205的增加的概率。如果随后查看与捕获位置224相对应的图像344，则视场234中的每一个单元可以归因于包括对象205的增加的概率。因为包括对象205的单元被包括在两个视场233、234内，所以这些单元可以导致比其他单元更高的概率。

指示在图像识别之后对象位于图像中描绘的区域中的可能性增加的量的归一化值然后与每一个候选位置的初始化值相加或相乘。每一个候选位置的结果可以与其他候选位置的其他结果进行比较。如果第一候选位置的结果值比其他位置的结果相对更高，诸如达到预定的数字因子，则第一候选位置可以被确定为对象的位置。在其他示例中，将结果与阈值进行比较。在这方面，具有高于阈值的结果值的候选位置可以被确定为该对象的位置。

虽然在上面的示例中每一个图像都与位置和方向一起存储，但是在一些示例中，可以在不使用方向信息的情况下定位对象。图5是这种示例的俯视图。在各个位置521-525处捕获的图像可以具有相应的视场531-535。在该示例中，每一个视场531-535可以被认为具有围绕其相应的捕获位置521-525的半径。在这样的径向视场内的候选位置可以包括整个半径或其一部分，诸如单元或任何其他细分。如上所述，可以执行基于图像分析的置信值的初始化和计算。

图6图示出了另一个示例，其中尽管使用了从各个角度捕获的图像，但是不使用影像的方向信息。在该示例中，第一道路610与第二道路615相交。从第二道路615上的位置621、622和第二道路上的位置623-625捕获图像。因此，尽管视场631-635是径向的，但是捕获位置621-625沿着不同轴的位置可以进一步提高对象605的定位精确性。例如，如图所示，对象605在视场632和633内，而不是在视场631、634、635内。针对两个视场632、633内的候选位置计算的置信度分值应当大于针对其他位置计算的置信度分值。因此，两个视场632、633内的这样的候选位置的归一化值(两个视场632、633在来自相邻视场631、634、635的非观察中起作用)应该指示对象存在的高可能性。

虽然在上面的许多示例中图像被描述为从沿着道路的位置被捕获，但是应当理解的是，用于定位对象或属性的图像可以从多个非道路位置中的任何一个被捕获。例如，图像可以包括在公园中、建筑物内或其他任何地方拍摄的用户上传的照片。

图7图示出了使用边界框来缩小对象705的候选位置的另一个示例。在该示例中，在查看对应于视场733的图像743期间，围绕感兴趣对象705绘制边界框760。在这个示例中，对象705是消防栓。边界框760对应于视场733的较窄片段762。就此而言，计算置信度分值和归一化值的候选位置可以被限制到较窄片段762内的位置。因此，片段外但仍在视场733内的位置762可以被认为是非观察并被用于更精确地定位对象705。此外，可以加速计算，因为可以分析减少数量的候选位置。

如上所述，归一化置信度分值的计算可以受到遮挡的影响，诸如当其他对象妨碍图像内的感兴趣对象的视图时。图8提供了导致对象805的至少部分遮挡的示例障碍物871-873的俯视图图示。尽管遮挡可能由于诸如雾的天气状况或者任何其它对象(诸如人、纪念碑、建筑物、动物等)而发生，但是该示例中的障碍物871-873是树。当计算对应于视场833的图像的置信度分值时，可以考虑这种遮挡。例如，可以使用径向衰减函数来表示在对象805实际上在那里的条件下其在该图像中将是可见的概率。作为另一个示例，非径向或位置相关衰减函数可以考虑像本地人口密度或植被密度这样的因子，其会增加遮挡的风险。因此，置信度分值包括折扣因子，其反映除了不存在之外的原因(诸如遮挡)的假否定(falsenegative)的可能性。

根据一些示例，可能由于图像识别工具的执行而发生遮挡。例如，尽管不存在在相机和感兴趣对象之间定位的任何对象，但是图像识别工具仍然不能检测到感兴趣对象，诸如如果感兴趣对象很远、小和/或仅由几个像素表示。因此，如果对象很远、很小、由几个像素表示，则观察或非观察的重要性会打折扣。

衰减函数可以考虑各种类型的遮挡或效果中的任何一种。例如，当应用衰减函数时，不同类型的遮挡可以相加或相乘。此外，衰减函数可以不同地应用于观察而不是非观察。例如，非观察可以由于遮挡而打折扣，但观察不打折扣。例如，如果感兴趣的特定对象的位置是已知的，则衰减函数也可以被训练。如果给定城镇中的每个消防栓的位置是已知的并且城镇的影像可用，则可以执行使用不同衰减函数的各种计算，并且可以选择产生与已知位置最接近的结果的函数。

随着图像捕获位置与感兴趣对象之间的距离增加，遮挡的可能性可以增加。图9图示出了影响观察的障碍物的示例概率。对象905位于从位置923捕获的图像的视场933内。视场933基于遮挡的概率被细分成不同的区域982、984、986。例如，对于第一区域982内的最接近图像捕获位置923的任何对象，遮挡的概率最低。对于第二区域984内的对象，诸如对象905，遮挡概率高于对于第一区域982的遮挡概率。对于离图像捕获位置923最远的区域986，遮挡的风险最大。在一些示例中，可以使用基于观察的迭代训练来调整概率。

由语义搜索产生的感兴趣对象的计算位置可以用于多个应用中的任何一个。例如，位置可以被用于填充地图以显示特定的特征，诸如滑板公园、狗公园、消防栓、路灯、交通标志等的位置。所述位置还可以由终端用户用于搜索特定目的地或试图了解特定社区的景观。例如，希望购买房屋的用户可能希望搜索预期家庭附近的任何电站或电力线，并确定这些对象相对于家庭的精确位置。未来房主可能希望对显示为“农村”的区域进行更一般的搜索，例如，在这种情况下，可以返回本地化的对象或属性，诸如树木或“绿色”。营销人员可能希望确定特定行业所处的位置，以便向这些行业投放广告。营销人员也可能想知道哪些竞争对手在特定的区域进行广告宣传。电力公司的雇员可以搜索并定位所有路灯。这些只是众多可能的示例用途中的几个。

图10图示出了使用观察和非观察的语义搜索的示例输出。在这个示例中，地图1000被更新以指示特定对象的位置。在语义搜索中感兴趣对象可以是例如消防栓。相应地，显示标记1012、1014、1016、1018和1020，突出显示消防栓在显示区域中的位置。尽管在图10中示出了标记，但是应该理解，可以使用任何其他标记，诸如图标、文本等。

示例方法

对于上述示例系统，图11图示出了用于基于语义图像搜索来精确定位对象的示例方法1100。可以使用上述系统、其修改或者具有不同配置的各种系统中的任何一个来执行这样的方法。应该理解的是，以下方法中涉及的操作不需要按照所描述的精确顺序来执行。相反，各种操作可以以不同的顺序或同时处理，并且可以添加或省略操作。

在框1110中，识别与感兴趣区域有关的地理图像。例如，可以与指示图像的捕获位置的信息相关联地存储各种图像。如果用户想要搜索特定邻居、城市、国家或其他地区内的对象，则可以识别在该区域内具有捕获位置信息的图像。

在框1120中，确定哪些识别的图像包括感兴趣对象。例如，可以诸如通过应用图像识别工具来查看每一个所识别的图像。

在框1130中，确定哪些识别的图像不包括感兴趣对象。例如，在框1120中应用图像识别工具期间，可以单独识别和/或标记感兴趣对象未被检测到的任何图像。

在框1120和1130中标识的每一个图像可以包括多个候选位置。在框1140中，对于多个候选位置中的每一个，尽管不一定全部，计算在候选位置处存在感兴趣对象的可能性。可以使用框1120中的图像和框1130中的图像的图像捕获位置信息来计算可能性。在一些示例中，还可以使用方向或姿态信息和其他信息(诸如相机光学特性或与可能的遮挡有关的因子)来计算可能性。

在框1150中，使用可能性值来确定感兴趣对象的位置。例如，可能性值可以被归一化，被添加到初始值，并且与阈值进行比较。如果特定候选位置的结果值高于阈值，则感兴趣对象的位置可以被确定为与该候选位置相同。

通过使用观察和非观察两者来定位特定对象或特征，即使图像不是高分辨率和/或与低分辨率或不可靠的图像捕获信息相关联，也可以相对容易地并以相对高的置信度确定对象的位置。例如，这可以允许使用例如来自智能电话的非专业内容来执行对象位置识别。通过使用未被确定为包括感兴趣对象的图像的信息，可以改善对象位置识别。此外，这可以以没有或相对较少的计算成本实现。

尽管前面的示例是关于图像描述的，但是应当理解的是，这样的图像可以是传统意义上的图像，诸如像素集合，或者它们可以是来自视频的帧、视频观察(例如，视频的一部分)、LIDAR成像(imaging)、雷达、成像、声纳成像、甚至“听”观察，如音频录制或无线电频率接收。类似地，在这些示例中执行的图像识别可以是视频识别、LIDAR识别、音频识别等。因此，可以使用这些或其他类型的成像中的任何一个的观察和非观察来精确地定位对象或属性。

除非另有说明，否则前述替代实例不是相互排斥的，而是可以以各种组合实施以实现独特的优点。由于在不脱离由权利要求限定的主题的情况下，可以利用上面讨论的特征的这些和其它变型和组合，所以实施例的前述描述应当以说明的方式而不是限制由权利要求所定义的主题的方式。另外，本文所描述的示例的提供以及表述为“例如”、“包含”等的条款不应被解释为将权利要求的主题限制于具体示例；相反，这些示例仅用于说明许多可能的实施例中的一个。此外，不同附图中的相同附图标记可以标识相同或相似的元件。

Claims

1.一种确定感兴趣对象的位置的方法，所述方法包括：

从图像的数据库中识别与感兴趣区域有关的多个图像的集合，所述多个图像中的每一个图像具有与其相关联的图像捕获信息，所述图像捕获信息至少包括图像捕获位置；

将图像识别工具应用于所述多个图像的集合中的每一个图像；

基于所述图像识别工具的应用，确定所述多个图像中的哪些图像包括所述感兴趣对象以及所述多个图像中的哪些图像不包括所述感兴趣对象；

对于所述感兴趣区域中的多个候选位置中的每一个候选位置，使用所述多个图像的集合中被确定为包括所述感兴趣对象的图像的图像捕获信息，并且使用所述多个图像的集合中被确定为不包括所述感兴趣对象的图像的图像捕获信息，计算在相应候选位置处存在所述感兴趣对象的可能性值；以及

使用针对所述多个候选位置的可能性值来确定所述感兴趣对象的位置。

2.根据权利要求1所述的方法，其中用于所述多个图像中的至少一些图像的所述图像捕获信息包括图像捕获位置和图像捕获定向，并且其中计算在给定位置处存在所述感兴趣对象的所述可能性值包括使用所述图像捕获定向。

3.根据权利要求1所述的方法，其中确定所述多个图像中的哪些图像包括感兴趣对象以及所述多个图像中的哪些图像不包括所述感兴趣对象包括确定所述多个图像包括或不包括所述感兴趣对象的置信度因子，以及其中计算在所述位置处存在所述感兴趣对象的所述可能性值包括使用所确定的置信度因子。

4.根据权利要求1所述的方法，其中，计算在所述候选位置处存在所述感兴趣对象的所述可能性值包括：

对所述多个图像的集合中被确定为包括所述感兴趣对象的图像应用具有第一符号的因子，以及

对所述多个图像的集合中被确定为不包括所述感兴趣对象的图像应用具有第二符号的因子，所述第二符号与所述第一符号相反。

5.根据权利要求1所述的方法，其中，所述感兴趣区域中的所述多个候选位置包括多个位置的网格。

6.根据权利要求1所述的方法，其中，所述多个候选位置包括包含在所述多个图像的集合中的每一个图像的视场中的位置。

7.根据权利要求1所述的方法，其中，所述图像识别工具被配置为检测离散对象。

8.根据权利要求1所述的方法，其中，所述图像识别工具被配置为检测具有特定特性的对象。

9.根据权利要求1所述的方法，其中，所述图像识别工具是从图像识别工具的库中选择的。

10.一种系统，包括：

存储与位置信息相关联的多个图像的存储器；以及

与所述存储器通信的一个或多个处理器，所述一个或多个处理器被编程为：

从所述多个图像中识别与感兴趣区域有关的图像的集合；

使用图像识别来确定所述图像中的哪些图像包括所述感兴趣对象；

使用图像识别来确定所述图像中的哪些图像不包括所述感兴趣对象；

对于所述感兴趣区域中的多个候选位置中的每一个候选位置，使用所述图像的集合中被确定为包括所述感兴趣对象的图像的位置信息，并且使用所述图像的集合中被确定为不包括所述感兴趣对象的图像的位置信息，计算在相应候选位置处存在所述感兴趣对象的可能性值；以及

11.根据权利要求10所述的系统，其中，所述位置信息包括图像捕获信息。

12.根据权利要求11所述的系统，其中所述图像中的至少一些图像的图像捕获信息包括图像捕获位置和图像捕获定向，并且其中计算在给定位置处存在所述感兴趣对象的所述可能性值包括使用所述图像捕获定向。

13.根据权利要求10所述的系统，其中确定所述图像中的哪些图像包括感兴趣对象以及所述图像中的哪些图像不包括所述感兴趣对象包括确定所述图像包括或不包括所述感兴趣对象的置信度因子，以及其中计算在所述位置处存在所述感兴趣对象的所述可能性值包括使用所确定的置信度因子。

14.根据权利要求10所述的系统，其中，计算在所述候选位置处存在所述感兴趣对象的所述可能性值包括：

对所述图像的集合中被确定为包括所述感兴趣对象的图像应用具有第一符号的因子，以及

对所述图像的集合中被确定为不包括所述感兴趣对象的图像应用具有第二符号的因子，所述第二符号与所述第一符号相反。

15.根据权利要求10所述的系统，其中，所述感兴趣区域中的所述多个候选位置包括多个位置的网格。

16.根据权利要求10所述的系统，其中，所述多个候选位置包括包含在所述图像的集合中的每一个图像的视场中的位置。

17.根据权利要求10所述的系统，其中，图像识别工具被配置为检测离散对象。

18.根据权利要求10所述的系统，其中，图像识别工具被配置为检测具有特定特性的对象。

19.根据权利要求10所述的系统，其中，所述一个或多个处理器进一步被配置为提供所确定的位置信息以供输出到显示器。

20.一种存储指令的计算机可读介质，所述指令能由处理器执行以执行确定感兴趣对象的位置的方法，所述方法包括：