CN114586075A

CN114586075A - 用于位置识别的视觉对象实例描述符

Info

Publication number: CN114586075A
Application number: CN201980101321.1A
Authority: CN
Inventors: 丹妮拉·罗斯; 塞尔塔克·卡拉曼; 伊戈尔·吉利琴斯基; 安德烈·克拉马鲁克; 塞萨尔·卡迪纳; 罗兰·西格华特
Original assignee: Eidgenoessische Technische Hochschule Zurich ETHZ; Massachusetts Institute of Technology
Current assignee: Eidgenoessische Technische Hochschule Zurich ETHZ; Massachusetts Institute of Technology
Priority date: 2019-11-01
Filing date: 2019-12-27
Publication date: 2022-06-03
Also published as: JP2023500198A; US20210133480A1; JP7430254B2; US11295162B2; WO2021086422A1

Abstract

一种从图像中进行位置识别的方法，该方法利用在已知位置集合处的对象的检测和在未知位置处的对象的检测。对未知位置的图像中检测到的对象的图像进行处理以产生相应的数值描述符，这些描述符用于对未知位置与已知位置进行比较以对未知位置进行识别。至少一些实施例利用经过训练的参数化图像处理器来将对象的图像转换为对象描述符，并且处理器的训练旨在保持对象类型的不同实例之间的区别以及对象的所有不同类型之间的区别。

Description

用于位置识别的视觉对象实例描述符

相关申请的交叉引用

本申请主张于2019年11月1日提交的美国申请号16/671,525的优先权，其内容通过引用整体并入本文。

技术领域

本申请涉及位置识别，并且更具体地涉及基于这些位置处对象的描述符的位置识别。

背景技术

低成本相机系统的广泛可利用性允许在诸如智能手机、虚拟现实耳机或消费级无人机之类的众多消费产品上部署同步定位与建图(Simultaneous Localization andMapping,SLAM)算法。同时，该技术作为自动驾驶中的几个定位源中的一个定位源。为了进一步解锁商业应用，主要的科学挑战之一仍然是创建视觉位置识别系统，该系统即使在动态环境中操作时也不受视点和外观条件的影响。

一些视觉位置识别方法使用大量局部描述符，诸如尺度不变特征变换(ScaleInvariant Feature Transform,SIFT)描述符，或者依赖于诸如通用搜索树(GeneralizedSearch Trees,GIST)的全图像描述符。局部描述符很嘈杂，提供的上下文信息很少，并且在光照条件发生剧烈变化时表现不佳。然而，它们的优点在于它们可用于计算两个匹配的图像之间的变换矩阵。另一方面，全局描述符同时以紧凑的形式对整个图像进行描述。它们包含上下文信息，但速度较慢且更容易发生视点变化。

基于深度学习的对象检测的最新进展已经对使用检测到的对象作为高级导航地标产生了极大的兴趣。对象检测器可以提供有关对象类别的信息。然而，对象类别可能并非足够独特以限制位置识别的搜索空间。因此，基于对象的环闭合和位置识别方法通常依赖于现有的三维(three-dimensional,3D)对象模型或对象分割的深度信息的可用性。然而，尤其是在使用带有有限内存、能量或宽带的移动设备时，在大规模环境中存储和检索高度详细的对象模型可能会让人望而却步。因此，在不需要完整的3D对象模型的情况下，基于对象实例匹配来对位置进行识别具有相当大的意义。

发明内容

在一般方面，从图像(或图像集合)进行位置识别的方法利用在已知位置集合处的对象的先前检测以及在未知位置处的对象的检测。对在已知位置或未知位置的图像中检测到的对象的图像进行处理以产生相应的数值描述符。这些计算的描述符用于将未知位置与已知位置进行比较以对未知位置进行识别。至少一些实施例利用经训练的参数化图像处理器来将对象的图像转换为对象描述符，并且处理器的训练旨在保持不同实例的对象类型之间的区别以及整个不同类型对象之间的区别。至少一些实施例允许捕获在一位置处的少于所有已知对象的已知对象，并且允许在已知位置处的检测到的对象和已知对象的关联中存在歧义。一些这样的方法利用图匹配方法(graph-matching approach)。

在一个方面，一般而言，用于位置识别的方法涉及接收针对未知位置获取的图像。根据未知位置的图像计算描述符集合。该计算包括对来自图像中的第一预定义类别集合中的对象进行定位，并为每个经定位的对象确定图像的相应区域。每个描述符被计算为包括数值向量，该数值向量表示至少基于图像中的相关区域的相应的经定位的对象。对参考记录数据库进行访问，在该参考记录数据库中，每个参考记录与已知位置相关联，并且每个参考记录包括针对已知位置的对应图像中的对象先前计算的描述符集合。将来自未知位置的图像中的描述符集合与数据库中的参考记录进行匹配。该匹配包括，对于至少一些参考记录中的每个参考记录，确定表示由未知位置的图像计算的描述符与参考记录的描述符之间的匹配的分数。确定数据库的最佳匹配参考记录，并且未知位置被识别为与数据库的最佳匹配记录相关联的位置。

在另一方面，一般而言，计算机实现的位置识别系统包括对象定位器，该对象定位器配置为接受未知位置的图像并且可配置为在图像中定位来自预定义类别集合的对象，并针对每个经定位的对象确定图像的相关区域。该系统还包括描述符生成器，该描述符生成器可配置为：对于由对象定位器定位的对象集合中的每个对象，至少基于图像中的相关区域对描述符进行计算，该描述符包括表示相应的经定位的对象的数值向量。数据库用于存储多个参考记录，每个记录具有与已知位置的关联以及与该已知位置相关联的对象的描述符集合。匹配器被配置为：对于至少一些参考记录中的每个参考记录，确定表示由未知位置的图像计算的描述符与参考记录的描述符之间的匹配的分数。位置识别系统被配置为根据最佳匹配记录对未知位置进行识别。

方面可以包括以下特征中的一个或更多个特征。

根据未知位置的图像计算描述符集合包括使用对象定位器对图像进行处理以确定图像中的对象集合、与对象集合中的每个对象相关联的图像的区域、以及与每个区域相关联的图像的经处理的特征。

对描述符进行计算使用描述符生成器，对于对象集合中的每个对象，对描述符进行计算包括输入来自对象定位器的经处理的特征并产生相应的描述符作为输出。

对象定位器包括第一人工神经网络，描述符生成器包括第二人工神经网络。

针对对象确定图像的经处理的特征包括将在第一人工神经网络内生成的中间值用于在图像内的对象的所确定区域。

第一人工神经网络配置有第一配置参数的值，已经根据第一训练语料库确定了这些值，该第一训练语料库包括利用根据第一对象类别集合的对象进行注释的图像。

第二人工神经网络配置有第二配置参数的值，已经根据图像的第二训练语料库确定了这些值，该第二训练语料库具有利用根据第二对象类别集合的对象进行注释的图像。第二训练语料库包括具有同一对象实例的多个图像，以及具有第二对象类别集合中对象类别的多个不同实例的图像。

第二对象类别集合不同于第一对象类别集合，并且第一训练语料库不同于第二训练语料库。

选择第二配置参数的值以对第二对象类别集合中的对象类别的不同实例进行区分。

使用人工神经网络训练过程确定第一配置参数的值，该人工神经网络训练过程使用第一训练语料库。

使用人工神经网络训练过程确定第二配置参数的值，该人工神经网络训练过程使用第二训练语料库。

用于确定第二配置参数的值的训练过程对第二对象类别集合中每个对象类别内的对象实例的可辨别性进行优化。

将来自未知位置的图像的描述符集合与数据库的记录进行匹配，包括将未知位置的描述符集合与数据库的第一记录的第一描述符集合进行匹配。与第一描述符集的匹配包括确定描述符对之间的分数，每对描述符包括来自未知位置的图像的描述符集合中的一个描述符以及来自数据库的第一描述符集合中的一个描述符。确定来自未知位置的图像的描述符集合中的一些或所有描述符与第一描述符集合中的相应描述符的最佳匹配，使得最佳匹配具有根据描述符对之间的分数确定的对应的最佳分数。

将未知位置的描述符集合与数据库的第一记录中的第一描述符集合进行匹配包括对二分图执行图匹配过程，所述二分图具有由描述符对之间的分数确定的边权重(edgeweights)。

一个或更多个实施例的优点涉及使用对象描述符的生成器，该生成器受益于对大型对象数据库进行训练，同时适用于在无需来自目标区域的大量训练数据的情况下，对目标区域内的对不同的对象类别以及每个类别中的不同对象实例进行区分。使用大型训练数据库的一个优点是对象描述生成器可能对诸如照明、视点等的图像采集条件更加鲁棒。

另一个优点可以包括稳健匹配，该稳健匹配由与已知位置相关联的对象子集中的对象和在未知位置所获取的图像(或多个图像)中找到的对象的成对匹配产生。此外，通过不依赖于对象之间的几何关系，该方法对视点的变化和对象在位置处的位置变化具有鲁棒性。

根据以下描述和权利要求，本发明的其他特征和优点显而易见。

附图说明

图1是操作中的示例性位置识别系统，该系统包括识别所述操作的房间。

图2是详细说明位置识别系统在操作期间所采取的步骤的流程图。

图3是描述符生成器的框图。

具体实施方式

1概述

参考图1，位置识别系统100的示例用于通过处理未知位置的图像106以对该图像中的对象进行识别并将这些对象和与已知位置相关联的对象进行比较，从而对该未知位置102进行识别。例如，先前在那些已知位置处找到的对象表示在将已知位置与对象相关联的数据库116中。对象的识别涉及为图像中经识别的对象的每个实例确定数值描述符(例如，固定长度的实值向量)。如下面进一步讨论的，这些描述符具有特性(或至少被设计为具有特性)：他们可以对对象(例如，与植物相比的时钟)的类型(类别)进行区分，以及对在同一类别(例如，带有阿拉伯数字的时钟与带有罗马数字的时钟)内的不同对象实例之间进行区分。可选地，描述符也可以被设计为在类别之间进行区分。

在图1中，系统100在识别阶段(即，不同于下面描述的先前训练阶段)的操作被示为应用于从已知房间集合中对未知房间102进行识别的示例性问题，先前已经获得了已知房间102的图像。参考图1以及图2中相应的流程图，识别过程开始于步骤310，使用相机104或其他成像设备获取房间102的图像106(或更一般地，图像集合、一系列视频帧等)。例如，在用户、机器人等进入房间之后获取图像106。在图1中示出的示例中，房间102被示为包含物理对象集合103，该物理对象集合103包括桌子103a、灯103b、时钟103c、第一植物103d和第二植物103e。房间的图像106是房间的二维表示，在图像106并非必须捕获每个对象103a-103e的意义上，通常是三维房间的部分图像，并且本质上是从特定视点对房间视图的渲染。例如，仅基于相机的视点捕获房间中的一些对象。在该说明性示例中，图像106包括时钟103c和第一植物103d的2D表示，但是桌子灯103b和第二植物103e在视场之外并且桌子103a从视野被挡住。此外，图像并非必须与已用于对系统进行训练的房间的先前图像的视点或照明条件相匹配。

对象定位器/描述符生成器108对图像106进行处理以对图像中对象的实例进行定位，并产生所定位对象的描述符集合112(步骤320)。在该示例中，描述符集合包括对应于时钟103c的第一描述符112a和对应于第一植物103d的第二描述符112b。如以下更详细描述的，在该实施例中，对象定位器/描述符生成器108执行两个步骤组成的序列：首先对象定位器/描述符生成器108确定它可以在图像中定位哪些对象(即，对象类别)(步骤322)；然后它对与每个所定位对象相关联的图像的一部分进行处理以确定该对象的实例的描述符(步骤324)，为在先前步骤中所定位的每个对象产生一个描述符。这些步骤中的每个步骤都使用了机器学习模型，该机器学习模型配置有提供给定位器/描述符生成器108的配置参数110的值。下面提供了这些机器学习模型以及确定配置参数(“训练”)的值的过程的详细信息。

在确定了描述符集合112之后，系统应用匹配器114来将所确定的集合与数据库116中的数据进行比较(步骤330)。在该实施例中，数据库包括记录118(“参考记录”)的集合。每个记录118对应于特定的已知房间，并且每个记录118包括先前在该已知房间的图像或图像集合中找到的对象的描述符120。通常，匹配器遍历数据库的每个记录(步骤332访问第一记录，步骤340访问每个后续记录)，对未知房间的对象和记录中表示的对象进行匹配(步骤336)，对数据库中的哪个记录118与从图像106中确定的描述符集合112最佳匹配进行记录(步骤342)，并且使用该最佳匹配记录以确定哪个已知房间与未知房间最佳匹配，以对未知房间进行识别(步骤350)。

未知房间以及每个已知房间的每个描述符具有与其相关联的相关对象类别标识符(图1中未示出)。在以下讨论的匹配过程中，由匹配器114使用这些对象类别标识符。

匹配器114容纳已知房间的参考记录118，该已知房间具有比在未知房间图像106中确定的描述符集合112中更多对象的描述符120，并且还容纳描述符集合112，该描述符集合112包括没有在数据库中的记录中的对象。例如，在数据库形成之后，新的对象可能已经被放置在房间中，并且如上所讨论的，可能会基于相机的视点而省略某些对象。此外，例如，当存在两个相似的对象(例如，两个看起来相似的植物，诸如植物103d和植物103e)时，匹配器114被配置为找到描述符(及它们对应的对象实例)的最佳关联。

2对象定位器/描述符生成器

如上面参考图1所介绍的，本实施例中的对象定位器/描述符生成器108以两个阶段进行操作：对象定位，接着是描述符生成。以下描述了这两个阶段中的每个阶段。

2.1对象定位器

对象定位器使用卷积神经网络方法来对图像106的像素进行处理，以确定与对象定位器的训练中使用的对象类型集合相对应的对象的边界框。但是请注意，对象定位器的训练并不要求在已知房间中具有特定对象实例的示例，甚至不需要在房间中具有对象类别的示例。相反，可以认为对象定位器(包括下面描述的描述符生成器)更一般地识别图像中的感兴趣区域集合，然后将这些感兴趣区域用于进一步处理。

对象定位器使用卷积神经网络(Convolutional Neural Network,CNN)方法，该方法基于2017年在IEEE计算机视觉和模式识别会议记录第7263-7271页由Redmon、Joseph和Ali Farhadi在“YOLO9000：更好、更快、更强”(Redmon,Joseph,and Ali Farhadi.“YOLO9000:better,faster,stronger,”In Proceedings of the IEEE conference oncomputer vision and pattern recognition,pp.7263-7271,2017)中描述的称为“YOLOv2”的方法(其通过引用并入本文)。非常一般地，处理图像的YOLOv2系统的输出包括所定位的对象集合，输出中的每个对象包括：边界框(4个值)、置信度/对象检测分数(1个值)和对象类别概率(1个值/类别，例如，20个对象类别有20个值)。

在对象定位器中使用YOLOv2方法时，为每个所定位的对象提取进一步的输出。具体地，在神经网络输出层的输出单元中对置信度/对象检测值进行计算，并且该输出单元的输入用作进一步处理的特征。注意到，在YOLOv2架构中，这些值包括神经网络倒数第二层的输出，以及在“跳过连接(skip connection)”架构中提出的一个或更多个较低层的输出。在该实施例中，因此表示对象的值的数量具有1024个值。这些跨对象的NNN维(NNN-dimensional)表示被称为对象的“特征”，对于大小为M×N的边界框，实际上有表示对象的实例的M*N*NNN个值。

2.2描述符生成器

描述符生成器接收对象定位器的输出。在该实施例中，只使用了M*N*NNN个特征，而忽视了边界框的类别概率、置信度和特定位置。

参考图3，描述符生成器是卷积神经网络，该卷积神经网络有两个卷积层和两个稠密层，最后一层的输出为输出描述符。为了考虑由对象定位器确定的可变大小的边界框产生的可变大小的输入，在卷积层的输出上执行全局“最大.池化(max.pooling)”。描述符生成器的输出是由512个实数值组成的向量。

3匹配器

如以上所介绍的，匹配器的功能是对未知房间的描述符集合112与数据库中每个已知房间的描述符集合120进行比较。匹配器在两个这样的集合之间形成分数(图2的步骤336)，分数越大，描述符越相似。

通过首先计算同一类别的描述符(一个描述符来自未知房间，一个描述符来自已知房间)之间的成对距离，来确定两个描述符集合(例如未知房间的N个描述符和已知房间的M个描述符的集合)之间的分数。在该实施方式中，描述符a和b之间的欧几里得距离(Euclidean distance)||d_a-d_b||用作距离。

不是直接使用欧几里得距离，而是将来自未知房间的描述符d(该描述符d与对象类别q相关联(即，由对象定位器确定))与数据库116的任何已知房间中的同一类别的所有N_q个描述符进行比较(即，从所有记录中汇集)。也就是说，类别的已知描述符可以表示为d₁,d₂,...,d_Nq。由该排序为距离||d-d_t||的描述符的等级对数据库中的描述符d和特定描述符d_i之间的分数进行定义。最好匹配是等级1，最差匹配是等级N_q的该等级r_i＝rank(d_i,d,q)被转换为s_i＝exp(-10r_i N_q ^-1)的分数，通过实验确定比例值10。也就是说，同一类别的最差匹配描述符的分数将是s_min＝exp(-10)(即，接近于零)，而最佳匹配描述符的分数将是s_max＝exp(-10N_q ^-1)，例如，针对N_q＝100为5x10^-5到0.9的范围，或者针对N_q>1000为5x10^-5到大约1.0的范围。

至少在概念上，未知房间的描述符和已知房间中的一个房间之间的关系可以表示为二分图，在该二分图中，对应于未知房间的N个描述符的N个节点可以通过高达N*M个链接被链接到已知房间的M个节点，由与该链接相关联的描述符之间的分数为N*M个链接中的每个链接进行加权。注意到，不同类别的节点没有链接。然后根据节点的匹配来确定两个描述符集合之间的分数，例如，使用在ACM计算调查(CSUR)第18卷第1期(1986)第23-38页中的Galil、Zvi的“寻找图中最大匹配的有效算法”(Galil,Zvi,“Efficient algorithms forfinding maximum matching in graphs.”ACM Computing Surveys(CSUR)18,no.1(1986):23-38)(其通过引用并入本文)中描述的匹配算法。也就是说，目标是最大化所匹配的描述符的分数的总和，受限于每个描述符可以与另一个集合中的零个或一个描述符进行匹配(即，来自未知位置集合的描述符可能不与来自已知位置集合中的多于一个描述符匹配，并且来自已知位置集合的描述符可能不与来自未知位置集合的多于一个描述符匹配)。应当理解的是，如引用的Zvi文章中所描述的，该匹配可以有效地实现为最大流量问题。因此，在未知房间的描述符集合和每个已知房间的描述符集合之间存在一个标量实值分数。

如以上所介绍的，匹配器考虑了数据库中的每个记录(即，每个房间)，并返回了具有最大图匹配分数的记录作为所识别的房间。

4训练

如以上所介绍的，利用配置参数110的值对对象定位器/描述符生成器108(参见图1)进行参数化。同样如以上所描述的，对象定位器/描述符生成器有两个组件：对象定位器和描述符生成器。这些组件中的每个组件都有单独的配置参数，使用单独的训练过程确定这些配置参数。

4.1对象定位器训练

使用图像的数据库对对象定位器进行训练，每个图像包括类别标签和边界框注释，该边界框注释用于可以在图像中找到的来自所定义对象类别集合中的各种对象。在一些实验中，使用COCO数据集(2014年在欧洲计算机视觉国际会议中T.–Y.Lin、M.Maire、S.Belongie、J.Hays、P.Perona、D.Ramanan、P.Dollar和C.L.Zitnick的“微软COCO：上下文中的常见对象”(T.–Y.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollar,and C.L.Zitnick,“Microsoft COCO:Common Objects in Context,”In ECCV,2014))和ADE20K数据集(2017年在IEEE国际计算机视觉与模式识别会议中B.Zhou、H.Zhao、X.Puig、S.Fidler、A.Barriuso和A.Torralba的“通过ADE20K数据集进行场景解析”(B.Zhou,H.Zhao,X.Puig,S Fidler,A.Barriuso,and A.Torralba,“Scene Parsing throughADE20K Dataset,”In CVPR,2017))对对象检测器进行训练。这些数据集包含带有用于各种对象类别的边界框注释的图像。从具有80个对象种类注释的COCO数据集中，仅使用了出现在室内环境中且相对静态的15个种类。此外，通过对ADE20K数据集中一些更具体的种类进行合并，形成了另外10个不同的对象种类。所选择的种类出现在大约45k个图像中的COCO数据集中，也出现在大约10k个图像中的ADE20K数据集中。

4.2描述符生成器训练

描述符生成器的训练目标是生成描述符，在对同一对象实例进行比较时，该描述符具有较小的欧几里得距离，而在它们来自不同的对象实例时，该描述符具有较高的欧几里得距离。注意到，在以上描述的匹配过程中，仅对由对象定位器认为属于同一类别的对象的描述符进行了比较。训练过程确定了具有图3中所示结构的神经网络的权重。

训练过程使用了如2015年在IEEE国际计算机视觉与模式识别会议中F.Schroff、D.Kalenichenko和J.Philbin的“FaceNet：人脸识别和聚类的统一嵌入”(F.Schroff,D.Kalenichenko,and J.Philbin,“FaceNet:A Unified Embedding for FaceRecognition and Clustering,”In CVPR,2015)中所描述的“三元组(triplet)”损失函数。三元组损失是基于由锚点、正样本和负样本形成的图像三元组。在目前的训练方法中，这些是来自参考对象、不同图像中同一对象实例、以及来自任何其他对象的特征。负样本可以来自任何类别，从而为描述符提供针对错误分类的鲁棒性。随着训练的进行，由于半硬三元组(semi-hard triplet)选择过程，来自不同类别的负样本中的对象份额减少。

使用从锚点、正样本和负样本生成的描述符对三元组损失进行计算，锚点描述符、正样本描述符和负样本描述符分别表示为desc_a、desc_p和desc_n。然后根据以下等式计算锚点描述符和其他两个描述符之间的欧几里得距离：

d_p＝||desc_a-desc_p||和d_n＝||desc_a-desc_n||

并且使用d_p和d_n，三元组损失L被定义为

L＝max(0,d_p-d_n+M)，

其中，M是边际参数，该边际参数表示正样本和负样本之间的最小期望间隔。

在描述符训练期间，通过不将三元组损失传播回网络中的对象检测部分来将对象检测器网络权重保持固定(即，由对象定位器网络生成的特征在描述符生成器的训练期间不会改变)。为了保证收敛和加速训练过程，使用了两个关于训练机制的条件，遵循上面引用的Schroff参考。第一个条件是我们只使用半硬三元组进行训练，即重视条件为d_p<d_n的三元组。只有在正样本和负样本之间已经存在正确分离的情况下，才允许出现三元组，如果小于边际，则该三元组可能会得到改善。不从最难的三元组开始可以避免了在早期覆盖分类器并使其收敛到常数映射f(x)＝0。在训练后期，随着网络描述能力的增加，形成的三元组的难度也会增加。

施加于训练过程的第二个条件是使用迷你历元(mini-epoch)。通过随机选择有限数量的对象实例并仅获取表示每个所选择对象的一定数量的图像来形成历元。从这些图像中形成所有可行的正对，从整个数据集中随机选择负样本。同样地，此限制通过一次仅关注数据集的小部分来避免覆盖描述符。

与对象定位器不同，在不同的数据上对描述符生成器进行训练。一个原因是用于对象定位器的数据集不包含关于跨图像的对象实例的信息。因此，使用了Matterport3D数据集，该数据集是带注释的3D网格和主要包含房屋的图像的组合(2018年电气与电子工程师学会的2017年第七届IEEE国际3D视觉会议3DV中第667-676页Chang、Angel、Angela Dai、Thomas Allen Funkhouser、Maciej Halber、Matthias Niebner、Manolis Savva、ShuranSong、Andy Zeng和Yinda Zhang的“Matterport3D：在室内环境中从RGB-D数据学习”(Chang,Angel,Angela Dai,Thomas Allen Funkhouser,Maciej Halber,MatthiasNiebner,Manolis Savva,Shuran Song,Andy Zeng,and Yinda Zhang.“Matterport3D:Learning from RGB-D data in indoor environments.”In 7th IEEE InternationalConference on 3DVision,3DV 2017,pp.667-676.Institute of Electrical andElectronics Engineers Inc.,2018))。Matterport3D数据被限制为仅保留边界框注释，其中对象定位器能够检测到类似对象，该类似对象具有超过0.5的边界框的交并比(Intersection over Union,IoU)。使用此标准，使用了具有总计16k个实例的总共大约2000个对象。

应当注意的是，由于每个房屋仅在同一对象的不同实例的照明没有变化时才进行成像，因此Matterport3D数据集的姿势可能会有所不同。

5数据库构建

已知位置的数据库116的构建与对象定位器和描述符生成器的训练没有关系。在一些示例中，收集来自已知房间的图像，并且以与如图1中所示相同的方式生成描述符。然后将该已知房间的描述符集合存储在与已知房间的标识符相关联的数据库中。匹配期间，在确定了与来自已知房间的一个图像相对应的描述符的最佳匹配集合之后，该已知房间的标识符可作为识别结果返回。

6替代方案和实施方式

应当认识到的是，可以使用对象定位器/描述符生成器的替代结构。例如，对象定位器和描述符生成器可以组合成一个神经网络并一起训练。此外，其他类型的机器学习技术(例如，与CNN不同)可以用于这些组件。

可以使用替代匹配分数，也可以使用其他距离或分数方法，并且可以使用不同方法来对检测到的对象和参考对象进行匹配，优选地使用经训练的实例描述符，而不是仅仅依赖于检测到的对象的类别。

在一些替代方案中，可以对位置中的多个图像进行组合，以形成经组合的参考记录，该经组合的参考记录包括在位置中的多个视点中找到的所有对象，而不是对位置中的最佳先验图像进行匹配。而且，可以从多个图像(例如，平均的)导出对象的描述符，而不是对来自不同参考图像的不同的描述符进行维护。

注意到替代的其他方法可以使用对象之间的3D几何关系。例如，如果对象在参考图像和未知图像中具有兼容的几何关系，则此类几何考虑生成更高的分数。

这些方法适用于其他类型的问题，而不仅仅是已知位置集合的识别。类似的评分方法可用于未按位置标记的图像的无监督聚类，以及当位置图像的相似性可以与建图(mapping)任务中的先前图像进行比较时用在诸如同步定位与建图(simultaneouslocalization and mapping,SLAM)之类的应用程序中。

以上描述的技术可以以软件、硬件或使用软件和硬件的组合来实现。不同的系统可用于该方法的不同方面，例如对象定位器、描述符生成器的训练以及参考数据库的构建。可以存储在非瞬态机器可读介质上的软件可以包括用于在通用处理器、特定处理器架构(诸如在图形处理器(Graphics Processor Unit,GPU)或虚拟处理器中找到的并行架构)上执行的指令。硬件可以包括专用集成电路(application-specific integrated circuit,ASIC)或可配置电路(例如，现场可编程门阵列(Field Programmable Gate Array,FPGA))，并且可以以存储在机器可读介质上的设计结构来表示该硬件，设计结构包括在硬件的制造过程中使用的说明(例如，Verilog)。

将理解的是，前述描述旨在说明而不是限制本发明的范围，由所附权利要求的范围对本发明的范围进行限定。其他实施例在以下权利要求的范围内。

Claims

1.一种位置识别方法，包括：

接收针对未知位置获取的图像；

根据所述未知位置的图像计算描述符集合，所述计算包括：

在所述图像中对来自第一预定义类别集合的对象进行定位，包括为每个经定位的对象确定所述图像的相应区域，以及

至少基于所述图像的相关联区域对每个描述符进行计算，以包括数值向量，所述数值向量表示相应的经定位的对象；

对参考记录的数据库进行访问，每个参考记录与已知位置相关联，并且每个参考记录包括针对所述已知位置的对应图像中的对象先前计算的描述符集合；

将来自所述未知位置的图像的描述符集合与所述数据库的参考记录进行匹配，包括

对于至少一些所述参考记录中的每个参考记录，确定表示由所述未知位置的图像计算的描述符和所述参考记录的描述符之间的匹配的分数，以及

确定所述数据库的最佳匹配参考记录；以及

将所述未知位置识别为与所述数据库的最佳匹配记录相关联的位置。

2.根据权利要求1所述的方法，其中，根据所述未知位置的图像计算所述描述符集合包括：

使用对象定位器对所述图像进行处理以确定：

所述图像中的对象集合，

与所述对象集合中的每个对象相关联的所述图像的区域，以及

与每个区域相关联的所述图像的经处理的特征；以及

使用描述符生成器对所述描述符进行计算，包括对于所述对象集合中的每个对象：

输入所述经处理的特征以及

产生相应的描述符作为输出。

3.根据权利要求2所述的方法，其中，所述对象定位器包括第一人工神经网络，并且所述描述符生成器包括第二人工神经网络。

4.根据权利要求3所述的方法，其中，针对对象确定所述图像的经处理的特征包括将在所述第一人工神经网络内生成的中间值用于在所述图像内的对象的所确定区域。

5.根据权利要求3所述的方法，还包括利用第一配置参数的值对所述第一人工神经网络进行配置，所述值已经根据第一训练语料库确定，所述第一训练语料库包括利用根据所述第一对象类别集合的对象进行注释的图像。

6.根据权利要求5所述的方法，还包括利用第二配置参数的值对所述第二人工神经网络进行配置，所述值已经根据第二训练语料库确定，所述第二训练语料库具有利用根据第二对象类别集合的对象进行注释的图像和所述类别内的对象的实例，所述第二训练语料库包括具有相同对象实例的多个图像，以及具有所述第二对象类别集合中对象类别的多个不同实例的图像。

7.根据权利要求6所述的方法，其中，所述第二对象类别集合不同于所述第一对象类别集合，并且所述第一训练语料库不同于所述第二训练语料库。

8.根据权利要求6所述的方法，其中，选择所述第二配置参数的值以对所述第二对象类别集合中的对象类别的不同实例进行区分。

9.根据权利要求6所述的方法，还包括使用人工神经网络训练过程确定所述第一配置参数的值，所述人工神经网络训练过程使用所述第一训练语料库。

10.根据权利要求6所述的方法，还包括使用人工神经网络训练过程确定所述第二配置参数的值，所述人工神经网络使用所述第二训练语料库。

11.根据权利要求10所述的方法，其中，用于确定所述第二配置参数的值的所述训练过程包括对所述第二对象类别集合中的每个对象类别内的对象实例的可辨别性进行优化。

12.根据权利要求1所述的方法，其中，将来自所述未知位置的图像的描述符集合与所述数据库的记录进行匹配，包括将所述未知位置的描述符集合与所述数据库的第一记录的第一描述符集合进行匹配，包括：

确定描述符对之间的分数，每对描述符包括来自所述未知位置的图像的描述符集合中的一个描述符以及来自所述数据库的第一描述符集合中的一个描述符；

确定来自所述未知位置的图像的描述符集合中的一些或所有描述符分别与所述第一描述符集合中的相应描述符的最佳匹配，所述最佳匹配具有根据描述符对之间的分数确定的相应的最佳分数。

13.根据权利要求12所述的方法，其中，将所述未知位置的描述符集合与所述数据库的第一记录中的第一描述符集合进行匹配，所述匹配包括对二分图执行图匹配过程，所述二分图具有由描述符对之间的分数确定的边权重。

14.一种计算机实现的位置识别系统，包括：

对象定位器，其配置为接受未知位置的图像，并且可配置为在所述图像中定位来自预定义类别集合的对象，并且针对每个经定位的对象确定所述图像的相关区域；

描述符生成器，其可配置为对于由所述对象定位器定位的所述对象集合中的每个对象，至少基于所述图像中的相关区域对描述符进行计算，所述描述符包括表示相应的经定位的对象的数值向量；

存储多个参考记录的数据库，每个记录具有与已知位置的关联以及与所述已知位置相关联的对象的描述符集合；以及

匹配器，其配置为对于至少一些所述参考记录中的每个参考记录，确定表示由所述未知位置的图像计算的描述符与所述参考记录的描述符之间的匹配的分数，以及

其中，所述位置识别系统被配置为根据所述最佳匹配记录对所述未知位置进行识别。

15.根据权利要求14所述的位置识别系统，其中，所述对象定位器包括第一人工神经网络，并且所述描述符生成器包括第二人工神经网络，第一人工神经网络和第二人工神经网络能够分别根据第一配置参数的值和第二配置参数的值进行配置。

16.根据权利要求15所述的位置识别系统，其配置有所述第一配置参数的值和所述第二配置参数的值，所述第一配置参数的值已经由第一训练语料库确定，所述第一训练语料库包括利用根据所述第一对象类别集合的对象进行注释的图像，并且所述第二配置参数的值已经根据第二训练语料库确定，第二训练语料库具有利用根据第二对象类别集合的对象进行注释的图像。