CN111566675A

CN111566675A - 车辆定位

Info

Publication number: CN111566675A
Application number: CN201980007780.3A
Authority: CN
Inventors: 保罗·纽曼; 霍里亚·波拉夫; 威尔·麦登
Original assignee: Oxford University Innovation Ltd
Current assignee: Oxa Autonomous Driving Co.,Ltd.
Priority date: 2018-01-18
Filing date: 2019-01-18
Publication date: 2020-08-21
Also published as: WO2019141992A1; AU2019208479A1; AU2019208479B2; GB201800811D0; JP2021510823A; EP3740907A1; US20200379481A1; KR20200110768A

Abstract

一种生成用于实体定位的第一可训练变换的计算机实施方法，所述变换用于将环境的第一表示变换为所述环境的与所述第一表示不同的第二表示。所述方法包括使用所述第一可训练变换处理所述环境的多个第一训练表示，以生成变换后的第一训练表示；执行以下至少一项：i)在所述第一训练表示和所述第一训练表示的修改版本上运行至少一个已知过程以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及ii)在与所述第一训练表示对应但光照条件不同的第二训练表示和所述第一训练表示的修改版本上运行至少一个已知过程以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及，c)使用所述误差信号训练所述第一可训练变换。

Description

车辆定位

技术领域

本发明涉及一种通常在外观变化较大的环境中用于车辆定位的方法和相关设备。特别地但非排他地，实施例是照相机系统。

背景技术

关键点特征匹配(例如SURF、SIFT、BRIEF、ORB等)代表了多地图视觉定位系统中的领先方法，例如以下现有技术中所使用的：

[1]C.Linegar,W.Churchill,and P.Newman,“Made to measure:Bespoke landmarksfor 24-hour,all-weather localisation with a camera,”in Proceedings -IEEEInternational Conference on Robotics and Automation,vol.2016-June,2016,pp.787–794。

[2]C.McManus,B.Upcroft,and P.Newman,“Learning place-dependant featuresfor long-term vision-based localisation,”Autonomous Robots,vol.39,no.3,pp.363–387,2015。

[3]W.Churchill and P.Newman,“Experience-based navigation for longtermlocalisation,”The International Journal of Robotics Research,vol.32,no.14,pp.1645–1661,2013。

[4]R.Mur-Artal and J.D.Tard′os,“ORB-SLAM2:an open-source SLAM system formonocular,stereo and RGB-D cameras,”CoRR,vol.abs/1610.06475,2016。

[5]P.Furgale and T.D.Barfoot,“Visual teach and repeat for long-rangerover autonomy,”Journal of Field Robotics,vol.27,no.5,pp.534–560,May 2010。以及许多其他商业系统。虽然这种方法在匹配具有相似光照条件的场景时效果很好，但是当场景的外观由于光照水平的变化或季节差异而有所不同时，性能会迅速下降，例如在室外使用。尝试使用标准描述符(例如SURF、SIFT、BRIEF、ORB等)可能会导致定位不佳。为了使这些基于点特征的方法起作用，通常需要针对每种外观类别(晴天、雪天、黎明、黄昏、雨天、夜晚等)执行映射过程。以下文献中记载了进一步的现有技术：

[6]C.Linegar,W.Churchill,and P.Newman,“Work smart,not hard:Recallingrelevant experiences for vast-scale but time-constrained localisation,”inProceedings-IEEE International Conference on Robotics and Automation,vol.2015-June,no.June,2015,pp.90–97。

[7]J.Zhu,T.Park,P.Isola,and A.A.Efros,“Unpaired image-to-imagetranslation using cycle-consistent adversarial networks,”CoRR,vol.abs/1703.10593,2017。

[8]W.Yan,X.Shi,X.Yan,and L.Wang,“Computing OpenSURFon OpenCL and generalpurpose GPU,”International Journal of Advanced Robotic Systems,vol.10,2013。

[9]T.B.Terriberry,L.M.French,and J.Helmsen,“Gpu accelerating speeded-uprobust features,”in Proceedings of 3DPVT,vol.8,2008,pp.355–362。

[10]W.W.-C.Chiu and M.Fritz,“See the difference:Direct pre-imagereconstruction and pose estimation by differentiating hog,”2015IEEEInternational Conference on Computer Vision(ICCV),pp.468–476,2015,whichintroduces differentiable HOG descriptors and use it in a pipeline to improverendered images。

二、相关工作：

拓扑定位：文献[12]中，已在拓扑定位中使用了合成图像。文献[12]中提出了当在外观变化较大的图像之间进行匹配时视角会产生很大的差异，随后该文献中使用GoogleStreetview全景图合成与查询图像的视角相匹配的图像。文献[13]中使用了CNN的联合可视图特征。该文献中通过将相邻视图的特征添加到当前查询图像中来推进视角变化的不变性，本质上是创建“中间”视图。文献[14]中，将在同一天的不同时间拍摄的每个图像的共现特征组合成一个唯一表示，该表示中包含从所述视角看任何图像中均可识别的特征，而与光照条件无关。

[12]A.Torii,R.Arandjelovi′c,J.Sivic,M.Okutomi,and T.Pajdla,“24/7 placerecognition by view synthesis,”in Proceedings of the IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,vol.07-12-June,2015,pp.1808–1817。

[13]S.Cascianelli,G.Costante,E.Bellocchio,P.Valigi,M.L.Fravolini,andT.A.Ciarfuglia,“Robust visual semi-semantic loop closure detection by acovisibility graph and CNN features,”Robotics and Autonomous Systems,vol.92,pp.53–65,2017。

[14]E.Johns and G.-Z.Yang,“Feature co-occurrence maps:Appearancebasedlocalisation throughout the day,”in Robotics and Automation(ICRA),2013 IEEEInternational Conference on.IEEE,2013,pp.3212–3218。

文献[15]中预测了图像在不同季节的变化。该文献中使用超像素词汇表用于位置识别。通过先将图像划分为多个超像素，将每个超像素与冬季词汇中的一个条目相关联，然后通过词汇表之间的映射字典，使用超像素对应的夏季词汇替代超像素，在冬季场景中预测夏季场景(反之亦然)。但是，这些合成视图受点特征的排列或退化的影响，这意味着可能无法实现度量定位。

[15]P.Neubert,N.Sunderhauf,and P.Protzel,“Appearance change predictionfor long-term navigation across seasons,”in Mobile Robots(ECMR),2013 EuropeanConference on.IEEE,2013,pp.198–203。

度量定位：在度量定位的背景下，文献[16]采用抽样策略和排序函数的结构，引入了通过线上定位时的多经验地图创建“摘要地图”的步骤。但是，他们的方法不能减轻在各种条件下执行映射的需求。文献[17]中，作者使用仿射变换生成将要匹配的图像的不同视图，并对生成的视图进行筛选，增强了对视角变化的鲁棒性，但未解决外观变化问题。

[16]P.M¨uhlfellner,M.B¨urki,M.Bosse,W.Derendarz,R.Philippsen,andP.Furgale,“Summary Maps for Lifelong Visual Localization,”Journal of FieldRobotics,vol.33,no.5,pp.561–590,aug 2016。

[17]G.Yu and J.-M.Morel,“Asift:An algorithm for fully affine invariantcomparison,”Image Processing On Line,vol.1,pp.11–38,2011。

文献[18]改进了视觉测程背景下的高动态范围图像匹配。该文献通过训练LSTM深度神经网络，来产生时间上一致的图像增强表示。但是，视觉测程法适用于暂时关闭且几乎没有照明或外观变化的图像。

[18]R.Gomez-Ojeda,Z.Zhang,J.Gonzalez-Jimenez,and D.Scaramuzza,“Learning-based image enhancement for visual odometry in challenging hdr environments,”arXiv preprint arXiv:1707.01274,2017。

外观转移：合成图像技术已用于其他任务，但在定位环境中也显示出了前景。文献[19]中在色彩转移技术中使用局部仿射变换来“半透明”图像在一天中不同时间的外观。文献[20]中使用VGG-19网络将图像分解为样式表示和内容表示，然后从白噪声图像开始使用梯度下降法合成与输入图像的内容表示和目标图像的样式表示匹配的图像。

[19]Y.Shih,S.Paris,F.Durand,and W.T.Freeman,“Data-driven hallucination ofdifferent times of day from a single outdoor photo,”ACM Trans.Graph.,vol.32,no.6,pp.200:1–200:11,Nov.2013。

[20]L.A.Gatys,A.S.Ecker,and M.Bethge,“Image style transfer usingconvolutional neural networks,”in The IEEE Conference on Computer Vision andPattern Recognition(CVPR),June 2016。

文献[7]通过训练一对CNN生成器演示了无监督的图像到图像的转换，将X映射到Y的G，和将Y映射到X的F，并在X和F(G(X))之间使用了与G输出的鉴别器损失函数L_G和F输出的鉴别器损失函数L_F“循环一致性”L1损失函数。类似地，文献[21]训练了一对变分自编码器-生成对抗网络(VAE-GAN)，用于使用未对齐的图像进行图像到图像的变换，但不使用循环一致性损失函数，而是选择部分共享高层权重在VAE之间共享隐藏空间的编码。作者在不同的领域变换对上进行了训练，包括自然图像和白天图像到夜景图像的语义标签，但没有展示任何拓扑或度量定位的应用。我们相信我们是第一个直接使用外观转换方法处理度量定位。

[21]M.Liu,T.Breuel,and J.Kautz,“Unsupervised image-to-image translationnetworks,”CoRR,vol.abs/1703.00848,2017。

发明内容

根据本发明的第一方面，提供一种生成用于实体定位的第一可训练变换的计算机实施方法，所述变换用于将环境的第一表示变换为所述环境的第二表示，所述第一表示与所述第二表示不同，所述方法包括：a)使用所述第一可训练变换处理所述环境的多个第一训练表示，以生成变换后的第一训练表示；b)执行以下至少一项：i)在所述第一训练表示和所述第一训练表示的修改版本上运行至少一个已知过程以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及ii)在与所述第一训练表示对应但光照条件不同的第二训练表示和所述第一训练表示的修改版本上运行至少一个已知过程以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及c)使用所述误差信号来训练所述第一可训练变换。

现有技术试图对检测器、描述符或其他已知处理器进行改进以提高定位。本说明书实施例提供了这样的方面，通过训练可训练变换来修改输入图像。这样，可训练变换可用于生成可能更适合定位的表示。通常，以这种方式处理的表示形式可以与基于特征匹配的任何现有系统一起使用，通常无需更改它。

由于在所有情况下进行映射都是耗时、昂贵，且在某些情况下是不可能的，因此本说明书实施例可以节省大量精力。此外，应注意，与通过训练的变换进行变换的表示形式相比，在不利条件下收集的数据质量可能更差，从而导致任何生成的地图中的准确性较低。

可以认为本说明书实施例提供了可区分的特征鉴别器和/或描述符管道(或任何其他合适的已知变换)作为对抗训练网络的一部分，该对抗训练网络用以在不同条件下合成相同位置的图像。

在一些实施例中，可以提供第一阶段的训练。在第一阶段中，该方法可以包括选择完整的源条件遍历和一小部分目标条件遍历，并且在图像没有任何对准的情况下，训练一对可训练变换。训练可以由以下之一组成的误差信号来执行,循环一致性损失、鉴别器损失以及特征检测器和描述符损失。

在一些实施例中，还可以提供进一步的训练阶段，可以称为微调阶段。在进一步的训练阶段，选择了许多对齐良好的目标和源表示对。然后可以使用这些对齐良好的表示来训练可训练变换，通常使用已知变换(例如特征检测器和/或描述符输出)上的L1损失进行训练。可以基于度量的六个自由度基来选择对齐良好的表示。

在一些实施例中，可以仅执行进一步的训练阶段而无需执行第一阶段。在一些替代性实施例中，可以仅提供第一阶段，或者同时提供第一阶段和第二阶段。

在一些实施例中，使用第二可训练变换获得变换后的第一训练，所述第二可训练变换训练用于反转所述第一可训练变换的影响，以生成合成第一训练表示。

在一些实施例中，修改后的第一训练表示是变换后的第一训练表示。

在一些实施例中，修改的第一训练表示是所述合成第一训练表示。

在一些实施例中，所述误差信号也用于训练第二可训练变换。

在一些实施例中，所述第一可训练变换和/或第二可训练变换是由神经网络提供的。但是，在某些实施例中，可以使用诸如遗传算法之类的其他可训练变换。

在一些实施例中，所述已知过程生成特征描述符。

在一些实施例中，所述已知过程检测所述第一表示和第二表示内的特征。

在一些实施例中，在训练开始之前初始化可训练变换的权重，以将训练开始之前的值清零或以其他方式设置该值。

在一些实施例中，训练一个能够鉴别表示是否为合成表示的鉴别器。这可以帮助提高由第一可训练变换和/或第二可训练变换生成表示的质量。

在一些实施例中，在不同照明条件下，重复使用一组与所述第一训练表示相对应的第二训练表示方法的训练。

在一些实施例中，该方法生成用于实体定位的第一可训练变换和第二可训练变换，所述变换用于将环境的第一表示变换成所述环境的第二表示，所述方法包括：a)使用所述第一可训练变换处理所述环境的多个第一训练表示，以生成变换后的第一训练表示；b)使用第二可训练变换获得变换后的第一训练，所述第二可训练变换训练用于反转所述第一可训练变换的影响，以生成合成第一训练表示；c)在第一训练表示和合成第一训练表示上运行至少一个已知过程以生成误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及d)使用误差信号来训练第一可训练变换和第二可训练变换中的至少一个。

根据本发明的第二方面，提供一种可训练变换的用途，所述可训练变换根据本发明的第一方面的方法进行训练，所述可训练变换在车辆中用于定位，或至少协助定位所述车辆以使输入表示与存储表示的库相匹配。

根据本发明的第三方面，提供一种车辆，所述车辆包括获取所述车辆周围环境的当前表示的传感器，以及所述车辆进一步包括能够访问存储周围环境的表示的数据库的处理电路，其中所述处理电路用于执行以下内容：a)以下中的至少一项：i)使用变换来变换当前表示，并在存储表示的库中搜索变换图像；以及ii)变换所述库中至少一部分存储表示，并在变换的存储表示中搜索当前表示；其中，步骤a)中执行的变换用于增强变换表示中的特征；b)使用位于搜索中的所述存储表示的库中的表示来定位所述车辆。

一旦对可训练变换进行了训练，它们就可以用于生成合成表示并在车辆中使用。在一种实施例中，基于文献[3]，将合成图像用于立体定位过程中。该过程首先执行位置识别，输出最有可能与车辆实时帧位于同一位置的候选帧，然后使用关键点特征匹配来计算实时帧和在位置识别过程中检索到的帧之间的度量姿态。

本领域技术人员可以理解，对变换表示的引用旨在表示已经进行了变换表示。在本发明的一些方面中，变换后的图像可以是修改后的图像或合成图像。

根据本发明的第四方面，提供一种用于训练第一可训练变换的系统，所述第一可训练变换用于将环境的第一表示变换为所述环境的第二表示，所述第一表示与所述第二表示不同，所述系统包括处理电路，所述处理电路用于：a)使用所述第一可训练变换处理所述环境的多个第一训练表示，以生成变换后的第一训练表示；b)执行以下至少一项：i)在所述第一训练表示和所述第一训练表示的修改版本上运行至少一个已知过程以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及ii)在与所述第一训练表示对应但光照条件不同的第二训练表示和所述第一训练表示的修改版本上运行至少一个已知过程，以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及c)使用所述误差信号来训练所述第一可训练变换。

根据本发明的第五方面，提供一种计算机可读介质，其中包含指令，当计算机读取这些指令时，所述指令将导致所述计算机执行以下操作：a)使用第一可训练变换处理环境的多个第一训练表示，以生成变换后的第一训练表示；b)执行以下至少一项：i)在所述第一训练表示和所述第一训练表示的修改版本上运行至少一个已知过程以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及ii)在与所述第一训练表示对应但光照条件不同的第二训练表示和所述第一训练表示的修改版本上运行至少一个已知过程，以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及c)使用所述误差信号来训练所述第一可训练变换。

根据本发明的第六方面，提供一种对车辆进行定位的方法，所述车辆包括获取所述车辆周围环境的当前表示的传感器，所述方法包括：a)执行以下至少一项：i)使用变换来变换所述当前表示，并在存储表示的库中搜索变换图像；以及ii)变换所述库中至少一部分存储表示，并在变换后的存储表示中搜索所述当前表示；其中，步骤a)中执行的变换用于增强变换表示中的特征；以及b)使用位于搜索中的存储表示的库中的表示来定位所述车辆。

根据本发明的第七方面，提供一种包含指令的计算机可读介质，当计算机读取所述指令时，所述指令会导致车辆上的所述计算机执行以下操作：a)使用所述车辆的传感器获取所述车辆的周围环境的当前表示；b)执行以下至少一项：i)使用变换来变换所述当前表示，并在存储表示的库中搜索变换图像；以及ii)变换所述库变换至少一部分存储表示，并在变换的存储表示中搜索所述当前表示；其中，步骤a)中执行的变换用于增强所述变换表示中的特征；以及使用位于搜索中的存储表示的库中的表示来定位所述车辆。

在本发明的上述任何方面中所指的计算机可读介质可以是以下任何一种：DVD、ROM/RAM(包括-R/-RW或R/RW)、硬盘内存(包括USB驱动器、SC卡、小型闪存卡等)、传输信号(包括互联网下载，ftp文件传输等)、电线等。

相对于本发明的任何上述方面描述的特征可以适当地应用于本发明的任何其他方面。

附图说明

图1示意性地示出了一种实施例；

图2示意性地示出了在第1阶段中使用的体系结构，其用于来训练一对生成器以将外观从源表示转换到目标表示，反之亦然，而无需注册表示；

图3示意性地示出了在训练过程的第2阶段中在训练表示良好对齐的子集上使用的架构，以最小化不同条件之间的特征检测器和描述符层之间的差异；

图4显示了Haar响应堆栈；

图5示意性地示出了内部架构；

图6示出了输入图像(左手方向的图像)的生成图像(右手方向的图像)；

图7突出显示了定位误差，并显示了实际日到真实夜的定位与实际日到合成日的定位；

图8显示了实际天数与实际夜数的定位以及实际天数与合成夜的内在计数与行进距离的关系；

图9示出了当发生定位故障时，航位推算概率与距离的关系图；

图10显示了使用外观转换的不同条件之间基于特征的定位示例，其中每组四个图像的顶部两个图像显示真实图像之间的匹配，而底部两个图像显示相同真实图像和合成图像之间的匹配(水平线表示内部匹配)；以及

图11示出了说明方法的流程图。

具体实施方式

图1描述了用于根据后面描述的实施例训练的可训练变换的车辆。因此，图1描述了一个利用后面描述的训练过程输出可训练变换的系统。

图1示出了一个车辆100，上面有一个传感器102。这里的传感器是单眼相机，但也可以是任何其他合适的传感器。例如，立体相机对、LiDAR传感器等。

传感器102用于监视其区域设置并根据监视生成数据，从而提供在车辆周围感知场景上的数据。

在图1所示的实施例中，车辆100沿着道路108行进，并且传感器100在车辆100行进时对场所(例如建筑物110、道路108等)进行成像。在该实施例中，车辆102还包括处理电路112，用于从传感器捕获数据并随后处理由传感器102生成的数据(在这种情况下为图像，但也可以是其他表示)。因此，处理电路从传感器102捕获数据。在所描述的实施例中，处理电路112还可访问车辆上的存储设备114。

如上参考文献[3]所述，车辆可以采用定位流程。论文[3]通过引用并入本文，并且技术人员被指导阅读该论文，尤其是参考定位流程。

图的下部示出了可以在典型的处理电路112中找到的组件。处理单元118可以是诸如X5、I7处理器之类的X86处理器。处理单元118用于经由系统总线120与输入/输出系统122(与外部网络、显示器等通信)和存储器124通信。

本领域技术人员将理解，可以由各种组件来提供存储器124，包括易失性存储器、硬盘驱动器、非易失性存储器、在别处描述的任何计算机可读介质等。实际上，存储器124可以包括在处理单元118的控制下的多个组件。

然而，通常，存储器124用于提供程序存储部分126和数据存储部分128，该程序存储部分126用于存储在执行时执行动作的程序代码，该数据存储部分128可被用于临时和/或永久地存储数据。

在其他实施例中，处理电路112的至少一部分可以远离车辆设置。这样，可以想到的是，对传感器102生成的数据的处理是在车辆100以外或部分在车辆100上进行的。在一些实施例中，在车辆上和下都提供处理电路，然后进行网络连接(例如3G UMTS(通用移动电信系统)、4G(例如LTE长期演进)，WiFi(IEEE 802.11)、WiMAX等。

为方便理解实施例示出了沿道路行驶的车辆100，但是本领域技术人员将理解，本发明的实施例不必限于陆地车辆，并且可以是水运船只，例如船、舟等，或者空运设备，例如飞机等。甚至，该方法可能是由车辆以外的其他实体执行的，例如机器人或用户携带的移动设备等。

同样地，在以下描述中为方便理解，示出了由传感器100生成的图像数据，但是本发明的其他实施例可以生成其他类型的数据。这样，所描述的实施例利用图像，即环境的图片。但是，可以想到，环境的其他类型的表示可能是合适的。例如，可以使用LiDAR扫描代替图像。因此，应参考下面的图片以涵盖其他类型的数据。

所描述的实施例训练了一个神经网络(NN)来变换图像。NN提供了一个可训练变换的示例。然后，可以使用训练后的NN来生成图像，然后可以使用该图像，如下所述，以辅助车辆中的定位，等等。

所描述的实施例使用了特征检测和匹配流程，该特征检测和匹配流程使用了文献[22]H.Bay,T.Tuytelaars,and L.Van Gool,“Surf:Speeded up robust features,”Computer vision–ECCV 2006,pp.404–417,2006，的SURF特征，并采用了两阶段的训练策略。其他实施例可以不使用所描述的实施例的两个阶段。其他实施例可能仅使用第一阶段，或仅使用第二阶段。然而，已经发现，将两个阶段一起使用在由所述实施例生成的合成图像的质量上被证明是有利的。

在第一阶段，类似于文献[7]的循环一致性架构用于训练生成器，以将输入源图像变换为具有目标条件的合成图像。生成器可以被认为是可训练变换，因为它是在训练阶段进行训练的，并且是用于变换输入到其上的图像(或其他表示形式)。由第一生成器生成的合成图像随后由第二生成器(可以再次视为可训练变换)变换回具有初始条件的合成图像，并在相反方向上重复该过程。

在第二阶段，使用数据集对齐良好的子集独立微调图像生成器。

在第一阶段，如图2所示，两个(即第一和第二可训练变换)生成器，第一生成器G_AB将条件A变换为条件B，第二生成器G_BA将条件B变换为条件A，两个生成器使用未配对的源图像和目标图像进行训练。对G_BA进行了安排/训练，使其学会了反转G_AB的效果。G_AB和G_BA都可以认为是可训练变换。在合成图像上施加鉴别器损失，并且在合成图像和输入图像之间施加L1损失。另外，在合成图像和输入图像上计算SURF检测器响应图(即已知过程的输出)，并在它们之间施加L1损失，并类似地在合成图像和输入图像上计算每个点的密集SURF描述符图(即已知过程的输出)，并在它们之间施加L1损失；这些方法将在下面的III-A和III-B中进一步描述。

因此，可以看出，第一阶段采用第一训练表示200(步骤1100)，并使用第一可训练变换(此处为G_AB)对其进行变换。G_AB的输出可以被认为是第一训练表示的修改版本202。

然后，将第一训练表示的修改版本202输入到第二可训练变换(此处为G_BA)，并生成第一训练表示的合成版本204。

然后，在所描述的实施例中，为第一训练206图像和合成版本208中的每一个计算描述符图和检测器响应图(即执行已知过程)，并用于生成误差信号210。

这里，源图像可以被认为是第一训练表示，并且目标图像可以被认为是第二训练表示。在这里描述的第一阶段中，第一训练表示(源图像)与第二训练表示(目标图像)不成对，但是第二训练表示对应于与第一表示类似的表示。

在第二阶段，G_AB和G_BA(即可训练变换)使用对齐的昼夜图像的小型数据集(即第一和第二表示，分别为每个第一表示提供对齐的第二表示)进行训练。使用点对齐图像可以使生成器学习某些特征变换，而这些特征变换可能是第一阶段中使用的仅学习对齐图像分布而没有任何明确的逐点映射的无监督方法无法捕获的。这时候，在对齐目标图像和合成图像上计算的SURF检测器响应图(即检测器响应图是已知过程的输出)之间，以及在对齐目标图像和合成图像上计算的密集描述符响应图(即描述符响应图)之间应用L1损失。第二阶段的架构如图3所示。

因此，第二个微调阶段可以被认为是对应于第一个训练表示的第二个训练表示。在这里，第一训练表示和第二训练表示法已经很好地对齐了。

然后可训练变换(依次由G_AB和G_BA进行)由变换的第一训练表示形式进行训练，以生成修改后的训练表示形式。随后，在修改后的第一训练表示和第二训练表示两者上生成冲浪检测器图和描述符图；即，对修改后的第一训练表示和第二训练表示中的每一个执行已知过程。然后通过比较描述符和/或检测器图以训练可训练变换来生成误差信号。

在所描述的实施例中，第一阶段之后是第二微调阶段。然而，某些实施例有可能仅执行第一阶段或仅执行第二阶段。

在以上描述中，在已知过程的示例中使用描述符图和检测器图的生成来在图像上运行。其他实施例可以使用其他已知过程，例如感知损失，其中将第一训练图像和合成图像输入到图像分类网络并比较一个或多个层中的激活。

生成器体系结构基于文献[23]R.Guerrero,C.Qin,O.Oktay,C.Bowles,L.Chen,R.Joules,R.Wolz,M.Valdes-Hernandez,D.Dickie,J.Wardlaw,et al.,“White matterhyperintensity and stroke lesion segmentation and differentiation usingconvolutional neural networks,”arXiv preprint arXiv:1706.00935,2017，的UresNet，文献[24]O.Ronneberger,P.Fischer,and T.Brox,“U-net:Convolutionalnetworks for biomedical image segmentation,”in International Conference onMedical Image Computing and Computer-Assisted Intervention.Springer,2015,pp.234–241，的Unet，以及文献[25]K.He,X.Zhang,S.Ren,and J.Sun,“Deep residuallearning for image recognition,”in The IEEE Conference on Computer Vision andPattern Recognition(CVPR),June 2016，的ResNet结构。生成器的内部架构如图5所示。

在所描述的实施例中，鉴别器架构是具有5层的CNN。前四层包括卷积运算，之后进行实例归一化和漏化线性单元(修正线性单元)，最后一层是卷积运算，输出一个H/8x W/8映射，将图像空间中的接受域分为真、假两类，其中H和W代表输入图像的高度和宽度。

更具体地，该体系结构使用3个向下的卷积层500、502、步幅为2的504，9个ResNet层518，3个向上的卷积层506、508、步幅为1/2的510，在相应的向下和向上的卷积层之间具有跳过连接512、514、516。每个卷积层都由卷积运算组成，然后是实例归一化和漏化线性单元，如该层的阴影所示(506-516)。每个ResNet层518包括卷积，随后是实例归一化、漏化线性单元、第二卷积，实例归一化以及将原始块输入添加到结果输出。

对于一系列不同条件对，G_AB和G_BA生成器结果的示例如图10所示。

A.SURF检测器响应图

SURF检测器响应图是使用近似文献[22]中描述的Hessians的原始卷积方式获得的。对于每个标度，我们生成三个方形滤波器以分别接近在X、Y和对角线方向上近似高斯函数

的二阶导数。我们将这些滤波器与图像1卷积，生成响应图Lxx(σ)，Lyy(σ)和Lxy(σ)。

使用哈达玛积，逼近的矩阵的行列式为：

密集SURF描述符方法采用文献[26]中使用的OpenSURF，以及快速的卷积方法来建立密集的逐渐元SURF描述符，通过它可以传递渐变([26]C.Evans,“Notes on theOpenSURF Library,”University of Bristol Tech Rep CSTR09001 January,no.1,p.25,2009)。对于N个所选尺度中的每个尺度，我们预先计算：

·用于建立SURF描述符的81个像素邻居的相对偏移量的查找表；

·一个用于表示81个偏移量的特定比例的高斯权重的Nx81矩阵；

·用于16个邻域的高斯权重的长度16的列向量；以及

·用于X和Y方向的类似于HAAR的方形滤波器；

然后，将输入图像与HAAR方形滤波器进行卷积，并存储小波响应。对于每个选定的尺度，我们堆叠81个小波响应副本，并将它们与特定尺度的高斯权重相乘。

然后，对于组成SURF描述符的16个像素邻域中的每一个，我们：

·根据偏移量查找表沿X和Y方向偏移堆叠副本(参见示例400a、400b等处的偏移量)；

·乘以邻域特定的高斯权重；

·沿堆叠方向分别为X和Y方向的原始值和绝对值求和，得出4个矩阵；

·从元素方向将每个矩阵与其特定的高斯邻域权值LUT相乘；

·堆叠得到的4个矩阵

最后，对得到的HxW尺寸的64层堆叠矩阵的每一列进行归一化，其中H和W是输入图像的高度和宽度。该堆叠代表每个尺度的密集的每个像素SURF描述符。堆叠和求和操作如图4所示。

b)描述符损失：

因此，所描述的实施例利用了描述符损失。这样的描述符损失L_Desc可被认为是对可训练变换(即生成器)的训练的指导，从而使从输入的第一表示中获得的变换后的第一表示的区域或子区域分量的描述符，在初始条件下与特定场景匹配尽可能接近地描绘目标条件下特定场景的第二个表示的区域或子区域分量的描述符。在可训练变换的训练阶段，通常由训练集中的表示来提供第一表示和第二表示。在运行期间(例如，当在车辆100上使用时)，通常由来自传感器102的表示来提供第一表示。

替代地，或另外地，从在初始条件下描述特定场景的输入表示获得的变换表示的区域或子区域分量的描述符的分布，尽可能地匹配目标条件下描述该特定场景的图像的区域或子区域成分的描述符的分布。

在这里，描述符可以表示区域或子区域分量的强度、区域或子区域分量的强度的线性变换、区域或子区域分量的强度的非线性变换。

a)检测器损耗：

此外，描述的实施例中还利用检测器损失。可以将这种检测器损失视为指导可训练变换的训练，以便在初始条件下从描述特定场景的输入图像获得的变换图像的感兴趣的区域或子区域分量的位置，尽可能匹配在目标条件下描绘特定场景的图像的感兴趣的区域或子区域分量的位置。

替代地，或附加地，检测器使得从初始状态下描述特定场景的输入图像获得的变换图像的感兴趣的区域或子区域分量的位置分布，尽可能匹配目标条件下描述特定场景的感兴趣的区域或子区域分量的位置分布。

这里，感兴趣的区域或子区域分量可以根据它们在整个区域或方差上的强度/幅度差异或可使用通用度量量化的信息内容进行分类。

在此，变换后的图像包括可训练变换的输出，例如修改后的图像和/或合成图像。

文献[27](H.Zhou,T.Sattler,and D.W.Jacobs,“Evaluating local featuresfor day-night matching,”in Computer Vision-ECCV 2016 Workshops-Amsterdam,TheNetherlands,October 8-10and 15-16,2016,Proceedings,Part III,2016,pp.724–736)中评估了用于昼夜匹配的特征检测器和描述符，其中大多数特征是在小尺度(<10)下检测到的。在实验之后，所描述的实施例针对前5个尺度计算SURF损失项，以加速训练过程，并且发现这不会引起明显的性能损失。对此的一种解释可能是，在较小的像素邻域内，与较大的邻域相比，具有不同条件的图像之间的外观变化可以更加均匀。然而，本领域技术人员将理解，其他实施例可以为更多比例计算损失项，这可以进一步提高精度，但是通常以增加处理时间为代价。此外，其他实施例可以计算少于5个尺度。

B.损失

与文献[7]类似，下面描述的实施例通过鉴别器在每个生成器的输出上施加对抗性损失：鉴别器D_B在生成器G_AB的输出上，鉴别器D_A在生成器G_BA的输出上。该损失公式为：

对抗目标L_adv变为：

鉴别器经过训练，可最大程度减少以下损失：

鉴别目标L_disc变为：

循环一致性损失[7]应用于输入图像和合成图像之间，以及从这两个图像计算出的SURF检测器D_et(·)和密集描述符D_esc(·)映射之间：

完整的生成器目标L_gen变为：

每个λ项都是一个加权每个损失分量影响的超参数。在微调阶段，目标图像与输入图像和合成图像对齐，损失为：

微调目标L_finetune变为：

所描述的实施例计算生成器函数G_AB，G_BA，使得：

下面描述的实施例是用于将上述损失减到最小。

数据来自Oxford RobotCar Dataset([11]W.Maddern,G.Pascoe,C.Linegar,andP.Newman,“1Year,1000km:The Oxford RobotCar Dataset,”The International Journalof Robotics Research(IJRR),vol.36,no.1,pp.3–15,2017)，相距不超过1年，产生5个条件对：日夜、天雪、天黎明、天阳和天雨。对于每次遍历，过滤RTK-GPS地面真实值，并丢弃任何平移标准偏差大于25cm的数据点。

根据一天中的遍历情况创建每个条件对的训练数据集，其中一部分代表配对条件的大约20％，以模拟无法获取合理数量的映射数据的情况。配对条件中剩余的80％用于基准合成图像的性能。

通过选择不存在或只有很小的视点旋转的图像对来创建第二训练阶段中使用的对齐良好的数据集。按原样使用没有平移或旋转未对齐的图像对，对于那些旋转差较小的图像，使用RTK-GPS地面真实值提供的已知姿势将目标图像仿射变换到源图像的帧中。

A.训练

对于周期一致性阶段(即第一阶段)，采用类似于[7]的网络训练方案。对于每次迭代，以最小化L_disc为目标，在真实目标域图像和来自先前迭代的合成图像上训练鉴别器，然后在输入图像上训练生成器以最小化L_gen值。特别地，所描述的实施例使用初始学习率设置为0.0002的Adam solver([28]D.P.Kingma and J.Ba,“Adam:A method for stochasticoptimization,”CoRR,vol.abs/1412.6980,2014)，其中，批量大小为1，λrec＝8，λdet＝2，λdesc＝2和λadv＝1。本领域技术人员将理解，其他求解器也是可能的。

对于微调阶段(即第二阶段)，将数据集的一小部分对齐良好的子集用于训练，并配置为使用相同的学习参数将L_finetune最小化。

B.定位

一旦通过上述方法学习了参数，就可以将参数用于车辆的定位，等等。

现在描述一个实施例，使用训练的生成器G_AB将日图帧变换为目标条件帧，然后使用G_BA将5种类型的目标条件帧变换为日条件帧。

为了在定位的背景下对合成图像进行基准测试，实施例使用了[3]的基于经验的导航系统，该系统实现了基于特征的拓扑定位器([29]M.Cummins and P.Newman,“Appearance-only slam at large scale with fab-map 2.0,”The InternationalJournal of Robotics Research,vol.30,no.9,pp.1100–1123,2011)，然后是使用RANSAC的几何验证阶段([30]M.A.Fischler and R.C.Bolles,“Random sample consensus:aparadigm for model fitting with applications to image analysis and automatedcartography,”Communications of the ACM,vol.24,no.6,pp.381–395,jun 1981)和非线性优化，可最大程度地减少内部投影误差。

与将合成帧添加为单独的映射相反，从真实图像到真实图像匹配以及从合成图像到真实图像匹配积累了功能对应关系，并且发现这导致鲁棒性更好和更准确的解决方案。

在下面描述的实施例中，对于分辨率为1280x960的图像，生成器运行频率约为1Hz，对于Nvidia Titan X GPU上的分辨率为640x480的图像，运行频率约为3Hz。技术人员将理解，这些频率可能会随着使用不同处理器(即GPU)而改变。

V.结果

A.定量结果

下面显示的结果同时考虑了定位的频率和质量。

表I–不同网络体系结构的度量标准定位

表I比较了相对于RTK-GPS地面真实值的均方根平移(RMSE(m))和旋转误差(RMSE(O))，以及在在日夜定位的情况下，累计成功定位的部分占行进距离的百分比。通过[7]的RGB实现获得的图像以及使用上述实现实例的阶段1和2获得的图像的结果，显示了原始图像。结果表明，使用从阶段1模型生成的合成图像，提高了定位精度，而从第2阶段微调模型可以进一步提高精度。

表II–条件之间的定位度量标准

表II给出了使用第一阶段训练模型变换在一天的各种条件下定位的结果，说明了相对于单个条件定位时该方法的性能。在所有情况下，定位的比率都会提高(通常是2倍)，并且度量误差也会减少。

图7显示了两个直方图，给出了相对于地面真实情况的平移和旋转误差分布，每个直方图均显示了原始图像匹配，并为我们提供了最佳解决方案，在日夜定位的情况下。与原始图像和仅采用RGB的[7]所产生的图像相比，总体上观察到定位的精度有了很大的提高。

为了生成直方图，在-5和+5米的分箱中累计了绝对值大于5米的平移异常值。绝对值大于30度的旋转异常值已累积在-30度和+30度的分箱中。

图8显示了在白天原始定位的情况下，对于原始图像和最佳解决方案，匹配内线数量随行进距离的变化。观察到与实物到实物图像匹配相比，实物到合成匹配的内点数量显著增加。

图9显示了当发生定位故障时，行进距离基于VO(可视测距)的开环行进的概率。当使用通过上述实施例产生的合成图像时，观察到了显著的改进。值得注意的是，使用[7]的RGB实现生成的图像可能不会在鲁棒性方面带来很大的改善。

从图9中可以看出，使用合成图像时，昼夜定位的鲁棒性大大提高。要生成图9，地图是从白天开始的，输入图像是在晚上。

B.定性结果

图10给出了整个牛津地区一系列位置的定性结果，原始图像之间的匹配失败或产生了很少的内线。图像对内的匹配由图像对内已匹配的点之间的水平线表示。该图显示了真实图像之间的匹配(顶部)以及真实图像和合成图像之间的匹配(底部)。请注意学习的图像变换(通过构造)如何在质量上很好地重建由特征检测器和描述符(例如窗口帧)描述的细节。

VI.结论

提出了一种在不利条件下可产生稳定定位的系统。该系统可以被认为是采用以增强与存储的图像的逐点匹配的方式变换的输入图像(例如在车辆或其他实体可以访问的图像库上)。在所描述的实施例中，在明确考虑属性特征检测和描述阶段的同时，使用循环GAN(生成对抗网络)来学习可训练变换。所描述的实施例利用特征检测器和描述符响应。使用适度的目标训练数据，该数据模拟了映射昂贵、耗时或困难的场景，实施例描述了生成的合成图像，与基线相比，该图像始终改善了位置识别和度量定位。因此，这种实施例不仅可以极大地减少在不同条件下绘制地图的成本和不便之处，而且可以改善与我们的方法结合使用时生成的地图的有效性。此外，所描述的实施例通常用于离线或在线地处理定位流程之外的图像，因此可以用作许多现有系统的前端。

Claims

1.一种生成用于实体定位的第一可训练变换的计算机实施方法，所述变换用于将环境的第一表示变换为所述环境的第二表示，所述第一表示与所述第二表示不同，所述方法包括：

a)使用所述第一可训练变换处理所述环境的多个第一训练表示，以生成变换后的第一训练表示；

b)执行以下至少一项：

i)在所述第一训练表示和所述第一训练表示的修改版本上运行至少一个已知过程以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；以及

ii)在与所述第一训练表示对应但光照条件不同的第二训练表示和所述第一训练表示的修改版本上运行至少一个已知过程以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；

以及；

c)使用所述误差信号训练所述第一可训练变换。

2.根据权利要求1所述的方法，其特征在于，使用第二可训练变换获得变换后的第一训练，所述第二可训练变换训练用于反转所述第一可训练变换的影响，以生成合成第一训练表示。

3.根据权利要求2所述的方法，其特征在于，修改的第一训练表示是所述合成第一训练表示。

4.根据权利要求2或权利要求3所述的方法，其特征在于，所述误差信号还用于训练所述第二可训练变换。

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述第一可训练变换和/或第二可训练变换是由神经网络提供的。

6.根据前述任一项权利要求所述的方法，其特征在于，所述已知过程生成特征描述符。

7.根据前述任一项权利要求所述的方法，其特征在于，所述已知过程检测所述第一表示和第二表示的特征。

8.根据前述任一项权利要求所述的方法，其特征在于，在训练开始之前初始化可训练变换的权重。

9.根据前述任一项权利要求所述的方法，其特征在于，训练一个能够鉴别表示是否为合成表示的鉴别器。

10.根据前述任一项权利要求所述的方法，其特征在于，在不同照明条件下，重复使用一组与所述第一训练表示相对应的第二训练表示方法的训练。

11.可训练变换的用途，所述可训练变换使用权利要求1至10中任一项所述的方法训练获得，所述可训练变换在车辆中用于定位，或至少协助定位所述车辆以使输入表示与存储表示的库相匹配。

12.一种车辆，所述车辆包括获取所述车辆周围环境的当前表示的传感器，以及所述车辆进一步包括能够访问存储周围环境的表示的数据库的处理电路，其中所述处理电路用于执行以下内容：

a)以下中的至少一项：

i)使用变换变换当前表示，并在存储表示的库中搜索变换图像；以及

ii)变换所述库中至少一部分存储表示，并在变换的存储表示中搜索当前表示；

其中，步骤a)中执行的变换用于增强变换表示中的特征；

b)使用位于搜索中的所述存储表示的库中的表示定位所述车辆。

13.一种用于训练第一可训练变换的系统，所述第一可训练变换用于将环境的第一表示变换为所述环境的第二表示，所述第一表示与所述第二表示不同，所述系统包括处理电路，所述处理电路用于：

b)执行以下至少一项：

ii)在与所述第一训练表示对应但光照条件不同的第二训练表示和所述第一训练表示的修改版本上运行至少一个已知过程，以生成被选择过程的误差信号，以使所述第一可训练变换用于增强所述第一训练表示内的特征；

以及；

c)使用所述误差信号训练所述第一可训练变换。

14.一种计算机可读介质，其中包含指令，当计算机读取这些指令时，所述指令将使所述计算机执行以下操作：

a)使用第一可训练变换处理环境的多个第一训练表示，以生成变换后的第一训练表示；

b)执行以下至少一项：

以及；

c)使用所述误差信号训练所述第一可训练变换。

15.一种对车辆进行定位的方法，所述车辆包括获取所述车辆周围环境的当前表示的传感器，所述方法包括：

a)执行以下至少一项：

i)使用变换变换所述当前表示，并在存储表示的库中搜索变换图像；以及

ii)变换所述库中至少一部分存储表示，并在变换的存储表示中搜索所述当前表示；

其中，步骤a)中执行的变换用于增强变换表示中的特征；以及

b)使用位于搜索中的存储表示的库中的表示定位所述车辆。

16.一种包含指令的计算机可读介质，当计算机读取所述指令时，所述指令会导致车辆上的计算机执行以下操作：

a)使用所述车辆的传感器获取所述车辆的周围环境的当前表示；

b)执行以下至少一项：

其中，步骤a)中执行的变换用于增强所述变换表示中的特征；以及

c)使用位于搜索中的存储表示的库中的表示定位所述车辆。