CN110914778B

CN110914778B - 用于基于语义分割的图像定位的系统和方法

Info

Publication number: CN110914778B
Application number: CN201880032688.8A
Authority: CN
Inventors: 黄泽铧; 陈鹏飞; 王泮渠; 许可
Original assignee: Tucson Ltd
Current assignee: Tucson Ltd
Priority date: 2017-05-18
Filing date: 2018-05-18
Publication date: 2023-07-14
Anticipated expiration: 2038-05-18
Also published as: WO2018213739A1; CN112050792B; CN116880494A; CN110914778A; EP3625634A1; US10867188B2; EP3625634A4; US20180336421A1; CN112050792A; US20200160067A1; US10558864B2; CN107796374B; CN107796374A

Abstract

公开了一种基于语义分割的图像定位系统和方法。一个特定实施例包括：从安装在自主车辆上的图像生成设备接收图像数据；对所接收的图像数据执行语义分割或其他对象检测，以识别并标记图像数据中的对象，并产生语义标记图像数据；识别语义标记图像数据中的无关对象；从语义标记图像数据中去除无关对象；比较语义标记图像数据和基准语义标记图；基于匹配的基准语义标记图中的信息来确定自主车辆的车辆位置。

Description

用于基于语义分割的图像定位的系统和方法

相关申请的交叉引用

本申请要求于2017年5月18日提交的美国专利申请序列号15/598,727的优先权。

技术领域

本专利文件总体上涉及用于图像处理、车辆定位、车辆导航、车辆控制系统和自主驾驶系统的工具(系统、装置、方法、计算机程序产品等)，更具体地，但不限于此，涉及基于语义分割的图像定位的系统和方法。

背景技术

图像语义分割旨在通过将图像中的每个像素标记为语义类别来识别直接与图像中的对象相对应的图像区域。与仅检测图像中的对象的对象识别相反，语义分割将类别标记分配给每个像素，以指示该像素所属的对象。因此，语义分割的目的是为图像中的每个像素分配类别标记，这在图像分析和自驾驶系统中起着重要作用。

定位是确定车辆在环境中的确切位置的过程。定位对于在环境中导航车辆很重要。定位对于避开环境中的障碍物也很重要。在一些情况下，当使用语义分割标记时，定位可能会更加困难，这是因为在执行语义分割标记的图像中出现的变化的无关对象。另外，来自自主车辆上的传感器设备的图像数据和距离数据的准确度可能不是最佳的。这样，在生成准确的车辆位置和速度时可能存在问题。

发明内容

本文公开的各种示例实施例描述了一种用于使用语义解析对自主车辆进行高度自动化的定位和导航的系统和方法。示例实施例的系统和方法包括两个主要组成部分或阶段：1)映射组成部分/阶段，以及2)定位组成部分/阶段。在映射阶段，当操作测试车辆时，来自一个或多个相机(或其他图像生成设备)的图像数据被发送到系统内的计算设备。计算设备处理图像数据以产生高度准确的基准语义标记图像，并从基准语义标记图像中去除无关的动态对象，该基准语义标记图像作为基准语义标记图或路线图表示被记录在数据存储设备中。在定位阶段，自主车辆中的第二计算设备基于实时图像数据计算相同的语义标记图像，并从语义标记图像中去除无关的动态对象。然后，第二计算设备通过比较语义标记图像与基准语义标记图的相似度来定位车辆的位置。本文公开的方法包括：1)从语义标记图像中去除无关的动态对象；2)通过比较语义标记图像与基准语义标记图的相似度来定位车辆的位置。

附图说明

在附图的各图中以示例而非限制的方式示出了各种实施例，在附图中：

图1示出了其中可以实现示例实施例的图像处理和定位模块的示例生态系统的框图；

图2和图3示出了示例实施例的图像处理和定位模块的组件；

图4是示出了用于基于语义分割的图像定位的系统和方法的示例实施例的过程流程图；以及

图5以计算机系统的示例形式示出了机器的示意图，其中指令集在被执行时可以使该机器执行本文所讨论的方法中的任何一个或多个方法。

具体实施方式

在下面的描述中，出于解释的目的，阐述了许多具体细节以便提供对各种实施例的透彻理解。然而，对于本领域的普通技术人员而言显而易见的是，可以在没有这些具体细节的情况下实践各种实施例。

如各种示例实施例中所述，本文描述了用于基于语义分割的图像定位的系统和方法。可以在车辆生态系统101中的控制系统150的情况下使用本文公开的示例实施例。在一个示例实施例中，驻留在车辆105中的具有图像处理和定位模块200的控制系统150可以像图1中所示的架构和生态系统101一样进行配置。然而，对于本领域的普通技术人员而言显而易见的是，可以在各种其他应用以及系统中实现、配置和使用本文描述和要求保护的图像处理和定位模块200。

现在参考图1，框图示出了示例生态系统101，其中可以实现示例实施例的控制系统150和图像处理和定位模块200。将在下面更详细地描述这些组件。生态系统101包括各种系统和组件，它们可以生成信息/数据和相关服务的一个或多个源和/或将其传递给控制系统150和图像处理和定位模块200，其可以安装在车辆105中。例如，作为车辆子系统140的设备之一，安装在车辆105中的相机可以生成可由控制系统150接收的图像和定时数据。控制系统150和在其上执行的图像处理和定位模块200可以接收该图像和定时数据输入。如下面更详细地描述的，图像处理和定位模块200可以处理输入图像数据，基于输入图像数据生成语义标记图像，从语义标记图像中去除无关的动态对象，以及将语义标记图像与基准语义标记图像进行比较。比较的结果可以用于准确地确定自主车辆的精确位置。位置信息可以由自主车辆控制子系统(作为车辆子系统140的另一子系统)来使用。例如，自主车辆控制子系统可以使用车辆位置信息来安全高效地导航车辆105通过真实世界驾驶场景，同时避开障碍物并安全地控制车辆。

在本文所述的示例实施例中，控制系统150可以与多个车辆子系统140进行数据通信，所有这些车辆子系统140可以驻留在用户的车辆105中。提供车辆子系统接口141以促进控制系统150和多个车辆子系统140之间的数据通信。控制系统150可以被配置为包括数据处理器171，以执行图像处理和定位模块200，该数据处理器171用于处理从车辆子系统140中的一个或多个接收的图像数据。数据处理器171可与数据存储设备172组合，该数据存储设备172作为控制系统150中的计算系统170的一部分。数据存储设备172可用于存储数据、处理参数和数据处理指令。可以提供处理模块接口165以促进数据处理器171与图像处理和定位模块200之间的数据通信。在各个示例实施例中，类似于图像处理和定位模块200配置的多个处理模块可以被提供以供数据处理器171执行。如图1中的虚线所示，图像处理和定位模块200可以集成到控制系统150中，或可选地下载到控制系统150。

控制系统150可以被配置为从与其连接的广域网120和网络资源122接收数据或向其发送数据。网络支持设备130和/或用户移动设备132可用于经由网络120进行通信。网络支持设备接口131可由控制系统150使用以促进经由网络支持设备130在控制系统150和网络120之间的数据通信。类似地，控制系统150可以使用用户移动设备接口133来促进通过用户移动设备132在控制系统150和网络120之间的数据通信。以这种方式，控制系统150可以获得通过网络120对网络资源122的实时访问。网络资源122可以用于获得用于由数据处理器171执行的处理模块、训练内部神经网络的数据内容、系统参数或其他数据。

生态系统101可以包括广域数据网络120。网络120代表一个或多个常规广域数据网络，例如因特网、蜂窝电话网络、卫星网络、寻呼机网络、无线广播网络、游戏网络、WiFi网络、对等网络、IP语音(VoIP)网络等。这些网络120中的一个或多个可用于将用户或客户端系统与网络资源122(例如，网站、服务器、中央控制站点等)连接起来。网络资源122可以生成和/或分发数据，该数据可以在车辆105中经由网络支持设备130或用户移动设备132被接收。网络资源122还可以托管网络云服务，其可以支持用于计算或协助处理图像输入或图像输入分析的功能。天线可用于经由蜂窝、卫星、无线电或其他常规信号接收机制将控制系统150以及图像处理和定位模块200与数据网络120连接。这样的蜂窝数据网络当前可用(例如，Verizon^TM、AT&T^TM、T-Mobile^TM等)。此类基于卫星的数据或内容网络目前也可用(例如，SiriusXM^TM、HughesNet^TM等)。诸如AM/FM无线电网络、寻呼机网络、UHF网络、游戏网络、WiFi网络、对等网络、IP语音(VoIP)网络等的常规广播网络也是众所周知的。因此，如下面更详细地描述的，控制系统150和图像处理和定位模块200可以经由车载网络支持设备接口131接收基于网络的数据或内容，该网络支持设备接口131可以用于与网络支持设备接收器130和网络120连接。通过这种方式，控制系统150和图像处理和定位模块200可以支持车辆105内的各种可联网设备和系统。

如图1所示，控制系统150和图像处理和定位模块200还可以从用户移动设备132接收数据、图像处理控制参数和训练内容，该用户移动设备132可以位于车辆105内部或附近。用户移动设备132可以代表标准移动设备，例如蜂窝电话、智能电话、个人数字助理(PDA)、MP3播放器、平板计算设备(例如，iPad^TM)、膝上型计算机、CD播放器和其他移动设备，该移动设备可以产生、接收和/或传递用于控制系统150和图像处理和定位模块200的数据、图像处理控制参数和内容。如图1所示，移动设备132也可以与网络云120进行数据通信。移动设备132可以从移动设备132本身的内部存储器组件或通过网络120从网络资源122获取数据和内容。另外，移动设备132本身可以包括GPS数据接收器、加速度计、WiFi三角测量或移动设备中的其他地理位置传感器或组件，其可用于在任何时间(通过移动设备)确定用户的实时地理位置。在任何情况下，如图1所示，控制系统150和图像处理和定位模块200都可以从移动设备132接收数据。

仍然参考图1，生态系统101的示例实施例可以包括车辆操作子系统140。对于在车辆105中实现的实施例，许多标准车辆包括操作子系统，例如支持监测/控制用于发动机、制动器、变速器、电气系统、排放系统、内部环境等的子系统的电子控制单元(ECU)。例如，经由车辆子系统接口141从车辆操作子系统140(例如，车辆105的ECU)传送给控制系统150的数据信号可以包括关于车辆105的一个或多个组件或子系统的状态的信息。具体地，可以从车辆操作子系统140传送给车辆105的控制器局域网(CAN)总线的数据信号可以经由车辆子系统接口141由控制系统150来接收和处理。本文描述的系统和方法的实施例可以与使用本文定义的CAN总线或类似的数据通信总线的基本上任何机械化系统一起使用，包括但不限于工业设备、船、卡车、机械、或汽车；因此，本文使用的术语“车辆”可以包括任何此类机械化系统。本文描述的系统和方法的实施例还可以与采用某种形式的网络数据通信的任何系统一起使用；然而，不需要这种网络通信。

仍然参考图1，生态系统101以及其中的车辆操作子系统140的示例实施例可以包括支持车辆105的操作的各种车辆子系统。通常，车辆105可以采用以下形式：例如，小汽车、卡车、摩托车、公共汽车、船、飞机、直升机、割草机、推土机、雪地摩托、飞行器、休旅车、游乐园车、农用设备、建筑设备、电车、高尔夫球车、火车和手推车。其他车辆也是可能的。车辆105可被配置为完全或部分地以自主模式操作。例如，车辆105可以在自主模式下控制自己，并且可操作以确定车辆的当前状态及其环境、确定该环境中至少一个其他车辆的预测行为、确定可以与该至少一个其他车辆执行预测行为的概率相对应的置信度、以及基于所确定的信息来控制车辆105。当处于自主模式时，车辆105可以被配置为在没有人类交互的情况下进行操作。

车辆105可以包括各种车辆子系统，例如车辆驱动子系统142、车辆传感器子系统144、车辆控制子系统146和乘员接口子系统148。如上所述，车辆105还可以包括控制系统150、计算系统170以及图像处理和定位模块200。车辆105可以包括更多或更少的子系统，并且每个子系统可以包括多个元件。此外，车辆105的每个子系统和元件可以互连。因此，车辆105的所描述的功能中的一个或多个可以被划分为附加的功能或物理组件，或者被组合为较少的功能或物理组件。在一些其他示例中，可以将其他功能和物理组件添加到图1所示的示例中。

车辆驱动子系统142可以包括可操作以为车辆105提供动力运动的组件。在示例实施例中，车辆驱动子系统142可以包括发动机或电动机、车轮/轮胎、变速器、电气子系统和电源。发动机或电动机可以是内燃发动机、电动机、蒸汽发动机、燃料电池发动机、丙烷发动机或其他类型的发动机或电动机的任何组合。在一些示例实施例中，发动机可以配置为将动力源转换成机械能。在一些示例实施例中，车辆驱动子系统142可以包括多种类型的发动机或电动机。例如，气电混合汽车可以包括汽油发动机和电动机。其他示例也是可能的。

车辆105的车轮可以是标准轮胎。车辆105的车轮可以被配置为各种形式，例如包括单轮车、自行车、三轮车或四轮车(例如，在汽车或卡车上)形式。其他车轮几何形状也是可能的，例如包括六个或更多个车轮的那些。车辆105的车轮的任何组合可以可操作以相对于其他车轮不同地旋转。车轮可以表示固定地附接到变速器的至少一个车轮、以及耦接到车轮的轮辋的至少一个轮胎，其可以与驱动表面接触。车轮可以包括金属和橡胶的组合或材料的另一组合。变速器可包括可操作以将机械动力从发动机传递给车轮的元件。为此，变速器可以包括齿轮箱、离合器、差速器和驱动轴。变速器也可以包括其他元件。驱动轴可包括可耦接至一个或多个车轮的一个或多个轮轴。电气系统可包括可操作以传送和控制车辆105中的电信号的元件。这些电信号可用于激活车辆105的灯、伺服、电动机和其他电驱动或控制设备。动力源可以表示可以全部或部分地为发动机或电动机供电的能源。即，发动机或电动机可以被配置为将动力源转换成机械能。动力源的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、燃料电池、太阳能板、电池和其他电源的来源。动力源可以附加地或替代地包括燃料箱、电池、电容器或飞轮的任何组合。动力源也可以为车辆105的其他子系统提供能量。

车辆传感器子系统144可以包括多个传感器，其被配置为感测关于车辆105的环境或状况的信息。例如，车辆传感器子系统144可以包括惯性测量单元(IMU)、全球定位系统(GPS)收发器、RADAR单元、激光测距仪/LIDAR单元(或其他距离测量设备)以及一个或多个相机或图像捕获设备。车辆传感器子系统144还可以包括被配置为监测车辆105的内部系统的传感器(例如，O 2监测器、燃油表、发动机油温)。其他传感器也是可能的。车辆传感器子系统144中包括的一个或多个传感器可以被配置为单独地或共同地被致动，以便修改一个或多个传感器的位置、取向或两者。

IMU可以包括被配置为基于惯性加速度感测车辆105的位置和取向变化的传感器(例如，加速度计和陀螺仪)的任何组合。GPS收发器可以是被配置为估计车辆105的地理位置的任何传感器。为此，GPS收发器可以包括可操作以提供关于车辆105相对于地表的位置的信息的接收器/发送器。RADAR单元可以表示利用无线电信号来感测车辆105的局部环境内的对象的系统。在一些实施例中，除了感测对象之外，RADAR单元还可以被配置为感测车辆105附近的对象的速度和前进方向。激光测距仪或LIDAR单元(或其他距离测量设备)可以是被配置为使用激光来感测车辆105所在环境中的对象的任何传感器。在示例实施例中，激光测距仪/LIDAR单元可包括一个或多个激光源、激光扫描仪以及一个或多个检测器以及其他系统组件。激光测距仪/LIDAR单元可以被配置为以相干(例如，使用外差检测)或非相干检测模式操作。相机可以包括一个或多个设备，该设备被配置为捕获车辆105的环境的多个图像。相机可以是静止图像相机或运动相机。

车辆控制系统146可以被配置为控制车辆105及其组件的操作。因此，车辆控制系统146可包括各种元件，例如转向单元、节气门、制动单元、导航单元和自主控制单元。

转向单元可以表示可操作以调节车辆105的前进方向的机构的任何组合。节气门可以被配置为控制例如发动机的操作速度，并进而控制车辆105的速度。制动单元可以包括被配置为使车辆105减速的机构的任何组合。制动单元可以以标准方式使用摩擦使车轮减速。在其他实施例中，制动单元可以将车轮的动能转换为电流。制动单元也可以采用其他形式。导航单元可以是被配置为确定车辆105的行驶路径或路线的任何系统。导航单元可以被附加地配置为在车辆105操作时动态地更新驾驶路径。在一些实施例中，导航单元可以被配置为合并来自图像处理和定位模块200、GPS收发器以及一个或多个预定地图的数据，以便确定车辆105的驾驶路径。自主控制单元可以表示被配置为识别、评估、避开或以其他方式协商车辆105的环境中的潜在障碍物的控制系统。通常，自主控制单元可以被配置为在没有驾驶员的情况下控制车辆105进行操作或提供驾驶员辅助以控制车辆105。在一些实施例中，自主控制单元可以被配置为合并来自图像处理和定位模块200、GPS收发器、RADAR、LIDAR、相机和其他车辆子系统的数据，以确定车辆105的行驶路径或轨迹。车辆控制系统146可以附加地或替代地包括除了示出和描述的那些组件之外的组件。

乘员接口子系统148可以被配置为允许车辆105与外部传感器、其他车辆、其他计算机系统和/或车辆105的乘员或用户之间的交互。例如，乘员接口子系统148可以包括标准视觉显示设备(例如，等离子体显示器、液晶显示器(LCD)、触摸屏显示器、平视显示器等)、扬声器或其他音频输出设备、麦克风或其他音频输入设备、导航界面以及用于控制车辆105的内部环境(例如，温度、风扇等)的界面。

在示例实施例中，乘员接口子系统148可以提供例如用于车辆105的用户/乘员与其他车辆子系统进行交互的装置。视觉显示设备可以向车辆105的用户提供信息。用户接口设备还可以可操作以经由触摸屏接受来自用户的输入。触摸屏可以被配置为经由电容感测、电阻感测或表面声波过程等来感测用户手指的位置和移动中的至少一个。触摸屏能够感测在与触摸屏表面平行或成平面的方向上、在垂直于触摸屏表面的方向上或者在这两者上的手指移动，并且还能够感测被施加到触摸屏表面的压力水平。触摸屏可以由一个或多个半透明或透明的绝缘层和一个或多个半透明或透明的导电层形成。触摸屏也可以采用其他形式。

在其他实例中，乘员接口子系统148可以提供用于车辆105与其环境内的设备进行通信的装置。麦克风可以被配置为从车辆105的用户接收音频(例如，语音命令或其他音频输入)。类似地，扬声器可以被配置为向车辆105的用户输出音频。在一个示例实施例中，乘员接口子系统148可被配置为直接地或经由通信网络与一个或多个设备无线通信。例如，无线通信系统可以使用3G蜂窝通信，例如CDMA、EVDO、GSM/GPRS，或4G蜂窝通信，例如WiMAX或LTE。备选地，无线通信系统可以例如使用

与无线局域网(WLAN)通信。在一些实施例中，无线通信系统146可以例如使用红外链路、/>

或/>

直接与设备进行通信。在本公开的上下文中，诸如各种车辆通信系统之类的其他无线协议也是可能的。例如，无线通信系统可以包括一个或多个专用短程通信(DSRC)设备，其可以包括车辆和/或路侧站点之间的公共或私有数据通信。

车辆105的许多或全部功能可以由计算系统170控制。计算系统170可以包括至少一个数据处理器171(其可以包括至少一个微处理器)，其执行存储在非暂时性计算机可读介质(例如，数据存储设备172)中的处理指令。计算系统170还可以表示多个计算设备，其可以用来控制车辆105的处于分布式方式的各个组件或子系统。在一些实施例中，数据存储设备172可以包含可由数据处理器171执行以执行车辆105的各种功能的处理指令(例如，程序逻辑)，包括本文结合附图所描述的那些功能。数据存储设备172还可以包含其他指令，包括将数据发送给车辆驱动子系统140、车辆传感器子系统144、车辆控制子系统146以及乘员接口子系统148中的一个或多个、从其接收数据、与其进行交互或对其进行控制的指令。

除了处理指令之外，数据存储设备172还可以存储诸如图像处理参数、训练数据、道路地图和路径信息等信息之类的数据。车辆105和计算系统170可以在车辆105以自主、半自主和/或手动模式进行操作期间使用此类信息。

车辆105可以包括用于向车辆105的用户或乘员提供信息或从车辆105的用户或乘员接收信息的用户界面。用户界面可以控制可以在显示设备上显示的交互式图像的内容和布局或实现对可以在显示设备上显示的交互式图像的内容和布局的控制。此外，用户界面可包括在一组乘员接口子系统148内的一个或多个输入/输出设备，例如显示设备、扬声器、麦克风或无线通信系统。

计算系统170可以基于从各个车辆子系统(例如，车辆驱动子系统140、车辆传感器子系统144和车辆控制子系统146)接收的以及从乘员接口子系统148接收的输入来控制车辆105的功能。例如，计算系统170可以使用来自车辆控制系统146的输入，以便控制转向单元以避开由车辆传感器子系统144和图像处理和定位模块200检测到的障碍物。在示例实施例中，计算系统170可操作以提供对车辆105及其子系统的许多方面的控制。

尽管图1示出了车辆105的各种组件，例如车辆子系统140、计算系统170、数据存储设备172、控制系统150以及图像处理和定位模块200，它们被集成到车辆105中，这些组件中的一个或多个可以独立于车辆105而安装或相关联。例如，数据存储设备172可以部分地或全部地与车辆105分开地存在。因此，可以以可以分开定位或定位在一起的设备元件的形式来提供车辆105。构成车辆105的设备元件可以以有线或无线方式通信地耦合在一起。在各个示例实施例中，控制系统150以及与之进行数据通信的图像处理和定位模块200可以被实现为集成组件或单独组件。在示例实施例中，可以通过使用经由网络120与移动设备132和/或网络资源122的数据连接来动态地升级、修改和/或扩充控制系统150和/或图像处理和定位模块200的软件组件。控制系统150可以周期性地向移动设备132或网络资源122查询更新，或者可以将更新推送到控制系统150。

在示例实施例中，图像处理和定位模块200可以被配置为包括与如图1所示的控制系统150的接口，图像处理和定位模块200可以通过该接口发送和接收数据，如本文所述。另外，图像处理和定位模块200可以被配置为包括与控制系统150和/或其他生态系统101子系统的接口，图像处理和定位模块200可以通过该接口从上述各种数据源接收辅助数据。辅助数据可用于基于多种因素来增强、修改或训练图像处理和定位模块200的操作，这些因素包括用户操作车辆的环境(例如，车辆的位置、特定目的地、行进方向、速度、一天中的时间、车辆的状态等)以及可从本地和远程的各种源获得的各种其他数据，如本文所述。如上所述，图像处理和定位模块200还可以在未部署在车辆中和不必在车辆中使用或与车辆一起使用的系统和平台中实施。

基于语义分割的图像定位的系统和方法

本文公开的各种示例实施例描述了一种用于使用语义解析对自主车辆进行高度自动化的定位和导航的系统和方法。示例实施例的系统和方法包括两个主要组成部分或阶段：1)映射组成部分/阶段，以及2)定位组成部分/阶段。在映射阶段，当操作测试车辆时，来自一个或多个相机(或其他图像生成设备)的图像数据被发送到系统内的计算设备。图像数据可以对应于来自由一个或多个相机生成的视频流的至少一帧。计算设备处理图像数据以产生高度准确的基准语义标记图像，并从基准语义标记图像中去除无关的动态对象，该基准语义标记图像作为基准语义标记图或路线图表示被记录在数据存储设备中。在定位阶段，自主车辆中的第二计算设备基于实时图像数据计算相同的语义标记图像，并从语义标记图像中去除无关的动态对象。然后，第二计算设备通过比较语义标记图像与基准语义标记图的相似度来定位车辆的位置。本文公开的方法包括：1)从语义标记图像中去除无关的动态对象；2)通过比较语义标记图像与基准语义标记图的相似度来定位车辆的位置。

现在参考图2和图3，在示例实施例中，图示出了基于语义分割的定位系统201/301。如图2所示的基于语义分割的定位系统201是测试车辆用于生成基准语义标记图像数据的配置。如图3所示的基于语义分割的定位系统301是自主车辆在现实世界场景中使用的配置，以从实况车辆图像数据生成语义标记图像数据，将生成的语义标记图像数据与基准语义标记图像图进行比较，并根据比较来确定精确的车辆位置。在下面更详细地描述示例实施例的这些系统。

在图2所示的示例实施例中，基于语义分割的定位系统201以及其中包括的基准图像处理和定位模块202是测试车辆用于生成基准语义标记图像数据的配置。在示例实施例中，基准图像处理和定位模块202可以被配置为包括图像语义分割模块273和语义标记图像处理模块275以及为清楚起见未示出的其他处理模块。这些模块中的每个模块都可以被实现为在控制系统150内操作或与控制系统150进行数据通信的基准图像处理和定位模块202的可执行环境中执行或激活的软件、固件或其他逻辑组件。下面结合本文提供的附图更详细地描述示例实施例的这些模块中的每个模块。

仍然参考图2，以基准生成配置操作的图像语义分割模块273可以从配备有一个或多个相机或其他图像捕获设备的测试车辆接收图像数据210。测试车辆还可以配备有高精度全球定位系统(GPS)、高质量LIDAR和雷达系统以及被配置为准确地生成特定位置的图像并将图像与高精度的距离和位置测量相关的其他设备。结果，测试车辆可以在感兴趣的环境中的定义路线上行驶，并采集环境的图像以及环境中对象的精确距离和位置测量。图像语义分割模块273可以采集该图像数据以及对应的距离和位置测量数据。图像数据可以与对应的距离和位置测量数据相关，以产生环境的高度准确的三维(3D)模型或图。使用图像数据210，图像语义分割模块273可以对采集的图像210执行语义分割或其他对象检测技术，以识别并标记图像数据中的对象。使用相关的距离和位置测量数据，还可以以高准确度定义所识别对象的3D位置。当以这种方式处理多个图像时，可以在预定义的时间间隔内跟踪所识别对象的位置。每个识别对象的位置差异可用于导出图像中每个移动或动态对象的速度和速度矢量。以这种方式，图像语义分割模块273可以生成语义标记图像数据，该语义标记图像数据包括对象标记、在由测试车辆采集的图像中识别的对象的准确位置以及移动或动态对象的速度。语义标记图像处理模块275可以使用该信息。

仍然参考图2，以基准生成配置操作的语义标记图像处理模块275可以从图像语义分割模块273接收语义标记图像数据以及检测到的对象位置和速度。语义标记图像处理模块275处理语义标记图像数据以识别在图像数据中识别的动态(例如，移动)的、短暂的、暂时的或其他无关对象。例如，图像中的动态的、短暂的、暂时的或其他无关的对象可以是对图像和其他图像对象的确定性和准确定位没有帮助的对象。语义标记图像处理模块275可以识别语义标记图像数据中的这些动态的、短暂的、暂时的或其他无关的对象，并将它们从语义标记图像数据中去除。所得的语义标记图像数据提供了高度准确的语义标记图，其中包括确定性的并提供准确定位的已识别的标记对象。该高度准确的语义标记图可以用作基准语义标记图220，从中可以确定准确的车辆定位。基准语义标记图220可以作为路线图表示274存储在存储器272中，其可以在现实世界的驾驶场景中由自主车辆控制系统用来辅助车辆控制系统来确定准确的车辆位置。

现在参考图3，基于语义分割的定位系统301和其中包括的图像处理和定位模块200提供了在现实世界场景中自主车辆在实况车辆操作中使用的配置，以根据实时车辆图像数据310生成语义标记图像数据，将生成的语义标记图像数据与基准语义标记图220进行比较，并根据比较来确定精确的车辆位置320。在示例实施例中，图像处理和定位模块200可以被配置为包括图像语义分割模块273、语义标记图像处理模块275、定位处理模块377以及为清楚起见未示出的其他处理模块。这些模块中的每个模块都可以被实现为在控制系统150内操作或与控制系统150进行数据通信的图像处理和定位模块200的可执行环境中执行或激活的软件、固件或其他逻辑组件。下面结合本文提供的附图更详细地描述示例实施例的这些模块中的每个模块。

仍然参考图3，以实况车辆操作配置操作的图像语义分割模块273可以从在真实世界场景中操作的自主车辆接收图像数据310。自主车辆可以配备有如上所述的标准相机或成像设备、GPS、LIDAR、雷达以及其他车辆传感器设备和子系统。自主车辆可以使用传感器子系统来采集环境图像，以及环境中的对象的来自相机和LIDAR或雷达设备的距离测量。由于自主车辆的传感器子系统可能不是高度精确的，并且现实世界环境可能无法像测试环境一样受控制，因此自主车辆采集的图像和距离数据可能不准确或不完整。结果，在环境中检测到的对象的位置以及因此在环境中的定位可能不是高度准确。然而，图像语义分割模块273可以从自主车辆传感器子系统采集该图像数据310和对应的距离数据。使用该图像数据310，图像语义分割模块273可以对所采集图像310执行语义分割或其他对象检测技术，以识别并标记图像数据中的对象。使用距离数据，还可以估计所识别对象的3D位置。当以这种方式处理多个图像时，可以在预定义的时间间隔内跟踪所识别对象的位置。每个识别对象的位置差异可用于导出图像中的每个移动对象的估计速度和速度矢量。以这种方式，图像语义分割模块273可以生成语义标记图像数据，该语义标记图像数据包括对象标记、在由自主车辆采集的图像中识别的对象的估计位置以及移动对象的估计速度。语义标记图像处理模块275可以使用该信息。

仍然参考图3，以实况车辆操作配置操作的语义标记图像处理模块275可以从图像语义分割模块273接收语义标记图像数据以及检测到的对象位置和速度。语义标记图像处理模块275处理语义标记图像数据以识别在图像数据中识别的动态(例如，移动)的、短暂的、暂时的或其他无关对象。例如，图像中的动态的、短暂的、暂时的或其他无关的对象可以是对图像和其他图像对象的确定性和准确定位没有帮助的对象。语义标记图像处理模块275可以识别语义标记图像数据中的这些动态的、短暂的、暂时的或其他无关的对象，并将它们从语义标记图像数据中去除。所得的语义标记图像数据提供了语义标记图，其包括已识别的标记对象，这些对象对于车辆定位是确定性的和有用的。然而，如上所述，在实况车辆操作期间生成的识别对象和位置可能不是高度准确的。结果，可能难以从该语义标记图数据确定精确的车辆位置。因此，示例实施例提供了定位处理模块377，以进一步处理语义标记图像数据并从中提取精确的车辆位置。

如上所述，在基准生成阶段产生的高度准确的语义标记图可以用作基准语义标记图220，根据该基准语义标记图220可以确定准确的车辆定位。基准语义标记图220可从存储器272中检索并作为路线图表示374存储在本地存储器372中，该路线图表示374可由定位处理模块377用于生成准确的车辆位置。特别地，定位处理模块377可以使用从实时图像数据310生成的语义标记图像数据，并将生成的语义标记图像数据与对应于基准语义标记图220的路线图表示374进行比较。因为已经去除了每个所生成的语义标记图像数据和基准语义标记图220中的动态的、短暂的、暂时的、或其他无关对象，将生成的语义标记图像数据与基准语义标记图220进行比较以找到匹配的基准语义标记图220会更快、更有效。如上所述，基准语义标记图220是用高度精度的3D位置数据生成的。因此，当定位处理模块377执行比较并寻找匹配的基准语义标记图220时，可以从匹配的基准语义标记图220中提取精确的3D位置数据，并将其用于生成自主车辆的高度准确的3D位置320。当在多个循环中跟踪该准确的3D位置时，还可以生成自主车辆的准确速度和速度矢量。另外，还可以生成准确的车辆轨迹或位置历史记录，以准确地绘制车辆通过环境的路径。定位处理模块377生成的车辆位置320可以作为图像处理和定位模块200的输出提供。车辆位置320可以由自主车辆控制系统在现实世界驾驶场景中使用，以辅助车辆控制系统在各种不同环境中安全高效地操作自主车辆。

现在参考图4，流程图示出了用于基于语义分割的图像定位的系统和方法1000的示例实施例。该示例实施例可以被配置为：从安装在自主车辆上的图像生成设备接收图像数据(处理框1010)；对接收到的图像数据执行语义分割或其他对象检测，以识别并标记图像数据中的对象，并产生语义标记图像数据(处理框1020)；识别语义标记图像数据中的无关对象(处理框1030)；从语义标记图像数据中去除无关对象(处理框1040)；比较语义标记图像数据和基准语义标记图(处理框1050)；基于匹配的基准语义标记图中的信息来确定自主车辆的车辆位置(处理框1060)。

如本文所使用的，除非另有说明，否则术语“移动设备”包括可以与本文所述的控制系统150和/或图像处理和定位模块200通信以获得通过任何数据通信模式传送的数据信号、消息或内容的读取或写入访问权限的任何计算或通信设备。在许多情况下，移动设备130是手持式便携式设备，例如智能电话、移动电话、蜂窝电话、平板计算机、膝上型计算机、显示寻呼机、射频(RF)设备、红外(IR)设备、全球定位设备(GPS)、个人数字助理(PDA)、手持计算机、可穿戴计算机、便携式游戏机、其他移动通信和/或计算设备或组合一个或多个前述设备的集成设备等。另外，移动设备130可以是计算设备、个人计算机(PC)、多处理器系统、基于微处理器的或可编程的消费电子设备、网络PC、诊断设备、由车辆119的制造商或服务技术人员操作的系统等，但不仅限于便携式设备。移动设备130可以接收和处理多种数据格式中的任何一种格式的数据。数据格式可以包括任何编程格式、协议或语言或被配置为以任何编程格式、协议或语言进行操作，包括但不限于JavaScript、C++、iOS、Android等。

如本文所使用的，除非另有说明，否则术语“网络资源”包括可以与本文所述的控制系统150和/或图像处理和定位模块200通信以获得对通过任何模式的进程间或联网数据通信传送的数据信号、消息或内容的读取或写入访问权限的任何设备、系统或服务。在许多情况下，网络资源122是数据网络可访问的计算平台，包括客户端或服务器计算机、网站、移动设备、对等(P2P)网络节点等。此外，网络资源122可以是Web设备、网络路由器、交换机、网桥、网关、诊断设备、由车辆119的制造商或服务技术人员操作的系统或者是能够执行一组指令(顺序或其他方式)的任何机器，该指令指定要由该机器执行的动作。此外，虽然仅示出了单个机器，但是术语“机器”也可以被理解为包括机器的任何集合，其单独地或共同地执行一组(或多组)指令以执行本文讨论的任何一个或多个方法。网络资源122可以包括网络可传输数字内容的各个提供者或处理器中的任何一个。通常，所采用的文件格式是可扩展标记语言(XML)，但是各种实施例不限于此，并且可以使用其他文件格式。例如，各种实施例可以支持除超文本标记语言(HTML)/XML之外的数据格式或除开放/标准数据格式之外的格式。本文所述的各种实施例可以支持任何电子文件格式，例如可移植文档格式(PDF)、音频(例如，运动图像专家组音频第3层-MP3等)、视频(例如，MP4等)以及由特定内容站点定义的任何专有交换格式。

与网络资源122一起使用的广域数据网络120(也称为网络云)可以被配置为将一个计算或通信设备与另一计算或通信设备耦合。可以使网络能够采用任何形式的计算机可读数据或介质来将信息从一个电子设备传送到另一电子设备。网络120可以包括互联网，以及其他广域网(WAN)、蜂窝电话网络、城域网、局域网(LAN)、其他分组交换网络、电路交换网络、例如通过通用串行总线(USB)或以太网端口的直接数据连接、其他形式的计算机可读介质或其任何组合。网络120可以包括互联网，以及其他广域网(WAN)、蜂窝电话网络、卫星网络、空中广播网络、AM/FM无线电网络、寻呼机网络、UHF网络、其他广播网络、游戏网络、WiFi网络、对等网络、IP语音(VoIP)网络、城域网、局域网(LAN)、其他分组交换网络、电路交换网络、直接数据连接(例如，通过通用串行总线(USB)或以太网端口)、其他形式的计算机可读介质或其任意组合。在一组互连的网络(包括基于不同架构和协议的网络)上，路由器或网关可以充当网络之间的链接，使得消息能够在不同网络上的计算设备之间发送。而且，网络内的通信链路通常可以包括双绞线电缆、USB、火线、以太网或同轴电缆，而网络之间的通信链路可以利用模拟或数字电话线、包括T1、T2、T3和T4的全部或部分专用数字线路、综合业务数字网(ISDN)、数字用户线(DSL)、包括卫星链路、蜂窝电话链路或本领域普通技术人员公知的其他通信链路的无线链路。此外，远程计算机和其他相关电子设备可以通过调制解调器和临时电话链路远程连接到网络。

网络120还可以包括可以进一步覆盖独立自组织网络等的各种无线子网络中的任何一个，以提供面向基础设施的连接。这样的子网络可以包括网状网络、无线LAN(WLAN)网络、蜂窝网络等。该网络还可以包括通过无线无线电链路或无线收发器连接的终端、网关、路由器等的自主系统。这些连接器可以被配置为自由随机移动并任意组织，以使网络拓扑可以快速变化。网络120还可以采用多个标准无线和/或蜂窝协议或接入技术中的一个或多个，包括结合本文附图中描述的网络接口712和网络714在本文阐述的那些。

在特定实施例中，移动设备132和/或网络资源122可以充当使得用户能够访问和使用控制系统150和/或图像处理和定位模块200与车辆子系统的一个或多个组件交互的客户端设备。这些客户端设备132或122实际上可以包括被配置为通过诸如本文所述的网络120之类的网络发送和接收信息的任何计算设备。这样的客户端设备可以包括移动设备，例如蜂窝电话、智能电话、平板计算机、显示寻呼机、射频(RF)设备、红外(IR)设备、全球定位设备(GPS)、个人数字助理(PDA)、手持式计算机、可穿戴计算机、游戏控制台、组合一个或多个前述设备的集成设备等。客户端设备还可以包括其他计算设备，例如个人计算机(PC)、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC等。这样，客户端设备在功能和特征方面可以广泛地变化。例如，被配置为电话的客户端设备可以具有数字小键盘和几行单色LCD显示器，在其上只能显示文本。在另一示例中，支持网络的客户端设备可以具有触敏屏幕、手写笔和彩色LCD显示屏，其中可以显示文本和图形两者。此外，支持网络的客户端设备可以包括浏览器应用，该浏览器应用能够接收和发送无线应用协议消息(WAP)和/或有线应用消息等。在一个实施例中，浏览器应用被启用以采用超文本标记语言(HTML)、动态HTML、手持设备标记语言(HDML)、无线标记语言(WML)、WMLScript、JavaScript^TM、可扩展HTML(xHTML)、紧凑HTML(CHTML等)来显示和发送带有相关信息的消息。

客户端设备还可以包括至少一个客户端应用，该至少一个客户端应用被配置为经由网络传输从另一计算设备接收内容或消息。客户端应用可以包括提供和接收文本内容、图形内容、视频内容、音频内容、警报、消息、通知等的功能。此外，客户端设备还可以被配置为例如通过短消息服务(SMS)、直接消息传递(例如，Twitter)、电子邮件、多媒体消息服务(MMS)、即时消息传递(IM)、互联网中继聊天(IRC)、mIRC、Jabber、增强消息传递服务(EMS)、文本消息传递、智能消息传递、空中(OTA)消息传递等在另外的计算设备之间传送和/或接收消息等。客户端设备还可以包括无线应用设备，客户端应用被配置在该无线应用设备上，以使得该设备的用户能够经由网络无线地向/从网络资源发送和接收信息。

可以使用增强执行环境的安全性的系统来实现控制系统150和/或图像处理和定位模块200，从而提高安全性并降低控制系统150和/或图像处理和定位模块200以及相关服务可能被病毒或恶意软件破坏的可能性。例如，可以使用可信执行环境来实现控制系统150和/或图像处理和定位模块200，其可以确保敏感数据以安全的方式被存储、处理和传送。

图5以计算系统700的示例形式示出了机器的示意图，在其中当一组指令被执行时和/或当处理逻辑被激活时可以使该机器执行所描述的和/或本文所要求保护的方法中的任何一个或多个。在替代实施例中，该机器作为独立设备进行操作，或者可以连接(例如，联网)到其他机器。在联网部署中，机器可以在服务器-客户端网络环境中以服务器或客户端机器的身份进行操作，或者在对等(或分布式)网络环境中作为对等机器进行操作。该机器可以是个人计算机(PC)、膝上型计算机、平板计算系统、个人数字助理(PDA)、蜂窝电话、智能电话、网络设备、机顶盒(STB)、网络路由器、交换机或网桥、或能够执行一组指令(顺序指令或其他指令)或激活指定该机器要执行的动作的处理逻辑的任何机器。此外，虽然仅示出了单个机器，但是术语“机器”也可以被理解为包括机器的任何集合，其单独地或共同地执行一组(或多组)指令或处理逻辑以执行本文描述和/或要求保护的方法中的任意一个或多个。

示例计算系统700可以包括可以通过总线或其他数据传输系统706彼此通信的数据处理器702(例如，片上系统(SoC)、通用处理核心、图形核心和可选地其他处理逻辑)和存储器704。移动计算和/或通信系统700还可包括各种输入/输出(I/O)设备和/或接口710，例如触摸屏显示器、音频插孔、语音接口以及可选地网络接口712。在示例实施例中，网络接口712可以包括一个或多个无线电收发器，其被配置为与任何一个或多个标准无线和/或蜂窝协议或接入技术(例如，第二代(2G)、2.5代、第三代(3G)、第四代(4G)和下一代蜂窝系统的无线电接入、全球移动通信系统(GSM)、通用分组无线电业务(GPRS)、增强型数据GSM环境(EDGE)、宽带码分多址(WCDMA)、LTE、CDMA2000、WLAN、无线路由器(WR)网等)兼容。网络接口712还可被配置为与各种其他有线和/或无线通信协议一起使用，包括TCP/IP、UDP、SIP、SMS、RTP、WAP、CDMA、TDMA、UMTS、UWB、WiFi、WiMax、

IEEE 802.11x等。本质上，网络接口712可以实际上包括或支持任何有线和/或无线通信和数据处理机制，通过该机制，信息/数据可以通过网络714在计算系统700和另一计算或通信系统之间传送。

存储器704可以代表机器可读介质，在其上存储体现本文所描述和/或要求保护的方法或功能中的任何一个或多个的一组或多组指令、软件、固件或其他处理逻辑(例如，逻辑708)。在由移动计算和/或通信系统700执行期间，逻辑708或其一部分也可以完全或至少部分地驻留在处理器702内。这样，存储器704和处理器702也可以构成机器可读介质。逻辑708或其一部分也可以被配置为处理逻辑或逻辑，其至少一部分部分地以硬件实现。逻辑708或其一部分还可以经由网络接口712通过网络714发送或接收。虽然示例实施例的机器可读介质可以是单个介质，但是术语“机器可读介质”应当被认为包括存储一个或多个指令集的单个非暂时性介质或多个非暂时性介质(例如，集中式或分布式数据库和/或相关联的高速缓存和计算系统)。术语“机器可读介质”也可以被认为包括任何非暂时性介质，其能够存储、编码或携带一组指令以供机器执行并且使机器执行各种实施例的任何一个或多个方法，或者能够存储、编码或携带由该组指令利用或与之相关联的数据结构。因此，术语“机器可读介质”可被认为包括但不限于固态存储器、光学介质和磁性介质。

提供本公开的摘要以允许读者快速地确定技术公开的性质。提交本文档时应理解为不会将其用于解释或限制权利要求的范围或含义。另外，在前述具体实施方式中，可以看出，出于简化本公开的目的，在单个实施例中将各种特征组合在一起。本公开的方法不应被解释为反映了以下意图：所要求保护的实施例需要比每个权利要求中明确记载的特征更多的特征。相反，如所附权利要求所反映的，本发明主题在于少于单个公开实施例的所有特征。因此，所附权利要求由此并入详细描述中，其中每个权利要求独立地作为单独的实施例。

Claims

1.一种用于基于语义分割的图像定位的系统，包括：

数据处理器；以及

所述数据处理器可执行的图像处理和定位模块，所述图像处理和定位模块被配置为执行图像处理和定位操作，所述图像处理和定位操作被配置为：

从安装在自主车辆上的图像生成设备接收图像数据；

对所接收的图像数据执行语义分割，以识别并标记所述图像数据中的对象，并产生语义标记图像数据，其中所述语义分割为所述图像数据中的每个像素分配对象标记，所述对象标记以及移动或动态对象的速度包括在所述语义标记图像数据中；

通过以下方式识别所述语义标记图像数据中的无关对象：使用所述对象标记以及所述移动或动态对象的速度，将所述语义标记图像数据中的动态对象识别为所述无关对象；

从所述语义标记图像数据中去除所述无关对象；

将所述语义标记图像数据与基准语义标记图进行比较；以及

基于匹配的基准语义标记图中的信息来确定所述自主车辆的车辆位置。

2.根据权利要求1所述的系统，其中，所述图像生成设备是一个或多个相机。

3.根据权利要求1所述的系统，其中，所述操作还被配置为使用具有安装在测试车辆上的高度准确的图像生成设备和距离测量设备的所述测试车辆来采集图像数据并从所述图像数据生成所述基准语义标记图。

4.根据权利要求1所述的系统，其中，所述操作还被配置为使用具有安装在测试车辆上的高度准确的图像生成设备和距离测量设备的所述测试车辆来采集图像数据并从所述图像数据生成所述基准语义标记图，其中，无关对象从所述基准语义标记图中被去除。

5.根据权利要求1所述的系统，其中，所述图像数据对应于来自由一个或多个相机生成的视频流的至少一帧。

6.根据权利要求1所述的系统，其中，所述操作还被配置为确定所述自主车辆的车辆速度。

7.根据权利要求1所述的系统，其中，所述车辆位置被输出到所述自主车辆的车辆控制子系统。

8.一种用于基于语义分割的图像定位的方法，包括：

从安装在自主车辆上的图像生成设备接收图像数据；

从所述语义标记图像数据中去除所述无关对象；

将所述语义标记图像数据与基准语义标记图进行比较；以及

9.根据权利要求8所述的方法，其中，所述图像生成设备是一个或多个相机。

10.根据权利要求8所述的方法，包括使用具有安装在测试车辆上的高度准确的图像生成设备和距离测量设备的所述测试车辆来采集图像数据并从所述图像数据生成所述基准语义标记图。

11.根据权利要求8所述的方法，包括使用具有安装在测试车辆上的高度准确的图像生成设备和距离测量设备的所述测试车辆来采集图像数据并从所述图像数据生成所述基准语义标记图，其中，无关对象从所述基准语义标记图中被去除。

12.根据权利要求8所述的方法，其中，所述图像数据对应于来自由一个或多个相机生成的视频流的至少一帧。

13.根据权利要求8所述的方法，包括确定所述自主车辆的车辆速度。

14.根据权利要求8所述的方法，其中，所述车辆位置被输出到所述自主车辆的车辆控制子系统。

15.一种包含指令的非暂时性机器可用存储介质，当所述指令由机器执行时，使得所述机器执行以下操作：

从安装在自主车辆上的图像生成设备接收图像数据；

从所述语义标记图像数据中去除所述无关对象；

将所述语义标记图像数据与基准语义标记图进行比较；以及

16.根据权利要求15所述的非暂时性机器可用存储介质，其中，所述图像生成设备是一个或多个相机。

17.根据权利要求15所述的非暂时性机器可用存储介质，其中，所述指令还被配置为使用具有安装在测试车辆上的高度准确的图像生成设备和距离测量设备的所述测试车辆来采集图像数据并从所述图像数据生成所述基准语义标记图。

18.根据权利要求15所述的非暂时性机器可用存储介质，其中，所述指令还被配置为使用具有安装在测试车辆上的高度准确的图像生成设备和距离测量设备的所述测试车辆来采集图像数据并从所述图像数据生成所述基准语义标记图，其中，无关对象从所述基准语义标记图中被去除。

19.根据权利要求15所述的非暂时性机器可用存储介质，其中，所述图像数据对应于来自由一个或多个相机生成的视频流的至少一帧。

20.根据权利要求15所述的非暂时性机器可用存储介质，其中，所述车辆位置被输出到所述自主车辆的车辆控制子系统。