CN110753934A

CN110753934A - 主动选择和标记图像以进行语义分割的系统和方法

Info

Publication number: CN110753934A
Application number: CN201880039993.XA
Authority: CN
Inventors: 阎志鹏; 黄泽华; 陈鹏飞; 王泮渠
Original assignee: Tusimple Inc
Current assignee: Tusimple Inc
Priority date: 2017-06-14
Filing date: 2018-06-14
Publication date: 2020-02-04
Anticipated expiration: 2038-06-14
Also published as: US10762635B2; CN109086785A; CN109086785B; US20180365835A1; CN110753934B; WO2018232187A1

Abstract

公开了一种用于主动选择和标记图像以进行语义分割的系统和方法。特定实施例包括：从图像生成设备接收图像数据；对所接收的图像数据执行语义分割或其他对象检测，以标识并标记图像数据中的对象，并产生语义标记图像数据；基于与图像的区域或部分相关联的预测概率来确定语义标记图像数据的质量；如果相关联的预测概率低于预定阈值，则标识图像的区域或部分以进行手动标记。

Description

主动选择和标记图像以进行语义分割的系统和方法

相关申请的交叉引用

本申请要求于2017年6月14日提交的美国专利申请序列号15/623,323的优先权。

技术领域

本专利文件总体上涉及用于图像处理、对象标记、车辆导航、车辆控制系统和自动驾驶系统的工具(系统、装置、方法、计算机程序产品等)，并且更具体地但非限制性地涉及用于主动选择和标记图像以进行语义分割的系统和方法。

背景技术

图像语义分割旨在通过将图像中的每个像素标记为语义类别来标识直接与图像中的对象相对应的图像区域。与仅检测图像中的对象的对象识别相反，语义分割将类别标记分配给每个像素，以指示该像素所属的对象。因此，语义分割的目的是为图像中的每个像素分配类别标记，这在图像分析和自动驾驶系统中起着重要的作用。

研究人员已经开发出一系列弱监督的分割算法。主要思想是拍摄已知包含相同对象类别的图像池，并利用重复模式共同分割出每个图像的前景。一方面，这种范例因其低人工投入而是吸引人的，特别是因为这种弱标记图像很容易通过关键字搜索在网络上获得。另一方面，所得到的分割是不完美的。结果，常规技术依赖于由人提供的准确但又太昂贵的分割，或依赖于便宜但又太不准确的自动分割。

发明内容

本文公开了一种用于主动选择和标记图像以进行语义分割的系统和方法。该系统包括用于图像语义分割的预定义过程。该系统通过对整个图像或图像的某些区域或部分的置信度测量来确定来自语义分割过程的输出的质量。如果系统确定图像的特定区域或部分的输出质量低于对应的置信度水平，则将确切的区域馈入标记工具或流水线并由人类进行标记以细化和标记输出图像，其被用作示教信号以重新训练和细化语义分割过程。

本文公开的各种示例实施例描述了一种用于主动选择和标记图像以进行语义分割的系统和方法。示例实施例的系统和方法包括两个主要组成部分或阶段：1)图像语义分割组成部分/阶段，以及2)语义标记分析组成部分/阶段。在语义分割阶段，来自一个或多个相机(或其他图像生成设备)的图像数据被发送给系统内的计算设备。计算设备处理图像数据以产生自动生成的语义标记图像数据。在语义标记分析阶段，计算设备分析图像的区域或部分以及相关的自动生成的语义标记图像数据，以基于与图像的区域或部分相关联的预测概率来确定来自语义分割过程的输出的质量。标识具有低于可接受水平的自动生成的标记图像数据质量输出的图像的特定区域或部分，以用于由人执行的手动标记过程。手动过程针对图像的标识区域或部分生成手动生成的标记图像数据。手动生成的标记图像数据与自动生成的标记图像数据相结合，以细化和标记输出图像，其将被用作示教信号以重新训练和细化语义分割过程。

附图说明

在附图的各图中以示例而非限制的方式示出了各种实施例，在附图中：

图1示出了其中可以实现示例实施例的图像处理和对象标记模块的示例生态系统的框图；

图2示出了示例实施例的图像处理和对象标记模块的组件；

图3至图10示出了示例图像，其示出了由示例实施例的图像处理和对象标记模块的组件所产生的预测和不确定性图像。

图11是示出了用于主动选择和标记图像以进行语义分割的系统和方法的示例实施例的过程流程图；以及

图12以计算机系统的示例形式示出了机器的示意图，在该计算机系统内一组指令在被执行时可以使得机器执行本文所讨论的方法中的任何一个或多个。

具体实施方式

在下面的描述中，出于解释的目的，阐述了许多具体细节以便提供对各种实施例的透彻理解。然而，对于本领域的普通技术人员而言显而易见的是，可以在没有这些具体细节的情况下实践各种实施例。

如各种示例实施例中所述，本文描述了用于主动选择和标记图像以进行语义分割的系统和方法。可以在车辆生态系统101中的控制系统150的情况下使用本文公开的示例实施例。在一个示例实施例中，驻留在车辆105中的具有图像处理和对象标记模块200的控制系统150可以像图1中所示的架构和生态系统101一样进行配置。然而，对于本领域的普通技术人员而言显而易见的是，可以在各种其他应用以及系统中实现、配置和使用本文描述和要求保护的图像处理和对象标记模块200。

现在参考图1，框图示出了示例生态系统101，其中可以实现示例实施例的控制系统150和图像处理和对象标记模块200。将在下面更详细地描述这些组件。生态系统101包括各种系统和组件，它们可以生成信息/数据和相关服务的一个或多个源和/或将其传递给控制系统150和图像处理和对象标记模块200，其可以安装在车辆105中。例如，作为车辆子系统140的设备之一，安装在车辆105中的相机可以生成可由控制系统150接收的图像和定时数据。控制系统150以及在其上执行的图像处理和对象标记模块200可以接收该图像和定时数据输入。

如下面更详细描述的，图像处理和对象标记模块200可以处理输入图像数据，基于输入图像数据生成语义标记图像，分析图像的区域或部分以及相关的自动生成的语义标记图像数据，以基于与图像的区域或部分相关联的预测概率确定来自语义分割过程的输出的质量，以及针对手动标记过程标识具有低于可接受水平的自动生成的标记图像数据质量输出的图像的任何特定区域或部分。标记质量信息可以由自主车辆控制子系统使用，并且还可以用于改善图像处理和对象标记模块200的训练。

在本文所述的示例实施例中，控制系统150可以与多个车辆子系统140进行数据通信，所有这些车辆子系统140可以驻留在用户的车辆105中。提供车辆子系统接口141以促进控制系统150和多个车辆子系统140之间的数据通信。控制系统150可以被配置为包括数据处理器171，以执行图像处理和对象标记模块200，该数据处理器171用于处理从车辆子系统140中的一个或多个接收的图像数据。数据处理器171可与数据存储设备172组合，该数据存储设备172作为控制系统150中的计算系统170的一部分。数据存储设备172可用于存储数据、处理参数和数据处理指令。可以提供处理模块接口165以促进数据处理器171与图像处理和对象标记模块200之间的数据通信。在各个示例实施例中，类似于图像处理和对象标记模块200配置的多个处理模块可以被提供以供数据处理器171执行。如图1中的虚线所示，图像处理和对象标记模块200可以集成到控制系统150中，或可选地下载到控制系统150中。

控制系统150可以被配置为从与其连接的广域网120和网络资源122接收数据或向其发送数据。网络支持设备130和/或用户移动设备132可用于经由网络120进行通信。网络支持设备接口131可由控制系统150使用以促进经由网络支持设备130在控制系统150和网络120之间的数据通信。类似地，控制系统150可以使用用户移动设备接口133来促进通过用户移动设备132在控制系统150和网络120之间的数据通信。以这种方式，控制系统150可以获得通过网络120对网络资源122的实时访问。网络资源122可以用于获得用于由数据处理器171执行的处理模块、训练内部神经网络的数据内容、系统参数或其他数据。

生态系统101可以包括广域数据网络120。网络120代表一个或多个常规广域数据网络，例如因特网、蜂窝电话网络、卫星网络、寻呼机网络、无线广播网络、游戏网络、WiFi网络、对等网络、IP语音(VoIP)网络等。这些网络120中的一个或多个可用于将用户或客户端系统与网络资源122(例如，网站、服务器、中央控制站点等)连接起来。网络资源122可以生成和/或分发数据，该数据可以在车辆105中经由网络支持设备130或用户移动设备132被接收。网络资源122还可以托管网络云服务，其可以支持用于计算或协助处理图像输入或图像输入分析的功能。天线可用于经由蜂窝、卫星、无线电或其他常规信号接收机制将控制系统150以及图像处理和对象标记模块200与数据网络120连接。这样的蜂窝数据网络当前可用(例如，Verizon^TM、AT&T^TM、T-Mobile^TM等)。此类基于卫星的数据或内容网络目前也可用(例如，SiriusXM^TM、HughesNet^TM等)。诸如AM/FM无线电网络、寻呼机网络、UHF网络、游戏网络、WiFi网络、对等网络、IP语音(VoIP)网络等的常规广播网络也是众所周知的。因此，如下面更详细地描述的，控制系统150和驾驶控制转换模块200可以经由车载网络支持设备接口131接收基于网络的数据或内容，该车载网络支持设备接口131可以用于与车载网络支持设备接收器130和网络120连接。通过这种方式，控制系统150和图像处理和对象标记模块200可以支持车辆105内的各种可联网设备和系统。

如图1所示，控制系统150和图像处理和对象标记模块200还可以从用户移动设备132接收数据、图像处理控制参数和训练内容，该用户移动设备132可以位于车辆105内部或附近。用户移动设备132可以代表标准移动设备，例如蜂窝电话、智能电话、个人数字助理(PDA)、MP3播放器、平板计算设备(例如，iPad^TM)、膝上型计算机、CD播放器和其他移动设备，该移动设备可以产生、接收和/或传递用于控制系统150和图像处理和对象标记模块200的数据、图像处理控制参数和内容。如图1所示，移动设备132也可以与网络云120进行数据通信。移动设备132可以从移动设备132本身的内部存储器组件或通过网络120从网络资源122获取数据和内容。另外，移动设备132本身可以包括GPS数据接收器、加速度计、WiFi三角测量或移动设备中的其他地理位置传感器或组件，其可用于在任何时间(通过移动设备)确定用户的实时地理位置。在任何情况下，如图1所示，控制系统150和图像处理和对象标记模块200都可以从移动设备132接收数据。

仍然参考图1，生态系统101的示例实施例可以包括车辆操作子系统140。对于在车辆105中实现的实施例，许多标准车辆包括操作子系统，例如支持监测/控制用于发动机、制动器、变速器、电气系统、排放系统、内部环境等的子系统的电子控制单元(ECU)。例如，经由车辆子系统接口141从车辆操作子系统140(例如，车辆105的ECU)传送给控制系统150的数据信号可以包括关于车辆105的一个或多个组件或子系统的状态的信息。具体地，可以从车辆操作子系统140传送给车辆105的控制器局域网(CAN)总线的数据信号可以经由车辆子系统接口141由控制系统150来接收和处理。本文描述的系统和方法的实施例可以与使用本文定义的CAN总线或类似的数据通信总线的基本上任何机械化系统一起使用，包括但不限于工业设备、船、卡车、机械、或汽车；因此，本文使用的术语“车辆”可以包括任何此类机械化系统。本文描述的系统和方法的实施例还可以与采用某种形式的网络数据通信的任何系统一起使用；然而，不需要这种网络通信。

仍然参考图1，生态系统101以及其中的车辆操作子系统140的示例实施例可以包括支持车辆105的操作的各种车辆子系统。通常，车辆105可以采用以下形式：例如，小汽车、卡车、摩托车、公共汽车、船、飞机、直升机、割草机、推土机、雪地摩托、飞行器、休旅车、游乐园车、农用设备、建筑设备、电车、高尔夫球车、火车和手推车。其他车辆也是可能的。车辆105可被配置为完全或部分地以自主模式操作。例如，车辆105可以在自主模式下控制自己，并且可操作以确定车辆的当前状态及其环境、确定该环境中至少一个其他车辆的预测行为、确定可以与该至少一个其他车辆执行预测行为的概率相对应的置信度、以及基于所确定的信息来控制车辆105。当处于自主模式时，车辆105可以被配置为在没有人类交互的情况下进行操作。

车辆105可以包括各种车辆子系统，例如车辆驱动子系统142、车辆传感器子系统144、车辆控制子系统146和乘员接口子系统148。如上所述，车辆105还可以包括控制系统150、计算系统170以及图像处理和对象标记模块200。车辆105可以包括更多或更少的子系统，并且每个子系统可以包括多个元件。此外，车辆105的每个子系统和元件可以互连。因此，车辆105的所描述的功能中的一个或多个可以被划分为附加的功能或物理组件，或者被组合为较少的功能或物理组件。在一些其他示例中，可以将其他功能和物理组件添加到图1所示的示例中。

车辆驱动子系统142可以包括可操作以为车辆105提供动力运动的组件。在示例实施例中，车辆驱动子系统142可以包括发动机或电动机、车轮/轮胎、变速器、电气子系统和电源。发动机或电动机可以是内燃发动机、电动机、蒸汽发动机、燃料电池发动机、丙烷发动机或其他类型的发动机或电动机的任何组合。在一些示例实施例中，发动机可以配置为将动力源转换成机械能。在一些示例实施例中，车辆驱动子系统142可以包括多种类型的发动机或电动机。例如，气电混合汽车可以包括汽油发动机和电动机。其他示例也是可能的。

车辆105的车轮可以是标准轮胎。车辆105的车轮可以被配置为各种形式，例如包括单轮车、自行车、三轮车或四轮车(例如，在汽车或卡车上)形式。其他车轮几何形状也是可能的，例如包括六个或更多个车轮的那些。车辆105的车轮的任何组合可以可操作以相对于其他车轮不同地旋转。车轮可以表示固定地附接到变速器的至少一个车轮、以及耦接到车轮的轮辋的至少一个轮胎，其可以与驱动表面接触。车轮可以包括金属和橡胶的组合或材料的另一组合。变速器可包括可操作以将机械动力从发动机传递给车轮的元件。为此，变速器可以包括齿轮箱、离合器、差速器和驱动轴。变速器也可以包括其他元件。驱动轴可包括可耦接至一个或多个车轮的一个或多个轮轴。电气系统可包括可操作以传送和控制车辆105中的电信号的元件。这些电信号可用于激活车辆105的灯、伺服、电动机和其他电驱动或控制设备。动力源可以表示可以全部或部分地为发动机或电动机供电的能源。即，发动机或电动机可以被配置为将动力源转换成机械能。动力源的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、燃料电池、太阳能板、电池和其他电源的来源。动力源可以附加地或替代地包括燃料箱、电池、电容器或飞轮的任何组合。动力源也可以为车辆105的其他子系统提供能量。

车辆传感器子系统144可以包括多个传感器，其被配置为感测关于车辆105的环境或状况的信息。例如，车辆传感器子系统144可以包括惯性测量单元(TMU)、全球定位系统(GPS)收发器、RADAR单元、激光测距仪/LIDAR单元(或其他距离测量设备)以及一个或多个相机或图像捕获设备。车辆传感器子系统144还可以包括被配置为监测车辆105的内部系统的传感器(例如，O2监测器、燃油表、发动机油温)。其他传感器也是可能的。车辆传感器子系统144中包括的一个或多个传感器可以被配置为单独地或共同地被致动，以便修改一个或多个传感器的位置、取向或两者。

IMU可以包括被配置为基于惯性加速度感测车辆105的位置和取向变化的传感器(例如，加速度计和陀螺仪)的任何组合。GPS收发器可以是被配置为估计车辆105的地理位置的任何传感器。为此，GPS收发器可以包括可操作以提供关于车辆105相对于地表的位置的信息的接收器/发送器。RADAR单元可以表示利用无线电信号来感测车辆105的局部环境内的对象的系统。在一些实施例中，除了感测对象之外，RADAR单元还可以被配置为感测车辆105附近的对象的速度和前进方向。激光测距仪或LIDAR单元可以是被配置为使用激光器来感测车辆105所在环境中的对象的任何传感器。在示例实施例中，激光测距仪/LIDAR单元可包括一个或多个激光源、激光扫描仪以及一个或多个检测器以及其他系统组件。激光测距仪/LIDAR单元(或其他距离测量设备)可以被配置为以相干(例如，使用外差检测)或非相干检测模式操作。相机可以包括一个或多个设备，该设备被配置为捕获车辆105的环境的多个图像。相机可以是静止图像相机或运动摄像机。

车辆控制系统146可以被配置为控制车辆105及其组件的操作。因此，车辆控制系统146可包括各种元件，例如转向单元、节气门、制动单元、导航单元和自主控制单元。

转向单元可以表示可操作以调节车辆105的前进方向的机构的任何组合。节气门可以被配置为控制例如发动机的操作速度，并进而控制车辆105的速度。制动单元可以包括被配置为使车辆105减速的机构的任何组合。制动单元可以以标准方式使用摩擦使车轮减速。在其他实施例中，制动单元可以将车轮的动能转换为电流。制动单元也可以采用其他形式。导航单元可以是被配置为确定车辆105的行驶路径或路线的任何系统。导航单元可以被附加地配置为在车辆105操作时动态地更新驾驶路径。在一些实施例中，导航单元可以被配置为合并来自图像处理和对象标记模块200、GPS收发器以及一个或多个预定地图的数据，以便确定车辆105的驾驶路径。自主控制单元可以表示被配置为识别、评估、避开或以其他方式协商车辆105的环境中的潜在障碍物的控制系统。通常，自主控制单元可以被配置为在没有驾驶员的情况下控制车辆105进行操作或提供驾驶员辅助以控制车辆105。在一些实施例中，自主控制单元可以被配置为合并来自图像处理和对象标记模块200、GPS收发器、RADAR、LIDAR、相机和其他车辆子系统的数据，以确定车辆105的行驶路径或轨迹。车辆控制系统146可以附加地或替代地包括除了示出和描述的那些组件之外的组件。

乘员接口子系统148可以被配置为允许车辆105与外部传感器、其他车辆、其他计算机系统和/或车辆105的乘员或用户之间的交互。例如，乘员接口子系统148可以包括标准视觉显示设备(例如，等离子体显示器、液晶显示器(LCD)、触摸屏显示器、平视显示器等)、扬声器或其他音频输出设备、麦克风或其他音频输入设备、导航界面以及用于控制车辆105的内部环境(例如，温度、风扇等)的界面。

在示例实施例中，乘员接口子系统148可以提供例如用于车辆105的用户/乘员与其他车辆子系统进行交互的装置。视觉显示设备可以向车辆105的用户提供信息。用户接口设备还可以可操作以经由触摸屏接受来自用户的输入。触摸屏可以被配置为经由电容感测、电阻感测或表面声波过程等来感测用户手指的位置和移动中的至少一个。触摸屏能够感测在与触摸屏表面平行或成平面的方向上、在垂直于触摸屏表面的方向上或者在这两者上的手指移动，并且还能够感测被施加到触摸屏表面的压力水平。触摸屏可以由一个或多个半透明或透明的绝缘层和一个或多个半透明或透明的导电层形成。触摸屏也可以采用其他形式。

在其他实例中，乘员接口子系统148可以提供用于车辆105与其环境内的设备进行通信的装置。麦克风可以被配置为从车辆105的用户接收音频(例如，语音命令或其他音频输入)。类似地，扬声器可以被配置为向车辆105的用户输出音频。在一个示例实施例中，乘员接口子系统148可被配置为直接地或经由通信网络与一个或多个设备无线通信。例如，无线通信系统可以使用3G蜂窝通信，例如CDMA、EVDO、GSM/GPRS，或4G蜂窝通信，例如WiMAX或LTE。备选地，无线通信系统可以例如使用

与无线局域网(WLAN)通信。在一些实施例中，无线通信系统146可以例如使用红外链路、

或

直接与设备进行通信。在本公开的上下文中，诸如各种车辆通信系统之类的其他无线协议也是可能的。例如，无线通信系统可以包括一个或多个专用短程通信(DSRC)设备，其可以包括车辆和/或路侧站点之间的公共或私有数据通信。

车辆105的许多或全部功能可以由计算系统170控制。计算系统170可以包括至少一个数据处理器171(其可以包括至少一个微处理器)，其执行存储在非暂时性计算机可读介质(例如，数据存储设备172)中的处理指令。计算系统170还可以表示多个计算设备，其可以用来控制车辆105的处于分布式方式的各个组件或子系统。在一些实施例中，数据存储设备172可以包含可由数据处理器171执行以执行车辆105的各种功能的处理指令(例如，程序逻辑)，包括本文结合附图所描述的那些功能。数据存储设备172还可以包含其他指令，包括将数据发送给车辆驱动子系统140、车辆传感器子系统144、车辆控制子系统146以及乘员接口子系统148中的一个或多个、从其接收数据、与其进行交互或对其进行控制的指令。

除了处理指令之外，数据存储设备172还可以存储诸如图像处理参数、训练数据、道路地图和路径信息等信息之类的数据。车辆105和计算系统170可以在车辆105以自主、半自主和/或手动模式进行操作期间使用此类信息。

车辆105可以包括用于向车辆105的用户或乘员提供信息或指令或者从车辆105的用户、驾驶员或乘员接收信息的用户界面。用户界面可以控制可以在显示设备上显示的交互式图像的内容和布局或实现对可以在显示设备上显示的交互式图像的内容和布局的控制。此外，用户界面可包括在一组乘员接口子系统148内的一个或多个输入/输出设备，例如显示设备、扬声器、麦克风或无线通信系统。

计算系统170可以基于从各个车辆子系统(例如，车辆驱动子系统140、车辆传感器子系统144和车辆控制子系统146)接收的以及从乘员接口子系统148接收的输入来控制车辆105的功能。例如，计算系统170可以使用来自车辆控制系统146的输入，以便控制转向单元以避开由车辆传感器子系统144和图像处理和对象标记模块200检测到的障碍物。在示例实施例中，计算系统170可操作以提供对车辆105及其子系统的许多方面的控制。

尽管图1示出了车辆105的各种组件，例如车辆子系统140、计算系统170、数据存储设备172、控制系统150以及图像处理和对象标记模块200，它们被集成到车辆105中，这些组件中的一个或多个可以独立于车辆105而安装或相关联。例如，数据存储设备172可以部分地或全部地与车辆105分开地存在。因此，可以以可以分开定位或定位在一起的设备元件的形式来提供车辆105。构成车辆105的设备元件可以以有线或无线方式通信地耦合在一起。在各种示例实施例中，控制系统150以及与之进行数据通信的图像处理和对象标记模块200可以被实现为集成组件或单独组件。在示例实施例中，可以通过使用经由网络120与移动设备132和/或网络资源122的数据连接来动态地升级、修改和/或增强控制系统150和/或图像处理和对象标记模块200的软件组件。控制系统150可以周期性地向移动设备132或网络资源122查询更新，或者可以将更新推送到控制系统150。

在示例实施例中，图像处理和对象标记模块200可以被配置为包括与控制系统150的接口，如图1所示，图像处理和对象标记模块200可以通过该接口发送和接收数据，如本文所述。另外，图像处理和对象标记模块200可以被配置为包括与控制系统150和/或其他生态系统101子系统的接口，图像处理和对象标记模块200可以通过该接口从上述各种数据源接收辅助数据。辅助数据可用于基于多种因素以及如本文所述可以从各种源(本地和远程)获得的各种其他数据来增强、修改或训练图像处理和对象标记模块200的操作，这些因素包括用户操作车辆的情况(例如，车辆的位置、指定的目的地、行进方向、速度、一天中的时间、车辆的状态等)。如上所述，图像处理和对象标记模块200还可以在未被部署在车辆中并且不必在车辆中或与车辆一起使用的系统和平台中实施。

用于主动选择和标记图像以进行语义分割的系统和方法

现在参考图2，该图示出了示例实施例中用于主动选择和标记图像以进行语义分割的系统201。如图2所示，用于主动选择和标记图像以进行语义分割的系统201可以是在测试环境中使用以生成基线语义标记图像数据的配置。图2所示的实施例也可以是在现实世界场景中的自主车辆中使用以从实况车辆图像数据生成语义标记图像数据的配置。示例实施例的这些系统在下面更详细地描述。

在图2所示的示例实施例中，本文中包括的用于主动选择和标记图像以进行语义分割的系统201以及用于主动选择和标记图像以进行语义分割的模块202可以被配置为包括图像语义分割模块273、语义标记分析模块275以及为清楚起见未示出的其他处理模块。这些模块中的每一个都可以被实现为软件、固件或其他逻辑组件，该软件、固件或其他逻辑组件在控制系统150内操作或与之进行数据通信的用于主动选择和标记图像以进行语义分割的模块202的可执行环境内被执行或激活。下面结合本文提供的附图更详细地描述示例实施例的这些模块中的每个模块。

仍然参考图2，图像语义分割模块273可以从配备有一个或多个相机或其他图像捕获设备的车辆接收图像数据210。车辆还可以配备有全球定位系统(GPS)、LIDAR和雷达系统以及被配置为生成位置图像并将图像与距离和位置测量相关的其他设备。结果，车辆可以在环境中的路径上行驶并且采集环境图像以及环境中对象的距离和位置测量。图像语义分割模块273可以采集该图像数据并且对采集的图像210执行语义分割或其他对象检测技术以标识并标记图像数据中的对象。当以这种方式处理多个图像时，可以在预定义的时间间隔内跟踪标识对象的存在。语义标记分析模块275可以使用该信息。

仍然参考图2，语义标记分析模块275可以从图像语义分割模块273接收自动生成的语义标记图像数据和与处理后的图像有关的检测对象数据。如通常在许多图像的分析中一样，图像的一些部分可能包括对象、边界或无法通过语义分割过程立即识别的其他区域。例如，不良的照明条件、遮挡、相机移动、焦点问题、传感器误差、环境条件等可能导致语义分割过程中的对象标识问题。另外，语义分割模型参数的不确定性可能进一步阻碍模型产生有效的语义标记图像数据的能力。因此，在语义分割过程中，重要的是不仅要标识处理后的图像中的对象，而且还要标识图像中对象标识不确定的区域。在示例实施例中，语义标记分析模块275可以将预测概率或不确定性近似应用于图像的任何给定区域或部分，低至像素级别。已知用于实现深度学习框架的技术，其实现了从输入图像数据到预测概率或不确定性近似的映射。该框架可用于回归和分类应用两者，并提供每个像素深度回归和语义分割任务的结果。结果，图像的每个区域具有相关联的预测概率或不确定性近似，其指定相对于针对处理后的图像维护的训练数据和/或地面真实数据，在该区域中标识的对象是正确标识对象的可能性。因此，语义标记分析模块275可以处理由图像语义分割模块273产生的语义标记图像数据，以验证语义标记图像数据和与处理后的图像有关的检测对象数据被正确地标识。作为该过程的一部分，语义标记分析模块275分析图像的区域或部分以及相关的自动生成的语义标记图像数据，以基于与图像的每个区域或部分相关联的预测概率或不确定性近似来确定来自语义分割过程的输出的质量。每个区域的相关联预测概率或不确定性近似可用于此目的。标识具有低于预定义可接受水平(或预定义可接受水平以下)的自动生成的标记图像数据质量输出的图像的特定区域或部分，以用于由人类执行的手动标记过程。手动过程针对图像的标识区域或部分生成手动生成的标记图像数据。手动生成的标记图像数据与自动生成的标记图像数据相结合，以细化和标记输出图像，其被用作示教信号以重新训练和细化语义分割过程。换言之，在所描述的方法的第一次迭代中产生的图像的标识区域或部分的标记图像数据可以用于细化、训练和改善在过程的后续迭代中执行的图像语义分割过程的性能。以这种方式，本文描述的图像处理方法可以被不断地改进和配置为不断地减少图像分析中的不确定性水平。可以将用于语义分割过程的细化数据作为对象表示数据274保留在数据存储设备或存储器272中。

图3至图10示出了示例图像，其示出了图像语义分割模块273和语义标记分析模块275用于处理输入图像的操作。示例图像包括与示例实施例的图像处理和对象标记模块200的组件执行的处理相对应的预测图像和不确定性图像。图3示出了示例原始输入图像。图4示出了与图3的示例原始输入图像相对应的地面真实对象表示。图5示出了在图像处理和对象标记模块200的第一迭代中与图3的示例原始输入图像相对应的预测概率图像。图像语义分割模块273可以生成图5所示的输出图像。图5表示具有对应置信度值的原始输入图像的每个像素的标记预测。图5是这些置信度值的可视化，其中热(红色)区域指示高置信度，而冷(蓝色)区域指示低置信度。图像语义分割模块273还可以生成图6所示的输出图像。图6示出了在图像处理和对象标记模块200的第一迭代中与图3的示例原始输入图像相对应的预测标记图像。如上所述，语义标记分析模块275可以生成从输入图像数据到与输入图像的特定区域相对应的预测概率或不确定性近似的映射。特别地，语义标记分析模块275可以取图3的原始输入图像、图5的标记预测和置信度值以及图6的标记预测数据，以产生图7所示的不确定性水平图。在描述的示例中，图7是在第一迭代中针对图3的示例原始输入图像的此不确定性映射的示例表示。如图7所示，图像的深色或黑色部分表示图像的具有较高的不确定性的区域。具有以高不确定性水平映射的大量图像部分的图像可以被标识为推荐进行由人类标记者执行的手动标记过程的候选者。再次参考图6，图像语义分割模块273已经产生了与图3的处理后的示例原始输入图像有关的自动生成的语义标记图像数据和检测对象数据。图6的预测标记图像与图4的地面真实图像的比较指示自动生成的语义标记图像数据丢失了一些对象细节，尤其是在图像的背景部分。该丢失的对象细节与如图5和图7所示的具有高不确定性水平的映射的图像部分是一致的。因为与图3的处理后的示例原始输入图像有关的检测对象数据和自动生成的语义标记图像数据的部分可能基于高不确定性而具有低于可接受水平的自动生成的标记图像数据质量输出，所以可以标识图像的部分以进行人工执行的手动标记过程。手动过程针对图像的标识区域或部分生成手动生成的标记图像数据。可以将手动生成的标记图像数据与自动生成的标记图像数据进行组合，以细化和标记输出图像，其可以被用作示教信号，以重新训练和细化语义分割过程，以用于该过程的后续迭代。

图8至图10示出了在语义分割过程已经如上所述利用从该过程的第一迭代生成的数据进行再训练之后，图3的原始输入图像的处理的后续迭代的示例。在所描述的示例的后续迭代中，图8示出了在图像处理和对象标记模块200的后续迭代中与图3的示例原始输入图像相对应的新的预测概率图像。图像语义分割模块273可以得益于根据在先前迭代中生成的数据进行的重新训练，生成图8所示的输出图像。图8表示具有对应置信度值的图像的每个像素的标记预测。图8是这些置信度值的可视化，其中热(红色)区域指示高置信度，而冷(蓝色)区域指示低置信度。图像语义分割模块273还可以得益于根据在先前迭代中生成的数据进行的再训练，生成图9所示的输出图像。图9示出了在图像处理和对象标记模块200的后续迭代中与图3的示例原始输入图像相对应的预测标记图像。如上所述，语义标记分析模块275可以生成从输入图像数据到与输入图像区域相对应的预测概率或不确定性近似的映射。特别地，语义标记分析模块275可以取图3的原始输入图像、图8的标记预测和置信度值以及图9的标记预测数据，以产生图10的不确定性水平图。在描述的示例中，图10是在后续迭代中针对图3的示例原始输入图像的此不确定性映射的示例表示。如图10所示，图像的深色或黑色部分表示图像的具有高不确定性水平的区域。图10的图像与图7的图像的比较指示在使用从第一次迭代或在先迭代产生的数据重新训练语义分割过程之后，图10中不确定性量有所下降。图9示出了如上所述在图像处理和对象标记模块200的后续迭代中与图3的示例原始输入图像相对应的预测标记图像。如图9所示，图像语义分割模块273受益于如上所述从第一次迭代或在先迭代接收的训练数据，产生了与图3的处理后的示例原始输入图像有关的检测对象数据和自动生成的语义标记图像数据。来自后续迭代的图9的预测标记图像与来自第一次迭代或在先迭代的图6的预测标记图像的比较指示，图9的自动生成的语义标记图像数据已经标识一些附加对象细节，尤其是在图片的背景部分。该附加对象细节与如图8和图10所示的以不确定性水平映射的图像部分一致。因此，本文公开的示例实施例提供了一种用于主动选择和标记图像以进行语义分割、用于标识图像的每个像素的概率水平或不确定性近似、以及用于基于先前生成的标记数据和概率水平来重新训练图像分析过程的系统和方法。

现在参考图11，流程图示出了用于基于语义分割的图像处理和对象标记的系统和方法1000的示例实施例。该示例实施例可以被配置为：从图像生成设备接收图像数据(处理框1010)；对接收的图像数据执行语义分割或其他对象检测，以标识并标记图像数据中的对象，并产生语义标记图像数据(处理框1020)；基于与图像的区域或部分相关联的预测概率来确定语义标记图像数据的质量(处理框1030)；以及如果相关联的预测概率低于预定阈值，则标识图像的区域或部分以进行手动标记(处理框1040)。

如本文所使用的，除非另有说明，否则术语“移动设备”包括可以与本文所述的控制系统150和/或图像处理和对象比较模块200通信以获得通过任何数据通信模式传送的数据信号、消息或内容的读取或写入访问权限的任何计算或通信设备。在许多情况下，移动设备130是手持式便携式设备，例如智能电话、移动电话、蜂窝电话、平板计算机、膝上型计算机、显示寻呼机、射频(RF)设备、红外(IR)设备、全球定位设备(GPS)、个人数字助理(PDA)、手持计算机、可穿戴计算机、便携式游戏机、其他移动通信和/或计算设备或组合一个或多个前述设备的集成设备等。另外，移动设备130可以是计算设备、个人计算机(PC)、多处理器系统、基于微处理器的或可编程的消费电子设备、网络PC、诊断设备、由车辆119的制造商或服务技术人员操作的系统等，但不仅限于便携式设备。移动设备130可以接收和处理多种数据格式中的任何一种格式的数据。数据格式可以包括任何编程格式、协议或语言或被配置为以任何编程格式、协议或语言进行操作，包括但不限于JavaScript、C++、iOS、Android等。

如本文所使用的，除非另有说明，否则术语“网络资源”包括可以与本文所述的控制系统150和/或图像处理和对象比较模块200通信以获得对通过任何模式的进程间或联网数据通信传送的数据信号、消息或内容的读取或写入访问权限的任何设备、系统或服务。在许多情况下，网络资源122是数据网络可访问的计算平台，包括客户端或服务器计算机、网站、移动设备、对等(P2P)网络节点等。此外，网络资源122可以是Web设备、网络路由器、交换机、网桥、网关、诊断设备、由车辆119的制造商或服务技术人员操作的系统或者是能够执行一组指令(顺序或其他方式)的任何机器，该指令指定要由该机器执行的动作。此外，虽然仅示出了单个机器，但是术语“机器”也可以被理解为包括机器的任何集合，其单独地或共同地执行一组(或多组)指令以执行本文讨论的任何一个或多个方法。网络资源122可以包括网络可传输数字内容的各个提供者或处理器中的任何一个。通常，所采用的文件格式是可扩展标记语言(XML)，但是各种实施例不限于此，并且可以使用其他文件格式。例如，各种实施例可以支持除超文本标记语言(HTML)/XML之外的数据格式或除开放/标准数据格式之外的格式。本文所述的各种实施例可以支持任何电子文件格式，例如可移植文档格式(PDF)、音频(例如，运动图像专家组音频第3层-MP3等)、视频(例如，MP4等)以及由特定内容站点定义的任何专有交换格式。

与网络资源122一起使用的广域数据网络120(也称为网络云)可以被配置为将一个计算或通信设备与另一计算或通信设备耦合。可以使网络能够采用任何形式的计算机可读数据或介质来将信息从一个电子设备传送到另一电子设备。网络120可以包括互联网，以及其他广域网(WAN)、蜂窝电话网络、城域网、局域网(LAN)、其他分组交换网络、电路交换网络、例如通过通用串行总线(USB)或以太网端口的直接数据连接、其他形式的计算机可读介质或其任何组合。网络120可以包括互联网，以及其他广域网(WAN)、蜂窝电话网络、卫星网络、空中广播网络、AM/FM无线电网络、寻呼机网络、UHF网络、其他广播网络、游戏网络、WiFi网络、对等网络、IP语音(VoIP)网络、城域网、局域网(LAN)、其他分组交换网络、电路交换网络、直接数据连接(例如，通过通用串行总线(USB)或以太网端口)、其他形式的计算机可读介质或其任意组合。在一组互连的网络(包括基于不同架构和协议的网络)上，路由器或网关可以充当网络之间的链接，使得消息能够在不同网络上的计算设备之间发送。而且，网络内的通信链路通常可以包括双绞线电缆、USB、火线、以太网或同轴电缆，而网络之间的通信链路可以利用模拟或数字电话线、包括T1、T2、T3和T4的全部或部分专用数字线路、综合业务数字网(ISDN)、数字用户线(DSL)、包括卫星链路、蜂窝电话链路或本领域普通技术人员公知的其他通信链路的无线链路。此外，远程计算机和其他相关电子设备可以通过调制解调器和临时电话链路远程连接到网络。

网络120还可以包括可以进一步覆盖独立自组织网络等的各种无线子网络中的任何一个，以提供面向基础设施的连接。这样的子网络可以包括网状网络、无线LAN(WLAN)网络、蜂窝网络等。该网络还可以包括通过无线无线电链路或无线收发器连接的终端、网关、路由器等的自主系统。这些连接器可以被配置为自由随机移动并任意组织，以使网络拓扑可以快速变化。网络120还可以采用多个标准无线和/或蜂窝协议或接入技术中的一个或多个，包括结合本文附图中描述的网络接口712和网络714在本文阐述的那些。

在特定实施例中，移动设备132和/或网络资源122可以充当使得用户能够访问和使用控制系统150和/或图像处理和对象比较模块200与车辆子系统的一个或多个组件交互的客户端设备。这些客户端设备132或122实际上可以包括被配置为通过诸如本文所述的网络120之类的网络发送和接收信息的任何计算设备。这样的客户端设备可以包括移动设备，例如蜂窝电话、智能电话、平板计算机、显示寻呼机、射频(RF)设备、红外(IR)设备、全球定位设备(GPS)、个人数字助理(PDA)、手持式计算机、可穿戴计算机、游戏控制台、组合一个或多个前述设备的集成设备等。客户端设备还可以包括其他计算设备，例如个人计算机(PC)、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC等。这样，客户端设备在功能和特征方面可以广泛地变化。例如，被配置为电话的客户端设备可以具有数字小键盘和几行单色LCD显示器，在其上只能显示文本。在另一示例中，支持网络的客户端设备可以具有触敏屏幕、手写笔和彩色LCD显示屏，其中可以显示文本和图形两者。此外，支持网络的客户端设备可以包括浏览器应用，该浏览器应用能够接收和发送无线应用协议消息(WAP)和/或有线应用消息等。在一个实施例中，浏览器应用被启用以采用超文本标记语言(HTML)、动态HTML、手持设备标记语言(HDML)、无线标记语言(WML)、WMLScript、JavaScript^TM、可扩展HTML(xHTML)、紧凑HTML(CHTML等)来显示和发送带有相关信息的消息。

客户端设备还可以包括至少一个客户端应用，该至少一个客户端应用被配置为经由网络传输从另一计算设备接收内容或消息。客户端应用可以包括提供和接收文本内容、图形内容、视频内容、音频内容、警报、消息、通知等的功能。此外，客户端设备还可以被配置为例如通过短消息服务(SMS)、直接消息传递(例如，Twitter)、电子邮件、多媒体消息服务(MMS)、即时消息传递(IM)、互联网中继聊天(IRC)、mIRC、Jabber、增强消息传递服务(EMS)、文本消息传递、智能消息传递、空中(OTA)消息传递等在另外的计算设备之间传送和/或接收消息等。客户端设备还可以包括无线应用设备，客户端应用被配置在该无线应用设备上，以使得该设备的用户能够经由网络无线地向/从网络资源发送和接收信息。

可以使用增强执行环境的安全性的系统来实现控制系统150和/或图像处理和对象比较模块200，从而提高安全性并降低控制系统150和/或图像处理和对象比较模块200以及相关服务可能被病毒或恶意软件破坏的可能性。例如，可以使用可信执行环境来实现控制系统150和/或图像处理和对象比较模块200，其可以确保敏感数据以安全的方式被存储、处理和传送。

图12以计算系统700的示例形式示出了机器的示意图，在其中当一组指令被执行时和/或当处理逻辑被激活时可以使该机器执行所描述的和/或本文所要求保护的方法中的任何一个或多个。在替代实施例中，该机器作为独立设备进行操作，或者可以连接(例如，联网)到其他机器。在联网部署中，机器可以在服务器-客户端网络环境中以服务器或客户端机器的身份进行操作，或者在对等(或分布式)网络环境中作为对等机器进行操作。该机器可以是个人计算机(PC)、膝上型计算机、平板计算系统、个人数字助理(PDA)、蜂窝电话、智能电话、网络设备、机顶盒(STB)、网络路由器、交换机或网桥、或能够执行一组指令(顺序指令或其他指令)或激活指定该机器要执行的动作的处理逻辑的任何机器。此外，虽然仅示出了单个机器，但是术语“机器”也可以被理解为包括机器的任何集合，其单独地或共同地执行一组(或多组)指令或处理逻辑以执行本文描述和/或要求保护的方法中的任意一个或多个。

示例计算系统700可以包括可以通过总线或其他数据传输系统706彼此通信的数据处理器702(例如，片上系统(SoC)、通用处理核心、图形核心和可选地其他处理逻辑)和存储器704。移动计算和/或通信系统700还可包括各种输入/输出(I/O)设备和/或接口710，例如触摸屏显示器、音频插孔、语音接口以及可选地网络接口712。在示例实施例中，网络接口712可以包括一个或多个无线电收发器，其被配置为与任何一个或多个标准无线和/或蜂窝协议或接入技术(例如，第二代(2G)、2.5代、第三代(3G)、第四代(4G)和下一代蜂窝系统的无线电接入、全球移动通信系统(GSM)、通用分组无线电业务(GPRS)、增强型数据GSM环境(EDGE)、宽带码分多址(WCDMA)、LTE、CDMA2000、WLAN、无线路由器(WR)网等)兼容。网络接口712还可被配置为与各种其他有线和/或无线通信协议一起使用，包括TCP/IP、UDP、SIP、SMS、RTP、WAP、CDMA、TDMA、UMTS、UWB、WiFi、WiMax、

IEEE 802.11x等。本质上，网络接口712可以实际上包括或支持任何有线和/或无线通信和数据处理机制，通过该机制，信息/数据可以通过网络714在计算系统700和另一计算或通信系统之间传送。

存储器704可以代表机器可读介质，在其上存储体现本文所描述和/或要求保护的方法或功能中的任何一个或多个的一组或多组指令、软件、固件或其他处理逻辑(例如，逻辑708)。在由移动计算和/或通信系统700执行期间，逻辑708或其一部分也可以完全或至少部分地驻留在处理器702内。这样，存储器704和处理器702也可以构成机器可读介质。逻辑708或其一部分也可以被配置为处理逻辑或逻辑，其至少一部分部分地以硬件实现。逻辑708或其一部分还可以经由网络接口712通过网络714发送或接收。虽然示例实施例的机器可读介质可以是单个介质，但是术语“机器可读介质”应当被认为包括存储一个或多个指令集的单个非暂时性介质或多个非暂时性介质(例如，集中式或分布式数据库和/或相关联的高速缓存和计算系统)。术语“机器可读介质”也可以被认为包括任何非暂时性介质，其能够存储、编码或携带一组指令以供机器执行并且使机器执行各种实施例的任何一个或多个方法，或者能够存储、编码或携带由该组指令利用或与之相关联的数据结构。因此，术语“机器可读介质”可被认为包括但不限于固态存储器、光学介质和磁性介质。

提供本公开的摘要以允许读者快速地确定技术公开的性质。提交本文档时应理解为不会将其用于解释或限制权利要求的范围或含义。另外，在前述具体实施方式中，可以看出，出于简化本公开的目的，在单个实施例中将各种特征组合在一起。本公开的方法不应被解释为反映了以下意图：所要求保护的实施例需要比每个权利要求中明确记载的特征更多的特征。相反，如所附权利要求所反映的，本发明主题在于少于单个公开实施例的所有特征。因此，所附权利要求由此并入详细描述中，其中每个权利要求独立地作为单独的实施例。

Claims

1.一种系统，包括：

数据处理器；以及

可由所述数据处理器执行的图像处理和对象标记模块，所述图像处理和对象标记模块被配置为执行图像处理和对象标记操作，所述图像处理和对象标记操作被配置为：

从图像生成设备接收图像数据；

对所接收的图像数据执行语义分割或其他对象检测，以标识并标记所述图像数据中的对象，并产生语义标记图像数据；

基于与所述图像的区域或部分相关联的预测概率，确定所述语义标记图像数据的质量；以及

如果相关联的预测概率低于预定阈值，则标识所述图像的区域或部分以进行手动标记。

2.根据权利要求1所述的系统，其中，所述图像生成设备是一个或多个相机。

3.根据权利要求1所述的系统，其中，所述图像数据对应于来自由一个或多个相机生成的视频流的至少一帧。

4.根据权利要求1所述的系统，还被配置为生成从所述图像数据到预测概率或不确定性近似的映射。

5.根据权利要求1所述的系统，还被配置为基于在所述图像处理和对象标记操作的在先迭代中生成的语义标记图像数据来重新训练所述图像处理和对象标记模块。

6.根据权利要求1所述的系统，其中，所述手动标记是由人类标记者执行的。

7.根据权利要求1所述的系统，其中，手动生成的标记图像数据与自动生成的标记图像数据相结合，以细化和标记所述图像的对象。

8.一种方法，包括：

从图像生成设备接收图像数据；

基于与所述图像的区域或部分相关联的预测概率来确定所述语义标记图像数据的质量；以及

9.根据权利要求8所述的方法，其中，所述图像生成设备是一个或多个相机。

10.根据权利要求8所述的方法，其中，所述图像数据对应于来自由一个或多个相机生成的视频流的至少一帧。

11.根据权利要求8所述的方法，包括生成从所述图像数据到预测概率或不确定性近似的映射。

12.根据权利要求8所述的方法，包括基于在所述方法的在先迭代中生成的语义标记图像数据来重新训练图像处理和对象标记模块。

13.根据权利要求8所述的方法，其中，所述手动标记是由人类标记者执行的。

14.根据权利要求8所述的方法，其中，手动生成的标记图像数据与自动生成的标记图像数据相结合以细化和标记所述图像的对象。

15.一种非暂时性机器可用存储介质，所述非暂时性机器可用存储介质包含指令，当所述指令由机器执行时，使得所述机器：

从图像生成设备接收图像数据；

16.根据权利要求15所述的非暂时性机器可用存储介质，其中，所述图像生成设备是一个或多个相机。

17.根据权利要求15所述的非暂时性机器可用存储介质，其中，所述图像数据对应于来自由一个或多个相机生成的视频流的至少一帧。

18.根据权利要求15所述的非暂时性机器可用存储介质，还被配置为生成从所述图像数据到预测概率或不确定性近似的映射。

19.根据权利要求15所述的非暂时性机器可用存储介质，还被配置为基于在图像处理和对象标记操作的在先迭代中生成的语义标记图像数据来重新训练图像处理和对象标记模块。

20.根据权利要求15所述的非暂时性机器可用存储介质，其中，所述手动标记是由人类标记者执行的。