CN112074875A

CN112074875A - 构造3d特征图的组优化深度信息方法和系统

Info

Publication number: CN112074875A
Application number: CN201980012686.7A
Authority: CN
Inventors: 董海巍; 任远; 基万·戈勒斯坦·艾冉妮
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-02-08
Filing date: 2019-01-29
Publication date: 2020-12-11
Anticipated expiration: 2039-01-29
Also published as: US20190244378A1; CN112074875B; US10643342B2; WO2019154179A1

Abstract

公开了一种构造3D特征图的组优化方法。在一个实施例中，所述方法包括确定存在各自环境特征的图像组中每个图像的多个环境特征的对应关系信息，以及每个摄像头(310)的相对位置和校准。基于所述环境特征(312)的所述对应关系信息，确定存在各自环境特征的所述图像组中每个图像所述多个环境特征中每个环境特征的深度信息。使用确定的每个各自环境特征(314)的深度信息，确定所述多个环境特征中每个环境特征的组优化深度信息。

Description

构造3D特征图的组优化深度信息方法和系统

相关申请案交叉申请

本申请要求于2018年2月8日提交的申请号为15/891,951、发明名称为“构造3D特征图的组优化深度信息方法和系统”的美国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机视觉领域，尤其涉及一种构造3D特征图的组优化深度信息方法和系统。

背景技术

车辆驾驶员辅助系统能够提高驾驶员的意识和安全性，自主车辆能够提高驾驶员的安全性和便捷性。自主停车和驾驶是自主车辆的重要方面。然而，与自主车辆的其它方面一样，自主停车和驾驶等自主操作仍然是一个发展领域，自主停车和驾驶仍然有待改进。

计算机视觉系统是车辆驾驶员辅助系统和自主车辆的重要组成部分。一种计算机视觉系统是立体计算机视觉系统，包括前置立体摄像头，该立体摄像头由两个镜头组成，每个镜头具有单独的图像传感器帧，每个镜头指向车辆的前方。立体计算机视觉系统的缺点在于，即使使用了广角镜头，只有车辆侧视图中的一部分能被立体摄像头捕捉，车辆的后视图根本不被立体摄像头捕捉。尽管一些车辆驾驶员辅助系统和自主车辆中可能存在侧面摄像头和后置摄像头，但是来自这些摄像头的视图通常不与前置立体摄像头的视图相结合，并且不是用于导航(例如，停车和驾驶)的计算机视觉系统的一部分。相反，侧面摄像头和后置摄像头用于其它目的，例如定位、车道偏离检测、避免碰撞或其它功能。

另一种计算机视觉系统是一种全景视觉系统，包括旋转转盘上的一个单目摄像头或一个全方位摄像头。全景视觉系统的缺点在于，采集的图像具有与凸镜类似的非线性高度失真。通常，距离拍摄图像中心最远的对象失真最严重，而距离拍摄图像中心最近的对象失真最轻微。当补偿这种图像失真时，由于高压缩等级，采集图像中心可用的图像数据较少，导致图像失真补偿不均和校正图像中心周围精确度很低。

出于上述和其它原因，亟需对计算机视觉系统进行改进以及现有方案的替代方案。

发明内容

本发明提供了一种构造3D特征图的组优化深度信息的方法和系统。具有至少一部分公共观测区的多个分布式摄像头组成感官网络，感官网络可用于确定每个摄像头环境特征的深度信息。为不同摄像头视角的多个环境特征确定的所述深度信息后续通过组优化一起计算。通过结合所述组优化深度信息，可以生成更精确的3D特征图。通过结合特征深度计算中所有分布式摄像头的测量，所述改进3D特征图提供了更高的测量精确度，从而可以提高后续操作的准确性和鲁棒性，所述后续操作包括但不限于车辆定位，路径规划，以及对象识别和追踪。本发明的所述方法可以有广泛的应用，比如追踪局部模糊的对象，高精度定位目标，等等。

根据本发明的一个方面，提供了一种生成三维(three-dimensional，简称3D)特征图的方法。所述方法包括：基于多个摄像头中的每个摄像头的相对位置和校准，确定存在各自环境特征的图像组中每个图像的多个环境特征的对应关系信息。基于所述环境特征的所述对应关系信息，确定存在各自环境特征的所述图像组中每个图像的所述多个环境特征中每个环境特征的深度信息。使用确定的每个各自环境特征的深度信息，确定所述多个环境特征中每个环境特征的组优化深度信息。

在一些示例中，所述方法还包括从所述多个摄像头采集的图像中选择图像组，所述图像组包括所述多个摄像头中每个摄像头的一个捕获图像，所述图像组在同一时间捕获。

在一些示例中，所述方法还包括基于所述各自摄像头的内在参数对所述图像组中每个图像进行图像失真补偿。

在一些示例中，所述方法还包括校正所述图像组中的每个图像，使得所述图像组中所有图像有一个共同的图像平面。

根据本发明的另一方面，提供了一种计算机视觉系统。所述计算机视觉系统包括处理器，耦合到处理器的存储器，以及耦合到处理器的多个摄像头。所述摄像头位于宿主对象比如车辆的周围。所述多个摄像头包括：至少两个前置摄像头，其具有所述对象所在环境的前视图；至少一个左侧摄像头，其具有所述对象所在环境的左视图；至少一个右侧摄像头，其具有所述对象所在环境的右视图。所述存储器有形地存储可执行指令，当可执行指令被处理器执行时，使得所述计算机视觉系统执行上述和此处描述的所述方法。

根据本发明的另一方面，提供了一种用于车辆的车辆控制系统。所述车辆控制系统包括处理器，耦合到所述处理器且用于采集车辆周围环境的多个摄像头，以及耦合到所述处理器的存储器。所述存储器存储有可执行指令，当可执行指令被处理器执行时，使得所述车辆控制系统执行上述和此处描述的所述方法。

根据本发明的另一方面，提供了一种车辆，所述车辆包括：用于移动车辆的机械系统，耦合到所述机械系统且用于控制所述机械系统的驱动控制系统，以及耦合到所述驱动控制系统的车辆控制系统，所述车辆控制系统具有上述和此处所描述的特征。

根据本发明的又一方面，提供了一种非瞬时性机器读取介质，所述非瞬时性机器读取介质有形地存储可执行指令，供计算机视觉系统的处理器执行。所述计算机视觉系统包括所述处理器，耦合到所述处理器的存储器，以及耦合到所述处理器的多个摄像头。所述摄像头位于宿主对象比如车辆的周围。所述多个摄像头包括：至少两个前置摄像头，其具有所述对象所在环境的前视图；至少一个左侧摄像头，其具有所述对象所在环境的左视图；至少一个右侧摄像头，其具有所述对象所在环境的右视图。当所述可执行指令被所述处理器执行时，使得所述计算机视觉系统执行上述和此处描述的所述方法。

附图说明

图1是适于实施本发明示例性实施例的通信系统的示意图；

图2是本发明一示例性实施例提供的包含车辆控制系统的车辆的框图；

图3是本发明一示例性实施例提供的生成所述环境的三维(three-dimensional，简称3D)特征图的方法的流程图；

图4是本发明一示例性实施例提供的阐述校正设置的示意图；

图5是阐述具有不同视场的不同摄像头所观测到的环境特征交点的示意图；

图6是阐述涉及具有不同视场的不同摄像头所观测到的环境特征的对应关系信息的示意图；

图7是本发明一示例性实施例提供的阐述深度计算的示意图；

图8是阐述三角测量中使用的对极几何的示意图；

图9是阐述两个图像平面平行时的对极几何的示意图。

具体实施方式

本发明参考附图进行，在所述附图中示出实施例。然而，可以使用许多不同的实施例，因此不应将该描述视为仅限于本文描述的实施例。相反，提供这些实施例是为了使本发明透彻和完整。在全文中，相同的数字表示相同的元件，在可替代实施例中，加撇符号用于表示类似的元件、操作或步骤。所示系统和设备的功能元件的单独的框或所示的分离不一定需要此类功能的物理分离，因为在没有任何此类物理分离的情况下，此类元件之间的通信可以通过消息传递、函数调用、共享存储器空间等的方式发生。这样，功能不必在物理上或逻辑上分离的平台中实现，尽管为了便于此处的解释而分别示出了这些功能。不同的设备可以具有不同的设计，使得尽管一些设备在固定功能硬件中实现一些功能，但其它设备可以在可编程处理器中利用从机器可读介质获得的代码来实现此类功能。

为方便起见，本发明参考汽车、卡车、公共汽车、客船或轮船、潜艇、飞机、仓储设备、施工设备、拖拉机或其它农场设备等机动车辆描述了方法和系统的示例性实施例。本发明的理念不限于车辆或任何特定类型的车辆，并且可以应用于其它真实或虚拟的对象，以及不搭载乘客的车辆以及搭载乘客的车辆。本发明的理念还可以在非车辆移动机器人中实现，包括但不限于自动真空吸尘器、飞行器、割草机、无人机(unmanned aerial vehicle，简称UAV)和其它对象。

图1是本发明一个示例性实施例提供的展示通信系统100选定组件的示意图。所述通信系统100包括以嵌入在车辆105中的车辆控制系统115的形式(图1中仅示出其中一个)的用户设备。如下所述，车辆控制系统115耦合到车辆105的驱动控制系统150(图2)和机械系统190(图2)。所述车辆控制系统115允许所述车辆105在完全自主、半自主或完全用户控制模式下操作。

所述车辆控制系统115提供一种计算机视觉系统，该计算机视觉系统包括多个数字摄像头112，该多个数字摄像头112位于所述车辆105的周围，每个数字摄像头112耦合到至少一个处理器102等控制器、存储器126和计算机视觉应用176等控制软件，如下所述。在本实施例中，所述摄像头112位于所述车辆105的前、后、左侧和右侧，以捕获所述车辆105的前、后、左侧和右侧的环境。在所示实施例中，两个或更多个摄像头112位于所述车辆105的前部并提供前视图，一个摄像头112位于所述车辆105的左侧并提供左视图，一个摄像头112位于所述车辆105的右侧并提供右视图，一个摄像头112位于所述车辆105的后部并提供背面视图。所述摄像头112可以位于所述车辆105的车顶或其它地方。在其它实施例中，可以在这些位置提供不同数量的摄像头112。所述摄像头112可以捕获包括一系列连续帧的静态图像或视频。在至少一些实施例中，所述摄像头112为单目摄像头。所述摄像头112可以捕获可见光、红外线或两者。所述摄像头112可以相同或不同。例如，所述图像传感器、镜头或两者可以在摄像头112之间有所不同。例如，一些摄像头112，比如前置摄像头，可以比侧置和/或后置摄像头具有更高的分辨率。又例如，摄像头之间的焦距和/或景深可以不同(例如，一些摄像头可以具有广角镜头，其它摄像头可以具有远摄镜头，而其它摄像头可以处于中间)。所述摄像头112安装在相邻摄像头112之间或者位于所述相邻摄像头112之间，以具有不同的视场(field of view，简称FOV)，以捕获所述车辆105周围的环境。

一些或所有相邻的摄像头112，可能是所有的摄像头112的FOV部分重叠。在一些示例中，左侧摄像头和左前摄像头部分重叠，左前摄像头和前中心摄像头部分重叠，前中心摄像头和右前摄像头部分重叠，右前摄像头和右侧摄像头部分重叠。在其它示例中，左侧摄像头和右侧摄像头和前中心摄像头也可能部分重叠。在另外的示例中，左侧摄像头和前中心摄像头也可能部分重叠，右侧摄像头和前中心摄像头也可能部分重叠。在又一些示例中，左侧摄像头和后置摄像头部分重叠，右侧摄像头和后置摄像头也部分重叠。

在一些实施例中，所述摄像头112可以是传感器单元125的一部分，该传感器单元125扫描所述车辆105的前、后、左侧和右侧的环境。在这些实施例中，所述传感器单元125除了包括所述摄像头112之外，还包括多个传感器110。每个传感器单元125的所述多个传感器110可包括LIDAR单元114、雷达单元例如合成孔径雷达(synthetic aperture radar，简称SAR)单元116、惯性测量单元(inertial measurement unit，简称IMU)118、电子罗盘119以及可能的其它传感器120。当所述传感器110处于活动状态时，重复(例如，定期)感测信息，并实时或近实时地向所述车辆控制系统115提供感测到的信息。所述IMU 118使用加速计和陀螺仪的组合来感测所述车辆的比力和角速率。所述车辆控制系统115使用所述摄像头112和传感器110收集关于所述车辆105的局部环境(例如，任何附近的障碍物)的信息以及来自更大范围的信息(例如，所述LIDAR单元114和SAR单元116可以从所述车辆105最远100米半径范围内收集信息)。所述车辆控制系统115还可以使用所述传感器110(例如IMU 118)来收集关于所述车辆105的位置和方向的信息。所述车辆控制系统115可以使用IMU 118和其它可能的传感器120，来确定所述车辆105的线性速度(例如里程表)、角速度、加速度以及轮胎抓地力等要素。

所述车辆控制系统115还可以包括一个或多个无线收发器130，使得所述车辆控制系统115能够与通信系统100的无线广域网(wireless wide area network，简称WAN)210交换数据和可选地进行语音通信。所述车辆控制系统115可以使用无线WAN 210通过一个或多个通信网络220比如互联网，访问服务器240，例如驾驶辅助服务器。所述服务器240可以实现为一个或多个服务器模块，并且通常位于防火墙230后面。服务器240连接到网络资源250，例如所述车辆控制系统115可以使用的补充数据源。

所述通信系统100包括卫星网络260，所述卫星网络260除了包括所述WAN 210之外还包括多个卫星。所述车辆控制系统115包括卫星接收器132(图2)，所述卫星接收器132可以使用所述卫星接收器132从所述卫星网络260中的多个卫星接收到的信号，以确定车辆位置。所述卫星网络260通常包括多个卫星，所述多个卫星是至少一个全球导航卫星系统(Global Navigation Satellite System，简称GNSS)的一部分，所述GNSS在全球范围内提供自主地理空间定位。例如，所述卫星网络260可以是一群GNSS卫星。示例性GNSS包括美国NAVSTAR全球定位系统(Global Positioning System，简称GPS)或俄罗斯全球导航卫星系统(Russian GLObal NAvigation Satellite System，简称GLONASS)。已经部署或正在开发的其它卫星导航系统包括欧盟的伽利略定位系统、中国的北斗导航卫星系统(BeiDouNavigation Satellite System，简称BDS)、印度区域卫星导航系统和日本卫星导航系统。

接下来参考图2，图2示出了本发明一示例性实施例提供的车辆105的选定组件。如上所述，所述车辆105包括车辆控制系统115，所述车辆控制系统115连接到驱动控制系统150和机械系统190。所述车辆105还包括各种结构元件，例如框架、门、面板、座椅、车窗、镜子等，这些元件为本领域熟知但已从本发明中省略，从而避免引起本发明理念的模糊。所述处理器102经由提供所述组件与所述处理器102之间的通信路径的通信总线(未示出)耦合到多个组件。所述处理器102耦合到驱动控制系统150，随机存取存储器(Random AccessMemory，简称RAM)122，只读存储器(Read Only Memory，简称ROM)124，永久性(非易失性)存储器126，例如闪速可擦除可编程只读存储器(erasable programmable read onlymemory，简称EPROM)(闪存)，用于与无线网络210交换射频信号的一个或多个无线收发器130，用于从卫星网络260接收卫星信号的卫星接收器132，实时时钟134和触摸屏136。

所述一个或多个无线收发器130可以包括一个或多个蜂窝(RF)收发器，用于使用不同的无线数据通信协议和标准与多个不同的无线接入网(例如，蜂窝网络)进行通信。所述车辆控制系统115可以与其地理覆盖区域内的无线WAN 210(例如，蜂窝网络)的多个固定收发器基站(其中一个如图1所示)中的任何一个进行通信。所述一个或多个无线收发器130可以通过所述无线WAN 210发送和接收信号。所述一个或多个无线收发器130可以包括支持多个射频频带的多频带蜂窝收发器。

所述一个或多个无线收发器130还可以包括无线局域网(wireless local areanetwork，简称WLAN)收发器，用于通过WLAN接入点(access point，简称AP)与WLAN(未示出)进行通信。所述WLAN可以包括符合IEEE 802.11x标准(有时称为

)或其它通信协议的Wi-Fi无线网络。

所述一个或多个无线收发器130还可以包括短距离无线收发器，例如

收发器，用于与智能手机或平板电脑等移动计算设备进行通信。所述一个或多个无线收发器130还可以包括其它短距离无线收发器，包括但不限于近场通信(near field communication，简称NFC)、IEEE 802.15.3a(也称为超宽带(UltraWideband，简称UWB))、Z-Wave、ZigBee、ANT/ANT+或红外线(例如，红外数据协会(Infrared Data Association，简称IrDA)通信)。

所述实时时钟134可以包括提供准确实时信息的晶体振荡器，例如由Atmel公司提供的晶体振荡器。

所述触摸屏136包括显示器，例如彩色液晶显示器(liquid crystal display，简称LCD)、发光二极管(light-emitting diode，简称LED)显示器或有源矩阵有机发光二极管(active-matrix organic light-emitting diode，简称AMOLED)显示器，具有连接到电子控制器的触敏输入表面或覆盖层。还可以提供耦合到所述处理器102的附加输入设备(未示出)，包括按钮、开关和拨号盘。

所述车辆控制系统115还包括一个或多个扬声器138、一个或多个麦克风140和一个或多个数据端口142，例如串行数据端口(例如，通用串行总线(universal serial bus，简称USB)数据端口)。所述系统还可以包括其它传感器，例如轮胎压力传感器(tirepressure sensor，简称TPS)、车门接触开关、光传感器、接近传感器等。

所述驱动控制系统150用于控制所述车辆105的移动。所述驱动控制系统150包括转向单元152、制动单元154和油门(或加速)单元156，每个单元可以实现为所述驱动控制系统150内的软件模块或控制块。当处于完全自主或半自主驾驶模式时，所述转向单元152、制动单元154和油门单元156处理存储在所述车辆控制系统115的存储器126中的来自路径规划系统174的接收路径信息，并生成控制信号以分别控制所述车辆105的转向、制动和油门，从而使车辆按照规划路径行驶。所述驱动控制系统150可以包括用于控制所述车辆105的其它方面的附加组件，例如包括控制转向信号和制动灯。

所述机械系统190从所述驱动控制系统150接收控制信号以操作所述车辆105的所述机械组件。所述机械系统190实现所述车辆105的物理操作。所述机械系统190包括发动机192、变速器194和车轮196。例如，所述发动机192可以是汽油发动机、电池供电发动机或混合发动机。其它组件可以包括在所述机械系统190中，例如包括转向信号、制动灯、风扇和车窗。

所述车辆控制系统115的图形用户界面(graphical user interface，简称GUI)由所述处理器102呈现并显示在所述触摸屏136上。用户可以使用所述触摸屏和可选的其它输入设备(例如，按钮、拨号盘)与所述GUI交互以显示相关信息，例如导航信息、驾驶信息、停车信息、媒体播放器信息和气候控制信息等。所述GUI可以包括一系列可遍历的内容特定菜单。

所述车辆控制系统115的所述存储器126存储有供所述处理器102执行的操作系统软件160上。除了GUI，存储器126还存储有许多软件模块162，其中每个模块162包括所述处理器102可以执行的指令。所述模块162包括车辆定位模块164、停车辅助模块166、自主停车模块168、用于半自主驾驶的驾驶辅助模块170、用于完全自主驾驶的自主驾驶模块172、路径规划模块174、计算机视觉模块176和其它模块178。其它模块178包括例如映射模块、导航模块、气候控制模块、媒体播放器模块、电话模块和消息模块等，并存储在所述存储器126中。所述计算机视觉模块176在被所述处理器102执行时，使得此处描述的方法的操作被执行。

尽管示出为可由所述停车辅助模块166、自主停车模块168、用于半自主驾驶的驾驶辅助模块170、自主驾驶模块172或路径规划模块174使用的单独模块，但是在其它实施例中，所述计算机视觉模块176可与一个或多个其它软件模块组合。

存储器126还存储各种数据180。所述数据180可包括由所述传感器110感测的传感器数据182，包括用户偏好、设置和可选的个人媒体文件(例如，音乐、视频、方向等)的用户数据184，和包括通过所述无线收发器130下载的数据的下载缓存186。所述传感器数据182可包括来自所述摄像头112的图像数据、来自所述LIDAR单元114的LIDAR数据、来自所述SAR单元116的RADAR数据以及可能来自IMU 118等其它传感器120的其它传感器数据。所述下载缓存186可能被周期性地删除，例如在预定的时间之后。系统软件、软件模块、特定设备应用或其部分可以临时加载到易失性存储器(例如，RAM 122)中，所述易失性存储器用于存储运行时数据变量和其它类型的数据或信息。由所述车辆控制系统115接收的数据也可以存储在所述RAM 122中。尽管针对各种类型的存储器描述了特定功能，但这仅是一个示例，还可以使用对于存储器类型的不同功能分配。

参见图3，根据本发明的一个示例性实施例，将描述生成车辆105所在环境的3D特征图的示例性方法300。所述方法300的至少一些部分由处理器执行的软件执行，例如车辆控制系统115的处理器102。

在操作302中，多个摄像头112用于采集所述车辆105周围环境的图像，并将捕获的图像存储在存储器中，例如所述车辆控制系统115的存储器126。所述方法300中使用的所述多个摄像头112包括至少两个，优选为三个或更多，具有所述车辆105所在环境前视图的前置摄像头，至少一个具有所述车辆105所在环境左视图的左侧摄像头，至少一个具有所述车辆105所在环境右视图的右侧摄像头，以及至少一个具有所述对象所在环境后视图的后置摄像头。方法300中使用的至少相邻摄像头112的FOV至少部分重叠。尽管更多摄像头112提高了准确性和鲁棒性，但也增加了计算机视觉系统的成本和复杂性。由于车辆105最常向前移动，覆盖前视图的更多前置摄像头通常具有技术优势和成本效益。

所述图像可以作为流的一部分进行采集，其中，每个图像表示一帧。帧速率取决于所述摄像头112的能力，可能会因所述摄像头112不同而不同。所述摄像头112用元数据对采集的图像进行编码。所述图像元数据包括时间戳，所述时间戳包括拍摄所述图像的日期和时间。每个摄像头112采集的图像的时间戳使用公共时钟，例如实时时钟134进行同步，这样所述摄像头112在同一时间采集的图像具有相同的时间戳。或者，时钟也可以是所述处理器102的一部分。所述图像元数据还可以包括关于所述摄像头112的标识信息以及诸如孔径、快门速度、ISO(国际标准组织)编号、焦深、每英寸点数(dot per inch，简称DPI)等摄像头的设置。其它自动生成的元数据包括摄像头品牌和型号。

编码图像文件由所述摄像头112基于采集的图像生成并存储在所述存储器126中，通常使用命名约定，所述命名约定允许在下游流程中单独识别和选择图像。命名约定也可用于直接或间接地识别采集所述图像的所述摄像头112。例如，所述图像命名约定可以包括识别采集所述图像的所述摄像头112的摄像头标识符。所述图像名称也可以在所述图像元数据中进行编码。作为替代方案，识别采集所述图像的所述摄像头112的标识信息可以在图像元数据中编码，而不是命名约定的一部分。作为另一种替代方案，所述处理器102可以使用接收图像数据的输入路径/端口识别采集所述图像的所述摄像头112，并将每个摄像头112的图像数据存储在所述存储器126中的专用存储空间中。

尽管已经将图像描述为存储在存储器126中，但是应当理解的是，可以将图像存储在图像缓冲区中而不是存储器126中，或者可以临时存储在图像缓冲区中，在存储在所述存储器126之前增加系统职责。其它内存分配方案也可以用于优化操作，这种内存分配方案不在本发明的范围内。

在操作304中，所述处理器102从采集的图像中选择图像组，在所述方法300中使用的所述多个摄像头112中的每个摄像头112有一个采集图像，这些采集图像是在同一时间捕获的。根据每幅图像的时间戳选择图像，使得该组图像中的图像在同一时间被捕获。

在操作306中，所述处理器102可选地对从操作304输出的所述图像组中的每个图像执行图像失真的失真补偿以及图像校正。所述图像失真由所述摄像头112的内在参数引起，例如，由所述图像传感器或相应摄像头112的镜头引起的图像失真。由于外在参数，即由于所述方法300中使用的所述摄像头112并非全部校准以共面，所以需要进行图像校正。即使在高精度设备和前置摄像头基本共面的情况下，完美的摄像头校准也是很难实现的。甚至在安装为共面的多个摄像头之间进行图像校正也被认为是比保持所述摄像头112之间完美校准更加实用和有效。所述外在参数涉及摄像头112之间的相对旋转和平移，确定摄像头112之间的相对位置和校准(或定向)。

所述图像失真的性质因摄像头112而异。在计算机视觉系统/应用的校准期间，可以确定补偿图像失真和校正图像时执行的图像处理操作。在一个示例中，将合适的校准图案(例如，棋盘)放置在所述车辆105周围的不同位置，以便由所述方法300中使用的每个摄像头112捕获。图4是本发明一个示例性实施例提供的阐述校准设置的示意图。通过从每个摄像头的角度识别相同的校准图案，每个所述摄像头112的内在参数和外在参数可以由所述处理器102确定和存储。当所述摄像头112在将要使用所述摄像头的位置校准(或定向)的所述车辆105上安装并校准(定向)时，对图像校正补偿的外在参数进行校准是重要的。

利用所述摄像头112的内在参数，被用于图像失真补偿的所述图像处理操作(例如，转换操作)的校准系数由所述处理器102确定并存储在所述存储器126中，以用于实时操作。类似地，使用所述摄像头112的外在参数和所述摄像头112的相对位置和校准(或定向)，被用于图像校正的所述图像处理操作(例如，转换操作)的校准系数由所述处理器102确定并存储在所述存储器126中，以用于实时操作。

在图像失真补偿期间，由每个摄像头112的内在参数(例如，桶形失真和切向失真)而导致的所述图像几何失真被部分或完全校正或去除。在进行图像校正时，对所述图像组中的图像进行转换，使得所述图像组中的所有图像具有共同的图像平面。共同的图像平面可以对应于所述摄像头112中的一个摄像头的图像平面，例如前置摄像头112中的一个摄像头。当首先执行图像失真补偿时，去除几何失真，图像校正可以包括线性转换。x和y坐标的旋转将所述图像放置在同一图像平面上，缩放使图像具有相同的尺寸，z坐标的旋转和偏斜调整使图像像素行对齐。

在操作310中，所述处理器102基于所述摄像头112的安装位置和校准，为存在环境特征的所述图像组中的每个图像确定(例如，计算)该图像组中所述图像的环境特征的对应关系信息。如果存在，将给定图像(或摄像头帧)中的多个环境特征映射到所述图像组中的每个其它图像中的对应特征。所述对应关系信息通常定义二维(two dimensional，简称2D)空间中的一系列位置，类似于地图，定义对应于出现有各自环境特征的每个图像的给定环境特征的坐标位置(例如，像素位置)。

图6是阐述了涉及具有不同视场的不同摄像头所观测到的环境特征的对应关系信息的示意图。在所示示例中，前置摄像头112采集的环境特征是人持有的篮球。所述篮球和所述人的位置在所述前置摄像头112采集的每个不同图像(或摄像头帧)中略有不同。因此，这些环境特征中的篮球和人的坐标位置也会有所不同。此外，由于这些环境特征的大小，这两种环境特征可能不会出现在由所述摄像头112(所述左侧、右侧或后置摄像头112)捕获的所述图像(或摄像头帧)中。

所述处理器102执行图像识别以识别每个图像中的环境特征。环境特征是指树木、建筑物、桥梁、道路、车辆、人、动物、支柱/柱子、路缘、路标、车道、停车灯等可识别的对象，确定每个图像中这些对象的坐标位置(例如，图像数据中的x、y坐标)并存储在存储器中，例如所述存储器126中。所述环境特征的坐标位置可以由像素位置的矩阵或其它合适的形式定义。接下来，使用所述方法中使用的所述摄像头112的相对位置和校准(或定向)，以所述摄像头112的空间顺序(例如，从左到右、从右到左、顺时针或逆时针)，将每个图像中的环境特征映射到所述图像组中每个其它图像中的对应特征。存在各自环境特征的每个图像中的多个环境特征中每个环境特征的坐标位置提供了地点或位置对应关系信息。

在操作312中，所述处理器102通过在出现环境特征的所述图像组的图像中找到交点并应用使用对极几何的三角测量(也称为重构)技术，从各自环境特征的对应关系信息，为出现(存在)了各自环境特征的所述图像组中的每个图像(例如，对于每个摄像头112)确定(例如，计算)所述多个环境特征中每个环境特征的深度信息(也称为测距信息)或位置信息。对极几何常用于计算机立体视觉。当两个摄像头从两个不同的位置观测三维(threedimensional，简称3D)景物时，3D点和3D点投影到摄像头捕获的二维(twodimensional，简称2D)图像之间存在许多几何关系，从而导致图像点之间的约束。通过利用针孔摄像头模型逼近每个所述摄像头112来导出这些关系。图5是阐述具有不同视场的不同摄像头112观测到的环境特征的交点的示意图。

如图8所示，采用对极几何计算的标准三角测量方法包括两个摄像头观察相同的3D点P，即交点，其中，每个图像平面中的投影分别位于p和p'。摄像头中心位于O₁和O₂，摄像头中心之间的线称为基线。摄像头中心O₁和O₂与交点P之间的线为投影线。两个摄像头中心和P定义的平面为极面。其中，所述基线与所述两个图像平面相交的位置称为极点e和e'。由极面与两个图像平面的交点定义的线称为极线。所述极线与所述图像平面中各个极点处的基线相交。根据对应的图像点p和p'以及两个摄像头的几何形状，可以确定投影线，并且投影线在3D交点P处相交。可以使用已知技术直接使用线性代数确定3D交点P。

图9示出了当图像平面彼此平行时的对极几何形状，例如，如上所述校正后的几何形状。当图像平面彼此平行时，由于连接中心O₁，O₂的基线与图像平面平行，且极线与每个图像平面的轴线平行，因此极点e和e'位于无穷远。

为了进行三角测量，需要所涉及的每一个摄像头从3D到2D的每个摄像头投影函数的参数。这可以由摄像头矩阵表示。摄像头矩阵或(摄像头)投影矩阵是描述针孔摄像头从世界上的3D点到图像中的2D点的映射的3×4矩阵。若x表示齐次坐标(4维向量)中的3D点，y表示针孔摄像头(3维向量)中该点的图像，则如下关系成立：

y＝Cx (1)

其中，C为所述摄像头矩阵，C由以下等式定义：

其中，f为所述摄像头的焦距，f>0。

由于2D图像中的每个点对应于3D空间中的一条线，因此3D中该条线上的所有点都投影到所述2D图像中的所述点。如果可以发现两个或更多图像中的一对对应点，则必须是它们是公共3D点P的投影，即交点。由图像点生成的线集必须与P(3D点)相交，并且P(3D点)的坐标的代数公式可以通过各种方式计算，这些方式在本领域中是已知的，如中点方法和直接线性转换。

通过围绕车辆105的前、侧和后视摄像头，且每两个相邻摄像头具有共同的观测对象，可以对每两个相邻摄像头沿顺时针(或逆时针)方向进行三角测量(例如，深度计算)，以获得n个摄像头112的n个深度测量。所述操作从所述多个摄像头112中的第一摄像头开始，所述第一摄像头可以任意选择。在给定的计算中，最后一个摄像头n和第一摄像头1将生成第n个摄像头的第n个深度读数。

每个环境特征的深度信息通常包括表示各自环境特征的3D空间中的一系列位置。然而，在一些实施例中，每个环境特征的深度信息可以包括表示各自环境特征的中心或最近点的3D空间中的点位置。

在操作314中，所述处理器102使用操作312中计算的每个各自的环境特征的深度信息，确定(计算)所述多个环境特征中每个环境特征的组优化深度信息。操作314基于在操作312中获取的每个捕获图像中各自环境特征的深度信息(或位置信息)，考虑出现环境特征的每个图像从所有摄像头112的图像中生成的深度信息(或位置信息)，犹如多只眼睛。

所述每个环境特征的组优化深度信息通常包括3D空间中的一系列位置，所述3D空间表示与所述操作312中计算的深度信息类似的各自环境特征。然而，在一些实施例中，所述每个环境特征的组优化深度信息可以包括表示各自环境特征的中心或最近点的3D空间中的点位置。

如图7充分所示，所述组优化将所述多个摄像头112中每个摄像头112的视图建模为一个球面，所述球面有所述各自摄像头112的镜头且位于每一各自球面的中心，图7中摄像头1，2和3的中心位置分别用x₁，y₁，z₁、x₂，y₂，z₂和x₃，y₃，z₃表示，所述中心位置的半径等于操作312中计算的环境特征的深度，图7中摄像头1，2和3的半径分别用r₁、r₂和r₃表示。因为每个球面有相同的交点，也就是所述环境特征，图7中交点所在位置用x_o，y_o，z_o表示，所述深度信息可以通过求解一个球面方程组来优化。所述球面方程组可以通过Ax＝b的线性方程形式或通过非线性形式有效求解，具体示例如下所述。运用奇异值分解(singular valuedecomposition，简称SVD)高效计算线性和非线性求解矩阵的逆运算可以进一步提高所述求解的效率。

线性示例

现在开始介绍通过线性方程Ax＝b的形式求解所述球面方程组的例子。所述多个摄像头112中每个摄像头112的视图可被建模为一个球面，所述球面有所述摄像头112的镜头且位于每一各自球面的中心，摄像头1，2和3的中心位置分别用x₁，y₁，z₁、x₂，y₂，z₂和x₃，y₃，z₃表示，所述中心位置的半径等于操作312中计算的环境特征的深度，摄像头1，2和3的半径分别用r₁、r₂和r₃表示，具体如下：

其中，r_i是半径，i＝1至n。

对于(1)中的任意一个等式，可以表示为：

(x_o-x_j+x_j-x_i)²+(y_o-y_j+y_j-y_i)²+(z_o-z_j+z_j-z_i)²＝r_i ² (4)

其中，i指第i个摄像头，j指第j个摄像头。

等式(2)依次可以表示为：

其中，l_ij是第i个摄像头112和第j个摄像头112中心之间的距离。

通过将等式(5)应用于(3)中的所有等式，得到以下方程组：

可以以矩阵形式重写(4)中的等式，得到常用的线性方程组：

Ax＝b (7)

其中，

因此，该求解为：

x＝A⁺b＝(ATA)^-1A^Tb (11)

其中，A⁺是矩阵A的伪逆矩阵，是逆矩阵的泛化，如摩尔-彭罗斯逆矩阵。

所述向量x是一个3D坐标，其基于出现所述环境特征的每个图像的深度信息(位置信息)代表环境特征的2D坐标位置(像素位置)的组优化深度(或位置)。对给定环境特征的其余2D坐标位置(像素位置)进行处理，以生成所述给定环境特征的完整3D地图。对所述图像中识别的其它环境特征进行处理，以生成所述车辆105周围的所述环境的完整3D地图。组优化深度(或位置)被认为可提供环境特征的改进深度(或位置)预估。

非线性示例

现在开始介绍以非线性形式对深度信息进行组优化的一个示例。参见图7，每个摄像头112的观测误差可以写为：

其中，i是指第i个摄像头。

成本函数F定义为

目的是在最小平方意义下将观测误差最小化：

沿着x、y和z方向的偏导数可以推导为：

等式12可以矩阵形式重写：

其中，

迭代用于逐渐降低(13)中的成本函数。若所述特征位置定义为P，则

且k和k+1为k和k+1的迭代，则k+1迭代处的特征位置计算为：

所述向量P_k+1是一个3D坐标，其基于出现所述环境特征的每个图像的深度信息(位置信息)代表环境特征的2D坐标位置(像素位置)的组优化深度位置。对给定环境特征的其余2D坐标位置(像素位置)进行处理，以生成所述给定环境特征的完整3D地图。对所述图像中识别的其它环境特征进行处理，以生成所述车辆105周围的所述环境的完整3D地图。组优化深度(或位置)被认为可提供环境特征的改进深度(或位置)预估。

当成本函数小于阈值时，迭代停止，该阈值由设计者根据想要的精确度设置：

F_k+1-F_k＜threshold (20)

在操作316中，所述处理器102可选地根据噪声分布模型为出现该特征的每个图像中的每个特征计算最大似然估计。根据噪声分布模型计算最大似然估计的技术在计算机立体视觉领域中是已知的，例如透视n点。最大似然估计是指在操作314中计算的组优化深度信息(位置信息)与所述图像中所述环境特征的实际深度(位置)信息匹配的最大似然(或概率)的估计。在一些示例中，当图像之间的差异是确定性的、未知的参数时，将所述图像组中的所述图像建模为具有添加到每个图像的噪声的公共确定性信号替换版本。一组测量定义为未知差异的函数，制定差异条件下测量的概率密度，并确定使测量概率最大化的差异估计。将具有与相同特征对应的像素周围的阈值的图像之间的强度差作为最大似然估计的基础。

在操作318，所述处理器102从操作314中计算得到的组优化深度信息生成所述车辆105所在所述环境的优化三维(three-dimensional，简称3D)特征图。

在操作320，所述处理器102从计算机视觉系统输出所述3D特征图。所述输出可包括：在触摸屏136等显示器上显示所述对象所在环境的所述3D特征图，将所述对象所在环境的3D特征图输出至车辆驾驶员辅助系统或自主车辆系统，或其组合。车辆驾驶员辅助系统或自主车辆系统通常是所述车辆控制系统115的一部分，并且可以通过如上所述的软件实现。所述每个特征的最大似然估计也可以通过3D特征图输出。所述最大似然估计可以与3D特征图一起显示在触摸屏136上。最大似然估计也可以用于车辆驾驶员辅助系统或自主车辆系统，例如，在执行车辆定位、路径规划、停车辅助、自主停车、用于半自主驾驶的驾驶辅助或完全自主驾驶等可能的其它功能时。

本发明提供了一种构造3D特征图的组优化深度信息的方法和系统。具有至少一部分公共观测区的多个分布式摄像头组成感官网络，感官网络可用于确定每个摄像头环境特征的深度信息。为所述不同摄像头112的视角的所述多个环境特征中每个环境特征确定的所述深度信息通过组优化一起计算。通过结合所述组优化深度信息，可以生成更准确的3D特征图。通过结合特征深度计算中所有分布式摄像头的测量，所述改进的3D特征图能提供了更高的测量精确度，从而可以提高后续操作的准确性和鲁棒性，所述后续操作包括但不限于车辆定位，路径规划，以及对象识别和追踪。本发明的所述方法可以有广泛的应用，比如追踪局部模糊的对象，高准确度定位目标，等等。

执行上述方法的软件编码和软件模块都是与本发明相关领域普通技术人员能力范围之内。由执行上述方法的一个或多个各自设备的一个或多个处理器执行的可执行软件编码指令和软件模块可能作为所述车辆控制系统的存储器存储在机器可读介质中。流程图和附图中描述的所述步骤和/或操作仅为示例。在不偏离本发明的理念的情况下，这些步骤和/或操作可能有很多变化。例如，可以按照不同的顺序执行所述步骤，或者可以添加、删除或修改所述步骤。尽管所述处理器102被描述为执行所述方法300中的很多操作，一个或多个专用数字信号处理器(digital signal processor，简称DSP)，图形处理单元(graphicalprocessing unit，简称GPU)，或图像处理器可能被用于执行其中一些描述的操作。执行所描述操作的所述特定处理实体不是用于限制本发明的。

本文中还公开了在所公开范围内的所有值和子范围。此外，尽管本文中所公开和示出的系统、设备和过程可以包括特定数量的元件/组件，但是系统、设备和组件可以进行修改以包括更多或更少的此类元件/组件。例如，尽管所公开的任何元件/组件可以引用为单数，但本文中所公开的实施例可以进行修改以包括多个此类元件/组件。本文中描述的主题意在涵盖和包含技术上的所有适当更改。

尽管本发明在方法方面至少部分地进行了描述，但本领域普通技术人员将理解，本发明也针对用于执行所述方法的至少一些方面和特征的各种组件，无论是通过硬件(DSP、ASIC或FPGA)、软件还是其组合。因此，本发明的技术方案可以体现在非易失性或非瞬时性机器可读介质(例如，光盘和闪存等)中，在其上有形地存储可执行指令，使得处理设备(例如，车辆控制系统)能够执行本文中所公开的方法的示例。

在不脱离权利要求书的主题的情况下，本发明可以以其它特定形式来体现。所描述的示例性实施例在各方面都仅仅是示意性的，而不是限制性的。本发明意在涵盖和包含技术上的所有适当更改。因此，本发明的范围通过所附的权利要求书而不是通过以上描述进行描述。权利要求书的范围不应受所述示例中阐述的实施例的限制，但应给出与所述描述整体一致的最广泛的解释。

Claims

1.一种计算机视觉系统，其特征在于，包括：

处理器；

耦合到所述处理器的多个摄像头，其中，所述多个摄像头位于宿主对象的周围，所述多个摄像头包括：至少两个前置摄像头，其具有所述对象所在环境的前视图；至少一个左侧摄像头，其具有所述对象所在环境的左视图；至少一个右侧摄像头，其具有所述对象所在环境的右视图；至少一个后置摄像头，其具有所述对象所在环境的后视图；

耦合到所述处理器的存储器，所述存储器有形地存储可执行指令，当所述可执行指令被所述处理器执行时，使得所述计算机视觉系统执行以下操作：

从所述多个摄像头采集的图像中选择图像组，所述图像组包括所述多个摄像头中每个摄像头的一个采集图像，所述图像在同一时间被捕获；

基于采集所述图像的所述各自摄像头的内在参数，对所述图像组中的每个图像进行图像失真补偿；

对所述图像组中的每个图像进行校正，使得所述图像组中的所有图像具有共同的图像平面；

基于所述多个摄像头中的每个摄像头的相对位置和校准，确定存在各自环境特征的所述图像组中每个图像多个环境特征的对应关系信息；

基于所述环境特征的对应关系信息，确定存在各自环境特征的所述图像组中每个图像所述多个环境特征中每个环境特征的深度信息；

使用确定的每个各自环境特征的深度信息，确定所述多个环境特征中每个环境特征的组优化深度信息。

2.根据权利要求1所述的计算机视觉系统，其特征在于，当所述可执行指令被所述处理器执行时，使得所述计算机视觉系统基于所述多个环境特征中每个环境特征的所述组优化深度信息生成所述对象所在环境的三维(three-dimensional，简称3D)特征图。

3.根据权利要求2所述的计算机视觉系统，其特征在于，当所述可执行指令被所述处理器执行时，使得所述计算机视觉系统在显示器上显示所述对象所在环境的3D特征图。

4.根据权利要求2所述的计算机视觉系统，其特征在于，当所述可执行指令被所述至少一个处理器执行时，使得所述计算机视觉系统将所述对象所在环境的3D特征图输出到车辆驾驶员辅助系统或自主车辆系统。

5.根据权利要求1至4任一项所述的计算机视觉系统，其特征在于，当所述可执行指令被所述处理器执行时，使得所述计算机视觉系统根据出现所述环境特征的每个图像中每个环境特征的噪声分布模型计算最大似然估计。

6.根据权利要求5所述的计算机视觉系统，其特征在于，当所述可执行指令被所述处理器执行时，使得所述计算机视觉系统将每个环境特征的最大似然估计输出到车辆驾驶员辅助系统或自主车辆系统。

7.根据权利要求1至6任一项所述的计算机视觉系统，其特征在于，当所述可执行指令被所述处理器执行时，使得所述计算机视觉系统在从采集的图像中选择所述图像组时，确保所述多个摄像头中每个摄像头有一个采集图像并与每个图像的时间戳一致，使得所述图像组中的图像在同一时间被捕获。

8.根据权利要求1至7任一项所述的计算机视觉系统，其特征在于，每个摄像头具有不同的视场，相邻摄像头具有至少部分重叠的视场。

9.根据权利要求1至8任一项所述的计算机视觉系统，其特征在于，所述对应关系信息定义了二维(two dimensional，简称2D)空间中的一系列位置，所述空间定义了对应于存在所述各自环境特征的每个图像的各自环境特征的坐标位置。

10.根据权利要求1至9任一项所述的计算机视觉系统，其特征在于，所述深度信息和每个环境特征的分组优化深度信息包括表示各自环境特征的3D空间中的一系列位置。

11.根据权利要求1至10任一项所述的计算机视觉系统，其特征在于，所述深度信息和每个环境特征的分组优化深度信息包括3D空间中代表各自环境特征中心或最近一点的位置。

12.根据权利要求1至11任一项所述的计算机视觉系统，其特征在于，对于所述对应关系信息中各自环境特征的各自位置，确定组优化深度，所述组优化深度由根据以下等式定义的向量x定义：

其中，所述向量x根据以下等式计算：

x＝A⁺b＝(A^TA)^-1A^Tb

其中，A⁺是矩阵A的伪逆矩阵；

其中，所述矩阵A和所述矩阵b根据以下等式计算：

其中，x₁，y₁，z₁、x₂，y₂，z₂...x_n，y_n，z_n分别表示每个摄像头1到n的中心位置，n是观测到所述各自环境特征的摄像头的个数，x_o，y_o，z_o表示所述对应关系信息中所述各自位置对应的所述环境特征的3D位置，r₁、r₂和r_n表示从每个摄像头1到n的中心位置到所述各自交点x_o，y_o，z_o之间的距离，l₂₁，l₃₁...l_n1是摄像头1的中心位置到观测到所述各自环境特征的摄像头i的中心位置之间的距离，其中i＝2...n。

13.根据权利要求1至12任一项所述的计算机视觉系统，其特征在于，对于所述对应关系信息中各自环境特征的各自位置，确定组优化深度，所述组优化深度通过以下方式确定：

根据以下公式计算观测到各自环境特征的每个摄像头的观测误差f：