CN110895826A

CN110895826A - 图像处理的训练数据生成方法、图像处理方法及其装置

Info

Publication number: CN110895826A
Application number: CN201910861730.3A
Authority: CN
Inventors: 李元周; 申世浩; 李东昱; 池大炫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-09-12
Filing date: 2019-09-12
Publication date: 2020-03-20
Also published as: EP3624002A3; US11670087B2; KR20200030305A; US20200082182A1; EP3624002A2

Abstract

公开图像处理的训练数据生成方法、图像处理方法及其装置。图像处理方法和图像处理装置从车辆的驾驶图像检测对象，获得关于车辆与对象之间的高度差的信息，以及将驾驶图像中的对象的图像域坐标和关于高度差的信息输入到神经网络，并确定对象的世界域坐标。

Description

图像处理的训练数据生成方法、图像处理方法及其装置

本申请要求于2018年9月12日提交到韩国知识产权局的第10-2018-0109024号韩国专利申请的优先权，所述韩国专利申请的公开通过整体引用包含于此。

技术领域

公开的实施例涉及用于图像处理的训练数据生成方法、图像处理方法及其装置。

背景技术

用于自动驾驶的对象的识别和检测可通过车辆的驾驶图像来执行。此时，通过单应性操作的非线性转换可用于将二维(2D)图像域坐标重构(reconstruct)为三维(3D)世界域坐标。

然而，通过单应性操作将2D图像域坐标转换为3D世界域坐标可能是不正确的，并且当车道和对象被检测到并且车辆的位置被估计时可能发生大的误差。当车辆被驾驶时，这样的误差导致不稳定性。特别地，在道路的高度变化的灯部分中，正确性会显著劣化。

发明内容

根据公开的实施例的一个方面，提供一种图像处理方法，所述图像处理方法包括：检测驾驶图像内的对象；获得车辆与对象之间的高度差；通过驾驶图像中的对象的图像域坐标和高度差的神经网络处理，来确定对象的世界域坐标；以及基于对象的世界域坐标针对对象控制道路上的车辆。

高度差可包括：车辆的俯仰信息以及驾驶图像中的消失线信息。

所述图像处理方法还可包括：随着时间的流逝跟踪对象的图像域坐标；以及对跟踪的对象的图像域坐标进行滤波，并将对象的图像域坐标的类型转换为浮点。

所述图像处理方法还可包括：基于驾驶图像中的消失线信息，对驾驶图像中的对象的图像域坐标执行缩放归一化。

对象包括具有移动性的动态对象和没有移动性的静止对象，所述神经网络可包括：用于估计动态对象的世界域坐标的第一神经网络和用于估计静止对象的世界域坐标的第二神经网络中的至少一个。

当对象是具有移动性的动态对象时，所述图像处理方法还可包括：通过使用将动态对象的图像域坐标转换为世界域坐标的结果，生成与动态对象对应的实时地图；以及通过使用实时地图，来生成用于针对动态对象控制道路上的车辆的车辆的驾驶参数。

当对象是没有移动性的静止对象时，所述图像处理方法还可包括：通过使用将静止对象的图像域坐标转换为世界域坐标的结果，生成与静止对象对应的地标地图；以及通过使用地标地图，来确定用于针对静止对象控制道路上的车辆的车辆的位置和路线中的至少一个。

所述图像处理方法还可包括：输出对象的世界域坐标。

所述图像处理方法还可包括：获得由安装在车辆中的相机捕获的驾驶图像。

根据公开的实施例的一个方面，提供一种训练数据生成方法，所述训练数据生成方法包括：通过跟踪驾驶图像内的多个动态对象，来获得所述多个动态对象的多个图像域坐标；将所述多个动态对象之中的第一动态对象的图像域坐标转换为第一动态对象的第一世界域坐标，其中，第一动态对象位于距车辆的预定匹配距离内；通过经由使用距离传感器跟踪多个周围对象，来获得所述多个周围对象的多个第二世界域坐标；通过将所述第一世界域坐标与所述多个第二世界域坐标进行比较，来将所述多个周围对象中的一个周围对象与第一动态对象进行匹配；以及生成包括第一动态对象的所述图像域坐标和匹配的周围对象的第二世界域坐标的训练数据。

将第一动态对象的所述图像域坐标转换为所述第一世界域坐标的步骤可包括：通过单应性操作，将第一动态对象的初始的图像域坐标转换为所述第一世界域坐标。

所述训练数据生成方法还包括：将第一标识符(ID)与第一动态对象相关联；以及将多个第二ID与所述多个周围对象相关联。将所述多个周围对象中的一个周围对象与第一动态对象进行匹配的步骤可包括：将所述多个第二ID之中的与所述多个周围对象中的一个周围对象相关联的第二ID和与第一动态对象相关联的第一ID进行匹配。

所述多个动态对象可包括：周围车辆、行人和动物中的至少一个。

所述训练数据生成方法还可包括：随着时间的流逝跟踪所述多个动态对象的所述多个图像域坐标；以及通过对跟踪的所述多个动态对象的所述多个图像域坐标进行滤波，将所述多个动态对象的所述多个图像域坐标的类型转换为浮点。

所述训练数据生成方法还可包括：基于驾驶图像中的消失线信息，对驾驶图像中的所述多个动态对象的所述多个图像域坐标执行缩放归一化。

根据公开的实施例的一个方面，提供一种训练数据生成方法，所述训练数据生成方法包括：通过随着时间的流逝从包括多个帧的驾驶图像跟踪静止对象，来存储静止对象的多个图像域坐标；基于全球定位系统(GPS)信息，将所述多个图像域坐标之中的当前帧的图像域坐标转换为第一全球世界域坐标；基于距离传感器的输出和GPS信息，获得多个周围对象的多个第二全球世界域坐标；通过将所述第一全球世界域坐标与所述多个第二全球世界域坐标进行比较，来将所述多个周围对象中的一个周围对象与静止对象进行匹配；以及生成多个训练数据，其中，所述多个训练数据中的每个训练数据包括存储的多个图像域坐标中的一个以及匹配的周围对象的多个第二世界域坐标。

所述训练数据生成方法还包括：将第一ID与静止对象相关联；以及将多个第二ID与所述多个周围对象相关联。将所述多个周围对象中的一个周围对象与静止对象进行匹配的步骤可包括：将提供给所述多个周围对象中的一个周围对象的第二ID与提供给静止对象的第一ID进行匹配。

静止对象可包括：包括在驾驶图像中的建筑物、标志、交通灯、人行横道、停车线和行车线中的至少一个。

所述训练数据生成方法还可包括：随着时间的流逝跟踪静止对象的所述多个图像域坐标；以及通过对跟踪的静止对象的所述多个图像域坐标进行滤波，将静止对象的所述多个图像域坐标的类型转换为浮点。

所述训练数据生成方法还可包括：基于驾驶图像中的消失线信息，对驾驶图像中的静止对象的所述多个图像域坐标执行缩放归一化。

训练数据生成方法还可包括：累积地存储距离传感器的输出和GPS信息。

根据公开的实施例的一个方面，提供一种图像处理装置，所述图像处理装置包括：处理器，用于检测驾驶图像内的对象；获得车辆与对象之间的高度差；通过驾驶图像中的对象的图像域坐标和高度差的神经网络处理，来确定对象的世界域坐标；以及基于对象的世界域坐标针对对象控制道路上的车辆。

处理器随着时间的流逝跟踪对象的图像域坐标，以及对跟踪的对象的图像域坐标进行滤波以将对象的图像域坐标的类型转换为浮点。

处理器可基于驾驶图像中的消失线信息，对驾驶图像中的对象的图像域坐标执行缩放归一化。

对象可包括具有移动性的动态对象和没有移动性的静止对象，所述神经网络可包括：用于估计动态对象的世界域坐标的第一神经网络和用于估计静止对象的世界域坐标的第二神经网络中的至少一个。

当对象是具有移动性的动态对象时，处理器通过使用将动态对象的图像域坐标转换为世界域坐标的结果，生成与动态对象对应的实时地图，并可通过使用实时地图，来生成用于针对动态对象控制道路上的车辆的车辆的驾驶参数。

当对象是没有移动性的静止对象时，处理器通过使用将静止对象的图像域坐标转换为世界域坐标的结果，生成与静止对象对应的地标地图，并可通过使用地标地图，来确定用于针对静止对象控制道路上的车辆的车辆的位置和路线中的至少一个。

处理器可输出与对象对应的对象的世界域坐标。

所述图像处理装置还可包括：相机，安装在车辆中以捕获驾驶图像。

根据公开的实施例的一个方面，提供一种训练数据生成装置，所述训练数据生成装置包括：处理器，用于通过跟踪驾驶图像内的多个动态对象，来获得所述多个动态对象的多个图像域坐标；将所述多个动态对象之中的位于距车辆的预定匹配距离内的第一动态对象的图像域坐标转换为第一动态对象的第一世界域坐标；通过经由使用距离传感器跟踪多个周围对象，来获得所述多个周围对象的多个第二世界域坐标；通过将所述第一世界域坐标与所述多个第二世界域坐标进行比较，来将所述多个周围对象中的一个周围对象与第一动态对象进行匹配；以及生成包括第一动态对象的所述图像域坐标和匹配的周围对象的第二世界域坐标的训练数据。

根据公开的实施例的一个方面，提供一种训练数据生成装置，所述训练数据生成装置包括：处理器，用于通过随着时间的流逝从包括多个帧的驾驶图像跟踪静止对象，来存储静止对象的多个图像域坐标；基于全球定位系统(GPS)信息，将所述多个图像域坐标之中的当前帧的图像域坐标转换为第一全球世界域坐标；基于距离传感器的输出和GPS信息，获得多个周围对象的多个第二全球世界域坐标；通过将所述第一全球世界域坐标与所述多个第二全球世界域坐标进行比较，来将所述多个周围对象中的一个周围对象与静止对象进行匹配；以及生成多个训练数据，其中，所述多个训练数据中的每个训练数据包括存储的多个图像域坐标中的一个以及匹配的周围对象的第二世界域坐标。

附图说明

根据以下结合附图的详细描述，将更清楚地理解公开的实施例：

图1是示出根据公开的实施例的将驾驶图像的二维(2D)图像域坐标重构为三维(3D)世界域坐标的方法的示图；

图2是示出根据公开的实施例的图像处理方法的流程图；

图3A是示出根据公开的实施例的关于高度差的信息的示图；

图3B是示出根据公开的实施例的获得关于消失线(vanishing line)的信息的方法的示图；

图4是示出根据公开的实施例的图像处理装置的配置的示图；

图5是示出根据公开的实施例的神经网络的结构的示图；

图6A是示出包括消失线的驾驶图像的示图；

图6B是示出根据公开的实施例的X轴的缩放归一化的示图；

图7A是示出包括消失线的另一驾驶图像的示图；

图7B是示出根据公开的实施例的Y轴的缩放归一化的示图；

图8是示出根据公开的实施例的浮点的转换的示图；

图9是示出根据公开的实施例的图像处理方法的流程图；

图10是示出根据公开的实施例的基于驾驶图像中的动态对象的坐标生成训练数据的方法的流程图；

图11是根据公开的实施例的用于动态对象的训练数据生成装置的配置图；

图12A是示出由在道路上移动的车辆捕获的驾驶图像的示图；

图12B是示出根据公开的实施例的生成驾驶图像中的动态对象的训练数据的方法的示图；

图13是示出根据公开的实施例的累积地生成训练数据的方法的示图；

图14是示出根据公开的实施例的基于驾驶图像中的静止对象的坐标生成训练数据的方法的流程图；

图15是根据公开的实施例的用于静止对象的训练数据生成装置的配置图；

图16是示出根据公开的实施例的生成关于驾驶图像中的静止对象的训练数据的方法的示图；以及

图17是根据公开的实施例的图像处理装置的框图。

具体实施方式

提供了当前说明书中公开的具体结构或功能的描述，以便根据描述的构思描述实施例。公开的主题可以以许多不同的形式实现，并且不应被解释为限于在此阐述的实施例。

虽然诸如“第一”、“第二”等这样的术语可用于描述各种组件，但是这样的组件不限于以上术语。以上术语仅用于将一个组件与另一组件区分开。例如，在没有冲突的情况下，第一组件可指示第二组件，或者第二组件可指示第一组件。

当某个组件被称为“连接”到另一组件时，所述组件可直接连接到所述另一组件。然而，可理解，不同的组件可插入。

除非上下文另有定义，否则单数表述包括复数表述。在此在各种示例实施例中使用的术语“包括”或“可包括”可指示存在相应的功能、操作或组件，并且不限制一个或多个附加功能、操作或组件。还将理解，当在本说明书中使用术语“包括”和/或“包含”时，术语“包括”和/或“包含”可用于指定存在陈述的特征、整体、步骤、操作、元件和/或组件，但是不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组。

当特定实施例可被不同地实现时，特定处理顺序可与描述的顺序不同地执行。例如，两个连续描述的处理可被基本同时执行或者以与描述的顺序相反的顺序被执行。例如，由于制造技术和/或公差导致的图示的形状的变化将被预期。因此，公开的实施例不应被解释为限于在此示出的区域的特定形状，而是将包括例如由制造导致的形状的偏差。

在下文中将被描述的实施例可用于在增强现实导航系统(诸如，智能车辆)中显示车道或者生成用于帮助操纵自动驾驶车辆的视觉信息。此外，实施例可用于在包括诸如平视显示器(HUD)的智能系统的装置中解释视觉信息并且帮助稳定和舒适的驾驶，所述装置在车辆中被提供以用于驾驶辅助或完成自主驾驶。实施例可用于自动驾驶车辆、智能车辆、智能电话和移动装置。在下文中，将参照附图详细描述实施例。相同的参考标号表示相同的构件。

在下文中，“道路”可以是在其上驾驶车辆的高速公路、国道、地方道路或国家高速公路。道路可包括一条或多条车道。“驾驶车道”可对应于多条车道之中的被驾驶车辆使用的车道。“车道”可通过在路面上显示的车道标记彼此区分。车道可通过道路右侧和左侧的车道标记来界定。在其上驾驶车辆的路面上的“道路标记”可包括车道标记(诸如，中心线或滑行道线)、符号(诸如，车道变换线、无左转弯、前进方向引导线或者人行横道)或诸如字符的非车道标记(诸如儿童保护区或减速等)。

图1是示出根据公开的实施例的将驾驶图像的二维(2D)图像域坐标重新构建为三维(3D)世界域坐标的方法的视图。

参照图1，车辆的2D驾驶图像110和与2D驾驶图像110对应的3D图像130被示出。3D图像130可以是世界域上的俯视图像，并且可包括深度信息。

车辆的检测系统检测车辆、人、交通灯、标志、车道和道路状况。车辆通过检测周围车辆、十字路口和包括车道的道路标记来避免碰撞，并且可通过辨识和/或检测标志和交通灯来执行路线搜索以及垂直和水平方向控制。在下文中，“车辆”可包括自动驾驶功能和/或高级驾驶员辅助(ADA)功能。

在道路驾驶期间，2D驾驶图像110可通过捕获装置来捕获。捕获装置可被安装在车辆的前部、车辆的侧部、车辆的顶部、车辆的底部、车辆的后部或者以上所有中的任何一个或任何组合。2D驾驶图像110可包括各种周围对象，诸如，周围车辆111、车道113、路灯115和人行横道117。

根据实施例的图像处理装置可将通过分析2D驾驶图像110而检测到的周围对象的图像域坐标转换为3D世界域坐标。图像处理装置可采用神经网络，以将通过分析2D驾驶图像110而检测到的周围对象的图像域坐标转换为3D世界域坐标。类似于2D驾驶图像110中的它们的指示，周围车辆131、车道133、路灯135和人行横道137可被显示在3D图像130中。

图像处理装置可通过将从2D驾驶图像110的图像域检测到的动态对象关联到3D世界域，来控制车辆在驾驶的同时保持车辆间距离。此外，图像处理装置可通过将从2D图像域检测到的静止对象转换到3D世界域并估计车辆的位置，来控制车辆在驾驶的同时保持车道并生成路线。

此外，根据实施例的图像处理装置可通过跟踪并检测作为目标的部分对象(例如，车辆、道路、标志等)而不处理2D驾驶图像110，来减少神经网络的负荷。

在下文中，为了方便起见，“2D图像域(坐标)”将被简单地表示为“图像域(坐标)”，“3D世界域(坐标)”将被简单地表示为“世界域(坐标)”。

图2是示出根据公开的实施例的图像处理方法的流程图。

参照图2，在操作S210中，根据实施例的图像处理装置从车辆的驾驶图像检测对象。可在车辆的驾驶期间通过安装在车辆中的捕捉装置获得驾驶图像，以从车辆的视角捕获前视图、侧视图和其他视图。可选地，驾驶图像可以是通过通信接口(参照图17的通信接口1770)从外部源(例如，交通相机)接收的车辆的前视图和侧视图之中的至少一个外部图像。

类似于图1中示出的2D驾驶图像110，驾驶图像可包括包含周围车辆、车道、路缘、人行道和周围环境和/或路面图像的道路图像。驾驶图像可包括除彩色图像之外的各种图像，诸如，红外图像、深度图像和立体图像。驾驶图像可包括一帧、多个帧或视频。

由图像处理装置检测到的对象可以是其他车辆、道路消失点、道路标记、行人、交通灯、标志、人、动物、植物和建筑物。然而，公开的实施例不限于此。对象可包括具有移动性的动态对象和/或没有移动性的静止对象。动态对象可包括具有移动性的各种对象，诸如，周围车辆、行人和动物。静止对象可包括没有移动性的各种对象，诸如，各种车道(诸如，人行横道、停车线和行车线)、道路标记、路缘、建筑物、标志、植物(树木)、灯和交通灯。

在操作S210中，根据实施例的图像处理装置可通过使用预先训练为识别对象的卷积神经网络(CNN)从驾驶图像检测对象。在CNN中，例如，可预先训练将从驾驶图像检测的车道显示和非车道显示的边界框以及将从驾驶图像检测的车道显示和非车道显示的种类。

在操作S220中，图像处理装置获得关于车辆与对象之间的高度差的信息。例如，关于高度差的信息可包括关于车辆的俯仰(pitch)的信息以及关于驾驶图像中的消失线的信息。将参照图3A和图3B详细描述关于车辆与对象之间的高度差的信息。

在操作S230中，图像处理装置将驾驶图像中的对象的图像域坐标和关于高度差的信息输入到神经网络，并确定对象的世界域坐标。神经网络可确定包括动态对象和静止对象二者的对象的世界域坐标。可选地，神经网络可包括用于确定动态对象的世界域坐标的第一神经网络和用于确定静止对象的世界域坐标的第二神经网络中的至少一个。将参照图4和图5详细描述根据实施例的图像处理装置的配置和操作。

图像处理装置可输出在操作S230中确定的对应于对象的世界域坐标。图像处理装置可明确地或隐含地输出对象的世界域坐标。“明确地输出对象的世界域坐标”可包括例如在屏幕(或地图)上显示对象的世界域坐标和/或作为音频输出对象的世界域坐标。可选地，“隐含地输出对象的世界域坐标”可包括例如通过使用对象的世界域坐标来控制车辆，确定车辆的位置，或者设置或改变路线。

根据实施例，图像处理装置可基于关于驾驶图像中的消失线的信息，对驾驶图像中的对象的图像域坐标执行缩放归一化。将参照图6A至图7B详细描述由图像处理装置执行的执行缩放归一化的方法。

可选地，根据实施例，图像处理装置可随着时间的流逝跟踪对象的图像域坐标。图像处理装置可通过对随着时间的流逝被跟踪的对象的图像域坐标进行滤波，来将对象的图像域坐标的类型转换为浮点。将参照图8详细描述由图像处理装置执行的将图像域坐标的类型转换为浮点的方法。

根据实施例，图像处理装置确定在操作S210中检测到的对象是具有移动性的动态对象还是没有移动性的静止对象，并且可根据确定结果执行不同的操作。将参照图9详细描述图像处理装置区分动态对象与静止对象并且检测动态对象和静止对象的实施例。

图3A是示出根据公开的实施例的关于高度差的信息的示图。

参照图3A，车辆俯仰信息310和消失线信息320被示出。

车辆俯仰信息310可对应于表示基于地面的车辆的斜率或高度的信息。车辆俯仰信息310可通过例如惯性测量单元(IMU)传感器或陀螺仪传感器来测量。车辆俯仰信息310可被表示为“p”。

消失线信息320可表示在驾驶图像的前面的对象的消失线的高度或者在驾驶图像的前面的对象汇聚的高度的消失点。消失线信息320可包括驾驶图像中的消失点的位置(例如，消失点的y坐标)。消失线信息320可从由捕获装置(诸如，相机)捕获的驾驶图像被获得。

图像处理装置可通过识别驾驶图像中的对象来获得消失线信息320。消失线信息320可被表示为“vl”。

图3B是示出根据公开的实施例的获得关于消失线的信息的方法的示图。

根据实施例，图像处理装置可基于可驾驶的道路的最高点来确定消失线。例如，参照图3B，图像处理装置基于图像处理(诸如，深度训练)来提取可驾驶的道路的区域341、342和343，并且可基于可驾驶的道路的提取的区域的最高点来确定消失线330的y坐标。当y坐标从图像的上端向图像的下端增大时，提取的区域的最高点可以是包括在提取的区域中的像素之中的具有最小y坐标的像素。此外，可驾驶的道路的区域可基于邻近车辆来提取。

根据实施例，图像处理装置提取多个车道，并且可将多个车道的延长线相交的点确定为消失点。例如，参照图3B，图像处理装置基于图像处理(诸如，深度训练)提取两个车道351和352，延长两个车道351和352，并且可确定消失点335。图像处理装置可将确定的消失点335的y坐标确定为消失线330的y坐标。

图4是示出根据公开的实施例的图像处理装置400的配置的示图。图5是示出根据公开的实施例的神经网络的结构的示图。

参照图4和图5，根据实施例的图像处理装置400可包括相机传感器410、IMU传感器420和神经网络430。

图像处理装置400可从由相机传感器410捕获的车辆的驾驶图像检测对象。在操作415中，图像处理装置400跟踪检测到的对象，并且可将对象的图像域的点坐标(i_x，i_y)输入到神经网络430。此外，图像处理装置400获得由相机传感器410捕获的车辆的驾驶图像中的消失线信息vl，并且可将获得的消失线信息输入到神经网络430。图像处理装置400可将由IMU传感器420感测的车辆的俯仰信息p输入到神经网络430。

神经网络430接收图像域的点坐标(i_x，i_y)、当前车辆的俯仰信息p和消失线信息v1，基于输入的信息项估计对象的世界域坐标，并且可输出与图像域的点坐标(i_x，i_y)对应的世界域坐标(W_x，W_y)。如图5中所示，神经网络430可包括全连接层。

根据实施例，神经网络430可被训练为区分动态对象与静止对象并且估计动态对象和静止对象的世界域坐标，或者神经网络430可被训练为估计全部的对象的世界域坐标，而不区分动态对象与静止对象。

神经网络430可通过关于车辆的俯仰信息和消失线信息来确定指示车辆与周围对象之间的高度差的信息，并确定对象的世界域坐标。

图6A至图6B和图7A至图7B是示出根据公开的实施例的缩放归一化的示图。

根据实施例的图像处理装置可对驾驶图像中的对象的图像域坐标执行缩放归一化。

如上所述，消失线信息可包括驾驶图像中的消失点的位置。缩放归一化可基于消失点(或包括消失点的特定区域)的位置在x轴方向和y轴方向上执行。在x轴方向上的缩放归一化期间，消失点的x坐标可被考虑。在y轴方向上的缩放归一化期间，消失点的y坐标可被考虑。

根据实施例，图像处理装置可通过整体地考虑包括在多个帧中的消失线信息，基于预定结果(例如，平均消失点位置)来执行缩放归一化。可选地，图像处理装置获得每帧的消失线信息，并且可基于关于逐帧的消失线的信息执行缩放归一化。

在下文中，参照图6A和图6B描述在x轴方向上执行缩放归一化的方法，参照图7A和图7B描述在y轴方向上执行缩放归一化的方法。例如，图6A和图7A中示出的驾驶图像可具有1920(宽度)×1200(长度)的分辨率。

在图6A的驾驶图像中，在位于消失点610的x坐标周围的远(long)距离对象中，虽然像素之间的距离在图像域上非常大，但是像素之间的距离可随着距消失点610的x坐标的距离的增大而减小。因此，在一个实施例中，远距离对象中的图像域上的像素之间的距离可通过执行归一化来正确地表示，其中，在归一化中，靠近消失点610的x坐标的区域的缩放比例与距消失点610的x坐标较远的区域的缩放比例不同。

更详细地说，如图6A中所示，车辆位于大约在驾驶图像的水平轴中的1920(宽度)像素的中间的960像素处，并且消失点610的x坐标位于960像素处。如图6B中示出的函数630中那样，当图像域坐标被表示为线性增大而不管远距离对象与消失点610之间的距离时，表示远距离对象与消失点610之间的距离的分辨率可被降低。

因此，根据实施例，如图6B中示出的对数缩放函数(log scale function)650中那样，缩放因子的斜率值可朝向消失点610增大，并且可随着距消失点610的距离的增大而减小；因此，靠近消失点610并且与远距离对应的区域可被详细地表示。

根据实施例的图像处理装置可通过基于驾驶图像中的消失线信息，例如以对数缩放函数650的形式对驾驶图像中的远距离对象的图像域的x坐标执行缩放归一化，来提高表示远距离对象与消失点610之间的距离的分辨率。

在图7A的驾驶图像中，基于作为消失点710的y坐标的600像素，图7A的驾驶图像中的600像素以上的区域对应于天空。因为天空将存在于驾驶图像中而不管显著影响车辆的驾驶的道路或车道，所以当对象的坐标被切换时天空可不被认真地考虑。在一个实施例中，可通过基于消失点的y坐标对包括在除了与0像素到600像素对应的区域之外的区域(600像素到1200像素)中的对象的图像域坐标执行缩放归一化来减少运算量。

在图7A的驾驶图像中，在作为消失点710的y坐标的600像素周围，虽然像素之间的距离在图像域上非常大，但是像素之间的距离可随着距作为消失点710的y坐标的600像素的距离的增大而减小。在不考虑以上内容的情况下，如图7B中示出的表示对数分度函数(例如，y＝log₂x)的函数730中那样，当图像域坐标被表示为线性增大而不管远距离对象与消失点710之间的距离时，表示远距离对象与消失点710之间的距离的分辨率可被降低。

因此，在一个实施例中，表示远距离对象与消失点710之间的距离的分辨率可通过执行归一化来提高，其中，在归一化中，靠近消失点710的y坐标的区域的缩放比例与在距消失点710的y坐标的距离增大时的区域的缩放比例不同。

图8是示出根据公开的实施例的浮点的转换的示图。

参考图8，表示随着时间的流逝被跟踪的对象的图像域坐标的图810、图820和图830被示出。

例如，如图810中所示，在t＝n的时间点捕获的驾驶图像中的对象的图像域坐标(i_x0，i_y0)可以是整数的形式。当图像处理装置对图像域坐标进行归一化时，整数形式的图像域坐标可被离散地表示。

在一个实施例中，可通过随着时间的流逝跟踪对象的图像域坐标并对跟踪的对象的图像域坐标进行滤波，将对象的图像域坐标的类型转换为浮点。

例如，如图820中所示，图像处理装置跟踪对象的图像域坐标，并且可对在t＝n+1的时间点跟踪的对象的图像域坐标(i_x1，i_y1)进行滤波(诸如，i_x1←α×i_x1+(1-α)×i_x0,i_y1←α×i_y1+(1-α)×i_y0，其中，ɑ是滤波系数)。此外，如图830中所示，图像处理装置对在t＝n+2的时间点跟踪的对象的图像域坐标(i_x2，i_y2)进行滤波(诸如，i_x2←α×i_x2+(1-α)×i_x1,i_y2←α×i_y2+(1-α)×i_y1)，并且可将滤波的图像域坐标转换为浮点坐标。

根据实施例的图像处理装置基于驾驶图像中的消失线信息对转换为浮点的对象的图像域坐标执行缩放归一化，并且可将执行了缩放归一化的图像域坐标输入到神经网络。

图9是示出根据公开的实施例的图像处理方法的流程图。

参照图9，在操作S910中，根据实施例的图像处理装置可从车辆的驾驶图像检测对象。在操作S920中，图像处理装置可确定检测到的对象是具有移动性的动态对象还是没有移动性的静止对象。图像处理装置可通过各种机器训练或各种神经网络来确定检测到的对象是动态对象还是静止对象。

在操作S930中，当在操作S920中确定对象是动态对象时，图像处理装置可通过使用第一神经网络(即，通过第一神经网络将动态对象的图像域坐标转换为世界域坐标而获得的结果)，生成与动态对象对应的实时地图。

在操作S940中，图像处理装置可通过使用实时地图或动态更新的地图，来生成车辆的驾驶参数。驾驶参数可包括驾驶角度控制参数、加速控制参数、减速控制参数和/或转向信号灯控制参数。由图像处理装置生成的驾驶参数可用于防止车辆与另一车辆碰撞。

在操作S950中，当在操作S920中确定对象是静止对象时，图像处理装置可通过使用第二神经网络(即，通过第二神经网络将静止对象的图像域坐标转换为世界域坐标而获得的结果)，生成与静止对象对应的地标地图。

在操作S960中，图像处理装置可通过使用地标地图来确定车辆的定位和全局路径中的至少一个。

在下文中，将描述由图像处理装置执行的训练神经网络的方法。

根据实施例的图像处理装置可经由通过单应性操作获得的远程距离数据(remotedistance data)，来训练神经网络(NN)。在单应性操作中，通过在将平面投影到另一平面时在投影的相应点之间建立的统一转换关系，所述另一平面的坐标被确定。通常，单应性操作在短距离内具有高可靠性。因此，图像处理装置可使用在3D世界域上的短距离内匹配的2D图像域的点坐标作为初始训练数据。

然后，图像处理装置可在逐渐增大训练数据的采集距离的同时训练神经网络。训练数据的采集距离被逐渐增大，以防止2D驾驶图像(2D图像域)的图像域坐标和3D世界域坐标被错误地匹配。

当累积训练数据时，根据实施例的图像处理装置可通过将标识符(ID)提供给2D驾驶图像的图像域上的动态对象和/或静止对象，采集顺序数据(sequential data)，并将采集的数据与由距离传感器采集的数据进行匹配，来正确地采集训练数据。

根据实施例的图像处理装置还可通过实时累积训练数据并经由使用累积的训练数据训练神经网络，来执行将2D图像域坐标转换为3D世界域坐标的自动校准，其中，自动校准用于校准相机传感器或距离传感器的位置或姿势扭曲。

图10是示出根据公开的实施例的基于驾驶图像中的动态对象的坐标生成训练数据的方法的流程图。

参照图10，在操作S1010中，根据实施例的训练数据生成装置(在下文中，被称为“生成装置”)通过经由分析驾驶图像跟踪动态对象，来获得动态对象的图像域坐标。将参照图11详细描述根据实施例的训练数据生成装置的配置的示例。

根据实施例，训练数据生成装置可随着时间的流逝跟踪动态对象的图像域坐标。训练数据生成装置可通过对跟踪的动态对象的图像域坐标进行滤波，将动态对象的图像域坐标的类型转换为浮点。可选地，训练数据生成装置可基于驾驶图像中的消失线信息对驾驶图像中的动态对象的图像域坐标执行缩放归一化。

在操作S1020中，训练数据生成装置将多个动态对象之中的位于预定匹配距离内的第一动态对象的图像域坐标转换为第一世界域坐标。在操作S1020中，训练数据生成装置可通过单应性操作，将第一动态对象的图像域坐标转换为第一世界域坐标。匹配距离可以是例如15m或30m。训练数据生成装置可将第一ID提供给第一动态对象。

在操作S1030中，训练数据生成装置通过经由使用距离传感器跟踪周围对象，来获得周围对象的第二世界域坐标。距离传感器可以是例如激光雷达传感器或雷达传感器。此时，训练数据生成装置可将第二ID提供给周围对象。

在操作S1040中，训练数据生成装置通过将第一世界域坐标与第二世界域坐标进行比较，来将周围对象中的一个与第一动态对象进行匹配。训练数据生成装置将提供给周围对象中的一个的第二ID与提供给第一动态对象的第一ID进行比较和匹配。

在操作S1050中，训练数据生成装置生成包括第一动态对象的图像域坐标和匹配的周围对象的第二世界域坐标的训练数据。

将参照图12A、图12B和图13详细描述由根据实施例的训练数据生成装置执行的生成训练数据的方法。

图11是根据公开的实施例的用于动态对象的训练数据生成装置1100的配置图。

参照图11，根据实施例的训练数据生成装置1100可包括相机传感器1110、距离传感器1120、IMU传感器1130和处理器1170。

训练数据生成装置1100可从由相机传感器1110捕获的车辆的驾驶图像检测动态对象。训练数据生成装置1100可通过经由使用驾驶图像跟踪动态对象(1140)，来获得动态对象的图像域坐标。图像域坐标可以是(i_x，i_y)的形式。训练数据生成装置1100可从由相机传感器1110捕获的驾驶图像获得消失线信息vl。

训练数据生成装置1100可将多个动态对象之中的位于预定匹配距离1160内的第一动态对象的图像域坐标(i_x，i_y)转换为第一世界域坐标(1145)。如在下文中详细描述的，训练数据生成装置1100可通过单应性操作，将多个动态对象之中的位于预定匹配距离1160内的第一动态对象的图像域坐标(i_x，i_y)转换为第一世界域坐标。在神经网络的初始训练完成之后，训练数据生成装置1100可通过使用先前训练的神经网络而不是用于转换图像域坐标的单应性操作，来增大匹配距离1160。

此时，训练数据生成装置1100可将ID(例如，第一ID)提供给第一动态对象。

此外，训练数据生成装置1100可通过经由使用距离传感器1120跟踪车辆的周围对象(1150)，来获得周围对象的第二世界域坐标。第二世界域坐标可以是(W_x，W_y)的形式。此时，距离传感器1120可输出车辆与周围对象之间的距离和角度。训练数据生成装置1100可将ID(例如，第二ID)提供给跟踪的周围对象。

训练数据生成装置1100可通过将第一动态对象的第一世界域坐标与周围对象的第二世界域坐标进行比较，并将第一动态对象的第一世界域坐标与短距离内(例如，匹配距离内)的周围对象的第二世界域坐标进行匹配(1173)，来生成训练数据1177。

此时，训练数据生成装置1100可通过从相机传感器获得驾驶图像中的第一动态对象的图像域坐标(i_x，i_y)和消失线信息vl并从距离传感器1120获得周围对象的第二世界域坐标(W_x，W_y)，来累积训练数据。训练数据生成装置1100可通过IMU传感器1130获得车辆的俯仰信息p，并且可使用获得的俯仰信息p以生成训练数据1177。

在通过经由对第一动态对象的图像域坐标(i_x，i_y)执行的单应性操作生成的训练数据来初始训练神经网络之后，训练数据生成装置1100可在将匹配距离逐渐增大到远距离的同时生成训练数据。例如，在一个实施例中，在初始训练之后，当图像域坐标被转换为第一世界域坐标时，先前训练的神经网络而不是单应性操作被使用，因此，匹配距离可被增大。将参照图12A和图12B详细描述由根据实施例的训练数据生成装置1100执行的增大匹配距离1160并生成训练数据的方法。

图12A和图12B是示出根据公开的实施例的针对驾驶图像中的动态对象生成训练数据的方法的示图。

参照图12A，捕获了在道路上移动的车辆1205的驾驶图像1210、1220和1230被示出。假设驾驶图像1210在t＝0的时间点被捕获并且车辆1205位于匹配距离内，驾驶图像1220和驾驶图像1230分别在t＝1的时间点和t＝2的时间点被捕获并且车辆1205位于大于匹配距离的距离处。

此外，参照图12B，通过将由相机传感器获得的动态对象(例如，车辆1205)的图像域坐标(i_x，i_y)与由距离传感器在t＝n的时间点、t＝n+1的时间点和t＝n+2的时间点获得的周围对象的第二世界域坐标(W_x，W_y)逐步进行匹配来生成训练数据的处理被示出。

例如，假设n＝0，训练数据生成装置可在t＝0的时间点通过单应性操作将位于匹配距离内的车辆1205的图像域坐标(i_x0，i_y0)转换为第一世界域坐标(W_x0，W_y0)。此时，训练数据生成装置可将ID a提供给车辆1205。

训练数据生成装置可获得由距离传感器在t＝0的时间点获得的周围对象的第二世界域坐标(W_x*，W_y*)。此时，训练数据生成装置可将ID提供给周围对象。例如，训练数据生成装置可将ID b提供给由距离传感器获得的周围对象之中的车辆1205。

训练数据生成装置将周围对象的第二世界域坐标(W_x*，W_y*)与第一世界域坐标(W_x0，W_y0)进行比较，并且可将最接近第一世界域坐标(W_x0，W_y0)的周围对象(例如，作为具有的第二世界域坐标(W_x0*，W_y0*)的周围对象的车辆))与车辆1205进行匹配。通过执行匹配，训练数据生成装置确定由相机传感器跟踪的具有ID＝a的动态对象与由距离传感器跟踪的具有ID＝b的周围对象相同，并且可生成训练数据(i_x0，i_y0，W_x0*，W_y0*)。

此时，在t＝1的时间点和t＝2的时间点，在匹配距离内的在t＝0的时间点执行的匹配也可保持为ID＝a＝b，并且车辆1205位于大于匹配距离的距离内。训练数据生成装置可通过使用由距离传感器在t＝1的时间点跟踪的具有ID＝b的周围对象的第二世界域坐标(W_x0*，W_y0*)和第一世界域坐标(W_x1，W_y1)，来生成训练数据(i_x1，i_y1，W_x1*，W_y1*)。训练数据生成装置可通过与t＝1的时间点相同的方法在t＝2的时间点生成训练数据(i_x2，i_y2，W_x2*，W_y2*)。

虽然附图中未示出，但是根据实施例，训练数据生成装置可存储相机传感器的对象跟踪历史和距离传感器的对象跟踪历史。在这种情况下，在匹配被执行之前的时间点的训练数据可在匹配被执行之后通过使用对象跟踪历史来来另外地生成。

图13是示出根据公开的实施例的累积地生成训练数据的方法的示图。

参照图13，由根据实施例的训练数据生成装置根据匹配距离使用不同的转换器累积地生成的训练数据项被示出。

根据实施例的训练数据生成装置通过单应性操作器将通过驾驶图像跟踪的多个动态对象之中的位于第一匹配距离(例如，12m)内的第一动态对象的图像域坐标转换为第一世界域坐标，并且可基于第一世界域坐标生成训练数据0作为初始训练数据(迭代0)。然后，在通过训练数据0训练神经网络之后，训练数据生成装置可在随着重复的数量逐渐增加(例如，增加一次和两次)而增大匹配距离并通过神经网络转换第一个动态对象的图像域坐标的同时，累积地生成训练数据项1和2(例如，训练数据1和训练数据2(迭代1和迭代2))。如参照图12A和图12B所述，在匹配距离内执行匹配之后，尽管偏离匹配距离，但是可生成训练数据。因此，神经网络被训练为以比第一匹配距离大的匹配距离进行转换，并且随着迭代被执行，在远距离内的匹配正确度可逐渐增大。

图14是示出根据公开的实施例的基于驾驶图像中的静止对象的坐标生成训练数据的方法的流程图。参照图14，在操作S1410中，根据实施例的训练数据生成装置(或训练数据生成装置的处理器)通过随着时间的流逝从包括多个帧的驾驶图像跟踪静止对象，来存储静止对象的图像域坐标。此时，训练数据生成装置可将第一ID提供给跟踪的静止对象。根据实施例，在操作S1410中，训练数据生成装置可随着时间的流逝跟踪静止对象的图像域坐标。训练数据生成装置可通过对跟踪的静止对象的图像域坐标进行滤波，将静止对象的图像域坐标的类型转换为浮点。此外，训练数据生成装置可基于驾驶图像中的消失线信息对驾驶图像中的静止对象的图像域坐标执行缩放归一化。

在操作S1420中，训练数据生成装置基于全球定位系统(GPS)信息，将图像域坐标之中的当前帧的图像域坐标转换为第一全球世界域坐标。

在操作S1430中，训练数据生成装置基于距离传感器的输出和GPS信息获得周围对象的第二全球世界域坐标。此时，训练数据生成装置可将第二ID提供给周围对象。此外，训练数据生成装置可累积地存储距离传感器的输出和GPS信息。

在操作S1440中，训练数据生成装置通过将第一全球世界域坐标与第二全球世界域坐标进行比较，来将周围对象中的一个与静止对象进行匹配。训练数据生成装置可将提供给周围对象中的一个的第二ID与提供给静止对象的第一ID进行匹配。

在操作S1450中，训练数据生成装置生成训练数据。此时，训练数据项中的每个可包括与在操作S1410中存储的图像域坐标中的一个匹配的周围对象的第二全球世界域坐标。

图15是根据公开的实施例的用于静止对象的训练数据生成装置1500的配置图。

参照图15，根据实施例的训练数据生成装置1500可包括相机传感器1510、距离传感器1520、GPS传感器1530、IMU传感器1540和处理器1560。

训练数据生成装置1500可通过相机传感器1510随着时间的流逝捕获包括多个帧的驾驶图像。训练数据生成装置1500随着时间的流逝从驾驶图像跟踪静止对象的图像域坐标(1550)，并且可存储跟踪的图像域坐标。此时，训练数据生成装置1500可将ID(例如，第一ID)提供给静止对象。

训练数据生成装置1500可通过对跟踪的静止对象的图像域坐标进行滤波，来将静止对象的图像域坐标的类型转换为浮点。训练数据生成装置1500可基于驾驶图像中的消失线信息对转换为浮点的静止对象的图像域坐标执行缩放归一化。

训练数据生成装置1500可从由相机传感器1510捕获的驾驶图像获得消失线信息vl。

训练数据生成装置1500可基于由GPS传感器1530感测的GPS信息，将静止对象的图像域坐标之中的当前帧的图像域坐标转换为第一全球世界域坐标。

训练数据生成装置1500可基于距离传感器1520的输出(W_x，W_y)和GPS信息，来获得车辆的周围对象的第二全球世界域坐标。此时，训练数据生成装置可将第二ID提供给周围对象。

训练数据生成装置1500将第一全球世界域坐标与第二全球世界域坐标进行比较，并且可将提供给周围对象中的一个的第二ID与提供给静止对象的第一ID进行匹配(1563)。此时，训练数据生成装置1500可将提供给周围对象中的一个的第二ID与提供给静止对象的第一ID进行匹配。

训练数据生成装置1500可生成包括与先前存储的图像域坐标中的一个匹配的周围对象的第二全球世界域坐标的训练数据1567。训练数据生成装置1500通过IMU传感器1540获得车辆的俯仰信息p，并且可使用俯仰信息p来生成训练数据1567。

将参照图16详细描述由根据实施例的训练数据生成装置1500执行的通过随着时间的流逝跟踪静止对象的图像域坐标来生成训练数据的方法。

图16是示出根据公开的实施例的生成关于驾驶图像中的静止对象的训练数据的方法的示图。

参照图16，随着时间的流逝的车辆1605的驾驶图像1610、1620和1630以及示出与驾驶图像1610、1620和1630对应的关于车辆1605的GPS信息和周围对象1607的图1615、1625和1635被示出。假设包括在驾驶图像1610、1620和1630中的静止对象1603和在图1615、1625和1635中示出的周围对象1607是同一对象(例如，路灯)。此外，假设在t＝n的时间点捕获驾驶图像1610，并且在t＝n+1的时间点和t＝n+2的时间点分别捕获驾驶图像1620和驾驶图像1630。

根据实施例的训练数据生成装置可通过随着时间的流逝从驾驶图像1610、1620和1630跟踪静止对象1603来存储静止对象1603的图像域坐标(i_x，i_y)。训练数据生成装置可随着时间的流逝累积地存储距离传感器(例如，雷达传感器/激光雷达传感器)的输出(W_x*，W_y*)和GPS信息(GPS_x，GPS_y)。

因为静止对象1603不具有移动性，所以其位置是固定的。然而，当车辆1605远离静止对象1603时，图像域坐标的转换是不正确的，因此，匹配不被执行。因此，在训练数据生成装置累积地存储根据车辆1605的移动捕获的静止对象1603的坐标之后，当车辆1605足够靠近与静止对象1603对应的周围对象1607并且因此匹配被执行时，关于累积地捕获的静止对象1603的坐标的训练数据可被生成。

更详细地，训练数据生成装置可获得在t＝n的时间点由相机传感器获得的驾驶图像1610中的静止对象1603的图像域坐标(i_x0，i_y0)，并且可存储获得的图像域坐标(i_x0，i_y0)。训练数据生成装置可将ID＝1提供给静止对象1603。

训练数据生成装置可将在t＝n的时间点的驾驶图像1610的图像域坐标(i_x0，i_y0)转换为第一世界域坐标(W_x0，W_y0)。训练数据生成装置可基于由GPS传感器获得的GPS信息(GPS_x0，GPS_y0)将第一世界域坐标(W_x0，W_y0)转换为第一全球世界域坐标

此外，训练数据生成装置可基于在t＝n的时间点的距离传感器的输出(W_x0*，W_y0*)和GPS信息(GPS_x0，GPS_y0)，来获得周围对象1607的第二全球世界域坐标

训练数据生成装置可以以与t＝n的时间点相同的方法，将t＝n+1的时间点的驾驶图像1620的图像域坐标(i_x1，i_y1)转换为第一全球世界域坐标

并将在t＝n+2的时间点的驾驶图像1630的图像域坐标(i_x2，i_y2)转换为第一全球世界域坐标

此外，训练数据生成装置可以以与t＝n的时间点相同的方法，基于如在t＝n+1的时间点的图1625和在t＝n+2的时间点的图1635中那样的距离传感器的输出((W_x1*，W_y1*)，(W_x2*，W_y2*))和GPS信息((GPS_x1，GPS_y1)，(GPS_x2，GPS_y2))，来获得周围对象1607的第二全球世界域坐标

训练数据生成装置可累积地存储作为相机传感器的输出的图像域坐标、距离传感器的输出、GPS信息和周围对象1607的第二全球世界域坐标。

在与t＝n的时间点对应的图1615中，在由相机传感器获得的静止对象1603的第一全球世界域坐标

与由距离传感器获得的周围对象1607的第二全球世界域坐标

之间差异(误差)被生成。当车辆1605与周围对象1607之间的距离随着时间的流逝逐渐减小时，差异(误差)减小，并且差异(误差)可被去除或基本去除，使得误差在t＝n+2的时间点是可忽略不计的。

训练数据生成装置将在t＝n+2并且车辆1605最靠近周围对象1607(或者车辆1605经过静止对象1603)的时间点的静止对象1603的第一全球世界域坐标与周围对象1607的第二全球世界域坐标进行比较，并且可将静止对象1603与周围对象1607进行匹配。训练数据生成装置可将具有ID＝1的静止对象1603与周围对象1607进行匹配。通过匹配，训练数据生成装置可一次生成具有ID＝1的静止对象1603的训练数据集((i_x0，i_y0，W_x2*，W_y2*)、(i_x1，i_y1，W_x2*，W_y2*)、(i_x2，i_y2，W_x2*，W_y2*))。

图17是根据公开的实施例的图像处理装置1700的框图。

参照图17，根据实施例的图像处理装置1700包括处理器1730。图像处理装置1700还可包括传感器1710、存储器1750、通信接口1770和显示器1790。传感器1710、处理器1730、存储器1750、通信接口1770和显示器1790可通过通信总线1705彼此通信。

传感器1710可包括例如相机传感器、图像传感器、视觉传感器、IMU传感器、陀螺仪传感器、加速度传感器、GPS传感器、地磁传感器、激光雷达传感器、雷达传感器和高度测量传感器。然而，公开的实施例不限于此。相机传感器、图像传感器和/或视觉传感器可被安装在车辆中并且可捕获车辆的驾驶图像。IMU传感器、陀螺仪传感器和/或高度测量传感器可感测车辆的俯仰信息。激光雷达传感器和/或雷达传感器可感测对象的(局部)世界域坐标。GPS传感器可感测车辆的全球世界域坐标。

处理器1730可执行上面通过图1至图16描述的至少一种方法或者与所述至少一种方法对应的算法。也就是说，在处理器1730的执行的控制下，附图中示出的各种块可被实现为硬件或软件。处理器1730可执行代表附图中示出的各种块的程序，并且可控制图像处理装置1700。由处理器1730执行的程序代码可被存储在存储器1750中。

处理器1730可由例如中央处理器(CPU)或图形处理器(GPU)形成。

存储器1750可存储关于驾驶图像以及车辆与对象之间的高度差的信息。此外，存储器1750可存储随着时间的流逝跟踪的对象的图像域坐标。此外，存储器1750可存储由处理器1730生成的与动态对象对应的实时地图和/或生成的与静止对象对应的地标地图。

存储器1750可存储由处理器1730确定的对象的世界域坐标。

存储在存储器1750中的静止对象的世界域坐标可从存储器1750被读取，以在车辆经过相同的区域时快速地掌握未改变的信息(诸如，人行横道、标志、车道和周围地形)。考虑到当车辆用于通勤时，车辆通过使用预先存储在存储器1750中的信息以相同的路线移动，可以提高用于确定静止对象的世界域坐标的图像处理速度，并且减少处理负荷。存储器1750可以是易失性存储器或非易失性存储器。

通信接口1770可接收由图像处理装置1700的外部的外部源(诸如，交通相机或安装到另一车辆或结构的相机)捕获的驾驶图像，或者接收从图像处理装置1700的外部接收的各种传感器的信息和地图信息。根据实施例，通信接口1770可将由处理器1730确定的对象的世界域坐标发送到图像处理装置1700的外部或显示器1790。

显示器1790可将对象的世界域坐标与驾驶图像一起显示，或者可另外地显示对象的世界域坐标。显示器1790可将对象的世界域坐标显示为例如地图信息、导航图像中的对象的位置。例如，当图像处理装置1700嵌入在车辆中时，显示器1790可由设置在车辆中的平视显示器(HUD)形成。

可通过硬件组件、软件组件和/或硬件组件和软件组件的组合来实现公开的实施例。例如，可通过使用一个或多个通用计算机或专用计算机(如，处理器、控制器、算术逻辑单元(ALU)、数字信号处理器、微型计算机、现场可编程门阵列(FPGA)、可编程逻辑单元(PLU)、微处理器或能够执行和响应指令的另一特定装置)来实现实施例中描述的装置、方法和组件。处理装置可执行操作系统(OS)和在OS上执行的一个或多个软件应用。此外，处理装置可响应于软件的执行访问、存储、操纵、处理和生成数据。为了简明起见，示出仅一个处理装置被使用。然而，本领域技术人员可理解：处理装置可包括多个处理元件和/或多种类型的处理元件。例如，处理装置可包括多个处理器或者处理器和控制器。此外，另外的处理配置(诸如，并行处理器)是可行的。

软件可包括计算机程序、代码、指令或者计算机程序、代码和指令的一种或多种组合，软件可配置处理装置以便如期望的那样进行操作或者单独或共同地指示处理装置。软件和/或数据可永久地或暂时地包含在特定类型的机器、组件、物理装置、虚拟设备、计算机存储介质或装置中，或者永久地或暂时地包含在传输的信号波中，以便由处理装置解释或者向处理装置提供指令或数据。软件被分布在通过网络连接的计算机系统上，并可通过分布的方式来存储和执行。软件和数据可被存储在一个或多个计算机可读记录介质中。

根据实施例的方法可以以可由各种计算机单元执行的程序指令的形式实现，并且可被记录在计算机可读记录介质中。计算机可读记录介质可包括程序指令、数据文件和数据结构，或者程序指令、数据文件和数据结构的组合。记录在计算机可读记录介质中的程序指令是为实施例而专门设计并配置的程序指令，或者可以是软件工程师公知的程序指令。例如，计算机可读记录介质可以是：磁介质(诸如，硬盘、软盘或磁带)；光学介质(诸如，光盘只读存储器(CD-ROM)或数字多功能盘(DVD))；磁光介质(诸如，光磁盘)；或者专门被配置为存储并执行程序指令的硬件装置(诸如，ROM、随机存取存储器(RAM)、或闪存)。程序指令可包括可由计算机通过使用解释器来执行的高级语言代码以及由编译器创建的机器语言代码。硬件装置可被配置为作为一个或多个软件模块进行操作，以便执行实施例的操作，反之亦然。

虽然已经具体示出和描述公开的实施例，但是将理解，在不脱离权利要求的精神和范围的情况下，可在其中进行形式和细节上的各种改变。

Claims

1.一种用于控制道路上的车辆的图像处理方法，所述图像处理方法包括：

检测驾驶图像内的对象；

获得车辆与对象之间的高度差；

通过驾驶图像中的对象的图像域坐标和高度差的神经网络处理，来确定对象的世界域坐标；以及

基于对象的世界域坐标针对对象控制道路上的车辆。

2.根据权利要求1所述的图像处理方法，其中，高度差包括：

车辆的俯仰信息；以及

驾驶图像中的消失线信息。

3.根据权利要求2所述的图像处理方法，还包括：基于驾驶图像中的消失线信息，对驾驶图像中的对象的图像域坐标执行缩放归一化。

4.根据权利要求1所述的图像处理方法，还包括：

随着时间的流逝跟踪对象的图像域坐标；以及

对对象的图像域坐标进行滤波，并将对象的图像域坐标的类型转换为浮点。

5.根据权利要求1所述的图像处理方法，其中，对象是具有移动性的动态对象或者没有移动性的静止对象，以及

其中，所述神经网络包括：

第一神经网络，用于估计动态对象的世界域坐标；以及

第二神经网络，用于估计静止对象的世界域坐标。

6.根据权利要求1所述的图像处理方法，其中，对象是具有移动性的动态对象，以及

其中，所述图像处理方法还包括：

通过使用将动态对象的图像域坐标转换为世界域坐标的结果，生成与动态对象对应的实时地图；以及

通过使用实时地图，来生成用于针对动态对象控制道路上的车辆的车辆的驾驶参数。

7.根据权利要求1所述的图像处理方法，其中，对象是没有移动性的静止对象，以及

其中，所述图像处理方法还包括：

通过使用将静止对象的图像域坐标转换为世界域坐标的结果，生成与静止对象对应的地标地图；以及

通过使用地标地图，来确定用于针对静止对象控制道路上的车辆的车辆的位置和路线中的至少一个。

8.根据权利要求1所述的图像处理方法，还包括：输出对象的世界域坐标。

9.根据权利要求1所述的图像处理方法，还包括：获得由安装在车辆中的相机捕获的驾驶图像。

10.一种训练数据生成方法，包括：

通过跟踪驾驶图像中的多个动态对象，来获得所述多个动态对象的多个图像域坐标；

将所述多个动态对象之中的第一动态对象的图像域坐标转换为第一动态对象的第一世界域坐标，其中，第一动态对象位于距车辆的预定匹配距离内；

通过经由使用距离传感器跟踪多个周围对象，来获得所述多个周围对象的多个第二世界域坐标；

通过将所述第一世界域坐标与所述多个第二世界域坐标进行比较，来将所述多个周围对象中的一个周围对象与第一动态对象进行匹配；以及

生成包括第一动态对象的所述图像域坐标和匹配的周围对象的第二世界域坐标的训练数据。

11.根据权利要求10所述的训练数据生成方法，其中，转换所述图像域坐标的步骤包括：通过单应性操作，将第一动态对象的初始的图像域坐标转换为所述第一世界域坐标。

12.根据权利要求10所述的训练数据生成方法，还包括：

将第一标识符与第一动态对象相关联；以及

将多个第二标识符与所述多个周围对象相关联，

其中，将所述多个周围对象中的一个周围对象与第一动态对象进行匹配的步骤包括：将所述多个第二标识符之中的与所述多个周围对象中的一个周围对象相关联的第二标识符和与第一动态对象相关联的第一标识符进行匹配。

13.根据权利要求10所述的训练数据生成方法，其中，所述多个动态对象包括：周围车辆、行人和动物中的至少一个。

14.根据权利要求10所述的训练数据生成方法，还包括：

随着时间的流逝跟踪所述多个动态对象的所述多个图像域坐标；以及

通过对跟踪的所述多个动态对象的所述多个图像域坐标进行滤波，将所述多个动态对象的所述多个图像域坐标的类型转换为浮点。

15.根据权利要求10所述的训练数据生成方法，还包括：基于驾驶图像中的消失线信息，对驾驶图像中的所述多个动态对象的所述多个图像域坐标执行缩放归一化。

16.一种训练数据生成方法，包括：

通过随着时间的流逝从包括多个帧的驾驶图像跟踪静止对象，来存储静止对象的多个图像域坐标；

基于全球定位系统信息，将所述多个图像域坐标之中的当前帧的图像域坐标转换为第一全球世界域坐标；

基于距离传感器的输出和全球定位系统信息，获得多个周围对象的多个第二全球世界域坐标；

通过将第一全球世界域坐标与所述多个第二全球世界域坐标进行比较，来将所述多个周围对象中的一个周围对象与静止对象进行匹配；以及

生成多个训练数据，其中，所述多个训练数据中的每个训练数据包括存储的多个图像域坐标中的一个以及匹配的周围对象的第二世界域坐标。

17.根据权利要求16所述的训练数据生成方法，还包括：

将第一标识符与静止对象相关联；以及

将多个第二标识符与所述多个周围对象相关联，

其中，将所述多个周围对象中的一个周围对象与静止对象进行匹配的步骤包括：将所述多个第二标识符之中的与所述多个周围对象中的一个周围对象相关联的第二标识符和与静止对象相关联的第一标识符进行匹配。

18.根据权利要求16所述的训练数据生成方法，其中，静止对象包括：包括在驾驶图像中的建筑物、标志、交通灯、人行横道、停车线和行车线中的至少一个。

19.根据权利要求16所述的训练数据生成方法，还包括：

随着时间的流逝跟踪静止对象的所述多个图像域坐标；以及

通过对跟踪的静止对象的所述多个图像域坐标进行滤波，将静止对象的所述多个图像域坐标的类型转换为浮点。

20.根据权利要求16所述的训练数据生成方法，还包括：基于驾驶图像中的消失线信息，对驾驶图像中的静止对象的所述多个图像域坐标执行缩放归一化。

21.根据权利要求16所述的训练数据生成方法，还包括：累积地存储距离传感器的输出和全球定位系统信息。