CN109214264A - 一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络 - Google Patents
一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络 Download PDFInfo
- Publication number
- CN109214264A CN109214264A CN201810705661.2A CN201810705661A CN109214264A CN 109214264 A CN109214264 A CN 109214264A CN 201810705661 A CN201810705661 A CN 201810705661A CN 109214264 A CN109214264 A CN 109214264A
- Authority
- CN
- China
- Prior art keywords
- group
- layer
- estimation
- bin
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
- G06T2207/30261—Obstacle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
提供了一种在车辆中用于使用深度学习算法在同一网络中同时执行多个车载感测任务的方法。该方法包括接收来自车辆上的传感器的视觉传感器数据,使用卷积神经网络中的多个特征层根据视觉传感器数据确定特征组,并且使用卷积神经网络根据由多个特征层确定的特征组同时估计检测到的物体的边界框、自由空间边界以及检测到的物体的物体姿态。神经网络可以包括配置为确定视觉传感器数据中的自由空间的边界的多个自由空间估计层,配置为检测图像中的物体并估计围绕检测到的物体的边界框的多个物体检测层,以及配置为估计每个物体的方向的多个物体姿态检测层。
Description
技术领域
本公开一般涉及车辆视觉系统,并且更具体地涉及在车辆视觉系统中使用神经网络。
背景技术
视觉系统可以使车辆能够感知前方道路上的物体和障碍物。视觉系统可以使用神经网络来执行物体检测。神经网络可能是计算密集的。神经网络可对车辆的计算能力具有较高要求。
因此,希望能提供一种对车辆的计算能力具有较低要求的神经网络架构。此外,根据随后的本发明的具体实施方式和所附权利要求书,结合本发明的附图和背景技术,本发明的其他期望的特征和特性将变得显而易见。
发明内容
提供了一种车辆中的处理器实现的方法,用于使用深度学习算法在同一网络中同时执行多个车载感测任务。该方法包括接收来自车辆上的传感器的视觉传感器数据,使用卷积神经网络中的多个特征层根据视觉传感器数据确定特征组,并且使用卷积神经网络从由多个特征层确定的特征组中同时估计检测到的物体的边界框、自由空间边界以及检测到的物体的物体姿态。
神经网络可以包括:多个自由空间估计层,其配置为评估特征组以确定视觉传感器数据中相对于车辆的自由空间的边界并且标记边界;多个物体检测层,其配置为评估特征组以检测图像中的物体并估计围绕检测到的物体的边界框;以及多个物体姿态检测层,其配置为评估特征组以估计每个物体的方向。
神经网络可以进一步包括多个特征层,它们配置为确定作为多个自由空间估计层、多个物体检测层和多个物体姿态检测层的输入进行共享的特征组。
可以使用InceptionNet架构来配置特征层。
可以使用StixelNet架构配置自由空间估计层。
可以使用单次多重检测器(SSD)架构来配置物体检测层。
由物体姿态检测层估计的方向可以是量化值。
该方法可以进一步包括使用循环分段线性(PL)损失函数来训练物体姿态检测层。
使用循环PL损失函数训练物体姿态检测层可以包括将0到360度之间的不同值分配给多个bin中的每一个;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。
该方法可以进一步包括使用估计的边界框、自由空间边界和物体姿态来估计供车辆使用的当前和未来世界状态。
提供了一种用于训练卷积神经网络以使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的处理器实现的方法。卷积神经网络至少包括任务层的第一组、第二组和第三组以及特征层的常用组(通常由任务层的第一、第二和第三组中的每一个使用其输出)。训练任务层的第一、第二和第三组中的每一个以分别执行三个不同图像感测任务中的不同的一个。该方法包括训练任务层的第一组和特征层的组以确定使任务层的第一组的损失函数最小化的任务层的第一组中的和特征层中的系数,训练任务层的第二组,同时对固定为它们最后确定的值的特征层中的系数进行保持,以确定使任务层的第二组的损失函数最小化的任务层的第二组中的系数,训练任务层的第三组,同时对固定为它们最后确定的值的特征层中的系数进行保持,以确定使任务层的第三组的损失函数最小化的任务层的第三组中的系数,并使用这些层中的每一个的最后确定的系数作为重新训练的起点,共同重新训练任务层的第一、第二和第三组以及特征层以确定使任务层的第一、第二和第三组的每一个的损失函数最小化的任务层的第一、第二和第三组的每一个中的以及特征层中的系数。
任务层的第一组可以是可用训练数据的数量最大的任务层的组,或者是可用训练数据具有最好的质量的任务层的组。
任务层的第二组可以是可用训练数据的数量第二大的任务层的组,或者是可用训练数据具有次好的质量的任务层的组。
可以选择多个物体检测层作为任务层的第一组,可以选择多个物体姿态检测层作为任务层的第二组,并且可以选择多个自由空间估计层作为任务层的第三组。
可以使用StixelNet架构来配置自由空间估计层。
可以使用单次多重检测器(SSD)架构来配置物体检测层。
训练物体姿态检测层可以包括确定循环分段线性(PL)损失。确定循环PL损失可以包括将0到360度之间的不同值分配给多个bin中的每一个;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。
提供了一种用于确定由车辆检测到的物体的姿态的车辆中的处理器实现的方法。该方法包括使用循环PL损失函数来训练包括多个物体姿态检测层的卷积神经网络,这些层配置为评估从车辆上的传感器接收的视觉传感器数据导出的特征组以估计检测到的物体的方向。使用循环PL损失函数的训练包括将0到360度之间的不同中心值分配给多个bin中的每一个;向具有最接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。该方法进一步包括使用物体姿态检测层来估计从车辆上的传感器接收到的视觉传感器数据中的检测到的物体的物体姿态。
将估计的姿态分配给两个bin可以包括利用加权因数向具有最接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比。
附图说明
当与附图一起阅读时,根据以下具体实施方式可以最好地理解本公开的各方面,其中相同的附图标记表示相同的元件,并且
图1是根据一些实施例的描绘了示例车辆的框图;
图2是根据一些实施例的可使用深度学习算法同时执行多个车载感测任务的示例卷积神经网络的框图;
图3是根据一些实施例的描绘了用于使用深度学习算法在同一神经网络中同时执行多个车载感测任务的示例处理器实现过程的过程流程图;
图4是根据一些实施例的描绘了用于训练卷积神经网络以使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的示例过程的过程流程图;
图5是根据一些实施例的描绘了用于训练多个姿态估计层的示例架构的框图;并且
图6描绘了根据一些实施例已用从神经网络中同时执行的多个车载感测任务导出的符号进行注释的示例图像。
具体实施方式
以下公开提供了用于实现所提供的主题的不同特征的许多不同实施例或示例。以下具体实施方式本质上仅仅是示例性的,并不旨在限制本发明或本发明的应用和使用。此外,不旨在受到前面背景技术或以下具体实施方式中呈现的任何理论的限制。
本文描述的主题公开了用于使用神经网络在车辆中同时执行多个视觉感测任务的装置、系统、技术和物品。所描述的技术提供了一种网络架构,其中由并发执行的任务层的多个组共享多个特征层。还提供了一种用于训练神经网络的技术。
图1是描绘了示例车辆100的框图。示例车辆100可以包含汽车、卡车、公共汽车、摩托车等。示例车辆100包括示例视觉传感器102和示例视觉系统104。示例视觉传感器102感测车辆100附近的可观察状况,并且可以包含摄像头、激光雷达、雷达等。示例视觉传感器102生成由示例视觉系统104使用的视觉传感器数据。在该示例中,示例视觉传感器102是生成图像数据形式的车辆100外部的场景的视觉图像的摄像头。
示例视觉系统104接收图像数据并处理图像数据以执行多个车载感测任务。示例视觉系统104包含车辆内的一个或多个处理器,通过在计算机可读介质中编码的编程指令来配置它们。示例视觉系统104可以使用在计算机可读介质中编码并由一个或多个处理器执行的深度学习算法来在神经网络中同时执行多个车载感测任务。示例视觉系统104执行的示例车载感测任务可以包括物体检测、自由空间检测和物体姿态检测。车辆100中的其他系统可以使用来自由示例视觉系统104执行的车载感测任务的输出来估计当前和未来的世界状态以例如在自主驾驶模式或半自主驾驶模式中辅助车辆100的操作。
每个车载感测任务可以使用不同的计算技术。每个任务都可以使用深度学习算法并竞争计算资源。深度学习(也称为深层结构学习、分层学习或深度机器学习)是一类机器学习算法,其使用非线性处理单元的多层级联来进行特征提取和转换。每个相继层使用前一层的输出作为输入。
图2是可使用深度学习算法同时执行多个车载感测任务的示例卷积神经网络200的框图。示例神经网络200包括多个卷积特征层202,它们从图像传感器(未示出)接收输入图像204,例如以RGB信号的形式。特征层202配置为确定作为多个上层卷积视觉任务层的输入进行共享的特征组。可以使用InceptionNet架构来配置示例特征层202。
在该示例中,上层视觉任务层包含多个卷积自由空间估计层206、多个卷积物体检测层208,以及多个卷积物体姿态检测层210。多个自由空间估计层206配置为评估特征组以确定输入图像204中相对于车辆的自由空间的边界并标记边界。在该示例中,用Stixel标记边界。多个物体检测层208配置为评估特征组以检测图像204中的物体并且估计围绕检测到的物体的边界框。多个物体姿态检测层210配置为评估特征组以估计每个检测到的物体的方向。对物体的方向(即,物体的姿态)的检测可以使得车辆系统能够预测每个检测到的物体的运动。
经由自由空间估计层206、多个卷积物体检测层208和多个卷积物体姿态检测层210来配置示例卷积神经网络200,以根据由共享的特征层202确定的特征组来同时估计检测到的物体的边界框、自由空间边界和检测到的物体的物体姿态。与在不同的神经网络中分别执行自由空间估计任务、物体检测任务和物体姿态任务的架构相比,示例神经网络200的架构可使得计算资源得到更高效的利用。示例神经网络200可以实现使用InceptionNet架构的特征层、使用单次多重检测器(SSD)架构的物体检测层,以及使用StixelNet架构的自由空间检测层。Wei Liu、Dragomir Anguelov、Dumitru Erhan、Christian Szegedy、Scott Reed、Cheng-Yang Fu和Alexander C.Berg的《SSD:单次多重检测器》(“SSD:SingleShot MultiBox Detector”)中提供了SSD架构的一个示例。
StixelNet架构对图像的柱状部分(例如,Stixel)起作用。StixelNet架构可以包括五层,其中前两层是卷积的并且后三层是完全连接的。StixelNet架构还可以包含确定分段线性概率损失。在授予Dan Levi的题为《使用单个移动摄像头的动态Stixel估计》(“Dynamic stixel estimation using a single moving camera”)的美国专利申请第15/085082号(其通过引用并入本文);授予Dan Levi和Noa Garnett的题为《使用深度学习的Stixel估计和道路场景分割》(“Stixel estimation and road scene segmentationusing deep learning”)的美国专利申请第15/092853号(其通过引用并入本文);以及DanLevi、Noa Garnett、Ethan Fetaya的《StixelNet:用于障碍物检测和道路分割的深度卷积网络》(“StixelNet:A Deep Convolutional Network for Obstacle Detection and RoadSegmentation”,其通过引用并入本文)中提供了使用Stixel和StixelNet架构的示例。
提供姿态估计层的目的是最小化循环分段线性损失函数。测量姿态预测结果与地面真实姿态之间的误差来作为角度差。例如,姿态预测结果可以预测检测到的物体指向15度角,而真实姿态是检测到的物体指向18度角。在这种情况下,角度差是3度。
图3是描绘了用于使用深度学习算法在同一神经网络中同时执行多个车载感测任务的示例处理器实现过程300的过程流程图。示例过程300包括从图像传感器接收输入图像(操作302)。图像传感器可以是提供RGB图像作为输入图像的车载摄像头。
估计来自输入图像的特征组(操作304)。可以根据卷积神经网络中的多个特征层来估计该特征组。可以使用InceptionNet架构来实现该多个特征层。
根据该特征组,同时执行多个视觉检测任务。在该示例中,同时执行的视觉检测任务包括估计检测到的选项的边界框(操作306)、估计自由空间边界(操作308),以及估计检测到的物体的姿态(操作310)。可以由可用SSD架构来配置的卷积神经网络中的多个物体检测层来估计检测到的物体的边界框。可以由可用StixelNet架构来配置的多个自由空间边界检测层来估计卷积神经网络中的自由空间边界。
可以由多个物体姿态检测层来在卷积神经网络中估计物体姿态。可以配置物体姿态检测层来使循环分段线性损失函数最小化。由物体姿态检测层估计的方向可以是量化值。在一个示例中,该方向可以是八个不同的量化值中的一个。可以使用确定循环PL损失的循环分段线性(PL)损失函数来训练物体姿态检测层。确定循环PL损失可以包括将0到360度之间的不同中心值分配给多个bin中的每一个;如果估计的姿态值等于分配给一个bin的值,则将估计的姿态分配给该bin;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。
图4是描绘了用于训练卷积神经网络以使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的示例过程400的过程流程图。在该示例中,卷积神经网络至少包括任务层的第一组、第二组和第三组以及常用的多个特征层,通常由任务层的第一、第二和第三组中的每一个使用常用的多个特征层的输出)。在该示例中,将训练任务层的第一、第二和第三组中的每一个来分别执行三个不同图像感测任务中的不同的一个。
示例过程400包括训练任务层的第一组和特征层(操作402)以确定使任务层的第一组的损失函数最小化的任务层的第一组中的和多个特征层中的系数。完全训练任务层的第一组和多个特征层,就像该神经网络中只含有它们一样。
示例过程400接下来包括训练任务层的第二组,同时对固定为它们最后确定的值的特征层中的系数进行保持(操作404),以确定使任务层的第二组的损失函数最小化的任务层的第二组中的系数。
接下来,示例过程400包括训练任务层的第三组,同时对固定为它们最后确定的值的特征层中的系数进行保持(操作406),以确定使任务层的第三组的损失函数最小化的任务层的第三组中的系数。
最终,使用这些层中的每一个的最后确定的系数作为训练的起点,共同训练任务层的第一、第二和第三组以及特征层(操作408)以确定使任务层的第一、第二和第三组的每一个的损失函数最小化的任务层的第一、第二和第三组的每一个中的以及特征层中的系数。
在示例过程400中,可以选择可用训练数据的数量最大的任务层组作为任务层的第一组。可以选择可用训练数据的数量第二大的任务层组作为任务层的第二组。
在示出的示例中,选择多个物体检测层作为任务层的第一组。选择多个物体检测层来进行训练以检测图像中的物体,并且估计围绕检测到的物体的边界框。
在示出的示例中,选择多个物体姿态检测层作为任务层的第二组。选择多个物体姿态检测层来进行训练以确定检测到的物体的物体姿态。
而且,在示出的示例中,选择多个自由空间估计层作为任务层的第三组。选择多个自由空间估计层来进行训练以评估特征组以确定输入图像中自由空间的边界并标记自由空间边界。
图5是描绘了用于训练多个姿态估计层的示例架构500的框图。向姿态估计层提供了来自图像的特征数据,并且操作姿态估计层来估计图像中的物体的预测姿态502。将预测姿态502与真实姿态信息504进行比较以估计循环分段线性损失函数506中的误差。分段线性损失函数506被用于训练物体姿态检测层508。向物体姿态检测层508提供来自另一个图像的特征数据,并且操作物体姿态检测层来估计新图像中的物体的预测姿态502。再一次,将预测姿态502与真实姿态信息504进行比较以估计循环分段线性损失函数506中的误差,并进而使用分段线性损失函数506来训练物体姿态检测层508。该训练过程可以重复,直到循环分段线性损失函数506的误差估计收敛到可接受的水平。
示例循环分段线性损失函数506类似于分段线性损失函数,因为它们都将测量结果分类到一个或两个bin中。用于训练示例姿态检测层508的示例循环分段线性损失函数506涉及将姿态估计结果分配到bin中。因为将物体的姿态估计为相对于车辆上的点的方向,所以姿态可以具有在0到360度之间的值。在该示例中,提供了用于训练示例姿态检测层508的循环分段线性损失函数506、多个bin,并且为每个bin分配了0到360度之间的不同值。
使用示例循环分段线性损失函数506来估计误差可以涉及将估计的姿态分配到一个或两个bin中。如果姿态估计结果的值等于bin的值,则将姿态估计结果分配给具有相同值的那个bin。如果姿态估计结果具有两个bin值之间的值,则将姿态估计结果分配给具有与姿态估计结果最接近的值的两个bin。给两个bin分配时可以应用加权因数。应用的加权因数可以与估计的姿态值与bin中心值的距离成反比。
可以通过从真实姿态中减去物体的估计的姿态来计算误差。作为示例,物体的真实姿态可能是17度,估计结果可能是13度,而误差可能表示为4度。当姿态接近0度/360度跨越点时,可能不能直截了当地进行误差计算。作为示例,如果真实的姿态是358度,估计的姿态是4度,那么误差可能只有6度而不是354度。为了解决这个问题,示例循环分段线性损失函数506可允许将估计的姿态放置在具有最接近360度的值的bin中和具有最接近0度的值的bin中。
因此,使用示例循环分段线性损失函数506来训练示例姿态检测层508可以涉及将0度到360度之间的不同值分配给多个bin中的每一个;如果估计的姿态值等于分配给一个bin的值,则将估计的姿态分配给该bin;如果估计的姿态值落在分配给两个bin的值之间,则将估计的姿态分配给这两个bin;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。给两个bin分配时可以应用加权因数。应用的加权因数可以与估计的姿态值与bin中心值的距离成反比。
在图6中描绘了已用从使用深度学习算法在神经网络中同时执行的多个车载感测任务导出的符号进行注释的示例图像600。示例图像600已经用围绕图像600中的检测到的物体的由物体检测层估计的边界框602、定义图像600中的自由空间的边界的由自由空间估计层估计的Stixel 604,以及标识图像600中的检测到的物体的姿态方向的由物体姿态检测层估计的箭头606进行了注释。
本文描述了用于使用神经网络在车辆中同时执行多个视觉感测任务的技术。所描述的技术提供了一种网络架构,其中由并发执行的任务层的多个组共享多个特征层。还提供了一种用于训练神经网络的技术。
在一个实施例中,提供了一种车辆中的处理器实现的方法,用于使用深度学习算法在同一网络中同时执行多个车载感测任务。该方法包含接收来自车辆上的传感器的视觉传感器数据,使用卷积神经网络中的多个特征层根据视觉传感器数据确定特征组,并且使用卷积神经网络根据由多个特征层确定的特征组同时估计检测到的物体的边界框、自由空间边界以及检测到的物体的物体姿态。
这些方面和其他实施例可以包括以下特征中的一个或多个。神经网络可以包含:多个自由空间估计层,其配置为评估特征组以确定视觉传感器数据中相对于车辆的自由空间的边界并且标记边界;多个物体检测层,其配置为评估特征组以检测图像中的物体并估计围绕检测到的物体的边界框;以及多个物体姿态检测层,其配置为评估特征组以估计每个物体的方向。神经网络可以进一步包含多个特征层,它们配置为确定作为多个自由空间估计层、多个物体检测层和多个物体姿态检测层的输入进行共享的特征组。可以使用InceptionNet架构来配置特征层。可以使用StixelNet架构来配置自由空间估计层。StixelNet架构可以包含五层,其中前两层是卷积的并且后三层是完全连接的。训练StixelNet架构可以包含确定分段线性概率损失。可以使用单次多重检测器(SSD)架构来配置物体检测层。由物体姿态检测层估计的方向可以是量化值。该方向可以包含八个不同的量化值中的一个。该方法可以进一步包含使用循环分段线性(PL)损失函数来训练物体姿态检测层。使用循环PL损失函数训练物体姿态检测层可以包含将0到360度之间的不同值分配给多个bin中的每一个;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。bin的数量可以等于八。该方法可以进一步包含使用估计的边界框、自由空间边界和物体姿态来估计供车辆使用的当前和未来世界状态。
在另一个实施例中,提供了一种用于训练卷积神经网络以使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的处理器实现的方法。卷积神经网络至少包含任务层的第一组、第二组和第三组以及特征层的常用组,通常由任务层的第一、第二和第三组中的每一个使用特征层的常用组的输出。将训练任务层的第一、第二和第三组中的每一个来分别执行三个不同图像感测任务中的不同的一个。该方法包含训练任务层的第一组和特征层的组以确定使任务层的第一组的损失函数最小化的任务层的第一组中的和特征层中的系数,训练任务层的第二组,同时对固定为它们最后确定的值的特征层中的系数进行保持,以确定使任务层的第二组的损失函数最小化的任务层的第二组中的系数,训练任务层的第三组,同时对固定为它们最后确定的值的特征层中的系数进行保持,以确定使任务层的第三组的损失函数最小化的任务层的第三组中的系数,并使用这些层中的每一个的最后确定的系数作为重新训练的起点,共同重新训练任务层的第一、第二和第三组以及特征层以确定使任务层的第一、第二和第三组的每一个的损失函数最小化的任务层的第一、第二和第三组的每一个中的以及特征层中的系数。
这些方面和其他实施例可以包括以下特征中的一个或多个。任务层的第一组可以是可用训练数据的数量最大的任务层的组,或者是可用训练数据具有最好的质量的任务层的组。任务层的第二组可以是可用训练数据的数量第二大的任务层的组,或者是可用训练数据具有次好的质量的任务层的组。可以选择多个物体检测层作为任务层的第一组,可以选择多个物体姿态检测层作为任务层的第二组,并且可以选择多个自由空间估计层作为任务层的第三组。可以使用StixelNet架构来配置自由空间估计层。可以使用单次多重检测器(SSD)架构来配置物体检测层。训练物体姿态检测层可以包含确定循环分段线性(PL)损失。确定循环PL损失可以包含将0到360度之间的不同值分配给多个bin中的每一个;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。
在另一个实施例中,提供了一种用于同时在视觉传感器数据上同时执行自由空间估计、物体检测和物体姿态估计的车辆中的处理器实现的感测系统。该感测系统包含一个或多个处理器,以及编码有可配置为使得一个或多个处理器执行方法的编程指令的非暂时性计算机可读介质。该方法包含接收来自车辆上的传感器的视觉传感器数据,使用卷积神经网络中的多个特征层根据视觉传感器数据确定特征组,并且使用卷积神经网络进行:使用卷积神经网络中的多个物体检测层同时估计检测到的物体的边界框,多个物体检测层配置为评估特征组以检测图像中的物体并估计围绕检测到的物体的边界框;使用卷积神经网络中的多个自由空间估计层同时估计自由空间边界,多个自由空间估计层配置为评估特征组以确定视觉传感器数据中的相对于车辆的自由空间的边界并且标记边界;并且使用卷积神经网络中的多个物体姿态检测层同时估计检测到的物体的物体姿态,多个物体姿态检测层配置为评估特征组以估计每个物体的方向。
这些方面和其他实施例可以包括以下特征中的一个或多个。该方法可以进一步包含使用估计的边界框、自由空间边界和物体姿态来估计供车辆使用的当前和未来世界状态。
在另一个实施例中,提供了一种用于确定由车辆检测到的物体的姿态的车辆中的处理器实现的方法。该方法包含使用循环PL损失函数来训练卷积神经网络,该卷积神经网络包括多个物体姿态检测层,它们配置为评估从车辆上的传感器接收的视觉传感器数据导出的特征组以估计检测到的物体的方向。使用循环PL损失函数的训练包含将0到360度之间的不同中心值分配给多个bin中的每一个;向具有最接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。该方法进一步包含使用物体姿态检测层来估计从车辆上的传感器接收到的视觉传感器数据中的检测到的物体的物体姿态。
这些方面和其他实施例可以包括以下特征中的一个或多个。将估计的姿态分配给两个bin可以包含利用加权因数向具有最接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比。
前面概述了若干实施例的特征,使得本领域技术人员可以更好地理解本公开的各个方面。本领域技术人员应当理解,他们可易于使用本公开作为设计或更改用于贯彻本文介绍的实施例的相同目的和/或实现相同优点的其他过程和结构的基础。本领域技术人员应当认识到,这样的等同结构不脱离本公开的精神和范围,并且他们可在不脱离本公开的精神和范围的情况下在本文中进行各种改变、替换和变化。
Claims (10)
1.一种在车辆中用于使用深度学习算法在同一网络中同时执行多个车载感测任务的处理器实现的方法,所述方法包含:
接收来自所述车辆上的传感器的视觉传感器数据;
使用卷积神经网络中的多个特征层根据所述视觉传感器数据确定特征组;并且
使用所述卷积神经网络根据由所述多个特征层确定的所述特征组同时估计检测到的物体的边界框、自由空间边界和检测到的物体的物体姿态。
2.根据权利要求1所述的方法,其中所述神经网络包含:
多个自由空间估计层,其配置为评估所述特征组以确定所述视觉传感器数据中相对于所述车辆的所述自由空间的边界并且标记所述边界;
多个物体检测层,其配置为评估所述特征组以检测图像中的物体并估计围绕所述检测到的物体的边界框;以及
多个物体姿态检测层,其配置为评估所述特征组以估计每个物体的方向。
3.根据权利要求2所述的方法,其中:
所述神经网络可以进一步包含配置为确定作为所述多个自由空间估计层、所述多个物体检测层和所述多个物体姿态检测层的输入进行共享的所述特征组的多个特征层;并且
使用InceptionNet架构来配置所述特征层。
4.根据权利要求2所述的方法,其中使用StixelNet架构来配置所述自由空间估计层。
5.根据权利要求2所述的方法,其中使用单次多重检测器(SSD)架构来配置所述物体检测层。
6.根据权利要求2所述的方法,进一步包含使用循环分段线性(PL)损失函数来训练所述物体姿态检测层,并且其中使用循环PL损失函数来训练所述物体姿态检测层包含:
将0到360度之间的不同值分配给多个bin中的每一个;
利用加权因数向具有更接近估计的姿态值的分配的中心值的所述多个bin中的两个bin分配估计的姿态,其中所述加权因数与所述估计的姿态值和所述bin中心值的距离成反比;并且
如果所述估计的姿态值高于分配给最高值bin的值,或者如果所述估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给所述最高值bin和所述最低值bin这两者。
7.一种用于训练卷积神经网络来使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的处理器实现的方法,所述卷积神经网络至少包含任务层的第一组、第二组和第三组以及特征层的常用组,通常由所述任务层的第一、第二和第三组中的每一个使用特征层的常用组的输出,将所述任务层的第一、第二和第三组中的每一个训练为分别执行三个不同图像感测任务中的不同的一个,所述方法包含:
训练所述任务层的第一组和所述特征层的组以确定使所述任务层的第一组的损失函数最小化的所述任务层的第一组中的和所述特征层中的系数;
训练所述任务层的第二组,同时保持所述特征层中的系数固定为它们最后确定的值,以确定使所述任务层的第二组的损失函数最小化的所述任务层的第二组中的系数;
训练所述任务层的第三组,同时保持所述特征层中的系数固定为它们最后确定的值,以确定使所述任务层的第三组的损失函数最小化的所述任务层的第三组中的系数;并且
使用这些层中的每一个的最后确定的系数作为重新训练的起点,共同重新训练所述任务层的第一、第二和第三组以及所述特征层,以确定使所述任务层的第一、第二和第三组的每一个的损失函数最小化的所述任务层的第一、第二和第三组的每一个中的以及所述特征层中的系数。
8.根据权利要求7所述的方法,其中所述任务层的第一组可以是可用训练数据的数量最大的任务层的组,或者是可用训练数据具有最好的质量的任务层的组;并且其中所述任务层的第二组可以是可用训练数据的数量第二大的任务层的组,或者是可用训练数据具有次好的质量的任务层的组。
9.一种在车辆中用于确定由所述车辆检测到的物体的姿态的处理器实现的方法,所述方法包含:
使用循环PL损失函数来训练卷积神经网络,所述卷积神经网络包括多个物体姿态检测层,其配置为评估从所述车辆上的传感器接收的视觉传感器数据导出的特征组以估计检测到的物体的方向;所述使用所述循环PL损失函数的训练包含:
将0到360度之间的不同中心值分配给多个bin中的每一个;
向具有最接近估计的姿态值的分配的中心值的所述多个bin中的两个bin分配估计的姿态;并且
如果所述估计的姿态值高于分配给所述最高值bin的值,或者如果所述估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给所述最高值bin和所述最低值bin这两者;并且
使用所述物体姿态检测层来估计从所述车辆上的所述传感器接收到的视觉传感器数据中的检测到的物体的物体姿态。
10.根据权利要求9所述的方法,其中将估计的姿态分配给所述两个bin包含:
利用加权因数向具有最接近所述估计的姿态值的分配的中心值的所述多个bin中的所述两个bin分配估计的姿态,其中所述加权因数与所述估计的姿态值和所述bin中心值的距离成反比。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/642816 | 2017-07-06 | ||
US15/642,816 US10474908B2 (en) | 2017-07-06 | 2017-07-06 | Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109214264A true CN109214264A (zh) | 2019-01-15 |
Family
ID=64666482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810705661.2A Pending CN109214264A (zh) | 2017-07-06 | 2018-07-02 | 一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10474908B2 (zh) |
CN (1) | CN109214264A (zh) |
DE (1) | DE102018116111B4 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11790228B2 (en) | 2020-01-20 | 2023-10-17 | Samsung Electronics Co., Ltd. | Methods and systems for performing tasks on media using attribute specific joint learning |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
DE102017120729A1 (de) * | 2017-09-08 | 2019-03-14 | Connaught Electronics Ltd. | Freiraumdetektion in einem Fahrerassistenzsystem eines Kraftfahrzeugs mit einem neuralen Netzwerk |
US10937189B2 (en) * | 2018-01-18 | 2021-03-02 | Samsung Electronics Co., Ltd. | Pose estimation method, method of displaying virtual object using estimated pose, and apparatuses performing the same |
US10345822B1 (en) | 2018-01-26 | 2019-07-09 | Ford Global Technologies, Llc | Cognitive mapping for vehicles |
US11282389B2 (en) * | 2018-02-20 | 2022-03-22 | Nortek Security & Control Llc | Pedestrian detection for vehicle driving assistance |
WO2020055767A1 (en) * | 2018-09-10 | 2020-03-19 | Mapbox, Inc. | Mapping objects detected in images to geographic positions |
JP7203563B2 (ja) * | 2018-10-29 | 2023-01-13 | 日立Astemo株式会社 | 移動体挙動予測装置 |
US10937173B2 (en) | 2018-11-15 | 2021-03-02 | Qualcomm Incorporated | Predicting subject body poses and subject movement intent using probabilistic generative models |
CN109816725B (zh) * | 2019-01-17 | 2023-03-14 | 合肥哈工慧拣智能科技有限公司 | 一种基于深度学习的单目相机物体位姿估计方法及装置 |
US10346693B1 (en) * | 2019-01-22 | 2019-07-09 | StradVision, Inc. | Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same |
US10402692B1 (en) * | 2019-01-22 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same |
US10387753B1 (en) * | 2019-01-23 | 2019-08-20 | StradVision, Inc. | Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same |
US10325185B1 (en) * | 2019-01-23 | 2019-06-18 | StradVision, Inc. | Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same |
US10395140B1 (en) * | 2019-01-23 | 2019-08-27 | StradVision, Inc. | Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same |
US10325352B1 (en) * | 2019-01-23 | 2019-06-18 | StradVision, Inc. | Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization |
US10496899B1 (en) * | 2019-01-25 | 2019-12-03 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same |
US10373323B1 (en) * | 2019-01-29 | 2019-08-06 | StradVision, Inc. | Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles |
US10635938B1 (en) * | 2019-01-30 | 2020-04-28 | StradVision, Inc. | Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same |
US10373027B1 (en) * | 2019-01-30 | 2019-08-06 | StradVision, Inc. | Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same |
US10373004B1 (en) * | 2019-01-31 | 2019-08-06 | StradVision, Inc. | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image |
US10713815B1 (en) * | 2019-01-31 | 2020-07-14 | StradVision, Inc. | Method and device for supporting administrators to processes of object detectors to provide logical driving |
US10423840B1 (en) * | 2019-01-31 | 2019-09-24 | StradVision, Inc. | Post-processing method and device for detecting lanes to plan the drive path of autonomous vehicle by using segmentation score map and clustering map |
EP3716137A1 (en) * | 2019-03-27 | 2020-09-30 | Visteon Global Technologies, Inc. | Systems and methods for estimating the position of a target vehicle |
DE102019115327A1 (de) * | 2019-06-06 | 2020-12-10 | Valeo Schalter Und Sensoren Gmbh | Linienmarkierungsidentifizierung unter Verwendung von LiDAR |
CN110414337B (zh) * | 2019-06-21 | 2023-12-05 | 上海汽车工业(集团)总公司 | 目标姿态检测系统及其检测方法 |
CN112307833A (zh) * | 2019-07-31 | 2021-02-02 | 浙江商汤科技开发有限公司 | 识别智能行驶设备的行驶状态的方法及装置、设备 |
CN110913137A (zh) * | 2019-11-27 | 2020-03-24 | 深圳市瓴鹰智能科技有限公司 | 手势控制与人物追踪自拍杆系统及控制方法 |
JP7490359B2 (ja) * | 2019-12-24 | 2024-05-27 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11390286B2 (en) * | 2020-03-04 | 2022-07-19 | GM Global Technology Operations LLC | System and process for end to end prediction of lane detection uncertainty |
DE102020209985A1 (de) | 2020-08-06 | 2022-02-10 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Ermitteln einer Umfeldinformation |
US12008787B2 (en) | 2021-07-20 | 2024-06-11 | Ford Global Technologies, Llc | Object pose estimation |
US12026956B1 (en) * | 2021-10-28 | 2024-07-02 | Zoox, Inc. | Object bounding contours based on image data |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160104049A1 (en) * | 2014-10-14 | 2016-04-14 | Here Global B.V. | Lateral Sign Placement Determination |
CN105740906A (zh) * | 2016-01-29 | 2016-07-06 | 中国科学院重庆绿色智能技术研究院 | 一种基于深度学习的车辆多属性联合分析方法 |
US20160217335A1 (en) * | 2009-02-27 | 2016-07-28 | GM Global Technology Operations LLC | Stixel estimation and road scene segmentation using deep learning |
CN105975915A (zh) * | 2016-04-28 | 2016-09-28 | 大连理工大学 | 一种基于多任务卷积神经网络的前方车辆参数识别方法 |
US20160321522A1 (en) * | 2015-04-30 | 2016-11-03 | Canon Kabushiki Kaisha | Devices, systems, and methods for pairwise multi-task feature learning |
US20160358043A1 (en) * | 2015-06-05 | 2016-12-08 | At&T Intellectual Property I, L.P. | Hash codes for images |
CN106470886A (zh) * | 2014-06-27 | 2017-03-01 | 宝马股份公司 | 用于建立运输工具的周围环境模型的方法 |
CN106599869A (zh) * | 2016-12-22 | 2017-04-26 | 安徽大学 | 一种基于多任务卷积神经网络的车辆属性识别方法 |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7418346B2 (en) * | 1997-10-22 | 2008-08-26 | Intelligent Technologies International, Inc. | Collision avoidance methods and systems |
US6768944B2 (en) * | 2002-04-09 | 2004-07-27 | Intelligent Technologies International, Inc. | Method and system for controlling a vehicle |
US5987378A (en) * | 1996-10-24 | 1999-11-16 | Trimble Navigation Limited | Vehicle tracker mileage-time monitor and calibrator |
JP4486594B2 (ja) * | 2002-11-07 | 2010-06-23 | 本田技研工業株式会社 | 確率的外観集合体を使用するビデオに基づく顔認識 |
US7113185B2 (en) * | 2002-11-14 | 2006-09-26 | Microsoft Corporation | System and method for automatically learning flexible sprites in video layers |
US20040234167A1 (en) * | 2003-05-20 | 2004-11-25 | Frank Pipitone | Technique for estimating the pose of surface shapes using tripod operators |
KR100946935B1 (ko) * | 2003-06-02 | 2010-03-09 | 삼성전자주식회사 | 이동체의 위치검출장치 |
US7236615B2 (en) * | 2004-04-21 | 2007-06-26 | Nec Laboratories America, Inc. | Synergistic face detection and pose estimation with energy-based models |
US20050267658A1 (en) * | 2004-05-13 | 2005-12-01 | Yong Yuan | Intelligent and efficient system and/or method for automatic notification and/or enforcement of legal traffic speed limits and spots |
JP4481889B2 (ja) * | 2005-06-28 | 2010-06-16 | キヤノン株式会社 | データ記録装置及びその方法、プログラム、記録媒体 |
US8274715B2 (en) * | 2005-07-28 | 2012-09-25 | Omnivision Technologies, Inc. | Processing color and panchromatic pixels |
JP4797794B2 (ja) * | 2006-05-24 | 2011-10-19 | 日産自動車株式会社 | 歩行者検出装置および歩行者検出方法 |
JP4709723B2 (ja) * | 2006-10-27 | 2011-06-22 | 株式会社東芝 | 姿勢推定装置及びその方法 |
WO2008073962A2 (en) * | 2006-12-12 | 2008-06-19 | Rutgers, The State University Of New Jersey | System and method for detecting and tracking features in images |
WO2009094661A1 (en) * | 2008-01-24 | 2009-07-30 | The Trustees Of Columbia University In The City Of New York | Methods, systems, and media for swapping faces in images |
DE102009009047A1 (de) * | 2009-02-16 | 2010-08-19 | Daimler Ag | Verfahren zur Objektdetektion |
US8912978B2 (en) * | 2009-04-02 | 2014-12-16 | GM Global Technology Operations LLC | Dynamic vehicle system information on full windshield head-up display |
US8301374B2 (en) * | 2009-08-25 | 2012-10-30 | Southwest Research Institute | Position estimation for ground vehicle navigation based on landmark identification/yaw rate and perception of landmarks |
US9562778B2 (en) * | 2011-06-03 | 2017-02-07 | Robert Bosch Gmbh | Combined radar and GPS localization system |
DE102011111440A1 (de) * | 2011-08-30 | 2012-06-28 | Daimler Ag | Verfahren zur Umgebungsrepräsentation |
US8442321B1 (en) * | 2011-09-14 | 2013-05-14 | Google Inc. | Object recognition in images |
CN103324938A (zh) * | 2012-03-21 | 2013-09-25 | 日电(中国)有限公司 | 训练姿态分类器及物体分类器、物体检测的方法及装置 |
US8948454B2 (en) * | 2013-01-02 | 2015-02-03 | International Business Machines Corporation | Boosting object detection performance in videos |
WO2014130854A1 (en) * | 2013-02-21 | 2014-08-28 | Regents Of The Univesity Of Minnesota | Extrinsic parameter calibration of a vision-aided inertial navigation system |
US9185402B2 (en) * | 2013-04-23 | 2015-11-10 | Xerox Corporation | Traffic camera calibration update utilizing scene analysis |
US9280827B2 (en) * | 2013-07-03 | 2016-03-08 | Mitsubishi Electric Research Laboratories, Inc. | Method for determining object poses using weighted features |
US9373057B1 (en) * | 2013-11-01 | 2016-06-21 | Google Inc. | Training a neural network to detect objects in images |
US9305219B2 (en) * | 2014-01-23 | 2016-04-05 | Mitsubishi Electric Research Laboratories, Inc. | Method for estimating free space using a camera system |
US9568611B2 (en) * | 2014-08-20 | 2017-02-14 | Nec Corporation | Detecting objects obstructing a driver's view of a road |
US9665802B2 (en) * | 2014-11-13 | 2017-05-30 | Nec Corporation | Object-centric fine-grained image classification |
EP3845427A1 (en) * | 2015-02-10 | 2021-07-07 | Mobileye Vision Technologies Ltd. | Sparse map for autonomous vehicle navigation |
US9811756B2 (en) * | 2015-02-23 | 2017-11-07 | Mitsubishi Electric Research Laboratories, Inc. | Method for labeling images of street scenes |
US9922271B2 (en) * | 2015-03-20 | 2018-03-20 | Netra, Inc. | Object detection and classification |
US9928430B2 (en) | 2015-04-10 | 2018-03-27 | GM Global Technology Operations LLC | Dynamic stixel estimation using a single moving camera |
US9286524B1 (en) * | 2015-04-15 | 2016-03-15 | Toyota Motor Engineering & Manufacturing North America, Inc. | Multi-task deep convolutional neural networks for efficient and robust traffic lane detection |
US9582895B2 (en) * | 2015-05-22 | 2017-02-28 | International Business Machines Corporation | Real-time object analysis with occlusion handling |
US10389746B2 (en) * | 2015-09-28 | 2019-08-20 | Microsoft Technology Licensing, Llc | Multi-tenant environment using pre-readied trust boundary components |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
EP3179407B1 (en) * | 2015-12-07 | 2022-07-13 | Dassault Systèmes | Recognition of a 3d modeled object from a 2d image |
US10318008B2 (en) * | 2015-12-15 | 2019-06-11 | Purdue Research Foundation | Method and system for hand pose detection |
US10140522B2 (en) * | 2015-12-16 | 2018-11-27 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
US10489691B2 (en) * | 2016-01-15 | 2019-11-26 | Ford Global Technologies, Llc | Fixation generation for machine learning |
US10019652B2 (en) * | 2016-02-23 | 2018-07-10 | Xerox Corporation | Generating a virtual world to assess real-world video analysis performance |
US10572777B2 (en) * | 2016-03-11 | 2020-02-25 | Nec Corporation | Deep deformation network for object landmark localization |
KR101833359B1 (ko) * | 2016-03-22 | 2018-02-28 | 고려대학교 산학협력단 | 차량의 외부 영상 빅데이터를 이용한 교통 정보 수집 방법 및 장치 |
GB2549554A (en) * | 2016-04-21 | 2017-10-25 | Ramot At Tel-Aviv Univ Ltd | Method and system for detecting an object in an image |
US10126141B2 (en) * | 2016-05-02 | 2018-11-13 | Google Llc | Systems and methods for using real-time imagery in navigation |
US10593065B2 (en) * | 2016-07-27 | 2020-03-17 | Htc Corporation | Method and device for camera pose estimation |
US10482379B2 (en) * | 2016-07-29 | 2019-11-19 | Google Llc | Systems and methods to perform machine learning with feedback consistency |
KR20190062390A (ko) * | 2016-10-11 | 2019-06-05 | 모빌아이 비젼 테크놀로지스 엘티디. | 검출된 배리어에 기반한 차량의 항법 |
US10235771B2 (en) * | 2016-11-11 | 2019-03-19 | Qualcomm Incorporated | Methods and systems of performing object pose estimation |
US20180136332A1 (en) * | 2016-11-15 | 2018-05-17 | Wheego Electric Cars, Inc. | Method and system to annotate objects and determine distances to objects in an image |
KR20180060784A (ko) * | 2016-11-29 | 2018-06-07 | 삼성전자주식회사 | 비정상 객체 판단 방법 및 장치 |
US20180239969A1 (en) * | 2017-02-23 | 2018-08-23 | Ford Global Technologies, Llc | Free Space Detection Using Monocular Camera and Deep Learning |
US10373369B2 (en) * | 2017-03-16 | 2019-08-06 | Qualcomm Technologies, Inc. | Three-dimensional pose estimation of symmetrical objects |
US10282999B2 (en) * | 2017-03-17 | 2019-05-07 | GM Global Technology Operations LLC | Road construction detection systems and methods |
US10242282B2 (en) * | 2017-03-20 | 2019-03-26 | Conduent Business Services, Llc | Video redaction method and system |
US20180276986A1 (en) * | 2017-03-22 | 2018-09-27 | Toyota Research Institute, Inc. | Vehicle-to-human communication in an autonomous vehicle operation |
US10360732B2 (en) * | 2017-03-23 | 2019-07-23 | Intel Corporation | Method and system of determining object positions for image processing using wireless network angle of transmission |
US10296828B2 (en) * | 2017-04-05 | 2019-05-21 | Here Global B.V. | Learning a similarity measure for vision-based localization on a high definition (HD) map |
US10621725B2 (en) * | 2017-04-12 | 2020-04-14 | Here Global B.V. | Small object detection from a large image |
US10460180B2 (en) * | 2017-04-20 | 2019-10-29 | GM Global Technology Operations LLC | Systems and methods for visual classification with region proposals |
US10740627B2 (en) * | 2017-05-10 | 2020-08-11 | Fotonation Limited | Multi-camera vision system and method of monitoring |
US20180349746A1 (en) * | 2017-05-31 | 2018-12-06 | Uber Technologies, Inc. | Top-View Lidar-Based Object Detection |
US10310087B2 (en) * | 2017-05-31 | 2019-06-04 | Uber Technologies, Inc. | Range-view LIDAR-based object detection |
US10559140B2 (en) * | 2017-06-16 | 2020-02-11 | Uatc, Llc | Systems and methods to obtain feedback in response to autonomous vehicle failure events |
-
2017
- 2017-07-06 US US15/642,816 patent/US10474908B2/en active Active
-
2018
- 2018-07-02 CN CN201810705661.2A patent/CN109214264A/zh active Pending
- 2018-07-03 DE DE102018116111.5A patent/DE102018116111B4/de active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217335A1 (en) * | 2009-02-27 | 2016-07-28 | GM Global Technology Operations LLC | Stixel estimation and road scene segmentation using deep learning |
CN106470886A (zh) * | 2014-06-27 | 2017-03-01 | 宝马股份公司 | 用于建立运输工具的周围环境模型的方法 |
US20160104049A1 (en) * | 2014-10-14 | 2016-04-14 | Here Global B.V. | Lateral Sign Placement Determination |
US20160321522A1 (en) * | 2015-04-30 | 2016-11-03 | Canon Kabushiki Kaisha | Devices, systems, and methods for pairwise multi-task feature learning |
US20160358043A1 (en) * | 2015-06-05 | 2016-12-08 | At&T Intellectual Property I, L.P. | Hash codes for images |
CN105740906A (zh) * | 2016-01-29 | 2016-07-06 | 中国科学院重庆绿色智能技术研究院 | 一种基于深度学习的车辆多属性联合分析方法 |
CN105975915A (zh) * | 2016-04-28 | 2016-09-28 | 大连理工大学 | 一种基于多任务卷积神经网络的前方车辆参数识别方法 |
CN106599869A (zh) * | 2016-12-22 | 2017-04-26 | 安徽大学 | 一种基于多任务卷积神经网络的车辆属性识别方法 |
Non-Patent Citations (5)
Title |
---|
ARSALAN MOUSAVIAN等: "3D Bounding Box Estimation Using Deep Learning and Geometry", 《ARXIV:1612.00496V2》 * |
DAN LEVI等: "StixelNet: A Deep Convolutional Network for Obstacle Detection and Road Segmentation", 《BRITISH MACHINE VISION CONFERENCE》 * |
YAN_JOY: "Tensorflow 多任务学习", 《CSDN博客》 * |
ZHUOQUN HUO等: "Vehicle type classification and attribute prediction using multi-task RCNN", 《2016 9TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS》 * |
邵蔚元等: "多任务学习及卷积神经网络在人脸识别中的应用", 《计算机工程与应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11790228B2 (en) | 2020-01-20 | 2023-10-17 | Samsung Electronics Co., Ltd. | Methods and systems for performing tasks on media using attribute specific joint learning |
Also Published As
Publication number | Publication date |
---|---|
US20190012548A1 (en) | 2019-01-10 |
DE102018116111A1 (de) | 2019-01-10 |
DE102018116111B4 (de) | 2022-09-01 |
US10474908B2 (en) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109214264A (zh) | 一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络 | |
CN107038723B (zh) | 棒状像素估计方法和系统 | |
WO2020094033A1 (en) | Method and system for converting point cloud data for use with 2d convolutional neural networks | |
CN107230218B (zh) | 用于生成对从安装在运载工具上的摄像机捕捉的图像导出的估计的置信度测量的方法和设备 | |
CN114723955B (zh) | 图像处理方法、装置、设备和计算机可读存储介质 | |
CN111223135A (zh) | 通过使用雷达和运动数据的单目相机来增强距离估计的系统和方法 | |
US20190065824A1 (en) | Spatial data analysis | |
JP6574611B2 (ja) | 立体画像に基づいて距離情報を求めるためのセンサシステム | |
CN109100100A (zh) | 刚性测定装置以及刚性测定方法 | |
KR20190131207A (ko) | 센서 품질 저하에 강인한 딥러닝 기반 카메라, 라이더 센서 융합 인지 방법 및 시스템 | |
KR101030317B1 (ko) | 스테레오 비전을 이용하여 장애물을 추적하는 장치 및 방법 | |
WO2021134357A1 (zh) | 感知信息处理方法、装置、计算机设备和存储介质 | |
EP3703008A1 (en) | Object detection and 3d box fitting | |
CN112967388A (zh) | 三维时序图像神经网络模型的训练方法和装置 | |
CN115082874A (zh) | 用于车辆中深度估计的系统和方法 | |
CN106080397A (zh) | 自适应巡航系统及车载设备 | |
CN115249066A (zh) | 分位数神经网络 | |
CN118071999B (zh) | 一种基于采样自适应的连续NeRF的多视角3D目标检测方法 | |
EP3076368A1 (en) | A system and method for object dimension estimation using 3d models | |
Badino et al. | Stereo-based free space computation in complex traffic scenarios | |
CN113610900B (zh) | 车尾序列尺度变化预测方法、装置和计算机设备 | |
CN112949761A (zh) | 三维图像神经网络模型的训练方法、装置和计算机设备 | |
Akepitaktam et al. | Object distance estimation with machine learning algorithms for stereo vision | |
JP4200165B2 (ja) | ステレオカメラによるオブジェクトの分類のための方法 | |
CN113869100A (zh) | 在相对于对象大小的等变性或不变性下在图像中识别对象 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |