CN109214264A - 一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络 - Google Patents

一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络 Download PDF

Info

Publication number
CN109214264A
CN109214264A CN201810705661.2A CN201810705661A CN109214264A CN 109214264 A CN109214264 A CN 109214264A CN 201810705661 A CN201810705661 A CN 201810705661A CN 109214264 A CN109214264 A CN 109214264A
Authority
CN
China
Prior art keywords
group
layer
estimation
bin
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810705661.2A
Other languages
English (en)
Inventor
D·李维
N·加尼特
E·费塔亚
S·奥龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN109214264A publication Critical patent/CN109214264A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种在车辆中用于使用深度学习算法在同一网络中同时执行多个车载感测任务的方法。该方法包括接收来自车辆上的传感器的视觉传感器数据,使用卷积神经网络中的多个特征层根据视觉传感器数据确定特征组,并且使用卷积神经网络根据由多个特征层确定的特征组同时估计检测到的物体的边界框、自由空间边界以及检测到的物体的物体姿态。神经网络可以包括配置为确定视觉传感器数据中的自由空间的边界的多个自由空间估计层,配置为检测图像中的物体并估计围绕检测到的物体的边界框的多个物体检测层,以及配置为估计每个物体的方向的多个物体姿态检测层。

Description

一种用于自由空间估计、物体检测和物体姿态估计的统一深 度卷积神经网络
技术领域
本公开一般涉及车辆视觉系统,并且更具体地涉及在车辆视觉系统中使用神经网络。
背景技术
视觉系统可以使车辆能够感知前方道路上的物体和障碍物。视觉系统可以使用神经网络来执行物体检测。神经网络可能是计算密集的。神经网络可对车辆的计算能力具有较高要求。
因此,希望能提供一种对车辆的计算能力具有较低要求的神经网络架构。此外,根据随后的本发明的具体实施方式和所附权利要求书,结合本发明的附图和背景技术,本发明的其他期望的特征和特性将变得显而易见。
发明内容
提供了一种车辆中的处理器实现的方法,用于使用深度学习算法在同一网络中同时执行多个车载感测任务。该方法包括接收来自车辆上的传感器的视觉传感器数据,使用卷积神经网络中的多个特征层根据视觉传感器数据确定特征组,并且使用卷积神经网络从由多个特征层确定的特征组中同时估计检测到的物体的边界框、自由空间边界以及检测到的物体的物体姿态。
神经网络可以包括:多个自由空间估计层,其配置为评估特征组以确定视觉传感器数据中相对于车辆的自由空间的边界并且标记边界;多个物体检测层,其配置为评估特征组以检测图像中的物体并估计围绕检测到的物体的边界框;以及多个物体姿态检测层,其配置为评估特征组以估计每个物体的方向。
神经网络可以进一步包括多个特征层,它们配置为确定作为多个自由空间估计层、多个物体检测层和多个物体姿态检测层的输入进行共享的特征组。
可以使用InceptionNet架构来配置特征层。
可以使用StixelNet架构配置自由空间估计层。
可以使用单次多重检测器(SSD)架构来配置物体检测层。
由物体姿态检测层估计的方向可以是量化值。
该方法可以进一步包括使用循环分段线性(PL)损失函数来训练物体姿态检测层。
使用循环PL损失函数训练物体姿态检测层可以包括将0到360度之间的不同值分配给多个bin中的每一个;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。
该方法可以进一步包括使用估计的边界框、自由空间边界和物体姿态来估计供车辆使用的当前和未来世界状态。
提供了一种用于训练卷积神经网络以使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的处理器实现的方法。卷积神经网络至少包括任务层的第一组、第二组和第三组以及特征层的常用组(通常由任务层的第一、第二和第三组中的每一个使用其输出)。训练任务层的第一、第二和第三组中的每一个以分别执行三个不同图像感测任务中的不同的一个。该方法包括训练任务层的第一组和特征层的组以确定使任务层的第一组的损失函数最小化的任务层的第一组中的和特征层中的系数,训练任务层的第二组,同时对固定为它们最后确定的值的特征层中的系数进行保持,以确定使任务层的第二组的损失函数最小化的任务层的第二组中的系数,训练任务层的第三组,同时对固定为它们最后确定的值的特征层中的系数进行保持,以确定使任务层的第三组的损失函数最小化的任务层的第三组中的系数,并使用这些层中的每一个的最后确定的系数作为重新训练的起点,共同重新训练任务层的第一、第二和第三组以及特征层以确定使任务层的第一、第二和第三组的每一个的损失函数最小化的任务层的第一、第二和第三组的每一个中的以及特征层中的系数。
任务层的第一组可以是可用训练数据的数量最大的任务层的组,或者是可用训练数据具有最好的质量的任务层的组。
任务层的第二组可以是可用训练数据的数量第二大的任务层的组,或者是可用训练数据具有次好的质量的任务层的组。
可以选择多个物体检测层作为任务层的第一组,可以选择多个物体姿态检测层作为任务层的第二组,并且可以选择多个自由空间估计层作为任务层的第三组。
可以使用StixelNet架构来配置自由空间估计层。
可以使用单次多重检测器(SSD)架构来配置物体检测层。
训练物体姿态检测层可以包括确定循环分段线性(PL)损失。确定循环PL损失可以包括将0到360度之间的不同值分配给多个bin中的每一个;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。
提供了一种用于确定由车辆检测到的物体的姿态的车辆中的处理器实现的方法。该方法包括使用循环PL损失函数来训练包括多个物体姿态检测层的卷积神经网络,这些层配置为评估从车辆上的传感器接收的视觉传感器数据导出的特征组以估计检测到的物体的方向。使用循环PL损失函数的训练包括将0到360度之间的不同中心值分配给多个bin中的每一个;向具有最接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。该方法进一步包括使用物体姿态检测层来估计从车辆上的传感器接收到的视觉传感器数据中的检测到的物体的物体姿态。
将估计的姿态分配给两个bin可以包括利用加权因数向具有最接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比。
附图说明
当与附图一起阅读时,根据以下具体实施方式可以最好地理解本公开的各方面,其中相同的附图标记表示相同的元件,并且
图1是根据一些实施例的描绘了示例车辆的框图;
图2是根据一些实施例的可使用深度学习算法同时执行多个车载感测任务的示例卷积神经网络的框图;
图3是根据一些实施例的描绘了用于使用深度学习算法在同一神经网络中同时执行多个车载感测任务的示例处理器实现过程的过程流程图;
图4是根据一些实施例的描绘了用于训练卷积神经网络以使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的示例过程的过程流程图;
图5是根据一些实施例的描绘了用于训练多个姿态估计层的示例架构的框图;并且
图6描绘了根据一些实施例已用从神经网络中同时执行的多个车载感测任务导出的符号进行注释的示例图像。
具体实施方式
以下公开提供了用于实现所提供的主题的不同特征的许多不同实施例或示例。以下具体实施方式本质上仅仅是示例性的,并不旨在限制本发明或本发明的应用和使用。此外,不旨在受到前面背景技术或以下具体实施方式中呈现的任何理论的限制。
本文描述的主题公开了用于使用神经网络在车辆中同时执行多个视觉感测任务的装置、系统、技术和物品。所描述的技术提供了一种网络架构,其中由并发执行的任务层的多个组共享多个特征层。还提供了一种用于训练神经网络的技术。
图1是描绘了示例车辆100的框图。示例车辆100可以包含汽车、卡车、公共汽车、摩托车等。示例车辆100包括示例视觉传感器102和示例视觉系统104。示例视觉传感器102感测车辆100附近的可观察状况,并且可以包含摄像头、激光雷达、雷达等。示例视觉传感器102生成由示例视觉系统104使用的视觉传感器数据。在该示例中,示例视觉传感器102是生成图像数据形式的车辆100外部的场景的视觉图像的摄像头。
示例视觉系统104接收图像数据并处理图像数据以执行多个车载感测任务。示例视觉系统104包含车辆内的一个或多个处理器,通过在计算机可读介质中编码的编程指令来配置它们。示例视觉系统104可以使用在计算机可读介质中编码并由一个或多个处理器执行的深度学习算法来在神经网络中同时执行多个车载感测任务。示例视觉系统104执行的示例车载感测任务可以包括物体检测、自由空间检测和物体姿态检测。车辆100中的其他系统可以使用来自由示例视觉系统104执行的车载感测任务的输出来估计当前和未来的世界状态以例如在自主驾驶模式或半自主驾驶模式中辅助车辆100的操作。
每个车载感测任务可以使用不同的计算技术。每个任务都可以使用深度学习算法并竞争计算资源。深度学习(也称为深层结构学习、分层学习或深度机器学习)是一类机器学习算法,其使用非线性处理单元的多层级联来进行特征提取和转换。每个相继层使用前一层的输出作为输入。
图2是可使用深度学习算法同时执行多个车载感测任务的示例卷积神经网络200的框图。示例神经网络200包括多个卷积特征层202,它们从图像传感器(未示出)接收输入图像204,例如以RGB信号的形式。特征层202配置为确定作为多个上层卷积视觉任务层的输入进行共享的特征组。可以使用InceptionNet架构来配置示例特征层202。
在该示例中,上层视觉任务层包含多个卷积自由空间估计层206、多个卷积物体检测层208,以及多个卷积物体姿态检测层210。多个自由空间估计层206配置为评估特征组以确定输入图像204中相对于车辆的自由空间的边界并标记边界。在该示例中,用Stixel标记边界。多个物体检测层208配置为评估特征组以检测图像204中的物体并且估计围绕检测到的物体的边界框。多个物体姿态检测层210配置为评估特征组以估计每个检测到的物体的方向。对物体的方向(即,物体的姿态)的检测可以使得车辆系统能够预测每个检测到的物体的运动。
经由自由空间估计层206、多个卷积物体检测层208和多个卷积物体姿态检测层210来配置示例卷积神经网络200,以根据由共享的特征层202确定的特征组来同时估计检测到的物体的边界框、自由空间边界和检测到的物体的物体姿态。与在不同的神经网络中分别执行自由空间估计任务、物体检测任务和物体姿态任务的架构相比,示例神经网络200的架构可使得计算资源得到更高效的利用。示例神经网络200可以实现使用InceptionNet架构的特征层、使用单次多重检测器(SSD)架构的物体检测层,以及使用StixelNet架构的自由空间检测层。Wei Liu、Dragomir Anguelov、Dumitru Erhan、Christian Szegedy、Scott Reed、Cheng-Yang Fu和Alexander C.Berg的《SSD:单次多重检测器》(“SSD:SingleShot MultiBox Detector”)中提供了SSD架构的一个示例。
StixelNet架构对图像的柱状部分(例如,Stixel)起作用。StixelNet架构可以包括五层,其中前两层是卷积的并且后三层是完全连接的。StixelNet架构还可以包含确定分段线性概率损失。在授予Dan Levi的题为《使用单个移动摄像头的动态Stixel估计》(“Dynamic stixel estimation using a single moving camera”)的美国专利申请第15/085082号(其通过引用并入本文);授予Dan Levi和Noa Garnett的题为《使用深度学习的Stixel估计和道路场景分割》(“Stixel estimation and road scene segmentationusing deep learning”)的美国专利申请第15/092853号(其通过引用并入本文);以及DanLevi、Noa Garnett、Ethan Fetaya的《StixelNet:用于障碍物检测和道路分割的深度卷积网络》(“StixelNet:A Deep Convolutional Network for Obstacle Detection and RoadSegmentation”,其通过引用并入本文)中提供了使用Stixel和StixelNet架构的示例。
提供姿态估计层的目的是最小化循环分段线性损失函数。测量姿态预测结果与地面真实姿态之间的误差来作为角度差。例如,姿态预测结果可以预测检测到的物体指向15度角,而真实姿态是检测到的物体指向18度角。在这种情况下,角度差是3度。
图3是描绘了用于使用深度学习算法在同一神经网络中同时执行多个车载感测任务的示例处理器实现过程300的过程流程图。示例过程300包括从图像传感器接收输入图像(操作302)。图像传感器可以是提供RGB图像作为输入图像的车载摄像头。
估计来自输入图像的特征组(操作304)。可以根据卷积神经网络中的多个特征层来估计该特征组。可以使用InceptionNet架构来实现该多个特征层。
根据该特征组,同时执行多个视觉检测任务。在该示例中,同时执行的视觉检测任务包括估计检测到的选项的边界框(操作306)、估计自由空间边界(操作308),以及估计检测到的物体的姿态(操作310)。可以由可用SSD架构来配置的卷积神经网络中的多个物体检测层来估计检测到的物体的边界框。可以由可用StixelNet架构来配置的多个自由空间边界检测层来估计卷积神经网络中的自由空间边界。
可以由多个物体姿态检测层来在卷积神经网络中估计物体姿态。可以配置物体姿态检测层来使循环分段线性损失函数最小化。由物体姿态检测层估计的方向可以是量化值。在一个示例中,该方向可以是八个不同的量化值中的一个。可以使用确定循环PL损失的循环分段线性(PL)损失函数来训练物体姿态检测层。确定循环PL损失可以包括将0到360度之间的不同中心值分配给多个bin中的每一个;如果估计的姿态值等于分配给一个bin的值,则将估计的姿态分配给该bin;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。
图4是描绘了用于训练卷积神经网络以使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的示例过程400的过程流程图。在该示例中,卷积神经网络至少包括任务层的第一组、第二组和第三组以及常用的多个特征层,通常由任务层的第一、第二和第三组中的每一个使用常用的多个特征层的输出)。在该示例中,将训练任务层的第一、第二和第三组中的每一个来分别执行三个不同图像感测任务中的不同的一个。
示例过程400包括训练任务层的第一组和特征层(操作402)以确定使任务层的第一组的损失函数最小化的任务层的第一组中的和多个特征层中的系数。完全训练任务层的第一组和多个特征层,就像该神经网络中只含有它们一样。
示例过程400接下来包括训练任务层的第二组,同时对固定为它们最后确定的值的特征层中的系数进行保持(操作404),以确定使任务层的第二组的损失函数最小化的任务层的第二组中的系数。
接下来,示例过程400包括训练任务层的第三组,同时对固定为它们最后确定的值的特征层中的系数进行保持(操作406),以确定使任务层的第三组的损失函数最小化的任务层的第三组中的系数。
最终,使用这些层中的每一个的最后确定的系数作为训练的起点,共同训练任务层的第一、第二和第三组以及特征层(操作408)以确定使任务层的第一、第二和第三组的每一个的损失函数最小化的任务层的第一、第二和第三组的每一个中的以及特征层中的系数。
在示例过程400中,可以选择可用训练数据的数量最大的任务层组作为任务层的第一组。可以选择可用训练数据的数量第二大的任务层组作为任务层的第二组。
在示出的示例中,选择多个物体检测层作为任务层的第一组。选择多个物体检测层来进行训练以检测图像中的物体,并且估计围绕检测到的物体的边界框。
在示出的示例中,选择多个物体姿态检测层作为任务层的第二组。选择多个物体姿态检测层来进行训练以确定检测到的物体的物体姿态。
而且,在示出的示例中,选择多个自由空间估计层作为任务层的第三组。选择多个自由空间估计层来进行训练以评估特征组以确定输入图像中自由空间的边界并标记自由空间边界。
图5是描绘了用于训练多个姿态估计层的示例架构500的框图。向姿态估计层提供了来自图像的特征数据,并且操作姿态估计层来估计图像中的物体的预测姿态502。将预测姿态502与真实姿态信息504进行比较以估计循环分段线性损失函数506中的误差。分段线性损失函数506被用于训练物体姿态检测层508。向物体姿态检测层508提供来自另一个图像的特征数据,并且操作物体姿态检测层来估计新图像中的物体的预测姿态502。再一次,将预测姿态502与真实姿态信息504进行比较以估计循环分段线性损失函数506中的误差,并进而使用分段线性损失函数506来训练物体姿态检测层508。该训练过程可以重复,直到循环分段线性损失函数506的误差估计收敛到可接受的水平。
示例循环分段线性损失函数506类似于分段线性损失函数,因为它们都将测量结果分类到一个或两个bin中。用于训练示例姿态检测层508的示例循环分段线性损失函数506涉及将姿态估计结果分配到bin中。因为将物体的姿态估计为相对于车辆上的点的方向,所以姿态可以具有在0到360度之间的值。在该示例中,提供了用于训练示例姿态检测层508的循环分段线性损失函数506、多个bin,并且为每个bin分配了0到360度之间的不同值。
使用示例循环分段线性损失函数506来估计误差可以涉及将估计的姿态分配到一个或两个bin中。如果姿态估计结果的值等于bin的值,则将姿态估计结果分配给具有相同值的那个bin。如果姿态估计结果具有两个bin值之间的值,则将姿态估计结果分配给具有与姿态估计结果最接近的值的两个bin。给两个bin分配时可以应用加权因数。应用的加权因数可以与估计的姿态值与bin中心值的距离成反比。
可以通过从真实姿态中减去物体的估计的姿态来计算误差。作为示例,物体的真实姿态可能是17度,估计结果可能是13度,而误差可能表示为4度。当姿态接近0度/360度跨越点时,可能不能直截了当地进行误差计算。作为示例,如果真实的姿态是358度,估计的姿态是4度,那么误差可能只有6度而不是354度。为了解决这个问题,示例循环分段线性损失函数506可允许将估计的姿态放置在具有最接近360度的值的bin中和具有最接近0度的值的bin中。
因此,使用示例循环分段线性损失函数506来训练示例姿态检测层508可以涉及将0度到360度之间的不同值分配给多个bin中的每一个;如果估计的姿态值等于分配给一个bin的值,则将估计的姿态分配给该bin;如果估计的姿态值落在分配给两个bin的值之间,则将估计的姿态分配给这两个bin;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。给两个bin分配时可以应用加权因数。应用的加权因数可以与估计的姿态值与bin中心值的距离成反比。
在图6中描绘了已用从使用深度学习算法在神经网络中同时执行的多个车载感测任务导出的符号进行注释的示例图像600。示例图像600已经用围绕图像600中的检测到的物体的由物体检测层估计的边界框602、定义图像600中的自由空间的边界的由自由空间估计层估计的Stixel 604,以及标识图像600中的检测到的物体的姿态方向的由物体姿态检测层估计的箭头606进行了注释。
本文描述了用于使用神经网络在车辆中同时执行多个视觉感测任务的技术。所描述的技术提供了一种网络架构,其中由并发执行的任务层的多个组共享多个特征层。还提供了一种用于训练神经网络的技术。
在一个实施例中,提供了一种车辆中的处理器实现的方法,用于使用深度学习算法在同一网络中同时执行多个车载感测任务。该方法包含接收来自车辆上的传感器的视觉传感器数据,使用卷积神经网络中的多个特征层根据视觉传感器数据确定特征组,并且使用卷积神经网络根据由多个特征层确定的特征组同时估计检测到的物体的边界框、自由空间边界以及检测到的物体的物体姿态。
这些方面和其他实施例可以包括以下特征中的一个或多个。神经网络可以包含:多个自由空间估计层,其配置为评估特征组以确定视觉传感器数据中相对于车辆的自由空间的边界并且标记边界;多个物体检测层,其配置为评估特征组以检测图像中的物体并估计围绕检测到的物体的边界框;以及多个物体姿态检测层,其配置为评估特征组以估计每个物体的方向。神经网络可以进一步包含多个特征层,它们配置为确定作为多个自由空间估计层、多个物体检测层和多个物体姿态检测层的输入进行共享的特征组。可以使用InceptionNet架构来配置特征层。可以使用StixelNet架构来配置自由空间估计层。StixelNet架构可以包含五层,其中前两层是卷积的并且后三层是完全连接的。训练StixelNet架构可以包含确定分段线性概率损失。可以使用单次多重检测器(SSD)架构来配置物体检测层。由物体姿态检测层估计的方向可以是量化值。该方向可以包含八个不同的量化值中的一个。该方法可以进一步包含使用循环分段线性(PL)损失函数来训练物体姿态检测层。使用循环PL损失函数训练物体姿态检测层可以包含将0到360度之间的不同值分配给多个bin中的每一个;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。bin的数量可以等于八。该方法可以进一步包含使用估计的边界框、自由空间边界和物体姿态来估计供车辆使用的当前和未来世界状态。
在另一个实施例中,提供了一种用于训练卷积神经网络以使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的处理器实现的方法。卷积神经网络至少包含任务层的第一组、第二组和第三组以及特征层的常用组,通常由任务层的第一、第二和第三组中的每一个使用特征层的常用组的输出。将训练任务层的第一、第二和第三组中的每一个来分别执行三个不同图像感测任务中的不同的一个。该方法包含训练任务层的第一组和特征层的组以确定使任务层的第一组的损失函数最小化的任务层的第一组中的和特征层中的系数,训练任务层的第二组,同时对固定为它们最后确定的值的特征层中的系数进行保持,以确定使任务层的第二组的损失函数最小化的任务层的第二组中的系数,训练任务层的第三组,同时对固定为它们最后确定的值的特征层中的系数进行保持,以确定使任务层的第三组的损失函数最小化的任务层的第三组中的系数,并使用这些层中的每一个的最后确定的系数作为重新训练的起点,共同重新训练任务层的第一、第二和第三组以及特征层以确定使任务层的第一、第二和第三组的每一个的损失函数最小化的任务层的第一、第二和第三组的每一个中的以及特征层中的系数。
这些方面和其他实施例可以包括以下特征中的一个或多个。任务层的第一组可以是可用训练数据的数量最大的任务层的组,或者是可用训练数据具有最好的质量的任务层的组。任务层的第二组可以是可用训练数据的数量第二大的任务层的组,或者是可用训练数据具有次好的质量的任务层的组。可以选择多个物体检测层作为任务层的第一组,可以选择多个物体姿态检测层作为任务层的第二组,并且可以选择多个自由空间估计层作为任务层的第三组。可以使用StixelNet架构来配置自由空间估计层。可以使用单次多重检测器(SSD)架构来配置物体检测层。训练物体姿态检测层可以包含确定循环分段线性(PL)损失。确定循环PL损失可以包含将0到360度之间的不同值分配给多个bin中的每一个;利用加权因数向具有更接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。
在另一个实施例中,提供了一种用于同时在视觉传感器数据上同时执行自由空间估计、物体检测和物体姿态估计的车辆中的处理器实现的感测系统。该感测系统包含一个或多个处理器,以及编码有可配置为使得一个或多个处理器执行方法的编程指令的非暂时性计算机可读介质。该方法包含接收来自车辆上的传感器的视觉传感器数据,使用卷积神经网络中的多个特征层根据视觉传感器数据确定特征组,并且使用卷积神经网络进行:使用卷积神经网络中的多个物体检测层同时估计检测到的物体的边界框,多个物体检测层配置为评估特征组以检测图像中的物体并估计围绕检测到的物体的边界框;使用卷积神经网络中的多个自由空间估计层同时估计自由空间边界,多个自由空间估计层配置为评估特征组以确定视觉传感器数据中的相对于车辆的自由空间的边界并且标记边界;并且使用卷积神经网络中的多个物体姿态检测层同时估计检测到的物体的物体姿态,多个物体姿态检测层配置为评估特征组以估计每个物体的方向。
这些方面和其他实施例可以包括以下特征中的一个或多个。该方法可以进一步包含使用估计的边界框、自由空间边界和物体姿态来估计供车辆使用的当前和未来世界状态。
在另一个实施例中,提供了一种用于确定由车辆检测到的物体的姿态的车辆中的处理器实现的方法。该方法包含使用循环PL损失函数来训练卷积神经网络,该卷积神经网络包括多个物体姿态检测层,它们配置为评估从车辆上的传感器接收的视觉传感器数据导出的特征组以估计检测到的物体的方向。使用循环PL损失函数的训练包含将0到360度之间的不同中心值分配给多个bin中的每一个;向具有最接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态;并且如果估计的姿态值高于分配给最高值bin的值,或者如果估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给最高值bin和最低值bin这两者。该方法进一步包含使用物体姿态检测层来估计从车辆上的传感器接收到的视觉传感器数据中的检测到的物体的物体姿态。
这些方面和其他实施例可以包括以下特征中的一个或多个。将估计的姿态分配给两个bin可以包含利用加权因数向具有最接近估计的姿态值的分配的中心值的多个bin中的两个bin分配估计的姿态,其中加权因数与估计的姿态值和bin中心值的距离成反比。
前面概述了若干实施例的特征,使得本领域技术人员可以更好地理解本公开的各个方面。本领域技术人员应当理解,他们可易于使用本公开作为设计或更改用于贯彻本文介绍的实施例的相同目的和/或实现相同优点的其他过程和结构的基础。本领域技术人员应当认识到,这样的等同结构不脱离本公开的精神和范围,并且他们可在不脱离本公开的精神和范围的情况下在本文中进行各种改变、替换和变化。

Claims (10)

1.一种在车辆中用于使用深度学习算法在同一网络中同时执行多个车载感测任务的处理器实现的方法,所述方法包含:
接收来自所述车辆上的传感器的视觉传感器数据;
使用卷积神经网络中的多个特征层根据所述视觉传感器数据确定特征组;并且
使用所述卷积神经网络根据由所述多个特征层确定的所述特征组同时估计检测到的物体的边界框、自由空间边界和检测到的物体的物体姿态。
2.根据权利要求1所述的方法,其中所述神经网络包含:
多个自由空间估计层,其配置为评估所述特征组以确定所述视觉传感器数据中相对于所述车辆的所述自由空间的边界并且标记所述边界;
多个物体检测层,其配置为评估所述特征组以检测图像中的物体并估计围绕所述检测到的物体的边界框;以及
多个物体姿态检测层,其配置为评估所述特征组以估计每个物体的方向。
3.根据权利要求2所述的方法,其中:
所述神经网络可以进一步包含配置为确定作为所述多个自由空间估计层、所述多个物体检测层和所述多个物体姿态检测层的输入进行共享的所述特征组的多个特征层;并且
使用InceptionNet架构来配置所述特征层。
4.根据权利要求2所述的方法,其中使用StixelNet架构来配置所述自由空间估计层。
5.根据权利要求2所述的方法,其中使用单次多重检测器(SSD)架构来配置所述物体检测层。
6.根据权利要求2所述的方法,进一步包含使用循环分段线性(PL)损失函数来训练所述物体姿态检测层,并且其中使用循环PL损失函数来训练所述物体姿态检测层包含:
将0到360度之间的不同值分配给多个bin中的每一个;
利用加权因数向具有更接近估计的姿态值的分配的中心值的所述多个bin中的两个bin分配估计的姿态,其中所述加权因数与所述估计的姿态值和所述bin中心值的距离成反比;并且
如果所述估计的姿态值高于分配给最高值bin的值,或者如果所述估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给所述最高值bin和所述最低值bin这两者。
7.一种用于训练卷积神经网络来使用深度学习算法在同一网络中同时执行至少三个不同图像感测任务的处理器实现的方法,所述卷积神经网络至少包含任务层的第一组、第二组和第三组以及特征层的常用组,通常由所述任务层的第一、第二和第三组中的每一个使用特征层的常用组的输出,将所述任务层的第一、第二和第三组中的每一个训练为分别执行三个不同图像感测任务中的不同的一个,所述方法包含:
训练所述任务层的第一组和所述特征层的组以确定使所述任务层的第一组的损失函数最小化的所述任务层的第一组中的和所述特征层中的系数;
训练所述任务层的第二组,同时保持所述特征层中的系数固定为它们最后确定的值,以确定使所述任务层的第二组的损失函数最小化的所述任务层的第二组中的系数;
训练所述任务层的第三组,同时保持所述特征层中的系数固定为它们最后确定的值,以确定使所述任务层的第三组的损失函数最小化的所述任务层的第三组中的系数;并且
使用这些层中的每一个的最后确定的系数作为重新训练的起点,共同重新训练所述任务层的第一、第二和第三组以及所述特征层,以确定使所述任务层的第一、第二和第三组的每一个的损失函数最小化的所述任务层的第一、第二和第三组的每一个中的以及所述特征层中的系数。
8.根据权利要求7所述的方法,其中所述任务层的第一组可以是可用训练数据的数量最大的任务层的组,或者是可用训练数据具有最好的质量的任务层的组;并且其中所述任务层的第二组可以是可用训练数据的数量第二大的任务层的组,或者是可用训练数据具有次好的质量的任务层的组。
9.一种在车辆中用于确定由所述车辆检测到的物体的姿态的处理器实现的方法,所述方法包含:
使用循环PL损失函数来训练卷积神经网络,所述卷积神经网络包括多个物体姿态检测层,其配置为评估从所述车辆上的传感器接收的视觉传感器数据导出的特征组以估计检测到的物体的方向;所述使用所述循环PL损失函数的训练包含:
将0到360度之间的不同中心值分配给多个bin中的每一个;
向具有最接近估计的姿态值的分配的中心值的所述多个bin中的两个bin分配估计的姿态;并且
如果所述估计的姿态值高于分配给所述最高值bin的值,或者如果所述估计的姿态值低于分配给最低值bin的值,则将估计的姿态分配给所述最高值bin和所述最低值bin这两者;并且
使用所述物体姿态检测层来估计从所述车辆上的所述传感器接收到的视觉传感器数据中的检测到的物体的物体姿态。
10.根据权利要求9所述的方法,其中将估计的姿态分配给所述两个bin包含:
利用加权因数向具有最接近所述估计的姿态值的分配的中心值的所述多个bin中的所述两个bin分配估计的姿态,其中所述加权因数与所述估计的姿态值和所述bin中心值的距离成反比。
CN201810705661.2A 2017-07-06 2018-07-02 一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络 Pending CN109214264A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/642816 2017-07-06
US15/642,816 US10474908B2 (en) 2017-07-06 2017-07-06 Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation

Publications (1)

Publication Number Publication Date
CN109214264A true CN109214264A (zh) 2019-01-15

Family

ID=64666482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810705661.2A Pending CN109214264A (zh) 2017-07-06 2018-07-02 一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络

Country Status (3)

Country Link
US (1) US10474908B2 (zh)
CN (1) CN109214264A (zh)
DE (1) DE102018116111B4 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11790228B2 (en) 2020-01-20 2023-10-17 Samsung Electronics Co., Ltd. Methods and systems for performing tasks on media using attribute specific joint learning

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
DE102017120729A1 (de) * 2017-09-08 2019-03-14 Connaught Electronics Ltd. Freiraumdetektion in einem Fahrerassistenzsystem eines Kraftfahrzeugs mit einem neuralen Netzwerk
US10937189B2 (en) * 2018-01-18 2021-03-02 Samsung Electronics Co., Ltd. Pose estimation method, method of displaying virtual object using estimated pose, and apparatuses performing the same
US10345822B1 (en) 2018-01-26 2019-07-09 Ford Global Technologies, Llc Cognitive mapping for vehicles
US11282389B2 (en) * 2018-02-20 2022-03-22 Nortek Security & Control Llc Pedestrian detection for vehicle driving assistance
WO2020055767A1 (en) * 2018-09-10 2020-03-19 Mapbox, Inc. Mapping objects detected in images to geographic positions
JP7203563B2 (ja) * 2018-10-29 2023-01-13 日立Astemo株式会社 移動体挙動予測装置
US10937173B2 (en) 2018-11-15 2021-03-02 Qualcomm Incorporated Predicting subject body poses and subject movement intent using probabilistic generative models
CN109816725B (zh) * 2019-01-17 2023-03-14 合肥哈工慧拣智能科技有限公司 一种基于深度学习的单目相机物体位姿估计方法及装置
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10402692B1 (en) * 2019-01-22 2019-09-03 StradVision, Inc. Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
US10387753B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US10395140B1 (en) * 2019-01-23 2019-08-27 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
US10496899B1 (en) * 2019-01-25 2019-12-03 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
US10373323B1 (en) * 2019-01-29 2019-08-06 StradVision, Inc. Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles
US10635938B1 (en) * 2019-01-30 2020-04-28 StradVision, Inc. Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
US10373004B1 (en) * 2019-01-31 2019-08-06 StradVision, Inc. Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
US10713815B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for supporting administrators to processes of object detectors to provide logical driving
US10423840B1 (en) * 2019-01-31 2019-09-24 StradVision, Inc. Post-processing method and device for detecting lanes to plan the drive path of autonomous vehicle by using segmentation score map and clustering map
EP3716137A1 (en) * 2019-03-27 2020-09-30 Visteon Global Technologies, Inc. Systems and methods for estimating the position of a target vehicle
DE102019115327A1 (de) * 2019-06-06 2020-12-10 Valeo Schalter Und Sensoren Gmbh Linienmarkierungsidentifizierung unter Verwendung von LiDAR
CN110414337B (zh) * 2019-06-21 2023-12-05 上海汽车工业(集团)总公司 目标姿态检测系统及其检测方法
CN112307833A (zh) * 2019-07-31 2021-02-02 浙江商汤科技开发有限公司 识别智能行驶设备的行驶状态的方法及装置、设备
CN110913137A (zh) * 2019-11-27 2020-03-24 深圳市瓴鹰智能科技有限公司 手势控制与人物追踪自拍杆系统及控制方法
JP7490359B2 (ja) * 2019-12-24 2024-05-27 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11390286B2 (en) * 2020-03-04 2022-07-19 GM Global Technology Operations LLC System and process for end to end prediction of lane detection uncertainty
DE102020209985A1 (de) 2020-08-06 2022-02-10 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Ermitteln einer Umfeldinformation
US12008787B2 (en) 2021-07-20 2024-06-11 Ford Global Technologies, Llc Object pose estimation
US12026956B1 (en) * 2021-10-28 2024-07-02 Zoox, Inc. Object bounding contours based on image data

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104049A1 (en) * 2014-10-14 2016-04-14 Here Global B.V. Lateral Sign Placement Determination
CN105740906A (zh) * 2016-01-29 2016-07-06 中国科学院重庆绿色智能技术研究院 一种基于深度学习的车辆多属性联合分析方法
US20160217335A1 (en) * 2009-02-27 2016-07-28 GM Global Technology Operations LLC Stixel estimation and road scene segmentation using deep learning
CN105975915A (zh) * 2016-04-28 2016-09-28 大连理工大学 一种基于多任务卷积神经网络的前方车辆参数识别方法
US20160321522A1 (en) * 2015-04-30 2016-11-03 Canon Kabushiki Kaisha Devices, systems, and methods for pairwise multi-task feature learning
US20160358043A1 (en) * 2015-06-05 2016-12-08 At&T Intellectual Property I, L.P. Hash codes for images
CN106470886A (zh) * 2014-06-27 2017-03-01 宝马股份公司 用于建立运输工具的周围环境模型的方法
CN106599869A (zh) * 2016-12-22 2017-04-26 安徽大学 一种基于多任务卷积神经网络的车辆属性识别方法

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418346B2 (en) * 1997-10-22 2008-08-26 Intelligent Technologies International, Inc. Collision avoidance methods and systems
US6768944B2 (en) * 2002-04-09 2004-07-27 Intelligent Technologies International, Inc. Method and system for controlling a vehicle
US5987378A (en) * 1996-10-24 1999-11-16 Trimble Navigation Limited Vehicle tracker mileage-time monitor and calibrator
JP4486594B2 (ja) * 2002-11-07 2010-06-23 本田技研工業株式会社 確率的外観集合体を使用するビデオに基づく顔認識
US7113185B2 (en) * 2002-11-14 2006-09-26 Microsoft Corporation System and method for automatically learning flexible sprites in video layers
US20040234167A1 (en) * 2003-05-20 2004-11-25 Frank Pipitone Technique for estimating the pose of surface shapes using tripod operators
KR100946935B1 (ko) * 2003-06-02 2010-03-09 삼성전자주식회사 이동체의 위치검출장치
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
US20050267658A1 (en) * 2004-05-13 2005-12-01 Yong Yuan Intelligent and efficient system and/or method for automatic notification and/or enforcement of legal traffic speed limits and spots
JP4481889B2 (ja) * 2005-06-28 2010-06-16 キヤノン株式会社 データ記録装置及びその方法、プログラム、記録媒体
US8274715B2 (en) * 2005-07-28 2012-09-25 Omnivision Technologies, Inc. Processing color and panchromatic pixels
JP4797794B2 (ja) * 2006-05-24 2011-10-19 日産自動車株式会社 歩行者検出装置および歩行者検出方法
JP4709723B2 (ja) * 2006-10-27 2011-06-22 株式会社東芝 姿勢推定装置及びその方法
WO2008073962A2 (en) * 2006-12-12 2008-06-19 Rutgers, The State University Of New Jersey System and method for detecting and tracking features in images
WO2009094661A1 (en) * 2008-01-24 2009-07-30 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for swapping faces in images
DE102009009047A1 (de) * 2009-02-16 2010-08-19 Daimler Ag Verfahren zur Objektdetektion
US8912978B2 (en) * 2009-04-02 2014-12-16 GM Global Technology Operations LLC Dynamic vehicle system information on full windshield head-up display
US8301374B2 (en) * 2009-08-25 2012-10-30 Southwest Research Institute Position estimation for ground vehicle navigation based on landmark identification/yaw rate and perception of landmarks
US9562778B2 (en) * 2011-06-03 2017-02-07 Robert Bosch Gmbh Combined radar and GPS localization system
DE102011111440A1 (de) * 2011-08-30 2012-06-28 Daimler Ag Verfahren zur Umgebungsrepräsentation
US8442321B1 (en) * 2011-09-14 2013-05-14 Google Inc. Object recognition in images
CN103324938A (zh) * 2012-03-21 2013-09-25 日电(中国)有限公司 训练姿态分类器及物体分类器、物体检测的方法及装置
US8948454B2 (en) * 2013-01-02 2015-02-03 International Business Machines Corporation Boosting object detection performance in videos
WO2014130854A1 (en) * 2013-02-21 2014-08-28 Regents Of The Univesity Of Minnesota Extrinsic parameter calibration of a vision-aided inertial navigation system
US9185402B2 (en) * 2013-04-23 2015-11-10 Xerox Corporation Traffic camera calibration update utilizing scene analysis
US9280827B2 (en) * 2013-07-03 2016-03-08 Mitsubishi Electric Research Laboratories, Inc. Method for determining object poses using weighted features
US9373057B1 (en) * 2013-11-01 2016-06-21 Google Inc. Training a neural network to detect objects in images
US9305219B2 (en) * 2014-01-23 2016-04-05 Mitsubishi Electric Research Laboratories, Inc. Method for estimating free space using a camera system
US9568611B2 (en) * 2014-08-20 2017-02-14 Nec Corporation Detecting objects obstructing a driver's view of a road
US9665802B2 (en) * 2014-11-13 2017-05-30 Nec Corporation Object-centric fine-grained image classification
EP3845427A1 (en) * 2015-02-10 2021-07-07 Mobileye Vision Technologies Ltd. Sparse map for autonomous vehicle navigation
US9811756B2 (en) * 2015-02-23 2017-11-07 Mitsubishi Electric Research Laboratories, Inc. Method for labeling images of street scenes
US9922271B2 (en) * 2015-03-20 2018-03-20 Netra, Inc. Object detection and classification
US9928430B2 (en) 2015-04-10 2018-03-27 GM Global Technology Operations LLC Dynamic stixel estimation using a single moving camera
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
US9582895B2 (en) * 2015-05-22 2017-02-28 International Business Machines Corporation Real-time object analysis with occlusion handling
US10389746B2 (en) * 2015-09-28 2019-08-20 Microsoft Technology Licensing, Llc Multi-tenant environment using pre-readied trust boundary components
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
EP3179407B1 (en) * 2015-12-07 2022-07-13 Dassault Systèmes Recognition of a 3d modeled object from a 2d image
US10318008B2 (en) * 2015-12-15 2019-06-11 Purdue Research Foundation Method and system for hand pose detection
US10140522B2 (en) * 2015-12-16 2018-11-27 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
US10489691B2 (en) * 2016-01-15 2019-11-26 Ford Global Technologies, Llc Fixation generation for machine learning
US10019652B2 (en) * 2016-02-23 2018-07-10 Xerox Corporation Generating a virtual world to assess real-world video analysis performance
US10572777B2 (en) * 2016-03-11 2020-02-25 Nec Corporation Deep deformation network for object landmark localization
KR101833359B1 (ko) * 2016-03-22 2018-02-28 고려대학교 산학협력단 차량의 외부 영상 빅데이터를 이용한 교통 정보 수집 방법 및 장치
GB2549554A (en) * 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
US10126141B2 (en) * 2016-05-02 2018-11-13 Google Llc Systems and methods for using real-time imagery in navigation
US10593065B2 (en) * 2016-07-27 2020-03-17 Htc Corporation Method and device for camera pose estimation
US10482379B2 (en) * 2016-07-29 2019-11-19 Google Llc Systems and methods to perform machine learning with feedback consistency
KR20190062390A (ko) * 2016-10-11 2019-06-05 모빌아이 비젼 테크놀로지스 엘티디. 검출된 배리어에 기반한 차량의 항법
US10235771B2 (en) * 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
US20180136332A1 (en) * 2016-11-15 2018-05-17 Wheego Electric Cars, Inc. Method and system to annotate objects and determine distances to objects in an image
KR20180060784A (ko) * 2016-11-29 2018-06-07 삼성전자주식회사 비정상 객체 판단 방법 및 장치
US20180239969A1 (en) * 2017-02-23 2018-08-23 Ford Global Technologies, Llc Free Space Detection Using Monocular Camera and Deep Learning
US10373369B2 (en) * 2017-03-16 2019-08-06 Qualcomm Technologies, Inc. Three-dimensional pose estimation of symmetrical objects
US10282999B2 (en) * 2017-03-17 2019-05-07 GM Global Technology Operations LLC Road construction detection systems and methods
US10242282B2 (en) * 2017-03-20 2019-03-26 Conduent Business Services, Llc Video redaction method and system
US20180276986A1 (en) * 2017-03-22 2018-09-27 Toyota Research Institute, Inc. Vehicle-to-human communication in an autonomous vehicle operation
US10360732B2 (en) * 2017-03-23 2019-07-23 Intel Corporation Method and system of determining object positions for image processing using wireless network angle of transmission
US10296828B2 (en) * 2017-04-05 2019-05-21 Here Global B.V. Learning a similarity measure for vision-based localization on a high definition (HD) map
US10621725B2 (en) * 2017-04-12 2020-04-14 Here Global B.V. Small object detection from a large image
US10460180B2 (en) * 2017-04-20 2019-10-29 GM Global Technology Operations LLC Systems and methods for visual classification with region proposals
US10740627B2 (en) * 2017-05-10 2020-08-11 Fotonation Limited Multi-camera vision system and method of monitoring
US20180349746A1 (en) * 2017-05-31 2018-12-06 Uber Technologies, Inc. Top-View Lidar-Based Object Detection
US10310087B2 (en) * 2017-05-31 2019-06-04 Uber Technologies, Inc. Range-view LIDAR-based object detection
US10559140B2 (en) * 2017-06-16 2020-02-11 Uatc, Llc Systems and methods to obtain feedback in response to autonomous vehicle failure events

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217335A1 (en) * 2009-02-27 2016-07-28 GM Global Technology Operations LLC Stixel estimation and road scene segmentation using deep learning
CN106470886A (zh) * 2014-06-27 2017-03-01 宝马股份公司 用于建立运输工具的周围环境模型的方法
US20160104049A1 (en) * 2014-10-14 2016-04-14 Here Global B.V. Lateral Sign Placement Determination
US20160321522A1 (en) * 2015-04-30 2016-11-03 Canon Kabushiki Kaisha Devices, systems, and methods for pairwise multi-task feature learning
US20160358043A1 (en) * 2015-06-05 2016-12-08 At&T Intellectual Property I, L.P. Hash codes for images
CN105740906A (zh) * 2016-01-29 2016-07-06 中国科学院重庆绿色智能技术研究院 一种基于深度学习的车辆多属性联合分析方法
CN105975915A (zh) * 2016-04-28 2016-09-28 大连理工大学 一种基于多任务卷积神经网络的前方车辆参数识别方法
CN106599869A (zh) * 2016-12-22 2017-04-26 安徽大学 一种基于多任务卷积神经网络的车辆属性识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ARSALAN MOUSAVIAN等: "3D Bounding Box Estimation Using Deep Learning and Geometry", 《ARXIV:1612.00496V2》 *
DAN LEVI等: "StixelNet: A Deep Convolutional Network for Obstacle Detection and Road Segmentation", 《BRITISH MACHINE VISION CONFERENCE》 *
YAN_JOY: "Tensorflow 多任务学习", 《CSDN博客》 *
ZHUOQUN HUO等: "Vehicle type classification and attribute prediction using multi-task RCNN", 《2016 9TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS》 *
邵蔚元等: "多任务学习及卷积神经网络在人脸识别中的应用", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11790228B2 (en) 2020-01-20 2023-10-17 Samsung Electronics Co., Ltd. Methods and systems for performing tasks on media using attribute specific joint learning

Also Published As

Publication number Publication date
US20190012548A1 (en) 2019-01-10
DE102018116111A1 (de) 2019-01-10
DE102018116111B4 (de) 2022-09-01
US10474908B2 (en) 2019-11-12

Similar Documents

Publication Publication Date Title
CN109214264A (zh) 一种用于自由空间估计、物体检测和物体姿态估计的统一深度卷积神经网络
CN107038723B (zh) 棒状像素估计方法和系统
WO2020094033A1 (en) Method and system for converting point cloud data for use with 2d convolutional neural networks
CN107230218B (zh) 用于生成对从安装在运载工具上的摄像机捕捉的图像导出的估计的置信度测量的方法和设备
CN114723955B (zh) 图像处理方法、装置、设备和计算机可读存储介质
CN111223135A (zh) 通过使用雷达和运动数据的单目相机来增强距离估计的系统和方法
US20190065824A1 (en) Spatial data analysis
JP6574611B2 (ja) 立体画像に基づいて距離情報を求めるためのセンサシステム
CN109100100A (zh) 刚性测定装置以及刚性测定方法
KR20190131207A (ko) 센서 품질 저하에 강인한 딥러닝 기반 카메라, 라이더 센서 융합 인지 방법 및 시스템
KR101030317B1 (ko) 스테레오 비전을 이용하여 장애물을 추적하는 장치 및 방법
WO2021134357A1 (zh) 感知信息处理方法、装置、计算机设备和存储介质
EP3703008A1 (en) Object detection and 3d box fitting
CN112967388A (zh) 三维时序图像神经网络模型的训练方法和装置
CN115082874A (zh) 用于车辆中深度估计的系统和方法
CN106080397A (zh) 自适应巡航系统及车载设备
CN115249066A (zh) 分位数神经网络
CN118071999B (zh) 一种基于采样自适应的连续NeRF的多视角3D目标检测方法
EP3076368A1 (en) A system and method for object dimension estimation using 3d models
Badino et al. Stereo-based free space computation in complex traffic scenarios
CN113610900B (zh) 车尾序列尺度变化预测方法、装置和计算机设备
CN112949761A (zh) 三维图像神经网络模型的训练方法、装置和计算机设备
Akepitaktam et al. Object distance estimation with machine learning algorithms for stereo vision
JP4200165B2 (ja) ステレオカメラによるオブジェクトの分類のための方法
CN113869100A (zh) 在相对于对象大小的等变性或不变性下在图像中识别对象

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination