CN110121713B - 使用神经网络的同时对象检测和刚性变换估计 - Google Patents

使用神经网络的同时对象检测和刚性变换估计 Download PDF

Info

Publication number
CN110121713B
CN110121713B CN201780081204.4A CN201780081204A CN110121713B CN 110121713 B CN110121713 B CN 110121713B CN 201780081204 A CN201780081204 A CN 201780081204A CN 110121713 B CN110121713 B CN 110121713B
Authority
CN
China
Prior art keywords
shape
transformation matrix
regression vector
neural network
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780081204.4A
Other languages
English (en)
Other versions
CN110121713A (zh
Inventor
H-S·李
D·H·金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110121713A publication Critical patent/CN110121713A/zh
Application granted granted Critical
Publication of CN110121713B publication Critical patent/CN110121713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/168Segmentation; Edge detection involving transform domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种用于对象检测的方法、计算机可读介质和装备(装置)。该装备可基于包含对象的输入图像使用神经网络来确定回归向量。该对象可具有带有已知形状的平坦表面。该装备可基于该回归向量来导出变换矩阵。该装备可基于该变换矩阵来标识该对象的精确边界。该对象的精确边界可包括该对象的多个顶点。为了标识该对象的边界,该装备可将该变换矩阵应用于该对象的所确定形状。

Description

使用神经网络的同时对象检测和刚性变换估计
相关申请的交叉引用
本申请要求于2017年1月3日提交的题为“SIMULTANEOUS OBJECT DETECTION ANDRIGID TRANSFORM ESTIMATION USING NEURAL NETWORK(使用神经网络的同时对象检测和刚性变换估计)”的美国临时申请S/N.62/441,889、以及于2017年2月23日提交的题为“SIMULTANEOUS OBJECT DETECTION AND RIGID TRANSFORM ESTIMATION USING NEURALNETWORK(使用神经网络的同时对象检测和刚性变换估计)”的美国专利申请No.15/441,114的权益,这些申请通过援引被整体明确纳入于此。
背景
技术领域
本公开一般涉及机器学习,且尤其涉及使用神经网络的对象检测。
背景技术
可包括一群互连的人工神经元的人工神经网络可以是计算设备或者可以表示要由计算设备执行的方法。人工神经网络可具有生物学神经网络中的对应结构和/或功能。然而,人工神经网络可以为其中常规计算技术可能是麻烦的、不切实际的、或不胜任的某些应用提供有用的计算技术。由于人工神经网络能从观察中推断出功能,因此此类网络在任务或数据的复杂度使得通过常规技术来设计该功能较为麻烦的应用中可以是有用的。
卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体而言,CNN已经在模式识别和分类领域中被广泛使用。
在对象检测应用(诸如用于智能车辆的交通标志检测和映射)中,为了定位和映射准确,可能需要标识出精确边界(不仅仅是边框)。目标对象的精确边界可包括目标对象的顶点。常规的对象检测方法可以使用卷积神经网络(CNN)来检测对象。然而,常规的对象检测方法可以提供对象的矩形边框,但不提供对象的精确边界。结果,常规的对象检测方法可能需要与某种后处理(例如,对对象边框的分段、边缘检测、或角点检测)相组合,以便估计对象的精确边界。该后处理可能引入附加计算成本、延迟、或其他低效性。
概述
以下给出了一个或多个方面的简要概述以提供对此类方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是以简化形式给出一个或多个方面的一些概念以作为稍后给出的更详细描述之序言。
常规的对象检测方法可以提供对象的矩形边框。因此,常规的对象检测方法可能需要与某种后处理(例如,对对象边框的分段、边缘检测、或角点检测)相组合,以便估计对象的精确边界。该后处理可能引入附加计算成本、延迟、或其他低效性。
在本公开的一方面,提供了一种用于对象检测的方法、计算机可读介质、以及装备(装置)。该装备可基于包含对象的输入图像使用神经网络来确定回归向量。该对象可具有带有已知形状的平坦表面。该装备可基于该回归向量来导出变换矩阵。该装备可基于该变换矩阵来标识该对象的精确边界。该对象的精确边界可包括该对象的多个顶点。为了标识该对象的边界,该装备可将该变换矩阵应用于该对象的所确定形状。
为了达成前述及相关目的,这一个或多个方面包括在下文充分描述并在权利要求中特别指出的特征。以下描述和附图详细阐述了这一个或多个方面的某些解说性特征。然而,这些特征仅仅是指示了可采用各个方面的原理的各种方式中的若干种,并且本描述旨在涵盖所有此类方面及其等效方案。
附图简述
图1是解说根据本公开的各方面的神经网络的示图。
图2是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。
图3是解说提供对象的精确边界(而非边框)的对象检测的示例的示图。
图4是解说用于使用神经网络的同时对象检测和刚性变换估计的对象检测网络的示例的示图。
图5是解说用通过以上图4中描述的对象检测网络所获得的变换矩阵来将模板多边形变换到图像中的示例的示图。
图6是使用神经网络进行对象检测的方法的流程图。
图7是解说示例性装备中的不同装置/组件之间的数据流的概念性数据流图。
图8是解说采用处理系统的装备的硬件实现的示例的示图。
详细描述
以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文所描述的概念的仅有配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可以实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以便避免淡化此类概念。
现在将参照各种装备和方法给出用于人工神经网络的计算系统的若干方面。这些装备和方法将在以下详细描述中进行描述并在附图中由各种框、组件、电路、过程、算法等(统称为“元素”)来解说。这些元素可使用电子硬件、计算机软件、或其任何组合来实现。此类元素是实现成硬件还是软件取决于具体应用和加诸于整体系统上的设计约束。
作为示例,元素、或元素的任何部分、或者元素的任何组合可被实现为包括一个或多个处理器的“处理系统”。处理器的示例包括:微处理器、微控制器、图形处理单元(GPU)、中央处理单元(CPU)、应用处理器、数字信号处理器(DSP)、精简指令集计算(RISC)处理器、片上系统(SoC)、基带处理器、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、分立的硬件电路、以及配置成执行本公开通篇描述的各种功能性的其他合适硬件。处理系统中的一个或多个处理器可以执行软件。软件应当被宽泛地解释成意为指令、指令集、代码、代码段、程序代码、程序、子程序、软件组件、应用、软件应用、软件包、例程、子例程、对象、可执行件、执行的线程、规程、函数等,无论其是用软件、固件、中间件、微代码、硬件描述语言、还是其他术语来述及皆是如此。
相应地,在一个或多个示例实施例中,所描述的功能可被实现在硬件、软件、或其任何组合中。如果被实现在软件中,那么这些功能可作为一条或多条指令或代码被存储或编码在计算机可读介质上。计算机可读介质包括计算机存储介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限制,此类计算机可读介质可包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、光盘存储、磁盘存储、其他磁性存储设备、上述类型的计算机可读介质的组合、或者可被用来存储可由计算机访问的指令或数据结构形式的计算机可执行代码的任何其他介质。
人工神经网络可以由三种类型的参数来定义:1)不同神经元层之间的互连模式;2)用于更新各互连的权重的学习过程;以及3)将神经元的经加权输入转换成其输出激活的激活函数。神经网络可被设计成具有各种连通性模式。在前馈网络中,信息从较低层被传递到较高层,其中给定层中的每个神经元与更高层中的神经元进行通信。可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中,来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时,具有许多反馈连接的网络可能是有助益的。
图1是解说根据本公开的各方面的神经网络的示图。如图1所示,神经网络的层之间的连接可以是全连接的102或局部连接的104。在全连接网络102中,第一层中的神经元可将该神经元的输出传达给第二层中的每一个神经元,从而第二层中的每个神经元接收到来自第一层中的每一个神经元的输入。替换地,在局部连接网络104中,第一层中的神经元可连接到第二层中有限数目的神经元。卷积网络106可以是局部连接的,并且被进一步配置成使得与针对第二层中的每个神经元的输入相关联的连接强度被共享(例如,连接强度108)。更一般地,网络的局部连接层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式,但其连接强度可具有不同的值(例如,110、112、114和116)。局部连接的连通性模式可能在更高层中产生空间上相异的感受野,这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。
局部连接的神经网络可能非常适合于其中输入的空间位置有意义的问题。例如,被设计成识别来自车载相机的视觉特征的网络100可以发展具有不同性质的高层神经元,这取决于它们与图像下部关联还是与图像上部关联。例如,与图像下部相关联的神经元可学习以识别车道标记,而与图像上部相关联的神经元可学习以识别交通信号灯、交通标志等。
深度卷积网络(DCN)可以用监督式学习来训练。在训练期间,可向DCN呈递图像(诸如限速标志的经裁剪图像126),并且可随后计算“前向传递(forward pass)”以产生输出122。输出122可以是对应于特征(诸如“标志”、“60”、和“100”)的值向量。网络设计者可能希望DCN在输出特征向量中针对其中一些神经元(例如与经训练网络100的输出122中所示的“标志”和“60”对应的那些神经元)输出高得分。在训练之前,DCN产生的输出很可能是不正确的,并且由此可计算DCN的实际输出与从DCN所期望的目标输出之间的误差。DCN的权重可随后被调整以使得DCN的输出得分与目标输出更紧密地对准。
为了调整权重,学习算法可为权重计算梯度向量。该梯度可指示在权重被略微调整情况下误差将增加或减少的量。在顶层处,该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中,该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“后向传播”,因为此调整权重的方式涉及在神经网络中的“后向传递(backward pass)”。
在实践中,权重的误差梯度可能是在少量示例上计算的,从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。此随机梯度下降法可被重复,直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。
在学习之后,DCN可被呈递新图像126并且在网络中的前向传递可产生输出122,其可被认为是该DCN的推断或预测。
深度卷积网络(DCN)是卷积网络的网络,其配置有附加的池化和归一化层。DCN可以在许多任务上达成现有最先进的性能。DCN可以使用监督式学习来训练,其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。
DCN可以是前馈网络。另外,如上所述,从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络的计算负担小得多。
卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道,诸如彩色图像的红色、绿色和蓝色通道,那么在该输入上训练的卷积网络可被认为是三维网络,其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层118和120中形成特征图,该特征图(例如,120)中的每个元素从先前层(例如,118)中一定范围的神经元以及从该多个通道中的每一个通道接收输入。特征图中的值可以用非线性(诸如矫正max(0,x))进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化,其对应于白化。
图2是解说示例性深度卷积网络200的框图。深度卷积网络200可包括多个基于连通性和权重共享的不同类型的层。如图2所示,该示例性深度卷积网络200包括多个卷积块(例如,C1和C2)。每个卷积块可配置有卷积层(CONV)、归一化层(LNorm)、和池化层(MAXPOOL)。卷积层可包括一个或多个卷积滤波器,其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块,但本公开不限于此,而是,根据设计偏好,任何数目的卷积块可被包括在深度卷积网络200中。归一化层可被用于对卷积滤波器的输出进行归一化。例如,归一化层可提供白化或侧向抑制。池化层可提供在空间上的降采样聚集以实现局部不变性和维度缩减。
例如,深度卷积网络的平行滤波器组可任选地基于高级RISC机(ARM)指令集被加载到SOC的CPU或GPU上以达成高性能和低功耗。在替换实施例中,平行滤波器组可被加载到SOC的DSP或图像信号处理器(ISP)上。另外,DCN可访问可存在于SOC上的其他处理块,诸如专用于传感器和导航的处理块。
深度卷积网络200还可包括一个或多个全连接层(例如,FC1和FC2)。深度卷积网络200可进一步包括逻辑回归(LR)层。深度卷积网络200的每一层之间是可被更新的权重(未示出)。每一层的输出可以用作深度卷积网络200中后续层的输入以从第一卷积块C1处提供的输入数据(例如,图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。
网络100或深度卷积网络200可由通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件、由处理器执行的软件组件、或其任何组合来仿真。网络100或深度卷积网络200可以被用在大范围的应用(诸如图像和模式识别、机器学习、电机控制等)中。神经网络100或深度卷积网络200中的每一神经元可被实现为神经元电路。
在某些方面,网络100或深度卷积网络200可被配置成基于包含对象的输入图像来确定回归向量。网络100或深度卷积网络200还可被配置成确定对象的形状。以下将参照图3-8来描述由网络100或深度卷积网络200执行的操作。
图3是解说提供对象的精确边界(而非边框)的对象检测的示例的示图300。在该示例中,包含交通标志302的图像302被处理以检测交通标志。在这一对象检测应用中,可能需要标识出对象(例如,交通标志302)的精确边界,例如,以确保定位和映射准确。
常规的对象检测方法可以产生交通标志302的边框306。为了估计精确边界304,常规方法可以对边框306执行后处理(例如,对边框306的分段、边缘检测、或边框306内的角点检测)。在本公开的一种配置中,可以直接产生交通标志302的精确边界304,而无需获得边框306并且无需对边框306执行任何后处理。
图4是解说用于使用神经网络的同时对象检测和刚性变换估计的对象检测网络400的示例的示图。在该示例中,对象检测网络400可包括神经网络402、解码器406和变换单元408。在一种配置中,神经网络402可以是CNN。
神经网络402可以接收包含目标对象(例如,交通标志)的输入图像。神经网络402可以基于输入图像来生成回归向量。在一种配置中,神经网络402还可以生成目标对象的所预测形状标签(例如,三角形或菱形)。在一种配置中,回归向量和形状标签可以由神经网络402的不同卷积层生成。在一种配置中,回归向量和形状标签可以由具有相同输入图像的两个不同神经网络生成。
在一种配置中,取代生成所预测形状标签,神经网络(例如,神经网络402)可以生成目标对象的所预测内容。所预测内容(例如,交通标志内容)可以与形状相关联。结果,除了预测目标对象的形状之外,还可以估计与目标对象相关联的内容。
在一种配置中,回归向量的维数可以有所不同,这取决于要执行的变换的类型。例如,回归向量对于相似性变换可具有四个维度(4自由度),回归向量对于仿射变换可具有六个维度(6自由度),回归向量对于透视变换可具有八个维度(单应性,8自由度)。
在一种配置中,可以针对神经网络402的训练和测试两者来预定回归向量的维度。在一种配置中,可以基于对象检测网络400的应用、在训练神经网络402之前确定回归向量的维数。在一种配置中,由神经网络402生成的所有回归向量可以具有相同维数。
解码器406可以对回归向量进行解码以获得刚性变换矩阵M。向量空间的刚性变换保留了每对点之间的距离。刚性变换可包括旋转、平移、反射、或者旋转、平移和/或反射的某种组合。在一种配置中,回归向量可表示神经网络的所预测模板顶点(例如,所预测模板顶点412)和锚框(例如,锚框410)之间的差异。锚框(例如,锚框410)可以是由预定义的规则网格给出的图像区域的一部分。模板顶点(例如,所预测模板顶点412)可以是模板图像的四个角点。模板顶点可以独立于模板图像的内容。对于每个锚框,可以获得回归向量以表示所预测模板顶点与该锚框之间的差异。可以使用四个顶点的坐标(例如,(0,0)、(1,0)、(1,1)、(0,1))来编码回归矢量,如下面将进一步描述的。
刚性变换矩阵可表示从模板多边形到目标对象在图像中的精确边界(例如,精确边界304中的顶点)的刚性变换。模板多边形可包括目标对象的实际角点/顶点(例如,停止标志的8个角点)。
在一种配置中,可以使用变换透视矩阵SL(3)的李代数sl(3)来表示8维(8D)变换矩阵。回归8D系数向量可以应用于sl(3)(导数被良好定义),并且变换矩阵SL(3)可以通过使用如以下所定义的矩阵指数来计算:
M(u)=M·exp(∑iuiEi)
其中,
M:锚框的变换矩阵(只平移矩形),
M(u):通过回归进行更新的变换矩阵,
ui:第i个回归向量元素(sl(3)的系数),
Ei:SL(3)的李代数基的第i个元素。
在一种配置中,可以使用四个顶点的坐标来对变换矩阵进行解码。四个预定义控制点(例如,(0,0)、(1,0)、(1,1)、(0,1))的回归平移向量可由神经网络402获得,变换矩阵可使用这些顶点通过求解
Figure BDA0002110125420000091
的线性方程
Figure BDA0002110125420000092
来计算
其中,
x,y:模板图像中的顶点,
x’,y’:图像中的顶点。
变换单元408可以基于所预测形状标签来确定模板多边形,并且使用刚性变换矩阵M对模板多边形进行变换以获得目标对象的精确边界(例如,目标对象的顶点)。
在一种配置中,可以获得目标对象的精确边界而无需任何后处理,诸如对象边框的分段、边缘检测、或角点检测等。结果,精确边界(例如,顶点)的估计时间可得以减少,并且精确边界的估计也可以更准确。因为目标对象的顶点是使用由CNN生成的变换矩阵直接估计的,所以输入图像内的遮挡和/或交叠目标也得以处置。作为对比,使用后处理获得目标对象的精确边界不能处置输入图像内的遮挡和/或交叠目标。因此,当输入图像内存在遮挡和/或交叠目标时,使用对象边框的后处理所估计的目标对象的精确边界与本公开中所描述的方法相比可能不那么准确。此外,本公开中所描述的用于标识目标对象的精确边界的方法在处置小的且模糊的目标对象方面可能比使用后处理获得目标对象的精确边界更有效。
图5是解说用通过以上图4中所描述的对象检测网络400所获得的变换矩阵M来将模板多边形变换到图像502中的示例的示图500。在一种配置中,该示例中描述的各操作可以由上面参照图4所描述的变换单元408执行。变换矩阵M可以是由解码器406产生的刚性变换矩阵M。
在一种配置中,包含目标对象514(例如,交通标志)的图像502可被提供给对象检测网络(例如,对象检测网络400)以生成变换矩阵M和针对目标对象514的所预测形状标签。基于所预测形状标签(例如,菱形形状),可以从可包括模板多边形504、506等的多个预定义的模板多边形中选择模板多边形504。模板多边形504可包括顶点(0.5,0)、(1,0.5)、(0.5,1)和(0,0.5)。模板顶点可以是(0,0)、(1,0)、(1,1)和(0,1)。
可以使用变换矩阵M来(在510)将所选模板多边形504变换到图像502中。通过将变换矩阵M应用于所选模板多边形504的顶点,可以获得目标对象514在图像502中的顶点。由此,可以标识出目标对象514在图像502中的精确边界512。
图6是使用神经网络进行对象检测的方法的流程图600。在一种配置中,神经网络可以是深度卷积神经网络(DCN)。该方法可由计算设备(例如,装备702/702')执行。在602,设备可基于包含对象(例如,交通标志)的输入图像使用神经网络来确定回归向量。在一种配置中,在602执行的操作可包括由上面参照图1所描述的神经网络402执行的操作。在一种配置中,回归向量对于仿射变换可包括6个维度。在一种配置中,回归向量对于透视变换可包括8个维度。在一种配置中,对象可具有带有已知形状的平坦表面。在这样的配置中,可以存在各形状的预定义列表,并且对象的形状在该预定义列表中。
在604,设备可基于回归向量来导出变换矩阵。在一种配置中,在604执行的操作可包括由上面参照图4所描述的解码器406执行的操作。
在606,设备可基于变换矩阵来标识对象的精确边界。在一种配置中,在606执行的操作可包括由上面参照图4所描述的变换单元408执行的操作。在一种配置中,对象的边界可包括对象的多个顶点。在一种配置中,为了标识对象的边界,设备可将变换矩阵应用于对象的所预测形状,例如,执行表示所预测形状的顶点的向量与变换矩阵之间的矩阵乘法。对象的形状可以与对象的大小无关,并且对象的边界可以与对象的大小相关。在一种配置中,对象的形状可由神经网络来确定。对象的形状可以是包括存储在数据库中的多个顶点坐标的特定对象类的形状。对象类可由神经网络确定。在一种配置中,可以在将变换矩阵应用于对象的所预测形状之后标识出对象的边界,而无需执行任何附加处理(例如,以下一者或多者:对对象的分段、边缘检测、或角点检测)。
图7是解说示例性装备702中的不同装置/组件之间的数据流的概念性数据流图700。装备702可以是计算设备。
装备702可包括回归向量组件704,其基于输入图像712使用神经网络来确定回归向量。在一种配置中,回归向量组件704可以执行由上面参照图4所描述的神经网络402执行的操作。在一种配置中,回归向量组件704可以执行上面参照图6中的602所描述的操作。
装备702可包括形状预测组件710,其基于输入图像712使用神经网络来预测目标对象的形状标签。在一种配置中,形状预测组件710可以执行由上面参照图4所描述的神经网络402执行的操作。
装备702可包括变换矩阵组件706,其从回归向量组件704接收回归向量并基于这些回归向量来导出变换矩阵。在一种配置中,变换矩阵组件706可以执行上面参照图6中的604所描述的操作。在一种配置中,变换矩阵组件706可以执行由上面参照图4所描述的解码器406执行的操作。
装备702可包括边界标识组件708,其从变换矩阵组件706接收变换矩阵。边界标识组件708可进一步从形状预测组件710接收所预测形状标签,并查询形状数据库714以将所预测形状标签映射到实际形状(例如,模板多边形)。边界标识组件708可以基于变换矩阵和模板多边形来标识目标对象的精确边界。在一种配置中,边界标识组件708可以执行上面参照图6中的606所描述的操作。在一种配置中,边界标识组件708可以执行由上面参照图4所描述的变换单元408执行的操作。
装备702可包括执行图6的前述流程图中的算法的每个框的附加组件。如此,图6的前述流程图中的每个框可由一组件执行且该装备可包括那些组件中的一者或多者。这些组件可以是专门配置成执行所述过程/算法的一个或多个硬件组件、由配置成执行所述过程/算法的处理器实现、存储在计算机可读介质中以供由处理器实现、或其某种组合。
图8是解说采用处理系统814的装备702'的硬件实现的示例的示图800。处理系统814可以用由总线824一般化地表示的总线架构来实现。取决于处理系统814的具体应用和总体设计约束,总线824可包括任何数目的互连总线和桥接器。总线824将包括一个或多个处理器和/或硬件组件(由处理器804,组件704、706、708、710,以及计算机可读介质/存储器806表示)的各种电路链接在一起。总线824还可链接各种其他电路,诸如定时源、外围设备、稳压器和功率管理电路,这些电路在本领域中是众所周知的,且因此将不再进一步描述。
处理系统814可被耦合到收发机810。收发机810可被耦合到一个或多个天线820。收发机810提供用于通过传输介质与各种其他装备通信的手段。收发机810从一个或多个天线820接收信号,从接收到的信号中提取信息,并向处理系统814提供所提取的信息。另外,收发机810从处理系统814接收信息,并基于接收到的信息来生成将被施加给一个或多个天线820的信号。处理系统814包括耦合到计算机可读介质/存储器806的处理器804。处理器804负责一般性处理,包括对存储在计算机可读介质/存储器806上的软件的执行。该软件在由处理器804执行时使处理系统814执行上文针对任何特定装备所描述的各种功能。计算机可读介质/存储器806还可被用于存储由处理器804在执行软件时操纵的数据。处理系统814进一步包括组件704、706、708、710中的至少一个组件。这些组件可以是在处理器804中运行的软件组件、驻留/存储在计算机可读介质/存储器806中的软件组件、耦合到处理器804的一个或多个硬件组件、或其某种组合。
在一种配置中,装备702/702'可包括用于基于包括对象的输入图像使用神经网络来确定回归向量的装置。在一种配置中,用于确定回归向量的装置可以执行上面参照图6中的602所描述的操作。在一种配置中,用于确定回归向量的装置可包括回归向量组件704和/或处理器804。
在一种配置中,装备702/702'可包括用于基于回归向量来导出变换矩阵的装置。在一种配置中,用于基于回归向量来导出变换矩阵的装置可以执行上面参照图6中的604所描述的操作。在一种配置中,用于基于回归向量来导出变换矩阵的装置可包括变换矩阵组件706和/或处理器804。
在一种配置中,装备702/702'可包括用于基于变换矩阵来标识对象的边界的装置。在一种配置中,用于基于变换矩阵来标识对象的边界的装置可以执行上面参照图6中的606所描述的操作。在一种配置中,用于基于变换矩阵来标识对象的边界的装置可包括边界标识组件708和/或处理器804。
在一种配置中,用于标识对象的边界的装置可被配置成将变换矩阵应用于对象的形状。在一种配置中,用于标识对象的边界的装置在将变换矩阵应用于对象的形状之后可以不执行任何附加处理。
前述装置可以是装备702的前述组件和/或装备702'的处理系统814中被配置成执行由前述装置叙述的功能的一个或多个组件。
应理解,所公开的过程/流程图中的各个框的具体次序或层次是示例性办法的解说。应理解,基于设计偏好,可以重新编排这些过程/流程图中的各个框的具体次序或层次。此外,一些框可被组合或被略去。所附方法权利要求以范例次序呈现各种框的要素,且并不意味着被限定于所呈现的具体次序或层次。
提供之前的描述是为了使本领域任何技术人员均能够实践本文中所描述的各种方面。对这些方面的各种修改将容易为本领域技术人员所明白,并且在本文中所定义的普适原理可被应用于其他方面。因此,权利要求并非旨在被限定于本文中所示的方面,而是应被授予与语言上的权利要求相一致的全部范围,其中对要素的单数形式的引述除非特别声明,否则并非旨在表示“有且仅有一个”,而是“一个或多个”。本文使用术语“示例性”意指“用作示例、实例或解说”。本文中描述为“示例性”的任何方面不必被解释成优于或胜过其他方面。除非特别另外声明,否则术语“一些”指代一个或多个。诸如“A、B或C中的至少一者”、“A、B或C中的一者或多者”、“A、B和C中的至少一者”、“A、B和C中的一者或多者”、以及“A、B、C或其任何组合”之类的组合包括A、B和/或C的任何组合,并且可包括多个A、多个B或者多个C。具体地,诸如“A、B或C中的至少一者”、“A、B或C中的一者或多者”、“A、B和C中的至少一者”、“A、B和C中的一者或多者”、以及“A、B、C或其任何组合”之类的组合可以是仅A、仅B、仅C、A和B、A和C、B和C、或者A和B和C,其中任何此类组合可包含A、B或C中的一个或多个成员。本公开通篇描述的各个方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此,且旨在被权利要求所涵盖。此外,本文中所公开的任何内容都并非旨在贡献给公众,无论这样的公开是否在权利要求书中被显式地叙述。措辞“模块”、“机制”、“元素”、“设备”等等可以不是措辞“装置”的代替。如此,没有任何权利要求元素应被解释为装置加功能,除非该元素是使用短语“用于……的装置”来明确叙述的。

Claims (21)

1.一种对象检测方法,包括:
基于包括对象的输入图像使用神经网络来确定回归向量;
使用所述神经网络来确定所述对象的形状;
基于所述回归向量来导出变换矩阵;
将所述变换矩阵应用于所述对象的所述形状;以及
在将所述变换矩阵应用于所述对象的所述形状之后,在不执行边缘检测或角点检测的情况下标识所述对象的边界。
2.如权利要求1所述的方法,其特征在于,所述对象的所述边界包括所述对象的多个顶点。
3.如权利要求1所述的方法,其特征在于,所述回归向量对于仿射变换包括6个维度。
4.如权利要求1所述的方法,其特征在于,所述回归向量对于透视变换包括8个维度。
5.如权利要求1所述的方法,其特征在于,所述对象具有带有已知形状的平坦表面。
6.如权利要求5所述的方法,其特征在于,所述对象是交通标志。
7.如权利要求1所述的方法,其特征在于,标识所述对象的所述边界包括:在将所述变换矩阵应用于所述对象的所述形状之后,在不执行对所述对象的分段的情况下标识所述对象的所述边界。
8.一种用于对象检测的装备,包括:
用于基于包括对象的输入图像使用神经网络来确定回归向量的装置;
用于使用所述神经网络来确定所述对象的形状的装置;
用于基于所述回归向量来导出变换矩阵的装置;
用于将所述变换矩阵应用于所述对象的所述形状的装置;以及
用于在将所述变换矩阵应用于所述对象的所述形状之后,在不执行边缘检测或角点检测的情况下标识所述对象的边界的装置。
9.如权利要求8所述的装备,其特征在于,所述对象的所述边界包括所述对象的多个顶点。
10.如权利要求8所述的装备,其特征在于,所述回归向量对于仿射变换包括6个维度。
11.如权利要求8所述的装备,其特征在于,所述回归向量对于透视变换包括8个维度。
12.如权利要求8所述的装备,其特征在于,所述对象具有带有已知形状的平坦表面。
13.如权利要求8所述的装备,其特征在于,所述用于标识所述对象的所述边界的装置被配置成:在将所述变换矩阵应用于所述对象的所述形状之后,在不执行对所述对象的分段的情况下标识所述对象的所述边界。
14.一种用于对象检测的装置,包括:
存储器;以及
耦合到所述存储器的至少一个处理器,其中所述至少一个处理器被配置成:
基于包括对象的输入图像使用神经网络来确定回归向量;
使用所述神经网络来确定所述对象的形状;
基于所述回归向量来导出变换矩阵;
将所述变换矩阵应用于所述对象的所述形状;以及
在将所述变换矩阵应用于所述对象的所述形状之后,在不执行边缘检测或角点检测的情况下标识所述对象的边界。
15.如权利要求14所述的装置,其特征在于,所述对象的所述边界包括所述对象的多个顶点。
16.如权利要求14所述的装置,其特征在于,所述回归向量对于仿射变换包括6个维度。
17.如权利要求14所述的装置,其特征在于,所述回归向量对于透视变换包括8个维度。
18.如权利要求14所述的装置,其特征在于,所述对象具有带有已知形状的平坦表面。
19.如权利要求18所述的装置,其特征在于,所述对象是交通标志。
20.如权利要求14所述的装置,其特征在于,所述至少一个处理器被配置成:在将所述变换矩阵应用于所述对象的所述形状之后,在不执行对所述对象的分段的情况下标识所述对象的所述边界。
21.一种其上存储有代码的非瞬态计算机可读介质,所述代码在被执行时使得至少一个处理器:
基于包括对象的输入图像使用神经网络来确定回归向量;
使用所述神经网络来确定所述对象的形状;
基于所述回归向量来导出变换矩阵;
将所述变换矩阵应用于所述对象的所述形状;以及
在将所述变换矩阵应用于所述对象的所述形状之后,在不执行边缘检测或角点检测的情况下标识所述对象的边界。
CN201780081204.4A 2017-01-03 2017-12-18 使用神经网络的同时对象检测和刚性变换估计 Active CN110121713B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762441889P 2017-01-03 2017-01-03
US62/441,889 2017-01-03
US15/441,114 US10262218B2 (en) 2017-01-03 2017-02-23 Simultaneous object detection and rigid transform estimation using neural network
US15/441,114 2017-02-23
PCT/US2017/066977 WO2018128784A1 (en) 2017-01-03 2017-12-18 Simultaneous object detection and rigid transform estimation using neural network

Publications (2)

Publication Number Publication Date
CN110121713A CN110121713A (zh) 2019-08-13
CN110121713B true CN110121713B (zh) 2020-08-14

Family

ID=62712292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780081204.4A Active CN110121713B (zh) 2017-01-03 2017-12-18 使用神经网络的同时对象检测和刚性变换估计

Country Status (4)

Country Link
US (1) US10262218B2 (zh)
CN (1) CN110121713B (zh)
TW (1) TW201830278A (zh)
WO (1) WO2018128784A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
KR101834778B1 (ko) * 2017-05-30 2018-03-07 만도헬라일렉트로닉스(주) 교통 표지판 인식장치 및 방법
WO2018222896A1 (en) 2017-05-31 2018-12-06 Intel Corporation Gradient-based training engine for quaternion-based machine-learning systems
US10706547B2 (en) * 2017-06-02 2020-07-07 Htc Corporation Image segmentation method and apparatus
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US20210098001A1 (en) 2018-09-13 2021-04-01 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device
EP3864573A1 (en) 2018-10-11 2021-08-18 Tesla, Inc. Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
TWI670610B (zh) * 2018-12-06 2019-09-01 中華電信股份有限公司 可客製化用於偵測特定樣式物件之方法
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
CN110197195B (zh) * 2019-04-15 2022-12-23 深圳大学 一种新型面向行为识别的深层网络系统及方法
CN110210354A (zh) * 2019-05-23 2019-09-06 南京邮电大学 一种雾霾天气交通标识检测与识别的方法
GB2590947B (en) 2020-01-08 2023-12-20 Opsydia Ltd Methods and devices for determining a location associated with a gemstone
DE102020112149A1 (de) 2020-05-05 2021-11-11 Integrated Dynamics Engineering Gesellschaft mit beschränkter Haftung Verfahren zur Kontrolle von Handlingsystemen
US11842544B2 (en) * 2021-06-04 2023-12-12 Fujitsu Limited Automatic perspective transformation
CN114677337B (zh) * 2022-03-11 2022-10-04 常州市新创智能科技有限公司 一种碳纤维布面的油污检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447498A (zh) * 2014-09-22 2016-03-30 三星电子株式会社 配置有神经网络的客户端设备、系统和服务器系统
CN105981041A (zh) * 2014-05-29 2016-09-28 北京旷视科技有限公司 使用粗到细级联神经网络的面部关键点定位
WO2016176095A1 (en) * 2015-04-28 2016-11-03 Qualcomm Incorporated Reducing image resolution in deep convolutional networks

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2107503A1 (en) * 2008-03-31 2009-10-07 Harman Becker Automotive Systems GmbH Method and device for generating a real time environment model for vehicles
US9418319B2 (en) * 2014-11-21 2016-08-16 Adobe Systems Incorporated Object detection using cascaded convolutional neural networks
CN104517103A (zh) 2014-12-26 2015-04-15 广州中国科学院先进技术研究所 一种基于深度神经网络的交通标志分类方法
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
CN105678318B (zh) 2015-12-31 2019-03-08 百度在线网络技术(北京)有限公司 交通标牌的匹配方法及装置
US11100398B2 (en) * 2016-06-30 2021-08-24 Cogniac, Corp. Operating machine-learning models on different platforms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105981041A (zh) * 2014-05-29 2016-09-28 北京旷视科技有限公司 使用粗到细级联神经网络的面部关键点定位
CN105447498A (zh) * 2014-09-22 2016-03-30 三星电子株式会社 配置有神经网络的客户端设备、系统和服务器系统
WO2016176095A1 (en) * 2015-04-28 2016-11-03 Qualcomm Incorporated Reducing image resolution in deep convolutional networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Spatial Transformer Networks;MAX JADERBERG;《ARXIV.ORG, CORNELL UNIVERSITY LIBRARY》;20150605;全文 *

Also Published As

Publication number Publication date
TW201830278A (zh) 2018-08-16
US10262218B2 (en) 2019-04-16
WO2018128784A1 (en) 2018-07-12
US20180189580A1 (en) 2018-07-05
CN110121713A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110121713B (zh) 使用神经网络的同时对象检测和刚性变换估计
US20210183073A1 (en) Predicting subject body poses and subject movement intent using probabilistic generative models
US10510146B2 (en) Neural network for image processing
EP3427194B1 (en) Recurrent networks with motion-based attention for video understanding
US9830709B2 (en) Video analysis with convolutional attention recurrent neural networks
US20180129934A1 (en) Enhanced siamese trackers
Bouti et al. A robust system for road sign detection and classification using LeNet architecture based on convolutional neural network
CN107533669B (zh) 滤波器特异性作为用于神经网络的训练准则
US20190050729A1 (en) Deep learning solutions for safe, legal, and/or efficient autonomous driving
WO2016130203A1 (en) Convolution matrix multiply with callback for deep tiling for deep convolutional neural networks
Lee et al. Accurate traffic light detection using deep neural network with focal regression loss
Ayachi et al. Pedestrian detection based on light-weighted separable convolution for advanced driver assistance systems
US11574500B2 (en) Real-time facial landmark detection
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
US11270425B2 (en) Coordinate estimation on n-spheres with spherical regression
US20230137337A1 (en) Enhanced machine learning model for joint detection and multi person pose estimation
US20220207337A1 (en) Method for artificial neural network and neural processing unit
US20210042613A1 (en) Techniques for understanding how trained neural networks operate
KR20220097161A (ko) 인공신경망을 위한 방법 및 신경 프로세싱 유닛
Wang et al. Occluded vehicle detection with local connected deep model
Gepperth et al. Real-time detection and classification of cars in video sequences
Oza et al. Traffic sign detection and recognition using deep learning
Manasa et al. Knowledge Discovery Based Automated Recognition of Traffic Sign Images Using Hybrid PCA-RBF Network
WO2023044661A1 (en) Learning reliable keypoints in situ with introspective self-supervision
Oztel Vision-based road segmentation for intelligent vehicles using deep convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant