CN110390249A - 利用卷积神经网络提取关于场景的动态信息的装置和方法 - Google Patents

利用卷积神经网络提取关于场景的动态信息的装置和方法 Download PDF

Info

Publication number
CN110390249A
CN110390249A CN201910312450.7A CN201910312450A CN110390249A CN 110390249 A CN110390249 A CN 110390249A CN 201910312450 A CN201910312450 A CN 201910312450A CN 110390249 A CN110390249 A CN 110390249A
Authority
CN
China
Prior art keywords
data
scene
sequence
module
multidate information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910312450.7A
Other languages
English (en)
Inventor
C·努恩
朱维檬
苏煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aptiv Technologies Ltd
Original Assignee
Aptiv Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aptiv Technologies Ltd filed Critical Aptiv Technologies Ltd
Publication of CN110390249A publication Critical patent/CN110390249A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

利用卷积神经网络提取关于场景的动态信息的装置和方法。一种提取动态信息的装置包括卷积神经网络,其中,该装置被配置成接收随时间获取的数据块序列,每个数据块包括场景的多维表示。所述卷积神经网络被配置成接收所述序列作为输入,并且作为响应输出关于场景的动态信息,其中,所述卷积神经网络包括多个模块,并且其中,每个模块被配置成执行特定处理任务以提取所述动态信息。

Description

利用卷积神经网络提取关于场景的动态信息的装置和方法
技术领域
本发明涉及借助于卷积神经网络进行数据处理的领域。
背景技术
卷积神经网络(CNN)被用于许多应用,尤其是用于需要处理大量数据以从数据中提取期望信息的应用。例如,数据可以表示捕捉存在于(真实)场景中的一个或更多个对象的图像或视频数据。CNN已被证明有用于自动提取更接近地表征由数据捕捉的场景的信息,例如关于场景中对象的位置和运动的信息。换句话说,CNN可以被配置成执行数据的语义分析(即,通过模式识别)。作为一种可能的应用,可以在此分析的基础上控制机器。场景例如可以是车辆周围的交通场景,所述车辆应当基于对交通场景的自动语义分析来控制。这被称为自主行驶应用。
CNN是用于处理数据的计算机实现方法的结构表示。CNN包括利用卷积核处理数据,卷积核是包括以预定模式排列的多个值(即,过滤器权重)的过滤器掩模(filtermask)。用输入数据来与卷积核进行卷积以便处理数据。可以将常数与卷积结果相加,然后利用所谓的激活函数进行过滤,如神经网络领域的技术人员所知的。这些处理步骤可以形成CNN的结构性单元,通常称为卷积层。卷积核的使用有助于避免修改输入数据中的空间模式。因此,具有空间模式的任何输入数据(例如,图像和视频)都可以由CNN处理。而且,当需要处理大量数据时,卷积核提供了卓越的处理效率。
普通CNN的一个问题是它们本身未被配置成处理时间相关数据,即,随时间顺序地捕获的数据序列。这就是说,普通CNN假设数据项(例如,输入数据“块”)具有一个共同的时间戳,视频帧可能就是这样的情况。因此,通常顺序地处理输入的数据项序列,即,通过一个接一个地处理数据项。这种方法的缺点是CNN没有明确地识别数据中的时间相关性。
大多数类型的实际数据中都存在时间相关性,例如,在交通环境的数据(其表示真实场景)中。这是因为对象(特别是诸如车辆、行人等的移动对象)由于其速度限制而仅能够平稳地移动。这种时间相关性对于鲁棒地提取想得到的信息的而言非常重要(诸如对象的检测或分类(图像分类))。一个原因是(真实)数据通常是在非最佳条件下捕获的。而且,由于其它对象的遮挡,对象可能突然出现和消失。这种现象也被称为对象出生(objectbirth)和对象死亡(object death)。因此,从复杂场景的数据提取信息通常需要使用时间信息,以便对数据执行鲁棒的语义分析。
已经努力使CNN能够识别顺序数据中的时间相关性,例如采用递归神经网络(RNN)和长短期记忆(LSTM)的形式。然而,事实证明,这些类型的神经网络并不总是有足够能力应付复杂数据,如表示具有许多不同移动对象的场景的数据。应当明白,该数据可以借助于摄像头捕获。然而,在其它应用中,特别是现代车辆应用,数据也可以通过其它传感器捕获,包括一个或更多个雷达传感器或光检测和测距(激光雷达(lidar))系统。与这些应用相关,数据通常表示车辆周围的交通场景,其中,可以将不同类型的传感器数据进行组合。交通场景需要根据数据恒定且可靠地进行分析,以使得能够实现安全的自主行驶应用。然而,已经证明利用已知类型的CNN难以鲁棒地提取所需信息。
为了解决上述问题,可以采用多种不同的CNN,其中每个CNN都提供期望信息的一部分。这些CNN必须单独进行训练,尽管它们都提供了彼此主要相关的信息。例如,基于原始传感器数据,可以使用多个CNN来分别提取关于被用于获取原始传感器数据的传感器视场中的场景的对象检测和空闲空间的信息。基于所提取的信息,可以生成进一步的信息。
使用多个CNN的缺点是它们难以组合。通常,各种类型的信息具有不同的数据格式,所以一起使用和分析数据已经显示出具有挑战性。对数据进行预处理和测试CNN的不同训练方案看来不适合完全克服这一挑战。而且,使用多个CNN通常不适合从各种类型的数据提取可靠的动态信息。关于上述时间信息的重要性,数据中的时间信息的有效使用看来受到标准CNN的限制。
发明内容
本发明所要解决的问题是提供一种利用CNN从序列中提取可靠的动态信息的装置和方法。
该问题通过提取动态信息的装置和提取关于场景的动态信息的方法来解决。
提取动态信息的装置被配置成接收随着时间获取的数据块序列,各个数据块包括场景的多维表示,其中,卷积神经网络被配置成接收所述序列作为输入,并且作为响应输出关于所述场景的动态信息,其中,所述卷积神经网络包括多个模块,并且其中,各个模块被配置成执行特定处理任务以提取所述动态信息。
本发明的一个方面是使用一个单个(即,全局)CNN来提取所述动态信息。该CNN具有模块化结构,其中,每个模块可以由神经网络形成,在这种情况下,这些模块可以被表示为子网络。本发明的方法是整体方法,其中,保持将复杂处理划分为多个单元的优点,同时去除了必须处理多个单独网络的缺点。CNN明确地将数据块序列作为输入,所以现在可以有效地提取动态信息,即,考虑到该序列中的时间变化的信息。根据本发明的装置已被证明在鲁棒地提取可靠动态信息方面是强大的,并且其可以容易地集成到许多应用中,如自主行驶应用。与从该序列的每个块提取该数据的情况相比,所述动态信息更准确,因为CNN考虑了所述块之间的相互依赖性。由于CNN结构复杂,因此,这可以称为深度CNN。
所述模块可以按行(即,“管线(pipe-line)”结构)使用。尽管每个模块被设计成执行特定处理任务,但总体CNN可以按端到端方式进行训练,其简化了网络的准备和任何必要的适应。
优选地,所述序列由原始传感器数据形成,即,由传感器获取的数据形成,其中,术语“原始”是指所述数据未经预处理。这使得所述装置特别用户友好并且避免了与按照采用适于利用已知类型CNN进行处理的格式获得所述原始传感器数据相关联的问题。
还优选地,所述序列中的每个数据块包括多个数据点,每个数据点表示所述场景中的空间位置。换句话说,每个数据块都由提供所述场景的空间表征的数据点排布组成。所述数据点可以被表示为点云,表示所述数据点直接从传感器输出,即,原始传感器数据。因而,所述序列可以包括这种点云的实例,其已经按不同时刻顺序地获取。然后,所述装置可以借助于CNN从所述序列提取所述动态信息。
本发明的实施方式在附属权利要求、描述以及附图中进行了描述。
根据优选实施方式,所述CNN的第一模块被配置成,从所述序列的数据块提取所述场景的图像数据,并且其中,所述图像数据由多维元素网格、具体为二维元素网格形成,每个元素包括一个或更多个通道。每个元素可以是图元(picture element)(像素)。所述通道可以是在已知图像传感器中使用的颜色通道,例如,RGB。然而,所述图像数据还可以包括表示速度信息的通道。速度信息例如可以利用基于多普勒(Doppler)雷达技术的雷达传感器来获取,如本领域所知的(即,“临近速度(range rate”)。应注意,所述序列中的所述数据块通常是高维的。因此,所述第一模块被实际配置成将数据简化到预定维数。所述网格是元素的空间排布,与所述场景具有空间对应关系。因此,所述网格可以被视为所述场景中的图像式“俯视图”。
优选地,所述第一模块是神经网络,其以数据块的数据点作为输入。所述第一模块优选为全连接层神经网络(fully-connected layer neural network)。
根据另一实施方式,第二模块被配置成从所述场景的图像数据提取所述场景的第一语义分割数据,其中,所述第一语义分割数据包括所述图像数据的分类,以区分在所述图像数据中捕获的对象与背景。所述图像数据优选地通过所述第一模块来提取。优选地,每图像(例如,每帧)执行所述语义分割的提取。
所述第二模块优选是U-net神经网络,其在:Olaf Ronneberger,PhilippFischer,Thomas Brox,"U-Net:Convolutional Networks for Biomedical ImageSegmentation",Medical Image Computing and Computer-Assisted Intervention(MICCAI),Springer,LNCS,Vol.9351:234-241,2015中有详细描述。
所述CNN的第三模块可以被设置并配置成从所述场景的第一语义分割数据提取所述场景的第二语义分割数据和/或所述场景的运动数据,其中,所述第一语义分割数据包括所述场景的图像数据的分类,以区分在所述图像数据中捕获的对象与背景,并且其中,所述运动数据表示在所述图像数据中捕获的对象的运动,并且其中,所述第三模块被配置成基于按多个不同时刻捕获的所述第一语义分割数据,提取所述第二语义分割数据和/或运动数据。所述运动数据可以表示由形成所述图像数据的相应元素表示的所述空间位置中的至少一些的方向和/或速度。换句话说,所述运动数据可以每数据点提供,例如,每像素或者对应于通道的每像素组。所述第一语义分割数据可以包括多个像素,即,所述第一语义分割数据可以具有图像的形式。
所述第三模块优选地被配置成执行所述序列中的时间信息的融合。这是因为所述第三模块的输入是来自不同时刻的语义分割数据,即,所述第三模块考虑所述输入数据随时间推移的不同“视图”,其可以被视为抽象视频。
所述第三模块优选地由递归神经网络(RNN)形成。该RNN可以具有特定结构,如下面将进一步讨论的。
根据另一实施方式,所述CNN的第四模块被配置成从所述第二语义分割数据和所述运动数据提取对象数据,其中,所述对象数据表示所述场景中对象的空间占用。
针对所述场景中的给定对象,所述对象数据可以包括围绕所述对象的边界框,这是一种形式的对象检测。边界框优选为围绕对象的矩形并且适合于对象的大小。这是一种表示对象的简单方法,其使对象数据的后续处理更加可靠。所述对象数据可以包括进一步的信息以对对象进行分类或表征,例如,对象类型、对地速度(speed over ground)、方向、大小、高度。利用该信息,通过标准跟踪算法(例如,卡尔曼(Kalman)过滤),可以容易地跟踪对象。
第四模块优选地由区域方案网络(region proposal network)形成,其在:Ren,Shaoqing and He,Kaiming and Girshick,Ross and Sun,Jian,Faster R-CNN:"TowardsReal-Time Object Detection with Region Proposal Networks",Advances in NeuralInformation Processing Systems 28,91-99,2015中有详细描述。
所述CNN的第五模块可以被配置成从所述第二语义分割数据和所述运动数据提取空闲空间数据,其中,所述空闲空间数据表示所述场景中空闲空间的空间占用。所述空闲空间数据包括关于至少两个类标签的分类,例如,空闲空间和未知空间。
所述第五模块优选地被实现为完全卷积网络,优选地,如在:Jonathan Long,EvanShelhamer,Trevor Darrell,"Fully Convolutional Models for SemanticSegmentation",CVPR,2015中详细描述的网络。
由所述CNN提取的所述动态信息优选地包括所述对象数据、所述空闲空间数据和/或所述运动数据。所述动态信息可以以组合表示输出。通常,所述动态信息表示所述场景中的动态变化,即,时间变化。这些变化可以在所述对象数据或所述空闲空间标记中编码,但也可以由运动数据明确给出。例如,针对每个检测到的对象,可以确定具有方向值(即,坐标)和幅度值的速度矢量。这对应于每对象的特定形式的运动数据,因此可以是所述对象数据的一部分。与此相反,在所述第三模块中提取的所述运动数据可以表示所述场景中的任何运动变化(例如,每像素)。
本发明还涉及一种用于处理数据序列的系统,所述系统包括用于捕获数据序列的至少一个传感器和根据本文所述实施方式之一的装置。所述传感器可以包括雷达传感器、光检测和测距传感器、超声传感器或摄像头中的至少一种。由所述装置接收到的所述序列优选地表示借助所述传感器获取的数据。
本发明还涉及提取关于场景的动态信息的方法,该方法包括以下步骤:
利用至少一个传感器获取数据块序列,每个数据块包括场景的多维表示;
利用卷积神经网络来提取关于所述场景的动态信息,其中,所述卷积神经网络被配置成接收所述数据块作为输入,并且作为响应输出所述动态信息,其中,所述卷积神经网络包括多个模块,并且其中,每个模块被配置成执行特定处理任务以提取所述动态信息。
考虑到优选应用,本发明还涉及具有如本文所述系统的车辆,其中,所述车辆的控制单元被配置成接收借助所述系统的所述装置提取的关于所述车辆周围环境的动态信息。所述车辆的所述控制单元还被配置成根据所提取的信息来控制所述车辆,和/或如果所述信息满足预定条件则输出警告信号。所述动态信息可以表示所述车辆周围环境中的对象的位置和移动。
在更具体的变型例中,所述装置可以被配置成提取关于包括卷积神经网络的车辆周围环境的动态信息,其中,所述装置被配置成直接接收原始传感器数据。该原始传感器数据包括利用安装在车辆上的至少一个传感器随时间获取的数据块序列,每个数据块包括多个数据点,并且每个数据点表示所述车辆周围环境中的空间位置。所述卷积神经网络被配置成接收所述数据块作为输入,并且作为响应输出所述动态信息,其中,所述卷积神经网络包括多个模块,并且其中,每个模块被配置成执行特定处理任务以提取所述动态信息。
考虑到所述第三模块,该模块可以具有特定结构,这将在下面进一步描述。
所述第三模块可以被配置成接收随时间捕获的输入序列,该序列包括多个数据项,每个数据项包括场景的多维表示,即,采用语义分割数据的形式。换句话说,每个数据项对应于按二维、三维或更多维捕获所述场景的一个时刻。所述数据项序列可以被解释为复杂视频,其中,该视频的帧对应于表示特定时刻的场景的数据项。优选地,所述输入序列中的每个数据项由来自一个时刻的第一分割数据形成。
所述第三模块还可以被配置成生成表示由所述卷积神经网络逐项处理的所述输入序列的输出序列,即,所述输入序列被顺序处理,优选地按照所述输入序列的次序。还优选地,所述输出序列包括多个数据项,每个数据项对应于所述输入序列的相应数据项的经处理版本。
所述第三模块可以包括采样单元,该采样单元被配置成通过根据采样网格从所述输出序列的过去部分采样来生成中间输出序列。所述输出序列的过去部分可以包括所述输出序列的最后一个数据项,但是也可以包括所述输出序列的更早的数据项。通过在所述第三模块中重新使用过去部分来处理所述输入序列的当前数据项,通过所述第三模块实现递归形式的处理。所述中间输出序列是所述输出序列的过去部分的修改版本,其中,所述修改是通过对所述数据项采样而逐项执行的。该采样对于考虑所述数据的动态变化是有用的,其可以被视为调整所述数据以改进输入序列的处理。下面将对其加以进一步说明。
所述第三模块还可以被配置成基于网格生成序列逐项生成所述采样网格,其中,所述网格生成序列基于所述输入序列与中间网格生成序列的组合。所述中间网格生成序列表示所述输出序列的过去部分或所述网格生成序列的过去部分。因此,所述网格生成序列包括当前输入序列和“处理历史”的信息。该历史可以以所述输出序列的所述过去部分(例如,所述输出序列的最后数据项)或者所述网格生成序列的所述过去部分(例如,所述网格生成序列的最后数据项)的形式来提供,它再次表示递归形式的处理。
所述第三模块还可以被配置成基于所述中间输出序列与所述输入序列的加权组合来生成所述输出序列。所述组合可以被解释为所述输出序列的受控预测,其中,例如,允许更多或更少的所述输入序列通过所述第三模块。由于所述递归处理,因此,所述中间输出序列还表示关于所述输入序列和所述输出序列的先前行为的信息。因此,所述第三模块明确地分析了时间相关性,并直接影响对所述输入序列的处理,即,生成所述输出序列。这使得所述第三模块能够在准确地考虑,即,识别所述输入数据序列中存在的时间信息时实现更好的鲁棒性。这意味着可以以增加的准确度提取同样通过时间相关性编码的信息,例如,对象的运动数据和对象检测数据。而且,针对因遮挡而突然出现和消失的对象(例如,对象出生和对象死亡),数据分析得到改善。
应注意,所述加权组合不限于上述序列的直接加权。视情况而定,可以在加权之前处理任何序列。例如,所述输入序列可以由内部CNN处理,这导致表示所述(原始)输入序列的中间输入序列。
所述第三模块可以被实现为所谓的深度神经网络。具体来说,所述第三模块可以包括多个内部CNN。这些内部CNN被视为所述第三模块的子网络,即,层,这些内部CNN可以具有相同、相似或不同的结构,但它们都包括利用卷积核卷积所述输入数据。另外,可以将卷积结果与常数相加并应用激活函数,激活函数可以是被配置成执行针对预定义标度的变换的函数,例如[0,1]的标度,即,所述输出数据处于0至1之间。针对激活函数的例子是sigmoid函数和tanh函数。另一例子是双侧阈值函数(two-sided threshold function)。
通常,结合所述第三模块处理的每个序列包括多个数据项,每个数据项包括多个数据点。以这种方式,对数据项的任何处理都可以涉及对所述数据点的处理。所述数据项可以逐个处理。另选地,可以并行处理数据项或者以数据项的组合来进行处理。
根据所述第三模块的优选变型例,所述网格生成序列基于所述输入序列与所述中间网格生成序列的逐项组合。例如,所述第三模块可以被配置成通过所述输入序列和所述中间网格生成序列的逐项组合来形成所述网格生成序列。所述组合可以是每数据项连结两个涉及的序列,其中,所述连结(concatenation)可以被配置成使得所连结的数据项的后续处理允许对形成所述连结的两个数据项进行单独处理。作为连结的另选,所述两个序列可以通过专用神经网络(同样优选为CNN)组合。在特定情况下,该CNN可以是卷积门控递归单元(GRU:Gated Recurrent Unit),其是在:Tokmakov,P.,Alahari,K.and Schmid,C.,2017,Learning Video Object Segmentation with Visual Memory.arXiv preprint arXiv:1704.05737中描述的类型的RNN。在另一特定情况下,用于组合所述两个序列的CNN可以是卷积LSTM。优选地,该卷积LSTM如在:Xingjian,S.H.I.,Chen,Z.,Wang,H.,Yeung,D.Y.,Wong,W.K.and Woo,W.C.,2015:"Convolutional LSTM network:A machine learningapproach for precipitation nowcasting".Advances in neural informationprocessing systems(pp.802-810)中所述来实现。
所述中间网格生成序列可以由所述输出序列的所述过去部分形成,具体来说,其中,所述输出序列的过去部分是利用内部CNN来处理的。另选地,所述中间网格生成序列可以由利用内部CNN处理过的、所述网格生成序列的过去部分来形成。
所述采样网络优选地通过利用至少一个内部CNN处理所述网格生成序列来生成。这优选地逐项执行,即,从所述网格生成序列中的一个数据项生成一个采样网格。因此,可以形成采样网格序列。然而,优选地每个时间步仅存在一个采样网格。换句话说,在所述第三模块中,不存在网格序列,而是每个时间只有一个网格。
所述第三模块可以被配置成通过执行以下步骤来生成所述输出序列。作为第一步骤,基于所述输入序列、所述中间输出序列、所述中间网格生成序列、由内部卷积网络处理的网格生成序列,或其组合中的一个来生成第一加权序列和第二加权序列。两个加权序列可以在相同或不同基础上生成。例如,可以在上述序列的不同组合上生成每个加权序列。
作为下一步骤,通过利用内部CNN处理所述输入序列来生成中间输入序列。然后,用所述第一加权序列加权所述中间输出序列,并且用所述第二加权序列加权所述中间输入序列。然后将这两个加权序列叠加,例如通过简单地将所述序列相加,优选为逐项相加。所述加权可以是乘法,特别是逐点乘法,这也被称为Hadamard乘积。在后一种情况下,每个涉及的序列由包括多个数据点(具体为像素)的数据项组成。
生成所述第一加权序列和/或所述第二加权序列包括:形成所述输入序列、所述中间输出序列、所述中间网格生成序列、由内部卷积网络处理的网格生成序列中的至少两个的组合(例如,连结);通过利用内部卷积神经网络处理所述组合来形成经处理的组合。该内部CNN优选地被配置成利用卷积核和激活函数(具体为sigmoid函数)来处理。
在另一变型例中,所述第一加权序列和所述第二加权序列中的一个序列由经处理的组合形成,并且其中,所述第一加权序列或所述第二加权序列中的另一个根据从常数中减去所述经处理的组合来形成。
通常,所述第三模块可以被配置成对应地生成所述第一加权序列和第二加权序列。然而,应当明白,每个加权序列的处理参数可以不同,特别是被用于处理所述序列的任何卷积核。
考虑到所述采样单元,所述采样网格优选地包括多个采样位置,每个采样位置由偏移量与所述中间输出序列的数据项的多个数据点中的一个数据点的相应一对来限定。因此,偏移量表示位于该偏移量下的一数据点的位置移位。因此,所述采样网格限定了要相对于所述中间输出序列的规则数据点来对所述输出序列的过去部分进行采样的位置。这可以被视为通过生成的所述采样网格控制的特定处理形式。优选地,所述网格被配置为预测所述数据中的运动。因此,考虑到先前数据项中的时间变化,可以优化由给定数据项表示的数据。运动数据可以用所述偏移量来表示,其可以被视为指向期望采样位置的矢量。所述采样单元可以被配置成执行数据点的插值。因此,如果采样位置处于待采样的数据项的给定数据点之间,那么可以简单地从一个或更多个邻近数据点内插所述采样数据点,例如,通过双线性插值。
所述场景的所述运动数据可以根据在所述第三模块中生成的一个或更多个采样网格的多个偏移量形成。
所述输入序列中的每个数据项可以包括多个数据点,每个数据点表示所述场景中的位置,并且包括该位置的多个参数,具体为坐标。具体地,所述输入序列中的每个数据项的数据点可以由包括多个像素的图像形成。这就是说,所述数据点可以由像素形成,其中,每个数据项优选地以二维或三维表示所述场景。通常,结合所述第三模块描述的每个序列可以由在结构上与所述输入序列中的所述数据项相对应的数据项形成。
如本领域技术人员所知的,CNN被配置用于通过训练CNN来进行处理。在训练CNN期间,通常有两个步骤,前馈和后向传播。在前馈中,所述网络接收输入数据并利用初始处理参数(即,过滤器权重和常数)计算输出数据。然后,鉴于正确的输出数据,在反向传播期间更新所述参数,其中,计算损失函数的梯度(梯度下降)。
考虑到全局CNN的模块化结构,所述模块可以先单独训练(预训练)。然后,可以对全局CNN进行训练。该训练过程已经表明进一步提高了所提取信息的准确度。
附图说明
参照附图,通过示例对本发明进一步描述,其中:
图1示出了根据本发明的装置中的CNN的框图;
图2例示了在提取动态信息期间生成的数据;
图3示出了具有如图1所示的包括CNN的装置的系统。
图4至图13示出了针对如图1所示的CNN的第三模块的变型例。
具体实施方式
CNN 90接收数据块92作为输入(参见图1)。数据块92包括多个数据点94,每个数据点94用三个参数来表示位置。例如,数据块92可以是雷达传感器的原始传感器数据。在这种情况下,每个数据点94可以用极坐标(范围,角度)和临近速度(总计三个维度)来描述。数据块92可以具有数据点94的三维排布,如图1所示。然而,其它排布和超过三个维度也是可能的。应当明白,CNN 90顺序地接收数据块92。
数据块92是场景的物理表示,其被示出为图2中的示例图像106,包括表示为白色矩形的三个对象。这实际上是“真值(ground truth)”。
CNN 90共有五个模块,每个模块由CNN 90的子网络形成。第一模块96是被配置成根据数据块92生成图像数据的神经网络。在图2中,给出包括2个通道的图像数据的示例108。如可以看出,示例108是真值图像106的噪声表示。
然后,第二模块98接收图像数据108,第二模块98被配置成提供图像数据108的第一语义分割和运动信息。第一语义分割由图2中的图像110示出。
然后,第三模块100处理所述第一分割,第三模块100被配置成提供图像数据的第二语义分割和运动信息,由图2中的图像112示出。可以从图2看出,第二分割相对于对象更好地与地面实况图像106匹配,因此提供比第一语义分割准确的结果。其主要原因是在第三模块100中明确使用该序列的时间信息。针对形成图像112的一些组元,以白色箭头的形式在图像112中示出了运动信息。这些箭头表示如果第三模块包括如上所述的采样单元则产生的偏移量。
在第二分割数据和运动信息的基础上,第四模块102和第五模块104提供对象数据(图像114)和场景的空闲空间标记(图像116),如图2所示。对象数据包括每个对象的(白色)边界框和指示对象的方向和速度的矢量。
参照图2,系统26可以包括用于捕获(即,获取)装置32的输入序列36的传感器28,其中,输入序列36可以表示场景,例如,交通场景。传感器28可以是安装在车辆(未示出)上的雷达传感器,其被配置用于系统26的自主行驶应用。
输入序列36由装置32接收并通过CNN(例如,图1所示的CNN)处理。这就是说,装置32具有处理装置,该处理装置被配置成利用如本文所述的CNN。输出数据38由装置32输出,并且可以被输入至车辆(未示出)的控制单元34。控制单元34被配置成基于输出数据38来控制车辆。
在下文中,描述了第三模块100的不同变型例。
图4中所示的第三模块10的第一示例。输入序列It={…,It-2,It-1,It,It+1,…}的处理(其中,t是序列索引,并且序列中的每个元素是数据项)可以通过以下方程组来描述:
Gt=CNN(It,ht-1)
变量ht分别代表输出序列和中间输出序列。变量zt表示加权序列。所述序列中的每个数据项包括多个数据点,例如,图像的像素。
在所述公式中,*指示卷积运算符,⊙指示逐点乘法(Hadamard乘积)。W指示卷积核,并且索引指示内核引用的变量。“样本”指示借助于采样单元12进行采样,其中第一自变量(argument)是对采样单元12的输入,而第二个自变量是采样网格。
在图4中,实心黑色方块14通常指示信息的“复制”,其意指离开方块14的箭头携带与输入箭头相同的信息。实心黑色圆圈16通常指示信息的组合。例如,输出序列的过去部分ht-1与输入序列It连结,以形成17处的中间网格生成序列。然后该序列通过CNN 18处理,CNN18通常是内部CNN。结果是图1的情况下的采样网格Gt。CNN()是方程中的算子,其中,CNN()的自变量是指自变量的组合,例如,连结。
类似地,中间输出序列与输入序列It连结,然后通过如上面方程中定义的块22来处理,其中,σ指示sigmoid函数。块22是内部CNN的特定形式。
如可以从上面ht的公式中看出,利用另一内部CNN 18来处理输入序列。结果,即,CNN(It)是中间输入序列。
结合图4描述的一般惯例在图5至13中是相同的。
第二个示例,在图5中示出第三模块20,并且由以下方程组定义:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
与第一示例形成对比,网格生成序列是基于输入序列It与中间网格生成序列Ct-1的组合形成的。可以从图5看出,通过内部CNN 18来处理该组合,给出了Ct,网格生成序列的经处理版本,其递归地形成下一时间步的中间网格生成序列(Ct-1)。网格生成序列的经处理版本通过内部CNN 18'进一步处理以给出采样网格Gt
第三模块20的另一方面是第一加权序列ft和第二加权序列it由块22对应地形成,块22具有相同的输入,即,中间输出序列和输入序列的组合。
图6中所示的第三模块30形成由以下方程组描述的第三示例:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
it=σ(WIi*lt+Whi*ht-1+bi)
ft=σ(WIf*lt+Whf*ht-1+bf)
第三模块30与第三模块20的不同之处在于,第一加权序列ft和第二加权序列it基于输出序列的过去部分ht-1与输入序列的组合。
第四个示例由图7中的第三模块40给出。其由下面的方程组描述:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
it=σ(WIi*lt+Wci*Ct+bi)
ft=σ(WIf*lt+Wcf*Ct+bf)
第三模块40与第三模块20和30的不同之处在于,第一加权序列ft和第二加权序列it基于通过内部CNN 18处理的网格生成序列与输入序列的组合。
第五个示例由图8中所示的第三模块50给出。下面的方程组应用:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
it=σ(WIi*lt+Wci*Ct-1+bi)
ft=σ(WIf*lt+Wcf*Ct-1+bf)
如在图8和该方程中可以看出,第一加权序列ft和第二加权序列it基于中间网格生成序列Ct-1与输入序列It的组合。另外,在17处形成的网格生成序列由相同的组合形成。
第六个示例由图9中所示的第三模块60给出。下面的方程组应用:
it=σ(WIi*lt+Wci*Ct-1+bi)
ft=σ(WIf*lt+Wcf*Ct-1+bf)
Ct=CNN(ht)
与先前情况的主要差异在于,中间网格生成序列Ct-1由通过内部CNN 18处理的输出序列ht的过去部分形成,如第三模块60的右侧所示。
图10中所示的第三模块70由以下方程描述:
it=σ(WIi*lt+Wci*Ct-1+bi)
ft=σ(WIf*lt+Wcf*Ct-1+bf)
Ct=CNN(ht)
第三模块70对应于第三模块60,但是第一加权序列ft和第二加权序列it如第三模块50中那样形成。
第八个示例由图11中所示的第三模块80给出。下面的方程组应用:
Gt=CNN(It,ht-1)
zt=σ(Wiz*lt+Whz*ht-1+bz)
第八示例对应于图4的第三模块10,不同之处在于加权序列zt基于输入序列与输出序列的过去部分的组合。
第九个示例,第三模块20的变型例由图12中所示的第三模块20′给出。下面的方程组应用:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
在第三模块20′中,第一加权序列和第二加权序列不是相对于模块22的输入对应地形成的。可以从图9和该方程看出,对于第一加权序列,中间输出序列与利用内部CNN18处理的、在17处形成的网格生成序列(Ct,形成下一时间步的中间网格生成序列(即,数据项Ct-1))组合。相反,第二加权序列基于三个序列的组合,如上面针对ft的公式和图9中所定义的那样。从该示例可以明显看出,对块22的输入不需要相同。
第十个示例由图13中所示的第三模块20″给出。下面的方程组应用:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
第三模块20″对应于第三模块20′,区别在于对块22的输入可以涉及相同的序列组合。其它组合是可能的,也组合超过三个序列。
标号列表
10 第三模块
12 采样单元
14 复制
16 连结
17 网格生成序列
18、18' 内部CNN
20、20'、20" 第三模块
22 处理块
26 系统
28 传感器
30 第三模块
32 装置
34 控制单元
36 输入序列
38 输出序列
40、50 第三模块
60、70 第三模块
80 第三模块
90 全局CNN
92 数据块
94 数据点
96 第一模块
98 第二模块
100 第三模块
102 第四模块
104 第五模块
106 真值图像
108 图像数据
110 图像
112 图像
114 图像
116 图像

Claims (14)

1.一种提取动态信息的装置,所述装置包括卷积神经网络(90),
其中,所述装置(32)被配置成接收随时间获取的数据块(92)序列,各个所述数据块(92)包括场景(106)的多维表示,
其中,所述卷积神经网络(90)被配置成接收所述序列作为输入,并且作为响应输出关于所述场景的动态信息(114、116),其中,所述卷积神经网络(90)包括多个模块(96、98、100、102、104),并且其中,各个所述模块被配置成执行特定处理任务以提取所述动态信息(114、116)。
2.根据权利要求1所述的装置,
其中,第一模块(96)被配置成从所述序列的数据块(92)提取所述场景的图像数据(108),并且其中,所述图像数据(108)是由多维元素网格、具体为二维元素网格形成的,各个所述元素包括一个或更多个通道。
3.根据权利要求1或2所述的装置,
其中,第二模块(98)被配置成从所述场景的图像数据(108)提取所述场景的第一语义分割数据(110),其中,所述第一语义分割数据(110)包括所述图像数据(108)的分类,以区分在所述图像数据(108)中捕获的对象与背景。
4.根据前述权利要求中任一项所述的装置,
其中,第三模块(100)被配置成从所述场景的所述第一语义分割数据(110)提取所述场景的第二语义分割数据(112)和/或所述场景的运动数据,其中,所述第一语义分割数据(110)包括所述场景的图像数据(108)的分类,以区分在所述图像数据中捕获的对象与背景,并且其中,所述运动数据表示在所述图像数据中捕获的对象的运动,并且其中,所述第三模块(100)被配置成基于在多个不同时刻捕获的所述第一语义分割数据(110)来提取所述第二语义分割数据(112)和/或所述运动数据。
5.根据权利要求4所述的装置,
其中,所述第三模块(100)是由递归神经网络形成的。
6.根据权利要求4或5所述的装置,
其中,第四模块(102)被配置成从所述第二语义分割数据和所述运动数据提取对象数据(114),其中,所述对象数据表示所述场景中对象的空间占用,其中,所述对象数据(114)另外表示所述场景中对象的速度。
7.根据权利要求6所述的装置,
其中,针对所述场景中的给定对象,所述对象数据(114)包括围绕该对象的边界框,其中,所述对象数据(114)另外包括所述对象的速度。
8.根据权利要求4至7中任一项所述的装置,
其中,第五模块被配置成从所述第二语义分割数据和所述运动数据提取空闲空间数据(116),其中,所述空闲空间数据(116)表示所述场景中空闲空间的空间占用。
9.根据权利要求6至8中任一项所述的装置,
其中,所述动态信息包括所述对象数据(114)、所述空闲空间数据(116)和/或所述运动数据。
10.一种处理数据序列的系统(26),所述系统(26)包括用于捕获数据序列(36)的传感器(28)和根据前述权利要求中任一项所述的装置(32)。
11.根据权利要求10所述的系统,
其中,所述传感器(28)包括雷达传感器、光检测和测距传感器、超声传感器或摄像头中的至少一种,并且其中,所述数据序列表示借助于所述传感器(28)获取的数据。
12.一种提取关于场景的动态信息的方法,该方法包括以下步骤:
-利用至少一个传感器(28)获取数据块(92)序列,每个所述数据块(92)包括场景的多维表示;
-利用卷积神经网络(90)来提取关于所述场景的动态信息(114、116),其中,所述卷积神经网络(90)被配置成接收所述数据块(92)作为输入,并且作为响应输出所述动态信息(114、116),其中,所述卷积神经网络(90)包括多个模块(96、98、100、102、104),并且其中,每个所述模块被配置成执行特定处理任务以提取所述动态信息(114、116)。
13.一种具有根据权利要求10或11所述的系统的车辆,其中,所述车辆的控制单元被配置成接收借助于所述装置提取的关于所述车辆的周围环境的动态信息,
其中,所述车辆的所述控制单元还被配置成根据所提取的信息来控制所述车辆,和/或在所述信息满足预定条件的情况下输出警告信号。
14.根据权利要求13所述的车辆,
其中,所述动态信息表示所述车辆的周围环境中的对象的位置和移动。
CN201910312450.7A 2018-04-23 2019-04-18 利用卷积神经网络提取关于场景的动态信息的装置和方法 Pending CN110390249A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18168786.4 2018-04-23
EP18168786.4A EP3561727A1 (en) 2018-04-23 2018-04-23 A device and a method for extracting dynamic information on a scene using a convolutional neural network

Publications (1)

Publication Number Publication Date
CN110390249A true CN110390249A (zh) 2019-10-29

Family

ID=62046765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910312450.7A Pending CN110390249A (zh) 2018-04-23 2019-04-18 利用卷积神经网络提取关于场景的动态信息的装置和方法

Country Status (3)

Country Link
US (1) US11195038B2 (zh)
EP (1) EP3561727A1 (zh)
CN (1) CN110390249A (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678240B2 (en) * 2016-09-08 2020-06-09 Mentor Graphics Corporation Sensor modification based on an annotated environmental model
US11615285B2 (en) 2017-01-06 2023-03-28 Ecole Polytechnique Federale De Lausanne (Epfl) Generating and identifying functional subnetworks within structural networks
EP3495988A1 (en) 2017-12-05 2019-06-12 Aptiv Technologies Limited Method of processing image data in a connectionist network
EP3561726A1 (en) 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for processing data sequences using a convolutional neural network
US11972343B2 (en) 2018-06-11 2024-04-30 Inait Sa Encoding and decoding information
US11663478B2 (en) 2018-06-11 2023-05-30 Inait Sa Characterizing activity in a recurrent artificial neural network
US11893471B2 (en) 2018-06-11 2024-02-06 Inait Sa Encoding and decoding information and artificial neural networks
US11521009B2 (en) 2018-09-04 2022-12-06 Luminar, Llc Automatically generating training data for a lidar using simulated vehicles in virtual space
US11569978B2 (en) 2019-03-18 2023-01-31 Inait Sa Encrypting and decrypting information
US11652603B2 (en) 2019-03-18 2023-05-16 Inait Sa Homomorphic encryption
DE102019218349A1 (de) * 2019-11-27 2021-05-27 Robert Bosch Gmbh Verfahren zum Klassifizieren von zumindest einem Ultraschallecho aus Echosignalen
US11651210B2 (en) 2019-12-11 2023-05-16 Inait Sa Interpreting and improving the processing results of recurrent neural networks
US11580401B2 (en) 2019-12-11 2023-02-14 Inait Sa Distance metrics and clustering in recurrent neural networks
US11816553B2 (en) 2019-12-11 2023-11-14 Inait Sa Output from a recurrent neural network
US11797827B2 (en) * 2019-12-11 2023-10-24 Inait Sa Input into a neural network
KR20210106864A (ko) 2020-02-20 2021-08-31 삼성전자주식회사 레이더 신호에 기초한 오브젝트 검출 방법 및 장치
US11508147B2 (en) * 2020-03-06 2022-11-22 Google Llc Streaming object detection within sensor data
US20210282033A1 (en) * 2020-03-09 2021-09-09 Psj International Ltd. Positioning system for integrating machine learning positioning models and positioning method for the same
CN113177733B (zh) * 2021-05-20 2023-05-02 北京信息科技大学 基于卷积神经网络的中小微企业数据建模方法及系统
CN115019038B (zh) * 2022-05-23 2024-04-30 杭州海马体摄影有限公司 一种相似图像像素级语义匹配方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341452A (zh) * 2017-06-20 2017-11-10 东北电力大学 基于四元数时空卷积神经网络的人体行为识别方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9902115D0 (en) * 1999-02-01 1999-03-24 Axeon Limited Neural networks
US20160283864A1 (en) 2015-03-27 2016-09-29 Qualcomm Incorporated Sequential image sampling and storage of fine-tuned features
CN105628951B (zh) * 2015-12-31 2019-11-19 北京迈格威科技有限公司 用于测量对象的速度的方法和装置
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
US9760806B1 (en) * 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
US10902343B2 (en) * 2016-09-30 2021-01-26 Disney Enterprises, Inc. Deep-learning motion priors for full-body performance capture in real-time
CN108073933B (zh) * 2016-11-08 2021-05-25 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
US20180211403A1 (en) * 2017-01-20 2018-07-26 Ford Global Technologies, Llc Recurrent Deep Convolutional Neural Network For Object Detection
US10445928B2 (en) * 2017-02-11 2019-10-15 Vayavision Ltd. Method and system for generating multidimensional maps of a scene using a plurality of sensors of various types
US11049018B2 (en) * 2017-06-23 2021-06-29 Nvidia Corporation Transforming convolutional neural networks for visual sequence learning
US10210391B1 (en) * 2017-08-07 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos using contour sequences
US10705531B2 (en) * 2017-09-28 2020-07-07 Nec Corporation Generative adversarial inverse trajectory optimization for probabilistic vehicle forecasting
US10924755B2 (en) * 2017-10-19 2021-02-16 Arizona Board Of Regents On Behalf Of Arizona State University Real time end-to-end learning system for a high frame rate video compressive sensing network
EP3495988A1 (en) 2017-12-05 2019-06-12 Aptiv Technologies Limited Method of processing image data in a connectionist network
EP3525000B1 (en) * 2018-02-09 2021-07-21 Bayerische Motoren Werke Aktiengesellschaft Methods and apparatuses for object detection in a scene based on lidar data and radar data of the scene
EP3561726A1 (en) 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for processing data sequences using a convolutional neural network
DE112018007721T5 (de) * 2018-06-14 2021-04-01 Intel Corporation Aufnehmen und modifizieren von 3D-Gesichtern unter Verwendung neuronaler Bild-und Zeitverfolgungsnetze

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341452A (zh) * 2017-06-20 2017-11-10 东北电力大学 基于四元数时空卷积神经网络的人体行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JULIE DEQUAIRE: "Deep tracking in the wild: End-to-end tracking using recurrent neural networks", 《 THE INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH》 *
JULIE DEQUAIRE: "Deep tracking in the wild: End-to-end tracking using recurrent neural networks", 《THE INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH》 *
OKMAKOV: "teaming Video Object Segmentation with Visual Memory", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *

Also Published As

Publication number Publication date
US11195038B2 (en) 2021-12-07
EP3561727A1 (en) 2019-10-30
US20190325241A1 (en) 2019-10-24

Similar Documents

Publication Publication Date Title
CN110390249A (zh) 利用卷积神经网络提取关于场景的动态信息的装置和方法
Gallego et al. Event-based vision: A survey
Dabral et al. Learning 3d human pose from structure and motion
CN107305635A (zh) 对象识别方法、对象识别装置和分类器训练方法
CN115082855B (zh) 基于改进yolox算法的行人遮挡检测方法
JP2021061573A (ja) 撮像システム、撮像に関する方法、標的を撮像するための撮像システム、およびテンプレートを用いて取得された動的情景の強度画像、及び非同期的に取得されたイベントデータを処理する方法
Bashirov et al. Real-time rgbd-based extended body pose estimation
CN103295221B (zh) 模拟复眼视觉机制和偏振成像的水面目标运动检测方法
CN103984955B (zh) 基于显著性特征和迁移增量学习的多摄像机目标识别方法
CN107680116A (zh) 一种监测视频图像中运动目标的方法
US11804026B2 (en) Device and a method for processing data sequences using a convolutional neural network
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN113807183A (zh) 模型训练方法及相关设备
Zhang et al. Joint motion information extraction and human behavior recognition in video based on deep learning
CN113065575A (zh) 一种图像处理方法及相关装置
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
Wang et al. Paul: Procrustean autoencoder for unsupervised lifting
Baisware et al. Review on recent advances in human action recognition in video data
CN114494594B (zh) 基于深度学习的航天员操作设备状态识别方法
Zhang et al. EventMD: High-speed moving object detection based on event-based video frames
Andersen et al. Event-based navigation for autonomous drone racing with sparse gated recurrent network
Khow et al. Improved YOLOv8 Model for a comprehensive approach to object detection and distance estimation
Wu et al. Joint feature embedding learning and correlation filters for aircraft tracking with infrared imagery
Patel et al. A survey on Pose Estimation using Deep Convolutional Neural Networks
CN116883961A (zh) 一种目标感知方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: Luxembourg

Address after: Luxembourg

Applicant after: Aptiv Technology (2) Co.

Address before: Babado J San Michael

Applicant before: Aptiv Technologies Ltd.

Country or region before: Barbados

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240227

Address after: Luxembourg

Applicant after: Aptiv Manufacturing Management Services Co.

Country or region after: Luxembourg

Address before: Luxembourg

Applicant before: Aptiv Technology (2) Co.

Country or region before: Luxembourg

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240321

Address after: Schaffhausen

Applicant after: APTIV Technology Co.,Ltd.

Country or region after: Switzerland

Address before: Luxembourg

Applicant before: Aptiv Manufacturing Management Services Co.

Country or region before: Luxembourg