CN110390381B - 利用卷积神经网络来处理数据序列的装置和方法 - Google Patents

利用卷积神经网络来处理数据序列的装置和方法 Download PDF

Info

Publication number
CN110390381B
CN110390381B CN201910312221.5A CN201910312221A CN110390381B CN 110390381 B CN110390381 B CN 110390381B CN 201910312221 A CN201910312221 A CN 201910312221A CN 110390381 B CN110390381 B CN 110390381B
Authority
CN
China
Prior art keywords
sequence
convolutional neural
data
neural network
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910312221.5A
Other languages
English (en)
Other versions
CN110390381A (zh
Inventor
朱维檬
苏煜
C·努恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anbofu Manufacturing Management Services Co ltd
Original Assignee
Aptiv Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aptiv Technologies Ltd filed Critical Aptiv Technologies Ltd
Publication of CN110390381A publication Critical patent/CN110390381A/zh
Application granted granted Critical
Publication of CN110390381B publication Critical patent/CN110390381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

利用卷积神经网络来处理数据序列的装置和方法。公开了一种借助于卷积神经网络来处理数据序列的装置,其中,所述装置被配置成执行以下步骤:接收包括利用传感器随时间捕获的多个数据项的输入序列,每个数据项包括场景的多维表示;生成表示通过卷积神经网络逐项处理后的输入序列的输出序列,其中,生成所述输出序列的步骤包括:基于所述输入序列与中间网格生成序列的组合来生成网格生成序列,所述中间网格生成序列表示输出序列的过去部分或所述网格生成序列的过去部分;基于网格生成序列生成采样网格;通过根据采样网格从输出序列的过去部分采样来生成中间输出序列;以及基于中间输出序列与输入序列的加权组合来生成输出序列。

Description

利用卷积神经网络来处理数据序列的装置和方法
技术领域
本发明涉及一种利用卷积神经网络来处理数据序列的装置和方法。
背景技术
卷积神经网络(CNN)被用于许多应用,尤其是用于需要处理大量数据以从数据中提取期望信息的应用。例如,数据可以表示捕捉存在于(真实)场景中的一个或更多个对象的图像或视频数据。CNN已被证明有用于自动提取更接近地表征由数据捕捉的场景的信息,例如关于场景中对象的位置和运动的信息。换句话说,CNN可以被配置成执行数据的语义分析(即,通过模式识别)。作为一种可能的应用,可以在此分析的基础上控制机器。场景例如可以是车辆周围的交通场景,所述车辆应当基于对交通场景的自动语义分析来控制。这被称为自主行驶应用。
CNN是用于处理数据的计算机实现方法的结构表示。CNN包括利用卷积核处理数据,卷积核是包括以预定模式排列的多个值(即,过滤器权重)的过滤器掩模(filtermask)。用输入数据来与卷积核进行卷积以便处理数据。可以将常数与卷积结果相加,然后利用所谓的激活函数进行过滤,如神经网络领域的技术人员所知的。这些处理步骤可以形成CNN的结构性单元,通常称为卷积层。卷积核的使用有助于避免修改输入数据中的空间模式。因此,具有空间模式的任何输入数据(例如,图像和视频)都可以由CNN处理。而且,当需要处理大量数据时,卷积核提供了卓越的处理效率。
普通CNN的一个问题是它们本身未被配置成处理时间相关数据,即,随时间顺序地捕获的数据序列。这就是说,普通CNN假设数据项(例如,输入数据“块”)具有一个共同的时间戳,视频帧可能就是这样的情况。因此,通常顺序地处理输入的数据项序列,即,通过一个接一个地处理数据项。这种方法的缺点是CNN没有明确地识别数据中的时间相关性。
大多数类型的实际数据中都存在时间相关性,例如,在交通环境的数据(其表示真实场景)中。这是因为对象(特别是诸如车辆、行人等的移动对象)由于其速度限制而仅能够平稳地移动。这种时间相关性对于鲁棒地提取想得到的信息的而言非常重要(诸如对象的检测或分类(图像分类))。一个原因是(真实)数据通常是在非最佳条件下捕获的。而且,由于其它对象的遮挡,对象可能突然出现和消失。这种现象也被称为对象出生(objectbirth)和对象死亡(object death)。因此,从复杂场景的数据提取信息通常需要使用时间信息,以便对数据执行鲁棒的语义分析。
已经努力使CNN能够识别顺序数据中的时间相关性,例如采用递归神经网络(RNN)和长短期记忆(LSTM)的形式。然而,事实证明,这些类型的神经网络并不总是有足够能力应付复杂数据,如表示具有许多不同移动对象的场景的数据。应当明白,该数据可以借助于摄像机捕获。然而,在其它应用中,特别是现代车辆应用,数据也可以通过其它传感器捕获,包括一个或更多个雷达传感器或光检测和测距(激光雷达(lidar))系统。与这些应用相关,数据通常表示车辆周围的交通场景,其中,可以将不同类型的传感器数据进行组合。交通场景需要根据数据恒定且可靠地进行分析,以使得能够实现安全的自主行驶应用。然而,已经证明利用已知类型的CNN难以鲁棒地提取所需信息。
发明内容
本发明的基本问题是提供一种利用CNN来处理数据序列的装置和方法,其中,通过该CNN有效且可靠地考虑时间相关性。
该问题通过处理数据序列的装置和借助于卷积神经网络来处理数据序列的方法来解决。
处理数据序列的装置可以被配置成接收包括随时间捕获的多个数据项的输入序列,每个数据项包括场景的多维表示。换句话说,每个数据项对应于按二维、三维或更多维捕获所述场景的一个时刻,即,可以包括空间坐标而且还有速度信息的多个参数。所述数据项序列可以被解释为复杂视频,其中,该视频的帧对应于表示特定时刻的场景的数据项。所述输入序列可以是来自一个或更多个传感器的原始数据,但也可以是经过预处理的版本。
所述装置的所述CNN被配置成生成表示由所述卷积神经网络逐项处理后的所述输入序列的输出序列,即,所述输入序列被顺序处理,优选地按照所述输入序列的次序。还优选地,所述输出序列包括多个数据项,每个数据项对应于所述输入序列的相应数据项的经处理版本。
所述CNN包括采样单元,该采样单元被配置成通过根据采样网格从所述输出序列的过去部分采样来生成中间输出序列。所述输出序列的过去部分可以包括所述输出序列的最后一个数据项,但是也可以包括所述输出序列的更早的数据项。通过在所述CNN中重新使用过去部分来处理所述输入序列的当前数据项,通过所述CNN实现递归形式的处理。所述中间输出序列是所述输出序列的过去部分的修改版本,其中,所述修改是通过对所述数据项采样而逐项执行的。该采样对于考虑所述数据的动态变化是有用的,其可以被视为调整所述数据以改进输入序列的处理。下面将对其加以进一步说明。
所述CNN还可以被配置成基于网格生成序列逐项生成所述采样网格,其中,所述网格生成序列基于所述输入序列与中间网格生成序列的组合。所述中间网格生成序列表示所述输出序列的过去部分或所述网格生成序列的过去部分。因此,所述网格生成序列包括当前输入序列和“处理历史”的信息。该历史可以以所述输出序列的过去部分(例如,所述输出序列的最后数据项)或者所述网格生成序列的过去部分(例如,所述网格生成序列的最后数据项)的形式来提供,它再次表示递归形式的处理。
所述CNN还可以被配置成基于所述中间输出序列与所述输入序列的加权组合来生成所述输出序列。所述组合可以被解释为所述输出序列的受控预测,其中,例如,允许更多或更少的输入序列通过所述CNN。由于所述递归处理,因此,所述中间输出序列还表示关于所述输入序列和所述输出序列的先前行为的信息。因此,所述CNN明确地分析了时间相关性,并直接影响对所述输入序列的处理,即,生成所述输出序列。这使得所述CNN能够在准确地考虑,即,识别所述输入数据序列中存在的时间信息时实现更好的鲁棒性。这意味着可以以增加的准确度提取同样通过时间相关性编码的信息,例如,对象的运动数据和对象检测数据。而且,针对因遮挡而突然出现和消失的对象(例如,对象出生和对象死亡),数据分析得到改善。
应注意,所述加权组合不限于上述序列的直接加权。视情况而定,可以在加权之前处理任何序列。例如,所述输入序列可以由内部CNN处理,这导致表示所述(原始)输入序列的中间输入序列。
根据本发明的CNN可以是所谓的深度神经网络。具体来说,所述CNN可以包括多个内部CNN。这些内部CNN被视为“外部”CNN(具体地,根据本发明的CNN)的子网络,即,层,这些内部CNN可以具有相同、相似或不同的结构,但它们都包括利用卷积核卷积所述输入数据。另外,可以将卷积结果与常数相加并应用激活函数,激活函数可以是被配置成执行针对预定义标度的变换的函数,例如[0,1]的标度,即,所述输出数据处于0至1之间。针对激活函数的例子是sigmoid函数和tanh函数。另一例子是双侧阈值函数(two-sided thresholdfunction)。
优选地,本文所述的每个序列都包括多个数据项,每个数据项包括多个数据点。以这种方式,对数据项的任何处理都可以涉及对所述数据点的处理。所述数据项可以逐个处理。另选地,可以并行处理数据项或者以数据项的组合来进行处理。
优选地,所述网格生成序列基于所述输入序列与所述中间网格生成序列的逐项组合。例如,所述CNN可以被配置成通过所述输入序列和所述中间网格生成序列的逐项组合来形成所述网格生成序列。所述组合可以是每数据项连结两个涉及的序列,其中,所述连结(concatenation)可以被配置成使得所连结的数据项的后续处理允许对形成所述连结的两个数据项进行单独处理。作为连结的另选,所述两个序列可以通过专用神经网络(同样优选为CNN)组合。在特定情况下,该CNN可以是卷积门控递归单元(GRU:Gated RecurrentUnit),其是在:Tokmakov,P.,Alahari,K.and Schmid,C.,2017,Learning Video ObjectSegmentation with Visual Memory.arXiv preprint arXiv:1704.05737中描述的类型的RNN。在另一特定情况下,用于组合所述两个序列的CNN可以是卷积LSTM。优选地,该卷积LSTM如在:Xingjian,S.H.I.,Chen,Z.,Wang,H.,Yeung,D.Y.,Wong,W.K.and Woo,W.C.,2015:"Convolutional LSTM network:Amachine learning approach for precipitationnowcasting".Advances in neural information processing systems(pp.802-810)中所述来实现。
根据优选实施方式,所述中间网格生成序列由所述输出序列的过去部分形成,具体来说,其中,所述输出序列的过去部分是利用内部CNN来处理过的。另选地,所述中间网格生成序列可以由利用内部CNN处理过的、网格生成序列的过去部分来形成。
所述采样网络优选地通过利用至少一个内部CNN处理所述网格生成序列来生成。这优选地逐项执行,即,从所述网格生成序列中的一个数据项生成一个采样网格。因此,可以形成采样网格序列。然而,优选地每个时间步仅存在一个采样网格。换句话说,在所述(外部)CNN中,不存在网格序列,而是每个时间只有一个网格。
根据另一实施方式,所述卷积神经网络被配置成通过执行以下步骤来生成所述输出序列。作为第一步骤,基于所述输入序列、所述中间输出序列、所述中间网格生成序列、由内部卷积网络处理过的网格生成序列,或其组合中的一个来生成第一加权序列和第二加权序列。两个加权序列可以在相同或不同基础上生成。例如,可以在上述序列的不同组合上生成每个加权序列。
作为下一步骤,通过利用内部CNN处理所述输入序列来生成中间输入序列。然后,用所述第一加权序列加权所述中间输出序列,并且用所述第二加权序列加权所述中间输入序列。然后将这两个加权序列叠加,例如通过简单地将所述序列相加,优选为逐项相加。所述加权可以是乘法,特别是逐点乘法,这也被称为Hadamard乘积。在后一种情况下,每个涉及的序列由包括多个数据点的数据项组成。
在一个实施方式中,生成所述第一加权序列和/或所述第二加权序列包括:形成所述输入序列、所述中间输出序列、所述中间网格生成序列、由内部卷积网络处理过的网格生成序列中的至少两个的组合(例如,连结);通过利用内部卷积神经网络处理所述组合来形成经处理的组合。该内部CNN优选地被配置成利用卷积核和激活函数(具体为sigmoid函数)来处理。
在另一实施方式中,所述第一加权序列和所述第二加权序列中的一个序列由经处理的组合形成,并且其中,所述第一加权序列和所述第二加权序列中的另一个根据从常数中减去所述经处理的组合来形成。
通常,所述卷积神经网络可以被配置成对应地生成所述第一加权序列和第二加权序列。然而,应当明白,每个加权序列的处理参数可以不同,特别是被用于处理所述序列的任何卷积核。
考虑到所述采样单元,所述采样网格优选地包括多个采样位置,每个采样位置由偏移量与所述中间输出序列的数据项的多个数据点中的一个数据点的相应一对来限定。因此,偏移量表示位于该偏移量下的一数据点的位置移位。因此,所述采样网格限定了要相对于所述中间输出序列的规则数据点来对所述输出序列的过去部分进行采样的位置。这可以被视为通过生成的所述采样网格控制的特定处理形式。优选地,所述网格被配置为预测所述数据中的运动。因此,考虑到先前数据项中的时间变化,可以优化由给定数据项表示的数据。运动数据可以用所述偏移量来表示,其可以被视为指向期望采样位置的矢量。所述采样单元可以被配置成执行数据点的插值。因此,如果采样位置处于待采样的数据项的给定数据点之间,那么可以简单地从一个或更多个邻近数据点内插所述采样数据点,例如,通过双线性插值。
根据优选实施方式,所述输入序列中的每个数据项可以包括多个数据点,每个数据点表示所述场景中的位置,并且包括该位置的多个参数,具体为坐标。具体地,所述输入序列中的每个数据项的数据点可以由包括多个像素的图像形成。这就是说,所述数据点可以由像素形成,其中,每个数据项优选地以二维或三维表示所述场景。通常,本文中所述的每个序列可以由在结构上与所述输入序列中的所述数据项相对应的数据项形成。
本发明还涉及一种用于处理数据序列的系统,所述系统包括用于捕获数据序列的传感器和根据本文中所述实施方式之一的装置。所述传感器可以包括雷达传感器、光检测和测距传感器、超声传感器和摄像机中的至少一种。如技术人员所理解的,每个这样的传感器都适合于捕获场景并因此生成所述输入序列。所述系统可以在车辆(如普通乘用车)中实现。因此,所述系统可以被配置成生成输出序列,该输出序列表示用于自主行驶应用的(相关)信息。这就是说,可以基于由在该方法的装置中实现的所述CNN生成的所述输出序列来控制(例如,操纵)所述车辆。
本发明还涉及一种借助于CNN来处理数据序列的方法,该方法包括以下步骤:
接收包括利用传感器随时间捕获的多个数据项的输入序列,每个所述数据项包括场景的多维表示;
生成表示通过所述卷积神经网络逐项处理后的所述输入序列的输出序列,其中,生成所述输出序列包括:
基于所述输入序列与中间网格生成序列的组合来生成网格生成序列,中间网格生成序列表示所述输出序列的过去部分或所述网格生成序列的过去部分;
基于所述网格生成序列生成采样网格;
通过根据所述采样网格从所述输出序列的过去部分中采样来生成中间输出序列;以及
基于所述中间输出序列与所述输入序列的加权组合来生成所述输出序列。
如本领域技术人员所知的,CNN被配置用于通过训练CNN来进行处理。在训练CNN期间,通常有两个步骤,前馈和后向传播。在前馈中,所述网络接收输入数据并利用初始处理参数(即,过滤器权重和常数)计算输出数据。然后,鉴于正确的输出数据,在反向传播期间更新所述参数,其中,计算损失函数的梯度(梯度下降)。
应当明白,每个所述内部CNN在所涉及的处理参数方面可以不同,特别是所述卷积核和所述激活函数的权重。
附图说明
通过附图中示出的多个示例来对本发明进一步描述,其中:
图1至图10作为示意性框图示出了处理数据序列的CNN的变型例。
图11示出了包括传感器和可以实现所述CNN中的任一个以处理由传感器捕获的传感器序列的装置的系统的框图。
具体实施方式
图1中所示的CNN 10的第一示例。输入序列It={...,It-2,It-1,It,It+1,...}的处理(其中,t是序列索引,并且序列中的每个元素是数据项)可以通过以下方程组来描述:
Gt=CNN(It,ht-1)
Figure GDA0004104912410000071
Figure GDA0004104912410000072
Figure GDA0004104912410000073
变量ht
Figure GDA0004104912410000074
分别代表输出序列和中间输出序列。变量zt表示加权序列。所述序列中的每个数据项包括多个数据点,例如,图像的像素。
在所述公式中,*指示卷积运算符,⊙指示逐点乘法(Hadamard乘积)。W指示卷积核,并且索引指示内核引用的变量。“样本”指示借助于采样单元12进行采样,其中第一自变量(argument)是对采样单元12的输入,而第二个自变量是采样网格。
在图1中,实心黑色方块14通常指示信息的“复制”,其意指离开方块14的箭头携带与输入箭头相同的信息。实心黑色圆圈16通常指示信息的组合。例如,输出序列的过去部分ht-1与输入序列It连结,以形成17处的中间网格生成序列。然后该序列通过CNN 18处理,CNN18通常是内部CNN。结果是图1的情况下的采样网格Gt。CNN()是方程中的算子,其中,CNN()的自变量是指自变量的组合,例如,连结。
类似地,中间输出序列
Figure GDA0004104912410000075
与输入序列It连结,然后通过如上面方程中定义的块22来处理,其中,σ指示sigmoid函数。块22是内部CNN的特定形式。
如可以从上面ht的公式中看出,利用另一内部CNN 18来处理输入序列。结果,即,CNN(It)是中间输入序列。
结合图1描述的一般惯例在图2至图8中是相同的。
第二个示例,在图2中示出CNN 20,并且由以下方程组定义:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
Figure GDA0004104912410000081
Figure GDA0004104912410000082
Figure GDA0004104912410000083
Figure GDA0004104912410000084
与第一示例形成对比,网格生成序列是基于输入序列It与中间网格生成序列Ct-1的组合形成的。可以从图2看出,通过内部CNN 18来处理该组合,给出了Ct,网格生成序列的经处理版本,其递归地形成下一时间步的中间网格生成序列(Ct-1)。网格生成序列的经处理版本通过内部CNN 18′进一步处理以给出采样网格Gt
CNN 20的另一方面是第一加权序列ft和第二加权序列it由块22对应地形成,块22具有相同的输入,即,中间输出序列和输入序列的组合。
图3中所示的CNN 30形成由以下方程组描述的第三示例:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
Figure GDA0004104912410000085
it=σ(WIi*It+Whi*ht-1+bi)
ft=σ(WIf*It+Whf*ht-1+bf)
Figure GDA0004104912410000086
CNN 30与CNN 20的不同之处在于,第一加权序列ft和第二加权序列it基于输出序列的过去部分ht-1与输入序列的组合。
第四个示例由图4中的CNN 40给出。其由下面的方程组描述:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
Figure GDA0004104912410000091
it=σ(WIi*It+Wci*Ct+bi)
ft=σ(WIf*It+Wcf*Ct+bf)
Figure GDA0004104912410000092
CNN 40与CNN 20和30的不同之处在于,第一加权序列ft和第二加权序列it基于通过内部CNN 18处理过的网格生成序列与输入序列的组合。
第五个示例由图5中所示的CNN 50给出。下面的方程组应用:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
Figure GDA0004104912410000093
it=σ(WIi*It+Wci*Ct-1+bi)
ft=σ(WIf*It+Wcf*Ct-1+bf)
Figure GDA0004104912410000094
如在图5和该方程中可以看出,第一加权序列ft和第二加权序列it基于中间网格生成序列Ct-1与输入序列It的组合。另外,在17处形成的网格生成序列由相同的组合形成。
第六个示例由图6中所示的CNN 60给出。下面的方程组应用:
Figure GDA0004104912410000095
Figure GDA0004104912410000096
Figure GDA0004104912410000097
it=σ(WIi*It+Wci*Ct-1+bi)
ft=σ(WIf*It+Wcf*Ct-1+bf)
Figure GDA0004104912410000098
Ct=CNN(ht)
与先前情况的主要差异在于,中间网格生成序列Ct-1由通过内部CNN 18处理过的输出序列ht的过去部分形成,如CNN 60的右侧所示。
图7中所示的CNN 70由以下方程描述:
Figure GDA0004104912410000099
Figure GDA00041049124100000910
Figure GDA0004104912410000101
it=σ(WIi*It+Wci*Ct-1+bi)
ft=σ(WIf*It+Wcf*Ct-1+bf)
Figure GDA0004104912410000102
Ct=CNN(ht)
CNN 70对应于CNN 60,但是第一加权序列ft和第二加权序列it如CNN 50中那样形成。
第八个示例由图8中所示的CNN 80给出。下面的方程组应用:
Gt=CNN(It,ht-1)
Figure GDA0004104912410000103
zt=σ(Wiz*It+Whz*ht-1+bz)
Figure GDA0004104912410000104
第八示例对应于图1的CNN 10,不同之处在于加权序列zt基于输入序列与输出序列的过去部分的组合。
第九个示例,CNN 20的变型例由图9中所示的CNN 20′给出。下面的方程组应用:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
Figure GDA0004104912410000105
Figure GDA0004104912410000106
Figure GDA0004104912410000107
Figure GDA0004104912410000108
在CNN 20′中,第一加权序列和第二加权序列不是相对于块22的输入对应地形成的。可以从图9和该方程看出,对于第一加权序列,中间输出序列
Figure GDA0004104912410000109
与利用内部CNN 18处理过的、在17处形成的网格生成序列组合(Ct,形成下一时间步的中间网格生成序列(即,数据项Ct-1))。相反,第二加权序列基于三个序列的组合,如上面针对ft的公式和图9中所定义的那样。从该示例可以明显看出,对块22的输入不需要相同。
第十个示例由图10中所示的CNN 20″给出。下面的方程组应用:
Ct=CNN(It,Ct-1)
Gt=CNN(Ct)
Figure GDA0004104912410000111
Figure GDA0004104912410000112
Figure GDA0004104912410000113
Figure GDA0004104912410000114
CNN 20″对应于CNN20′,区别在于对块22的输入可以涉及相同的序列组合。其它组合是可能的,也组合超过三个序列。
参照图11,系统26可以包括用于捕获(即,获取)装置32的输入序列36的传感器28,其中,输入序列36可以表示场景,例如,交通场景。传感器28可以是安装在车辆(未示出)上的雷达传感器,其被配置用于系统26的自主行驶应用。
输入序列36由装置32接收并通过CNN处理,例如,通过图1至10中所示的CNN之一。这就是说,装置32具有处理装置,该处理装置被配置成利用本文所述的CNN。输出序列38由装置32输出,并且可以被输入至车辆(未示出)的控制单元34。控制单元34被配置成基于输出序列38来控制车辆。
标号列表
10 CNN
12 采样单元
14 复制
16 连结
17 网格生成序列
18、18′ 内部CNN
20、20′、20″ CNN
22 处理块
26 系统
28 传感器
30 CNN
32 装置
34 控制单元
36 输入序列
38 输出序列
40、50 CNN
60、70 CNN
80 CNN

Claims (14)

1.一种处理数据序列的装置,所述装置包括卷积神经网络,其中,
所述装置被配置成接收包括随时间捕获的多个数据项的输入序列(It),每个所述数据项包括场景的多维表示,
所述卷积神经网络(10、20)被配置成生成输出序列(ht),所述输出序列(ht)表示通过所述卷积神经网络逐项处理后的所述输入序列,
所述卷积神经网络(10、20)包括采样单元(12),所述采样单元被配置成通过根据采样网格(Gt)从所述输出序列的过去部分(ht-1)采样来生成中间输出序列
Figure FDA0004104912400000011
所述卷积神经网络(10、20)被配置成基于网格生成序列逐项生成所述采样网格(Gt),其中,所述网格生成序列基于所述输入序列(It)与中间网格生成序列的组合,所述中间网格生成序列表示所述输出序列的过去部分(ht-1)或所述网格生成序列的过去部分(Ct-1),
所述卷积神经网络(10、20)被配置成基于所述中间输出序列
Figure FDA0004104912400000012
与所述输入序列(It)的加权组合来生成所述输出序列(ht)。
2.根据权利要求1所述的装置,
其中,所述网格生成序列基于所述输入序列(It)与所述中间网格生成序列的逐项组合。
3.根据权利要求1或2所述的装置,
其中,所述中间网格生成序列是由所述输出序列的过去部分(ht-1)形成的,或者
其中,所述中间网格生成序列是由利用内部卷积神经网络(18)处理过的、所述输出序列的过去部分(ht-1)形成的,或者
其中,所述中间网格生成序列(Ct-1)是由利用内部卷积神经网络(18)处理过的、所述网格生成序列的过去部分形成的。
4.根据权利要求1所述的装置,
其中,所述卷积神经网络(10、20)被配置成通过利用至少一个内部卷积神经网络(18)处理所述网格生成序列来生成所述采样网格(Gt)。
5.根据权利要求1所述的装置,
其中,所述卷积神经网络(10、20)被配置成通过以下步骤生成所述输出序列(ht):
-基于以下项中的一个来生成第一加权序列(ft)和第二加权序列(it)
所述输入序列(It),
所述中间输出序列
Figure FDA0004104912400000021
所述中间网格生成序列(ht-1,Ct-1),
经过内部卷积网络处理后的所述网格生成序列
Figure FDA0004104912400000022
以上项的组合;
-通过利用内部卷积神经网络(18)处理所述输入序列(It)来生成中间输入序列;
-利用所述第一加权序列(ft)对所述中间输出序列
Figure FDA0004104912400000023
进行加权;
-利用所述第二加权序列(it)对所述中间输入序列进行加权;以及
-叠加加权的中间输出序列和加权的中间输入序列。
6.根据权利要求5所述的装置,
其中,生成所述第一加权序列(ft)和/或所述第二加权序列(it)的处理包括:
-形成以下项中的至少两个的组合
所述输入序列(It),
所述中间输出序列
Figure FDA0004104912400000024
所述中间网格生成序列(ht-1,Ct-1),
经过内部卷积网络处理后的所述网格生成序列
Figure FDA0004104912400000025
-通过利用内部卷积神经网络(22)处理所述组合来形成经处理的组合(it,ft,zt)。
7.根据权利要求6所述的装置,
其中,所述第一加权序列和所述第二加权序列中的一方是由经处理的组合形成的,并且其中,所述第一加权序列和所述第二加权序列中的另一方是通过从常数中减去经处理的组合(zt)来形成的。
8.根据权利要求5或6所述的装置,
其中,所述卷积神经网络(10、20)被配置成对应地生成所述第一加权序列(ft)和所述第二加权序列(it)。
9.根据权利要求1所述的装置,
其中,所述采样网格(Gt)包括多个采样位置,每个所述采样位置由偏移量与所述中间输出序列
Figure FDA0004104912400000031
中的数据项的多个数据点中的一个数据点的相应一对来限定。
10.根据权利要求1所述的装置,
其中,所述输入序列(It)中的每个数据项包括多个数据点,每个数据点表示所述场景中的位置并且包括所述位置的多个参数,所述参数具体为坐标。
11.根据权利要求1所述的装置,
其中,所述输入序列(It)中的每个数据项是由包括多个像素的图像形成的。
12.一种处理数据序列的系统(26),所述系统(26)包括用于捕获数据序列(36)的传感器(28)以及根据前述权利要求中任一项所述的装置(32)。
13.根据权利要求12所述的系统,
其中,所述传感器(28)包括雷达传感器、光检测和测距传感器、超声传感器和摄像机中的至少一种。
14.一种借助于卷积神经网络来处理数据序列的方法,该方法包括以下步骤:
-接收包括利用传感器随时间捕获的多个数据项的输入序列(It),每个所述数据项包括场景的多维表示;
-生成输出序列(ht),所述输出序列(ht)表示通过所述卷积神经网络逐项处理后的所述输入序列,
其中,生成所述输出序列的步骤包括:
-基于所述输入序列(It)与中间网格生成序列的组合来生成网格生成序列,
所述中间网格生成序列表示所述输出序列的过去部分(ht-1)或者所述网格生成序列的过去部分(Ct-1);
-基于所述网格生成序列生成采样网格(Gt);
-通过根据所述采样网格(Gt)从所述输出序列的过去部分(ht-1)采样来生成中间输出序列
Figure FDA0004104912400000032
以及
-基于所述中间输出序列
Figure FDA0004104912400000033
与所述输入序列(It)的加权组合来生成所述输出序列(ht)。
CN201910312221.5A 2018-04-23 2019-04-18 利用卷积神经网络来处理数据序列的装置和方法 Active CN110390381B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18168781.5 2018-04-23
EP18168781.5A EP3561726A1 (en) 2018-04-23 2018-04-23 A device and a method for processing data sequences using a convolutional neural network

Publications (2)

Publication Number Publication Date
CN110390381A CN110390381A (zh) 2019-10-29
CN110390381B true CN110390381B (zh) 2023-06-30

Family

ID=62046763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910312221.5A Active CN110390381B (zh) 2018-04-23 2019-04-18 利用卷积神经网络来处理数据序列的装置和方法

Country Status (3)

Country Link
US (2) US11521059B2 (zh)
EP (1) EP3561726A1 (zh)
CN (1) CN110390381B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3495988A1 (en) 2017-12-05 2019-06-12 Aptiv Technologies Limited Method of processing image data in a connectionist network
JP6843780B2 (ja) * 2018-01-18 2021-03-17 ヤフー株式会社 情報処理装置、学習済みモデル、情報処理方法、およびプログラム
EP3561727A1 (en) 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862331A (zh) * 2017-10-31 2018-03-30 华中科技大学 一种基于时间序列及cnn的不安全行为识别方法及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9902115D0 (en) 1999-02-01 1999-03-24 Axeon Limited Neural networks
US20160283864A1 (en) 2015-03-27 2016-09-29 Qualcomm Incorporated Sequential image sampling and storage of fine-tuned features
US10127685B2 (en) * 2015-12-16 2018-11-13 Objectvideo Labs, Llc Profile matching of buildings and urban structures
CN105628951B (zh) 2015-12-31 2019-11-19 北京迈格威科技有限公司 用于测量对象的速度的方法和装置
US10242266B2 (en) 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
US9760806B1 (en) 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
US10902343B2 (en) 2016-09-30 2021-01-26 Disney Enterprises, Inc. Deep-learning motion priors for full-body performance capture in real-time
CN108073933B (zh) 2016-11-08 2021-05-25 杭州海康威视数字技术股份有限公司 一种目标检测方法及装置
US10701394B1 (en) 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
US20180211403A1 (en) 2017-01-20 2018-07-26 Ford Global Technologies, Llc Recurrent Deep Convolutional Neural Network For Object Detection
US10445928B2 (en) 2017-02-11 2019-10-15 Vayavision Ltd. Method and system for generating multidimensional maps of a scene using a plurality of sensors of various types
US11049018B2 (en) 2017-06-23 2021-06-29 Nvidia Corporation Transforming convolutional neural networks for visual sequence learning
US10210391B1 (en) 2017-08-07 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos using contour sequences
US10460514B2 (en) * 2017-08-29 2019-10-29 Google Llc Computing representative shapes for polygon sets
US10705531B2 (en) 2017-09-28 2020-07-07 Nec Corporation Generative adversarial inverse trajectory optimization for probabilistic vehicle forecasting
US10924755B2 (en) 2017-10-19 2021-02-16 Arizona Board Of Regents On Behalf Of Arizona State University Real time end-to-end learning system for a high frame rate video compressive sensing network
EP3495988A1 (en) 2017-12-05 2019-06-12 Aptiv Technologies Limited Method of processing image data in a connectionist network
EP3525000B1 (en) 2018-02-09 2021-07-21 Bayerische Motoren Werke Aktiengesellschaft Methods and apparatuses for object detection in a scene based on lidar data and radar data of the scene
EP3561727A1 (en) 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network
WO2019237299A1 (en) 2018-06-14 2019-12-19 Intel Corporation 3d facial capture and modification using image and temporal tracking neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862331A (zh) * 2017-10-31 2018-03-30 华中科技大学 一种基于时间序列及cnn的不安全行为识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Recurrent Convolutional Network_for_Video-Based Person Re-identification;Niall McLaughlin等;《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》;20160627;第1325-1334页 *

Also Published As

Publication number Publication date
US20230104196A1 (en) 2023-04-06
EP3561726A1 (en) 2019-10-30
CN110390381A (zh) 2019-10-29
US11804026B2 (en) 2023-10-31
US11521059B2 (en) 2022-12-06
US20190325306A1 (en) 2019-10-24

Similar Documents

Publication Publication Date Title
US11195038B2 (en) Device and a method for extracting dynamic information on a scene using a convolutional neural network
CN112528878B (zh) 检测车道线的方法、装置、终端设备及可读存储介质
CN110390381B (zh) 利用卷积神经网络来处理数据序列的装置和方法
JP7274048B2 (ja) 動作認識方法、装置、コンピュータプログラム及びコンピュータデバイス
Chen et al. Semantic image segmentation with task-specific edge detection using cnns and a discriminatively trained domain transform
JP7012880B2 (ja) ターゲット検出方法及び装置、機器並びに記憶媒体
US11017542B2 (en) Systems and methods for determining depth information in two-dimensional images
KR102338372B1 (ko) 영상으로부터 객체를 분할하는 방법 및 장치
Mac et al. Learning motion in feature space: Locally-consistent deformable convolution networks for fine-grained action detection
Jeeva et al. Survey on background modeling and foreground detection for real time video surveillance
Liu et al. ACDnet: An action detection network for real-time edge computing based on flow-guided feature approximation and memory aggregation
JP2022027464A (ja) 映像の深度推定に関する方法及び装置
CN116630850A (zh) 基于多注意力任务融合与边界框编码的孪生目标跟踪方法
CN115482513A (zh) 使预训练的机器学习系统适配于目标数据的设备和方法
CN114723097A (zh) 用于为基于注意力的轨迹预测方法确定权重的方法和系统
CN111435457B (zh) 对传感器获取的采集进行分类的方法
CN116434156A (zh) 目标检测方法、存储介质、路侧设备及自动驾驶系统
CN107609479A (zh) 基于带有噪声输入的稀疏高斯过程的姿态估计方法及系统
CN114092899A (zh) 从输入数据中识别对象的方法和设备
CN113160027A (zh) 一种图像处理模型训练方法及装置
Que et al. Lightweight and Dynamic Deblurring for IoT-Enabled Smart Cameras
CN114842012B (zh) 基于位置意识u型网络的医学图像小目标检测方法及装置
Lu Anomaly detection in surveillance videos using deep learning
Viyas et al. Hand pantomime apperception for robotic arm control
Jia et al. Improving the semantic segmentation algorithm of DeepLabv3+

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240729

Address after: Luxembourg

Patentee after: Anbofu Technology (2) Co.,Ltd.

Country or region after: Luxembourg

Address before: Babado J San Michael

Patentee before: Aptiv Technologies Ltd.

Country or region before: Barbados

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20241015

Address after: Luxembourg

Patentee after: Anbofu Manufacturing Management Services Co.,Ltd.

Country or region after: Luxembourg

Address before: Luxembourg

Patentee before: Anbofu Technology (2) Co.,Ltd.

Country or region before: Luxembourg