CN116324902A

CN116324902A - 检测对象和确定对象的行为

Info

Publication number: CN116324902A
Application number: CN202180069966.9A
Authority: CN
Inventors: P·P·布拉哈; P·阿格拉沃尔
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2020-10-14
Filing date: 2021-09-20
Publication date: 2023-06-23
Also published as: EP4229542A1; WO2022078713A1; US20220111860A1

Abstract

在一个实施例中提供一种方法。该方法包括在第一机器学习模型的输入端接收代表环境的第一输入数据。该方法还包括通过第一机器学习模型基于第一输入数据确定环境内的对象集。该方法还包括通过第二机器学习模型确定第二对象集的行为集。将第二机器学习模型的输入与第一机器学习模型的中间层集相耦合。至少部分地同时确定对象集并且确定对象集的行为集。

Description

检测对象和确定对象的行为

技术领域

本公开的实施例一般性地涉及机器学习模型。更特别地，本公开的实施例涉及检测环境中的对象和确定对象的行为。

背景技术

随着装置变得越来越复杂并且随着更多的装置自主运行(例如自主车辆(AV))，机器学习(ML)模型、人工智能(AI)模型等经常被用来控制这些复杂和/或自主装置的运行。机器学习模型也可以用于基于从各种装置接收的数据(例如基于传感器数据、如数字图像/视频)生成推断、行动、决定等。

附图说明

本公开的实施例在附图的图中以举例而非限制的方式进行了说明，其中，相同的附图标记表示相同的元素。

图1是说明根据本公开的一个或多个实施例的神经网络的示例的图表。

图2是说明根据本公开的一个或多个实施例的神经网络的示例的图表。

图3是说明根据本公开的一个或多个实施例的感知/预测系统的示例的框图。

图4是说明根据本公开的一个或多个实施例的感知/预测系统的示例的框图。

图5是说明根据本公开的一个或多个实施例的图像的示例的图表。

图6说明根据本公开的一个或多个实施例的用于检测对象和/或确定对象的行为的过程的示例的流程图。

图7说明根据本公开的一个或多个实施例的计算装置的示例的框图。

具体实施方式

本公开的各种实施例和方面将参照下文讨论的细节进行描述，并且附图将说明各种实施例。以下描述和附图是对公开内容的说明并且不应理解为对公开内容的限制。在此描述许多具体细节，以提供对本公开的各种实施例的透彻理解。然而，在某些情况下，为了对本公开的实施例进行简明的讨论，没有描述众所周知或常规的细节。

在说明书中提到“一个实施例”或“实施例”是指结合实施例描述的特别的特征、结构或特性可以包括在本公开的至少一个实施例中。说明书中不同地方出现的短语“在一个实施例中”不必需都指同一实施例。

如上所述，机器学习模型经常被用来让装置/机器自主地运行。此外，机器学习模型也可用于基于从各种装置接收的数据生成推断、行动、决定等。机器学习模型可用于车辆、如自主车辆、半自主车辆等，以控制车辆的运行。例如，机器学习模型可用于检测对象、如行人和/或预测行人的行为(例如预测行人的运动方向)。机器学习模型通常按顺序组合。例如，用于检测对象的第一学习模型的输出可以作为输入提供给用于预测对象的行为的第二机器学习模型。这可能增加机器学习模型检测对象和预测其行为的时间。检测对象和预测其行为的时间的增加可能降低车辆的可靠性和/或安全性。例如，自主车辆可能需要更长的时间来检测和避开过马路的行人。

因此，减少机器学习模型检测对象和/或预测对象行为的延迟可能是有用的。本文所述的实施例、实现方式和/或示例允许机器学习模型同时(例如并行地)检测对象和预测行为。通过检测对象和预测它们的行为，机器学习模型可以能够更快地生成输出以便控制车辆的运行。这可以提高车辆的安全性和可靠性。

图1是说明根据本公开的一个或多个实施例的示例神经网络100的图表。神经网络100可用于对(例如复杂的)输入和输出之间的关系建模，或者在输入和输出之间的依赖关系可能不容易确定的数据中寻找模式。神经网络100也可以是计算模型，该计算模型可用于通过各种计算来确定输入数据中的特征。例如，神经网络100可以根据定义要实施的计算序列的结构来确定输入数据(例如音频数据、图像数据、视频数据等)中的特征(例如数字、形状、模式等)。

神经网络100可以是卷积神经网络(CNN)。CNN可以是前馈神经网络。前馈神经网络可以是一种神经网络，其中节点之间的连接不形成循环。例如，信号、消息、数据、信息等从神经网络100的输入层110(例如从输入节点)通过中间层120到输出层130(例如到输出节点)从左到右向前流动。信号、消息、数据、信息等不得通过神经网络倒退(例如不得从右到左)。CNN可用于图像分析。连接和/或其相关的权重可采取卷积滤波器(和/或卷积核)的形式，该卷积滤波器可应用于输入(例如可应用于图像的不同像素)。尽管本公开内容可以涉及CNN的图像分析，但在其他实施例中，CNN可用于其他类型的数据和输入。

神经网络100包括输入层110、中间层120和输出层130。输入层110、中间层120和输出层130中的每个层包括一个或多个节点105。输入层110、中间层120和输出层130中的每个层可以具有不同数量的节点105。神经网络100可以是深度神经网络(DNN)或深度CNN。如果有超过一个的中间层120(例如如果有四个、十个或其他适当数量的中间层120)，则神经网络可以是深度的(例如深度神经网络)。如图2所示，神经网络100包括两个中间层120(例如两列节点105)。在一个实施例中，中间层120可以包括节点105和连接/权重，这些连接/权重与中间层120中的节点105相耦合。中间层的节点可以为中间层120接收输入(例如由先前层生成的输出、例如特征图)。权重(例如核/滤波器)可被应用于输入，以生成当前中间层的输出(例如特征图)。

层中的每个节点105都与下一级别(例如下一个子层)中的节点105或另一层中的节点105相连，如节点105之间的箭头/线所表示的那样。例如，输入层中的节点105分别与第一中间层120中的至少一个节点105耦合。神经网络100可以是全连接的神经网络。例如，每个层或级别中的每个节点105与有后续层或级别的后续层或级别中的每个节点相连(例如输出层130中的节点105不与其他节点相连)。

每个连接可以与权重或权重值相关联(例如可以具有权重)。权重或权重值可以定义应用于计算的系数。例如，权重或权重值可以是两个或多个节点105之间的缩放因子。每个节点105可以代表其输入的总和，并且与连接相关联的权重或权重值可以代表乘以该连接中的节点105的输出的系数或缩放因子。节点105之间的权重可以在神经网络的训练过程中被确定、计算、生成、分配、学习等。例如，可以使用反向传播来设置权重，使得神经网络100产生预期的输出值，给定标记的训练数据中的相应值。因此，中间层120的权重可以被视为数据中有意义模式的编码。节点105之间的连接的权重可以通过额外的训练来修改。

尽管神经网络100被描述为具有特定数量的节点105层和连接，但在其他实施例中可以使用各种神经网络架构/配置。例如，可以使用不同的全连接的神经网络和部分连接的神经网络(例如相邻层的所有节点不连接)。

尽管本公开内容可以涉及卷积神经网络，但其他类型的神经网络和/或深度神经网络可以用在其他实施例中。例如，可以使用不同的全连接的神经网络和部分连接的神经网络(例如相邻层的所有节点不连接)。

图2是说明根据本公开的一个或多个实施例的示例神经网络200的图表。神经网络200可用于对输入和输出之间的关系建模，或者在输入和输出之间的依赖关系可能不容易确定的数据中寻找模式。神经网络200也可以是计算模型，该计算模型可用于通过各种计算来确定输入数据中的特征。

在另一实施例中，神经网络200可以是递归神经网络(RNN)。RNN可以是节点之间的连接可以形成有向图的神经网络。RNN可以是节点之间的连接可以形成循环和/或可以沿向后方向进行的神经网络类型。例如，信号、消息、数据、信息等可以在神经网络的节点205之间既向前(例如从左到右)又向后(例如从右到左)流动。RNN也可以使用记忆单元、如长短期记忆(LSTM)单元、门控循环单元(GRU)等。GRU和/或LSTM单元可以允许RNN随着时间的推移通过层反向传播错误(例如通过层或子层向后)。这可以允许RNN表现出时序动态行为。尽管本公开内容可以涉及RNN的序列分析和/或预测，但在其他实施例中，RNN可用于其他类型的数据和输入。

在一个实施例中，神经网络200可以是卷积LSTM神经网络(例如ConvLSTM、ConvLSTMNN等)。卷积LSTM神经网络可以是在LSTM单元内实施卷积运算的LSTM/RNN的类型。这可能允许卷积LSTM神经网络处理额外类型的输入数据、如视频(如数字视频)、图像等。

神经网络200包括输入层210、中间层220和输出层230。输入层210、中间层220和输出层230中的每个层包括一个或多个节点205。输入层210、中间层220和输出层230中的每个层可以具有不同数量的节点205。神经网络200可以是深度神经网络或深度RNN。如果中间层220包括多个级别(例如节点205的多个列，节点205的多个子层)，则神经网络可以是深度的。如图2所示，神经网络200包括节点205的两个级别(或子层)(例如节点205的两列)。RNN可用于序列分析和/或预测。例如，RNN可以识别数据序列中的模式，如笔迹、文本、数值时间序列数据等。

层中的每个节点205与至少一个其他节点连接，如节点205之间的箭头/线所表示的那样。每个连接可以与权重或权重值相关联(例如可以具有权重)。权重或权重值可以定义应用于计算的系数。每个节点205可以代表其输入的总和，并且与连接相关联的权重或权重值可以代表乘以该连接中的节点205的输出的系数或缩放因子。节点205之间的权重可以在神经网络的训练过程中被确定、计算、生成、分配、学习等。因此，中间层的权重可以被视为数据中有意义模式的编码。节点205之间的连接的权重可以通过额外的训练来修改。

尽管神经网络200被描述为具有特定数量的节点205、层和连接，但在其他实施例中可以使用各种神经网络架构/配置。例如，可以使用不同的全连接的神经网络和部分连接的神经网络(例如在那里，相邻层中的所有节点不连接)。

图3是说明根据本公开的一个或多个实施例的示例性感知/预测系统300的图表。感知/预测系统300包括机器学习模型305和机器学习模型370。在一个实施例中，机器学习模型305可以是卷积神经网络(CNN)，该卷积神经网络可以是深度神经网络类型/类别。机器学习模型305(例如CNN)可以使用卷积和池化运算来处理输入并且生成和输出例如推断、决定等。CNN可以经常被用来实施图像分析和/或处理。机器学习模型305也可以被称为深度神经网络或深度网络。深度神经网络可以是包括多个中间层(例如节点和/或节点之间的权重/连接的多个层)的神经网络。

如图3所示，可以向机器学习模型305提供(例如传入、送入等)输入310。例如，输入310可以包括将由机器学习模型305处理和/或分析的一个或多个图像(例如数字图像、照片等)。输入310可以由第一滤波器315处理。第一滤波器315也可以被称为卷积滤波器。卷积滤波器可以包括一个或多个核(例如卷积核)。例如，输入(例如图像)可以具有多个通道(例如多个输入通道，如用于图像的每个像素的红、蓝、绿输入通道)。第一滤波器315可以包括用于每个通道的滤波器。第一滤波器315可用于对输入310实施卷积运算。卷积运算可以是指可以将两组信息融合为输出的操作。例如，第一滤波器315可以包括可应用于输入的部分以生成输出的权重(例如值)。第一滤波器315也可以被称为机器学习模型305的层(例如中间层)。

在一个实施例中，由第一滤波器315生成的输出可以是特征图320。特征图320可以是将第一滤波器315(例如一组权重)应用于输入的值的结果。例如，特征图320可以是元素层面上的矩阵乘法的结果和结果的总和。

在一个实施例中，机器学习模型305还可以包括和/或实施可以在特征图320上实施的池化运算。池化运算可以指对特征图进行下采样，以便减少特征图320的高度和重量，同时保留相同的深度。例如，可以对特征图320应用最大池化(例如可以使用池化窗口中的最大值的池化类型)。特征图320可以是第一滤波器315的输出(例如第一层的输出)，也可以是提供给第二滤波器325的输入(例如后续的第二层的输入)。

第二滤波器325可以接收特征图320(例如输入特征图)并且可以对特征图320应用卷积运算来生成特征图330。如上所述，可以对特征图330实施一个或多个池化运算。特征图330可以是第二滤波器325的输出(例如一个层的输出)，也可以是提供给第三滤波器335的输入(例如后续的另一层的输入)。第三滤波器335可以接收特征图330(例如输入特征图)并且可以对特征图330应用卷积运算来生成特征图340。如上所述，可以对特征图340实施一个或多个池化运算。特征图340可以是第三滤波器335的输出(例如一个层的输出)，也可以是提供给第四滤波器345的输入(例如后续的另一层的输入)。

第四345可以接收特征图340(例如输入特征图)并且可以对特征图340应用卷积运算来生成特征图350。如上所述，可以对特征图350实施一个或多个池化运算。特征图350可以是第四滤波器345的输出(例如一个层的输出)，也可以是提供给全连接层351的输入。

如图3所示，机器学习模型305还包括全连接层351和352。在一个实施例中，全连接层351和352可以使用前几层的输出(例如特征图320、330、340和/或350，这些特征图可以被称为中间输出、中间层输出等)并且可以生成机器学习模型305的最终输出(例如最终推断、决定等)。

在一个实施例中，机器学习模型370可以确定(例如预测)环境内一个或多个对象的一个或多个行为。机器学习模型370包括层371、372和373。机器学习模型370可以是RNN(例如节点之间的连接可以形成有向图的神经网络)。机器学习模型370也可以使用记忆单元、如LSTM单元和GRU。GRU和/或LSTM单元可以允许机器学习模型370随着时间的推移通过层(例如通过层或子层向后)反向传播错误。这可以允许机器学习模型370表现出时序动态行为。在一个实施例中，机器学习模型370可以是卷积的LSTM神经网络(例如在LSTM单元内实施卷积运算的LSTM/RNN类型)。

如图3所示，机器学习模型305和机器学习模型370可以按顺序运行。例如，机器学习模型305可以在时间T0接收输入和/或输入数据(例如数字图像、数字视频等)。输入可以通过滤波器315、325、335和345(以生成特征图320、330、340和350)和全连接层351。机器学习模型305的输出可以在时间T5生成。例如，机器学习模型370可以生成在输入/输入数据中检测到的一个或多个对象的位置/坐标(例如图像内的起始位置和高度/宽度)的列表。机器学习模型370可能直到时间T5之后才开始确定(例如预测)一个或多个对象的一个或多个行为，因为机器学习模型370使用机器学习模型305的输出来确定对象的一个或多个行为。机器学习模型370可以接收由机器学习模型305检测到的对象集作为输入并且可以在时间T9生成输出(例如行为集)。这导致感知/预测系统300在识别(例如感知)对象和预测该对象的行为时有更高的延迟(例如更多的延迟、更多的时间等)。感知/预测系统300的较高延迟可能增加自主车辆对环境中的对象做出反应的时间量。

此外，由于机器学习模型305和机器学习模型370按顺序运行，也可以分别被训练。例如，第一训练数据集可用于训练机器学习模型305，并且不同的第二训练数据集可用于训练机器学习模型370。因为可以使用两个训练数据集，用于训练机器学习模型305和机器学习模型370的时间量可能增加。

图4是说明根据本公开的一个或多个实施例的示例感知/预测系统400的图表。该感知/预测系统400包括机器学习模型305、机器学习模型470和输出模块480。在一个实施例中，机器学习模型305可以是CNN(如上所述)，并且机器学习模型470可以是RNN、例如LSTM网络、卷积LSTM网络等。感知/预测系统400可以位于一个或多个计算装置和/或虚拟环境(例如虚拟机、容器等)上。例如，机器学习模型305、机器学习模型470和输出模块480可以位于单个计算装置上和/或可以分布在多个计算装置上(机器学习模型305位于第一计算装置上，机器学习模型470位于第二计算装置上，等等)。

在一个实施例中，机器学习模型305可以接收输入310(例如输入数据、如数字视频、数字图像等)。例如，输入310可以通过一个或多个输入节点、输入层等来接收。输入310(例如输入数据)可以由车辆(例如自主车辆、半自主车辆等)的各种传感器生成、捕捉、获得等。例如，输入310可以由车辆的照相机、激光雷达装置/传感器等生成。输入310可以代表车辆所处的环境。例如，输入310可以表示、描绘等可能在环境中的对象(例如行人、其他车辆、自行车手等)、交通控制装置(例如停车灯、标志、车道标记/标线、人行横道等)、人行道、车道/街道、植被(例如树木、灌木、灌木丛等)、建筑物、停车场等。

在一个实施例中，机器学习模型305可以根据输入310感知车辆所处的环境。例如，机器学习模型305可以感知(例如感测、检测、识别等)可能在环境中的对象(例如行人、其他车辆、自行车手等)、交通控制装置(例如停车灯、标志、车道标记/标线、人行横道等)、人行道、车道/街道、植被(例如树木、灌木、灌木丛等)、建筑物、停车场等。机器学习模型305可以根据输入310(例如基于数字图像、数字视频、激光雷达数据等)确定(例如识别、检测等)位于环境中的第一对象集(例如一个或多个对象)。例如，机器学习模型305可以检测与车辆一起位于环境内的一个或多个行人。

在一个实施例中，机器学习模型470可以确定由机器学习模型305检测到的对象集的行为集(例如一个或多个行为)。例如，机器学习模型470可以确定对象是否将移动。在另一示例中，机器学习模型470可以确定对象的运动方向(例如左、右、上、下、对角线等)。

在一个实施例中，机器学习模型305可以确定(例如识别、检测等)一个或多个对象，并且机器学习模型470可以确定(例如识别、检测、预测等)一个或多个行为，对象的确定和行为的确定至少部分地同时进行。例如，机器学习模型305可以在时间T0接收输入310并且可以在时间T5生成识别一个或多个对象的输出。机器学习模型470可以接收由机器学习模型的一个或多个中间层生成的输出并且可以在T0和T5之间的时间开始确定一个或多个行为。在一些实施例中，机器学习模型305和机器学习模型470可以同时生成输出。例如，机器学习模型305可以生成指出对象集的输出，并且机器学习模型470可以在基本上相同的时间生成指出行为集的输出(例如，机器学习模型305和机器学习模型370都可以在时间T5生成它们各自的输出)。

如图4所示，机器学习模型470可以耦合到机器学习模型305的中间层集(例如一个或多个中间层)。在一个实施例中，机器学习模型470的输入(例如机器学习模型470的左侧)可以耦合到机器学习模型305的中间层。例如，滤波器315(例如层)可以生成特征图320(例如可以生成输出)。特征图320可以被提供给机器学习模型470的输入，如虚线所示。

在其他实施例中，机器学习模型470的输入(例如机器学习模型470的左侧)可以耦合到机器学习模型305的多个中间层。例如，滤波器315(例如层)可以生成特征图320(例如可以生成输出)，并且滤波器325可以生成特征图330。特征图320可以被提供给机器学习模型470的输入，如虚线所示。特征图330可以被提供给机器学习模型470的输入，如点虚线所示。

在一个实施例中，机器学习模型470的一个或多个中间层可以与机器学习模型305的一个或多个中间层耦合。例如，滤波器345可以生成特征图350。特征图350可以与层471的输出一起作为输入提供给机器学习模型470的层472(例如中间层)。

在一个实施例中，机器学习模型305可以在一段时间内生成多个中间输出(例如特征图)。例如，输入310可以是数字视频，该数字视频可以包括多个帧(例如数字图像)。每一帧可以提供给机器学习模型305，并且每个滤波器可以为多个帧生成不同的特征图。例如，在时间T1，滤波器315可以基于数字视频的第一帧生成第一特征图，在时间T2，滤波器315可以基于数字视频的第二帧生成第二特征图，并且在时间T3，滤波器315可以基于数字视频的第三帧生成第三特征图。第一、第二和第三特征图(分别在时间T1、T2和T3生成)可以作为输入提供给机器学习模型470。例如，第一、第二和第三特征图可以被收集在一起并且同时作为输入提供给机器学习模型470。

在一个实施例中，由不同层在不同时间生成的多个中间输出集可以提供给机器学习模型470。例如，滤波器315可以生成第一中间输出集(例如，在时间T1、T2和T3生成的特征图)，并且滤波器325可以生成第二中间输出集(例如，在时间T1、T2和T3生成的特征图)。第一和第二中间输出集可以提供给机器学习模型470。

在一个实施例中，输出模块480可以接收由机器学习模型305生成的第一输出和由机器学习模型470生成的第二输出。例如，输出模块480可以同时接收第一输出和第二输出。第一输出可以指出由机器学习模型305识别、检测等的第一对象集。第二输出可以指出由机器学习模型305检测到的对象集的行为集(例如预测行为集、预测集等)。输出模块480可以识别第一对象集和行为集之间的匹配、相关性、关联等。例如，机器学习模型470可以确定运动(例如行为)可能发生在图像(例如输入)内的不同位置。输出模块480可以识别与由机器学习模型305检测到的对象(在图像内)的位置相匹配的行为。输出模块480可以从行为集中选择、识别、确定等来自与由机器学习模型305检测到的对象集的位置相对应的位置的行为。例如，如果第一对象集包括在四个位置的四个对象，并且机器学习模型确定可能在五个位置发生运动，其中四个位置与四个对象的四个位置相匹配，则输出模块480可以选择、识别、确定针对在四个匹配位置的对象被确定(例如预测)的行为。

在一个实施例中，机器学习模型305可能不是可修改的、可改变的，等等。例如，机器学习模型305可以是灰盒机器学习模型。灰盒机器学习模型可以允许灰盒机器学习模型之外的模块、部件等访问由灰盒机器学习模型的中间层生成的中间输出。灰盒机器学习模型可能不允许修改灰盒机器学习模型的滤波器(例如权重)。

在一个实施例中，机器学习模型305可以是可修改的、可改变的，等等。例如，机器学习模型305可以是白盒机器学习模型。白盒机器学习模型可以允许灰盒机器学习模型之外的模块、部件等访问由灰盒机器学习模型的中间层生成的中间输出。白盒机器学习模型可以进一步允许白盒机器学习模型的滤波器(例如权重)被修改。例如，白盒机器学习模型可以允许通过训练和/或重新训练(例如通过向白盒机器学习模型传递训练数据)来修改白盒机器学习模型的滤波器。

在一个实施例中，可以用单一的训练数据集同时训练机器学习模型305和机器学习模型470。如图4所示，机器学习模型470可以接收提供给机器学习模型305的输入310。机器学习模型470可以不直接接收可用于训练机器学习模型305的训练数据。然而，机器学习模型470使用由机器学习模型305的中间层生成的中间输出，如上所述。因此，当使用训练数据训练机器学习模型305时，将在机器学习模型305处理训练数据时使用由机器学习模型305生成的中间输出训练机器学习模型470。这可以允许机器学习模块470在没有直接接收训练数据的情况下被训练。

在一个实施例中，机器学习模型470还可以确定一个或多个对象的一个或多个属性(例如特性、特征、特质等)。例如，机器学习模型470可以确定环境中的行人的性别、身高、体重、头发颜色等。在另一示例中，机器学习模型470可以确定行人可能面对/看着的方向。在另一示例中，机器学习模型470可以确定环境中一个或多个停车灯的颜色。

如上所述，机器学习模型305和机器学习模型470可以同时生成它们各自的输出。例如，机器学习模型305和机器学习模型470都可以在时间T5生成它们各自的输出，而不是在时间T9，如上面在图3中讨论的那样。这可能允许感知/预测系统400更迅速地检测对象和/或预测对象的行为，因为机器学习模型470和机器学习模型305同时运行。减少感知/预测系统400以检测对象和/或预测对象的行为的延迟可能允许车辆对对象作出更快速的反应并且更快速、有效和/或安全地运行。

此外，与感知/预测系统300相比，感知/预测系统400可能能够提供对对象行为的更准确的预测。感知/预测系统300的机器学习模型370(如图3所示)使用机器学习模型305检测到的对象(例如行人)作为输入。例如，机器学习模型370可以接收描述对象的图像的部分，而不是完整的图像(例如描述对象的图像的裁剪出来的部分，而不是整个图像)。因此，机器学习模型370可能无法使用可能存在于完整图像的其他部分中的特征。例如，机器学习模型370可能无法识别交通灯的颜色和行人的预测行为之间的相关性，因为机器学习模型370可能仅被提供包括行人的图像部分并且可能没有被提供包括交通灯的其他图像部分。因为感知/预测系统400的机器学习模型470正在使用基于完整图像生成的特征图，机器学习模型470可能能够识别环境中多个对象之间的相关性并且可能能够更准确地预测特定对象的行为。例如，如果同时检测到行人和红绿灯，并且机器学习模型470能够确定红绿灯是红色的，那么行人更有可能因为红色的红绿灯而不移动(例如不会过马路)。

此外，由于机器学习模型305和机器学习模型470同时运行，机器学习模型305和机器学习模型470可以同时被训练。例如，可以将训练数据集提供给机器学习模型305。当机器学习模型305处理训练数据时，可以将机器学习模型305的训练期间生成的特征集同时提供给机器学习模型470以训练机器学习模型470。这减少了训练机器学习模型305和机器学习模型470的时间量。

尽管机器学习模型305和机器学习模型470在检测对象和预测对象的行为方面被讨论。机器学习模型305和机器学习模型470可以在其他实施例中实施其他功能和/或确定其他预测。

图5是说明根据本公开的一个或多个实施例的示例性图像500的图表。图像500被划分为具有列1至8和行A至F的网格。每个网格可以用行列对来指代。例如，A1可以指的是最上面且最左边的网格。图像500描绘、代表等车辆可能正在移动和/或所处的环境。图像500描绘红绿灯501、行人502和道路503。

在一个实施例中，回头参考图4，图像500可以是由感知/预测系统400的机器学习模型305生成的输出。如上所述，机器学习模型305可以检测图像500中的一个或多个对象。特别是，机器学习模型305可以检测行人502。图像500(例如输出)可以具有形状/尺寸H×W×Anch×5。H代表图像500以网格数计算的高度(例如H＝6)。W代表图像500以网格的数量表示的宽度(例如W＝8)。Anch可以代表每个网格可能必须检测对象(例如行人)的锚框的数量。第四维度可以表示五个值，第一值可以是对象(例如行人)将朝某个方向移动的概率，并且其他四个值可以是边界框510的角。

在一个实施例中，图像500可以是由感知/预测系统400的机器学习模型470生成的输出。如上所述，机器学习模型470可以确定图像500中的一个或多个对象的一个或多个行为。图像500(例如输出)可以具有形状/尺寸H×W×Anch×5。H代表图像500以网格数表示的高度(例如H＝6)。W代表图像500以网格的数量表示的宽度(例如W＝8)。Anch可以代表每个网格可能必须检测对象(例如行人)的锚框的数量。第四维度可以指出五个值，第一值可以指出第一对象(例如行人)将朝某个方向移动的概率。第一值也可以指出第一对象是否是某个对象类型的一个或多个概率。例如，第一值还可以指出该对象是行人的概率、该对象是自行车手的概率、该对象是另一车辆的概率，等等。二到五的值可以是边界框510的角。

如上所述，输出模块480可以分别接收由机器学习模型305和机器学习模型470生成的输出。

输出模块480可以识别由机器学习模型305检测的对象的位置和由机器学习模型470检测的运动的位置之间的匹配。例如，输出模块480可以识别行人502作为匹配对象。输出模块480可以使用针对行人502的预测行为并且可以生成指出位于边界框510内的行人502可能朝某个方向移动(例如可能向右移动)的输出。

图6说明根据本公开的一个或多个实施例的用于检测对象和/或确定对象的行为的示例过程600的流程图。过程600可由处理逻辑实施，该处理逻辑可包括硬件(例如电路、专用逻辑、可编程逻辑、处理器、处理装置、中央处理单元(CPU)、片上系统(SoC)等)、软件(例如在处理装置上运行/执行的指令)、固件(例如微代码)或它们的组合。在一些实施例中，过程600可以由计算装置、感知/预测系统(例如图4所示的感知/预测系统400)、机器学习模型(例如图4所示的机器学习模型305和470)和/或输出模块(例如图4s所示的输出模块480)中的一个或多个实施。

参照图6，流程600说明各种实施例所使用的示例性功能。尽管在过程600中公开了具体的功能块(“块”)，但这些块是示例。也就是说，实施例很适合于实施各种其他块或流程600中所述的块的变型。可以理解的是，过程600中的块可以以不同于所提出的顺序实施，并且不是过程600中的所有块都可以被实施。此外，可以在图6所示的块之间插入额外的(在图6中未示出的)其他块。

过程600在块605处开始，其中过程600可以选择性地训练第一和第二机器学习模型。第二机器学习模型的输入和/或其他层可以耦合到第一机器学习模型的中间层，如上所述。这可以允许第一和第二机器学习模型同时被训练。在块610处，过程600可以在第一机器学习模型的输入节点/层处接收输入数据、例如图像、视频等。

在块615处，过程600可以确定(例如检测、识别等)对象集并且可以确定(例如预测、识别等)该对象集的行为集，对象集的确定和其行为集的确定如上所述至少部分地同时进行。块615包括块616。在块616处，第二机器学习模型可以接收由第一机器模型的中间层生成的中间输出，如上所述。在块620处，过程600可以确定该对象集的最终的行为集。例如，第一机器学习模型可以检测第一对象集。第二机器学习模型可以确定运动可能发生在不同的位置。过程600可以确定与第一机器学习模型检测到的对象的位置相匹配的运动(例如行为)的位置。与检测到的对象的位置相匹配的运动的位置可以是最终的行为集。

在块625处，过程600可以控制车辆(例如自主车辆、半自主车辆等)的一个或多个运行。例如，过程600可以控制车辆的一个或多个运行和/或基于由第一和第二机器学习模型分别确定的对象集和行为集控制车辆。过程600可以控制车辆的各种部件、系统、模块、电路等。例如，过程600可以基于对象集和行为集控制车辆的发动机、变速器、制动器/制动系统、大灯、喇叭、转向系统等。控制车辆的各种部件、系统、模块、电路等可以允许过程600控制车辆的运动和/或运行。例如，过程600可以控制制动器、转向系统和发动机中的一个或多个来防止车辆撞到由第一机器学习模型检测到的行人(例如对象)。

图7是根据一些实施例的示例计算装置700的框图。计算装置700可以与局域网、内网、外网和/或互联网中的其他计算装置连接。计算装置可以在客户端-服务器网络环境中以服务器机器的身份运行，或者在对等网络环境中以客户端的身份运行。计算装置可以由个人电脑(PC)、机顶盒(STB)、服务器、网络路由器、交换机或网桥，或任何能够执行指定要由该机器采取的行动的一组(按顺序的或其它)指令的机器提供。此外，虽然仅说明单个的计算装置，但术语“计算装置”也应被视为包括单独或联合执行一组(或多组)指令以实施本文讨论的方法的任何计算装置的集合。

示例计算装置700可以包括处理装置(例如通用处理器、可编程逻辑装置(PLD)等)702、主存储器704(例如同步动态随机存取存储器(DRAM)、只读存储器(ROM))、静态存储器706(例如闪存)以及数据存储装置718)，它们可以通过总线730相互通信。

处理装置702可由一个或多个通用处理装置、如微处理器、中央处理单元或类似装置提供。在说明性的示例中，处理装置702可以包括复杂指令集计算(CISC)微处理器、简化指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器或者实现其他指令集的处理器或实现指令集组合的处理器。处理装置702还可以包括一个或多个特殊用途的处理装置、如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器或类似装置。处理装置702可以配置为根据本公开的一个或多个方面执行本文所描述的操作，以便实施本文讨论的操作和步骤。

计算装置700可以进一步包括网络接口装置708，该网络接口装置可以与网络720通信。计算装置700还可以包括视频显示单元710(例如液晶显示器(LCD)或阴极射线管(CRT))、字母数字输入装置712(例如键盘)、光标控制装置714(例如鼠标)和声音信号生成装置716(例如扬声器)。在一个实施例中，视频显示装置710、字母数字输入装置712和光标控制装置714可以组合成单个的部件或装置(例如LCD触摸屏)。

数据存储装置718可以包括计算机可读存储介质728，根据本公开的一个或多个方面，在其上可存储一组或多组感知/预测系统指令725、例如用于实施本文所描述的操作的指令。感知/预测系统指令725在由计算装置700执行期间也可以完全或至少部分地驻留在主存储器704内和/或处理装置702内，主存储器704和处理装置702也构成计算机可读介质。感知/预测系统指令725可以进一步通过网络接口装置708在网络720上被传输或接收。

虽然计算机可读存储介质728在说明性示例中示出为单个介质，但术语“计算机可读存储介质”应被理解为包括存储所述一组或多组指令的单个介质或多个介质(例如集中式或分布式的数据库和/或相关联的缓存和服务器)。术语“计算机可读存储介质”也应被视为包括任何能够存储、编码或携带一组指令供机器执行并且使机器实施本文所述方法的介质。因此，术语“计算机可读存储介质”应包括但不限于固态存储器、光学介质和磁性介质。

额外的示例、实现方式、实施例等在附录A中描述，该附录通过引用全部纳入。

除非特别说明，诸如“接收”、“确定”、“训练”等术语是指由计算装置实施或实现的行动和过程，这些行动和过程将在计算装置的寄存器和存储器内表示为物理(电子)量的数据操纵并转化为在计算装置存储器或寄存器或其他此类信息存储装置、传输装置或显示装置内同样表示为物理量的其他数据。另外，本文所使用的术语“第一”、“第二”、“第三”、“第四”等是作为区分不同元素的标签并且不一定根据其数字名称具有顺序的意义。

本文所述的示例还涉及用于实施本文所描述的操作的设备。该设备可以是为所需目的而专门构造的，或者该设备可以包括由存储在所述计算装置中的计算机程序选择性地编程的通用计算装置。这样的计算机程序可以存储在计算机可读的非暂时性存储介质中。

这里描述的方法和说明性示例与任何特定的计算机或其他设备没有内在关系。各种通用系统可以根据本文所描述的教导使用，或者可以证明构造更专门的设备来实施所需的方法步骤是方便的。这些各种系统的所需结构将出现在上述描述中。

上述描述是为了说明，而不是限制性的。尽管本公开已经参照具体的说明性示例被描述，但人们将认识到，本公开并不限于所描述的示例。本公开的范围应参照以下权利要求以及权利要求有权具有的全部等同物的范围来确定。

如本文所使用的，单数形式“一”，“一个”和“该”也旨在包括复数形式，除非上下文另有明确指示。还将理解的是，当在本文中使用时，术语“包括”指定所述特征、整数、步骤、操作、元素和/或部件的存在，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件和/或它们的组合。因此，本文所使用的术语仅用于描述特定的实施例并且不旨在限制。

还应注意的是，在一些备选实现方式中，所指出的功能/行为可能不按图中指出的顺序发生。例如，连续示出的两幅图实际上可能基本上同时执行，或者有时可能以相反的顺序执行，这取决于所涉及的功能/行动。

尽管方法操作按特定顺序描述，但应该理解，其他操作可以在所描述的操作之间实施，所描述的操作可以被调整，以便它们在稍微不同的时间发生，或者所描述的操作可以分布在允许处理操作在与处理关联的各种间隔内发生的系统中。

各种单元、电路或其他部件可以被描述或声称为“配置为”或“可配置为”实施一项或多项任务。在这种情况下，短语“配置为”或“可配置为”用于通过表明单元/电路/部件包括在运行期间实施一项或多项任务的结构(例如电路)来暗示结构。因此，可以说单元/电路/部件配置为实施任务，或者可配置为实施任务，即使指定的单元/电路/部件当前没有运行(例如没有开启)。与“配置为”或“可配置为”语言一起使用的单元/电路/部件包括硬件，例如电路、存储可执行以便实现运行的程序指令的存储器，等等。叙述单元/电路/部件“配置为”实施一项或多项任务或者“可配置为”实施一项或多项任务明确表示不针对该单元/电路/部件援引35U.S.C.112第六段。此外，“配置为”或“可配置为”可以包括由软件和/或固件(例如FPGA或执行软件的通用处理器)操纵的通用结构(例如通用电路)，以便以能够实施有关任务的方式运行。“配置为”也可以包括调整制造过程(例如半导体制造设施)，以制造适合实现或实施一项或多项任务的装置(例如集成电路)。“可配置为”明确表示不适用于空白介质、未编程的处理器或未编程的通用计算机，或未编程的可编程逻辑装置、可编程门阵列或其他未编程的装置，除非伴随有赋予未编程的装置配置为实施所公开的功能的能力的编程介质。

为了解释的目的，前面的描述已经参照具体的实施例给出。然而，以上说明性讨论不旨在是详尽无遗的，也不旨在将本发明限于所公开的精确形式。鉴于上述教导，许多修改和变型是可能的。选择和描述实施例是为了最佳地解释实施例的原理及其实际应用，从而使本领域的其他技术人员能够最佳地利用实施例和各种修改，如同它们可能适合于设想的特定用途的那样。因此，本发明的实施例应被视为说明性的，而不是限制性的，并且本发明不限于此处给出的细节，而是可以在所附权利要求的范围和等同替代方案内进行修改。

Claims

1.一种方法，包括：

在第一机器学习模型的输入端，接收代表环境的第一输入数据；

通过第一机器学习模型基于第一输入数据确定环境内的对象集；并且

通过第二机器学习模型确定该对象集的行为集，其中：

将第二机器学习模型的输入与第一机器学习模型的中间层集相耦合；

至少部分地同时确定对象集并且确定对象集的行为集；并且

基于所述对象集和所述行为集中的一个或多个对象和行为控制车辆的一个或多个运行。

2.根据权利要求1所述的方法，还包括：

在所述第二机器学习模型的输入端，从所述第一机器学习模型的所述中间层集接收中间输出集。

3.根据权利要求2所述的方法，其中，从所述第一机器学习模型的不同的中间层接收所述中间输出集中的每个中间输出。

4.根据权利要求2所述的方法，其中，所述中间输出集中的每个中间输出由第一机器学习模型的相同中间层在不同的时间生成。

5.根据权利要求2所述的方法，其中，所述中间输出集中的不同子集由不同的中间层在不同的时间生成。

6.根据权利要求1所述的方法，其中，将所述第二机器学习模型的第二中间层集与所述第一机器学习模型的一个或多个中间层相耦合。

7.根据权利要求2所述的方法，其中：

所述中间输出集包括由所述中间层集的一个或多个滤波器生成的一个或多个特征图。

8.根据权利要求1所述的方法，还包括：

基于训练数据集训练所述第一机器学习模型和所述第二机器学习模型，其中，在没有在所述第二机器学习模型的输入端接收该训练数据集的情况下训练所述第二机器学习模型。

9.根据权利要求1所述的方法，其中：

所述环境内的第一对象集包括所述环境内的一个或多个行人；并且

所述行为集包括一个或多个行人的一个或多个运动方向。

10.根据权利要求1所述的方法，其中，所述第二机器学习模型还要确定所述第一对象集的属性集。

11.一种设备，包括:

配置为存储数据的存储器；和

与存储器耦连的处理装置，该处理装置配置为：

通过所述第一机器学习模型基于所述第一输入数据确定环境内的对象集；

通过第二机器学习模型确定所述对象集的行为集，其中：

将所述第二机器学习模型的输入与所述第一机器学习模型的中间层集相耦合；并且

至少部分地同时确定对象集并且确定对象集的行为集；并且

12.根据权利要求11所述的设备，其中，所述处理装置还配置为：

在所述第二机器学习模型的所述输入端，从所述第一机器学习模型的所述中间层集接收中间输出集。

13.根据权利要求12所述的设备，其中，所述中间输出集中的每个中间输出被从所述第一机器学习模型的不同的中间层接收。

14.根据权利要求12所述的设备，其中，所述中间输出集中的每个中间输出由所述第一机器学习模型的相同中间层在不同的时间生成。

15.根据权利要求12所述的设备，其中，所述中间输出集中的不同子集由不同中间层在不同的时间生成。

16.根据权利要求11所述的设备，其中，将第二机器学习模型的第二中间层集与所述第一机器学习模型的一个或多个中间层相耦合。

17.根据权利要求12所述的设备，其中：

18.根据权利要求11所述的设备，其中，所述处理装置还配置为：

基于训练数据集训练所述第一机器学习模型和所述第二机器学习模型，其中，所述第二机器学习模型在没有在所述第二机器学习模型的输入端接收该训练数据集的情况下被训练。

19.根据权利要求11所述的设备，其中：

所述环境内的所述对象集包括所述环境内的一个或多个行人；并且

所述行为集包括一个或多个行人的一个或多个运动方向。

20.一种非暂时性计算机可读介质，具有存储在其上的指令，该指令当由处理装置执行时使所述处理装置:

通过所述第一机器学习模型基于所述第一输入数据确定所述环境内的对象集；并且

通过第二机器学习模型确定该对象集的行为集，其中：

将所述第二机器学习模型的输入与第一机器学习模型的中间层集相耦合；

至少部分地同时确定对象集并且确定对象集的行为集；并且