CN118124616A

CN118124616A - 用于基于乘客动作来触发交通工具动作的方法和设备

Info

Publication number: CN118124616A
Application number: CN202410485580.1A
Authority: CN
Inventors: 赵敏安; N·柯塞吉汉吉尔; R·罗萨莱斯
Original assignee: Mobileye Vision Technologies Ltd
Current assignee: Mobileye Vision Technologies Ltd
Priority date: 2020-03-26
Filing date: 2020-11-30
Publication date: 2024-06-04
Also published as: US11932249B2; US11568655B2; CN113511217A; US20230174065A1; US20240190431A1; EP3885976A1; US20200242381A1

Abstract

本申请公开了用于基于乘客动作来触发交通工具动作的方法和设备。呈现了基于对交通工具的一个或多个乘员的监视来触发交通工具动作的自主驾驶系统和方法。方法和对应的设备可包括：在详述一个或多个乘员的多个图像数据子集中标识多个特征；在多个图像数据子集上跟踪多个特征随时间的改变；基于所跟踪的改变，从多个状态确定一个或多个乘员的状态；以及基于所确定的状态来触发交通工具动作。

Description

用于基于乘客动作来触发交通工具动作的方法和设备

本申请是针对申请号为202011375502.4、申请日为2020年11月30日、题为“用于基于乘客动作来触发交通工具动作的方法和设备”的申请的分案申请。

技术领域

本公开的各方面总体上涉及自主驾驶系统。

背景技术

自主驾驶利用可靠的驾驶控制和安全性系统，该驾驶控制和安全性系统处理在交通工具处采集的数据。使用在交通工具处采集的数据(该数据可包括关于交通工具的外部环境、内部环境的数据或关于交通工具自身的数据)，交通工具可更改其移动，修改其相对于外部要素的定位，和/或对新近检测到的事件进行响应。另外，自主交通工具可被配置成与其他设备(诸如，其他交通工具、网络基础设施元件、无线设备等)通信，以辅助移动性控制，提供更快的信息处理，并且一般而言，传输信息以便改善整体系统性能。

自主驾驶系统还可依赖于针对安全性保障并符合当地规则或规范的驾驶模型。这些驾驶模型的实现方式可允许自主交通工具诊断危险或不安全情形并相应地对它们进行反应。

附图说明

在附图中，贯穿不同的视图，相同的附图标记一般指代相同部分。这些附图不一定是按比例的，而是一般着重于说明本公开的原理。在下列描述中，参照下列附图描述本公开的各个方面，在附图中：

图1示出根据本公开的各个方面的示例性自主交通工具。

图2示出根据本公开的各个方面的交通工具的安全性系统的各种示例性电子组件。

图3示出根据一些方面的交通工具的示例性示图。

图4示出根据一些方面的感知系统的示例性示图。

图5A-图5B示出根据一些方面的示例性内部交通工具设置和针对一个或多个机载传感器的框图。

图6示出根据一些方面的展现出驾驶员行为和距前方交通工具的纵向距离的示例性场景。

图7示出图示根据一些方面的基于对交通工具的一个或多个乘员的监视的驾驶安全性系统的示例性示图。

图8示出根据一些方面的时空监视系统的示例性示图。

图8A示出根据一些方面的用于2D CNN的训练过程的示例性图示。

图9示出根据一些方面的时空监视系统的特征跟踪方面的示例性示图。

图10示出根据一些方面的示例性软件层和硬件层示图。

图11示出根据一些方面的使用两个基本模型对核的可视化。

图12示出图示根据一些方面的实时性能分析的图表。

图13示出根据一些方面的基于对交通工具的一个或多个乘员的监视来触发交通工具动作的示例性流程图。

图14示出描述根据一些方面的生成用于交通工具的指令的方法的另一示例性流程图。

图15示出根据一些方面的设备的内部配置，该设备包括处理器和存储器，该存储器具有用于执行方法的子例程。

具体实施方式

自主交通工具的安全性保障可通过以下来实现：实现模仿“良好驾驶习惯”以快速地且有效地进行导航并对情形进行响应的驾驶模型。这些驾驶习惯可包括例如，维持距环境中的其他交通工具(例如，处于前方的交通工具)的安全距离。

下列方法和设备使用机载乘客监视数据并应用时空分析建模方案来触发交通工具动作，该机载乘客监视数据是利用一个或多个机载数据采集设备(例如，提供RGB、深度、和/或红外数据的相机)捕获的。这些方法和设备提供用于识别驾驶员的状态例如以便采取预防性措施的准确且快速的机制，这些预防性措施诸如提供距位于前方的交通工具的适当距离或者向交通工具的驾驶员提供通知。每个所识别的状态可与反映驾驶员的反应时间的对应时间值相关联。基于该时间值，可计算到任何外部检测到的对象(例如，其他交通工具)的理论安全距离，并且可触发适当的交通工具动作。

以下详细描述中对附图进行参考，附图通过图示方式示出了可在其中实施本公开的示例性细节和方面。

在本文中使用词语“示例性”来意指“充当示例、实例或说明”。本文中被描述为“示例性”的任何方面或设计不必被解释为相比其他方面或设计是优选或有利的。

贯穿附图，应注意，除非另有说明，否则相同的附图标记用于描绘相同或相似的要素、特征和结构。

术语“至少一个”和“一个或多个”可被理解为包括大于或等于一的数量(例如，一个、二个、三个、四个、[...]等)。术语“多个(a plurality)”可被理解为包括大于或等于二的数量(例如，二个、三个、四个、五个、[...]等)。

说明书和权利要求书中的词语“复数”和“多个(multiple)”明确地指代大于一的量。因此，任何明确地援引上述词语来指代某个数量的对象的短语(例如，多个“多(plural)[要素],”、“多个(multiple)[要素]”)明确地指代多于一个的所述要素。说明书和权利要求书中的短语“(……的)组”、“(……的)集”、“(……的)集合”、“(……的)系列”、“(……的)序列”、“(……的)分组”等(如果存在)指代等于或大于一的量，即一个或多个。短语“适当的子集”、“减小的子集”、和“较小的子集”指代集合的不等于该集合的子集，说明性地，指代集合的包含比该集合少的元素的子集。

关于一组要素的短语“……中的至少一个”在本文中可用于意指来自包括这些要素的组的至少一个要素。例如，关于一组要素的短语“……中的至少一个”在本文中可用于意指以下中的选择：所列要素中的一个、多个所列要素中的一个要素、多个个体所列要素、或多个个体所列要素中的多个。

如本文中所使用的术语“数据”可被理解为包括采用任何合适的模拟或数字形式的信息，例如，作为文件、文件的部分、文件集合、信号或流、信号或流的部分、信号或流的集合等等来提供的信息。进一步地，术语“数据”还可用于意指对信息的例如以指针的形式的引用。然而，术语“数据”不限于上述示例，并且可采取各种形式并表示如本领域中理解的任何信息。

任何向量和/或矩阵记号本质上是示例性的，并且仅出于解释目的而被采用。相应地，伴随着向量和/或矩阵记号的本公开的各个方面不限于仅使用向量和/或矩阵来实现，并且相关联的过程和计算可以等效地相对于数据、观察、信息、信号、样本、符号、元件等的集合、序列、组等来执行。

应当领会，本文中所采用的任何向量和/或矩阵记号本质上是示例性的，并且仅出于解释目的而被采用。相应地，应当理解，本公开中详述的方法不限于仅使用向量和/或矩阵来实现，并且相关联的过程和计算可以等效地相对于数据、观察、信息、信号、样本、符号、元件等的集合、序列、组等来执行。此外，应当领会，对“向量”的引用可指任何尺寸或取向的向量，例如包括1×1向量(例如，标量)、1×M向量(例如，行向量)、以及M×1向量(例如，列向量)。类似地，应当领会，对“矩阵”的引用可指任何尺寸或取向的矩阵，例如包括1×1矩阵(例如，标量)、1×M矩阵(例如，行向量)、以及M×1矩阵(例如，列向量)。

例如，如本文中所使用的术语“处理器”或“控制器”可被理解为允许处置数据的任何种类的技术实体。可根据由处理器或控制器执行的一个或多个特定功能来处置数据。进一步地，如本文中所使用的处理器或控制器可被理解为任何种类的电路(例如，任何种类的模拟或数字电路)，并且还可被称为“处理电路”、“处理电路系统”等等。处理器或控制器因此可以是或可包括模拟电路、数字电路、混合信号电路、逻辑电路、处理器、微处理器、中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、集成电路、专用集成电路(ASIC)等，或其任何组合。下文将进一步详细描述的相应功能的任何其他种类的实现方式也可被理解为处理器、控制器或逻辑电路。应理解，本文中详述的处理器、控制器或逻辑电路中的任何两个(或更多个)可被实现为具有等效功能或类似功能的单个实体等等，并且相反地，本文中详述的任何单个处理器、控制器或逻辑电路可被实现为具有等效功能或类似功能的两个(或更多个)分开的实体等等。

如本文中所使用，“存储器”被理解为数据或信息可以被存储在其中以供检取的计算机可读介质。对本文中所包括的“存储器”的引用可因此被理解为是指易失性或非易失性存储器，包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、固态存储、磁带、硬盘驱动器、光驱等等、或其任何组合。在本文中，寄存器、移位寄存器、处理器寄存器、数据缓冲器等等也可由术语存储器包含。术语“软件”是指任何类型的可执行指令，包括固件。

除非明确地指定，否则术语“发射”涵盖直接(点对点)和间接(经由一个或多个中间点)的发射两者。类似地，术语“接收”涵盖直接和间接的接收两者。此外，术语“发射”、“接收”、“传递”或其他类似术语涵盖物理传输(例如，对无线电信号的传输)和逻辑传输(例如，通过逻辑软件级连接对数字数据的传输)两者。例如，处理器或控制器可通过软件级连接以无线电信号的形式与另一处理器或传感器对数据进行发射或接收，其中，物理发射和接收由诸如RF收发机和天线之类的无线电层组件处置，并且通过软件级连接的逻辑发射和接收由处理器或控制器执行。术语“传递”涵盖传送和接收中的一者或两者，即，在传入方向和传出方向中的一个或这两个方向上的单向或双向传输。术语“计算”涵盖经由数学表达式/公式/关系进行的‘直接’计算和经由查找表或散列表以及其他数组索引或搜索操作进行的‘间接’计算两者。

可以将“交通工具”理解为包括任何类型的被驾驶或可驾驶的对象。作为示例，交通工具可以是具有内燃机、反作用式引擎、电驱动对象、混合驱动对象或其组合的被驾驶对象。交通工具可以是或者可以包括汽车、公共汽车、小型公共汽车、货车、卡车、房车、车辆拖车、摩托车、自行车、三轮车、火车机车、火车车厢、移动机器人、个人运输机、船只、船、潜水器、潜艇、无人机、飞机、火箭等等。

“地面交通工具”可被理解为包括如上文所述的被配置成用于在地面上(例如，在街道上、在道路上、在轨道上、在一条或多条轨道上、越野等)穿行或被驾驶的任何类型的交通工具。“空中交通工具”可被理解为如上文所述的能够在任何持续时间内在地面上方被操纵的任何类型的交通工具，例如无人机。类似于具有用于在地面上提供移动性的轮、带等的地面交通工具，“空中交通工具”可具有一个或多个螺旋桨、机翼、风扇等等，以用于提供在空中机动的能力。“水域交通工具”可被理解为如上文所述的能够在液体表面上或液体表面下方机动的任何类型的交通工具，例如，水面上的船只或水面下方的潜水艇。要领会，一些交通工具可被配置成用于作为地面交通工具、空中交通工具和/或水域交通工具中的一者或多者来进行操作。

术语“自主交通工具”可描述能够在不具有驾驶员输入的情况下实现至少一个导航改变的交通工具。导航改变可描述或包括交通工具的转向、制动、或加速/减速中的一种或多种改变。即使在交通工具不是完全自动(例如，在有驾驶员输入或无驾驶员输入的情况下完全操作)的情况下，也可以将交通工具描述为自主的。自主交通工具可以包括可以在某些时间段内在驾驶员控制下操作并且在其他时间段内无需驾驶员控制而操作的那些交通工具。自主交通工具还可包括仅控制交通工具导航的一些方面的交通工具，交通工具导航的一些方面诸如转向(例如，在交通工具车道约束之间维持交通工具路线)或在某些情形下(但并非在所有情形下)进行一些转向操作，但可能将交通工具导航的其他方面留给驾驶员(例如，在某些情形下进行制动或刹车)。自主交通工具还可以包括在某些情形下共同控制交通工具导航的一个或多个方面的交通工具(例如，动手操作(诸如响应驾驶员的输入))和在某些情形下控制交通工具导航的一个或多个方面的交通工具(例如，放手操作(诸如独立于驾驶员的输入))。自主交通工具还可以包括在某些特定情形下(诸如，在某些环境条件下(例如，空间区域、道路条件))控制交通工具导航的一个或多个方面的交通工具。在一些方面，自主交通工具可以处理交通工具的制动、速率控制、速度控制和/或转向的一些或所有方面。自主交通工具可以包括可以在没有驾驶员的情况下操作的那些交通工具。交通工具的自主性级别可以由交通工具的汽车工程师协会(SAE)级别(例如，由SAE例如在SAE J30162018中定义：道路机动交通工具的驾驶自动化系统相关术语的分类和定义)或由其他相关专业组织进行描述或确定。SAE级别可以具有范围从最小级别(例如，0级(说明性地，基本上没有驾驶自动化))到最大级别(例如，5级(说明性地，完全驾驶自动化))的值。

在本公开的上下文中，“交通工具操作数据”可被理解为描述与交通工具的操作有关的任何类型的特征。作为示例，“交通工具操作数据”可描述交通工具的状态，诸如，(多个)推进单元的类型、交通工具的轮胎或螺旋桨的类型、交通工具的类型、和/或交通工具的制造的时限。更一般地，“交通工具操作数据”可描述或包括静态特征或静态交通工具操作数据(说明性地，不随时间改变的特征或数据)。作为另一示例，附加地或替代地，“交通工具操作数据”可描述或包括在交通工具的操作期间改变的特征，例如，交通工具的操作期间的环境状况(诸如，天气状况或道路状况)、燃料水平、液位、交通工具的驱动源的操作参数等。更一般地，“交通工具操作数据”可描述或包括变化的特征或变化的交通工具操作数据(说明性地，时变特征或数据)。

本文中的各个方面可利用一个或多个机器学习模型来执行或控制交通工具的功能(或本文中所描述的其他功能)。例如，如本文中所使用的术语“模型”可被理解为根据输入数据提供输出数据的任何种类的算法(例如，根据输入数据生成或计算输出数据的任何种类的算法)。机器学习模型可由计算系统执行以渐进地改善特定任务的性能。在一些方面中，可在训练阶段期间基于训练数据来调整机器学习模型的参数。可在推断阶段期间使用经训练的机器学习模型基于输入数据来做出预测或决策。在一些方面中，可使用经训练的机器学习模型来生成附加的训练数据。可在第二训练阶段期间基于所生成的附加训练数据来调整附加机器学习模型。可在推断阶段期间使用经训练的附加机器学习模型基于输入数据来作出预测或决策。

本文中所描述的机器学习模型可采取任何合适的形式或利用任何合适的技术(例如，以用于训练目的)。例如，这些机器学习模型中的任何机器学习模型均可利用监督式学习、半监督式学习、无监督式学习、或强化学习技术。

在监督式学习中，可使用训练数据集来建立模型，该训练数据集包括既包括输入又包括对应的期望输出(说明性地，每个输入可与针对该输入的期望或预期输出相关联)。每个训练实例可包括一个或多个输入并且包括期望输出。训练可包括通过训练实例迭代以及使用目标函数来教导模型预测针对新的输入的输出(说明性地，对于训练集中不包括的输入)。在半监督式学习中，训练集中的输入中的部分可能缺少相应的期望输出(例如，一个或多个输入可能不与任何期望或预期的输出相关联)。

在无监督式学习中，可从仅包括输入而不包括期望输出的训练数据集来建立模型。无监督式模型可用于说明性地通过发现数据中的模式而找到该数据中的结构(例如，对数据点的分组或聚类)。可在无监督式学习模型中实现的技术可包括例如自组织图、最近邻映射、k均值聚类、以及奇异值分解。

强化学习模型可包括正反馈或负反馈以改善准确性。强化学习模型可尝试使一个或多个目标/回报最大化。可在强化学习模型中实现的技术可包括例如Q学习、时间差(TD)和深度对抗网络。

本文中所描述的各个方面可利用一个或多个分类模型。在分类模型中，输出可限于值的有限集合(例如，一个或多个类)。分类模型可输出针对具有一个或多个输入值的输入集合的类。输入集合可包括传感器输入，诸如图像数据、雷达数据、LIDAR数据等等。如本文中所描述的分类模型可例如对某些驾驶条件和/或环境条件(诸如，天气条件、道路条件)等等进行分类。本文中对分类模型的引用可构想实现例如下列技术中的任何一种或多种技术的模型：线性分类器(例如，逻辑回归或朴素贝叶斯分类器)、支持向量机、决策树、提升树、随机森林、神经网络或最近邻。

本文中所描述的各方面可利用一个或多个回归模型。回归模型可基于具有一个或多个值的输入集合(说明性地，从具有一个或多个值的输入集合开始或使用具有一个或多个值的输入集合)输出连续范围中的数字值。本文中对回归模型的引用可设想实现例如下列技术中的任何一种或多种技术(或其他合适技术)的模型：线性回归、决策树、随机森林、或神经网络。

本文中所描述的机器学习模型可以是或可包括神经网络。神经网络可以是任何种类的神经网络，诸如卷积神经网络、自编码器网络、变分自编码器网络、稀疏自编码器网络、递归神经网络、去卷积网络、生成性对抗网络，前瞻性神经网络、和积神经网络等等。神经网络可包括任何数量的层。对神经网络的训练(例如，调整神经网络的层)可使用或可基于任何种类的训练原理，诸如反向传播(例如，使用反向传播算法)。

贯穿本公开，下列术语可作为同义词来使用：驾驶参数集，驾驶模型参数集，安全层参数集，驾驶员辅助、自动化驾驶模型参数集，和/或类似术语(例如，驾驶安全参数集)。这些术语可与用于实现指示交通工具根据本文中所描述的方式来操作的一个或多个模型的各组值对应。

此外，贯穿本公开，下列术语可作为同义词来使用：驾驶参数、驾驶模型参数、安全层参数、驾驶员辅助和/或自动化驾驶模型参数、和/或类似术语(例如，驾驶安全参数)，并且可对应于先前所描述的集合内的特定值。

图1示出包括根据各个方面的包括移动性系统120和控制系统200(还参见图2)的交通工具100。应领会，交通工具100和控制系统200本质上是示例性的，并且因此可出于解释的目的而被简化。例如，尽管交通工具100被描绘为地面交通工具，但本公开的各方面可同等地或类似地应用于诸如无人机之类的空中交通工具或诸如船只之类的水域交通工具。此外，要素的数量和位置以及关系距离(如上文所讨论的，这些图并未按比例绘制)是作为示例而提供，并不限于此。交通工具100的组件围绕交通工具100的交通工具壳体布置，安装在该交通工具壳体上或该交通工具壳体外部，封闭在交通工具壳体内，或者其中在交通工具100行进时组件与其一起移动的相对于交通工具壳体的任何其他布置。交通工具壳体(诸如，汽车主体、无人机主体、飞机或直升机机身、船体、或类似类型的交通工具主体)取决于交通工具100属于的交通工具类型。

除了包括控制系统200之外，交通工具100还可包括移动性系统120。移动性系统120可包括交通工具100的、与交通工具100的转向和移动有关的组件。在一些方面，在交通工具100是汽车的情况下，例如，移动性系统120可包括车轮和轮轴、悬架、引擎、变速器、制动器、方向盘、相关联的电气电路系统和布线、以及汽车的驾驶中所使用的任何其他组件。在一些方面，在交通工具100是空中交通工具的情况下，移动性系统120可包括以下各项中的一项或多项：转子、螺旋桨、喷气式引擎、机翼、方向舵或机翼襟翼、空气制动器、轭或轮转、相关联的电气电路系统和布线、以及空中交通工具的飞行中所使用的任何其他组件。在一些方面，在交通工具100是水上或水下交通工具的情况下，移动性系统120可包括以下各项中的一项或多项：方向舵、引擎、螺旋桨、方向盘、相关联的电气电路系统和布线、以及水域交通系统的转向或移动中所使用的任何其他组件。在一些方面，移动性系统120还可包括自主驾驶功能，并且相应地可包括与一个或多个处理器102和传感器阵列的接口，该一个或多个处理器102被配置成用于执行自主驾驶计算和决策，该传感器阵列用于移动感测和障碍物感测。在该场景中，可向移动性系统120提供来自控制系统200的一个或多个组件的、用于指引交通工具100的导航和/或移动性的指令。移动性系统120的自主驾驶组件还可与一个或多个射频(RF)收发器108对接，以促进与执行与自主驾驶有关的决策和/或计算的其他附近的交通工具通信设备和/或中央联网组件的移动性协调。

取决于特定实现方式的要求，控制系统200可以包括各种组件。如图1和图2中所示，控制系统200可包括一个或多个处理器102、一个或多个存储器104、天线系统106(该天线系统106可包括处于交通工具上的不同位置处的、用于射频(RF)覆盖的一个或多个天线阵列)、一个或多个射频(RF)收发器108、一个或多个数据采集设备112、一个或多个定位设备114(该一个或多个定位设备114可包括用于基于全球导航卫星系统(GNSS)和/或全球定位系统(GPS)来接收并确定位置的组件和电路系统)、以及一个或多个测量传感器116(例如，速度计、高度计、陀螺仪、速度传感器等)。

控制系统200可被配置成用于经由移动性系统120和/或与其环境的交互(例如，其他设备或诸如基站之类的网络基础设施元件(NIE)的通信)、经由数据采集设备112和射频通信布置(包括一个或多个射频收发器108并包括天线系统106)来控制交通工具100的移动性。

一个或多个处理器102可包括数据采集处理器214、应用处理器216、通信处理器218、和/或任何其他合适的处理设备。一个或多个处理器102中的每个处理器214、216、218可包括各种类型的基于硬件的处理设备。作为示例，每个处理器214、216、218可包括微处理器、预处理器(诸如图像预处理器)、图形处理器、中央处理单元(CPU)、支持电路、数字信号处理器、集成电路、存储器，或适合用于运行应用以及用于图像处理和分析的任何其他类型的设备。在一些方面，每个处理器214、216、218可包括任何类型的单核或多核处理器、移动设备微控制器、CPU等。这些处理器类型可各自包括具有本地存储器和指令集的多个处理单元。此类处理器可包括用于从多个图像传感器接收图像数据的视频输入，并且还可包括视频输出能力。

本文中所公开的处理器214、216、218中的任一者可被配置成用于根据可被存储在一个或多个存储器104中的一个存储器中的程序指令来执行某些功能。换言之，一个或多个存储器104中的存储器可存储在由处理器(例如，由一个或多个处理器102)执行时控制系统(例如，驾驶和/或安全性系统)的操作的软件。例如，一个或多个存储器104中的存储器可存储一个或多个数据库和图像处理软件、以及经训练的系统(诸如，神经网络、或深度神经网络)。一个或多个存储器104可包括任何数量的随机存取存储器、只读存储器、闪存、盘驱动器、光存储、磁带存储、可移动存储、以及其他类型的存储。替代地，处理器214、216、218中的每一者可包括用于此类存储的内部存储器。

数据采集处理器214可包括用于处理由数据采集单元112采集的数据的处理电路系统，诸如CPU。例如，如果一个或多个数据采集单元是图像采集单元(例如，一个或多个相机)，则数据采集处理器可包括用于使用从图像采集单元获得的信息作为输入来处理图像数据的图像处理器。数据采集处理器214因此可被配置成用于基于来自数据采集单元112(即，在该示例中为相机)的数据输入来创建体素地图，该体素地图详述交通工具100的周围环境。

应用处理器216可以是CPU，并且可被配置成用于处置协议栈以上的层，包括传输层和应用层。应用处理器216可被配置成用于在交通工具100的应用层处执行交通工具100的各种应用和/或程序，这些应用和/或程序诸如操作系统(OS)、用于支持用户与交通工具100交互的一个或多个用户接口(UI)和/或各种用户应用。应用处理器216可与通信处理器218对接，并且充当用户数据的源(在发射路径中)和宿(在接收路径中)，用户数据诸如语音数据、音频/视频/图像数据、消息收发数据、应用数据、基本因特网/网络接入数据等。

在发射路径中，通信处理器218可根据协议栈的层特定功能接收和处理由应用处理器216提供的传出数据，并将所得到的数据提供给其他组件，诸如一个或多个RF收发器108。通信处理器218还可执行物理层处理，以产生数字基带样本，通信处理器218可将该数字基带样本提供给(多个)RF收发器108。(多个)RF收发器108随后可处理数字基带样本以将数字基带样本转换为模拟RF信号，(多个)RF收发器108可经由天线系统106无线地发射模拟RF信号。在接收路径中，(多个)RF收发器108可从天线系统106接收模拟RF信号，并处理模拟RF信号以获得数字基带样本。(多个)RF收发器108可将数字基带样本提供给通信处理器218，通信处理器218可对数字基带样本执行物理层和/或协议层栈处理并将所得到的数据提供给一个或多个处理器102中的其他处理器(例如，应用处理器216)。应用处理器216随后可在应用层处置传入数据，这可以包括利用数据执行一个或多个应用程序和/或经由一个或多个用户接口UI 206将数据呈现给用户。一个或多个用户接口UI 206可包括一个或多个屏幕、话筒、鼠标、触摸板、键盘、或提供用于用户输入和/或向用户提供信息的机制的任何其他接口。虽然各种实际设计可以包括用于每种支持的无线电通信技术的分开的通信组件(例如，分开的天线、RF收发器、数字信号处理器、和控制器)，但是为了简洁起见，图1和图2中示出的交通工具100的配置可以描绘此类组件的仅单个实例。

通信处理器218可被配置成用于实现一种或多种交通工具对外界(V2X)通信协议，该一种或多种交通工具对外界(V2X)通信协议可包括交通工具对交通工具(V2V)、交通工具对基础设施(V2I)、交通工具对网络(V2N)、交通工具对行人(V2P)、交通工具对设备(V2D)、交通工具对网格(V2G)、和/或其他协议。通信处理器218可被配置成用于传输通信，这些通信包括交通工具100与该交通工具100的环境中的一个或多个其他(目标)交通工具之间的通信(单向或双向)(例如，以促进交通工具100鉴于该交通工具100的环境中的其他(目标)交通工具或与其他(目标)交通工具一起协调地导航)、或甚至向正在传输的交通工具100附近区域中的未指定接收者进行的广播传输。

存储器214可具体化交通工具100的存储器组件，诸如硬盘驱动器或另一此类持久性存储器设备。虽然在图1和图2中没有明确描绘，但图1和图2中所示的交通工具100的各种其他组件(例如，一个或多个处理器102)可以附加地各自包括(诸如用于存储软件程序代码、缓冲数据等的)集成的持久性和非持久性存储器组件。

取决于特定应用的要求，数据采集设备112可包括任何数量的数据采集设备和/或组件。这可包括：用于提供关于交通工具的环境(交通工具外部的和内部的两者)的数据的图像采集设备、接近度检测器、声学传感器、红外传感器、压电传感器等。图像采集设备可包括相机(例如，标准相机、数字相机、视频相机、单透镜反射相机、红外相机、立体相机等)、电荷耦合器件(CCD)或任何类型的图像传感器。接近度检测器可包括雷达传感器、光检测和测距(LIDAR)传感器、毫米波雷达传感器等。声学传感器可包括：话筒、声纳传感器、超声传感器等。相应地，数据采集单元中的每一个可被配置成用于观察交通工具100的环境的特定类型的数据，并将该数据转发至数据采集处理器214，以便向交通工具提供该交通工具的环境的准确描绘。数据采集设备112可被配置成用于结合所采集的数据来实现预处理的传感器数据，诸如雷达目标列表或LIDAR目标列表。

测量设备116可包括用于测量交通工具状态参数的其他设备，诸如：用于测量交通工具100的速度的速度传感器(例如，速度计)、用于测量交通工具100沿一个或多个轴的加速度的一个或多个加速度计(单轴的或多轴的)、用于测量取向和/或角速度的陀螺仪、里程表、高度计、温度计等。要领会，取决于交通工具的类型(例如，汽车相对于无人机相对于船只)，交通工具100可具有不同的测量设备116。

一个或多个定位设备114可包括用于确定交通工具100的位置的组件。例如，这可包括全球定位系统(GPS)或全球导航卫星系统(GNSS)电路系统，被配置成用于接收来自卫星系统的信号并确定交通工具100的位置。相应地，定位系统114可向交通工具100提供卫星导航特征。

一个或多个存储器104可将数据存储在例如数据库中或以任何不同格式存储数据，这些数据可对应于地图。例如，地图可指示以下各项的位置：已知地标、道路、路径、网络基础设施元件、或交通工具100的环境的其他要素。一个或多个处理器102可以处理交通工具100的环境的传感信息(诸如图像、雷达信号、来自对两个或更多个图像的LIDAR或立体处理的深度信息)以及位置信息(诸如一个或多个GPS坐标、交通工具的自我运动等)，以确定交通工具100相对于已知地标的当前位置，并细化对交通工具的位置的确定。该技术的某些方面可以被包括在定位技术(诸如建图和路线选择模型)中。

地图数据库(DB)204可包括存储用于交通工具100(例如，用于控制系统200)的(数字)地图数据的任何合适类型的数据库。地图数据库204可以包括与各种项目(包括道路、水景、地理特征、商业、感兴趣的地点、餐馆、加油站等)在参考坐标系中的位置相关的数据。地图数据库204不仅可以存储此类项目的位置，还可以存储与这些项目相关的描述符，包括例如与存储的特征中的任何特征相关联的名称。在一些方面，一个或多个处理器102中的处理器可以通过至通信网络(例如，通过蜂窝网络和/或互联网等)的有线或无线数据连接从地图数据库204下载信息。在一些情况下，地图数据库204可存储稀疏数据模型，包括某些针对交通工具100的道路特征(例如，车道标记)或目标轨迹的多项式表示。地图数据库204还可以包括各种识别出的地标的所存储的表示，这些所存储的表示可被提供以确定或更新交通工具100相对于目标轨迹的已知位置。地标表示可以包括诸如地标类型、地标位置、以及其他潜在标识符之类的数据字段。

此外，控制系统200可包括例如在高级驾驶辅助系统(ADAS)和/或驾驶辅助系统及自动化驾驶系统中实现的驾驶模型。作为示例，控制系统200可包括(例如，作为驾驶模型的部分的)形式模型(诸如，安全性驾驶模型)的计算机实现方式。安全性驾驶模型可以是或可包括对适用于自驾驶交通工具的适用法律、标准、政策等的解释进行形式化的数学模型。安全性驾驶模型可被设计为实现例如三个目标：第一，法律的解释在它符合人类如何解释法律的意义上是合理的；第二，解释应该带来有用的驾驶策略，这意味着它将带来灵活的驾驶政策而不是过度防御性的驾驶，该过度防御性的驾驶不可避免地会使其他人类驾驶员感到迷惑并将阻塞交通，并且进而限制系统部署的可扩展性；以及第三，在可以严格地证明自动驾驶(自主)交通工具正确地实现该法律的解释的意义上，解释应当是高效地可验证的。说明性地，安全性驾驶模型可以是或可包括用于安全性保障的数学模型，该数学模型实现对危险情况的恰当响应的标识和执行，使得可以避免自身导致的事故。

如上文所描述，交通工具100可包括控制系统200，还参考图2来描述该控制系统200。交通工具100可包括一个或多个处理器102，该一个或多个处理器102与电子控制单元(ECU)集成或分开，电子控制单元可被包括在交通工具100的移动性系统120中。一般而言，控制系统200可生成数据来控制或辅助控制ECU和/或交通工具100的其他组件，以直接地控制交通工具100的移动或间接地经由移动性系统120控制交通工具100的移动。交通工具100的一个或多个处理器可被配置成用于实现本文中描述的各方面和方法。

可经由任何适当的接口使图1和图2中所图示的组件在操作上彼此连接。此外，应当领会，并非组件之间的所有连接均被明确地示出，并且组件之间的其他接口可被覆盖在本公开的范围内。

图3参照若干组件更详细地示出根据一些方面的交通工具100的示例性框图300。交通工具100可以能够感测其环境和/或感测交通工具内部的改变，并在不具有直接的人类输入的情况下进行导航和/或向交通工具的乘员提供通知。

一个或多个数据采集处理器214可包括感知系统302、预测系统304、以及规划系统306，这些系统进行协作以感知交通工具100的外部(即，交通工具的外部的)和/或内部(即，交通工具的内部的)环境并确定用于控制交通工具100的移动性或定位的计划和/或向一个或多个乘员发出通知。

感知系统302可以接收来自一个或多个数据采集设备112的数据，该一个或多个数据采集设备耦合至交通工具100或以其他方式被包括在交通工具100内。作为示例，一个或多个数据采集设备112可包括一个或多个相机(用于提供一个或多个模态(例如，颜色、红外、深度等)的数据)、LIDAR系统、雷达系统、和/或其他数据采集设备。数据可以包括描述交通工具100的周围环境和/或内部环境内的对象的位置的信息。

例如，对于一个或多个相机，可以执行各种处理技术(例如，距离成像技术，诸如例如运动恢复结构、结构光、立体三角测量、和/或其他技术)来标识与由一个或多个相机捕捉的成像中所描绘的对象对应的数个点的位置(例如，在相对于一个或多个相机的三维空间中)。其他传感器系统也可以标识与对象对应的点的位置。

一个或多个定位设备114可以是用于确定交通工具100的位置的任何设备或电路系统(例如，GPS、GNSS、关于地面通信设备的三角测量方法)，并且可以向地图数据库DB 204和/或感知系统302提供信息。

数据采集设备112和定位设备114由此可用于收集数据，该数据包括描述与交通工具100的周围环境和/或内部环境内的对象对应的点的位置(例如，在相对于交通工具100的三维空间中)的信息。

除了来自一个或多个数据采集设备112的数据之外，感知系统302还可检取或以其他方式获取来自地图数据库DB 204的地图数据，该地图数据库DB 204提供关于交通工具100的周围环境的详细信息。地图数据库DB 204数据可提供与以下各项相关的信息：不同行进路径(例如，道路)、路段、建筑物、或其他物品或对象(例如，路灯、人行横道等)的身份和位置；交通车道的位置和方向(例如，停车道、转弯车道、自行车道、或特定道路内的其他车道的位置和方向)；交通控制数据(例如，标牌、交通灯、或其他交通控制设备的位置和指令)；和/或提供辅助交通工具100的一个或多个处理器102监视其外部环境和/或内部环境并与其外部环境和/或内部环境进行通信的信息的任何其他地图数据。

感知系统302可基于接收自一个或多个数据采集设备112和/或地图数据库DB 204的数据来标识可能影响交通工具100的控制的一个或多个对象/特征。例如，根据一些方面，感知系统302可监视交通工具的内部环境，并且对于每个对象/特征，确定描述如所描述的此类特征的当前状态的状态数据。作为示例，每个对象的状态数据可描述对象的以下各项的估计：当前位置或定位；当前速率或速度；当前加速度；当前前进方向；当前取向；尺寸/覆盖面积(例如，如由诸如外接多边形或多面体之类的外接形状所表示)；偏航速率；和/或其他状态信息。根据一些方面，感知系统302可确定在数个迭代和/或帧上每个对象/特征的状态数据。具体而言，感知系统302可在每个迭代或帧时更新每个对象的状态数据。由此，感知系统302可随时间检测并跟踪对象和/或特征(例如，诸如其他交通工具之类的交通工具外部的对象和/或特征、诸如人之类的交通工具内部的对象和/或特征等)。感知系统302可实现一个或多个机器学习模型以便执行这些任务。

预测系统304可接收来自感知系统302的状态数据、并基于此类状态数据来预测每个对象的一个或多个未来位置。例如，预测系统304可预测在接下来的1秒、2秒、10秒等内每个对象将位于何处。例如，可根据对象的当前速度和/或加速度预测该对象遵循其当前轨迹。然而，可实现其他更复杂的预测技术或建模。

规划系统306可至少部分地基于由感知系统302或预测系统304提供的、所感知和/或所预测的、对象的一个或多个未来位置和/或对象的状态数据，来为交通工具100确定一个或多个计划。换言之，给定与所感知的对象的当前位置和/或所感知的对象的所预测的未来位置有关的信息，规划系统306可为交通工具100确定对相对于处于当前位置或未来位置的对象而对交通工具100进行最佳响应或导航的计划。

规划系统306可将计划提供至移动性系统120的、控制一个或多个交通工具控件的交通工具控制器320以执行该计划，该一个或多个交通工具控件诸如引擎控件322、制动控件324、和/或转向控件326。交通工具控制器320可至少部分地基于规划系统306的输出来生成用于自主交通工具的一个或多个交通工具控制信号。规划系统306可附加地或替代地向应用处理器216提供通知，以经由一个或多个用户接口UI 206进行通信。

感知系统302、预测系统304、规划系统306、以及交通工具控制器320中的每一者可包括用于提供如本文中所讨论的期望功能的计算机逻辑。根据一些方面，感知系统302、预测系统304、规划系统306、以及交通工具控制器320中的每一者可采用控制通用处理器的硬件、固件和/或软件来实现。例如，根据一些方面，感知系统302、预测系统304、规划系统306、以及交通工具控制器320中的每一者可包括被存储在存储设备上、被加载到存储器中、并由一个或多个处理器执行的程序指令或文件。在其他方面中，感知系统302、预测系统304、规划系统306、以及交通工具控制器320中的每一者可包括被存储在非瞬态计算机可读存储介质中的一个或多个计算机可执行指令集合。

在各种实现方式中，感知系统302、预测系统304和/或规划系统306中的一者或多者可以包括或以其他方式利用一个或多个机器学习模型(诸如卷积神经网络)。

图4示出根据一些方面的提供感知系统302的进一步细节的示例性框图400。如图3中所讨论，数据采集处理器214中的一个或多个处理器102可包括感知系统302，该感知系统302可标识和/或跟踪可能影响交通工具100的一个或多个对象和/或特征(处于外部环境或内部环境中)。

根据一些方面，感知系统302可包括分段组件402、对象/特征关联组件404、跟踪组件406、以及分类组件408。感知系统302可接收来自一个或多个数据采集设备112、一个或多个定位设备114的数据和/或来自地图数据库DB 204的地图数据作为输入。感知系统302可在确定交通工具100的外部和/或内部环境中的对象和/或不同对象的行为时使用这数据。根据一些方面，感知系统302可迭代地处理输入数据，以检测、跟踪从输入数据标识出的对象并对这些对象进行分类。

分段系统402可处理接收到的输入数据，以例如使用一个或多个对象检测系统来确定外部和/或内部环境内的潜在对象和/或特性。对象/特征关联组件404可接收关于所确定的对象和/或特征的数据并分析先前的对象/特征实例数据，以确定每个所确定的对象/特征与先前的对象/特征实例的最可能的关联，或者在一些情况下，确定潜在的对象/特征是否为新的对象/特征实例。跟踪组件406可确定每个对象/特征实例的例如在其当前位置、速度、加速度、前进方向、取向、不确定性等等方面的当前状态。跟踪组件406可进一步被配置成用于跟踪(例如，在由一个或多个相机提供的多个视频帧上)对象/特征的状态随时间的改变。分类组件408可接收来自跟踪组件406的数据并对每个对象/特征实例进行分类。例如，分类组件408可按照来自预定对象/特征集合的对象/特征、以及基于所跟踪的对象/特征所采取的动作(例如，驾驶员处于警示位置、驾驶员正在发短信)来对所跟踪的对象/特征进行分类。分类组件还可提供用于对分段组件402的训练的反馈。

感知系统302可提供对象/特征和状态数据，以供交通工具100内的各种其他系统(诸如预测系统304)使用。

图5A示出示例性内部交通工具设置和驾驶员视图500，并且图5B示出根据一些方面的针对一个或多个机载数据采集设备112i的示例性框图550。

如图5A中所示，内部交通工具设置可包括一个或多个内部数据采集设备112i。虽然被示出为置于500中的特定位置的单个单元，但应当领会，机载数据采集设备112i可替代地和/或附加地被置于各种其他位置处，诸如后视镜520、方向盘522、前侧显示监视器524、中控台526、仪表盘528等。(多个)机载数据采集设备112i可以是(多个)内部传感器和/或(多个)相机中的一个或多个。从驾驶员的视角来看的视图可进一步包括外部环境,诸如包括道路530和前方交通工具540的前向外部环境。

图5B示出可被包括到图2中所示的控制系统200中的附加接口，包括可被包括在一个或多个数据采集设备112的集合中的一个或多个机载数据采集设备112i。一个或多个机载数据采集设备112i可类似于参照112所描述的那些机载数据采集设备，并且可提供关于交通工具100的内部(即，内部环境)的数据，例如，提供关于驾驶员的动作和/或乘客的动作的数据。例如，一个或多个机载数据采集设备112i可包括被配置成用于提供颜色(即RGB)、深度和/或红外数据中的一者或多者的相机。

图6示出根据各方面的两个示例性场景，这两个示例性场景图示出对驾驶员以及相关联的到前方交通工具的纵向距离的监视。

在场景1中，如610中的视频帧所示，驾驶员处于注意。由于驾驶员全神贯注，因此可以假定驾驶员的响应时间(即，反应时间)与全神贯注的时间对应，即，在此种状态下，驾驶员可具有最快的反应时间。相应地，可相应地调整交通工具612与前方交通工具614之间的距离616。

在场景2中，如620中的视频帧所示，驾驶员正在发短信。由于驾驶员的注意力并非完全在驾驶上，因此可以假定驾驶员的响应时间(即，反应时间)多于场景1中的响应时间，即，驾驶员可具有更慢的反应时间。相应地，可相应地调整交通工具622与前方交通工具624之间的距离626。如所示，场景2中的距离626大于场景1中的距离616。

图7示出图示出根据若干方面的驾驶模型的特性的示例性框图700。

在702中，一个或多个机载传感器和/或相机采集关于交通工具的内部的数据。这可例如包括采集关于交通工具的一个或多个乘客的图像数据，诸如拍摄交通工具的驾驶员的视频。在框702中由一个或多个机载传感器和/或相机采集的数据可对应于例如由一个或多个机载数据采集设备112i采集的数据。

可将一个或多个机载传感器和/或相机的输出702a馈送至时空系统704，该时空系统704可被包括在一个或多个数据采集处理器214的感知系统302中。输出702a可以是例如具有颜色(即RGB)和/或深度模态的视频帧。时空系统704可被配置成用于基于一个或多个机载传感器和/或相机702的输出702a来监视一个或多个乘客。这可包括：从输出702a标识特征和/或对象，例如，在从视频数据采样的视频帧中标识特征和/或对象；以及跟踪所标识的特征和/或对象随时间的改变，例如，在多个视频帧上跟踪特征和/或对象的改变。

来自时空系统704的输出704a可包括基于标识和跟踪时空系统704的特征/对象而输出的动作识别。例如，这可包括识别驾驶员状态(即，驾驶员状况、驾驶员类别)，诸如“集中注意力”、“发短信”、“饮水”、“看镜子”或者“看收音机”等。可将输出704a馈送至响应时间估计器706，响应时间估计器706可被配置成用于基于输出704a来确定响应时间。响应时间估计器706可被包括在预测系统304中，并且基于接收自时空系统704的输入产生具有时间值的输出706a。

驾驶模型708可接收来自响应时间估计器706的输出706a并产生输出708a以触发安全性响应710。驾驶模型708可被包括在规划系统306中，并且可基于来自响应时间估计器706的响应时间来计算理论距离、并且还可计算距外部对象(例如，前方的交通工具、相邻车道中的交通工具等)的实际距离。驾驶模型708可将理论距离与实际距离进行比较，将该比较包括在输出708a中。基于输出708a，安全性响应710可由例如交通工具控制器320或由一个或多个用户接口UI 206实现。安全性响应710可包括修改交通工具的加速、制动、和/或转向中的一项或多项，或者经由用户接口UI传送一个或多个通知。

根据一些方面，框图700描述了用于对驾驶员的状态的时空(ST)理解以基于机载视频数据分析来估计驾驶员反应时间的方法。所估计的驾驶员反应时间随后可在驾驶模型中使用以实现对由于缺乏驾驶员注意而导致的紧急危险情形的标识。

图8示出图示根据一些方面的时空(ST)系统704的组件的示例性示图。ST系统704采用基于特征级时间过滤(FTF)的建模技术(在确定驾驶员的动作时提供更高的准确性)，并且由此允许出于安全性目的对驾驶员的状态进行分类。

本文中所描述的基于FTF的建模技术可使用从较大的数据集合(例如视频)取得的数据子集(例如视频帧)作为输入，利用二维(2D)卷积神经网络(CNN)802来标识和提取特征和/或对象。2D CNN 802可包括一组连接的节点并且可包括输入层、输出层、以及输入层与输出层之间的一个或多个隐藏层，这些连接的节点也可被称为神经元或感知器。2D CNN802可以是具有卷积层作为隐藏层的深度前馈神经网络。2D CNN 802可包括数十层的节点、数百层的节点等。每个卷积层可使用经学习的过滤器来对到该卷积层的数据输入执行卷积，该经学习的过滤器可被称为核。相应地，2D CNN 802可被训练成通过使用预先训练的模型来分析图像、而在图像中标识特定的特征和/或对象。2D CNN提取器802可以是被训练成在每个帧中标识特定的特征和/或对象的预先训练的模型。预先训练的模型的输出可包括例如诸如以下各项的特征/对象：手部、瓶子、蜂窝电话、双手握持方向盘的人、面部轮廓、人的后脑勺等。2DCNN 802可被配置成基于来自由ST系统704产生的结果的反馈进一步被训练。

2D CNN 802可以是从视频的帧标识和提取空间特征和/或对象的基础模型，这些视频的帧可包括颜色和/或深度模态。视频可以在一个或多个机载传感器和/或相机处被采集，并且能以大约20至大约120帧每秒(fps)的速率在大约1至大约4秒的持续时间内被采样，以提供数量在从2至32(例如，从4至16)范围内的所采样的帧。应当领会，这些值在本质上是示例性的，并且可使用其他值，例如其他采样速率和/或持续时间。例如，可对来自一个或多个数据采集设备的视频数据在大约1.67秒的持续时间内使用30fps的采样速率，其中该视频数据可采用20-200帧(例如，平均大约50帧)的视频剪辑的形式。可选择这些帧中的数个帧，以使得ST系统704可在这些帧上(即，至少在两个或更多个帧上)跟踪特征和/或对象的改变，这可提供关于特征和/或对象随时间的改变的信息。相应地，2D CNN 802可被配置成用于接收多个图像数据子集(例如，来自视频的帧)并且在多个图像数据子集中的每个子集中标识点位置以用作对2D CNN 802的输入以供进行特征和/或对象提取。2D CNN 802的初始输出可由此被预先训练成检测对象/特征，并且随后使用该预先训练的模型，可利用来自从804获取的时间过滤方面的信息来端对端地重新训练该预先训练的模型。这可以改变2D CNN 802的输出，变成由新的期望动作类别的值表示的“特征集合”，而不是表示预先训练的类别的概率。图8A示出此种过程的示例性图示，并且强调了表示根据本公开的各方面的重新训练的3)和4)。

一旦2D CNN 802已经对输入执行卷积并应用全连接(FC)层在每个帧中标识和提取特征和/或对象集合的值，2D CNN 802就可以输出一系列片段，即在图8中“检测到的空间特征”下示出的列。这些片段中的每个片段可包括一系列条目，其中每个条目具有从最小至最大的范围的值。每个条目可对应于特征和/或对象，并且条目的值可对应于该特征和/或对象在给定的帧中的“大小”。因此，例如，这些片段中的每个片段中的第一条目可对应于2DCNN被训练成识别的第一预先训练的特征和/或对象，并且片段中的每个第一条目可具有与该特征和/或对象在该特定片段(即，对应的帧)中的“强度”对应的值。例如，最小值可以是零，其指示在片段中未标识出给定的特征和/或对象。值朝向范围的最大值的增加指示对象和/或特征在给定片段中更加明显，即，更容易观察到或更普遍。

ST模型704的时间方面在时间过滤部分804中示出。ST模型的时间过滤部分804可将卷积核应用于“检测到的空间特征”的一系列片段，以标识哪些特征和/或对象是“正在兴起的(emerging)”(即，变得更明显或在强度上增加)以及哪些特征是“正在消失的”(即，变得更难以观察到或变得更弱)。将SoftMax层应用于804的时空特征输出，该时空特征输出可采用N_C值的向量的形式(其中N_C是类别的数量)。SoftMax层可将该向量归一化为概率分布向量，该概率分布向量由与到该SoftMax层的向量输入的指数成比例的N_C概率组成。向量类别中的每个类别(即，每个N_C)被提供作为指示基于输入所确定的类别的值(即“动作分数”)。该类别可对应于驾驶员的状态。

根据一些方面，ST系统704应用基于特征/对象级过滤的技术来(1)在802中，从动作视频的所选择的帧中标识和提取特征和/或对象，以及(2)在804中，在所选择的帧上(即，随时间)跟踪这些特征和/或对象的改变。这有助于使用特征的值来捕捉所选择的帧之间的时间信息，并且由此使得了解运动的方向以及改变的大小成为可能。由于运动改变的次序和大小在区分特定的动作(例如，区分使拇指向上还是使拇指向下)时可能非常关键，因此本文中所提供的机制和方案在例如标识驾驶员和/或乘客的状态及使用该信息用于安全性驾驶模型时提供了很高的准确性和效率。

图9示出详述根据一些方面的ST模型的时间过滤特征804的示例性示图。

本公开的ST模型的时间过滤方面引入跨时间(即，跨帧)跟踪由于动作引起的特征和/或对象的改变的能力，而不是单独地使用每个帧处的每个特征的绝对值。所标识的特征和/或对象的所跟踪的改变的次序和大小提供了标识不同情形的改善的准确性和效率。

例如，如果帧的次序未被揭示，则两个手部姿势“使拇指向上”(拇指最初指向下并且随后转向上)和“使拇指向下”(拇指最初指向上并且随后转向下)可能基本上具有相同的帧。特征维度(即，条目)中的一个特征维度可具体地检测拇指指向上的静态时刻，并且另一特征维度可检测拇指指向下的静态时刻。如果跨所采样的帧检测到“拇指指向上”的特征的增加以及“拇指指向下”的特征的减少，则可促进检测到“使拇指向上”的特征。

ST模型的时间特征使用若干个卷积核来转换从提取自2D CNN模型的所标识的对象和/或特征得到的绝对特征分对数(logit)，以提供增加的或减小的值的指示。这进而通过提供少于片段数量N_S的核数量N_k(即，N_k<N_S)来简化FC层，其中对该FC层的特征向量输入的维度减少。

在804中更详细地图示了特征/对象级的时间过滤。在具有N_k个核向量的情况下，核的数量u_k可以被定义为u_k∈R^Ns，其中k＝1,2,…,N_k。通过v_k＝X·u_k获取指示符集合。所有v_k被连结为z∈R^NfNk，并且随后其以权重W∈R^NfNk*Nc和偏移b∈R^Nc通过FC层，以提供包含描述特征和/或对象跨片段的“兴起”或“消失”的值的向量，该向量用于确定标识一个或多个乘客的动作(例如，驾驶员是否全神贯注)的类别中的每个类别的动作分数。核和指示符集合以矩阵形式来编写：

U＝(u₁ u₂ … u_k)∈R^Ns*Nk

V＝XU＝(v₁ v₂ … v_k)∈R^Nf*Nk

在图9中，出于示例性目的示出对由片段1、片段2、……片段N_S组成的检测到的空间特征片段集合中的特征2(即，Feat.2)的跟踪，其中，片段的数量N_S可对应于视频帧的数量。每个特征和/或对象(即，特征1至特征N_f)可经历类似的过程，以便从多个类别(类别1、类别2、类别3、……、类别N_c)确定类别，即确定一个或多个乘员的多个状态中的状态。

对于特征2，核u₁可标识特征的“兴起”(由u1的圆中增加的阴影图示)。如果分对数随时间增加，则x_feat2(x_特征2)和u₁的点积提供针对核u₁的拟合级别，并且x_feat2和u₁的点积被包括在指示符集合的对应的特征2条目中，这些指示符集合随后被连结为z∈R^NfNk。类似地，可跨所有片段(片段1至片段N_S)将其他核(即u₂至u_Nk)的点积应用于特征2的值。例如，核u₂标识特征2“正在消失”(由u2的圆中减少的阴影图示)，并对特征2应用核的点积并将对应的条目包括在指示符集合中。通过跨片段(片段1至片段N_S)将核(u₁至u_Nk)应用于所有特征(特征1至特征N_f)，可生成针对类别(类别1至类别N_C)中的每个类别的分数值。并且，具有最高分数的类别(即，状态、状况)可对应于用于触发适当的交通工具动作的所确定的类别。

通过选择N_k<N_S，当与当前最先进的方法进行比较时，本文中所描述的方法和设备实现了改善的性能。换言之，本文中所描述的方法和设备采用较少数量的核并且仍然能够捕捉所标识的特征和/或对象的动态改变，由此提供了可训练的维度减小。参数尺寸可被定义为N_k(N_S+N_fN_C)，相较于先前方法，该参数尺寸并非完全取决于片段数量(N_S)。此种维度的减小允许利用较少数量的参数来训练神经网络的能力，当与当前最先进的方法进行比较时，其提供了更高的资源效率，并且由此在关键的现实世界应用中提供更高的可靠性。

本文中所描述的基于FTF的建模技术在动作识别中具有更高的分类准确性(在表2和表3中示出)，并且可以捕捉方向并捕捉运动大小(幅度)的改变。针对若干基准评估了在利用本文中所描述的基于FTF的建模技术情况下的性能分析。结果示出，它的性能优于当前最先进的方法，特别是在其中诸如动作视频的帧次序或运动改变的大小之类的时间信息提供了关于所执行动作的含义信息的情况下、以及还有在其中需要瞬时地分析视频以供进行成功决策的情况下。

本文中所描述的方法还提供了如图14中所示的乘客动作识别(例如，驾驶员动作识别)的实时执行。这对于安全性关键问题非常重要，并且超过了当前最先进的方法，甚至超过了使用三维(3D)CNN的那些方法。与仅能够与更复杂的GPU一起部署相反，本公开的2DCNN方法可实现仅有CPU的部署。

表1示出了13个示例性类别(即，状态)以及它们对应的反应时间(ρ)，这13个示例性类别可根据本文中所描述的基于FTF的建模技术来标识。应当领会，表1在本质上是示例性的并且可使用任何其他数量的类别。例如，多个类别N_c(即，多个状态)中可包括少于或多于13个的类别。其他类别还可包括例如：正在进食、正在刮胡子等，并且每个类别可具有对应的反应时间。

表1-示例性类别(即，状态)列表以及对应的反应时间值

对于所标识的类别中的每个类别，利用标注静态地指定对驾驶员反应时间的估计。静态标注为每个类别分派固定数值，该固定数值对应于合理的值，例如，当集中注意力时，人类平均花费2秒来对外部事件进行反应。

在运行时，机载监视可基于本文中所描述的ST建模技术来报告最可能被识别的驾驶员类别，并且所估计的驾驶员反应时间(ρ)可通过使用如表1中所示的查找表来获取。因此，返回参考图3，感知系统302可采用图7-图8中所示的ST模型，并且预测系统304可估计响应时间并将该响应时间转发至驾驶模型，驾驶模型可被包括作为规划系统306的部分。驾驶模型随后可使用所选择的反应时间并将其实现为用于危险情形检测的算法。这可包括检测对距前方交通工具的安全纵向距离d_min(d_最小)或距处于相邻交通车道的交通工具的安全距离的违反。例如，对于基于所确定的驾驶员状态来确定安全纵向距离(d_min)的情况，可使用下列等式：

其中v_r是自我交通工具的速度，ρ是根据本公开的各方面确定的驾驶员反应时间，a_max,accel是自我交通工具的最大加速度，a_min,brake是自我交通工具的制动的最小加速度，v_f是前方交通工具的速度，并且a_max,brake是前方交通工具的制动的最大加速度。注意，自我交通工具是实现本公开的各方面的交通工具。

一旦计算出理论安全距离(例如，安全纵向距离，诸如d_min)，则可将理论安全距离与到交通工具的外部环境中检测到的一个或多个对象(例如，前方交通工具或处于侧面车道的交通工具)的实际物理距离进行比较。可经由被配置成用于监视交通工具的外部环境的一个或多个数据采集设备(例如，相机、传感器)来检测一个或多个外部对象。到一个或多个外部对象的物理距离可根据任何数量的方法来计算，这些方法包括图像处理、LIDAR、雷达、声纳等等。

例如，理论安全距离与到交通工具外部的一个或多个对象的实际物理距离的此种比较可触发交通工具动作，该交通工具动作可被发送至交通工具的其他部件以经由用户接口UI 206中的一个或多个向一个或多个乘客发送通知，该其他部件诸如，移动性系统120的交通工具控制器320、和/或应用处理器216。该动作可包括例如，交通工具控制器320向制动控件324发送信号，以基于计算出的安全距离及该安全距离与距前方交通工具的实际距离的比较、在达到距前方交通工具的安全距离之前提供适当的制动响应。

图10示出描述根据本公开的各方面的各种硬件层1010组件与软件层1020组件之间的交互的示例性示图1000。

应当领会，示图1000包含与本公开的其他部分对应的特征，例如，传感器和/或相机1012可对应于112和/或112i；例如，高级驾驶员辅助系统(ADAS)栈1023、时空动作估计1024、以及安全监视器1025可对应于感知系统302、预测系统304、或规划系统306中的一者或多者。

硬件层1010包括(多个)传感器和/或(多个)相机1012，该(多个)传感器和/或(多个)相机1012监视交通工具中环境(即，乘客舱)和外部交通工具环境(即，交通工具的外部)并且可以是用于交通工具外部感测1021软件层和交通工具内部感测1022软件层的物理组件。交通工具外部感测1021向ADAS栈提供交通工具环境(Veh.env.)数据，而交通工具内部感测1022向时空动作估计1024提供乘员视频(对应于图8和图9)。ADAS栈1023和时空动作估计1024中的每一者可物理地被实现在计算资源1014上，并且将它们各自的输出提供至安全监视器1025，安全监视器1025进而向控制ECU 1018上的控件和交通工具致动器1026软件层提供命令。硬件组件1012-1018中的每一者可具有要被包括在机载网络中的接口。

相对于其他卷积技术评估了根据本公开的各方面的基于FTF的时空建模技术。使用相同的数据集和相同的训练设置，以便提供准确的比较。

使用本公开的基于FTF的建模技术和若干类型的使用公开可用的数据集作为基础模型的2D CNN来进行第一轮测试。其他技术包括基于多层感知器(MLP)的建模技术、基于长-短期记忆(LSTM)的建模技术、以及基于求平均(AVG)的建模技术。将特征维度选择为27来执行所有训练。对于基于MLP的建模技术、基于FTF的建模技术、以及基于LSTM的建模技术，将学习率初始化为0.001，并且在时期25和40将学习率除以10并在时期60最终确定。对于AVG模型，将学习率初始化为0.01，并且在时期25和40将学习率除以10并在时期60最终确定。

结果提供了以下证据：由于本文中所描述的基于FTF的建模技术基于对图像数据的时空理解，因此它们可以应用于任何种类的动作和姿势识别问题。表2提供了使用具有若干种不同架构的公开可用的数据集作为基础模型的准确性结果。基于FTF的建模技术的结果以粗体示出。

表2-相较于其他技术的准确性结果

相较于其他已知的使用若干种不同架构作为用于特征提取的基础模型的卷积技术，本文中所描述的FTF建模技术提供优越的结果。表2示出了本文中所描述的基于FTF的建模技术在几乎所有测试的模型中并且跨所有数量的片段而提供3％的准确性提升。此种改善确认了特征如何改变与特征的绝对值一样重要甚至更加重要。在较低复杂度模型(诸如，具有8个片段的编号为2的基础模型)下，基于FTF的建模技术能以相较于编号为3和编号为4的更复杂的基础模型几乎相同的速率来执行。本公开的基于FTF的建模技术通过从跨片段特征集合提取时间改变而胜过基于MLP的技术。本公开的基于FTF的技术相较于MLP的另一优势在于，本公开的基于FTF的技术依赖于更少数量的参数，这允许其相比于MLP是更加资源高效的。所使用的公开数据集中每一剪辑的平均帧数为大约33。LSTM看起来不是针对跨片段共识的高效方式。

使用利用实感^TM(RealSense^TM)(注意：/>和/> 实感^TM是英特尔公司及其子公司的商标)相机收集的驾驶员行为监视数据集来执行第二轮测试，实感^TM相机提供采用以下三种模态的数据：RGB、深度、和红外。本文中所描述的基于FTF的建模技术的性能在RGB模态和深度模态上进行评估。结果在表3中示出。

表3-驾驶员行为监视数据集上的准确性

将本文中所描述的基于FTF的建模技术的结果与AVG技术进行比较。由于所使用的基础模型数据集中存在13个动作，因此用于AVG的特征数量被设置为13，该特征数量等于动作类别的数量。对于基于FTF建模技术，使用了六十四个特征。

图11示出分别使用编号为2的基础模型和编号为4的基础模型的FTF核的两个可视化1100和1150。核的数量(N_k)等于四，片段的数量(N_S)等于八，并且特征维度(N_f)等于27。从上至下，s表示片段1至片段N_s(即N₈)。在图11中，浅色阴影表示较高的权重。对于编号为2的基础模型的核，第一核和第二核分别表示特征的兴起方面和消失方面。后两个核分别表示片段6和4附近的焦点。对于编号为4的基础模型的核，前两个核是焦点过滤(focusfilter)，并且后两个核分别表示特征的兴起和消失。这些可视化确认了：利用本文中所呈现的基于FTF的建模技术，特征级分对数的改变有助于更好地捕捉帧之间的时间信息。

图12示出图示根据一些方面的本文中提出的技术的实时性能分析的图表1200。所选择的模型被转换为OpenVINO^TM工具包中间表示(IR)(注意：OpenVINO^TM是英特尔公司或其子公司的商标)，并且使用本文中所描述的基于FTF的建模技术利用推断流水线在酷睿^TM(Core^TM)i97940X处理器(注意：/>和/>酷睿^TM是英特尔公司或其子公司的商标)上进行测试。在RGB的情况下，单个模态能以高达138帧每秒(FPS)运行，使得整个推断流水线能够以大于30FPS来操作。在利用OpenVINO^TM工具包对模型进行优化后执行CPU分析，并且能够使用CPU实现实时执行，尤其消除了对成本更高的GPU的需要。使用RGB模态和深度模态作为输入。针对N_S对中的每个对，RGB以较暗的阴影示出(在左侧)，并且针对N_S对中的每个对，深度模态以较浅的阴影示出(在右侧)。通过将片段的数量(N_S)选择为4和8来完成评估，并且基于建模来执行相对于求平均(AVG)的比较分析。图表1200示出：相比于基于AVG的技术，基于FTF的建模技术执行地更快，并且对于片段数量4和8，基于FTF的建模技术能够使用仅CPU来实现实时执行。

图13示出图示根据一些方面的用于基于对交通工具的一个或多个乘员的监视来触发交通工具动作的方法的示例性流程图1300。方法可包括：在详述一个或多个乘员的多个图像数据子集中标识多个特征，即步骤1302；在多个图像数据子集上跟踪多个特征随时间的改变，即步骤1304；基于所跟踪的改变，从多个状态确定一个或多个乘员的状态，即步骤1306；以及基于所确定的状态来触发交通工具动作，即步骤1308。流程图1300中示出的方法可进一步包括如本文中所描述的其他方面。

图14示出描述根据一些方面生成用于交通工具的指令的方法的第二示例性流程图1400。方法可包括：在从视频取得的一系列视频帧中检测多个对象，即步骤1402；跨该系列视频帧监视多个对象的改变，即步骤1404；基于所监视的改变，从多个状况挑选状况，即步骤1406；以及基于所挑选的状况生成用于交通工具的指令，即步骤1408。流程图1400中示出的方法可进一步包括如本文中所描述的其他方面。

图15示出根据一些方面的设备1500的示例性内部配置。如图15中所示，设备1500可包括处理器1502和存储器1504。处理器1502可以是单个处理器或多个处理器，并且可被配置成用于检取并执行程序代码，以执行如本文中所描述的发射和接收、信道资源分配、以及聚类管理。处理器1502可通过软件级连接来发射和接收数据，该数据作为无线的无线电信号由射频装备物理地发射。存储器1504可以是非瞬态计算机可读介质，存储用于以下各项中的一项或多项的指令：特征/对象标识子例程1504a、时空分析子例程1504b、状态/类别/状况确定子例程1504c、以及交通工具动作子例程1504d。例如，处理器1504可执行特征/对象标识子例程1504a以用于实现图8中所描述的2DCNN 802，并且可执行时空分析子例程1504b以用于实现804中所描述的时间特征分析技术。处理器1504可执行状态/类别/状况确定子例程1504c以确定状态(即，多个类别中的类别，例如在表1中示出，即状况)，并且可执行交通工具动作子例程1504d以基于所确定的状态来触发交通工具动作。

在下文中，将对本公开的各个方面进行说明。

在示例1中，一种用于基于对交通工具的一个或多个乘员进行监视来触发交通工具动作的设备，所述设备包括一个或多个处理器，该一个或多个处理器被配置成用于：在详述一个或多个乘员的多个图像数据子集中标识多个特征；在该多个图像数据子集上跟踪多个特征随时间的改变；基于所跟踪的改变从多个状态确定一个或多个乘员的状态；以及基于所确定的状态来触发交通工具动作。

在示例2中，如示例1所述的主题可包括，一个或多个处理器被配置成用于接收来自一个或多个数据采集设备的数据，其中，该数据包括多个图像数据子集。

在示例3中，如(多个)示例1-2所述的主题可包括，多个图像数据子集基于从对交通工具的一个或多个乘员拍摄的视频获取的视频帧。

在示例4中，如(多个)示例1-3所述的主题可包括，一个或多个处理器被配置成用于通过基于多个图像数据子集向二维卷积神经网络(2DCNN)提供输入来标识多个特征。

在示例5中，如示例4所述的主题可包括，一个或多个处理器被配置成用于实现2DCNN。

在示例6中，如(多个)示例4-5所述的主题可包括，一个或多个处理器被配置成用于至少部分地基于多个图像数据子集中的每个图像数据子集中的点位置来确定输入中的每个输入。

在示例7中，如(多个)示例4-6所述的主题可包括，2D CNN被训练成用于基于输入来标识多个特征。

在示例8中，如(多个)示例4-7所述的主题可包括，2D CNN包括一个或多个卷积层并且包括2D CNN输出层，每个卷积层包括多个节点，一个或多个卷积层用于基于一个或多个核来执行卷积，2D CNN输出层用于提供2D CNN的输出。

在示例9中，如示例8所述的主题可包括，2D CNN输出层包括全连接层，以提供多个所标识的特征。

在示例10中，如(多个)示例4-9所述的主题可包括，2D CNN提供输出，该输出包括在多个图像数据子集中的每个图像数据子集中所标识的多个特征。

在示例11中，如示例10所述的主题可包括，输出包括多个片段，其中，该多个片段中的每个片段与多个图像数据子集中的相应子集对应，并且其中，每个片段包括与多个特征中的每个特征对应的值。

在示例12中，如示例11所述的主题可包括，针对每个相应特征的值的范围从最小值至最大值，其中，最小值指示在片段中不存在相应特征，并且值朝向最大值的增加指示相应特征在该片段中更加普遍。

在示例13中，如(多个)示例1-12所述的主题可包括，一个或多个处理器被配置成用于通过在一系列片段中提供多个图像数据子集中的多个特征作为对时空模型的输入来跟踪改变，其中，每个片段与多个图像数据子集中的图像数据子集对应。

在示例14中，如示例13所述的主题可包括，一个或多个处理器被配置成用于实现时空模型。

在示例15中，如(多个)示例13-14所述的主题可包括，每个片段包括多个值，其中，该多个值中的每个值与所标识的多个特征中的相应特征对应并且范围从最小值至最大值，其中，最小值指示在片段中不存在相应特征，并且值朝向最大值的增加指示相应特征在片段中更加普遍。

在示例16中，如示例15所述的主题可包括，时空模型包括多个核，该多个核用于跨一系列片段跟踪与相应特征对应的值的改变。

在示例17中，如示例16所述的主题可包括，一个或多个处理器被配置成用于通过跨一系列片段标识相应特征的值的增加来跟踪改变，其中，值的增加与特征的兴起对应。

在示例18中，如(多个)示例16-17所述的主题可包括，一个或多个处理器被配置成用于通过跨一系列片段标识相应特征的值的减小来跟踪改变，其中，值的减小与特征消失对应。

在示例19中，如(多个)示例13-18所述的主题可包括，时空模型包括输出层，该输出层提供多个状态中的每个状态的分数。

在示例20中，如示例19所述的主题可包括，多个状态中的每个状态的相应分数基于跨时空模型的片段对多个特征的改变的跟踪。

在示例21中，如(多个)示例18-19所述的主题可包括，从多个状态确定一个或多个乘员的状态包括从该多个状态选择具有最高分数的状态。

在示例22中，如(多个)示例1-21所述的主题可包括，一个或多个处理器被配置成用于通过基于多个特征中的每个特征的所跟踪的改变、从多个状态中选择具有最高发生概率的状态，来确定一个或多个乘员的状态。

在示例23中，如(多个)示例1-22所述的主题可包括，多个状态中的每个状态对应于一个或多个乘员的状态。

在示例24中，如(多个)示例1-23所述的主题可包括，多个状态中的每个状态具有与其相关联的时间值。

在示例25中，如示例24所述的主题可包括，每个时间值基于交通工具的驾驶员的所估计的反应时间。

在示例26中，如(多个)示例24-25所述的主题可包括，一个或多个处理器被配置成用于通过基于时间值来计算理论安全距离，来触发交通工具动作。

在示例27中，如示例26所述的主题可包括，一个或多个处理器被配置成用于附加地基于交通工具的当前速度来计算理论安全距离。

在示例28中，如(多个)示例26-27所述的主题可包括，一个或多个处理器被配置成用于附加地基于交通工具的制动加速能力来计算理论安全距离。

在示例29中，如(多个)示例1-28所述的主题可包括，数据包括与在交通工具的外部检测到的一个或多个对象对应的第二数据集合。

在示例30中，如示例29所述的主题可包括，一个或多个所检测到的对象中的一个或多个是另一交通工具。

在示例31中，如(多个)示例29-30所述的主题可包括，一个或多个处理器被配置成用于确定到一个或多个所检测到的对象的实际物理距离。

在示例32中，如示例31所述的主题可包括，一个或多个处理器被配置成用于基于理论安全距离与实际物理距离的比较来触发交通工具动作。

在示例33中，如示例32所述的主题可包括，一个或多个处理器被配置成用于通过基于比较来修改一个或多个驾驶参数，来触发交通工具动作。

在示例34中，如示例33所述的主题可包括，一个或多个驾驶参数影响交通工具的移动性，其中，该移动性包括交通工具的制动、加速、或转向中的至少一者。

在示例35中，如(多个)示例1-34所述的主题可包括，交通工具动作包括对驾驶员的通知。该通知可经由用户接口被发送至一个或多个乘客。

在示例36中，如示例35所述的主题可包括，通知包括视觉通知、声音通知、或振动通知中的至少一者。

在示例37中，如(多个)示例35-36所述的主题可包括，通知基于从所确定的状态到多个状态中的第二状态的所预测的状态改变来触发第二交通工具动作。

在示例38中，如示例37所述的主题可包括，第二状态具有小于所确定的状态的时间值的对应时间值。

在示例39中，如(多个)示例1-38所述的主题可包括接口，该接口被配置成用于与一个或多个数据采集设备中的每个数据采集设备进行通信。

在示例40中，如示例39所述的主题可包括，一个或多个数据采集设备中的至少一个数据采集设备是被配置成用于提供交通工具的一个或多个乘员的颜色数据、深度数据或红外数据中的至少一者的相机。

在示例41中，如示例40所述的主题可包括，数据采集设备中的至少一个数据采集设备被配置成用于提供信息以确定交通工具外部的环境中一个或多个对象的位置和/或到该一个或多个对象的距离。

在示例42中，如(多个)示例1-41所述的主题可包括，交通工具控制接口用于与交通工具的移动性系统的控制器进行通信。

在示例43中，一种被配置成用于生成用于交通工具的指令的交通工具控制设备，该交通工具控制设备包括一个或多个处理器，该一个或多个处理器被配置成用于：在从视频取得的一系列视频帧中检测多个对象；跨该系列视频帧监视多个对象的改变；基于所监视的改变从多个状况挑选状况；以及基于所挑选的状况来生成用于交通工具的指令。

在示例44中，如示例43所述的主题可包括，一个或多个处理器耦合至一个或多个相机，其中该一个或多个相机提供视频。

在示例45中，如(多个)示例43-44所述的主题可包括，一个或多个处理器被配置成用于通过基于一系列视频帧向二维卷积神经网络(2DCNN)提供输入来检测多个对象。

在示例46中，如示例45所述的主题可包括，一个或多个处理器被配置成用于至少部分地基于视频帧中的每个视频帧中的点位置来确定输入中的每个输入。

在示例47中，如(多个)示例45-46所述的主题可包括，2DCNN被训练成用于基于输入来检测多个对象。

在示例48中，如(多个)示例45-47所述的主题可包括，2DCNN提供输出，该输出包括在一系列视频帧中的每个视频帧中所检测到的多个对象。

在示例49中，如(多个)示例45-47所述的主题可包括，输出包括多个片段，其中，该多个片段中的每个片段与一系列视频帧中的视频帧对应，并且其中，每个片段包括与针对对应的视频帧的多个对象中的每个对象对应的值。

在示例50中，如示例49所述的主题可包括，针对每个相应对象的值的范围从最小值至最大值，其中，最小值指示在片段中不存在相应对象，并且值朝向最大值的增加指示相应对象在该片段中更加普遍。

在示例51中，如(多个)示例44-50所述的主题可包括，一个或多个处理器被配置成用于通过提供一系列片段作为对时空模型的输入来监视改变，其中，每个片段与一系列视频帧中的视频帧对应。

在示例52中，如示例51所述的主题可包括，每个片段包括多个值，其中，该多个值中的每个值与多个对象中的对象对应并且范围从最小值至最大值，其中，最小值指示在片段中不存在相应对象，并且值朝向最大值的增加指示相应对象在片段中更加普遍。

在示例53中，如示例52所述的主题可包括，一个或多个处理器被配置成用于通过跨一系列片段标识相应对象的值的增加来跟踪改变，其中，值的增加与特征的兴起对应。

在示例54中，如(多个)示例52-53所述的主题可包括，一个或多个处理器被配置成用于通过跨一系列片段标识相应对象的值的减小来跟踪改变，其中，值的减小与对象消失对应。

在示例55中，如(多个)示例51-54所述的主题可包括，时空模型包括输出层，该输出层提供多个状况中的每个状况的分数。

在示例56中，如示例55所述的主题可包括，多个状况中的每个状况的相应分数基于跨片段对多个对象的监视。

在示例57中，如(多个)示例55-56所述的主题可包括，从多个状况挑选状况包括从该多个状态选择具有最高分数的状态。

在示例58中，如(多个)示例43-57所述的主题可包括，一个或多个处理器被配置成用于通过基于多个对象中的每个对象的所跟踪的改变、从多个状况中选择具有最高发生概率的状况，来挑选状况。

在示例59中，如(多个)示例43-58所述的主题可包括，多个状况中的每个状况对应于交通工具的一个或多个乘员的状态。

在示例60中，如(多个)示例43-59所述的主题可包括，多个状况中的每个状况具有与其相关联的时间值。

在示例61中，如(多个)示例60所述的主题可包括，每个时间值基于交通工具的驾驶员的所估计的反应时间。

在示例62中，如(多个)示例60-61所述的主题可包括，一个或多个处理器被配置成用于通过基于时间值来计算理论安全距离，来触发生成指令。

在示例63中，如示例62所述的主题可包括，一个或多个处理器被配置成用于附加地基于交通工具的当前速度来计算理论安全距离。

在示例64中，如(多个)示例62-63所述的主题可包括，一个或多个处理器被配置成用于附加地基于交通工具的制动加速能力来计算理论安全距离。

在示例65中，如(多个)示例43-64所述的主题可包括，一个或多个处理器被配置成用于接收与在交通工具外部检测到的一个或多个对象对应的第二数据集合。

在示例66中，如(多个)示例65所述的主题可包括，一个或多个所检测到的对象中的一个或多个是另一交通工具。

在示例67中，如(多个)示例65-66所述的主题可包括，一个或多个处理器被配置成用于确定到一个或多个所检测到的对象的实际物理距离。

在示例68中，如示例67所述的主题可包括，一个或多个处理器被配置成用于基于理论安全距离与实际物理距离的比较来生成指令。

在示例69中，如示例68所述的主题可包括，一个或多个处理器被配置成用于通过基于比较来修改一个或多个驾驶参数，来生成指令。

在示例70中，如(多个)示例69所述的主题可包括，一个或多个驾驶参数影响交通工具的移动性，其中，该移动性包括交通工具的制动、加速、或转向中的至少一者。

在示例71中，如(多个)示例43-70所述的主题可包括，交通工具动作包括对驾驶员的通知。

在示例72中，如示例71所述的主题可包括，通知包括视觉通知、声音通知、或振动通知中的至少一者。

在示例73中，如(多个)示例71-72所述的主题可包括，通知基于从所确定的状态到多个状态中的第二状态的所预测的状态改变来触发第二交通工具动作。

在示例74中，如示例73所述的主题可包括，第二状态具有小于所确定的状态的时间值的对应时间值。

在示例75中，如(多个)示例43-74所述的主题可包括接口，该接口被配置成用于与交通工具的一个或多个数据采集设备进行通信。

在示例76中，如示例74所述的主题可包括，一个或多个数据采集设备中的至少一个数据采集设备是被配置成用于提供视频的相机，其中，该视频包括交通工具的一个或多个乘员的颜色数据、深度数据或红外数据中的至少一者。

在示例77中，一种设备包括：标识器，该标识器被配置成用于在详述一个或多个乘员的多个图像数据子集中标识多个特征；跟踪器，该跟踪器被配置成用于在多个图像数据子集上跟踪多个特征随时间的改变；确定器，该确定器被配置成用于基于所跟踪的改变而从多个状态确定一个或多个乘员的状态；以及控制器，该控制器被配置成用于基于所确定的状态来触发交通工具动作。

在示例78中，一种设备包括：检测器，该检测器被配置成用于在从视频取得的一系列视频帧中检测多个对象；监视器，该监视器被配置成用于跨该系列视频帧监视多个对象的改变；选择器，该选择器被配置成用于基于所监视的改变从多个状况挑选状况；以及生成器，该生成器被配置成用于基于所挑选的状况来生成指令。

在示例79中，一种用于基于对交通工具的一个或多个乘员进行监视来触发交通工具动作的方法，该方法包括：在详述一个或多个乘员的多个图像数据子集中标识多个特征；在该多个图像数据子集上跟踪多个特征随时间的改变；基于所跟踪的改变从多个状态确定一个或多个乘员的状态；以及基于所确定的状态来触发交通工具动作。

在示例80中，如示例79所述的主题可包括接收来自一个或多个数据采集设备的数据，其中，该数据包括多个图像数据子集。

在示例81中，如(多个)示例79-80所述的主题可包括，多个图像数据子集基于从对交通工具的一个或多个乘员拍摄的视频获取的视频帧。

在示例82中，如(多个)示例79-81所述的主题可包括通过基于多个图像数据子集向二维卷积神经网络(2D CNN)提供输入来标识多个特征。

在示例83中，如示例82所述的主题可包括实现2D CNN。

在示例84中，如(多个)示例82-83所述的主题可包括至少部分地基于多个图像数据子集中的每个图像数据子集中的点位置来确定输入中的每个输入。

在示例85中，如(多个)示例82-84所述的主题可包括，2DCNN被训练成用于基于输入来标识多个特征。

在示例86中，如(多个)示例82-85所述的主题可包括，2DCNN包括一个或多个卷积层并且包括2D CNN输出层，每个卷积层包括多个节点，一个或多个卷积层用于基于一个或多个核来执行卷积，2D CNN输出层用于提供2D CNN的输出。

在示例87中，如示例86所述的主题可包括，2D CNN输出层包括全连接层，以提供多个所标识的特征。

在示例88中，如(多个)示例82-87所述的主题可包括，2DCNN提供输出，该输出包括在多个图像数据子集中的每个图像数据子集中所标识的多个特征。

在示例89中，如示例88所述的主题可包括，输出包括多个片段，其中，该多个片段中的每个片段与多个图像数据子集中的相应子集对应，并且其中，每个片段包括与多个特征中的每个特征对应的值。

在示例90中，如示例89所述的主题可包括，针对每个相应特征的值的范围从最小值至最大值，其中，最小值指示在片段中不存在相应特征，并且值朝向最大值的增加指示相应特征在该片段中更加普遍。

在示例91中，如(多个)示例79-90所述的主题可包括，通过在一系列片段中提供多个图像数据子集中的多个特征作为对时空模型的输入来跟踪改变，其中，每个片段与多个图像数据子集中的图像数据子集对应。

在示例92中，如示例91所述的主题可包括实现时空模型。

在示例93中，如(多个)示例91-92所述的主题可包括，每个片段包括多个值，其中，该多个值中的每个值与所标识的多个特征中的相应特征对应并且范围从最小值至最大值，其中，最小值指示在片段中不存在相应特征，并且值朝向最大值的增加指示相应特征在片段中更加普遍。

在示例94中，如示例93所述的主题可包括，时空模型包括多个核，该多个核用于跨一系列片段跟踪与相应特征对应的值的改变。

在示例95中，如示例94所述的主题可包括通过跨一系列片段标识相应特征的值的增加来跟踪改变，其中，值的增加与特征的兴起对应。

在示例96中，如(多个)示例94-95所述的主题可包括通过跨一系列片段标识相应特征的值的减小来跟踪改变，其中，值的减小与特征消失对应。

在示例97中，如(多个)示例91-96所述的主题可包括，时空模型包括输出层，该输出层提供多个状态中的每个状态的分数。

在示例98中，如示例97所述的主题可包括，多个状态中的每个状态的相应分数基于跨时空模型的片段对多个特征的改变的跟踪。

在示例99中，如(多个)示例96-98所述的主题可包括，从多个状态确定一个或多个乘员的状态包括从该多个状态选择具有最高分数的状态。

在示例100中，如(多个)示例79-99所述的主题可包括通过基于多个特征中的每个特征的所跟踪的改变、从多个状态中选择具有最高发生概率的状态，来确定一个或多个乘员的状态。

在示例101中，如(多个)示例79-100所述的主题可包括，多个状态中的每个状态对应于一个或多个乘员的状态。

在示例102中，如(多个)示例79-101所述的主题可包括，多个状态中的每个状态具有与其相关联的时间值。

在示例103中，如(多个)示例102所述的主题可包括，每个时间值基于交通工具的驾驶员的所估计的反应时间。

在示例104中，如(多个)示例102-103所述的主题可包括通过基于时间值来计算理论安全距离，来触发交通工具动作。

在示例105中，如示例104所述的主题可包括基于交通工具的当前速度来计算理论安全距离。

在示例106中，如(多个)示例104-105所述的主题可包括基于交通工具的制动加速能力来计算理论安全距离。

在示例107中，如(多个)示例79-106所述的主题可包括，数据包括与在交通工具的外部检测到的一个或多个对象对应的第二数据集合。

在示例108中，如(多个)示例107所述的主题可包括，一个或多个所检测到的对象中的一个或多个是另一交通工具。

在示例109中，如(多个)示例107-108所述的主题可包括，确定到一个或多个所检测到的对象的实际物理距离。

在示例110中，如示例109所述的主题可包括，基于所计算的距离与到一个或多个所检测到的对象的距离的比较来触发交通工具动作。

在示例111中，如示例110所述的主题可包括通过基于比较来修改一个或多个驾驶参数来触发交通工具动作。

在示例112中，如(多个)示例111所述的主题可包括，一个或多个驾驶参数影响交通工具的移动性，其中，该移动性包括交通工具的制动、加速、或转向中的至少一者。

在示例113中，如(多个)示例79-112所述的主题可包括，交通工具动作包括对驾驶员的通知。

在示例114中，如示例113所述的主题可包括，通知包括视觉通知、声音通知、或振动通知中的至少一者。

在示例115中，如(多个)示例113-114所述的主题可包括：通知基于从所确定的状态到多个状态中的第二状态的所预测的状态改变来触发第二交通工具动作。

在示例116中，如示例115所述的主题可包括，第二状态具有小于所确定的状态的时间值的对应时间值。

在示例117中，如(多个)示例79-116所述的主题可包括经由接口与一个或多个数据采集设备中的每个数据采集设备进行通信。

在示例118中，如示例117所述的主题可包括，一个或多个数据采集设备中的至少一个数据采集设备是被配置成用于提供交通工具的一个或多个乘员的颜色数据、深度数据或红外数据中的至少一者的相机。

在示例119中，如示例118所述的主题可包括，数据采集设备中的至少一个数据采集设备被配置成用于提供信息以确定交通工具外部的环境中一个或多个对象的位置和/或到该一个或多个对象的距离。

在示例120中，一种生成用于交通工具的指令的方法，该方法包括：在从视频取得的一系列视频帧中检测多个对象；跨该系列视频帧监视多个对象的改变；基于所监视的改变从多个状况挑选状况；以及基于所挑选的状况来生成用于交通工具的指令。

在示例121中，如示例120所述的主题可包括执行示例43-76中所描述的步骤。

在示例122中，一种设备包括用于以下各项操作的装置：在详述一个或多个乘员的多个图像数据子集中标识多个特征；在多个图像数据子集上跟踪多个特征随时间的改变；基于所跟踪的改变，从多个状态确定一个或多个乘员的状态；以及基于所确定的状态来触发交通工具动作。

在示例123中，一种设备包括用于以下各项操作的装置：在从视频取得的一系列视频帧中检测多个对象；跨该系列视频帧监视多个对象的改变；基于所监视的改变从多个状况挑选状况；以及基于所挑选的状况来生成用于交通工具的指令。

在示例124中，一种或多种非瞬态计算机可读介质，包括存储于其上的指令，这些指令在由设备的一个或多个处理器执行时使得该设备用于执行在前述示例中所要求的方法或实现在前述示例中所要求的设备。

在示例125中，一种系统，包括如在前述示例中所描述的设备，或者实现如在前述示例中所描述的方法。

尽管以上描述和相关描述、附图可将设备组件描绘为单独的元件，但技术人员将会领会将分立的元件组合或集成为单个元件的各种可能性。此类可能性可包括：组合两个或更多个电路以用于形成单个电路，将两个或更多个电路安装到共同的芯片或基座上以形成集成元件，在共同的处理器核上执行分立的软件组件，等等。相反，技术人员将意识到可将单个元件分成两个或更多个分立的元件，诸如，将单个电路分解为两个或更多个单独的电路，将芯片或基座分成最初设置在其上的分立的元件，将软件组件分成两个或更多个部分并在单独的处理器核上执行每个部分，等等。

应当领会，本文中详述的方法的实现方式在本质上是说明性的，并且因此被理解为能够在相应的设备中实现。同样，应当领会，本文中详述的设备的实现方式被理解为能够被实现为相应的方法。因此，应当理解，与本文详述的方法对应的设备可以包括被配置成执行相关方法的每个方面的一个或多个组件。

以上描述中定义的所有首字母缩写词附加地包含在本文包括的所有权利要求中。

Claims

1.一种用于基于对交通工具的一个或多个乘员进行监视来触发交通工具动作的设备，所述设备包括一个或多个处理器，所述一个或多个处理器被配置成用于：

在详述所述一个或多个乘员的多个图像数据子集中标识多个特征；

在所述多个图像数据子集上跟踪所述多个特征对时间的改变；

基于所跟踪的改变从多个状态确定所述一个或多个乘员的状态；

基于所确定的状态来触发所述交通工具动作；

通过基于所述多个图像数据子集向二维卷积神经网络2D CNN提供输入来标识所述多个特征；以及

至少部分地基于所述多个图像数据子集中的每个图像数据子集中的点位置来确定所述输入中的每个输入。

2.如权利要求1所述的设备，其中，所述多个图像数据子集基于从对所述交通工具的所述一个或多个乘员拍摄的视频获取的视频帧。

3.如权利要求1所述的设备，其中，所述2D CNN提供输出，所述输出包括所述多个图像数据子集中的每个图像数据子集中所标识的多个特征。

4.如权利要求3所述的设备，其中，所述输出包括多个片段，其中，所述多个片段中的每个片段与所述多个图像数据子集中的相应子集对应，并且其中，每个片段包括与所述多个特征中的每个特征对应的值。

5.如权利要求4所述的设备，其中，针对每个相应特征的值的范围从最小值至最大值，其中，所述最小值指示在所述片段中不存在所述相应特征，并且值朝向所述最大值的增加指示所述相应特征在所述片段中更加普遍。

6.如权利要求1所述的设备，其中，所述一个或多个处理器被配置成用于通过在一系列片段中提供所述多个图像数据子集中的所述多个特征作为对时空模型的输入来跟踪所述改变，其中，每个片段与所述多个图像数据子集中的图像数据子集对应。

7.如权利要求6所述的设备，其中，所述时空模型包括多个核，所述多个核用于跨所述一系列片段跟踪与相应特征对应的值的改变。

8.如权利要求7所述的设备，其中，所述一个或多个处理器被配置成用于通过跨所述一系列片段标识相应特征的值的增加来跟踪所述改变，其中，值的所述增加与特征的兴起对应。

9.如权利要求7所述的设备，其中，所述一个或多个处理器被配置成用于通过跨所述一系列片段标识相应特征的值的减小来跟踪所述改变，其中，值的所述减小与特征消失对应。

10.如权利要求1所述的设备，其中，所述一个或多个处理器被配置成用于：通过基于所述多个特征中的每个特征的所跟踪的改变、从所述多个状态中选择具有最高发生概率的状态，来确定所述一个或多个乘员的状态。

11.如权利要求1所述的设备，其中，所述多个状态中的每个状态具有与其相关联的时间值，其中，所述一个或多个处理器被配置成用于：通过基于所述时间值计算理论安全距离，来触发所述交通工具动作。

12.如权利要求11所述的设备，其中，所述数据包括与在所述交通工具外部检测到的一个或多个对象对应的第二数据集合，其中，所述一个或多个处理器被配置成用于确定到一个或多个所检测到的对象的实际物理距离。

13.如权利要求11所述的设备，其中，所述一个或多个处理器被配置成用于基于所述理论安全距离与所述实际物理距离的比较来触发所述交通工具动作。

14.如权利要求13所述的设备，其中，所述一个或多个处理器被配置成用于通过以下操作来触发所述交通工具动作：基于所述比较来修改一个或多个驾驶参数，或者选择通知以经由所述交通工具的用户接口进行发送。

15.一种用于基于对交通工具的一个或多个乘员进行监视来触发交通工具动作的方法，所述方法包括：

在所述多个图像数据子集上跟踪所述多个特征随时间的改变；

基于所确定的状态来触发所述交通工具动作；

16.如权利要求15所述的方法，其中，所述多个状态中的每个状态具有与其相关联的时间值，所述方法进一步包括：通过基于所述时间值计算理论安全距离，来触发所述交通工具动作。

17.一种或多种非瞬态计算机可读介质，其上包括有指令，所述指令当被一个或多个处理器执行时使得设备用于：

基于所确定的状态来触发所述交通工具动作；

18.如权利要求17所述的一种或多种非瞬态计算机可读介质，其中所述多个状态中的每个状态具有与其相关联的时间值，并且进一步使所述设备用于：通过基于所述时间值计算理论安全距离，来触发所述交通工具动作。