CN112989915A

CN112989915A - 用于检测自主载具中的异常乘客行为的系统和方法

Info

Publication number: CN112989915A
Application number: CN202011482505.8A
Authority: CN
Inventors: Y·近藤; R·伯特; K·B·纳瓦尔帕克坎; A·赫希; N·拉玛克里斯南; F·贡卡尔维斯; S·魏瑟特; J·K·杜塔; R·K·萨佐达
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-12-17
Filing date: 2020-12-16
Publication date: 2021-06-18
Also published as: DE102020215729A1; US20210312238A1; US11132585B2; US20210182617A1; US11783636B2

Abstract

提供了用于检测自主载具中的异常乘客行为的系统和方法。公开了用于监视载具的座舱内的乘客并且确定乘客是否正在从事异常行为的方法和系统。该方法和系统使用新颖的向量来鲁棒地并且用数值方式表示相应帧中的乘客的活动，该向量在本文中被称为“活动向量”。附加地，该方法和系统利用高斯混合模型来在正常和异常乘客行为之间进行区分。有利地使用无监督方法来学习高斯混合模型的集群组份，在该无监督方法中，训练数据没有被标记或注释以指示正常和异常乘客行为。以此方式，可以以非常低的成本来训练高斯混合模型。

Description

用于检测自主载具中的异常乘客行为的系统和方法

技术领域

在本文档中公开的设备和方法涉及载具内感测系统，并且更特别地，涉及检测自主载具中的异常乘客行为。

背景技术

除非在本文中另行指示，本章节中所描述的材料不是针对本申请中的权利要求的现有技术，并且并不由于包括在本章节中而被承认是现有技术。

在不久的将来，无人驾驶汽车（诸如，针对按需移动性服务而操作的自主出租车）将在交通运输中发挥重要作用。彼此为陌生人的乘客共享自主出租车将很快变成常见做法。与其中驾驶员可以监督乘客的传统出租车不同，自主出租车将需要监控系统来监视乘客的安全。应当检测和监视乘客的任何异常行为（诸如，暴力活动）以用于其防止。因此，提供一种用于监视自主载具的座舱内的乘客并且智能地检测异常乘客行为的监视系统将是有益的。

发明内容

公开了一种用于检测载具中的异常乘客行为的方法。该方法包括：利用处理系统从图像传感器接收载具的座舱中的至少一个乘客的第一图像帧。该方法进一步包括：利用处理系统、基于第一图像帧来确定表示第一图像帧中的所述至少一个乘客的姿势和运动的第一数值向量。该方法进一步包括：利用处理系统、基于第一数值向量使用具有表示正常乘客行为的多个集群组份的混合模型来检测第一图像帧中的异常乘客行为。

公开了一种用于检测载具中的异常乘客行为的系统。该系统包括图像传感器，该图像传感器被配置成生成并且输出载具的座舱中的至少一个乘客的图像帧。该系统进一步包括处理系统，该处理系统可操作地连接到图像传感器并且包括至少一个处理器。处理系统被配置成从图像传感器接收第一图像帧。处理系统进一步被配置成：基于第一图像帧来确定表示第一图像帧中的所述至少一个乘客的姿势和运动的第一数值向量。处理系统进一步被配置成：基于第一数值向量使用具有表示正常乘客行为的多个集群组份的混合模型来检测第一图像帧中的异常乘客行为。

附图说明

在结合附图考虑的以下描述中解释了该方法和系统的前述方面以及其他特征。

图1是具有座舱监视系统的载具的示意性俯视图。

图2是图1的载具和座舱监视系统的组件的示意性视图。

图3示出了用于检测载具的座舱中的异常乘客行为的方法的逻辑流程图。

图4示出了用于导出针对图像帧的活动向量的方法的逻辑流程图。

图5示出了示例性图像帧，其中两个乘客正乘坐在载具的后座椅中。

图6示出了五个图像帧的示例性序列，其中两个乘客正乘坐在载具的后座椅中。

图7示出了进一步的示例性图像帧，其中乘客正在推搡另一个乘客。

图8示出了图示基于图7的示例性图像帧而计算的活动向量的图表。

具体实施方式

出于促进对本公开原理的理解的目的，现在将参考在附图中图示并在以下书面说明书中描述的实施例。应理解的是，并不由此意图限制本公开的范围。应进一步理解的是，本公开包括对所图示的实施例的任何更改和修改，并且包括本公开原理的进一步应用，如本公开所属领域的技术人员通常将会想到的那样。

系统概览

参考图1-2，公开了具有座舱监视系统104的载具100的示例性实施例。座舱监视系统104有利地被配置成：监视载具100的座舱108内的乘客并且确定乘客是否正在从事异常行为。除了座舱监视系统104之外，载具100还包括被配置成操作驱动系统116的载具电子控制单元（“ECU”）112、以及载具除座舱监视系统104之外的各种电子设备，诸如灯、锁、扬声器、显示器等。载具100的驱动系统116包括：驱动载具100的轮的驱动电动机（例如，内燃机和/或一个或多个电动机）、以及使得载具100能够以受控方式移动的转向和制动组件。

在图1的图示实施例中，载具100采用汽车的形式。然而，在其他实施例中，载具100可以包括具有用于移动人员的一个或多个座舱108的任何数量类型的容器，诸如火车、公共汽车、地铁、飞机、直升机、客运无人机、潜艇、电梯、以及乘客移动吊舱。座舱108（其在本文中也可以被称为隔舱）是用于容纳乘客的典型封闭室。尽管载具100被图示为具有单个座舱108，但是将领会的是，载具100可以包括任何数量的单独且分离的座舱108（例如，火车车厢内部的多个隔舱或室）。在所图示的实施例中，座舱108包括乘客可以落坐其中的四个座椅120、122、124、126。然而，取决于载具100的配置和类型，座舱108可以包括更多或更少的座椅。载具100还包括一个或多个门（未示出），使得乘客能够进入座舱108和座椅120-126。另外，载具100可以包括后部舱口（未示出），使得用户能够进入载具100的货物存储区域，例如后部座椅124、126后面的行李箱或存储空间。

在至少一个实施例中，载具100是共享的自主汽车，其被配置成提供自主运输服务，其中载具100自主地驾驶到乘客的位置，并且然后在乘客进入载具100时使用公共道路网络自主地将该乘客运输到期望的位置。乘客可以使用例如智能电话或智能设备应用（即“app”）来从事载具100的自主运输服务。乘客在本文中也被称为乘员、用户、操作者或人员。在其他实施例中，如上所描述，载具100是任何类型的乘客载具，并且在一些实施例中，载具100可以是乘员控制或远程控制的。

座舱监视系统104包括载具计算机130，该载具计算机130可操作地连接到遍及该载具而布置的一个或多个图像传感器134、138。图像传感器134、138可以是视频或静止图像RGB相机，其中每一个具有例如电荷耦合器件（CCD）或有源像素传感器，以用于生成以图像帧形式的数字图像数据。在其他实施例中，图像传感器134、138可以包括热或红外传感器、雷达成像系统、LIDAR成像系统或另一合适的成像系统。

在所图示的实施例中，座舱监视系统104包括两个内部图像传感器134、138，它们被布置在座舱108内并且被配置成生成座舱108的一部分的图像。在一个实施例中，内部图像传感器134、138被布置在载具100的顶蓬中或顶蓬上，并且朝向相应的一个或多个座椅120-126向下地指向座舱108中以用于成像。在其他实施例中，内部图像传感器134、138可以被布置在载具100的座椅中或仪表板中。例如，在一个特定实施例中，用于对前部座椅120、122进行成像的图像传感器被布置在载具100的仪表板中，而用于对后部座椅124、126进行成像的图像传感器被布置在处于相应后部座椅124、126的正前方的前部座椅120、122中。在一些实施例中，附加的外部图像传感器（未示出）可以被布置在载具100的外部上，以便生成载具100的外部的一部分的图像。

在所图示的实施例中，前部图像传感器134生成包括前部座椅120、122的座舱前部的数字图像数据，并且后部图像传感器138生成包括后部座椅124、126的座舱108后部的数字图像数据。在其他实施例中，座舱监视系统104可以包括捕获包括所有座椅120-126的整个座舱108的图像的单个图像传感器、指向每个座椅120-126的分离的图像传感器、或任何期望配置的图像传感器，以生成载具中的每个座椅的数字图像。

载具计算机130被配置成处理从图像传感器134、138中的一个或多个接收到的图像数据，以监视载具100的座舱108内的乘客并且确定乘客是否正在从事异常行为。载具计算机130可以附加地被配置成执行其他复杂的任务，诸如载具100的自主导航、以及与乘客或乘客所拥有的智能电话进行对接以提供对乘客的自主运输。

现在参考图2，描述了座舱监视系统104的载具计算机130的示例性组件。在所图示的实施例中，载具计算机130包括至少处理器200和相关联的存储器204。存储器204被配置成存储程序指令，该程序指令在由处理器200执行时使得载具计算机130能够执行本文中其他地方描述的各种操作，至少包括监视载具100的座舱108内的乘客并且确定乘客是否正在从事异常行为。存储器204可以是能够存储处理器200可访问的信息的任何类型的设备，诸如存储器卡、ROM、RAM、硬盘驱动器、磁盘、闪速存储器或充当数据存储设备的各种其他计算机可读介质中的任一个，如本领域普通技术人员将认识到的那样。附加地，本领域普通技术人员将认识到的是，“处理器”包括处理数据、信号或其他信息的任何硬件系统、硬件机构或硬件组件。处理器200可以包括具有中央处理单元、图形处理单元、多个处理单元、用于实现功能性的专用电路、可编程逻辑的系统，或者其他处理系统。

在所图示的实施例中，载具计算机130进一步包括通信接口208，该通信接口208被配置成使得载具计算机130能够经由一个或多个通信总线142与图像传感器134、138以及与载具ECU 112进行通信，该通信总线142可以采用一个或多个控域网（CAN）总线的形式。通信接口212可以包括用于连接到有线介质（例如，通信总线142）的物理终端。附加地，通信接口组装件212可以包括一个或多个调制解调器、总线控制器（例如，合适的CAN总线控制器）、或被配置成使得能够与图像传感器134、138和载具ECU 112进行通信的其他这种硬件。

在所图示的实施例中，载具计算机130进一步包括一个或多个无线电收发器212，无线电收发器212被配置成与远程服务器（例如云服务）以及与乘客所拥有的智能电话或其他智能设备进行通信，以用于提供自主运输服务的目的。（一个或多个）无线电收发器212可以包括被配置成经由无线电话网络与因特网通信的收发器，诸如全球移动系统（“GSM”）或码分多址（“CDMA”）收发器。附加地，（一个或多个）无线电收发器212可以包括被配置成与乘客所拥有的智能电话或其他智能设备进行本地通信的蓝牙®或Wi-Fi收发器。

如下面将更详细地描述的，载具计算机130的存储器204存储与异常行为检测程序216相对应的程序指令。异常行为检测程序216包括程序指令以及与姿势检测模型220和活动分类模型224相对应的学习参数。附加地，存储器204存储：包括从图像传感器134、138接收到的图像帧的图像数据228、以及表示每个图像帧中的乘客的活动的活动数据232。

用于检测异常乘客行为的方法

座舱监视系统104有利地被配置成：监视载具100的座舱108内的乘客并且确定乘客是否正在从事异常行为。仅出于解释的目的，要注意的是，异常乘客行为可以包括暴力行为（诸如，争吵、打斗、抢夺、踢打、拳打、推搡或拍打）以及非暴力行为（诸如，脱衣服）。相比之下，正常乘客行为可以包括诸如说话、触摸、拥抱、静坐、喝咖啡或盘腿之类的行为。

如下面将更详细地讨论的，座舱监视系统104使用新颖的向量来鲁棒地并且用数值方式表示相应帧中的乘客的活动，该向量在本文中被称为相应图像帧的“活动向量”。附加地，活动分类模型224包括混合模型、特别是高斯混合模型（GMM），座舱监视系统104利用该混合模型来在正常和异常乘客行为之间进行区分。特别地，基于采用乘坐在载具100的座舱108中的乘客的视频形式的训练数据，高斯混合建模被用来学习表示与正常乘客行为相对应的活动向量的集群组份。因此，座舱监视系统104可以通过将表示实际乘客行为的活动向量与表示正常乘客行为的所学习的集群组份进行比较，以确定乘客是否正在从事异常行为。因此，将领会的是，如本文中所使用的，由于它与活动分类模型224和/或其混合模型有关，因此术语“异常行为”或“异常乘客行为”仅仅指代在训练数据中不常见或罕见的乘客行为，并且没有对术语赋予特定的定性或基于价值的含义。

有利地，可以利用无监督方法，在该无监督方法中，训练数据没有被标记或注释以指示正常和异常的乘客行为。特别地，因为诸如暴力之类的异常行为一般是罕见的，所以可以使用乘坐在载具100的座舱108中的乘客的未经注释的视频来学习表示正常乘客行为的集群组份。该无监督方法是有利的，这是因为可以以非常低的成本来收集大的训练数据语料库并且将其用于训练。附加地，因为对诸如暴力之类的异常行为的定义跨个体而变化，所以注释的质量在监督方法中将是有疑问的，这进而将导致差的性能。此外，由于在实践中罕有发生诸如暴力之类的异常行为，因此在监督方法中，将难以在训练数据中聚集所有可能的异常行为。此外，监督方法倾向于依赖于大量人工制作的特征，这些特征在现有训练数据的情况下可能良好地工作，但是当未来的异常行为与训练数据中的异常行为不同时，这些特征对于检测所述未来的异常行为而言可能不是通用的。

图3示出了用于检测载具的座舱中的异常乘客行为的方法300的逻辑流程图。在方法300的描述中，方法、过程、模块、处理器、系统等正在执行某个任务或功能的陈述指代控制器或处理器（例如，处理器200）执行存储在操作性地连接到该控制器或处理器的非暂时性计算机可读存储介质（例如，存储器204）中的编程指令（例如，程序指令208），以操控数据或操作座舱监视系统108和/或载具100中的一个或多个组件来执行该任务或功能。附加地，方法的步骤可以以任何可行的时间次序来执行，而与各图中所示的次序或描述步骤的次序无关。将领会的是，在一些实施例中，本文中描述的处理器200的操作可以由载具100和/或座舱监视系统108的其他组件来执行，该其他组件诸如载具ECU 112或传感器134、138的集成图像处理器。附加地，在一些实施例中，本文中描述的处理器200的操作可以由诸如云计算系统中的远程服务器来执行。

方法300开始于接收图像帧并且使帧计数递增的步骤（框310）。特别地，载具计算机130的处理器200操作图像传感器134、138中的至少一个，以便以所定义的帧速率（例如，每秒25帧）来接收由图像帧序列组成的视频馈送。在至少一个实施例中，处理器200将接收到的图像帧作为图像数据228存储在存储器204中。将领会的是，每个图像帧包括像素的二维阵列。每个像素至少具有对应的光度学信息（例如，强度、颜色和/或亮度）。在一些实施例中，图像传感器134、138还可以被配置成捕获对应于每个像素的几何信息（例如，深度和/或距离）。在这种实施例中，图像传感器134、138可以例如采用如下形式：两个RGB相机的形式，这两个RGB相机被配置成捕获可以从其中导出深度和/或距离信息的立体图像；和/或具有相关联的IR相机的RGB相机的形式，该IR相机被配置成提供深度和/或距离信息。

如下面将讨论的，至少在一些实施例中，关于每个图像帧来执行方法300的某些过程，而其他过程仅仅每隔很多帧（例如，每75帧或每3秒）来执行。如下所描述，这可以以具有数值（例如75）的超参数detect_every_frame（每_帧_检测）的形式来定义。因此，在至少一些实施例中，当每个图像帧被接收和处理时，载具计算机130的处理器200被配置成使frame count（帧计数）递增，frame count例如被存储在存储器204中。

方法300继续基于图像帧来导出活动向量的步骤（框320）。特别地，载具计算机130的处理器200针对从图像传感器134、138接收到的每个图像帧计算活动向量X _i，其中i指示图像帧的索引。如本文中所使用的，“活动向量”指代至少表示如下各项的数值向量：（i）图像帧中的至少一个乘客的姿势、以及（ii）图像帧中的至少一个乘客的运动。如本文中所使用的，乘客的“姿势”指代乘客的位置、姿态、取向等。特别地，在本文中描述的详细实施例中，活动向量表示与图像帧中的每个乘客的特定关节和身体部位相对应的多个关键点的位置、以及那些关键点的运动的方向和速度。

图4示出了用于导出针对图像帧的活动向量的方法400的逻辑流程图。在方法400的描述中，方法、过程、模块、处理器、系统等正在执行某个任务或功能的陈述指代控制器或处理器（例如，处理器200）执行存储在操作性地连接到该控制器或处理器的非暂时性计算机可读存储介质（例如，存储器204）中的编程指令（例如，程序指令208），以操控数据或操作座舱监视系统108和/或载具100中的一个或多个组件来执行该任务或功能。附加地，方法的步骤可以以任何可行的时间次序来执行，而与各图中所示的次序或描述步骤的次序无关。将领会的是，在一些实施例中，本文中描述的处理器200的操作可以由载具100和/或座舱监视系统108的其他组件来执行，该其他组件诸如载具ECU 112或传感器134、138的集成图像处理器等。附加地，在一些实施例中，本文中描述的处理器200的操作可以由诸如云计算系统中的远程服务器来执行。

在给定图像帧的情况下，方法400开始于检测图像帧中的（e个）乘客中的每一个的关键点的步骤（框410）。特别地，载具计算机130的处理器200使用姿势检测模型220来检测与图像帧中的每个乘客的特定关节或身体部位相对应的多个关键点。在至少一个实施例中，处理器200还使用姿势检测模型220来检测图像帧中的乘客的数量（e）。在至少一个实施例中，姿势检测模型220包括已经基于训练数据语料库（其不同于上面讨论的用于训练活动分类模型224的GMM的训练数据）而训练的深度神经网络（DNN）。处理器200参考在姿势检测模型220的训练期间学习的一组所学习的参数、权重和/或内核值来执行姿势检测模型220的程序指令，以检测每个乘客的多个关键点。在至少一个实施例中，每个关键点采用二维坐标对（x _t, y _t）的形式，其中x _t表示图像帧中的水平位置，y _t表示图像帧中的垂直位置，并且t表示图像帧的时间或帧序号。然而，将领会的是，在图像传感器134、138提供深度和/或距离信息的情况下，也可以使用三维坐标三元组。

图5示出了示例性图像帧500，其中两个乘客正乘坐在载具100的后座椅中。针对这两个乘客中的每一个标识多个关键点510。在所图示的示例中，姿势检测模型220被配置成检测25个关键点，包括：（1）右眼、（2）左眼、（3）鼻子、（4）右耳、（5）左耳、（6）脖子、（7）右肩、（8）左肩、（9）右肘、（10）左肘、（11）右腕、（12）左腕、（13）右臀、（14）中臀、（15）左臀、（16）右膝、（17）左膝、（18）右脚踝、（19）左脚踝、（20）右脚跟、（21）左脚跟、（22）右大脚趾、（23）左大脚趾、（24）右小脚趾和（25）左小脚趾。然而，将领会的是，对于特定图像帧，某些关键点510可能在帧之外或者被遮挡。

在至少一个实施例中，处理器200被配置成：对姿势检测模型220针对每个乘客的关键点所预测的坐标值的值进行平滑。特别地，由于模型性能中的限制，由姿势检测模型220提供的预测坐标值可能在图像帧之间具有一些不合期望的抖动。为了克服这种伪像，处理器200被配置成将每个关键点的坐标值计算为来自姿势检测模型220的预测坐标值序列的平均值。特别地，处理器200根据以下等式来计算时间或帧序号t处的每个关键点的坐标值：

其中

是由姿势检测模型220在时间或帧序号t处提供的预测坐标值，并且Pose _smooth是取整数值的平滑超参数（例如10）。换句话说，处理器200将每个关键点的坐标值计算为当前图像帧的预测坐标值和预定数量Pose _smooth的先前图像帧的预测坐标值的平均值。

返回到图4，方法400继续确定每个关键点的光流向量的步骤（框420）。特别地，载具计算机130的处理器200计算每个关键点的光流向量，该光流向量表示相应关键点的运动的方向和速度。在一些实施例中，处理器200将关键点的每个光流向量计算为当前图像帧中的关键点的坐标值与先前图像帧中的关键点的坐标值之间的差。特别地，在一个实施例中，处理器200根据以下等式来计算时间或帧序号t处的关键点的光流向量：

其中

是时间t处的关键点（x _t, y _t）的光流向量，并且Flow _smooth是取整数值的平滑超参数（例如3）。

图6示出了五个图像帧的示例性序列600，其中两个乘客正乘坐在载具100的后座椅中。与图像帧右侧的乘客的左耳相对应的关键点的光流向量通过如下方式来计算：将t=5处的帧中左耳关键点的坐标值与t=2处的帧中左耳关键点的坐标值进行比较。

返回到图4，方法400继续如下步骤：针对每个乘客，基于关键点的坐标将关键点归类到a×b网格的单元中，并且基于关键点的光流角度将关键点归类到每个单元的d-仓块（d-bin）直方图中（框430）。特别地，接收到的图像帧被划分成a×b网格的单元，其中a是取整数值的网格高度超参数（例如7），并且b是取整数值的网格宽度超参数（例如13）。a×b网格的每个单元表示图像帧内的水平坐标值的范围和垂直坐标值的范围。在至少一个实施例中，a×b网格的每个单元具有相等的大小。例如，参考图5，示例性图像帧500被划分成7×13的单元网格520。图6的五个图像帧的序列600类似地被划分成单元网格。

附加地，针对a×b网格的每个单元针对每个乘客来定义d-仓块直方图（例如，3-仓块直方图）。每个直方图中的每一个d 仓块表示光流角度的范围。例如，3-仓块直方图可能包括表示光流角度范围0°- 120°的第一个仓块、表示光流角度范围120°- 240°的第二个仓块、以及表示光流角度范围240°- 360°的第三个仓块。光流角度可以是相对于任何任意零角度，诸如相对于图像帧和/或a×b网格的水平x轴。将领会的是，可以根据等式

来计算光流向量相对于水平x轴的光流角度，其中

是时间t处的关键点（x _t, y _t）的光流向量

的光流角度。

处理器200通过如下方式将每个特定乘客的关键点归类到a×b网格的单元中：将关键点的坐标值与对应于a×b网格的每个特定单元的值的范围进行比较。换句话说，如果关键点的坐标值（x _t, y _t）在定义了a×b网格的特定单元的值的范围内，则处理器200将该关键点归类到a×b网格的该特定单元中。接下来，处理器200通过如下方式将a×b网格的每个单元中的每个乘客的关键点归类到针对a×b网格的相应单元针对相应乘客的相应d-仓块直方图中的仓块之一中：将关键点的光流角度与直方图的相应仓块的光流角度范围的范围进行比较。换句话说，如果关键点具有在特定仓块所定义的光流角度范围的范围内的光流角度，则处理器将该关键点归类到该特定仓块中。将领会的是，由于存在针对e个乘客中的每一个各自具有d-仓块直方图的a×b单元，因此每个关键点取决于其坐标值（x _t, y _t）以及其光流角度

而被归类在a×b×d×e的不同仓块中的相应的一个中。

方法400继续以下步骤：针对每个乘客的每个单元的每个直方图仓块来计算数值，从而得到给定图像帧的活动向量（框440）。特别地，处理器200针对每个乘客的每个单元中的每个直方图的每个仓块来计算数值，该数值等于已经被归类到相应仓块中的关键点的光流向量的量值总和。更特别地，处理器200针对每个关键点来计算光流向量的量值。将领会的是，可以根据等式

来计算光流向量的量值，其中

是时间t处的关键点（x _t, y _t）的光流向量

的量值。最后，处理器200将每个仓块的数值计算为被归类到相应仓块中的关键点的光流向量的量值总和。这些所计算的数值形成针对图像帧的具有维度a×b×d×e的活动向量X _i，其中i指示图像帧的索引。将领会的是，所计算的数值的量值与图像帧中由相应单元和直方图仓块所定义的相应区域和方向中的活动量成比例。以此方式，活动向量X _i以可以更容易评估的数值形式对图像帧内的两个乘客的移动和/或活动进行编码。

图7示出了进一步的示例性图像帧700，其中乘客正在推搡另一个乘客。图8示出了图示基于示例性图像帧700而计算的活动向量的图表800。在图表800中，单元810对应于示例性图像帧700的单元710。在图表800的每个单元810中，针对每一个乘客示出了3-仓块直方图。特别地，利用图表800中的实心黑色直方图仓块820来表示针对图像帧700右手侧的乘客的光流向量和关键点。相反地，利用图表800中的对角阴影线直方图仓块830来表示针对图像帧700左手侧的乘客的光流向量和关键点。每个直方图仓块的高度对应于活动向量X _i的所计算的数值。如可以看出的，仅存在这两个乘客的关键点的最小重叠（即，仅一个单元示出了针对两个乘客的直方图）。附加地，如可以看出的，与图像帧700左手侧的乘客的左臂相对应的单元示出了具有相当大的高度的对角阴影线直方图仓块，这指示相当高量值的运动（即快速运动）。

返回到图3，方法300继续以下步骤：基于活动向量将图像帧分类到具有最高后验概率的集群中（框330）。特别地，针对每个图像帧，处理器200确定活动向量X _i最有可能对应于多个所学习的集群组份C _i中的哪一个。更特别地，处理器200参考多个所学习的集群组份C _i来执行活动分类模型224的程序指令，以将活动向量X _i分类为最有可能属于特定所学习的集群组份C _i。换句话说，集群组份C _i被视为描述了在图像帧中表示的活动类的潜在变量，并且是基于所测量的活动向量X _i而被预测的。

如上所指出，活动分类模型224包括高斯混合模型（GMM），该高斯混合模型（GMM）定义了与正常乘客行为相对应的多个集群组份C _i。集群组份C _i各自包括在维度a×b×d×e（即，与活动向量X _i相同的维度）上的正态分布

，其中

是具有维度a×b×d×e的集群中心和/或中值，并且

是具有维度a×b×d×e的协方差矩阵。活动分类模型224的GMM由k个不同的集群组份C _i形成。换句话说，在给定集群组份的情况下，每帧活动向量来自p维多元正态：

其中变量C是具有K个不同类别的类别分布，p ₁,p ₂,…p _k是具有维度a×b×d×e的密度函数，其指示变量C取特定值c的可能性，并且

是特定值c的正态分布。

基于特定图像帧的活动向量X _i，处理器200根据以下等式将图像帧分类到具有最高后验概率的集群组份C _i中：

。

换句话说，针对每个值i = 1,…,k，处理器200计算后验概率

，其指示活动向量X _i属于特定集群组份C _i的概率。处理器将活动向量X _i分类为属于具有最高后验概率

的集群组份C _i。活动向量X _i所属于的集群组份C _i在本文中被标示为c _i。在至少一个实施例中，处理器200将活动向量X _i最有可能属于的所确定的集群组份c _i存储在存储器204中。

如上所暗示的，在部署座舱监视系统104之前，基于采用乘坐在载具100的座舱108中的乘客的视频形式的未经标记的训练数据来学习该多个集群组份C _i。特别地，以上面关于图4描述的方式从来自训练视频的图像帧中导出一大组训练活动向量。该一大组训练活动向量X _i用于导出具有k个不同的集群组份C _i的GMM，该k个不同的集群组份C _i最佳地对该一大组训练活动向量X _i进行建模。使用期望最大化算法来估计每个集群组份C _i的未知参数

和

。

附加地，将领会的是，GMM要求集群组份的数量k是预先指定的。在至少一个实施例中，集群组份的数量k由Akaike信息标准（AIC）来选择。AIC被定义为：

其中P是要估计的未知参数（即，

、

和

，其中l = 1,…,K）的数量，并且L是似然函数，或者换句话说是所观察的训练活动向量X _i处的密度，i = 1,…,n，其中n是训练活动向量X _i的总数。

较小的AIC指示该模型的较好拟合，同时惩罚对复杂模型的使用，复杂模型是通过未知参数的数量P来测量的。在一个实施例中，针对k的值的预定范围（例如，k = 1,…,20）来计算AIC，并且得到最低AIC的k值用于导出活动分类模型224的GMM。

在至少一个实施例中，使用未经标记的训练数据针对不同数量的乘客来唯一地执行该训练过程，该未经标记的训练数据采用乘坐在载具100的座舱108中的相应数量的乘客的视频形式。特别地，可以针对独自乘坐的单个乘客、针对一起乘坐的两个乘客、针对一起乘坐的三个乘客、以此类推直到关于在座舱108处于图像传感器视野内的特定区域中预期乘坐的乘客数量的某个合理上限，来学习相应的多个集群组份C _i。

方法300继续确定图像帧的后验密度的步骤（框340）。特别地，一旦活动向量X _i最有可能属于的集群组份c _i被确定，处理器200就根据以下等式来计算后验密度：

其中f ()是在给定活动向量X _i和所确定的集群组份c _i的情况下被评估的GMM的概率密度函数。在至少一个实施例中，处理器将图像帧的posterior density _i（后验密度 _i）存储在存储器204中。

如下所描述，如果图像帧的所确定的后验密度低于预定阈值，则可以将图像帧视为异常或包括异常乘客行为。以此方式，处理器200可以通过将每个图像帧的后验密度与预定阈值进行比较在逐帧的基础上检测异常乘客行为。然而，一般不必以每一帧（例如，每1/25=0.04秒）来检测是否出现异常，因为异常行为情形将不会以如此高的频率改变。因此，在至少一个实施例中，处理器200代替地基于若干帧上的平均后验密度仅仅每隔很多帧地检测异常乘客行为。

方法300重复步骤310-340以确定图像帧序列的后验密度，直到帧计数等于帧的阈值数量为止（框350）。特别地，如上所指出，当接收到每个帧时，处理器200使frame_count递增。当接收到每个图像帧时，处理器200重复以下过程：导出活动向量X _i，确定活动向量X _i最有可能属于的集群组份c _i，并且计算图像帧的posterior density _i，直到frame_count等于超参数detect_every_frame（例如75，使得在每秒25帧的情况下每3秒地检测异常行为）为止。

方法300继续以下步骤：检查图像帧序列的平均后验密度是否小于阈值（框360）。特别地，处理器200计算自上次重置frame_count和上次执行异常行为检测以来接收到的所有图像帧的posterior density _i的平均值，并且将该平均值与预定异常阈值进行比较。换句话说，处理器200评估以下等式：

。

如果平均后验密度小于阈值，则方法300继续检测异常乘客行为（框370）。特别地，响应于平均后验密度小于预定异常阈值，处理器200检测到已经发生了异常乘客行为。在至少一个实施例中，响应于检测到异常乘客行为，处理器200操作收发器212以将异常通知消息传输到远程服务器，诸如云后端或远程数据库。异常通知消息可以包括关于其检测到了异常乘客行为的图像帧和/或活动向量X _i。

远程服务器可以例如可由自主出租车服务或其他类似的自主载具服务或共享载具服务的操作者访问，并且可以与关联于该服务的外部云服务进行对接。在一个实施例中，远程服务器被配置成响应于检测到异常行为而（例如，经由电子邮件等）通知操作者。在其他实施例中，操作者可以经由网络门户来访问存储在远程服务器上的相关图像数据和/或异常行为事件数据。

在进一步的实施例中，响应于检测到异常乘客行为，处理器200可以操作被布置在载具100的座舱108内的扬声器或显示屏（未示出）以向乘客显示、播放或以其他方式输出警报或警告，例如敦促乘客停止异常行为。

不管平均后验密度是否小于阈值，方法300继续在完全地重复方法300之前重置帧计数的步骤（框380）。特别地，在异常行为检测之后，在再次执行异常行为检测之前，处理器200将frame_count重置到零并且重复以下过程：接收图像帧，导出活动向量X _i，确定活动向量X _i最有可能属于的集群组份c _i，并且计算每个图像帧的posterior density_i，直到frame_ count等于超参数detect_every_frame为止。

虽然已经在附图和前面的描述中详细图示并描述了本公开，但是其在性质上应当被视为说明性而非限制性的。应理解的是，仅呈现了优选实施例，并且期望保护落入本公开的精神内的所有改变、修改和进一步的应用。

Claims

1.一种用于检测载具中的异常乘客行为的方法，所述方法包括：

利用处理系统从图像传感器接收载具的座舱中的至少一个乘客的第一图像帧；

利用处理系统、基于第一图像帧来确定表示第一图像帧中的所述至少一个乘客的姿势和运动的第一数值向量；以及

利用处理系统、基于第一数值向量使用具有表示正常乘客行为的多个集群组份的混合模型，来检测第一图像帧中的异常乘客行为。

2.根据权利要求1所述的方法，确定第一数值向量进一步包括：

利用处理系统来确定所述至少一个乘客中的每一个的相应多个关键点，每个关键点包括与第一图像帧内的所述至少一个乘客的相应关节或身体部位的位置相对应的坐标对。

3.根据权利要求2所述的方法，确定所述至少一个乘客中的每一个的相应多个关键点进一步包括：

利用处理系统将所述至少一个乘客中的每一个的相应多个关键点中的每个关键点的坐标对确定为：所述至少一个乘客的相应关节或身体部位在多个图像帧上的平均位置，所述多个图像帧包括第一图像帧和至少一个先前图像帧。

4.根据权利要求2所述的方法，确定第一数值向量进一步包括：

利用处理系统针对所述至少一个乘客中的每一个的相应多个关键点中的每个关键点来确定光流向量，所述光流向量指示第一图像帧中的相应关键点相对于所述至少一个先前图像帧的运动。

5.根据权利要求4所述的方法，确定所述光流向量进一步包括：

利用处理系统来确定第一图像帧中的相应关键点的坐标对与先前图像帧中的相应关键点的先前坐标对之间的差。

6.根据权利要求4所述的方法，确定第一数值向量进一步包括：

利用处理系统、基于相应关键点的坐标对将所述至少一个乘客中的每一个的相应多个关键点中的每个关键点归类到二维单元网格的相应单元中，其中所述网格的每个相应单元对应于第一图像帧内的坐标范围；

利用处理系统、基于相应关键点的光流向量的光流角度将被归类到所述网格的每个相应单元中的每个关键点归类到所述至少一个乘客中的每一个的相应直方图的相应仓块中，其中所述至少一个乘客中的每一个的相应直方图的每个仓块对应于光流角度范围；

利用处理系统将针对所述至少一个乘客中的每一个的相应直方图的每个仓块的数值确定为被归类到相应仓块中的每个关键点的光流向量的光流量值总和；以及

利用处理系统来形成第一数值向量，所述第一数值向量具有针对所述至少一个乘客中的每一个的相应直方图的每个仓块的数值。

7.根据权利要求6所述的方法，其中第一数值向量具有维度a×b×d×e，其中a×b是所述网格的维度，d是所述至少一个乘客中的每一个的相应直方图中的仓块的数量，并且e是所述至少一个乘客中的乘客的数量。

8.根据权利要求1所述的方法，检测异常乘客行为进一步包括：

利用处理系统、针对所述混合模型的所述多个集群组份中的每个集群组份来确定第一数值向量属于相应集群组份的后验概率；以及

利用处理系统将第一图像帧分类为属于所述混合模型的所述多个集群组份中的具有最高后验概率的第一集群组份。

9.根据权利要求8所述的方法，检测异常乘客行为进一步包括：

利用处理系统、基于第一数值向量以及所述混合模型的所述多个集群组份中的第一集群组份来确定第一后验密度。

10.根据权利要求9所述的方法，检测异常乘客行为进一步包括：

利用处理系统将第一后验密度与预定阈值进行比较；以及

响应于第一后验密度小于预定阈值而检测到第一图像帧中的异常乘客行为。

11.根据权利要求9所述的方法，检测异常乘客行为进一步包括：

利用处理系统来确定多个图像帧上的平均后验密度，所述多个图像帧包括第一图像帧和至少一个先前图像帧；

利用处理系统将平均后验密度与预定阈值进行比较；以及

响应于平均后验密度小于预定阈值而检测到第一图像帧中的异常乘客行为。

12.根据权利要求1所述的方法，其中使用未经标记的训练数据来学习所述多个集群组份，所述未经标记的训练数据包括乘坐在载具中的至少一个乘客的视频语料库。

13.根据权利要求1所述的方法，进一步包括：

利用收发器、响应于检测到异常乘客行为来将消息传输到远程服务器。

14.根据权利要求1所述的方法，进一步包括：

响应于检测到异常乘客行为，利用扬声器或显示屏向所述至少一个乘客输出警报。

15.一种用于检测载具中的异常乘客行为的系统，所述系统包括：

图像传感器，其被配置成生成并且输出载具的座舱中的至少一个乘客的图像帧；

处理系统，其可操作地连接到图像传感器并且包括至少一个处理器，所述处理系统被配置成：

从图像传感器接收载具的座舱中的至少一个乘客的第一图像帧；

基于第一图像帧来确定表示第一图像帧中的所述至少一个乘客的姿势和运动的第一数值向量；以及

基于第一数值向量使用具有表示正常乘客行为的多个集群组份的混合模型来检测第一图像帧中的异常乘客行为。

16.根据权利要求15所述的系统，所述处理系统进一步被配置成在确定第一数值向量时：

确定所述至少一个乘客中的每一个的相应多个关键点，每个关键点包括与第一图像帧内的所述至少一个乘客的相应关节或身体部位的位置相对应的坐标对；以及

针对所述至少一个乘客中的每一个的相应多个关键点中的每个关键点来确定光流向量，所述光流向量指示第一图像帧中的相应关键点相对于至少一个先前图像帧的运动。

17.根据权利要求16所述的系统，所述处理系统进一步被配置成在确定第一数值向量时：

基于相应关键点的坐标对将所述至少一个乘客中的每一个的相应多个关键点中的每个关键点归类到二维单元网格的相应单元中，其中所述网格的每个相应单元对应于第一图像帧内的坐标范围；

基于相应关键点的光流向量的光流角度将被归类到所述网格的每个相应单元中的每个关键点归类到所述至少一个乘客中的每一个的相应直方图的相应仓块中，其中所述至少一个乘客中的每一个的相应直方图的每个仓块对应于光流角度范围；

将针对所述至少一个乘客中的每一个的相应直方图的每个仓块的数值确定为被归类到相应仓块中的每个关键点的光流向量的光流量值总和；以及

形成第一数值向量，所述第一数值向量具有针对所述至少一个乘客中的每一个的相应直方图的每个仓块的数值。

18.根据权利要求15所述的系统，所述处理系统进一步被配置成在检测异常乘客行为时：

针对所述混合模型的所述多个集群组份中的每个集群组份来确定第一数值向量属于相应集群组份的后验概率；

将第一图像帧分类为属于所述混合模型的所述多个集群组份中的具有最高后验概率的第一集群组份；以及

基于第一数值向量以及所述混合模型的所述多个集群组份中的第一集群组份来确定第一后验密度。

19.根据权利要求18所述的系统，所述处理系统进一步被配置成在检测异常乘客行为时：

确定多个图像帧上的平均后验密度，所述多个图像帧包括第一图像帧和至少一个先前图像帧；

将平均后验密度与预定阈值进行比较；以及

20.根据权利要求15所述的系统，进一步包括：

可操作地连接到所述处理系统的收发器，

其中所述处理系统被配置成：响应于检测到异常乘客行为而操作收发器以将消息传输到远程服务器。