CN113906442A

CN113906442A - 活动识别方法和设备

Info

Publication number: CN113906442A
Application number: CN202080041460.2A
Authority: CN
Inventors: 埃尔维尔·哈泽季奇; 爱德华多·迪亚斯; 约努茨·瓦伦丁·格奥尔基
Original assignee: Jaguar Land Rover Ltd
Current assignee: Jaguar Land Rover Ltd
Priority date: 2019-05-08
Filing date: 2020-05-07
Publication date: 2022-01-07
Also published as: US20220230474A1; GB2583742B; WO2020225389A1; GB201906449D0; EP3966732A1; GB2583742A

Abstract

本发明的各方面涉及用于识别由感兴趣人员(POI‑n)执行的至少第一活动的控制系统(1)。控制系统(1)包括具有处理器(20)和系统存储器(26)的控制器。控制器(13)被配置成从至少一个成像装置(C1，C2)接收图像数据(DIMG1，DIMG2)。图像数据(DIMG1，DIMG2)包括至少一个图像帧，所述图像帧表示包括感兴趣人员(POI‑n)的至少一部分的图像场景。对图像数据(DIMG1、DIMG2)进行分析，以识别感兴趣人员(POI‑n)的所述至少一部分的骨骼模型(15)以及感兴趣人员(POI‑n)正在与之交互的至少一个感兴趣对象(OOI‑n)。根据骨骼模型(15)和所识别出的感兴趣对象(OOI‑n)识别由感兴趣人员(POI‑n)执行的第一活动。本发明涉及识别由感兴趣人员(POI‑n)正在执行的活动的相关方法。本发明还涉及计算机软件和其上存储有指令的非暂态计算机可读存储介质。

Description

活动识别方法和设备

技术领域

本公开内容涉及活动识别方法和设备。本发明的各方面涉及控制系统、车辆、方法、计算机软件和非暂态计算机可读存储介质。

背景技术

已知对图像数据进行处理以跟踪头部姿势和注视方向。这些技术应用于车辆例如用以监测车辆的乘员。已知使用乘员检测来控制车辆中的气囊展开。然而，这些技术例如在识别或辨识与设置在车辆中的对象等的交互方面存在某些限制。

本发明的目的是解决与现有技术相关联的缺点中的一个或更多个缺点。

发明内容

本发明的各方面和实施方式提供如所附权利要求中要求保护的控制系统、车辆、方法、计算机软件和非暂态计算机可读存储介质。

根据本发明的一个方面，提供了一种用于识别由感兴趣人员执行的至少第一活动的控制系统，所述控制系统包括具有处理器和系统存储器的控制器，所述控制器被配置成：

从至少一个成像装置接收图像数据，所述图像数据包括至少一个图像帧，所述图像帧表示包括感兴趣人员的至少一部分的图像场景；

分析图像数据以识别感兴趣人员的所述至少一部分的骨骼模型；

分析图像数据以识别感兴趣人员正在与之交互的至少一个感兴趣对象；以及

根据骨骼模型和所识别出的感兴趣对象来识别由感兴趣人员执行的第一活动。控制系统使用骨骼模型和至少一个感兴趣对象来识别由感兴趣人员正在执行的第一活动。例如，控制器可以根据检测到的骨骼模型与所识别出的感兴趣对象之间的交互来识别活动。至少在某些实施方式中，两个数据集的使用都可以在第一活动的识别中提供提高的准确度。

例如，控制器可以被操作成对由感兴趣人员执行的不同活动进行区分。例如，控制器可以对彼此不同的第一活动与第二活动进行区分。可以预先限定多个活动。控制器可以被配置成从多个预先限定的活动中识别第一活动。可以通过对例如在系统训练处理中捕获的样本图像数据的分析来限定活动。可以针对特定用户校准活动的限定。

识别第一活动可以包括识别(或以其他方式分类)由感兴趣人员执行的一个或更多个动作。可以由感兴趣人员执行所述一个或更多个动作(单独、组合或以预定顺序)作为第一活动的一部分。通过识别该动作或每个动作，控制器可以识别第一活动。例如，每个动作可以包括运动模式或由运动模式组成。

控制器可以识别骨骼模型的骨骼姿势。骨骼姿势可以限定构成骨骼模型的每个骨骼元素的位置和/或取向。控制器可以被配置成根据骨骼姿势和所识别出的感兴趣对象来识别第一活动。替选地或另外地，控制器可以被配置成识别骨骼模型的至少一部分的运动；以及/或者识别所识别出的感兴趣对象的运动。控制器可以被配置成根据骨骼模型的运动以及/或者所识别出的感兴趣对象的运动来识别第一活动。

控制器可以被配置成根据由感兴趣人员对所识别出的感兴趣对象的操纵来识别第一活动。控制器可以跟踪所识别出的感兴趣对象的运动和/或取向。可以结合骨骼模型的骨骼姿势和/或运动来监测所识别出的感兴趣对象的运动和/或取向。

控制器可以被配置成通过识别骨骼模型和/或所识别出的感兴趣对象的预定第一运动模式来识别第一活动。

图像数据可以包括多个图像帧。控制器可以被配置成在多个图像帧中的每一个图像帧中识别骨骼模型和/或至少一个感兴趣对象，以及识别骨骼模型跨多个图像帧的运动和/或所述至少一个感兴趣对象跨多个图像帧的运动。

控制器可以被配置成将所述至少一个感兴趣对象识别为特定类型的感兴趣对象。例如，控制器可以将所述至少一个感兴趣对象识别为以下中的一个或更多个：食品类、饮料容器、书、个人计算机(例如，膝上型计算机)、蜂窝电话等。

根据本发明的另一方面，提供了一种用于识别由车辆中的感兴趣人员执行的至少第一活动的控制系统，所述控制系统包括具有处理器和系统存储器的控制器，所述控制器被配置成：

从至少一个成像装置接收图像数据，所述图像数据包括多个图像帧，所述图像帧表示包括有感兴趣人员的图像场景；

分析图像数据，以在多个图像帧中的每一个图像帧中识别感兴趣人员的骨骼模型；

识别骨骼模型的至少一部分跨多个图像帧的运动；以及

根据所识别出的运动来识别由感兴趣人员执行的第一活动。例如，控制器可以被操作成对由感兴趣人员执行的活动进行区分。感兴趣人员可以是车辆的驾驶员或车辆中的乘客。

骨骼模型可以包括至少一个骨骼元素。控制器可以被配置成生成关于骨骼元素中的一个或更多个骨骼元素的运动矢量，以跟踪骨骼模型的运动。

控制器可以被配置成根据骨骼模型确定注意力指标，所述注意力指标提供了感兴趣人员在执行第一活动时的注意力的指示。可以应用注意力阈值来指示感兴趣人员何时没有注意力。

第一活动可以包括控制车辆的动态操作。控制器被配置成确定感兴趣人员是否参与执行第一活动。控制器可以被配置成确定感兴趣人员是否正在执行不同于第一活动的第二活动。

控制器可以被配置成在每个图像帧中识别多个身体界标。身体界标可用于识别骨骼模型。

控制器可以实施机器学习算法例如神经网络以识别第一活动。神经网络可以基于一个或更多个卷积操作(CNN)，每个卷积操作包括一个或更多个卷积滤光器。神经网络可以包括长短期记忆(LSTM)网络。LSTM神经网络可以包括一个或更多个LSTM单元。

根据本发明的另一方面，提供了一种车辆，所述车辆包括本文中描述的控制系统。

根据本发明的另一方面，提供了一种识别由感兴趣人员执行的至少第一活动的方法，该方法包括：

接收包括至少一个图像帧的图像数据，所述图像帧表示包括感兴趣人员的至少一部分的图像场景；

根据骨骼模型和所识别出的感兴趣对象来识别由感兴趣人员执行的第一活动。

该方法可以包括识别骨骼模型的至少一部分的运动；以及/或者识别所识别出的感兴趣对象的运动。

该方法可以包括根据骨骼模型的运动和/或所述至少一个感兴趣对象的运动来识别第一活动。

该方法可以包括通过识别骨骼模型和/或所述至少一个感兴趣对象的预定第一运动模式来识别第一活动。

图像数据可以包括多个图像帧。图像帧在时间上彼此偏移。该方法可以包括在多个图像帧中的每一个图像帧中识别骨骼模型和/或至少一个感兴趣对象，以及识别骨骼模型跨多个图像帧的运动和/或至少一个感兴趣对象跨多个图像帧的运动。

根据本发明的又一方面，提供了一种识别由车辆中的感兴趣人员执行的至少第一活动的方法，所述方法包括：

接收包括多个图像帧的图像数据，所述图像帧表示包括感兴趣人员的图像场景；

分析图像数据以在多个图像帧中的每一个图像帧中识别感兴趣人员的骨骼模型；

识别骨骼模型的至少一部分跨多个图像帧的运动；以及

根据所识别出的运动来识别由感兴趣人员执行的第一活动。

骨骼模型可以包括至少一个骨骼元素。该方法可以包括监测该骨骼元素或每个骨骼元素的运动，以便识别骨骼模型的运动。

该方法可以包括根据骨骼模型的至少一部分的运动来确定注意力指标，所述注意力指标可以提供感兴趣人员在执行第一活动时的注意力的指示。

该方法可以包括在每个图像帧中识别多个身体界标并且使用身体界标来识别骨骼模型。

根据本发明的另一方面，提供了一种计算机软件，该计算机软件当被执行时被配置成执行本文中描述的方法。

根据本发明的另一方面，提供了一种其上存储有指令的非暂态计算机可读存储介质，所述指令在由一个或更多个电子处理器执行时，使所述一个或更多个电子处理器执行本文中描述的方法。

本发明的各方面涉及对由感兴趣人员执行的活动的识别。活动可以被识别为特定活动，例如，活动可以被识别为(可以被预先限定的)多个活动中之一。本发明的各方面可以理解为“辨识”由感兴趣人员执行的活动。本文中使用的与活动的执行有关的术语“识别”和“辨识”(及其派生词)可以互换。每个活动都可以包括由感兴趣人员执行的一个或更多个动作。该动作或每个动作可以包括运动或姿势。

在本申请的范围内，明确地指出：前述段落、权利要求和/或以下描述和附图中阐述的各个方面、实施方式、示例和替选方案，特别是其各个特征，可以被独立地采用或以任意组合被采用。也就是说，所有实施方式和/或任何实施方式的特征可以以任何方式和/或组合来进行组合，除非这些特征不可兼容。申请人保留修改任何原始提交的权利要求或相应提交任何新的权利要求的权利，包括将任何原始提交的权利要求修改成从属于任何其他权利要求和/或并入任何其他权利要求的任何特征的权利，尽管最初没有以该方式要求保护。

附图说明

现在将参照附图仅通过示例的方式描述本发明的一个或更多个实施方式，在附图中：

图1示出了并入有根据本发明的实施方式的活动识别系统的车辆的示意性表示；

图2示出了由第一成像装置捕获的其中叠加有感兴趣区域和感兴趣人员的骨骼模型的第一图像；

图3示出了由第二成像装置捕获的第二图像；

图4示出了图1所示的活动识别系统的控制系统的示意性表示；

图5示出了用于由活动识别系统使用的骨骼模型；

图6示出了由第一成像装置捕获的其中叠加有感兴趣对象的第一图像；

图7示出了表示根据本实施方式的活动识别系统的操作的第一流程图；以及

图8示出了表示根据本实施方式的活动识别系统的操作的第二流程图。

具体实施方式

现在将参照附图描述根据本发明的实施方式的用于识别(或辨识)由感兴趣人员POI-n执行的活动的活动识别系统1。

本实施方式中的活动识别系统1设置在诸如汽车的车辆V中。图1中示出了车辆V的示意性表示。还设想了活动识别系统1的其他应用。本实施方式中的感兴趣人员POI-n是车辆V的乘员。车辆V包括用于一个或更多个乘员的舱室C。舱室C中的任何乘员都可以被根据本实施方式的活动识别系统1分类为感兴趣人员POI-n。感兴趣人员POI-n可以是车辆V的驾驶员。替选地或另外地，感兴趣人员POI-n可以是车辆中的乘客。

本实施方式中的舱室C包括：前排R-1，所述前排R-1包括第一前座SF-1和第二前座SF-2；以及后排R-2，所述后排R-2包括第一后座SB-1、第二后座SB-2和第三后座SB-3。第一前座SF-1是用于使车辆的驾驶员就座的驾驶员座椅；以及第二前座SF-2是用于使乘客就座的乘客座椅。第一后座SB-1、第二后座SB-2和第三后座SB-3适于另外的乘客。驾驶员座椅示出在舱室C的右侧，但应当理解，本发明可以应用于车辆V的左手驱动迭代和右手驱动迭代。在经修改的布置中，后排R-2可以由第一后座SB-1和第二后座SB-2组成。活动识别系统1可以用在具有单排座椅的车辆V中，所述单排座椅例如由第一前座SF-1和第二前座SF-2组成。活动识别系统1可以用在具有多于两排座椅(例如可以包括一个或更多个临时座椅或暂时座椅的第三排)的车辆V中。

活动识别系统1被配置成对由感兴趣人员POI-n执行的多个不同活动进行区分。活动识别系统1可以将由感兴趣人员POI-n正在执行的活动识别为多个不同活动中之一。可以限定每个活动，例如通过限定作为该活动的一部分执行的一个或更多个单独的动作。活动识别系统1可以通过辨识以预先限定的顺序执行多个动作来识别特定活动。可以预先限定每个活动的一个或更多个变型，例如以对感兴趣人员POI-n使用他们的左手还是他们的右手执行相同的活动进行区分。

活动识别系统1包括传感器单元10和控制系统11。舱室传感器单元10包括具有视场FVn的至少一个成像装置Cn。在本实施方式中，舱室传感器单元10包括具有第一视场FV1的第一成像装置C1；以及具有第二视场FV2的第二成像装置C2。第一成像装置C1可操作为生成表示舱室C内场景的第一图像IMG1的第一图像数据DIMG1。本实施方式中的第一成像装置C1是可操作为生成每秒被更新多次(与图像“帧”相对应)的第一图像数据DIMG1的摄像机。第一成像装置C1安装在舱室C的前部并且具有后向取向。在图2中以示例的方式示出了由第一成像装置C1捕获的第一图像IMG1。第二成像装置C2可操作为生成表示舱室C内场景的第二图像IMG2的第二图像数据DIMG2。本实施方式中的第二成像装置C2是可操作为生成每秒被更新多次(与图像“帧”相对应)的第二图像数据DIMG2的摄像机。第二成像装置C2安装在舱室C的后部并且具有前向取向。在图3中以示例的方式示出了由第二成像装置C2捕获的第二图像IMG2。第一成像装置C1和第二成像装置C2被取向成使得在使用中第一视场FV1和/或第二视场FV2包括就座在第一前座SF-1和第二前座SF-2中的一个或更多个前座以及/或者第一后座SB-1、第二后座SB-2和第三后座SB-3中的一个或更多个后座中的每个感兴趣人员POI-n的至少一部分。本实施方式中的第一成像装置C1居中地安装在舱室C的上部区域中以提供经改善的坐在第一后座SB-1、第二后座SB-2和第三后座SB-3中的一个或更多个后座中的感兴趣人员POI-n的视线。例如，第一成像装置C1可以安装至后视镜、舱室C的顶部或仪表板(未示出)。第二成像装置C2可以安装至车辆V的车顶内部例如安装在车顶顶棚中。

舱室传感器单元10可以包括单个成像装置C1，或多于两(2)个成像装置C1、C2。单独的第一成像装置C1可以与舱室C中的每排座椅或与舱室C中的每个座椅相关联。通过示例的方式，第一成像装置C1和第二成像装置C2可以分别与前排R-1和后排R-2相关联。本实施方式中的第一成像装置C1包括具有带通滤光器的RGB成像器，该带通滤光器允许截止极限恰好在近红外光谱之上的可见光透射。该滤光器与有源近红外光耦合允许系统在环境光条件的范围内(包括非常低的环境光条件)从第一成像装置C1和/或第二成像装置C2接收信息。可以使用其他类型和配置的成像装置12。

参照图4，示出了控制系统11的简化示例，该控制系统11例如可以适用于实施本文中描述的方法以识别由感兴趣人员执行的至少第一活动。控制系统11包括一个或更多个控制器13并且被配置成从第一成像装置C1接收第一图像数据DIMG1和/或第二图像数据DIMG2。第一图像数据DIMG1和/或第二图像数据DIMG2包括至少一个图像帧，所述图像帧表示包括有感兴趣人员POI-n的至少一部分的图像场景。一个或更多个控制器13分析第一图像数据DIMG1和/或第二图像数据DIMG2以生成表示感兴趣人员POI-n的至少一部分的骨骼模型15(图5所示)。控制器13还分析第一图像数据DIMG1和/或第二图像数据DIMG2以识别一个或更多个感兴趣对象OOI-n。感兴趣对象OOI-n例如可以是感兴趣人员POI-n正在与之交互的对象。控制器13根据骨骼模型15结合在第一图像数据DIMG1和/或第二图像数据DIMG2内识别的任何感兴趣对象OOI-n来识别由感兴趣人员POI-n执行的第一活动。

可以针对单个帧的图像数据来执行第一图像数据DIMG1和/或第二图像数据DIMG2的分析。替选地或另外地，可以针对多个帧执行分析。例如，该分析可以包括光流分析，以识别感兴趣人员POI-n和/或感兴趣对象OOI-n的运动。光流包括在连续图像帧之间及时应用的像素匹配(即对应关系估计)技术。光流也可以应用于经由测距传感器(例如RGB-D)获取的三维(3D)点云，以计算出体素之间的对应关系。知道相同像素/体素在下一帧中出现在何处可用于推断运动方向和幅度。

应当理解，该控制器或每个控制器13可以包括具有一个或更多个电子处理器(例如，微处理器、微控制器、专用集成电路(ASIC)等)的控制单元或计算装置，并且可以包括单个控制单元或计算装置，或者替选地，该控制器或每个控制器13的不同功能可以体现在或托管在不同的控制单元或计算装置中。如本文中所使用的，术语“控制器”、“控制单元”或“计算装置”将被理解为包括单个控制器、控制单元或计算装置，以及共同操作以提供所需的控制功能的多个控制器、控制单元或计算装置。可以提供指令集，这些指令在被执行时使控制器13实现本文中描述的控制技术(包括本文中描述的方法所需的功能中的一些或全部)。该指令集可以嵌入在控制器13的所述一个或更多个电子处理器中；或者替选地，指令集可以作为要在控制器13中执行的软件来提供。第一控制器或控制单元可以以一个或更多个处理器上运行的软件实现。一个或更多个其他控制器或控制单元可以以一个或更多个处理器(可选地与第一控制器或控制单元相同的一个或更多个处理器)上运行的软件实现。其他布置也是有用的。

在图4所示的示例中，该控制器或每个控制器13包括至少一个电子处理器20，该电子处理器20具有用于接收包括第一图像数据DIMG1和/或第二图像数据DIMG2的一个或更多个输入信号的一个或更多个电输入22，以及用于输出一个或更多个输出信号的一个或更多个电输出24。该控制器或每个控制器13还包括至少一个存储器装置26，该存储器装置26电耦接至至少一个电子处理器20并且具有存储在其中的指令28。至少一个电子处理器20被配置成访问至少一个存储器装置26并执行至少一个存储器装置26上的指令28以执行本文中描述的方法。

该电子处理器或每个电子处理器20可以包括被配置成执行电子指令的任何合适的电子处理器(例如，微处理器、微控制器、ASIC等)。该电子存储器装置或每个电子存储器装置26可以包括任何合适的存储器装置并且可以在其中或其上存储各种数据、信息、阈值、查找表或其他数据结构和/或指令。在实施方式中，存储器装置26具有存储在其中或其上的用于软件、固件、程序、算法、脚本、应用等的信息和指令，其可以管理本文中描述的方法的全部或部分。处理器或每个电子处理器20可以访问存储器装置26并且执行和/或使用指令和信息或者那些指令和信息来实施或执行本文中描述的功能和方法中的一些或全部。

至少一个存储器装置26可以包括计算机可读存储介质(例如，非暂态或非暂时性存储介质)，该计算机可读存储介质可以包括用于以机器或电子处理器/计算装置可读的形式存储信息的任何机构，包括但不限于：磁存储介质(例如，软盘)；光存储介质(例如，CD-ROM)；磁光存储介质；只读存储器(ROM)；随机存取存储器(RAM)；可擦除可编程存储器(例如，EPROM和EEPROM)；闪速存储器；或用于存储这样的信息/指令的电或其他类型的介质。

已经描述了包括至少一个电子处理器20的示例控制器13，该至少一个电子处理器20被配置成执行存储在至少一个存储器装置26中的电子指令，所述电子指令在被执行时使电子处理器20执行本文中描述的方法。然而，可设想，本发明不限于通过可编程处理装置来实现，并且本发明的功能和/或方法步骤中的至少一些和在一些实施方式中的全部可以等同地通过非可编程硬件的方式来实现，例如通过非可编程ASIC、布尔(Boolean)逻辑电路等的方式来实现。

控制器13实施身体界标识别算法(body landmark recognition algorithm)作为预处理步骤。身体界标识别算法处理由第一成像装置C1和第二成像装置C2生成的第一图像数据DIMG1和第二图像数据DIMG2，用以识别感兴趣人员POI-n的多个身体界标LM-n。针对舱室C中存在的每个感兴趣人员POI-n识别身体界标LM-n。身体界标LM-n用于生成骨骼模型15，该骨骼模型15提供了在舱室C中识别的感兴趣人员或每个感兴趣人员POI-n的虚拟表示。骨骼模型15包括多个骨骼元素16-n。

如图5所示，感兴趣人员POI-n的身体界标可以包括以下中的一个或更多个：鼻部界标LM-0、胸部界标LM-1、右肩界标LM-2、右肘界标LM-3右手腕界标LM-4、左肩界标LM-5、左肘界标LM-6、左手腕界标LM-7、右臀部界标LM-8、右膝界标LM-9、右脚踝界标LM-10、左臀部界标LM-11、左膝界标LM-12、左脚踝界标LM-13、右眼界标LM-14、左眼界标LM-15、右耳界标LM-16和左耳界标LM-17。第一成像装置C1的第一视场FV1可能被舱室C中的特征(或其他乘员)部分地遮盖，并且因此，第一图像数据DIMG1和/或第二图像数据DIMG2可能包括一个或更多个乘员的不完整的表示。例如，第一前座SF-1和第二前座SF-2可能部分地遮盖就座在第一后座SB-1、第二后座SB-2和第三后座SB-3中的一个后座中的感兴趣人员POI-n。针对每个感兴趣人员POI-n，身体界标识别算法被配置成根据识别出的身体界标生成骨骼模型15。在本实施方式中，骨骼模型由以下身体界标组成：胸部界标LM-1；右肩界标LM-2和左肩界标LM-5；右肘界标LM-3和左肘界标LM-6；以及右臀部界标LM-8和左臀部界标LM-11。骨骼模型15可以被修改成并入附加的身体界标LM-n，例如右膝界标LM-9和左膝界标LM-12以及/或者鼻部界标LM-0。各种视觉身体界标检测算法可用于商业应用。合适的身体界标识别算法是OpenPose算法。

如图6所示，在第一图像数据DIMG1内限定了多个感兴趣区域A-n。感兴趣区域A-n各自包括与其他感兴趣区域A-n中的任何感兴趣区域都不交叠的离散区域。在本实施方式中，感兴趣区域A-n是矩形。感兴趣区域A-n可以具有其他多边形形状。每个感兴趣区域A-n都与舱室C中的座位中之一相关联。在本实施方式中，第一感兴趣区域A-1和第二感兴趣区域A-2分别与第一前座SF-1和第二前座SF-2相关联；以及第三感兴趣区域A-3、第四感兴趣区域A-4和第五感兴趣区域A-5分别与第一后座SB-1、第二后座SB-2和第三后座SB-3相关联。应当理解，可以针对舱室C中设置的附加座位例如第三排中的座位或在不使用时可以收起的临时座位限定感兴趣区域A-n。与第一后座SB-1、第二后座SB-2和第三后座SB-3相关联的感兴趣区域A-n小于与第一前座SF-1和第二前座SF-2相关联的感兴趣区域A-n，以反映与第一成像装置C1的相对接近度。可以动态地修改感兴趣区域A-n的大小和/或位置。可以根据相邻座位未被占用的确定来增加感兴趣区域A-n的大小；以及/或者可以根据相邻座位被占用的确定来减小感兴趣区域A-n的大小。通过预先限定场景内的感兴趣区域A-n，可以减少对感兴趣人员POI-n的错误识别的可能性。例如，可以降低通过侧窗或后挡风玻璃可见的人员被识别为感兴趣人员POI-n的可能性。控制器3可以从感兴趣区域或每个感兴趣区域A-n中的第一图像数据DIMG1和/或第二图像数据DIMG2裁剪原始像素以生成第一图像数据DIMG1和/或第二图像数据DIMG2的子集。

身体界标识别算法使用感兴趣区域A-n来识别与就座在舱室C内的座位中之一中的感兴趣人员POI-n有关的一个或更多个身体界标LM-n。控制器13由此可以对第一图像数据DIMG1和/或第二图像数据DIMG2进行处理以确定舱室C中的每个座位是被占用还是空置。控制器13使用身体界标LM-n中的至少一个作为用于该确定的至少一个参考身体界标LM-n。在本实施方式中，胸部界标LM-1用作参考身体界标LM-n。控制器13分析第一图像数据DIMG1和/或第二图像数据DIMG2以识别一个或更多个胸部界标LM-1。控制器13将识别出的胸部界标或每个识别出的胸部界标LM-1的位置与感兴趣区域A-n进行比较。如果控制器13识别出位于预先限定的感兴趣区域A-n内的胸部界标LM-1，则与该感兴趣区域A-n相关联的座位被标记为被占用。如果控制器13没有识别到位于预先限定的感兴趣区域A-n内的胸部界标LM-1，则与该感兴趣区域A-n相关联的座位被标记为未被占用。控制器13由此可以确定每个座位是被占用还是未被占用。

身体界标识别算法将识别出的胸部界标LM-1与身体界标LM-n相关联的链接以形成关于每个感兴趣人员POI-n的骨骼模型15。骨骼模型15表示感兴趣人员POI-n的虚拟模型。骨骼模型15包括多个骨骼元素16-n，每个骨骼元素16-n由至少一个身体界标LM-n限定。在本实施方式中，骨骼元素16-n中的每一个都由一对身体界标LM-n限定。身体界标识别算法被配置成识别对共同形成骨骼模型15的骨骼元素16-n中的每一个进行限定的身体界标LM-n对。在本实施方式中，骨骼模型15由五(5)个骨骼元素16-n组成，如图2中关于车辆V的驾驶员所示。右肩界标LM-2和右肘界标LM-3形成与感兴趣人员POI-n的上(右)臂相对应的第一骨骼元素16-1。左肩界标LM-5和左肘界标LM-6形成与感兴趣人员POI-n的上(左)臂相对应的第二骨骼元素16-2。右肩界标LM-2和左肩界标LM-5形成第三骨骼元素16-3。胸部界标LM-1和右臀部界标LM-8形成第四骨骼元素16-4；以及胸部界标LM-1和左臀部界标LM-11形成第五骨骼元素16-5。骨骼模型15包括对每个识别出的骨骼元素16-n的相对位置和取向进行限定的骨骼姿势数据。

第一图像数据DIMG1和/或第二图像数据DIMG2可以相对于时间和针对形成骨骼模型15的每个骨骼元素16-n生成的运动矢量VCT-n(图5所示)进行分析。所得运动矢量VCT-n分别表示运动的方向和速度。在一段时间内编译针对每个骨骼元素16-n的运动矢量VCT-n，以生成表示该骨骼元素16-n的位置和/或取向的变化的运动模式。针对每个骨骼元素16-n的运动模式用于生成表示骨骼模型15的至少一部分的运动的骨骼运动模式。所生成的骨骼运动模式可以被存储为骨骼运动数据。

控制器13被配置成将骨骼运动数据与多个预先限定的活动数据集进行比较。每个活动数据集限定了与特定活动的表现相关联的一个或更多个运动模式或动作。当执行特定活动时，活动数据集均可以限定骨骼模型15中的部分或全部骨骼模型的运动。可以限定多个不同的活动数据集，所述活动数据集分别与不同的活动相对应。例如，第一活动数据集可以限定第一活动；以及第二活动数据集可以限定第二活动(不同于第一活动)。例如，活动数据集可以限定以下活动中的一个或更多个：感兴趣人员POI-n正在睡觉；感兴趣人员POI-n消耗了一种食物或饮料；感兴趣人员POI-n正在从他们的肩膀上方看过去例如以视觉上检查车辆V后面或侧面的对象(例如，障碍物、行人、骑自行车者或其他车辆)；感兴趣人员POI-n正在把手伸进舱室C中的脚部空间、储存室或手套箱中；感兴趣人员POI-n正在紧固他们的安全带或调整座椅位置；感兴趣人员POI-n正在使用蜂窝电话、移动设备或个人计算机。活动数据集可以包括应用于车辆V中的每个感兴趣区域A-n的全局数据。替选地，活动数据集可以特定于车辆V中的特定感兴趣区域A-n。例如，可以针对车辆V中的不同感兴趣区域A-n限定不同的活动数据集。例如，第一活动数据集可以与就座在驾驶员座椅SF-1中的感兴趣人员POI-n相关联；以及第二活动数据集可以与就座在乘客座椅SF-2上的感兴趣人员POI-n相关联。因此，控制器13可以对由车辆V中的驾驶员执行的活动与由车辆V中的乘客执行的活动进行区分。

除了实施身体界标识别算法之外，控制器13被配置成实施对象检测算法以对一个或更多个感兴趣对象OOI-n进行识别和分类。图6中以示例的方式示出了第一图像DIMG1的变型。第一感兴趣对象OOI-1可以包括膝上型个人计算机；第二感兴趣对象OOI-2可以包括蜂窝电话；以及第三感兴趣对象OOI-3可以包括手提包或笔记本电脑包。活动识别系统1可以使用感兴趣对象OOI-n来识别由感兴趣人员POI正在执行的活动。例如，活动识别系统1可以识别包括感兴趣人员POI-n与感兴趣对象OOI-n之间的交互的特定活动。对象检测算法可操作为识别由第一成像装置C1捕获的第一图像数据DIMG1的每一帧中的一个或更多个感兴趣对象OOI-n。例如，对象检测算法可以对第一图像数据DIMG1和/或第二图像数据DIMG2进行处理以识别出现在由第一成像装置C1捕获的图像中的一个或更多个对象。例如，可以使用边缘检测算法识别对象的外边缘来识别对象。对象检测算法可以将舱室C的当前图像IMG1、IMG2(从第一图像数据DIMG1和/或第二图像数据DIMG2中提取的当前图像IMG1、IMG2)与参考图像进行比较以识别其可能是感兴趣对象OOI-n的变型。也可使用其他技术来识别对象，例如识别表面外形或轮廓。

然后可以将识别出的图像对象与多个预先限定的对象数据集进行比较。每个对象数据集限定特定类型的对象或特定类别的对象的一个或更多个识别特征或特性。例如，对象数据可以限定以下集合中的至少一个：对象的一个或更多个维度；对象的纵横比；对象的至少一部分的轮廓或形状；以及对象的表面外形。对象数据集可以限定多个不同类型的对象。例如，对象数据集可以限定以下对象类型中的一种或更多种：饮料容器(例如，杯子、罐头、瓶子或烧瓶)、蜂窝电话、移动设备、存储盒或容器(例如，手提包或公文包)、膝上型计算机、食品类(例如，三明治或一种糖果)等。对象数据集可以限定其他类型的对象。

对象检测算法确定所提取的图像对象与预先限定的对象数据之间的相似度。如果确定的相似度大于阈值，则将该图像对象识别为该类型的对象。对象检测算法可以跟踪在第一图像数据DIMG1和/或第二图像数据DIMG2中识别出的该对象或每个对象的位置和/或取向的变化，例如以跟踪识别出的对象在多个帧内的运动。在本实施方式中，每个识别出的对象被分类为感兴趣对象OOI-n。各种对象检测算法可用于商业应用。合适的对象检测算法是YOLO算法。针对由对象检测算法识别的每个感兴趣对象OOI-n生成对象边界框。

控制器13利用骨骼姿势数据、骨骼运动数据和对象数据中的一个或更多个来识别由感兴趣人员POI-n正在执行的活动。例如，控制器13可以组合骨骼姿势数据和对象数据以识别由感兴趣人员POI-n正在执行的当前活动。通过检测与感兴趣对象OOI-n的交互，活动识别系统1可以以提高的准确度识别由感兴趣人员POI-n正在执行的活动。活动识别系统1生成包括输出活动识别信号S1的电输出24以识别活动，例如以指示感兴趣人员POI-n正在吃饭、睡觉等。

可以根据由活动识别系统1生成的电输出24来控制一个或更多个车辆系统VS-n。例如，活动识别系统1可以被配置成控制一个或更多个车辆安全系统VS-n。如果活动识别系统1确定车辆V的驾驶员正在执行特定活动，则车辆安全系统VS-n可以例如生成通知。该通知可以特定于由感兴趣人员POI-n正在执行的特定活动。可以预先限定多个通知。多个预先限定的通知中的每一个可以与多个不同活动中的相应一个相关联。通过示例的方式，活动可以包括操纵蜂窝(移动)电话，并且通知可以包括对当地立法要求(例如，推荐将蜂窝电话与机载系统耦合)的提醒。通知可以包括以下中的一个或更多个：音频警报、触觉警报和视觉警报。例如，通知可以由设置在车辆V中的信息娱乐系统输出。

现在将参照图7所示的第一流程图100来描述控制器13用以识别由感兴趣人员POI-n在感兴趣区域A-n中执行的活动的操作。控制器13执行以下操作：

1)实施身体界标识别算法以识别身体界标LM-n并生成骨骼模型15(块110)；以及从感兴趣区域A-n中的第一图像数据DIMG1和/或第二图像数据DIMG2中裁剪原始像素(块115)；

2)计算当前图像帧与一个或更多个先前图像帧之间的光流，包括：

a)识别所有原始像素对应关系并存储运动矢量(方向和幅度)(块120)。该量值使得神经网络能够学习到大多数运动发生在感兴趣区域A-n的中心部分周围。沿着横跨感兴趣人员POI-n的手臂的像素可以存在更大的运动幅度。如果其他算法未进行检测，则该部分还允许一些特征冗余。

b)找到所有的身体界标LM-n对应关系，存储运动矢量(方向和幅度)(块125)。

3)根据光流建立三维(3D)体积空间(块130)；并且将3D体积空间输入至判别学习分类器中(块135)。

4)活动识别(即，推理)(块140)。

5)输出活动识别信号S1(块145)。

在计算光流时，潜在问题是由于缺乏纹理信息(或重复的结构/纹理)而可能出现的像素模糊。在小(即精细)尺度上，可以识别单个像素对应关系以减少或避免像素模糊；这被称为自下而上的分析技术。替选地，可以针对由多个像素组成的图像元素(或结构)来确定对应关系；这被称为自上而下的分析技术。图像元素可以采用以下中的一种或更多种形式：对象、对象部分、纹理的显著区域(在无定形特殊范围的种类的情况下)等。随后，光流跨构成这样的图像元素的所有像素传播。运动可以被编码为多个连续帧或感兴趣的固定区域之间的光流。原始像素对应关系(即，密集光流)可用于编码两个连续帧之间的运动，所述两个连续帧包括第一图像帧t-1(即，前一帧)和第二图像帧t(即，当前帧)。将光流分配给当前图像帧，从而创建两个附加的图像(即，2D阵列)。光流的幅度存储在一个图像中，以及方向角存储在第二图像中。可以使用先前提及的自下而上分析技术和自上而下分析技术中的任一种来计算幅度值和方向值。并非所有像素都具有对应关系，因为一些像素完全地从下一帧中消失，并且可以为那些单独地(瞬态)像素分配默认值。表示光流的幅度分量和方向分量的图像可以连接成具有两个通道(宽×高×2)的图像。可以连接多个这些图像(取决于要使用多少原始图像帧来计算光流)，从而产生适合机器学习的体积空间。

分类器可以包括神经网络，例如包括长短期记忆(LSTM)神经网络的混合卷积网络。该方法还可以包括识别代表在第一图像数据DIMG1和/或第二图像数据DIMG2中识别的感兴趣对象OOI-n的所有对象边界框。该方法可以包括确定并存储关于每个对象边界框的运动矢量(方向和幅度)。在LSTM神经网络中，通常存在多个LSTM单元。如果网络的本体(即，将像素编码为诸如边缘、图形、角的高级特征的部分)是卷积神经网络(CNN)，则通常存在多个相关的卷积滤光器。例如，考虑到边缘检测层，第一卷积滤光器可以被配置成检测水平边缘，第二卷积滤光器可以被配置成检测竖直边缘等。因此，应当理解，多个卷积滤光器充当显著特征提取器。在检查某些卷积滤光器的输出(也称为滤光器响应)后，可能会产生类似于经典信号处理和计算机视觉技术的直觉。例如，可以将卷积滤光器配置成分别充当低通滤光器、高通滤光器、带通滤光器等，以有效地去除冗余信息。一旦从每一帧中去除冗余信息，则LSTM神经网络就可以处理时间信息。时间信息可以被认为是状态之间的任何转换。例如，时间信息可以包括以下中的一种或更多种：身体关节位置的变化、像素强度值的变化、边缘位置的变化、图形、对象位置的变化等。

现在将参照图8所示的第二流程图描述活动识别系统1根据感兴趣人员POI-n与感兴趣对象OOI-n之间的交互来识别活动的操作。在此示例中，由感兴趣人员POI-n正在执行的活动是吃食物类，例如，三明治。控制器13执行以下操作：

1)实施身体界标识别算法以识别身体界标LM-n(块210)；以及实施对象检测算法以检测感兴趣对象OOI-n并将对象边界框应用于感兴趣对象OOI-n(块215)；以及从感兴趣区域A-n中的第一图像数据DIMG1和/或第二图像数据DIMG2中裁剪原始像素(块220)；

a)识别所有原始像素对应关系并存储运动矢量(方向和幅度)(块225)。该量值使得神经网络能够学习到大多数运动仅发生在感兴趣区域A-n的中心部分周围。沿着横跨感兴趣人员POI-n的手臂的像素可以存在更大的运动幅度。如果其他算法未进行检测，则该部分还可以允许一些特征冗余。

b)找到所有的身体界标对应关系，存储运动矢量(方向和幅度)

(块230)。该量值使得神经网络能够学习到活动包括一个或更多个可识别的动作。在本示例中，当感兴趣人员POI-n将他们的手伸至靠近他们的嘴部时，“吃”的活动包括手腕的圆周运动。

c)找到所有的对象边界框对应关系，存储运动矢量(方向和幅度)(块235)。该量值使得神经网络能够学习到活动包括与“吃”相关联的特定对象运动模式，该特定对象运动模式由表现出与手腕运动非常相似的运动的运动食物对象组成。

3)建立3D立体空间创建(块240)；并将3D立体空间创建输入至判别学习分类器中以提取与每个活动相关联的特征(块245)；以及

4)活动预测，即，推理(块250)。

5)输出活动识别信号S1(块255)。

车辆V可以可选地包括用于控制车辆V的动态操作的自主控制系统50。自主控制系统50可以例如控制以下中的一个或更多个：转向角；扭矩请求；和制动请求。自主控制系统50可以能够完全自主或部分自主地操作车辆V。自主控制系统50可能需要人类驾驶员监测驾驶环境(与SAE国际自动化级别0、1、2相对应)；或者需要控制系统监测驾驶环境(与SAE国际级别3、4、5相对应)。因此，可能仅在某些操作条件下要求驾驶员控制车辆V。可以根据由活动识别系统1生成的电输出24选择性地激活和停用自主控制系统50。在该操作场景中，由活动识别系统1监测的感兴趣人员POI-n是车辆V的驾驶员。

活动识别系统1可以选择性地激活和停用自主控制系统50。活动识别系统1可以根据识别出的由车辆V的驾驶员正在执行的活动来控制自主控制系统50。替选地或另外地，活动识别系统1可以根据由车辆V的驾驶员执行活动的经过时间来控制自主控制系统50。可以针对每个活动限定时间阈值。控制器13可以在确定已经执行该活动达大于或等于针对识别出的活动所限定的时间阈值的时间段时停用自主控制系统50。可以针对不同的活动限定不同的时间阈值。通过确定驾驶员已经执行了识别出的活动多长时间，活动识别系统1可以确定是否具有充足的时间来将控制移交至驾驶员。

通过识别驾驶员正在执行的活动，活动识别系统1可以评估驾驶员对道路的注意力。控制器13可以根据识别出的活动可选地生成注意力指标。注意力指标可以提供与控制车辆V的动态操作有关的驾驶员注意力的指示。如果活动识别系统1确定驾驶员正在执行除了控制车辆V之外的其他活动，则注意力指标可以例如指示低注意力。可以根据注意力指标来控制车辆系统VS-n。例如，自适应巡航控制系统可以被控制成根据注意力指标增加或减少车辆V与另一车辆之间的间隔距离。

应当理解，在不脱离本申请的范围的情况下，可以对本发明进行各种改变和修改。可以可选地设置计时器以确定感兴趣人员已经参与特定活动的时间段。

Claims

1.一种用于识别由感兴趣人员(POI-n)执行的至少第一活动的控制系统(1)，所述控制系统(1)包括具有处理器(20)和系统存储器(26)的控制器，所述控制器(13)被配置成：

从至少一个成像装置(C1，C2)接收图像数据(DIMG1，DIMG2)，所述图像数据(DIMG1，DIMG2)包括至少一个图像帧，所述图像帧表示包括感兴趣人员(POI-n)的至少一部分的图像场景；

分析所述图像数据(DIMG1，DIMG2)，以识别所述感兴趣人员(POI-n)的所述至少一部分的骨骼模型(15)；

分析所述图像数据(DIMG1，DIMG2)，以识别所述感兴趣人员(POI-n)正在与之交互的至少一个感兴趣对象(OOI-n)；以及

根据所述骨骼模型(15)和所识别出的感兴趣对象(OOI-n)来从预先限定的多个活动中识别由所述感兴趣人员(POI-n)执行的所述第一活动。

2.根据权利要求1所述的控制系统(1)，其中，所述控制器(13)被配置成：识别所述骨骼模型(15)的至少一部分的运动；以及/或者识别所识别出的感兴趣对象(OOI-n)的运动。

3.根据权利要求2所述的控制系统(1)，其中，所述控制器(13)被配置成根据所述骨骼模型(15)的运动和/或所识别出的感兴趣对象(OOI-n)的运动来识别所述第一活动。

4.根据权利要求2或权利要求3所述的控制系统(1)，其中，所述控制器(13)被配置成通过识别所述骨骼模型(15)的预定第一运动模式和/或所识别出的感兴趣对象(OOI-n)的预定第一运动模式来识别所述第一活动。

5.根据权利要求2、3或4中任一项所述的控制系统(1)，其中，所述图像数据(DIMG1，DIMG2)包括多个图像帧；所述控制器(13)被配置成：在所述多个图像帧中的每个图像帧中识别所述骨骼模型(15)和/或所述至少一个感兴趣对象(OOI-n)，以及识别所述骨骼模型(15)跨所述多个图像帧的运动和/或所述至少一个感兴趣对象(OOI-n)跨所述多个图像帧的运动。

6.一种用于识别由车辆中的感兴趣人员(POI-n)执行的至少第一活动的控制系统(1)，所述控制系统(1)包括具有处理器(20)和系统存储器(26)的控制器(13)，所述控制器(13)被配置成：

从至少一个成像装置(C1，C2)接收图像数据(DIMG1，DIMG2)，所述图像数据(DIMG1，DIMG2)包括多个图像帧，所述图像帧表示包括感兴趣人员(POI-n)的图像场景；

分析所述图像数据(DIMG1，DIMG2)，以在所述多个图像帧中的每个图像帧中识别所述感兴趣人员(POI-n)的骨骼模型(15)；

识别所述骨骼模型(15)的至少一部分跨所述多个图像帧的运动；以及

根据所识别出的运动来从预先限定的多个活动中识别由所述感兴趣人员(POI-n)执行的所述第一活动。

7.根据权利要求2至6中任一项所述的控制系统(1)，其中，所述骨骼模型(15)包括至少一个骨骼元素(16-n)；以及所述控制器(13)被配置成生成关于所述骨骼元素或每个骨骼元素(16-n)的运动矢量，以便识别所述骨骼模型(15)的运动。

8.根据前述权利要求中任一项所述的控制系统(1)，其中，所述控制器(13)被配置成根据所述骨骼模型(15)的至少一部分的运动来确定注意力指标，所述注意力指标提供所述感兴趣人员(POI-n)在执行所述第一活动时的注意力的指示。

9.根据前述权利要求中任一项所述的控制系统(1)，其中，所述控制器(13)被配置成在每个图像帧中识别多个身体界标并且使用所述身体界标来识别所述骨骼模型(15)。

10.一种车辆，所述车辆包括根据前述权利要求中任一项所述的控制系统(1)。

11.一种识别由感兴趣人员(POI-n)执行的至少第一活动的方法，所述方法包括：

接收包括至少一个图像帧的图像数据(DIMG1，DIMG2)，所述图像帧表示包括感兴趣人员(POI-n)的至少一部分的图像场景；

12.根据权利要求11所述的方法，包括识别所述骨骼模型(15)的至少一部分的运动；以及/或者识别所识别出的感兴趣对象(OOI-n)的运动。

13.根据权利要求2所述的方法，其中，所述方法包括根据所述骨骼模型(15)的运动和/或所述至少一个感兴趣对象(OOI-n)的运动来识别所述第一活动。

14.根据权利要求12或权利要求13所述的方法，包括通过识别所述骨骼模型(15)的预定第一运动模式和/或所述至少一个感兴趣对象(OOI-n)的预定第一运动模式来识别所述第一活动。

15.根据权利要求12、13或14中任一项所述的方法，其中，所述图像数据(DIMG1，DIMG2)包括多个图像帧；所述方法包括：在所述多个图像帧中的每个图像帧中识别所述骨骼模型(15)和/或所述至少一个感兴趣对象(OOI-n)，以及识别所述骨骼模型(15)跨所述多个图像帧的运动和/或所述至少一个感兴趣对象(OOI-n)跨所述多个图像帧的运动。

16.一种识别由车辆中的感兴趣人员(POI-n)执行的至少第一活动的方法，所述方法包括：

接收包括多个图像帧的图像数据(DIMG1，DIMG2)，所述图像帧表示包括感兴趣人员(POI-n)的图像场景；

17.根据权利要求12至16中任一项所述的方法，其中，所述骨骼模型(15)包括至少一个骨骼元素(16-n)；以及所述方法包括监测所述骨骼元素或每个骨骼元素(16-n)的运动，以便识别所述骨骼模型(15)的运动。

18.根据权利要求11至17中任一项所述的方法，其中，所述方法包括根据所述骨骼模型(15)的至少一部分的运动来确定注意力指标，所述注意力指标提供所述感兴趣人员(POI-n)在执行所述第一活动时的注意力的指示。

19.根据权利要求11至18中任一项所述的方法，其中，所述方法包括在每个图像帧中识别多个身体界标并且使用所述身体界标来识别所述骨骼模型(15)。

20.一种计算机软件，所述计算机软件在被执行时被配置成执行根据权利要求11至19中任一项所述的方法。

21.一种其上存储有指令的非暂态计算机可读存储介质，所述指令在由一个或更多个电子处理器(20)执行时，使所述一个或更多个电子处理器(20)执行根据权利要求10至19中任一项所述的方法。