CN115546875B

CN115546875B - 基于多任务的座舱内行为检测方法、装置以及设备

Info

Publication number: CN115546875B
Application number: CN202211381696.8A
Authority: CN
Inventors: 沈锦瑞; 林垠; 殷保才; 胡金水; 殷兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-04-04
Anticipated expiration: 2042-11-07
Also published as: CN115546875A

Abstract

本发明公开了一种基于多任务的座舱内行为检测方法、装置以及设备，座舱内行为检测方法包括：接收座舱内的实时图像；识别所述实时图像中的人脸区域，扩大所述人脸区域形成的第一外轮廓，并提取扩大后的第一外轮廓所围区域的图像，作为输入图像；将所述输入图像输入多线索识别模型，获得每个目标行为的第一检测结果；所述多线索识别模型中，每个目标行为对应一个线索；对每个目标行为的第一检测结果进行分析，并判断是否满足提醒条件；若满足，则输出针对所述目标行为的提醒信息。本发明既充分利用了人脸全图语义信息，降低了误触发率，又减少了识别模型的数量，大大提高了车机的运行效率。

Description

基于多任务的座舱内行为检测方法、装置以及设备

技术领域

本发明涉及计算机信息处理技术领域，尤其涉及一种基于多任务的座舱内行为检测方法、装置以及设备。

背景技术

驾驶员在驾驶过程中的一些异常行为可能会降低驾驶的安全性，例如开车时贴耳式使用手机、开车时抽烟等。因此在座舱内安装监控装置，当检测到驾驶员出现以上行为时车机会发出提示，提醒驾驶员停止该异常行为，以规范驾驶员的驾驶行为。

在现有的座舱抽烟、打电话行为检测系统中，第一种方式为直接采用物体检测方案代替行为检测，即将行为对应的物体（如烟或手机）作为行为发生的依据，并识别人脸关键点信息，通过物体和人脸关键点的相对位置进行行为判断。

但是，该方案没有利用人脸全图语义信息（例如嘴部、耳部等），导致误触发频率较高，例如将手机拿到人脸附近但未打电话或卷烟靠近人脸但未抽烟时，容易引发系统提示。另外，同时运行物体检测模型和人脸关键点检测模型，降低了运行效率。

另一种方式是将提取到的人脸区域直接送入识别模型。为了保证模型效果，一般利用抽烟识别模型和打电话识别模型分别进行识别。为了增强系统鲁棒性，还需要进行手机或烟的物体检测来辅助识别。

该方案种，一方面，在两种行为模式差别较大的情况下，两种行为的识别效果往往难以同时达到最优。另一方面，使用多个识别模型，降低了运行效率。而且，手机或烟的物体检测较难被驾驶员监控系统的其他功能复用，降低了车机效率。

发明内容

鉴于上述，本发明旨在提供一种基于多任务的座舱内行为检测方法、装置以及设备，通过扩大人脸区域，将目标行为对应的物体纳入识别范围，同时多线索识别模型可以同时识别多种行为特征，既充分利用了人脸全图语义信息，降低了误触发率，又减少了识别模型的数量，大大提高了车机的运行效率。

本发明采用的技术方案如下：

第一方面，本发明提供了一种基于多任务的座舱内行为检测方法，包括：

接收座舱内的实时图像；

识别所述实时图像中的人脸区域，扩大所述人脸区域形成的第一外轮廓，并提取扩大后的第一外轮廓所围区域的图像，作为输入图像；其中，所述扩大后的第一外轮廓所围区域包括与多个目标行为对应的物体所在的第一区域；

将所述输入图像输入多线索识别模型，获得每个目标行为的第一检测结果；所述多线索识别模型中，每个目标行为对应一个线索；

对每个目标行为的第一检测结果进行分析，并判断是否满足提醒条件；

若满足，则输出针对所述目标行为的提醒信息。

在其中一种可能的实现方式中，所述多线索识别模型的训练方法包括：

对初始识别模型进行信息融合训练，获得第一识别模型；

利用所有目标行为的教师模型分别对所述第一识别模型进行知识蒸馏，获得所述多线索识别模型。

在其中一种可能的实现方式中，对初始识别模型进行信息融合训练，获得第一识别模型，具体包括自学习训练，所述自学习训练包括:

获取样本图像中与每个目标行为对应的目标面部部位的关键点信息，将每个目标面部部位的关键点信息形成的第二外轮廓扩大，形成增强区域，将所有目标面部部位的增强区域的图像组合作为第一输入信息；其中，扩大后的第二外轮廓所围区域包括与所述增强区域内的目标面部部位对应的物体所在的第二区域；

获取样本图像中与每个目标行为对应的物体所在的第三区域的图像，将获取到的与所有目标行为对应的第三区域的图像组合作为第二输入信息；

将所述第一输入信息和所述第二输入信息融合，获得多线索图像；

将所述多线索图像和所述样本图像同时输入所述初始识别模型进行训练，获得第二识别模型，将所述第二识别模型作为所述第一识别模型。

在其中一种可能的实现方式中，对初始识别模型进行信息融合训练，获得第一识别模型，还包括互学习训练，在所述互学习训练中，利用第三识别模型和所述第二识别模型进行互学习，训练完成后的第二识别模型作为所述第一识别模型；

其中，所述第三识别模型的输入数据为所述第二输入信息。

在其中一种可能的实现方式中，初始状态下，所述第二识别模型的特征提取器和所述第三识别模型的特征提取器的非多线索预训练参数相同。

在其中一种可能的实现方式中，知识蒸馏过程中，所述第一识别模型输出的每个目标行为的第二检测结果均与对应的教师模型的输出结果进行后验概率分布约束。

在其中一种可能的实现方式中，所述教师模型为基于多线索信息的教师模型，每个目标行为的教师模型对于自身目标行为的预测效果最佳。

在其中一种可能的实现方式中，所述教师模型的输出数据为所有目标行为的检测结果。

第二方面，本发明提供了一种基于多任务的座舱内行为检测装置，包括接收模块、提取模块、识别模块、分析模块以及输出模块；

所述接收模块用于接收座舱内的实时图像；

所述提取模块用于识别所述实时图像中的人脸区域，扩大所述人脸区域形成的第一外轮廓，并提取扩大后的第一外轮廓所围区域的图像，作为输入图像；其中，所述扩大后的第一外轮廓所围区域包括与多个目标行为对应的物体所在的第一区域；

所述识别模块用于将所述输入图像输入多线索识别模型，获得每个目标行为的第一检测结果；所述多线索识别模型中，每个目标行为对应一个线索；

所述分析模块用于对每个目标行为的第一检测结果进行分析，并判断是否满足提醒条件；

所述输出模块用于在满足提醒条件时输出针对所述目标行为的提醒信息。

在其中一种可能的实现方式中，还包括训练模块，所述训练模块包括信息融合训练模块和知识蒸馏模块；

所述信息融合训练模块用于对初始识别模型进行信息融合训练，获得第一识别模型；

所述知识蒸馏模块用于利用所有目标行为的教师模型分别对所述第一识别模型进行知识蒸馏，获得所述多线索识别模型。

在其中一种可能的实现方式中，所述信息融合训练模块包括第一输入信息获取模块、第二输入信息获取模块、融合模块以及多信息训练模块；

所述第一输入信息获取模块用于获取样本图像中与每个目标行为对应的目标面部部位的关键点信息，将每个目标面部部位的关键点信息形成的第二外轮廓扩大，形成增强区域，将所有目标面部部位的增强区域的图像组合作为第一输入信息；其中，扩大后的第二外轮廓所围区域包括与所述增强区域内的目标面部部位对应的物体所在的第二区域；

所述第二输入信息获取模块用于获取样本图像中与每个目标行为对应的物体所在的第三区域的图像，将获取到的与所有目标行为对应的第三区域的图像组合作为第二输入信息；

所述融合模块用于将所述第一输入信息和所述第二输入信息融合，获得多线索图像；

所述多信息训练模块用于将所述多线索图像和所述样本图像同时输入所述初始识别模型进行训练，获得第二识别模型，将所述第二识别模型作为所述第一识别模型。

在其中一种可能的实现方式中，所述信息融合训练模块还包括互学习模块，所述互学习模块用于执行互学习训练，在互学习训练中，利用第三识别模型和所述第二识别模型进行互学习，训练完成后的第二识别模型作为所述第一识别模型；

其中，所述第三识别模型的输入数据为所述第二输入信息。

第三方面，本发明提供了一种基于多任务的座舱内行为检测设备，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述座舱内行为检测设备执行时，使得所述座舱内行为检测设备执行上述的座舱内行为检测方法。

本发明的构思在于，通过扩大人脸区域，将目标行为对应的物体纳入识别范围，同时多线索识别模型可以同时识别多种行为特征，既充分利用了人脸全图语义信息，降低了误触发率，又减少了识别模型的数量，大大提高了车机的运行效率。多线索识别模型的训练过程中，通过将提取到的与目标行为对应的面部部位的图像以及物体的图像作为输入信息，使得模型学习到与目标行为具有强相关性的面部部位的相关知识。并且，通过互学习提高模型对于与目标行为具有强相关性的面部部位的位置敏感性，并且对物体的外观信息具有更好的判别能力。另外，通过利用每个目标行为的教师模型进行知识蒸馏，使得多线索识别模型对所有目标行为的预测同时达到较优效果，改善了模型的整体效果。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的基于多任务的座舱内行为检测方法的流程图；

图2为本发明提供的获取输入图像的一个实例；

图3为本发明提供的多线索识别模型的训练方法的流程图；

图4为本发明提供的自学习训练的流程图；

图5为本发明提供的增强区域的示意图；

图6为本发明提供的获得多线索图像的流程示意图；

图7为本发明提供的互学习训练的示意图；

图8为本发明提供的知识蒸馏的示意图；

图9为本发明提供的基于多任务的座舱内行为检测装置的结构示意图；

图10为本发明提供的信息融合训练模块的结构示意图；

图11为本发明提供的基于多任务的座舱内行为检测设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

针对前述核心构思，本发明提供了至少一种基于多任务的座舱内行为检测方法的实施例，如图1所示，可以包括如下步骤：

S110：接收座舱内的实时图像。

在一种可能的实现方式中，座舱内，A柱或中控处设有相机，用于拍摄主驾驶位区域的图像。

在一种可能的实现方式中，相机为近红外相机，其可最大程度降低光照带来的影响。

可以理解地，也可以选用其他类型的相机。

用户登录座舱内的驾驶员监控系统（Driver Monitor System，DMS）后，相机同步开启，相机对驾驶员的行为进行采集并传输给座舱内行为检测装置（请见下述说明）。

S120：在驾驶员就位（即实时图像中存在人脸区域）的情况下，识别实时图像中的人脸区域，扩大人脸区域形成的第一外轮廓，并提取扩大后的第一外轮廓所围区域的图像，作为输入图像；其中，扩大后的第一外轮廓所围区域包括与多个目标行为对应的物体所在的第一区域。

如图2所示的实例，实线矩形框表示第一外轮廓，虚线矩形框表示扩大后的第一外轮廓。图像中，用户正在抽烟（第一目标行为）和打电话（第二目标行为），虚线矩形框将香烟（与第一目标行为对于的物体）和手机（与第二目标行为对于的物体）所在的区域也包围在内。

S130：将输入图像输入多线索识别模型，获得每个目标行为的第一检测结果。

需要说明的是，多线索识别模型的输入数据为S120获得的输入图像，输出数据为输入图像中存在的所有目标行为。

多线索识别模型中，每个目标行为对应一个线索。多线索识别模块可以从图像中同时提取多个目标行为（即多个线索）的关键信息，并通过分析每个目标行为的关键信息输出对应的检测结果。例如，假设目标行为包括抽烟和打电话，若图像中存在抽烟行为，则多线索识别模型的输出结果包括抽烟行为；若图像中存在打电话行为，则多线索识别模型的输出结果包括打电话行为。在图2所示的实例中，图像中同时存在抽烟和打电话行为，多线索识别模型的输出结果为抽烟行为和打电话行为，即输出了多个目标行为的检测结果。

S140：对每个目标行为的第一检测结果进行分析，并判断是否满足提醒条件。若满足，则执行S150；否则，返回S110。

可以理解地，在一种可能的实现方式中，多线索识别模型计算目标行为发生的概率，若概率大于第一阈值，则认为识别到了目标行为，输出该目标行为的第一检测结果。

在一种可能的实现方式中，对于同一个目标行为，提醒条件判定方法为：若连续第一预设数量帧的实时图像中均识别到该目标行为，则触发高响应；若在预设时间内触发高响应的次数超过预设次数，则满足提醒条件。

在另一种可能的实现方式中，对于同一个目标行为，若触发高响应，则对连续第二预设数量帧的检测结果进行投票，若投票结果为存在异常行为，则满足提醒条件。

在一种可能的实现方式中，投票时，计算连续第二预设数量帧的检测结果的平均值，若平均值大于第二阈值，则投票结果为存在异常行为。

可以理解地，投票时，也可以通过计算连续第二预设数量帧的检测结果的标准差等参数来确定投票结果。

S150：输出针对该目标行为的提醒信息，提醒目标行为人停止该目标行为，并返回S110。

如下对多线索识别模型的训练过程进行说明：

如图3所示，对多线索识别模型的训练方法包括：

S310：对初始识别模型进行信息融合训练，获得第一识别模型。

该步骤中，利用与所有目标行为相关的信息对初始识别模型进行训练，使得模型获得多线索（即多个目标行为）信息。

在一种可能的实现方式中，信息融合训练包括自学习训练。如图4所示，自学习训练包括:

S410：获取样本图像中与每个目标行为对应的目标面部部位的关键点信息，将每个目标面部部位的关键点信息形成的第二外轮廓扩大，形成增强区域，将所有目标面部部位的增强区域的图像组合作为第一输入信息。其中，扩大后的第二外轮廓所围区域包括与增强区域内的目标面部部位对应的物体所在的第二区域。

以抽烟和打电话两个目标行为为例，目标面部部位为嘴部和耳部。如图5所示的面部关键点中，将嘴部关键点形成包络的最大外接矩形（第二外轮廓）进行外扩，形成嘴部的增强区域，进而提取与抽烟相关的线索信息，使得模型在识别驾驶员是否抽烟时更加专注于嘴部附近的区域，避免出现偏置。针对打电话行为，将面部颧骨附近的关键点进行定位并框定需要增强的耳部矩形区域，形成耳部的增强区域，使得模型更加关注耳部区域。

在一种优选的实现方式中，不同人脸大小所对应的增强区域不同。

在一种可能的实现方式中，对于每个样本图像，使用离线的面部关键点检测模型生成目标面部部位的关键点信息。

S420：获取样本图像中与每个目标行为对应的物体所在的第三区域的图像，将获取到的与所有目标行为对应的第三区域的图像组合作为第二输入信息。

在一种可能的实现方式中，对于每个样本图像，使用离线的物体检测模型生成第二输入信息。

S430：将第一输入信息和第二输入信息融合，获得多线索图像。

S440：将多线索图像和样本图像同时输入初始识别模型进行训练，获得第二识别模型。

在该实现方式中，将获得的第二识别模型作为第一识别模型。

图6为自学习训练的一个示意性流程。如图6所示，a为样本图像，经过人脸检测到人脸区域，扩大人脸区域后提取出图像b。利用离线的关键点检测模型对图像b进行嘴部和耳部检测并扩大嘴部和耳部的外轮廓，然后提取嘴部和耳部区域的图像，获得图像d（第一输入信息）。利用离线的物体检测模型对图像b进行检测并提取香烟和耳机区域的图像，获得图像c（第二输入信息）。将图像c和d进行融合，获得多线索图像e。

需要说明的是，当人脸区域附近没有出现与目标行为对应的物体时，获得的多线索图片仅为第一输入信息。

将所有样本图像获得的多线索图像与样本图像一起输入初始识别模型进行训练，由此，模型获得的训练数据更加纯粹，与目标行为对应的目标面部部位（例如嘴部、耳部）具有强关联性，获得的第二识别模型更容易学会与目标行为相关的动作模式。

在上述实现方式的基础上，在一种优选的实现方式中，为了使丢失的图片信息发挥作用，信息融合训练还包括互学习训练。在互学习训练中，利用第三识别模型和第二识别模型进行互学习，将训练完成后的第二识别模型作为第一识别模型。

其中，第三识别模型的输入数据为第二输入信息。

如图7所示，上方分支为第二识别模型，其输入为人脸外扩区域的全图，经过特征提取器和分类器后获得输出目标行为的检测结果。下方分支为第三识别模型，其输入为S430获得多线索图像，经过特征提取器和分类器后获得输出目标行为的检测结果。二者共同参与训练，互相学习，使得第二识别模型得以学到第三识别模型的多线索网络中相关区域的信息，多线索网络也可以从第二识别模型中学习到部分与行为识别相关的背景信息。训练完成后，取上方分支的第二识别模型作为第一识别模型。

在一种可能的实现方式中，初始状态（训练前）下，第二识别模型的特征提取器和第三识别模型的特征提取器的非多线索预训练参数（多线索信息之外的预训练参数）相同合并。

在一种可能的实现方式中，在训练过程中，通过计算第二识别模型的输出结果与真实标签的交叉熵、第三识别模型的输出结果与真实标签的交叉熵以及第二识别模型的输出结果与第三识别模型的输出结果之间的后验概率分布约束进行迭代训练。

经过上述信息融合训练，模型对与目标行为对应的目标面部部位（例如嘴部、耳部）相关区域具备一定的位置敏感性，并且对物体的外观信息具有更好的判别能力。

本发明利用单个多线索识别模型解决与多个任务（对应多个目标行为），因此其训练过程属于多任务学习。由于不同目标行为的动作模式仍有差异，所以在训练过程中可能会出现一些任务的预测效果较好，而另一些任务的预测效果较差的情况。基于这样的考虑，本发明中，对多线索识别模型的训练还包括如下步骤：

S320：利用所有目标行为的教师模型分别对第一识别模型进行知识蒸馏，获得多线索识别模型。也就是说，每个目标行为均设置一个教师模型，利用多个教师模型对第一识别模型（学生模型）进行知识蒸馏。知识蒸馏过程中，第一识别模型可能会输出多个目标行为的第二检测结果，每个目标行为的第二检测结果均与对应的教师模型的输出结果进行后验概率分布约束，从而实现迭代训练。

在一种可能的实现方式中，每个目标行为的教师模型的输出数据只有该目标行为的检测结果，

在一种优选的实现方式中，所有目标行为的教师模型均为基于多线索信息的教师模型（例如利用上述的信息融合训练获得的模型），并且每个目标行为的教师模型对于自身目标行为的预测效果最佳。例如，针对抽烟的教师模型对于抽烟行为的预测效果比其他教师模型更好。由此，教师模型的输出数据为所有目标行为的检测结果。

例如，使用相同的模型结构和训练数据，分别在抽烟和打电话任务上分别训练效果最好的模型，作为教师模型，这两个教师模型皆为具有多输出数据的模型。

在该实现方式中，在知识蒸馏过程中，将训练好的多个教师模型的参数固定。第一识别模型输出的每个目标行为的第二检测结果均与对应的教师模型输出的该目标行为的输出结果进行后验概率分布约束（例如KL散度约束）。例如，第一识别模型输出了抽烟和打电话的第二检测结果，针对抽烟的教师模型和针对打电话的教师模型也输出了抽烟和打电话的检测结果，则利用抽烟的第二检测结果与针对抽烟的教师模型输出的抽烟的检测结果进行后验概率分布约束，利用打电话的第二检测结果与针对打电话的教师模型输出的打电话的检测结果进行后验概率分布约束，如图8所示。由此，学生模型可以同时结合多个教师模型的能力，使多个任务同时达到较优效果。

通过知识蒸馏获得的多线索识别模型，在预测过程中，其输入数据为上述的输入图像，即外扩的人脸区域，无需识别面部部位的关键点信息和物体信息，输出数据为对多个目标行为的检测结果。

基于上述，本发明的多线索识别模型在训练过程中通过结合关键点检测信息和物体检测信息，使模型具备一定的对目标面部部位的相关区域的位置敏感性，并且对物体的外观信息具有更好的判别能力，实现更加“位置相关”和“物体相关”的行为识别的同时，无需额外的关键点检测模型和物体检测模型，在降低车机工作压力的同时大大降低了误触发的次数，识别目标行为的实时性和准确性也得到保障。并且通过基于多教师模型的知识蒸馏，多线索识别模型对多任务的预测效果同时达到最佳，模型的鲁棒性和车机的运行效率得到了提高。另外，该算法可以衍生应用于车机的其他多任务模型，提升了车机的整体运行效率和效果。

相应于上述各实施例及优选方案，本发明还提供了一种基于多任务的座舱内行为检测装置的实施例，如图9所示，具体可以包括接收模块510、提取模块520、识别模块530、分析模块540以及输出模块550；

接收模块510用于接收座舱内的实时图像。

提取模块520用于识别实时图像中的人脸区域，扩大人脸区域形成的第一外轮廓，并提取扩大后的第一外轮廓所围区域的图像，作为输入图像。其中，扩大后的第一外轮廓所围区域包括与多个目标行为对应的物体所在的第一区域。

识别模块530用于将输入图像输入多线索识别模型，获得每个目标行为的第一检测结果。多线索识别模型中，每个目标行为对应一个线索。

分析模块540用于对每个目标行为的第一检测结果进行分析，并判断是否满足提醒条件。

输出模块550用于在满足提醒条件时输出针对该目标行为的提醒信息。

在其中一种可能的实现方式中，座舱内行为检测装置还包括训练模块，训练模块560包括信息融合训练模块5601和知识蒸馏模块5602。

信息融合训练模块5601用于对初始识别模型进行信息融合训练，获得第一识别模型。

知识蒸馏模块5602用于利用所有目标行为的教师模型分别对第一识别模型进行知识蒸馏，获得多线索识别模型。

在其中一种可能的实现方式中，如图10所示，信息融合训练模块5601包括第一输入信息获取模块56011、第二输入信息获取模块56012、融合模块56013以及多信息训练模块56014。

第一输入信息获取模块56011用于获取样本图像中与每个目标行为对应的目标面部部位的关键点信息，将每个目标面部部位的关键点信息形成的第二外轮廓扩大，形成增强区域，将所有目标面部部位的增强区域的图像组合作为第一输入信息；其中，扩大后的第二外轮廓所围区域包括与增强区域内的目标面部部位对应的物体所在的第二区域。

第二输入信息获取模块56012用于获取样本图像中与每个目标行为对应的物体所在的第三区域的图像，将获取到的与所有目标行为对应的第三区域的图像组合作为第二输入信息。

融合模块56013用于将第一输入信息和第二输入信息融合，获得多线索图像。

多信息训练模块56014用于将多线索图像和样本图像同时输入初始识别模型进行训练，获得第二识别模型，将第二识别模型作为第一识别模型。

在其中一种可能的实现方式中，信息融合训练模块5601还包括互学习模块56015，互学习模块56015用于执行互学习训练，在互学习训练中，利用第三识别模型和第二识别模型进行互学习，训练完成后的第二识别模型作为第一识别模型；其中，第三识别模型的输入数据为第二输入信息。

应理解以上图9-10所示的座舱内行为检测装置的各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路（Application Specific Integrated Circuit；以下简称：ASIC），或，一个或多个微处理器（Digital Singnal Processor；以下简称：DSP），或，一个或者多个现场可编程门阵列（Field Programmable Gate Array；以下简称：FPGA）等。再如，这些部件可以集成在一起，以片上系统（System-On-a-Chip；以下简称：SOC）的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

（1）一种基于多任务的座舱内行为检测设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。

图11为本发明座舱内行为检测设备的实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为PC、服务器、智能终端（手机、平板、手表、眼镜等）、智能电视、智慧屏、柜员机、机器人、无人机、ICV、智能（汽）车及车载设备等。本实施例对座舱内行为检测设备的具体形式不作限定。

具体如图11所示，座舱内行为检测设备900包括处理器910、存储器930和摄像头990。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得座舱内行为检测设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述座舱内行为检测设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，图11所示的座舱内行为检测设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图11所示的座舱内行为检测设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器（Central Processing Unit；以下简称：CPU），还可以进一步包括其他类型的处理器，例如：图像处理器（Graphics Processing Unit；以下简称：GPU）等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

（2）一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

（3）一种计算机程序产品（该产品可以包括上述装置），该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的座舱内行为检测方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备（例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器（Neural-network Process Units；以下简称：NPU）和图像信号处理器（Image Signal Processing；以下简称：ISP），该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器（Read-Only Memory；以下简称：ROM）、随机存取存储器（Random Access Memory；以下简称：RAM）等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种基于多任务的座舱内行为检测方法，其特征在于，包括：

接收座舱内的实时图像；

若满足，则输出针对所述目标行为的提醒信息；

其中，所述多线索识别模型的训练方法包括对初始识别模型进行信息融合训练，获得第一识别模型；

其中，对初始识别模型进行信息融合训练，获得第一识别模型，具体包括自学习训练，所述自学习训练包括:

2.根据权利要求1所述的基于多任务的座舱内行为检测方法，其特征在于，所述多线索识别模型的训练方法还包括：

3.根据权利要求1所述的基于多任务的座舱内行为检测方法，其特征在于，对初始识别模型进行信息融合训练，获得第一识别模型，还包括互学习训练，在所述互学习训练中，利用第三识别模型和所述第二识别模型进行互学习，训练完成后的第二识别模型作为所述第一识别模型；

其中，所述第三识别模型的输入数据为所述第二输入信息。

4.根据权利要求3所述的基于多任务的座舱内行为检测方法，其特征在于，初始状态下，所述第二识别模型的特征提取器和所述第三识别模型的特征提取器的非多线索预训练参数相同。

5.根据权利要求2所述的基于多任务的座舱内行为检测方法，其特征在于，知识蒸馏过程中，所述第一识别模型输出的每个目标行为的第二检测结果均与对应的教师模型的输出结果进行后验概率分布约束。

6.根据权利要求2或5所述的基于多任务的座舱内行为检测方法，其特征在于，所述教师模型为基于多线索信息的教师模型，每个目标行为的教师模型对于自身目标行为的预测效果最佳。

7.根据权利要求6所述的基于多任务的座舱内行为检测方法，其特征在于，所述教师模型的输出数据为所有目标行为的检测结果。

8.一种基于多任务的座舱内行为检测装置，其特征在于，包括接收模块、提取模块、识别模块、分析模块以及输出模块；

所述接收模块用于接收座舱内的实时图像；

所述输出模块用于在满足提醒条件时输出针对所述目标行为的提醒信息；

所述座舱内行为检测装置还包括训练模块，所述训练模块包括信息融合训练模块，所述信息融合训练模块用于对初始识别模型进行信息融合训练，获得第一识别模型；

其中，所述信息融合训练模块包括第一输入信息获取模块、第二输入信息获取模块、融合模块以及多信息训练模块；

9.根据权利要求8所述的基于多任务的座舱内行为检测装置，其特征在于，所述训练模块还包括知识蒸馏模块；

10.根据权利要求8所述的基于多任务的座舱内行为检测装置，其特征在于，所述信息融合训练模块还包括互学习模块，所述互学习模块用于执行互学习训练，在互学习训练中，利用第三识别模型和所述第二识别模型进行互学习，训练完成后的第二识别模型作为所述第一识别模型；

其中，所述第三识别模型的输入数据为所述第二输入信息。

11.一种基于多任务的座舱内行为检测设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述座舱内行为检测设备执行时，使得所述座舱内行为检测设备执行如权利要求1~7任一项所述的座舱内行为检测方法。