CN113393643B

CN113393643B - 异常行为预警方法、装置、车载终端以及介质

Info

Publication number: CN113393643B
Application number: CN202110647682.5A
Authority: CN
Inventors: 张致恺; 牛建伟; 陶冶; 余凯
Original assignee: Shanghai Anting Horizon Intelligent Transportation Technology Co ltd
Current assignee: Shanghai Anting Horizon Intelligent Transportation Technology Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-07-21
Anticipated expiration: 2041-06-10
Also published as: CN113393643A

Abstract

公开了一种异常行为预警方法、装置、车载终端以及介质，该方法通过获取车内被监控对象的目标图像数据，其中，目标图像数据包括被监控对象的当前帧图像以及被监控对象的当前帧图像之前的预设帧图像；根据目标图像数据，得到被监控对象的第一异常概率分布；根据第一异常概率分布识别被监控对象是否满足预设预警条件，若是，则上报被监控对象的预警信息，实现了对车内被监控对象异常行为的实时预警。

Description

异常行为预警方法、装置、车载终端以及介质

技术领域

本申请涉及计算机技术领域，且更为具体地，涉及一种异常行为预警方法、装置、车载终端以及介质。

背景技术

出行问题与人们的生活息息相关，随着人们生活水平的提高，选择出租车或者是网约车出行的人越来越多，相应地，随之出现的乘车安全问题也越来越受到人们的关注。近年来，在出租车或者是网约车上发生违法行为如抢劫、骚扰等的案例层出不穷，已经严重威胁到人们生命财产安全。因此，亟需一种能够在行车过程中对车内人员的异常行为进行预警的方法。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种异常行为预警方法、装置、车载终端以及介质，其通过包含车内被监控对象当前帧图像的目标图像数据得到被监控对象的第一异常概率分布，从而在识别出被监控对象满足预设预警条件时，实时上报预警信息，以实现对车内被监控对象异常行为的实时预警，以便于及时对被监控对象的异常行为进行制止或补救。

根据本申请的一个方面，提供了一种异常行为预警方法，所述方法包括获取车内被监控对象的目标图像数据，其中，所述目标图像数据包括所述被监控对象的当前帧图像以及所述被监控对象的当前帧图像之前的预设帧图像；根据所述目标图像数据，得到所述被监控对象的第一异常概率分布，其中，所述第一异常概率分布用于表征所述被监控对象存在预设异常行为的概率；根据所述第一异常概率分布识别所述被监控对象是否满足预设预警条件，若是，则上报所述被监控对象的预警信息。

根据本申请的另一方面，提供了一种异常行为预警装置，所述装置包括：图像获取模块，用于获取车内被监控对象的目标图像数据，其中，所述目标图像数据包括所述被监控对象的当前帧图像以及所述被监控对象的当前帧图像之前的预设帧图像；第一识别模块，用于根据所述目标图像数据，得到所述被监控对象的第一异常概率分布，其中，所述第一异常概率分布用于表征所述被监控对象存在预设异常行为的概率；预警模块，用于根据所述第一异常概率分布识别所述被监控对象是否满足预设预警条件，若是，则上报所述被监控对象的预警信息。

根据本申请的再一方面，提供了一种车载终端，所述车载终端包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述的异常行为预警方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的异常行为预警方法。

本申请实施例提供的异常行为预警方法、装置、车载终端以及介质，通过车内被监控对象的包含当前帧图像的目标图像数据，得到被监控对象的第一异常概率分布，进而，根据被监控对象的第一异常概率分布识别该被监控对象是否满足预设预警条件，若是，则上报该被监控对象的预警信息，实现了对车内被监控对象异常行为的实时预警，以便于及时对被监控对象的异常行为进行制止或补救。另外，相比于直接上传车内的监控视频，有利于保护被监控对象的隐私。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的一种异常行为预警方法的流程示意图；

图2是本申请一示例性实施例提供的步骤S101的流程示意图；

图3是本申请一示例性实施例提供的步骤S102的流程示意图；

图4是本申请一示例性实施例提供的步骤S301的流程示意图；

图5是本申请一示例性实施例提供的多模声源分离模型的处理流程示意图；

图6是本申请一示例性实施例提供的多模分类模型的处理流程示意图；

图7是本申请一示例性实施例提供的一种异常行为预警装置的框图；

图8是本申请一示例性实施例提供的图像获取模块的框图；

图9是本申请一示例性实施例提供的第一识别模块的框图；

图10是本申请一示例性实施例提供的音频获取单元的框图；

图11是本申请一示例性实施例提供的车载终端的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

随着出租车或者是网约车出行的人越来越多，在出租车或者是网约车上发生违法行为如抢劫、骚扰等的案例层出不穷，已经严重威胁到人们生命财产安全。鉴于此，本申请实施例提供了一种异常行为预警方法，先获取车内被监控对象的目标图像数据，其中，目标图像数据包括所述被监控对象的当前帧图像以及被监控对象的当前帧图像之前的预设帧图像，然后根据目标图像数据，得到该被监控对象的第一异常概率分布，其中，第一异常概率分布用于表征该被监控对象存在预设异常行为的概率；进而，根据第一异常概率分布识别该被监控对象是否满足预设预警条件，若是，则上报该被监控对象的预警信息。

这样就可以实时地针对被监控对象存在的异常行为，上报预警信息，以便于及时对被监控对象的异常行为进行制止或补救，提高被监控对象在乘车过程中的安全保障。另外，相比于直接上传车内的监控视频，有利于保护被监控对象的隐私。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1是本申请一示例性实施例提供的一种异常行为预警方法的流程示意图。本实施例可应用在车载终端上，如图1所示，包括如下步骤S101至步骤S103。

步骤S101，获取车内被监控对象的目标图像数据，其中，所述目标图像数据包括所述被监控对象的当前帧图像以及所述被监控对象的当前帧图像之前的预设帧图像。

车内安装有车载摄像头，车载摄像头可以采集车内被监控对象的图像。其中，被监控对象是指车内的人员，即包括司机和/或乘客。通过车载摄像头实时采集的车内被监控对象的图像，得到被监控对象的目标图像数据。本实施例中，被监控对象的目标图像数据可以包括该被监控对象的当前帧图像，以便实现对车内被监控对象异常行为的实时检测。

在一种可选的实施方式中，除了包括当前帧图像以外，被监控对象的目标图像数据还包括被监控对象的当前帧图像之前的预设帧图像，以便于实现对持续性异常行为即需要连续多帧图像才能检测出来的异常行为的检测，从而提高检测结果的准确性。举例来讲，被监控对象的当前帧图像为车载摄像头采集到的第N帧图像，预设帧为k帧，则被监控对象的目标图像数据包括该被监控对象的第N-k帧、N-(k+1)帧、…、第N帧。其中，N为大于或等于1的整数，k为大于或等于1且小于N的整数。

本实施例中，车内被监控对象可以是一个，例如，可以将司机作为被监控对象。或者，车内被监控对象的数量也可以大于或等于2，具体根据实际需要设置。若被监控对象的数量大于或等于2，则需要分别获取每个被监控对象单独的目标图像数据。

需要说明的是，确定车内被监控对象的实施方式有多种，例如，可以根据车载摄像头采集到的当前车内的图像，将图像中的每个人即司机和每个乘客均作为车内被监控对象，从而图像中的人数即为车内被监控对象的数量。又例如，可以通过设置在车内每个座位上的传感器如压力传感器等，确定该座位上是否有人，得到车内的人数，若将车内的每个人均作为被监控对象，则被监控对象的数量即为车内的人数。

分别获取每个被监控对象单独的目标图像数据的实施方式也有多种。例如，可以针对车内的被监控对象设置对应的摄像头，该摄像头用于实时采集且仅采集该被监控对象的图像，且在存在两个以上被监控对象时，各被监控对象对应设置的摄像头的图像采集同步。这样就可以采集被监控对象单独的目标图像数据。

步骤S102，根据所述目标图像数据，得到所述被监控对象的第一异常概率分布，其中，所述第一异常概率分布用于表征所述被监控对象存在预设异常行为的概率。

将被监控对象的目标图像数据输入预先训练好的分类模型，就可以得到该被监控对象的第一异常概率分布。在一种可选的实施方式中，该分类模型可以通过获取已知标签的相应样本数据，作为训练数据，对预先构建的深度学习模型进行训练得到。

分类模型的输出可以根据预设异常行为的类别设置。举例来讲，在一种应用场景中，预设异常行为可以分为三类，分别为抢劫、辱骂和骚扰，此时，第一异常概率分布包括被监控对象存在抢劫行为的概率、被监控对象存在辱骂行为的概率、被监控对象存在骚扰行为的概率以及被监控对象无犯罪倾向的概率。需要说明的是，预设异常行为不限于上述几种类别，还可以包括其他的异常行为类别，具体根据实际应用场景设置，此处不作限制。

步骤S103，根据所述第一异常概率分布识别所述被监控对象是否满足预设预警条件，若是，则上报所述被监控对象的预警信息。

可以理解的是，若被监控对象的数量大于或等于2个，则需要针对每个被监控对象，根据该被监控对象的第一异常概率分布识别该被监控对象是否满足预设预警条件，若是，则上报该被监控对象的预警信息。举例来讲，当前车内人员有司机和坐在后排左侧的乘客1和坐在后排右侧的乘客2，则需要分别根据司机的第一异常概率分布识别司机是否满足预设预警条件，若是，则上报该司机的预警信息；根据乘客1的第一异常概率分布识别乘客1是否满足预设预警条件，若是，则上报乘客1的预警信息；根据乘客2的第一异常概率分布识别乘客1是否满足预设预警条件，若是，则上报乘客2的预警信息。

本实施例中，预设预警条件可以根据实际应用场景中的预警需求设置。若识别出被监控对象满足预设预警条件，则根据识别结果生成被监控对象的预警信息并将预警信息上报给后台服务系统，如打车平台、网约车平台或者预先设置的预警服务平台等。当然，若被监控对象不满足预设预警条件，则表示被监控对象不存在预设异常行为，结束对该被监控对象的本次检测，不进行预警。

例如，可以预先设置预警阈值，根据第一异常概率分布得到被监控对象存在预设异常行为的概率，若被监控对象存在预设异常行为的概率超过上述预警阈值，则判定被监控对象满足预警条件，上报被监控对象的预警信息，反之，则判定被监控对象不满足预警条件。

又例如，可以预先设置多个不同的预警阈值，不同预警阈值对应不同的预警级别，并为每个预警级别设置相应的预警策略，若被监控对象存在预设异常行为的概率达到任意一个预警级别，均判定被监控对象满足预设预警条件，并按照该预警级别对应的预警策略上报被监控对象的预警信息。甚至在一些应用场景中，在被监控对象存在预设异常行为的概率达到最高预警级别的情况下，车载终端可以直接进行报警处理。

作为一种实施方式，预警信息可以包括被监控对象的异常行为信息。被监控对象的异常行为信息可以包括预警的异常行为类别，如上述示例中被监控对象存在抢劫行为的概率超过预警阈值，则预警的异常行为类别为抢劫。另外，为了帮助相关人员进一步核验以及处理，被监控对象的异常行为信息还可以包括该被监控对象的目标图像数据以及音频数据。

在一种可选的实施例中，若被监控对象包括车内的司机和每个乘客，预警信息可以包括该被监控对象在车内的身份类型，以使得后台服务系统从预警信息中确定被监控对象在车内的身份类型，明确本次预警的对象是司机还是乘客，从而采取相应的救助措施。同时对司机和乘客进行异常行为检测以及实时预警，有利于同时保护乘客和司机的安全。此时，上述上报被监控对象的预警信息的实施过程可以包括：确定被监控对象在车内的身份类型，其中，身份类型为司机或乘客；上报所述被监控对象的预警信息，预警信息包括该被监控对象在车内的身份类型。

由于车内司机和乘客的位置关系是预先确定的，可以根据被监控对象在车内的位置来确定被监控对象在车内的身份类型。在一种应用场景中，对于核载人数为5人的车辆，被监控对象在车内的身份类型可以为司机、副驾驶乘客、后排左侧的乘客、后排中间乘客或后排右侧乘客。

本实施例提供的异常行为预警方法，通过获取当前车内被监控对象的第一异常概率分布来识别被监控对象是否满足预设预警条件，实时上报满足预设预警条件的监控对象的预警信息，实现了对车内被监控对象异常行为的实时预警，以便于及时对被监控对象的异常行为进行制止或补救，提高被监控对象在乘车过程中的安全保障。另外，无需上报车载摄像头采集的不涉及异常行为的图像数据，有利于保护被监控对象的隐私。

如图2所示，在上述图1所示实施例的基础上，作为一种可选的实施方式，步骤S101可包括如下步骤S201和步骤S202。

步骤S201，获取所述车内的场景图像数据，其中，所述场景图像数据包括通过车载摄像头采集的车内的当前帧图像，以及所述车内的当前帧图像之前的预设帧图像。

具体来讲，可以通过车载摄像头实时采集车内的场景图像数据。场景图像数据的每帧图像中均包含车内所有人员的图像信息。例如，以核载人数为5人的车辆为例，若当前车内有4人，包括司机和三个乘客，三个乘客分别坐在副驾驶、后排左侧座位和后排右侧座位，此时，车载摄像头实时采集的场景图像的每帧图像中均包含有司机的图像信息以及这三个乘客的图像信息。

步骤S202，基于预设的车内人员位置关系信息，对所述场景图像数据中的每帧图像进行分割处理，得到所述车内每个被监控对象的所述目标图像数据。

对于场景图像数据中包含的每一帧图像，均可以通过将该帧图像输入预先设置的实例分割模型，来实现对该帧图像中的人及背景按像素级别分割，得到该帧图像中每个被监控对象单独的图像。假设场景图像数据包括m帧图像，对这m帧图像中的每帧图像均进行上述分割处理，就可以得到每个被监控对象单独的m帧图像，即得到每个被监控对象的目标图像数据。此时，目标图像数据包括的图像与场景图像数据包括的图像一一对应，目标图像数据中每帧图像均是从场景图像数据的相应帧图像中分割出来的。

另外，由于车内司机与每个乘客的位置关系是确定的，因此，根据预设的车内人员位置关系信息，就可以进一步确定分割出来的每个被监控对象的图像是司机的图像还是乘客的图像，并且可以确定是哪一个位置的乘客的图像，如副驾驶乘客的图像、后排左侧的乘客图像或后排右侧的乘客图像等。

通过图像分割的方式从实时采集的能够涵盖车内所有人员的图像中分割出被监控对象单独的图像，有利于节约成本，且保证各个被监控对象的图像之间的同步性。并且，相比于只抽取脸部特征，上述实例分割方式能够得到被监控对象的更完整的图像信息，覆盖更多异常行为场景，有利于提高异常行为识别的准确性以及全面性，进而提高异常行为预警的准确性以及全面性。

可以理解的是，若被监控对象的数量大于或者等于2，则这些被监控对象之间就会存在语言上的交流，这些语言上的交流也能够在一定程度上反应被监控对象的异常行为，例如，辱骂、威胁或者是一些骚扰的话语。因此可以在目标图像数据的基础上，进一步融合被监控对象的音频数据，来得到被监控对象存在预设异常行为的概率。因此，如图3所示，在上述图1所示实施例的基础上，作为一种可选的实施方式，步骤S102可包括如下步骤S301和步骤S302。

步骤S301，若所述被监控对象的数量大于或者等于2，获取每个被监控对象的音频数据，其中，所述每个被监控对象的音频数据与该被监控对象的所述目标图像数据对应。

若被监控对象的数量大于或等于2，在采集上述目标图像数据的过程中，可以实时采集车内每个被监控对象的音频数据。也就是说，每个被监控对象的音频数据均是在采集该被监控对象的目标图像数据的过程中采集的，假设采集目标图像数据中的起始帧图像对应的采集时间为t1，当前帧图像对应的采集时间为t2，则相应采集每个被监控对象在t1至t2之间的时间段内的音频数据。需要说明的是，为了针对性地得到每个被监控对象存在预设异常行为的概率，上述步骤S301中，每个被监控对象的音频数据是指每个被监控对象单独的音频数据，即该被监控对象在上述t1至t2之间的时间段内发出的声音，举例来讲，假设被监控对象为4个，包括司机A和乘客B1、B2和B3，则分别获取司机A的音频数据，乘客B1的音频数据，乘客B2的音频数据，以及乘客B3的音频数据。

步骤S302，针对所述每个被监控对象，基于该被监控对象的所述目标图像数据以及音频数据，得到该被监控对象的所述第一异常概率分布。

举例来讲，被监控对象包括车内的司机和n个乘客，根据上述步骤S101可以得到司机的目标图像数据，以及每个乘客单独的目标图像数据，根据上述步骤S301可以得到司机的音频数据，以及每个乘客单独的音频数据。这样，就可以基于司机的目标图像数据和音频数据，得到司机的第一异常概率分布，并针对这n个乘客中的每个乘客，基于该乘客的目标图像数据和音频数据，得到该乘客的第一异常概率分布。

相比于单纯的图像，结合音频和图像两个层面能够提取出更多的特征，也能够覆盖更多异常行为场景，例如辱骂行为需要通过音频来识别，有利于提高异常行为识别的准确性以及全面性，进而提高异常行为预警的准确性以及全面性。

然而，在采集车内被监控对象的音频时，难以单独采集每个被监控对象的音频数据，因此，需要从实时采集的车内整体音频中分离出每个被监控对象单独的音频。如图4所示，在上述图3所示实施例的基础上，作为一种可选的实施方式，获取每个被监控对象的音频数据的实施过程可以包括如下步骤S401和步骤S402。

步骤S401，获取实时采集的所述车内的目标音频数据，其中，所述音频数据为采集所述目标图像数据的过程中采集的。

步骤S402，基于所述目标音频数据以及所述每个被监控对象的目标图像数据，从所述目标音频数据中分离出所述每个被监控对象的音频数据。

举例来讲，可以通过车内设置的录音板获取车内的实时音频。将采集上述目标图像数据过程中，实时采集的音频作为本次异常预警的目标音频数据。假设采集目标图像数据中的起始帧图像对应的采集时间为t1，当前帧图像对应的采集时间为t2，则目标音频数据为录音板在t1至t2之间的时间段内采集的音频。目标音频数据中包括一个以上被监控对象的音频，需要进一步从目标音频数据中分离出每个被监控对象单独的音频。

具体来讲，上述基于目标音频数据以及每个被监控对象的目标图像数据，从目标音频数据中分离出每个被监控对象的音频数据的实施过程可以包括：针对每个被监控对象，对该被监控对象的目标图像数据进行特征提取，得到所述目标图像数据的图像特征数据；对所述目标音频数据进行特征提取，得到第一音频特征数据；将所有所述被监控对象的所述图像特征数据和所述第一音频特征数据进行拼接，得到目标特征数据；根据所述目标特征数据，得到所述每个被监控对象的音频数据。

需要说明的是，对图像进行特征提取的方式有多种，例如，可以通过若干卷积操作实现对图像的特征提取，此处不作限制。对音频进行特征提取的方式也有多种，例如，可以通过短时傅里叶变换处理对音频进行特征提取，此处不作限制。

具体实施过程中，可以预先训练一个多模声源分离模型，该多模声源分离模型的输入为上述目标音频数据以及每个被监控对象的目标图像数据，输出为从目标音频数据中分离出来的每个被监控对象单独的音频数据。

多模声源分离模型的具体网络结构可以根据实际应用场景的需要设置。举例来讲，被监控对象包括司机和n个乘客，每个被监控对象的目标图像数据包括m帧图像，目标音频数据为s秒(摄像头帧率为m/s)，如图5所示，多模声源分离模型从目标音频数据中分离出每个被监控对象的音频数据的处理过程可以包括：

针对每个被监控对象，将该被监控对象的目标图像数据按照帧为单位通过一个预训练的图像特征抽取网络获取特征，每个被监控对象的m帧的特征图经过一系列卷积操作得到特征矩阵，即图像特征数据；目标音频数据则依次通过短时傅里叶变换和若干卷积操作得到特征矩阵，即第一音频特征数据；然后将第一音频特征数据以及每个被监控对象的图像特征数据均拼接到一起，得到目标特征数据；接下来经过多模融合层以及全连接层，就可以输出n+1个音频掩码矩阵(1个司机和n个乘客)；进而针对每个被监控对象，将该被监控对象的音频掩码矩阵与原始音频即目标音频数据经过短时傅里叶变换的结果相乘，就得到该被监控对象的音频直方图，再将该被监控对象的音频直方图通过逆短时傅里叶变换就得到该被监控对象最后分离出来的音频。

其中，多模融合层可以采用双向LSTM(Long Short-Term Memory，长短期记忆网络)、LSTM或若干卷积和池化等网络结构构建。

可以理解的是，上述多模声源分离模型中所需要的参数如各卷积操作的参数、多模融合层的参数以及全连接层的参数等可以通过训练得到。具体来讲，可以通过预先获取多组样本数据，每组样本数据包括预先选定的多个试验人员中每个人的样本图像数据以及上述多个试验人员的样本音频数据，例如，可以单独采集上述多个试验人员中每个人的样本图像数据以及音频，然后将这些音频混合起来作为上述样本音频数据。其中，样本图像数据包含的帧数与目标图像数据包含的帧数相同。这样就可以将上述多组样本数据以及每组样本数据中每个人的音频作为训练数据，对预先构建的深度学习模型进行训练得到。并且，在训练过程中，对于不同被监控对象，用于得到图像特征数据的一系列卷积操作的参数可以共享。

在图3所示实施例的基础上，作为一种可选的实施方式，上述基于该被监控对象的所述目标图像数据以及音频数据，得到该被监控对象的所述第一异常概率分布的实施过程可以包括：对该被监控对象的音频数据进行特征提取，得到该被监控对象的第二音频特征数据；将该被监控对象的图像特征数据与第二音频特征数据进行拼接，得到该被监控对象的组合特征数据；根据该被监控对象的组合特征数据，得到该被监控对象的第一异常概率分布。

在此过程中，被监控对象的图像特征数据可以复用上述从目标音频数据中分离出每个被监控对象的音频数据的过程中获取的图像特征数据。或者，也可以重新对被监控对象的目标图像数据进行特征提取得到。

具体实施过程中，可以预先训练一个多模分类模型，该多模分类模型的输入为一个被监控对象的目标图像数据以及音频数据，输出为该被监控对象的第一异常概率分布。

多模分类模型的具体网络结构可以根据实际应用场景的需要设置。举例来讲，被监控对象的目标图像数据包括m帧图像，音频数据为s秒，如图6所示，多模分类模型对某个被监控对象的目标图像数据以及音频数据的处理过程可以包括：通过预训练的图像特征抽取网络，将输入的m帧图像按帧为单位获取特征，然后经过若干卷积，得到图像特征数据；将输入的s秒音频数据通过短时傅里叶变换、若干卷积操作，得到这s秒音频的第二音频特征数据。然后将这m帧图像的图像特征数据和这s秒音频的第二音频特征数据进行拼接，得到该被监控对象的组合特征数据，组合特征数据经过多模融合层、全连接层，输出第一异常概率分布。其中，多模融合层可以采用双向LSTM、LSTM或若干卷积和池化等网络结构构建。

可以理解的是，上述多模分类模型中所需要的参数如各卷积操作的参数、多模融合层的参数以及全连接层的参数等均可以通过训练得到。具体来讲，可以通过获取已知标签的多组样本数据，作为训练数据，对预先构建的深度学习模型进行训练得到上述多模分类模型。

在上述图3所示实施例的基础上，作为一种可选的实施例，上述异常行为预警方法还可以包括：针对每个被监控对象，将该被监控对象的音频数据转化为文本信息，并根据所转化的文本信息，得到该被监控对象的第二异常概率分布。第二异常概率分布也用于表征被监控对象存在预设异常行为的概率，且第一异常概率分布用于表征的预设异常行为类别与第二异常概率分布用于表征的预设异常行为类别一致。这样就可以从音频的语义层面，也得到被监控对象存在预设异常行为的概率。

在具体实施过程中，可以预先设置训练好的语音识别模型和语义理解模型，将被监控对象的音频数据输入语音识别模型，得到被监控对象的文本信息，然后将被监控对象的文本信息输入语义理解模型，得到被监控对象的第二异常概率分布。其中，语音识别模型可以采用现有的语音识别模型，用于将音频转化为文本信息。语义理解模型的输入为被监控对象的文本信息，输出为被监控对象的第二异常概率分布，可以通过获取已知标签的文本信息作为训练数据，对预先构建的深度学习模型进行训练得到。

此时，上述步骤S102可以包括：针对每个被监控对象，根据该被监控对象的所述第一异常概率分布以及所述第二异常概率分布，识别该被监控对象是否满足所述预设预警条件，若是，则上报该被监控对象的预警信息。

举例来讲，在一种应用场景中，预设异常行为包括抢劫、辱骂和骚扰三种类别的违法犯罪行为，则第一异常概率分布和第二异常概率分布均包括被监控对象存在抢劫行为的概率、被监控对象存在辱骂行为的概率、被监控对象存在骚扰行为的概率以及被监控对象无犯罪倾向的概率。

本实施例中，可以预先根据实际需要设置异常预警策略，从而结合第一异常概率分布、第二异常概率分布以及异常预警策略，来确定被监控对象是否满足预设预警条件。作为一种实施方式，可以设置预警阈值，分别将第一异常概率分布以及第二异常概率分布分别与该预警阈值进行比较，若被监控对象的第一异常概率分布和/或第二异常概率分布中存在预设异常行为的概率超过该预警阈值，则判定该被监控对象满足预设预警条件。

其中，预警阈值可以根据实际应用场景中预设异常行为的类别设置，若预设异常行为的类别大于或等于2，则第一异常概率分布或第二异常概率分布中任一异常行为的概率超过预警阈值，则判定该被监控对象满足预设预警条件，并将该异常行为确定为预警的异常行为类别。需要说明的是，不同预设异常行为的预警阈值可以设置为相同的，或者，也可以设置为不同的，例如，若预设异常行为为违法犯罪行为，可针对违法犯罪的恶劣程度，设置不同的预警阈值，如对极为恶劣的犯罪行为预警阈值可以设置得相对较小，即极为恶劣的犯罪在较小置信度时就应该预警。

在另一种实施方式中，可以设置不同的预警级别，预警级别用于表征本次预警的紧急程度，预警级别越高，本次预警越紧急，例如，若达到最高预警级别，可以直接进行报警处理。每种预警级别对应设置一个阈值范围，若被监控对象存在预设异常行为的概率位于某阈值范围，则表示该被监控对象的预警级别为该阈值范围对应的预警级别。其中，预警级别以及相应的阈值范围可以根据实际应用场景的需要设置。

举例来讲，可以设置三种预警级别，分别为一级预警、二级预警和三级预警，一级预警对应设置的阈值范围为：大于0.8，二级预警对应设置的阈值范围为：(0.5，0.8]，三级预警对应设置的阈值范围为(0.3，0.5]。相应地，异常预警策略包括：若第一异常概率分布和第二异常概率分布中，任一分布存在预设异常行为的概率大于0.8，则判定该被监控对象满足预设预警条件，且预警级别为三级预警；若第一异常概率分布和第二异常概率分布中，任一分布存在预设异常行为的概率大于0.5且小于或等于0.8，则判定被监控对象满足预设预警条件，且预警级别为二级预警；若第一异常概率分布和第二异常概率分布中，任一分布存在预设异常行为的概率大于0.3且小于或等于0.5，则判定被监控对象满足预设预警条件，且预警级别为一级预警；若第一异常概率分布和第二异常概率分布中，存在预设异常行为的概率均小于或等于0.3，则判定被监控对象不满足预设预警条件。

当然，还可以根据需要设置其他策略，例如，若基于第一异常概率分布得到的预警级别和基于第二异常概率分布得到的预警级别不同，则取较高的预警级别，如根据第一异常概率分布得到的预警级别为三级预警，而根据第二异常概率分布得到的预警级别为二级预警，则判定该被监控对象的预警级别为三级预警；若基于第一异常概率分布得到的预警级别和基于第二异常概率分布得到的预警级别相同，则提升一级预警级别，如根据第一异常概率分布得到的预警级别为二级预警，而根据第二异常概率分布得到的预警级别也为二级预警，则判定该被监控对象的预警级别为三级预警。

举例来讲，在上述示例中，后排右侧座位的乘客的第一异常概率分布为：抢劫：0.7，辱骂：0.001，骚扰：0.001，无犯罪倾向：0.298；第二异常概率分布为：抢劫：0.95，辱骂：0.001，骚扰：0.001，无犯罪倾向：0.048。按照上述的异常预警策略示例，根据第一异常概率分布得到的预警级别为二级预警，根据第二异常概率分布得到的预警级别为三级预警，则判定该被监控对象满足预设预警条件，预警级别为三级预警，预警的异常行为类别为：抢劫，预警对象为：后排右侧座位的乘客。

此时，上报的预警信息还可以包括被监控对象的预警级别，以使得后台服务系统接收到车载终端上报的预警信息后，可以从预警信息中确定预警级别，从而根据预警级别确定本次预警的紧急程度，也就是确定对本次预警进行处理的优先级，预警级别越高，越优先处理，甚至在预警级别为最高级别时，可以直接做报警处理。

进一步地，在一种可选的实施例中，上述异常行为预警方法还可以包括：针对所述每个被监控对象，从该被监控对象的所述文本信息中提取满足预设异常条件的特征文本，其中，满足预设异常条件的特征文本为能够用于表征该被监控对象的异常行为的文本。例如，在一种应用场景中，预设异常行为为违法犯罪行为，则满足预设异常条件的特征文本可以为涉嫌违法犯罪的说话内容。特征文本可以作为被监控对象存在异常行为的有力证据，可以帮助相关人员判断存在异常行为的被监控对象的恶劣程度。

在一种实施方式中，可以预先设置关键词集合，关键词集合中包括多个能够反映预设异常行为的关键词，文本信息是由音频数据转化而来的，音频数据中被监控对象的前后语句之间会存在间隔，相应地，文本信息也会对应前后语句之间的间隔分为多条文本，可以针对文本信息包括的每条文本，对该文本进行分词处理后，将得到的分词与关键词集合中的关键词进行匹配，若存在分词与关键词集合中的任一关键词匹配，则判定该文本为满足预设异常条件的特征文本，从而实现特征文本的提取。

另一种实施方式中，可以在上述语义理解模型的基础上，添加特征文本抽取模块，用于提取满足预设异常条件的特征文本，使得语义理解模型除了输出被监控对象的第二异常概率分布以外，还可以输出满足预设异常条件的特征文本。相应地，在训练语义理解模型时，训练数据除了包括已知标签的文本信息以外，还包括文本信息中存在的满足预设异常条件的特征文本。

此时，上报的预警信息还可以包括上述满足预设异常条件的特征文本。例如，在一种应用场景中，预设异常行为为违法犯罪行为，上报的涉嫌违法犯罪的说话内容可以作为后台判断是否需要报警的参考因素之一。

在此基础上，作为一种可选的实施方式，上述步骤S101中，上报该被监控对象的预警信息的实施过程可以包括：根据该被监控对象的所述第一异常概率分布、所述第二异常概率分布以及所述特征文本，生成该被监控对象的预警信息，并将所述预警信息进行上报。此时，预警信息可以包括该被监控对象在所述车内的身份类型、该被监控对象的异常行为信息以及该被监控对象的所述特征文本。

其中，被监控对象的异常行为信息可以包括但不限于预警的异常行为类别以及该被监控对象的目标图像数据。异常行为类别可以根据第一异常概率分布以及第二异常概率分布确定，具体可以参照上文中的相关描述。被监控对象在车内的身份类型可以通过被监控对象在车内的位置确定，如可以是司机、副驾驶乘客、后排左侧的乘客、后排中间乘客或后排右侧乘客。当然，在异常预警策略设置有预警级别时，预警信息还可以包括预警级别。例如，在一种应用场景中，预警信息可以包括：预警对象：司机；异常行为信息：抢劫，司机的目标图像数据；预警级别：二级预警；特征文本：要钱还是要命。

这样后台服务系统就可以通过接收到的预警信息，及时得知预警对象是司机还是乘客，本次预警的紧急程度，预警对象存在的异常行为以及以及预警对象存在的异常行为的证据，以便于及时对本次预警进行处理，掌握预警对象的身份信息，甚至在预警级别达到最高时，可以直接进行报警处理，有利于同时保护司机和乘客的安全。

示例性装置

图7图示了根据本申请实施例的异常行为预警装置的框图。

如图7所示，本申请实施例提供的异常行为预警装置70，运行于车载终端，该异常行为预警装置70包括：

图像获取模块71，用于获取车内被监控对象的目标图像数据，其中，所述目标图像数据包括所述被监控对象的当前帧图像以及所述被监控对象的当前帧图像之前的预设帧图像；

第一识别模块72，用于根据所述目标图像数据，得到所述被监控对象的第一异常概率分布，其中，所述第一异常概率分布用于表征所述被监控对象存在预设异常行为的概率；

预警模块73，用于根据所述第一异常概率分布识别所述被监控对象是否满足预设预警条件，若是，则上报所述被监控对象的预警信息。

图8图示了本申请实施例的异常行为预警装置的图像获取模块的一个示例框图。如图8所示，在一种可选的实施例中，上述图像获取模块71包括：

获取单元810，用于获取所述车内的场景图像数据，其中，所述场景图像数据包括通过车载摄像头采集的车内的当前帧图像，以及所述车内的当前帧图像之前的预设帧图像；

分割单元820，用于基于预设的车内人员位置关系信息，对所述场景图像数据中的每帧图像进行分割处理，得到所述车内每个被监控对象的所述目标图像数据。

图9图示了本申请实施例的异常行为预警装置的第一识别模块的一个示例框图。如图9所示，在一种可选的实施例中，上述第一识别模块72包括：

音频获取单元910，用于若所述被监控对象的数量大于或者等于2，获取每个被监控对象的音频数据，其中，所述每个被监控对象的音频数据与该被监控对象的所述目标图像数据对应；

多模识别单元920，用于针对所述每个被监控对象，基于该被监控对象的所述目标图像数据以及音频数据，得到该被监控对象的所述第一异常概率分布。

图10图示了本申请实施例的异常行为预警装置的音频获取单元的一个示例框图。如图10所示，在一种可选的实施例中，上述音频获取单元910包括：

获取子单元911，用于获取实时采集的所述车内的目标音频数据，其中，所述音频数据为采集所述目标图像数据的过程中采集的；

分离子单元912，用于基于所述目标音频数据以及所述每个被监控对象的目标图像数据，从所述目标音频数据中分离出所述每个被监控对象的音频数据。

在一种可选的实施例中，上述分离子单元912用于：

针对所述每个被监控对象，对该被监控对象的目标图像数据进行特征提取，得到所述目标图像数据的图像特征数据；

对所述目标音频数据进行特征提取，得到第一音频特征数据；

将所有所述被监控对象的所述图像特征数据和所述第一音频特征数据进行拼接，得到目标特征数据；

根据所述目标特征数据，得到所述每个被监控对象的音频数据。

在一种可选的实施例中，上述多模识别单元920用于：对该被监控对象的音频数据进行特征提取，得到该被监控对象的第二音频特征数据；将该被监控对象的所述图像特征数据与所述第二音频特征数据进行拼接，得到该被监控对象的组合特征数据；根据该被监控对象的组合特征数据，得到该被监控对象的第一异常概率分布。

在一种可选的实施例中，上述异常行为预警装置70还包括：

第二识别模块，用于针对所述每个被监控对象，将该被监控对象的音频数据转化为文本信息，并根据所转化的文本信息，得到该被监控对象的第二异常概率分布。

此时，上述预警模块73用于：针对所述每个被监控对象，根据该被监控对象的所述第一异常概率分布以及所述第二异常概率分布，识别该被监控对象是否满足所述预设预警条件，若是，则上报该被监控对象的预警信息。

在一种可选的实施例中，上述异常行为预警装置70还包括：

文本提取模块，用于针对所述每个被监控对象，从该被监控对象的所述文本信息中提取满足预设异常条件的特征文本，其中，所述特征文本用于表征该被监控对象的异常行为。

此时，上述上报所述被监控对象的预警信息包括：根据该被监控对象的所述第一异常概率分布、所述第二异常概率分布以及所述特征文本，生成该被监控对象的预警信息，并将所述预警信息进行上报，其中，所述预警信息包括该被监控对象在所述车内的身份类型、该被监控对象的异常行为信息以及该被监控对象的所述特征文本。

在一种可选的实施例中，被监控对象包括车内的司机和乘客，上述上报所述被监控对象的预警信息包括：确定所述被监控对象在所述车内的身份类型，其中，所述身份类型为司机或乘客；上报所述被监控对象的预警信息，其中，所述预警信息包括该被监控对象的所述身份类型。

这里，本领域技术人员可以理解，上述异常行为预警装置70中的各个模块和单元的具体功能和操作已经在上述方法实施例的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的异常行为预警装置70可以实现在各种车载终端中。在一个示例中，根据本申请实施例的异常行为预警装置70可以作为一个软件模块和/或硬件模块而集成到车载终端中。例如，该异常行为预警装置70可以是该车载终端的操作系统中的一个软件模块，或者可以是针对于该车载终端所开发的一个应用程序；当然，该异常行为预警装置70同样可以是该车载终端的众多硬件模块之一。

示例性车载终端

图11图示了根据本申请实施例的车载终端的框图。

如图11所示，车载终端11包括一个或多个处理器111、存储器112以及网络模块113。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元如图形处理器(GPU)，并且可以控制车载终端11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文示例性方法提供的各实施例的异常行为预警方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

网络模块113用于接收以及发送网络信号，上述网络信号包括无线信号。通过网络模块113与后台服务系统建立连接，以向后台服务系统上报预警信息。

车载终端11分别与设置在车内的车载摄像头以及录音板连接，这样车载终端11就可以根据需要获取车载摄像头采集的图像以及录音板采集的音频。

当然，为了简化，图11中仅示出了该车载终端11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，车载终端11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的异常行为预警方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的异常行为预警方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。术语“多个”表示“两个以上”，即包括两个或大于两个的情况。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种异常行为预警方法，所述方法包括：

获取车内的场景图像数据，其中，所述场景图像数据包括通过车载摄像头采集的车内的当前帧图像，以及所述车内的当前帧图像之前的预设帧图像；

基于预设的车内人员位置关系信息，对所述场景图像数据中的每帧图像进行分割处理，获取车内每个被监控对象的目标图像数据，其中，所述目标图像数据包括所述被监控对象的当前帧图像以及所述被监控对象的当前帧图像之前的预设帧图像；

根据所述目标图像数据，得到所述被监控对象的第一异常概率分布，其中，所述第一异常概率分布用于表征所述被监控对象存在预设异常行为的概率；

根据所述第一异常概率分布识别所述被监控对象是否满足预设预警条件，若是，则上报所述被监控对象的预警信息；

其中，所述根据所述目标图像数据，得到所述被监控对象的第一异常概率分布，包括：

若所述被监控对象的数量大于或者等于2，获取每个被监控对象的音频数据，其中，所述每个被监控对象的音频数据与该被监控对象的所述目标图像数据对应；

针对所述每个被监控对象，基于该被监控对象的所述目标图像数据以及音频数据，得到该被监控对象的所述第一异常概率分布，包括：

对该被监控对象的音频数据进行特征提取，得到该被监控对象的第二音频特征数据；

将该被监控对象的所述图像特征数据与所述第二音频特征数据进行拼接，得到该被监控对象的组合特征数据；

根据该被监控对象的组合特征数据，得到该被监控对象的第一异常概率分布；

所述获取每个被监控对象的音频数据，包括：

获取实时采集的所述车内的目标音频数据，其中，所述音频数据为采集所述目标图像数据的过程中采集的；

基于所述目标音频数据以及所述每个被监控对象的目标图像数据，从所述目标音频数据中分离出所述每个被监控对象的音频数据，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

针对所述每个被监控对象，将该被监控对象的音频数据转化为文本信息，并根据所转化的文本信息，得到该被监控对象的第二异常概率分布；

所述根据所述第一异常概率分布识别所述被监控对象是否满足预设预警条件，若是，则上报所述被监控对象的预警信息，包括：

针对所述每个被监控对象，根据该被监控对象的所述第一异常概率分布以及所述第二异常概率分布，识别该被监控对象是否满足所述预设预警条件，若是，则上报该被监控对象的预警信息。

3.根据权利要求2所述的方法，其中，所述方法还包括：

针对所述每个被监控对象，从该被监控对象的所述文本信息中提取满足预设异常条件的特征文本，其中，所述特征文本用于表征该被监控对象的异常行为；

所述上报该被监控对象的预警信息，包括：

根据该被监控对象的所述第一异常概率分布、所述第二异常概率分布以及所述特征文本，生成该被监控对象的预警信息，并将所述预警信息进行上报，其中，所述预警信息包括该被监控对象在所述车内的身份类型、该被监控对象的异常行为信息以及该被监控对象的所述特征文本。

4.一种异常行为预警装置，所述装置包括：

获取单元，用于获取车内的场景图像数据，其中，所述场景图像数据包括通过车载摄像头采集的车内的当前帧图像，以及所述车内的当前帧图像之前的预设帧图像；

图像获取模块，用于基于预设的车内人员位置关系信息，对所述场景图像数据中的每帧图像进行分割处理，获取车内每个被监控对象的目标图像数据，其中，所述目标图像数据包括所述被监控对象的当前帧图像以及所述被监控对象的当前帧图像之前的预设帧图像；

第一识别模块，用于根据所述目标图像数据，得到所述被监控对象的第一异常概率分布，其中，所述第一异常概率分布用于表征所述被监控对象存在预设异常行为的概率；

预警模块，用于根据所述第一异常概率分布识别所述被监控对象是否满足预设预警条件，若是，则上报所述被监控对象的预警信息；

所述第一识别模块包括：

音频获取单元，用于若所述被监控对象的数量大于或者等于2，获取每个被监控对象的音频数据，其中，所述每个被监控对象的音频数据与该被监控对象的所述目标图像数据对应；

多模识别单元，用于针对所述每个被监控对象，基于该被监控对象的所述目标图像数据以及音频数据，得到该被监控对象的所述第一异常概率分布，包括：

所述音频获取单元，包括：

5.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-3任一所述的异常行为预警方法。

6.一种车载终端，所述车载终端包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-3任一所述的异常行为预警方法。