CN111063162A

CN111063162A - 静默报警方法、装置、计算机设备和存储介质

Info

Publication number: CN111063162A
Application number: CN201911234523.1A
Authority: CN
Inventors: 杜思军; 李阳; 陈涛; 高雷; 李春燕; 岳军锋
Original assignee: Evergrande New Energy Vehicle Technology Guangdong Co Ltd
Current assignee: Hengda Hengchi New Energy Automobile Technology Guangdong Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-24

Abstract

本申请涉及一种静默报警方法、装置、计算机设备和存储介质，获取监管环境的图像数据和音频数据，从图像和声音两个方面入手，采用监管环境下的多模态数据构建的场景数据训练得到的多模态识别模型，对图像数据和声音数据进行多模态识别，得到多模态识别结果，综合考虑了监管环境的实际情况，提高危险判断的准确率，且当根据多模态识别结果生成预警信息时，还结合预设的预警信息过滤方法对预警信息进行筛选，过滤可能出现的误判的预警信息，保证报警的准确率，此外，当判断出现危险情况下，采用静默报警的方式进行自动报警，保证监管环境内的人员的安全。

Description

静默报警方法、装置、计算机设备和存储介质

技术领域

本申请涉及多模态机器学习领域，特别是涉及一种静默报警方法、装置、计算机设备和存储介质。

背景技术

随着人们生活水平的提高，越来越多的家庭都拥有了自己的车辆，选择驾车出行也给人们的生活带来了诸多便利。但是由于车辆的可移动性，增加了车内人员暴露于危险情况下的可能性：从而在很多时候需要车辆能够智能的判断危险场景，并实施静默自动报警，如遭遇到歹徒在车内实施抢劫。

目前，已有学者(或技术)提出了自动报警的方法，但是，现有的自动报警方法仅是通过图像或声音实现自动报警，判断方式较为单一，容易造成误判的问题，如由手机播放的声音触发警报。

发明内容

基于此，有必要针对现有的自动报警容易出现误判的问题，提供一种更为全面准确的静默报警方法、装置、计算机设备和存储介质。

一种静默报警方法，方法包括：

获取监管环境的图像数据以及音频数据；

基于图像数据以及音频数据，采用预设多模态识别模型进行多模态识别，得到多模态识别结果，预设多模态识别模型基于监管环境下的多模态数据构建的场景数据训练得到；

当根据多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息；

获取有效的预警信息的权重之和，当权重之和超过预设阈值时，通过预设静默报警方式发送报警信号。

在其中一个实施例中，基于图像数据以及音频数据，采用预设多模态识别模型进行多模态识别包括：

基于图像数据，采用预设多模态识别模型进行图像识别，识别出图像数据中的用户数据以及危险物品；

基于音频数据，采用预设多模态识别模型进行音频检测，识别音频数据是否包含触发预警信息生成的目标数据。

在其中一个实施例中，预设多模态识别模型包括图像分类单元、动作分类单元以及物品检测定位单元；

基于图像数据，采用预设多模态识别模型进行图像识别，识别出图像数据中的用户数据以及危险物品包括：

采用图像分类单元对图像数据进行分类，识别出图像数据中的用户的年龄段和身体状态；

采用动作分类单元对图像数据进行动作检测，判断图像数据中的用户的动作是否危险；

采用物品检测定位单元对图像数据进行物品检测，识别监管环境是否存在危险物品。

在其中一个实施例中，根据多模态识别结果生成预警信息包括：

当多模态识别结果包含下述至少一项时，生成预警信息；

第一项，识别出监管环境存在危险物品；

第二项，识别出用户的动作为危险动作；

第三项，识别音频数据包含触发预警信息生成的目标数据。

在其中一个实施例中，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息包括：

当识别出音频数据出现预设关键词，生成预警信息时，对音频数据进行声纹识别；

当声纹识别出用户的声音为成年人声音而用户的年龄段识别结果为儿童时，则过滤对应的预警信息。

在其中一个实施例中，通过预设静默报警方式发送报警信号之后，还包括：

当接收到取消报警请求时，则解除报警信号。

一种静默报警装置，装置包括：

数据获取模块，用于获取监管环境的图像数据以及音频数据；

多模态识别模块，用于基于图像数据以及音频数据，采用预设多模态识别模型进行多模态识别，得到多模态识别结果，多模态识别模型基于监管环境下的多模态数据构建的场景数据训练得到；

预警信息过滤模块，用于当根据多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息；

静默报警模块，用于获取有效的预警信息的权重之和，当权重之和超过预设阈值时，通过预设静默报警方式发送报警信号。

在其中一个实施例中，装置还包括：

报警解除模块，用于当接收到取消报警请求时，则解除报警信号，取消报警请求由用户在报警信号发送之后的预设时间内发送。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取监管环境的图像数据以及音频数据；

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取监管环境的图像数据以及音频数据；

上述静默报警方法、装置、计算机设备和存储介质，获取监管环境的图像数据和音频数据，从图像和声音两个方面入手，采用监管环境下的多模态数据构建的场景数据训练得到的多模态识别模型，对图像数据和声音数据进行多模态识别，得到多模态识别结果，综合考虑了监管环境的实际情况，提高危险判断的准确率，且当根据多模态识别结果生成预警信息时，还结合预设的预警信息过滤方法对预警信息进行筛选，过滤可能出现的误判的预警信息，保证报警的准确率，此外，当判断出现危险情况下，采用静默报警的方式进行自动报警，保证监管环境内的人员的安全。

附图说明

图1为一个实施例中静默报警方法的应用环境图；

图2为一个实施例中静默报警方法的流程示意图；

图3为另一个实施例中静默报警方法的详细流程示意图；

图4为一个实施例中静默报警方法中图像识别步骤的流程示意图；

图5为一个实施例中静默报警装置的结构框图；

图6为另一个实施例中静默报警装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的静默报警方法，可以应用于如图1所示的应用环境中。监管环境以车辆为例，车辆内设置有多个麦克风以及多个摄像头，用于采集车辆的图像数据以及音频数据，其中摄像头采用固定分区的方式分别采集相应驾乘位的图像。可以是当车辆开始发动时或有车门关闭时，触发摄像头和麦克风的开机，摄像头和麦克风开始采集车辆内的图像数据以及音频数据，并将图像数据和音频数据实时发送至车辆内的处理器中，处理器获取图像数据以及音频数据，基于图像数据以及音频数据，采用预设多模态识别模型(预设多模态识别模型基于车辆下的多模态数据构建的场景数据训练得到)进行多模态识别，得到多模态识别结果，当根据多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息，获取有效的预警信息的权重之和，当权重之和超过预设阈值时，则通过预设静默报警方式发送报警信号，以便接警平台及时出警救助。其中，该静默报警的方式是驾乘人员预先知晓或自定义的方式。为便于更清楚的解释说明本申请提供的静默报警方法，下面监管环境将以车辆为例进行说明。

在其中一个实施例中，如图2所示，提供了一种静默报警方法，以该方法应用于图1中的处理器为例进行说明，包括以下步骤：

步骤S200，获取监管环境的图像数据以及音频数据。

监管环境即为有安防需求的环境或特定场所。本实施例中，监管环境以车辆为例，车辆安装有摄像头和麦克风，用于采集各驾乘座位的图像数据和车辆内的音频数据。具体的，可以是当车辆开始发动时或有车门关闭时，便触发摄像头和麦克风的开机，摄像头和麦克风开始采集车辆内的图像数据以及音频数据，并将图像数据和音频数据实时发送至车辆内的处理器，处理器获取该图像数据和音频数据。图像数据可以是采集的连续的视频数据也可以是有时间间隔的连续拍照得到的图片数据。可以理解的是，在其他实施例中，图像数据和音频数据的采集的触发方式也可以是当有驾乘人员进入车内，车内的压力传感器有相应的数据输出时触发，还可以是当检测到有安全带扣紧时触发。

步骤S400，基于图像数据以及音频数据，采用预设多模态识别模型进行多模态识别，得到多模态识别结果，预设多模态识别模型基于监管环境下的多模态数据构建的场景数据训练得到。

多模态识别模型是一种多模态神经网络，对于每一种模态数据都有一个独立结构的多层子神经网络与之对应，其可用于将多个异构模态数据转换成同一模态并提取出多种数据模态的融合特征。本实施例中的多模态识别模型是基于车辆的历史图像数据和历史音频数据构建的场景数据训练构建的。在获取到图像数据和音频数据后，可以是先对图像数据进行随机剪切，拉伸，调整亮度，锐度等处理，对音频数据进行增加噪音即特征提取等处理，然后，将处理后的图像数据和音频数据输入至多模态识别模型中，利用模型对车辆进行多模态识别，例如，包括通过图像数据定位出车内所有的驾乘人员、采用图像分类确认驾乘人员的基本信息以及采用动作分类技术对驾乘人员的危险动作进行识别等等，还包括通过音频数据识别车内人员对话内容，识别是否出现威胁性词汇等，得到多模态识别结果。具体的，可对图像数据进行人脸检测，检测出车内所有人员的脸部图像，再将脸部图像做出合理放大，确认驾乘人员的年龄段等。

步骤S600，当根据多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息。

如上述实施例所述，根据多模态识别结果，可检测车辆内的驾乘人的动作是否为危险动作，如发生殴打行为或抢夺方向盘等动作，以及是否出现敏感语言如“救命”“抢劫”等等，当检测出上述动作或语言时，则表明车内可能发生危险情况，满足预警触发条件，可根据预警触发条件的不同，生成不同类型的预警信息，如针对危险动作生成动作预警信息，针对出现敏感词汇生成语音预警信息，针对检测出危险物品，生成危险品预警信息。为了防止因为错误报警或识别结果有误而导致接警部门出警的重大失误的出现，本实施例中，可结合预先设置好的预警信息过滤方法以及得到的多模态识别结果进行过滤，筛选出有效的预警信息。其中，预警信息过滤方法可以是基于公知常识以及相互矛盾的多模态识别结果设定。

在其中一个实施例中，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息包括：当识别出音频数据出现预设关键词，生成预警信息时，对音频数据进行声纹识别；当声纹识别出用户的声音为成年人声音而用户的年龄段识别结果为儿童时，则过滤对应的预警信息。

在实际应用中，可结合实际情况与人们生活的一些常识对预警信息进行筛选。可以是当生成预警信息时，识别预警信息生成的来源，结合预警来源和多模态识别结果进行筛选判断。例如，当识别出音频数据中出现预设关键词时，生成语音预警信息时，由多麦克风音源定位技术定位出声音的来源哪个座位，对音频数据进行声纹识别，识别出说话者的年龄段和性别，然后再根据识别出的座位信息查找对应的驾乘人员的图像信息，通过对图像信息进行年龄段分类判断，结合年龄段识别结果和声纹识别结果进行筛选，例如，当声纹识别出副驾上的说话者的年龄段为儿童，而多模态识别结果识别出年龄段为成人时，则表明识别结果出现误判，过滤该语音预警信息，又例如，当识别出驾乘人发生殴打行为时，生成对应的动作预警信息时，进一步识别出殴打者为儿童或老人，而被殴打者为健壮的成人时，则认为车内场景不构成危险场景，过滤该动作预警信息。可以理解的是，在其他实施例中，预警信息过滤方法还可以根据其他情况进行设定，在此不做限定。本实施例中，通过使用预警信息过滤方法避免了因出现误判或在不构成危险场景的情况而意外报警的问题发生，也保证了静默报警方法的严谨性。

步骤S800，获取有效的预警信息的权重之和，当权重之和超过预设阈值时，通过预设静默报警方式发送报警信号。

本实施例中，不同类型的预警信息对应设置有不同的权重。当筛选出有效的预警信息后，根据预警信息的类型对应的权重，对有效的预警信息进行加权求和，计算出权重之和，根据权重之和判断是否需要静默报警。其中，权重的大小可与危险等级或危险系数呈正相关，则权重之和数值越大，则表明危险等级越高，情形越危急，需要立即启动静默报警。具体的，可以是将权重之和与预设的报警阈值进行比较，当权重之和大于预设的报警阈值时，则以预设的静默方式发送报警信号。报警方式可以是车辆内的系统自动拨打110报警电话和/或120急救电话并发送求救短信，并将当前车辆所在位置、车辆信息以及识别出的人脸数量即车内人数等数据发送至接警部门和医院，同时，还可将车内的实时图像数据和音频数据发送至接警部门和医院的平台。静默报警的方式是由驾乘人员自定义的，只有定义该静默报警方式的驾乘人员知晓报警方式，具体的，可以是车辆指示灯特定闪烁或者雨刷器摆动等方式。

上述静默报警方法，获取监管环境的图像数据和音频数据，从图像和声音两个方面入手，由监管环境下的多模态数据构建的场景数据训练得到的多模态识别模型，对图像数据和声音数据进行多模态识别，得到多模态识别结果，综合考虑了监管环境的实际情况，提高危险判断的准确率，且当根据多模态识别结果生成预警信息时，还结合预设的预警信息过滤方法对预警信息进行筛选，过滤可能出现的误判的预警信息，保证报警的准确率，此外，当判断出现危险情况下，采用静默报警的方式进行自动报警，保证监管环境内的人员的安全。

在其中一个实施例中，如图3所示，基于图像数据以及音频数据，采用预设多模态识别模型进行多模态识别包括：步骤S420，基于图像数据，采用预设多模态识别模型进行图像识别，识别出图像数据中的用户数据以及危险物品，基于音频数据，采用预设多模态识别模型进行音频检测，识别音频数据是否包含触发预警信息生成的目标数据。

由于多模态识别模型是基于不同类型的场景数据构建的，包含多层图像处理相关的子神经网络，因此，其可根据车辆内多模态的场景进行综合判断，识别出是否存在危险情况。具体的，可以包括将采集的车内各座位如主驾驶位、副驾驶位及后排座位的连续的视频数据输入至预设的多模态识别模型，模型对输入的图像数据进行相应的图像处理如图像分类、动作分类以及物品检测定位等，识别出图像数据中包含的危险物品如刀具以及用户数据如用户的性别及年龄等数据，将麦克风收录的音频数据进行模数转换，然后，对转换后的音频数据进行音频检测，检测是否包含触发预警信息生成的目标数据。具体的，音频检测可包括声音事件检测以及语音信息检测。进一步的，可包括对音频数据进行特征提取，根据提取出的特征结果输出文本信息，采用预设的关键词识别方法将文本信息与预设的词汇集进行比较，识别文本信息中的关键词，若文本信息中多次出现预设关键词如“把钱交出来”、“抢劫”以及“救命”，或对音频数据进行声音事件检测，识别音频数据中的危险性声音如枪声、猛烈的撞击声等，或对音频数据进行语句意图识别，当识别出语句意图为求救或威胁他人的人身财产安全对他人不利时，则判断车内存在危险情况，生成预警信息。其中，预设的关键词识别方法可以是采用对转换出的文本数据进行逐字搜索的较为简单的方式进行识别，也可以采用较为复杂的如基于机器学习的关键词识别方法，意图识别可采用深度学习中的BERT模型或是ERNIE模型等处理，声音事件检测可以是基于Sound Event Detection技术实现，采用的识别出危险性声音的声音事件模型可以是CRNN，GWRP模型等。本实施例中，还提供一种由用户自行定义关键词以及关键词其代表的特殊含义实现暗语报警的方式，以便用户在遇到危险时，可以在犯罪嫌疑人不知情的情况下，通过暗语报警的方式及时求救，提高沟通效率保证人身安全。例如，用户可事先设置暗语数据表，暗语数据表内包括关键语句与其对应的特殊含义文本信息(暗语文本)，密码如关键语句“密码是XXXXX1，哦，不对，是123456，饶命！”设置其对应的特殊含义是“快报警，犯罪嫌疑人有1人”；语句“密码是XXXXX2，哦，不对，是123456，饶命！”其对应的暗语“快报警，犯罪嫌疑人有2人”，以及“密码是XXXX02，哦，不对，是123456，饶命，我生病了！”其对应的暗语是“快报警，犯罪嫌疑人有2人，持械，我受伤了”等等。当通过语音识别识别出用户说出了暗语数据表中的预设的关键语句时，则将识别出的关键句通过文字匹配，从暗语数据表中匹配出对应的暗语文本如“快报警，犯罪嫌疑人有1人”，生成语音预警信息，进一步的，可将匹配出的语音文本以短信的方式发送至接警平台。可以理解的是，关键句及暗语对应关系的设置由用户自行设置，不同的用户设置的内容不同，上述对音频数据进行音频检测，识别是否包含触发预警信息生成的目标数据的方式还有多种，在此不做限定。本实施例中，通过多模态识别模型对监管环境的图像数据和音频数据，进行多模态识别，能够智能综合监管环境内的数据进行危险场景识别，保证识别准确率的同时，还能提高呼救人员的报警效率，为其人身安全多添一份保障。

在其中一个实施例中，如图4所示，预设多模态识别模型包括图像分类单元、动作分类单元以及物品检测定位单元；

步骤S422，采用图像分类单元对图像数据进行分类，识别出图像数据中的用户的年龄段和身体状态；

步骤S424，采用动作分类单元对图像数据进行动作检测，判断图像数据中的用户的动作是否危险；

步骤S426，采用物品检测定位单元对图像数据进行物品检测，识别监管环境是否存在危险物品。

本实施例中，图像分类单元可以是深度学习模型中的人脸检测模型，如deepface，MTCNN等模型，动作分类单元可以是Non-local Neural Networks模型等，物品检测定位单元可以是YOLO或Mask-RCNN模型等。具体的，模型构建过程可以是：先获取公开的图像分类模型，再采集相应的带标签数据(不同年龄，性别，身体状态及动作的驾乘人员的图像，及相应的标签)对图像分类模型进行训练，在预训练完成的模型基础上使用最终目标场景所对应的数据继续训练，得到训练好的图像分类模型。具体的，可以使用MTCNN等提取脸部图像，再使用SENet等分类模型判断出脸部对应的性别，年龄段，其中，性别分为男性、女性以及无法识别的性别，年龄段分为儿童、青少年、成人以及老年人等；由于在车内，人员的位置/姿态相对固定，所以可使用YOLO，Mask-RCNN模型来提取身体部分图片，对于强壮或瘦弱的分类，身体的肩膀/手臂/躯干的大小会有明显区别，以此识别出身体状态如健壮和瘦弱，同样，身体状态的识别可以用分类模型进行判断；动作分类可采用Non-local NeuralNetworks模型，训练数据由车内驾乘人员的各种动作(危险及不危险)视频数据及相应标签组成，具体包括，采集车内连续画面(可通过以一定时间间隔截取车内监控视频帧获得，也可以直接设定摄像头以一定时间间隔连续拍照)，可以先基于图像数据利用较简单的模型判断当前动作是否为正常驾驶动作(如直接比较前后两帧图像是否相差过大)，若相差太大，则否启动相对复杂的模型(如Non-local Neural Networks模型)进行进一步判断；可以理解的是，在其他实施例中，也可以直接使用复杂模型进行判断；危险物品检测定位可以采用YOLO模型进行定位，具体的，训练数据可以是包含危险物品的(车内)图像，危险物品如刀具、雷管以及枪具等，可以由定位模型YOLO的输出结果即定位框在图像中的位置进行判断，表现为图片中的一个矩形定位框将所检测到的危险物品框出，由于摄像头是固定的，可以根据定位框在图像中距离各个座位(图像中位置固定)的距离，判断出定位出的危险物品是处于那个座位的附近，进而还可推测出检测到的危险物品属于哪个驾乘人员。本实施例中，分别采用模型中的图像处理单元，识别出危险物品、用户的年龄段和身体状态以及危险动作，能够从多方面识别危险场景，为是否发送报警信息提供较为全面且准确的参考依据。

在其中一个实施例中，根据多模态识别结果生成预警信息包括：当多模态识别结果包含下述至少一项时，生成预警信息；第一项，识别出监管环境存在危险物品；第二项，识别出用户的动作为危险动作；第三项，识别音频数据包含触发预警信息生成的目标数据。

如前述实施例所述，当基于车内的图像数据以及音频数据识别出车内包含危险物品如刀具、雷管以及枪具等，便对应生成危险品预警信息；当识别出用户的动作为危险动作如抢夺方向盘、殴打以及驾驶员双手脱离方向盘等动作时，则对应生成动作预警信息；当识别出音频数据中出现预设的关键词如“救命”、“抢劫了”以及“把钱交出来”等词汇时，或识别出求救性或威胁性意图的语句时，或识别出枪声和爆炸声时，或识别出用户设置的触发暗语报警的关键句等目标数据时，则对应生成语音预警信息。本实施例中，从声音和图像两个方面综合考虑，生成预警信息，提高危险场景识别的可靠性。

在其中一个实施例中，如图3所示，通过预设静默报警方式发送报警信号之后，还包括：步骤S900，当接收到取消报警请求时，则解除报警信号。

在实际应用中，为提高静默报警的完善度，驾乘人员可以在预设时间内取消报警。具体的，即报警信号发送之后的预设时间段如10秒内，可以主动取消报警。如驾乘人员看到指示灯以连续闪烁5次的形式发送报警信号后，而此处并非是危险情况无需报警，驾乘人员可立即选择一键取消报警，当用户选择“取消报警”功能按钮后，则会生成取消报警请求，当接收取消报警请求时，则解除报警信号，若超过10秒，仍未接收到取消报警请求，则继续发送报警信号，以便接警部门及时出警。本实施例中，通过提供主动取消报警的方式，能有效避免警力资源的浪费和因错误判断危险场景而误发报警信号的现象发生。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图5所示，提供了一种静默报警装置，包括：数据获取模块510、多模态识别模块520、预警信息过滤模块530和静默报警模块540，其中：

数据获取模块510，用于获取监管环境的图像数据以及音频数据。

多模态识别模块520，用于基于图像数据以及音频数据，采用预设多模态识别模型进行多模态识别，得到多模态识别结果，多模态识别模型基于监管环境下的多模态数据构建的场景数据训练得到。

预警信息过滤模块530，用于当根据多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息。

静默报警模块540，用于获取有效的预警信息的权重之和，当权重之和超过预设阈值时，通过预设静默报警方式发送报警信号。

在其中一个实施例中，多模态识别模块520还用于基于图像数据，采用预设多模态识别模型进行图像识别，识别出图像数据中的用户数据以及危险物品，基于音频数据，采用预设多模态识别模型进行音频检测，识别音频数据是否包含触发预警信息生成的目标数据。

在其中一个实施例中，多模态识别模块520还用于采用图像分类单元对图像数据进行分类，识别出图像数据中的用户的年龄段和身体状态，采用动作分类单元对图像数据进行动作检测，判断图像数据中的用户的动作是否危险，采用物品检测定位单元对图像数据进行物品检测，识别监管环境是否存在危险物品。

如图6所示，在其中一个实施例中，静默报警装置还包括预警信息生成模块525，用于当多模态识别结果包含下述至少一项时，生成预警信息，第一项，识别出监管环境存在危险物品；第二项，识别出用户的动作为危险动作；第三项，识别音频数据包含触发预警信息生成的目标数据。

在其中一个实施例中，预警信息过滤模块540还用于当识别出音频数据出现预设关键词，生成预警信息时，对音频数据进行声纹识别，当声纹识别出用户的声音为成年人声音而用户的年龄段识别结果为儿童时，则过滤对应的预警信息。

如图6所示，在其中一个实施例中，静默报警装置还包括报警解除模块550，用于当接收到取消报警请求时，则解除报警信号。

关于静默报警装置的具体限定可以参见上文中对于静默报警方法的限定，在此不再赘述。上述静默报警装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种静默报警方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术用户可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取监管环境的图像数据以及音频数据，基于图像数据以及音频数据，采用预设多模态识别模型进行多模态识别，得到多模态识别结果，预设多模态识别模型基于监管环境下的多模态数据构建的场景数据训练得到，当根据多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息，获取有效的预警信息的权重之和，当权重之和超过预设阈值时，通过预设静默报警方式发送报警信号。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：基于图像数据，采用预设多模态识别模型进行图像识别，识别出图像数据中的用户数据以及危险物品，基于音频数据，采用预设多模态识别模型进行音频检测，识别音频数据是否包含触发预警信息生成的目标数据。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：采用图像分类单元对图像数据进行分类，识别出图像数据中的用户的年龄段和身体状态，采用动作分类单元对图像数据进行动作检测，判断图像数据中的用户的动作是否危险，采用物品检测定位单元对图像数据进行物品检测，识别监管环境是否存在危险物品。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：当多模态识别结果包含下述至少一项时，生成预警信息，第一项，识别出监管环境存在危险物品；第二项，识别出用户的动作为危险动作；第三项，识别音频数据包含触发预警信息生成的目标数据。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：当识别出音频数据出现预设关键词，生成预警信息时，对音频数据进行声纹识别，当声纹识别出用户的声音为成年人声音而用户的年龄段识别结果为儿童时，则过滤对应的预警信息。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：当接收到取消报警请求时，则解除报警信号。

在其中一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取监管环境的图像数据以及音频数据，基于图像数据以及音频数据，采用预设多模态识别模型进行多模态识别，得到多模态识别结果，预设多模态识别模型基于监管环境下的多模态数据构建的场景数据训练得到，当根据多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及多模态识别结果识别预警信息中有效的预警信息，获取有效的预警信息的权重之和，当权重之和超过预设阈值时，通过预设静默报警方式发送报警信号。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于图像数据，采用预设多模态识别模型进行图像识别，识别出图像数据中的用户数据以及危险物品，基于音频数据，采用预设多模态识别模型进行音频检测，识别音频数据是否包含触发预警信息生成的目标数据。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：采用图像分类单元对图像数据进行分类，识别出图像数据中的用户的年龄段和身体状态，采用动作分类单元对图像数据进行动作检测，判断图像数据中的用户的动作是否危险，采用物品检测定位单元对图像数据进行物品检测，识别监管环境是否存在危险物品。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当多模态识别结果包含下述至少一项时，生成预警信息，第一项，识别出监管环境存在危险物品；第二项，识别出用户的动作为危险动作；第三项，识别音频数据包含触发预警信息生成的目标数据。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当识别出音频数据出现预设关键词，生成预警信息时，对音频数据进行声纹识别，当声纹识别出用户的声音为成年人声音而用户的年龄段识别结果为儿童时，则过滤对应的预警信息。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：当接收到取消报警请求时，则解除报警信号。

本领域普通技术用户可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术用户来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种静默报警方法，所述方法包括：

获取监管环境的图像数据以及音频数据；

基于所述图像数据以及所述音频数据，采用预设多模态识别模型进行多模态识别，得到多模态识别结果，所述预设多模态识别模型基于所述监管环境下的多模态数据构建的场景数据训练得到；

当根据所述多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及所述多模态识别结果识别所述预警信息中有效的预警信息；

获取有效的预警信息的权重之和，当所述权重之和超过预设阈值时，通过预设静默报警方式发送报警信号。

2.根据权利要求1所述的静默报警方法，其特征在于，所述基于所述图像数据以及所述音频数据，采用预设多模态识别模型进行多模态识别包括：

基于所述图像数据，采用所述预设多模态识别模型进行图像识别，识别出所述图像数据中的用户数据以及危险物品；

基于所述音频数据，采用所述预设多模态识别模型进行音频检测，识别所述音频数据是否包含触发生成预警信息的目标数据。

3.根据权利要求2所述的静默报警方法，其特征在于，所述预设多模态识别模型包括图像分类单元、动作分类单元以及物品检测定位单元；

所述基于所述图像数据，采用预设多模态识别模型进行图像识别，识别出所述图像数据中的用户数据以及危险物品包括：

采用所述图像分类单元对所述图像数据进行分类，识别出所述图像数据中的用户的年龄段和身体状态；

采用所述动作分类单元对所述图像数据进行动作检测，判断所述图像数据中的用户的动作是否危险；

采用所述物品检测定位单元对所述图像数据进行物品检测，识别所述监管环境是否存在危险物品。

4.根据权利要求1所述的静默报警方法，其特征在于，根据所述多模态识别结果生成预警信息包括：

当所述多模态识别结果包含下述至少一项时，生成预警信息；

第一项，识别出所述监管环境存在危险物品；

第二项，识别出所述用户的动作为危险动作；

第三项，识别所述音频数据出现预设关键词。

5.根据权利要求4所述的静默报警方法，其特征在于，所述结合预设的预警信息过滤方法以及所述多模态识别结果识别所述预警信息中有效的预警信息包括：

当识别出音频数据出现预设关键词，生成预警信息时，对所述音频数据进行声纹识别；

当声纹识别出用户的声音为成年人声音而用户的年龄段识别结果又为儿童时，则过滤对应的预警信息。

6.根据权利要求1所述的静默报警方法，其特征在于，所述通过预设静默报警方式发送报警信号之后，还包括：

当接收到取消报警请求时，则解除所述报警信号。

7.一种静默报警装置，其特征在于，所述装置包括：

多模态识别模块，用于基于所述图像数据以及所述音频数据，采用预设多模态识别模型进行多模态识别，得到多模态识别结果，所述多模态识别模型基于所述监管环境下的多模态数据构建的场景数据训练得到；

预警信息过滤模块，用于当根据所述多模态识别结果生成预警信息时，结合预设的预警信息过滤方法以及所述多模态识别结果识别所述预警信息中有效的预警信息；

静默报警模块，用于获取有效的预警信息的权重之和，当所述权重之和超过预设阈值时，通过预设静默报警方式发送报警信号。

8.根据权利要求7所述的静默报警装置，其特征在于，所述装置还包括：

报警解除模块，用于当接收到取消报警请求时，则解除所述报警信号。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。