CN113345210B

CN113345210B - 一种基于音视频智能判断呼救的方法及装置

Info

Publication number: CN113345210B
Application number: CN202110620172.9A
Authority: CN
Inventors: 李明; 居然; 储黄瑞; 程铭; 潘悦然; 邓奇
Original assignee: Duke Kunshan University; Kone Elevators Co Ltd
Current assignee: Duke Kunshan University; Kone Elevators Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-12-30
Anticipated expiration: 2041-06-03
Also published as: CN113345210A

Abstract

本发明公开了一种基于音视频智能判断呼救的方法及装置，所述方法包括：采集环境中的实景视频信息和实景音频信息；获取所述实景音频信息中的实景语音信息，判断所述实景语音信息与预存的呼救指令集是否匹配；当结果匹配时，将所述实景视频信息和实景音频信息输入音视频联合判断网络进行判断，生成判断结果，所述判断结果包括真呼救和伪呼救；当所述判断结果为真呼救时，向救援系统发送呼救信息。所述装置使用了所述方法。本发明一方面避免了因实体按键损坏而导致的延误救援的情况发生；另一方面增加了二次呼救确认的步骤，提高了可靠性。

Description

一种基于音视频智能判断呼救的方法及装置

技术领域

本发明涉及设备安全技术领域，尤其涉及一种基于音视频智能判断呼救的方法及装置。

背景技术

现有的安全呼救系统应用范围广泛，包括电梯、冰库、电箱等使用场景，通常情况下，现有的安全呼救方案可分为两类：

第一类通过使用硬件呼救设施。利用诸如电梯呼救按钮，电箱内部电话专线实现呼救的目的，此类技术可确保一般情况下，遇险人员能实时可靠的向外界呼救。然而在硬件呼救面板损坏，或遇险人员受伤、主观无法触控按键的情况下，可能严重延缓救援，酿成不可挽回的后果。

第二类通过使用语音呼救装置。虽然语音识别技术得到进步，但是，由于语音呼救容易受环境噪声的影响，鲁棒性比较差，一般的语音识别技术很难适应各种监控环境，造成智能化不高、实时性不强、误报率较高等问题。

发明内容

为克服现有技术中呼救方案可靠性较低、无法适应多种应用场景的问题，本发明实施例一方面提供了一种基于音视频智能判断呼救的方法，包括：

采集环境中的实景视频信息和实景音频信息；

获取所述实景音频信息中的实景语音信息，判断所述实景语音信息与预存的呼救指令集是否匹配；

当结果匹配时，将所述实景视频信息和实景音频信息输入音视频联合判断网络进行判断，生成判断结果，所述判断结果包括真呼救和伪呼救；

当所述判断结果为真呼救时，向救援系统发送呼救信息。

进一步，上述所述采集环境中的视频信息和音频信息的步骤之前，还包括：

建立剧本环境场景；

采集剧本环境场景中的剧本视频信息和剧本音频信息，所述视频信息包括人物表情、人物动作和环境变化，所述音频信息包括呼救语音、瞬时噪声和连续噪声；

获取剧本视频信息中的剧本视频特征，

获取剧本音频信息中的剧本音频特征；

根据剧本视频特征和剧本音频特征，生成剧本特征；

对所述剧本特征进行归类，生成真呼救数据库和伪呼救数据库，通过真呼救数据库和伪呼救数据库对音视频联合判断网络进行训练；

所述将所述实景视频信息和实景音频信息输入音视频联合判断网络进行判断，生成判断结果，所述判断结果包括真呼救和伪呼救的判断步骤，具体包括：

获取实景视频信息中的实景视频特征；

获取实景音频信息中的实景音频特征；

根据实景视频特征和实景音频特征，生成实景特征；

当所述实景特征和真呼救数据库中的剧本特征匹配时，生成真呼救的判断结果。

进一步，上述所述视频特征的获取方法基于C3D或Densenet视频特征提取方法，所述音频特征的获取方法为MFCC和ResNet18声音特征提取方法，所述当所述实景特征和真呼救数据库中的剧本特征匹配时，生成真呼救的判断结果的步骤，包括：

将实景视频特征和剧本视频特征进行比对，生成第一比对结果；

将实景音频特征和剧本音频特征进行比对，生成第二比对结果；

根据第一比对结果和第二比对结果，确定实景特征和真呼救数据库中的剧本特征是否匹配。

进一步，上述确定与所述实景特征匹配度最高的剧本特征，获取对应剧本特征的类别标签；

获取关键设备的运行状态信息；

根据所述类别标签和运行状态信息，播放对应的救援引导语音，并向对应的救援系统发送呼救信息，所述呼救信息至少包括地址信息、时间信息、实景视频信息或所述运行状态信息之一。

进一步，上述所述获取所述实景音频信息中的实景语音信息，判断所述实景语音信息与预存的呼救指令集是否匹配的步骤之后，还包括：

确定所述呼救指令集中，与所述实景语音信息匹配度最高的呼救指令，获取所述呼救指令的优先级；

获取环境中所述呼救指令的总持续时间和所述实景音频信息的最高分贝值；

根据所述呼救指令的优先级、所述总持续时间和最高分贝值，判断实景语音信息是否匹配。

本发明实施例另一方面提供了一种基于音视频智能判断呼救的装置，包括：

第一采集模块，用于采集环境中的实景视频信息和实景音频信息；

第一判断模块，用于获取所述实景音频信息中的实景语音信息，判断所述实景语音信息与预存的呼救指令集是否匹配；

第一生成模块，用于当结果匹配时，将所述实景视频信息和实景音频信息输入音视频联合判断网络进行判断，生成判断结果，所述判断结果包括真呼救和伪呼救；

发送模块，用于当所述判断结果为真呼救时，向救援系统发送呼救信息。

进一步，上述装置还包括：

第二采集模块，用于采集剧本环境场景中的剧本视频信息和剧本音频信息，所述视频信息包括人物表情、人物动作和环境变化，所述音频信息包括呼救语音、瞬时噪声和连续噪声；

第一获取模块，用于获取剧本视频信息中的剧本视频特征，

第二获取模块，用于获取剧本音频信息中的剧本音频特征；

第二生成模块，用于根据剧本视频特征和剧本音频特征，生成剧本特征；

第三生成模块，用于对所述剧本特征进行归类，生成真呼救数据库和伪呼救数据库，通过真呼救数据库和伪呼救数据库对音视频联合判断网络进行训练；

所述第一生成模块，包括：

第一获取单元，用于获取实景视频信息中的实景视频特征；

第二获取单元，用于获取实景音频信息中的实景音频特征；

第一生成单元，用于根据实景视频特征和实景音频特征，生成实景特征；

第二生成单元，用于当所述实景特征和真呼救数据库中的剧本特征匹配时，生成真呼救的判断结果。

进一步，上述所述视频特征的获取方法基于C3D或Densenet视频特征提取方法，所述音频特征的获取方法为MFCC和ResNet18声音特征提取方法，所述第二生成单元，包括：

第一比较子单元，用于将实景视频特征和剧本视频特征进行比对，生成第一比对结果；

第二比较子单元，用于将实景音频特征和剧本音频特征进行比对，生成第二比对结果；

第一确定子单元，用于根据第一比对结果和第二比对结果，确定实景特征和真呼救数据库中的剧本特征是否匹配。

进一步，上述所述发送模块，包括：

第三获取单元，用于确定与所述实景特征匹配度最高的剧本特征，获取对应剧本特征的类别标签；

第四获取单元，用于获取关键设备的运行状态信息；

发送单元，用于根据所述类别标签和运行状态信息，播放对应的救援引导语音，并向对应的救援系统发送呼救信息，所述呼救信息至少包括地址信息、时间信息、实景视频信息或所述运行状态信息之一。

进一步，上述装置还包括：

第三获取模块，用于确定所述呼救指令集中，与所述实景语音信息匹配度最高的呼救指令，获取所述呼救指令的优先级；

第四获取模块，用于获取环境中所述呼救指令的总持续时间和所述实景音频信息的最高分贝值；

第二判断模块，用于根据所述呼救指令、所述总持续时间和最高分贝值的加权，判断实景语音信息是否匹配。

本发明实施例通过采集环境中的实景音频信息，并判断实景音频信息中的实景语音信息和预存的呼救指令集是否匹配，当匹配时，将所述实景视频信息和实景音频信息输入音视频联合判断网络进行判断，在判断结果为真呼救时，向救援系统发送呼救信息。本发明实施例一方面通过收集语音实现了呼救流程的唤醒，用户无需通过触摸或按压实体按键面板进行报警操作，避免了因实体按键损坏而导致的延误救援的情况发生；另一方面，通过将所述实景视频信息和实景音频信息输入音视频联合判断网络进行判断增加了二次呼救确认的步骤，避免了呼救系统被误触发，同时，本发明实施例可根据实景视频信息和实景音频信息向呼救系统传达准确的现场环境状况，以便救援方有针对性的提前进行准备工作，提高救援效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例的基于音视频智能判断呼救的方法的流程图；

图2是图1中S112的详细流程图；

图3是图1中S1124的详细流程图；

图4是图1中S113的详细流程图；

图5是本发明第二实施例的基于音视频智能判断呼救的装置的结构框图；

图6是图5中第一生成模块的结构框图；

图7是图5中发送模块的结构框图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

当本发明实施例提及“第一”、“第二”(若存在)等序数词时，除非根据上下文其确实表达顺序之意，应当理解为仅仅是起区分之用。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”(若存在)应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

第一实施例：

请参照图1至图4所示，本发明实施例提供了一种基于音视频智能判断呼救的方法，作为一种优选方案而非限定，本实施例的智能呼救方法以应用于电梯为例，需要说明的是，本发明的智能呼救方法还可以应用于冰库、电箱、车厢、房间和车间等其他应用场景，在本领域技术人员了解本发明的所有技术方案后，以此作为基础进行的推演和改进均属于本发明的保护范围。

一种基于音视频智能判断呼救的方法，包括：

S101,建立剧本环境场景。

本实施例需要通过搭建个性化的数据库，利用多模态数据集训练音视频联合判断网络，在通常的方案中，多模态数据集可取自对应的网络音/视频，作为对本发明的一种改进而非限定，本实施例的多模态数据集可通过定制化的建立剧本环境场景对音视频联合判断网络进行训练。

示例性的，开发者可搭建一个模拟真实电梯轿厢的场景，通过在电梯轿厢内布置绿幕以便后续对视频进行处理，提取对应的视频信息。同时，开发者完成剧本创作工作，剧本通常被分为真呼救剧本和伪呼救剧本，在不同的剧本中，演员人数、动作以及道具互动可以最大程度的还原实际发生的各种场景。

S102,采集剧本环境场景中的剧本视频信息和剧本音频信息，所述视频信息包括人物表情、人物动作和环境变化，所述音频信息包括呼救语音、瞬时噪声和连续噪声。

剧本创作完成且剧本环境场景搭建完成后，由演员在环境(电梯轿厢)内进行剧本演绎。其中，真呼救剧本中需要演员表演各种惊恐表情、尖叫、摔倒、拍打电梯门、向监控挥手等动作，以及模拟道具异常如玻璃碎裂、宠物绳被夹、轿厢位置异常等环境变化；伪呼救剧本中需要演员在平静状态下说出包含呼救指令的语句(本实施例中的呼救指令预存在呼救指令集中)，以呼救指令“救命”为例，所述语句可以诸如“他的救命钱”、“就命不好呗”等，在说话过程中，演员的肢体动作较为收敛，以最大程度贴近真实场景。

本实施例通过设置在剧本环境中的摄像头和麦克风分别采集剧本环境中的剧本视频信息和剧本音频信息，摄像头和麦克风的数量和位置与实际场景具有高度的还原度。作为一种优选方案而非限定，本实施例的摄像头的数量为四个，分别布置在电梯轿厢顶部的四个角落。以保证无论演员、乘客或道具位于电梯轿厢的哪个位置，摄像头总是可以采集到对应的视频信息，以供后续判断。

本步骤S102采集人物表情、人物动作和环境变化等作为剧本视频信息，通过采集人物呼救语音、瞬时噪声和连续噪声等作为剧本音频信息。剧本视频信息和剧本音频信息的内容越丰富，越有利于后续对剧本特征的类别标注。

S103,获取剧本视频信息中的剧本视频特征。

S104,获取剧本音频信息中的剧本音频特征。

在本实施例中，剧本视频特征和剧本音频特征为便于进行机器训练、学习的视、音频数据。

S105,根据剧本视频特征和剧本音频特征，生成剧本特征。

S106,对所述剧本特征进行归类，生成真呼救数据库和伪呼救数据库。通过真呼救数据库和伪呼救数据库对音视频联合判断网络进行训练。

剧本特征可以是由剧本视频特征和剧本音频特征合并而生成的新特征，也可以是保留原剧本视频特征和剧本音频特征的特征集合。本实施例优选后者。在本实施例中，视频特征的获取方法为基于C3D或Densenet改进的视频特征提取方法，通过固定时间间隔抽取带有时序特征的帧图像，抽取视频的规律为固定帧数等距抽样；所述音频特征的获取方法为MFCC声音特征提取方法，优选使用Resnet机器学习神经网络。

S107，采集环境中的实景视频信息和实景音频信息。

在本实施例中，安装在轿厢顶部的四个角落的摄像头用于采集视频信息，麦克风用于采集实景音频信息，其中，摄像头为监控高清摄像头，麦克风为高保真麦克风，用于实时对轿厢内的实景音频信息进行采集。以便能够实时唤醒音视频联合判断网络。

S108，获取所述实景音频信息中的实景语音信息，判断所述实景语音信息与预存的呼救指令集是否匹配。

实景语音信息为轿厢内乘客的语音信息，示例性的，当实景语音信息中包含“救命”、“我的天”、“妈呀”等呼救指令时，判断实景语音信息与预存的呼救指令集匹配。

在本步骤的优选实施方案中，实时语音信息需要通过一个两级的系统，即通过神经网络和实例查询的方法检测是否出现关键词，继而决定是否唤醒音视频联合判断网络。

作为对上述步骤S108的补充，S109-S111提供了一种高可靠性的唤醒音视频联合判断网络的可选方案。具体的：

S109，确定所述呼救指令集中，与所述实景语音信息匹配度最高的呼救指令，获取所述呼救指令的优先级。

在本实施例中，通过对不同的呼救指令进行优先级设置，示例性的，“救命”的优先级设为4，“我的天”的优先级设为3、“妈呀”的优先级设为2，“啊”的优先级设为1。优先级数值越高说明对应呼救指令的危急程度越高。

S110，获取环境中所述呼救指令的总持续时间和所述实景音频信息的最高分贝值。

本步骤获取在连续时间内，对应呼救指令的总持续时间，和实景音频信息中的最高分贝值。示例性的，连续时间内乘客发出多个相同呼救指令的持续时间之和记为所述总持续时间，连续时间内场景内音频信息中的最高分贝值，如玻璃破碎声、犬吠声、摔倒声和敲击声的最大音量值记为实景信息中的最高分贝值。

S111，根据所述呼救指令的优先级、所述总持续时间和最高分贝值，判断实景语音信息是否匹配。

本步骤通过加权公式对呼救指令的优先级、所述总持续时间和最高分贝值分别赋予对应权重，并求取加权值，当加权值大于预设阈值时，说明初步判定情况危急，判断实景信息匹配，执行步骤S112。

S112,当结果匹配时，将所述实景视频信息和实景音频信息输入音视频联合判断网络进行判断，生成判断结果，所述判断结果包括真呼救和伪呼救。

作为一种具体实施方案而非限定，本步骤中的实景视频信息和实景音频信息为遇险人员在发出呼救指令前后一段时间内的视/音频信息，以便完整保留遇险时刻的现场环境，需要说明的是，在本发明的一些应用场景下，步骤S112还可以通过乘客触控硬件呼救面板来启动，硬件呼救面板包括一键式呼救系统和电话专线呼救系统，乘客在非紧急状况、需要救援情况下可以使用硬件呼救模块启动音视频联合判断网络。

在本步骤中，当判断结果为真呼救时，执行步骤S113，当判断结果为伪呼救时，返回步骤S107。

具体的，对应上述步骤S101-S106，本步骤S112还包括：

S1121,获取实景视频信息中的实景视频特征。

S1122,获取实景音频信息中的实景音频特征。

在本实施例中，实景视频特征和实景音频特征为便于音视频联合判断网络进行判断。

S1123,根据实景视频特征和实景音频特征，生成实景特征。

S1124,当所述实景特征和真呼救数据库中的剧本特征匹配时，生成真呼救的判断结果。

作为两种具体的实现方案而非限定，实景特征可以是由视频视频特征和实景音频特征合并而生成的新特征，而后确定该新特征是否与真呼救数据库中的剧本特征匹配；也可以是保留原实景视频特征和实景音频特征的特征集合。本实施例优选后者，在这种方案中，系统分别判断实景视频特征和实景音频特征是否与真呼救数据库中的剧本特征匹配，基于这种方案，本步骤S1124还包括：

S1124a,将实景视频特征和剧本视频特征进行比对，生成第一比对结果；

S1124b，将实景音频特征和剧本音频特征进行比对，生成第二比对结果；

S1124c，根据第一比对结果和第二比对结果，确定实景特征和真呼救数据库中的剧本特征是否匹配。

在本实施例中，音视频联合判断网络通过独立生成第一比对结果和第二比对结果，而后通过第一比对结果和第二比对结果确定实景特征和真呼救数据库中的剧本特征是否匹配，提高了危急情况的检出率，提高了本发明实施例的呼救方法的可靠性，作为一种优选方案而非限定，本实施例可通过预设的加权公式对第一比对结果和第二比对结果赋予权重并求取加权值，通过将加权值与预设值进行比较来判断实景特征和真呼救数据库中的剧本特征是否匹配。

S113,当所述判断结果为真呼救时，向救援系统发送呼救信息。

本实施例的救援系统包括电梯维修保养系统、公安报警系统、火警系统和医疗救护系统。作为一种优选方案而非限定，本步骤S113还包括：

S1131,确定与所述实景特征匹配度最高的剧本特征，获取对应剧本特征的类别标签。

在本实施例中，不同组合的实景视频特征和实景音频特征会得到不同的剧本特征，在对不同剧本特征进行归类时，开发者会对不同剧本特征附加对应的类别标签，示例性的，如“乘客受伤”、“轿厢位置异常”、“抢劫”等。

S1132,获取关键设备的运行状态信息。

在本步骤中，可通过系统服务器获取关键设备如电梯的运行状态信息，需要说明的是，在不同的应用场景中，关键设备是不同的，诸如在冰库场景中，关键设备可以被设定为冰库系统，在车间内，关键设备可以被设定为机床等。通过获取关键设备的运行状态信息，有利于救援系统第一时间获取呼救场景的真实情况，提前进行准备工作，提高救援效率。

S1133,根据所述类别标签和运行状态信息，播放对应的救援引导语音，并向对应的救援系统发送呼救信息，所述呼救信息至少包括地址信息、时间信息、实景视频信息或所述运行状态信息之一。

在本步骤中，通过获取类别标签和工作状态信息，系统可自动从预存的语音库中调用对应的救援引导语音，提示人员疏散、人员急救或给予遇险人员心理疏导，以在救援到来之前，尽量减少对遇险人员的进一步损害。本实施例通过将地址信息、时间信息、实景视频信息和运行状态信息发送至对应的救援系统，可最大限度的提升救援效率，避免遇险人员伤害。

第二实施例：

请参照图5至图7所示，本发明实施例提供了一种基于音视频智能判断呼救的装置100，包括：

第二采集模块101，用于采集剧本环境场景中的剧本视频信息和剧本音频信息，所述视频信息包括人物表情、人物动作和环境变化，所述音频信息包括呼救语音、瞬时噪声和连续噪声。

第一获取模块102，与第二采集模块101连接，用于获取剧本视频信息中的剧本视频特征。

第二获取模块103，与第二采集模块101连接，用于获取剧本音频信息中的剧本音频特征。

第二生成模块104，与第一获取模块102和第二获取模块103连接，用于根据剧本视频特征和剧本音频特征，生成剧本特征。

第三生成模块105，与第二生成模块104连接，用于对所述剧本特征进行归类，生成真呼救数据库和伪呼救数据库，通过真呼救数据库和伪呼救数据库对音视频联合判断网络进行训练。

第一采集模块106，用于采集环境中的实景视频信息和实景音频信息。

第一判断模块107，与第一采集模块106连接，用于获取所述实景音频信息中的实景语音信息，判断所述实景语音信息与预存的呼救指令集是否匹配。

第三获取模块108，与第一判断模块107连接，用于确定所述呼救指令集中，与所述实景语音信息匹配度最高的呼救指令，获取所述呼救指令的优先级。

第四获取模块109，与第一采集模块106连接，用于获取环境中所述呼救指令的总持续时间和所述实景音频信息的最高分贝值。

第二判断模块110，与第三获取模块108和第四获取模块109连接，用于根据所述呼救指令、所述总持续时间和最高分贝值的加权，判断实景语音信息是否匹配。

第一生成模块111，用于当结果匹配时，将所述实景视频信息和实景音频信息输入音视频联合判断网络进行判断，生成判断结果，所述判断结果包括真呼救和伪呼救。

其中，第一生成模块111包括第一获取单元1111、第二获取单元1112、第一生成单元1113和第二生成单元1114。

第一获取单元1111，用于获取实景视频信息中的实景视频特征。

第二获取单元1112，用于获取实景音频信息中的实景音频特征。

第一生成单元1113，与第一获取单元1111和第二获取单元1112连接，根据实景视频特征和实景音频特征，生成实景特征。

第二生成单元1114，与第一生成单元1113连接，用于当所述实景特征和真呼救数据库中的剧本特征匹配时，生成真呼救的判断结果。

其中，第二生成单元1114进一步包括第一比较子单元1114a、第二比较子单元1114b和第一确定子单元1114c。

第一比较子单元1114a，用于将实景视频特征和剧本视频特征进行比对，生成第一比对结果。

第二比较子单元1114b，用于将实景音频特征和剧本音频特征进行比对，生成第二比对结果。

第一确定子单元1114c，与第一比较子单元1114a和第二比较子单元1114b连接，用于根据第一比对结果和第二比对结果，确定实景特征和真呼救数据库中的剧本特征是否匹配。

发送模块112，用于当所述判断结果为真呼救时，向救援系统发送呼救信息。

其中，发送模块112包括第三获取单元1121、第四获取单元1122和发送单元1123。

第三获取单元1121，用于确定与所述实景特征匹配度最高的剧本特征，获取对应剧本特征的类别标签。

第四获取单元1122，用于获取关键设备的运行状态信息。

发送单元1123，与第三获取单元1121和第四获取单元1122连接，用于根据所述类别标签和运行状态信息，播放对应的救援引导语音，并向对应的救援系统发送呼救信息，所述呼救信息至少包括地址信息、时间信息、实景视频信息或所述运行状态信息之一。

本实施例的各模块、单元和子单元与第一实施例的各步骤对应，其功能不再赘述说明。

在本申请所提供的几个实施例中，应该理解到，在本发明各个实施例中各步骤可以通过对应的虚拟功能单元实现。各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的较佳实施例而已，并不用以限制本发明。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于音视频智能判断呼救的方法，其特征在于，包括：

采集环境中的实景视频信息和实景音频信息；

当所述判断结果为真呼救时，向救援系统发送呼救信息；

所述采集环境中的视频信息和音频信息的步骤之前，还包括：

建立剧本环境场景；搭建一个模拟真实电梯轿厢的场景，通过在电梯轿厢内布置绿幕以便后续对视频进行处理，提取对应的视频信息；开发者完成剧本创作工作，剧本分为真呼救剧本和伪呼救剧本，演员人数、动作以及道具互动用以还原实际发生的对应场景；

由演员在电梯轿厢内进行剧本演绎；真呼救剧本中演员表演惊恐表情、尖叫、摔倒、拍打电梯门和向监控挥手动作，以及模拟道具异常，包括玻璃碎裂、宠物绳被夹和轿厢位置异常；伪呼救剧本中演员在平静状态下说出包含呼救指令的语句；安装在轿厢顶部的四个角落的摄像头用于采集视频信息，麦克风用于采集实景音频信息；采集剧本环境场景中的剧本视频信息和剧本音频信息，所述视频信息包括人物表情、人物动作和环境变化，所述音频信息包括呼救语音、瞬时噪声和连续噪声；

获取剧本视频信息中的剧本视频特征；

获取剧本音频信息中的剧本音频特征；

根据剧本视频特征和剧本音频特征，生成剧本特征；

所述获取所述实景音频信息中的实景语音信息，判断所述实景语音信息与预存的呼救指令集是否匹配的步骤之后，还包括：

获取环境中所述呼救指令的总持续时间和所述实景音频信息的最高分贝值；连续时间内乘客发出多个相同呼救指令的持续时间之和记为所述总持续时间，连续时间内场景内音频信息中的最高分贝值，记为实景信息中的最高分贝值；

根据所述呼救指令的优先级、所述总持续时间和最高分贝值，求取加权值，判断实景语音信息是否匹配；

获取实景视频信息中的实景视频特征；

获取实景音频信息中的实景音频特征；

根据实景视频特征和实景音频特征，生成实景特征；

2.如权利要求1所述的基于音视频智能判断呼救的方法，其特征在于，所述视频特征的获取方法基于C3D或Densenet视频特征提取方法，所述音频特征的获取方法为MFCC和ResNet18声音特征提取方法，所述当所述实景特征和真呼救数据库中的剧本特征匹配时，生成真呼救的判断结果的步骤，包括：

3.如权利要求2所述的基于音视频智能判断呼救的方法，其特征在于，所述向救援系统发送呼救信息的步骤，包括：

确定与所述实景特征匹配度最高的剧本特征，获取对应剧本特征的类别标签；

获取关键设备的运行状态信息；

4.一种基于音视频智能判断呼救的装置，其特征在于，包括：

发送模块，用于当所述判断结果为真呼救时，向救援系统发送呼救信息；

建立模块，用于建立剧本环境场景；搭建一个模拟真实电梯轿厢的场景，通过在电梯轿厢内布置绿幕以便后续对视频进行处理，提取对应的视频信息；开发者完成剧本创作工作，剧本分为真呼救剧本和伪呼救剧本，演员人数、动作以及道具互动用以还原实际发生的对应场景；

第二采集模块，由演员在电梯轿厢内进行剧本演绎；真呼救剧本中演员表演惊恐表情、尖叫、摔倒、拍打电梯门和向监控挥手动作，以及模拟道具异常，包括玻璃碎裂、宠物绳被夹和轿厢位置异常；伪呼救剧本中演员在平静状态下说出包含呼救指令的语句；安装在轿厢顶部的四个角落的摄像头用于采集视频信息，麦克风用于采集实景音频信息；第二采集模块用于采集剧本环境场景中的剧本视频信息和剧本音频信息，所述视频信息包括人物表情、人物动作和环境变化，所述音频信息包括呼救语音、瞬时噪声和连续噪声；

所述第一生成模块，包括：

第一获取单元，用于获取实景视频信息中的实景视频特征；

第二获取单元，用于获取实景音频信息中的实景音频特征；

第二生成单元，用于当所述实景特征和真呼救数据库中的剧本特征匹配时，生成真呼救的判断结果；

第四获取模块，用于获取环境中所述呼救指令的总持续时间和所述实景音频信息的最高分贝值；连续时间内乘客发出多个相同呼救指令的持续时间之和记为所述总持续时间，连续时间内场景内音频信息中的最高分贝值，记为实景信息中的最高分贝值；

第二判断模块，用于根据所述呼救指令的优先级、所述总持续时间和最高分贝值的加权，求取加权值，判断实景语音信息是否匹配；

第一获取模块，用于获取剧本视频信息中的剧本视频特征，

第二获取模块，用于获取剧本音频信息中的剧本音频特征；

第三生成模块，用于对所述剧本特征进行归类，生成真呼救数据库和伪呼救数据库，通过真呼救数据库和伪呼救数据库对音视频联合判断网络进行训练。

5.根据权利要求4所述的基于音视频智能判断呼救的装置，其特征在于，所述视频特征的获取方法基于C3D或Densenet视频特征提取方法，所述音频特征的获取方法为MFCC和ResNet18声音特征提取方法，所述第二生成单元，包括：

6.根据权利要求5所述的基于音视频智能判断呼救的装置，其特征在于，所述发送模块，包括：

第四获取单元，用于获取关键设备的运行状态信息；