CN113674768A

CN113674768A - 基于声学的呼救检测方法、装置、设备及存储介质

Info

Publication number: CN113674768A
Application number: CN202110365188.XA
Authority: CN
Inventors: 王丹; 高治良
Original assignee: Haining Micro Nano Sensing Computing Technology Co ltd; Shenzhen Weina Perception Computing Technology Co ltd
Current assignee: Haining Micro Nano Sensing Computing Technology Co ltd; Shenzhen Weina Perception Computing Technology Co ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-11-19
Anticipated expiration: 2041-04-02
Also published as: CN113674768B

Abstract

本申请提供了一种基于声学的呼救检测方法、装置、设备及存储介质，其方法包括：通过麦克风阵列采集音频数据；采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出检测结果；若检测结果为所述音频数据中包含有呼救声音事件，则触发声源定位，根据定位信息生成报警数据并实时上报至相关系统。该方法可以实现实现及时、迅捷地触发报警且报警操作不容易受现场情况限制。

Description

基于声学的呼救检测方法、装置、设备及存储介质

技术领域

本申请属于监控设备技术领域，尤其涉及一种基于声学的呼救检测方法、装置、设备及存储介质。

背景技术

随着城市智能化改造的不断进步，对于城市中突发事件的迅速求助、报警、定位一直以来都是平安城市建设重点关注的问题。目前，城市中各个路段大规模的路灯照明、电话报警平台的建立、城市监控网络的组成等设施均能有效地提升求助出警效率，抑制城市犯罪率。然而，现有的监控、报警、照明通常为独立运作，在发生突发事件时，人们报警的方式通常是通过手机报警或是通过报警柱按钮报警，这两种方式都容易受限制，例如无第三者在场且当事人没有机会使用手机或电话的情况、现场存在信号干扰的情况等会让报警的人无法通过手机进行报警，而报警柱是通过按钮等方式单点触发报警，报警的人需要在报警柱傍边且有机会按下报警按钮的情况下才能触发报警，在被人挟持或是离报警柱比较远的情况下将无法通过报警柱进行报警。因而，无论是手机报警还是报警柱报警，都难以做到及时、迅捷地触发报警。

发明内容

有鉴于此，本申请实施例提供了一种基于声学的呼救检测方法、装置、设备及存储介质，可以实现全方位范围的呼救声音事件检测，并迅速对呼救声音事件触发声源定位并进行实时报警。

本申请实施例的第一方面提供了一种基于声学的呼救检测方法，所述基于声学的呼救检测方法包括：

通过麦克风阵列采集音频数据；

采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出检测结果；

若检测结果为所述音频数据中包含有呼救声音事件，则触发声源定位，根据定位信息生成报警数据并实时上报至相关系统。

结合第一方面，在第一方面的第一种可能实现方式中，所述通过麦克风阵列采集音频数据的步骤，包括：

将所述麦克风阵列配置为立体排列阵型，通过立体排列阵型的麦克风阵列同步采集多通道的音频数据。

结合第一方面，在第一方面的第二种可能实现方式中，所述采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出检测结果的步骤之前，还包括：

采用尖叫声检测样本数据对所述预设的呼救检测模型进行预训练生成一尖叫声检测子模型，以使所述预设的呼救检测模型具备尖叫声判断功能；

采用喊叫声检测样本数据对所述预设的呼救检测模型进行预训练生成一喊叫声检测子模型，以使所述预设的呼救检测模型具备喊叫声判断功能；

采用命令词识别样本数据对所述预设的呼救检测模型进行预训练生成一命令词检测子模型，以使所述预设的呼救检测模型具备命令词识别功能。

结合第一方面的第二种可能实现方式，在第一方面的第三种可能实现方式中，所述采用预设的呼救检测模型对所述音频数据进行声学判断的步骤，包括：

采用预设的呼救检测模型对所述音频数据进行尖叫声检测，获取所述音频数据中的尖叫声特征分值；

将所述尖叫声特征分值与预设的尖叫声特征阈值进行比对，若所述音频数据中的尖叫声特征分值大于预设的尖叫声特征阈值，则获取所述尖叫声特征分值。

结合第一方面的第三可能实现方式，在第一方面的第四种可能实现方式中，所述采用预设的呼救检测模型对所述音频数据进行声学判断的步骤，包括：

采用预设的呼救检测模型对所述音频数据进行喊叫声检测，获取所述音频数据中的喊叫声特征分值；

将所述喊叫声特征分值与预设的喊叫声特征阈值进行比对，若所述音频数据中的喊叫声特征分值大于预设的喊叫声特征阈值，则获取所述喊叫声特征分值。

结合第一方面的第四可能实现方式，在第一方面的第五种可能实现方式中，所述采用预设的呼救检测模型对所述音频数据进行声学判断的步骤，包括：

采用预设的呼救检测模型对所述音频数据进行命令词识别处理，获取所述音频数据中的关键语音特征；

计算所述关键语音特征与预设的表征呼救的命令词语音特征之间的词语关联度分值；

若所述词语关联度分值满足预设的关联度阈值要求，则获取所述词语关联度分值。

结合第一方面的第五种可能实现方式，在第一方面的第六种可能实现方式中，所述采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出判断结果的步骤，包括：

对所述预设的呼救检测模型获得的喊叫声特征分值和词语关联度分值按照预设的权重进行加权求和获得综合分值，将所述综合分值与用于触发报警的第一预设分值进行比对，以及将所述预设的呼救检测模型获得的尖叫声特征分值和词语关联度分值分别与预设的用于触发报警的第二预设分值和第三预设分值进行比对；

若所述综合分值大于所述第一预设分值、所述尖叫声特征分值大于所述第二预设分值且所述词语关联度分值大于所述第三预设分值，则判断所述音频数据中包含有呼救声音事件并输出判断结果。

结合第一方面和第一方面的第一至六种可能实现方式中的任意一种，在第一方面的第七种可能实现方式中，所述若检测结果为所述音频数据中包含有呼救声音事件，则触发声源定位，根据定位信息生成报警数据并实时上报至相关系统的步骤，还包括：

根据所述定位信息调用与所述定位信息相匹配的摄像设备拍摄声源位置的图像，并将拍摄获得的图像上报至相关系统。

本申请实施例的第二方面提供了一种基于声学的呼救检测装置，包括：

采集模块，用于通过麦克风阵列采集音频数据；

检测模块，用于采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出检测结果；

报警模块，用于若检测结果为所述音频数据中包含有呼救声音事件，则触发声源定位，根据定位信息生成报警数据并实时上报至相关系统。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如第一方面任一项所述基于声学的呼救检测方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述基于声学的呼救检测方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：

本申请通过从部署在各个监控位置的麦克风阵列获得全方位实时的音频数据，然后由预设的呼救检测模型对音频数据进行尖叫声判断、喊叫声判断以及命令词识别等声学判断，以确定音频数据中是否包含有呼救声音事件，当判断得到音频数据中包含有呼救声音事件时，根据该音频数据触发声源定位，以确定呼救声音事件所发生的位置，进而根据定位信息生成报警数据，再将报警数据进行实时上报，由此实现及时、迅捷地触发报警且报警操作不容易受现场情况限制。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于声学的呼救检测方法的基本方法流程示意图；

图2为本申请实施例提供的基于声学的呼救检测方法中生成的尖叫声检测子模型的一种模型网络图；

图3为本申请实施例提供的基于声学的呼救检测方法中生成的喊叫声检测子模型的一种模型网络图；

图4为本申请实施例提供的基于声学的呼救检测方法中进行声学判断时的一种方法流程示意图；

图5为本申请实施例提供的基于声学的呼救检测方法中进行声学判断时的第二种方法流程示意图；

图6为本申请实施例提供的基于声学的呼救检测方法中进行声学判断时的第三种方法流程示意图；

图7为本申请实施例提供的基于声学的呼救检测方法中确定音频数据中是否包含有呼救声音事件的一种方法流程示意图；

图8为本申请实施例提供的一种基于声学的呼救检测装置的结构示意图；

图9为本申请实施例提供的一种实现基于声学的呼救检测方法的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

本申请的一些实施例中，基于声学的呼救检测方法可以应用在于平安城市的建设上，请参阅图1，图1为本申请实施例提供的一种基于声学的呼救检测方法的基本方法流程示意图，详述如下：

步骤S11：通过麦克风阵列采集音频数据。

本实施例中，以麦克风阵列为拾音设备部署于需要进行监控的各个位置，例如城市的灯杆、楼宇、街道、公园等，以此可以全天24小时全方位地实时采集音频数据，从而实现基于采集到的音频来进行呼救检测和实时报警。在监控范围内突发情况时，人们只需要发出呼救声音即可触发报警。

步骤S12：采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出检测结果。

本实施例中，预设的呼救检测模型为训练至收敛状态的神经网络模型，该神经网络模型被训练用于对音频数据进行声学判断，其中，所述声学判断包括但不限于尖叫声判断、喊叫声判断以及命令词识别等。在本实施例中，采用预设的呼救检测模型对音频数据进行声学判断时，一方面对麦克风阵列采集到的音频数据进行声音特征提取，进而基于声音特征判断该音频数据中是否包含有满足报警条件的尖叫声或喊叫声，另一方面对该音频数据进行语义分析和关键词提取，进而基于关键词判断该音频数据中是否包含有报警相关的命令词。当预设的呼救检测模型判断该音频数据中包含有满足报警条件的尖叫声或喊叫声且包含有报警相关的命令词时，确定该音频数据中包含有呼救声音事件，此时输出检测结果为音频数据中包含有呼救声音事件。

步骤S13：若判断结果为所述音频数据中包含有呼救声音事件，则触发声源定位，根据定位信息生成报警数据并实时上报报警数据。

本实施例中，用于实现本申请基于声学的呼救检测方法的设备之间建立通信组网，其中，建立通信组网的设备包括但不限于作为拾音设备的麦克风阵列、作为检测设备的呼救检测模型、中心服务器以及各地方的相关系统。在本实施例中，通过拾音设备采集音频数据，将采集到的音频数据发送给检测设备，由检测设备对音频数据进行声学判断获得检测结果，并将该检测结果发送到中心服务器，进而，由中心服务器统一汇聚检测结果，根据检测结果进行任务派发，将根据检测结果生成报警数据上报至各地方的相关系统中，由此实现迅速对呼救声音事件进行实时报警。在本实施例中，当呼救检测模型输出音频数据中包含有呼救声音事件的检测结果时，由中心服务器根据音频数据的来源路径进行声源定位获取定位信息，以确定突发情况的地点位置，根据定位信息生成报警数据，从而实时上报报警数据至相对应的地方相关系统。

本实施例提供的基于声学的呼救检测方法通过从部署在各个监控位置的麦克风阵列获得全方位实时的音频数据，然后由预设的呼救检测模型对音频数据进行尖叫声判断、喊叫声判断以及命令词识别等声学判断，以确定音频数据中是否包含有呼救声音事件，当判断得到音频数据中包含有呼救声音事件时，根据该音频数据触发声源定位，以确定呼救声音事件所发生的位置，进而根据定位信息生成报警数据，再将报警数据进行实时上报，由此实现及时、迅捷地触发报警且报警操作不容易受现场情况限制。

本申请的一些实施例中，麦克风阵列被配置为立体排列阵型，可以形成任意立体阵列形状，例如球形、圆柱形、哑铃型、双层圆柱形、长方体形、立方体形等。在本实施例中，立体排列阵型的麦克风阵列中包含的麦克风数量不少于3个，每个麦克风对应一个音频采集通道。通过立体排列阵型的麦克风阵列可以实现在一个时间点上同步采集多通道的音频数据，通过多通道的音频数据来检测某一地点在某一时刻是否发生呼救声音事件，使得呼救检测更为准确。

本申请的一些实施例中，在训练所述预设的呼救检测模型时，采用神经网络预训练共计三个子模型，分别为尖叫声检测子模型、喊叫声检测子模型和命令词检测子模型，根据分别训练获得的三个子模型，可以使得所述预设的呼救检测模型同时具备尖叫声判断功能、喊叫声判断功能以及命令词识别功能。

在预训练生成尖叫声检测子模型时，采用大量的尖叫声检测样本数据对待训练的呼救检测神经网络进行训练获得所述预设的呼救检测模型中的尖叫声检测子模型。尖叫声检测子模型可用来检测在复杂声学场景下人的尖叫声，以使所述预设的呼救检测模型具备尖叫声判断功能。所述尖叫声检测样本数据包括正样本数据和负样本数据，其中，所述正样本数据为通过设备录制构造的尖叫声数据(如包括男生、女生在内的各个年龄下的尖叫声数据)，所述负样本数据为收集到的在各种生活场景下的环境噪声(如家庭、马路、公园等场景下的人声数据及非人声数据)。为保证样本数据经由不同的麦克风输入的差异性，还可以将一部分样本数据经过最终算法运行设备下的转录。

在本申请的一些实施例中，请参阅图2，图2为本申请实施例提供的基于声学的呼救检测方法中生成的尖叫声检测子模型的一种模型网络图。如图2所示，各个网络层的意义分别为：网络的输入层(InputLayer)，用来控制数据输入的格式为统一的格式；卷积层(Conv2D)，用来提取数据中的边缘化特征；归一化层(BatchNormallization)，用来对数据进行标准化，让数据在每一层的传递的值都能约束到相同的范围内，防止在训练过程中梯度消失的问题；池化层 (MaxPooling2D)，用来降低数据的维度；Flatten，将多维数据转化为一维数据； Dropout，用来随机丢掉一部分数据，防止训练过拟合训练；全连接层(Dense)，用来通过使用softmax的激活函数，将数据分为多类。该模型中输入的数据会分为两类，其中，一类为尖叫的数据，一类为非尖叫的数据。示例性的，在本实施例中，在训练尖叫声检测模型时，网络输入的数据维度为(？，100，40，1)，其中，“？”表示为输入的样本数据的数量，即批处理大小，该参数在训练时由用户自行指定，本模型训练时该参数配置为64；“100”表示为输入的每条数据的帧数，数据的帧长可以在特征提取的时候确定，本模型使用的特征为Fbank特征，采用的窗长和窗移分别为400和160(单位为采样点个数，在16000采样率的音频格式下分别代表的时域长度为：25ms和10ms)，则100帧的数据长度即为：(100-1)*160+400＝16240(单位为采样点个数，在16000采样率的音频格式下分别代表的时域长度为：1015ms)；“40”表示为输入的每条数据的每一帧的数据维度，该参数取决于Fbank特征输出，本模型在提取特征时使用的fCepLifter＝-40，即取了特征输出的40个数据；“1”表示为数据的通道数为1。可以理解的是，网络输出的数据维度与上述网络输入的数据维度相同，此处不再赘述。在本实施例中，基于上述图2所示的模型网络图，所述尖叫声检测子模型的训练过程可以如下：

首先，将卷积层中的卷积核与全连接层使用服从均值为0、标准差为0.1的高斯分布随机数进行初始化处理，偏置项使用服从区间为[0，1]的均匀分布随机数进行初始化处理。然后，在批处理层中，将动量设置为0.95，常量设置为0.01。进而，使用AdaDelta梯度下降算法训练权重，将批处理大小设置为64，并且按照一定比例设置数据的训练集、验证集和测试集，在20次迭代训练后，每一次迭代都进行验证集的测试，将结果最好的那一次迭代获得的训练模型进行保存并用于测试集的测试，其结果即为整个学习的结果。最后，设置全部数据迭训练周期为100次迭代，在训练时，训练集中的正负样本比为10:1，每一次迭代训练中，依次打乱20％的负样本与全部正样本进行训练，直至全部负样本训练完成一个训练周期为止。

在预训练所述预设的呼救检测模型中的喊叫声检测模型时，采用大量的喊叫声样本数据对待训练的呼救检测神经网络进行训练获得所述预设的呼救检测模型中的喊叫声检测子模型。喊叫声检测子模型可用来区分人说话的说话方式是以喊叫的方式还是正常普通的方式，以使所述预设的呼救检测模型具备喊叫声判断功能。所述喊叫声检测样本数据同样包括正样本数据和负样本数据，其中，所述正样本数据为通过设备录制构造的、通过喊叫的方式说出命令词的喊叫声数据 (如救命啊、抢劫啦、来人啊等)，所述负样本数据为通过设备录制构造的、用普通说话方式说出命令词的人生数据(如救命啊、抢劫啦、来人啊等)。而且在本实施例中，在录制正、负样本数据时，还包括在多人环境下进行录制、包括男声、女声录音人员在不同年龄段下的声音数据。为保证样本数据经由不同的麦克风输入的差异性，还可以将一部分样本数据经过最终算法运行设备下的转录。

本申请的一些实施例中，请参阅图3，图3为本申请实施例提供的基于声学的呼救检测方法中生成的喊叫声检测子模型的一种模型网络图。如图3所示，所述喊叫声检测子模型训练所采用的网络类型与所述尖叫声检测子模型训练所采用的网络类型基本一致，两者之间的不同在于各个网络层的排列方式以及数量的不同。因此，此处不再对喊叫声检测子模型各个的网络层的意义以及训练过程进行赘述。需要说明的是，在本实施例中，由于喊叫声检测子模型训练的数据分类难度比尖叫声检测子模型训练的数据分类难度低，因此，喊叫声检测子模型的模型网络设计可以相较于尖叫声检测子模型的的模型网络设计降低一些网络深度，即网络层的数量，由此可以降低计算消耗资源以及降低模型训练过拟合的情况。

在预训练所述预设的呼救检测模型中的命令词检测子模型时，采用大量的命令词识别样本数据对待训练的呼救检测神经网络进行训练获得所述预设的呼救检测模型中的命令词检测子模型。命令词检测子模型可用来识别呼救相关的词汇 (如救命啊、杀人啦、抢劫啦、着火啦、救火啊等)，以使所述预设的呼救检测模型具备命令词识别功能。命令词识别样本数据同样包括正样本数据和负样本数据，其中，所述正样本数据包含上述喊叫声样本数据中的所有正、负样本数据，均为命令词语，所述负样本数据为将各种命令词语进行分类后，每个分类中的命令词语数据互为其余分类的负样本数据。在本实施例中，所述命令词检测子模型可以使用kaldi中的关键词检测框架，提取标准的MFCC特征送入网络训练，以此得到声学模型，然后通过手动构建统一的语言模型，通过HCLG解码得到最后的命令词识别结果。

本申请的一些实施例中，请参阅图4，图4为本申请实施例提供的基于声学的呼救检测方法中进行声学判断时的一种方法流程示意图。详细如下：

步骤S41：采用预设的呼救检测模型对所述音频数据进行尖叫声检测，获取所述音频数据中的尖叫声特征分值；

步骤S42：将所述尖叫声特征分值与预设的尖叫声特征阈值进行比对，若所述音频数据中的尖叫声特征分值大于预设的尖叫声特征阈值，则获取所述尖叫声特征分值。

本实施例中，当采集到的音频数据输入至所述预设的呼救检测模型后，由所述预设的呼救检测模型预训练生成的尖叫声检测子模型进行对该采集到的音频数据进行尖叫声检测。在本实施例中，基于所述尖叫声检测子模型训练至收敛状态的模型网络从该音频数据中提取出每一音频数据帧的Fbank特征，进而对 Fbank特征进行归类，以此检测出该音频数据中的尖叫声特征并且基于各音频数据帧的Fbank特征计算出该音频数据中的尖叫声特征分值。获得尖叫声特征分值，通过将该尖叫声特征分值与预设于尖叫声检测子模型中的尖叫声特征阈值进行大小比对，若音频数据中的尖叫声特征分值大于预设的尖叫声特征阈值，则预设的呼救检测模型从尖叫声检测方面初步判断该音频数据中可能包含有呼救声音事件，此时，获取该尖叫声特征分值作为第一个判断因子，用于确定音频数据中是否包含有呼救声音事件。

本申请的一些实施例中，请参阅图5，图5为本申请实施例提供的基于声学的呼救检测方法中进行声学判断时的第二种方法流程示意图。详细如下：

步骤S51：采用预设的呼救检测模型对所述音频数据进行喊叫声检测，获取所述音频数据中的喊叫声特征分值；

步骤S52：将所述喊叫声特征分值与预设的喊叫声特征阈值进行比对，若所述音频数据中的喊叫声特征分值大于预设的喊叫声特征阈值，则获取所述喊叫声特征分值。

本实施例中，与尖叫声检测过程相似，当采集到的音频数据输入至所述预设的呼救检测模型后，由所述预设的呼救检测模型预训练生成的喊叫声检测子模型进行对该采集到的音频数据进行喊叫声检测，基于所述喊叫声检测子模型训练至收敛状态的模型网络从该音频数据中提取出每一音频数据帧的Fbank特征，进而对Fbank特征进行归类，以此检测出该音频数据中的喊叫声特征并且基于各音频数据帧的Fbank特征计算出该音频数据中的喊叫声特征分值。获得喊叫声特征分值，通过将该喊叫声特征分值与预设于喊叫声检测子模型中的喊叫声特征阈值进行大小比对，若音频数据中的喊叫声特征分值大于预设的喊叫声特征阈值，则预设的呼救检测模型从喊叫声检测方面初步判断该音频数据中可能包含有呼救声音事件，此时，获取该喊叫声特征分值作为第二个判断因子，用于确定音频数据中是否包含有呼救声音事件。

本申请的一些实施例中，请参阅图6，图6为本申请实施例提供的基于声学的呼救检测方法中进行声学判断时的第三种方法流程示意图。详细如下：

步骤S61：采用预设的呼救检测模型对所述音频数据进行命令词识别处理，获取所述音频数据中的关键语音特征；

步骤S62：计算所述关键语音特征与预设的表征呼救的命令词语音特征之间的词语关联度分值；

步骤S63：若所述词语关联度分值满足预设的关联度阈值要求，则获取所述词语关联度分值。

本实施例中，当采集到的音频数据输入至所述预设的呼救检测模型后，由所述预设的呼救检测模型预训练生成的命令词检测子模型对该采集到的音频数据进行命令词识别处理。在本实施例中，基于使用kaldi关键词检测框架训练至收敛状态的命令词检测子模型识别音频数据，以从音频数据中提取出与命名词相关的关键语音特征。然后，可以通过计算距离的方式(例如汉明距离)得出该关键语音特征与预设的表征呼救的命令词语音特征之间的词语关联度分值，进而在将该计算获得的词语关联度分值与预设于命令词检测子模型中的关联度阈值进行比对，判断该词语关联度分值是否满足预设的关联度阈值要求，若满足，则说明预设的呼救检测模型从命令词识别方面初步判断该音频数据中可能包含有呼救声音事件，此时，获取该词语关联度分值作为第三个判断因子，用于确定音频数据中是否包含有呼救声音事件。

本申请的一些实施例中，请参阅图7，图7为本申请实施例提供的基于声学的呼救检测方法中确定音频数据中是否包含有呼救声音事件的一种方法流程示意图。详细如下：

步骤S71：对所述预设的呼救检测模型获得的喊叫声特征分值和词语关联度分值按照预设的权重进行加权求和获得综合分值，将所述综合分值与用于触发报警的第一预设分值进行比对，以及将所述预设的呼救检测模型获得的尖叫声特征分值和词语关联度分值分别与预设的用于触发报警的第二预设分值和第三预设分值进行比对；

步骤S72：若所述综合分值大于所述第一预设分值、所述尖叫声特征分值大于第二预设分值且所述词语关联度分值大于所述第三预设分值，则判断所述音频数据中包含有呼救声音事件并输出判断结果。

本实施例中，采用预设的呼救检测模型确定音频数据中是否包含有呼救声音事件时，可以由所述所述预设的呼救检测模型中的三个子模型的检测结果进行综合判断，以减低误检的可能。示例性的，通过三个子模型的检测结果进行综合判断时配置三个用于触发报警的预设值，分别为第一预设值、第二预设值和第三预设值。通过对所述预设的呼救检测模型获得的喊叫声特征分值和词语关联度分值按照预设的权重进行加权求和获得综合分值，将所述综合分值与用于触发报警的第一预设分值进行比对，以及将所述预设的呼救检测模型获得的尖叫声特征分值和词语关联度分值分别与预设的用于触发报警的第二预设分值和第三预设分值进行比对。最后，若综合分值大于第一预设分值、尖叫声特征分值大于第二预设分值且词语关联度分值大于第三预设分值，则判断音频数据中包含有呼救声音事件并输出判断结果。在本实施例中，权重的配置以及第一预设值、第二预设值和第三预设值均可以根据实际报警需求进行自定义设置，示例性的，假设第一预设值、第二预设值和第三预设值分别为0.75、0.85、0.7，尖叫声检测结果为A1，喊叫声检测结果为A2，A2对应的权重配置为0.3，命令词识别结果为A3，A3 对应的权重配置为0.7，其中，A1、A2、A3均为0-1之间的数值。基于上述计算得到综合分值为S1＝A2*0.3+A3*0.7。那么，此时若S1＞0.75，A1＞0.85且A3 ＞0.7，则判断音频数据中包含有呼救声音事件，并输出“音频数据中包含有呼救声音事件”的判断结果。

本申请的一些实施例中，当确定音频数据中含有呼救声音事件后，还可以根据触发声源定位获得的定位信息调用与该定位信息相匹配的摄像设备拍摄声源位置的图像，进而一并将拍摄获得的图像上报至相关系统。在本实施例中，通过声源定位找到与拾音设备位置最相近的摄像设备，然后调用摄像设备获取突发情况的现场图像或视频，以此实现音视频联动报警功能。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请的一些实施例中，请参阅图8，图8为本申请实施例提供的一种基于声学的呼救检测装置的结构示意图，详述如下：

所述基于声学的呼救检测装置包括：采集模块81、检测模块82以及报警模块83。其中，所述采集模块81用于通过麦克风阵列采集音频数据。所述检测模块62用于采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出检测结果。所述报警模块63用于若检测结果为所述音频数据中包含有呼救声音事件，则触发声源定位，根据定位信息生成报警数据并实时上报至相关系统。

所述基于声学的呼救检测装置，与上述的基于声学的呼救检测方法一一对应。

在本申请的一些实施例中，请参阅图9，图9为本申请实施例提供的一种实现基于声学的呼救检测方法的电子设备的示意图。如图9所示，该实施例的电子设备9包括：处理器91、存储器92以及存储在所述存储器92中并可在所述处理器91上运行的计算机程序93，例如基于声学的呼救检测程序。所述处理器91 执行所述计算机程序92时实现上述各个基于声学的呼救检测方法实施例中的步骤。或者，所述处理器91执行所述计算机程序93时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序93可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器92中，并由所述处理器91执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序93在所述电子设备9中的执行过程。例如，所述计算机程序93可以被分割成：

采集模块，用于通过麦克风阵列采集音频数据；

所述电子设备可包括，但不仅限于，处理器91、存储器92。本领域技术人员可以理解，图9仅仅是电子设备9的示例，并不构成对电子设备9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器91可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器92可以是所述电子设备9的内部存储单元，例如电子设备9的硬盘或内存。所述存储器92也可以是所述电子设备9的外部存储设备，例如所述电子设备9上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器92还可以既包括所述电子设备9的内部存储单元也包括外部存储设备。所述存储器92用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器92还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于声学的呼救检测方法，其特征在于，包括：

通过麦克风阵列采集音频数据；

2.根据权利要求1所述的基于声学的呼救检测方法，其特征在于，所述通过麦克风阵列采集音频数据的步骤，包括：

3.根据权利要求1所述的基于声学的呼救检测方法，其特征在于，所述采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出检测结果的步骤之前，还包括：

4.根据权利要求3所述的基于声学的呼救检测方法，其特征在于，所述采用预设的呼救检测模型对所述音频数据进行声学判断的步骤，包括：

5.根据权利要求4所述的基于声学的呼救检测方法，其特征在于，所述采用预设的呼救检测模型对所述音频数据进行声学判断的步骤，包括：

6.根据权利要求5所述的基于声学的呼救检测方法，其特征在于，所述采用预设的呼救检测模型对所述音频数据进行声学判断的步骤，包括：

7.根据权利要求6所述的基于声学的呼救检测方法，其特征在于，所述采用预设的呼救检测模型对所述音频数据进行声学判断，确定所述音频数据中是否包含有呼救声音事件并输出判断结果的步骤，包括：

8.根据权利要求1-7任意一项所述的基于声学的呼救检测方法，其特征在于，所述若检测结果为所述音频数据中包含有呼救声音事件，则触发声源定位，根据定位信息生成报警数据并实时上报至相关系统的步骤，还包括：

9.一种基于声学的呼救检测装置，其特征在于，包括：

采集模块，用于通过麦克风阵列采集音频数据；

10.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述基于声学的呼救检测方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于声学的呼救检测方法的步骤。