CN113571091B

CN113571091B - 用于监控的音频突变检测方法、装置及家用电器

Info

Publication number: CN113571091B
Application number: CN202110738675.6A
Authority: CN
Inventors: 柴亮; 戴伟
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-04-19
Anticipated expiration: 2041-06-30
Also published as: CN113571091A

Abstract

本发明提供一种用于监控的音频突变检测方法、装置及家用电器，其中，该方法包括：获取N帧目标音频信号；在基于N帧目标音频信号确定发生音频突变的情况下，基于N帧目标音频信号及N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；向第一目标设备发送音频突变识别结果，以使得第一目标设备对音频突变识别结果进行识别，获得告警信息，向第二目标设备发送告警信息和/或音频突变识别结果；其中，N为正整数；M为正整数。本发明实施例提供的用于监控的音频突变检测方法、装置及家用电器，通过在检测到发生音频突变的情况下，截取反映音频突变的音频数据，能便于用户在及时掌握监控区域存在的危险，能保护用户隐私。

Description

用于监控的音频突变检测方法、装置及家用电器

技术领域

本发明涉及声学技术领域，尤其涉及一种用于监控的音频突变检测方法、装置及家用电器。

背景技术

目前，音频采集设备主要工作于以下几种模式：一是持续采集音频信号，资源消耗大并且容易导致用户的隐私泄露；二是通过特定的唤醒词唤醒以节约资源，但容易出现唤醒不及时或未成功唤醒的现象，导致难以及时捕捉需要的音频信号。

基于当前的音频采集设备，对家庭、办公室、机房或仓库等室内环境进音频监控的场景，主要采用持续采集音频信号的模式，容易导致用户的隐私泄露。

发明内容

本发明提供一种用于监控的音频突变检测方法、装置及家用电器，用以解决现有技术中的容易泄露用户隐私的缺陷，实现保护用户隐私。

本发明提供一种用于监控的音频突变检测方法，包括：

获取N帧目标音频信号；

在基于所述N帧目标音频信号确定发生音频突变的情况下，基于所述N帧目标音频信号及所述N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；

向第一目标设备发送所述音频突变识别结果，以使得所述第一目标设备对所述音频突变识别结果进行识别，获得告警信息，向第二目标设备发送所述告警信息和/或所述音频突变识别结果；

其中，N为正整数；M为正整数。

根据本发明提供的一种用于监控的音频突变检测方法，所述基于所述N帧目标音频信号确定发生音频突变，具体包括：

在所述N帧目标音频信号的平均能量大于目标阈值的情况下，确定发生音频突变。

根据本发明提供的一种用于监控的音频突变检测方法，获取所述N帧目标音频信号的平均能量，具体包括：

基于所述N帧目标音频信号中每帧所述目标音频信号的幅度，获取所述N帧目标音频信号的总能量；

基于所述每帧所述目标音频信号的幅度和所述N帧目标音频信号的总能量，获取所述N帧目标音频信号的平均能量。

根据本发明提供的一种用于监控的音频突变检测方法，所述基于所述每帧所述目标音频信号的幅度和所述N帧目标音频信号的总能量，获取所述N帧目标音频信号的平均能量，具体包括：

基于所述N帧目标音频信号中每帧所述目标音频信号的幅度和所述N帧目标音频信号的总能量，获取每帧所述目标音频信号的修正幅度；

基于每帧所述目标音频信号的修正幅度，获取所述N帧目标音频信号的平均能量。

根据本发明提供的一种用于监控的音频突变检测方法，所述告警信息包括所述目标音频文件对应的告警等级。

根据本发明提供的一种用于监控的音频突变检测方法，所述向第一目标设备发送所述音频突变识别结果之后，还包括：

接收所述第一目标设备发送的目标控制指令；

向所述目标控制指令对应的第三目标设备发送所述目标控制指令，以使得所述第三目标设备执行所述述目标控制指令。

本发明还提供一种用于监控的音频突变检测装置，包括：

音频获取模块，用于获取N帧目标音频信号；

突变检测模块，用于在基于所述N帧目标音频信号确定发生音频突变的情况下，基于所述N帧目标音频信号及所述N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；

音频发送模块，用于向第一目标设备发送所述音频突变识别结果，以使得所述第一目标设备对所述音频突变识别结果进行识别，获得告警信息，向第二目标设备发送所述告警信息和/或所述音频突变识别结果；

其中，N为正整数；M为正整数。

本发明还提供一种家用电器，其特征在于，包括：麦克风和任一种所述的用于监控的音频突变检测装置。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述的用于监控的音频突变检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的用于监控的音频突变检测方法的步骤。

本发明提供的用于监控的音频突变检测方法、装置及家用电器，通过在检测到发生音频突变的情况下，截取反映音频突变的音频数据并将向第一目标设备发送该音频数据，能便于用户在第一时间掌握监控区域异常变大音频中存在的潜在危险，以便及时采取有效措施减少危害，由于在强于正常交互语音音量的情况下才截取音频数据，能最大限度的保护用户隐私。进一步地，基于音频信号进行监控，能克服视频监控存在盲区和死角以及受光线干扰的不足，能实现对监控区域的全面监控，能提高危险事件的发现率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的用于监控的音频突变检测方法的流程示意图；

图2是本发明提供的用于监控的音频突变检测装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明实施例的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性，且不涉及顺序。

在本发明实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明实施例中的具体含义。

为了克服现有技术的上述问题，本发明提供一种用于监控的音频突变检测方法、装置及家用电器，其发明构思是，读取监控区域的音频信号，将音频信号分帧，计算短时能量，确定截取的端点，基于截取的端点截取突变的音频，将突变的音频发送至用户终端，以便在更好地保护用户隐私的情况下，用户及时获知监控区域的情况。

图1是本发明提供的一种用于监控的音频突变检测方法的流程示意图。下面结合图1描述本发明实施例的用于监控的音频突变检测方法。如图1所示，该方法包括：步骤101、获取N帧目标音频信号。

其中，N为正整数。

具体地，本发明实施例提供的用于监控的音频突变检测方法的执行主体为用于监控的音频突变检测装置。

可选地，目标音频信号可以为监控区域的音频。

可以通过麦克风等音频输入设备实时采集监控区域的音频，形成目标音频信号。麦克风等音频输入设备，可以为通常的语音智能家电设备包括的输入设备。

用于监控的音频突变检测装置，基于滑动时间窗口，获取N帧目标音频信号。可以理解的是，时间窗口的宽度为N帧。

例如：获取第K帧目标音频信号之后，可以获取第(K-N+1)至第K帧目标音频信号，作为N帧目标音频信号；获取第(K+1)帧目标音频信号之后，可以获取第(K-N+2)至第(K+1)帧帧目标音频信号，作为新的N帧目标音频信号。

可以理解的是，相邻两帧目标音频信号之间的时间间隔，根据麦克风等音频输入设备的采样间隔确定。采样间隔可以根据实际需求预先设定。对于采样间隔的具体值，本发明实施例不进行具体限定。

可选地，音频输入设备的采样间隔为10ms，即相邻两帧目标音频信号之间的时间间隔为10ms。

步骤102、在基于N帧目标音频信号确定发生音频突变的情况下，基于N帧目标音频信号及N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果。

其中，M为正整数。

具体地，可以计算N帧目标音频信号的短时能量，基于N帧目标音频信号的短时能量，确定是否发生音频突变。

音频突变，指远高于正常交谈的音频，例如呼救、暴力入侵、大声喊叫、电子设备的蜂鸣、物体坠落(例如人体摔倒，或者玻璃器皿、金属物品或瓷器从置物架坠落到地面上)发出的声音或物品(例如玻璃窗)破碎发出的声音等。

若N帧目标音频信号的短时能量达到一定的阈值，则可以确定发生音频突变；若N帧目标音频信号的短时能量未达到该阈值，则可以确定未发生音频突变。

可选地，上述阈值可以根据实际需求预先设定。对于上述阈值的具体值，本发明实施例不进行具体限定。

可选地，上述阈值可以为动态的阈值。例如，上述阈值是基于上述N帧目标音频信号的幅度的平均值、方差和标准差中的至少一个确定的。

若确定发生音频突变，则可以将上述N帧目标音频信号中的第一帧确定为截取的起点，截取连续的(N+M)帧目标音频信号，作为突变的音频，即音频突变识别结果。

例如，上述N帧目标音频信号为第t至第(t+N-1)帧目标音频信号，则可以截取第t至第(t+N+M-1)帧目标音频信号，作为音频突变识别结果。其中，t为正整数。

可选地，可以将音频突变识别结果存储于目标音频文件中。即目标音频文件存储有上述N帧目标音频信号及上述N帧目标音频信号后续的M帧目标音频信号。

需要说明的是，N和M，可以通过一定量的实验和实际场景的样本量积累优化得出，并随着样本量的积累趋于稳定。对N和M的具体值，本发明实施例不进行具体限定。

可以理解的是，若确定发生音频突变，则可以基于滑动时间窗口，获取新的N帧目标音频信号。

步骤103、向第一目标设备发送音频突变识别结果，以使得第一目标设备对音频突变识别结果进行识别，获得告警信息，向第二目标设备发送告警信息和/或音频突变识别结果。

具体地，第一目标设备可以是服务端或云平台等电子设备。

用于监控的音频突变检测装置，可以以存储有音频突变识别结果的目标音频文件为载体，向第一目标设备发送音频突变识别结果。

可以理解的是，在其他传输音频突变识别结果的场景中，也可以以以存储有音频突变识别结果的目标音频文件为载体，传输音频突变识别结果。

用于监控的音频突变检测装置，可以直接与第一目标设备进行通信，发送目标音频文件；也可以基于通信网络向第一目标设备发送目标音频文件。

第一目标设备接收音频突变识别结果之后，可以对音频突变识别结果进行识别，具体为对目标音频文件中存储的音频数据进行音频识别，识别该音频数据的内容，获得告警信息。

可选地，在音频数据包括语音数据的情况下，识别语音数据的内容，获取语音数据对应的文本；在音频数据包括非语音数据的情况下，可以识别非语音数据的类型，确定是什么类型的声音(例如烟雾报警器的蜂鸣声、瓷器的破碎声或干扰噪声等)。干扰噪声，可以包括电钻作业发出的声音、锤头砸墙发出的声音和汽车的喇叭声等。

基于音频数据是否包括语音数据，目标音频文件的识别结果，可以包括语音数据对应的文本和/或非语音数据的类型。

第一目标设备获得告警信息之后，可以将告警信息和/或音频突变识别结果向第二目标设备发送。

第二目标设备是用户使用的电子设备。上述用户为希望获知监控区域的情况的用户。上述用户的数量，可以为一个或多个。第二目标设备的数量，可以为一个或多个。

第二目标设备可以以各种形式来实施。例如，本发明实施例中描述的第二目标设备可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、智能手环、智能手边、数码相机等等的移动终端以及诸如台式计算机等等的固定终端。下面，假设第一目标设备是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明实施例的构造也能够应用于固定类型的终端。

告警信息，用于提示用户监控区域可能发生了异常事件或危险事件。用户可以基于第二电子设备查看告警信息，获知监控区域的情况，确定监控区域的情况是否正常，实现对监控区域的监控。

可选地，目标音频文件也可以提示用户。用户可以基于第二电子设备播放目标音频文件，或者将目标音频文件转换为文本，从而可以基于目标音频文件的内容，获知监控区域的情况，对告警信息进行核实，进一步确定监控区域的情况是否正常，实现对监控区域的监控。

可选地，用户可以基于听到的目标音频文件，采用相应的对策。

可以理解的是，通常情况下，若监控区域的情况正常，不会发生音频突变，而监控区域的情况异常，会发生音频突变。

需要说明的是，上述音频突变检测方法可以用户对室内区域的监控，可以作为视频监控系统的替代方案或补充方案应用于室内区域，可弥补视频安防对隐私保护的不足，也可以在视频盲区和紧急求救场景下满足及时响应的需求。

本发明实施例通过在检测到发生音频突变的情况下，截取反映音频突变的音频数据并将向第一目标设备发送该音频数据，能便于用户在第一时间掌握监控区域异常变大音频中存在的潜在危险，以便及时采取有效措施减少危害，由于在强于正常交互语音音量的情况下才截取音频数据，能最大限度的保护用户隐私。进一步地，基于音频信号进行监控，能克服视频监控存在盲区和死角以及受光线干扰的不足，能实现对监控区域的全面监控，能提高危险事件的发现率。

基于上述任一实施例的内容，基于N帧目标音频信号确定发生音频突变，具体包括：在N帧目标音频信号的平均能量大于目标阈值的情况下，确定发生音频突变。

具体地，可以获取N帧目标音频信号的平均能量，基于N帧目标音频信号的平均能量，确定是否发生音频突变。

若N帧目标音频信号的平均能量达到大于目标阈值，则可以确定发生音频突变；若N帧目标音频信号的平均能量小于或等于目标阈值，则可以确定未发生音频突变。

可选地，目标阈值可以根据实际需求预先设定。对于目标阈值的具体值，本发明实施例不进行具体限定。

需要说明的是，目标阈值，可以通过一定量的实验和实际场景的样本量积累优化得出，并随着样本量的积累趋于稳定。

本发明实施例基于N帧目标音频信号的平均能量和目标阈值的情况，确定是否发生音频突变，能更准确地检测出音频突变，从而进行反映音频突变的音频数据的截取，能最大限度的保护用户隐私。

基于上述任一实施例的内容，获取N帧目标音频信号的平均能量，具体包括：基于N帧目标音频信号中每帧目标音频信号的幅度，获取N帧目标音频信号的总能量。

具体地，可以基于N帧目标音频信号中每帧目标音频信号的幅度，获取N帧目标音频信号的总能量。具体计算公式如下：

其中，En表示N帧目标音频信号的总能量；x表示上述N帧目标音频信号中某帧目标音频信号的幅度，即单个样点值。

基于每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取N帧目标音频信号的平均能量。

具体地，可以根据数理统计方法，基于每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取N帧目标音频信号的平均能量。

例如，可以获取N帧目标音频信号的总能量的平均值，作为N帧目标音频信号的平均能量；还可以基于每帧目标音频信号的幅度和N帧目标音频信号的总能量，确定每帧目标音频信号的权重，基于每帧目标音频信号权重，获取N帧目标音频信号的能量的加权平均值，作为N帧目标音频信号的平均能量。

本发明实施例基于N帧目标音频信号中每帧目标音频信号的幅度，获取N帧目标音频信号的总能量，基于每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取N帧目标音频信号的平均能量，从而能基于N帧目标音频信号的平均能量更准确地检测出音频突变，进而进行反映音频突变的音频数据的截取，能最大限度的保护用户隐私。

基于上述任一实施例的内容，基于每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取N帧目标音频信号的平均能量，具体包括：基于N帧目标音频信号中每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取每帧目标音频信号的修正幅度。

具体地，可以基于N帧目标音频信号中每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取每帧目标音频信号的修正幅度。

可选地，目标音频信号的修正幅度的具体计算公式如下：

其中，x表示上述N帧目标音频信号中某帧目标音频信号的幅度；x’为x对应的修正幅度，即上述某帧目标音频信号的修正幅度；En表示N帧目标音频信号的总能量。

基于每帧目标音频信号的修正幅度，获取N帧目标音频信号的平均能量。

具体地，可以根据数理统计方法，基于每帧目标音频信号的修正幅度，获取N帧目标音频信号的平均能量。

例如，可以获取各帧目标音频信号的修正幅度的平均值，作为N帧目标音频信号的平均能量；还可以获取各帧目标音频信号的修正幅度的平方的平均值，作为N帧目标音频信号的平均能量。

本发明实施例基于N帧目标音频信号中每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取每帧目标音频信号的修正幅度，基于每帧目标音频信号的修正幅度，获取N帧目标音频信号的平均能量，从而能基于N帧目标音频信号的平均能量更准确地检测出音频突变，进而进行反映音频突变的音频数据的截取，能最大限度的保护用户隐私。

基于上述任一实施例的内容，告警信息包括音频突变识别结果对应的告警等级。

具体地，第一电子设备对音频突变识别结果进行识别，获取语音数据对应的文本和/或非语音数据的类型，可以相应地基于语音数据对应的文本和/或非语音数据的类型，确定目标音频文件对应的告警等级。音频突变识别结果对应的告警等级，可以作为目标音频文件的一种识别结果。

各告警等级，可以是预先确定的。对于告警等级的划分标准，本发明实施例不进行具体限定。

例如，可以告警等级可以分为非常危险、危险和不危险等三个等级，或者按照危险程度从高到低的顺序，分为第一级、第二级、第三级和第四级等四个等级。

文本内容与告警等级之间的对应关系可以预先确定。非语音数据的类型与告警等级之间的对应关系可以预先确定。

可选地，第一电子设备可以通过预先训练获得的模型，对目标音频文件进行告警等级的决策。

本发明实施例通过向第一目标设备发送目标音频文件，第一目标设备对音频突变识别结果进行识别后，向第二目标设备发送音频突变识别结果对应的告警等级，能更便于用户在第一时间掌握监控区域异常变大音频中存在的潜在危险的危险程度，以便及时采取有效措施减少危害。

基于上述任一实施例的内容，向第一目标设备发送音频突变识别结果之后，还包括：接收第一目标设备发送的目标控制指令。

具体地，用户基于告警信息和/或音频突变识别结果，获知监控区域的情况之后，可以确定第三目标设备。

用户可以向第二电子设备输入目标控制指令。第二电子设备可以向第一电子设备发送该目标控制指令，第一电子设备将该目标控制指令转发至用于监控的音频突变检测装置。用于监控的音频突变检测装置可以接收该目标控制指令。

目标控制指令，用于控制第三目标设备。

根据监控区域的不同情况，第三目标设备可以为不同类型的设备。例如，基于告警信息和/或音频突变识别结果，获知监控区域发生火灾，第三目标设备可以包括喷淋装置，用户希望通过远程控制喷淋装置开启进行灭火；基于告警信息和/或音频突变识别结果，获知监控区域发生人员一氧化碳中毒，第三目标设备可以包括智能门窗和/或通风设备，用户希望通过远程控制喷淋装置开启智能门窗和/或通风设备，加快空气流通，减轻人员的中毒症状；基于告警信息和/或音频突变识别结果，获知监控区域发生人员呼救，第三目标设备可以包括摄像头，用户希望通过远程控制摄像头采集监控区域的图像，更好地获知监控区域的情况。

向目标控制指令对应的第三目标设备发送目标控制指令，以使得第三目标设备执行述目标控制指令。

具体地，目标控制指令可以携带有第三目标设备的信息。目标控制指令携带了其信息的电子设备为目标控制指令对应的第三目标设备。

用于监控的音频突变检测装置接收该目标控制指令之后，可以基于该目标控制指令携带的信息，确定第三目标设备。确定第三目标设备之后，用于监控的音频突变检测装置可以向第三目标设备发送该目标控制指令。

第三目标设备接收该目标控制指令之后，可以执行该目标控制指令，实现及时消除监控区域的危险和/或进一步获知监控区域的危险的具体信息。

本发明实施例通过将第一目标设备发送的目标控制指令，向目标控制指令对应的第三目标设备转发，以使得第三目标设备执行述目标控制指令，能实现及时消除监控区域的危险和/或进一步获知监控区域的危险的具体信息，能保证监控区域的安全。

下面对本发明提供的用于监控的音频突变检测装置进行描述，下文描述的用于监控的音频突变检测装置与上文描述的用于监控的音频突变检测方法可相互对应参照。

图2是根据本发明实施例提供的用于监控的音频突变检测装置的结构示意图。基于上述任一实施例的内容，如图2所示，该装置包括音频获取模块201、突变检测模块202和音频发送模块203，其中：

音频获取模块201，用于获取N帧目标音频信号；

突变检测模块202，用于在基于N帧目标音频信号确定发生音频突变的情况下，基于N帧目标音频信号及N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；

音频发送模块203，用于向第一目标设备发送音频突变识别结果，以使得第一目标设备对音频突变识别结果进行识别，获得告警信息，向第二目标设备发送告警信息和/或音频突变识别结果；

其中，N为正整数；M为正整数。

具体地，音频获取模块201、突变检测模块202和音频发送模块203顺次电连接。

音频获取模块201可以基于滑动时间窗口，获取N帧目标音频信号。目标音频信号，可以为通过麦克风等音频输入设备实时采集监控区域的音频，形成的音频信号。

突变检测模块202可以计算N帧目标音频信号的短时能量，基于N帧目标音频信号的短时能量，确定是否发生音频突变。

若N帧目标音频信号的短时能量达到一定的阈值，则突变检测模块202可以确定发生音频突变。

若确定发生音频突变，则可以突变检测模块202将上述N帧目标音频信号中的第一帧确定为截取的起点，截取连续的(N+M)帧目标音频信号，作为音频突变识别结果，将音频突变识别结果存储于目标音频文件中。

音频发送模块203可以直接与第一目标设备进行通信，发送目标音频文件；也可以基于通信网络向第一目标设备发送目标音频文件。

可选地，突变检测模块202可以包括：

突变检测子模块，用于在N帧目标音频信号的平均能量大于目标阈值的情况下，确定发生音频突变。

需要说明的是，该用于监控的音频突变检测装置，可以与包括麦克风等音频输入设备的、通常的语音智能家电设备电连接或通信连接，获取语音智能家电设备的音频输入设备采集的目标音频信号，从而能在不增加额外硬件成本的情况下，实现更方便、全面、隐私的监控。

可选地，突变检测子模块可以包括：

总能量获取单元，用于基于N帧目标音频信号中每帧目标音频信号的幅度，获取N帧目标音频信号的总能量；

平均能量单元，用于基于每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取N帧目标音频信号的平均能量。

可选地，平均能量单元可以包括：

修正子单元，用于基于N帧目标音频信号中每帧目标音频信号的幅度和N帧目标音频信号的总能量，获取每帧目标音频信号的修正幅度；

获取子单元，用于基于每帧目标音频信号的修正幅度，获取N帧目标音频信号的平均能量。

可选地，告警信息包括音频突变识别结果对应的告警等级。

可选地，用于监控的音频突变检测装置可以还包括：

指令接收模块，用于接收第一目标设备发送的目标控制指令；

指令下发模块，用于向目标控制指令对应的第三目标设备发送目标控制指令，以使得第三目标设备执行述目标控制指令。

本发明实施例提供的用于监控的音频突变检测装置，用于执行本发明上述用于监控的音频突变检测方法，其实施方式与本发明提供的用于监控的音频突变检测方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

该用于监控的音频突变检测装置用于前述各实施例的用于监控的音频突变检测方法。因此，在前述各实施例中的用于监控的音频突变检测方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

基于上述任一实施例的内容，一种家用电器包括：麦克风和上述任一种用于监控的音频突变检测装置。

具体地，该家用电器可以为设置有麦克风的语音智能家电。该家用电器可以以各种形式来实施。例如，本发明实施例中描述的家用电器可以为电视机、洗衣机、电冰箱、空调器、智能音箱、智能网关或台灯等类型的家用电器。

监控区域可以为家中的某个房间或客厅等。麦克风，可以用于实时采集监控区域的音频，形成目标音频信号。

用于监控的音频突变检测装置，可以基于上述目标音频信号，进行音频突变的检测。用于监控的音频突变检测装置的工作过程可以参见上述任一用于监控的音频突变检测方法实施例或用于监控的音频突变检测装置实施例，此处不再赘述。

该家用电器，是在通常的语音智能家电设备的基础上，增加用于监控的音频突变检测装置，可以基于该家用电器，实现在不增加额外硬件成本的情况下，进行更方便、全面、隐私的监控。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330中并可在处理器310上运行的逻辑指令，以执行上述各方法实施例提供的用于监控的音频突变检测方法，该方法包括：获取N帧目标音频信号；在基于N帧目标音频信号确定发生音频突变的情况下，基于N帧目标音频信号及N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；向第一目标设备发送音频突变识别结果，以使得第一目标设备对音频突变识别结果进行识别，获得告警信息，向第二目标设备发送告警信息和/或音频突变识别结果；其中，N为正整数；M为正整数。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的电子设备中的处理器310可以调用存储器330中的逻辑指令，其实施方式与本发明提供的用于监控的音频突变检测方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的用于监控的音频突变检测方法，该方法包括：获取N帧目标音频信号；在基于N帧目标音频信号确定发生音频突变的情况下，基于N帧目标音频信号及N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；向第一目标设备发送音频突变识别结果，以使得第一目标设备对音频突变识别结果进行识别，获得告警信息，向第二目标设备发送告警信息和/或音频突变识别结果；其中，N为正整数；M为正整数。

本发明实施例提供的计算机程序产品被执行时，实现上述用于监控的音频突变检测方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的用于监控的音频突变检测方法，该方法包括：获取N帧目标音频信号；在基于N帧目标音频信号确定发生音频突变的情况下，基于N帧目标音频信号及N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；向第一目标设备发送音频突变识别结果，以使得第一目标设备对音频突变识别结果进行识别，获得告警信息，向第二目标设备发送告警信息和/或音频突变识别结果；其中，N为正整数；M为正整数。

本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述用于监控的音频突变检测方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于监控的音频突变检测方法，其特征在于，包括：

获取N帧目标音频信号；其中，获取第K帧目标音频信号之后，可以获取第K-N+1至第K帧目标音频信号，作为所述N帧目标音频信号；

在基于所述N帧目标音频信号确定发生音频突变的情况下，基于所述N帧目标音频信号及所述N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；其中，N为正整数；M为正整数；

其中，在音频突变识别结果包括语音数据的情况下，识别语音数据的内容，获取语音数据对应的文本；在音频突变识别结果包括非语音数据的情况下，可以识别非语音数据的类型；基于音频突变识别结果是否包括语音数据，所述告警信息包括语音数据对应的文本和/或非语音数据的类型；

其中，所述基于所述N帧目标音频信号确定发生音频突变，具体包括：

在所述N帧目标音频信号的平均能量大于目标阈值的情况下，确定发生音频突变；其中，所述目标阈值可以为动态的阈值，所述目标阈值为基于所述N帧目标音频信号的幅度的平均值、方差和标准差中的至少一个确定的。

2.根据权利要求1所述的用于监控的音频突变检测方法，其特征在于，获取所述N帧目标音频信号的平均能量，具体包括：

3.根据权利要求2所述的用于监控的音频突变检测方法，其特征在于，所述基于所述每帧所述目标音频信号的幅度和所述N帧目标音频信号的总能量，获取所述N帧目标音频信号的平均能量，具体包括：

4.根据权利要求1所述的用于监控的音频突变检测方法，其特征在于，所述告警信息包括所述音频突变识别结果对应的告警等级。

5.根据权利要求1至4任一所述的用于监控的音频突变检测方法，其特征在于，所述向第一目标设备发送所述音频突变识别结果之后，还包括：

接收所述第一目标设备发送的目标控制指令；

6.一种用于监控的音频突变检测装置，其特征在于，包括：

音频获取模块，用于获取N帧目标音频信号；其中，获取第K帧目标音频信号之后，可以获取第K-N+1至第K帧目标音频信号，作为所述N帧目标音频信号；

突变检测模块，用于在基于所述N帧目标音频信号确定发生音频突变的情况下，基于所述N帧目标音频信号及所述N帧目标音频信号后续的M帧目标音频信号，获得音频突变识别结果；其中，N为正整数；M为正整数；

其中，在音频突变识别结果包括语音数据的情况下，识别语音数据的内容，获取语音数据对应的文本；在音频突变识别结果包括非语音数据的情况下，可以识别非语音数据的类型；基于音频突变识别结果是否包括语音数据，音频突变识别结果包括语音数据对应的文本和/或非语音数据的类型；

其中，所述突变检测模块，具体用于：在所述N帧目标音频信号的平均能量大于目标阈值的情况下，确定发生音频突变；其中，所述目标阈值可以为动态的阈值，所述目标阈值为基于所述N帧目标音频信号的幅度的平均值、方差和标准差中的至少一个确定的。

7.一种家用电器，其特征在于，包括：麦克风和如权利要求6所述的用于监控的音频突变检测装置。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的用于监控的音频突变检测方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的用于监控的音频突变检测方法的步骤。