CN111653067A

CN111653067A - 智能家居设备及基于音频的报警方法

Info

Publication number: CN111653067A
Application number: CN202010537436.XA
Authority: CN
Inventors: 范娜娜
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-11

Abstract

本申请实施例提供了智能家居设备及基于音频的报警方法，音频数据监听单元监听应用场景中的声音，当监听到的声音的强度大于预设强度阈值时，激活音频事件检测单元，并将监听到的声音发送给音频事件检测单元；音频事件检测单元在被激活后，基于预先训练的深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将目标音频事件发送给音频事件报警单元；音频事件报警单元在接收到目标音频事件时，执行目标音频事件对应的报警操作。利用声音进行事件检测，相比与利用图像进行事件检测，能够大大减少计算量当检测到目标音频事件时，才进行报警操作，因此可以过滤掉无关声音事件的报警，既可以减轻功耗，也可以提高用户体验。

Description

智能家居设备及基于音频的报警方法

技术领域

本申请涉及智能家居技术领域，特别是涉及智能家居设备及基于音频的报警方法。

背景技术

随着人们安全意识的提高，智能家居技术迅速发展，并给人们提供了更加安全便捷的生活环境。相关的智能家居设备中，一般通过摄像装置对布控环境进行图像采集，并通过计算机视觉技术对采集的图像进行分析，检测是否发生了需要报警的事件，并根据事件检测结果进行报警。但是基于计算机视觉技术的图像分析技术的计算量较大，对智能家居设备的计算能力要求很高。

发明内容

本申请实施例的目的在于提供一种智能家居设备及基于音频的报警方法，以实现降低针对智能家居设备的计算能力的要求。具体技术方案如下：

第一方面，本申请实施例提供了一种智能家居设备，包括：

音频模块，所述音频模块包括音频数据监听单元、音频事件检测单元及音频事件报警单元；

所述音频数据监听单元，用于监听应用场景中的声音，当监听到的声音的强度大于预设强度阈值时，激活所述音频事件检测单元，并将监听到的声音发送给所述音频事件检测单元；

所述音频事件检测单元，用于在被激活后，基于预先训练的深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将所述目标音频事件发送给所述音频事件报警单元；

所述音频事件报警单元，用于在接收到所述目标音频事件时，执行所述目标音频事件对应的报警操作。

在一种可能的实施方式中，所述音频事件检测单元还用于：在被激活后，若在连续的预设时段内未检测到目标音频事件，进入休眠状态。

在一种可能的实施方式中，所述智能家居设备还包括：图像采集模块；

所述音频事件报警单元，具体用于接收到所述目标音频事件时，向所述图像采集模块发送录制指令；

所述图像采集模块，用于在接收到所述录制指令后，录制监控区域中的图像数据。

在一种可能的实施方式中，所述智能家居设备还包括：通信模块；

所述音频数据监听单元，具体用于监听应用场景中的声音；当监听到的声音的强度大于预设强度阈值、且所述通信模块无法接入网络的情况下，激活所述音频事件检测单元，并将监听到的声音发送给所述音频事件检测单元；当监听到的声音的强度大于预设强度阈值、且所述通信模块能够接入网络的情况下，将接收到的声音通过所述通信模块发送给服务器端，以使所述服务器端基于第二深度学习模型对接收到的声音进行分析，确定发生的目标音频事件；

所述音频事件检测单元，用于在被激活后，基于本地的第一深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将所述目标音频事件发送给所述音频事件报警单元，其中，所述第二深度学习模型的准确率高于第一深度学习模型的准确率。

在一种可能的实施方式中，所述通信模块，用于在接收到服务器端发送的所述目标音频事件时，将所述目标音频事件发送给所述音频事件报警单元。

第二方面，本申请实施例提供了一种基于音频的报警方法，应用于智能家居设备，所述智能家居设备包括音频模块，所述音频模块包括音频数据监听单元、音频事件检测单元及音频事件报警单元，所述方法包括：

所述音频数据监听单元监听应用场景中的声音，当监听到的声音的强度大于预设强度阈值时，激活所述音频事件检测单元，并将监听到的声音发送给所述音频事件检测单元；

所述音频事件检测单元在被激活后，基于预先训练的深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将所述目标音频事件发送给所述音频事件报警单元；

所述音频事件报警单元在接收到所述目标音频事件时，执行所述目标音频事件对应的报警操作。

在一种可能的实施方式中，所述方法还包括：

在所述音频事件检测单元被激活后，若在连续的预设时段内未检测到目标音频事件，所述音频事件检测单元进入休眠状态。

在一种可能的实施方式中，所述音频事件报警单元在接收到所述目标音频事件时，执行所述目标音频事件对应的报警操作，包括：

所述音频事件报警单元在接收到所述目标音频事件时，向图像采集模块发送录制指令，以使所述图像采集模块在接收到所述录制指令后录制监控区域中的图像数据。

在一种可能的实施方式中，所述智能家居设备还包括通信模块，所述音频数据监听单元监听应用场景中的声音，当监听到的声音的强度大于预设强度阈值时，激活所述音频事件检测单元，并将监听到的声音发送给所述音频事件检测单元，包括：

所述音频数据监听单元监听应用场景中的声音；当监听到的声音的强度大于预设强度阈值、且所述通信模块无法接入网络的情况下，激活所述音频事件检测单元，并将监听到的声音发送给所述音频事件检测单元；

所述音频事件检测单元在被激活后，基于预先训练的深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将所述目标音频事件发送给所述音频事件报警单元，包括：

所述音频事件检测单元，用于在被激活后，基于本地的第一深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将所述目标音频事件发送给所述音频事件报警单元；

所述方法还包括：

当监听到的声音的强度大于预设强度阈值、且所述通信模块能够接入网络的情况下，所述音频数据监听单元将接收到的声音通过所述通信模块发送给服务器端，以使所述服务器端基于第二深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，其中，所述第二深度学习模型的准确率高于第一深度学习模型的准确率。

在一种可能的实施方式中，所述方法还包括：

所述通信模块在接收到服务器端发送的所述目标音频事件时，将所述目标音频事件发送给所述音频事件报警单元。

本申请实施例提供的智能家居设备及基于音频的报警方法，音频数据监听单元监听应用场景中的声音，当监听到的声音的强度大于预设强度阈值时，激活音频事件检测单元，并将监听到的声音发送给音频事件检测单元；音频事件检测单元在被激活后，基于预先训练的深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将目标音频事件发送给音频事件报警单元；音频事件报警单元在接收到目标音频事件时，执行目标音频事件对应的报警操作。利用声音进行事件检测，相比与利用图像进行事件检测，能够大大减少计算量，降低了对智能家居设备的计算能力的要求，无需利用GPU等昂贵的处理器部件，从而节约了智能家居设备的成本。并且实现对环境中的声音进行准确地类别检测，有别于相关技术中的其他声音监控设备，并不是只要有声音就进行监控报警，而是先根据内置算法对声音类型进行分析判定，当检测到符合用户所关注的目标音频事件的声音时，才进行报警操作，因此可以过滤掉大部分的无关声音事件的报警，既可以减轻功耗，也可以提高用户体验。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的智能家居设备的第一种示意图；

图2为本申请实施例的智能家居设备的第二种示意图；

图3为本申请实施例的智能家居设备的第三种示意图；

图4为本申请实施例的智能家居设备的第四种示意图；

图5为本申请实施例的基于音频的报警方法的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请中的专业术语进行解释：

声音激活检测：判断是否有声音出现，进而选择调用功能模块。

声音事件检测：对特定的声音事件，例如人声，脚步声，开锁声，敲门声等，进行接收、识别和判断的一种技术。包括不限于事件存在性检测分类、时间起始点检测等等。

相关的智能家居设备中，一般通过摄像装置对布控环境进行图像采集，并通过计算机视觉技术对采集的图像进行分析，检测是否发生了需要报警的事件，并根据事件检测结果进行报警。但是基于计算机视觉技术的图像分析技术的计算量较大，对智能家居设备的计算能力要求很高，需要利用GPU(图像处理器)等较为昂贵的处理器部件才能完成，从而增加了智能家居设备的成本。

有鉴于此，本申请实施例提供了一种智能家居设备，参见图1，包括：

音频模块11，所述音频模块11包括音频数据监听单元111、音频事件检测单元112及音频事件报警单元113。

所述音频数据监听单元111，用于监听应用场景中的声音，当监听到的声音的强度大于预设强度阈值时，激活所述音频事件检测单元112，并将监听到的声音发送给所述音频事件检测单元112。

所述音频事件检测单元112，用于在被激活后，基于预先训练的深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将所述目标音频事件发送给所述音频事件报警单元113。

所述音频事件报警单元113，用于在接收到所述目标音频事件时，执行所述目标音频事件对应的报警操作。

具体的，本申请实施例提的智能家居设备可以未智能猫眼或智能门锁等。音频数据监听单元111保持对应用场景中的声音进行监听，当监听到的声音的强度大于预设强度阈值时，激活音频事件检测单元112，并将监听到的声音发送给音频事件检测单元112。预设强度阈值可以按照实际情况自定义设置，例如，可以设置为30分贝-60分贝中的任一数值。

音频事件检测单元112在未被激活时，处于休眠状态，能耗很低。当音频事件检测单元112被激活后，基于预先训练的深度学习模型对接收到的声音进行分析，从而确定接收到的声音的音频事件检测结果，并将音频事件检测结果发送给音频事件报警单元113。当音频事件检测结果表示发送目标音频事件时，音频事件报警单元113执行目标音频事件对应的报警操作。

目标音频事件包括但不限于：人声事件，脚步声事件，开锁声事件，敲门声事件等。报警操作可以为开启录像、发送提醒、警报、播放提示音等。不同的目标音频事件可以对应不同的报警操作，目标音频事件对应的报警操作具体可以按照实际情况自定义设置。例如“脚步声事件”对应“开启录像”；“敲门声事件”对应“开启录像+发送提醒”等。所需要关注的目标音频事件类别以及对应的报警操作可以由用户预先设置。

深度学习模型为预先训练的，其训练过程可以包括：获取样本声音数据集，其中，样本声音数据集包括多个样本声音数据，针对任一样本声音数据，该样本声音数据标记有该样本声音数据对应的真实目标音频事件，例如，敲门声、拍门声、开关门、脚步声、说话声、喊叫声等等。在样本声音数据集中选取样本声音数据输入到深度学习模型中，得到预测音频事件结果。根据选取的样本声音数据预测音频事件结果与真实目标音频事件计算模型损失，并根据模型损失调整深度学习模型的参数，直至模型损失收敛，得到训练好的深度学习模型。

在本申请实施例中，利用声音进行事件检测，相比与利用图像进行事件检测，能够大大减少计算量，降低了对智能家居设备的计算能力的要求，无需利用GPU等昂贵的处理器部件，从而节约了智能家居设备的成本。并且实现对环境中的声音进行准确地类别检测，有别于相关技术中的其他声音监控设备，并不是只要有声音就进行监控报警，而是先根据内置算法对声音类型进行分析判定，当检测到符合用户所关注的目标音频事件的声音时，才进行报警操作，因此可以过滤掉大部分的无关声音事件的报警，既可以减轻功耗，也可以提高用户体验。

在一种可能的实施方式中，所述音频事件检测单元112还用于：在被激活后，若在连续的预设时段内未检测到目标音频事件，进入休眠状态。

若在连续的预设时段内未检测到目标音频事件，音频事件检测单元112进入休眠状态，直至再次被音频数据监听单元111激活。

在本申请实施例中，若在连续的预设时段内未检测到目标音频事件，音频事件检测单元112进入休眠状态，可以减轻功耗。

在一种可能的实施方式中，参见图2，所述智能家居设备还包括：图像采集模块12。

所述音频事件报警单元112，具体用于接收到所述目标音频事件时，向所述图像采集模块12发送录制指令。

所述图像采集模块12，用于在接收到所述录制指令后，录制监控区域中的图像数据。

例如当音频事件报警单元112接收到脚步声事件时，向图像采集模块12发送录制指令；图像采集模块12在接收到录制指令时，录制监控区域中的图像数据。在未接收到录制指令时，图像采集模块12可以处于休眠状态，从而降低能耗。

在一种可能的实施方式中，参见图3，所述智能家居设备还包括：扬声器模块13。

所述音频事件报警单元112，具体用于接收到所述目标音频事件时，向所述扬声器模块13发送所述目标音频事件对应的语言指令。

所述扬声器模块13，用于在接收到所述语言指令后，播放所述语言指令对应的提示音。

例如，当目标音频事件为开锁声事件时，利用扬声器发出正在开锁的提示音；当目标音频事件为敲门声事件时，利用扬声器发出有人敲门的提示音等。

在一种可能的实施方式中，参见图4，所述智能家居设备还包括：通信模块14。

所述音频数据监听单元111，具体用于监听应用场景中的声音；当监听到的声音的强度大于预设强度阈值、且所述通信模块14无法接入网络的情况下，激活所述音频事件检测单元112，并将监听到的声音发送给所述音频事件检测单元112；当监听到的声音的强度大于预设强度阈值、且所述通信模块能够接入网络的情况下，将接收到的声音通过所述通信模块14发送给服务器端，以使所述服务器端基于第二深度学习模型对接收到的声音进行分析，确定发生的目标音频事件。

所述音频事件检测单元112，用于在被激活后，基于本地的第一深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将所述目标音频事件发送给所述音频事件报警单元，其中，所述第二深度学习模型的准确率高于第一深度学习模型的准确率。

通信模块14无法接入网络的情况包括没有可用网络、用户禁用网络或用户关闭联网功能等情况。可选的，在服务器端，可以对接收到的声音进行真值标记，从而对第二深度学习模型或/或第一深度学习模型进行进一步的训练，以进一步提高第二深度学习模型进行的准确度。也可以通过服务器端更新音频事件检测单元112本地的第一深度学习模型。

一般情况下，模型的准确率与计算量是正相关的。在本申请实施例中，第二深度学习模型的准确率高于第一深度学习模型的准确率，当智能家居设备能够利用通信模块14接入网络时，利用服务器端的第二深度学习模型检测目标音频事件，能够提高事件检测的准确度；当智能家居设备无法利用通信模块14接入网络时，利用音频事件检测单元112本地的第一深度学习模型检测目标音频事件，能够减少计算的复杂度。

服务器端可以直接根据目标音频事件执行相应的报警操作，例如，向用户预留的手机发送提醒信息，或向网络摄像机发送录制指定等。但是在一些情况下，报警操作需要通过智能家居设备去执行，在一种可能的实施方式中，所述通信模块14，用于在接收到服务器端发送的所述目标音频事件时，将所述目标音频事件发送给所述音频事件报警单元113。

在一种可能的实施方式中，所述音频数据监听单元111，还用于：当监听到的声音的强度大于预设强度阈值时，确定监听到的声音的声源方向，并向所述音频事件检测单元发送当前的声源方向。

所述音频事件检测单元112，还用于在所述音频事件检测结果表示发生目标音频事件时，向所述图像采集模块12发送当前的声源方向。

所述图像采集模块12，还用于根据接收到的当前的声源方向，调整监控区域。

在本申请实施例中，音频数据监听单元111具备声源方向识别的功能，且图像采集模块12的监控区域可调，利用声源方向，能够帮助图像采集模块12更加准确的拍摄到有效的信息。

本申请还提供了一种基于音频的报警方法，应用于智能家居设备，所述智能家居设备包括音频模块，所述音频模块包括音频数据监听单元、音频事件检测单元及音频事件报警单元，参见图5，所述方法包括：

S101，所述音频数据监听单元监听应用场景中的声音，当监听到的声音的强度大于预设强度阈值时，激活所述音频事件检测单元，并将监听到的声音发送给所述音频事件检测单元；

S102，所述音频事件检测单元在被激活后，基于预先训练的深度学习模型对接收到的声音进行分析，确定发生的目标音频事件，并将所述目标音频事件发送给所述音频事件报警单元；

S103，所述音频事件报警单元在接收到所述目标音频事件时，执行所述目标音频事件对应的报警操作。

在一种可能的实施方式中，所述方法还包括：

所述方法还包括：

在一种可能的实施方式中，所述方法还包括：

当所述音频数据监听单元监听到的声音的强度大于预设强度阈值时，所述音频数据监听单元确定监听到的声音的声源方向，并向所述音频事件检测单元发送当前的声源方向；

在所述音频事件检测结果表示发生目标音频事件时，所述音频事件检测单元向所述图像采集模块发送当前的声源方向，以使所述图像采集模块根据接收到的当前的声源方向，调整监控区域。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一基于音频的报警方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一基于音频的报警方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种智能家居设备，其特征在于，包括：

2.根据权利要求1所述的设备，其特征在于，所述音频事件检测单元还用于：在被激活后，若在连续的预设时段内未检测到目标音频事件，进入休眠状态。

3.根据权利要求1所述的设备，其特征在于，所述智能家居设备还包括：图像采集模块；

4.根据权利要求1所述的设备，其特征在于，所述智能家居设备还包括：通信模块；

5.根据权利要求4所述的设备，其特征在于，所述通信模块，用于在接收到服务器端发送的所述目标音频事件时，将所述目标音频事件发送给所述音频事件报警单元。

6.一种基于音频的报警方法，其特征在于，应用于智能家居设备，所述智能家居设备包括音频模块，所述音频模块包括音频数据监听单元、音频事件检测单元及音频事件报警单元，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求6所述的方法，其特征在于，所述音频事件报警单元在接收到所述目标音频事件时，执行所述目标音频事件对应的报警操作，包括：

9.根据权利要求6所述的方法，其特征在于，所述智能家居设备还包括通信模块，所述音频数据监听单元监听应用场景中的声音，当监听到的声音的强度大于预设强度阈值时，激活所述音频事件检测单元，并将监听到的声音发送给所述音频事件检测单元，包括：

所述方法还包括：

10.根据权利要求6所述的方法，其特征在于，所述方法还包括：