CN112580390A

CN112580390A - 基于智能音箱的安防监控方法、装置、音箱和介质

Info

Publication number: CN112580390A
Application number: CN201910927039.0A
Authority: CN
Inventors: 李文博
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2021-03-30
Anticipated expiration: 2039-09-27
Also published as: CN112580390B

Abstract

本申请公开了一种基于智能音箱的安防监控方法、装置、音箱和介质，涉及人工智能领域。具体实现方案为：基于智能音箱的采集装置进行视频采集或音频采集，作为多媒体形式的监控信息；基于预设场景识别策略，对监控信息进行场景识别；基于预设场景处理策略，对识别到的场景进行响应处理。本申请实施例通过智能音箱进行视频采集或音频采集，并根据采集到的视频信息或音频信息，基于预设场景策略，对采集到的信息进行分析处理。本申请实施例的技术方案，智能音箱可充分发挥其硬件优势，且有效利用其已有业务功能的使用过程，来辅助安防监控功能的实现。

Description

基于智能音箱的安防监控方法、装置、音箱和介质

技术领域

本申请涉及数据和图像处理技术，尤其涉及人工智能技术，具体涉及一种基于智能音箱的安防监控方法、装置、音箱和介质。

背景技术

随着大家安全意识的提高，安防监控需求越来越多。在安防监控市场，目前普遍采用摄像头来进行实时录像，基于录像或视频画面的内容完成监控。

但是，摄像头所能够实现的安防监控策略相对单一，且不具有个性化特色，难以满足用户日趋复杂的需求。

发明内容

本申请实施例提供一种基于智能音箱的安防监控方法、装置、音箱和介质，以实现安防监控的智能化和个性化。

第一方面，本申请实施例提供一种基于智能音箱的安防监控方法，该方法包括：

基于所述智能音箱的采集装置进行视频采集或音频采集，作为多媒体形式的监控信息；

基于预设场景识别策略，对所述监控信息进行场景识别；

基于预设场景处理策略，对识别到的场景进行响应处理。

上述申请中的一个实施例具有如下优点或有益效果：提供一种基于智能音箱的安防监控方法，能够基于预设场景策略，对采集到的信息进行分析处理。克服了智能音箱难以对采集到的信息进行识别判断的技术问题，进而达到对特定目的地实行看护监控的效果。

可选的，还包括：

根据所述智能音箱的历史使用记录确定所述预设场景识别策略和/或所述预设场景处理策略。

上述申请中的一个实施例具有如下优点或有益效果：能够通过智能音箱的历史使用记录确定预设场景策略，以供根据相应的预设场景策略对采集到的信息进行处理。

可选的，根据所述智能音箱的历史使用记录确定所述预设场景识别策略和/或所述预设场景处理策略包括：

根据所述智能音箱的历史使用记录确定所述智能音箱的至少一个主要用户，以及所述主要用户的声纹信息和/或脸部信息；

根据所述主要用户的声纹信息和/或脸部信息，确定所述预设场景识别策略和/或所述预设场景处理策略中的标准声纹和/或标准脸部，所述标准声纹和/或标准脸部用于区分异常声纹和/或异常脸部。

上述申请中的一个实施例具有如下优点或有益效果：能够根据主要用户的信息确定预设场景策略中的相应标准信息，以供使用该信息判定异常信息。

可选的，基于预设场景识别策略，对所述监控信息进行场景识别包括：

根据所述监控信息，识别当前场景中出现的实时声纹和/或实时脸部；

根据所述预设场景识别策略中的标准声纹和/或标准脸部，如果确定所述实时声纹和/或实时脸部为陌生声纹和/或陌生脸部，则确定当前场景为待响应场景。

上述申请中的一个实施例具有如下优点或有益效果：能够根据预设场景策略中的标准信息判断当前信息是否为异常信息，以此确定出当前场景的状态。

根据所述监控信息，识别当前场景中出现的实时脸部；

根据所述预设场景识别策略中的遮挡条件，如果识别到所述实时脸部中出现符合所述遮挡条件，则确定当前场景为待响应场景。

上述申请中的一个实施例具有如下优点或有益效果：能够通过识别出的脸部信息，并根据预设场景识别策略中的遮挡条件，判断当前场景是否为待响应场景。

根据所述预设场景识别策略中的标准声纹和/或标准脸部，如果确定所述实时声纹和/或实时脸部为标准声纹和/或标准脸部，则确定出现主要用户；

相应的，基于预设场景处理策略，对识别到的场景进行响应处理包括：

基于预设场景处理策略，对所述主要用户的实时信息进行记录，所述实时信息包括当前时间和/或当前行为。

上述申请中的一个实施例具有如下优点或有益效果：能够通过监控信息识别出当前人员中是否有主要用户，并对该主要用于的实时信息进行记录。

根据所述监控信息，识别当前场景中出现的实时声纹；

根据所述预设场景识别策略，如果识别到的实时声纹满足异常条件，则确定当前场景为待响应场景，其中，所述异常条件包括哭闹声音或争吵声音。

上述申请中的一个实施例具有如下优点或有益效果：能够根据监控信息识别出当前场景中的实时声纹，并判断该实时声纹是否异常，以此确定当前场景是否为待响应场景。

可选的，基于预设场景识别策略，对所述监控信息进行场景识别之前，还包括：

对设定区域进行图像信息采集；

根据用户设定或对所述图像信息识别结果的统计结果，确定标准监控内容；

相应的，基于预设场景识别策略，对所述监控信息进行场景识别包括：

根据所述监控信息，识别当前场景的设定区域图像中出现的实时场景内容；

根据所述预设场景识别策略中的标准监控内容确定所述实时场景内容的变化；

如果所述实时场景内容发生变化，则确定当前场景为待响应场景。

上述申请中的一个实施例具有如下优点或有益效果：能够确定出的监控内容，基于预设场景识别策略，对该监控内容的具体信息进行场景识别。

可选的，基于预设场景处理策略，对识别到的场景进行响应处理包括：

如果基于预设场景处理策略确定识别到的当前场景是待响应场景，则根据所述预设场景处理策略查询对应的响应策略；

根据所述响应策略执行响应处理，其中，所述响应策略包括下述至少一项：

通过所述智能音箱的扬声器进行报警；

通过所述智能音箱的客户端基于通信方式向设定客户端发送报警信息；

将所述当前场景的信息进行记录。

上述申请中的一个实施例具有如下优点或有益效果：能够通过预设场景处理策略查询待响应场景对应的响应策略，以供对该待响应场景执行响应处理。

第二方面，本申请实施例提供一种基于智能音箱的安防监控装置，包括：

监控信息确定模块，用于基于所述智能音箱的采集装置进行视频采集或音频采集，作为多媒体形式的监控信息；

场景识别模块，用于基于预设场景识别策略，对所述监控信息进行场景识别；

响应处理模块，用于基于预设场景处理策略，对识别到的场景进行响应处理。

第三方面，本申请实施例提供一种音箱，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任意实施例所提供的基于智能音箱的安防监控方法。

第四方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机本申请任意实施例所提供的基于智能音箱的安防监控方法。

上述申请中的一个实施例具有如下优点或有益效果：提供一种基于智能音箱的安防监控方法，通过智能音箱进行视频采集或音频采集，并根据采集到的视频信息或音频信息，基于预设场景策略，对采集到的信息进行分析处理。克服了智能音箱难以对采集到的信息进行识别判断的技术问题，智能音箱可充分发挥其硬件优势，且有效利用其已有业务功能的使用过程，来辅助安防监控功能的实现。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例一提供的一种基于智能音箱的安防监控方法的流程图；

图2为本申请实施例二提供的一种基于智能音箱的安防监控方法的流程图；

图3为本申请实施例三提供的一种基于智能音箱的安防监控方法的流程图；

图4为本申请实施例四提供的一种基于智能音箱的安防监控方法的流程图；

图5为本申请实施例五提供的一种基于智能音箱的安防监控方法的流程图；

图6为本申请实施例六提供的一种基于智能音箱的安防监控方法的流程图；

图7是本申请实施例七提供的一种基于智能音箱的安防监控装置的结构示意图；

图8是本申请实施例八提供的一种音箱的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1为本申请实施例一提供的一种基于智能音箱的安防监控方法的流程图，本实施例的技术方案可以由安防监控装置来执行，该安防监控装置可以采用软件和/或硬件的方式实现，并集成于智能音箱中。智能音箱是指以音箱作为电子设备载体，集成于处理器和存储器，并安装有操作系统和应用软件，能够执行复杂功能的设备。智能音箱的硬件至少包括扬声器和麦克风，能够采集和播放音频，还可以进一步包括摄像头和显示屏，能够拍摄图像和视频，并播放多媒体数据。本实施例的技术方案，适用于利用了智能音箱的已有硬件，并改进了软件功能，能够使智能音箱增加了安防监控功能。本实施例的方法，如图1所示，具体如下：

S110、基于所述智能音箱的采集装置进行视频采集或音频采集，作为多媒体形式的监控信息。

采集装置具体可以是智能音箱的麦克风或摄像头，可以定时进行采集、实时进行采集、或在产生设定条件下触发进行采集。多媒体形式的监控信息可以是音频、图像或视频。

S120、基于预设场景识别策略，对所述监控信息进行场景识别。

S130、基于预设场景处理策略，对识别到的场景进行响应处理。

在智能音箱中，以场景来驱动安防监控功能的实时，且具体是分别基于预设场景识别策略和预设场景处理策略，对场景进行识别以及响应处理。智能音箱往往适用于某个特定空间中，如家庭、办公室或商铺等，在这些特定空间中，均会由于空间的特点而频繁出现特定场景，且需要对应的响应处理方式。例如，家庭中会出现老人、小孩需要进行看护，商铺中会出现物品的防盗监控需求等。

因此，本申请实施例以场景为对象来实现安防监控功能，能够更加有效的利用了智能音箱的使用特点，获得良好的监控效果。

在本申请实施例中，优选是还包括：根据所述智能音箱的历史使用记录确定所述预设场景识别策略和/或所述预设场景处理策略。

智能音箱除了安防监控功能之外，其基本业务功能是进行音频、视频的播放，以及智能交互问答等。这样基本业务功能在被用户使用的过程中，可以自动获得大量历史使用记录，且能够从中自动识别出用户的安防监控需求。具体是可从中确定出与场景识别策略、场景处理策略有关的信息。这些策略中信息的获取可以随着智能音箱的被使用而及时的进行更新。

获取策略信息的一种具体实现方式例如是：根据所述智能音箱的历史使用记录确定所述预设场景识别策略和/或所述预设场景处理策略包括：

上述方案中的场景识别策略和场景处理策略中，优选是基于标准声纹和/或标准脸部的图像来处理的。即主要思路是对于场景的识别和处理，是基于特定用户来区分的。特定用户一般是要区分主人和陌生人。

在本申请实施例中，智能音箱的历史使用记录可能是一个或多个用户共同使用的记录，则可以从中区分出主要用户。例如，在设定时长(例如一个月)内均持续出现的用户，可认为是该智能音箱的主要使用用户，可视为主人。而偶尔出现的则是非主要用户。对于主要用户，可在历史使用记录中采集其声纹信息、脸部信息。声纹信息可以在用户与智能音箱进行问答交互过程中采集。作为图像的脸部信息可以在用户与其他人进行视频通话时采集，或者可以在进行视频观看、语音交互的过程中开启摄像头来采集周围图像，从周围图像中截取用户的脸部信息。

主要用户的声纹信息和脸部信息，都可以在一次或多次历史使用记录中获得，并可以逐步完善信息和更新信息，以保持信息与主要用户的对应性。

主要用户的声纹信息和/或脸部信息可确定为所述预设场景识别策略和/或所述预设场景处理策略中的标准声纹和/或标准脸部，用于在场景识别和场景处理的过程中区分非主要用户。

当然，实际使用过程中，用户也可以主动进行声纹信息和脸部信息的注册。或者，经过历史使用记录确定的声纹信息和脸部信息，也可以进一步展示给用户来人工确认注册成为标准声纹和标准脸部。

基于预设场景处理策略，对识别到的场景进行响应处理可选是包括：

通过所述智能音箱的扬声器进行报警；

将所述当前场景的信息进行记录。

本申请实施例的技术方案，智能音箱可充分发挥其硬件优势，且有效利用其已有业务功能的使用过程，来辅助安防监控功能的实现。

下面将通过几个实施例介绍几种典型的安防监控功能。

实施例二

图2为本申请实施例二提供的一种基于智能音箱的安防监控方法的流程图，本实施例以前述实施例为基础，提供了针对陌生人的安防监控场景，具体包括：

S210、基于所述智能音箱的采集装置进行视频采集或音频采集，作为多媒体形式的监控信息。

针对陌生人的安防监控，通常可适用于无人监控的时间场景中，例如家中或办公室中，没人或没有成年人在，则可以启动陌生人监控模式，或者也可以持续启动陌生人监控模式，以启动摄像头或麦克风，进行视频或音频的实时采集。此时，可以将智能音箱放置于陌生人首先会出现的位置，如房间入口处。当然，也可以将智能音箱放置于需要防止陌生人出现的位置，例如办公区域中的某个保密区中。

S220、根据所述监控信息，识别当前场景中出现的实时声纹和/或实时脸部。

S230、根据所述预设场景识别策略中的标准声纹和/或标准脸部，如果确定所述实时声纹和/或实时脸部为陌生声纹和/或陌生脸部，则确定当前场景为待响应场景。

将场景识别策略中的标准声纹和/或标准脸部与实时采集的声纹和/或脸部图像进行比对，如果出现不一致的声纹或脸部图像，则说明出现了陌生人，即确定当前场景是出现了陌生人的待响应场景。

S240、基于预设场景处理策略，对识别到的场景进行响应处理。

针对出现陌生人的场景，可以选择多种响应方式，例如下述至少一种：

通过所述智能音箱的扬声器进行报警；

通过所述智能音箱的客户端基于通信方式向设定客户端发送报警信息；具体可以是通过智能音箱的服务器向智能音箱的其他用户移动终端的客户端来推送通知，当然也可以发送短信、拨打电话等。

将所述当前场景的信息进行记录。具体可以是截取留存视频图像，以备后续查看。

声纹信息是通过声音判断人声音属性信息的重要依据，声纹信息可以对已经记录注册的信息进行甄别判断

在本申请实施例中，基于图像的陌生人监控，与基于声纹的陌生人监控，可以同时实时采用，也可以分别采用，两者各有其优势。图像能够在陌生人不发出声响的前提下进行监控，而声纹能够监控的范围更宽，因此两者可结合采用，实现全面监控，保障安全。

实施例三

图3为本申请实施例三提供的一种基于智能音箱的安防监控方法的流程图，本实施例以前述实施例为基础，提供了针对异常人物的安防监控场景，具体包括：

S310、基于所述智能音箱的采集装置进行视频采集或音频采集，作为多媒体形式的监控信息。

S320、根据所述监控信息，识别当前场景中出现的实时脸部。

S330、根据所述预设场景识别策略中的遮挡条件，如果识别到所述实时脸部中出现符合所述遮挡条件，则确定当前场景为待响应场景。

本实施例与前述实施例相同点在于，同样可用于在家中或办公室中无人监控时启动安防监控模式，但区别在于，考虑到陌生人有可能遮挡脸部，无法有效识别，所以可进一步在所述预设场景识别策略中设置遮挡条件，例如，戴墨镜、口罩、戴帽子等对脸部有遮挡的情况。如果识别到实时脸部存在这样的遮挡情况，视为是异常人物，应进行响应处理。

S340、基于预设场景处理策略，对识别到的场景进行响应处理。

上述响应处理的方式可参见前述实施例的技术方案。

本实施例的技术方案，进一步丰富了预设场景识别策略，能够对异常人物的情况进行识别，并进行提醒等响应处理来提升安全性。

实施例四

图4为本申请实施例四提供的一种基于智能音箱的安防监控方法的流程图，本实施例以前述实施例为基础，提供了针对主要用户的行踪记录场景，具体包括：

S410、基于所述智能音箱的采集装置进行视频采集或音频采集，作为多媒体形式的监控信息。

S420、根据所述监控信息，识别当前场景中出现的实时声纹和/或实时脸部。

S430、根据所述预设场景识别策略中的标准声纹和/或标准脸部，如果确定所述实时声纹和/或实时脸部为标准声纹和/或标准脸部，则确定出现主要用户。

上述操作，首先通过场景识别策略，识别到主要用户的出现。可以是针对任意主要用户，也可以是针对某个指定的主要用户。

S440、基于预设场景处理策略，对所述主要用户的实时信息进行记录，所述实时信息包括当前时间和/或当前行为。

如果当前启动了用户行踪记录模式，则按照该用户行踪记录模式的预设场景处理策略，将主要用户的实时信息进行记录。实时信息可以是当前时间和/或当前行为。具体的，当前行为可以仅为出现行为，也可以更具体的是某些特定行为，例如危险行为，如孩子点火行为。优选是可记录各种时间和行为的二元组，并记录一个或多个二元组来确定用户行踪。例如，如果用户行为是从家庭入户门进入或出去，则视为回家或离家。如果某个用户的时间和行为二元组显示出间隔过长，即设定时长均没有出现该用户，则可以视为出现异常行为进行记录。

基于需要实时记录的场景，除记录响应之外，还可以进一步执行下述至少一种响应处理：

通过所述智能音箱的扬声器进行报警；

将所述当前场景的信息进行记录。

例如，可以每日生成家人出行记录，记录出门和走动的情况，可查看每日路过看护区域几次，停留多久，最早出现时间、最晚出现时间等。

还可设置专门提醒：某家庭成员已回家并被智能音箱的看护助手检测到时，进行APP通知的推送提醒。这样，如果家里孩子自己回家，不放心他的安全，通过App可以知道回家时间。又或者，可设置专门提醒：某家庭成员超过几点还未回家且未被看护助手检测到时，进行APP通知的推送提醒。例如，家里孩子或者老人出门一个人出门，不放心他的安全，通过App如果过了预期时间还没到家，就可立即知道。

本实施例的技术方案，进一步丰富了预设场景识别和处理策略，能够对主要用户的情况进行识别和记录，并进行提醒等响应处理来提升安全性。

实施例五

图5为本申请实施例五提供的一种基于智能音箱的安防监控方法的流程图，本实施例以前述实施例为基础，提供了针对异常场景进行识别的方案，具体包括：

S510、基于所述智能音箱的采集装置进行音频采集，作为多媒体形式的监控信息。

S520、根据所述监控信息，识别当前场景中出现的实时声纹。

S530、根据所述预设场景识别策略，如果识别到的实时声纹满足异常条件，则确定当前场景为待响应场景，其中，所述异常条件包括哭闹声音或争吵声音。

在本实施例中，主要关注是当前场景中是否出现了异常条件，可主要基于声纹来识别，例如出现哭闹或争吵，则视为出现了异常场景。典型的声音场景识别是，针对家中需要关注的特殊场景，例如：儿童婴儿哭闹、有人争吵等需要家人关注的情况。

对于声纹形式的异常条件，可通过大量样本训练机器学习模型，从而使用训练好的机器学习模型来识别特殊场景。可以理解的是，为了识别其他异常场景，也可以通过样本训练模型的方式来丰富场景类别。

可设定看护时间点，通过对声音场景识别，针对儿童婴儿哭闹、有人争吵等声音场景，可以进行识别判断，进行针对性的推送提醒。可以将智能音箱放置于看护客厅、婴儿的位置，如果室内发生争吵等情况、进行专门提示。

S540、基于预设场景处理策略，对识别到的场景进行响应处理。

本实施例的技术方案，进一步丰富了预设场景识别和处理策略，能够对异常场景情况进行识别和记录，并进行提醒等响应处理来提升安全性。

实施例六

图6为本申请实施例六提供的一种基于智能音箱的安防监控方法的流程图，本实施例以前述实施例为基础，提供了针对设定区域进行区域监控的方案，具体包括：

S610、对设定区域进行图像信息采集。

S620、根据用户设定或对所述图像信息识别结果的统计结果，确定标准监控内容。

本实施例中，需要以设定区域为对象进行监控，设定区域可以针对人的，也可以针对物体的。例如，如果看护的设定区域内有物体移动出区域，或者有其他物体进入此区域，就进行提醒和报警，并进行实时录制。可主要适用于：看护儿童(儿童床上)不离开看护区域，或者看护某区域内物体不被拿走。

由此，本实施的技术方案，可选的是预先获得标准监控内容，即该设定区域的常态画面内容。可通过对历史拍摄的大量图像进行统计，并根据统计结果确定其中稳定不变的物体或人物作为标准监控内容。

S630、基于所述智能音箱的采集装置进行视频采集，作为多媒体形式的监控信息。

S640、根据所述监控信息，识别当前场景的设定区域图像中出现的实时场景内容。

S650、根据所述预设场景识别策略中的标准监控内容确定所述实时场景内容的变化。

当设定区域中的标准监控内容发生变化时，如婴儿离开了婴儿床或保险柜离开了设定区域，则视为发生了设定的变化条件。对于变化，可以设定变化幅度阈值等变化条件。

S660、如果所述实时场景内容发生变化，则确定当前场景为待响应场景。

S670、基于预设场景处理策略，对识别到的场景进行响应处理。

本实施例的技术方案，进一步丰富了预设场景识别和处理策略，能够对设定区域进行专门的区域监控，并进行提醒等响应处理来提升安全性。

本申请各实施例的技术方案，能够充分利用智能音箱的硬件优势，满足各种安防需求，如看家、防贼、监控家中情况的需求，如果家中发生异常，则进行报警，并录制视频；能够实现看护家人能力，看护小孩、老人、宠物，如果亲人发生意外，进行报警，并录制视频。

本申请实施例所提供的智能音箱，能够进行实时监控：可实时查看监控画面；拍照和录制监控画面；还能支持调节云台摄像头角度、调整清晰度、静音设置等功能。还能够基于强大的软件资源进行智能看护，例如：设定特定时间段进行智能看护；有物体移动/有人移动时，发起自动录制、推送异常报警；可查看、保存、删除录制的视频；按时间回看录像；发起语音通话(直接接通)；实现云存储服务等。

实施例七

图7是本申请实施例六提供的一种基于智能音箱的安防监控装置的结构示意图，本实施例适用于利用了智能音箱的已有硬件，并改进了软件功能，能够使智能音箱增加了安防监控功能。可实现本申请任意实施例所述的基于智能音箱的安防监控方法。该装置具体包括如下：

监控信息确定模块710，用于基于所述智能音箱的采集装置进行视频采集或音频采集，作为多媒体形式的监控信息；

场景识别模块720，用于基于预设场景识别策略，对所述监控信息进行场景识别；

响应处理模块730，用于基于预设场景处理策略，对识别到的场景进行响应处理。

可选的，所述装置还包括：

策略确定模块740，用于根据所述智能音箱的历史使用记录确定所述预设场景识别策略和/或所述预设场景处理策略。

可选的，所述策略确定模块740，具体用于：

可选的，所述场景识别模块720，具体用于：

可选的，所述场景识别模块720，还具体用于：

根据所述监控信息，识别当前场景中出现的实时脸部；

可选的，所述场景识别模块720，还具体用于：

根据所述监控信息，识别当前场景中出现的实时声纹；

可选的，在所述场景识别模块720之前，所述装置还包括：

采集模块750，用于对设定区域进行图像信息采集；

监控内容确定模块760，用于根据用户设定或对所述图像信息识别结果的统计结果，确定标准监控内容；

相应的，场景识别策略720，还具体用于：

可选的，所述场景识别模块730，具体用于：

通过所述智能音箱的扬声器进行报警；

将所述当前场景的信息进行记录。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了监控信息的确定、场景的识别以及响应处理。本发明实施例通过智能音箱进行视频采集或音频采集，并根据采集到的视频信息或音频信息，基于预设场景策略，对采集到的信息进行分析处理。克服了智能音箱难以对采集到的信息进行识别判断的技术问题，智能音箱可充分发挥其硬件优势，且有效利用其已有业务功能的使用过程，来辅助安防监控功能的实现。

实施例八

根据本申请的实施例，本申请还提供了一种音箱和一种存储有计算机指令的非瞬时计算机可读存储介质。

如图8所示，是根据本申请实施例的基于智能音箱的安防监控方法的音箱的框图。音箱旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。音箱还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该音箱包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在音箱内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个音箱，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的基于智能音箱的安防监控方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的基于智能音箱的安防监控方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的基于智能音箱的安防监控方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的基于智能音箱的安防监控方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于智能音箱的安防监控的音箱的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至基于智能音箱的安防监控的音箱。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

基于智能音箱的安防监控方法的音箱还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与基于智能音箱的安防监控的音箱的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过智能音箱进行视频采集或音频采集，并根据采集到的视频信息或音频信息，基于预设场景策略，对采集到的信息进行分析处理。克服了智能音箱难以对采集到的信息进行识别判断的技术问题，智能音箱可充分发挥其硬件优势，且有效利用其已有业务功能的使用过程，来辅助安防监控功能的实现。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种基于智能音箱的安防监控方法，其特征在于，包括：

基于预设场景识别策略，对所述监控信息进行场景识别；

基于预设场景处理策略，对识别到的场景进行响应处理。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，根据所述智能音箱的历史使用记录确定所述预设场景识别策略和/或所述预设场景处理策略包括：

4.根据权利要求1-3任一所述的方法，其特征在于，基于预设场景识别策略，对所述监控信息进行场景识别包括：

5.根据权利要求1-3任一所述的方法，其特征在于，基于预设场景识别策略，对所述监控信息进行场景识别包括：

根据所述监控信息，识别当前场景中出现的实时脸部；

6.根据权利要求1-3任一所述的方法，其特征在于，基于预设场景识别策略，对所述监控信息进行场景识别包括：

7.根据权利要求1-3任一所述的方法，其特征在于，基于预设场景识别策略，对所述监控信息进行场景识别包括：

根据所述监控信息，识别当前场景中出现的实时声纹；

8.根据权利要求1所述的方法，其特征在于，基于预设场景识别策略，对所述监控信息进行场景识别之前，还包括：

对设定区域进行图像信息采集；

9.根据权利要求1-3任一所述的方法，其特征在于，基于预设场景处理策略，对识别到的场景进行响应处理包括：

通过所述智能音箱的扬声器进行报警；

将所述当前场景的信息进行记录。

10.一种基于智能音箱的安防监控装置，其特征在于，包括：

11.一种音箱，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的基于智能音箱的安防监控方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的基于智能音箱的安防监控方法。