CN117877488A

CN117877488A - 一种互联网音箱控制方法、计算机设备及可读存储介质

Info

Publication number: CN117877488A
Application number: CN202410277225.5A
Authority: CN
Inventors: 张国富; 焦颜明; 李辉; 穆允翔
Original assignee: Shenzhen Qiming Cloud Technology Co ltd
Current assignee: Shenzhen Qiming Cloud Technology Co ltd
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-04-12
Anticipated expiration: 2044-03-12
Also published as: CN117877488B

Abstract

本申请适用于物联网技术领域，提供了一种互联网音箱控制方法、计算机设备及可读存储介质，该方法包括：获取第一语音拓展装置所采集的第一用户语音信息；第一语音拓展装置为多个分布式语音拓展装置中的任一个；对第一用户语音信息进行离线语音识别处理，或上传至管理服务器进行语音识别处理，得到与第一用户语音信息相匹配的第一答复资源；当第一答复资源为语音回复信息时，通过互联网音箱将语音回复信息输出至第一语音拓展装置；当第一答复资源为智能终端设备控制指令时，通过互联网音箱发至受控的目标智能终端设备。本申请通过分布式语音拓展装置拓展了互联网音箱语音控制的空间范围，突破了语音控制的使用局限性，大大提高了用户体验。

Description

一种互联网音箱控制方法、计算机设备及可读存储介质

技术领域

本申请属于物联网技术领域，尤其涉及一种互联网音箱控制方法、计算机设备及可读存储介质。

背景技术

互联网音箱，也就是具备联网功能以及相关智能服务功能的音箱，通常也称智能音箱，互联网音箱的概念早在几年前就已经流行，随着互联网技术的进一步成熟、5G先进通讯技术、语音识别/控制技术的逐渐普及，物联网设备逐渐融入人们的生活。互联网音箱由于其可以直接通过语音就实现物联网设备的控制，相比于其他控制模式更加方便和懒人化，因此得到人们的热捧。

目前，互联网音箱一般在空间不大的室内使用基本上问题不大，但是若室内空间比较大，或者室内有较多的墙壁分隔，又或者在室外或者露天环境中，那么互联网音箱，往往只能接收、识别到其所处的房间的用户语音，无法对更远的空间传来的经过衰减的控制语音进行识别处理，使用范围较小，不够方便。

发明内容

本申请实施例提供了一种互联网音箱控制方法、计算机设备及可读存储介质，旨在解决现有的互联网音箱在空间上的范围较小的问题。

本申请实施例是这样实现的，一种互联网音箱控制方法，所述互联网音箱包含音箱主机、设置于所述音箱主机上的边缘网关模块，以及多个分布于当前环境中不同地理位置的分布式语音拓展装置；所述音箱主机包含有与所述边缘网关模块连接主机语音装置，所述多个分布式语音拓展装置与所述边缘网关模块无线连接；所述方法包括：

获取第一语音拓展装置所采集的第一用户语音信息；其中，第一语音拓展装置为所述多个分布式语音拓展装置中的任意一个；

对所述第一用户语音信息进行离线语音识别处理，或上传至所述管理服务器进行语音识别处理，以得到与所述第一用户语音信息相匹配的第一答复资源；

当所述第一答复资源为语音回复信息时，通过所述互联网音箱将所述语音回复信息输出至所述第一语音拓展装置；

当所述第一答复资源为智能终端设备控制指令时，通过所述互联网音箱的音箱主机下发至受控的目标智能终端设备。

作为本申请的一个实施例，还提供一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的互联网音箱控制方法的步骤。

作为本申请的一本实施例，还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的互联网音箱控制方法的步骤。

本申请的上文实施例中，互联网音箱包含有边缘网关模块，其可对当前空间内的多个分布式语音拓展装置的用户语音信息进行本地离线处理，或进行调度、安排，以上传至管理服务器进行在线语音处理。互联网音箱本身的主机语音装置与多个分布式语音拓展装置在硬件和程序上进行相互配合，仅用较小的成本就能大大拓宽互联网音箱在空间上的语音控制服务范围，在室内空间比较大，或者室内有较多的墙壁分隔，又或者在室外或者露天环境中均能实现高效的语音控制。有效解决了传统互联网音箱的使用范围小的问题，而且，可以实现更加灵活、多样化的语音控制效果。

附图说明

图1是本申请实施例提供的一种互联网音箱控制系统的实施环境图；

图2是本申请一个实施例提供的一种互联网音箱控制方法的流程图；

图3是本申请一个实施例提供的一种基于分布式语音拓展装置进行语音回复的互联网音箱控制方法的流程图；

图4是本申请一个实施例提供的一种基于分布式语音拓展装置进行智能终端设备控制的互联网音箱控制方法的流程图；

图5是本申请一个实施例提供的一种基于分布式语音拓展装置的防误触发控制方法的流程图；

图6是本申请一个实施例提供的一种基于分布式语音拓展装置与智能门锁相关联来进行节能模式自动设定的控制方法的流程图；

图7是本申请一个实施例提供的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1示出了本申请实施例提供的一种互联网音箱控制方法对应的实施环境图，为了便于说明，仅示出与本申请实施例相关的部分。

在本申请的一个实施例中，通信实体主要包括管理服务器100、无线路由设备200、互联网音箱300，以及若干智能终端设备400等。本申请实施例中的管理服务器100、互联网音箱300为核心组成设备。

其中，互联网音箱300除了音箱主机310以外，还包含有多个分布于当前环境中不同地理位置的分布式语音拓展装置320，这些分布式语音拓展装置相当于在当前局域网下把该互联网音箱的语音功能进行了地理上的延伸。此外，互联网音箱300还包含有边缘网关模块330，集成了与局域网内的无线设备进行通信，并与外部网络连通的功能/服务。音箱主机310自身配置有语音收发电路模块，即主机语音装置311；同时音箱主机作为用于承载边缘网关模块的硬件载体。

关于边缘网关模块，一方面，该边缘网关模块330中包含有WIFI模块，通过该WIFI模块可以与环境中的无线路由设备200进行关联，并通过该无线路由设备200与管理服务器100进行通信。另一方面，该边缘网关模块330中还包含有物联网通信模块，该物联网通信模块可以是WIFI模块，也可以是蓝牙模块，还可以是ZigBee模块；通过物联网通信模块，局域网内的智能终端设备400、以及分布式语音拓展装置320等均与互联网音箱进行了无线连接。当然，边缘网关模块最重要的功能在于其具有数据处理功能，可以实现在不联网的情况下基于系统中的应用程序、服务等实现各种功能，当然在连接网络以后，也可以在其上实现一些不需要联网的数据处理功能。

关于互联网音箱300，在硬件结构方面，除了上文实施例中提到的边缘网关模块330，在一种实现方式中，互联网音箱300包括处理器主板、电源、功放电路板、语音输出单元（如扬声器）、语音采集单元（如麦克风）、指示灯，以及可编程MCU电路板。可编程MCU电路板除了配置简单的语音唤醒功能以外，可以进一步配置较为复杂的离线语音识别电路模块，从而实现至少300条以上的离线语音识别，满足大部分日常家居环境、办公场所的智能终端设备的控制。其中，分布式语音拓展装置320，主要用来与互联网音箱300配合来拓宽其语音服务范围。分布式语音拓展装置320可以进行语音的收发；其本身只进行简单的语音识别（例如唤醒词识别），复杂的语音处理需通过无线连接至互联网音箱的边缘网关模块330，由边缘网关模块330来实现更复杂的语音处理或者语音处理工作的调度。因此，分布式语音拓展装置320可以采用精简配置来降低硬件成本。分布式语音拓展装置320一般可以包括处理器主板、电源、功放电路板、语音输出单元、语音采集单元、指示灯、语音唤醒模块，以及物联网通信模块。

管理服务器100一般是配置了供服务器程序运行的操作系统、具有供服务器端运行的环境、服务的计算机或计算机集群，其可以是独立的物理服务器或终端，也可以是多个物理服务器构成的服务器集群，可以是提供云服务、云数据库、云存储和CDN等基础云计算服务的云服务器。

此外，无线路由设备200即俗称的路由器、WIFI热点，其作为互联网音箱300与管理服务器100的通信中转站。无线路由设备200通过WIFI与互联网音箱300进行通信，同时可以通过其外部网络接口与外网通信，因此可以实现互联网音箱300与管理服务器100的通信，其还可以缓存相关的通信数据。

智能终端设备400主要是可以受控于互联网音箱的任何具有物联网接口的设备或者器件。例如：笔记本电脑、智能手表等电子产品；空调、热水器、空气净化器、电视、电灯等联网家用电器；烟雾传感器、有害气体传感器等传感器件。智能终端设备400上设置有物联网通信模块，一般采用较为节能的ZigBee模块，当然也可以采用蓝牙模块。

图2为本申请一个实施例提供的互联网音箱控制方法的流程图，该互联网音箱控制方法应用于图1所示的边缘网关模块，详述如下：

所述互联网音箱包含音箱主机、设置于所述音箱主机上的边缘网关模块，以及多个分布于当前环境中不同地理位置的分布式语音拓展装置；所述音箱主机包含有与所述边缘网关模块连接主机语音装置，且所述多个分布式语音拓展装置与所述边缘网关模块无线连接；所述方法包括：

步骤S201，获取第一语音拓展装置所采集的第一用户语音信息；其中，第一语音拓展装置为所述多个分布式语音拓展装置中的任意一个；

步骤S202，对所述第一用户语音信息进行离线语音识别处理，或上传至管理服务器进行语音识别处理，以得到与所述第一用户语音信息相匹配的第一答复资源；

步骤S203，当所述第一答复资源为语音回复信息时，通过所述互联网音箱将所述语音回复信息输出至所述第一语音拓展装置；

步骤S204，当所述第一答复资源为智能终端设备控制指令时，通过所述互联网音箱的音箱主机下发至受控的目标智能终端设备。

在本实施例的一种情况中，第一用户语音信息包含有第一语音设备标识，用于识别第一用用户语音信息的来源设备；第一语音设备标识可以是设备的MAC地址；其体现在第一用户语音信息对应的通信协议中。

在本实施例的一种情况中，第一答复资源是指管理服务器对第一用户语音进行语音识别以后得到对应的语义内容，并根据语音内容为其匹配的答复内容；答复内容是语音回复信息时，比如第一用户语音信息为提问内容“今天天气如何”，则语音回复信息可以是边缘网关模块通过本地数据或者通过管理服务器查询了今天天气相关的网络数据以后形成的需要通过语音答复的信息，例如“今天早上的天气多云转晴，下午晴转多云，傍晚至夜间将有小到中雨”。

需要注意的是，本申请实施例中，由于存在多个语音接口（指主机语音装置或分布式语音拓展装置），因此，下发的时候需要协调答复内容的具体由哪个输出接口来实现，上述实施例中通过设备标识来进行信息传到路径的指引。

其中，答复内容是控制指令时，则按常规的方式下发即可。

本申请的一个实施例中，考虑到互联网音箱一般只能支持一定空间距离范围内的语音服务，距离过远则无法准确接收用户语音，甚至接收不到，因此，设置了若干可以被用户语音唤醒、可以将采集用户语音并发送给互联网音箱，还可以接收互联网音箱下发的语音输出任务；通过这种方式，可以用较小的成本来拓宽互联网音箱的语音控制服务范围。本实施例中的互联网音箱控制方法不同于传统的仅存在互联网音箱进行语音采集和输出的情况。

本实施例涉及互联网音箱在接收到自身或者其他的语音拓展装置采集的用户语音信息时的数据安排、调度方式，与上述的硬件变化（增加了若干语音拓展装置）相互适配。通过上述的软硬件改进，克服了传统互联网音箱在室内空间比较大，或者室内有较多的墙壁分隔，又或者在室外或者露天环境中的语音采集效果不佳，导致无法高效实现语音控制的问题。而且，通过互联网音箱上的边缘网关模块及其管理服务器可以对局域网内的所有物联网设备/部件进行统筹管理，避免控制混乱。

在本申请的一个实施例中，图3是本申请一个实施例提供的基于分布式语音拓展装置进行语音回复的互联网音箱控制方法的流程图，具体的，在步骤S203中，所述当所述第一答复资源为语音回复信息时，通过所述互联网音箱将所述语音回复信息输出至所述第一语音拓展装置的步骤之前，还包括：

步骤S301，判断所述语音回复信息中是否包含有指定输出设备标识；所述指定输出设备标识用于指示将要对所述语音回复信息进行语音播放的目标语音装置，所述目标语音装置为所述主机语音装置或者多个分布式语音拓展装置中的任意一个或者多个；

步骤S302，若所述语音回复信息中包含有指定输出设备标识，则将第一语音回复信息输出至所述指定输出设备标识所对应的所述目标语音装置上进行输出；

步骤S303，若所述语音回复信息中未包含有指定输出设备标识，则通过所述互联网音箱将所述语音回复信息输出至所述第一语音拓展装置，以通过所述第一语音拓展装置进行播放。

在本申请实施例中，所述目标语音装置通过对所述第一用户语音信息进行语音识别而得到，也即，用户语音中明确指出或者间接指出要通过某个特定的语音装置（目标语音装置）进行语音输出。例如，客户在客厅中想要喊卧室的某人吃饭，客厅中为互联网音箱放置地，第一用户语音为“嗨，XXXX（唤醒词）……请你喊卧室的XXX（某人）过来吃饭”，则此时，识别的结果为通过卧室的语音拓展装置输出“嗨，XXX（某人），请你去客厅吃饭”。可以看到，本实施例可以在存在多个语音拓展装置的情况下避免死板的语音输入输出关系，能够在语音服务范围扩大的情况下实现更为灵活的语音控制，实现了传统语音无法达到的服务范围（例如本例的远程叫喊服务）；而且，本实施例实现了分布式语音拓展装置、主机语音装置等相互之间的实时语音通话功能，拓展了传统互联网音箱的问答式语音功能。

本申请的一个实施例中，指定输出设备标识可以用对应设备的MAC地址来表示；而设备的MAC地址可以通过查找当前物联局域网中的设备信息表来获得，设备信息表登记了所有连入当前物联局域网中的设备的相关信息（包括MAC地址），且预先将设备与各限定内容（例如上例中将“喊”这个动作对应的语音拓展装置，通过“卧室”限定了语音拓展装置的空间位置）绑定。

在本申请的一个实施例中，图4为本申请一个实施例提供的一种基于分布式语音拓展装置进行智能终端设备控制的互联网音箱控制方法的流程图，具体的，对于步骤S204，当所述第一答复资源为智能终端设备控制指令时，通过所述互联网音箱的音箱主机下发至受控的目标智能终端设备的步骤之前还包括：

步骤S401，通过所述管理服务器识别并提取所述第一用户语音中的执行项目关键词，对无法识别或提取关键词的执行项目标记为空；其中，所述执行项目关键词至少包括执行动作关键词、目标空间位置关键词、执行时间关键词，以及目标智能终端设备名称关键词；

步骤S402，若所述空间位置关键词为空，判断当前局域网中与所述目标智能终端设备名称关键词对应的智能终端设备是否唯一；

步骤S403，若不唯一，则获取所述智能终端设备控制指令中所携带的第一语音设备标识；在预设的默认设备表中获取与所述目标智能终端设备名称关键词相匹配的第一智能终端设备，并将所述第一智能终端设备作为所述智能终端设备控制指令的控制目标。

在本实施例的一种情况中，仅作为示例地提供了一种语音识别范式，在该语音识别范式下，需要提取四个维度的执行项目对应的关键词，分别为执行动作关键词、目标空间位置关键词、执行时间关键词、目标智能终端设备名称关键词，从而得到一个均明确的可被执行的指令。若其中某项有所缺失，则通过与用户的进一步语音交互来引导用户进行补充。本实施例能够较为精确地实现用户语音控制，提高了用户的使用体验。

在本实施例的一种情况中，根据日常用语习惯，用户语音信息一般为实时交互信息/实时指令，因此，通常情况下执行时间为空的话，可以默认用户当前为实时交互/实时指令。若需要达到预约效果，则需要用户通过语音信息表述具体的时间；但该项不作为一般项，不会对用户进行询问，由用户自主确定。

在本实施例的一种情况中，执行动作关键词或目标智能终端设备名称关键词为最核心的项目，因此，当识别出用户通过用户语音发出的指令中缺少这两项时，需要通过用户当前所在位置区域的互联网音箱或语音拓展装置对这两项内容进行提问补充。

在本实施例的一种情况中，预设的默认设备表是上文实施例中的设备信息表；智能终端设备是否唯一可以通过查找当前物联局域网中的设备信息表来获得，设备信息表中记载了智能终端设备的通用名称与MAC地址的对应关系。

在本实施例的一种情况中，可以通过控制所述第一语音设备标识对应的语音设备与用户进行语音交互，从而补充空间位置关键词。

在一种优选实施例中，在预设的默认设备表中记载了与第一语音设备同处于预设地理位置区域/范围内的智能终端设备；在空间位置关键词缺失的情况下，可以通过对默认设备表的查询，若得到第一智能终端设备与第一语音设备同处于预设地理位置区域/范围内的智能终端设备，则将其作为空间位置关键词缺失情况下的控制目标。例如用户语音所针对的目标智能终端设备在当前局域网中有且仅有一个，那么，无需知道或者表述该目标智能终端在何处也能实现控控制；例如“打开中央空调”。但若用户语音所针对的目标智能终端设备在当前局域网中有多个，例如当前物联局域网中，主机语音装置、分布式语音拓展装置、智能终端设备分别分布在不同的房间中，而每个房间的灯都通过物联网开关控制，则当用户在某个房间时，一般会习惯性喊出“嗨，XXXX（唤醒词），开灯”。传统的互联网音箱此时要跟用户确认具体位置才能实现控制；而本实施例中，通过结合用户当前所处的房间/位置区域（根据当前接收用户语音的语音拓展装置或互联网音箱来间接确定）便可以默认用户当前想要打开当前所处房间/位置区域的灯，从而执行操作，大大提高了用户使用体验。

本实施例可以实现在某个空间区域中的语音拓展装置或互联网音箱采集到用户语音信息进行设别控制时，在语音识别结果中空间位置关键词为空的情况下，优先对被定义的空间位置相同或者最接近的目标智能终端执行语音控制。例如洗手间中的分布式语音拓展装置与灯在预设的默认设备表中位置空间被标记了“洗手间”，那么当用户通过洗手间中的语音拓展装置进行语音交互时，若语音请求“嗨，XXXX（唤醒词），开灯” ，那么就默认开启洗手间的灯。这种方式大对于在同一个局域网下具有多个分布式语音拓展装置以及具有多个同种智能终端设备的场景下，可以避免设备控制混乱，同时大大简化了互联网音箱的语音控制指令的复杂度。

一般的，所述默认设备表由用户预先设定，根据局域网内所有智能终端设备与互联网音箱、语音拓展装置所处的空间位置相对关系，以就近原则和少隔离原则进行分组；例如，同一个房间内的设备可以将空间位置区域设置为一致。

在本申请的一个实施例中，图5为本申请一个实施例提供的一种基于分布式语音拓展装置的防误触发控制方法的流程图。具体的，第二语音装置为所述互联网音箱本体语音装置或者为若干所述语音拓展装置中除所述第一语音拓展装置外的另外一个；所述方法还包括：

步骤S501，当第一语音拓展装置采集第一用户语音信息期间，若第二语音装置也采集到第二用户语音信息，判断所述第一用户语音信息与第二用户语音信息的接收时间间隔是否小于第一预设时长；

步骤S502，若所述第一用户语音信息与第二用户语音信息的接收时间间隔小于第一预设时长，对所述第一用户语音信息与第二用户语音信息进行声纹识别与对比；

步骤S503，若所述第一用户语音信息与第二用户语音信息的声纹相似度超过第一预设阈值，则通过响度较高的用户语音信息对应的语音装置进行后续交互，或者，通过第一语音拓展装置采集、第二用户语音信息输出用于进行后续交互的语音装置的选择信息。

本实施例中主要考虑当主机语音装置、若干分布式语音拓展装置被同一个用户语音同时触发的问题。

本实施例中，互联网音箱、若干语音拓展装置均设置有声音传感器，该传感器内置一个对声音敏感的电容式驻极体话筒。声波使话筒内的驻极体薄膜振动，导致电容发生变化，从而产生跟随变化的微小电压，该微小电压随后被转化成0~5V的电压，进而通过A/D转换被采集器接收并输入对应的互联网音箱或语音拓展装置的MCU，MCU便可以产生反应，开始工作。适当选择/设置材料的参数可以使声音达到一定响度才可以触发互联网音箱或语音拓展装置，因此，可以一定程度上解决同一个用户语音同时出发的问题，仅当用户离两者的距离差不多，两边的声音响度均达到被唤醒的程度时，才需要考虑该问题。

此外，用户和不同的互联网音箱、若干语音拓展装置的距离均不同，包括墙体阻隔等原因，一般不同的互联网音箱、若干语音拓展装置在接收到同一个用户语音时，相互之间有一定的延迟时间差，一般而言，相邻的互联网音箱、语音拓展装置之间的距离固定且在10米~30米的距离范围较为合适，同一个用户语音被接收的话，其时间间隔一般较短（若将距离拉长到蓝牙4.0的极限距离100米，或者蓝牙5.0的极限距离300米，那么，通过滤波、唤醒环节便可以排除同一个语音被同时接收的情况出现）。

本实施例中，只会在第一用户语音信息与第二用户语音信息小于第一预设时长时才会初步认定可能是同一个用户语音被同时触发，该第一预设时长根据互联网音箱、若干语音拓展装置的空间分布距离、空间物理隔离，以及系统反应时间、数据传输延迟等综合考虑，可以设置在10ms~60ms范围内，超出这个范围上限，一般便不会发生被同时触发的情况。

第一用户语音信息与第二用户语音信息时间间隔的对比仅是第一步，第二步要针对两者的声纹进行识别，如果两者的声纹超过第一预设阈值，则可以抛弃第一用户语音信息与第二用户语音信息中被系统接收的时间较晚的一者；或者，通过响度较高的用户语音信息对应的语音装置进行后续交互；或者，通过第一语音拓展装置采集、第二用户语音信息输出用于进行后续交互的语音装置的选择信息（例如可以通过第一语音拓展装置、第二语音装置输出确认信息来进一步判定，例如可以通过其中一者输出“你在和我说话吗”，并进行后续的交互确认，以此，来唯一确定一个与用户交互的语音装置）。可以理解的，第一预设阈值的设置主要考虑目前的声纹识别技术的准确率的问题；只要第一用户语音信息与第二用户语音信息超过特定程度，便可以确认其是同一个人发出的，而不是不同的人同时对不同的语音设备分别进行语音交互，有理由确定是两个语音装置同时对同一个用户语音产生了反应。通过上述方式可以有效地避免当互联网音箱、若干语音拓展装置被同一个用户语音同时触发的问题。

在本申请的一个实施例中，所述互联网音箱还包含有离线语音识别单元；本互联网音箱控制方法还包括：

若所述第一用户语音信息与第二用户语音信息的声纹相似度小于第一预设阈值，将所述第一用户语音信息与第二语音信息均上传至所述管理服务器进行处理；

或者，将所述第一用户语音信息输入离线语音识别单元进行处理，将所述第二语音装置上传至所述管理服务器进行处理；若所述离线语音识别单元无法处理所述第一语音信息，再将所述第一语音拓展装置上传至所述管理服务器进行处理。

在本实施例中，当排除了主机语音装置、若干分布式语音拓展装置被同一个用户语音同时触发的情况后，则说明是不同的人同时对不同的语音装置分别进行了语音交互，因此会涉及到同时并行处理两个或多个用户语音的问题，为了解决该问题，一种比较有效的做法是合理设计数据并发算法，控制第一用户语音信息与第二用户语音信息的上传，通过管理服务器强大的语音处理力来对第一用户语音信息与第二语音信息进行并行处理，保证本地语音交互的实时性。

此外，互联网音箱还包含有离线语音识别单元，为合理利用离线语音识别单元可以将第一用户语音信息通过离线语音识别单元进行处理，而将第二语音装置上传至所述管理服务器进行处理，实现简单的双线处理，若离线语音识别单元无法处理再上传处理，可以在一些场景中大大提高交互的实时性。

本申请的上文实施例中，互联网音箱的主机语音装置与分布式语音拓展装置在硬件和程序上进行相互配合，仅用较小的成本就能大大拓宽互联网音箱在空间上的语音控制服务范围，在室内空间比较大，或者室内有较多的墙壁分隔，又或者在室外或者露天环境中均能实现高效的语音控制。有效解决了传统互联网音箱的使用范围小（只能支持一定空间距离范围内的语音服务，距离过远则无法准确接收用户语音，甚至接收不到）的问题。而且，通过互联网音箱及其管理服务器可以对局域网内的所有物联网设备/部件（包括语音拓展装置）进行统筹管理，通过不同语音接口来实现更加丰富的语音控制方式，优化了多语音输入接口的情况下的同一语音多设备识别、多设备语音识别互相干扰等问题，实现了传统互联网音箱无法达到的语音控制形式和语音控制效果。

在本申请的一个实施例中，互联网音箱中涉及主机语音装置、分布式语音拓展装置等多个装置，特别是分布式语音拓展装置，其与边缘网关模块之间通过无线通信模块连接，因此特别需要考虑节能问题。

在本实施例中，第一语音拓展为主机语音装置、分布式语音拓展装置中的任意一个，所述第一语音拓展装置包括常规工作模式、轻度节能模式、中度节能模式与深度节能模式；此外，所述第一语音拓展装置还配置有可即时唤醒的中断口，使其能够在轻度节能模式、中度节能模式与深度节能模式下能够立即被唤醒并退出。

在一种情况中，在所述轻度节能模式下，所述第一语音拓展装置的处理器处于暂停运行状态，其无线通信模块处于断电休眠状态，且第一语音拓展装置的处理器被设置为以第一周期定期苏醒，并控制无线通信模块通电以探测所述边缘网关模块是否缓存有与所述第一语音拓展装置相关的待处理数据。

具体的，以WIFI通信为例，第一周期可以设置成边缘网关模块的Beacon报文的DTIM帧的发送周期（一般为100ms）的整数倍（例如设置成3倍，即第一周期为300ms，具体根据实际情况设置），第一语音拓展装置的处理器处于轻度节能模式下处于暂停运行状态，每间隔一个第一周期便自动复苏，并控制WIFI模块通电若干毫秒（例如3ms），并探测边缘网关模块是否缓存有与第一语音拓展装置关联的数据，若有，则终止当前的轻度节能模式，并进行数据收发和进一步处理。

在一种情况中，在中度节能模式下，所述第一语音拓展装置的处理器及无线通信模块处于断电状态，且所述第一语音拓展装置的处理器被设置为以第二周期定期苏醒，并控制无线通信模块通电以探测所述边缘网关模块是否缓存有与所述第一语音拓展装置相关的待处理数据；其中，所述第一语音拓展装置的处理器通过ULP协处理器进行周期性通电复位，且所述第二周期为第一周期的10~20倍。

具体的，以WIFI通信为例，第二周期设置成一周期的10~20倍，若第一周期为300ms，则第二周期为3s~6s，若第一周期为900ms，则，第二周期为9s~18s。中度节能模式下第一语音拓展装置的处理器休眠时是断电状态，无法自主苏醒，因此，需要设置唤醒的模块，本实施例中采用ULP协处理器（Ultra-Low-Power Coprocessor，超低功耗协处理器）来实现，ULP协处理器其以第二周期来唤醒第一语音拓展装置的处理器，并进一步唤醒WIFI模块；具体的ULP协处理器可以通过内部命令唤醒第一语音拓展装置的处理器，可通过触发外部中断接口EXTI使第一语音拓展装置的处理器以复位的方式重启，并进一步通过WIFI模块通电若干毫秒（例如3ms），探测边缘网关模块是否缓存有与第一语音拓展装置关联的数据，若有，则终止当前的中度节能模式，并进行数据收发和进一步处理。

在一种情况中，在深度节能模式下，所述第一语音拓展装置的处理器及无线通信模块处于断电状态，且所述第一语音拓展装置的处理器被设置为以第三周期定期苏醒，并控制无线通信模块通电以探测所述边缘网关模块是否缓存有与所述第一语音拓展装置相关的待处理数据；其中，所述第一语音拓展装置的处理器通过RTC进行周期性通电复位，所述第三周期为第二周期的10~20倍。

具体的，以WIFI通信为例，深度节能模式下第一语音拓展装置的处理器休眠时是断电状态，无法自主苏醒，因此，需要设置为第一语音拓展装置的处理器设置RTC（Real_Time Clock，实时时钟）唤醒模块，其以第三周期来唤醒第一语音拓展装置的处理器，并进一步唤醒WIFI模块；其中，若第二周期为6s，则第三周期为60s~120s。进一步的，RTC唤醒模块被设置为与第一语音拓展装置的处理器的外部中断接口EXTI（Extern Interrupt）连接，当RTC唤醒模块以第三周期苏醒触发外部中断接口EXTI时，第一语音拓展装置的处理器以复位的方式重启，并进一步通过WIFI模块通电若干毫秒（例如3ms），探测边缘网关模块是否缓存有与第一语音拓展装置关联的数据，若有，则终止当前的中度节能模式，并进行数据收发和进一步处理。

在本申请的一个实施例中，在所述多个分布式语音拓展装置中至少有一个被配置为智能门锁的语音模块，并通过所述智能门锁与所述边缘网关模块进行无线连接，以实现所述智能门锁与其他的分布式语音拓展装置或所述主机语音装置进行语音实时对讲。优选的，多个分布式语音拓展装置中配置在智能门锁的语音模块为音视频模块，并配置有ESP-RTC (Real-Time Communication，实时音频通信)模组，能够实现稳定流畅、超低延时的语音和视频实时通信，使得互联网音箱具备实时音视频通话功能。

如图6所示，其是本申请的一个实施例提供的基于分布式语音拓展装置与智能门锁相关联来进行节能模式自动设定的控制方法的流程图，互联网音箱控制方法还包括如下步骤：

所述智能门锁被配置为可对智能门锁对应的目标门的进出人员进行识别，并将识别情况上传至所述边缘网关模块；所述方法还包括：

步骤S601，对所述智能门锁对应的目标门的进出人员进行计数，当有人员进入所述目标门对应的房间则进行对应的加法计数，当有人员出所述目标门对应的房间则进行对应的减法计数；

步骤S602，当人员计数值为零的状态的保持时间超过第一设定时长，则所述互联网音箱进入深度节能模式；

步骤S603，当所述人员计数值从零变化至不为零，且该状态的持续时间超过第二设定时长，则保持或者降级当前的节能模式。

在本实施例中，智能门锁上集成有分布式语音拓展装置的其中之一，智能门锁安装于目标门上，步骤S601中通过智能门锁的人像识别算法以及人像移动状态的识别算法捕捉到进出目标门的人员的“进门”与“出门”数据后，该数据进一步上传至边缘网关模块，边缘网关模块进行进一步的判断与处理；具体的，边缘网关模块预存有关于当前房间内人员数量的初始的人员计数值，该初始的人员计数值可以由用户根据设定时房间内的人员数量进行相应设置，并且在后续的人员进出的判断基础上进行加减更新；当识别有人员进入目标门，则在人员计数值的基础上进行加法计数，当有人员出所述目标门对应的房间则进行对应的减法计数，并且保存每次的人员计算数值作为下一次加减的基础。通过上述计数操作，便可以判断当前的房间内是否有人，可以理解的，在步骤S602中，当人员计数值为零就代表当前的房间内的人员数量为0，即房间内无人，若人员计数值不为零，就代表当前的房间内的人员数量不为零。而如果当前的房间内没有人的状态的持续时间超过一定的时长，则可以让智能音箱进入休眠状态，该时长为第一设定时长，具体可以根据实际情况设置，例如5分钟、10分钟、15分钟等。在步骤S603中则房间内的人员数量从0到有的状态改变时，可以进行节能模式的降级（即将深度节能模式降级为常规工作模式、轻度节能模式，或中度节能模式），以便房间内的人员能够更快地唤醒互联网音箱，兼顾了互联网音箱的节能与使用体验。但为了避免人员短暂逗留（比如出门以后忘记了某件物品回来取）而产生不必要的节能模式的变更，因此设定了第二设定时长；同样的该第二设定时长可以根据实际情况设置。

本实施例将互联网音箱的节能模式与智能门锁进行关联绑定，并借助智能门锁本身便会自动发生的人像识别工作来进一步判断房间内的人员情况，进而判断房间内是否有人，若无人则进入最节能的模式，若有人则降级节能模式，以便用户能够快速唤醒互联网音箱。

在本申请的一个实施例中，互联网音箱控制方法还进一步包括降级节能模式的规则，该降级节能模式的规则主要是基于对历史语音工作数据的统计与自主学习，该对历史语音工作数据的统计与自主学习的方法具体包括：

获取所述第一语音拓展装置的历史语音工作数据；

根据所述历史语音工作数据计算所述第一语音拓展装置每一天在不同时段的语音工作概率，并求取每个时段的语音工作概率平均值A；

为语音工作概率平均值A高于第一预设概率M的时段匹配轻度节能模式，为语音工作概率平均值低于第一预设概率M且高于第二预设概率N的时段匹配中度节能模式；为语音工作概率平均值低于第二预设概率N的时段匹配深度节能模式。

在本实施例的一种情况中，历史语音工作数据是指第一语音拓展装置过往的语音唤醒和进行语音交互的数据记录/标记，可以选择过往一段时间内的数据，如过往的1个月、3个月、6个月或者12个月的数据记录/标记。

在步骤S602中，一天的时段可以按小时进行划分，或者按设定的几十分钟或者几个小时进行划分，可以等分，也可以不等分，具体不做限定。划分完以后，将各个时段的第一语音装置的唤醒记录分别与这一天的语音唤醒次数进行比值计算，从而获得这一天各个划分的时段的语音工作概率。优选的，为了达到更好的节能模式的匹配，可以以1个小时作为尺度将一天划分为24份，那么，可以计算每一天的24个小时里每个小时的语音唤醒发生概率，然后将所有日期中的相同时段进行语音工作概率求平均；这样可以得到所获取的历史日期范围内的每一个时段的语音工作概率平均值；例如对6个月内的工作日以及节假日的7点对应的语音工作概率分别进行平均值计算，便得到这6个月中7点这个时段的语音工作概率平均值；同样可以继续计算24小时中的其他时段的语音工作概率平均值。可以理解的，将工作日与周末、节假日进行区分计算，求取各自的语音工作概率；分别得到工作日与周末、节假日所对应的每个时段的语音工作概率平均值；进而根据工作日与周末、节假日各自的每个时段的语音工作概率平均值来配置节能模式，以便适应工作日、周末、节假日对于互联网音箱的不同使用习惯，以便更好地兼顾互联网音箱的节能和唤醒效率。

在本实施例的一个实施例中，各个时段的语音工作概率平均值与一预设概率范围（N~M）进行对比后，然后根据对比结果为各个时段匹配休眠策略。其中，第一预设概率M且高于第二预设概率N可以根据用户的需要进行设置，也可以采用系统的默认方案，作为示例，可以将第一预设概率M设置为0.67，将第二预设概率N设置为0.33。

在本实施例的一个实施例中，第一预设概率M与第二预设概率N可以进行定期的迭代更新。例如第一预设概率M的初始值设置为0.67，将第二预设概率N的初始值设置为0.33，在互联网音箱的使用过程中，边缘网关模块可以记录第一语音拓展装置的休眠数据，并定期进行一次统计与更新。具体的，若在当前统计周期内，在某个目标时段内，第一语音拓展装置的语音唤醒和进行语音交互的频率的变化幅度超过其他采取该节能模式的时段的平均值的幅度超过25%，那么就把目标时段的节能模式进行升级或降级（其中从轻度节能模式到中度节能模式或深度节能模式的调节，或者从中度节能模式到深度节能模式的调节为升级；而从深度度节能模式到中度节能模式或轻度节能模式的调节，或者从中度节能模式到轻度节能模式的调节为降级），除非，当前为深度节能模式则无升级空间，当前为轻度节能模式，则无降级空间。当然，作为优选，可以进一步在轻度节能模式的基础上将第一周期缩短，作为进一步降级调节的超轻节能模式，具体是在忙碌时段采用，以提高语音唤醒效率；也可以进一步在深度节能模式的基础上将第一周期加长，作为进一步升级调节的超深度节能模式，具体是在空闲时段（例如深夜或者出差、外出度假期间）采用，以提高节能效果。

以上的节能模式配置方法可以在使用频率较高的时段（例如上班之前、下班之后的时段）启用较低级别的节能模式，使互联网音箱的唤醒灵敏度更高，而在使用频率较低的时段（深夜时段）启用高级别的节能模式，以提高互联网音箱的节能效果，并且，若进一步区分工作日与节假日，则可以使节能模式的配置更加合理与精确，对节能与唤醒效率的兼顾更加精细化。

在本申请的一个实施例中，还可以通过声纹识别来进一步调节节能模式，具体的，系统内通过用户预先设定有声纹与升降级向量的对应关系表，该升降级向量用于指示在当前的节能模式的基础上进行节能模式升级或者降级。

在一种实施例中，声纹由用户预先录入系统，并分别与升降级向量进行匹配设置。

在一种实施例中，声纹与升降级向量的对应关系由系统自动识别，边缘网关模块或者管理服务器配置有声纹分析模块，根据声纹分析模块将声纹进行年龄评级，并根据年龄评级匹配相应的升降级向量。进一步的，将高年龄级别的声纹配置为降级向量，也即，当互联网音箱识别到老人的声纹以后，会对当前的节能模式进行降级，以便提高互联网音箱的识别和反应速度，从而方便行动不便的老人进行快速的语音服务功能。进一步的，将低年龄级别的声纹配置为升级向量，也即，当互联网音箱识别到小孩的声纹以后，会对当前的节能模式进行升级，以降低小孩的捣乱行为所产生的误触发。优选的，高年龄级别的声纹对当前节能模式的调节权限高于低年龄级别，也即，在设定的时间段内，若识别到当前环境中同时存在高年龄级别与低年龄级别的声纹时，当前节能模式的调节方向以高年龄几倍的声纹为准，以便于行动不便的老人能够快速唤醒互联网音箱进行使用。

图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可是图1中的管理服务器100，也可以是边缘网关模块330。如图7所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏（显示屏可无）。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现互联网音箱控制方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行互联网音箱控制方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如当该计算机设备为管理服务器时，则其是一种服务器类型的计算机设备，应当配置服务器型计算机应有的部件；而当其为互联网音箱时，其还可以包含如实施环境的具体实施例里所描述的各种外设。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上文实施例中任意一项实施例所提供的互联网音箱控制方法的步骤。

在一个实施例中，还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行：上文实施例中任意一项实施例所提供的互联网音箱控制方法的步骤。

可以理解的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。还应理解的是，虽然术语“第一”、“第二”等在文本中在一些本申请实施例中用来描述各种元素，但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如，第一表格可以被命名为第二表格，并且类似地，第二表格可以被命名为第一表格，而不背离各种所描述的实施例的范围。第一表格和第二表格都是表格，但是它们不是同一表格。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种互联网音箱控制方法，其特征在于，所述互联网音箱包含音箱主机、设置于所述音箱主机上的边缘网关模块，以及多个分布于当前环境中不同地理位置的分布式语音拓展装置；所述音箱主机包含有与所述边缘网关模块连接主机语音装置，所述多个分布式语音拓展装置与所述边缘网关模块无线连接；所述方法包括：

对所述第一用户语音信息进行离线语音识别处理，或上传至管理服务器进行语音识别处理，以得到与所述第一用户语音信息相匹配的第一答复资源；

2.如权利要求1所述的互联网音箱控制方法，其特征在于，所述当所述第一答复资源为语音回复信息时，通过所述互联网音箱将所述语音回复信息输出至所述第一语音拓展装置的步骤具体包括：

判断所述语音回复信息中是否包含有指定输出设备标识；所述指定输出设备标识用于指示将要对所述语音回复信息进行语音播放的目标语音装置，所述目标语音装置为所述主机语音装置或者多个分布式语音拓展装置中的任意一个或者多个；

若所述语音回复信息中包含有指定输出设备标识，则将第一语音回复信息输出至所述指定输出设备标识所对应的所述目标语音装置上进行输出；

若所述语音回复信息中未包含有指定输出设备标识，则通过所述互联网音箱将所述语音回复信息输出至所述第一语音拓展装置，以通过所述第一语音拓展装置进行播放。

3.如权利要求2所述的互联网音箱控制方法，其特征在于，当所述第一答复资源为智能终端设备控制指令时，通过所述互联网音箱的音箱主机下发至受控的目标智能终端设备的步骤之前还包括：

通过所述管理服务器识别并提取所述第一用户语音中的执行项目关键词，对无法识别或提取关键词的执行项目标记为空；其中，所述执行项目关键词至少包括执行动作关键词、目标空间位置关键词、执行时间关键词，以及目标智能终端设备名称关键词；

若所述空间位置关键词为空，判断当前局域网中与所述目标智能终端设备名称关键词对应的智能终端设备是否唯一；

若不唯一，则获取所述智能终端设备控制指令中所携带的第一语音设备标识；在预设的默认设备表中获取与所述目标智能终端设备名称关键词相匹配的第一智能终端设备，并将所述第一智能终端设备作为所述智能终端设备控制指令的控制目标。

4.如权利要求3所述的互联网音箱控制方法，其特征在于，第二语音装置为所述互联网音箱本体语音装置或者为若干所述语音拓展装置中除所述第一语音拓展装置外的另外一个；所述方法还包括：

当第一语音拓展装置采集第一用户语音信息期间，若第二语音装置也采集到第二用户语音信息，判断所述第一用户语音信息与第二用户语音信息的接收时间间隔是否小于第一预设时长；

若所述第一用户语音信息与第二用户语音信息的接收时间间隔小于第一预设时长，对所述第一用户语音信息与第二用户语音信息进行声纹识别与对比；

若所述第一用户语音信息与第二用户语音信息的声纹相似度超过第一预设阈值，则抛弃第一用户语音信息与第二用户语音信息中被系统接收的时间较晚的一者，或者通过响度较高的用户语音信息对应的语音装置进行后续交互，或者，通过第一语音拓展装置采集、第二用户语音信息输出用于进行后续交互的语音装置的选择信息。

5.如权利要求1所述的互联网音箱控制方法，其特征在于，所述第一语音拓展装置包括常规工作模式、轻度节能模式、中度节能模式与深度节能模式；

在所述轻度节能模式下，所述第一语音拓展装置的处理器处于暂停运行状态，其无线通信模块处于断电休眠状态，且第一语音拓展装置的处理器被设置为以第一周期定期苏醒，并控制无线通信模块通电以探测所述边缘网关模块是否缓存有与所述第一语音拓展装置相关的待处理数据；

在中度节能模式下，所述第一语音拓展装置的处理器及无线通信模块处于断电状态，且所述第一语音拓展装置的处理器被设置为以第二周期定期苏醒，并控制无线通信模块通电以探测所述边缘网关模块是否缓存有与所述第一语音拓展装置相关的待处理数据；其中，所述第一语音拓展装置的处理器通过ULP协处理器进行周期性通电复位，且所述第二周期为第一周期的10~20倍；

在深度节能模式下，所述第一语音拓展装置的处理器及无线通信模块处于断电状态，且所述第一语音拓展装置的处理器被设置为以第三周期定期苏醒，并控制无线通信模块通电以探测所述边缘网关模块是否缓存有与所述第一语音拓展装置相关的待处理数据；其中，述第一语音拓展装置的处理器通过RTC进行周期性通电复位，所述第三周期为第二周期的10~20倍。

6.如权利要求5所述的互联网音箱控制方法，其特征在于，在所述多个分布式语音拓展装置中至少有一个被配置为智能门锁的语音模块，并通过所述智能门锁与所述边缘网关模块进行无线连接，以实现所述智能门锁与其他的分布式语音拓展装置或所述主机语音装置进行语音实时对讲。

7.如权利要求6所述的互联网音箱控制方法，其特征在于，所述智能门锁被配置为可对智能门锁对应的目标门的进出人员进行识别，并将识别情况上传至所述边缘网关模块；所述方法还包括：

对所述智能门锁对应的目标门的进出人员进行计数，当有人员进入所述目标门对应的房间则进行对应的加法计数，当有人员出所述目标门对应的房间则进行对应的减法计数；

当人员计数值为零的状态的保持时间超过第一设定时长，则所述互联网音箱进入深度节能模式；

当所述人员计数值从零变化至不为零，且该状态的持续时间超过第二设定时长，则保持或者降级当前的节能模式。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项权利要求所述的互联网音箱控制方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项权利要求所述的互联网音箱控制方法的步骤。