CN110910880B

CN110910880B - 语音控制方法、系统、设备及存储介质

Info

Publication number: CN110910880B
Application number: CN201911204675.7A
Authority: CN
Inventors: 杜海波
Original assignee: Midea Group Co Ltd; Guangdong Midea Kitchen Appliances Manufacturing Co Ltd
Current assignee: Midea Group Co Ltd; Guangdong Midea Kitchen Appliances Manufacturing Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-05-10
Anticipated expiration: 2039-11-29
Also published as: CN110910880A

Abstract

本申请提出一种语音控制方法、系统、设备及存储介质，该方法包括：第三方设备接收多个电子设备发送的语音请求信息，语音请求信息中包括用户语音信号和时间脉冲信号；第三方设备根据每个语音请求信息包括的用户语音信号和时间脉冲信号，从多个电子设备中确定距离用户最近的第一电子设备；第三方设备发送允许响应指令给第一电子设备，发送禁止响应指令给除第一电子设备外的其它电子设备。本申请能从多个设备中准确地确定出距离用户最近的设备，控制距离用户最近的设备与用户语音交互，距离判断精度很高，实现多设备场景下唯一设备响应用户，避免多个设备同时响应给用户造成困扰，距离用户最近的设备响应，能使用户听的更清晰，用户体验更好。

Description

语音控制方法、系统、设备及存储介质

技术领域

本申请属于终端技术领域，具体涉及一种语音控制方法、系统、设备及存储介质。

背景技术

目前，用户通过说出“唤醒词”来唤醒电子设备，以实现用户与电子设备之间的交互。随着这种智能语音交互的电子设备越来越多，同一使用场景下常常存在多个智能语音交互的电子设备，比如厨房中有微波炉、油烟机、冰箱等多个可以语音交互的电子设备，每个电子设备都是一个独立的语音识别入口。如果这些电子设备的“唤醒词”相同，当用户想要唤醒某个电子设备时，所有相同唤醒词的电子设备都会响应说话人的请求，都会与用户进行交互，容易给用户造成困扰，影响用户体验。

发明内容

本申请提出一种语音控制方法、系统、设备及存储介质。从多个设备中准确地确定出距离用户最近的设备，控制距离用户最近的设备与用户语音交互，实现多设备场景下唯一设备响应用户，避免多个设备同时响应给用户造成困扰。

本申请第一方面实施例提出了一种语音控制方法，应用于第三方设备，所述方法包括：

接收多个电子设备发送的语音请求信息，所述语音请求信息中包括用户语音信号和时间脉冲信号；

根据每个所述语音请求信息包括的所述用户语音信号和所述时间脉冲信号，从所述多个电子设备中确定距离用户最近的第一电子设备；

发送允许响应指令给所述第一电子设备，及发送禁止响应指令给所述多个电子设备中除所述第一电子设备外的其它电子设备。

在本申请一些实施例中，所述根据每个所述语音请求信息包括的所述用户语音信号和所述时间脉冲信号，从所述多个电子设备中确定距离用户最近的第一电子设备之前，还包括：

分别还原出每个所述语音请求信息中包括的用户语音信号和时间脉冲信号；

根据还原出的每个用户语音信号的语音特性，确定每个所述语音请求信息包括的来自同一声源的用户语音信号。

在本申请一些实施例中，所述根据每个所述语音请求信息包括的所述用户语音信号和所述时间脉冲信号，从所述多个电子设备中确定距离用户最近的第一电子设备，包括：

将每个所述语音请求信息包括的来自同一声源的所述用户语音信号进行时域对齐；

从对齐后的每个所述用户语音信号对应的时间脉冲信号中，确定最早到达的时间脉冲信号；

将最早到达的所述时间脉冲信号对应的电子设备确定为距离用户最近的第一电子设备。

将每个所述语音请求信息包括的所述时间脉冲信号进行时域对齐；

从对齐后的每个所述时间脉冲信号对应的来自同一声源的用户语音信号中，确定最早到达的用户语音信号；

将最早到达的所述用户语音信号对应的电子设备确定为距离用户最近的第一电子设备。

在本申请一些实施例中，所述方法还包括：

对所述用户语音信号进行语义识别，确定所述用户语音信号对应的设备操作指令；

根据识别出所述用户语音信号中包括设备关键词，发送所述设备操作指令给所述设备关键词对应的第二电子设备；

根据未识别出所述用户语音信号中包括设备关键词，发送所述设备操作指令给距离用户最近的所述第一电子设备。

在本申请一些实施例中，所述方法还包括：

每隔预设时长发送系统时间给所述多个电子设备，以使所述多个电子设备时间同步。

在本申请一些实施例中，所述第三方设备为与所述多个电子设备通信连接的服务器、网关或路由器；或者，所述第三方设备为所述多个电子设备中的任一电子设备。

本申请第二方面的实施例提出了一种语音控制方法，应用于电子设备，所述方法包括：

每隔预设时间间隔生成时间脉冲信号；

采集用户语音信号；

将所述时间脉冲信号和所述用户语音信号进行时间关联，得到语音请求信息；

发送所述语音请求信息给第三方设备，以使所述第三方设备根据所述语音请求信息确定所述电子设备是否需要对所述用户语音信号进行响应。

在本申请一些实施例中，所述方法还包括：

接收所述第三方设备每隔预设时长发送的系统时间，将本地时间修改为所述系统时间。

在本申请一些实施例中，所述方法还包括：

接收所述第三方设备发送的允许响应指令；

根据所述允许响应指令，对所述用户语音信号进行响应。

在本申请一些实施例中，所述方法还包括：

接收所述第三方设备发送的设备操作指令，执行所述设备操作指令。

本申请第三方面的实施例提供了一种语音控制系统，包括第三方设备和多个电子设备；

所述电子设备，用于每隔预设时间间隔生成时间脉冲信号；采集用户语音信号；将所述时间脉冲信号和所述用户语音信号进行时间关联，得到语音请求信息；发送所述语音请求信息给第三方设备；

所述第三方设备，用于接收多个电子设备发送的所述语音请求信息；根据每个所述语音请求信息包括的所述用户语音信号和所述时间脉冲信号，从所述多个电子设备中确定距离用户最近的第一电子设备；发送允许响应指令给所述第一电子设备，及发送禁止响应指令给所述多个电子设备中除所述第一电子设备外的其它电子设备。

本申请第四方面的实施例提供了一种设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现上述第一方面或第二方面所述的方法。

本申请第五方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述第一方面或第二方面所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例中，根据每个电子设备发送的语音请求信息中包括的用户语音信号和时间脉冲信号，能从多个设备中准确地确定出距离用户最近的设备，控制距离用户最近的设备与用户语音交互，距离判断精度很高，实现多设备场景下唯一设备响应用户，避免多个设备同时响应给用户造成困扰，距离用户最近的设备响应，能使用户听的更清晰，用户体验更好。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

在附图中：

图1示出了本申请一实施例所提供的一种语音控制方法所基于的网络架构示意图；

图2示出了本申请一实施例所提供的电子设备的结构示意图；

图3示出了本申请一实施例所提供的一种语音控制方法中电子设备执行的流程图；

图4示出了本申请一实施例所提供的一种语音控制方法中第三方设备执行的流程图；

图5示出了本申请一实施例所提供的两个电子设备的信号示意图；

图6示出了本申请一实施例所提供的对齐用户语音信号比较时间脉冲信号的示意图；

图7示出了本申请一实施例所提供的对齐时间脉冲信号比较用户语音信号的示意图；

图8示出了本申请一实施例所提供的多设备场景下语音控制的流程示意图；

图9示出了本申请一实施例所提供的一种语音控制装置的结构示意图；

图10示出了本申请一实施例所提供的另一种语音控制装置的结构示意图；

图11示出了本申请一实施例所提供的一种设备的结构示意图；

图12示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图来描述根据本申请实施例提出的一种语音控制方法、系统、设备及存储介质。

本申请实施例提出了一种语音控制方法，如图1所示，该方法所基于的网络架构中包括第三方设备和多个电子设备，每个电子设备均与第三方设备通信连接。图1中仅示意性地画出了电子设备1和2两个电子设备，实际应用中可以有更多个电子设备。

其中，第三方设备可以为服务器，或者第三方设备为与每个电子设备通信连接的路由器或网关等设备，或者第三方设备还可以为多个电子设备中的任一电子设备。电子设备具有语音交互功能，如电子设备可以为具有语音交互功能的烤箱、微波炉、烟机、电饭煲、电磁炉等。

参见图2所示的电子设备的结构示意图，电子设备中包括语音采集模块、时钟模块、响应模块、处理模块和网络通信模块。时钟模块负责对电子设备的本地时间进行时间管理，包括同步网络时钟、保持本地时钟，产生时间脉冲信号等。语音采集模块用于采集用户发出的用户语音信号，采集到的用户语音信号传输给处理模块中。处理模块负责将用户语音信号和时间脉冲信号关联起来，并将这一关联信号进行数据转换、处理，然后通过网络通信模块发送给第三方设备。响应模块负责响应用户发出的用户语音信号，与用户进行语音交互。

基于图1所示的网络架构及图2所示的电子设备，对于具有多个电子设备的应用场景，本申请实施例提供的语音控制方法能够准确地从多个电子设备中，确定出距离用户最近的电子设备，并控制距离用户最近的电子设备与用户进行语音交互，实现多设备场景下唯一一个电子设备响应用户，避免多个设备同时响应给用户造成困扰，且距离用户最近的电子设备进行响应，能够使得用户听的更加清晰，用户体验更好。

参见图3，该方法具体包括以下步骤：

步骤101：电子设备每隔预设时间间隔生成时间脉冲信号。

在图1所示的网络架构中，第三方设备每隔预设时长发送系统时间给多个电子设备。电子设备接收第三方设备发送的系统时间，通过图2中所示的时钟模块将本地时间修改为该系统时间，并通过本地的振荡电路保持时间，从而在多个电子设备之间实现时间同步。上述预设时长可以为半小时或1小时等。

利用电子设备的联网功能，在时钟模块中周期性地进行电子设备的高精度时间同步，并用电子设备本地的振荡电路来保持这一高精度的时间。不同电子设备之间的时间统一后，对于每个电子设备，电子设备固定开始时间，每隔预设时间间隔生成一个时间脉冲信号。不同电子设备的时间同步后，不同电子设备生成的这一时间脉冲信号也是同步的。上述预设时间间隔可以为0.1秒或0.2秒等。

步骤102：电子设备采集用户语音信号。

如图2所示，电子设备中设置有语音采集模块，当用户在电子设备所在的环境中说话时，该电子设备通过语音采集模块能够采集到用户发出的用户语音信号。

步骤103：电子设备将时间脉冲信号和用户语音信号进行时间关联，得到语音请求信息。

电子设备通过处理模块将用户语音信号与当前生成的时间脉冲信号在时间上进行关联，具体包括：确定一个开始时刻，从语音采集模块采集的声音信号中截取该开始时刻之后的信号，截取的该开始时刻之后的信号中包含上述用户语音信号；从当前生成的时间脉冲信号中截取该开始时刻之后的部分时间脉冲信号。

通过上述方式将用户语音信号与时间脉冲信号在时间上关联，确保用户语音信号与时间脉冲信号共用相同的时间轴。电子设备还通过处理模块对用户语音信号进行信号放大、滤波、转换成数字语音信号等转换处理，然后根据与第三方设备之间的传输协议将转换处理后的用户语音信号与时间上相关联的时间脉冲信号打包成语音请求信息。

步骤104：电子设备发送该语音请求信息给第三方设备。

厨房、客厅等环境中通常具有多个语音交互功能的电子设备，当用户在这些环境中需要唤醒某个电子设备而说出该电子设备对应的“唤醒词”；或者用户需要已经唤醒的某个电子设备进行某种操作，而说出该电子设备对应的语音控制指令。在这些应用场景中，每个电子设备都按照上述步骤101-104的操作生成语音请求信息，并将生成的语音请求信息发送给第三方设备。

参见图4，第三方设备通过如下步骤105-107的步骤从这多个电子设备中确定出唯一一个与用户进行语音交互的电子设备，不避免出现多个设备同时响应用户的情况。

步骤105：第三方设备接收多个电子设备发送的语音请求信息，该语音请求信息中包括用户语音信号和时间脉冲信号。

步骤106：第三方设备根据每个语音请求信息包括的用户语音信号和时间脉冲信号，从多个电子设备中确定距离用户最近的第一电子设备。

第三方设备接收到电子设备发送的语音请求信息后，对语音请求信息进行解码还原操作，从语音请求信息中还原出时间上相关联的用户语音信号和时间脉冲信号。

由于在同一应用场景中可能存在多个用户讲话的情况，导致第三方设备接收到的语音请求信息中包括来自不同声源的用户语音信号。来自同一声源的用户语音信号的频谱、声纹、包络等语音特性均相同。因此对每个语音请求信息进行还原之后，第三方设备根据用户语音信号的频谱、声纹、包络等语音特性，从每个语音请求信息中确定出来自同一声源的用户语音信号。

第三方设备将每个语音请求信息包括的来自同一声源的用户语音信号进行时域对齐，即将每个语音请求信息包括的用户语音信号的开始时刻对齐。然后第三方设备从对齐后的每个用户语音信号对应的时间脉冲信号中，确定最早到达的时间脉冲信号，将最早到达的时间脉冲信号对应的电子设备确定为距离用户最近的第一电子设备。

由于语音请求信息包括的用户语音信号和时间脉冲信号在时间上是相关联的，即二者共用相同的时间轴。将不同电子设备采集的来自同一声源的用户语音信号进行时域对齐，相当于不同的电子设备在同一时刻接收到该声源的该用户语音信号。用户语音信号对齐后时间脉冲信号之间存在时间差，最早到达的时间脉冲信号对应的电子设备即为最早接收到该声源的该用户语音信号的电子设备，即距离该用户最近的第一电子设备。

为了便于理解上述信号比较过程，下面结合附图5和6进行说明。假设第三方设备接收到两个电子设备A和B发送的语音请求信息，电子设备A发送的语音请求信息中包括图5中所示的用户语音信号1和时间脉冲信号1。电子设备B发送的语音请求信息中包括图5中所示的用户语音信号2和时间脉冲信号2。其中，用户语音信号1和用户语音信号2是来自同一用户的语音信号。如图6所示，将用户语音信号1和用户语音信号2进行时域对齐后，时间脉冲信号1和时间脉冲信号2之间存在一定的时间差，时间脉冲信号1的到达时刻早于时间脉冲信号2的到达时刻，因此确定时间脉冲信号1对应的电子设备A最早接收到该用户的语音信号，即确定出电子设备A是距离用户最近的第一电子设备。

在本申请实施例中，除通过上述方式将用户语音信号对齐来比较时间脉冲信号到达时间的先后顺序外，还可以通过如下方式将时间脉冲信号对齐来比较用户语音信号的到达时间的先后，具体包括：

第三方设备将每个语音请求信息包括的时间脉冲信号进行时域对齐，从对齐后的每个时间脉冲信号对应的来自同一声源的用户语音信号中，确定最早到达的用户语音信号，将最早到达的用户语音信号对应的电子设备确定为距离用户最近的第一电子设备。

由于语音请求信息包括的用户语音信号和时间脉冲信号在时间上是相关联的，即二者共用相同的时间轴。将不同电子设备生成的时间脉冲信号进行时域对齐，相当于不同的电子设备在同一时刻生成了时间脉冲信号。时间脉冲信号对齐后用户语音信号之间存在时间差，最早到达的用户语音信号对应的电子设备即为距离该用户最近的第一电子设备。

为了便于理解上述信号比较过程，下面结合附图5和7进行说明。假设第三方设备接收到两个电子设备A和B发送的语音请求信息，电子设备A发送的语音请求信息中包括图5中所示的用户语音信号1和时间脉冲信号1。电子设备B发送的语音请求信息中包括图5中所示的用户语音信号2和时间脉冲信号2。其中，用户语音信号1和用户语音信号2是来自同一用户的语音信号。如图7所示，将时间脉冲信号1和时间脉冲信号2进行时域对齐后，用户语音信号1和用户语音信号2之间存在一定的时间差，用户语音信号1的到达时刻早于用户语音信号2的到达时刻，因此确定用户语音信号1对应的电子设备A是距离用户最近的第一电子设备。

通过上述两种方式中的任意一种，从多个电子设备中确定出距离用户最近的第一电子设备后，通过如下步骤107的操作控制距离用户最近的第一电子设备与用户进行语音交互，禁止其他电子设备响应用户，从而避免出现多个设备同时响应用户的情况。

步骤107：第三方设备发送允许响应指令给第一电子设备，及发送禁止响应指令给多个电子设备中除第一电子设备外的其它电子设备。

第三方设备对用户语音信号进行语义分析，识别用户意图，并针对用户意图，生成该用户语音信号对应的应答信息。第三方设备发送允许响应指令给第一电子设备，该允许响应指令中包括上述应答信息。第一电子设备接收该允许响应指令后，播报该应答信息，从而对用户语音信号进行答复。

在本申请实施例中，允许响应指令中也可以不包括上述应答信息。第一电子设备接收第三方设备发送的允许响应命令后，对用户语音信号进行语义分析，识别用户意图，生成该用户语音信号对应的应答信息，并通过响应模块播报该应答信息，从而对该用户语音信号进行答复。

多个电子设备中除第一电子设备外的其它电子设备接收第三方设备发送的禁止响应指令，不对用户语音信号进行应答。

在本申请实施例中，第三方设备还对用户语音信号进行语义识别，确定用户语音信号对应的设备操作指令；并识别该用户语音信号中是否包含某个电子设备的设备关键词，若识别出该用户语音信号中包含设备关键词，则根据识别出用户语音信号中包括设备关键词，发送该用户语音信号对应的设备操作指令给该设备关键词对应的第二电子设备。如此对于不具备语音交互功能的电子设备，可以通过其它具有语音交互功能的电子设备来实现对不具备语音交互功能的电子设备的语音控制。

若识别出该用户语音信号中不包含设备关键词，则根据未识别出用户语音信号中包括设备关键词，发送设备操作指令给距离用户最近的第一电子设备。第一电子设备接收第三方设备发送的设备操作指令，执行该设备操作指令。其中，设备关键词为能够标识电子设备的关键词，如电子设备的名称或型号等。

例如，厨房中有烤箱和微波炉两个具有语音交互功能的电子设备，用户站在离烤箱较近的位置说“打开微波炉的箱门”，第三方设备通过对用户语音信号进行语义分析，确定用户语音信号中包括设备关键词“微波炉”，因此将打开箱门的指令发送给微波炉，微波炉自动打开箱门。而且通过本申请实施例提供的方法第三方设备能够确定出烤箱是距离用户最近的第一电子设备，则控制烤箱对用户进行应答，如烤箱可应答“微波炉已经打开箱门了”。

再如，用户站在离烤箱较近的位置说“现在几点了”，通过本申请实施例提供的方法第三方设备能够确定出烤箱是距离用户最近的第一电子设备，且第三方设备通过对用户语音信号进行语义分析，确定用户语音信号中不包括设备关键词，因此将查询时间的指令发送给距离用户最近的烤箱，由烤箱向用户播报时间，如烤箱可应答“现在时间14:00”。

在本申请实施例中，若第三方设备识别出该用户语音信号中包含第二电子设备对应的设备关键词，且确定第二电子设备具备语音交互功能，则第三方设备还可以将允许响应指令及该用户语音信号对应的设备操作指令均发送给该设备关键词对应的第二电子设备。第二电子设备执行该设备操作指令的同时，还对该用户语音信号进行应答。

例如，厨房中有烤箱和微波炉两个具有语音交互功能的电子设备，用户站在离烤箱较近的位置说“打开微波炉的箱门”，第三方设备通过对用户语音信号进行语义分析，确定用户语音信号中包括设备关键词“微波炉”，且确定微波炉具有语音交互功能，则将允许响应指令及打开箱门的指令发送给微波炉，微波炉自动打开箱门，并应答“已经打开箱门了”。

为了便于理解本申请实施例提供的多设备场景下的语音控制方法，下面结合附图8进行说明。本申请实施例利用声源到不同电子设备的距离不同，语音信号到不同电子设备接收端的时间不一样的原理，根据语音信号的这一时间差，判断哪个电子设备离用户最近，距离用户最近的电子设备来与用户做语音交互。由于声音在某一确定环境条件下在空气中的传播速度为一固定速度v，不同终端设备与用户的距离不同，那么根据公式t＝L/v，用户的声音传播到电子设备的时间也不一致。如图8所示，用户与电子设备1的距离为L1，用户发出的用户语音信号从用户处通过空气传播到电子设备1的时间t1＝L1/v。用户与电子设备2的距离为L2，用户发出的用户语音信号从用户处通过空气传播到电子设备2的时间t2＝L2/v。

电子设备1采集到用户语音信号后，将用户语音信号和本地生成的时间脉冲信号进行信号结合，然后对结合后的信号进行信号处理，之后将信号发送给第三方设备。同样地，电子设备2采集到用户语音信号后，将用户语音信号和本地生成的时间脉冲信号进行信号结合，然后对结合后的信号进行信号处理，之后将信号发送给第三方设备。第三方设备对电子设备1和2发送的信号分别进行信号还原，然后对电子信号1和2对应信号进行时间差对比，假设确定出电子设备1是距离用户最近的第一电子设备。则第三方设备发送允许响应命令给电子设备1。第三方设备发送禁止响应命令给电子设备2。

由于空气中的音速在1个标准大气压和15℃的条件下约为340m/s，根据距离公式L＝vt，理论上，当时间精度达到1ms时，L＝340m/s*1ms＝0.34m，即分辨精度可以达到0.34米；当时间精度达到1us时，L＝340m/s*1us＝0.34mm，即分辨精度可以达到0.34毫米。即只要保证足够的时间精度，对于用户与电子设备之间的距离判断上可以实现很高的精度。通过本申请实施例提供的方案，即便用户边移动边发出用户语音信号时，也可以自动判断出距离用户最近的电子设备，并以此电子设备作为与用户之间进行语音交互的接口。

本申请实施例中提到的响应用户，用于提示用户已经接收到用户语音信号并对该用户语音信号做出回应，包括唤醒设备、语音答复、设备亮灯等响应操作。例如，用户说关键词“小美小美”后，微波炉上会播放“在呢”，以提示用户已经收到语音信息“小美小美”。再如，还可以通过蜂鸣器等声音提示元件，或者通过显示屏、LED(发光二极管)灯等显示提示的方式。响应用户的操作还包括对用户语音控制指令的响应，比如用户说“打开油烟机”，则服务器判断油烟机是否有播放设备，如果有，则可以在油烟机上播报“已为您打开油烟机”，并下发开始工作指令给油烟机。如果服务器确定出油烟机不具有播放能力，则服务器可以控制微波炉播报“已为您打开油烟机”，并下发开始工作指令给油烟机。

在本申请实施例中，用户语音信号包括用户说的唤醒词信号和用户的其他交互信号。在具有多个具备语音交互功能的电子设备的应用场景中，存在多个电子设备的“唤醒词”相同的情况，当用户说出该“唤醒词”时，通过本申请实施例提供的方法能够确定出距离用户最近的电子设备，并仅控制距离用户最近的电子设备被唤醒，避免同时唤醒多个电子设备而对用户形成困扰。而且在电子设备上不需要对唤醒词进行识别和再标注时间，减少了识别和标注操作引入的时间误差，提高了距离计算的精度。

同样地，在该应用场景下，当用户说出除“唤醒词”外的其他语言交互信号时，本申请实施例控制距离用户最近的电子设备与用户进行语音交互，避免多个设备同时响应用户，不会给用户造成困扰。且只有距离用户最近的电子设备进行响应，距离判断的精度很高，用户能够更加清晰的听到电子设备播报的语音信息，整个语音控制过程受设备和环境的影响小，用户体验更好。

作为一个具体示例，本申请实施例以应用厨房的语音微波炉和语音油烟机两个具有语音交互功能的电子设备为例进行说明。其中，语音微波炉和语音油烟机的唤醒词都为“小美小美”。在该示例中第三方设备为服务器。具体实施步骤包括：

第一步：语音微波炉和语音油烟机均通过互联网连接服务器。

第二步：语音微波炉和语音油烟机定时通过网络进行高精度的时钟同步，并且语音微波炉和语音油烟机按照同一规则产生时间脉冲信号。

第三步：用户讲唤醒词“小美小美”。

第四步：语音微波炉和语音油烟机在不同时间接收到用户的唤醒语音信号，语音微波炉和语音油烟机采集到这一信号后均将该信号发送到各自的处理模块，各自的处理模块将语音信号和脉冲信号做时间关联，各自的处理模块将这一关联后的结合信号经过模数转换、格式编码后通过网络通信模块发送到服务器。

第五步：服务器在接收到语音微波炉和语音油烟机上传的信息后，将接收到的信号进行解码和还原，将语音微波炉和语音油烟机对应的语音信号进行相似性对比，判断是否为同一音源信号。

第六步：服务器将接收到的两个语音信号进行对齐后，判断与语音信号关联的时间脉冲信号的时间先后顺序，将最早到达的时间脉冲信号对应的电子设备作为与用户语音交互的入口设备。

服务器根据自然语音处理结果，分析用户的意图和需求。比如用户说“打开微波炉门”，服务器直接下发允许响应指令和设备操作指令给微波炉，微波炉控制电路打开炉门，微波炉上语音回应用户“已经打开炉门”。如果用户说“打开烟机”，服务器判断用户是否有已唤醒的烟机设备、已唤醒的烟机设备是否带有语音功能，如果有，就将允许响应指令和设备操作指令下发给烟机，并在烟机端响应用户“已为您打开烟机”。如果烟机设备不带语音功能，则服务器将允许响应指令发给微波炉，将设备操作指令发给油烟机。

服务器根据用户语音信号判断用户意图，判断用户想要控制的电子设备，在判断出用户想要控制的电子设备后，结合设备特性判断该电子设备能否响应用户需求。比如上述烟机如果带有语音功能，则可以将烟机作为一个语音响应用户需求的可选设备。通过本申请实施例提供的方案，对于不具有语音交互功能但能够联网的电子设备，可以通过处于同一应用场景中的其它具有语音交互功能的电子设备作为语音交互的接口设备，来实现用语音控制不具有语音交互功能但能够联网的电子设备进行工作。

参见图9，本申请实施例提供一种语音控制装置，该装置用于执行上述实施例所述的语音控制方法中第三方设备所执行的操作，该装置包括：

接收模块901，用于接收多个电子设备发送的语音请求信息，语音请求信息中包括用户语音信号和时间脉冲信号；

确定模块902，用于根据每个语音请求信息包括的用户语音信号和时间脉冲信号，从多个电子设备中确定距离用户最近的第一电子设备；

发送模块903，用于发送允许响应指令给第一电子设备，及发送禁止响应指令给多个电子设备中除第一电子设备外的其它电子设备。

该装置还包括：同源信号确定模块，用于分别还原出每个语音请求信息中包括的用户语音信号和时间脉冲信号；根据还原出的每个用户语音信号的语音特性，确定每个语音请求信息包括的来自同一声源的用户语音信号。

确定模块902，用于将每个语音请求信息包括的来自同一声源的用户语音信号进行时域对齐；从对齐后的每个用户语音信号对应的时间脉冲信号中，确定最早到达的时间脉冲信号；将最早到达的时间脉冲信号对应的电子设备确定为距离用户最近的第一电子设备。

确定模块902，还可以用于将每个语音请求信息包括的时间脉冲信号进行时域对齐；从对齐后的每个时间脉冲信号对应的来自同一声源的用户语音信号中，确定最早到达的用户语音信号；将最早到达的用户语音信号对应的电子设备确定为距离用户最近的第一电子设备。

该装置还包括：操作指令发送模块，用于对用户语音信号进行语义识别，确定用户语音信号对应的设备操作指令；根据识别出用户语音信号中包括设备关键词，发送设备操作指令给设备关键词对应的第二电子设备；根据未识别出用户语音信号中包括设备关键词，发送设备操作指令给距离用户最近的第一电子设备。

该装置还包括：时间同步模块，用于每隔预设时长发送系统时间给多个电子设备，以使多个电子设备时间同步。

第三方设备为与多个电子设备通信连接的服务器、网关或路由器；或者，第三方设备为多个电子设备中的任一电子设备。

本申请实施例提供的语音控制装置与本申请实施例提供的语音控制方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

参见图10，本申请实施例提供了一种语音控制装置，该装置用于执行上述实施例所述的语音控制方法中电子设备所执行的操作，该装置包括：

脉冲生成模块1001，用于每隔预设时间间隔生成时间脉冲信号；

语音采集模块1002，用于采集用户语音信号；

信号关联模块1003，用于将时间脉冲信号和用户语音信号进行时间关联，得到语音请求信息；

信息发送模块1004，用于发送语音请求信息给第三方设备，以使第三方设备根据语音请求信息确定电子设备是否需要对用户语音信号进行响应。

该装置还包括：时间同步模块，用于接收第三方设备每隔预设时长发送的系统时间，将本地时间修改为系统时间。

该装置还包括：响应模块，用于接收第三方设备发送的允许响应指令，允许响应指令为第三方设备根据确定电子设备距离用户最近发送的；根据允许响应指令，对用户语音信号进行响应。

该装置还包括：操作执行模块，用于接收第三方设备发送的设备操作指令，执行设备操作指令。

本申请实施例提供了一种语音控制系统，包括第三方设备和多个电子设备；

本申请实施例提供的语音控制系统与本申请实施例提供的语音控制方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的语音控制方法对应的设备，以执行上述语音控制方法，所述设备可以是具有语音交互功能的电子设备，如具有语音交互功能的微波炉、油烟机、烤箱等，所述设备也可以是与具有语音交互功能的电子设备通信连接的服务器、网关或路由器等，本申请实施例不做限定。

请参考图11，其示出了本申请的一些实施方式所提供的一种设备的示意图。如图11所示，所述设备2包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的语音控制方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述语音控制方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的设备与本申请实施例提供的语音控制方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的语音控制方法对应的计算机可读介质，请参考图12，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的语音控制方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的语音控制方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音控制方法，应用于第三方设备，其特征在于，所述方法包括：

发送允许响应指令给所述第一电子设备，及发送禁止响应指令给所述多个电子设备中除所述第一电子设备外的其它电子设备；

其中，所述根据每个所述语音请求信息包括的所述用户语音信号和所述时间脉冲信号，从所述多个电子设备中确定距离用户最近的第一电子设备，包括：

将每个所述语音请求信息包括的来自同一声源的所述用户语音信号进行时域对齐；从对齐后的每个所述用户语音信号对应的时间脉冲信号中，确定最早到达的时间脉冲信号；将最早到达的所述时间脉冲信号对应的电子设备确定为距离用户最近的第一电子设备；或者，

将每个所述语音请求信息包括的所述时间脉冲信号进行时域对齐；从对齐后的每个所述时间脉冲信号对应的来自同一声源的用户语音信号中，确定最早到达的用户语音信号；将最早到达的所述用户语音信号对应的电子设备确定为距离用户最近的第一电子设备。

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述语音请求信息包括的所述用户语音信号和所述时间脉冲信号，从所述多个电子设备中确定距离用户最近的第一电子设备之前，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1或2所述的方法，其特征在于，所述第三方设备为与所述多个电子设备通信连接的服务器、网关或路由器；或者，所述第三方设备为所述多个电子设备中的任一电子设备。

6.一种语音控制方法，应用于电子设备，其特征在于，所述方法包括：

每隔预设时间间隔生成时间脉冲信号；

采集用户语音信号；

发送所述语音请求信息给第三方设备，以使所述第三方设备根据所述语音请求信息确定所述电子设备是否需要对所述用户语音信号进行响应；

其中，将所述时间脉冲信号和所述用户语音信号进行时间关联，包括：

确定一个开始时刻，从语音采集模块采集的声音信号中截取该开始时刻之后的信号，截取的该开始时刻之后的信号中包含上述用户语音信号；从当前生成的时间脉冲信号中截取该开始时刻之后的部分时间脉冲信号。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

接收所述第三方设备发送的允许响应指令；

根据所述允许响应指令，对所述用户语音信号进行响应。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

10.一种语音控制系统，其特征在于，包括第三方设备和多个电子设备；

所述第三方设备，用于接收多个电子设备发送的所述语音请求信息；根据每个所述语音请求信息包括的所述用户语音信号和所述时间脉冲信号，从所述多个电子设备中确定距离用户最近的第一电子设备；发送允许响应指令给所述第一电子设备，及发送禁止响应指令给所述多个电子设备中除所述第一电子设备外的其它电子设备；

所述第三方设备，具体用于将每个所述语音请求信息包括的来自同一声源的所述用户语音信号进行时域对齐；从对齐后的每个所述用户语音信号对应的时间脉冲信号中，确定最早到达的时间脉冲信号；将最早到达的所述时间脉冲信号对应的电子设备确定为距离用户最近的第一电子设备；或者，将每个所述语音请求信息包括的所述时间脉冲信号进行时域对齐；从对齐后的每个所述时间脉冲信号对应的来自同一声源的用户语音信号中，确定最早到达的用户语音信号；将最早到达的所述用户语音信号对应的电子设备确定为距离用户最近的第一电子设备。

11.一种设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一项所述的方法。