CN111722824A

CN111722824A - 语音控制方法、装置及计算机存储介质

Info

Publication number: CN111722824A
Application number: CN202010476419.XA
Authority: CN
Inventors: 高持真
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-29
Anticipated expiration: 2040-05-29
Also published as: US20210375281A1; US11568868B2; CN111722824B; EP3916720A1

Abstract

本公开涉及一种语音控制方法、装置及计算机存储介质，所述方法应用于第一终端，包括：在所述第一终端唤醒之后，接收用户的语音操作指令，所述语音操作指令用于控制所述第一终端执行目标操作；在接收到所述语音操作指令之后，向所述服务器发送指令执行请求，所述指令执行请求用于由所述服务器根据设备网络中终端的设备信息确定所述第一终端是否响应所述语音操作指令，其中所述第一终端处于所述设备网络中；在接收到所述服务器发送的用于指示所述第一终端响应所述语音操作指令的响应消息的情况下，执行所述目标操作。由此，可以有效避免终端直接响应语音操作指令所出现的多终端同时执行同一操作的问题，为保证目标操作唯一执行提供技术支持。

Description

语音控制方法、装置及计算机存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及语音控制方法、装置及计算机存储介质。

背景技术

相关技术中，随着计算机技术的发展，智能终端设备在生活中的使用越来越多。例如，在智能家居场景中可能存在多个智能终端设备，如闹钟、电视、音箱等，用户可以通过语音唤醒并控制该智能终端设备执行相应的操作。然而在该多终端场景中，用户发出的一次语音操作指令，可能会有多个智能设备被唤醒，从而执行该语音操作指令对应的操作。例如，用户想要播放音乐时，可能会同时唤醒音箱和电视，从而使得两者同时播放音乐，严重影响用户的使用体验。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音控制方法、装置及计算机存储介质。

根据本公开实施例的第一方面，提供一种语音控制方法，应用于第一终端，所述方法包括：

在所述第一终端唤醒之后，接收用户的语音操作指令，所述语音操作指令用于控制所述第一终端执行目标操作；

在接收到所述语音操作指令之后，向所述服务器发送指令执行请求，所述指令执行请求用于由所述服务器根据设备网络中终端的设备信息确定所述第一终端是否响应所述语音操作指令，其中，所述第一终端处于所述设备网络中；

在接收到所述服务器发送的用于指示所述第一终端响应所述语音操作指令的响应消息的情况下，执行所述目标操作。

可选地，所述方法还包括：

在检测到唤醒信号的情况下，根据检测到的所述唤醒信号，确定第一唤醒信号特征信息；

接收所述设备网络中的第二终端发送的第二唤醒信号特征信息，其中，所述第二唤醒信号特征信息是所述第二终端根据自身检测到的所述唤醒信号确定出的，所述第二终端为所述设备网络中除所述第一终端之外的终端中检测到所述唤醒信号的任一终端；

根据所述第一唤醒信号特征信息和所述第二唤醒信号特征信息，确定所述第一终端是否需要唤醒；

在确定所述第一终端需要唤醒的情况下，控制所述第一终端唤醒。

可选地，在第一决策时段内接收所述设备网络中的第二终端发送的第二唤醒信号特征信息；

所述根据所述第一唤醒信号特征信息和所述第二唤醒信号特征信息，确定所述第一终端是否需要唤醒，包括：

根据所述第一唤醒信号特征信息和所述第一决策时段内接收到的所述第二唤醒信号特征信息，确定所述第一终端是否需要唤醒。

可选地，所述根据所述第一唤醒信号特征信息和所述第一决策时段内接收到的所述第二唤醒信号特征信息，确定所述第一终端是否需要唤醒，包括：

根据所述第一唤醒信号特征信息确定所述第一终端对应的终端唤醒参数；

根据每一所述第二唤醒信号特征信息分别确定每一所述第二终端对应的终端唤醒参数，其中，所述终端唤醒参数用于表征终端与所述唤醒信号的匹配度；

在对应于最匹配的终端唤醒参数的终端为所述第一终端的情况下，确定所述第一终端需要唤醒。

可选地，所述方法还包括：

向所述服务器发送所述第一唤醒信号特征信息，以使所述服务器在接收到所述指令执行请求之后，根据所述第一唤醒信号特征信息和所述设备网络中终端的设备信息确定所述第一终端是否响应所述语音操作指令。

可选地，唤醒信号特征信息包括以下中的至少一者：声源方向、声源距离、信号能量、唤醒信号与唤醒词的匹配度。

根据本公开实施例的第二方面，提供一种语音控制方法，应用于服务器，所述方法包括：

在第二决策时段内接收到多个终端发送的指令执行请求的情况下，根据每一所述终端的设备信息，从所述多个终端中确定用于响应所述指令执行请求对应的语音操作指令的目标终端，其中，所述多个终端共处同一设备网络，且所述多个终端发送的所述指令执行请求对应于同一语音操作指令；

向所述目标终端发送用于指示所述目标终端响应所述语音操作指令的响应消息，以由所述目标终端执行所述语音操作指令对应的目标操作。

可选地，所述方法还包括：

向所述多个终端中除所述目标终端之外的其他终端发送拒绝消息，所述拒绝消息用于指示所述其他终端拒绝响应所述语音操作指令。

可选地，所述方法还包括：

在所述第二决策时段内接收所述多个终端发送的唤醒信号特征信息，所述唤醒信号特征信息是所述终端根据自身检测到的唤醒信号确定出的；

所述根据每一所述终端的设备信息，从所述多个终端中确定用于响应所述指令执行请求对应的语音操作指令的目标终端，包括：

根据每一所述终端发送的所述唤醒信号特征信息，确定每一所述终端的优先级信息；

根据所述语音操作指令、每一所述终端的优先级信息和每一所述终端的设备信息，确定所述目标终端。

可选地，所述设备信息包括设备能力信息，用于表征所述终端支持的操作；

所述根据所述语音操作指令、每一所述终端的优先级信息和每一所述终端的设备信息，确定所述目标终端，包括：

将所述设备能力信息与所述语音操作指令对应的所述目标操作相匹配的终端中优先级最高的终端，确定为所述目标终端。

根据本公开实施例的第三方面，提供一种语音控制装置，应用于第一终端，所述装置包括：

第一接收模块，被配置为在所述第一终端唤醒之后，接收用户的语音操作指令，所述语音操作指令用于控制所述第一终端执行目标操作；

第一发送模块，被配置为在接收到所述语音操作指令之后，向所述服务器发送指令执行请求，所述指令执行请求用于由所述服务器根据设备网络中终端的设备信息确定所述第一终端是否响应所述语音操作指令，其中，所述第一终端处于所述设备网络中；

执行模块，被配置为在接收到所述服务器发送的用于指示所述第一终端响应所述语音操作指令的响应消息的情况下，执行所述目标操作。

可选地，所述装置还包括：

第一确定模块，被配置为在检测到唤醒信号的情况下，根据检测到的所述唤醒信号，确定第一唤醒信号特征信息；

第二接收模块，被配置为接收所述设备网络中的第二终端发送的第二唤醒信号特征信息，其中，所述第二唤醒信号特征信息是所述第二终端根据自身检测到的所述唤醒信号确定出的，所述第二终端为所述设备网络中除所述第一终端之外的终端中检测到所述唤醒信号的任一终端；

第二确定模块，被配置为根据所述第一唤醒信号特征信息和所述第二唤醒信号特征信息，确定所述第一终端是否需要唤醒；

控制模块，被配置为在确定所述第一终端需要唤醒的情况下，控制所述第一终端唤醒。

所述第二确定模块包括：

第一确定子模块，被配置为根据所述第一唤醒信号特征信息和所述第一决策时段内接收到的所述第二唤醒信号特征信息，确定所述第一终端是否需要唤醒。

可选地，所述第一确定子模块包括：

第二确定子模块，被配置为根据所述第一唤醒信号特征信息确定所述第一终端对应的终端唤醒参数；

第三确定子模块，被配置为根据每一所述第二唤醒信号特征信息分别确定每一所述第二终端对应的终端唤醒参数，其中，所述终端唤醒参数用于表征终端与所述唤醒信号的匹配度；

第四确定子模块，被配置为在对应于最匹配的终端唤醒参数的终端为所述第一终端的情况下，确定所述第一终端需要唤醒。

可选地，所述装置还包括：

第二发送模块，被配置为向所述服务器发送所述第一唤醒信号特征信息，以使所述服务器在接收到所述指令执行请求之后，根据所述第一唤醒信号特征信息和所述设备网络中终端的设备信息确定所述第一终端是否响应所述语音操作指令。

根据本公开实施例的第四方面，提供一种语音控制装置，应用于服务器，所述装置包括：

第三确定模块，被配置为在第二决策时段内接收到多个终端发送的指令执行请求的情况下，根据每一所述终端的设备信息，从所述多个终端中确定用于响应所述指令执行请求对应的语音操作指令的目标终端，其中，所述多个终端共处同一设备网络，且所述多个终端发送的所述指令执行请求对应于同一语音操作指令；

第三发送模块，被配置为向所述目标终端发送用于指示所述目标终端响应所述语音操作指令的响应消息，以由所述目标终端执行所述语音操作指令对应的目标操作。

可选地，所述装置还包括：

第四发送模块，被配置为向所述多个终端中除所述目标终端之外的其他终端发送拒绝消息，所述拒绝消息用于指示所述其他终端拒绝响应所述语音操作指令。

可选地，所述装置还包括：

第三接收模块，被配置为在所述第二决策时段内接收所述多个终端发送的唤醒信号特征信息，所述唤醒信号特征信息是所述终端根据自身检测到的唤醒信号确定出的；

所述第三确定模块包括：

第五确定子模块，被配置为根据每一所述终端发送的所述唤醒信号特征信息，确定每一所述终端的优先级信息；

第六确定子模块，被配置为根据所述语音操作指令、每一所述终端的优先级信息和每一所述终端的设备信息，确定所述目标终端。

所述第六确定子模块包括：

第七确定子模块，被配置为将所述设备能力信息与所述语音操作指令对应的所述目标操作相匹配的终端中优先级最高的终端，确定为所述目标终端。

根据本公开实施例的第五方面，提供一种语音控制装置，应用于第一终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开实施例的第六方面，提供一种语音控制装置，应用于服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开实施例的第七方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面或第二方面所提供的语音控制方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

在上述技术方案中，在第一终端唤醒之后，接收用户的语音操作指令，并向服务器发送指令执行请求，以由服务器根据该第一终端所处设备网络中终端的信息确定第一终端是否响应语音操作指令，从而在第一终端接收到服务器发送的用于指示第一终端响应语音操作指令的响应消息的情况下，执行该语音操作指令对应的目标操作。由此，通过上述技术方案，在终端唤醒后接收到语音操作指令时，并不直接对该语音操作指令进行响应，而是由服务器辅助确定该终端是否进行响应，从而可以有效避免终端直接响应语音操作指令所出现的多终端同时执行同一操作的问题，为保证目标操作唯一执行提供技术支持。另外，在本公开的实施例中，由服务器对终端接收到的语音操作指令是否响应进行判断，则在语音控制服务升级时可以只对服务器进行升级，各个终端无感知，降低服务版本升级的开销，拓宽该语音控制方法的使用范围。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是示例性的使用场景图；

图2是根据一示例性实施例示出的一种语音控制方法的流程图；

图3是根据另一示例性实施例示出的一种语音控制方法的流程图；

图4是根据另一示例性实施例示出的一种语音控制方法的流程图；

图5是根据一示例性实施例示出的一种语音控制装置的框图；

图6是根据另一示例性实施例示出的一种语音控制装置的框图；

图7是根据另一示例性实施例示出的一种语音控制装置的框图；

图8是根据另一示例性实施例示出的一种语音控制装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如背景技术中所述，在同一场景中存在多个智能终端设备的情况下，用户的一次语音操作指令可能会同时唤醒多个智能终端设备，从而会出现多个终端设备同时执行该操作的问题，给用户使用终端带来不便。示例地，如图1所示，为一示例性的使用场景图，示例地，客厅中存在两个智能终端A1和A2，其中终端A1为电视，终端A2为音箱，在电视和音箱均唤醒时，若用户发出语音询问“今天天气如何”时，会收到电视和音箱的同时回答，两个终端的回答会互相干扰。若用户指示播放音乐时，两者同时播放音乐时还需要用户手动关闭其中一者，才能使得用户听清播放的音乐。基于此，本公开提供如下实施例以解决上述问题。

图2是根据一示例性实施例示出的一种语音控制方法的流程图，如图2所示，该语音控制方法可以用于第一终端中，包括以下步骤：

在步骤11中，在第一终端唤醒之后，接收用户的语音操作指令，所述语音操作指令用于控制所述第一终端执行目标操作。

示例地，第一终端可以是当前所处环境中的任一终端。在第一终端唤醒之后，其可以一直检测所处环境中的语音数据，从而确定来自用户的语音操作指令。

在步骤12中，在接收到语音操作指令之后，向服务器发送指令执行请求，所述指令执行请求用于由所述服务器根据设备网络中终端的设备信息确定所述第一终端是否响应所述语音操作指令，其中，所述第一终端处于所述设备网络中。

其中，该设备网络可以预先设置，示例地，设备的设备信息可以包括但不限于以下中的至少一者：设备识别码，用于唯一标识该设备；设备能力信息，用于表征该设备支持的操作；设备型号，用于对该设备的类型进行标识；唤醒引擎识别码，用于标识该设备使用的唤醒引擎；用户信息，用于表示该设备中登录的用户账号、用户类型等信息。

以下对设备网络的确定过程进行详细说明。在一种可能的实施方式中，第一终端启动后可以通过本地通信网络对该其设备信息进行发布。示例地，可以采用广播或组播的方式进行发布。示例地，本地通信网络可以为WiFi、蓝牙或者ZigBee(紫蜂)等，本公开对此不进行限定。

作为示例，若采用广播的方式发布第一终端的设备信息，则可以将该设备信息发送到网络中的所有可能的接收者。若采用组播的方式发布第一终端的设备信息，则可以将该设备信息发送至第一终端所属的组内网络的各个终端。其中，通过广播和组播发布消息的方式为现有技术，在此不再赘述。

因此，在将第一终端的设备信息发布之后，其他终端在接收到该设备信息时，可以根据设备网络的构建规则，确定该设备信息是否满足该构建规则。例如，可以将处于同一局域网中的多个终端添加至同一设备网络，如图1中所示的连接到同一wifi的终端A1和A2；或者可以将对应于同一用户信息的终端添加至同一设备网络；又或者可以将处于同一局域网中、且对应于同一用户信息的终端添加至同一设备网络。以将对应于同一用户信息的终端添加至同一设备网络为例，在接收到其他设备的设备信息时，若该设备信息中的用户信息与第一终端的用户信息相同，则将该其他设备添加至第一终端所处的设备网络中，若该设备信息中的用户信息与第一终端的用户信息不同，则可以直接忽略该设备信息，由此可以确定属于同一设备网络中的各个终端。其中，上述仅为确定设备网络中终端的示例性说明，不对本公开进行限定，其可以根据实际使用场景进行设置。

在该步骤中，在该第一终端接收到语音操作指令后，并非直接执行该语音操作指令对应的目标操作，而是向服务器发送指令执行请求，以由服务器根据设备网络中终端的相关信息确定第一终端是否响应其接收到的语音操作指令。

在步骤13中，在接收到服务器发送的用于指示第一终端响应语音操作指令的响应消息的情况下，执行目标操作。

相应地，本公开还提供一种语音控制方法，应用于服务器，示例地，该服务器可以为云端服务器，如图3所示，为根据本公开的一种实施方式提供的语音控制方法的流程图，所述方法可以包括以下步骤：

在步骤21中，在第二决策时段内接收到多个终端发送的指令执行请求的情况下，根据每一终端的设备信息，从多个终端中确定用于响应指令执行请求对应的语音操作指令的目标终端，其中，所述多个终端共处同一设备网络，且所述多个终端发送的所述指令执行请求对应于同一语音操作指令。

其中，该设备网络的确定方法与上文所述相同，在此不再赘述。示例地，每一终端在启动时，可以向服务器发送其自身的设备信息，从而服务器可以存储该设备信息，并根据每一终端发送的设备信息，确定属于同一设备网络的终端。

在该步骤中，服务器接收到多个终端发送的对应于同一语音操作指令的指令执行请求，即在一设备网络中，有多个终端处于唤醒状态并且该多个终端均检测到用户发出的语音操作指令，此时则由服务器从所述多个终端中确定对语音操作指令进行响应的目标终端，其中，该目标终端为一个。具体地目标终端的确定方式在下文进行详细说明。

在步骤22中，向目标终端发送用于指示目标终端响应语音操作指令的响应消息，以由目标终端执行语音操作指令对应的目标操作。

在上述技术方案中，服务器可以在接收到多个终端发送的对应于同一语音操作指令的指令执行请求时，从该多个终端中确定用于对该语音操作指令进行响应的目标终端，从而向目标终端发送响应消息以由目标终端执行语音操作指令对应的目标操作。因此，通过上述技术方案，在同一设备网络中的多个终端检测到同一语音操作指令时，可以由服务器从该多个终端中确定进行响应的目标终端，从而可以保证在多终端检测到语音操作指令时，该语音操作指令对应的目标操作执行的唯一性，避免多终端同时执行同一操作对用户造成的困扰，既可以避免多终端同时执行造成的资源浪费，又可以贴合用户的使用需求，提升用户使用体验。

可选地，所述方法还包括：

在该实施例中，在从多个终端中确定出目标终端后，此时为了进一步保证目标操作执行的唯一性，可以向其他终端发送拒绝消息，以针对于其他终端的指令执行请求回复拒绝消息，通知其他终端无需响应该语音操作指令。

相应地，其他终端在接收到该拒绝消息时，可以忽略该语音操作指令，即在检测到该语音操作指令的情况下，不执行该语音操作指令对应的目标操作。

因此，通过上述技术方案，可以在检测到同一语音操作指令的多个终端中由目标终端执行该语音指令对应的目标操作。如图1示例中，在终端A1和终端A2同时检测到“今天天气如何”的语音操作指令，则终端A1和A2可以分别向服务器发送指令执行请求。服务器在接收到终端A1和A2发送的指令执行请求时，根据该终端A1和A2的设备信息，确定用于响应指令执行请求对应的语音操作指令的目标终端，示例地，确定出的目标终端为A2，此时，服务器向终端A2发送响应消息，则终端A2在接收到响应消息时，则可以执行目标操作，即输出应答语，如“今天北京天气晴，气温15-30摄氏度”，服务器向终端A1发送拒绝消息，则终端A1在接收到该拒绝消息时，不输出任何应答，由此可以保证仅由一个终端输出应答，保证在多个终端唤醒的情况下，操作执行的唯一性，提升用户使用体验。同时，向所述多个终端中除所述目标终端之外的其他终端发送拒绝消息，也可以避免其他终端长时间处于等待状态，提高消息交互的及时性。

可选地，为了进一步提高语音控制方法的简便性，本公开还提供以下实施例对终端进行唤醒，所述方法应用于第一终端时，如图4所示，在图2的基础上，所述方法还可以包括：

在步骤31中，在检测到唤醒信号的情况下，根据检测到的唤醒信号，确定第一唤醒信号特征信息。

作为示例，可以通过设备中的语音检测装置进行唤醒信号检测，例如通过麦克风阵列收集用户发出的唤醒信号，则可以根据该唤醒信号基于现有的声音定位或测距的方式确定出该声源方向、声源距离。其中，信号能量为该唤醒信号对应的频谱能量，可以通过唤醒信号的波形数据获得；唤醒信号与唤醒词的匹配度用于表示检测到的唤醒信号与该设备的标准唤醒信号之间的匹配度，示例地，可以将检测到的唤醒信号的波形与标准唤醒信号的波形的相似度确定为该唤醒信号与唤醒词的匹配度，相似度越大，表示该唤醒信号匹配度越高。

在步骤32中，接收设备网络中的第二终端发送的第二唤醒信号特征信息，其中，所述第二唤醒信号特征信息是所述第二终端根据自身检测到的所述唤醒信号确定出的，所述第二终端为所述设备网络中除所述第一终端之外的终端中检测到所述唤醒信号的任一终端。其中，第二唤醒信息特征信息的确定方式与上文所述相同，在此不再赘述。设备网络中的终端在检测到唤醒信号并提取出其对应的唤醒信号特征信息后，可以向该设备网络中的每一其他终端发送该唤醒信号特征信息，从而实现设备网络中的信息共享。

在步骤33中，根据第一唤醒信号特征信息和第二唤醒信号特征信息，确定第一终端是否需要唤醒。

示例地，在当前使用环境中存在多个唤醒词相同的终端时，用户在使用时，通常只需要唤醒其中一个，因此在该实施例中，第一终端可以获取其自身的第一唤醒信号特征信息，并且可以接收其所处设备网络中的其他终端的第二唤醒信号特征信息，由此第一终端可以根据该设备网络中终端的信息确定第一终端是否需要唤醒，从而可以在一定程度上降低用户发出的唤醒词同时唤醒的终端数量。

在步骤34中，在确定第一终端需要唤醒的情况下，控制第一终端唤醒。

示例地，在确定第一终端需要唤醒的情况下，控制第一终端唤醒可以是播放唤醒应答语，从而可以与用户进行交互，以通知用户该第一终端被唤醒，可以用于执行后续操作。可选地，在确定第一终端需要唤醒的情况下，可以向服务器发送唤醒通知消息，以用于通知服务器该终端被唤醒。

由此，通过上述技术方案，在当前终端检测到唤醒信号时，并不直接对该终端进行唤醒，而是根据该终端所处设备网络中每一检测到唤醒信号的终端对应的唤醒信号特征信息，来确定当前终端是否需要唤醒，从而可以在一定程度上避免同时唤醒多个终端的问题，有效降低唤醒终端后终端等待所造成的资源浪费。

可选地，在第一决策时段内接收所述设备网络中的第二终端发送的第二唤醒信号特征信息，其中，该第一决策时段可以是从该第一终端检测到唤醒信号起的时段。

在步骤33中，根据第一唤醒信号特征信息和第二唤醒信号特征信息，确定第一终端是否需要唤醒的示例性实现方式，可以包括：

其中，处于同一设备网络中的多个终端针对用户发出的唤醒词检测到唤醒信号的时间是相近的，由此可以设置一时段用于进行本地决策，以确定是否唤醒当前终端。示例地，在第一决策时段超时后，设备网络中未存在唤醒信号特征信息的终端而言，可以认为该终端对应的唤醒词并不是用户发出的唤醒词，该终端可以直接忽略。

由此，通过上述技术方案，既可以保证接收到相对全面的唤醒信号特征信息，从而保证唤醒决策的准确性，又可以保证唤醒决策的及时性，保证唤醒响应的实时性，提升用户使用体验。

需要进行说明的是，考虑到终端与服务器之间信息传输的延时，则该第二决策时段的结束时间可以晚于终端对应的第一决策时段的结束时间，从而可以在服务器决策期间可以准确确定存在的多个唤醒终端，从而可以进一步保证确定出的目标终端的准确性。

可选地，所述根据所述第一唤醒信号特征信息和所述第一决策时段内接收到的所述第二唤醒信号特征信息，确定所述第一终端是否需要唤醒的示例地实现方式如下，该步骤可以包括：

根据每一所述第二唤醒信号特征信息分别确定每一所述第二终端对应的终端唤醒参数，其中，所述终端唤醒参数用于表征终端与所述唤醒信号的匹配度。

可选地，通过以下方式确定终端对应的终端唤醒参数：

若所述唤醒信号特征信息中只包括一个参考项(如声源数据的距离)，则可以直接将该参考项归一化后的数值确定为所述终端唤醒参数。若所述唤醒特征信号特征信息中包括多个参数项，则可以分别将该多个参数项进行向量化表示，从而通过对该多个参数项进行加权求和确定该终端唤醒参数。其中，唤醒信号特征信息已在上文进行详述，在此不再赘述。每一参数项的权重可以根据实际使用场景进行设置，本公开对此不进行限定。

在对应于最匹配的终端唤醒参数的终端为所述第一终端的情况下，确定所述第一终端需要唤醒。在对应最匹配的终端唤醒参数的终端不是所述第一终端的情况下，确定所述第一终端不需要唤醒，此时第一终端保证当前状态不变，可以有效节省第一终端唤醒后等待造成的资源浪费。通过上述技术方案，可以使得每一终端在本地根据其所处设备网络中终端的信息确定其自身是否需要被唤醒，从而可以在一定程度上避免同时唤醒多个终端的现象，贴合用户的使用需求。

可选地，所述方法还包括：

向所述服务器发送所述第一唤醒信号特征信息，以使所述服务器在接收到所述指令执行请求之后，根据所述第一唤醒信号特征信息和所述设备网络中终端的设备信息确定所述第一终端是否响应所述语音操作指令。其中，服务器可以在接收到首个唤醒信号特征信息后启动第二决策时段的计时，可以使得服务器能够获得更加全面的参考信息，为提高服务器确定出的目标终端的准确性提供数据支持。

相应地，所述方法应用于服务器时，所述方法还包括：

在所述第二决策时段内接收所述多个终端发送的唤醒信号特征信息，所述唤醒信号特征信息是所述终端根据自身检测到的唤醒信号确定出的。其中，终端确定其对应的唤醒信号特征信息的方式已在上文进行详述，在此不再赘述。

在步骤21中，根据每一终端的设备信息，从多个终端中确定用于响应指令执行请求对应的语音操作指令的目标终端的示例性实现方式如下，该步骤可以包括：

根据每一所述终端发送的所述唤醒信号特征信息，确定每一所述终端的优先级信息。其中，可以根据每一终端对应的唤醒信号特征信息确定该终端对应的终端唤醒参数，从而根据每一终端对应的终端唤醒参数表征的匹配度确定该终端的优先级信息，其中，终端的终端唤醒参数表征的匹配度越高，则该终端的优先级信息越高。其中，确定终端对应的终端唤醒参数的方式已在上文进行详述，在此不再赘述。

之后，则根据所述语音操作指令、每一所述终端的优先级信息和每一所述终端的设备信息，确定所述目标终端。

以下详细说明确定所述目标终端的具体实施例。示例地，所述设备信息包括设备能力信息，用于表征所述终端支持的操作。

示例地，所述终端为闹钟时，其设备能力信息可以包括时间反馈能力，用于报时或者闹钟设定，还可以包括天气反馈能力，用于反馈天气信息等；所述终端为音箱时，其设备能力信息可以包括时间反馈能力、天气反馈能力和音频播放能力，用于进行音频数据播放。其中，每一第一终端的设备能力信息可以进行预先设置。

所述根据所述语音操作指令、每一所述终端的优先级信息和每一所述终端的设备信息，确定所述目标终端的示例性实现方式如下，该步骤可以包括：

作为示例，多个终端为终端A1、A2和A3，确定出的对应的优先级信息由高至低的顺序依次为A2，A1，A3。并且，服务器可以根据接收到的指令执行请求对应的语音操作指令进行语音识别，确定该语音操作指令对应的目标操作，从而可以根据该目标操作和设备能力信息确定两者是否匹配。示例地，终端A1为电视、A2为音箱、A3为闹钟，确定出的目标操作为播放音频。

在一种可能的实施方式中，可以根据该优先级信息由高至低的顺序选择候选终端，并确定该候选终端的设备能力信息与目标操作是否匹配，在匹配时，则将该候选终端确定为该目标终端。例如，根据优先级信息的顺序，首先选择候选终端为音箱A2，此时确定音箱A2的设备能力信息中包括音频播放能力，与目标操作播放音频相匹配，此时可以直接将该音箱A2确定为目标终端，剩余终端无需进行匹配。

在另一种可能的实施方式中，可以根据多个终端设备的设备能力信息，确定与目标操作对应的候选终端，之后将候选终端中优先级信息最高的终端确定为目标终端。例如，目标操作为播放音频，因此，可以根据多个设备的设备能力信息确定是否与该目标操作相匹配，由此可以确定音箱A2和电视A1可以为候选终端。其中，音箱A2的优先级高于电视A1的优先级，此时可以将音箱A2确定为所述目标终端。

由此通过上述技术方案，可以根据语音操作指令、每一终端的优先级信息和每一终端的设备信息，确定最优响应该语音操作指令的目标终端，既可以保证该目标终端与该语音操作指令的执行匹配度，贴合用户的使用需求，又可以准确且唯一地确定出目标终端，从而保证目标操作可以由目标终端唯一执行；在多终端唤醒的情况下，有效避免多终端对同一操作的同时执行，进一步提升用户使用体验。

本公开还提供一种语音控制装置，应用于第一终端，如图5所示，所述装置10包括：

第一接收模块101，被配置为在所述第一终端唤醒之后，接收用户的语音操作指令，所述语音操作指令用于控制所述第一终端执行目标操作；

第一发送模块102，被配置为在接收到所述语音操作指令之后，向所述服务器发送指令执行请求，所述指令执行请求用于由所述服务器根据设备网络中终端的设备信息确定所述第一终端是否响应所述语音操作指令，其中，所述第一终端处于所述设备网络中；

执行模块103，被配置为在接收到所述服务器发送的用于指示所述第一终端响应所述语音操作指令的响应消息的情况下，执行所述目标操作。

可选地，所述装置10还包括：

所述第二确定模块包括：

可选地，所述第一确定子模块包括：

可选地，所述装置10还包括：

本公开还提供一种语音控制装置，应用于服务器，如图6所示，所述装置20包括：

第三确定模块201，被配置为在第二决策时段内接收到多个终端发送的指令执行请求的情况下，根据每一所述终端的设备信息，从所述多个终端中确定用于响应所述指令执行请求对应的语音操作指令的目标终端，其中，所述多个终端共处同一设备网络，且所述多个终端发送的所述指令执行请求对应于同一语音操作指令；

第三发送模块202，被配置为向所述目标终端发送用于指示所述目标终端响应所述语音操作指令的响应消息，以由所述目标终端执行所述语音操作指令对应的目标操作。

可选地，所述装置20还包括：

所述第三确定模块201包括：

所述第六确定子模块包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的语音控制方法的步骤。

图7是根据一示例性实施例示出的一种语音控制装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的语音控制方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述语音控制方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述语音控制方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音控制方法的代码部分。

图8是根据一示例性实施例示出的一种语音控制装置1900的框图。例如，装置1900可以被提供为一服务器。参照图8，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述语音控制方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows Server^TM，MacOS X^TM，Unix^TM，Linux^TM，FreeBSD^TM或类似。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音控制方法，其特征在于，应用于第一终端，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在第一决策时段内接收所述设备网络中的第二终端发送的第二唤醒信号特征信息；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一唤醒信号特征信息和所述第一决策时段内接收到的所述第二唤醒信号特征信息，确定所述第一终端是否需要唤醒，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2-5中任一项所述的方法，其特征在于，唤醒信号特征信息包括以下中的至少一者：声源方向、声源距离、信号能量、唤醒信号与唤醒词的匹配度。

7.一种语音控制方法，其特征在于，应用于服务器，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述设备信息包括设备能力信息，用于表征所述终端支持的操作；

11.根据权利要求9或10所述的方法，其特征在于，唤醒信号特征信息包括以下中的至少一者：声源方向、声源距离、信号能量、唤醒信号与唤醒词的匹配度。

12.一种语音控制装置，其特征在于，应用于第一终端，所述装置包括：

13.一种语音控制装置，其特征在于，应用于服务器，所述装置包括：

14.一种语音控制装置，其特征在于，应用于第一终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

15.一种语音控制装置，其特征在于，应用于服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

16.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-11中任一项所述方法的步骤。