CN110211580B

CN110211580B - 多智能设备应答方法、装置、系统及存储介质

Info

Publication number: CN110211580B
Application number: CN201910403852.8A
Authority: CN
Inventors: 刘飞; 王静; 苏腾荣; 赵培
Original assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2021-07-16
Anticipated expiration: 2039-05-15
Also published as: CN110211580A

Abstract

本发明公开了一种多智能设备应答方法、装置、系统及存储介质。其中，该方法包括：获取每个智能设备的评分值，其中，每个智能设备评分值为：对应智能设备接收到包括唤醒词的唤醒语音后，依据唤醒语音的能量均峰值对唤醒语音进行评分后得到的值；根据每个智能设备的评分值，确定用于应答的目标智能设备；向目标智能设备发送控制指令，其中，控制指令用于指示目标智能设备进入应答状态。本发明解决了相关技术中在同一唤醒词唤醒多个智能设备的场景下，如何简单快速地确定用于应答的目标智能设备的技术问题。

Description

多智能设备应答方法、装置、系统及存储介质

技术领域

本发明涉及智能领域，具体而言，涉及一种多智能设备应答方法、装置、系统及存储介质。

背景技术

随着智能语音应用技术的不断成熟，智能设备越来越多，通过语音与智能设备的交互的使用场景也不断增多，各种语音交互方案不断出现。例如，在居家等场所，人们越来越倾向于通过语音来下达指令，获取信息，从而释放双手，更自然地与智能家电进行语音交互。另外，在日常生活中，越来越多的场合会不止一个智能设备。当这些智能设备的唤醒词相同时，比如，当用户发出“小优小优”的唤醒词时，可能会有多个智能设备被唤醒，同时响应用户的指令，这就会给用户带来困扰，不知道该跟哪台智能设备进行交互。同时多个智能设备同时响应相互之间也会造成干扰，影响用户与智能设备的交互效果。

针对上述问题，在相关技术中，一般采用云端来对各个智能设备的语音进行识别，从而确定一个用于应答的目标智能设备，但这样的方法，不仅语音识别的计算量大，而且响应时间也长。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种多智能设备应答方法、装置、系统及存储介质，以至少解决相关技术中在同一唤醒词唤醒多个智能设备的场景下，如何简单快速地确定用于应答的目标智能设备的技术问题。

根据本发明实施例的一个方面，提供了一种多智能设备应答方法，包括：获取每个智能设备的评分值，其中，每个智能设备的评分值为：对应智能设备接收到包括唤醒词的唤醒语音后，依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分后得到的值；根据所述每个智能设备的评分值，确定用于应答的目标智能设备；向所述目标智能设备发送控制指令，其中，所述控制指令用于指示所述目标智能设备进入应答状态。

可选地，获取每个智能设备的评分值包括：在预定获取时间范围内获取所述每个智能设备发送的评分值。

可选地，所述唤醒语音的能量均峰值为所述唤醒语音在预定频段范围内的能量均峰值，其中，在所述预定频段范围内包含所述唤醒语音的频谱特征。

可选地，依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分后得到的值为：对所述唤醒语音在所述预定频段范围内的能量求平均得到能量均值后，对超过所述能量均值的能量再求平均后得到能量均峰值，对所述能量均峰值进行评分后得到的值。

根据本发明实施例的另一个方面，提供了一种多智能设备应答方法，包括：接收到包括唤醒词的唤醒语音；依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值；将所述评分值发送给多个智能设备中的主控设备，其中，所述评分值用于所述主控设备确定用于应答的目标智能设备，以使所述目标智能设备进入应答状态。

可选地，依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值包括：确定所述唤醒语音中用于评分的预定频段范围，其中，在所述预定频段范围内包含所述唤醒语音的频谱特征；依据所述唤醒语音在所述预定频段范围内的能量均峰值对所述唤醒语音进行评分，得到所述评分值。

可选地，依据所述唤醒语音在所述预定频段范围内的能量均峰值对所述唤醒语音进行评分，得到所述评分值包括：对所述唤醒语音在所述预定频段范围内的能量求平均，得到能量均值，确定在所述预定频段范围内超过所述能量均值的能量；对在所述预定频段范围内超过所述能量均值的能量再求平均，得到能量均峰值，对所述能量均峰值进行评分，得到所述评分值。

可选地，在将所述评分值发送给多个智能设备中的主控设备之后，还包括：作为所述目标智能设备接收到所述主控设备发送的用于指示进入应答状态的控制指令；根据所述控制指令进入应答状态，并响应接下来的交互语音中所包括的用户指令。

根据本发明实施例的还一个方面，提供了一种多智能设备应答方法，包括：确定多个智能设备中的主控设备；所述多个智能设备接收到包括唤醒词的唤醒语音；所述多个智能设备依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值；所述多个智能设备中除所述主控设备之外的非主控设备将得到的评分值发送给所述主控设备；所述主控设备根据所述非主控设备发送的评分值，以及所述主控设备所得到的评分值，确定用于应答的目标智能设备，并控制所述目标智能设备进入应答状态，并响应接下来的用户指令。

可选地，通过以下方式至少之一，确定所述多个智能设备中的主控设备：依据用于指定作为主控设备的输入指令，确定所述多个智能设备中的主控设备；依据所述多个智能设备中每个智能设备的性能，确定所述多个智能设备中的主控设备；依据所述多个智能设备中每个智能设备的网络参数，确定所述多个智能设备中的主控设备。

可选地，所述多个智能设备依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值包括：所述多个智能设备中的每个智能设备确定接收到的所述唤醒语音中用于评分的预定频段范围，其中，在所述预定频段范围内包含所述唤醒语音的频谱特征；所述多个智能设备中的每个智能设备依据所述唤醒语音在所述预定频段范围内的能量均峰值对所述唤醒语音进行评分，得到所述评分值。

可选地，所述多个智能设备中的每个智能设备依据所述唤醒语音在所述预定频段范围内的能量均峰值对所述唤醒语音进行评分，得到所述评分值包括：所述多个智能设备中的每个智能设备对所述唤醒语音在所述预定频段范围内能量求平均，得到能量均值，确定在所述预定频段范围内超过所述能量均值的能量；所述多个智能设备中的每个智能设备对在所述预定频段范围内超过所述能量均值的能量再求平均得到能量均峰值，对所述能量均峰值进行评分，得到所述评分值。

根据本发明实施例的一个方面，提供了一种多智能设备应答装置，包括：获取模块，用于获取每个智能设备的评分值，其中，每个智能设备的评分值为：对应智能设备接收到包括唤醒词的唤醒语音后，依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分后得到的值；决策模块，用于根据所述每个智能设备的评分值，确定用于应答的目标智能设备；第一发送模块，用于向所述目标智能设备发送控制指令，其中，所述控制指令用于指示所述目标智能设备进入应答状态。

根据本发明实施例的另一个方面，提供了一种多智能设备应答装置，包括：接收模块，用于接收到包括唤醒词的唤醒语音；评分模块，用于依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值；第二发送模块，用于将所述评分值发送给多个智能设备中的主控设备，其中，所述评分值用于所述主控设备确定用于应答的目标智能设备，以使所述目标智能设备进入应答状态。

根据本发明实施例的还一个方面，提供了一种多智能设备应答系统，所述系统包括多个智能设备，多个智能设备中包括有主控设备以及除所述主控设备之外的非主控设备，其中，所述多个智能设备，用于确定多个智能设备中的主控设备，接收到包括唤醒词的唤醒语音，并依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值；所述非主控设备，用于将得到的评分值发送给所述主控设备；所述主控设备，用于根据所述非主控设备发送的评分值，以及所述主控设备所得到的评分值，确定用于应答的目标智能设备，并控制所述目标智能设备进入应答状态，并响应接下来的用户指令。

根据本发明实施例的一个方面，提供了一种存储介质，所述存储介质存储有程序，其中，在所述程序被处理器运行时控制所述处理器执行上述任意一项所述的多智能设备应答方法。

根据本发明实施例的另一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有程序，所述处理器用于执行所述程序，所述程序运行时使得所述处理器执行上述任意一项所述的多智能设备应答方法。

在本发明实施例中，采用根据所述每个智能设备的评分值，确定用于应答的目标智能设备的方式，通过依据唤醒语音的能量均峰值进行评分后得到评分值，由于唤醒语音的能量均峰值能够较为容易地获取，不需要复杂的计算过程，达到了能够简单快速地确定用于应答的目标智能设备的目的，另外，由于由多个智能设备中的每个智能设备分别进行评分，从而实现了对唤醒语音并行处理，在一定程度上也达到避免由一个设备集中处理所引起的计算量大，延时长的技术效果，进而解决了相关技术中在同一唤醒词唤醒多个智能设备的场景下，如何简单快速地确定用于应答的目标智能设备的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的多智能设备应答方法一的流程图；

图2是根据本发明实施例的多智能设备应答方法二的流程图；

图3是根据本发明实施例的多智能设备应答方法三的流程图；

图4是根据本发明优选实施方式的流程图；

图5是根据本发明优选实施方式具体实现的流程图；

图6是本优选实施方式中对各个智能设备对接收到的语音进行评分的评分情况图；

图7是本发明实施例提供的多智能设备应答装置一的结构框图；

图8是本发明实施例提供的多智能设备应答装置二的结构框图；

图9是本发明实施例提供的多智能设备应答系统的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种多智能设备应答方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的多智能设备应答方法一的流程图，如图1所示，该流程包括如下步骤：

步骤S102，获取每个智能设备的评分值，其中，每个智能设备的评分值为：对应智能设备接收到包括唤醒词的唤醒语音后，依据唤醒语音的能量均峰值对唤醒语音进行评分后得到的值；

作为至少一个可选的实施例，上述步骤的执行主体可以是一个管理设备，该管理设备可以是一个独立于上述多个智能设备的设备，也可以是从多个智能设备中选择出来的一个主控设备，并且该主控设备与多个智能设备中的其它智能设备的区别仅在于，该主控设备能够执行对其它智能设备的管理功能。另外，需要说明的是，本申请所涉及的智能设备例如可以是智能语音设备，即通过语音与用户进行智能交互的设备。当然也不仅仅限定于智能语音设备，例如，通过其它交互方式(例如，表情，手势动作等)与用户进行智能交互的设备均可以是本申请所涉及的智能设备。

作为至少一个可选的实施例，上述多个智能设备可以是在同一局域网内的多个智能设备，在同一局域网内的多个智能设备在上线后自动互相发现。如果本实施例中的执行主体为从多个智能设备中选择出的一个主控设备，那么在多个智能设备组成局域网后，可以依据互相发现过程从多个智能设备中，选择出一个主控设备。例如，在智能设备互相发现的过程中，依据各个智能设备的IP地址来选择出一个主控设备，比如，选择IP地址最大的智能设备作为该主控设备，或者选择IP地址最小的智能设备作为该主控设备。需要说明的是，在从多个智能设备中选择出一个主控设备的方式还可以有多种，例如，选择同一局域网内多个智能设备中性能较好的智能设备作为该主控设备，其中，该性能较好依据的标准可以是，计算能力强，或者是传输能力强，或者是存储能力强，具体选择的标准可以依据具体需求而定，在此不限定。又例如，较为简单地，从多个智能设备中选择出一个主控设备还可以是直接采用用户指定的一个智能设备，例如，用户直接在各个智能设备中标识是否作为主控设备，各个智能设备依据该标识直接确定是否为主控设备，依据是否为主控设备分别执行对应的功能。

作为至少一个可选的实施例，获取每个智能设备的评分值(也可以称之为唤醒评分值，用于标识对唤醒语音数据进行评分后得到的值，区分于后续与用户进行交互时，对交互语音数据所进行的评分值，以下为描述简便，可以简称为评分值)时，获取的方式可以多种，例如，当多个智能设备中不包括主控设备时，可以直接由该多个智能设备采用将对应的评分值发送的方式，获取该每个智能设备的评分值。当多个智能设备中包括该主控设备时，由主控设备接收多个智能设备中除主控设备之外的其它智能设备发送的评分值，并且结合主控设备自身对唤醒语音进行评分获得的评分值，从而得到多个智能设备全部的评分值。

作为至少一个可选的实施例，在本地获取每个智能设备的评分值，包括各个智能设备在自身本地对接收到的唤醒语音进行评分后得到的值，也包括多个智能设备中的主控设备在本地接收到非主控设备发送的对唤醒语音进行评分后得到的值。即不管是各个智能设备获取自身的评分值，还是主控设备接收非主控设备发送的评分值，这些处理均是在各个智能设备本地处理完成的。

作为至少一个可选的实施例，多个智能设备中的每个智能设备的评分值为：对应智能设备接收到包括唤醒词的唤醒语音后，依据唤醒语音的能量均峰值对唤醒语音进行评分后得到的值。即评分值为对应智能设备接收到语音唤醒信号后，对唤醒语音数据进行能量均峰值等方法计算转换而得到评分值。此处所指的唤醒语音的能量均峰值可以是指该唤醒语音在一定频段内的能量均峰值。在用户发出唤醒词后，各个智能设备需要分别针对自身接收到的包括唤醒词的唤醒语音进行评分。由于唤醒语音的能量均峰值能够较为容易地获取，不需要复杂的计算过程，另外，由多个智能设备中的每个智能设备分别进行评分，从而实现了对唤醒语音并行处理，在一定程度上也达到避免由一个设备集中处理或云端处理所引起的计算量大，受网络状况限制，延时长的技术效果。

作为至少一个可选的实施例，由于唤醒语音的频谱涉及的范围可能较大，并且也可能存在一些明显失真的频谱，因此，在计算唤醒语音的能量均峰值时，可以不并对整个唤醒语音的全部频谱范围进行计算，而是可以选择唤醒语音在一个较优的预定频段范围内进行计算，即唤醒语音的能量均峰值为唤醒语音在预定频段范围内的能量均峰值，其中，在预定频段范围内包含唤醒语音的频谱特征。采用选择一段频段范围进行计算，相对于对唤醒语音的整个频段来计算，计算量可以大大地减小，为快速确定用于应答的智能设备提供了基础和可能。

具体处理时，针对各个智能设备可以预先设置一个默认频段范围，如果智能设备接收到的唤醒语音在该默认频段范围内没有严重失真或者损坏的情况下，可以直接以该默认频段范围的能量来进行评分，例如，依据该默认频段范围的能量均峰值来进行评分，能量均峰值高时，评分值也高，能量均峰值低时，评分值也相对较低。当然如果智能设备接收到的唤醒语音在该默认频段范围内出现严重失真或者损坏的情况下，就需要对用于计算的频段范围进行调整，调整到能够体现接收到的唤醒语音的频谱特征的频段范围内，之后，依据调整后的频段范围的能量均峰值来进行评分。需要说明是的，在具体调整时，由于每个智能设备的情况不同，调整的方式以及调整的结果可能均会不同。

作为至少一个可选的实施例，因为当环境噪声高时预定频段范围内的能量均值也高，但一般噪声能量比能量均值低，因此，以能量均值以上的能量来计算打分，受噪声能量影响小，因此抗噪性能好。依据唤醒语音的能量均峰值对唤醒语音进行评分后得到的值，可以为对唤醒语音在预定频段范围内的能量均峰值进行评分后得到的值。该预定频段内的能量均峰值为：对预定频段内的能量求平均得到能量均值，对该预定频段内超过该能量均值的能量再求平均得到的值。采用在预定频段范围内的能量均峰值进行评分，能够有效地避免唤醒语音中噪声的干扰，使得评分的结果更为准确，从而使得确定出的用于应答的智能设备也更准确。另外，由于采用的是在预定频段范围内超过能量均值的能量均峰值进行评分，相对于采用整个预定频段范围内能量进行评分而言，不仅计算量相对较小，也能够在一定程度上加快确定用于应答的智能设备的响应时间，而且能够有效避免噪声的干扰。

步骤S104，根据每个智能设备的评分值，确定用于应答的目标智能设备；

作为至少一个可选的实施例，上述评分值可以采用多种形式，例如，可以包括以下至少之一：百分制的分数值，用于标识智能设备进入应答状态的可能性的等级值。其中，百分制的分数值可以采用具体的分数值来表示，分数值越高的智能设备，表示确定为进入应答状态的可能性越大，例如，具体的分数值为90分的智能设备确定进入应答状态的可能性大于分数值为80分的智能设备。当然也可以相反地来表示，只要能够表示出确定为进入应答状态的可能性即可。

用于标识智能设备进入应答状态的可能性的等级值，可以是任何情况下用于表示等级的表示方式，例如，可以是A级，B级，C级等，其中，A级，B级，C级表示智能设备确定为进入应答状态的可能性依次递减或递增。也可以是其它表示方式，例如，数字的1级，2级，3级等，其中，1级，2级，3级表示智能设备进入应答状态的可能性依次递减或递增。具体表示等级的表示方式在此不进行一一限定。

作为至少一个可选的实施例，根据每个智能设备的评分值，确定用于应答的目标智能设备时，即是根据唤醒语音在不同智能设备的评分值，确定用于当次唤醒应答的目标智能设备。因为智能设备被唤醒的次数可能会是多次，针对当次接收到的语音进行评分后得到的评分值来确定当次唤醒应答的目标智能设备。

步骤S106，向目标智能设备发送控制指令，其中，该控制指令用于指示目标智能设备进入应答状态。

作为至少一个可选的实施例，在目标智能设备为上述主控设备时，即可以不用发送控制指令，直接进入应答状态。在进入应答状态后，在接收到用户的语音指令时，依据本地或者与远程交互的方式，执行与用户语音指令对应的控制操作，从而完成与用户的交互。需要说明的是，对于确定为非目标智能设备的智能设备，向非目标智能设备发送反馈信息时，也可以发送一个控制指令，由于未确定为用于当次唤醒应答的目标智能设备，因此，发送的该控制指令可以是用于指示忽略当前唤醒，进入待唤醒状态。

通过上述步骤，采用根据每个智能设备的评分值，确定用于应答的目标智能设备的方式，通过依据唤醒语音的能量均峰值进行评分后得到评分值，由于唤醒语音的能量均峰值能够较为容易地获取，不需要复杂的计算过程，而且只选择一定频段内的能量均峰值计算，达到了能够简单快速地确定用于应答的目标智能设备的目的，另外，选取能量均峰值而不是能量值作为评分，可以获得一定的抗干扰抗噪性能，由于由多个智能设备中的每个智能设备本地分别进行评分，从而实现了对唤醒语音并行处理，在一定程度上也达到避免由一个设备集中处理所引起的计算量大，受网络状况限制，延时长的技术效果，进而解决了相关技术中在同一唤醒词唤醒多个智能设备的场景下，如何简单快速地确定用于应答的目标智能设备的技术问题。

作为至少一个可选的实施例，在获取每个智能设备的评分值时，为保证获取的评分值的有效性，或者是区别于不同次数的唤醒，可以为获取设定一个时间范围，例如，可以在预定获取时间范围内获取每个智能设备发送的评分值。即在该预定获取时间范围内获取的智能设备发送的评分值则认为是一个有效值，可以用于后续确定是否为用于应答的智能设备的评分值。需要说明的是，该预定获取时间范围可以是在获取到第一个智能设备的评分值后的一定时间范围，比如，在获取到第一个智能设备的评分值后的500ms的时间内。其中，该500ms仅为一种示例，本申请对此不限定，可以依据具体场景中的智能设备之间的关系灵活设置。

作为至少一个可选的实施例，在向目标智能设备发送控制指令之后，由该目标智能设备来响应接下来用户的交互语音中所包括的用户指令。对于该语音会话，如果目标智能设备能完成唤醒语音中的所包括的用户指令，则直接由该目标智能设备来执行用户指令，结束语音会话。而目标智能设备不能完成唤醒语音中所包括的用户指令时，则需要再次确认用于执行用户指令的合适的智能设备，由再次确认的合适的智能设备来完成用户指令。例如，在向目标智能设备发送控制指令之后，还包括：判断目标智能设备是否能够完成进入应答状态后交互语音中所包括的用户指令，在判断结果为否的情况下，发出用于完成用户指令的询问语音；接收用户针对询问语音进行回复的回复指令，根据回复指令确定对回复指令进行响应的新的目标智能设备(例如，区别于上述依据唤醒语音选出的目标智能设备，如果上述依据唤醒语音选出的目标智能设备为第一目标智能设备的话，该新的目标智能设备可以称为第二目标智能设备)，并控制由之前的目标智能设备处于应答状态转移至新的目标智能设备处于应答状态(即控制由第一目标智能设备处于应答状态转移至第二目标智能设备处于应答状态)，以使新的目标智能设备响应用户的回复指令，以完成用户指令。为说明方便，以第一目标智能设备和第二目标智能设备为对象举例来说，比如，用户发出的唤醒语音是“打开空调”，向第一目标智能设备发送控制指令，使第一目标智能设备处于应答状态，但第一目标智能设备并不能确定“打开空调”是打开客厅空调还是卧室空调，因而不能完成用户指令。或者是由于其它原因不能完成用户指令，例如，理解打开空调的含义是模糊的，或者是不能理解的，还或者第一目标智能设备是卧室空调并不能打开客厅空调。因而发出“是打开客厅空调还是卧室空调”的询问语音，用户对该询问语音进行回复，回复指令中包括“打开客厅空调”，之后根据该回复指令确定客厅的空调为第二目标智能设备，并向第二目标智能设备(该客厅的空调)发送控制指令，控制由第一目标智能设备处于应答状态转移至该第二目标智能设备进入应答状态，以完成用户指令。

可选地，在向目标智能设备发送控制指令之后，并完成了对应的用户指令之后。用户可以在该多个智能设备中移动，并在不断的移动过程中，向需要的智能设备发出其它用户指令。为使得用户无感知地对多个智能设备进行语音交互，多个智能设备可以采用上述依据能量均峰值的方式来不断地对接收到的包括其它用户指令的语音进行评分，并依据该评分结果来确定对用户响应的智能设备，并将之前的目标智能设备处于应答状态转移至重新确定的智能设备(其中，此处所指的之前的目标智能设备即为依据唤醒语音选出的目标智能设备，如果上述依据唤醒语音选出的目标智能设备为第一目标智能设备的话，该重新确定的智能设备可以称为第三目标智能设备)，实现对用户的及时地，无感知地动态响应。

以依据唤醒语音选出的目标智能设备为第一目标智能设备，用户移动后重新确定的智能设备为第三目标智能设备为例进行说明，在向第一目标智能设备发送控制指令之后，而且第一目标智能设备完成了用户的对应指令，即第一目标智能设备完成了与用户的语音交互，之后，还包括：获取多个智能设备的第二评分值，其中，多个智能设备中的每个智能设备的第二评分值为对应智能设备接收到包括其它用户指令的指令语音后，依据指令语音的能量均峰值对指令语音进行评分后得到的值(需要说明的是，此处的第二评分值仅用于区别上述对唤醒语音进行评分得到的评分值，如果上述对唤醒语音进行评分得到的评分值为第一评分值的话，此处对指令语音进行评分后得到的评分值即为第二评分值，为描述简便，以下以第二评分值描述为对指令语音进行评分后得到的值为例进行说明)；根据多个智能设备的第二评分值，确定用于响应其它用户指令的第三目标智能设备；控制多个智能设备中由第一目标智能设备处于应答状态转移至第三目标智能设备处于应答状态，并由第三目标智能设备响应其它用户指令。需要说明的是，依据指令语音的能量均峰值对指令语音进行评分后得到的值可以采用上述各个智能设备确定唤醒语音的评分值类似的方法，从而快速，准确地确定出应答其它用户指令的第三目标智能设备。

图2是根据本发明实施例的多智能设备应答方法二的流程图，如图2所示，该流程包括如下步骤：

步骤S202，接收到包括唤醒词的唤醒语音；

作为至少一个可选的实施例，上述步骤的执行主体可以是相对于上述图1所示实施例的多个智能设备中除管理设备之外的其它智能设备，该其它智能设备可以是在从多个智能设备中选出了主控设备之后的其它智能设备中的任何一个

作为至少一个可选的实施例，在用户发出唤醒词后，采用该同一唤醒词的智能设备均会接收到包括该唤醒词的唤醒语音，由于智能设备所处的位置不同，因此，不同的智能设备接收到的包括唤醒词的唤醒语音也是不同的。

步骤S204，依据唤醒语音的能量均峰值对唤醒语音进行评分，得到评分值；

作为至少一个可选的实施例，因为唤醒语音的能量均峰值能够较为容易地获取，不需要复杂的计算过程，因此，可以有效加快确定用于应答的智能设备的响应时间。

作为至少一个可选的实施例，由于唤醒语音的频谱涉及的范围可能较大，并且也可能存在一些明显失真的频谱，因此，在计算唤醒语音的能量均峰值时，可以不并对整个唤醒语音的全部频谱范围进行计算，而是可以选择唤醒语音在一个较优的预定频段范围内进行计算，即依据唤醒语音的能量均峰值对唤醒语音进行评分，得到评分值可以包括以下处理：先确定唤醒语音中用于评分的预定频段范围，其中，在预定频段范围内包含唤醒语音的频谱特征；之后，依据唤醒语音在预定频段范围内的能量均峰值对唤醒语音进行评分，得到评分值。采用选择一段频段范围进行计算，相对于对唤醒语音的整个频段来计算，计算量可以大大地减小，为快速确定用于应答的智能设备提供了基础和可能。

具体处理时，针对各个智能设备可以预先设置一个默认频段范围，如果智能设备接收到的唤醒语音在该默认频段范围内没有严重失真或者损坏的情况下，可以直接以该默认频段范围的能量来进行评分，例如，依据该默认频段范围的能量均峰值来进行评分，能量均峰值高时，评分值也高，能量均峰值低时，评分值也相对较低。当然如果智能设备接收到的唤醒语音在该默认频段范围内出现严重失真或者损坏的情况下，就需要对用于计算的频段范围进行调整，调整到能够包含接收到的唤醒语音的频谱特征的频段范围内，之后，依据调整后的频段范围的能量均峰值来进行评分。需要说明是的，在具体调整时，由于每个智能设备的情况不同，调整的方式以及调整的结果可能均会不同。

作为至少一个可选的实施例，因为当环境噪声高时预定频段范围内的能量均值也高，但一般噪声能量比能量均值能量低，因此，以能量均值以上的能量的平均值，即能量均峰值来计算打分，受噪声能量影响小，抗噪性能好。因此，依据唤醒语音在预定频段范围内的能量均峰值对唤醒语音进行评分，得到评分值时，可以采用以下处理：先对唤醒语音在预定频段范围内的能量求平均得到能量均值，确定在预定频段范围内超过能量均值的能量；之后，对在预定频段范围内超过能量均值的能量再求平均得到能量均峰值，对能量均峰值进行评分，得到评分值。采用在预定频段范围内超过能量均值的能量求平均得到能量均峰值，之后对能量均峰值进行评分，能够有效地避免唤醒语音中噪声的干扰，使得评分的结果更为准确，从而使得确定出的用于应答的智能设备也更准确。另外，由于采用的是在预定频段范围内超过能量均值的能量再求平均进行评分得到能量均峰值，对能量均峰值进行评分，相对于采用整个预定频段范围内能量进行评分而言，不仅计算量相对较小，能够在一定程度上加快确定用于应答的智能设备的响应时间，而且能够有效避免噪声的干扰。

步骤S206，将评分值发送给多个智能设备中的主控设备，其中，该评分值用于主控设备确定用于应答的目标智能设备，以使目标智能设备进入应答状态。

作为至少一个可选的实施例，在将评分值发送给多个智能设备中的主控设备之后，主控设备可以依据上述图1所示实施例的处理方式来确定用于应答的目标智能设备，从而使目标智能设备进入应答状态，接受用户的唤醒语音指令，执行与唤醒语音指令对应的控制操作。

作为至少一个可选的实施例，在将评分值发送给多个智能设备中的主控设备之后，在确定用于应答的目标智能设备为本实施例的执行主体所对应的智能设备时，该智能设备会作为目标智能设备接收到主控设备发送的用于指示其进入应答状态的控制指令；之后，根据控制指令进入应答状态，并响应接下来与用户的交互语音中所包括的用户指令，完成与用户的语音交互。

作为至少一个可选的实施例，在完成用户指令需要与用户进行多轮会话时，可能需要将应答状态在多个智能设备中进行转移，例如，根据控制指令进入应答状态，并响应接下来与用户的交互语音中所包括的用户指令包括：在进入应答状态后，判断是否能够完成接下来的交互语音中所包括的用户指令，在判断结果为否的情况下，发出用于完成用户指令的询问语音；接收用户针对询问语音进行回复的回复指令，根据回复指令确定对回复指令进行响应的新的目标智能设备(例如，区别于上述依据唤醒语音选出的目标智能设备，如果上述依据唤醒语音选出的目标智能设备为第一目标智能设备的话，该新的目标智能设备可以称为第二目标智能设备)，并将应答状态转移至第二目标智能设备，以使第二目标智能设备响应用户的回复指令，完成用户指令。在本实施例中，由第一目标智能设备来判断是否能够完成用户指令，并发出对应的询问语音以确定对用户指令进行响应的第二目标智能设备，从而完成用户指令。

作为至少一个可选的实施例，在根据控制指令进入应答状态，并响应接下来的交互语音中所包括的用户指令之后，还包括：在完成响应接下来的交互语音中所包括的用户指令之后，获取多个智能设备的第二评分值，其中，多个智能设备中的每个智能设备发送的第二评分值为对应智能设备接收到包括其它用户指令的指令语音后，依据指令语音的能量均峰值对指令语音进行评分后得到的值(需要说明的是，此处的第二评分值仅用于区别上述对唤醒语音进行评分得到的评分值，如果上述对唤醒语音进行评分得到的评分值为第一评分值的话，此处对指令语音进行评分后得到的评分值即为第二评分值，为描述简便，以下以第二评分值描述为对指令语音进行评分后得到的值为例进行说明)；根据多个智能设备的第二评分值，确定用于响应其它用户指令的新的目标智能设备(为区别于上述第一目标智能设备，第二目标智能设备，此处新的目标智能设备称为第三目标智能设备)；将应答状态转移至第三目标智能设备，以使第三目标智能设备响应其它用户指令。在本实施例中，由目标智能设备完成用户在移动过程中实现应答状态的切换，即将应答状态切换至需要对用户指令进行响应的智能设备中，使得用户能够及时地，无感知地与智能设备进行语音交互。

通过上述步骤，通过依据唤醒语音的能量均峰值进行评分后得到评分值，由于唤醒语音的能量均峰值能够较为容易地获取，不需要复杂的计算过程，同时在一定预设频段范围内计算能量均峰值，达到了能够简单快速地确定用于应答的目标智能设备的目的，进而解决了相关技术中在同一唤醒词唤醒多个智能设备的场景下，如何简单快速地确定用于应答的目标智能设备的技术问题。

图3是根据本发明实施例的多智能设备应答方法三的流程图，如图3所示，该流程包括如下步骤：

步骤S302，确定多个智能设备中的主控设备；

步骤S304，多个智能设备接收到包括唤醒词的唤醒语音；

步骤S306，多个智能设备依据唤醒语音的能量均峰值对唤醒语音进行评分，得到评分值；

步骤S308，多个智能设备中除主控设备之外的非主控设备将得到的评分值发送给主控设备；

步骤S310，主控设备根据非主控设备发送的评分值，以及主控设备所得到的评分值，确定用于应答的目标智能设备，并控制目标智能设备进入应答状态，并响应接下来的用户指令。

通过上述步骤，采用根据每个智能设备的评分值，确定用于应答的目标智能设备的方式，通过依据唤醒语音的能量均峰值进行评分后得到评分值，由于唤醒语音的能量均峰值能够较为容易地获取，不需要复杂的计算过程，达到了能够简单快速地确定用于应答的目标智能设备的目的，另外，由于由多个智能设备中的每个智能设备分别进行评分，从而实现了对唤醒语音并行处理，在一定程度上也达到避免由一个设备集中处理所引起的计算量大，延时长的技术效果，进而解决了相关技术中在同一唤醒词唤醒多个智能设备的场景下，如何简单快速准确地确定用于应答的目标智能设备的技术问题。

本实施例的上述方法，应用于包括多个智能设备的场景，其中，多个智能设备中包括一个用于参与多个智能设备间管理的主控设备，以及除该主控设备之外的其它智能设备。

作为至少一个可选的实施例，确定多个智能设备中的主控设备时，可以采用多种方式，例如，可以采用以下方式至少之一，确定多个智能设备中的主控设备：依据用于指定作为主控设备的输入指令，确定多个智能设备中的主控设备，例如，用户直接在各个智能设备中标识是否作为主控设备，各个智能设备依据该标识直接确定是否为主控设备，依据是否为主控设备分别执行对应的功能；依据多个智能设备中每个智能设备的性能，确定多个智能设备中的主控设备，例如，选择同一局域网内多个智能设备中性能较好的智能设备作为该主控设备，其中，该性能较好依据的标准可以是，计算能力强，或者是传输能力强，或者是存储能力强，具体选择的标准可以依据具体需求而定，在此不限定；依据多个智能设备中每个智能设备的网络参数，确定多个智能设备中的主控设备，其中，该网络参数可以包括多种，例如，可以是智能设备在网络中的地址。举例来说，依据各个智能设备的IP地址来选择出一个主控设备，比如，选择IP地址最大的智能设备作为该主控设备，或者选择IP地址最小的智能设备作为该主控设备。

作为至少一个可选的实施例，对应于上述图1和图2所对应的实施例中所介绍的，多个智能设备依据唤醒语音的能量均峰值对唤醒语音进行评分，得到评分值可以包括以下处理：多个智能设备中的每个智能设备确定接收到的唤醒语音中用于评分的预定频段范围，其中，在预定频段范围内包含唤醒语音的频谱特征；多个智能设备中的每个智能设备依据唤醒语音在预定频段范围内的能量均峰值对唤醒语音进行评分，得到评分值。采用选择一段频段范围进行计算，相对于对唤醒语音的整个频段来计算，计算量可以大大地减小，为快速确定用于唤醒的智能设备提供了基础和可能。

作为至少一个可选的实施例，对应于上述图1和图2所对应的实施例中所介绍的，多个智能设备中的每个智能设备依据唤醒语音在预定频段范围内的能量均峰值对唤醒语音进行评分，得到评分值可以包括以下处理：多个智能设备中的每个智能设备对唤醒语音在预定频段范围内的能量求平均得到能量均值，确定在预定频段范围内超过能量均值的能量；多个智能设备中的每个智能设备对在预定频段范围内超过能量均值的能量再求平均得到能量均峰值，对能量均峰值进行评分，得到评分值。采用在预定频段范围内的能量均峰值进行评分，能够有效地避免唤醒语音中噪声的干扰，使得评分的结果更为准确，从而使得确定出的用于应答的智能设备也更准确。另外，由于采用的是在预定频段范围内超过能量均峰值的能量进行评分，相对于采用整个预定频段范围内能量进行评分而言，不仅计算量相对较小，能够在一定程度上加快确定用于应答的智能设备的响应时间，而且能够有效避免噪声的干扰。

作为至少一个可选的实施例，对应于上述图1和图2所对应的实施例中所介绍的，在主控设备控制目标智能设备进入应答状态之后，还包括：目标智能设备判断是否能够完成接下来的交互语音中所包括的用户指令，在判断结果为否的情况下，发出用于完成用户指令的询问语音；目标智能设备接收用户针对询问语音进行回复的回复指令，根据回复指令确定对回复指令进行响应的新的目标智能设备(例如，区别于上述依据唤醒语音选出的目标智能设备，如果上述依据唤醒语音选出的目标智能设备为第一目标智能设备的话，该新的目标智能设备可以称为第二目标智能设备)，并将应答状态转移至第二目标智能设备，以使第二目标智能设备响应用户的回复指令，完成用户指令。通过本实施例，在第一目标智能设备能够完成用户指令的情况下，由第一目标智能设备完成用户指令；在第一目标智能设备不能够完成用户指令的情况下，由第一目标智能设备确定能够完成用户指令的第二目标智能设备，以使第二目标智能设备完成用户指令，确保用户指令的完成。

作为至少一个可选的实施例，对应于上述图1和图2所对应的实施例中所介绍的，在根据控制指令进入应答状态，并响应接下来的交互语音中所包括的用户指令之后，还包括：目标智能设备在完成响应接下来的交互语音中所包括的用户指令之后，获取多个智能设备的第二评分值，其中，多个智能设备中的每个智能设备发送的第二评分值为对应智能设备接收到包括其它用户指令的指令语音后，依据指令语音的能量均峰值对指令语音进行评分后得到的值(需要说明的是，此处的第二评分值仅用于区别上述对唤醒语音进行评分得到的评分值，如果上述对唤醒语音进行评分得到的评分值为第一评分值的话，此处对指令语音进行评分后得到的评分值即为第二评分值，为描述简便，以下以第二评分值描述为对指令语音进行评分后得到的值为例进行说明)；目标智能设备根据多个智能设备的第二评分值，确定用于响应其它用户指令的新的目标智能设备(为区别于上述第一目标智能设备，第二目标智能设备，此处新的目标智能设备称为第三目标智能设备)；第一目标智能设备将应答状态转移至第三目标智能设备，以使响应其它用户指令。在本实施例中，在第一目标智能设备完成用户指令后，针对用户发出的其它用户指令，由第一目标智能设备确定合适的第三目标智能设备，并将应答状态由第一目标智能设备转移至第三目标智能设备，以使该第三目标智能设备响应其它用户指令。通过应答状态在智能设备之间的转换，使得用户能够及时地，无感知地对多个智能设备进行语音交互。

针对不止一个智能设备的场合，当这些智能设备的唤醒词相同时，为避免给用户带来的上述困扰，以及影响用户与智能设备的交互效果，在相关技术中，一般所采用的方法是：在云端进行处理，各智能设备将接收到的包含唤醒词的唤醒语音通过网络发送到云端，由云端进行唤醒语音识别，能量打分；再由云端根据打分结果，决定由哪台智能设备进行响应，其余智能设备停止响应；并从云端传回控制指令给各智能设备。但采用这样的方法，存在一些弊端：在云端操作时，由于需要进行从智能设备到云端的数据传输，同时在云端还需要进行唤醒语音识别，增加了智能设备应答的延时响应时间。同时，这种从智能设备到云端的数据传输还大大依赖于所处网络环境的好坏，当网络环境不好时，云端接收到唤醒语音会变慢甚至可能失败，云端进行唤醒语音识别和打分就会延时严重或失败，从而影响云端向各个智能设备传回有效的控制指令，智能设备应答的响应时间会大大加大。

在相关技术的多设备的语音交互方法中，主要是在云端进行复杂的语音识别和打分，再将控制指令传回各智能设备，造成了计算复杂度高,对于所处网络环境的依赖性大，智能设备应答的响应时间长的问题。鉴于此，在本实施例中，提供了一种不用在云端进行操作的多设备的语音交互方法，不需要进行复杂的语音识别，只需要各智能设备在本地对接收到的包括唤醒词的唤醒语音(例如，依据该唤醒语音的预定频域内的能量均峰值对该唤醒语音)进行评分，得到评分值。各智能设备再将评分值发送到按某种预定规则定义好的主控设备上。主控设备接收设定的一定接收时间范围内的其它智能设备的评分值，并加入主控设备自己的评分值，取评分值最大者作为唤醒语音唤醒后的应答设备，评分值最大者一般是离声源最近的在线设备，同时主控设备通过网络发放语音令牌给需要响应的智能设备。只有收到语音令牌的智能设备才能对唤醒词进行响应(当然这里主控设备发放语音令牌给自己，这种情况就不需要网络进行语音令牌的传输了)。

上述实施例及优选实施例中，可以应用于多个智能设备同时在线的语音交互场景，并且在该场景中，用同一个唤醒词唤醒所有在线的智能设备。在该方法中，各智能设备分别针对本地录取的包括唤醒词的唤醒语音进行评分，得到评分值，并将评分值传到一个主控设备进行比较，主控设备取评分值最大者作为待响应的智能设备，并向该智能设备发放语音令牌，只有收到语音令牌的智能设备才能对用户的语音进行响应。这样保证了同一时刻只有一个设备响应用户的语音应答请求。在该方法中，由于采用了依据预定频域内的能量均峰值进行评分的方式，因此，有效地提升了评分过程中对环境噪声的抗干扰能力。另外，采用该方法，可以随着用户的位移，网络状况，动态改变参与响应用户语音的智能设备。

基于上述说明，以及上述实施例及优选实施例，提供了一种完整实现过程的优选实施方式，在该优选实施方式中，同一局域网内的智能设备，上线后自动互相发现，并按某种规则(比如，按IP最大或最小原则，按照用户输入的用于指定主控设备的输入指令，按照各个智能设备的性能等)评选出主控设备。用户在进行语音交互时，各智能设备向主控设备申请交互令牌，只有得到令牌的智能设备才可以响应用户的语音请求。本优选实施方式的实现过程可以是：各智能设备在本地对包括唤醒词的唤醒语音(例如，根据该唤醒语音在预定频域内的能量均峰值对唤醒语音进行评分，得到评分值，然后各智能设备将得到的评分值发送到主控设备上。这台主控设备对在设定的一定接收时间范围内接收到的各智能设备的评分值中，取评分值最大者作为响应设备，发放语音令牌。只有接收到语音令牌的智能设备才能对用户语音进行响应(当然这里包括评分后需要响应的智能设备正好是主控设备的情况，在这种情况下，就不需要网络进行控制指令的传输了)。需要说明的是，在本优选实施方式中，评分值最大者一般是离用户最近的设备，这样可以更好的获取用户的语音指令。

图4是根据本发明优选实施方式的流程图，如图4所示，在该流程中主要包括如下步骤：

S41，各智能设备上线，按照某种规则选出主控设备，比如，按智能设备的IP最大最小原则，按照用户输入的用于指定主控设备的输入指令，按照各个智能设备的性能等；

S42，用户说出唤醒词，唤醒智能设备；

S43，各智能设备在本地对包含唤醒词的语音(例如，根据该语音在预定频域范围内的能量均峰值)进行评分，得到评分值；

S44，各智能设备向主控设备发送各自评分值；

S45，主控设备在一定计时时间内，比如，150毫秒，依据在此期间收到的各智能设备评分值，并向评分值最高的智能设备发送语音令牌，接收到语音令牌的智能设备允许应答用户的语音指令；

S46，获取语音令牌的智能设备，开始响应用户的语音指令。

图5是根据本发明优选实施方式具体实现的流程图，如图5所示，本优选实施方式应用的场景中包括：发出唤醒词的用户，智能设备A(在图中表示为Device A)，智能设备B(在图中表示为Device B)，以及智能设备C(在图中表示为Device C)，需要说明的是，上述智能设备A，智能设备B以及智能设备C仅仅是一种示例，可以采用其它的表述方式，也还可以是其它数量的智能设备。另外，在本优选实施方式中，假设初始状态为，Device A，DeviceB，以及Device C中对用户目前所处位置时发出的语音评分分别为百分制的85分，90分和95分，因此，在初始状态下，Device C被选出作为主控设备。基于上述场景，本优选实施方式实现的流程主要包括如下步骤：

S51，用户说出唤醒词，唤醒智能设备，各个智能设备Device A，Device B，以及Device C分别接收到用户发出的包括唤醒词的语音；

S52，各智能设备Device A，Device B，以及Device C分别在本地对包含唤醒词的语音(例如，根据该语音在预定频域范围内的能量均峰值)进行评分，得到评分值，其中，Device A，Device B分别将各自得到的评分值(95分和80分)发送给主控设备Device C，以请求语音令牌；

S53，主控设备在一定计时时间内，比如，150毫秒，依据在此期间收到的各智能设备评分值(包括主控设备自己的评分值60分)，并向评分值最高的智能设备(Device A)发送语音令牌；

S54，获取语音令牌的智能设备(Device A)，响应用户的唤醒词，进入应答状态；

S55，用户向各个智能设备Device A，Device B，以及Device C发出语音指令；

S56，只有获取到语音令牌的智能设备(Device A)响应用户的语音指令，进而与用户进行语音交互对话；

S57，用户移动到智能设备(Device B)附近，并且依据某种预定规则选出智能设备(Device A)作为主控设备；

S58，用户说出其它词，各个智能设备Device A，Device B，以及Device C分别接收到用户发出的包括其它词的语音；

S59，各智能设备Device A，Device B，以及Device C分别在本地对包含其它词的语音(例如，根据该语音在预定频域范围内的能量均峰值)进行评分，得到评分值，其中，Device B，Device C分别将各自得到的评分值(95分和80分)发送给主控设备Device A，以请求语音令牌；

S510，主控设备在一定计时时间内，比如，150毫秒，依据在此期间收到的各智能设备评分值(包括主控设备自己的评分值90分)，并向评分值最高的智能设备(Device B)发送语音令牌，即将之前发给Device A的语音令牌转发给Device B；

S511，获取语音令牌的智能设备(Device B)，响应用户的语音指令；

S512，Device B结束与用户进行的语音交互对话。

在本优选实施方式中，各个智能设备对接收到的语音进行评分，经过评分测试，图6是本优选实施方式中对各个智能设备对接收到的语音进行评分的评分情况图，如图6所示，在相对安静环境下对3个智能设备Device A、Device B、Device C的评分情况，3个智能设备距离声源依次为1m，2m和3m。纵轴是评分值，横轴是测试次数，横线线条是Device A，交叉线是Device B，五角星是Device C的评分值，从图中可以看出在300+组中基本都是Device A的评分值最高，Device A正是距离声源最近的设备，算法正确率98％以上。

在上述优选实施方式中，由于在智能设备本地而不是云端处理，并且根据预定频段内的能量均峰值对接收到的语音进行评分，选出评分值最高的智能设备(同时也是距离用户最近的智能设备)作为响应的智能设备，发放语音令牌，只有收到语音令牌的智能设备才对用户的语音进行响应，未收到语音令牌的设备不响应。由于不需要进行语音识别，因此，运算量小，延时小。另外，由于仅需要在各智能设备的本地处理，不需要将语音上传云端，也不需要等云端向各智能设备发出控制指令，因此对网络环境的依赖性小。

需要说明的是，在本优选实施方式中，采用依据预定频域内的能量均峰值进行评分，抗噪性能好，更利于实际环境的产品。因为当环境噪声高时能量均值也高，一般噪声能量比能量均值低，因此，以能量均值以上的能量来计算打分，受噪声能量影响小，因此抗噪性能好。另外，在获取能量均峰值时，取的是能够体现语音的频谱特征的预定频段内的能量均峰值，并非整个语音的频段，因此，不仅能够直接降低一些噪声的影响，而且计算量较小。因此，本发明所提供的方案更适用于实际环境的多智能设备的产品中。经真实场景测试，在安静和实际办公室环境对多个智能设备进行上述的评分方式，选出距离声源最近的智能设备作为响应设备的准确率为95％以上。

因此，通过上述实施例及优选实施方式，本申请至少能够实现以下效果：

(1)为选出用于响应应答的目标智能设备时，各个智能设备对语音数据进行评分时，依据语音数据的能量进行评分，由于依据语音数据的能量进行评分，计算相对简单，比较容易获得，因此，不需要复杂的计算过程，提高了确定目标智能设备的响应时间。

(2)在各个智能设备对语音数据进行评分时，采用的是依据预定某一频段内的能量均峰值进行评分，可以有效避免语音数据在某一频段失真严重所带来的评分不准确的问题。该预定某一频段包含语音数据的频谱特征，因此，采用该预定某一频段不仅可以减少计算量，而且能够避免频谱失真所带来的评分不准确的问题。

(3)考虑语音数据中所包括的噪声的影响，由于语音数据中噪声大时能量均值也大，但噪声一般低于能量均值，因此，在对预定频段范围内的能量均峰值进行评分时，可以是先对预定频段内的能量求平均，得到能量均值，之后，对预定频段范围内超过能量均值的能量求平均得到能量均峰值，依据能量均峰值进行评分。由于采用的是超过能量均值的能量对应的能量均峰值进行评分，因此，有效地避免了噪声的干扰，使得评分更为准确。

(4)由于每个智能设备在本地分别进行评分，实现了并行处理，在一定程度上也避免由一个设备集中处理或云端处理所引起的计算量大，受网络状况限制，延时长的问题，有效地实现了智能设备快速响应，提高用户体验的效果。

在本发明实施例中，还提供了一种多智能设备应答装置，图7是本发明实施例提供的多智能设备应答装置一的结构框图，如图7所示，该多智能设备应答装置一70包括：获取模块72，决策模块74和第一发送模块76，下面对该装置进行说明。

获取模块72，用于获取每个智能设备的评分值，其中，每个智能设备的评分值为：对应智能设备接收到包括唤醒词的唤醒语音后，依据唤醒语音的能量均峰值对唤醒语音进行评分后得到的值；决策模块74，连接至上述获取模块72，用于根据每个智能设备的评分值，确定用于应答的目标智能设备；第一发送模块76，连接至上述决策模块74，用于向目标智能设备发送控制指令，其中，控制指令用于指示目标智能设备进入应答状态，并响应唤醒语音中所包括的用户指令。

在本发明实施例中，还提供了一种多智能设备应答装置，图8是本发明实施例提供的多智能设备应答装置二的结构框图，如图8所示，该多智能设备应答装置二80包括：接收模块82，评分模块84和第二发送模块86，下面对该装置进行说明。

接收模块82，用于接收到包括唤醒词的唤醒语音；评分模块84，连接至上述接收模块82，用于依据唤醒语音的能量均峰值对唤醒语音进行评分，得到评分值；第二发送模块86，连接至上述评分模块84，用于将评分值发送给多个智能设备中的主控设备，其中，评分值用于主控设备确定用于应答的目标智能设备，以使目标智能设备进入应答状态。

在本发明实施例中，还提供了一种多智能设备应答系统，图9是本发明实施例提供的多智能设备应答系统的结构框图，如图9所示，该多智能设备应答系统90包括多个智能设备，多个智能设备中包括有主控设备92以及除主控设备之外的非主控设备94(即上述所指的多个智能设备中除主控设备92之外的其它智能设备)，其中，在该主控设备中可以包括上述图7所示的多智能设备应答装置一70，该非主控设备94可以包括上述图8中所示的多智能设备应答装置二80，下面对该系统进行说明。其中，多个智能设备，用于确定多个智能设备中的主控设备，接收到包括唤醒词的唤醒语音，并依据唤醒语音的能量均峰值对唤醒语音进行评分，得到评分值；非主控设备94，用于将得到的评分值发送给主控设备92；主控设备92，用于根据非主控设备94发送的评分值，以及主控设备92所得到的评分值，确定用于应答的目标智能设备，并控制目标智能设备进入应答状态，并响应唤醒语音中所包括的用户指令。

在本发明实施例中，还提供了一种存储介质，存储介质存储有程序，其中，在程序被处理器运行时控制处理器执行上述任意一项的多智能设备应答方法。

在本发明实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器存储有程序，处理器用于执行程序，程序运行时使得处理器执行上述任意一项的多智能设备应答方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多智能设备应答方法，其特征在于，包括：

获取每个智能设备的评分值，其中，每个智能设备的评分值为：对应智能设备接收到包括唤醒词的唤醒语音后，依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分后得到的值；

根据所述每个智能设备的评分值，确定用于应答的目标智能设备；

向所述目标智能设备发送控制指令，其中，所述控制指令用于指示所述目标智能设备进入应答状态；

其中，所述能量均峰值为对所述唤醒语音在预定频段范围内的能量求平均得到能量均值后，对超过所述能量均值的能量再求平均后得到值，其中，在所述预定频段范围内包含所述唤醒语音的频谱特征；

其中，所述对应智能设备接收到包括唤醒词的唤醒语音后，依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分后得到的值，包括：

确定每个智能设备预先设置的默认频段范围对应的目标能量均峰值；

比较所述唤醒语音的能量均峰值与所述目标能量均峰值确定每个智能设备进入应答状态的可能性的等级值，根据所述等级值对所述唤醒语音进行评分，以确定所述唤醒语音进行评分后得到的值。

2.根据权利要求1所述的方法，其特征在于，获取每个智能设备的评分值包括：

在预定获取时间范围内获取所述每个智能设备发送的评分值。

3.一种多智能设备应答方法，其特征在于，包括：

接收到包括唤醒词的唤醒语音；

依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值；

将所述评分值发送给多个智能设备中的主控设备，其中，所述评分值用于所述主控设备确定用于应答的目标智能设备，以使所述目标智能设备进入应答状态；

所述依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值，包括：确定每个智能设备预先设置的默认频段范围对应的目标能量均峰值；比较所述唤醒语音的能量均峰值与所述目标能量均峰值确定每个智能设备进入应答状态的可能性的等级值，根据所述等级值对所述唤醒语音进行评分，以确定所述唤醒语音的评分值。

4.根据权利要求3所述的方法，其特征在于，在将所述评分值发送给多个智能设备中的主控设备之后，还包括：

作为所述目标智能设备接收到所述主控设备发送的用于指示进入应答状态的控制指令；

根据所述控制指令进入应答状态，并响应接下来的语音交互中所包括的用户指令。

5.一种多智能设备应答方法，其特征在于，包括：

确定多个智能设备中的主控设备；

所述多个智能设备接收到包括唤醒词的唤醒语音；

所述多个智能设备依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值；

所述多个智能设备中除所述主控设备之外的非主控设备将得到的评分值发送给所述主控设备；

所述主控设备根据所述非主控设备发送的评分值，以及所述主控设备所得到的评分值，确定用于应答的目标智能设备，并控制所述目标智能设备进入应答状态，并响应接下来的用户指令；

所述多个智能设备依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值，包括：

比较所述唤醒语音的能量均峰值与所述目标能量均峰值确定每个智能设备进入应答状态的可能性的等级值，根据所述等级值对所述唤醒语音进行评分，以确定所述唤醒语音的评分值。

6.根据权利要求5所述的方法，其特征在于，通过以下方式至少之一，确定所述多个智能设备中的主控设备：

依据用于指定作为主控设备的输入指令，确定所述多个智能设备中的主控设备；

依据所述多个智能设备中每个智能设备的性能，确定所述多个智能设备中的主控设备；

依据所述多个智能设备中每个智能设备的网络参数，确定所述多个智能设备中的主控设备。

7.一种多智能设备应答装置，其特征在于，包括：

获取模块，用于获取每个智能设备的评分值，其中，每个智能设备的评分值为：对应智能设备接收到包括唤醒词的唤醒语音后，依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分后得到的值；

决策模块，用于根据所述每个智能设备的评分值，确定用于应答的目标智能设备；

第一发送模块，用于向所述目标智能设备发送控制指令，其中，所述控制指令用于指示所述目标智能设备进入应答状态；

所述获取模块，还用于确定每个智能设备预先设置的默认频段范围对应的目标能量均峰值；比较所述唤醒语音的能量均峰值与所述目标能量均峰值确定每个智能设备进入应答状态的可能性的等级值，根据所述等级值对所述唤醒语音进行评分，以确定所述唤醒语音进行评分后得到的值。

8.一种多智能设备应答装置，其特征在于，包括：

接收模块，用于接收到包括唤醒词的唤醒语音；

评分模块，用于依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值；

第二发送模块，用于将所述评分值发送给多个智能设备中的主控设备，其中，所述评分值用于所述主控设备确定用于应答的目标智能设备，以使所述目标智能设备进入应答状态；

所述评分模块，还用于确定每个智能设备预先设置的默认频段范围对应的目标能量均峰值；比较所述唤醒语音的能量均峰值与所述目标能量均峰值确定每个智能设备进入应答状态的可能性的等级值，根据所述等级值对所述唤醒语音进行评分，以确定所述唤醒语音的评分值。

9.一种多智能设备应答系统，其特征在于，所述系统包括多个智能设备，多个智能设备中包括有主控设备以及除所述主控设备之外的非主控设备，其中，

所述多个智能设备，用于确定多个智能设备中的主控设备，接收到包括唤醒词的唤醒语音，并依据所述唤醒语音的能量均峰值对所述唤醒语音进行评分，得到评分值；

所述非主控设备，用于将得到的评分值发送给所述主控设备；

所述主控设备，用于根据所述非主控设备发送的评分值，以及所述主控设备所得到的评分值，确定用于应答的目标智能设备，并控制所述目标智能设备进入应答状态；

所述多个智能设备，还用于确定每个智能设备预先设置的默认频段范围对应的目标能量均峰值，比较所述唤醒语音的能量均峰值与所述目标能量均峰值确定每个智能设备进入应答状态的可能性的等级值，根据所述等级值对所述唤醒语音进行评分，以确定所述唤醒语音的评分值。

10.一种存储介质，其特征在于，所述存储介质存储有程序，其中，在所述程序被处理器运行时控制所述处理器执行权利要求1至6中任意一项所述的多智能设备应答方法。

11.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有程序，所述处理器用于执行所述程序，所述程序运行时使得所述处理器执行权利要求1至6中任意一项所述的多智能设备应答方法。