CN111312239B

CN111312239B - 响应方法、装置、电子设备及存储介质

Info

Publication number: CN111312239B
Application number: CN202010062782.7A
Authority: CN
Inventors: 周岭松; 相非
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-09-26
Anticipated expiration: 2040-01-20
Also published as: US20210225372A1; EP3852101A1; US11727928B2; CN111312239A

Abstract

本公开是关于一种响应方法、装置、电子设备及存储介质；其中，所述方法应用于包含音频采集模组及音频输出模组的第一电子设备，包括：通过所述音频采集模组采集语音信号；确定是否响应所述语音信号；当确定响应所述语音信号时，所述音频输出模组输出第一声音信号，其中，所述第一声音信号用于告知至少一个第二电子设备，所述第一电子设备响应所述语音信号。如此，电子设备在确定出响应所述语音信号时，通过输出声音信号来抑制其他电子设备对语音信号的响应，减少了电子设备间的争抢，提高了用户体验。

Description

响应方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种响应方法、装置、电子设备及存储介质。

背景技术

随着科技的不断发展，电子设备的自动化程度和智能化程度也越来越高。在智能化的大背景下，越来越多的智能设备落地到家居环境中，使得家居环境中拥有多台智能设备的场景已经十分普遍。语音指令是智能交互的入口，而当同一个家居环境中存在多个智能设备时，就面临多个电子设备争抢响应用户的语音指令，或者多个可响应的设备为了避免争抢，都不响应的情况，如此，会给用户造成非常糟糕的使用体验。

发明内容

本公开提供一种响应方法、装置、电子设备及存储介质。

根据本公开实施例的第一方面，提供一种响应方法，所述方法应用于包含音频采集模组及音频输出模组的第一电子设备，包括：

通过所述音频采集模组采集语音信号；

确定是否响应所述语音信号；

当确定响应所述语音信号时，所述音频输出模组输出第一声音信号，其中，所述第一声音信号用于告知至少一个第二电子设备，所述第一电子设备响应所述语音信号。

可选地，所述确定是否响应所述语音信号，包括：

确定采集所述语音信号所获得的第一信号能量；

接收至少一个所述第二电子设备采集所述语音信息所获得的第二信号能量；

在所述第一信号能量大于或等于所述第二信号能量时，确定响应所述语音信号。

可选地，所述当确定响应所述语音信号时，所述音频输出模组输出第一声音信号，包括：

当确定响应所述语音信号时，获取用于响应所述语音信号所产生的响应信息；

将所述响应信息经过编码生成所述第一声音信号，通过所述音频输出模组输出所述第一声音信号。

可选地，所述将所述响应信息编码成所述第一声音信号，包括：

对所述响应信息进行编码，得到多个编码值；

根据所述编码值的个数，将所述编码值中相邻的多个所述编码值划分到同一个帧内；其中，一个所述帧对应于预定时长的所述第一声音信号；

以所述帧为单位，将所述编码值调制到声波上形成所述第一声音信号。

可选地，所述方法还包括：

根据各所述编码值在对应所述帧内的位置，确定各所述编码值的声波频段；

所述以所述帧为单位，将所述编码值调制到声波上形成所述第一声音信号，包括：

以所述帧为单位，将各所述编码值，调制到确定的声波频段的所述声波上，形成所述第一声音信号。

可选地，所述将各所述编码值，调制到确定的声波频段的所述声波上，形成所述第一声音信号，包括：

确定所述声波频段中与所述编码值的值对应的声波频率；

将所述编码值调制到与所述值对应的声波频率的所述声波上，形成所述第一声音信号。

可选地，所述声波，包括以下之一：

频率高于第一预设频率的声波；所述第一预设频率为超声波的最低频率；

频率低于第二预设频率的声波；所述第二预设频率为次声波的最高频率。

可选地，所述在所述第一信号能量大于或等于所述第二信号能量时，确定所述第一电子设备响应所述语音信号，包括以下之一：

在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出所述第一声音信号之前未检测到指示第二电子设备响应所述语音信号的第二声波信号时，确定所述第一电子设备响应所述语音信号；

在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出所述第一声音信号之前检测到指示第二电子设备响应所述语音信号的所述第二声波信号时，确定不响应所述语音信号；

在所述第一信号能量小于所述第二信号能量时，确定所述第一电子设备不响应所述语音信号。

根据本公开实施例的第二方面，提供一种电子设备，包括：

音频采集模组，用于采集语音信号；

处理器，用于确定是否响应所述语音信号，当确定响应所述语音信号时，发出控制信号；

音频输出模组，用于基于所述控制信号输出第一声音信号，其中，所述第一声音信号用于告知至少一个第二电子设备，所述第一电子设备响应所述语音信号。

可选地，所述处理器，还用于确定采集所述语音信号所获得的第一信号能量；

所述电子设备，还包括：

通信接口，用于接收至少一个所述第二电子设备采集所述语音信息所获得的第二信号能量；

所述处理器，还用于在所述第一信号能量大于或等于所述第二信号能量时，确定响应所述语音信号。

可选地，所述处理器，还用于当确定响应所述语音信号时，获取响应所述语音信号所产生的响应信息，将所述响应信息编码成所述第一声音信号；

音频输出子模组，用于输出所述第一声音信号。

可选地，所述处理器，还用于对所述响应信息进行编码，得到多个编码值；根据所述编码值的个数，将所述编码值中相邻的多个所述编码值划分到同一个帧内；其中，一个所述帧对应于预定时长的所述第一声音信号；以所述帧为单位，将所述编码值调制到声波上形成所述第一声音信号。

可选地，所述处理器，还用于根据各所述编码值在对应所述帧内的位置，确定各所述编码值的声波频段；

还用于以所述帧为单位，将各所述编码值，调制到确定的声波频段的所述声波上，形成所述第一声音信号。

可选地，所述处理器，还用于确定所述声波频段中与所述编码值的值对应的声波频率；将所述编码值调制到与所述值对应的声波频率的所述声波上，形成所述第一声音信号。

可选地，所述声波，包括以下之一：

可选地，所述处理器，还用于执行以下之一：

在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出所述第一声音信号之前检测到指示第二电子设备响应所述语音信号的所述第二声波信号时，确定所述第一电子设备不响应所述语音信号；

根据本公开实施例的第三方面，提供一种响应装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行所述存储器中存储的可执行指令时，实现上述第一方面任一项所述的方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由响应装置的处理器执行时，使得所述响应装置能够执行上述第一方面任一项所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

电子设备在采集到语音信号后，一旦确定出需要由自身响应所述语音信号，就控制自身的音频输出模组输出声音信号，通过所述声音信号来告知其他电子设备此次用户发出的语音信号，由所述电子设备来响应。如此，通过这种在确定出自身响应语音信号时就发出声音信号的方式，减少了电子设备间的争抢，并且也可以避免电子设备都不响应的情况发生，提升了用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种响应方法的流程图一。

图2为根据一示例性实施例示出的一种响应方法的流程图二。

图3是根据一示例性实施例示出的一种响应方法的流程图三。

图4是根据一示例性实施例示出的一种响应方法的流程图四。

图5为通过两个二进制值对载波进行调制的示意图。

图6为“awaked”经调制编码后的声音数据的示意图。

图7是根据一示例性实施例示出的一种电子设备的结构图。

图8是根据一示例性实施例示出的一种响应装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了实现在用户发出语音指令时，同一个家居环境中有且需要响应的电子设备响应该语音指令，各个电子设备首先需要通过无线保真(Wireless Fidelity，WiFi)实现局域网内的互联互通。当用户发出用于唤醒电子设备的语音信号时，每个电子设备的麦克风都采集到该语音信号，并提取该语音信号中的某些特征(如语音能量)，然后通过WiFi与其他处于同一家居环境的电子设备共享这些特征信息。由于每个电子设备上都能获取到同一局域网内其他电子设备采集的语音特征，就可以基于这些数据决策出是否应该由自己响应。这里，所有的电子设备都基于相同的数据和决策方法，因而最终只会有一个电子设备响应用户。

理想情况下这一功能可以顺利执行，但实际环境中，网络环境较为复杂，经常出现网络不通或者延迟较大的情况。这种复杂的网络环境会导致每个电子设备上收集到的信息不对等，不同电子设备上数据不同的情况。虽然采取统一的决策算法，也会出现多个设备决策出自己响应的情况，从而纷纷响应用户的请求。这种争相抢答的情况仍然会引起不好的用户体验。

本公开实施例提供一种响应方法，所述方法可以应用于包含音频采集模组及音频输出模组的第一电子设备；图1是根据一示例性实施例示出的一种响应方法的流程图一，如图1所示，所述方法包括以下步骤：

步骤101，通过所述音频采集模组采集语音信号；

步骤102，确定是否响应所述语音信号；

步骤103，当确定响应所述语音信号时，所述音频输出模组输出第一声音信号，其中，所述第一声音信号用于告知至少一个第二电子设备，所述第一电子设备响应所述语音信号。

需要说明的是，所述第一电子设备和所述第二电子设备均可以是扫地机器人、智能门锁、智能电视或者智能音箱等智能家居设备；所述第一电子设备和所述第二电子设备均可以是打印机、空调或传真机等智能办公设备。所述第一电子设备和所述第二电子设备均包含音频采集模组及音频输出模组；所述音频采集模组用于采集用户发出的语音信号；所述音频输出模组用于输出声音信号。所述音频采集模组包括：麦克风或录音笔，所述音频输出模组包括：扬声器或蜂鸣器。

所述第一电子设备可以是任意的能响应用户发出的语音信号的电子设备，所述第二电子设备是与所述第一电子设备处于同一家居环境的，除所述第一电子设备之外的其他电子设备，故都可以采集到语音信号。

在本公开实施例中，根据用途的不同，所述语音信号可以是：用于唤醒的语音信号或者用于指示电子设备进行操作的语音信号。

在本公开实施例中，所述第一电子设备和至少一个所述第二电子设备处于同一个家居环境，能实现相互的通信。例如，所述第一电子设备和至少一个所述第二电子设备处于同一个用户的同一个住宅内，通过同一个局域网实现相互的通信。

所述第一声音信号是指由第一电子设备中的音频输出模组输出声音信号；相对的，第二声音信号是指由第二电子设备中的音频输出模组输出声音信号。所述声音信号可以是任意以声波为载波传输的声音信号，例如，一句语音或者一个铃声等。

所述声波可包括：人耳可听见的声波、超声波和/或次声波。

这里，每个电子设备发出的声音信号均用于告知其他电子设备，此次用户发出的语音信号是由自身来响应。例如，同一家居环境中存在A、B和C三个电子设备，当用户发出了语音信号，如果电子设备A确定出自身来响应所述语音信号，就会通过音频输出模组输出声音信号A，该声音信号A用于告知电子设备B和电子设备C，此次用户发出的所述语音信号是由电子设备A来响应。

实际应用中，当用户发出用于唤醒电子设备的语音信号时，每个电子设备(第一电子或者第二电子设备)的音频采集模组都采集到该语音信号。

在理想情况下，在同一家居环境内由于距离的因素，对于用户发出的语音信号，应该每次只会有一个电子设备确定出是由自身来响应该语音信号。但实际操作中可能确定出由自身来响应该语音信号的电子设备不只一个。在本公开实施例中，无论确定出响应该语音信号的电子设备有几个，在每个电子设备一旦确定出由自身来响应该语音信号时，就通过音频输出模组输出一个声音信号。如此，由于声波的传输相对于WiFi具备更高的稳定性，使得一旦有一个声音信号被输出，其他设备就能知道该语音信号已经有电子设备响应了，就不会再响应该语音信号，从而减少响应争抢。

本公开实施例中，第一电子设备在采集到语音信号后一旦确定出由自身响应所述语音信号，就控制自身的音频输出模组输出第一声音信号，通过所述第一声音信号来告知其他电子设备此次用户发出的语音信号，由第一电子设备来响应。如此，通过在确定自身响应时就发出声音信号的方式，保证了局域网内只有一个电子设备响应用户的语音信号，提升了用户体验。

在一些实施中，图2为根据一示例性实施例示出的一种响应方法的流程图二，如图2所示，上述步骤102中的所述确定是否响应所述语音信号，包括：

步骤1021，确定采集所述语音信号所获得的第一信号能量；

步骤1022，接收至少一个所述第二电子设备采集所述语音信息所获得的第二信号能量；

步骤1023，在所述第一信号能量大于或等于所述第二信号能量时，确定响应所述语音信号。

这里，确定是否是由自身来响应语音信号可以是：在采集到语音信号后，提取出采集的语音信号的某些特征，通过比较各个电子设备所采集的特征，来确定出是否由自身来响应语音信号。所述语音信号的某些特征包括：信号能量、噪声能量或者信噪比。在本公开实施例中以提取采集的所述语音信号所获得的信号能量为例，来对步骤102中的确定是否响应所述语音信号的实现进行说明。

在一些实施例中，所述第一信号能量和第二信号能量可均为：单位时间内采集到语音信号的信号接收功率与单位时间的时长比。

在另一些实施例中，第一电子设备或者第二电子设备确定自身采集所述语音信号所获得的信号能量可以通过下式进行：

其中，所述T为唤醒词的长度，即用户发出的语音信号的长度，单位为帧。E_n为第n个电子设备的采集所述语音信号所获得的信号能量，n为电子设备的个数，x_n(t)表示第n个设备采集的所述语音信号的时域信号，t为当前时间。这里的信号能量具体是平均信号能量，即在从开始接收到语音信号到采集完毕的时间内的信号能量的均值；所述从开始接收到语音信号到采集完毕的时间即为T。

那么，第一电子设备采集所述语音信号所获得的第一信号能量就是E₁。对应的如果有1个第二电子设备，则所述第二电子设备采集所述语音信号所获得的第二信号能量为E₂。如果有多个第二电子设备，则存在多个第二信号能量。

需要说明的是，为了使每个电子设备都能确定出是否响应该语音信号，每个电子设备除了计算出自身采集所述语音信号所获得的信号能量，也需要获取其他电子设备采集所述语音信号所获得的信号能量。在本公开实施例中，电子设备间通过WiFi通信来共享自身采集所述语音信号所获得的信号能量。如此，对于所述第一设备来说，会接收到至少一个所述第二电子设备发送的采集所述语音信息所获得的第二信号能量；如果有多个第二电子设备则或接收到多个第二信号能量。

对于第一电子设备而言，接收的第二信号能量可以存储在本地的存储器上，在获取到多个第二信号能量后，就比较所述第一信号能量与所述第二信号能量的大小。

在所述第一信号能量大于或等于所述第二信号能量时，确定出所述第一电子设备响应所述语音信号；即所述第一电子设备决策出是由自身来响应所述语音信号。

如此，通过计算采集所述语音信号所获得的信号能量，再比较信号能量的大小的方式，可以快速确定出是否是由自身来响应语音信息。

需要说明的是，在本公开实施例中也可以通过采集的所述语音信号所获得的信噪比的大小来确定是否响应所述语音信号。具体可以是：在上述确定出语音信号的信号能量E_n的基础上，进一步确定出语音信号的噪声能量E_noise，基于噪声能量E_noise来计算出所采集的语音信号的信噪比SNR(n)。

这里，E_noise(n)＝λE_noise(n-1)+(1-λ)E_n

所述λ是平滑因子；E_voice(n)是电子设备唤醒时刻的信号能量，即瞬时信号能量。

在获取到其他电子设备的这些能量后，各个电子设备通过WiFi通信将自身计算出的E_n和信噪比SNR(n)共享给其他的电子设备，或者，设备之间以声波为载波广播自身采集到的信号能量。例如，以超声波或者次声波为载波发送各自的对语音信号采集得到的信号能量。进而，各个电子设备均在本地计算出：

最大能量：E_max＝max(E₁,E₂,....E_n)；

最大信噪比：SNR_max＝max(SNR(1),SNR(2),...SNR(n))；

进而综合最大能量和最大信噪比决策出是否由自身来响应所述语音信息，若为自己则响应，则发出声音信号。这里，综合最大能量的最大信噪比决策出是否由自身来响应所述语音信息可以通过设置权重实现，即为最大能量和最大信噪比分配权重，基于权重决策出是否由第一电子设备来响应所述语音信息。

如此，本公开实施例中，通过计算采集所述语音信号所获得的信噪比SNR(n)，再比较信号信噪比SNR(n)的大小的方式，或者将信号能量E_n结合信号信噪比SNR(n)一起来决策出是否由自身来响应所述语音信息，均可以快速确定出是否是由自身来响应语音信息，为后续的处理提供基础。

需要说明的是，实际应用中，由于用户距离电子设备的距离的不同，导致各个电子设备所计算的信号能量会存在差别。那么，对于所述第一信号能量等于所述第二信号能量的情况，一般认为是用户距离两个电子设备的距离相同，如此，两个电子设备都确定出自身响应所述语音信号，这时可以均发出声音信号。当所述声音信号是可以被用户听到的声音信号时，由于同步性，会使得用户只会听到一个声音，如此，用户认为是只有一个电子设别响应，不会出现多个声音给用户造成不好的体验。

进一步地，在一些实施例中，上述步骤1023中，所述在所述第一信号能量大于或等于所述第二信号能量时，确定所述第一电子设备响应所述语音信号，包括：

在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出所述第一声音信号之前未检测到指示第二电子设备响应所述语音信号的第二声波信号时，确定所述第一电子设备响应所述语音信号。

这里，如上所述，实际应用中，由于可能出现的网络不通或者延迟较大的情况，导致每个电子设备上收集到的信息不对等，不同电子设备上数据不同的情况。例如，当存在网络原因导致某些信息不能即时传输时，可能部分电子设备有E₁～E_n全部信息，而其于设备只有E₁～E_n中的部分信息，导致有的电子设备在自身接收到信号能量中决策出自己最大，认为是由自己响应所述语音信息。这时，需要进一步确定在输出所述第一声音信号之前，是否检测到指示第二电子设备响应所述语音信号的第二声波信号，如果未检测到指示第二电子设备响应所述语音信号的第二声波信号，则认为不存在有的电子设备在自身接收到信号能量中决策出自己最大的情况，此时就是由第一电子设备响应所述语音信息。

所述对第二声波信号的检测是实时进行的，即在各个电子设备计算各自的信号能量和传输各自的信号能量进行共享的同时，各个电子设备中的音频采集模组一直监测周边的声波信息，通过监测情况判断是否有其他电子设备已经响应了用户的所述语音信号。

如此，通过音频采集模组对周边的声波信息的监测，可以减少由于网络情况导致的有的电子设备由于接收的信号能量不全，而决策出自己获取的信号能量最大产生的争相响应的情况，进一步保证了每次用户发出语音信号只有一个电子设备来响应。

相应地，所述确定是否响应所述语音信号，还包括：

在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出所述第一声音信号之前检测到指示第二电子设备响应所述语音信号的所述第二声波信号时，确定所述第一电子设备不响应所述语音信号。

基于上述描述，如果所述第一电子设备在决策出第一信号能量大于或等于所述第二信号能量时，准备输出所述第一声音信号之前，检测到指示第二电子设备响应所述语音信号的所述第二声波信号，就可能是所述第一电子设备属于网络情况导致的由于接收的信号能量不全，而决策出自己获取的信号能量最大的情况，此时，就可以取消对所述语音信号的响应。

如此，通过对周边声波信号的检测可以在避免电子设备自身由于网络原因，导致的响应，进一步保证只有一个电子设备响应所述语音信息；同时也提高了响应的准确性。

需要说明的是，所述确定是否响应所述语音信号，还包括：

这里，当所述第一信号能量小于所述第二信号能量时，认为所述语音信号不由所述第一电子设备响应，此时认为是有其他离用户更近的电子设备可以执行所述语音信号。如此，通过信号能量的比较也可以确定不去响应所述语音信息，基于同一判断标准也可以减少误判。

在一些实施例中，图3是根据一示例性实施例示出的一种响应方法的流程图三，如图3所示，上述步骤103中的，所述当确定响应所述语音信号时，所述音频输出模组输出第一声音信号，包括：

步骤1031，当确定响应所述语音信号时，获取用于响应所述语音信号所产生的响应信息；

步骤1032，将所述响应信息经过编码生成所述第一声音信号，通过所述音频输出模组输出所述第一声音信号。

这里，所述响应信息可以是任意的信息，例如，可以是文字信息、图片信息或符号信息等。所述响应信息用于在编码成声音信号后告知其他电子设备，所述第一电子设备响应所述语音信号。

所述响应信息可以是在确定响应所述语音信号时，由所述第一电子设备的处理器控制产生。具体实现中，可以是预先在所述第一电子设备中存储有预先设置好的响应信息，在确定响应所述语音信号时，通过处理器的控制查找出所述响应信息；还可以是在确定响应所述语音信号时，由所述第一电子设备的处理器控制随机产生。本公开实施例对此不作限定。

在获取到响应信息后，就将所述响应信息编码成所述第一声音信号，通过所述音频输出模组输出所述第一声音信号。所述第一声音信号是经过编码处理后，经过调制的声音信号。由于经过了处理，使得所述第一声音信号可以有效地避免噪声的干扰，增加了信息传输地准确性。

这里，相对于WiFi，声波信号的传播是稳定在340m/s，传播速度满足家庭环境需求，并且不会产生大的抖动，可以有效减少电子设备由于接收的信息不对等而导致的判断错误。基于此，通过将所述响应信息编码成所述第一声音信号，通过所述音频输出模组输出所述第一声音信号的方式，在减少信息不对等的基础上，实现信息的交换，为使家居环境中每次只有一个电子设备响应用户的语音信号提供基础。

在一些实施例中，上述步骤1032中的所述将所述响应信息编码成所述第一声音信号，包括：

对所述响应信息进行编码，得到多个编码值；

这里，如上所述，所述响应信息可以是文字信息、图片信息或符号信息等。这里以所述响应信息为字符串形式为例进行本公开实施例中的，将所述响应信息编码成声音信号的说明。

在一些实施例中，所述对所述响应信息进行编码可以是：将所述响应信息转化为能被机器识别的2进制数值，基于2进制的编码值，再根据需要转化成其他进制的编码值；例如，8进制的编码值或者16进制的编码值等。以将所述响应信息编码成2进制的编码值为例：假设所述响应信息是字符串“awaked”，根据查询ASCII码表，得到的编码值是“0110 00010111 0111 0110 0001 0110 1011 0110 0101 0110 0100”。

在得到所述编码值后，可以根据所述编码值的个数，将所述编码值中相邻的多个所述编码值划分到同一个帧内。例如，将预定比特数的相邻二进制比特划分到一个帧内。例如，可以根据各个比特上的编码顺序，将相邻的多个所述编码值划分到同一个帧内。例如，将“0110 0001 0111 0111 0110 0001 0110 1011 0110 0101 0110 0100”中的“0110 00010111 0111 0110 0001”划分到一个帧，“0110 1011 0110 0101 0110 0100”划分到另一个帧。如此，根据ASCII码表的映射关系，可以对应出“awa”划分到一个帧，“ked”划分到另一个帧。需要注意的是，对多个所述编码值的划分就是对所述响应信息的划分。

在划分了帧后，就可以根据不同的帧，对应将所述帧中的字符串的编码值调制到声波上形成所述第一声音信号。

需要说明的是，实际应用中，将所述响应信息作为一个帧来传输信息也是可以的，即将上述的“awaked”作为一个帧来传输。但在本公开实施例中，对所述响应信息进行划分的方式，可以使得每帧的传输的个数较少，进而由于每帧信息的编解码速度的提升使得传输速率更快。那么，完成一个帧的编码和调制之后，就可以传输第一声音信号了，如此提升了传输速率，，尽可能的减少第二电子设备对语音信号的不必要响应。

这里，所述声波是指传输所述响应信息的载波。在本公开实施例中，为了提升对环境噪声的鲁棒性，并且减少了通信过程对人的干扰，选择一定频率的声波来传输所述响应信息。即，所述声波，包括以下之一：

频率高于第一预设频率的声波；

频率低于第二预设频率的声波。

这里，所述第一预设频率为超声波的最低频率；所述第二预设频率为次声波的最高频率。

所述超声波是一种频率高于20000Hz的声波；而人类耳朵能听到的声波频率为20Hz至20000Hz，如此，所述超声波是一种无法被用户耳朵感知的声波，那么通过超声波来传输信息可以减少对人的干扰。相对应的，所述次声波是一种频率小于20Hz的声波，也是一种无法被用户耳朵感知的声波，通过次声波来传输信息也可以减少对人的干扰。同时，由于超声波或者次声波的频率特点，使得其他的电子设备(如第二电子设备)不能识别到发出声音信号，使得信息的传输的安全性有一定保障。

基于此，所述第一预设频率即为20000Hz，所述第二预设频率即为20Hz。

这里，采用上述高于第一预设频率的声波或者低于第二预设频率的声波来传输信息，除了减少了通信过程对人的干扰外，还由于实际环境中有很多的背景噪声的能量主要集中在中低频，利用高频或者超低频传输信息能有效避免噪声的干扰。需要说明的是，在本领域中，低频噪音是指频率在200Hz以下的声音，具体是为20Hz至200Hz。

在一些实施例中，图4是根据一示例性实施例示出的一种响应方法的流程图四，如图4所示，所述方法还包括：

步骤104，根据各所述编码值在对应所述帧内的位置，确定各所述编码值的声波频段。

这里，通过声波来传输所述响应信息需要将所述响应信息加载到，或者调制到对应的声波上，进而通过声波进行传输。基于此，在调制到对应的声波之前，需要确定各帧的响应信息对应的声波波段，或者说各帧的响应信息的编码值对应的声波波段。在确定出声波波段后，将各帧的响应信息的编码值调制到确定的声波频段的所述声波上，即可形成声音信号。

换句话说，在确定出各帧的响应信息对应的声波波段后，就将所述声波波段的幅值设置为第一幅值，其他的声波波段的幅值设置为第二幅值；所述第一幅值可以是1，第二幅值可以是0；通过幅值的不同来实现对声波的调制。

关于对声波的调制，可以如图5所示，图5为通过两个二进制值对载波进行调制的示意图，如图5所示，频率f0代表1，频率f1代表0。由于实际的传输中，播放功率和传输距离等因素都会影响接收信号的绝对幅值，所以在实际中通过比较f0和f1的相对幅值来判断数值。当f0>f1时就是存在频率f0而没有f1；当f1>f0时就是存在频率f1而没有f0。如此，可以使用载波频率附近的两个不同频率实现的对载波进行调制。

作为一个示例，对于第一电子设备来说，假设获取到的响应信息为“awaked”，将所述“awaked”进行编码，进而为了提高传输速率，划分到不同的帧中，在确定出各帧对应的声波波段后，假设“awa”所在的帧对对应的声波频段是2100Hz至2300Hz，就将“awa”所在的帧中“awa”的编码值调制到所述2100Hz至2300Hz的所述声波上。

在本公开实施中，所述各所述编码值在对应所述帧内的位置可以是各帧中各字符串在所述帧的位置。例如，“awaked”中第一个“a”在“w”之前，则第一个“a”的编码值在对应所述帧内的位置也会在所述“w”的编码值之前，使得“a”对应的频段也在“w”的频段之前。例如，假设“awaked”存在6个频段：f0～f15、f16～f31、f32～f47、f48～f63、f64～f79、f80～f95，则当第一个“a”对应f0～f15时，所述“w”对应f16～f31。

如此，通过为各帧中的编码值确定调制的声波波段，可以为后续将编码值调制到确定的声波频段的所述声波上，形成所述第一声音信号，提供基础。

但需要说明的是，为了进一步提高传输速率，本公开实施例采用多频的方式来进行传输。即对于“awaked”来说，正常而言每个字符对应一个频段，但是在本公开实施例中，对该响应信息进行了划分，分为多段分别进行调制。由于存在多个调制的频率点使得编解码速度进一步加快，传输速率进一步提高。

基于此，在一些实施例中，所述将各所述编码值，调制到确定的声波频段的所述声波上，形成所述第一声音信号，包括：

确定所述声波频段中与所述编码值的值对应的声波频率；

实际应用中，由于每个字符串都占8比特，那么可以将每个字符串的编码值分成高4比特和低4比特的编码值，再为每4比特的选取一个调制频段来进行调制。那么，以上述“awaked”为例，对于2进制编码值“0110 0001 0111 0111 0110 0001 0110 1011 01100101 0110 0100”将它分成高4比特和低4比特的编码值，即：以“a”为例，“a”的编码值是“0110 0001”，划分后对应的高4比特为“0110”，低4比特为“0001”。

为了在编码值划分后，为划分的每4比特编码值确定出对应的调频点，或者说确定出对应的要调制的声波频率，本公开实施例提出了通过编码值的值来确定出所述声波频段中与所述编码值的值对应的声波频率的方式。即：所述确定所述声波频段中与所述编码值的值对应的声波频率，可以是：确定所述响应信息对应的16进制的值；根据所述值的大小从对应的声波频段中选择一个作为声波频率。

以上述“a”为例，“a”的编码值是“0110 0001”，划分后对应的高4比特为“0110”，低4比特为“0001”为例，即将“0110 0001”转化为16进制的数值“61”，那么对应的高4比特的“0110”对应的是“6”，低4比特为“0001”对应的是“1”，可以按照高低的顺序从对应载波频段中进行选择。如果“a”是字符串中的第一位，由于在本公开实施例中“a”对应有2个调制的频率点，则从f0～f15、f16～f31中各选择一个频率作为对应的声波频率。对于选择，可以是根据“a”对应的16进制的值来进行选择，即“a”对应的16进制的值为“61”，先从低4比特“1”开始，从对应的频段f0～f15中选择一个；由于16进制的值为1，则从该频段的第一个频率f0开始，按值的顺序选择一个，即f0+1＝f1，由低4比特的“1”确定出的声波频率就是f1。再进行高4比特“6”的频率选择，即从对应的频段f16～f31中选择一个，则从该频段的第一个频率f16开始，按值的顺序选择一个，即f16+6＝f22，由高4比特的“6”确定出的声波频率就是f22。

以此类推，对于响应信息“awaked”，先将它编码为2进制的“0110 0001 011101110110 0001 0110 1011 0110 0101 0110 0100”，再转为了16进制“61 77 61 6B 6564”。对应的高4比特和低4比特的就是：以“6B”为例，就是“6”为高4比特，“B”为低4比特，分别确定高4比特和低4比特的编码值对应的需要调整的声波频率，即“6B”中，“B”对应的f11，“6”对应的是f22。

需要说明的是，由于上述将响应信息“awaked”分为了多帧，以分为2帧为例，即是“awa”和“ked”。按照高4比特和低4比特的划分，每个字符串进一步化分了2个声波频率，那么，“awa”所在的帧就存在有6个调频点，如上所述，就是“f1 f22 f39 f55 f65 f86”；“ked”所在的帧同样存在有6个调频点，即“f11 f22 f37 f54 f68 f86”。

如此，通过上述编码形式和调制方式就可以形成声音信号。

图6为“awaked”经调制编码后的声音数据的示意图，如图6所示，将响应信息“awaked”分为了2帧“awa”和“ked”，对每帧分别进行调整，在每个对应频段上，每帧各选择一个频率，在该频率上进行调制，从而传输对应的信号。包头是一个固定的格式，用于告知接收电子设备，后续数据为有效信息。包头由f0～f31频率构成，各个频率上的幅值依次为“10101010101010101010101010101010”，1表示最大幅值。

需要说明的是，上述将响应信息“awaked”分为了2帧“awa”和“ked”只是一种示例性描述，实际应用中，也可以将响应信息“awaked”分为3帧“aw”、“ak”和“ed”。当分为3帧，则对应的需要将传输这3帧“aw”、“ak”和“ed”的声波划分为4组，使得每个字符串对应2组声波波段，进而实现对对应调制频率的声波的确定。

如此，通过上述编码方式将响应信息编码成能有效避免噪声的干扰的声音信号，进而可以通过输出该声音信号来对其他设备进行唤醒抑制，从而保证同一个家居环境中只有一个电子设备响应用户的语音信号，极大地提升了用户体验。

为了使家居环境中每次只有一个电子设备响应用户的语音信号，本公开实施例还提供一种电子设备，图7是根据一示例性实施例示出的一种电子设备的结构图，如图7所示，所述电子设备700包括：

音频采集模组701，用于采集语音信号；

处理器702，用于确定是否响应所述语音信号，当确定响应所述语音信号时，发出控制信号；

音频输出模组703，用于基于所述控制信号输出第一声音信号，其中，所述第一声音信号用于告知至少一个第二电子设备，所述第一电子设备响应所述语音信号。

在一些实施例中，所述处理器，还用于确定采集所述语音信号所获得的第一信号能量；

所述电子设备700，还包括：

在一些实施例中，所述处理器，还用于当确定响应所述语音信号时，获取响应所述语音信号所产生的响应信息，将所述响应信息编码成所述第一声音信号；

音频输出子模组，用于输出所述第一声音信号。

在一些实施例中，所述处理器，还用于对所述响应信息所对应字符串进行编码，得到多个的编码值；根据所述编码值的个数，将所述编码值中相邻的多个所述编码值划分到同一个帧内；其中，一个所述帧对应于预定时长的所述第一声音信号；以所述帧为单位，将所述编码值调制到声波上形成所述第一声音信号。

在一些实施例中，所述处理器，还用于根据各所述编码值在对应所述帧内的位置，确定各所述编码值的声波频段；

在一些实施例中，所述处理器，还用于确定所述声波频段中与所述编码值的值对应的声波频率；将所述编码值调制到与所述值对应的声波频率的所述声波上，形成所述第一声音信号。

在一些实施例中，所述声波，包括以下之一：

在一些实施例中，所述处理器，还用于在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出所述第一声音信号之前未检测到指示第二电子设备响应所述语音信号的第二声波信号时，确定所述第一电子设备响应所述语音信号。

在一些实施例中，所述处理器，还用于在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出所述第一声音信号之前检测到指示第二电子设备响应所述语音信号的所述第二声波信号时，确定所述第一电子设备不响应所述语音信号。

在一些实施例中，所述处理器，还用于在所述第一信号能量小于所述第二信号能量时，确定所述第一电子设备不响应所述语音信号。

如此，所述电子设备在采集到语音信号后一旦确定出由自身响应所述语音信号，就控制自身的音频输出模组输出声音信号，通过所述声音信号来告知其他电子设备此次用户发出的语音信号，由所述电子设备来响应。如此，通过在确定自身响应时就发出声音信号的方式，保证了同一个家居环境内只有一个电子设备响应用户的语音信号，提升了用户体验。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种响应装置800的框图。例如，装置800可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802还可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电力组件806为装置800各种组件提供电力。电力组件806可以包括：电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和/或后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态、组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置为在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi、2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由响应装置的处理器执行时，使得响应装置能够执行上述实施例中的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种响应方法，其特征在于，所述方法应用于包含音频采集模组及音频输出模组的第一电子设备，包括：

通过所述音频采集模组采集语音信号；

确定采集所述语音信号所获得的第一信号能量；

接收至少一个第二电子设备采集所述语音信号所获得的第二信号能量；

在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出第一声音信号之前未检测到指示第二电子设备响应所述语音信号的第二声波信号时，确定响应所述语音信号；

在所述第一信号能量小于所述第二信号能量时，确定不响应所述语音信号；

2.根据权利要求1所述的方法，其特征在于，所述当确定响应所述语音信号时，所述音频输出模组输出第一声音信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述响应信息经过编码生成所述第一声音信号，包括：

对所述响应信息进行编码，得到多个编码值；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将各所述编码值，调制到确定的声波频段的所述声波上，形成所述第一声音信号，包括：

确定所述声波频段中与所述编码值的值对应的声波频率；

6.根据权利要求3所述的方法，其特征在于，所述声波，包括以下之一：

7.一种电子设备，其特征在于，包括：

音频采集模组，用于采集语音信号；

处理器，用于确定采集所述语音信号所获得的第一信号能量；

所述电子设备，还包括：

通信接口，用于接收至少一个第二电子设备采集所述语音信号所获得的第二信号能量；

所述处理器，还用于执行以下之一：

在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出第一声音信号之前未检测到指示所述第二电子设备响应所述语音信号的第二声波信号时，确定响应所述语音信号；

在所述第一信号能量大于或等于所述第二信号能量时，且在确定在输出所述第一声音信号之前检测到指示所述第二电子设备响应所述语音信号的所述第二声波信号时，确定不响应所述语音信号；

所述处理器，还用于当确定响应所述语音信号时，发出控制信号；

音频输出模组，用于基于所述控制信号输出第一声音信号，其中，所述第一声音信号用于告知至少一个所述第二电子设备，第一电子设备响应所述语音信号。

8.根据权利要求7所述的电子设备，其特征在于，

所述处理器，还用于当确定响应所述语音信号时，获取用于响应所述语音信号所产生的响应信息，将所述响应信息经过编码生成所述第一声音信号；

音频输出模组，用于输出所述第一声音信号。

9.根据权利要求8所述的电子设备，其特征在于，

所述处理器，还用于对所述响应信息进行编码，得到多个编码值；根据所述编码值的个数，将所述编码值中相邻的多个所述编码值划分到同一个帧内；其中，一个所述帧对应于预定时长的所述第一声音信号；以所述帧为单位，将所述编码值调制到声波上形成所述第一声音信号。

10.根据权利要求9所述的电子设备，其特征在于，

所述处理器，还用于根据各所述编码值在对应所述帧内的位置，确定各所述编码值的声波频段；

11.根据权利要求10所述的电子设备，其特征在于，所述处理器，还用于确定所述声波频段中与所述编码值的值对应的声波频率；将所述编码值调制到与所述值对应的声波频率的所述声波上，形成所述第一声音信号。

12.根据权利要求9所述的电子设备，其特征在于，所述声波，包括以下之一：

13.一种响应装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行所述存储器中存储的可执行指令时，实现权利要求1至6任一项所述的方法。

14.一种非临时性计算机可读存储介质，当所述存储介质中的指令由响应装置的处理器执行时，使得所述响应装置能够执行权利要求1至6任一项所述的方法。