CN114255763A

CN114255763A - 基于多设备的语音处理方法、介质、电子设备及系统

Info

Publication number: CN114255763A
Application number: CN202010955837.7A
Authority: CN
Inventors: 潘邵武; 万柯; 谷岳; 印文帅
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2022-03-29
Also published as: WO2022052691A1

Abstract

本申请涉及人工智能领域的语音处理技术，特别涉及一种基于多设备的语音处理方法、介质、电子设备及系统，可以缓解多设备场景中正在外放音频的电子设备的内部噪声对语音助手的拾音效果的影响，保证语音助手基于多设备的拾音效果，进而有利于保证语音助手的语音识别准确率，并提升了多设备场景中语音识别的环境鲁棒性。该方案包括：多个电子设备中的第一电子设备拾音得到待识别语音；第一电子设备从该多个电子设备中外放音频的第二电子设备接收与第二电子设备外放的音频相关的音频信息；第一电子设备根据接收的该音频信息对拾音得到的待识别语音进行降噪处理。该方案具体应用于语音助手基于多设备进行拾音的过程中。

Description

基于多设备的语音处理方法、介质、电子设备及系统

技术领域

本申请涉及人工智能领域的语音处理技术，特别涉及一种基于多设备的语音处理方法、介质、电子设备及系统。

背景技术

语音助手是一种基于人工智能(Artificial Intelligence，AI)构建的应用程序(Application，APP)。手机等智能设备通过语音助手接收并识别用户说出的语音指令，为用户提供交互对话、信息查询、设备控制等语音控制功能。随着具有语音助手的智能设备大面积普及，用户所处环境中(如用户家中)通常存在多个安装语音助手的设备，在该多设备场景下，如果多个设备中存在唤醒词相同的设备，那么在用户说出唤醒词后，具有相同唤醒词的设备的语音助手均会被唤醒，并都会对用户后续说出的语音指令进行识别并做出响应。

现有技术中，在多设备场景中，可以由多个设备协同从多个具有相同唤醒词的设备中，选择出距离用户最近的设备来唤醒其语音助手，以便由该设备拾取、识别并响应用户的语音指令。然而，如果选择出的设备附近存在较强的外部噪声，或者，设备拾音能力较差时，使得选择出的设备在上述自动语音识别流程中对该语音指令的识别结果的准确性较低，进而也就不能准确执行该语音指令指示的操作。

发明内容

本申请实施例提供了一种基于多设备的语音处理方法、介质、电子设备及系统，多设备中选举出的拾音设备可以具备与用户间距离最近、与外部噪声源距离最远、具备内部噪声降噪能力等有利因素中的一种或多种，从而可以缓解多设备场景中由于电子设备部署位置、内部噪声干扰或外部噪声干扰对语音助手拾音效果以及语音识别准确率的影响，提升了用户交互体验和多设备场景中语音识别的环境鲁棒性。

第一方面，本申请实施例提供了一种基于多设备的语音处理方法，该方法包括：多个电子设备中的第一电子设备拾音得到第一待识别语音；第一电子设备从多个电子设备中外放音频的第二电子设备接收与第二电子设备外放的音频相关的音频信息；第一电子设备根据接收的音频信息对拾音得到的第一待识别语音进行降噪处理得到第二待识别语音。可以理解，用于拾音的电子设备(即第一电子设备)为下文中的拾音设备，如从该多设备中选取出的拾音效果较好的电子设备。上述外放音频的电子设备(即第二电子设备)即为该多设备中的内部噪声设备，第二电子设备外放的音频的音频信息即为下文中描述的内部噪声设备的降噪信息。具体地，第一电子设备通过第二电子设备外放音频的音频信息对拾音得到的第一待识别语音进行降噪处理得到第二待识别语音，可以缓解多设备场景中正在外放音频的电子设备的内部噪声对语音助手的拾音效果的影响，保证语音助手基于多设备的拾音效果，进而有利于保证语音助手的语音识别准确率，并提升了多设备场景中语音识别的环境鲁棒性。

在上述第一方面的一种可能的实现中，上述音频信息包括以下至少一项：外放音频的音频数据，该音频对应的话音激活检测VAD信息。可以理解，该音频的音频信息可以反映该音频本身，通过该音频信息对外放的该音频产生的内部噪声进行降噪处理，可以消除该内部噪声对其他语音数据(如用户拾取的语音数据，如第二待识别语音对应的语音数据)的影响，以提升拾取的语音数据的质量。

在上述第一方面的一种可能的实现中，上述方法还包括：第一电子设备向多个电子设备中用于识别语音的第三电子设备发送第二待识别语音；或者，第一电子设备对第二待识别语音进行识别。其中，用于识别语音的电子设备(即第三电子设备)可以为下文中的应答设备。可以理解，在本申请实施例的多设备场景中，用于识别语音的电子设备与用于拾音的电子设备可以相同或不同，即可以由第三电子设备将第一电子设备(或第一电子设备的麦克风模组)作为外设拾取用户的语音指令，如此可以有效聚合多个配备麦克风模组和语音助手的电子设备的外设资源。

在上述第一方面的一种可能的实现中，在多个电子设备中的第一电子设备拾音得到第一待识别语音之前，上述方法还包括：第一电子设备向第三电子设备发送第一电子设备的拾音选举信息，其中第一电子设备的拾音选举信息用于表示第一电子设备的拾音情况；第一电子设备为第三电子设备基于获取的多个电子设备的拾音选举信息从多个电子设备中选举出的用于拾音的电子设备。例如，在本申请实施例的多设备场景中，用户说出一个语音指令之后，用户无需专门操作某个电子设备拾取待识别语音指令(如下文中的第二语音数据对应的语音指令)，而是由应答设备(即第三电子设备)自动将拾音设备(即第二电子设备)作为外设拾取用户的语音指令，进而通过应答设备对用户的语音指令的响应实现语音控制功能。

在上述第一方面的一种可能的实现中，上述方法还包括：第一电子设备接收第三电子设备发送的拾音指令(即下文中的拾音指示)，其中，该拾音指令用于指示第一电子设备拾音并向第三电子设备发送降噪处理后的待识别语音。如此，在拾音指令的指示下，第一电子设备可以获知其需要向第三电子设备发送拾音得到的待识别语音(如上述第二待识别语音)，而不会对待识别语音进行识别等后续处理。

在上述第一方面的一种可能的实现中，上述拾音选举信息包括以下至少一项：回声消除AEC能力信息，麦克风模组信息，设备状态信息，拾音得到的对应唤醒词的语音信息，拾音得到的对应语音指令的语音信息；其中，该语音指令为拾音得到唤醒词之后拾音得到的；该设备状态信息包括以下至少一项：网络连接状态信息、耳机连接状态信息、麦克风占用状态信息、情景模式信息。可以理解，拾音选举信息中的不同信息，表示影响电子设备拾音效果的不同因素，如此，本申请实施例可以综合考虑对电子设备拾音效果的不同因素来选举出拾音设备，如选举出拾音效果最好的电子设备用于拾音，即作为多设备中的拾音设备。

第二方面，本申请实施例提供了一种基于多设备的语音处理方法，该方法包括：多个电子设备中的第二电子设备外放音频；第二电子设备向多个电子设备中用于拾音的第一电子设备发送与该音频相关的音频信息，其中，该音频信息能够被第一电子设备用于对第一电子设备拾音得到的待识别音频进行降噪处理。具体地，由于正在外放音频的电子设备可以提供该音频的音频信息，使得用于拾音的第一电子设备根据通过该音频信息对拾音得到的第一待识别语音进行降噪处理，实现消除该音频产生的内部噪声对拾音的影响，以提升第一电子设备的拾音效果，即提高拾音得到的语音数据(即第二待识别语音的语音数据)的质量。从而，可以缓解多设备场景中正在外放音频的电子设备的内部噪声对语音助手的拾音效果的影响，保证语音助手基于多设备的拾音效果，进而有利于保证语音助手的语音识别准确率，并提升了多设备场景中语音识别的环境鲁棒性。

在上述第二方面的一种可能的实现中，上述音频信息包括以下至少一项：该音频的音频数据，该音频对应的话音激活检测VAD信息。

在上述第二方面的一种可能的实现中，上述方法还包括：第二电子设备从多个电子设备中用于识别语音的第三电子设备接收共享指令(即下文中的降噪指示)；或者第二电子设备从第一电子设备接收共享指令；其中，共享指令用于指示第二电子设备向第一电子设备发送上述音频信息。可以理解，发送共享指令的电子设备(如第一电子设备或第三电子设备)，可以监测第二电子设备是否正在外放音频，在第二电子设备外放音频时，才向第二电子设备发送共享指令。

在上述第二方面的一种可能的实现中，上述在第二电子设备向多个电子设备中用于拾音的第一电子设备发送与外放的音频相关的音频信息之前，方法还包括：第二电子设备向第三电子设备发送第二电子设备的拾音选举信息，其中第二电子设备的拾音选举信息用于表示第二电子设备的拾音情况；第一电子设备为第三电子设备基于获取的多个电子设备的拾音选举信息从多个电子设备中选举出的用于拾音的电子设备。例如，第三电子设备作为下文中的应答设备可以选举出拾取语音指令的音频质量最好(即拾音最好的电子设备)的电子设备作为拾音设备(如第一电子设备)，以支持应答设备通过语音助手完成与用户的语音交互流程，例如拾音设备可以为距离用户最近且SE处理能力较优的电子设备。如此，可以有效聚合多个配备麦克风模组和语音助手的电子设备的外设资源，缓解多设备场景中由于电子设备部署位置对语音助手识别准确率的影响，提升了用户交互体验和多设备场景中语音识别的环境鲁棒性。

第三方面，本申请实施例提供了一种基于多设备的语音处理方法，该方法包括：多个电子设备中的第三电子设备监测到多个电子设备中存在正在外放音频的第二电子设备；在第二电子设备与第三电子设备不同的情况下，第三电子设备向第二电子设备发送共享指令，其中共享指令用于指示第二电子设备向多个设备中用于拾音的第一电子设备发送与第二电子设备外放的音频相关的音频信息；在第二电子设备与第三电子设备相同的情况下，第三电子设备向第一电子设备发送该音频信息；其中，该音频信息能够被第一电子设备用于对第一电子设备拾音得到的第一待识别语音进行降噪处理得到第二待识别语音。具体地，由于在第三电子设备的指示下正在外放音频的第二电子设备可以提供该音频的音频信息，使得用于拾音的第一电子设备根据该音频信息对拾音得到的第一待识别语音进行降噪处理，实现消除该音频产生的内部噪声对拾音的影响，以提升第一电子设备的拾音效果，即提高拾音得到的语音数据(即第二待识别语音的语音数据)的质量。从而，可以缓解多设备场景中正在外放音频的电子设备的内部噪声对语音助手的拾音效果的影响，保证语音助手基于多设备的拾音效果，进而有利于保证语音助手的语音识别准确率，并提升了多设备场景中语音识别的环境鲁棒性。

在上述第三方面的一种可能的实现中，上述音频信息包括以下至少一项：该音频的音频数据，该音频对应的话音激活检测VAD信息。

在上述第三方面的一种可能的实现中，第一电子设备与第三电子设备不同，并且上述方法还包括：第三电子设备从第一电子设备获取由第一电子设备拾音得到的第二待识别语音；第一电子设备对第二待识别语音进行识别。进而，有利于提升语音控制过程中语音识别的准确性，并提升用户体验。如此，即使多设备场景中选举出的应答设备(如距离用户最近的第三电子设备)拾音效果较差，或存在正在外放音频的电子设备产生的噪声，多个设备也可以协同拾取并识别音频质量较好的语音数据，而无需用户移动位置或手动控制特定的电子设备拾音。

在上述第三方面的一种可能的实现中，在第三电子设备向第二电子设备发送共享指令之前，上述方法还包括：第三电子设备获取多个电子设备的拾音选举信息，其中该多个电子设备的拾音选举信息用于表示该多个电子设备的拾音情况；第三电子设备基于该多个设备的拾音选举信息，从该多个电子设备中选举出至少一个电子设备作为第一电子设备。如此，可以有效聚合多个配备麦克风模组和语音助手的电子设备的外设资源，缓解多设备场景中由于电子设备部署位置、内部噪声干扰、外部噪声干扰等多种因素对语音助手识别准确率的影响，提升了用户交互体验和多设备场景中语音识别的环境鲁棒性。

在上述第三方面的一种可能的实现中，上述方法还包括：第三电子设备向第一电子设备发送拾音指令，其中，该拾音指令用于指示第一电子设备拾音并向第三电子设备发送拾音得到的第二待识别语音。可以理解，在上述拾音指令的指示下，使得第一电子设备可以获知需要向第三电子设备发送拾音得到的待识别语音，而不会对待识别语音进行识别等后续处理。

在上述第三方面的一种可能的实现中，上述拾音选举信息包括以下至少一项：回声消除AEC能力信息，麦克风模组信息，设备状态信息，拾音得到的对应唤醒词的语音信息，拾音得到的对应语音指令的语音信息；其中，该语音指令为拾音得到唤醒词之后拾音得到的；该设备状态信息包括以下至少一项：网络连接状态信息、耳机连接状态信息、麦克风占用状态信息、情景模式信息。

在上述第三方面的一种可能的实现中，上述第三电子设备基于多个电子设备的拾音选举信息，从多个电子设备中选举出至少一个电子设备作为第一电子设备，包括下列中的至少一项：在第三电子设备处于预设网络状态的情况下，则第三电子设备将第三电子设备确定为第一电子设备；在第三电子设备已连接耳机的情况下，则第三电子设备将第三电子设备确定为第一电子设备；第三电子设备将多个电子设备中处于预设情景模式的电子设备中的至少一个确定为第一电子设备。可以理解，如果电子设备处于不利于电子设备拾音的设备状态，如电子设备网络连接状态较差、已连接有线或无线耳机、麦克风已经被占用或处于飞行模式，说明该电子设备的拾音效果难以保证，或者该电子设备不能正常与其他设备协同拾音，如不能正常将拾音得到的语音数据发送给其他电子设备。如此，按照上述拾音设备的选择步骤可以选取出拾音效果较好的拾音设备(如上述第一电子设备)。

在上述第三方面的一种可能的实现中，上述第三电子设备基于多个电子设备的拾音选举信息，从多个电子设备中选举出至少一个电子设备作为第一电子设备，包括下列中的至少一项：第三电子设备将多个电子设备中AEC生效的电子设备中的至少一个作为第一电子设备；第三电子设备将多个电子设备中降噪能力大于满足预定降噪条件的电子设备中的至少一个作为第一电子设备；第三电子设备将多个电子设备中与用户之间的距离小于第一预定距离的电子设备中的至少一个作为第一电子设备；第三电子设备将多个电子设备中与外部噪声源之间的距离大于第二预定距离的电子设备中的至少一个作为第一电子设备。例如，预定降噪条件表示电子设备SE处理效果较好，如AEC生效或具备内部降噪能力；第一预定距离(如0.5m)说明电子设备距离用户较近；第二预定距离(如3m)说明电子设备距离用户较远。可以理解，通常来说距离用户越近的电子设备的拾音效果越好，距离外部噪声较远的电子设备拾音效果较好；麦克风模组的降噪性能较好或AEC生效的电子设备，说明电子设备的SE处理效果越好，即该电子设备的拾音效果越好。因此，综合考虑这些因素可以从多个设备中选举出拾音效果较好的拾音设备(即上述第一电子设备)。

在上述第三方面的一种可能的实现中，预设网络状态包括下列至少一项：网络通信速率小于或等于预定速率的网络，网络电线频次大于或等于预定频次；预设情景模式包括下列至少一项：地铁模式、飞行模式、驾驶模式、旅行模式。其中，若网络通信速率小于或等于预定速率的网络，网络电线频次大于或等于预定频次，则说明电子设备的网络通信速率较差，预定速率和预定频次具体取值可以根据实际需求确定。可以理解，预设网络状态下的电子设备通常不适于参与拾音设备的选举或作为拾音设备(如用于拾音的第一电子设备)。

在上述第三方面的一种可能的实现中，第三电子设备采用神经网络算法或决策树算法从多个电子设备中选举出第一电子设备。可以理解，多个设备的拾音选举信息可以作为神经网络算法或决策树算法的输入，并基于神经网络算法或决策树算法输出决策第一电子设备为拾音设备的结果。

第四方面，本申请提供了一种基于多设备的语音处理方法，该方法包括：多个电子设备中的第三电子设备获取多个电子设备的拾音选举信息，其中拾音选举信息用于表示多个电子设备的拾音情况；第三电子设备基于多个设备的拾音选举信息，从多个电子设备中选举出至少一个电子设备作为用于拾音的第一电子设备，其中第一电子设备与第三电子设备相同或者不同；第三电子设备从第一电子设备获取由第一电子设备拾音得到的待识别语音；第三电子设备对获取的待识别语音进行识别。从而，即使多设备场景中选举出的第三电子设备(如距离用户最近的电子设备)拾音效果较差，多个设备也可以协同拾取并识别音频质量较好的语音数据，而无需用户移动位置或手动控制特定的电子设备拾音。进而，有利于提升语音控制过程中语音识别的准确性，并提升用户体验。并且，可以缓解多设备场景中由于电子设备部署位置、外部噪声干扰等多种因素对语音助手拾音效果，以及语音识别准确率的影响，提升了用户交互体验和多设备场景中语音识别的环境鲁棒性。

在上述第四方面的一种可能的实现中，上述拾音选举信息包括以下至少一项：回声消除AEC能力信息，麦克风模组信息，设备状态信息，拾音得到的对应唤醒词的语音信息，拾音得到的对应语音指令的语音信息；其中，该语音指令为拾音得到唤醒词之后拾音得到的；该设备状态信息包括以下至少一项：网络连接状态信息、耳机连接状态信息、麦克风占用状态信息、情景模式信息。

在上述第四方面的一种可能的实现中，上述第三电子设备基于多个电子设备的拾音选举信息，从多个电子设备中选举出至少一个电子设备作为第一电子设备，包括下列中的至少一项：在第三电子设备处于预设网络状态的情况下，则第三电子设备将第三电子设备确定为第一电子设备；在第三电子设备已连接耳机的情况下，则第三电子设备将第三电子设备确定为第一电子设备；第三电子设备将多个电子设备中处于预设情景模式的电子设备中的至少一个确定为第一电子设备。

在上述第四方面的一种可能的实现中，上述第三电子设备基于多个电子设备的拾音选举信息，从多个电子设备中选举出至少一个电子设备作为第一电子设备，包括下列中的至少一项：第三电子设备将上述多个电子设备中AEC生效的电子设备中的至少一个作为第一电子设备；第三电子设备将上述多个电子设备中降噪能力大于满足预定降噪条件的电子设备中的至少一个作为第一电子设备；第三电子设备将多个电子设备中与用户之间的距离小于第一预定距离的电子设备中的至少一个作为第一电子设备；第三电子设备将多个电子设备中与外部噪声源之间的距离大于第二预定距离的电子设备中的至少一个作为第一电子设备。

在上述第四方面的一种可能的实现中，上述预设网络状态包括下列至少一项：网络通信速率小于或等于预定速率的网络，网络电线频次大于或等于预定频次；预设情景模式包括下列至少一项：地铁模式、飞行模式、驾驶模式、旅行模式。

在上述第四方面的一种可能的实现中，第三电子设备采用神经网络算法或决策树算法从多个电子设备中选举出第一电子设备。

在上述第四方面的一种可能的实现中，上述方法还包括：第三电子设备监测到多个电子设备中存在正在外放音频的第二电子设备；第三电子设备向第二电子设备发送共享指令，其中共享指令用于指示第二电子设备向第一电子设备发送第二电子设备外放的音频相关的音频信息，其中该音频信息能够被第一电子设备用于对第一电子设备拾音得到的待识别音频进行降噪处理。

在上述第四方面的一种可能的实现中，第三电子设备与第一电子设备不同，并且方法还包括：第三电子设备外放音频；第三电子设备向第一电子设备发送第三电子设备外放音频相关的音频信息，其中该音频信息能够被第一电子设备用于对第一电子设备拾音得到的待识别音频进行降噪处理。

在上述第四方面的一种可能的实现中，上述音频信息包括以下至少一项：外放音频的音频数据，该音频对应的话音激活检测VAD信息。

第六方面，本申请提供了一种装置，该装置包含在电子设备中，该装置具有实现上述方面及上述方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如，拾音单元或模块(如可以是麦克风或麦克风阵列)，接收单元或模块(如可以是收发器)，降噪模块或单元(如具有该模块或单元功能的处理器)等。例如，拾音单元或模块用于支持多个电子设备中的第一电子设备拾音得到第一待识别语音；接收单元或模块(如可以是收发器)，用于支持第一电子设备从多个电子设备中外放音频的第二电子设备接收与第二电子设备外放的音频相关的音频信息；降噪模块或单元，用于支持第一电子设备根据接收单元或模块接收的音频信息对拾音得到的第一待识别语音进行降噪处理得到第二待识别语音。

第六方面，本申请提供了一种可读介质，该可读介质上存储有指令，该指令在电子设备上执行时使该电子设备执行上述第一方面至第四方面中的基于多设备的语音处理方法。

第七方面，本申请提供了一种电子设备，包括：一个或多个处理器；一个或多个存储器；该一个或多个存储器存储有一个或多个程序，当该一个或者多个程序被该一个或多个处理器执行时，使得该电子设备执行上述第一方面至第四方面中的基于多设备的语音处理方法。在一种可能的实现方式中，所述电子设备还可以包括收发器(可以是分离或集成的接收器和发射器)，用于进行信号或数据的接收和发送。

第八方面，本申请提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线；该存储器用于存储至少一个指令，该至少一个处理器、该存储器和该通信接口通过该通信总线连接，当该至少一个处理器执行该存储器存储的该至少一个指令，以使该电子设备执行上述第一方面至第四方面中的基于多设备的语音处理方法。

附图说明

图1为本申请实施例提供的一种基于多设备的语音处理的场景示意图；

图2为本申请实施例提供的一种语音助手交互会话流程示意图；

图3为本申请实施例提供的另一种基于多设备的语音处理的场景示意图；

图4为本申请实施例提供的一种基于多设备的语音处理的方法的流程示意图；

图5为本申请实施例提供的另一种基于多设备的语音处理的方法流程示意图；

图6为本申请实施例提供的另一种基于多设备的语音处理的场景示意图；

图7为本申请实施例提供的另一种基于多设备的语音处理的方法流程示意图；

图8为本申请实施例提供的另一种基于多设备的语音处理的场景示意图；

图9为本申请实施例提供的另一种基于多设备的语音处理的方法流程示意图；

图10为本申请实施例提供的另一种基于多设备的语音处理的场景示意图；

图11为本申请实施例提供的另一种基于多设备的语音处理的方法流程示意图；

图12根据本申请的一些实施例，示出了一种电子设备的结构示意图。

具体实施方式

本申请的说明性实施例包括但不限于基于多设备的语音处理方法、介质、电子设备。下面结合附图对本申请实施例提供的基于多设备的语音处理应用的多设备场景进行详细描述。

图1所示为本申请实施例提供的一种基于多设备的语音处理应用的多设备场景。如图1所示，为了便于说明，该多设备场景10仅示出了3个电子设备，如电子设备101、电子设备102、电子设备103，但是可以理解，本申请的技术方案所适用的多设备场景可以包括任意数量的电子设备，不限于3个。

具体地，继续参考图1，在用户说出唤醒词之后，可以从多个电子设备中选举出应答设备，例如，选举电子设备101作为应答设备。再由应答设备从多个设备中选举出拾音效果最好的拾音设备(如语音增强效果最好的电子设备)，例如，电子设备101选举电子设备103作为拾音设备。进而，拾音设备(如电子设备103)拾取用户的语音指令对应的语音数据之后，可以由应答设备(如电子设备101)接收、识别以及响应该语音数据，使得应答设备处理的语音数据的质量较好。另外，该场景中如果拾音设备附近存在外放音频的内部噪声设备，那么可以根据该内部噪声设备的降噪信息，对拾音设备拾取的语音数据进行降噪处理，进一步改善应答设备所处理的语音数据的质量。从而，即使多设备场景中选举出的应答设备(如距离用户最近的电子设备)拾音效果较差，或存在正在外放音频的电子设备产生的噪声，多个设备也可以协同拾取并识别音频质量较好的语音数据，而无需用户移动位置或手动控制特定的电子设备拾音。进而，有利于提升语音控制过程中语音识别的准确性，并提升用户体验。

在一些实施例中，多设备场景10中的电子设备101-103之间通过无线网络互连，例如，Wi-Fi(如无线保真(Wireless Fidelity)、蓝牙(bluetooth，BT)、近场通信(Near FieldCommunication，NFC)等无线网络，但不限于此。作为一种示例，为了实现电子设备101-103之间通过无线网络互连，上述电子设备101-103满足以下至少一项：

1)连接同一无线接入点(如Wi-Fi接入点)；

2)登录了同一个账号；

3)被设置在同一组设备中，例如，同一组设备均具有每个设备的标识信息，以实现该组设备根据各自的标识信息相互通信。

可以理解，不同电子设备通过互连的无线网络，可以以广播方式或点对点方式传输信息，但不限于此。

根据本申请的一些实施例，多设备场景中的不同电子设备之间的无线网络的类型可以相同，也可以不同。例如，电子设备101与电子设备102通过Wi-Fi网络连接，而电子设备101与103通过蓝牙连接。

在本申请各实施例中，多设备场景中的电子设备的类型可以相同，也可以不同。例如，适用于本申请的电子设备可以包括但不限于手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、台式电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)\虚拟现实(virtual reality，VR)设备、媒体播放器、智能电视、智能音箱、智能手表、智能耳机等。作为一种示例，图1示出的电子设备101-103的类型均不同，分别以手机、平板电脑和智能电视为例示出。另外，本申请实施例对电子设备的具体形态不作特殊限制。电子设备的具体结构可以参考下文中图12对应的描述，此处不作赘述。

可以理解，在本申请一些实施例中，多设备场景中的电子设备均具有语音控制功能，例如均安装有相同唤醒词的语音助手，如唤醒词均为“小艺小艺”。并且，多设备场景中的电子设备均处于语音助手的有效工作范围内，如与用户之间的距离(即拾音距离)均小于或等于预设距离(如5m)，屏幕处于使用状态(如屏幕正面朝上放置、或未合上屏幕盖板)，未关闭蓝牙，未超出蓝牙通信范围等，但不限于此。

可以理解，语音助手是基于人工智能构建的应用程序(APP)，借助语音语义识别算法，通过与用户进行即时问答式的语音交互，帮助用户完成信息查询、设备控制、文本输入等操作。语音助手可以是电子设备中的系统应用，也可以是第三方应用。

如图2所示，语音助手通常采用分阶段级联处理，依次通过语音唤醒、语音增强处理(Speech Enhancement，SE)(或称，语音前端处理)、自动语音识别(Automatic SpeechRecognition，ASR)、自然语言理解(Natural Language Understanding，NLU)、对话管理(Dialog Management，DM)、自然语言生成(Natural Language Generation，NLG)、文本转语音(Text To Speech，TTS)以及应答输出等流程实现上述功能。例如，在用户说出唤醒词“小艺小艺”唤醒语音助手的情况下，用户说出语音指令“明天北京天气怎么样？”或“播放音乐”之后，该语音指令经过SE、ASR、NLU、DM、NLG、TTS等流程，可以触发电子设备对该语音指令进行应答输出。

可以理解，本申请中电子设备拾取的语音数据为通过麦克风直接采集得到的语音数据，或采集后经过SE处理的语音数据，用于输入到ASR进行处理。其中，ASR输出的语音数据的文本处理结果是语音助手准确完成后续识别并响应语音数据等操作的基础。因此，通过语音助手拾音得到并输入ASR的语音数据的质量，将影响语音助手识别并响应该语音数据的准确性。

为了解决电子设备的拾音效果易受到各种因素的影响的问题，使电子设备拾音的语音数据的质量较好，本申请实施例综合考虑多种因素在多设备场景下进行基于多设备的语音处理的流程。通常，影响电子设备拾音效果的因素包括环境因素1)-3)和设备因素4)-6)，具体如下所示：

1)电子设备与用户的距离或方位，即电子设备的部署位置。通常，距离用户越近的电子设备的拾音效果越好。

2)电子设备附近是否存在外部噪声，如电子设备附近的空调风机、无关人声等噪声。可以理解，电子设备周围的噪声是相对于用户说出的语音指令之外的其他声音。通常，距离外部噪声较远的电子设备拾音效果较好。

3)电子设备中是否存在内部噪声，如电子设备使用扬声器外放的音频表示的内部噪声。一般而言，一个电子设备的内部噪声可能成为其他电子设备的外部噪声，影响其他电子设备的拾音效果。

4)电子设备的麦克风模组的信息，如麦克风模组为单麦克风还是麦克风阵列，为近场麦克风阵列还是远场麦克风阵列，以及麦克风模组的截止频率。通常麦克风阵列相比于单麦克风的拾音效果较好，人机距离较远时远场麦克风阵列相比于近场麦克风阵列的拾音效果较好，以及麦克风模组的截止频率越高拾音效果越好。

5)电子设备的SE能力，例如电子设备的麦克风模组的降噪性能，以及电子设备的AEC能力，如电子设备的AEC是否生效。通常，麦克风模组的降噪性能较好或AEC生效的电子设备，说明电子设备的SE处理效果越好，即该电子设备的拾音效果越好。例如，相比于单麦克风来说麦克风阵列的降噪性能较好。

6)电子设备的设备状态，如设备网络连接状态、耳机连接状态、麦克风占用状态、情景模式信息等因素的一种或多种。例如，如果电子设备处于不利于电子设备拾音的设备状态，如电子设备网络连接状态较差、已连接有线或无线耳机、麦克风已经被占用或处于飞行模式，说明该电子设备的拾音效果难以保证，或者该电子设备不能正常与其他设备协同拾音，如不能正常将拾音得到的语音数据发送给其他电子设备。

图3至图11针对上述不同的影响因素，提出了多个电子设备之间协同处理语音的多种实施例。

实施例一

图3示出了不同部署位置的多个电子设备之间协同处理语音的场景。如图3所示，在该多设备场景(记为多设备场景11)中，手机101a、平板电脑102a和智能电视103a通过无线网络互连，并分别部署在与用户的距离不同的位置上，例如，分别部署在距离用户0.3米(m)、1.5m、3.0m的位置。此时，手机101a被用户手持，平板电脑102a放置于桌面上，智能电视103a壁挂安装在墙壁上。

在该多设备场景11中，假设多个电子设备处于低噪音环境，环境噪声≤20分贝(dB)，并且该场景中不存在外放音频的电子设备产生的内部噪声。故可以不考虑外部噪声和内部噪声对电子设备拾音效果的影响，而主要考虑电子设备的部署位置，如哪个电子设备距离用户最近这一因素对基于多设备的语音处理的影响。

图4是图3所示场景中具体的协同处理语音的方法的流程。如图4所示，手机101a、平板电脑102a和智能电视103a协同处理语音的方法的过程包括：

步骤401：手机101a、平板电脑102a和智能电视103a分别拾取用户说出的唤醒词所对应的第一语音数据。

例如，手机101a、平板电脑102a和智能电视103a中预先注册的唤醒词均为“小艺小艺”。在用户说出唤醒词“小艺小艺”后，手机101a、平板电脑102a和智能电视103a均可以检测到“小艺小艺”对应的语音，进而判断是否需要唤醒相应的语音助手。

可以理解，如果用户在电子设备的拾音距离内说出语音，那么电子设备可以通过麦克风监测到对应的语音数据，并进行缓存。具体地，手机101a、平板电脑102a和智能电视103a等电子设备，在没有其他软硬件使用麦克风拾取语音数据的情况下，可以通过麦克风实时监测用户是否有语音数据输入，并缓存拾取到的语音数据，如上述第一语音数据。

步骤402：手机101a、平板电脑102a和智能电视103a分别对拾取的第一语音数据进行校验，以确定对应的第一语音数据是否为预先注册的唤醒词。

如果手机101a、平板电脑102a和智能电视103a均对第一语音数据校验成功，则表明拾取到的第一语音数据是唤醒词，可执行以下步骤403。如果手机101a、平板电脑102a和智能电视103a均对第一语音数据校验失败，则表明拾取到的第一语音数据不是唤醒词，执行下述步骤409。

在一些实施例中，可以通过列表记录对唤醒词对应的第一语音数据校验成功的电子设备，例如，如果手机101a、平板电脑102a和智能电视103a均对第一语音数据校验成功，则通过列表(如称为，候选应答设备列表)记录手机101a、平板电脑102a和智能电视103a。那么，上述候选应答设备列表中的设备将用于参与下述多设备应答选举，以选举出唤醒语音助手并识别用户语音的电子设备(即下文中的应答设备)。可以理解，在本申请实施例中，多设备应答选举是在成功检测到唤醒词的多个设备之间进行的，即在对上述第一语音数据校验成功的电子设备间进行的。

步骤403：手机101a、平板电脑102a和智能电视103a选举出智能电视103a为应答设备。

在一些实施例中，应答设备一般为用户习惯或倾向使用的电子设备，或识别及响应用户的语音数据成功概率较大的电子设备。具体地，在多设备场景中，应答设备用于识别及响应用户的语音数据，如对语音数据执行ASR、NLU等处理步骤。多设备场景中通常只有一个应答设备，如候选应答设备列表中的一个电子设备。另外，电子设备(如智能电视103a)作为应答设备唤醒语音助手后，可以播放唤醒应答音，如“我在”。而多设备场景中除了应答设备之外的电子设备，如手机101a和平板电脑102a则根据候选拾音指示不做响应，即不输出唤醒应答音。

对于应答设备的选取，可以采用现有的各种技术进行，下文也将会进行详细的介绍。

在一些实施例中，多设备场景中应答设备(如智能电视103a)可以进行协同拾音选举，选举出一个拾音设备，具体执行下述步骤404。

步骤404：智能电视103a分别获取手机101a、平板电脑102a和智能电视103a对应的拾音选举信息，并根据拾音选举信息选举出手机101a为拾音设备。

其中，拾音选举信息可以是用来确定各电子设备的拾音效果好坏的参数。例如，在一些实施例中，拾音选举信息可以包括检测到的用户语音的声音信息(如上述第一语音数据的声音信息)、各电子设备的麦克风模组信息、各电子设备的设备状态信息以及各电子设备的AEC能力信息中的至少一项。此外，可以理解，用于拾音设备选举的信息也可以包括其他信息，只要能够评估电子设备的拾音功能的信息都适用，在此不做限制。

其中，声音信息可以包括信噪比(Signal to Noise Ratio，SNR)、音强(或能量值)、混响参数(如混响时延)等。并且，电子设备拾取的用户语音的信噪比越高、音强越高、混响延时越低，说明该用户语音的音频质量越好，即电子设备的拾音效果越好。故可以采用用户语音的声音信息来选举拾音设备。

此外，麦克风模组信息用于指示电子设备的麦克风模组是单麦克风还是麦克风阵列，是近场麦克风阵列还是远场麦克风阵列，以及麦克风模组的截止频率是多少。通常，在人机距离较远时，远场麦克风的降噪能力高于近场麦克风，故远场麦克风拾音效果优于近场麦克风。单麦克风、线阵麦克风和环阵麦克风降噪能力依次提高，相应的电子设备拾音效果依次提高。另外，麦克风模组的截止频率越高，降噪能力越好，相应的电子设备的拾音效果越好。因此，麦克风模组信息也可以用来选举拾音设备。

设备状态信息是指能够影响多个电子设备协同拾音的拾音效果的设备状态，如网络连接状态、耳机连接状态、麦克风占用状态、情景模式信息等。其中，情景模式包括：驾驶模式、乘车模式(如公交模式、高铁模式或飞机模式等)、步行模式、运动模式、居家模式等模式。这些情景模式可以通过电子设备读取并分析该电子设备的传感器信息、短消息或电子邮件、设置信息或历史操作记录等信息自动判断。该传感器信息为全球定位系统(GlobalPositioning System，GPS)、惯性传感器、相机或麦克风等。可以理解，如果耳机连接状态处于占用状态说明该电子设备正在被用户使用，那么支持距离用户较近的耳机麦克风拾音；如果麦克风占用状态指示麦克风模组处于占用状态，那么说明电子设备可能无法通过麦克风模组拾音；如果网络连接状态指示电子设备的无线网络较差，那么该电子设备通过无线网络传输信息的成功率，如向应答设备发送拾音选举信息的成功率受到影响。如果情景模式为驾驶模式、乘车模式等上述情景模式，那么说明电子设备的无线网络连接的稳定性和/或连接速率可能较低，进而影响电子设备参与拾音选举过程或协同拾音过程的成功率。故上述设备状态信息也可以用来选举拾音设备。

AEC能力信息用于指示电子设备是否具备AEC能力，以及电子设备的AEC是否生效。其中，AEC能力具体为电子设备中的麦克风模组的AEC能力。可以理解，相比于AEC未生效或者不具备AEC能力的电子设备，AEC生效的电子设备自身的SE处理能力较好、降噪性能更好，进而拾音效果更好。因此，上述AEC能力信息也可以用来选举拾音设备。另外，AEC生效的电子设备通常为正在外放音频的电子设备。

可以理解，AEC为一种语音增强技术，通过音波干扰方式消除麦克风与扬声器因空气产生回受路径而产生的杂音，可有效缓解由于扬声器播放音频或声波空间反射所引发的噪声干扰问题，从而实现提高电子设备拾音得到的语音数据的质量。另外，SE用于通过硬件或软件手段，采用混响消除、AEC、盲源分离、波束成型等音频信号处理算法，对电子设备的麦克风采集的用户语音数据进行预处理，以提高得到的语音数据的质量。

智能电视103a可以基于各电子设备的拾音选举信息选举出拾音设备，具体选举方案在下文中将进行详细的介绍。为了便于说明，下文中假设智能电视103a选举出手机101a作为拾音设备。

可以理解，本申请实施例中，可采用远程外设虚拟化技术，将拾音设备或者拾音设备的麦克风作为应答设备的虚拟外设节点，由运行于应答设备端的语音助手调用，完成后续跨设备拾音过程。

另外，在一些实施例中，应答设备确定一个电子设备为拾音设备之后，可以向该电子设备发送拾音指示，以指示该电子设备拾取用户的语音数据。类似的，应答设备可以向多设备场景中除拾音设备之外的其他电子设备发送停止拾音指示，以指示这些电子设备不再拾取用户的语音数据。或者，如果多设备场景中除拾音设备之外的其他电子设备在向应答设备发送拾音选举信息后的一段时间内(如5秒)未接收到任何指示，则这些电子设备确定其不是拾音设备。

步骤405：手机101a拾取用户说出的语音指令所对应的第二语音数据。

可以理解，在后续的应用中，手机101作为拾音设备来拾取用户说出的各种语音指令。例如，用户说出语音指令“明天北京天气怎么样？”，手机101a通过麦克风模组直接采集该语音指令得到第二语音数据，或者手机101a中的麦克风模组采集该语音指令并经过SE处理后得到第二语音数据。

为了方便描述，本申请实施例中单独出现的“语音指令”可以为电子设备唤醒语音助手后，接收的与某一事件或操作对应的语音指令。例如，用户的语音指令为上述“明天的天气怎么样？”或者“播放音乐”等。另外，本文中“语音”、“语音指令”和“语音数据”等名称有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

步骤406：手机101a向智能电视103a发送第二语音数据。

可以理解，手机101a作为拾音设备在拾取用户发出的语音指令后直接向应答设备转发该语音指令的语音数据，而自身并不对用户发出的语音指令做出任何识别或者响应。

此外，可以理解，在其他实施例中，如果应答设备和拾音设备为同一设备，则无需该步骤，应答设备或者拾音设备在拾音到用户的语音指令后，直接进行语音数据的语音识别。

步骤407：智能电视103a识别第二语音数据。

具体的，智能电视103a作为应答设备接收到手机101a拾音得到的语音数据之后，可以通过ASR、NLU、DM、NLG、TTS等级联处理流程，实现识别经过降噪处理后的第二语音数据。

例如，对于上述提到的语音指令“明天北京天气怎么样？”，ASR可以将经SE处理的第二语音数据转化为对应的文本(或文字)，并将口语化的文本进行归一、纠错、书面化等文本化处理，例如得到文字“明天北京天气怎么样？”。

步骤408：智能电视103a根据识别结果响应用户的语音指令或者控制其他电子设备响应用户的语音指令。

可以理解，在本申请实施例中，对于识别出的用户的语音指令，如果是应答设备可以执行的或者只能是应答设备执行的，则应答设备做出与语音指令对应的响应。例如，对于上述提到的语音指令“明天北京天气怎么样？”，智能电视103a回答“明天北京是晴天”，对于语音指令“请关闭电视机”，智能电视103a执行关闭功能。

可以理解，上述语音“明天北京是晴天”是应答设备通过TTS输出的应答语音。另外，应答设备还可以控制系统软件、显示屏、振动马达等软硬件执行应答操作，如通过显示屏显示NLG生成的应答文本。

对于针对其他电子设备的语音指令，应答设备可以在识别出语音指令后发送给相应的电子设备。例如，对于语音指令“拉开窗帘”，智能电视103a识别出应答操作为拉开窗帘之后，可以向智能窗帘发送拉开窗帘的操作指令，使得智能窗帘通过硬件完成拉开窗帘的动作。

可以理解，上述其他电子设备可以为物联网(The Internet of Things，IOT)设备，如智能冰箱、智能热水器、智能窗帘等智能家居设备。在一些实施例中，上述其他电子设备不具备语音控制功能，如未安装语音助手，该其他电子设备在应答设备的触发下执行用户的语音指令对应的操作。

另外，在多设备场景中，用户说出对应第二语音数据的语音指令之后，可以继续说出后续的语音指令数据流，如语音指令“明天应该穿什么衣服呀？”。多设备场景对这些数据流的协同处理语音流程，可以参照上述对第二语音数据的相关描述，此处不再赘述。

步骤409：手机101a、平板电脑102a和智能电视103a不对第一语音数据进行响应，并删除缓存的第一语音数据。

例如，手机101a、平板电脑102a和智能电视103a执行步骤409时，将不会向用户输出唤醒应答语音“我在”。当然，如果用户继续说出语音指令，如“明天北京天气怎么样？”，这些设备也不会响应该语音指令对应的语音数据。

可以理解，如果手机101a、平板电脑102a和智能电视103a中的部分电子设备对第一语音数据校验成功，另一部分电子设备对第一语音数据校验失败，那么仅由前者继续执行后续多设备协同拾音的流程。例如，手机101a、平板电脑102a对第一语音数据校验成功，而智能电视103a对第一语音数据校验失败，那么上述步骤403的执行主体将替换为手机101a和平板电脑102a，并且步骤409的执行主体将替换为智能电视103a。

如上所述，在本申请实施例的多设备场景中，用户说出一个语音指令之后，用户无需专门操作某个电子设备拾取该语音指令(如对应第二语音数据的语音指令)，而是由应答设备自动将拾音设备作为外设拾取用户的语音指令，进而通过应答设备对用户的语音指令的响应实现语音控制功能。

本申请实施例提供的基于多设备的语音处理的方法，可以通过多个电子设备的交互协同，选举出拾取语音指令的音频质量最好的电子设备作为拾音设备，以支持应答设备通过语音助手完成与用户的语音交互流程，例如拾音设备可以为距离用户最近且SE处理能力较优的电子设备。如此，可以有效聚合多个配备麦克风模组和语音助手的电子设备的外设资源，缓解多设备场景中由于电子设备部署位置对语音助手识别准确率的影响，提升了用户交互体验和多设备场景中语音识别的环境鲁棒性。

下面将具体介绍本申请实施例中应答设备的选举和拾音设备的选举方案。

应答设备的选举

在一些实施例中，对于上述步骤403，多设备场景中的电子设备可以依据下述应答选举策略中的至少一种执行多设备应答选举，选举出应答设备：

应答策略1)选举距离用户最近的电子设备作为应答设备。

例如，对于图3所示的场景，可以选举手机101a为应答设备。电子设备与用户的距离可以通过电子设备拾取的唤醒词对应的语音数据的声音信息表征。例如，第一语音数据的信噪比越高、音强越高、混响延时越低，说明电子设备距离用户越近。

应答策略2)选举被用户活跃使用的电子设备作为应答设备。

可以理解，如果电子设备被用户活跃使用，例如被用户最近抬起屏幕，说明用户可能正在使用该电子设备，并且用户更倾向使用其识别并响应用户的语音数据。

在一些实施例中，可以通过设备使用记录信息表征电子设备是否被用户活跃使用。其中，设备使用记录信息包括以下至少一项：屏幕亮屏时间、屏幕亮屏频率，使用语音助手的频率等。可以理解，屏幕亮屏时间越长、屏幕亮屏频率越高、使用语音助手的频率越高，说明电子设备被用户活跃使用的程度更高。例如，根据手机101a、平板电脑102a和智能电视103a的设备使用记录信息，可以将被用户活跃使用的智能电视103a选举为应答设备。

应答策略3)选举配备远场麦克风阵列的电子设备作为应答设备。

可以理解，配备远场麦克风阵列的电子设备大多为公共设备，即用户更倾向用来识别并响应用户的语音数据的电子设备。其中，公共设备通常被用户在较远距离(如1-3m)、多种方位下使用，且支持多人共享使用，如智能电视或智能音箱等。相比于手机、平板电脑等小型电子设备，通常配备有远场麦克风阵列的电子设备的扬声器性能更好、屏幕尺寸更大，因而针对用户的语音指令输出的应答语音或显示的应答信息的效果较好。故配备远场麦克风阵列的电子设备适合作为应答设备。

在一些实施例中，电子设备是否配备远场麦克风阵列通过麦克风模组信息表征。例如，手机101a、平板电脑102a和智能电视103a根据麦克风模组信息，选举出配备远场麦克风阵列的智能电视103a作为应答设备。

应答策略4)选举公共设备作为应答设备。

在一些实施例中，电子设备是否为公共设备，还可以通过公共设备指示信息表征。作为一种示例，智能电视103a的公共设备指示信息指示智能电视103a为公共设备，多设备场景11选举出智能电视103a作为应答设备。类似的，针对应答策略4)的其他描述可以参照对应答策略3)的相关描述，此处不再赘述。

如果多设备场景中的两个或以上的电子设备均满足相同的应答选举策略，那么可以从这些电子设备中选择任意一个电子设备作为应答设备。

可以理解，对于应答设备同时满足上述应答策略1)至4)的描述，可以参照上述应答设备分别满足应答条件1)至4)中的每个应答策略的相关描述，不再赘述。在一些实施例中，可以预先为不同应答策略设定不同的优先级，如果多设备场景中一个电子设备满足最高优先级的应答条件，另一个电子设备满足较低优先级的应答条件，那么将前者作为应答设备。

在其他实施例中，除了上面列出的应答选举策略，也可以选择对第一语音数据校验成功的任意电子设备，即上述候选应答设备列表中的任意电子设备作为应答设备。

在一些实施例中，多设备场景中的任意一个电子设备可以作为主设备，执行选举应答设备的步骤。例如，手机101a作为主设备选举出智能电视103a为应答设备，并向智能电视103a发送应答指示来指示智能电视103a后续识别并响应用户的语音指令对应的语音数据。另外，主设备可以向多设备场景中除应答设备之外的其他电子设备发送候选拾音指示，以指示这些电子设备对用户的语音指令不进行识别。或者，如果多设备场景中除应答设备之外的其他电子设备在对第一语音数据校验成功后的预设时间内(如10秒)未接收到任何指示，则这些电子设备确定其不是应答设备。

此外，在其他实施例中，多设备场景中的每个电子设备均可以执行选举应答设备的操作。例如，手机101a、平板电脑102a和智能电视103a均执行多设备应答选举，并分别选举出智能电视103a为应答设备。那么，智能电视103a可以确定自身为应答设备，进而唤醒语音助手以识别并响应用户的语音指令对应的语音数据。类似的，手机101a和平板电脑102a分别确定其不是应答设备，并对用户的语音指令不进行识别和响应。

在一些实施例中，执行多设备应答选举的电子设备通过获取多设备场景中的每个电子设备的应答选举信息，并根据应答选举信息选举出应答设备。

例如，一个电子设备的应答选举信息包括以下至少一种：第一语音数据的声音信息、设备使用记录信息、麦克风模组信息、公共设备指示信息，但不限于此。

此外，应答设备获得每个电子设备的应答选举信息之后，可以缓存这些信息。

拾音设备的选举

具体地，上述步骤404中，智能电视103a可以接收手机101a和平板电脑102a分别发送的对应的拾音选举信息，并读取自身的拾音选举信息。

需要说明的是，本申请实施例对手机101a和平板电脑102a对应的拾音选举信息的发送顺序，和每个拾音选举信息中不同信息的发送顺序均不作限定，可以为任意可实现的发送顺序。

此外，对于各个电子设备的拾音选举信息，如果在上述步骤403中应答设备已经计算并缓存各个电子设备的一些信息，如第一语音数据的声音信息，那么步骤404中可以读取已经缓存的这些信息，而无需重新计算这些信息。

具体地，本申请实施例可以综合考虑电子设备对应的拾音选举信息中的不同信息，即影响电子设备拾音效果的不同因素，设置拾音选举策略，以将多设备场景中拾音效果较好的电子设备作为拾音设备。

可以理解，在本申请实施例中，多设备拾音选举是在成功检测到唤醒词的多个设备之间进行的，即在对上述第一语音数据校验成功的电子设备间进行的。具体的，上述候选应答设备列表中的设备可以用于参与多设备拾音选举，以选举出拾音设备，此时该候选应答设备列表可以称为候选拾音设备列表。具体的，在执行多设备拾音选举的过程中，上述候选拾音设备列表中的电子设备均可以作为候选拾音设备，如上述手机101a、平板电脑102a和智能电视103a均可以作为候选拾音设备，即根据拾音选举信息进行拾音选举的电子设备。

在一些实施例中，可以通过人工神经网络、专家系统等端到端方法，采用拾音选举策略将上述候选拾音设备列表中的拾音效果较好的电子设备作为拾音设备。具体地，将候选拾音设备列表中的每个电子设备对应的拾音选举信息作为上述人工神经网络或专家系统的输入，那么该人工神经网络或专家系统的输出结果为拾音设备。例如，将手机101a、平板电脑102a和智能电视103a分别对应的拾音选举信息作为上述人工神经网络或专家系统的输入，那么该人工神经网络或专家系统的输出结果为手机101a，即选举出手机101a为拾音设备。

上述人工神经网络可以为深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、长短期记忆网络(Long Short Term Memory，LSTM)或循环神经网络(Recurrent Neural Network，RNN)等，本申请实施例对此不做具体限定。

另外，在其他实施例中，可以通过分阶段级联处理的方法，实现采用拾音选举策略将候选拾音设备列表中的拾音效果较好的电子设备作为拾音设备。具体的，可以先对候选拾音设备列表中的每个电子设备对应的拾音选举信息中的各个参数向量(即各个拾音选举信息)进行特征提取或数值量化，然后采用决策树、逻辑回归等算法决策输出拾音设备的选择结果。例如，通过分阶段级联处理的方法，可以将手机101a、平板电脑102a和智能电视103a分别对应的拾音选举信息中的各个参数向量进行特征提取或数值量化，然后采用决策树、逻辑回归等算法决策输出拾音设备的选择结果为手机101a，即选举出手机101a为拾音设备。

具体地，在一些实施例中，应答设备可以通过第一类协同拾音策略和第二类协同拾音策略中的至少一种执行多设备拾音选举的过程。例如，该过程可以包括两部分流程，第一部分流程为应答设备通过第一类协同拾音策略先从候选拾音设备列表中移除部分明显不适宜参与后续协同拾音的劣势设备，或直接决策选择应答设备为最合适的拾音设备。第二部分流程为应答设备通过第二类协同拾音策略根据候选拾音设备列表中的各个电子设备对应的拾音选举信息，选举出拾音效果较好的电子设备作为拾音设备。可以理解，如果执行第一部分流程未决策出拾音设备，那么将执行第二部分流程来选举拾音设备。

在一些实施例中，上述第一类协同拾音策略可以包括以下策略a1)至a6)中的至少一项。

a1)将已连接耳机且不是应答设备的电子设备，确定为非候选拾音设备。

其中，电子设备已连接耳机的状态由耳机连接状态信息指示。具体地，如果一个电子设备已连接有线或无线耳机且不是应答设备，由于该电子设备仅支持通过耳机麦克风的近距离拾音，那么该电子设备有较高概率远离用户或当前未被用户使用，选用该设备作为拾音设备可能造成语音识别失败，因此将该电子设备标记为不适于参与多设备拾音选举的非候选拾音设备，并从候选拾音设备列表中移除。可以理解，非候选拾音设备将不会参与多设备拾音选举，即不会被选举为拾音设备。

a2)将处于预设网络状态(即网络状态较差)且不是应答设备的电子设备，确定为非候选拾音设备。

其中，电子设备处于预设网络状态由网络连接状态信息指示。具体地，如果一个电子设备的网络状态较差(如网络通信速率较低、无线网络信号较弱、近期网络频繁掉线等)且不是应答设备，为了避免该电子设备被应答设备调用过程中出现数据丢失或延迟，进而影响后续协同拾音和语音交互流程，将该电子设备标记为不适于参与多设备拾音选举的非候选电子设备，并从候选拾音设备列表中移除。

a3)将麦克风模组处于被占用状态且不是应答设备的电子设备，确定为非候选拾音设备。

其中，麦克风模组处于被占用状态由麦克风占用信息指示。如果一个电子设备的麦克风模组被除语音助手之外的其它应用(如录音机)占用，且不是应答设备，则将其作为非候选拾音设备，并从候选拾音设备列表中移除。具体的，电子设备的麦克模组被其它应用占用，说明该电子设备可能无法使用麦克风模组进行拾音，那么将电子设备标记为不适于参与协同拾音的设备。

a4)将处于预设网络状态的应答设备，确定为拾音设备。

其中，如果应答设备网络连接状态较差，为避免应答设备调用其它候选拾音设备失败，直接决策选择应答设备为最合适拾音设备，由应答设备作为拾音设备调用本机麦克风模组进行后续拾音。

a5)将已连接耳机的应答设备，确定为拾音设备。

其中，如果应答设备已连接有线或无线耳机，那么应答设备有较高概率是最靠近用户或用户正在使用的设备，因而直接决策选择应答设备为拾音设备。

a6)将处于预设情景模式的电子设备，确定为拾音设备。

其中，如果应答设备处于预设情景模式(如地铁模式、飞行模式、驾驶模式、旅行模式)下，可直接决策选择与该情景模式对应的电子设备作为拾音设备，以保证系统性能。例如，在驾驶模式下，为避免行车噪声干扰，可固定选择麦克风降噪能力较好的电子设备为拾音设备。又如，在旅行模式下，为避免设备通信功耗上升和续航时间下降，可固定选择应答设备为拾音设备。

另外，上述第二类拾音选举策略可以包括策略b1)至b4)中的至少一项。

b1)将AEC生效的电子设备作为拾音设备。

即，将候选拾音设备列表中AEC能力信息指示AEC生效的电子设备作为拾音设备，而AEC生效的电子设备的拾音效果较好。

可以理解，AEC生效的电子设备通常为正在外放音频的电子设备。另外，如果电子设备正在外放音频而又没有AEC能力或者AEC未生效，那么将对该电子设备自身产生严重干扰，如严重干扰该电子设备的拾音效果。当然，如果正在外放音频的电子设备具有内部噪声降噪能力和AEC生效，那么可以消除其外放音频产生的内部噪声对其拾音效果的影响。

b2)将降噪能力较好的电子设备作为拾音设备。

即，将候选拾音设备列表中麦克风模型参数指示麦克风模组的降噪能力较好的电子设备作为拾音设备，例如，在人机距离较远或第一语音数据较弱时，将配备远场麦克风阵列的电子设备作为拾音设备。具体地，可以通过判断电子设备的麦克风模组为近场麦克风还是远场麦克风，选举出降噪能力较好的远场麦克风的拾音设备。

b3)将距离用户最近的电子设备作为拾音设备。

即，将候选拾音设备列表中距离用户最近的电子设备作为拾音设备。其中，通常候选拾音设备列表中拾音得到用户语音对应的语音数据(如第一语音数据)的音强最高、信噪比最高、和/或混响时延最低，说明该电子设备距离用户最近且拾音效果最好。

b4)将距离外部噪声源最远的电子设备作为拾音设备。

即，将候选拾音设备列表中距离外部噪声源最远的电子设备作为拾音设备。其中，通常候选拾音设备列表中拾音得到用户语音对应的语音数据(如第一语音数据)的音强最高、信噪比最高、和/或混响时延最低，说明该电子设备距离外部噪声源最远且拾音效果最好。

可以理解，上述拾音选举策略(如第一类拾音选举策略或第二类拾音选举策略)包括但不限于上述示例。具体地，对于同时满足上述拾音选举策略中的策略a1)至a6)以及策略b1)至b4)中多项的描述，可以参照上述对拾音设备分别满足每个拾音选举策略的相关描述，此处不再赘述。

在一些实施例中，可以预先为不同拾音选举策略设定不同的优先级，并优先依据优先级高的拾音选举策略选举拾音设备。当然，拾音选举策略的优先级可以为单个拾音选举策略的优先级，还可以为多个拾音选举策略组合的优先级。例如，策略b1)和策略b3)的组合的优先级大于策略b3)的优先级，此时，如果候选拾音设备列表中一个电子设备满足策略b1)和策略b3)，另一个电子设备满足策略b3)，则可以选举前者为拾音设备。

例如，在多设备场景11中，智能电视103a作为应答设备，在无外部噪声干扰的低噪环境下，可以从手机101a、平板电脑102a、智能电视103a中，依据上述策略b2)和b3)选举出SE处理能力较好、语音音强或信噪比最高、混响延时最低的手机101a为拾音设备。此时，手机101a是距离用户最近的电子设备，即距离用户0.3m。如此，可以避免多设备场景中电子设备的部署位置对电子设备的拾音效果的影响。

实施例二

由于用户发出语音唤醒词时会下意识提高音量，且由于用户或电子设备位置移动等因素的影响，唤醒词的语音数据的音强、信噪比等声音信息难以精准表述电子设备后续拾取用户语音指令的音频质量，因此可以通过用户说出唤醒词后说出的语音指令所对应的语音数据的声音信息作为拾音选举信息，来选举拾音设备。

图5示出了另一种基于多设备的语音处理的方法的流程图，该方法流程区别于图4示出的方法流程之处在于，增加了依据用户说出的语音指令的语音数据的声音信息选举拾音设备的环节。具体地，如图5所示，该方法流程包括：

步骤501-步骤503，与上述步骤401至403相同，此处不再赘述。

步骤504：智能电视103a分别获取手机101a、平板电脑102a和智能电视103a对应的拾音选举信息。

步骤505：智能电视103a根据手机101a、平板电脑102a和智能电视103a分别拾取用户说出的语音指令，并选取语音指令中的第一时长内的语音对应的语音数据作为第三语音数据。

例如，第一时长为X秒(如3s)。在一些实施例中，第三语音数据对应的语音为用户说出的语音指令中任意时长为第一时长的语音。例如，上述第一时长内的语音为用户说出的语音指令中起始的X秒内的语音。

可以理解，在上述第一时长内的语音为用户说出的起始的前X秒内的语音的情况下，步骤505中手机101a、平板电脑102a和智能电视103a仅分别拾取第三语音数据，而不会拾取前X秒之后用户说出的语音指令对应的语音数据。此时，上述第三语音数据可以为用户说出上述第二语音数据对应的语音指令(如“明天北京天气怎么样？”)之前说出的一段语音指令。这样，在应答设备较快地获得第三语音数据的同时，避免多设备场景中的各个电子设备较长时间执行拾取用户说出的语音指令的步骤而导致电子设备的资源浪费。

另外，在其他实施例中，步骤505中手机101a、平板电脑102a和智能电视103a分别拾取用户说出的一个完整的语音指令对应的语音数据，如“明天北京天气怎么样？”对应的第二语音数据，再从第二语音数据中选取出前X秒的第三语音数据。此时，上述第三语音数据可以为用户说出上述第二语音数据对应的语音指令(如“明天北京天气怎么样？”)中起始的一段语音指令，例如，第三语音数据为“明天”。

步骤506：智能电视103a分别获取手机101a、平板电脑102a和智能电视103a拾音得到的第三语音数据的声音信息。

例如，第三语音数据的声音信息包括以下至少一项：信噪比、音强(或能量值)、混响参数等。一般而言，电子设备检测到的第三语音数据的信噪比越高、音强越高、混响延时越低，说明该第三语音数据的质量越好，该第三语音数据更贴近于用户说出的语音指令本身，进而说明该电子设备距离用户越近。即故第三语音数据的声音信息可以作为选举拾音设备的拾音选举信息。

在一些实施例中，手机101a和平板电脑102a可以分别计算得到第三语音数据的声音信息，再将第三语音数据的声音信息发送给智能电视103a。或者，手机101a和平板电脑102a可以分别将检测到的第三语音数据发送给智能电视103a，再由智能电视103a计算手机101a和平板电脑102a分别对应的第三语音数据的声音信息。

步骤507：智能电视103a将第三语音数据的声音信息加入拾音选举信息，并根据手机101a、平板电脑102a和智能电视103a分别对应的拾音选举信息选举出手机101a为拾音设备。

其中，步骤504至步骤507与上述步骤404类似，相同之处不再赘述。区别在于，在本实施例的步骤507中，智能电视103a额外获取了用户说出的前X秒的语音指令对应的语音数据(即第三语音数据)，进而使得智能电视103a可以依据各个电子设备检测得到的第三语音数据的声音信息决策出拾音设备为手机101a。

具体地，步骤507中根据智能电视103a可以通过手机101a、平板电脑102a和智能电视103a分别对应的第三语音数据的声音信息，判断智能电视103a是否满足上述拾音选举策略b3)和/或b4)。具体地，如果根据第三语音数据的声音信息判断出智能电视103a为距离用户最近或距离噪声最远的电子设备，那么选举出智能电视103a作为拾音设备。

可以理解，通常候选拾音设备列表中检测到第三语音数据的音强最高、信噪比最高、和/或混响时延最低，说明电子设备距离用户最近。此时，该电子设备检测到第三语音数据的质量最好，拾音效果最好。

步骤508-步骤512，与上述步骤405-409类似，此处不再赘述。

本申请实施例中，多设备场景下不仅可以根据用户的唤醒词对应的第一语言数据的声音信息等信息选举拾音设备，还可以根据用户说出的语音指令中的第一时长内的(如起始的前X秒)的语音对应的第三语言数据的声音信息选举拾音设备。如此，综合考虑用户或电子设备位置移动等因素影响，通过增加用户的语音指令对应的声音信息的拾音选举信息选举拾音设备，可进一步提升拾音设备的准确性，从而提升多设备场景中语音识别的准确率。

实施例三

在一些多设备场景中，如果存在外部噪声，尤其在一些电子设备与用户的距离相同，甚至电子设备类型相同(如均为手机)的情况下，可以主要考虑电子设备距离外部噪声的距离，即外部噪声对电子设备拾音效果的影响，进行拾音设备选举。可以理解，如果不同电子设备类型相同且与用户的距离相同，那么这些电子设备的拾音效果相同。

具体地，图6示出了一种外部噪声干扰下的基于多设备的语音处理的多设备场景，该多设备场景(记为多设备场景12)中，手机101b、手机102b、智能电视103b，通过无线网络互连，并分别部署在距离用户1.5m、1.5m、3.0m的位置上。此时，手机101b和手机102b可以闲置放置于桌面，智能电视103b可以壁挂安装在墙壁上。其中，在多设备场景12中，手机102b附近存在外部噪声源104。例如，外部噪声源可以为正在运行的空调或者外放音频的其他设备。因此，该场景中主要考虑外部噪声源104对各个电子设备拾音效果的影响，进行基于多设备的语音处理的流程。

图7是基于图6具体的协同处理语音的方法的流程。如图7所示，手机101b、手机102b、智能电视103b协同处理语音的方法的过程包括：

步骤701-步骤709，与上述步骤401-步骤409类似，相同之处不作赘述。

区别仅在于执行主体有变化，多设备场景12中通过无线网络互连的电子设备由手机101a、平板电脑102a和智能电视103a变为手机101b、手机102b和智能电视103b。具体的，步骤703中选举出的应答设备为智能电视103b，并且步骤704中选举出的拾音设备为手机101b。

多设备场景12中的手机101b和手机102b距离用户的距离均为1.5m，相比于距离用户3m的智能电视103b，手机101b和手机102b均为距离用户最近的电子设备。然而，在手机102b附近存在外部噪声源104的环境下，区分手机101b和手机102b的拾音效果的因素仅为与外部噪音源104的距离。显然，相比于手机102b与外部噪声源104的距离，手机101b与外部噪声源104的距离较远。因此，区别于多设备场景11，在多设备场景12的步骤704中智能电视103b作为应答设备，在有外部噪声源干扰时，可以依据拾音选举策略(如策略b4))选举出远离外部噪声源、语音音强或信噪比最高、混响延时最低的手机101b为拾音设备。如此，可以避免多设备场景中外部噪声对电子设备的拾音效果的影响。

类似的，参照图5示出的步骤505-507，多设备场景12中智能电视103b也可以获取各个电子设备拾取用户说出的语音指令中第一时长内的语音对应的第三语音数据的声音信息，并将这些声音信息加入步骤705中的各个拾音选举信息，选举出距离外部噪声源104较远的手机101b为拾音设备，此处不再赘述。

如此，本申请实施例提供的基于多设备的语音处理的方法，拾音设备可以具备与用户间距离最近、具备内部噪声降噪能力(如SE处理能力)、远离外部噪声源等有利因素中的一种或多种。如此，可以缓解多设备场景中由于外部噪声干扰对语音助手识别准确率的影响，提升了用户交互体验和多设备场景中语音识别的环境鲁棒性。

实施例四

多设备场景中存在内部噪声，如正在外放音频的电子设备产生的噪声，该噪声为60-80dB的噪声，将对周边其它设备拾取语音指令产生强烈干扰。此时，可以主要考虑该内部噪声对多设备协同拾音的拾音效果的影响，如通过将外放音频的电子设备作为拾音设备，实现多设备拾音选举。

具体地，图8示出了内部噪声干扰下的基于多设备的语音处理的场景，该多设备场景(记为多设备场景13)中，手机101c、平板电脑102c、智能电视103c，通过无线网络互连，并分别部署在距离用户0.3m、1.5m、3.0m的位置上。

其中，智能电视103c处于外放音频的状态，且智能电视103c具备内部噪声降噪(即降噪能力)或AEC能力。例如，智能电视103c播放的音频的音量为60-80dB，将对手机101c、平板电脑102c的拾音效果产生强烈干扰。因此，在该场景中，主要考虑智能电视103c的内部噪声对电子设备拾音效果的影响，进行基于多设备的语音处理的流程。

图9是其图8示出的多设备场景具体的协同处理语音的方法的流程。如9所示，手机101c、平板电脑102c、智能电视103c协同处理语音的方法的过程包括：

步骤901-步骤905，与上述步骤401-步骤405类似，相同之处不作赘述。

区别仅在于执行主体有变化，多设备场景13中通过无线网络互连的电子设备由手机101a、平板电脑102a和智能电视103a变为手机101c、平板电脑102c、智能电视103c。其中，步骤903中协同应答选举得到的应答设备是智能电视103c，步骤904中协同拾音举得到的拾音设备也是智能电视103c，即拾音设备和应答设备相同。

具体地，多设备场景13中增加考虑了内部噪声对电子设备效果的影响，在智能电视103c处于外放音频的状态的情况下，智能电视103c可以依据上述实施例中实施例中的第二类拾音选举策略中的策略b1)和策略b2)，选举出语音信噪比、降噪能力相对较高的智能电视103c作为拾音设备。例如，在多设备场景13中，智能电视103c具备内部噪声降噪能力或AEC生效，而手机101c和平板电脑102c不具备内部噪声降噪能力，内部降噪能力低于智能电视103c的内部降噪能力，不具备AEC能力，或者AEC未生效。

可以理解，通常情况下具备SE处理能力的电子设备，如具备内部噪声降噪能力或AEC能力的电子设备，可以在外放音频时，通过该音频的降噪信息消除内部噪声(即该音频)对拾音效果的影响，拾音得到质量较好的语音数据。

此外，本实施例中，多设备协同选举出应答设备和拾音设备之后，还可以由应答设备查询出正在外放音频的内部噪音设备，使得内部噪音设备共享其降噪信息。

步骤906、智能电视103c从手机101c、平板电脑102c、智能电视103c中查询出正在外放音频的智能电视103c，作为内部噪声设备提供降噪信息。

其中，智能电视103c通过查询各个设备的扬声器占用状态或音频/视频软件状态(如音频/视频软件是否打开，以及电子设备的音量)等信息，确定正在外放音频的电子设备。例如，如果智能设备103c查询到其自身的扬声器处于占用状态、音量较大(如最大音量的60％以上)，或者音频/视频软件处于开启状态，那么确定智能电视103c自身正在外放音频，将共享降噪信息。

具体地，手机101c和平板电脑102c可以通过无线网络向智能电视103c上报其是否处于外放音频状态的信息，如上报扬声器占用状态、音量、和/或音频/视频软件状态的信息。

其中，在一些实施例中，智能电视103c拾取用户说出的语音指令所对应的语音数据的同时，还在持续通过扬声器外放音频。

可以理解，智能电视103c作为应答设备和拾音设备，查询出自身为内部噪声设备之后，可以对后续拾取的语音指令对应的语音数据进行降噪处理。

步骤907、智能电视103c根据降噪信息对拾音得到的第二语音数据进行降噪处理。

步骤908、智能电视103c识别经过降噪处理后的第二语音数据。

步骤909、智能电视103c根据识别结果响应用户的语音指令或者控制其他电子设备响应用户的语音指令。

此外，上述步骤908和909与上述步骤406至408类似，区别仅在于，应答设备(即智能电视103c)识别的语音数据为通过上述降噪信息进行降噪处理的语音数据。具体地，新增了步骤906和步骤907，即智能电视103c作为应答设备查询出内部噪声设备，具体为查询出正在外放音频智能电视103c作为内部噪声设备提供降噪信息。其中，该降噪信息支持拾音设备对后续拾取的语音对应的语音数据进行降噪处理。显然，该场景中拾音设备和内部噪声设备相同。

可以理解，具备内部噪声降噪能力(即降噪能力)或AEC生效的电子设备，可以将外放的音频的音频数据引入到降噪过程，通过消减自身播放音频产生的内部噪声，缓解其干扰。即，上述内部噪声设备基于外放的音频的音频数据得到降噪信息，如该音频数据本身(即内部噪声信息)，或者，该音频对应的语音活动检测(Voice Activity Detection，VAD)信息(或称静音抑制信息)。

电子设备(如智能电视103c)可以提供外放的音频的降噪信息，并通过其降噪信息对内部噪声进行降噪处理，实现消除该内部噪声对其他语音数据(如用户拾取的语音数据)的影响，以提升拾取的语音数据的质量。

例如，在多设备场景13中，针对用户说出唤醒词之后说出的语音指令“明天北京天气怎么样？”，智能电视103c如果直接拾取第二语音数据，由于外放的音频的影响，该第二语音数据可能直接被识别为“明天北京天天怎么样？”，即未能准确识别出用户实际的语音指令“明天北京天气怎么样？”。此时，智能电视103c可以通过内部的降噪信息消除外放的音频的影响，使得智能电视103c经过降噪处理后的第二语音数据的质量较高，后续得到第二语音数据的准确识别结果“明天北京天气怎么样？”。

步骤910，与上述步骤409类似，此处不再赘述。

此外，在其他一些实施例中，还可以由应答设备获取内部噪声信息外放音频的降噪信息，并获取拾音设备直接拾音得到待识别语音(即未消除外放音频的内部噪声的待识别语音)，然后执行根据获取的降噪信息对获取的待识别语音进行降噪处理的步骤。

可以理解，通过外放音频的电子设备的降噪信息，如外放的音频的音频数据本身和/或该音频对应的VAD信息，对拾音设备的拾音过程进行降噪处理，可以缓解多设备场景中外放音频的电子设备的内部噪声对语音助手的拾音效果的影响，保证语音助手基于多设备的拾音效果，从而有利于保证语音助手的语音识别准确率。进而，提升了语音识别过程中的用户体验，并提升了多设备场景中语音识别的环境鲁棒性。

实施例五

多设备场景中存在内部噪声时，为了避免该内部噪声对多设备场景协同拾音的拾音效果的影响，不仅可以将外放音频的电子设备作为拾音设备，还可以通过外放音频的电子设备将且内部噪声的降噪信息共享给作为拾音设备的其他电子设备，以使得拾音设备跨设备根据该降噪信息消除该内部噪声对拾音效果的影响。

图10示出了另一种内部噪声干扰下的基于多设备的语音处理的场景，该多设备场景(记为多设备场景14)中的手机101d和平板电脑102d，通过无线网络互连，并分别部署在距离用户0.3m和0.6m的位置上。此时，手机101d被用户手持，平板电脑102d被闲置在桌面上。其中，平板电脑102d处于外放音频的状态，且具备内部噪声降噪(即降噪能力)或AEC能力。因此，在该场景中可以主要考虑平板电脑102d的内部噪声对多设备场景中协同拾音的拾音效果的影响。

图11是图10示出的多设备场景具体的协同处理语音的方法的流程，包括：

步骤1101-步骤1102，与上述步骤401-步骤402类似，相同之处不作赘述。

区别在于，多设备场景14中通过无线网络互连的电子设备由手机101c、平板电脑102c、智能电视103c变为手机101d和平板电脑102d。

步骤1103：手机101d和平板电脑102d选举出手机101d作为应答设备及拾音设备。

步骤1104：手机101d拾取用户说出的语音指令所对应的第二语音数据。

其中，上述步骤1103-步骤1104与上述步骤403-404类似，区别在于，步骤1103中协同应答选举得到应答设备之后，可以直接决策应答设备为拾音设备，而无需执行上述实施例中依据拾音选举策略选举拾音设备的步骤。即应答设备和拾音设备相同，如均为手机101d。

步骤1105：手机101d从手机101d和平板电脑102d中查询出正在外放音频的平板电脑102d，作为内部噪声设备共享降噪信息。

上述步骤1105与步骤906类似，区别在于，步骤1105中应答设备查询出共享降噪信息的内部噪声设备(平板电脑102d)与拾音设备(手机101d)不同。因此，本实施例中，增加了步骤1106来实现内部噪声设备向拾音设备(即手机101d)共享降噪信息。

此外，可以理解，在一些实施例中，平板电脑102d作为应答设备查询出手机101d为内部噪声设备之后，可以向手机101d发送降噪指示，使得手机101d根据该降噪指示向作为拾音设备的平板电脑102d共享降噪信息。

步骤1106：平板电脑102d向手机101d发送平板电脑102d的降噪信息。

可以理解，通过平板电脑102d向手机101d共享降噪信息，可以实现跨设备共享外放音频的音频数据本身和/或该音频对应的VAD信息，有效聚合了多个配备麦克风模组和语音助手的电子设备的外设资源。

具体地，平板电脑102d可以通过与手机101d之间的无线网络，将平板电脑102d的降噪信息发送给手机101d。

步骤1107：手机101d根据平板电脑102d的降噪信息，对拾音得到的第二语音数据进行降噪处理。

步骤1108：手机101d识别经过降噪处理后的第二语音数据。

步骤1109：手机101d根据识别结果响应用户的语音指令或者控制其他电子设备响应用户的语音指令。

其中，步骤1107至1109与上述步骤907至步骤909类似，区别在于，步骤1107中拾音设备(即手机101d)是通过其他设备(即平板电脑102d)的降噪信息，对自身拾取的语音对应的语音数据进行降噪处理的，实现了跨设备降噪处理。

例如，在多设备场景14中，针对用户说出唤醒词之后说出的语音指令“明天北京天气怎么样？”，手机101d直接拾取该语音指令对应的第二语音数据时，由于平板电脑102d外放的音频的影响导致该第二语音数据的质量较差，使得该第二语音数据可能被识别为“明天北京天天怎么样？”，即与用户实际的语音指令“明天北京天气怎么样？”不同。也即由于手机101d拾取的第二语音数据的质量较差导致后续第二语音数据的识别结果不准确。此时，由于手机101d可以通过平板电脑102d共享的降噪信息对拾取到的第二语音数据进行降噪处理，消除平板电脑102d外放的音频对手机101d拾音效果的影响。进而，使得经过降噪处理后的第二语音数据的质量较高，后续准确地将该第二语音数据识别为“明天北京天气怎么样？”。

可以理解，通过跨设备共享外放音频的音频数据本身和/或该音频对应VAD信息，辅助拾音设备在拾音过程中进行降噪处理，可以有效聚合多个配备麦克风模组和语音助手的电子设备的外设资源，进一步提升多设备场景中语音识别的准确率。

这样一来，本申请实施例中，多设备中选举出的拾音设备可以具备与用户间距离最近、与外部噪声源距离最远、具备内部噪声降噪能力等有利因素中的一种或多种。如此，可以缓解多设备场景中由于电子设备部署位置、内部噪声干扰或外部噪声干扰对语音助手拾音效果，以及语音识别准确率的影响，提升了用户交互体验和多设备场景中语音识别的环境鲁棒性。

图12示出了电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

例如，处理器110可以用于检测电子设备100是否拾取到用户说出的唤醒词或语音指令对应的语音数据，以及获取语音数据的声音信息、设备状态信息、麦克风模组信息等。另外，还可以根据各个电子设备的信息(如拾音选举信息或应答选举信息等)，执行上述应答设备选举、拾音设备选举或内部噪声设备查询等动作。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。例如，NPU可以支持电子设备100通过语音助手对拾音得到的语音数据进行识别。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

例如，上述天线1，天线2，移动通信模块150，无线通信模块160等模块，可以用于支持电子设备100向多设备场景下的其他电子设备发送语音数据的声音信息、设备状态信息等，具体为发送上述应答选举信息、拾音选举信息、降噪信息等。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。例如，显示屏194可以用于支持电子设备100显示响应用户的语音指令的应答界面，该应答界面中可以包括应答文本等信息。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。例如，外部存储卡可以用于支持电子设备100存储上述拾音选举信息，应答选举信息以及降噪信息等。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。例如，外部存储卡可以用于支持电子设备100存储上述拾音选举信息，应答选举信息以及降噪信息等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号，如将电子设备100接收到的用户语音转换为数字音频信号(即用户语音对应的语音数据)，或将通过语音助手采用TTS生成的音频转化为应答语音。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话，或者基于语音助手播放用户的语音指令对应的应答语音，如针对唤醒词的应答语音“我在”，或者针对语音指令“明天北京天气怎么样？”的应答语音“明天北京是晴天”。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风(即麦克风模组)170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号，如将用户说出的唤醒词或语音指令转化为电信号(即对应的语音数据)。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种基于多设备的语音处理方法，其特征在于，所述方法包括：

多个电子设备中的第一电子设备拾音得到第一待识别语音；

所述第一电子设备从所述多个电子设备中外放音频的第二电子设备接收与所述第二电子设备外放的音频相关的音频信息；

所述第一电子设备根据接收的所述音频信息对拾音得到的所述第一待识别语音进行降噪处理得到第二待识别语音。

2.根据权利要求1所述的方法，其特征在于，所述音频信息包括以下至少一项：所述外放音频的音频数据，所述音频对应的话音激活检测VAD信息。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述第一电子设备向所述多个电子设备中用于识别语音的第三电子设备发送所述第二待识别语音；或者

所述第一电子设备对所述第二待识别语音进行识别。

4.根据权利要求3所述的方法，其特征在于，在所述多个电子设备中的第一电子设备拾音得到第一待识别语音之前，所述方法还包括：

所述第一电子设备向所述第三电子设备发送所述第一电子设备的拾音选举信息，其中所述第一电子设备的拾音选举信息用于表示所述第一电子设备的拾音情况；

所述第一电子设备为所述第三电子设备基于获取的所述多个电子设备的拾音选举信息从所述多个电子设备中选举出的用于拾音的电子设备。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述第一电子设备接收所述第三电子设备发送的拾音指令，其中，所述拾音指令用于指示所述第一电子设备拾音并向所述第三电子设备发送降噪处理后的待识别语音。

6.根据权利要求4或5所述的方法，其特征在于，所述拾音选举信息包括以下至少一项：回声消除AEC能力信息，麦克风模组信息，设备状态信息，拾音得到的对应唤醒词的语音信息，拾音得到的对应语音指令的语音信息；

其中，所述语音指令为拾音得到所述唤醒词之后拾音得到的；所述设备状态信息包括以下至少一项：网络连接状态信息、耳机连接状态信息、麦克风占用状态信息、情景模式信息。

7.一种基于多设备的语音处理方法，其特征在于，所述方法包括：

多个电子设备中的第二电子设备外放音频；

所述第二电子设备向所述多个电子设备中用于拾音的第一电子设备发送与所述音频相关的音频信息，其中，

所述音频信息能够被所述第一电子设备用于对所述第一电子设备拾音得到的待识别音频进行降噪处理。

8.根据权利要求7所述的方法，其特征在于，所述音频信息包括以下至少一项：所述音频的音频数据，所述音频对应的话音激活检测VAD信息。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

所述第二电子设备从所述多个电子设备中用于识别语音的第三电子设备接收共享指令；或者

所述第二电子设备从所述第一电子设备接收共享指令；

其中，所述共享指令用于指示所述第二电子设备向所述第一电子设备发送所述音频信息。

10.根据权利要求9所述的方法，其特征在于，在所述第二电子设备向所述多个电子设备中用于拾音的第一电子设备发送与所述音频相关的音频信息之前，所述方法还包括：

所述第二电子设备向所述第三电子设备发送所述第二电子设备的拾音选举信息，其中所述第二电子设备的拾音选举信息用于表示所述第二电子设备的拾音情况；

11.一种基于多设备的语音处理方法，其特征在于，所述方法包括：

多个电子设备中的第三电子设备监测到所述多个电子设备中存在正在外放音频的第二电子设备；

在所述第二电子设备与所述第三电子设备不同的情况下，所述第三电子设备向所述第二电子设备发送共享指令，其中所述共享指令用于指示所述第二电子设备向所述多个设备中用于拾音的第一电子设备发送与所述第二电子设备外放的音频相关的音频信息；

在所述第二电子设备与所述第三电子设备相同的情况下，所述第三电子设备向所述第一电子设备发送所述音频信息；

其中，所述音频信息能够被所述第一电子设备用于对所述第一电子设备拾音得到的第一待识别语音进行降噪处理得到第二待识别语音。

12.根据权利要求11所述的方法，其特征在于，所述音频信息包括以下至少一项：所述音频的音频数据，所述音频对应的话音激活检测VAD信息。

13.根据权利要求11或12所述的方法，其特征在于，所述第一电子设备与所述第三电子设备不同，并且所述方法还包括：

所述第三电子设备从第一电子设备获取由所述第一电子设备拾音得到的所述第二待识别语音；

所述第一电子设备对所述第二待识别语音进行识别。

14.根据权利要求13所述的方法，其特征在于，在所述第三电子设备向所述第二电子设备发送共享指令之前，所述方法还包括：

所述第三电子设备获取所述多个电子设备的拾音选举信息，其中所述多个电子设备的拾音选举信息用于表示所述多个电子设备的拾音情况；

所述第三电子设备基于所述多个设备的拾音选举信息，从所述多个电子设备中选举出电子设备作为所述第一电子设备。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

所述第三电子设备向所述第一电子设备发送拾音指令，其中，所述拾音指令用于指示所述第一电子设备拾音并向所述第三电子设备发送拾音得到的所述第二待识别语音。

16.根据权利要求14或15所述的方法，其特征在于，所述拾音选举信息包括以下至少一项：回声消除AEC能力信息，麦克风模组信息，设备状态信息，拾音得到的对应唤醒词的语音信息，拾音得到的对应语音指令的语音信息；

17.根据权利要求16所述的方法，其特征在于，所述第三电子设备基于所述多个电子设备的拾音选举信息，从所述多个电子设备中选举出至少一个电子设备作为所述第一电子设备，包括下列中的至少一项：

在所述第三电子设备处于预设网络状态的情况下，则所述第三电子设备将所述第三电子设备确定为所述第一电子设备；

在所述第三电子设备已连接耳机的情况下，则所述第三电子设备将所述第三电子设备确定为所述第一电子设备；

所述第三电子设备将所述多个电子设备中处于预设情景模式的电子设备中的至少一个确定为所述第一电子设备。

18.根据权利要求17所述的方法，其特征在于，所述第三电子设备基于所述多个电子设备的拾音选举信息，从所述多个电子设备中选举出至少一个电子设备作为所述第一电子设备，包括下列中的至少一项：

所述第三电子设备将所述多个电子设备中AEC生效的电子设备中的至少一个作为所述第一电子设备；

所述第三电子设备将所述多个电子设备中降噪能力大于满足预定降噪条件的电子设备中的至少一个作为所述第一电子设备；

所述第三电子设备将所述多个电子设备中与用户之间的距离小于第一预定距离的电子设备中的至少一个作为所述第一电子设备；

所述第三电子设备将所述多个电子设备中与外部噪声源之间的距离大于第二预定距离的电子设备中的至少一个作为所述第一电子设备。

19.根据权利要求17所述的方法，其特征在于，所述预设网络状态包括下列至少一项：网络通信速率小于或等于预定速率的网络，网络电线频次大于或等于预定频次；所述预设情景模式包括下列至少一项：地铁模式、飞行模式、驾驶模式、旅行模式。

20.根据权利要求11-19中任一项所述的方法，其特征在于，所述第三电子设备采用神经网络算法或决策树算法从所述多个电子设备中选举出所述第一电子设备。

21.一种语音处理系统，其特征在于，所述系统包括：第一电子设备和第二电子设备；

其中，所述第二电子设备在外放音频的的情况下，向用于拾音的所述第一电子设备发送与所述音频相关的音频信息；

所述第一电子设备用于拾音得到第一待识别语音，并根据从所述第二电子设备接收到的所述音频信息对拾音得到的所述第一待识别语音进行降噪处理得到第二待识别语音。

22.根据权利要求21所述的系统，其特征在于，所述系统还包括：第三电子设备；

所述第三电子设备用于获取多个电子设备的拾音选举信息，其中所述多个电子设备的拾音选举信息用于表示所述多个电子设备的拾音情况；并基于所述多个电子设备的拾音选举信息，从所述多个电子设备中选举出至少一个电子设备作为用于拾音的所述第一电子设备，其中所述第一电子设备、第二电子设备和所述第三电子设备均为所述多个电子设备中的电子设备，所述第三电子设备与所述第一电子设备相同或者不同；

所述第一电子设备还用于向所述第三电子设备发送所述第二待识别语音；并且

所述第三电子设备还用于对从所述第一电子设备获取的所述第二待识别语音进行识别。

23.一种计算机可读存储介质，其特征在于，所述存储介质上存储有指令，所述指令在计算机上执行时使所述计算机执行权利要求1至20中任一项所述的基于多设备的语音处理方法。

24.一种电子设备，其特征在于，包括：一个或多个处理器；一个或多个存储器；所述一个或多个存储器存储有一个或多个程序，当所述一个或者多个程序被所述一个或多个处理器执行时，使得所述电子设备执行权利要求1至20中任一项所述的基于多设备的语音处理方法。

25.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线；所述存储器用于存储至少一个指令，所述至少一个处理器、所述存储器和所述通信接口通过所述通信总线连接，当所述至少一个处理器执行所述存储器存储的所述至少一个指令，以使所述电子设备执行权利要求1至20中任一项所述的基于多设备的语音处理方法。