CN116962919A

CN116962919A - 拾音方法、拾音系统及电子设备

Info

Publication number: CN116962919A
Application number: CN202210690072.8A
Authority: CN
Inventors: 刘志韬; 刘鑫; 罗友; 向攀
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-04-14
Filing date: 2022-06-17
Publication date: 2023-10-27

Abstract

一种拾音方法、拾音系统及电子设备，涉及终端技术领域。能够让用户使用对应的拾音设备参与会议，并根据自己的发言需求等自行选择拾音方式，从而灵活地参与会议，这样可以满足会议现场不同位置的不同与会用户的发言需求。该方法中，参与多人互动的每个用户通过对应的拾音设备拾取多人互动场景中的声音。其中，每个拾音设备都包括多种拾音状态。拾音设备将处于不同拾音状态时拾取的声音发送给控制设备，控制设备再根据拾音设备当前的拾音状态，对声音进行处理。

Description

拾音方法、拾音系统及电子设备

本申请要求于2022年04月14日提交国家知识产权局、申请号为202210394291.1、发明名称为“分布式麦克风阵列拾音系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种拾音方法、拾音系统及电子设备。

背景技术

在多人会议的互动场景中，多个与会用户可以都在线下的同一个现场参与会议，或者一部分线上用户与一部分线下用户通过线上会议的方式参与会议。在参与多人会议时，会议现场通常设置麦克风等拾音设备来拾取线下用户的声音，这样每一个线下用户都可以听到其他线下用户的发言，并且线上用户也可以听到线下用户的发言。

当线下用户所处的会议现场空间较大，或者线下用户较多时，总有一些线下用户会距离麦克风比较远。这样，麦克风拾取的较远用户的声音信号的信噪比就比较低，从而较远用户的发言内容也会难以被其他用户听清楚且音质较差。

可见，目前这种在多人会议场景中的拾音方法难以满足会议现场不同位置的不同与会用户的拾音需求。

发明内容

本申请实施例提供一种拾音方法、拾音系统及电子设备，能够让用户使用对应的拾音设备参与会议，并根据自己的发言需求等自行选择拾音设备的拾音方式，从而灵活地参与会议，这样可以满足会议现场不同位置的不同与会用户的拾音需求。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供一种拾音方法，该方法可以应用于拾音系统中。拾音系统可以包括多个拾音设备，其中具体包括第一设备和可拾取到第一设备所在位置声音的第二设备。在该方法中，第一设备和第二设备可以组成用于形成混音的拾音网络。其中，第一设备可以响应于第一用户的第一操作，被配置为非静音状态并拾取第一声音；第二设备可以响应于第二用户的第二操作，被配置为静音状态并拾取第二声音。而后，当第一声音和第二声音混合后的混音被播放时，混音中第二设备对应的目标声音被减弱或被去除，其中，第二声音包括第二设备对应的目标声音，目标声音可以是第二用户的声音。

上述方法中，第一设备和第二设备都可以是包括多种拾音状态的近端设备，第一用户和第二用户可以是处于同一个空间内可以面对面的用户，也可以是同一个用户，例如第一用户和第二用户可以同处于一个会议现场，一个会议室等。这种多人互动场景即为多人线下互动的场景。此时，第一设备和第二设备在同一个空间中可以组成一个拾音网络，并且第一设备和第二设备可以分别在各自的拾音范围内拾取声音。无论是哪一个用户，都可以操作对应的拾音设备从而控制拾音设备处于对应的拾音状态。不论在哪一种拾音状态下，拾音设备都会拾取声音，拾音的具体是哪种声音由其对应的拾音状态而确定。

拾音状态包括静音状态和非静音状态。如果第一用户想要发言，可以选择将对应的第一设备调整为非静音状态，此时第一设备可以拾取到近场声音或者全场声音；第二用户想要静音，可以选择将对应的第二设备调整为静音状态，此时第二设备也会拾取声音，并且拾取的声音中包括第二用户的声音。由于第二用户想要静音，因此，为了让其他用户通过对应的拾音设备无法听到第二用户的声音，当第一设备拾取的声音和第二设备拾取的声音混合并播放时，需要从混音中去除或者减弱第二用户的声音。这样，其他设备在播放混音时，就无法听到或者听清楚第二用户的声音。

本申请上述这种拾音方法，无需额外配置或者过多配置用于拾音的麦克风等设备，也无需浪费过多的时间对麦克风进行调试，从而能够快速和低成本地完成每次多人互动，并且也能满足参与多人互动场景中不同位置的不同用户的拾音需求。另外，用户选择静音时，该用户的声音也不会被播放出去，其他用户使用对应的拾音设备也无法听到该用户的声音，进而也可以减少用户小声讨论时的声音对其他用户发言的影响。

在第一方面的一种可实现方式中，上述拾音系统中还可以包括控制设备。其中，控制设备可以是上述拾音系统中的任意一个拾音设备，或者也可以是云端设备。

当控制设备是上述拾音系统中的任意一个拾音设备时，控制设备可以是第一设备，也可以是第二设备。第一设备在拾取到第一声音后，会将第一声音和第一设备当前的非静音状态作为第一信息发送给控制设备。第二设备在拾取到第二声音后，也会将第二声音和第二设备当前的静音状态作为第二信息发送给控制设备。控制设备获取到第一信息和第二信息后，会在第一声音和第二声音混合后的混音中减弱或者去除第二设备对应的目标声音。这种实现方式中，可以由控制设备实现对声音的处理，而后，控制设备还可以播放处理后的声音。此时，使用控制设备的用户无法听到第二用户的声音。另外，如果使用控制设备的是第二用户，那么第二用户也不会听到自己的声音。从而上述拾音方法可以实现第二用户静音的目的。

当控制设备是云端设备时，第一设备和第二设备会分别将第一信息和第二信息发送给控制设备。控制设备获取到第一信息和第二信息后，会在第一声音和第二声音混合后的混音中减弱或者去除第二设备对应的目标声音。之后，控制设备再将处理后的声音发送给拾音系统中的其他用户或者其他拾音设备，从而使其他用户通过对应的拾音设备无法听到第二用户的声音，从而实现第二用户静音的目的。

在第一方面的一种可实现方式中，上述拾音系统中还可以包括作为拾音设备的第三设备。例如，拾音系统可以包括第一设备、第二设备和第三设备；或者拾音系统可以包括第一设备、第二设备、第三设备和控制设备。其中，第三设备可以是近端设备，也可以是远端设备。使用第三设备的第三用户可以与第一用户、第二用户处于同一个空间，也可以处于不同的空间。当第一设备处于非静音状态，第二设备处于静音状态时，第三设备可以接收并播放第一设备和第二设备拾取的混音，并且混音中并不包括第二用户的声音。所以，使用第三设备的第三用户则无法听到第二用户的声音，从而实现第二用户静音的目的。

在第一方面的一种可实现方式中，上述拾音方法可以应用于拾音设备接收到混音后直接播放的直播场景、会议场景等第一互动场景中，也可以应用于录音的第二互动场景中。其中，录音的第二互动场景中拾音设备接收到的混音，也可以是在直播场景、会议场景中拾取到的声音，与第一互动场景的区别仅在于，拾音设备接收到混音后，不会立即播放，而是会等到用户想要播放时再播放。

因此，在第一互动场景中，第三设备接收到减弱或者去除第二设备对应的目标声音的混音后，可以直接播放这个混音。而在第二互动场景中，第三设备接收到减弱或者去除第二设备对应的目标声音的混音后，可以先将这个混音以录音内容的形式保存。而后，在使用第三设备的第三用户想要播放录音内容时，第三设备可以响应于第三用户的选择播放声音的操作，播放这个混音。

或者，在第二互动场景中，第三设备接收到减弱或者去除第二设备对应的目标声音的混音后，也可以自动播放该混音，并且将该混音以录音内容的形式保存下来。而后用户在其他时间想要重新听取录音内容时，第三设备可以响应于用户选择播放声音的操作，再次播放这个混音。

可见，在上述这种实现方式中，无论该拾音方法应用于哪一种场景，用户都可以根据自己的拾取需求等选择对应的拾音设备的拾音状态。

在第一方面的一种可实现方式中，非静音状态可以包括全场拾音状态和近场拾音状态。那么第一设备可以响应于第一用户的第一操作，被配置为全场拾音状态或者配置为近场拾音状态。当第一设备处于近场拾音状态时，第一设备拾取到的第一声音即为第一用户的目标声音；当第一设备处于全场拾音状态时，第一设备拾取到的第一声音即为包括多个用户声音的全场声音。如果用户想要发言，用户可以将对应的拾音设备调整为近场拾音状态；如果用户没有特别的要求，那么用户可以将对应的拾音设备调整为全场拾音状态。

在第一方面的一种可实现方式中，第一设备还可以响应于第一用户的第三操作，被配置为近场拾音状态，并拾取第三声音。而第二设备还可以响应于第二用户的第四操作，被配置为全场拾音状态或者静音状态，并拾取第四声音。其中，第三操作和第四操作可以与前述的第一操作和第二操作相同。当第三声音和第四声音混合后的混音被播放时，第三设备对应的目标声音会被播放出来，第三设备对应的目标声音以外的其他声音会被减弱或者被去除，其中，第三声音包括第三设备对应的目标声音(例如第一用户的声音)。

从而，在第一设备被配置为近场拾音状态，第二设备被配置为全场拾音状态或者静音状态时，播放声音时都只会播放第一设备拾取到的第一用户的声音，或者主要播放第一用户的声音。从而使其他用户通过对应的拾音设备可以清楚地听到第一用户的声音。

示例性的，在第一设备被配置为近场拾音状态时，第一设备和第二设备都会将拾取到的声音发送给控制设备。控制设备获取到混音后，可以将第一设备拾取的第一用户的声音发送给第二设备、第三设备或者其他拾音设备，而可能不会将第二设备拾取的第二声音发送出去，或者将第二声音减弱后发送出去。从而使用第二设备、第三设备或者其他拾音设备的用户都只能听到第一用户的声音，或者主要听到第一用户的声音。从而实现第一用户发言的目的。

在第一方面的一种可实现方式中，上述第一操作可以是用户对于第一设备的拾音状态切换操作。其中，第一操作可以表示第一用户在第一设备上选择拾音状态的操作，或者表示第一用户改变第一设备的设备状态的操作，或者表示第一用户靠近第一设备的操作。另外，上述第二操作可以是用户对于第二设备的拾音状态切换操作，其具体的操作内容与第一操作的操作内容可以相同。拾音设备可以在当前的拾音状态下拾取声音。或者，在拾音设备与控制设备连接后，用户并未对拾音设备进行拾音状态的选择，那么拾音设备也可以在默认的拾音状态下拾取声音。这种实现方式中，用户可以根据自己的拾音需求通过多种方式使拾音设备进入对应的拾音状态，这样用户可以更加灵活地参与到的互动场景中。

在第一方面的一种可实现方式中，当第一操作表示第一用户改变第一设备的设备状态的操作时，用户通过第一操作可以将第一设备的设备状态改变为横屏状态、竖屏状态、耳机接入状态或耳机未接入状态等。第一设备可以响应于第一用户改变第一设备的设备状态的操作，在第一设备处于竖屏状态的情况下，被配置为近场拾音状态；或者，在第一设备处于耳机接入状态的情况下，被配置为近场拾音状态。这种实现方式中，用户在想要发言时，可以通过改变拾音设备的设备状态来选择近场拾音状态，拾音设备处于近场拾音状态下，拾取的声音质量较高，从而发送给其他拾音设备播放时，使用其他拾音设备的用户可以听清楚发言用户的发言内容。

在第一方面的一种可实现方式中，当第一操作表示第一用户靠近第一设备的操作时，用户可以通过靠近第一设备来改变第一设备的拾音状态。第一设备响应于第一用户靠近第一设备的操作，在第一设备的拾音音量大于或者等于预设拾音音量的情况下，被配置为近场拾音状态。或者，在第一设备的底部麦克风与顶部麦克风的拾音音量差大于或者等于预设音量差的情况下，被配置为近场拾音状态。这种实现方式中，用户在想要发言时，可以通过靠近拾音设备来选择即近场拾音状态，拾音设备处于近场拾音状态下，拾取的声音质量较高，从而发送给其他拾音设备播放时，使用其他拾音设备的用户可以听清楚发言用户的发言内容。

在第一方面的一种可实现方式中，当第一操作表示第一用户靠近第一设备的操作时，第一设备还可以响应于第一用户靠近第一设备的操作，在第一用户与第一设备的第一距离小于或者等于第一预设距离的情况下，被配置为近场拾音状态。这种实现方式中，用户在想要发言时，同样可以通过靠近拾音设备来选择即近场拾音状态，进而使用其他拾音设备的用户可以听清楚发言用户的发言内容。

在第一方面的一种可实现方式中，如果第一设备处于耳机接入状态，那么第一设备可以直接利用耳机拾取第一声音。此时，第一设备只作为控制耳机的设备和切换拾音状态的设备使用，并不会拾取声音。

在第一方面的一种可实现方式中，如果第一设备处于全场拾音状态，第二设备处于静音状态，那么控制设备在从第一设备拾取的全场声音和第二设备拾取的第二声音的混音中减弱或者去除第二声音中的目标声音之后，还可以对减弱或者去除目标声音后的混音进行对象化处理，从而获得第一设备和第二设备对应的多个用户的声音。这样，混音在播放时，收听混音的用户可以听清楚多个用户中每个用户的声音。

在第一方面的一种可实现方式中，如果第一设备处于全场拾音状态，第二设备也处于全场拾音状态，那么第一设备和第二拾取的都是全场声音(即第一声音是全场声音，第二声音也是全场声音)。控制设备在接收到第一设备和第二设备发送的混音(包括第一声音和第二声音)后，也可以对这个混音进行对象化处理，从而获得第一设备和第二设备对应的多个用户的声音。这样，混音在播放时，收听混音的用户可以听清楚多个用户中每个用户的声音。

在第一方面的一种可实现方式中，控制设备在对混音进行对象化处理时，还可以对第一设备和第二设备的拾音质量进行打分。然后获取拾音质量分数大于或者等于预设分数的第一数量的拾音设备，其中第一数量的拾音设备包括至少一个第一设备和/或第二设备。最后，对混音中的第一数量的拾音设备拾取的混音进行对象化处理，从而获取第一数量的拾音设备对应的多个用户的声音。这种实现方式中，控制设备可以仅处理预设数量或者第一数量的拾音设备拾取的声音，从而减少控制设备处理数据的计算量或者处理量，同时也可以获得较高质量的声音。

在第一方面的一种可实现方式中，控制设备还可以对经过对象化处理后获得的多个用户的声音分别进行响度增强处理，从而拾音设备播放的多个用户对应的声音的音量都是相同的，或者音量都是大于或者等于预设音量阈值的，从而让多个用户中的每个用户的发言内容都可以被清楚地听到。

第二方面，提供一种拾音系统，该拾音系统包括第一设备和可拾取到第一设备所在位置声音的第二设备。第一设备被配置为：与第二设备组成用于形成混音的拾音网络；第二设备被配置为：与第一设备组成用于形成混音的拾音网络。第一设备还被配置为：响应于第一用户的第一操作，处于非静音状态，以及拾取第一声音；第二设备还被配置为：响应于第二用户的第二操作，处于静音状态，以及拾取第二声音；当第一声音和第二声音混合后的混音被播放时，混音中第二设备对应的目标声音被减弱或被去除，其中，第二声音包括第二设备对应的目标声音。

上述拾音系统中的第一设备和第二设备都可以是包括多种拾音状态的近端设备，第一用户和第二用户可以是处于同一个空间内可以面对面的用户，也可以是同一个用户，例如第一用户和第二用户可以同处于一个会议现场，一个会议室等。这种多人互动场景即为多人线下互动的场景。

在第二方面的一种可实现方式中，拾音系统还包括控制设备；控制设备被配置为：获取第一设备的第一信息，并获取第二设备的第二信息。其中，第一信息包括第一设备拾取的第一声音和第一设备的非静音状态；第二信息包括第二设备拾取的第二声音和第二设备的静音状态；在第一声音和第二声音混合后的混音中减弱或者去除第二设备对应的目标声音。从而实现第二用户静音的目的。

在第二方面的一种可实现方式中，控制设备为拾音系统中的任意一个拾音设备，例如第一设备或者第二设备，或者控制设备也可以为云端设备。

在第二方面的一种可实现方式中，拾音系统还包括第三设备；第三设备被配置为：接收减弱或者去除第二设备对应的目标声音后的混音，并播放减弱或者去除第二设备对应的目标声音后的混音。从而使用第三设备的用户(例如第三用户)无法听到第二用户的声音。

在第二方面的一种可实现方式中，第三设备还被配置为：自动播放减弱或者去除第二设备对应的目标声音后的混音；或者，响应于用户的选择播放声音的操作，播放减弱或者去除第二设备对应的目标声音后的混音。可见，上述拾音系统可以应用于拾音设备接收到混音后直接播放的直播场景、会议场景等第一互动场景中，也可以应用于录音的第二互动场景中。

在第二方面的一种可实现方式中，第一设备还被配置为：响应于第一用户的第一操作，处于全场拾音状态；或者，响应于第一用户的第一操作，处于近场拾音状态。在第一设备被配置为近场拾音状态时，第二设备无论是处于哪一种拾音状态，播放声音时都只会播放第一设备拾取到的第一用户的目标声音。从而实现第一用户发言的目的。

在第二方面的一种可实现方式中，第一操作表示第一用户在第一设备上选择拾音状态的操作，或者表示第一用户改变第一设备的设备状态的操作，或者表示第一用户靠近第一设备的操作。这样，用户可以根据自己的拾音需求通过多种方式使拾音设备进入对应的拾音状态，这样用户可以更加灵活地参与到的互动场景中。

在第二方面的一种可实现方式中，第一设备还被配置为：响应于第一用户改变第一设备的设备状态的操作，在第一设备处于竖屏状态的情况下，处于近场拾音状态；或者，在第一设备处于耳机接入状态的情况下，处于近场拾音状态。用户在想要发言时，可以通过改变拾音设备的设备状态来选择近场拾音状态，拾音设备处于近场拾音状态下，拾取的声音质量较高，从而发送给其他拾音设备播放时，使用其他拾音设备的用户可以听清楚发言用户的发言内容。

在第二方面的一种可实现方式中，第一设备还被配置为：响应于第一用户靠近第一设备的操作，在第一设备的拾音音量大于或者等于预设拾音音量的情况下，处于近场拾音状态；或者，在第一设备的底部麦克风与顶部麦克风的拾音音量差大于或者等于预设音量差的情况下，处于近场拾音状态。用户在想要发言时，可以通过靠近拾音设备来选择即近场拾音状态，拾音设备处于近场拾音状态下，拾取的声音质量较高，从而发送给其他拾音设备播放时，使用其他拾音设备的用户可以听清楚发言用户的发言内容。

在第二方面的一种可实现方式中，第一设备还被配置为：响应于第一用户靠近第一设备的操作，在第一用户与第一设备的第一距离小于或者等于第一预设距离的情况下，处于近场拾音状态。用户在想要发言时，同样可以通过靠近拾音设备来选择即近场拾音状态，进而使用其他拾音设备的用户可以听清楚发言用户的发言内容。

在第二方面的一种可实现方式中，第一设备还被配置为：在第一设备处于耳机接入状态的情况下，利用耳机拾取第一声音。

在第二方面的一种可实现方式中，控制设备还被配置为：当第一设备被配置为全场拾音状态时，对减弱或者去除第二设备对应的目标声音后的混音进行对象化处理，获得第一设备和第二设备对应的多个用户的声音。这样，混音在播放时，收听混音的用户可以听清楚多个用户中每个用户的声音。

在第二方面的一种可实现方式中，控制设备还被配置为：当第一设备被配置为全场拾音状态时，获取在混音中减弱或者去除第二设备对应的目标声音后的第一混音；对第一设备和第二设备的拾音质量进行打分；获取拾音质量分数大于或者等于预设分数的第一数量的拾音设备；第一数量的拾音设备包括至少一个第一设备和/或第二设备；对第一混音中的第一数量的拾音设备拾取的第二混音进行对象化处理，获取第一数量的拾音设备对应的多个用户的声音。这样，混音在播放时，收听混音的用户可以听清楚多个用户中每个用户的声音。

在第二方面的一种可实现方式中，控制设备还被配置为：对经过对象化处理后获得的多个用户的声音分别进行响度增强处理，从而拾音设备播放的多个用户对应的声音的音量都是相同的，或者音量都是大于或者等于预设音量阈值的，从而让多个用户中的每个用户的发言内容都可以被清楚地听到。

在第二方面的一种可实现方式中，第一设备还被配置为：响应于第一用户的第三操作，处于近场拾音状态，以及拾取第三声音；第二设备还被配置为：响应于第二用户的第四操作，处于全场拾音状态，以及拾取第四声音。以及，当第三声音和第四声音混合后的混音被播放时，第三设备对应的目标声音被播放出来，第三设备对应的目标声音以外的其他声音被减弱或者被去除，其中第三声音包括第三设备对应的目标声音。从而使用其他拾音设备的用户通过对应的拾音设备都只能听到第一用户的声音，或者主要听到第一用户的声音。

第三方面，提供一种拾音方法，该拾音方法应用于拾音系统中的控制设备，拾音系统还包括第一设备和可拾取到第一设备所在位置声音的第二设备，其中，第一设备和第二设备组成用于形成混音的拾音网络。该拾音方法包括：获取第一设备的第一信息，并获取第二设备的第二信息；第一信息包括第一设备响应于第一用户的第一操作在非静音状态下拾取的第一声音和第一设备的非静音状态；第二信息包括第二设备响应于第二用户的第二操作在静音状态下拾取的第二声音和第二设备的静音状态；在第一声音和第二声音混合后的混音中减弱或者去除第二设备对应的目标声音，其中，第二声音包括第二设备对应的目标声音。

在第三方面的一种可实现方式中，上述非静音状态包括近场拾音状态和全场拾音状态。第一设备可以响应于用户的操作处于近场拾音状态或者全场拾音状态。

在第三方面的一种可实现方式中，当第一设备处于全场拾音状态时，控制设备可以对减弱或者去除第二设备对应的目标声音后的混音进行对象化处理，获得第一设备和第二设备对应的多个用户的声音。

在第三方面的一种可实现方式中，当第一设备处于全场拾音状态时，控制设备获取在混音中减弱或者去除第二设备对应的目标声音后的第一混音；对第一设备和第二设备的拾音质量进行打分；获取拾音质量分数大于或者等于预设分数的第一数量的拾音设备；第一数量的拾音设备包括至少一个第一设备和/或第二设备；对第一混音中的第一数量的拾音设备拾取的第二混音进行对象化处理，获取第一数量的拾音设备对应的多个用户的声音。

在第三方面的一种可实现方式中，控制设备还可以对经过对象化处理后获得的多个用户的声音分别进行响度增强处理。

在第三方面的一种可实现方式中，当第一设备被处于近场拾音状态，第二设备处于全场拾音状态或者静音状态时，控制设备可以将第一设备拾取的第一用户的声音发送给第二设备、第三设备或者其他拾音设备，而可能不会将第二设备拾取的第二声音发送出去，或者将第二声音减弱后发送出去。从而其他拾音设备播放混音时，都只会播放第一设备拾取到的第一用户的声音，或者主要播放第一用户的声音。其他用户通过对应的拾音设备可以清楚地听到第一用户的声音，从而实现第一用户发言的目的。

第四方面，提供一种电子设备，电子设备包括存储器、一个或多个处理器；存储器与处理器耦合；其中，存储器中存储有计算机程序代码，计算机程序代码包括计算机指令，当计算机指令被处理器执行时，使得电子设备执行如第一方面任一实现方式中的拾音方法，或者执行如第三方面任一实现方式中的拾音方法。

第五方面，提供一种计算机可读存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面任一实现方式中的拾音方法，或者执行如第三方面任一实现方式中的拾音方法。

第六方面，提供计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面任一实现方式中的拾音方法，或者执行如第三方面中任一实现方式中的拾音方法。

可以理解地，上述提供的第二方面所述的拾音系统，第三方面所述的拾音方法，第四方面所述的电子设备，第五方面所述的计算机可读存储介质，第六方面所述的计算机程序产品所能达到的有益效果，可参考第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例示出的一种线下会议的场景示意图；

图2为本申请实施例示出的一种线上会议的场景示意图；

图3为本申请实施例示出的一种声音信号反射时的振幅示意图；

图4为本申请实施例示出的一种拾音系统的结构示意图；

图5为本申请实施例示出的一种电子设备的硬件结构示意图；

图6为本申请实施例示出的一种电子设备的软件结构示意图；

图7为本申请实施例示出的一种多人会议场景示意图；

图8为本申请实施例示出的一种通过扫描二维码接入会议的示意图；

图9为本申请实施例示出的一种声音处理过程的示意图；

图10为本申请实施例示出的一种第一设备处于全场拾音状态的示意图；

图11为本申请实施例示出的一种深度神经网络的结构示意图；

图12为本申请实施例示出的又一种声音处理过程的示意图；

图13为本申请实施例示出的一种手机处于近场拾音状态的示意图；

图14为本申请实施例示出的一种手机处于近场拾音状态时的声音信号振幅示意图；

图15为本申请实施例示出的又一种手机处于近场拾音状态的示意图；

图16为本申请实施例示出的一种电脑处于近场拾音状态的示意图；

图17为本申请实施例示出的又一种手机处于近场拾音状态的示意图；

图18为本申请实施例示出的又一种手机处于近场拾音状态的示意图；

图19为本申请实施例示出的又一种手机处于近场拾音状态时的声音信号振幅示意图；

图20为本申请实施例示出的一种手机处于静音状态的示意图；

图21为本申请实施例示出的一种手机处于静音状态时的声音信号振幅示意图；

图22为本申请实施例示出的又一种手机处于静音状态的示意图；

图23为本申请实施例示出的又一种手机处于静音状态的示意图；

图24为本申请实施例示出的一种电脑处于静音状态的示意图；

图25为本申请实施例示出的又一种深度神经网络的结构示意图；

图26为本申请实施例示出的又一种声音处理过程的示意图；

图27为本申请实施例示出的又一种声音处理过程的示意图；

图28为本申请实施例示出的又一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。同时，在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

目前，随着用户工作和娱乐需求的增加，越来越多的互动功能可以被用户选择。互动功能中包括多人互动功能，即用户可以参与到多人互动中，与其他用户一起进行会议和娱乐活动等。其中，多人互动功能对应的多人互动场景可以是多人参与的会议、互动直播、互动课堂、互动唱歌等互动场景。以多人会议的互动场景为例，与会人员可以全部在会议现场等参与线下会议。例如在图1所示的线下会议场景中，多个用户在同一个会议现场参与会议，每个用户可以发言并且可以听到其他用户的发言内容，还可以通过现场的大屏设备(例如电视、投影仪等)观看到具体的会议内容。

或者，与会人员也可以一部分在会议现场参与会议，而另一部分通过线上的会议链接等进入会议，从而实现处于不同空间的与会人员共同参与线上会议。例如在图2所示的线上会议场景中，远端的线上用户(可以理解为第一部分用户)和近端的线下用户(可以理解为第二部分用户)可以分别用来表示处于不同空间的用户。线上用户即使和线下用户不在同一个会议现场(即同一个空间)，也可以通过线上会议的方式与线下用户共同参与会议，线上用户和线下用户都可以听到与会用户在会议现场的发言内容或者在线上的发言内容等。线下用户可以通过现场的大屏设备观看到具体的会议内容，线上用户可以通过网络链接同步观看到大屏设备上具体的会议内容等。其中，在一些实施例中，近端的拾音设备可以是在同一个会议室等同一空间的拾音设备；在一些实施例中，远端的拾音设备可以是在不同会议室等不同空间的拾音设备；在一些实施例中，近端的拾音设备可以是相互可以拾取到对方声音的拾音设备；在一些实施例中，远端的拾音设备可以是相互不可以拾取到对方声音的拾音设备；在一些实施例中，近端的线下用户可以是互相可以面对面沟通的用户，即互相可以听见对方说话的用户；在一些实施例中，远端的线下用户可以是互相不可以面对面沟通的用户，即互相可不以听见对方说话的用户；在一些实施例中，近端的线下用户可以是能够被控制设备拾取声音的用户；在一些实施例中，远端的线下用户可以是不能够被控制设备拾取声音的用户；在一些实施例中，近端的拾音设备可以是近端的线下用户的设备；在一些实施例中，远端的拾音设备可以是远端的线下用户的设备。

上述图2所示的多人会议可以是虚拟会议，例如VR(virtual reality，虚拟现实)会议等。在虚拟会议中，上述图2中所示的线下用户1-线下用户4以及线上用户中的部分或全部可以通过佩戴头显设备来参与会议，并且头显设备包括麦克风，从而用户可以通过麦克风进行发言。

上述图2所示的多人会议也可以是普通会议，即在会议现场设置麦克风等拾音设备来拾取线下用户的声音，这样每一个线下用户都可以听到其他线下用户的发言内容，并且线上用户也可以听到线下用户的发言内容。

在图2所示的多人会议是普通会议的情况下，当线下用户所处的会议现场空间较大，或者线下用户较多时，总有一些线下用户会距离麦克风比较远。例如图2中所示，线下用户1和线下用户2距离麦克风比较近，而线下用户3和线下用户4距离麦克风比较远。这种情况下，如果线下用户3或者线下用户4发言，那么麦克风拾取到的线下用户3或者线下用户4的声音信号的信噪比比较低；并且，线下用户3或者线下用户4的声音信号在会议现场经过多径反射，声音信号反射过程中，会议现场的建筑材料对声音信号的高频成分吸收率较高，从而导致线下用户3或者线下用户4等声音信号的高频成分丢失严重，具体可参见图3。高频成分丢失后的声音信号清晰度和可懂度都比较差，这样，其他线下用户和/或线上用户可能听不清线下用户3或者线下用户4的发言内容。

目前，为了能使全部的与会人员都能听清楚线下用户的发言内容，保证上述多人会议中的声音质量，通常在会议现场设置多个麦克风，分别对应不同的方位拾音。这样，即使会议现场空间较大，或者线下用户较多，由于麦克风较多，可以保证每个线下用户都对应一个距离比较近的麦克风，从而减少线下用户声音信号的在会议现场的反射，减少声音信号的高频成分丢失的情况，使得每个线下用户的发言内容都可以被其他线下用户和/或线上用户听清楚。

然而，上述这种设置多个麦克风的拾音方式中，每个麦克风在会议之前都要进行调试。这样不但会增加举办会议的成本，而且多次调试麦克风也会增加会议的准备时间，从而降低举办会议的效率，难以满足突发性和实时性要求。

另外，上述这种设置多个麦克风的拾音方式中，每个麦克风在会议开始后，会一直拾取现场不同方位的声音。如果会议现场有线下用户在小声议论，而并不想发言，那么这种拾音方式难以满足这些线下用户的需求，仍会拾取线下用户小声议论的声音，从而影响其他线下用户和/或线上用户的发言。

基于上述内容，本申请实施例中提供了一种拾音方法。该方法中，参与多人互动的每个用户都可以对应于一个拾音设备，并通过拾音设备拾取多人互动场景中的声音。其中，每个拾音设备都包括多种拾音状态，拾音设备将处于不同拾音状态时拾取的声音发送给控制设备，控制设备再根据拾音设备当前的拾音状态，对声音进行处理，从而使多人互动场景中的用户能听到处理后的声音。该方法中，参与多人互动的每个用户都可以根据自己的拾音需求选择对应的拾音设备的拾音状态，比如拾音设备可以是用户自己方便携带的用户设备。这样无需额外配置或者过多配置用于拾音的麦克风等设备，也无需浪费过多的时间对麦克风进行调试，从而能够快速和低成本地完成每次多人互动，并且也能满足参与多人互动中不同位置的不同用户的拾音需求。

另外，用户可以根据自己的拾音需求选择对应的拾音设备的拾音状态，这样在用户小声讨论时，也可以通过选择对应拾音状态的方式，使得控制设备不会将该用户的声音发送出去，进而也可以减少用户小声讨论时的声音影响其他用户的发言等。

本申请实施例中提供的拾音方法可以应用于拾音系统中。示例性的，参见图4，该拾音系统可以包括多人互动场景中每个用户对应的拾音设备和作为中枢设备的控制设备等。其中，拾音设备可以是具有拾音功能的电子设备，例如手机、平板电脑、笔记本电脑、头戴式显示设备(例如虚拟现实设备、增强现实设备或混合现实设备等)、或者连接有便携的拾音装置(例如有线耳机、蓝牙耳机等)的手机、平板电脑或笔记本电脑等。控制设备可以是具有音频处理功能和数据处理功能的电子设备，例如会议盒子、电视、投影仪等。本申请实施例对拾音设备和控制设备的具体形式不做特殊限制。在一些实施例中，上述拾音设备可以是用户随身携带的设备。此外，控制设备还可以是任意一个拾音设备或者云端设备。

在一些实施例中，该拾音系统中还可以包括服务器，并且服务器可以分别与用于拾音的设备和控制设备连接。控制设备可以通过服务器将处理后的声音发送给拾音设备。

在如图4所示的拾音系统中，每个拾音设备都可以包括三种拾音状态，其中，第一拾音状态为近场拾音状态，第二拾音状态为全场拾音状态，第三拾音状态为静音状态。多人互动场景中的用户包括第一用户、第二用户、第三用户……等，各用户对应的拾音设备包括第一设备、第二设备、第三设备……等。

当第一用户对应的第一设备处于近场拾音状态时，由第一用户对应的第一设备拾取第一声音，并将第一声音发送给控制设备。同时，其他用户对应的第二设备、第三设备等也会在对应的拾音状态下拾取声音并将声音发送给控制设备。因此，控制设备可以接收到多个设备发送的声音。由于第一设备处于近场拾音状态，因此第一设备拾取的第一声音可以看作是第一用户的目标声音。之后，控制设备可以将目标声音发送给除了第一用户以外的其他用户(例如第二用户、第三用户……)。这种情况下，当混合的声音被播放出来时，只能听到第一用户的发言内容。在一些实施例中，近场拾音状态可以表示拾音设备中的一个或多个麦克风可以通过配置(例如配置波束方向)，实现拾音设备的定向拾音(例如对特定方向进行拾音)，以更好的拾取第一用户的声音。

当第一用户对应的第一设备处于全场拾音状态时，由第一用户对应的第一设备拾取第一声音，并将第一声音发送给控制设备。同时，其他用户对应的第二设备、第三设备等也会在对应的拾音状态下拾取声音并将声音发送给控制设备，控制设备也可以接收到多个设备发送的声音。由于第一设备处于全场拾音状态，因此第一设备不仅可以拾取第一用户的目标声音，也可以拾取其他用户(例如第二用户、第三用户……)的声音，从而拾取到全场声音，此时，第一声音可以看作是全场声音。之后，控制设备将全场声音发送给第一用户和其他用户。这种情况下，当混合的声音被播放出来时，能听到第一用户对应的第一设备拾取到的每一个用户的发言内容。

上述全场拾音状态表示拾音设备可以在最大拾音范围内拾取声音。例如，拾音设备中的麦克风可以在麦克风所能接收声音的最大范围内拾音声音。在一些实施例中，全场拾音状态可以表示拾音设备中的一个或多个麦克风可以通过配置(例如配置波束方向)，实现拾音设备的全向拾音(例如360°拾音或全方位拾音)，以拾取所有的声音。在一些实施例中，全场拾音状态可以表示拾音设备中的一个或多个麦克风可以通过配置(例如配置波束方向)，实现拾音设备的定向拾音，以方便的使得每个用户的声音均可以单独的拾取，方便对各路音轨进行单独处理，方便地对混合的声音进行处理。

当第一用户对应的第一设备处于静音状态时，由第一用户对应的第一设备拾取第一声音，并将第一声音发送给控制设备。由于第一设备处于静音状态，因此控制设备可以将第一用户的目标声音从其他用户(例如第二用户、第三用户……)对应的拾音设备(例如第二设备、第三设备……)发送的混合的声音中去除，控制设备再将去除目标声音后的混合声音发送给第一用户和其他用户。这种情况下，其他用户听不到第一用户的发言内容。

上述静音状态与单个拾音设备静音状态的区别在于：在单个拾音设备的静音状态下，单个拾音设备不会拾取声音，从而达到静音的目的；而在本申请实施例上述的静音状态下，拾音设备会拾音对应用户的声音，并将该声音发送给控制设备，之后控制设备再将该声音从其他声音中去除，而其他声音还可以被播放出来，从而达到静音该声音的目的。

在一些实施例中，拾音设备中用于拾音的麦克风等本身就可以具有多种拾音方式，从而可以在不同拾音状态下拾取声音。例如，全场拾音状态下，麦克风可以全方位拾取声音波束，从而使拾音设备拾取到全场声音；近场拾音状态下，麦克风可以定向拾取声音波束，从而使拾音设备拾取到近场声音(例如第一用户的声音)；静音状态下，麦克风也可以定向拾取声音波束，从而使拾音设备拾取到目标声音，并将该目标声音发送给控制设备，使控制设备将目标声音从其他拾音设备拾取到的混合声音中去除。

在一些实施例中，上述控制设备也可以是用户随身携带的具有音频处理功能和数据处理功能的设备，例如笔记本电脑等。基于此，上述拾音系统中的某一个拾音设备就可以作为控制设备使用，即拾音设备也可以作为中枢设备或者组网设备。

在一些实施例中，上述拾音系统中还可以使用云端设备或者服务器等直接或间接接收拾音设备拾取到的声音，并对声音进行音频处理和/数据处理等，并将处理后的声音发送给使用拾音设备的用户。即，拾音系统中也可以无需设置控制设备。

在一些实施例中，混合的声音为各拾音设备或控制设备播放出来的声音，例如，混合的声音可以为对象化处理后的声音。

以多人会议的互动场景为例，本申请实施例中提供的拾音方法，可以利用与会人员对应的拾音设备，进行声音的拾取，而无需另外配置单独的麦克风等拾音装置，也无需耗费过多的时间对麦克风等拾音装置进行调试，这样既能减少举办会议的开销，也能提高举办会议的效率。并且，由于与会人员对应的拾音设备可以支持多种拾音状态，那么与会人员可以根据自己的需求选择拾音设备的拾音状态，从而更加灵活地参与会议，并且也能满足多人会议中不同位置的不同与会人员的拾音需求。另外，与会人员也能在小声议论或者无需发言等场景中选择静音，从而减少小讨论对其他与会人员发言的影响，也能保证自己的隐私需求。

本申请实施例提供的拾音方法，可以应用于上述拾音设备、控制设备等电子设备中。

图5示出了电子设备100的硬件结构示意图。示例性的，图5所示的电子设备100可以是第一设备，也可以是第二设备。如图5所示，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriberidentification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，加速度传感器180E，接近光传感器180G等。

可以理解的是，本实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serialbus，USB)接口等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。电源管理模块141用于连接电池142，充电管理模块140与处理器110。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobi lecommunications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband codedivision multiple access，WCDMA)，时分码分多址(time-division code divisionmultiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenithsatellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。SP用于处理摄像头193反馈的数据。在一些实施例中，ISP可以设置在摄像头193中。摄像头193用于捕获静态图像或视频。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。

示例性的，当电子设备100是上述实施例中的拾音设备时，拾音设备与控制设备连接，组成一个拾音系统。拾音设备的处理器110可以通过运行存储在内部存储器121的指令，从而拾取拾音设备外部的声音，例如拾取前述第一用户的目标声音、其他用户的声音等。以及，将拾取到的声音发送给控制设备。

示例性的，当前电子设备100是上述实施例中的控制设备时，控制设备的处理器110可以通过运行存储在内部存储器121的指令，从而对接收到的声音进行对象化、响度增强、音效等处理，并将经过处理获得的声音发送给服务器。

内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，电子设备100可以通过扬声器170A播放参与多人互动的用户的声音。例如，当多人互动场景是上述实施例中的多人会议时，扬声器170A可以播放与会人员的发言内容等。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，受话器170B可以在电子设备100处于近场拾音状态下，拾取使用电子设备100的第一用户的目标声音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。在一些实施例中，可以部分麦克风为全向麦克风(全向麦克风可以全向拾音)，部分麦克风为定向麦克风(全向麦克风可以定向拾音)。在一些实施例中，还可以全部麦克风为定向麦克风。在一些实施例中，电子设备100的一个或多个麦克风可以通过配置，使得电子设备100可以实现全向拾音或定向拾音。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，麦克风170C可以在电子设备100处于全场拾音状态下，拾取参与多人互动的每个用户的声音。例如，当多人互动场景是上述实施例中的多人会议时，麦克风170C可以拾取每个与会人员的声音，从而拾取到全场声音。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，耳机接口170D可以接入耳机等便携的拾音装置，从而使电子设备100处于近场拾音状态，从而通过耳机等拾音装置拾取使用电子设备100的第一用户的声音。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，压力传感器180A可以检测用户触摸功能图标或者功能控件的操作强度，从而控制电子设备100处于全场拾音状态、近场拾音状态或者静音状态等。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，加速度传感器180E可以检测出电子设备100当前是否是竖屏状态。如果是竖屏状态，那么可以看作是电子设备100处于近场拾音状态。而如果不是竖屏状态，那么可以看作是电子设备100处于全场拾音状态。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，接近光传感器180G可以检测多人互动场景中，电子设备100的附近是否有物体，例如用户等。如果有用户，可以看作是电子设备100处于近场拾音状态。而如果没有用户，可以看作是电子设备100处于全场拾音状态。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。

基于图5所示的电子设备100实现本申请实施例中的拾音方法。以上述多人会议场景为例，拾音设备可以通过预设的会议接入方式与控制设备连接，并组成一个拾音系统。其中，会议接入方式包括二维码接入、会议链接接入等。拾音设备通过压力传感器180A、加速度传感器180E、接近光传感器180G等检测拾音设备的拾音状态。

当拾音设备处于全场拾音状态时，拾音设备可以通过麦克风170C拾取每个与会人员的声音，并将拾取到的声音发送给控制设备。控制设备将每个拾音设备拾取到的全场声音发送给每个与会人员对应的拾音设备，以使拾音设备通过扬声器170A等播放全场声音，从而每个与会人员的发言内容都可以被听到。

当拾音设备处于近场拾音状态时，拾音设备可以通过受话器170B、耳机等拾取使用拾音设备的第一用户的目标声音，并将拾取到的目标声音发送给控制设备。控制设备再将目标声音发送除了第一用户以外的其他与会人员对应的拾音设备，以使其他与会人员对应的每个拾音设备通过扬声器170A等播放目标声音，从而每个其他与会人员都可以听到第一用户的发言内容。

当拾音设备处于静音状态时，拾音设备可以通过受话器170B、耳机等拾取使用拾音设备的第一用户的目标声音，并将拾取到的目标声音发送给控制设备，以及其他的拾音设备也将拾取到的全场声音发送给控制设备。控制设备通过处理器110将第一用户的声音从全场声音中去除，并将处理后的全场声音发送给每个与会人员对应的拾音设备，以使每个拾音设备通过扬声器170A等播放去除目标声音之后的全场声音，从而使每个使用拾音设备的用户都听不到第一用户的发言内容。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图6是本实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图6所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，电子设备100的应用程序层还可以包括提供多人互动功能的会议应用程序、直播应用程序、课堂应用程序等。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图6所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，电子设备100的视图系统还可以包括用于切换拾音状态的功能控件等。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android Runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，电子设备100的系统库还可以包括音频处理模块、数据处理模块等。从而电子设备100使用音频处理模块或者数据处理模块等对声音进行对象化、响度增强、音效处理等。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

示例性的，当电子设备100是上述实施例中的拾音设备和/或控制设备时，电子设备100的内核层还可以包含麦克风170C驱动、受话器170B驱动、扬声器170A驱动、压力传感器180A驱动、加速度传感器180E驱动、接近光传感器180G驱动等。

基于图6所示的电子设备100实现本申请实施例中的拾音方法。以上述多人会议场景为例，拾音设备可以通过预设的会议接入方式与控制设备连接，从而组成一个拾音系统。其中，会议接入方式包括二维码接入、会议链接接入等。

拾音设备基于内核层驱动压力传感器180A、加速度传感器180E、接近光传感器180G等检测拾音设备的拾音状态。以及，拾音设备可以基于内核层驱动麦克风170C、受话器170B、耳机等拾取用户的声音。并将拾取到的声音发送给控制设备。

控制设备基于系统库中的音频处理模块或者数据处理模块等对拾音设备发送的声音进行对象化、响度增强、音效等处理，并将处理后的声音发送给多人会议中的每个拾音设备，以使使用拾音设备的用户听到发言内容。

以下以多人互动场景是图7所示的多人会议场景为例，对本申请实施例中的拾音方法进行说明。

参见图7,参与会议的用户可以包括线上用户和线下用户。参与会议的每个用户可以将携带的拾音设备通过预设会议接入方式与控制设备连接，从而参与会议；或者，参与会议的部分用户可以将自己携带的拾音设备通过预设会议接入方式与控制设备连接，从而实现部分用户通过自己携带的拾音设备参与会议。并且，拾音设备与控制设备连接后，可以组成一个拾音系统。在如图7所示的多人会议中，线下的用户A对应设备a,线下的用户B对应设备b，线下的用户C对应设备c,线下的用户D对应设备d，线上的用户E对应设备e。其中，设备a-e中的任一个都可以是前述的第一设备、第二设备、第三设备……等，相对应的，用户A-D中的任一个也都可以是前述的第一用户、第二用户、第三用户……等。在一些实施例中，线上可以有多个用户，其中，多个线上用户可以位于同一地理位置(例如同一会议空间)，或多个线上用户中的至少可以位于不同的地理位置(例如部分线上用户在第一城市，另一部分线上用户在第二城市)。

在一些实施例中，上述预设会议接入方式可以是扫描二维码接入会议的方式，例如图8中所示的用户B使用设备b扫描入会二维码，从而进入会议。之后，设备b上会显示拾音状态切换的功能控件等。在另一些实施例中，上述预设会议接入方式也可以是链接接入会议的方式等，例如用户B在设备b上点击入会链接，从而进入会议。拾音设备通过预设会议接入方式可以与控制设备快速连接，从而快速组成拾音系统。并且，拾音设备也无需预先进行调试，这样既能减少举办会议的开销，也能提高举办会议的效率。

拾音系统中的第一用户可以通过自己对应的第一设备拾取第一声音，从而实现发言的目的。并且，第一用户还可以根据自己的发言需求操作第一设备，从而使第一设备处于满足第一用户发言需求的目标拾音状态。控制设备再根据第一设备的目标拾音状态，对接收到的声音进行处理，再向拾音系统中的第二设备对应的第二用户、第三设备对应的第三用户等发送与目标拾音状态对应的声音，从而满足第一用户的发言需求。

在一些实施例中，拾音系统中的每个拾音设备都可以包括三种拾音状态。

当拾音系统中的第一设备的目标拾音状态为近场拾音状态时，第一设备将拾取到的第一用户的目标声音发送给控制设备。而后，控制设备再将目标声音发送给拾音系统中其他用户(例如第二用户、第三用户等)，从而让其他用户都能听到第一用户的发言内容，而无法听到除了第一用户以外的用户的发言内容。

在一些实施例中，当拾音系统中的第一设备的目标拾音状态为近场拾音状态时，控制设备不仅可以将第一设备拾取到的第一用户的目标声音发送给其他用户(例如第二用户、第三用户等)，也可以将其他设备(例如第二设备、第三设备等)拾取到的全场声音发送给其他用户，以及，控制设备可以控制目标声音的响度大于全场声音，从而当混合的声音被播放出来时，可以突出第一用户的声音。这样，其他用户既可以清楚地听到第一用户的发言内容，也可以听到全场其他用户的声音。

当拾音系统中的拾音设备的目标拾音状态都为全场拾音状态时，拾音设备都可以将拾取到的声音发送给控制设备，从而控制设备接收到全场声音。而后，控制设备再将全场声音发送分别发送给拾音系统中的用户，从而让用户都能听到全场的声音。其中，全场的声音包括拾音系统中每个用户的发言内容等。

当拾音系统中的第一设备的目标拾音状态为静音状态时，第一设备也都会将拾取到的声音发送给控制设备，同时其他设备(例如第二设备、第三设备等)会将拾取到的声音发送给控制设备，从而控制设备接收到全场声音。而后，控制设备再将第一设备拾取到的第一用户的目标声音从全场声音中去除。控制设备将去除目标声音后的全场声音发送给拾音系统中的每个用户，从而让每个用户都无法通过对应的拾音设备听到第一用户的发言内容。

拾音设备接入拾音系统/接入会议后，可以确定自身当前的拾音状态，再将当前的拾音状态发送给控制设备。或者，拾音设备可以将自身当前的拾音状态直接发送给云端设备或者服务器。

并且，拾音设备还可以将当前的拾音状态提示给用户。示例性的，拾音设备可以在接入会议后显示的会议界面上显示拾音状态的文字提示。或者，拾音设备可以通过改变会议界面上显示的功能控件的颜色、状态等，进而提示用户当前的拾音状态。示例性的，当前的拾音状态也可以是上述近场拾音状态、全场拾音状态或静音状态中的一种。

在一些实施例中，拾音设备当前的拾音状态可以是默认的拾音状态，即拾音设备在接入拾音系统/接入会议后，会以默认的拾音状态工作。示例性的，默认的拾音状态可以是上述进行拾音状态、全场拾音状态或静音状态中的一种。

而后，拾音设备还可以响应于用户的操作(例如拾音状态切换操作)等，将当前的拾音状态切换为目标拾音状态，或者，将默认的拾音状态切换为目标拾音状态。其中，拾音状态切换操作可以是用户在拾音设备上选择目标拾音状态的操作，也可以是用户通过改变拾音设备的设备状态而选择目标拾音状态的操作，还可以是用户靠近拾音设备发言的操作，并且，本申请实施例中的拾音设备响应的拾音状态切换操作可以是其中的一种或者多种。

示例性的，设备状态可以是横屏状态、竖屏状态、耳机接入状态或耳机未接入状态等。以及，拾音设备的横屏状态对应的目标拾音状态可以是全场拾音状态，拾音设备的竖屏状态对应的目标拾音状态可以是近场拾音状态。拾音设备的耳机接入状态对应的目标拾音状态可以是近场拾音状态，而拾音设备的耳机未接入状态对应的目标拾音状态可以是全场拾音状态。

在一些实施例中，在如图7所示的会议场景中，拾音系统中的每个拾音设备都可以处于同一个拾音状态。

以每个拾音设备当前的拾音状态都是全场拾音状态为例。在此情况下，参见图9所示的声音的处理过程，无论拾音系统中的用户是线上用户还是线下用户，拾音系统中的每个拾音设备都可以拾取会议中的声音。示例性的，设备a-e都处于全场拾音状态，因此，设备a-e都会拾取全场声音。对于线上用户E而言，对应的设备e拾取的全场声音可能只包括线上用户E的声音。而对于线下用户A-D而言，对应的设备a-d拾取的全场声音可能包括现场线下用户A-D的声音。

拾音系统中的每个拾音设备将各自拾取到的声音发送给控制设备，从而使控制设备接收到全场声音，其中，全场声音包括线上用户的声音和线下用户的声音。控制设备还可以将全场声音发送给拾音系统中的每个用户，从而会议中每个用户都能听到多个用户的声音或者发言内容。

在一些实施例中，控制设备还可以将全场声音进行对象化处理，从而分离出拾音系统中每个用户对应的声音，并将分离出的每个用户的声音再发送给拾音系统中的每个用户，从而让拾音系统中的每个用户能听到全场多个用户的发言内容。经过上述处理后，从拾音系统的线上用户e的角度来说，参见图10，线上用户e即使不在会议的现场，但由于控制设备会将现场的声音进行对象化处理并发送给线上用户e，因此，线上用户e也能听到多个线下用户的发言内容。

或者，从拾音系统的线下用户A-D的角度来说，线下用户A-D不仅能听到线下每个用户的发言内容，也可以听到线上用户E的发言内容。

可见，拾音系统中的每个拾音设备都处于全场拾音状态时，可以使得每个用户的发言内容都能被其他用户的用户听到。

或者，在一些实施例中，当拾音系统的多个拾音设备中的第一设备处于全场拾音状态，通过上述方式可以使第一设备拾取的声音中的每个用户的发言内容都可以被听到。

在一些实施例中，控制设备对全场声音进行对象化处理后，还可以针对于每个用户的每个声音设置对应的音轨，即每个用户对应一个音轨。控制设备再将音轨信息发送给拾音系统中的每个拾音设备。拾音设备可以在显示页面上显示参与会议的每个用户的音轨。使用拾音设备的用户，可以根据自己的需求操作音轨，从而实现主动选择听取发言内容的目的。例如，使用设备a的用户A只想听到用户B的发言内容，用户A可以只开启用户B对应的音轨，并可以关闭其他用户对应的音轨。这样，在用户B未选择静音状态的情况下，用户A只能听到用户B的发言内容。或者，使用设备a的用户A不想听到用户B的发言内容，那么用户A可以关闭用户B对应的音轨，而开启其他用户对应的音轨。这样，用户A就听不到用户B的发言内容。

在一些实施例中，控制设备在拾音系统中每个拾音设备拾取的声音之后，还可以从多个拾音设备中确定出拾音质量较好的第一数量的拾音设备，并对第一数量的拾音设备拾取到的全场声音进行对象化处理，从而分离出拾音系统中每个用户的声音。

示例性的，控制设备可以通过深度神经网络计算每个或至少部分拾音设备拾取的声音中每一帧信号的信噪比(声音信号与噪声能量比值)与直混比(直达声与晚期混响能量比值)。而后，控制设备再通过对信噪比和直混比进行加权打分，从而计算出每个或至少部分拾音设备的拾音质量分数。

参见图11，深度神经网络的结构可以包括卷积神经网络、门控循环单元和全连接层等。其中，卷积神经网络用于提取每个拾音设备拾取的声音中的时频结构特征；门控循环单元用于提取每个拾音设备拾取的声音的时序信息；全连接层用于将每个拾音设备拾取到的声音的时频结构特征转化为每个声音的时频掩蔽值，而后，再利用每个声音的时频掩蔽值确定每个声音中每一帧信号的信噪比和直混比。

经过上述深度神经网络的计算后，控制设备还可以将拾音系统中的多个拾音设备根据各自的拾音质量分数进行排序，从中确定出排序靠前的预设数量的拾音设备，或者从中确定出拾音质量分数大于或者等于预设分数的第一数量的拾音设备。最后，控制设备将预设数量的或者第一数量的拾音设备拾取到的全场声音进行对象化处理，从而分离出每个用户的声音。本申请实施例对预设数量和预设分数不作具体限制。

示例性的，拾音系统中包括10个拾音设备。当10个拾音设备均处于全场拾音状态时，控制设备接收10个拾音设备拾取的声音，即接收到的全场声音。控制设备再对10个拾音设备中的每个拾音设备进行拾音质量打分，并根据拾音质量分数从大到小对10个拾音设备进行排序。而后，如果预设数量为4，那么控制设备在排序结果中从第一位开始确定4个拾音设备。最后，控制设备再将这4个拾音设备拾取到的全场声音进行对象化处理，从而分离出每个用户的声音。

或者，如果预设分数为5分，那么控制设备还可以在排序结果中确定出拾音质量分数大于或者等于5分的若干个拾音设备。此时，选取的拾音设备的具体数量即为第一数量。

上述实施例中，对每个拾音设备的拾音质量进行打分并确定预设数量或者第一数量的拾音设备，在后续声音对象化处理的过程中，控制设备可以仅处理预设数量或者第一数量的拾音设备拾取的全场声音，从而减少控制设备处理数据的计算量或者处理量，同时也可以获得较高质量的声音。

在一些实施例中，参见图12，控制设备在对预设数量或者第一数量的拾音设备拾取的全场声音进行对象化处理后，还可以将经过对象化处理后获得的每个用户的声音或者特定用户的声音进行响度增强处理。最后，控制设备再将响度增强处理后的每个用户的声音发送给拾音系统中的每个用户。示例性的，针对特定用户的声音进行响度增强处理时，可以是第一用户在第一设备上选择开启第二用户对应的音轨后，控制设备对第二用户的声音进行响度增强处理，从而使第一用户听到的第二用户的发言音量较大。

经过这种响度增强处理后，拾音系统中的每个用户听到的不同用户的发言的音量都是相同的，或者音量都是大于或者等于预设音量阈值的，从而让每个用户不仅能清楚地听到自己的发言，也可以清楚地听到其他用户的发言。同时，即使在会议现场发言的用户坐得比较远，拾取该用户的声音的音量的比较小，经过响度增强处理后，也可以将该用户的发言的音量调大，从而使其他用户听清楚该用户的发言内容。可见，这种响度增强的处理方式可以改善全场拾音状态下不同用户的声音音量不同而导致的一些用户的发言内容听不清楚的问题。

示例性的，在上述响度增强处理的过程中，控制设备可以针对拾音系统中的某个目标用户，确定距离目标用户最近的拾音设备，并确定该拾音设备的目标输出音量。而后，控制设备再将上述对象化处理后的获得的每个用户的声音分别调整至目标输出音量，从而实现响度增强处理。这样，拾音系统中的目标用户听到的每个用户的发言的音量都是相同的，并且发言内容也能听得比较清楚。或者，控制设备将特定用户的声音调整至目标输出音量，从而实现特定用户声音的响度增强处理。

在一些实施例中，上述对象化处理、响度增强处理可以由云端设备执行，或者由拾音系统中的某个拾音设备执行。

仍以图7中所示的会议场景为例，在每个拾音设备都处于全场拾音状态时，在经过上述对象化处理和响度增强处理后，线上用户E听到的每个线下用户的发言音量都是相同的，从而可以听清楚线下用户A-D的发言内容。同时，每个线下用户听到的线上用户E和其他线下用户的发言音量都是相同的，例如，线下用户A听到的线上用户E和线下用户B-D的发言音量都是相同的，从而每个线下用户可以听清楚线上用户和其他线下用户的发言内容。

或者，在每个拾音设备都处于全场拾音状态时，线下用户和线上用户都可以选择听取某个特定用户的发言内容，经过上述响度增强处理后可以突出特定用户的声音，线下用户和线上用户都可以主要听到特定用户的发言内容。

在一些实施例中，控制设备在对预设数量或者第一数量的拾音设备拾取的全场声音进行对象化处理后，还可以将经过对象化处理后获得的每个用户的声音针对不同的线下用户进行对应的音效处理。具体的，音效处理可以针对于线下用户中的某个目标线下用户进行，控制设备确定其他线下用户相对于目标线下用户的方位关系，从而将其作为目标线下用户的方位信息。而后，控制设备再根据目标线下用户的方位信息对其他线下用户的声音进行音效处理，使得其他线下用户的声音的播放效果与其他线下用户与目标线下用户的方位关系相匹配。最后，控制设备将经过音效处理后的声音发送给目标线下用户，从而目标线下用户可以从听到处于不同方位的其他线下用户的发言内容，这样也能还原出线下场景中真实的音效，增强用户在多人会议场景中的互动体验。

仍以图7中所示的会议场景为例，由于线上用户不与线下用户处于同一个空间或者处于同一个现场等，因此线上用户与线下用户可能并不存在方位关系等。这种情况下，控制设备可以不针对线上用户进行声音的音效处理，仅保证线上用户听清楚每个用户的发言内容即可。而由于线下用户处于同一个空间或者处于同一个现场等，因此线下用户之间可能存在方位关系等。这种情况下，控制设备可以针对线下用户进行声音的音效处理，这样即保证线下用户听清楚每个用户的发言内容，也能增强线下用户在多人会议场景中的互动体验。

在如图7所示的会议场景中，如果参与会议的某个或者多个用户想要发言，那么想要发言的用户可以将其对应的拾音设备当前的拾音状态切换为近场拾音状态。

以当前的拾音状态是全场拾音状态为例，第一用户可以将对应的第一设备的全场拾音状态切换为近场拾音状态。而后，第一用户将对应的第一设备的麦克风或者受话器等所在的拾音部位放置在靠近嘴部的位置，从而主要拾取第一用户的目标声音，并且实现第一设备对于第一用户发言的近场拾音。第一设备在对第一用户进行近场拾音的同时，除了第一设备以外的其他设备(例如第二设备、第三设备等)也可以继续拾取声音，并且第一设备和其他设备都会将拾取到的声音发送给控制设备，从而控制设备也可以接收到全场声音。控制设备会将第一设备拾取到的第一用户的目标声音发送给拾音系统中的其他设备，而不会将第二设备拾取到的全场声音发送给每个拾音系统中的每个拾音设备，从而参与多人会议的每个用户都只能听到第一用户的发言内容。

示例性的，如果用户A将其对应的设备a切换为近场拾音状态，而用户B对应的设备b、用户C对应的设备c、用户D对应的设备d、用户E对应的设备e当前都处于全场拾音状态，设备a-e都可以将拾取到的声音发送给控制设备，并且控制设备只会将用户A的声音发送给用户B-E，而不会将用户B-E的发送给用户B-E。这样，用户B-E都只能听到用户A的发言内容。

或者，用户A将其对应的设备a切换为近场拾音状态，用户B也将其对应的设备b切换为近场拾音状态，用户C对应的设备c当前处于全场拾音状态，用户D对应的设备d当前处于全场拾音状态，用户E对应的设备e当前处于全场拾音状态。设备a-e都可以将拾取到的声音发送给控制设备，并且控制设备会将用户A的声音发送给用户B-E，而将用户B的声音发送给用户A、C、D和E。这样，用户B-E都能听到用户A的发言内容，用户A、C、D和E都能听到用户B的发言内容。

在一些实施例中，拾音设备可以响应于用户对拾音设备做出的拾音状态切换操作，从而将拾音设备的全场拾音状态切换为近场拾音状态。

其中，当拾音状态切换操是用户在拾音设备上选择近场拾音状态的操作时，拾音设备上可以显示用于切换拾音状态的目标功能控件等。而后用户在拾音设备上选择目标功能控件，从而将拾音设备的全场拾音状态切换为近场拾音状态。

以设备b是手机为例，参见图13，手机与控制设备连接后，手机屏幕上可以显示切换拾音状态的静音控件、声音输入控件等，还可以显示用于退出会议的退出控件等。当手机处于全场拾音状态时，手机屏幕上显示的如图13所示的功能控件均为未选中状态。而当用户B点击或者触摸声音输入控件后，声音输入控件即变为选中状态，从而将手机切换为近场拾音状态。其中，声音输入控件变为选中状态时，声音输入控件可以带有颜色，从而醒目地提醒手机当前的拾音状态。

当手机处于近场拾音状态后，用户B可以使用手机进行近场拾音，具体的方式可以是用户B将手机拿起，并对准手机上装有麦克风的拾音部位发言，从而使手机主要拾取到用户B的目标声音，并且拾取的目标声音的质量也比较高。手机再将拾取到的用户B的目标声音发送给控制设备。而后，控制设备仅将用户B的目标声音发送给拾音系统中除了用户B以外的其他用户。从而，参与多人会议的每个用户都可以听到用户B的发言内容。此时，参见图14，拾音系统中的每个用户听到的由手机拾取的用户B声音要大于除了手机以外的其他设备拾取到的其他用户的声音，或者，每个用户都听不到除了手机以外的其他设备拾取到的其他用户的声音。

示例性的，当拾音系统中的处于会议现场的手机处于近场拾音状态时，从拾音系统中的线上的用户E的角度来说，参见图15，线上的用户E只能听到会议现场中使用手机的线下的用户B的发言内容，而无法听到不使用手机的其他线下用户和线上用户的发言内容。

或者，从拾音系统中的线下的用户A-D的角度来说，线下的用户A、C和D也只能听到会议现场中使用手机的线下的用户B的发言内容，而无法听到不使用手机的其他线下用户和线上用户的发言内容。

以设备c是笔记本电脑为例，参见图16，笔记本电脑与控制设备连接后，笔记本电脑屏幕上可以显示的功能控件可以与上述手机上显示的功能控件相同。并且，当用户C点击或者触摸声音输入控件后，声音输入控件即变为选中状态，从而将笔记本电脑切换为近场拾音状态。

当笔记本电脑处于近场拾音状态后，由于笔记本电脑的体积相比于手机而言较大，不方便移动或者手持，那么用户C可以主动靠近笔记本电脑上装有麦克风的拾音部位，并对准拾音部位发言，从而使笔记本电脑主要拾取到用户C的目标声音，并且拾取的目标声音的质量也比较高。笔记本电脑再将拾取到的目标声音发送给控制设备。而后，控制设备仅将目标声音发送给拾音系统中除了用户C以外的其他用户。从而，参与多人会议的每个用户都可以听到用户C的发言内容。

在上述实施例中，拾音系统中的拾音设备可以响应于用户选择切换拾音状态的操作，将当前的全场拾音状态切换为近场拾音状态，从而用户可以利用拾音设备进行发言，并使其他用户能够听清楚该用户的发言内容。另外，由于拾音设备本身可以支持多种拾音状态，因此，在拾音系统中采用这样的拾音设备，也可以为用户提供更加的灵活的发言方式。

当前述实施例中的拾音状态切换操是用户通过改变拾音设备的设备状态，而选择近场拾音状态的操作时，拾音设备可以根据用户的操作改变当前的设备状态，并在处于目标设备状态时，将全场拾音状态切换为近场拾音状态。其中，目标设备状态可以表示拾音设备的竖屏状态和/或耳机接入状态等。

以设备b是手机为例。在上述多人会议中，用户B如果想要发言，可以将手机竖直拿起，并对准手机上装有麦克风的拾音部位发言。参见图17，当手机检测到当前的设备状态变为竖屏状态时，可以将全场拾音状态切换为近场拾音状态。当手机处于近场拾音状态后，用户B可以使用手机发言。手机将拾取的用户B的目标声音发送给控制设备。而后，控制设备仅将用户B的目标声音发送给拾音系统中除了用户B以外的其他用户。从而，参与多人会议的每个用户都可以听到用户B的发言内容。

或者，用户B如果想要发言，也可以将耳机等便携的拾音装置连接到手机上。用户B再通过耳机上装有麦克风的拾音部位发言。参见图18，当耳机连接到手机上时，手机检测到当前的设备状态变为耳机接入状态，此时可以将全场拾音状态切换为近场拾音状态。当连接有耳机的手机处于近场拾音状态时，用户B可以使用手机上连接的耳机发言。手机将耳机拾取到的B用户的目标声音发送给控制设备。而后，控制设备仅将耳机拾取的用户B的目标声音发送给拾音系统中除了用户B以外的其他用户。从而，参与多人会议的每个用户都可以听到用户B的发言内容。

当连接有耳机的手机切换为近场拾音状态后，手机的麦克风则不会继续拾音，而由耳机上的麦克风等进行拾音。

另外，手机连接耳机后，手机屏幕上仍然可以显示静音控件、声音输入控件、退出控件等功能控件。并且，手机连接耳机后，声音输入控件也变为选中状态，从而表示手机切换为近场拾音状态。

在上述实施例中，拾音系统中的拾音设备可以响应于用户改变设备状态的操作，将当前的全场拾音状态切换为近场拾音状态，从而用户可以利用对应的拾音设备或者利用拾音设备上连接的拾音装置进行发言，并使其他用户能够听清楚该用户的发言内容。另外，由于拾音设备本身可以支持多种拾音状态，因此，在拾音系统中采用这样的拾音设备，也可以为用户提供更加的灵活的发言方式。

当前述实施例中的拾音状态切换操作是用户靠近拾音设备发言的操作时，可以不必考虑拾音设备的设备状态。如果拾音设备检测到用户靠近拾音设备，则将当前的全场拾音状态切换为近场拾音状态。其中，拾音设备可以通过检测拾取到的声音音量或者检测用户与拾音设备的第一距离，来确定用户是否靠近拾音设备进行发言。

示例性的，拾音设备可以检测当前的拾音音量是否大于或者等于预设拾音音量。当拾音音量大于或者等于预设拾音音量时，拾音设备可以将当前的全场拾音状态切换为近场拾音状态。而当拾音音量小于预设拾音音量时，拾音设备则不会切换拾音状态，仍然处于全场拾音状态。

以设备c是笔记本电脑为例，用户C直接靠近笔记本电脑并对准笔记本电脑上装有麦克风的拾音部位发言。当笔记本电脑检测到拾音音量大于或者等于预设拾音音量时，可以看作是用户C距离笔记本电脑比较近，此时，笔记本电脑可以自动将全场拾音状态切换为近场拾音状态。当笔记本电脑检测到拾音音量小于预设拾音音量时，可以看作是用户C距离笔记本电脑比较远，此时，笔记本电脑不会进行拾音状态的切换，可以仍然处于全场拾音状态。

另外，针对于具有多拾音部位的拾音设备而言，用户在发言时可以对准多拾音部位中的一个目标拾音部位发言。此时，由于用户距离拾音设备比较近，因此多个拾音部位分别拾取的声音音量可能都会超过预设拾音音量，但是由于用户只对准目标拾音部位发言，那么目标拾音部位的拾音音量要大于其他拾音部位的拾音音量。这种情况下，拾音设备还可以检测多拾音部位的各自的拾音音量以及多拾音部位之间的拾音音量差。当多拾音部位的各自的拾音音量分别大于或者等于预设拾音音量，并且多拾音部位之间的拾音音量差(绝对值)都大于或者等于预设音量差时，拾音设备可以将当前的全场拾音状态切换为近场拾音状态。反之，拾音设备则不会切换拾音状态，仍然处于全场拾音状态。

以设备b是手机为例，手机具有底部麦克风和顶部麦克风，用户B在发言时，可以对准底部麦克风发言，或者对准顶部麦克风发言。手机可以检测底部麦克风的拾音音量、顶部麦克风的拾音音量、以及底部麦克风与顶部麦克风的拾音音量差(绝对值)。参见图19，如果用户B靠近并对准手机的底部麦克风发言，那么手机检测到的底部麦克风的拾音音量和顶部麦克风的拾音音量都要大于或者等于预设拾音音量，并且，底部麦克风的拾音音量要大于顶部麦克风的拾音音量。当底部麦克风与顶部麦克风的拾音音量差大于或者等于预设音量差时，手机可以自动将全场拾音状态切换为近场拾音状态，并由手机的底部麦克风对用户B的发言进行近场拾音。当底部麦克风与顶部麦克风的拾音音量差小于预设音量差时，手机不会进行拾音状态的切换，此时，手机仍然处于全场拾音状态。

示例性的，拾音设备还可以检测用户与拾音设备之间的第一距离。当第一距离小于或者等于第一预设距离时，拾音设备可以将当前的全场拾音状态切换为近场拾音状态。而当第一距离大于第一预设距离时，拾音设备则不会切换拾音状态，仍然处于全场拾音状态。

当用户无需发言时，用户还可以在拾音设备处于近场拾音的状态下，再次点击声音输入控件，或者远离拾音设备，从而解除当前的近场拾音状态，使拾音设备重新切换为全场拾音状态。

在上述实施例中，拾音系统中的拾音设备可以响应于用户改变靠近拾音设备发言的操作，将全场拾音状态切换为近场拾音状态，从而用户可以利用拾音设备进行发言，并使其他用户能够听清楚该用户的发言内容。另外，由于拾音设备本身可以支持多种拾音状态，因此，在拾音系统中采用这样的拾音设备，也可以为用户提供更加的灵活的发言方式。

本申请上述实施例中的近场拾音的操作可以表示拾音设备在距离用户较近的位置处拾取用户的声音。其中，拾音设备距离用户较近，是指拾音设备与用户之间的第一距离小于或者等于第一预设距离。示例性的，第一预设距离可以是50cm、45cm、40cm等，本申请实施例中对第一预设距离不做具体限定。

对于笔记本电脑、平板等不利于携带或者移动的拾音设备来说，用户通常可以使用这些拾音设备进行近场拾音。而对于手机、耳机等便于携带或者移动的拾音设备来说，这类拾音设备还可以距离用户更近，例如放置在用户嘴边等。基于此，在上述近场拾音的基础上，用户还可以使用手机、连接耳机的手机等便于移动的拾音设备进行超近场拾音。即拾音设备还可以具有第四拾音状态(超近场拾音状态)。在进行超近场拾音时，拾音设备与用户之间的距离可以小于或者等于第二预设距离，并且第二预设距离小于第一预设距离。示例性的，第二预设距离可以是15cm、10cm、5cm等，本申请实施例中对第二预设距离不做具体限定。

在超近场拾音状态下，由于拾音设备距离用户很近，因此拾音设备拾取到的用户的声音的质量也很高。这样，控制设备可以向拾音系统中的每个用户发送具有较高音质的发言用户的目标声音，从而使拾音系统中的每个用户听到的发言用户的发言内容更加清楚。

在如图7所示的会议场景中，如果参与会议的某个或者某几个用户想要私下讨论或者不想让其他用户听到自己的声音，那么用户可以将其对应的拾音设备当前的拾音状态切换为静音状态。

以当前的拾音状态是近场拾音状态为例，拾音设备中的第一设备可以响应于用户在第一设备上选择静音状态的操作，将近场拾音状态切换为静音状态。而后，第一设备仍会拾取对应的用户的目标声音，并将目标声音发送给控制设备。同时拾音设备中的其他设备也会将拾取到的声音发送给控制设备。控制设备会从其他设备拾取的声音中将目标声音去除，并将去除目标声音后的声音发送给拾音系统中的每个拾音设备，从而每个用户都听不到要求静音的用户的发言内容。

示例性的，如果用户A将其对应的设备a切换为静音状态，而用户B对应的设备b、用户C对应的设备c、用户D对应的设备d和用户E对应的设备e当前都处于全场拾音状态，那么控制设备会将用户A的声音从设备b-e拾取到的声音中去除，并将去除用户A的声音后的声音发送给拾音系统中的每个拾音设备。这样，用户A-E都听不到用户A的发言内容。

或者，用户A将其对应的设备a切换为静音状态，用户B也将其对应的设备b切换为静音状态，用户C对应的设备c、用户D对应的设备d和用户E对应的设备e当前处于都处于全场拾音状态，那么控制设备会将用户A的声音和用户B的声音都从设备c-e拾取到的声音中去除，并将去除用户A和用户B的声音后的声音发送给拾音系统中的每个拾音设备。这样，用户A-E都听不到用户A和用户B的发言内容。

以设备b是手机为例，参见图20，当拾音系统中的手机处于近场拾音状态时，手机屏幕上显示的声音输入控件处于选中状态。当用户B想要静音时，可以点击或者触摸静音控件，从而将静音控件变为选中状态。此时，手机切换为静音状态。

当手机处于静音状态后，手机也会继续对用户B进行近场拾音，并将拾取到的用户B的目标声音发送给控制设备。同时，除了手机以外的其他拾音设备也在拾取声音，并且将声音发送给控制设备。而后，控制设备会将目标声音从其他拾音设备拾取的全场声音中去除，并将经过去除操作后的声音发送给拾音系统中的每个用户。从而，参与多人会议的每个用户都能听到除了用户B以外的其他用户的发言内容。此时，参见图21，拾音系统中的每个用户听到的其他拾音设备拾取到的其他用户的声音要大于手机拾取到的用户B的声音，或者，每个用户都听不到手机拾取到的用户B的声音。

示例性的，当拾音系统中的处于会议现场的手机处于静音状态时，从拾音系统中的线上的用户E的角度来说，参见图22，线上的用户E只能听到会议现场中不使用手机的其他线下用户线上用户的发言内容，而无法听到使用手机的用户B的发言内容。

或者，从拾音系统中的线下的用户A、C和D的角度来说，线下的用户A、C和D也只能听到会议现场中不使用手机的其他线下用户和线上用户的发言内容，而无法听到使用手机的用户B的发言内容。

以设备b是连接有耳机的手机为例，参见图23，在拾音系统中连接有耳机的手机与控制设备连接后，用户B如果想要静音，也可以点击或者触摸手机屏幕上的静音控件从而将静音控件变为选中状态。此时，手机处于静音状态。

当手机处于静音状态后，与手机连接的耳机也会继续对B用户进行近场拾音，并将拾取到的用户B的目标声音通过手机发送给控制设备。同时，除了手机以外的其他拾音设备也在拾取声音，并且将声音发送给控制设备。而后，控制设备会将目标声音从其他拾音设备拾取的全场声音中去除，并将经过去除操作后的声音发送给拾音系统中的每个用户。从而，参与多人会议的每个用户都能听到除了用户B以外的其他用户的发言内容，而听不到用户B的发言内容。

以设备c是笔记本电脑为例，参见图24，当拾音系统中的笔记本电脑处于近场拾音状态时，笔记本电脑屏幕上显示的声音输入控件处于选中状态。当用户C想要静音时，可以点击或者触摸静音控件，从而将静音控件变为选中状态。此时，笔记本电脑切换为静音状态。

当笔记本电脑处于静音状态后，笔记本电脑也会继续对用户C进行近场拾音，并将拾取到的用户C的目标声音发送给控制设备。同时，除了笔记本电脑以外的其他拾音设备也在拾取声音，并且将声音发送给控制设备。而后，控制设备会将目标声音从其他拾音设备拾取的全场声音中去除，并将经过去除操作后的声音发送给拾音系统中的每个用户。从而，参与多人会议的每个用户都能听到除了用户C以外的其他用户的发言内容，而听不到用户C的发言内容。

在上述实施例中，拾音系统中的拾音设备可以响应于用户在近场拾音状态下选择静音状态的操作，从而将近场拾音状态切换为静音状态，从而使得其他用户无法听到选择静音的用户的发言内容或者说话内容等。这样可以较少选择静音的用户的发言内容对其他用户的影响，也能保证该用户的隐私需求。

在一些实施例中，控制设备可以基于深度神经网络在上述全场声音中去除选择静音的用户的目标声音。具体的，控制设备通过深度神经网络获取目标声音的时频掩蔽值，再将目标声音的时频掩蔽值与全场声音相乘，从而从全场声音中去除选择静音的用户的目标声音。

参见图25，深度神经网络的结构还可以包括编码器、门控循环单元和解码器等。其中，编码器用于提取目标声音中的时频结构特征；门控循环单元用于提取目标声音的时序信息；解码器用于将目标声音的时频结构特征转化为时频掩蔽值。

在一些实施例中，如果拾音系统中的每个拾音设备都处于静音状态，那么每个拾音设备都不会接收到控制设备发送的声音，进而每个拾音设备对应的用户都听到不到任何其他用户的发言内容。

当用户想要发言或者想要让其他用户听到自己的声音时，用户还可以在对应的拾音设备处于静音状态时再次点击静音控件，从而解除拾音设备当前的静音状态，使拾音设备重新切换为近场拾音状态。

在一些实施例中，以拾音设备当前的拾音状态是全场拾音状态为例，拾音设备还可以响应于用户在拾音设备上选择静音状态的操作，将全场拾音状态切换为静音状态。对于这种情况，首先可以在拾音设备处于全场拾音状态时，采用定向波束形成技术和声纹技术等确认选择静音的用户的身份，然后在拾音设备处于静音状态时，就可以通过之前确认的用户的身份来实现对于该用户的定向静音的功能。其中，确认用户身份时，可以通过声学定位方法或者视频人脸/唇动的定位方法确定选择静音的用户的位置，然后利用基于深度神经网络的波束形成方法定向提取该用户的声音，最后利用声纹信息与视频信息确认该用户的身份。

而当用户想要再次发言时，用户还可以解除拾音设备当前的静音状态，使拾音设备重新切换为全场拾音状态。

可见，在上述实施例中，无论拾音设备处于全场拾音状态还是近场拾音状态，用户都可以根据自己的需求将拾音设备切换为静音状态，从而减少了用户的小声讨论对于其他用户的影响，也能保护用户的隐私。

在一些实施例中，控制设备将拾音设备拾取到的声音发送给拾音系统中的每个用户时，还可以针对于线下用户和线上用户分别发送给不同的音频播放设备进行播放。其中，拾音设备拾取到的声音可以是对应的用户的目标声音、除了对应的用户以外的其他用户的声音以及全场声音等。音频播放设备可以是会议现场的扬声器、拾音设备的扬声器、拾音设备上连接的耳机等。

以拾音设备拾取到的声音是对应的用户的目标声音为例。针对于线下用户来说，控制设备可以将用户的目标声音发送给设置于会议现场的一个或者多个扬声器等音频播放设备，从而使得线下用户都能通过会议现场的扬声器听到用户的发言内容。另外，针对于线下用户，控制设备还可以将用户的目标声音发送给除了该用户以外的其他线下用户对应的拾音设备，由拾音设备上的扬声器进行播放，从而使得每个线下用户可以通过自己对应的拾音设备听到用户的发言内容。或者，如果拾音设备接入耳机等音频播放设备时，线下用户还可以通过拾音设备上连接的耳机听到用户的发言内容。

而针对于线上用户来说，控制设备可以将用户的目标声音发送给除了该用户以外的其他线上用户对应的拾音设备，由拾音设备上的扬声器或者连接的耳机等进行播放，从而使得线上用户可以通过自己对应的拾音设备或者拾音设备上连接的耳机等听到用户的发言内容。

可见，在上述实施例中，拾音系统中的控制设备可以向不同的音频播放设备发送声音，从而使参与多人会议的每个用户都可以收听到会议过程中的发言内容。这样，每个用户都能更加沉浸于会议中，提高参与会议的体验。

前述实施例中的拾音设备具有多种拾音状态。在拾音设备响应于用户的操作从而处于目标拾音状态时，控制设备还可以检测拾音设备的目标拾音状态，再通过服务器向拾音系统中的每个用户发送不同的声音，从而实现每个用户听到的发言内容与拾音设备的目标拾音状态相对应。

在此过程中，参见图26，拾音设备中的第一设备首先响应于对应的第一用户的操作将当前的拾音状态切换为目标拾音状态。其中，目标拾音状态包括全场拾音状态、近场拾音状态和静音状态等。

当控制设备检测到第一设备处于近场拾音状态时，控制设备仅将第一设备拾取到的第一用户的目标声音通过服务器发送给拾音系统中的每个用户。从而拾音系统中的每个用户只能听到第一用户的发言内容。

当控制设备检测到第一设备处于静音状态时，控制设备在第二设备、第三设备等其他设备拾取到的全场声音中去除第一用户的目标声音，并将去除目标声音后的全场声音通过服务器发送给拾音系统中的每个用户。从而拾音系统中的每个用户都无法听到第一用户的发言内容。

当控制设备检测到第一设备处于全场拾音状态时，控制设备将第一设备拾取到的声音经过对象化、响度增强、音效等处理，并将处理后的全场声音通过服务器发送给拾音系统中的每个用户。从而拾音系统中的每个用户都能听到参与会议的全部用户的发言内容。

在一些实施例中，当拾音系统的多个拾音设备中存在处于静音状态的第一设备时，处于其他拾音状态的其他设备也会将拾音到的声音发送给控制设备，从而控制设备也能接收到全场声音。这种情况下，控制设备也可以对多个拾音设备发送的混合声音进行对象化、响度增强、音效等处理，从而使未静音的用户的发言内容可以被其他的用户听到。

在一些实施例中，控制设备等对声音进行对象化、响度增强、音效等处理是指对声音信号进行相应的处理。

可见，本申请上述实施例中，参与多人会议的用户可以利用自己对应的拾音设备，进行声音的拾取，而无需另外配置多个麦克风等专门的或额外的拾音设备，也无需耗费过多的时间对麦克风等拾音设备进行调试，这样既能减少举办会议的开销，也能提高举办会议的效率。另外，由于拾音设备可以支持多种拾音状态，那么用户可以根据自己的需求选择拾音设备的拾音状态，从而更加灵活地参与会议，也能在小声议论或者无需发言等场景中选择静音，从而较少对其他用户的影响，也能保证自己的隐私需求。

当前述实施例中的拾音设备是手机、连接耳机的手机等便于移动的设备时，拾音设备中的第一设备、第二设备、第三设备等还可以具有超近场拾音状态，同时还可以具有全场拾音状态和静音状态。因此，在一些实施例中，控制设备还可以检测每个拾音设备的设备类型，从而在不同类型的拾音设备处于不同的拾音状态时，向拾音系统中的每个用户发送不同的声音，从而实现每个用户听到的发言内容与拾音设备的拾音状态相对应。其中，手机、连接耳机的手机等便于移动的拾音设备可以作为第一设备类型，而除此之外的其他拾音设备可以作为第二设备类型。

并且，拾音设备切换为超近拾音状态的方式可以参照前述实施例中手机切换为近场拾音状态的方式，此处不再赘述。

在此过程中，参见图27，控制设备可以先检测拾音系统中多个拾音设备中的某个拾音设备(例如第一设备)的设备类型。

当第一设备为第一设备类型时，控制设备继续检测第一设备的设备状态。

当控制设备检测到第一设备处于超近场拾音状态、全场拾音状态或者静音状态时，控制设备具体的处理方式可以分别参照前述实施例中控制设备在第一设备处于近场拾音状态、全场拾音状态或者静音状态的处理方式，此处不再赘述。

当第一设备为第二设备类型时，控制设备继续检测第一设备的设备状态。

当控制设备检测到第一设备处于近场拾音状态、全场拾音状态或者静音状态时，控制设备具体的处理方式可以分别参照前述实施例中的处理方式，此处不再赘述。

可见，本申请上述实施例中，当拾音设备是手机、连接耳机的手机等便于移动的设备时，拾音设备还可以进行超近场拾音。在超近场拾音状态下，由于拾音设备距离用户很近，因此拾音设备拾取到的用户的声音的质量也很高。这样，控制设备可以向拾音系统中的每个用户发送具有较高音质的发言用户的目标声音，从而使拾音系统中的每个用户听到的发言用户的发言内容更加清楚。

前述实施例中，均以图7所示的多人会议场景为例，对本申请实施例中的拾音方法进行说明。在实际应用中，本申请实施例中的上述拾音方法和拾音系统还可以应用于与会人员全部是线下用户的线下会议场景中，或者应用于其他包括线下用户和线上用户以及仅包括线下用户的多人互动场景中。示例性的，如果拾音系统中的拾音设备全部是近端设备，那么可以看作是使用拾音设备进行多人互动的用户都是线下用户，这种多人互动场景即为多人线下互动的场景。如果拾音系统中的拾音设备都是远端设备，那么可以看作是使用拾音设备进行多人互动的用户都是线上用户，这种多人互动场景即为多人线上互动场景。如果拾音系统中的拾音设备既包括近端设备也包括远端设备，那么可以看作是使用拾音设备进行多人互动的用户即包括线上用户，也包括线下用户，这种多人互动场景即为多人线上、线下联动场景。

本申请实施例中的拾音方法和拾音系统在这些场景中的具体实现，可参照前述实施例中的内容，此处不再赘述。

前述实施例中的多人互动场景可以是一些声音实时播放的直播场景、会议场景等第一互动场景。在另一些实施例中，上述拾音方法也可以应用于多人互动的录音场景等第二互动场景中，即拾音设备接收到控制设备发送的声音后，并不会立即播放，而是会以录音内容的形式保存下来。当用户想要播放时，用户可以选择对应的录音内容进行播放。或者，在第二互动场景中，拾音设备接收到控制设备发送的声音后，也可以自动播放该声音，并且将声音以录音内容的形式保存下来。而后用户在其他时间想要重新听取录音内容时，拾音设备可以响应于用户选择播放声音的操作，再次播放这个声音。

无论是哪一种场景中，用户都可以根据自己的拾取需求等选择对应的拾音设备的拾音状态。并且，拾音设备在播放录音内容时，录制过程中发言用户的发言内容可以被听清楚，而静音用户的发言内容则不会被听到。

在一些实施例中，拾音设备在播放录音内容时，由于录音内容的声音中也可以包括多人互动场景中不同用户的音轨等，因此，使用拾音设备收听录音内容的用户可以在拾音设备上选择某个用户对应的音轨，使其开启，从而只收听该用户的发言内容；或者，使用拾音设备收听录音的用户也可以在拾音设备上选择某个用户对应的音轨，使其关闭，从而不收听该用户的发言内容。

另外，为了避免拾音设备播放的发言内容中包括使用拾音设备的用户的发言内容，从而对使用拾音设备的用户产生回声等影响，在一些实施例中，控制设备在向拾音设备中的第一设备发送混合声音时，还可以从混合声音中去除第一设备拾取的第一用户的目标声音。这样，即使第一用户通过第一设备发言，第一设备也仅会播放其他用户的发言内容，从而不会对第一用户造成影响。

目前在多人会议等场景中，可以通过算法确定出距离声源最近的目标麦克风，而后再由发言用户确认目标麦克风并通过目标麦克风进行发言。然而这种方式中，不同的用户在进行发言时，都需要确认最近的麦克风，这样会使得发言流程变得复杂。并且，如果会议中用户数量过多，而麦克风数量有限，那么即使发言用户从多个麦克风中确认出了一个距离自己最近的目标麦克风，这个目标麦克风与发言用户之间的距离也可能不会保证目标麦克风可以拾取到发言用户清晰的发言内容。相比于目前这种方式，本申请实施例提供的拾音方法中，参与多人会议的用户对应的每个拾音设备都可以支持多种拾音状态，那么用户可以根据自己的拾音需求切换自己对应的拾音设备的拾音状态，从而达到发言的目的。而无需从多个拾音设备中确定出距离自己最近的拾音设备进行发言。可见，本申请实施例中的拾音方法有着更为简单的发言流程，并且，即使多人会议中的用户比较多，也能满足不同的位置的不同用户的发言需求。

另外，在多人会议等场景中，在拾取会议中的声音信号的同时，目前也可以采集会议中用户的视频信号，使用利用视频信号和声音信号确定出发言用户以及发言用户的发言内容。然而这种方式也只是确定出了发言用户的发言内容，如果会议中用户数量过多，而麦克风数量有限，也同样会出现拾取到的发言内容不清晰，声音信号音质较差的问题。相比于目前这种方式，本申请实施例提供的拾音方法中，参与多人会议的用户可以根据自己的拾音需求切换自己对应的拾音设备的拾音状态，从而使得拾音设备可以拾取到自己的发言内容。并且每个用户对应一个拾音设备，用户在发言时可以靠近拾音设备，这样拾音设备拾取到的用户的声音音质较好，相应的其他用户听到的发言内容也会比较清晰。

此外，在多人会议等场景中，目前还可以利用会议现场设置的多个麦克风进行麦克风延迟时间差计算，进而对会议中发言用户的声音信号进行增强等，从而使得其他用户听到的发言用户的发言内容比较清晰。然而这种方式中，如果有一些用户在私下小声讨论，那么通过拾音并增强处理之后，用户小声讨论的内容也会被其他用户清楚地听到，这样会影响其他用户的发言或者参会体验等。相比于目前这种方式，本申请实施例提供的拾音方法中，由于拾音设备具有多种拾音状态，多人会议中的用户如果想要小声讨论，用户可以将拾音设备切换为静音状态，从而控制设备并不会将用户小声讨论的内容发送给其他用户听到，这样可以减少对其他用户的影响。

可以理解的是，为了实现上述功能，电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例还提供一种电子设备，如图28所示，该电子设备可以包括一个或者多个处理器1001、存储器1002和通信接口1003。

其中，存储器1002、通信接口1003与处理器1001耦合。例如，存储器1002、通信接口1003与处理器1001可以通过总线1004耦合在一起。

其中，通信接口1003用于与其他设备进行数据传输。存储器1002中存储有计算机程序代码。计算机程序代码包括计算机指令，当计算机指令被处理器1001执行时，使得电子设备执行本申请实施例中的拾音方法。

其中，处理器1001可以是处理器或控制器，例如可以是中央处理器(CentralProcessing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

其中，总线1004可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。上述总线1004可以分为地址总线、数据总线、控制总线等。为便于表示，图28中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请实施例还提供一种计算机可读存储介质，该计算机存储介质中存储有计算机程序代码，当上述处理器执行该计算机程序代码时，电子设备执行上述方法实施例中的相关方法步骤。

本申请实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述方法实施例中的相关方法步骤。

其中，本申请提供的电子设备、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种拾音方法，其特征在于，应用于拾音系统，所述拾音系统包括第一设备和可拾取到所述第一设备所在位置声音的第二设备；所述拾音方法包括：

所述第一设备和所述第二设备组成用于形成混音的拾音网络；

响应于第一用户的第一操作，所述第一设备被配置为非静音状态，所述第一设备拾取第一声音；

响应于第二用户的第二操作，所述第二设备被配置为静音状态，所述第二设备拾取第二声音；

当所述第一声音和所述第二声音混合后的混音被播放时，所述混音中所述第二设备对应的目标声音被减弱或被去除，其中，所述第二声音包括所述第二设备对应的目标声音。

2.根据权利要求1所述的拾音方法，其特征在于，所述拾音系统还包括控制设备；所述拾音方法还包括：

所述控制设备获取所述第一设备的第一信息，并获取所述第二设备的第二信息；所述第一信息包括所述第一设备拾取的第一声音和所述第一设备的非静音状态；所述第二信息包括所述第二设备拾取的第二声音和所述第二设备的静音状态；

所述控制设备在所述第一声音和所述第二声音混合后的混音中减弱或者去除所述第二设备对应的目标声音。

3.根据权利要求2所述的拾音方法，其特征在于，所述控制设备为所述拾音系统中的第一设备或第二设备；或者所述控制设备为云端设备。

4.根据权利要求1-3任一项所述的拾音方法，其特征在于，所述拾音系统还包括第三设备；所述拾音方法还包括：

所述第三设备接收减弱或者去除所述第二设备对应的目标声音后的混音，并播放减弱或者去除所述第二设备对应的目标声音后的混音。

5.根据权利要求1-4任一项所述的拾音方法，其特征在于，所述响应于第一用户的第一操作，所述第一设备被配置为非静音状态，包括：

响应于所述第一用户的所述第一操作，所述第一设备被配置为全场拾音状态；或者，响应于所述第一用户的所述第一操作，所述第一设备被配置为近场拾音状态。

6.根据权利要求1-5任一项所述的拾音方法，其特征在于，所述第一操作表示所述第一用户在所述第一设备上选择拾音状态的操作，或者表示所述第一用户改变所述第一设备的设备状态的操作，或者表示所述第一用户靠近所述第一设备的操作。

7.根据权利要求5所述的拾音方法，其特征在于，所述响应于所述第一用户的所述第一操作，所述第一设备被配置为近场拾音状态，包括：

响应于所述第一用户改变所述第一设备的设备状态的操作，

在所述第一设备处于竖屏状态的情况下，所述第一设备被配置为近场拾音状态；

或者，在所述第一设备处于耳机接入状态的情况下，所述第一设备被配置为近场拾音状态。

8.根据权利要求5所述的拾音方法，其特征在于，所述响应于所述第一用户的所述第一操作，所述第一设备被配置为近场拾音状态，包括：

响应于所述第一用户靠近所述第一设备的操作，

在所述第一设备的拾音音量大于或者等于预设拾音音量的情况下，所述第一设备被配置为近场拾音状态；

或者，在所述第一设备的底部麦克风与顶部麦克风的拾音音量差大于或者等于预设音量差的情况下，所述第一设备被配置为近场拾音状态；

或者，在所述第一用户与所述第一设备的第一距离小于或者等于第一预设距离的情况下，所述第一设备被配置为近场拾音状态。

9.根据权利要求2所述的拾音方法，其特征在于，所述拾音方法还包括：

当所述第一设备被配置为全场拾音状态时，所述控制设备获取在混音中减弱或者去除所述第二设备对应的目标声音后的第一混音；

所述控制设备对所述第一设备和所述第二设备的拾音质量进行打分；

所述控制设备获取拾音质量分数大于或者等于预设分数的第一数量的拾音设备；所述第一数量的拾音设备包括至少一个第一设备和/或第二设备；

所述控制设备对所述第一混音中的所述第一数量的拾音设备拾取的第二混音进行对象化处理，获取所述第一数量的拾音设备对应的多个用户的声音。

10.根据权利要求1-9任一项所述的拾音方法，其特征在于，所述拾音方法还包括：

响应于所述第一用户的第三操作，所述第一设备被配置为近场拾音状态，所述第一设备拾取第三声音；

响应于所述第二用户的第四操作，所述第二设备被配置为全场拾音状态，所述第二设备拾取第四声音；

当所述第三声音和所述第四声音混合后的混音被播放时，所述第三设备对应的目标声音被播放出来，所述第三设备对应的目标声音以外的其他声音被减弱或者被去除，其中所述第三声音包括所述第三设备对应的目标声音。

11.一种拾音系统，其特征在于，所述拾音系统包括第一设备和可拾取到所述第一设备所在位置声音的第二设备；

所述第一设备被配置为：与所述第二设备组成用于形成混音的拾音网络；

所述第二设备被配置为：与所述第一设备组成用于形成混音的拾音网络；

所述第一设备还被配置为：响应于第一用户的第一操作，处于非静音状态，以及拾取第一声音；

所述第二设备还被配置为：响应于第二用户的第二操作，处于静音状态，以及拾取第二声音；

12.根据权利要求11所述的拾音系统，其特征在于，所述拾音系统还包括控制设备；

所述控制设备被配置为：

获取所述第一设备的第一信息，并获取所述第二设备的第二信息；所述第一信息包括所述第一设备拾取的第一声音和所述第一设备的非静音状态；所述第二信息包括所述第二设备拾取的第二声音和所述第二设备的静音状态；

在所述第一声音和所述第二声音混合后的混音中减弱或者去除所述第二设备对应的目标声音。

13.根据权利要求12所述的拾音系统，其特征在于，所述控制设备为所述拾音系统中的第一设备或第二设备；或者所述控制设备为云端设备。

14.根据权利要求11-13任一项所述的拾音系统，其特征在于，所述拾音系统还包括第三设备；

所述第三设备被配置为：

接收减弱或者去除所述第二设备对应的目标声音后的混音，并播放减弱或者去除所述第二设备对应的目标声音后的混音。

15.根据权利要求11-14任一项所述的拾音系统，其特征在于，所述第一设备还被配置为：

响应于所述第一用户的所述第一操作，处于全场拾音状态；或者，响应于所述第一用户的所述第一操作，处于近场拾音状态。

16.根据权利要求11-15任一项所述的拾音系统，其特征在于，所述第一操作表示所述第一用户在所述第一设备上选择拾音状态的操作，或者表示所述第一用户改变所述第一设备的设备状态的操作，或者表示所述第一用户靠近所述第一设备的操作。

17.根据权利要求15所述的拾音系统，其特征在于，所述第一设备还被配置为：

响应于所述第一用户改变所述第一设备的设备状态的操作，

在所述第一设备处于竖屏状态的情况下，处于近场拾音状态；

或者，在所述第一设备处于耳机接入状态的情况下，处于近场拾音状态。

18.根据权利要求15所述的拾音系统，其特征在于，所述第一设备还被配置为：

响应于所述第一用户靠近所述第一设备的操作，

在所述第一设备的拾音音量大于或者等于预设拾音音量的情况下，处于近场拾音状态；

或者，在所述第一设备的底部麦克风与顶部麦克风的拾音音量差大于或者等于预设音量差的情况下，处于近场拾音状态；

或者，在所述第一用户与所述第一设备的第一距离小于或者等于第一预设距离的情况下，处于近场拾音状态。

19.根据权利要求12所述的拾音系统，其特征在于，所述控制设备还被配置为：

当所述第一设备被配置为全场拾音状态时，获取在混音中减弱或者去除所述第二设备对应的目标声音后的第一混音；

对所述第一设备和所述第二设备的拾音质量进行打分；

获取拾音质量分数大于或者等于预设分数的第一数量的拾音设备；所述第一数量的拾音设备包括至少一个第一设备和/或第二设备；

对所述第一混音中的所述第一数量的拾音设备拾取的第二混音进行对象化处理，获取所述第一数量的拾音设备对应的多个用户的声音。

20.根据权利要求11-19任一项所述的拾音系统，其特征在于，

所述第一设备还被配置为：响应于所述第一用户的第三操作，处于近场拾音状态，以及拾取第三声音；

所述第二设备还被配置为：响应于所述第二用户的第四操作，处于全场拾音状态，以及拾取第四声音；

当所述第三声音和所述第四声音混合后的混音被播放时，所述第三设备对应的目标声音被播放出来，所述第三设备对应的目标声音以外的其他声音被减弱或者被去除，其中，所述第三声音包括所述第三设备对应的目标声音。

21.一种拾音方法，其特征在于，应用于拾音系统中的控制设备，所述拾音系统还包括第一设备和可拾取到所述第一设备所在位置声音的第二设备，其中，所述第一设备和所述第二设备组成用于形成混音的拾音网络；所述拾音方法包括：

获取所述第一设备的第一信息，并获取所述第二设备的第二信息；所述第一信息包括所述第一设备响应于第一用户的第一操作在非静音状态下拾取的第一声音和所述第一设备的非静音状态；所述第二信息包括所述第二设备响应于第二用户的第二操作在静音状态下拾取的第二声音和所述第二设备的静音状态；

在所述第一声音和所述第二声音混合后的混音中减弱或者去除所述第二设备对应的目标声音，其中，所述第二声音包括所述第二设备对应的目标声音。

22.根据权利要求21所述的拾音方法，其特征在于，所述非静音状态包括近场拾音状态和全场拾音状态。

23.根据权利要求21-22任一项所述的拾音方法，其特征在于，所述拾音方法还包括:

当所述第一设备处于全场拾音状态时，获取在混音中减弱或者去除所述第二设备对应的目标声音后的第一混音；

对所述第一设备和所述第二设备的拾音质量进行打分；

24.一种电子设备，其特征在于，所述电子设备包括存储器、一个或多个处理器；所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求21-23任一项所述的拾音方法。