CN113965715B

CN113965715B - 一种设备协同控制方法和装置

Info

Publication number: CN113965715B
Application number: CN202111069283.1A
Authority: CN
Inventors: 刘诗聪
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2022-11-11
Anticipated expiration: 2041-09-13
Also published as: CN113965715A

Abstract

本申请提供一种设备协同控制方法和装置，涉及终端领域，能够在进行音视频会议的过程中更好地采集用户的语音，提高用户体验。其方法为：响应于用户的第一操作，第一电子设备开启音视频会议应用；根据第二电子设备的麦克风/扬声器能力和第三电子设备的麦克风/扬声器能力确定目标设备，目标设备为第二电子设备和第三电子设备中麦克风/扬声器能力较强的一个；从第二电子设备接收第一信息，第一信息用于指示用户是否靠近第二电子设备；从第三电子设备接收第二信息，第二信息用于指示用户是否靠近第三电子设备；根据第一信息和第二信息更新目标设备；接收更新后的目标设备的麦克风采集的音频流；通过音视频会议应用将音频流发送到云服务器。

Description

一种设备协同控制方法和装置

技术领域

本申请涉及终端领域，尤其涉及一种设备协同控制方法和装置。

背景技术

随着智能设备的不断发展，智能设备间的协同也越来越普遍。例如，目前用户在开视频会议时，可以通过手机运行视频会议软件，选择电视的摄像头采集会议的图像并通过电视的显示屏显示图像，选择电视或音箱的麦克风/扬声器进行音频输入/输出。

但是，当会议场景发生变化(例如，发生人员走动)，初始选择的音频输入/输出设备(电视或音箱的麦克风/扬声器)可能不能很好地采集用户的语音信号，导致用户体验差。

发明内容

本申请提供一种设备协同控制方法和装置，在进行音视频会议的过程中可以更好地采集用户的语音，提高用户体验。

第一方面，本申请提供一种设备协同控制方法，包括：响应于用户的第一操作，第一电子设备开启音视频会议应用；第一电子设备分别向第二电子设备和第三电子设备发送第一请求，第一请求用于请求麦克风/扬声器能力；第一电子设备分别从第二电子设备和第三电子设备接收麦克风/扬声器能力；第一电子设备根据第二电子设备的麦克风/扬声器能力和第三电子设备的麦克风/扬声器能力确定目标设备，目标设备为第二电子设备和第三电子设备中麦克风/扬声器能力较强的一个；第一电子设备向第二电子设备发送第二请求，第二请求用于请求第二电子设备上报用户是否靠近第二电子设备的信息；第一电子设备从第二电子设备接收第一信息，第一信息用于指示用户是否靠近第二电子设备；第一电子设备向第二电子设备发送第三请求，第三请求用于请求第三电子设备上报用户是否靠近第三电子设备的信息；第一电子设备从第三电子设备接收第二信息，第二信息用于指示用户是否靠近第三电子设备；第一电子设备根据第一信息和第二信息更新目标设备；第一电子设备接收更新后的目标设备的麦克风采集的音频流；第一电子设备通过音视频会议应用将音频流发送到云服务器。

基于本申请提供的方法，第一电子设备(例如，手机)开启音视频会议应用后，可以先根据第二电子设备(例如，电视)和第三电子设备(例如，音箱)的麦克风/扬声器能力选择一个目标设备，再根据第二电子设备和第三电子设备上报的信息(第二信息和第三信息)更新目标设备，这样可以实现随着会议场景的动态变化(例如，发言人走动、不同位置的发言人发言)，总是选择靠近用户的电子设备的麦克风/扬声器作为音频输入/输出设备，无需用户手动操作，可以在场景动态变化的情况下更好地采集用户的语音，提高用户体验。

在一种可能的实现方式中，第一信息包括用于指示用户是否靠近第二电子设备的信息，或者第一信息包括第二电子设备的麦克风采集到的用户的语音分贝大小，第二电子设备根据图像得到的人数以及每个人与第二电子设备的距离信息，或者第二电子设备的距离传感器采集到的用户与第二电子设备的距离信息中的至少一种；第二信息包括用于指示用户是否靠近第三电子设备的信息，或者第二信息包括第三电子设备的麦克风采集到的用户的语音分贝大小。以第一电子设备为手机，第二电子设备为电视，第三电子设备为音箱为例，电视可以向手机发送电视判断得到的用户靠近或远离电视的信息(例如，0表示远离，1表示靠近)，以便手机根据用户靠近或远离电视的信息确定是否更新音频输入/输出设备。或者，电视可以向手机发送电视的麦克风采集到的用户的语音分贝大小、根据图像得到的人数和距离信息或者距离传感器采集到的信息中的至少一种，以便手机根据上述信息确定是否更新音频输入/输出设备。音箱可以向手机发送音箱判断得到的用户靠近或远离音箱的信息(例如，0表示远离，1表示靠近)，以便手机根据用户靠近或远离音箱的信息确定是否更新音频输入/输出设备。或者，音箱可以向手机发送音箱的麦克风采集到的用户的语音分贝大小，以便手机根据上述信息确定是否更新音频输入/输出设备。

在一种可能的实现方式中，第一电子设备根据第一信息和第二信息更新目标设备包括：若第一信息用于指示用户靠近第二电子设备，第二信息用于指示用户远离第三电子设备，确定目标设备为第二电子设备；或者若第一信息用于指示用户远离第二电子设备，第二信息用于指示用户靠近第三电子设备，确定目标设备为第三电子设备。这样可以实现随着会议场景的动态变化(例如，发言人走动、不同位置的发言人发言)，总是选择靠近用户的电子设备的麦克风/扬声器作为音频输入/输出设备，无需用户手动操作，可以在场景动态变化的情况下更好地采集用户的语音，提高用户体验。

在一种可能的实现方式中，麦克风/扬声器能力包括麦克风/扬声器是否支持立体声，麦克风是否支持降噪，麦克风的拾音范围中的至少一种。

在一种可能的实现方式中，方法还包括：第一电子设备向第二电子设备发送第四请求，第四请求用于请求第二电子设备检测第二电子设备前方的人数以及每个人与第二电子设备之间的距离；第一电子设备从第二电子设备接收人数和距离信息，人数和距离信息用于指示第二电子设备前方的人数以及每个人与第二电子设备之间的距离；第一电子设备根据人数和距离信息更新目标设备。由于仅根据电子设备(第二电子设备或第三电子设备)的麦克风/扬声器能力目标设备具有局限性，可能无法很好地适配当前环境。例如虽然第三电子设备的麦克风/扬声器能力更强，但目前开会的成员距离第二电子设备更近，此时选择将第三电子设备的麦克风/扬声器作为音频输入/输出设备就不太合适。因此可以请求电子设备(例如，第二电子设备)确定出人数和距离信息，根据人数和距离信息更新目标设备，这样可以更好地适配当前环境。

在一种可能的实现方式中，若第二电子设备为电视，第三电子设备为音箱，第一电子设备根据人数和距离信息更新目标设备包括：若第二电子设备前方的人数小于或等于第一预设阈值，确定目标设备为电视；若第二电子设备前方的人数大于第一预设阈值，确定目标设备为音箱；或者若靠近电视的人数占第二电子设备前方的人数的比例大于或等于第二预设阈值，确定目标设备为电视；若确定靠近电视的人数占第二电子设备前方的人数的比例小于第二预设阈值，确定目标设备为音箱。可以理解的是，开会的人数较少时，人员通常聚集在电视的前方，方便看到电视的屏幕。这样，采用电视的麦克风/扬声器作为音频输入/输出设备就可以较好地采集到人员的发言。开会的人数较多时，人员无法都聚集在电视的前方，通常是分散在办公桌周围。此时采用音箱的麦克风/扬声器作为音频输入/输出设备可以较好地采集到人员的发言。

在一种可能的实现方式中，第一电子设备分别与第二电子设备和第三电子设备建立蓝牙连接或无线保真Wi-Fi连接。第一电子设备、第二电子设备和第三电子设备可以同时连接到路由器，或者第一电子设备和第二电子设备以及第三电子设备之间可以分别建立Wi-Fi直连或蓝牙连接，本申请不做限定。

在一种可能的实现方式中，第一电子设备向目标设备发送来自云服务器的音频流，通过目标设备的扬声器播放云服务器的音频流。即可以通过目标设备的扬声器播放其他会议成员的音频数据。

第二方面，本申请提供一种设备协同控制系统，设备协同控制系统包括第一电子设备、第二电子设备和第三电子设备，其中：第一电子设备用于响应于用户的第一操作，开启音视频会议应用；第一电子设备还用于分别向第二电子设备和第三电子设备发送第一请求，第一请求用于请求麦克风/扬声器能力；第二电子设备用于查询麦克风/扬声器能力，并向第一电子设备发送第二电子设备的麦克风/扬声器能力；第三电子设备用于查询麦克风/扬声器能力，并向第一电子设备发送第三电子设备的麦克风/扬声器能力；第一电子设备还用于分别从第二电子设备和第三电子设备接收麦克风/扬声器能力；第一电子设备还用于根据第二电子设备的麦克风/扬声器能力和第三电子设备的麦克风/扬声器能力确定目标设备，目标设备为第二电子设备和第三电子设备中麦克风/扬声器能力较强的一个；第一电子设备还用于向第二电子设备发送第二请求，第二请求用于请求第二电子设备上报用户是否靠近第二电子设备的信息；第二电子设备还用于向第一电子设备发送第一信息，第一信息用于指示用户是否靠近第二电子设备；第一电子设备还用于从第二电子设备接收第一信息；第一电子设备还用于向第三电子设备发送第三请求，第三请求用于请求第三电子设备上报用户是否靠近第三电子设备的信息；第三电子设备还用于向第一电子设备发送第二信息，第二信息用于指示用户是否靠近第三电子设备；第一电子设备还用于从第三电子设备接收第二信息；第一电子设备还用于根据第一信息和第二信息更新目标设备；第一电子设备还用于接收更新后的目标设备的麦克风采集的音频流；第一电子设备还用于通过音视频会议应用将音频流发送到音视频会议应用服务器。

在一种可能的实现方式中，第一信息包括用于指示用户是否靠近第二电子设备的信息，或者第一信息包括第二电子设备的麦克风采集到的用户的语音分贝大小，第二电子设备根据图像得到的人数以及每个人与第二电子设备的距离信息，或者第二电子设备的距离传感器采集到的用户与第二电子设备的距离信息中的至少一种；第二信息包括用于指示用户是否靠近第三电子设备的信息，或者第二信息包括第三电子设备的麦克风采集到的用户的语音分贝大小。

在一种可能的实现方式中，若第一信息包括第二电子设备根据图像得到的人数以及每个人与第二电子设备的距离信息，第二电子设备还用于：采集图像；根据人体特征提取算法识别图像中的全部人体轮廓或人脸，根据人体轮廓或人脸的数目得到人数信息；根据不同人体轮廓或人脸在图像中的比例大小确定不同人与第二电子设备的距离。这样，可以根据图像得到的人数以及每个人与第二电子设备的距离信息，从而可以根据人数和距离信息更新目标设备。

在一种可能的实现方式中，若第一信息包括用于指示用户是否靠近第二电子设备的信息，第二电子设备还用于：在每个预设时间间隔从麦克风获取用户的语音分贝大小，判断用户的语音分贝是否小于等于第三预设阈值，若用户的语音分贝小于等于第三预设阈值，确定用户远离第二电子设备；若用户的语音分贝大于第三预设阈值，确定用户靠近第二电子设备；和/或在每个预设时间间隔采集图像，根据图像计算人数以及每个人与第二电子设备的距离信息，若人数和距离信息满足预设条件，确定用户靠近第二电子设备；若人数和距离信息不满足预设条件，确定用户远离第二电子设备。即可以根据人数和距离信息确定用户是否靠近第二电子设备，也可以根据语音分贝大小确定用户是否靠近第二电子设备，从而可以根据用户是否靠近第二电子设备的信息更新目标设备。

在一种可能的实现方式中，若第二信息包括用于指示用户是否靠近第三电子设备的信息，第三电子设备还用于：在每个预设时间间隔从麦克风获取用户的语音分贝大小，判断用户的语音分贝是否小于等于第三预设阈值，若用户的语音分贝小于等于第三预设阈值，确定用户远离第三电子设备；若用户的语音分贝大于第三预设阈值，确定用户靠近第三电子设备。即可以根据语音分贝大小确定用户是否靠近第二电子设备，从而可以根据用户是否靠近第二电子设备的信息更新目标设备。

第三方面，本申请提供一种芯片系统，该芯片系统包括一个或多个接口电路和一个或多个处理器。该接口电路和处理器通过线路互联。

上述芯片系统可以应用于包括通信模块和存储器的第一电子设备。该接口电路用于从电子设备的存储器接收信号，并向处理器发送接收到的信号，该信号包括存储器中存储的计算机指令。当处理器执行该计算机指令时，第一电子设备可以执行如第一方面及其任一种可能的设计方式所述的方法。

第四方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令。当计算机指令在第一电子设备(如手机)上运行时，使得该第一电子设备执行如第一方面及其任一种可能的设计方式所述的方法。

第五方面，本申请提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面及其任一种可能的设计方式所述的方法。

第六方面，本申请提供了一种设备协同控制的装置，包括处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时使得所述装置实现上述第一方面及其任一种可能的设计方式所述的方法。所述装置可以为第一电子设备；或可以为第一电子设备中的一个组成部分，如芯片。

第七方面，本申请提供了一种设备协同控制的装置，所述装置可以按照功能划分为不同的逻辑单元或模块，各单元或模块执行不同的功能，以使得所述装置执行上述第一方面及其任一种可能的设计方式所述的方法。

可以理解地，上述提供的第三方面所述的芯片系统，第四方面所述的计算机可读存储介质，第五方面所述的计算机程序产品及第六方面和第七方面所述的装置所能达到的有益效果，可参考如第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的又一种系统架构示意图；

图3为本申请实施例提供的一种电子设备的结构示意图；

图4为本申请实施例提供的一种电子设备的软件架构示意图；

图5为本申请实施例提供的一种音箱、手机和电视的软件模块架构示意图；

图6为本申请实施例提供的一种信号交互示意图；

图7为本申请实施例提供的一种场景示意图；

图8为本申请实施例提供的又一种场景示意图；

图9为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

本申请实施例提供一种设备协同控制方法，在手机、电视和音箱协同配合进行视频会议的场景中(手机同时连接音箱和大屏，或者手机同时连接多个音箱或多个大屏)，手机可以基于音箱和大屏的麦克风/扬声器能力选择音频输入/输出设备(例如，选择音箱的麦克风/扬声器作为音频输入/输出设备，或者选择电视的麦克风/扬声器作为音频输入/输出设备)。本申请实施例提供的方法无需用户手动操作和设置，即无需用户在手机的视频会议软件界面中选择采用哪个设备(例如，电视或音箱)的麦克风/扬声器作为音频输入/输出设备。本申请实施例中，随着场景的动态变化(例如，发言人走动、不同位置的发言人发言)，手机可以自动选择更靠近用户(或者，靠近更多用户)的设备的麦克风/扬声器作为音频输入/输出设备。且可以达到在场景动态变化的情况下更好地采集用户的语音的效果，避免用户配置完成后设备间的协同关系固定不变，难以适应场景变动(例如，会议室内人员走动的场景)的情况。基于本申请实施例提供的方法，手机、电视和音箱等电子设备可以更加智能协同配合，为用户提供更好地视频会议体验。

本申请实施例涉及的系统架构可以包括多个电子设备，例如可以包括手机101、音箱102和电视103。可选的，还可以包括路由器104。多个电子设备之间可以进行组网，组网后多个电子设备之间可以进行信息交互。组网方式包含不限于以下方式：

(1)、无线保真(wireless fidelity，WIFI)组网方式：多个电子设备可以接入同一个路由设备(例如，路由器)。如图1所示，手机101、音箱(智能音箱)102、电视(智能电视)103可以接入路由器104，组成一个家庭网络。

(2)、蓝牙组网方式：如图2所示，音箱102和电视103可以连接到同一个蓝牙设备(例如，手机101)，即手机101、音箱102和电视103可以组成一个蓝牙网络。

(3)、热点组网方式：如图2所示，音箱102和电视103可以接入手机101，组成一个热点网络，手机101可以作为热点设备。

(4)、混合组网方式：手机101和音箱102可以建立蓝牙连接，手机101和电视103可以建立WIFI P2P连接。

本申请实施例中，电子设备可以包括手机、个人计算机(personal computer，PC)、平板电脑、台式机(桌面型电脑)、手持计算机、笔记本电脑(膝上型电脑)、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigital assistant，PDA)、路由器、电视等设备。或者，电子设备可以包括音响、摄像头、空调、电冰箱、智能窗帘、台灯、吊灯、电饭煲、安防设备(如智能电子锁)、机器人、扫地机、智能秤等可以接入家庭无线局域网的设备。或者，电子设备可以包括智能耳机、智能眼镜、智能手表、智能手环、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备、无线定位器、追踪器(Tracker)、电子项圈等穿戴设备，本申请实施例中的电子设备还可以是车载音响、车载空调等设备。本申请实施例对电子设备的具体形态不作特殊限制。

如图3所示，本申请实施例以电子设备200(如手机)为例，对本申请实施例提供的电子设备的结构进行举例说明。电子设备200(如手机)可以包括：处理器210，外部存储器接口220，内部存储器221，通用串行总线(universal serial bus，USB)接口230，充电管理模块240，电源管理模块241，电池242，天线1，天线2，移动通信模块250，无线通信模块260，音频模块270，扬声器270A，受话器270B，麦克风270C，耳机接口270D，传感器模块280，按键290，马达291，指示器292，摄像头293，显示屏294，以及用户标识模块(subscriberidentification module，SIM)卡接口295等。

其中，上述传感器模块280可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器和骨传导传感器等传感器。

可以理解的是，本实施例示意的结构并不构成对电子设备200的具体限定。在另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以是电子设备200的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器210中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器210的等待时间，因而提高了系统的效率。

在一些实施例中，处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备200的结构限定。在另一些实施例中，电子设备200也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。充电管理模块240为电池242充电的同时，还可以通过电源管理模块241为电子设备供电。

电源管理模块241用于连接电池242，充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210，内部存储器221，外部存储器，显示屏294，摄像头293，和无线通信模块260等供电。在一些实施例中，电源管理模块241和充电管理模块240也可以设置于同一个器件中。

电子设备200的无线通信功能可以通过天线1，天线2，移动通信模块250，无线通信模块260，调制解调处理器以及基带处理器等实现。在一些实施例中，电子设备200的天线1和移动通信模块250耦合，天线2和无线通信模块260耦合，使得电子设备200可以通过无线通信技术与网络以及其他设备通信。

天线1和天线2用于发射和接收电磁波信号。电子设备200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块250可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块250可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块250可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。

移动通信模块250还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块250的至少部分功能模块可以被设置于处理器210中。在一些实施例中，移动通信模块250的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。

无线通信模块260可以提供应用在电子设备200上的包括WLAN(如(wirelessfidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigationsatellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(nearfield communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

电子设备200通过GPU，显示屏294，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏294和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏294用于显示图像，视频等。该显示屏294包括显示面板。

电子设备200可以通过ISP，摄像头293，视频编解码器，GPU，显示屏294以及应用处理器等实现拍摄功能。ISP用于处理摄像头293反馈的数据。摄像头293用于捕获静态图像或视频。在一些实施例中，电子设备200可以包括1个或N个摄像头293，N为大于1的正整数。

外部存储器接口220可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。外部存储卡通过外部存储器接口220与处理器210通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令，从而执行电子设备200的各种功能应用以及数据处理。例如，在本申请实施例中，处理器210可以通过执行存储在内部存储器221中的指令，内部存储器221可以包括存储程序区和存储数据区。

其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备200使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器221可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflash storage，UFS)等。

电子设备200可以通过音频模块270，扬声器270A，受话器270B，麦克风270C，耳机接口270D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

按键290包括开机键，音量键等。按键290可以是机械按键。也可以是触摸式按键。马达291可以产生振动提示。马达291可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口295用于连接SIM卡。SIM卡可以通过插入SIM卡接口295，或从SIM卡接口295拔出，实现和电子设备200的接触和分离。电子设备200可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口295可以支持Nano SIM卡，Micro SIM卡，SIM卡等。

电子设备的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备(例如，手机)的软件结构。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过接口通信。在一些实施例中，Android系统可以包括应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，硬件抽象层(hardware abstraction layer，HAL)以及内核层。需要说明的是，本申请实施例以Android系统举例来说明，在其他操作系统中(例如鸿蒙系统，IOS系统等)，只要各个功能模块实现的功能和本申请的实施例类似也能实现本申请的方案。

其中，应用程序层可以包括一系列应用程序包。

如图4所示，应用程序包可以包括相机，图库，日历，地图，WLAN，音乐，短信息、视频会议应用和协同助手等应用程序。当然，应用程序层还可以包括其他应用程序包，例如视频，蓝牙，购物应用、聊天应用等，本申请不做限定。

其中，协同助手应用可以从其他设备(例如，音箱和电视)接收信息(例如，音箱和电视采集到的语音的大小信息)，根据音箱和电视上报的信息仲裁当前最佳音频输入设备。例如，若确定当前音频输入设备是电视，可以通知电视上报音频流。协同助手应用从电视得到音频流后可以将音频流发送给视频会议应用。

视频会议应用可以将音频流发送到云服务器(例如，音视频会议应用对应的服务器)，以便云服务器可以向视频会议中其他成员发送该音频流。视频会议应用也可以是音频会议应用，本申请不做限定。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。例如可以包括活动管理器、窗口管理器，内容提供器，视图系统，资源管理器，通知管理器，音频服务(Camera Service)等，本申请实施例对此不做任何限制。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，OpenGL ES，SGL等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

OpenGL ES用于实现三维图形绘图，图像渲染，合成，和图层处理等。

SGL是2D绘图的绘图引擎。

安卓运行时(Android Runtime)包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头(Camera)驱动，音频驱动，传感器驱动等，本申请不做限定。

其中，摄像头驱动是Camera器件的驱动层，主要负责和摄像头的交互。

音频驱动是麦克风/扬声器的驱动层，主要负责和麦克风/扬声器的交互。

硬件层可以包括显示器、摄像头、麦克风/扬声器等。

其中，麦克风/扬声器可以包括多个，多个麦克风可以构成麦克风/扬声器矩阵。

下面对本申请实施例提供的设备协同方法所涉及的设备间的交互以及设备的内部模块交互进行说明。如图5所示，音箱和电视可以具有与手机类似的软件架构。电视的应用程序层包括协同助手APP。电视的应用程序框架层可以包括音频服务、摄像头服务、距离检测服务和投屏服务等。电视的内核层可以包括音频驱动、摄像头驱动、距离检测驱动和显示驱动等。电视的硬件层可以包括麦克风(麦克风可以有多个，例如1-N个)，扬声器(扬声器可以有多个，例如1-N个)，摄像头(摄像头可以有多个，例如1-N个)，距离传感器(例如，可以是红外传感器)以及显示器。音箱的应用程序层包括协同助手APP。音箱的应用程序框架层可以包括音频服务。音箱的内核层可以包括音频驱动。音箱的硬件层可以包括麦克风(麦克风可以有多个，例如1-N个)，扬声器(扬声器可以有多个，例如1-N个)。

如图5所示，手机的视频会议应用(视频会议APP)可以向电视的投屏服务发送视频流，电视的投屏服务可以将视频流发送至显示驱动，显示驱动可以将视频流发送至显示器进行显示。

电视的协同助手应用(协同助手APP)可以通过音频服务向音频驱动发送麦克风/扬声器能力请求，音频服务可以为应用程序层的协同助手APP与内核层的音频驱动之间提供API。音频驱动接收到麦克风/扬声器能力请求后可以查询麦克风/扬声器能力信息，音频驱动得到麦克风/扬声器能力信息后可以通过音频服务将麦克风/扬声器能力信息发送至协同助手APP。电视的协同助手APP可以将电视的麦克风/扬声器能力信息发送至手机的协同助手APP。电视的协同助手APP中可以包括网络通信模块，手机的协同助手APP中也可以包括网络通信模块，电视的协同助手APP和手机的协同助手APP可以通过网络通信模块进行信息交互。类似的，音箱的协同助手APP可以通过音频服务向音频驱动发送麦克风/扬声器能力请求，音频驱动接收到麦克风/扬声器能力请求后可以查询麦克风/扬声器能力信息，音频驱动得到麦克风/扬声器能力信息后可以通过音频服务将麦克风/扬声器能力信息发送至协同助手APP。音箱的协同助手APP可以将音箱的麦克风/扬声器能力信息发送至手机的协同助手APP。音箱的协同助手APP中可以包括网络通信模块，手机的协同助手APP中也可以包括网络通信模块，音箱的协同助手APP和手机的协同助手APP可以通过网络通信模块进行信息交互。手机的协同助手APP接收到电视和音箱的麦克风/扬声器能力信息后，可以根据电视和音箱的麦克风/扬声器能力信息确定选择音频输入/输出设备。另外，手机的协同助手APP可以通过音频服务向音频驱动发送麦克风/扬声器能力请求，音频驱动接收到麦克风/扬声器能力请求后可以查询麦克风/扬声器能力信息，音频驱动得到麦克风/扬声器能力信息后可以通过音频服务将麦克风/扬声器能力信息发送至协同助手APP。这样，手机可以根据手机、电视和音箱的麦克风/扬声器能力信息确定选择音频输入/输出设备。

进一步的，电视的协同助手APP可以向音频服务发送语音分贝检测请求。音频驱动可以从麦克风获取用户的语音分贝，并通过音频服务用户的语音分贝发送至电视的协同助手APP。电视的协同助手APP可以根据用户的语音分贝确定用户是否靠近电视，并将用户是否靠近电视的信息发送给手机的协同助手APP。手机的协同助手APP可以根据电视发送的用户是否靠近电视的信息确定是否重新选择音频输入/输出设备。

可选的，电视的协同助手APP可以向距离检测服务发送距离检测请求，距离检测服务可以通过摄像头服务向摄像头驱动发送图像采集请求。摄像头驱动可以指示摄像头采集图像，并从摄像头获取采集到的图像，摄像头驱动可以通过摄像头服务将采集到的图像发送至距离检测服务。距离检测服务根据图像检测出图像中的人数和距离信息后，可以将人数和距离信息发送给电视的协同助手APP。电视的协同助手APP可以根据人数和距离信息确定用户是否靠近电视，并将用户是否靠近电视的信息发送给手机的协同助手APP。手机的协同助手APP可以根据电视发送的用户是否靠近电视的信息确定是否重新选择音频输入/输出设备。

可选的，电视的协同助手APP可以向距离检测服务发送距离检测请求，距离检测服务可以通过传感器服务向传感器驱动发送图像采集请求。传感器驱动可以指示距离传感器(例如，红外传感器)采集红外信息，并从红外传感器获取红外信息。传感器驱动可以通过传感器服务将采集到的红外信息发送至距离检测服务。距离检测服务根据红外信息检测是否有人靠近电视，并将检测结果发送给电视的协同助手APP。电视的协同助手APP可以根据检测结果确定用户是否靠近电视，并将用户是否靠近电视的信息发送给手机的协同助手APP。手机的协同助手APP可以根据电视发送的用户是否靠近电视的信息确定是否重新选择音频输入/输出设备。

音箱的协同助手APP也可以向音频服务发送语音分贝检测请求。音频驱动可以从麦克风获取用户的语音分贝，并通过音频服务用户的语音分贝发送至音箱的协同助手APP。音箱的协同助手APP可以根据用户的语音分贝确定用户是否靠近音箱，并将用户是否靠近音箱的信息发送给手机的协同助手APP。手机的协同助手APP可以根据音箱发送的用户是否靠近音箱的信息确定是否重新选择音频输入/输出设备。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请的描述中，除非另有说明，“至少一个”是指一个或多个，“多个”是指两个或多于两个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

为了便于理解，以下结合附图对本申请实施例提供的设备协同控制方法进行具体介绍。

如图6所示，本申请实施例提供一种设备协同控制方法，以第一电子设备为手机、第二电子设备为电视，第三电子设备为音箱为例进行说明，包括：

601、手机的视频会议应用接收用户开启视频会议的操作(第一操作)。

用户(例如，用户A)可以创建一个视频会议并加入，或者用户可以通过其他用户(例如，用户B)发送的会议ID和会议密码远程加入视频会议，本申请不做限定。

手机的视频会议APP可以向电视发送视频会议的视频流，电视可以通过显示屏显示视频会议的视频流。如图7所示，用户701可以通过手机101开启视频会议。假设当前视频会议有三方人员参与，电视103可以显示三方人员的视频画面，例如包括视频画面703、视频画面704和视频画面705。其中，视频画面703可以是电视103采集到的用户701和用户702的视频画面。视频画面704和视频画面705可以是手机的视频会议APP从云服务器接收到的。

602、手机的视频会议应用向手机的音频驱动发送麦克风/扬声器能力请求(第一请求)。

603、手机的音频驱动向手机的协同助手应用发送麦克风/扬声器能力请求(第一请求)。

604、手机的协同助手应用与音箱的协同助手应用建立连接。

示例性的，手机的协同助手应用与音箱的协同助手应用可以建立蓝牙连接、WIFI连接等，本申请不做限定。

605、手机的协同助手应用向音箱的协同助手应用发送麦克风/扬声器能力请求。

606、音箱的协同助手应用向音箱的音频驱动发送麦克风/扬声器能力请求。

音箱的音频驱动接收到麦克风/扬声器能力请求后，可以查询麦克风/扬声器能力。其中，麦克风/扬声器能力可以包括麦克风的能力和/或扬声器的能力。麦克风的能力可以包括麦克风是否支持立体声，是否支持降噪，拾音范围(例如，5米、10米等)等。扬声器的能力可以包括扬声器是否支持立体声等。

在一种可能的设计中，音箱的音频驱动可以向麦克风/扬声器发送能力查询请求，麦克风/扬声器接收到能力查询请求后，可以向音频驱动返回自身的器件类型(品牌和器件型号)，音频驱动得到麦克风的器件类型后，可以通过查表的方式确定麦克风的能力。示例性的，手机的内存中可以预先存储如表1所示的能力信息表格，可以通过查询表1获知麦克风/扬声器能力。

表1

607、音箱的音频驱动向音箱的协同助手应用发送麦克风/扬声器能力。

608、音箱的协同助手应用向手机的协同助手应用发送音箱的麦克风/扬声器能力。

609、手机的协同助手应用与电视的协同助手应用建立连接。

示例性的，手机的协同助手应用与电视的协同助手应用可以建立蓝牙连接、WIFI连接等。

610、手机的协同助手应用向电视的协同助手应用发送麦克风/扬声器能力请求。

611、电视的协同助手应用向电视的音频驱动发送麦克风/扬声器能力请求。

612、电视的音频驱动向电视的协同助手应用发送麦克风/扬声器能力。

示例性的，电视的麦克风的拾音能力例如可以达到正面(电视的屏幕朝向的面)5米。

电视的音频驱动获取麦克风/扬声器能力的具体过程可以参考步骤606的相关说明，在此不做赘述。

613、电视的协同助手应用向手机的协同助手应用发送麦克风/扬声器能力。

需要说明的是，步骤604-步骤608与步骤609-步骤613之间没有必然的执行先后顺序，本实施例对各步骤之间的执行先后顺序不作具体限定。

614、手机的协同助手应用根据电视的麦克风/扬声器能力和音箱的麦克风/扬声器能力选择音频输入/输出设备。

手机确定音箱和电视中麦克风/扬声器能力更强的设备(目标设备)，将该设备的麦克风/扬声器作为手机的音频输入/输出设备。例如，若音箱的麦克风支持立体声和降噪，而电视的麦克风不支持立体声和降噪，则可以将音箱的麦克风作为视频会议中的音频输入设备，将音箱的扬声器作为视频会议中的音频输出设备。即在视频会议过程中，可以采用音箱的麦克风拾取用户的语音信号，以及采用音箱的扬声器播放视频会议中其他成员的语音信号。示例性的，如图7所示，确定采用音箱102的麦克风拾取用户的语音信号，以及采用音箱102的扬声器播放视频会议中其他成员(例如，视频画面704和视频画面705中的成员)的语音信号。

本申请实施例中，可以先根据麦克风的能力选择音频输入设备，选定音频输入设备后，将同一个设备的扬声器作为音频输出设备，这样可以避免回声干扰。这是因为同一个设备可以采用回声处理算法尽量消除回音，若采用不同的设备的扬声器和麦克风作为音频输入设备和音频输出设备，会导致较为严重的回声干扰。

另外，手机的麦克风/扬声器也可以采集用户的语音，手机的协同助手应用可以根据电视的麦克风/扬声器能力和音箱的麦克风/扬声器能力和手机的麦克风/扬声器能力选择音频输入/输出设备。手机确定手机、音箱和电视中麦克风/扬声器能力更强的设备，将该设备的麦克风/扬声器作为手机的音频输入/输出设备。

615、若手机选择将音箱的麦克风/扬声器作为音频输入/输出设备，手机的协同助手应用通知音箱的协同助手应用上传音频流。

616、音箱的协同助手应用从音箱的音频驱动接收音频流。

音箱的麦克风可以采集当前环境中用户的语音信号，并可以对采集到的语音信号进行降噪处理得到音频流。音箱的音频驱动可以从音箱的麦克风获取音频流，并将音频流发送给音箱的协同助手应用。

617、音箱的协同助手应用向手机的协同助手应用发送音频流。

手机的协同助手应用接收到音箱发送的音频流后向视频会议应用发送该音频流。视频会议应用可以向云服务器发送该音频流，云服务器可以向视频会议中其他成员发送该音频流。

手机的协同助手应用可以向音箱的协同助手应用发送视频会议中其他成员的音频流，音箱的协同助手应用可以通过音箱的扬声器播放其他成员的音频流。

由于仅根据设备(例如，电视或音箱)的麦克风/扬声器能力选择音频输入/输出设备具有局限性，可能无法很好地适配当前环境。例如虽然音箱的麦克风/扬声器能力更强，但目前开会的成员距离电视更近，此时选择将音箱的麦克风/扬声器作为音频输入/输出设备就不太合适。为了解决上述问题，还可以包括以下步骤：

618、手机的协同助手应用向电视的协同助手应用发送人数和距离的检测请求。

其中，人数和距离的检测请求(第四请求)用于请求电视的协同助手应用检测电视前方的人数以及每个人与电视之间的距离。

619、电视的协同助手应用向电视的距离检测模块发送人数和距离的检测请求。

620、电视的距离检测模块向电视的摄像头驱动发送图像采集请求。

其中，图像采集请求用于请求摄像头驱动采集图像。由于电视具有摄像头且该摄像头的视野较大，因此根据电视采集到的图像可以较为准确地判断出当前环境中存在的人数和人相距电视的距离。

621、电视的摄像头驱动向电视的距离检测模块返回摄像头采集的图像。

电视的摄像头驱动接收到图像采集请求后，可以向电视的一个或多个摄像头发送拍摄请求，该一个或多个摄像头接收到拍摄请求后，可以拍摄图像，并向摄像头驱动返回拍摄的图像。如图7所示，电视的摄像头拍摄的图片可以如视频画面703(视频画面的一帧)所示。

在一些实施例中，若电视包括一个摄像头，摄像头驱动可以指示一个摄像头采集一帧图像。在又一些实施例中，若电视包括多个(两个或两个以上)摄像头，摄像头驱动可以指示多个摄像头同时采集一帧图像。

622、电视的距离检测模块根据图像计算人数和距离信息。

在一种可能的设计中，距离检测模块可以根据人体特征提取算法识别出图像中的全部人体轮廓或人脸，从而可以得出人数。具体的，根据人体特征提取算法识别人体轮廓可以是对图像中像素组成的各个形状进行提取，与预设数据库中存储的多个人体轮廓或人脸进行比较，从而确定图像中的各个形状是否属于人体轮廓或人脸。进一步的，可以根据不同人体轮廓或人脸在图像中的比例大小确定不同人体轮廓对应的人距离电视的距离远近。

在又一种可能的设计中，距离检测模块可以对不同摄像头同时采集的图像进行处理得到深度图像信息，在深度图像信息中分割出每个人(人脸或人体)的深度图像信息，再根据人脸或人体的深度图像信息确定人脸或人体与电视的距离。

623、电视的距离检测模块向电视的协同助手应用返回人数和距离信息。

624、电视的协同助手应用向手机的协同助手应用返回人数和距离信息。

625、手机的协同助手应用根据人数和距离信息确定是否更新音频输入/输出设备。

在一种可能的设计中，若人数小于或等于第一预设阈值，可以将电视的麦克风/扬声器作为音频输入/输出设备。可以理解的是，开会的人数较少时，人员通常聚集在电视的前方，方便看到电视的屏幕。这样，采用电视的麦克风/扬声器作为音频输入/输出设备就可以较好地采集到人员的发言。示例性的，假设第一预设阈值为3，如图7所示，人数为2，因此可以在图7所示的场景下将电视的麦克风/扬声器作为音频输入/输出设备。

若人数大于第一预设阈值，可以将音箱的麦克风/扬声器作为音频输入/输出设备。可以理解的是，开会的人数较多时，人员无法都聚集在电视的前方，通常是分散在办公桌周围。此时采用音箱的麦克风/扬声器作为音频输入/输出设备可以较好地采集到人员的发言。

在又一种可能的设计中，若根据人数和距离信息确定靠近电视的人数占总人数的比例大于或等于第二预设阈值，可以将电视的麦克风/扬声器作为音频输入/输出设备。若根据人数和距离信息确定靠近电视的人数占总人数的比例小于第二预设阈值，可以将音箱的麦克风/扬声器作为音频输入/输出设备。例如，假设第二预设阈值为0.5，如图7所示，人数为2，且该2人都靠近电视，因此可以将电视的麦克风/扬声器作为音频输入/输出设备。又例如，若根据图像确定总人数为8人，靠近电视的有5人，则靠近电视的人数占总人数的比例大于0.5，因此可以将电视的麦克风/扬声器作为音频输入/输出设备。也就是说，当靠近电视的用户较多时，可以将电视的麦克风/扬声器作为音频输入/输出设备。此时采用电视的麦克风/扬声器作为音频输入/输出设备可以较好地采集到更多人员的发言。

626、若手机选择将电视的麦克风/扬声器作为音频输入/输出设备，手机的协同助手应用通知电视的协同助手应用上传音频流。

627、电视的协同助手应用从电视的音频驱动接收音频流。

电视的麦克风可以采集当前环境中用户的语音信号(例如，如图7所示，电视可以采集用户701和用户702的语音信号)，并可以对采集到的语音信号进行降噪处理得到音频流。电视的音频驱动可以从电视的麦克风获取音频流，并将音频流发送给电视的协同助手应用。

628、电视的协同助手应用向手机的协同助手应用发送音频流。

手机的协同助手应用接收到电视发送的音频流后向视频会议应用发送该音频流。视频会议应用可以向云服务器发送该音频流，云服务器可以向视频会议中其他成员发送该音频流。

手机的协同助手应用可以向电视的协同助手应用发送视频会议中其他成员的音频流，电视的协同助手应用可以通过电视的扬声器播放其他成员的音频流。

629、电视的协同助手应用在每个预设时间间隔判断用户是否靠近或远离电视。

手机的协同助手应用可以向电视的协同助手应用发送第二请求，第二请求用于请求电视上报用户是否靠近电视的信息。电视的协同助手应用可以在每个预设时间间隔判断用户是否靠近或远离电视。

电视的协同助手应用可以根据以下至少一种方式判断用户是否靠近或远离电视。

方式1，电视的协同助手应用可以在每个预设时间间隔从麦克风获取用户的语音分贝大小，判断用户的语音分贝是否满足预设条件。例如，判断用户的语音分贝是否小于等于预设阈值，若小于等于预设阈值，认为用户远离电视；若大于预设阈值，认为用户靠近电视。其中，用户的语音可以包括一个或多个用户的语音。示例性的，当用户701在如图7所示的位置发言时，电视可以检测到用户701的语音分贝大于预设阈值，认为用户701靠近电视。当用户701在如图8所示的位置发言时，电视可以检测到用户701的语音分贝小于预设阈值，认为用户701远离电视。

方式2，电视的协同助手应用可以在每个预设时间间隔向电视的距离检测模块发送人数和距离的检测请求。电视的距离检测模块可以向电视的摄像头驱动发送图像采集请求。电视的摄像头驱动向电视的距离检测模块返回摄像头拍摄的图像。电视的距离检测模块可以根据摄像头拍摄的图像计算人数和距离信息(电视前的每个人与电视的距离)。具体计算过程可以参考步骤622的相关描述，在此不做赘述。电视的距离检测模块向电视的协同助手应用返回人数和距离信息。电视的协同助手应用根据人数和距离信息判断用户是否靠近或远离电视。

方式3，电视的协同助手应用可以在每个预设时间间隔向电视的距离检测驱动发送距离检测请求，距离检测驱动可以向距离检测传感器(例如，红外传感器)发送距离检测请求。红外传感器可以检测周围的红外线，根据红外线的峰值范围(人体的体温约为36～37℃，可以放射出峰值为9～10微米的远红外线)可以判断周围是否有人。

其中，预设时间间隔可以是N秒/分钟。其中，N可以为1、2、3…60等。

需要说明的是，上述三种判断用户是否靠近或远离电视的方式中方式1的优先级是最高的。方式2和方式3的优先级低于方式1。当方式1、方式2和方式3得到的判断结果有冲突(不同)时，以方式1的判断结果为准。例如，在同一个时间间隔，当根据麦克风采集到的用户的语音分贝确定用户是靠近电视的，但根据摄像头采集的图像确定用户是远离电视的，则以用户的语音分贝的到的判断结果为准，认为用户是靠近电视的。

630、电视的协同助手应用向手机的协同助手应用发送用户靠近或远离电视的信息(第一信息)。

即电视的协同助手应用可以向手机的协同助手应用发送电视判断得到的用户靠近或远离电视的信息(例如，0表示远离，1表示靠近)，以便手机的协同助手应用根据用户靠近或远离电视的信息确定是否更新音频输入/输出设备。

或者，电视的协同助手应用可以向手机的协同助手应用发送电视的麦克风采集到的用户的语音分贝大小、根据图像得到的人数和距离信息或者距离传感器采集到的信息中的至少一种，以便手机的协同助手应用根据上述信息确定是否更新音频输入/输出设备。

631、音箱的协同助手应用在每个预设时间间隔判断用户是否靠近或远离音箱。

手机的协同助手应用可以向音箱的协同助手应用发送第三请求，第三请求用于请求音箱上报用户是否靠近音箱的信息。

音箱的协同助手应用可以在每个预设时间间隔从麦克风获取用户的语音分贝大小，判断用户的语音分贝是否满足预设条件。例如，判断用户的语音分贝是否小于等于预设阈值，若小于等于预设阈值，认为用户远离音箱；若大于预设阈值，认为用户靠近音箱。其中，用户的语音可以包括一个或多个用户的语音。

示例性的，当用户701在如图7所示的位置发言时，音箱可以检测到用户701的语音分贝小于预设阈值，认为用户701远离音箱。当用户701在如图8所示的位置发言时，音箱可以检测到用户701的语音分贝大于预设阈值，认为用户701靠近音箱。

632、音箱的协同助手应用向手机的协同助手应用发送用户靠近或远离音箱的信息(第二信息)。

即音箱的协同助手应用可以向手机的协同助手应用发送音箱判断得到的用户靠近或远离音箱的信息(例如，0表示远离，1表示靠近)，以便手机的协同助手应用根据用户靠近或远离音箱的信息确定是否更新音频输入/输出设备。

或者，音箱的协同助手应用可以向手机的协同助手应用发送音箱的麦克风采集到的用户的语音分贝大小，以便手机的协同助手应用根据上述信息确定是否更新音频输入/输出设备。

633、手机的协同助手应用根据音箱的协同助手应用和电视的协同助手应用发送的信息确定是否更新音频输入/输出设备。

手机的协同助手应用可以从音箱的协同助手应用接收用户靠近或远离音箱的信息，可以从电视的协同助手应用接收用户靠近或远离电视的信息，根据音箱的协同助手应用和电视的协同助手应用发送的信息确定是否更新音频输入/输出设备。

示例性的，若确定用户靠近音箱且远离电视，则可以更新音频输入/输出设备，即重新采用音箱的麦克风/扬声器作为音频输入/输出设备。若确定用户靠近电视且远离音箱，则无需更新音频输入/输出设备，即仍采用电视的麦克风/扬声器作为音频输入/输出设备。

另外，手机的麦克风/扬声器也可以采集用户的语音，手机的协同助手应用可以根据音箱的协同助手应用和电视的协同助手应用发送的信息以及手机采集的用户的语音确定是否更新音频输入/输出设备。

基于本申请实施例提供的方法，在手机同时连接音箱和大屏(或者同时连接多个音箱或多个大屏)的场景下，可以随着场景的动态变化(例如，发言人走动、不同位置的发言人发言)，总是选择靠近用户的麦克风/扬声器作为音频输入/输出设备，无需用户手动操作，这样可以在场景动态变化的情况下更好地采集用户的语音，提高用户体验。

本申请实施例还提供一种芯片系统，如图9所示，该芯片系统包括至少一个处理器901和至少一个接口电路902。处理器901和接口电路902可通过线路互联。例如，接口电路902可用于从其它装置(例如，电子设备的存储器)接收信号。又例如，接口电路902可用于向其它装置(例如处理器901)发送信号。

例如，接口电路902可读取电子设备中存储器中存储的指令，并将该指令发送给处理器901。当所述指令被处理器901执行时，可使得第一电子设备、第二电子设备或第三电子设备(如图3所示的电子设备200)执行上述实施例中的各个步骤。

当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当所述计算机指令在第一电子设备、第二电子设备或第三电子设备(如图3所示的电子设备200)上运行时，使得第一电子设备、第二电子设备或第三电子设备执行上述方法实施例中电子设备执行的各个功能或者步骤。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述方法实施例中第一电子设备、第二电子设备或第三电子设备执行的各个功能或者步骤。

本申请实施例还提供了一种装置，所述装置可以按照功能划分为不同的逻辑单元或模块，各单元或模块执行不同的功能，以使得所述装置执行上述方法实施例中第一电子设备、第二电子设备或第三电子设备执行的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种设备协同控制方法，其特征在于，包括：

响应于用户的第一操作，第一电子设备开启音视频会议应用；

所述第一电子设备分别向第二电子设备和第三电子设备发送第一请求，所述第一请求用于请求麦克风/扬声器能力；

所述第一电子设备分别从所述第二电子设备和所述第三电子设备接收麦克风/扬声器能力；

所述第一电子设备根据所述第二电子设备的麦克风/扬声器能力和所述第三电子设备的麦克风/扬声器能力确定目标设备，所述目标设备为所述第二电子设备，所述第二电子设备的麦克风/扬声器能力强于所述第三电子设备的麦克风/扬声器能力；

所述第一电子设备接收所述第二电子设备的麦克风采集的第一音频流；

所述第一电子设备通过所述音视频会议应用将所述第一音频流发送到云服务器；

所述第一电子设备向所述第二电子设备发送第二请求，所述第二请求用于请求所述第二电子设备上报用户是否靠近所述第二电子设备的信息；所述第二电子设备在每个预设时间间隔从麦克风获取用户的语音分贝大小，判断用户的语音分贝是否小于等于预设阈值，若小于等于预设阈值，认为用户远离所述第二电子设备；若大于预设阈值，认为用户靠近所述第二电子设备；

所述第一电子设备从所述第二电子设备接收第一信息，所述第一信息用于指示用户靠近或远离所述第二电子设备；

所述第一电子设备向所述第三电子设备发送第三请求，所述第三请求用于请求所述第三电子设备上报用户是否靠近所述第三电子设备的信息；所述第三电子设备在每个预设时间间隔从麦克风获取用户的语音分贝大小，判断用户的语音分贝是否小于等于预设阈值，若小于等于预设阈值，认为用户远离所述第三电子设备；若大于预设阈值，认为用户靠近所述第三电子设备；

所述第一电子设备从所述第三电子设备接收第二信息，所述第二信息用于指示用户靠近或远离所述第三电子设备；

若确定用户靠近所述第三电子设备且远离所述第二电子设备，则将所述目标设备切换为所述第三电子设备；

所述第一电子设备接收所述第三电子设备的麦克风采集的第二音频流；

所述第一电子设备通过所述音视频会议应用将所述第二音频流发送到云服务器。

2.根据权利要求1所述的方法，其特征在于，

所述麦克风/扬声器能力包括麦克风/扬声器是否支持立体声，麦克风是否支持降噪，麦克风的拾音范围中的至少一种。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述第一电子设备向所述第二电子设备发送第四请求，所述第四请求用于请求所述第二电子设备检测所述第二电子设备前方的人数以及每个人与所述第二电子设备之间的距离；

所述第一电子设备从所述第二电子设备接收人数和距离信息，所述人数和距离信息用于指示所述第二电子设备前方的人数以及每个人与所述第二电子设备之间的距离；

所述第一电子设备根据所述人数和距离信息更新所述目标设备。

4.根据权利要求3所述的方法，其特征在于，若所述第二电子设备为电视，所述第三电子设备为音箱，所述第一电子设备根据所述人数和距离信息更新所述目标设备包括：

若所述电视前方的人数小于或等于第一预设阈值，确定所述目标设备为所述电视；若所述电视前方的人数大于第一预设阈值，确定所述目标设备为所述音箱；或者

若靠近所述电视的人数占所述电视前方的人数的比例大于或等于第二预设阈值，确定所述目标设备为所述电视；若确定靠近所述电视的人数占所述电视前方的人数的比例小于第二预设阈值，确定所述目标设备为所述音箱。

5.根据权利要求1或2所述的方法，其特征在于，

所述第一电子设备分别与所述第二电子设备和所述第三电子设备建立蓝牙连接或无线保真Wi-Fi连接。

6.根据权利要求1或2所述的方法，其特征在于，

所述第一电子设备向所述目标设备发送来自所述云服务器的音频流，通过所述目标设备的扬声器播放所述云服务器的所述音频流。

7.一种设备协同控制系统，其特征在于，所述设备协同控制系统包括第一电子设备、第二电子设备和第三电子设备，其中：

所述第一电子设备用于响应于用户的第一操作，开启音视频会议应用；

所述第一电子设备还用于分别向所述第二电子设备和所述第三电子设备发送第一请求，所述第一请求用于请求麦克风/扬声器能力；

所述第二电子设备用于查询麦克风/扬声器能力，并向所述第一电子设备发送所述第二电子设备的麦克风/扬声器能力；

所述第三电子设备用于查询麦克风/扬声器能力，并向所述第一电子设备发送所述第三电子设备的麦克风/扬声器能力；

所述第一电子设备还用于分别从所述第二电子设备和所述第三电子设备接收麦克风/扬声器能力；

所述第一电子设备还用于根据所述第二电子设备的麦克风/扬声器能力和所述第三电子设备的麦克风/扬声器能力确定目标设备，所述目标设备为所述第二电子设备，所述第二电子设备的麦克风/扬声器能力强于所述第三电子设备的麦克风/扬声器能力；

所述第一电子设备向所述第二电子设备发送第二请求，所述第二请求用于请求所述第二电子设备上报用户是否靠近所述第二电子设备的信息；

所述第二电子设备在每个预设时间间隔从麦克风获取用户的语音分贝大小，判断用户的语音分贝是否小于等于预设阈值，若小于等于预设阈值，认为用户远离所述第二电子设备；若大于预设阈值，认为用户靠近所述第二电子设备；

所述第一电子设备向所述第三电子设备发送第三请求，所述第三请求用于请求所述第三电子设备上报用户是否靠近所述第三电子设备的信息；

所述第三电子设备在每个预设时间间隔从麦克风获取用户的语音分贝大小，判断用户的语音分贝是否小于等于预设阈值，若小于等于预设阈值，认为用户远离所述第三电子设备；若大于预设阈值，认为用户靠近所述第三电子设备；

若所述第一电子设备确定用户靠近所述第三电子设备且远离所述第二电子设备，则将所述目标设备切换为所述第三电子设备；

所述第一电子设备还用于接收所述第三电子设备的麦克风采集的第二音频流；

所述第一电子设备还用于通过所述音视频会议应用将所述第二音频流发送到音视频会议应用服务器。

8.根据权利要求7所述的设备协同控制系统，其特征在于，若所述第一信息包括所述第二电子设备根据图像得到的人数以及每个人与所述第二电子设备的距离信息，所述第二电子设备还用于：

采集图像；

根据人体特征提取算法识别所述图像中的全部人体轮廓或人脸，根据所述人体轮廓或人脸的数目得到人数信息；

根据不同人体轮廓或人脸在所述图像中的比例大小确定不同人与所述第二电子设备的距离。

9.一种第一电子设备，其特征在于，包括处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时使得所述第一电子设备实现权利要求1-6中任一项所述的方法。

10.一种芯片系统，其特征在于，所述芯片系统包括一个或多个接口电路和一个或多个处理器；所述接口电路和所述处理器通过线路互联；

所述芯片系统应用于包括通信模块和存储器的第一电子设备；所述接口电路用于从所述存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述第一电子设备执行如权利要求1-6中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，包括计算机指令；

当所述计算机指令在第一电子设备上运行时，使得所述第一电子设备执行如权利要求1-6中任一项所述的方法。