CN113473061B

CN113473061B - 视频通话的方法与电子设备

Info

Publication number: CN113473061B
Application number: CN202110651205.6A
Authority: CN
Inventors: 陈祥
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-08-12
Anticipated expiration: 2041-06-10
Also published as: CN113473061A

Abstract

本申请提供了一种视频通话的方法与电子设备，第一电子设备具有摄像头，第一电子设备与第二电子设备进行视频通话时，第一电子设备从第一电子设备标记的参与视频通话的一个或多个人员中，确定目标人员；控制摄像头以目标人员为焦点获取第一图像；向第二电子设备发送第一图像。该方法使得参与视频通话的人中正在发出语音信息的人员的图像能够突出显示在第二电子设备上。第二电子设备的用户能够快速的锁定该正在发出语音信息的人员的图像，进而能够将接收到的说话内容与看到的正在发出语音信息的人员的图像进行匹配，达到人声合一的效果，从而提高第二电子设备的用户的视频通话的体验。

Description

视频通话的方法与电子设备

技术领域

本申请涉及终端领域，并且更具体地涉及终端领域中视频通话的方法和电子设备。

背景技术

目前，具备摄像头的智能电子设备不仅可以用于语音通话，还可以用于视频通话，用户可以通过视频通话进行多人会议、在线游戏、直播等。

视频通话时，本端的摄像头获取摄像头视场角范围内的图像，本端的图像被传送至对端，并由对端将接收到的图像显示在对端的屏幕上。在本端的摄像头前有多个人员的场景下，相关技术中会将正在发出语音信息的人员的图像传送至对端。但是，正在发出语音信息的人员可能是没有参与该视频通话的人员，对端可能不需要看到未参与视频通话却正在发出语音信息的人员，如果其图像被传送至对端，这会导致对端的视频通话的体验较差。

发明内容

本申请实施例提供了一种视频通话的方法与电子设备，该方法能够使得第一电子设备标记的参与视频通话的人中正在发出语音信息的人员的图像突出的显示在对端，从而提升对端的用户的视频通话的体验。

第一方面，提供了一种视频通话的方法，第一电子设备具有摄像头，视频通话的方法包括：第一电子设备从第一电子设备标记的参与视频通话的一个或多个人员中，确定目标人员，目标人员为一个或多个人员中正在发出语音信息的人员；第一电子设备控制摄像头以目标人员为焦点获取第一图像，第一图像用于向第二电子设备的用户提示视频通话中的目标人员；第一电子设备向第二电子设备发送第一图像。

基于上述技术方案，第一电子设备对参与视频通话的一个或多个人员进行标记，能够区分出现在摄像头视场角范围内的人员是参与视频通话的人员还是未参与视频通话的人员。在正在发出语音信息的人员是参与视频通话的人员时，以该正在发出语音信息的人员为焦点获取第一图像，第一图像用于向第二电子设备的用户提示视频通话中该正在发出语音信息的人员，当第一图像中有多个人员时，第一图像中的该正在发出语音信息的人员比第一图像中的其他人员更加突出。第一电子设备将第一图像发送至第二电子设备，当第二电子设备显示第一图像时，不仅可以显示该正在发出语音信息的人员的图像，而且显示的该正在发出语音信息的人员比第一图像中的其他人员更加突出。第二电子设备的用户能够快速的锁定该正在发出语音信息的人员的图像，进而能够将接收到的说话内容与看到的正在发出语音信息的人员的图像进行匹配，达到人声合一的效果，从而提高第二电子设备的用户的视频通话的体验。

结合第一方面，在第一方面的某些实现方式中，第一电子设备向第二电子设备发送第一图像，包括：第一电子设备向第二电子设备发送第一信息，第一信息中包括第一图像，第一信息指示第二电子设备突出显示目标人员。

基于上述技术方案，相比于第二电子设备直接显示第一图像，第二电子设备突出显示目标人员时，第二电子设备的用户能够更加直观的锁定参与视频通话的人员中正在发出语音信息的人员的图像，进而能够更有效的将接收到的说话内容与看到的正在发出语音信息的人员的图像进行匹配，达到人声合一的效果，从而提升对第二电子设备的用户视频通话的体验。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，第一信息包括多个标注信息，每个标注信息用于标注第一图像中的一个人员。

基于上述技术方案，第二电子设备在接收到第一图像时，能够准确的确定需要突出显示的目标人员，避免将其他人员突出显示，从而提升第二电子设备的用户的视频通话体验。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，视频通话的方法还包括：第一电子设备获取参与视频通话的一个或多个人员的标识信息；第一电子设备根据标识信息，标记参与视频通话的一个或多个人员。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，确定目标人员，包括：第一电子设备获取每个参与视频通话的人员的人脸信息和声纹信息中的至少一个；在检测到人声时，第一电子设备根据人脸信息和声纹信息中的至少一个，确定正在发出语音信息的人员是目标人员。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，第一电子设备根据声纹信息，确定正在发出语音信息的人员是目标人员，包括：第一电子设备将正在发出语音信息的人员的声纹信息与每个参与视频通话的人员的声纹信息进行匹配；第一电子设备根据正在发出语音信息的人员的声纹信息与每个参视频通话的人员的声纹信息的匹配结果，确定正在发出语音信息的人员是目标人员。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，第一电子设备根据人脸信息，确定正在发出语音信息的人员是目标人员，包括：第一电子设备在与第二电子设备成功建立视频通话之前，控制摄像头获取第二图像，第二图像中包含至少一个人脸；第一电子设备将第二图像中的至少一个人脸与每个参与视频通话的人员的人脸信息进行匹配，确定人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置；第一电子设备根据正在发出语音信息的人员的声音的位置，与人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置，确定正在发出语音信息的人员是目标人员。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，第一电子设备根据正在发出语音信息的人员的声音的位置，与人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置，确定正在发出语音信息的人员是目标人员，包括：当正在发出语音信息的人员的声音的位置，与人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置匹配时，将正在发出语音信息的人员的声纹信息与每个参与视频通话的人员的声纹信息进行匹配；根据正在发出语音信息的人员的声纹信息与每个参与视频通话的人员的声纹信息的匹配结果，确定正在发出语音信息的人员是目标人员。

基于上述技术方案，第一电子设备能够准确地识别目标人员，进一步地，能够更准确的以目标人员为焦点获取第一图像，从而提升第二电子设备的用户的视频通话体验。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，第一电子设备控制摄像头以目标人员为焦点获取第一图像，包括：第一电子设备获取目标人员的第一位置；第一电子设备根据第一位置，控制摄像头获取第一图像。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，第一电子设备还具有麦克风阵列，第一电子设备获取目标人员的第一位置，包括：第一电子设备获取麦克风阵列的位置；第一电子设备根据麦克风阵列的位置，确定目标人员相对于麦克风阵列的位置；第一电子设备将目标人员相对于麦克风阵列的位置确定为第一位置。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，视频通话的方法还包括：第一电子设备获取摄像头的位置；第一电子设备将目标人员相对于麦克风阵列的位置确定为第一位置，包括：第一电子设备根据摄像头的位置、麦克风阵列的位置以及目标人员相对于麦克风阵列的位置，确定目标人员相对于摄像头的位置；第一电子设备将目标人员相对于摄像头的位置作为第一位置。

基于上述技术方案，摄像头获取的目标人员的位置信息更准确，能够更准确的以目标人员为焦点获取第一图像。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，视频通话的方法还包括：当参与视频通话的人员中正在发出语音信息的人员的数量大于或者等于两个时，第一电子设备将参与视频通话的人员中的至少两个正在发出语音信息的人员中的一个作为目标人员。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，在第一电子设备将参与视频通话的人员中的至少两个正在发出语音信息的人员中的一个作为目标人员时，目标人员满足以下条件中的一个或多个：目标人员对应的发出语音信息的起始时刻为至少两个正在发出语音信息的人员中最早的；当至少两个正在发出语音信息的人员中的一个向第一电子设备发出语音指令时，目标人员为发出语音指令的人员，语音指令请求第一电子设备与第二电子设备建立视频通话；当至少两个正在发出语音信息的人员中的一个为视频通话的主持人时，目标人员为主持人；当视频通话设置主题时，目标人员为至少两个正在发出语音信息的人员中发出的语音信息与主题相关的人员。

基于上述技术方案，第一电子设备能够在两个或者多个正在发出语音信息的人员中确定目标人员，避免了两个或者多个人正在发出语音信息时，摄像头不知道以谁为焦点进行拍摄的问题。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，视频通话的方法还包括：当第一图像满足预设条件时，第一信息指示第二电子设备显示第一图像中的所有人员，或，当第一图像不满足预设条件时，第一信息指示第二电子设备单独显示第一图像中的至少部分人员。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，预设条件包括：第一图像中参与视频通话的人员之间的距离小于或者等于预设距离、第一图像中参与视频通话的人员与摄像头之间的角度小于或者等于预设角度、第一图像中参与视频通话的人员与背景颜色的重合度小于或者等于预设重合度、以及第一图像的亮度属于预设亮度范围中的至少一个。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，预设条件包括加权值小于或者等于第二预设阈值，加权值是根据第一图像中参与视频通话的人员之间的距离、第一图像中参与视频通话的人员与摄像头之间的角度、第一图像中参与视频通话的人员与背景颜色的重合度、以及第一图像的亮度中的至少一个确定的。

基于上述技术方案，第二电子设备不仅显示目标人员的图像，还显示其他参与视频通话的人员的图像。在第二电子设备的用户想观察除目标人员之外的其他参与视频通话的人员时，也能够看到其图像，从而满足多种需求，提高第二电子设备的用户的视频通话的体验。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，第一电子设备在与第二电子设备成功建立视频通话之前，控制摄像头获取第二图像，包括：第一电子设备在与第二电子设备建立视频通话的过程中，控制摄像头获取第二图像。

基于上述技术方案，第一电子设备可以节省调整摄像头的时间，优化视频通话的流程。在获取第二图像之后，可以将第二图像发送给第二电子设备进行显示，避免视频通话建立成功时第二电子设备出现空屏/黑屏等情况。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，视频通话的方法还包括：第一电子设备根据语音指令，与第二电子设备建立视频通话。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，第一电子设备根据语音指令，与第二电子设备建立视频通话，包括：第一电子设备在确定发出语音指令的人员为第一电子设备标记的参与视频通话的人员时，根据语音指令，与第二电子设备建立视频通话。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，摄像头为升降式摄像头，第一电子设备在与第二电子设备建立视频通话的过程中，控制摄像头获取第二图像，包括：第一电子设备在与第二电子设备建立视频通话的过程中，控制摄像头上升；第一电子设备在摄像头上升的过程中，控制摄像头将焦点对准发出语音指令的人员；第一电子设备在摄像头上升后，控制摄像头以发出语音指令的人员为焦点获取第二图像。

第二方面，本申请提供了一种装置，该装置包含在电子设备中，该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。

可选地，该装置可以是上述的第一电子设备或者是第二电子设备。

第三方面，本申请提供了一种电子设备，包括：一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序。其中，一个或多个计算机程序被存储在存储器中，一个或多个计算机程序包括指令。当指令被电子设备执行时，使得电子设备执行上述第一方面任一项可能的实现中的视频通话的方法。

可选地，该电子设备可以是上述的第一电子设备或者是第二电子设备。

第四方面，本申请提供了一种电子设备，包括一个或多个处理器和一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行上述第一方面任一项可能的实现中的视频通话的方法。

第五方面，本申请提供了一种计算机可读存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述第一方面任一项可能的实现中的视频通话的方法。

第六方面，本申请提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面任一项可能的实现中的视频通话的方法。

附图说明

图1中的(a)图是本申请实施例提供的一种场景的示意图；

图1中的(b)图是本申请实施例提供的又一种场景的示意图；

图2是本申请实施例提供的一例电子设备的结构示意图；

图3是本申请实施例提供的一例视频通话的方法的示意性流程图；

图4是本申请实施例提供的再一种场景的示意图；

图5中的(a)图是本申请实施例提供的一例对图像进行显示的示意图；

图5中的(b)图是本申请实施例提供的一例对图像进行显示的示意图；

图6是本申请实施例提供的再一例对图像进行显示的示意图；

图7是本申请实施例提供的再一例对图像进行显示的示意图；

图8是本申请实施例提供的再一例对图像进行显示的示意图；

图9中的(a)图是本申请实施例提供的再一例对图像进行显示的示意图；

图9中的(b)图是本申请实施例提供的再一例对图像进行显示的示意图；

图9中的(c)图是本申请实施例提供的再一例对图像进行显示的示意图；

图9中的(d)图是本申请实施例提供的再一例对图像进行显示的示意图；

图9中的(e)图是本申请实施例提供的再一例对图像进行显示的示意图；

图10是本申请实施例提供的再一例对图像进行显示的示意图；

图11是本申请实施例提供的再一例对图像进行显示的示意图；

图12是本申请实施例提供的再一例对图像进行显示的示意图；

图13是本申请实施例提供的又一例视频通话的方法的示意性流程图；

图14是本申请实施例提供的再一例视频通话的方法的示意性流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在第一电子设备的用户与第二电子设备的用户进行视频通话时，图1中的(a)图示出了一种场景的示意图，在该场景下，第一电子设备控制摄像头按照一般模式获取图像。所述一般模式，是指第一电子设备通过摄像头获取视场角f内的所有内容。如图1中的(a)图所示，第一电子设备通过摄像头获取人员1、人员2及人员3的图像，并将人员1、人员2及人员3的图像发送至第二电子设备进行显示。为了便于描述，以下将“第一电子设备的用户”简称为“用户1”，将“第二电子设备的用户”简称为“用户2”。实际视频通话时，第一电子设备还可以在右上角显示获取的人员1、人员2及人员3的图像，在右上角显示的人员1、人员2及人员3的图像在图1中未示出。

此时，存在一种情况，上述人员中与用户2进行视频通话的是人员1，人员2、人员3仅仅是位于摄像头的视场角f内，所以摄像头不仅可以获取人员1的图像还可以获取人员2以及人员3的图像，并将获取到的人员1～人员3的图像发送给第二电子设备，以由第二电子设备显示。但是，对于用户2来说，其可能只需要看到人员1即可，因此，当将上述人员的图像均显示在第二电子设备上时，不仅会导致第二电子设备上显示与本次视频通话无关的人员的图像，也会导致人员1在第二电子设备的显示画面中占据的比例变小。在这种情况下，当用户2听到有人说话时，需要先从第二电子设备上显示的人员中找到并目光锁定人员1，才能将人员1的说话内容与人员1进行人声合一，可以看出，这会导致用户2对本次视频通话的体验较差。

针对上述问题，图1中的(b)图示出了另一种场景的示意图。在该场景下，第一电子设备检测到人员3说话时，获取人员3的位置信息；第一电子设备根据人员3的位置信息，判断人员3是否处于第二电子设备的显示屏的中间位置。若否，第一电子设备根据人员3的位置信息调整摄像头角度，以使得摄像头对准人员3进行拍摄，使拍摄画面处于第二电子设备的屏幕中央。

此时，存在一种情况，上述人员中与用户2进行视频通话的是人员1，对于用户2来说，其需要看到人员1而不需要看到人员3。摄像头对准人员3获取图像时，人员1可能不在摄像头的视场角f内，因此，当将摄像头获取的图像显示在第二电子设备上时，不仅会导致没有显示人员1，还会导致人员3在第二电子设备的屏幕中央，进而会导致用户2对本次视频通话的体验较差。

有鉴于此，本申请实施例提出一种视频通话的方法，第一电子设备对参与视频通话的一个或多个人员进行标记，能够区分出现在摄像头视场角范围内的人员是参与视频通话的人员还是未参与视频通话的人员。在正在发出语音信息的人员是参与视频通话的人员时，以该正在发出语音信息的人员为焦点获取第一图像，第一图像用于向第二电子设备的用户提示视频通话中该正在发出语音信息的人员，当第一图像中有多个人员时，第一图像中的该正在发出语音信息的人员比第一图像中的其他人员更加突出。第一电子设备将第一图像发送至第二电子设备，当第二电子设备显示第一图像时，不仅可以显示该正在发出语音信息的人员的图像，而且显示的该正在发出语音信息的人员比第一图像中的其他人员更加突出。第二电子设备的用户能够快速的锁定该正在发出语音信息的人员的图像，进而能够将接收到的说话内容与看到的正在发出语音信息的人员的图像进行匹配，达到人声合一的效果，从而提高第二电子设备的用户的视频通话的体验。

本申请实施例提供的视频通话的方法可以应用于搭载摄像头的智能电视、智能手机、平板电脑、机器人、车载设备、笔记本电脑、穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digitalassistant，PDA)等电子设备上。本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图2是本申请实施例提供的一例电子设备100的结构示意图，在具体实现时，电子设备100可以是本申请实施例中的第一电子设备或第二电子设备。电子设备100可以包括处理器110，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，音频模块170，扬声器170A，麦克风170C，耳机接口170D，传感器模块180，按键190，指示器192，摄像头193，显示屏194等。其中传感器模块180可以包括压力传感器180A，距离传感器180F，接近光传感器180G，环境光传感器180L，温度传感器180J，触摸传感器180K等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别充电器，闪光灯，摄像头193等。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，摄像头193，显示屏194等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所构建的数据(比如音频数据)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能，例如语音播放等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置麦克风阵列，可以是线性阵列，平面阵列，或者立体阵列。麦克风阵列包括三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。

环境光传感器180L，用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

应理解，除了图1中列举的各种部件或者模块之外，本申请实施例对电子设备100的结构不做具体限定。在本申请另一些实施例中，电子设备100还可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

下面对本申请提供的视频通话的方法的一个实施例进行介绍，图3示出了视频通话的方法300的示例性流程图。

步骤301，第一电子设备与第二电子设备建立视频通话。

本申请实施例中第一电子设备和第二电子设备之间的视频通话可以是第一电子设备发起的，也可以是第二电子设备发起的，本申请实施例对此不做限定。为便于后续描述，可以将发起视频通话的电子设备称为视频通话发起方，而将与视频通话发起方建立视频通话的设备称为视频通话接收方。本申请实施例中视频通话发起方通常可以为一个电子设备，视频通话接收方可以为一个电子设备，也可以为多个电子设备。

下述以视频通话发起方为第一电子设备为例，例如，当用户1想与用户2进行视频通话时，用户1可以在第一电子设备上执行向用户2请求视频通话的操作，以向用户2请求视频通话。例如，用户1可以点击第一电子设备上请求视频通话的按钮，第一电子设备响应于点击按钮的操作向第二电子设备发起视频通话请求。该视频通话请求用于请求建立视频通话。

除了上述发起视频通话的方式外，视频通话发起方(比如，第一电子设备)也可以通过语音指令请求与视频通话接收方(比如，第二电子设备)建立视频通话。

例如，第一电子设备存储了联系人的信息，用户1发出的语音指令中携带联系人的信息，语音指令可以是视频呼叫“爸爸”。第一电子设备响应于语音指令，从联系人的信息中找到“爸爸”的联系方式，并向“爸爸”对应的第二电子设备请求视频通话，进而与“爸爸”使用的第二电子设备建立视频通话。

例如，第一电子设备将多个联系人归类为通讯录中的一个群组，用户1发出的语音指令中携带该群组的信息(比如群组1)。以语音指令可以是视频呼叫“群组1”为例，第一电子设备响应于语音指令，从通讯录中找到“群组1”中每个联系人的联系方式，并向群组1中的每个联系人对应的第二电子设备请求视频通话，也即视频通话接收方为多个。

例如，第一电子设备存储了会议主题、会议时间、以及参会人1的信息等内容，语音指令可以是发起视频会议、或者发起主题视频会议。例如，第一电子设备可以通过会议邮件的内容获取会议主题、会议时间、以及参会人1的信息等内容。第一电子设备响应于语音指令，确定与语音指令中的视频会议相关的参会人1，并向参会人1对应的第二电子设备请求视频通话。

值得说明的是，在第一电子设备和第二电子设备已具有视频通话连接的情况下，上述步骤301则可以省略。也即上述步骤301为可选的步骤。

步骤302，第一电子设备从第一电子设备标记的参与视频通话的一个或多个人员中，确定目标人员，目标人员为一个或多个人员中正在发出语音信息的人员。

在建立视频通话之前，第一电子设备标记使用第一电子设备进行视频通话的人员，从而在视频通话的过程中，第一电子设备能够区分出现在摄像头视场角范围内的人员是参与视频通话的人员还是未参与视频通话的人员。为了便于描述，以下将“未参与视频通话的人员”简称为“非通话相关人”。

例如，第一电子设备获取参与视频通话的一个或多个人员的标识信息；根据标识信息，标记参与视频通话的一个或多个人员。标识信息可以是人员的账号、姓名、工号以及邮箱等。

第一电子设备可以根据账号信息标记参与视频通话的人员，例如，视频直播时，用户1在第一电子设备上使用自己的账号与用户2进行视频通话，第一电子设备根据用户1的账号信息将用户1标记为参与视频通话的人员。

例如，用户1在第一电子设备上输入了参与视频通话的人员的标识信息，比如姓名、工号以及邮箱等，第一电子设备将输入信息对应的人员标记为参与视频通话的人员。

例如，第一电子设备接收的会议邮件中包含多个参会人2的标识信息，比如姓名和邮箱等，第一电子设备将多个参会人2标记为参与视频通话的人员。

第一电子设备还可以根据参与视频通话的一个或多个人员的标识信息，生成参与视频通话的人员的名单，也可以称为群组名单。

第一电子设备与第二电子设备建立视频通话之后，实时检测是否有人声。当检测到有人声时，判断正在发出语音信息的人员是否为目标人员。

例如，第一电子设备获取每个参与视频通话的人员的人脸信息和声纹信息中的至少一个；在检测到人声时，根据人脸信息和声纹信息中的至少一个，确定正在发出语音信息的人员是目标人员。

例如，第一电子设备存储了每个参与视频通话的人员的人脸信息和声纹信息。例如，用户在注册或者登录账号时授权第一电子设备使用自身的人脸信息和声纹信息。

例如，在进行视频会议时，第一电子设备向多个参会人2发送了视频会议邮件，该视频会议邮件中附有添加个人信息的链接，参会人2接收到该视频会议邮件后，可以进入链接并上传自己的人脸信息和声纹信息，第一电子设备接收并存储参会人2上传的人脸信息和声纹信息。多个参会人2可以是根据前述群组名单确定的。

例如，第一电子设备根据前述群组名单从预设数据库中获取每个参与视频通话的人员的人脸信息和声纹信息，预设数据库中存储了参与视频通话的人员以及非通话相关人的人脸信息和声纹信息。

第一电子设备判断正在发出语音信息的人员是否为目标人员的方法有以下几种。

方法1，第一电子设备根据声纹信息确定正在发出语音信息的人员是目标人员。

第一电子设备将正在发出语音信息的人员的声纹信息与每个参与视频通话的人员的声纹信息进行匹配；根据正在发出语音信息的人员的声纹信息与每个参与视频通话的人员的声纹信息的匹配结果，确定正在发出语音信息的人员是目标人员。

声纹识别(voiceprint recognition，VPR)技术，也称为说话人识别(speakerrecognition)技术，声纹识别技术可以分为两类：说话人辨认(speaker identification)和说话人确认(speaker verification)。前者用以判断某段语音是若干人中的哪一个所说的，属于“多选一”；而后者用以确认某段语音是否是指定的某个人所说的，属于“一对一判别”。

以说话人辨认技术为例，第一电子设备在检测到人声时，将正在发出语音信息的人员的声纹信息与每个参与视频通话的人员的声纹信息进行一一匹配，得到多个声纹匹配度，当多个声纹匹配度中最大的声纹匹配度大于或者等于预设阈值时，即正在发出语音信息的人员的声纹信息与参与视频通话的人员的声纹信息匹配成功，确定正在发出语音信息的人员是目标人员。

方法2，第一电子设备根据人脸信息确定正在发出语音信息的人员是目标人员。

第一电子设备在与第二电子设备成功建立视频通话之前，控制摄像头获取第二图像，第二图像中包含至少一个人脸；将第二图像中的至少一个人脸与每个参与视频通话的人员的人脸信息进行匹配，确定人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置；根据正在发出语音信息的人员的声音的位置，与人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置，确定正在发出语音信息的人员是目标人员。

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。人脸识别技术用摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别，人脸识别技术也可以称为人像识别、面部识别。

本申请实施例中，针对第二图像中的每一个人脸，第一电子设备将该人脸与每个参与视频通话的人员的人脸信息进行一一匹配，当人脸匹配相似度大于或者等于第一预设阈值时，确定相应的人脸对应的人员是参与视频通话的人员，并确定第二图像中每个参与视频通话的人员相对于摄像头的位置。

在确定了第二图像中包括的参与视频通话的一个或多个人员后，第一电子设备在检测到人声时，可以确定正在发出语音信息的人员相对于摄像头的位置。当正在发出语音信息的人员相对于摄像头的位置与上述确定的第二图像中的某一个参与视频通话的人员相对于摄像头的位置相匹配时，第一电子设备确定该正在发出语音信息的人员是目标人员。

除此之外，在确定了正在发出语音信息的人员相对于摄像头的位置与第二图像中一个参与视频通话的人员相对于摄像头的位置相匹配后，第一电子设备还可以检测该参与视频通话的人员是否有张嘴说话的动作，如果有，将正在发出语音信息的人员确定为目标人员，进而提高确定目标人员的准确度。

方法3，第一电子设备根据声纹信息和人脸信息确定正在发出语音信息的人员是目标人员。

例如，第一电子设备在与第二电子设备成功建立视频通话之前，控制摄像头获取第二图像，第二图像中包含至少一个人脸；针对第二图像中的每一个人脸，将该人脸与每个参与视频通话的人员的人脸信息进行一一匹配，并确定每个人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置；当第一电子设备检测到人声时，可以确定正在发出语音信息的人员相对于摄像头的位置。

当正在发出语音信息的人员的相对于摄像头的位置，与上述某一个人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置匹配时，第一电子设备将该正在发出语音信息的人员的声纹信息与每个参与视频通话的人员的声纹信息进行匹配，得到多个声纹匹配度；当多个声纹匹配度中最大的声纹匹配度大于或者等于预设阈值时，确定该正在发出语音信息的人员是目标人员。

例如，当第一电子设备检测到人声时，将正在发出语音信息的人员的声纹信息与每个参与视频通话的人员的声纹信息进行一一匹配，得到多个声纹匹配度；当多个声纹匹配度中最大的声纹匹配度大于或者等于预设阈值时，确定正在发出语音信息的人员相对于摄像头的位置。

第一电子设备控制摄像头获取第二图像，第二图像中包含至少一个人脸；针对第二图像中的每一个人脸，将该人脸与每个参与视频通话的人员的人脸信息进行一一匹配，并确定每个人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置；当正在发出语音信息的人员相对于摄像头的位置，与上述某一个人脸匹配相似度大于或者等于第一预设阈值的人脸相对于摄像头的位置匹配时，确定正在发出语音信息的人员是目标人员。

基于上述技术方案，第一电子设备能够准确地识别目标人员，进一步地，能够更准确的以目标人员为焦点获取第一图像，确保第一图像中发送给第二电子设备后，用户2能够将接收到的说话内容与看到的目标人员进行匹配，达到人声合一的效果，从而提升用户2的视频通话体验。在一些场景中，声纹信息与人脸信息能够实现模糊匹配即可，从而保护参与视频通话的人员的隐私。

除此之外，在确定正在发出语音信息的人员与目标人员的声纹信息和人脸信息匹配之后，还可以确定正在发出语音信息的人员的标识信息，比如姓名，确认正在发出语音信息的人员的姓名是否在群组名单中，若是，则进一步确认正在发出语音信息的人员是目标人员，从而提高确定目标人员的准确度。

上述方法1至方法3是通过声纹信息和人脸信息确定目标人员的。在一些场景中，还可以通过以下方法确定目标人员。

方法4，将参与视频通话的人员中的至少两个正在发出语音信息的人员中的一个作为目标人员。

在一个场景中，人员1与人员4是参与视频通话的人，当人员4正在说话时，人员1与人员3在私语，或者，人员1在人员4正在说话时发表言论。第一电子设备可以根据前述方法1至方法3中任一项确定人员1与人员4是参与视频通话的人。

此时，参与视频通话的人中正在发出语音信息的人员的数量大于或者等于两个，第一电子设备将参与视频通话的人员中的至少两个正在发出语音信息的人员中的一个作为目标人员。具体包括以下几种方法。

方法4a，第一电子设备确定参与视频通话的人员中的至少两个正在发出语音信息的人员中，每个人员对应的说话的起始时刻；将至少两个起始时刻中，最早的起始时刻对应的正在发出语音信息的人员，确定为目标人员。在本申请实施例中，可以将该方法称为最先说话原则。

例如，第一电子设备根据人员4的位置、声音的传播速度、以及接收到人员4的声音的时刻，确定人员4的说话的起始时刻为10:00，根据人员1的位置、声音的传播速度、以及接收到人员1的声音的时刻，确定人员1的说话的起始时刻为10:02，此时人员4发出语音信息的起始时刻最早，人员1在人员4说话之后发表言论，第一电子设备将人员4确定为目标人员。

方法4b，当参与视频通话的人员中的至少两个正在发出语音信息的人员中的一个向第一电子设备发出语音指令时，第一电子设备确定目标人员为发出语音指令的人员。在本申请实施例中，可以将该方法称为通话发起人原则。

例如，在第一电子设备与第二电子设备成功建立视频通话之前，人员1与人员4均正在发出语音信息，第一电子设备判断人员1与人员4是否为向第一电子设备发出步骤301中所述的语音指令的人员，当确定人员4为向第一电子设备发出语音指令的人员时，将人员4确定为目标人员。

例如，人员4向第一电子设备发出过语音指令，且第一电子设备存储了人员4与语音指令的对应关系。在第一电子设备与第二电子设备进行视频通话的过程中，人员1与人员4均正在发出语音信息，第一电子设备根据对应关系，判断人员1与人员4是否为向第一电子设备发出过语音指令的人员，当确定人员4为向第一电子设备发出过语音指令的人员时，确定人员4为目标人员。

例如，在第一电子设备与第二电子设备成功建立视频通话之前，或者在第一电子设备与第二电子设备进行视频通话的过程中，人员1与人员4均正在发出语音信息，且人员1与人员4均发出过语音指令，第一电子设备按照最先说话原则将最先向第一电子设备发出语音指令的人员确定为目标人员。

方法4c，第一电子设备确定视频通话的主持人；当参与视频通话的人员中的至少两个正在发出语音信息的人员中包括主持人时，第一电子设备确定主持人为目标人员。在本申请实施例中，可以将该方法称为主持人确认原则。

例如，在进行多人视频会议时，视频会议邮件中指定了会议主持人为人员4，第一电子设备将人员4标记为主持人。在视频会议期间，当人员1与人员4同时正在发出语音信息时，第一电子设备将人员4确定为目标人员。

方法4d，当视频通话设置主题时，目标人员为至少两个正在发出语音信息的人员中发出的语音信息与主题相关的人员。

例如，在请求视频通话之前，第一电子设备确定视频通话的主题，如食品安全、信息安全等；视频通话期间，第一电子设备获取参与视频通话的人员中的至少两个正在发出语音信息的人员中每个人员的语音信息，并通过语义识别技术确定与主题相关的语音信息；将与主题相关的语音信息对应的一个参与视频通话的人员，确定为目标人员。在本申请实施例中，可以将该方法称为语义提取原则。

例如，当参与视频通话的人员中的至少两个正在发出语音信息的人员中每个人员的语音信息均与视频通话的主题相关时，第一电子设备按照最先说话原则将至少两个正在发出语音信息的人员中最早发出语音信息的人员确定为目标人员。

基于上述技术方案，第一电子设备能够在两个或者多个正在发出语音信息的人员中确定目标人员，避免了两个或者多个人员正在发出语音信息时，摄像头不知道以谁为焦点进行拍摄的问题。

步骤303，第一电子设备控制摄像头以目标人员为焦点获取第一图像，第一图像用于向第二电子设备的用户提示视频通话中的目标人员。

第一电子设备在确定正在发出语音信息的人员是目标人员之后，可以控制摄像头以目标人员为焦点获取第一图像。

在一种实现方式中，第一电子设备可以获取目标人员的第一位置；根据第一位置，控制摄像头获取第一图像。

例如，第一电子设备搭载有麦克风阵列。第一电子设备获取麦克风阵列的位置；根据麦克风阵列的位置，确定目标人员相对于麦克风阵列的位置；将目标人员相对于麦克风阵列的位置确定为第一位置。

第一电子设备可以利用声源定位算法确定目标人员相对于麦克风阵列的位置(包括方向和距离)。例如，基于波束形成的方法确定目标人员相对于麦克风阵列的位置。或者，基于高分辨率谱估计的方法确定目标人员相对于麦克风阵列的位置。或者，基于声达时延差(Time Difference Of Arrival，TDOA)的方法确定目标人员相对于麦克风阵列的位置。

以TDOA方法与麦克风阵列为线性阵列为例，麦克风阵列包括多个麦克风，第一电子设备可以先估计声音信号到达每个麦克风的时刻之间的时间差，结合已知的麦克风阵列的空间位置，得到关于目标人员的位置的方程组，求解方程组即可确定目标人员相对于麦克风阵列的位置。

上述方法是基于第一电子设备中摄像头的位置与麦克风阵列的位置相同的前提，然而，在一些电子设备中，摄像头的位置与麦克风阵列的位置不相同。例如，智能电视中，摄像头的位置在智能电视的上方，麦克风阵列的位置在智能电视的下方。根据智能电视的尺寸不同，摄像头与麦克风阵列之间的相对位置不相同。

针对此类场景，第一电子设备可以获取摄像头的位置；根据摄像头的位置、麦克风阵列的位置以及目标人员相对于麦克风阵列的位置，确定目标人员相对于摄像头的位置；将目标人员相对于摄像头的位置作为第一位置。

例如，第一电子设备可以以摄像头的中心位置为原点建立三维坐标系，并确定麦克风阵列在三维坐标系中的位置，根据摄像头的位置与麦克风阵列的位置，确定摄像头与麦克风阵列之间的相对位置，根据摄像头与麦克风阵列之间的相对位置、目标人员相对于麦克风阵列的位置，通过坐标映射的方式确定目标人员相对于摄像头的位置，将目标人员相对于摄像头的位置作为第一位置。

基于以摄像头的中心位置为原点建立的三维坐标系得到的第一位置是三维坐标系中的三维坐标，第一电子设备可以根据该三维坐标获取第一图像。也可以根据三维坐标确定目标人员相对于摄像头的方位，方位包括方向和距离，根据方位获取第一图像。

基于上述技术方案，第一电子设备获取的目标人员的位置信息更准确，能够更准确的以目标人员为焦点控制摄像头获取第一图像。

除此之外，假设每个参与视频通话的人在视频通话期间没有移动，第一电子设备在第一次确定目标人员的第一位置后，保存目标人员与第一位置的对应关系，以便在后续检测到正在发出语音信息的人员为该目标人员时，即该目标人员再次说话时，第一电子设备根据目标人员与第一位置的对应关系可以快速确定其第一位置。

值得一提的是，此处确定第一位置的方法也可以应用于前述方法2中确定正在发出语音信息的人员的声音的位置中。

第一电子设备在确定目标人员的第一位置之后，根据目标人员的第一位置，控制摄像头获取第一图像。

如图4所示的场景中，人员1与人员4是参与视频通话的人，人员4为目标人员，人员3为非通话相关人，为了使得获取的第一图像中人员4更加清晰，第一电子设备可以在获取第一图像前调整摄像头的旋转角度、焦距、进光量等参数，在调整参数之后以人员4为焦点获取第一图像，进而在显示第一图像时人员4能够比人员1更加突出。

除此之外，在以人员4为焦点获取第一图像时，还可以，以人员4为中心获取第一图像，进而在显示第一图像时人员4能够C位突出，C位是指中心位置。

此时，可以调整摄像头角度使人员1与人员3不在摄像头的视场角内，只有人员4在摄像头的视场角内，进而获取第一图像，第一图像中只有人员4。

或者，也可以当人员1与人员3在摄像头的视场角内时，虚化人员1和人员3，进而获取第一图像。或者，也可以当人员1与人员3在摄像头的视场角内时，虚化人员3，进而获取第一图像。

或者，也可以调整摄像头角度使人员1在摄像头的视场角内，人员3不在摄像头的视场角内，进而获取第一图像，第一图像中的人员4比人员1更加清晰。

下面对前述第二图像的获取方式进行介绍。

前述方法2中，第二图像是在第一电子设备与第二电子设备成功建立视频通话之前，第一电子设备控制摄像头获取的。例如，在第一电子设备与第二电子设备建立视频通话的过程中，第一电子设备控制摄像头获取第二图像。

例如，摄像头可以是自动升降式摄像头，在建立视频通话的过程中，第一电子设备控制摄像头上升，在摄像头上升的过程中，第一电子设备可以控制摄像头将焦点对准用户1，当摄像头上升至不受遮挡时，第一电子设备控制摄像头以用户1为焦点获取第二图像，摄像头输出的第一帧图像即为第二图像。

假设，用户1通过步骤301中所述的语音指令请求与第二电子设备建立视频通话，用户1为发出语音指令的人员，在建立视频通话的过程中，第一电子设备可以基于与前述获取第一图像的方法相同的方法获取第二图像，第二图像是以用户1为焦点获取的。

第一电子设备还可以在摄像头上升的过程中，控制摄像头转动一定角度，比如下倾10度，在转动一定的角度之后，摄像头能够将焦点对准用户1。相比于固定在第一电子设备上的摄像头，升降式摄像头在视频通话时升起，视频通话结束后收回，能够保护参与视频通话的人员的隐私。且，升降式摄像头可以调整角度范围，在不同场景应用不同的拍摄角度，能够达到更好的视频通话效果，极大地拓展了应用场景。

第一电子设备在获取第二图像之后，可以将第二图像发送给第二电子设备进行显示，避免视频通话建立成功时第二电子设备出现空屏/黑屏等情况。

相比于摄像头输出画面之后，再确定用户1的位置，控制摄像头以用户1为焦点第二图像，基于上述技术方案，第一电子设备可以节省视频通话建立成功之后或者摄像头输出画面之后再调整摄像头的时间，能够优化视频通话的流程，减少用户2的等待时间，提高用户2的视频通话体验。

值得一提的是，在步骤301中，用户1通过语音指令请求第一电子设备与第二电子设备建立视频通话时，第一电子设备判断用户1是不是参与视频通话的人员，若是，则接受语音指令的请求，若否，则拒绝语音指令的请求，第一电子设备可以根据前述方法1至方法3中任一种方法判断用户1是不是参与视频通话的人员。

步骤304，第一电子设备向第二电子设备发送第一图像。

第二电子设备接收到第一图像后，对第一图像进行显示，第一图像用于向第二电子设备的用户提示视频通话中的目标人员。

在一种实现方式中，第二电子设备将第一图像直接显示。因为第一图像是以目标人员为焦点获取的，所以当第一图像中有多个人员时，第一图像中目标人员比其他人员更清晰，将第一图像直接显示时也能够突出显示目标人员。

在另一种实现方式中，第二电子设备将第一图像突出显示。

例如，第二电子设备在没有指示的情况下，从第一图像中确定目标人员，并将目标人员突出显示。例如，第二电子设备可以将第一图像中最清晰的人员确定为需要突出显示的目标人员。或者，当第一图像是以目标人员为焦点且为图像中心获取的时，第二电子设备可以将第一图像中位于中间部分的人员确定为需要突出显示的目标人员。

例如，第一图像是承载在第一信息中发送至第二电子设备的，第一信息指示第二电子设备突出显示目标人员。第二电子设备根据第一信息确定突出显示目标人员。

第一信息可以根据比特信息指示第二电子设备突出显示目标人员。例如，第一信息中包含二进制数“0”时，指示第二电子设备突出显示目标人员。第一信息中包含二进制数“1”时，指示第二电子设备不需要突出显示目标人员。该方法中，第二电子设备可以将第一图像中最清晰的人员确定为需要突出显示的目标人员。

或者，第一信息可以包括多个标注信息，每个标注信息用于标注第一图像中的一个人员。例如，一个标注信息包括，第一图像中一个人员的像素坐标、是否为目标人员、是否为参与视频通话的人员。或者，第一电子设备只对参与视频通话的人员进行标注，一个标注信息包括，第一图像中一个参与视频通话的人员的像素坐标、是否为目标人员。第二电子设备根据标注信息确定目标人员，并突出显示目标人员。

第二电子设备在对目标人员进行突出显示时，可以对第一图像中进行图像处理，例如，对目标人员所在部分进行色彩增强、滤波、锐化、背景替换等处理。

或者，第二电子设备将目标人员显示在屏幕中央，以达到突出显示的目的。

或者，第二电子设备可以对目标人员进行标记，以达到突出显示的目的。如图5中的(a)图所示，人员4目标人员，为第二电子设备可以利用箭头标记目标人员4。或者，如图5中的(b)图所示，第二电子设备可以通过方框、圆框等方式标记目标人员4。

第二电子设备在对第一图像进行显示时，可以显示第一图像中的所有人员，以下将这种显示方式称为一路显示。也可以单独显示第一图像中的至少部分人员，以下将这种显示方式称为多路显示。

第一电子设备可以通过第一信息指示第二电子设备将第一图像一路显示或者多路显示。第二电子设备根据第一信息的指示将第一图像一路显示或者多路显示。

例如，第一电子设备在获取第一图像之后，判断第一图像中参与视频通话的人是否为一个，若是，则第一信息指示第二电子设备将第一图像一路显示，若否，则第一信息指示第二电子设备将第一图像中多路显示。

或者，第一电子设备在获取第一图像之后，判断第一图像是否满足预设条件。当第一图像满足预设条件时，第一信息指示第二电子设备将第一图像一路显示。或者，当第一图像不满足预设条件时，第一信息指示第二电子设备将第一图像多路显示。

例如，预设条件包括但不限于以下条件中的至少一个：(1)第一图像中参与视频通话的人员之间的距离小于或者等于预设距离，(2)第一图像中参与视频通话的人员与摄像头之间的角度小于或者等于预设角度，(3)第一图像中参与视频通话的人员与背景颜色的重合度小于或者等于预设重合度，(4)第一图像的亮度属于预设亮度范围。

例如，如图6所示，当第一图像中参与视频通话的人员之间的距离小于或者等于预设距离时，第一信息指示第二电子设备将第一图像一路显示。参与视频通话的人员之间的距离指的是所有参与视频通话的人员所形成的最大横向距离或者最大纵向距离。

例如，如图7所示，当第一图像中参与视频通话的人员之间的距离大于预设距离时，第一信息指示第二电子设备将第一图像多路显示。

例如，如图8所示，α表示人员1与摄像头之间的角度，β表示人员4与摄像头之间的角度。当第一图像中参与视频通话的人员与摄像头之间的角度均小于或者等于预设角度时，即α小于或者等于预设角度且β小于或者等于预设角度，第一信息指示第二电子设备将第一图像一路显示。

或者，当第一图像中每个参与视频通话的人员与摄像头之间的角度的总和小于或者等于预设角度时，即α+β小于或者等于预设角度，第一信息指示第二电子设备将第一图像一路显示。

第一图像中参与视频通话的人员之间的距离、参与视频通话的人员与摄像头之间的角度可以通过单目测距算法计算到的。

例如，在一些场景中，目标人员或者其他参与视频通话的人穿的衣服或者肤色可能与背景颜色很接近，例如，新春直播时，直播间的背景颜色为红色，参与视频通话的主播也身着红色衣服。

第一电子设备可以通过图像处理技术确定第一图像中参与视频通话的人员与背景颜色的重合度，当第一图像中参与视频通话的人员与背景颜色的重合度小于或者等于预设重合度时，第一信息指示第二电子设备将第一图像一路显示，否则多路显示。

例如，在一些场景中，第一图像过暗或者过亮，导致第一图像中的人像不清楚。第一电子设备可以通过图像处理技术判断第一图像是否过暗或者过亮，例如，生成第一图像的直方图，根据直方图判断第一图像是否过暗或者过亮。当第一图像的亮度属于预设亮度范围时，第一信息指示第二电子设备将第一图像一路显示。

预设条件还包括加权值小于或者等于第二预设阈值，加权值是根据第一图像中参与视频通话的人员之间的距离、第一图像中参与视频通话的人员与摄像头之间的角度、第一图像中参与视频通话的人员与背景颜色的重合度、以及第一图像的亮度中的至少一个确定的。

例如，为上述多个参数设置不同的权重，第一图像中参与视频通话的人员之间的距离的权重为0.5，第一图像中参与视频通话的人员与摄像头之间的角度的权重为0.3，第一图像中参与视频通话的人员与背景颜色的重合度的权重为0.2，第一图像的亮度的权重为0.1。

例如，在如图8所示的场景中，人员1与人员4之间的横向距离为x，人员1与摄像头之间的角度为α，人员4与摄像头之间的角度为β，人员1与背景颜色的重合度为p，人员4与背景颜色的重合度为q，第一图像的亮度y。

则，加权值＝0.5*x+0.3*(α+β)+0.2*(p+q)+0.1*y。当得到的加权值小于或者等于第二预设阈值时，第一图像满足预设条件，第一信息指示第二电子设备将第一图像一路显示。

第二电子设备在对第一图像进行多路显示时，根据标注信息中的像素坐标，将每个参与视频通话的人员裁剪出来得到多个子图像，并且将显示屏幕划分为多个区域，在一个区域中显示一个子图像。

相比于第二电子设备一路显示第一图像，第二电子设备多路显示第一图像时，换句话说，第二电子设备显示第一图像的多个子图像时，目标人员在第二电子设备的显示画面上占据的比例更大。因此，多路显示也可以作为突出显示目标人员的一种方法。

除此之外，第二电子设备还可以设置多个子图像在屏幕上的显示布局，达到突出显示目标人员的目的。

例如，如图9中的(a)图所示，参与视频通话的人员还包括人员5，第二电子设备将显示屏划分为中间部分和边缘部分，将目标人员(人员4)的子图像显示在中间部分，将其他参与视频通话人员的子图像(人员1与人员5)显示在边缘部分，从而突出显示人员4。

在此基础上，第二电子设备可以将中间部分放大，如图9中的(b)图所示，即中间部分的区域面积大于边缘部分的区域面积，从而突出显示人员4。

或者，如图9中的(c)图所示，第二电子设备将中间部分的区域的边框进行加粗显示，从而突出显示人员4。

或者，如图9中的(d)图所示，第二电子设备将中间部分的区域的边框利用醒目的线条颜色标示，如红色、绿色等，从而突出显示人员4。

或者，将上述多种显示方法进行组合。如图9中的(e)图所示，将中间部分放大且将中间部分的区域边框利用醒目的线条颜色标示并将边框加粗显示，从而突出显示人员4。

例如，如图10所示，第二电子设备将显示屏划分为上下两部分，且下半部分划分多个显示区域，将人员4的子图像显示在上半部分，将人员1与人员5的子图像显示在下半部分，从而突出显示人员4。此时，接听、挂断、转为语音、本端图像等内容可以隐藏。

例如，如图11所示，第二电子设备将显示屏划分为左右两部分，且右半部分划分多个显示区域，将人员4的子图像显示在左半部分，将人员1与人员5的子图像显示在右半部分，从而突出显示人员4。

例如，如图12所示，参与视频通话的人员还包括人员6与人员7，第二电子设备将人员4所在区域放大并且显示在显示屏的左上部分，在显示屏的其他部分显示人员1、人员5、人员6与人员7的图像，从而突出显示人员4。

基于上述实现方式，第二电子设备不仅显示目标人员的图像，还显示其他参与视频通话的人的图像。第二电子设备突出显示目标人员，用户2在视频通话时能够更直观的看到目标人员的图像。在用户2想观察除目标人员之外其他参与视频通话的人员时，也能够看到其图像。从而满足多种需求，提高用户2的视频通话的体验。

下面对本申请提供的视频通话的方法的另一个实施例进行介绍，图13示出了视频通话的方法400的示例性交互流程图。

步骤1301，语音系统检测用户1是否说话。

第一电子设备可以分为语音系统、视频系统和中控系统。语音系统中包括麦克风阵列，视频系统中包括摄像头，中控系统可以控制语音系统、视频系统以及控制第一电子设备实现其他功能。

步骤1302，用户1向第一电子设备发出语音指令。

当用户1想与用户2进行视频通话时，用户1可以通过语音指令请求第一电子设备与第二电子设备建立视频通话。本申请实施例中，语音指令的内容可以参考前述步骤301中的语音指令。

步骤1303，语音系统确定用户1相对于麦克风阵列的位置。

步骤1304，语音系统将语音指令和用户1相对于麦克风阵列的位置发送给视频系统。

在检测到用户1正在发出语音信息，并且语音信息为语音指令时，语音系统确定用户1相对于麦克风阵列的位置。本申请实施例中，语音系统可以基于与前述确定目标人员相对于麦克风阵列的位置的方法相同的方法确定用户1相对于麦克风阵列的位置。

语音系统还可以从声音中提取用户1的声纹信息，用于确定用户1是否为通话相关人。本申请实施例中，通话相关人对应于前述第一电子设备标记的参与视频通话的人员。

语音系统还可以将用户1的声纹信息发送给视频系统或者中控系统，由视频系统或者中控系统确定用户1是否为通话相关人。

步骤1305，视频系统确定用户1相对于摄像头的位置，并控制摄像头上升，在摄像头升起的过程中，视频系统控制摄像头将焦点对准用户1。

步骤1306，在摄像头升起后，视频系统控制摄像头获取第二图像。

视频系统接收到语音系统发送的语音指令之后，根据用户1相对于麦克风阵列的位置确定用户1相对于摄像头的位置，即将用户1在语音系统中的坐标适配映射到视频系统中。本申请实施例中，视频系统可以基于与前述确定目标人员相对于摄像头的位置的方法相同的方法确定用户1相对于摄像头的位置。

除此之外，摄像头可以是自动升降式摄像头，视频系统控制摄像头上升，在摄像头升起的过程中，视频系统控制摄像头调整对焦参数，从而将焦点对准用户1。当摄像头上升至不受遮挡时，视频系统控制摄像头以用户1为焦点获取第二图像。本申请实施例中，获取第二图像的方法可参照前述步骤302中获取第二图像的方法。

第一电子设备在获取第二图像之后，可以向第二电子设备发送第二图像。第二电子设备显示画面时，最先显示第二图像。

在第二电子设备显示第二图像后，第一电子设备与第二电子设备成功建立视频通话。在视频通话的过程中，如图14示出了视频通话的方法500的示例性流程图，方法500由中控系统执行。

步骤1401，视频通话建立成功后，获取通话相关人名单。

视频通话建立成功后，中控系统获取通话相关人名单，从而确定使用第一电子设备进行视频通话的人员。本申请实施例中，通话相关人名单可以对应于前述步骤303中参与视频通话的人员的名单。

步骤1402，根据声纹信息或人脸信息区分通话相关人与非通话相关人。

中控系统获取通话相关人的声纹信息或人脸信息，并根据通话相关人名单、声纹信息或人脸信息区分摄像头视场角范围内的人员是通话相关人还是非通话相关人。

本申请实施例中，区分摄像头视场角范围内的人员是通话相关人还是非通话相关人的方法可以参考前述方法1至方法3中任一种方法。

步骤1403，判断是否为多个通话相关人，若否，则执行步骤1404，若是，则执行步骤1405。

步骤1404，一路显示所有通话相关人。

当摄像头视场角范围内的人员只有一个通话相关人时，当正在发出语音信息的人员是通话相关人时，中控系统控制摄像头以该正在发出语音信息的人员为焦点获取第一图像。中控系统将第一图像发送给第二电子设备，并指示第二电子设备将第一图像一路显示。本申请实施例中，获取第一图像的方法可参照前述步骤303中获取第一图像的方法。

步骤1405，判断一路显示能否保证显示效果，若是，则执行步骤1404，若否，则执行步骤1406。

步骤1406，将通话相关人多路显示，将正在说话的通话相关人突出显示，未说话的通话相关人一般显示。

当摄像头视场角范围内的人员有多个通话相关人时，当正在发出语音信息的人员是通话相关人时，中控系统控制摄像头以该正在发出语音信息的人员为焦点获取第一图像时，控制摄像头角度使其他通话相关人在摄像头视场角范围内。

中控系统判断一路显示能否保证显示效果，换句话说，第一图像一路显示是否能够将正在发出语音信息的通话相关人清晰且突出的显示。正在发出语音信息的通话相关人对应于前述目标人员。

若一路显示能够保证显示效果，则中控系统将第一图像发送给第二电子设备，并指示第二电子设备一路显示第一图像。

若一路显示不能够保证显示效果，则中控系统将第一图像发送给第二电子设备，并指示第二电子设备多路显示第一图像，多路显示时将正在发出语音信息的通话相关人突出显示，提供最优的显示效果。将未发出语音信息的通话相关人一般显示，换句话说，能够实现在屏幕上演示未发出语音信息的通话相关人即可。

本申请实施例中，可以基于前述判断第一图像是否满足预设条件的方法判断一路显示能否保证显示效果。

第二电子设备接收到第一图像后，将第一图像一路显示或者多路显示，显示方法可以参考步骤304中一路显示或者多路显示的方法。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的电子设备，用于执行上述视频通话的方法，因此可以达到与上述实现方法相同的效果。在采用集成的单元的情况下，电子设备可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对电子设备的动作进行控制管理，例如，可以用于支持电子设备执行处理单元执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块，可以用于支持电子设备与其他设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本实施例所涉及的电子设备可以为具有图2所示结构的设备。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的视频通话的方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的视频通话的方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的视频通话的方法。

其中，本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频通话的方法，其特征在于，第一电子设备具有升降式摄像头，所述第一电子设备与第二电子设备正在进行视频通话，所述方法包括：

所述第一电子设备从所述第一电子设备标记的参与所述视频通话的一个或多个人员中，确定目标人员，所述目标人员为所述一个或多个人员中正在发出语音信息的人员；

所述第一电子设备控制所述摄像头以所述目标人员为焦点获取第一图像，所述第一图像用于向所述第二电子设备的用户提示所述视频通话中的所述目标人员；

所述第一电子设备向所述第二电子设备发送所述第一图像；

所述第一电子设备向所述第二电子设备发送所述第一图像，包括：所述第一电子设备向所述第二电子设备发送第一信息，所述第一信息中包括所述第一图像，当所述第一图像满足预设条件时，所述第一信息指示所述第二电子设备显示所述第一图像中的所有人员，或，当所述第一图像不满足预设条件时，所述第一信息指示所述第二电子设备单独显示所述第一图像中的至少部分人员；

所述预设条件包括：所述第一图像中参与所述视频通话的人员之间的距离小于或者等于预设距离、所述第一图像中参与所述视频通话的人员与所述摄像头之间的角度小于或者等于预设角度、所述第一图像中参与所述视频通话的人员与背景颜色的重合度小于或者等于预设重合度、以及所述第一图像的亮度属于预设亮度范围中的至少一个；

在所述第一电子设备与所述第二电子设备成功建立视频通话之前，所述方法还包括：

所述第一电子设备在与所述第二电子设备建立视频通话的过程中，控制所述升降式摄像头上升；

所述第一电子设备在所述升降式摄像头上升的过程中，控制所述升降式摄像头将焦点对准发出语音指令的人员；

所述第一电子设备在所述升降式摄像头上升后，控制所述升降式摄像头以发出所述语音指令的人员为焦点获取第二图像。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述第一电子设备获取参与所述视频通话的一个或多个人员的标识信息；

所述第一电子设备根据所述标识信息，标记参与所述视频通话的一个或多个人员。

3.根据权利要求1所述的方法，其特征在于，所述确定目标人员，包括：

所述第一电子设备获取每个参与所述视频通话的人员的人脸信息和声纹信息中的至少一个；

在检测到人声时，所述第一电子设备根据所述人脸信息和所述声纹信息中的至少一个，确定所述正在发出语音信息的人员是所述目标人员。

4.根据权利要求3所述的方法，其特征在于，所述第一电子设备根据所述声纹信息，确定所述正在发出语音信息的人员是所述目标人员，包括：

所述第一电子设备将所述正在发出语音信息的人员的声纹信息与每个参与所述视频通话的人员的声纹信息进行匹配；

所述第一电子设备根据所述正在发出语音信息的人员的声纹信息与每个参与所述视频通话的人员的声纹信息的匹配结果，确定所述正在发出语音信息的人员是所述目标人员。

5.根据权利要求3所述的方法，其特征在于，所述第二图像中包含至少一个人脸，所述第一电子设备根据所述人脸信息，确定所述正在发出语音信息的人员是所述目标人员，包括：

所述第一电子设备将所述第二图像中的至少一个人脸与每个参与所述视频通话的人员的人脸信息进行匹配，确定人脸匹配相似度大于或者等于第一预设阈值的人脸相对于所述摄像头的位置；

所述第一电子设备根据所述正在发出语音信息的人员的声音的位置，与所述人脸匹配相似度大于或者等于第一预设阈值的人脸相对于所述摄像头的位置，确定所述正在发出语音信息的人员是所述目标人员。

6.根据权利要求5所述的方法，其特征在于，所述第一电子设备根据正在发出语音信息的人员的声音的位置，与所述人脸匹配相似度大于或者等于第一预设阈值的人脸相对于所述摄像头的位置，确定所述正在发出语音信息的人员是所述目标人员，包括：

当所述正在发出语音信息的人员的声音的位置，与所述人脸匹配相似度大于或者等于第一预设阈值的人脸相对于所述摄像头的位置匹配时，所述第一电子设备将所述正在发出语音信息的人员的声纹信息与每个参与所述视频通话的人员的声纹信息进行匹配；

7.根据权利要求1所述的方法，其特征在于，所述第一电子设备控制所述摄像头以所述目标人员为焦点获取第一图像，包括：

所述第一电子设备获取所述目标人员的第一位置；

所述第一电子设备根据所述第一位置，控制所述摄像头获取所述第一图像。

8.根据权利要求7所述的方法，其特征在于，所述第一电子设备还具有麦克风阵列，所述第一电子设备获取所述目标人员的第一位置，包括：

所述第一电子设备获取所述麦克风阵列的位置；

所述第一电子设备根据所述麦克风阵列的位置，确定所述目标人员相对于所述麦克风阵列的位置；

所述第一电子设备将所述目标人员相对于所述麦克风阵列的位置确定为所述第一位置。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

所述第一电子设备获取所述摄像头的位置；

所述第一电子设备将所述目标人员相对于所述麦克风阵列的位置确定为所述第一位置，包括：

所述第一电子设备根据所述摄像头的位置、所述麦克风阵列的位置以及所述目标人员相对于所述麦克风阵列的位置，确定所述目标人员相对于所述摄像头的位置；

所述第一电子设备将所述目标人员相对于所述摄像头的位置作为所述第一位置。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述方法还包括：

当参与所述视频通话的人员中正在发出语音信息的人员的数量大于或者等于两个时，所述第一电子设备将参与所述视频通话的人员中的至少两个正在发出语音信息的人员中的一个作为所述目标人员。

11.根据权利要求10所述的方法，其特征在于，在所述第一电子设备将参与所述视频通话的人员中的至少两个正在发出语音信息的人员中的一个作为所述目标人员时，所述目标人员满足以下条件中的一个或多个：

所述目标人员对应的发出语音信息的起始时刻为所述至少两个正在发出语音信息的人员中最早的；

当所述至少两个正在发出语音信息的人员中的一个向所述第一电子设备发出语音指令时，所述目标人员为发出所述语音指令的人员，所述语音指令请求所述第一电子设备与所述第二电子设备建立所述视频通话；

当所述至少两个正在发出语音信息的人员中的一个为所述视频通话的主持人时，所述目标人员为所述主持人；

当所述视频通话设置主题时，所述目标人员为所述至少两个正在发出语音信息的人员中发出的语音信息与所述主题相关的人员。

12.根据权利要求1至9任一项所述的方法，其特征在于，所述第一信息包括多个标注信息，每个所述标注信息用于标注所述第一图像中的一个人员。

13.根据权利要求1所述的方法，其特征在于，所述预设条件包括加权值小于或者等于第二预设阈值，所述加权值是根据所述第一图像中参与所述视频通话的人员之间的距离、所述第一图像中参与所述视频通话的人员与所述摄像头之间的角度、所述第一图像中参与所述视频通话的人员与背景颜色的重合度、以及所述第一图像的亮度中的至少一个确定的。

14.根据权利要求12所述的方法，其特征在于，所述方法还包括：

所述第一电子设备根据所述语音指令，与所述第二电子设备建立所述视频通话。

15.根据权利要求14所述的方法，其特征在于，所述第一电子设备根据所述语音指令，与所述第二电子设备建立所述视频通话，包括：

所述第一电子设备在确定发出所述语音指令的人员为所述第一电子设备标记的参与所述视频通话的人员时，根据所述语音指令，与所述第二电子设备建立所述视频通话。

16.一种电子设备，其特征在于，包括：一个或多个处理器；存储器；安装有多个应用程序的模块；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，当所述一个或者多个程序被所述处理器执行时，使得所述电子设备执行如权利要求1至15中任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1至15中任一项所述的方法。