CN114679543A

CN114679543A - 聚焦方法、装置、计算机设备和存储介质

Info

Publication number: CN114679543A
Application number: CN202210357115.0A
Authority: CN
Inventors: 张艳玲
Original assignee: Huizhou TCL Mobile Communication Co Ltd
Current assignee: Huizhou TCL Mobile Communication Co Ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-06-28

Abstract

本申请实施例公开了一种聚焦方法、装置、计算机设备和存储介质；本申请实施例可以通过摄像头采集图像，其中，所述摄像头由电机驱动聚焦；通过麦克风阵列采集所述图像对应的声源定位数据；若所述声源定位数据指示所述图像对应至少两个声源，则从所述图像中确定目标聚焦区域；根据所述目标聚焦区域对应的声源定位数据，触发所述电机驱动所述摄像头进行聚焦。该方案可以在画面对应多个声源的情况下，提高针对该画面的自动聚焦效果。

Description

聚焦方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种聚焦方法、装置、计算机设备和存储介质。

背景技术

自动聚焦普遍应用于生活的方方面面，例如，在拍照，视频通话，视频会议等应用场景中，对拍摄画面进行自动聚焦有利于获取更清晰的视觉效果与更佳的用户体验。

在对相关技术的研究和实践过程中，本申请的发明人发现，自动聚焦的应用场景中，存在由于摄像头无法正确聚焦而导致画面不清晰的缺陷，使得当前的自动聚焦技术有待改进。

发明内容

本申请实施例提出了一种聚焦方法、装置、计算机设备和存储介质，可以在画面对应多个声源的情况下，提高针对该画面的自动聚焦效果。

本申请实施例提供一种聚焦方法，包括：

通过摄像头采集图像，其中，所述摄像头由电机驱动聚焦；

通过麦克风阵列采集所述图像对应的声源定位数据；

若所述声源定位数据指示所述图像对应至少两个声源，则从所述图像中确定目标聚焦区域；

根据所述目标聚焦区域对应的声源定位数据，触发所述电机驱动所述摄像头进行聚焦。

相应的，本申请实施例还提供一种聚焦装置，包括：

第一采集单元，用于通过摄像头采集图像，其中，所述摄像头由电机驱动聚焦；

第二采集单元，用于通过麦克风阵列采集所述图像对应的声源定位数据；

确定单元，用于若所述声源定位数据指示所述图像对应至少两个声源，则从所述图像中确定目标聚焦区域；

第一聚焦单元，用于根据所述目标聚焦区域对应的声源定位数据，触发所述电机驱动所述摄像头进行聚焦。

在一实施例中，所述确定单元，包括：

划分子单元，用于对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域；

第一计算子单元，用于计算所述候选聚焦区域的优先级；

目标确定子单元，用于根据计算结果，从所述候选聚焦区域中确定目标聚焦区域。

在一实施例中，所述图像包括至少一个对象；所述划分子单元，用于：

对所述对象进行对象识别；基于识别结果，对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域。

在一实施例中，所述划分子单元，用于：

获取所述图像的画面构图信息；根据所述画面构图信息，对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域。

在一实施例中，所述划分子单元，用于：

获取所述图像的关联帧；将所述图像与所述关联帧进行比对；基于比对结果，对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域。

在一实施例中，所述摄像头包括镜头；所述第一聚焦单元，包括：

第二计算子单元，用于根据所述声源定位数据，计算所述镜头的聚焦位置；

驱动子单元，用于通过所述电机驱动所述镜头到所述聚焦位置，以针对所述摄像头进行聚焦。

在一实施例中，所述聚焦装置还包括：

第二聚焦单元，用于若所述声源定位数据指示所述图像对应一个声源，则根据所述声源定位数据，触发所述电机驱动所述摄像头进行聚焦。

相应的，本申请实施例还提供的一种计算机设备，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行本申请实施例提供的任一种聚焦方法。

相应的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行本申请实施例提供的任一种聚焦方法。

相应的，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，其中，所述计算机程序/指令被处理器执行时实现如本申请实施例所示的聚焦方法的步骤。

本申请实施例可以通过摄像头采集图像，其中，所述摄像头由电机驱动聚焦；通过麦克风阵列采集所述图像对应的声源定位数据；若所述声源定位数据指示所述图像对应至少两个声源，则从所述图像中确定目标聚焦区域；根据所述目标聚焦区域对应的声源定位数据，触发所述电机驱动所述摄像头进行聚焦。

该方案可以结合由麦克风阵列采集得到的声源定位数据，以及对图像进行区域划分得到的目标焦距区域，来触发电机驱动摄像头进行聚焦，从而使得当画面对应多个声源的时候，不仅能够从声音分析与图像分析的维度来确定针对该画面的聚焦方式，还能够基于图像的区域分析结果，提高多声源情况下画面自动聚焦的准确率，从而提高针对该画面的聚焦效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的聚焦方法的场景示意图；

图2是本申请实施例提供的聚焦方法的流程图；

图3是本申请实施例提供的聚焦方法的另一流程示意图；

图4是本申请实施例提供的聚焦方法的另一流程示意图；

图5是本申请实施例提供的聚焦装置的结构示意图；

图6是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，然而，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出了一种聚焦方法，该聚焦方法可以由聚焦装置执行，该聚焦装置可以集成在计算机设备中。其中，该计算机设备可以包括终端以及服务器等中的至少一个。即该聚焦方法可以由终端执行，也可以由服务器执行。

其中，该计算机设备可以为服务器或终端等设备。具体地，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。该终端可以是个人电脑、平板电脑、笔记本电脑、台式计算机、智能电视、智能手机、智能音箱、智能手表、VR/AR设备、车载终端、智能家居、可穿戴电子设备等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一实施例中，如图1所示，聚焦装置可以集成在终端或服务器等计算机设备上，以实施本申请实施例提出的聚焦方法。

作为示例，本申请实施例可以以计算机设备为终端为例，来介绍聚焦方法。参考图1，终端10可以通过摄像头采集图像，其中，该摄像头由电机驱动聚焦；终端10可以通过麦克风阵列采集该图像对应的声源定位数据；若该声源定位数据指示该图像对应至少两个声源，则终端10可以从该图像中确定目标聚焦区域；进一步地，终端10可以根据目标聚焦区域对应的声源定位数据，触发电机驱动摄像头进行聚焦。

作为另一示例，可以以计算机设备为服务器为例，来介绍聚焦方法。参考图1，终端10可以包括由电机驱动聚焦的摄像头，以及用于采集声源定位数据的麦克风阵列，服务器20可以通过终端10的摄像头采集图像，并通过终端10的麦克风阵列采集该图像对应的声源定位数据。若该声源定位数据指示该图像对应至少两个声源，则服务器20可以从该图像中确定目标聚焦区域，并根据该目标聚焦区域对应的声源定位数据，触发电机驱动摄像头进行聚焦。

以下分别进行详细说明，需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供的聚焦方法，该方法可以由服务器或终端执行，也可以由服务器和终端共同执行；本申请实施例以聚焦方法由终端执行为例来进行说明。

如图2所述，该聚焦方法的具体流程可以如下：

101、通过摄像头采集图像，其中，摄像头由电机驱动聚焦。

本申请可以应用于多个聚焦场景中，例如，拍照，视频通话，视频会议等。例如，摄像头可以集成在终端上，当终端检测到图像采集指令时，可以通过调用该摄像头来采集图像。又如，终端上可以不集成有摄像头，该终端可以通过有线或者无线的方式控制摄像头，以使得终端可以通过该摄像头来采集图像。

其中，摄像头由电机驱动聚焦，例如，摄像头可以包括镜头，电机可以通过驱动镜头到预期的聚焦位置，以使得摄像头能够进行聚焦。作为示例，在自动聚焦系统中，聚焦主体的距离可以反映物距，可以根据光学公式计算出像距，从而确定电机的驱动位置。

摄像头采集图像的方式可以有多种，例如，可以由摄像头采集单帧图像；又如，可以由摄像头采集视频，并从中提取图像；等等。

值得注意的是，在本申请中摄像头是作为图像采集装置的作用，且本申请中，仅是以图像采集装置具体为摄像头进行举例，并不限制图像采集装置只能为摄像头。

102、通过麦克风阵列采集图像对应的声源定位数据。

其中，麦克风阵列指的是由一定数目的声学传感器(例如，麦克风)组成，用来对声场的空间特性进行采样并处理的系统。

值得注意的是，本申请中麦克风阵列是作为声音采集装置的作用，本申请中仅是以声音采集装置具体为麦克风阵列为例进行举例，并不限制声音采集装置只能是麦克风阵列。

例如，麦克风阵列可以集成在终端上，当终端检测到声音采集指令时，可以通过调用麦克风阵列来采集声源定位数据。又如，终端上可以不集成有麦克风阵列，该终端可以通过有线或者无线的方式控制麦克风阵列，以使得终端可以通过麦克风阵列采集所需的声源定位数据。

作为示例，终端可以包括由电机驱动聚焦的摄像头，以及用于采集声源定位数据的麦克风阵列，因此，该终端可以通过该摄像头采集图像，并通过该麦克风阵列采集该图像对应的声源定位数据。

作为另一示例，终端中可以不集成有摄像头，该终端可以通过有线或无线的方式控制该摄像头，当该终端检测到图像采集指令时，该终端可以控制该摄像头进行图像采集。类似地，在该示例中，终端中亦可以不集成有麦克风阵列，该终端可以通过有线或无线的方式控制麦克风阵列，当该终端检测到声音采集指令时，该终端可以控制该麦克风阵列采集所需的声源定位数据。

在实际应用中，可以以基于摄像头与麦克风阵列的视频会议系统为例，该视频会议系统可以包括用于采集视频会议图像的摄像头，该摄像头可以由电机驱动聚焦，该电机由控制器控制，该控制器可以接收针对该电机的控制指令，以使得该电机可以基于该控制指令，驱动摄像头进行聚焦。作为示例，该控制指令为基于摄像头采集到的图像、与麦克风阵列采集到的声源定位数据生成的指令。

其中，声源定位数据为指示声源目标的方位信息的相关数据，例如，声源定位数据可以包括为对声源目标形成的空间描述，譬如，该空间描述具体可以为(x，y，z)的形式，其中，x表示声源目标在x轴上的定位，y表示声源目标在y轴上的定位，z表示声源目标在z轴上的定位，x-y-z轴为预设的坐标轴系统。

例如，可以以基于摄像头与麦克风阵列的视频会议系统为例，该视频会议系统可以包括用于采集视频会议图像的摄像头，该摄像头可以由电机驱动聚焦，该电机可以由控制器控制。作为示例，该控制器上可以连接有用于采集声源定位数据的麦克风阵列，该控制器可以根据麦克风阵列获取的声源定位数据控制该电机驱动摄像头旋转与移动，以使得该摄像头可以采集声源目标对应的图像，并且，该控制器可以根据声源定位数据控制电机驱动摄像头进行聚焦。

又如，可以以基于摄像头与麦克风阵列的视频会议系统为例，该视频会议系统可以包括用于采集视频会议图像的摄像头，该摄像头可以由电机驱动聚焦，该电机可以由控制器控制，该控制器可以控制电机驱动摄像头进行旋转与移动，以使得该摄像头可以采集图像，此外，该控制器还可以接收由麦克风阵列采集到的该图像所对应的声源定位数据，以使得该控制器可以基于摄像头采集到的图像、以及该图像对应的声源定位数据，控制电机驱动摄像头进行聚焦。

103、若声源定位数据指示图像对应至少两个声源，则从图像中确定目标聚焦区域。

例如，若图像中包括至少两个对象(如发言用户)，且麦克风阵列采集到该至少两个对象对应的声源定位数据，则可以确定该声源定位数据指示该图像对应至少两个声源。

在本申请中，麦克风阵列可以获取声源的方位信息，例如，获取声源的水平方位、垂直方位及距离，对于自动聚焦系统而言，聚焦主体的距离可以反映物距，进一步地，可以根据光学公式计算出像距，从而确定电机的驱动位置。然而，考虑到对于多声源的情况，仅根据麦克风阵列采集到的声源定位信息难以确定摄像头具体该如何聚焦，因此，可以进一步地结合摄像头采集到的图像，确定摄像头具体该如何聚焦。

在一实施例中，在多声源的情况下，可以从摄像头采集到的图像中确定摄像头要聚焦的目标聚焦区域，以使得后续可以基于目标聚集区域与麦克风阵列采集到的声源定位数据，确定摄像头具体该如何聚焦。具体地，步骤“从图像中确定目标聚焦区域”，可以包括：

对图像进行区域划分，得到图像的至少一个候选聚焦区域；

计算候选聚焦区域的优先级；

根据计算结果，从候选聚焦区域中确定目标聚焦区域。

其中，对图像进行区域划分指的是将图像划分成至少一个区域。在本申请中，可以通过对摄像头采集的图像进行区域划分，以从该图像中确定摄像头聚焦的至少一个候选聚焦区域，进而再从候选聚焦区域中确定目标聚焦区域，以使得摄像头可以针对图像中的该目标聚焦区域进行聚焦。

在本申请中，对图像进行区域划分的方式可以有多种，例如，摄像头采集到的图像中可以包括至少一个对象，因此，可以基于对图像中的对象进行对象检测的检测结果，来对该图像进行区域划分，具体地，步骤“对图像进行区域划分，得到图像的至少一个候选聚焦区域”，可以包括：

对对象进行对象识别；

基于识别结果，对图像进行区域划分，得到图像的至少一个候选聚焦区域。

其中，对象识别指的是对检测到的对象进行识别的过程，对象检测是指利用图像处理与与模式识别等领域的理论和方法，检测出图像中存在的目标对象，确定这些目标对象的语义类别，并标定出目标对象在图像中的位置。对象检测是对象识别的前提。

对图像中的对象进行对象识别后，即可进一步地，基于识别结果，对图像进行区域划分，得到图像的至少一个候选聚焦区域。

例如，可以基于图像中每个识别到的对象，对该图像进行区域划分，使得每个识别到的对象所在的区域，分别作为该图像的一个候选聚焦区域；又如，可以基于图像中每个识别到的对象，将该图像划分成至少一个子区域，其中，每个子区域包括一个该图像中识别到的对象，若划分后的子区域之间存在重合，则将重合的子区域合并成一个区域，直至针对图像的区域划分结果稳定后，该图像稳定的区域划分结果中即包括该图像的至少一个候选聚焦区域，值得注意的是，每个候选聚焦区域中可以包括至少一个识别到的对象；又如，可以在对图像中的对象进行对象识别后，将对象类别满足预设类别的对象作为目标对象，并将目标对象所在的区域作为该图像的候选聚焦区域；又如，可以在对图像中的对象进行识别后，对识别后对象进行排序，并从排序后对象中选取预设数量的对象作为目标对象，将目标对象所在的区域作为该图像的候选聚焦区域；等等。

在实际应用中，图像中的对象可以包括用户，因此，步骤“对对象进行对象识别；基于识别结果，对图像进行区域划分，得到图像的至少一个候选聚焦区域”，可以包括“对对象进行脸部识别；基于识别结果，对图像进行区域划分，得到图像的至少一个候选聚焦区域”。其中，基于识别结果，对图像进行区域划分，得到图像的至少一个候选聚焦区域的方式，可以参照前述，在此不做赘述。

在本申请中，对图像进行区域划分的方式可以有多种，又如，考虑到在实际应用中，可以按照视觉观赏习惯与其他因素，对摄像头采集到的图像进行区域划分，因此，可以按照表征画面布局与结构的画面构图信息，来对摄像头采集到的图像进行区域划分，具体地，步骤“对图像进行区域划分，得到图像的至少一个候选聚焦区域”，可以包括：

获取图像的画面构图信息；

根据画面构图信息，对图像进行区域划分，得到图像的至少一个候选聚焦区域。

其中，图像的画面构图信息为指示图像的画面布局与结构的相关信息。例如，可以按照视觉观赏习惯，认为图像的画面中心具有最高的优先级，而画面中心的四周则随着其距离画面中心的远去，对应地具有更低的优先级，这样的话，即可按照前述视觉观赏习惯，从图像的画面中心开始确定该图像中各优先级的视觉区域所对应的画面布局与结构，从而得到该图像的画面构图信息。

又如，可以根据终端显示屏的尺寸信息，来确定图像的画面布局与结构，譬如，可以根据终端显示屏的大小与形状，对应地对通过该显示屏所展示的图像的画面布局与结构进行调整，进而确定图像的画面构图信息。

又如，可以根据不同应用场景下的互动设定，来对图像的画面布局与结构进行设定，从而确定图像的画面构图信息；譬如，可以将本申请所述的聚焦方法应用于基于画面采集的互动游戏，具体地，在该游戏中可以采集玩家的画面，其该游戏设定玩家需在画面中特定位置进行互动，因此，可以根据该游戏对画面中互动位置的设定，来确定图像的画面布局与结构，进而确定图像的画面构图信息。

值得注意的是，以上仅是对图像的画面构图信息作举例，在实际应用中，还可以通过结合视觉观赏习惯、终端显示屏的尺寸信息、应用场景下的互动设定等多方面因素，来构建图像的画面构图信息。

在确定图像的画面构图信息后，即可进一步地根据该画面构图信息，对图像进行区域划分，并将划分后的子区域作为图像的候选聚焦区域。

在本申请中，对图像进行区域划分的方式可以有多种，又如，考虑到摄像机采集图像的方式，可以包括由摄像头进行视频采集，并从中提取图像，因此，所提取的图像可以具有前后的关联帧，则可以基于该图像的关联帧，对该图像进行区域划分，具体地，步骤“对图像进行区域划分，得到图像的至少一个候选聚焦区域”，可以包括：

获取图像的关联帧；

将图像与关联帧进行比对；

基于比对结果，对图像进行区域划分，得到图像的至少一个候选聚焦区域。

其中，图像的关联帧指的是与该图像在时序上具有关联关系的帧。例如，可以从在时序上排在该图像前面的图像帧中，选取若干图像帧作为该图像的关联帧，譬如，可以将该图像的前一帧作为该图像的关联帧。又如，可以从在时序上排在该图像后面的图像帧中，选取若干图像帧作为该图像的关联帧，譬如，可以将该图像的后一帧作为该图像的关联帧。又如，可以从在时序上排在该图像前面的图像帧中，并从在时序上排在该图像后面的图像帧中，均选取若干帧作为该图像的关联帧，譬如，可以将该图像的前面一帧与后面一帧作为该图像的关联帧。

进一步地，可以将图像与该图像的关联帧进行比对，以确定图像与关联帧之间的变化。

例如，可以基于像素对比的方式，来将图像与关联帧进行比对，譬如，可以通过将图像与关联帧之间的像素进行比对，以对图像与关联帧之间进行比对；又如，可以基于对象识别的方式，来将图像与关联帧进行比对，譬如，可以分别对图像与关联帧进行对象识别，并通过将图像与关联帧的对象识别结果进行比对，来实现对图像与关联帧之间进行比对；又如，可以基于区域比对的方式，来将图像与关联帧进行比对，譬如，可以针对图像与关联帧均进行区域划分，并通过将对图像划分后得到的子区域，与对关联帧划分后得到的子区域进行比对，来实现对图像与关联帧之间进行比对；等等。

进一步地，即可基于比对结果，对图像进行区域划分，得到图像的至少一个候选聚焦区域。例如，若比对结果包括比对不一致，也即若检测图像与其关联帧之间具有变化，则可以将变化区域作为该图像的候选聚焦区域；又如，若比对结果包括比对一致，也即若检测到图像与其关联帧之间具有未发生变化的区域，则可以将该区域作为图像的候选聚焦区域；等等。

在本申请中，在对图像进行区域划分，得到图像的至少一个候选聚焦区域后，即可进一步地，计算各候选聚焦区域的优先级。

例如，可以结合候选聚焦区域的大小信息与位置信息等来计算各候选聚焦区域的优先级，譬如，可以对候选聚焦区域的大小信息与位置信息等参数，赋予不同的权重，这样的话，即可通过加权计算的方式，确定各候选聚焦区域的优先级。

作为示例，可以基于对象识别的识别结果，来对图像进行区域划分，得到图像的至少一个候选聚焦区域。则计算各候选聚焦区域的优先级时，还可以结合对象识别的识别结果进行。例如，可以结合对象识别结果所指示的对象类别、对象识别结果的准确率等来计算各候选聚焦区域的优先级。

作为另一示例，可以根据画面构图信息，来对图像进行区域划分，得到图像的至少一个候选聚焦区域。则计算各候选聚焦区域的优先级时，还可以结合画面构图信息进行。例如，可以根据画面构图信息，在图像的画面布局内赋予不同位置的候选聚焦区域以不同的权重，这样的话，即可通过加权计算各候选聚焦区域的权重，进而根据权重计算结果确定候选聚焦区域对应的优先级。

作为另一示例，可以根据图像与关联帧的比对结果，来对图像进行区域划分，得到图像的至少一个候选聚焦区域。则计算各候选聚焦区域的优先级时，还可以结合比对结果进行。例如，若根据图像与关联帧之间比对不一致的情况来确定图像的候选聚焦区域，则可以认为指示图像与关联帧之间区别越大的候选聚焦区域，具有更高的权重，进而再通过加权计算各候选聚焦区域对应的优先级。又如，若根据图像与关联帧之间比对一致的情况来确定图像的候选聚焦区域，则可以认为指示图像与关联帧之间区别越小的候选聚焦区域，具有更高的权重，进而再通过加权计算各候选聚焦区域对应的优先级。

在确定各候选聚焦区域的优先级后，即可进一步地，从候选聚焦区域中确定目标聚焦区域。例如，可以根据各候选聚焦区域的优先级，来对候选聚焦区域进行排序，并从排序后的候选聚焦区域中选取预设数量或者预设排位的候选聚焦区域作为目标聚焦区域。

104、根据目标聚焦区域对应的声源定位数据，触发电机驱动摄像头进行聚焦。

在本申请中，可以通过麦克风阵列采集图像对应的声源定位数据，由于从图像中确定了目标聚焦区域后，即可对应地从图像对应的声源定位数据中，提取目标聚焦区域对应的声源定位数据。

在一实施例中，摄像头可以包括镜头，电机可以通过驱动镜头到预期的聚焦位置，以使得摄像头能够进行聚焦，具体地，步骤“根据目标聚焦区域对应的声源定位数据，触发电机驱动摄像头进行聚焦”，可以包括：

根据声源定位数据，计算镜头的聚焦位置；

通过电机驱动镜头到聚焦位置，以针对摄像头进行聚焦。

其中，目标聚焦区域对应的声源定位数据可以包括声源的方位信息，如声源的水平方位、垂直方位及距离等信息。

例如，可以根据目标聚焦区域对应的声源定位数据确定聚焦主体的距离，由于在自动聚焦系统中，聚焦主体的距离可以反映物距，因此，可以根据光学公式计算出像距，从而确定镜头的聚焦位置。进一步地，可以通过电机驱动摄像头的镜头到聚焦位置，从而实现针对摄像头进行聚焦。

在一实施例中，考虑到实际应用中通过麦克风阵列采集到的声源定位数据，可以指示图像仅对应一个声源，因此，则可以直接根据声源定位数据确定摄像头具体该如何聚焦，而无需通过结合摄像头采集到的图像才可以确定，具体地，聚焦方法还可以包括：

若声源定位数据指示图像对应一个声源，则根据声源定位数据，触发电机驱动摄像头进行聚焦。

例如，可以根据声源定位数据确定聚焦主体即声源的距离，由于在自动聚焦系统中，聚焦主体的距离可以反映物距，因此，可以根据光学公式计算出像距，从而确定镜头的聚焦位置。进一步地，可以通过电机驱动摄像头的镜头到聚焦位置，从而实现针对摄像头进行聚焦。

由上可知，本实施例可以通过摄像头采集图像，其中，摄像头由电机驱动聚焦；通过麦克风阵列采集图像对应的声源定位数据；若声源定位数据指示图像对应至少两个声源，则从图像中确定目标聚焦区域；根据目标聚焦区域对应的声源定位数据，触发电机驱动摄像头进行聚焦。

并且，该方案还提出了多种对图像进行区域划分的方式，如基于对象识别的识别结果对图像进行区域划分，根据图像的画面构图信息对图像进行区域划分，基于图像与关联帧的比对结果来对图像进行区域划分等，使得本申请还进一步地拓宽了对图像进行区域分析的方法，从而对现有的聚焦方式进行改进。

根据上面实施例所描述的方法，以下将举例进一步详细说明。

在本实施例中，将以聚焦装置集成在终端为例进行说明，如图3所示，一种聚焦方法，具体流程如下：

201、通过摄像头采集图像，其中，摄像头由电机驱动聚焦。

摄像头普遍应用在工作、生活的方方面面，为了获取清晰的画面，摄像头一般配备可电动控制聚焦的镜头，可以通过驱动镜头到指定位置，以使得摄像头实现自动聚焦。

本申请提出的聚焦方法可以应用于多个聚焦场景中，例如，拍照，视频通话，视频会议等。值得注意的是，在本申请中摄像头是作为图像采集装置的作用，且本申请中，仅是以图像采集装置具体为摄像头进行举例，并不限制图像采集装置只能为摄像头。

202、通过麦克风阵列采集图像对应的声源定位数据。

麦克风阵列可以获取声源目标的方位信息，对声源目标形成例如(x,y,z)的空间描述，这些声源目标可以与摄像头的图像信息相结合，从而获取画面中目标物的距离，如拍照时喊“茄子”、视频会议时发言人切换，这些都可以作为自动聚焦的判断条件，继而实现精准聚焦。

在一实施例中，参见图4，若声音采集装置检测到有声音，则可以进一步地采集声源定位信息；若声音采集装置未检测到声音，则可以采用其他聚焦方式，如反差、相差、激光、双摄等聚焦技术，进而驱动电机，以实现摄像头的自动聚焦。

203、若声源定位数据指示图像对应至少两个声源，则从图像中确定目标聚焦区域。

在一实施例中，参见图4，若声源定位数据指示图像对应至少两个声源，则可以结合摄像头采集到的图像信息，进一步确定聚焦的目标聚焦区域。例如，在视频会议系统中可以采用人脸识别技术，根据人脸的优先级确定目标聚焦区域；又如，可以根据画面不同区域的优先级来确定目标聚焦区域，如画面中心的优先级高，四周的优先级低来锁定聚焦目标；等等。

204、根据目标聚焦区域对应的声源定位数据，触发电机驱动摄像头进行聚焦。

在一实施例中，参见图4，在确定目标聚焦区域后，就可以根据目标聚焦区域对应的声源定位数据确定物距，从而距离驱动电机运动，以使得摄像头能够实现自动聚焦。

205、若声源定位数据指示图像对应一个声源，则根据声源定位数据，触发电机驱动摄像头进行聚焦。

在一实施例中，参见图4，若声源定位数据指示图像对应一个声源，则可以根据该声源对应的声源定位数据确定物距，从而距离驱动电机运动，以使得摄像头能够实现自动聚焦。

由上可知，本申请实施例可以结合由麦克风阵列采集得到的声源定位数据，以及对图像进行区域划分得到的目标焦距区域，来触发电机驱动摄像头进行聚焦，从而使得当画面对应多个声源的时候，不仅能够从声音分析与图像分析的维度来确定针对该画面的聚焦方式，还能够基于图像的区域分析结果，提高多声源情况下画面自动聚焦的准确率，从而提高针对该画面的聚焦效果。

为了更好地实施本申请实施例提供的聚焦方法，在一实施例中还提供了一种聚焦装置，该聚焦装置可以集成于计算机设备中，该计算机设备可以为服务器或终端等设备。具体地，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载电脑等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。其中相关名词的含义与上述聚焦方法中相同，具体实现细节可以参考方法实施例中的说明。

在一实施例中，提供了一种聚焦装置，该聚焦装置具体可以集成在计算机设备，如图5所示，该聚焦装置可以包括：第一采集单元301，第二采集单元302，确定单元303以及第一聚焦单元304，具体如下：

第一采集单元301，用于通过摄像头采集图像，其中，所述摄像头由电机驱动聚焦；

第二采集单元302，用于通过麦克风阵列采集所述图像对应的声源定位数据；

确定单元303，用于若所述声源定位数据指示所述图像对应至少两个声源，则从所述图像中确定目标聚焦区域；

第一聚焦单元304，用于根据所述目标聚焦区域对应的声源定位数据，触发所述电机驱动所述摄像头进行聚焦。

在一实施例中，所述确定单元303，包括：

第一计算子单元，用于计算所述候选聚焦区域的优先级；

在一实施例中，所述划分子单元，用于：

在一实施例中，所述摄像头包括镜头；所述第一聚焦单元304，包括：

在一实施例中，所述聚焦装置还包括：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的聚焦装置中由第一采集单元301通过摄像头采集图像，其中，所述摄像头由电机驱动聚焦；由第二采集单元302通过麦克风阵列采集所述图像对应的声源定位数据；由确定单元303若所述声源定位数据指示所述图像对应至少两个声源，则从所述图像中确定目标聚焦区域；由第一聚焦单元304根据所述目标聚焦区域对应的声源定位数据，触发所述电机驱动所述摄像头进行聚焦。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或服务器；比如计算机设备可以为服务器，如聚焦服务器等。如图6所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

通过摄像头采集图像，其中，摄像头由电机驱动聚焦；通过麦克风阵列采集图像对应的声源定位数据；若声源定位数据指示图像对应至少两个声源，则从图像中确定目标聚焦区域；根据目标聚焦区域对应的声源定位数据，触发电机驱动摄像头进行聚焦。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的计算机设备可以结合由麦克风阵列采集得到的声源定位数据，以及对图像进行区域划分得到的目标焦距区域，来触发电机驱动摄像头进行聚焦，从而使得当画面对应多个声源的时候，不仅能够从声音分析与图像分析的维度来确定针对该画面的聚焦方式，还能够基于图像的区域分析结果，提高多声源情况下画面自动聚焦的准确率，从而提高针对该画面的聚焦效果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种聚焦方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种聚焦方法中的步骤，因此，可以实现本申请实施例所提供的任一种聚焦方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述聚焦方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种聚焦方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种聚焦方法，其特征在于，包括：

通过摄像头采集图像，其中，所述摄像头由电机驱动聚焦；

通过麦克风阵列采集所述图像对应的声源定位数据；

2.根据权利要求1所述的聚焦方法，其特征在于，从所述图像中确定目标聚焦区域，包括：

对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域；

计算所述候选聚焦区域的优先级；

根据计算结果，从所述候选聚焦区域中确定目标聚焦区域。

3.根据权利要求2所述的聚焦方法，其特征在于，所述图像包括至少一个对象；

对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域，包括：

对所述对象进行对象识别；

基于识别结果，对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域。

4.根据权利要求2所述的聚焦方法，其特征在于，对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域，包括：

获取所述图像的画面构图信息；

根据所述画面构图信息，对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域。

5.根据权利要求2所述的聚焦方法，其特征在于，对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域，包括：

获取所述图像的关联帧；

将所述图像与所述关联帧进行比对；

基于比对结果，对所述图像进行区域划分，得到所述图像的至少一个候选聚焦区域。

6.根据权利要求1所述的聚焦方法，其特征在于，所述摄像头包括镜头；

根据所述目标聚焦区域对应的声源定位数据，触发所述电机驱动所述摄像头进行聚焦，包括：

根据所述声源定位数据，计算所述镜头的聚焦位置；

通过所述电机驱动所述镜头到所述聚焦位置，以针对所述摄像头进行聚焦。

7.根据权利要求1所述的聚焦方法，其特征在于，所述方法还包括：

若所述声源定位数据指示所述图像对应一个声源，则根据所述声源定位数据，触发所述电机驱动所述摄像头进行聚焦。

8.一种聚焦装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至7任一项所述的聚焦方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行权利要求1至7任一项所述的聚焦方法。