CN114495195B

CN114495195B - 一种应用于视频会议系统的人脸检测方法及视频会议系统

Info

Publication number: CN114495195B
Application number: CN202111553151.6A
Authority: CN
Inventors: 肖兵; 许汉龙; 黄昌松
Original assignee: Zhuhai Shixi Technology Co Ltd
Current assignee: Zhuhai Shixi Technology Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2023-02-28
Anticipated expiration: 2041-12-17
Also published as: CN114495195A

Abstract

本申请公开了一种应用于视频会议系统的人脸检测方法及视频会议系统，用于在进行目标检测时节省算力，提高检测速度以及降低功耗。本申请方法包括：获取待检测图像和目标声源角度；根据目标声源角度和预设角度容差确定声源角度范围；根据声源角度范围确定目标区域在待检测图像中的水平方向坐标，目标区域为声源角度范围在待检测图像内的画面区域；从预先配置好的配置文件中读取位置关系，位置关系为预设检测器中子区域和目标区域的位置关系；根据水平方向坐标和位置关系对目标区域进行划分，得到与子区域对应的子图像；通过预设检测器对子图像进行人脸检测，得到检测结果；对检测结果进行合并，得到待检测图像的人脸检测结果。

Description

一种应用于视频会议系统的人脸检测方法及视频会议系统

技术领域

本申请涉及图像处理技术领域，尤其涉及一种应用于视频会议系统的人脸检测方法及视频会议系统。

背景技术

基于人脸检测、人头检测、行人检测、车辆检测等类型的目标检测应用极为普遍，目标检测技术被广泛用于消费电子、智能终端、商显、交通、安防等领域。目标检测算法大多是基于深度学习，而相应的深度学习模型通常都是基于特定数据集或特定场景训练出来的，一旦部署，其规格(比如检测精度、检测距离)以及能应对的场景都是确定的。而实际应用场景中，同一个公司可能有多个产品或同一个产品的多个功能需要用到同类的目标检测算法，但其需求又不尽相同。甚至，当同样的产品功能搭配不同规格的相机模组时，若相机模组视场角差异较大，即使对目标检测算法的外在规格要求(如检测距离)不变，但实际的要求已经发生了较大变化，相应地，必须对目标检测算法做出调整。

当下视频会议已较为普及，目前市面上已有一些智能会议系统能够在视频会议过程中自动定位画面中的正在发言的人，使其他与会者能清晰看到发言者的面部表情和肢体动作，极大地提升了会议效果。现有技术中有采用阵列麦克风声源定位技术的，也有利用图像识别技术(比如人像检测、嘴部开合程度判别、起立动作检测、人脸动作信息辨识等)的，还有将声源定位技术与图像识别技术相结合的方案，但无论哪种方案，其计算开销势必很大，单帧检测时间会大幅增加，对于中低端嵌入式平台，相应的计算速度以及检测帧率将大大降低，从而影响到特写画面的输出结果，极大地影响了用户体验。

发明内容

本申请提供了一种应用于视频会议系统的人脸检测方法及视频会议系统，用于在进行目标检测时节省算力，提高检测速度以及降低功耗。

本申请第一方面提供了一种应用于视频会议系统的人脸检测方法，包括：

获取待检测图像和目标声源角度；

根据所述目标声源角度和预设角度容差确定声源角度范围；

根据所述声源角度范围确定目标区域在所述待检测图像中的水平方向坐标，所述目标区域为所述声源角度范围在所述待检测图像内的画面区域；

从预先配置好的配置文件中读取位置关系，所述位置关系为预设检测器中子区域和所述目标区域的位置关系；

根据所述水平方向坐标和所述位置关系对所述目标区域进行划分，得到与所述子区域对应的子图像；

通过所述预设检测器对所述子图像进行人脸检测，得到检测结果；

对所述检测结果进行合并，得到所述待检测图像的人脸检测结果。

可选的，所述根据所述声源角度范围确定目标区域在所述待检测图像中的水平方向坐标包括：

获取标定表格，所述标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系；

根据所述声源角度范围在所述标定表格中确定目标角度线方程；

根据所述目标角度线方程确定所述目标区域在所述待检测图像中的水平方向坐标。

可选的，所述根据所述目标角度线方程确定所述目标区域在所述待检测图像中的水平方向坐标包括：

确定所述目标角度线方程与所述待检测图像高度水平线的交点；

将所述交点的水平方向坐标确定为所述目标区域在所述待检测图像中的水平方向坐标。

可选的，所述配置文件通过如下方式生成：

检测所述预设检测器的极限检测尺度；

检测满足需求规格的目标临界尺寸，所述目标临界尺寸为所述需求规格下目标在画面中的最大尺寸和最小尺寸，所述目标为人脸检测结果；

根据所述极限检测尺度和所述目标临界尺寸确定图像临界尺寸；

分析人脸检测结果在图像中的位置分布和尺度分布；

根据所述位置分布、所述尺度分布以及所述图像临界尺寸，在原始图像的目标区域中划分出至少一个子区域；

根据所述子区域相对于所述目标区域的位置关系生成配置文件。

可选的，所述分析人脸检测结果在图像中的位置分布包括：

确认人脸在画面中的活动区域，得到人脸检测结果在图像中的位置分布。

可选的，所述分析目标在图像中的尺度分布包括：

测量并统计人脸检测结果在画面中不同位置时的尺寸大小，得到人脸检测结果在图像中的尺度分布。

可选的，在所述根据所述位置分布、所述尺度分布以及所述图像临界尺寸，在原始图像的目标区域中划分出至少一个子区域之前，所述方法还包括：

根据预设声源角度范围确定目标区域的宽度。

可选的，其特征在于，所述对所述检测结果进行合并，得到所述待检测图像的目标检测结果包括：

通过非极大值抑制对所述检测结果进行合并，将合并的结果作为所述待检测图像的目标检测结果。

可选的，所述目标声源角度为人声的声源位置。

可选的，所述目标区域为矩形区域，所述声源角度范围在所述待检测图像中的画面区域为梯形区域。

可选的，所述子区域的数量为5，分别为第一区域、第二区域、第三区域、第四区域和第五区域；

所述第一区域的尺寸为第一预设值，所述第二区域、所述第三区域、所述第四区域和第五区域的尺寸均为第二预设值，所述第一预设值大于所述第二预设值，所述第二区域、第三区域、第四区域和第五区域之间的相邻区域相互重叠。

本申请第二方面提供了一种视频会议系统，所述视频会议系统执行第一方面以及第一方面中任一项可选的应用于视频会议系统的人脸检测方法。

本申请第三方面提供了一种应用于视频会议系统的人脸检测装置，所述装置包括：

获取单元，用于获取待检测图像和目标声源角度；

第一确定单元，用于根据所述目标声源角度和预设角度容差确定声源角度范围；

第二确定单元，用于根据所述声源角度范围确定目标区域在所述待检测图像中的水平方向坐标，所述目标区域为所述声源角度范围在所述待检测图像内的画面区域；

读取单元，用于从预先配置好的配置文件中读取位置关系，所述位置关系为预设检测器中子区域和所述目标区域的位置关系；

处理单元，用于根据所述水平方向坐标和所述位置关系对所述目标区域进行划分，得到与所述子区域对应的子图像；

检测单元，用于通过所述预设检测器对所述子图像进行人脸检测，得到检测结果；

合并单元，用于对所述检测结果进行合并，得到所述待检测图像的人脸检测结果。

可选的，所述第二确定单元具体用于：

可选的，所述第二确定单元具体还用于：

可选的，所述装置还包括：

第一检测单元，用于检测所述预设检测器的极限检测尺度；

第二检测单元，用于检测满足需求规格的目标临界尺寸，所述目标临界尺寸为所述需求规格下目标在画面中的最大尺寸和最小尺寸，所述目标为人脸检测结果；

第三确定单元，用于根据所述极限检测尺度和所述目标临界尺寸确定图像临界尺寸；

分析单元，用于分析人脸检测结果在图像中的位置分布和尺度分布；

划分单元，用于根据所述位置分布、所述尺度分布以及所述图像临界尺寸，在原始图像的目标区域中划分出至少一个子区域；

生成单元，用于根据所述子区域相对于所述目标区域的位置关系生成配置文件。

可选的，所述分析单元具体用于：

可选的，所述分析单元具体还用于：

可选的，所述装置还包括：

第四确定单元，用于根据预设声源角度范围确定目标区域的宽度。

可选的，所述合并单元具体用于：

可选的，所述目标声源角度为人声的声源位置。

本申请第四方面提供了一种应用于视频会议系统的人脸检测装置，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

所述存储器保存有程序，所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的应用于视频会议系统的人脸检测方法。

从以上技术方案可以看出，本申请具有以下优点：

由于在视频会议的一些应用场景中，需要结合声源定位技术来定位正在发言的目标，基于该功能的特殊性，实际只需要关注声源角度范围内是否有人脸以及确定人脸位置，而不需要对整幅画面进行检测，通过结合目标声源角度以及预先配置的配置文件来针对性的对发言人所在的画面区域进行人脸检测，减少了不必要的计算，且进一步提高了发言人定位的准确性。通过本申请提供的人脸检测方法，能够针对地在结合声源定位技术来定位正在发言的人这一应用场景中节省算力，提高检测速度并且降低功耗，与中低端移动嵌入式平台的适配性更高。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的应用于视频会议系统的人脸检测方法一个实施例流程示意图；

图2为本申请提供的应用于视频会议系统的人脸检测方法另一个实施例流程示意图；

图3为本申请提供的应用于视频会议系统的人脸检测方法中活动区域的一个示意图；

图4为本申请提供的应用于视频会议系统的人脸检测方法中声源角度范围示意图；

图5为本申请提供的应用于视频会议系统的人脸检测方法中目标区域示意图；

图6为本申请提供的应用于视频会议系统的人脸检测方法中子区域初步划分示意图；

图7为本申请提供的应用于视频会议系统的人脸检测方法中子区域与目标区域的位置关系示意图。

图8为本申请提供的应用于视频会议系统的人脸检测装置一个实施例结构示意图；

图9为本申请提供的应用于视频会议系统的人脸检测实体装置一个实施例结构示意图。

具体实施方式

需要说明的是，本申请提供的应用于视频会议系统的人脸检测方法，可以应用于终端，还可以应用于服务器上，例如终端可以是会议电视、会议电脑、会议平板、智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述，本申请中以终端为执行主体进行举例说明。

请参阅图1，图1为本申请提供的应用于视频会议系统的人脸检测方法的一个实施例，该方法包括：

101、获取待检测图像和目标声源角度；

目前，视频会议已较为普及，市面上已有一些视频会议系统能够应用声源定位技术，即利用声源定位技术定位场景中正在发言的目标，从而实现在视频会议过程中自动对画面中的发言者给予特写画面，或对当前发言人对焦等功能。通过声源定位找到目标再进行相应的功能操作能够使其他与会者能清晰看到发言者的面部表情和肢体动作，上述功能能够实现的关键在于对发言者的位置进行准确定位。会议系统至少包括摄像头和麦克风，由摄像头采集会议图像，麦克风采集会议声音。

在本实施例中，终端通过摄像头设备接收视频信息，并在视频图像中提取待检测图像，终端可以是从视频图像逐帧提取待检测图像，也可以是间隔预设时间提取待检测图像，具体此处不做限定。终端提取待检测图像的目的是为了对视频图像中的人脸进行检测。终端还通过麦克风设备接收音频信息，并根据声源定位技术确定该音频信息中的人声声源定位信息，即目标声源角度。同时利用音、视频信息，能够在实际应用场景中更准确、可靠的确定发言者的位置。

102、根据目标声源角度和预设角度容差确定声源角度范围；

终端根据获取到的目标声源角度α和预设角度容差Δα，确定声源角度范围为：

[α-Δα，α+Δα]；

该预设角度容差可根据不同的设备需求和设备精度作具体设定。

103、根据声源角度范围确定目标区域在待检测图像中的水平方向坐标，目标区域为声源角度范围在待检测图像内的画面区域；

终端根据声源角度范围，通过音画映射确定声源角度范围在该待检测图像中的画面区域。由于在视频会议中利用声源定位技术定位场景中正在发言的目标功能的特殊性，在该场景下实际只需要关注声源角度范围内是否有人脸以及确定人脸的位置，所以实际不需要对整幅画面进行检测，因此可以通过目标声源角度来确定需要进行目标检测的区域，即本申请中的目标区域。需要说明的是，该声源角度范围是指根据目标声源角度和一定的预设角度容差所确定的角度范围，通过测算，该声源角度范围内对应的画面区域最大宽度不超过400像素。

具体的，为了仅对目标区域内的画面进行目标检测，终端需要根据目标声源角度确定该目标区域在待检测图像中的位置，由于目标区域的高度与待检测图像一致，目标区域的宽度则对应声源角度范围内的画面区域宽度，当声源角度范围大小固定，该画面区域宽度也可固定，因此只需要确定目标区域在待检测图像中的水平方向坐标，即可确定目标区域在该待检测图像中的位置。

104、从预先配置好的配置文件中读取位置关系，位置关系为预设检测器中子区域和目标区域的位置关系；

配置文件中保存的是在特定功能(利用声源定位技术定位场景中正在发言的目标)及特定需求规格(检测距离)下，终端预先划分出的子区域相对于目标区域的位置关系。在部署配置文件的阶段，终端会根据预设检测器的极限检测尺度和与需求规格对应的目标临界尺寸确定图像临界尺寸，再结合该应用场景中目标的分布规律，预先将目标区域划分出若干子区域，再将划分出的子区域相对于目标区域的位置关系保存成配置文件。

其中，预设检测器的极限检测尺度是指该预设检测器所能检测的最小目标尺寸和最大目标尺寸相对于测试图像尺寸的比值，该极限检测尺度用于作为参照基准。该目标临界尺寸是指满足应用场景(检测距离)的目标的最大尺寸和最小尺寸。该图像临界尺寸则是指能够检测出最大目标和最小目标的图像尺寸范围。

105、根据水平方向坐标和位置关系对目标区域进行划分，得到与子区域对应的子图像；

终端首先根据目标区域的水平方向坐标，在待检测图像中截取对应的画面，称之为目标画面，再根据获取到的位置关系，对该目标画面进行划分，得到若干与子区域对应的子图像。

例如，子区域的数量为n，终端则根据位置关系将目标区域(目标画面)划分为n张子图像，分别记为I₁、I₂...I_n。

需要说明的是，子图像的数量与子区域的数量相同，不同子图像的尺寸与其对应的子区域的尺寸相同。

106、通过预设检测器对子图像进行人脸检测，得到检测结果；

终端将各个子图像分别送入预设检测器进行人脸检测，并存储检测结果。

例如，子区域的数量为n，终端则根据位置关系将待检测图像划分为n张子图像，分别记为I₁、I₂...I_n，终端再将I₁、I₂...I_n分别送入预设检测器进行人脸检测，得到对应的若干检测结果，记为D₁、D₂...D_n。

107、对检测结果进行合并，得到待检测图像的人脸检测结果。

终端对得到的若干检测结果进行合并处理，将合并得到的结果作为该待检测图像的人脸检测结果，记为D^*。终端最后根据人脸检测结果来定位场景中正在发言的目标。

具体的，若子区域的数量大于1，则对应子图像的数量也大于1，得到的检测结果也大于1，就可能出现多个子图像同时检测到同一个目标或不同子图像检测到了不同目标的情况，此时就需要对通检测结果加以合并，以合并的结果作为该待检测图像的目标检测结果。在一些具体的实施例中，可以通过非极大值抑制(Non-Maximum Suppression，NMS)对检测结果进行合并。

在本实施例中，由于在视频会议的一些应用场景中，需要结合声源定位技术来定位正在发言的目标，基于该功能的特殊性，实际只需要关注声源角度范围内是否有人脸以及确定人脸位置，而不需要对整幅画面进行检测，通过结合目标声源角度以及预先配置的配置文件来针对性的对发言人所在的画面区域进行目标检测，减少了不必要的计算，且进一步提高了目标定位的准确性。通过本申请提供的人脸检测方法，能够针对地在结合声源定位技术来定位正在发言的目标这一应用场景中节省算力，提高检测速度并且降低功耗，与中低端移动嵌入式平台的适配性更高。

下面对本申请提供的应用于视频会议系统的人脸检测方法中配置文件的开发过程以及如何确定目标区域的水平方向坐标进行详细说明，请参阅图2，图2为本申请提供的应用于视频会议系统的人脸检测方法的另一个实施例，该人脸检测方法包括：

201、检测预设检测器的极限检测尺度；

终端首先测算预设检测器的极限检测尺度，具体的，终端获取测试图像，第一测试图像为分辨率满足预设检测器默认规格的测试图像；根据测试图像确定默认规格下检测出的目标的最小尺寸和最大尺寸；分别确定最小尺寸和最大尺寸相对于第一测试图像尺寸的比值；将比值之间对应的区域确定为预设检测器的极限检测尺度，该目标具体为人脸检测结果。

终端采集一张或多张分辨率满足预设检测器默认规格的且包含目标的测试图像；终端使用预设检测器对测试图像进行目标检测，以确认预设检测器所能检测到的最小目标尺寸和最大目标尺寸；终端计算最小目标尺寸和最大目标尺寸相对于测试图像尺寸的比值，以该比值区域作为预设检测器的极限检测尺度。

需要说明的是，将该比值区域作为预设检测器的极限检测尺度的目的是将其作为不同应用场景(检测距离)的参照基准，使用标准化的极限检测尺度能够对不同应用场景中对应的目标临界尺寸和图像临界尺寸进行更好地计算和评判。

具体地，记该最小目标尺寸为DSmin，最大目标检测尺寸为DSmax，该第一测试图像尺寸(分辨率)记为DIS，则预设检测器的极限检测尺度为[DSmin/DIS,DSmax/DIS]。需要说明的是，在计算该极限检测尺度时，优选以目标尺寸的短边作为DSmin或DSmax，测试图像的短边作为DIS进行计算，目的是为了保证后续计算的图像临界尺寸大小不超出原图范围。

例如，对于某个人脸检测器，其在640x360的图像中能检测到最小人脸尺寸为72x72，最大人脸尺寸为288x288，则可根据折算出检测器的极限检测尺度约为[20％,80％]。

202、检测满足需求规格的目标临界尺寸，目标临界尺寸为需求规格下目标在画面中的最大尺寸和最小尺寸；

终端还需要检测满足需求规格的目标临界尺寸，具体的，终端获取分辨率满足需求规格的测试图像，在测试图像中确定需求规格下检测出的目标的最小尺寸和最大尺寸，并将目标的最小尺寸和最大尺寸确定为目标临界尺寸。

具体的，终端采集一张或多张分辨率满足需求规格的且包含目标的测试图像，测量需求规格需要检出的目标临界尺寸，目标临界尺寸中包含最小目标尺寸TS_min和最大目标尺寸TS_max，该测试图像尺寸记为TIS。

203、根据极限检测尺度和目标临界尺寸确定图像临界尺寸；

终端根据上述极限检测尺度估算预设检测器在上述目标临界尺寸下的图像临界尺寸，该图像临界尺寸是指满足检测距离(极限检测尺度)的待检测图像的尺寸范围。

具体的，预设检测器要检出最小目标的图像尺寸范围为

预设检测器要检出最大目标的图像尺寸范围为

需要说明的是，若上述检出最小目标的图像尺寸范围和检出最大目标的图像尺寸范围之间存在交集，则可以直接在对应的图像尺寸范围中确定block的blocksize。若上述图像尺寸范围之间不存在交集，则需要增加block的类型，即增加多种blocksize的block，其目的是能完全检测出应用场景(检测距离)内所有尺度的目标。上述blocksize为送入预设检测器的图像尺寸，对应后续步骤中子区域的大小以及子图像的尺寸。

204、分析人脸检测结果在图像中的位置分布和尺度分布；

终端结合当前应用场景以及实际检测距离，来分析人脸检测结果在图像中的位置分布和尺度分布。

具体的，关于位置分布的分析包括：终端确认人脸在画面中的活动区域，活动区域是指人脸在画面中可能存在的区域。例如，对于在摄像头安装位置较高且具有一定向下倾角的视频会议系统中，人脸检测距离为2.0m～6.0m，在实际进行人脸检测时人脸在画面中的活动区域并非占满整个画面，人脸一般不会出现在图像的底部区域，但当人处于较远距离时，人脸能够接近画面顶部区域，故顶部可以忽略的区域很小，只有底部区域可以忽略掉，因此具体的活动区域如图3斜线填充区域。

具体的，关于尺度分布的分析包括：测量并统计人脸检测结果在图像中不同位置时的尺寸大小，得到人脸检测结果的基本分布规律。

例如，对于视频会议系统，其摄像头安装高度可能比成人高度高，且有一定的垂直倾角，这种情况下，当人离平板设备较近且站立时，或人坐着的时候，人脸一般处于画面中部以及中部靠下区域，相应的人脸尺寸跨度较大，即人脸尺寸可能很大，也可能较小；而当人离平板设备极远时，人脸处于画面中部靠上区域，此时人脸必然很小。基于此，对于中部及中部靠下的图像区域，应保证有较大的检测跨度；而对于中部靠上的区域，由于人脸很小，则主要考虑涵盖小人脸。需要说明的是，进行该尺度分析时需要在一个固定的声源角度范围内进行分析，优选在多个固定声源角度范围内分别进行分析。

205、根据人脸检测结果的位置分布、尺度分布以及图像临界尺寸，在原始图像的目标区域中划分出至少一个子区域；

终端根据人脸检测结果的位置分布和尺度分布，以及上述图像临界尺寸，将目标区域划分成若干子区域。需要说明的是，终端可以根据进行尺度分析时的多个声源角度范围，在原始图像中截取对应的目标区域，再在目标区域内进行子区域的划分，并将每个声源角度范围和对应的划分结果之间的映射关系保存至配置文件中，以便后续根据目标声源角度确定与该目标声源角度对应的目标区域和子区域位置关系。终端也可以只对某一声源角度范围(优选为目标声源角度在画面中心时)对应的目标区域，进行子区域的划分，然后以该划分结果作为子区域和原始图像中所有可能的目标区域之间的位置关系。

进一步的，对于所划分出的子区域数目大于1的情形，终端还需要进一步调整各个子区域的大小，使其相互之间存在一定的重叠区域，而重叠区域的尺寸不应该小于目标能被检测出的图像最小尺寸，即重叠区域的尺寸需满足预设检测器要检出最小目标的图像尺寸范围。

具体的，在进行子区域的划分时，在满足目标检测效果规格的情况下，所划分的子区域的数量应该尽可能少，即子区域的数量需满足最小原则，这是为了在后续运行阶段中进一步节省算力，降低功耗。

206、根据子区域相对于目标区域的位置关系生成配置文件；

终端将划分得到的子区域相对于目标区域的位置关系保存成配置文件，以便在实际运行时根据该配置文件结合目标声源角度进行发言人的人脸检测。

207、获取待检测图像和目标声源角度；

在本实施例中，步骤207与前述实施例步骤101类似，此处不再赘述。

208、根据目标声源角度和预设角度容差确定声源角度范围；

[α-Δα，α+Δα]；

209、获取标定表格，标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系；

终端获取预先建立的标定表格，该标定表格用于进行声源角度和视频画面之间的映射。具体的，该标定表格的建立过程如下：

终端根据声源角度最大范围、精度和应用需求，将声源角度等分为若干份，得到若干角度线。具体的，以地面坐标系原点为角度线出发点，声源角度最大范围为[θmin,θmax],将其等分为N份，则角度间隔为Δθ，相应的角度线为[L0,L1,…,LN]。对于不同的设备，其声源角度最大范围、精度和应用需求不同，具体此处不做限定；然后终端在各个角度线上分别选取至少两个目标数据点并将目标数据点标记在水平面上；终端将相机布置在预期高度和倾角，该预期高度和倾角此为已知量，可以根据不同视频会议系统或设备的拍摄场景和拍摄需求作具体设定，使相机处于地面坐标系原点正上方，使地面坐标系y轴与相机画面竖直中轴线重合，然后采集至少1张目标图像；终端根据所采集的目标图像，确定数据点在目标图像中的坐标；选择一种直线方程，对于任一角度线，将前面得到的数据点的坐标代入方程，求解二元一次方程组，得到各个角度线的目标方程系数；最后根据各个角度线的角度和目标方程系数建立标定表格即可。

210、根据声源角度范围在标定表格中确定目标角度线方程；

终端首先根据声源角度范围的边界值，即α-Δα和α+Δα，在标定表格中选择邻近的角度线作为左右边界线，相应的左右边界角度记为α1和α2。

终端再根据α1和α2在标定表格中查找得出L1和L2对应的目标方程系数，即可以通过标定表格建立L1和L2的数学表达式(目标角度线方程)。

例如，左右边界角度α1和α2分别为55°、75°，则查询标定表格可以得到55°、75°角度线(即L1和L2)的相应参数，确定L1和L2的直线方程分别为：

L1：y＝k1x+b1；

L2：y＝k2x+b2。

其中，k1、b1、k2、b2为查表得到的目标方程系数。

211、根据目标角度线方程确定目标区域在待检测图像中的水平方向坐标；

终端根据得到的目标角度线方程，结合待检测图像的高度来确定目标区域在待检测图像中的水平方向坐标。具体的，由于摄像头采集画面的透视效果，声源角度范围在画面中的对应区域并非目标区域的矩形，而是上窄下宽的梯形，为了保证检测效果，以声源角度范围在画面中的对应区域的较宽的一边来确定目标区域的水平方向坐标，如图4所示，摄像头设置于原点位置，确定目标角度线方程与预设高度(待检测图像的高度)水平线的交点A点和B点，以A点和B点的水平方向坐标来作为目标区域的水平方向坐标，以待检测图像的高度作为目标区域的竖直方向坐标，从而确定目标区域在该待检测图像中的具体位置。

212、从预先配置好的配置文件中读取位置关系，位置关系为预设检测器中子区域和目标区域的位置关系；

213、根据水平方向坐标和位置关系对目标区域进行划分，得到与子区域对应的子图像；

214、通过预设检测器对子图像进行人脸检测，得到检测结果；

215、对检测结果进行合并，得到待检测图像的人脸检测结果。

在本实施例中，步骤212至步骤215与前述实施例步骤104至步骤107类似，此处不再赘述。

在本实施例中，可以根据若干不同的需求规格开发对应的配置文件，并根据配置文件来完成人脸检测，即使需求规格发生了变化，例如从一个大会议室(检测距离为0.5-8米)切换到小会议室(检测距离为0.5-3米)，大小会议室的人脸检测距离不同，但预先开发了与人脸检测距离对应的配置文件，此时只需要切换配置文件即可完成检测，而无需重复训练深度学习模型，从而达到缩短开发周期，节省开发成本的效果。

通过配置文件再结合目标声源角度，能够根据利用声源定位技术定位场景中正在发言的目标这一应用场景的特性有针对性的进行部分区域的目标检测，达到节省算力，降低功耗的作用，尤其适用于中低端移动嵌入式平台。

下面对本申请中一个具体的应用场景进行举例说明：

作为一个具体的实施例，项目功能为：在视频会议中放大发言人特写画面功能，需求规格为：人脸检测距离2.0m～6.0m。

此场景中人脸在画面中的活动区域如图3斜线填充区域所示。由于检测距离最远达6米，当人处于较远距离时，人脸能够接近画面顶部区域，故顶部可以忽略的区域很小，只有底部区域可以忽略掉。

由于功能的特殊性，该场景功能实际只关注声源角度范围内是否有人脸以及人脸位置，所以实际既不需要对整幅画面进行检测，也无需对图3所示活动区域的整个区域进行检测。通过测算，声源角度范围内对应的画面区域最大宽度不超过400像素，如图5所示(即为目标区域)，只需对图示目标区域进行划分及检测。

根据上述目标位置分布和尺度分布分析结果以及图像临界尺寸测算情况，将被关注区域初步划分成图6所示5个子区域，分别为R1、R2、R3、R4、R5。其中，R1整个区域尺寸较大，用于检测画面中部及中部靠下部分出现的大人脸；而R2、R3、R4、R5尺寸一致，用于更精细的检测画面中部靠上的较小的人脸，综合R1、R2、R3、R4、R5可以兼顾该场景下2.0m～6.0m距离范围内的大小人脸。

进一步，图6中顶部划分区域R2、R3、R4、R5左边和右边实际并未填满图6所示区域，这是由于考虑到摄像头采集画面的透视效果，声源角度范围在画面中的对应区域并非矩形，而是如图4所示的上窄下宽的梯形，其底部宽度不超过400，而上部比之底部宽度则更小，所以顶部划分区域实际对应于顶部的目标区域，这里未填满图6所示区域属于可以为止，能够进一步地减少不必要的计算。

进一步，考虑各相邻区域子区域之间有一定的重叠，对初步拆分的区域进行调整，最终划分的子区域如图7所示。

在实际进行待检测图像中的目标检测过程中，图7所示的图像子区域其大小是在开发阶段可以确定的并且被保存为配置文件。而图7所示图像子区域的位置，即水平方向坐标(竖直中轴线坐标)是开发阶段未知的，只能在运行期间确定，更具体的说，图7中所示图像子区域水平方向坐标由输入的目标声源角度决定。所以，在程序运行期间，先根据目标声源角度确定图像子区域的水平方向坐标，然后在待检测图像中对应水平方向坐标处按照图像子区域尺寸分别裁剪出相应的子图像，经过缩放后分别送入检测器检测。

下面对本申请提供的应用于视频会议系统的人脸检测装置进行详细说明，请参阅图8，图8为本申请提供的应用于视频会议系统的人脸检测装置一个实施例，该装置包括：

获取单元801，用于获取待检测图像和目标声源角度；

第一确定单元802，用于根据目标声源角度和预设角度容差确定声源角度范围；

第二确定单元803，用于根据声源角度范围确定目标区域在待检测图像中的水平方向坐标，目标区域为声源角度范围在待检测图像内的画面区域；

读取单元804，用于从预先配置好的配置文件中读取位置关系，位置关系为预设检测器中子区域和目标区域的位置关系；

处理单元805，用于根据水平方向坐标和位置关系对目标区域进行划分，得到与子区域对应的子图像；

检测单元806，用于通过预设检测器对子图像进行人脸检测，得到检测结果；

合并单元807，用于对检测结果进行合并，得到待检测图像的人脸检测结果。

可选的，第二确定单元803具体用于：

获取标定表格，标定表格中预存有若干角度线的角度与目标方程系数之间的映射关系；

根据声源角度范围在标定表格中确定目标角度线方程；

根据目标角度线方程确定目标区域在待检测图像中的水平方向坐标。

可选的，第二确定单元具体803还用于：

确定目标角度线方程与待检测图像高度水平线的交点；

将交点的水平方向坐标确定为目标区域在待检测图像中的水平方向坐标。

可选的，装置还包括：

第一检测单元808，用于检测预设检测器的极限检测尺度；

第二检测单元809，用于检测满足需求规格的目标临界尺寸，目标临界尺寸为需求规格下目标在画面中的最大尺寸和最小尺寸，所述目标为人脸检测结果；

第三确定单元810，用于根据极限检测尺度和目标临界尺寸确定图像临界尺寸；

分析单元811，用于分析人脸检测结果在图像中的位置分布和尺度分布；

划分单元812，用于根据位置分布、尺度分布以及图像临界尺寸，在原始图像的目标区域中划分出至少一个子区域；

生成单元813，用于根据子区域相对于目标区域的位置关系生成配置文件。

可选的，分析单元811具体用于：

可选的，分析单元811具体还用于：

可选的，装置还包括：

第四确定单元814，用于根据预设声源角度范围确定目标区域的宽度。

可选的，合并单元807具体用于：

通过非极大值抑制对检测结果进行合并，将合并的结果作为待检测图像的目标检测结果。

可选的，目标声源角度为人声的声源位置。

可选的，目标区域为矩形区域，声源角度范围在待检测图像中的画面区域为梯形区域。

可选的，子区域的数量为5，分别为第一区域、第二区域、第三区域、第四区域和第五区域；

第一区域的尺寸为第一预设值，第二区域、第三区域、第四区域和第五区域的尺寸均为第二预设值，第一预设值大于第二预设值，第二区域、第三区域、第四区域和第五区域之间的相邻区域相互重叠。

本实施例装置中，各单元的功能与前述图1或图2所示方法实施例中的步骤对应，此处不再赘述。

本申请还提供了一种应用于视频会议系统的人脸检测装置，请参阅图9，图9为本申请提供的应用于视频会议系统的人脸检测装置一个实施例，该装置包括：

处理器901、存储器902、输入输出单元903、总线904；

处理器901与存储器902、输入输出单元903以及总线904相连；

存储器902保存有程序，处理器901调用程序以执行如上任一应用于视频会议系统的人脸检测方法。

本申请还涉及一种视频会议系统，该视频会议系统执行如上任一应用于视频会议系统的人脸检测方法。

本申请还涉及一种计算机可读存储介质，计算机可读存储介质上保存有程序，其特征在于，当程序在计算机上运行时，使得计算机执行如上任一应用于视频会议系统的人脸检测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种应用于视频会议系统的人脸检测方法，其特征在于，所述人脸检测方法包括：

获取待检测图像和目标声源角度；

根据所述目标声源角度和预设角度容差确定声源角度范围；

对所述检测结果进行合并，得到所述待检测图像的人脸检测结果；

所述预设检测器用于根据所述配置文件进行人脸检测，所述配置文件通过如下方式生成：

检测所述预设检测器的极限检测尺度；

分析人脸检测结果在图像中的位置分布和尺度分布；

2.根据权利要求1所述的人脸检测方法，其特征在于，所述根据所述声源角度范围确定目标区域在所述待检测图像中的水平方向坐标包括：

3.根据权利要求2所述的人脸检测方法，其特征在于，所述根据所述目标角度线方程确定所述目标区域在所述待检测图像中的水平方向坐标包括：

4.根据权利要求1所述的人脸检测方法，其特征在于，所述分析人脸检测结果在图像中的位置分布包括：

5.根据权利要求1所述的人脸检测方法，其特征在于，所述分析人脸检测结果在图像中的尺度分布包括：

6.根据权利要求1所述的人脸检测方法，其特征在于，在所述根据所述位置分布、所述尺度分布以及所述图像临界尺寸，在原始图像的目标区域中划分出至少一个子区域之前，所述方法还包括：

根据预设声源角度范围确定目标区域的宽度。

7.根据权利要求1至6中任一项所述的人脸检测方法，其特征在于，所述对所述检测结果进行合并，得到所述待检测图像的目标检测结果包括：

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述目标声源角度为人声的声源位置。

9.根据权利要求1至6中任一项所述的方法，其特征在于，所述目标区域为矩形区域，所述声源角度范围在所述待检测图像中的画面区域为梯形区域。

10.根据权利要求1至6中任一项所述的方法，其特征在于，所述子区域的数量为5，分别为第一区域、第二区域、第三区域、第四区域和第五区域；

11.一种视频会议系统，其特征在于，所述视频会议系统执行如权利要求1至10中任一项所述的应用于视频会议系统的人脸检测方法。

12.一种应用于视频会议系统的人脸检测装置，其特征在于，所述人脸检测装置包括：

获取单元，用于获取待检测图像和目标声源角度；

合并单元，用于对所述检测结果进行合并，得到所述待检测图像的人脸检测结果；

所述装置还包括：

第一检测单元，用于检测所述预设检测器的极限检测尺度；

13.一种应用于视频会议系统的人脸检测装置，其特征在于，所述人脸检测装置包括：

处理器、存储器、输入输出单元以及总线；

所述存储器保存有程序，所述处理器调用所述程序以执行如权利要求1至10中任一项所述方法。