CN110716180A

CN110716180A - 一种基于人脸检测的音频定位方法及装置

Info

Publication number: CN110716180A
Application number: CN201910988012.2A
Authority: CN
Inventors: 方向阳; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-01-21
Anticipated expiration: 2039-10-17
Also published as: CN110716180B

Abstract

本申请提供的基于人脸检测的音频定位方法及装置，获取使用音频定位算法确定的声源的位置信息，获取对图像进行人脸检测得到的人脸的位置信息，依据声源的位置信息，确定声源在图像中的位置信息，并依据声源在图像中的位置信息和人脸的位置信息，确定目标位置信息，最后依据目标位置信息和声源在图像中的位置信息，得到声源的校正后的位置信息。可见，本技术方案，通过将音频定位算法与对图像人脸检测算法相结合，得到声源的目标位置信息，因为，基于人脸检测算法得到的位置信息的准确度高，所以目标位置信息也是准确度较高的位置信息。同时，依据目标位置信息和声源在图像中的位置信息，对目标位置信息校正，使声源的校正后的位置信息更加准确。

Description

一种基于人脸检测的音频定位方法及装置

技术领域

本申请涉及电子信息领域，尤其涉及一种基于人脸检测的音频定位方法及装置。

背景技术

音频定位(也称声源定位)作为一种基于麦克风阵列的定位技术，在军用、民用、和工业上都得到了广泛的应用。例如，在民用领域，很多大型的活动场景中，可以利用音频定位技术对活动中的发言人进行定位，并将音频定位的结果用于调整摄像头的指向，使摄像头对准发言人进行拍摄，从而减少对摄像人员的依赖，进而可以减少劳动力成本。

但现有的音频定位技术，对于一些复杂的场景，例如人员众多的场景，通常会发生定位不准确的问题，所以，如何提高音频定位的准确性，成为了目前亟需解决的问题。

发明内容

申请人研究的过程中发现：与基于音频定位相比，基于人脸检测得到的位置信息的准确性更高，因此，可以使用人脸检测得到的位置信息对音频定位的信息进行校正，以提高准确性。

为了实现上述目的，本申请提供了以下技术方案：

一种基于人脸检测的音频定位方法，包括：

获取使用音频定位算法确定的声源的位置信息；

获取对图像进行人脸检测得到的人脸的位置信息，所述图像的采集范围包括所述声源；

依据所述声源的位置信息，确定所述声源在所述图像中的位置信息；

依据所述声源在所述图像中的位置信息和所述人脸的位置信息，确定目标位置信息，所述目标位置信息为与所述声源的位置信息匹配的人脸的位置信息；

依据所述目标位置信息和所述声源在所述图像中的位置信息，得到所述声源的校正后的位置信息。

可选的，所述获取使用音频定位算法确定的声源的位置信息，包括：

获取使用波达方向音频定位算法确定的声源的水平角度；

所述依据所述声源的位置信息，确定所述声源在所述图像中的位置信息，包括：

基于声音采集设备和图像采集设备，获取角度与图像坐标之间的映射关系；

使用所述映射关系，确定所述声源的水平角度在所述图像中对应的横坐标，作为所述声源在所述图像中的位置信息。

可选的，所述依据所述声源在所述图像中的位置信息和所述人脸的位置信息，确定目标位置信息，包括：

将所述人脸的位置信息中的横坐标中，与所述声源在所述图像中的对应的横坐标的差值不大于预设阈值的横坐标，作为目标位置信息。

可选的，所述依据所述目标位置信息和所述声源在所述图像中的位置信息，得到所述声源的校正后的位置信息，包括：

将所述目标位置信息与第一数值之和，作为所述声源的校正后的位置信息，所述第一数值依据所述目标位置信息与所述声源在所述图像中对应的横坐标之差确定。

可选的，使用音频定位算法确定的声源的位置信息，包括：

确定多个麦克风对的互相关数值；

确定互相关数值的峰值以及所述峰值对应的角度范围；

从所述角度范围中确定所述峰值对应的角度；

依据所述角度，确定所述声源的位置信息。

一种基于人脸检测的音频定位装置，包括：

第一获取单元，用于获取使用音频定位算法确定的声源的位置信息；

第二获取单元，用于获取对图像进行人脸检测得到的人脸的位置信息，所述图像的采集范围包括所述声源；

第一确定单元，用于依据所述声源的位置信息，确定所述声源在所述图像中的位置信息；

第二确定单元，用于依据所述声源在所述图像中的位置信息和所述人脸的位置信息，确定目标位置信息，所述目标位置信息为与所述声源的位置信息匹配的人脸的位置信息；

第三确定单元，用于依据所述目标位置信息和所述声源在所述图像中的位置信息，得到所述声源的校正后的位置信息。

可选的，所述第一获取单元用于获取使用音频定位算法确定的声源的位置信息，包括：

所述第一获取单元具体用于，获取使用波达方向音频定位算法确定的声源的水平角度；

所述第一确定单元用于依据所述声源的位置信息，确定所述声源在所述图像中的位置信息，包括：

所述第一确定单元具体用于，基于声音采集设备和图像采集设备，获取角度与图像坐标之间的映射关系；使用所述映射关系，确定所述声源的水平角度在所述图像中对应的横坐标，作为所述声源在所述图像中的位置信息。

可选的，所述第二确定单元用于依据所述声源在所述图像中的位置信息和所述人脸的位置信息，确定目标位置信息，包括：

所述第二确定单元具体用于，将所述人脸的位置信息中的横坐标中，与所述声源在所述图像中的对应的横坐标的差值不大于预设阈值的横坐标，作为目标位置信息。

可选的，所述第三确定单元用于所述依据所述目标位置信息和所述声源在所述图像中的位置信息，得到所述声源的校正后的位置信息，包括：

所述第三确定单元具体用于，将所述目标位置信息与第一数值之和，作为所述声源的校正后的位置信息，所述第一数值依据所述目标位置信息与所述声源在所述图像中对应的横坐标之差确定。

可选的，所述第一获取单元用于获取使用音频定位算法确定的声源的位置信息，包括：所述第一获取单元具体用于，确定多个麦克风对的互相关数值；确定互相关数值的峰值以及所述峰值对应的角度范围；从所述角度范围中确定所述峰值对应的角度；依据所述角度，确定所述声源的位置信息。

本申请所述的方法及装置，获取使用音频定位算法确定的声源的位置信息；同时获取对图像进行人脸检测得到的人脸的位置信息，依据声源的位置信息，确定声源在图像中的位置信息，依据声源在图像中的位置信息和人脸的位置信息，确定目标位置信息，最后依据目标位置信息和声源在图像中的位置信息，得到声源的校正后的位置信息。可见，本申请提供的技术方案，通过将音频定位算法确定的声源的位置信息，与对图像人脸检测得到的人脸的位置信息相结合，从而得到声源的目标位置信息，因为，基于人脸检测得到的位置信息的准确性高，且目标位置信息为与声源的位置信息匹配的人脸的位置信息，所以得到的目标位置信息是准确度较高的位置信息。同时，依据目标位置信息和声源在图像中的位置信息，对得到的目标位置信息进行校正，使声源的校正后的位置信息更加准确。综上，本技术方案可以提高音频定位的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的基于人脸检测的音频定位方法的流程图；

图2为本申请实施例公开的使用音频定位算法确定声源的位置信息的方法的流程图；

图3为本申请实施例公开的基于人脸检测的音频定位装置的结构示意图；

图4为本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种基于人脸检测的音频定位方法，可以包括以下步骤：

S101、获取使用音频定位算法确定的声源的位置信息。

使用音频定位算法确定的声源的位置信息的一种方式为：采用波达方向音频定位算法确定的声源的水平角度。波达方向音频定位算法为：依据声音采集设备(如麦克风阵列)采集得到的声源的音频信号，对音频信号进行处理从而得到声源的水平角度。需要说明的是，声源的水平角度指的是声源与水平线的夹角，水平线的具体位置可以结合实际情况进行设置。其中，对音频信号进行处理从而得到声源的水平角度的详细的过程可以参考现有技术。

其中，麦克风阵列，可选的，可以采用环六麦克风阵列，也可以采用其他阵型的麦克风，具体的麦克风阵列可以结合实际需求确定。

本实施例采用的波达方向音频定位算法相对于现有的基于波束形成的音频定位算法，以及基于高分辨率谱估计的音频定位算法，计算简单且计算量小，更利于对音频的实时处理，并且适合单声源非重复性音频信号。

本实施例中，使用音频定位算法确定的声源的位置信息的另一种方式还可以参考图2所示的流程。

S102、获取对图像进行人脸检测得到的人脸的位置信息。

例如，采用MTCNN算法(Multi-task convolution neural network，多任务卷积神经网络)对进行图像进行人脸检测，从而确定图像中包括的所有人脸的位置信息。本实施例中，图像为拍摄设备对包括声源在内的区域进行拍摄得到，也即图像的采集范围包括声源。

其中，采用MTCNN算法对图像进行人脸检测确定人脸的位置信息的过程将在下文中结合MTCNN算法模型进行说明。当然，也可以采用其它现有的人脸检测算法进行人脸检测，这里不做限定。

S103、依据声源的位置信息，确定声源在图像中的位置信息。

依据声源的位置信息，确定声源在图像中的位置信息的一种方式为：基于声音采集设备和图像采集设备，获取声源与水平方向的角度与图像坐标之间的映射关系，并使用映射关系，确定声源的水平角度在图像中对应的横坐标，作为声源在图像中的位置信息。

基于声音采集设备和图像采集设备，获取角度与图像坐标之间的映射关系的实现方式为：利用声音采集设备以及波达方向音频定位算法得到声源的水平角度后，依据该水平角度计算得到声源在实际空间中的坐标信息，并根据实际空间坐标系(也即世界坐标系)与图像采集设备的相机坐标系的转化关系，从而得到声源各个方向的角度(如水平角度和垂直角度等)与图像坐标之间的映射关系。基于声音采集设备和图像采集设备，获取角度与图像坐标之间的映射关系的更为详细的计算方法可以参见现有技术。

本实施例中，因为图像坐标中X轴方向的横坐标与实际空间的声源的水平角度相互对应，所以依据角度与图像坐标之间的映射关系，即可将声源的水平角度映射到图像中对应的横坐标，并将声源在图像中的横坐标作为声源在图像中的位置信息。

S104、依据声源在图像中的位置信息和人脸的位置信息，确定目标位置信息。

因为图像的采集范围包括声源，所以在图像中含有与声源匹配的的人脸的位置信息。本实施例中，确定在图像中与声源匹配的人脸的位置信息的一种方式为：将人脸的位置信息中的横坐标中，与声源在图像中的对应的横坐标的差值不大于预设阈值的横坐标，作为目标位置信息。也即，目标位置信息为与声源的位置信息匹配的人脸的位置信息。其中，预设阈值可以依据实际需求和图像采集设备的参数确定。

因为将声源的位置信息映射到图像后，得到的声源在图像中的横坐标与声源对应的人脸的位置信息的横坐标已经相距不大，所以通过预设阈值确定的声源的目标置信息具有较高的准确性。

本实施例中，可选的，图像采集设备可以采用全景相机。

S105、依据目标位置信息和声源在图像中的位置信息，得到声源的校正后的位置信息。

因为在S104中得到目标位置信息，是依据与声源在图像中的对应的横坐标的差值不大于预设阈值的人脸位置信息的横坐标得到的，所以声源在图像中的对应的横坐标与目标位置信息的横坐标很有可能只是相近的横坐标，而不是相同的横坐标，所以本实施例中，进一步的，依据目标位置信息和声源在图像中的位置信息，得到声源的校正后的位置信息，使校正后的位置信息与声源的实际位置更接近。

其中，依据目标位置信息和声源在图像中的位置信息，得到声源的校正后的位置信息的一种方式可以是：将目标位置信息与第一数值之和，作为声源的校正后的位置信息，第一数值依据目标位置信息与声源在图像中对应的横坐标之差确定。例如，第一数值可以是目标位置信息与声源在图像中对应的横坐标之差的二分之一。需要说明的是，差值可以为绝对值。

本申请实施例提供的方法，通过将音频定位算法确定的声源的位置信息，与对图像人脸检测得到的人脸的位置信息相结合，从而得到声源的目标位置信息，因为，基于人脸检测得到的位置信息的准确性高，且目标位置信息为与声源的位置信息匹配的人脸的位置信息，所以得到的目标位置信息是准确度较高的位置信息。同时，依据目标位置信息和声源在图像中的位置信息，对得到的目标位置信息进行校正，使声源的校正后的位置信息更加准确。综上，本技术方案可以提高音频定位的准确度。

此外，本实施例提供的技术方法，除了可以提高音频定位准确性，对于人脸检测和音频声源定位的场景而言，没有增加额外的成本，尤其在音频检测和人脸检测同存的场景越来越普遍的情况下，适用性更广。

另一方面，应用本实施例提供的方法得到声源的校正后的位置信息后，还可以使用该位置信息，执行人脸相关的算法，例如，发声人的人脸跟踪，因为声源的校正后的位置信息更为准确，所以，能够反馈提高人脸算法的执行准确性，可以确保跟踪到的人脸与发声人为同一个人。

图2为本申请实施例提供的使用音频定位算法确定声源的位置信息的一种实施方式，可以包括以下步骤：

S201、确定多个麦克风对的互相关数值。

本实施例中，采用环形六麦克风阵列，并将六麦克风阵列分成三对麦克风对，每对麦克风对包括两个麦克风。其中，每对麦克风对接收两路音频信号，其中，两路音频信号为同一个声源发出的音频信号，对麦克风对接收到的音频信号进行处理，得到音频信号的互相关数值。

S202、确定互相关数值的峰值以及峰值对应的角度范围。

本实施中，对音频信号进行VAD(Voice Activity Detection，语音活动检测)，具体为，对每帧音频信号进行对数帧能量估计，得到音频的对数帧能量分布范围估计，并根据OTSU算法(最大类间方差算法)计算VAD判决门限，最后采用VAD判决门限对音频进行筛选，得到VAD判决结果。

依据VAD判决结果，可以累积得到音频的有效互相关数值，对互相关数值进行粗搜索的峰值检测，从而确定互相关数值的峰值以及峰值对应的角度范围。

S203、从角度范围中确定峰值对应的角度。

得到及峰值对应的角度范围后，例如，以64倍插值，在峰值对应的角度范围中进一步搜索峰值对应的角度。

S204、依据角度，确定声源的位置信息。

依据每对麦克对的得到的峰值对应的角度，估计波达方向。对三对麦克风得到三个波达方向，进行数据融合，得到更精确的波达方向，并根据波达方向确定声源的位置信息。

图2中的各个流程步骤的更详细的实现方式可以参考现有技术。

本实施例提供的方法，通过先确定互相关数值的峰值以及峰值对应的角度范围，并从角度范围中确定峰值对应的角度，不仅可以计算量，还可以使确定的角度更加准确。

需要说明的是，本实施例中，在计算音频信号的互相关数值之前，还可以对音频信号进行预处理，即对输入的原始的音频语音进行高通滤波，去除直流分量，以提高互相关估计时峰值位置的可分辨性。

需要说明的是，音频定位算法确定声源的位置信息还可以采用其他的音频定位算法，例如波束形成的方法和基于高分辨率谱估计的方法等。

MTCNN算法是一种多任务卷积神经网络的算法，其将人脸区域检测和人脸关键点检测放在一起，可以直接实现人脸检测和人脸对齐。MTCNN算法模型可以分为三个部分，第一部分：P-Net(Proposal Network，建议网络)，第二分部：R-Net(Refine Network，优化网络)，以及第三部分O-Net(Output Network，输出网络)。MTCNN算法依据模型的这三个部分进行图像人脸识别的过程为：

步骤一、P-Net首先生成候选窗和边框回归向量，并使用边框回归的方法校正生成的候选窗，以及使用NMS(Non-Maximum Suppression，非极大值抑制)合并重叠的候选框。P-Net最后输出的是很多张可能存在人脸的候选窗。其中，P-Net为一种全卷积网络，该全卷积网络与Faster-RCNN中的RPN(Regionproposal Network，区域建议网络)类似。

步骤二、将P-Net输出的候选窗输入到R-Net中，R-Net会滤除大量效果比较差的候选框，最后对选定的候选框进行边框回归和NMS合并，进一步改善候选窗。

步骤三，最后使用O-Net输出最终的人脸框和人脸特征点位置。O-Net的效果和R-Net类似，区别仅在于，相对于R-Net来说多了一个卷积层，这一层结构会通过更多的监督来识别面部的区域，而且会对人的面部特征点进行回归，最终输出五个人脸面部特征点。

利用MTCNN算法对图像进行人脸检测，得到人脸的位置信息的详细信息可以参考现有技术。

本实例提供的方法，基于MTCNN算法，对图像进行人脸检测从而得到人脸的位置信息，因为MTCNN算法采用的是多任务卷积神经网络的算法，而卷积神经网络在图像分类上具体高精度、高效的特点，所以采用MTCNN算法可以更准确的确定人脸的位置信息。

与上述本申请实施例提供的一种基于人脸检测的音频定位方法相对应，参考图3，示出了本发明实施例还提供了一种基于人脸检测的音频定位装置的结构示意图，包括：

第一获取单元301，用于获取使用音频定位算法确定的声源的位置信息；

第二获取单元302，用于获取对图像进行人脸检测得到的人脸的位置信息，所述图像的采集范围包括所述声源；

第一确定单元303，用于依据所述声源的位置信息，确定所述声源在所述图像中的位置信息；

第二确定单元304，用于依据所述声源在所述图像中的位置信息和所述人脸的位置信息，确定目标位置信息，所述目标位置信息为与所述声源的位置信息匹配的人脸的位置信息；

第三确定单元305，用于依据所述目标位置信息和所述声源在所述图像中的位置信息，得到所述声源的校正后的位置信息。

其中，第一获取单元301获取使用音频定位算法确定的声源的位置信息的具体实现方式为：获取使用波达方向音频定位算法确定的声源的水平角度，

第一确定单元303依据所述声源的位置信息，确定所述声源在所述图像中的位置信息的具体实现方式为：基于声音采集设备和图像采集设备，获取角度与图像坐标之间的映射关系；使用映射关系，确定声源的水平角度在所述图像中对应的横坐标，作为声源在所述图像中的位置信息。

第二确定单元304依据声源在图像中的位置信息和人脸的位置信息，确定目标位置信息的具体实现方式为：将人脸的位置信息中的横坐标中，与声源在所述图像中的对应的横坐标的差值不大于预设阈值的横坐标，作为目标位置信息。

第三确定单元305依据目标位置信息和声源在所述图像中的位置信息，得到声源的校正后的位置信息的具体实现方式为：将目标位置信息与第一数值之和，作为声源的校正后的位置信息，所述第一数值依据目标位置信息与声源在所述图像中对应的横坐标之差确定。

第一获取单元301获取使用音频定位算法确定的声源的位置信息的具体实现方式还可以是：确定多个麦克风对的互相关数值，确定互相关数值的峰值以及峰值对应的角度范围，从角度范围中确定峰值对应的角度，依据所述角度，确定声源的位置信息。

本申请实施例提供的装置，通过将音频定位算法确定的声源的位置信息，与对图像人脸检测得到的人脸的位置信息相结合，从而得到声源的目标位置信息，因为，基于人脸检测得到的位置信息的准确性高，且目标位置信息为与声源的位置信息匹配的人脸的位置信息，所以得到的目标位置信息是准确度较高的位置信息。同时，为了进一步的提高定位的准确度，依据目标位置信息和声源在图像中的位置信息，对得到的目标位置信息进行校正，使声源的校正后的位置信息更加准确。综上，本技术方案可以提高音频定位的准确度。

本发明实施例还提供了一种电子设备，其结构示意图如图4所示，具体包括：处理器401和存储器402，存储器402用于存储程序；处理器401用于运行程序，以实现本发明实施例中基于人脸检测的音频定位方法方法。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本发明实施例中基于人脸检测的音频定位方法。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于人脸检测的音频定位方法，其特征在于，包括：

获取使用音频定位算法确定的声源的位置信息；

2.根据权利要求1所述的基于人脸检测的音频定位方法，其特征在于，所述获取使用音频定位算法确定的声源的位置信息，包括：

获取使用波达方向音频定位算法确定的声源的水平角度；

3.根据权利要求2所述的基于人脸检测的音频定位方法，其特征在于，所述依据所述声源在所述图像中的位置信息和所述人脸的位置信息，确定目标位置信息，包括：

4.根据权利要求3所述的基于人脸检测的音频定位方法，其特征在于，所述依据所述目标位置信息和所述声源在所述图像中的位置信息，得到所述声源的校正后的位置信息，包括：

5.根据权利要求1所述的基于人脸检测的音频定位方法，其特征在于，使用音频定位算法确定的声源的位置信息，包括：

确定多个麦克风对的互相关数值；

确定互相关数值的峰值以及所述峰值对应的角度范围；

从所述角度范围中确定所述峰值对应的角度；

依据所述角度，确定所述声源的位置信息。

6.一种基于人脸检测的音频定位装置，其特征在于，包括：

7.根据权利要求6所述的基于人脸检测的音频定位装置，其特征在于，所述第一获取单元用于获取使用音频定位算法确定的声源的位置信息，包括：

8.根据权利要求7所述的基于人脸检测的音频定位装置，其特征在于，所述第二确定单元用于依据所述声源在所述图像中的位置信息和所述人脸的位置信息，确定目标位置信息，包括：

9.根据权利要求8所述的基于人脸检测的音频定位装置，其特征在于，所述第三确定单元用于所述依据所述目标位置信息和所述声源在所述图像中的位置信息，得到所述声源的校正后的位置信息，包括：

10.根据权利要求6所述的基于人脸检测的音频定位装置，其特征在于，所述第一获取单元用于获取使用音频定位算法确定的声源的位置信息，包括：

所述第一获取单元具体用于，确定多个麦克风对的互相关数值；确定互相关数值的峰值以及所述峰值对应的角度范围；从所述角度范围中确定所述峰值对应的角度；依据所述角度，确定所述声源的位置信息。