CN113093106A

CN113093106A - 一种声源定位方法及系统

Info

Publication number: CN113093106A
Application number: CN202110380452.7A
Authority: CN
Inventors: 郝昊; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-07-09

Abstract

本发明提供了一种声源定位方法及系统，该方法为：采集待处理图像和音频信号；获取待处理图像中人物的嘴部坐标；根据嘴部坐标，确定嘴部与音频采集设备之间的目标俯仰角；若确定音频信号为活动语音信号，利用目标俯仰角确定音频采集设备对应的时延；根据时延，对音频信号进行声源定位，得到最终的声源定位结果。本方案中，通过采集得到的待处理图像中人物的嘴部坐标，确定人物的嘴部与音频采集设备之间的目标俯仰角。当采集的音频信号为活动语音信号时，根据目标俯仰角确定音频采集设备对应的时延，对音频信号进行声源定位得到最终的声源定位结果，确定音频信号为活动语音信号后，结合人物的嘴部位置和音频信息进行声源定位，提高声源定位的精度。

Description

一种声源定位方法及系统

技术领域

本发明涉及声源定位技术领域，具体涉及一种声源定位方法及系统。

背景技术

随着科学技术的发展，智能电子设备的功能越来越齐全，其中较为常见的功能为对当前空间内的对象进行声源定位。

目前进行声源定位的方式为：通过平面麦克风阵列采集音频信号，并对音频信号进行处理得到各个方位角度对应的能量，将能量最大的方位角度作为定位结果。但是在复杂声学环境下，前述声源定位方式无法区分所采集的音频信号为人声还是强噪声，处理音频信号所得到的定位结果并不能准确的指示说话人的位置，定位精度较低。

发明内容

有鉴于此，本发明实施例提供一种声源定位方法及系统，以解决现有声源定位方式存在的定位精度低等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种声源定位方法，所述方法包括：

采集待处理图像和音频信号；

获取所述待处理图像中人物的嘴部坐标；

根据所述嘴部坐标，确定所述人物的嘴部与音频采集设备之间的目标俯仰角；

若确定所述音频信号为活动语音信号，利用所述目标俯仰角确定所述音频采集设备对应的时延；

根据所述时延，对所述音频信号进行声源定位，得到最终的声源定位结果。

优选的，所述根据所述嘴部坐标，确定所述人物的嘴部与音频采集设备之间的目标俯仰角，包括：

根据所述嘴部坐标，以图像采集设备对应的第一坐标系为基准，确定所述人物的嘴部与所述图像采集设备之间的初始俯仰角；

根据预设的俯仰角对应关系，以所述音频采集设备对应的第二坐标系为基准，将所述初始俯仰角转换为所述人物的嘴部与音频采集设备之间的目标俯仰角，所述俯仰角对应关系包含：以所述第一坐标系为基准的俯仰角和以所述第二坐标系为基准的俯仰角之间的对应关系。

优选的，所述音频采集设备为麦克风阵列，所述利用所述目标俯仰角确定所述音频采集设备对应的时延，包括：

利用所述目标俯仰角，结合

计算麦克风阵列的各个阵元的时延τ_n，n为所述麦克风阵列的第n个阵元，(x_n，y_n)为第n个阵元在所述音频采集设备对应的第二坐标系中的坐标，θ为所述音频信号与所述第二坐标系的x轴的夹角，φ'为所述目标俯仰角，c为声速。

优选的，所述根据所述时延，对所述音频信号进行声源定位，得到最终的声源定位结果，包括：

根据所述时延，结合音频波束形成测向法，对所述音频信号进行时延补偿，向当前空间内的各个方向进行固定波束形成，确定波束输出功率最大的方向为最终的声源定位结果。

优选的，所述获取所述待处理图像中人物的嘴部坐标，包括：

对所述待处理图像进行人脸识别，获取所述待处理图像中人物的人脸关键点；

根据所述人脸关键点，获取所述人物的嘴部坐标。

优选的，确定所述音频信号是否为活动语音信号的过程，包括：

对所述音频信号进行预处理，并将进行预处理后的所述音频信号转换为第一子带信号，所述预处理至少包括：高通滤波、去除直流分量和降采样处理；

对所述第一子带信号进行声学回声消除处理，得到第二子带信号；

计算所述第二子带信号对应的信号子带域的信噪比和对数谱偏差，并根据所述信噪比和所述对数谱偏差确定所述音频信号是否为活动语音信号。

本发明实施例第二方面公开一种声源定位系统，所述系统包括：

采集单元，用于采集待处理图像和音频信号；

获取单元，用于获取所述待处理图像中人物的嘴部坐标；

第一确定单元，用于根据所述嘴部坐标，确定所述人物的嘴部与音频采集设备之间的目标俯仰角；

第二确定单元，用于若确定所述音频信号为活动语音信号，利用所述目标俯仰角确定所述音频采集设备对应的时延；

定位单元，用于根据所述时延，对所述音频信号进行声源定位，得到最终的声源定位结果。

优选的，所述第一确定单元包括：

确定模块，用于根据所述嘴部坐标，以图像采集设备对应的第一坐标系为基准，确定所述人物的嘴部与所述图像采集设备之间的初始俯仰角；

转换模块，用于根据预设的俯仰角对应关系，以所述音频采集设备对应的第二坐标系为基准，将所述初始俯仰角转换为所述人物的嘴部与音频采集设备之间的目标俯仰角，所述俯仰角对应关系包含：以所述第一坐标系为基准的俯仰角和以所述第二坐标系为基准的俯仰角之间的对应关系。

优选的，所述音频采集设备为麦克风阵列，所述第二确定单元具体用于：利用所述目标俯仰角，结合

优选的，所述定位单元具体用于：根据所述时延，结合音频波束形成测向法，对所述音频信号进行时延补偿，向当前空间内的各个方向进行固定波束形成，确定波束输出功率最大的方向为最终的声源定位结果。

基于上述本发明实施例提供的一种声源定位方法及系统，该方法为：采集待处理图像和音频信号；获取待处理图像中人物的嘴部坐标；根据嘴部坐标，确定人物的嘴部与音频采集设备之间的目标俯仰角；若确定音频信号为活动语音信号，利用目标俯仰角确定音频采集设备对应的时延；根据时延，对音频信号进行声源定位，得到最终的声源定位结果。本方案中，通过采集得到的待处理图像中人物的嘴部坐标，确定该人物的嘴部与音频采集设备之间的目标俯仰角。当采集的音频信号为活动语音信号时，根据目标俯仰角确定音频采集设备对应的时延，对音频信号进行声源定位得到最终的声源定位结果，确定音频信号为活动语音信号后，结合人物的嘴部位置和音频信息进行声源定位，提高声源定位的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种声源定位方法的流程图；

图2为本发明实施例提供的二维平面中波束形成的示意图；

图3为本发明实施例提供的三维空间中波束形成的示意图；

图4为本发明实施例提供的确定目标俯仰角的流程图；

图5为本发明实施例提供的确定音频信号是否为活动语音信号的流程图；

图6为本发明实施例提供的一种声源定位系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前在进行声源定位时，通常为利用平面麦克风阵列采集音频信号，对音频信号进行处理得到各个方位角度对应的能量，将能量最大的方位角度作为定位结果。但是，前述声源定位方式无法区分所采集的音频信号为人声还是强噪声，处理音频信号所得到的定位结果并不能准确的指示说话人的位置，定位精度较低。

因此，本发明实施例提供一种声源定位方法及系统，通过采集得到的待处理图像中人物的嘴部坐标，确定该人物的嘴部与音频采集设备之间的目标俯仰角。当采集的音频信号为活动语音信号时，根据目标俯仰角确定音频采集设备对应的时延，对音频信号进行声源定位得到最终的声源定位结果，确定音频信号为活动语音信号后，结合人物的嘴部位置和音频信息进行声源定位，以提高声源定位的精度。

参见图1，示出了本发明实施例提供的一种声源定位方法的流程图，该声源定位方法包括：

步骤S101：采集待处理图像和音频信号。

在具体实现步骤S101的过程中，利用图像采集设备采集待处理图像，以及利用音频采集设备采集音频信号。

需要说明的是，图像采集设备为具有图像采集功能的设备，比如摄像头等设备。音频采集设备为具有音频采集功能的设备，比如麦克风阵列和多基元麦克风阵列等设备。

可以理解的是，前述利用音频采集设备采集的音频信号为多路语音信号。

步骤S102：获取待处理图像中人物的嘴部坐标。

在具体实现步骤S102的过程中，对待处理图像进行人脸识别，先确定该待处理图像中是否存在人脸，若存在，则检测待处理图像中的人脸位置并输出人脸位置的边界框。利用带人脸的原始图像(即该待处理图像)和人脸位置的边界框，获取待处理图像中人物的人脸关键点，该人脸关键点包括：眼角位置、鼻子位置、嘴部位置和脸的轮廓点等。根据人脸关键点，对待处理图像中的人物脸上的特征点进行定位，获取人物的嘴部坐标。

可以理解的是，具体检测待处理图像中的人脸位置的过程为：先将检测待处理图像进行图片灰度化，再计算图片灰度化之后的待处理图像中像素的梯度，通过将待处理图像转换成方向梯度直方图(HOG)形式，获取待处理图像中的人脸位置。

需要说明的是，在对待处理图像进行人脸识别的过程中，还利用预先训练得到的卷积神经网络模型，将待处理图像中的人脸图像转换成向量。

进一步需要说明的是，前述确定得到的嘴部坐标，位于图像采集设备对应的第一坐标系，比如：假设图像采集设备为摄像头，则所确定的嘴部坐标位于摄像头坐标系(即第一坐标系)中。

步骤S103：根据嘴部坐标，确定人物的嘴部与音频采集设备之间的目标俯仰角。

由前述内容可知，嘴部坐标位于图像采集设备对应的第一坐标系，在具体实现步骤S103的过程中，先利用嘴部坐标，计算得到以第一坐标系为基准的，人物的嘴部与图像采集设备之间的初始俯仰角(即人物嘴部与图像采集设备所处水平面的夹角)，再将该初始俯仰角转换为以音频采集设备对应的第二坐标系为基准的目标俯仰角，该目标俯仰角即为人物的嘴部与音频采集设备之间的俯仰角。

在具体实现中，利用嘴部坐标，通过公式(1)计算初始俯仰角φ。

在公式(1)中，y为嘴部坐标的纵坐标，d为在竖直方向上人物对应的平面到图像采集设备对应的平面的距离，图像采集设备可直接获取得到d。

步骤S104：若确定音频信号为活动语音信号，利用目标俯仰角确定音频采集设备对应的时延。

在对音频信号进行声源定位之前，需先确定该音频信号是否为活动语音信号，若确定音频信号为活动语音信号，再对该音频信号进行声源定位。

需要说明的是，通过音频波束形成测向法(延迟求和的波束形成方法)对音频信号进行声源定位，在进行声源定位过程中，需计算用于对音频信号(即多路语音信号)进行时延补偿的时延。

为更好解释说明如何计算用于对音频信号进行时延补偿的时延的过程，以音频采集设备为均匀圆阵的麦克风阵列为例，通过图2和图3示出的波束形成的示意图进行说明。

参见图2，示出了本发明实施例提供的二维平面中波束形成的示意图，如图2所示，麦克风阵列的N个阵元均匀分布在一个圆周上的均匀圆阵，该圆周的半径为r，θ为音频信号与第二坐标系(即麦克风阵列坐标系)的x轴的夹角，第n个阵元在第二坐标系上的坐标记为(x_n，y_n)，其中，n＝1,2,…,N，第n个阵元的时延的计算方式如公式(2)，公式(2)中的c为声速。

需要说明的是，上述公式(2)所计算的麦克风阵列各个阵元的时延，为在二维平面上计算得到的时延，但在实际环境中，声源和麦克风阵列均处于三维空间中，故上述公式(2)计算得到的麦克风阵列各个阵元的时延存在误差。

在三维空间中，由于声源与第二坐标系的z轴正方向存在夹角，该夹角即为人物的嘴部与阵列麦克风(即音频采集设备)之间的目标俯仰角，因此在计算麦克风阵列各个阵元的时延时，需引入目标俯仰角，三维空间中声源与第二坐标系的对应关系，如图3示出的三维空间中波束形成的示意图，声源与第二坐标系的z轴正方向存在夹角φ'，φ'即为目标俯仰角。

故，通过公式(3)计算麦克风阵列的n个阵元的时延。

由上述内容可知，在具体实现步骤S104的过程中，利用目标俯仰角，结合公式(3)计算麦克风阵列的各个阵元的时延τ_n。

步骤S105：根据时延，对音频信号进行声源定位，得到最终的声源定位结果。

在具体实现步骤S105的过程中，根据时延，结合音频波束形成测向法，对音频信号进行时延补偿，向当前空间内的各个方向进行固定波束形成，确定波束输出功率最大的方向为最终的声源定位结果。

也就是说，根据上述计算得到的时延，对多路语音信号进行时延补偿，在音频采集设备所处的当前空间中的各个方向做固定波束形成，波束输出功率最大的方向即为最终的声源定位结果，该最终的声源定位结果指示声源方向。

在本发明实施例中，通过采集得到的待处理图像中人物的嘴部坐标，确定该人物的嘴部与音频采集设备之间的目标俯仰角。当采集的音频信号为活动语音信号时，根据目标俯仰角确定音频采集设备对应的时延，对音频信号进行声源定位得到最终的声源定位结果，确定音频信号为活动语音信号后，结合人物的嘴部位置和音频信息进行声源定位，提高声源定位的精度。

上述本发明实施例图1步骤S103中涉及的确定目标俯仰角的过程，参见图4，示出了本发明实施例提供的确定目标俯仰角的流程图，包括以下步骤：

步骤S401：根据嘴部坐标，以图像采集设备对应的第一坐标系为基准，确定人物的嘴部与图像采集设备之间的初始俯仰角。

由上述本发明实施例图1示出的内容可知，嘴部坐标位于图像采集设备对应的第一坐标系，在具体实现步骤S401的过程中，根据嘴部坐标，通过公式(1)计算初始俯仰角φ，该初始俯仰角以图像采集设备对应的第一坐标系为基准。

步骤S402：根据预设的俯仰角对应关系，以音频采集设备对应的第二坐标系为基准，将初始俯仰角转换为人物的嘴部与音频采集设备之间的目标俯仰角。

需要说明的是，俯仰角对应关系包含：以第一坐标系为基准的俯仰角和以第二坐标系为基准的俯仰角之间的对应关系，也就是说，以第一坐标系为基准的俯仰角，存在对应的以第二坐标系为基准的俯仰角。

可以理解的是，为保证声源定位的准确性，在计算得到以第一坐标系为基准的初始俯仰角后，将第一坐标系和第二坐标系进行匹配，对初始俯仰角进行修正转换得到以第二坐标系为基准的目标俯仰角。

在具体实现步骤S402的过程中，根据预设的俯仰角对应关系，将初始俯仰角转换为人物的嘴部与音频采集设备之间的目标俯仰角，该目标俯仰角以第二坐标系为基准。

为更好解释说明如何设置俯仰角对应关系，通过以下过程A1至A5进行说明，

需要说明的是，图像采集设备和音频采集设备均为具有声源定位功能的智能电子设备的组成部分，假设智能电子设备为智能音视频设备、图像采集设备为摄像头、音频采集设备为麦克风阵列。

当智能音视频设备的结构设计完成之后，该智能音视频设备对应的摄像头位置和麦克风阵列位置固定，即摄像头和麦克风阵列的空间位置已知。

A1、设摄像头坐标系(O₁ X₁ Y₁ Z₁)的原点O₁的位置坐标为(0,0,0)，则麦克风阵列坐标系原点O₂在摄像头坐标系中的位置为(△x,△y,△z)。

A2、以摄像头坐标系O₁ X₁ Y₁ Z₁为参考，设初始俯仰角为声源(x_s,y_s,z_s)与O₁ X₁Y₁的夹角，该初始俯仰角记为φ，则该初始俯仰角φ的取值范围为[-90°，90°]。

A3、在[-90°，90°]范围内，每隔1°取1个φ值，即获得一组φ值(φ₁,φ₂,...,φ₁₈₀,φ₁₈₁)，通过前述一组φ值(φ₁,φ₂,...,φ₁₈₀,φ₁₈₁)，解出相应的一组声源S的坐标，该组声源S的坐标为：(x_s1,y_s1,z_s1)…(x_s181,y_s181,z_s181)。

A4、设以麦克风阵列坐标系为基准的目标俯仰角为φ'，则该目标俯仰角φ'的表达式如公式(4)。

A5、根据上述过程A3计算得到的一组声源S的坐标：(x_s1,y_s1,z_s1)…(x_s181,y_s181,z_s181)，结合上述公式(4)，求解得到一组目标俯仰角φ'值(φ₁',φ₂',...,φ₁'₈₀,φ₁'₈₁)，该组φ'值与过程A3中的一组φ值一一对应(按照下角标的序号对应)，比如φ₁'对应φ₁，φ₂'对应φ₂，该对应关系即为以第一坐标系为基准的俯仰角和以第二坐标系为基准的俯仰角之间的对应关系。

需要说明的是，上述过程中仅示例了部分方位的初始俯仰角φ和目标俯仰角φ'的对应关系，对于其它方位的初始俯仰角φ和目标俯仰角φ'的对应关系，可通过上述求解得到的目标俯仰角做线性差值拟合得到，在此不再一一举例说明。

通过上述内容可知，在确定得到初始俯仰角后，根据俯仰角对应关系，利用初始俯仰角查找与之对应的以第二坐标系为基准的目标俯仰角。

在本发明实施例中，利用待处理图像中人物的嘴部坐标，先确定人物的嘴部与图像采集设备之间的初始俯仰角，再利用俯仰角对应关系，将初始俯仰角转换为嘴部与音频采集设备之间的目标俯仰角，最终利用目标俯仰角对音频信号进行声源定位得到最终的声源定位结果，提高声源定位的精度。

上述本发明实施例图1步骤S104中涉及的确定音频信号是否为活动语音信号的过程，参见图5，示出了本发明实施例提供的确定音频信号是否为活动语音信号的流程图，包括以下步骤：

步骤S501：对音频信号进行预处理，并将进行预处理后的音频信号转换为第一子带信号。

需要说明的是，预处理至少包括：高通滤波、去除直流分量和降采样处理。

在具体实现步骤S501的过程中，对音频信号进行高通滤波、去除直流分量和降采样处理等预处理，再利用DFT(离散傅里叶变换)调制滤波器组将预处理后的音频信号(时域信号)转换为第一子带信号(频域信号)。

需要说明的是，在对音频信号进行预处理的过程中，仅对采样率高于采样率阈值的音频信号进行降采样处理，将采样率降低至采样率阈值，比如：对采样率高于16kHz的音频信号进行降采样处理，将采样率高于16kHz的音频信号降采样至16kHz。

进一步需要说明的是，DFT调制滤波器组的具体确定过程为：选择一个低通滤波器H(z)，该低通滤波器H(z)的截止频率为π/M，M为M倍下采样器，将该低通滤波器H(z)作等间隔频移所得到的滤波器组称为DFT调整滤波器组。

步骤S502：对第一子带信号进行声学回声消除处理，得到第二子带信号。

在具体实现步骤S502的过程中，利用自适应滤波器模拟音频采集设备接收到的回声信号，基于该回声信号，再利用谱减法对第一子带信号进行声学回声消除处理，得到第二子带信号。

步骤S503：计算第二子带信号对应的信号子带域的信噪比和对数谱偏差，并根据信噪比和对数谱偏差确定音频信号是否为活动语音信号。

在具体实现步骤S503的过程中，将第二子带信号的所有子带分成n个临界频带，则前述各个临界频带上的平均能量为E_p(l,i)，其中l表示信号帧的帧号，i＝1,2,…,n。

则第二子带信号所有临界频带上的总能量为

当总能量大于能量阈值时，确定当前帧为语音帧，即确定第二子带信号对应的音频信号为活动语音信号。

在确定第二子带信号对应的音频信号为噪声信号时，取前m帧的第二子带信号初始化噪声的临界频带能量，假设噪声的临界频带能量为E_n(l,i)，则当前帧的第二子带信号的各个临界频带上的信噪比详见公式(5)。

将当前帧的第二子带信号的各个临界频带的信噪比进行量化求和，即可得到该第二子带信号在临界频带上的总信噪比，当总信噪比小于信噪比阈值时，确定当前帧为噪声帧，即确定第二子带信号对应的音频信号为噪声信号。

对临界频带能量取对数得到第二子带信号的对数能量E_log，初始化长时对数能量E_logL，计算当前帧的第二子带信号的对数能量和长时对数能量之间的偏差，即得到对数谱偏差，对数谱偏差的具体计算过程如公式(6)。

若当前帧的第二子带信号的对数谱偏差较小(小于一定值)，表示当前帧与前几帧的第二子带信号之间的能量变化较小。

需要说明的是，当通过上述方式确定第二子带信号对应的音频信号为活动语音信号，则对该音频信号进行声源定位。

当确定第二子带信号对应的音频信号为噪声信号，则利用该第二子带信号对应的临界频带能量更新噪声的临界频带能量E_n(l,i)。

与上述本发明实施例提供的一种声源定位方法相对应，参见图6，本发明实施例还提供了一种声源定位系统的结构框图，该声源定位系统包括：采集单元601、获取单元602、第一确定单元603、第二确定单元604和定位单元605；

采集单元601，用于采集待处理图像和音频信号。

获取单元602，用于获取待处理图像中人物的嘴部坐标。

在具体实现中，获取单元602具体用于：对待处理图像进行人脸识别，获取待处理图像中人物的人脸关键点，根据人脸关键点，获取人物的嘴部坐标。

第一确定单元603，用于根据嘴部坐标，确定人物的嘴部与音频采集设备之间的目标俯仰角。

第二确定单元604，用于若确定音频信号为活动语音信号，利用目标俯仰角确定音频采集设备对应的时延。

在具体实现中，音频采集设备为麦克风阵列，第二确定单元604具体用于：利用目标俯仰角，结合公式(3)计算麦克风阵列的各个阵元的时延。

在具体实现中，用于确定音频信号是否为活动语音信号的第二确定单元604，具体用于：对音频信号进行预处理，并将进行预处理后的音频信号转换为第一子带信号，对第一子带信号进行声学回声消除处理，得到第二子带信号，计算第二子带信号对应的信号子带域的信噪比和对数谱偏差，并根据信噪比和对数谱偏差确定音频信号是否为活动语音信号，预处理至少包括：高通滤波、去除直流分量和降采样处理。

定位单元605，用于根据时延，对音频信号进行声源定位，得到最终的声源定位结果。

在具体实现中，定位单元605具体用于：根据时延，结合音频波束形成测向法，对音频信号进行时延补偿，向当前空间内的各个方向进行固定波束形成，确定波束输出功率最大的方向为最终的声源定位结果。

优选的，结合图6示出的内容，第一确定单元603包括确定模块和转换模块，各个模块的执行原理如下：

确定模块，用于根据嘴部坐标，以图像采集设备对应的第一坐标系为基准，确定人物的嘴部与图像采集设备之间的初始俯仰角。

转换模块，用于根据预设的俯仰角对应关系，以音频采集设备对应的第二坐标系为基准，将初始俯仰角转换为人物的嘴部与音频采集设备之间的目标俯仰角，俯仰角对应关系包含：以第一坐标系为基准的俯仰角和以第二坐标系为基准的俯仰角之间的对应关系。

综上所述，本发明实施例提供一种声源定位方法及系统，通过采集得到的待处理图像中人物的嘴部坐标，确定该人物的嘴部与音频采集设备之间的目标俯仰角。当采集的音频信号为活动语音信号时，根据目标俯仰角确定音频采集设备对应的时延，对音频信号进行声源定位得到最终的声源定位结果，确定音频信号为活动语音信号后，结合人物的嘴部位置和音频信息进行声源定位，提高声源定位的精度。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声源定位方法，其特征在于，所述方法包括：

采集待处理图像和音频信号；

获取所述待处理图像中人物的嘴部坐标；

2.根据权利要求1所述的方法，其特征在于，所述根据所述嘴部坐标，确定所述人物的嘴部与音频采集设备之间的目标俯仰角，包括：

3.根据权利要求1所述的方法，其特征在于，所述音频采集设备为麦克风阵列，所述利用所述目标俯仰角确定所述音频采集设备对应的时延，包括：

利用所述目标俯仰角，结合

4.根据权利要求1所述的方法，其特征在于，所述根据所述时延，对所述音频信号进行声源定位，得到最终的声源定位结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述待处理图像中人物的嘴部坐标，包括：

根据所述人脸关键点，获取所述人物的嘴部坐标。

6.根据权利要求1所述的方法，其特征在于，确定所述音频信号是否为活动语音信号的过程，包括：

7.一种声源定位系统，其特征在于，所述系统包括：

采集单元，用于采集待处理图像和音频信号；

获取单元，用于获取所述待处理图像中人物的嘴部坐标；

8.根据权利要求7所述的系统，其特征在于，所述第一确定单元包括：

9.根据权利要求7所述的系统，其特征在于，所述音频采集设备为麦克风阵列，所述第二确定单元具体用于：利用所述目标俯仰角，结合

10.根据权利要求7所述的系统，其特征在于，所述定位单元具体用于：根据所述时延，结合音频波束形成测向法，对所述音频信号进行时延补偿，向当前空间内的各个方向进行固定波束形成，确定波束输出功率最大的方向为最终的声源定位结果。