CN111025233A

CN111025233A - 一种声源方向定位方法和装置、语音设备和系统

Info

Publication number: CN111025233A
Application number: CN201911108472.8A
Authority: CN
Inventors: 黄伟隆
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-04-17
Anticipated expiration: 2039-11-13
Also published as: CN111025233B

Abstract

本发明公开了一种声源方向定位方法、装置及设备。所述方法包括：对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号；根据各指定方向的输出信号的信号能量，确定各指定方向的权重；采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定所述互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。提高了声源定位的鲁棒性，声源定位准确度高，抗干扰能力强。

Description

一种声源方向定位方法和装置、语音设备和系统

技术领域

本发明涉及语音技术领域，特别地涉及一种声源方向定位方法和装置、语音设备和系统。

背景技术

随着人工智能的发展，智能语音设备在日常生活中的应用越来越广泛，比如，智能音箱、智能会议拾音设备、智能机器人等，智能语音设备可以捕获周围的说话人的声音，为了获取清晰的语音，定位声音的方位是很有必要的。设置有环形麦克风的语音智能设备可以通过内置必要的声源定位算法，对环形麦克风接收到的音频信号进行处理，实现追踪空间中说话人说话时与麦克风的相对方位，即声源的方位。

目前常用的声源方向定位算法(DOA Estimation)有窄带声源方向定位算法(Narrowband DOA Estimation)和宽带声源方向定位算法(Wideband DOA Estimation)。其中，窄带声源方向定位算法可以在多个声源同时存在时区分多个声源所在的方位，但其计算复杂度高，目前常见的嵌入式语音设备很难支持如此复杂的算法，因此此类方法并不适用于目前常见的嵌入式语音设备。宽带声源方向定位算法中使用比较广泛的是基于时延估计技术(TDOA)的定位算法，相对于窄带声源方向定位算法而言，其计算复杂度比较低。

但是，TDOA定位算法的原理是对每个频带均等式地进行积分求和，由于实际语音环境中不可避免的会存在混响和噪声，这种不区分目标信号和非目标信号的积分求和方式，使得声源定位过程中受混响和噪声干扰，导致声源定位算法的鲁棒性差，声源定位的准确度低、抗干扰能力差。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种声源方向定位方法和装置、语音设备和系统。

作为本发明实施例的一个方面，涉及一种声源方向定位方法,包括：

对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，所述指定方向根据麦克风阵列区域中心点确定；

根据各指定方向的输出信号的信号能量，确定各指定方向的权重；

采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定所述互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。

在一个实施例中，所述对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，包括：

对麦克风阵列中各麦克风同步采集的音频信号进行频域变换，得到对应的频域音频信号；

采用预先构建的各指定方向的波束成型滤波器，对各麦克风的频域音频信号进行波束成型滤波，得到各指定方向的输出信号。

在一个实施例中，当所述麦克风阵列为环形麦克风阵列时，构建指定方向的波束成型滤波器，包括：

确定波束成型滤波的多个目标方向作为指定方向；

根据所述目标方向上的指向性向量和选择的抑制方向上的指向性向量，得到所述目标方向的差分阵列矩阵；

根据所述目标方向的差分阵列矩阵和预设的限制性向量，采用最小范数原理，得到所述目标方向的波束成型滤波器。

在一个实施例中，所述根据各指定方向的输出信号的信号能量，确定各指定方向的权重，包括：

针对每个指定方向，根据输出信号上一帧的信号能量和选择的平滑参数，确定当前帧的输出信号能量；

根据各指定方向的输出信号的信号能量，采用预设的确定方式，分别确定各指定方向的权重。

在一个实施例中，所述采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置，包括：

针对麦克风阵列中的每对麦克风，根据两个麦克风采集的音频信号的期望值、两个麦克风之间的距离、假想声源位置对应的入射角和该入射角对应的权重，计算两个麦克风采集到的音频信号在假想声源位置的互相关性，确定使互相关性最大的假想声源位置为备选声源位置；

根据确定出的备选声源位置，确定真实声源位置。

在一个实施例中，所述采用选择的时延估计算法，所述采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置，包括：针对麦克风阵列中的每对麦克风，根据两个麦克风采集的音频信号的期望值、两个麦克风之间的距离、假想声源位置对应的入射角和该入射角对应的权重，计算两个麦克风采集到的音频信号在假想声源位置的互相关性；

对得到的互相关性进行加权求和，得到麦克风阵列采集的音频信号的综合互相关性，确定使所述综合互相关性最大的假想声源位置为真实声源位置。

对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号；所述指定方向根据麦克风阵列区域中心点确定；

根据各指定方向的输出信号的信号能量，确定各指定方向的权重，并根据预设的权重调整规则，调整各指定方向的权重；

在一个实施例中，所述根据预设权重调整规则，调整各指定方向的权重，包括：

确定指定场景中选定的位置相对于麦克风阵列区域中心点所在的方向，根据设定权重调整规则，增大或减小确定出的方向的权重；或

当所述各指定方向的权重之差满足设定的条件时，根据选定的定向加权方向，调整各指定方向的权重。

采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定所述互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算；

根据视频设备采集到的视频或图像设备采集到的图像，确定可能的声源位置，根据所述可能的声源位置验证所述真实声源位置是否准确。

在一个实施例中，所述根据图像采集设备采集到的图像，确定可能的声源位置，根据所述可能的声源位置验证所述真实声源位置是否准确，包括：

从视频设备采集到的视频中提取人脸图像或从图像采集设备采集到的图向中提取人脸图像，根据提取的人脸图像中指定部位的动作确定可能的说话人及其所在的位置，将可能的说话人所在的位置作为可能的声源位置；

若所述真实声源位置与所述可能的声源位置相匹配，认为确定出的所述真实声源位置是准确的。

作为本发明实施例的一个方面，涉及一种声源方向定位装置，包括：

音频滤波模块，用于对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号；所述指定方向根据麦克风阵列区域中心点确定；

权重确定模块，用于根据各指定方向的输出信号的信号能量，确定各指定方向的权重；

声源定位模块，用于采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定所述互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。

权重确定模块，用于根据各指定方向的输出信号的信号能量，确定各指定方向的权重，并根据预设权重调整规则，调整各指定方向的权重；

声源定位模块，用于采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定所述互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算；

声源校验模块，用于获取视频采集设备采集到的视频信号，确定可能的声源位置，用可能的声源位置验证所述真实声源位置是否准确。

作为本发明实施例的再一个方面，涉及一种语音设备，包括：

环形麦克风阵列，用于采集音频信号；

上述的声源方向定位装置，用于基于麦克风阵列采集的音频信号，确定声源方向；

语音处理模块，用于基于确定出的声源方向对采集的音频信号进行过滤处理，将处理后的音频信号输出给其他语音设备，或将处理后的音频信号转化为文字输出，或针对处理后的音频信号进行应答。

作为本发明实施例的一个方面，一种语音系统，包括：

第一语音设备，包括：

环形麦克风阵列，用于采集音频信号；

语音处理模块，用于基于确定出的声源方向对采集的音频信号进行过滤处理，将处理后的音频信号输出给第二语音设备；

第二语音设备，用于接收第一语音设备发送的音频信号。

作为本发明实施例的一个方面，一种语音系统，包括：

视频设备或图像设备，其中视频设备用于采集语音设备所在环境的视频，图像设备用于采集语音设备所在环境的图像；

语音设备，包括：

环形麦克风阵列，用于采集音频信号；

作为本发明实施例的再一个方面，涉及一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述的声源方向定位方法。

作为本发明实施例的再一个方面，涉及一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的声源方向定位方法。

本发明实施例提供的上述技术方案的有益效果至少包括：

通过对麦克风阵列采集的音频信号进行波束成型滤波，得到指定方向的输出信号，基于指定方向的输出信号确定定位计算过程中的信号加权权重，使得在声源出现概率高的方向和频带能够获得较大的加权，出现频率低的方向和频带加权较小；在采用选择的时延估计算法进行定位计算时，根据假想声源位置所处的指定方向区域，使用对应的权重进行加权计算，根据加权计算的得到的互相关度来确定声源位置，由于考虑了出现概率对应的权重，从而增加了对目标信号和非目标信号的区分性，这样改进后的声源定位算法能够增加在一定噪音条件下的鲁棒性，提高声源定位的准确度、增强抗干扰能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例一中声源方向定位方法的流程图；

图2为本发明实施例一中声源方向定位方法的实现原理框图；

图3为本发明实施例二中基于改进GCC-PHAT算法的声源方向定位方法的流程图；

图4为本发明实施例二中构建指定方向波束的示意图；

图5为本发明实施例三中基于改进SRP-PHAT算法的声源方向定位方法的流程图；

图6为本发明实施例中构建波束成型滤波器的流程图；

图7为本发明实施例四中声源方向定位方法的流程图；

图8为本发明实施例五中声源方向定位方法的流程图；

图9为本发明实施例中一种声源方向定位装置的结构框图；

图10为本发明实施例中另一种声源方向定位装置的结构框图；

图11为本发明实施例中可校验声源位置的声源方向定位装置的结构框图；

图12为本发明实施例中语音设备的结构框图；

图13为本发明实施例中语音系统的结构框图；

图14为本发明实施例中另一种语音系统的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了解决现有技术中声源定位时不区分目标信号和非目标信号的积分求和方式，使得声源定位过程中受混响和噪声干扰，导致声源定位算法的鲁棒性差，声源定位的准确度低、抗干扰能力差等问题，本发明实施例提供一种声源方向定位方法，在进行声源定位计算时，考虑声源出现概率大小进行加权计算，从而实现更准确的声源定位，且提高抗干扰能力。

下面通过具体的实施例进行详细描述。

实施例一

本发明实施例一提供的一种声源方向定位方法，其流程如图1所示，其实现原理框图如图2所示，该方法包括如下步骤：

S11、对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，其中，指定方向根据麦克风阵列区域中心点确定。

在本步骤中，通过麦克风阵列中每一个麦克风同步地采集音频信号，将采集到的音频信号同步地进行傅里叶变换得到频域信号。在指定方向经过波束成型滤波器(BeamForming)对麦克风采集到的信号进行滤波，以增强指定方向的音频信号，并抑制其他方向的音频信号，由此可以得到各指定方向上的输出信号。参见如图2所示的，环形麦克风阵列中的多个麦克风拾取的原始音频信号，经过短时傅里叶变换(STFT)得到频域音频信号，经过波束成型滤波形成多个方向的差分阵列波束，即输出信号。

可选的，确定麦克风阵列区域中心点，以便根据区域中心点确定指定方向，进行指定方向区域的划分。确定区域中心点方法很多，在此不做具体限定。举例来说，确定中心点可以选择如下方法中的一种或几种来确定：

(1)根据麦克风阵列中各个麦克风的位置，确定一个能覆盖所有麦克风的最小的圆，以该圆心作为麦克风阵列的中心点。

(2)根据麦克风阵列中各个麦克风的位置，在麦克风阵列区域内部确定一个不覆盖任一个麦克风的最大的圆，以该圆心作为麦克风阵列的中心点。

(3)如麦克风阵列是一个环形麦克风阵列，直接以其圆心作为中心点。

(4)根据麦克风阵列中任意两个麦克风连线的交点，确定区域中心点。

在确定麦克风阵列的区域中心点后，可以基于区域中心点在麦克风阵列所在的区域空间选择若干指定方向，以四个为例，可以是以区域中心点为中心的坐标系中的0度方向、90度方向、180度方向、270度方向等等。

其中，指定方向的数量可以根据需要设定，一般不超过麦克风阵列中的麦克风数量。比如麦克风阵列中有M个麦克风，则指定方向小于等于M个即可，在经过每个指定方向经过波束成型滤波后，可以得到小于等于M个波束。

S12、根据各指定方向的输出信号的信号能量，确定各指定方向的权重。

得到各指定方向的输出信号后，针对每个指定方向，根据该指定方向上的输出信号，通过平滑算法计算得出该指定方向上的输出信号的信号能量。从而可以计算得到各个指定方向上对应的输出信号的信号能量。

例如，当指定方向为M个时，可以得到M个指定方向各自的输出信号的信号能量，由于声源所在的方向音频信号的能量会比较大，因此，可以通过某一个指定方向的信号能量在所有指定方向的信号能量加权求和后得到总能量中所占的比例来衡量声源出现在某个指定方向的概率大小，即得到一个权重值，用于后续定位计算时进行加权计算，使后续声源定位计算能够得到更准确的定位结果。

在对所有指定方向的信号能量加权求和时，可以根据维纳滤波参数的经验性参数进行计算，最终得出各指定方向所对应的权重。参见图2所示的，得到多个方向的差分阵列波束后，对多个方向的差分阵列波束进行自适应权重计算，得到各方向对应的权重。

S13、采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。

在进行声源定位时，可以设想空间中的不同的位置都可能是声源所在的位置，即有若干的假想声源位置，通过时延估计算法，对每个假想声源位置进行一对麦克风采集的音频信号之间的互相关性计算，根据相关性的大小，从若干的假想声源位置中寻找真实声源位置。

在对假想声源位置进行音频信号的互相关性计算时，需要考虑假想声源位置所在的指定方向区域，例如：对于环形麦克风阵列，当设置4个指定方向时，每个指定方向区域可以包含空间中90度范围的区域，因此可以根据假想声源位置相对于麦克风的位置上确定对应的入射角，根据入射角确定假想声源位置所在的指定方向区域，并获取该指定方向对应的权重作为互相关性计算时的加权权重，从而使得声源出现概率较高的位置获得较大的加权。

在基于互相关性计算确定声源位置时，由于麦克风阵列中一般有不止有两个麦克风，因此对于有多个麦克风的情况，可以选择以下方式确定声源位置：

方式一：根据假想声源位置所在区域所对应的权重，选择时延估计算法，并对麦克风阵列中的每对麦克风分别进行互相关性计算，每一对麦克风都得到一个使得其接收到的音频信号的互相关性最大的假想声源位置，由此可以得到一组假想声源位置，根据一组假想声源位置中出现频率最多的那个假想声源位置作为声源的位置，或者取该组假想声源位置的平均位置(比如入射角的均值)作为声源的位置。

方式二：根据假想声源位置所在区域所对应的权重，在计算每两个麦克风采集到的音频信号在假想声源位置的互相关性后，对互相关性进行加权求和，得到麦克风阵列采集的音频信号的综合互相关性，选择使得该综合互相关性最大的假想声源位置作为确定出的声源位置。

参见图2所示的，基于自适应权重计算得到的权重，使用自适应权重的时延估计技术进行声源方向定位，得到声源方向(DOA)。

本发明提供了一种基于差分阵列波束成型计算不同方向的波束权重的方式对声源方向进行定位，对不同频带在不同方向上以加权方式积分求和，改进了时延估计算法，具体的，通过对麦克风阵列采集的音频信号进行波束成型滤波，得到指定方向的输出信号，基于指定方向的输出信号确定定位计算过程中的信号加权权重，使得在声源出现概率高的方向和频带能够获得较大的加权，出现频率低的方向和频带加权较小；在采用选择的时延估计算法进行定位计算时，根据假想声源位置所处的指定方向区域，使用对应的权重进行加权计算，根据加权计算的得到的互相关度来确定声源位置，由于考虑了出现概率对应的权重，从而增加了对目标信号和非目标信号的区分性，这样改进后的声源定位算法能够增加在一定噪音条件下的鲁棒性，提高了声源定位的准确度，增强了抗干扰能力。

实施例二

本发明实施例二提供上述声源方向定位的一种具体实现过程，基于GCC-PHAT算法实现声源定位计算，其流程如图3所示，包括如下步骤：

S21、对麦克风阵列中各麦克风同步采集的音频信号进行频域变换，得到对应的频域音频信号。

本实施例中以环形麦克风阵列为例进行描述，如图4所示，从0度方向开始，沿着圆周放置M个麦克风，其中圆周半径为r。

麦克风阵列中的麦克风同步采集音频信号，得到时域音频信号并输出，对时域音频信号进行短时傅里叶变换，得到频域音频信号，其中，麦克风阵列中的M个麦克风所采集到的音频信号的第n帧可以表示成：

其中n为时间帧数，ω＝2πf是角频率，M是麦克风的总个数，m表示第m个麦克风，其中[]^T是线性代数转置的运算。

S22、采用预先构建的各指定方向的波束成型滤波器，对各麦克风的频域音频信号进行波束成型滤波，得到各指定方向的输出信号。

以图4为例，将360度空间划分为0度方向，90度方向，180度方向，270度方向的4个指定方向，即Beam1，Beam2，Beam3，Beam4。以Beam1方向为例，波束成型滤波器在该方向的输出信号为

为Beam1方向上的波束成型滤波器，[]^H是埃尔米特运算符，

为步骤S21中M个麦克风采集到的第n帧信号。同理可得到其他三个方向所对应的输出信号为：y₂(ω,n)，y₃(ω,n)，y₃(ω,n)。

上述步骤S21-S22实现了对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号。

S23、针对每个指定方向，根据输出信号上一帧的信号能量和选择的平滑参数，确定当前帧的输出信号能量。

以图4为例，根据上一帧的信号能量以及从S22步骤得到的Beam1方向的输出信号，通过迭代平滑公式(Recursive Smooth)计算Beam1方向的当前帧的信号能量：

p₁(ω,n)＝α*p₁(ω,n-1)+(1-α)*|y₁(ω,n)|²，

其中α称之为平滑参数，是一个常量，一般需要满足条件0<α<1，p₁(ω,n-1)为上一帧的信号能量。同理可以计算得出其他三个方向所对应的输出信号的能量为p₂(ω,n)，p₃(ω,n)，p₄(ω,n)。这里是以四个方向为例，当不是四个方向时的计算方式类似，此处不再赘述。

S24、根据各指定方向的输出信号的信号能量，采用预设的确定方式，分别确定各指定方向的权重。

以图4为例，计算Beam1方向对应的权重Mask1：

其中，μ为参数维纳滤波(Parametric Wiener Filter)的经验性参数，μ是一个常量，满足条件0<μ≤1。

重复以上步骤，计算得出所有指定方向对应的Mask值：Mask₁(ω,n)，Mask₂(ω,n)，Mask₃(ω,n)，Mask₄(ω,n)。

上述步骤S24-S25实现了根据各指定方向的输出信号的信号能量，确定各指定方向的权重。由于通常某个方向的输出信号的信号能量越大，表明声源在这个方向的概率越高，因此，得到权重也越大，即在后续时延定位计算时会获得更大的加权。

S25、针对麦克风阵列中的每对麦克风，根据两个麦克风采集的音频信号的期望值、两个麦克风之间的距离、假想声源位置对应的入射角和该入射角对应的权重，计算两个麦克风采集到的音频信号在假想声源位置的互相关性，确定使互相关性最大的假想声源位置为备选声源位置。

以两个麦克风之间S₁(ω,n)和S₂(ω,n)在第n帧时间的输入信号为例，利用在步骤S24计算得出的Mask(ω,n)使用本发明改进后的GCC-PHAT算法计算互相关性，改进后的GCC-PHAT算法计算的互相关性是一种自适应权重的互相关性，具体可以即算如下：

其中d是两个麦克风间距，c是声速，一般对于一个麦克风阵列来说，这些参数均为常数，ω＝2πf是角频率，θ为以假想声源入射角表示的假想声源位置，E[]表示期望值计算。Mask_θ(ω,n)是根据假想声源入射角θ所在区域选择的权重Mask。以图4为例的4个指定方向对应4个权重Mask，举例来说，假想声源入射角θ在图中Beam2(45度-135度)区间中时，选择Beam2对应的Mask₂(ω,n)作为Mask_θ(ω,n)。根据不同θ所对应的不同的Mask值计算不同假想声源位置对应的自适应权重的互相关性函数

确定一个θ可以使得麦克风对S1、S2拾取到的音频信号的

的函数值最大，则此θ可以认为是声源最可能的入射角度。

将麦克风阵列中所有麦克风两两配对，每对麦克风计算出一个最可能的θ，最终得到一组最可能是声源入射角的θ，作为备选声源位置。

由于传统GCC-PHAT算法有多种变形，即GCC-PHAT类的算法可以等效出许多种不同的表达形式，因此本发明所使用的GCC-PHAT计算方法并不限于上述公式所表达的形式，可以是其各种变型表达方式，本发明的核心思想在于在GCC-PHAT算法上通过Mask_θ(ω,n)进行一个加权计算。

S26、根据确定出的备选声源位置，确定真实声源位置。

确定出备选声源位置后，可以基于备选声源位置采用设定的规则确定真是的声源位置，对于如何确定真实声源位置，可以有多种选择方法。举例来说，可以从该组θ中，选择出现概率最高的θ值，作为真实声源的位置。也可以求该组θ的平均值，作为真实声源的位置。也可以随机选择一个角度值，作为真实声源位置。

本发明改进了传统GCC-PHAT算法在空间中搜索优选角度时，利用麦克风采集的信号实时计算出不同方向相应的权值Mask，对不同方向的不同频带进行权重加权计算。由于在目标声源信号出现的频带权重一般较高，目标声源信号没有出现的频带权重一般较低，所以增加了对目标声源信号和非目标声源信号的去分性。这样使得改进后的WeightedGCC-PHAT的声源定位方法能够在一定噪音条件下增加确定目标声源信号的鲁棒性。

上述实施例二中改进后的Weighted GCC-PHAT算法，先对麦克风阵列两两分组，一次针对两个麦克风进行声源定位，在对麦克风阵列的多对麦克风计算之后，对备选声源位置进行再处理才能确定最终的声源位置。

实施例三

本发明实施例三提供声源方向定位方法另一种具体实现过程，与实施例二中不同的之处在于，针对两个麦克风进行互相关性计算后，对互相关性进行加权求和，得到多个麦克风的综合互相关性，基于综合互相关性进行定位。该方法是一种改进的Weighted SRP-PHAT算法，可以针对多个麦克风的麦克风阵列进行声源定位。该方法流程如图5所示，包括下述步骤：

S31、对麦克风阵列中各麦克风同步采集的音频信号进行频域变换，得到对应的频域音频信号。

具体步骤参见步骤S21的描述，此处不再赘述。

S32、采用预先构建的各指定方向的波束成型滤波器，对各麦克风的频域音频信号进行波束成型滤波，得到各指定方向的输出信号。

具体步骤参见步骤S22的描述，此处不再赘述。

S33、针对每个指定方向，根据输出信号上一帧的信号能量和选择的平滑参数，确定当前帧的输出信号能量。

具体步骤参见步骤S23的描述，此处不再赘述。

S34、根据各指定方向的输出信号的信号能量，采用预设的确定方式，分别确定各指定方向的权重。

具体步骤参见步骤S24的描述，此处不再赘述。

S35、针对麦克风阵列中的每对麦克风，根据两个麦克风采集的音频信号的期望值、两个麦克风之间的距离、假想声源位置对应的入射角和该入射角对应的权重，计算两个麦克风采集到的音频信号在假想声源位置的互相关性；对得到的互相关性进行加权求和，得到麦克风阵列采集的音频信号的综合互相关性，确定使综合互相关性最大的假想声源位置为真实声源位置。

利用在步骤S34计算得出的Mask(ω,n)，使用改进的Weighted SRP-PHAT算法，针对各个假想声源方向计算综合互相关性如下：

其中，Δτ_le(θ)是第l个麦克风和第k个麦克风之间的相对时延，此相对时延取决于假想声源入射角θ，其他参数的含义参见实施例二中相同参数的含义。由上述公式可以看出，改进的SRP-PHAT算法就是对于任意两个成对麦克风信号S_l(ω,n)和S_k(ω,n)按照算法GCC-PHAT进行计算，然后对所有可能的麦克风对(Microphone Pairs)进行积分求和，确定一个使所有麦克风对最终的GCC-PHAT最大的θ即是声源的方向。

由于传统SRP-PHAT算法有多种变形，即SRP-PHAT类的算法可以等效出许多种不同的表达形式，因此本发明所使用的SRP-PHAT计算方法并不限于上述公式所表达的形式，可以是其各种变型表达方式，本发明的核心思想在于在SRP-PHAT算法上通过Mask_θ(ω,n)进行一个加权计算。对传统的Beam Scan Algorithms，运用本发明的权重Mask进行改进后，公式如下：

其中SRP_beamscan(ω,n,θ)的计算可以由指定方向的波束成型滤波器

和麦克风阵列的采集的音频信号计算得到：

由此实施例可以看出，改进的WeightedSRP(n)无需对备选θ进行后续处理或者进行挑选，可以直接计算得出声源的方向。比WeightedGCC(n)算法更为直接方便。

上述实施例一、二、三中用到的指定方向的波束成型滤波器

可以有多种构建方式，下面举例描述其中一种，波束成型滤波其的构建过程如图6所示，包括下述步骤：

S41、确定波束成型滤波的多个目标方向作为指定方向。

在本实施例中，以图4为例，以4个方向Beam1、Beam2、Beam3、Beam4作为指定方向。指定方向的数量可以根据需要设定，一般不超过麦克风阵列中的麦克风数量。

S42、根据目标方向上的指向性向量和选择的抑制方向上的指向性向量，得到目标方向的差分阵列矩阵。

在此步骤中，可以定义M个麦克风组成的麦克风阵列在声波入射角度θ方向上的指向性向量(Steering Vector)，即目标方向上的指向性向量为：

其中[]^T是线性代数转置的运算。对于向量

中每个元素的定义为：

其中

是复数的虚部单位，ω＝2πf是角频率，r是圆形半径，c是声速，第m个麦克风的相对于圆心的角度的位置

定义为：

由此可以得出每个麦克风相对于声源的相位差。

当一个麦克风阵列中麦克风数量固定不变的情况下，可以通过抑制方向的数量和位置调节波束成型的宽度。在这里抑制方向也可以称为陷零点。陷零点是指一个最大程度地抑制声波的位置。假设目标方向θ_target＝0,当陷零点为

也就要是在90度,180度和270度三个方向最大程度的去抑制声波，由此而形成的波束是Second-OrderCardioid形状的波束，它的波束宽度就会比

形成的First-Order Cardioid波束宽度窄，但会比

形成的波束要宽。

根据所需要陷零点的数量和位置，可以定义选择的抑制方向上的指向性向量

其中θ_target是所定义的目标方向，同时

是的陷零点位置，N需要满足条件：M≥N+1。

最后得出目标方向的差分阵列矩阵为：

S43、根据目标方向的差分阵列矩阵和预设的限制性向量，采用最小范数原理，得到目标方向的波束成型滤波器。

在此步骤中，为了求解想要的波束成型滤波器，需要求解如下的线性系统问题：

其中

就是需要求解的对于M个麦克风阵列的波束形成，其中

可以称之为N阶限制性向量，定义为：

根据从S32得到的

可以采用最小范数原理求解波束成型滤波器如下：

其中[]^H是埃尔米特运算符(HermitianOperator)。至此，可以得到目标方向的波束成型滤波器

以图6为例，经上述计算可以得到四个方向的波束成型滤波器分别为

实施例四

本发明实施例四提供一种声源方向定位方法，相对于实施例一、二、三，在根据各指定方向的输出信号的信号能量，确定各指定方向的权重之后，还包括根据设定的权重调整规则对权重进行调整，使真实声源位置能够获得更合理的加权权重。其流程如图7所示，包括如下步骤：

S51、对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，其中，指定方向根据麦克风阵列区域中心点确定。

具体步骤参见步骤S11的描述，此处不再赘述。

S52、根据各指定方向的输出信号的信号能量，确定各指定方向的权重，并根据预设权重调整规则，调整各指定方向的权重。

当确定各指定方向的权重之后，在某些指定场景中，需要调整权重，则可以根据预设的权重调整规则，调整各个指定方向的权重；其中，调整权重可以是权重的增加或减少，也可以不变。

可选的，确定指定场景中选定的位置相对于麦克风阵列区域中心点所在的方向，根据设定权重调整规则，增大或减小确定出的方向的权重。

举例来说，在庭审中，法官或律师所在方向是固定的，是声源位置的可能性比较大，因此，在进行声源方向定位时，可以对这些特定的方向进行定向加权，可以指定将相对于麦克风阵列区域中心点所在指向法官或者律师方向的权重增加一个固定值，以使得该方向的音频信号在计算过程中得到更高的权重，从而确定为最终声源方向。

再举例来说，在会议室中，主持人位于会议室的前方，是声源位置的可能性比较大，因此，在进行声源方向定位时，可以对该特定的方向进行定向加权，即将相对于麦克风阵列区域中心点所在指向主持人所在方向的权重增加设定值，以使得该方向的音频信号在计算过程中得到更高的权重，从而确定为最终声源方向。

再举例来说，在会议室中，有一面墙壁/玻璃临街，车辆噪音非常大，会导致该方向的音频信号的权重高于其他方向的音频信号，这使得声源定位受到很大的干扰。在这种情况下，需要进行降噪处理，即降低该方向的音频信号的权重，才可以使得其他方向的声源得以正确的被识别。

可选的，当各指定方向的权重之差满足设定的条件时，根据选定的定向加权方向，调整各指定方向的权重。

举例来说，在会议中，当各方向音频信号权重之差及其微小，但需要体现主持人或者某个说话人的声音时，根据其所在方位，可以将会议主持人或指定说话人所在方向的权重增加一个固定值，使之被识别为真实声源方向。

S53、采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。

具体步骤参见步骤S13的描述，此处不再赘述。

实施例五

本发明实施例五提供一种声源方向定位方法，相对于实施例一、二、三，还包括根据视频设备采集到的视频或图像设备采集到的图像，确定可能的声源位置，根据可能的声源位置验证所述真实声源位置是否准确的校验步骤。其流程如图8所示，包括如下步骤：

S61、对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，其中，指定方向根据麦克风阵列区域中心点确定。

具体步骤参见步骤S11的描述，此处不再赘述。

S62、根据各指定方向的输出信号的信号能量，确定各指定方向的权重。

具体步骤参见步骤S12的描述，此处不再赘述。

S63、采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。

具体步骤参见步骤S13的描述，此处不再赘述。

S64、根据视频设备采集到的视频或图像设备采集到的图像，确定可能的声源位置，根据可能的声源位置验证所述真实声源位置是否准确。

在此步骤，从视频设备采集到的视频中提取人脸图像或从图像采集设备采集到的图向中提取人脸图像，根据提取的人脸图像中指定部位的动作确定可能的说话人及其所在的位置，将可能的说话人所在的位置作为可能的声源位置；若真实声源位置与所述可能的声源位置相匹配，认为确定出的真实声源位置是准确的。

当语音设备有相关联的视频设备或图像设备，可以基于采集到的视频或图像中的说话人的图像进行说话人识别，并与上述确定的真实声源位置进行相互校验，以获取更准确的声源定位结果。

本实施例中，根据视频设备或图像设备采集到的说话人的相关视频或图像，对说话人进行粗略定位，比如，视频或图像中嘴巴有动作的说话人，可以认为时可能的声源方向，根据可能声源方向对确定出的真实声源方向进行校验，以验证确定出的真实声源方向的准确性，提高声源定位的准确率，获取更好的声源定位结果。

上述实施例一至五，在确定真是声源方向后，还可以基于确定出的声源方向对采集的音频信号进行过滤处理，以适用于不同的应用场景，比如：在远程会议场景中，将处理后的音频信号输出给其他语音设备，又比如，在智能语音识别场景中，将处理后的音频信号转化为文字输出，又比如，在智能语音交互场景中，针对处理后的音频信号进行应答。

基于同一发明构思，本发明实施例还提供了一种声源方向定位装置，可以设置在语音设备中，该装置的结构如图9，包括：音频滤波模块71、权重确定模块72、声源定位模块73和滤波器生成模块74。

音频滤波模块71，用于对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，其中，指定方向根据麦克风阵列区域中心点确定。

权重确定模块72，用于根据各指定方向的输出信号的信号能量，确定各指定方向的权重。

声源定位模块73，用于采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定所述互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。

在一个可选的实施例中，音频滤波模块71用于对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，包括：

在一个可选的实施例中，权重确定模块72用于根据各指定方向的输出信号的信号能量，确定各指定方向的权重，包括：

在一个可选的实施例中，声源定位模块73用于采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置，包括：

根据确定出的备选声源位置，确定真实声源位置；

针对麦克风阵列中的每对麦克风，根据两个麦克风采集的音频信号的期望值、两个麦克风之间的距离、假想声源位置对应的入射角和该入射角对应的权重，计算两个麦克风采集到的音频信号在假想声源位置的互相关性；

在一个可选的实施例中，上述装置还包括滤波器生成模块74，用于生成指定方向的波束成型滤波器。可选的，当所述麦克风阵列为环形麦克风阵列时，构建指定方向的波束成型滤波器，包括：

确定波束成型滤波的多个目标方向作为指定方向；

根据目标方向上的指向性向量和选择的抑制方向上的指向性向量，得到所述目标方向的差分阵列矩阵；

根据目标方向的差分阵列矩阵和预设的限制性向量，采用最小范数原理，得到目标方向的波束成型滤波器。

本发明实施例还提供了另一种声源方向定位装置，可以设置在语音设备中，该装置的结构如图10，包括：音频滤波模块81、权重确定模块82、声源定位模块83和滤波器生成模块84。

音频滤波模块81，用于对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，其中，指定方向根据麦克风阵列区域中心点确定。

权重确定模块82，用于根据各指定方向的输出信号的信号能量，确定各指定方向的权重，并根据预设权重调整规则，调整各指定方向的权重。

声源定位模块83，用于采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定所述互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。

在一个可选的实施例中，权重确定模块82用于根据预设权重调整规则，调整各指定方向的权重，包括：

当各指定方向的权重之差满足设定的条件时，根据选定的定向加权方向，调整各指定方向的权重。

其他模块的具体功能参照图9所示装置的相关描述，此处不再赘述。

本发明实施例还提供了一种声源方向定位装置，可以设置在语音设备中，该装置的结构如图11，包括：音频滤波模块91、权重确定模块92、声源定位模块93、声源校验模块94和滤波器生成模块95。

音频滤波模块91，用于对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，其中，指定方向根据麦克风阵列区域中心点确定。

权重确定模块92，用于根据各指定方向的输出信号的信号能量，确定各指定方向的权重。

声源定位模块93，用于采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置；其中，确定所述互相关度时根据假想声源位置所在的指定方向区域，选择对应的权重进行加权计算。

声源校验模块94，用于获取视频采集设备采集到的视频信号，确定可能的声源位置，用可能的声源位置验证所述真实声源位置是否准确。

在一个可选的实施例中，声源校验模块94用于获取视频采集设备采集到的视频信号，确定可能的声源位置，用可能的声源位置验证所述真实声源位置是否准确，包括：

本发明实施例还提供一种语音设备，可在语音交互系统中总是用，将处理后的音频信号传输给通信对端的语音设备，也可在智能语音识别场景中使用，将处理后的音频信号转化为文字输出，还可在智能语音交互场景中使用，针对处理后的音频信号进行应答。其结构如图12，包括：

麦克风阵列101，用于采集音频信号；

声源方向定位装置102，用于基于麦克风阵列采集的音频信号，确定声源方向；该装置可以是图9、10或11所示的装置；

语音处理模块103，用于基于确定出的声源方向对采集的音频信号进行过滤处理，将处理后的音频信号输出给其他语音设备，或将处理后的音频信号转化为文字输出，或针对处理后的音频信号进行应答。

举例来说，语音处理模块103对采集到音频信号经过训练和学习后，使其可以将音频信号转化成文字，或者可以理解指令，以实现人机交互功能。由此实现智能家居控制、语音购物、手机充值、音频音乐播放、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、查食物热量、充话费、查快递、查价格等功能。

本发明对该麦克风阵列的形状不做限制，可以是环形的麦克风阵列，或者是矩形麦克风阵列。

本发明实施例还提供一种语音系统，可在远程会议场景中使用，将处理后的音频信号输出给其他语音设备，其结构如图13，包括：

第一语音设备111，包括：

麦克风阵列121，用于采集音频信号，例如环形麦克风阵列；

声源方向定位装置122，用于基于麦克风阵列采集的音频信号，确定声源方向；

语音处理模块123，用于基于确定出的声源方向对采集的音频信号进行过滤处理，将处理后的音频信号输出给第二语音设备112。

第二语音设备112，用于接收第一语音设备111发送的音频信号。

本发明实施例还提供一种语音系统，其结构如图14,包括：

视频设备或图像设备131，其中视频设备用于采集语音设备所在环境的视频，图像设备用于采集语音设备所在环境的图像；

语音设备132，包括：

麦克风阵列141，用于采集音频信号，例如环形麦克风阵列；

声源方向定位装置142，用于基于麦克风阵列采集的音频信号，确定声源方向；

声源校验模块143，用于获取视频采集设备采集到的视频信号，确定可能的声源位置，用可能的声源位置验证所述真实声源位置是否准确。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述的声源方向定位方法。

本发明实施例还提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的声源方向定位方法。

由于上述声源方向定位装置、语音设备、计算机可读存储介质和计算机设备等所解决问题的原理与前述方法相似，因此其具体实现过程可以参见前述方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、设备、或存储介质和计算机设备。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声源方向定位方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，包括：

3.如权利要求2所述的方法，其特征在于，当所述麦克风阵列为环形麦克风阵列时，构建指定方向的波束成型滤波器，包括：

确定波束成型滤波的多个目标方向作为指定方向；

4.如权利要求1所述的方法，其特征在于，所述根据各指定方向的输出信号的信号能量，确定各指定方向的权重，包括：

5.如权利要求1所述的方法，其特征在于，所述采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置，包括：

根据确定出的备选声源位置，确定真实声源位置。

6.如权利要求1所述的方法，其特征在于，所述采用选择的时延估计算法，确定麦克风阵列中每对麦克风采集的音频信号在假想声源位置的互相关度，确定所述互相关度符合设定要求的假想声源位置为真实声源位置，包括：

7.一种声源方向定位方法，其特征在于，包括：

8.如权利要求7所述的方法，其特征在于，所述根据预设权重调整规则，调整各指定方向的权重，包括：

9.一种声源方向定位方法，其特征在于，包括：

10.如权利要求9所述的方法，其特征在于，根据视频设备采集到的视频或图像设备采集到的图像，确定可能的声源位置，根据所述可能的声源位置验证所述真实声源位置是否准确，包括：

11.一种声源方向定位装置，其特征在于，包括：

音频滤波模块，用于对麦克风阵列采集的音频信号进行指定方向的波束成型滤波，得到各指定方向的输出信号，所述指定方向根据麦克风阵列区域中心点确定；

12.一种声源方向定位装置，其特征在于，包括：

13.一种声源方向定位装置，其特征在于，包括：

14.一种语音设备，其特征在于，包括：

环形麦克风阵列，用于采集音频信号；

如权利要求11-13任一项所述的声源方向定位装置，用于基于麦克风阵列采集的音频信号，确定声源方向；

15.一种语音系统，其特征在于，包括：

第一语音设备，包括：

环形麦克风阵列，用于采集音频信号；

第二语音设备，用于接收第一语音设备发送的音频信号。

16.一种语音系统，其特征在于，包括：

语音设备，包括：

环形麦克风阵列，用于采集音频信号；

如权利要求11或12任一项所述的声源方向定位装置，用于基于麦克风阵列采集的音频信号，确定声源方向；

17.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-10中任一项所述的声源方向定位方法。

18.一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一项所述的声源方向定位方法。