CN110133594A

CN110133594A - 一种声源定位方法、装置和用于声源定位的装置

Info

Publication number: CN110133594A
Application number: CN201810136723.2A
Authority: CN
Inventors: 秦思; 赵成帅
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2019-08-16
Anticipated expiration: 2038-02-09
Also published as: CN110133594B

Abstract

本发明实施例提供了一种声源定位方法、装置和用于声源定位的装置。其中的方法具体包括：通过麦克风阵列接收声源的时域信号；确定所述时域信号对应的频域信号；所述频域信号包括：麦克风阵元在时间块的时帧和子频带对应的信号；依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差；依据所述频响误差，对所述时域信号对应的输出信号进行校正；依据校正后的输出信号，确定所述声源的定位结果。本发明实施例可以提高声源的定位性能。

Description

一种声源定位方法、装置和用于声源定位的装置

技术领域

本发明涉及信号处理技术领域，尤其涉及一种声源定位方法、装置和用于声源定位的装置。

背景技术

声源定位技术可以指示声源所在的空间方位(以下简称声源位置)，为后续的信息采集与处理提供重要的空间信息，故可被广泛应用于电话会议、视频会议、视频电话、家居监控、军事追踪等场景。

麦克风阵列可以指将多个麦克风阵元排列成线形、圆形、球形等几何拓扑结构的各种阵列。相较于单个麦克风阵元，麦克风阵列可以通过增加空间域，不仅对采集到的信号进行时域和频域分析处理，还可以对位于不同方位的信号进行空、时联合处理。基于麦克风阵列的声源定位可以结合语音信号处理技术和阵列信号处理技术及算法对获取的信号进行预处理和空、时联合处理，从而对声源在空间所处的位置信息进行估计。

发明人在实施本发明实施例的过程中发现，麦克风阵元的传感器敏感元件的差异、硬件放大电路构造的差异、安装的差异以及传输信道的差异等因素，导致不同麦克风阵元之间的频率响应特性存在差异，因此使得声源的定位性能降低。

发明内容

本发明实施例提供了一种声源定位方法、装置和用于声源定位的装置，可以提高声源的定位性能。

为了解决上述问题，本发明实施例公开了一种声源定位方法，包括：

通过麦克风阵列接收声源的时域信号；

确定所述时域信号对应的频域信号；所述频域信号包括：麦克风阵元在时间块的时帧和子频带对应的信号；

依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差；

依据所述频响误差，对所述时域信号对应的输出信号进行校正；

依据校正后的输出信号，确定所述声源的定位结果。

可选地，所述依据所述时间块的频域信号对应的观测向量，确定所述麦克阵元的频响误差，包括：

依据所述时间块的频域信号对应的观测向量，确定声源位置对应的导向信号子空间与所述频域信号的噪声子空间之间的正交度量；

依据所述正交度量，确定所述麦克风阵列中麦克阵元对应的频响误差。

可选地，所述方法还包括：

依据多个时间块的频域信号对应的观测向量，得到观测矩阵；

依据所述观测矩阵，得到所述频域信号的噪声子空间。

可选地，所述方法还包括：

利用多重信号分类方法，确定声源位置对应的初值；

依据所述初值，确定声源位置对应的导向信号子空间。

可选地，所述依据所述正交度量，确定所述麦克风阵列中麦克阵元对应的频响误差，包括：

确定频响误差对应的代价函数；

在所述麦克风阵列中麦克阵元对应的频响误差最小的情况下，对所述代价函数进行求解，以得到所述麦克风阵列中麦克阵元对应的频响误差。

可选地，所述时域信号对应的输出信号包括：观测矩阵；所述观测矩阵为依据多个时间块的频域信号对应的观测向量得到；

所述依据所述频响误差，对所述时域信号对应的输出信号进行校正，包括：

依据所述频响误差对应的校正矩阵，对所述观测矩阵进行校正。

可选地，所述确定所述时域信号对应的频域信号，包括：

对所述时域信号进行时间块划分，以得到时间块对应的时域信号；

将一个时间块中时帧的时域信号从时域转换为频域，并将频域分割为若干个子频带，以得到麦克风阵元在时间块的时帧和子频带对应的信号。

可选地，所述方法还包括：

针对麦克风阵元在一个时间块的时帧和子频带对应的信号，确定对应的自相关矩阵；

对所述自相关矩阵进行向量化，以得到所述时间块的频域信号对应的观测向量。

可选地，所述依据校正后的输出信号，确定所述声源的定位结果，包括：

利用稀疏贝叶斯学习方法，确定所述校正后的输出信号对应的稀疏向量；

依据所述稀疏向量，确定所述声源的定位结果。

可选地，所述利用稀疏贝叶斯学习方法，确定所述校正后的输出信号对应的稀疏向量，包括：

将多个所述子频带划分到对应的子频带组；

利用稀疏贝叶斯学习方法，确定所述校正后的输出信号和所述子频带组对应的稀疏向量。

可选地，所述子频带组对应的中心频率为预设频率。

可选地，所述麦克风阵列为非均匀阵列。

可选地，所述麦克风阵列包括：第一均匀线性阵列和第二均匀线性阵列，其中，所述第一均匀线性阵列的数量和所述第二均匀线性阵列的数量互质，且所述第一均匀线性阵列中第一麦克风阵元之间的距离和所述第二均匀线性阵列中第二麦克风阵列之间的距离不同。

另一方面，本发明实施例公开了一种声源定位装置，包括：

接收模块，用于通过麦克风阵列接收声源的时域信号；

频域信号确定模块，用于确定所述时域信号对应的频域信号；所述频域信号包括：麦克风阵元在时间块的时帧和子频带对应的信号；

频响误差确定模块，用于依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差；

校正模块，用于依据所述频响误差，对所述时域信号对应的输出信号进行校正；以及

定位结果确定模块，用于依据校正后的输出信号，确定所述声源的定位结果。

可选地，所述频响误差确定模块包括：

正交度量确定子模块，用于依据所述时间块的频域信号对应的观测向量，确定声源位置对应的导向信号子空间与所述频域信号的噪声子空间之间的正交度量；以及

频响误差确定子模块，用于依据所述正交度量，确定所述麦克风阵列中麦克阵元对应的频响误差。

可选地，所述装置还包括：

观测矩阵确定模块，用于依据多个时间块的频域信号对应的观测向量，得到观测矩阵；

噪声子空间确定模块，用于依据所述观测矩阵，得到所述频域信号的噪声子空间。

可选地，所述装置还包括：

初值确定模块，用于利用多重信号分类方法，确定声源位置对应的初值；

导向信号子空间确定模块，用于依据所述初值，确定声源位置对应的导向信号子空间。

可选地，所述频响误差确定子模块包括：

函数确定子模块，用于确定频响误差对应的代价函数；以及

频响误差求解子模块，用于在所述麦克风阵列中麦克阵元对应的频响误差最小的情况下，对所述代价函数进行求解，以得到所述麦克风阵列中麦克阵元对应的频响误差。

可选地，所述时域信号对应的输出信号包括：观测矩阵，所述观测矩阵为依据多个时间块的频域信号对应的观测向量得到；

所述校正模块包括：

校正子模块，用于依据所述频响误差对应的校正矩阵，对所述观测矩阵进行校正。

可选地，所述频域信号确定模块包括：

时间块划分子模块，用于对所述时域信号进行时间块划分，以得到时间块对应的时域信号；以及

时频转换子模块，用于将一个时间块中时帧的时域信号从时域转换为频域，并将频域分割为若干个子频带，以得到麦克风阵元在时间块的时帧和子频带对应的信号。

可选地，所述装置还包括：

自相关矩阵确定模块，用于针对麦克风阵元在一个时间块的时帧和子频带对应的信号，确定对应的自相关矩阵；

向量化模块，用于对所述自相关矩阵进行向量化，以得到所述时间块的频域信号对应的观测向量。

可选地，所述定位结果确定模块包括：

稀疏向量确定子模块，用于利用稀疏贝叶斯学习装置，确定所述校正后的输出信号对应的稀疏向量；

定位结果确定子模块，用于依据所述稀疏向量，确定所述声源的定位结果。

可选地，所述稀疏向量确定子模块包括：

子频带组划分单元，用于将多个所述子频带划分到对应的子频带组；以及

稀疏向量确定单元，用于利用稀疏贝叶斯学习方法，确定所述校正后的输出信号和所述子频带组对应的稀疏向量。

可选地，所述子频带组对应的中心频率为预设频率。

可选地，所述麦克风阵列为非均匀阵列。

再一方面，本发明实施例公开了一种用于声源定位的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

通过麦克风阵列接收声源的时域信号；

依据校正后的输出信号，确定所述声源的定位结果。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述观测矩阵，得到所述频域信号的噪声子空间。

利用多重信号分类方法，确定声源位置对应的初值；

依据所述初值，确定声源位置对应的导向信号子空间。

确定频响误差对应的代价函数；

可选地，所述确定所述时域信号对应的频域信号，包括：

依据所述稀疏向量，确定所述声源的定位结果。

将多个所述子频带划分到对应的子频带组；

可选地，所述子频带组对应的中心频率为预设频率。

可选地，所述麦克风阵列为非均匀阵列。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的声源定位方法。

本发明实施例包括以下优点：

本发明实施例中声源的定位结果，由于是在依据频响误差对时域信号对应的输出信号进行幅度与相位校正的基础上得到的，故可以在一定程度上克服因麦克风阵元的频响特性存在差异而导致声源的定位性能降低的问题，因此可以提高声源的定位性能，例如，可以提高声源的定位结果的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种声源定位系统的结构示意图；

图2是本发明的一种声源定位方法实施例的步骤流程图；

图3是本发明实施例的一种麦克风阵列的结构示意；

图4是本发明实施例的一种麦克风阵列及其对应的观测向量的分布示意；

图5是本发明的一种声源定位方法实施例的步骤流程图；

图6是本发明的一种声源定位装置实施例的结构框图；

图7是本发明的一种用于声源定位的装置800的框图；及

图8是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出了一种声源定位方案，该方案首先通过麦克风阵列接收声源的时域信号；然后确定所述时域信号对应的频域信号；所述频域信号可以包括：麦克风阵元在时间块的时帧和子频带对应的信号；接着依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差；然后依据所述频响误差，对所述时域信号对应的输出信号进行校正；进而依据校正后的输出信号，确定所述声源的定位结果。

本发明实施例利用信号统计量的时变特性，确定所述麦克风阵列中麦克阵元对应的频响误差，上述信号统计量的时变特性可以指信号的采样值在时间维度是变化的；具体地，本发明实施例可以对信号进行时间块的划分，通过增加时间块这一维度的信息来确定所述麦克风阵列中麦克阵元对应的频响误差，上述频响误差可以反映不同麦克风阵元之间的频率响应特性的差异，由此可以提高频响误差的客观性和准确度；在此基础上，本发明实施例依据所述频响误差，对所述时域信号对应的输出信号进行校正，并依据校正后的输出信号，确定所述声源的定位结果；由于声源的定位结果是在依据频响误差对所述时域信号对应的输出信号进行校正的基础上得到的，故可以在一定程度上克服因麦克风阵元的频响特性存在差异而导致声源的定位性能降低的问题，因此可以提高声源的定位性能。

本发明实施例可以应用于任意的声源定位场景，如电话会议、视频会议、视频电话、家居监控、军事追踪等场景。

参照图1，示出了本发明实施例的一种声源定位系统的结构示意图，其具体可以包括：麦克风阵列101和控制设备102；其中，控制设备102可以包括：接收模块121和声源定位模块122。

在实际应用中，在声源发出声波信号的情况下，麦克风阵列101可以将接收到的声波信号转换为电信号，发送给接收模块121；接收模块121将接收信号进行放大滤波处理后发送至声源定位模块122，声源定位模块122可以利用本发明实施例的声源定位方法，对该接收信号进行处理，以得到其对应的声源的定位结果。

在实际应用中，声源定位模块122可以首先对接收信号进行采集，以得到时域信号，然后利用本发明实施例的声源定位方法，对该时域信号进行处理，以得到其对应的声源的定位结果。

可以理解，图1所示声源定位系统只是作为示例，实际上，本领域技术人员可以根据实际应用需求，采用所需的声源定位系统，例如，还可以在上述控制设备102中设置存储模块，以通过该存储模块对接收信号进行存储；又如，还可以在上述控制设备102中设置显示模块等，本发明实施例对于具体的声源定位系统不加以限制。

方法实施例一

参照图2，示出了本发明的一种声源定位方法实施例的步骤流程图，具体可以包括：

步骤201、通过麦克风阵列接收声源的时域信号；

假设时域信号为x_m(t)，m为麦克风阵列中麦克风阵元的序号；

步骤202、确定所述时域信号对应的频域信号；所述频域信号可以包括：麦克风阵元在时间块的时帧和子频带对应的信号；

假设频域信号为X_m(k,b_l)，k为子频带的序号，b为时间块序号，l为帧序号；

步骤203、依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差；

假设观测向量为z(k)，频响误差为γ_k。

步骤204、依据所述频响误差，对所述时域信号对应的输出信号进行校正；

步骤205、依据校正后的输出信号，确定所述声源的定位结果。

在步骤201中，所述麦克风阵列中麦克风阵元的数量可以不小于2，即M≥2。所述麦克风阵列中麦克风阵元的排列规则可以有多种，例如，均匀圆阵、均匀线阵、均匀矩形阵、非均匀圆阵、非均匀线阵、非均匀矩形阵等。本发明实施例对麦克风阵列的具体排列规则不加以限制。

根据一种实施例，所述麦克风阵列可以为均匀麦克风阵列，该均匀麦克风阵列中麦克风阵元之间的距离相同，此种情况下，可以依据麦克风阵元的绝对位置，确定子频带k对应的方位角θ_q对应的导向信号子空间：

在本发明的一种可选实施例中，，所述麦克风阵列可以为非均匀阵列。上述麦克风阵列具体可以包括：第一均匀线性阵列和第二均匀线性阵列，其中，所述第一均匀线性阵列的数量和所述第二均匀线性阵列的数量互质，且所述第一均匀线性阵列中第一麦克风阵元之间的距离和所述第二均匀线性阵列中第二麦克风阵列之间的距离不同。

参照图3，示出了本发明实施例的一种麦克风阵列的结构示意，图3所示麦克风阵列具体为非均匀的互质阵，该互质阵由两个均匀子线阵嵌套组成；第一均匀子线阵具体包括N个间距为Md的麦克风；第二个均匀子线阵具体包括M个间距为Nd的麦克风；其中，M与N互质，即最大公约数为1，d为互质阵中相邻麦克风最小间距。图3所示的麦克风阵列为间距不均匀的稀疏麦克风阵列，故可以增加麦克风阵元之间的相对位置(Pi-Pj)的情况，在此基础上，可以通过向量化自相关矩阵，得到具有高自由度的观测向量，进而可以实现例如声源的数量大于麦克风阵元的数量(Nt＝M+N-1)的情况下的声源定位，其中，Pi和Pj表示麦克风阵元的位置，i∈[1,Nt],i≠j。此种情况下，可以依据麦克风阵元的绝对位置，确定子频带k对应的方位角θ_q对应的导向信号子空间：

可选地，可以利用ADC(模数转换器，Analog to Digital Converter)对麦克风阵列采集的时域信号进行数字采样，得到时域信号x_m(t),m＝1,...,M。其中，M为自然数，采样率f_s可以为8KHz、16KHz、44.1KHz、48KHz等，本发明实施例对具体的采样频率不加以限制。

通过麦克风阵列得到的时域信号为语音信号，在时间变化上时域信号为不稳态的信号，为了从稳态的信号中提取特征，本发明实施例可以将不稳态的信号分解为稳态的信号，而短时的语音信号可被认为是稳态的，因此可以将时域信号分帧为若干个时帧。通过麦克风阵列得到的语音信号为宽带信号，为了便于处理，本发明实施例可以将语音信号在频域上分解为若干个子频带。可以理解，本发明实施例对于时帧的数量L和子频带的数量K不加以限制。

本发明实施例利用信号统计量的时变特性，确定所述麦克风阵列中麦克阵元对应的频响误差，上述信号统计量的时变特性可以指信号的采样值在时间维度是变化的；具体地，本发明实施例可以对信号进行时间块的划分，通过增加时间块这一维度的信息来确定所述麦克风阵列中麦克阵元对应的频响误差，上述频响误差可以反映不同麦克风阵元之间的频率响应特性的差异，由此可以提高频响误差的客观性和准确度。本发明实施例中，一个时间块可以包括若干个时帧，例如，一个时间块可以包括100个时帧等，可以理解，本发明实施例对一个时间块所包括时帧的数量不加以限制。

本发明实施例可以在时域上对信号进行时间块的划分，具体地，上述步骤202确定所述时域信号对应的频域信号的过程可以包括：对所述时域信号进行时间块划分，以得到时间块对应的时域信号；将一个时间块中时帧的时域信号从时域转换为频域，并将频域分割为若干个子频带，以得到麦克风阵元在时间块的时帧和子频带对应的信号。例如，可以对所述时域信号进行采样处理和时间块划分处理，然后针对每个时间块的时域信号进行分帧处理。在实际应用中，可以针对第m个麦克风阵元的时域信号，按照预设采样频率进行采样处理、时间块划分处理和分帧处理，以得到该麦克风阵元的的第b个时间块的第l个时帧对应的时域信号x_bl(t)，采样频率例如可以包括：16000Hz等，本发明实施例对于具体的采样频率不加以限制。

将一个时间块中时帧的时域信号从时域转换为频域，并将频域分割为若干个子频带，以得到麦克风阵元在时间块的时帧和子频带对应的信号。可以针对第b个时间块的第l个时帧对应的时帧信号，进行傅里叶变换或者离散傅里叶变换，并通过频域分割得到第b个时间块的第l个时帧和第k个子频带对应的频域信号Y(k,b_l)，Y_m(k,b_l)表示第m个麦克风阵元在第b个时间块的第l个时帧和第k个子频带对应的频域信号。

需要说明的是，上述在时域上对信号进行时间块的划分只是作为示例，实际上，还可以在频域上对信号进行时间块的划分，例如，首先对时域信号进行采样处理和分帧处理，然后将时帧的时域信号从时域转换为频域，并对频域信号进行时间块的划分等等。

在步骤202中，可以基于语音信号的短时平稳性，即信号的二阶统计量在时间块内不变，但每个时间块之间是变化的，将时域信号分成B(B为自然数)个时间块，每个时间块中有L(L为自然数)个时帧得到x_m(t,b_l),m＝1,...,M,b＝1,...,B,l＝1,...,L，并对每段声音信号数据进行K点FFT得到相应频域信号X_m(k,l),k＝1,...,K，其子频带k的导向矢量为

其中，p₁,...,p_M为M个麦克风阵元的物理位置，λ_k为子频带k对应的波长，θ_q,q＝1,...Q为Q个声源的方位角，Q为自然数。本发明实施例对时间块的数量B，时帧的数量L和子频带的数量K不加以限制。

考虑到不同麦克风间的幅度与相位不一致，定义

X_m(k,l)＝Γ(k)Y_m(k,l),k＝1,...,K， (2)

其中，M×M对角误差矩阵ρ_k,m表示频带k第m个麦克风的幅度误差，φ_k,m表示频带k第m个麦克风的相位误差；Y_m(k,l)表示理想状态(无误差)下的时间频率域信号。

在实际应用中，麦克风阵列接收的时域信号包括声源信号和噪声，其中，声源信号在一定时间内是相关的，而噪声之间往往相关性较弱。在第k个子频带，第b个时间块内，其自相关矩阵R_XX(k,b)由L个时帧平均运算得到；该平均运算可以抑制噪声，从而有效提高信噪比，在此基础上可以提高声源的定位结果的准确性。因此，本发明实施例基于自相关矩阵意识的声源定位方法，在定位环境混响或噪声较大时，可以实现稳健的声源定位。

在步骤203中，可以依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差。

在本发明的一种可选实施例中，时间块的频域信号对应的观测向量的获取过程可以包括：针对麦克风阵元在一个时间块的时帧和子频带对应的信号，确定对应的自相关矩阵；对所述自相关矩阵进行向量化，以得到所述时间块的频域信号对应的观测向量。

以频带k，时间块b为例，首先计算其M×M自相关矩阵

其中，X(k,l)＝[x₁(k,b_l),...,x_M(k,b_l)]^T为M×1向量。

进而对R_xx(k,b)进行向量化，得到M²×1观测向量

其中，vec(·)为向量化函数，将二维矩阵转换为一维向量。观测向量z(k,b)等效于虚拟阵列接收信号，阵列流型其对应导向矢量为

声源的功率向量噪声向量不同于公式(1)中的物理阵列的导向矢量a(k,θ_q),虚拟阵列中的自由度由麦克风的相对位置(p_i-p_j),i,j＝1,...M决定，而非绝对位置p_i,i＝1,...,M.因此，可以通过有效地设计非均匀阵列，减少相对位置(p_i-p_j),i,j＝1,...M中的冗余，提高自由度，进而实现声源数量(Q)大于麦克风数量(M)的声源定位。

例如图4(a)给出的互质麦克风阵列排布实例(M＝2,N＝3)，其中，第一均匀线性子阵列麦克风对应在：位置0、位置2和位置4，第二均匀线性子阵列麦克风对应在：位置0和位置3；因此，该互质麦克风阵列只需要4个麦克风(分布在位置0，2，3，4)。图4(b)给出了该阵列形成的虚拟阵列结构排布，虚拟阵列包含9个虚拟麦克风(分布在位置-4至4)，因此，提升的自由度可实现声源数量大于麦克风数量的声源定位。

本发明实施例中，声源的数量可以大于麦克风阵元的数量，或者，声源的数量可以小于或者等于麦克风阵元的数量。因此，本发明实施例对声源的数量Q与麦克风阵元的数量M之间的关系不加以限制。

在本发明实施例中，将B个时间块的观测向量进行组合，得到M²×B维观测矩阵：

其中，D_k＝[d(k,1),...,d(k,B)]为Q×B维功率矩阵，1＝[1,...,1]^T为B×1维全1向量。为了消除噪声，可以对观测矩阵Z_k进行正交投影，得到

其中，为非噪声空间投影矩阵。语音信号的短时平稳性，即信号的二阶统计量在时间块内不变，但每个时间块之间是变化的，因此，B×(Q+1)维矩阵为列满秩，公式(7)中正交投影操作不影响秩的条件。对进行奇异值分解(SVD)，可以得到

其中，N_t ²×Q维U_ks和B×Q维V_ks为非零奇异值Σ_ks的奇异矩阵，N_t ²×(N_t ²-Q)维U_kn和B×(N_t ²-Q)维V_kn为0值的奇异矩阵。

在本发明的一种可选实施例中，声源位置对应的导向信号子空间的确定过程可以包括：利用多重信号分类方法，确定声源位置对应的初值；依据所述初值，确定声源位置对应的导向信号子空间。

多重信号分类(MUSIC，multiple signal classification)的原理为：将任意阵列输出数据的协方差矩阵进行特征分解，从而得到与信号分量相对应的信号子空间与信号分量相正交的噪声子空间，然后利用这两个子空间的正交度量来估计信号的参数。具体到本发明实施例，可以利用上述正交度量估计声源位置对应的初值，例如，公式(10)中的初值，该初值可以作为正交度量的确定依据、以及步骤204对所述时域信号对应的输出信号进行校正的依据。

在本发明的一种可选实施例中，上述依据所述正交度量，确定所述麦克风阵列中麦克阵元对应的频响误差的过程，可以包括：确定频响误差对应的代价函数；在所述麦克风阵列中麦克阵元对应的频响误差最小的情况下，对所述代价函数进行求解，以得到所述麦克风阵列中麦克阵元对应的频响误差。上述代价函数可以为以频响误差为自变量、以正交度量为参数的代价函数。

在本发明实施例中，首先依据多重信号分类的原理，即信号噪声子空间(0奇异值子空间)与信号导向矢量正交，可以确定声源位置初值

进而通过初值确定频响误差对应的代价函数

其中，噪声自空间与信号导向矢量的正交度量

然后对所述代价函数进行求解，以得到所述麦克风阵列中麦克阵元对应的频响误差

在步骤204中，可以依据步骤203得到的频响误差，对所述时域信号对应的输出信号进行校正。

根据一种实施例，可以依据步骤203得到的频响误差，在声源位置对应的初值的基础上，对所述时域信号对应的输出信号进行校正。

根据另一种实施例，所述时域信号对应的输出信号可以包括：观测矩阵，所述观测矩阵可以为依据多个时间块的频域信号对应的观测向量得到；所述依据所述频响误差，对所述时域信号对应的输出信号进行校正的过程，可以包括：依据所述频响误差对应的校正矩阵，对所述观测矩阵进行校正。

例如，观测矩阵可以为公式(5)对应的Z_k，频响误差对应的校正矩阵可以为则对所述观测矩阵进行校正的过程可以为：

其中，为误差校正矩阵，为校正后的观测矩阵。

在步骤205中，利用步骤204中得到的校正后的观测矩阵确定所述声源的定位结果。当前，基于TDOA(波达时延差，Time Difference of Arrival)的方法是一种常用的声源定位方法，其实现原理为：利用广义互相关等时延估计算法求出信号到麦克风阵列中不同麦克风的相对时延，并利用时延信息与麦克风阵列的空间分布关系估计声源位置。然而，发明人在实施本发明实施例的过程中发现，基于TDOA的方法的鲁棒性较差，具体地，在定位环境混响或噪声较大的情况下，声源定位性能下降，无法实现声源的精确定位。

为了解决上述问题，在本发明的一种可选实施例中，所述步骤205依据校正后的输出信号，确定所述声源的定位结果的过程，可以包括：利用稀疏贝叶斯学习方法，确定所述校正后的输出信号对应的稀疏向量；依据所述稀疏向量，确定所述声源的定位结果。

本发明实施例利用稀疏贝叶斯学习(SBL，Sparse Bayesian Learning)方法，利用参数化的先验分布对声源信号与噪声进行合理建模，从而实现声源与噪声的有效分离，进而使定位分辨率突破阵列孔径限制，实现高分辨高精度声源定位。在确定所述声源定位结果的过程中，可以包括：利用稀疏贝叶斯学习方法，确定所述校正后的输出信号对应的稀疏矩阵；依据所述稀疏矩阵，确定所述声源的定位结果。

上述利用稀疏贝叶斯学习方法，确定所述校正后的输出信号对应的稀疏矩阵的过程，可以包括：

步骤S1、确定观测向量、观测向量的稀疏表示、以及稀疏向量之间的映射关系；所述稀疏表示中声源信号与噪声分离；

步骤S2、分别对所述稀疏表示中的声源信号与噪声进行建模，以得到所述稀疏表示包括的声源信号模型和噪声模型；

步骤S3、利用稀疏贝叶斯学习方法，依据所述映射关系、所述声源信号模型和所述噪声模型，确定所述声源信号所对应的稀疏向量。

步骤S1中，可以将空间划分为G个栅格元素(G远远大于M²)，公式(3)中的观测向量z(k)可以稀疏表示为

其中，M²×G维矩阵用于表示空间所有栅格元素对应的虚拟阵列导向矢量的集合，为M²×1维噪声向量。Δ(k)为误差矩阵，表示信号的期望vec(R_xx(k))与样本均值之间的差异。因此，(G+1)×B维矩阵D^o(k)＝[d^o(k，1)，...,d^o(k,B)]为信号在空间的稀疏矩阵，(G+1)×1维向量为时间块b对应的稀疏向量。其中，为G×1维信号稀疏向量，为噪声功率，而声源位置则对应中非零值的位置。声源位置不随频率变化而变化，因此，对不同的子频带k，对不同的时间块b，稀疏向量中非零值的位置相同，本发明实施例把这样的特性称为组稀疏性(group sparse)。本发明实施例利用组稀疏性，可以使观测向量更加丰富，进而提升测角精度。

本发明实施例利用组稀疏贝叶斯学习方法确定所述观测向量对应的稀疏向量d^o(k,b)。SBL方法利用参数化的先验分布对声源信号与噪声进行合理建模，从而实现声源与噪声的有效分离，进而使定位分辨率突破阵列孔径限制，实现高分辨高精度声源定位。

在本发明实施例中，用2×1向量表示稀疏向量中对应的第g(1≤g≤G)个栅格元素。其中，和分别表示元素的实部和虚部。假设服从均值为0，方差为α_g的高斯分布，即

其中，0表示2×1维零向量，I₂表示2×2单位矩阵。在(14)中，本发明实施例首先考虑了实部与虚部的组稀疏性(同时为0或不为0)，第g个栅格使用相同的方差α_g。另外，α_g独立于频带k和时间块b的值，此模型分布本发明实施例还考虑了不同频带和不同时间块间的组稀疏性。

为增强的稀疏性，本发明实施例假设服从伽马分布，即

其中，Γ(·)表示伽马函数。通过公式(14)与公式(15)的建模，利用复数多任务贝叶斯压缩感知的方法，可以求解出稀疏向量

可选地，假设噪声功率服从均值为0，方差为α₀的高斯分布，即

其中，可以服从伽马分布，在此不再赘述。

可选地，假设误差矩阵Δ(k)服从均值为0，方差为β₀的高斯分布，即

Δ(k)～N(Δ(k)|0,β₀I₂)， (17)

其中，可以服从伽马分布，在此不作赘述。

可选地，可将K个子频带中部分或全部频带自聚焦成多个子频带组来降低计算量，其中，所述子频带组的个数和预设中心频率f_c由本领域技术人员确定。例如，将频带划分为中心频率分别为1KHz，2KHz，…，7KHz的7个频带组，在每个子频带组中，在相应的[0.9f_c,1.1f_c]频带内对每个频率自相关矩阵进行加权平均，可以得到该子频带组对应的自相关矩阵。

当然，SBL方法只是作为确定所述观测向量对应的稀疏向量的方法的示例，实际上，本领域技术人员还可以根据实际应用需求，采用其他方法，如MVDR(最小方差无失真响应，Minimum Variance Distortionless Response)方法等，可以理解，本发明实施例对于确定所述观测向量对应的稀疏向量的具体方法不加以限制。

在步骤205中，声源在空间上的方位角可以为对应组中非零值的位置，即

其中Supp(·)用于确定一个向量中非零位置。

综上，本发明实施例的声源定位方法，利用信号统计量的时变特性，确定所述麦克风阵列中麦克阵元对应的频响误差，上述信号统计量的时变特性可以指信号的采样值在时间维度是变化的；具体地，本发明实施例可以对信号进行时间块的划分，通过增加时间块这一维度的信息来确定所述麦克风阵列中麦克阵元对应的频响误差，上述频响误差可以反映不同麦克风阵元之间的频率响应特性的差异，由此可以提高频响误差的客观性和准确度；在此基础上，本发明实施例依据所述频响误差，对所述时域信号对应的输出信号进行校正，并依据校正后的输出信号，确定所述声源的定位结果；由于声源的定位结果是在依据频响误差对所述时域信号对应的输出信号进行校正的基础上得到的，故可以在一定程度上克服不同麦克风阵元之间的频率响应特性存在差异导致声源的定位性能降低的问题，因此可以提高声源的定位性能。

并且，由于稀疏贝叶斯学习方法采用参数化的高斯分布为解的先验分布，故可以为稀疏向量的结构信息提供了更多的灵活性；因此，稀疏贝叶斯学习方法可以允许对有用信号与噪声进行合理建模，从而实现有用信号与噪声的有效分离，进而提升声源定位精度。因此，本发明实施例利用稀疏贝叶斯学习方法，可以使麦克风阵列的声源定位分辨率不受阵列孔径的限制，从而提高声源定位分辨率。

方法实施例二

参照图5，示出了本发明的一种声源定位方法实施例的步骤流程图，具体可以包括：

步骤501、通过麦克风阵列接收声源的时域信号；

步骤502、对所述时域信号进行时间块划分，以得到时间块对应的时域信号；

步骤503、将一个时间块中时帧的时域信号从时域转换为频域，并将频域分割为若干个子频带，以得到麦克风阵元在时间块的时帧和子频带对应的信号；

步骤504、依据多个时间块的频域信号对应的观测向量，得到观测矩阵；

步骤505、依据所述观测矩阵，得到所述频域信号的噪声子空间；

步骤506、确定声源位置对应的导向信号子空间与所述频域信号的噪声子空间之间的正交度量；

步骤507、依据所述正交度量，确定所述麦克风阵列中麦克阵元对应的频响误差；

步骤508、依据所述频响误差，对所述观测矩阵进行校正；

步骤509、依据校正后的观测矩阵，确定所述声源的定位结果。

本发明实施例中，时域信号对应的输出信号可以包括：观测矩阵。本发明实施例利用信号统计量的时变特性，确定所述麦克风阵列中麦克阵元对应的频响误差，上述信号统计量的时变特性可以指信号的采样值在时间维度是变化的；具体地，本发明实施例可以对信号进行时间块的划分，通过增加时间块这一维度的信息来确定所述麦克风阵列中麦克阵元对应的频响误差，上述频响误差可以反映不同麦克风阵元之间的频率响应特性的差异，由此可以提高频响误差的客观性和准确度；在此基础上，本发明实施例依据所述频响误差，对所述时域信号对应的输出信号进行校正，并依据校正后的输出信号，确定所述声源的定位结果；由于声源的定位结果是在依据频响误差对所述时域信号对应的输出信号进行校正的基础上得到的，故可以在一定程度上克服因麦克风阵元的频响特性存在差异而导致声源的定位性能降低的问题，因此可以提高声源的定位性能。

本发明实施例利用SBL方法，利用参数化的先验分布对声源信号与噪声进行合理建模，从而实现声源与噪声的有效分离，进而使定位分辨率突破阵列孔径限制，实现高分辨高精度声源定位。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图6，示出了本发明的一种声源定位装置实施例的结构框图，具体可以包括：

接收模块601，用于通过麦克风阵列接收声源的时域信号；

频域信号确定模块602，用于确定所述时域信号对应的频域信号；所述频域信号可以包括：麦克风阵元在时间块的时帧和子频带对应的信号；

频响误差确定模块603，用于依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差；

校正模块604，用于依据所述频响误差，对所述时域信号对应的输出信号进行校正；以及

定位结果确定模块605，用于依据校正后的输出信号，确定所述声源的定位结果。

可选地，所述频响误差确定模块603可以包括：

可选地，所述装置还可以包括：

可选地，所述频响误差确定子模块可以包括：

函数确定子模块，用于确定频响误差对应的代价函数；以及

可选地，所述时域信号对应的输出信号可以包括：观测矩阵，所述观测矩阵为依据多个时间块的频域信号对应的观测向量得到；

所述校正模块604可以包括：

可选地，所述频域信号确定模块602可以包括：

可选地，所述装置还可以包括：

可选地，所述定位结果确定模块605可以包括：

可选地，所述稀疏向量确定子模块可以包括：

可选地，所述子频带组对应的中心频率为预设频率。

可选地，所述麦克风阵列为非均匀阵列。

可选地，所述麦克风阵列可以包括：第一均匀线性阵列和第二均匀线性阵列，其中，所述第一均匀线性阵列的数量和所述第二均匀线性阵列的数量互质，且所述第一均匀线性阵列中第一麦克风阵元之间的距离和所述第二均匀线性阵列中第二麦克风阵列之间的距离不同。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还公开了一种用于声源定位的装置，该装置可以包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：通过麦克风阵列接收声源的时域信号；确定所述时域信号对应的频域信号；所述频域信号包括：麦克风阵元在时间块的时帧和子频带对应的信号；依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差；依据所述频响误差，对所述时域信号对应的输出信号进行校正；依据校正后的输出信号，确定所述声源的定位结果。

图7是根据一示例性实施例示出的一种用于声源定位的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种声源定位方法，所述方法包括：通过麦克风阵列接收声源的时域信号；确定所述时域信号对应的频域信号；所述频域信号包括：麦克风阵元在时间块的时帧和子频带对应的信号；依据所述时间块的频域信号对应的观测向量，确定所述麦克风阵列中麦克阵元对应的频响误差；依据所述频响误差，对所述时域信号对应的输出信号进行校正；依据校正后的输出信号，确定所述声源的定位结果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种声源定位方法、一种声源定位装置和一种用于声源定位的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声源定位方法，其特征在于，所述方法包括：

通过麦克风阵列接收声源的时域信号；

依据校正后的输出信号，确定所述声源的定位结果。

2.根据权利要求1所述的方法，其特征在于，所述依据所述时间块的频域信号对应的观测向量，确定所述麦克阵元的频响误差，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

依据所述观测矩阵，得到所述频域信号的噪声子空间。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

利用多重信号分类方法，确定声源位置对应的初值；

依据所述初值，确定声源位置对应的导向信号子空间。

5.根据权利要求2所述的方法，其特征在于，所述依据所述正交度量，确定所述麦克风阵列中麦克阵元对应的频响误差，包括：

确定频响误差对应的代价函数；

6.根据权利要求1至5中任一所述的方法，其特征在于，所述时域信号对应的输出信号包括：观测矩阵；所述观测矩阵为依据多个时间块的频域信号对应的观测向量得到；

7.根据权利要求1至5中任一所述的方法，其特征在于，所述确定所述时域信号对应的频域信号，包括：

8.一种声源定位装置，其特征在于，包括：

接收模块，用于通过麦克风阵列接收声源的时域信号；

9.一种用于声源定位的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

通过麦克风阵列接收声源的时域信号；

依据校正后的输出信号，确定所述声源的定位结果。

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的声源定位方法。