CN104865550A

CN104865550A - 声源方向估计设备和声源方向估计方法

Info

Publication number: CN104865550A
Application number: CN201510086405.6A
Authority: CN
Inventors: 丁宁; 木田祐介
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-02-26
Filing date: 2015-02-16
Publication date: 2015-08-26
Also published as: US20150245152A1; JP6289936B2; JP2015161551A; US9473849B2

Abstract

本发明提供声源方向估计设备和声源方向估计方法。根据实施例，声源方向估计设备包含获取单元、生成器、比较器和估计器。获取单元被配置成从多个传声器获取多个信道的声信号。生成器被配置成对于每个预定频率窗，计算多个信道的声信号的相位差，以生成相位差分布。比较器被配置成将相位差分布与预先对于每个方向生成的模板进行比较，并且按照相位差分布和每个方向的模板之间的相似性来计算分数。估计器被配置成基于计算出的分数来估计声源的方向。

Description

声源方向估计设备和声源方向估计方法

相关申请的交叉引用

这个申请基于并且要求2014年2月26日提交的第2014-036032号日本专利申请的优先权的权益；其全部内容通过引用被结合于此。

技术领域

此处描述的实施例一般涉及声源方向估计设备和声源方向估计方法。

背景技术

作为在不依赖从声源到传声器的距离的情况下，用于精确地估计声源方向的技术，存在有利用从多个信道的声信号生成的相位差分布的技术。相位差分布是表示用于多个信道的声信号的各个频率的相位差的分布，并且按照收集来自多个信道的声信号的声音的传声器之间的距离，具有依赖于声源的方向的特定图案。即使当多个信道的声信号的声压级差小时，这个图案也不变。为此，即使当声源被定位成远离导致多个信道的声信号的声压级差变小的传声器时，相位差分布的使用也能够使得声源的方向能够被精确地估计。

但是，在使用相位差分布来估计声源的方向的传统技术中，从相位差分布获得方向的处理所需的计算量是大的，从而阻碍了利用具有低计算能力的设备来实时地估计声源的方向。为此，需要的是，以低的计算量来进行使用相位差分布的声源方向的估计。

发明内容

实施例的目的是提供一种声源方向估计设备，该声源方向估计设备能够以低的计算量，估计使用相位差分布的声源方向。

根据实施例，声源方向估计设备包含获取单元、生成器、比较器和估计器。获取单元被配置成从多个传声器获取多个信道的声信号。生成器被配置成对于每个预定频率区，计算多个信道的声信号的相位差，以生成相位差分布。比较器被配置成将相位差分布与预先对于每个方向生成的模板进行比较，并且按照相位差分布和每个方向的模板之间的相似性来计算分数。估计器被配置成基于计算出的分数来估计声源的方向。

根据上述声源方向估计设备，能够以低的计算量估计使用相位差分布的声源方向。

附图说明

图1是图解根据第一实施例的声源方向估计设备的功能配置实例的框图；

图2是图解相位差分布的实例的图；

图3是图解量化的相位差分布的实例的图；

图4是模板中使用的各个方向的相位差分布的实例的图；

图5A到5C是各自图解通过量化各个方向的相位差分布所生成的模板的实例的图；

图6是图解对于每个方向计算的分数的实例的图；

图7是图解通过根据第一实施例的声源方向估计设备的处理过程的实例的流程图；

图8是图解根据第二实施例的声源方向估计设备的功能配置实例的框图；

图9是图解通过根据第二实施例的声源方向估计设备的处理过程的实例的流程图；

图10是图解根据第三实施例的声源方向估计设备的功能配置实例的框图；

图11是图解通过根据第三实施例的声源方向估计设备的处理过程的实例的流程图；

图12是图解根据第四实施例的声源方向估计设备的功能配置实例的框图；

图13是图解分数波形的实例的图；

图14是图解通过根据第四实施例的声源方向估计设备的处理过程的实例的流程图；

图15是图解根据第五实施例的声源方向估计设备的功能配置实例的框图；

图16是图解分数波形的实例的图；

图17是图解通过根据第五实施例的声源方向估计设备的处理过程的实例的流程图；

图18是说明不能区分声源的方向的实例的图；

图19是图解变形例中的传声器的布置的实例的图；

图20图解从分数转换的全方向分数的实例；

图21图解从分数转换的全方向分数的实例；

图22图解从分数转换的全方向分数的实例；以及

图23是图解其中全方向分数被合并的合并分数的实例的图。

具体实施方式

第一实施例

图1是图解根据第一实施例的声源方向估计设备的功能配置实例的框图。如图1中图的，根据本实施例的声源方向估计设备包含获取单元11、生成器12、比较器13、存储器14、估计器15以及输出单元16。

获取单元11从构成传声器阵列的多个传声器中获取多个信道的声信号。在本实施例中，如图1中图解的，从两个传声器M1和M2中获取两个信道的声信号。构成传声器阵列的两个传声器M1和M2具有固定的相对位置关系，并且这两个传声器之间的距离不会改变。当声源是人(说话者)时，例如，声信号是诸如说话者的谈话的语音信号。

生成器12对于每个预定频率窗(frequency bin)，计算由获取单元11获取到的多个信道的声信号的相位差，以生成相位差分布。

具体地，生成器12经由快速傅里叶变换(FFT)等等，将获取单元11获取到的两个信道的每个声信号从时域信号转换成频域信号。然后，生成器12根据下面的等式(1)，对于每个信号频率，计算两个信道的相位差φ(ω)，从而生成相位差分布。

φ (ω) = \arg [\frac{X_{1} (ω)}{X_{1} (ω)}] - - - (1)

这里，ω是频率；X₁(ω)是频域中的两个信道中的一个信道的信号；以及X₂(ω)是频域中的两个信道中的另一个信道的信号。计算出的相位差的周期是2π。在本实施例中，相位差的范围被定义为不小于-π并且不大于的范围π。注意，可以定义相位差的不同的范围，例如，不小于0并且不大于2π的范围。

在图2中图解了相位差分布的实例。在本实施例中，对于在不小于1kHz并且不大于8kHz的范围内的每1kHz，定义频率窗。生成器12对于每个预定频率窗，计算两个信道的声信号的相位差，以生成诸如图2中图解的相位差分布。

比较器13将生成器生成的相位差分布与预先对于每个方向生成的模板进行比较，并且对于每个方向按照两者之间的相似性来计算分数。对于计算相似性，例如可以利用两者之间的距离。在本实施例中，比较器13将量化的相位差分布视为图像，并且计算与量化的相位差分布与模板重叠的程度相对应的分数。为此，比较器13具有包含量化器131和分数计算器132的配置。

量化器131量化由生成器12生成的相位差分布。量化的相位差分布q(ω,n)用下面的等式(2)表示：

这里，α是量化系数；以及n是指示对于每个频率窗量化的相位差的值的指数。量化系数α可以按照必要的分辨率被定义。在本实施例中，量化系数α被定义为π/5。在这种情况下，指数n指示以π/5为单位被量化的相位差的值。

在图3中图解了量化的相位差分布的实例。量化器131量化由生成器12生成的相位差分布，以生成诸如图3中图解的量化的相位差分布。

分数计算器132将量化的相位差分布与预先对于每个方向生成的模板进行比较，并且计算两者彼此重叠的频率窗的数目，具体地，相位差分布中的量化的相位差和模板中的量化的相位差一致的频率窗的数目，作为对于与模板相对应的方向的分数。

这里，将描述用于在每个方向上的分数计算的模板。以与量化器131中相同的方法(例如，量化系数是相同的)，通过量化预先使用传声器之间已知的距离计算的每个方向的相位差分布，来预先准备模板。根据下面的等式(3)的计算等式，获得要被用于模板的每个方向的相位差分布φ(ω,θ)。

Φ (ω, θ) = \frac{d}{c} ω \cdot \sin θ - - - (3)

这里，d是构成传声器阵列的两个传声器M1和M2之间的距离；c是声速；以及θ是由计算相位差分布的方向相对于连接两个传声器M1和M2的位置的直线所形成的角度(度)。在下文中，这个角度被称为方向角。在变成方向估计的对象的角度范围之内先准备模板的方向角可以根据必要的角分辨率被定义。

在图4中图解了模板中使用的各个方向的相位差分布的实例。在本实施例中，对于在不小于-90度并且不大于90度的方向角的角度范围之内的每1度，预先准备模板。图4中图解的实例指示，当内传声器距离d是0.2m时，对于在不小于-90度并且不大于90度的角度范围之内的每1度计算的相位差分布。这里，为了方便起见，只列出有-60度、30度和90度的方向角θ的相位差分布，即，在这些方向角θ上的各个频率窗的相位差的值(不小于-π并且不大于π的值)。

如上计算的各个方向的相位差分布以与量化器131中相同的方法被量化，并且作为各个方向的模板，被存储在存储器14中，存储器被安置在声源方向估计设备之内或之外。通过量化每个方向的相位差分布所准备的模板Q(ω，θ，n)由下面的等式(4)表示。

注意，量化系数α被定义为与量化器131中定义的量化系数α相同的值。在本实施例中，量化系数α被定义为π/5。

在图5A到5C中图解了通过量化图4中图解的各个方向的相位差分布所生成的模板的实例。图5A指示与具有-60度的方向角θ的方向相对应的模板的实例。图5B指示与具有30度的方向角θ的方向相对应的模板的实例。图5C指示与具有90度的方向角θ的方向相对应的模板的实例。

这里，在本实施例中，各个方向的量化的相位差分布作为模板被存储在存储器14中，如图5A到5C中图解的。但是，本发明不局限于此。例如，如图4中图解的，各个方向的相位差分布可以作为模板被存储在存储器14。然后，当由生成器12生成的相位差分布通过量化器131被量化时，作为模板被存储在存储器14中的各个方向的相位差分布也可以通过量化器131被量化。

分数计算器132重复一个接一个地顺序地读取被存储在存储器14中的每个方向的模板、以将量化器131所量化的相位差分布与从存储器14中被读取到的模板进行比较的处理。因此，计算每个方向的分数。具体地，分数计算器132计算量化器131量化的相位差分布中的相位差和要被比较的模板中的相位差一致的频率窗的数目，作为与模板相对应的方向(方向角θ)上的分数。每个方向的分数ν(θ)通过下面的等式(5)的计算等式被计算。

\begin{matrix} v (θ) = \underset{ω}{Σ} q (ω, n), & ifQ (ω, θ, n) = 1 \end{matrix} - - - (5)

在本实施例中，通过将相等的部分分数给予量化的相位差分布与模板一致的频率窗、并且累积这些部分分数，来计算每个方向的分数ν(θ)。图6中图解了通过将图3中图解的量化的相位差分布与图5A到5C中图解的模板进行比较所计算出的各个方向的分数的实例。图6指示通过以方向角的次序排列各个方向的分数并且插入被排列的分数所获得的波形(在下文中，被称为分数波形)。在具有-60度的方向角的方向上的分数是1(ν(-60)＝1)；在具有30度的方向角的方向上的分数是5(ν(30)＝5)；以及在具有90度的方向角的方向上的分数是1(ν(90)＝1)。

估计器15估计声源的方向是在生成器12生成的相位差分布和模板之间具有高相似性的方向，也就是说，分数计算器132计算出的分数高的方向。估计器15估计出的声源的方向由下面的等式(6)表示。

\hat{θ} = \arg \max_{θ} v (θ) - - - (6)

输出单元16外部地输出由估计器15估计出的声源的方向。

图7是图解通过根据第一实施例的声源方向估计设备的处理过程的实例的流程图。在下文中，将沿着图7的流程图来描述根据第一实施例的声源方向估计设备的操作概要。

当图7中图解的处理开始时，获取单元11获取形成两个传声器M1和M2的两个信道的声信号(步骤S101)。

接下来，生成器12对于每个频率窗，计算在步骤S101中获取到的两个信道的声信号的相位差，以生成相位差分布(步骤S102)。

接下来，量化器131量化在步骤S102中生成的相位差分布，以生成量化的相位差分布(步骤S103)。

接下来，分数计算器132从存储器14中读取要被比较的一个模板(步骤S104)。然后，分数计算器132将在步骤S103中生成的量化的相位差分布与在步骤S104中从存储器14中读取到的模板进行比较，并且计算量化的相位差一致的频率窗的数目，作为与模板相对应的方向上的分数(步骤S105)。

此后，分数计算器132判定是否已经对于被存储在存储器14中的要被比较的所有的模板进行步骤S105的处理(步骤S106)。当有模板还没有被比较时(步骤S106：否)，过程返回到步骤S104，以重复该处理。

另一方面，当已经对于被存储在存储器中的要被比较的所有的模板进行步骤S105的处理时(步骤S106：是)，估计器15估计声源的方向是在步骤S105中计算出的分数之中获得最高分数的方向(步骤S107)。然后，输出单元16将步骤S107中估计出的声源的方向输出到声源方向估计设备之外(步骤S108)，并且终止一系列处理。

如上所述，通过参考具体的实例，根据本实施例的声源方向估计设备将从多个传声器M1和M2获取到的多个信道的声信号的相位差分布与预先对于每个方向准备的模板进行比较。然后，声源方向估计设备对于每个方向，按照两者之间的相似性来计算分数，并且基于该分数来估计声源的方向。因此，根据本实施例的声源方向估计设备，能够以低的计算量来进行使用相位差分布的声源方向的估计。因此，即使当用于计算的硬件资源具有低的规格时，也能够实时地进行声源方向的精确估计。

特别地，根据本实施例的声源方向估计设备量化多个信道的声信号的相位差分布，并且将量化的相位差分布与每个方向的模板进行比较。然后，声源方向估计设备计算量化的相位差一致的频率窗的数目，作为与要被比较的模板相对应的方向上的分数。为此，分数计算所需的计算量非常低。

第二实施例

接下来，将描述第二实施例。在上述的第一实施例中，通过将相等的部分分数给予量化的相位差分布与模板一致的频率窗，并且累积这些部分分数，来计算每个方向的分数。但是，传声器M1和M2的性能、噪声、混响等等有时导致在相位差分布中生成异常值。这个异常值可以对声源方向的估计具有不利影响。为了解决这个顾虑，在本实施例中，对于每个频率窗，设定附加分数，以便计算对于量化的相位差分布与模板一致的各个频率窗所设定的附加分数的总和，作为与要被比较的模板相对应的方向上的分数。因而，抑制了异常值的影响。

在下文中，将在适当地省略通过在附图中赋予相同的参考数字而与第一实施例中的构成部分所共有的构成部分的重复描述的同时，描述本实施例的部分特征。

图8是图解根据第二实施例的声源方向估计设备的功能配置实例的框图。如图8中图解的，根据本实施例的声源方向估计设备包含比较器21，代替根据第一实施例的比较器13。除了那点之外，配置与第一实施例中的配置相似。比较器21包含与第一实施例中的量化器相似的量化器131、设定单元211和分数计算器212。

设定单元211基于获取单元11获取到的两个信道的声信号，为生成器12计算相位差的每个频率窗设定附加分数。附加分数被设定成，当频率窗中的相位差是异常值的可能性较低时，附加分数的值较高。

具体地，例如，与每个频率窗中的声信号的对数幂(log power)的大小相对应的值，诸如对数幂本身的值，或者与对数幂的值成比例的值，可以被设定为每个频率窗的附加分数。替代地，与每个频率窗中的声信号的信号/噪声比(S/N比)的大小相对应的值，诸如S/N比本身的值，或者与S/N比成比例的值，可以被设定为每个频率窗的附加分数。

与根据第一实施例的分数计算器132相似的分数计算器212，重复一个接一个地顺序地读取被存储在存储器14中的每个方向的模板、以将量化器131量化的相位差分布与从存储器14中被读取到的模板进行比较的处理。因此，计算每个方向的分数。但是，根据本实施例的分数计算器212计算由设定单元211对于量化器131所量化的相位差分布中的相位差和要被比较的模板中的相位差一致的各个频率窗所设定的附加分数的总和，作为与模板相对应的方向上的分数。

图9是图解通过根据第二实施例的声源方向估计设备的处理过程的实例的流程图。在下文中，将沿着图9的流程图来描述根据第二实施例的声源方向估计设备的操作概要。

因为图9中的从步骤S201到步骤S203的处理与图7中图解的从步骤S101到步骤S103的处理相似，所以将省略其描述。

在本实施例中，在步骤S203中生成量化的相位差分布之后，设定单元211基于步骤S201中获取到的声信号，对于各个频率窗设定附加分数(步骤S204)。注意，步骤S204的这个处理可以在步骤S202和步骤S203的处理之前进行，或者与步骤S202和步骤S203的处理并行进行。

接下来，分数计算器212从存储器14中读取要被比较的一个模板(步骤S205)。然后，分数计算器132将在步骤S203中生成的量化的相位差分布与在步骤S205中从存储器14中读取到的模板进行比较，并且计算在步骤S204中对于量化的相位差一致的频率窗所设定的附加分数的总和，作为对于与模板相对应的方向的分数(步骤S206)。

因为图9中的从步骤S207到步骤S209的处理与图7中图解的从步骤S106到步骤S108的处理相似，所以将省略其描述。

如上所述，根据本实施例的声源方向估计设备基于从传声器M1和M2获取到的声信号，对于各个频率窗设定附加分数，并且计算对于量化的相位差分布与模板一致的各个频率窗所设定的附加分数的总和，作为与要被比较的模板相对应的方向上的分数。因此，根据本实施例的声源方向估计设备，能够有效地抑制相位差分布中的异常值的影响。因而，能够比第一实施例更精确地进行声源方向的估计。

第三实施例

接下来，将描述第三实施例。在上述的第一实施例中，被存储在存储器14中的各个方向的所有的模板被顺序地读取作为量化的相位差分布的比较对象，用于进行处理。但是，当用户请求的角分辨率相对于已经预先准备模板的方向的角分辨率较低时，不必使用所有的模板作为比较对象来进行处理。因此，在本实施例中，为了进一步地减少计算量，接受用户对角分辨率的指定，并且以与指定的角分辨率相对应的数目来选择模板，用于进行处理。

在下文中，将在适当地省略通过在附图中赋予相同的参考数字而与第一实施例中的构成部分所共有的构成部分的重复描述的同时，描述本实施例的部分特征。注意，虽然下面将描述以与第一实施例中相似的方法来进行分数计算的实例，但是可以以与第二实施例中相似的方法来进行分数计算。

图10是图解根据第三实施例的声源方向估计设备的功能配置实例的框图。如图10中图解的，根据本实施例的声源方向估计设备除了第一实施例中的配置之外，还包含分辨率指定接受器31。此外，根据本实施例的声源方向估计设备包含比较器32，代替根据第一实施例的比较器13。除了那点之外，配置与第一实施例中的配置相似。比较器32包含与第一实施例中的量化器相似的量化器131和分数计算器321。

分辨率指定接受器31接受用户对角分辨率的指定。角分辨率表示声源的方向被估计的细度。角分辨率可以被指定有数值，或者可以以例如5度、10度、15度等等的方式从预定的角分辨率中选择出来。

分数计算器321在被存储在存储器14中的各个方向的模板之中，选择与用户指定的角分辨率相对应的数目的模板，作为由量化器131量化的相位差分布的比较对象。例如，在用户指定的角分辨率是10度的情况下，当每1度的方向角的模板被存储在存储器14中时，分数计算器321从被存储在存储器14中的模板中，选择方向角中的每10度的模板，即1/10数目的模板，作为比较对象。

然后，分数计算器321重复从存储器14中一个接一个地顺序地读取被选择作为比较对象的模板、以将量化器131量化的相位差分布与从存储器14中被读取到的模板进行比较的处理。从而，计算与用户指定的角分辨率相对应的每个方向的分数。注意，分数计算的方法与根据第一实施例的分数计算器132中的分数计算的方法相似。

图11是图解通过根据第三实施例的声源方向估计设备的处理过程的实例的流程图。在下文中，将沿着图11的流程图来描述根据第三实施例的声源方向估计设备的操作概要。

因为图11中的从步骤S301到步骤S303的处理与图7中图解的从步骤S101到步骤S103的处理相似，所以将省略其描述。

在本实施例中，在步骤S303中的生成量化的相位差分布之后，分辨率指定接受器31接受用户对角分辨率的指定(步骤S304)。注意，步骤S304的这个处理可以在步骤S301到步骤S303中的任何步骤的处理之前进行，或者与步骤S301到步骤S303中的任何步骤的处理平行进行。

接下来，分数计算器321按照步骤S304中指定的角分辨率，在被存储在存储器14中的各个方向的模板之中，选择要被比较的模板(步骤S305)。然后，分数计算器321从存储器14中读取步骤S305中选择出的一个模板(步骤S306)，并且将在步骤S303中生成的量化的相位差分布与在步骤S306中从存储器14中读取到的模板进行比较，以计算量化的相位差一致的频率窗的数目，作为对于与模板相对应的方向的分数(步骤S307)。

此后，分数计算器321判定是否已经对在S305中被选择作为比较对象的所有的模板进行步骤S307的处理(步骤S308)。当有模板还没有被比较时(步骤S308：否)，分数计算器321返回到步骤S306，以重复该处理。

另一方面，当已经对于在步骤S305中被选择作为比较对象的所有的模板进行步骤S307的处理时(步骤S308：是)，估计器15估计声源的方向是在步骤S307中计算出的分数之中获得最高分数的方向(步骤S309)。然后，输出单元16将步骤S309中估计出的声源的方向输出到声源方向估计设备外(步骤S310)，并且终止一系列处理。

如上所述，根据本实施例的声源方向估计设备按照用户指定的角分辨率来选择要被比较的模板，并且将量化的相位差分布与每个选择出的模板进行比较，以计算与指定的角分辨率相对应的每个方向的分数。因此，根据本实施例的声源方向估计设备，与第一实施例中的相比，声源方向的估计所需的计算量能够被进一步地减少。

第四实施例

接下来，将描述第四实施例。在上述的第一实施例中，基于声源的数目在估计器15估计声源的方向时为一个的假定，声源的方向被估计为在比较器13中的处理中获得最高分数的方向。但是，在实际的感测中，有时同时从多个声源发出声音。为了解决这个顾虑，第四实施例被配置成，接受用户对声源的数目的指定，以估计指定数目的声源的方向。

在下文中，将在适当地省略通过在附图中赋予相同的参考数字而与第一实施例中的构成部分所共有的构成部分的重复描述的同时，描述本实施例的部分特征。注意，虽然下面将描述以与第一实施例中相似的方法来进行分数计算的实例，但是可以以与第二实施例或者第三实施例中相似的方法来进行分数计算。

图12是图解根据第四实施例的声源方向估计设备的功能配置实例的框图。如图12中图解的，根据本实施例的声源方向估计设备除了第一实施例中的配置之外，还包含声源数目指定接受器41。此外，根据本实施例的声源方向估计设备包含估计器42，代替根据第一实施例的估计器15。除了那点之外，配置与第一实施例中的配置相似。

声源数目指定接受器41接受用户对声源的数目的指定。已经被声源数目指定接受器41所接受的用户指定的声源的数目被传送到估计器42。

估计器42通过以方向角的次序排列由比较器13的分数计算器132计算出的各个方向的分数、并且插入被排列的分数，来生成波形，并且检测这个分数波形的局部最大值。然后，估计器42在从分数波形中检测到的局部最大值之中，以分数递减的次序选择数目与用户指定的声源的数目相等的局部最大值，并且估计声源的方向是与选择出的局部最大值相对应的方向。

图13是图解由估计器42生成的分数波形的实例的图。在图13中图解的分数波形中，局部最大值存在于-60度、-30度和60度的方向角的位置。这里，当用户指定的声源的数目是两个时，估计器42在这三个局部最大值之中，以分数递减的次序选择两个局部最大值，即，在60度的方向角的位置处的局部最大值和在-30度的方向角的位置处的局部最大值。然后，估计器42估计声源的方向是与这两个选择出的局部最大值相对应的方向，即，具有60度的方向角的方向和具有-30度的方向角的方向。

图14是图解通过根据第四实施例的声源方向估计设备的处理过程的实例的流程图。在下文中，将沿着图14的流程图来描述根据第四实施例的声源方向估计设备的操作概要。

因为从图14中的步骤S401到步骤S403的处理与从图7中图解的步骤S101到步骤S103的处理相似，所以将省略其描述。

在本实施例中，在步骤S403中生成量化的相位差分布之后，声源数目指定接受器41接受用户对声源的数目的指定(步骤S404)。注意，步骤S404的这个处理可以在步骤S401到步骤S403中的任何步骤的处理之前被进行，或者平行于步骤S401到步骤S403中的任何步骤的处理被进行。同样，步骤S404的这个处理可以在随后描述的步骤S405到步骤S408中的任何步骤的处理之后被进行，或者平行于随后描述的步骤S405到步骤S408中的任何步骤的处理被进行，只要步骤S404的处理在随后描述的步骤S409的处理之前被进行。

因为从图14中的步骤S405到步骤S407的处理与从图7中图解的步骤S104到步骤S106的处理相似，所以将省略其描述。

在本实施例中，当在步骤S407中判定已经对于被存储在存储器14中的作为比较对象的所有的模板进行步骤S406的处理时(步骤S407：是)，估计器42通过以方向角的次序排列在步骤S406中计算出的分数、并且插入被排列的分数来生成分数波形，并且检测分数波形的局部最大值(步骤S408)。然后，估计器42在检测到的局部最大值之中，选择数目等于步骤S404中指定的声源的数目的局部最大值，并且估计声源的方向是与选择出的局部最大值相对应的方向(步骤S409)。然后，输出单元16将步骤S409中估计出的声源的方向输出到声源方向估计设备之外(步骤S410)，并且终止一系列处理。

如上所述，根据本实施例的声源方向估计设备从各个方向的分数生成分数波形，以检测局部最大值，并且在检测到的局部最大值之中，以分数递减的次序选择数目等于用户指定的声源的数目的局部最大值，并且估计声源的方向是与选择出的局部最大值相对应的方向。因此，根据本实施例的声源方向估计设备，即使当从多个声源同时发出声音时，也能够以小的计算量精确地估计这些声源的方向。

第五实施例

接下来，将描述第五实施例。第五实施例是如上述的第四实施例中的估计声源的多个方向，但是在不接受来自用户的声源的数目的指定的情况下，估计声源的多个方向。

图15是图解根据第五实施例的声源方向估计设备的功能配置实例的框图。如图15中图解的，根据本实施例的声源方向估计设备包含估计器51，代替根据第一实施例的估计器15。除了那点之外，配置与第一实施例中的配置相似。

与根据第四实施例的估计器42相似地，估计器51通过以方向角的次序排列由比较器13的分数计算器132计算出的各个方向的分数，并且插入被排列的分数，来生成波形，并且检测这个分数波形的局部最大值。但是，根据本实施例的估计器51在从分数波形中检测到的局部最大值之中，选择具有数目等于或者高于预定阈值的局部最大值，并且估计声源的方向是与选择出的局部最大值相对应的方向。

图16是图解由估计器51生成的分数波形的实例的图。在图16中图解的分数波形中，局部最大值存在于-60度、-30度和60度的方向角的位置。这里，当3被设定为分数的阈值时，估计器51在这三个局部最大值之中，选择具有3以上的分数的局部最大值，即，在60度的方向角的位置处的局部最大值和在-30度的方向角的位置处的局部最大值。然后，估计器51估计声源的方向是与这两个选择出的局部最大值相对应的方向，即，具有60度的方向角的方向和具有-30度的方向角的方向。

图17是图解通过根据第五实施例的声源方向估计设备的处理过程的实例的流程图。在下文中，将沿着图17的流程图来描述根据第五实施例的声源方向估计设备的操作概要。

因为从图17中的步骤S501到步骤S506的处理与从图7中图解的步骤S101到步骤S106的处理相似，所以将省略其描述。

在本实施例中，当在步骤S506中判定已经对于被存储在存储器14中的作为比较对象的所有的模板进行步骤S505的处理时(步骤S506：是)，估计器51通过以方向角的次序排列在步骤S505中计算出的分数、并且插入被排列的分数来生成分数波形，并且检测分数波形的局部最大值(步骤S507)。然后，估计器42在检测到的局部最大值之中，选择具有等于或者高于预定阈值的分数的局部最大值，并且估计声源的方向是与选择出的局部最大值相对应的方向(步骤S508)。然后，输出单元16将步骤S508中估计出的声源的方向输出到声源方向估计设备外(步骤S509)，并且终止一系列处理。

如上所述，根据本实施例的声源方向估计设备从各个方向的分数中生成分数波形，以检测局部最大值，并且在检测到的局部最大值之中，选择具有等于或者高于阈值的分数的局部最大值，并且估计声源的方向是与选择出的局部最大值相对应的方向。因此，根据本实施例的声源方向估计设备，即使当从多个声源同时发出声音时，也能够以小的计算量精确地估计这些声源的方向。

变形例

接下来，将描述上述实施例的变形例。在上述实施例中，从两个传声器M1和M2获取两个信道的声信号，以生成相位差分布。在这个实例中，当各个声源存在于相对于连接两个传声器M1和M2的位置的线对称的位置处时，从各个声源的声信号生成的相位差分布一致。因此，不可能区分声源的方向。例如，在图18中图解的实例中，从60度的方向角的位置处的声源SS1的声信号生成的相位差分布与从120度的方向角的位置处的声源SS2的声信号生成的相位差分布相同。因此，不可能唯一地判定声源的方向是60度还是120度。为此，在上述实施例中，用于估计声源的方向的角度范围被局限于不小于-90度并且不大于90度。

但是，通过增加用于获取声信号的传声器的数目，用于估计声源的方向的角度范围能够被扩展。在下文中，将描述有变形例，在该变形例中，使用三个传声器获取三个信道的声信号，以累积从这三个信道中的两个信道的声信号获得的分数，因此在360度的角度范围(在相同平面上的全方向)之内估计声源方向。

在图19中图解了在本变形例中的传声器的布置的实例。在本变形例中，假设三个传声器M1、M2和M3以图19中图解的位置关系被排列。同样，假定声源SS被定位成在60度的方向角的方向上。

首先，通过对于从两个传声器M1和M2获取到的两个信道的声信号进行与第一实施例中相似的处理，能够在不小于-90度并且不大于90度的角度范围之内，获得有各个方向的分数(与图6中相似的分数波形)。在本变形例中，考虑到传声器M1和传声器M2的布置，以这种方式获得的分数被转换成在-180度到180度的角度范围之内的分数(全方向分数)。在这种情况下，因为两个方向候选存在于相对于连接传声器M1和传声器M2的线对称的位置，所以获得的全方向分数包含图20中的(a)中图解的第一候选分数和图20中的(b)中图解的第二候选分数。

相似地，考虑到传声器M2和传声器M3的布置，通过对于从两个传声器M2和M3获取到的两个信道的声信号进行与第一实施例中相似的处理所获得的分数，被转换成的全方向分数，以便获得图21中的(a)中图解的第一候选分数和图21中的(b)中图解的第二候选分数。相似地，考虑到传声器M3和传声器M1的布置，通过对于从两个传声器M3和M1获取到的两个信道的声信号进行与第一实施例中相似的处理所获得的分数，被转换成全方向分数，以便获得图22中的(a)中图解的第一候选分数和图22中的(b)中图解的第二候选分数。

最后，通过累积从任何两个信道的声信号获得的全方向分数，生成图23中图解的合并分数。从任何两个信道的声信号获得的全方向分数包含两个候选，诸如如上所述的第一候选分数和第二候选分数。但是，声源SS实际存在的方向上的分数在两个信道的所有的组合中是相同的。为此，通过累积从任何两个信道的声信号的获得的全方向分数，能够获得有在声源SS存在的方向上的分数高的合并分数，如图23中图解的。在图23中图解的实例中，因为在60度的方向角的方向上的分数最高，所以声源SS的方向能够被估计为60度。

这里，在上述描述中，从三个传声器M1、M2和M3获取到的三个信道的声信号被用于全方向地估计在相同平面上的声源方向。但是，当从四个以上的传声器获取到的四个以上的信道的声信号被使用时，基于相似的原理，不仅能够在相同的平面上进行估计，而且还能够在空间方向上进行估计。同样，通过增加用于获取声信号的传声器的数目，从而增加用于生成相位差分布的声信号的组合的数目，并且累积分数，能够减少异常值的影响，以提高声源方向的估计精确度。

根据上述实施例的声源方向估计设备能够通过例如使用通用计算机装置作为基本硬件来被实现。即，根据实施例的声源方向估计设备能够通过使得安装在通用计算机装置中的处理器执行程序来被实现。这里，可以通过预先在计算机装置中安装上述程序来实现声源方向估计设备，或者可以通过将程序存储在诸如CD-ROM的存储介质中或者经由网络分布上述程序，以适当地在计算机装置中安装这个程序来实现声源方向估计设备。同样，可以通过在服务器计算机装置上执行上述程序，并且允许其结果经由网络被客户端计算机所接收，来实现声源方向估计设备。

同样，能够通过适当地利用内置在上述计算机装置中的或者被外部附接到上述计算机装置的存储器和硬盘，或者可以被提供作为计算机程序产品的诸如CD-R、CD-RW、DVD-RAM和DVD-R的存储介质，来存储要在根据上述实施例的声源方向估计设备中使用的各种信息。例如，能够通过适当地利用存储介质，来存储要被根据上述实施例的声源方向估计设备所使用的模板。

要在根据实施例的声源方向估计设备中被执行的程序具有模块结构，该模块结构包含构成声源方向估计设备的处理单元(获取单元11、生成器12、比较器13(比较器21和32)、估计器15(估计器42和51)、和输出单元16)。作为实际的硬件，例如，处理器从上述存储介质读取程序，并且执行读取出的程序，以在主存储器上加载并且生成上述处理单元。根据本实施例的声源方向估计设备还能够通过利用诸如ASIC(专用集成电路)和FPGA(现场可编程门阵列)的专用硬件来实现上述处理单元的一部分或者全部。

根据上述至少一个实施例声源方向估计设备，该设备包含获取单元、生成器、比较器和估计器。获取单元被配置成从多个传声器获取多个信道的声信号。生成器被配置成对于每个预定频率窗，计算多个信道的声信号的相位差，以生成相位差分布。比较器被配置成将相位差分布与预先对于每个方向生成的模板进行比较，并且按照相位差分布和每个方向的模板之间的相似性来计算分数。估计器被配置成基于分数来估计声源的方向。因此，能够以低的计算量来估计使用相位差分布的声源方向。

虽然已经描述了某些实施例，但是这些实施例仅仅通过实例的方式被呈现，而不意欲限制本发明的范围。实际上，此处描述的新颖的实施例可以以各种其他的形式被具体化；此外，在不背离本发明的精神的情况下，可以以此处描述的实施例的形式进行各种省略、替换和变化。附有的权利要求书和它们的同等物意欲覆盖将属于本发明的范围和精神的这种形式或者修改。

Claims

1.一种声源方向估计设备，其特征在于，包括：

获取单元，所述获取单元被配置成从多个传声器获取多个信道的声信号；

生成器，所述生成器被配置成对于每个预定频率窗，计算所述多个信道的所述声信号的相位差，以生成相位差分布；

比较器，所述比较器被配置成将所述相位差分布与预先对于每个方向生成的模板进行比较，并且按照所述相位差分布和每个方向的所述模板之间的相似性来计算分数；以及

估计器，所述估计器被配置成基于计算出的所述分数来估计声源的方向。

2.如权利要求1所述的设备，其特征在于，

所述比较器被配置成计算每个分数，以致当所述相位差分布和所述模板之间的所述相似性较高时，与所述模板相对应的方向的所述每个分数变得较高，以及

所述估计器被配置成估计声源的所述方向是所述分数高的方向。

3.如权利要求2所述的设备，其特征在于，

所述比较器包含

量化器，所述量化器被配置成对所述相位差分布进行量化；以及

分数计算器，所述分数计算器被配置成将所述量化的相位差分布与通过对预先对于每个方向计算出的相位差分布进行所述量化所获得的所述模板进行比较，并且计算所述相位差分布中的所述量化的相位差和所述模板中的所述量化的相位差一致的频率窗的数目，作为所述分数。

4.如权利要求2所述的设备，其特征在于，

所述比较器包含

量化器，所述量化器被配置成对所述相位差分布进行量化；

设定单元，所述设定单元被配置成基于所述声信号对于每个频率窗设定附加分数；以及

分数计算器，所述分数计算器被配置成将所述量化的相位差分布与通过对预先对于每个方向计算出的相位差分布进行所述量化所获得的所述模板进行比较，并且计算对于所述相位差分布中的所述量化的相位差和所述模板中的所述量化的相位差一致的各个频率窗所设定的所述附加分数的总和，作为所述分数。

5.如权利要求4所述的设备，其特征在于，所述设定单元被配置成按照每个频率窗中的声信号的对数幂的大小来设定附加分数。

6.如权利要求4所述的设备，其特征在于，所述设定单元被配置成按照每个频率窗中的声信号的信号/噪声比的大小来设定所述附加分数。

7.如权利要求2到6中任一项所述的设备，其特征在于，所述估计器被配置成生成具有以方向角的次序排列的所述分数的分数波形，检测所述分数波形的局部最大值，在检测到的所述局部最大值之中，以所述分数递减的次序选择指定数目的局部最大值，并且估计声源的所述方向是与各个选择出的局部最大值相对应的方向。

8.如权利要求2到6中任一项所述的设备，其特征在于，所述估计器被配置成生成具有以方向角的次序排列的所述分数的分数波形，检测所述分数波形的局部最大值，在检测到的所述局部最大值之中，选择各自具有高于预定阈值的所述分数的局部最大值，并且估计声源的所述方向是与各个选择出的局部最大值相对应的方向。.

9.如权利要求1到6中任一项所述的设备，其特征在于，所述比较器被配置成在预先对于各个方向生成的所述模板之中，按照指定的角分辨率，选择多个模板，将所述相位差分布与每个选择出的模板进行比较，并且计算与所述指定的角分辨率相对应的各个方向的所述分数。

10.一种在声源方向估计设备中执行的声源方向估计方法，其特征在于，所述方法包括：

从多个传声器获取多个信道的声信号；

对于每个预定频率窗，计算所述多个信道的所述声信号的相位差，以生成相位差分布；

将所述相位差分布与预先对于每个方向生成的模板进行比较；

按照所述相位差分布和每个方向的所述模板之间的相似性，计算分数；以及

基于计算出的所述分数，估计声源的方向。