CN102750952A

CN102750952A - 声音信号处理装置、方法和程序

Info

Publication number: CN102750952A
Application number: CN2012101105853A
Authority: CN
Inventors: 广江厚夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-04-18
Filing date: 2012-04-16
Publication date: 2012-10-24
Also published as: JP2012234150A; US20120263315A1; US9318124B2

Abstract

提供了一种声音信号处理装置，其中：观测信号分析单元接收由声音信号输入单元获取的多通道的声音信号并估计待提取的目标声音的声音方向和声音片段；以及声源提取单元接收目标声音的声音方向和声音片段并提取目标声音的声音信号。通过把短时傅立叶变换应用于进入的多通道声音信号，这种装置产生时频域中的观测信号并检测目标声音的声音方向和声音片段。另外，基于目标声音的声音方向和声音片段，这种装置产生对应于表示在时间方向上目标声音音量的变化的时间包络的参考信号，并通过使用该参考信号提取目标声音的信号。

Description

声音信号处理装置、方法和程序

背景技术

本发明涉及一种声音信号处理装置、方法和程序。更具体地讲，本发明涉及一种用于执行声源提取处理的声音信号处理装置、方法和程序。

声源提取处理用于利用一个或多个麦克风从待观测的多个信号(其中多个源信号被混合，以下，称为“观测信号”或者“混合信号”)中提取一个目标源信号。以下，目标源信号(也就是说，希望提取的信号)称为“目标声音”并且其它源信号称为“干扰声音”。

将要由声音信号处理装置解决的问题之一在于：如果目标声音的声源方向和片段在存在多个声源的环境中在某种程度上已知，则准确地提取目标声音。

换句话说，通过使用声源方向和片段的信息，通过从目标声音和干扰声音混合的观测信号中去除干扰声音而仅留下目标声音。

这里所称的声源方向是指从麦克风观察的到达方向(DOA)，并且片段是指一对声音开始时间(开始有效)和声音结束时间(结束有效)以及在时间的流逝中包括的信号。

例如，存在下面常规技术，它们公开了用于估计多个声源的方向并检测多个声源的片段的处理。

(常规方案1)使用图像(特别地，脸的位置和嘴唇的移动)的方案

这种方案公开于例如专利文件1(日本专利申请提前公开No.10-51889)中。具体地讲，通过这种方案，脸所在的方向被判断为声源方向，并且嘴唇移动期间的片段被视为发声片段。

(常规方案2)基于容纳多个声源的估计的声源方向检测语音片段

这种方案公开于例如专利文件2(日本专利申请提前公开No.2010-121975)中。具体地讲，通过这种方案，观测信号被细分为块(每个块具有预定长度)以针对每个块估计多个声源的方向。接下来，跟踪声源的方向以在每个块中沿较近的方向把它们互相连接起来。

下面将描述以上问题，即“如果目标声音的声源方向和片段在存在多个声源的环境中在某种程度上已知，则准确地提取目标声音”。

将按照下面各项的次序描述这个问题：

A.问题的细节

B.应用常规技术的问题解决处理的特定例子

C.常规技术的问题

[A.问题的细节]

将参照图1详细描述本发明的技术问题。

假设在环境中存在多个声源(信号产生源)。声源之一是产生目标声音的“目标声音的声源11”并且其它声源是产生干扰声音的“干扰声音的声源14”。

假设目标声源11的数量是一个并且干扰声音的声源数量是至少一个。虽然图1显示一个“干扰声音的声源14”，但可存在任何其它干扰声音。

假设目标声音的到达方向已知并由变量θ表示。在图1中，声源方向θ由标号12表示。可任意设置参考方向(表示方向＝0的线)。在图1中，它被设置为参考方向13。

如果目标声音的声源11的声源方向是通过使用例如以上方案(即，下面的任何一个方案)估计的值：

(常规方案1)使用图像(特别地，脸的位置和嘴唇的移动)和

(常规方案2)基于容纳多个声源的估计的声源方向检测语音片段，则存在这样的可能性，即θ可能包含误差。例如，即使θ＝π/6弧度(＝30°)，也存在这样的可能性，即真实声源方向可能是不同的值(例如，35°)。

虽然干扰声音的方向到现在为止是未知的，但即使它是已知的，也假设它包含误差。这也适用于片段。例如，甚至在干扰声音有效的环境中，也存在这样的可能性，即仅它的部分片段可能被检测到或者它的片段可能被检测到。

如图1中所示，准备n个麦克风。它们是分别由标号15至17表示的麦克风1至n。另外，麦克风之间的相对位置是已知的。

接下来，将参照下面的方程(1.1至1.3)描述在声源提取处理中使用的变量。

在说明书中，A_b表示为A设置下标后缀b的表达式，A^b表示为A设置上标后缀b的表达式。

X (ω, t) = [\begin{matrix} X_{1} (ω, t) \\ . \\ . \\ . \\ X_{n} (ω, t) \end{matrix}] \cdot \cdot \cdot [1.1]

Y(ω，t)＝W(ω)X(ω，t)......[1.2]

W(ω)＝[W₁(ω)，…，W_n(ω)]......[1.3]

假设x_k(τ)是利用第k个麦克风观测到的信号，其中τ是时间。

通过对信号执行短时傅立叶变换(STFT)(将在稍后详述)，获得时频域中的观测信号Xk(ω，t)，其中

ω是频率窗口编号，

t是帧编号。

假设X(ω，t)是作为各个麦克风的观测信号的X_1(ω，t)至X_n(ω，t)的列向量(方程[1.1])。

通过根据本公开提取声源，基本上，通过把观测信号X(ω，t)乘以提取滤波器W(ω)获得提取结果Y(ω，t)(方程[1.2])，其中提取滤波器W(ω)是包括n个元素的行向量并表示为方程[1.3]。

基本上，基于用于计算提取滤波器W(ω)的方法的差异，能够对用于提取声源的各种方案分类。

[B.应用常规技术的问题解决处理的特定例子]

用于实现从多个声源的混合信号提取目标声音的处理的方案大体上分为下面两种方案：

B1.声源提取方案，和

B2.声源分离方案。

下面将描述应用这些方案的常规技术。

(B1.声源提取方案)

作为通过使用已知声源方向和片段提取声源的声源提取方案，下面的方案是已知的，例如：

B1-1：延迟求和阵列；

B1-2：最小方差波束形成器；

B1-3：最大SNR波束形成器；

B1-4：基于目标声音去除和减法的方案；和

B1-5：基于相差的时频掩蔽。

这些方案全都使用麦克风阵列(在麦克风阵列中，多个麦克风布置在不同位置)。对于它们的细节，参见专利文件3(日本专利申请提前公开No.2006-72163)。

下面将概述这些方案。

(B1-1：延迟求和阵列)

如果把不同的时间延迟给予利用不同麦克风观测的信号并且在目标声音的方向上的信号的相位对齐的条件下对这些观测信号求和，则因为对齐的相位而导致目标声音被增强，以及来自其它方向的声音因为在相位方面移动而衰减。

具体地讲，令S(ω，θ)是与方向θ对应的导向向量(它是给出关于来自某一方向的声音的麦克风之间的相位的差异的向量并且稍后将对它进行详述)，通过使用下面的方程[2.1]获得提取结果。

Y(ω，t)＝S(ω，θ)^HX(ω，t)......[2.1]

Y(ω，t)＝M(ω，t)X_k(ω，t)......[2.2]

angle (\frac{X_{2} (ω, t)}{X_{1} (ω, t)}) \cdot \cdot \cdot [2.3]

N(ω)＝[S(ω，θ₁)…S(ω，θ_m)]......[2.4]

Z(ω，t)＝N(ω)^#X(ω，t)......[2.5]

在这个方程中，上标“H”表示厄米转置，通过厄米转置，向量或者矩阵被转置并且它的元素变换为共轭复数。

(B1-2：最小方差波束形成器)

通过这种方案，通过形成在目标声音的方向上具有增益1(这意味着既没有增强也没有衰减)并且在干扰声音的方向上具有零波束(这意味着具有较低灵敏度的方向并且也称为零波束)的滤波器，仅提取目标声音。

(B1-3：最大SNR波束形成器)

通过这种方案，获得使作为下面的a)和b)之比的V_s(ω)/V_n(ω)最大化的滤波器W(ω)：

a)V_s(ω)：通过把提取滤波器W(ω)应用于仅目标声音有效的片段获得的结果的方差

b)V_n(ω)：通过把提取滤波器W(ω)应用于仅干扰声音有效的片段获得的结果的方差

通过这种方案，如果能检测到各个片段，则不需要目标声音的方向。

(B1-4：基于目标声音的去除和减法的方案)

一旦形成通过从观测信号去除目标声音获得的信号(目标声音去除信号)，随后从观测信号(或者通过延迟求和阵列等增强了目标声音的信号)中减去该目标声音去除信号，由此仅给出目标声音。

通过作为这些方案之一的Griffith-Jim波束形成器，普通减法用作相减方法。存在另一方案，诸如谱减法等，通过该方案，使用非线性相减。

(B1-5：基于相差的时频掩蔽)

通过频率掩蔽方案，不同的频率乘以不同的系数以掩蔽(抑制)在干扰声音中占主导地位的频率分量，同时留下在目标声音中占主导地位的频率分量，由此提取目标声音。

通过时频掩蔽方案，掩蔽系数不固定，而是随着时间过去而改变，从而令M(ω，t)是掩蔽系数，提取能够由方程[2.2]表示。作为右侧的第二项，可使用通过除X_k(ω，t)之外的任何其它方案获得的提取结果。例如，通过使用延迟求和阵列获得的提取结果(方程[2.1])可乘以掩模M(ω，t)。

通常，声音信号在频率方向上以及在时间方向上都是稀疏的，从而即使目标声音和干扰声音同时变为有效，也存在目标声音在时间方面和在频率方面占主导地位的许多情况。用于找到这种时间和频率的一些方法将会使用麦克风在相位方面的差异。

对于通过使用相差实现的时频掩蔽，参见例如在专利文件4(日本专利申请提前公开No.2010-20294)中描述的“Variant 1.FrequencyMasking”。虽然这个例子将会从通过独立分量分析(ICA)获得的声源方向和相差计算掩蔽系数，但能够应用通过任何其它方案获得的相差。下面将从声源提取的角度描述频率掩蔽。

为了简化，假设使用两个麦克风。也就是说，在图2中，麦克风的数量(n)是二(n＝2)。

如果不存在干扰声音，则麦克风间相差图表和频率图表符合几乎同一直线。例如，如果在图1中仅存在一个目标声音的声源11，则来自声源的声音首先到达麦克风1(由标号15表示)，并且在过去恒定时间之后到达麦克风2(由标号16表示)。

通过比较由这两个麦克风观测的信号：

由麦克风1(由标号15表示)观测的信号：X_1(ω，t)，和

由麦克风2(由标号16表示)观测的信号：X_2(ω，t)，发现X_2(ω，t)在相位方面延迟。

因此，通过使用方程[2.4]计算这二者之间的相差并且标绘相差和频率窗口编号ω之间的关系，能够获得图2中显示的对应关系。

相差点22在直线21上。到达时间的差异取决于声源方向θ，从而直线21的梯度也取决于声源方向θ。Angle(x)是用于如下获得复数x的偏差的角度的函数：

angle(A exp(jα))＝α

如果存在干扰声音，则观测信号的相位受到干扰声音影响，从而相差图表偏离该直线。偏差的大小主要取决于干扰声音的影响。换句话说，如果在某一频率和在某一时间的相差的点存在于直线附近，则干扰声音在这个频率和在这个时间具有小的分量。因此，通过产生并应用留下在这种频率和在这种时间的分量并且同时抑制其它分量的掩模，可以仅留下目标声音的分量。

图3是在存在干扰声音的环境中提供几乎与图2相同的图表的例子。直线31类似于图2中显示的直线21，但具有由于干扰声音的影响而偏离该直线的相差点。例如，点33是它们之一。具有显著偏离直线31的点的频率窗口意味着干扰声音具有大的分量，从而这种频率窗口分量被衰减。例如，计算相差点和直线之间的移位，即图3中显示的移位32，从而这个值越大，方程[2.2]中的M(ω，t)越接近于设置为0，相反地，相差点越接近直线，M(ω，t)越接近于设置为1。

时频掩蔽具有这样的优点：与最小方差波束形成器和ICA相比，它包括更小的计算成本，并且也能够去除非定向干扰声音(环境噪声等、声源方向不清楚的声音)。另一方面，它具有这样的问题：它在频谱中包括不连续部分的发生，因此在恢复到波形时容易发生音乐噪声。

(B2.声源分离方案)

虽然以上描述了常规的声源提取方案，但在一些情况下能够应用多种声源分离方案。也就是说，在通过声源分离方案产生同时变为有效的多个声源之后，通过使用诸如声源方向的信息选择一个目标信号。

下面各项可被列举为声源分离方案。

B2-1.独立分量分析(ICA)

B2-2.零波束形成器

B2-3.几何约束源分离(GSS)

下面将概述这些方案。

(B2-1.独立分量分析：ICA)

获得分离矩阵W(ω)，从而作为应用W(ω)的结果的Y(ω)的每个分量可以在统计上是独立的。对于细节，参见日本专利申请提前公开No.2006-238409。另外，对于从通过使用ICA进行的分离的结果获得声源方向的方法，参见以上专利文件4(日本专利申请提前公开No.2010-20294)。

除了针对产生与麦克风的数量一样多的分离结果的普通ICA方案之外，存在一种用于逐个地提取源信号并在诸如例如磁脑照相术(MEG)的信号的分析中使用的称为紧缩法的方法。然而，如果紧缩法被简单地应用于时频域中的信号，则发生这样的现象：首先提取哪个源信号随频率窗口而变化。因此，在时频信号的提取中不使用紧缩法。

(B2-2.零波束形成器)

产生分别与声源方向对应的导向向量(它们的产生方法在稍后描述)水平地排列的矩阵，以获得它的(伪)逆矩阵，由此把观测信号分离成各个声源。

具体地讲，假设θ_1是目标声音的声源方向并且θ_2至θ_m是干扰声音的声源方向，产生分别与声源方向对应的导向向量水平地排列的矩阵N(ω)(方程[2.4])。通过把N(ω)的伪逆矩阵和观测信号向量X(ω，t)相乘，获得向量Z(ω，t)，向量Z(ω，t)具有分离结果作为它的元素(方程[2.5])。(在该方程中，上标#表示伪逆矩阵。)

由于目标声音的方向是θ_1，所以目标声音是Z(ω，t)中的顶部元素。

另外，N(ω)^#的第一行提供滤波器，在该滤波器中，在除目标声音之外的所有声源的方向上形成零波束。

(B2-3.几何约束源分离(GSS))

通过获得满足下面两个条件的矩阵W(ω)，能够获得比零波束形成器更准确的分离滤波器。

a)W(ω)是N(ω)的(伪)逆矩阵。

b)W(ω)在统计上与应用结果Z(ω，t)不相关。

[常规技术的问题]

接下来，将描述上述常规技术的问题。

虽然以上例子已把目标声音的方向和片段设置为已知，但通常可能未准确地获得它们。也就是说，存在下面的问题。

1)目标声音的方向在一些情况下可能不准确(包含误差)。

2)通常可能无法检测到干扰声音的片段。

例如，根据使用图像的方法，存在这样的可能性：照相机和麦克风阵列之间的未对齐可能导致从脸位置计算的声源方向和相对于麦克风阵列的声源方向之间的不一致。另外，对于不与脸位置相关的声源或者在现场的照相机角度之外的声源，可能无法检测到片段。

根据基于声源方向估计的方案，在方向的准确性和它的计算成本之间存在折衷。例如，如果MUSIC方法用于声源方向估计，则通过减少扫描零波束的角度步骤，准确性提高，但计算成本增加。

MUSIC代表多信号分类(Multiple Signal Classification)。从空间滤波的角度(通过空间滤波，允许在特定方向上的声音通过或者被抑制)，MUSIC方法可被描述为包括下面两个步骤(S1和S2)的处理。对于MUSIC方法的细节，参见专利文件5(日本专利申请提前公开No.2008-175733)等。

(S1)产生空间滤波器，零波束指向在某个片段(块)中有效的所有声源，

(S2)扫描滤波器的方向性模式(方向和增益之间的关系)，以获得零波束出现的方向。

对于提取而言最佳的声源方向随着频率窗口而变化。因此，如果从所有频率仅获得一个声源方向，则在最佳值和一些频率窗口之间发生失配。

如果目标声音方向不准确或者可能以这种方式无法检测干扰声音，则一些常规方法可能在提取(或者分离)的准确性方面恶化。

在使用声源提取作为任何其它处理(语音识别或者记录)的先前处理的情况下，应该优选地满足下面的要求：

低延迟(从片段的结束到提取结果(或者分离结果)的产生过去少量时间)；和

跟随性(从片段的开始保持高提取准确性)

然而，常规方法都不满足所有这些要求。下面将描述以上方案的问题。

(C1.延迟求和阵列(B1-1)的问题)

即使利用不准确的方向，影响也在某种程度上是有限的。

然而，如果使用少量(例如，三到五个)麦克风，则干扰声音不会衰减很多。也就是说，这种方案仅具有在很小程度上增强目标声音的效果。

(C2.最小方差波束形成器(B1-2)的问题)

如果存在目标声音的方向的误差，则提取准确性迅速减小。这是因为，如果增益固定为1的方向与目标声音的真实方向不一致，则在目标声音的方向上也形成零波束从而也使目标声音恶化。也就是说，目标声音和干扰声音之比(SNR)将不会增加。

为了解决这个问题，存在一种通过使用目标声音无效的片段中的观测信号学习提取滤波器的方法。然而，在这种情况下，除目标声音之外的所有声源需要在这个片段中有效。换句话说，干扰声音(如果仅存在于目标声音有效的片段中)可能无法被去除。

(C3.最大SNR波束形成器(B1-3)的问题)

它不使用声源方向，因此甚至不受目标声音的不准确的方向影响。

然而，它需要给出以下两项：

a)仅目标声音有效的片段，和

b)除目标声音之外的所有声源有效的片段，因此如果可能无法获得它们中的任何一项则可能无法应用该方案。例如，如果干扰声音中的任何一种干扰声音几乎始终有效，则可能无法获得a)。另外，如果存在仅在目标声音有效的片段中有效的干扰声音，则可能无法获得b)。

(C4.基于目标声音的去除和减法的方案(B1-4)的问题)

如果存在目标声音的方向的误差，则提取准确性迅速减小。这是因为，如果目标声音的方向不准确，则目标声音不会被完全去除，从而如果从观测信号减去该信号，则目标声音也会在某种程度上被去除。

也就是说，目标声音和干扰声音之比不增加。

(C5.基于相差的时频掩蔽(B1-5)的问题)

这种方案经受不准确的方向的影响，但在某种程度上受影响不大。

然而，原本在低频在麦克风之间不存在很大的相差，从而难以实现准确的提取。

另外，不连续部分易于出现在频谱中，从而存在这样的情况：在恢复到波形时可能发生音乐噪声。

存在另一问题，即时频掩蔽的处理的结果的频谱不同于自然语音的频谱，从而如果在后一阶段使用语音合成等，则可实现提取(干扰声音能够被去除)，但在一些情况下，语音识别的准确性可能在一些情况下无法提高。

此外，存在这样的可能性，即如果目标声音和干扰声音之间的重叠的程度增加，则掩蔽的部分增加，从而存在这样的可能性，即作为提取的结果的声音音量可能减小或者音乐噪声的程度可能增加。

(C6.独立分量分析(ICA)(B2-1)的问题)

这种方案不使用声源方向，从而即使利用不准确的方向也不会影响分离。

然而，这种方案包括与其它方案相比更大的计算成本并在批处理(批处理使用所有片段的观测信号)中经受大的延迟。此外，在单个目标声音的情况下，即使仅采用n个(n：麦克风的数量)分离的信号之一，也需要与在使用n个分离的信号的情况下的计算成本和内存使用相同的计算成本和相同的内存使用。此外，这种方案需要选择信号的处理，因此包括对应增加的计算成本并产生了可能选择与目标声音不同的信号(这称为选择误差)的可能性。

通过经应用专利文件6(日本专利申请提前公开No.2008-147920)中描述的移位或者在线算法提供实时处理，能够减小等待时间，但发生跟踪滞后。也就是说，发生这样的现象：变为有效的声源首先在片段的开始附近具有低提取准确性，并且随着它更接近片段的结束，提取准确性增加。

(C7.零波束形成器(B2-2)的问题)

如果干扰声音的方向不准确，则分离准确性迅速减小。这是因为，在与干扰声音的在真实方向不同的方向上形成零波束，因此，干扰声音不会被去除。

另外，包括干扰声音的片段中的所有声源的方向需要是已知的。未检测到的声源不会被去除。

(C8.几何约束源分离(GSS)(B2-3)的问题)

这种方案经受不准确的方向，但在某种程度上受影响不大。

在这种方案中，包括干扰声音的片段中的所有声源的方向也需要是已知的。

以上讨论可总结如下：不存在满足所有下面的要求的方案。

·即使目标声音的方向不准确，它的影响也很小。

·即使干扰声音的片段和方向是未知的，也能够提取目标声音。

·小的延迟和高跟踪能力。

对于这些技术，参见例如日本专利申请提前公开No.10-51889(专利文件1)、日本专利申请提前公开No.2010-121975(专利文件2)、日本专利申请提前公开No.2006-72163(专利文件3)、日本专利申请提前公开No.2010-20294(专利文件4)、日本专利申请提前公开No.2008-175733(专利文件5)和日本专利申请提前公开No.2008-147920(专利文件6)。

发明内容

考虑到以上内容，提出了本发明，并且本发明的目的在于提供这样一种声音信号处理装置、方法和程序：能够利用小的延迟和高跟随性提取声源并且即使例如目标声音的方向不准确也较少受影响并且即使干扰声音的片段和方向是未知的也能够提取目标声音。

例如，在本发明的一个实施例中，通过使用目标声音的时间包络作为参考信号(参考)提取声源。

另外，在本发明的一个实施例中，通过在目标声音的方向上使用时频掩蔽产生目标声音的时间包络。

根据本发明的第一方面，提供了一种声音信号处理装置，包括：观测信号分析单元，用于接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多个通道的声音信号并估计待提取的目标声音的声音方向和声音片段；和声源提取单元，用于接收由观测信号分析单元分析的目标声音的声音方向和声音片段并提取目标声音的声音信号。观测信号分析单元具有：短时傅立叶变换单元，用于把短时傅立叶变换应用于输入的多通道声音信号以由此产生时频域中的观测信号；和方向和片段估计单元，用于接收由短时傅立叶变换单元产生的观测信号以由此检测目标声音的声音方向和声音片段；以及声源提取单元基于来自方向和片段估计单元的目标声音的声音方向和声音片段产生参考信号并通过使用这个参考信号提取目标声音的声音信号，所述参考信号对应于表示在时间方向上目标声音音量的变化的时间包络。

另外，根据本发明的声音信号处理的一个实施例，所述声源提取单元基于目标声音的声源方向的信息产生包含用于获得目标声音的所述多个麦克风之间的相差信息的导向向量并具有：时频掩模产生单元，用于产生代表导向向量和从包括干扰声音的观测信号计算的相差的信息之间的相似性的时频掩模，所述干扰声音是除目标声音的信号之外的信号；和参考信号产生单元，用于基于时频掩模产生参考信号。

另外，根据本发明的声音信号处理的一个实施例，所述参考信号产生单元能够产生把时频掩模应用于观测信号的掩蔽结果并对从这个掩蔽结果获得的频率窗口的时间包络求平均值，由此计算对于所有频率窗口共同的参考信号。

另外，根据本发明的声音信号处理的一个实施例，所述参考信号产生单元能直接对频率窗口之间的时频掩模求平均值，由此计算对于所有频率窗口共同的参考信号。

另外，根据本发明的声音信号处理的一个实施例，所述参考信号产生单元能从把时频掩模应用于观测信号的掩蔽结果或者时频掩模产生每个频率窗口中的参考信号。

另外，根据本发明的声音信号处理的一个实施例，所述参考信号产生单元把不同的时间延迟给予在声音信号输入单元中的麦克风的不同观测信号以对齐来自目标声音的方向上的信号的相位并能产生把时频掩模应用于对观测信号求和的延迟求和阵列的结果的掩蔽结果，并从这个掩蔽结果获得参考信号。

另外，根据本发明的声音信号处理的一个实施例，所述声源提取单元能具有参考信号产生单元，该参考信号产生单元：基于目标声音的声源方向信息产生包括获得目标声音的所述多个麦克风之间的相差信息的导向向量；以及从作为把导向向量应用于观测信号的计算处理结果获得的延迟求和阵列的处理结果产生参考信号。

另外，根据本发明的声音信号处理的一个实施例，所述声源提取单元能使用作为声源提取处理的处理结果获得的目标声音作为参考信号。

另外，根据本发明的声音信号处理的一个实施例，所述声源提取单元能把下述循环处理执行任一次数：通过执行声源提取处理产生提取结果，从这个提取结果产生参考信号，并通过使用这个参考信号再次执行声源提取处理。

另外，根据本发明的声音信号处理的一个实施例，所述声源提取单元可以具有提取滤波器产生单元，该提取滤波器产生单元基于参考信号产生用于从观测信号提取目标声音的提取滤波器。

另外，根据本发明的声音信号处理的一个实施例，所述提取滤波器产生单元能够执行本征向量选择处理，以从参考信号和去相关的观测信号计算加权协方差矩阵并从通过把本征向量分解应用于加权协方差矩阵获得的多个本征向量之中选择提供提取滤波器的本征向量。

另外，根据本发明的声音信号处理的一个实施例，所述提取滤波器产生单元可以使用参考信号的N次幂的倒数作为加权协方差矩阵的权重，N为正实数；以及执行选择与最小本征值对应的本征向量并提供它作为提取滤波器的处理作为本征向量选择处理。

另外，根据本发明的声音信号处理的一个实施例，所述提取滤波器产生单元可以使用参考信号的N次幂作为加权协方差矩阵的权重，N为正实数；以及执行选择与最大本征值对应的本征向量并提供它作为提取滤波器的处理作为本征向量选择处理。

另外，根据本发明的声音信号处理的一个实施例，所述提取滤波器产生单元可以执行下述处理：选择使提取结果Y的加权方差最小化的本征向量并提供它作为提取滤波器，所述提取结果Y的加权方差是通过把提取结果乘以作为权重的参考信号的N次幂的倒数获得的信号的方差，N为正实数。

另外，根据本发明的声音信号处理的一个实施例，所述提取滤波器产生单元可以执行下述处理：选择使提取结果Y的加权方差最大化的本征向量并提供它作为提取滤波器，所述提取结果Y的加权方差是通过把提取结果乘以作为权重的参考信号的N次幂获得的信号的方差，N为正实数。

另外，根据本发明的声音信号处理的一个实施例，所述提取滤波器产生单元可以执行选择与导向向量最为对应的本征向量并提供它作为提取滤波器的处理作为本征向量选择处理。

另外，根据本发明的声音信号处理的一个实施例，所述提取滤波器产生单元可以执行本征向量选择处理，以从参考信号和去相关的观测信号计算具有参考信号的N次幂的倒数作为其权重的加权观测信号矩阵，并从通过把奇异值分解应用于加权观测信号矩阵获得的多个本征向量之中选择作为提取滤波器的本征向量，N为正实数。

另外，根据本发明的另一实施例，提供了一种声音信号处理装置，包括：声源提取单元，接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多个通道的声音信号并提取待提取的目标声音的声音信号，其中声源提取单元基于目标声音的预设声音方向和具有预定长度的声音片段产生对应于表示在时间方向上目标声音音量的变化的时间包络的参考信号，并使用这个参考信号以由此提取每个预定声音片段中的目标声音的声音信号。

另外，根据本发明的另一实施例，提供了一种在声音信号处理装置中执行的声音信号处理方法，该方法包括：由观测信号分析单元执行的观测信号分析步骤，接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多个通道的声音信号并估计待提取的目标声音的声音方向和声音片段；和由声源提取单元执行的声源提取步骤，接收由观测信号分析单元分析的目标声音的声音方向和声音片段并提取目标声音的声音信号。观测信号分析步骤执行：短时傅立叶变换处理，把短时傅立叶变换应用于输入的多通道声音信号以由此产生时频域中的观测信号；以及方向和片段估计处理，接收通过短时傅立叶变换处理产生的观测信号以由此检测目标声音的声音方向和声音片段；以及在声源提取步骤中，在来自方向和片段估计步骤的目标声音的声音方向和声音片段的基础上产生参考信号，以通过使用这个参考信号提取目标声音的声音信号，所述参考信号对应于表示在时间方向上目标声音音量的变化的时间包络。

另外，根据本发明的另一实施例，提供了一种具有使声音信号处理装置执行声音信号处理的指令的程序，该处理包括：由观测信号分析单元执行的观测信号分析步骤，接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多个通道的声音信号并估计待提取的目标声音的声音方向和声音片段；和由声源提取单元执行的声源提取步骤，接收由观测信号分析单元分析的目标声音的声音方向和声音片段并提取目标声音的声音信号。观测信号分析步骤执行：短时傅立叶变换处理，把短时傅立叶变换应用于输入的多通道声音信号以由此产生时频域中的观测信号；以及方向和片段估计处理，接收通过短时傅立叶变换处理产生的观测信号以由此检测目标声音的声音方向和声音片段；以及在声源提取步骤中，在来自方向和片段估计步骤的目标声音的声音方向和声音片段的基础上产生参考信号，以通过使用这个参考信号提取目标声音的声音信号，所述参考信号对应于表示在时间方向上目标声音音量的变化的时间包络。

本发明的程序能够例如在计算机可连接记录介质或者通信介质中被提供给能够执行各种程序代码的图像处理装置或者计算机系统。通过以能够连接到计算机的格式提供这种程序，在图像处理装置或者计算机系统中实现与该程序对应的处理。

通过下面对本发明的实施例和附图的详细描述，本发明的其它目的、特征和优点将会变得清楚。本说明书中的“系统”表示多个装置的逻辑复合结构并且不限于包括各装置的结构的同一框架。

根据本发明的一个实施例的结构，实现一种从混合多种声音的声音信号提取目标声音的装置和方法。

具体地讲，观测信号分析单元通过从包括安装到不同位置的多个麦克风的声音信号输入单元接收多通道声音信号估计待提取的目标声音的声音方向和声音片段，并且声源提取单元接收由观测信号分析单元分析的目标声音的声音方向和声音片段并提取目标声音的声音信号。

例如，对输入的多通道声音信号执行短时傅立叶变换以由此获得时频域中的观测信号，基于该观测信号，检测目标声音的声音方向和声音片段。另外，基于目标声音的声音方向和声音片段，产生对应于表示在时间方向上目标声音音量的变化的时间包络的参考信号并使用该参考信号提取目标声音的声音信号。

附图说明

图1是在执行声源提取处理的情况下的特定环境的一个例子的解释示图；

图2是显示输入到多个麦克风的声音的相差和频率窗口编号ω之间的关系曲线图的示图；

图3是显示在包括干扰声音的环境中类似于图2中输入到多个麦克风的声音的相差的输入到所述多个麦克风的声音的相差和频率窗口编号ω之间的关系曲线图的示图；

图4是显示声音信号处理装置的一个结构例子的示图；

图5是由声音信号处理装置执行的处理的解释示图；

图6是由声源提取单元执行的声源提取处理的特定处理序列的一个例子的解释示图；

图7是用于产生导向向量的方法的解释曲线图；

图8是用于从掩模的值产生作为参考信号的时间包络的方法的解释示图；

图9是显示声音信号处理装置的一个结构例子的示图；

图10A是短时傅立叶变换(STFT)处理的细节的解释示图；

图10B是短时傅立叶变换(STFT)处理的细节的另一解释示图；

图11是声源提取单元的细节的解释示图；

图12是提取滤波器产生单元的细节的解释示图；

图13显示由声音信号处理装置执行的处理的解释流程图；

图14显示在图13的流程的步骤S104中执行的声源提取处理的细节的解释流程图；

图15是在图14的流程的步骤S201中执行的片段调整的细节的解释曲线图和这种处理的原因；

图16显示在图14的流程的步骤S204中执行的提取滤波器产生处理的细节的解释流程图；

图17A是产生对于所有频率窗口共同的参考信号的例子和为每个频率窗口产生参考信号的例子的解释示图；

图17B是产生对于所有频率窗口共同的参考信号的例子和为每个频率窗口产生参考信号的例子的另一解释示图；

图18是通过多个通道记录声音并且当重放该声音时应用本发明的实施例的解释示图；

图19是通过使用奇异值分解产生提取滤波器的处理的解释流程图；

图20是通过把观测信号的片段设置为固定长度在不必等待发声的结束的情况下利用低延迟产生并输出提取的结果的实时声源提取处理序列的解释流程图；

图21是在图20的流程图的步骤S606中执行的声源提取处理的细节的解释流程图；

图22是从观测信号切割固定长度片段的处理的解释示图；

图23是执行评估实验以检查根据本发明的声源提取处理的效果的混合环境的解释示图；

图24是通过根据本发明的声源提取处理和每种常规方法获得的提高了SIR的数据的解释的表；和

图25是比较根据本发明的声源提取处理和每种常规方法的计算量的数据的表，该表显示每种方法的平均CPU处理时间。

具体实施方式

以下，将参照附图详细描述本发明的优选实施例。需要注意的是，在本说明书和附图中，具有基本上相同的功能和结构的结构元素以相同的标号表示，并且省略这些结构元素的重复解释。

下面将参照附图详细描述声音信号处理装置、方法和程序。在本说明书中，可能存在这样的情况：图17A、图17B等分别表示为图17a、图17b等。

将按照下面各项对处理进行详细描述。

1.声音信号处理装置的结构和处理的概述

1-1.声音信号处理装置的结构和总体处理

1-2.使用目标声音的时间包络作为参考信号(参考)的声源提取处理

1-3.通过从目标声音的方向使用时频掩蔽产生目标声音的时间包络的处理

2.本发明的声音信号处理装置的详细结构和特定处理

3.变型

4.本发明的处理的效果的总结

5.本发明的结构的总结

下面将按照这种次序进行描述。

如上所述，采用下面的符号：

A_b意味着为A设置下标后缀b；以及

A^b意味着为A设置上标后缀b。

另外conj(X)表示复数X的共轭复数。在方程中，X的共轭复数表示为X加上标条。

hat(x)意味着x加上标“^”。

值的替换表示为“＝”或者“←”。特别地，等号在方程的两侧之间不成立的情况由“←”表示(例如，“x←x+1”)。

[1.声音信号处理装置的结构和处理的概述]

将给出本发明的声音信号处理装置的结构和处理的概述。

(1-1.声音信号处理装置的结构和总体处理)

图4显示本发明的声音信号处理装置的结构例子。

如图4中所示，声音信号处理装置100具有：声音信号输入单元101，包括多个麦克风；观测信号分析单元102，用于从声音信号输入单元101接收输入信号(观测信号)并对输入信号执行分析处理，具体地讲，例如检测待提取的目标声源的声音片段和方向；和声源提取单元103，用于在由观测信号分析单元102检测的目标声音的每个声音片段中从观测信号(混合了多种声音的信号)中检测目标声源的声音。由声源提取单元103产生的提取目标声音的结果110被输出到例如后续阶段处理单元以执行处理，诸如例如语音识别。

将参照图5描述图4中显示的每个处理单元的特定处理例子。

图5分别地显示每项处理如下：

步骤S01：声音信号输入

步骤S02：片段检测

步骤S03：声源提取

这三项处理部分分别对应于由图4中显示的声音信号输入单元101、观测信号分析单元102和声源提取单元103执行的处理部分。

步骤S01中的声音信号输入处理对应于这样的情况：图4中显示的声音信号输入单元101正在通过多个麦克风接收来自多个声源的声音信号。

图中示出的例子显示正在观测下面来自各自三个声源的声音的状态：

“SAYOUNARA”(再见)

“KONNICHIWA”(你好吗？)和

音乐。

步骤S02中的片段检测处理由图4中显示的观测信号分析单元102执行。观测信号分析单元102从声音信号输入单元101接收输入信号(观测信号)，以检测待提取的目标声源的声音片段。

在该图中显示的例子中，检测以下各项的片段(声音片段)：

“SAYOUNARA”(再见)的语音片段＝(3)，

“KONNICHIWA”(你好吗？)的语音片段＝(2)，以及

音乐的语音片段＝(1)和(4)。

步骤S03中的声源提取处理由图4中显示的声源提取单元103执行。声源提取单元103在由观测信号分析单元102检测的目标声音的每个声音片段中从观测信号(在观测信号中，混合了多种声音)中提取目标声源的声音。

在该图中显示的例子中，提取以下各项的声音片段的声源：

“SAYOUNARA”(再见)的语音片段＝(3)，

“KONNICHIWA”(你好吗？)的语音片段＝(2)，以及

音乐的语音片段＝(1)和(4)。

将参照图6描述在步骤S03中由声源提取单元103执行的声源提取处理的特定处理序列的一个例子。

图6把由声源提取单元103执行的声源提取处理的序列显示为步骤S11至S14的四个处理部分。

步骤S11表示切割出待提取的目标声音的声音片段单位观测信号的处理的结果。

步骤S12表示分析待提取的目标声音的方向的处理的结果。

步骤S13表示基于在步骤S11中获取的目标声音的声音片段单位观测信号和在步骤S12中获取的目标声音的方向信息产生参考信号(参考)的处理。

步骤S14是通过使用在步骤S11中获取的目标声音的声音片段单位观测信号、在步骤S12中获取的目标声音的方向信息和在步骤S13中产生的参考信号(参考)获得目标声音的提取结果的处理。

声源提取单元103执行例如图6中显示的步骤S11至S14中的处理部分以提取目标声源，也就是说，产生包括尽可能多地去除了不希望的干扰声音的目标声音的声音信号。

接下来，将详细描述在本发明的声音信号处理装置中顺序执行的下面两项处理部分。

(1)使用目标声音的时间包络作为参考信号(参考)的声源提取处理；和

(2)从目标声音的方向使用时频掩蔽的目标声音时间包络产生处理。

(1-2.使用目标声音时间包络作为参考信号(参考)的声源提取处理)

首先，将描述使用目标声音的时间包络作为参考信号(参考)的声源提取处理。

假设目标声音的时间包络是已知的并且时间包络在帧t呈现值r(t)。时间包络是在时间方向上声音音量的变化的轮廓形状。根据包络的性质，r(t)是实数并且通常不小于0。通常，源自同一声源的任何信号甚至在不同的频率窗口也具有相似的时间包络。也就是说，存在这样的趋势：在声源大声工作的时候，所有频率具有较大的分量，并且在声源小声工作的时候，所有频率具有较小的分量。

在假设提取结果的方差固定为1(方程[3.2])的情况下，使用下面的方程[3.1](与方程[1.2]相同)计算提取结果Y(ω，t)。

Y(ω，t)＝W(ω)X(ω，t)......[3.1]

<|Y(ω，t)|²>t＝1......[3.2]

W (ω) = \underset{W (ω)}{\arg mi} n {< \frac{{| Y (ω, t) |}^{2}}{r {(t)}^{N}} >}_{t} . . . [3.3]

W (ω) = \underset{W (ω)}{\arg \min} W (ω) {< \frac{X (ω,) X {(ω, t)}^{H}}{r {(t)}^{N}} >}_{t} W {(ω)}^{H} \cdot \cdot \cdot [3.4]

Z (ω, t) = \frac{1}{r {(t)}^{N / 2}} Y (ω, t) \cdot \cdot \cdot [3.5]

| Y (ω, t) | = \frac{r {(t)}^{N / 2}}{R} \cdot \cdot \cdot [3.6]

<r(t)^N>_t＝R²......[3.7]

W (ω) = \underset{W (ω)}{\arg \min} {< {| Y (ω, t) - r (t) |}^{2} >}_{t} \cdot \cdot \cdot [3.8]

W (ω) = \underset{W (ω)}{\arg \max} {< real (Y (ω, t) r (t)) >}_{t} \cdot \cdot \cdot [3.9]

然而，在方程[3.2]中，<·>_t表示在帧的预定范围(例如，目标声音有效的片段)中计算括号的里面的平均值。

对于时间包络r(t)，它的标度可以是任意的。

方程[3.2]的约束条件不同于目标声音的标度的约束条件，从而在一旦获得提取滤波器之后，执行处理以把提取结果的标度控制为合适的值。这种处理称为“重新定标”。重新定标的细节将在稍后描述。

在方程[3.2]的约束条件下，希望尽可能接近r(t)在时间方向上获得|Y(ω，t)|(提取结果的绝对值)的轮廓形状。另外，不同于r(t)，|Y(ω，t)|是复数的信号，从而应该希望合适地获得它的相位。为了获得产生这种提取结果的提取滤波器，获得使方程[3.3]的右侧最小化的W(ω)。(通过方程[3.1]，方程[3.3]与方程[3.4]相等。)

在这些方程中，N是正实数(例如，N＝2)。

如此获得的W(ω)提供用于提取目标声音的滤波器。原因将描述如下。

方程[3.3]能够解释为通过把Y(ω，t)乘以权重1/r(t)^(N/2)获得的信号(方程[3.5])的方差。这称为加权方差最小化(或者加权最小二乘法)，通过加权方差最小化，如果Y(ω，t)没有除方程[3.2]之外的约束条件(如果不存在方程[3.1]的关系)，则只要Y(ω，t)在t的所有值满足方程[3.6]，方程[3.3]就呈现最小值1/R^2。在这种情况下，R^2是r(t)^N的平均值(方程[3.7])。

以下，

方程[3.3]中的<·>_t的项称为“提取结果的加权方差”，

方程[3.4]中的<·>_t的项称为“观测信号的加权协方差矩阵”。

也就是说，如果忽略标度的差异，则当提取结果|Y(ω，t)|的轮廓与参考信号r(t)一致时，方程[3.3]的右侧最小化。

下面的关系成立：

观测信号：X(ω，t)，

目标声音提取滤波器：W(ω)，和

提取结果：Y(ω，t)。

这些关系具有方程[3.1]，从而提取结果并不完全与方程[3.6]一致，由此在满足方程[3.1]和[3.2]的范围中使方程[3.3]最小化。结果，合适地获得提取结果Y(ω，t)的相位。

作为使参考信号和目标信号彼此接近的方法，通常能够应用最小平方误差法。也就是说，这种方法使参考信号和目标信号之间的平方误差最小化。然而，在本发明的问题确定中，在帧t中的时间包络r(t)是实数，但提取结果Y(ω，t)是复数，从而即使目标声音提取滤波器W(ω)被引入作为使这二者之间的平方误差最小化(方程[3.8]或者[3.9]也相同)的问题，W(ω)也仅使Y(ω，t)的实部最大化，而未能获得目标声音。也就是说，通过常规方法，即使使用参考信号提取声源，只要使用方程[3.8]或者[3.9]，该声源就不同于通过本发明获得的声源。

接下来，将参照下面的方程[4.1]和随后的方程描述用于获得目标声音提取滤波器W(ω)的过程。

X′(ω，t)＝P(ω)X(ω，t)......[4.1]

<X′(ω，t)X′(ω，t)^H>_t＝I ......[4.2]

R(ω)＝<X(ω，t)X(ω，t)^H>_t......[4.3]

R(ω)＝V(ω)D(ω)V(ω)^H......[4.4]

V(ω)＝[V₁(ω)，…，V_n(ω)]......[4.5]

D (ω) = [\begin{matrix} d_{1} (ω) & 0 \\ . \\ . \\ . \\ 0 & d_{n} (ω) \end{matrix}] \cdot \cdot \cdot [4.6]

P(ω)＝V(ω)D(ω)^-1/2V(ω)^H ......[4.7]

Y(ω，t)＝W′(ω)X′(ω，t)......[4.8]

W′(ω)W′(ω)^H＝1......[4.9]

W^{'} (ω) = \underset{W (ω)}{\arg \min} W^{'} (ω) {< \frac{X^{'} (ω, t) X^{'} {(ω, t)}^{H}}{r {(t)}^{N}} >}_{t} W^{'} {(ω)}^{H} \cdot \cdot \cdot [4.10]

{< \frac{X^{'} (ω, t) X^{'} {(ω, t)}^{H}}{r {(t)}^{N}} >}_{t} = A (ω) B (ω) A {(ω)}^{H} \cdot \cdot \cdot [4.11]

A(ω)＝[A₁(ω)，…，A_n(ω)]......[4.12]

A_{i} {(ω)}^{H} A_{k} (ω) = \{\begin{matrix} 0 & (i &NotEqual; k) \\ 1 & (i = k) \end{matrix} \cdot \cdot \cdot [4.13]

B (ω) = [\begin{matrix} b_{1} (ω) & 0 \\ . \\ . \\ . \\ 0 & b_{n} (ω) \end{matrix}] \cdot \cdot \cdot [4.14]

W′(ω)＝A_l(ω)^H ......[4.14]

根据下面的过程利用闭合形式(没有迭代的方程)能够计算目标声音提取滤波器W(ω)。

首先，如方程[4.1]所示，对观测信号X(ω，t)执行去相关。

假设P(ω)是去相关矩阵，并且X’(ω，t)是应用去相关的观测信号(方程[4.1])。X’(ω，t)满足方程[4.2]。

为了获得去相关矩阵P(ω)，计算一次观测信号的协方差矩阵R(ω)(方程[4.3])，然后把本征值分解应用于R(ω)(方程[4.4])。

在方程[4.4]中，

V(ω)是包括本征向量V_1(ω)至V_n(ω)的矩阵(方程[4.5])，

D(ω)是包括本征值d_1(ω)至d_n(ω)的元素的对角矩阵(方程[4.6])。

通过使用这些V(ω)和D(ω)如方程[4.7]中所示计算去相关矩阵P(ω)。V(ω)是正交矩阵并满足V(ω)^H V(ω)＝1。(V(ω)的每个元素是复数，从而在严格意义上它是酉矩阵。)

在执行方程[4.1]中给出的去相关之后，获得满足方程[4.8]的矩阵W’(ω)。方程[4.8]的左侧是与方程[3.1]的左侧相同的提取结果。也就是说，替代于直接获得从观测信号提取目标声音的滤波器W(ω)，获得从去相关的观测信号X’(ω，t)提取目标声音的滤波器W’(ω)。

为了实现这一点，在方程[4.9]的约束条件下能够获得使方程[4.10]的右侧最小化的向量W’(ω)。从方程[3.2]、[4.2]和[4.8]能够导出方程[4.9]的约束条件。另外，从方程[3.4]和[4.8]能够获得方程[4.10]。

通过再次对这个方程中的加权协方差矩阵的项(<·>_t的部分)执行本征值分解，能够获得使方程[4.10]的右侧最小化的向量W’(ω)。也就是说，通过把加权协方差矩阵分解成如方程[4.11]中所给出的这些结果并且提供包括本征向量A_1(ω)至A_n(ω)的矩阵作为A(ω)(方程[4.12])以及提供包括本征值b_1(ω)至b_n(ω)的对角矩阵作为B(ω)(方程[4.14])，通过对本征向量之一执行厄米转置获得W’(ω)(方程[4.14])。一种用于从本征向量A_1(ω)至A_n(ω)之中选择合适的本征向量的方法。

本征向量A_1(ω)至A_n(ω)相互正交并满足方程[4.13]。因此，利用方程[4.14]获得的W’(ω)满足方程[4.9]的约束条件。

如果获得W’(ω)，则W’(ω)与去相关矩阵P(ω)组合以便也获得提取滤波器。(将在稍后描述具体方程。)

接下来，将参照下面的方程[5.1]和随后的方程描述一种用于从方程[4.12]中给出的本征向量A_1(ω)至A_n(ω)之中选择合适的本征向量作为提取滤波器的方法。

l = \underset{k}{\arg \min} [b_{k} (ω)] \cdot \cdot \cdot [5.1]

F_k(ω)＝P^-1(ω)A_k(ω)......[5.2]

F_{k} (ω) = [\begin{matrix} f_{1 k} (ω) \\ . \\ . \\ . \\ f_{nk} (ω) \end{matrix}[\cdot \cdot \cdot [5.3]

F_{k}^{'} (ω) = [\begin{matrix} f_{1 k} (ω) / | f_{1 k} (ω) | \\ . \\ . \\ . \\ f_{nk} (ω) / | f_{nk} (ω) | \end{matrix}] \cdot \cdot \cdot [5.4]

l = \underset{k}{\arg \max} [| F_{k}^{'} {(ω)}^{H} S (ω, θ) |] \cdot \cdot \cdot [5.5]

F_k(ω)＝R(ω)A_k(ω)......[5.6]

可采用下面两种方法从本征向量A_1(ω)至A_n(ω)之中选择合适的本征向量作为提取滤波器。

选择方法1：选择与最小本征值对应的本征向量

选择方法2：选择与声源方向θ对应的本征向量

下面将分别描述这些选择方法。

(选择方法1：选择与最小本征值对应的本征向量)

A_i(ω)^H根据方程[4.14]用作W’(ω)并被代入方程[4.10]的右侧中，以在右侧跟在“arg min”之后的部分中仅留下作为与A_l(ω)对应的本征值的b_l(ω)，其中“l”是“L”的小写字母。

换句话说，假设b_l(ω)是n个本征值中的最小值，使方程[5.1]和[4.10]的右侧最小化的W’(ω)是A_l(ω)^H，它的最小值是b_l(ω)。

(选择方法2：选择与声源方向θ对应的本征向量)

虽然在零波束形成器的描述中已解释能够从与声源方向对应的导向向量计算分离矩阵，但相反地，也能够从分离矩阵或者提取滤波器计算相当于导向向量的向量。

因此，通过把每个本征向量转换成相当于导向向量的向量并比较这些向量和与目标声音方向对应的导向向量之间的相似性，可以选择最佳本征向量作为目标声音的提取滤波器。

本征向量A_k(ω)的左侧乘以方程[4.7]中给出的去相关矩阵P(ω)的逆向量以提供F_k(ω)(方程[5.2])。然后，F_k(ω)的元素由方程[5.3]给出。这个方程对应于利用死角波束形成器描述的方程[2.5]中的N(ω)^#的逆运算，并且F_k(ω)是与导向向量对应的向量。

因此，利用与目标声音对应的导向向量S(ω，θ)可以很好地获得相当于与本征向量A_1(ω)至A_n(ω)对应的导向向量的各向量F_1(ω)至F_n(ω)的相似性，从而能够在这些相似性的基础上执行选择。例如，如果Fl(ω)具有最高的相似性，则A_l(ω)^H用作W’(ω)，其中“l”是“L”的小写字母。

因此，准备通过把F_k(ω)的元素分别除以它们自己的绝对值计算的向量F’_k(ω)(方程[5.5])，以通过使用F’_k(ω)和S(ω，θ)的内积计算相似性(方程[5.5])。然后，可以从使内积的绝对值最大化的F’_k(ω)很好地选择提取滤波器。替代于F_k(ω)使用F’_k(ω)以便排除麦克风的灵敏度的波动的影响。

即使使用方程[5.5]来替代方程[5.2]，也能够获得相同的值。(R(ω)是观测信号的协方差矩阵并且使用方程[4.3]计算R(ω)。)

与选择方法1相比，这种方法的优点在于声源提取的小的副作用。例如，在由于参考信号的产生中的误差导致参考信号相对于目标声音的时间包络显著移位的情况下，由选择方法1选择的本征向量可能是所不希望的本征向量(例如，增强干扰声音的滤波器)。

通过选择方法2，目标声音的方向反映在选择中，从而存在很高的这样的可能性：可选择即使在更坏的情况下也将会增强目标声音的提取滤波器。

(1-3.通过从目标声音的方向使用时频掩蔽产生目标声音的时间包络的方法)

接下来，将描述时频掩蔽和时间包络产生作为一种用于从目标声音的方向产生参考信号的方法。通过时频掩蔽方式提取声源具有这样的问题，即发生音乐噪声并且在低频的分离准确性不够(在基于相差的掩模产生的情况下)；然而，通过把使用目的限制于时间包络的产生能够避免这个问题。

虽然已利用麦克风的数量限制为两个的情况描述了常规方法，但下面将描述在假设通道的数量为至少两个的情况下使用取决于导向向量和观测信号向量之间的相似性的方法的例子。

将按照这种次序描述下面两种方法：

(1)用于产生导向向量的方法

(2)用于产生掩模和参考信号的方法

(1)用于产生导向向量的方法

将参照图7和下面的方程[6.1]至[6.3]描述导向向量产生方法。

q (θ) = [\begin{matrix} \cos θ \\ \sin θ \\ 0 \end{matrix}] \cdot \cdot \cdot [6.1]

S_{k} (ω, θ) = \exp (jπ \frac{(ω - 1) F}{(M - 1) C} q {(θ)}^{T} (m_{k} - m)) \cdot \cdot \cdot [6.2]

S (ω, θ) = \frac{1}{\sqrt{n}} [\begin{matrix} S_{1} (ω, θ) \\ . \\ . \\ . \\ S_{n} (ω, θ) \end{matrix}] \cdot \cdot \cdot [6.3]

U (ω, t) = \frac{1}{X_{i} (ω, t)} X (ω, t) \cdot \cdot \cdot [6.4]

U (ω, t) = [\begin{matrix} U_{1} (ω, t) \\ . \\ . \\ . \\ U_{n} (ω, t) \end{matrix}] \cdot \cdot \cdot [6.5]

U^{'} (ω, t) = \frac{1}{\sqrt{n}} [\begin{matrix} U_{1} (ω, t) / | U_{1} (ω, t) | \\ . \\ . \\ . \\ U_{n} (ω, t) / | U_{n} (ω, t) | \end{matrix}] \cdot \cdot \cdot [6.6]

M(ω，t)＝|S(ω，θ)^HU′(ω，t)|......[6.7]

Q(ω，t)＝M(ω，t)^JX_k(ω，t)......[6.8]

Q(ω，t)＝M(ω，t)^J S(ω，θ)^HX(ω，t)......[6.9]

Q^{'} (ω, t) = \frac{Q (ω, t)}{{{< {| Q (ω, t) |}^{2} >}_{t}}^{1 / 2}} \cdot \cdot \cdot [6.10]

r(t)＝{<|Q′(ω，t)|^L _ω∈Ω}^1/L......[6.11]

Ω＝{ω_min，ω_min+1，…，ω_max}.....[6.12]

r(t)＝{<M(ω，t)^L>_ω∈Ω}^1/L......|6.13]

q (θ, ψ) = [\begin{matrix} \cos ψ \cdot \cos θ \\ \cos ψ \cdot \sin θ \\ \sin ψ \end{matrix}] \cdot \cdot \cdot [6.14]

假设图7中显示的参考点152是用于测量方向的参考点。参考点152可以是在麦克风附近的任意点，例如与麦克风的重心一致或者与麦克风中的任何一个一致。假设参考点的位置向量(也就是说，坐标)是m。

为了表示声音的到达方向，准备具有参考点152作为其原点并且具有1作为其长度的向量并且假设该向量是向量q(θ)151。如果声源位于大体上与麦克风相同的高度，则向量q(θ)151可视为在X-Y平面(具有Z轴作为它的垂直方向)中的向量，它的分量由方程[6.1]给出。然而，方向θ是相对于X轴的角度。

如果麦克风和声源不位于同一平面中，则能够使用方程[6.14]计算在声源方向向量中还反映仰角φ的q(θ，φ)并且在方程[6.2]中使用q(θ，φ)替代q(θ)。

在图7中，来自向量q(θ)的方向上的声音依次首先到达麦克风k153并随后到达参考点152和麦克风i154。到达参考点152的麦克风k153的相差能够使用方程[6.2]给出。

在这个方程中，

j：虚数单位，

M：频率窗口的编号，

F：采样频率，

C：声速，

m_k：麦克风k的位置向量，并且

上标“T”表示普通转置。

也就是说，如果假设存在平面波，则与相比，麦克风k153到声源的距离比参考点152近了一段距离155(如图7中显示)，相反地，麦克风i154到声源的距离远了一段距离156。通过使用如下向量的内积能够表示这种距离的差异：

q(θ)^T(m_k-m)和

q(θ)^T (m_i-m)，

以把距离差异转换成相差，由此获得方程[6.2]。

由各麦克风的相差构成的向量由方程[6.3]给出并称为导向向量。它除以麦克风的数量n的平方根以便把向量的范数正规化为1。

在下面的描述中，参考点m与麦克风i的位置m_i相同。

接下来，将描述掩模产生方法。

由方程[6.3]给出的导向向量S(ω，t)能够视为表示在仅目标声音有效的情况下的理想相差。也就是说，它对应于图3中显示的直线31。相应地，也从观测信号计算相差向量(对应于相差点33和34)，以计算它们相对于导向向量的相似性。相似性对应于图3中显示的距离32。基于相似性，能够计算干扰声音的混合的程度，从而基于相似性的值，能够产生时频掩模。也就是说，相似性越高，干扰声音的混合的程度变得越小，从而掩模值增加。

使用特定方程[6.4]至[6.7]计算掩模值。方程[6.4]中的U(ω，t)是作为参考点的麦克风i和其它麦克风之间的观测信号的相位的差异，假设它的元素是U_1(ω，t)至U_n(ω，t)(方程[6.5])。为了排除麦克风的灵敏度的不规则的影响，U(ω，t)的元素除以它们各自的绝对值以提供U’(ω，t)。方程[6.6]除以麦克风的数量n的平方根以便把向量的范数正规化为1。

作为导向向量S(ω，t)和观测信号的相差的向量U’(ω，t)之间的相似性，计算内积S(ω，t)^H·U’(ω，t)。这两个向量都具有大小1并且它们的内积的绝对值被正规化为0至1，从而该值能够直接用作掩模值(方程[6.7])。

接下来，将参照图8描述用于从掩模值产生作为参考信号的时间包络的方法。

基本处理是下面的处理序列。

基于图8中显示的观测信号171(也就是说，目标声音的声音片段单位中的观测信号171)，执行步骤S21中的掩模产生处理以产生时频掩模172。

接下来，在步骤S22中，通过把产生的时频掩模172应用于观测信号171，产生掩蔽结果173作为应用时频掩模的结果。

另外，在步骤S23中，针对每个频率窗口计算时间包络以对相对较好地执行提取的多个频率窗口之间的时间包络求平均值，由此获得接近目标声音的时间包络的时间包络作为参考信号(参考)(情况1)181。

利用方程[6.8]或者方程[6.9]能够获得时频掩蔽结果Q(ω，t)。方程[6.8]把掩模应用于麦克风k的观测信号，方程[6.9]把它们应用于延迟求和阵列的结果。

延迟求和阵列是通过提供具有不同时间延迟的麦克风的观测信号、对齐来自目标声音的方向的信号的相位并且对观测信号求和获得的数据。在延迟求和阵列的结果中，因为对齐的相位而导致目标声音被增强，并且来自其它方向的声音因为它们在相位方面不同而被衰减。

方程[6.8]和[6.9]中给出的“J”是用于控制掩模效果的正实数，它的值越大，掩模的效果越大。换句话说，当声源与方向φ相隔较远时这种掩模具有大的效果，并且J的值越大，能够使衰减的程度越大。

在对频率窗口之间的Q(ω，t)求平均值之前，在时间方向上把幅度正规化以提供结果Q’(ω，t)(方程[6.10])。通过正规化，可以抑制低频率窗口的时间包络的过大影响。

通常，声音的频率分量越低，声音具有越大的功率，从而如果仅仅在频率窗口之间对时间包络求平均值，则在低频的时间包络变为占主导地位。然而，通过基于相差的时频掩蔽，频率越低，时间包络变得越占主导地位，从而通过简单的求平均值获得的时间包络很可能不同于目标声音的时间包络。

通过对频率窗口的时间包络求平均值获得参考信号r(t)(方程[6.11])。方程[6.11]意味着对时间包络的L次幂求平均值(即，针对属于集合Ω的频率窗口的时间包络的元素升高为L次幂)，并且最后计算它的L次方根，其中L是正实数。集合Ω是所有频率窗口的子集并且由例如方程[6.12]给出。这个方程中的ω_min和ω_max分别表示通过使用时频掩蔽进行的提取可能成功的频率窗口的上限和下限。(例如，使用根据实验获得的固定值。)

如此计算的r(t)用作参考信号。

关于参考信号r(t)，可存在更容易的产生方法。

这种处理用于产生图8中显示的参考信号(情况2)182。

通过这种处理，执行用于直接对在步骤S21中在观测信号的基础上生成的时频掩模172＝频率窗口之间的时频掩模M(ω，t)求平均值的处理作为步骤S24中的参考信号产生处理以产生参考信号(参考)182(情况2)。

这种处理由方程[6.13]给出。在这个方程中，L和Ω与方程[6.11]相同。如果使用方程[6.13]，则不需要产生Q(ω，t)或者Q’(ω，t)，从而与方程[6.11]相比能够减少使用的计算量(计算成本)和存储器。

下面将描述：作为产生的参考信号(参考)，方程[6.13]具有与方程[6.11]几乎相同的性质。

在方程[3.4]和[4.10]中的加权协方差矩阵(<·>_t的项)的计算中，初看起来，好像在帧编号t处参考信号r(t)越小或者观测信号X(ω，t)越大，帧的值对加权协方差矩阵具有越大的影响。

然而，X(ω，t)也用在r(t)的计算中(方程[6.8]或者方程[6.9])，从而如果X(ω，t)较大，则r(t)也增加，以至于对协方差矩阵具有较小的影响。因此，r(t)具有小值的帧在很大程度上受影响并根据方程[6.8]或者方程[6.9]的关系而依赖于掩模值M(ω，t)。

另外，掩模值M(ω，t)通过方程[6.7]而局限于0和1之间，因此具有与正规化的信号(例如，Q’(ω，t))相同的趋势。也就是说，即使在频率窗口之间对M(ω，t)简单地求平均值，低频率窗口的分量也不会变为占主导地位。

毕竟，无论从Q’(ω，t)和M(ω，t)中的哪一个计算参考信号r(t)，都获得几乎相同的轮廓形状。虽然这二者具有不同的参考信号标度，但利用方程[3.4]或者方程[4.10]计算的提取滤波器不受参考信号标度影响，从而无论使用Q’(ω，t)和M(ω，t)中的哪一个，都获得相同的提取滤波器和相同的提取结果。

能够使用产生参考信号的各种其它方法。稍后将详细描述这些方法作为变型。

[2.本发明的声音信号处理装置的详细结构和特定处理]

以上[项1]已描述本发明的声音信号处理装置的总体结构和处理的概述和下面两条处理的细节。

(1)使用目标声音的时间包络作为参考信号(参考)的声源提取处理

(2)在目标声音方向上使用时频掩蔽的目标声音的时间包络产生处理

接下来，将描述本发明的声音信号处理装置的详细结构和特定处理的实施例。

(2-1.声音信号处理装置的结构)

声音信号处理装置的结构例子显示在图9中。

图9显示比参照图4描述的结构更详细的结构。

如以上参照图4所述，声音信号处理装置100具有：声音信号输入单元101，由多个麦克风构成；观测信号分析单元102，用于从声音信号输入单元101接收输入信号(观测信号)并对输入信号执行分析处理，具体地讲，例如检测待提取的目标声源的声音片段和方向；和声源提取单元103，用于在由观测信号分析单元102检测的目标声音的声音片段单位间从观测信号(混合了多种声音的信号)检测目标声源的声音。由声源提取单元103产生的提取目标声音的结果110被输出到例如后续阶段处理单元以执行处理，诸如例如语音识别。

如图9中所示，观测信号分析单元102具有AD转换单元211，AD转换单元211对利用作为声音信号输入单元101的麦克风阵列收集的多通道声音数据执行AD转换。如此产生的数字信号数据称为观测信号(在时域中)。

由AD转换单元211产生的作为数字数据的观测信号在STFT单元212经受短时傅立叶变换(STFT)，其中它被转换成时频域中的信号。这个信号称为时频域中的观测信号。

将参照图10详细描述在STFT单元212中执行的STFT处理。

例如，利用图9中显示的装置中的语音输入单元的包括n个麦克风的麦克风阵列中的第k个麦克风观测到图10中显示的(a)观测信号的波形x_k(＊)。

作为从观测信号取出的恒定长度数据的帧301至303被允许经受汉宁(Hanning)窗或者汉明(Hamming)窗函数。取出数据的单位称为帧。通过对一帧的数据执行短时傅立叶变换，获得作为频率范围中的数据的频谱X_k(t)，其中t是帧编号。

像图中显示的帧301至303一样，取出的帧可能彼此重叠，从而连续的帧的频谱X_k(t-1)至X_k(t+1)能够平滑地改变。另外，按照帧编号的次序排列的一系列频谱称为频谱图。图10(b)中显示的数据是频谱图的例子并提供时频域中的观测信号。

频谱X_k(t)是具有M个元素的向量，其中第ω元素表示为X_k(ω，t)。

在STFT单元212中通过STFT产生的时频范围中的观测信号被发送给观测信号缓冲器221以及方向和片段估计单元213。

观测信号缓冲器221积累预定时间段(预定数量的帧)中的观测信号。这里积累的信号在声源提取单元103中用于例如获得提取沿预定方向到达的语音的结果。为了这个目的，在观测信号与时间(帧编号等)相关的条件下存储观测信号，从而以后能够拾取与预定时间(或者帧编号)对应的观测信号中的任何一个。

方向和片段估计单元213检测声源的开始时间(在该时间，声源开始有效)和它的结束时间(在该时间，声源结束有效)以及它的到达方向。如“常规技术的描述”中所介绍，为了估计开始时间和结束时间以及方向，存在使用麦克风阵列的方法和使用图像的方法，在本发明中能够使用它们中的任何一种方法。

在采用麦克风阵列的结构中，通过以下方式获得开始时间/结束时间和方向：获得STFT单元212的输出，在方向和片段估计单元213中利用MUSIC方法等估计声源方向，并跟踪声源方向。对于详细的方法，例如参见日本专利申请提前公开No.2010-121975。在通过使用麦克风阵列获得片段和方向的情况下，不需要成像元件222。

根据使用图像的方法，成像元件222用于捕捉正在发出声音的用户的脸的图像，由此分别检测图像中的嘴唇开始移动和停止移动的时间。然后，通过把嘴唇的位置转换成从麦克风观察的方向获得的值用作声源方向，而嘴唇开始和停止移动的时间分别用作开始时间和结束时间。对于详细的方法，参见日本专利申请提前公开No.10-51889等。

即使多个说话者同时发出声音，只要所有说话者的脸由成像元件捕捉，就能够针对图像中的每对嘴唇检测开始时间和结束时间以获得每一发声的片段和方向。

声源提取单元103使用观测信号和与发声片段对应的声源方向提取预定声源。稍后将描述细节。

声源检测的结果被作为提取结果110根据需要而发送给例如后续阶段操作处理单元，例如语音识别装置。一些语音识别装置具有声音片段检测功能，该功能能够省略。另外，语音识别装置经常具有用于检测语音特征的STFT功能，在把STFT功能与本发明组合的情况下在语音识别侧能够省略该功能。

这些模块由控制单元230控制。

接下来，将参照图11详细描述声源提取单元103。

片段信息401是图9中显示的方向和片段估计单元213的输出并包括声源有效的片段(开始时间和结束时间)及其方向。

观测信号缓冲器402与图9中显示的观测信号缓冲器221相同。

导向向量产生单元403通过使用方程[6.1]至[6.3]从片段信息401中所包含的声源方向产生导向向量404。

时频掩模产生单元405通过使用片段信息401中所包含的开始时间和结束时间从观测信号缓冲器402获得相关片段中的观测信号，并通过使用方程[6.4]至[6.7]从这个信号和导向向量404产生时频掩模406。

掩蔽单元407通过把时频掩模406应用于观测信号405或者稍后描述的滤波结果414产生掩蔽结果。该掩蔽结果相当于以上参照图8描述的掩蔽结果173。

参考信号产生单元409从掩蔽结果408计算时间包络的平均值以提供参考信号410。这种参考信号对应于以上参照图8描述的参考信号181。

另一方面，参考信号产生单元409从时频掩模406产生参考信号。这种参考信号对应于参照图8描述的参考信号182。

提取滤波器产生单元411通过使用方程[3.1]至[3.9]和[4.1]至[4.15]从参考信号410、相关片段中的观测信号和导向向量404产生提取滤波器412。导向向量用于从本征向量之中选择最佳的本征向量(参见方程[5.2]至[5.5])。

滤波单元413通过把提取滤波器412应用于相关片段中的观测信号405产生滤波结果414。

作为从声源提取单元103输出的提取结果415，可按原样使用滤波结果414，或者可把时频掩模应用于滤波结果。在后一情况下，滤波结果414被发送给掩蔽单元407，在掩蔽单元407应用时频掩模。它的掩蔽结果408用作提取结果415。

接下来，将参照图12详细描述提取滤波器产生单元411。

片段信息501、观测信号缓冲器502、参考信号503和导向向量504与图11中显示的各个片段信息401、观测信号缓冲器402、参考信号410和导向向量404相同。

去相关单元505基于片段信息501中所包括的开始时间和结束时间从观测信号缓冲器502获得相关片段中的观测信号，并通过使用方程[4.1]至[4.7]产生观测信号的协方差矩阵511、去相关矩阵512和去相关的观测信号506。

参考信号反映单元507从参考信号503和去相关的观测信号506产生与方程[4.11]的右侧对应的数据。这种数据称为加权协方差矩阵508。

本征向量计算单元509通过对加权协方差矩阵508(方程[4.11]的右侧)应用本征值分解获得本征值和本征向量，并基于与导向向量504的相似性选择本征向量。

选择后的本征向量存储在本征向量存储单元510中。

重新定标单元513调整存储在本征向量存储单元510中的选择后的本征向量的标度，从而可获得提取结果的所希望的标度。在这种情况下，使用观测信号的协方差矩阵511和去相关矩阵512。稍后将描述该处理的细节。

重新定标的结果作为提取滤波器存储在提取滤波器存储单元514中。

以这种方式，提取滤波器产生单元411从参考信号和去相关的观测信号计算加权协方差矩阵，并执行本征向量选择处理以从通过对加权协方差矩阵应用本征值分解获得的多个本征向量之中选择一个本征向量作为提取滤波器。

执行本征向量选择处理以选择与最小本征值对应的本征向量作为提取滤波器。另一方面，可执行处理以选择与同目标声音对应的导向向量最相似的本征向量作为提取滤波器。

关于该装置的结构的描述到此结束。

(2-2.由声音信号处理装置执行的处理的描述)

接下来，将参照图13和随后的附图描述由声音信号处理装置执行的处理。

图13是显示由声音信号处理装置执行的处理的总体顺序的流程图。

步骤S101中的AD转换和STFT是这样的处理：把输入到用作声音信号输入单元的麦克风的模拟声音信号转换成数字信号，然后通过STFT把它转换成时频域中的信号(频谱)。除了麦克风之外，可从文件或者网络输入声音信号。对于STFT，参见以上参照图10进行的描述。

由于在本实施例中存在多个(麦克风的数量)输入通道，所以把AD转换和STFT执行与通道的数量相同的次数。以下，在通道k、频率窗口ω和帧t的观测信号表示为X_k(ω，t)(方程[1.1])。另外，考虑STFT点的数量为c，每通道频率窗口的数量能够计算为M＝c/2+1。

步骤S102中的积累是这样的处理：积累在预定时间段(例如，10秒)期间通过STFT转换到时频范围的观测信号。换句话说，考虑与这个时间段对应的帧的数量为T，连续T帧的观测信号被积累在图9中显示的观测信号缓冲器221中。

步骤S103中的方向和片段估计检测声源的开始时间(在该时间，声源开始有效)和结束时间(在该时间，声源停止有效)以及它的到达方向。

如以上参照图9所述，这项处理可按照使用麦克风阵列的方法和使用图像的方法进行，在本发明中能够使用它们中的任何一种方法。

步骤S104中的声源提取产生(提取)与步骤S103中检测的片段和方向对应的目标声音。稍后将描述细节。

步骤S105中的后续阶段处理是使用提取结果的处理并且是例如语音识别。

最后，它分为继续该处理和停止该处理的两条分支，从而继续分支返回到步骤S101并且停止分支结束该处理。

接下来，将参照图14中显示的流程图详细描述步骤S104中执行的声源提取处理。

步骤S201中的片段调整是这样的处理：从图13中显示的流程的步骤S103中执行的方向和片段估计中检测的开始时间和结束时间计算适合估计提取滤波器的片段。稍后将描述细节。

在步骤S202中，从目标声音的声源方向产生导向向量。如以上参照图7所述，通过使用方程[6.1]至[6.3]的方法产生导向向量。步骤S201中的处理和步骤S202中的处理可不按照特定次序执行，因此可按照任何次序执行或者同时执行。

在步骤S203中，使用步骤S202中产生的导向向量产生时频掩模。使用方程[6.4]至[6.7]产生时频掩模。

接下来，在步骤S204中，使用参考信号产生提取滤波器。稍后将描述细节。在这个阶段，仅执行滤波器产生，而不产生提取结果。

这里，将早于步骤S205中的功率比计算和步骤S206中的分支条件描述步骤S207。

在步骤S207中，把提取滤波器应用于与目标声音的片段对应的观测信号。也就是说，下面的方程[9.1]应用于片段中的所有帧(所有t)和所有频率窗口(所有ω)。

Y(ω，t)＝W(ω)X(ω，t)......[9.1]

Y′(ω，t)＝M(ω，t)^KY(ω，t)......[9.2]

除了如此获得的提取结果之外，可根据需要进一步应用时频掩模。这对应于图14中显示的步骤S208中的处理。括号表示这项处理能够省略。

也就是说，在步骤S203中获得的时频掩模M(ω，t)被应用于利用方程[9.1]获得的Y(ω，t)(方程[9.2])。然而，方程[9.2]中的K是不小于0的实数和与方程[6.8]或[6.9]中的J或者方程[6.13]中的L分开地设置的值。通过考虑K＝0，它意味着不应用掩模，从而K值越大，掩模具有越大的效果。也就是说，去除干扰声音的效果变大，而音乐噪声的副作用也变大。

由于在步骤S208中应用掩模的目的在于去除不能在步骤S207中通过滤波完全去除的干扰声音，所以不必把掩模的效果扩大太多，从而K可以等于例如1(K＝1)。结果，与仅通过时频掩蔽执行的声源提取(参见常规方法)相比，能够减小音乐噪声等的副作用。

接下来，将参照图15描述在步骤S201中执行的片段调整的细节和为什么执行这种处理的原因。图15显示片段图像，其中它的垂直轴给出声源方向并且它的水平轴给出时间。假设待提取的目标声音的片段(声音片段)是片段(声音片段)601。假设片段602是在目标声音开始有效之前的干扰声音有效的片段。假设干扰声音的片段602的大约末尾在时间方面与目标声音的片段601的开始重叠并且这个重叠区域由重叠区域611表示。

在步骤S201中执行的片段调整基本上是这样的处理：在时间方面向后和向前延长在图13中显示的流程的步骤S103中的方向和片段估计中获得的片段。然而，在实时处理的情况下，在片段结束之后，不存在观测信号，从而主要是该片段在时间方面沿向前方向延长。下面将描述为什么执行这种处理的原因。

为了从图15中显示的目标声音的片段601中所包括的重叠区域611去除干扰声音，更有效地，在用于提取滤波器产生的片段(以下称为“滤波器产生片段”)中应该尽可能多地包含干扰声音。相应地，准备通过沿相反时间方向移动开始时间605获得的时间604，以采用从时间604到结束时间606的时间段作为滤波器产生片段。时间604不必调整至干扰声音开始有效的时间并且可从时间605移动预定时间(例如，一秒)。

另外，甚至在目标声音的片段不足预定时间段时，也调整片段。例如，滤波器产生片段的最小时间段设置为一秒，从而如果检测到的目标声音的片段是0.6秒，则在该片段的开始之前的0.4秒的时间段被包括在滤波器产生片段中。

如果从文件读取观测信号，则也能够获取目标声音的片段结束之后的观测信号，从而结束时间能够沿时间方向延长。例如，在图15中通过设置经把目标声音的结束时间606移动预定时间段获得的时间607，从时间604到时间607的时间段被用作滤波器产生片段。

以下，与发声片段601对应的帧编号的集合表示为T_IN(也就是说，图15中显示的T_IN609)，并且通过片段的延长包括的帧编号的集合表示为T_OUT(也就是说，图15中显示的T_OUT608、610)。

接下来，将参照图16中显示的流程图详细描述在图14的流程中的步骤S204中执行的提取滤波器产生处理。

在图16中显示的流程图中的产生参考信号的步骤S301和S303之中，在使用对于所有频率窗口共同的参考信号的情况下在步骤S301中产生参考信号，并且在针对不同频率窗口使用不同参考信号的情况下在步骤S303中产生参考信号。

以下，将首先描述使用共同参考信号的情况，并且稍后在变型的项中描述针对不同频率窗口使用不同参考信号的情况。

在步骤S301中，使用上述方程[6.11]和[6.13]产生对于所有频率窗口共同的参考信号。

步骤S302至步骤S309构成频率窗口的循环，从而针对每个频率窗口执行步骤S303至步骤S308的处理。

步骤S303中的处理将在稍后描述。

在步骤S304中，对观测信号进行去相关。具体地讲，使用上述方程[4.1]至[4.7]产生去相关的观测信号X’(ω，t)。

如果在观测信号的协方差矩阵R(ω)的计算中用下面的方程[7.1]至[7.3]替代方程[4.3]，则在图14中显示的流程中的步骤S205中的功率计算中能够重新使用协方差矩阵，由此减小它的计算成本。

R_{IN} (ω) = {< X (ω, t) X {(ω, t)}^{H} >}_{t &Element; T_{IN}} \cdot \cdot \cdot [7.1]

R_{OUT} (ω) = {< X (ω, t) X {(ω, t)}^{H} >}_{t &Element; T_{OUT}} \cdot \cdot \cdot [7.2]

R (ω) = \frac{| T_{IN} | R_{IN} (ω) + | Y_{OUT} | R_{OUT} (ω)}{| Y_{IN} | + | T_{OUT} |} \cdot \cdot \cdot [7.3]

P_{IN} = \underset{ω}{Σ} W (ω) R_{IN} (ω) W {(ω)}^{H} \cdot \cdot \cdot [7.4]

P_{OUT} = \underset{ω}{Σ} W (ω) R_{OUT} (ω) W {(ω)}^{H} \cdot \cdot \cdot [7.5]

方程[7.1]和[7.2]中的R_{IN}(ω)和R_{OUT}(ω)是分别从图15中显示的T_IN和T_OUT的片段计算的观测信号的协方差矩阵。另外，方程[7.3]中的|T_IN|和|T_OUT|分别表示片段T_IN和T_OUT中的帧的数量。

在步骤S305中，计算加权协方差矩阵。具体地讲，从参考信号r(t)和去相关的观测信号X’(ω，t)计算上述方程[4.11]的左侧的矩阵。

在步骤S306中，对加权协方差矩阵执行本征值分解。具体地讲，加权协方差矩阵被分解成方程[4.11]的右侧的形式。在步骤S307中，选择在步骤S306中获得的本征向量中的合适的本征向量作为提取滤波器。具体地讲，使用上述方程[5.1]采用与最小本征值对应的本征向量或者使用方程[5.2]至[5.5]采用与目标声音的声源方向最近的本征向量。

接下来，在步骤S308中，对在步骤S307中选择的本征向量执行标度调整。将如下描述这里执行的处理及其原因。

在步骤S306中获得的每个本征向量相当于方程[4.8]中的W’(ω)。也就是说，它是用于对去相关的观测信号执行提取的滤波器。

相应地，为了把滤波器应用于去相关之前的观测信号，需要某种转换。

另外，虽然当获得提取滤波器时把方差＝1的约束条件应用于滤波结果Y(ω，t)(方程[3.2])，但目标声音的方差不同于1。因此，需要通过使用任何其它方法估计目标声音的方差并使提取结果的方差与它一致。

两种调整操作可由下面的方程[8.4]给出。

g(ω)＝e_iR(ω){W′(ω)P(ω)}^H ......[8.1]

e_i＝[0，…，0，1，0，…，0]......[8.2]

g(ω)＝S(ω，θ)^HR(ω){W′(ω)P(ω)}^H......[8.3]

W(ω)←g(ω)W′(ω)P(ω)......[8.4]

g (ω) = \underset{g (ω)}{\arg \min} {< | X_{i} (ω, t) - g (ω) Y {(ω, t) |}^{2} >}_{t} \cdot \cdot \cdot [8.5]

g (ω) = \underset{g (ω)}{\arg \min} {< | S {(ω, θ)}^{H} X (ω, t) - g (ω) Y {(ω, t) |}^{2} >}_{t} \cdot \cdot \cdot [8.6]

这个方程中的P(ω)是去相关矩阵并具有一定作用，从而W’(ω)可对应于去相关之前的观测信号。

利用方程[8.1]或者[8.3]计算g(ω)并且g(ω)具有一定作用以使提取结果的方差可与目标声音的方差一致。在方程[8.1]中，e_i是行向量，仅它的第i个元素是1并且它的其它元素是0(方程[8.2])。另外，后缀i表示第i个麦克风的观测信号用于标度调整。

下面将描述方程[8.1]和[8.3]的含义。

考虑把标度调整之前的提取结果Y(ω，t)乘以标度g(ω)以接近观测信号中所包含的从目标声音得到的分量。通过使用利用第i个麦克风观测的信号作为观测信号，标度g(ω)能够作为使平方误差最小化的项由方程[8.5]给出。利用方程[8.1]能够获得满足这个方程的g(ω)。在该方程中，X_i(ω，t)＝e_iX(ω，t)。

类似地，如果考虑使用延迟求和阵列的结果替代观测信号来接近该结果中所包含的从目标声音得到的分量，则标度g(ω)能够由方程[8.6]给出。利用方程[8.3]能够获得满足这个方程的g(ω)。

通过针对所有频率窗口执行步骤S303至S308，产生提取滤波器。

接下来，将描述图14的流程中的步骤S205中的功率比计算和步骤S206中的分支处理。执行这些条处理以便允许声源提取跳过通过错误检测等产生的额外的片段，换句话说，丢弃错误检测到的片段。

例如，在仅基于嘴唇的移动检测片段的情况下，即使仅嘴唇移动而用户未发出声音，它也可能被检测为发声片段。另外，在基于声源方向检测片段的情况下，具有方向性的任何声源(除背景噪声之外)可能被检测为发声片段。通过在提取声源之前检查这种错误检测到的片段，可以减少计算量并防止由错误检测导致的错误反应。

同时，在步骤S204中计算提取滤波器并且在片段里面和外面计算观测信号的协方差矩阵，从而通过使用这二者，可以在把提取滤波器应用于片段的里面和外面的每一个的情况下计算方差(功率)。通过使用两种功率之比，能够在某种程度上决定错误检测。这是因为，错误检测到的片段并不伴随有语音的发声，从而认为片段里面和外面的功率比很小(片段里面和外面的功率几乎相同)。

相应地，在步骤S205中，使用以上方程[7.4]计算片段中的功率P_IN并且使用方程[7.5]计算片段里面和外面的各功率。这些方程中的“∑”表示所有频率窗口的总和，R_IN(ω)和R_OUT(ω)是观测信号的协方差矩阵并且从分别与图15中的T_IN和T_OUT对应的片段计算R_IN(ω)和R_OUT(ω)(方程[7.1]、[7.2])。

然后，在步骤S206中，决定这二者之比(也就是说，P_IN/P_OUT)是否超过预定阈值。如果不满足该条件，则决定检测是错误的，以跳过步骤S207和S208并丢弃有关片段。

如果满足该条件，则这意味着与片段外面的功率相比片段里面的功率足够大，从而前进到步骤S207以产生提取结果。

这里，处理的描述结束。

[3.变型]

下面将顺序描述下面三种变型例子。

(1)参考信号用于不同频率窗口的例子

(2)通过在一些频率窗口执行ICA产生参考信号的例子

(3)通过多个通道记录声音以在再现时应用本发明的例子

(4)其它目的函数

这些将描述如下。

(5)产生参考信号的其它方法

(6)在分离滤波器的估计中使用奇异值分解的处理

(7)对实时声源提取的应用

这些将在以下描述。

(3-1.参考信号用于不同频率窗口的例子)

利用上述方程[6.11]或者[6.13]计算的参考信号对于所有频率窗口是共同的。然而，目标声音的时间包络通常对于所有频率窗口不是共同的。因此，存在这样的可能性：如果能够估计目标声音的每个频率窗口的包络，则能够更准确地提取声源。

将参照图17和下面的方程[10.1]至[10.5]描述为每个频率窗口计算参考信号的方法。

r(ω，t)＝{<|Q′(ω，t)|^L>_{α(ω)≤ω≤β(ω)}}^1/L ......[10.1]

r(ω，t)＝{<M(ω，t)^L>_{α(ω)≤ω≤β(ω)}}^1/L......[10.2]

图17(a)显示产生对于所有频率窗口共同的参考信号的例子。它适应这样的情况：使用方程[6.11]或者[6.13]，以通过在屏蔽结果(当使用方程[6.1]时)或者时频掩模(当使用方程[6.13]时)中使用频率窗口ω_min至ω_max计算共同参考信号。

图17B显示为每个频率窗口产生参考信号的例子。在这种情况下，应用方程[10.1]或者[10.2]，以分别从掩蔽结果或者时频掩模计算参考信号。方程[10.1]与方程[6.11]的不同之处在于：进行求平均值的范围取决于频率窗口ω。相同的差异也存在于方程[10.2]和方程[6.13]之间。

进行求平均值的频率窗口的下限α(ω)和上限β(ω)由取决于ω的值的方程[10.3]至[10.5]给出。然而，“h”表示该范围的宽度的一半。

方程[10.4]表示：如果ω落在预定范围中，则对ω-h至ω+h的范围进行求平均值，从而可针对不同的频率窗口获得不同的参考信号。

方程[10.3]和[10.5]表示：如果ω落在所述预定范围之外，则对固定范围进行求平均值，从而可防止参考信号受到低频率窗口或者高频率窗口的分量影响。

图17中的参考信号708和709表示从方程[10.3]的范围计算的参考信号，它们彼此相同。类似地，参考信号710表示从方程[10.4]的范围计算的参考信号并且参考信号711和712表示从方程[10.5]的范围计算的参考信号。

(3-2.通过在一些频率窗口执行ICA产生参考信号的例子)

接下来，将描述通过在一些频率窗口执行ICA产生参考信号的例子。

虽然上述方程[6.1]至[6.14]已使用时频掩蔽产生参考信号，但可利用ICA获得参考信号。也就是说，该例子组合通过使用ICA进行的分离和通过使用本发明进行的提取。

基本处理如下。在有限频率窗口中应用ICA。通过对分离的结果求平均值，产生参考信号。

基于应用ICA的分离的结果的参考信号的产生也描述于本申请人的早前专利申请(日本专利申请提前公开No.2010-82436)中，根据该专利申请，通过对使用参考信号的剩余频率窗口(或者所有频率窗口)应用ICA执行内插；然而，在本发明的变型中，应用通过使用参考信号执行的声源提取。也就是说，从作为ICA的输出的n个分离结果之中，通过使用声源方向等选择与目标声音对应的一个结果以从这项选择的分离的结果产生参考信号。如果获得参考信号，则通过把上述方程[4.1]至[4.14]应用于剩余频率窗口(或者所有频率窗口)来获得提取滤波器和提取结果。

(3-3.通过多个通道记录声音以在再现时应用本发明的例子)

接下来，将参照图18描述通过多个通道记录声音以在再现时应用本发明的例子。

在上述图9中的结构中，假设进入由麦克风阵列构成的声音信号输入单元101的声音马上被用于声源提取；然而，可插入记录声音(把它保存在文件中)和再现它(从文件读取它)的步骤。也就是说，例如，可采用图18中显示的结构。

在图18中，多通道记录器811在记录单元802中对输入到由麦克风阵列构成的声音信号输入单元801的声音执行AD转换等，从而声音被作为多通道信号未被改变地保存在记录介质中作为记录的声音数据803。“多通道”在这里意味着使用多个通道，特别地例如，使用至少三个通道。

当对来自记录的声音数据803的特定声源执行声音提取处理时，记录的声音数据803由数据读取单元805读取。作为随后的处理，在具有STFT单元806以及方向和片段估计单元808的观测信号分析单元820、观测信号缓冲器807和声源提取单元809中执行几乎与由参照图9描述的STFT单元212执行的处理和其它处理相同的处理，由此产生提取结果810。

在图18中显示的结构的情况下，通过在记录时把声音保存为多通道数据，可以在以后应用声源提取。也就是说，在例如以后对记录的声音数据应用语音识别的情况下，与把声音数据记录为单声道数据相比，通过把声音数据记录为多通道数据，可以提高语音识别的准确性。

此外，多通道记录器811可装备有照相机等以在用户的嘴唇图像和多通道声音数据彼此同步的条件下记录声音数据。在读取这种数据的情况下，可在方向和片段估计单元808中使用通过使用嘴唇图像进行的发声方向和片段检测。

(3-4.使用其它目的函数的例子)

目的函数是指将要被最小化或者最大化的函数。虽然在根据本发明的声源提取中方程[3.3]用作目的函数以将其最小化，但能够使用任何其它目的函数。

下面的方程[11.1]和[11.2]分别是被用来替代方程[3.3]和[3.4]的目的函数的例子；通过获得使它们最大化的W(ω)，也能够提取信号。原因将会描述如下。

W (ω) = \underset{W (ω)}{\arg \max} {< | Y {(ω, t) |}^{2} r {(t)}^{N} >}_{t} \cdot \cdot \cdot [11.1]

W (ω) = \underset{W (ω)}{\arg \max} W (ω) {< X (ω, t) X {(ω, t)}^{H} r {(t)}^{N} >}_{t} W {(ω)}^{H} \cdot \cdot \cdot [11.2]

{< | Y {(ω, t) |}^{2} r {(t)}^{N} >}_{t} \leq \sqrt{{< | Y {(ω, t) |}^{4} >}_{t}} \sqrt{{< r {(t)}^{2 N} >}_{t}} \cdot \cdot \cdot [11.3]

W^{'} (ω) = \underset{W (ω)}{\arg \max} W^{'} (ω) {< X^{'} (ω, t) X^{'} {(ω, t)}^{H} r {(t)}^{N} >}_{t} W^{'} {(ω)}^{H} \cdot \cdot \cdot [11.4]

<X′(ω，t)X′(ω，t)^Hr(t)^N>＝A(ω)B(ω)A(ω)^H _t .......[11.5]

l = \underset{k}{\arg \max} [b_{k} (ω)] \cdot \cdot \cdot [11.6]

方程[11.3]的不等式通常在符合上面表达式中的“arg max”的部分上成立，而等式在方程[3.6]的关系成立时成立。当<|Y(ω，t)|^4>_t最大化时，这个方程的右侧最大化。<|Y(ω，t)|^4>_t对应于称为信号峰度(kurtosis)的量并在Y不包含干扰声音(仅目标声音出现)时最大化。因此，如果参考信号r(t)^N与目标声音的时间包络一致，则使方程[11.1]和[11.2]的左侧最大化的W(ω)与使它们的右侧最大化的W(ω)一致并提供用于提取目标声音的滤波器。

方程[11.1]和[11.2]的最大化几乎与方程[3.3]和[3.4]的最小化相同并且使用方程[4.1]至[4.14]执行方程[11.1]和[11.2]的最大化。

首先，使用方程[4.1]至[4.7]产生去相关的观测信号X’(ω，t)。通过替代于方程[4.10]使方程[11.4]最大化获得用于从这个X’(ω，t)提取目标声音的滤波器。为了这个目的，把本征值分解应用于方程[11.4]中的<·>_t的部分(方程[11.5])。在这个方程中，A(ω)是由本征向量构成的矩阵(方程[4.12])并且B(ω)是由本征值构成的对角矩阵(方程[4.14])。本征向量之一提供用于提取目标声音的滤波器。

对于最大化问题，这个例子使用方程[11.6]替代方程[5.1]来选择与最大本征值对应的本征向量。另一方面，可使用方程[5.2]至[5.5]选择本征值。方程[5.2]至[5.5]能够共同用于最小化问题和最大化问题，因为它们用于选择与目标声音的方向对应的本征向量。

(3-5.产生参考信号的其它方法)

以上，已描述用于计算参考信号r(t)的处理例子的多个处理例子，所述参考信号r(t)对应于表示在时间方向上目标声音音量的变化的时间包络。参考信号计算例子可以是下面的任何一种：

(1)用于计算通过对频率窗口的时间包络求平均值获得的对于所有频率窗口共同的参考信号的处理(方程[6.11])

(2)用于计算通过对在频率窗口上在观测信号的基础上产生的时频掩模M(ω，t)(例如，在图6中的时频掩模172的情况下)求平均值获得的对于所有频率窗口共同的参考信号的处理(方程[6.13])

(3)以上变型(3-1)中描述的用于为不同频率窗口计算不同参考信号的处理，具体地讲，基于掩蔽的结果为每个频率窗口ω计算参考信号(方程[10.1])

(4)以上变型(3-1)中描述的用于为不同频率窗口计算不同参考信号的处理，具体地讲，基于时频掩模为每个频率窗口ω计算参考信号(方程[10.2])

(5)以上变型(3-2)中描述的用于通过对一些频率窗口执行ICA产生参考信号的处理，具体地讲，通过对有限频率窗口执行ICA并对所获得的分离结果求平均值产生参考信号

例如，已描述这些各种各样的参考信号计算处理例子。

下面将描述除这些方法之外的参考信号产生处理例子。

前面，在“背景技术”中的“B.应用常规技术的问题解决处理的特定例子”中，已概述了下面在提取中使用已知声源方向和片段的声源提取方法。

B1-1：延迟求和阵列

B1-2：最小方差波束形成器

B1-3：最大SNR波束形成器

B1-4：基于目标声音去除和减法的方法

B1-5：基于相差的时频掩蔽

这些常规声源提取方法中的许多方法能够应用于作为参考信号的时间包络的产生。

换句话说，例如，仅在本发明的参考信号产生处理中能够使用以上常规声源提取方法，从而通过如此把已有声源提取方法仅应用于参考信号的产生并通过使用产生的参考信号执行根据本发明的处理的随后的声源提取处理，能够提取声源，避免根据所描述的常规方法的声源提取处理的问题。

例如，将执行“背景技术”中描述的通过使用(B1-1：延迟求和阵列)进行的声源提取处理作为下面的处理。

通过把不同时间延迟给予每个麦克风的观测信号以使来自目标声音的方向的信号的相位一致并随后对观测信号求和，目标声音被增强，因为它的相位一致，并且来自任何其它方向的声音衰减，因为它们的相位稍微彼此不同。具体地讲，假设S(ω，θ)是与方向θ对应的导向向量(表示麦克风之中沿某一方向到达的声音的相位的差异的向量)，这项处理通过使用以上给出的方程[2.1]获得提取结果。

从延迟求和阵列处理结果，能够产生参考信号。

对于来自延迟求和阵列处理结果的参考信号，可很好地使用下面的方程[12.1]替代方程[6.8]。

Q(ω，t)＝S(ω，θ)^HX(ω，t) ......[12.1]

Q (ω, t) = \frac{S {(ω, θ)}^{H} R {(ω)}^{- 1}}{S {(ω, θ)}^{H} R {(ω)}^{- 1} S (ω, θ)} X (ω, t) \cdot \cdot \cdot [12.2]

H(ω，t)＝X(ω，t)-S(ω，θ)^HX(ω，t)S(ω，θ) ......[12.3]

Q_k(ω，t)＝max(|X_k(ω，t)|-|H_k(ω，t)|，0) ......[12.4]

Q (ω, t) = Σ_{k = 1}^{n} Q_{k} (ω, t) \cdot \cdot \cdot [12.5]

如稍后描述的实验结果中所示，通过从延迟求和阵列处理结果产生一次参考信号并使用它以由此根据本发明的方法提取声源，与通过仅使用延迟求和阵列执行声源提取的情况相比，获得更准确的提取结果。

类似地，将执行“背景技术”中描述的通过使用(B1-2：最小方差波束形成器)进行的声源提取处理作为下面的处理。

通过形成在目标声音的方向上具有增益1(也就是说，不增强也不衰减目标)并且在干扰声音的方向上具有零波束(具有更低灵敏度的方向)的滤波器，这项处理仅提取目标声音。

当通过经使用最小方差波束形成器应用声源提取处理产生参考信号时，使用以上给出的方程[12.2]。在方程[12.2]中，R(ω)是在以上给出的方程[4.3]中计算的观测信号的协方差矩阵。

另外，将执行“背景技术”中描述的通过使用(B1-4：基于目标声音去除和减法的方法)进行的声源提取处理作为下面的处理。

通过产生经从观测信号去除目标声音获得的信号(去除了目标声音的信号)并从观测信号(或者通过经延迟求和阵列等增强了目标声音获得的信号)减去这个去除了目标声音的信号，这项处理提取目标声音。

根据这种方法，该处理包括两个步骤“目标声音的去除”和“减法”，将分别描述这两个步骤。

为了去除目标声音，使用以上给出的方程[12.3]。该方程用于去除从方向θ到达的声音。

为了执行相减，使用谱相减(SS)。替代于按照原样减去复数域中的信号，谱相减包括仅减去复数的大小，并且该谱相减由以上给出的方程[12.4]表示。

在方程[12.4]中，

H_k(ω，t)是向量H(ω，t)的第k个元素；并且

max(x，y)表示采用自变量x和y中的较大的一个并用于防止复数的大小变负。

由方程[12.4]计算的谱相减结果Q_k(ω，t)是这样的信号，即该信号的目标声音被增强，但谱相减结果Q_k(ω，t)具有这样的问题：由于它由谱相减(SS)产生，所以如果它用作声源提取结果本身(例如，通过逆傅立叶变换产生波形)，则声音可能失真或者可能出现音乐噪声。然而，只要它根据本发明用作参考信号，谱相减(SS)的结果就不需要变换成波形，由此能够避免这些问题。

为了产生参考信号，使用以上给出的方程[12.5]。另一方面，对于k的特定值可仅给出Q(ω，t)＝Q_k(ω，t)，其中k对应于向量H(ω，t)的元素的索引。

另一参考信号产生方法可以是从根据本发明的声源提取结果产生参考信号。也就是说，将执行下面的处理。

首先，使用以上给出的方程[3.1]产生声源提取结果Y(ω，t)。

接下来，把声源提取结果Y(ω，t)视为以上给出的方程[6.10]中的Q(ω，t)，使用方程[6.11]再次产生参考信号。

方程[6.10]计算Q’(ω，t)，Q’(ω，t)是在时间方向上把时频掩蔽结果Q(ω，t)的幅度正规化的结果，其中例如在方程[6.8]中计算Q(ω，t)。

方程[6.11]用于通过使用利用方程[6.10]计算的Q’(ω，t)计算属于集合Ω的频率窗口之间的时间包络的L次方根均值(也就是说，使元素变为L次幂并对它们求平均值)，并且最后计算作为L次方根值的L次方根均值，也就是说，通过对在各频率窗口的时间包络求平均值计算参考信号r(t)。

使用以这种方式计算的参考信号，再次产生声源提取滤波器。

通过应用例如方程[3.3]执行这种声源提取滤波器产生处理。

如果第二次产生的参考信号在准确性方面比第一次产生的参考信号高(＝更接近目标声音的时间包络)，则能够获得更准确的提取结果。

另外，包括下面两个步骤的循环可重复任意次数：

(步骤1)从提取结果产生参考信号

(步骤2)再次产生提取结果

如果重复该循环，则计算成本增加；然而，获得的声源提取结果能够相应地具有更高的准确性。

(3-6.在分离滤波器的估计中使用奇异值分解的处理)

具有根据本发明的结构的声源提取处理基本上主要基于这样的处理(方程[1.2])：通过把观测信号X(ω，t)乘以提取滤波器W(ω)获得提取结果Y(ω，t)。提取滤波器W(ω)是包括n个元素的列向量并表示为方程[1.3]。

如早前参照方程[4.1]和随后的方程所述，通过下面的方式估计在声源提取处理中应用的提取滤波器：对观测信号进行去相关(方程[4.1])，通过使用它和参考信号计算加权协方差矩阵(方程[4.11]的左侧)，并把本征值分解应用于加权协方差矩阵(方程[4.11]的右侧)。

通过使用奇异值分解(SVD)替代本征值分解，能够减少这种处理的计算成本。

下面将描述通过使用奇异值分解估计提取滤波器的方法。

使用上述方程[4.1]对观测信号进行去相关以随后产生由方程[13.1]表示的矩阵C(ω)。

C (ω) = [\frac{X^{'} (ω, 1)}{r {(1)}^{N}}, . . ., \frac{X^{'} (ω, T)}{r {(T)}^{N}}] \cdot \cdot \cdot [13.1]

C(ω)＝A(ω)G(ω)K(ω)^H ......[13.2]

A(ω)^HA(ω)＝I ......[13.3]

K(ω)^HK(ω)＝I ......[13.4]

D (ω) = \frac{1}{T} G (ω) G {(ω)}^{H} \cdot \cdot \cdot [13.5]

由方程[13.1]表示的矩阵C(ω)称为加权观测信号矩阵。

也就是说，通过使用参考信号和去相关的观测信号产生加权观测信号矩阵C(ω)，该矩阵具有参考信号的N次幂(N是正实数)的倒数作为它的权重。

通过对这个矩阵执行奇异值分解，C(ω)分解成方程[13.2]的右侧的三矩阵积。在这个方程[13.2]中，A(ω)和K(ω)是分别满足方程[13.3]和[13.4]的矩阵并且G(ω)是包括奇异值的对角矩阵。

在以上给出的方程[4.11]和[13.2]之间进行比较，它们具有相同的矩阵A(ω)并且在D(ω)和G(ω)之间存在方程[13.5]的关系。也就是说，即使通过使用奇异值分解替代本征值分解，也能够获得相同的本征值和本征向量。由于在随后的处理中不使用矩阵K(ω)，所以在奇异值分解中能够省略K(ω)自身的计算。

在使用加权协方差矩阵的本征值分解的方法中，存在获得协方差矩阵的计算成本和未使用如此获得的协方差矩阵的大约一半元素的浪费，因为它具有厄米对称性。相比之下，在使用加权观测信号矩阵的奇异值分解的方法中，能够跳过协方差矩阵的计算并且另外不产生未使用的元素。

将参照图19的流程图描述通过使用奇异值分解产生提取滤波器的处理。

图19中显示的流程图中的步骤S501至S504分别与图16中显示的流程图中的步骤S301至S304相同。

在步骤S505中，产生加权观测信号矩阵C(ω)。它与由以上给出的方程[13.1]表示的矩阵C(ω)相同。

在下一步骤S506中，对在步骤S505中计算的加权观测信号矩阵C(ω)执行奇异值分解。也就是说，C(ω)分解成以上给出的方程[13.2]的右侧的三矩阵积。另外，使用方程[13.5]计算矩阵D(ω)。

在这个阶段，获得与在使用本征值分解的情况下的本征值和本征向量相同的本征值和本征向量，从而在随后步骤S507至S509中，将执行与上述图16的流程图中的步骤S307至S309中的处理相同的处理。以这种方式，产生提取滤波器。

(3-7.对实时声源提取的应用)

以上实施例基于这样的假设：应该针对每一发声执行提取处理。也就是说，在发声结束之后，通过声源提取产生目标声音的波形。这种方法在结合语音识别等使用的情况下没有问题，但在语音通信期间用于噪声消除(或者语音增强)的情况下具有延迟的问题。

然而，即使利用根据本发明的通过使用参考信号进行的声源提取方法，通过使用用于产生提取滤波器的观测信号的固定长度片段，也可以以小的延迟产生并输出提取结果而不必等待发声的结束。也就是说，类似于波束形成器技术的情况，可以实时地提取(增强)在特定方向上的声音。该方法将在以下描述。

在本变型中，假设声源方向θ可不针对每一发声被估计而是固定的。另一方面，方向指定装置可由用户操作以设置声源方向θ。另一方面，可在利用成像原件(图9中的222)获取的图像中检测用户的脸图像，以从检测到的脸图像的坐标计算声源方向θ。另外，利用成像元件(图9中的222)获取的图像可显示在显示器上，以允许用户通过使用各种定点装置(鼠标、触摸面板等)在图像中指定所希望的提取声源的方向。

将参照图20的流程图描述本变型中的处理，也就是说，以小延迟产生并输出提取结果而不必等待发声的结束的实时声源提取处理序列。

在步骤S601中，执行初始设置处理。

“t”是帧编号，其中代入0作为初始值。

步骤S602至S607构成循环处理，表示每次输入一帧的声音数据时将会执行的一系列处理步骤。

在步骤S602中，帧编号t增加1(一)。

在步骤S603中，对一帧的声音数据执行AD转换和短时傅立叶变换(STFT)。

短时傅立叶变换(STFT)与以上参照图10描述的处理相同。

一帧的数据是例如图10中显示的帧301至303之一，从而通过对一帧的数据执行加窗和短时傅立叶变换，获得一帧的频谱X_k(t)。

接下来，在步骤S604中，一帧的频谱X_k(t)积累在观测信号缓冲器(例如，图9中的观测信号缓冲器221)中。

接下来，在步骤S605中，检查是否完全处理预定数量的帧。

T’是1或者更大的整数；并且

t mod T’是通过把表示帧编号的整数t除以T’获得的余数。

这些分支条件表示：针对每预定T’个帧，将会把步骤S606中的声源提取处理执行一次。

仅在帧编号t是T’的倍数时，前进到步骤S606，否则前进到步骤S607。

在步骤S606中的声源提取处理中，积累的观测信号和声源方向用于提取目标声音。它的细节将在稍后描述。

如果步骤S606中的声源提取处理结束，则在步骤S607中决定循环是否继续；如果循环继续，则返回到步骤S602。

设置作为更新提取滤波器的频率的帧数T’的值，以使它可以比用于执行步骤S606中的声源提取处理的时间长。换句话说，如果作为帧数计算的声源提取处理时间的值小于更新频率T’，则可以实时执行声源提取而不会增加延迟。

接下来，将参照图21中显示的流程图详细描述步骤S606中的声源提取处理。

基本上，图21中显示的流程图在处理方面大部分与以上作为图13中显示的流程图的步骤S104中的声源提取处理的详细序列描述的图14中显示的流程图相同。然而，省略图14的流程中显示的关于功率比的处理(S205，S206)。

另外，它们彼此不同之处在于图21中显示的流程图中的步骤S704的提取滤波器产生处理和步骤S705中观测信号的哪个片段将会用于滤波处理。

步骤S701中的“切割片段”是指从积累在缓冲器(例如，图9中的221)中的观测信号中切割将会用于提取滤波器产生的片段。该片段具有固定长度。将参照图22描述从观测信号中切割固定长度片段的处理。

图22显示积累在缓冲器(例如，图9中的221)中的观测信号的频谱图。

它的水平轴给出帧编号并且它的垂直轴给出频率窗口编号。

由于一个麦克风产生一个频谱图，所以该缓冲器实际上积累n个(n是麦克风的数量)频谱图。

例如，假设：在步骤S701中的片段切割处理开始的时间点，积累在缓冲器(例如，图9中的221)中的观测信号的频谱图的最近帧编号t是图22中的t850。

严格地描述，在这个时间点，在帧编号t850的右侧没有频谱图。

假设T是用于提取滤波器产生的观测信号的帧的数量。T可设置为与以上在图20的流程图中应用的T’的值(也就是说，作为执行一次声源提取处理的单位的帧的规定数量T’)不同的值。

以下，假设T＞T’，其中T是用于提取滤波器产生的观测信号的帧的数量。例如，T设置为三秒(T＝3s)并且T’设置为0.25秒(T’＝0.25s)。

具有图22中显示的帧编号t 850作为其结束的长度T的片段由图22中显示的频谱图片段853表示。

在步骤S701中的片段切割处理中，切割与相关片段对应的观测信号的频谱图。

在步骤S701中的片段切割处理之后，在步骤S702中执行导向向量产生处理。

它与上述图14的流程图中的步骤S202中的处理相同。然而，在本实施例中假设声源方向θ是固定的，从而只要θ与前一θ相同，这项处理就能够被跳过以继续使用与前一导向向量相同的导向向量。

下一步骤S703中的时频掩模产生处理也基本上与图14的流程图的步骤S203中的处理相同。然而，在这个处理中使用的观测信号的片段是图22中显示的频谱图片段853。

步骤S704中的提取滤波器产生处理也基本上与图14的流程图的步骤S204中的处理相同；然而，在这个处理中使用的观测信号的片段是图22中显示的频谱图片段853。

也就是说，上述图16中显示的流程中的下列处理项全都使用图22中显示的频谱图片段853中的观测信号来执行：

步骤S301或者S303中的参考信号产生处理；

步骤S304中的去相关处理；

步骤S305中的协方差矩阵的计算；和

步骤S308中的重新定标。

在步骤S705中，步骤S704中产生的提取滤波器应用于预定片段中的观测信号以由此产生声源提取结果。

应用滤波器的观测信号的片段不需要是图22中显示的频谱图片段853的全部，而可以是频谱图片段差854，频谱图片段差854是相对于前一频谱图片段852的差。

这是因为，在先前对频谱图片段852的滤波中，提取滤波器应用于图22中显示的频谱图片段853的除频谱图片段差854之外的部分，从而已经获得与这个部分对应的提取结果。

也对频谱图片段差854执行步骤S706中的掩蔽处理。类似于图14的流程的步骤S208中的处理，步骤S706中的掩蔽处理能够省略。

关于实时声源提取的变型的描述到此结束。

[4.根据本发明的处理的效果的总结]

即使在误差被包括在目标声音的声源方向的估计值中的情况下，本发明的声音信号处理也能够以高准确性提取目标声音。也就是说，通过使用基于相差的时频掩蔽，即使目标声音方向包括误差，也能够以高准确性产生目标声音的时间包络；并且通过使用这个时间包络作为参考信号，以高准确性提取目标声音。

相对于各种提取方法和分离方法的优点如下。

(a)与最小方差波束形成器和Griffith-Jim波束形成器相比，

本发明不受在目标声音的方向上的误差影响。也就是说，通过使用时频掩模进行的参考信号产生包括即使在目标声音的方向上具有误差也产生几乎相同的参考信号(时间包络)，从而从参考信号产生的提取滤波器不受在该方向上的误差影响。

(b)与批处理中的独立分量分析相比，

本发明能够通过使用本征值分解等在没有迭代的情况下获得提取滤波器并需要更少的计算成本(＝小的延迟)。

因为单通道输出，所以在输出通道的选择中不存在错误。

(c)与实时独立分量分析和在线算法独立分量分析相比，

本发明通过使用发声片段的全部获得提取滤波器，从而从片段的开始到片段的结束能够获得以高准确性提取的结果。

此外，因为单通道输出，所以在输出通道的选择中不存在错误。

(d)与时频掩蔽相比，

本发明给出线性类型提取滤波器，从而音乐噪声不易发生。

(e)与零波束形成器和GSS相比，

即使目标声音的方向不清楚，只要能够检测到至少目标声音的方向，本发明就能够实现提取。也就是说，即使干扰声音的片段不能被检测到或者它的方向不清楚，也能够以高准确性提取目标声音。

另外，通过组合本发明与能够适应多个声源并且具有声源方向估计功能的声音片段检测器，在噪声环境和多个声源的环境中提高识别准确性。也就是说，即使在语音和噪声在时间方面彼此重叠或者多个人同时发声的情况下，只要所述多个声源发生在不同方向上，就能够提取所述多个声源，由此提高语音合成的准确性。

另外，为了确认根据上述专利公开的声源提取处理的效果，进行了评估实验。下面将描述评估实验的过程和效果。

首先，包括了评估声音的数据。所包括的环境显示在图23中。从设置于三个地点的扬声器901至903重放目标声音和干扰声音，同时使用以5cm的间隔分隔开的四个麦克风920获取声音。目标声音是语音并包括一个男人的25次发声和一个女人的25次发声。发声平均为大约1.8秒(225帧)。使用三种干扰声音：音乐、语音(由与目标声音不同的扬声器发出)和街道噪声(具有人流和车流的街道的声音)。

记录评估声音数据的房间的混响时间为大约0.3秒。另外，记录和短时傅立叶变换(STFT)设置如下。

采样率：16[kHz]

STFT窗口类型：汉宁窗

窗口长度：32[ms](512点)

移动宽度：8[ms](128点)

频率窗口的数量：257

目标声音和干扰声音彼此分开地被记录并在稍后在计算机中混合以由此产生多种类型的待评估的观测信号。以下，它们称为“混合观测信号”。

混合观测信号基于干扰声音的数量大体分为下面两组。

(1)在一种干扰声音的情况下：从三个扬声器A901至C903之一重放目标声音并且从剩余两个扬声器之一重放干扰声音并且它们被混合。

存在3(目标声音位置的数量)×50(发声的数量)×2(干扰声音位置的数量)×3(干扰声音的类型的数量)＝900种情况。

(2)在两种干扰声音的情况下：从三个扬声器A901至C903之中的扬声器A901重放目标声音并且从扬声器B902重放一种干扰声音并且从扬声器C903重放另一种干扰声音并且它们被混合。

存在1(目标声音位置的数量)×50(发声的数量)×2(干扰声音位置的数量)×3(一种干扰声音的类型的数量)×2(另一种干扰声音的类型的数量)＝600种情况。

在本实验中，针对每次发声对混合观测信号进行分段，从而“发声”和“片段”具有相同的含义。

为了比较，准备了下面四种方法并且针对四种方法中的每种方法执行声音提取。

(1)(本发明的方法1)延迟求和阵列用于产生参考信号(通过使用方程[12.1]和下面的方程[14.1])。

(2)(本发明的方法2)目标声音自身用于产生参考信号(通过使用下面的方程[14.2]，其中h(ω，t)是时频域中的目标声音)。

(3)(常规方法)延迟求和阵列：使用方程[2.1]执行提取。

(4)(常规方法)独立分量分析：日本专利申请提前公开No.2006-238409“Speech Signal separation Device，and Noise Cancellationdevice and Method”中公开的方法

r (t) = {(\underset{ω}{Σ} {| Q (ω, t) |}^{2})}^{1 / 2} \cdot \cdot \cdot [14.1]

r (t) = {(\underset{ω}{Σ} {| h (ω, t) |}^{2})}^{1 / 2} \cdot \cdot \cdot [14.2]

以上“(2)(本发明的方法2)”用于评估在获得理想参考信号的情况下在什么程度上获得声源提取性能。

以上“(4)(常规方法)独立分量分析”是根据日本专利申请提前公开No.2006-238409中公开的不受排列问题影响的方法的时频域独立分量分析。

在实验中，通过把下面的方程[15.1]至[15.3]迭代200次获得用于分离目标声音的矩阵W(ω)：

Y(ω，t)＝W(ω)X′(ω，t)(t＝1，...，T)......[15.1]

W(ω)←W(ω)+ηΔW(ω)......[15.3]

在方程[15.2]中，Y(t)是由方程[15.4]定义的向量并且φ_ω(·)是由方程[15.5]和[15.6]定义的函数。另外，η称为学习率并且它的值0.3用在实验中。由于独立分量分析包括作为分离的结果的n个信号的产生，从而最接近目标声音的方向的分离结果被用作目标声音的提取结果。

根据各方法的提取结果乘以使用上述方程[8.4]计算的重新定标因子g(ω)以调整幅度和相位。在方程[8.4]中，设置i＝1。这意味着：声源提取结果投射在图23中的麦克风#1上。在重新定标之后，根据各方法的提取结果通过使用逆傅立叶变换转换成波形。

为了评估提取的程度，对于每个提取结果使用目标声音(信号)和干扰声音(干扰)之间的功率比。具体地讲，计算信号干扰比(SIR)。它是提取结果中的目标声音(信号)和干扰声音(干扰)之间的功率比的对数值并且以dB单位给出。为每一片段(＝发声)计算SIR值并且计算它的平均值。对每种干扰声音类型执行求平均值。

将参照图24中显示的表描述每种方法的平均SIR的提高的程度。

在干扰声音的情况下，语音、音乐和街道噪声之一用作干扰声音。

在两种干扰声音的情况下，使用语音、音乐和街道噪声中的两项的组合。

图24中显示的表显示在通过使用这些各种干扰声音根据方法(1)至(4)执行声源提取处理的情况下的信号干扰比(SIR)，SIR是目标声音(信号)和干扰声音(干扰)之间的功率比的对数值(dB)。

在图24中显示的表中，位于上面的“观测信号SIR”给出混合观测信号的平均SIR。在它下面的(1)至(4)中的值给出SIR的提高的程度，也就是说，提取结果的平均SIR和混合观测信号的SIR之差。

例如，在(1)“本发明的方法1”中的“语音”中显示的值“4.10”显示：SIR从3.65[dB]提高到3.65+4.10＝7.75[dB]。

在图24中显示的表中，作为常规方法的“(3)延迟求和阵列”行显示：SIR提高程度最大为大约4[dB]，因此，仅在这种程度上稍微增强目标声音。

通过使用这种延迟求和阵列产生参考信号并通过使用它提取目标声音的“(1)本发明的方法1”显示：SIR提高程度比延迟求和阵列的SIR提高程度高得多。

“(1)本发明的方法1”和作为常规方法的“(4)独立分量分析”之间的比较显示：除了一种干扰声音(音乐)的情况之外，“(1)本发明的方法1”至少给出与由“(4)独立分量分析”给出的SIR提高程度几乎相同的SIR提高程度。

在“(4)独立分量分析”中，在除一种干扰声音的情况之外的两种干扰声音的情况下，SIR提高程度更低，可以想到这是因为极低值(最小值是0.75s)被包括在评估数据中从而降低SIR提高程度。

为了在独立分量分析中执行充分的分离，需要获得某一长度的片段上的观测信号，该长度随着声源的数量增加而增加。这被视为在“两种干扰声音”(＝三个声源)的情况下引起SIR提高程度的极度减小。根据本发明的方法即使在“两种干扰声音”的情况下也不经受这种极度减小。这是根据本发明的处理与独立分量分析相比的优点。

“(2)本发明的方法2”给出在获得了理想参考信号的情况下的SIR提高程度并且被视为表示根据本发明的方法的提取性能的上限。一种干扰声音的情况和所有的两种干扰声音的情况显示出比其它方法高得多的SIR提高程度。也就是说，它们显示出：通过根据由方程[3.3]表示的本发明的处理的声源提取方法，参考信号的准确性越高(参考信号与目标声音的时间包络越相似)，能够执行越高准确性的提取。

接下来，为了估计计算成本的差异，根据各方法测量在提取一次发声(大约1.8s)的处理中使用的平均CPU时间。结果显示在图25中。

图25显示根据下面三种方法在提取一次发声(大约1.8s)的处理中使用的平均CPU时间。

根据本发明的方法；

使用延迟求和阵列的方法，该方法是常规方法；和

使用独立分量分析的方法，该方法是常规方法。

在所有这些方法中，在实施中使用“matlab”语言并且在“AMDOpteron 2.6GHz”计算机中执行该语言。另外，测量时间把对于所有方法而言共同的短时傅立叶变换、重新定标和逆傅立叶变换排除在外。另外，提出的方法使用本征值分解。也就是说，在基于奇异值分解的变型中提及的方法未被使用。

在图25中可以理解，本发明的方法需要比延迟求和阵列的常规方法多的时间，但在独立分量分析所需的时间的五十分之一或者更少的时间中执行了提取。这是因为，独立分量分析需要迭代过程和与重复的次数成比例的计算成本，而本发明的方法能够以闭合形式解决并且不需要重复的处理。

结合在一起的对提取准确性和处理时间的讨论发现：本发明的方法(方法1)需要独立分量分析的计算成本的五十分之一或者更少，但具有至少与它相同的解决性能。

[5.本发明的结构的总结]

以上，已参照特定实施例详细描述了本发明的实施例。然而，清楚的是，在不脱离本发明的主旨的情况下，本领域技术人员能够修改或者替换实施例。也就是说，以举例说明的形式描述了本发明，而不应该限制性地理解本发明。为了理解本发明的主旨，应该考虑权利要求。

另外，本技术也可构造如下。

(1)一种声音信号处理装置，包括：

观测信号分析单元，用于接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多个通道的声音信号并估计待提取的目标声音的声音方向和声音片段；和

声源提取单元，用于接收由观测信号分析单元分析的目标声音的声音方向和声音片段并提取目标声音的声音信号，其中

观测信号分析单元具有：

短时傅立叶变换单元，用于把短时傅立叶变换应用于输入的多通道声音信号以由此产生时频域中的观测信号；和

方向和片段估计单元，用于接收由短时傅立叶变换单元产生的观测信号以由此检测目标声音的声音方向和声音片段；以及

声源提取单元基于来自方向和片段估计单元的目标声音的声音方向和声音片段产生参考信号并通过使用这个参考信号提取目标声音的声音信号，所述参考信号对应于表示在时间方向上目标声音音量的变化的时间包络。

(2)如(1)所述的声音信号处理装置，

其中所述声源提取单元基于目标声音的声源方向的信息产生包含用于获得目标声音的所述多个麦克风之间的相差信息的导向向量并具有：

时频掩模产生单元，用于产生代表导向向量和从包括干扰声音的观测信号计算的相差的信息之间的相似性的时频掩模，所述干扰声音是除目标声音的信号之外的信号；

参考信号产生单元，用于基于时频掩模产生参考信号。

(3)如(2)所述的声音信号处理装置，

其中所述参考信号产生单元产生把时频掩模应用于观测信号的掩蔽结果并对从这个掩蔽结果获得的频率窗口的时间包络求平均值，由此计算对于所有频率窗口共同的参考信号。

(4)如(2)所述的声音信号处理装置，

其中所述参考信号产生单元直接对频率窗口之间的时频掩模求平均值，由此计算对于所有频率窗口共同的参考信号。

(5)如(2)所述的声音信号处理装置，

其中所述参考信号产生单元从把时频掩模应用于观测信号的掩蔽结果或者时频掩模产生每个频率窗口中的参考信号。

(6)如(2)至(5)中任何一项所述的声音信号处理装置，

其中所述参考信号产生单元把不同的时间延迟给予在声音信号输入单元中的每个麦克风的不同观测信号以对齐来自目标声音的方向上的信号的相位并产生把时频掩模应用于对观测信号求和的延迟求和阵列的结果的掩蔽结果，并从这个掩蔽结果获得参考信号。

(7)如(1)至(6)中任何一项所述的声音信号处理装置，

其中所述声源提取单元具有参考信号产生单元，该参考信号产生单元：

基于目标声音的声源方向信息产生包括获得目标声音的所述多个麦克风之间的相差信息的导向向量；以及

从作为把导向向量应用于观测信号的计算处理结果获得的延迟求和阵列的处理结果产生参考信号。

(8)如(1)至(7)中任何一项所述的声音信号处理装置，

其中所述声源提取单元使用作为声源提取处理的处理结果获得的目标声音作为参考信号。

(9)如(1)至(8)中任何一项所述的声音信号处理装置，

其中所述声源提取单元把下述循环处理执行任一次数：通过执行声源提取处理产生提取结果，从这个提取结果产生参考信号，并通过使用这个参考信号再次执行声源提取处理。

(10)如(1)至(9)中任何一项所述的声音信号处理装置，

其中所述声源提取单元具有提取滤波器产生单元，该提取滤波器产生单元基于参考信号产生用于从观测信号提取目标声音的提取滤波器。

(11)如(10)所述的声音信号处理装置，

其中所述提取滤波器产生单元执行本征向量选择处理，以从参考信号和去相关的观测信号计算加权协方差矩阵并从通过把本征向量分解应用于加权协方差矩阵获得的多个本征向量之中选择提供提取滤波器的本征向量。

(12)如(11)所述的声音信号处理装置，

其中所述提取滤波器产生单元

使用参考信号的N次幂的倒数作为加权协方差矩阵的权重，N为正实数；以及

执行选择与最小本征值对应的本征向量并提供它作为提取滤波器的处理作为本征向量选择处理。

(13)如(11)所述的声音信号处理装置，

其中所述提取滤波器产生单元

使用参考信号的N次幂作为加权协方差矩阵的权重，N为正实数；以及

执行选择与最大本征值对应的本征向量并提供它作为提取滤波器的处理作为本征向量选择处理。

(14)如(11)所述的声音信号处理装置，

其中所述提取滤波器产生单元执行下述处理：选择使提取结果Y的加权方差最小化的本征向量并提供它作为提取滤波器，所述提取结果Y的加权方差是通过把提取结果乘以作为权重的参考信号的N次幂的倒数获得的信号的方差，N为正实数。

(15)如(11)所述的声音信号处理装置，

其中所述提取滤波器产生单元执行下述处理：选择使提取结果Y的加权方差最大化的本征向量并提供它作为提取滤波器，所述提取结果Y的加权方差是通过把提取结果乘以作为权重的参考信号的N次幂获得的信号的方差，N为正实数。

(16)如(11)所述的声音信号处理装置，

其中所述提取滤波器产生单元执行选择与导向向量最为对应的本征向量并提供它作为提取滤波器的处理作为本征向量选择处理。

(17)如(10)所述的声音信号处理装置，

其中所述提取滤波器产生单元执行本征向量选择处理，以从参考信号和去相关的观测信号计算具有参考信号的N次幂的倒数作为其权重的加权观测信号矩阵，并从通过把奇异值分解应用于加权观测信号矩阵获得的多个本征向量之中选择作为提取滤波器的本征向量，N为正实数。

(18)一种声音信号处理装置，包括：声源提取单元，接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多个通道的声音信号并提取待提取的目标声音的声音信号，其中声源提取单元基于目标声音的预设声音方向和具有预定长度的声音片段产生对应于表示在时间方向上目标声音音量的变化的时间包络的参考信号，并使用这个参考信号以由此提取每个预定声音片段中的目标声音的声音信号。

另外，一种在上述设备和系统中执行的处理方法和一种使该处理被执行的程序也被包括在本发明的结构中。

另外，本说明书中描述的一系列处理部分能够由硬件、软件或者它们的组合结构执行。在由软件执行处理的情况下，能够记录一系列处理的程序安装在专用硬件中所包括的计算机的存储器中并执行或者安装在能够执行各种类型处理的通用计算机中并执行。例如，该程序能够预先被记录在记录介质中。除了从记录介质安装到计算机中之外，能够通过局域网(LAN)或者诸如互联网的网络接收该程序并把该程序安装在诸如内置硬盘的记录介质中。

本说明书中描述的各种处理部分可如说明书中所述按照时间次序执行以及根据相关设备的处理能力或者根据需要同时或分别地执行。另外，本说明书中的“系统”表示多个装置的逻辑集合结构并且不限于安装在同一外壳中的装置的各种结构。

如上所述，通过本发明的一个实施例的结构，实现一种用于从混合多种声音的声音信号提取目标声音的装置和方法。

具体地讲，观测信号分析单元接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多通道声音信号并估计待提取的目标声音的声音方向和声音片段，然后声源提取单元接收由观测信号分析单元分析的目标声音的声音方向和声音片段以提取目标声音的声音信号。

例如，通过把短时傅立叶变换应用于进入的多通道声音信号以产生时频域中的观测信号，基于该观测信号，检测目标声音的声音方向和声音片段。另外，基于目标声音的声音方向和声音片段，产生对应于表示在时间方向上目标声音音量的变化的时间包络的参考信号并使用该参考信号提取目标声音的声音信号。

本发明包含与2011年4月18日提交给日本专利局的日本优先权专利申请JP 2011-092028公开的主题相关的主题，该专利申请的全部内容通过引用包含于此。

Claims

1.一种声音信号处理装置，包括：

观测信号分析单元具有：

2.如权利要求1所述的声音信号处理装置，其中所述声源提取单元基于目标声音的声源方向的信息产生包含用于获得目标声音的所述多个麦克风之间的相差信息的导向向量并具有：

时频掩模产生单元，用于产生代表导向向量和从包括干扰声音的观测信号计算的相差的信息之间的相似性的时频掩模，所述干扰声音是除目标声音的信号之外的信号；和

参考信号产生单元，用于基于时频掩模产生参考信号。

3.如权利要求2所述的声音信号处理装置，其中所述参考信号产生单元产生把时频掩模应用于观测信号的掩蔽结果并对从这个掩蔽结果获得的频率窗口的时间包络求平均值，由此计算对于所有频率窗口共同的参考信号。

4.如权利要求2所述的声音信号处理装置，其中所述参考信号产生单元直接对频率窗口之间的时频掩模求平均值，由此计算对于所有频率窗口共同的参考信号。

5.如权利要求2所述的声音信号处理装置，其中所述参考信号产生单元从把时频掩模应用于观测信号的掩蔽结果或者时频掩模产生每个频率窗口中的参考信号。

6.如权利要求2所述的声音信号处理装置，其中所述参考信号产生单元把不同的时间延迟给予在声音信号输入单元中的每个麦克风的不同观测信号以对齐来自目标声音的方向上的信号的相位并产生把时频掩模应用于对观测信号求和的延迟求和阵列的结果的掩蔽结果，并从这个掩蔽结果获得参考信号。

7.如权利要求1所述的声音信号处理装置，其中所述声源提取单元具有参考信号产生单元，该参考信号产生单元：

8.如权利要求1所述的声音信号处理装置，其中所述声源提取单元使用作为声源提取处理的处理结果获得的目标声音作为参考信号。

9.如权利要求1所述的声音信号处理装置，其中所述声源提取单元把下述循环处理执行任一次数：通过执行声源提取处理产生提取结果，从这个提取结果产生参考信号，并通过使用这个参考信号再次执行声源提取处理。

10.如权利要求1所述的声音信号处理装置，其中所述声源提取单元具有提取滤波器产生单元，该提取滤波器产生单元基于参考信号产生用于从观测信号提取目标声音的提取滤波器。

11.如权利要求10所述的声音信号处理装置，其中所述提取滤波器产生单元执行本征向量选择处理，以从参考信号和去相关的观测信号计算加权协方差矩阵并从通过把本征向量分解应用于加权协方差矩阵获得的多个本征向量之中选择提供提取滤波器的本征向量。

12.如权利要求11所述的声音信号处理装置，其中所述提取滤波器产生单元

13.如权利要求11所述的声音信号处理装置，其中所述提取滤波器产生单元

14.如权利要求11所述的声音信号处理装置，其中所述提取滤波器产生单元执行下述处理：选择使提取结果Y的加权方差最小化的本征向量并提供它作为提取滤波器，所述提取结果Y的加权方差是通过把提取结果乘以作为权重的参考信号的N次幂的倒数获得的信号的方差，N为正实数。

15.如权利要求11所述的声音信号处理装置，其中所述提取滤波器产生单元执行下述处理：选择使提取结果Y的加权方差最大化的本征向量并提供它作为提取滤波器，所述提取结果Y的加权方差是通过把提取结果乘以作为权重的参考信号的N次幂获得的信号的方差，N为正实数。

16.如权利要求11所述的声音信号处理装置，其中所述提取滤波器产生单元执行选择与导向向量最为对应的本征向量并提供它作为提取滤波器的处理作为本征向量选择处理。

17.如权利要求10所述的声音信号处理装置，其中所述提取滤波器产生单元执行本征向量选择处理，以从参考信号和去相关的观测信号计算具有参考信号的N次幂的倒数作为其权重的加权观测信号矩阵，并从通过把奇异值分解应用于加权观测信号矩阵获得的多个本征向量之中选择作为提取滤波器的本征向量，N为正实数。

18.一种声音信号处理装置，包括：

声源提取单元，接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多个通道的声音信号并提取待提取的目标声音的声音信号，

其中声源提取单元基于目标声音的预设声音方向和具有预定长度的声音片段产生对应于表示在时间方向上目标声音音量的变化的时间包络的参考信号，并使用这个参考信号以由此提取每个预定声音片段中的目标声音的声音信号。

19.一种在声音信号处理装置中执行的声音信号处理方法，该方法包括：

由观测信号分析单元执行的观测信号分析步骤，接收由包括安装到不同位置的多个麦克风的声音信号输入单元获取的多个通道的声音信号并估计待提取的目标声音的声音方向和声音片段；和

由声源提取单元执行的声源提取步骤，接收由观测信号分析单元分析的目标声音的声音方向和声音片段并提取目标声音的声音信号，其中

观测信号分析步骤执行：

短时傅立叶变换处理，把短时傅立叶变换应用于输入的多通道声音信号以由此产生时频域中的观测信号；以及

方向和片段估计处理，接收通过短时傅立叶变换处理产生的观测信号以由此检测目标声音的声音方向和声音片段；以及

在声源提取步骤中，在来自方向和片段估计步骤的目标声音的声音方向和声音片段的基础上产生参考信号，以通过使用这个参考信号提取目标声音的声音信号，所述参考信号对应于表示在时间方向上目标声音音量的变化的时间包络。

20.一种具有使声音信号处理装置执行声音信号处理的指令的程序，该处理包括：

观测信号分析步骤执行：