CN101964192A

CN101964192A - 声音处理设备、声音处理方法和程序

Info

Publication number: CN101964192A
Application number: CN2010102340090A
Authority: CN
Inventors: 关矢俊之; 安部素嗣
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-07-22
Filing date: 2010-07-15
Publication date: 2011-02-02
Anticipated expiration: 2030-07-15
Also published as: JP5375400B2; JP2011027825A; CN101964192B; US9418678B2; US20110022361A1

Abstract

公开了声音处理设备、声音处理方法和程序。一种声音处理设备包括：非线性处理单元，通过对由多个声源生成并且由多个传感器观测的多个观测信号进行非线性处理来输出包括存在于预定区域中的声源的多个声音信号；信号选择单元，从非线性处理单元输出的多个声音信号中选择包括特定声源的声音信号，以及选择包括多个声源的观测信号；以及声音分离单元，从信号选择单元选择的观测信号中分离出信号选择单元选择的包括特定声源的声音信号。

Description

声音处理设备、声音处理方法和程序

技术领域

本发明涉及声音处理设备、声音处理方法和程序，并具体地涉及使用独立分量分析(ICA)来进行声音分离和噪声消除的声音处理设备、声音处理方法和程序。

背景技术

近来，有一种使用基于ICA(独立分量分析)方法的BBS(盲源分离)方法从包括来自多个声源传送的声音的混合声音中分离出来自一个或者多个声源传送的信号的技术。例如，为了减少难以通过使用ICA的声源分离来消除的剩余噪声，公开了一种在使用ICA的声源分离之后使用非线性处理的技术(例如公开号为2006-154314的日本待审专利申请)。

然而，在ICA处理之后进行非线性处理的情况以在先前阶段使用ICA的分离处理进行得良好为前提。因而，问题在于：在使用ICA的分离处理中声源分离难以达到某一程度的情况下，在随后阶段进行非线性处理也难以获得充分的性能改进。

因此，公开了一种在使用ICA的声源分离之前的阶段进行非线性处理的技术(例如日本专利No.3949150)。根据日本专利No.3949150，即使在信号源数量N和传感器数量M的关系为N＞M的情况下，仍然可以高质量地分离混合的信号。在使用ICA的声源分离中，为了高精确度地提取各信号，必须有M≥N。因此，在日本专利No.3949150中，假定N个声源不是同时存在，通过进行二元掩模等从混合了N个声源的观测信号中提取只包括V(V≤M)个声源的时频分量。这样，通过对有限的时频分量应用ICA等，可以提取各声源。

发明内容

然而，在日本专利No.3949150中，形成条件2≤V≤M，从而可以提取各声源个体。然而，问题在于即使在希望从混合信号中消除从一个声源传送的信号的情况下仍然在提取声源个体之后混合必要的信号。

希望提供能够从混合信号中有效地消除包括特定声源的信号的新的改进的声音处理设备、声音处理方法和程序。

根据本发明的一种实施方式，提供一种声音处理设备，该设备包括：非线性处理单元，通过对由多个声源生成并且由多个传感器观测的多个观测信号进行非线性处理来输出包括存在于预定区域中的声源的多个声音信号；信号选择单元，从非线性处理单元输出的多个声音信号之中选择包括特定声源的声音信号，以及选择包括多个声源的观测信号；以及声音分离单元，从信号选择单元选择的观测信号中分离出信号选择单元选择的包括特定声源的声音信号。

此外，上述声音处理设备还可以包括：频域转换单元，将从多个声源生成并且由多个传感器观测的多个观测信号转换成频域信号值，其中非线性处理单元通过对频域转换单元转换而得的观测信号值进行非线性处理来输出包括存在于特定区域中的声源的多个声音信号。

此外，可以有如下配置：在多个传感器观测的多个声源中包括独立性高的特定声源，非线性处理单元输出表示独立性高的特定声源的声音分量的声音信号，信号选择单元从非线性处理单元输出的表示特定声源的声音分量的声音信号和多个观测信号中选择包括特定声源和不同于特定声源的声源的观测信号，以及声音分离单元从信号选择单元选择的观测信号中消除特定声源的声音分量。

此外，可以有如下配置：非线性处理单元输出表示存在于生成第一声源的区域中的声音分量的声音信号，信号选择单元从由非线性处理单元输出并存在于生成第一声源的区域中的表示声音分量的声音信号和多个观测信号中选择包括第二声源的观测信号，其中包括第二声源的观测信号由位于生成第一声源和不同于第一声源的声源的区域中的传感器观测，以及声音分离单元从信号选择单元选择的包括第二声源的观测信号中消除第一声源的声音分量。

此外，非线性处理单元可以包括：相位计算装置，针对各时频分量计算多个传感器之间的相位差；确定装置，基于相位计算装置计算的多个传感器之间的相位差来确定各时频分量起源的区域；以及计算装置，基于确定装置的确定结果来对传感器观测到的各时频分量进行预定的加权。

此外，相位计算装置可以利用传感器之间的延迟来计算传感器之间的相位差。

此外，可以有如下配置：观测与多个传感器在数量上对应的多个观测信号，以及信号选择单元从由非线性处理单元输出的多个声音信号中选择数量上与下述数量对应的声音信号：多个传感器的数量加上一个观测信号。

此外，可以有如下配置：非线性处理单元通过对从包括独立性高的特定声源的三个声源生成并由三个传感器观测的三个观测信号进行非线性处理来输出第一声音信号和第二声音信号，第一声音信号表示独立性高的特定声源的声音分量，而第二声音信号未包括所述三个声源的全部声音分量，其中信号选择单元选择非线性处理单元输出的第一声音信号和第二声音信号以及选择包括特定声源和不同于特定声源的声源的观测信号，以及其中声音分离单元从信号选择单元选择的观测信号中消除特定声源的声音分量。

此外，可以有如下配置：非线性处理单元通过对从包括独立性高的特定声源的三个声源生成并由两个传感器观测的两个观测信号进行非线性处理来输出表示独立性高的特定声源的声音分量的声音信号，信号选择单元选择非线性处理单元输出的声音信号以及选择包括特定声源和不同于特定声源的声源的观测信号，以及声音分离单元从信号选择单元选择的观测信号中消除特定声源的声音分量。

根据本发明的另一实施方式，提供一种声音处理方法，该方法包括以下步骤：通过对由多个声源生成并由多个传感器观测的多个观测信号进行非线性处理，来输出包括存在于预定区域中的声源的多个声音信号；从上述非线性处理输出的多个声音信号中选择包括特定声源的声音信号，以及选择包括多个声源的观测信号；以及从所选择的观测信号中分离出在选择声音信号和观测信号时选择的包括特定声源的声音信号。

根据本发明的又一实施方式，提供一种允许计算机用作声音处理设备的程序，该程序包括：非线性处理单元，通过对由多个声源生成并由多个传感器观测的多个观测信号进行非线性处理，来输出包括存在于预定区域中的声源的多个声音信号；信号选择单元，从非线性处理单元输出的多个声音信号之中选择包括特定声源的声音信号，以及选择包括多个声源的观测信号；以及声音分离单元，从信号选择单元选择的观测信号中分离出信号选择单元选择的包括特定声源的声音信号。

如上所述，根据本发明的一种实施方式，可以从混合信号中有效地消除包括独立性高的声源的信号。

附图说明

图1是图示了使用ICA的声音分离处理的示意图。

图2是图示了使用ICA的声音分离处理的示意图。

图3是图示了使用ICA的声音分离处理的示意图。

图4是图示了根据该实施方式的声源分离单元的使用的示意图。

图5是图示了在使用ICA的声源分离之前的阶段进行非线性处理的技术的示意图。

图6是图示了根据本发明一种实施方式的声音处理设备的概况的示意图。

图7是示出了根据本发明一种实施方式的声音处理设备的功能配置的框图。

图8是表示根据上述实施方式的声音处理方法的流程图。

图9是示出了根据第一示例的声音处理设备的配置的框图。

图10是图示了根据上述示例的麦克风与声源间的位置关系的示意图。

图11是表示了根据上述示例的声音处理方法的流程图。

图12是具体图示了根据上述示例的非线性处理的示意图。

图13是具体图示了根据上述示例的非线性处理的示意图。

图14是具体图示了根据上述示例的非线性处理的示意图。

图15是具体图示了根据上述示例的非线性处理的示意图。

图16是具体图示了根据上述示例的非线性处理的示意图。

图17是图示了根据第二示例的麦克风和声源间的位置关系的示意图。

图18是表示了根据上述示例的声音处理方法的流程图。

图19是图示了本发明的一种应用示例的示意图。

具体实施方式

下文将参照附图描述本发明的优选实施方式。在本说明书和附图中对功能配置基本上相同的组成部件分配相同的附图标记，并且省略其赘述。

将按以下顺序描述“本发明的优选实施方式”。

1.本实施方式的目的

2.声音处理设备的功能配置

3.声音处理设备的操作

4.示例

4-1.第一示例

4-2.第二示例

1.本实施方式的目的

首先将描述本发明的一种实施方式的目的。近来，有一种通过使用基于ICA(独立分量分析)方法的BBS(盲源分离)方法从包括源于多个声源的声音的混合声音中分离出源于一个或多个声源的信号的技术。图1和图2是图示了通过使用ICA的声源分离处理的示意图。例如，如图1中所示，通过麦克风M_1和麦克风M_2观测要混合在一起的作为独立声源的声源1(该声源为钢琴声)和声源2(该声源为人声)。然后，使用ICA的包括在声音处理设备中的声源分离单元10基于从声源到麦克风的信号或者路径的统计独立性将混合的信号彼此分离。因而，恢复彼此独立的原声源11和原声源12。

接着，将描述针对麦克风观测的声源数量不同的情况。例如，如图2中所示，假定声源1由麦克风M_1和麦克风M_2观测，而声源2只由麦克风M_2观测。此外在这种情况下，独立信号由至少一个或者多个麦克风观测。因而，可以恢复原声源11和原声源12。具体而言，使用ICA的声源分离单元10通过使用麦克风M_1观测到的信息来进行从麦克风M_2提取声源1的分量的处理。

此外，如图3中所示，在麦克风M_1和麦克风M_2只观测独立声源的情况下，可以获取各独立声源而无需分离任何信号。换而言之，在麦克风M_1只观测声源1而麦克风M_2只观测声源2的情况下，原声源11和原声源12被恢复而无需分离任何信号。其原因在于使用ICA的声源分离单元10被操作以输出独立性高的信号。

如上所述，在观测的信号独立性高的情况下，可以知道使用ICA的声源分离单元10倾向于直接输出观测到的信号。因此，通过从输入到声源分离单元10的信号中选择特定信号，可以控制声源分离单元10的操作。

接着，将参照图4描述根据本实施方式的声源分离单元10的使用。图4是图示了根据本实施方式的声源分离单元的使用的示意图。如图4中所示，假定麦克风M_1只观测声源1、2和3中的声源1。另一方面，麦克风M_2观测声源1至3。麦克风M_2观测的三个声源原为独立声源。然而，由于麦克风数量小于声源数量，所以通过使用ICA的声源分离单元10来分离声源2和声源3的条件并不充分。因而，难以分离声源。换而言之，由于不是通过唯一一个信道观测声源2和声源3，所以难以评估声源2和声源3的独立性。其原因在于声源的分离是通过在使用ICA的声源分离单元中使用多个观测信号来提高分离的信号的独立性来实现的。

另一方面，声源1也由麦克风M_1观测。因而，有可能抑制来自麦克风M_2的声源1。在这种情况下，优选地，声源1是例如声音比声源2和3大的主导声源。因而，声音分离单元10作用以消除来自麦克风M_2的声源1的分量而把声源2和声源3用作一对。在本实施方式中，使用声源分离单元10的如下特性：将多个信号中独立性高的信号直接输出并且从其它信号中消除独立性高的信号以便输出。

此外，为了减少上述使用ICA的声源分离未消除的剩余噪声，公开了一种在使用ICA的声源分离之后使用非线性处理的技术。然而，在ICA处理之后进行非线性处理以在先前阶段使用ICA的分离处理进行得良好为前提。因而，问题在于：在使用ICA的分离处理中声音分离未达到某一程度的情况下，在随后阶段加入非线性处理也难以期待充分的性能改进。

因此，公开了一种在使用ICA的声源分离之前的阶段进行非线性处理的技术。根据这样的技术，即使在声源数量N和传感器数量M的关系为N＞M的情况下，仍然可以高质量地分离混合的信号。在使用ICA的声源分离中，为了高精确性地提取各信号，必须有M≥N。因此，在日本专利No.3949150中，假定N个声源不是同时存在，通过使用二元掩模等从混合了N个声源的观测信号中提取只包括V(V≤M)个声源的时频分量。这样，通过应用ICA等，可以从有限的时频分量提取各声源。

图5是图示了一种在使用ICA的声源分离之前的阶段进行非线性处理的技术的示意图。在图5中，在声源数量N为3而麦克风数量M为2的情况下，为了高精确度地分离信号，对观测信号进行作为非线性处理的二元掩模处理等。在有限信号生成单元22进行的二元掩模处理中，从包括N个声源的信号中提取只包括V(V≤M)个声源的分量。因而，可以形成声源数量与麦克风数量相同或者比麦克风数量更小的状态。

如图5中所示，有限信号生成单元22从麦克风M_1和麦克风M_2观测到的观测信号的时频分量中提取只包括声源1和声源2的时频分量以及只包括声源2和声源3的时频分量。这样，对满足条件“声源数量＝麦克风数量”的时频分量进行使用ICA的声源分离。因而，声源分离单元24a分离通过恢复声源1获取的声源25a和通过恢复声源2获取的声源25b。此外，声源分离单元24b分离通过恢复声源2获取的声源25c和通过恢复声源3获取的声源25d。

在上述技术中，设置了条件2≤V≤M，这样可以提取各声源。然而，问题在于：即使在希望从混合信号中只消除源于一个声源的信号的情况下仍然在提取声源个体之后混合必要的信号。

因此，鉴于上述情形，发明根据本实施方式的声音处理设备100。根据本实施方式的声音处理设备100，可以从混合的信号中有效地消除包括独立性高的声源的信号。

在此，将参照图6描述根据本发明一种实施方式的声音处理设备100的概况。

图6是图示了根据本发明一种实施方式的技术与图5中图示的技术之间的差异的示意图。下文将描述如下情况：N个声源(N＝4(S1、S2、S3和S4))由M(M＝2)个麦克风观测，以及获得包括声源S1、S2和S3的信号。

如图6中所示，在图5中示出的声音处理设备20中，有限信号生成单元22提取包括与麦克风数量对应的声源的混合声音，以及声源分离单元24a和声源分离单元24b输出各声源的分离信号。这样，为了获取包括声源S1、S2和S3的信号，将针对各声源分离的信号中的声源S1、S2和S3的信号加在一起，由此可以获取只不包括声源S4的信号。

另一方面，在根据本发明一种实施方式的声音处理设备100中，非线性处理单元102以简化方式提取声源S4的信号，以及将只包括声源S4的信号和观测信号S1至S4输入给声源分离单元。被输入所选择的输入信号的声源分离单元106将只包括声源S4的信号和观测信号S1至S4识别为两个独立声源，并输出通过从包括S1至S4的观测信号中消除S4而获取的信号(S1+S2+S3)。

如上所述，在声音处理设备20中，为了获取包括S1至S3的声音信号，进行了两次声源分离处理，然后进行混合必要的声音信号的处理。然而，根据本发明的一种实施方式，通过非线性处理获取独立性高的一个信号S4，可以进行一次声源分离处理来获取包括S1至S3的期望的声音信号。

2.声音处理设备的功能配置

接着，将参照图7描述根据本实施方式的声音处理设备100的功能配置。如图7中所示，声音处理设备100包括非线性处理单元102、信号选择单元104、声源分离单元106和控制单元108。非线性处理单元102、信号选择单元104、声源分离单元106和控制单元108由计算机配置。因此，CPU基于在包括于计算机中的ROM(只读存储器)中存储的程序来进行上述单元的操作。

非线性处理单元102具有如下功能：在控制单元108的指挥下，通过对从多个声源生成并且由多个传感器观测的多个观测信号进行非线性处理来输出存在于预定区域中的多个声音信号。在本实施方式中，多个传感器例如为麦克风。此外，下文假定麦克风数量M为2或者更多。非线性处理单元102对M个麦克风观测到的观测信号进行非线性处理并且输出Mp个声音信号。

非线性处理单元102可以通过假定由多个传感器观测的观测信号在有多个声源的情况下很少同时具有相同的时频分量来提取特定信号。在本实施方式中，假定独立性高的特定声源包括在由多个传感器观测的多个声源中。在这种情况下，通过非线性处理，非线性处理单元102可以输出只包括独立性高的特定声源的声音信号。将在第一示例的描述中具体描述非线性处理单元102进行的非线性处理。非线性处理单元102提供输出的声音信号给信号选择单元104。

信号选择单元104具有如下功能：在控制单元108的指挥下，从非线性处理单元102输出的声音信号之中选择包括特定声源的声音信号以及选择包括麦克风观测的多个声源的观测信号。如上所述，当非线性处理单元102提供表示独立性高的特定声源的声音分量的声音信号时，信号选择单元104从非线性处理单元102输出的表示特定声源的声音分量的声音信号和麦克风观测到的多个观测信号之中，选择包括特定声源和不同于特定声源的声源的观测信号。后文将详细描述信号选择单元104进行的信号选择处理。信号选择单元104提供选择出的声音信号和观测信号给声源分离单元106。

声源分离单元106具有如下功能：从信号选择单元104选择的观测信号之中分离出信号选择单元104选择的包括特定声源的声音信号。声源分离单元106使用ICA来进行声源分离处理，以提高独立性。因而，在向声源分离单元106输入表示独立性高的特定声源的声音分量的声音信号以及包括特定声源和不同于特定声源的声源的观测信号的情况下，声源分离单元106进行从包括特定声源和不同于特定声源的声源的观测信号中分离出特定声源的声音分量的处理。在使用ICA的声源分离处理中，当向声源分离单元输入L个输入信号时，输出数量上与输入信号相同的独立性高的L个输出信号。

3.声音处理设备的操作

如上描述了声音处理设备100的功能配置。接着将参照图8描述声音处理设备100的操作。图8是图示出声音处理设备100的声音处理方法的流程图。如图8中所示，首先，非线性处理单元102通过使用由M个麦克风观测到的信号来进行非线性处理，并输出Mp个声音信号(S102)。信号选择单元104从M个麦克风观测到的M个观测信号和非线性处理单元102输出的Mp个声音信号之中选择要输入给声源分离单元106的L个信号(S104)。

然后，声源分离单元106进行声源分离处理，以提高从声音分离单元106输出的输出信号的独立性(S106)。然后，声源分离单元106输出L个独立信号(S108)。如上描述了声音处理设备100的操作。

4.示例

接着将描述使用声音处理设备100的示例。下文将声源数量表述为N而将麦克风数量表述为M。在第一示例中，将描述声源数量和麦克风数量相等的情况(N＝M)。具体而言，将描述声源数量和麦克风数量为3的情况。此外，在第二示例中，将描述声源数量大于麦克风数量的情况(N＞M)。具体而言，将描述声源数量为3而麦克风数量为2的情况。

4-1.第一示例

首先，将参照图9描述根据第一示例的声音处理设备100a的配置。声音处理设备100a的基本配置与上述声音处理设备100的基本配置相同。因此，在声音处理设备100a的描述中示出了声音处理设备100的更详细的配置。如图9中所示，声音处理设备100a包括频域转换单元101、非线性处理单元102、信号选择单元104、声源分离单元106、控制单元108和时域转换单元110。

频域转换单元101具有将由多个声源生成并由多个麦克风观测的多个观测信号转换成频域信号值的功能。频域转换单元101提供转换而得的观测信号值给非线性处理单元102。此外，时域转换单元110具有对声源分离单元106输出的输出信号进行时域转换(如短时傅里叶逆变换)和输出时间波形的功能。

此外，在第一示例中，三个麦克风M1至M3和三个声源S1至S3被描述为处于图10中示出的位置关系。在第一示例中，声源S3是比其它声源S1和S2等声音更大的主导声源。此外，即使在声源具有针对麦克风的方向性的情况下，声源S3仍然由麦克风观测为相对于其它声源的主导声源。在此，具有方向性例如是在声源为扬声器的情况下扬声器前方适合于麦克风的情况。另一方面，在声源为人声的情况下，具有方向性是人面朝麦克风发言的情况。声音处理设备100a的目的在于从包括声源S1至S3的声音信号中消除作为特定声源的声源S3的声音信号。

接着，将参照图11描述声音处理设备100a的声音处理方法。首先，频域转换单元101通过对麦克风观测到的观测信号进行短时傅里叶变换来获取以下时频序列(S202)。

数值表达式1

X₁(ω，t)，X₂(ω，t)，X₃(ω，t)

接着，确定是否已经计算了在步骤S202中获取的时频分量的相位差(S204)。在步骤S204中确定尚未计算时频分量的相位差的情况下，进行步骤S206的处理。另一方面，在步骤S204中确定已经计算了时频分量的相位差的情况下，该处理结束。

在步骤S204中确定尚未计算时频分量的相位差的情况下，计算在步骤S202中获取的时频分量的以下相位差。

数值表达式2

P₁₂(ω，t)，P₂₃(ω，t)，P₃₁(ω，t)

后文将详细描述麦克风对的相位差。接着，确定麦克风对的相位差是否满足以下条件表达式1(S208)。

数值表达式3

条件表达式1

当P₃₁(ω)＞0并且P₂₃(ω)＜0

在步骤S208中确定麦克风对的相位差满足条件表达式1的情况下，通过以下数值表达式获取麦克风1测量的声源S3的时频分量(S212)。

数值表达式4

{\hat{S}}_{1}^{3} (ω, t) = X_{1} (ω, t)

其中，只包括由麦克风i观测的声源j的时频分量由以下数值表达式表示。

数值表达式5

{\hat{S}}_{i}^{j} (ω, t)

在本示例中，形成如图10中所示的声源与麦克风间的位置关系，因此声源S3是独立性高的声源。因而，可以通过在步骤S212中对麦克风1观测到的观测信号进行非线性处理来获取只有声源3的时频分量(声音信号)。另一方面，在步骤S208中确定麦克风对的相位差不满足条件表达式1的情况下，确定麦克风对的相位差是否满足以下条件表达式2(步骤S210)。

数值表达式6

条件表达式2

当P₃₁(ω)＜0并且P₂₃(ω)＜0

在步骤S210中确定麦克风对的相位差满足条件表达式2的情况下，通过以下数值表达式获取只包括混响分量的时频分量，该混响分量未包括麦克风3观测的主要声源(比如声源S1、S2和S3)(S220)。

数值表达式7

{\hat{S}}_{3}^{Null} (ω, t) = X_{3} (ω, t)

其中，未包括主要声源的时频分量由以下数值表达式表示。

数值表达式8

{\hat{S}}_{i}^{Null} (ω, t)

在步骤S220中，可以通过对麦克风3观测到的观测信号进行非线性处理来获取混响分量的时频分量(声音信号)，所述混响分量不包括主要声源。这样，声源分离单元106对以下分量进行分离处理(步骤S214)。

数值表达式9

{\hat{S}}_{3}^{Null} (ω, t) = X_{3} (ω, t)

通过进行上述非线性处理，获取只包括麦克风1观测的声源S3的声音信号和不包括主要声源的声音信号。因此，信号选择单元104选择下列3种信号——由非线性处理单元102输出并且只包括麦克风1观测的声源S3的声音信号、不包括主要声源的声音信号、以及麦克风2观测到的观测信号，并将所选择的3种信号输入给声源分离单元106。这样，声音分离单元106输出不包括声源S3的以下时频分量(S216)。

数值表达式10

{\hat{S}}_{2}^{1,2} (ω, t)

这样，时域转换单元110通过对不包括声源S3的上述时频分量进行短时傅里叶逆变换来获取只不包括声源S3的时间波形(S218)。

如上所述向其输入3种信号(所述3种信号为：只包括麦克风1观测的声源S3的声音信号、不包括主要观测信号的声音信号、以及麦克风2观测到的观测信号)的声源分离单元106通过使用ICA来进行声源分离处理，以提高输出信号的独立性。因而，直接输出只包括独立性高的声源S3的声音信号。此外，从麦克风2观测到的观测信号中消除声源S3以输出。这样，直接输出不包括主要声源的声音信号。如上所述，通过用简化的非线性处理来分离包括独立性高的声源的声音信号，可以有效地获取只不包括独立性高的声源的声音信号。

接着，将参照图12至图16详细描述非线性处理单元102进行的非线性处理。如图12中所示，非线性处理单元102包括麦克风间相位计算部120、确定部122、计算部124和权重计算部126。向非线性处理单元102的麦克风间相位计算部120输入由频域转换单元101输出并由麦克风观测的观测信号的傅里叶变换序列(频率分量)。

在本示例中，对其进行了短时傅里叶变换的输入信号成为非线性处理的目标，并且对各频率分量的观测信号进行非线性处理。非线性处理单元102进行的非线性处理以在多个声源存在于观测信号中的情况下声源很少同时具有相同的时频分量为前提。这样，在基于频率分量是否满足预定条件来对各时频分量加权的情况下进行信号提取。例如，满足预定条件的时频分量与加权因子“1”相乘。另一方面，不满足预定条件的时频分量与值接近“0”的加权因子相乘。换而言之，各时频分量对哪个声源起作用是由“1”或者“0”确定的。

非线性处理单元102计算麦克风之间的相位差，并基于计算的相位差来确定各时频分量是否满足控制单元108提供的条件。然后根据确定结果来进行加权。下面将参照图13详细描述麦克风间相位计算部120。麦克风间相位计算部120通过使用麦克风之间的各延迟来计算麦克风之间的相位。

将考虑来自与麦克风之间的间距相比充分远的位置的信号。一般而言，在从彼此相距图13中示出的间距d的麦克风接收来自方向θ上的远处位置的信号的情况下，产生以下延迟时间。

数值表达式11

(c为音速)

其中，τ₁₂是以麦克风M_1的到达时间为参照的麦克风M_2的到达延迟时间，并且在来自麦克风M_1的声音先到达的情况下具有正值。延迟时间的产生取决于到达方向θ。

当考虑各时频分量时，可以利用麦克风之间的延迟通过以下等式针对各频率分量计算麦克风的频率分量之比。

数值等式12

Z (ω) = \frac{X_{M_{2}} (ω)}{X_{M_{1}} (ω)} \exp (- j \cdot ω \cdot τ_{12})

其中，XMi(ω)是通过针对麦克风M_i(i＝1或2)观测到的信号进行频率转换而获取的分量。实际上，进行的是短时傅里叶变换，并且Z(ω)变为频率指数ω的值。

接着，将具体描述确定部122。确定部122基于麦克风间相位计算部120提供的值来确定各时频分量是否满足条件。可以针对各时频分量通过以下等式计算复数Z(ω)的相位(也就是麦克风之间的相位差)。

数值表达式13

P (ω) = &angle; Z (ω) = \arctan (\frac{Im (Z (ω))}{Re (Z (ω))})

= - ω \cdot τ_{12}

= - \frac{d \cdot ω \cdot \sin θ}{c}

P的符号取决于延迟时间。换而言之，P的符号只取决于θ。因而，P的符号对得自0＜θ＜180的信号(sinθ＞0)为负。另一方面，P的符号对得自-180＜θ＜0的信号(sinθ＜0)为正。

因而，在控制单元108通知确定部122提取满足得自0＜θ＜180的信号条件的分量的情况下，当P的符号为负时该条件得到满足。

将参照图14描述确定部122进行的确定处理。图14是图示了确定部122进行的确定处理的示意图。如上所述，对观测信号的频率转换由频域转换单元101进行，并计算麦克风之间的相位差。然后，可以基于计算得到的麦克风之间相位差的符号来确定各时频分量的区域。例如，如图14中所示，在麦克风M_1与麦克风M_2之间相位差的符号为负的情况下，可以知道时频分量源于区域A。另一方面，在麦克风M_1与麦克风M_2之间相位差的符号为正的情况下，可以知道时频分量源于区域B。

接着，将详细描述计算部124。计算部124基于确定部122的确定结果将以下加权因子应用于麦克风M_1观测的频率分量。源于区域A的声源频谱可以基于加权因子来获得。

数值表达式14

类似地，源于区域B的声源频谱可以如下获得。

数值表达式15

sign (x) = \{\begin{matrix} 1 & : x > 0 \\ 0 & : x = 0 \\ - 1 & : x < 0 \end{matrix}

其中，

表示源于麦克风M_i观测的区域X的声源频谱的估计值。此外，α为“0”或者接近“0”的正值。

接着，将描述在麦克风M1至M3和声源S1至S3处于图10中示出的位置关系的情况下的相位差。图15是图示了第一示例中的各麦克风对之间产生的相位差的示意图。将各麦克风对之间产生的相位差确定为以下数值表达式。

数值表达式16

P_{12} (ω) = &angle; \frac{X_{M_{2}} (ω)}{X_{M_{1}} (ω)} = - ω \cdot τ_{12}

P_{23} (ω) = &angle; \frac{X_{M_{3}} (ω)}{X_{M_{2}} (ω)} = - ω \cdot τ_{23}

P_{31} (ω) = &angle; \frac{X_{M_{1}} (ω)}{X_{M_{1}} (ω)} = - ω \cdot τ_{31}

如图15中所示，可以基于相位差的符号来确定频率分量源于的区域。例如，在考虑麦克风M_1和M_2的情况(示意图51)下，当相位差P₁₂(ω)为负时，频率分量可被确定为源于区域A1。另一方面，当相位差P₁₂(ω)为正时，频率分量可被确定为源于区域B1。

类似地，在考虑麦克风M_2和M_3的情况(示意图52)下，当相位差P₂₃(ω)为负时，频率分量可被确定为源于区域A2。另一方面，当相位差P₂₃(ω)为正时，频率分量可被确定为源于区域B2。此外，在考虑麦克风M_3和M_1的情况(示意图54)下，当相位差P₃₁(ω)为负时，频率分量可被确定为源于区域A3。另一方面，当相位差P₃₁(ω)为正时，频率分量可被确定为源于区域B3。此外，通过应用以下条件，计算部124通过进行下述处理来提取存在于图16中示出的示意图55的区域A中的分量。

数值表达式17

类似地，通过应用下述条件，存在于图16中示出的示意图56的区域B中的分量被提取。

数值表达式18

换而言之，通过提取区域A的频率分量，可以获取源于区域A的声源S3的声音信号。此外，通过提取区域B的频率分量，可以提取与声源S1至S3的独立性无关的声音信号。在此，源于区域B的声源是如下分量：该分量未包括各声源的直接声音而包括弱混响。

接着，将详细描述第一示例中的信号选择单元104的处理。信号选择单元104根据分离声源的方法基于从控制单元108通知的控制信息来从N_in个输入中选择N_out(≤N_in)个输出信号。向信号选择单元104输入如下两种序列：由频域转换单元101提供的观测信号的傅里叶变换序列(频率分量)和由非线性处理单元102提供的时频序列。信号选择单元104在控制单元108的指挥下选择必要的信号，并提供所选择的信号给声源分离单元106。

第一示例的目的在于：在控制单元108的控制之下获取只不包括图10中示出的声源S3的信号。因而，信号选择单元104必须选择要输入给声源分离单元106的信号。要输入给声源分离单元106的信号至少为只包括声源S3的信号和包括所有声源S1至S3的信号。此外，由于在第一示例中向声源分离单元106输入3个声源，所以信号选择单元104必须额外地选择未包括全部声源S1至S3的信号。

输入给信号选择单元104的信号是麦克风(3个)观测到的信号和非线性处理单元102输出的源于各区域的信号。信号选择单元104从由非线性处理单元102输出的信号之中选择如下两种信号：源于其中只有声源S3的区域(图16中示出的区域A)的信号和源于全部声源S1至S3均不在其中的区域(图16中示出的区域B)的信号。此外，信号选择单元104选择如下信号：该信号包括麦克风观测的声源S1至S3的混合声音。

由信号选择单元104选择的上述三种信号被输入给声源分离单元106。随后，声源分离单元106输出源于区域A的信号(只有声源S3的分量)、源于区域B的信号(未包括全部声源S1至S3的分量)以及未包括源于区域A和B的分量的信号(未包括声源3的信号)。因而，获取作为目标的未包括存在于区域A中的声源S3的信号。

4-2.第二示例

接着，将参照图17和图18描述声源数量大于麦克风数量的情况(N＞M)。具体而言，将描述声源数量N为3而麦克风数量M为2的情况。同样地，在第二示例中，由与第一示例的声音处理设备100a相同的声音处理设备100a进行声音处理。图17是图示了2个麦克风M2和M3与3个声源S1至S3的位置关系的示意图。在第二示例中，与第一示例类似，假定声源S3为3个声源之中独立性高的声源。换而言之，声源S3为比其它声源S1和S2等声音更大的主导声源。第二示例的目的在于：从包括声源S1至S3的声音信号中消除作为特定声源的声源S3的声音信号。

接着，将参照图18描述根据第二示例的声音处理方法。首先，频域转换单元101通针对麦克风观测到的观测信号进行短时傅里叶变换来获取以下时频序列(S302)。

数值表达式19

X₂(ω，t)，X₃(ω，t)

接着，确定是否已经计算了在步骤S302中获取的时频分量的相位差(S304)。在步骤S304中确定尚未计算时频分量的相位差的情况下，进行步骤S306的处理。另一方面，在步骤S304中确定已经计算了时频分量的相位差的情况下，该处理结束。在步骤S304中确定尚未计算时频分量的相位差的情况下，计算在步骤S302中获取的时频分量的以下相位差。

数值表达式20

P₂₃(ω，t)

接着，确定麦克风对的相位差是否满足以下条件表达式3(S308)。数值表达式21

条件表达式3

当P₂₃(ω，t)＜0

在步骤S308中确定麦克风的相位差满足条件表达式3的情况下，通过以下数值表达式获取麦克风2测量的声源S3的时频分量(S310)。

数值表达式22

{\hat{S}}_{2}^{3} (ω, t) = X_{2} (ω, t)

其中，只包括麦克风i观测的声源j的时频分量由以下数值表达式表示。

数值表达式23

{\hat{S}}_{i}^{j} (ω, t)

在本示例中，形成如图17中所示的声源与麦克风间的位置关系，因此声源S3为独立性高的声源。因而，可以在步骤S310中通过对麦克风2观测到的观测信号进行非线性处理来获取只有声源S3的时频分量(声音信号)。这样，声源分离单元106对以下分量进行分离处理(S312)。

数值表达式24

X_{3} (ω, t), {\hat{S}}_{2}^{3} (ω, t)

通过进行上述非线性处理来获取只包括麦克风2观测的声源S3的声音信号。因此，信号选择单元104选择如下两种信号：由非线性处理单元102输出并且只包括麦克风M2观测的声源S3的声音信号和麦克风M3观测到的观测信号，并将所选择的信号输入给声源分离单元106。这样，声源分离单元106输出不包括声源S3的以下时频分量(S314)。

数值表达式25

{\hat{S}}_{2}^{1,2} (ω, t)

这样，时域转换单元110通过对不包括声源S3的上述时频分量进行短时傅里叶逆变换来获取只不包括声源3的时间波形(S316)。

如上所述向其输入只包括麦克风2观测的声源S3的声音信号和麦克风3观测到的观测信号这两种信号的声源分离单元106通过使用ICA来进行声源分离处理，以提高输出信号的独立性。因而，直接输出只包括独立性高的声源S3的声音信号。此外，从麦克风3观测到的观测信号中消除声源S3以输出。如上所述，通过用简化的非线性处理来分离包括独立性高的声源的声音信号，可以有效地获取只不包括独立性高的声源的声音信号。

如上参照附图详细地描述了本发明的优选实施方式。然而，本发明不限于此。显然本领域技术人员在如权利要求中限定的技术思想的范围内可实现各种变化示例或修改示例，并且自然地应理解这样的示例隶属本发明的范围。

例如，在上述实施方式中，声音处理是对可近似为点声源的声源进行的。然而，可以在扩散噪声(spread noise)下使用根据本发明一种实施方式的声音处理设备100。例如，在扩散噪声下，预先进行比如频谱减法的非线性处理，由此减少噪声。此外，通过使用ICA对噪声得到减少的信号进行声源分离处理，ICA的分离能力可得到提高。

此外，如图19中所示，根据本发明一种实施方式的声音处理设备100可以用作回声消除器。例如，声音处理设备10在预先存在希望将其消除的声源的情况下用作回声消除器。在这种情况下，通过提取要消除的声源并将所提取的声源输入给声源分离单元106，ICA的分离能力可得到提高。

例如，包括在在此描述的声音处理设备100的处理中的各步骤并不必须按照在以时间序列的流程图中所写的顺序来进行。换而言之，在声音处理设备100的处理中的各步骤可以有不同过程，并且这些步骤可以并行地进行。此外，可以通过更换置于声音处理设备100中的硬件(比如CPU、R0M或RAM)来产生被允许执行与声音处理设备100的上述配置的功能等效的功能的计算机程序。此外，还提供其中存储有上述计算机程序的存储介质。

本申请包含的主题涉及于2009年7月22日递交日本专利局的日本优先权专利申请JP 2009-171054中公开的内容，通过引用将该申请的整体内容合并于此。

本领域的技术人员应理解，根据设计需要和其它因素，可以在所附权利要求或其等同方案的范围内进行各种修改、组合、子组合和变型。

Claims

1.一种声音处理设备，包括：

非线性处理单元，通过对多个观测信号进行非线性处理来输出包括存在于预定区域中的声源的多个声音信号，所述多个观测信号由多个声源生成并由多个传感器观测；

信号选择单元，从所述非线性处理单元输出的所述多个声音信号中选择包括特定声源的声音信号，以及选择包括所述多个声源的观测信号；以及

声音分离单元，从所述信号选择单元选择的观测信号中分离出所述信号选择单元选择的包括所述特定声源的声音信号。

2.根据权利要求1所述的声音处理设备，还包括：

频域转换单元，将从所述多个声源生成并由所述多个传感器观测的所述多个观测信号转换成频域信号值，

其中，所述非线性处理单元通过对由所述频域转换单元转换而得的观测信号值进行非线性处理，来输出包括存在于特定区域中的声源的多个声音信号。

3.根据权利要求1所述的声音处理设备，

其中，在被所述多个传感器观测的所述多个声源中包括独立性高的特定声源，

其中，所述非线性处理单元输出表示所述独立性高的特定声源的声音分量的声音信号，

其中，所述信号选择单元从所述非线性处理单元输出的表示所述特定声源的所述声音分量的声音信号和所述多个观测信号中选择包括所述特定声源和不同于所述特定声源的声源的观测信号，以及

其中，所述声音分离单元从所述信号选择单元选择的观测信号中消除所述特定声源的所述声音分量。

4.根据权利要求1所述的声音处理设备，

其中，所述非线性处理单元输出表示存在于生成第一声源的区域中的声音分量的声音信号，

其中，所述信号选择单元从由所述非线性处理单元输出并存在于生成所述第一声源的区域中的表示所述声音分量的所述声音信号和所述多个观测信号中选择包括第二声源的观测信号，所述包括第二声源的观测信号由位于生成所述第一声源和不同于所述第一声源的声源的区域中的传感器观测，以及

其中，所述声音分离单元从所述信号选择单元选择的所述包括第二声源的观测信号中消除所述第一声源的所述声音分量。

5.根据权利要求1所述的声音处理设备，

其中，所述非线性处理单元包括：

相位计算装置，针对各时频分量计算所述多个传感器之间的相位差；

确定装置，基于所述相位计算装置计算的所述多个传感器之间的所述相位差来确定各时频分量起源的区域；以及

计算装置，基于所述确定装置的确定结果来对所述传感器观测到的各时频分量进行预定的加权。

6.根据权利要求5所述的声音处理设备，其中所述相位计算装置利用所述传感器之间的延迟来计算所述传感器之间的所述相位差。

7.根据权利要求1所述的声音处理设备，

其中，观测与所述多个传感器在数量上对应的所述多个观测信号，以及

其中，所述信号选择单元从由所述非线性处理单元输出的所述多个声音信号中选择数量上与下述数量对应的声音信号：所述多个传感器的数量加上一个观测信号。

8.根据权利要求1所述的声音处理设备，

其中，所述非线性处理单元通过对从包括独立性高的所述特定声源的三个声源生成并由三个传感器观测的三个观测信号进行非线性处理，来输出第一声音信号和第二声音信号，所述第一声音信号表示所述独立性高的所述特定声源的声音分量，而所述第二声音信号未包括所述三个声源的全部声音分量，

其中，所述信号选择单元选择所述非线性处理单元输出的所述第一声音信号和所述第二声音信号，以及选择包括所述特定声源和不同于所述特定声源的声源的观测信号，以及

其中，所述声音分离单元从所述信号选择单元选择的所述观测信号中消除所述特定声源的所述声音分量。

9.根据权利要求1所述的声音处理设备，

其中，所述非线性处理单元通过对从包括独立性高的所述特定声源的三个声源生成并由两个传感器观测的两个观测信号进行非线性处理，来输出表示所述独立性高的所述特定声源的声音分量的声音信号，

其中，所述信号选择单元选择所述非线性处理单元输出的所述声音信号，以及选择包括所述特定声源和不同于所述特定声源的声源的观测信号，以及

10.一种声音处理方法，包括以下步骤：

通过对由多个声源生成并由多个传感器观测的多个观测信号进行非线性处理，来输出包括存在于预定区域中的声源的多个声音信号；

从由所述非线性处理输出的所述多个声音信号中选择包括特定声源的声音信号，以及选择包括所述多个声源的所述观测信号；以及

从所选择的所述观测信号中分离出在选择所述声音信号和所述观测信号时选择的所述包括特定声源的声音信号。

11.一种允许计算机用作声音处理设备的程序，所述程序包括：

非线性处理单元，通过对由多个声源生成并由多个传感器观测的多个观测信号进行非线性处理，来输出包括存在于预定区域中的声源的多个声音信号；

信号选择单元，从所述非线性处理单元输出的所述多个声音信号之中选择包括特定声源的声音信号，以及选择包括所述多个声源的所述观测信号；以及

声音分离单元，从所述信号选择单元选择的所述观测信号中分离出所述信号选择单元选择的所述包括特定声源的声音信号。