CN101238511A

CN101238511A - 声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序

Info

Publication number: CN101238511A
Application number: CNA2006800285029A
Authority: CN
Inventors: 长滨克昌; 松井信也
Original assignee: Asahi Kasei Kogyo KK
Current assignee: Asahi Kasei Corp
Priority date: 2005-08-11
Filing date: 2006-08-11
Publication date: 2008-08-06
Anticipated expiration: 2026-08-11
Also published as: KR100959983B1; US20090055170A1; EP1923866A4; EP1923866A1; EP1923866B1; WO2007018293A1; KR20080009211A; JP4225430B2; JPWO2007018293A1; US8112272B2; CN101238511B

Abstract

本发明提供一种声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序，其不受传声器元件的灵敏度偏差影响地从混合有从多个声源发出的声源信号的混音中分离来自目标声源的声源信号。声源分离装置(1)的波束形成部(3)对波谱分析后的来自传声器(10、11)的输出信号乘以存在复共轭关系的权重系数，从而进行分别使从与连接2个传声器(10、11)的直线的垂直线成对称的方向到来的声源信号衰减的波束形成处理。功率计算部(40、41)计算功率谱信息，目标声谱提取部(50、51)根据功率谱信息彼此的差分提取目标声源的波谱信息。

Description

声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序

技术领域

本发明涉及使用多个传声器、从多个声源发出的多个音频信号或各种环境噪声等多个声音信号混杂的信号分离出从作为目标的声源到来的声源信号的声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序。

背景技术

想要在各种环境下收录特定的音频信号等时，由于周围环境中存在各种噪声源，因此，难以利用传声器仅收录作为目标声的信号，需要进行某种降噪处理或声源分离处理。

作为特别需要这些处理的示例，可以举出例如处于汽车环境的情况。在汽车环境下，由于移动电话的普及，在驾驶中使用移动电话进行的通话，通常使用车内分开设置的传声器，通话质量显著下降。并且，在汽车环境下，在驾驶中进行音频识别时，也是以相同的状况进行讲话，因此，导致音频识别性能下降。随着当前的音频识别技术的进步，关于对定常噪声的音频识别率下降的问题，可以恢复所下降性能的相当一部分。但是，以现有的音频识别技术难以对应的问题是多位说话人同时讲话时的识别性能劣化。在当前的音频识别技术中，识别同时讲话的两个人的混音的技术较低，因此，出现在使用音频识别装置时限制说话人以外的同乘者讲话、限制同乘者的行动等状况。作为这些声源分离的方法，可以举出独立主成分分析法等，但是这些方法在运算量、声源数量的变动等方面仍存在问题，还未得到实用化。

为了解决上述问题，提出了各种使车内的多个传声器仅收录来自特定安装方向的音频的方法，但是难以在汽车内确保用于安装多个传声器的空间，加上成本方面的问题，难以使用特性一致的传声器。因此，希望提出一种使用数量尽可能少且具有特性偏差的传声器进行工作的方式。

通常在使用多个传声器的情况下，可以说越是低成本的传声器，其灵敏度特性的偏差越大，各频率特性上存在约±3dB左右的偏差。这些特性偏差即使在传声器阵列技术中，在延迟和阵列等加法型阵列处理中传声器阵列性能也仍难以实现所设计的特性，但与在自适应阵列等所谓的减法型阵列中使用一个传声器的情况相比，尤其是在1 kHZ以下左右的低频区域中，有时性能也恶化。

对于传声器阵列技术来说，作为传感器的传声器的特性的偏差成为较大的问题，作为这些的对策，在专利文献1～5等中提出了使多个传声器元件的灵敏度一致的方法。

以往，关于利用以少量的传声器得到较大效果的自适应波束形成处理技术的传声器阵列，例如非专利文献1、非专利文献2中所述，已知有广义旁瓣相消器(GSC)、Frost型波束形成器(beam former)以及参考信号法等各种方法。

众所周知，自适应波束形成处理基本上是通过形成了噪声源的方向上具有死角的指向性波束的滤波器来抑制噪声的处理，其中尤其是广义旁瓣相消器具有比较良好的性能。但是，在GSC中存在如下问题：从与所设定的目标声源的方向偏离的方向发来目标信号时，目标信号被抵消而劣化。相对于此，在专利文献6、7中公开了如下方法：通过使其在频域工作来减少计算量的同时，根据频域的滤波系数逐一检测说话人方向和特定噪声方向，在一定程度上分离出目标声和目标声以外的噪声，并用波谱相减，从而降低到来方向不明的噪声或扩散性的噪声。

专利文献1：日本特开平5-131866号公报

专利文献2：日本特开2002-99297号公报

专利文献3：日本特开2003-153372号公报

专利文献4：日本特开2004-343700号公报

专利文献5：日本特开2004-289762号公报

专利文献6：日本特开2001-100800号公报

专利文献7：日本特开2000-47699号公报

非专利文献1：電子情報通信学会編「音

システムとデジタル処理」

非专利文献2：HAykin著、“ADAptive Filter Theory(PrentiCe HAll)”

在将该专利文献6、7中记载的自适应波束形成和波谱相减组合的技术中，传声器的元件灵敏度存在偏差的情况下，需要制作压制了目标声的参考信号，作为自适应滤波器部的输入信号，然而，由于不能充分压制目标声，使目标声中包括自适应滤波器部的参考信号和目标信号这两者，因此，实施了自适应滤波处理的结果目标声失真，音质下降。在初始反射大的封闭空间中，目标声信号泄漏到参考信号中，发生相同的问题。

为了解决该问题，采用如下方法：在组装产品时，测定偏差，制作校正数据，在使用时进行校正；或者，在使用时，利用来自特定方向的基准信号，测定传声器的元件灵敏度的个体差、周围温度或部件的经年变化所引起的逐一变化，进行校正，从而校正传声器的元件灵敏度，然而仍存在制造成本增加、何时再生基准信号、或如何判断所收录的信号真的是否仅是基准信号等问题。

并且，若关注于自适应滤波器的动作，会发现通常在自适应滤波器中参考信号和目标信号具有较高的相关性的情况下，不能顺利地进行自适应滤波器的估计动作，估计精度显著下降。若举出一个例子，则有目标声和噪声双方为音频信号的情况等。

相同的问题在回波消除器中也有所发生，在估计从远端信号混入到近端信号的回波的自适应滤波器中，远端、近端同时有2人进行讲话时，产生所谓的双方同时讲话(double-talk)状态，回波消除器的动作性能明显下降。因此，如何准确检测双方同时讲话状态、停止自适应滤波器的参数估计、或者延迟估计速度成为重要的性能维持条件。

因此，在该自适应滤波器动作中，目标声和特定噪声双方均为音频的情况下，需要检测双方均正在讲话的状态的同时，双方均正在讲话的频度越高，停止估计自适应滤波器的频度上升，其结果，存在自适应滤波器的噪声除去性能下降的问题。

并且，在产生汽车的行驶噪声等大的扩散性噪声等的状况下，由于扩散性噪声的影响导致自适应滤波器的估计精度下降，因此，其结果存在如下问题：使用了自适应滤波器所估计的滤波器参数的说话人方向、特定噪声方向的到来方向估计精度下降，系统整体的性能下降。

而且，在上述的专利文献6、7所述的方式中，在面向汽车等使用低成本的传声器来构成噪声成分抑制装置的情况下，车内声源的初始反射大、扩散性的噪声成分大、使用的传声器元件的偏差大(±3db左右)、驾驶者和同乘者同时讲话，同时存在相关性强的目标声和特定噪声等的情况下，自适应滤波器部不进行所希望的动作，不能作为整体实现所希望的动作。

发明内容

本发明是鉴于上述问题而进行的，其目的在于，提供一种不受传声器元件的灵敏度偏差影响地从多个声源发出的声源信号所混合的混音中分离来自目标声源的声源信号的声源分离装置、音频识别装置、移动电话机、声源分离方法、以及程序。

为了解决上述问题，第一方面所述的发明为一种声源分离装置，所述声源分离装置向相互分开配置的至少2个传声器输入混合有从多个声源发出的声源信号的混音，从该混音中分离出来自目标声源的声源信号，所述声源分离装置的特征在于，所述声源分离装置具备：波束形成单元，其进行第一波束形成处理和第二波束形成处理，其中，在所述第一波束形成处理中，使用第一系数对来自所述传声器的输出信号进行运算，从而使从预定方向到来的声源信号衰减，在所述第二波束形成处理中，使用第二系数对来自所述传声器的输出信号进行运算，从而使从相对于连接2个传声器的直线的垂直线、与所述预定方向对称的方向到来的声源信号衰减，其中，所述第二系数与所述第一系数在频域上满足复共轭关系，功率计算单元，其分别计算通过所述波束形成单元得到的声源信号的功率谱信息；以及目标声谱提取单元，其根据由所述功率计算单元计算出的功率谱信息彼此之间的差分，提取目标声源的波谱信息。

根据该发明，声源分离装置能够实现指向特性不受传声器元件的灵敏度影响的性质，能够不受传声器元件的灵敏度偏差影响地从混合有从多个声源发出的声源信号的混音中分离来自目标声源的声源信号。

第二方面所述的发明的特征在于，在第一方面所述的声源分离装置中，所述波束形成单元对相互分开配置的3个传声器之中任意2个传声器的组合以及另外2个传声器的组合分别进行所述第一波束形成处理和所述第二波束形成处理。

根据该发明，能够提取来自位于以连接3个传声器之中的2个传声器的直线的垂直线为边界的各区域上的目标声源的声源信号。

第三方面所述的发明的特征在于，在第一方面或第二方面所述的声源分离装置中，所述声源分离装置还具备指向性控制单元，所述指向性控制单元使来自传声器的输出信号发生延迟。

根据该发明，通过发生延迟能够将指向特性校正为最佳状态，能够提高声源的分离性能。

第四方面所述的发明的特征在于，在第三方面所述的声源分离装置中，所述指向性控制单元使来自2个传声器之中的至少一个传声器的输出信号发生延迟，从而虚拟生成来自3个传声器的输出信号。

根据该发明，能够虚拟生成来自3个传声器的输出信号，因此，仅使用2个传声器，就能够分离提取出从连接2个传声器的直线的垂直线方向到来的声源信号。

第五方面所述的发明的特征在于，在第三方面或第四方面所述的声源分离装置中，所述声源分离装置还具备到来方向估计单元，该到来方向估计单元估计所述声源信号到来的方向，所述指向性控制单元根据通过所述到来方向估计单元估计的到来方向，使该来自传声器的输出信号发生延迟，使得2个声源的位置相对于虚拟地连接2个传声器的直线的垂直线对称。

根据该发明，可以进行延迟操作，以便得到声源的高分离性能。

第六方面所述的发明的特征在于，在第一～五方面的任意一项所述的声源分离装置中，所述声源分离装置还具备波谱相减单元，该波谱相减单元对通过所述目标声提取单元提取的功率谱信息进行波谱相减处理。

根据该发明，通过进行波谱相减处理，可以除去到来方向不明的定常噪声或扩散性的噪声等。

第七方面所述的发明的特征在于，在第一～六方面的任意一项所述的声源分离装置中，所述声源分离装置还具备定常噪声降低单元，该定常噪声降低单元在所述波束形成单元进行处理之前进行降低噪声的处理。

根据该发明，能够减少产生音乐噪声等听起来不舒服的噪声。

第八方面所述的发明提供一种具备对通过第一～七方面的任意一项所述的声源分离装置分离出的声源信号进行音频识别的音频识别单元的音频识别装置。

根据该发明，能够根据高精度地分离出的声源信号，进行高精度的音频识别。

第九方面所述的发明的特征在于，在第八方面所述的音频识别装置中，所述音频识别装置还具备识别词汇列表存储单元，在所述识别词汇列表存储单元中存储有驾驶席侧识别词汇列表和副驾席侧识别词汇列表，其中，所述驾驶席侧识别词汇列表是从车辆的驾驶席侧发出的词汇的候选一览，所述副驾席侧识别词汇列表是从副驾席侧发出的词汇的候选一览，所述音频识别单元根据在所述识别词汇列表存储单元中存储的驾驶席侧识别词汇列表和副驾席侧识别词汇列表，对通过所述声源分离装置分离出的声源信号进行音频识别处理。

根据该发明，音频识别装置根据识别词汇列表存储单元中存储的副驾席侧识别词汇列表和驾驶席侧识别词汇列表进行音频识别处理，因此，能够按照驾驶席、副驾席从词汇列表中选择最佳的词汇，能够高精度地进行音频识别。

第十方面所述的发明的特征在于，在第八或九方面所述的音频识别装置中，所述音频识别装置还具备：状态变换单元，其管理当前的车辆状态；有效词汇列表存储单元，其存储与车辆状态对应的副驾席侧和驾驶席侧的有效词汇列表；以及控制单元，其根据由所述状态变换单元管理的当前的车辆状态和在所述有效词汇列表存储单元中存储的词汇列表，判断通过所述音频识别单元识别出的词汇是否有效，根据其判断结果，进行控制。

根据该发明，根据当前的车辆状态和有效词汇列表，判断识别出的词汇是否有效，根据判断结果进行控制，因此，对于车辆内的搭乘者来说，能够进行快捷的控制。并且，能够自由设计有效词汇列表或控制内容，因此，能够对使用了音频识别的应用程序设计赋予自由度。

第十一方面的发明提供一种具备第一～七方面的任意一项所述的声源分离装置的移动电话机。

根据该发明，可以在中规模的会议室等中将移动电话机用作集声传声器。

第十二方面的发明提供一种声源分离方法，其特征在于，所述声源分离方法包括：声源信号接收步骤，向相互分开配置的至少2个传声器输入从多个声源发出的声源信号；波束形成处理步骤，进行第一波束形成处理和第二波束形成处理，其中，在所述第一和第二波束形成处理中，使用频域中满足复共轭关系的2个权重系数分别对来自所述传声器的输出信号进行运算，从而分别使从相对于连接2个传声器的直线的垂直线对称的预定方向到来的声源信号衰减，功率计算步骤，分别对在所述波束形成处理步骤中得到的声源信号计算功率谱信息；以及目标声谱提取步骤，根据在所述功率计算步骤中计算出的功率谱信息彼此之间的差分，提取目标声源的波谱信息。

第十三方面的发明提供一种程序，其特征在于，所述程序使计算机执行如下步骤：输出信号取得步骤，从相互分开配置的至少2个传声器取得混合有从多个声源发出的声源信号的输出信号；波束形成处理步骤，进行第一波束形成处理和第二波束形成处理，其中，在所述第一和第二波束形成处理中，使用频域中满足复共轭关系的2个权重系数分别对在所述输出信号取得步骤中取得的输出信号进行运算，从而分别使从相对于连接2个传声器的直线的垂直线对称的预定方向到来的声源信号衰减，功率计算步骤，分别对在所述波束形成处理步骤中得到的声源信号计算功率谱信息；以及目标声谱提取步骤，根据在所述功率计算步骤中计算出的功率谱信息彼此之间的差分，提取目标声源的波谱信息。

根据本发明，进行通过分别使用在频域中存在复共轭关系的2个权重系数进行运算，以分别使从相对于连接2个传声器的直线的垂直线对称的预定方向到来的声源信号衰减的第一波束形成处理和第二波束形成处理，从而分别使与连接2个传声器的直线的垂直线对称的方向到来的声源信号衰减，根据所述第一波束形成处理和所述第二波束形成处理所得到的关于各个声源信号的功率谱信息彼此的差分提取目标声源的波谱信息，从而能够实现指向特性不受传声器元件的灵敏度影响的性质，能够不受传声器元件的灵敏度的偏差地从混合有从多个声源发出的声源信号的混音中分离来自目标声源的声源信号。

附图说明

图1是表示本发明的第1实施方式的声源分离系统的基本构成的图。

图2是表示第1实施方式的传声器的种类的一例的图。

图3是表示第1实施方式的波束形成部的构成的图。

图4是表示第1实施方式的功率计算部的构成的图。

图5是表示第1实施方式的目标声谱提取部的构成的图。

图6是用于说明第1实施方式的死角控制型波束形成器的图。

图7是用于说明第1实施方式的死角控制型波束形成器的图。

图8是表示第1实施方式的差分结果的指向特性的一例的图。

图9是用于说明使第1实施方式的传声器的元件灵敏度差变动时的共轭波束形成的指向特性的图。

图10是表示使第1实施方式的传声器的元件灵敏度差变动时的波束形成单体的指向特性的图。

图11是表示求出第1实施方式的声源分离装置的360度的指向特性的曲线图。

图12是表示第1实施方式的声源分离装置的利用了指向特性的两位说话人个别录音的实施例的图。

图13是表示利用了第1实施方式的声源分离装置的指向特性的简易免提装置和用于音频识别装置的传声器的实施例的图。

图14是表示第1实施方式的评价实验中的传声器安装位置的图。

图15是表示第1实施方式的评价实验的条件的图。

图16是表示第1实施方式的评价实验结果的图。

图17是表示第2实施方式的声源分离系统的构成的图。

图18是表示第2实施方式的波束形成的构成的图。

图19是表示第3实施方式的声源分离系统的构成的图。

图20是表示第3实施方式的其他声源分离系统的构成的图。

图21是表示第3实施方式的目标声谱提取部的构成的图。

图22是表示第4实施方式的声源分离系统的构成的图。

图23是表示第5实施方式的声源分离系统的构成的图。

图24是表示第5实施方式的指向性控制的示例的图。

图25是表示第5实施方式的指向性控制部的构成的图。

图26是表示第6实施方式的声源分离系统的构成的图。

图27是表示第7实施方式的声源分离系统的构成的图。

图28是用于说明第7实施方式中分离出的声源的位置的图。

图29是表示第7实施方式的单一指向性传声器的设置例的图。

图30是表示第7实施方式的目标声提取部的构成的一例的图。

图31是表示第7实施方式的目标声提取部的构成的一例的图。

图32是表示第7实施方式的目标声提取部的构成的一例的图。

图33是表示向利用了第7实施方式的声源分离装置的个人计算机输入音频的示例的图。

图34是用于说明第8实施方式的目标声范围和噪声范围的图。

图35是用于说明第8实施方式的延迟操作的图。

图36是表示第8实施方式的指向性控制单元的构成例的图。

图37是表示第8实施方式的声源分离装置系统的构成例的图。

图38是表示第8实施方式的目标声提取部的处理方式的一例的图。

图39是表示第8实施方式的目标声提取部的处理方式的一例的图。

图40是表示第9实施方式的用于控制车载设备的音频识别系统的构成的图。

图41是表示第10实施方式的移动电话机的图。

图42是表示第11实施方式的声源分离系统的传声器排列的图。

图43是表示应用了第12实施方式的声源分离系统的环境的图。

图44是表示第12实施方式的声源分离系统所应用的讲话声的输入状况的图。

图45是表示第12实施方式的导向(guidance)音频删除部的构成的图。

图46是表示第12实施方式的目标音频提取部的构成的图。

图47是表示第12实施方式的导向音频删除部的其他构成的图。

图48是表示第12实施方式的导向音频删除部的其他构成中的目标音频提取部的构成的图。

图49是表示第12实施方式的声源分离系统所应用的其他环境的图。

图50是表示第12实施方式的声源分离系统所应用的讲话声的其他输入状况的图。

图51是表示第12实施方式的声源分离系统的其他构成的图。

具体实施方式

下面，参照附图，说明本发明的实施方式。

[第1实施方式]

图1是表示本发明的第1实施方式的声源分离系统的基本构成的图。该系统由2个传声器(以下称为“传声器”)10、11以及声源分离装置1构成。该声源分离装置1具有未图示的用于控制整体并执行运算处理的CPU；包括ROM、RAM、硬盘装置等存储装置的硬件；以及包括存储于存储装置的程序、数据等的软件。通过这些硬件和软件实现图1所示的功能模块。

2个传声器10、11是无指向性传声器，在平面上相互隔开几cm左右而进行了设置。另外，传声器10、11基本上为无指向性的传声器，但是，也可以使用图2所示的单一指向性传声器。传声器10、11接收从2个声源R1、R2发出的信号。此时，2个声源R1、R2分别位于以对连接2个传声器10、11的直线画出的垂直线为边界分割的2个区域(以下称为“垂直线的左右”)，但是，无需一定处于相对于垂直线成左右对称的位置。

波谱分析部20、21分别按照每个传声器输出对利用该传声器10、11得到的2个声源信号进行频率分析，在波束形成部3中，利用在对连接2个传声器10、11的直线画出的垂直线的左右对称地形成死角的波束形成器30、31对这些进行了频率分析的信号进行滤波，在功率计算部40、41中计算该滤波器输出的功率，在目标声谱提取部50、51中进行如下处理：输出相对于各个计算出差分的结果为某一定值以上的值，将其以下设为零。这些处理不同于通常的对特定噪声形成死角的处理，在几个条件下形成波束形成部3，实施上述处理，从而解决现有问题、即由于传声器的元件灵敏度的偏差导致传声器阵列的特性下降的问题，与此同时，能够针对宽范围的频带实现以上述垂直线为中心分离来自左右的声音的指向特性。下面，详细说明各功能模块。

[波束形成部]

首先，参照图3，说明波束形成部3的构成。图3中，将利用波谱分析部20、波谱分析部21以每个频率成分进行分解的信号x₁(ω)、x₂(ω)设为输入，通过乘法器100a、100b、100c、100d分别将各输入与滤波器的权重系数w₁(ω)、w₂(ω)、w₁ ^*(ω)、w₂ ^*(ω)(^*表示存在复共轭关系)相乘，利用加加法器100e、100f将2个相乘结果相加，作为其输出，输出滤波处理结果ds₁(ω)、ds₂(ω)。如上所述，波束形成部3通过使用复共轭滤波系数，从而在连接传声器10、11的直线的垂直线为中心成对称的位置形成死角。

[功率计算部]

接着，参照图4，说明功率计算部40、41。功率计算部40、41通过下述计算式将来自波束形成器30、波束形成器31的输出ds₁(ω)、ds₂(ω)变换成功率谱信息ps₁(ω)、ps₂(ω)。

ps₁(ω)＝[Re(ds₁(ω))]²+[Im(ds₁(ω))]²

ps₂(ω)＝[Re(ds₂(ω))]²+[Im(ds₂(ω))]²

[目标声谱提取部]

接着，参照图5，说明目标声谱提取部50、51，其中，功率计算部40、41的输出ps₁(ω)、ps₂(ω)被用作目标声谱提取部50、51的2个输入。目标声谱提取部50、51将2个波束形成器30、31输出的功率谱信息作为输入，而作为输出，分别输出左右的目标声，内部由差分计算部500、510以及系数变换部501、511构成。

在差分计算部500中利用减法器500a从波束形成器30的功率谱信息减去波束形成器31的功率谱信息，同样地在差分计算部510中利用减法器501a从波束形成器31的功率谱信息减去波束形成器30的功率谱信息，将其结果分别输入到系数变换部501、系数变换部511。系数变换部501、系数变换部511是分别用于分离左右声音的模块，分别将特定阈值以上的值作为来自目标方向的信号输出波谱信息。此处，阈值的值一般为“0”，然而也可以根据使用环境通过实测求出最佳值，分别进行设定。

[动作]

接着，参照图1，说明声源分离装置系统整体的动作。

首先，相互隔开几cm左右设置2个无指向性或指向性的传声器10、11，利用传声器10、传声器11接收从2个声源发出的信号。此时，利用波谱分析部20、波谱分析部21对各传声器10、11接收到的2个声源信号相重叠的信号进行频率分析。在此，通常采用快速傅立叶变换等方法，也可以采用滤波器组(filter bank)等频率分析方法。频率分析处理以10msec左右的固定周期进行。

利用相对于连接传声器10、11的直线的垂直线对称地形成有死角的波束形成器30、波束形成器3 1对频率分析后的2个信号进行滤波，使来自特定方向的信号衰减。但是，在此，并不以准确地估计特定的声源到来方向、使死角面向准确估计出的声源方向为目的。使用2个信道的输入对每个频率成分进行滤波，利用功率计算部40、功率计算部41将波束形成器30、波束形成器31的输出变换成功率谱信息的同时，利用相位提取部60、相位提取部61从波束形成器30、波束形成器31的输出提取相位信息Φ₁、Φ₂。接着，将利用功率计算部40、功率计算部41变换为功率谱信息的波束形成器30、波束形成器3 1的输出发送到目标声谱提取部50、目标声谱提取部51，利用目标声谱提取部50提取从右方向(0～90°)到来的声源信号的功率谱信息，利用目标声谱提取部51提取从左方向(-90°～0)到来的声源信号的功率谱信息。

将从目标声谱提取部51提取的功率谱信息用作音频识别处理的前处理的情况下，将该功率谱信息发送到未图示的声音参数解析部，进行声音分析处理。另一方面，需要将所提取的声源信号的功率谱信息返回为时间信号，将利用相位提取部60、相位提取部61所提取的相位信息和目标声谱提取部50、目标声谱提取部51所提取的波谱信息输入到时间波形变换部70、时间波形变换部71，进行返回为时间信号信息的处理。

[死角控制型波束形成器的设计例]

接着，在波束形成部3中的波束形成器30、波束形成器31中，在相对于连接2个传声器10、11的直线的垂直线对称的位置形成死角，从而证明指向特性(指向性)不受传声器元件的灵敏度的影响。

使用2个传声器元件的情况下，如图6所示，如下示出将相对于目标方位θ₁的增益设为1、在其他方向θ₂上形成1个死角(增益0)的死角控制型波束形成器的设计例。

将死角控制型波束形成器的输出信号设为S(f)＝[s₁(f)、s₂(f)]’，将观测信号设为X(f)＝[x₁(f)、x₂(f)]’时，能够通过下述式求出某个频率f中的死角控制型波束形成器的权重系数向量W(f、θ₁、θ₂)＝[w₁(f)、w₂(f)]’(其中，’表示转置操作)。

[式1]

S(f，θ₁，θ₂)＝W(f，θ₁，θ₂)×(f，θ₁，θ₂)

W (f, θ_{1}, θ_{2}) = [\begin{matrix} w_{1} (f, θ_{1}, θ_{2}) \\ w_{2} (f, θ_{1}, θ_{2}) \end{matrix}]

此时，

[\begin{matrix} 1 \\ 0 \end{matrix}] = [\begin{matrix} \exp [j 2 πf d_{1} \sin θ_{1} / c] & \exp [j 2 πf d_{2} \sin θ_{1} / c] \\ \exp [j 2 πf d_{1} \sin θ_{2} / c] & \exp [j 2 πf d_{2} \sin θ_{2} / c] \end{matrix}] [\begin{matrix} w_{1} (f, θ_{1}, θ_{2}) \\ w_{2} (f, θ_{1}, θ_{2}) \end{matrix}]

[\begin{matrix} w_{1} (f, θ_{1}, θ_{2}) \\ w_{2} (f, θ_{1}, θ_{2}) \end{matrix}] = {[\begin{matrix} \exp [j 2 πf d_{1} \sin θ_{1} / c] & \exp [j 2 πf d_{2} \sin θ_{1} / c] \\ \exp [j 2 πf d_{1} \sin θ_{2} / c] & \exp [j 2 πf d_{2} \sin θ_{2} / c] \end{matrix}]}^{- 1} [\begin{matrix} 1 \\ 0 \end{matrix}]

另一方面，如图7所示，将目标方向、死角方向设置在以连接2个传声器10、11的直线的垂直线为中心、与图6所示的位置成线对称的位置时，可以通过以下计算求出权重系数向量W(f、-θ₁、-θ₂)＝[w₁(f)、w₂(f)]’。

[式2]

S(f，-θ₁，-θ₂)＝W(f，-θ₁，-θ₂)X(f，-θ₁，-θ₂)

W (f, {- θ}_{1}, {- θ}_{2}) = [\begin{matrix} w_{1} (f, {- θ}_{1}, {- θ}_{2}) \\ w_{2} (f, {- θ}_{1}, {- θ}_{2}) \end{matrix}]

此时，计算出

[式3]

[\begin{matrix} 1 \\ 0 \end{matrix}] = [\begin{matrix} \exp [- j 2 πf d_{1} \sin θ_{1} / c] & \exp [- j 2 πf d_{2} \sin θ_{1} / c] \\ \exp [- j 2 πf d_{1} \sin θ_{2} / c] & \exp [- j 2 πf d_{2} \sin θ_{2} / c] \end{matrix}] [\begin{matrix} w_{1} (f, {- θ}_{1}, {- θ}_{2}) \\ w_{2} (f, {- θ}_{1}, {- θ}_{2}) \end{matrix}]

[\begin{matrix} w_{1} (f, {- θ}_{1}, {- θ}_{2}) \\ w_{2} (f, {- θ}_{1}, {- θ}_{2}) \end{matrix}] = {[\begin{matrix} \exp [- j 2 πf d_{1} \sin θ_{1} / c] & \exp [- j 2 πf d_{2} \sin θ_{1} / c] \\ \exp [- j 2 πf d_{1} \sin θ_{2} / c] & \exp [- j 2 πf d_{2} \sin θ_{2} / c] \end{matrix}]}^{- 1} [\begin{matrix} 1 \\ 0 \end{matrix}]

两者的关系为

[式4]

[\begin{matrix} w_{1} (f, - θ_{1}, - θ_{2}) \\ w_{2} (f, - θ_{1}, {- θ}_{2}) \end{matrix}] = {[\begin{matrix} w_{1} (f, θ_{1}, θ_{2}) \\ w_{2} (f, θ_{1}, θ_{2}) \end{matrix}]}^{*}

各权重系数满足复共轭关系。

接着，功率计算部40、41、目标声谱提取部50、51中导出指向特性。为了计算指向特性，采用下述式定义权重向量W、以及方位向量V。

[式5]

W = [\begin{matrix} w_{1} \\ w_{2} \end{matrix}],

V = [\begin{matrix} v_{1} \\ v_{2} \end{matrix}]

这样，功率计算部40的输出ps₁(ω)、功率计算部41的输出ps₂(ω)的指向特性如下表现。

[式6]

ps₁(ω)＝[V^TW^*][V^TW^*]^H＝V^TW^*W^TV^*

ps₂(ω)＝[V^T(W^*)^*][V^T(W^*)^*]^H＝V^TWW^HV^*

其中，^*表示共轭操作，H表示共轭转置操作。从而，目标声谱提取部50内的差分操作部500的输出dr₁(ω)可以如下求出。

[式7]

{dr}_{1} (ω) = V^{T} W^{*} W^{T} V^{*} - V^{T} W W^{H} V^{*} = V^{T} (W^{*} W^{T} - W W^{H}) V^{*}

此处，作为表现传声器的元件灵敏度偏差的参数导入α，假设一个传声器的元件灵敏度是另一个传声器的元件灵敏度的α倍。此时，单个的传声器输出为α倍与对一方信道相乘的权重为α倍是等价的，因此，考虑传声器元件灵敏度的偏差，设w₂＝αw_org2时，

[式8]

{dr}_{1} (ω) = α {2 \times Re [w_{1}^{*} w_{org 2} v_{1} v_{2}^{*}] - 2 \times Re [w_{1} w_{org 2}^{*} v_{1} v_{2}^{*}]}

即使传声器元件灵敏度改变，指向特性也不改变。

此时，当声源充分远离传声器的情况下，即为平面波的情况下，方位向量表示为

[式9]

V = [\begin{matrix} v_{1} \\ v_{2} \end{matrix}] = [\begin{matrix} 1 \\ \exp (- j \frac{2 π}{λ} d \sin θ) \end{matrix}]

其结果，

[式10]

{dr (ω)}_{1} = α {2 \times Re [w_{1}^{*} w_{org 2} \exp (j \frac{2 π}{λ} d \sin θ)] - 2 \times Re [w_{1} w_{org 2}^{*} \exp (j \frac{2 π}{λ} d \sin θ)]}

其中，如上所述的方法在球面波的情况下也维持相同性质。

图8示出在从所述垂直线的±45°方向形成死角时、将维持波束形成器30、31的增益的约束条件指定为相对于垂直线对称的位置(±45°)进行设计时的差分结果的指向特性例。由图8可知，以0°方向为边界，从右方向(从传声器10、11向声源R1、R2的方向看去时的右方向、以下相同)(0°～90°)到来的声源信号为正值，从左方向(-90°～0°)到来的声源信号为负值。从而，能够在各频率成分中判断是从左右哪一方向到来的。

[指向特性的实验结果]

如上所述，将波束形成器30、波束形成器31的乘法器中使用的权重系数分别设为复共轭关系，进行上述处理，从而使阵列传声器的指向特性不受传声器的元件灵敏度影响，为了表示该情况，将使传声器的元件灵敏度差α变为0db、+6db、-6db来计算指向特性的例子示于图9。图9中没有示出相对于连接传声器10、11的直线的垂直线对称的方向的指向特性，但是，该指向特性具有与图9所示的特性对称的特性。观察图9可知，当增益有所变动时，阵列传声器的输出电平发生变动，但指向特性不变动。从而，即使在使用廉价的传声器、传声器的元件灵敏度上存在偏差的情况下，也能够实现稳定的指向特性。并且，图中示出的指向特性在±45°方向形成死角，然而，由该图可知，由于指向特性具有宽度，因此，无需相对于实际的目标声源准确地形成死角。并且，图10示出使传声器的元件灵敏度差α变为0db、+6db、-6db时的波束形成单体的指向特性，由图10可知，若传声器的元件灵敏度存在6db差异，则在特定方向上形成死角这一波束形成器所要求的希望动作基本不能进行。另一方面，作为本发明的特征最应关注的方面是，实际使用发生图10所示的指向特性的指向特性下降的波束形成器，作为结果得到的指向特性与传声器的元件灵敏度均匀的情况相同。

利用波束形成器在特定方向形成较尖的死角的方法在理论上用少量传声器也能实现，因此，所测定的信号用于提高SN比，或者用于频繁作为自适应滤波器使用的广义旁瓣相消器(side lobe canceller)的参考信号生成部、即分块矩阵(blocking matrix)部分，但由于上述的传声器的元件灵敏度差，不能以所设计的性能生成死角，成为以量产为目标时不能在实际环境下实现预定性能的一大原因。

图11示出使用这样的声源分离装置1求出360度的指向特性的示例。

由该图11可知，声源分离装置1具有每180°的指向特性，2个指向特性在其边界上不重叠而分离。但是，将其指向特性不受传声器的元件灵敏度的影响作为进一步的特征。在线性阵列的情况下，±90°以上为与0～±90°的特性对称的指向特性。如上所述，指向特性可以以对连接2个传声器的线垂直画出的线为边界分割成2个区。

图12和图13示出利用了该特性的实施例。图12表示在音频记录装置中的应用。以往，在会议或讨论时，以进行会议记录为目的而使用音频记录装置。在这种使用例的情况下，由于同时将周围的噪声或2个人的声音录下，因此有时难以听取录下的内容。在这种情况下，使2个传声器10、11分别朝向2位说话人，利用声源分离装置1分别增强一方的会话内容进行录音，从而使得日后容易听取。通过像这样利用声源分离装置1，可以分离收集对向的2位说话人的声音，可以用作会议的议事录用录音，或在会议议事录中独立地同时音频识别2位的会话。

图13是表示简易免提装置和音频识别装置用传声器上的应用例的图。近年来，使用个人计算机进行网络会议等，而在自家等使用个人计算机进行网络会议时，由于个人计算机内部不具有回波消除器功能，因而采取了利用头戴式耳机传声器等减小从扬声器音频传到传声器的回声的回绕量，然而像头戴式耳机传声器那样将器具紧贴在身体的一部分上的做法不太能被接受。作为其对策，在个人计算机内部以软件方式安装回波消除器功能，或者，也可以在个人计算机外部连接内置有回波消除器功能的免提装置。在个人计算机内部安装回波消除器功能的情况下，需要取得向扬声器的再生音频和来自传声器的输入音频的同步，但存在再生音频和输入音频之间的延迟大、并且、根据个人计算机机种不同延迟大小也不同等安装上的问题。并且，在外部连接内置有回波消除器功能的免提装置时，耗费成本。

另一方面，在本实施例中，需要将传声器10、11放置在扬声器和说话人之间，但无需与扬声器再生信号取得同步。准备2个传声器10、11，使个人计算机取得来自传声器10、11的信号，根据个人计算机中存储的软件执行声源分离，因此，容易安装。

并且，作为在住宅内进行音频识别的状况下最频繁发生的环境，可以考虑向电视机及其他被控制设备使用音频命令的情况。该情况下，电视机及其他被控制设备的扬声器设置成从被控制设备侧面向说话人侧，从扬声器发出声音或者发出各种导向声音的状况下，有时说话人想要通过声音向传声器装置输入控制命令。该情况下，需要利用某种单元使扬声器的声音绕回到传声器装置的量衰减，然而通过使用声源分离装置1，能够容易地分离来自被控制设备的声音和来自说话人的声音，提高音频识别性能。

[评价实验结果]

接着，说明评价实验结果。以往，在汽车内的设备控制及其他目的使用音频识别。以往虽然建立了降低空调的送风声、道路噪声(roadnoise)、发动机声音等的噪声的技术，但未能建立不受声音等影响的音频识别技术。在此基础上，提供一种可以实现如下几点的音频识别技术是很重要的。(1)分离位于驾驶席的驾驶者发出的声音和位于副驾席的副驾席者发出的声音(下面称为“驾驶席和副驾席的音频”)；(2)可容许头部位置(head position)移动；(3)兼备宽的波束宽度和分离性能；(4)利用少量传声器提供功能；(5)使用音频识别时，不必使驾驶者或副驾席者沉默。

为了表示声源分离装置1的有效性，在车内使2位说话人同时进行讲话，利用2个传声器进行收录，利用声源分离装置进行声源分离，进行音频识别实验。该声源分离装置是以分离2个声源为目的开发出的，作为汽车内的利用方法，例如可以分离驾驶席和副驾席的音频。作为用于该动作的传声器的设置位置，如图14所示，像安装位置L1或安装位置L2那样的汽车内中央部比较适合。并且，设置于安装位置L2的情况下，室内镜400朝向驾驶者一方，因此，在安装传声器时，可以设置成传声器的安装方向大体处于正面，也可以具备后述的指向性控制功能。在声源分离装置1中，由于原本波束宽度就取得较宽，因此，无需准确地对准位置。而且，设置于安装位置L2的情况下，为了抑制来自背面的反射，有时对传声器模块下功夫，或利用指向性传声器的方式比较有效。

图15示出评价实验的条件，图16示出声源分离后的音频识别实验结果。如图16(a)所示，2位说话人在车内讲话时(车内同时讲话)，仅使用了单信道传声器的现有方法1中的未处理时中29％(停车时)、27％(以60km/h行驶时)，通过应用本声源分离方法，改善为78％(停车时)、78％(以60km/h行驶时)。并且，如图16(b)所示，对将副驾席侧的音频错误地识别为驾驶席侧的音频发出音频识别结果的比例、或将驾驶席侧的音频错误地识别为副驾席侧的音频发出音频识别结果的比例进行评价，则在仅使用现有的单信道传声器时(车内1人讲话)中，对全部全讲话的93％(拒绝性能7％)输出某种音频识别结果，然而使用了本方法的情况下，输出了某种音频识别结果的情况为0％(拒绝率100％)。并且，将使用了2个传声器的现有例“雑音成分抑压処理装置および雑音成分抑圧処理方法(噪声成分抑制处理装置和噪声成分抑制处理方法)(日本专利第3484112号)”作为现有方法2，比较在停止状态下的性能。现有方法2采用如下方式：在估计目标声和噪声到来方向的同时，进行自适应波束形成处理，增强目标声和噪声，从增强了目标声的信号将增强了噪声的信号以频域进行波谱相减，为了减少到来方向估计错误的影响，进行如下处理：即，设目标声、噪声的到来方向均为已知(从固定方向到来)，求出自适应波束形成部的最佳值之后，同时播放目标声(说话人1)、噪声(说话人2)，提取目标声。(参见图16(a))

[第2实施方式]

接着，说明第2实施方式。图17示出第2实施方式的声源分离系统的构成。在上述的第1实施方式中，首先利用波谱分析部20、波谱分析部21将来自传声器10、11的输入变换成频率成分，但在本实施方式中，首先在时间区域上利用波束形成器80和波束形成器81生成死角，生成将来自特定到来方向的信号衰减的信号，然后，利用波谱分析部20和波谱分析部21变换成频率成分。另外，在图17中对于具有与图1相同的功能部分赋予相同符号。波束形成器80、波束形成器81的构成可以通过执行以图18所示的FIR滤波器等形式构成的滤波器处理来实现。此时，通过将图3中示出的频域上存在复共轭关系的权重系数变换成时间区域的滤波系数，能够求出FIR滤波器的系数。

[第3实施方式]

接着，说明第3实施方式。图19和图20是示出第3实施方式的声源分离系统的构成的图。如上所述，图1和图17所示的目标声谱提取部50、目标声谱提取部51采用图5所示的构成来实现，使用通过实验求出的最佳阈值进行声源分离处理。另一方面，如图8所示，目标声谱提取部50、51中的差分计算部500、510的输出、即dr_i(ω)(i＝1、2)以正面0°为中心成点对称的关系。从而，在目标声谱提取部50、51中的系数变换部501、511中，若将阈值设为“0”，则仅看差分计算部500、510的符号，符号为正时，作为从右方向(0～90°)来的声源信号的功率谱信息提取，符号为负时，作为从左方向(-90°～0)来的声源信号的功率谱信息提取。因此，在图1和图17中示出的整体构成可以如图19和图20所示进行简化。图19和图20中的目标声谱提取部90以图21所示的构成实现。

在图21中，利用功率计算部40、功率计算部41计算出的波束形成器30、波束形成器31的功率谱信息输入到目标声谱提取部90内部的差分计算部900。并且，利用减法器900a进行减法处理，在系数变换部910、系数变换部920中分别仅提取来自目标方向的声源信号。具体地说，系数变换部910是用于提取来自右方向(0～90°)的声源的模块，输入为正的情况下，该波谱信息作为来自右方向(0～90°)的信息输出，输入为负的情况下，作为从目标方向之外的方向到来的声源的波谱信息而不进行输出。另一方面，系数变换部920是用于提取来自左方向(-90°～0)的声源的模块，输入为负的情况下，该波谱信息作为从左方向(-90°～0)来的信息输出，输入为正的情况下，作为从目标方向之外的方向到来的声源的波谱信息而不进行输出。通过以上的动作，可以将以连接2个传声器10、11的直线的垂直线为中心从左右方向到来的声源信号分离。

另外，图19所示的声源分离系统和图20所示的声源分离系统的不同之处在于，是以频域进行波束形成处理还是以时间区域进行波束形成处理。图19中是以频域进行波束形成处理，图20中是以时间区域进行波束形成处理。

[第4实施方式]

接着，说明第4实施方式。图22是表示第4实施方式的声源分离系统的构成的图。该图22所示的波谱相减部100、101进行波谱相减处理，通过波谱相减处理，除去目标声谱提取部50、目标声谱提取部51所提取的各目标声上重叠的到来方向不明的定常噪声或扩散性的噪声等。这种结构即使在会议室中存在空调或投影仪等的风扇声等的环境下使用也很有效，在汽车内使用时特别有效。在汽车内除驾驶者外副驾席上还搭乘有同乘者的情况等，例如可以使用上述的方式，分别提取驾驶席和副驾席的音频。但是，不能够采用上述方法除去空调的送风声、道路噪声、进风声等到来方向不明的音频或扩散性的噪声。这些噪声的影响可以通过在处理的后阶段输入到波谱相减处理来除去。波谱相减处理包括如下两种类型：使用一个传声器的输入信号，检测讲话区间，在无讲话区间估计噪声波谱，在讲话区间换算之前估计的噪声成分，进行减法运算；使用以噪声为优先收录的信号和以音频为优先收录的信号，从以音频为优先收录的信号换算以噪声为优先收录的信号的波谱，进行差分。音频识别时，大多靠以单传声器方式为基本的处理都不够充分，然而本实施方式中仍采用这种方式，本实施方式的声源分离系统通过在第1实施方式的声源分离系统中追加讲话区间检测部110和波谱相减部100、101来进行对应。

图22中，声源R1、声源R2是目标声，声源R3表示到来方向不明的定常噪声或扩散性的噪声。这些噪声大多都不具有明确的指向性。存在这种噪声的情况下，在目标声谱提取部的输出中，具有弱指向性的输出大多显现在提取该方向声源的目标声谱提取部上，完全没有指向性的输出或踏在道路的接线而产生的冲击音等被左右提取的波谱交错地检测到的情况很多，然而可以利用波谱相减部100、101除去这些噪声。另外，作为波谱相减，可以使用无需讲话区间检测的连续型波谱相减。

[第5实施方式]

接着，说明第5实施方式。图23中示出第5实施方式的声源分离系统的构成。本实施方式中示出如下情况的对策：要分离的2个目标声源R1、R2从相对于连接2个传声器10、11的直线的垂直线对称的位置偏离较大的情况。本实施方式中，为了进行该对策而具备用于检测2个目标声源R1、R2的大概位置的到来方向估计部120，使用该到来方向估计部120所估计的2个目标声源R1、R2的大概的声源到来方向信息，以使指向性控制部140中要分离的2个目标声源R1、R2尽可能虚拟地相对于连接2个传声器10、11的直线的垂直线成对称的方式，向一方传声器输入施加延迟操作。

图24中示出2个声源R1、声源R2相对于连接传声器10、传声器11的直线的垂直线旋转了θτ的直线成左右对称的状况。该情况下，使一方传声器所取得的信号发生一定延迟量τd，从而可以实现与旋转了θτ等效的状况。并且，预先针对若干个中的2个声源，根据相对于连接2个传声器的直线的垂直线的位置关系，准备分离2个声源最佳的波束形成器30、31的滤波器参数，将来自到来方向估计部120的大体的2个声源的到来方向信息为基础，通过波束形成控制选择认为是最合适用于分离当前状况的2个声源的波束形成器的滤波器参数，从而可以将所选择的波束形成器的滤波器参数设定在波束形成器30、波束形成器31。

图25示出指向性控制部140的构成例。图25(a)所示的构成例示出如下例子，在频域中对每个频率成分，使一方传声器所取得的信号发生一定延迟量τd时的例子。图25(a)所示的构成例的情况下，利用乘法器100a将x₁(ω)和e^-jωτ相乘，从而实现延迟操作。并且，想要以时间区域进行波束形成的情况下，通过图25(b)所示的FIR滤波器形式的延迟器100b进行滤波处理即可。

另外，也可以不使一方传声器输入发生延迟，而分别使双方传声器输入发生一半延迟，作为整体实现相同量的延迟操作。即，不使一方传声器所取得的信号发生延迟量τd，而使一方传声器所取得的信号发生延迟量τd/2、使另一方传声器所取得的信号发生延迟量-τd/2，从而使整体的延迟差为τd。

[第6实施方式]

接着，说明第6实施方式。图26是表示第6实施方式的声源分离系统的构成的图。本实施方式涉及的声源分离系统采用了重视听觉的结构，考虑了在汽车内的免提通话等的应用。在汽车内搭乘有驾驶者和坐在副驾席的同乘者的情况等，例如可以使用上述的方式分别提取驾驶席和副驾席的音频，但是不能利用上述方法除去空调的送风声、道路噪声、进风声等到来方向不明确的音频或扩散性的噪声。这种情况下，如第4实施方式中所述，通过在处理的后阶段中引入波谱相减处理，可以除去这些噪声的影响，这种方式最适合于不涉及音频识别等听觉上的音质问题的用途，然而在适用于免提通话装置用的传声器等时，存在听觉上残留被称之为音乐噪声的噪声的问题。本发明中，以连接2个传声器10、11的直线的垂直线为中心，分离左右音频，因此，有时会出现扩散性的噪声等其他音频的指向性不断地改变的噪声的情况、不规则地分为左右的分离结果而导致音质下降的情况。

因此，在本实施方式中，本发明涉及的声源分离方式利用不受传声器增益的时间变化影响的情况，将通常在阵列传声器处理的后阶段中使用的主滤波器处理引入到波束形成处理的前阶段，降低扩散性噪声、定常噪声等，防止声源分离后产生音乐噪声。

[第7实施方式]

接着，说明第7实施方式。图27是示出第7实施方式的声源分离系统的构成的图。该声源分离系统构成为使用3个传声器10、11、12分离3个声源。在该图27中，使用传声器10和传声器12，传声器10和传声器12，分别以连接2个传声器的直线的垂直线为中心分离左右的声源信号，使用共计4个使用2组传声器进行分离的声源信号，利用目标声提取部160最终分离出从传声器10、传声器11的正面方向附近到来的声源R3。

使用图28说明以该构成分离的声源，如图28所示，以连接2个传声器的直线的垂直线a和垂直线b为中心，可以分离从垂直线的左右到来的声源。图28中，假设在区A、B、C的各区域存在声源，则能够使用垂直线a，分离从区A和区B、C的区域到来的声源信号，能够使用垂直线b，分离从区A、B和区C到来的声源。图27中，进行这些分离的模块为分离部b0和分离部b1。分离部b0从重叠了3个声源的信号分离来自区A的区域的声源信号S_A(ω)和来自区B、C区域的声源信号S_Bmix(ω)、Sc_Bmix(ω)所混合的信号，分离部b1也可以同样地分离来自区A、B区域的声源信号S_Amix(ω)、S_Bmix(ω)所混合的信号和来自区C区域的声源信号Sc(ω)，可以在该步骤中分离出S_A(ω)和Sc(ω)。根据采用这种方式得到的4个信号，在功率谱区域中利用目标声提取部160进行预定操作，从而能够求出S_B(ω)。但是，在此，S_Amix(ω)、S_Bmix(ω)、Sc_mix(ω)表示与其他信号混合时的各信号。

上述中，以区D中没有声源信息或即使有电平也很低为前提，然而当区D中存在声源的情况下，通过在3个传声器10、11、12中使用指向性传声器，可以大幅度地减少从区D混入声源信号。

图29示出单一指向性传声器的设置例，通常使用这种指向性传声器时，在阵列传声器的波束形成部中，由于各传声器之间的指向性的偏差等导致不能发挥设计时的性能，然而在本方式中，能够与原本不受传声器的元件灵敏度偏差影响的情况同样地实现不受指向特性的偏差影响的一定性能。

参照图30～32，详细说明目标声提取部160中的处理方式。图30所示的处理方式，与双信道的波谱相减处理相同的处理方式。即，作为一方信道信号，求出目标声和干扰声之间的功率谱之和，作为单方的信道信号，求出干扰声的功率谱，因此，通过利用减法器100a进行减法运算，能够求出目标声S_B(ω)。

图3 1所示的处理方式可以求出2个在目标声中重叠了干扰声的音频，因此利用加法器101b将它们相加，从而将目标声的功率谱信息设为2倍大小，另一方面，利用加法器101a将干扰声彼此相加，从而求出干扰声的功率谱，利用乘法器101c对该功率普相乘一定因子(O.E.F1～2)，利用减法器101d从加法器101b的输出计算差分，从而提取出目标声。另外，在减法器101d的输出的阶段中，由于音量比原音频信号大，因此，通过电平调整部101e调整电平。

图32所示的处理方式中，替代图31所示的加法器101a、101b，使用最小值计算102a、102b。另外，在图31中，O.E.F大多在大于1.0的情况下音质良好，在图32中，O.E.F优选为1.0左右。另外，图32中进行了最小值计算，但也可以替代最小值计算，进行最大值计算。

并且，想要分离的目标声源的位置从利用本方法得到的最佳的分离性能的位置偏离较大的情况，如第5实施方式中所说明的，使从传声器输出的输入信号发生延迟，虚拟地改变声源的到来方向，从而可以以得到尽可能最佳的分离性能的方式进行操作。

图33示出本实施方式的声源分离系统的使用例。在向个人计算机输入音频的用途中，使用3个传声器10、11、12，以较小的安装面积，具有指向性地获得来自个人计算机正面的音频。

[第8实施方式]

接着，说明第8实施方式。在上述的实施方式中，说明了如下的2个实施方式：(1)使用2个传声器，以连接传声器之间的直线为中心，将来自左右的音频分离；(2)使用3个传声器，将来自正面的音频和来自左右的音频分离，但如图34所示，也存在如下情况：使用2个传声器10、11，分离提取来自连接2个传声器10、11的直线的正面方向的音频。

该情况下，通过指向性控制单元如图35(b)所示，使来自2个传声器10、11之中一方传声器的输出信号发生延迟，虚拟地制作第3信道的传声器位置，可以虚拟地实现图35(a)所示的3个传声器输入。图36中示出进行以图35所示的延迟操作的指向性控制单元的构成例。图中，Di(i＝1、2、3、4)表示延迟元件，实际的延迟操作可以以时间区域进行延迟操作，也可以在进行波谱分析之后以频域进行延迟操作。

图37示出本实施方式涉及的声源分离装置系统的构成例。指向性控制单元141、142由波谱分析部20、21和进行延迟处理的延迟元件构成。作为处理顺序，可以先进行波谱分析处理之后进行延迟处理(图中的Type1)；也可以在进行延迟处理之后，进行波谱分析处理(图中的Type2)。指向性控制单元141、142的输出信号在本方法NBF之后的模块被波束形成器30、31、功率计算部40、41等进行处理，处理后的信号输入到目标声提取部52。

图38和图39示出目标声提取部52中的处理方式的一例。图38示出θ₁和θ₂是相对于连接传声器11、12的直线的垂直线对称的角度时的处理方式的一例，图39示出θ₁和θ₂不是相对于所述垂直线对称的角度时的处理方式的一例。

[第9实施方式]

接着，说明第9实施方式。图40是示出第9实施方式涉及的车载设备控制用音频识别系统的构成的图。本实施方式中，示出在设置于汽车等车辆的车载设备控制用音频识别系统上应用了本发明的声源分离装置1的例子。本应用例中，利用2个传声器10、11取得驾驶席和副驾席的音频，利用声源分离装置1将驾驶席和副驾席的音频分离，分别对分离出的驾驶席和副驾席的音频进行讲话区间检测、音频识别处理，根据音频识别结果和汽车行驶状态或其他驾驶状态，使用有效的识别结果，进行设备控制、系统响应等，从而提高车载设备控制用音频识别系统的可靠性和车载设备控制用音频识别系统的响应的自由性的扩张等。

对于车载设备控制用音频识别系统，作为本系统的特征数据，存储装置中存储有副驾席侧识别词汇列表190、驾驶席侧识别词汇列表191、副驾席侧有效词汇列表210、以及驾驶席侧有效词汇列表211。驾驶席侧识别词汇列表191是从驾驶席侧发出的词汇的候补一览，副驾席侧识别词汇列表190是从副驾席侧发出的词汇的候补一览。驾驶席侧有效词汇列表211是与车辆的状态(汽车行驶状态或其他驾驶状态)对应的驾驶席侧的有效词汇列表。副驾席侧有效词汇列表210是与车辆状态对应的副驾席侧的有效词汇列表。此处，“有效”是允许输出与词汇(音频命令)对应的控制命令的状态。

使用图40，说明本系统的动作，驾驶者和副驾席的同乘者所讲话的音频被2个传声器10、11收录，利用声源分离装置1分离成驾驶席和副驾席的音频之后，分别输入到作为驾驶者用、副驾席的同乘者用而准备的讲话区间检测部170、171、音频识别部180、181。此时，本发明的声源分离装置1的输出中，2人的音频能够被高精度地分离，因此，副驾席侧讲话区间检测部170、驾驶席侧讲话区间检测部171能够高精度地分离出两者的讲话区间，同时，可以对副驾席侧音频识别部180、驾驶席侧音频识别部181赋予抑制了对方的音频的信息，能够高精度地不受对方讲话影响地进行音频识别处理。

本应用例中，分别向各音频识别部180、181专门提供用于指示与系统状态无关地应识别怎样的词汇的副驾席侧识别词汇列表190、驾驶席侧识别词汇列表191，各音频识别部180、181按照该词汇列表进行音频识别处理，将音频识别结果输出到控制部·状态转换部200。

控制部·状态转换部200所具备的状态转换部201根据音频识别结果以及当前的状态，转换到下一状态。控制部·状态转换部200所具备的控制部202中，根据从状态转换部201得到的当前状态和来自音频识别部180、181的音频识别结果，根据副驾席侧、驾驶席侧分别准备的副驾席侧有效词汇列表210、驾驶席侧有效词汇列表211，调查响应哪个音频命令(输出控制命令)较好。该图所示的有效词汇列表210、211中，对状态和音频命令的组合以“○”对应起来的情况下，表示可响应音频命令。例如，在驾驶席侧，状态为“驾驶中”的情况下，允许响应的音频命令为“更加”、“开灯”、“安静”，并且，禁止“空调操作”、“CD”、“MD”。

而且，仅响应被允许的音频命令，进行操作空调或开灯的控制，从而车辆的搭乗者能够在车内愉快地度过。并且，能够提高车载设备控制用音频识别系统的可靠性的同时，可以对使用了音频识别的应用程序制作更多地提供规格设计的自由度。

根据以上的使用例，可以同时识别出从驾驶席和副驾席的同乘者同时讲话的音频，在任何1人讲话的情况下，仍可以可靠地检测是来自驾驶席侧的讲话还是来自副驾席侧的讲话，进行识别，因此，能够不限制同乘者的行动，个别设计出说话人和针对该说话人的音频命令的响应。

[第10实施方式]

接着，说明第10实施方式。图41示出本实施方式的移动电话机300。移动电话机300上搭载有传声器10、11和未图示的声源分离装置。该移动电话机300通常用于可视电话，但是，也可以切换模式，用作集声传声器。图41(a)是示出传声器10、11作为可视电话用传声器工作时的情况的图，图41(b)是示出传声器10、11作为集声传声器工作时的情况的图。可以在中规模的会议室等中，即不是发言者要使用传声器那样的大规模的会议室、且房间较大声音较小时难以听到发言者的声音的场景下使用。

如上述说明，相互隔开设置最少2个传声器，在以连接2个传声器的直线的垂直线为中心成左右对称的角度上利用波束形成器以时间区域或频域形成死角，在以时间区域形成死角的情况下，变换成频域，计算出双方的波束形成的功率谱的差分，对所得到的结果进行系数变换，从而以左右的死角为中心形成具有宽度的指向特性，进行声源分离。这样，能够实现指向特性不受传声器的元件灵敏度影响的性质，不受传声器的元件灵敏度的偏差影响，对于与声源到来方向的假想方向之间的偏差以及较大的初始反射，通过适当通过宽的指向特性来覆盖，可以实现稳定的2个声源的分离特性。

[第11实施方式]

接着，说明第11实施方式。图42中示出了如下例子：想要提取的目标声存在于区A(例如驾驶席的区)，而除此之外的位置(区B、区C、区D)存在干扰声的状况下，提取区A的目标声。使用了本方法的阵列传声器2001(例如，在车室内配置于前方(例如设定在室内镜上))的情况下，可以分离区A/C(例如驾驶席以及其后部座席的区)和区B/D(例如副驾席以及其后部座席的区)中存在的音频，但不能分离区A(例如驾驶席的区)和区C(例如其后部座席的区)中存在的声音。但是，通过将使用了本方法的阵列传声器2002如图所示配置于区A/B和区C/D的边界的位置，从而可以分离出存在于区A/B和区C/D的声音，因此，可以仅提取区A的声音。

具体地说，位于区A，B，C，D的说话人A，B，C，D同时讲话时，首先可以使用配置于区A/B和区C/D的边界上的阵列传声器2002，分离来自区A/B的声音和来自区C/D的声音。接着，利用阵列传声器2001，分离来自区A/C的声音和来自区B/D的声音。最后以各频域比较使用阵列传声器2001求出的来自区A/C的声音和使用阵列传声器2002求出的来自区A/B的声音，将双方共同的频率成分作为来自区A的声音进行分离。通过同样的处理，可以独立求出来自各区B，C，D的声音。

[第12实施方式]

接着，说明第12实施方式。图43假设了在汽车等的环境下通过音频识别操作设备的状况。图44示出此时的设备操作的导向音频和说话人的音频之间的关系。

这种情况下，以催促说话人A讲话的定时的目的从扬声器15发出“请讲目的地”等导向声之后，发出机械声例如“噼”等声音，然后，说话人A发出音频命令。但是，随着用户习惯于利用音频命令操作设备，如图44所示，发生在导向音频中存在说话人A开始讲话的状况，导致音频识别性能下降。

作为针对这种状况的对策，通常，使用回波消除器，自适应地估计来自传声器10的收录声中混有的导向音频并除去，以进行对应。另外，作为其他对策，如图45～图48所示，对于频率分析后输入到向传声器10的1个输入信号，进行波谱相减(图45、图46)，对每个频率成分估计导向音频和说话人A的音频中的哪一种音频包含较多，仅将包含较多说话人A的音频的频率成分作为说话人A的音频取出(图47、图48)。

在此，图45、图47中，滤波器部1001是模拟了从扬声器15至传声器10的音频反射脉冲的滤波器，使用预先求出的从扬声器15到传声器10的脉冲响应，也可以通过自适应滤波处理自动求出。

图45中的增益操作部1002是用于确定在进行波谱相减时使用的过减因子(over-subtraction factor)的部分，根据扬声器15的音量，从1～10左右的增益选择使用。

并且，图45中的、目标音频提取部1003根据增益操作部1002和波谱分析部21的输出，进行图46所示的处理，将处理结果的信号输出到时间波形变换部1004。

图47中的、阈值计算部1011根据导向音频的平均能量，确定阈值th。

并且，图47中的、目标音频提取部1012根据阈值计算部1011和波谱分析部21的输出，进行图48所示的处理，将处理结果的信号输出到时间波形变换部1004。另外，如图48所示的th_min是用于判断该图所示的X_Far(ω)为有效输入的阈值。

并且，时间波形变换部1004进行与第一实施方式中的时间波形变换部70、71相同的处理。

但是，在以往方式中，如图43所示，仅有说话人A进行讲话的状况下，可以通过上述方式的构成进行对应，然而如图49所示，除了说话人A(例如驾驶席的乘员)之外还存在说话人B(例如，副驾席的乘员)时，如图50所示，有时除了说话人A之外，说话人B也进行某些讲话，然而上述方式不能对应这种状况。

针对这种状况，可以将图51所示的本方法和图45或图47中示出的导向音频删除部1021、1022进行组合来对应。

具体地讲，在图51中，从车内的扬声器15再生导向音频，同时在说话人A、说话人B也正在讲话的状况下，向传声器10和传声器11重叠输入导向音频、说话人A的讲话音频、说话人B的讲话音频。此时，在导向音频删除部1021和导向音频删除部1022中，通过图45或图47中所示的方法，除去导向音频，其结果，将说话人A的音频和说话人B的音频这两者音频重叠的信号作为结果输出。并且，在此，为了节省作为后处理使用的向本方法输入时的计算，不返回为时间波形，保持频率成分的状态下，输入到本方法(图1)。在后阶段的本方法中，作为输入，输入频率成分信息，因此，省略波谱分析部的处理，直接向波束形成部输入，应用本方法，进行处理，从而作为输出结果，能够个别地得到说话人A的音频和说话人B的音频，能够大幅度地扩大音频识别装置的可靠性、提高性能和应用程序的自由度。

并且，通过上述的各种功能的组合或来自传声器的信号的延迟操作，实现在正面方向狭窄的指向特性，或者可以仅检测到来自特定方向的声源信号。

加上，即使不扩大传声器间隔，也能够在到低频区域为止的频域确保高分离性质，可以减少安装空间，可以用于便携设备等。

另外，在上述的实施方式中，说明了利用程序实现声源分离系统的各功能模块的例子，然而，也可以通过使用电路等，以硬件实现。

产业上的可利用性

可利用于音频识别装置、导航装置、集声装置、录音装置、利用音频命令的设备控制等、需要高精度分离声源的所有产业。

Claims

1.一种声源分离装置，所述声源分离装置向相互分开配置的至少2个传声器输入混合有从多个声源发出的声源信号的混音，从该混音中分离出来自目标声源的声源信号，所述声源分离装置的特征在于，所述声源分离装置具备：

波束形成单元，其进行第一波束形成处理和第二波束形成处理，其中，在所述第一波束形成处理中，使用第一系数对来自所述传声器的输出信号进行运算，从而使从预定方向到来的声源信号衰减，在所述第二波束形成处理中，使用第二系数对来自所述传声器的输出信号进行运算，从而使从相对于连接2个传声器的直线的垂直线、与所述预定方向对称的方向到来的声源信号衰减，其中，所述第二系数与所述第一系数在频域上满足复共轭关系，

功率计算单元，其分别计算通过所述波束形成单元得到的声源信号的功率谱信息；以及

目标声谱提取单元，其根据由所述功率计算单元计算出的功率谱信息彼此之间的差分，提取目标声源的波谱信息。

2.根据权利要求1所述的声源分离装置，其特征在于，所述波束形成单元对相互分开配置的3个传声器之中任意2个传声器的组合以及另外2个传声器组合分别进行所述第一波束形成处理和所述第二波束形成处理。

3.根据权利要求1或2所述的声源分离装置，其特征在于，所述声源分离装置还具备指向性控制单元，所述指向性控制单元使来自传声器的输出信号发生延迟。

4.根据权利要求3所述的声源分离装置，其特征在于，所述指向性控制单元使来自2个传声器之中的至少一个传声器的输出信号发生延迟，从而虚拟生成来自3个传声器的输出信号。

5.根据权利要求3或4所述的声源分离装置，其特征在于，

所述声源分离装置还具备到来方向估计单元，该到来方向估计单元估计所述声源信号到来的方向，

所述指向性控制单元根据通过所述到来方向估计单元估计的到来方向，使该来自传声器的输出信号发生延迟，使得2个声源的位置相对于虚拟地连接2个传声器的直线的垂直线对称。

6.根据权利要求1～5中的任意一项所述的声源分离装置，其特征在于，所述声源分离装置还具备波谱相减单元，该波谱相减单元对通过所述目标声提取单元提取的功率谱信息进行波谱相减处理。

7.根据权利要求1～6中的任意一项所述的声源分离装置，其特征在于，所述声源分离装置还具备定常噪声降低单元，该定常噪声降低单元在所述波束形成单元进行处理之前进行降低噪声的处理。

8.一种具备对通过权利要求1～7中的任意一项所述的声源分离装置分离出的声源信号进行音频识别的音频识别单元的音频识别装置。

9.根据权利要求8所述的音频识别装置，其特征在于，

所述音频识别装置还具备识别词汇列表存储单元，在所述识别词汇列表存储单元中存储有驾驶席侧识别词汇列表和副驾席侧识别词汇列表，其中，所述驾驶席侧识别词汇列表是从车辆的驾驶席侧发出的词汇的候选一览，所述副驾席侧识别词汇列表是从副驾席侧发出的词汇的候选一览，

所述音频识别单元根据在所述识别词汇列表存储单元中存储的驾驶席侧识别词汇列表和副驾席侧识别词汇列表，对通过所述声源分离装置分离出的声源信号进行音频识别处理。

10.根据权利要求8或9所述的音频识别装置，其特征在于，所述音频识别装置还具备：

状态变换单元，其管理当前的车辆状态；

有效词汇列表存储单元，其存储与车辆状态对应的副驾席侧和驾驶席侧的有效词汇列表；以及

控制单元，其根据由所述状态变换单元管理的当前的车辆状态和在所述有效词汇列表存储单元中存储的词汇列表，判断通过所述音频识别单元识别出的词汇是否有效，根据其判断结果，进行控制。

11.一种具备权利要求1～7中的任意一项所述的声源分离装置的移动电话机。

12.一种声源分离方法，其特征在于，所述声源分离方法包括：

声源信号接收步骤，向相互分开配置的至少2个传声器输入从多个声源发出的声源信号；

波束形成处理步骤，进行第一波束形成处理和第二波束形成处理，其中，在所述第一和第二波束形成处理中，使用频域中满足复共轭关系的2个权重系数分别对来自所述传声器的输出信号进行运算，从而分别使从相对于连接2个传声器的直线的垂直线对称的预定方向到来的声源信号衰减，

功率计算步骤，分别对在所述波束形成处理步骤中得到的声源信号计算功率谱信息；以及

目标声谱提取步骤，根据在所述功率计算步骤中计算出的功率谱信息彼此之间的差分，提取目标声源的波谱信息。

13.一种程序，其特征在于，所述程序使计算机执行如下步骤：

输出信号取得步骤，从相互分开配置的至少2个传声器取得混合有从多个声源发出的声源信号的输出信号；

波束形成处理步骤，进行第一波束形成处理和第二波束形成处理，其中，在所述第一和第二波束形成处理中，使用频域中满足复共轭关系的2个权重系数分别对在所述输出信号取得步骤中取得的输出信号进行运算，从而分别使从相对于连接2个传声器的直线的垂直线对称的预定方向到来的声源信号衰减，