CN1837846A

CN1837846A - 用于处理声音信号的装置和方法

Info

Publication number: CN1837846A
Application number: CNA2006100717804A
Authority: CN
Inventors: 铃木薰; 古贺敏之
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-03-23
Filing date: 2006-03-23
Publication date: 2006-09-27
Also published as: JP2006267444A; JP4247195B2; US7711127B2; US20060215854A1

Abstract

输入包括来自声源的语音的n个声音信号，并且这n个声音信号是在不同的n个点处采集的。将所述声音信号中的每一个分解成多个频率分量，并且获得包括每个频率分量的相位信息的n条频率分解信息。相对于在n条频率分解信息中彼此不同的m对频率分解信息计算在每个频率分量中的一对频率分解信息之间的相位差，并且产生m条二维数据。在二维数据中，将频率函数设置为第一轴，并且将相位差的函数设置为第二轴。从每条二维数据中检测预定图形，并且产生用于表示所述多条声源候选者信息之间的对应关系的对应信息，同时根据每一个图形产生声源候选者信息。根据该声源候选者信息和该对应信息产生声源信息，例如声源的数量、声源的空间存在范围、语音的存在期间、语音的频率分量结构、关于语音的幅度信息、以及语音的符号内容。

Description

用于处理声音信号的装置和方法

技术领域

本发明涉及声音信号处理，尤其涉及经由介质传播的声源的数目、声源的方向、来自声源的声波的频率分量等等的估计。

背景技术

近年来，在机器人听觉研究领域中，提出了一种声源定位和分离系统。在该系统中，在噪声环境下估计多个目标声源的数目和目标声源的方向(声源定位)，并且分离和提取每个源声(声源分离)。例如，F.Asano，“dividing sounds”Instrument and Control vol.43，No.4，p325-330(2004)公开了一种方法，其中由M个麦克风在存在背景噪声的环境中观察到N个源声，从其中对每个麦克风的输出执行快速傅里叶变换(FFT)处理的数据中产生空间相关矩阵，并且通过特征值分解来确定具有较大值的主特征值，由此估计作为主特征值的声源的数目N。在这种情况下，利用以下特性，即其中具有方向性的信号(诸如具有方向性的源声)被映射到该主特征值，而背景噪声被映射给所有特征值。

即，对应于主特征值的特征矢量变为由来自声源的信号形成的信号部分空间的基本矢量，并且对应于其余特征值的特征矢量变为由背景噪声信号形成的噪声部分空间的基本矢量。可以通过利用噪声部分空间的基本矢量施加多信号分类(MUSIC)方法来搜索每个声源的位置矢量，并且可以通过光束形成装置提取来自声源的声音，其中将方向性给定为作为搜索结果获得的方向。

然而，当声源的数目N等于麦克风的数目M时，不能定义噪声部分空间，并且当声源的数目N超过麦克风的数目M时，存在不可检测的声源。因此，可估计的声源的数目低于麦克风的数目M。在这个方法中，对于声源不存在特别大的限制，并且其在数学上是简单的。但是，为了处理许多声源，存在一个限制，即所需要的麦克风的数目高于声源的数目。

在K.Nakadai等人的“real time active chase of person by hierarchyintegration of audio-visual information”Japan Society for ArtificalIntellligence AI Challenge Kenkyuukai，SIG-Challenge-0113-5，p35-42，June 2001中，介绍了一种使用一对麦克风执行声源定位和声源分离的方法。在这个方法中，通过把注意力集中在类似人类语音的经由管子(发音物)产生的声音特有的谐波结构(包括基波及其谐波的频率结构)，从其中对通过麦克风获得的声音信号执行了傅里叶变换的数据中，检测具有不同基波频率的谐波结构。检测的谐波结构的数目被设置为扬声器的数目；在每个谐波结构中，使用耳间相位差(IPD)和耳间强度差(IID)来估计具有可信度的方向；并且通过谐波结构本身估计每个源声。在这个方法中，可以通过从傅里叶变换检测多个谐波结构来处理不低于麦克风数目的声源的数目。但是，因为根据谐波结构来执行声源数目、方向和声源的估计，所以可以处理的声源限于例如具有谐波结构的人的语音的声音，并且该方法不能适用于各种各样的声音。

因此，在传统的方法中，存在自相矛盾的问题，即(1)当不对声源进行限制时，声源数目不能被设置在不低于麦克风数目的数目上，和(2)当声源的数目被设置在不低于麦克风数目的数目上时，对声源存在限制，例如假设为谐波结构。当前，尚没有开发出能够处理不低于麦克风数目的声源数目同时不对声源进行限制的系统。

发明内容

鉴于以上所述，本发明的一个目的是提供一种用于声源定位和声源分离的声音信号处理装置和声音信号处理方法，其中可以进一步减轻对声源的限制，并且可以处理不低于麦克风数目的声源的数目。

根据本发明的一个方面，提供了一种声音信号处理装置，该装置包括：声音信号输入设备，用于从声源输入包括语音的n个声音信号，所述n个声音信号是在n个不同的点被检测的(n是等于或者大于3的自然数)；频率分解设备，用于将每个声音信号分解为多个频率分量，以获得包括每个频率分量的相位信息的n条频率分解信息；二维数据产生设备，用于相对于在n条频率分解信息中彼此不同的m对频率分解信息(m是等于或者大于2的自然数)，计算在每个频率分量中的一对频率分解信息之间的相位差，该二维数据产生设备产生m条二维数据，其中在所述二维数据中，频率函数为第一轴，而该相位差的函数为第二轴；图形检测设备，用于从每条二维数据中检测预定的图形；声源候选者信息产生设备，用于根据每个检测的图形，产生声源候选者信息，该声源候选者信息包括多个声源候选者的数目、每个声源候选者的空间存在范围、和来自每个声源候选者的声音信号的频率分量中的至少一个，该声源候选者信息产生设备产生对应信息，该对应信息表示在多条声源候选者信息之间的对应关系；和声源信息产生设备，用于根据由该声源候选者信息产生设备产生的所述声源候选者信息和所述对应信息产生声源信息，该声源信息包括声源的数目、声源的空间存在范围，语音的存在期间、语音的频率分量结构、语音的幅度信息和语音的符号内容中的至少一个。

附图说明

图1是示出根据本发明实施例的声音信号处理装置的功能方框图；

图2是示出在声源方向所观察的到达时间差和声源信号的示意图；

图3是示出在帧和帧偏移量之间的关系的图；

图4是示出FFT过程和快速傅里叶变换数据的视图；

图5是示出二维数据产生单元和图形检测单元的每个内部结构的功能框图；

图6是示出计算相位差的步骤的视图；

图7是示出计算坐标值的步骤的视图；

图8是示出在相同时间的频率和相位之间的比例关系和在相同时间基准的频率和相位之间的比例关系的视图；

图9是用于解释相位差的周期性的视图；

图10是当存在多个声源时频率相位差的图；

图11是用于解释线性霍夫变换的视图；

图12是用于解释通过霍夫变换检测来自点分组的直线的视图；

图13是示出投票的平均功率函数(计算公式)的视图；

图14是示出从实际的声音产生的频率分量、频率相位差图和霍夫投票结果的视图；

图15是示出从实际的霍夫投票结果确定的最大位置和直线的视图；

图16是示出θ和Δρ之间的关系的视图；

图17是示出当两个人同时说话时的频率分量、频率相位差图和霍夫投票结果的视图；

图18是示出其中仅仅通过θ轴上的投票值来搜索最大位置的结果的视图；

图19是示出其中通过对以Δρ间隔设置的某些点的投票值进行求和来搜索的最大位置的结果的视图；

图20是示出图形匹配单元的内部配置的方框图；

图21是用于解释方向估计的视图；

图22是示出θ和ΔT之间的关系的视图；

图23是用于解释当存在多个声源时的声源分量估计(距离阈值方法)的视图；

图24是用于解释最近邻居法的视图；

图25是示出用于系数α的计算公式例子和该系数α的曲线的视图；

图26是用于解释在时间轴上跟踪的φ的视图；

图27是示出由声音信号处理装置执行的处理的流程图；

图28是示出频率和可以表示的时间差之间关系的视图；

图29是当产生冗余点时的时间差图；

图30是示出声源产生单元的内部配置的方框图；

图31是根据一个实施例的功能方框图，其中根据本发明的声音信号处理功能是通过通用计算机实现的；

图32是示出由记录介质执行的实施例的视图，该记录介质中记录有用于实现根据本发明的声音信号处理功能的程序；

图33是模式性示出在图形匹配单元6中使用不同的麦克风对得到的2个声源流(声源候选)相关联的状态的图。

具体实施方式

下面将参考附图介绍本发明的多个实施例。

如图1所示，根据本发明实施例的声音信号处理装置包括n个(n是等于或者大于2的自然数)麦克风1a至1c、声音信号输入单元2、频率分解单元3、二维数据产生单元4、图形检测单元5、图形匹配单元6、声源信息产生单元7、输出单元8和用户接口单元9。

[基于在每个频率分量中的相位差的声源估计的基本概念]

以预定的间隔，将麦克风1a至1c设置在诸如空气的介质中。麦克风1a至1c将在不同的n个点处的介质振动(声波)转换成电信号(声音信号)。麦克风1a至1c形成不同的m对麦克风(m是大于1的自然数)。

声音信号输入单元2周期性地对以预定的采样周期Er通过麦克风1a至1c获得的n信道声音信号进行模拟到数字转换，其以时间序列产生n信道数字化幅度数据。

假定与麦克风之间的距离相比，声源位于足够远处，则如图2A所示，从声源100到达一对麦克风的声波的波阵面101基本上变为一个平面。例如，当使用麦克风1a和麦克风1b在二个不同的点处观察平面波时，根据声源100相对于连接麦克风的线段102(被称为基线)的方向R，应该在由所述麦克风转换的声音信号中观察到给定的到达时间差ΔT。假定声源位于足够远处，则当声源100存在于垂直于基线102的平面上时，该到达时间差ΔT变为零。该平面垂直于基线102的方向应该被定义为该对麦克风的正面方向。

K.Suzuki等人在implementation of“coming by an oralommand”function of home robots by audio-visual associationProceedings of Fourth Conference of the Society of Instrument andControl Engineers System Integration Division(SI2003)，2F-5(2003)中，公开了一种方法，其中通过模式匹配，搜索一条幅度数据的哪一部分与另一条幅度数据的哪一部分相似，以推导出两个声音信号(图2B的103和104)之间的到达时间差ΔT。虽然当仅仅存在一个强声源时该方法是有效的，但是当存在强背景噪声或者多个声源时，相似部分没有清楚地出现在其中来自多个方向的强声音相互混合的波形上。因此，有时该模式匹配失败。

在实施例中，通过分解在每个频率分量的相位差中的幅度数据，来分析输入的幅度数据。因此，即使存在多个声源，因为相对于每个声源独有的频率分量在两条数据之间观察到对应于声源方向的相位差，所以当每个频率分量的相位差可以被划分为相同声源方向的组而没有对于声源采取强的限制时，对于宽范围的声源，应当掌握声源的数目、每个声源的方向、由每个声源产生的主特征频率分量。虽然它是直接的想法，但是当分析实际数据时，存在需要去克服的许多问题。下面将连同这些问题一起连续地描述用于分组的功能模块(频率分解单元3、二维数据产生单元4和图形检测单元5)。

[频率分解单元3]

快速傅里叶变换(Fast Fourier Transform：FFT)可以被引用作为用于将该幅度数据分解为频率分量的常规技术。Cooley-Turkey DFT算法被认为是代表性的算法。

如图3所示，对于由声音输入单元2输入的幅度数据110，频率分解单元3以帧(第T个帧111)的形式提取连续的N条幅度数据以执行快速傅里叶变换，并且当将提取位置偏移帧偏移量113(第(T+1)帧112)时，频率分解单元3重复该提取。

如图4A所示，在对构成该帧的幅度数据执行加窗(windowing)处理(图4A中的120)之后，对该幅度数据执行快速傅里叶变换(图4A中的121)。作为结果，根据该输入帧的快速傅里叶变换数据，产生实部缓冲器R(N)和虚部缓冲器I(N)(图4A中的122)。图4B示出一个加窗函数(汉明(Hamming)窗或者汉宁(Hanning)窗)124。

在这一点上，该产生的快速傅里叶变换数据变为其中该帧的幅度数据被分解为N/2频率分量的数据，并且在缓冲器122中的实部R(k)和虚部I(k)的数值表示在复数坐标系123上用于第k个频率分量fk的点Pk，如图4C所示。在Pk和原点O之间的距离的平方对应于该频率分量的功率Po(fk)，并且Pk离实部轴的带正负号的旋转角θ(θ：-π＞θ≥π(弧度))对应于该频率分量的相位Ph(fk)。

当采样频率被设置为Fr(Hz)，并且帧长度被设置为N(采样)时，k取从0到(N/2)-1的整数值。k＝0表示0(Hz)(直流)，并且k＝(N/2)-1表示Fr/2(Hz)(最高频率分量)。在每个k中的频率是通过平均地将在k＝0和k＝(N/2)-1之间的距离除以频率分辨率Δf＝(Fr/2)/((N/2)-1)(Hz)来表示的，并且在每个k中的频率是通过fK＝k·Δf表示的。

如上所描述的，频率分解单元3通过以预定的间隔(帧偏移量Fs)连续地执行处理而以时间序列产生频率分解的数据。该频率分解的数据包括在输入的幅度数据的每个频率中的功率值和相位值。

[二维数据产生单元4和图形检测单元5]

如图5所示，二维数据产生单元4包括相位差计算单元301和坐标值确定单元302，并且图形检测单元5包括投票单元303和直线检测单元304。

[相位差计算单元301]

相位差计算单元301比较通过频率分解单元3同时获得的两条频率分解数据a和b，并且相位差计算单元301产生通过在每个频率分量中计算在a和b的相位值之间的差值而获得的a与b之间的相位差的数据。如图6所示，通过计算麦克风1a中的相位值Ph1(fk)和麦克风1b中的相位值Ph2(fk)之间的差值，计算某个频率分量fk的作为2π余数系统的相位差ΔPh(fk)，从而该差值落入-π＜ΔPh(fk)≤π。

[坐标值确定单元302]

坐标值确定单元302根据由相位差计算单元301获得的相位差数据，计算在每个频率分量中的相位值之间的差值，并且坐标值确定单元302确定一个坐标值，其将坐标值确定单元302获得的相位差数据处理为预定的二维XY坐标系上的一个点。对应于该频率分量fk的相位差ΔPh(fk)的X坐标值x(fk)和Y坐标值y(fk)由图7中示出的等式来确定。X坐标值是相位差ΔPh(fk)，而Y坐标值是频率分量号k。

[对于相同时间差的相位差的频率比例]

如图6所示，在每个频率分量中通过相位差计算单元301计算的相位差应当表示与那些从相同的声源(相同的方向)导出的相同的到达时间差。在这一点上，由于通过FFT获得的频率相位值和在麦克风之间的相位差是通过将频率周期设置为2π来计算的，所以甚至在相同的时间差中，当频率变为二倍时，该相位差也变为二倍。图8示出频率和相位差之间的比例关系。如图8A所示，具有频率fk(Hz)的波130的半个周期是时间T，即，该波130包括π的相位间隔。另一方面，具有波130的频率二倍的频率2fK的波131是一个周期，即，波131包括2π的相位间隔。类似地，对于相同的到达时间差ΔT的相位差与该频率成比例地增加。图8B示出相位差和频率之间的比例关系。当从相同的声源获得的频率分量的相位差ΔT被通过在图7中示出的坐标值计算而绘制在二维坐标系上时，表示该频率分量的相位差的坐标点132被安排在直线133上。当该到达时间差ΔT增加时，即，当在从两个麦克风到声源的距离之间的差值增加时，该直线的斜率增加。

[相位差的循环性]

但是，只有当真实的相位差在从最小频率到最大频率的范围中不偏离±π时，才如图8B所示，在所有范围内保持麦克风之间的频率和相位差的比例性。这个条件指的是，该到达时间差ΔT低于最大频率(采样频率的一半)Fr/2(Hz)的半个周期的时间，即，到达时间差ΔT低于1/Fr(秒)。当到达时间差ΔT是1/Fr或者以上时，必须考虑该相位差仅仅获得为如下所述具有循环性的值。

可以仅仅通过2π的宽度(在该实施例中，从-π到π的2π宽度)，获得在每个频率分量中的可利用的相位值，作为在图4中示出的旋转角θ的值。这指的是，即使在麦克风之间的实际的相位差变得更宽到一个周期或者以上，不能从作为频率分解结果获得的相位值获知实际的相位差。因此，在该实施例中，如图6所示，在从-π到π的范围中获得相位差。但是，存在这样的可能性，即，由到达时间差ΔT所引起的实际相位差是这样一个值，其中向确定的相位差值添加2π或者从确定的相位差值中减去21，或者向确定的相位差值添加4π或者6π，或者从确定的相位差值中减去4π或者6π。这示意性地在图9中示出。参考图9，当频率fk的相位差ΔPh(fk)是如由圆点140所示的+π时，比频率fK高一级的频率fk+1的相位差超过+π，如由白色圆圈141所示。但是，计算的相位差ΔPh(fk+1)变为略微大于-π的值，如由圆点142所示。计算的相位差ΔPh(fk+1)是从原始的相位差中减去2π的值。此外，甚至在三倍频率中也获得一个类似的值(未示出)，并且其是从实际的相位差中减去4π的值。因此，当频率增加时，相位差作为2π的余数系统在从-π到π的范围内循环。当到达时间差增加时，由白色圆圈表示的实际的相位差在高于频率fk+1的范围中如由圆点所示相反地循环。

[当存在多个声源时的相位差]

另一方面，当从多个声源产生声波时，频率-相位差图示意性地在图10中示出。图10示出其中在相对于一对麦克风不同的方向上存在两个声源的情况：其中两个源声不包括相同的频率分量的情况；和其中两个源声包括一部分相同的频率分量的情况。参考图10A，具有相同的到达时间基准ΔT的频率分量的相位差与所述直线的任何一个相符合，五个点被安排在具有小的斜率的直线150上，以及六个点被安排在直线151(包括循环直线152)上。参考图10B，在包括在这两个源声的两个频率分量153和154中，声波被混合在一起，并且该相位差没有被正确地显现。因此，某些点脱离该直线，尤其仅仅三个点与具有小的斜率的直线155相符合。

估计源声的数目和声源的方向的问题可以归结为发现直线，诸如在图10的图中的直线。此外，在每个声源中估计频率分量的问题可以归结为选择设置在检测的直线附近位置上的频率分量。因此，该点群或者其中该点群被设置(绘制)在二维坐标系上的图像被用作从实施例的装置中的二维数据产生单元4输出的二维数据。使用由该频率分解单元3频率分解的两条数据，作为频率和相位差的函数来确定该点群。该二维数据是由不包括时间轴的两个轴定义的，使得可以定义作为二维数据的时间序列的三维数据。该图形检测单元5从作为二维数据(或者作为二维数据的时间序列的三维数据)给出的点群布置中检测线性布置作为图形。

[投票单元303]

如稍后描述的，该投票单元303对由坐标值确定单元302给出了(x，y)坐标的每个频率分量进行线性霍夫变换，并且该投票单元303通过预定的方法在霍夫投票空间中对其轨迹进行投票。虽然A.Okazaki，“Primary image processing”Kogyotyousakai，p 100-102(2000)介绍了霍夫变换，但是在这里将再次介绍该霍夫变换。

线性霍夫变换

如示意性地在图11中示出的，存在可以通过二维坐标上的点(x，y)的无数条直线，如图11中的直线160、161和162。然而，假定从原点O到每个直线引出的垂线163相对于X轴的倾斜度被设置为θ，并且垂线163的长度被设置为ρ，则相对于一条直线，θ和ρ被唯一地确定。众所周知，穿过点(x，y)的直线的一组θ和ρ在θ-ρ坐标系上绘制出相对于(x，y)的值唯一的轨迹164(ρ＝xcosθ+ysinθ)。因此，穿过(x，y)坐标值的直线变换为(θ，ρ)的轨迹被称为线性霍夫变换。当直线向左倾斜时，θ应该具有正值，当该直线垂直时，θ应该是零，当该直线向右侧倾斜时，θ应该具有负值，并且θ绝不离开定义的-π＜θ≤π的范围。

相对于XY坐标系上的每个点，可以独立地确定霍夫曲线。如图12所示，穿过三个点p1、p2和p3的直线170可以被确定为由点174的坐标(θ0，ρ0)定义的直线，在点174上，对应于点p1、p2和p3的轨迹171、172和173彼此相交。随着直线穿过的点的数量增加，穿过表示该直线的位置θ和ρ的轨迹数量增加。。因此，霍夫变换优选用于从点群中检测直线。

[霍夫投票]

使用霍夫投票的工程技术，以便从点群检测直线。这是一种暗示许多轨迹通过的一对θ和ρ的技术，即，在以下位置上存在直线，其中在霍夫投票空间中在该位置获得许多投票，使得在具有θ和ρ坐标轴的二维霍夫投票空间中，对每个轨迹通过的这对θ和ρ进行投票。通常，准备具有用于θ和ρ的搜索范围尺寸的二维阵列(霍夫投票空间)，并且该二维阵列被初始化为零。然后，通过霍夫变换确定在每个点处的轨迹，并且在该轨迹通过的阵列上的值增加1。这被称为霍夫投票。当对于所有点结束轨迹的投票时，人们发现，在投票的数目是0(没有轨迹穿过)的位置上不存在直线，在投票的数目是1(仅仅一个轨迹穿过)的位置上存在穿过一个点的直线，在投票的数目是2(仅仅两个轨迹穿过)的位置上存在穿过两个点的直线，在投票的数目是n(仅仅n个轨迹穿过)的位置上存在穿过n个点的直线。当霍夫投票空间的分辨率可以被增加到无穷大时，如上所述，仅仅轨迹穿过的点获得对应于穿过该点的轨迹数目的投票数目。但是，因为实际的霍夫投票空间被以对于θ和ρ恰当的分辨率来量化，因此在多个轨迹相互相交的位置附近也产生高的投票分布。因此，通过从霍夫投票空间的投票分布中搜索具有最大值的位置来更加精确地确定轨迹相交位置是必要的。

投票单元303对于满足所有以下条件的频率分量执行霍夫投票。由于这些条件，仅仅投票在给定的频带中具有不低于预定阈值的功率的频率分量：

(投票条件1)：该频率处于预定范围内(低频截止和高频截止)，和

(投票条件2)：该频率分量fk的功率P(fk)不低于预定阈值。

通常使用投票条件1，以便去掉叠加有背景噪声的低频，或者去掉降低FFT的精度的高频。可以根据操作调整低频截止和高频截止的范围。当使用最宽的频带时，优选在低频截止中仅仅去掉直流分量，并且在高频截止中仅仅去掉最高频率。

在背景噪声电平非常弱的频率分量中，认为FFT结果的可靠性不是非常高。使用投票条件2，以便通过对该功率执行阈值处理，使得具有低可靠性的频率分量不参与投票。假定在麦克风1a中功率值被设置为Po1(fk)，而在麦克风1b中功率值被设置为Po2(fk)，确定估计的功率P(fk)的方法包括以下三个条件。可以根据操作来设置这些条件的使用。

(平均值)：使用Po1(fk)和Po2(fk)的平均值。需要Po1(fk)和Po2(fk)两者的功率值都适当地强。

(最小值)：使用Po1(fk)和Po2(fk)中较低的一个。需要Po1(fk)和Po2(fk)两者的功率值在最小值上不低于该阈值。

(最大值)：使用Po1(fk)和Po2(fk)中的较大的一个。即使这些功率值中的一个低于该阈值，当另一个功率值足够强时也执行投票。

此外，投票单元303可以在该投票中执行以下两种加法方法。

(加法方法1)：向轨迹穿过的位置增加一个预定的固定值(例如，1)。

(加法方法2)：向轨迹穿过的位置增加该频率分量fk的功率P(fk)的函数值。

该加法方法1通常用于通过霍夫变换的直线检测问题中。在该加法方法1中，因为与通过点的数目成比例地排列投票，因此优选基于优先级来检测包括许多频率分量的直线(即，声源)。在这一点上，因为相对于包括在该直线中的频率分量来说不限于谐波结构(其中包括的频率应该被相等地间隔)，因此除了人类语音之外，可以检测更多的声源。

在加法方法2中，即使存在较少数量的穿过点，当包括具有大功率的频率分量时，可以获得高阶的最大值。优选检测投票分布高的直线(即，声源)，其中功率大，而频率分量的数目小。该功率P(fk)的函数值在加法方法2中被作为G(P(fk))来计算。图13示出当P(fk)被设置在Po1(fk)和Po2(fk)的平均值时的G(P(fk))的计算公式。此外，如同投票条件2的情况一样，P(fk)还可以计算作为Po1(fk)和Po2(fk)的最小值或者最大值。在加法方法2中，可以根据操作，与投票条件2无关地设置P(fk)。计算中间参数V的值，作为其中向对数log10P(fk)增加预定的偏移量α的值。当该中间参数V是正时，V+1的值被设置为该函数G(P(fk))的值。当该中间参数V不大于零时，值1被设置为该函数G(P(fk))的值。类似加法方法2，通过至少投票1，包括有大功率的频率分量的直线(声源)显现于高阶，并且包括大量的频率分量的直线(声源)显现于该高阶。因此，该加法方法2还可以具有加法方法1的多数确定特性。投票单元303可以根据设置来执行加法方法1或者加法方法2。尤其地，通过使用加法方法2，投票单元303还可以同时检测具有少量频率分量的声源，这允许更多的声源被检测。

[多个FFT结果的集体投票]

此外，虽然投票单元303可以在每个FFT时间中执行投票，但是在该实施例中，投票单元303对于通常连续的m个时间(m≥1)的时间序列FFT结果执行集体投票。在长时间的基础上，该声源的频率分量波动。但是，当投票单元303对于连续的m个时间的时间序列FFT结果执行集体投票时，可以利用从具有频率分量稳定时的适当短时间的多个时间FFT结果中获得的更多条数据来得到具有较高可靠性的霍夫投票结果。根据操作，可以将m设置为参数。

[直线检测单元304]

直线检测单元304通过分析由投票单元303产生的霍夫投票空间的投票分布来检测投票分布高的直线。但是，在这一点上，通过考虑该问题特有的情形，诸如在图9中描述的相位差的循环性，可以实现较高精度的直线检测。

图14示出了当在室内噪音环境下处理由在相对于离麦克风对的正面的左侧大约20°角处的人发出的实际声音时频率分量的功率频谱；从五个连续的时间(m＝5)的FFT结果中获得的频率-相位差图；和从连续的五个时间的FFT结果中获得的霍夫投票结果(投票分布)。从开始到图14的处理是通过从声音信号输入单元2到投票单元303的一系列功能块执行的。

通过频率分解单元3将由该对麦克风获得的幅度数据转换为每个频率分量的功率值数据和相位值数据。参考图14，数字180和181表示在每个频率分量中的功率值对数的亮度显示。在图14中，时间被设置在水平轴上。随着点密度变高，功率值增加。一条垂直线对应于一个时间FFT结果，并且该FFT结果连同时间(向右侧方向)一起绘制。该数字180表示来自麦克风1a的信号被处理的结果，该数字181表示来自麦克风1b的信号被处理的结果，并且检测到大量的频率分量。相位差计算单元301接收频率分解的结果，以确定在每个频率分量中的相位差。然后，坐标值确定单元302计算XY坐标值(x，y)。在图14中，数字182表示从时间183开始通过连续的五个时间FFT获得的相位差的图。在该图183中，人们认识到，沿着从原点伸出的向左侧倾斜线184存在点群分布，但是，该点群分布没有明确地存在于该直线184上，并且存在脱离直线184的许多点。投票单元303在霍夫投票空间中投票具有该点群分布的每个点，以形成由加法方法2产生的投票分布185。

[ρ＝0的限制]

当由声音信号输入单元2对麦克风1a和麦克风1b的信号同相地执行模拟到数字转换时，应当被检测的直线总是穿过ρ＝0，即，XY坐标系的原点。因此，声源估测问题归结为从位于θ轴上的投票分布S(θ，0)中搜索最大值的问题，其中在θ轴中，在霍夫投票空间上ρ变为零。图15示出了针对图14所示的数据在θ轴上搜索最大值的结果。

参考图15，数字190表示与图13中的投票分布185相同的投票分布。图15的数字192是一个条形图，其中在θ轴191上的投票分布S(θ，0)被提取作为H(θ)。在投票分布H(θ)中存在一些最大值点(突出部分)。直线检测单元304按照下面的步骤正确地检测获得足够的投票的直线的θ：(1)在执行搜索在投票分布H(θ)中的某个位置具有投票的θ的过程中，只要具有相同值的θ向左和向右连续，直线检测单元304最终留下该点，在该点，θ的投票低于位于某个位置上的θ的投票。因而，在投票分布H(θ)上提取了最大值部分。但是，在提取的最大值部分中，包括了具有平坦峰的最大部分，并且最大值连续。(2)因此，如图15的数字193所示，直线检测单元304通过细线化处理仅仅留下最大部分的中央位置作为最大位置。(3)最终，直线检测单元304仅仅检测该最大位置作为直线，在该最大位置的投票不低于预定的阈值。在图15的例子中，在上述处理(2)中检测最大位置194、195和196，并且通过平坦的最大部分(在偶数的最大部分中右侧具有优先级)的细线化处理留下最大位置194。此外，仅仅最大部分196是通过获得不低于阈值的投票而检测的直线。图15的数字197表示由通过最大位置196给出的θ和ρ(＝0)限定的直线。在A.Okazaki，“Primary image processing”Kogyotyousakai，p 89-92，2000中介绍的“Tamura method”的线性化可以被用作细线化处理的算法。当直线检测单元304检测一个或多个峰值点(获得不低于预定阈值的投票的中心位置)时，直线检测单元304根据投票的数量的顺序来排列最大值点，以输出每个最大位置的θ和ρ的值。

[考虑到相位差循环性的直线组的定义]

图15所示的直线197是一条穿过由最大位置196(θ0，0)定义的XY坐标系的原点的直线。直线198也是表示与直线197相同到达时间差的直线。直线198是由相位差的循环性形成的，使得直线197平行移动Δρ(图15中的199)，并且从X轴上的相反侧开始循环。其中通过延长直线197而伸出X区域的一部分以循环方式从相反侧显现的直线被称为直线197的“循环延伸线”，相对于循环延伸线作为基准线的直线197被称为“基准线”。当基准线197进一步倾斜时，循环延伸线的数目增加。在这一点上，系数α被设置为大于或者等于0的整数，并且具有相同到达时间差的所有直线属于一个直线组(θ0，aΔρ)，其中由(θ0，0)定义的基准线197平行移动Δρ。利用作为起点的基准ρ，当通过除去ρ＝0的限制将ρ推广为ρ＝ρ0时，直线组可以被描述为(θ0，aΔρ+ρ0)。在这一点上，Δρ是一个通过图16所示的等式定义为具有直线斜率θ的函数Δρ(θ)的带符号的值。

参考图16，数字200表示由(θ，0)定义的基准线。在这种情况下，由于该基准线是向右侧倾斜的，因此根据定义，θ具有负值。但是，在图16中，θ作为绝对值来处理。数字201表示基准线200的循环延伸线，并且循环延伸线201在点R与X轴相交。在基准线200和循环延伸线201之间的间隔是如由附加线202所示的Δρ。该附加线202在点O与基准线200相交，并且该附加线202在点U与循环延伸线201垂直相交。在这一点上，由于基准线是向右侧倾斜的，根据定义，Δρ具有负值。但是，在图16中，Δρ被作为绝对值来处理。在图16中，三角形OQP是一个直角三角形，其中边OQ具有长度π，并且三角形RTS与该三角形OQP是全等的。因此，发现边RT也具有长度π，并且三角形OUR的斜边OR具有长度2π。在这一点上，Δρ是边OU的长度，导致Δρ＝2π·cosθ。考虑到θ和Δρ的符号，可以导出图16的等式。

[考虑到相位差循环性的最大位置检测]

如上所述，声源没有由一条直线来表示，而是由于相位差的循环性，将该声源处理为包括基准线和循环延伸线的直线组。在从投票分布中检测最大位置的过程中也应该考虑这个问题。通常，从性能角度来说，借助于在ρ＝0(或者ρ＝ρ0)上的投票值(即，基准线的投票值)来搜索最大位置的方法是足够的，并且在不存在相位差循环性的情况下，或者即使存在循环性，但是在仅仅在该对麦克风的正面附近检测声源的情况下，该方法还具有降低搜索时间和改善精度的效果。但是，在检测更宽范围中存在的声源的情况下，通过对以某个θ彼此相隔Δρ的某些点的投票值进行求和来搜索最大位置是有必要的。下面将描述该差别。

图17示出了当利用在室内噪声环境中从相对于麦克风对的正面向左侧呈大约20度和向右侧呈大约45度的两个人讲话发出的实际语音来执行该处理时的频率分量的功率频谱；从连续的五个时间(m＝5)的FFT结果中获得的频率-相位差图；和从连续的五个时间的FFT结果中获得的霍夫投票结果(投票分布)。

频率分解单元3将通过该对麦克风获得的幅度数据转换为每个频率分量的功率值数据和相位值数据。参考图17，数字210和211表示在每个频率分量中的功率值对数的亮度显示。在图17中，频率为纵轴，而时间为横轴。随着点密度变高，功率值增加。垂直的一条直线对应于一个时间FFT结果，并且FFT结果连同时间(向右方向)一起用图形表示。数字210表示来自麦克风1a的信号被处理的结果，数字211表示来自麦克风1b的信号被处理的结果，并且检测大量的频率分量。相位差计算单元301接收频率分解结果，以确定在每个频率分量中的相位差。然后，坐标值确定单元302计算XY坐标值(x，y)。在图17中，数字212表示从时间213开始通过连续的五个时间FFT获得的相位差的图。在图212中，认识到，沿着从原点向左侧倾斜的基准线214存在点群分布，并且沿着从原点向右侧倾斜的基准线215存在点群分布。投票单元303在霍夫投票空间中对具有该点群分布的点中的每一个进行投票，以形成由加法方法2产生的投票分布216。

图18示出仅仅由θ轴上的投票值来搜索最大位置的结果。参考图18，数字220表示与图17中的投票分布216相同的投票分布。图18的数字222代表一个条线图，其中在θ轴221上的投票分布S(θ，0)被提取作为H(θ)。在投票分布H(θ)中存在一些极值点(突出部分)。如可以从数字222中的投票分布H(θ)看到的，通常，随着θ的绝对值增加，投票的数目减少。如由图18的数字223所示，在投票分布H(θ)中检测到四个最大位置224、225、226和227。仅仅最大位置227获得不低于阈值的投票，以检测一个直线组(基准线228和循环延伸线229)。该直线组检测来自相对于该麦克风对的正面向左侧呈大约20度的语音。但是，不能检测来自相对于该麦克风对的正面向右侧呈大约45度的语音。在穿过原点的基准线中，当直线的角度增加时，该直线可以穿过较低的频带，直到该直线超出X的值范围。因此，该基准线穿过的频带的宽度取决于θ(不平等)。由于ρ＝0的限制仅仅使基准线的投票在不平等条件下竞争，因此具有大角度的直线在投票中变得不利。这是为什么不能检测来自向右侧呈大约45度语音的原因。

另一方面，图19示出了其中通过对以Δρ间隔设置的某些点的投票值进行求和来搜索最大位置的结果。当穿过原点的直线在图17的投票分布216上平行移动Δρ时，图19的数字240通过虚线242至249代表ρ的位置。此时，θ轴241和虚线242至245，以及θ轴241和虚线246至249利用Δρ(θ)的自然数倍数在均匀间隔θ上相互分离。在θ＝0不存在虚线，其中当该直线不超出X的值范围时，该直线可靠地穿过该图的上部。

当在θ＝θ0的位置上纵向地查看时，将某个θ0的投票H(θ0)作为在θ轴241上的投票和在虚线242至249上的投票的总和来计算，即，H(θ0)＝∑{S(θ0，aΔρ(θ0))}。这个操作对应于在θ＝θ0中的基准线200的投票和循环延伸线的投票的和。数字250代表投票分布H(θ)的条线图。与由图18的数字222示出的条线图不同，在数字250的投票分布H(θ)中，即使θ的绝对值增加，投票也不减小。这是因为向投票计算增加循环延伸线允许对于所有的θ使用相同的频带。从投票分布250检测到由图19的数字251示出的十个最大位置。在这十个最大位置之中，最大位置252和253获得不低于阈值的投票，以检测其中从相对于该对麦克风的正面向左侧呈大约20度检测到语音的直线组(对应于最大位置253的基准线254和循环延伸线255)，和其中从相对于该对麦克风的正面向右侧呈大约45度检测到语音的直线组(对应于最大位置252的基准线256和循环延伸线257和258)。因此，通过对以Δρ相互分离的某些点的投票值进行求和来搜索最大位置，可以稳定地检测从小角度直线到大角度直线的直线。

[概括：考虑到非同相的最大位置检测]

当声音信号输入单元2对麦克风1a和麦克风1b的信号同相地执行模拟到数字转换时，待检测的直线不穿过ρ＝0，即，该XY坐标系的原点。在这种情况下，必须除去ρ＝0的限制以搜索最大位置。

当将其中除去ρ＝0的限制的基准线概括描述为(θ0，ρ0)时，直线组(基准线和循环延伸线)可以被描述为(θ0，aΔρ(θ0)+ρ0)，这里Δρ(θ0)是由θ0确定的循环延伸线的平均移动量。当声源来自特定方向时，在对应于该方向的θ0中仅存在一个投票分布最高的直线组。直线组是利用ρ0max的值通过(θ0，aΔρ(θ0)+ρ0max)给出的，其中当ρ0改变时，该直线组的投票∑{S(θ0，aΔρ(θ0)+ρ0)}变为最大。因此，在每个θ中将投票V设置为最大投票值∑{S(θ，aΔρ(θ)+ρ0max)}，其允许与用于施加ρ＝0的限制来执行直线检测相同的最大位置检测算法。

[图形匹配单元6]

检测的直线组是在每个时间上的该声源的候选者，并且在每对麦克风中独立地估计该声源的候选者。此时，从相同的声源发出的语音被作为各个直线组由多对麦克风同时检测。因此，当可以由多对麦克风执行从相同的声源获得的直线组的对应性时，可以以更高的可靠性获得有关该声源的信息。图形匹配单元6执行该对应性。在每个直线组中由图形匹配单元6编辑的信息被称为声源候选者信息。

如图20所示，图形匹配单元6包括方向估计单元311、声源分量估计单元312、时间序列跟踪单元313、持续时间估计单元314和声源分量匹配单元315。

[方向估计单元311]

方向估计单元311从直线检测单元304接收直线检测结果，即，每个直线组的θ值，并且方向估计单元311计算对应于每个直线组的声源的存在范围。此时，检测的直线组的数目变为声源的候选者的数目。当基线和声源之间的距离相对于该对麦克风的基线足够大时，该声源的存在范围变为相对于该对麦克风的基线具有一角度的圆锥形表面。参考图21，下面将介绍存在范围。

麦克风1a和麦克风1b之间的到达时间差ΔT可以在±ΔTmax的范围内改变。如图21A所示，当声音信号是从正面入射时，ΔT变为零，并且该声源的方位角φ基于该正面变为0°。如图21B所示，当语音是从正右侧入射时，即，从麦克风1b的方向时，ΔT等于+ΔTmax，并且当基于该正面设置顺时针方向为正时，该声源的方位角φ变为+90°。类似地，如图21C所示，当语音从正左侧入射时，即，从麦克风1a的方向时，ΔT等于-ΔTmax，并且该方位角φ变为-90°。因此，定义ΔT，使得当声音从右侧方向入射时，ΔT被设置为正值，而当声音是从左侧方向入射时，ΔT被设置为负值。

下面将描述在图21D中示出的一般情况。假定麦克风1a的位置是A，麦克风1b的位置是B，并且语音是从线段PA的方向入射，三角形PAB变为一个直角三角形，其顶点P具有一个直角。此时，麦克风之间的中心被设置为O，线段OC被设置为该对麦克风的正面方向，方向OC被设置在0°的方位角上，并且当角度被设置在逆时针方向为正值时，将该角度定义为方位角φ。三角形QOB相似于三角形PAB，使得该方位角φ的绝对值等于角度OBQ，即，角度ABP，并且符号与ΔT的符号一致。角度ABP可以作为线段PA和AB的比的sin^-1来计算。当线段PA的长度通过对应于线段PA的ΔT表示时，线段AB的长度对应于ΔTmax。因此，该方位角可以被作为包括符号的φ＝sin^-1(ΔT/ΔTmax)来计算。该声源的存在范围被估计为圆锥形表面260。在圆锥形表面260中，顶点是点O，轴是基线AB，并且锥形的角度是(90-φ)°。声源存在于圆锥形表面260上。

如图22所示，ΔTmax是麦克风之间的距离L(m)除以声速Vs(m/sec)得到的值。在这种情况下，众所周知，可以将声速Vs近似为温度t(℃)的函数。假定通过直线检测单元304检测到直线270具有霍夫倾角θ。由于直线270是向右侧倾斜的，因此θ具有负值。在y＝k(频率fk)的情况下，可以根据k和θ的k·tan(-θ)的函数来确定由直线270示出的相位差ΔPh。此时，ΔT变为频率fk的一个周期1/fk(sec)乘以相位差ΔPh(θ，k)与2π的比率得到的时间。由于θ是一个带符号的量，因此ΔT也是一个带符号的量。即，当声音是从图21D中的右侧入射(该相位差ΔPh变为正值)时，θ变为一个负值。当声音是从图21D中的左侧入射(该相位差ΔPh变为负值)时，θ变为一个正值。因此，θ的符号被颠倒。实际的计算可以借助于k＝1(直接在直流分量k＝0之上的频率)来进行。

[声源分量估计单元312]

声源分量估计单元312估计由坐标值确定单元302给出的每个频率分量的(x，y)坐标值和由直线检测单元304检测的直线之间的距离，并且声源分量估计单元312检测位于该直线附近的点(即，频率分量)作为该直线组(即，声源)的频率分量。然后，声源分量估计单元312根据检测结果估计在每个声源中的频率分量。

[通过距离阈值方法的检测]

图23示意性地示出当存在多个声源时的声源分量估计的原理。图23A是类似于图9的频率-相位差图，并且图23A示出其中在相对于麦克风对不同的方向上存在两个声源的情况。在图23中，数字280形成一个直线组，并且数字281和282形成另一个直线组。圆点代表在每个频率分量中的相位差的位置。

如图23B所示，形成对应于该直线组280的源声的频率分量被检测为位于夹在直线284和285之间的区域286内的频率分量(在图23中的圆点)。直线284和285与直线280水平地隔开水平距离283。将某个频率分量检测作为某个直线的分量，这被称为频率分量属于直线。

类似地，如图23C所示，形成对应于直线组281和282的源声的频率分量被检测为位于夹在直线间的区域287和288内的频率分量(图23中的圆点)。所述直线分别与直线281和282水平地隔开水平距离283。

此时，频率分量289和原点(直流分量)被包括在区域286和288两者中，使得该频率分量289和原点被双重检测作为这两个声源的分量(多重属于)。该方法被称为“距离阈值方法”，在该方法中，对在频率分量和直线之间的水平距离执行阈值处理，在每个直线组(声源)中选择存在于该阈值中的频率分量，并且该频率分量的功率和相位被直接地设置在该源声分量上。

[通过最近邻方法的检测]

图24示出其中使在图23中复合地属于直线组的频率分量289仅仅属于最近的直线组的结果。作为在频率分量289和直线280和282之间的水平距离的对比结果，发现该频率分量289最靠近于直线282。此时，在接近直线282的区域288中存在该频率分量289。因此，该频率分量289被检测为属于直线组281和282的分量，如图24所示。该方法被称为“最近邻方法”，其中在每个频率分量中根据水平距离来选择最靠近的直线(声源)，并且当该水平距离存在于预定阈值内的时候，将该频率分量的功率和相位直接地设置为源声分量。对直流分量(原点)进行特别处理，并且使该直流分量属于这两个直线组(声源)。

[通过距离系数方法的检测]

在以上所述的两种方法中，对于构成该直线组的直线仅仅选择存在于水平距离预定的阈值内的频率分量，并且将该频率分量的功率和相位直接地设置为对应于直线组的该源声音的频率分量。另一方面，在下面介绍的“距离系数方法”中，计算非负系数α，并且该频率分量的功率乘以该非负系数α。该非负系数α根据频率分量和直线之间的水平距离d的增加而单调地下降。因此，该频率分量属于该源声，同时该频率分量的功率随着该频率分量与该直线分离的水平距离而降低。

在这个方法中，不需要使用水平距离来执行阈值处理。确定频率分量和某个直线组之间的每个水平距离d(在频率分量和该直线组中最靠近的直线之间的水平距离)，并且将该频率分量的功率乘以基于该水平距离d确定的系数α的值设置为该直线组中该频率分量的功率。用于计算非负系数α的等式可以任意地设置，该非负系数α根据水平距离d的增加而单调地下降。可以引用图25中示出的S形的(S形的曲线)函数α＝exp((-(B·d)^c)作为用于计算非负系数α的等式的例子。如图25所示，假定B是一个正值(在图25中为1.5)，并且c是一个大于1(在图25中为2.0)的值，在d＝0的情况下α＝1。在d→∞的情况下α→1。当非负系数α快速下降时，即，当B很大的时候，则容易除去从该直线组脱离的分量，使得该声源方向的方向性变得明显。相反地，当非负系数α缓慢下降时，即，当B较小时，方向性变得不鲜明。

[多个FFT结果的处理]

如上所述，不仅该投票单元303可以在每个一次FFT中执行投票，而且该投票单元303可以以共同的方式执行连续的m个时间FFT结果的投票。因此，在该直线检测单元304之后用于处理霍夫投票结果的功能块被操作为其中执行一次霍夫变换的周期的单元。当在m≥2的情况下执行霍夫投票时，由于多次的FFT结果被划分为构成源声的分量，因此有时具有不同的时间的相同频率分量属于不同的源声。因此，不管m的值，该坐标值确定单元302将获得的帧的开始时间作为有关该获得的时间的信息告知给每个频率分量(即，图24中示出的圆点)，并且可以查阅该时间的哪个频率分量属于哪个声源。即，该源声被作为该频率分量的时间序列数据来分离和提取。

[功率保持选项]

在以上所述的方法中，在属于多个(N)直线组(声源)的频率分量中(在最近邻方法中仅仅是直流分量，并且在该距离系数方法中是所有的频率分量)，将被分布给声源的同一时刻的频率分量的功率标准化且分成N条，以使得功率的总和等于在分布之前的该时间的功率值Po(fk)，这也是可能的。因此，在该声源的整体中，在每个频率分量中总功率可以被保持在与输入功率相同的水平。这被称为“功率保持选项”。存在两种分布方法。即，这两种方法包括(1)，功率被平均地分成N段(适用于该距离阈值方法和该最近邻方法)，和(2)，根据频率分量和每个直线组之间的距离来分布功率(适用于该距离阈值方法和该距离系数方法)。

该方法(1)是其中通过平均地将该功率分解为N段来自动地实现标准化的分布方法。该方法(1)可以应用于距离阈值方法和最近邻方法，其中与距离无关地确定分布。

该方法(2)是其中以与该距离系数方法同样的方式确定该系数之后，通过标准化该功率以使得功率的总和变为1来保持功率的总和的分布方法。该方法(2)可以应用于距离阈值方法和距离系数方法，其中除在该原点之外，发生多重归属。

该声源分量估计单元312可以根据设置执行距离阈值方法、最近邻方法和距离系数方法的所有这些方法。此外，在距离阈值方法和最近邻方法中，可以选择以上所述的功率保持选项。

[时间序列跟踪单元313]

如上所述，该直线检测单元304在由该投票单元303执行的每个霍夫投票中确定直线组。以集合的方式对于连续的m个时间(m≥1)FFT结果执行霍夫投票。结果，当将m个帧的时间被设置为一个周期(以下称为“图形检测周期”)时，以时间序列的方式确定直线组。因为直线组的θ以一对一关系对应于由方向估计单元311计算的声源方向φ，因此即使该声源保持静止或者移动，对应于稳定的声源的θ(或者φ)的轨迹应该在时间轴上连续。另一方面，由于该阈值设置，有时对应于背景噪声的直线组(被称为“噪声直线组”)被包括在由直线检测单元304检测的直线组中。但是，该噪声直线组的θ(或者φ)的轨迹在时间轴上不连续，或者即使该轨迹连续，该噪声直线组的θ(或者φ)的轨迹也是很短的。

该时间序列跟踪单元313通过将每个图形检测周期中确定的φ划分为在时间轴上连续的分组来确定在时间轴上φ的轨迹。在下面将参考图26介绍该分组方法。

(1)准备轨迹数据缓冲器。该轨迹数据缓存器是多条轨迹数据的阵列。开始时间Ts、结束时间Te、构成轨迹的多条直线组数据Ld的阵列(直线组列表)和标签号码Ln可以被存储在一条轨迹数据Kd中。一条直线组数据Ld是一组数据条，包括构成该轨迹的一个直线组的θ值和ρ值(由该直线检测单元304获得的)、表示对应于该直线组的声源方向的φ值(由该方向估计单元311获得的)、对应于该直线组的频率分量(由该声源分量估计单元312获得的)，和获得这些值的时间。最初该轨迹数据缓冲器是空的。准备新的标签号码作为用于颁发该标签号码的参数，并且将新的标签号码的初始值设置为零。

(2)对于在时间T最新获得的每个φ(在下文中，假定获得由在图26中的点303和304示出的两个φS作为φn)，参考存储在该轨迹数据缓冲器中的两条轨迹数据Kd 301和302中的多条直线组数据Ld(在图26中设置在长方形中的点)，并且检测具有该直线组数据Ld的轨迹数据，其中φ值和φn(在图26中的305和306)之间的差值在预定的角度阈值Δφ内，并且φ值和φn的获得时间(在图26中的307和308)之间的差值在预定的时间阈值Δt内。因此，当对于该圆点303检测轨迹数据301时，对于该圆点304，即使最靠近的轨迹数据302也不满足以上所述的条件。

(3)当类似该圆点303的情况发现满足条件(2)的轨迹数据的时候，假定φn形成相同的轨迹，将φn、对应于φn的θ值和ρ值、频率分量和当前时间T作为该轨迹数据Kd的新的直线组数据增加给该直线组列表，并且将当前时间T被设置为该轨迹新的结束时间Te。此时，当发现多个轨迹的时候，假定所有的轨迹形成相同的轨迹，所有的轨迹被结合为具有最小标签号码的轨迹数据，并且从该轨迹数据缓冲器中删掉剩余的数据。该结合的轨迹数据的开始时间Ts是在结合之前在该多条轨迹数据之中最早的开始时间，结束时间Te是在结合之前、在该多条轨迹数据之中最晚的结束时间，并且该直线组列表是在结合之前多条数据的直线组列表的总和。结果，将圆点303添加到该轨迹数据301。

(4)当类似圆点304的情况没有发现满足条件(2)的轨迹数据的时候，在该轨迹数据缓冲器的空的部分中产生新的轨迹数据作为新的轨迹的开始，将开始时间Ts和结束时间Te两者都设置为当前时间T，将该φn、对应于φn的θ值和ρ值、频率分量和当前时间T设置为直线组列表的初始直线组数据，将新的标签号码的值作为该轨迹的标签号码Ln给出，并且该新的标签号码增加1。当该新的标签号码到达预定的最大值的时候，该新的标签号码返回到零。因此，将该圆点304作为新的轨迹数据输入到轨迹数据缓冲器中。

(5)当存储在该轨迹数据缓冲器中的多条轨迹数据中存在从数据被最终更新(即，从结束时间Te)经过预定时间Δt的轨迹数据时，将经过预定时间Δt的该轨迹数据输出给下一级持续时间估计单元314作为其中没有发现要增加的新的φn的轨迹，即，跟踪结束。然后，从该轨迹数据缓冲器中删掉该轨迹数据。在图26中，轨迹数据302对应于经过预定时间Δt的轨迹数据。

[持续时间估计单元314]

该持续时间估计单元314从其中完成跟踪的轨迹数据的开始时间和结束时间来计算该轨迹的持续时间，并且该轨迹数据是从该时间序列跟踪单元313输出的。该持续时间估计单元314确认持续时间超出预定阈值的该轨迹数据为基于源声的轨迹数据，并且该持续时间估计单元314确认除持续时间超出预定阈值的该轨迹数据之外的多条轨迹数据为基于噪声的轨迹数据。基于源声的该轨迹数据被称为声源流信息。该声源流信息包括该源声的开始时间Ts和结束时间Te，以及表示该声源方向的θ、ρ以及φ的多条时间序列轨迹数据。由该图形检测单元5获得的直线组的数目给出声源的数目，并且该噪声声源也包括在声源的数目中。由该持续时间估计单元314获得的多条声源流信息的数目给出除了基于噪声的声源数目之外的声源的可靠数目。

[声源分量匹配单元315]

该声源分量匹配单元315使从相同的声源获得的多条声源流信息彼此对应，然后该声源分量匹配单元315产生声源候选者对应信息。分别通过时间序列跟踪单元313和持续时间估计单元314相对于不同的麦克风对获得所述多条声源流信息。从相同的声源同时发出的语音应该在频率分量方面相互类似。因此，通过在声源流之间匹配频率分量的图案，同时基于在每个时间上在由声源分量估计单元312估计的每个直线组中的声源分量来计算相似度，并且声源流彼此对应。彼此对应的声源流具有赢得不低于该预定阈值的最大相似度的频率分量图案。但是，此时，该模式匹配可以在声源流的所有范围中执行，其对搜索声源流是有效的，其中通过在同时存在匹配的声源流的周期中匹配该时间的频率分量图案，总的相似度或者平均的相似度变为不低于预定阈值的最大值。要匹配的时间被设置为当两个匹配的声源数流的功率变为不低于预定阈值的值的时候的该时间，其允许进一步提高匹配可靠性。

应当注意到，必要时，信息可以通过电缆(未示出)在该图形匹配单元6的功能块之中交换。

[声源信息产生单元7]

如图30所示，该声源信息产生单元7包括声源存在范围估计单元401、一个对选择单元402、同相单元403、自适应阵列处理单元404和语音识别单元405。该声源信息产生单元7从其中通过该图形匹配单元6执行了一致性的该声源候选者信息中产生有关该声源的更加精确、更加可靠的信息。

[声源存在范围估计单元401]

该声源存在范围估计单元401基于由该图形匹配单元6产生的该声源候选者对应信息来计算该声源的空间存在范围。计算方法包括以下两种方法，并且这两种方法可以通过参数转换。

(计算方法1)由多条声源流信息表示的声源方向被假定为圆锥形表面(参见图21D)，其中将检测该声源流的麦克风对的中点设置在顶点上，其中由于所述多条声源流信息从相同的声源中获得，因此使其相互对应。将其中从所有相应的声源流中获得的圆锥形表面相互相交的曲线或者点的邻近区域计算作为该声源的空间存在范围。

(计算方法2)利用由多条声源流信息表示的声源方向如下所述地确定该声源的空间存在范围，其中由于所述多条声源流信息从相同的声源获得，因此使其相互对应。即，(1)假定其中心是该装置的原点的同心球形表面，并且为该同心球形表面上的离散点(空间坐标)预先准备一个表格，其中计算了对于每对麦克风的角度。(2)搜索该同心球形表面上的离散点，其中所述离散点对于每对麦克风的角度满足最小平方误差条件下的声源方向的设置，并且将该点的位置设置为该声源的空间存在范围。

[成对选择单元402]

成对选择单元402基于由该图形匹配单元6产生的该声源候选者对应信息，选择用于声源语音分离和提取的最佳配对。该选择方法包括以下两种方法，并且这两种方法可以通过参数转换。

(选择方法1)将由多条声源流信息表示的声源方向相互比较，以选择位于最靠近于正面的检测声源流的麦克风对，其中由于所述多条声源流信息从相同的声源获得，因此使其相互对应。因此，使用检测来自最正面的声源流的该对麦克风来提取声源语音。

(选择方法2)由多条声源流信息(其中由于所述多条声源流信息从相同的声源获得，因此使其相互对应)表示的声源方向被假定为圆锥形表面(参见图21D)，其中将检测该声源流的麦克风对的中点设置在顶点上，并且选择其中使其他声源最远离该圆锥形表面的一对检测声源流的麦克风。因此，使用受其他声源影响最小的该对麦克风来提取该声源语音。

[同相单元403]

该同相单元403从由成对选择单元402选择的声源流信息中获得该流的声源方向φ中的时间跃迁，并且该同相单元403通过从φ的最大值φmax和最小值φmin计算中间值φmid＝(φmax+φmin)/2来确定宽度φw＝φmax-φmid。该同相单元403从该流的开始时间Ts返回到预定时间的时间到从结束时间Te逝去该预定时间的时间提取这两个频率分解数据a和b的多条时间序列数据，其是该声源流信息的基础，并且该同相单元403执行校正，使得消除由该中间值φmid反计算的到达时间差。因此，该同相单元403执行同相。

或者，该同相单元403将由该方向估计单元311得到的每个时间的声源方向φ设置为φmid，并且该同相单元403可以同时执行这两个频率分解数据a和b的多条时间序列数据的同相。由操作模式来确定是参照该声源流信息还是参照每个时间的φ，并且可以将该操作模式设置为参数。

[自适应阵列处理单元404]

该自适应阵列处理单元404通过对这两个频率分解数据a和b的提取和同相的多条时间序列数据执行自适应阵列处理来以高精确度分离和提取该流的源声(频率分量的时间序列数据)。在该自适应阵列处理中，中心方向性是以0°朝向正面，并且将其中向±φw添加预定余量的值设置为跟踪范围。如在Tadashi Amada等人的“Microphonearray technique for speech recognition”，Toshiba review，vol.59，No.9，2004中公开的，可以使用通过利用主和副Griffith-Jim型generalizedside-lobe消除器在设定的方向性范围内清晰地分离和提取语音的方法来作为该自适应阵列处理。

在使用该自适应阵列处理的情况下，通常预先设置该跟踪范围，以等待来自该跟踪范围方向的语音。因此，为了等待来自所有方向的语音，必须准备跟踪范围不同的许多自适应阵列。相反地，在该实施例的装置中，在实际确定声源的数目和声源的方向之后，根据声源的数目仅仅可以操作自适应阵列的数目，并且该跟踪范围可以根据声源方向被设置为预定窄的范围。因此，可以以高质量有效地分离和提取语音。

此外，这两个频率分解数据a和b的时间序列数据的预先同相，允许仅仅通过在自适应阵列处理中将跟踪范围设置在正面的附近区域来处理来自所有方向的声音。

语音识别单元405

该语音识别单元405分析和验证由该自适应阵列处理单元404提取的源声的时间序列数据。因此，该语音识别单元405提取该流的符号内容，即，表示语言含义、声源类型或者说话者的符号(信息串)。

[输出单元8]

该输出单元8输出包括声源候选者的数目、该声源候选者的空间存在范围(确定圆锥形表面的角度φ)、语音分量结构(在每个频率分量中的功率和相位的多条时间序列数据)、除噪声声源之外的声源候选者(声源流)的数目和该语音的时间存在期间中的至少一个的信息作为通过图形匹配单元6得到的声源候选者信息。声源候选者的数目可以作为直线组的数目由该图形检测单元5获得。属于该声音信号的发射源的该声源候选者的空间存在范围是由该方向估计单元311估计的。该语音分量结构是由该声源分量估计单元312估计的，并且该声源候选者发出该语音。声源候选者的数目可以通过时间序列跟踪单元313和持续时间估计单元314获得。该语音的时间存在期间可以通过时间序列跟踪单元313和该持续时间估计单元314获得，并且该声源候选者发出该语音。或者，该输出单元8输出包括声源的数目、该声源的更精细的空间存在范围(圆锥形表面相交范围或者搜索表格的坐标值)、在每个声源中分离的语音(幅值的时间序列数据)，和该声源语音的符号内容中的至少一个的信息作为通过该声源信息产生单元7得到的声源信息。声源的数目可以作为相应的直线组(声源流)的数目由该图形匹配单元6获得。该声源的更精细的空间存在范围是由该声源存在范围估计单元401估计的，并且该声源是该声音信号的发射源。在每个声源中分离的语音可以由该成对选择单元402、同相单元403和自适应阵列单元404获得。该声源语音的符号内容可以由该语音识别单元405获得。

[用户接口单元9]

该用户接口单元9向用户显示声音信号处理所必需的各种设置内容，并且该用户接口单元9接收从用户输入的设置。该用户接口单元9还在外部存储设备中存储该设置内容，或者从外部存储设备读取该设置内容。如图17和19所示，该用户接口单元9可视化和显示以下项目的各种处理结果和中间结果：(1)显示每个麦克风中的频率分量，(2)显示相位差(或者时间差)图(即，二维数据的显示)，(3)显示各种各样的投票分布，(4)显示最大位置，和(5)在该图上显示直线组。此外，如图23和24所示，该用户接口单元9可视化和显示以下项目的各种处理结果和中间结果：(6)显示属于该直线组的频率分量，和(7)显示轨迹数据。该用户接口单元9提示用户选择期望的数据以使所选择的数据精细地可视化。因此，用户可以确认本实施例的装置的操作，用户可以调整以便执行期望的操作，并且用户可以在该调整的状态下使用本实施例的装置。

[处理流程图]

图27示出本实施例的装置的流程图。在本实施例的装置中执行的处理包括：初始设置处理步骤S1、声音信号输入处理步骤S2、频率分解处理步骤S3、二维数据产生处理步骤S4、图形检测处理步骤S5、图形匹配处理步骤S6、声源信息产生处理步骤S7、输出处理步骤S8、结束确定处理步骤S9、确认确定处理步骤S10、信息显示和设置接收处理步骤S11，和结束处理步骤S12。

在初始设置处理步骤S1中，执行该用户接口单元8中的一部分处理。在步骤S1中，从外部存储设备读取声音信号处理所必需的各种设置内容，并且以预定的设置状态初始化该装置。

在声音信号输入处理步骤S2中，执行声音信号输入单元2中的处理。在步骤S2中输入在空间上彼此不同的两个位置上捕获的两个声音信号。

在频率分解处理步骤S3中，执行该频率分解单元3中的处理。在步骤S3中，对于在步骤S2输入的每个声音信号执行频率分解，并且至少计算每个频率的相位值(和功率值，如果必要的话)。

在二维数据产生处理步骤S4中，执行二维数据产生单元4中的处理。在步骤S4中，在步骤S3中在每个频率中计算的声音信号的相位值被相互比较，以计算在每个频率中的相位值之间的相位差。然后，将每个频率中的相位差设置为XY坐标系上的点，其中频率函数被设置在X轴上，而相位差函数被设置在Y轴上。该点被转换为(x，y)坐标值，其是由频率以及频率之间的相位差唯一确定的。

在图形检测处理步骤S5中，执行该图形检测单元5中的处理。在步骤S5中，从步骤S4产生的二维数据中检测预定的图形。

在图形匹配处理步骤S6中，执行图形匹配单元6中的处理。由步骤S5检测的图形被设置为声源候选者，并且使不同麦克风对的声源候选者彼此对应。因此，对于相同的声源来说，由多对麦克风得到的多条图形信息(声源候选者对应信息)结合起来。

如图33所示，3个麦克风1a、1b、1c呈三角形设置，由麦克风1a和1b形成麦克风对502，由麦克风1b和1c形成麦克风对503。

声源501发出的声音被3个麦克风1a、1b、1c捕获，经过到上述图形检测处理步骤S5为止的处理，分别就麦克风对502和503在时间轴方向上连续地检测预定的图形(直线)。

上述图形匹配处理步骤S6中，关于由各麦克风对检测出的直线，通过从上述方向估计单元311到上述持续时间估计单元314为止的处理，(1)根据直线的θ值计算相对于麦克风对的声源方向，(2)估计各直线的频率分量，(3)将在时间轴方向上连续的上述直线的数据作为上述轨迹数据进行综合，(4)将持续时间长的轨迹数据作为对应声源的流(声源流)来保留。

经过上述处理，由麦克风对502得到声源流504，由麦克风对503得到声源流505。这两个声源流504和505的持续期间重叠，声源分量匹配单元315通过评价该重叠的期间中的双方的频率分量的相似性，认定两者是同一声源501发出的声音。此外，将多个麦克风对的图形(声源流)的信息之中的关于同一声源的图形的信息作为声源候补对应信息进行总结。

这时，如果以麦克风对502的声源流504的方向为φ1，以麦克风对503的声源流505的方向为φ2，则在声源501移动的情况下，φ1和φ2时时刻刻变化。另一方面，在声源501静止的情况下，如图33所示，流504和505的φ值不变。

在声源信息产生处理步骤S7中，执行声源信息产生单元7中的处理。在步骤S7中，基于由多对麦克风对于相同的声源得到的、在步骤S6中结合的、关于相同声源的图形信息(声源候选者对应信息)产生包括属于该声音信号的发射源的声源的数目、该声源的更精细的空间存在范围、从每个声源发出的语音的分量结构、在每个声源中分离的语音、从每个声源发出的语音的时间存在期间，和从每个声源发出的语音的符号内容中的至少一个的声源信息。

在输出处理步骤S8中，执行该输出单元8中的处理。在步骤S8中输出由步骤S6产生的声源候选者信息和由步骤S7产生的声源信息。

在结束确定处理步骤S9中，执行该用户接口单元9中的一部分处理。在步骤S9中，确认是否存在来自用户的结束命令。当存在结束命令的时候，该处理流程被控制转到步骤S12。当不存在该结束命令的时候，该处理流程被控制转到步骤S10。

在确认确定处理步骤S10中，执行该用户接口单元9中的一部分处理。在步骤S10中，确认是否存在来自用户的确认命令。当存在确认命令的时候，该处理流程被控制转到步骤S11。当不存在该确认命令的时候，该处理流程被控制转到步骤S2。

在信息显示和设置接收处理步骤S11中，执行该用户接口单元9中的一部分处理。通过从用户接收该确认命令来执行步骤S11。步骤S11使得能够向用户显示声音信号处理所必需的各种设置内容、接收从用户输入的设置、通过存储命令在外部存储设备中存储设置内容、通过读取命令从该外部存储设备中读出该设置内容、以及各种处理结果和中间结果的可视化、并且向用户显示各种处理结果和中间结果。此外，在步骤S11中，该用户选择期望的数据以更详细地使该数据可视化。因此，用户可以确认该声音信号处理的操作，用户可以调整该装置以便该装置执行期望的操作，并且可以在调整的状态下继续该处理。

在结束处理步骤S12中，执行该用户接口单元9中的一部分处理。通过从用户接收该结束命令来执行步骤S12。在步骤S12中，自动地存储该声音信号处理所需的各种设置内容。

[改进]

在下面将描述上述实施例的改进。

[垂直线的检测]

在实施例中，二维数据产生单元4产生点群，同时通过坐标值确定单元302将X坐标值设置为相位差ΔPh(fk)，而将Y坐标值设置为频率分量号k。还可以将X坐标值设置为从相位差ΔPh(fk)计算的到达时间差的每个频率中的估计值ΔT(fk)＝(ΔPh(fk)/2π)×(1/fk)。当使用该到达时间差来代替相位差的时候，具有相同到达时间差的那些点，即，从相同的声源获得的那些点被设置在垂直线上。

此时，随着频率增加，可以由相位差ΔPh(fk)表示的时间差ΔT(fk)降低。如图28A所示，假定由频率fk的波290的一个周期表示的时间是T，则可以由倍频2fk的波291的一个周期表示的时间变为一半T/2。此时，当将时间差设置在X轴上的时候，如图28A所示，范围是±Tmax，并且当超出该范围的时候没有观察到时间差。但是，在不超过极限频率292的低频(此时Tmax不超过半周期(即，π))中，到达时间差ΔT(fk)由该相位差ΔPh(fk)唯一地确定。但是，在超过该极限频率292的高频中，计算的到达时间差ΔT(fk)小于理论的Tmax，并且该到达时间差ΔT(fk)仅仅可以表示被直线293和294缩窄的范围，如图28B所示。这是与相位差循环问题相同的问题。

因此，为了解决该相位差循环问题，对于超出极限频率292的频率范围，该坐标值确定单元302通过在±Tmax范围内、在对应于相位差的到达时间差ΔT(fk)的位置上产生冗余的点来形成二维数据，如图29所示。该冗余点是通过向相位差ΔPh(fk)增加2π、4π、6π等等或者通过从该相位差ΔPh(fk)中减去2π、4π、6π等等来产生的。所产生的点群是通过圆点表示的，并且对于超出该极限频率292的频率范围中的一个频率绘制多个圆点。

因此，该投票单元303和该直线检测单元304可以通过霍夫投票从作为对于一个相位差的一个或者多个点而产生的二维数据中检测大体上穿过许多点的垂直线(图29中的295)。此时，由于该垂直线是在该霍夫投票空间上变为θ＝0的直线，因此通过在霍夫投票之后的投票分布中检测θ变为零的ρ轴上的最大位置可以解决该垂直线检测问题，其中在该最大位置上获得不低于预定阈值的投票。检测的最大位置的ρ值给出垂直线和X轴的交点，即，该到达时间差ΔT的估计值。在投票中，可以直接使用在该投票单元303中介绍的投票条件和加法方法。对应于声源的直线不是直线组，而是单条直线。

确定该最大位置的问题还可以通过在一维投票分布(在Y轴方向上投影投票的外围分布)上检测获得不低于最大位置的预定阈值的投票的最大位置来解决，其中该冗余点群的X坐标值被投票。因此，通过使用该到达时间差而不是该相位差作为X轴，将表示存在于不同方向的声源的所有证据投影到具有相同斜率的直线(即，垂直线)，从而可以无需执行该霍夫变换，只是通过外围分布来执行该检测。

通过确定垂直线获得的该声源方向信息是作为ρ而不是作为θ获得的到达时间差ΔT(fk)。因此，该方向估计单元311可以立即从该到达时间差ΔT计算该声源方向φ，而不使用θ。

因此，由该二维数据产生单元4产生的二维数据不局限于一种类型，并且由该图形检测单元5执行的图形检测方法不局限于一种方法。在图29中示出的利用到达时间差的该点群图和检测的垂直线也是该用户接口单元9向用户呈现的信息显示对象。

[程序：借助于计算机实现]

如图31所示，本发明还可以借助于计算机实现。参考图31，数字31至33表示N个麦克风。数字40表示用于输入由N个麦克风获得的N个声音信号的模-数转换装置，并且数字41表示执行用于处理这N个输入的声音信号的程序命令的CPU。数字42至47表示构成计算机的典型设备，诸如RAM 42、ROM 43、HDD 44、鼠标/键盘45、显示器46和LAN 47。数字50至52表示经由存储介质从外部将程序或者数据提供给计算机的设备，诸如CDROM 50、FDD 51和CF/SD卡52。数字48表示用于输出声音信号的数/模转换装置，并且扬声器49连接到该数/模转换装置48的输出端。该计算机装置在HDD

44中存储一个包括在图27中示出的步骤的声音信号处理程序，并且该计算机装置将该声音信号处理程序读取到RAM 42中，以借助于CPU 41执行该声音信号处理程序。因此，该计算机装置起到声音信号处理装置的作用。此外，该计算机装置使用作为外部存储设备的HDD 44、接收输入操作的鼠标/键盘45、作为信息显示装置的显示器46，以及扬声器49。因此，该计算机装置实现上述的用户接口单元9的功能。该计算机装置在和从RAM 42、ROM 43和HDD 44中存储和输出由声音信号处理获得的声源信息，并且该计算机装置经由LAN47进行该声源信息的传送。

[记录介质]

如图32所示，本发明还可以作为一个计算机可读的记录介质来实现。参考图32，数字61表示其中存储了根据本发明的声音信号处理程序的记录介质。该记录介质可以通过CD-ROM、CF/SD卡、软盘等等来实现。该声音信号处理程序可以通过将该记录介质61插入进一个诸如电视机和计算机的电子设备62、电子设备63和机器人64中来执行。将该声音信号处理程序通过通信装置从向其提供了该程序的电子设备63提供给另一个电子设备65或者该机器人64，其允许该程序在该电子设备65或者该机器人64上执行。

[借助于温度传感器的声速校正]

可以实现本发明，使得该声音信号处理装置包括一个测量环境温度的温度传感器，并且根据该温度传感器测量的温度数据来校正图22中示出的声速Vs以确定精确的Tmax。

或者，可以实现本发明，使得该声音信号处理装置包括以预定的间隔设置的用于发送该声波的装置和用于接收该声波的装置，并且通过借助于测量装置来测量从该声波发送装置发出的声波到达该声波接收装置期间的时间间隔来直接地计算和校正该声速Vs，以确定精确的Tmax。

[不等分θ，以得到等间隔的φ，]

在本发明中，当执行该霍夫变换以求得直线组的斜率的时候，例如，通过以1°划分θ来进行量化。当θ被相等地划分的时候，可估计的声源方向φ值被不等地量化。因此，在本发明中，还可以通过相等地划分φ来进行θ的量化，并且由此在声源方向中不产生估计精度的变化。

[图形匹配的变化]

在实施例中，该声源分量匹配单元315是用于基于同一时刻的频率分量的相似性，通过不同的配对来匹配声源流(图形的时间序列)的装置。当同时存在多个要检测的声源的时候，该匹配方法使得能够借助于声源语音的频率分量中的差值的提示来分离和提取。

由于操作目的，有时要同时检测的声源是最强的一个，或者有时要同时检测的声源是持续时间最长的一个。因此，可以实现该声源分量匹配单元315以便包括该选项，其中该声源分量匹配单元315使其中功率变为最大的声源流在每个配对中相互对应，该声源分量匹配单元315使其中持续时间变为最长的声源流相互对应，并且该声源分量匹配单元315使其中持续时间的重叠变为最长的声源流相互对应。该选项的转换可以被设置为参数。

[另一个传感器的方向性控制]

在实施例中，该声源存在范围估计单元401通过利用计算方法2，从同心球形表面上的离散点中搜索满足最小平方差的点，来将具有最小误差的点作为该声源的空间存在范围。此时，除了具有最小误差的点之外，根据最小误差可以确定排在最前面k级的点，诸如具有第二最小误差的点和具有第三最小误差的点。该声音信号处理装置可以包括另一个传感器，诸如摄像机。在这种应用当中，其中摄像机被训练朝着声源方向，同时该摄像机被训练成朝着根据最小误差的顺序确定的最前面k级的点，该声音信号处理装置可以可视地检测变为目标的对象。由于该点的方向和距离被确定，因此可以流畅被控制该摄像机的角度和放大缩小。因此，可以有效地搜索和检测在声源位置上应该存在的视觉对象。具体而言，该装置可以被应用于这样一种应用当中，其中摄像机被训练成朝着语音的方向以发现人的面部。

在K.Nakadai等人的“Real time active chase of person by hierarchyintegration of audio-visual information”Japan Society for ArtificialIntelligence AI Challenge Kenkyuukai，SIG-Challenge-0113-5(日文)，p 35-42，2001年6月中公开方法中，通过从频率分解数据中检测构成谐波结构的基频分量和该基频分量的谐波分量来确定声源的数目、声源的方向和分量估计。因为假设了谐波结构，因此这种方法专用于人类的语音。但是，在实际的环境中存在许多不具有谐波结构的声源，诸如门的打开声音和关闭声音，因此该方法不能处理从不具有谐波结构的声源发出的源声。

虽然在F.Asano的“Dividing sounds”Transaction of the Society ofInstrument and Control Engineer(日文)，vol.43，No.4，p325-330(2004)中公开的方法不局限于特定的模型，但是，只要使用两个麦克风，可以通过这种方法处理的声源被限制为仅仅一个。

相反地，根据本发明的实施例，通过霍夫变换将每个频率分量中的相位差划分成每个声源中的组。因此，当使用两个麦克风时，实现了确定至少两个声源方向的功能和分离至少两个声源的功能。此时，在本发明中不使用诸如谐波结构的限制模型，从而本发明可以应用于宽范围的声源。

通过本发明的实施例获得的其他效果和优点概括如下：

(1)通过在霍夫投票中使用适合于检测具有许多频率分量的声源或者具有强的功率的声源的投票方法可以稳定地检测范围宽的声源。

(2)通过在检测直线的过程中考虑ρ＝0的限制和相位差循环性可以以高精度有效地检测声源。

(3)该直线检测结果的使用可以确定有用的声源信息，包括属于该声音信号的发射源的声源的空间存在范围、从该声源发出的源声的时间存在期间、该源声的分量结构、该源声的分离的语音、和该源声的符号内容。

(4)在估计每个声源的频率分量的过程中，简单地选择该直线附近的分量，确定该频率分量属于哪条直线，并且根据直线和频率分量之间的距离来乘以系数。因此，可以以简单的方式独立地分离源声。

(5)通过预先获悉该频率分量方向来自适应地设置自适应阵列处理的方向性范围，其允许以更高的精度分离该源声。

(6)可以通过识别该源声，同时以高精度分离该源声来确定该源声的符号内容。

(7)用户可以确认该装置的操作，用户可以进行调整使得执行期望的操作，并且用户可以在调整的状态下使用该装置。

(8)从一对麦克风估计声源方向，并且对于多对麦克风进行该估计结果的匹配和结合。因此，不是声源方向，而是该声源的空间位置可以被估计。

(9)相对于一个声源，从多对麦克风中选择出适宜的一对麦克风。因此，对于单对麦克风中低质量的声源，可以从一对良好的接收质量的麦克风的语音中以高的质量提取声源语音，并且因此该声源语音可以被识别。

对于本领域技术人员来说将容易想到其他的优点和修改。因此，本发明就其更宽的方面来说不局限于这里示出和描述的具体细节和代表性的实施例。因此，在不脱离由所附的权利要求及其等价物限定的总的发明构思的精神或者范围的情况下，可以进行各种修改。

Claims

1、一种声音信号处理装置，包括：

声音信号输入设备，用于输入包括来自声源的语音的n个声音信号，所述n个声音信号是在n个不同的点处被检测的，其中n是等于或者大于3的自然数；

频率分解设备，用于将所述声音信号的每一个分解为多个频率分量，以获得包括每个频率分量的相位信息的n条频率分解信息；

二维数据产生设备，用于相对于所述n条频率分解信息中的m对彼此不同的频率分解信息，其中m是等于或者大于2的自然数，计算每个频率分量中的一对频率分解信息之间的相位差，所述二维数据产生设备产生m条二维数据，其中频率函数为第一轴，而所述相位差的函数为第二轴；

图形检测设备，用于根据所述二维数据的每一条来检测预定的图形；

声源候选者信息产生设备，用于根据所述检测的图形的每一个，产生包括以下内容其中至少之一的声源候选者信息：多个声源候选者的数目、每个声源候选者的空间存在范围和来自每个声源候选者的声音信号的频率分量，所述声源候选者信息产生设备产生对应信息，该对应信息表示多条声源候选者信息之间的对应关系；和

声源信息产生设备，用于根据由所述声源候选者信息产生设备产生的所述声源候选者信息和所述对应信息，产生包括以下内容其中至少之一的声源信息：声源的数目、声源的空间存在范围、语音的存在期间、语音的频率分量结构、语音的振幅信息和语音的符号内容。

2、根据权利要求1的声音信号处理装置，其中，所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合，所述频率分量和所述相位差位于二维坐标系上，其中所述频率的标量倍数为所述第一轴，而所述相位差的标量倍数为所述第二轴。

3、根据权利要求1的声音信号处理装置，其中，所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合，所述频率分量和所述相位差位于二维坐标系上，其中所述频率的标量倍数为所述第一轴，而从所述相位差导出的到达时间差为所述第二轴。

4、根据权利要求1的声音信号处理装置，其中，所述图形检测设备检测直线作为所述图形。

5、根据权利要求4的声音信号处理装置，其中，所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合，所述频率分量和所述相位差位于具有所述第一轴和所述第二轴的二维坐标系上，

所述图形检测设备包括投票设备，所述投票设备通过对每个点进行线性霍夫变换以在投票空间中进行投票，以及所述图形检测设备通过在所述投票产生的投票分布中检测投票数量不小于预定阈值的峰值位置来检测所述直线。

6、根据权利要求4的声音信号处理装置，其中，所述二维数据是由所述频率分量和从所述相位差导出的到达时间差确定的点的坐标值的集合，所述频率分量和从所述相位差导出的到达时间差位于具有所述第一轴和所述第二轴的二维坐标系上，

所述图形检测设备包括投票设备，所述投票设备对在预定的方向中的每个点进行霍夫变换以进行投票，以及所述图形检测设备通过从由所述投票产生的投票分布中检测投票数量不小于预定阈值的峰值位置来检测所述直线。

7、根据权利要求5的声音信号处理装置，其中，所述投票设备在所述投票空间中投票一个固定值。

8、根据权利要求5的声音信号处理装置，其中，所述投票设备在所述投票空间中投票根据对应于所述点的频率的功率值计算的数值。

9、根据权利要求5的声音信号处理装置，其中，当在探测直线的过程中从所述投票分布中检测投票数量不小于预定阈值的峰值位置时，所述图形检测设备仅仅在该投票空间的位置上检测该峰值位置，该投票空间的位置对应于穿过二维坐标系上的特定位置的所述直线。

10、根据权利要求5的声音信号处理装置，其中，当在探测直线的过程中从所述投票分布中检测投票数量不小于预定阈值的峰值位置时，为了探测多个平行直线，该直线探测器件计算相应于多个平行直线的投票总量来探测具有不小于阈值的所述投票总量的峰值位置，所述多个平行直线具有相同倾角，且彼此分离开根据所述倾角计算的预定距离。

11、根据权利要求1的声音信号处理装置，其中，所述声源候选者信息产生设备在所述声源候选者的每一个中评价在时间轴方向上的连续性，以及所述声源候选者信息产生设备通过使连续期间最长的声源候选者彼此对应来产生所述对应信息。

12、根据权利要求5的声音信号处理装置，其中，所述声源候选者信息产生设备在所述声源候选者的每一个中评价在由所述图形检测设备检测的图形的时间轴方向上的所述总投票值，和所述声源候选者信息产生设备通过使所述总投票值最大的声源候选者彼此对应来产生所述对应信息。

13、根据权利要求1的声音信号处理装置，其中，所述声源候选者信息产生设备在所述声源候选者的每一个中评价在所述时间轴方向上的连续性，和所述声源候选者信息产生设备通过使连续期间为相同时间的所述声源候选者彼此对应来产生所述对应信息。

14、根据权利要求1的声音信号处理装置，其中，所述声源候选者信息产生设备评价每个声源候选者和其他声源候选者之间的相似性，和所述声源候选者产生设备通过使具有相似的频率分量的所述声源候选者彼此对应来产生所述对应信息。

15、根据权利要求1的声音信号处理装置，其中，所述声源信息产生设备通过计算空间范围来产生所述声源信息，所述空间范围是至少由第一声源候选者信息表示的所述声源的空间存在范围和由第二声源候选者信息表示的所述声源的空间存在范围两者穿过的，由所述第一声源候选者信息表示的所述声源的空间存在范围和由所述第二声源候选者信息表示的所述声源的空间存在范围根据由所述声源候选者信息产生设备产生的所述对应信息相对应，所述声源信息表示所述声源的空间存在范围。

16、根据权利要求1的声音信号处理装置，其中，所述声源信息产生设备通过从预定的表中搜索具有最小误差的空间坐标来产生所述声源信息，所述空间座标同时满足至少第一声源方向和第二声源方向，所述第一声源方向是根据对应于所述第一声源候选者信息的第一图形来估计的，所述第二声源方向是根据对应于所述第二声源候选者信息的第二图形来估计的，所述第一声源方向和所述第二声源方向根据由所述声源候选者信息产生设备产生的所述对应信息相对应，所述声源信息表示所述声源的空间存在范围。

17、根据权利要求1的声音信号处理装置，其中，所述声源信息产生设备通过比较至少第一声源方向和第二声源方向来选择一个配对，该配对从最正面捕获所述源声音，所述第一声源方向是根据对应于所述第一声源候选者信息的第一图形来估计的，所述第二声源方向是根据对应于所述第二声源候选者信息的第二图形来估计的，所述第一声源方向和所述第二声源方向根据由所述声源候选者信息产生设备产生的所述对应信息相对应，并且所述声源信息产生设备根据对应于所选择的配对的所述声音信号或者所述频率分解信息来产生所述声源信息，所述声源信息表示所述语音的振幅信息。

18、根据权利要求1的声音信号处理装置，其中，所述声源信息产生设备通过比较至少第一声源方向和第二声源方向选择一个配对，该配对最大程度地远离其它声源，所述第一声源方向是根据对应于所述第一声源候选者信息的第一图形来估计的，所述第二声源方向是根据对应于所述第二声源候选者信息的第二图形来估计的，所述第一声源方向和所述第二声源方向根据由所述声源候选者信息产生设备产生的所述对应信息相对应，并且所述声源信息产生设备根据对应于所选择的配对的所述声音信号或者所述频率分解信息来产生所述声源信息，所述声源信息表示所述语音的振幅信息。

19、根据权利要求1的声音信号处理装置，还包括：用户接口设备，用于用户确认和改变关于装置操作的设置信息。

20、根据权利要求1的声音信号处理装置，还包括：用户接口设备，用于用户存储和读取关于装置操作的设置信息。

21、根据权利要求1的声音信号处理装置，进一步包括：用户接口设备，用于向用户显示所述二维数据或者所述图形。

22、根据权利要求1的声音信号处理装置，进一步包括：用于向用户显示所述声源信息的设备。

23、一种声音信号处理方法，包括：

输入包括来自声源的语音的n个声音信号，所述n个声音信号是在n个不同的点处被捕获的，其中n是等于或者大于3的自然数；

将所述声音信号的每一个分解为多个频率分量，以获得包括每个频率分量的相位信息的n条频率分解信息；

相对于在所述n条频率分解信息中彼此不同的m对频率分解信息，其中m是等于或者大于2的自然数，计算在每个频率分量中的一对频率分解信息之间的相位差，并且产生m条二维数据，其中频率函数为第一轴，以及所述相位差函数为第二轴；

根据所述二维数据的每一条来检测预定的图形；

根据所述检测的图形的每一个来产生包括以下内容其中至少之一的声源候选者信息：多个声源候选者的数目、每个声源候选者的空间存在范围和来自每个声源候选者的声音信号的频率分量，并且产生表示多条声源候选者信息之间对应关系的对应信息；和

根据所产生的所述声源候选者信息和所述对应信息来产生包括以下内容至少之一的声源信息：声源的数目、声源的空间存在范围、语音的存在期间、语音的频率分量结构、语音的振幅信息和语音的符号内容。