CN101122636B

CN101122636B - 声音到达方向的估测方法以及声音到达方向的估测设备

Info

Publication number: CN101122636B
Application number: CN2007101382380A
Authority: CN
Inventors: 早川昭二
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-08-09
Filing date: 2007-07-31
Publication date: 2010-12-15
Anticipated expiration: 2027-07-31
Also published as: KR20080013734A; JP2008064733A; EP1887831B1; CN101122636A; JP5070873B2; KR100883712B1; US20080040101A1; EP1887831A2; EP1887831A3; US7970609B2

Abstract

本发明提供一种声音到达方向的估测方法以及声音到达方向的估测设备。作为多通道输入接受来自多个方向所在的声源的声音信号，以及将每一通道的信号转换为频率轴上的信号。对于每一相同频率，计算所转换的信号的相位分量，以及计算多通道之间的相位差。计算所转换的信号的振幅分量，以及根据所计算的振幅分量，估测噪音分量。根据振幅分量以及所估测的噪音分量，对于每一频率计算SN比率，以及提取SN比率大于一预定值的频率。根据在所选取频率的相位差，计算到达距离之间的差值，以及计算被估测的目标声源所在的到达方向。

Description

声音到达方向的估测方法以及声音到达方向的估测设备

技术领域

本发明涉及一种声音到达方向的估测方法，该方法能够在即使存在周围噪音的情况下精确估测从声源通过使用多个麦克风输入的声音到达方向。本发明还涉及一种用于执行上述方法的声音到达方向的估测设备。

背景技术

由于近年来计算机技术的进步，使得需要大量操作处理的声音信号处理能够以可实现的处理速度执行。在这种情况下，使用多个麦克风的多通道声音处理功能期望得到实际的应用。用于估测声音信号的到达方向的声音到达方向的估测处理是在该功能中所使用的一个实例。声音到达方向的估测处理是这样一种处理，其用于获得在来自目标声源的声音信号到达多个麦克风中的彼此相距一定间隔安装的两个麦克风时的延迟时间，以及用于根据在与麦克风的到达距离和麦克风之间的安装间隔之间的差值估测来自声源的声音信号的到达方向。

在传统的声音到达方向估测处理中，例如，计算从两个麦克风输入的信号之间的相关系数，以及计算相关系数最大的两个信号之间的延迟。由于通过将所计算的延迟时间与在常温下声音在空气中的传送速度340m/s(该速度根据温度而变化)相乘来获得到达距离之间的差值，所以使用三角学方法根据麦克风的安装间隔来计算声音信号的到达方向。

另外，如日本专利申请特开No.2003-337164中所公开的，其能够计算对于从两个麦克风输入的每一声音信号频率的相位差频谱(phase differencespectrum)，并且在频域中为线形逼近的情况下，根据相位差频谱的倾斜度计算来自声源的声音信号的到达方向。

发明内容

在上述传统的声音到达方向的估测方法中，在存在噪音的情况下，这些噪音使得难以指定相关性最大的时间(延迟)。所以会产生这样一种问题，即难以正确指定来自声源的声音信号的到达方向。另外，即使在日本专利申请特开No.2003-337164中所公开的方法中，在计算相位差频谱过程中，当存在噪音时，相位差频谱会大大改变，而这种改变所带来的问题是不能精确地获得相位差频谱的倾斜度。

考虑到上述情况，本发明的目的是提供一种声音到达方向的估测方法，以及声音到达方向的估测设备，其能够在即使在麦克风周围存在环境噪音的情况下精确估测来自目标声源的声音信号的到达方向。

为实现上述的发明目的，根据本发明的声音到达方向的估测方法的第一方面提供一种对声音信号的声源所在方向的估测方法，所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元，其特征在于，该估测方法包括以下步骤：接受由所述声音信号输入单元输入的多通道输入，并且对于每一通道将每一信号转换为时间轴上的信号；将每一通道的在时间轴上的信号转换为频率轴上的信号；对于每同一频率，计算每一通道所转换的频率轴上的信号的相位分量；利用对于每同一频率所计算的每一通道的信号的相位分量，计算多通道之间的相位差；计算所转换的频率轴上的信号的振幅分量；根据所计算的振幅分量，估测噪音分量；根据所计算的振幅分量和所估测的噪音分量，对于每一频率计算信噪比；提取其信噪比大于预定值的频率；根据对所提取频率计算的相位差，对所计算的多通道之间的相位差与所述频率之间的关系执行线性逼近，根据已对其执行线性逼近的相位差，计算来自目标声源的声音信号的到达距离之间的差值；以及根据所计算的到达距离之间的差值，估测目标声源所在的方向。

另外，根据本发明的声音到达方向估测设备的第一方面提供一种声音到达方向估测设备，用于估测声音信号的声源所在方向，所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元，其特征在于，该设备包括：声音信号接受部，其接受由所述声音信号输入单元输入的多通道声音信号，并且对于每一通道将每一信号转换为时间轴上的信号；信号转换部，其对于每一通道，将由所述声音信号接受部所转换的在时间轴上的信号转换为频率轴上的信号；相位分量计算部，其对于每同一频率，计算每一通道的由所述信号转换部所转换的频率轴上的信号的相位分量；相位差计算部，其利用由所述相位分量计算部对于每同一频率所计算的每一通道信号的相位分量，计算多通道之间的相位差；振幅分量计算部，其计算由所述信号转换部转换的频率轴上的信号的振幅分量；噪音分量估测部，其根据由所述振幅分量计算部计算的振幅分量，估测噪音分量；信噪比计算部，其根据由所述振幅分量计算部计算的振幅分量以及由所述噪音分量估测部所估测的噪音分量，对于每一频率计算信噪比；频率提取部，其提取由所述信噪比计算部所计算的信噪比大于预定值的频率；到达距离差值计算部，其根据由所述相位差计算部对于所述频率提取部所提取频率所计算的相位差，对所计算的多通道之间的相位差与所述频率之间的关系执行线性逼近，根据已对其执行线性逼近的相位差，计算来自目标声源的声音信号的到达距离之间的差值；以及声音到达方向估测部，其根据由所述到达距离差值计算部所计算的到达距离之间的差值，估测目标声源所在的方向。

另外，根据本发明的声音到达方向的估测方法的第二方面提供如在本设备的第一方面中所述，其特征是，在提取频率的步骤中，按所计算的信噪比的从大到小的顺序选择和提取其信噪比大于预定值的预定数目的频率。

另外，根据本发明的声音到达方向估测设备的第二方面提供如在本设备的第一方面中所述，其特征是，所述频率提取部按所计算的信噪比的从大到小的顺序选择和提取由所述信噪比计算部所计算的信噪比大于预定值的预定数目的频率。

另外，根据本发明的声音到达方向的估测方法的第三方面提供一种对声音信号的声源所在方向的估测方法，所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元，其特征在于，该估测方法包括以下步骤：接受由所述声音信号输入单元输入的多通道输入，并且对于每一通道将每一信号转换为时间轴上的取样信号；对于每一通道将时间轴上的每一取样信号转换为频率轴上的信号；对于每同一频率，计算每一通道所转换的频率轴上的信号的相位分量；利用对于每同一频率所计算的在每一通道信号的相位分量，计算多通道之间的相位差；计算在预定取样时间所转换的频率轴上的信号的振幅分量；根据所计算的振幅分量，估测噪音分量；根据所计算的振幅分量和所估测的噪音分量，对于每一频率计算信噪比；根据所计算的信噪比和在过去取样时间的相位差的计算结果，对在当前取样时间的相位差的计算结果进行校正；根据校正之后所计算的相位差，计算来自目标声源的声音信号的到达距离之间的差值；以及根据所计算的到达距离之间的差值，估测目标声源所在的方向。

另外，根据本发明的声音到达方向估测设备的第三方面提供一种声音到达方向估测设备，用于估测声音信号的声源所在方向，所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元，其特征在于，该设备包括：声音信号接受部，其接受由所述声音信号输入单元输入的多通道声音信号，并且对于每一通道将每一信号转换为时间轴上的取样信号；信号转换部，其对于每一通道，将由所述声音信号接受部所转换的时间轴上的每一取样信号转换为频率轴上的信号；相位分量计算部，其对于每同一频率，计算每一通道的由所述信号转换部所转换的频率轴上的信号的相位分量；相位差计算部，其利用由所述相位分量计算部对于每同一频率所计算的每一通道信号的相位分量，计算多通道之间的相位差；振幅分量计算部，其计算由所述信号转换部在预定取样时间转换的频率轴上的信号的振幅分量；噪音分量估测部，其根据由所述振幅分量计算部计算的振幅分量，估测噪音分量；信噪比计算部，其根据由所述振幅分量计算部计算的振幅分量以及由所述噪音分量估测部所估测的噪音分量，对于每一频率计算信噪比；校正部，其根据由所述信噪比计算部所计算的信噪比和在过去取样时间的相位差的计算结果，对在当前取样时间的相位差的计算结果进行校正；到达距离差值计算部，其根据由所述校正部校正之后的相位差，计算来自目标声源的声音信号的到达距离之间的差值；以及声音到达方向估测部，其根据由所述到达距离差值计算部所计算的到达距离之间的差值，估测目标声源所在的方向。

另外，根据本发明的声音到达方向的估测方法的第四方面提供如在本设备的第一、第二或第三方面中所述，其特征是，以下步骤：在所接受的声音信号输入中指定用以表示语音的部分的语音部分，其中，在将信号转换为频率轴上的信号的步骤中，仅将在指定语音部分的步骤中指定的语音部分的信号转换为频率轴上的信号。

另外，根据本发明的声音到达方向的估测设备的第四方面提供如在本设备的第一、第二或第三方面中所述，其特征是，还包括：语音部分指定部，在由所述声音信号接受部所接受的声音信号输入中指定用以表示语音的部分的语音部分，其中所述信号转换部仅将所述语音部分指定部所指定的语音部分的信号转换为频率轴上的信号。

根据本发明的第一方面，作为多通道输入接受来自位于多个方向的声源的声音信号。另外，将每一通道的在时间轴上的信号转换为频率轴上的信号，并且使用频率轴上的在每一通道所转换的信号的相位分量，对于每一频率计算多通道之间的相位差。根据所计算的相位差(下面也被称作相位差频谱)，计算从目标声源的声音输入的到达距离之间的差值；根据所计算的在到达距离之间的差值，估测声源所在的方向。另一方面，计算频率轴上的所转换的信号的振幅分量；根据所计算的振幅分量，估测背景噪音分量。根据所计算的振幅分量和所估测的背景噪音分量，对于每一频率计算信噪比。然后，提取其信噪比大于预定值的频率；根据在每一提取频率的相位差，计算到达距离之间的差值。结果，根据输入声音信号的振幅分量(即所谓的振幅频谱)以及所估测的背景噪音分量(即所谓的背景噪音频谱)，获得对于每一频率的信噪比(SN比率)，并且仅使用其信噪比较高的频率的相位差，从而能够更精确地获取到达距离之间的差值。因此，根据到达距离之间的精确差值，能够更精确地估测声音信号的入射角，即，声源所在的方向。

根据本发明的第二方面，在第一方面中，按信噪比的从大到小的顺序选择和提取其信噪比大于预定值的预定数目的频率。结果，由于通过被噪音分量影响最小的取样频率计算到达距离之间的差值，所以到达距离之间的差值的计算结果不会有很大的变化。因此，能够更精确地估测声音信号的入射角，即目标声源所在的方向。

另外，根据本发明的第三方面，作为多通道输入接受来自在多个方向的声源的声音信号，并且对于每一通道将每一信号转换为时间轴上的取样信号，并且对于每一通道将时间轴上的取样信号转换为频率轴上的信号。使用频率轴上的在每一通道的被转换信号的相位分量，对于每一频率计算多通道之间的相位差。根据所计算的相位差，计算来自目标声源的声音输入的到达距离之间的差值，以及根据到达距离之间的差值，估测目标声源所在的方向。计算频率轴上的在预定取样时间转换的信号的振幅分量，以及根据所计算的振幅分量，估测背景噪音分量。然后，根据所计算的振幅分量和所估测的背景噪音分量，对于每一频率计算信噪比。根据所计算的信噪比和在过去取样时间的相位差的计算结果，对在取样时间的相位差的计算结果进行校正，并根据校正之后的相位差，计算到达距离之间的差值。结果，能够获得在过去取样时间SN比率较大的频率的相位差信息的相位差频谱。因此，相位差不会由于背景噪音的状态、从目标声源发出的声音信号的内容变化等而有很大变化。因此，根据到达距离之间的更加精确和稳定的差值，能够更精确地估测声音信号的入射角，即目标声源所在的方向。

另外，根据本发明的第四方面，在上述任一方面中，在所接受的声音信号输入中用指定以表示语音的部分的语音部分，并且仅将在指定语音部分的步骤中指定的语音部分的信号转换为频率轴上的信号。结果，能够更精确地估测产生声音的声源所在的方向。

结合附图并根据以下详细描述，本发明的上述以及其它的目的和特征将会更加清楚。

附图说明

图1为显示根据本发明实施例1的用以实现声音到达方向估测设备1的通用计算机结构的框图；

图2为显示在根据本发明的实施例1的声音到达方向估测设备的操作处理单元执行处理程序时所实现功能的功能框图；

图3为显示根据本发明实施例1的由声音到达方向估测设备的操作处理单元所执行的处理过程的流程图；

图4A、图4B和图4C为显示在选取其SN比率大于预定值的频率或频带情况下的相位差频谱的校正方法的示意图；

图5为显示用于表示被估测的声源所在方向的角的计算方法的示意图；

图6为显示在根据本发明实施例2的声音到达方向估测设备的操作处理单元执行处理程序时所实现的功能的功能框图；

图7为显示根据本发明实施例2的由声音到达方向估测设备的操作处理单元所执行的处理过程的流程图；

图8A和图8B为显示根据本发明实施例2的由声音到达方向估测设备的操作处理单元所执行的处理过程的流程图；和

图9为显示取决于SN比率的校正系数的实例的示图。

具体实施方式

下面将根据用以示出本发明实施例的附图来详细地描述本发明。本发明所处理的主要是由人发出的声音。

[实施例1]

图1为显示根据本发明实施例1的用以实现声音到达方向估测设备1的通用计算机结构的框图。

用作根据本发明实施例1的声音到达方向估测设备1的通用计算机至少包括：操作处理单元11，如CPU、DSP等；ROM 12；RAM 13；通信接口单元14，能够执行来自和到达外部计算机的数据通信；多个语音输入单元15，用以接受声音输入；和语音输出单元16，用以输出语音。语音输出单元16输出从经由通信网络2执行数据通信的每一通信终端设备3的语音输入单元31输入的语音。从每一通信终端设备3的语音输出单元32输出其噪音被抑制的声音。

操作处理单元11经由内部总线17与声音到达方向估测设备1的上述每一硬件单元相连接。操作处理单元11控制上述硬件单元，并且根据在ROM12中存储的处理程序执行各种软件功能，所述处理程序例如有计算信号在频率轴上的振幅分量的程序、从所计算的振幅分量估测噪音分量程序、根据所计算的振幅分量以及所估测的噪音分量计算每一频率的信噪比(SN比率)的程序、提取其SN比率大于一预定值的频率的程序、根据在所提取频率的相位差(在下文中将被称为相位差频谱)计算到达距离之间差值的程序以及根据到达距离之间的差值估测声源方向的程序。

ROM 12可由闪存等来配置，并且存储上述处理程序以及使得通用计算机用作声音到达方向估测设备1所需的程序引用的数值信息。RAM13可由SRAM等来配置，并且存储程序执行期间所产生的临时数据。通信接口单元14从外部计算机下载上述程序；经由通信网络2将输出信号发送至通信终端设备3；以及接收所输入的声音信号。

特别地，语音输入单元15可由分别用以接收声音输入的多个麦克风来配置，并用以指定声源方向、放大器、A/D转换器等。语音输出单元16是输出设备，如扬声器。为了便于解释，语音输入单元15以及语音输出单元16被安装在如图1所示的声音到达方向估测设备1中。然而，实际上，声音到达方向估测设备1被配置成经由接口使语音输入单元15以及语音输出单元16连接到通用计算机上。

图2为显示在根据本发明的实施例1的声音到达方向估测设备1的操作处理单元11执行上述处理程序时所实现功能的功能框图。在图2所示的实例中，说明基于这样的假设：两个语音输入单元15和15中的每一个都是麦克风。

如图2所示，根据本发明实施例1的声音到达方向估测设备1至少包括：语音接受单元(声音信号接收部)201、信号转换单元(信号转换部)202、相位差频谱计算单元(相位差计算部)203、振幅频谱计算单元(振幅分量计算部)204、背景噪音估测单元(噪音分量估测部)205、SN比率计算单元(信噪比计算部)206、相位差频谱选取单元(频率提取部)207、到达距离差值计算单元(到达距离差值计算部)208和声音到达方向计算单元(声音到达方向计算部)209，这些单元是在执行处理程序时所实现的功能块。

语音接受单元201从两个麦克风接收由作为声源的人所发出的声音作为声音输入。在实施例1中，经由都是麦克风的语音输入单元15和15接收输入1和输入2。

对于输入的声音，信号转换单元202将时间轴上的信号转换为频率轴上的信号，即复合频谱IN1(f)和IN2(f)。这里f代表一频率(弧度)。在信号转换单元202中，执行一种时频转换处理，如傅立叶变换。在实施例1中，通过如傅立叶变换的时频转换处理，将输入的声音转换为频谱IN1(f)和IN2(f)。

相位差频谱计算单元203根据频率转换频谱IN1(f)和IN2(f)计算相位频谱，以及对于每一频率计算在已经过计算的相位频谱之间差值的相位差频谱DIFF_PHASE(f)。注意，相位差频谱DIFF_PHASE(f)并不是通过获取频谱IN1(f)和IN2(f)的每一相位频谱获得，而通过获取IN1(f)/IN2(f)的相位分量获得。振幅频谱计算单元204计算其中一个振幅频谱，例如，计算频谱|IN1(f)|，其为图2所示实例中输入1的输入信号频谱IN1(f)的频率分量。对于计算哪一个振幅频谱没有特别的限制。可以计算振幅频谱IN1(f)和IN2(f)，并且选取较大的一个。

实施例1描述了这样一种处理方式，即对于傅立叶变换的频谱中的每一频率计算振幅频谱|IN1(f)|。此外，实施例1还描述了这样一种处理方式，即执行频带划分，以及在根据特定中心频率和间隔划分的已划分频带内获取振幅频谱|IN1(f)|的代表值。在这种情况下，代表值可以是已划分频带内振幅频谱|IN1(f)|的平均值或者可以是其最大值。在所述频带划分之后，振幅频谱的代表值变成|IN1(n)|。其中n表示已划分频带的索引号。

SN比率计算单元206通过计算在振幅频谱计算单元204内所计算的振幅频谱|IN1(f)|和在背景噪音估测单元205内估测的背景噪音频谱|NOISE1(f)|之间的比率来计算SN比率SNR(f)。通过以下表达式(1)计算SN比率SNR(f)。在对振幅频谱进行频带划分的情况下，应对于每一已划分频带计算SNR(n)。其中n表示已划分频带的索引号。

SNR(f)＝20.0×log₁₀(|IN1(f)|/|NOISE1(f)|)...(1)

相位差频谱选取单元207提取在SN比率计算单元206中计算的其SN比率大于一预定值的频率或频带，以及选取与所提取频率相对应的相位差频谱或在所提取频带内的相位差频谱。

到达距离差值计算单元208获得用通过原点的直线来线性逼近所选取的相位差频谱和频率f之间的关系的函数。根据这个函数，到达距离差值计算单元208计算从声源到语音输入单元15和15距离之间的差值，即，声音分别到达语音输入单元15和15所沿路径的距离之间的差值D。

声音到达方向估测单元209利用由到达距离差值计算单元208所计算的差值D和语音输入单元15和15的安装间隔L计算声音输入的入射角θ，即，角θ表示被估测的作为声源的人所在的方向。

下面将描述根据本发明实施例1的由声音到达方向估测设备1的操作处理单元11所执行的处理过程。图3为显示根据本发明实施例1的由声音到达方向估测设备1的操作处理单元11所执行的处理过程的流程图。

首先，在步骤S301，声音到达方向估测设备1的操作处理单元11从语音输入单元15和15接收声音信号(模拟信号)。在步骤S302，在所接收的声音信号经过A/D转换后，操作处理单元11以一预定时间为单位对所接收的声音信号执行成帧(framing)处理。根据所取样的频率、应用的类型等确定成帧单位。此时，为了获取稳定的频谱，对已成帧的取样信号添加时间窗口，例如海明(hamming)窗、汉宁(hanning)窗等。例如，以20至40ms为单位执行成帧处理，同时在每10至20ms就会出现重叠，对于每一帧执行以下处理。

在步骤S303，操作处理单元11以帧为单位将时间轴上的信号转换为频率轴上的信号，即，频谱IN1(f)和IN2(f)。其中f代表频率(弧度)。操作处理单元11执行时频转换处理，如傅立叶变换。在实施例1中，操作处理单元11通过执行如傅立叶变换的时频转换处理以帧为单位将时间轴上的信号转换为频谱IN1(f)和IN2(f)。

接着，在步骤S304，操作处理单元11对于每一频率利用频率转换频谱IN1(f)和IN2(f)的实部和虚部计算相位频谱，以及计算作为已计算的相位频谱之间的相位差的相位差频谱DIFF_PHASE(f)。

另一方面，在步骤S305，操作处理单元11计算作为输入1的输入信号频谱IN1(f)的振幅分量的振幅频谱|IN1(f)|的值。

然而，所述计算并不需要限定为对输入1的输入信号频谱IN1(f)的振幅频谱的计算。作为另一种方法，例如，可以对输入2的输入信号频谱IN2(f)的振幅频谱进行计算，或者也可以计算输入1和输入2的两个振幅频谱的平均值或其中的最大值作为振幅频谱的代表值。此处，采用这样一种处理方式，即对傅立叶变化的频谱内的每一频率计算振幅频谱|IN1(f)|。然而，也可以采用这样一种处理方式，即执行频带划分，以及在根据特定中心频率和间隔划分的已划分频带内获取振幅频谱|IN1(f)|的代表值。所述代表值可以是已划分频带内振幅频谱|IN1(f)|的平均值或者可以是其最大值。另外，所述处理方式并不限定为计算振幅频谱的方式，也可以采用计算功率频谱的方式。在这种情况下，根据以下的表达式(2)计算SN比率SNR(f)。

SNR(f)＝10.0×log₁₀(|IN1(f)|²/|NOISE1(f)|²)...(2)

在步骤S306，操作处理单元11根据所计算的振幅频谱|IN1(f)|估测噪音部分，以及根据所估测的噪音部分的振幅频谱|IN1(f)|估测背景噪音频谱|NOISE1(f)|。

在步骤S307，操作处理单元11根据表达式(1)(或在功率频谱情况下根据表达式(2))对于每一频率或频带计算SN比率SNR(f)。然后，在步骤S308，操作处理单元11选取所计算的SN比率大于一预定值的频率或频带。根据确定预定值的方法可以改变待被选取的频率或频带。例如，可以通过以下的方式选取具有最大SN比率值的频率或频带，所述方式包括：对相邻频率或频带之间的SN比率进行比较，并通过连续选取具有较大SN比率的频率或频带，同时按序地将其存储在RAM 13中并进行选取。也可以按SN比率的从大到小的顺序选取N(N表示自然数)段频率或频带。

在步骤S309，根据与一个或多个选取的频率或频带相应的相位差频谱DIFF_PHASE(f)，操作处理单元11线性逼近相位差频谱DIFF_PHASE(f)和频率f之间的关系。结果，可以利用这样一种情况，即对于SN比率较高的频率或频带，相位差频谱DIFF_PHASE(f)可靠性较高。因此，在相位差频谱DIFF_PHASE(f)和频率f之间可以按比例关系提高估测精确度。

图4A、图4B和图4C为显示在选取其SN比率大于预定值的频率或频带情况下的相位差频谱的校正方法的示意图。

图4A显示与频率或频带对应的相位差频谱DIFF_PHASE(f)。因为背景噪音通常是叠加的，所以难以发现恒定的关系。

图4B显示在频率或频带中的SN比率SNR(f)。更具体地，所述图4B中由双圆圈标识的部分表示其SN比率大于预定值的频率或频带。因此，如图4B所示，当选取其SN比率大于预定值的频率或频带时，与所选取的频率或频带对应的相位差频谱DIFF_PHASE(f)变为由图4A中的双圆圈所标识的部分。通过线性逼近如图4A所选取的相位差频谱DIFF_PHASE(f)，可以发现在相位差频谱DIFF_PHASE(f)和频率f之间存在如图4C所示的比例关系。

然后，在步骤S310，操作处理单元11利用在奈奎斯特频率F(Nyquistfrequency)的线性逼近的相位差频谱DIFF_PHASE(π)，即，图4C中的R以及声音c的速度，根据以下的表达式(3)计算从声源输入的声音到达距离之间的差值D。奈奎斯特频率是取样频率的一半，并且在图4A，图4B以及图4C中为π。更具体地，在取样频率为8kHz的情况下，奈奎斯特频率为4kHz。

另外，在图4C中，显示通过原点的被所选取的相位差频谱DIFF_PHASE(f)逼近的逼近直线。然而，当作为语音输入单元15和15的每个麦克风的特点彼此不同时，在整个范围内延伸的相位差频谱中存在偏差。在这样的情况下，通过对与逼近直线的频率0相应的数值(即，逼近直线的截距值)相关的奈奎斯特频率的相位差值R进行校正，可获得逼近直线。

D＝(R×c)/(F×2π)...(3)

在步骤S311，操作处理单元11利用在到达距离之间的已计算差值D计算声音输入的入射角θ，即，角θ表示已估测出声源所在的方向。图5为显示用于表示被估测的声源所在方向的角θ的计算方法的示意图。

如图5所示，两个语音输入单元15和15是以间隔L彼此分开安装的。在这种情况下，在差值D(表示从声源输入的声音到达距离之间的差值)与间隔L(表示两个语音输入单元15和15之间的间隔)之间建立关系“sinθ＝(D/L)”。因此，根据以下的表达式(4)可以获得用以表示被估测的声源所在的方向的角θ。

θ＝sin^-1(D/L)...(4)

在这种情况下，按SN比率的从大到小的顺序选取N段频率或频带，如上所述，利用最高的N个相位差频谱执行线性逼近。例如，作为另一种方法，可以通过不利用在奈奎斯特频率F(Nyquist frequency)的线性逼近的相位差频谱DIFF_PHASE(F)的R值，而是利用在所选取的频率f的相位差频谱r(＝DIFF_PHASE(f))，用其中的f和r分别替代公式(3)中的F和R，并且对于每一所选取的频率计算到达距离之间的差值D，然后通过利用所计算差值D的平均值计算用以表示被估测的声源所在方向的角θ。当然，上述计算方法并不限定为这一种方法。例如，也可以通过根据SN比率加权计算到达距离之间的差值D的代表值来计算用以表示被估测的声源所在方向的角θ。

另外，在估测发出声音的人所在方向的情况下，也可以通过以下方式来计算用以表示被估测的声源所在方向的角θ，该方式为：判断声音输入是否为用以表示由人发出的声音的语音部分，以及仅当判断为语音部分时执行上述处理。

另外，即使判断出SN比率大于预定值，那么在考虑到应用的使用状态、使用条件等得知相位差是不期望的相位差的情况下，优选地应从待选取的频率或频带中去除与所述不期望的相位差相应的频率或频带。例如，将根据实施例1的声音到达方向估测设备1应用到一装置中，如移动电话，假设从前方产生声音，在估测出用以表示被计算的声音所在方向的角θ为θ＜-90°或90°＜θ的情况下，其中假设前方角度为0°，则可以判断出这是一种不期望的状态。

另外，即使判断出SN比率大于预定值，考虑到应用的使用状态、使用条件等，优选地从待选取的频率或频带中去除不希望用以估测目标声源的频率或频带。例如，在由人发出目标声源的情况下，不存在频率为100Hz或更低的声音信号。因此，可以从待选取的频率中去除100Hz或更低的频率。

如上所述，在根据实施例1的声音到达方向估测设备1内，根据所输入的声音信号的振幅分量(即，所谓的振幅频谱)和所估测的背景噪音频谱获得每一频率或频带的SN比率，以及使用SN比率较大的频率的相位差(相位差频谱)，从而可以更精确地获取到达距离之间的差值D。因此，根据到达距离之间的精确差值D，可以精确计算声音信号的入射角，即用以表示被估测的目标声源(实施例1中的人)所在方向的角θ。

[实施例2]

下面参考附图将详细地描述根据本发明实施例2的声音到达方向估测设备1。因为用作根据本发明实施例2的声音到达方向估测设备的通用计算机的结构与本发明实施例1类似，所以可参照图1的框图来理解这种结构，因此这里不详细对其进行描述。实施例2与实施例1不同之处在于以帧为单位存储相位差频谱的计算结果，以及根据在最后时刻存储的相位差频谱和在待计算的帧内的SN比率在任一时刻校正在待计算的同一帧内的相位差频谱。

图6为显示在根据本发明实施例2的声音到达方向估测设备1的操作处理单元11执行处理程序时所实现的功能的功能框图。在图6所示的实例中，如实施例1的情况，假设每一语音输入单元15和15都是麦克风。

如图6所示，根据本发明实施例2的声音到达方向估测设备1至少包括：语音接受单元(声音信号接收部)201、信号转换单元(信号转换部)202、相位差频谱计算单元(相位差计算部)203、振幅频谱计算单元(振幅分量计算部)204、背景噪音估测单元(噪音分量估测部)205、SN比率计算单元(信噪比计算部)206、相位差频谱校正单元(校正部)210、到达距离差值计算单元(到达距离差值计算部)208和声音到达方向计算单元(声音到达方向计算部)209，这些单元是在执行处理程序时所实现的功能块。

语音接受单元201从两个麦克风接收由作为声源的人所发出的声音。在实施例2中，经由都是麦克风的语音输入单元15和15接收输入1和输入2。

在由语音输入单元15和15接收的输入信号经过A/D转换后，以一预定时间为单位对获得的取样信号执行成帧处理。此时，为了获取稳定的频谱，对已成帧的取样信号添加时间窗口，例如海明(hamming)窗、汉宁(hanning)窗等。根据所取样的频率、应用的类型等确定成帧单位。例如，以20至40ms为单位执行成帧处理，同时在每10至20ms就会出现重叠，对于每一帧执行以下处理。

相位差频谱计算单元203根据频率转换频谱IN1(f)和IN2(f)以帧为单位计算相位频谱，以及以帧为单位计算在已经过计算的相位频谱之间相位差值的相位差频谱DIFF_PHASE(f)。这里，振幅频谱计算单元204计算其中一个振幅频谱，例如，计算频谱|IN1(f)|，其为图6所示实例中输入1的输入信号频谱IN1(f)的频率分量。对于计算哪一个振幅频谱没有特别的限制。可以计算振幅频谱IN1(f)和IN2(f)，并且选取两者的平均值或选取较大的一个。

SN比率计算单元206通过计算在振幅频谱计算单元204内所计算的振幅频谱|IN1(f)|和在背景噪音估测单元205内所估测的背景噪音频谱|NOISE1(f)|之间的比率来计算SN比率SNR(f)。

根据在SN比率计算单元206中所计算的SN比率以及在经过相位差频谱校正单元210校正之后在刚过去的取样时间内计算的并存储在RAM 13中的相位差频谱DIFF_PHASE_t-1(f)，相位差频谱校正单元210对于在当前取样时间(即，下一取样时间)计算的相位差频谱DIFF_PHASE_t(f)进行校正。在当前取样时间，以相同的方式计算SN比率和相位差频谱DIFF_PHASE_t(f)，直至最后时刻，并且利用依据SN比率所设置的校正系数α(0≤α≤1)根据以下表达式(5)计算在当前取样时间的帧的相位差频谱DIFF_PHASE_t(f)。

随后将描述校正系数α。例如，与每一个程序一起，在RAM12中存储校正系数α作为与SN比率对应的数值信息，并由处理程序所引用。

DIFF_PHASE_t(f)＝α×DIFF_PHASE_t(f)

+(1-α)×DIFF_PHASE_t-1(f)....(5)

到达距离差值计算单元208获得用通过原点的直线线性逼近所选取的相位差频谱和频率f之间的关系的函数。根据这个函数，到达距离差值计算单元208计算从声源到语音输入单元15和15距离之间的差值，即，声音分别到达语音输入单元15和15所沿路径的距离之间的差值D。

下面将描述根据本发明实施例2的声音到达方向估测设备1的操作处理单元11所执行的程序。图7和图8为显示根据本发明实施例2的由声音到达方向估测设备1的操作处理单元11所执行的处理过程的流程图。

首先，在步骤S701，声音到达方向估测设备1的操作处理单元11从语音输入单元15和15接收的声音信号(模拟信号)。在步骤S702，在所接收的信号经过A/D转换后，操作处理单元11以一预定时间为单位对所接收的声音信号执行成帧处理。根据所取样的频率、应用的类型等确定成帧单位。此时，为了获取稳定的频谱，对已成帧的取样信号添加时间窗口，例如海明(hamming)窗、汉宁(hanning)窗等。例如，以20至40ms为单位执行成帧处理，同时在每10至20ms就会出现重叠，对于每一帧执行以下处理。

在步骤S703，操作处理单元11以帧为单位将时间轴上的信号转换为频率轴上的信号，即，频谱IN1(f)和IN2(f)。其中f代表具有恒定取样宽度的频率(弧度)或频带。操作处理单元11执行时频转换处理，如傅立叶变换。在实施例2中，操作处理单元11通过执行如傅立叶变换的时频转换处理以帧为单位将时间轴上的信号转换为频谱IN1(f)和IN2(f)。

接着，在步骤S704，操作处理单元11对于每一频率或频带利用频率转换频谱IN1(f)和IN2(f)的实部和虚部计算相位频谱，以及计算作为已计算的相位频谱之间的相位差的相位差频谱DIFF_PHASEt(f)。

另一方面，在步骤S705，操作处理单元11计算作为输入1的输入信号频谱IN1(f)的振幅分量的振幅频谱|IN1(f)|的值。

然而，所述计算并不需要限定为对输入1的输入信号频谱IN1(f)的振幅频谱的计算。作为另一种方法，例如，可以对输入2的输入信号频谱IN2(f)的振幅频谱进行计算，或者也可以计算输入1和输入2的两个振幅频谱的平均值或其中的最大值作为振幅频谱的代表值。另外，所述处理方式并不限定为计算振幅频谱的方式，也可以采用计算功率频谱的方式。

在步骤S706，操作处理单元11根据所计算的振幅频谱|IN1(f)|估测噪音部分，以及根据所估测的噪音部分的振幅频谱|IN1(f)|估测背景噪音频谱|NOISE1(f)|。

在步骤S707，操作处理单元11根据上述表达式(1)对于每一频率或频带计算SN比率SNR(f)。然后，在步骤S708，操作处理单元11判断在刚过去的取样时间的相位差频谱DIFF_PHASE_t-1(f)是否存储于RAM 13中。

在操作处理单元11判断出在刚过去的取样时间的相位差频谱DIFF_PHASE_t-1(f)被存储的情况下(即，在步骤S708中为是)，那么在步骤S710，操作处理单元11从ROM 12读取与在已计算的取样时间(当前取样时间)内的SN比率对应的校正系数α。另外，可以通过利用在程序中预先建立的用以表示SN比率和校正系数α之间关系的函数计算来获得校正系数α。

图9为显示取决于SN比率的校正系数α的实例的示图。在图9所示的实例中，当SN比率为0(零)时，将校正系数α设置为0(零)。当所计算的SN比率为0(零)时，如从上述表达式(5)中可以理解，这表示：由于不使用所计算的相位差频谱DIFF_PHASE_t(f)，所以通过将过去时刻的相位差频谱DIFF_PHASE_t-1(f)用作当前时刻的相位差频谱来执行随后的处理。当SN比率变大时，设置校正系数α，从而使其单调性增加。在SN比率处于20bB或更大的范围内，校正系数α被固定为小于1的最大值αmax。校正系数α的最大值αmax被设置为小于1的值的原因是当不期望地发生具有较高SN比率的噪音时，防止相位差频谱值DIFF_PHASEt(f)被100％地替换为其噪音的相位差频谱。

在步骤S711，操作处理单元11利用已从ROM 12读取的与SN比率对应的校正系数α，根据上述表达式(5)校正相位差频谱DIFF_PHASE_t(f)。之后，在步骤S712，操作处理单元11将存储在RAM 13中被校正的相位差频谱DIFF_PHASE_t-1(f)更新为在当前取样时间的被校正的相位差频谱DIFF_PHASE_t(f)，并且将其存储。

在操作处理单元11判断出在刚过去的取样时间的相位差频谱DIFF_PHASE_t-1(f)没有被存储的情况下(即，在步骤S708中为否)，那么在步骤S717，操作处理单元11判断是否使用了在当前取样时间的相位差频谱DIFF_PHASE_t(f)。作为是否使用在当前取样时间的相位差频谱DIFF_PHASE_t(f)的判断标准，可使用是否从目标声源发出声音信号的标准(人是否发出声音)，例如在整个频带内的SN比率、声音/噪音的判断结果等。

在操作处理单元11判断出没有使用在当前取样时间的相位差频谱DIFF_PHASE_t(f)情况下，即判断出从声源产生声音信号存在较低的可能性(即，在步骤S717中为否)，那么在步骤S718，操作处理单元11将相位差频谱的预定初始值设定为在当前取样时间的相位差频谱。在这种情况下，例如，对于所有的频率将相位差频谱的初始值设置为0(零)。然而，在步骤S718的设置并不限定为这个值(即零)。

接下来，在步骤S719，操作处理单元11在RAM 13中存储相位差频谱的初始值作为在当前取样时间的相位差频谱，并且继续进行步骤S713的处理。

在操作处理单元11判断出使用了在当前取样时间的相位差频谱DIFF_PHASE_t(f)的情况下，即判断出从声源产生声音信号存在较高的可能性(即，在步骤S717中为是)，那么在步骤S720，操作处理单元11在RAM13中存储在当前取样时间的相位差频谱，并且继续进行步骤S713的处理。

在步骤S713，根据在S712，S719以及S720中任一步骤存储的所选取的相位差频谱DIFF_PHASE_t(f)，操作处理单元11用通过原点的直线线性逼近所述相位差频谱DIFF_PHASE(f)和频率f之间的关系。结果，当执行根据所校正的相位差频谱的线性逼近时，可使用不是在当前取样时间的而是在过去取样时间的用以反应在SN比率较高(即，高可靠性)的频率或频带的相位差信息的相位差频谱DIFF_PHASE(f)。因此，能够提高相位差频谱DIFF_PHASE(f)和频率f之间的比例关系的估测精确度。

在步骤S714，操作处理单元11根据上述的表达式(3)利用在奈奎斯特频率F的被线性逼近的相位差频谱DIFF_PHASE(F)的值计算来自声源的声音信号到达距离之间的差值D。注意，也可以通过在不使用在奈奎斯特频率F(Nyquist frequency)的线性逼近的相位差频谱DIFF_PHASE(F)的情况下，通过用f和r分别代替表达式(3)中的F和R计算到达距离之间差值D，即使使用在任意频率f的相位差频谱值r(＝DIFF_PHASE(f))。然后，在步骤S715，操作处理单元11利用在到达距离之间的已计算的差值D来计算用以表示被估测的声源(人)所在方向的角θ。

另外，即使判断出SN比率大于预定值，那么在考虑到应用的使用状态、使用条件等得知相位差是不期望的相位差的情况下，优选地应从与在待校正的当前取样时间在相位差频谱相应的频率或频带中去除与所述不期望的相位差相应的频率或频带。例如，将根据实施例1的声音到达方向估测设备1应用到一装置中，如移动电话，假设从前方产生声音，在估测出用以表示被计算的声音所在方向的角θ为θ＜-90°或90°＜θ的情况下，其中假设前方角度为0°，则可以判断出这是一种不期望的状态。在这种情况下，不使用在当前取样时间的相位差频谱，但是使用在最后时间或更早时间所计算的相位差频谱。

如上所述，在根据实施例2的声音到达方向估测设备1中，在计算在SN比率较高的频率或频带的相位差频谱的情况下，在执行校正的同时，对取样时间(当前取样时间)的相位差频谱进行加权计算，使其大于在刚过去的取样时间计算的相位差频谱；在SN比率较低的情况下，在执行校正的同时，对在刚过去的取样时间的相位差频谱加权计算。因此，可连续校正新计算的相位差频谱。在过去取样时间的SN比率较高的频率的相位差信息也反映在被校正的相位差频谱中。因此，在背景噪音状态的影响、从目标声源发出的声音信号的内容改变等的情况下，相位差频谱都不会有很大变化。因此，根据到达距离之间的更精确以及更稳定的距离D，能够精确计算声音信号的入射角，即，用以表示被估测的目标声源所在方向的角θ。计算用以表示被估测的目标声源所在方向的角θ的方法并不限定为上述使用到达距离之间的差值D的方法，但是在这些方法可以以类似精度实现估测的情况下，没有必要一一列举。

如上详细描述，根据本发明的第一方面，根据所输入信号的振幅分量(即所谓的振幅频谱)和所估测的背景噪音频谱获得每一频率的信噪比(SN比率)，以及仅使用信噪比较大时的频率的相位差(相位差频谱)，从而能够更精确地获得到达距离之间的差值。因此，根据到达距离之间的精确的差值，可以精确地估测声音信号的入射角，即被估测的声源所在方向。

另外，根据本发明的第二方面，由于通过优先选择被噪音分量影响最小的频率来计算到达距离之间的差值，所以到达距离之间的差值的计算结果不会有很大变化。因此，可以更精确地估测声音信号的入射角，即目标声源所在的方向。

另外，根据本发明的第三方面，在计算相位差(相位差频谱)以获得到达距离之间的差值的情况下，根据在过去取样时间所计算的相位差，可连续校正新计算的相位差。由于在过去取样时间SN比率较高的频率的相位差信息反映在被校正的相位差频谱中，所以相位差不会由于背景噪音的状态、从目标声源发出的声音信号的内容改变等而有很大变化。因此，根据到达距离之间的更加精确和稳定的差值，可以精确地估测声音信号的入射角，即目标声源所在的方向。

另外，根据本发明的第四个方面，可以精确地估测产生声音的声源(例如人)所在的方向。

由于本发明的范围是由所附权利要求限定的，而并非之前的说明书来限定，所以在不脱离本发明实质特征的精神的情况下，本发明可以以多种方式实施，因此本发明实施例是示例性的，而并非限制性的，因此落于权利要求书的边界和范围内的所有改变或这种边界和范围的等同物均包含在本发明的权利要求中。

Claims

1.一种对声音信号的声源所在方向的估测方法，所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元，其特征在于，该估测方法包括以下步骤：

接受由所述声音信号输入单元输入的多通道输入，并且对于每一通道将每一信号转换为时间轴上的信号；

将每一通道的在时间轴上的信号转换为频率轴上的信号；

对于每同一频率，计算每一通道所转换的频率轴上的信号的相位分量；

利用对于每同一频率所计算的每一通道的信号的相位分量，计算多通道之间的相位差；

计算所转换的频率轴上的信号的振幅分量；

根据所计算的振幅分量，估测噪音分量；

根据所计算的振幅分量和所估测的噪音分量，对于每一频率计算信噪比；

提取其信噪比大于预定值的频率；

根据对所提取频率计算的相位差，对所计算的多通道之间的相位差与所述频率之间的关系执行线性逼近，根据已对其执行线性逼近的相位差，计算来自目标声源的声音信号的到达距离之间的差值；以及

根据所计算的到达距离之间的差值，估测目标声源所在的方向。

2.根据权利要求1所述的估测方法，其特征在于，在提取频率的步骤中，按所计算的信噪比的从大到小的顺序选择和提取其信噪比大于预定值的预定数目的频率。

3.一种对声音信号的声源所在方向的估测方法，所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元，其特征在于，该估测方法包括以下步骤：

接受由所述声音信号输入单元输入的多通道输入，并且对于每一通道将每一信号转换为时间轴上的取样信号；

对于每一通道将时间轴上的每一取样信号转换为频率轴上的信号；

利用对于每同一频率所计算的在每一通道信号的相位分量，计算多通道之间的相位差；

计算在预定取样时间所转换的频率轴上的信号的振幅分量；

根据所计算的振幅分量，估测噪音分量；

根据所计算的信噪比和在过去取样时间的相位差的计算结果，对在当前取样时间的相位差的计算结果进行校正；

根据校正之后所计算的相位差，计算来自目标声源的声音信号的到达距离之间的差值；以及

4.根据权利要求1、2或3所述的估测方法，还包括以下步骤：在所接受的声音信号输入中指定用以表示语音的部分的语音部分，

其中，在将信号转换为频率轴上的信号的步骤中，仅将在指定语音部分的步骤中指定的语音部分的信号转换为频率轴上的信号。

5.一种声音到达方向估测设备，用于估测声音信号的声源所在方向，所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元，其特征在于，该设备包括：

声音信号接受部，其接受由所述声音信号输入单元输入的多通道声音信号，并且对于每一通道将每一信号转换为时间轴上的信号；

信号转换部，其对于每一通道，将由所述声音信号接受部转换的在时间轴上的信号转换为频率轴上的信号；

相位分量计算部，其对于每同一频率，计算每一通道的由所述信号转换部所转换的频率轴上的信号的相位分量；

相位差计算部，其利用由所述相位分量计算部对于每同一频率所计算的每一通道信号的相位分量，计算多通道之间的相位差；

振幅分量计算部，其计算由所述信号转换部转换的频率轴上的信号的振幅分量；

噪音分量估测部，其根据由所述振幅分量计算部计算的振幅分量，估测噪音分量；

信噪比计算部，其根据由所述振幅分量计算部计算的振幅分量以及由所述噪音分量估测部所估测的噪音分量，对于每一频率计算信噪比；

频率提取部，其提取由所述信噪比计算部所计算的信噪比大于预定值的频率；

到达距离差值计算部，其根据由所述相位差计算部对于所述频率提取部所提取频率所计算的相位差，对所计算的多通道之间的相位差与所述频率之间的关系执行线性逼近，根据已对其执行线性逼近的相位差，计算来自目标声源的声音信号的到达距离之间的差值；以及

声音到达方向估测部，其根据由所述到达距离差值计算部所计算的到达距离之间的差值，估测目标声源所在的方向。

6.根据权利要求5所述的声音到达方向估测设备，其特征在于，所述频率提取部按所计算的信噪比的从大到小的顺序选择和提取由所述信噪比计算部所计算的信噪比大于预定值的预定数目的频率。

7.一种声音到达方向估测设备，用于估测声音信号的声源所在方向，所述声音信号作为多通道输入从位于多个方向的声源被输入到用于输入声音信号的声音信号输入单元，其特征在于，该设备包括：

声音信号接受部，其接受由所述声音信号输入单元输入的多通道声音信号，并且对于每一通道将每一信号转换为时间轴上的取样信号；

信号转换部，其对于每一通道，将由所述声音信号接受部所转换的时间轴上的每一取样信号转换为频率轴上的信号；

振幅分量计算部，其计算由所述信号转换部在预定取样时间转换的频率轴上的信号的振幅分量；

校正部，其根据由所述信噪比计算部所计算的信噪比和在过去取样时间的相位差的计算结果，对在当前取样时间的相位差的计算结果进行校正；

到达距离差值计算部，其根据由所述校正部校正之后的相位差，计算来自目标声源的声音信号的到达距离之间的差值；以及

8.根据权利要求5，6或7所述的声音到达方向估测设备，还包括：语音部分指定部，在由所述声音信号接受部所接受的声音信号输入中指定用以表示语音的部分的语音部分，

其中所述信号转换部仅将所述语音部分指定部所指定的语音部分的信号转换为频率轴上的信号。