CN101378607A

CN101378607A - 校正相差的声音处理装置和方法

Info

Publication number: CN101378607A
Application number: CNA200810212648XA
Authority: CN
Inventors: 早川昭二
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-08-27
Filing date: 2008-08-27
Publication date: 2009-03-04
Anticipated expiration: 2028-08-27
Also published as: JP2009055343A; EP2031901A1; EP2031901B1; KR101008893B1; US20090060224A1; CN101378607B; JP5070993B2; KR20090023129A; US8654992B2

Abstract

本发明公开一种校正相差的声音处理装置和方法，该声音处理装置处理接收的声音。包括在该装置中的多个声音接收单元，分别输出对应于接收的信号的声音信号，然后将时域中的声音信号转换为频域中的分别的转换后信号，以及计算两个转换后信号之间的频谱比，以导出用以校正声音信号的相位的相位校正值。因此，本发明的声音处理装置和方法能够校正包含在该装置中的多个麦克风的灵敏度变化，以及能够校正随产品寿命而产生的磨损所引起的特征改变。

Description

校正相差的声音处理装置和方法

技术领域

本发明涉及一种将多个声音接收单元接收的声音转换为处理过的声音信号的声音处理装置。更进一步，本发明涉及一种校正所述声音信号之间的相差的声音处理装置、方法以及存储计算机程序的计算机可读存储介质。

背景技术

已经对使用多个麦克风的、用于例如识别声音来源方向的各种声音处理装置进行了研究并投入实际使用。下面将描述这些装置中的一种。图11是示出声音处理装置外形的透视图。在图11中，内置有声音处理装置1000的手机外壳的形状是长方体，使用手机的声音处理装置1000具有外壳(casing)1001。用于接收讲话者发出的语音的第一麦克风1002安置在外壳1001的前面。此外，第二麦克风1003安置在外壳1001的底部。

从各个方向接收声音并且对与第一麦克风1002和第二麦克风1003接收的声音之间的时差对应的相差进行处理，声音处理装置1000基于相差识别声音传来的方向。然后，声音处理装置1000通过执行处理而实现期望的方向性特征，所述处理例如是根据声音传来的方向来抑制由第一麦克风1002接收的声音。

如图11所示的声音处理装置1000要求麦克风具有相同的特征，例如，相同的灵敏度。图12是示出声音处理装置1000的方向性测量结果的雷达图。图12的雷达图示出，在声音处理装置1000的第一麦克风1002接收到的声音在声音传来的每个方向被抑制之后的声音的信号功率(dB)。这里，图12中使用了指示方向的方位角(azimuth)，也即，当声音从在声音处理装置1000中设置的第一麦克风1002所在的外壳1001的前面传来时，方位角定义为0°。当声音来自右面时，方位角定义为90°，当声音来自后面时，方位角定义为180°，以及当声音来自左面时，方位角定义为270°。在图12中每个方向以环绕雷达图的“度数(degree)”来显示，其中实线指示在第一麦克风1002的灵敏度和第二麦克风1003的灵敏度相同时每个方向中信号功率的状态1；虚线指示在第一麦克风1002的灵敏度高于第二麦克风1003的灵敏度时信号功率的状态2；交替的长短点划线指示在第二麦克风1003的灵敏度高于第一麦克风1002的灵敏度时信号功率的状态3。当期望的是第一麦克风1002的灵敏度和第二麦克风1003的灵敏度相同情况下的状态1的方向性时，在状态2和状态3的90°、270°和180°方向上的方向性彼此有很大不同。也即，根据麦克风的灵敏度，方向性变化的尺度很大。

麦克风之间个体的差别影响着声音处理装置的特征，如图12所示。但是，通常生产的麦克风在预定规格内会具有个体的不同，例如灵敏度差别。为了调整麦克风以使它们的特征相同，提出了解决该问题的方法，例如，日本公开专利申请No.2002-99297和2004-343700，其中使用在与多个麦克风相同距离的位置处产生的训练(teacher)信号。

发明内容

但是，所提出的方法应该应用到在声音处理装置中设置的每对麦克风中。也即，为每个声音处理装置设置每对麦克风。因此增加了生产声音处理装置的费用。此外，封装之后，所提出的方法难以应对特征的改变，例如随着产品寿命而产生的磨损，因此麦克风的特征将彼此不同。

因此，本发明的一个目标是以低生产成本提供一种装置，能够校正包含在装置中的多个麦克风的灵敏度变化，以及能够校正随产品寿命而产生的磨损所引起的特征改变。

根据本发明的实施例，提供能够从多个麦克风接收伴随时间的声音信号的装置，将时域中的声音信号的每一个转换(transform)为频域中每个对应的信号，并且导出频域中两个信号的频谱比(spectral ratio)，以及基于所述频谱比来导出用于校正两个信号之间相差的相位校正值。在该实施例中，多个信号是两个或更多个，且麦克风可以包括在该装置中。

因此，本发明的声音处理装置和方法能够校正包含在该装置中的多个麦克风的灵敏度变化，以及能够校正随产品寿命而产生的磨损所引起的特征改变。

附图说明

图1是示出根据第一实施例的声音处理装置的示例性外形的透视图；

图2是示出根据第一实施例的声音处理装置的示例性硬件配置的方框图；

图3是示出根据第一实施例的声音处理装置的示例性功能的功能性方框图；

图4示出了由于麦克风之间的灵敏度差别引起的声音波形之间的差别；

图5是示出麦克风等效电路的电路图；

图6示出了基于运动方程式的输出电压的变化；

图7是示出由根据第一实施例的声音处理装置执行的示例性处理的操作(operation)图；

图8A和图8B是示出使用根据第一实施例的声音处理装置校正灵敏度差别的示例性结果的雷达图；

图9是示出根据本发明第二实施例的声音处理装置的示例性功能的功能性方框图；

图10是示出由根据第二实施例的声音处理装置执行的示例性处理的操作图；

图11示出了传统声音处理装置的示例性外形的透视图；以及

图12示出了如图11所示的声音处理装置的方向性(directivity)的测量结果的雷达图。

具体实施方式

以下将参考附图来详细描述本发明的实施例。

第一实施例

图1是示出根据本发明第一实施例的声音处理装置1的示例性外形的透视图。在图1中，附图标记1表示声音处理装置1，其具有长方体外壳10，本发明的声音处理装置1使用计算机，例如用于手机中的计算机，其也设置于外壳10中。声音处理装置1包含在长方体外壳10中。使用麦克风(例如电容式麦克风)的第一声音接收单元14a被设置在外壳10的前面，用于接收讲话者发出的声音。此外，第二声音接收单元14b(例如电容式麦克风)设置在外壳10的底部。第二声音接收单元14b优选的是与第一声音接收单元14a相同种类的麦克风。声音从各个方向到达声音处理装置1，并且声音处理装置1基于相差来判定声音传来的方向，所述相差对应于声音到达第一和第二声音接收单元14a和14b之间的时差。根据声音传来的方向，通过执行例如抑制由第一声音接收单元14a接收的声音的处理，声音处理装置1实现期望的方向性(directivity)。在以下描述中，当不需要对第一声音接收单元14a和第二声音接收单元14b进行区分时，将这些单元都称为声音接收单元14。

图2是示出根据本发明第一实施例的声音处理装置1的示例性硬件配置的方框图。在图2中，声音处理装置1包括可用于例如手机等设备中的计算机。声音处理装置1包括：控制整个装置的控制单元11(例如CPU，中央处理单元)；用于存储程序(例如计算机程序100)和数据的存储单元12(例如ROM和RAM)，所述数据可以是各种设定值；以及通信单元13，其优选地包括作为通信接口的天线以及连接到它的多个设备。声音处理装置1进一步包括：声音接收单元14(例如麦克风)，用以接收外部声音并将所述外部声音转换为模拟声音信号；输出声音的声音输出单元15，例如扬声器；以及对声音信号进行转换的声音转换单元16。此外，声音处理装置1包括：操作单元17，其接受例如文字数字字符以及各种命令的输入键的操作，以及显示单元18(例如液晶显示器)，用以显示各种类型的信息。这里，声音处理装置1包括两个声音接收单元14a和14b。但是，本发明不限于此，还可以具有三个或更多个声音接收单元14。通过执行包含在控制单元11中的计算机程序100中的各种处理，计算机(例如手机)操作为本实施例的声音处理装置1。

图3是示出根据第一实施例的声音处理装置1的示例性功能的功能性方框图。声音处理装置1包括：接收模拟声音的第一声音接收单元14a和第二声音接收单元14b；将模拟声音信号转换为数字信号的A/D转换器161；以及作为LPF(低通滤波器)的抗混叠滤波器160，其在将模拟信号转换为数字信号期间防止发生混叠错误。第一声音接收单元14a和第二声音接收单元14b都包括用于放大模拟声音信号的放大器(未示出)。抗混叠滤波器160和A/D转换器161是在声音转换单元16中执行的功能。除了可以包括在声音处理装置1的声音转换单元16中，抗混叠滤波器160和A/D转换器161可以与声音接收单元14一起在外部声音捕获设备中实现。

声音处理装置1还包括：帧产生单元120，其产生具有预定时间长度的帧，作为声音信号的处理单元；FFT(快速傅立叶变换)执行单元121，其通过FFT处理将声音信号转换为频域信号；计算单元122，其计算被转换到频域的声音信号的功率谱比；导出(deriving)单元123，其基于频谱比导出由第二声音接收单元14b接收的声音的声音信号的相位校正值；校正单元124，其基于校正值而校正由第二声音接收单元14b接收的声音的声音信号的相位；以及声音处理单元125，其执行例如对第一声音接收单元14a接收的声音进行抑制的处理。这里，帧产生单元120、FFT执行单元121、计算单元122、导出单元123、校正单元124以及声音处理单元125都可以是作为软件的功能，所述软件通过执行存储单元12中的各种计算机程序而实现。但是，这些功能也可以通过使用专用硬件例如集成电路的各种处理芯片而实现。

接着，将描述根据第一实施例的声音处理装置1的操作。在声音处理单元125基于由第一声音接收单元14a和第二声音接收单元14b接收的声音来执行上述处理之前，声音处理装置1执行相位校正，以便减少个别差别，例如第一声音接收单元14a和第二声音接收单元14b之间的灵敏度差别。首先，将描述第一声音接收单元14a和第二声音接收单元14b之间的灵敏度差别施加(exerted on)到相位上的影响。

即使从相同的声音源接收声音，具有不同灵敏度的相同类型麦克风中的每个麦克风输出波形不同的信号。为展示这一点，从多个麦克风输出的脉冲响应的每个都显示在图4中，其中用于本实施例的一对相同类型的麦克风彼此具有不同的灵敏度，并且每个麦克风的输入(incident)声音是脉冲。图4的水平轴代表采样值，垂直轴代表输出信号的振幅值，其中采样值指示了麦克风在96kHz周期采样的输出信号形式的采样阶数(order)。当在96kHz周期采样输出信号时，采样值100对应于约1.04ms。实线表示从具有较高灵敏度的麦克风输出的波形，虚线表示从具有较低灵敏度的麦克风输出的波形。当与从低灵敏度麦克风输出的波形比较时，从高灵敏度麦克风输出的波形在振幅上变化大而在时间上变化慢。然而，也就是说，与具有较高灵敏度的麦克风输出的信号波形相比，从具有较低灵敏度的麦克风输出的信号波形在相位上前移(advance)。

为了确认图4中的结果，进行下面的理论考虑。参考麦克风电路系统的等效机械电路(mechanical circuit)，将描述灵敏度差别和相位前移之间的关系。首先，用于声音接收单元14的电容式麦克风的等效电路可被显示为图5中的图表，其中相对于输出终端Tout1和Tout2，具有电容值C的电容器与具有电阻值R的电阻器并联。一旦电容式麦克风由外界声音压力振动之后，输出终端Tout1和Tout2之间出现的输出电压的变化等效于具有在电阻R作用下的弹性系数k(＝1/C)的阻尼振荡。这里，假定图5的等效电路能够表示为示出运动方程式的下述方程式(1)。

\overset{\cdot \cdot}{x} + 2 R \overset{\cdot}{x} + ω^{2} = 0, (ω = \sqrt{k / m})

方程式(1)

其中x是输出电压，R是电阻，ω是角频率，k是虚拟弹簧的弹性系数，以及m是该虚拟弹簧的重量(weight)。

对方程式(1)求解x得到以下方程式(2)。

x = e^{- Rt} (A e^{jt \sqrt{ω^{2} - R^{2}}} + B e^{- jt \sqrt{ω^{2} - R^{2}}})

方程式(2)

其中A和B是常数。

方程式(2)能够变形为下述方程式(3)。

x = e^{- Rt} \sin (\sqrt{ω^{2} - R^{2}} t)

方程式(3)

图6示出了由求解运动方程式(1)得到的方程式(3)表示的作为输出电压x随时间的变化。实线显示的是在电阻R的值较小的情况下理论上x随时间的变化，其中R＝0.04且ω²＝0.026，虚线表示的是在R的值较大情况下随时间的变化，其中R＝0.05且ω²＝0.026。方程式(3)和图6显示了由虚线表示的输出电压的变化的最大振幅小于实线表示的，最大振幅由术语e^-Rt表示。更进一步，虚线表示的整个波形比实线的波形前移，也即，虚线表示的波形比实线表示的波形在相位上前移。假定来自麦克风的输出电压的振幅越大，麦克风的灵敏度越大，相对于从具有较高灵敏度的麦克风输出的声音信号，较低灵敏度麦克风的声音信号会导致相位的前移。该结果与图4中脉冲响应的实验结果相一致。假定高电阻R情况下的输出电压x具有更大振幅和前移的相位。在假定输出电压x的振幅对应于麦克风灵敏度的情况下，当使用具有不同灵敏度的多个麦克风时，相比于由具有较高灵敏度的麦克风捕获的声音信号的相位，由具有较低灵敏度的麦克风捕获的声音信号的相位会前移。这与图4中脉冲响应的实验结果相一致。

麦克风之间的灵敏度差别可以通过上述的声音信号的振幅来识别。由于灵敏度差别影响相位，因此本发明的声音处理装置1基于相应于振幅的功率谱的值来校正相位，从而减少声音接收单元14之间的灵敏度差别的影响。

参考图7的操作图，将描述由根据第一实施例的声音处理装置1执行的示例性的一个处理。在操作S101中，从相应的声音接收单元14输出的每一个模拟声音信号通过抗混叠滤波器160滤波，然后分别由A/D转换器161转换为数字信号，这些处理都是由控制单元11控制的。

基于控制单元11的控制下，声音处理装置1通过帧产生单元120将每一个数字化的声音信号分为多个帧，每个帧具有预定的时间长度，其中每个帧用作为一个待处理的单元。预定时间长度例如是，约20到40的范围，如S102所示。此外，在帧处理期间，每个帧可以以例如约10到20ms的范围进行移动。

基于控制单元11的控制下，在由FFT执行单元121执行的处理中，声音处理装置1通过FFT(快速傅立叶变化)处理将以帧为单位的声音信号转换为用作频域信号的频谱，如S103所示。在操作S103中，将声音信号转换为相位谱和振幅谱。在以下处理中将使用功率谱，其是振幅谱的平方。但是，在下述处理中也可以使用振幅谱来代替功率谱。

声音处理装置1计算功率谱的功率谱比。一个功率谱是基于由第二声音接收单元14b接收的声音。另一个功率谱是基于由第一声音接收单元14a接收的声音。基于控制单元11的控制，所述功率谱在由计算单元122执行的处理中获得，如S104所示。在操作S104中，利用下述方程式(4)计算出为每个频率设置(set)的每个功率谱的所述比率(ratio)。

ratio＝S2(ω)/S1(ω) 方程式(4)

其中，ω是角频率，S1(ω)是基于来自第一声音接收单元14a的声音信号的功率谱，以及S2(ω)是基于来自第二声音接收单元14b的声音信号的功率谱。

基于控制单元11的控制下，在由导出单元123执行的处理中，基于方程式(4)中示出的功率谱比，声音处理装置1计算第二声音接收单元14b的频域中的声音信号相对于第一声音接收单元14a的频域中的声音信号的相位校正值，如S105所示。在操作S105中，使用下述方程式(5)计算校正值。

Pcomp(ω)＝[αF{S₁(ω)/S₂(ω)}]ω+β 方程式(5)

其中，Pcomp(ω)是相位校正值，α和β是常数，以及F{S₁(ω)/S₂(ω)}是作为变量的S₁(ω)/S₂(ω)的函数。

下面描述如何确定方程式(5)中的常数α和β。首先，用于调整(adjustment)的单元包括两组麦克风，也即，设定具有最高灵敏度的麦克风组和具有最低灵敏度的麦克风组。此外，在用作声音接收单元14的相同种类(类型)的那些麦克风中，还准备了具有相同或实质上相同灵敏度的麦克风组。随后，在与每组麦克风中每个麦克风相等距离的位置再现(reproduce)白噪声，并且确定每组麦克风的相差谱，即从每个麦克风输出的信号的每个相位谱之间的差别((φ₂(ω)-φ₁(ω))。最后，常数α和β以这样的方式确定，即使得具有不同灵敏度的麦克风组的相差谱适合于(fit)具有相同或实质相同灵敏度的麦克风组。确定的常数α和β的每个数据存储于声音处理装置1的存储单元12中。操作S105中的处理可以使用与用于调整的那些麦克风(如声音接收单元14)相同类型的麦克风来执行。例如，方程式(5)中的函数F从诸如常用对数、自然对数等对数函数、以及从适当的S型(sigmoid)函数中选出。

基于控制单元11的控制下，在由校正单元124执行的处理中，声音处理装置1将在操作S105中计算出的相位校正值加到第二声音接收单元14b的频域中的声音信号的相位上，从而校正第二声音接收单元14b的声音信号，如S106所示。在操作S106中，使用下述方程式(6)校正所述声音信号。

φ_{2}^{'} (ω) = φ_{2} (ω) + P_{comp} (ω)

方程式(6)

其中φ₂(ω)是基于由第二声音接收单元14b接收的声音的相位谱，是经校正的相位谱。

基于控制单元11的控制下，声音处理装置1执行各种声音处理，例如在声音处理单元125执行的处理中，基于第一声音接收单元14a的声音信号以及第二声音接收单元14b的相位被校正的声音信号，来抑制由第一声音接收单元14a接收的声音，如S107所示。

在操作S105中使用的方程式(5)能够根据声音处理装置1的形状和/或声音处理的细节而适应性改变。例如，下述的方程式(7)能够用于取代方程式(5)。

P_comp(ω)＝αF{S₂(ω)/S₁(ω)}+β 方程式(7)

方程式(5)适用于校正当第一声音接收单元14a和第二声音接收单元14b如图1所示在声音处理装置1中垂直安排时的正常操作下的相位谱。另一方面，方程式(7)适用于校正在第一声音接收单元14a和第二声音接收单元14b是水平安排在声音处理装置1的前面时的相位谱。即，期望根据适当的位置来调查需所使用的方程式。

上述对校正的解释是针对根据第二声音接收单元14b的声音信号的相位。此外，也可以通过将方程式(5)和(7)中的函数F中的S₂(ω)/S₁(ω)换成S₁(ω)/S₂(ω)，来校正第一声音接收单元14a的声音信号的相位。可选择地，对于相同的对象(object)，下述方程式(8)可用于替换方程式(6)以校正第一声音接收单元14a的声音信号的相位。

φ_{1}^{'} (ω) = φ_{1} (ω) - P_{comp} (ω)

方程式(8)

其中φ₁(ω)是基于由第一声音接收单元14a接收的声音的相位谱，

是校正后的相位谱。

接下来，将描述使用声音处理装置1校正灵敏度差别的结果。图8A和图8B是示出使用声音处理装置1校正灵敏度差别的示例性结果的雷达图。通过基于由第一声音接收单元14a和第二声音接收单元14b接收的各自声音之间的相差来识别声音传来的方向，以及通过根据在声音处理单元125中执行的声音处理中声音传来的方向，来执行例如对由第一声音接收单元14a接收的声音进行抑制的处理，图8A和图8B示出达到的方向性。图8A和图8B示出的雷达图中的方向性是由信号功率(dB)指示的，所述信号功率是对由第一声音接收单元14a从声音传来的每个方向接收的声音执行声音处理之后的信号功率。这里，当声音从外壳10的前面(在此第一声音接收单元14a设置在声音处理装置1中)传来时，方位角定义为0°，当声音来自右面时方位角定义为90°，当声音来自后面时方位角定义为180°，当声音来自左面时方位角定义为270°。图8A示出当第一声音接收单元14a和第二声音接收单元14b之间的灵敏度差别未校正时的方向性。实线指示第一声音接收单元14a和第二声音接收单元14b的灵敏度相同时的状态1；虚线指示第一声音接收单元14a的灵敏度高于第二声音接收单元14b的灵敏度时的状态2；交替的长短点划线指示第二声音接收单元14b的灵敏度高于第一声音接收单元和14a的灵敏度时的状态3。图8B示出由本发明的声音处理装置1校正灵敏度差别时的方向性。实线指示第一声音接收单元14a和第二声音接收单元14b的灵敏度相同时的状态1；虚线指示第一声音接收单元14a的灵敏度高于第二声音接收单元14b的灵敏度时的状态2；交替的长短点划线指示第二声音接收单元14b的灵敏度高于第一声音接收单元和14a的灵敏度时的状态3。

如图8A所示，相比第一声音接收单元14a的灵敏度和第二声音接收单元14b的灵敏度相同的状态1，侧面和后面的方向性在第一声音接收单元14a的灵敏度和第二声音接收单元14b的灵敏度彼此不同的状态2和3下改变。相反，如图8B所示，由于在状态2和3中灵敏度差别的影响消除或减小，因此在所有方向上，状态2和3中的方向性相似于状态1中的方向性。

在第一实施例中，声音处理装置包括两个声音接收单元。但是，本发明不限于此，并且声音处理装置能够具有三个或更多声音接收单元。当声音处理装置包括三个或更多声音接收单元时，通过将多个声音接收单元之一的声音信号定义为参考信号，并通过执行功率谱比的计算、相位校正值的计算以及对其它声音接收单元的声音信号的相位校正，能够减小灵敏度差别。

第二实施例

例如，在第二实施例中，考虑到减小处理负载以及防止声音质量的突然变化，改变根据第一实施例的声音处理装置。由于根据第二实施例的声音处理装置的外形和示例性硬件配置与根据第一实施例的那些相同，因此，参考根据第一实施例的相应部分并且将对它们的描述省略。在以下描述中，相同附图标记用于与第一实施例中实质相同的组件。

图9是示出根据第二实施例的声音处理装置1的示例功能的功能性方框图。本发明的声音处理装置1包括第一声音接收单元14a、第二声音接收单元14b、抗混叠滤波器160以及执行模拟-数字转换的A/D转换器161。第一声音接收单元14a和第二声音接收单元14b包括用以放大模拟声音信号的放大器(未示出)。

声音处理装置1还包括帧产生单元120、FFT执行单元121、用于计算功率谱比的计算单元122、用于计算相位校正值的导出单元123、校正单元124以及声音处理单元125。此外，声音处理装置1包括用以选择频率的频率选择单元126以及平滑单元(smoothing unit)127，所述频率用于由计算单元122执行的对功率谱比的计算，所述平滑单元127平滑由导出单元123计算的校正值随时间的变化。帧产生单元120、FFT执行单元121、计算单元122、导出单元123、校正单元124、声音处理单元125、频率选择单元126以及平滑单元127都可以是作为通过执行存储单元12中的各种计算机程序而实现的软件的功能。但是，这些功能也可以通过使用专用硬件例如集成电路的各种处理芯片而实现。

接下来，将描述根据第二实施例的声音处理装置1执行的处理。图10示出了由根据第二实施例的声音处理装置1执行的示例性处理的操作图。基于由相应的声音接收单元14接收的声音，通过用于执行计算机程序100的控制单元11的控制，声音处理装置1产生模拟声音信号，如S200所示，使用抗混叠滤波器160滤波所述信号，并且使用A/D转换器161将所述信号转换为数字信号。

在基于控制单元11的控制由帧产生单元120执行的处理中，声音处理装置1将来自被转换为数字信号的每一个声音信号的每个声音信号分为具有预定时间长度的多个帧，所述帧用作为处理单元，如S202所示，并且在基于控制单元11的控制由FFT执行单元121执行的处理中，声音处理装置1通过FFT处理将以帧为单位的声音信号转换为用作频域信号的频谱，如S203所示。

在基于控制单元11的控制由频率选择单元126执行的处理中，声音处理装置1在从例如1000到3000Hz的频率范围中选择SNRs(信号噪声比)高于或等于预定值的频率，该频率范围不受抗混叠滤波器160的影响，如S204所示。

在基于控制单元11的控制由计算单元122执行的处理中，声音处理装置1计算在操作S204中选择的频率的功率谱比，如S205所示，计算功率谱比的平均值，如S206所示，并且在基于控制单元11的控制由导出单元123执行的处理中，声音处理装置1基于功率谱比的平均值，计算第二声音接收单元14b的频域声音信号相对于第一声音接收单元14a的频域声音信号的相位校正值，如S207所示。操作S205到S207的处理是由下述方程式(9)或(10)表示的。

P_{comp} = [αF {\frac{1}{N} Σ_{k = 1}^{N} (S_{1} (ω_{k}) / S_{2} (ω_{k}))}] ω + β

方程式(9)

其中Pcomp是相位校正值，α和β是常数，N是选择的频率的数量，F()是函数，S1(ω)是基于第一声音接收单元14a的声音信号的功率谱，以及S2(ω)是基于第二声音接收单元14b的声音信号的功率谱。

P_{comp} = α \frac{1}{N} Σ_{k = 1}^{N} F {S_{1} (ω_{k}) / S_{2} (ω_{k})} ω + β

方程式(10)

方程式(9)和(10)表示的相位校正值是基于在选定频率的功率谱比的平均值而计算的代表值，并且不依靠选择频率来改变。在第二实施例中，由于校正值是基于在N个选定频率的频谱而计算的，所以可以减少处理负载(processing load)。由于随后处理与校正值的时间性变化(timechange)有关，因此将索引相位校正值Pcomp作为校正值Pcomp(t)，其是时间(帧)t的函数。

在基于控制单元11的控制由平滑单元127执行的处理中，声音处理装置1平滑校正值随时间的变化(temporal variation)，如S208所示。在操作S208中，使用下述方程式(11)执行平滑处理。

P_comp(t)＝γP_comp(t-1)+(1-γ)P_comp(t) 方程式(11)

其中γ是从0到1的常数。

在操作S208中，使用方程式(11)所示的一个先前校正值Pcomp(t-1)来平滑时间性变化(time change)。因此，能够再现自然的声音，同时防止校正值的突然变化。这里，常数γ可以是例如0.9。更进一步，当选定频率的数量低于预定值时，例如是5，可以暂时将常数γ设定为1，从而停止对校正值的更新。这样，由于不使用具有在SNR低时所获得的低精确度的校正值，因此能够提高可靠性。此外，为了防止由例如噪声引起的不期望的过度校正，需要为校正值设置上限和下限。能够使用sigmoid函数来代替使用方程式(11)，从而平滑校正值的时间性变化(timechange)。

基于控制单元11的控制下，在由校正单元124执行的处理中，声音处理装置1将操作S208中计算的相位校正值加到第二声音接收单元14b的频域声音信号的相位，以校正第二声音接收单元14b的声音信号，如S209所示。在操作S209中，使用在整个频率范围上的特定(specific)校正值校正声音信号。

基于控制单元11的控制下，在由声音处理单元125执行的处理中，声音处理装置1执行各种声音处理，例如基于第一声音接收单元14a的声音信号以及第二声音接收单元14b的相位被校正的声音信号，来抑制由第一声音接收单元14a接收的声音，如S210所示。

第一和第二实施例仅是本发明众多实施例中的部分。可以理解的是硬件和软件的配置可以设置成适当的配置，并且可以结合与上述基本处理不同的各种处理。

Claims

1.一种声音处理装置，用于处理接收到的声音，该装置包括：

多个声音接收单元，所述多个声音接收单元的每一个声音接收单元输出与接收到的声音对应的声音信号；

转换单元，用于将时域中的声音信号转换为频域中的转换后信号；

计算单元，用于获得两个所述转换后信号之间的频谱比；

导出单元，用于基于所述频谱比导出相位校正值，基于与两个所述转换后信号中的一个转换后信号对应的一个声音信号，以对应于两个所述转换后信号中另一个转换后信号的另一个声音信号为基础，所述相位校正值能够校正所述另一个声音信号的相位；以及

校正单元，用于校正所述声音信号的相位。

2.如权利要求1所述的声音处理装置，其中所述计算单元能够获得两个所述转换后信号之间的功率谱比。

3.如权利要求2所述的声音处理装置，其中用下面的方程式的形式表示所述相位校正值：

P_comp(ω)＝αF{S₂(ω)/S₁(ω)}+β

其中ω是角频率，Pcomp(ω)是所述相位校正值，S₁(ω)是两个所述转换后信号中一个转换后信号的功率谱，S₂(ω)是两个所述转换后信号中另一个转换后信号的功率谱，α和β是常数，以及F{S₂(ω)/S₁(ω)}是S₂(ω)/S₁(ω)的函数。

4.如权利要求2所述的声音处理装置，其中用下面的方程式的形式表示所述相位校正值：

Pcomp(ω)＝[αF{S₁(ω)/S₂(ω)}]ω+β

其中ω是角频率，Pcomp(ω)是所述相位校正值，S₁(ω)是两个所述转换后信号中一个转换后信号的功率谱，S₂(ω)是两个所述转换后信号中的另一个转换后信号的功率谱，α和β是常数，以及F{S₁(ω)/S₂(ω)}是S₁(ω)/S₂(ω)的函数。

5.如权利要求3所述的声音处理装置，其中所述函数是对数函数，并且所述校正单元执行加法运算，将所述相位校正值加到两个所述转换后信号中另一个转换后信号的相位上。

6.如权利要求4所述的声音处理装置，其中所述函数是对数函数，并且所述校正单元执行加法运算，将所述相位校正值加到两个所述转换后信号中另一个转换后信号的相位上。

7.如权利要求1所述的声音处理装置，其中所述计算单元能够获得两个所述转换后信号的振幅谱之间的比率。

8.如权利要求1所述的声音处理装置，进一步包括：

平滑单元，用于平滑所述相位校正值随时间的变化，其中基于由所述平滑单元平滑后的所述相位校正值，所述校正单元校正所述声音信号的相位。

9.一种校正接收到的声音信号之间相差的方法，该方法包括如下操作：

分别将时域中的每个声音信号转换为频域中的转换后信号，每个所述声音信号对应于各自的接收到的声音信号；

执行计算以获得两个所述转换后信号之间的频谱比；

通过使用所述频谱比导出相位校正值，所述相位校正值基于两个所述转换后信号中一个转换后信号导出；以及

校正两个所述转换后信号中另一个转换后信号的相位。