CN101385386A

CN101385386A - 混响除去装置、混响除去方法、混响除去程序和记录介质

Info

Publication number: CN101385386A
Application number: CNA2007800060354A
Authority: CN
Inventors: 木下庆介; 中谷智广; 三好正人
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-03-03
Filing date: 2007-03-05
Publication date: 2009-03-11
Anticipated expiration: 2027-03-05
Also published as: EP1993320A4; US20090248403A1; EP1993320B1; JP4774100B2; JPWO2007100137A1; US8271277B2; CN101385386B; WO2007100137A1; EP1993320A1

Abstract

模型应用单元(10b)使用离散声响信号计算多阶线性预测模型的各线性预测系数。接着，后部混响预测单元(10c)将各线性预测系数和离散声响信号代入多阶线性预测模型的线性预测项而得到的线性预测值作为后部混响预测值来计算。接着，频域变换单元(10d)将离散声响信号变换为频域的离散声响信号，并将后部混响预测值变换为频域的后部混响预测值。然后，后部混响除去单元(10e)求频域的离散声响信号的振幅谱和频域的后部混响预测值的振幅谱的相对值，并将该相对值作为后部混响除去信号的振幅谱预测值。

Description

混响除去装置、混响除去方法、混响除去程序和记录介质

技术领域

本发明涉及声响(acoustic)信号处理的技术领域，特别涉及从包含混响(reverberation)的声响信号中除去混响的技术。

背景技术

如果在有混响的环境中接收声响信号，则观测到在本来信号中叠加了混响的信号。在该情况下，由于叠加的混响分量而使声响信号的明确性大幅降低，难以提取声响信号本来的性质。例如，在通过自动语音识别(以下称作语音识别)系统识别了包含混响的语音信号的情况下，由于该混响的影响而使语音识别系统的识别率显著地降低。

混响除去处理是在这样的情况下能够将叠加了的混响除去而使声响信号恢复到本来的音质的技术。由此，例如能够恢复语音信号的明确性并且改善语音识别率等。

作为除去长的混响的混响除去处理的以往例子，有非专利文献1所公开的方法。

在该以往例子中，假定后部混响(late reverberation)呈指数函数地衰减，使用指数函数估计后部混响的能量并且进行混响除去。即，将观测信号变换为频域信号，假定在各频率中，频域信号为直接声音和后部混响之和，使用混响能量呈指数函数地减少的模型(multi-band decay model)估计该模型参数，并对估计的后部混响能量和观测信号能量应用谱减法(Spectralsubtraction)，除去后部混响。另外，对于模型参数的估计，使用仅观测到后部混响的声音(sound)的末尾部分。

非专利文献1:I.Tashev and D.Allred，“Reverberation Reduction forImproved Speech Recognition”2005Joint Workshop on hands-Free SpeechCommunication and Microphone Arrays。

发明内容

发明要解决的课题

但是，在上述以往例子中，存在根据环境不同而有时不能自动进行精度高的混响除去的问题。

即，在上述以往例子的情况下，如果使用的指数函数能够高精度地将观测声音中的后部混响进行建模，则能够高精度地除去后部混响。但是，一般难以通过指数函数准确地近似根据房间、说话人和麦克风之间距离而变化多样的混响。此外，在声响信号的末尾部分和除此以外的部分混响特性不同的情况下，不能使用该架构。这样，在上述以往例子中，由于通过指数函数将后部混响模型化，因此在该模型与观测声音中的后部混响不完全一致的情况下，或者混响特性在声响信号的末尾部分和除此以外的部分不同的情况下，不能自动地进行高精度的混响除去。

本发明鉴于这样的方面而完成，其目的在于提供一种在任何环境中都能够进行高精度的混响除去处理的混响除去技术。

用于解决课题的手段

在本发明中，为了解决上述课题，执行:离散声响信号存储步骤，首先在存储器中存储离散声响信号值，所述离散声响信号值通过将由M(M≥1)个传感器分别观测的M个信道(channel)m(m＝1，...，M)的声响信号分别在多个时刻进行采样而得到；模型应用步骤，使用多个上述离散声响信号值来计算信道w(w＝1，...，M)的多阶(multi-step)线性预测模型(通过将长时间区间中的M个信道的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在该长时间区间的规定时间后的离散时间n的信道w的离散声响信号值的线性预测模型)；以及后部混响预测步骤，将线性预测值作为在离散时间n的信道w的后部混响预测值而输出，所述线性预测值通过将上述信道w的多阶线性预测模型的各线性预测系数和多个上述离散声响信号值代入上述信道w的多阶线性预测模型的上述线性预测项而得到。

另外，“模型”表示表现了物理状态的关系式。此外，“信道”表示每个传感器的处理序列，由相同传感器观测到的声响信号的处理序列属于相同信道。此外，在M≥2的情况下，传感器中的至少一部分被配置在与其它传感器不同的位置。即，在M≥2的情况下，全部传感器不会完全配置在相同的位置上。此外，将M≥2的情况下的“多阶线性预测模型”称作“多信道多阶线性预测模型”。即，本发明中的“多阶线性预测模型”是“多信道多阶线性预测模型”的上位概念。

这样，在本发明中，由多阶线性预测模型的线性预测项计算声响信号的后部混响预测值(详细在后面说明)，通过使用该后部混响预测值来除去声响信号的混响。

这里，在本发明中，由于通过多阶线性预测模型将声响信号进行模型化，因此与仅通过指数函数将后部混响模型化的情况相比，能够进行更准确的近似。即，声响信号的后部混响分量由过去的各时刻的声响信号引起，在某一时间区间中具有自相关性。因此，可以说以多个时刻的时间序列数据的线性结合表现各时刻的时间序列数据的多阶线性预测模型适于混响信号的模型化。

此外，本发明的多阶线性预测模型是通过将长时间区间中的M(M≥1)个信道的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在该长时间区间的规定时间后的离散时间n的信道w的离散声响信号值的线性预测模型。通过使用这样的“表现该长时间区间的规定时间后的离散声响信号值的线性预测模型”，从而与使用“表现紧接着该长时间区间之后的离散声响信号值的线性预测模型”的情况相比，能够高精度地估计后部混响信号(详细在后面叙述)。其结果，能够进行适当的后部混响除去。

此外，在本发明中，对于多阶线性预测模型的模型参数的估计，不是仅使用声响信号的末尾部分，而是使用离散声响信号的整体，因此即使在混响特性在声响信号的末尾部分和除此以外的部分不同的情况下，也能够进行适当的后部混响除去。

此外，在本发明中，优选M≥2。通过使用多信道多阶线性预测模型，从而即使在室内传递函数中的最大相位分量多的环境下，也能够高精度地进行后部混响除去(详细在后面叙述)。

此外，本发明中，优选上述模型应用步骤具有:模拟白色化步骤，从各离散时间的上述离散声响信号值中，抑制与紧接着该离散时间之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量(short-temcorrelation)，并生成模拟白色化(pre-whitening)后的离散声响信号值；以及第一线性预测系数计算步骤，使用上述模拟白色化后的离散声响信号值，计算上述多阶线性预测模型的各线性预测系数。这里，上述短时间区间比上述长时间区间短。

多阶线性预测模型是将后部混响分量估计为线性预测项的模型。从而，该线性预测系数的计算所使用的离散声响信号值的自相关分量在理想情况下仅为后部混响分量所引起的分量。但是，声响信号的直接声音分量与后部混响分量相比，具有非常短的时间区间内的自相关性。模拟白色化是用于抑制该短的时间区间内的自相关性的处理。使用模拟白色化后的离散声响信号计算多阶线性预测模型的各线性预测系数，使得后部混响除去处理的精度提高。

此外，在本发明中，优选上述模拟白色化步骤具有:第二线性预测系数计算步骤，使用上述离散声响信号值来计算信道m的短时间线性预测模型的各线性预测系数，所述信道m的短时间线性预测模型，是通过将上述短时间区间中的信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在紧接着上述短时间区间之后的离散时间n的该信道m的离散声响信号值的线性预测模型；以及逆滤波处理步骤，在通过将由上述第二线性预测系数计算步骤计算出的上述各线性预测系数代入信道m的上述短时间线性预测模型而得到的逆滤波器中，代入该信道m的上述离散声响信号值，并将由此得到的该短时间线性预测模型的上述预测误差项的值作为该信道m的上述模拟白色化后的离散声响信号值输出。由此，能够抑制被观测到的声响信号的直接声音分量的自相关性。

此外，在该情况下，优选M≥2，上述第二线性预测系数计算步骤具有:自相关系数计算步骤，对每个信道计算上述离散声响信号值的自相关系数；自相关系数平均化步骤，计算将对每个信道求出的上述自相关系数在信道之间平均化后的平均自相关系数；以及方程式运算步骤，使用上述平均自相关系数，计算上述短时间线性预测模型的各线性预测系数。

这样，通过将在每个信道中求出的自相关系数在信道之间平均化后的平均自相关系数用于计算短时间线性预测模型的各线性预测系数，从而短时间线性预测模型的各线性预测系数的计算精度提高，模拟白色化后的离散声响信号的生成精度提高。这对后部混响除去处理的精度提高有贡献。

代替使用上述平均自相关系数，也可以计算离散声响信号值的自相关系数，并使用上述自相关系数计算上述短时间线性预测模型的各线性预测系数，上述离散声响信号值将由上述M个传感器中最接近声响信号的声源的一个传感器所观测到的声响信号，在多个时刻进行采样而得到。由此，能够高精度地计算短时间线性预测模型的各线性预测系数，并且模拟白色化后的离散声响信号的生成精度提高。这对后部混响除去处理的精度提高有贡献。

此外，本发明中，优选具有:频域变换步骤，将各信道的上述离散声响信号值变换为频域的离散声响信号值，并将各信道的上述后部混响预测值变换为频域的后部混响预测值；以及后部混响除去步骤，对每个信道求上述频域的离散声响信号值的振幅谱和上述频域的后部混响预测值的振幅谱的相对值，并将该相对值作为各信道的后部混响除去信号值的振幅谱预测值而输出。由此，能够计算后部混响除去信号值的振幅谱预测值。

此外，在该情况下，优选在上述后部混响预测步骤中，计算线性预测值作为在离散时间n的信道w的后部混响预测值，所述线性预测值通过将由上述模型应用单元计算出的上述各线性预测系数和多个模拟白色化后的上述离散声响信号值代入上述线性预测项而得到，上述频域变换单元中，将模拟白色化后的各信道的上述离散声响信号值变换为频域的离散声响信号值。由此，可以计算模拟白色化后的后部混响除去信号值的振幅谱预测值。这样的值作为需要模拟白色化后的数据的系统的输入值是合适的。

此外，在本发明中，优选还具有:复谱生成步骤，使用信道w的上述后部混响除去信号值的振幅谱预测值，和信道w的上述频域的离散声响信号值的相位信息，计算信道w的后部混响除去信号值的复谱预测值；以及时域变换步骤，计算将信道w的上述后部混响除去信号值的复谱预测值变换为时域后的信道w的后部混响除去信号估计值。由此，能够得到将后部混响除去后的声响信号的估计值(后部混响除去信号估计值)。

此外，在该情况下，优选M≥2，上述模型应用步骤是对多个信道分别计算上述各线性预测系数的步骤，上述后部混响预测步骤是对多个信道分别计算上述后部混响预测值的步骤，上述后部混响除去步骤是对多个信道分别计算上述后部混响除去信号值的振幅谱预测值的步骤，上述复谱生成步骤是对多个信道分别计算上述后部混响除去信号值的复谱预测值的步骤，上述时域变换步骤是对多个信道分别计算上述后部混响除去信号估计值的步骤，该混响除去方法具有延迟量计算步骤，决定在将各信道的上述后部混响除去信号估计值分别以某一延迟量延迟后的情况下，延迟后的各信道的上述后部混响除去信号估计值的信道间互相关为极大的各信道的该延迟量。另外，对于不延迟的后部混响除去信号估计值，决定延迟量为0。由此，能够校正在各信道中计算出的后部混响除去信号估计值的信道相互的延迟量。

而且，在该情况下，将各信道的上述后部混响除去信号估计值延迟对各个信道计算出的上述延迟量，并计算延迟后的上述后部混响除去信号估计值(也包含延迟量0的后部混响除去信号估计值)之和，作为校正混响除去信号值。由此，混响除去信号的估计经度提高。

此外，在本发明中，优选上述多阶线性预测模型是，

将x_w(n)设为与信道w(w＝1，...，M)对应的离散时间n的离散声响信号值，将x_m(n)设为与信道m(m＝1，...，M)对应的离散时间n的离散声响信号值，将e_w(n)设为与信道w以及离散时间n对应的预测误差，将N设为正整数，将[·]设为高斯记号，将α_w，m(p)设为与x_w(n)对应的线性预测项的信道m所对应的第p个线性预测系数，并且将D设为表示阶长的常数的情况下的

「算式1]

x_{w} (n) = Σ_{m = 1}^{M} Σ_{p = 1}^{[N / M]} α_{w, m} (p) \cdot x_{m} (n - p - D) + e_{w} (n) .

发明的效果

以上，在本发明中在任何环境下都能够进行精度高的混响除去。

附图说明

图1是例示第一实施方式的混响除去装置的功能结构的方框图。

图2A是例示模型应用单元的功能结构的细节的方框图。

图2B是例示延迟调节单元的功能结构的细节的方框图。

图3是例示第一实施方式中的混响除去装置10的硬件结构的方框图。

图4是用于说明第一实施方式的混响除去处理的整体的流程图。

图5是用于说明第一实施方式的混响除去处理的整体的流程图。

图6A是用于说明图4的步骤S1(模型应用步骤)的细节的流程图。

图6B是用于说明图6A的步骤S21(模拟白色化步骤)的细节的流程图。

图7A是用于说明图6B的步骤S31(第二线性预测系数计算步骤)的细节的流程图。

图7B是用于说明图4的步骤S4的细节的流程图。

图8是例示第二实施方式的混响除去装置的功能结构的方框图。

图9是例示模型应用单元的功能结构的细节的方框图。

图10是用于说明第二实施方式的混响除去处理的整体的流程图。

图11是用于说明第二实施方式的混响除去处理的整体的流程图。

图12A是表示第三实施方式的第二线性预测系数计算单元的功能结构的方框图。

图12B是用于说明第三实施方式的[第二线性预测系数计算步骤(步骤S31)]的流程图。

图13是表示第四实施方式的模型应用单元的功能结构的方框图。

图14是用于说明第四实施方式的[模拟白色化步骤(步骤S21)]的流程图。

图15是例示第五实施方式的混响除去装置的功能结构的方框图。

图16是用于说明第五实施方式的混响除去处理的整体的流程图。

图17是例示第六实施方式的混响除去装置的功能结构的方框图。

图18是用于说明第六实施方式的混响除去处理的整体的流程图。

图19是例示第七实施方式的混响除去装置的功能结构的方框图。

图20是例示图19的模型应用单元的功能结构的细节的方框图。

图21是用于说明第七实施方式的混响除去处理的整体的流程图。

图22A是用于说明图21的步骤S301(模型应用步骤)的细节的流程图。

图22B是用于说明图22A的步骤S311(模拟白色化步骤)的细节的流程图。

图23A是将室内传递函数值h取作纵轴并将时间(ms)取作横轴的曲线图。

图23B是将合成传递函数值g取作纵轴并将时间(ms)取作横轴的曲线图。

图23C是将室内传递函数h和合成传递函数g的能量差取作纵轴并将时间(ms)取作横轴的曲线图。

图24A、图24B分别是表示混响除去前的振幅谱值和语音(speech)波形的图。

图24C、图24D分别是表示本发明(M＝1的情况)的混响除去后的振幅谱值和语音波形的图。

图25A是表示实验条件的图。

图25B是表示语音识别结果(单词错误率)的曲线图。

符号说明

10、310、610、620、710混响除去装置

具体实施方式

以下，参照附图说明本发明的实施方式。

[原理1]

首先，说明本发明的原理1。另外，这里原则上使用z变换标记(后述的式(5)以外)。

如果将原声响信号s(z)模型化，则成为以下的式(1)所示的、白色信号u(z)(预测误差项)和短的(次数小的)自回归(AR:Auto-Regressive)模型d(z)＝1/(1-β(z))的乘积。即，原声响信号s(z)具有按照d(z)的短期自相关性。

s(z)＝u(z)/(1-β(z))

＝u(z)·d(z)…(1)

另外，β(z)为如下的AR多项式。这里，q是线性预测的次数，b(i)是第i项的线性预测系数。

[算式2]

β (z) = Σ_{i = 1}^{q} b (i) \cdot z^{- i}

在该情况下，传感器(例如，麦克风)所观测的声响信号x₁(z)表示为

X₁(z)＝u(z)·[d(z)·h(z)]

＝u(z)·g(z)…(2)。

另外，h(z)表示从声响信号源到传感器的室内传递函数，g(z)假设满足

g(z)＝d(z)·h(z)…(3)。

另外，g(z)称作合成传递函数。

由此，如果能够忽略原声响信号s(z)的按照d(z)的短期自相关性(如果能够将原声响信号s(z)视作白色信号)，则式(2)可以如下地近似。

即，如果能够将d(z)视作1，则由传感器所观测的声响信号x(z)可以作为对白色信号u(z)进行比d(z)长的(次数大的)自回归过程的结果而模型化。

d(z)越接近1则如式(4)这样的模型化越恰当。在原理1中，通过模拟白色化(Pre-whitening)处理来抑制由传感器所观测的声响信号x(z)的短期的自相关性。由此，使由传感器所观测的声响信号x(z)的d(z)接近1，使得对于式(4)的模型的应用变得恰当。但是，如果以d(z)的自相关不太强的原声响信号s(z)作为对象，则即使不进行模拟白色化处理，对于式(4)的模型的应用也在某种程度上是恰当的。

在该情况下，被观测的声响信号可以通过传感器数M＝1的情况下的多阶线性预测模型(通过将长时间区间中的各离散声响信号值进行线性结合后的线性预测项、预测误差项之和表示在该长时间区间的规定时间后的离散声响信号值的线性预测模型)来近似。即，例如能够如以下式(5)这样，使被观测的声响信号模型化。另外，将n设为离散时间，将x₁(n)设为与(根据需要而除去了短时间相关的)离散时间n对应的声响信号，将α_1，1(p)设为线性预测系数，将N设为线性预测系数的数，将D设为阶长(延迟)，将e₁(n)设为对应于离散时间n的预测误差。此外，在式(5)的情况下，(n-N-D)以上且(n-1-D)以下的时间区间相当于多阶线性预测模型的定义中的“长时间区间”，x₁(n)相当于“长时间区间的规定时间后的离散声响信号值”。

[算式3]

x_{1} (n) = Σ_{p = 1}^{N} α_{1,1} (p) \cdot x_{1} (n - p - D) + e_{1} (n) \cdot \cdot \cdot (5)

这里，如果将式(2)的g(z)的直接声音分量设为g_d(z)，将后部混响分量设为g_r(z)，则可以假定以下的式(6)。

g (z) : = g_{d} (z) + z^{- D} \cdot g_{r} (z) \cdot \cdot \cdot (6)

在该情况下，将式(5)的线性预测系数α_1，1(p)进行z变换后的α(z)如以下的式(7)这样表示。

[算式4]

α (z) = \frac{z^{- D} g_{r} (z)}{\hat{g} (z)} \cdot \cdot \cdot (7)

其中，假定

g(z):＝g_min(z)·g_max(z)…(8)

\hat{g} (z) : = g_{\min} (z) \cdot \min [g_{\max} (z)] \cdot \cdot \cdot (9) .

另外，g_min(z)和g_max(z)分别表示g(z)的最小相位分量(与Z平面上的单位圆内的0点对应的分量)和最大相位分量(与Z平面上的单位圆外的0点对应的分量)。此外，如前所述，通过模拟白色化处理，g(z)近似室内传递函数h(z)。此外，一般室内传递函数h(z)为非最小相位(不仅具有最小相位分量而且也具有最大相位分量)。因此，g(z):＝g_min(z)·g_max(z)的假定为妥当。此外，min[g_max(z)]表示将g_max(z)最小相位化的结果，并且表示g_max(z)的全部0点被绘制(plot)到它们的共轭逆的Z平面上的单位圆内的结果。

这里，将式(7)的线性预测系数α(z)与被模拟白色化处理后的观测信号x’(z)＝u(z)·g(z)相乘并代入式(7)～(9)，则得到以下的式子(10)。

[算式5]

u (z) \cdot [g (z) \cdot α (z)] = u (z) \cdot [\frac{g (z) \cdot z^{- D} g_{r} (z)}{\hat{g} (z)}]

= u (z) \cdot [\frac{g_{\max} (z)}{\min [g_{\max} (z)]} \cdot z^{- D} g_{r} (z)] \cdot \cdot \cdot (10)

= \hat{u} (z) \cdot z^{- D} g_{r} (z)

这里，g_max(z)/min[g_max(z)]为全通滤波器(相乘的信号的振幅被原样保持且相位能够变更的函数)。从而，可知

[算式6]

\hat{u} (z)

是具有与u(z)相同的方差的白色信号。此外，如式(6)所示，z^-D·g_r(z)为后部混响分量所引起的分量。而且，因为声响信号如式(2)所示，因此式(10)的振幅谱值近似于声响信号的后部混响分量的振幅谱值。即，使用通过模拟白色化处理而除去了短时间相关的声响信号，进行式(5)的多阶线性预测模型的数值最佳化，从而求线性预测系数，并将其与模拟白色化处理后的观测信号相乘，从而能够求出振幅谱值近似于后部混响分量的信号。而且，通过将该估计出的振幅谱从观测到的声响信号x(z)的振幅谱中减去，从而可以得到后部混响被除去后的振幅谱。

[原理2]

但是，在原理1的方法中，有时不能进行高精度的后部混响除去。以下说明其理由。

上述式(10)是在将分析帧长设为无限长的情况下成立的关系式。在以有限长的分析帧单位来看的情况下，式(10)不一定完全成立。室内传递函数h(z)中最大相位分量越多，则式(10)右边的全通滤波器g_max(z)/min[g_max(z)]的响应越长。因此，在以有限长的分析帧单位来看的情况下，室内传递函数h(z)中最大相位分量越多、全通滤波器g_max(z)/min[g_max(z)]的响应越长，则式(10)的左边和右边的背离则越大。

通常上，原理1的方法以有限长的分析帧单位被执行。如果室内传递函数h(z)中最大相位分量少，则以分析帧单位来看的式(10)也比较近似，可以通过原理1的方法高精度地进行后部混响除去。但是，一般信号源和传感器的距离越远，则室内传递函数h(z)中最大相位分量越增加。在该情况下，以分析帧单位来看的式(10)的近似变得不成立，通过以式(10)成立为前提的原理1的方法进行的后部混响除去的精度降低。

即，在从信号源到传感器的室内传递函数中存在最大相位分量的情况下，不能使用仅由一个传感器观测到的单一信道的声响信号构成完全的逆滤波器。这里，能够构成逆滤波器等效于能够计算上述线性预测系数。这例如公开在“M.Miyoshi and Y.Kaneda，“Inverse Filtering of Room Acoustics，”IEEETrans.on AcousticS，”Speech and Signal Processing，36(2)，pp.145-152，1988(以下称作“参考文献1”)。另一方面，在参考文献1中公开了在从信号源到传感器的室内传递函数中存在最大相位分量的情况下，能够使用由多个传感器观测到的多个信道的声响信号构成逆滤波器。

因此，在原理2中，采用上述多信道多阶线性预测模型(传感器数M≥2的情况下的多阶线性预测模型)作为线性预测模型，使用由多个传感器观测到的多个信道的声响信号来求线性预测系数。由此，使用线性预测模型的后部混响除去处理成为可能。另外，在原理2的方法中，能够求线性预测滤波器的情况不依赖于室内传递函数中的最大相位分量的大小。以下，说明该原理2。

由传感器m(m＝1，...，M)观测的声响信号x_m(z)可以如以下这样模型化。另外，作为满足g_m(z)＝d(z)·h_m(z)的合成传递函数，将h_m(z)作为从声响信号源到传感器m的室内传递函数。

x_{m} (z) = u (z) \cdot (d (z) \cdot h_{m} (z))

= u (z) \cdot g_{m} (z) \cdot \cdot \cdot (11)

由此，如果能够忽视原声响信号s(z)的按照d(z)的短期自相关性(如果能够将原声响信号s(z)视作白色信号)，则式(11)可以如以下这样近似。

即，如果能够将d(z)视作1，则由传感器m所观测的声响信号x_m(z)可以作为对白色信号u(z)进行比d(z)长的(次数大的)自回归过程的结果而模型化。

d(z)越接近1则如式(12)这样的模型化越恰当。在原理2中，通过模拟白色化(Pre-whitening)处理来抑制由传感器m所观测的声响信号x_m(z)的短期的自相关性。由此，使由传感器m所观测的声响信号x_m(z)的d(z)接近1，使得对于式(12)的模型的应用变得恰当。但是，如果以d(z)的自相关不太强的原声响信号s(z)作为对象，则即使不进行模拟白色化处理，对于式(12)的模型的应用也在某种程度上是恰当的。

另一方面，室内传递函数h_m(z)中存在最大相位分量。如所述“参考文献1”所公开的，在室内传递函数h_m(z)中存在最大相位分量的情况下，不能只使用仅由一个传感器观测到的单一信道的声响信号构成逆滤波器，而仅在使用了多个信道的声响信号的情况下能够构成逆滤波器。如果将该情况应用于式(12)的模型来考虑，则可以说仅在以多个信道的声响信号为对象而构成了式(12)的模型的情况下，能够计算正确的线性预测系数，并且能够预测、除去正确的后部混响信号。通过以上说明，在原理2中，通过多信道多阶线性预测模型(通过将长时间区间中的M(M≥2)个信道的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在该长时间区间的规定时间后的离散时间的离散声响信号值的线性预测模型)来构成式(12)的模型。作为多信道多阶线性预测模型，可以例示以下的式(13)。另外，式(13)的多信道多阶线性预测模型为时域的模型。

[算式7]

x_{w} (n) = Σ_{m = 1}^{M} Σ_{p = 1}^{[N / M]} α_{w, m} (p) \cdot x_{m} (n - p - D) + e_{w} (n) \cdot \cdot \cdot (13)

这里，n表示离散时间。此外，x_w(n)相当于由传感器w(w＝1，...，M)观测并在离散时间n被采样了的信道w的离散声响信号，或者将这些信号进行模拟白色化后的离散声响信号。此外，x_m(n)相当于由传感器m观测并在离散时间n被采样了的离散声响信号，或者将这些信号进行模拟白色化后的离散声响信号。e_w(n)是对应于传感器w以及离散时间n的预测误差，该预测误差项以外的式(13)右边的项相当于线性预测项。此外，M表示传感器的总数。N-1是滤波器长(线性预测次数)。另外，[·]为高斯记号，表示不超过·的最大的整数。此外，α_w，m(p)是与x_w(n)对应的线性预测项的传感器m所对应的第p个线性预测系数。此外，D表示阶长(延迟)。此外，在式(13)的情况下，(n-[N/M]-D)以上且(n-1-D)以下的时间区间相当于多信道多阶线性预测模型的定义所示的“长时间区间”，x_w(n)相当于“长时间区间的规定时间后的离散声响信号值”。

在原理2中，使用多信道的离散声响信号或将这些信号进行模拟白色化后的离散声响信号，求这样的多信道多阶线性预测模型的线性预测系数α_w，m(p)，并求多信道多阶线性预测模型的线性预测项的值。该线性预测项的值为后部混响分量的预测值(后部混响预测值)。此后，求频域中的离散声响信号的振幅谱和后部混响预测值的振幅谱的相对值，并将其作为后部混响除去信号的振幅谱预测值(例如，参照“S.F.Boll，“Suppression ofacoustic noise inspeech using spectral subtraction，”IEEE Trans.on Acoustics，Speech and SignalProcessing，27(2)，pp.113-120，1979”)。通过这样的方法，能够高精度地提取对于语音识别处理等重要的直接声音分量的振幅谱。

[从别的观点对原理1、2的说明]

从别的观点说明上述原理1、2。

[问题设定]

首先，使用V次的FIR滤波器d(k)和白色信号u(n)如以下这样表现与时域中的离散时间对n应的原声响信号s(n)。

[算式8]

s (n) = Σ_{k = 0}^{V} d (k) \cdot u (n - k) \cdot \cdot \cdot (14)

如果使用该式子，则能够如以下这样将由传感器m所观测到的声响信号x_m(n)模型化。

[算式9]

x_{m} (n) = \underset{t}{Σ} h_{m} (t) \cdot s (n - t)

= Σ_{L = 0}^{T - 1} g_{m} (L) \cdot u (n - L) \cdot \cdot \cdot (15)

其中，

[算式10]

g_{m} (L) = Σ_{k = 0}^{V} h_{m} (L - k) \cdot d (k) \cdot \cdot \cdot (16)

h_m(n)表示传感器m和声源之间的脉冲响应。

通过矩阵形式将式(15)改写，则如以下这样。

X_{m} (n) = G_{m} \cdot U (n) \cdot \cdot \cdot (17)

另外，

U(n)＝[u(n)，u(n-1)，...，u(n-T-N+1)]^T

X_m(n)＝[x_m(n)，x_m(n-1)，...，x_m(n-N)]^T

g_m＝[g_m(0)，g_m(1)，...，g_m(T-1)]

[算式11]

此外，[·]^T表示矩阵·的转置。

[M＝1(原理1)的情况下的后部混响的估计]

如前所述，在原理1中，将被观测的声响信号例如式(5)这样模型化。在式(5)中，求使预测误差分量e₁(n)的能量最小的线性预测系数α_1，1(p)等价于解以下的正规方程式。

(E{x₁(n-1-D)·x₁ ^T(n-1-D)})·A＝E{x₁(n-1-D)·x₁(n)}…(18)

另外，E{·}表示·的时间平均，A表示式(5)的线性预测系数α_1，1(p)的矩阵形式A＝[α_1，1(1)，α_1，1(2)，...，α_1，1(N-1)]^T。

从而，可以如以下这样求A。

A＝(E{x₁(n-1-D)·x₁ ^T(n-1-D)})^-1·E{X₁(n-1-D)·X₁(n)}…(19)

如果将式(19)的(·)^-1内展开则如以下这样。

E{X₁(n-1-D)·X₁ ^T(n-1-D)}＝G₁·E{U(n-1-D)·U^T(n-1-D)}·G₁ ^T

＝σ₁ ²·G₁·G₁ ^T…(20)

这里，白色信号u(n)的自相关矩阵假定为E{U(n-1-D)·U^T(n-1-D)}＝σ_u ²·I。另外，σ_u ²表示u(n)的方差，I表示单位矩阵。

另外，式(19)的E{x₁(n-1-D)·x₁(n)}可以如以下这样展开。

E{x₁(n-1-D)·x₁(n)}＝G₁·E{U(n-1-D)·U^T(n)}·g₁ ^T＝σ_u ²·G₁·g_late，1 ^T…(21)

另外，g_late，1＝[g(D)，g(D+1)，...，g(T-1)，0，...，0]^T。即，g_late，1表示g(n)的第D个以后的要素，相当于后部混响。

使用式(20)、(21)，可以如以下这样重写式(19)的A。另外，(·)^-1表示·的逆矩阵。

A＝(G₁·G₁ ^T)^-1·G₁·g_late.1…(22)

这里，将(5)的线性预测系数的矩阵形式A与声响信号的矩阵形式X₁(n)相乘，并取其方均则如下。

E{(X₁ ^T(n)·A)²}

＝‖Λ^T·G₁·E{U(n)·U^T(n)}·G₁ ^T·A‖

＝‖σ_u ²·A^T·G₁·G₁ ^T·A‖…(23)

＝‖σ_u ²·g_ate，1 ^T·G₁ ^T·(G₁·G₁ ^T)^-1·G₁·g_late，1 ^T‖

≦‖σ_u ²·g_late，1 ^T‖·‖G₁ ^T·(G₁·G₁ ^T)^-1·G₁‖·‖g_late，1 ^T‖…(24)

＝‖σ_u ²·g_late，1 ^T‖²…(25)

这里，‖·‖表示矩阵·的L₂模方(norm)。此外，为了导出式(23)，白色信号u(n)的自相关矩阵假定如E{U(n)·U^T(n)}＝σ_u ²·I这样展开。对于足够长的声响信号，该分解成立。此外，对于式(24)的导出，使用了式(22)和柯西-施瓦兹(Cauchy-Schwarz)的不等式。进而，对于式(25)的导出，使用了‖G₁ ^T·(G₁·G₁ ^T)-1·G₁‖为投影矩阵，其模方为1的情况。

此外，σ_u ²表示白色信号u(n)的方差，g_late，1为对应于后部混响的分量，因此式(25)的‖σ_u ²·g_late，1 ^T‖²表示后部混响分量的功率。从而(5)的线性预测系数的矩阵形式A与声响信号的矩阵形式X₁(n)相乘，取其方均的值即使不能说是始终准确地估计后部混响分量的功率的值，也不是将后部混响分量的功率过大估计的值。

[M≥2(原理2)的情况下的后部混响的估计]

多信道多阶线性预测模型可以通过所述式(13)定式化。这里，将式(13)的[N/M]设为L，则式(13)如下。

[算式12]

x_{w} (n) = Σ_{m = 1}^{M} Σ_{p = 1}^{L} α_{w, m} (p) \cdot x_{m} (n - p - D) + e_{w} (n) \cdot \cdot \cdot (26)

在式(26)中，求使预测误差分量e_w(n)的能量为最小的线性预测系数α_w，m(p)与解以下的正规方程式等价。

(E{X(n-1-D)·X^T(n-1-D)})·A_w＝E{X(n-1-D)·X(n)}…(27)

另外，X(n)＝[X₁ ^T(n)，X₂ ^T(n)，...，X_M ^T(n)]^T，A是式(26)的线性预测系数α_w，m(p)的矩阵形式，A_w＝[α_w，1(1)，...，α_w，1(L)，α_w，2(1)...，α_w，M(L)]^T。

从而，A_w如以下这样得到。另外，(·)⁺表示矩阵(·)的Moor-Penrose型一般化逆矩阵。

A_w＝(E{X(n-1-D)·X^T(n-1-D)})⁺·E{X(n-1-D)·X(n)}…(28)

如果与M＝1的情况同样将式(28)展开，则A_w可以如以下这样变形。

A＝(G·G^T)⁺·G·g_late,w

＝(G^T)⁺·g_late,w…(29)

另外，G＝[G₁ ^T，G₂ ^T，...，G_M ^T]^T，g_late，w＝[g_w(D)，g_w(D+1)，...，g_w(T-1)，0，...，0]^T。此外，G是列满秩(full rank)。

接着，使用估计出的线性预测系数α_w,m(p)的矩阵形式A_w，从由多个传感器观测到的多信道声响信号来估计后部混响。因此，将向量X(n)的转置和式(26)的线性预测系数α_w，m(p)的矩阵形式A_w相乘，则如下。

X^T(n)·A_w＝U^T(n)·G^T·A_w

＝U^T(n)·G^T·(G^T)⁺·g_late，w…(30)

＝U^T(n)·G^T·G·(G^T·G)^-1·g_late，w…(31)

＝U^T(n)·g_late,w…(32)

另外，对式(30)的导出使用式(29)，对式(31)的导出使用Moor-Penrose型一般化逆矩阵的定义。这里，U^T(n)·g_late，w表示声响信号的后部混响分量。从而，可知通过将式(28)的向量的转置和式(26)的线性预测系数α_w，m(p)的矩阵形式A_w相乘，从而能够正确地估计声响信号的后部混响分量。换言之，可知通过使用多信道多阶线性模型，从而能够始终正确地估计后部混响分量。

[多阶线性预测模型的D的值和声响信号的短时间相关]

接着，说明多阶线性预测模型的D的值和声响信号的短时间相关的关系。

原理1、2的方法是以式(4)、(12)的近似成立为前提的方法。换言之，在原理1、2的方法中，在室内传递函数h_m(n)和式(15)所示的合成传递函数g_m(n)的差(‖h_m(n)‖-‖g_m(n)‖)(m≥1)充分小的情况下，能够进行正确的后部混响除去。

图23A是将室内传递函数值h取作纵轴并将时间(ms)取作横轴的曲线图。图23B是将合成传递函数值g取作纵轴并将时间(ms)取作横轴的曲线图。此外，图23C是将室内传递函数h和合成传递函数g的能量差取作纵轴并将时间(ms)取作横轴的曲线图。

如图23A所例示的，室内传递函数值h随时间经过而指数衰减。此外，如图23B所例示的，合成传递函数值g也随时间经过而指数衰减。此外，如图23C所例示的，在室内传递函数值h和合成传递函数值g大的时间，它们的能量差也大，在室内传递函数值h和合成传递函数值g小的时间，它们的能量差也小。即，随时间的经过，室内传递函数h和合成传递函数g的能量差也减小。而且，在经过“某一时间”后，该能量差减小到相对于语音信号整体的能量能够忽视的程度(规定阈值以下或小于规定阈值)。因此，为了进行正确的后部混响除去，最好将式(5)、(13)的多阶线性预测模型的D设定为该“某一时间”以上。但是，室内传递函数h和合成传递函数g的能量比和d(z)未知，该“某一时间”也不定。从而，一般从经验法则来估计该“某一时间”，并基于该估计来设定多阶线性预测模型的D的值。而且，更理想的是，假设该“某一时间”的估计困难，并且通过所述模拟白色化来抑制d(z)分量。由此，能够忽视室内传递函数h和合成传递函数g的能量差，并且能够进行正确的后部混响除去的D的可设定范围增大。另外，一般D的下限值为1，但如果能够通过模拟白色化来充分抑制d(z)分量，则也可以是D＝0。

此外，作为多阶线性预测模型的D的上限值，可以例示离散时刻n中的x_m(n)的n+1+D时刻的混响分量在规定值(例如，比离散时刻n的x_m(n)低60dB的值)以上或超过该规定值的值。

[第一实施方式]

接着，说明本发明的第一实施方式。第一实施方式是传感器数M为M≥2的情况下的实施方式。

<硬件结构>

图3是例示本实施方式中的混响除去装置10的硬件结构的方框图。

如图3所例示的，本例的混响除去装置10具有CPU(Central ProcessingUnit)11、输入单元12、输出单元13、辅助存储单元14、ROM(Read OnlyMemory)15、RAM(Random Access Memory)16和总线17。

本例的CPU11具有控制单元11a、运算单元11b以及寄存器11c，按照由寄存器11c读入的各种程序来执行各种运算处理。此外，输入单元12为输入数据的输入接口、键盘、鼠标等，输出单元13是输出数据的输出接口等。辅助存储装置14例如为硬盘、MO(Magneto-Optical disc)、半导体存储器等，具有存储了使计算机作为混响除去装置10起作用的程序的程序区域14a以及存储各种数据的数据区域14b。此外，RAM16为SRAM(Static RandomAccess Memory)、DRAM(Dynamic Random Access Memory)等，具有存储上述程序的程序区域16a以及存储各种数据的数据区域16b。此外，总线17可通信地连接CPU11、输入单元12、输出单元13、辅助存储装置14、ROM15以及RAM16。

另外，作为这样的硬件的具体例子，例如，除了个人计算机之外，还可以例示服务器装置和工作站等。

<程序结构>

如上所述，在程序区域14a、16a中存储用于执行本方式的混响除去装置10的各处理的混响除去程序。构成混响除去程序的各程序可以作为单一的程序列记载，或者也可以将至少一部分程序作为分别的模块而存储在库(library)中。此外，各程序可以单独实现各个功能，也可以由各程序进一步读出其它库来实现各功能。

<硬件和程序的协作>

CPU11(图3)按照读入的OS(Operating System)程序，将辅助存储装置14的程序区域14a中存储的上述程序写入RAM16的程序区域16a中。同样，CPU11将辅助存储装置14的数据区域14b中存储的各种数据写入RAM16的数据区域16b中。然后，被写入该程序或数据的RAM16上的地址被存储在CPU11的寄存器11c。CPU11的控制单元11a依次读出存储在寄存器11c中的这些地址，并从读出的地址所表示的RAM16上的区域中读出程序或数据，由运算单元11b依次执行该程序所示的运算，并将该运算结果存储在寄存器11c中。

图1是例示如这样通过在CPU中读入上述程序并执行而构成的混响除去装置10的功能结构的方框图。此外，图2A是例示模型应用单元10b的功能结构的细节的方框图，图2B是例示延迟调节单元10i的功能结构的细节的方框图。

如图1所例示的，混响除去装置10具有:存储器10a、模型应用单元10b、后部混响预测单元10c、频域变换单元10d、后部混响除去单元10e、复谱生成单元10f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i、存储器10j、控制单元10k。

此外，如图2A所例示的，模型应用单元10b具有模拟白色化单元100和第一线性预测系数计算单元200，模拟白色化单元100具有第二线性预测系数计算单元110和逆滤波器处理单元120。此外，第二线性预测系数计算单元110具有自相关系数计算单元111、自相关系数平均化单元112、方程式运算单元113。此外，如图2B所例示的，延迟调节单元10i具有延迟单元10ia、延迟校正单元10ib。

这里，存储器10a和存储器10j相当于辅助存储装置14、RAM16、寄存器11c、其它缓冲存储器或闪存等其中一个、或将它们并用的存储区域。此外，模型应用单元10b、后部混响预测单元10c、频域变换单元10d、后部混响除去单元10e、复谱生成单元10f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i以及控制单元10k通过使CPU11执行混响除去程序而构成。

此外，本方式的混响除去装置10在控制单元10k的控制下执行各处理。此外，只要没有特别表示，运算过程的各数据逐一被存储、读出到存储器10j中，进行各运算处理。在存储器10a或存储器10j中存储了x₁(n)、α_1，2(p)等各数据，但它们与数据属性、下标的值[例如，数据x₁(n)的下标“1”]以及(·)内的各值[例如，数据x₁(n)的n]对应被存储，通过指定它们从而能够提取对应的数据。

<混响除去处理>

接着，说明本方式的混响除去处理。

图4、5是用于说明本方式的混响除去处理的整体的流程图。此外，图6A是用于说明图4的步骤S1(模型应用步骤)的细节的流程图，图6B是用于说明图6A的步骤S21(模拟白色化步骤)的细节的流程图。此外，图7A是用于说明图6B的步骤S31(第二线性预测系数计算步骤)的细节的流程图，图7B是用于说明图4的步骤S4的细节的流程图。以下，使用这些图说明本方式的混响除去处理。

[前处理]

首先，由M(M≥2)个传感器分别观测到的M个信道w(w＝1，...，M)的声响信号以规定的抽样频率被采样，生成每个信道的离散声响信号值x₁(n)...x_M(n)。另外，n表示离散时间。生成的各信道的离散声响信号值x₁(n)...x_M(n)分别被存储在存储器10a中。另外，在本方式中，事先取得进行混响除去的全部时间区间的离散声响信号值x₁(n)...x_M(n)，并存储在存储器10a中，并对每个分析帧执行以下的各步骤。但是，也可以实时地取得离散声响信号值x₁(n)...x_M(n)，同时执行以下各步骤。

此外，混响除去装置10最终输出的信息表示仅是后部混响除去信号的振幅谱还是也具有相位分量的声响信号的信息存储在存储器10j中。在本方式中，将标记(flag)(数据)δ存储在存储器10j中。然后，在输出的信息仅是直接声音的振幅谱的情况下设为δ＝1，在是也具有相位分量的声响信号的情况下设为δ＝0。另外，混响除去装置10最终输出的信息也可以仅仅是后部混响除去信号的振幅谱的情况，例如可以例示将混响除去装置10最终输出的信息用作语音识别系统的输入信息的情况。

以下，说明本方式的后部混响除去处理。另外，以下，仅说明一个分析帧的处理步骤，但实际上对多个分析帧进行同样的处理。此外，分析帧表示包含多个离散时间n的时间区间。

[模型应用步骤(步骤S1)]

在模型应用步骤中，模型应用单元10b使用从存储器10a读入的1分析帧的M信道的离散声响信号值x₁(n)...x_M(n)，计算式(13)所示的多阶线性预测模型的各线性预测系数α_w，1(p)...α_w，M(p)(步骤S1)。以下，分层地说明该处理的细节。

[模型应用步骤(步骤S1)的细节(图6A)]

如图6A所例示的，在模型应用步骤中，首先，模拟白色化(Pre-whitening)单元100(图2A)抑制输入的离散声响信号值x₁(n)...x_M(n)所具有的短时间区间中的自相关分量，生成模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)并输出(模拟白色化步骤/步骤S21)。即，从各离散时间的上述离散声响信号值x₁(n)...x_M(n)中抑制与紧接着该离散时间n之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量，并生成模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)。

如前所述，多阶线性预测模型与抑制了按照d(z)的短期自相关(短时间区间中的自相关分量)后的离散声响信号非常一致。从而，从离散声响信号值x₁(n)...x_M(n)中抑制这样的短期自相关，在高精度地估计后部混响上是理想的。

接着，上述模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)被输入到第一线性预测系数计算单元200(图2A)中，第一线性预测系数计算单元200使用该模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)计算式(13)所示的多阶线性预测模型的各线性预测系数α_w，1(p)...α_w，M(p)并输出(第一线性预测系数计算步骤/步骤S22)。另外，作为一例，将式(13)中的延迟D例如设为30ms(在抽样频率12000Hz的情况下，相当于300轻拍(tap))，将N例如设为300左右。此外，作为使用x₁’(n)...x_M’(n)计算α_w，1(p)...α_w,M(p)的方法，可以例示自相关法(correlation method)和协方差法(covariance method)。此外，也可以使用MATLAB(注册商标)等来进行该处理。

[模拟白色化步骤(步骤S21)的细节(图6B)]

接着，说明模拟白色化步骤(步骤S21)的细节。在本方式中，作为一例，通过线性预测来进行模拟白色化步骤。首先，如图6B所例示的，第二线性预测系数计算单元110使用输入的离散声响信号值x₁(n)...x_M(n)计算短时间线性预测模型的各线性预测系数b(1)...b(q)并输出(第二线性预测系数计算步骤/步骤S31)。另外，“短时间线性预测模型”表示通过将短时间区间中的信道w的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在紧接着短时间区间之后的离散时间n的该信道w的离散声响信号值的线性预测模型。这里，“短时间区间”比由多阶线性预测模型的定义所示的“长时间区间”短。在本方式中，使用以下的短时间线性预测模型。

[算式13]

x_{m} (n) = Σ_{i = 1}^{q} b (i) \cdot x_{m} (n - i) + x_{m}' (n) \cdot \cdot \cdot (33)

另外，式(33)中的x_m’(n)的项相当于预测误差项，除此以外的右边的项相当于线性预测项。此外，b(i)表示线性预测项的第i个线性预测系数。此外，式(33)中的短时间区间根据离散声响信号值x₁(n)...x_M(n)的短时间相关分量的序列长或功率而适当设定即可。作为一例，可以将短时间区间设为30ms(在抽样频率12000Hz的情况下，q＝300)左右。在该情况下，通过以下的步骤S32能够抑制在短时间区间30ms内具有自相关的初始反射声音分量或直接声音分量。

接着，对逆滤波器处理单元120(图2A)中输入各线性预测系数b(1)...b(q)、离散声响信号值x₁(n)...x_M(n)。逆滤波器处理单元120对将各线性预测系数b(1)...b(q)代入短时间线性预测模型(式(33))而得到的逆滤波器

[算式14]

x_{m}' (n) = x_{m} (n) - Σ_{i = 1}^{q} b (i) \cdot x_{m} (n - i) \cdot \cdot \cdot (34)

代入离散声响信号值x₁(n)...x_M(n)，并将由此得到的短时间线性预测模型的预测误差项的值作为进行了模拟白色化的离散声响信号值x₁’(n)...x_M’(n)来计算并输出(逆滤波器处理步骤/步骤S32)。

[第二线性预测系数计算步骤(步骤S31)的细节(图7A)]

接着，说明第二线性预测系数计算步骤(步骤S31)的细节。在本方式的例子中，使用自相关法执行第二线性预测系数计算步骤。但是，也可以使用协方差法等其它公知的线性预测系数计算方法来执行第二线性预测系数计算步骤。

首先，如图7A所例示的，首先，自相关系数计算单元111(图2A)使用输入的离散声响信号值x₁(n)...x_M(n)，对每个信道计算离散声响信号值x₁(n)...x_M(n)的自相关系数c₁(i)...c_M(i)并输出(自相关系数计算步骤/步骤S41)。具体来说，例如自相关系数计算单元111按照以下的式(35)计算自相关系数c₁(i)...c_M(i)并输出。另外，T是大于q(式(33)、(34))且小于1分析帧所具有的样本数的自然数。此外，以下的运算例如在上述离散声响信号值x₁(n)...x_M(n)乘以在n<0、n≥T的范围内为0这样的有限长的窗(汉明(hamming)窗等)之后进行。此外，i＝0，1，...，q。

[算式15]

c_{m} (i) = Σ_{n = 0}^{T - 1 - i} x_{m} (n) \cdot x_{m} (n + i) \cdot \cdot \cdot (35)

接着，对自相关系数平均化单元112(图2A)输入各信道的自相关系数c₁(i)...c_M(i)，自相关系数平均化单元112计算将这些自相关系数c₁(i)...c_M(i)在信道之间平均之后的平均自相关系数c(i)并输出(自相关系数平均化步骤/步骤S42)。该平均自相关系数c(i)的计算例如按照以下的式(36)进行。

[算式16]

c (i) = \frac{1}{M} Σ_{m = 1}^{M} c_{m} (i) \cdot \cdot \cdot (36)

接着，如上述这样求出的各平均自相关系数c(i)被输入方程式运算单元113，方程式运算单元113使用各平均自相关系数c(i)，如以下这样，求Yule-Walker的方程式(正规方程式)的解，从而计算短时间线性预测模型的各线性预测系数b(1)...b(q)并输出(方程式运算步骤/步骤S43)。

[算式17]

如以上这样，由于采用了使用将对每个信道生成的自相关系数c₁(i)...c_M(i)在信道之间平均之后的平均自相关系数c(i)计算各线性预测系数b(1)...b(q)的结构，因此与使用由任何一个信道生成的自相关系数的情况相比，线性预测系数b(1)...b(q)的计算精度提高，并且能够进一步有效地抑制离散声响信号值x₁(n)...x_M(n)所具有的按照d(z)的短期自相关。如前所述，这带来后部混响除去的精度的提高(模型应用步骤(步骤S1)的细节说明结束)。

[后部混响预测步骤(步骤S2)]

在模型应用步骤(步骤S1)之后，对后部混响预测单元10c输入从存储器10a读入的离散声响信号值x₁(n)...x_M(n)、由模型应用步骤(步骤S1)计算出的各线性预测系数α_w，1(p)...α_w，M(p)。然后，后部混响预测单元10c将各线性预测系数α_w，1(p)...α_w，M(p)和离散声响信号值x₁(n)...x_M(n)代入多阶线性预测模型的线性预测项而得到的线性预测值，作为后部混响预测值r_w(n)(w＝1，...，M)计算并输出(步骤S2)。在本方式中，由于使用式(13)的多阶线性预测模型，因此后部混响预测单元10c按照以下的式(38)求后部混响预测值r_w(n)并输出。

[算式18]

r_{w} (n) = Σ_{m = 1}^{M} Σ_{p = 1}^{[N / M]} α_{w, m} (p) \cdot x_{m} (n - p - D) \cdot \cdot \cdot (38)

[频域变换步骤(步骤S3)]

接着，对频域变换单元10d输入从存储器10a读入的离散声响信号值x₁(n)...x_M(n)、由后部混响预测步骤(步骤S2)计算出的后部混响预测值r₁(n)...r_M(n)。频域变换单元10d将输入的离散声响信号值x₁(n)...x_M(n)变换为频域的离散声响信号值X₁(f，t)...X_M(f，t)，并将后部混响预测值r₁(n)...r_M(n)变换为频域的后部混响预测值R₁(f，t)...R_M(f，t)(步骤S3)。在本方式中，例如使用窗长30ms的汉明窗等有限长的窗函数，通过短时间傅立叶变换(DFT:Discrete Fourier Transform)等进行这些向频域的变换。频域变换单元10d通过这些处理提取并输出频域的离散声响信号值X₁(f，t)...X_M(f，t)的振幅谱|X₁(f，t)|...|X_M(f，t)|和相位信息arg[X₁(f，t)]...arg[X_M(f，t)]、以及频域的后部混响预测值R₁(f，t)...R_M(f，t)的振幅谱|R₁(f，t)|...|R_M(f，t)|和相位信息arg[R₁(f，t)]...arg[R_M(f，t)]。另外，arg[·]表示·的辐角。

[后部混响除去步骤(步骤S4)]

接着，对后部混响除去单元10e输入频域的离散声响信号值的振幅谱|X₁(f，t)|...|X_M(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|。然后，后部混响除去单元10e求频域的离散声响信号值的振幅谱|X₁(f，t)|...|X_M(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|的每个传感器的相对值，并将该相对值作为后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|而输出(步骤S4)。以下，例示该处理的细节。

[后部混响除去步骤(步骤S4)的细节(图7B)]

如图7B所例示的，首先，后部混响除去单元10e使用振幅谱|X₁(f，t)|...|X_M(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|，对各m(m＝1，...，M)进行

|X_m(f，t)|k-|R_m(f，t)|^k·const…(39)

的运算，并将各运算结果存储在存储器10j中(步骤S51)。另外，const表示常数，k表示自然数。在本方式中，假设const＝1.0，k＝2。

接着，控制单元10k将1代入变量m，并将该m存储在存储器10j中(步骤S52)。接着，控制单元10k判断存储在存储器10j中的式(39)的运算结果是否满足以下的关系(步骤S53)。

|X_m(f，t)|^k-|R_m(f，t)|^k·const>0…(40)

这里，在判断为满足式(40)的关系的情况下，控制单元10k对后部混响除去单元10e提供命令，后部混响除去单元10e通过

计算对应于变量m的|S_m(f，t)|并输出(步骤S54)。另一方面，在判断为不满足式(40)的关系的情况下，控制单元10k对后部混响除去单元10e提供命令，后部混响除去单元10e将0或充分小的值作为对应于变量m的|S_m(f，t)|输出(步骤S55)。另外，步骤S53～S55的处理相当于半波整流处理。也可以通过步骤S53～S55以外的方法进行半波整流。

在半波整流后，控制单元10k参照存储器10j，判断变量m是否为M(步骤S56)。这里，如果不是m＝M，则控制单元10k将m+1作为新的变量m的值存储在存储器10j中(步骤S57)，并将处理返回到步骤S53。另一方面，如果m＝M，则控制单元10k结束步骤S4的处理(后部混响除去步骤(步骤S4)的详细的说明结束)。

[标记判定步骤(步骤S5、S6)]

在步骤S4之后，控制单元10k读出存储器10j中存储的标记δ，并判断该标记δ是否是表示仅输出振幅谱的标记，即是否δ＝1(步骤S5)。这里，如果δ＝1，则控制单元10k将在后部混响除去步骤(步骤S4)中由后部混响除去单元10e生成的后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|作为混响除去装置10的最终的输出信息输出(步骤S6)，并结束该分析帧的处理。这样输出的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|例如被传送给接着在混响除去装置10的后级的语音识别系统等应用，并变换为特征量。

另一方面，如果δ＝0，则控制单元10k执行以下的步骤S7以后的处理。

[复谱生成步骤(步骤S7)]

在复谱生成步骤中，首先对复谱生成单元10f输入从后部混响除去单元10e输出(步骤S4)的后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|，和从频域变换单元10d输出(步骤S3)的频域的离散声响信号值的相位信息arg[X₁(f，t)]...arg[X_M(f，t)]。复谱生成单元10f使用这些信息，按照以下的式(42)，计算后部混响除去信号值的复谱预测值S₁(f，t)...S_M(f，t)并输出(步骤S7)。另外，exp(·)是以纳披尔数为底的指数函数，j是虚数单位。

S_m(f，t)＝|S_m(f，t)|·exp(j·arg[X_m(f，t)])…(42)

[时域变换步骤(步骤S8)]

在步骤S7之后，对时域变换单元10g输入上述后部混响除去信号值的复谱预测值S₁(f，t)...S_M(f，t)。然后，时域变换单元10g计算将后部混响除去信号值的复谱预测值S₁(f，t)...S_M(f，t)变换到时域后的后部混响除去信号估计值s₁(n)...s_M(n)并输出(步骤S8)。另外，对时域的变换例如通过逆傅立叶变换进行。

[延迟量计算步骤(步骤S9)]

在步骤S8之后，对延迟量计算单元10h输入后部混响除去信号估计值s₁(n)...s_M(n)。然后，延迟量计算单元10h根据各信道决定使后部混响除去信号估计值s₁(n)...s_M(n)的信道间互相关极大的后部混响除去信号估计值的延迟量τ₁...τ_M(步骤S9)。以下示出该具体例子。

[延迟量计算步骤(步骤S9)的具体例]

首先，延迟量计算单元10h对输入的分析帧内的后部混响除去信号估计值s₁(n)...s_M(n)，求如以下的式(43)这样的信道间相关函数A_m(τ)的函数值。另外，E{·}是平均运算符。

A_m(τ)＝E{s₁(n)·s_m(n+τ)}…(43)

接着，延迟量计算单元10h对各m求使信道间相关函数A_m(τ)为极大(例如最大)的τ，作为τ_m。例如，在将使信道间相关函数A_m(τ)为最大的τ作为τ_m的情况下，延迟量计算单元10h计算

τ_m＝max{A_m(τ)]…(44)

并输出。另外，max{·}检测·的最大值。此外，τ_m是信道m的后部混响除去信号估计值的延迟量，在延迟量中也包含τ_m＝0(延迟两计算步骤(步骤S9)的具体例子的说明结束)。

[延迟调节步骤(步骤S10、S11)]

在步骤S9之后，各延迟量τ₁...τ_M和后部混响除去信号估计值s₁(n)...s_M(n)被输入到延迟调节单元10i(图1)。然后，延迟调节单元10i的延迟单元10ia(图2B)将各信道的后部混响除去信号估计值s₁(n)...s_M(n)分别延迟延迟量τ₁...τ_M，计算s₁(n+τ₁)...s_M(n+τ_M)并输出(步骤S10)。

接着，s₁(n+τ₁)...s_M(n+τ_M)被输入到延迟校正单元10ib(图2B)，延迟校正单元10ib按照以下的式(45)，计算s₁(n+τ₁)...s_M(n+τ_M)之和(步骤S11)，并将该和作为校正混响除去信号值s(n)输出(步骤S12)，并结束该分析帧的处理。各信道的后部混响信号中包含的误差分量在统计上独立的步骤的情况下，可以通过该操作来抑制误差。

[算式19]

s (n) = Σ_{m = 1}^{M} s_{m} (n + τ_{m}) \cdot \cdot \cdot (45)

[第二实施方式]

接着，说明本发明的第二实施方式。第二实施方式是第一实施方式的变形例。

第一实施方式的[后部混响预测步骤(步骤S2)]中，作为后部混响预测值r_w(n)(w＝1，...，M)，计算将各线性预测系数α_w，1(p)...α_w，M(p)和未进行模拟白色化的离散声响信号值x₁(n)...x_M(n)代入多阶线性预测模型的线性预测项而得到的线性预测值。此外，在[后部混响除去步骤(步骤S4)]中，求未进行模拟白色化的频域的离散声响信号值的振幅谱|X₁(f，t)|...|X_M(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|的每个传感器的相对值，并将该相对值作为后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|。

而在第二实施方式中，在[后部混响预测步骤]中，作为后部混响预测值r_w(n)(w＝1，...，M)，计算将各线性预测系数α_w，1(p)...α_w，M(p)和未进行模拟白色化的离散声响信号值x_1’(n)...x_M’(n)代入多阶线性预测模型的线性预测项而得到的线性预测值。此外，在第二实施方式中，在[后部混响除去步骤]中，求进行了模拟白色化后的频域的离散声响信号值的振幅谱|X_1’(f，t)|...|X_M’(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|的每个传感器的相对值，并将该相对值作为后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|。这样得到的后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|是短时间相关分量被抑制后(模拟白色化后)的值。因此，这样得到的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|适合作为对例如语音识别系统这样的需要模拟白色化后的数据的系统的输入。因为在这样的系统中，不需要模拟白色化的前处理。

这些是第一实施方式和第二实施方式的不同点。以下，以与第一实施方式的不同点为中心进行说明，对于与第一实施方式相同的事项省略说明。

<硬件结构>

与第一实施方式中说明的相同。

<硬件和程序的协作>

本方式的混响除去装置也通过将规定程序读入计算机并执行而构成。图8是例示本方式的混响除去装置310的功能结构的方框图。此外，图9是例示模型应用单元310b的功能结构的细节的方框图。另外，在图8、9中，对与第一实施方式相同的部分使用与第一实施方式相同的标号。

如图8中所例示的，混响除去装置310具有存储器10a、模型应用单元310b、后部混响预测单元310c、频域变换单元310d、后部混响除去单元310e、复谱生成单元310f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i、存储器10j、控制单元10k。

此外，如图9所例示的，模型应用单元310b具有模拟白色化单元100和第一线性预测系数计算单元200，模拟白色化单元100具有第二线性预测系数计算单元110和逆滤波器处理单元120。此外，第二线性预测系数计算单元110具有自相关系数计算单元111、自相关系数平均化单元112、方程式运算单元113。模型应用单元310b和第一实施方式的模型应用单元10b的不同点在于，模型应用单元310b的逆滤波器处理单元120将模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)也传送到后部混响预测单元310c和频域变换单元310d。

<混响除去处理>

接着，说明本方式的混响除去处理。

图10、11是用于说明本方式的混响除去处理的整体的流程图。以下，使用这些图说明本方式的混响除去处理。

[前处理]

与第一实施方式同样。

[模型应用步骤(步骤S101)]

在模型应用步骤中，模型应用单元310b使用从存储器10a读入的1分析帧的M信道的离散声响信号值x₁(n)...x_M(n)，计算式(13)所示的多阶线性预测模型的各线性预测系数α_w，1(p)...α_w，M(p)(步骤S101)。该处理与第一实施方式的[模型应用步骤(步骤S1)]同样，包含将离散声响信号值x₁(n)...x_M(n)模拟白色化的步骤。

[后部混响预测步骤(步骤S102)]

在模型应用步骤(步骤S101)之后，对后部混响预测单元310c输入在模型应用步骤(步骤S101)中模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)、由模型应用步骤(步骤S101)计算出的各线性预测系数α_w，1(p)...α_w，M(p)。

然后，后部混响预测单元310c将各线性预测系数α_w，1(p)...α_w，M(p)和模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)代入多阶线性预测模型的线性预测项而得到的线性预测值，作为后部混响预测值r_w(n)(w＝1，...，M)计算并输出(步骤S102)。在使用了式(13)的多阶线性预测模型时，后部混响预测单元310c按照以下的式(46)求后部混响预测值r_w(n)并输出。

[算式20]

r_{w} (n) = Σ_{m = 1}^{M} Σ_{p = 1}^{[N / M]} α_{w, m} (p) \cdot x_{m}' (n - p - D) \cdot \cdot \cdot (46)

[频域变换步骤(步骤S103)]

接着，对频域变换单元310d输入在模型应用步骤(步骤S101)中模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)、由后部混响预测步骤(步骤S102)计算出的后部混响预测值r₁(n)...r_M(n)。频域变换单元310d将输入的模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)变换为频域的离散声响信号值X₁’(f，t)...X_M’(f，t)，并将后部混响预测值r₁(n)...r_M(n)变换为频域的后部混响预测值R₁(f，t)...R_M(f，t)(步骤S103)。频域变换单元310d通过这些处理提取并输出频域的离散声响信号值X₁’(f，t)...X_M’(f，t)的振幅谱|X₁’(f，t)|...|X_M’(f，t)|和相位信息arg[X₁’(f，t)]...arg[X_M’(f，t)]、以及频域的后部混响预测值R₁(f，t)...R_M(f，t)的振幅谱|R₁(f，t)|...|R_M(f，t)|和相位信息arg[R₁(f，t)]...arg[R_M(f，t)]。

[后部混响除去步骤(步骤S104)]

接着，对后部混响除去单元310e输入频域的离散声响信号值的振幅谱|X₁’(f，t)|...|X_M’(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|。然后，后部混响除去单元310e求频域的离散声响信号值的振幅谱|X₁’(f，t)|...|X_M’(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|的每个传感器的相对值，并将该相对值作为后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|而输出(步骤S104)。

[标记判定步骤(步骤S105、S106)]

在步骤S104之后，控制单元10k读出存储器10j中存储的标记δ，并判断该标记δ是否是表示仅输出振幅谱的标记，即是否δ＝1(步骤S105)。这里，如果δ＝1，则控制单元10k将在后部混响除去步骤(步骤S104)中由后部混响除去单元310e生成的后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|作为混响除去装置310的最终的输出信息而输出(步骤S106)，并结束该分析帧的处理。另一方面，如果δ＝0，则控制单元10k执行以下的步骤S107以后的处理。

[复谱生成步骤(步骤S107)]

在复谱生成步骤中，首先对复谱生成单元310f输入从后部混响除去单元310e输出(步骤S104)的后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|，和从频域变换单元10d输出(步骤S3)的频域的离散声响信号值的相位信息arg[X₁’(f，t)]...arg[X_M’(f，t)]。复谱生成单元310f使用这些信息，按照以下的式(47)，计算后部混响除去信号值的复谱预测值S₁(f，t)...S_M(f，t)并输出(步骤S107)。

S_m(f，t)＝|S_m(f，t)|·exp(j·arg[X_m’(f，t)])…(47)

[时域变换步骤(步骤S108)、延迟量计算步骤(步骤S109)、延迟量调节步骤(步骤S110、S111)]

时域变换步骤(步骤S108)、延迟量计算步骤(步骤S109)、延迟量调节步骤(步骤S110、S111)与第一实施方式的时域变换步骤(步骤S8)、延迟量计算步骤(步骤S9)、延迟量调节步骤(步骤S10、S11)相同。

[第三实施方式]

接着，说明本发明的第三实施方式。第三实施方式是第一、第二实施方式的变形例。

在第一实施方式所例示的“第二线性预测系数计算步骤(步骤S31)”中，第二线性预测系数计算单元110使用将对每个信道生成的自相关系数c₁(i)...c_M(i)在信道之间平均后的平均自相关系数c(i)，计算短时间线性预测模型的各线性预测系数b(1)...b(q)。

而在第三实施方式的[第二线性预测系数计算步骤(步骤S31)]中，第二线性预测系数计算单元410计算离散声响信号值的自相关系数，并使用该自相关系数，计算短时间线性预测模型的各线性预测系数，所述离散声响信号值通过将由M个传感器中最接近声响信号的声源的一个传感器所观测到的声响信号，在多个时刻进行采样而得到。

这一点与第一实施方式不同。而且，该结构对第二实施方式也能够应用。以下，仅说明作为与第一、第二实施方式的不同点的第二线性预测系数计算单元410的结构以及[第二线性预测系数计算步骤(步骤S31)]的处理，并对与第一、第二实施方式相同的事项省略说明。

图12A是表示本方式的第二线性预测系数计算单元410的功能结构的方框图。另外，在图12A中，对于与第一实施方式相同的部分使用与第一实施方式相同的符号。此外，图12B是用于说明本方式的[第二线性预测系数计算步骤(步骤S31)]的流程图。

如图12A所例示的，本方式的第二线性预测系数计算单元410具有自相关系数计算单元411和方程式运算单元113。在本实施方式的第二线性预测系数计算步骤中，首先，自相关系数计算单元411(图12A)使用输入了的离散声响信号值x₁(n)...x_M(n)，计算离散声响信号值x_y(n)的自相关系数c_y(i)(i＝0，1，...，q)(步骤S141)，所述离散声响信号值通过将由M(M≥2)个传感器中最接近声响信号的声源的一个传感器y(y＝1，...，M)所观测到的声响信号，在多个时刻进行采样而得到。另外，最接近声响信号的声源的一个传感器y的信息可以是自相关系数计算单元411所具备的固定信息，也可以是对自相关系数计算单元411提供的变动信息。

接着，如上述这样求出的各自相关系数c(i)被输入到方程式运算单元113，方程式运算单元113使用各平均自相关系数c(i)，求Yule-Walker的方程式(正规方程式)的解，从而计算短时间线性预测模型的各线性预测系数b(1)...b(q)并输出(方程式运算步骤/步骤S142)。

如以上这样，在本方式中，采用了使用与最接近声响信号的声源的一个传感器对应的声响信号值的自相关系数，计算各线性预测系数b(1)...b(q)的结构。由此，与使用与其它传感器对应的声响信号值的自相关系数的情况相比，线性预测系数b(1)...b(q)的计算精度提高，能够更有效地抑制离散声响信号值x₁(n)...x_M(n)所具备的按照d(z)的短期自相关。如前所述，这使得后部混响除去的精度提高。

[第四实施方式]

接着，说明本发明的第四实施方式。第四实施方式是第一、第二实施方式的变形例。

在第一实施方式的[模拟白色化步骤(步骤S21)]中，使用短时间线性预测模型进行了离散声响信号值的模拟白色化。

而在第四实施方式的[模拟白色化步骤(步骤S21)]中，使用倒谱平均值消去(CMS，Cepstral Mean Subtraction)(例如，参照“B.S.Atal，“Effectivenessof linear prediction characteristics of the speech wave for automatic speakeridentification and verification，”Journal of Acoustical Society of America，55(6)，pp.1304-1312，1974.”)进行离散声响信号值的模拟白色化。

这一点是与第一实施方式的不同点。而且，该结构对第二实施方式也能够应用。以下，仅说明作为与第一、第二实施方式的不同点的模拟白色化单元510的结构以及[模拟白色化步骤(步骤S21)]的处理，并对与第一、第二实施方式相同的事项省略说明。

图13是表示本方式的模型应用单元500的功能结构的方框图。另外，对于在图13中与第一实施方式相同的部分使用与第一实施方式相同的标号。

如图13中例示的，本方式的模型应用单元500具有模拟白色化单元510和第一线性预测系数计算单元200。此外，模拟白色化单元510具有频域变换单元511、时间平均化单元512、减法单元513、时域变换单元514。

图14是用于说明本方式的[模拟白色化步骤(步骤S21)]的流程图。以下，使用该图说明本方式的[模拟白色化步骤(步骤S21)]。

首先，模拟白色化单元510的频域变换单元511从存储器10a读入1分析帧的M信道的离散声响信号值x₁(n)...x_M(n)。然后，频域变换单元511通过短时间傅立叶变换等将离散声响信号值x₁(n)...x_M(n)变换为频域的离散声响信号值X₁(f，t)...X_M(f，t)并输出(步骤S201)。另外，在通过短时间傅立叶变换而进行该处理的情况下，例如使用以下的式(48)。此外，F[·]表示短时间傅立叶变换函数，Log[·]表示对数函数。

X_m(f，t)＝Log[F[x_m(n)]]…(48)

接着，频域的离散声响信号值X₁(f，t)...X_M(f，t)被读入到时间平均化单元512，时间平均化单元512按照以下的式(49)，求频域的离散声响信号值X₁(f，t)...X_M(f，t)的时间平均X_m’(f)，并输出(步骤S202)。

[算式21]

E {X_{m} (f, t)} = \frac{1}{T} Σ_{t = 1}^{T} X_{m} (f, t) (m = 1, . . ., M) \cdot \cdot \cdot (49)

接着，频域的离散声响信号值X₁(f，t)...X_M(f，t)和它们的时间平均E{X_m(f，t)}被读入到减法单元513，减法单元513通过以下的式(50)，计算X_m’(f，t)(m＝1，...，M)，并输出(步骤S203)。

X_m’(f，t)＝X_m(f，t)—E{X_m(f，t)}…(50)

接着，X₁’(f，t)...X_M’(f，t)被读入到时域变换单元514，时域变换单元514通过逆傅立叶变换等将它们变换到时域，计算模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)，并输出(步骤S204)。另外，在通过逆傅立叶变换进行该处理的情况下，例如使用以下的式(51)。此外，invF[·]表示逆傅立叶变换函数，exp[·]表示以纳披尔数为底的指数函数。

x_m(n)＝invF[exp[x_m’(f，t)]]…(51)

另外，在上述短时间傅立叶变换函数F[·]和逆傅立叶变换函数invF[·]中使用窗长25ms的窗函数的情况下，可以除去25ms以内的初始反射分量以及短时间相关。

此外，在将本方式应用于第二实施方式的情况下，由时域变换单元514生成的模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)也被传送到后部混响预测单元310c和频域变换单元310d(图8)。

[第五实施方式]

接着，说明本发明的第五实施方式。第五实施方式是将第四实施方式的模拟白色化方法应用于第一实施方式时的变形例。

在第一实施方式的[频域变换步骤(步骤S3)]中，将离散声响信号值x₁(n)...x_M(n)变换为频域的离散声响信号值X₁(f，t)...X_M(f，t)，并将后部混响预测值r₁(n)...r_M(n)变换为频域的后部混响预测值R₁(f，t)...R_M(f，t)。但是，在进行第四实施方式的模拟白色化的情况下，在该步骤中(步骤S201)中得到频域的离散声响信号值X₁(f，t)...X_M(f，t)。

在第五实施方式中，借用在第四实施方式的模拟白色化的步骤中得到的频域的离散声响信号值X₁(f，t)...X_M(f，t)，将频域变换步骤的处理简化。

以下，以与此前说明的实施方式的不同点为中心进行说明，对于与它们相同的部分省略说明。

<硬件结构>

与第一实施方式中说明的相同。

<硬件和程序的协作>

本方式的混响除去装置也通过将规定程序读入计算机并执行而构成。图15是例示本方式的混响除去装置610的功能结构的方框图。另外，在图15中，对与此前说明的实施方式相同的部分使用与其相同的标号。

如图15中所例示的，混响除去装置610具有存储器10a、模型应用单元500、后部混响预测单元10c、频域变换单元510d、后部混响除去单元10e、复谱生成单元10f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i、存储器10j、控制单元10k。

<混响除去处理>

接着，说明本方式的混响除去处理。

图16是用于说明本方式的混响除去处理的整体的流程图。以下，使用该图说明本方式的混响除去处理。

[前处理]

与第一实施方式同样。

[模型应用步骤(步骤S211)]

在模型应用步骤中，模型应用单元500使用从存储器10a读入的1分析帧的M信道的离散声响信号值x₁(n)...x_M(n)，计算式(13)所示的多阶线性预测模型的各线性预测系数α_w，1(p)...α_w，M(p)(步骤S211)。该处理中，模拟白色化处理如第四实施方式中说明的那样，其它的处理与第一实施方式同样。

[后部混响预测步骤(步骤S212)]

在模型应用步骤(步骤S211)之后，对后部混响预测单元10c输入从存储器10a读出的离散声响信号值x₁(n)...x_M(n)、由模型应用步骤(步骤S211)计算出的各线性预测系数α_w，1(p)...α_w，M(p)。

然后，后部混响预测单元10c将各线性预测系数α_w，1(p)...α_w，M(p)和离散声响信号值x₁(n)...x_M(n)代入多阶线性预测模型的线性预测项而得到的线性预测值，作为后部混响预测值r_w(n)(w＝1，...，M)计算并输出(步骤S212)。

[频域变换步骤(步骤S213)]

接着，对频域变换单元510d输入由后部混响预测步骤(步骤S212)计算出的后部混响预测值r₁(n)...r_M(n)。频域变换单元510d将输入的后部混响预测值r₁(n)...r_M(n)变换为频域的后部混响预测值R₁(f，t)...R_M(f，t)(步骤S213)。频域变换单元510d通过该处理提取并输出频域的后部混响预测值R₁(f，t)...R_M(f，t)的振幅谱|R₁(f，t)|...|R_M(f，t)|和相位信息arg[R₁(f，t)]...arg[R_M(f，t)]。

[后部混响除去步骤(步骤S214)]

接着，对后部混响除去单元10e输入从模拟白色化单元510的频域变换单元511(图13)传送的频域的离散声响信号值的振幅谱|X₁’(f，t)|...|X_M’(f，t)|和由频域变换单元510d生成的频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|。然后，后部混响除去单元310e求频域的离散声响信号值的振幅谱|X₁’(f，t)|...|X_M’(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|的每个传感器的相对值，并将该相对值作为后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|而输出(步骤S214)。

[标记判定步骤(步骤S215、S216)]

本方式的[标记判定步骤(步骤S215、S216)]与第一实施方式的[标记判定步骤(步骤S5、S6)]相同。

[其它步骤]

其它步骤与第一实施方式相同。其中，与第一实施方式不同之处仅仅在于在[复谱生成步骤(步骤S7)]中，使用从模拟白色化单元510的频域变换单元511(图13)传送的相位信息arg[X₁(f，t)]...arg[X_M(f，t)]。

[第六实施方式]

接着，说明本发明的第六实施方式。第六实施方式是将第四实施方式的模拟白色化方法应用于第二实施方式时的变形例。

在第二实施方式的[频域变换步骤(步骤S103)]中，将离散声响信号值x₁(n)...x_M(n)变换为频域的离散声响信号值X₁(f，t)...X_M(f，t)，并将后部混响预测值r₁(n)...r_M(n)变换为频域的后部混响预测值R₁(f，t)...R_M(f，t)。但是，在进行第四实施方式的模拟白色化的情况下，在该步骤中(步骤S201)中，得到频域的离散声响信号值X₁(f，t)...X_M(f，t)。

在第六实施方式中，借用在第四实施方式的模拟白色化的步骤中得到的频域的离散声响信号值X₁(f，t)...X_M(f，t)，将频域变换步骤的处理简化。

<硬件结构>

与第一实施方式中说明的相同。

<硬件和程序的协作>

本方式的混响除去装置也通过将规定程序读入计算机并执行而构成。

图17是例示本方式的混响除去装置620的功能结构的方框图。在图17中，对与此前说明的实施方式相同的部分使用与其相同的标号。

如图17中所例示的，混响除去装置620具有存储器10a、模型应用单元500、后部混响预测单元310c、频域变换单元510d、后部混响除去单元310e、复谱生成单元310f、时域变换单元10g、延迟量计算单元10h、延迟调节单元10i、存储器10j、控制单元10k。

<混响除去处理>

接着，说明本方式的混响除去处理。

图18是用于说明本方式的混响除去处理的整体的流程图。以下，使用该图说明本方式的混响除去处理。

[前处理]

与第一实施方式同样。

[模型应用步骤(步骤S221)]

在模型应用步骤中，模型应用单元310b使用从存储器10a读入的1分析帧的M信道的离散声响信号值x₁(n)...x_M(n)，计算式(13)所示的多阶线性预测模型的各线性预测系数α_w，1(p)...α_w，M(p)(步骤S221)。该处理中，模拟白色化处理如第四实施方式中说明的那样，其它的处理与第一实施方式同样。

[后部混响预测步骤(步骤S222)]

在模型应用步骤(步骤S221)之后，对后部混响预测单元310c输入在模型应用步骤(步骤S221)中模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)、由模型应用步骤(步骤S221)计算出的各线性预测系数α_w，1(p)...α_w，M(p)。

然后，后部混响预测单元310c将各线性预测系数α_w，1(p)...α_w，M(p)和模拟白色化后的离散声响信号值x₁’(n)...x_M’(n)代入多阶线性预测模型的线性预测项而得到的线性预测值，作为后部混响预测值r_w(n)(w＝1，...，M)计算并输出(步骤S222)。

[频域变换步骤(步骤S223)]

接着，对频域变换单元510d输入由后部混响预测步骤(步骤S222)计算出的后部混响预测值r₁(n)...r_M(n)。频域变换单元510d将输入的后部混响预测值r₁(n)...r_M(n)变换为频域的后部混响预测值R₁(f，t)...R_M(f，t)(步骤S223)。频域变换单元510d通过该处理提取并输出频域的后部混响预测值R₁(f，t)...R_M(f，t)的振幅谱|R₁(f，t)|...|R_M(f，t)|和相位信息arg[R₁(f，t)]...arg[R_M(f，t)]。

[后部混响除去步骤(步骤S224)]

接着，对后部混响除去单元310e输入频域的离散声响信号值的振幅谱|X₁’(f，t)|...|X_M’(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|。然后，后部混响除去单元310e求频域的离散声响信号值的振幅谱|X₁’(f，t)|...|X_M’(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|...|R_M(f，t)|的每个传感器的相对值，并将该相对值作为后部混响除去信号值的振幅谱预测值|S₁(f，t)|...|S_M(f，t)|而输出(步骤S224)。另外，本步骤所使用的频域的离散声响信号值的振幅谱|X₁’(f，t)|...|X_M’(f，t)|由模拟白色化单元510的减法单元513(图13)传送。

[标记判定步骤(步骤S225、S226)]

本方式的[标记判定步骤(步骤S225、S226)]与第一实施方式的[标记判定步骤(步骤S5、S6)]相同。

[其它步骤]

其它步骤与第一实施方式相同。其中，与第一实施方式不同之处仅仅在于在[复谱生成步骤(步骤S7)]中，使用从模拟白色化单元510的减法单元513(图13)传送的相位信息arg[X₁’(f，t)]...arg[X_M’(f，t)]。

[第七实施方式]

接着，说明本发明的第七实施方式。第七实施方式是设M＝1，且不需要延迟量计算单元10h和延迟调节单元10i的第一～第六实施方式的变形例。作为该变形例，说明设为M＝1，并对第二实施方式应用第四实施方式的模拟白色化方法，并且不存在延迟量计算单元10h和延迟调节单元10i的结构。但是，也可以采用在其它第一～第六实施方式或它们的组合中，设为M＝1，并且不存在延迟量计算单元10h和延迟调节单元10i的结构。进而，也可以是虽然存在延迟量计算单元10h和延迟调节单元10i，但在M＝1的情况下，不使它们起作用的结构。

此外，以下，以与此前说明的实施方式的不同点为中心进行说明，对于与它们相同的部分省略说明。

<硬件结构>

与第一实施方式相同。

<硬件和程序的协作>

本方式的混响除去装置也通过将规定程序读入计算机并执行而构成。图19是例示本方式的混响除去装置710的功能结构的方框图。此外，图20是例示图19的模型应用单元800的功能结构的细节的方框图。另外，在图19、图20中，对与此前说明的实施方式相同的部分使用与其相同的标号。

如图19中所例示的，混响除去装置710具有存储器10a、模型应用单元800、后部混响预测单元310c、频域变换单元310d、后部混响除去单元310e、复谱生成单元310f、时域变换单元10g、存储器10j、控制单元10k。

此外，模型应用单元800具有模拟白色化单元810和第一线性预测系数计算单元200。此外，模拟白色化单元810具有频域变换单元811、时间平均化单元812、减法单元813、时域变换单元814。

<混响除去处理>

接着，说明本方式的混响除去处理。

图21是用于说明本方式的混响除去处理的整体的流程图。此外，图22A是用于说明图21的步骤S301(模型应用步骤)的细节的流程图，图22B是用于说明图22A的步骤S331(模拟白色化步骤)的细节的流程图。

以下，使用这些图说明本方式的混响除去处理。

[前处理]

首先，由M(M＝1)个传感器观测到的1个信道的声响信号以规定的抽样频率被采样，生成离散声响信号值x₁(n)。生成的各信道的离散声响信号值x₁(n)分别被存储在存储器10a中。另外，在本方式中，事先取得进行混响除去的全部时间区间的离散声响信号值x₁(n)，并存储在存储器10a中，并且对每个分析帧执行以下的各步骤。但是，也可以实时地取得离散声响信号值x₁(n)，同时执行以下各步骤。

此外，将用于表示混响除去装置710最终输出的信息仅是后部混响除去信号的振幅谱还是也具有相位分量的声响信号的信息存储在存储器10j中。在本方式中，将标记(flag)(数据)δ存储在存储器10j中。然后，在输出的信息仅是直接声音的振幅谱的情况下设为δ＝1，在是也具有相位分量的声响信号的情况下设为δ＝0。

以下，说明本方式的后部混响除去处理。另外，以下，仅说明一个分析帧的处理步骤，但实际上对多个分析帧进行同样的处理。

[模型应用步骤(步骤S301)]

在模型应用步骤中，模型应用单元800使用从存储器10a读入的1分析帧的离散声响信号值x₁(n)，计算式(5)所示的多阶线性预测模型的各线性预测系数α_1，1(p)(步骤S301)。以下，分层地说明该处理的细节。

[模型应用步骤(步骤S301)的细节(图22A)]

如图22A所例示的，在模型应用步骤中，首先，模拟白色化(Pre-hitening)单元810(图20)抑制输入的离散声响信号值x₁(n)所具有的短时间区间中的自相关分量，生成模拟白色化后的离散声响信号值x₁’并输出(模拟白色化步骤/步骤S311)。即，从各离散时间的上述离散声响信号值x₁(n)中抑制与紧接着该离散时间n之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量，并生成模拟白色化后的离散声响信号值x₁’(n)。

接着，上述模拟白色化后的离散声响信号值x₁’(n)被输入到第一线性预测系数计算单元200(图20)中，第一线性预测系数计算单元200使用该模拟白色化后的离散声响信号值x₁’(n)计算式(5)所示的多阶线性预测模型的各线性预测系数α_1，1(p)并输出(第一线性预测系数计算步骤/步骤S312)。另外，作为一例，将式(5)中的延迟D例如设为25ms(在抽样频率12000Hz的情况下，相当于300轻拍(tap))，将各线性预测系数α_1，1(p)的数N例如设为5000左右。此外，作为计算各线性预测系数α_1，1(p)的方法，可以例示自相关法(correlation method)和协方差法(covariance method)。此外，也可以使用MATLAB(注册商标)等来进行该处理。

[模拟白色化步骤(步骤S311)的细节(图22B)]

接着，说明模拟白色化步骤(步骤S311)的细节。

在本方式中，作为一例，使用倒谱平均值消去(CMS，Cepstral MeanSubtraction)来进行离散声响信号值的模拟白色化。

首先，模拟白色化单元810的频域变换单元811从存储器10a中读出声响信号1分析帧的1信道的离散声响信号值x₁(n)。然后，频域变换单元811通过短时间傅立叶变换等将离散声响信号值x₁(n)变换为频域的离散声响信号值X₁(f，t)并输出(步骤S321)。另外，在通过短时间傅立叶变换进行该处理的情况下，例如使用以下的式(52)。此外，F[·]表示短时间傅立叶变换函数，Log[·]表示对数函数。

X₁(f，t)＝Log[F[x₁(n)]]…(52)

接着，频域的离散声响信号值X₁(f，t)被读入到时间平均化单元812，时间平均化单元812按照以下的式(53)，求频域的离散声响信号值X₁(f，t)的时间平均X₁’(f)，并输出(步骤S322)。

[算式22]

E {X_{1} (f, t)} = \frac{1}{T} Σ_{t = 1}^{T} X_{1} (f, t) \cdot \cdot \cdot (53)

接着，频域的离散声响信号值X₁(f，t)及其时间平均E{X₁(f，t)}被读入到减法单元813，减法单元513通过以下的式(54)，计算X₁’(f，t)，并输出(步骤S323)。

X₁’(f，t)＝X₁(f，t)—E{X₁(f，t)}…(54)

接着，X₁’(f，t)被读入到时域变换单元514，时域变换单元814通过逆傅立叶变换等将它们变换到时域，计算模拟白色化后的离散声响信号值x₁’(n)，并输出(步骤S324)。另外，在通过逆傅立叶变换进行该处理的情况下，例如使用以下的式(55)。此外，invF[·]表示逆傅立叶变换函数。

x₁(n)＝invF[exp[X₁’(f，t)]]…(55)

此外，在将本方式的例子中，由时域变换单元814生成的模拟白色化后的离散声响信号值x₁’(n)也被传送到后部混响预测单元310c和频域变换单元310d(图19)([模型应用步骤(步骤S301)的细节]的说明结束)。

[后部混响预测步骤(步骤S302)]

在模型应用步骤(步骤S301)之后，对后部混响预测单元310c输入由时域变换单元814生成的模拟白色化后的离散声响信号值x₁’(n)、由模型应用步骤(步骤S301)计算出的各线性预测系数α_1，1(p)。

然后，如上述式(10)这样，后部混响预测单元310c将各线性预测系数α_1，1(p)和模拟白色化后的离散声响信号值x₁’(n)代入多阶线性预测模型的线性预测项而得到的线性预测值，作为后部混响预测值r₁(n)计算并输出(步骤S302)。在本方式中，由于使用式(5)的多阶线性预测模型，因此后部混响预测单元310c按照以下的式(56)求后部混响预测值r₁(n)并输出。

[算式23]

r_{1} (n) = Σ_{p = 1}^{N} α_{1,1} (p) \cdot x_{1} (n - p - D) \cdot \cdot \cdot (56)

[频域变换步骤(步骤S303)]

接着，对频域变换单元310d输入由时域变换单元814(图20)生成的模拟白色化后的离散声响信号值x₁’(n)、由后部混响预测步骤(步骤S302)计算出的后部混响预测值r₁(n)。频域变换单元310d将输入的模拟白色化后的离散声响信号值x₁’(n)变换为频域的离散声响信号值X₁’(f，t)，并将后部混响预测值r₁(n)变换为频域的后部混响预测值R₁(f，t)(步骤S303)。在本方式中，例如使用窗长25ms的汉明窗等有限长的窗函数，通过短时间傅立叶变换(DFT:Discrete Fourier Transform)等进行这些向频域的变换。频域变换单元310d通过这些处理提取并输出频域的离散声响信号值X₁’(f，t)的振幅谱|X₁’(f，t)|和相位信息arg[X₁’(f，t)]、以及频域的后部混响预测值R₁(f，t)的振幅谱|R₁(f，t)|和相位信息arg[R₁(f，t)]。

[后部混响除去步骤(步骤S304)]

接着，对后部混响除去单元310e输入频域的离散声响信号值的振幅谱|X₁’(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|。然后，后部混响除去单元310e求频域的离散声响信号值的振幅谱|X₁’(f，t)|和频域的后部混响预测值的振幅谱|R₁(f，t)|的每个传感器的相对值，并将该相对值作为后部混响除去信号值的振幅谱预测值|S₁(f，t)|而输出(步骤S304)。该处理的细节与第一实施方式同样。

[标记判定步骤(步骤S305、S306)]

在步骤S304之后，控制单元10k读出存储器10j中存储的标记δ，并判断该标记δ是否是表示仅输出振幅谱的标记，即是否δ＝1(步骤S305)。这里，如果δ＝1，则控制单元10k将在后部混响除去步骤(步骤S304)中由后部混响除去单元310e生成的后部混响除去信号值的振幅谱预测值|S₁(f，t)|作为混响除去装置710的最终的输出信息输出(步骤S306)，并结束该分析帧的处理。这样输出的振幅谱预测值|S₁(f，t)|例如被传送给接着在混响除去装置710的后级的语音识别系统等应用，并变换为特征量。

另一方面，如果δ＝0，则控制单元10k执行以下的步骤S307以后的处理。

[复谱生成步骤(步骤S307)]

在复谱生成步骤中，首先对复谱生成单元310f输入从后部混响除去单元310e输出(步骤S304)的后部混响除去信号值的振幅谱预测值|S₁(f，t)|，和从频域变换单元310d输出(步骤S303)的频域的离散声响信号值的相位信息arg[X₁’(f，t)]。复谱生成单元310f使用这些信息，按照以下的式(57)，计算后部混响除去信号值的复谱预测值S₁(f，t)并输出(步骤S307)。

S₁(f，t)＝|S₁(f，t)|·exp(j·arg[X₁(f，t)])…(57)

[时域变换步骤(步骤S308)]

在步骤S307之后，对时域变换单元10g输入上述后部混响除去信号值的复谱预测值S₁(f，t)。然后，时域变换单元10g计算将后部混响除去信号值的复谱预测值S₁(f，t)变换到时域后的后部混响除去信号估计值s₁(n)并输出(步骤S308)。另外，对时域的变换例如通过逆傅立叶变换进行。

[模拟结果]

接着，示出用于表示M＝1的情况下的本发明的效果的模拟结果。这里，通过对第二实施方式应用第四实施方式的模拟白色化方法的结构进行了模拟。

在该模拟中，从连续发声数据集(data set)中取出女声和男性的各自50个发声，模拟3000轻拍的脉冲响应和卷积混响环境。此外，将式(5)的多阶线性预测模型的阶长(延迟)设为25ms，并将线性预测系数α_1，1(p)的数N设为5000。此外，从时域到频域的变换使用窗长25ms的短时间傅立叶变换。

图24表示该模拟结果。这里，图24A、图24B分别是表示混响除去前的振幅谱值和语音波形的图。此外，图24C、图24D分别是表示本发明(M＝1)的混响除去后的振幅谱值和语音波形的图。另外，图24A、图24C的纵轴表示振幅谱值，横轴表示时间(s)。此外，图24B、图24D的纵轴表示频率(Hz)，横轴表示时间(s)。从这些图也可知通过本发明高精度地抑制后部混响。

接着，表示从语音识别的观点来评价本发明的效果的模拟结果。

在该模拟中，使用了用纯净(clean)声音构筑的声响模型。表1表示各个识别对象的单词差错率。混响语音、混响除去语音的单词差错率分别表示为“Rev.”“Derev.”。尽管声响模型是从纯净语音学习的，但可知通过本发明大幅地改善了识别率。

[表1]

纯净	Rev.	Derev.(发明的)
纯净	Rev.	Derev.(发明的)	20.1	78.9	37.2

[实验结果]

接着，示出用于表示本发明的效果的实验结果。该实验关于不进行后部混响除去的情况(无处理)、设为M＝1并对第二实施方式应用了第四实施方式的模拟白色化方法的方法(第七实施方式)、第一实施方式(M≥2)中不进行延迟调节而使用了由一个信道(m＝1)得到的后部混响除去信号估计值的情况(第一实施方式(无延迟调节))、以及第一实施方式(M≥2)中进行延迟调节并进行了后部混响除去的情况下(第一实施方式(有延迟调节))，测定了各个语音识别率。

图25A是表示该实验条件的图。在该实验中，假设了在纵3.5m、横4.5m、高2.5m的室内，将四个麦克风1010(M＝4)配置成一列，从m＝1的麦克风1010(实线)按0.5m、1.0m、1.5m、2.0m的距离将四个扬声器1020配置在一条直线上的情况。此外，从连续发生数据集中取出女性和男性的各自100个发声，对其与模拟了的3000轻拍的脉冲响应进行卷积，从而生成后部混响语音。此外，在语音识别时，作为声响模型自适应处理，使用了倒谱平均值消去(CMS，Cepstral Mean Subtraction)(B.S.Atal，“Effectiveness oflinear prediction characteristics of the speech wavefor automatic speakeridentification and verification，”Journal of the Acoustical Society of America，Vol.55(6)，pp.1304-1312，Jun1974.)。另外，在设为M＝1，并对第二实施方式应用了第四实施方式的模拟白色化方法的方法(第七实施方式)中，使用了m＝1的麦克风1010。

图25B是表示有关上述四个情况[无处理、第七实施方式、第一实施方式(无延迟调节)、第一实施方式(有延迟调节)]的语音识别结果(单词差错率)的曲线图。另外，在图25B中，以麦克风1010(m＝1)和各扬声器1020的距离(m)作为横轴，并以单词差错率(％)作为纵轴。

如图25B所例示的，在麦克风1010(m＝1)和各扬声器1020的距离比较近的情况下，对于第七实施方式(M＝1)的第一实施方式(M≥2)(无延迟调节)以及第一实施方式(M≥2)(有延迟调节)的单词差错率的改善量不大。但是，随着麦克风1010(m＝1)和各扬声器1020的距离增加，传递函数中的最大相位分量(0点)增加，因此对于第七实施方式(M＝1)的第一实施方式(M≥2)(无延迟调节)的单词差错率的改善量变得显著。进而，在第一实施方式(M≥2)(有延迟调节)的情况下，可以进一步改善单词差错率。

[变形例等]

另外，本发明不限于上述各实施方式。例如，在各实施方式中，后部混响除去单元通过短时间傅立叶变换等将各数据变换到频域而执行了各处理。但是，如果作为混响除去装置的输出而被请求的信号仅是直接声音的振幅谱，则后部混响除去单元也可以将各数据进行z变换，并在z区域执行各处理。

此外，在各实施方式中，在通过模拟白色化单元从离散声响信号值中除去短时间相关之后，执行了各处理。但是，也可以使用未除去短时间相关的离散声响信号值执行各处理。

此外，上述各种处理不仅根据记载按照时间序列被执行，也可以根据执行处理的装置的处理能力或需要来并行或单独地执行。此外，也可以是将2个以上的实施方式结合的方式。此外，在不脱离本发明的主旨的范围内当然能够适当变更。

此外，在通过计算机实现上述结构的情况下，各装置应具有的功能的处理内容由程序所记述。而且，通过由计算机执行该程序从而在计算机上实现上述处理功能。

记述了该处理内容的程序可以记录在计算机可读取的记录介质中。作为计算机可读取的记录介质，例如，可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任何装置，具体来说，例如，作为磁记录装置可以使用硬盘装置、软盘、磁盘等，作为光盘可以使用DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read OnlyMemory)、CD-R(Recordable)/RW(Re Writable)等，作为光磁记录介质，可以使用MO(Magneto-Optical disc)等，作为半导体存储器可以使用EEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等。

此外，该程序的流通例如通过贩卖、转让、出借记录了该程序的DVD、CD-ROM等可移动记录介质来进行。进而也可以采用将该程序预先存储在服务器计算机的存储装置中，经由网络从服务器计算机将该程序传送给其它的计算机，从而使该程序流通的结构。

执行这样的程序的计算机例如首先将记录在可移动型记录介质中的程序或从服务器计算机传送的程序临时存储在自己的存储装置中。然后，在执行处理时，该计算机读取自己的记录介质中存储的程序，并执行按照读取的程序的处理。此外，作为该程序的其它实施方式，也可以由计算机从可移动记录介质中直接读出程序，并执行按照该程序的处理，而且也可以在每次从服务器计算机对该计算机传送程序时，依次执行按照接收到的程序的处理。此外，也可以采用从服务器计算机不进行对该计算机的程序传送，仅通过该执行指示和结果取得实现处理功能的所谓ASP(Application Service Provider)型的服务执行上述处理的结构。另外，在本方式中的程序中，假设包含供电子计算机的处理使用的符合程序的信息(虽不是对于计算机的直接指令但具有规定计算机的处理的性质的数据等)。

此外，在该方式中，通过在计算机上执行规定的程序，从而构成本装置，但也可以将这些处理内容的至少一部分由硬件实现。

产业上的可利用性

通过将本发明用作各种声响信号处理系统的要素技术，从而能够提高该系统整体的性能。作为可应用本发明的声响信号处理系统，例如可举出以下的系统。由环境所收录的语音中始终含有混响(反射音)，但以下所举出的系统是假定在这样的状况下使用的例子。

·混响环境中的语音识别系统

·将歌唱、乐器演奏、扬声器演奏的乐曲的混响除去后预先存储在存储器中，并对这些乐曲进行检索或记谱的音乐信息处理系统

·对人发出的声音进行反应而对机械传送命令的机械控制接口以及机械和人的对话装置

·通过在混响环境下除去混响从而提高收听容易度的助听器

·通过混响除去从而提高语音的明确度的电视会议系统等通信系统

Claims

1.一种混响除去装置，从伴随后部混响的声响信号中除去后部混响，其具有:

存储器，存储离散声响信号值，所述离散声响信号值通过将由M(M≥1)个传感器分别观测的M个信道m(m＝1，...，M)的上述声响信号分别在多个时刻进行采样而得到；

模型应用单元，使用多个上述离散声响信号值来计算信道w的多阶线性预测模型的各线性预测系数，所述信道w的多阶线性预测模型，是通过将长时间区间中的M个信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在该长时间区间的规定时间后的离散时间n的信道w(w＝1，...，M)的离散声响信号值的线性预测模型；以及

后部混响预测单元，将线性预测值作为在离散时间n的信道w的后部混响预测值而输出，所述线性预测值通过将上述信道w的多阶线性预测模型的各线性预测系数和多个上述离散声响信号值代入上述信道w的多阶线性预测模型的上述线性预测项而得到。

2.如权利要求1所述的混响除去装置，其中，

上述模型应用单元具有:

模拟白色化单元，从各离散时间的上述离散声响信号值中，抑制与紧接着该离散时间之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量，并生成模拟白色化后的离散声响信号值；以及

第一线性预测系数计算单元，使用上述模拟白色化后的离散声响信号值，计算上述多阶线性预测模型的各线性预测系数，

上述短时间区间比上述长时间区间短。

3.如权利要求2所述的混响除去装置，其中，

上述模拟白色化单元具有:

第二线性预测系数计算单元，使用上述离散声响信号值来计算信道m的短时间线性预测模型的各线性预测系数，所述信道m的短时间线性预测模型，是通过将上述短时间区间中的信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在紧接着上述短时间区间之后的离散时间n的该信道m的离散声响信号值的线性预测模型；以及

逆滤波处理单元，在通过将由上述第二线性预测系数计算单元计算出的上述各线性预测系数代入信道m的上述短时间线性预测模型而得到的逆滤波器中，代入该信道m的上述离散声响信号值，并将由此得到的该短时间线性预测模型的上述预测误差项的值作为该信道m的上述模拟白色化后的离散声响信号值输出。

4.如权利要求3所述的混响除去装置，其中，

M≥2，

上述第二线性预测系数计算单元具有:

自相关系数计算单元，对每个信道计算上述离散声响信号值的自相关系数；

自相关系数平均化单元，计算将对每个信道求出的上述自相关系数在信道之间平均化后的平均自相关系数；以及

方程式运算单元，使用上述平均自相关系数，计算上述短时间线性预测模型的各线性预测系数。

5.如权利要求3所述的混响除去装置，其中，

M≥2，

上述第二线性预测系数计算单元具有:

自相关系数计算单元，计算离散声响信号值的自相关系数，所述离散声响信号值通过将由上述M个传感器中最接近声响信号的声源的一个传感器所观测到的声响信号，在多个时刻进行采样而得到；以及

方程式运算单元，使用上述自相关系数，计算上述短时间线性预测模型的各线性预测系数。

6.如权利要求1所述的混响除去装置，具有:

频域变换单元，将各信道的上述离散声响信号值变换为频域的离散声响信号值，并将各信道的上述后部混响预测值变换为频域的后部混响预测值；以及

后部混响除去单元，对每个信道求上述频域的离散声响信号值的振幅谱和上述频域的后部混响预测值的振幅谱的相对值，并将该相对值作为各信道的后部混响除去信号值的振幅谱预测值而输出。

7.如权利要求6所述的混响除去装置，其中，

上述后部混响预测单元计算线性预测值作为在离散时间n的信道w的后部混响预测值，所述线性预测值通过将由上述模型应用单元计算出的上述各线性预测系数和多个模拟白色化后的上述离散声响信号值代入上述线性预测项而得到，

上述频域变换单元将模拟白色化后的各信道的上述离散声响信号值变换为频域的离散声响信号值。

8.如权利要求6所述的混响除去装置，还具有:

复谱生成单元，使用信道w的上述后部混响除去信号值的振幅谱预测值，和信道w的上述频域的离散声响信号值的相位信息，计算信道w的后部混响除去信号值的复谱预测值；以及

时域变换单元，计算将信道w的上述后部混响除去信号值的复谱预测值变换为时域后的信道w的后部混响除去信号估计值。

9.如权利要求8所述的混响除去装置，其中，

M≥2，

上述模型应用单元对多个信道分别计算上述各线性预测系数，

上述后部混响预测单元对多个信道分别计算上述后部混响预测值，

上述后部混响除去单元对多个信道分别计算上述后部混响除去信号值的振幅谱预测值，

上述复谱生成单元对多个信道分别计算上述后部混响除去信号值的复谱预测值，

上述时域变换单元对多个信道分别计算上述后部混响除去信号估计值，

该混响除去装置具有延迟量计算单元，决定在将各信道的上述后部混响除去信号估计值分别以某一延迟量延迟后的情况下，延迟后的各信道的上述后部混响除去信号估计值的信道间互相关为极大的各信道的该延迟量。

10.如权利要求9所述的混响除去装置，具有:

延迟单元，将各信道的上述后部混响除去信号估计值延迟对各个信道计算出的上述延迟量；以及

延迟校正单元，计算由上述延迟单元延迟后的上述后部混响除去信号估计值之和，作为校正混响除去信号值。

11.如权利要求1所述的混响除去装置，其中，

M≥2。

12.如权利要求1所述的混响除去装置，其中，

上述多阶线性预测模型是，

将x_w(n)设为与信道w(w＝1，...，M)对应的离散时间n的离散声响信号值，将x_m(n)设为与信道m(m＝1，...，M)对应的离散时间n的离散声响信号值，将e_w(n)设为与信道w以及离散时间n对应的预测误差，将N设为正整数，将[·]设为高斯记号，将α_w，m(p)设为与x_w’(n)对应的线性预测项的信道m所对应的第p个线性预测系数，并且将D设为表示阶长的常数的情况下的

[算式24]

x_{w} (n) = Σ_{m = 1}^{M} Σ_{p = 1}^{[N / M]} α_{w, m} (p) \cdot x_{m} (n - p - D) + e_{w} (n) .

13.一种混响除去方法，从伴随后部混响的声响信号中除去后部混响，其具有:

离散声响信号存储步骤，在存储器中存储离散声响信号值，所述离散声响信号值通过将由M(M≥1)个传感器分别观测的M个信道m(m＝1，...，M)的上述声响信号分别在多个时刻进行采样而得到；

模型应用步骤，使用多个上述离散声响信号值来计算信道w的多阶线性预测模型的各线性预测系数，所述信道w的多阶线性预测模型，是通过将长时间区间中的M个信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在该长时间区间的规定时间后的离散时间n的信道w的离散声响信号值的线性预测模型；以及

后部混响预测步骤，将线性预测值作为在离散时间n的信道w的后部混响预测值而输出，所述线性预测值通过将上述信道w的多阶线性预测模型的各线性预测系数和多个上述离散声响信号值代入上述信道w的多阶线性预测模型的上述线性预测项而得到。

14.如权利要求13所述的混响除去方法，其中，

上述模型应用步骤具有:

模拟白色化步骤，从各离散时间的上述离散声响信号值中，抑制与紧接着该离散时间之前的短时间区间内的各离散声响信号值具有自相关性的自相关分量，并生成模拟白色化后的离散声响信号值；以及

第一线性预测系数计算步骤，使用上述模拟白色化后的离散声响信号值，计算上述多阶线性预测模型的各线性预测系数，

上述短时间区间比上述长时间区间短。

15.如权利要求14所述的混响除去方法，其中，

上述模拟白色化步骤具有:

第二线性预测系数计算步骤，使用上述离散声响信号值来计算信道m的短时间线性预测模型的各线性预测系数，所述信道m的短时间线性预测模型，是通过将上述短时间区间中的信道m的各离散声响信号值进行线性结合所得的线性预测项和预测误差项之和，表现在紧接着上述短时间区间之后的离散时间n的该信道m的离散声响信号值的线性预测模型；以及

逆滤波处理步骤，在通过将由上述第二线性预测系数计算步骤计算出的上述各线性预测系数代入信道m的上述短时间线性预测模型而得到的逆滤波器中，代入该信道m的上述离散声响信号值，并将由此得到的该短时间线性预测模型的上述预测误差项的值作为该信道m的上述模拟白色化后的离散声响信号值输出。

16.如权利要求15所述的混响除去方法，其中，

M≥2，

上述第二线性预测系数计算步骤具有:

自相关系数计算步骤，对每个信道计算上述离散声响信号值的自相关系数；

自相关系数平均化步骤，计算将对每个信道求出的上述自相关系数在信道之间平均化后的平均自相关系数；以及

方程式运算步骤，使用上述平均自相关系数，计算上述短时间线性预测模型的各线性预测系数。

17.如权利要求15所述的混响除去方法，其中，

M≥2，

上述第二线性预测系数计算步骤具有:

自相关系数计算步骤，计算离散声响信号值的自相关系数，所述离散声响信号值通过将由上述M个传感器中最接近声响信号的声源的一个传感器所观测到的声响信号，在多个时刻进行采样而得到；以及

方程式运算步骤，使用上述自相关系数，计算上述短时间线性预测模型的各线性预测系数。

18.如权利要求13所述的混响除去方法，具有:

频域变换步骤，将各信道的上述离散声响信号值变换为频域的离散声响信号值，并将各信道的上述后部混响预测值变换为频域的后部混响预测值；以及

后部混响除去步骤，对每个信道求上述频域的离散声响信号值的振幅谱和上述频域的后部混响预测值的振幅谱的相对值，并将该相对值作为各信道的后部混响除去信号值的振幅谱预测值而输出。

19.如权利要求18所述的混响除去方法，其中，

上述后部混响预测步骤是计算线性预测值作为在离散时间n的信道w的后部混响预测值的步骤，所述线性预测值通过将由上述模型应用步骤计算出的上述各线性预测系数和多个模拟白色化后的上述离散声响信号值代入上述线性预测项而得到，

上述频域变换步骤中，将模拟白色化后的各信道的上述离散声响信号值变换为频域的离散声响信号值。

20.如权利要求18所述的混响除去方法，还具有:

复谱生成步骤，使用信道w的上述后部混响除去信号值的振幅谱预测值，和信道w的上述频域的离散声响信号值的相位信息，计算信道w的后部混响除去信号值的复谱预测值；以及

时域变换步骤，计算将信道w的上述后部混响除去信号值的复谱预测值变换为时域后的信道w的后部混响除去信号估计值。

21.如权利要求20所述的混响除去方法，其中，

M≥2，

上述模型应用步骤是对多个信道分别计算上述各线性预测系数的步骤，

上述后部混响预测步骤是对多个信道分别计算上述后部混响预测值的步骤，

上述后部混响除去步骤是对多个信道分别计算上述后部混响除去信号值的振幅谱预测值的步骤，

上述复谱生成步骤是对多个信道分别计算上述后部混响除去信号值的复谱预测值的步骤，

上述时域变换步骤是对多个信道分别计算上述后部混响除去信号估计值的步骤，

该混响除去方法具有延迟量计算步骤，决定在将各信道的上述后部混响除去信号估计值分别以某一延迟量延迟后的情况下，延迟后的各信道的上述后部混响除去信号估计值的信道间互相关为极大的各信道的该延迟量。

22.如权利要求21所述的混响除去方法，具有:

延迟步骤，将各信道的上述后部混响除去信号估计值延迟对各个信道计算出的上述延迟量；以及

延迟校正步骤，计算由上述延迟步骤延迟后的上述后部混响除去信号估计值之和，作为校正混响除去信号值。

23.如权利要求13所述的混响除去方法，其中，

M≥2。

24.如权利要求13所述的混响除去方法，其中，

上述多阶线性预测模型是，

[算式25]

x_{w} (n) = Σ_{m = 1}^{M} Σ_{p = 1}^{[N / M]} α_{w, m} (p) \cdot x_{m} (n - p - D) + e_{w} (n) .

25.一种混响除去程序，使计算机执行权利要求13所述的混响除去方法的各步骤。

26.一种计算机可读取的记录介质，存储了权利要求25所述的混响除去程序。