CN1698395A

CN1698395A - 声音获取方法和声音获取装置

Info

Publication number: CN1698395A
Application number: CN 200480000174
Authority: CN
Inventors: 小林和则; 古家贤一
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-02-07
Filing date: 2004-02-06
Publication date: 2005-11-16
Anticipated expiration: 2024-02-06
Also published as: CN100534001C

Abstract

根据(upon)通过状态决定部14探测话语时段，声源位置探测部15探测被声源位置探测部15探测到的声源9₁至9_K的位置，然后获取信号的协方差矩阵对应于各个声源通过协方差矩阵计算部18计算出，并在协方差矩阵存储部18对应于各个声源存储。每个声源的获取声音电平通过获取声音电平估计部19根据存储的协方差矩阵估计出，并且滤波器系数通过滤波器系数计算部21根据估计的获取声音电平和协方差矩阵确定出，并且滤波器系数被设定在滤波器12₁至12_M。从各个麦克风获取的信号通过滤波器滤波，然后滤波后的输出通过加法器13全部叠加起来，并且叠加后的输出提供为发送信号；通过这种方式，有可能生成无关于声源位置的有期望电平的发送信号。

Description

声音获取方法和声音获取装置

技术领域

本发明涉及声音获取方法和声音获取装置，更具体地说，涉及到从多个语音声源中获取语音并在输出前调节它们的音量的声音获取方法和声音获取装置。

背景技术

例如，在远程电信会议中，人们在不同的远程区域参加，如果在每个地方只用一个麦克风去获取在每个远程区域内的坐在不同位置的多个与会人员的语音，接收到的信号电平会因为与会人员距麦克风的距离不同和他们语音音量的不同而差异巨大。在远程接收端再现的语音在音量上与在传输端的与会人员的差别巨大，有时，几乎不能将一个与会人员与另一个与会人员区分开。

图17按方块图的形式描述了所公开的传统声音获取装置的基本结构，例如，日本专利申请Kokai Publication 8-250944。传统的声音获取装置由麦克风41、功率计算部42、放大因数(factor)设置部43和放大器44组成。功率计算部42计算被麦克风41所接收的信号的长时间(long-time)平均功率P_ave。长时间平均功率能够通过将信号平方并将平方后的输出按时间积分得到。接着，放大因数设置部43基于通过功率计算部42计算得到的接收信号的长时间平均功率P_ave和预定期望发送电平P_opt设定放大因数G。放大因数G能够通过，例如下面的等式(1)计算出。

G＝(P_opt/P_ave)^1/2 (1)

放大器44通过设定的放大因数G放大麦克风接收的信号并输出放大的信号。

通过处理上述的步骤，输出信号功率达到期望发送电平P_opt，根据它音量能够自动调整。但是，传统的声音获取方法，由于放大因数是基于长时间平均功率确定的，在设定合适的放大因数的过程中会产生几到十几秒的延迟。因此，在多个说话者出席并且他们的语音被麦克风以不同的电平获取的情形下，会产生问题即只要说话者从一个变为另一个，设定合适的放大因数会延迟，结果造成语音在不合适的音量下被再现。

本发明的目标是提供声音获取装置和声音获取方法，在甚至多个说话者存在并且他们的语音被麦克风以不同电平获得的情况下，自动调整每个语音的音量到合适的值，以及实现该方法的程序。

发明内容

一种根据本发明通过多个通道中的麦克风从每个声源获取声音的声音获取方法，包括：

(a)状态决定步骤，包括从所述的多个通道麦克风所接收的信号中决定话语(utterance)时段的话语决定步骤；

(b)声源位置探测步骤，即当在所述话语决定步骤中决定了话语时段时，从所述接收信号中探测所述每个声源的位置；

(c)频域转换步骤，即将所述接收的信号转换为频域信号；

(d)协方差矩阵计算步骤，即计算所述频域接收信号的协方差矩阵；

(e)协方差矩阵存储步骤，即基于所述声音位置探测步骤的探测结果对每个声源存储所述协方差矩阵；

(f)滤波器系数计算步骤，即基于所述存储的协方差矩阵和预定的输出电平计算所述多个通道中的滤波器系数；

(g)滤波步骤，即通过所述多个通道中的滤波器系数分别对所述多个通道中的接收信号进行滤波；和

(h)叠加步骤，即将所述多个通道中的滤波结果全部叠加，并将叠加后的结果提供为发送信号。

根据本发明，通过放置于声音空间(acoustic space)的多个通道中的麦克风从每个声源获取声音的声音获取装置，包括：

状态决定部，包括话语决定部，用于从被所述多个通道的麦克风接收的信号中确定话语时段；

声源位置探测部，用于当话语持续时段被所述话语决定部决定后从所述接收信号中探测所述每个声源的位置；

频域转换部，用于将所述接收信号转换为频域信号；

协方差矩阵计算部，用于计算所述多个通道的所述频域接收信号的协方差矩阵；

协方差矩阵存储部，用于基于通过所述声音位置探测部探测的结果对所述每个声源存储所述协方差矩阵；

滤波器系数计算部，用于通过利用所述存储的协方差矩阵计算所述多个通道的滤波器系数以使所述每个声源的发送信号电平变为期望的电平；

所述多个通道的滤波器，用于通过利用所述多个通道的滤波器系数分别对所述麦克风接收的信号进行滤波；和

加法器，用于将所述多个通道的所述滤波器的输出全部叠加并将叠加后的输出提供为发送信号。

根据本发明的第二个方面，一种语音获取方法，用于通过声音空间中至少一个通道的麦克风从至少一个声源获取语音，而在该空间内接收的信号通过扩音器再现，包括：

(a)状态确定步骤，即从通过所述的至少一个通道的所述麦克风获取的声音和所述接收到的信号确定话语时段和接收时段；

(b)频域转换步骤，即将所述获取的信号和所述接收的信号转换为频域信号；

(c)协方差矩阵计算步骤，即根据所述频域的获取信号和接收信号在所述话语时段计算协方差矩阵和在所述接收时段计算协方差；

(d)协方差矩阵存储阶段，即分别对所述话语时段和所述接收时段存储所述协方差矩阵；

(e)滤波器系数计算步骤，即基于所述话语时段和所述接收时段所存储的协方差矩阵对所述至少一个通道的所述获取信号计算滤波器系数和对所述接收信号计算滤波器系数，以使回声，其为包含在所述接收信号中的接收信号的组成部分，能被消除；

(f)滤波步骤，即利用所述接收信号的滤波器系数和所述至少一个通道的所述获取信号的滤波器系数对所述接收信号和所述获取信号进行滤波；和

(g)叠加步骤，即将所述滤波的信号全部叠加并提供叠加后的输出作为发送信号。

根据本发明的第二个方面的声音获取装置包括：

麦克风，至少在一个通道中，用于从声源获取语音并用于输出获取的信号；

扩音器，用于再现接收的信号；

状态决定部，用于从所述获取的信号和接收的信号中决定话语时段和接收时段；

频域转换部，用于将所述获取信号和所述接收信号转换为频域信号；

协方差矩阵计算部，用于分别对所述话语时段和所述接收时段的所述获取和接收的信号计算协方差矩阵；

协方差矩阵存储部，用于分别为所述话语时段和所述接收时段存储所述协方差矩阵；

滤波器系数计算部，用于基于所述存储的协方差矩阵为所述至少一个通道的获取信号计算滤波器系数和为所述接收信号计算滤波器系数以消除所述接收信号内的回声；

获取信号滤波器和接收信号滤波器，在其内为所述获取信号和所述接收信号设定了滤波器系数，用于滤波所述获取信号和滤波所述接收信号；和

加法器，用于全部叠加所述获取信号滤波器和所述接收信号滤波器的输出，并且用于提供叠加后的信号作为发送信号。

根据本发明，甚至当存在多个说话者并且他们的声音被多个麦克风以不同的电平获取时，麦克风的方向性可以正确的被控制以对每个说话者自动调节语音的音量到合适的值。

附图说明

图1是说明根据本发明第一个实施例的声音获取装置的方块图。

图2是展示图1中状态决定部14的结构的一个范例的方块图。

图3是展示图1中声源位置探测部15的结构的一个范例的方块图。

图4是展示图1中滤波器系数计算部21的结构的一个范例的方块图。

图5是展示利用图1的声音获取装置的声音获取方法的第一个范例的流程图。

图6是展示利用图1的声音获取装置的声音获取方法的第二个范例的流程图。

图7是展示利用图1的声音获取装置的声音获取方法的第三个范例的流程图。

图8是说明根据本发明第二个实施例的声音获取装置的方块图。

图9是图8中状态决定部14的结构的一个范例的方块图。

图10是说明根据本发明第三个实施例的声音获取装置的方块图。

图11是展示图7中状态决定部14的结构的范例的方块图。

图12是说明根据本发明第四个实施例的声音获取装置的方块图。

图13是说明根据本发明第五个实施例的声音获取装置的方块图。

图14是展示图14中加权因数设定部21H的结构的一个范例的方块图。

图15是展示图4中加权因数设定部21H的结构的另一个范例的方块图。

图16是展示图4中白化部21J的结构的一个范例的方块图。

图17是展示当每个实施例含协方差矩阵平均功能时用到的协方差矩阵存储部18的一个范例的方块图。

图18A是展示在第一个实施例处理之前的说话者A和B的模拟语音波形的图。

图18B是展示在第一个实施例处理之后的说话者A和B的模拟语音波形的图。

图19是展示模拟的接收和发送语音波形，它展示了根据第三个实施例消除回声和噪声。

图20是说明传统的声音获取装置的方块图。

具体实施方式

第一个实施例

图1是根据本发明第一个实施例的声音获取装置的方块图。

该实施例的声音获取装置包括放置在声音空间中M个通道内的麦克风11₁到11_M，滤波器12₁至12_M，加法器13，状态决定部14，声音位置确定部15，频域转换部16，协方差矩阵计算部17，协方差矩阵存储部18，获取声音电平评估部19，和滤波器系数计算部21。

在此实施例中，在声音空间中语音声源9₁至9_K的位置已被探测到，然后获取信号的协方差矩阵在频域中对各个语音声源被计算和存储，并且这些协方差矩阵被用于计算滤波器系数。这些滤波器系数用来滤波被麦克风获取的信号，从而控制从各个语音声源来的信号有固定的音量。在此实施例中，尽管没有特别说明，假定从麦克风11₁至11_M的输出信号是数字信号，它是由麦克风获取的信号在预定的采样频率下通过数字-模拟转换器转换得到。此假设也适用于本发明其它实施例。

首先，状态决定部14探测从每个被麦克风11₁至11_M接收的信号中探测话语时段(utterance period)。例如，如图2所示，在状态决定部14中所有从麦克风11₁至11_M接收的信号通过叠加部14A全部叠加起来，然后叠加后的输出被分别施加到短时间平均功率计算部14B和长时间平均功率计算部14C来得到短时间平均功率(例如，大约范围在0.1到1秒)P_avS和长时间平均功率(例如，大约范围在1到100秒)P_avL，然后短时间平均功率和长时间平均功率的比值，R_P＝P_avS/P_avL，在除法部14D中计算出来，并且在话语决定部14E中功率比R_P与预定的话语极限值R_thU相比较；如果功率比值超过极限值，那么前者被决定为指示话语时段。

当被状态决定部14决定的结果是话语时段，声源位置探测部15估计声源的位置。用于估计声源位置的方法有，例如，交叉相关方法。

假设M(M是等于或大于2的整数)代表麦克风的数目并且τ_ij代表了被第i个和第j个麦克风11_i和11_j所获取的信号的延迟时间差(delay timedifference)的测量值。获取信号间的延迟时间差的测量值能够通过计算获取信号间的交叉相关和探测其最大峰值位置而得到。接着，假设第m个(其中m＝1，…，M)麦克风的声音获取位置被代表为(X_m，Y_m，Z_m)并且估计的声源位置是获取信号间的延迟时间差的测量值

其可以从这些位置中获得，用等式(2)表达。

{\hat{τ}}_{ij} = \frac{1}{c} \sqrt{{(x_{i} - \hat{X})}^{2} + {(y_{i} - \hat{Y})}^{2} + {(z_{i} - \hat{Z})}^{2}} - \frac{1}{c} \sqrt{{(x_{i} - \hat{X})}^{2} + {(y_{i} - \hat{Y})}^{2} + {(z_{j} - \hat{Z})}^{2}} - - - (2)

其中c是声音速度。

接着，获取信号间的延迟时间差的测量值τ_ij和估计的值

乘以声音速度c以转换为距离值，其作为从各自获取语音的麦克风的位置到话语声源间的距离的差的测量和估计值d_ij和

这些值的平均平方误差e(q)通过等式(3)给出。

e (q) = Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} {| d_{ij} - {\hat{d}}_{ij} |}^{2}

= Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} | d_{ij} - \sqrt{{(x_{i} - \hat{X})}^{2} + {(y_{i} - \hat{Y})}^{2} + {(z_{i} - \hat{Z})}^{2}} - \sqrt{{(x_{j} - \hat{X})}^{2} + {(y_{j} - \hat{Y})}^{2} + {(z_{j} - \hat{Z})}^{2}} |^{2}

= Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} | d_{ij} - r_{i} + r_{j} |^{2} - - - (3)

其中

q = (\hat{X,} \hat{Y}, \hat{Z}) .

r_i和r_j代表了估计的声源位置

q = (\hat{X}, \hat{Y}, \hat{Z})

和麦克风11_i和11_j间的距离。

通过极小化等式(3)的平均方差e(q)得到解，有可能得到估计的声源位置其最小化获取的信号间的延迟时间差的测量值与估计值间的误差。此时，尽管由于等式(3)是非线性联立方程并且难以解析求解，估计的声源位置可以通过利用逐次修正的数值分析来得到。

为得到最小化等式(3)的估计的声源位置等式(3)的特定点的梯度被计算，然后估计的声源位置在减小误差直到梯度为零的方向上进行修正；因此，估计的声源位置通过重复的对u＝0，1，....计算下面的等式(4)来修正

q_{(u + 1)} = q_{(u)} - α \cdot grad e (q) |_{q = q_{(u)} - - - (4)}

其中α是修正步长，并且它被设定为α＞0的值。q_(u)代表q修正了u次，并且

q_{(0)} = ({\hat{X}}_{0}, {\hat{Y}}_{0}, {\hat{Z}}_{0})

是当u＝0时预定的任意初始值。grad代表梯度，它表达为下列等式(5)至(10)。

grad e (q) = (\frac{&PartialD; e (q)}{&PartialD; \hat{X}}, \frac{&PartialD; e (q)}{&PartialD; \hat{Y}}, \frac{&PartialD; e (q)}{&PartialD; \hat{Z}}) - - - (5)

\frac{&PartialD; e (q)}{&PartialD; \hat{X}} = 2 Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} {d_{ij} - r_{i} + r_{j}} \times {\frac{x_{i} - \hat{X}}{r_{i}} - \frac{x_{j} - \hat{X}}{r_{j}}} - - - (6)

\frac{&PartialD; e (q)}{&PartialD; \hat{X}} = 2 Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} {d_{ij} - r_{i} + r_{j}} \times {\frac{y_{i} - \hat{Y}}{r_{i}} - \frac{y_{j} - \hat{Y}}{r_{j}}} - - - (7)

\frac{&PartialD; e (q)}{&PartialD; \hat{X}} = 2 Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} {d_{ij} - r_{i} + r_{j}} \times {\frac{z_{i} - \hat{Z}}{r_{i}} - \frac{z_{j} - \hat{Z}}{r_{j}}} - - - (8)

r_{i} = \sqrt{{(x_{i} - \hat{X})}^{2} + {(y_{i} - \hat{Y})}^{2} + {(z_{i} - \hat{Z})}^{2}} - - - (9)

r_{j} = \sqrt{{(x_{j} - \hat{X})}^{2} + {(y_{i} - \hat{Y})}^{2} + {(z_{j} - \hat{Z})}^{2}} - - - (10)

如前所述，通过反复计算等式(4)，在误差被极小化的地方有可能得到估计的声源位置。

图3以方块的形式说明声源位置探测部15的功能结构。在此例中，声源位置探测部15包括延迟时间差测量部15A，乘法器15B，距离计算部15C，平均平方误差计算部15D，梯度计算部15E，相关决定部15F，和估计位置更新部15G。

延迟时间差测量部15A在从一个语音声源9_k话语时，对每个(i，j)对通过交叉相关方案测量延迟时间差，

i＝1，2，...，M-1；

j＝i+1，i+2，...，M

基于通过麦克风11_i和11_j接收的信号。乘法器15B对每个测量的延迟时间差τ_ij乘以声速c以得到声源与麦克风11_i和11_j间的距离差d_ij。距离计算部15C通过等式(9)和(10)计算，估计位置更新部15G反馈的估计的声源位置

与麦克风11_i和11_j间的距离r_i和r_j。但是在这种情况下，估计位置更新部15G将任意初始值

作为首次估计的声源位置提供给距离计算部15C。平均平方误差计算部15D利用d_ij，r_i和r_j通过等式(3)对所有上述(i，j)对去计算平均平方误差。梯度计算部15F利用当前估计的声源位置和d_ij，r_i，r_j通过等式(6)，(7)和(8)计算平均平方误差e(q)的梯度grad e(q)。

相关决定部15F将平均平方误差的梯度grad e(q)的每个元素与预定的极限值e_th相比较以决定是否每个元素小于极限值e_th，并且如果是，则输出那时的估计位置声源位置如果每个元素并不都小于e_th，则估计位置更新部15G利用梯度grad e(q)和当前估计位置

q = (\hat{X}, \hat{Y}, \hat{Z})

通过等式(4)更新估计位置，并且将更新后的估计位置

q_{u + 1} = (\hat{X}, \hat{Y}, \hat{Z})

提供给距离计算部15C。距离计算部15C利用更新的估计位置

和d_ij参照前面相同的方式计算r_i和r_j；此后，平均平方误差计算部15D更新e(q)，然后梯度计算部15E计算更新的grad e(q)，并且相关决定部15F决定更新的平均平方误差e(q)是否小于极限值e_th。

这样，估计位置

的更新被重复直到平均平方误差的梯度grad e(q)的每个元素变得充分小(小于e_th)，在此附近估计声源9_k的位置

相似的，其它声源的位置也被估计出。

频域转换部16将每个麦克风获取的信号转换为频域信号。例如，获取信号的采样频率是16kHz，每个麦克风11_m(m＝1，...，M)的获取信号的样本使用快速傅立叶变换(Fast Fourier Transform，FFT)处理以每帧256次采样以得到同样数目的频域信号样本X_m(ω)。

接着，协方差矩阵计算部17计算麦克风获取信号的协方差并生成协方差矩阵。假设X₁(ω)至X_M(ω)代表对每个声源9_k通过频域转换部16得到的麦克风获取信号的频域转换信号，这些信号的一个M×M协方差矩阵R_XX(ω)一般表达为下面的等式(11)。

R_{XX} (ω) = (\begin{matrix} X_{1} (ω) \\ \cdot \\ \cdot \\ \cdot \\ X_{M} (ω) \end{matrix}) (\begin{matrix} X_{1} {(ω)}^{*} & \cdot \cdot \cdot & X_{M} {(ω)}^{*} \end{matrix})

其中*代表共轭转置。

接着，协方差矩阵存储部18，基于声源位置探测部15的探测结果，将协方差矩阵R_XX(ω)作为每个声源9_k的一个M×M协方差矩阵R_SkSk(ω)存储起来。

假设A_k(ω)＝(a_k1(ω)，...，a_kM(ω))代表每个声源9_k的M-通道获取信号的加权混合向量，获取声音电平估计部19对每个声源9_k通过下面的等式(12)利用存储在协方差矩阵存储部18中的每个声源9_k的获取信号的协方差矩阵R_SkSk(ω)计算获取的声音电平。

P_{Sk} = \frac{1}{W} Σ_{ω = 0}^{W} A_{k} {(ω)}^{H} R_{SkSk} (ω) A_{k} (ω) - - - (12)

在上文中，加权混合向量表示为有可控制的频率特性的向量A_k(ω)＝(a_k1(ω)，...，a_kM(ω))，但是如果没有频率特征控制是有效的，向量A_k的元素可能是预先设定的值a_k1，a_k2，…，a_kM。例如，加权混合向量A_k的元素对每个声源9_k在对应于元素的麦克风变得越来越接近声源9_k时，被给定越来越大的值。极端情况下，最接近声源9_k的麦克风11_m所对应的元素有可能设定为1而对其它元素设定为0，比如A_k＝(0，...，0，a_km＝1，0，...，0)。下面的描述中，为简单起见，a_k1(ω)，…，a_kM(ω)被简单表示为a_k1，…，a_kM。

等式(12)中的^H表示复共轭转置，并且A_k(ω)^HR_SkSk(ω)A_k(ω)能表达为下面的等式。

A_{k} {(ω)}^{H} R_{SkSk} (ω) A_{k} (ω)

= a_{k 1}^{*} (a_{k 1} X_{1} (ω) X_{1} {(ω)}^{*} + a_{k 2} X_{2} (ω) X_{1} {(ω)}^{*} + \cdot \cdot \cdot + a_{kM} X_{M} (ω) X_{1} {(ω)}^{*})

+ a_{k 2}^{*} (a_{k 1} X_{1} (ω) X_{2} {(ω)}^{*} + a_{k 2} X_{2} (ω) X_{2} {(ω)}^{*} + \cdot \cdot \cdot + a_{kM} X_{M} (ω) X_{1} {(ω)}^{*})

 

+ a_{kM}^{*} (a_{k 1} X_{1} (ω) X_{M} {(ω)}^{*} + a_{k 2} X_{2} (ω) X_{M} {(ω)}^{*} + \cdot \cdot \cdot + a_{kM} X_{M} (ω) X_{M} {(ω)}^{*})

= Ω (ω) - - - (13)

等式(12)意味着获取信号平均功率P_sk是通过在由频域转换部16生成的频域信号的频带0到W(采样数目)上将由等式(13)给出的由Ω(ω)表示的功率谱采样值(sample value)叠加起来然后将叠加后的值除以W计算得到。

例如，假设麦克风11₁距声源9₁最近，加权因数a_k1的值是这样确定的，被麦克风11₁(第一个通道)获取的信号分配到最大的加权并且其它通道的获取信号的加权因数a_k2，a_k3，…，a_kM的值都小于a_k1。根据这样的加权方案，有可能增加从声源9₁获取的信号的S/N或比未进行这种加权的情况减小房间反射(room reverberation)的影响。即，每个声源9_k的加权混合向量的加权因数的最优值是被麦克风的方向性和布局以及声源的布局用实验方法以这样的方式即增加，例如声源9_k所对应的输出语音信号的S/N并降低房间反射来预先确定。但是根据本发明，甚至在所有的通道进行了相同的加权，从各个声源获取的信号也能够控制到期望的电平。

接着，滤波器系数计算部21为从每个声源以期望的音量获取语音而计算滤波器系数。首先，假定H₁(ω)至H_M(ω)代表每个连接到一个麦克风的滤波器12₁至12_M的滤波器系数的频域转换后的形式。接着，假定H(ω)代表这些滤波器系数通过下面的等式(14)构成的矩阵。

H (ω) = (\begin{matrix} H_{1} (ω) \\ \cdot \\ \cdot \\ \cdot \\ H_{M} (ω) \end{matrix}) - - - (14)

此外，假定X_Sk，1至X_Sk，M代表第k个声源9_k的话语期间每个麦克风获取信号的频域转换的信号。

在此情形下，滤波器系数矩阵H(ω)需要满足的条件是当麦克风获取信号用滤波器系数矩阵H(ω)滤波并且滤波后的信号全部叠加时，从每个声源来的信号成分有期望的电平P_opt。因此，下面的等式(15)是理想的条件，根据它通过叠加声源9_k的滤波后的信号得到的信号与对从麦克风11₁至11_M获取的信号的加权混合向量A_k(ω)乘以期望的增益所得到的信号相同。

(\begin{matrix} X_{Sk, 1} (ω) & \cdot \cdot \cdot & X_{Sk, M} (ω) \end{matrix}) H (ω) = \sqrt{\frac{P_{opt}}{P_{Sk}}} (\begin{matrix} X_{Sk, 1} (ω) & \cdot \cdot \cdot & X_{Sk, M} (ω) \end{matrix}) A_{k} (ω) - - - (15)

其中k＝1，...，K，k代表声源数目。

接着，为得到滤波器系数矩阵H(ω)通过最小二乘方法求解条件等式(15)而给出下面的等式(16)。

H (ω) = {Σ_{k = 1}^{K} C_{Sk} R_{SkSk} (ω)}^{- 1} Σ_{k = 1}^{K} C_{Sk} \sqrt{\frac{P_{opt}}{P_{Sk}}} R_{SkSk} (ω) A_{k} (ω) - - - (16)

其中C_Sk是加权因数其为对第k个声源位置施加灵敏度约束。这里所说的灵敏度约束是考虑到声源位置展平当前声音获取装置的频率特性。该值的增加则增大了所关注声源的灵敏度约束，允许扁平的频率特性的声音获取但是对于其它声源位置损害了频率特性。因此，最好是C_Sk通常设定的值大约在范围0.1至10之内以对所有的声源施加比较平衡的限制。

图4以方块的形式说明用于计算用等式(16)表示的滤波器系数的滤波器系数计算部21的功能结构。在此例中，协方差矩阵R_S1S1至R_SKSK分别对应于声源9₁至9_K，由协方差矩阵存储部18提供，施加到乘法器21A1至21AK，在那里它们分别乘以由加权因数设定部21H设定的加权因数C_S1至C_SK。声源9₁至9_K的获取声音电平P_S1至P_SK，由获取声音电平估计部19估计出来，提供到平方比率计算部21B1至21BK，在那里它们之间的平方比率，(P_opt/P_S1)^1/2至(P_opt/P_SK)^1/2，和预定的期望输出电平P_opt被计算出，并且计算出的值提供到乘法器21C1至21CK分别同从乘法器21A1至21AK的结果相乘。从乘法器21C1至21CK出来的结果供应给乘法器21D1至21DK，在那里它们进一步同加权混合向量A₁(ω)至A_K(ω)相乘，并且相乘后结果的总和矩阵被加法器21E计算出。另一方面，从乘法器21A1至21AK出来的结果的总和矩阵被加法器21F计算出，并且通过逆矩阵乘法器21G，被加法器21F计算出的矩阵的逆矩阵与从加法器21E出来的输出相乘以计算出滤波器系数H(ω)。

接着，被滤波器系数计算部21计算出的滤波器系数H₁(ω)、H₂(ω)、…、H_M(ω)被设定在滤波器12₁至12_M中，以分别对从麦克风11₁至11_M获取的信号滤波。滤波后的信号被加法器13全部叠加起来，通过它叠加后的输出提供为输出信号。

下面将给出三个使用根据本发明的声音获取装置的范例的描述。

如图5所示，第一个方法开始时在步骤S1中初始的声源数目K设置为K＝0。接着的是步骤S2，在其内状态决定部14周期性的检查话语情况，并且如果探测到话语，在步骤S3中涉及到声源位置探测部15探测声源。在步骤S4中决定所探测的声源位置是否和以前所探测的任意一个声源位置匹配，并且如果匹配的位置存在，对应于那个声源位置的协方差矩阵R_XX(ω)在步骤S5中在协方差矩阵计算部17内重新计算，并在步骤S6中协方差矩阵存储部18中对应区域内的协方差矩阵用重新计算出的协方差矩阵更新。

当在步骤S4中没有在以前探测的声源位置中发现匹配的位置，K在步骤S7中增加1，然后在步骤S8对应于那个声源位置的协方差矩阵R_XX(ω)在协方差矩阵计算部17中被新计算出来，并且在步骤S9中协方差矩阵在协方差矩阵存储部18的新区域内存储起来。

接着，在步骤S10中获取信号电平根据存储的协方差矩阵在获取声音电平估计部19里估计出，然后在步骤S11中估计出的获取声音电平和协方差矩阵被滤波器系数计算部17用于计算滤波器系数H₁(ω)至H_M(ω)，并且在步骤S12中在滤波器12₁至12_M设定的滤波器系数用新计算出的值更新。

第二种方法，如图6所示，预先设定最大声源数目的值在K_max中并且在步骤S1中预先设定初始声源数目K为0。后面的步骤S2至S6与图5所示的情形一致；即，麦克风输出信号被检查话语情况，并且如果探测到话语，那么它的声源位置被探测出，然后决定探测到的声源位置是否匹配任意一个以前探测的，并且如果匹配位置存在，对应该声源位置的协方差矩阵被计算并作为新更新的矩阵在相应的存储区域内存储。

当在步骤S4中没有在以前探测的声源位置中发现匹配的位置，K在步骤S7中增加1，并且在步骤S8中检查以判断K是否大于最大值K_max。如果未超过最大值K_max，那么探测到的位置的协方差矩阵在步骤S9中计算出，并且在步骤S10中协方差矩阵存储在新区域内。当发现在步骤S8中K超过最大值K_max，在步骤S11中设定K＝K_max，然后在步骤S12中存储在协方差存储部18中的最早更新的一个协方差矩阵被删除，并且被协方差矩阵计算部17在步骤S13中计算出新的协方差矩阵在步骤S14中被存储在那块区域。后续的步骤S15，S16和S17与图5中的步骤S10，S11和S12是一样的；即，对每个声源所估计的获取声音电平根据协方差矩阵计算出，并且滤波器系数被计算出并且设定在滤波器12₁至12_M。此方法比图5方法好是因为协方差矩阵存储部18的存储区域能够通过限制声源数目K的最大值到K_max而减小。

在第一种和第二种方法中，如上所述，每次语音的探测总是伴随着协方差矩阵的计算和存储以及滤波器系数的更新，但是下面所述的第三种方法在探测到的话语的声源位置匹配任意一个已经探测的声源位置时不伴随滤波器系数更新。图7说明第三种方法的处理过程。在步骤S1中声源数目K的初始值设定为0，然后在步骤S2中状态探测部14周期性的检查话语情况，并且如果探测到话语，在步骤S3中声源位置探测部15探测所探测到话语的声源位置。在步骤S4中决定探测的声源位置是否匹配任意一个以前探测的声源位置，并且如果匹配的位置存在，处理过程回到步骤S2而无需更新。如果在步骤S4中任意一个已经探测的声源位置中不存在匹配的位置，即，如果声源9_k移动到不同于以前所处的位置，或者如果增加了新的声源，K在步骤S5中增加1，然后在步骤S6中对应于该声源的协方差矩阵R_SkSk(ω)在协方差矩阵计算部17中被新计算出来，并且在步骤S7中它被存储在协方差存储部18中相应的新区域MA_k，然后在步骤S8中协方差矩阵被获取声音电平估计部19用来估计获取声音电平，然后在步骤S9中所有的协方差矩阵和估计的获取声音电平被滤波器系数计算部21用来计算更新的滤波器系数，并且在步骤S10中更新的滤波器系数被设定到滤波器12₁至12_M，接着返回到步骤S2。

所上所述，根据本发明，声源位置从多个麦克风的获取信号中估计出，然后对每个声源计算出获取信号的协方差矩阵，然后用于调节每个声源位置的音量的滤波器系数被计算出，并且滤波器系数被用来滤波麦克风的获取信号，通过它有可能得到音量针对每个说话者位置调整的输出信号。

当图1的实施例参照声源位置探测部15估计每个声源9_k的坐标位置的情形进行描述时，有可能计算声源方向，即，每个声源针对麦克风11₁至11_M排列的角位置。估计声源方向的方法已被提出，例如，在Tanaka，Kaneda，和Kojima，“Performance Evaluation of a Sound Source DirectionEstimating Method under Room Reverberation”，Journal of the Societyof Acoustic Engineers of Japan，vol.50，No.7，1994，pp.540-548。简而言之，获取信号的协方差矩阵只需对每个声源计算出并存储。

第二个实施例

图8是根据本发明第一个实施例的声音获取装置的功能方块图。

本实施例的声音获取装置包括麦克风11₁至11_M，滤波器12₁至12_M，加法器13，状态决定部14，声源位置探测部15，频域转换部16，协方差矩阵计算部17，协方差矩阵存储部18，获取声音电平估计部19，和滤波器系数计算部21。

本实施例对根据本发明第一个实施例的声音获取装置的获取声音电平调整增加了噪声衰减的效果。

首先，状态决定部14根据从麦克风11₁至11_M接收的信号的功率探测话语时段和噪声时段。状态决定部14包括，如图9所示，如同第一个实施例的情形，通过短时间平均功率计算部14B和长时间平均功率计算部14C对各个麦克风的获取信号计算短时间平均功率P_avS和长时间平均功率P_avL，然后短时间平均功率和长时间平均功率间的比率，R_p＝P_avS/P_acL，在除法部14D被计算出，然后该比率与话语极限值P_thU在话语探测部14E相比较，并且如果功率比超过极限值，它被决定为指示话语时段存在。噪声决定部14F将功率比率R_p与噪声极限值P_thN相比较，并且如果功率比小于极限值，它被决定为指示噪声时段存在。

当被话语决定部14E决定的结果指示为话语时段，声源位置探测部15探测就如同本发明第一个实施例中涉及的同样的方式探测的声源位置。

接着，频域转换部16转换在每个声源9_k的话语时段和噪声时段从麦克风11₁至11_M获取的信号为频域信号，并将它们提供给协方差矩阵计算部17。协方差矩阵计算部17如同本发明第一个实施例相同的方式对声源9_k计算频域获取信号的协方差矩阵R_SkSk(ω)。此外，协方差矩阵计算部计算在噪声时段的频域获取信号的协方差矩阵R_NN(ω)。

协方差矩阵存储部18基于声源位置探测部15探测的结果和状态决定部15的决定结果，对每个声源9₁，…，9_k在区域MA₁，…，MA_K，MA_K+1存储话语时段的协方差矩阵R_SkSk(ω)和噪声时段的协方差矩阵R_NN(ω)。

获取声音电平估计部19如同本发明第一个实施例相同的方式对每个声源估计获取声音电平P_Sk。

接着，滤波器系数计算部21对从每个声源9_k以期望的音量获取声音和为衰减噪声计算滤波器系数。首先，噪声衰减的条件被计算出。假设在噪声时段麦克风获取信号的频域转换信号被X_N，1(ω)至X_N，M(ω)所代表。如果麦克风获取信号X_N，1(ω)至X_N，M(ω)在噪声时段通过滤波器12₁至12_M和加法器13后变为零，这意味着噪声能被衰减；因此，噪声衰减的条件通过下面的等式(17)给出。

(X_N，1(ω)，...，X_N，M(ω))H(ω)＝0 (17)

通过同时满足等式(17)和用以调整获取声音电平的等式(15)，如前面本发明第一个实施例所提到的，有可能同时实现获取声音电平调整和噪声衰减。

接着，为得到滤波器系数矩阵H(ω)通过最小二乘方法求解条件等式(15)和等式(17)给出下面的等式(18)。

H (ω) = {Σ_{k = 1}^{K} C_{Sk} R_{SkSk} (ω) + C_{N} R_{NN} (ω)}^{- 1} Σ_{k = 1}^{K} C_{Sk} \sqrt{\frac{P_{opt}}{P_{Sk}}} R_{SkSk} (ω) A_{k} (ω) - - - (18)

C_N是噪声衰减率的加权常数；该常数数值的增加则增加了噪声衰减速度。但是，由于C_N的增加降低了对声源位置的灵敏度约束并且增加了获取声音信号的频率特性的降低(degradation)，C_N正常设定为大约在范围0.1至10中的合适的值。其它符号的意义与在第一个实施例中是一样的。

接着，通过等式(18)计算的滤波器系数被设定在滤波器12₁至12_M中并用来滤波麦克风获取信号。滤波后的信号通过加法器13叠加起来，叠加后的信号被提供作为输出信号。

如上所述，本发明第二个实施例除了在本发明第一个实施例中实现获取声音电平调整之外允许噪声衰减。

本实施例的其它部分与本发明第一个实施例相同，因此它们不再被描述。

第三个实施例

图10是根据本发明第三个实施例的声音获取装置的功能方块图。

本实施例的声音获取装置包括扩音器22，麦克风11₁至11_M，滤波器12₁至12_M和23，加法器13，状态决定部14，声源位置探测部15，频域转换部16，协方差矩阵计算部17，协方差矩阵存储部18，获取声音电平估计部19，和滤波器系数计算部21。

本实施例对本发明第二个实施例的声音获取装置增加了扩音器22以再现从位于远程位置的与会的说话者那里接收的信号和用于滤波接收信号的滤波器23，从实现的观点看，除了获取声音电平调整和第二个实施例的噪声衰减，增加了回声的消除，它是被麦克风11₁至11_M所获取的扩音器再现信号的成分。

状态决定部14，如图11所示除了图4所示状态决定部14的结构，包括：短时间平均功率计算部14B’和长时间平均功率计算部14C’以分别计算接收信号的短时间平均功率P’_avS和长时间平均功率P’_avL；除法部14D’以计算它们的比率R’_P＝P’_avS/P’_avL；接收决定部14G其将比率R’_p与预定的接收信号极限值R_thR相比较，并且如果前者大于后者，决定状态为接收时段；和状态确定部14H其基于话语决定部14E、噪声决定部14F和接收决定部14G所决定的结果确定状态。当被接收决定部14G所决定的结果是接收时段时，状态确定部14H确定状态为接收时段，而不管话语决定部14E和噪声决定部14F的决定结果如何，反之当接收决定部14G决定状态不是接收时段，状态确定部如图4所示情形根据话语决定部14E和噪声决定部14F的决定来确定状态是话语或噪声时段。

当状态决定部14决定的结果是话语时段，声源位置探测部15如同本发明第一个实施例中涉及的相同的方式探测声源的位置。

接着，频域转换部16将麦克风获取信号和接收信号转换到频域信号X₁(ω)，...，X_M(ω)和Z(ω)，并且协方差矩阵计算部17计算频域获取信号和接收信号的协方差矩阵。麦克风获取信号的频域转换信号X₁(ω)至X_M(ω)的协方差矩阵R_XX(ω)和频域转换信号Z(ω)通过下面的等式(19)计算出。

R_{XX} (ω) = (\begin{matrix} Z (ω) \\ X_{1} (ω) \\ \cdot \\ \cdot \\ \cdot \\ X_{M} (ω) \end{matrix}) (\begin{matrix} {Z (ω)}^{*} & X_{1} {(ω)}^{*} & \cdot \cdot \cdot & X_{M} {(ω)}^{*} \end{matrix}) - - - (19)

其中*代表共轭转置。

接着，在协方差矩阵存储部18中，基于声源位置探测部15的探测结果和状态决定部14的决定结果，协方差矩阵R_XX(ω)被作为在话语时段对于每个声源9_k的获取信号和接收信号的协方差矩阵R_SkSk(ω)，作为在噪声时段获取信号和接收信号的协方差矩阵R_NN(ω)，以及作为在接收时段获取信号和接收信号的协方差矩阵R_EE(ω)分别在区域MA₁，...，MA_K，MA_K+1，MA_K+2中存储起来。

获取声音电平估计部19基于每个声源的协方差矩阵R_S1S1，…，R_SKSK和预定的对每个声源的含有M+1个元素的加权混合向量A₁(ω)，…，A_K(ω)通过下面的等式(20)对每个声源9_k计算获取声音电平P_Sk。

P_{Sk} = \frac{1}{W} Σ_{ω = 0}^{W} A_{k} {(ω)}^{H} R_{SkSk} (ω) A_{k} (ω) - - - (20)

接着，滤波器系数计算部21计算滤波器系数以从每个声源以期望的音量获取说出的语音。假设H₁(ω)至H_M(ω)代表分别连接到麦克风的滤波器12₁至12_M的滤波器系数的频域转换后的形式，并且假定F(ω)代表用于滤波接收信号的滤波器23的滤波器系数的频域转换后的形式。然后，假定H(ω)代表这些滤波器系数构成的由下面的等式(21)所给定的矩阵。

H (ω) = (\begin{matrix} F (ω) \\ H_{1} (ω) \\ \cdot \\ \cdot \\ \cdot \\ H_{M} (ω) \end{matrix}) - - - (21)

此外，假设X_E，1(ω)至X_E，M(ω)代表在接收时段麦克风获取信号的频域转换信号；假设Z_E(ω)代表接收信号的频域转换信号；假设X_N，1(ω)至X_N，M(ω)代表在噪声时段麦克风获取信号的频域转换信号；假设Z_N(ω)代表接收信号的频域转换信号；假设X_Sk，1(ω)至X_Sk，M(ω)代表在话语时段第k个声源9_k的麦克风获取信号的频域转换信号；并且假设Z_Sk(ω)代表接收信号的频域转换信号。

在此情形下，滤波器系数矩阵H(ω)需要满足的条件是当麦克风获取信号和发送信号各自使用滤波器系数矩阵H(ω)滤波以及滤波后的信号全部叠加起来时，回声和噪声信号被消除并且仅有发送语音信号以期望的电平发送。

因此，对于在接收时段和噪声时段的信号，下面等式(22)和(23)是理想的条件通过它们滤波后和叠加后的信号为0。

(Z_E(ω)X_E，1(ω)…X_E，M(ω))H(ω)＝0 (22)

(Z_N(ω)X_N，1(ω)…X_N，M(ω))H(ω)＝0 (23)

对于在话语时段的信号，下面的等式是理想的条件通过它滤波后和叠加的信号与将麦克风获取信号和接收信号乘以由预定的M+1个元素和期望增益组成的加权混合向量A_k(ω)后得到的信号相等。

(\begin{matrix} Z_{Sk} (ω) & X_{Sk, 1} (ω) & \cdot \cdot \cdot & X_{Sk, M} (ω) \end{matrix}) H ((ω)) = \sqrt{\frac{P_{opt}}{P_{Sk}}} (\begin{matrix} Z_{Sk} (ω) & X_{Sk, 1} (ω) & \cdot \cdot \cdot & X_{Sk, M} (ω) \end{matrix}) A_{k} (ω) - - - (24)

加权混合向量A_k(ω)＝(a₀(ω)，a_k1(ω)，...，a_kM(ω))中的元素a₀(ω)代表对接收信号的加权因数；通常，它被设定为a₀(ω)＝0。

接着，为得到滤波器系数矩阵H(ω)，通过最小二乘方法求解等式(22)至(24)构成的条件给出下面的等式：

H (ω) = {Σ_{k = 1}^{K} C_{Sk} R_{SkSk} (ω) + C_{N} R_{NN} (ω) + C_{E} R_{EE} (ω)}^{- 1} Σ_{k = 1}^{K} C_{Sk} \sqrt{\frac{P_{opt}}{P_{Sk}}} R_{SkSk} (ω) A_{k} (ω) - - (25)

C_E是增进回声往返损耗的加权常数；该值越大，增进回声往返损耗增加就越多。但是，C_E值的增加加速了获取信号频域特性的恶化和降低了噪声衰减特性。因此，C_E通常设定为大约在范围0.1至10.0内合适的值。其它符号的意义与在第二个实施例中的相同。

以这种途径，滤波器系数能够以调整音量和衰减噪声的形式确定出。

接着，通过等式(25)得到的滤波器系数，设定在滤波器12₁至12_M和23，其分别滤波麦克风获取信号和接收信号。滤波后的信号被加法器13全部叠加起来，从加法器出来的叠加后的信号被作为发送信号输出。其它部分与本发明的第二个实施例相同因此不再重复描述。

如上所述，本发明第三个实施例允许除了本发明第二个实施例实现的获取声音电平调整和噪声衰减之外，还实现了回声消除。当第三个实施例被描述为对第二个实施例增加了回声消除能力，回声消除能力也能增加到第一个实施例。在这种情况下，噪声决定部14F在详细展示图10中状态决定部14的图11中被删掉，并且图10中的协方差矩阵计算部17在噪声时段不计算协方差矩阵R_NN(ω)。因此，在滤波器系数计算部21中滤波器系数的计算可以通过下面的等式完成，其依据前面的描述是显而易见的。

H (ω) = {Σ_{k = 1}^{K} C_{Sk} R_{SkSk} (ω) + C_{E} R_{EE} (ω)}^{- 1} Σ_{k = 1}^{K} C_{Sk} \sqrt{\frac{P_{opt}}{P_{Sk}}} R_{SkSk} (ω) A_{k} (ω) - - - (26)

第四个实施例

尽管上面的描述为对第二个实施例的获取声音电平调整和噪声衰减能力增加了回声消除能力的实施例，图10的第三个实施例也能够配置为仅具噪声衰减和回声消除能力的声音获取装置。这样结构的一个范例展示于图12。

如图12中所描述，该实施例有这样的结构，其中在图10结构中声源位置探测部15和获取声音电平估计部19被删掉并且协方差矩阵计算部17计算发送信号的协方差矩阵矩阵R_SS(ω)，接收信号的协方差矩阵R_EE(ω)，以及噪声信号的协方差矩阵R_NN(ω)，它们被分别存储在协方差存储部18的存储区域MA_S，MA_E和MA_N中。回声消除能力能够利用至少一个麦克风来实现，不过这里展示了使用M个麦克风的范例。

状态决定部14，如在图10实施例中，从被麦克风12₁至12_M获取的信号和接收信号中决定话语时段，接收时段，和噪声时段；状态决定部与图11中描述的相应部件在具体结构和操作上是相同的。获取信号和接收信号被频域转换部16转换为频域获取信号X₁(ω)至X_M(ω)和频域接收信号Z(ω)，其被提供给协方差矩阵计算部17。

接着，协方差矩阵计算部17生成频域获取信号和接收信号的协方差矩阵。麦克风获取信号的频域转换信号X₁(ω)至X_M(ω)和接收信号的频域转换信号Z(ω)的协方差矩阵R_XX(ω)通过下面的等式(27)计算。

R_{xx} (ω) = (\begin{matrix} Z (ω) \\ X_{1} (ω) \\ \cdot \\ \cdot \\ \cdot \\ X_{M} (ω) \end{matrix}) (\begin{matrix} Z {(ω)}^{*} & X_{1} {(ω)}^{*} & \cdot \cdot \cdot & X_{M} {(ω)}^{*} \end{matrix}) - - - (27)

其中*代表共轭转置。

接着，在协方差矩阵存储部18中，基于状态决定部14的决定结果，协方差矩阵R_XX(ω)被作为在话语时段每个声源9_k的获取信号和接收信号的协方差矩阵R_SS(ω)，作为在噪声时段获取信号和接收信号的协方差矩阵R_NN(ω)，以及作为在接收时段获取信号和接收信号的协方差矩阵R_EE(ω)分别在区域MA_S，MA_N，和MA_E中存储起来。

接着，滤波器系数计算部21从声源获取说出的语音，并且计算滤波器系数以消除回声和噪声。假设H₁(ω)至H_M(ω)分别代表连接到麦克风的滤波器12₁至12_M的滤波器系数的频域转换后的形式，并且假定F(ω)代表用于滤波接收信号的滤波器23的滤波器系数的频域转换后的形式。然后，假定H(ω)代表这些滤波器系数构成的由下面的等式(28)所给定的矩阵。

H (ω) = (\begin{matrix} F (ω) \\ H_{1} (ω) \\ \cdot \\ \cdot \\ \cdot \\ H_{M} (ω) \end{matrix}) - - - (28)

此外，假设X_E，1(ω)至X_E，M(ω)代表在接收时段麦克风获取信号的频域转换信号；假设Z_E(ω)代表接收信号的频域转换信号；假设X_N，1(ω)至X_N，M(ω)代表在噪声时段麦克风获取信号的频域转换信号；假设Z_N(ω)代表接收信号的频域转换信号；假设X_Sk，1(ω)至X_Sk，M(ω)代表在话语时段麦克风获取信号的频域转换信号；并且假设Z_S(ω)代表在话语时段接收信号的频域转换信号。

在此情形下，滤波器系数矩阵H(ω)需要满足的条件是当麦克风获取的信号和发送信号各自使用滤波器系数矩阵H(ω)滤波以及滤波后的信号全部叠加起来时，回声和噪声信号被消除并且仅有发送语音信号以期望的电平发送。

因此，对于在接收时段和噪声时段的信号，下面等式(29)和(30)是理想的条件通过它们滤波的和叠加的信号为0。

(Z_E(ω)X_E，1(ω)…X_W，M(ω))H(ω)＝0 (29)

(Z_N(ω)X_N，1(ω)…X_N，M(ω))H(ω)＝0 (30)

对于在话语时段的信号，下面的等式是理想的条件，通过它滤波后以及叠加的信号与将麦克风获取信号和接收信号乘以由预定的M+1个元素组成的加权混合向量A(ω)后得到的信号相等。

(\begin{matrix} Z_{S} (ω) & X_{Sk, 1} (ω) & \cdot \cdot \cdot & X_{Sk, M} (ω) \end{matrix}) H (ω) = \sqrt{\frac{P_{opt}}{P_{Sk}}} (\begin{matrix} Z_{S} (ω) & X_{Sk, 1} (ω) & \cdot \cdot \cdot & X_{Sk, M} (ω) \end{matrix}) Λ_{k} (ω) - - - (31)

加权混合向量A(ω)＝(a₀(ω)，a_k1(ω)，...，a_kM(ω))中的第一个元素a₀(ω)代表接收信号的加权因数；通常，它被设定为a₀(ω)＝0。

接着，为得到滤波器系数矩阵H(ω)通过最小二乘方法求解等式(29)至(31)构成的条件给出下面的等式：

H(ω)＝{R_SS(ω)+C_NR_NN(ω)+C_ER_EE(ω)}^-1R_SS(ω)A(ω) (32)

以这种途径，滤波器系数能够以调整音量和降低噪声的形式确定出。

接着，通过等式(32)得到的滤波器系数，设定在滤波器12₁至12_M和23，其分别滤波麦克风获取的信号和接收信号。滤波后的信号被加法器13全部叠加起来，从加法器出来的叠加后的信号被作为发送信号输出。其它部分与本发明的第二个实施例相同，因此不再重复描述。

如上所述，本发明的第四个实施例除了噪声衰减的效果之外还允许回声消除的实现。

第五个实施例

图13说明第五个实施例。根据第五个实施例，在图12的第四个实施例中，在话语时段声源位置被探测，对每个声源的协方差矩阵被计算和存储并且在噪声时段对噪声的协方差矩阵被计算和存储。然后，这些存储的协方差矩阵被用来计算滤波器系数以消除噪声和回声。麦克风获取的信号和接收的信号使用这些滤波器系数滤波，从而得到噪声和回声被消除的发送信号。

第五个实施例的结构与第三个实施例是共同的，除了图10中获取声音电平估计部19被删掉。

状态决定部如第三个实施例中探测话语时段，接收时段和噪声时段。当状态决定部14决定的结果是话语时段，声源位置15探测部15估计每个声源9_k的位置。声源位置估计方法与图1的第一个实施例中用到的是一样的，不再重复。

接着，在频域转换部16中获取信号和接收信号被转换为频域信号，它们被提供给协方差计算部17。

协方差计算部17对各个声源9_k的获取信号和接收信号计算协方差矩阵R_S1S1(ω)至R_SKSK(ω)，在接收时段计算协方差矩阵R_EE(ω)和在噪声时段计算协方差矩阵R_NN(ω)。协方差矩阵存储部18基于状态决定部14的决定结果和声源位置探测部15的位置探测结果，分别在相应的区域MA₁至MA_K，MA_K+1和MA_K+2中存储协方差矩阵R_S1S1(ω)至R_SKSK(ω)，R_EE(ω)和R_NN(ω)。

为了发送被获取的语音，滤波器系数计算部21计算滤波器系数以消除回声和噪声。如同第三个实施例中的情形，通过最小二乘方法对滤波器系数矩阵H(ω)求解条件表达式给出下面的等式：

H (ω) = {Σ_{k = 1}^{K} C_{Sk} R_{SkSk} (ω) + C_{N} R_{NN} (ω) + C_{E} R_{EE} (ω)}^{- 1} Σ_{k = 1}^{K} C_{Sk} R_{SkSk} (ω) A_{k} (ω) - - - (33)

上面的C_s1至C_Sk是对各个声源的灵敏度约束的加权常数，C_E是对增进回声往返损耗的加权常数，以及C_N是对噪声衰减速度的加权常数。

这样得到的滤波器系数被设定在滤波器12₁至12_M和23，它们分别过滤麦克风获取的声音信号和接收信号。其它部分与本发明第二个实施例相同，因此不再重复描述。第五个实施例允许生成的发送信号如同第三个实施例一样消除了从那里来的回声和噪声。此外，根据第五个实施例，灵敏度约束能够施加给多个声源，并且灵敏度能够对前面的说出语音的声源保持住。因此，本实施例是有益的，其原因是即使当声源移动时，由于在声源发出语音的条件下能够维持对声源的灵敏度，所以语音的初始部分的语音质量不会变坏。

第六个实施例

根据本发明第六个实施例的声音获取装置将被描述。

在本实施例的声音获取装置中，在第一个至第三个和第五个实施例中的声音获取装置中的对声源位置9_k的灵敏度约束的加权因数C_S1至C_SK是基于时间(timewise)变化的。

对声源9₁至9_k的灵敏度约束的时变加权因数C_S1至C_SK根据过去的话语顺序而设置越来越小。第一种方法是随着从探测每个已经探测到的声源位置到探测最近探测到的声源位置所流逝的时间的增加而减小加权因数C_Sk。第二种方法是根据探测K个声源位置的顺序将加权因数C_Sk设置越来越小。

图14以方块图的形式说明了为实现上述第一种方法的加权因数设置部21H的功能结构。加权因数设置部21H包括：时钟21H1输出时间；时间存储部21H2其根据每次声源位置的探测，覆盖探测时间t，利用数字k作为地址代表探测的声源9_k；加权因数确定部21H3。基于存储于时间存储部21H2中声源位置探测的时间，加权因数确定部21H3分配预定的值C_s作为加权因数S_Ck给当前探测的数字为k(t)的声源，并且依照在探测时间t_k后流逝的时间t-tk分配值q^(t-tk)C_S为加权因数给其它每个数字k≠k(t)的声源。q是预定的值范围是0＜q≤1。以这种方式，各个声源的灵敏度约束加权因数C_S1至C_SK被确定，并且它们提供给21A1至21AK。

图15以方块图的形式说明实现上述第二种方法的加权因数设置部21H的功能性结构。在这个例子中，它包括时钟21H1，时间存储部21H2，顺序决定部21H4，和加权因数确定部21H5。顺序决定部21H4从存储在时间存储部21H2中的时间决定探测声源9₁至9_k{k(t)＝k(1)，...，k(K)}的位置的顺序(最新的顺序)。加权因数确定部21H5分配预定的值C_S作为加权因数C_Sk(1)给最新探测的声源9_k(1)。对其它声源，加权因数确定部对t＝1，2，...，K-1计算C_Sk(t+1)←qC_Sk(t)以得到加权因数C_Sk(2)，…，C_Sk(t)。这些加权因数C_Sk(2)至C_Sk(t)根据顺序{k(1)，...，k(K)}重新排列，然后作为加权因数C_S1，…，C_SK输出。q的值是预定的范围在0＜q＜1的值。

通过如上述对各个声源改变灵敏度约束的加权，有可能降低在过去话语的声源位置的灵敏度约束。因此，与第一个至第三个实施例相比，本实施例的装置降低了受灵敏度约束的声源数目，增强了获取的声音电平调节能力和噪声与回声消除功能。

其它部分与本发明第一个至第三个和第五个实施例的那些部分是相同的，因此不再重复描述。

第七个实施例

根据本发明第七个实施例的声音获取装置将被描述。

根据本发明第七个实施例的声音获取装置的特点在于在根据本发明第一个至第六个实施例的声音获取装置的滤波器系数计算部21中白化了协方差矩阵R_XX(ω)。图16说明了在图4所示的滤波器系数计算部21中被虚线所指示的一种典型的白化部21J1至21JK的功能结构。白化部21J包括对角矩阵计算部21JA，加权部21JB，逆运算部21JC和乘法部21JD。对角矩阵计算部21JA对提供的协方差矩阵R_XX(ω)生成对角矩阵diag(R_XX(ω))。加权部21JB通过计算下面基于预定的任意M或M+1行的矩阵D的等式对对角矩阵分配加权。

D^Tdiag(R_XX(ω))D (34)

逆运算部21JC计算等式(34)的逆。

1/{D^Tdiag(R_XX(ω))D} (35)

上面的^T表示矩阵的转置。在乘法部21JD你计算部21JC的计算结果乘以每个输入到那的协方差矩阵R_XX(ω)以得到白化后的协方差矩阵。

随着协方差矩阵这样白化后，在滤波器系数计算部21中得到的滤波器系数不再随着发送信号，获取信号和噪声信号的谱改变而改变。结果，获取声音电平调节能力和回声与噪声消除能力不会随着谱改变而改变——这使得实现稳定的获取声音电平调整和回声与噪声消除成为可能。

其它部分与本发明第一个至第四个实施例的相同，因此不再重复描述。

第八个实施例

根据本发明第八个实施例的声音获取装置将被描述。

第八个实施例的声音获取装置的特点在于：根据本发明第一个至第七个实施例的声音获取装置的协方差存储部18将已经存储的协方差矩阵与被协方差矩阵计算部17新计算出的协方差矩阵求均值并把平均后的协方差矩阵存为当前的协方差矩阵。

协方差矩阵通过，例如下面的方法求平均。假设已经存储的协方差矩阵被R_XX，old(ω)代表而被协方差矩阵计算部17新计算出的协方差矩阵被R_XX，new(ω)代表，下面的等式被用来计算平均的协方差矩阵R_XX(ω)。

R_XX(ω)＝(1-p)R_XX，new(ω)+pR_XX，old(ω) (36)

其中p是一个常数其确定了平均的时间常数并取值0≤p＜1。

图17说明协方差矩阵存储部18和提供在那的平均部18A的功能结构。平均部18A包括乘法器18A1，加法器18A2，和乘法器18A3。对应于声源9_k的被协方差矩阵计算部17计算出的协方差矩阵R_SkSk(ω)，被作为新的协方差矩阵R_SkSk，new(ω)提供给乘法器18A1并被乘以(1-p)，并且乘法器的输出被施加到加法器18A2。另一方面，对应于声源9_k的协方差矩阵从存储区域18B中读出然后作为旧的协方差矩阵R_SkSk，old(ω)提供给乘法器18A3并被乘以常数p。相乘后的输出通过加法器18A2加到乘法器18A1的输出(1-p)R_SkSk，new(ω)中，这样得到的协方差矩阵R_SkSk(ω)改写在对应于声源9_k的存储区域。

通过所述的对协方差矩阵求平均和存储平均后的协方差矩阵，有可能相比平均之前减小电路噪声或相似干扰的影响，因此提供了准确的协方差矩阵——这使得确定滤波器系数以提高获取声音电平调整，噪声消除或回声消除性能成为可能。

其它部分与本发明第一个至第五个实施例的相同，因此不再重复描述。

顺便提及，本发明能够用专用于此的硬件来实现；或者，也有可能是实现本发明的程序其记录在计算机可读的记录媒体上并读入计算机以执行。计算机可读的记录媒体涉及到诸如软盘，磁光盘片，CD-ROM，DVD-ROM，非易失性的半导体存储器，或内部或外部硬盘等存储设备。计算机可读记录媒体也包括在短时间内动态的保留程序的媒体(传输媒体或传输波)例如通过因特网传输程序这种情况，和在固定的时间内保留程序，例如计算机系统中作为服务器的易失性存储器这种情形。

发明的效果

接着，为证明根据本发明的声音获取装置的第一个实施例的效果，图18A和图18B展示了在20厘米×20厘米的方形区域的角上放置麦克风的模拟结果。模拟条件是——麦克风数目：4，信噪比：20分贝，房间反射时间：300毫秒，扬声器数目：2(扬声器A在距方形区域中心50厘米的位置其方向为与它的一条边成直角，扬声器B在距方形区域中心200厘米处其方向与扬声器A成90°)。图18A展示了当扬声器A和B在所述条件下交替说话时得到的麦克风接收的信号的波形。比较扬声器A和B的语音波形显示出扬声器B的语音波形在振幅上小。图18B展示了通过本发明处理过的波形。扬声器A和B的语音波形在振幅上几乎相等，从这里获取声音的电平调整的效果能够被证实。

图19展示了用图10中所示的第三个实施例得到的模拟结果。模拟条件是——麦克风数目M：4，处理前的发送信号的信噪比：20分贝，发送信号与回声比：-10分贝，房间反射时间：300毫秒。图19展示了当在所述条件下重复的交互发送和接收信号所得到的发送信号电平。行A展示了处理前的发送信号电平，行B展示了通过第三个实施例处理后的发送信号电平。所述结果显示出第三个实施例衰减回声大概40分贝和衰减噪声信号大约15分贝，从这里可以证实本发明的实施例是有效的。

如上所述，根据本发明第一个实施例，通过：根据被多个麦克风获取的信号探测声源位置；对每个声源位置基于话语时段的协方差矩阵计算滤波器系数；通过滤波器系数滤波麦克风获取的信号；叠加滤波后的信号，有可能得到对每个声源位置进行音量调整的发送信号。

根据本发明第二个实施例，通过利用在第一个实施例中在话语时段的协方差以及在噪声时段的协方差矩阵来确定滤波器系数，有可能既实现噪声消除又实现获取的声音电平调整。

根据本发明第三个实施例，通过利用在第一个或第二个实施例中的话语时段的协方差矩阵加上在接收时段的协方差矩阵来确定滤波器系数，有可能实现回声消除。

根据本发明第四个实施例，通过利用话语时段的协方差矩阵和接收时段的协方差矩阵来确定滤波器系数，有可能通过扩音器再现接收的信号并消除回声。

根据本发明第五个实施例，通过利用第四个实施例中话语和接收时段的协方差矩阵加上噪声时段的协方差矩阵来确定滤波器系数，有可能进一步消除噪声。

根据本发明第六个实施例，通过在第一个，第二个，第三个和第五个实施例中计算滤波器系数时对较早的话语的协方差矩阵分配较小的加权因数，有可能进一步增强获取声音电平调整，噪声消除或回声消除性能。

根据本发明第七个实施例，通过在第一个至第六个实施例中计算滤波器系数时白化协方差矩阵，有可能实现获取的声音电平调整，噪声消除和回声消除对信号的谱改变不易受影响。

根据本发明第八个实施例，当协方差矩阵在第一个至第七个实施例中存储时，协方差矩阵和已经存储在相应区域的矩阵取平均并且加权平均协方差矩阵被存储，通过它有可能得到更准确的协方差矩阵并确定出能在获取声音电平调整，噪声衰减和回声消除方面提供增强了性能的滤波器系数。

Claims

1.一种根据本发明通过多个通道的麦克风从每个声源获取声音的声音获取方法，包括：

(a)状态决定步骤，包括从所述的多个通道的麦克风所接收的信号中决定话语时段的话语决定步骤；

(c)频域转换步骤，即将所述接收的信号转换为频域信号；

(h)叠加步骤，即将所述多个通道中的滤波结果全部叠加，并将叠加后的输出提供为发送信号。

2.如权利要求1的声音获取方法，其进一步包括获取的声音电平估计步骤，即基于对应于所述每个声源存储的协方差矩阵对所述每个声源的话语估计获取的声音电平，并且其中所述滤波器系数计算步骤包括基于所述对应于所述每个声源所存储的协方差矩阵和所述估计的获取声音电平计算所述多个通道的滤波器系数以使输出电平变成期望的电平的步骤。

3.如权利要求2的声音获取方法，其中：所述状态决定步骤包括从所述多个通道的所述获取信号中决定噪声时段的噪声决定步骤；

所述协方差矩阵计算步骤包括当所述噪声时段决定后，计算在所述噪声时段获取的信号的协方差矩阵以作为噪声协方差矩阵的步骤；

所述协方差矩阵存储步骤用于存储对应于每个声源的所述获取信号的所述协方差矩阵和存储所述噪声时段的所述协方差矩阵；和

所述滤波器系数计算步骤用于通过基于对应于在所述话语时段中每个声源的协方差矩阵和在所述噪声时段中存储的协方差矩阵计算所述多个通道的滤波器系数，以使对所述每个声源的获取的信号电平变为期望的电平并且噪声被衰减。

4.如权利要求2的声音获取方法，其中用于再现接收的信号的扩音器布置在所述声音空间中，其中：所述状态决定步骤包括接收决定步骤以从所述接收的信号中决定接收时段；

所述频域转换步骤包括转换所述接收信号到频域信号的步骤；

所述协方差计算步骤根据所述多个通道的所述频域获取信号和所述频域接收信号计算在所述话语时段和所述接收时段中的所述协方差矩阵；

所述协方差矩阵存储步骤存储对应于在话语时段中每个声源的所述协方差矩阵和在所述接收时段中的所述协方差矩阵；和

所述滤波器系数计算步骤基于存储的在所述话语时段中对应于所述每个声源的协方差矩阵和存储的在所述噪声时段的协方差矩阵，计算所述多个通道的所述滤波器系数，以使对所述每个声源的获取声音电平变成期望的电平并且噪声被衰减。

5.如权利要求1至4中任意一项权利要求所述的声音获取方法，其中：所述声源的数目是K其等于或大于2；并且所述滤波器系数计算步骤在将所述K个声源的灵敏度约束的加权C_S1至C_SK分配给对应于所述K个声源的协方差矩阵后计算所述滤波器系数，分配给所述声源的所述加权以所述声源的话语顺序逐渐减小。

6.如权利要求1至4中任意一项权利要求所述的声音获取方法，其中，假设所述多个通道是M个通道，所述滤波器系数计算步骤在通过对所述每个协方差矩阵乘以基于对角元diag(R_XX(ω))和任意的M或M+1行矩阵D形成的加权1/{D^Hdiag(R_XX(ω))D}来白化每个协方差矩阵R_XX(ω)之后计算所述滤波器系数。

7.权利要求1至4中任意一项权利要求所述的声音获取方法，其中所述协方差矩阵存储步骤将以前存储的协方差矩阵和被所述协方差矩阵计算步骤新计算出的协方差矩阵取平均并将取平均后的协方差矩阵作为当前协方差矩阵存储。

8.一种声音获取装置，其通过放置在声音空间的多个麦克风从每个声源获取声音，包括：

状态决定部，包括话语确定部，用于从所述多个通道的麦克风接收的信号中确定话语时段；

频域转换部，用于将所述接收信号转换为频域信号；

所述多个通道的滤波器，用于通过利用所述多个通道的滤波器系数分别对从所述麦克风接收的信号进行滤波；和

9.如权利要求8的声音获取装置，其进一步包括：

获取声音电平估计部，从对应于所述每个声源存储的所述协方差矩阵对所述每个声源估计获取的声音电平，并且其中滤波器系数计算部用于在基于所述估计的获取声音电平对对应于所述每个声源的协方差矩阵分配加权后计算所述多个通道的所述滤波器系数以使所述每个声源的发送信号电平变成期望的电平。

10.一种声音获取程序用于通过计算机执行如权利要求1至7中任意一项权利要求所述的声音获取方法。

11.一种声音获取方法，用于通过声音空间里至少一个通道的麦克风从至少一个声源获取语音，而在该空间内接收的信号被扩音器再现，包括：

(a)状态决定步骤，即从被所述的至少一个通道的所述麦克风获取的声音和所述接收的信号中决定话语时段和接收时段；

(e)滤波器系数计算步骤，即基于在所述话语时段中和所接收时段所述存储的协方差矩阵对所述获取信号计算与通道数目相同数目的滤波器系数和对所述接收信号计算滤波器系数，以使回声，其为包含在所述接收信号中的接收信号的组成部分，能被消除；

(g)叠加步骤，即将所述滤波的信号全部叠加并将叠加后的输出提供为发送信号。

12.如权利要求11的声音获取方法，其中：所述状态决定步骤包括从所述的获取信号和所述的接收信号中决定噪声时段的步骤；所述协方差矩阵计算步骤包括在所述噪声时段计算协方差矩阵的步骤；所述协方差矩阵存储步骤包括在上述噪声时段存储所述协方差矩阵的步骤；并且所述滤波器系数计算步骤基于在所述话语时段，所述接收时段和所述噪声时段所存储的协方差矩阵计算所述至少一个通道的接收信号滤波器系数和所述获取信号滤波器系数以使所述回声和噪声被消除。

13.如权利要求11的声音获取方法，其中所述麦克风在多个通道的每一个被提供以从多个声源获取语音，并且其进一步包括声音位置探测步骤，当所述话语时段被所述状态决定步骤决定时从所述多个麦克风的获取信号中探测声源位置；并且其中的所述协方差矩阵存储步骤基于所述状态决定步骤的决定结果和所述探测的声源位置存储对应于所述探测的声源位置和所述接收时段的所述协方差矩阵。

14.如权利要求13的声音获取方法，其中所述滤波器系数计算步骤在将K个声源位置的灵敏度约束的加权C_S1至C_SK分配给对应于各个声源的协方差矩阵后计算所述滤波器系数，分配给所述声源位置的所述加权按所述声源的话语顺序逐渐减小。

15.如权利要求11至14中任意一项权利要求所述的声音获取方法，其中，所述多个通道是M个通道且其等于或大于2，并且所述滤波器系数计算步骤在通过对所述协方差矩阵乘以基于对角元diag(R_XX(ω))和任意的M或M+1行矩阵D形成的加权1/{D^Hdiag(R_XX(ω))D}来白化每个协方差矩阵R_XX(ω)之后计算所述滤波器系数。

16.如权利要求11至14中任意一项权利要求所述的声音获取方法，其中所述协方差矩阵存储步骤将以前存储的协方差矩阵和被所述协方差矩阵计算步骤新计算出的协方差矩阵取平均并将取平均后的协方差矩阵作为当前协方差矩阵存储。

17.根据本发明第二个方面的声音获取装置包括：

至少一个通道的麦克风，用于从声源获取语音并用于输出获取的信号；

扩音器，用于再现接收的信号；

滤波器系数计算部，用于基于所述存储的协方差矩阵为所述至少一个通道的获取信号计算滤波器系数和为所述接收信号计算滤波器系数以消除所述接收信号的回声；

18.如权利要求17的声音获取装置，其中所述麦克风和所述获取信号滤波器都提供在多个通道的每一个中，并且所述加法器将所述多个通道的所述获取信号滤波器的输出和所述接收信号滤波器的输出全部叠加并将叠加后的输出提供为发送信号。

19.如权利要求18的声音获取装置，其中：所述状态决定部包括噪声决定部用于从所述获取信号和所述接收信号中决定噪声时段；所述协方差矩阵存储部用于在所述噪声时段存储所述协方差矩阵；并且所述滤波器系数计算部用于基于所述存储的协方差矩阵计算所述多个通道的滤波器系数以使所述接收信号的回声和噪声被消除，并且在所述多个通道的所述滤波器中设定计算出的滤波器系数。

20.如权利要求19的声音获取装置，其进一步包括声源探测部以基于所述多个通道的获取信号探测K个声源的位置；并且其中的所述协方差计算部用于在所述话语时段对每个声源计算协方差矩阵；所述协方差矩阵存储部用于在所述话语时段存储对应于每个声源的所述协方差矩阵；并且所述滤波器系数计算部包括方法以将所述各个声源的灵敏度约束的加权C_S1至C_SK分配给对应于所述各个声源的协方差矩阵后计算所述滤波器系数，分配给所述声源的所述加权以所述声源的话语顺序逐渐减小。

21.一种声音获取程序，其通过计算机执行如权利要求11至16任意一项权利要求所述的声音获取方法。