CN103000183A

CN103000183A - 语音增强方法

Info

Publication number: CN103000183A
Application number: CN201210008319XA
Authority: CN
Inventors: 廖宪正
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2011-09-14
Filing date: 2012-01-09
Publication date: 2013-03-27
Anticipated expiration: 2032-01-09
Also published as: US9026436B2; CN103000183B; US20130066626A1; TW201312551A; TWI459381B

Abstract

本发明的一种语音增强方法，包含下列步骤：利用麦克风阵列接收多个音框的声音信号；计算各音框的声音信号于各频段对应的至少一双麦克风组合的两耳时间差；根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图；根据该些累积直方图计算一第一两耳时间差门坎值；以及根据该第一两耳时间差过滤该些音框的声音信号。

Description

语音增强方法

技术领域

本发明涉及语音增强(speech enhancement)技术。

背景技术

语音增强技术是一种将接收到的语音信号予以滤除不必要的噪音干扰以增强该语音内容的方法。其可使用于语音通讯、语音人机界面(user voiceinterface)、语音输入(voice input)及其它各种应用。近年来，随着各种移动装置、车用电子和机器人的快速发展，在具有噪音干扰的环境中进行语音通讯、语音输入或语音人机互动的机率日渐提高，如何滤除噪声以增强语音内容，提高语音通讯或语音人机互动的质量，成为此领域的重要课题。

一般而言，通过麦克风所撷取到的语音信号，均包含了目标音源和干扰音源。该干扰音源会造成语音通讯或语音人机互动的困难度升高。为提升语音通讯或语音人机互动的质量，势必需要降低干扰音源对整体声音信号所造成的干扰。先前许多语音增强技术使用了滤波器、适应性滤波器、统计模型等方法，结合单一麦克风来进行语音增强，然其效能均有其限制。近年来，使用多麦克风进行语音增强的技术因其效能普遍来说，较使用单一麦克风较佳，因此开始受到重视。然而，该类技术所需运算量较大，通常无法使用在运算资源受到限制的移动装置上。因此，一搭配麦克风阵列且运算相对简单的语音增强方法，而仍能达成有效降低干扰音源的目的，将会成为极具价值的发明。本发明即提供该语音增强方法。

发明内容

本发明的目的在于揭示一种语音增强方法，搭配麦克风阵列且运算相对简单的语音增强方法，能达成有效降低干扰音源的目的。

为了达到上述目的，本发明揭示一种语音增强方法，包含下列步骤：利用一麦克风阵列接收多个音框的声音信号；计算各音框的声音信号于各频段对应该多个麦克风中的至少一双麦克风组合的两耳时间差(inter-aural timedifference)；根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图(cumulative histogram)；根据该些累积直方图计算一第一两耳时间差门坎值；以及根据该第一两耳时间差门坎值过滤该些音框的声音信号。

本发明还揭示一种语音增强系统，包含一麦克风阵列、一累积直方图模块、一第一两耳时间差门坎值计算模块以及一声音信号过滤模块。该两耳时间差计算模块用以计算各音框的声音信号于各频段对应该多个麦克风中的至少一双麦克风组合的两耳时间差。该累积直方图模块用以计算各音框两耳时间差的累积直方图。该第一两耳时间差门坎值计算模块用以计算基于累积直方图的第一两耳时间差门坎值。该声音信号过滤模块用以过滤基于第一两耳时间差门坎值的声音信号。

本发明还揭示一种语音增强方法，包含下列步骤：利用一麦克风阵列接收多个音框的声音信号；计算各音框的声音信号于各频段对应该多个麦克风中的至少一双麦克风组合的两耳时间差；根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图；根据该些累积直方图计算一第一两耳时间差门坎值；根据该些直方图和该第一两耳时间差门坎值计算一第二两耳时间差门坎值；以及根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号。其中，该第二两耳时间差门坎值大于该第一两耳时间差门坎值。

本发明还揭示语音增强系统，包含一麦克风阵列、一累积直方图模块、一第一两耳时间差门坎值计算模块、一第二两耳时间差门坎值计算模块以及一声音信号过滤模块。该两耳时间差计算模块用以计算各音框的声音信号于各频段对应该多个麦克风中的至少一双麦克风组合的两耳时间差。该累积直方图模块用以计算各音框两耳时间差的累积直方图。该第一两耳时间差门坎值计算模块用以计算基于累积直方图的第一两耳时间差门坎值。该第二两耳时间差门坎值计算模块用以计算基于直方图和该第一两耳时间差门坎值的第二两耳时间差门坎值。该声音信号过滤模块用以过滤基于第一两耳时间差门坎值和该第二两耳时间差门坎值的声音信号。

也以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1显示本发明的一实施例的语音增强系统的示意图；

图2显示本发明的一实施例的语音增强方法的流程图；

图3显示本发明的一实施例的声音信号的时域和频域图；

图4显示本发明的一实施例所计算的两耳时间差的累积直方图；

图5显示本发明的另一实施例所计算的两耳时间差的累积直方图；

图6显示本发明的另一实施例的语音增强方法的流程图；

图7显示本发明的一实施例所计算的两耳时间差的直方图；以及

图8显示本发明的另一实施例所计算的两耳时间差的直方图；以及

图9显示本发明的一实施例的语音增强系统的示意图。

其中，附图标记

100 语音增强系统

102 麦克风阵列

150 目标音源

160 干扰音源

201～205 步骤

601～606 步骤

具体实施方式

本发明在此所探讨的方向为一种语音增强方法。为了能彻底地了解本发明，将在下列的描述中提出详尽的步骤。显然地，本发明的实施并未限定于本发明技术领域的技术人员所熟悉的特殊细节。另一方面，众所周知的步骤并未描述于细节中，以避免造成本发明不必要的限制。本发明的较佳实施例会详细描述如下，然而除了这些详细描述之外，本发明还可以广泛地施行在其它的实施例中且本发明的范围不受限定，其以之后的权利要求范围为准。

图1显示本发明的一实施例的语音增强系统的示意图。如图1所示，该语音增强系统100是用以接收一正向面对的目标音源150的声音信号，并包含一双麦克风式(doule-microphone)的麦克风阵列102。然而，该麦克风阵列102也会同时接收另一干扰音源160所发出的声音信号。由于该语音辨识系统100是正向面对该目标音源150，其声音信号传递至该双麦克风式的麦克风阵列102的左右两麦克风的时间相同。反之，由于该语音辨识系统100和该干扰音源160具有一角度，该干扰音源160所发出的声音信号到达该双麦克风式的麦克风阵列102的左右两麦克风的时间不同，而此时间差即定义为两耳时间差。本发明的语音辨识方法即通过两耳时间差的计算以排除该干扰音源160所发出的声音信号。

图2显示本发明的一实施例的语音辨识方法的流程图。在步骤201，利用一双麦克风式的麦克风阵列接收多个音框的声音信号，并进入步骤202。在步骤202，计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差，并进入步骤203。在步骤203，根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图，并进入步骤204。在步骤204，根据该些累积直方图计算一第一两耳时间差门坎值，并进入步骤205。在步骤205，根据该第一两耳时间差门坎值过滤该些音框的声音信号。

复参图1，本发明的另一实施例的语音增强系统，对应至图2的方法，除该双麦克风式的麦克风阵列102及其收音模块外，另包含一两耳时间差计算模块、一累积直方图模块、一第一两耳时间差门坎值计算模块以及一声音信号过滤模块。该两耳时间差计算模块，如步骤202，用以计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差。该累积直方图模块，如步骤203，用以计算各音框两耳时间差的累积直方图。该第一两耳时间差门坎值计算模块，如步骤204，用以计算基于累积直方图的第一两耳时间差门坎值。该声音信号过滤模块，如步骤205，用以过滤基于第一两耳时间差门坎值的声音信号。

以下例示应用图1的语音增强系统和图2的语音增强方法。在步骤201，该双麦克风式的麦克风阵列102接收多个音框的声音信号，其包含该目标音源150和该干扰音源160所发出的声音信号。在步骤202，计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差。图3显示该双麦克风式的麦克风阵列102的其中一麦克风于某一音框所接收的声音信号及其经由离散傅立业转换后所得到的频域的声音信号。若该双麦克风式的麦克风阵列102于第m₀个音框的第k₀个频段(第k₀个点)所接收的频域的声音信号分别为X_L(k₀；m₀)和X_R(k₀；m₀)，则该双麦克风式的麦克风阵列102于第m₀个音框的第k₀个频段的两耳时间差|d(k₀，m₀)|可表示为

| d (k_{0}, m_{0}) | \approx \frac{1}{| ω_{k_{0}} |} \min_{r} | &angle; X_{R} (k_{0}, m_{0}) - &angle; X_{L} (k_{0}, m_{0}) - 2 πr |,

其中∠X_R(k₀，m₀)和∠X_R(k₀，m₀)分别代表X_R(k₀；m₀)和X_L(k₀；m₀)的相位值；2πr则为一补偿项，可使得∠X_R(k₀，m₀)和∠X_R(k₀，m₀)的相位差落于0-2π之间；ω_k0则为角速度。

在步骤203，根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图。图4显示两不同音框所计算的两耳时间差的累积直方图。其中，虚线的累积直方图所对应的音框仅有该干扰音源160所发出的声音信号，而实线的累积直方图所对应的音框同时包含该目标音源150和该干扰音源160所发出的声音信号。如图4所示，由于该虚线的累积直方图所对应的音框未包含该目标音源150所发出的声音信号，其于两耳时间差为零的成分较低。反之，由于该实线的累积直方图所对应的音框包含该目标音源150所发出的声音信号，其于两耳时间差为零的成分较高。

在步骤204，根据该些累积直方图计算一第一两耳时间差门坎值。图5显示根据多个音框所计算的两耳时间差的累积直方图。本发明的部分实施例即分别针对该些音框的累积直方图于不同两耳时间差计算其变异数，并根据该些变异数的最大值决定一第一两耳时间差门坎值。如图5所示，该些累积直方图是于箭头所示处具有最大的变异数，故其对应的两耳时间差即为该第一两耳时间差门坎值。

在步骤205，根据该第一两耳时间差门坎值过滤该些音框的声音信号。本发明的部分实施例是先寻找该双麦克风式的麦克风阵列102所接收的该些音框的声音信号于各频段的两耳时间差高于该第一两耳时间差门坎值的过滤频段，并滤除该些音框的声音信号于该些过滤频段的成分。

在本发明的部分实施例中，步骤205可由下列式子表示：

其中γ(k₀，m₀)代表第m₀个音框于第k₀个频段的过滤值，d(k₀，m₀)代表第m₀个音框于第k₀个频段的两耳时间差，τ₁代表该第一两耳时间差门坎值，η为一最小单元变量。在本发明的部分实施例中，η等于0.01。在本发明的部分实施例中，步骤205可由下列式子表示：

其中γ(k₀，m₀)代表第m₀个音框于第k₀个频段的过滤值，d(k₀，m₀)代表第m₀个音框于第k₀个频段的两耳时间差，τ₁代表该第一两耳时间差，β为一控制过滤程度的变量，即β越大则过滤程度越高。

如上列两式所示，步骤205主要是保留两耳时间差低于该第一两耳时间差门坎值的频段，并滤除两耳时间差高于该第一两耳时间差门坎值的频段。另一方面，本发明的部分实施例是利用不同音框的两耳时间差的累积直方图的变异数决定该第一两耳时间差门坎值，而变异数的决定方法可通过递归方式根据一先前计算的变异数计算出一更新的变异数。因此，本发明的语音辨识方法可节省存放先前音框的声音信号的硬件空间及达到节省运算量之目的。换言之，仅需存放先前计算的变异数并接收新的声音信号，即可更新该第一两耳时间差门坎值。

图2所示的语音辨识方法是将该语音辨识系统100所接收的声音信号的两耳时间差，也即相对该语音辨识系统100的不同角度的音源做不同程度的过滤。换言之，图2所示的语音辨识方法是将两耳时间差低于该第一两耳时间差门坎值定义为主要分布区间，并将两耳时间差高于该第一两耳时间差门坎值定义为过滤区间。本发明的部分实施例是再进一步定义一介于该主要分布区间和该过滤区间之间的一次要分布区间，其过滤程度是介于该主要分布区间和该过滤区间之间。

图6显示本发明的另一实施例的语音增强方法的流程图。在步骤601，利用一双麦克风式的麦克风阵列接收多个音框的声音信号，并进入步骤602。在步骤602，计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差，并进入步骤603。在步骤603，根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图，并进入步骤604。在步骤604，根据该些累积直方图计算一第一两耳时间差门坎值，并进入步骤605。在步骤605，根据该些直方图和该第一两耳时间差计算一第二两耳时间差门坎值，并进入步骤606，其中该第二两耳时间差大于该第一两耳时间差。在步骤606，根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号。

复参图1，本发明的另一实施例的语音增强系统，对应至图6的方法，除该双麦克风式的麦克风阵列102及其收音模块外，另包含一两耳时间差计算模块、一累积直方图模块、一第一两耳时间差门坎值计算模块、一第二两耳时间差门坎值计算模块以及一声音信号过滤模块。该两耳时间差计算模块，如步骤602，用以计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差。该累积直方图模块，如步骤603，用以计算各音框两耳时间差的累积直方图。该第一两耳时间差门坎值计算模块，如步骤604，用以计算基于累积直方图的第一两耳时间差门坎值。该第二两耳时间差门坎值计算模块，如步骤605，用以计算基于直方图和该第一两耳时间差门坎值的第二两耳时间差门坎值。该声音信号过滤模块，如步骤606，用以过滤基于第一两耳时间差门坎值和该第二两耳时间差门坎值的声音信号。

比较图2和图6的语音辨识方法，图6是进一步计算一第二两耳时间差门坎值，并根据第一两耳时间差门坎值和第二两耳时间差门坎值过滤声音信号。以下例示应用图1的语音增强系统和图6的语音增强方法。步骤601和602相似于步骤201和202，为简明起见，在此不详加叙述。在步骤603，根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图。图7显示两不同音框所计算的两耳时间差的直方图。其中，虚线的直方图所对应的音框仅有该干扰音源160所发出的声音信号，而实线的直方图所对应的音框同时包含该目标音源150和该干扰音源160所发出的声音信号。如图7所示，由于该虚线的直方图所对应的音框未包含该目标音源150所发出的声音信号，其于两耳时间差为零的成分较低。反之，由于该实线的直方图所对应的音框包含该目标音源150所发出的声音信号，其于两耳时间差为零的成分较高。步骤604相似于步骤204，为简明起见，在此不详加叙述。

在步骤605，根据该些直方图和该第一两耳时间差门坎值计算一第二两耳时间差门坎值。图8显示根据多个音框所计算的两耳时间差的直方图。在本发明的部分实施例中，是先根据该些直方图计算目标音源150和干扰音源160的讯杂比，再根据该目标音源150和干扰音源160的讯杂比、该干扰音源160所对应的两耳时间差和该第一两耳时间差门坎值决定该第二两耳时间差门坎值。如图8所示，在本发明的部分实施例中，是将两耳时间差小于第一两耳时间差门坎值的范围所对应的最大直方图值决定为目标音源150的信号强度S_max，并将两耳时间差大于第一两耳时间差门坎值的范围所对应的最大直方图值决定为干扰音源160的信号强度N_max。据此，即可根据图8所示的直方图决定该目标音源150和干扰音源160的讯杂比为S_max/N_max。

在本发明的部分实施例中，该第二两耳时间差可通过下列式子决定：τ₂＝τ₁+δ+R×SNR，其中τ₁代表该第一两耳时间差，τ₂代表该第二两耳时间差，R为该干扰音源160所对应的两耳时间差和该第一两耳时间差门坎值的差值，SNR代表该目标音源150和该干扰音源160的讯杂比，δ为一最小角度单元变量。在本发明的部分实施例中，δ等于0.1。复参图8，若该目标音源150和该干扰音源160的讯杂比SNR约等于0.5，则该第二两耳时间差约介于该第一两耳时间差门坎值和该干扰音源160所对应的两耳时间差之间。

在本发明的部分实施例中，该第二两耳时间差可通过下列式子决定：

其中τ₁代表该第一两耳时间差门坎值，τ₂代表该第二两耳时间差门坎值，R为该干扰音源所对应的两耳时间差和该第一两耳时间差门坎值的差值，SNR代表该目标音源150和该干扰音源160的讯杂比，β为一控制过滤程度的变量，δ为一最小角度单元变量。在本发明的部分实施例中，δ等于0.1。在这些实施例中，若该目标音源150和该干扰音源160的讯杂比大于0.5，则该次要分布区间的范围较大。反之，若该目标音源150和该干扰音源160的讯杂比小于0.5，则该次要分布区间的范围较小。

在步骤606，根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号。在本发明的部分实施例中，是寻找该些音框的声音信号于各频段的两耳时间差高于该第二两耳时间差门坎值的过滤频段，并滤除该些音框的声音信号于该些过滤频段的成分，以及寻找该等音框的声音信号于各频段的两耳时间差介于该第二两耳时间差门坎值和该第一两耳时间差门坎值的减弱频段，并减弱该些音框的声音信号于该些减弱频段的成分，以供得到一增强语音信号。换言之，该增强语音信号为多个音框的声音信号除去过滤频段的成分并减弱该些减弱频段的成分。在本发明的部分实施例中，步骤606可由下列式子表示：

γ (k_{0}, m_{0}) = \{\begin{matrix} 1, if | d (k_{0}, m_{0}) | \leq τ_{1} \\ α, if | d (k_{0}, m_{0}) | > τ_{1} and | d (k_{0}, m_{0}) | \leq τ_{2} \\ η, otherwise \end{matrix}

，其中γ(k₀，m₀)代表第m₀个音框于第k₀个频段的过滤值，d(k₀，m₀)代表第m₀个音框于第k₀个频段的两耳时间差，τ₁代表该第一两耳时间差门坎值，τ₂代表该第二两耳时间差门坎值，α为一介于0和1的间的控制过滤程度的变量，η为一最小单元变量。在本发明的部分实施例中，η等于0.01。

如上所述，在主要分布区间的范围内，是保留该些频段的成分，在次要分布区间的范围内，是减弱该些频段的成分，而在过滤区间的范围内，是滤除该些频段的成分，而得到增强语音信号。在本发明的部分实施例中，α正比于目标音源和干扰音源的讯杂比，并可由下列式子表示：

其中SNR代表目标音源和干扰音源的讯杂比，并可由前述S_max/N_max的方式决定，β为一控制过滤程度的变量，即β越大则过滤程度越高。

复参图1的语音增强系统，若该目标音源150位于非正对麦克风方向时，只需在两耳时间差计算上加上一补偿项，使其方向转变为正对麦克风。本领域技术人员便可依据上述实施例实施本发明，在此不再赘述。

又如图1所示，该语音增强系统100，其中一双麦克风式的麦克风阵列102，是由两个麦克风所组成的阵列，然该系统并不限于使用单一双麦克风式的麦克风阵列，两个麦克风以上的麦克风阵列也可任意挑选两个麦克风的至少一种组合来实施本发明，多个麦克风式的麦克风阵列收音模块的该至少一组双麦克风所得到的增强语音信号，可再经由权重模块以加诸预设权重(如W1及W2)的方式进行处理以达到进一步的增强。如图9为一包含4个麦克风的麦克风阵列，例如选择麦克风a与麦克风d进行如图6所示语音增强步骤而得到增强语音信号1(Enhanced Signal 1)，而麦克风b与麦克风c进行如图6所示语音增强步骤而得到增强语音信号2(Enhanced Signal 2)，增强语音信号1与增强语音信号2可经由下式计算而得加权后的增强语音信号：

Enhanced  Signal = \frac{W 1 \times (Enhanced  Signal 1) + W 2 \times (Enhanced  Signal 2)}{W 1 + W 2}

其中W1与W2分别为增强语音信号1与增强语音信号2的权重。图9显示包含4只麦克风的麦克风阵列的语音增强系统，此系统是由麦克风阵列任意挑选两个麦克风的至少一组麦克风来实施本发明并得到加权后的增强语音信号，在此不再赘述。同理，3个麦克风阵列(无图示)，分别计算麦克风的x、y与麦克风y、z或麦克风x、z的增强语音信号1与增强语音信号2及依据其权重而得加权后的增强语音信号。

综上所述，本发明的语音辨识方法利用两耳时间差的累积直方图决定一主要分布区间和一过滤区间，并分配以不同的过滤程度以过滤所接收的声音信号。另一方面，本发明的语音辨识方法利用麦克风阵列和简单的计算即可达成。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种语音增强方法，其特征在于，包含下列步骤：

利用一双麦克风式的麦克风阵列接收多个音框的声音信号；

计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差；

根据该计算结果统计各音框的声音信号的两耳时间差的累积直方图；

根据该些累积直方图计算一第一两耳时间差门坎值；以及

根据该第一两耳时间差门坎值过滤该些音框的声音信号。

2.根据权利要求1所述的语音增强方法，其特征在于，该计算第一两耳时间差门坎值的步骤包含下列次步骤：

计算该些累积直方图于各两耳时间差的变异数；以及

决定该些变异数的最大值所对应的两耳时间差为该第一两耳时间差门坎值。

3.根据权利要求1所述的语音增强方法，其特征在于，该变异数的计算根据一先前计算的变异数以递归方式计算出一更新的变异数。

4.根据权利要求1所述的语音增强方法，其特征在于，该过滤声音信号的步骤包含下列次步骤：

寻找该些音框的声音信号于各频段的两耳时间差高于该第一两耳时间差门坎值的过滤频段，并滤除该些音框的声音信号于该些过滤频段的成分。

5.根据权利要求4所述的语音增强方法，其特征在于，该滤除声音信号的步骤可由下列式子表示：

γ(k₀，m₀)代表第m₀个音框于第k₀个频段的过滤值，d(k₂，m₀)代表第m₀个音框于第k₀个频段的两耳时间差，τ₁代表该第一两耳时间差门坎值，η为一最小单元变量。

6.根据权利要求5所述的语音增强方法，其特征在于，η等于0.01。

7.根据权利要求4所述的语音增强方法，其特征在于，该滤除声音信号的步骤可由下列式子表示：

γ(k₀，m₀)代表第m₀个音框于第k₀个频段的过滤值，d(k₀,m₀)代表第m₀个音框于第k₀个频段的两耳时间差，τ₁代表该第一两耳时间差门坎值，β为一控制过滤程度的变量。

8.一种语音增强方法，其特征在于，包含下列步骤：

利用一双麦克风式的麦克风阵列接收多个音框的声音信号；

根据该计算结果统计各音框的声音信号的两耳时间差的直方图和累积直方图；

根据该些累积直方图计算一第一两耳时间差门坎值；

根据该些直方图和该第一两耳时间差门坎值计算一第二两耳时间差门坎值；以及

根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号；

其中该第二两耳时间差门坎值大于该第一两耳时间差门坎值。

9.根据权利要求8所述的语音增强方法，其特征在于，该计算第一两耳时间差门坎值的步骤包含下列次步骤：

计算该些累积直方图于各两耳时间差的变异数；以及

10.根据权利要求9所述的语音增强方法，其特征在于，该变异数的计算根据一先前计算的变异数以递归方式计算出一更新的变异数。

11.根据权利要求8所述的语音增强方法，其特征在于，该计算第二两耳时间差门坎值的步骤包含下列次步骤：

根据该些直方图计算目标音源和干扰音源的讯杂比；以及

根据该目标音源和干扰音源的讯杂比、该干扰音源所对应的两耳时间差和该第一两耳时间差门坎值决定该第二两耳时间差门坎值。

12.根据权利要求11所述的语音增强方法，其特征在于，该讯杂比为该些直方图所决定的目标音源和干扰音源对应的数值的比例。

13.根据权利要求11所述的语音增强方法，其特征在于，该第二两耳时间差门坎值可由下列式子表示：

τ₂＝τ₁+δ+R×SNR，τ₁代表该第一两耳时间差门坎值，τ₂代表该第二两耳时间差门坎值，R为该干扰音源所对应的两耳时间差和该第一两耳时间差门坎值的差值，SNR代表该目标音源和干扰音源的讯杂比，δ为一最小角度单元变量。

14.根据权利要求13所述的语音增强方法，其特征在于，δ等于0.1。

15.根据权利要求11所述的语音增强方法，其特征在于，该第二两耳时间差门坎值可由下列式子表示：

τ₁代表该第一两耳时间差门坎值，τ₂代表该第二两耳时间差门坎值，R为该干扰音源所对应的两耳时间差和该第一两耳时间差门坎值的差值，SNR代表该目标音源和干扰音源的讯杂比，β为一控制过滤程度的变量，δ为一最小角度单元变量。

16.根据权利要求15所述的语音增强方法，其特征在于，δ等于0.1。

17.根据权利要求8所述的语音增强方法，其特征在于，该过滤声音信号的步骤包含下列次步骤：

寻找该些音框的声音信号于各频段的两耳时间差高于该第二两耳时间差门坎值的过滤频段，并滤除该些音框的声音信号于该些过滤频段的成分；以及

寻找该些音框的声音信号于各频段的两耳时间差介于该第二两耳时间差门坎值和该第一两耳时间差门坎值的减弱频段，并减弱该些音框的声音信号于该些减弱频段的成分。

18.根据权利要求17所述的语音增强方法，其特征在于，该滤除和减弱声音信号的步骤可由下列式子表示：

γ (k_{0} {, m}_{0}) = \{\begin{matrix} 1, if | d (k_{0}, m_{0}) | \leq τ_{1} \\ α, if | d (k_{0}, m_{0}) | > τ_{1} and | d (k_{0}, m_{0}) | \leq τ_{2} \\ η, otherwise \end{matrix},

γ(k₀，m₀)代表第m₀个音框于第k₀个频段的过滤值，d(k₀，m₀)代表第m₀个音框于第k₀个频段的两耳时间差，τ₁代表该第一两耳时间差门坎值，τ₂代表该第二两耳时间差门坎值，α为一介于0和1之间的控制过滤程度的变量，η为一最小单元变量。

19.根据权利要求18所述的语音增强方法，其特征在于，η等于0.01。

20.根据权利要求18所述的语音增强方法，其特征在于，α正比于目标音源和干扰音源的讯杂比。

21.根据权利要求20所述的语音增强方法，其特征在于，该讯杂比为该些直方图所决定的目标音源和干扰音源对应的数值的比例。

22.根据权利要求20所述的语音增强方法，其特征在于，α可由下列式子决定：

SNR代表目标音源和干扰音源的讯杂比，β为一控制过滤程度的变量。

23.一种语音增强系统，其特征在于，包含：

一麦克风阵列收音模块，该麦克风阵列收音模块为双麦克风式的麦克风阵列；

一两耳时间差计算模块，用以计算各音框的声音信号于各频段对应该双麦克风式的麦克风阵列的两耳时间差；

一累积直方图模块，用以计算各音框两耳时间差的累积直方图；

一第一两耳时间差门坎值计算模块，用以计算基于累积直方图的第一两耳时间差门坎值；以及

一声音信号过滤模块，用以过滤基于第一两耳时间差门坎值的声音信号。

24.一种语音增强系统，其特征在于，包含：

一累积直方图模块，用以计算各音框两耳时间差的直方图和累积直方图；

一第一两耳时间差门坎值计算模块，用以计算基于累积直方图的第一两耳时间差门坎值；

一第二两耳时间差门坎值计算模块，用以计算基于直方图和该第一两耳时间差门坎值的第二两耳时间差门坎值计算模块；以及

一声音信号过滤模块，用以过滤基于第一两耳时间差门坎值和该第二两耳时间差门坎值的声音信号。

25.一种语音增强方法，其特征在于，包含下列步骤：

利用一麦克风阵列接收多个音框的声音信号，该麦克风阵列包含多个麦克风；

计算各音框的声音信号于各频段对应该多个麦克风的至少一双麦克风组合的两耳时间差；

根据该些累积直方图计算一第一两耳时间差门坎值；

根据该些直方图和该第一两耳时间差门坎值计算一第二两耳时间差门坎值；

根据该第一两耳时间差门坎值和该第二两耳时间差门坎值过滤该些音框的声音信号，而得到至少一增强语音信号，其中该第二两耳时间差门坎值大于该第一两耳时间差门坎值；以及

加权该至少一增强语音信号而得到一加权后的增强语音信号。

26.一种语音增强系统，其特征在于，包含：

一麦克风阵列收音模块，该麦克风阵列收音模块包含多个麦克风；

一两耳时间差计算模块，用以计算各音框的声音信号于各频段对应该多个麦克风的至少一双麦克风组合的两耳时间差；

一第二两耳时间差门坎值计算模块，用以计算基于直方图和该第一两耳时间差门坎值的第二两耳时间差门坎值计算模块；

一声音信号过滤模块，用以过滤基于第一两耳时间差门坎值和该第二两耳时间差门坎值的声音信号而产生至少一增强语音信号；以及

一权重模块，预设至少一权重并加权该至少一增强语音信号而得到一加权后的增强语音信号。