CN101071566A

CN101071566A - 小阵列麦克风系统、噪声抑制装置及其抑制方法

Info

Publication number: CN101071566A
Application number: CNA2007101028377A
Authority: CN
Inventors: 张铭; 陆晓燕
Original assignee: Fortemedia Inc
Current assignee: Fortemedia Inc
Priority date: 2006-05-09
Filing date: 2007-05-09
Publication date: 2007-11-14
Anticipated expiration: 2027-05-09
Also published as: CN101071566B; US8068619B2; TWI346934B; US20080317259A1; TW200743096A

Abstract

小阵列麦克风系统，具有一阵列麦克风，其具有多个麦克风，每一麦克风可提供一接收信号。第一语音启动检测器利用所述接收信号提供第一语音检测信号，用以代表在音束内的所需语音是否存在。一第二语音启动检测器利用所述接收信号提供第二语音检测信号，用以表示当在音束内的所需语音不存在时，在音束外的噪声是否存在。参考信号产生器根据该第一语音检测信号、所述接收信号以及音束成型信号，提供参考信号，其中该参考信号的所需语音已被抑制。空间滤波器根据该第二语音检测信号、该参考信号以及所述接收信号，提供该音束成型信号。多通道噪声抑制器用以抑制该音束成型的噪声并提供一输出信号。语音可靠度检测器提供可靠度检测信号，用以表示每一次频带的可靠度。

Description

小阵列麦克风系统、噪声抑制装置及其抑制方法

技术领域

本发明涉及一种信号处理，特别是涉及一种抑制使用声音识别机制的小阵列麦克风系统的噪声的方法及装置。

背景技术

近年来，在许多系统(例如免持麦克风、遥控器、汽车定位系统以及电话服务器服务)中，语音控制、语音输入及语音启动应用变得愈来愈受欢迎。然而，在现实环境中，由于噪声及干扰的影响，降低了语音识别机制的效能，而使得现行的语音识别技术无法达到最佳化。为了解决这个问题，已知技术使用前端噪声抑制程序，提高语音信号，再将提高后的信号输入至语音识别系统。由于单一麦克风无法有效地处理噪声，特别是频率响应随时间而改变的噪声，例如其它的声音或是音乐，因此，已知技术利用阵列麦克风(arraymicrophone)，改善语音识别系统在不良环境中的效能。阵列麦克风不仅使用短暂的光谱信息，还利用空间信息。通过抑制噪声及干扰，使得语音更加清晰，并提供语音识别机制更精确的声音变化检测。

图1示出了已知适用于语音识别应用的阵列麦克风系统的示意图。系统100包括设置在不同位置的麦克风112a-112n。为了方便操作，麦克风112a-112n需相隔距离D。距离D最好是重要信号的频带波长的一半。麦克风112a-112n接收所需的语音启动、所在环境的噪声以及有害的干扰。放大器114a-114n用以放大麦克风112a-112n所接收的N个信号。模拟数字转换器(ADC)116a-116n转换放大器114a-114n所放大的N个信号，因而产生N个数字信号s₁(n)-s_N(N)。

麦克风112a-112n所接收的N个信号是由不同位置输入的，其代表麦克风的相对位置。N个数字信号s₁(n)-s_N(N)输入至空间滤波器(beamformer)118，并通过语音启动检测器122提高单一通道语音。被提高的单一通道语音信号输入至适应性噪声抑制滤波器120以及语音识别机制124。适应性噪声抑制滤波器120降低多通道的数字信号s₁(n)-s_N(N)的噪声成分，用以提高语音成分的信号噪声比(signal to noise ratio；SNR)。空间滤波器118用以抑制噪声及外部光线的干扰，并提高光线中所需的语音。空间滤波器118可为一固定的空间滤波器(如delay-and-sum beamformer；延迟总和空间滤波器)或是适应性空间滤波器(如adaptive sidelobe cancellationbeamformer；适应性旁瓣消除空间滤波器)。所述型式的空间滤波器均为本领域技术人员所熟知。

已知具有语音识别机制的阵列麦克风系统100具有许多缺点，因而降低效能。第一种缺点为，阵列麦克风系统100无法提供音束内(in-beam)及音束外(out-of-beam)信号给语音启动检测器。第二种缺点为，麦克风彼此之间的距离需维持在一最小距离。第三种缺点为，阵列麦克风系统100不具有噪声抑制控制单元，用以抑制来自不同方向的噪声。第四种缺点为，对于四散的噪声无法达到最佳效能。

因此，能够有效地消除语音识别系统的噪声的技术，是很令人期待的。

发明内容

本发明提供一种小阵列麦克风系统，适用于一语音识别机制，包括一阵列麦克风、一第一语音启动检测器以及一第二语音启动检测器。阵列麦克风具有多个麦克风。每一麦克风可提供一接收信号。第一语音启动检测器利用所述接收信号提供一第一语音检测信号，用以代表在音束内的所需语音是否存在。第二语音启动检测器利用所述接收信号提供一第二语音检测信号，用以表示当在音束内的所需语音不存在时，在音束外的噪声是否存在。其中，语音识别机制接收第一语音检测信号、第二语音检测信号以及所述输出信号。

本发明还提供一种噪声抑制装置，包括一用以得到一阵列麦克风中的多个麦克风所接收到的信号的装置、一根据所述接收信号而提供一第一语音检测信号的装置，用以表示在音束内的所需语音是否存在、一根据所述接收信号而提供一第二语音检测信号的装置，用以表示当音束内的所需语音不存在时，在音束外的噪声是否存在、一根据该第一语音检测信号、所述接收信号以及一音束成型信号而提供一参考信号的装置，其中该参考信号的所需语音已被抑制、一根据该第二语音检测信号、该参考信号以及所述接收信号而提供该音束成型信号的装置，其中该音束成型信号的噪声已被抑制、一用以抑制该音束成型信号的额外噪声的装置，用以提供一输出信号、以及一用以提供一可靠度检测信号的装置，该可靠度检测信号表示每一次频带的可靠度。

本发明还提供一种方法，用以抑制一小阵列麦克风系统的噪声及干扰，包括：由该阵列麦克风的多个麦克风中，得到多个接收信号；产生一第一及第二语音检测信号，其中该第一语音检测信号根据所述接收信号而被产生，用以代表在音束内的所需语音是否存在，该第二语音检测信号根据所述接收信号而被产生，用以代表当音束内的所需语音不存在时，音束外的噪声是否存在；根据该第一语音检测信号、所述接收信号以及一音束成型信号而产生一参考信号，其中该参考信号所需语音已抑制；根据该第二语音检测信号、该参考信号以及所述接收信号而产生该音束成型信号，其中该音束成型信号的噪声已被抑制；利用一多通道噪声抑制器抑制该音束成型信号的噪声，以产生一输出信号；产生一可靠度检测信号，代表每一次频带的可靠度；及提供该第一语音检测信号、该第二语音检测信号、该可靠度检测信号以及该输出信号给一语音识别机制。

为让本发明的上述和其它目的、特征、和优点能更明显易懂，下文特举出较佳实施例，并结合附图详细说明如下：

附图说明

图1示出了已知适用于语音识别应用的阵列麦克风系统的示意图。

图2示出了本发明的小阵列麦克风系统的示意图。

图3为语音启动检测器的一可能实施例。

图4为语音启动检测器的另一可能实施例。

图5为多通道噪声抑制器的一可能实施例。

图6为语音识别检测器的一可能实施例。

图7为小阵列麦克风系统的另一可能实施例。

图8为输出信号b(n)的格式。

图9为小阵列麦克风系统的另一可能实施例。

图10为具有小阵列麦克风系统的系统。

附图符号说明

112a-112n：麦克风；

114a-114n、214a、214b、714a、714b、914.1-914.n：放大器；

116a-116n、216a、216b、716a、716b、916.1-916.n：模拟数字转换器；

120：适应性噪声抑制滤波器；

118、250、750、950：空间滤波器；

122、220、230、720、730、920、930：语音启动检测器；

124、280、780、980、1050：语音识别机制；

212a、712a、1012a：单指向麦克风；

212b、712b、912.1-912.n、1012b：全指向麦克风；

240、740、940：参考产生器；

260、760、960：噪声抑制控制器；

270、770、970：多通道噪声抑制器；

790：混合器；

909：主信号形成单元；

910：次信号形成单元；

1020：模拟处理单元；

1030：数字信号处理器；

1040：存储器；

410：栅极；

412、414：预处理单元；

416、418：功率计算单元；

420、670：分割单元；

422、650、660：平滑滤波器；

424：临界计算单元；

426、680：比较器；

510：多通道快速付里叶转换单元；

520、530：噪声估计器；

540：语音可靠度检测器；

550：噪声抑制增益计算单元；

560：延迟单元；

580：反向快速付里叶转换；

610、620：频带分割单元；

630、640：频带功率计算单元。

具体实施方式

为方便起见，以下许多信号及控制为用小写或大写符号符号表示。时间差异信号及控制标示“n”及“m”，其中n表示取样时间，而m表示音帧索引。一个音帧是由L次取样而得到的。频率差异信号及控制标示为(k，m)，其中k代表频率。小写符号(如s(n)及d(m))均代表时域信号，而大写符号(如B(k，m))代表频域信号。此处所提到的”噪声”，不管其来源为何，均指所有不好的信号，可能包含随机噪声、其它来源的语音、及/或来自其它音源的干扰。

本发明所述的噪声消除技术为处理一声音信号。该声音信号是由阵列麦克风所接收，并包含所需的语音及有害的噪声。通过多个不同位置或是不同极性图案的麦克风所提供的空间信息，可使阵列麦克风形成一音束(beam)。音束指向所需的语音，用以提高所需的语音，并且抑制所有来自音束以外的音源。相较于单一麦克风系统或是已知技术，本发明的技术在吵杂的环境中，对于语音识别机制而言，更能改善语音识别。在本实施例中，提供一改善的噪声抑制系统，其可适用在不同的环境、声音品质以及语音辨别方面。对于语音输入、免持通讯、及声音控制应用而言，本发明所提供的改善是很令人满意的。

图2示出了本发明的小阵列麦克风系统的示意图。如图所示，小阵列麦克风系统200具有多个麦克风。在本实施例中，小阵列麦克风系统200里的麦克风彼此之间的距离可小于已知阵列麦克风系统100的距离D。此外，小阵列麦克风系统200里的麦克风可为全指向麦克风(omni-directionalmicrophone)及单指向麦克风(uni-directional microphone)的任何组合。全指向麦克风可撷取来自不同方向的信号及噪声，而单指向麦克风只能撷取其主要旁瓣方向的信号及噪声。

举例而言，若小阵列麦克风系统200具有两个麦克风，一可为单指向麦克风，面向所需的音源，另一为全指向麦克风。两麦克风可轮流面向所需的音源。在另一实施例中，亦可利用两全指向麦克风。举例而言，假设，阵列麦克风系统200里的两麦克风分别为单指向麦克风以及全指向麦克风时，单指向麦克风可为取样单指向麦克风，或是由两全指向麦克风组成。当两全指向麦克风构成单指向麦克风时，两全指向麦克风被排成一直线，并指向所需的音源。此两全指向麦克风之间具有一适当的距离。将设置在前方的全指向麦克风所接收到的信号减去后方的全指向麦克风所接收到的信号后，便可等效成单指向麦克风所接收到的信号。举例而言，由两全指向麦克风所构成的单指向麦克风可看作以本实施例所述的单指向麦克风，而设置在前方或后方的全指向麦克风可看作本实施例所述的全指向麦克风。在本实施例中，面向所需音源的单指向麦克风可作为第一通道，而全指向麦克风可作为第二通道。

简单来说，以下的小阵列麦克风系统具有两个麦克风。

如图2所示，小阵列麦克风系统200具有由麦克风212a及212b所构成的阵列麦克风。更明确地说，小阵列麦克风系统200具有一全指向麦克风212b以及一单指向麦克风212a。如上所述，单指向麦克风212a可能由两个以上的全指向麦克风所构成。在一实施例中，全指向麦克风212b可以是另一全指向麦克风或是构成单指向麦克风212a的多个全指向麦克风的一者。在本实施例中，单指向麦克风212a作为参考麦克风，不但撷取所需声音信号，也会撷取噪声及干扰。单指向麦克风212a为主要麦克风，其主要旁瓣面向说话者，用以撷取所需的语音信号。

单指向麦克风212a以及全指向麦克风212b所接收到的信号分别提供给放大器214a及214b。模拟数字转换器216a接收并数字化放大器214a所放大的信号，以提供主信号s₁(n)。模拟数字转换器216b接收并数字化放大器214b所放大的信号，以提供次信号a(n)。然而，在其它实施例中，主信号可能由面向所需音源的一单指向麦克风所提供，而次信号可能由面向所需音源的一单指向麦克风所提供。另外，主信号可能由全指向麦克风所提供，而次信号由面向所需音源的至少一单指向麦克风所提供。

语音启动检测器220接收主信号s₁(n)及次信号a(n)。语音启动检测器220检测音束内的前端语音，其中音束取决于既定的总功率，总功率大于噪声功率。以下将会说明噪声功率。语音启动检测器220提供一在音束内的语音检测信号d₁(n)，其代表是否检测到前端语音。

语音启动检测器230接收主信号s₁(n)、次信号a(n)以及在音束内的语音检测信号d₁(n)。语音启动检测器230检测所缺少的前端语音以及在音束外的现有噪声/干扰，其中音束取决于主信号及所需语音信号之间的既定相互关系，既定相互关系大于总功率。语音启动检测器230提供音束外的噪声检测信号d₂(n)，其代表当前端语音不存在时，音束外是否存在噪声/干扰。

参考产生器240接收主信号s₁(n)、次信号a(n)、音束内的语音检测信号d₁(n)以及音束成型信号b₁(n)。参考产生器240根据音束内的语音检测信号d₁(n)，更新本身的系数、并检测在主信号s₁(n)、次信号a(n)以及音束成型信号b₁(n)内的所需语音、并消除来自次信号a(n)的所需语音、以提供一参考信号r₁(n)。参考信号r₁(n)包含大部分的噪声及干扰。

空间滤波器250接收主信号s₁(n)、次信号a(n)、参考信号r₁(n)、以及音束外的噪声检测信号d₂(n)。空间滤波器250根据音束外的噪声检测信号d₂(n)，更新本身的系数、并检测次信号a(n)以及参考信号r₁(n)内的噪声及干扰、并消除来自主信号s₁(n)的噪声及干扰以及提供音束成型信号b₁(n)。音束成型信号b₁(n)包含大部分的所需语音。

噪声抑制控制器260接收音束内的语音检测信号d₁(n)、音束外的噪声检测信号d₂(n)、参考信号r₁(n)以及音束成型信号b₁(n)。

多通道噪声抑制器270接收音束成型信号b₁(n)以及参考信号r₁(n)。多通道噪声抑制器270利用快速付里叶转换(Fast Fourier Transform；FFT)，将音束成型信号b₁(n)以及参考信号r1(n)由时域转换成具有L点快速付里叶转换频域，用以产生频域音束成型信号B(k，m)以及频域参考信号R(k，m)。音束内的语音检测信号d₁(n)以及音束外的噪声检测信号d₂(n)被转换成音帧索引(如音束内的语音检测信号d₁(m)以及音束外的噪声检测信号d₂(m))，用以代替多通道噪声抑制器270内的取样索引n。

多通道噪声抑制器270还会抑制频域音束成型信号B(k，m)内的噪声及干扰，并提供频域输出信号B_o(k，m)，其具有大部分被抑制的噪声及干扰。在多通道噪声抑制器270内的反向快速付里叶转换接收频域输出信号B_o(k，m)，并将频域输出信号B_o(k，m)由频域转换成时域，然后提供一对应时域的输出信号b_o(n)。此外，一语音可靠度检测器产生一检测信号m(j)，用以表示每一次频带(frequency subband)的可靠度。

输出信号b_o(n)可以数字格式提供给语音识别系统、或是被转换(如由数字信号转换成模拟信号)、被放大、被滤波...等，再提供给语音识别机制280。在本实施例中，语音识别机制280接收噪声已被抑制的语音信号b₀(n)、检测信号m(j)、音束内的语音检测信号d₁(n)以及音束外的噪声检测信号d₂(n)，用以执行语音识别功能。

图3为语音启动检测器的一可能实施例。如图所示，语音启动检测器300根据1.主信号s₁(n)的功率、2.主信号s₁(n)减去次信号a(n)后的噪声功率、以及3.上述1.2.之间的功率比，检测目前音束内的前端所需语音。

在语音启动检测器300中，减法单元310将主信号s₁(n)减去次信号a(n)，并产生一第一差异信号e₁(n)，其中e₁(n)＝s₁(n)-a(n)。第一差异信号e₁(n)包含大部分的噪声及干扰。预处理单元312及314分别接收主信号s₁(n)及第一差异信号e₁(n)，利用相同的滤除系数，滤除对应信号的低频成分，并分别提供滤除后的信号

及

然后，功率计算单元316及318分别接收信号及

用以计算所接收到的信号的功率，并分别提供计算后的结果p_s1(n)以及p_e1(n)。功率计算单元316及318还能计算结果p_s1(n)以及p_e1(n)的平均值。在本实施例中，平均值的计算方式如下式所示：

p_{s 1} (n) = α_{1} \cdot p_{s 1} (n - 1) + (1 - α_{1}) \cdot {\tilde{s}}_{1} (n) \cdot {\tilde{s}}_{1} (n) . . . . . . . . (1 a)

p_{e 1} (n) = α_{1} \cdot p_{e 1} (n - 1) + (1 - α_{1}) \cdot {\tilde{e}}_{1} (n) \cdot {\tilde{e}}_{1} (n) . . . . . . . (1 b)

其中α₁为一系数(0＜α1＜1)，用以决定平均值的总合。较大的α₁对应较大的平均值。p_s1(n)不但具有音束内所需语音的功率，也具有噪声及干扰的功率。p_e1(n)包含大部分的噪声及干扰。

分割单元320然后接收平均功率p_s1(n)及p_e1(n)，并计算平均功率p_s1(n)及p_e1(n)的比例h₁(n)。比例h₁(n)的计算方式如下式所示：

h_{1} (n) = \frac{p_{s 1} (n)}{p_{e 1} (n)} . . . . . . . . . . . . . . . . . . . . . . . . . (2)

比例h₁(n)具有相对于噪声功率的大部分总功率。比例h₁(n)的值愈大时，若音束内的前端所需语音存在时，表示相对于噪声功率的总功率愈大。较大的比例h₁(n)表示音束内具有前端所需语音。

平滑滤波器(smoothing filter)322接收并平滑或滤除比例h₁(n)，并提供一平滑比例h_s1(n)。平滑比例h_s1(n)如下式所示：

h_s1(n)＝αh1·h_s1(n-1)+(1-αh1)·h₁(n).................................(3)

其中，α_h1为一常数(0＜α1＜1)，用以决定平滑的量。

临界计算单元324接收实时的比例h1(n)、平滑比例hs1(n)以及一临界值q₁(n)。为了得到临界值q₁(n)，需先计算原始临界值q’₁(n)。

q_{1}^{'} (n) = \{\begin{matrix} α_{h 1} \cdot q_{1}^{'} (n - 1) + (1 - α_{h 1}) \cdot h_{1} (n), & if h_{1} (n) > β_{1} h_{s 1} (n) \\ q_{1}^{'} (n - 1), & if h_{1} (n) \leq β_{1} h_{s 1} (n) \end{matrix} . . . . . . . (4)

其中，β₁(β1＞0)为一常数，在式(4)中，若实时的比例h₁(n)大于β₁h_s1，则利用与平滑比例h_s1(n)相同的手法，根据实时的比例h₁(n)，计算原始临界值q’₁(n)。除此之外，对应于之前的取样周期，原始临界值会被维持住，并且原始临界值q’₁(n)并不会根据比例h₁(n)而被更新。如此，便可防止临界值在不正常的情况下，根据很小的比例h₁(n)而被更新。

还可将原始临界值q’₁(n)限制在范围Q_max1-Q_min1中。然后，临界值q₁(n)被设定成等于原始临界值q’₁(n)。设定的方式如下：

q_{1} (n) = \{\begin{matrix} Q_{\max 1}, & if q_{1}^{'} (n) > Q_{\max 1}, \\ q_{1}^{'} (n), & if Q_{\max 1} &GreaterEqual; q_{1}^{'} (n) &GreaterEqual; Q_{\min 1}, and \\ Q_{\min 1}, & if Q_{\min 1} > q_{1}^{'} (n), \end{matrix} . . . . . . . . . (5)

其中Q_max1与Q_min1均为常数。

因此，临界值q₁(n)会根据比例h₁(n)的平均值而被计算，其中较小的比例h₁(n)会被排除。另外，还可将临界值q₁(n)限制在范围Q_max1-Q_min1中。因此，可依据操作环境，适当地计算临界值q₁(n)。

比较器326接收并比较比例h₁(n)以及临界值q₁(n)，再根据比较结果提供音束内的语音检测信号d₁(n)。比较方式如下式所示：

d_{1} (n) = \{\begin{matrix} 1, & if h_{1} (n) &GreaterEqual; q_{1} (n), \\ 0, & if h_{1} (n) < q_{1} (n) . \end{matrix} . . . . . . . . . . . (6)

当音束内的语音检测信号d₁(n)被设成定成1时，表示在音束内的前端所需语音已被检测到。当音束内的语音检测信号d₁(n)被设成定0时，表示在音束内的前端所需语音未被检测到。

图4为语音启动检测器的另一可能实施例。如图所示，语音启动检测器400根据1.音束内的语音检测信号d₁(n)、2.主信号s₁(n)的总功率、3.主信号s₁(n)与信号e₁(n)之间的相互关系(e₁(n)＝s₁(n)-a(n))、以及4.大于上述2.的上述3.的计算结果，检测缺少的前端所需语音，以及在音束外所存在的干扰及噪声。

语音启动检测器400具有栅极410，其接收音束内的语音检测信号d₁(n)，用以执行下列判断条件：

当音束内的所需语音被检测到时，音束内的语音检测信号d₁(n)＝1；当音束外的语音检测并未产生时，音束外的噪声检测信号d₂(n)＝0。当音束内的所需语音未被检测到，并且语音启动检测器已被启动时，音束内的语音检测信号d₁(n)＝0。

预处理单元412及414分别接收主信号s₁(n)及第一差异信号e₁(n)，利用相同的滤除系数，滤除对应信号的低频成分，并分别提供滤除后的信号及

预处理单元412及414的滤除参数可与预处理单元312及314相同或不同。

功率计算单元416接收信号

用以计算所接收到的信号的功率，并提供计算后的结果p_s2(n)。功率计算单元418接收信号

用以计算所接收到的信号的功率，并提供计算后的结果p_se(n)。功率计算单元416及418还能计算结果p_s2(n)以及p_e2(n)的平均值。在本实施例中，功率计算单元416及418所计算出来的平均值如下式所示：

p_{s 2} (n) = α_{2} \cdot p_{s 2} (n - 1) + (1 - α_{2}) \cdot {\tilde{s}}_{2} (n) \cdot {\tilde{s}}_{2} (n) . . . . . . . . . . . . (7 a)

p_{se} (n) = α_{2} \cdot p_{se} (n - 1) + (1 - α_{2}) \cdot {\tilde{s}}_{2} (n) \cdot {\tilde{e}}_{2} (n) . . . . . . . . . . . (7 b)

其中α₂为一常数(0＜α2＜1)，其可等于或不等于α₁。

p_s2(n)不但具有所需语音的总功率，亦具有噪声及干扰。p_se(n)包含信号

及信号之间的相互关系。若前端所需语音存在时，则信号

及信号

之间的相互关系一般为负关系。

分割单元420然后接收平均功率p_s2(n)及p_se(n)，并计算平均功率p_s1(n)及p_e1(n)的比例h₂(n)。比例h₂(n)的计算方式如下式所示：

h_{2} (n) = \frac{p_{se} (n)}{p_{s 2} (n)} . . . . . . . . . . . . . . . . . . . . . . (8)

平滑滤波器422接收并滤除或平滑比例h₂(n)，并提供一平滑比例h_s2(n)。平滑比例h_s2(n)如下式所示：

h_s2(n)＝α_h2·h_s2(n-1)+(1-α_h2)·h₂(n)...........................(9)

其中，α_h2为一常数(0＜α2＜1)，其可等于或不等于α_h1。

临界计算单元424接收实时的比例h₂(n)、平滑比例h_s2(n)以及一临界值q₂(n)。为了得到临界值q₂(n)，需先计算原始临界值q’₂(n)。

q_{2}^{'} (n) = \{\begin{matrix} α_{h 2} \cdot q_{2}^{'} (n - 1) + (1 - α_{h 2}) \cdot h_{2} (n), & if h_{2} (n) > β_{2} h_{s 2} (n), \\ q_{2}^{'} (n - 1), & if h_{2} (n) \leq β_{2} h_{s 2} (n), \end{matrix} . . . . . . . (10)

其中，β₂(β₂＞0)为一常数，其可等于或不等于β₁。在式(10)中，若实时的比例h₂(n)大于β₂h_s2，则利用与平滑比例h_s2(n)相同的手法，根据实时的比例h₂(n)，计算原始临界值q’₂(n)。除此之外，对应于之前的取样周期，原始临界值会被维持住。

还可将原始临界值q’₂(n)限制在范围Q_max2-Q_min2中。然后，临界值q₂(n)被设定成等于原始临界值q’₂(n)。设定的方式如下：

q_{2} (n) = \{\begin{matrix} Q_{\max 2}, & if q_{2}^{'} (n) > Q_{\max 2}, \\ q_{2}^{'} (n), & if Q_{\max 2} &GreaterEqual; q_{2}^{'} (n) &GreaterEqual; Q_{\min 2}, and \\ Q_{\min 2}, & if Q_{\min 2} > q_{2}^{'} (n), \end{matrix} . . . . . . . . (11)

其中Q_max2与Q_min2均为常数，例如Q_max2大于Q_min2。

比较器426接收并比较比例h₂(n)以及临界值q₂(n)，再根据比较结果提供音束外的噪声检测信号d₂(n)。比较方式如下式所示：

d_{2} (n) = \{\begin{matrix} 1, & if h_{2} (n) &GreaterEqual; q_{2} (n), \\ 0, & if h_{2} (n) < q_{2} (n) . \end{matrix} . . . . . . . . . . (12)

当音束外的噪声检测信号d₂(n)被设成定1时，表示在音束外的干扰及噪声是存在的，而前端所需语音并不存在。

图5为多通道噪声抑制器的一可能实施例。多通道噪声抑制器500由噪声抑制控制信号c(m)所控制。噪声抑制控制信号c(m)由时域的噪声抑制控制信号c(n)转换而来的。

在多通道噪声抑制器500中，多通道快速付里叶转换单元510将空间滤波器250所输出的音束成型信号b₁(n)、参考产生器240所输出的参考信号r₁(n)转换成频域，因此可得到频域音束成型信号B(k，m)以及频域参考信号R(k，m)。噪声估计器520接收频域音束成型信号B(k，m)，并估计在频域音束成型信号B(k，m)内的噪声量，并提供频域噪声信号N₁(k，m)。噪声估计器可根据技术人员所深知的最小统计数据进行估计。举例而言，其中一种方式为R.Martin在1994年的European Signal Processing Conference(EUSIPCO)的第1182-1185页曾提出”利用最小统计数据估计光谱的减损”。噪声估计器530接收频域噪声信号N₁(k，m)、频域参考信号R(k，m)、以及音束外的噪声检测信号d₂(m)，其中将音束外的噪声检测信号d₂(n)由时域转换至频域后，便可得到音束外的噪声检测信号d₂(m)。噪声估计器530决定频域音束成型信号B(k，m)的最后估计，并提供最终噪声估计N₂(k，m)。最终噪声估计N₂(k，m)的计算方式如下式所示：

N_{2} (k, m) = \{\begin{matrix} γ_{a 1} \cdot N_{1} (k, m) + γ_{a 2} \cdot | R (k, m) |, & if d_{2} (m) = 0, \\ γ_{b 1} \cdot N_{1} (k, m) + γ_{b 2} \cdot | R (k, m) |, & if d_{2} (m) = 1, \end{matrix} . . . . . . (13)

其中，γ_a1、γ_a2、γ_b1及γ_b2为常数，其中，γ_a1＞γ_b1＞0，而γ_b2＞γ_a2＞0。如式(13)所示，最终噪声估计N₂(k，m)被设定成等于第一标准噪声估计γ_x1·N₁(k，m)与第二标准噪声估计γ_x2·|R(k，m)|的总合，其中，γ_x可等于γ_a或γ_b。常数γ_a1，γ_a2，γ_b1及γ_b2按比例方式排列，当音束外的噪声检测信号d₂(m)＝0，即表示音束外的噪声及干扰已被检测到，则最终噪声估计N₂(k，m)具有大部分的噪声信号N₁(k，m)以及少部分的参考信号量|R(k，m)|。相反的，当音束外的噪声检测信号d₂(m)＝1，即表示音束外的噪声及干扰未被检测到，则最终噪声估计N₂(k，m)具有少部分的噪声信号N₁(k，m)以及大部分的参考信号量|R(k，m)|。

噪声抑制增益计算单元550接收频域音束成型信号B(k，m)、最终噪声估计N₂(k，m)、以及延迟单元560所提供的频域输出信号B_o(k，m-1)。噪声制增益计算单元550计算噪声抑制增益G(k，m)，其用以抑制频域音束成型信号B(k，m)的额外噪声及干扰。

为了定义噪声抑制增益G(k，m)，对于频域音束成型信号B(k，m)的信号噪声比估计G’_SNR，B(k，m)要先得知，其得知方法如下式所示：

G_{SNR, B}^{'} (k, m) = \frac{| B (k, m) |}{N_{2} (k, m)} - 1 . . . . . . . . . . . . . . . . . . . (14)

然后，如下式所示，信号噪声比估计G’_SNR，B(k，m)会被限定成正值或于零。

G_{SNR, B} (k, m) = \{\begin{matrix} G_{SNR, B}^{'} (k, m), & if G_{SNR, B}^{'} (k, m) &GreaterEqual; 0, \\ 0, & if G_{SNR, B}^{'} (k, m) < 0 . \end{matrix} . . . . . . . . . . (15)

接着，如下式所示，信号噪声比估计G_SNR(k，m)将会被求得。

G_{SNR} (k, m) = \frac{λ \cdot | B_{o} (k, m - 1) |}{N_{2} (k, m)} + (1 - λ) \cdot G_{SNR, B} (k, m) . . . . . . . (16)

其中，λ为一正常数，例如1＞λ＞0。如式(16)所示，最终的信号噪声比估计G_SNR(k，m)具有两成分，一是对于先前画面的输出信号的信号噪声比估计的标准版本(如λ·|B_o(k，m-1)|/N₂(k，m))，另一是对于成型信号的被限制信号噪声比估计的标准版本(如(1-λ)·G_SNR，B(k，m))。常数λ决定两成分的比重，以得到最终的信号噪声比估计G_SNR(k，m)。

增益G_o(k，m)计算如下所示：

G_{0} (k, m) = \frac{G_{SNR} (k, m)}{1 + G_{SNR} (k, m)} . . . . . . . . . . . . . . . . . . . . (17)

增益G_o(k，m)为一实值，其大小代表噪声抑制的结果。更进一步而言，当增益G_o(k，m)的值愈小时，则噪声抑制量愈大；而当增益G_o(k，m)的值愈大时，则噪声抑制量愈小。

最终增益G(k，m)的计算如下式所示：

G (k, m) = \{\begin{matrix} \frac{G_{SNR} (k, m)}{σ + G_{SNR} (k, m)} & ifc (m) = 1, \\ G_{0} (k, m), & ifc (m) = 0 . \end{matrix} . . . . . . . . . . (18)

其中，σ为正值，且大于1。当噪声抑制控制信号c(m)＝1时，则最终增益G(k，m)更符合大量噪声的抑制。当噪声抑制控制信号c(m)＝0时，最终增益G(k，m)等于增益G_o(k，m)。乘法器570将频域音束成型信号B(k，m)与最终增益G(k，m)相乘，以得到频域输出信号B_o(k，m)，其计算方式如下：

B_o(k，m)＝B(k，m)·G(k，m).......................(19)

反向快速付里叶转换580接收频域输出信号B_o(k，m)，以产生被处理的语音信号b_o(n)。

图6为语音识别检测器的一可能实施例。语音识别检测器600与语音识别检测器540相同。语音识别检测器600用以得知语音识别机制所撷取出的语音特色的每一次频带的可靠度。频带分割单元610及620分别接收最终噪声估计N₂(k，m)以及频域输出信号B_o(k，m)，并根据由语音识别机制所撷取出的语音特色分割频带。频带分割单元610及620分别产生输出信号

及

其中，j表示次频带的索引。频带功率计算单元630及640分别计算输出信号

及

的功率，以产生功率信号P_N(j，m)及P_B(j，m)。平滑滤波器650及660分别平均化功率信号P_N(j，m)及P_B(j，m)，其平均化方式如下所示

{\tilde{P}}_{N} (j, m) = α_{N} \cdot {\tilde{P}}_{N} (j, m - 1) + (1 - α_{N}) \cdot P_{N} (j, m) \cdot P_{N} (j, m) . . . . . (20 a)

{\tilde{P}}_{B} (j, m) = α_{B} \cdot {\tilde{P}}_{B} (j, m - 1) + (1 - α_{B}) \cdot P_{B} (j, m) \cdot P_{B} (j, m) . . . . . (20 b)

其中，α_N及α_B均为常数，其决定平均化的量，并可被设定成0＜α_N，α_B＜1。当α_N及α_B的值较大时，表示具有较大的平均化及平滑量

分割器670利用平滑功率及

以得到功率比D(j，m)。然后，比较功率比D(j，m)与预决定临界值T(j，m)，以得到检测信号m(j)，其表示每一次频带的可靠度。检测信号m(j)可被传送至语音识别系统中，以改善撷取的特征。

图7为小阵列麦克风系统的另一可能实施例。小阵列麦克风系统700具有麦克风712a及712b、放大器714a及714b、模拟数字转换器716a及716b、语音启动检测器720、730、参考产生器740、空间滤波器750、多通道噪声抑制器770、噪声抑制控制器760、语音识别机制780、以及混合器790。

图7与图2不同之处在于，图7具有混合器790，用以混合语音信号b_o(n)、检测信号m(j)、音束内的语音检测信号d₁(n)、以及音束外的噪声检测信号d₂(n)，以产生具有特殊格式的输出信号b(n)。图8为输出信号b(n)的格式。在奇数数据b(n)(n＝1，3，5...)中，最高的14位表示语音的实际声音数据。倒数第二个位用以放置检测信号m(j)。最后一个位用以放置音束内的语音检测信号d₁(n)。在偶数数据b(n)(n＝2，4，6...)中，最高的14位表示语音的实际声音数据。倒数第二个位用以放置检测信号m(j)。最后一个位用以放置音束外的噪声检测信号d₂(n)。

图9为小阵列麦克风系统的另一可能实施例。如图所示，小阵列麦克风系统900具有语音启动检测器920、930、参考产生器940、空间滤波器950、多通道噪声抑制器970、噪声抑制控制器960、以及语音识别机制980。图9不同于图2之处在于，图9具有麦克风912.1-912.n，放大器914.1-914.n、模拟数字转换器916.1-916.n、主信号形成单元909以及次信号形成单元910，用以产生主信号s₁(n)以及次信号a(n)。

图10为具有小阵列麦克风系统的系统。在此实施例中，系统1000具有麦克风1012a及1012b、模拟处理单元1020、数字信号处理器(DSP)1030、存储器1040、以及语音识别机制1050。麦克风1012a及1012b可对应图2中的212a及212b。模拟处理单元1020执行模拟处理，并可具有如图2所示的放大器214a、214b以及模拟数字转换器216a及216b。数字信号处理器1030可改善用以抑制噪声及干扰的不同处理单元，如图2所示的语音启动检测器220、230、参考产生器240、空间滤波器250、多通道噪声抑制器270、噪声抑制控制器260、以及语音识别机制280。存储器1040用以储存程序代码及数字信号处理器1030所需的数据。

可利用不同的装置改善阵列麦克风及噪声抑制的技术。举例而言，所述技术可用硬件、软件或是软硬件来改善。若利用硬件改善，则可利用特定用途集成电路(application specific integrated circuits；ASICs)、数字信号处理器(DSPs)、数字信号处理装置(DSPDs)、可程序逻辑装置(PLDs)、现场可编程逻辑阵列(fleld programmable gate arrays；FPGAs)、处理器、控制器、微控制器、微处理器、其它上述的电子单元或上述组件的组合。

若利用软件改善，则可利用模块(如传统的做法等)执行上述的功能。软件的程序代码可储存在一存储器单元(如图10所示的存储器单元140)中，并可由处理器(如图10所示的DSP 1030)所执行。

虽然本发明已以较佳实施例披露如上，但其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围的前提下，当可作若干的更改与修饰，因此本发明的保护范围当以权利要求为准。

Claims

1.一种小阵列麦克风系统，适用于一语音识别机制，包括：

一阵列麦克风，具有多个麦克风，每一麦克风可提供一接收信号；

一第一语音启动检测器，利用所述接收信号提供一第一语音检测信号，用以代表在音束内的所需语音是否存在；以及

一第二语音启动检测器，利用所述接收信号提供一第二语音检测信号，用以表示当在音束内的所需语音不存在时，在音束外的噪声是否存在；

其中，该语音识别机制接收该第一语音检测信号、第二语音检测信号以及所述输出信号。

2.如权利要求1所述的小阵列麦克风系统，还包括：

一参考信号产生器，根据该第一语音检测信号、所述接收信号以及一音束成型信号，提供一参考信号，其中该参考信号的所需语音已被抑制；

一空间滤波器，根据该第二语音检测信号、该参考信号以及所述接收信号，提供该音束成型信号，其中该音束成型信号的噪声已被抑制；

一多通道噪声抑制器，用以抑制该音束成型的噪声并提供一输出信号；以及

一语音可靠度检测器，提供一可靠度检测信号，用以表示每一次频带的可靠度；

其中该第一语音检测信号、该第二语音检测信号、该可靠度检测信号以及该输出信号均被提供至该语音识别机制。

3.如权利要求1所述的小阵列麦克风系统，其中该第一语音检测信号取决于所述接收信号的总功率比例，所述接收信号大于噪声功率。

4.如权利要求1所述的小阵列麦克风系统，其中该第二语音检测信号取决于一所需信号以及一主信号之间的相互关系比例，该主信号大于该总功率。

5.如权利要求1所述的小阵列麦克风系统，其中该音束成型信号大体上具有所需语音。

6.如权利要求1所述的小阵列麦克风系统，其中所述信号具有一主信号以及至少一次信号。

7.如权利要求6所述的小阵列麦克风系统，其中该主信号由一朝向一所需音源的单指向麦克风所提供，该次信号由至少一全指向麦克风所提供。

8.如权利要求6所述的小阵列麦克风系统，其中该主信号由一单指向麦克风所提供，该次信号由至少一单指向麦克风所提供，提供该主信号的该单指向麦克风朝向一所需音源，提供该次信号的该单指向麦克风不朝向该所需音源。

9.如权利要求6所述的小阵列麦克风系统，其中将一后方全指向麦克风所提供的信号减去一前方全指向麦克风所提供的信号，便可得到该主信号，该次信号为该后方全指向麦克风或该前方全指向麦克风所提供。

10.如权利要求6所述的小阵列麦克风系统，其中该主信号由一全指向麦克风所提供，该次信由至少一单指向麦克风提供，该单指向麦克风朝向该所需音源。

11.如权利要求1所述的小阵列麦克风系统，其中该参考信号大体上具有噪声。

12.如权利要求1所述的小阵列麦克风系统，还包括一噪声抑制控制器，用以控制该多通道噪声抑制器的抑制功率。

13.如权利要求1所述的小阵列麦克风系统，其中该参考信号产生器及该空间滤波器处理时域信号，该多通道噪声抑制器处理频域信号。

14.如权利要求1所述的小阵列麦克风系统，还包括一混合器，用以提供一具有特殊格式的混合输出信号给该语音识别机制，该语音识别机制使用该输出信号、该可靠度检测信号、以及该第一及第二语音检测信号。

15.一种噪声抑制装置，包括：

一用以得到一阵列麦克风中的多个麦克风所接收到的信号的装置；

一根据所述接收信号而提供一第一语音检测信号的装置，用以表示在音束内的所需语音是否存在；

一根据所述接收信号而提供一第二语音检测信号的装置，用以表示当音束内的所需语音不存在时，在音束外的噪声是否存在；

一根据该第一语音检测信号、所述接收信号以及一音束成型信号而提供一参考信号的装置，其中该参考信号的所需语音已被抑制；

一根据该第二语音检测信号、该参考信号以及所述接收信号而提供该音束成型信号的装置，其中该音束成型信号的噪声已被抑制；

一用以抑制该音束成型信号的额外噪声的装置，用以提供一输出信号；以及

一用以提供一可靠度检测信号的装置，该可靠度检测信号表示每一次频带的可靠度。

16.如权利要求15所述的噪声抑制装置，还包括一用以控制噪声抑制能力的装置。

17.如权利要求15所述的噪声抑制装置，其中该第一语音检测信号、该第二语音检测信号、该可靠度检测信号以及该输出信号均被提供至一语音识别机制中。

18.如权利要求15所述的噪声抑制装置，还包括一用以提供一混合信号给该语音识别机制的装置，该混合信号具有特殊格式。

19.一种方法，用以抑制一小阵列麦克风系统的噪声及干扰，包括：

由该阵列麦克风的多个麦克风中，得到多个接收信号；

产生一第一及第二语音检测信号，其中该第一语音检测信号根据所述接收信号而被产生，用以代表在音束内的所需语音是否存在，该第二语音检测信号根据所述接收信号而被产生，用以代表当音束内的所需语音不存在时，音束外的噪声是否存在；

根据该第一语音检测信号、所述接收信号以及一音束成型信号而产生一参考信号，其中该参考信号所需语音已抑制；

根据该第二语音检测信号、该参考信号以及所述接收信号而产生该音束成型信号，其中该音束成型信号的噪声已被抑制；

利用一多通道噪声抑制器抑制该音束成型信号的噪声，以产生一输出信号；

产生一可靠度检测信号，代表每一次频带的可靠度；及

提供该第一语音检测信号、该第二语音检测信号、该可靠度检测信号以及该输出信号给一语音识别机制。

20.如权利要求19所述的方法，其中该第一语音检测信号取决于大于噪声功率的该接收信号的总功率比例。

21.如权利要求19所述的方法，其中该第二语音检测信号取决于一所需信号以及一主信号之间的相互关系比例，该主信号大于总功率。

22.如权利要求19所述的方法，其中产生该参考信号以及该音束成型信号的步骤是处理时域信号，该抑制音束成型信号的步骤是处理频域信号。

23.如权利要求19所述的方法，还包括产生一噪声抑制控制信号的步骤，用以控制该多通道噪声抑制器的噪声抑制功率。

24.如权利要求19所述的方法，还包括一混合步骤，周以混合该输出信号、该可靠度检测信号以及该第一及第二语音检测信号，以产生一混合信号。