CN102903360A

CN102903360A - 以麦克风阵列为基础的语音辨识系统与方法

Info

Publication number: CN102903360A
Application number: CN2011102420545A
Authority: CN
Inventors: 廖宪正
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2011-07-26
Filing date: 2011-08-23
Publication date: 2013-01-30
Anticipated expiration: 2031-08-23
Also published as: TW201306024A; TWI442384B; US8744849B2; CN102903360B; US20130030803A1

Abstract

一种以麦克风阵列为基础的语音辨识系统与方法。该语音辨识系统结合抗噪技术，以对来自麦克风阵列的输入语音，根据输入的至少一阈值的每一阈值执行噪音消除处理，此系统经由至少一语音模型与至少一填充模型以分别接收噪音遮蔽模块输出的噪音消除后的语音信号，并且对于每一阈值与该噪音消除后的每一语音信号，通过此至少一语音模型与此至少一填充模型，计算出信心值后，调整此阈值来继续执行此噪音消除处理，以让计算出的信心值可达到最大化，然后输出可让此信心值达到最大化的语音辨识结果的信息。

Description

以麦克风阵列为基础的语音辨识系统与方法

技术领域

本公开涉及一种以麦克风阵列为基础(Microphone-Array-Based)的语音辨识系统与方法。

背景技术

近年来，移动装置如平板计算机、手机等用户数量大增，车用电子与机器人也发展快速。这些领域都可看出未来的语音应用需求将快速的成长。Google的Nexus One和Motorola的Droid将主动噪音消除(Active NoiseCancellation，ANC)技术带到手机市场，改善了语音应用的输入端，而使得后端的语音辨识或其应用表现得更好，让用户可以得到更好的体验。手机制造商近年来也在手机噪音消除的技术上积极地进行研究。

常见的稳健式(Robust)语音辨识技术有两类。一类为二阶段式稳健式语音辨识技术，此类技术先将语音信号增强后，再将增强后的信号传送至语音辨识器进行辨识。例如，利用两个适应性滤波器(Adaptive Filter)或是以预先训练的语音与噪音模型结合算法来调整适应性滤波器，先将语音信号增强后，再将增强后的信号传送至语音辨识器。另一类为利用语音模型(speechmodel)做为适应性滤波器调整参数的依据，但没有考虑干扰噪音的信息，其语音信号增强所根据的准则为最大相似度(maximum likelihood)，也就是说，增强后的语音信号与语音模型越像越好。

图1所示的是一种双麦克风语音增强(Dual-Microphone SpeechEnhancement)技术中，其滤波器调整参数的范例流程。此语音增强技术是先利用重新录制与滤波后的语料来训练出单一语音模型110后，再利用相似度最大化的条件来调整噪音遮蔽的参数γ，也就是说，此语音增强技术判断的准则是通过相位误差时频滤波器(phase-difference-based time-frequencyfiltering)105出来的增强的语音信号(enhanced speech)105a与语音模型110越相似越好。语音模型110训练所需语料需重新录制并加以滤波，且没有考虑噪音的信息，因此测试环境与训练环境的设定会有不匹配的可能。

双麦克风或多麦克风的麦克风阵列噪音消除技术具有不错的抗噪效果。然而在不同的使用环境下，麦克风抗噪的能力并不相同。如何能够调整麦克风阵列参数以使得语音辨识正确率能够增加，提供更好的用户体验，是非常值得研究与发展的。

发明内容

本公开实施例可提供一种以麦克风阵列为基础的语音辨识系统与方法。

所公开的一实施例是关于一种以麦克风阵列为基础的语音辨识系统。此系统结合噪音遮蔽模块(noise masking module)，以对来自麦克风阵列的输入语音，根据输入的阈值执行噪音消除处理，此系统可包含至少一语音模型(speech model)与至少一填充模型(filler model)以分别接收该噪音遮蔽模块输出的噪音消除后的语音信号，以及信心值计算模块(confidencecomputation module)与阈值调整模块(threshold adjustment module)。对于此阈值与此噪音消除后的语音信号，此信心值计算模块利用此至少一语音模型与此至少一填充模型，计算出信心值。此阈值调整模块调整此阈值并提供给此噪音遮蔽模块来继续执行此噪音消除处理，以使得此信心值计算模块计算出的信心值达到最大化，然后输出可让此信心值达到最大化的语音辨识结果的信息。

所公开的一实施例是关于一种以麦克风阵列为基础的语音辨识系统。此系统结合噪音遮蔽模块，以对来自麦克风阵列的输入语音，根据输入的阈值的预定范围内的多个阈值的每一阈值，来执行噪音消除处理，此系统可包含至少一语音模型与至少一填充模型以分别接收此噪音遮蔽模块输出的噪音消除后的语音信号、信心值计算模块、以及最大信心值决定模块。对于落在此阈值的预定范围中的每一给定的阈值与此噪音消除后的语音信号，此信心值计算模块利用此至少一语音模型与此至少一填充模型，算出信心值。此最大信心值决定模块从所有算出的此信心值中，找出最大信心值所对应的阈值，然后输出语音辨识结果的信息。

所公开的又一实施例是关于一种以麦克风阵列为基础的语音辨识方法。此方法以计算机系统来实施，并且可包含下列此计算机系统可执行的动作：对来自麦克风阵列的输入语音，根据至少一输入的阈值，执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型；利用处理器，根据此至少一语音模型的各模型所得的分数的信息以及经由此至少一填充模型所得的分数，计算出相对应的信心值；以及从输入的此至少一阈值的每一阈值中，找出计算出的每一相对应的信心值中的最大信心值所对应的阈值，然后产生语音辨识结果的信息。

现在配合附图、实施例的详细说明及权利要求书，将上述及本发明的其他优点详述于后。

附图说明

图1是一范例示意图，说明一种双麦克风语音增强技术的滤波器调整参数的范例流程。

图2A是噪音遮罩阈值与信心值的一范例关系图，与所公开的某些实施范例一致。

图2B是噪音遮罩阈值与语音辨识率的一范例关系图，与所公开的某些实施范例一致。

图3是一范例示意图，说明一种以麦克风阵列为基础的语音辨识系统，与所公开的某些实施范例一致。

图4是一范例示意图，说明一种实现图3中至少一语音模型中各模型所得分数的函数值的方式，与所公开的某些实施范例一致。

图5是一范例示意图，说明另一种实现图3中至少一语音模型中各模型所得分数的函数值的方式，与所公开的某些实施范例一致。

图6是另一范例示意图，说明一种以麦克风阵列为基础的语音辨识系统，与所公开的某些实施范例一致。

图7是一范例流程图，说明一种以麦克风阵列为基础的语音辨识方法的运作，与所公开的某些实施范例一致。

图8是一范例示意图，说明阈值更新以及如何找出该最大信心值所对应的一阈值的运作，与所公开的某些实施范例一致。

图9是另一范例示意图，说明阈值更新以及如何找出该最大信心值所对应的一阈值的运作，与所公开的某些实施范例一致。

图10是一范例示意图，说明以麦克风阵列为基础的语音辨识系统适用于具有噪音干扰的真实环境中，与所公开的某些实施范例一致。

图11A与图11B是实验结果的范例示意图，分别说明干扰源位于30度与60度时，对于不同的信噪比，利用以麦克风阵列为基础的语音辨识系统的实施范例所得到的语音辨识率，与所公开的某些实施范例一致。

图12是一范例示意图，说明以麦克风阵列为基础的语音辨识技术所估计出的阈值可作为噪音角度与信噪比的一个综合指标，与所公开的某些实施范例一致。

【主要元件符号说明】

105相位误差时频滤波器 105a增强的语音信号

110语音模型

210噪音位在60度时，其最大信心值得到相对应的最高语音辨识率

220噪音位在30度时，其最大信心值得到相对应的最高语音辨识率

300语音辨识系统 305噪音遮蔽模块

305a噪音消除后的语音信号 305b初始阈值

310至少一语音模型 320至少一填充模型

310a至少一语音模型的各模型所得的分数的信息

320a经由至少一填充模型所得的分数

330信心值计算模块 330a信心值

340阈值调整模块 340a阈值

355辨识结果、阈值τ_CM、辨识结果与阈值τ_CM

510合并后的语音模型

600语音辨识系统 605a阈值的预定范围

640最大信心值决定模块

710对来自一麦克风阵列的输入语音，根据至少一输入的阈值，执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型

720根据此至少一语音模型的各模型所得的分数的信息以及经由此至少一填充模型所得的分数，计算出相对应的信心值

730从输入的该至少一阈值的每一阈值中，找出计算出的每一相对应的信心值中的最大信心值所对应的阈值τ_CM，然后产生语音辨识结果的信息

840期望最大化算法

具体实施方式

在本公开以麦克风阵列为基础的语音辨识系统与方法的实施范例中，利用至少一语音模型与至少一填充模型(filler model)所计算出来的最大信心值(maximum confidence)来调整噪音遮罩(noise masking)的参数以抑制在语音特征向量中，频谱受到噪音干扰的部分，以提高语音辨识率。本公开实施范例针对不同噪音的环境下(例如行车中)，调整噪音遮罩的参数，以因应实际环境的语音应用。本公开实施范例将噪音遮蔽与语音辨识结合成为一体，并且使用既有的语音模型，不需重新录制语料或训练语音模型，提供在具有噪音的环境下，以语音进行人机互动时更好的语音界面与用户体验。

在本公开实施范例利中，利用至少一语音模型Λ_SP与至少一填充模型Λ_F，并根据下列式子来计算出信心值CM：

CM＝[logP(C(τ)|Λ_SP)-logP(C(τ)|Λ_F)] (1)

其中C(τ)由麦克风阵列所产生的每一音频帧(audio frame)在通过噪音遮罩阈值τ的噪音遮蔽后，所取得的特征向量，P为条件概率函数。

在本公开实施范例中，通过阈值调整模块，来调整噪音遮罩的参数，也就是噪音遮罩阈值τ。此阈值调整模块可针对来自不同角度或不同能量大小等的噪音来调整噪音遮罩的参数。本公开实施范例证实当信心值最大时，所得到的辨识率也是最高的。图2A与图2B都使用噪音位在30度与60度以及信噪比0dB的麦克风阵列语料来进行测试的范例，其中虚线代表使用来自30度的噪音进行测试的结果，实线代表使用来自60度的噪音进行测试的结果。在图2A中，横轴代表噪音遮罩阈值τ，纵轴代表根据式(1)算出的信心值CM。在图2B中，横轴代表噪音遮罩阈值τ，纵轴代表语音辨识率。

从图2A与图2B的测试结果可以看出，在图2A中，30度的曲线图中的最大信心值与60度的曲线图中的最大信心值，在图2B中所得到的相对应的语音辨识率也是最高的，分别如箭头210与220所示。箭头210意指噪音位在60度时，其最大信心值得到相对应的最高语音辨识率；箭头220意指噪音位在30度时，其最大信心值得到相对应的最高语音辨识率。所以，在本公开实施范例中，可采用如循序搜寻法(linear search)或是期望最大化(Expectation-maximization，EM)算法等，来估计可让信心值最大化的阈值τ_CM。阈值τ_CM可用下列式子来表示：

τ_{CM} = \underset{τ}{\arg \max} [\log P (C (τ) | Λ_{SP}) - \log P (C (τ) | Λ_{F})] - - - (2)

其中，C(τ)代表为每一音频帧经过噪音遮罩阈值为τ的噪音遮蔽后所取得的特征向量，Λ_SP与Λ_F分别代表语音模型参数的集合与填充模型参数的集合，P为一条件概率分配(conditional probability distribution)。换句话说，根据式(2)算出的阈值τ_CM即为本公开实施范例中，针对噪音最佳的阈值设定。

在本公开中，以麦克风阵列来区分语音信号以及需要消除的噪音信号。此语音辨识系统与方法的实施范例可紧密结合现有的多种抗噪技术，例如相位误差时频滤波器、延迟累加波束法(delay and sum beamformer)、傅立叶频谱删减法(Fourier spectral subtraction)、小波频谱删减法(Wavelet spectralsubtraction)等技术，利用最大化至少一语音模型与至少一填充模型所计算出来的信心值，来抑制语音特征向量中频谱受到噪音干扰的部分，以提高语音辨识率。

也就是说，在本公开实施范例中，以麦克风阵列为基础的噪音遮罩来做为语音特征参数可靠频谱成分选择的依据。语音特征参数例如可采用配合人耳听觉特性所计算出来的语音特征参数，如梅尔倒频谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)、线性预估参数(LinearPrediction Coefficients，LPCs)等。在不同方向与能量大小的噪音干扰下，来进行语音特征向量的调整，以提高语音辨识率。并且利用信心值来做为语音辨识效能的指标，来估计出最佳的噪音遮罩阈值τ。梅尔倒频谱系数与这些抗噪技术皆为现有的技术，此处不再赘述。

图3是一范例示意图，说明一种以麦克风阵列为基础的语音辨识系统，与所公开的某些实施范例一致。在图3的范例中，语音辨识系统300包含至少一语音模型310、至少一填充模型320、信心值计算模块330、以及阈值调整模块340。至少一语音模型310、至少一填充模型320、信心值计算模块330、以及阈值调整模块340皆可使用硬件描述语言(如Verilog或VHDL)来进行电路设计，经过整合与布局后，可烧录至现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)上。

通过硬件描述语言所完成的电路设计，例如可交由专业的集成电路生产商以特殊应用集成电路(Application-Specific Integrated Circuit，ASIC)或称专用集成电路来实现。也就是说，语音辨识系统300可包含至少一集成电路来实现至少一语音模型310、至少一填充模型320、信心值计算模块330、阈值调整模块340。语音辨识系统300也可包含至少一处理器来完成至少一语音模型310、至少一填充模型320、信心值计算模块330、阈值调整模块340所实现的功能。

如图3的范例所示，语音辨识系统300结合噪音遮蔽模块305。噪音遮蔽模块305对来自麦克风阵列(标记为麦克风1、麦克风2、...、麦克风L，L为大于1的整数)的输入语音，根据来自阈值调整模块340输入的阈值340a，执行噪音消除处理(noise reduction process)并将噪音消除后的语音信号305a分别输出到至少一语音模型310与至少一填充模型320。语音辨识系统300通过至少一语音模型310的各模型比对出此噪音消除后的语音信号305a与此模型的相似度，并各得到经由此模型所得的分数；并通过至少一填充模型320比对出此噪音消除后的语音信号305a与至少一非特定的语音模型的相似度，并得到经由此填充模型所得的分数320a。经由至少一语音模型310的各模型所得的分数的信息310a以及经由至少一填充模型320所得的分数320a则再提供给信心值计算模块330。

换句话说，对于此阈值此噪音消除后的语音信号，信心值计算模块330利用至少一语音模型310与至少一填充模型320，算出信心值，以及阈值调整模块340调整此阈值并提供给噪音遮蔽模块305来继续执行此噪音消除处理，以使得信心值计算模块330计算出的信心值达到最大化，然后输出可让此信心值达到最大化的语音辨识结果的信息。

在图3的范例中，当语音辨识系统300开始运作时，会有一初始阈值305b先提供给噪音遮蔽模块305，以执行噪音消除处理并将噪音消除后的语音信号305a分别输出到至少一语音模型310与至少一填充模型320。至少一语音模型310与至少一填充模型320例如是隐藏式马可夫模型(HiddenMarkov Model，HMM)或为高斯混合模型(Gaussian Mixture Model，GMM)。至少一填充模型320可视为至少一种非特定语音的模型，作为与至少一语音模型310的一种比较，其实作的一个范例如使用与训练语音模型相同的语料，将所有语料分成数个音频帧后，求取每一音频帧的特征向量，再将所有音频帧视为同一个模型进行模型训练以取得模型参数。

在本公开实施范例中，根据至少一语音模型310的各模型所得的分数的信息310a以及经由至少一填充模型320所得的分数320a，利用信心值计算模块330计算出信心值330a，例如将至少一语音模型310中各模型所得分数的函数值减去至少一填充模型320所得分数，得到的差(difference)做为输出的信心值。

当信心值计算模块330输出的信心值330a尚未达到最大化时，在本公开中，如图3的范例所示，处理器360利用阈值调整模块340来调整阈值340a，并输出给噪音遮蔽模块305，以使得信心值计算模块330算出的信心值可以达到最大化。为了求取可让信心值最大化的阈值，在本公开实施范例中，阈值调整模块340例如可用期望最大化(EM)算法等，来找出对应最大信心值的阈值，以估计可让信心值最大化的阈值τ_CM。当信心值计算模块330输出的信心值330a达到最大化时，语音辨识系统300输出可让此信心值达到最大化的语音辨识结果的信息，例如标号355所示，是辨识结果、或是让信心值最大化的阈值τ_CM、或是此辨识结果与阈值τ_CM一并输出等。

依此，语音辨识系统300结合麦克风阵列抗噪技术，对于位在各种不同角度或具各种不同能量大小的噪音干扰，可调整噪音遮罩的参数。并且语音辨识系统300系利用信心值来做为语音辨识效能的指标，来估计出最佳的噪音遮罩阈值。

至少一语音模型310中各模型所得分数的函数值可以有多种实现方式。例如，图4的范例中，至少一语音模型包括N个语音模型，记为语音模型1～语音模型N，N为大于1的整数。在其一实现方式的范例中，阈值调整模块340例如可以使用期望最大化(EM)算法来找出最大信心值所对应到的阈值τ_CM，例如可以取语音模型1～语音模型N中各模型所得分数的最大值Top1。此情况的阈值τ_CM可用下列式子来表示：

τ_{CM} = \underset{τ}{\arg \max} [\log P (C (τ) | Λ_{Top 1}) - \log P (C (τ) | Λ_{F})]

在其另一实现方式的范例中，阈值调整模块340例如可以使用期望最大化(EM)算法取语音模型1～语音模型N中的前M个分数最高的模型所得分数再给予不同的权重，来找出最大信心值所对应到的阈值τ_CM，以增加稳健性(Robust)。此情况的阈值τ_CM可用下列式子来表示：

τ_{CM} = \underset{τ}{\arg \max} [\frac{(ω_{1} \log P (C (τ) | Λ_{Top 1}) + ω_{2} \log P (C (τ) | Λ_{Top 2}) + . . . + ω_{M} \log P (C (τ) | Λ_{TopM}))}{(ω_{1} + ω_{2} + . . . + ω_{M})} - \log P (C (τ) | Λ_{F})]

其中，ω₁～ω_M为所给予不同的权重，1＜M＜N。

在其又一实现方式的范例中，如图5所示，可以将语音模型1～语音模型N中各模型先合并成一合并后的语音模型510，再取此合并后的语音模型510所得的分数，换句话说，可利用一种合并模型的方式来增加稳健性。

如前所述，在本公开另一实施范例中，也可以采用如循序搜寻法(linearsearch)，来估计可让信心值最大化的阈值τ_CM。依此，如图6的范例所示，在本公开的语音辨识系统在开始运作时，可以先预定阈值τ的大小范围，例如0.1≤τ≤1.2，然后在此阈值τ的大小范围中，使用循序搜寻法找出对应最大信心值的阈值。此时，图6范例的语音辨识系统600可包含至少一语音模型310、至少一填充模型320、以及最大信心值决定模块640。最大信心值决定模块640可使用硬件描述语言(如Verilog或VHDL)来进行电路设计，经过整合与布局后，可烧录至现场可编程逻辑门阵列(FieldProgrammable Gate Array，FPGA)上。

如前所述，通过硬件描述语言所完成的电路设计，例如可交由专业的集成电路生产商以特殊应用集成电路或称专用集成电路来实现。换句话说，语音辨识系统600中的至少一语音模型310、至少一填充模型320、信心值计算模块330、以及最大信心值决定模块640可用至少一集成电路来实现。语音辨识系统600也可采用至少一处理器来完成至少一语音模型310、至少一填充模型320、信心值计算模块330、最大信心值决定模块640所实现的功能。

也就是说，对于落在此阈值的预定范围605a中的每一给定的阈值τ，语音辨识系统600可利用信心值计算模块330，根据至少一语音模型310的各模型所得的分数的信息310a以及经由至少一填充模型320所得的分数320a，计算出相对应的信心值330a，并提供给最大信心值决定模块640。再通过最大信心值决定模块640从所有算出的信心值330a中，找出对应最大信心值的阈值τ_CM。语音辨识系统600的输出355如前所述，可以是辨识结果、或是让信心值最大化的阈值τ_CM、或是此辨识结果与阈值τ_CM一并输出等。

换句话说，图6范例的语音辨识系统600中，是对于落在阈值的预定范围605a中的每一给定的阈值τ，来计算出相对应的信心值。故无需通过算法或阈值调整模块来更新阈值。当语音辨识系统600开始运作时，可将每一给定的阈值τ循序提供给噪音遮蔽模块305，对来自麦克风阵列，即麦克风1、麦克风2、...、麦克风L，的输入语音，根据此阈值τ，执行噪音消除处理并将噪音消除后的语音信号305a分别输出到至少一语音模型310与至少一填充模型320，其中L为一大于1的整数。利用至少一语音模型310与至少一填充模型320，最大信心值决定模块640可从计算出的每一信心值330a中，再找出对应最大信心值的阈值τ_CM。语音辨识系统600再输出可让该信心值达到最大化的语音辨识结果的信息。例如标号355所示。

承接上述，图7是一范例流程图，说明一种以麦克风阵列为基础的语音辨识方法的运作，与所公开的某些实施范例一致。此语音辨识方法可采用计算机系统来实施(computer implemented)，并且可包含如图7的此计算机可执行的动作(computer executable acts)。在图7的范例中，如步骤710所示，对来自麦克风阵列的输入语音，根据输入的至少一阈值的每一阈值，执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型。对该输入的至少一阈值的每一阈值，根据此至少一语音模型的各模型所得的分数的信息310a以及经由此至少一填充模型所得的分数320a，计算出相对应的信心值，如步骤720所示。从输入的该至少一阈值的每一阈值中，找出计算出的每一相对应的信心值中的最大信心值所对应的阈值τ_CM，然后产生语音辨识结果的信息，如步骤730所示。

承接前述本公开图3至图6的实施范例，上述以麦克风阵列为基础的语音辨识方法的运作中，噪音消除处理的输入参数，即输入的至少一阈值的每一阈值，可用多种方式来更新阈值。根据输入的该至少一阈值的每一阈值中，也可用多种方式来找出最大信心值所对应的阈值τ_CM。图8是一范例示意图，说明此阈值更新以及如何找出该最大信心值所对应的阈值τ_CM的运作，与所公开的某些实施范例一致。

参考图8的运作范例，可先输入一初始阈值来执行噪音消除处理并将噪音消除后的语音信号305a分别输出到至少一语音模型310与至少一填充模型330。然后执行信心值计算，得出相对应的信心值后，判断此信心值是否为最大信心值。当计算出的信心值是此最大信心值时，表示找出此最大信心值所对应的阈值τ_CM，然后即可产生语音辨识结果的信息。

当计算出的信心值不是此最大信心值时，可通过执行期望最大化(EM)算法840，输出更新的阈值，再提供给噪音消除处理，噪音消除处理后，同样地，将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型。然后，再执行信心值计算，以此类推。在图8的运作范例中，此方法的至少一语音模型310中各模型所得分数的函数值可以如前述的取语音模型1～语音模型N中各模型所得分数的最大值Top1、取语音模型1～语音模型N中的前M个分数最高的模型所得分数再给予不同的权重、以及，利用种合并模型的方式等多种实现方式，来增加稳健性。

图9是另一范例示意图，说明阈值更新以及如何找出该最大信心值所对应的阈值的运作，与所公开的某些实施范例一致。图9的运作范例是采用如前述提及的循序搜寻法，先预定阈值τ的大小范围，然后对于落在此阈值的预定范围中每一给定的阈值τ，此处理器根据至少一语音模型310的各模型所得的分数的信息310a以及经由至少一填充模型320所得的分数320a，执行信心值计算后，算出对于各给定阈值τ所对应的信心值，再从中决定出最大信心值的及取得所对应的阈值，并产生语音辨识结果的信息。

本公开中，以麦克风阵列为基础的语音辨识系统与方法的实施范例可以适用于具有噪音干扰的环境中，例如，在行车中使用语音界面常会遇到外界噪音或是风切声的干扰，使得语音命令的辨识结果错误。因为真实环境随时在改变，所以在车上的用户可以装设本公开以麦克风阵列为基础的语音辨识系统，使用前述本公开的实施范例来找出每一语音命令最适合的阈值，使得语音辨识结果达到最佳化。例如此用户可使用一按就说(push totalk)的方式开始说出想要执行的语音命令，并可使用现有的语音活动检测技术，来检测用户语音命令的结束点后，再将此段语音命令输入本公开以麦克风阵列为基础的语音辨识系统，找出最佳的阈值。

本公开以麦克风阵列为基础的语音辨识系统与方法的实施范例也可以应用在与机器人的互动上，如图10的范例所示，机器人可以使用现有的语音活动检测技术，来检测用户说话的开始与结束后，再将检测到的用户说话的一段语音信号输入至本公开以麦克风阵列为基础的语音辨识系统，来得到最佳的辨识结果。

图11A与图11B是实验结果的范例示意图，分别说明干扰源位于30度(图11A)与60度(图11B)时，对不同的信噪比，利用以麦克风阵列为基础的语音辨识系统的实施范例所得到的语音辨识率，与所公开的某些实施范例一致。此范例中，以一批在无响室中以麦克风阵列所录的语料来进行此语音辨识系统的测试。实验参数设定如下：以备有两只麦克风的麦克风阵列为例，此两只麦克风间的距离为5公分，麦克风与语者以及干扰源的距离为各为30公分。总共有11位语者进行录音，每人录制50句遥控车词汇，有效的音档总共有547句语料，再分别与30度与60度的噪音干扰源混和成信噪比(SNR)为0、6、12、18dB的信号来进行测试。分别采用循序(linear)搜寻法与期望最大化(EM)算法，来估计可让信心值最大化的阈值τ_CM以得到语音辨识率，其中，每一测试语句更新一次阈值τ。

在上述测试实验中，从图11A与图11B估计出的阈值可作为噪音角度与信噪比的一个综合指标，此可从图12的范例看出。图12的范例中，横轴坐标代表信噪比，纵轴坐标代表阈值估计的平均结果，实线为干扰源位于60度时的阈值估计的平均结果，虚线为干扰源位于30度时的阈值估计的平均结果。

综上所述，本公开实施例提出一种以麦克风阵列为基础的语音辨识系统与方法。其紧密结合抗噪与语音辨识器成为一体，并利用最大化至少一语音模型与至少一填充模型所计算出来的信心值来抑制语音特征向量中频谱受到噪音干扰的部分，以提高语音辨识率。本公开实施例不需重新录制语料与训练语音模型，可在不同角度与不同能量大小的噪音环境中调整噪音遮罩的参数，可以适用于具有噪音干扰的真实环境中，来提高语音辨识率，也可以在语音进行人机互动时，提供更好的语音界面与用户体验。

以上所述者仅为本公开实施例，当不能依此限定本公开实施的范围。即大凡本发明申请专利范围所作的均等变化与修饰，皆应仍属本发明权利要求书要求保护的范围。

Claims

1.一种以麦克风阵列为基础的语音辨识系统，该系统结合噪音遮蔽模块，以对来自麦克风阵列的输入语音，根据输入的阈值执行噪音消除处理，该系统包含：

至少一语音模型与至少一填充模型，分别接收该噪音遮蔽模块输出的噪音消除后的语音信号；

信心值计算模块，对于该阈值与该噪音消除后的语音信号，利用该至少一语音模型与该至少一填充模型，算出信心值，以及

阈值调整模块，调整该阈值并提供给该噪音遮蔽模块来继续执行该噪音消除处理，以使得该信心值计算模块计算出的信心值达到最大化，然后输出可让该信心值达到最大化的语音辨识结果的信息。

2.如权利要求1所述的语音辨识系统，其中该阈值调整模块使用期望最大化算法来找出该达到最大化的信心值所对应到的阈值。

3.如权利要求1所述的语音辨识系统，其中该处理器经由该至少一语音模型的各模型，比对出该噪音消除后的语音信号与各模型的相似度并各得到一个由该模型所得的分数，且经由该至少一填充模型比对出该噪音消除后的语音信号与至少一非特定的语音模型的相似度，并得到一个经由该填充模型所得的分数，该信心值计算模块将该至少一语音模型中各模型所得分数的函数值减去该至少一填充模型所得分数，得到的差做为计算出的该信心值。

4.如权利要求2所述的语音辨识系统，其中该至少一语音模型包括N个语音模型，该阈值调整模块取该N个语音模型中的前M个分数最高的模型所得分数再给予不同的权重，来找出该达到最大化的信心值所对应到的阈值，N与M皆为正整数，且M≤N。

5.如权利要求2所述的语音辨识系统，其中该至少一语音模型包括多个语音模型，该阈值调整模块取该多个语音模型中各模型被合并成合并后的语音模型所得的分数，来找出达到最大化的信心值所对应到的阈值。

6.如权利要求第2所述的语音辨识系统，其中该至少一语音模型包括多个语音模型，该阈值调整模块取该多个语音模型中各模型所得分数的最大值，来找出该达到最大化的信心值所对应到的阈值。

7.如权利要求1所述的语音辨识系统，该语音辨识系统包含至少一处理器，以完成该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该阈值调整模块所实现的功能。

8.如权利要求1所述的语音辨识系统，其中该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该阈值调整模块以至少一集成电路来实现。

9.一种以麦克风阵列为基础的语音辨识系统，该系统结合噪音遮蔽模块，以对来自麦克风阵列的输入语音，根据输入的阈值的预定范围中的每一给定的阈值执行噪音消除处理，该系统包含：

至少一语音模型与至少一填充模型，以分别接收执行该噪音消除处理后的噪音消除后的语音信号；

信心值计算模块，对于落在该阈值的预定范围中的每一给定的阈值与该噪音消除后的语音信号，利用该至少一语音模型与该至少一填充模型，算出信心值；以及

最大信心值决定模块，从该信心值计算模块所有计算出该信心值中，找出该最大信心值所对应的阈值，然后输出相对应的语音辨识结果的信息。

10.如权利要求9所述的语音辨识系统，该语音辨识系统包含至少一处理器，以完成该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该最大信心值决定模块所实现的功能。

11.如权利要求9所述的语音辨识系统，其中该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该最大信心值决定模块以至少一集成电路来实现。

12.如权利要求9所述的语音辨识系统，该语音辨识系统利用使用循序搜寻法，找出该最大信心值所对应的阈值。

13.一种以麦克风阵列为基础的语音辨识方法，该语音辨识方法以计算机系统来实施，该方法包含下列该计算机系统可执行的动作：

对来自麦克风阵列的输入语音，根据至少一输入的阈值，执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型；

根据该至少一语音模型的各模型所得的分数的信息以及经由该至少一填充模型所得的分数，计算出相对应的信心值；以及

从输入的该至少一阈值的每一阈值中，找出该计算出的每一相对应的信心值中的最大信心值所对应的阈值，然后产生语音辨识结果的信息。

14.如权利要求13所述的语音辨识方法，该方法使用期望最大化算法来找出该最大信心值所对应的该阈值。

15.如权利要求13所述的语音辨识方法，该方法使用循序搜寻法来找出该最大信心值所对应的该阈值。

16.如权利要求13所述的语音辨识方法，该方法对于输入的该至少一阈值的每一阈值，将该至少一语音模型中各模型所得分数的函数值减去该至少一填充模型所得分数，得到的差做为计算出的每一相对应的信心值。

17.如权利要求14所述的语音辨识方法，该方法将该至少一语音模型利用合并模型的方式来增加稳健性。

18.如权利要求14所述的语音辨识方法，其中该至少一语音模型包括N个语音模型，该方法取该N个语音模型中的前M个分数最高的语音模型所得分数再给予不同的权重，来增加稳健性，N与M皆为正整数，且M≤N。

19.如权利要求14所述的语音辨识方法，其中该至少一语音模型包括多个语音模型，该方法取该多个语音模型中的中各模型所得分数的最大值，作为该至少一语音模型中各模型所得分数的函数值。

20.如权利要求15所述的语音辨识方法，该方法将该至少一语音模型利用合并模型的方式来增加稳健性。