CN102903360A - 以麦克风阵列为基础的语音辨识系统与方法 - Google Patents
以麦克风阵列为基础的语音辨识系统与方法 Download PDFInfo
- Publication number
- CN102903360A CN102903360A CN2011102420545A CN201110242054A CN102903360A CN 102903360 A CN102903360 A CN 102903360A CN 2011102420545 A CN2011102420545 A CN 2011102420545A CN 201110242054 A CN201110242054 A CN 201110242054A CN 102903360 A CN102903360 A CN 102903360A
- Authority
- CN
- China
- Prior art keywords
- model
- speech
- threshold value
- noise
- confidence value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000008030 elimination Effects 0.000 claims abstract description 16
- 238000003379 elimination reaction Methods 0.000 claims abstract description 16
- 230000009471 action Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种以麦克风阵列为基础的语音辨识系统与方法。该语音辨识系统结合抗噪技术,以对来自麦克风阵列的输入语音,根据输入的至少一阈值的每一阈值执行噪音消除处理,此系统经由至少一语音模型与至少一填充模型以分别接收噪音遮蔽模块输出的噪音消除后的语音信号,并且对于每一阈值与该噪音消除后的每一语音信号,通过此至少一语音模型与此至少一填充模型,计算出信心值后,调整此阈值来继续执行此噪音消除处理,以让计算出的信心值可达到最大化,然后输出可让此信心值达到最大化的语音辨识结果的信息。
Description
技术领域
本公开涉及一种以麦克风阵列为基础(Microphone-Array-Based)的语音辨识系统与方法。
背景技术
近年来,移动装置如平板计算机、手机等用户数量大增,车用电子与机器人也发展快速。这些领域都可看出未来的语音应用需求将快速的成长。Google的Nexus One和Motorola的Droid将主动噪音消除(Active NoiseCancellation,ANC)技术带到手机市场,改善了语音应用的输入端,而使得后端的语音辨识或其应用表现得更好,让用户可以得到更好的体验。手机制造商近年来也在手机噪音消除的技术上积极地进行研究。
常见的稳健式(Robust)语音辨识技术有两类。一类为二阶段式稳健式语音辨识技术,此类技术先将语音信号增强后,再将增强后的信号传送至语音辨识器进行辨识。例如,利用两个适应性滤波器(Adaptive Filter)或是以预先训练的语音与噪音模型结合算法来调整适应性滤波器,先将语音信号增强后,再将增强后的信号传送至语音辨识器。另一类为利用语音模型(speechmodel)做为适应性滤波器调整参数的依据,但没有考虑干扰噪音的信息,其语音信号增强所根据的准则为最大相似度(maximum likelihood),也就是说,增强后的语音信号与语音模型越像越好。
图1所示的是一种双麦克风语音增强(Dual-Microphone SpeechEnhancement)技术中,其滤波器调整参数的范例流程。此语音增强技术是先利用重新录制与滤波后的语料来训练出单一语音模型110后,再利用相似度最大化的条件来调整噪音遮蔽的参数γ,也就是说,此语音增强技术判断的准则是通过相位误差时频滤波器(phase-difference-based time-frequencyfiltering)105出来的增强的语音信号(enhanced speech)105a与语音模型110越相似越好。语音模型110训练所需语料需重新录制并加以滤波,且没有考虑噪音的信息,因此测试环境与训练环境的设定会有不匹配的可能。
双麦克风或多麦克风的麦克风阵列噪音消除技术具有不错的抗噪效果。然而在不同的使用环境下,麦克风抗噪的能力并不相同。如何能够调整麦克风阵列参数以使得语音辨识正确率能够增加,提供更好的用户体验,是非常值得研究与发展的。
发明内容
本公开实施例可提供一种以麦克风阵列为基础的语音辨识系统与方法。
所公开的一实施例是关于一种以麦克风阵列为基础的语音辨识系统。此系统结合噪音遮蔽模块(noise masking module),以对来自麦克风阵列的输入语音,根据输入的阈值执行噪音消除处理,此系统可包含至少一语音模型(speech model)与至少一填充模型(filler model)以分别接收该噪音遮蔽模块输出的噪音消除后的语音信号,以及信心值计算模块(confidencecomputation module)与阈值调整模块(threshold adjustment module)。对于此阈值与此噪音消除后的语音信号,此信心值计算模块利用此至少一语音模型与此至少一填充模型,计算出信心值。此阈值调整模块调整此阈值并提供给此噪音遮蔽模块来继续执行此噪音消除处理,以使得此信心值计算模块计算出的信心值达到最大化,然后输出可让此信心值达到最大化的语音辨识结果的信息。
所公开的一实施例是关于一种以麦克风阵列为基础的语音辨识系统。此系统结合噪音遮蔽模块,以对来自麦克风阵列的输入语音,根据输入的阈值的预定范围内的多个阈值的每一阈值,来执行噪音消除处理,此系统可包含至少一语音模型与至少一填充模型以分别接收此噪音遮蔽模块输出的噪音消除后的语音信号、信心值计算模块、以及最大信心值决定模块。对于落在此阈值的预定范围中的每一给定的阈值与此噪音消除后的语音信号,此信心值计算模块利用此至少一语音模型与此至少一填充模型,算出信心值。此最大信心值决定模块从所有算出的此信心值中,找出最大信心值所对应的阈值,然后输出语音辨识结果的信息。
所公开的又一实施例是关于一种以麦克风阵列为基础的语音辨识方法。此方法以计算机系统来实施,并且可包含下列此计算机系统可执行的动作:对来自麦克风阵列的输入语音,根据至少一输入的阈值,执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型;利用处理器,根据此至少一语音模型的各模型所得的分数的信息以及经由此至少一填充模型所得的分数,计算出相对应的信心值;以及从输入的此至少一阈值的每一阈值中,找出计算出的每一相对应的信心值中的最大信心值所对应的阈值,然后产生语音辨识结果的信息。
现在配合附图、实施例的详细说明及权利要求书,将上述及本发明的其他优点详述于后。
附图说明
图1是一范例示意图,说明一种双麦克风语音增强技术的滤波器调整参数的范例流程。
图2A是噪音遮罩阈值与信心值的一范例关系图,与所公开的某些实施范例一致。
图2B是噪音遮罩阈值与语音辨识率的一范例关系图,与所公开的某些实施范例一致。
图3是一范例示意图,说明一种以麦克风阵列为基础的语音辨识系统,与所公开的某些实施范例一致。
图4是一范例示意图,说明一种实现图3中至少一语音模型中各模型所得分数的函数值的方式,与所公开的某些实施范例一致。
图5是一范例示意图,说明另一种实现图3中至少一语音模型中各模型所得分数的函数值的方式,与所公开的某些实施范例一致。
图6是另一范例示意图,说明一种以麦克风阵列为基础的语音辨识系统,与所公开的某些实施范例一致。
图7是一范例流程图,说明一种以麦克风阵列为基础的语音辨识方法的运作,与所公开的某些实施范例一致。
图8是一范例示意图,说明阈值更新以及如何找出该最大信心值所对应的一阈值的运作,与所公开的某些实施范例一致。
图9是另一范例示意图,说明阈值更新以及如何找出该最大信心值所对应的一阈值的运作,与所公开的某些实施范例一致。
图10是一范例示意图,说明以麦克风阵列为基础的语音辨识系统适用于具有噪音干扰的真实环境中,与所公开的某些实施范例一致。
图11A与图11B是实验结果的范例示意图,分别说明干扰源位于30度与60度时,对于不同的信噪比,利用以麦克风阵列为基础的语音辨识系统的实施范例所得到的语音辨识率,与所公开的某些实施范例一致。
图12是一范例示意图,说明以麦克风阵列为基础的语音辨识技术所估计出的阈值可作为噪音角度与信噪比的一个综合指标,与所公开的某些实施范例一致。
【主要元件符号说明】
105相位误差时频滤波器 105a增强的语音信号
110语音模型
210噪音位在60度时,其最大信心值得到相对应的最高语音辨识率
220噪音位在30度时,其最大信心值得到相对应的最高语音辨识率
300语音辨识系统 305噪音遮蔽模块
305a噪音消除后的语音信号 305b初始阈值
310至少一语音模型 320至少一填充模型
310a至少一语音模型的各模型所得的分数的信息
320a经由至少一填充模型所得的分数
330信心值计算模块 330a信心值
340阈值调整模块 340a阈值
355辨识结果、阈值τCM、辨识结果与阈值τCM
510合并后的语音模型
600语音辨识系统 605a阈值的预定范围
640最大信心值决定模块
710对来自一麦克风阵列的输入语音,根据至少一输入的阈值,执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型
720根据此至少一语音模型的各模型所得的分数的信息以及经由此至少一填充模型所得的分数,计算出相对应的信心值
730从输入的该至少一阈值的每一阈值中,找出计算出的每一相对应的信心值中的最大信心值所对应的阈值τCM,然后产生语音辨识结果的信息
840期望最大化算法
具体实施方式
在本公开以麦克风阵列为基础的语音辨识系统与方法的实施范例中,利用至少一语音模型与至少一填充模型(filler model)所计算出来的最大信心值(maximum confidence)来调整噪音遮罩(noise masking)的参数以抑制在语音特征向量中,频谱受到噪音干扰的部分,以提高语音辨识率。本公开实施范例针对不同噪音的环境下(例如行车中),调整噪音遮罩的参数,以因应实际环境的语音应用。本公开实施范例将噪音遮蔽与语音辨识结合成为一体,并且使用既有的语音模型,不需重新录制语料或训练语音模型,提供在具有噪音的环境下,以语音进行人机互动时更好的语音界面与用户体验。
在本公开实施范例利中,利用至少一语音模型ΛSP与至少一填充模型ΛF,并根据下列式子来计算出信心值CM:
CM=[logP(C(τ)|ΛSP)-logP(C(τ)|ΛF)] (1)
其中C(τ)由麦克风阵列所产生的每一音频帧(audio frame)在通过噪音遮罩阈值τ的噪音遮蔽后,所取得的特征向量,P为条件概率函数。
在本公开实施范例中,通过阈值调整模块,来调整噪音遮罩的参数,也就是噪音遮罩阈值τ。此阈值调整模块可针对来自不同角度或不同能量大小等的噪音来调整噪音遮罩的参数。本公开实施范例证实当信心值最大时,所得到的辨识率也是最高的。图2A与图2B都使用噪音位在30度与60度以及信噪比0dB的麦克风阵列语料来进行测试的范例,其中虚线代表使用来自30度的噪音进行测试的结果,实线代表使用来自60度的噪音进行测试的结果。在图2A中,横轴代表噪音遮罩阈值τ,纵轴代表根据式(1)算出的信心值CM。在图2B中,横轴代表噪音遮罩阈值τ,纵轴代表语音辨识率。
从图2A与图2B的测试结果可以看出,在图2A中,30度的曲线图中的最大信心值与60度的曲线图中的最大信心值,在图2B中所得到的相对应的语音辨识率也是最高的,分别如箭头210与220所示。箭头210意指噪音位在60度时,其最大信心值得到相对应的最高语音辨识率;箭头220意指噪音位在30度时,其最大信心值得到相对应的最高语音辨识率。所以,在本公开实施范例中,可采用如循序搜寻法(linear search)或是期望最大化(Expectation-maximization,EM)算法等,来估计可让信心值最大化的阈值τCM。阈值τCM可用下列式子来表示:
其中,C(τ)代表为每一音频帧经过噪音遮罩阈值为τ的噪音遮蔽后所取得的特征向量,ΛSP与ΛF分别代表语音模型参数的集合与填充模型参数的集合,P为一条件概率分配(conditional probability distribution)。换句话说,根据式(2)算出的阈值τCM即为本公开实施范例中,针对噪音最佳的阈值设定。
在本公开中,以麦克风阵列来区分语音信号以及需要消除的噪音信号。此语音辨识系统与方法的实施范例可紧密结合现有的多种抗噪技术,例如相位误差时频滤波器、延迟累加波束法(delay and sum beamformer)、傅立叶频谱删减法(Fourier spectral subtraction)、小波频谱删减法(Wavelet spectralsubtraction)等技术,利用最大化至少一语音模型与至少一填充模型所计算出来的信心值,来抑制语音特征向量中频谱受到噪音干扰的部分,以提高语音辨识率。
也就是说,在本公开实施范例中,以麦克风阵列为基础的噪音遮罩来做为语音特征参数可靠频谱成分选择的依据。语音特征参数例如可采用配合人耳听觉特性所计算出来的语音特征参数,如梅尔倒频谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、线性预估参数(LinearPrediction Coefficients,LPCs)等。在不同方向与能量大小的噪音干扰下,来进行语音特征向量的调整,以提高语音辨识率。并且利用信心值来做为语音辨识效能的指标,来估计出最佳的噪音遮罩阈值τ。梅尔倒频谱系数与这些抗噪技术皆为现有的技术,此处不再赘述。
图3是一范例示意图,说明一种以麦克风阵列为基础的语音辨识系统,与所公开的某些实施范例一致。在图3的范例中,语音辨识系统300包含至少一语音模型310、至少一填充模型320、信心值计算模块330、以及阈值调整模块340。至少一语音模型310、至少一填充模型320、信心值计算模块330、以及阈值调整模块340皆可使用硬件描述语言(如Verilog或VHDL)来进行电路设计,经过整合与布局后,可烧录至现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)上。
通过硬件描述语言所完成的电路设计,例如可交由专业的集成电路生产商以特殊应用集成电路(Application-Specific Integrated Circuit,ASIC)或称专用集成电路来实现。也就是说,语音辨识系统300可包含至少一集成电路来实现至少一语音模型310、至少一填充模型320、信心值计算模块330、阈值调整模块340。语音辨识系统300也可包含至少一处理器来完成至少一语音模型310、至少一填充模型320、信心值计算模块330、阈值调整模块340所实现的功能。
如图3的范例所示,语音辨识系统300结合噪音遮蔽模块305。噪音遮蔽模块305对来自麦克风阵列(标记为麦克风1、麦克风2、...、麦克风L,L为大于1的整数)的输入语音,根据来自阈值调整模块340输入的阈值340a,执行噪音消除处理(noise reduction process)并将噪音消除后的语音信号305a分别输出到至少一语音模型310与至少一填充模型320。语音辨识系统300通过至少一语音模型310的各模型比对出此噪音消除后的语音信号305a与此模型的相似度,并各得到经由此模型所得的分数;并通过至少一填充模型320比对出此噪音消除后的语音信号305a与至少一非特定的语音模型的相似度,并得到经由此填充模型所得的分数320a。经由至少一语音模型310的各模型所得的分数的信息310a以及经由至少一填充模型320所得的分数320a则再提供给信心值计算模块330。
换句话说,对于此阈值此噪音消除后的语音信号,信心值计算模块330利用至少一语音模型310与至少一填充模型320,算出信心值,以及阈值调整模块340调整此阈值并提供给噪音遮蔽模块305来继续执行此噪音消除处理,以使得信心值计算模块330计算出的信心值达到最大化,然后输出可让此信心值达到最大化的语音辨识结果的信息。
在图3的范例中,当语音辨识系统300开始运作时,会有一初始阈值305b先提供给噪音遮蔽模块305,以执行噪音消除处理并将噪音消除后的语音信号305a分别输出到至少一语音模型310与至少一填充模型320。至少一语音模型310与至少一填充模型320例如是隐藏式马可夫模型(HiddenMarkov Model,HMM)或为高斯混合模型(Gaussian Mixture Model,GMM)。至少一填充模型320可视为至少一种非特定语音的模型,作为与至少一语音模型310的一种比较,其实作的一个范例如使用与训练语音模型相同的语料,将所有语料分成数个音频帧后,求取每一音频帧的特征向量,再将所有音频帧视为同一个模型进行模型训练以取得模型参数。
在本公开实施范例中,根据至少一语音模型310的各模型所得的分数的信息310a以及经由至少一填充模型320所得的分数320a,利用信心值计算模块330计算出信心值330a,例如将至少一语音模型310中各模型所得分数的函数值减去至少一填充模型320所得分数,得到的差(difference)做为输出的信心值。
当信心值计算模块330输出的信心值330a尚未达到最大化时,在本公开中,如图3的范例所示,处理器360利用阈值调整模块340来调整阈值340a,并输出给噪音遮蔽模块305,以使得信心值计算模块330算出的信心值可以达到最大化。为了求取可让信心值最大化的阈值,在本公开实施范例中,阈值调整模块340例如可用期望最大化(EM)算法等,来找出对应最大信心值的阈值,以估计可让信心值最大化的阈值τCM。当信心值计算模块330输出的信心值330a达到最大化时,语音辨识系统300输出可让此信心值达到最大化的语音辨识结果的信息,例如标号355所示,是辨识结果、或是让信心值最大化的阈值τCM、或是此辨识结果与阈值τCM一并输出等。
依此,语音辨识系统300结合麦克风阵列抗噪技术,对于位在各种不同角度或具各种不同能量大小的噪音干扰,可调整噪音遮罩的参数。并且语音辨识系统300系利用信心值来做为语音辨识效能的指标,来估计出最佳的噪音遮罩阈值。
至少一语音模型310中各模型所得分数的函数值可以有多种实现方式。例如,图4的范例中,至少一语音模型包括N个语音模型,记为语音模型1~语音模型N,N为大于1的整数。在其一实现方式的范例中,阈值调整模块340例如可以使用期望最大化(EM)算法来找出最大信心值所对应到的阈值τCM,例如可以取语音模型1~语音模型N中各模型所得分数的最大值Top1。此情况的阈值τCM可用下列式子来表示:
在其另一实现方式的范例中,阈值调整模块340例如可以使用期望最大化(EM)算法取语音模型1~语音模型N中的前M个分数最高的模型所得分数再给予不同的权重,来找出最大信心值所对应到的阈值τCM,以增加稳健性(Robust)。此情况的阈值τCM可用下列式子来表示:
其中,ω1~ωM为所给予不同的权重,1<M<N。
在其又一实现方式的范例中,如图5所示,可以将语音模型1~语音模型N中各模型先合并成一合并后的语音模型510,再取此合并后的语音模型510所得的分数,换句话说,可利用一种合并模型的方式来增加稳健性。
如前所述,在本公开另一实施范例中,也可以采用如循序搜寻法(linearsearch),来估计可让信心值最大化的阈值τCM。依此,如图6的范例所示,在本公开的语音辨识系统在开始运作时,可以先预定阈值τ的大小范围,例如0.1≤τ≤1.2,然后在此阈值τ的大小范围中,使用循序搜寻法找出对应最大信心值的阈值。此时,图6范例的语音辨识系统600可包含至少一语音模型310、至少一填充模型320、以及最大信心值决定模块640。最大信心值决定模块640可使用硬件描述语言(如Verilog或VHDL)来进行电路设计,经过整合与布局后,可烧录至现场可编程逻辑门阵列(FieldProgrammable Gate Array,FPGA)上。
如前所述,通过硬件描述语言所完成的电路设计,例如可交由专业的集成电路生产商以特殊应用集成电路或称专用集成电路来实现。换句话说,语音辨识系统600中的至少一语音模型310、至少一填充模型320、信心值计算模块330、以及最大信心值决定模块640可用至少一集成电路来实现。语音辨识系统600也可采用至少一处理器来完成至少一语音模型310、至少一填充模型320、信心值计算模块330、最大信心值决定模块640所实现的功能。
也就是说,对于落在此阈值的预定范围605a中的每一给定的阈值τ,语音辨识系统600可利用信心值计算模块330,根据至少一语音模型310的各模型所得的分数的信息310a以及经由至少一填充模型320所得的分数320a,计算出相对应的信心值330a,并提供给最大信心值决定模块640。再通过最大信心值决定模块640从所有算出的信心值330a中,找出对应最大信心值的阈值τCM。语音辨识系统600的输出355如前所述,可以是辨识结果、或是让信心值最大化的阈值τCM、或是此辨识结果与阈值τCM一并输出等。
换句话说,图6范例的语音辨识系统600中,是对于落在阈值的预定范围605a中的每一给定的阈值τ,来计算出相对应的信心值。故无需通过算法或阈值调整模块来更新阈值。当语音辨识系统600开始运作时,可将每一给定的阈值τ循序提供给噪音遮蔽模块305,对来自麦克风阵列,即麦克风1、麦克风2、...、麦克风L,的输入语音,根据此阈值τ,执行噪音消除处理并将噪音消除后的语音信号305a分别输出到至少一语音模型310与至少一填充模型320,其中L为一大于1的整数。利用至少一语音模型310与至少一填充模型320,最大信心值决定模块640可从计算出的每一信心值330a中,再找出对应最大信心值的阈值τCM。语音辨识系统600再输出可让该信心值达到最大化的语音辨识结果的信息。例如标号355所示。
承接上述,图7是一范例流程图,说明一种以麦克风阵列为基础的语音辨识方法的运作,与所公开的某些实施范例一致。此语音辨识方法可采用计算机系统来实施(computer implemented),并且可包含如图7的此计算机可执行的动作(computer executable acts)。在图7的范例中,如步骤710所示,对来自麦克风阵列的输入语音,根据输入的至少一阈值的每一阈值,执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型。对该输入的至少一阈值的每一阈值,根据此至少一语音模型的各模型所得的分数的信息310a以及经由此至少一填充模型所得的分数320a,计算出相对应的信心值,如步骤720所示。从输入的该至少一阈值的每一阈值中,找出计算出的每一相对应的信心值中的最大信心值所对应的阈值τCM,然后产生语音辨识结果的信息,如步骤730所示。
承接前述本公开图3至图6的实施范例,上述以麦克风阵列为基础的语音辨识方法的运作中,噪音消除处理的输入参数,即输入的至少一阈值的每一阈值,可用多种方式来更新阈值。根据输入的该至少一阈值的每一阈值中,也可用多种方式来找出最大信心值所对应的阈值τCM。图8是一范例示意图,说明此阈值更新以及如何找出该最大信心值所对应的阈值τCM的运作,与所公开的某些实施范例一致。
参考图8的运作范例,可先输入一初始阈值来执行噪音消除处理并将噪音消除后的语音信号305a分别输出到至少一语音模型310与至少一填充模型330。然后执行信心值计算,得出相对应的信心值后,判断此信心值是否为最大信心值。当计算出的信心值是此最大信心值时,表示找出此最大信心值所对应的阈值τCM,然后即可产生语音辨识结果的信息。
当计算出的信心值不是此最大信心值时,可通过执行期望最大化(EM)算法840,输出更新的阈值,再提供给噪音消除处理,噪音消除处理后,同样地,将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型。然后,再执行信心值计算,以此类推。在图8的运作范例中,此方法的至少一语音模型310中各模型所得分数的函数值可以如前述的取语音模型1~语音模型N中各模型所得分数的最大值Top1、取语音模型1~语音模型N中的前M个分数最高的模型所得分数再给予不同的权重、以及,利用种合并模型的方式等多种实现方式,来增加稳健性。
图9是另一范例示意图,说明阈值更新以及如何找出该最大信心值所对应的阈值的运作,与所公开的某些实施范例一致。图9的运作范例是采用如前述提及的循序搜寻法,先预定阈值τ的大小范围,然后对于落在此阈值的预定范围中每一给定的阈值τ,此处理器根据至少一语音模型310的各模型所得的分数的信息310a以及经由至少一填充模型320所得的分数320a,执行信心值计算后,算出对于各给定阈值τ所对应的信心值,再从中决定出最大信心值的及取得所对应的阈值,并产生语音辨识结果的信息。
本公开中,以麦克风阵列为基础的语音辨识系统与方法的实施范例可以适用于具有噪音干扰的环境中,例如,在行车中使用语音界面常会遇到外界噪音或是风切声的干扰,使得语音命令的辨识结果错误。因为真实环境随时在改变,所以在车上的用户可以装设本公开以麦克风阵列为基础的语音辨识系统,使用前述本公开的实施范例来找出每一语音命令最适合的阈值,使得语音辨识结果达到最佳化。例如此用户可使用一按就说(push totalk)的方式开始说出想要执行的语音命令,并可使用现有的语音活动检测技术,来检测用户语音命令的结束点后,再将此段语音命令输入本公开以麦克风阵列为基础的语音辨识系统,找出最佳的阈值。
本公开以麦克风阵列为基础的语音辨识系统与方法的实施范例也可以应用在与机器人的互动上,如图10的范例所示,机器人可以使用现有的语音活动检测技术,来检测用户说话的开始与结束后,再将检测到的用户说话的一段语音信号输入至本公开以麦克风阵列为基础的语音辨识系统,来得到最佳的辨识结果。
图11A与图11B是实验结果的范例示意图,分别说明干扰源位于30度(图11A)与60度(图11B)时,对不同的信噪比,利用以麦克风阵列为基础的语音辨识系统的实施范例所得到的语音辨识率,与所公开的某些实施范例一致。此范例中,以一批在无响室中以麦克风阵列所录的语料来进行此语音辨识系统的测试。实验参数设定如下:以备有两只麦克风的麦克风阵列为例,此两只麦克风间的距离为5公分,麦克风与语者以及干扰源的距离为各为30公分。总共有11位语者进行录音,每人录制50句遥控车词汇,有效的音档总共有547句语料,再分别与30度与60度的噪音干扰源混和成信噪比(SNR)为0、6、12、18dB的信号来进行测试。分别采用循序(linear)搜寻法与期望最大化(EM)算法,来估计可让信心值最大化的阈值τCM以得到语音辨识率,其中,每一测试语句更新一次阈值τ。
在上述测试实验中,从图11A与图11B估计出的阈值可作为噪音角度与信噪比的一个综合指标,此可从图12的范例看出。图12的范例中,横轴坐标代表信噪比,纵轴坐标代表阈值估计的平均结果,实线为干扰源位于60度时的阈值估计的平均结果,虚线为干扰源位于30度时的阈值估计的平均结果。
综上所述,本公开实施例提出一种以麦克风阵列为基础的语音辨识系统与方法。其紧密结合抗噪与语音辨识器成为一体,并利用最大化至少一语音模型与至少一填充模型所计算出来的信心值来抑制语音特征向量中频谱受到噪音干扰的部分,以提高语音辨识率。本公开实施例不需重新录制语料与训练语音模型,可在不同角度与不同能量大小的噪音环境中调整噪音遮罩的参数,可以适用于具有噪音干扰的真实环境中,来提高语音辨识率,也可以在语音进行人机互动时,提供更好的语音界面与用户体验。
以上所述者仅为本公开实施例,当不能依此限定本公开实施的范围。即大凡本发明申请专利范围所作的均等变化与修饰,皆应仍属本发明权利要求书要求保护的范围。
Claims (20)
1.一种以麦克风阵列为基础的语音辨识系统,该系统结合噪音遮蔽模块,以对来自麦克风阵列的输入语音,根据输入的阈值执行噪音消除处理,该系统包含:
至少一语音模型与至少一填充模型,分别接收该噪音遮蔽模块输出的噪音消除后的语音信号;
信心值计算模块,对于该阈值与该噪音消除后的语音信号,利用该至少一语音模型与该至少一填充模型,算出信心值,以及
阈值调整模块,调整该阈值并提供给该噪音遮蔽模块来继续执行该噪音消除处理,以使得该信心值计算模块计算出的信心值达到最大化,然后输出可让该信心值达到最大化的语音辨识结果的信息。
2.如权利要求1所述的语音辨识系统,其中该阈值调整模块使用期望最大化算法来找出该达到最大化的信心值所对应到的阈值。
3.如权利要求1所述的语音辨识系统,其中该处理器经由该至少一语音模型的各模型,比对出该噪音消除后的语音信号与各模型的相似度并各得到一个由该模型所得的分数,且经由该至少一填充模型比对出该噪音消除后的语音信号与至少一非特定的语音模型的相似度,并得到一个经由该填充模型所得的分数,该信心值计算模块将该至少一语音模型中各模型所得分数的函数值减去该至少一填充模型所得分数,得到的差做为计算出的该信心值。
4.如权利要求2所述的语音辨识系统,其中该至少一语音模型包括N个语音模型,该阈值调整模块取该N个语音模型中的前M个分数最高的模型所得分数再给予不同的权重,来找出该达到最大化的信心值所对应到的阈值,N与M皆为正整数,且M≤N。
5.如权利要求2所述的语音辨识系统,其中该至少一语音模型包括多个语音模型,该阈值调整模块取该多个语音模型中各模型被合并成合并后的语音模型所得的分数,来找出达到最大化的信心值所对应到的阈值。
6.如权利要求第2所述的语音辨识系统,其中该至少一语音模型包括多个语音模型,该阈值调整模块取该多个语音模型中各模型所得分数的最大值,来找出该达到最大化的信心值所对应到的阈值。
7.如权利要求1所述的语音辨识系统,该语音辨识系统包含至少一处理器,以完成该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该阈值调整模块所实现的功能。
8.如权利要求1所述的语音辨识系统,其中该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该阈值调整模块以至少一集成电路来实现。
9.一种以麦克风阵列为基础的语音辨识系统,该系统结合噪音遮蔽模块,以对来自麦克风阵列的输入语音,根据输入的阈值的预定范围中的每一给定的阈值执行噪音消除处理,该系统包含:
至少一语音模型与至少一填充模型,以分别接收执行该噪音消除处理后的噪音消除后的语音信号;
信心值计算模块,对于落在该阈值的预定范围中的每一给定的阈值与该噪音消除后的语音信号,利用该至少一语音模型与该至少一填充模型,算出信心值;以及
最大信心值决定模块,从该信心值计算模块所有计算出该信心值中,找出该最大信心值所对应的阈值,然后输出相对应的语音辨识结果的信息。
10.如权利要求9所述的语音辨识系统,该语音辨识系统包含至少一处理器,以完成该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该最大信心值决定模块所实现的功能。
11.如权利要求9所述的语音辨识系统,其中该至少一语音模型、该至少一填充模型、该信心值计算模块、以及该最大信心值决定模块以至少一集成电路来实现。
12.如权利要求9所述的语音辨识系统,该语音辨识系统利用使用循序搜寻法,找出该最大信心值所对应的阈值。
13.一种以麦克风阵列为基础的语音辨识方法,该语音辨识方法以计算机系统来实施,该方法包含下列该计算机系统可执行的动作:
对来自麦克风阵列的输入语音,根据至少一输入的阈值,执行噪音消除处理并将噪音消除后的语音信号分别输出到至少一语音模型与至少一填充模型;
根据该至少一语音模型的各模型所得的分数的信息以及经由该至少一填充模型所得的分数,计算出相对应的信心值;以及
从输入的该至少一阈值的每一阈值中,找出该计算出的每一相对应的信心值中的最大信心值所对应的阈值,然后产生语音辨识结果的信息。
14.如权利要求13所述的语音辨识方法,该方法使用期望最大化算法来找出该最大信心值所对应的该阈值。
15.如权利要求13所述的语音辨识方法,该方法使用循序搜寻法来找出该最大信心值所对应的该阈值。
16.如权利要求13所述的语音辨识方法,该方法对于输入的该至少一阈值的每一阈值,将该至少一语音模型中各模型所得分数的函数值减去该至少一填充模型所得分数,得到的差做为计算出的每一相对应的信心值。
17.如权利要求14所述的语音辨识方法,该方法将该至少一语音模型利用合并模型的方式来增加稳健性。
18.如权利要求14所述的语音辨识方法,其中该至少一语音模型包括N个语音模型,该方法取该N个语音模型中的前M个分数最高的语音模型所得分数再给予不同的权重,来增加稳健性,N与M皆为正整数,且M≤N。
19.如权利要求14所述的语音辨识方法,其中该至少一语音模型包括多个语音模型,该方法取该多个语音模型中的中各模型所得分数的最大值,作为该至少一语音模型中各模型所得分数的函数值。
20.如权利要求15所述的语音辨识方法,该方法将该至少一语音模型利用合并模型的方式来增加稳健性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100126376 | 2011-07-26 | ||
TW100126376A TWI442384B (zh) | 2011-07-26 | 2011-07-26 | 以麥克風陣列為基礎之語音辨識系統與方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102903360A true CN102903360A (zh) | 2013-01-30 |
CN102903360B CN102903360B (zh) | 2014-08-27 |
Family
ID=47575564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110242054.5A Active CN102903360B (zh) | 2011-07-26 | 2011-08-23 | 以麦克风阵列为基础的语音辨识系统与方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8744849B2 (zh) |
CN (1) | CN102903360B (zh) |
TW (1) | TWI442384B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104345649A (zh) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
CN105532017A (zh) * | 2013-03-12 | 2016-04-27 | 谷歌技术控股有限责任公司 | 用于波束形成以获得语音和噪声信号的装置和方法 |
CN105580071A (zh) * | 2013-05-06 | 2016-05-11 | 谷歌技术控股有限责任公司 | 用于训练声音识别模型数据库的方法和装置 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
WO2017000774A1 (zh) * | 2015-06-30 | 2017-01-05 | 芋头科技(杭州)有限公司 | 一种机器人自身音源消除系统 |
CN106796803A (zh) * | 2014-10-14 | 2017-05-31 | 汤姆逊许可公司 | 用于在音频通信中将语音数据与背景数据分离的方法和装置 |
CN110288981A (zh) * | 2019-07-03 | 2019-09-27 | 百度在线网络技术(北京)有限公司 | 用于处理音频数据的方法和装置 |
CN112151080A (zh) * | 2020-10-28 | 2020-12-29 | 成都启英泰伦科技有限公司 | 一种录制和处理训练语料的方法 |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9203489B2 (en) | 2010-05-05 | 2015-12-01 | Google Technology Holdings LLC | Method and precoder information feedback in multi-antenna wireless communication systems |
US8700398B2 (en) * | 2011-11-29 | 2014-04-15 | Nuance Communications, Inc. | Interface for setting confidence thresholds for automatic speech recognition and call steering applications |
US9813262B2 (en) | 2012-12-03 | 2017-11-07 | Google Technology Holdings LLC | Method and apparatus for selectively transmitting data using spatial diversity |
US9591508B2 (en) | 2012-12-20 | 2017-03-07 | Google Technology Holdings LLC | Methods and apparatus for transmitting data between different peer-to-peer communication groups |
US9979531B2 (en) | 2013-01-03 | 2018-05-22 | Google Technology Holdings LLC | Method and apparatus for tuning a communication device for multi band operation |
US10102850B1 (en) * | 2013-02-25 | 2018-10-16 | Amazon Technologies, Inc. | Direction based end-pointing for speech recognition |
US10306389B2 (en) | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
US9312826B2 (en) | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
US9386542B2 (en) | 2013-09-19 | 2016-07-05 | Google Technology Holdings, LLC | Method and apparatus for estimating transmit power of a wireless device |
US9742573B2 (en) * | 2013-10-29 | 2017-08-22 | Cisco Technology, Inc. | Method and apparatus for calibrating multiple microphones |
US9549290B2 (en) | 2013-12-19 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for determining direction information for a wireless device |
US10353066B2 (en) * | 2014-01-24 | 2019-07-16 | Sony Corporation | Camera with radar-based autofocus |
US10446168B2 (en) * | 2014-04-02 | 2019-10-15 | Plantronics, Inc. | Noise level measurement with mobile devices, location services, and environmental response |
US9491007B2 (en) | 2014-04-28 | 2016-11-08 | Google Technology Holdings LLC | Apparatus and method for antenna matching |
US10360904B2 (en) * | 2014-05-09 | 2019-07-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using a garbage model |
US9478847B2 (en) | 2014-06-02 | 2016-10-25 | Google Technology Holdings LLC | Antenna system and method of assembly for a wearable electronic device |
US10276180B2 (en) | 2014-07-21 | 2019-04-30 | Honeywell International Inc. | Audio command adaptive processing system and method |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
US11631421B2 (en) * | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
KR102494139B1 (ko) * | 2015-11-06 | 2023-01-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
US9818425B1 (en) * | 2016-06-17 | 2017-11-14 | Amazon Technologies, Inc. | Parallel output paths for acoustic echo cancellation |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
US10096311B1 (en) | 2017-09-12 | 2018-10-09 | Plantronics, Inc. | Intelligent soundscape adaptation utilizing mobile devices |
KR102446637B1 (ko) * | 2017-12-28 | 2022-09-23 | 삼성전자주식회사 | 음향 출력 시스템 및 음성 처리 방법 |
TWI757797B (zh) * | 2020-07-16 | 2022-03-11 | 宏碁股份有限公司 | 電子裝置與聲音模式調整方法 |
CN111883160B (zh) * | 2020-08-07 | 2024-04-16 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
US20240046946A1 (en) * | 2022-08-05 | 2024-02-08 | Samsung Electronics Co., Ltd. | Speech denoising networks using speech and noise modeling |
CN115862601B (zh) * | 2023-03-01 | 2023-05-02 | 贝壳找房(北京)科技有限公司 | 数据生成方法、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080052074A1 (en) * | 2006-08-25 | 2008-02-28 | Ramesh Ambat Gopinath | System and method for speech separation and multi-talker speech recognition |
CN101206857A (zh) * | 2006-12-19 | 2008-06-25 | 国际商业机器公司 | 用于修改语音处理设置的方法和系统 |
CN101668243A (zh) * | 2008-09-01 | 2010-03-10 | 深圳华为通信技术有限公司 | 一种麦克风阵列及麦克风阵列校准的方法和模块 |
CN102111697A (zh) * | 2009-12-28 | 2011-06-29 | 歌尔声学股份有限公司 | 一种麦克风阵列降噪控制方法及装置 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US6738481B2 (en) | 2001-01-10 | 2004-05-18 | Ericsson Inc. | Noise reduction apparatus and method |
TW200304119A (en) | 2002-03-05 | 2003-09-16 | Aliphcom Inc | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
AUPS270902A0 (en) * | 2002-05-31 | 2002-06-20 | Canon Kabushiki Kaisha | Robust detection and classification of objects in audio using limited training data |
US7103541B2 (en) | 2002-06-27 | 2006-09-05 | Microsoft Corporation | Microphone array signal enhancement using mixture models |
US7050975B2 (en) * | 2002-07-23 | 2006-05-23 | Microsoft Corporation | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes |
US7523034B2 (en) * | 2002-12-13 | 2009-04-21 | International Business Machines Corporation | Adaptation of Compound Gaussian Mixture models |
EP1524650A1 (en) * | 2003-10-06 | 2005-04-20 | Sony International (Europe) GmbH | Confidence measure in a speech recognition system |
JP2005249816A (ja) | 2004-03-01 | 2005-09-15 | Internatl Business Mach Corp <Ibm> | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム |
US20050246165A1 (en) * | 2004-04-29 | 2005-11-03 | Pettinelli Eugene E | System and method for analyzing and improving a discourse engaged in by a number of interacting agents |
US7426464B2 (en) | 2004-07-15 | 2008-09-16 | Bitwave Pte Ltd. | Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition |
CN100535992C (zh) | 2005-11-14 | 2009-09-02 | 北京大学科技开发部 | 小尺度麦克风阵列语音增强系统和方法 |
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
CN101779476B (zh) | 2007-06-13 | 2015-02-25 | 爱利富卡姆公司 | 全向性双麦克风阵列 |
TW200926150A (en) | 2007-12-07 | 2009-06-16 | Univ Nat Chiao Tung | Intelligent voice purification system and its method thereof |
CN101192411B (zh) | 2007-12-27 | 2010-06-02 | 北京中星微电子有限公司 | 大距离麦克风阵列噪声消除的方法和噪声消除系统 |
WO2009124550A1 (en) * | 2008-04-10 | 2009-10-15 | Gn Resound A/S | An audio system with feedback cancellation |
US9202455B2 (en) | 2008-11-24 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced active noise cancellation |
US8140328B2 (en) | 2008-12-01 | 2012-03-20 | At&T Intellectual Property I, L.P. | User intention based on N-best list of recognition hypotheses for utterances in a dialog |
TW201110108A (en) | 2009-09-04 | 2011-03-16 | Chunghwa Telecom Co Ltd | Voice noise elimination method for microphone array |
CN101763855B (zh) | 2009-11-20 | 2012-01-04 | 安徽科大讯飞信息科技股份有限公司 | 语音识别的置信度判决方法及装置 |
US9070360B2 (en) | 2009-12-10 | 2015-06-30 | Microsoft Technology Licensing, Llc | Confidence calibration in automatic speech recognition systems |
US8515758B2 (en) * | 2010-04-14 | 2013-08-20 | Microsoft Corporation | Speech recognition including removal of irrelevant information |
US8234111B2 (en) * | 2010-06-14 | 2012-07-31 | Google Inc. | Speech and noise models for speech recognition |
-
2011
- 2011-07-26 TW TW100126376A patent/TWI442384B/zh active
- 2011-08-23 CN CN201110242054.5A patent/CN102903360B/zh active Active
- 2011-10-12 US US13/271,715 patent/US8744849B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080052074A1 (en) * | 2006-08-25 | 2008-02-28 | Ramesh Ambat Gopinath | System and method for speech separation and multi-talker speech recognition |
CN101206857A (zh) * | 2006-12-19 | 2008-06-25 | 国际商业机器公司 | 用于修改语音处理设置的方法和系统 |
CN101668243A (zh) * | 2008-09-01 | 2010-03-10 | 深圳华为通信技术有限公司 | 一种麦克风阵列及麦克风阵列校准的方法和模块 |
CN102111697A (zh) * | 2009-12-28 | 2011-06-29 | 歌尔声学股份有限公司 | 一种麦克风阵列降噪控制方法及装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105532017B (zh) * | 2013-03-12 | 2018-11-27 | 谷歌技术控股有限责任公司 | 用于波束形成以获得语音和噪声信号的装置和方法 |
CN105532017A (zh) * | 2013-03-12 | 2016-04-27 | 谷歌技术控股有限责任公司 | 用于波束形成以获得语音和噪声信号的装置和方法 |
CN105580071B (zh) * | 2013-05-06 | 2020-08-21 | 谷歌技术控股有限责任公司 | 用于训练声音识别模型数据库的方法和装置 |
CN105580071A (zh) * | 2013-05-06 | 2016-05-11 | 谷歌技术控股有限责任公司 | 用于训练声音识别模型数据库的方法和装置 |
CN104345649A (zh) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN106796803A (zh) * | 2014-10-14 | 2017-05-31 | 汤姆逊许可公司 | 用于在音频通信中将语音数据与背景数据分离的方法和装置 |
CN106796803B (zh) * | 2014-10-14 | 2023-09-19 | 交互数字麦迪逊专利控股公司 | 用于在音频通信中将语音数据与背景数据分离的方法和装置 |
WO2017000774A1 (zh) * | 2015-06-30 | 2017-01-05 | 芋头科技(杭州)有限公司 | 一种机器人自身音源消除系统 |
US10482898B2 (en) | 2015-06-30 | 2019-11-19 | Yutou Technology (Hangzhou) Co., Ltd. | System for robot to eliminate own sound source |
CN110288981A (zh) * | 2019-07-03 | 2019-09-27 | 百度在线网络技术(北京)有限公司 | 用于处理音频数据的方法和装置 |
US11211051B2 (en) | 2019-07-03 | 2021-12-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for processing audio data |
CN112151080A (zh) * | 2020-10-28 | 2020-12-29 | 成都启英泰伦科技有限公司 | 一种录制和处理训练语料的方法 |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
Also Published As
Publication number | Publication date |
---|---|
TW201306024A (zh) | 2013-02-01 |
TWI442384B (zh) | 2014-06-21 |
US8744849B2 (en) | 2014-06-03 |
CN102903360B (zh) | 2014-08-27 |
US20130030803A1 (en) | 2013-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102903360B (zh) | 以麦克风阵列为基础的语音辨识系统与方法 | |
US8577678B2 (en) | Speech recognition system and speech recognizing method | |
Han et al. | Deep neural network based spectral feature mapping for robust speech recognition. | |
US20160284346A1 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
WO2020043160A1 (en) | Method and system for detecting voice activity innoisy conditions | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
US20140278389A1 (en) | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics | |
US20120183149A1 (en) | Sound signal processing apparatus, sound signal processing method, and program | |
WO2015017303A1 (en) | Method and apparatus for adjusting voice recognition processing based on noise characteristics | |
EP2148325B1 (en) | Method for determining the presence of a wanted signal component | |
KR101893768B1 (ko) | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 | |
Higuchi et al. | Adversarial training for data-driven speech enhancement without parallel corpus | |
López-Espejo et al. | Dual-channel spectral weighting for robust speech recognition in mobile devices | |
Lee et al. | Statistical model‐based noise reduction approach for car interior applications to speech recognition | |
CN110689887B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
Pandharipande et al. | An unsupervised frame selection technique for robust emotion recognition in noisy speech | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
Loh et al. | Speech recognition interactive system for vehicle | |
Ichikawa et al. | DOA estimation with local-peak-weighted CSP | |
Park et al. | Spectral energy based voice activity detection for real-time voice interface | |
Hu et al. | Robust speaker's location detection in a vehicle environment using GMM models | |
Dov et al. | Voice activity detection in presence of transients using the scattering transform | |
Wang et al. | Robust Text-independent Speaker Identification in a Time-varying Noisy Environment. | |
Khaled et al. | Neural Network Based Speaker Identification System Using Features Selection | |
Ahmed et al. | Detecting Replay Attack on Voice-Controlled Systems using Small Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |