CN101223574A - 使用话带信号的语音识别装置和方法 - Google Patents
使用话带信号的语音识别装置和方法 Download PDFInfo
- Publication number
- CN101223574A CN101223574A CNA2006800256079A CN200680025607A CN101223574A CN 101223574 A CN101223574 A CN 101223574A CN A2006800256079 A CNA2006800256079 A CN A2006800256079A CN 200680025607 A CN200680025607 A CN 200680025607A CN 101223574 A CN101223574 A CN 101223574A
- Authority
- CN
- China
- Prior art keywords
- log spectrum
- band signal
- signal
- vocal band
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 85
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000019771 cognition Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000003139 buffering effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
提供一种语音识别装置和方法。所述语音识别装置包括:信号处理单元,用于计算话带信号的对数频谱和包含噪声的语音信号的对数频谱,所述话带信号和所述语音信号接收自外部信道;权重计算单元,用于通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值,并利用所述归一化值补偿所述话带信号的对数频谱;特征提取单元,用于从所述话带信号的经补偿的对数频谱中提取特征向量;以及识别单元,用于利用所述特征向量学习识别模型并执行语音识别。
Description
技术领域
本发明涉及使用一种话带信号(voice band signal)的语音识别装置和方法,而且更具体地,涉及这样的语音识别装置及其方法:其通过计算话带信号与包含噪声的语音信号之间的频谱差值、基于所述频谱差值计算相邻帧的每个频带中的平均数、向所述平均数分派通过实验得到的权重从而执行归一化(normalization)并产生归一化值、借助利用所述归一化值补偿所述话带信号来提取特征向量、以及学习(learn)所述特征向量的识别模型来识别语音。
背景技术
随着有线/无需通信的发展,语音识别技术已经备受关注。语音识别技术的优点在于,其能够为用户提供更方便的接口。
为了在现实生活中利用语音识别技术,必须减少叠加在语音中的干扰信号的影响。
干扰信号是可能叠加在作为实际识别目标的语音中的每一种信号。干扰信号的示例包括由环境噪声导致的失真、通信线路失真、回声、背景音乐、他人的语音等等。由环境噪声导致的失真是显著降低语音识别性能的因素。因而,已经积极地开展关于补偿由环境噪声导致的失真的研究。
作为一种用于补偿由环境噪声导致的失真的方法,韩国专利登记号No.0446626公开了一种噪声抑制方法。根据韩国专利登记号No.0446626,依次使用独立分量分析(Independent Component Analysis,ICA)和谱相减法来抑制语音信号中的噪声。
作为另一种方法,韩国专利公布号No.0442825公开了一种用于语音识别的环境补偿方法。根据韩国专利登记号No.0442825,利用环境补偿方法来补偿被噪声或线路失真污染的语音的频谱,以获得与实际语音频谱接近的频谱。
然而,因为使用ICA来控制噪声信号,所以韩国专利公布号No.0446626需要大量的计算,而且在噪声的类型与语音类似时难以分离信号。
韩国专利登记号No.0442825使用平均补偿方法,其没有通过估计代表噪声或线路失真的环境参数来对任意环境进行优化。因而,对具体环境的适应性较差。
此外,韩国专利登记号No.0442825在利用相对于被污染的语音信号的环境参数来补偿失真语音信号的过程中需要大量的计算。因而,难以在资源有限的实时小型设备(例如,小型移动终端)中操作。
发明内容
技术问题
因而,本发明的目的是提供一种这样的语音识别装置及其方法:其通过计算话带信号与包含噪声的语音信号之间的频谱差值、基于所述频谱差值计算相邻帧的每个频带中的平均数、向所述平均数分派通过实验得到的权重从而执行归一化并产生归一化值、借助利用所述归一化值补偿所述话带信号来提取特征向量、以及学习所述特征向量的识别模型来识别语音。
技术方案
根据本发明的一个方面,提供一种语音识别装置,包括:信号处理单元,用于计算话带信号的对数频谱和包含噪声的语音信号的对数频谱,所述话带信号和所述语音信号接收自外部信道;权重计算单元,用于通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值,并利用所述归一化值补偿所述话带信号的对数频谱;特征提取单元,用于从所述话带信号的经补偿的对数频谱中提取特征向量;以及识别单元,用于利用所述特征向量学习识别模型并执行语音识别。
根据本发明的另一个方面,提供一种语音识别方法,包括步骤:a)计算话带信号的对数频谱和包含噪声的语音信号的对数频谱,所述话带信号和所述语音信号接收自外部信道;b)通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值,并利用所述归一化值补偿所述话带信号的对数频谱;c)从所述话带信号的经补偿的对数频谱中提取特征向量;以及d)利用所述特征向量学习识别模型并执行语音识别。
有益效果
根据本发明的语音识别装置和方法通过利用话带信号,即便在严重的噪声环境中也能够正确地识别用户的命令。
此外,由于抑制环境噪声仅需要少量的计算,因此本发明可以应用于适合于例如个人数字助理(PDA)的使用有限资源的小型移动设备的识别装置。
更进一步,本发明可以提供便于不能自由运用他们的双手的伤残人士的可替代接口。
附图说明
通过下面参照附图对优选实施例的描述,本发明的以上和其它目的和特征将变得显而易见,其中:
图1是根据本发明的实施例的使用话带信号的语音识别装置的框图;
图2是示出图1的权重计算单元的操作的流程图;以及
图3是示出根据本发明的实施例的使用话带信号的语音识别方法的流程图。
具体实施方式
通过下面参照附图对实施例的描述,本发明的其它目的和特征将变得显而易见。
图1是根据本发明的实施例的使用话带信号的语音识别装置的框图。
参照图1,所述语音识别装置包括信号处理单元10、权重计算单元20、特征提取单元30、以及识别单元40。
信号处理单元10接收来自每个信道的话带信号和包含噪声的语音信号,并计算所接收信号的对数频谱(log spectrum)。也即,信号处理单元10以预定时间间隔对每个帧执行快速傅立叶变换(FFT)以将所接收的信号转换为频域信号,并利用滤波器组计算话带信号的对数频谱和语音信号的对数频谱。由于信号处理单元10中计算话带信号的对数频谱和语音信号的对数频谱的过程是公知的,将略去其详细描述。
信号处理单元10向权重计算单元20提供话带信号的对数频谱和语音信号的对数频谱。
权重计算单元20从信号处理单元10接收话带信号的对数频谱和语音信号的对数频谱,并计算用于加强话带信号的对数频谱的归一化值。
权重计算单元20补偿具有比语音信号低的精确度(definition)的话带信号。也即,权重计算单元20补偿其精确度比语音信号低的话带信号,因为即便没有因为环境噪声而造成失真,但是在话带信号通过语音频带之后回声也未被反射。
此外,权重计算单元20将计算得到的权重应用于话带信号的对数频谱,并向特征提取单元30提供经补偿的对数频谱。
特征提取单元30提取语音识别装置的学习所必需的特征向量。特征提取单元30可以使用美尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)、线性预测倒谱系数(LPCC)、感知线性预测倒谱系数(PLPCC)等等来提取语音的特征。
识别单元40利用所提取的特征向量来学习识别模型。识别模型的示例包括隐马尔科夫模型(HMM)、动态时间规整(DTW)、以及神经网络。
识别单元40存储已经经历利用识别模型的学习过程的特征向量作为模型参数。识别单元40利用模型参数测量与之前学习的模型的相似度,并执行所接收信号的语音识别。
图2是示出图1的权重计算单元20的操作的流程图。
参照图2,在步骤S21中权重计算单元20从信号处理单元10接收话带信号的对数频谱(X)和语音信号的对数频谱(Y),并计算频谱差值(Z)。频谱差值(Z)是话带信号的对数频谱(X)与语音信号的对数频谱(Y)之间的幅度差值,而且表示为公式1。
Z=X-Y 公式1
在步骤S22中,权重计算单元20缓冲频谱差值以临时存储该频谱差值,并计算N个相邻帧(例如,N=3-5)的每个频带中的局部移动平均数。利用公式2来计算局部移动平均数Db t。
其中b代表频带索引,t代表作为帧索引的时间,而N代表用于计算局部移动平均数的缓冲帧的数量。
利用局部运动平均数,权重计算单元20避免话带信号的对数频谱突然改变。
在步骤S23中,权重计算单元20通过向局部移动平均数(Db t)分派权重来计算归一化值。所述权重是与信噪比(SNR)成比例的值。
通过实验得到与SNR成比例的权重。优选的是,所述权重小于0.1(10%),以避免从信号处理单元10提供的原始话带信号的对数频谱的严重失真。
其中b代表频带索引,Db代表频带b处的局部移动平均数,而Wb代表频带b处的权重。
权重计算单元20向特征提取单元30提供补偿频谱。所述补偿频谱是其中利用归一化值补偿了从信号处理单元10提供的原始话带信号的对数频谱的频谱。
图3是示出根据本发明的实施例的使用话带信号的语音识别方法的流程图。
参照图3,语音识别装置如下使用话带信号来补偿由环境噪声导致的失真。
在步骤S100中,语音识别装置接收来自外部信道的话带信号和语音信号,并计算话带信号的对数频谱和语音信号的对数频谱。
在步骤S101中,语音识别装置计算话带信号的对数频谱与语音信号的对数频谱之间的频谱差值。语音识别装置缓冲计算得到的频谱差值。在步骤S102中,语音识别装置存储所缓冲的频谱差值,并计算N个相邻帧的每个频带中的局部移动平均数。
在步骤S103中,语音识别装置通过根据SNR向局部移动平均数分派权重来计算归一化值。在步骤S104中,语音识别装置通过利用归一化值补偿计算得到的原始话带信号的对数频谱来产生补偿频谱。
在步骤S105中,语音识别装置从补偿频谱中提取特征向量。在步骤S106中,语音识别装置利用所提取的特征向量学习识别模型,并执行语音识别。
可以将根据本发明的实施例的方法实现为程序并存储在能够执行该程序的计算机可读记录介质中。计算机可读记录介质的示例包括CD-ROM、RAM、ROM、软盘、硬盘、磁光盘等等。
虽然已经参照某些优选实施例描述了本发明,但是本领域技术人员应当理解,可以作出各种变更和修改而不背离由所附权利要求书限定的本发明的范围。
对相关申请的交叉引用
本申请包含与分别于2005年12月8日和2006年6月2日向韩国知识产权局提交的韩国专利申请No.2005-119803和2006-50045有关的主题,其全部内容通过参照而被合并于此。
Claims (8)
1.一种语音识别装置,包括:
信号处理单元,用于计算话带信号的对数频谱和包含噪声的语音信号的对数频谱,所述话带信号和所述语音信号接收自外部信道;
权重计算单元,用于通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值,并利用所述归一化值补偿所述话带信号的对数频谱;
特征提取单元,用于从所述话带信号的经补偿的对数频谱中提取特征向量;以及
识别单元,用于利用所述特征向量学习识别模型,并执行语音识别。
2.如权利要求1所述的语音识别装置,其中,所述信号处理单元对所述话带信号和所述语音信号执行快速傅立叶变换FFT,并通过利用滤波器组来计算所述话带信号的对数频谱和所述语音信号的对数频谱。
3.如权利要求1所述的语音识别装置,其中,所述权重计算单元计算所述话带信号的对数频谱与所述语音信号的对数频谱之间的差值,缓冲计算得到的差值,计算N个相邻帧的每个频带中的局部移动平均数,其中N为正整数,通过根据信噪比SNR向所述局部移动平均数分派权重来计算归一化值,并利用所述归一化值补偿所述话带信号的对数频谱。
4.如权利要求3所述的语音识别装置,其中,所述权重计算单元向所述局部移动平均数分派小于10%的权重。
5.一种语音识别方法,包括步骤:
a)计算话带信号的对数频谱和包含噪声的语音信号的对数频谱,所述话带信号和所述语音信号接收自外部信道;
b)通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值,并利用所述归一化值补偿所述话带信号的对数频谱;
c)从所述话带信号的经补偿的对数频谱中提取特征向量;以及
d)利用所述特征向量学习识别模型,并执行语音识别。
6.如权利要求5所述的语音识别方法,其中,所述步骤a)包括步骤:
对所述话带信号和所述语音信号执行快速傅立叶变换FFT;以及
通过利用滤波器组来计算所述话带信号的对数频谱和所述语音信号的对数频谱。
7.如权利要求5所述的语音识别方法,其中,所述步骤b)包括步骤:
计算所述话带信号的对数频谱与所述语音信号的对数频谱之间的差值;
缓冲计算得到的差值;
计算N个相邻帧的每个频带中的局部移动平均数,其中N为正整数;
通过根据信噪比SNR向所述局部移动平均数分派权重来计算所述归一化值;以及
利用所述归一化值补偿所述话带信号的对数频谱。
8.如权利要求7所述的语音识别方法,其中,在步骤b)中向所述局部移动平均数分派小于10%的权重。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20050119803 | 2005-12-08 | ||
KR1020050119803 | 2005-12-08 | ||
KR10-2005-0119803 | 2005-12-08 | ||
KR10-2006-0050045 | 2006-06-02 | ||
KR1020060050045 | 2006-06-02 | ||
KR1020060050045A KR100738341B1 (ko) | 2005-12-08 | 2006-06-02 | 성대신호를 이용한 음성인식 장치 및 그 방법 |
PCT/KR2006/005154 WO2007066933A1 (en) | 2005-12-08 | 2006-12-01 | Voice recognition apparatus and method using vocal band signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101223574A true CN101223574A (zh) | 2008-07-16 |
CN101223574B CN101223574B (zh) | 2011-06-29 |
Family
ID=38357069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800256079A Expired - Fee Related CN101223574B (zh) | 2005-12-08 | 2006-12-01 | 使用话带信号的语音识别装置和方法 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR100738341B1 (zh) |
CN (1) | CN101223574B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
CN104392719A (zh) * | 2014-11-26 | 2015-03-04 | 河海大学 | 一种用于语音识别系统的中心子带模型自适应方法 |
CN106033669A (zh) * | 2015-03-18 | 2016-10-19 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101610161B1 (ko) * | 2014-11-26 | 2016-04-08 | 현대자동차 주식회사 | 음성인식 시스템 및 그 방법 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
JPH10192854A (ja) * | 1996-12-27 | 1998-07-28 | Tokico Ltd | 電解水生成装置 |
KR19990043759A (ko) * | 1997-11-29 | 1999-06-15 | 정선종 | 골도 마이크를 이용한 음성 인식 방법 |
US6122610A (en) * | 1998-09-23 | 2000-09-19 | Verance Corporation | Noise suppression for low bitrate speech coder |
KR20000073638A (ko) * | 1999-05-13 | 2000-12-05 | 김종찬 | 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법 |
US6766292B1 (en) | 2000-03-28 | 2004-07-20 | Tellabs Operations, Inc. | Relative noise ratio weighting techniques for adaptive noise cancellation |
KR20030010432A (ko) * | 2001-07-28 | 2003-02-05 | 주식회사 엑스텔테크놀러지 | 잡음환경에서의 음성인식장치 |
CN1162838C (zh) * | 2002-07-12 | 2004-08-18 | 清华大学 | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法 |
KR100504982B1 (ko) * | 2002-07-25 | 2005-08-01 | (주) 메카트론 | 환경 적응형 다중 음성인식 장치 및 음성인식 방법 |
KR20040073145A (ko) * | 2003-02-13 | 2004-08-19 | 엘지전자 주식회사 | 음성인식기의 성능 향상 방법 |
KR100571427B1 (ko) * | 2003-11-27 | 2006-04-17 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 |
KR100639968B1 (ko) * | 2004-11-04 | 2006-11-01 | 한국전자통신연구원 | 음성 인식 장치 및 그 방법 |
-
2006
- 2006-06-02 KR KR1020060050045A patent/KR100738341B1/ko not_active IP Right Cessation
- 2006-12-01 CN CN2006800256079A patent/CN101223574B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
CN104392719A (zh) * | 2014-11-26 | 2015-03-04 | 河海大学 | 一种用于语音识别系统的中心子带模型自适应方法 |
CN104392719B (zh) * | 2014-11-26 | 2017-09-19 | 河海大学 | 一种用于语音识别系统的中心子带模型自适应方法 |
CN106033669A (zh) * | 2015-03-18 | 2016-10-19 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101223574B (zh) | 2011-06-29 |
KR20070061134A (ko) | 2007-06-13 |
KR100738341B1 (ko) | 2007-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mak et al. | A study of voice activity detection techniques for NIST speaker recognition evaluations | |
Ming et al. | Robust speaker recognition in noisy conditions | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
Biswas et al. | Admissible wavelet packet features based on human inner ear frequency response for Hindi consonant recognition | |
Hirsch et al. | A new approach for the adaptation of HMMs to reverberation and background noise | |
CN102436809B (zh) | 英语口语机考系统中网络语音识别方法 | |
CN1138386A (zh) | 分布式话音识别系统 | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
US6182036B1 (en) | Method of extracting features in a voice recognition system | |
JP2745535B2 (ja) | 音声認識装置 | |
KR101699252B1 (ko) | 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치 | |
CN101223574B (zh) | 使用话带信号的语音识别装置和方法 | |
Rao et al. | Robust speaker recognition on mobile devices | |
Lee et al. | Statistical model‐based noise reduction approach for car interior applications to speech recognition | |
Sarikaya et al. | Analysis of the root-cepstrum for acoustic modeling and fast decoding in speech recognition. | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
Zealouk et al. | Amazigh digits speech recognition system under noise car environment | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
Claes et al. | SNR-normalisation for robust speech recognition | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
US7260528B2 (en) | System and method for obtaining reliable speech recognition coefficients in noisy environment | |
Chen et al. | Robust MFCCs derived from differentiated power spectrum | |
Barai et al. | VQ/GMM-based speaker identification with emphasis on language dependency | |
Sakka et al. | Using geometric spectral subtraction approach for feature extraction for DSR front-end Arabic system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110629 Termination date: 20131201 |