CN1839427B - 信号分析装置、信号处理装置、语音识别装置和电子设备 - Google Patents
信号分析装置、信号处理装置、语音识别装置和电子设备 Download PDFInfo
- Publication number
- CN1839427B CN1839427B CN2004800241642A CN200480024164A CN1839427B CN 1839427 B CN1839427 B CN 1839427B CN 2004800241642 A CN2004800241642 A CN 2004800241642A CN 200480024164 A CN200480024164 A CN 200480024164A CN 1839427 B CN1839427 B CN 1839427B
- Authority
- CN
- China
- Prior art keywords
- level
- mentioned
- frequency band
- input signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 106
- 238000012545 processing Methods 0.000 title claims description 47
- 238000010606 normalization Methods 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 101
- 230000008569 process Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 206010038743 Restlessness Diseases 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 description 42
- 238000001228 spectrum Methods 0.000 description 39
- 238000001514 detection method Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000011551 log transformation method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
信号分析装置具备:频带分割单元,用来将输入信号分割为多个频带的信号;频带能量提取单元,用来针对被分割成各个频带的输入信号提取各个频带的频带能量;标准化单元,用来按每个频带标准化提取出来的频带能量,求取各个频带的标准化频带能量。利用这种结构,即使在高噪音环境中也能够获得稳定的语音识别精度。另外,在输入了完全没有噪声区间的语音的情况下或者在发声过程中噪声电平逐渐变化的情况下也能够获得稳定的语音识别精度。
Description
技术领域
本发明涉及对输入的语音·音响信号进行分析的信号分析装置、信号处理装置和使用信号分析装置的语音识别装置。本发明还涉及在计算机中执行此类处理的信号分析程序、信号处理程序和语音识别程序。本发明还涉及记录了此类计算机程序的记录介质。本发明还涉及搭载了此类信号分析装置的电子设备。
背景技术
语音识别所使用的信号分析方法从信号输入中将数十毫秒左右的区间以几毫秒至数十毫秒左右的间隔错开提取信号作为分析帧,根据各分析帧中输入信号的波形计算音响参数,作为音响参数的时间序列。
在对特定说话者的语音识别中,将所取得的时间序列的音响参数与预先登录的音响参数的时间序列模式(标准模式)进行对照,将与输入最相似的标准模式作为识别结果。
在对不确定的说话者的语音识别中,预先根据大量的数据计算音响参数,求取按每个语音单位计算出来的音响参数的统计量,作成概率音响模型。同时,将每个语音单位的该概率音响模型连接起来,作成词语模型或文章模型。对于根据输入信号分析出来的音响参数,针对上述词语模型或文章模型计算并比较其概率似然,将概率似然最高的词语模型或文章模型作为识别结果。这里所说的语音单位使用例如音素、音节、或单词等单位。
依照此种方式为进行语音识别而求取音响参数的信号分析技术是决定识别性能的重要技术。因此,必须使用不易受噪音或电路的电路特性等失真的影响的信号分析技术。非专利文献1中出示了作为这样的信号分析技术而使用的、将频带能量变换为倒谱系数的MFCC(MelFrequency Cepstrum Coefficient:美尔频率倒谱系数)。
图1是表示求取MFCC所需步骤的流程图。下面使用图1说明MFCC的分析方法。在MFCC中,首先按每个分析帧向信号分析器输入语音波形(步骤S101),施加海明窗(Hamming window)函数运算,以使在帧分隔区间的两端不产生急剧变化(步骤S102)。接着,使用FFT(FastFourier Transform:快速傅立叶变换)求取各帧的线性频率数轴上的能量(步骤S103)。该线性频率数轴上的能量按mel频率数轴上等分出来的每个频带汇总起来,变换为频带能量(步骤S104)。变换出来的频带能量按每个频带进行对数变换(步骤S105)。接着,通过对各频带的幂进行余弦变换,求得MFCC(步骤S106)。所求得的MFCC从信号分析器输出(步骤S107)。依照此种方式在美尔频率数轴上等分求得的倒谱系数称为美尔频率倒谱系数(MFCC)。美尔频率是以人的听觉特性为基准的频率单位,低频下的分辩能力比高频下的分辩能力细微。因此,已知如果在次数相同的倒谱的情况下,与使用了线性频率数轴的情况相比,MFCC的语音识别性能更优越。
此外,在本说明书中,有时候将步骤S101~步骤S105称为频率分析步骤(步骤S201),将步骤S106至步骤S107称为参数变换步骤(步骤S202)。
但是,实际的语音识别是在有家庭、办公室、汽车、室外等背景噪音、或者设备自身产生的冷却风扇等噪音、以电磁形式混入到波形中的加法式噪音等加法性噪音的情况下进行的。进一步,还存在由话筒或语音传递电路等的传递特性、说话者面对话筒时的距离和角度不同而造成的音响特性的变化等积性失真。MFCC容易受到这些噪音或失真的影响。因此,在使用了MFCC的语音识别中,如果在噪音很大的环境下使用,或者采用电路特性的失真很大的使用方法时,存在着识别性能大幅度下降的问题。为了降低这些噪音或失真的影响,使用下面描述的信号分析方法。
[SS法、及其简化手法]
非专利文献2中,公开了谱减法(SS:spectral subtraction:差谱),用以减少加法性噪音的影响。这一方法是对输入语音信号进行频率分析后求取输入的振幅频谱或幂(2乘方)频谱,在噪声区间内对推断出来的推断噪音频谱乘以预定的系数α,从输入频谱中减去乘以该频谱减法系数α之后的推断噪音频谱,由此抑制噪声成分的方法。该方法中,为了提高语音品质,需要分割成多个频带进行处理。
另外,专利文献1中公开了一种对该SS法加以改进、减少频带分割而能抑制噪声成分的方法。
[CMS法]
非专利文献1中公开了CMS法(Cepstrum Mean Subtraction:倒谱均值减除),用以降低积性失真的影响。该方法也称为CMN法(Cepstrum Mean Normalization:倒谱均值归一化)。该方法基于以下假定:积性失真可通过所发出的语音的倒谱的长时间平均获得。具体地,从倒谱系数中减去输入语音的倒谱系数的平均值,能够降低电路或话筒等基于音响系特性的失真的影响。这与减去倒谱的余弦变换——对数频谱的失真是等价的。
但是,在实际的输入语音中,语音的声源位置与噪音的声源位置不同。由于语音区间与噪声区间中应该标准化的电路特性不同,将语音区间的平均倒谱应用于噪声区间的话,会有导致噪声区间的倒谱不稳定,给识别性能带来不良影响的问题。因此,正在研究可以应用于噪声区间的CMS法的改进方法。
[E-CMN法]
非专利文献3和专利文献2中提出了作为CMS法的改进方法的E-CMN法。E-CMN法分别求取语音区间的倒谱平均和非语音区间的倒谱平均,在语音区间和非语音区间分别进行标准化处理。使用这一方法,能够降低识别错误率。
[语音检测]
上述SS法、其简化手法、E-CMN法中的每一个方法都需要语音检测,以便区分语音区间和非语音区间。在移动电话中使用的语音通信标准等中公开了语音检测技术的标准方法。语音检测一般是基于输入信号在短时间内的能量变化、频谱形状的变化等将输入信号从时间上分割为语音区间和噪声区间来完成的。
专利文献1:特开2001-228893号公报
专利文献2:特开平10-254494号公报
非专利文献1:鹿野清宏等编著,《语音识别系统》第1版,株式会社欧姆社(Ohmsha,Ltd.),平成13年5月15日,p.13-15
非专利文献2:S.Boll,《Suppression of acousticnoise inspeech using spectral subtraction》,IEEE Trans.ASSP,1979,vol.ASSP-27,no.2,pp.113-120
非专利文献3:庄境诚,另2人,《倒谱均值标准化法和基于HMM合成法的模型适应化法E-CMN/PMC和在汽车内语音识别中的应用》,电子信息通信学会论文杂志,社团法人电子信息通信学会,1997,第J80-D-II卷,第10号,p.2636-2644
发明内容
但是,上述信号分析方法及这些分析方法中使用的语音识别方法中,存在以下问题。
[与SS法及其简化手法相关的问题点]
由于SS法是在语音区间中减去噪声区间的频谱,因此在推断噪声少的环境中的输入语音时效果优异。但是,在噪声区间中,虽然噪声的功率变小,但噪声的频谱形状本身没有变化。在基于当前主流统计进行语音识别时,如果输入了与预先统计式习得的噪声不同的频谱形状的噪声,噪声区间的对照精度就会下降。因此,由于错误地将噪声区间与语音区间进行了对照,整体上难以获得高的识别精度。为了防止这种识别精度的下降,需要有某种适应式频谱校正。该方法之一是像E-CMN法那样对噪声频谱进行标准化的方法。但是,E-CMN法存在以下问题。
[与E-CMN法相关的问题点]
如上所述,E-CMN法中,由于在语音区间和噪声区间中独立地求取倒谱平均,能够更准确地将电路特性标准化。特别是,借助于该方法,能够将噪声区间的频谱形状平坦化,因此,能够改善SS法所不能解决的噪声区间的对照精度。
但是,语音区间与噪声区间的判断依赖于语音区间的检测精度。因此,在高噪音环境中,语音区间的分割精度下降,根据错误的倒谱平均值进行标准化,由此,存在有给识别精度带来不良影响的问题。下面叙述语音检测的问题点。
[噪声区间的长度]
SS法或E-CMN法中,噪声频谱的推断是在检测语音区间时针对判定为噪声区间的区间进行的。但是,在实际使用信号分析装置的环境中,在装置开始动作之后立即发出语音的情况下,无法获得推断噪声频谱所需的充分的噪声区间长度。因此,存在着无法进行噪声适应,或者适应了错误的噪声的问题。
[语音区间检测的困难性]
在安静的环境中,能够容易地将语音区间与噪音区间分离。因此,如果利用语音功率的时间变化,则发声区间的检测比较容易。但是,在高杂音环境中,在低SN比的情况下,语音区间的起点或终点的精度下降,因而即使在发声区间内,除了语音功率较大的一部分区间外,语音的大部分都被噪声淹没。因此,语音区间与非语音区间的差别变得模糊,语音区间的检测变得困难。
对这种低SN比语音的发声区间进行频率分析,观察对数变换后的频谱,在语音功率占优势的频带中,表现为语音频谱。另一方面,在其他的噪声功率占优势的频带中,表现为噪声频谱。即,即使在语音的发声区间中,因频带不同有时候也会表现为噪声。因此,按照现有的方法,将全部频带统一进行语音区间与噪声区间分离的方法中,难以正确地求取受到电路失真影响的语音的频谱平均。反之,在不能检测语音区间的情况下,原来的语音区间也被当作噪声区间处理。因此,甚至也无法正确地求取噪声的频谱平均。
因此,本发明的目的在于提供即使在高噪音环境中也具备高语音识别精度的信号分析装置和信号处理装置。
另外,本发明的另一目的在于提供在输入了完全没有噪声区间的语音的情况下或者在发声过程中噪声电平逐渐变化的情况下也能够获得稳定的语音识别精度的信号分析装置和信号处理装置。
本发明的再一个目的在于提供不容易受噪声和音响特性失真影响的语音识别装置。
本发明的再一个目的在于提供作出了改进从而提高了在低SN比的情况下的语音识别精度的语音识别装置。
本发明的再一个目的在于提供搭载了这种语音识别装置的电子设备。
本发明的再一个目的在于提供作出了改进从而能够进行不容易受噪声和音响特性失真影响的语音识别的信号分析程序、信号处理程序和语音识别程序。
本发明的再一个目的在于提供作出了改进从而提高了在低SN比的情况下的语音识别精度的信号分析程序、信号处理程序和语音识别程序。
本发明的再一个目的在于提供记录了这种程序的记录介质。
为了解决上述课题,本发明的信号分析装置具备:频带分割单元,用来将输入信号分割为多个频带的信号;频带能量提取单元,用来针对被分割成上述各频带的输入信号提取各个频带的频带能量;标准化单元,用来按每个频带标准化上述提取的频带能量,求取各个频带的标准化频带能量。
利用这种结构,所提取的频带能量按每个频带标准化。其结果是,即使不能明确地检测语音区间也能够进行信号分析,因此,能够避免语音区间的检测错误。另外,能够避免在噪声区间短的情况下产生的无法进行噪声适应的问题,或者适应了错误的噪声的问题。
这里所说的标准化是指,减少由于噪声种类或大小、电路特性、话筒的输入灵敏度等环境因素而产生的输入信号的能量分布的移动量。具体地,标准化是通过减除信号的能量分布的平均值从而使直流成分衰减的方法、减除环境噪声值的方法等进行的。另外,在本说明书中,标准化也包括对输入电平的能量分布较宽一方进行控制。
本发明的信号分析装置中,上述标准化单元最好由低截止滤波器构成,其根据按每个上述频带提取的频带能量使直流成分衰减。利用这种结构,包含输入信号的直流成分使低频成分衰减,因此,能够以最简单的结构进行标准化。
另外,最好是,本发明的信号分析装置具备电平计算单元,用来根据上述提取的频带能量的序列计算各个频带的条件平均值,作为第1电平,上述标准化单元从上述按每个频带提取的频带能量中减除将同一频带的第1电平乘以预定系数所得的值。
利用这种结构,使用计算出来的第1电平将输入信号的相应频带能量进行标准化。即,能够按每个频带进行更准确的标准化。
此外,频带能量的平均值不限于信号电平和噪声电平这2者,根据信号分析装置的使用环境和用途,可以分类为噪声A的电平与噪声B的电平、或者特定信号X的电平与特定信号Y的电平等2个或3个以上的电平。本说明书中,将这些多个电平中成为基准的电平称为第1电平,其他电平称为第2电平、第3电平等。此外,本说明书中,主要使用噪声电平作为第1电平,用语音电平作为第2电平。
噪声电平表示输入频带能量中被认为表现为噪声的相对低的能量所分布的集合的平均,语音电平表示同样被认为表现为语音的相对高的能量所分布的集合的平均。本说明书中,有时候将类似这些噪声电平或语音电平这样按照能量高低条件分割出来的能量的平均称为“条件平均”。
在本发明的信号分析装置中,在采用噪声和语音这类条件的情况下,在能量分布中,对能量相对低的集合和高的集合不是进行离散式区分,而最好是连续处理中间输入范围。即,最好是不检测语音区间,而是按每个帧根据其频带能量大小以连续值判断是语音还是噪声。
另外,最好是,在上述信号分析装置中,上述电平计算单元除了计算上述第1电平,还从上述提取出来的频带能量序列中将不同于第1电平的各个频带的条件平均值的至少1个计算出来作为第2电平,上述标准化单元从上述按每个频带提取的频带能量中减除将同一频带的第1电平和第2电平分别乘以预定系数所得的值。
利用这种结构,使用计算出来的第1电平和第2电平将频带能量标准化,使用计算出来的语音电平决定从频带能量中的减除量,因此,有可能实现更准确的标准化。此外,不同于第1电平的各个频带的条件平均值不限于1个,也可以有多个。
最好是,上述信号分析装置进一步标准化系数取得单元,用来根据上述频带能量的值求取1个或多个标准化系数,上述标准化单元从上述按各个频带提取的频带能量中减除将同一频带的上述第1电平或上述第1电平和多个电平乘以上述标准化系数所得的值。
利用这种结构,能够求取与1个或多个频带各自的条件平均值相对应的、与频带能量值相应的1个或多个标准化系数。其结果是,能够反映1个或多个条件平均值,调整减除量,因此,有可能实现更准确的标准化。
本发明的信号处理装置是一种依次进行信号标准化的信号处理装置,其具备:电平计算单元,用来根据输入信号更新并存储第1电平;标准化单元,用来从输入信号中减除将上述第1电平乘以预定系数所得的值;更新系数取得单元,用来根据上述第1电平与上述输入信号的差求取更新系数。上述电平计算单元使用上述更新系数使第1电平接近输入信号,由此将第1电平作为输入信号的条件平均值。
利用这种结构,对于例如特定频带的输入信号等一元输入信号也可以在标准化后进行信号处理。即,根据输入能量的高低等检测出输入能量的能量分布宽度,求取更新系数,使第1电平接近输入信号,由此能够抑制输入信号的能量分布随环境不同而产生的波动。
最好是,上述信号处理装置具备标准化系数取得单元,用来基于上述第1电平与上述输入信号的差取得标准化系数。上述标准化单元从输入信号中减除将上述第1电平乘以标准化系数后所得的值,根据输入电平控制减除量。
另外,最好是在上述信号处理装置中由上述电平计算单元根据输入信号更新并存储多个电平。上述标准化单元从输入信号中减除将上述多个电平分别乘以预定系数后所得的值。上述更新系数取得单元根据上述第1电平与上述输入信号的差求取多个电平的更新系数。上述电平计算单元利用上述多个电平的更新系数更新上述求得的多个电平,执行与输入分布相适应的标准化。
进一步,最好是在上述信号处理装置中由上述电平计算单元根据输入信号更新并存储多个电平。上述标准化单元从输入信号中减除将上述多个电平分别乘以预定系数后所得的值。上述更新系数取得单元根据上述第1电平与上述输入信号的差求取多个电平的更新系数。上述标准化系数取得单元求取与多个电平相适应的多个标准化系数。上述标准化单元从输入信号中减除将分别与上述多个电平相对应的标准化系数乘以各个电平后所得的值,执行与输入电平相适应的标准化。
在上述信号分析装置中,各频带的电平计算单元和标准化单元也可以采用使用上述信号分析装置的结构。即,可以使用本发明的信号处理装置作为各频带的信号处理单元。
上述信号分析装置最好是在属于低频的频带和属于高频的频带中将预定系数设定为不同的值进行处理。利用这种结构,像噪声区域和语音区域这样信号的能量分布随频率而不同的情况下,能够正确地标准化。
上述信号分析装置最好是将从各个时刻的输入信号中获取的各个频带的频带能量作为对数能量进行处理。如果以对数进行标准化,就能够去除电路特性导致的失真的影响。
本发明的语音识别装置具备:上述信号分析装置;参数变换单元,用来根据按照从信号分析装置取得的每个频带进行标准化后的频带能量求取音响参数;语音识别部,使用上述求得的音响参数识别输入信号中包含的语音。使用本发明的信号分析装置,能够获取不易受噪声或电路特性失真影响的音响参数,因此,将其用于语音识别装置时,能够提高语音识别精度。
上述语音识别装置最好是在MFCC(Mel Frequency CepstrumCoefficient:美尔频率倒谱系数)参数的提取过程中执行各个频带能量的标准化。利用这种结构,执行从被标准化后的频带能量向倒谱参数的线性变换,由此即可求得标准化后的倒谱系数。
遵循本发明的另外一个方面的用于在计算机中执行的信号分析程序具备:频带分割步骤,用来将输入信号分割为多个频带的信号;频带能量提取步骤,用来针对被分割成上述各频带的输入信号提取各个频带的频带能量;标准化步骤,用来按每个频带标准化上述提取的频带能量,求取各个频带的标准化频带能量。
遵循本发明的另外一个方面的用于在计算机中依次执行信号标准化的信号分析程序具备:电平计算步骤,用来根据输入信号更新并存储第1电平;标准化步骤,用来从输入信号中减除将上述第1电平乘以预定系数所得的值;更新系数取得步骤,用来根据上述第1电平与上述输入信号的差求取更新系数。上述电平计算单元步骤,使用上述更新系数使第1电平接近输入信号,由此将第1电平作为输入信号的条件平均值。
遵循本发明的另外一个方面的用于在计算机中执行语音识别的语音识别程序具备:频带分割步骤,用来将输入信号分割为多个频带的信号;频带能量提取步骤,用来针对被分割成上述各频带的输入信号提取各个频带的频带能量;标准化步骤,用来按每个频带标准化上述提取的频带能量,求取各个频带的标准化频带能量;参数变换步骤,用来根据按每个频带标准化的频带能量求取音响参数;语音识别步骤,用来使用上述求得的音响参数识别输入信号中包含的语音。
遵循本发明的另外一个方面的发明,涉及记录了用于在计算机中执行的信号分析程序的记录介质。上述信号分析程序具备:频带分割步骤,用来将输入信号分割为多个频带的信号;频带能量提取步骤,用来针对被分割成上述各频带的输入信号提取各个频带的频带能量;标准化步骤,用来按每个频带标准化上述提取的频带能量,求取各个频带的标准化频带能量。
遵循本发明的另外一个方面的发明,涉及记录了用于在计算机中依次执行信号标准化的信号分析程序的计算机可读取的记录介质。上述信号分析程序具备:电平计算步骤,用来根据输入信号更新并存储第1电平;标准化步骤,用来从输入信号中减除将上述第1电平乘以预定系数所得的值;更新系数取得步骤,用来根据上述第1电平与上述输入信号的差求取更新系数。上述电平计算单元步骤使用上述更新系数使第1电平接近输入信号,由此将第1电平作为输入信号的条件平均值。
遵循本发明的另外一个方面的发明,涉及记录了用于在计算机中执行语音识别的语音识别程序的计算机可读取的记录介质。上述语音识别程序具备:频带分割步骤,用来将输入信号分割为多个频带的信号;频带能量提取步骤,用来针对被分割成上述各频带的输入信号提取各个频带的频带能量;标准化步骤,用来按每个频带标准化上述提取的频带能量,求取各个频带的标准化频带能量;参数变换步骤,用来根据按每个频带标准化的频带能量求取音响参数;语音识别步骤,用来使用上述求得的音响参数识别输入信号中包含的语音。
遵循本发明的另外一个方面的发明,涉及具备语音识别装置的电子设备。上述语音识别装置具备:信号分析装置;参数变换单元,用来根据从上述信号分析装置取得的、按照每个频带进行标准化后的频带能量,求取音响参数;语音识别部,用来使用上述求得的音响参数识别输入信号中包含的语音,上述信号分析装置具备:频带分割单元,用来将输入信号分割为多个频带的信号;频带能量提取单元,用来针对被分割成上述各频带的输入信号提取各个频带的频带能量;标准化单元,用来按每个频带标准化上述提取的频带能量,求取各个频带的标准化频带能量。基于上述语音识别装置对输入信号中包含的语音信号进行识别的结果选择功能加以执行。
本发明的电子设备不容易受噪声或电路特性失真的影响。其结果是,适合用于家庭中使用的语音识别型遥控器、移动电话等电子设备。
本发明的信号分析装置具有以下效果。
(1)本发明中,不检测全部频带内的语音区间,使用按各个频带所获取的各个时刻的输入信号的频带能量,按每个频带各别计算条件频带能量的电平,将各个频带能量标准化。即,即使在语音的发声区间内,对于噪声能量占优势的频带也作为噪声区间进行处理,只将语音能量占优势的频带作为语音区间处理。其结果是,能够更准确地标准化输入信号的电路特性。
在本发明的信号分析装置中,当语音与噪声混合存在的情况下,有时候会出现各个频带的语音和噪声的判断错误。但是,由于按每个频带各别区分语音和噪声,因此,与在频带整体中区分语音和噪声的情况相比,能够降低其影响。即,借助于本发明的结构,能够降低语音区间与噪声区间的区间检测失误。
(2)在本发明的信号分析装置中,在按每个频带进行频带能量标准化时,在对数频谱区域执行标准化处理。如果在对数频谱区域执行标准化处理,就能够获得与以对数频谱的线性变换(余弦变换)——倒谱系数进行校正的CMN法相同的效果。其结果是,能够标准化话筒等的影响造成的电路特性失真。即,即使语音识别时的噪声频谱与学习时的噪声频谱不同,也能够防止识别精度的大幅度恶化。此外,如SS法那样,可以用振幅电平进行减除,但不能标准化电路特性失真。
另外,本发明的信号分析装置中,按每个频带各别求取噪声电平和语音电平,对每个频带的噪声电平或每个频带的语音电平进行标准化,因此,能够获得与E-CMN法相同的效果。
(3)在本发明的信号分析装置中,根据所提取的频带能量序列执行语音和噪声判断。即,即使在发声区间内,一部分频带也可能被判定为噪声。因此,只要是由频谱形状不同的音素构成的发声,在语音发声区间内完成几乎全部频带的噪声电平的推断。即,在本发明的信号分析装置中,即使不存在噪声区间,也能够推断噪声电平。
本发明的信号分析装置特别适合用于以电池驱动为前提的移动式设备。以电池驱动的移动式设备中,为了抑制电池的消耗量,只在发声时对输入信号进行分析。即,即使在不存在噪声区间的使用方式中,也能够等效地推断噪声频谱,因此,不仅能够标准化电路特性失真,也能够标准化噪声等失真。
附图说明
图1是表示求取MFCC所需步骤的流程图。
图2是表示执行现有的MFCC分析的信号分析装置的结构的框图。
图3是表示根据使用了MFCC法的现有的E-CMN法进行分析的信号分析装置的结构的框图。
图4是表示本发明的信号分析装置的结构的图。
图5是表示本发明中涉及的信号分析处理流程的流程图。
图6是表示本发明中涉及的信号分析处理的输入频带能量和更新系数、标准化系数、标准化频带能量的对应关系的图。
图7是表示使用低截止滤波器作为标准化单元的本发明的信号分析单元的结构的图。
图8是表示包含语音波形的音响信号实例的图。
图9是图8所示的包含语音波形的音响信号的频谱图的简化图。
图10是表示使用现有的E-CMN法对图9所示的频谱进行标准化时执行标准化处理的范围的图。
图11是表示使用本发明的信号分析装置对图9所示的频谱进行标准化时执行标准化处理的范围的图。
图12是表示输入了图8所示的包含语音波形的音响信号的情况下使用E-CMN法的噪声频谱适应的进行状况的图。
图13是表示输入了图8所示的包含语音波形的音响信号的情况下使用本发明的信号分析装置进行噪声频谱适应的进行状况的图。
图14是表示使用了本发明的语音识别装置的语音识别系统实例的框图。
图15是表示本发明的语音识别装置或包含本发明的语音识别装置的电子设备的结构图。
具体实施方式
下面参照附图说明实施本发明的最优实施方式。实施本发明的最优实施方式通过比较MFCC法、E-CMN法进行说明。此外,本发明并不限定于此。
[MFCC法的结构]
图2是表示执行现有的MFCC分析的信号分析装置的结构的框图。图中,参照符号101表示频率分析单元,参照符号102表示参数变换单元。频率分析单元101执行图1的频率分析步骤(步骤S201)的处理,参数变换单元102执行图1的参数变换步骤(步骤S202)的处理。
[E-CMN法的结构]
图3是表示根据使用了MFCC法的现有的E-CMN法进行分析的信号分析装置的结构的框图。该图中,执行图3的MFCC分析的信号分析装置的结构中进一步增加了用来从输入信号中检测语音区间的语音区间检测单元203、平均值更新单元201、减法处理单元202。所输入的语音经频率分析单元101和参数计算单元102处理,由此求得MFCC。同时,所输入的语音经语音区间检测单元203处理,检测出语音区间。平均值更新单元使用由语音区间检测单元203所获得的语音区间信息更新从参数计算单元102取得的平均倒谱。具体地,如果是语音区间,则更新语音的平均倒谱;如果是非语音区间,则更新噪声的平均倒谱。减法处理单元202使用由语音区间检测单元203所取得的语音区间信息,如果是语音区间则从由参数计算单元102输出的当前倒谱中减除语音的平均倒谱,如果是非语音区间则从由参数计算单元102输出的当前倒谱中减除噪声的平均倒谱。
作为语音区间检测方法,一般是使用每帧的短时间信号功率或每帧的频谱概略形状检测语音区间。这些方法中,使用了移动电话等语音通信中所使用的标准方法。
[本发明的结构]
图4是表示本发明的信号分析装置的结构的图。本发明中,图4的MFCC分析中使用的信号分析装置的频率分析单元101和参数计算单元102之间按每个频带设置了更新系数取得单元301、电平计算单元302、标准化单元303和标准化系数取得单元304。另外,本发明的频带分析单元101由将输入信号分割为多个频带的信号的频带分割单元305、针对被分割为各个频带的该输入信号提取各个频带的频带能量的频带能量提取单元306构成。
更新系数取得单元301将在信号被输入的时刻之前计算出来的噪声电平或语音电平与由上述频率分析单元101求得的当前各个频带的频带能量进行比较,通过电平计算单元302求得电平更新所用的更新系数。
电平计算单元302使用由上述更新系数取得单元301所取得的更新系数,基于输入能量和噪声电平或语音电平之差更新噪声电平或语音电平并存储起来。具体方法在后文叙述。
标准化系数取得单元304与上述更新系数取得单元301同样地将在信号被输入的时刻之前计算出来的噪声电平或语音电平与由上述频率分析单元101求得的当前各个频带的频带能量进行比较,通过标准化单元303计算所用的标准化系数。
标准化单元303使用由上述标准化系数取得单元304所求得的标准化系数,以及由上述电平计算单元302所求得的语音电平或噪声电平,将由上述频率分析单元101所求得的当前频带能量标准化后输出。
在本实施方式中,更新系数取得单元301与标准化系数取得单元304由不同结构实现,但两者执行的处理相似,因此也可以用同一结构来实现更新系数取得单元301与标准化系数取得单元304。
CMS法或E-CMN法的文献中描述的实现中,存储单词或文章发声时的每次语音,求取该语音电平的电平,标准化后进行识别,或者使用上一次发声的电平进行标准化。但是,在发声结束后进行识别处理,因其响应慢,没有可行性。另外,在移动式装置等中,不能保证上一次的使用环境与当前的使用环境相同。因此,本实施方式中说明的方式,不是使用每次发声或上一次的发声电平,而是实时更新噪声电平等,使用该更新后的噪声电平,实时地将频带能量进行标准化。此外,本发明的信号分析装置也可以使用每次发声或上一次的发声电平将频带能量标准化。
[动作]
图5是表示本发明中涉及的信号分析处理流程的流程图。图6是表示本发明中涉及的信号分析处理的输入频带能量和更新系数、标准化系数、标准化频带能量的对应关系的图。下面使用图5和图6详细说明本发明的信号分析处理。此外,利用噪声能量低、语音能量高这一特点应用更新系数或标准化系数。
频率分析步骤(步骤S201)和参数分析步骤(步骤S202)中执行的处理与图1的处理相同。
本发明的信号分析装置只要能将输入信号分割为2个或以上的频带,就可依照其原理动作。另外,作为频率数轴,除美尔频率数轴外,帕克频率数轴或线形频率数轴也可以进行动作。此外,以语音识别为目的进行信号分析时,频率分析中的频带分割数或频率分度是遵循MFCC的值即可,分割数在10至30左右为妥。例如,如果是以11KHz采样的语音,如为在美尔频率数轴上分割为24个频带后变换为12元倒谱的结构即是有效的,这已通过试验得到确认。将现有的MFCC处理中的频率分析步骤和参数变换步骤的处理挪用到本发明的信号分析装置中,可以抑制处理量的增加。
步骤S203~步骤S205所进行的处理按每个频带独立执行。系数取得步骤(步骤S203)根据由频率分析步骤(步骤S201)所求得的频带能量与在输入信号的输入时刻之前所求得的各个频带的噪声电平之差,求取更新系数和标准化系数。接着,基于按每个频带求取的更新系数,更新上述频带的噪声电平(步骤S204)。接着,使用在步骤S204更新过的频带的噪声电平和标准化系数将该频带的频带能量进行标准化(步骤S205)。将标准化后的频带能量变换为倒谱系数(步骤S202)。
此外,本实施方式中,将标准化后的频带能量变换为语音识别中通常使用的倒谱系数。但是,并不一定要变换为倒谱系数,也可以采用将标准化后的能量直接输出的结构。
[更新基准]
接着使用图6说明使用更新系数更新频带能量中的噪声电平的方法。图6(c)是表示输入频带能量与更新系数的关系的图。
此外,推断噪声电平的方法也包括计算输入能量的直方图、采用下方的数个百分点作为噪声电平的方法。但是,为了计算直方图,需要一定长度的输入。因此,适宜使用以下说明的实时地依次更新噪声电平的处理。
假定在时刻t的噪声电平为N(t),输入频带能量为E(t),更新系数为α(t),则噪声电平N(t)的更新例如如下进行。此外,噪声电平、输入频带能量的单位考虑以分贝(dB)为基准。
N(t)=(1-α(t))*N(t-1)+α(t)*E(t)…式(1)
α(t)=0(N(t-1)+R<E(t)时)
α(t)=A*(1-(E(t)-N(t-1))/R)
(N(t-1)<E(t)≤N(t-1)+R时)
α(t)=A(E(t)≤N(t-1)时)
这里,A表示最大更新系数,其值为大于等于0小于等于1。例如,A取0.02左右的值。R表示噪声和语音的能量边界范围,例如取为2dB左右。由于能够求取在所输入的频带能量的时间序列中特别是低能量分布的情况下的平均值,因此,该更新系数可以更新噪声电平。
在上述算式中,可以将(α(t)/A)看作表示接近噪声的程度的指标。
如果将噪声电平的初始值N(0)定为N(0)=E(1),可以获得快速的上升特性,获得很好的识别结果,这已通过试验得到确认。
如果使用上述算式更新噪声电平,则对于噪声向下方的变化跟踪较快,而对于向上方的变化跟踪速度逐渐变慢,在1帧期间存在大于R(dB)的噪声增幅的情况下,则完全不跟踪。这种对噪声变化速度的跟踪可以通过A和R参数来控制。在A为0.02的情况下,对迟于0.5Hz左右的噪声变化变为也向上方跟踪。通常的语音变化速度是1秒钟内替换数个至十几个音素,因此,从几Hz至数十Hz的成分较多。另一方面,背景噪声大多比这个频率慢。然而,突发性噪声有时候会造成噪声能量急剧上升,其后就无法跟踪了。因此,将α(t)的下限设为微小的值例如0.001左右而不是0,就可以设定为在数秒后进行跟踪。
在对这些参数进行动作确认时,通过输入调整了每个频带的能量变化速度的人工数据,就能够确认跟踪速度。
假定在时刻t的语音电平为S(t),输入频带能量为E(t),更新系数为γ(t),则语音电平S(t)的更新例如如下进行。
S(t)=(1-γ(t))*N(t-1)+γ(t)*E(t)…式2
γ(t)=C(N(t-1)+R<E(t)时)
γ(t)=C*(E(t)-N(t-1)/R)
(N(t-1)<E(t)≤N(t-1)+R时)
γ(t)=0(E(t)≤N(t-1)时)
这里,C表示最大更新系数,其值小于等于1。C与上述A相同,例如取为0.02左右的值。R表示噪声与语音的能量的边界范围,既可以是与上述噪声电平的边界区域相同的值,也可以是不同值。由于能够求取在所输入的频带能量的时间序列中特别是高能量分布的情况下的平均值,因此,该更新系数可以更新语音电平。
初始值S(0)最好是使用上次发声时最后的S(t)。当无法获得最后的S(t)时,使用S(0)=0可以获得较好的结果,这已通过试验得到确认。这里,可以将(γ(t)/C)看作表示接近语音的程度的指标。
关于语音电平,也可以不进行更新而使用固定值。在这种情况下,使用根据大量语音数据计算出来的平均语音电平,效果较好。
为了更新噪声电平和语音电平,必须根据输入信号的时间序列判断是噪声区间还是语音区间。式1和式2中,两个区间的检测也可以不以2进制值形式求取,而可以是取中间值(图6(c))。噪声区间与语音区间的判断按每个频带进行。因此,在各个频带判断出来的噪声区间与语音区间不同于在其他频带判断出来的噪声区间和语音区间。进一步,在各个频带判断出来的噪声区间和语音区间与实际的说话者的发声区间也不一样。
更新系数不必通用于全部频带。通过预先按每个频带保存不同的更新系数,能够按每个频带应用最适合的更新系数。
例如,在低频带,噪声波动比较缓慢的情况下,通过减小低频带的更新系数的最大值A,可以减少对语音输入错误地跟踪而导致更新的危险性。
[取得噪声电平、语音电平的简略实例]
求取噪声电平的方法也可以是将直到输入时刻为止的输入能量的最小值作为噪声电平。可以认为这相当于在上述式(1)中将能量的边界范围定为0dB,将最大更新系数定为1的情况。另外,对于语音电平,也可以将直到输入时刻为止的输入能量的最大值作为语音电平。这利用了噪声能量低、语音能量高这一特点。
求取噪声电平、语音电平的方法并不限于该实例,只要是能够求取在能量分布范围内的低值和高值的方法,就能够求取噪声电平、语音电平。
[标准化基准]
接着使用图6说明使用标准化系数对频带能量进行标准化的方法。图6(b)是表示输入频带能量与标准化系数的关系的图。
假定在时刻t的噪声电平为N(t),输入频带能量为E(t),标准化系数为β(t),则标准化频带能量E′(t)可由例如以下算式求得。此外,噪声电平、能量的单位定为分贝(dB)。
E’(t)=E(t)-β(t)*N(t)…式3
β(t)=0(N(t-1)+R<E(t)时)
β(t)=B*(1-(E(t)-N(t-1))/R)
(N(t-1)<E(t)≤N(t-1)+R时)
β(t)=B(E(t)≤N(t-1)时)
这里,B表示最大减除量,其值小于等于1。例如,B取0.5左右的值。R表示噪声和语音的能量边界范围,例如取为2dB左右。R既可以是与上述更新系数的边界区域相同的值,也可以是不同值。
接着,在噪声电平的基础上,使用语音电平S(t)来说明频带能量的标准化方法。使用语音电平的频带能量标准化可由例如下式计算。
E’(t)=E(t)-β(t)*N(t)-δ(t)*S(t)…式4
δ(t)=D(N(t-1)+R<E(t)时)
δ(t)=D*(E(t)-N(t-1))/R
(N(t-1)<E(t)≤N(t-1)+R时)
δ(t)=0(E(t)≤N(t-1)时)
这里,D表示最大减除量,其值小于等于1。D与上述B相同,例如取为0.5左右的值。R表示噪声与语音的能量的边界范围,既可以是与上述噪声电平的边界区域相同的值,也可以是不同值。
在该例中,使用输入能量E(t)与噪声电平N(t)之差求取语音电平的标准化系数。使用该方法,能够降低说话者或电路特性所导致的识别精度的下降。此外,使用输入能量E(t)与语音电平S(t)之差能够求取语音电平的标准化系数。
在该实例中说明的是,为了标准化频带能量,将语音电平或噪声电平乘以通过预定的计算求得的系数后从输入频带能量中减除的方法。但是,为了进行标准化,并不限于这一方法,例如,使用输入能量除以语音电平等除法的方法,有时候也能够获得标准化效果。也可以是根据输入的动态范围或环境变化的大小适当改变标准化方法的结构。
图6(a)是表示使用式3和式4标准化后的标准化频带能量与所输入的频带能量的关系的图。将使用了噪声电平和语音电平双方的情况表示为E′=E-β*N-δ*S的图表。设D=0的情况,即仅使用噪声能量的情况表示为E′=E-β*N的图表。根据各个频带的噪声电平和语音电平的大小适当改变所用的标准化系数,能够标准化频带能量。除此之外,在使用环境是噪声非常稳定的场所等情况下,由于无需应用噪声,因此,通过采用B=0,能够只使用语音电平。
[使用低截止滤波器的情况]
在将噪声与语音的边界区域幅度R(dB)取为非常大的值的情况下,就成为在几乎整个区间以固定的更新系数A更新噪声电平,针对几乎整个区间的输入频带能量以固定的标准化系数B进行减法计算。为了简化其实现,如图7所示在各个频带设置低截止滤波器即可。图7是表示使用低截止滤波器307作为标准化单元的本发明的信号分析单元的结构的图。即,在对输入信号进行频率分析后,对各个频带的能量进行低截止,然后,通过变换为语音参数,获得一定程度的标准化效果。这种情况下的低截止滤波器最好是比随语音而不同的频谱变化速度——1Hz至10Hz左右还要低的频率,即截止1Hz或以下的频率。
作为该结构的实现实例,以t表示帧,向低截止滤波器的输入表示为x(t),输出表示为y(t),执行如下处理,
y(t)=x(t)-z(t)
z(t)=x(t)*0.02+z(t)*0.98
则如果帧周期为10ms,衰减特性即成为在0.5Hz下为-1dB,在0.24Hz下约为-3dB、在0Hz下为-5.7dB。此外,该结构的实现实例并不限于必须遵循上述算式。
另外,在频带的低频区和高频区噪声变化速度不同的环境下,采用按每个频带而特性不同的低截止滤波器结构,就能够获得更加适应使用环境的性能改善。
[从频谱角度所见的本实施方式的动作]
接着根据附图从频谱的视点说明本发明的实施方式。
图8是表示包含语音波形的音响信号实例的图。图中,横轴表示时间,纵轴表示振幅。该图中,时间t1至t2的区间表示发声区间,所显示的时间整体中包含杂音。
图9是图8所示的包含语音波形的音响信号的频谱图的简化图。图中,横轴表示时间,纵轴表示频率。时间t1至t2的区间表示发声区间。实际的语音频谱是连续值,但在该图中,为了简单起见,将比其他部分能量相对高的区域以闭曲线封闭,并以网格表示。
图10是表示使用现有的E-CMN法对图9所示的频谱进行标准化时执行标准化处理的范围的图。图中,横轴表示时间,横轴的各段表示分析帧。纵轴表示频率,纵轴的各段表示频带。将比其他部分能量相对高的区域以闭曲线封闭。另外,网格部分是作为语音区间的应用范围,其余部分是作为噪声区间的应用范围。
在使用E-CMN法的情况下,在标准化倒谱系数时,不能选择频带进行标准化。因此,在判定为语音区间的时间t1至t2的区间内,语音的倒谱系数被更新;在其余区间,噪声的倒谱系数被更新。使用更新后的倒谱系数,将各个区间的倒谱标准化。因此,当语音区间中含有噪声的情况下,倒谱系数有可能被错误地更新。
图11是表示使用本发明的信号分析装置对图9所示的频谱进行标准化时执行标准化处理的范围的图。图中,横轴表示时间,横轴的各段表示分析帧。纵轴表示频率,纵轴的各段表示频带。另外,网格部分是作为语音区间的应用范围,其余部分是作为噪声区间的应用范围。
在本发明的情况下,针对各个频带判断是语音区间还是噪声区间。其结果是,与语音的发声区间(t1-t2)无关,在具有比周围噪声能量高的频带和帧(图中网格部分)中,该频带的语音电平得到更新,使用该更新后的语音电平将频带能量标准化。在其余部分,即使是语音的发声区间(t1-t2),如果其能量低、判定为噪声区间,因此就更新该频带的噪声电平,使用该更新后的噪声电平将频带能量标准化。
即,借助于本发明,在进行语音区间判断时,可以没有现有的明确的非语音区间。如果是包含多种音素的语音,就能够在语音区间所含的全部频带中更新噪声电平。
此外,在图11中,为了简化,在图中设置了网格部分,表示为语音区间与噪声区间之间存在明确的分界。但是,由式1~式4可知,语音区间与噪声区间之间不存在明确的分界。实际上,在频带能量的噪声电平N(t)至N(t)+R的范围内逐渐切换进行处理。只在R=0的情况下才会形成图11所示的明确分界。
[没有噪声区间的输入实例]
图12是表示输入了图8所示的包含语音波形的音响信号的情况下,使用E-CMN法的噪声频谱适应的进行状况的图。图13是表示输入了图8所示的包含语音波形的音响信号的情况下使用本发明的信号分析装置进行噪声频谱适应的进行状况的图。图中,网格部分表示噪声被正确地推断出来的频带和帧。
这里,特别地以没有噪声区间的输入为例表示从与发声开始时刻相同时刻t1开始向装置进行输入的情况。在电池驱动的移动式装置中,语音输入以按钮等指令开始。在这样的情况下,可以认为进行的是没有噪声区间的输入。
除了隔音室等特殊情况,在事先无法知道输入噪声电平的实际环境下使用的系统中,不可能对没有噪声区间的输入语音进行语音分割。这种情况下,根据系统设计决定将最初的输入帧解释为语音还是噪声。
在将最初的输入帧解释为噪声的系统中,如果应用E-CMN法,则图12的时刻t1至t2的发声区间全部被识别为噪声区间。因此,推断出错误的噪声电平。由此,第1发声被作为噪声而平坦化,因此变得无法识别。此外,在语音输入结束t2后,推断出原本的噪声电平。
另一方面,即使在将最初的输入帧解释为语音的系统中,如果应用E-CMN法,则图12的时刻t1至t2的发声区间,无法推断出噪声频谱。因此,在t2附近的语尾的识别精度就会出现问题。
在将最初的输入帧解释为噪声的系统中,如果使用本发明的信号分析装置,则在语音占优势的频带中,会产生噪声频谱的推断错误。但是,一旦频谱形状发生变化、频带的语音功率变得低于噪声功率时,该频带的噪声功率被推断出来。在图13的实例中,在比发声结束时刻t2更早的时刻t3,噪声功率的推断结束。因此,在时刻t3至t2之间,能够正确地标准化噪声频谱。即,如果使用本发明的信号分析装置,能够比使用E-CMN法的情况下更快更正确地进行标准化。另外,在噪声推断已经结束的频带,在结束时刻以后,如果该频带的功率上升,则语音功率被推断出来,因此,从发声过程中途就能够实现高精度的语音识别。
依照此种方式,如果使用本发明的信号分析装置,则即使是通过按钮等发出语音输入开始指令的装置,也能够从最初的发声开始进行高精度的语音识别。
如上述说明,本发明的信号分析装置中,在语音发声过程中也能够推断噪声频谱。其结果是,即使在发音过程中噪声频谱逐渐变化的情况下,只要其变化缓慢,就能够适应噪声变化进行标准化。因此,如果在语音识别装置中应用本发明的信号分析装置,就能够获得能够实现更稳定的语音识别的语音识别装置。
[语音识别装置及其识别方法]
图14是表示使用了本发明的语音识别装置的语音识别系统实例的框图。语音识别系统的结构通常具备音响模型学习装置401和语音识别装置402。
语音数据库403用于音响模型学习。主要保存在个人电脑或工作站的固定硬盘等之中。
参照符号404是使用本发明的信号分析装置的信号分析单元。实际上,使用的是具备图6所示结构的设备或图6所示结构中进一步追加用来求取音响参数随时间的变化量的部分的结构。参照符号405是音响模型学习单元,根据记录了语音数据库的发声内容的语言数据库406和上述信号分析单元404的输出,按照每个统计上的各音素或各音节这样的语音单位统计出来。模型通常使用隐含马尔可夫模型。
参照符号407表示由音响模型学习单元405求得的音响模型。参照符号408是另外生成的语言辞典。语言辞典408包含以音素串表示的单词的单词辞典、规定单词之间的连接限制的语法数据。语言辞典408可以通过手工作业生成,也可以根据语言数据库406中包含的文章,统计单词之间的连接几率求得。
参照符号409是用来执行与信号分析装置404相同的信号分析的信号分析单元。参照符号410表示似然演算单元,根据上述音响模型407的各个统计量和由信号分析单元409求得的音响参数求取对各个时刻的输入信号的各语音单位的似然性。参照符号411是对照单元,根据所求得的各语音单位的似然性的时间序列计算最有可能的语言式假设的似然性,按照似然性高的顺序输出候选。语音识别方法也可以不明确分离似然性演算和对照单元。
[计算机程序、电子设备]
语音识别通常使用通用的或信号处理用的CPU,通过数字化处理执行。图15是表示本发明的语音识别装置或包含本发明的语音识别装置的电子设备的结构图。
参照符号501表示以个人电脑为代表的数字化设备中的数据或地址的路径。各处理单元都连接到该路径,执行各自的处理。参照符号502表示按钮或键盘、话筒等多种输入单元。语音输入并不限于从话筒输入,有时候也通过通信线路输入在其他设备变换为电信号后的语音。参照符号503表示按照来自输入单元502的指令控制设备并对所输入的语音进行语音识别的CPU。参照符号504是CPU进行处理时使用的存储器、及包含语音识别程序的程序存储器。参照符号505是显示器或蜂鸣器、扬声器、灯等输出装置。语音识别后的结果有时候显示为候选,有时候在接收到识别结果后执行某种处理,有时候也进一步显示处理后的结果。当该电子设备是移动电话时,这些处理模块中增加了未图示的无线通信单元。在个人电脑或移动式信息设备等之中,则增加通信单元或外部存储装置等。
基于由语音识别装置的识别结果,选择功能加以执行的实例包括电视频道切换操作、录像装置的播放或停止等操作、空调的温度设定等。另外,如果是信息终端,则包括通信控制、程序的执行控制、文字输入等。
包含信号分析程序或语音识别程序的这些装置的控制程序借助于程序记录介质中存储的信息处理程序来实现。上述实施方式的上述程序记录介质是由与RAM(随机存取存储器)分开而另行设置的ROM(只读存储器)构成的程序介质。另外,最好是装备在外部辅助存储装置中可被读取的程序介质。此外,无论在哪种情况下,从上述程序介质读取信息处理程序的程序读取单元既可以具备直接访问上述程序介质进行读取的结构,也可以具备下载到上述RAM中设置的程序存储区(未图示)后访问上述程序存储区进行读取的结构。此外,用来从上述程序介质向RAM的上述程序存储区执行下载的下载程序预先保存在主体装置中。
这里,上述程序介质与主体侧可分离,是包含磁带或卡式带等带式系列、软盘、硬盘等磁盘或CD(光盘)-ROM、MO(光磁)盘、MD(迷你光盘)、DVD(数字多功能光盘)等光盘的盘式系列、IC(集成电路)卡或光卡等卡式系列、掩模ROM、EPROM(紫外线可擦除型ROM)、EEPROM(电可擦除型ROM)、闪速ROM等的半导体存储器系列的固定地装载了程序的介质。
另外,上述实施方式的语音识别装置或电子设备可以具备调制解调器,与包含因特网的通信网络连接。这种情况下,上述程序介质也可以是利用从通信网络下载等流动式装载程序的介质。此外,为了从这种情况下的上述通信网络下载,所需要的下载程序预先保存在主体装置中。或者是从另外的记录介质中安装。
本次公开的实施方式的各个方面均为示例,不应被当作限制性要求。本发明的范围不是上述说明,而是由权利要求书的范围示出,并包含与权利要求书的范围有均等意义以及权利要求范围内的所有变化。
工业适用性
使用了本发明的电子设备不容易受噪声或电路特性失真的影响。其结果是,适用于家庭中使用的语音识别型遥控器、移动电话等电子设备。
Claims (15)
1.一种信号分析装置,具备:
频带分割单元,用来将输入信号分割为多个频带的信号;
频带能量提取单元,用来针对被分割成上述各频带的输入信号,提取各个频带的频带能量;
标准化单元,用来按每个频带标准化上述提取的频带能量,求取各个频带的标准化频带能量,
上述标准化单元由低截止滤波器构成,其根据按每个上述频带提取的频带能量使直流成分衰减。
2.一种信号分析装置,具备:
频带分割单元,用来将输入信号分割为多个频带的信号;
频带能量提取单元,用来针对被分割成上述各频带的输入信号提取各个频带的频带能量;
标准化单元,用来按每个频带标准化上述提取的频带能量,求取各个频带的标准化频带能量;
电平计算单元,用来根据上述提取的频带能量的序列计算各个频带的条件平均值,作为第1电平,
上述标准化单元从上述按每个频带提取的频带能量中减除将同一频带的第1电平乘以预定系数所得的值。
3.如权利要求1所述的信号分析装置,
上述电平计算单元除了计算上述第1电平,还从上述提取出来的频带能量序列中将不同于第1电平的各个频带的条件平均值的至少1个计算出来作为第2电平,
上述标准化单元从上述按每个频带提取的频带能量中减除将同一频带的第1电平和第2电平分别乘以预定系数所得的值。
4.如权利要求1所述的信号分析装置,
其进一步具备标准化系数取得单元,用来根据上述频带能量的值求取1个或多个标准化系数,
上述标准化单元从上述按各个频带提取的频带能量中减除将同一频带的上述第1电平或上述第1电平和多个电平乘以上述标准化系数所得的值。
5.如权利要求2所述的信号分析装置,
上述第1电平是不含语音的背景噪声的各个频带的条件平均值,
上述第2电平是语音在各个频带的条件平均值。
6.一种依次进行信号标准化的信号处理装置,其具备:
电平计算单元,用来根据输入信号更新并存储第1电平;
标准化单元,用来从输入信号中减除将上述第1电平乘以预定系数所得的值;
更新系数取得单元,用来根据上述第1电平与上述输入信号的差求取更新系数,
上述电平计算单元使用上述更新系数使第1电平接近输入信号,由此将第1电平作为输入信号的条件平均值。
7.如权利要求6所述的信号处理装置,
其具备标准化系数取得单元,用来基于上述第1电平与上述输入信号的差取得标准化系数,
上述标准化单元从输入信号中减除将上述第1电平乘以标准化系数后所得的值,根据输入电平控制减除量。
8.如权利要求6所述的信号处理装置,
上述电平计算单元基于输入信号更新多个电平并存储起来,
上述标准化单元从输入信号中减除将上述多个电平分别乘以预定系数后所得的值,
上述更新系数取得单元根据上述第1电平与上述输入信号的差求取多个电平的更新系数,
上述电平计算单元利用上述多个电平的更新系数更新上述求得的多个电平,执行与输入分布相适应的标准化。
9.如权利要求7所述的信号处理装置,
上述电平计算单元基于输入信号更新多个电平并存储起来,
上述标准化单元从输入信号中减除将上述多个电平分别乘以预定系数后所得的值,
上述更新系数取得单元根据上述第1电平与上述输入信号的差求取多个电平的更新系数,
上述标准化系数取得单元求取与多个电平相适应的多个标准化系数,
上述标准化单元从输入信号中减除将分别与上述多个电平相对应的标准化系数乘以各个电平后所得的值,执行与输入电平相适应的标准化。
10.如权利要求2所述的信号分析装置,
各个频带的电平计算单元和标准化单元包含依次进行信号标准化的信号处理装置,
上述信号处理装置具备:
基于输入信号更新并存储第1电平的单元;
从输入信号中减除将上述第1电平乘以预定系数所得的值的单元;
更新系数取得单元,用来根据上述第1电平与上述输入信号的差求取更新系数,
上述电平计算单元使用上述更新系数使上述第1电平接近输入信号,由此将上述第1电平作为输入信号的条件平均值。
11.如权利要求10所述的信号分析装置,
在属于低频的频带和属于高频的频带中,上述预定系数设定为不同的值。
12.如权利要求1或2所述的信号分析装置,
将从各个时刻的输入信号中获取的各个频带的频带能量作为对数能量处理。
13.一种语音识别装置,其具备:
如权利要求1或2所述的信号分析装置;
参数变换单元,用来根据按照从信号分析装置取得的每个频带进行标准化后的频带能量求取音响参数;
语音识别部,使用上述求得的音响参数识别输入信号中包含的语音。
14.如权利要求13所述的语音识别装置,
在MFCC(Mel Frequency Cepstrum Coefficient:美尔频率倒谱系数)参数的提取过程中执行各个频带能量的标准化。
15.一种依次执行信号标准化的信号分析方法,其具备:
电平计算步骤,用来根据输入信号更新并存储第1电平;
标准化步骤,用来从输入信号中减除将上述第1电平乘以预定系数所得的值;
更新系数取得步骤,用来根据上述第1电平与上述输入信号的差求取更新系数,
上述电平计算单元步骤,使用上述更新系数使第1电平接近输入信号,由此将第1电平作为输入信号的条件平均值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP299346/2003 | 2003-08-22 | ||
JP2003299346A JP4301896B2 (ja) | 2003-08-22 | 2003-08-22 | 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 |
PCT/JP2004/010841 WO2005020212A1 (ja) | 2003-08-22 | 2004-07-29 | 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1839427A CN1839427A (zh) | 2006-09-27 |
CN1839427B true CN1839427B (zh) | 2010-04-28 |
Family
ID=34213754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800241642A Expired - Fee Related CN1839427B (zh) | 2003-08-22 | 2004-07-29 | 信号分析装置、信号处理装置、语音识别装置和电子设备 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4301896B2 (zh) |
CN (1) | CN1839427B (zh) |
WO (1) | WO2005020212A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5019414B2 (ja) * | 2006-02-09 | 2012-09-05 | 株式会社リコー | 定着装置及び画像形成装置 |
JP4869420B2 (ja) * | 2010-03-25 | 2012-02-08 | 株式会社東芝 | 音情報判定装置、及び音情報判定方法 |
JP5724361B2 (ja) * | 2010-12-17 | 2015-05-27 | 富士通株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
US9992745B2 (en) * | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
WO2013085507A1 (en) | 2011-12-07 | 2013-06-13 | Hewlett-Packard Development Company, L.P. | Low power integrated circuit to analyze a digitized audio stream |
JP6127422B2 (ja) | 2012-09-25 | 2017-05-17 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
CN107112011B (zh) * | 2014-12-22 | 2021-11-09 | 英特尔公司 | 用于音频特征提取的倒谱方差归一化 |
CN104900237B (zh) * | 2015-04-24 | 2019-07-05 | 上海聚力传媒技术有限公司 | 一种用于对音频信息进行降噪处理的方法、装置和系统 |
WO2019017403A1 (ja) * | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
CN108461081B (zh) * | 2018-03-21 | 2020-07-31 | 北京金山安全软件有限公司 | 语音控制的方法、装置、设备和存储介质 |
CN110797008B (zh) * | 2018-07-16 | 2024-03-29 | 阿里巴巴集团控股有限公司 | 一种远场语音识别方法、语音识别模型训练方法和服务器 |
JP7421869B2 (ja) * | 2019-04-26 | 2024-01-25 | 株式会社スクウェア・エニックス | 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 |
US10897534B1 (en) | 2019-09-13 | 2021-01-19 | International Business Machines Corporation | Optimization for a call that waits in queue |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3230200B2 (ja) * | 1995-06-26 | 2001-11-19 | 農林水産省蚕糸・昆虫農業技術研究所長 | 改質蛋白質繊維又はその繊維製品の製造法 |
JP2002014694A (ja) * | 2000-06-30 | 2002-01-18 | Toyota Central Res & Dev Lab Inc | 音声認識装置 |
JP2003195894A (ja) * | 2001-12-27 | 2003-07-09 | Mitsubishi Electric Corp | 符号化装置、復号化装置、符号化方法、及び復号化方法 |
CN1430778A (zh) * | 2001-03-28 | 2003-07-16 | 三菱电机株式会社 | 噪声抑制装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03230200A (ja) * | 1990-02-05 | 1991-10-14 | Sekisui Chem Co Ltd | 音声認識方法 |
JPH10133692A (ja) * | 1996-10-28 | 1998-05-22 | Hitachi Ltd | 録音装置及びカメラ一体型映像音声記録装置 |
-
2003
- 2003-08-22 JP JP2003299346A patent/JP4301896B2/ja not_active Expired - Fee Related
-
2004
- 2004-07-29 CN CN2004800241642A patent/CN1839427B/zh not_active Expired - Fee Related
- 2004-07-29 WO PCT/JP2004/010841 patent/WO2005020212A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3230200B2 (ja) * | 1995-06-26 | 2001-11-19 | 農林水産省蚕糸・昆虫農業技術研究所長 | 改質蛋白質繊維又はその繊維製品の製造法 |
JP2002014694A (ja) * | 2000-06-30 | 2002-01-18 | Toyota Central Res & Dev Lab Inc | 音声認識装置 |
CN1430778A (zh) * | 2001-03-28 | 2003-07-16 | 三菱电机株式会社 | 噪声抑制装置 |
JP2003195894A (ja) * | 2001-12-27 | 2003-07-09 | Mitsubishi Electric Corp | 符号化装置、復号化装置、符号化方法、及び復号化方法 |
Non-Patent Citations (2)
Title |
---|
Makoto Shokyo et al..An Evaluation of Speech Enhancement ApproachE-CMN/CSS for speech Recognition in Car Enviroments.The Institute of Electronics, Information and Communication Engineers Ronbunshi D-IIJ-818D-II 1.1998,J-818D-II(1),1-9. |
Makoto Shokyo et al..An Evaluation of Speech Enhancement ApproachE-CMN/CSS for speech Recognition in Car Enviroments.The Institute of Electronics, Information and Communication Engineers Ronbunshi D-IIJ-818D-II 1.1998,J-818D-II(1),1-9. * |
Also Published As
Publication number | Publication date |
---|---|
JP4301896B2 (ja) | 2009-07-22 |
WO2005020212A1 (ja) | 2005-03-03 |
JP2005070367A (ja) | 2005-03-17 |
CN1839427A (zh) | 2006-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1199708B1 (en) | Noise robust pattern recognition | |
CN1839427B (zh) | 信号分析装置、信号处理装置、语音识别装置和电子设备 | |
EP1355296B1 (en) | Keyword detection in a speech signal | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
US7319960B2 (en) | Speech recognition method and system | |
Hirsch et al. | A new approach for the adaptation of HMMs to reverberation and background noise | |
US6772117B1 (en) | Method and a device for recognizing speech | |
EP1998320B1 (en) | System and method for evaluating performance of microphone for long-distance speech recognition in robot | |
CN108010512B (zh) | 一种音效的获取方法及录音终端 | |
US9466291B2 (en) | Voice retrieval device and voice retrieval method for detecting retrieval word from voice data | |
US10755731B2 (en) | Apparatus, method, and non-transitory computer-readable storage medium for storing program for utterance section detection | |
US20090192788A1 (en) | Sound Processing Device and Program | |
US7016839B2 (en) | MVDR based feature extraction for speech recognition | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
EP1693826B1 (en) | Vocal tract resonance tracking using a nonlinear predictor | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
JP6389787B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
JP6373621B2 (ja) | 話し方評価装置、話し方評価方法、プログラム | |
Gauvain et al. | Developments in continuous speech dictation using the 1995 ARPA NAB news task | |
Kotnik et al. | Robust MFCC feature extraction algorithm using efficient additive and convolutional noise reduction procedures | |
US7003465B2 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
US20050246172A1 (en) | Acoustic model training method and system | |
Chaloupka et al. | Modification of the speech feature extraction module for the improvement of the system for automatic lectures transcription | |
Dutta et al. | A comparison of three spectral features for phone recognition in sub-optimal environments | |
Dutta et al. | A comparative study on feature dependency of the Manipuri language based phonetic engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100428 Termination date: 20110729 |