JP2005070367A - 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器 - Google Patents
信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器 Download PDFInfo
- Publication number
- JP2005070367A JP2005070367A JP2003299346A JP2003299346A JP2005070367A JP 2005070367 A JP2005070367 A JP 2005070367A JP 2003299346 A JP2003299346 A JP 2003299346A JP 2003299346 A JP2003299346 A JP 2003299346A JP 2005070367 A JP2005070367 A JP 2005070367A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- band
- level
- normalization
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010606 normalization Methods 0.000 claims description 96
- 238000000034 method Methods 0.000 claims description 89
- 238000004458 analytical method Methods 0.000 claims description 84
- 238000012545 processing Methods 0.000 claims description 51
- 238000009826 distribution Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000002411 adverse Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 44
- 238000010586 diagram Methods 0.000 description 32
- 230000008859 change Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 102000003712 Complement factor B Human genes 0.000 description 1
- 108090000056 Complement factor B Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】 入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、前記抽出された帯域エネルギーを、帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段とを、有する信号分析装置である。
【選択図】 図4
Description
非特許文献2には、加法性雑音の影響を少なくする方法として、スペクトル減算(SS:spectral subtraction)法が開示されている。この方法は、入力音声信号を周波数分析して入力の振幅スペクトルまたはパワー(2乗)スペクトルを求め、雑音区間で推定された推定雑音スペクトルに所定の係数αを乗じ、このスペクトル減算係数αを乗じた後の推定雑音スペクトルを入力スペクトルから減じることで、雑音成分を抑圧する方法である。この方法では、音声品質を向上させるためには、多数の帯域に分割して処理をする必要がある。
また、特許文献1には、このSS法を改善し、帯域分割を少なくして雑音成分を抑圧する方法が開示されている。
非特許文献1には、乗法性の歪の影響を低減する方法として、CMS法(Cepstrum Mean Subtraction:ケプストラム平均除法)が開示されている。この方法は、CMN法(Cepstrum Mean Normalization:ケプストラム平均正規化法)とも呼ばれる。これは、乗法性歪が、発声された音声のケプストラムの長時間平均として得られる、という仮定に基づく。具体的には、ケプストラム係数から、入力音声のケプストラム係数の平均値を差し引いて、回線やマイクロホンなどの音響系の特性に基づく歪の影響を低減できる。このことは、ケプストラムのコサイン変換である対数スペクトルの歪を差し引くことと等価である。
非特許文献3および特許文献2には、CMS法の改良法であるE−CMN法が提案されている。E−CMN法は、音声区間のケプストラム平均と、非音声区間のケプストラム平均とを別個に求め、音声区間と、非音声区間とで、別個に正規化処理を行う。この方法により、誤認識率を低減させることができる。
上記したSS法、その簡易化手法、E−CMN法は、いずれの方法においても、音声区間と非音声区間とを区別するために、音声検出を必要とする。音声検出技術は、携帯電話に用いる音声通信の規格などに標準的な方法が開示されている。音声検出は、一般に、入力信号の短時間におけるエネルギーの変化、スペクトル形状の変化などに基づいて、入力信号を、音声区間と、雑音区間とに時間的に分割する。
SS法では、雑音区間のスペクトルを、音声区間で減算するので、雑音の少ない環境での入力音声を推定する場合には、優れる。しかし、雑音区間においては、雑音のパワーは小さくなるが、雑音のスペクトル形状自体は変わらない。現在主流である統計に基づく音声認識を行う場合には、予め統計的に学習した雑音とは、異なるスペクトル形状の雑音が入力すると、雑音区間の照合精度が低下する。このため、雑音区間を音声区間と誤って照合するため、全体として高い認識精度が得られない。この認識精度の低下を防ぐためには、何らかの適応的なスペクトル補正が必要となる。その方法の一つが、E−CMN法のように雑音スペクトルを正規化する方法である。しかし、E−CMN法には、以下のような問題がある。
上記したように、E−CMN法では、音声区間と雑音区間とで、独立にケプストラム平均を求めるので、より正確に回線特性を正規化できる。特にこの方法によると、雑音区間のスペクトル形状を平坦化できるので、SS法では解決できない、雑音区間の照合精度を改善することができる。
しかし、音声区間と雑音区間との判断は、音声区間の検出精度に依存する。このために、高騒音環境では、音声区間の切り出し精度が低下し、誤ったケプストラム平均値を元に正規化を行うため、認識精度に悪影響を及ぼすという問題がある。以下に、音声検出の問題点を述べる。
SS法やE−CMN法では、雑音スペクトルの推定は、音声区間を検出する際に、雑音区間と判断された区間に対して行われる。しかし、実際に信号分析装置を使用する環境において、装置が動作を開始したすぐ後に、音声が発声された場合には、雑音スペクトルを推定するための十分な雑音区間長が得られない。このため、雑音の適応ができない、あるいは誤った雑音を適応するという問題がある。
静かな環境では、音声区間と雑音区間とは容易に分離できる。このため、音声パワーの時間変化を利用すれば、発声区間を検出するのは比較的容易である。しかし、高騒音環境で、SN比が低い場合には、音声区間の始点や終点の精度が低下する、発声の区間内であっても、音声は、音声のパワーが大きい一部の区間を除けば、ほとんどの部分が雑音に埋もれる。このため、音声区間と非音声区間との差が曖昧になり、音声区間を検出することが困難となる。
また、本発明の別の目的は、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる信号分析装置を提供することにある。
ここで、正規化とは、雑音の種類や大きさ、回線の特性、マイクへの入力感度などの環境の要因により生ずる、入力される信号のエネルギー分布が移動する量を少なくすることを意味する。具体的には、正規化は、信号のエネルギー分布の平均を減算して、直流成分を減衰させる方法、環境雑音の値を減算する方法などにより行う。また、本明細書中では、正規化には、入力レベルのエネルギー分布の広がり方を制御することも含まれる。
またこれらのプログラムを記録したコンピュータ読み取り可能な記録媒体であってもよい。
(1)本発明では、全周波数帯域における音声区間を検出せずに、周波数帯域ごとに得られた各時刻の入力信号からの帯域エネルギーを用いて、帯域ごとに別個に、条件付帯域エネルギーのレベルを計算し、各帯域エネルギーを正規化する。すなわち、音声の発声区間であっても、雑音エネルギーが優位な帯域については、雑音区間として処理され、音声のエネルギーが優位な帯域のみが音声区間として処理される。この結果、入力信号の回線特性をより正確に正規化できる。
図2は、従来のMFCC分析を行う信号分析装置の構成を示すブロック図である。図中、101は、周波数分析手段を、102は、パラメータ変換手段を示す。周波数分析手段101では、図1の周波数分析ステップ(ステップS201)の処理を行い、パラメータ変換手段102では、図1のパラメータ変換ステップ(ステップS202)の処理を行う。
図3は、MFCC法を用いた従来のE−CMN法による分析を行う信号分析装置の構成を示すブロック図である。この図では、図3のMFCC分析を行う信号分析装置の構成に、さらに入力信号から、音声区間を検出する音声区間検出手段203と、平均更新手段201と、減算処理手段202とが追加された構成となっている。入力された音声は、周波数分析手段101とパラメータ計算手段102とで、処理することにより、MFCCが求められる。入力された音声は、同時に音声区間検出手段203で、音声区間が検出される。平均更新手段では、パラメータ計算手段102から、得られた平均ケプストラムを、音声区間検出手段203で得られた音声区間情報を用いて、更新する。具体的には、音声区間であれば、音声の平均ケプストラムを更新し、非音声区間であれば、雑音の平均ケプストラムを更新する。減算処理手段202では、音声区間検出手段203で得られた音声区間情報を用いて、音声区間であればパラメータ計算手段102から出力された現在のケプストラムから、音声の平均ケプストラムを減算し、非音声区間であれば、パラメータ計算手段102から出力された現在のケプストラムから、雑音の平均ケプストラムを減算する。
図4は、本発明の信号分析装置の構成を示す図である。本発明では、図4のMFCC分析に用いる信号分析装置の周波数分析手段101と、パラメータ計算手段102との間に、帯域ごとに、更新係数取得手段301と、レベル計算手段302と、正規化手段303と、正規化係数取得手段304と、が設けられている。また、本発明の周波数帯域分析手段101は、入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段305と、この各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段306とから構成される。
図5は、本発明にかかる信号分析処理の流れを示すフローチャートである。図6は、本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数、正規化帯域エネルギーとの対応関係を示す図である。以下に、本発明の信号分析の処理を図5と図6を用いて、詳細に説明する。なお、雑音は低いエネルギーで、音声は高いエネルギーであることを利用して、更新係数や正規化係数を適用する。
次に、図6を用いて、更新係数を用いて、帯域エネルギーにおける雑音レベルを更新する方法について説明する。図6(c)は、入力帯域エネルギーと更新係数との関係を示す図である。
なお、雑音レベルを推定する方法としては、入力エネルギーのヒストグラムを計算して、下方の数%を雑音レベルとして採用する方法もある。しかし、ヒストグラムを計算するためにはある程度長い入力が必要となる。このため、次に説明する、実時間で逐次的に雑音レベルを更新する処理を行うのが、好ましい。
N(t)= (1−α(t))*N(t−1)+α(t)*E(t)…式(1)
α(t)= 0 (N(t−1)+R < E(t)のとき)
α(t)= A*(1−(E(t)−N(t−1))/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)
α(t)= A (E(t)≦ N(t−1) のとき)
雑音レベルの初期値N(0)を、N(0)=E(1)とすれば、素早い立ち上がり特性が得られ、良い認識結果が得られることが、実験的に確かめられている。
これらのパラメータの動作確認には、帯域ごとのエネルギー変化速度を調整した人工的なデータを入力することにより、追従速度を確認することができる。
S(t)= (1−γ(t))*N(t−1)+γ(t)*E(t)… 式2
γ(t)= C (N(t−1)+R < E(t)のとき)
γ(t)= C*(E(t)−N(t−1)/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)
γ(t)= 0 (E(t)≦ N(t−1) のとき)
初期値S(0)には、前回の発声における最後のS(t)を用いることが好ましい。最後のS(t)が得られない場合には、S(0)=0を用いることで、よい結果が得られることが、実験的に確認されている。ここで、(γ(t)/C)は、音声らしさを示す指標と考えることができる。
例えば、低周波数帯域での雑音が比較的ゆっくりと変動する場合には、低周波数帯域の更新係数の最大値Aを小さくすることで、音声入力に対して誤って追従して更新される危険性が少なくなる。
雑音レベルを求める方法として、入力時刻まで入力エネルギーの最小値を雑音レベルとすることもできる。これは、上記式(1)において、エネルギーの境界範囲を0dBとし、最大の更新係数1とした場合と考えることができる。また、音声レベルについても、入力時刻まで入力エネルギーの最小値を音声レベルとすることもできる。これは、雑音は低いエネルギーで、音声は高いエネルギーであることを利用したものである。
雑音レベル、音声レベルを求める方法としては、この例に限られるものではなく、エネルギー分布の範囲内で、低い値と高い値とを求めることができる方法であれば、雑音レベル、音声レベルを求めることができる。
次に、図6を用いて、正規化係数を用いて、帯域エネルギーを正規化する方法について説明する。図6(b)は、入力帯域エネルギーと正規化係数との関係を示す図である。
E’(t)= E(t)−β(t)*N(t)… 式3
β(t)= 0 (N(t−1)+R < E(t)のとき)
β(t)= B*(1−(E(t)−N(t−1))/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)
β(t)= B (E(t) ≦ N(t−1)のとき)
E’(t)= E(t)−β(t)*N(t)−δ(t)*S(t)… 式4
δ(t)= D (N(t−1)+R < E(t)のとき)
δ(t)= D*(E(t)−N(t−1))/R
(N(t−1)<E(t)≦ N(t−1)+R のとき)
δ(t)= 0 (E(t) ≦ N(t−1)のとき)
雑音と音声との境界領域の幅R(dB)を非常に大きな値とした場合には、ほぼ全区間で雑音レベルを一定の更新係数Aで更新し、ほぼ全区間の入力帯域エネルギーに対して一定の正規化係数Bで減算することになる。これを簡単に実現するには、図15に示すように、各帯域に低域遮断フィルタを設ける構成とすればよい。図15は、正規化手段として低域遮断フィルタ307を用いた本発明の信号分析手段の構成を示す図である。すなわち、入力信号を周波数分析した後、各帯域のエネルギーについて低域遮断を行い、その後音声パラメータへと変換することにより、ある程度の正規化の効果が得られる。この場合の低域遮断フィルタは、音声によるスペクトルの変化速度である1Hzから10Hz程度よりも低い周波数、すなわち1Hz以下が好ましい。
y(t)=x(t)−z(t)
z(t)=x(t)*0.02+z(t)*0.98
のような処理を行うと、フレーム周期が10msであれば、0.5Hzで、−1dB、0.24Hzで、約−3dB、0Hzで、−5.7dBの減衰特性となる。この構成の実現するためには、上記式に従うものに限られない。
また、周波数帯域の低域と高域とで、雑音の変化速度が異なるような環境では、帯域ごとに異なる特性の低域遮断フィルタで構成することにより、より使用環境に適した性能改善を図ることができる。
次に、本発明の実施の形態を、図に基づいてスペクトルの視点で説明する。
図11は、図7に示す音声波形を含む音響信号が入力された場合に、E−CMN法による雑音スペクトルの適応が進行する様子を示す図である。図12は、図7に示す音声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音スペクトルの適応が進行する様子を示す図である。図中、網掛け部分は、雑音が正しく推定された帯域とフレームとを示す。
図13は、本発明の音声認識装置を用いた音声認識システムの例を示すブロック図である。音声認識システムは、一般に音響モデル学習装置401と、音声認識装置402とを有して構成される。
音声認識は、一般に、汎用あるいは信号処理用のCPUを用いて、デジタル処理で、実行される。図14は、本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成を示す図である。
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク、ハードディクス等の磁気ディスクやCD(コンパクトディスク)−ROM、MO(光磁気)ディスク、MD(ミニディスク)、DVD(デジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM、EPROM(紫外線消去型ROM)、EEPROM(電気的消去型ROM)、フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
また、上記実施の形態における音声認識装置あるいは電子機器は、モデムを備えてインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
102 パラメータ変換手段
201 平均更新手段
202 減算処理手段
203 音声区間検出手段
301 更新係数取得手段
302 レベル計算手段
303 正規化手段
304 正規化係数取得手段
305 周波数帯域分割手段
306 帯域エネルギー抽出手段
307 低域遮断フィルタ
401 音響モデル学習装置
402 音声認識装置
403 音声データベース
404 信号分析手段
405 音響モデル学習手段
406 言語データベース
407 音響モデル
408 言語辞書
409 信号分析手段
410 尤度演算手段
411 照合手段
501 バス
502 入力手段
503 CPU
504 プログラムメモリ
505 出力手段
Claims (22)
- 入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段と、
前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、
前記抽出された帯域エネルギーを、帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段と、
を、有する信号分析装置。 - 請求項1に記載の信号分析装置であって、
前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されていることを特徴とする信号分析装置。 - 請求項1に記載の信号分析装置であって、
前記抽出された帯域エネルギーの系列から、帯域ごとの条件付平均値を、第1のレベルとして計算するレベル計算手段を、有し、
前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の第1のレベルを所定の係数で乗じた値を減算する
ことを特徴とする信号分析装置。 - 請求項3に記載の信号分析装置であって、
前記レベル計算手段では、前記第1のレベルの計算に加え、前記抽出された帯域エネルギーの系列から、第1のレベルとは異なる、帯域ごとの条件付き平均値の少なくとも1つを、第2のレベルとして計算し、
前記正規化手段では、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の第1のレベルおよび第2のレベルをそれぞれ所定の係数で乗じた値を減算する
ことを特徴とする信号分析装置。 - 請求項3または4に記載の信号分析装置であって、
前記帯域エネルギーの値に応じて1つまたは複数の正規化係数を求める正規化係数取得手段をさらに有し、
前記正規化手段では、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の前記第1のレベルまたは前記第1のレベルおよび複数のレベルに前記正規化係数を乗じた値を減算する
ことを特徴とする信号分析装置。 - 請求項4または5に記載の信号分析装置であって、
前記第1のレベルが、音声を含まない背景雑音の、帯域ごとの条件付き平均値であり、
前記第2のレベルが、音声の、帯域ごとの条件付き平均値であることを特徴とする信号分析装置。 - 信号の正規化を逐次的に行う信号処理装置であって、
入力信号に基づいて第1のレベルを更新し、記憶するレベル計算手段と、
前記第1のレベルに所定の係数を乗じた値を、入力信号から減算する正規化手段と、
前記第1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段とを、備え、
前記レベル計算手段では、前記更新係数を用いて、第1のレベルを、入力信号に近づけることにより、
第1のレベルを、入力信号の条件付平均値とすることを特徴とする信号処理装置。 - 請求項7に記載の信号処理装置であって、
前記第1のレベルと前記入力信号との差に基づいて、正規化係数を取得する正規化係数取得手段を備え、
前記正規化手段では、前記第1のレベルに正規化係数を乗じた値を、入力信号から減算し、
入力レベルに応じて減算量を制御することを特徴とする信号処理装置。 - 請求項7に記載の信号処理装置であって、
前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、
前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、
前記更新係数取得手段では、前記第1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、
前記レベル計算手段では、前記複数のレベルの更新係数を用いて、前記求められた複数のレベルを、更新して、
入力の分布に適した正規化を行うことを特徴とする信号処理装置。 - 請求項8に記載の信号処理装置であって、
前記レベル計算手段では、入力信号に基づいて複数のレベルを更新して記憶し、
前記正規化手段では、前記複数のレベルにそれぞれ所定の係数を乗じた値を、入力信号から減算し、
前記更新係数取得手段では、前記第1のレベルと前記入力信号との差に基づいて、複数のレベルの更新係数を求め、
前記正規化係数取得手段では、複数のレベルに対応した複数の正規化係数を求め、
前記正規化手段では、前記複数のレベルのそれぞれに対応した正規化係数を、それぞれのレベルに乗じた値を、入力信号から減算し、
入力のレベルに応じて適した正規化を行うことを特徴とする信号処理装置。 - 請求項3ないし6のいずれかに記載の信号分析装置であって、
各帯域でのレベル計算手段および正規化手段では、
請求項7ないし10のいずれかに記載の信号処理装置を用いることを特徴とする信号分析装置。 - 請求項11に記載の信号分析装置であって、
低周波に属する帯域と、高周波に属する帯域とでは、所定の係数を異なる値とすることを特徴とする信号分析装置。 - 各時刻の入力信号から得られた帯域ごとの帯域エネルギーを、対数エネルギーとして処理することを特徴とする請求項1ないし6、請求項11または12のいずれかに記載の信号分析装置。
- 請求項1ないし8、請求項11ないし13のいずれかに記載の信号分析装置と、
信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段を有し、
前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認識部とを、有する音声認識装置。 - MFCC(Mel Frequency Cepstrum Coefficients)パラメータの抽出過程において、各帯域エネルギーの正規化を行うことを特徴とする請求項14に記載の音声認識装置。
- 請求項1ないし6、請求項11ないし13のいずれかに記載の信号分析装置をコンピュータに実行させるための信号分析プログラム。
- 請求項7ないし10のいずれかに記載の信号処理装置をコンピュータに実行させるための信号分析プログラム。
- 請求項14または15に記載の音声認識装置をコンピュータに実行させるための音声認識プログラム。
- 請求項17に記載の信号分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 請求項18に記載の信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 請求項19に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 請求項14または15に記載の音声認識装置を有する電子機器であって、
入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて、機能を選択し、実行することを特徴とする電子機器。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003299346A JP4301896B2 (ja) | 2003-08-22 | 2003-08-22 | 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 |
PCT/JP2004/010841 WO2005020212A1 (ja) | 2003-08-22 | 2004-07-29 | 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器 |
CN2004800241642A CN1839427B (zh) | 2003-08-22 | 2004-07-29 | 信号分析装置、信号处理装置、语音识别装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003299346A JP4301896B2 (ja) | 2003-08-22 | 2003-08-22 | 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005070367A true JP2005070367A (ja) | 2005-03-17 |
JP4301896B2 JP4301896B2 (ja) | 2009-07-22 |
Family
ID=34213754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003299346A Expired - Fee Related JP4301896B2 (ja) | 2003-08-22 | 2003-08-22 | 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4301896B2 (ja) |
CN (1) | CN1839427B (ja) |
WO (1) | WO2005020212A1 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007212707A (ja) * | 2006-02-09 | 2007-08-23 | Ricoh Co Ltd | 定着装置及び画像形成装置 |
JP2011203500A (ja) * | 2010-03-25 | 2011-10-13 | Toshiba Corp | 音情報判定装置、及び音情報判定方法 |
JP2012132950A (ja) * | 2010-12-17 | 2012-07-12 | Fujitsu Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
JP2015501450A (ja) * | 2011-11-01 | 2015-01-15 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | オーディオ特徴データの抽出と分析 |
US9390709B2 (en) | 2012-09-25 | 2016-07-12 | Seiko Epson Corporation | Voice recognition device and method, and semiconductor integrated circuit device |
US9564131B2 (en) | 2011-12-07 | 2017-02-07 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
JP2020184100A (ja) * | 2019-04-26 | 2020-11-12 | 株式会社スクウェア・エニックス | 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10629184B2 (en) | 2014-12-22 | 2020-04-21 | Intel Corporation | Cepstral variance normalization for audio feature extraction |
CN104900237B (zh) * | 2015-04-24 | 2019-07-05 | 上海聚力传媒技术有限公司 | 一种用于对音频信息进行降噪处理的方法、装置和系统 |
JP6764028B2 (ja) * | 2017-07-19 | 2020-09-30 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
CN108461081B (zh) * | 2018-03-21 | 2020-07-31 | 北京金山安全软件有限公司 | 语音控制的方法、装置、设备和存储介质 |
CN110797008B (zh) * | 2018-07-16 | 2024-03-29 | 阿里巴巴集团控股有限公司 | 一种远场语音识别方法、语音识别模型训练方法和服务器 |
US10897534B1 (en) * | 2019-09-13 | 2021-01-19 | International Business Machines Corporation | Optimization for a call that waits in queue |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03230200A (ja) * | 1990-02-05 | 1991-10-14 | Sekisui Chem Co Ltd | 音声認識方法 |
JP3230200B2 (ja) * | 1995-06-26 | 2001-11-19 | 農林水産省蚕糸・昆虫農業技術研究所長 | 改質蛋白質繊維又はその繊維製品の製造法 |
JPH10133692A (ja) * | 1996-10-28 | 1998-05-22 | Hitachi Ltd | 録音装置及びカメラ一体型映像音声記録装置 |
JP2002014694A (ja) * | 2000-06-30 | 2002-01-18 | Toyota Central Res & Dev Lab Inc | 音声認識装置 |
EP1376539B8 (en) * | 2001-03-28 | 2010-12-15 | Mitsubishi Denki Kabushiki Kaisha | Noise suppressor |
JP2003195894A (ja) * | 2001-12-27 | 2003-07-09 | Mitsubishi Electric Corp | 符号化装置、復号化装置、符号化方法、及び復号化方法 |
-
2003
- 2003-08-22 JP JP2003299346A patent/JP4301896B2/ja not_active Expired - Fee Related
-
2004
- 2004-07-29 WO PCT/JP2004/010841 patent/WO2005020212A1/ja active Application Filing
- 2004-07-29 CN CN2004800241642A patent/CN1839427B/zh not_active Expired - Fee Related
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007212707A (ja) * | 2006-02-09 | 2007-08-23 | Ricoh Co Ltd | 定着装置及び画像形成装置 |
JP2011203500A (ja) * | 2010-03-25 | 2011-10-13 | Toshiba Corp | 音情報判定装置、及び音情報判定方法 |
JP2012132950A (ja) * | 2010-12-17 | 2012-07-12 | Fujitsu Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
JP2015501450A (ja) * | 2011-11-01 | 2015-01-15 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | オーディオ特徴データの抽出と分析 |
CN108551686A (zh) * | 2011-11-01 | 2018-09-18 | 高通股份有限公司 | 音频特征数据的提取及分析 |
US9564131B2 (en) | 2011-12-07 | 2017-02-07 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US10381007B2 (en) | 2011-12-07 | 2019-08-13 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US11069360B2 (en) | 2011-12-07 | 2021-07-20 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US11810569B2 (en) | 2011-12-07 | 2023-11-07 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US9390709B2 (en) | 2012-09-25 | 2016-07-12 | Seiko Epson Corporation | Voice recognition device and method, and semiconductor integrated circuit device |
JP2020184100A (ja) * | 2019-04-26 | 2020-11-12 | 株式会社スクウェア・エニックス | 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 |
JP7421869B2 (ja) | 2019-04-26 | 2024-01-25 | 株式会社スクウェア・エニックス | 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1839427B (zh) | 2010-04-28 |
CN1839427A (zh) | 2006-09-27 |
WO2005020212A1 (ja) | 2005-03-03 |
JP4301896B2 (ja) | 2009-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1199708B1 (en) | Noise robust pattern recognition | |
US8131544B2 (en) | System for distinguishing desired audio signals from noise | |
US7319960B2 (en) | Speech recognition method and system | |
EP1355296B1 (en) | Keyword detection in a speech signal | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
Hirsch et al. | A new approach for the adaptation of HMMs to reverberation and background noise | |
KR20180087942A (ko) | 음성 인식 방법 및 장치 | |
JP2000132177A (ja) | 音声処理装置及び方法 | |
US20060136206A1 (en) | Apparatus, method, and computer program product for speech recognition | |
US8473282B2 (en) | Sound processing device and program | |
Cohen et al. | Spectral enhancement methods | |
JP4301896B2 (ja) | 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器 | |
JP3451146B2 (ja) | スペクトルサブトラクションを用いた雑音除去システムおよび方法 | |
CN112951259B (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
JP6759898B2 (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
You et al. | Spectral-domain speech enhancement for speech recognition | |
JP2000132181A (ja) | 音声処理装置及び方法 | |
US10446173B2 (en) | Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program | |
JP2000122688A (ja) | 音声処理装置及び方法 | |
KR20070061216A (ko) | Gmm을 이용한 음질향상 시스템 | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
JP2003271190A (ja) | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 | |
Kotnik et al. | Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems | |
Oonishi et al. | A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090324 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090421 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |