JP4244514B2 - 音声認識方法および音声認識装置 - Google Patents
音声認識方法および音声認識装置 Download PDFInfo
- Publication number
- JP4244514B2 JP4244514B2 JP2000322914A JP2000322914A JP4244514B2 JP 4244514 B2 JP4244514 B2 JP 4244514B2 JP 2000322914 A JP2000322914 A JP 2000322914A JP 2000322914 A JP2000322914 A JP 2000322914A JP 4244514 B2 JP4244514 B2 JP 4244514B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- acoustic model
- data
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 230
- 239000013598 vector Substances 0.000 claims abstract description 119
- 238000004458 analytical method Methods 0.000 claims abstract description 97
- 230000003595 spectral effect Effects 0.000 claims abstract description 71
- 238000011410 subtraction method Methods 0.000 claims description 64
- 238000010606 normalization Methods 0.000 claims description 41
- 241000287462 Phalacrocorax carbo Species 0.000 claims 1
- 230000000717 retained effect Effects 0.000 claims 1
- 230000008030 elimination Effects 0.000 abstract 4
- 238000003379 elimination reaction Methods 0.000 abstract 4
- 238000013500 data storage Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 7
- 239000000654 additive Substances 0.000 description 6
- 230000000996 additive effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Description
【発明の属する技術分野】
本発明は種々の背景雑音が存在する環境下においても高い認識性能を可能とする音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置に関する。
【0002】
【従来の技術】
近年、音声認識機能を搭載した機器が広く用いられるようになってきている。このような機器の使用環境は様々であり、雑音の多い環境下で使用せざるを得ない場合も多い。
【0003】
このような場合、当然のことながら雑音に対する対策を講じる必要が出てくる。雑音の一例としては、たとえば、自動車の走行音、エアーコンディショナ(エアコンという)の運転音などの定常的な雑音が身近なものとして考えられるが、これらの定常的な雑音の存在する環境下での音声認識を行う方法として、従来、以下に示すような音声認識方法が用いられている。
【0004】
その第1の例として、雑音のない環境下で収録した音声データに上述したような定常的な雑音から得られた雑音データを重畳させた音声データを生成し、この生成された音声データを用いて学習された音声認識用の音響モデルを作成し、その音響モデルを用いて音声認識を行う方法がある。
【0005】
また、第2の例としては、スペクトラル・サブトラクション(Spectral Subtraction)などの雑音除去方法を用いて音声認識を行う方法もある。この音声認識方法は、 入力音声データから雑音成分を除去して、雑音の除去された音声データに対して音声認識を行うが、その場合でも、上述同様、雑音のない環境下で収録した音声データに定常的な雑音から得られた雑音データを重畳させた音声データを生成し、この生成された音声データからスペクトラル・サブトラクション法による雑音除去方法を用いて雑音を除去したのちに、その雑音の除去された音声データを用いて学習した音声認識用の音響モデルを作成しておき、その音響モデルを用いて音声認識を行うことがなされている。
【0006】
【発明が解決しようとする課題】
上述したような音声認識方法を採用することによって、何の対策も講じない場合に比べ、雑音環境下における認識性能の向上はある程度は可能となると考えられるが、まだまだ問題点も多い。
【0007】
すなわち、定常的な雑音は、上述したような自動車の走行音、エアコンの運転音などの他にも、雑踏による雑音など様々な種類があり、それぞれが異なった性質を持っている。
【0008】
上述した従来の2つの例で述べた音響モデルは、音響モデルを学習する際、ある特定の雑音のみを用いて学習している場合が多い。たとえば、自動車の走行音を雑音データとして用い、その雑音データを音声データに重畳させた音声データを生成し、この生成された音声データからスペクトラル・サブトラクションによる雑音除去方法を用いて雑音を除去したのちに、その雑音の除去された音声データを用いて学習した音声認識用の音響モデルを作成する。
【0009】
このように、ある特定の雑音について作成された音響モデルを用いて音声認識を行えば、そのような雑音が存在する環境下では比較的好結果が得られるが、状況によっては、それ以外の雑音が存在することも十分あり得る。その場合の認識率は当然のことながら低下する。
【0010】
また、雑音の種類以外にも、実際に認識すべき音声信号と雑音信号の比であるS/N比の大きさによっても認識性能は異なってくる。
【0011】
そこで本発明は、雑音の種類やS/N比の大きさに対応した高い認識性能を得ることができ、しかも、演算能力の低いCPUを用いた安価なハードウエアで実現可能とすることを目的としている。
【0012】
【課題を解決するための手段】
上述した目的を達成するために本発明の音声認識方法は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら雑音が重畳されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、雑音の種類に対応する音響モデル群を作成してそれを保持しておく。そして、認識時には、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定し、その判定結果に基づいて、前記雑音の種類に対応した音響モデル群の中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにしている。
【0013】
また、本発明の音声認識処理プログラムを記録した記録媒体は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データを特徴分析処理して得られた特徴ベクトルによって、雑音の種類に対応する音響モデル群を作成して、それを音響モデル群記憶手段に記憶させる手順と、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定し、その判定結果に基づいて、前記音響モデル群記憶手段に記憶された音響モデル群の中から所定の音響モデルを選択する手順と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う手順と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う手順とをその処理プログラムに含むものである。
【0014】
これら各発明において、前記雑音除去手法は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であって、その場合、前記音響モデル群は、前記種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、雑音除去されたそれぞれの音声データから特徴ベクトルを得て、その特徴ベクトルを用いて作成されている。そして、認識時には、前記雑音が重畳された認識対象音声データに対し、周波数領域での特徴データを得るための第1の音声特徴分析を行い、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その分析された特徴データを保存し、音声区間であると判定された場合には、前記保存された特徴データによって、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音の種類対応に用意された音響モデル群の中から所定の音響モデルを選択し、前記雑音が重畳された認識対象音声データに対し、前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去された音声データに対し、音声認識に必要な特徴データを得るための第2の音声特徴分析を行い、その特徴分析結果に対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0015】
また、前記雑音除去手法は、ケプストラム平均正規化法による雑音除去手法であってもよく、その場合、前記音響モデルは、前記種類の異なる雑音が重畳されたそれぞれの音声データに対し、ケプストラム平均正規化法による雑音除去手法を用いて雑音除去を行い、それによって得られたそれぞれの音声データの特徴ベクトルを用いて作成されている。そして、認識時には、前記雑音が重畳された認識対象音声データに対し、ケプストラム係数を表す特徴ベクトルを求めるための第1の音声特徴分析を行い、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その特徴ベクトルを保存し、音声区間であると判定された場合には、その音声区間の開始から終了までの音声区間に対応する特徴ベクトルを保存し、前記保存された雑音区間の特徴ベクトルによって、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音の種類対応に用意された音響モデル群の中から所定の音響モデルを選択し、 前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルを用い、ケプストラム平均正規化法による雑音除去手法を用いて雑音除去処理を行い、その雑音除去処理後の特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0016】
さらに、前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルとすることも可能で、その場合の音響モデルは、複数種類の雑音ごとにS/N比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、このそれぞれ音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成されたそれぞれの雑音の種類ごとに複数段階のS/N比に対応した音響モデルとしている。
【0017】
そして、音響モデルがそれぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルである場合、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからS/N比を求める処理を行い、判定された雑音種類と求められたS/N比に基づいて音響モデルの選択を行うようにしている。
【0018】
また、本発明のもう一つの音声認識方法は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対しケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、その特徴ベクトルによって、それぞれの雑音対応の音響モデル群を作成してそれを保存しておく。そして、認識時には、雑音の重畳された認識対象音声データに対し、周波数領域での特徴データを得るための第1の音声特徴分析を行い、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その分析された特徴データを保存し、音声区間であると判定された場合には、その音声区間に対し前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去された音声区間のデータに対し、ケプストラム係数を求めるための第2の音声特徴分析処理を行い、その音声区間の特徴ベクトルを保存し、音声区間終了後に、前記保存された雑音区間の特徴データによって、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音対応に用意された音響モデル群の中から所定の音響モデルを選択し、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルに対し、ケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、そのケプストラム平均正規化法を適用して得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0019】
また、もう一つの音声認識処理プログラムを記録した記録媒体は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対しケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、その特徴ベクトルによって、それぞれの雑音対応の音響モデル群を作成し、それを音響モデル群記憶手段に記憶させる手順と、 雑音の重畳された認識対象音声データに対し、周波数領域での特徴データを得るための第1の音声特徴分析を行う手順と、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その分析された特徴データを保存する手順と、音声区間であると判定された場合には、その音声区間に対し前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行う手順と、その雑音除去された音声区間のデータに対し、ケプストラム係数を求めるための第2の音声特徴分析処理を行い、その音声区間の特徴ベクトルを保存する手順と、音声区間終了後に、前記保存された雑音区間の特徴分析データによって、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音対応に用意された音響モデル群の中から所定の音響モデルを選択する手順と、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルに対し、ケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得る手順と、そのケプストラム平均正規化法を適用して得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行う手順とをその処理プログラムに含むものである。
【0020】
これら音声認識方法および音声認識処理プログラムを記録した記録媒体において、前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルとし、その場合の音響モデルは、複数種類の雑音ごとにS/N比の異なるそれぞれの雑音を雑音の種類ごとに重畳させたそれぞれの音声データを作成し、この音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対し、ケプストラム平均正規化法を適用して得られたそれぞれの音声データの特徴ベクトルを用いて作成されたそれぞれの雑音の種類ごとに複数段階のS/N比対応の音響モデルとしている。
【0021】
そして、音響モデルがそれぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルである場合、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからS/N比を求める処理を行い、判定された雑音種類と求められたS/N比に基づいて音響モデルの選択を行うようにする。
【0022】
さらに、本発明の音声認識方法は、S/N比の異なるある特定の種類の雑音がそれぞれのS/N比ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、それぞれのS/N比に対応する音響モデル群を作成してそれを保持しておき、認識時には、 雑音が重畳された認識対象音声データに対し、重畳されているS/N比を判定し、その判定結果に基づいて、前記S/N比に対応した音響モデル群の中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにしたものでもよい。
【0023】
さらに、本発明の音声認識処理プログラムを記録した記録媒体は、 S/N比の異なるある特定の種類の雑音がそれぞれのS/N比ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、それぞれのS/N比に対応する音響モデル群を作成して、それを音響モデル群記憶手段に記憶させる手順と、雑音が重畳された認識対象音声データに対し、重畳されているS/N比を判定し、その判定結果に基づいて、前記S/N比に対応した音響モデル群の中から所定の音響モデルを選択する手順と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う手順と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う手順とを含んだ処理プログラムとしてもよい。
【0024】
これら各発明において、雑音除去手法は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法であってもよく、ケプストラム平均正規化法による雑音除去手法であってもよい。
【0025】
また、本発明の音声認識装置は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成された雑音の種類に対応する音響モデル群と、この音響モデル群を記憶する音響モデル群記憶手段と、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定する雑音判定手段と、その判定結果に基づいて、前記雑音の種類に対応した音響モデル群の中から所定の音響モデルを選択する音響モデル群選択手段と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識手段とを有した構成としている。
【0026】
この音声認識装置において、前記雑音除去手段が行う雑音除去手法は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であって、その場合、前記音響モデル群は、前記種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、雑音除去されたそれぞれの音声データから特徴ベクトルを得て、その特徴ベクトルを用いて作成される。そして、これによって作成された音響モデル群を記憶する音響モデル群記憶手段と、前記雑音が重畳された認識対象音声データに対し、周波数領域での特徴分析データを得るための第1の音声特徴分析を行う第1の音声特徴分析手段と、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定した場合には、その雑音区間の特徴データを特徴データ記憶手段に保存する雑音区間/音声区間判定手段と、音声区間であると判定された場合には、前記保存された特徴データによって、重畳されている雑音の種類を判定する雑音種類判定手段と、その判定結果に基づいて、前記雑音の種類対応に用意された前記音響モデル群の中から所定の音響モデルを選択する音響モデル選択手段と、前記雑音が重畳された認識対象音声データに対し、前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声データに対し、音声認識に必要な特徴データを得るための第2の音声特徴分析を行う第2の音声特徴分析手段と、その特徴分析結果に対し、前記選択された音響モデルを用いて音声認識を行う音声認識手段とを有した構成としている。
【0027】
また、前記雑音除去手段が行う雑音除去手法は、ケプストラム平均正規化法による雑音除去手法であって、その場合、前記音響モデルは、前記種類の異なる雑音が重畳されたそれぞれの音声データに対し、ケプストラム平均正規化法による雑音除去手法を用いて雑音除去を行い、それによって得られたそれぞれの音声データの特徴ベクトルを用いて作成される。そして、これによって作成された音響モデル群を記憶する音響モデル群記憶手段と、前記雑音が重畳された認識対象音声データに対し、ケプストラム係数を表す特徴ベクトルを求めるための特徴分析を行う特徴分析手段と、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定した場合には、その雑音区間の特徴ベクトルを特徴データ記憶手段に保存し、音声区間であると判定した場合には、その音声区間の特徴ベクトルを特徴分析データ記憶手段に保存する雑音区間/音声区間判定手段と、この特徴データ記憶手段に保存された雑音区間の特徴ベクトルによって、重畳されている雑音の種類を判定する雑音種類判定手段と、その判定結果に基づいて、前記雑音の種類対応に用意された前記音響モデル群の中から所定の音響モデルを選択する音響モデル選択手段と、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルを用い、ケプストラム平均正規化法による雑音除去手法を用いて雑音除去処理を行う雑音除去手段と、その雑音除去処理によって得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行う音声認識手段と有した構成としている。
【0028】
前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルとし、その場合の音響モデルは、複数種類の雑音ごとにS/N比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、このそれぞれ音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成されたそれぞれの雑音の種類ごとに複数段階のS/N比に対応した音響モデルである。
【0029】
そして、音響モデルがそれぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルである場合、前記雑音種類判定手段は、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからS/N比を求める処理を行い、前記音響モデル選択部は、判定された雑音種類と求められたS/N比に基づいて音響モデルの選択を行うようにしている。
【0030】
また、本発明のもう一つの音声認識装置は、種類の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これら種類の異なる雑音が重畳されたそれぞれの音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対しケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、その特徴ベクトルによって作成されたそれぞれの雑音対応の音響モデル群と、この音響モデル群を記憶する音響モデル群記憶手段と、雑音の重畳された認識対象音声データに対し、周波数領域での特徴データを得るための第1の音声特徴分析を行う第1の音声特徴分析手段と、その特徴分析結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、その特徴データを特徴データ記憶手段に保存する雑音区間/音声区間判定手段と、音声区間であると判定された場合には、その音声区間に対し前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法によるノイズ除去手法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声区間のデータに対し、ケプストラム係数を求めるための第2の特徴分析処理を行いその音声区間の特徴ベクトルを特徴データ記憶手段に保存する第2の音声特徴分析部と、音声区間終了後に、前記保存された雑音区間の特徴データによって、重畳されている雑音の種類を判定する雑音種類判定手段と、その判定結果に基づいて、前記雑音対応に用意された音響モデルの中から所定の音響モデルを選択する音響モデル選択手段と、前記雑音の重畳された音声区間に対し、前記保存されている音声区間の特徴ベクトルを用い、ケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを出力するケプストラム平均正規化演算部と、その特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行う音声認識部とを有した構成としている。
【0031】
このような音声認識装置において、前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルとし、その場合の音響モデルは、複数種類の雑音ごとにS/N比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、それぞれ音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データに対し、ケプストラム平均正規化法を適用して得られたそれぞれの音声データの特徴ベクトルを用いて作成されたそれぞれの雑音の種類ごとに複数段階のS/N比対応の音響モデルである。
【0032】
そして、音響モデルがそれぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルである場合、前記雑音種類判定手段は、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからS/N比を求める処理を行い、前記音響モデル選択部は、判定された雑音種類と求められたS/N比に基づいて音響モデルの選択を行うようにしている。
【0033】
さらに本発明の音声認識装置は、S/N比の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成されたS/N比に対応する音響モデル群と、この音響モデル群を記憶する音響モデル群記憶手段と、雑音が重畳された認識対象音声データに対し、重畳されている雑音のS/N比を判定するS/N比判定手段と、その判定結果に基づいて、前記S/N比に対応した音響モデル群の中から所定の音響モデルを選択する音響モデル群選択手段と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識手段とを有した構成としたものであってもよい。
【0034】
その場合の雑音除去手法は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であってもよく、ケプストラム平均正規化法による雑音除去手法であってもよい。
【0035】
このように本発明は、種類の異なる雑音が重畳されたそれぞれの音声データを作成し、これらそれぞれの雑音が重畳されたそれぞれのの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データを用いて、雑音の種類に対応する音響モデルを作成しておく。そして、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音の種類に対応した音響モデルの中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0036】
これによって、重畳されている雑音の種類に応じた最適な音響モデルを用いての認識処理が可能となり、所定の雑音の存在する環境下であっても高い認識率を得ることができる。
【0037】
特に、機器の使用環境に2、3種類の雑音が定常的に存在するような場合、それらの雑音ごとの音響モデルを作成し、その音響モデルを用いて、上述したような音声認識処理を行うことで、高い認識率を実現できる。
【0038】
そして、本発明で用いられる雑音除去手法の1つとしては、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であって、その場合、前記音響モデル作成時における雑音除去は、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いて行う。また、実際の認識時には、雑音区間の特徴分析データによって、重畳されている雑音の種類を判定したのち、その判定結果に基づいて、最適な音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去された音声データを特徴分析して得られた結果に対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0039】
このように、雑音除去方法としてスペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いることにより、雑音除去処理を少ない演算量で行うことができ、演算能力の低いCPUでも十分対応することができる。これにより、小規模で安価なハードウエア上での実現が可能となる。また、このスペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法は自動車の走行音やエアコンの運転音、街中の雑踏などの雑音(一般に加法性雑音といわれている)の除去に効果があるとされているので、このような雑音の多い環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【0040】
また、雑音除去手法の他の例として、ケプストラム平均正規化法による雑音除去手法を用いることもこともできる。その場合、前記音響モデル作成時における雑音除去は、ケプストラム平均正規化法を用いて行う。また、実際の認識時には、雑音区間の特徴分析データによって、重畳されている雑音の種類を判定したのち、その判定結果に基づいて、最適な音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データの音声区間に対し、ケプストラム平均正規化法を用いて雑音除去処理を行い、その雑音除去処理によって得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0041】
このように、雑音除去方法としてケプストラム平均正規化法を用いることにより、上述同様、雑音除去処理を少ない演算量で行うことができ、演算能力の低いCPUでも十分対応することができる。これにより、小規模で安価なハードウエア上での実現が可能となる。また、このケプストラム平均正規化法はマイクロホンの特性やエコーなど空間伝達特性に由来する歪みなどの雑音(一般に乗法性雑音といわれている)の除去に効果があるとされているので、このような雑音が発生しやすい環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【0042】
さらに、それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルとし、実際の認識時には、前記雑音が重畳された認識対象音声データに対し、雑音区間の雑音の大きさと音声区間の音声の大きさからS/N比を求め、求められたS/N比と雑音の種類に応じた音響モデルを選択するようにしているので、雑音の種類だけではなくその大きさに応じた最適な音響モデルを用いての認識が行える。これによって、それぞれの雑音環境下において音声認識を行う際、より一層、高い認識率を得ることが可能となる。
【0043】
また、 スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法とケプストラム平均正規化法の両方を用いた音響モデルを作成することも可能である。この場合、実際の音声認識を行う場合も、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いた雑音除去を行ったのちに、その雑音除去された音声データに対し、ケプストラム平均正規化法で特徴ベクトルを生成し、それを音声認識用の特徴ベクトルとして音声認識部に渡すようにしているので、さらに高い認識性能を得ることができ、また、この場合、前述した加法性雑音や乗法性雑音など幅広い雑音に対する対応が可能となる。
【0044】
さらに本発明は、ある特定の決まった雑音について複数のS/Nを考慮した音声認識を行うことも可能である。その場合、S/N比の異なるある特定の種類の雑音がそれぞれのS/N比ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、それぞれのS/N比に対応する音響モデル群を作成しておく。そして、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されているS/N比を判定し、その判定結果に基づいて、それぞれのS/N比に対応した音響モデル群の中から所定の音響モデルを選択し、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにしている。
【0045】
これは、雑音の種類は特定できてもその大きさ(S/N比)が変動することの多い環境下での音声認識を行う場合に好都合なものとなり、そのような環境下での認識率を高くすることができる。
【0046】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の音声認識方法および音声認識装置についての説明であるとともに、本発明の音声認識処理プログラムを記録した記録媒体における音声認識処理プログラムの具体的な処理内容をも含むものである。
【0047】
本発明は基本的には、処理対象となる音声に重畳している雑音を除去して、雑音の除去された音声データに対して音声認識を行うものであるが、その音声認識に用いられる音響モデルは、雑音(定常的な雑音)の種類を幾つか想定し、それぞれの雑音をある音声に対する音声データ(雑音の全く無いクリーンな音声データ)に重畳させて雑音の重畳された音声データを生成し、その雑音の重畳された音声データから雑音を除去する処理を行い、その雑音除去処理後の音声波形(雑音の無いクリーンな音声データとは多少異なる)を用いて音響モデルを作成する。
【0048】
すなわち、予め用意された幾つかの雑音の種類ごとに、上述した手順でノイズの種類ごとにその雑音の除去された音響モデルが作成されることになる。
【0049】
そして、実際の音声認識を行う場合には、認識対象の音声データに重畳されている雑音の種類を判定するとともに、その雑音を除去する処理を行い、雑音の種類に応じて音響モデルを選択して、選択された音響モデルを用いて音声認識処理を行う。
【0050】
さらに、これらそれぞれの雑音の種類とともに、雑音と音声データの大きさの比であるS/N比を幾つかに設定した音響モデルを作成する。たとえば、雑音の種類を雑音N1、雑音N2、雑音N3の3種類を選んだとすれば、これら雑音の種類だけを考慮した場合には、3種類の音響モデルが作成されるが、それぞれの雑音について2段階のS/N比を考慮するとすれば、それぞれの雑音について雑音の大きさを2種類設定して、上述した処理を行って音響モデルを作成することになるので、作成される音響モデルは6種類となる。
【0051】
たとえば、 S/N比がある値L1未満(S/N<L1)の場合と、L1以上(S/N≧L1)の場合の2段階に設定したとすれば、雑音N1に対しては、S/N比がL1未満の場合の音響モデルと、L1以上の場合の音響モデルの2つの音響モデルが作成される。同様にして、雑音N2,N3に対しても、それぞれ、S/NがL1未満の場合の音響モデルと、L1以上の場合の音響モデルの2個づつの音響モデルが作成され、合計6種類の音響モデルが作成されることになる。
【0052】
ところで、上述の雑音除去を行う技術としては、前述したように、スペクトラル・サブトラクション(Spectral Subtraction:以下、SSという)法または連続スペクトラル・サブトラクション(Continuous Spectral Subtraction:以下、CSSという)があるが、これは、特に、自動車の走行音、エアコンの運転音、街の雑踏などどこに音源が存在するのかが特定しにくい雑音(前述したように、加法性雑音と呼ばれている)の除去に効果のある方法といわれている。
【0053】
これらSS法またはCSS法とは別に、ケプストラム平均正規化(Cepstrum Mean Normarization:以下、CMNという)法による雑音除去方法もある。この方法は、マイクロホン特性やエコーなど空間伝達特性に由来する歪みなどの雑音(前述したように、乗法性雑音と呼ばれている)の除去に効果がある方法であるといわれている。
【0054】
そこで本発明の実施の形態では、雑音除去方法としてSS法またはCSS法を用いた場合を第1の実施の形態、CMN法を用いた場合を第2の実施の形態、その両方を用いた場合を第3の実施の形態として説明する。
【0055】
〔第1の実施の形態〕
図1はこの第1の実施の形態の音声認識装置の概略構成を示す図であり、構成要素のみを列挙すれば、マイクロホン1、アンプやA/D変換器を有する入力音声処理部2、第1の音声特徴分析部3、雑音区間/音声区間判定部4、特徴分析データ記憶部5、雑音種類判定/音響モデル選択部6、音響モデル群記憶部7、雑音除去部8、第2の音声特徴分析部9、音声認識部10、言語モデル記憶部11などを有した構成となっている。これら各構成要素の機能などについては図2のフローチャートを参照した動作説明により逐次説明する。
【0056】
図2において、A/D変換後の認識対象音声データに対し、まず、第1の音声特徴分析部3によって、1フレームごと(1フレームの時間長はたとえば20数msec程度)に音声特徴分析が行われる(ステップs1)。この音声特徴分析は、周波数領域での音声特徴分析であり、その周波数分析手法として、たとえば、FFT(高速フーリエ変換)などを用いた音声特徴分析であるとする。
【0057】
そして、雑音区間/音声区間判定部4は、その音声特徴分析結果から得られるパワーの大きさや周波数の特徴などから、音声データが雑音区間であるか音声区間であるかを判定する(ステップs2)。その判定結果により雑音区間であると判定された場合には、最新のnフレーム分の特徴データを特徴データ記憶部5に記憶させておく(ステップs3)。このステップs1〜s3の処理を繰り返し、やがて、音声区間に入ったと判定されると、雑音種類判定/音響モデル選択部6により雑音種類判定動作と音響モデル選択動作に入る。この雑音種類判定動作と音響モデル選択動作について以下に説明する。
【0058】
まず、この雑音種類判定動作と音響モデル選択動作の開始指示があるか否かを見て(ステップs4)、開始指示があれば、雑音の種類と大きさ(S/N比)を判定し、かつ、その判定結果に基づく音響モデル選択動作を行う(ステップs5)。
【0059】
ここで、雑音の種類と大きさの判定は、ステップs3において特徴データ記憶部5に記憶された最新のnフレーム分の雑音区間の特徴データおよび第1の音声特徴分析処理で得られる音声区間の幾つかのフレームごとの特徴データを用いて行う。これらそれぞれの特徴データからは周波数成分の特徴の他にパワーなども得られるため、雑音の種類やパワーがわかるとともに、音声のパワーがわかる。
【0060】
たとえば、この第1の実施の形態では、雑音として自動車の走行音、エアコンの運転音、街中の雑踏などの定常的な雑音を想定している。ここでは、このような定常的な雑音として3種類を考え、それを雑音N1、雑音N2、雑音N3で表すものとする。したがって、雑音区間のnフレーム分の特徴データを調べることによって、それが雑音N1,N2,N3のどれに近いかを判定することができる。
【0061】
また、雑音のパワーと音声のパワーがわかれば、S/N比を求めることができる。なお、S/N比を求めるには、音声区間のパワーがある程度の大きさを持ったところでS/N比を計算する必要があるため、たとえば、音声区間における数フレーム分もしくは全フレーム分の最大値や平均値を用いて、S/N比の計算を行う。
【0062】
このようにして、雑音の種類が判定されるとともにS/N比が求められると、次に、音響モデル選択動作を行う。この第1の実施の形態では、音響モデルは、3種類の定常的な雑音N1,N2,N3を想定し、これら3種類の雑音N1,N2,N3に対し、S/N比の値がL1未満の音響モデルと、L1以上の音響モデルを用意してある。
【0063】
たとえば、この第1の実施の形態では、雑音の種類が雑音N1でS/N比がL1未満である場合には音響モデルM1、雑音N1でS/N比がL1以上である場合には音響モデルM2、雑音N2でS/N比がL1未満である場合には音響モデルM3、雑音N2でS/N比がL1以上である場合には音響モデルM4、雑音N3でS/N比がL1未満である場合には音響モデルM5、雑音N3でS/N比がL1以上である場合には音響モデルM6というように対応付けられているとする。したがって、音響モデル群記憶部7には、これら6種類の音響モデルM1,M2,・・・,M6が保存されている。これらの音響モデルM1,M2,・・・,M6は次のようにして作成される。
【0064】
すなわち、雑音N1,N2,N3とそれぞれの雑音について2段階のS/N比(L1未満かL1以上か)を有する6パターンの雑音を用意し、これら6パターンの雑音を雑音の全くない音声データに重畳させることで、6パターンの音声データを作成する。
【0065】
この6パターンの音声データは、S/N比がL1未満の雑音N1が重畳された音声データ、S/N比がL1以上の雑音N1が重畳された音声データ、 S/N比がL1未満の雑音N2が重畳された音声データ、S/N比がL1以上の雑音N2が重畳された音声データ、 S/N比がL1未満の雑音N3が重畳された音声データ、S/N比がL1以上の雑音N3が重畳された音声データの6パターンの音声データである。
【0066】
これら6パターンのそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去された6パターンの音声データを特徴分析処理して得られた特徴ベクトルを用いることで、6種類の音響モデルM1,M2,・・・,M6が作成される。
【0067】
ここで、ステップs5における処理において、雑音の種類が雑音N1に近いと判定され、 求められたS/N比が(S/N)<L1、つまりL1未満であった場合には、音響モデル群記憶部7から音響モデルM1が選択される。
【0068】
このようにして、ノイズの種類とS/N比に応じた音響モデルが選択されると、次に、雑音除去部8による雑音除去処理がなされる(ステップs6)。この雑音除去処理は、この第1の実施の形態ではSS法またはCSS法による雑音除去処理であり、前述したステップs3において特徴データ記憶部5に記憶された最新のnフレーム分の雑音区間の特徴データと、音声区間の特徴データを用いてスペクトラル減算を行う。これによって、雑音の除去された音声データを得ることができる。ただし、このような雑音除去処理されたあとであっても、音声データには、雑音の影響がわずかではあるが残されたものとなっている。
【0069】
そして、その雑音除去処理後の音声データに対して第2の音声特徴分析部9が特徴分析処理を行う(ステップs7)。この第2の音声特徴分析部9による特徴分析処理をここでは第2の音声特徴分析処理と呼ぶことにする。
【0070】
この第2の音声特徴分析処理は、音声認識部10が音声認識を行う際に用いるケプストラム係数を求める処理である。なお、ステップs1にて行われている特徴分析処理がたとえばFFTなどを用いた周波数分析手法であり、その特徴分析結果が周波数領域での音声特徴データとなっているので、この第2の音声特徴分析処理では、ケプストラム係数としてメルケプストラム係数(Mel Frequency Cepstrum Coeffcients)を求める。
【0071】
この第2の音声特徴分析処理によって得られたメルケプストラム係数は音声認識部10に与えられ、音声認識部10では、そのメルケプストラム係数に対して音声認識処理を行うが、このとき用いる音響モデルは、ステップs5によって選択された音響モデル(上述した例では音響モデルM1)であり、その音響モデルM1と言語モデル記憶部11に保存されている言語モデルを用いて音声認識を行う。
【0072】
また、ステップs7における第2の音声特徴分析のあとは、音声区間終了か否かを判断して(ステップs8)、音声区間がすべて終了していれば、処理は終了し、音声区間が終わっていなければ、ステップs1に処理が戻って同様の処理を行う。
【0073】
すなわち、第1の音声特徴分析を行い(ステップs1)、雑音区間か音声区間かを判定し(ステップs2)、この判定結果が音声区間であれば、ステップs4以降の処理に入るが、このとき、音響モデル選択動作開始指示がない場合には、雑音の種類と大きさ(S/N比)の判定およびその判定結果に基づく音響モデル選択動作が終了しているか否かを判断して(ステップs9)、その処理が終了していれば、雑音除去処理(ステップs6)を行い、処理が終了していなければ、第1の音声特徴分析処理によって得られた音声区間の特徴データを記憶する処理を行う(ステップs10)。
【0074】
以上のような一連の処理が音声区間が終了するまで行われる。以上説明したように、音声認識対象となる音声データに対し、その音声データに重畳している雑音の種類とS/N比の大きさに応じた音響モデルが選択され、選択された音響モデルと予め用意されている言語モデルを用いて音声認識を行うようにしている。
【0075】
なお、この第1の実施の形態で用いられる6種類の音響モデルM1,M2,・・,M6は、前述したように、2段階のS/N比を有する3種類の雑音N1,N2,N3を、音声データ(雑音の全く無いクリーンな音声データ)に重畳させて、雑音の重畳された6パターンの音声データを生成し、その6パターンの音声データに対しそれぞれ雑音を除去する処理(SS法またはCSS法による雑音除去処理)を行い、その雑音除去処理後の6パターンの音声データ(雑音の無いクリーンな音声データとは異なり、ノイズの影響が多少残された音声データ)を用いて作成されたものである。つまり、これら6種類の音響モデルは、実際の音声認識処理対象となる音声データに近い音声データにより作成された音響モデルであると言える。
【0076】
したがって、実際の音声認識処理対象となる音声データに対し、その音声データに重畳されている雑音の種類とS/N比の大きさに基づいて、最適な音響モデルが選択され、選択された音響モデルを用いて音声認識を行うことにより、より一層、高い認識性能を得ることができる。
【0077】
また、この第1の実施の形態では、雑音除去方法として、SS法またはCSS法を用いているので、雑音除去処理を少ない演算量で行うことができ、演算能力の低いCPUでも十分対応することができる。
【0078】
これにより、小規模で安価なハードウエア上での実現が可能となる。また、このSS法は自動車の走行音やエアコンの運転音、街中の雑踏などの雑音除去に効果があるとされているので、このような雑音の多い環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【0079】
〔第2の実施の形態〕
第2の実施の形態は、雑音除去方法として、ケプストラム平均正規化法(CMN法)を用いたものであり、図3はこの第2の実施の形態の音声認識装置の概略構成を示す図であり、構成要素のみを列挙すれば、マイクロホン1、アンプやA/D変換器を有する入力音声処理部2、音声特徴分析部21、雑音区間/音声区間判定部4、特徴データ記憶部5、雑音種類判定/音響モデル選択部6、音響モデル群記憶部7、雑音除去部8、音声認識部10、言語モデル記憶部11などを有した構成となっている。これら各構成要素の機能などについては図4のフローチャートを参照した動作説明により逐次説明する。
【0080】
図4において、まず、音声特徴分析部21がA/D変換後の処理対象音声データに対し、1フレームごと(1フレームの時間長はたとえば20数msec程度)に音声特徴分析を行う(ステップs21)。この音声特徴分析はこの第2の実施の形態ではケプストラム係数(たとえば、メルケプストラム係数やLPCケプストラム係数)を求めるための特徴分析であるとする。
【0081】
そして、その音声特徴分析結果に基づいて、雑音区間であるか音声区間であるかを雑音区間/音声区間判定部4によって判定し(ステップs22)、雑音区間であると判定された場合には、この雑音区間/音声区間判定部4は、さらに、その雑音区間が音声区間の時間軸方向前方に存在する雑音区間であるか、音声区間の時間軸方向後方に存在する雑音区間であるかを判定する(ステップs23)。
【0082】
この判定の結果、音声区間の時間軸方向前方に存在する雑音区間である場合には、特徴分析されて得られた最新のn1フレーム分の特徴データ(ケプストラム係数の特徴ベクトル)を特徴データ記憶部5に記憶させる(ステップs24)。
【0083】
また、雑音区間であるか音声区間であるかを判定した結果が、音声区間であると判定された場合には、その音声区間(音声区間の開始から終了まで)を構成するn2フレーム分の特徴データ(ケプストラム係数の特徴ベクトル)を特徴データ記憶部5に記憶する(ステップs25)。
【0084】
さらに音声特徴分析を繰り返し、雑音区間であるか音声区間であるかを判定した結果が、雑音区間であると判定され、かつ、その雑音区間が音声区間の時間軸方向後方に存在する雑音区間であると判定された場合には(ステップs21、s22,s23)、音声区間が終了したものとして、音声区間終了後のn3フレーム分の特徴データ(ケプストラム係数の特徴ベクトル)を特徴データ記憶部5に記憶する(ステップs26)。
【0085】
そして、このn3フレーム分の記憶処理が終了したか否かを判断して(ステップs27)、処理が終了していれば、雑音種類判定/音響モデル選択部6により雑音種類判定動作と音響モデル選択動作に入る(ステップs28)。この雑音種類判定動作と音響モデル選択動作について以下に説明する。
【0086】
この雑音の種類と大きさ(S/N比)の判定および音響モデル選択動作は、それまでに特徴データ記憶部5に記憶されているn1,n2フレーム分のそれぞれの特徴データを用いて行う。
【0087】
すなわち、雑音の種類は、雑音区間の特徴データ(たとえばn1フレーム分の特徴データ)を用いて、雑音がどの雑音に近いかを判定することができ、S/N比は雑音区間を特徴分析することによって得られるパワーの大きさと音声区間のパワーの大きさによって求めることができる。
【0088】
なお、この第2の実施の形態においても、3種類の雑音N1,N2,N3に対応した処理を行うものとする。
【0089】
そして、これら雑音の種類の判定結果と、求められたS/N比の大きさに基づいて、どの音響モデルを用いるかの音響モデル選択動作を行う。この音響モデル選択動作は、前述の第1の実施の形態同様、たとえば、雑音の種類が雑音N1に近いと判定され、かつ、 S/N比がL1未満であった場合には、音響モデルM1が選択されるといった動作である。
【0090】
なお、この第2の実施の形態においても、第1の実施の形態同様、雑音の種類とS/N比の大きさに応じて6個の音響モデルM1,M2,・・・,M6が用意されるものとする。
【0091】
すなわち、この第2の実施の形態も第1の実施の形態同様、雑音N1でS/N比がL1未満である場合には音響モデルM1、雑音N1でS/N比がL1以上である場合には音響モデルM2、雑音N2でS/N比がL1未満である場合には音響モデルM3、雑音2でS/N比がL1以上である場合には音響モデルM4、雑音N3でS/N比がL1未満である場合には音響モデルM5、雑音N3でS/N比がL1以上である場合には音響モデルM6というように対応付けられているとする。したがって、音響モデル群記憶部7には、これら6種類の音響モデルM1,M2,・・・,M6が保存されている。
【0092】
なお、この第2の実施の形態においては、CMN(ケプストラム平均正規化法)による雑音除去法を用いているので、音響モデルM1,M2,・・・,M6はCMN法を用いて作成されたものである。これらの音響モデルM1,M2,・・・,M6は次のようにして作成される。
【0093】
すなわち、雑音N1,N2,N3とそれぞれの雑音について2段階のS/N比(L1未満かL1以上か)を有する6パターンの雑音を用意し、これら6パターンの雑音を雑音の全くない音声データに重畳させることで、6パターンの音声データを作成する。
【0094】
この6パターンの音声データは、S/N比がL1未満の雑音N1が重畳された音声データ、S/N比がL1以上の雑音N1が重畳された音声データ、 S/N比がL1未満の雑音N2が重畳された音声データ、S/N比がL1以上の雑音N2が重畳された音声データ、 S/N比がL1未満の雑音N3が重畳された音声データ、S/N比がL1以上の雑音N3が重畳された音声データの6パターンの音声データである。
【0095】
これら6パターンのそれぞれの音声データに対し、CMN法による雑音除去手法を用いて雑音除去を行い、その雑音除去された6パターンの音声データの特徴ベクトルを用いることで、6種類の音響モデルM1,M2,・・・,M6が作成される。
【0096】
ここで、ステップs28における処理において、雑音の種類が雑音N1に近いと判定され、 求められたS/N比がL1未満であった場合には、音響モデル群記憶部7から音響モデルM1が選択される。
【0097】
ところで、この雑音の種類と大きさ(S/N比)の判定動作を行う場合、n1フレーム分の特徴データ(音声区間の前方に存在する雑音の特徴データ)と、n2フレーム分の特徴データ(音声区間の開始から終了までの特徴データ)だけを用いてもそれらを判定することができるが、n3フレーム分の特徴データ(音声区間の後方に存在する雑音の特徴データ)をも用いるようにしてもよい。
【0098】
そして次に、雑音除去部8がCMN法を用いた雑音除去処理を行うが、このCMN法による雑音除去処理は、まず、音声区間の音声特徴分析結果による特徴ベクトル(n2フレーム分の特徴ベクトル)を用い、そのn2フレーム分の平均の特徴ベクトルを求める(ステップs29)。
【0099】
なお、この平均の特徴ベクトルを求める際、n2フレーム分の特徴ベクトルだけを用いるのではなく、n1,n2,n3の全ての特徴ベクトルを用いて求めるようにすることもできるが、ここでは、音声区間の開始から終了までを構成するn2フレーム分のみの特徴データを用いて行うものとする。
【0100】
たとえば、n2=20とすれば、20フレーム分の特徴ベクトル(これをC1,C2,・・・,C20で表し、これら各特徴ベクトルC1,C2,・・・,C20は、それそれ、たとえば10次元の成分を有している)の平均を求める。求められた平均の特徴ベクトルをCmとする。
【0101】
次に、求められた平均の特徴ベクトルを用い、音声区間(ここでは20フレーム分)の特徴ベクトルを再計算する(ステップs30)。この再計算というのは、音声区間を構成する20フレーム分のそれぞれのフレームごとの特徴ベクトルC1,C2,・・・,C2から、平均の特徴ベクトルCmを引き算するもので、この例では、C1’=C1−Cm, C2’=C2−Cm,・・・, C20’=C20−Cmを行う。そして、求められたC1’, C1’,・・・, C20’が雑音除去処理後の20フレーム分の特徴ベクトルとなる。
【0102】
この特徴ベクトルC1’, C1’,・・・, C20’が音声認識部10に与えられ、音声認識部10では、選択された音響モデルと予め用意されている言語モデル11を用いた音声認識処理を行う。
【0103】
このように、第2の実施の形態においても前述した第1の実施の形態と同様、雑音の種類とS/N比の大きさに応じた音響モデルが選択され、選択された音響モデルと言語モデル記憶部11に保存されている言語モデルを用いて音声認識を行うようにしている。
【0104】
なお、この第2の実施の形態で用いられる6種類の音響モデルは、第1の実施の形態同様、2段階のS/N比を有する3種類の雑音N1,N2,N3を音声データ(雑音の全く無いクリーンな音声データ)に重畳させて、雑音の重畳された6パターンの音声データを生成し、その6パターンの音声データに対しそれぞれ雑音を除去する処理(CMN法による雑音除去処理)を行い、その雑音除去処理後の6パターンの音声データ(雑音の無いクリーンな音声データとは異なり、雑音の影響が多少残された音声データ)を用いて作成されたものである。つまり、実際の音声認識処理対象となる音声データに近い音声データにより作成された音響モデルであると言える。
【0105】
したがって、実際の音声認識処理対象となる音声データに対し、その音声データに重畳されている雑音の種類とS/N比の大きさに基づいて、最適な音響モデルを選択し、選択された音響モデルを用いて音声認識を行うことにより、より一層、高い認識性能を得ることができる。
【0106】
また、この第2の実施の形態の雑音除去法としてのCMN法は、少ない演算量で雑音除去を行うことができ、演算能力の低いCPUでも十分対応することができ、小規模で安価なハードウエア上での実現が可能となる。また、このCMN法はマイクロホンの特性やエコーなど空間伝達特性に由来する雑音(乗法性雑音)の除去に効果があるとされているので、このような雑音が発生しやすい環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【0107】
〔第3の実施の形態〕
この第3の実施の形態は、第1の実施の形態と第2の実施の形態を組み合わせたものである。この第3の実施の形態においても、第1および第2の実施の形態同様、雑音の種類とS/N比の大きさに応じて6個の音響モデルM1,M2,・・・,M6が用意されているものとするが、この第3の実施の形態において用いられる音響モデルは、以下のようにして作成される。
【0108】
前述したように、2段階のS/N比を有する3種類の雑音N1,N2,N3を音声データ(雑音の全く無いクリーンな音声データ)に重畳させて、雑音の重畳された6パターンの音声データを生成し、その6パターンの音声データに対しそれぞれ雑音を除去する処理(SS法またはCSS法による雑音除去処理)を行い、その雑音除去処理後の6パターンの音声データ(雑音の無いクリーンな音声データとは異なり、雑音の影響が多少残された音声データ)を生成する。
【0109】
そして、このSS法またはCSS法により雑音除去された6パターンの音声データのそれぞれの音声区間に対しCMN法を適用する。すなわち、前述したように、それぞれの音声データにおける音声区間を特徴分析して得られた特徴ベクトル(n2フレーム分の特徴ベクトル)を用い、そのn2フレーム分の平均の特徴ベクトルを求める。たとえば、n2=20とすれば、20フレーム分の特徴ベクトル(これをC1,C2,・・・,C20で表し、これら各特徴ベクトルC1,C2,・・・,C20は、それそれ、たとえば10次元の成分を有している)の平均Cmとする。
【0110】
次に、求められた平均の特徴ベクトルを用い、音声区間(ここでは20フレーム分)の特徴ベクトルを再計算、つまり、C1’=C1−Cm, C2’=C2−Cm,・・・, C20’=C20−Cmを行い、求められたC1’, C1’,・・・, C20’を20フレーム分(音声区間分)のそれぞれのフレームごとの特徴ベクトルとし、これらそれぞれのフレームごとの特徴ベクトルを用いて音響モデルを作成する。
【0111】
このような処理を、3種類のノイズN1,N2,N3ごとにそれぞれ2種類のS/N比の大きさを設定して行うことで、6個の音響モデルM1,M2,・・・,M6が作成される。
【0112】
図5はこの第3の実施の形態の音声認識装置の概略構成を示す図であり、構成要素のみを列挙すれば、マイクロホン1、アンプやA/D変換器を有する入力音声処理部2、第1の音声特徴分析部3、雑音区間/音声区間判定部4、特徴データ記憶部5、 雑音種類判定/音響モデル選択部6、音響モデル群記憶部7、雑音除去部8、第2の音声特徴分析部9、CMN演算部( CMN法による雑音除去部)31、音声認識部10、言語モデル記憶部11などを有した構成となっている。以下、図6のフローチャートを参照して説明する。
【0113】
図6において、まず、第1の音声特徴分析部3によって、A/D変換後の認識対象音声データに対し、1フレームごと(1フレームの時間長はたとえば20数msec程度)に音声特徴分析が行われる(ステップs41)。この音声特徴分析は、周波数領域での音声特徴分析であり、ここでは前述同様、FFT(高速フーリエ変換)などを用いた周波数分析手法を用いるものとする。
【0114】
その音声特徴分析結果に基づいて、雑音区間であるか音声区間であるかを雑音区間/音声区間判定部4によって判定し(ステップs42)、雑音区間であると判定された場合には、雑音区間/音声区間判定部4は、さらに、その雑音区間が音声区間の時間軸方向前方に存在する雑音区間であるか、音声区間の時間軸方向後方に存在する雑音区間であるかを判定する(ステップs43)。そして、音声区間の時間軸方向前方に存在する雑音区間である場合には、最新のn1フレーム分の特徴データを特徴データ記憶部5に記憶させる(ステップs44)。
【0115】
また、雑音区間であるか音声区間であるかを判定した結果が、音声区間であると判定された場合には、雑音除去部8によってSS法またはCSS法による雑音除去処理を行う(ステップs45)。そして、その雑音除去処理後の音声データに対し、第2の特徴分析部9が特徴分析処理を行い(ステップs46)、それによって得られた音声特徴データ(特徴ベクトル)を記憶させておく(ステップs47)。なお、この第2の音声特徴分析処理はメルケプストラム係数を求めるための特徴分析処理である。
【0116】
そして、ステップs41に処理が戻り、第1の音声特徴分析処理が繰り返され、その特徴分析結果に基づいて、雑音区間であるか音声区間であるかを判定し、その結果が、雑音区間であると判定され、かつ、その雑音区間が音声区間の時間軸方向後方に存在する雑音区間であると判定された場合には(ステップs41、s42,s43)、音声区間終了と判断して、ステップs48の雑音種類判定動作と音響モデル選択動作処理に入る。
【0117】
この雑音の種類と大きさ(S/N比)の判定および音響モデル選択動作は、それまでに記憶されているn1フレーム分およびn2フレーム分のそれぞれの音声特徴分析データを用いて行う。すなわち、雑音の種類は、雑音区間の特徴データ(たとえばn1フレーム分の特徴データ)を用いて、雑音が前述した3種類の雑音(雑音N1,N2,N3)のどれに近いかを判定することができ、S/N比は雑音区間の特徴データから得られるパワーの大きさと、音声区間の特徴データから得られるパワーの大きさによって求めることができる。
【0118】
そして、これら雑音の種類判定とS/N比の大きさに基づいて、どの音響モデルを用いるかの音響モデル選択動作を行う。この音響モデル選択動作は、前述の第1および第2の実施の形態同様、たとえば、雑音の種類が雑音N1に近いと判定され、 かつ、S/N比がL1未満であった場合には、音響モデルM1が選択されるといった動作である。
【0119】
この音響モデル選択処理が終了すると、次に、音声認識を行うに必要な音声特徴データを得るための特徴データ生成処理がCMN演算部31によって行われる(ステップs49,s50)。この特徴データ生成処理は、前述した雑音除去法としてのCMN法を用いて行う。
【0120】
このCMN法は、第2の実施の形態で説明したように、音声区間の特徴分析結果による特徴ベクトル(n2フレーム分の特徴ベクトル)を用い、そのn2フレーム分の平均の特徴ベクトルを前述同様の手順で求める(求められた平均の特徴ベクトルをCmとする)。この平均の特徴ベクトルCmを用い、音声区間(ここでは20フレーム分)の特徴ベクトルを再計算する。つまり、C1’=C1−Cm, C2’=C2−Cm,・・・, C20’=C20−Cmを行う。
【0121】
そして、求められたC1’, C1’,・・・, C20’が得られた20フレーム分のそれぞれのフレームごとの特徴ベクトルとなる。そして、このそれぞれのフレームごとの特徴ベクトルC1’, C1’,・・・, C20’が音声認識部10に与えられ、音声認識部10では、選択された音響モデルと言語モデル記憶部11に保存されている言語モデルを用いた音声認識処理を行う。
【0122】
このように、第3の実施の形態においても前述した第1および第2の実施の形態と同様、雑音の種類とS/N比の大きさに応じた音響モデルが選択され、選択された音響モデルと予め用意されている言語モデルを用いて音声認識を行うようにしている。
【0123】
この第3の実施の形態では、SS法(またはCSS法)とCMN法の両方を用いた音響モデルを作成し、実際の音声認識を行う場合も、SS法(またはCSS法)を用いた雑音除去を行ったのちに、その雑音除去された音声データに対し、CMN法で特徴ベクトルを生成し、それを音声認識用の特徴ベクトルとして音声認識部10に渡すようにしているので、さらに高い認識性能を得ることができ、また、この第3の実施の形態では、加法性雑音や乗法性雑音など幅広い雑音に対する対応が可能となる。
【0124】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の各実施の形態では、雑音の種類は、雑音N1,雑音N2,雑音N3の3種類とし、S/N比はこれら各雑音について2段階の大きさとした例を示したが、これに限られるものではない。
【0125】
特に、雑音の種類は、たとえば、自動車の走行音、エアコンの運転音、街中の雑踏というようにそれぞれを単独の雑音として考えるのではなく、幾つかの雑音を組み合わせたものを1つの雑音として考えるようにしてもよい。
【0126】
一例として、雑音のない環境下で収録した音声データに、自動車の走行音とエアコンの運転音を同時に重畳させた音声データを生成し、この生成された音声データから所定の雑音除去方法を用いて雑音を除去したのちに、その雑音の除去された音声データを用いて学習した音声認識用の音響モデルを作成しておくこともできる。
【0127】
このように、機器の使用される環境下に存在しやすい定常雑音を組み合わせて作成された音響モデルを任意に複数種類作成することが可能であるので、個々の機器対応に最適な幾つかの音響モデルを用意しておくことで、より一層、高い認識率を得ることができる。さらに、これらそれぞれの雑音について、S/N比の異なるものを作成しておけば、より好結果が得られる。
【0128】
また、図1、図3、図5で示された音声認識装置の構成は、それぞれ実施の形態の例を示すもので、これらの図で示した通りに構成する必要はない。たとえば、雑音種類を判定する手段と音響モデルを選択する手段を、雑音種類判定手段/音響モデル選択手段6として1つにまとめたものとしたが、雑音種類判定手段と音響モデル選択手段というようにそれぞれを別個の構成要素として設けるようにしてもよいことは勿論である。
【0129】
さらに、前述の各実施の形態では、種類の異なる複数(3種類)の雑音を用意し、それぞれの雑音について複数段階(2段階)のS/N比を設定した例を説明したが、本発明は、ある特定の決まった雑音(1種類の雑音)について複数のS/Nを考慮した音声認識を行うことも可能である。
【0130】
その場合、S/N比の異なるある特定の種類の雑音がそれぞれのS/N比ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルを用いることで、それぞれのS/N比に対応する音響モデル群を作成しておく。
【0131】
そして、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されているS/N比を判定し、その判定結果に基づいて、それぞれのS/N比に対応した音響モデル群の中から所定の音響モデルを選択し、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにしている。
【0132】
その場合の音声認識装置は、ここでは図示しないが、S/N比の異なる雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、これらそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データの特徴ベクトルによって作成されたS/N比に対応する音響モデル群と、この音響モデル群を記憶する音響モデル群記憶手段と、雑音が重畳された認識対象音声データに対し、重畳されている雑音のS/N比を判定するS/N比判定手段と、その判定結果に基づいて、前記S/N比に対応した音響モデル群の中から所定の音響モデルを選択する音響モデル群選択手段と、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行う雑音除去手段と、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識手段とを有した構成とする。
【0133】
なお、この場合も雑音除去手法としては、SS法(またはCSS法)やCMN法を用いることが可能で、第1の実施の形態、第2の実施の形態、さらには、第3の実施の形態で説明した処理に準じた処理を行うことで、雑音が重畳された認識対象音声データからS/N比の大きさを判定し、S/N比の大きさに応じた音響モデルが選択され、その選択された音響モデルを用いて音声認識を行うことができる。
【0134】
これは、雑音の種類は特定できても、その大きさ(S/N比)が変動することの多い環境下での音声認識を行う場合に好都合なものとなり、そのような環境下での認識率を高くすることができる。この場合、雑音の種類は特定されていることから、雑音の種類を判定する必要がないので、全体の演算量を少なくすることができ、演算能力のより低いCPUでも十分対応できるものとなる。
【0135】
また、前述の各実施の形態では、雑音除去手法として、SS法(またはCSS法)やCMN法を用いた例について説明したが、これらSS法(またはCSS法)やCMN法そのものでなく、それらをベースとしてそれらを変形した方法(たとえば、CMN法には、非音声区と音声区間を区別してCMNを行う方法もある)であってもよい。
【0136】
また、音声特徴ベクトルとしては、Δケプストラム係数やΔパワーなどを用いてもよい。
【0137】
また、本発明は、以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその処理プログラムが記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0138】
【発明の効果】
以上説明したように本発明は、種類の異なる雑音が重畳されたそれぞれの音声データを作成し、これらそれぞれの雑音が重畳されたそれぞれのの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、その雑音除去されたそれぞれの音声データを用いて、雑音の種類に対応する音響モデルを作成しておく。そして、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定して、その判定結果に基づいて、前記雑音の種類に対応した音響モデルの中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0139】
これによって、重畳されている雑音の種類に応じた最適な音響モデルを用いての認識処理が可能となり、所定の雑音の存在する環境下であっても高い認識率を得ることができる。
【0140】
特に、機器の使用環境に2、3種類の雑音が定常的に存在するような場合、それらの雑音ごとの音響モデルを作成し、その音響モデルを用いて、上述したような音声認識処理を行うことで、高い認識率を実現できる。
【0141】
そして、本発明で用いられる雑音除去手法の1つとしては、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法であって、その場合、前記音響モデル作成時における雑音除去は、スペクトラル・サブストラクション法または連続スペクトラル・サブトラクション法を用いて行う。また、実際の認識時には、雑音区間の特徴分析データによって、重畳されている雑音の種類を判定したのち、その判定結果に基づいて、最適な音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、スペクトラム・サブストラクション法による雑音除去手法を用いて雑音除去を行い、その雑音除去された音声データを特徴分析して得られた結果に対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0142】
このように、雑音除去方法としてスペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いることにより、雑音除去処理を少ない演算量で行うことができ、演算能力の低いCPUでも十分対応することができる。これにより、小規模で安価なハードウエア上での実現が可能となる。また、このスペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法は自動車の走行音やエアコンの運転音、街中の雑踏などの雑音(一般に加法性雑音といわれている)の除去に効果があるとされているので、このような雑音の多い環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【0143】
また、雑音除去手法の他の例として、ケプストラム平均正規化法による雑音除去手法を用いることもこともできる。その場合、前記音響モデル作成時における雑音除去は、ケプストラム平均正規化法を用いて行う。また、実際の認識時には、雑音区間の特徴分析データによって、重畳されている雑音の種類を判定したのち、その判定結果に基づいて、最適な音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データの音声区間に対し、ケプストラム平均正規化法を用いて雑音除去処理を行い、その雑音除去処理によって得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行うようにしている。
【0144】
このように、雑音除去方法としてケプストラム平均正規化法を用いることにより、上述同様、雑音除去処理を少ない演算量で行うことができ、演算能力の低いCPUでも十分対応することができる。
【0145】
これにより、小規模で安価なハードウエア上での実現が可能となる。また、このケプストラム平均正規化法はマイクロホンの特性やエコーなど空間伝達特性に由来する歪みなどの雑音(一般に乗法性雑音といわれている)の除去に効果があるとされているので、このような雑音が発生しやすい環境下で用いられることが多い機器に適用されることで大きな効果が得られる。
【0146】
さらに、それぞれの雑音対応の音響モデルは、雑音の種類に加え、それぞれの雑音の種類ごとに複数段階のS/N比にも対応した音響モデルとし、実際の認識時には、前記雑音が重畳された認識対象音声データに対し、雑音区間の雑音の大きさと音声区間の音声の大きさからS/N比を求め、求められたS/N比と雑音の種類に応じた音響モデルを選択するようにしているので、雑音の種類だけではなくその大きさに応じた最適な音響モデルを用いての認識が行える。これによって、それぞれの雑音環境下において音声認識を行う際、より一層、高い認識率を得ることが可能となる。
【0147】
また、 スペクトラル・サブストラクション法または連続スペクトラル・サブトラクション法とケプストラム平均正規化法の両方を用いた音響モデルを作成することも可能である。この場合、実際の音声認識を行う場合も、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法を用いた雑音除去を行ったのちに、その雑音除去された音声データに対し、ケプストラム平均正規化法で特徴ベクトルを生成し、それを音声認識用の特徴ベクトルとして音声認識部に渡すようにしているので、さらに高い認識性能を得ることができ、また、この場合、前述した加法性雑音や乗法性雑音など幅広い雑音に対する対応が可能となる。
【0148】
さらに、ある特定の決まった雑音について複数のS/Nに対応する音響モデル群を作成しておき、実際の認識時には、雑音が重畳された認識対象音声データに対し、重畳されているS/N比を判定し、その判定結果に基づいて、それぞれのS/N比に対応した音響モデル群の中から所定の音響モデルを選択し、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去方法を用いて雑音除去を行い、その雑音除去された音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行うようにすることもできる。
【0149】
これによれば、雑音の種類は決まっていてもその大きさ(S/N比)が変動することの多い環境下での音声認識を行う場合に好都合なものとなり、そのような環境下での認識率を高くすることができる。この場合、雑音の種類は特定されているので、雑音の種類を判定する必要がなく、演算量を少なくすることができ、演算能力がより低いCPUでも十分対応できるものとなる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の第1の実施の形態を説明するための構成図である。
【図2】第1の実施の形態の処理手順を説明するためのフローチャートである。
【図3】本発明の音声認識装置の第2の実施の形態を説明するための構成図である。
【図4】第2の実施の形態の処理手順を説明するためのフローチャートである。
【図5】本発明の音声認識装置の第3の実施の形態を説明するための構成図である。
【図6】第3の実施の形態の処理手順を説明するためのフローチャートである。
【符号の説明】
1 音声入力部
2 入力音声処理部
3 第1の音声特徴分析部
4 雑音区間/音声区間判定部
5 特徴データ記憶部
6 雑音種類判定/音響モデル選択部
7 音響モデル群記憶部
8 雑音除去部
9 第2の音声特徴分析部
10 音声認識部
11 言語モデル記憶部
21 特徴分析部
31 CNN演算部(CNN法による雑音除去部)
Claims (4)
- 種類の異なる雑音が雑音の種類ごとに重畳された複数の音声データを作成し、前記複数の音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれた複数の音声データの特徴ベクトルを用いることで、雑音の種類に対応する音響モデル群を作成して前記作成した音響モデル群を保持しておき、
認識時には、
雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定し、前記判定の結果に基づいて、前記雑音の種類に対応する音響モデル群の中から所定の音響モデルを選択するとともに、前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれた音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識方法であって、
前記雑音の種類に対応する音響モデルは、雑音の種類に加え、雑音の種類ごとに複数段階のS/N比にも対応した音響モデルであり、該雑音の種類ごとに複数段階のS/N比にも対応した音響モデルは、複数種類の雑音ごとにS/N比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、前記作成されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれたそれぞれの音声データの特徴ベクトルによって作成された音響モデルであることを特徴とする音声認識方法。 - 前記音響モデルが雑音の種類ごとに複数段階のS/N比にも対応した音響モデルである場合、前記雑音が重畳された認識対象音声データに対し、雑音の種類を判定する処理に加え、雑音区間の雑音の大きさと音声区間の音声の大きさからS/N比を求める処理を行い、前記判定された雑音の種類と前記求められたS/N比に基づいて音響モデルの選択を行うことを特徴とする請求項1記載の音声認識方法。
- 種類の異なる雑音が雑音の種類ごとに重畳された複数の音声データを作成し、前記複数の音声データに対し、スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれた複数の音声データに対しケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、前記得た特徴ベクトルによって、雑音の種類に対応する音響モデル群を作成して前記作成した音響モデル群を保存しておき、
認識時には、
雑音の重畳された認識対象音声データに対し、周波数領域での特徴データを得る第1の音声特徴分析処理を行い、
前記第1の音声特徴分析処理の結果を用いて、雑音区間か音声区間かを判定し、雑音区間であると判定された場合には、前記第1の音声特徴分析処理によって得られた特徴データを保存し、
音声区間であると判定された場合には、該判定された音声区間に対し前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、
前記雑音除去が行なわれた音声区間のデータに対し、ケプストラム係数を求める第2の音声特徴分析処理を行い、第2の音声特徴分析処理が行なわれた音声区間の特徴ベクトルを保存し、
音声区間終了後に、前記保存された雑音区間の特徴データによって、重畳されている雑音の種類を判定して、前記判定の結果に基づいて、前記雑音の種類に対応する音響モデル群の中から所定の音響モデルを選択し、
前記保存されている音声区間の特徴ベクトルに対し、前記ケプストラム平均正規化法を適用して当該音声区間に対する特徴ベクトルを得て、
前記ケプストラム平均正規化法を適用して得られた特徴ベクトルに対し、前記選択された音響モデルを用いて音声認識を行う音声認識方法であって、
前記雑音の種類に対応する音響モデルは、雑音の種類に加え、雑音の種類ごとに複数段階のS/N比にも対応した音響モデルであり、該雑音の種類ごとに複数段階のS/N比にも対応した音響モデルは、複数種類の雑音ごとにS/N比の異なるそれぞれの雑音を雑音の種類ごとに重畳させたそれぞれの音声データを作成し、前記作成された音声データに対し、前記スペクトラル・サブトラクション法または連続スペクトラル・サブトラクション法による雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれたそれぞれの音声データに対し、前記ケプストラム平均正規化法を適用して得られたそれぞれの音声データの特徴ベクトルを用いて作成された音響モデルであることを特徴とする音声認識方法。 - 種類の異なる雑音が雑音の種類ごとに重畳された複数の音声データを作成し、前記複数の音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれた複数の音声データの特徴ベクトルによって作成された雑音の種類に対応する音響モデル群と、
前記音響モデル群を記憶する音響モデル群記憶手段と、
雑音が重畳された認識対象音声データに対し、重畳されている雑音の種類を判定する雑音判定手段と、
前記雑音判定手段の判定の結果に基づいて、前記雑音の種類に対応する音響モデル群の中から所定の音響モデルを選択する音響モデル群選択手段と、
前記雑音が重畳された認識対象音声データに対し、前記所定の雑音除去手法を用いて雑音除去を行う雑音除去手段と、
前記雑音除去手段にて雑音除去が行なわれた認識対象音声データの特徴ベクトルに対し前記選択された音響モデルを用いて音声認識を行う音声認識手段と、
を有し、
前記それぞれの雑音対応の音響モデルは、雑音の種類に加え、雑音の種類ごとに複数段階のS/N比にも対応した音響モデルであり、該雑音の種類ごとに複数段階のS/N比にも対応した音響モデルは、複数種類の雑音ごとにS/N比の異なるそれぞれの雑音が雑音の種類ごとに重畳されたそれぞれの音声データを作成し、前記作成されたそれぞれの音声データに対し、所定の雑音除去手法を用いて雑音除去を行い、前記雑音除去が行なわれたそれぞれの音声データの特徴ベクトルによって作成された音響モデルであることを特徴とする音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000322914A JP4244514B2 (ja) | 2000-10-23 | 2000-10-23 | 音声認識方法および音声認識装置 |
US09/981,996 US7065487B2 (en) | 2000-10-23 | 2001-10-19 | Speech recognition method, program and apparatus using multiple acoustic models |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000322914A JP4244514B2 (ja) | 2000-10-23 | 2000-10-23 | 音声認識方法および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002132289A JP2002132289A (ja) | 2002-05-09 |
JP4244514B2 true JP4244514B2 (ja) | 2009-03-25 |
Family
ID=18800706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000322914A Expired - Fee Related JP4244514B2 (ja) | 2000-10-23 | 2000-10-23 | 音声認識方法および音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7065487B2 (ja) |
JP (1) | JP4244514B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029851A1 (ko) * | 2022-08-05 | 2024-02-08 | 삼성전자주식회사 | 전자 장치 및 음성 인식 방법 |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7026957B2 (en) * | 2001-10-01 | 2006-04-11 | Advanced Public Safety, Inc. | Apparatus for communicating with a vehicle during remote vehicle operations, program product, and associated methods |
US7209881B2 (en) * | 2001-12-20 | 2007-04-24 | Matsushita Electric Industrial Co., Ltd. | Preparing acoustic models by sufficient statistics and noise-superimposed speech data |
US7024353B2 (en) * | 2002-08-09 | 2006-04-04 | Motorola, Inc. | Distributed speech recognition with back-end voice activity detection apparatus and method |
JP4352790B2 (ja) * | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
JP4000095B2 (ja) * | 2003-07-30 | 2007-10-31 | 株式会社東芝 | 音声認識方法、装置及びプログラム |
EP1719114A2 (en) * | 2004-02-18 | 2006-11-08 | Philips Intellectual Property & Standards GmbH | Method and system for generating training data for an automatic speech recogniser |
JP4018678B2 (ja) * | 2004-08-13 | 2007-12-05 | キヤノン株式会社 | データ管理方法および装置 |
JP4220449B2 (ja) * | 2004-09-16 | 2009-02-04 | 株式会社東芝 | インデキシング装置、インデキシング方法およびインデキシングプログラム |
JP2006106300A (ja) * | 2004-10-05 | 2006-04-20 | Mitsubishi Electric Corp | 音声認識装置及びそのプログラム |
JP4283212B2 (ja) * | 2004-12-10 | 2009-06-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
JP4873913B2 (ja) | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
TWI293753B (en) * | 2004-12-31 | 2008-02-21 | Delta Electronics Inc | Method and apparatus of speech pattern selection for speech recognition |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
JP4749756B2 (ja) * | 2005-04-18 | 2011-08-17 | 三菱電機株式会社 | 音声認識装置及びそのプログラム |
JP4245617B2 (ja) * | 2006-04-06 | 2009-03-25 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP4316583B2 (ja) * | 2006-04-07 | 2009-08-19 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9966085B2 (en) * | 2006-12-30 | 2018-05-08 | Google Technology Holdings LLC | Method and noise suppression circuit incorporating a plurality of noise suppression techniques |
JP4728972B2 (ja) * | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
JP4322934B2 (ja) * | 2007-03-28 | 2009-09-02 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
TWI356399B (en) * | 2007-12-14 | 2012-01-11 | Ind Tech Res Inst | Speech recognition system and method with cepstral |
US8468019B2 (en) * | 2008-01-31 | 2013-06-18 | Qnx Software Systems Limited | Adaptive noise modeling speech recognition system |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8082148B2 (en) * | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
WO2011010604A1 (ja) * | 2009-07-21 | 2011-01-27 | 日本電信電話株式会社 | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 |
US9026444B2 (en) * | 2009-09-16 | 2015-05-05 | At&T Intellectual Property I, L.P. | System and method for personalization of acoustic models for automatic speech recognition |
JP2011118124A (ja) * | 2009-12-02 | 2011-06-16 | Murata Machinery Ltd | 音声認識システムと認識方法 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) * | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
CN103971680B (zh) * | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9299347B1 (en) * | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9530408B2 (en) * | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
JP2016109725A (ja) * | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
KR101628112B1 (ko) * | 2014-12-08 | 2016-06-08 | 현대자동차 주식회사 | 차량의 음성인식을 위한 노이즈 제거 장치 및 방법 |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9697825B2 (en) * | 2015-04-07 | 2017-07-04 | Nexidia Inc. | Audio recording triage system |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
KR102209689B1 (ko) * | 2015-09-10 | 2021-01-28 | 삼성전자주식회사 | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10937415B2 (en) * | 2016-06-15 | 2021-03-02 | Sony Corporation | Information processing device and information processing method for presenting character information obtained by converting a voice |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10431211B2 (en) * | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US10511806B2 (en) * | 2017-09-30 | 2019-12-17 | International Business Machines Corporation | Mitigating effects of distracting sounds in an audio transmission of a conversation between participants |
US11011182B2 (en) * | 2019-03-25 | 2021-05-18 | Nxp B.V. | Audio processing system for speech enhancement |
CN110473547B (zh) * | 2019-07-12 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种语音识别方法 |
KR20210017392A (ko) * | 2019-08-08 | 2021-02-17 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
CN112652304B (zh) * | 2020-12-02 | 2022-02-01 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761639A (en) * | 1989-03-13 | 1998-06-02 | Kabushiki Kaisha Toshiba | Method and apparatus for time series signal recognition with signal variation proof learning |
TW347503B (en) * | 1995-11-15 | 1998-12-11 | Hitachi Ltd | Character recognition translation system and voice recognition translation system |
JP3001037B2 (ja) * | 1995-12-13 | 2000-01-17 | 日本電気株式会社 | 音声認識装置 |
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
EP0997003A2 (en) * | 1997-07-01 | 2000-05-03 | Partran APS | A method of noise reduction in speech signals and an apparatus for performing the method |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6381569B1 (en) * | 1998-02-04 | 2002-04-30 | Qualcomm Incorporated | Noise-compensated speech recognition templates |
US6466906B2 (en) * | 1999-01-06 | 2002-10-15 | Dspc Technologies Ltd. | Noise padding and normalization in dynamic time warping |
US6529866B1 (en) * | 1999-11-24 | 2003-03-04 | The United States Of America As Represented By The Secretary Of The Navy | Speech recognition system and associated methods |
TW466471B (en) * | 2000-04-07 | 2001-12-01 | Ind Tech Res Inst | Method for performing noise adaptation in voice recognition unit |
US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
US7120580B2 (en) * | 2001-08-15 | 2006-10-10 | Sri International | Method and apparatus for recognizing speech in a noisy environment |
-
2000
- 2000-10-23 JP JP2000322914A patent/JP4244514B2/ja not_active Expired - Fee Related
-
2001
- 2001-10-19 US US09/981,996 patent/US7065487B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029851A1 (ko) * | 2022-08-05 | 2024-02-08 | 삼성전자주식회사 | 전자 장치 및 음성 인식 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20020049587A1 (en) | 2002-04-25 |
JP2002132289A (ja) | 2002-05-09 |
US7065487B2 (en) | 2006-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4244514B2 (ja) | 音声認識方法および音声認識装置 | |
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
JP4283212B2 (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
US7957964B2 (en) | Apparatus and methods for noise suppression in sound signals | |
JP4958303B2 (ja) | 雑音抑圧方法およびその装置 | |
JP5000647B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
SE505156C2 (sv) | Förfarande för bullerundertryckning genom spektral subtraktion | |
CN101154384B (zh) | 声音信号纠正方法、声音信号纠正设备以及计算机程序 | |
KR101737824B1 (ko) | 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치 | |
JP2006215568A (ja) | 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体 | |
JP4061094B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP2000330597A (ja) | 雑音抑圧装置 | |
JP4608650B2 (ja) | 既知音響信号除去方法及び装置 | |
JP3510458B2 (ja) | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 | |
JP2004020679A (ja) | 雑音抑圧装置および雑音抑圧方法 | |
JP2001318687A (ja) | 音声認識装置 | |
JP2003044077A (ja) | 音声特徴量抽出方法と装置及びプログラム | |
JP4325044B2 (ja) | 音声認識システム | |
JP5327735B2 (ja) | 信号再生装置 | |
JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 | |
CN117116282A (zh) | 同一声学空间交流增强语音信号的处理方法、装置及介质 | |
JPH1138999A (ja) | 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体 | |
JPH1138998A (ja) | 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081229 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140116 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |