JP4880136B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP4880136B2 JP4880136B2 JP2001203754A JP2001203754A JP4880136B2 JP 4880136 B2 JP4880136 B2 JP 4880136B2 JP 2001203754 A JP2001203754 A JP 2001203754A JP 2001203754 A JP2001203754 A JP 2001203754A JP 4880136 B2 JP4880136 B2 JP 4880136B2
- Authority
- JP
- Japan
- Prior art keywords
- level
- voice
- signal
- audio
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Description
【発明の属する技術分野】
本発明は、話者により発声された音声を認識する音声認識装置、音声認識方法および音声認識プログラムに関する。
【0002】
【従来の技術】
近年、音声認識に関する技術の発展が著しい。この音声認識とは、コンピュータまたは機械などが人間の音声を自動的に理解することである。例えば、この音声認識を用いることにより、コンピュータまたは機械などを人間の音声に応じて動作させたり、人間の音声を文字に変換させたりすることができる。
【0003】
音声認識では、発声された音声が有する周波数スペクトルなどの物理的特徴を抽出し、予め記憶されている母音、子音または単語の物理的特徴の型と比較する方法が主に用いられる。しかし、複数の不特定の話者の音声認識を行う場合には、話者各々の個人差による音声の有する物理的特徴の相違が要因となり正確な音声認識を行うことができない。また、特定の話者の音声認識を行う場合にも、昼夜などの周囲環境の変化による雑音(ノイズ)、または話者の体調などによる音声の有する物理的特徴の変化が、音声認識を行う際の認識率を低下させる要因となり正確な音声認識を行うことができない。
【0004】
図13は音声認識を行う際の音声レベルと認識率との関係の一例を示す模式図である。図13に示す模式図は、縦軸が認識率(%)を示し、横軸が音声レベル(dB)を示す。ここで、音声レベルとは、音声パワーのレベルを意味し、例えば0dBは、負荷抵抗600Ω、端子間電圧0.775V、消費電力1mWをいう。
【0005】
図13に示すように、従来の音声認識では、音声レベルが−19dBよりも低い場合、または音声レベルが−2dBよりも高い場合に認識率が低下する傾向がある。
【0006】
従来の音声認識においては、母音、子音または単語の物理的特徴の型である音声レベルを予め記憶する際の音声レベルの近傍において認識率が高くなっている。すなわち、予め記憶される音声レベルと入力される音声レベルとを比較して音声認識を行うため、音声レベルが低い場合から高い場合まで平均的に高い認識率を得ることはできない。
【0007】
そこで、実開昭59−60700号公報には、音声を入力する際に使用するマイクロアンプにAGC回路(Auto Gain Contoroller:自動利得制御回路)を用いて常に入力される音声レベルをほぼ一定にする音声認識装置が開示されている。また、実開平01−137497号公報および特開昭63−014200号公報には、適当な手段により話者に音声レベルを知らせ、最適な音声レベルの発声を行うように促す音声認識装置が開示されている。
【0008】
【発明が解決しようとする課題】
しかしながら、実開昭59−60700号公報に開示された音声認識装置では、AGC回路により増幅する必要のない音声以外の雑音(ノイズ)も増幅され、増幅された雑音によって認識率が低下する場合がある。さらに、入力される音声には、1単語ごとに言葉の抑揚を示すアクセントが存在する。そのため、入力される音声レベルをAGC回路によって頻繁に増幅したり増幅しなかったりすることにより、ほぼ一定のレベルに増幅された音声の波形に歪みが生じる。この音声の波形の歪みにより、一単語ごとに含まれる言葉の抑揚を示すアクセントが歪みを生じ認識率が低下する。
【0009】
一方、実開平01−137497号公報および特開昭63−014200号公報に開示された音声認識装置では、周囲環境の変化または話者自身の体調不良などの影響により、話者によって入力される音声レベルが予め定められた規定値に達しない場合がある。また、話者が予め定められた規定の音声レベルを発声しても、音声認識装置が認識しない場合などがある。例えば、話者により発声される音声レベルは個人特有の物理的特徴であり、無理に発声を変化させると物理的特徴が異質のものとなり、かえって音声認識の認識率を低下させる場合などがある。
【0010】
本発明の目的は、話者の音声レベルに左右されずに音声認識の認識率を向上させることができる音声認識装置、音声認識方法および音声認識プログラムを提供することである。
【0011】
【課題を解決するための手段】
第1の発明に係る音声認識装置は、デジタル音声信号を入力する入力手段と、入力手段により入力される音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する音声レベル推定手段と、音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて入力手段により入力される音声区間のデジタル音声信号のレベルを調整する音声レベル調整手段と、音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識を行う音声認識手段とを備えたものである。
【0012】
第1の発明に係る音声認識装置においては、入力手段によりデジタル音声信号が入力され、入力手段により入力される音声区間内の予め定められた時間内のデジタル音声信号に基づいて音声レベル推定手段により音声区間の音声レベルが推定される。音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて入力手段により入力される音声区間のデジタル音声信号のレベルが音声レベル調整手段により調整され、音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識手段により音声認識が行われる。
【0013】
この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
【0014】
第2の発明に係る音声認識装置は、第1の発明に係る音声認識装置の構成において、音声レベル推定手段は、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定するものである。
【0015】
この場合、通常、音声区間内の最初の所定時間内の音声レベルの立ち上がり部分により音声区間の全体の音声レベルを判断することができる。したがって、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベルの推定を行うことにより、音声区間内の音声レベルを短時間で正確に推定することができる。
【0016】
第3の発明に係る音声認識装置は、第2の発明に係る音声認識装置の構成において、音声レベル推定手段は、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号の平均値を音声区間の音声レベルとして推定するものである。
【0017】
この場合、音声区間の最初の所定時間内のデジタル音声信号の平均値を算出することにより、音声区間の音声レベルをより正確に推定することができる。
【0018】
第4の発明に係る音声認識装置は、第1〜第3のいずれかの発明に係る音声認識装置の構成において、音声レベル調整手段は、予め設定された目標レベルと音声レベル推定手段により推定される音声レベルとの比により定まる増幅率で入力手段により入力される音声区間のデジタル音声信号のレベルを増幅または減衰させるものである。
【0019】
この場合、目標レベルと推定された音声レベルとの比により定まる増幅率で音声区間のデジタル信号のレベルを増加または減衰させることにより、音声区間の音声レベルを目標レベルに設定することができる。
【0020】
第5の発明に係る音声認識装置は、第1〜第4のいずれかの発明に係る音声認識装置の構成において、入力手段により入力されるデジタル音声信号が音声レベル推定手段により推定される音声レベルとともに同期して音声レベル調整手段に与えられるように入力手段により入力されるデジタル音声信号を遅延させる遅延回路をさらに備えたものである。
【0021】
この場合、デジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを調整することができる。これにより、音声区間の音声レベルを正確に調整することができる。
【0022】
第6の発明に係る音声認識装置は、第1〜第5のいずれかの発明に係る音声認識装置の構成おいて、音声レベル推定手段は、入力手段により入力される音声区間の開始点を検出する音声検出部と、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する音声レベル推定部と、音声レベル推定部により推定された音声レベルを保持する保持回路と、音声検出部による検出に応答して入力手段により入力される音声区間のデジタル音声信号を蓄積するとともに蓄積された音声区間のデジタル音声信号を保持回路に保持された音声レベルと同期させて音声レベル調整手段に出力する蓄積回路とを含むものである。
【0023】
この場合、入力手段により入力される音声区間のデジタル音声信号の開始点が音声検出部により検出され、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベル推定部により音声区間の音声レベルが推定される。音声レベル推定部により推定された音声レベルが保持回路により保持され、音声検出部による検出に応答して入力手段により入力される音声区間のデジタル音声信号が蓄積回路に蓄積されるとともに蓄積された音声区間のデジタル音声信号が保持回路に保持された音声レベルと同期させて蓄積回路により音声レベル調整手段に出力される。
【0024】
この場合、音声区間の開始点からデジタル音声信号が蓄積回路に蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルが調整される。これにより、デジタル音声信号を正確な音声レベルに調整することができ、音声認識の認識率を向上させることができる。
【0025】
第7の発明に係る音声認識装置は、第6の発明に係る音声認識装置の構成において、蓄積回路は、入力手段により入力される音声区間のデジタル音声信号を交互に蓄積するとともに蓄積された音声区間のデジタル音声信号を交互に音声レベル調整手段に出力する第1および第2のバッファを含むものである。
【0026】
この場合、複数の単語を含む長い時間の音声が入力されても、第1および第2のバッファに音声区間のデジタル音声信号が交互に蓄積されるとともに第1または第2のバッファから音声区間のデジタル音声信号が出力される。これにより、複数の単語を含む長い時間の音声の認識を小さな容量の第1または第2のバッファを用いて行うことができる。
【0027】
第8の発明に係る音声認識装置は、第1〜第7のいずれかの発明に係る音声認識装置の構成において、音声認識手段は、音声認識結果を音声レベル調整手段に帰還させ、音声レベル調整手段は、音声認識手段により帰還された音声認識結果に基づいて音声レベルの調整程度を変更するものである。
【0028】
この場合、音声認識結果を再び音声レベルの調整に用いて音声レベルの調整程度を変更することにより、音声レベルの調整程度が適切でない場合に音声レベルの調整程度を適切な状態に近づけることができる。
【0029】
第9の発明に係る音声認識装置は、第8の発明に係る音声認識装置の構成において、音声レベル調整手段は、音声認識手段による音声認識が不可能な場合に音声レベルの増幅率を上昇させるものである。
【0030】
この場合、音声認識が不可能な場合に音声レベルの増幅率を上昇させることにより、音声認識が不可能な音声レベルを音声認識が可能な音声レベルに調整することができる。
【0031】
第10の発明に係る音声認識装置は、第1〜第9のいずれかの発明に係る音声認識装置の構成において、音声レベル推定手段により推定された音声レベルが予め定められた範囲内にある場合に音声レベル調整手段を不能動化し、音声レベル推定手段により推定された音声レベルが予め定められた範囲内にない場合に音声レベル調整手段を能動化するとともに音声レベル推定手段により推定された音声レベルを予め定められた範囲内の音声レベルに変更して音声レベル調整手段に与える非線形処理部をさらに備えたものである。
【0032】
この場合、予め定められた範囲内にない音声レベルの場合にのみ、予め定められた範囲内の音声レベルに変更して音声レベルの調整を行うことができる。これにより、話者の音声が有する言葉の抑揚を示すアクセントに無用な歪みを与えることを防止することができる。
【0033】
第11の発明に係る音声認識方法は、デジタル音声信号を入力するステップと、音声区間内の一部の時間内の入力されたデジタル音声信号に基づいて音声区間の音声レベルを推定するステップと、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルを調整するステップと、調整されたデジタル音声信号に基づいて音声認識を行うステップとを備えたものである。
【0034】
第11の発明に係る音声認識方法においては、デジタル音声信号が入力され、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが調整され、調整されたデジタル音声信号に基づいて音声認識が行われる。
【0035】
この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
【0036】
第12の発明に係る音声認識方法は、第11の発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定することを含むものである。
【0037】
この場合、通常、音声区間内の最初の所定時間内の音声レベルの立ち上がり部分により音声区間の全体の音声レベルを判断することができる。したがって、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベルの推定を行うことにより、音声区間内の音声レベルを短時間で正確に推定することができる。
【0038】
第13の発明に係る音声認識方法は、第12の発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間内の最初の所定時間内のデジタル音声信号の平均値を音声区間の音声レベルとして推定することを含むものである。
【0039】
この場合、音声区間の最初の所定時間内のデジタル音声信号の平均値を算出することにより、音声区間の音声レベルをより正確に推定することができる。
【0040】
第14の発明に係る音声認識方法は、第11〜第13のいずれかの発明に係る音声認識方法において、デジタル音声信号のレベルを調整するステップは、予め設定された目標レベルと推定される音声レベルとの比により定まる増幅率で音声区間のデジタル音声信号のレベルを増幅または減衰させることを含むものである。
【0041】
この場合、目標レベルと推定された音声レベルとの比により定まる増幅率で音声区間のデジタル信号のレベルを増加または減衰させることにより、音声区間の音声レベルを目標レベルに設定することができる。
【0042】
第15の発明に係る音声認識方法は、第11〜第14のいずれかの発明に係る音声認識方法において、音声区間のデジタル音声信号が推定される音声レベルとともに同期してデジタル音声信号のレベルを調整するステップに与えられるようにデジタル音声信号を遅延させるステップをさらに備えたものである。
【0043】
この場合、デジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを調整することができる。これにより、音声区間の音声レベルを正確に調整することができる。
【0044】
第16の発明に係る音声認識方法は、第11〜第15のいずれかの発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間のデジタル音声信号の開始点を検出するステップと、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定するステップと、推定された音声レベルを保持するステップと、デジタル音声信号の開始点の検出に応答して音声区間のデジタル音声信号を蓄積するとともに蓄積された音声区間のデジタル音声信号を保持された音声レベルと同期させて出力するステップとを含むものである。
【0045】
この場合、音声区間のデジタル音声信号の開始点が検出され、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルが保持され、音声区間のデジタル音声信号の開始点の検出に応答して音声区間のデジタル音声信号が蓄積されるとともに蓄積された音声区間のデジタル音声信号が保持された音声レベルと同期させて出力される。
【0046】
この場合、音声区間の開始点からデジタル音声信号が蓄積回路に蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルが調整される。これにより、デジタル音声信号を正確な音声レベルに調整することができ、音声認識の認識率を向上させることができる。
【0047】
第17の発明に係る音声認識方法は、第16の発明に係る音声認識方法において、蓄積するステップは、音声区間のデジタル音声信号を第1および第2のバッファに交互に蓄積するとともに蓄積された音声区間のデジタル音声信号を第1および第2のバッファから交互に出力するステップを含むものである。
【0048】
この場合、複数の単語を含む長い時間の音声が入力されても、第1および第2のバッファに音声区間のデジタル音声信号が交互に蓄積されるとともに第1または第2のバッファから音声区間のデジタル音声信号が出力される。これにより、複数の単語を含む長い時間の音声の認識を小さな容量の第1または第2のバッファを用いて行うことができる。
【0049】
第18の発明に係る音声認識方法は、第11〜第17のいずれかの発明に係る音声認識方法において、音声認識を行うステップは、音声認識結果をデジタル音声信号のレベルを調整するステップに帰還させることを含み、デジタル音声信号のレベルを調整するステップは、帰還された音声認識結果に基づいて音声レベルの調整程度を変更することを含むものである。
【0050】
この場合、音声認識結果を再び音声レベルの調整に用いて音声レベルの調整程度を変更することにより、音声レベルの調整程度が適切でない場合に繰り返し音声レベルの調整程度を適切なレベルに近づけることができる。
【0051】
第19の発明に係る音声認識方法は、第18の発明に係る音声認識方法において、デジタル音声信号のレベルを調整するステップは、音声認識が不可能な場合に音声レベルの増幅率を上昇させることを含むものである。
【0052】
この場合、音声認識が不可能な場合に音声レベルの増幅率を上昇させることにより、音声認識が不可能な音声レベルを音声認識が可能な音声レベルに調整することができる。
【0053】
第20の発明に係る音声認識方法は、第11〜第19のいずれかの発明に係る音声認識方法において、推定された音声レベルが予め定められた範囲内にある場合にデジタル音声信号のレベルを調整することを不能動化し、推定された音声レベルが予め定められた範囲内にない場合に調整するステップを能動化するとともに推定された音声レベルを予め定められた範囲内の音声レベルに変更して変更された音声レベルをデジタル音声信号のレベルを調整するために用いるステップをさらに備えたものである。
【0054】
この場合、予め定められた範囲内にない音声レベルの場合にのみ、予め定められた範囲内の音声レベルに変更して音声レベルの調整を行うことができる。これにより、話者の音声が有する言葉の抑揚を示すアクセントに無用な歪みを与えることを防止することができる。
【0055】
第21の発明に係る音声認識プログラムは、コンピュータ読み取り可能な音声認識プログラムであって、デジタル音声信号を入力する処理と、入力される音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する処理と、推定された音声レベルおよび予め設定された目標レベルに基づいて入力される音声区間のデジタル音声信号のレベルを調整する処理と、調整されたデジタル音声信号に基づいて音声認識を行う処理とをコンピュータに実行させるものである。
【0056】
第21の発明に係る音声認識プログラムにおいては、デジタル音声信号が入力され、入力される音声区間内の予め定められた時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルおよび予め設定された目標レベルに基づいて入力される音声区間のデジタル音声信号のレベルが調整され、調整されたデジタル音声信号に基づいて音声認識が行われる。
【0057】
この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
【0058】
【発明の実施の形態】
(第1の実施の形態)
図1は本発明の第1の実施の形態における音声認識装置の一実施例を示すブロック図である。
【0059】
図1に示すように、音声認識装置は、マイクロホン1、A/D(アナログ−デジタル)コンバータ2、信号遅延部3、音声レベル推定部4、音声レベル調整部5および音声認識部6を含む。
【0060】
図1に示すように、話者により発声された音声は、マイクロホン1により集音される。集音された音声は、マイクロホン1の働きによりアナログ音声信号SAに変換されA/Dコンバータ2に出力される。A/Dコンバータ2は、出力されるアナログ音声信号SAをデジタル音声信号DSに変換し、信号遅延部3および音声レベル推定部4に与える。音声レベル推定部4は、与えられるデジタル音声信号DSから音声レベルの推定値LVLの算出を行う。ここで、音声レベルとは、音声パワー(音声エネルギー)のレベルを意味する。この音声レベルの推定値LVLの算出については後述する。
【0061】
信号遅延部3は、後述する予め定められた音声レベル立ち上がり時間TLに相当する遅延量分のみ遅延させたデジタル音声信号DSを音声レベル調整部5に与える。音声レベル調整部5は、音声レベル推定部4から与えられる音声レベルの推定値LVLに同期して信号遅延部3により与えられるデジタル音声信号DSの音声レベルの調整を行う。音声レベル調整部5は、音声レベルの調整後の出力CTRL_OUTを音声認識部6に与える。音声認識部6は、音声レベル調整部5により与えられる音声レベルの調整後の出力CTRL_OUTに基づき音声認識を行う。
【0062】
第1の実施の形態における音声認識装置においては、マイクロホン1およびA/D(アナログ−デジタル)コンバータ2が入力手段に相当し、信号遅延部3が遅延回路に相当し、音声レベル推定部4が音声レベル推定手段に相当し、音声レベル調整部5が音声レベル調整手段に相当し、音声認識部6が音声認識手段に相当する。
【0063】
なお、信号遅延部3、音声レベル推定部4、音声レベル調整部5および音声認識部6は、それぞれ信号遅延回路、音声レベル推定回路、音声レベル調整回路および音声認識回路により構成することができる。また、信号遅延部3、音声レベル推定部4、音声レベル調整部5および音声認識部6をコンピュータおよび音声認識プログラムにより表現することができる。
【0064】
ここで、音声認識プログラムを実行するためのコンピュータについて説明する。図2は音声認識プログラムを実行するためのコンピュータの構成を示すブロック図である。
【0065】
コンピュータは、CPU(中央演算処理装置)500、入出力装置501、ROM(リードオンリメモリ)502、RAM(ランダムアクセスメモリ)503、記録媒体504、記録媒体駆動装置505および外部記録装置506を含む。
【0066】
入出力装置501は、他の装置との間で情報の送受信を行う。本実施の形態の入出力装置501は、図1のA/Dコンバータ2からデジタル音声信号DSを入力する。ROM502にはシステムプログラムが記録される。記録媒体駆動装置505は、CD−ROMドライブ、フロッピィディスクドライブ等からなり、CD−ROM、フロッピィディスク等の記録媒体504に対してデータの読み書きを行う。記録媒体504には、音声認識プログラムが記録されている。外部記録装置506は、ハードディスク装置などからなり、記録媒体駆動装置505を介して記録媒体504から読み込まれた音声認識プログラムを記録する。CPU500は、外部記録装置506に記録された音声認識プログラムをRAM503上で実行する。これにより、図1の信号遅延部3、音声レベル推定部4、音声レベル調整部5および音声認識部6の機能が実行される。
【0067】
次に、図1の音声レベル推定部4による音声レベルの推定値LVLの算出方法および音声レベル調整部5による音声レベルの調整方法について説明する。
【0068】
まず、音声レベル推定部4による音声レベルの推定値LVLの算出方法について説明を行う。音声レベル推定部4に入力されるデジタル音声信号DSを、DS(x)(x=1,2,…,Q)とする。ここで、xは、予め定められた音声レベルの立ち上がり時間TL内でのQ個の時点を表し、DS(x)はQ個の時点でのデジタル音声信号DSの値を表す。この場合、音声レベルの推定値LVLは、次式のように表される。
【0069】
LVL= (Σ|DS(x)|)/Q …(1)
式(1)によれば、音声レベルの推定値LVLは、予め定められた音声レベル立ち上がり時間TL内のQ個の時点でのデジタル音声信号DS(x)の絶対値の累積加算をQで除算することにより得られる平均値である。このようにして、音声レベル推定部4において音声レベルの推定値LVLが算出される。
【0070】
次に、音声レベル調整部5による音声レベルの調整方法について説明する。音声レベル調整部5において、予め定められた音声レベルの目標値をTRG_LVLと表す。この場合、音声レベルの調整値LVL_CTRLは、次式のように表される。
【0071】
LVL_CTRL=TRG_LVL/LVL …(2)
式(2)によれば、音声レベルの調整値LVL_CTRLは、予め定められた音声レベルの目標値TRG_LVLを音声レベルの推定値LVLにより除算することにより算出される。
【0072】
また、音声レベルの調整後の出力CTRL_OUTは、音声レベルの調整値LVL_CTRLを用いて次式のように表される。
【0073】
CTRL_OUT(X)=DS(X)×LVL_CTRL …(3)
ここで、Xは時間を表す。式(3)によれば、音声レベルの調整後の出力CTRL_OUT(X)は、予め定められた音声レベル立ち上がり時間TLにおけるデジタル音声信号DS(X)に音声レベルの調整値LVL_CTRLを乗算した値となる。このように、音声レベル調整部5は、音声レベルの調整を行い調整後の出力CTRL_OUT(X)を音声認識部6に与える。
【0074】
次に、図1に示す信号遅延部3の予め定められた音声レベル立ち上がり時間TLについて図を用いて説明する。
【0075】
図3は話者により発声された“らぐびー”の音声スペクトルを示す波形図である。図3において、縦軸が音声レベルを示し、横軸が時間を示す。
【0076】
図3に示すように、“らぐびー”という一単語の音声スペクトルは、“ら”の部分の音声レベルが高くなっている。すなわち、音声レベルの高い部分が、1単語ごとに言葉の抑揚を示すアクセントの部分である。ここで、図3に示すように、話者により発声された音声の開始時間TSから発声された音声レベルの値がピーク値Pに到達するまでの時間を音声レベル立ち上がり時間TLとする。一般に、音声レベル立ち上がり時間TLは0sec (秒)〜100msec(ミリ秒)以内に存在し、本発明の実施の形態では、音声レベル立ち上がり時間TLは、100msecとする。
【0077】
例えば、この音声レベル立ち上がり時間TLを短時間に設定すると音声認識の認識率の低下を招くこととなる。図3に示すように“らぐびー”という単語を話者が発声した場合、音声レベル立ち上がり時間をTL’で示すように短く設定した場合を考える。この場合、図1に示す信号遅延部3において入力されるデジタル音声信号DSを音声レベル立ち上がり時間TL’分のみ遅延させても、音声レベル推定部4により適切な音声レベルの推定値LVLが算出されず、本来目標とする音声レベルの推定値LVLよりも低い音声レベルの推定値が算出される。その後、音声レベル調整部5に目標よりも低い音声レベルの推定値が与えられ、音声レベル調整部5によりデジタル音声信号DSの音声レベルの値が誤って調整される。これにより、音声認識部6に誤ったデジタル音声信号DSが入力され音声認識の認識率が低下する。
【0078】
上記のように、信号遅延部3において音声区間の最初の音声レベル立ち上がり時間TLを100msecに設定することにより、音声区間全体の音声レベルを音声レベル推定部4により算出することができる。これにより、音声区間のデジタル音声信号DSのレベルが一律に調整されるので、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができ音声認識の認識率を向上させることができる。
【0079】
(第2の実施の形態)
次に、本発明の第2の実施の形態における音声認識装置について図を用いて説明する。
【0080】
図4は本発明の第2の実施の形態における音声認識装置を示すブロック図である。
【0081】
図4に示すように、音声認識装置は、マイクロホン1、A/Dコンバータ2、音声レベル推定部4、音声レベル調整部5、音声認識部6、音声検出部7、音声レベル保持部8、選択部11,12、バッファ21およびバッファ22を含む。
【0082】
図4に示すように、話者により発声された音声は、マイクロホン1により集音される。集音された音声は、マイクロホン1の働きによりアナログ音声信号SAに変換されA/Dコンバータ2に出力される。A/Dコンバータ2は、出力されるアナログ音声信号SAをデジタル音声信号DSに変換し、音声レベル推定部4、音声検出部7および選択部11に与える。音声レベル推定部4は、与えられるデジタル音声信号DSから音声レベルの推定値LVLの算出を行う。第2の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出は、第1の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法と同様である。
【0083】
音声レベル推定部4は、A/Dコンバータ2から与えられるデジタル音声信号DSに基づいて、一単語ごとに音声レベルの推定値LVLを算出し、算出される音声レベルの推定値LVLを順次音声レベル保持部8に与える。ここで、音声レベル保持部8は、音声レベル保持部8内に設けられる保持レジスタに、次に音声レベル推定部4により算出される音声レベルの推定値LVLが与えられるまで前回の音声レベルの推定値LVLを保持し、音声レベル推定部4によって算出される音声レベルの推定値LVLが与えられるごとに、前回の音声レベルの推定値LVLが保持されている保持レジスタに、新たに与えられた音声レベルの推定値LVLを上書き保存する。また、この保持レジスタは、データ容量Mを有している。
【0084】
一方、音声検出部7は、A/Dコンバータ2により与えられるデジタル音声信号DSから図3の音声の開始時間TSを検出し、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ21に与えるように選択部11に制御信号CIS1を与えるとともに、選択部11により与えられるデジタル音声信号DSを蓄積するようにバッファ21に制御信号CB1を与える。バッファ21,22は、ぞれぞれ容量Lを有している。
【0085】
選択部11は、音声検出部7により与えられる制御信号CIS1に応答して、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ21に与える。バッファ21は、音声検出部7から与えられる制御信号CB1に応答して、選択部11を介して与えられるデジタル音声信号DSを蓄積する。そして、バッファ21は、蓄積可能な容量Lのデジタル音声信号DSを蓄積した際に、音声検出部7に満杯信号F1を与える。それにより、音声検出部7は、バッファ21を介して、音声レベル保持部8に音声レベルの推定値LVLを出力させる制御信号SL1を与える。
【0086】
また、音声検出部7は、バッファ21から与えられる満杯信号F1に応答して、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ22に与えるように選択部11に制御信号CIS2を与えるとともに、選択部11から与えられるデジタル音声信号DSを蓄積するようにバッファ22に制御信号CB2を与える。さらに、音声検出部7は、バッファ21に制御信号CBO1を与え、選択部12に制御信号COS1を与える。
【0087】
選択部11は、音声検出部7により与えられる制御信号CIS2に応答して、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ22に与える。バッファ22は、音声検出部7により与えられる制御信号CB2に応答して、選択部11を介して与えられるデジタル音声信号DSを蓄積する。
【0088】
一方、バッファ21は、音声検出部7により与えられる制御信号CBO1に応答して、バッファ21に蓄積されたデジタル音声信号DSを選択部12を介して音声レベル調整部5に与える。
【0089】
そして、バッファ22は、音声検出部7から与えられる制御信号CB2に応答して、選択部11を介して与えられるデジタル音声信号DSを蓄積する。バッファ22は、蓄積可能な容量Lのデジタル音声信号DSを蓄積した際に、音声検出部7に満杯信号F2を与える。それにより、音声検出部7は、バッファ22を介して音声レベル保持部8に音声レベルの推定値LVLを出力させる制御信号SL2を与える。
【0090】
また、音声検出部7は、バッファ22から与えられる満杯信号F2に応答して、A/Dコンバータ2から与えられるデジタル音声信号DSをバッファ21に与えるように選択部11に制御信号CIS1を与える。さらに、音声検出部7は、バッファ22に制御信号CBO2を与え、選択部12に制御信号COS2を与える。
【0091】
一方、バッファ22は、音声検出部7により与えられる制御信号CBO2に応答して、バッファ22に蓄積されたデジタル音声信号DSを選択部12を介して音声レベル調整部5に与える。
【0092】
音声レベル保持部8は、内部の保持レジスタに保持された音声レベルの推定値LVLをバッファ21から与えられる制御信号SL1またはバッファ22から与えられる制御信号SL2に応答して音声レベル調整部5に与える。ここで、音声レベル保持部8内に設けられる保持レジスタの容量Mとバッファ21,22の容量Lとは、ほぼ同一の容量であるため、選択部12を介して与えられるデジタル音声信号DSに対応する音声レベルの推定値LVLが、音声レベル保持部8から出力される。
【0093】
音声レベル調整部5は、音声レベル保持部8により与えられる音声レベルの推定値LVLに基づいて、選択部12を介して得られるデジタル音声信号DSの調整を行う。第2の実施の形態における音声レベル調整部5によるデジタル音声信号DSの調整方法は、第1の実施の形態における音声レベル調整部5によるデジタル音声信号DSの調整方法と同様である。音声レベル調整部5は、音声レベルの調整後の出力CTRL_OUTを音声認識部6に与える。音声認識部6は、音声レベル調整部5により与えられる音声レベルの調整後の出力CTRL_OUTに基づき音声認識を行う。
【0094】
第2の実施の形態における音声認識装置においては、マイクロホン1およびA/D(アナログ−デジタル)コンバータ2が入力手段に相当し、音声レベル推定部4が音声レベル推定手段に相当し、音声レベル調整部5が音声レベル調整手段に相当し、音声認識部6が音声認識手段に相当し、音声検出部7が音声検出部に相当し、音声レベル保持部8が保持回路に相当し、バッファ21,22が蓄積回路に相当する。
【0095】
図5(a)は図4のマイクロホン1の出力波形図であり、図5(b)は音声信号(信号成分)(S)と雑音成分(N)との比(S/N)を示す図である。
【0096】
図5(a)に示すように、マイクロホン1の出力波形は、雑音成分と音声信号からなる。そして、音声信号を含む音声区間では、出力波形の音声レベルの値が高くなる。
【0097】
また、図5(b)に示すように、図4の音声検出部7は、音声信号(音声成分)と雑音成分との比であるS/N値が低い場合は雑音区間であると判定し、音声信号(音声成分)と雑音成分との比であるS/N値が高い場合は音声区間であると判定する。
【0098】
図6は図4の音声検出部7の動作を示すフローチャートである。
まず、図6に示すように、音声検出部7は、入力されるデジタル音声信号DSが音声信号であるか否かを判定する(ステップS61)。入力されるデジタル音声信号DSが音声信号でない場合には、次回に入力されるデジタル音声信号DSが音声信号と判定されるまで待機する。一方、入力されるデジタル音声信号DSが音声信号であると判定された場合、音声検出部7は、図4の選択部11に与えられるデジタル音声信号DSをバッファ21に与えるように選択部11に制御信号CIS1を与える(ステップS62)。そして、音声検出部7は、バッファ21にデジタル音声信号DSを蓄積するように制御信号CB1を与える(ステップS63)。
【0099】
次いで、音声検出部7は、バッファ21により蓄積可能な容量Lのデジタル音声信号DSを蓄積した際に出力される満杯信号F1を受信したか否かを判定する(ステップS64)。音声検出部7は、バッファ21から満杯信号F1を受信していない場合には、引き続きステップS63を繰り返す。一方、音声検出部7は、バッファ21から満杯信号F1を受信した場合には、図4の選択部11に与えられるデジタル音声信号DSをバッファ22に与えるように選択部11に制御信号CIS2を与える(ステップS65)。そして、音声検出部7は、さらにバッファ22にデジタル音声信号DSを蓄積するように制御信号CB2を与える(ステップS66)。また、音声検出部7は、制御信号CIS2および制御信号CB2を出力した後に、選択部12にバッファ21から与えられる蓄積されたデジタル音声信号DSを音声レベル調整部5に与えるように制御信号COS1を与える(ステップS67)。
【0100】
次いで、音声検出部7は、音声レベル保持部8にバッファ21を介して制御信号SL1を与える(ステップS68)。音声レベル保持部8は、バッファ21を介して与えられる制御信号SL1に応答して、音声レベル保持部8内の保持レジスタに繰り返し記憶されている音声レベルの推定値LVLを音声レベル調整部5に与える。
【0101】
次いで、音声検出部7は、バッファ21に制御信号CBO1を与え、蓄積されたデジタル音声信号DSを音声レベル調整部5に出力させる(ステップS69)。続いて、音声検出部7は、バッファ21に蓄積された全てのデジタル音声信号DSが音声レベル調整部5に出力されたか否かを判定する(ステップS70)。ここで、バッファ21から全てのデジタル音声信号DSが出力されていない場合には、再度、バッファ21に制御信号CBO1を与え蓄積されたデジタル音声信号DSを音声レベル調整部5に出力させる。一方、バッファ21に蓄積されたデジタル音声信号DSが全て出力された場合、音声検出部7は、バッファ21にバッファ内のデータを消去(クリア)するように制御信号CRを与える(ステップS71)。
【0102】
図7は2単語を話者が発声した場合におけるバッファ21およびバッファ22のデジタル音声信号DSの入出力を表す模式図である。
【0103】
図7に示すように、バッファ21には、音声区間(S)の一単語(W1)の開始時点において、音声検出部7により制御信号CB1が与えられ、バッファ21へのデジタル信号DSの入力が開始される。ここで、バッファ21およびバッファ22はFIFO(First In First Out)タイプのメモリで構成されており、またバッファ21およびバッファ22のメモリ容量Lはほぼ同一である。
【0104】
バッファ21へのデジタル音声信号DSの入力は、一単語(W1)のほぼ全てにおいて行われ、バッファ21に蓄積可能な容量Lのデジタル音声信号DSが蓄積されるとバッファ21は音声検出部7に満杯信号F1を出力する。バッファ21は、満杯信号F1を出力した後、バッファ21内に蓄積されたデジタル音声信号DSを音声検出部7により与えられる制御信号CBO1に応答して出力する。一方、バッファ22は、音声検出部7により与えられる制御信号CB2に応答してデジタル音声信号DSの蓄積を開始する。
【0105】
バッファ22は、蓄積可能な容量Lのデジタル音声信号DSが蓄積された場合に、音声検出部7に満杯信号F2を出力する。一方、バッファ22の蓄積の間にバッファ21に蓄積されたデジタル音声信号DSは、全て音声レベル調整部5に出力された後、音声検出部7により制御信号CRが与えられバッファ21内のデータが消去(クリア)される。それにより、バッファ21には、音声検出部7により再度デジタル音声信号DSを蓄積させる制御信号CB1が与えられる。
【0106】
上記のように、音声区間の開始点からデジタル音声信号が蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを正確に調整することができる。したがって、音声認識を正確な音声レベルで調整することにより音声認識の認識率を向上させることができる。
【0107】
また、複数の単語を含む長い時間のデジタル音声信号DSが入力されても、交互に蓄積および出力を行うことができる。これにより、小さい容量のバッファを用いても音声認識を行うことができる。
【0108】
なお、本発明の実施の形態においては、バッファを用いることとしたが、これに限らず、他の蓄積回路を用いてもよい。さらに、バッファの内部にカウンタを設けて、音声検出部7によりバッファの内部のカウンタを監視させて満杯信号F1,F2または制御信号CRを出力してもよい。
【0109】
(第3の実施の形態)
図8は本発明の第3の実施の形態における音声認識装置の一例を示すブロック図である。
【0110】
図8に示すように、音声認識装置は、マイクロホン1、A/D(アナログ−デジタル)コンバータ2、信号遅延部3、音声レベル推定部4、音声レベル調整帰還部9および音声認識帰還部10を含む。
【0111】
図8に示すように、話者により発声された音声は、マイクロホン1により集音される。集音された音声は、マイクロホン1の働きによりアナログ音声信号SAに変換されA/Dコンバータ2に出力される。A/Dコンバータ2は、出力されるアナログ音声信号SAをデジタル音声信号DSに変換し、信号遅延部3および音声レベル推定部4に与える。音声レベル推定部4は、与えられるデジタル音声信号DSから音声レベルの推定値LVLの算出を行う。ここで、第3の発明の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法については、第1の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法と同様である。
【0112】
音声レベル推定部4は、音声レベルの推定値LVLを算出し音声レベル調整帰還部9に与える。音声レベル調整帰還部9は、音声レベル推定部4により与えられる音声レベルの推定値LVLに基づいて、音声レベルの推定値LVLに同期して信号遅延部3により与えられるデジタル音声信号DSのレベルの調整を行う。音声レベル調整帰還部9は、音声レベルの調整後の出力CTRL_OUTを音声認識帰還部10に与える。音声認識帰還部10は、音声レベル調整帰還部9により与えられる調整後の出力CTRL_OUTに基づき音声認識を行い、音声認識が失敗したときに音声レベル制御信号RCを音声レベル調整帰還部9に与える。この音声レベル調整帰還部9および音声認識帰還部10の動作については後述する。
【0113】
第3の実施の形態における音声認識装置においては、マイクロホン1およびA/D(アナログ−デジタル)コンバータ2が入力手段に相当し、信号遅延部3が遅延回路に相当し、音声レベル推定部4が音声レベル推定手段に相当し、音声レベル調整帰還部9が音声レベル調整手段に相当し、音声認識帰還部10が音声認識手段に相当する。
【0114】
図9は図8に示す音声レベル調整帰還部9における音声レベルの調整を行う際の動作を説明するフローチャートである。
【0115】
図9に示すように、まず、音声レベル調整帰還部9は、音声認識帰還部10による音声レベル制御信号RCが入力されたか否かを判定する(ステップS91)。次に、音声レベル調整帰還部9は、音声認帰還識部10により音声レベル制御信号RCが入力されていない場合には、音声認識帰還部10による音声レベル制御信号RCが入力されたと判定されるまで待機する。一方、音声認識帰還部10から音声レベル制御信号RCが入力されたと判定された場合には、音声レベル調整帰還部9は、変数Kに1を加算する(ステップS92)。
【0116】
ここで、複数の段階の音声レベルの目標値が予め設定されており、変数Kとは、この複数の段階を表す変数である。ここで、本実施の第3の形態においては、変数Kは1からRまでの値を有し、音声レベルの目標値TRG_LVL(K)の取りうる値は、TRG_LVL(1),TRG_LVL(2),…TRG_LVL(R)とする。
【0117】
次いで、音声レベル調整帰還部9は、変数Kが最大値Rよりも大きいか否かを判定する(ステップS93)。ここで、音声レベル調整帰還部9は、変数Kが最大値Rよりも大きいと判定した場合には、変数Kを最小値1に戻し(ステップS94)、音声レベルの目標値TRG_LVLをTRG_LVL(1)に設定する(ステップS95)。
【0118】
一方、音声レベル調整帰還部9は、変数Kが最大値R以下と判定した場合、音声レベルの目標値TRG_LVLをTRG_LVL(K)に設定する(ステップS95)。
【0119】
例えば、最初、音声レベルの目標値TRG_LVLが、TRG_LVL(2)に設定されているとする。そして、音声認識帰還部10が音声認識に失敗して音声認識を行うことができない場合には、制御信号RCが音声レベル調整帰還部9に出力される。音声レベル調整帰還部9は、音声レベルの目標値TRG_LVL(2)を音声レベルの目標値TRG_LVL(3)に変更し、再度の話者からの音声入力を待つ。
【0120】
このように、音声レベルの目標値TRG_LVLをTRG_LVL(2),TRG_LVL(3),TRG_LVL(4)と順次に変更し、音声認識が成功した時点で音声レベルの目標値TRG_LVLが固定される。また、音声レベルの目標値TRG_LVLが最大値であるTRG_LVL(R)に設定されても音声認識に失敗した場合には、次に音声レベルの目標値TRG_LVLを最小値であるTRG_LVL(1)に戻し、再度の話者からの音声入力を待つ。
【0121】
このようして、音声レベルの目標値TRG_LVLが音声認識に最適な値に設定される。
【0122】
上記のように、音声認識結果が失敗であった場合に、再び音声レベル調整帰還部9において、音声レベルの調整程度を順次上げていくことができる。また、音声レベルの調整程度が、予め定めた音声レベルの最大値に到達しても、再度音声レベルを最小値に戻して調整程度を順次上げることができる。これにより、音声レベルの調整程度が適切でなく音声認識に失敗した場合には、繰り返し音声レベルの調整程度を順次変更することができるので音声認識の認識率を向上させることができる。
【0123】
なお、上記実施の形態においては、音声認識に失敗した場合には、再度話者からの音声入力により音声レベルの目標値TRG_LVL(K)を順次変更することとしたが、これに限らず、話者の音声入力を保持する手段を設け、音声認識に失敗した場合には、音声入力を保持する手段により保持されている音声入力を用いることにより音声レベルの目標値TRG_LVL(K)を順次変更させてもよい。
【0124】
(第4の実施の形態)
図10は本発明の第4の実施の形態における音声認識装置の一例を示すブロック図である。
【0125】
図10に示すように、音声認識装置は、マイクロホン1、A/D(アナログ−デジタル)コンバータ2、信号遅延部3、音声レベル推定部4、音声レベル調整部5、音声認識部6および信号非線形処理部11を含む。
【0126】
図10に示すように、話者により発声された音声は、マイクロホン1により集音される。集音された音声は、マイクロホン1の働きによりアナログ音声信号SAに変換されA/Dコンバータ2に出力される。A/Dコンバータ2は、出力されるアナログ音声信号SAをデジタル音声信号DSに変換し、信号遅延部3および音声レベル推定部4に与える。音声レベル推定部4は、与えられるデジタル音声信号DSから音声レベルの推定値LVLの算出を行う。ここで、第4の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法については、第1の実施の形態における音声レベル推定部4による音声レベルの推定値LVLの算出方法と同様である。音声レベル推定部4は、与えられるデジタル音声信号DSおよび音声レベルの推定値LVLを信号非線形処理部11に与える。信号非線形処理部11は、音声レベル推定部4により与えられる音声レベルの推定値LVLに応じて後述する非線形処理を行い、非線形処理を行った音声レベルの推定値LVLを音声レベル調整部5に与える。
【0127】
一方、信号遅延部3は、音声レベル立ち上がり時間TLに相当する遅延量分のみ遅延させたデジタル音声信号DSを音声レベル調整部5に与える。ここで、第4の実施の形態における音声レベル立上り時間TLに相当する遅延量分は、100msecとする。音声レベル調整部5は、信号非線形処理部11から与えられる音声レベルの推定値LVLに応じて信号遅延部3により与えられるデジタル音声信号DSの音声レベルの調整を行う。音声レベル調整部5は、音声レベルの調整後の出力CTRL_OUTを音声認識部6に与える。音声認識部6は、音声レベル調整部5により与えられる音声レベルの調整後の出力CTRL_OUTに応じて音声認識を行う。
【0128】
第4の実施の形態における音声認識装置においては、マイクロホン1およびA/D(アナログ−デジタル)コンバータ2が入力手段に相当し、信号遅延部3が遅延回路に相当し、音声レベル推定部4が音声レベル推定手段に相当し、音声レベル調整部5が音声レベル調整手段に相当し、音声認識部6が音声認識手段に相当し、信号非線形処理部11が非線形処理部に相当する。
【0129】
図11は図10の信号非線形処理部11に入力される音声レベルの推定値LVLと図10の音声認識部6における認識率との関係を示す図である。
【0130】
図11に示すように、図10の音声認識部6における認識率は、音声レベルの推定値LVLに依存している。音声レベルの推定値LVLが−19dB以上−2dB以下の範囲にある場合には、認識率が80%以上を示す。そして、特に音声レベルの推定値LVLが低い(−19dB以下)場合、または音声レベルの推定値LVLが高い(−2dB以上)場合には、音声認識の認識率が急激に低下する。
【0131】
このことから、本発明の第4の実施の形態における信号非線形処理部11においては、入力される音声レベルの推定値LVLが−19dBから−2dBまでの範囲内に存在するように音声レベルの推定値LVLを調整する。
【0132】
図12は信号非線形処理部11の処理動作を示すフローチャートである。
図12に示すように、信号非線形処理部11は、音声レベル推定部4により入力される音声レベルの推定値LVLが−19dB以上−2dB以下であるか否かを判定する(ステップS101)。
【0133】
信号非線形処理部11は、入力される音声レベルの推定値LVLが−19dB以上−2dB以下の値であると判定した場合には、音声レベル調整部5を不能動化させる。すなわち、音声レベル調整部5において式(2)に示す音声レベルの調整値LVL_CTRLは1となる。
【0134】
一方、信号非線形処理部11は、入力される音声レベルの推定値LVLが−19dB以上−2dB以下の値でないと判定した場合、音声レベルの推定値LVLを−10dBに設定する(ステップS102)。
【0135】
上記のように、信号非線形処理部11は、音声レベルの推定値LVLが認識率80%以上を満たすように、音声レベルの推定値LVLを設定するため、音声認識部6において入力されるデジタル音声信号DSの音声認識の認識率を向上させることができる。すなわち、音声レベルの推定値LVLが予め定められた範囲内にない場合にのみ、音声レベルの推定値を予め定められた範囲内の音声レベルの推定値に変更して音声レベルの調整を行い、音声レベルの推定値が予め定められた範囲内のにある場合には、音声レベル調整部5における増幅率を1にして音声レベル調整部5を不能動化にすることにより音声レベルの調整を行わない。これにより、簡易に話者の音声が有する言葉の抑揚であるアクセントに無用な歪みを与えることを防止し音声認識を行うことができるので音声認識の認識率を向上させることができる。
【0136】
なお、上記実施の形態においては、音声レベルの推定値を−19dBから−2dBに調整することとしたが、これに限定されず、音声認識を行う際に予め設定される音声レベルの推定値または音声認識率の高い音声レベル推定値に調整すればよい。
【0137】
【発明の効果】
本発明によれば、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声認識装置の一実施例を示すブロック図
【図2】音声認識プログラムを実行するためのコンピュータの構成を示すブロック図
【図3】話者により発声された“らぐびー”の音声スペクトルを示す波形図
【図4】本発明の第2の実施の形態における音声認識装置を示すブロック図
【図5】(a)は図4のマイクロホンの出力波形図、(b)は音声信号(信号成分)と雑音成分との比を示す図
【図6】図4の音声検出部の動作を示すフローチャート
【図7】2単語を話者が発声した場合におけるバッファのデジタル音声信号の入出力を表す模式図
【図8】本発明の第3の実施の形態における音声認識装置の一例を示すブロック図
【図9】図8に示す音声レベル調整帰還部における音声レベルの調整を行う際の動作を説明するフローチャート
【図10】本発明の第4の実施の形態における音声認識装置の一例を示すブロック図
【図11】図10の信号非線形処理部に入力される音声レベルの推定値と図10の音声認識部における認識率との関係を示す図
【図12】信号非線形処理部の処理動作を示すフローチャート
【図13】音声認識を行う際の音声レベルと認識率との関係の一例を示す模式図
【符号の説明】
1 マイクロホン
2 A/Dコンバータ
3 信号遅延部
4 音声レベル推定部
5 音声レベル調整部
6 音声認識部
7 音声検出部
8 音声レベル保持部
11 信号非線形処理部
Claims (2)
- デジタル音声信号を入力する入力手段と、
前記入力手段により入力されるデジタル音声信号の音声区間内の話者により発声された音声の開始時間から発声された音声レベルの値がピーク値に到達するまでの時間である音声レベル立ち上がり時間内のデジタル音声信号の平均値を前記音声区間の音声レベルとして推定する音声レベル推定手段と、
予め設定された目標レベルを前記音声レベル推定手段により推定された音声レベルで除算して得た調整値を前記入力手段により入力される前記音声区間のデジタル音声信号に乗算する音声レベル調整手段と、
前記音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識を行う音声認識手段とを備えたことを特徴とする音声認識装置。 - デジタル音声信号を入力するステップと、
入力された前記デジタル音声信号の音声区間内の話者により発声された音声の開始時間から発声された音声レベルの値がピーク値に到達するまでの時間である音声レベル立ち上がり時間内のデジタル音声信号の平均値を前記音声区間の音声レベルとして推定するステップと、
予め設定された目標レベルを前記推定された音声レベルで除算して得た調整値を前記入力される前記音声区間のデジタル音声信号に乗算してデジタル音声信号のレベルを調整するステップと、
前記調整されたデジタル音声信号に基づいて音声認識を行うステップとを備えたことを特徴とする音声認識方法。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001203754A JP4880136B2 (ja) | 2000-07-10 | 2001-07-04 | 音声認識装置および音声認識方法 |
EP01947936A EP1300832B1 (en) | 2000-07-10 | 2001-07-09 | Speech recognizer, method for recognizing speech and speech recognition program |
CNB018019633A CN1227647C (zh) | 2000-07-10 | 2001-07-09 | 语音识别装置和语音识别方法 |
DE60122893T DE60122893T2 (de) | 2000-07-10 | 2001-07-09 | Verfahren, vorrichtung und programm zur sprecherkennung |
PCT/JP2001/005950 WO2002005266A1 (fr) | 2000-07-10 | 2001-07-09 | Systeme de reconnaissance de la parole, procede de reconnaissance de la parole et programme de reconnaissance de la parole |
US10/069,530 US20020173957A1 (en) | 2000-07-10 | 2001-07-09 | Speech recognizer, method for recognizing speech and speech recognition program |
KR10-2002-7003193A KR100482477B1 (ko) | 2000-07-10 | 2001-07-09 | 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000208083 | 2000-07-10 | ||
JP2000208083 | 2000-07-10 | ||
JP2000-208083 | 2000-07-10 | ||
JP2001203754A JP4880136B2 (ja) | 2000-07-10 | 2001-07-04 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002091487A JP2002091487A (ja) | 2002-03-27 |
JP4880136B2 true JP4880136B2 (ja) | 2012-02-22 |
Family
ID=26595685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001203754A Expired - Fee Related JP4880136B2 (ja) | 2000-07-10 | 2001-07-04 | 音声認識装置および音声認識方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20020173957A1 (ja) |
EP (1) | EP1300832B1 (ja) |
JP (1) | JP4880136B2 (ja) |
KR (1) | KR100482477B1 (ja) |
CN (1) | CN1227647C (ja) |
DE (1) | DE60122893T2 (ja) |
WO (1) | WO2002005266A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
JP3815388B2 (ja) * | 2002-06-25 | 2006-08-30 | 株式会社デンソー | 音声認識システムおよび端末 |
JP4552064B2 (ja) * | 2003-10-15 | 2010-09-29 | 独立行政法人情報通信研究機構 | 音声レベル自動補正装置 |
US7925510B2 (en) * | 2004-04-28 | 2011-04-12 | Nuance Communications, Inc. | Componentized voice server with selectable internal and external speech detectors |
KR100705563B1 (ko) * | 2004-12-07 | 2007-04-10 | 삼성전자주식회사 | 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법 |
JP4667082B2 (ja) * | 2005-03-09 | 2011-04-06 | キヤノン株式会社 | 音声認識方法 |
KR100720337B1 (ko) | 2005-09-06 | 2007-05-22 | 한국과학기술연구원 | 비선형 증폭기를 이용한 음성처리 시스템 |
US20080015104A1 (en) | 2006-07-13 | 2008-01-17 | Unimin Corporation | Ultrafine nepheline syenite |
KR20080078458A (ko) * | 2007-02-23 | 2008-08-27 | 이선일 | 음성 인식 회로 |
CN101897199B (zh) * | 2007-12-10 | 2013-08-14 | 松下电器产业株式会社 | 拾音装置、拾音方法 |
KR20160132574A (ko) | 2015-05-11 | 2016-11-21 | 현대자동차주식회사 | 자동이득제어모듈, 그 제어방법, 이를 포함하는 차량, 및 그 제어방법 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59223499A (ja) * | 1983-06-02 | 1984-12-15 | 松下電器産業株式会社 | 音素認識装置 |
JPS6016200A (ja) * | 1983-07-08 | 1985-01-26 | 池田 栄子 | 栄養群別カロリ−表示販売システム |
JPS6016200U (ja) * | 1983-07-12 | 1985-02-02 | カシオ計算機株式会社 | 音声認識装置に於けるリミツタアンプ |
JPS6262399A (ja) * | 1985-09-13 | 1987-03-19 | 株式会社日立製作所 | 音声高能率符号化方式 |
JPS63316097A (ja) * | 1987-06-19 | 1988-12-23 | 日本電気株式会社 | 連続音声認識装置 |
JP2969862B2 (ja) * | 1989-10-04 | 1999-11-02 | 松下電器産業株式会社 | 音声認識装置 |
JP2975808B2 (ja) * | 1993-05-31 | 1999-11-10 | 三洋電機株式会社 | 音声認識装置 |
JP2500761Y2 (ja) * | 1994-03-30 | 1996-06-12 | 株式会社アルファ | 音声認識装置 |
JPH08115098A (ja) * | 1994-10-18 | 1996-05-07 | Hitachi Microcomput Syst Ltd | 音声編集方法および装置 |
JPH10198397A (ja) * | 1997-01-08 | 1998-07-31 | Meidensha Corp | 音声認識処理装置および音声認識処理方法 |
JPH11212595A (ja) * | 1998-01-23 | 1999-08-06 | Olympus Optical Co Ltd | 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 |
JPH11126093A (ja) * | 1997-10-24 | 1999-05-11 | Hitachi Eng & Service Co Ltd | 音声入力調整方法および音声入力システム |
US6353671B1 (en) * | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
-
2001
- 2001-07-04 JP JP2001203754A patent/JP4880136B2/ja not_active Expired - Fee Related
- 2001-07-09 WO PCT/JP2001/005950 patent/WO2002005266A1/ja active IP Right Grant
- 2001-07-09 CN CNB018019633A patent/CN1227647C/zh not_active Expired - Fee Related
- 2001-07-09 DE DE60122893T patent/DE60122893T2/de not_active Expired - Lifetime
- 2001-07-09 EP EP01947936A patent/EP1300832B1/en not_active Expired - Lifetime
- 2001-07-09 KR KR10-2002-7003193A patent/KR100482477B1/ko not_active IP Right Cessation
- 2001-07-09 US US10/069,530 patent/US20020173957A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20020173957A1 (en) | 2002-11-21 |
CN1227647C (zh) | 2005-11-16 |
EP1300832A1 (en) | 2003-04-09 |
DE60122893T2 (de) | 2007-03-15 |
CN1386265A (zh) | 2002-12-18 |
EP1300832B1 (en) | 2006-09-06 |
DE60122893D1 (de) | 2006-10-19 |
JP2002091487A (ja) | 2002-03-27 |
WO2002005266A1 (fr) | 2002-01-17 |
KR20020033791A (ko) | 2002-05-07 |
EP1300832A4 (en) | 2005-07-20 |
KR100482477B1 (ko) | 2005-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6536320B2 (ja) | 音声信号処理装置、音声信号処理方法及びプログラム | |
US10579327B2 (en) | Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold | |
WO2010131470A1 (ja) | ゲイン制御装置及びゲイン制御方法、音声出力装置 | |
JP4880136B2 (ja) | 音声認識装置および音声認識方法 | |
KR100302370B1 (ko) | 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템 | |
JP2000250565A (ja) | 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体 | |
US9754606B2 (en) | Processing apparatus, processing method, program, computer readable information recording medium and processing system | |
KR101119679B1 (ko) | Agc회로, agc회로의 이득 제어 방법, 및 agc회로의 이득 제어 방법의 프로그램을 기록한 기록 매체 | |
JPWO2019131159A1 (ja) | 制御処理装置および制御処理方法、並びにプログラム | |
JP4548953B2 (ja) | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム | |
JP6277739B2 (ja) | 通信装置 | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
CN113555033A (zh) | 语音交互系统的自动增益控制方法、装置及系统 | |
CN113470691A (zh) | 一种语音信号的自动增益控制方法及其相关装置 | |
EP2466917B1 (en) | Audio-signal processing apparatus and method, and program | |
JP6887315B2 (ja) | 音声処理装置およびその制御方法、プログラム並びに記憶媒体 | |
CN112669872B (zh) | 一种音频数据的增益方法及装置 | |
JP2007206154A (ja) | 実環境騒音下の音声区間の検出 | |
CN108595144B (zh) | 音量调节方法及装置 | |
JP2003199185A (ja) | 音響再生装置、音響再生プログラムおよび音響再生方法 | |
JPH08294199A (ja) | 話速変換装置 | |
JP2001117585A (ja) | 音声認識方法及び装置 | |
KR100322203B1 (ko) | 차량의 음성인식장치 및 그 방법 | |
JPH04340598A (ja) | 音声認識装置 | |
JPH04330498A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111129 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4880136 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |