JP4880136B2

JP4880136B2 - 音声認識装置および音声認識方法

Info

Publication number: JP4880136B2
Application number: JP2001203754A
Authority: JP
Inventors: 友恵川根; 丈郎金森
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2000-07-10
Filing date: 2001-07-04
Publication date: 2012-02-22
Anticipated expiration: 2021-07-04
Also published as: KR20020033791A; CN1386265A; CN1227647C; DE60122893D1; DE60122893T2; EP1300832A1; JP2002091487A; EP1300832B1; KR100482477B1; WO2002005266A1; US20020173957A1; EP1300832A4

Description

【０００１】
【発明の属する技術分野】
本発明は、話者により発声された音声を認識する音声認識装置、音声認識方法および音声認識プログラムに関する。
【０００２】
【従来の技術】
近年、音声認識に関する技術の発展が著しい。この音声認識とは、コンピュータまたは機械などが人間の音声を自動的に理解することである。例えば、この音声認識を用いることにより、コンピュータまたは機械などを人間の音声に応じて動作させたり、人間の音声を文字に変換させたりすることができる。
【０００３】
音声認識では、発声された音声が有する周波数スペクトルなどの物理的特徴を抽出し、予め記憶されている母音、子音または単語の物理的特徴の型と比較する方法が主に用いられる。しかし、複数の不特定の話者の音声認識を行う場合には、話者各々の個人差による音声の有する物理的特徴の相違が要因となり正確な音声認識を行うことができない。また、特定の話者の音声認識を行う場合にも、昼夜などの周囲環境の変化による雑音（ノイズ）、または話者の体調などによる音声の有する物理的特徴の変化が、音声認識を行う際の認識率を低下させる要因となり正確な音声認識を行うことができない。
【０００４】
図１３は音声認識を行う際の音声レベルと認識率との関係の一例を示す模式図である。図１３に示す模式図は、縦軸が認識率（％）を示し、横軸が音声レベル（ｄＢ）を示す。ここで、音声レベルとは、音声パワーのレベルを意味し、例えば０ｄＢは、負荷抵抗６００Ω、端子間電圧０．７７５Ｖ、消費電力１ｍＷをいう。
【０００５】
図１３に示すように、従来の音声認識では、音声レベルが−１９ｄＢよりも低い場合、または音声レベルが−２ｄＢよりも高い場合に認識率が低下する傾向がある。
【０００６】
従来の音声認識においては、母音、子音または単語の物理的特徴の型である音声レベルを予め記憶する際の音声レベルの近傍において認識率が高くなっている。すなわち、予め記憶される音声レベルと入力される音声レベルとを比較して音声認識を行うため、音声レベルが低い場合から高い場合まで平均的に高い認識率を得ることはできない。
【０００７】
そこで、実開昭５９−６０７００号公報には、音声を入力する際に使用するマイクロアンプにＡＧＣ回路（Auto Gain Contoroller:自動利得制御回路）を用いて常に入力される音声レベルをほぼ一定にする音声認識装置が開示されている。また、実開平０１−１３７４９７号公報および特開昭６３−０１４２００号公報には、適当な手段により話者に音声レベルを知らせ、最適な音声レベルの発声を行うように促す音声認識装置が開示されている。
【０００８】
【発明が解決しようとする課題】
しかしながら、実開昭５９−６０７００号公報に開示された音声認識装置では、ＡＧＣ回路により増幅する必要のない音声以外の雑音（ノイズ）も増幅され、増幅された雑音によって認識率が低下する場合がある。さらに、入力される音声には、１単語ごとに言葉の抑揚を示すアクセントが存在する。そのため、入力される音声レベルをＡＧＣ回路によって頻繁に増幅したり増幅しなかったりすることにより、ほぼ一定のレベルに増幅された音声の波形に歪みが生じる。この音声の波形の歪みにより、一単語ごとに含まれる言葉の抑揚を示すアクセントが歪みを生じ認識率が低下する。
【０００９】
一方、実開平０１−１３７４９７号公報および特開昭６３−０１４２００号公報に開示された音声認識装置では、周囲環境の変化または話者自身の体調不良などの影響により、話者によって入力される音声レベルが予め定められた規定値に達しない場合がある。また、話者が予め定められた規定の音声レベルを発声しても、音声認識装置が認識しない場合などがある。例えば、話者により発声される音声レベルは個人特有の物理的特徴であり、無理に発声を変化させると物理的特徴が異質のものとなり、かえって音声認識の認識率を低下させる場合などがある。
【００１０】
本発明の目的は、話者の音声レベルに左右されずに音声認識の認識率を向上させることができる音声認識装置、音声認識方法および音声認識プログラムを提供することである。
【００１１】
【課題を解決するための手段】
第１の発明に係る音声認識装置は、デジタル音声信号を入力する入力手段と、入力手段により入力される音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する音声レベル推定手段と、音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて入力手段により入力される音声区間のデジタル音声信号のレベルを調整する音声レベル調整手段と、音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識を行う音声認識手段とを備えたものである。
【００１２】
第１の発明に係る音声認識装置においては、入力手段によりデジタル音声信号が入力され、入力手段により入力される音声区間内の予め定められた時間内のデジタル音声信号に基づいて音声レベル推定手段により音声区間の音声レベルが推定される。音声レベル推定手段により推定された音声レベルおよび予め設定された目標レベルに基づいて入力手段により入力される音声区間のデジタル音声信号のレベルが音声レベル調整手段により調整され、音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識手段により音声認識が行われる。
【００１３】
この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
【００１４】
第２の発明に係る音声認識装置は、第１の発明に係る音声認識装置の構成において、音声レベル推定手段は、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定するものである。
【００１５】
この場合、通常、音声区間内の最初の所定時間内の音声レベルの立ち上がり部分により音声区間の全体の音声レベルを判断することができる。したがって、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベルの推定を行うことにより、音声区間内の音声レベルを短時間で正確に推定することができる。
【００１６】
第３の発明に係る音声認識装置は、第２の発明に係る音声認識装置の構成において、音声レベル推定手段は、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号の平均値を音声区間の音声レベルとして推定するものである。
【００１７】
この場合、音声区間の最初の所定時間内のデジタル音声信号の平均値を算出することにより、音声区間の音声レベルをより正確に推定することができる。
【００１８】
第４の発明に係る音声認識装置は、第１〜第３のいずれかの発明に係る音声認識装置の構成において、音声レベル調整手段は、予め設定された目標レベルと音声レベル推定手段により推定される音声レベルとの比により定まる増幅率で入力手段により入力される音声区間のデジタル音声信号のレベルを増幅または減衰させるものである。
【００１９】
この場合、目標レベルと推定された音声レベルとの比により定まる増幅率で音声区間のデジタル信号のレベルを増加または減衰させることにより、音声区間の音声レベルを目標レベルに設定することができる。
【００２０】
第５の発明に係る音声認識装置は、第１〜第４のいずれかの発明に係る音声認識装置の構成において、入力手段により入力されるデジタル音声信号が音声レベル推定手段により推定される音声レベルとともに同期して音声レベル調整手段に与えられるように入力手段により入力されるデジタル音声信号を遅延させる遅延回路をさらに備えたものである。
【００２１】
この場合、デジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを調整することができる。これにより、音声区間の音声レベルを正確に調整することができる。
【００２２】
第６の発明に係る音声認識装置は、第１〜第５のいずれかの発明に係る音声認識装置の構成おいて、音声レベル推定手段は、入力手段により入力される音声区間の開始点を検出する音声検出部と、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する音声レベル推定部と、音声レベル推定部により推定された音声レベルを保持する保持回路と、音声検出部による検出に応答して入力手段により入力される音声区間のデジタル音声信号を蓄積するとともに蓄積された音声区間のデジタル音声信号を保持回路に保持された音声レベルと同期させて音声レベル調整手段に出力する蓄積回路とを含むものである。
【００２３】
この場合、入力手段により入力される音声区間のデジタル音声信号の開始点が音声検出部により検出され、入力手段により入力される音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベル推定部により音声区間の音声レベルが推定される。音声レベル推定部により推定された音声レベルが保持回路により保持され、音声検出部による検出に応答して入力手段により入力される音声区間のデジタル音声信号が蓄積回路に蓄積されるとともに蓄積された音声区間のデジタル音声信号が保持回路に保持された音声レベルと同期させて蓄積回路により音声レベル調整手段に出力される。
【００２４】
この場合、音声区間の開始点からデジタル音声信号が蓄積回路に蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルが調整される。これにより、デジタル音声信号を正確な音声レベルに調整することができ、音声認識の認識率を向上させることができる。
【００２５】
第７の発明に係る音声認識装置は、第６の発明に係る音声認識装置の構成において、蓄積回路は、入力手段により入力される音声区間のデジタル音声信号を交互に蓄積するとともに蓄積された音声区間のデジタル音声信号を交互に音声レベル調整手段に出力する第１および第２のバッファを含むものである。
【００２６】
この場合、複数の単語を含む長い時間の音声が入力されても、第１および第２のバッファに音声区間のデジタル音声信号が交互に蓄積されるとともに第１または第２のバッファから音声区間のデジタル音声信号が出力される。これにより、複数の単語を含む長い時間の音声の認識を小さな容量の第１または第２のバッファを用いて行うことができる。
【００２７】
第８の発明に係る音声認識装置は、第１〜第７のいずれかの発明に係る音声認識装置の構成において、音声認識手段は、音声認識結果を音声レベル調整手段に帰還させ、音声レベル調整手段は、音声認識手段により帰還された音声認識結果に基づいて音声レベルの調整程度を変更するものである。
【００２８】
この場合、音声認識結果を再び音声レベルの調整に用いて音声レベルの調整程度を変更することにより、音声レベルの調整程度が適切でない場合に音声レベルの調整程度を適切な状態に近づけることができる。
【００２９】
第９の発明に係る音声認識装置は、第８の発明に係る音声認識装置の構成において、音声レベル調整手段は、音声認識手段による音声認識が不可能な場合に音声レベルの増幅率を上昇させるものである。
【００３０】
この場合、音声認識が不可能な場合に音声レベルの増幅率を上昇させることにより、音声認識が不可能な音声レベルを音声認識が可能な音声レベルに調整することができる。
【００３１】
第１０の発明に係る音声認識装置は、第１〜第９のいずれかの発明に係る音声認識装置の構成において、音声レベル推定手段により推定された音声レベルが予め定められた範囲内にある場合に音声レベル調整手段を不能動化し、音声レベル推定手段により推定された音声レベルが予め定められた範囲内にない場合に音声レベル調整手段を能動化するとともに音声レベル推定手段により推定された音声レベルを予め定められた範囲内の音声レベルに変更して音声レベル調整手段に与える非線形処理部をさらに備えたものである。
【００３２】
この場合、予め定められた範囲内にない音声レベルの場合にのみ、予め定められた範囲内の音声レベルに変更して音声レベルの調整を行うことができる。これにより、話者の音声が有する言葉の抑揚を示すアクセントに無用な歪みを与えることを防止することができる。
【００３３】
第１１の発明に係る音声認識方法は、デジタル音声信号を入力するステップと、音声区間内の一部の時間内の入力されたデジタル音声信号に基づいて音声区間の音声レベルを推定するステップと、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルを調整するステップと、調整されたデジタル音声信号に基づいて音声認識を行うステップとを備えたものである。
【００３４】
第１１の発明に係る音声認識方法においては、デジタル音声信号が入力され、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが調整され、調整されたデジタル音声信号に基づいて音声認識が行われる。
【００３５】
この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
【００３６】
第１２の発明に係る音声認識方法は、第１１の発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定することを含むものである。
【００３７】
この場合、通常、音声区間内の最初の所定時間内の音声レベルの立ち上がり部分により音声区間の全体の音声レベルを判断することができる。したがって、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声レベルの推定を行うことにより、音声区間内の音声レベルを短時間で正確に推定することができる。
【００３８】
第１３の発明に係る音声認識方法は、第１２の発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間内の最初の所定時間内のデジタル音声信号の平均値を音声区間の音声レベルとして推定することを含むものである。
【００３９】
この場合、音声区間の最初の所定時間内のデジタル音声信号の平均値を算出することにより、音声区間の音声レベルをより正確に推定することができる。
【００４０】
第１４の発明に係る音声認識方法は、第１１〜第１３のいずれかの発明に係る音声認識方法において、デジタル音声信号のレベルを調整するステップは、予め設定された目標レベルと推定される音声レベルとの比により定まる増幅率で音声区間のデジタル音声信号のレベルを増幅または減衰させることを含むものである。
【００４１】
この場合、目標レベルと推定された音声レベルとの比により定まる増幅率で音声区間のデジタル信号のレベルを増加または減衰させることにより、音声区間の音声レベルを目標レベルに設定することができる。
【００４２】
第１５の発明に係る音声認識方法は、第１１〜第１４のいずれかの発明に係る音声認識方法において、音声区間のデジタル音声信号が推定される音声レベルとともに同期してデジタル音声信号のレベルを調整するステップに与えられるようにデジタル音声信号を遅延させるステップをさらに備えたものである。
【００４３】
この場合、デジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを調整することができる。これにより、音声区間の音声レベルを正確に調整することができる。
【００４４】
第１６の発明に係る音声認識方法は、第１１〜第１５のいずれかの発明に係る音声認識方法において、音声レベルを推定するステップは、音声区間のデジタル音声信号の開始点を検出するステップと、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定するステップと、推定された音声レベルを保持するステップと、デジタル音声信号の開始点の検出に応答して音声区間のデジタル音声信号を蓄積するとともに蓄積された音声区間のデジタル音声信号を保持された音声レベルと同期させて出力するステップとを含むものである。
【００４５】
この場合、音声区間のデジタル音声信号の開始点が検出され、音声区間内の最初の所定時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルが保持され、音声区間のデジタル音声信号の開始点の検出に応答して音声区間のデジタル音声信号が蓄積されるとともに蓄積された音声区間のデジタル音声信号が保持された音声レベルと同期させて出力される。
【００４６】
この場合、音声区間の開始点からデジタル音声信号が蓄積回路に蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルが調整される。これにより、デジタル音声信号を正確な音声レベルに調整することができ、音声認識の認識率を向上させることができる。
【００４７】
第１７の発明に係る音声認識方法は、第１６の発明に係る音声認識方法において、蓄積するステップは、音声区間のデジタル音声信号を第１および第２のバッファに交互に蓄積するとともに蓄積された音声区間のデジタル音声信号を第１および第２のバッファから交互に出力するステップを含むものである。
【００４８】
この場合、複数の単語を含む長い時間の音声が入力されても、第１および第２のバッファに音声区間のデジタル音声信号が交互に蓄積されるとともに第１または第２のバッファから音声区間のデジタル音声信号が出力される。これにより、複数の単語を含む長い時間の音声の認識を小さな容量の第１または第２のバッファを用いて行うことができる。
【００４９】
第１８の発明に係る音声認識方法は、第１１〜第１７のいずれかの発明に係る音声認識方法において、音声認識を行うステップは、音声認識結果をデジタル音声信号のレベルを調整するステップに帰還させることを含み、デジタル音声信号のレベルを調整するステップは、帰還された音声認識結果に基づいて音声レベルの調整程度を変更することを含むものである。
【００５０】
この場合、音声認識結果を再び音声レベルの調整に用いて音声レベルの調整程度を変更することにより、音声レベルの調整程度が適切でない場合に繰り返し音声レベルの調整程度を適切なレベルに近づけることができる。
【００５１】
第１９の発明に係る音声認識方法は、第１８の発明に係る音声認識方法において、デジタル音声信号のレベルを調整するステップは、音声認識が不可能な場合に音声レベルの増幅率を上昇させることを含むものである。
【００５２】
この場合、音声認識が不可能な場合に音声レベルの増幅率を上昇させることにより、音声認識が不可能な音声レベルを音声認識が可能な音声レベルに調整することができる。
【００５３】
第２０の発明に係る音声認識方法は、第１１〜第１９のいずれかの発明に係る音声認識方法において、推定された音声レベルが予め定められた範囲内にある場合にデジタル音声信号のレベルを調整することを不能動化し、推定された音声レベルが予め定められた範囲内にない場合に調整するステップを能動化するとともに推定された音声レベルを予め定められた範囲内の音声レベルに変更して変更された音声レベルをデジタル音声信号のレベルを調整するために用いるステップをさらに備えたものである。
【００５４】
この場合、予め定められた範囲内にない音声レベルの場合にのみ、予め定められた範囲内の音声レベルに変更して音声レベルの調整を行うことができる。これにより、話者の音声が有する言葉の抑揚を示すアクセントに無用な歪みを与えることを防止することができる。
【００５５】
第２１の発明に係る音声認識プログラムは、コンピュータ読み取り可能な音声認識プログラムであって、デジタル音声信号を入力する処理と、入力される音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の音声レベルを推定する処理と、推定された音声レベルおよび予め設定された目標レベルに基づいて入力される音声区間のデジタル音声信号のレベルを調整する処理と、調整されたデジタル音声信号に基づいて音声認識を行う処理とをコンピュータに実行させるものである。
【００５６】
第２１の発明に係る音声認識プログラムにおいては、デジタル音声信号が入力され、入力される音声区間内の予め定められた時間内のデジタル音声信号に基づいて音声区間の音声レベルが推定される。推定された音声レベルおよび予め設定された目標レベルに基づいて入力される音声区間のデジタル音声信号のレベルが調整され、調整されたデジタル音声信号に基づいて音声認識が行われる。
【００５７】
この場合、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
【００５８】
【発明の実施の形態】
（第１の実施の形態）
図１は本発明の第１の実施の形態における音声認識装置の一実施例を示すブロック図である。
【００５９】
図１に示すように、音声認識装置は、マイクロホン１、Ａ／Ｄ（アナログ−デジタル）コンバータ２、信号遅延部３、音声レベル推定部４、音声レベル調整部５および音声認識部６を含む。
【００６０】
図１に示すように、話者により発声された音声は、マイクロホン１により集音される。集音された音声は、マイクロホン１の働きによりアナログ音声信号ＳＡに変換されＡ／Ｄコンバータ２に出力される。Ａ／Ｄコンバータ２は、出力されるアナログ音声信号ＳＡをデジタル音声信号ＤＳに変換し、信号遅延部３および音声レベル推定部４に与える。音声レベル推定部４は、与えられるデジタル音声信号ＤＳから音声レベルの推定値ＬＶＬの算出を行う。ここで、音声レベルとは、音声パワー（音声エネルギー）のレベルを意味する。この音声レベルの推定値ＬＶＬの算出については後述する。
【００６１】
信号遅延部３は、後述する予め定められた音声レベル立ち上がり時間ＴＬに相当する遅延量分のみ遅延させたデジタル音声信号ＤＳを音声レベル調整部５に与える。音声レベル調整部５は、音声レベル推定部４から与えられる音声レベルの推定値ＬＶＬに同期して信号遅延部３により与えられるデジタル音声信号ＤＳの音声レベルの調整を行う。音声レベル調整部５は、音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴを音声認識部６に与える。音声認識部６は、音声レベル調整部５により与えられる音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴに基づき音声認識を行う。
【００６２】
第１の実施の形態における音声認識装置においては、マイクロホン１およびＡ／Ｄ（アナログ−デジタル）コンバータ２が入力手段に相当し、信号遅延部３が遅延回路に相当し、音声レベル推定部４が音声レベル推定手段に相当し、音声レベル調整部５が音声レベル調整手段に相当し、音声認識部６が音声認識手段に相当する。
【００６３】
なお、信号遅延部３、音声レベル推定部４、音声レベル調整部５および音声認識部６は、それぞれ信号遅延回路、音声レベル推定回路、音声レベル調整回路および音声認識回路により構成することができる。また、信号遅延部３、音声レベル推定部４、音声レベル調整部５および音声認識部６をコンピュータおよび音声認識プログラムにより表現することができる。
【００６４】
ここで、音声認識プログラムを実行するためのコンピュータについて説明する。図２は音声認識プログラムを実行するためのコンピュータの構成を示すブロック図である。
【００６５】
コンピュータは、ＣＰＵ（中央演算処理装置）５００、入出力装置５０1、ＲＯＭ（リードオンリメモリ）５０２、ＲＡＭ（ランダムアクセスメモリ）５０３、記録媒体５０４、記録媒体駆動装置５０５および外部記録装置５０６を含む。
【００６６】
入出力装置５０１は、他の装置との間で情報の送受信を行う。本実施の形態の入出力装置５０１は、図１のＡ／Ｄコンバータ２からデジタル音声信号ＤＳを入力する。ＲＯＭ５０２にはシステムプログラムが記録される。記録媒体駆動装置５０５は、ＣＤ−ＲＯＭドライブ、フロッピィディスクドライブ等からなり、ＣＤ−ＲＯＭ、フロッピィディスク等の記録媒体５０４に対してデータの読み書きを行う。記録媒体５０４には、音声認識プログラムが記録されている。外部記録装置５０６は、ハードディスク装置などからなり、記録媒体駆動装置５０５を介して記録媒体５０４から読み込まれた音声認識プログラムを記録する。ＣＰＵ５００は、外部記録装置５０６に記録された音声認識プログラムをＲＡＭ５０３上で実行する。これにより、図１の信号遅延部３、音声レベル推定部４、音声レベル調整部５および音声認識部６の機能が実行される。
【００６７】
次に、図１の音声レベル推定部４による音声レベルの推定値ＬＶＬの算出方法および音声レベル調整部５による音声レベルの調整方法について説明する。
【００６８】
まず、音声レベル推定部４による音声レベルの推定値ＬＶＬの算出方法について説明を行う。音声レベル推定部４に入力されるデジタル音声信号ＤＳを、ＤＳ（ｘ）（ｘ＝１，２，…，Ｑ）とする。ここで、ｘは、予め定められた音声レベルの立ち上がり時間ＴＬ内でのＱ個の時点を表し、ＤＳ（ｘ）はＱ個の時点でのデジタル音声信号ＤＳの値を表す。この場合、音声レベルの推定値ＬＶＬは、次式のように表される。
【００６９】
ＬＶＬ＝ (Σ|ＤＳ（ｘ）|)／Ｑ …（１）
式（１）によれば、音声レベルの推定値ＬＶＬは、予め定められた音声レベル立ち上がり時間ＴＬ内のＱ個の時点でのデジタル音声信号ＤＳ（ｘ）の絶対値の累積加算をＱで除算することにより得られる平均値である。このようにして、音声レベル推定部４において音声レベルの推定値ＬＶＬが算出される。
【００７０】
次に、音声レベル調整部５による音声レベルの調整方法について説明する。音声レベル調整部５において、予め定められた音声レベルの目標値をＴＲＧ＿ＬＶＬと表す。この場合、音声レベルの調整値ＬＶＬ＿ＣＴＲＬは、次式のように表される。
【００７１】
ＬＶＬ＿ＣＴＲＬ＝ＴＲＧ＿ＬＶＬ／ＬＶＬ …（２）
式（２）によれば、音声レベルの調整値ＬＶＬ＿ＣＴＲＬは、予め定められた音声レベルの目標値ＴＲＧ＿ＬＶＬを音声レベルの推定値ＬＶＬにより除算することにより算出される。
【００７２】
また、音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴは、音声レベルの調整値ＬＶＬ＿ＣＴＲＬを用いて次式のように表される。
【００７３】
ＣＴＲＬ＿ＯＵＴ（Ｘ）＝ＤＳ（Ｘ）×ＬＶＬ＿ＣＴＲＬ …（３）
ここで、Ｘは時間を表す。式（３）によれば、音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴ（Ｘ）は、予め定められた音声レベル立ち上がり時間ＴＬにおけるデジタル音声信号ＤＳ（Ｘ）に音声レベルの調整値ＬＶＬ＿ＣＴＲＬを乗算した値となる。このように、音声レベル調整部５は、音声レベルの調整を行い調整後の出力ＣＴＲＬ＿ＯＵＴ（Ｘ）を音声認識部６に与える。
【００７４】
次に、図１に示す信号遅延部３の予め定められた音声レベル立ち上がり時間ＴＬについて図を用いて説明する。
【００７５】
図３は話者により発声された“らぐびー”の音声スペクトルを示す波形図である。図３において、縦軸が音声レベルを示し、横軸が時間を示す。
【００７６】
図３に示すように、“らぐびー”という一単語の音声スペクトルは、“ら”の部分の音声レベルが高くなっている。すなわち、音声レベルの高い部分が、１単語ごとに言葉の抑揚を示すアクセントの部分である。ここで、図３に示すように、話者により発声された音声の開始時間ＴＳから発声された音声レベルの値がピーク値Ｐに到達するまでの時間を音声レベル立ち上がり時間ＴＬとする。一般に、音声レベル立ち上がり時間ＴＬは０sec （秒）〜１００msec（ミリ秒）以内に存在し、本発明の実施の形態では、音声レベル立ち上がり時間ＴＬは、１００msecとする。
【００７７】
例えば、この音声レベル立ち上がり時間ＴＬを短時間に設定すると音声認識の認識率の低下を招くこととなる。図３に示すように“らぐびー”という単語を話者が発声した場合、音声レベル立ち上がり時間をＴＬ’で示すように短く設定した場合を考える。この場合、図１に示す信号遅延部３において入力されるデジタル音声信号ＤＳを音声レベル立ち上がり時間ＴＬ’分のみ遅延させても、音声レベル推定部４により適切な音声レベルの推定値ＬＶＬが算出されず、本来目標とする音声レベルの推定値ＬＶＬよりも低い音声レベルの推定値が算出される。その後、音声レベル調整部５に目標よりも低い音声レベルの推定値が与えられ、音声レベル調整部５によりデジタル音声信号ＤＳの音声レベルの値が誤って調整される。これにより、音声認識部６に誤ったデジタル音声信号ＤＳが入力され音声認識の認識率が低下する。
【００７８】
上記のように、信号遅延部３において音声区間の最初の音声レベル立ち上がり時間ＴＬを１００ｍsecに設定することにより、音声区間全体の音声レベルを音声レベル推定部４により算出することができる。これにより、音声区間のデジタル音声信号ＤＳのレベルが一律に調整されるので、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができ音声認識の認識率を向上させることができる。
【００７９】
（第２の実施の形態）
次に、本発明の第２の実施の形態における音声認識装置について図を用いて説明する。
【００８０】
図４は本発明の第２の実施の形態における音声認識装置を示すブロック図である。
【００８１】
図４に示すように、音声認識装置は、マイクロホン１、Ａ／Ｄコンバータ２、音声レベル推定部４、音声レベル調整部５、音声認識部６、音声検出部７、音声レベル保持部８、選択部１１，１２、バッファ２１およびバッファ２２を含む。
【００８２】
図４に示すように、話者により発声された音声は、マイクロホン１により集音される。集音された音声は、マイクロホン１の働きによりアナログ音声信号ＳＡに変換されＡ／Ｄコンバータ２に出力される。Ａ／Ｄコンバータ２は、出力されるアナログ音声信号ＳＡをデジタル音声信号ＤＳに変換し、音声レベル推定部４、音声検出部７および選択部１１に与える。音声レベル推定部４は、与えられるデジタル音声信号ＤＳから音声レベルの推定値ＬＶＬの算出を行う。第２の実施の形態における音声レベル推定部４による音声レベルの推定値ＬＶＬの算出は、第１の実施の形態における音声レベル推定部４による音声レベルの推定値ＬＶＬの算出方法と同様である。
【００８３】
音声レベル推定部４は、Ａ／Ｄコンバータ２から与えられるデジタル音声信号ＤＳに基づいて、一単語ごとに音声レベルの推定値ＬＶＬを算出し、算出される音声レベルの推定値ＬＶＬを順次音声レベル保持部８に与える。ここで、音声レベル保持部８は、音声レベル保持部８内に設けられる保持レジスタに、次に音声レベル推定部４により算出される音声レベルの推定値ＬＶＬが与えられるまで前回の音声レベルの推定値ＬＶＬを保持し、音声レベル推定部４によって算出される音声レベルの推定値ＬＶＬが与えられるごとに、前回の音声レベルの推定値ＬＶＬが保持されている保持レジスタに、新たに与えられた音声レベルの推定値ＬＶＬを上書き保存する。また、この保持レジスタは、データ容量Ｍを有している。
【００８４】
一方、音声検出部７は、Ａ／Ｄコンバータ２により与えられるデジタル音声信号ＤＳから図３の音声の開始時間ＴＳを検出し、Ａ／Ｄコンバータ２から与えられるデジタル音声信号ＤＳをバッファ２１に与えるように選択部１１に制御信号ＣＩＳ１を与えるとともに、選択部１１により与えられるデジタル音声信号ＤＳを蓄積するようにバッファ２１に制御信号ＣＢ１を与える。バッファ２１，２２は、ぞれぞれ容量Ｌを有している。
【００８５】
選択部１１は、音声検出部７により与えられる制御信号ＣＩＳ１に応答して、Ａ／Ｄコンバータ２から与えられるデジタル音声信号ＤＳをバッファ２１に与える。バッファ２１は、音声検出部７から与えられる制御信号ＣＢ１に応答して、選択部１１を介して与えられるデジタル音声信号ＤＳを蓄積する。そして、バッファ２１は、蓄積可能な容量Ｌのデジタル音声信号ＤＳを蓄積した際に、音声検出部７に満杯信号Ｆ１を与える。それにより、音声検出部７は、バッファ２１を介して、音声レベル保持部８に音声レベルの推定値ＬＶＬを出力させる制御信号ＳＬ１を与える。
【００８６】
また、音声検出部７は、バッファ２１から与えられる満杯信号Ｆ１に応答して、Ａ／Ｄコンバータ２から与えられるデジタル音声信号ＤＳをバッファ２２に与えるように選択部１１に制御信号ＣＩＳ２を与えるとともに、選択部１１から与えられるデジタル音声信号ＤＳを蓄積するようにバッファ２２に制御信号ＣＢ２を与える。さらに、音声検出部７は、バッファ２１に制御信号ＣＢＯ１を与え、選択部１２に制御信号ＣＯＳ１を与える。
【００８７】
選択部１１は、音声検出部７により与えられる制御信号ＣＩＳ２に応答して、Ａ／Ｄコンバータ２から与えられるデジタル音声信号ＤＳをバッファ２２に与える。バッファ２２は、音声検出部７により与えられる制御信号ＣＢ２に応答して、選択部１１を介して与えられるデジタル音声信号ＤＳを蓄積する。
【００８８】
一方、バッファ２１は、音声検出部７により与えられる制御信号ＣＢＯ１に応答して、バッファ２１に蓄積されたデジタル音声信号ＤＳを選択部１２を介して音声レベル調整部５に与える。
【００８９】
そして、バッファ２２は、音声検出部７から与えられる制御信号ＣＢ２に応答して、選択部１１を介して与えられるデジタル音声信号ＤＳを蓄積する。バッファ２２は、蓄積可能な容量Ｌのデジタル音声信号ＤＳを蓄積した際に、音声検出部７に満杯信号Ｆ２を与える。それにより、音声検出部７は、バッファ２２を介して音声レベル保持部８に音声レベルの推定値ＬＶＬを出力させる制御信号ＳＬ２を与える。
【００９０】
また、音声検出部７は、バッファ２２から与えられる満杯信号Ｆ２に応答して、Ａ／Ｄコンバータ２から与えられるデジタル音声信号ＤＳをバッファ２１に与えるように選択部１１に制御信号ＣＩＳ１を与える。さらに、音声検出部７は、バッファ２２に制御信号ＣＢＯ２を与え、選択部１２に制御信号ＣＯＳ２を与える。
【００９１】
一方、バッファ２２は、音声検出部７により与えられる制御信号ＣＢＯ２に応答して、バッファ２２に蓄積されたデジタル音声信号ＤＳを選択部１２を介して音声レベル調整部５に与える。
【００９２】
音声レベル保持部８は、内部の保持レジスタに保持された音声レベルの推定値ＬＶＬをバッファ２１から与えられる制御信号ＳＬ１またはバッファ２２から与えられる制御信号ＳＬ２に応答して音声レベル調整部５に与える。ここで、音声レベル保持部８内に設けられる保持レジスタの容量Ｍとバッファ２１，２２の容量Ｌとは、ほぼ同一の容量であるため、選択部１２を介して与えられるデジタル音声信号ＤＳに対応する音声レベルの推定値ＬＶＬが、音声レベル保持部８から出力される。
【００９３】
音声レベル調整部５は、音声レベル保持部８により与えられる音声レベルの推定値ＬＶＬに基づいて、選択部１２を介して得られるデジタル音声信号ＤＳの調整を行う。第２の実施の形態における音声レベル調整部５によるデジタル音声信号ＤＳの調整方法は、第１の実施の形態における音声レベル調整部５によるデジタル音声信号ＤＳの調整方法と同様である。音声レベル調整部５は、音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴを音声認識部６に与える。音声認識部６は、音声レベル調整部５により与えられる音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴに基づき音声認識を行う。
【００９４】
第２の実施の形態における音声認識装置においては、マイクロホン１およびＡ／Ｄ（アナログ−デジタル）コンバータ２が入力手段に相当し、音声レベル推定部４が音声レベル推定手段に相当し、音声レベル調整部５が音声レベル調整手段に相当し、音声認識部６が音声認識手段に相当し、音声検出部７が音声検出部に相当し、音声レベル保持部８が保持回路に相当し、バッファ２１，２２が蓄積回路に相当する。
【００９５】
図５（ａ）は図４のマイクロホン１の出力波形図であり、図５（ｂ）は音声信号（信号成分）（Ｓ）と雑音成分（Ｎ）との比（Ｓ／Ｎ）を示す図である。
【００９６】
図５（ａ）に示すように、マイクロホン１の出力波形は、雑音成分と音声信号からなる。そして、音声信号を含む音声区間では、出力波形の音声レベルの値が高くなる。
【００９７】
また、図５（ｂ）に示すように、図４の音声検出部７は、音声信号（音声成分）と雑音成分との比であるＳ／Ｎ値が低い場合は雑音区間であると判定し、音声信号（音声成分）と雑音成分との比であるＳ／Ｎ値が高い場合は音声区間であると判定する。
【００９８】
図６は図４の音声検出部７の動作を示すフローチャートである。
まず、図６に示すように、音声検出部７は、入力されるデジタル音声信号ＤＳが音声信号であるか否かを判定する（ステップＳ６１）。入力されるデジタル音声信号ＤＳが音声信号でない場合には、次回に入力されるデジタル音声信号ＤＳが音声信号と判定されるまで待機する。一方、入力されるデジタル音声信号ＤＳが音声信号であると判定された場合、音声検出部７は、図４の選択部１１に与えられるデジタル音声信号ＤＳをバッファ２１に与えるように選択部１１に制御信号ＣＩＳ１を与える（ステップＳ６２）。そして、音声検出部７は、バッファ２１にデジタル音声信号ＤＳを蓄積するように制御信号ＣＢ１を与える（ステップＳ６３）。
【００９９】
次いで、音声検出部７は、バッファ２１により蓄積可能な容量Ｌのデジタル音声信号ＤＳを蓄積した際に出力される満杯信号Ｆ１を受信したか否かを判定する（ステップＳ６４）。音声検出部７は、バッファ２１から満杯信号Ｆ１を受信していない場合には、引き続きステップＳ６３を繰り返す。一方、音声検出部７は、バッファ２１から満杯信号Ｆ１を受信した場合には、図４の選択部１１に与えられるデジタル音声信号ＤＳをバッファ２２に与えるように選択部１１に制御信号ＣＩＳ２を与える（ステップＳ６５）。そして、音声検出部７は、さらにバッファ２２にデジタル音声信号ＤＳを蓄積するように制御信号ＣＢ２を与える（ステップＳ６６）。また、音声検出部７は、制御信号ＣＩＳ２および制御信号ＣＢ２を出力した後に、選択部１２にバッファ２１から与えられる蓄積されたデジタル音声信号ＤＳを音声レベル調整部５に与えるように制御信号ＣＯＳ１を与える（ステップＳ６７）。
【０１００】
次いで、音声検出部７は、音声レベル保持部８にバッファ２１を介して制御信号ＳＬ１を与える（ステップＳ６８）。音声レベル保持部８は、バッファ２１を介して与えられる制御信号ＳＬ１に応答して、音声レベル保持部８内の保持レジスタに繰り返し記憶されている音声レベルの推定値ＬＶＬを音声レベル調整部５に与える。
【０１０１】
次いで、音声検出部７は、バッファ２１に制御信号ＣＢＯ１を与え、蓄積されたデジタル音声信号ＤＳを音声レベル調整部５に出力させる（ステップＳ６９）。続いて、音声検出部７は、バッファ２１に蓄積された全てのデジタル音声信号ＤＳが音声レベル調整部５に出力されたか否かを判定する（ステップＳ７０）。ここで、バッファ２１から全てのデジタル音声信号ＤＳが出力されていない場合には、再度、バッファ２１に制御信号ＣＢＯ１を与え蓄積されたデジタル音声信号ＤＳを音声レベル調整部５に出力させる。一方、バッファ２１に蓄積されたデジタル音声信号ＤＳが全て出力された場合、音声検出部７は、バッファ２１にバッファ内のデータを消去（クリア）するように制御信号ＣＲを与える（ステップＳ７１）。
【０１０２】
図７は２単語を話者が発声した場合におけるバッファ２１およびバッファ２２のデジタル音声信号ＤＳの入出力を表す模式図である。
【０１０３】
図７に示すように、バッファ２１には、音声区間（Ｓ）の一単語（Ｗ１）の開始時点において、音声検出部７により制御信号ＣＢ１が与えられ、バッファ２１へのデジタル信号ＤＳの入力が開始される。ここで、バッファ２１およびバッファ２２はＦＩＦＯ（First In First Out）タイプのメモリで構成されており、またバッファ２１およびバッファ２２のメモリ容量Ｌはほぼ同一である。
【０１０４】
バッファ２１へのデジタル音声信号ＤＳの入力は、一単語（Ｗ１）のほぼ全てにおいて行われ、バッファ２１に蓄積可能な容量Ｌのデジタル音声信号ＤＳが蓄積されるとバッファ２１は音声検出部７に満杯信号Ｆ１を出力する。バッファ２１は、満杯信号Ｆ１を出力した後、バッファ２１内に蓄積されたデジタル音声信号ＤＳを音声検出部７により与えられる制御信号ＣＢＯ１に応答して出力する。一方、バッファ２２は、音声検出部７により与えられる制御信号ＣＢ２に応答してデジタル音声信号ＤＳの蓄積を開始する。
【０１０５】
バッファ２２は、蓄積可能な容量Ｌのデジタル音声信号ＤＳが蓄積された場合に、音声検出部７に満杯信号Ｆ２を出力する。一方、バッファ２２の蓄積の間にバッファ２１に蓄積されたデジタル音声信号ＤＳは、全て音声レベル調整部５に出力された後、音声検出部７により制御信号ＣＲが与えられバッファ２１内のデータが消去（クリア）される。それにより、バッファ２１には、音声検出部７により再度デジタル音声信号ＤＳを蓄積させる制御信号ＣＢ１が与えられる。
【０１０６】
上記のように、音声区間の開始点からデジタル音声信号が蓄積され、蓄積されたデジタル音声信号に対応した音声レベルの推定値を用いて音声レベルを正確に調整することができる。したがって、音声認識を正確な音声レベルで調整することにより音声認識の認識率を向上させることができる。
【０１０７】
また、複数の単語を含む長い時間のデジタル音声信号ＤＳが入力されても、交互に蓄積および出力を行うことができる。これにより、小さい容量のバッファを用いても音声認識を行うことができる。
【０１０８】
なお、本発明の実施の形態においては、バッファを用いることとしたが、これに限らず、他の蓄積回路を用いてもよい。さらに、バッファの内部にカウンタを設けて、音声検出部７によりバッファの内部のカウンタを監視させて満杯信号Ｆ１，Ｆ２または制御信号ＣＲを出力してもよい。
【０１０９】
（第３の実施の形態）
図８は本発明の第３の実施の形態における音声認識装置の一例を示すブロック図である。
【０１１０】
図８に示すように、音声認識装置は、マイクロホン１、Ａ／Ｄ（アナログ−デジタル）コンバータ２、信号遅延部３、音声レベル推定部４、音声レベル調整帰還部９および音声認識帰還部１０を含む。
【０１１１】
図８に示すように、話者により発声された音声は、マイクロホン１により集音される。集音された音声は、マイクロホン１の働きによりアナログ音声信号ＳＡに変換されＡ／Ｄコンバータ２に出力される。Ａ／Ｄコンバータ２は、出力されるアナログ音声信号ＳＡをデジタル音声信号ＤＳに変換し、信号遅延部３および音声レベル推定部４に与える。音声レベル推定部４は、与えられるデジタル音声信号ＤＳから音声レベルの推定値ＬＶＬの算出を行う。ここで、第３の発明の実施の形態における音声レベル推定部４による音声レベルの推定値ＬＶＬの算出方法については、第１の実施の形態における音声レベル推定部４による音声レベルの推定値ＬＶＬの算出方法と同様である。
【０１１２】
音声レベル推定部４は、音声レベルの推定値ＬＶＬを算出し音声レベル調整帰還部９に与える。音声レベル調整帰還部９は、音声レベル推定部４により与えられる音声レベルの推定値ＬＶＬに基づいて、音声レベルの推定値ＬＶＬに同期して信号遅延部３により与えられるデジタル音声信号ＤＳのレベルの調整を行う。音声レベル調整帰還部９は、音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴを音声認識帰還部１０に与える。音声認識帰還部１０は、音声レベル調整帰還部９により与えられる調整後の出力ＣＴＲＬ＿ＯＵＴに基づき音声認識を行い、音声認識が失敗したときに音声レベル制御信号ＲＣを音声レベル調整帰還部９に与える。この音声レベル調整帰還部９および音声認識帰還部１０の動作については後述する。
【０１１３】
第３の実施の形態における音声認識装置においては、マイクロホン１およびＡ／Ｄ（アナログ−デジタル）コンバータ２が入力手段に相当し、信号遅延部３が遅延回路に相当し、音声レベル推定部４が音声レベル推定手段に相当し、音声レベル調整帰還部９が音声レベル調整手段に相当し、音声認識帰還部１０が音声認識手段に相当する。
【０１１４】
図９は図８に示す音声レベル調整帰還部９における音声レベルの調整を行う際の動作を説明するフローチャートである。
【０１１５】
図９に示すように、まず、音声レベル調整帰還部９は、音声認識帰還部１０による音声レベル制御信号ＲＣが入力されたか否かを判定する（ステップＳ９１）。次に、音声レベル調整帰還部９は、音声認帰還識部１０により音声レベル制御信号ＲＣが入力されていない場合には、音声認識帰還部１０による音声レベル制御信号ＲＣが入力されたと判定されるまで待機する。一方、音声認識帰還部１０から音声レベル制御信号ＲＣが入力されたと判定された場合には、音声レベル調整帰還部９は、変数Ｋに１を加算する（ステップＳ９２）。
【０１１６】
ここで、複数の段階の音声レベルの目標値が予め設定されており、変数Ｋとは、この複数の段階を表す変数である。ここで、本実施の第３の形態においては、変数Ｋは１からＲまでの値を有し、音声レベルの目標値ＴＲＧ＿ＬＶＬ（Ｋ）の取りうる値は、ＴＲＧ＿ＬＶＬ（１），ＴＲＧ＿ＬＶＬ（２），…ＴＲＧ＿ＬＶＬ（Ｒ）とする。
【０１１７】
次いで、音声レベル調整帰還部９は、変数Ｋが最大値Ｒよりも大きいか否かを判定する（ステップＳ９３）。ここで、音声レベル調整帰還部９は、変数Ｋが最大値Ｒよりも大きいと判定した場合には、変数Ｋを最小値１に戻し（ステップＳ９４）、音声レベルの目標値ＴＲＧ＿ＬＶＬをＴＲＧ＿ＬＶＬ（１）に設定する（ステップＳ９５）。
【０１１８】
一方、音声レベル調整帰還部９は、変数Ｋが最大値Ｒ以下と判定した場合、音声レベルの目標値ＴＲＧ＿ＬＶＬをＴＲＧ＿ＬＶＬ（Ｋ）に設定する（ステップＳ９５）。
【０１１９】
例えば、最初、音声レベルの目標値ＴＲＧ＿ＬＶＬが、ＴＲＧ＿ＬＶＬ（２）に設定されているとする。そして、音声認識帰還部１０が音声認識に失敗して音声認識を行うことができない場合には、制御信号ＲＣが音声レベル調整帰還部９に出力される。音声レベル調整帰還部９は、音声レベルの目標値ＴＲＧ＿ＬＶＬ（２）を音声レベルの目標値ＴＲＧ＿ＬＶＬ（３）に変更し、再度の話者からの音声入力を待つ。
【０１２０】
このように、音声レベルの目標値ＴＲＧ＿ＬＶＬをＴＲＧ＿ＬＶＬ（２），ＴＲＧ＿ＬＶＬ（３），ＴＲＧ＿ＬＶＬ（４）と順次に変更し、音声認識が成功した時点で音声レベルの目標値ＴＲＧ＿ＬＶＬが固定される。また、音声レベルの目標値ＴＲＧ＿ＬＶＬが最大値であるＴＲＧ＿ＬＶＬ（Ｒ）に設定されても音声認識に失敗した場合には、次に音声レベルの目標値ＴＲＧ＿ＬＶＬを最小値であるＴＲＧ＿ＬＶＬ（１）に戻し、再度の話者からの音声入力を待つ。
【０１２１】
このようして、音声レベルの目標値ＴＲＧ＿ＬＶＬが音声認識に最適な値に設定される。
【０１２２】
上記のように、音声認識結果が失敗であった場合に、再び音声レベル調整帰還部９において、音声レベルの調整程度を順次上げていくことができる。また、音声レベルの調整程度が、予め定めた音声レベルの最大値に到達しても、再度音声レベルを最小値に戻して調整程度を順次上げることができる。これにより、音声レベルの調整程度が適切でなく音声認識に失敗した場合には、繰り返し音声レベルの調整程度を順次変更することができるので音声認識の認識率を向上させることができる。
【０１２３】
なお、上記実施の形態においては、音声認識に失敗した場合には、再度話者からの音声入力により音声レベルの目標値ＴＲＧ＿ＬＶＬ（Ｋ）を順次変更することとしたが、これに限らず、話者の音声入力を保持する手段を設け、音声認識に失敗した場合には、音声入力を保持する手段により保持されている音声入力を用いることにより音声レベルの目標値ＴＲＧ＿ＬＶＬ（Ｋ）を順次変更させてもよい。
【０１２４】
（第４の実施の形態）
図１０は本発明の第４の実施の形態における音声認識装置の一例を示すブロック図である。
【０１２５】
図１０に示すように、音声認識装置は、マイクロホン１、Ａ／Ｄ（アナログ−デジタル）コンバータ２、信号遅延部３、音声レベル推定部４、音声レベル調整部５、音声認識部６および信号非線形処理部１１を含む。
【０１２６】
図１０に示すように、話者により発声された音声は、マイクロホン１により集音される。集音された音声は、マイクロホン１の働きによりアナログ音声信号ＳＡに変換されＡ／Ｄコンバータ２に出力される。Ａ／Ｄコンバータ２は、出力されるアナログ音声信号ＳＡをデジタル音声信号ＤＳに変換し、信号遅延部３および音声レベル推定部４に与える。音声レベル推定部４は、与えられるデジタル音声信号ＤＳから音声レベルの推定値ＬＶＬの算出を行う。ここで、第４の実施の形態における音声レベル推定部４による音声レベルの推定値ＬＶＬの算出方法については、第１の実施の形態における音声レベル推定部４による音声レベルの推定値ＬＶＬの算出方法と同様である。音声レベル推定部４は、与えられるデジタル音声信号ＤＳおよび音声レベルの推定値ＬＶＬを信号非線形処理部１１に与える。信号非線形処理部１１は、音声レベル推定部４により与えられる音声レベルの推定値ＬＶＬに応じて後述する非線形処理を行い、非線形処理を行った音声レベルの推定値ＬＶＬを音声レベル調整部５に与える。
【０１２７】
一方、信号遅延部３は、音声レベル立ち上がり時間ＴＬに相当する遅延量分のみ遅延させたデジタル音声信号ＤＳを音声レベル調整部５に与える。ここで、第４の実施の形態における音声レベル立上り時間ＴＬに相当する遅延量分は、１００ｍｓｅｃとする。音声レベル調整部５は、信号非線形処理部１１から与えられる音声レベルの推定値ＬＶＬに応じて信号遅延部３により与えられるデジタル音声信号ＤＳの音声レベルの調整を行う。音声レベル調整部５は、音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴを音声認識部６に与える。音声認識部６は、音声レベル調整部５により与えられる音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴに応じて音声認識を行う。
【０１２８】
第４の実施の形態における音声認識装置においては、マイクロホン１およびＡ／Ｄ（アナログ−デジタル）コンバータ２が入力手段に相当し、信号遅延部３が遅延回路に相当し、音声レベル推定部４が音声レベル推定手段に相当し、音声レベル調整部５が音声レベル調整手段に相当し、音声認識部６が音声認識手段に相当し、信号非線形処理部１１が非線形処理部に相当する。
【０１２９】
図１１は図１０の信号非線形処理部１１に入力される音声レベルの推定値ＬＶＬと図１０の音声認識部６における認識率との関係を示す図である。
【０１３０】
図１１に示すように、図１０の音声認識部６における認識率は、音声レベルの推定値ＬＶＬに依存している。音声レベルの推定値ＬＶＬが−１９ｄＢ以上−２ｄＢ以下の範囲にある場合には、認識率が８０％以上を示す。そして、特に音声レベルの推定値ＬＶＬが低い（−１９ｄＢ以下）場合、または音声レベルの推定値ＬＶＬが高い（−２ｄＢ以上）場合には、音声認識の認識率が急激に低下する。
【０１３１】
このことから、本発明の第４の実施の形態における信号非線形処理部１１においては、入力される音声レベルの推定値ＬＶＬが−１９ｄＢから−２ｄＢまでの範囲内に存在するように音声レベルの推定値ＬＶＬを調整する。
【０１３２】
図１２は信号非線形処理部１１の処理動作を示すフローチャートである。
図１２に示すように、信号非線形処理部１１は、音声レベル推定部４により入力される音声レベルの推定値ＬＶＬが−１９ｄＢ以上−２ｄＢ以下であるか否かを判定する（ステップＳ１０１）。
【０１３３】
信号非線形処理部１１は、入力される音声レベルの推定値ＬＶＬが−１９ｄＢ以上−２ｄＢ以下の値であると判定した場合には、音声レベル調整部５を不能動化させる。すなわち、音声レベル調整部５において式（２）に示す音声レベルの調整値ＬＶＬ＿ＣＴＲＬは１となる。
【０１３４】
一方、信号非線形処理部１１は、入力される音声レベルの推定値ＬＶＬが−１９ｄＢ以上−２ｄＢ以下の値でないと判定した場合、音声レベルの推定値ＬＶＬを−１０ｄＢに設定する（ステップＳ１０２）。
【０１３５】
上記のように、信号非線形処理部１１は、音声レベルの推定値ＬＶＬが認識率８０％以上を満たすように、音声レベルの推定値ＬＶＬを設定するため、音声認識部６において入力されるデジタル音声信号ＤＳの音声認識の認識率を向上させることができる。すなわち、音声レベルの推定値ＬＶＬが予め定められた範囲内にない場合にのみ、音声レベルの推定値を予め定められた範囲内の音声レベルの推定値に変更して音声レベルの調整を行い、音声レベルの推定値が予め定められた範囲内のにある場合には、音声レベル調整部５における増幅率を１にして音声レベル調整部５を不能動化にすることにより音声レベルの調整を行わない。これにより、簡易に話者の音声が有する言葉の抑揚であるアクセントに無用な歪みを与えることを防止し音声認識を行うことができるので音声認識の認識率を向上させることができる。
【０１３６】
なお、上記実施の形態においては、音声レベルの推定値を−１９ｄＢから−２ｄＢに調整することとしたが、これに限定されず、音声認識を行う際に予め設定される音声レベルの推定値または音声認識率の高い音声レベル推定値に調整すればよい。
【０１３７】
【発明の効果】
本発明によれば、音声区間内の一部の時間内のデジタル音声信号に基づいて音声区間の全体の音声レベルが推定され、推定された音声レベルおよび予め設定された目標レベルに基づいて音声区間のデジタル音声信号のレベルが一律に調整される。それにより、話者の音声が有する言葉の抑揚を示すアクセントに歪みを与えることなく音声認識を行うことができる。したがって、音声認識の認識率を向上させることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態における音声認識装置の一実施例を示すブロック図
【図２】音声認識プログラムを実行するためのコンピュータの構成を示すブロック図
【図３】話者により発声された“らぐびー”の音声スペクトルを示す波形図
【図４】本発明の第２の実施の形態における音声認識装置を示すブロック図
【図５】（ａ）は図４のマイクロホンの出力波形図、（ｂ）は音声信号（信号成分）と雑音成分との比を示す図
【図６】図４の音声検出部の動作を示すフローチャート
【図７】２単語を話者が発声した場合におけるバッファのデジタル音声信号の入出力を表す模式図
【図８】本発明の第３の実施の形態における音声認識装置の一例を示すブロック図
【図９】図８に示す音声レベル調整帰還部における音声レベルの調整を行う際の動作を説明するフローチャート
【図１０】本発明の第４の実施の形態における音声認識装置の一例を示すブロック図
【図１１】図１０の信号非線形処理部に入力される音声レベルの推定値と図１０の音声認識部における認識率との関係を示す図
【図１２】信号非線形処理部の処理動作を示すフローチャート
【図１３】音声認識を行う際の音声レベルと認識率との関係の一例を示す模式図
【符号の説明】
１マイクロホン
２Ａ／Ｄコンバータ
３信号遅延部
４音声レベル推定部
５音声レベル調整部
６音声認識部
７音声検出部
８音声レベル保持部
１１信号非線形処理部

Claims

デジタル音声信号を入力する入力手段と、
前記入力手段により入力されるデジタル音声信号の音声区間内の話者により発声された音声の開始時間から発声された音声レベルの値がピーク値に到達するまでの時間である音声レベル立ち上がり時間内のデジタル音声信号の平均値を前記音声区間の音声レベルとして推定する音声レベル推定手段と、
予め設定された目標レベルを前記音声レベル推定手段により推定された音声レベルで除算して得た調整値を前記入力手段により入力される前記音声区間のデジタル音声信号に乗算する音声レベル調整手段と、
前記音声レベル調整手段により調整されたデジタル音声信号に基づいて音声認識を行う音声認識手段とを備えたことを特徴とする音声認識装置。
デジタル音声信号を入力するステップと、
入力された前記デジタル音声信号の音声区間内の話者により発声された音声の開始時間から発声された音声レベルの値がピーク値に到達するまでの時間である音声レベル立ち上がり時間内のデジタル音声信号の平均値を前記音声区間の音声レベルとして推定するステップと、
予め設定された目標レベルを前記推定された音声レベルで除算して得た調整値を前記入力される前記音声区間のデジタル音声信号に乗算してデジタル音声信号のレベルを調整するステップと、
前記調整されたデジタル音声信号に基づいて音声認識を行うステップとを備えたことを特徴とする音声認識方法。