JP2002091487A

JP2002091487A - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP2002091487A
Application number: JP2001203754A
Authority: JP
Inventors: Tomoe Kawane; 友恵川根; Takeo Kanamori; 丈郎金森
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-07-10
Filing date: 2001-07-04
Publication date: 2002-03-27
Anticipated expiration: 2021-07-04
Also published as: EP1300832A4; KR100482477B1; DE60122893D1; WO2002005266A1; EP1300832B1; CN1386265A; EP1300832A1; CN1227647C; KR20020033791A; US20020173957A1; DE60122893T2; JP4880136B2

Abstract

(57)【要約】【課題】話者の音声レベルに左右されずに音声認識の
認識率を向上させることができる音声認識装置、音声認
識方法および音声認識プログラムを提供することであ
る。【解決手段】話者により発声された音声はマイクロホ
ン１により集音され、Ａ／Ｄコンバータ２を介して信号
遅延部３および音声レベル推定部４に与えられる。音声
レベル推定部４は与えられるデジタル音声信号から音声
レベルの推定値の算出を行う。信号遅延部３は予め定め
られた音声レベル立ち上がり時間分を遅延させたデジタ
ル音声信号を音声レベル調整部５に与え、音声レベル調
整部５は、音声レベルの推定値に基づいてデジタル音声
信号の音声レベルの調整を行い、音声レベルの調整後の
出力を音声認識部６に与える。音声認識部６は与えられ
る音声レベルの調整後の出力に応じて音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者により発声さ
れた音声を認識する音声認識装置、音声認識方法および
音声認識プログラムに関する。

【０００２】

【従来の技術】近年、音声認識に関する技術の発展が著
しい。この音声認識とは、コンピュータまたは機械など
が人間の音声を自動的に理解することである。例えば、
この音声認識を用いることにより、コンピュータまたは
機械などを人間の音声に応じて動作させたり、人間の音
声を文字に変換させたりすることができる。

【０００３】音声認識では、発声された音声が有する周
波数スペクトルなどの物理的特徴を抽出し、予め記憶さ
れている母音、子音または単語の物理的特徴の型と比較
する方法が主に用いられる。しかし、複数の不特定の話
者の音声認識を行う場合には、話者各々の個人差による
音声の有する物理的特徴の相違が要因となり正確な音声
認識を行うことができない。また、特定の話者の音声認
識を行う場合にも、昼夜などの周囲環境の変化による雑
音（ノイズ）、または話者の体調などによる音声の有す
る物理的特徴の変化が、音声認識を行う際の認識率を低
下させる要因となり正確な音声認識を行うことができな
い。

【０００４】図１３は音声認識を行う際の音声レベルと
認識率との関係の一例を示す模式図である。図１３に示
す模式図は、縦軸が認識率（％）を示し、横軸が音声レ
ベル（ｄＢ）を示す。ここで、音声レベルとは、音声パ
ワーのレベルを意味し、例えば０ｄＢは、負荷抵抗６０
０Ω、端子間電圧０．７７５Ｖ、消費電力１ｍＷをい
う。

【０００５】図１３に示すように、従来の音声認識で
は、音声レベルが−１９ｄＢよりも低い場合、または音
声レベルが−２ｄＢよりも高い場合に認識率が低下する
傾向がある。

【０００６】従来の音声認識においては、母音、子音ま
たは単語の物理的特徴の型である音声レベルを予め記憶
する際の音声レベルの近傍において認識率が高くなって
いる。すなわち、予め記憶される音声レベルと入力され
る音声レベルとを比較して音声認識を行うため、音声レ
ベルが低い場合から高い場合まで平均的に高い認識率を
得ることはできない。

【０００７】そこで、実開昭５９−６０７００号公報に
は、音声を入力する際に使用するマイクロアンプにＡＧ
Ｃ回路（Auto Gain Contoroller:自動利得制御回路）を
用いて常に入力される音声レベルをほぼ一定にする音声
認識装置が開示されている。また、実開平０１−１３７
４９７号公報および特開昭６３−０１４２００号公報に
は、適当な手段により話者に音声レベルを知らせ、最適
な音声レベルの発声を行うように促す音声認識装置が開
示されている。

【０００８】

【発明が解決しようとする課題】しかしながら、実開昭
５９−６０７００号公報に開示された音声認識装置で
は、ＡＧＣ回路により増幅する必要のない音声以外の雑
音（ノイズ）も増幅され、増幅された雑音によって認識
率が低下する場合がある。さらに、入力される音声に
は、１単語ごとに言葉の抑揚を示すアクセントが存在す
る。そのため、入力される音声レベルをＡＧＣ回路によ
って頻繁に増幅したり増幅しなかったりすることによ
り、ほぼ一定のレベルに増幅された音声の波形に歪みが
生じる。この音声の波形の歪みにより、一単語ごとに含
まれる言葉の抑揚を示すアクセントが歪みを生じ認識率
が低下する。

【０００９】一方、実開平０１−１３７４９７号公報お
よび特開昭６３−０１４２００号公報に開示された音声
認識装置では、周囲環境の変化または話者自身の体調不
良などの影響により、話者によって入力される音声レベ
ルが予め定められた規定値に達しない場合がある。ま
た、話者が予め定められた規定の音声レベルを発声して
も、音声認識装置が認識しない場合などがある。例え
ば、話者により発声される音声レベルは個人特有の物理
的特徴であり、無理に発声を変化させると物理的特徴が
異質のものとなり、かえって音声認識の認識率を低下さ
せる場合などがある。

【００１０】本発明の目的は、話者の音声レベルに左右
されずに音声認識の認識率を向上させることができる音
声認識装置、音声認識方法および音声認識プログラムを
提供することである。

【００１１】

【課題を解決するための手段】第１の発明に係る音声認
識装置は、デジタル音声信号を入力する入力手段と、入
力手段により入力される音声区間内の一部の時間内のデ
ジタル音声信号に基づいて音声区間の音声レベルを推定
する音声レベル推定手段と、音声レベル推定手段により
推定された音声レベルおよび予め設定された目標レベル
に基づいて入力手段により入力される音声区間のデジタ
ル音声信号のレベルを調整する音声レベル調整手段と、
音声レベル調整手段により調整されたデジタル音声信号
に基づいて音声認識を行う音声認識手段とを備えたもの
である。

【００１２】第１の発明に係る音声認識装置において
は、入力手段によりデジタル音声信号が入力され、入力
手段により入力される音声区間内の予め定められた時間
内のデジタル音声信号に基づいて音声レベル推定手段に
より音声区間の音声レベルが推定される。音声レベル推
定手段により推定された音声レベルおよび予め設定され
た目標レベルに基づいて入力手段により入力される音声
区間のデジタル音声信号のレベルが音声レベル調整手段
により調整され、音声レベル調整手段により調整された
デジタル音声信号に基づいて音声認識手段により音声認
識が行われる。

【００１３】この場合、音声区間内の一部の時間内のデ
ジタル音声信号に基づいて音声区間の全体の音声レベル
が推定され、推定された音声レベルおよび予め設定され
た目標レベルに基づいて音声区間のデジタル音声信号の
レベルが一律に調整される。それにより、話者の音声が
有する言葉の抑揚を示すアクセントに歪みを与えること
なく音声認識を行うことができる。したがって、音声認
識の認識率を向上させることができる。

【００１４】第２の発明に係る音声認識装置は、第１の
発明に係る音声認識装置の構成において、音声レベル推
定手段は、入力手段により入力される音声区間内の最初
の所定時間内のデジタル音声信号に基づいて音声区間の
音声レベルを推定するものである。

【００１５】この場合、通常、音声区間内の最初の所定
時間内の音声レベルの立ち上がり部分により音声区間の
全体の音声レベルを判断することができる。したがっ
て、音声区間内の最初の所定時間内のデジタル音声信号
に基づいて音声レベルの推定を行うことにより、音声区
間内の音声レベルを短時間で正確に推定することができ
る。

【００１６】第３の発明に係る音声認識装置は、第２の
発明に係る音声認識装置の構成において、音声レベル推
定手段は、入力手段により入力される音声区間内の最初
の所定時間内のデジタル音声信号の平均値を音声区間の
音声レベルとして推定するものである。

【００１７】この場合、音声区間の最初の所定時間内の
デジタル音声信号の平均値を算出することにより、音声
区間の音声レベルをより正確に推定することができる。

【００１８】第４の発明に係る音声認識装置は、第１〜
第３のいずれかの発明に係る音声認識装置の構成におい
て、音声レベル調整手段は、予め設定された目標レベル
と音声レベル推定手段により推定される音声レベルとの
比により定まる増幅率で入力手段により入力される音声
区間のデジタル音声信号のレベルを増幅または減衰させ
るものである。

【００１９】この場合、目標レベルと推定された音声レ
ベルとの比により定まる増幅率で音声区間のデジタル信
号のレベルを増加または減衰させることにより、音声区
間の音声レベルを目標レベルに設定することができる。

【００２０】第５の発明に係る音声認識装置は、第１〜
第４のいずれかの発明に係る音声認識装置の構成におい
て、入力手段により入力されるデジタル音声信号が音声
レベル推定手段により推定される音声レベルとともに同
期して音声レベル調整手段に与えられるように入力手段
により入力されるデジタル音声信号を遅延させる遅延回
路をさらに備えたものである。

【００２１】この場合、デジタル音声信号に対応した音
声レベルの推定値を用いて音声レベルを調整することが
できる。これにより、音声区間の音声レベルを正確に調
整することができる。

【００２２】第６の発明に係る音声認識装置は、第１〜
第５のいずれかの発明に係る音声認識装置の構成おい
て、音声レベル推定手段は、入力手段により入力される
音声区間の開始点を検出する音声検出部と、入力手段に
より入力される音声区間内の最初の所定時間内のデジタ
ル音声信号に基づいて音声区間の音声レベルを推定する
音声レベル推定部と、音声レベル推定部により推定され
た音声レベルを保持する保持回路と、音声検出部による
検出に応答して入力手段により入力される音声区間のデ
ジタル音声信号を蓄積するとともに蓄積された音声区間
のデジタル音声信号を保持回路に保持された音声レベル
と同期させて音声レベル調整手段に出力する蓄積回路と
を含むものである。

【００２３】この場合、入力手段により入力される音声
区間のデジタル音声信号の開始点が音声検出部により検
出され、入力手段により入力される音声区間内の最初の
所定時間内のデジタル音声信号に基づいて音声レベル推
定部により音声区間の音声レベルが推定される。音声レ
ベル推定部により推定された音声レベルが保持回路によ
り保持され、音声検出部による検出に応答して入力手段
により入力される音声区間のデジタル音声信号が蓄積回
路に蓄積されるとともに蓄積された音声区間のデジタル
音声信号が保持回路に保持された音声レベルと同期させ
て蓄積回路により音声レベル調整手段に出力される。

【００２４】この場合、音声区間の開始点からデジタル
音声信号が蓄積回路に蓄積され、蓄積されたデジタル音
声信号に対応した音声レベルの推定値を用いて音声レベ
ルが調整される。これにより、デジタル音声信号を正確
な音声レベルに調整することができ、音声認識の認識率
を向上させることができる。

【００２５】第７の発明に係る音声認識装置は、第６の
発明に係る音声認識装置の構成において、蓄積回路は、
入力手段により入力される音声区間のデジタル音声信号
を交互に蓄積するとともに蓄積された音声区間のデジタ
ル音声信号を交互に音声レベル調整手段に出力する第１
および第２のバッファを含むものである。

【００２６】この場合、複数の単語を含む長い時間の音
声が入力されても、第１および第２のバッファに音声区
間のデジタル音声信号が交互に蓄積されるとともに第１
または第２のバッファから音声区間のデジタル音声信号
が出力される。これにより、複数の単語を含む長い時間
の音声の認識を小さな容量の第１または第２のバッファ
を用いて行うことができる。

【００２７】第８の発明に係る音声認識装置は、第１〜
第７のいずれかの発明に係る音声認識装置の構成におい
て、音声認識手段は、音声認識結果を音声レベル調整手
段に帰還させ、音声レベル調整手段は、音声認識手段に
より帰還された音声認識結果に基づいて音声レベルの調
整程度を変更するものである。

【００２８】この場合、音声認識結果を再び音声レベル
の調整に用いて音声レベルの調整程度を変更することに
より、音声レベルの調整程度が適切でない場合に音声レ
ベルの調整程度を適切な状態に近づけることができる。

【００２９】第９の発明に係る音声認識装置は、第８の
発明に係る音声認識装置の構成において、音声レベル調
整手段は、音声認識手段による音声認識が不可能な場合
に音声レベルの増幅率を上昇させるものである。

【００３０】この場合、音声認識が不可能な場合に音声
レベルの増幅率を上昇させることにより、音声認識が不
可能な音声レベルを音声認識が可能な音声レベルに調整
することができる。

【００３１】第１０の発明に係る音声認識装置は、第１
〜第９のいずれかの発明に係る音声認識装置の構成にお
いて、音声レベル推定手段により推定された音声レベル
が予め定められた範囲内にある場合に音声レベル調整手
段を不能動化し、音声レベル推定手段により推定された
音声レベルが予め定められた範囲内にない場合に音声レ
ベル調整手段を能動化するとともに音声レベル推定手段
により推定された音声レベルを予め定められた範囲内の
音声レベルに変更して音声レベル調整手段に与える非線
形処理部をさらに備えたものである。

【００３２】この場合、予め定められた範囲内にない音
声レベルの場合にのみ、予め定められた範囲内の音声レ
ベルに変更して音声レベルの調整を行うことができる。
これにより、話者の音声が有する言葉の抑揚を示すアク
セントに無用な歪みを与えることを防止することができ
る。

【００３３】第１１の発明に係る音声認識方法は、デジ
タル音声信号を入力するステップと、音声区間内の一部
の時間内の入力されたデジタル音声信号に基づいて音声
区間の音声レベルを推定するステップと、推定された音
声レベルおよび予め設定された目標レベルに基づいて音
声区間のデジタル音声信号のレベルを調整するステップ
と、調整されたデジタル音声信号に基づいて音声認識を
行うステップとを備えたものである。

【００３４】第１１の発明に係る音声認識方法において
は、デジタル音声信号が入力され、音声区間内の一部の
時間内のデジタル音声信号に基づいて音声区間の音声レ
ベルが推定される。推定された音声レベルおよび予め設
定された目標レベルに基づいて音声区間のデジタル音声
信号のレベルが調整され、調整されたデジタル音声信号
に基づいて音声認識が行われる。

【００３５】この場合、音声区間内の一部の時間内のデ
ジタル音声信号に基づいて音声区間の全体の音声レベル
が推定され、推定された音声レベルおよび予め設定され
た目標レベルに基づいて音声区間のデジタル音声信号の
レベルが一律に調整される。それにより、話者の音声が
有する言葉の抑揚を示すアクセントに歪みを与えること
なく音声認識を行うことができる。したがって、音声認
識の認識率を向上させることができる。

【００３６】第１２の発明に係る音声認識方法は、第１
１の発明に係る音声認識方法において、音声レベルを推
定するステップは、音声区間内の最初の所定時間内のデ
ジタル音声信号に基づいて音声区間の音声レベルを推定
することを含むものである。

【００３７】この場合、通常、音声区間内の最初の所定
時間内の音声レベルの立ち上がり部分により音声区間の
全体の音声レベルを判断することができる。したがっ
て、音声区間内の最初の所定時間内のデジタル音声信号
に基づいて音声レベルの推定を行うことにより、音声区
間内の音声レベルを短時間で正確に推定することができ
る。

【００３８】第１３の発明に係る音声認識方法は、第１
２の発明に係る音声認識方法において、音声レベルを推
定するステップは、音声区間内の最初の所定時間内のデ
ジタル音声信号の平均値を音声区間の音声レベルとして
推定することを含むものである。

【００３９】この場合、音声区間の最初の所定時間内の
デジタル音声信号の平均値を算出することにより、音声
区間の音声レベルをより正確に推定することができる。

【００４０】第１４の発明に係る音声認識方法は、第１
１〜第１３のいずれかの発明に係る音声認識方法におい
て、デジタル音声信号のレベルを調整するステップは、
予め設定された目標レベルと推定される音声レベルとの
比により定まる増幅率で音声区間のデジタル音声信号の
レベルを増幅または減衰させることを含むものである。

【００４１】この場合、目標レベルと推定された音声レ
ベルとの比により定まる増幅率で音声区間のデジタル信
号のレベルを増加または減衰させることにより、音声区
間の音声レベルを目標レベルに設定することができる。

【００４２】第１５の発明に係る音声認識方法は、第１
１〜第１４のいずれかの発明に係る音声認識方法におい
て、音声区間のデジタル音声信号が推定される音声レベ
ルとともに同期してデジタル音声信号のレベルを調整す
るステップに与えられるようにデジタル音声信号を遅延
させるステップをさらに備えたものである。

【００４３】この場合、デジタル音声信号に対応した音
声レベルの推定値を用いて音声レベルを調整することが
できる。これにより、音声区間の音声レベルを正確に調
整することができる。

【００４４】第１６の発明に係る音声認識方法は、第１
１〜第１５のいずれかの発明に係る音声認識方法におい
て、音声レベルを推定するステップは、音声区間のデジ
タル音声信号の開始点を検出するステップと、音声区間
内の最初の所定時間内のデジタル音声信号に基づいて音
声区間の音声レベルを推定するステップと、推定された
音声レベルを保持するステップと、デジタル音声信号の
開始点の検出に応答して音声区間のデジタル音声信号を
蓄積するとともに蓄積された音声区間のデジタル音声信
号を保持された音声レベルと同期させて出力するステッ
プとを含むものである。

【００４５】この場合、音声区間のデジタル音声信号の
開始点が検出され、音声区間内の最初の所定時間内のデ
ジタル音声信号に基づいて音声区間の音声レベルが推定
される。推定された音声レベルが保持され、音声区間の
デジタル音声信号の開始点の検出に応答して音声区間の
デジタル音声信号が蓄積されるとともに蓄積された音声
区間のデジタル音声信号が保持された音声レベルと同期
させて出力される。

【００４６】この場合、音声区間の開始点からデジタル
音声信号が蓄積回路に蓄積され、蓄積されたデジタル音
声信号に対応した音声レベルの推定値を用いて音声レベ
ルが調整される。これにより、デジタル音声信号を正確
な音声レベルに調整することができ、音声認識の認識率
を向上させることができる。

【００４７】第１７の発明に係る音声認識方法は、第１
６の発明に係る音声認識方法において、蓄積するステッ
プは、音声区間のデジタル音声信号を第１および第２の
バッファに交互に蓄積するとともに蓄積された音声区間
のデジタル音声信号を第１および第２のバッファから交
互に出力するステップを含むものである。

【００４８】この場合、複数の単語を含む長い時間の音
声が入力されても、第１および第２のバッファに音声区
間のデジタル音声信号が交互に蓄積されるとともに第１
または第２のバッファから音声区間のデジタル音声信号
が出力される。これにより、複数の単語を含む長い時間
の音声の認識を小さな容量の第１または第２のバッファ
を用いて行うことができる。

【００４９】第１８の発明に係る音声認識方法は、第１
１〜第１７のいずれかの発明に係る音声認識方法におい
て、音声認識を行うステップは、音声認識結果をデジタ
ル音声信号のレベルを調整するステップに帰還させるこ
とを含み、デジタル音声信号のレベルを調整するステッ
プは、帰還された音声認識結果に基づいて音声レベルの
調整程度を変更することを含むものである。

【００５０】この場合、音声認識結果を再び音声レベル
の調整に用いて音声レベルの調整程度を変更することに
より、音声レベルの調整程度が適切でない場合に繰り返
し音声レベルの調整程度を適切なレベルに近づけること
ができる。

【００５１】第１９の発明に係る音声認識方法は、第１
８の発明に係る音声認識方法において、デジタル音声信
号のレベルを調整するステップは、音声認識が不可能な
場合に音声レベルの増幅率を上昇させることを含むもの
である。

【００５２】この場合、音声認識が不可能な場合に音声
レベルの増幅率を上昇させることにより、音声認識が不
可能な音声レベルを音声認識が可能な音声レベルに調整
することができる。

【００５３】第２０の発明に係る音声認識方法は、第１
１〜第１９のいずれかの発明に係る音声認識方法におい
て、推定された音声レベルが予め定められた範囲内にあ
る場合にデジタル音声信号のレベルを調整することを不
能動化し、推定された音声レベルが予め定められた範囲
内にない場合に調整するステップを能動化するとともに
推定された音声レベルを予め定められた範囲内の音声レ
ベルに変更して変更された音声レベルをデジタル音声信
号のレベルを調整するために用いるステップをさらに備
えたものである。

【００５４】この場合、予め定められた範囲内にない音
声レベルの場合にのみ、予め定められた範囲内の音声レ
ベルに変更して音声レベルの調整を行うことができる。
これにより、話者の音声が有する言葉の抑揚を示すアク
セントに無用な歪みを与えることを防止することができ
る。

【００５５】第２１の発明に係る音声認識プログラム
は、コンピュータ読み取り可能な音声認識プログラムで
あって、デジタル音声信号を入力する処理と、入力され
る音声区間内の一部の時間内のデジタル音声信号に基づ
いて音声区間の音声レベルを推定する処理と、推定され
た音声レベルおよび予め設定された目標レベルに基づい
て入力される音声区間のデジタル音声信号のレベルを調
整する処理と、調整されたデジタル音声信号に基づいて
音声認識を行う処理とをコンピュータに実行させるもの
である。

【００５６】第２１の発明に係る音声認識プログラムに
おいては、デジタル音声信号が入力され、入力される音
声区間内の予め定められた時間内のデジタル音声信号に
基づいて音声区間の音声レベルが推定される。推定され
た音声レベルおよび予め設定された目標レベルに基づい
て入力される音声区間のデジタル音声信号のレベルが調
整され、調整されたデジタル音声信号に基づいて音声認
識が行われる。

【００５７】この場合、音声区間内の一部の時間内のデ
ジタル音声信号に基づいて音声区間の全体の音声レベル
が推定され、推定された音声レベルおよび予め設定され
た目標レベルに基づいて音声区間のデジタル音声信号の
レベルが一律に調整される。それにより、話者の音声が
有する言葉の抑揚を示すアクセントに歪みを与えること
なく音声認識を行うことができる。したがって、音声認
識の認識率を向上させることができる。

【００５８】

【発明の実施の形態】（第１の実施の形態）図１は本発
明の第１の実施の形態における音声認識装置の一実施例
を示すブロック図である。

【００５９】図１に示すように、音声認識装置は、マイ
クロホン１、Ａ／Ｄ（アナログ−デジタル）コンバータ
２、信号遅延部３、音声レベル推定部４、音声レベル調
整部５および音声認識部６を含む。

【００６０】図１に示すように、話者により発声された
音声は、マイクロホン１により集音される。集音された
音声は、マイクロホン１の働きによりアナログ音声信号
ＳＡに変換されＡ／Ｄコンバータ２に出力される。Ａ／
Ｄコンバータ２は、出力されるアナログ音声信号ＳＡを
デジタル音声信号ＤＳに変換し、信号遅延部３および音
声レベル推定部４に与える。音声レベル推定部４は、与
えられるデジタル音声信号ＤＳから音声レベルの推定値
ＬＶＬの算出を行う。ここで、音声レベルとは、音声パ
ワー（音声エネルギー）のレベルを意味する。この音声
レベルの推定値ＬＶＬの算出については後述する。

【００６１】信号遅延部３は、後述する予め定められた
音声レベル立ち上がり時間ＴＬに相当する遅延量分のみ
遅延させたデジタル音声信号ＤＳを音声レベル調整部５
に与える。音声レベル調整部５は、音声レベル推定部４
から与えられる音声レベルの推定値ＬＶＬに同期して信
号遅延部３により与えられるデジタル音声信号ＤＳの音
声レベルの調整を行う。音声レベル調整部５は、音声レ
ベルの調整後の出力ＣＴＲＬ＿ＯＵＴを音声認識部６に
与える。音声認識部６は、音声レベル調整部５により与
えられる音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴに
基づき音声認識を行う。

【００６２】第１の実施の形態における音声認識装置に
おいては、マイクロホン１およびＡ／Ｄ（アナログ−デ
ジタル）コンバータ２が入力手段に相当し、信号遅延部
３が遅延回路に相当し、音声レベル推定部４が音声レベ
ル推定手段に相当し、音声レベル調整部５が音声レベル
調整手段に相当し、音声認識部６が音声認識手段に相当
する。

【００６３】なお、信号遅延部３、音声レベル推定部
４、音声レベル調整部５および音声認識部６は、それぞ
れ信号遅延回路、音声レベル推定回路、音声レベル調整
回路および音声認識回路により構成することができる。
また、信号遅延部３、音声レベル推定部４、音声レベル
調整部５および音声認識部６をコンピュータおよび音声
認識プログラムにより表現することができる。

【００６４】ここで、音声認識プログラムを実行するた
めのコンピュータについて説明する。図２は音声認識プ
ログラムを実行するためのコンピュータの構成を示すブ
ロック図である。

【００６５】コンピュータは、ＣＰＵ（中央演算処理装
置）５００、入出力装置５０1、ＲＯＭ（リードオンリ
メモリ）５０２、ＲＡＭ（ランダムアクセスメモリ）５
０３、記録媒体５０４、記録媒体駆動装置５０５および
外部記録装置５０６を含む。

【００６６】入出力装置５０１は、他の装置との間で情
報の送受信を行う。本実施の形態の入出力装置５０１
は、図１のＡ／Ｄコンバータ２からデジタル音声信号Ｄ
Ｓを入力する。ＲＯＭ５０２にはシステムプログラムが
記録される。記録媒体駆動装置５０５は、ＣＤ−ＲＯＭ
ドライブ、フロッピィディスクドライブ等からなり、Ｃ
Ｄ−ＲＯＭ、フロッピィディスク等の記録媒体５０４に
対してデータの読み書きを行う。記録媒体５０４には、
音声認識プログラムが記録されている。外部記録装置５
０６は、ハードディスク装置などからなり、記録媒体駆
動装置５０５を介して記録媒体５０４から読み込まれた
音声認識プログラムを記録する。ＣＰＵ５００は、外部
記録装置５０６に記録された音声認識プログラムをＲＡ
Ｍ５０３上で実行する。これにより、図１の信号遅延部
３、音声レベル推定部４、音声レベル調整部５および音
声認識部６の機能が実行される。

【００６７】次に、図１の音声レベル推定部４による音
声レベルの推定値ＬＶＬの算出方法および音声レベル調
整部５による音声レベルの調整方法について説明する。

【００６８】まず、音声レベル推定部４による音声レベ
ルの推定値ＬＶＬの算出方法について説明を行う。音声
レベル推定部４に入力されるデジタル音声信号ＤＳを、
ＤＳ（ｘ）（ｘ＝１，２，…，Ｑ）とする。ここで、ｘ
は、予め定められた音声レベルの立ち上がり時間ＴＬ内
でのＱ個の時点を表し、ＤＳ（ｘ）はＱ個の時点でのデ
ジタル音声信号ＤＳの値を表す。この場合、音声レベル
の推定値ＬＶＬは、次式のように表される。

【００６９】ＬＶＬ＝ (Σ|ＤＳ（ｘ）|)／Ｑ …（１）式（１）によれば、音声レベルの推定値ＬＶＬは、予め
定められた音声レベル立ち上がり時間ＴＬ内のＱ個の時
点でのデジタル音声信号ＤＳ（ｘ）の絶対値の累積加算
をＱで除算することにより得られる平均値である。この
ようにして、音声レベル推定部４において音声レベルの
推定値ＬＶＬが算出される。

【００７０】次に、音声レベル調整部５による音声レベ
ルの調整方法について説明する。音声レベル調整部５に
おいて、予め定められた音声レベルの目標値をＴＲＧ＿
ＬＶＬと表す。この場合、音声レベルの調整値ＬＶＬ＿
ＣＴＲＬは、次式のように表される。

【００７１】ＬＶＬ＿ＣＴＲＬ＝ＴＲＧ＿ＬＶＬ／ＬＶＬ …（２）式（２）によれば、音声レベルの調整値ＬＶＬ＿ＣＴＲ
Ｌは、予め定められた音声レベルの目標値ＴＲＧ＿ＬＶ
Ｌを音声レベルの推定値ＬＶＬにより除算することによ
り算出される。

【００７２】また、音声レベルの調整後の出力ＣＴＲＬ
＿ＯＵＴは、音声レベルの調整値ＬＶＬ＿ＣＴＲＬを用
いて次式のように表される。

【００７３】ＣＴＲＬ＿ＯＵＴ（Ｘ）＝ＤＳ（Ｘ）×ＬＶＬ＿ＣＴＲＬ …（３）ここで、Ｘは時間を表す。式（３）によれば、音声レベ
ルの調整後の出力ＣＴＲＬ＿ＯＵＴ（Ｘ）は、予め定め
られた音声レベル立ち上がり時間ＴＬにおけるデジタル
音声信号ＤＳ（Ｘ）に音声レベルの調整値ＬＶＬ＿ＣＴ
ＲＬを乗算した値となる。このように、音声レベル調整
部５は、音声レベルの調整を行い調整後の出力ＣＴＲＬ
＿ＯＵＴ（Ｘ）を音声認識部６に与える。

【００７４】次に、図１に示す信号遅延部３の予め定め
られた音声レベル立ち上がり時間ＴＬについて図を用い
て説明する。

【００７５】図３は話者により発声された“らぐびー”
の音声スペクトルを示す波形図である。図３において、
縦軸が音声レベルを示し、横軸が時間を示す。

【００７６】図３に示すように、“らぐびー”という一
単語の音声スペクトルは、“ら”の部分の音声レベルが
高くなっている。すなわち、音声レベルの高い部分が、
１単語ごとに言葉の抑揚を示すアクセントの部分であ
る。ここで、図３に示すように、話者により発声された
音声の開始時間ＴＳから発声された音声レベルの値がピ
ーク値Ｐに到達するまでの時間を音声レベル立ち上がり
時間ＴＬとする。一般に、音声レベル立ち上がり時間Ｔ
Ｌは０sec （秒）〜１００msec（ミリ秒）以内に存在
し、本発明の実施の形態では、音声レベル立ち上がり時
間ＴＬは、１００msecとする。

【００７７】例えば、この音声レベル立ち上がり時間Ｔ
Ｌを短時間に設定すると音声認識の認識率の低下を招く
こととなる。図３に示すように“らぐびー”という単語
を話者が発声した場合、音声レベル立ち上がり時間をＴ
Ｌ’で示すように短く設定した場合を考える。この場
合、図１に示す信号遅延部３において入力されるデジタ
ル音声信号ＤＳを音声レベル立ち上がり時間ＴＬ’分の
み遅延させても、音声レベル推定部４により適切な音声
レベルの推定値ＬＶＬが算出されず、本来目標とする音
声レベルの推定値ＬＶＬよりも低い音声レベルの推定値
が算出される。その後、音声レベル調整部５に目標より
も低い音声レベルの推定値が与えられ、音声レベル調整
部５によりデジタル音声信号ＤＳの音声レベルの値が誤
って調整される。これにより、音声認識部６に誤ったデ
ジタル音声信号ＤＳが入力され音声認識の認識率が低下
する。

【００７８】上記のように、信号遅延部３において音声
区間の最初の音声レベル立ち上がり時間ＴＬを１００ｍ
secに設定することにより、音声区間全体の音声レベル
を音声レベル推定部４により算出することができる。こ
れにより、音声区間のデジタル音声信号ＤＳのレベルが
一律に調整されるので、話者の音声が有する言葉の抑揚
を示すアクセントに歪みを与えることなく音声認識を行
うことができ音声認識の認識率を向上させることができ
る。

【００７９】（第２の実施の形態）次に、本発明の第２
の実施の形態における音声認識装置について図を用いて
説明する。

【００８０】図４は本発明の第２の実施の形態における
音声認識装置を示すブロック図である。

【００８１】図４に示すように、音声認識装置は、マイ
クロホン１、Ａ／Ｄコンバータ２、音声レベル推定部
４、音声レベル調整部５、音声認識部６、音声検出部
７、音声レベル保持部８、選択部１１，１２、バッファ
２１およびバッファ２２を含む。

【００８２】図４に示すように、話者により発声された
音声は、マイクロホン１により集音される。集音された
音声は、マイクロホン１の働きによりアナログ音声信号
ＳＡに変換されＡ／Ｄコンバータ２に出力される。Ａ／
Ｄコンバータ２は、出力されるアナログ音声信号ＳＡを
デジタル音声信号ＤＳに変換し、音声レベル推定部４、
音声検出部７および選択部１１に与える。音声レベル推
定部４は、与えられるデジタル音声信号ＤＳから音声レ
ベルの推定値ＬＶＬの算出を行う。第２の実施の形態に
おける音声レベル推定部４による音声レベルの推定値Ｌ
ＶＬの算出は、第１の実施の形態における音声レベル推
定部４による音声レベルの推定値ＬＶＬの算出方法と同
様である。

【００８３】音声レベル推定部４は、Ａ／Ｄコンバータ
２から与えられるデジタル音声信号ＤＳに基づいて、一
単語ごとに音声レベルの推定値ＬＶＬを算出し、算出さ
れる音声レベルの推定値ＬＶＬを順次音声レベル保持部
８に与える。ここで、音声レベル保持部８は、音声レベ
ル保持部８内に設けられる保持レジスタに、次に音声レ
ベル推定部４により算出される音声レベルの推定値ＬＶ
Ｌが与えられるまで前回の音声レベルの推定値ＬＶＬを
保持し、音声レベル推定部４によって算出される音声レ
ベルの推定値ＬＶＬが与えられるごとに、前回の音声レ
ベルの推定値ＬＶＬが保持されている保持レジスタに、
新たに与えられた音声レベルの推定値ＬＶＬを上書き保
存する。また、この保持レジスタは、データ容量Ｍを有
している。

【００８４】一方、音声検出部７は、Ａ／Ｄコンバータ
２により与えられるデジタル音声信号ＤＳから図３の音
声の開始時間ＴＳを検出し、Ａ／Ｄコンバータ２から与
えられるデジタル音声信号ＤＳをバッファ２１に与える
ように選択部１１に制御信号ＣＩＳ１を与えるととも
に、選択部１１により与えられるデジタル音声信号ＤＳ
を蓄積するようにバッファ２１に制御信号ＣＢ１を与え
る。バッファ２１，２２は、ぞれぞれ容量Ｌを有してい
る。

【００８５】選択部１１は、音声検出部７により与えら
れる制御信号ＣＩＳ１に応答して、Ａ／Ｄコンバータ２
から与えられるデジタル音声信号ＤＳをバッファ２１に
与える。バッファ２１は、音声検出部７から与えられる
制御信号ＣＢ１に応答して、選択部１１を介して与えら
れるデジタル音声信号ＤＳを蓄積する。そして、バッフ
ァ２１は、蓄積可能な容量Ｌのデジタル音声信号ＤＳを
蓄積した際に、音声検出部７に満杯信号Ｆ１を与える。
それにより、音声検出部７は、バッファ２１を介して、
音声レベル保持部８に音声レベルの推定値ＬＶＬを出力
させる制御信号ＳＬ１を与える。

【００８６】また、音声検出部７は、バッファ２１から
与えられる満杯信号Ｆ１に応答して、Ａ／Ｄコンバータ
２から与えられるデジタル音声信号ＤＳをバッファ２２
に与えるように選択部１１に制御信号ＣＩＳ２を与える
とともに、選択部１１から与えられるデジタル音声信号
ＤＳを蓄積するようにバッファ２２に制御信号ＣＢ２を
与える。さらに、音声検出部７は、バッファ２１に制御
信号ＣＢＯ１を与え、選択部１２に制御信号ＣＯＳ１を
与える。

【００８７】選択部１１は、音声検出部７により与えら
れる制御信号ＣＩＳ２に応答して、Ａ／Ｄコンバータ２
から与えられるデジタル音声信号ＤＳをバッファ２２に
与える。バッファ２２は、音声検出部７により与えられ
る制御信号ＣＢ２に応答して、選択部１１を介して与え
られるデジタル音声信号ＤＳを蓄積する。

【００８８】一方、バッファ２１は、音声検出部７によ
り与えられる制御信号ＣＢＯ１に応答して、バッファ２
１に蓄積されたデジタル音声信号ＤＳを選択部１２を介
して音声レベル調整部５に与える。

【００８９】そして、バッファ２２は、音声検出部７か
ら与えられる制御信号ＣＢ２に応答して、選択部１１を
介して与えられるデジタル音声信号ＤＳを蓄積する。バ
ッファ２２は、蓄積可能な容量Ｌのデジタル音声信号Ｄ
Ｓを蓄積した際に、音声検出部７に満杯信号Ｆ２を与え
る。それにより、音声検出部７は、バッファ２２を介し
て音声レベル保持部８に音声レベルの推定値ＬＶＬを出
力させる制御信号ＳＬ２を与える。

【００９０】また、音声検出部７は、バッファ２２から
与えられる満杯信号Ｆ２に応答して、Ａ／Ｄコンバータ
２から与えられるデジタル音声信号ＤＳをバッファ２１
に与えるように選択部１１に制御信号ＣＩＳ１を与え
る。さらに、音声検出部７は、バッファ２２に制御信号
ＣＢＯ２を与え、選択部１２に制御信号ＣＯＳ２を与え
る。

【００９１】一方、バッファ２２は、音声検出部７によ
り与えられる制御信号ＣＢＯ２に応答して、バッファ２
２に蓄積されたデジタル音声信号ＤＳを選択部１２を介
して音声レベル調整部５に与える。

【００９２】音声レベル保持部８は、内部の保持レジス
タに保持された音声レベルの推定値ＬＶＬをバッファ２
１から与えられる制御信号ＳＬ１またはバッファ２２か
ら与えられる制御信号ＳＬ２に応答して音声レベル調整
部５に与える。ここで、音声レベル保持部８内に設けら
れる保持レジスタの容量Ｍとバッファ２１，２２の容量
Ｌとは、ほぼ同一の容量であるため、選択部１２を介し
て与えられるデジタル音声信号ＤＳに対応する音声レベ
ルの推定値ＬＶＬが、音声レベル保持部８から出力され
る。

【００９３】音声レベル調整部５は、音声レベル保持部
８により与えられる音声レベルの推定値ＬＶＬに基づい
て、選択部１２を介して得られるデジタル音声信号ＤＳ
の調整を行う。第２の実施の形態における音声レベル調
整部５によるデジタル音声信号ＤＳの調整方法は、第１
の実施の形態における音声レベル調整部５によるデジタ
ル音声信号ＤＳの調整方法と同様である。音声レベル調
整部５は、音声レベルの調整後の出力ＣＴＲＬ＿ＯＵＴ
を音声認識部６に与える。音声認識部６は、音声レベル
調整部５により与えられる音声レベルの調整後の出力Ｃ
ＴＲＬ＿ＯＵＴに基づき音声認識を行う。

【００９４】第２の実施の形態における音声認識装置に
おいては、マイクロホン１およびＡ／Ｄ（アナログ−デ
ジタル）コンバータ２が入力手段に相当し、音声レベル
推定部４が音声レベル推定手段に相当し、音声レベル調
整部５が音声レベル調整手段に相当し、音声認識部６が
音声認識手段に相当し、音声検出部７が音声検出部に相
当し、音声レベル保持部８が保持回路に相当し、バッフ
ァ２１，２２が蓄積回路に相当する。

【００９５】図５（ａ）は図４のマイクロホン１の出力
波形図であり、図５（ｂ）は音声信号（信号成分）
（Ｓ）と雑音成分（Ｎ）との比（Ｓ／Ｎ）を示す図であ
る。

【００９６】図５（ａ）に示すように、マイクロホン１
の出力波形は、雑音成分と音声信号からなる。そして、
音声信号を含む音声区間では、出力波形の音声レベルの
値が高くなる。

【００９７】また、図５（ｂ）に示すように、図４の音
声検出部７は、音声信号（音声成分）と雑音成分との比
であるＳ／Ｎ値が低い場合は雑音区間であると判定し、
音声信号（音声成分）と雑音成分との比であるＳ／Ｎ値
が高い場合は音声区間であると判定する。

【００９８】図６は図４の音声検出部７の動作を示すフ
ローチャートである。まず、図６に示すように、音声検
出部７は、入力されるデジタル音声信号ＤＳが音声信号
であるか否かを判定する（ステップＳ６１）。入力され
るデジタル音声信号ＤＳが音声信号でない場合には、次
回に入力されるデジタル音声信号ＤＳが音声信号と判定
されるまで待機する。一方、入力されるデジタル音声信
号ＤＳが音声信号であると判定された場合、音声検出部
７は、図４の選択部１１に与えられるデジタル音声信号
ＤＳをバッファ２１に与えるように選択部１１に制御信
号ＣＩＳ１を与える（ステップＳ６２）。そして、音声
検出部７は、バッファ２１にデジタル音声信号ＤＳを蓄
積するように制御信号ＣＢ１を与える（ステップＳ６
３）。

【００９９】次いで、音声検出部７は、バッファ２１に
より蓄積可能な容量Ｌのデジタル音声信号ＤＳを蓄積し
た際に出力される満杯信号Ｆ１を受信したか否かを判定
する（ステップＳ６４）。音声検出部７は、バッファ２
１から満杯信号Ｆ１を受信していない場合には、引き続
きステップＳ６３を繰り返す。一方、音声検出部７は、
バッファ２１から満杯信号Ｆ１を受信した場合には、図
４の選択部１１に与えられるデジタル音声信号ＤＳをバ
ッファ２２に与えるように選択部１１に制御信号ＣＩＳ
２を与える（ステップＳ６５）。そして、音声検出部７
は、さらにバッファ２２にデジタル音声信号ＤＳを蓄積
するように制御信号ＣＢ２を与える（ステップＳ６
６）。また、音声検出部７は、制御信号ＣＩＳ２および
制御信号ＣＢ２を出力した後に、選択部１２にバッファ
２１から与えられる蓄積されたデジタル音声信号ＤＳを
音声レベル調整部５に与えるように制御信号ＣＯＳ１を
与える（ステップＳ６７）。

【０１００】次いで、音声検出部７は、音声レベル保持
部８にバッファ２１を介して制御信号ＳＬ１を与える
（ステップＳ６８）。音声レベル保持部８は、バッファ
２１を介して与えられる制御信号ＳＬ１に応答して、音
声レベル保持部８内の保持レジスタに繰り返し記憶され
ている音声レベルの推定値ＬＶＬを音声レベル調整部５
に与える。

【０１０１】次いで、音声検出部７は、バッファ２１に
制御信号ＣＢＯ１を与え、蓄積されたデジタル音声信号
ＤＳを音声レベル調整部５に出力させる（ステップＳ６
９）。続いて、音声検出部７は、バッファ２１に蓄積さ
れた全てのデジタル音声信号ＤＳが音声レベル調整部５
に出力されたか否かを判定する（ステップＳ７０）。こ
こで、バッファ２１から全てのデジタル音声信号ＤＳが
出力されていない場合には、再度、バッファ２１に制御
信号ＣＢＯ１を与え蓄積されたデジタル音声信号ＤＳを
音声レベル調整部５に出力させる。一方、バッファ２１
に蓄積されたデジタル音声信号ＤＳが全て出力された場
合、音声検出部７は、バッファ２１にバッファ内のデー
タを消去（クリア）するように制御信号ＣＲを与える
（ステップＳ７１）。

【０１０２】図７は２単語を話者が発声した場合におけ
るバッファ２１およびバッファ２２のデジタル音声信号
ＤＳの入出力を表す模式図である。

【０１０３】図７に示すように、バッファ２１には、音
声区間（Ｓ）の一単語（Ｗ１）の開始時点において、音
声検出部７により制御信号ＣＢ１が与えられ、バッファ
２１へのデジタル信号ＤＳの入力が開始される。ここ
で、バッファ２１およびバッファ２２はＦＩＦＯ（Firs
t In First Out）タイプのメモリで構成されており、ま
たバッファ２１およびバッファ２２のメモリ容量Ｌはほ
ぼ同一である。

【０１０４】バッファ２１へのデジタル音声信号ＤＳの
入力は、一単語（Ｗ１）のほぼ全てにおいて行われ、バ
ッファ２１に蓄積可能な容量Ｌのデジタル音声信号ＤＳ
が蓄積されるとバッファ２１は音声検出部７に満杯信号
Ｆ１を出力する。バッファ２１は、満杯信号Ｆ１を出力
した後、バッファ２１内に蓄積されたデジタル音声信号
ＤＳを音声検出部７により与えられる制御信号ＣＢＯ１
に応答して出力する。一方、バッファ２２は、音声検出
部７により与えられる制御信号ＣＢ２に応答してデジタ
ル音声信号ＤＳの蓄積を開始する。

【０１０５】バッファ２２は、蓄積可能な容量Ｌのデジ
タル音声信号ＤＳが蓄積された場合に、音声検出部７に
満杯信号Ｆ２を出力する。一方、バッファ２２の蓄積の
間にバッファ２１に蓄積されたデジタル音声信号ＤＳ
は、全て音声レベル調整部５に出力された後、音声検出
部７により制御信号ＣＲが与えられバッファ２１内のデ
ータが消去（クリア）される。それにより、バッファ２
１には、音声検出部７により再度デジタル音声信号ＤＳ
を蓄積させる制御信号ＣＢ１が与えられる。

【０１０６】上記のように、音声区間の開始点からデジ
タル音声信号が蓄積され、蓄積されたデジタル音声信号
に対応した音声レベルの推定値を用いて音声レベルを正
確に調整することができる。したがって、音声認識を正
確な音声レベルで調整することにより音声認識の認識率
を向上させることができる。

【０１０７】また、複数の単語を含む長い時間のデジタ
ル音声信号ＤＳが入力されても、交互に蓄積および出力
を行うことができる。これにより、小さい容量のバッフ
ァを用いても音声認識を行うことができる。

【０１０８】なお、本発明の実施の形態においては、バ
ッファを用いることとしたが、これに限らず、他の蓄積
回路を用いてもよい。さらに、バッファの内部にカウン
タを設けて、音声検出部７によりバッファの内部のカウ
ンタを監視させて満杯信号Ｆ１，Ｆ２または制御信号Ｃ
Ｒを出力してもよい。

【０１０９】（第３の実施の形態）図８は本発明の第３
の実施の形態における音声認識装置の一例を示すブロッ
ク図である。

【０１１０】図８に示すように、音声認識装置は、マイ
クロホン１、Ａ／Ｄ（アナログ−デジタル）コンバータ
２、信号遅延部３、音声レベル推定部４、音声レベル調
整帰還部９および音声認識帰還部１０を含む。

【０１１１】図８に示すように、話者により発声された
音声は、マイクロホン１により集音される。集音された
音声は、マイクロホン１の働きによりアナログ音声信号
ＳＡに変換されＡ／Ｄコンバータ２に出力される。Ａ／
Ｄコンバータ２は、出力されるアナログ音声信号ＳＡを
デジタル音声信号ＤＳに変換し、信号遅延部３および音
声レベル推定部４に与える。音声レベル推定部４は、与
えられるデジタル音声信号ＤＳから音声レベルの推定値
ＬＶＬの算出を行う。ここで、第３の発明の実施の形態
における音声レベル推定部４による音声レベルの推定値
ＬＶＬの算出方法については、第１の実施の形態におけ
る音声レベル推定部４による音声レベルの推定値ＬＶＬ
の算出方法と同様である。

【０１１２】音声レベル推定部４は、音声レベルの推定
値ＬＶＬを算出し音声レベル調整帰還部９に与える。音
声レベル調整帰還部９は、音声レベル推定部４により与
えられる音声レベルの推定値ＬＶＬに基づいて、音声レ
ベルの推定値ＬＶＬに同期して信号遅延部３により与え
られるデジタル音声信号ＤＳのレベルの調整を行う。音
声レベル調整帰還部９は、音声レベルの調整後の出力Ｃ
ＴＲＬ＿ＯＵＴを音声認識帰還部１０に与える。音声認
識帰還部１０は、音声レベル調整帰還部９により与えら
れる調整後の出力ＣＴＲＬ＿ＯＵＴに基づき音声認識を
行い、音声認識が失敗したときに音声レベル制御信号Ｒ
Ｃを音声レベル調整帰還部９に与える。この音声レベル
調整帰還部９および音声認識帰還部１０の動作について
は後述する。

【０１１３】第３の実施の形態における音声認識装置に
おいては、マイクロホン１およびＡ／Ｄ（アナログ−デ
ジタル）コンバータ２が入力手段に相当し、信号遅延部
３が遅延回路に相当し、音声レベル推定部４が音声レベ
ル推定手段に相当し、音声レベル調整帰還部９が音声レ
ベル調整手段に相当し、音声認識帰還部１０が音声認識
手段に相当する。

【０１１４】図９は図８に示す音声レベル調整帰還部９
における音声レベルの調整を行う際の動作を説明するフ
ローチャートである。

【０１１５】図９に示すように、まず、音声レベル調整
帰還部９は、音声認識帰還部１０による音声レベル制御
信号ＲＣが入力されたか否かを判定する（ステップＳ９
１）。次に、音声レベル調整帰還部９は、音声認帰還識
部１０により音声レベル制御信号ＲＣが入力されていな
い場合には、音声認識帰還部１０による音声レベル制御
信号ＲＣが入力されたと判定されるまで待機する。一
方、音声認識帰還部１０から音声レベル制御信号ＲＣが
入力されたと判定された場合には、音声レベル調整帰還
部９は、変数Ｋに１を加算する（ステップＳ９２）。

【０１１６】ここで、複数の段階の音声レベルの目標値
が予め設定されており、変数Ｋとは、この複数の段階を
表す変数である。ここで、本実施の第３の形態において
は、変数Ｋは１からＲまでの値を有し、音声レベルの目
標値ＴＲＧ＿ＬＶＬ（Ｋ）の取りうる値は、ＴＲＧ＿Ｌ
ＶＬ（１），ＴＲＧ＿ＬＶＬ（２），…ＴＲＧ＿ＬＶＬ
（Ｒ）とする。

【０１１７】次いで、音声レベル調整帰還部９は、変数
Ｋが最大値Ｒよりも大きいか否かを判定する（ステップ
Ｓ９３）。ここで、音声レベル調整帰還部９は、変数Ｋ
が最大値Ｒよりも大きいと判定した場合には、変数Ｋを
最小値１に戻し（ステップＳ９４）、音声レベルの目標
値ＴＲＧ＿ＬＶＬをＴＲＧ＿ＬＶＬ（１）に設定する
（ステップＳ９５）。

【０１１８】一方、音声レベル調整帰還部９は、変数Ｋ
が最大値Ｒ以下と判定した場合、音声レベルの目標値Ｔ
ＲＧ＿ＬＶＬをＴＲＧ＿ＬＶＬ（Ｋ）に設定する（ステ
ップＳ９５）。

【０１１９】例えば、最初、音声レベルの目標値ＴＲＧ
＿ＬＶＬが、ＴＲＧ＿ＬＶＬ（２）に設定されていると
する。そして、音声認識帰還部１０が音声認識に失敗し
て音声認識を行うことができない場合には、制御信号Ｒ
Ｃが音声レベル調整帰還部９に出力される。音声レベル
調整帰還部９は、音声レベルの目標値ＴＲＧ＿ＬＶＬ
（２）を音声レベルの目標値ＴＲＧ＿ＬＶＬ（３）に変
更し、再度の話者からの音声入力を待つ。

【０１２０】このように、音声レベルの目標値ＴＲＧ＿
ＬＶＬをＴＲＧ＿ＬＶＬ（２），ＴＲＧ＿ＬＶＬ
（３），ＴＲＧ＿ＬＶＬ（４）と順次に変更し、音声認
識が成功した時点で音声レベルの目標値ＴＲＧ＿ＬＶＬ
が固定される。また、音声レベルの目標値ＴＲＧ＿ＬＶ
Ｌが最大値であるＴＲＧ＿ＬＶＬ（Ｒ）に設定されても
音声認識に失敗した場合には、次に音声レベルの目標値
ＴＲＧ＿ＬＶＬを最小値であるＴＲＧ＿ＬＶＬ（１）に
戻し、再度の話者からの音声入力を待つ。

【０１２１】このようして、音声レベルの目標値ＴＲＧ
＿ＬＶＬが音声認識に最適な値に設定される。

【０１２２】上記のように、音声認識結果が失敗であっ
た場合に、再び音声レベル調整帰還部９において、音声
レベルの調整程度を順次上げていくことができる。ま
た、音声レベルの調整程度が、予め定めた音声レベルの
最大値に到達しても、再度音声レベルを最小値に戻して
調整程度を順次上げることができる。これにより、音声
レベルの調整程度が適切でなく音声認識に失敗した場合
には、繰り返し音声レベルの調整程度を順次変更するこ
とができるので音声認識の認識率を向上させることがで
きる。

【０１２３】なお、上記実施の形態においては、音声認
識に失敗した場合には、再度話者からの音声入力により
音声レベルの目標値ＴＲＧ＿ＬＶＬ（Ｋ）を順次変更す
ることとしたが、これに限らず、話者の音声入力を保持
する手段を設け、音声認識に失敗した場合には、音声入
力を保持する手段により保持されている音声入力を用い
ることにより音声レベルの目標値ＴＲＧ＿ＬＶＬ（Ｋ）
を順次変更させてもよい。

【０１２４】（第４の実施の形態）図１０は本発明の第
４の実施の形態における音声認識装置の一例を示すブロ
ック図である。

【０１２５】図１０に示すように、音声認識装置は、マ
イクロホン１、Ａ／Ｄ（アナログ−デジタル）コンバー
タ２、信号遅延部３、音声レベル推定部４、音声レベル
調整部５、音声認識部６および信号非線形処理部１１を
含む。

【０１２６】図１０に示すように、話者により発声され
た音声は、マイクロホン１により集音される。集音され
た音声は、マイクロホン１の働きによりアナログ音声信
号ＳＡに変換されＡ／Ｄコンバータ２に出力される。Ａ
／Ｄコンバータ２は、出力されるアナログ音声信号ＳＡ
をデジタル音声信号ＤＳに変換し、信号遅延部３および
音声レベル推定部４に与える。音声レベル推定部４は、
与えられるデジタル音声信号ＤＳから音声レベルの推定
値ＬＶＬの算出を行う。ここで、第４の実施の形態にお
ける音声レベル推定部４による音声レベルの推定値ＬＶ
Ｌの算出方法については、第１の実施の形態における音
声レベル推定部４による音声レベルの推定値ＬＶＬの算
出方法と同様である。音声レベル推定部４は、与えられ
るデジタル音声信号ＤＳおよび音声レベルの推定値ＬＶ
Ｌを信号非線形処理部１１に与える。信号非線形処理部
１１は、音声レベル推定部４により与えられる音声レベ
ルの推定値ＬＶＬに応じて後述する非線形処理を行い、
非線形処理を行った音声レベルの推定値ＬＶＬを音声レ
ベル調整部５に与える。

【０１２７】一方、信号遅延部３は、音声レベル立ち上
がり時間ＴＬに相当する遅延量分のみ遅延させたデジタ
ル音声信号ＤＳを音声レベル調整部５に与える。ここ
で、第４の実施の形態における音声レベル立上り時間Ｔ
Ｌに相当する遅延量分は、１００ｍｓｅｃとする。音声
レベル調整部５は、信号非線形処理部１１から与えられ
る音声レベルの推定値ＬＶＬに応じて信号遅延部３によ
り与えられるデジタル音声信号ＤＳの音声レベルの調整
を行う。音声レベル調整部５は、音声レベルの調整後の
出力ＣＴＲＬ＿ＯＵＴを音声認識部６に与える。音声認
識部６は、音声レベル調整部５により与えられる音声レ
ベルの調整後の出力ＣＴＲＬ＿ＯＵＴに応じて音声認識
を行う。

【０１２８】第４の実施の形態における音声認識装置に
おいては、マイクロホン１およびＡ／Ｄ（アナログ−デ
ジタル）コンバータ２が入力手段に相当し、信号遅延部
３が遅延回路に相当し、音声レベル推定部４が音声レベ
ル推定手段に相当し、音声レベル調整部５が音声レベル
調整手段に相当し、音声認識部６が音声認識手段に相当
し、信号非線形処理部１１が非線形処理部に相当する。

【０１２９】図１１は図１０の信号非線形処理部１１に
入力される音声レベルの推定値ＬＶＬと図１０の音声認
識部６における認識率との関係を示す図である。

【０１３０】図１１に示すように、図１０の音声認識部
６における認識率は、音声レベルの推定値ＬＶＬに依存
している。音声レベルの推定値ＬＶＬが−１９ｄＢ以上
−２ｄＢ以下の範囲にある場合には、認識率が８０％以
上を示す。そして、特に音声レベルの推定値ＬＶＬが低
い（−１９ｄＢ以下）場合、または音声レベルの推定値
ＬＶＬが高い（−２ｄＢ以上）場合には、音声認識の認
識率が急激に低下する。

【０１３１】このことから、本発明の第４の実施の形態
における信号非線形処理部１１においては、入力される
音声レベルの推定値ＬＶＬが−１９ｄＢから−２ｄＢま
での範囲内に存在するように音声レベルの推定値ＬＶＬ
を調整する。

【０１３２】図１２は信号非線形処理部１１の処理動作
を示すフローチャートである。図１２に示すように、信
号非線形処理部１１は、音声レベル推定部４により入力
される音声レベルの推定値ＬＶＬが−１９ｄＢ以上−２
ｄＢ以下であるか否かを判定する（ステップＳ１０
１）。

【０１３３】信号非線形処理部１１は、入力される音声
レベルの推定値ＬＶＬが−１９ｄＢ以上−２ｄＢ以下の
値であると判定した場合には、音声レベル調整部５を不
能動化させる。すなわち、音声レベル調整部５において
式（２）に示す音声レベルの調整値ＬＶＬ＿ＣＴＲＬは
１となる。

【０１３４】一方、信号非線形処理部１１は、入力され
る音声レベルの推定値ＬＶＬが−１９ｄＢ以上−２ｄＢ
以下の値でないと判定した場合、音声レベルの推定値Ｌ
ＶＬを−１０ｄＢに設定する（ステップＳ１０２）。

【０１３５】上記のように、信号非線形処理部１１は、
音声レベルの推定値ＬＶＬが認識率８０％以上を満たす
ように、音声レベルの推定値ＬＶＬを設定するため、音
声認識部６において入力されるデジタル音声信号ＤＳの
音声認識の認識率を向上させることができる。すなわ
ち、音声レベルの推定値ＬＶＬが予め定められた範囲内
にない場合にのみ、音声レベルの推定値を予め定められ
た範囲内の音声レベルの推定値に変更して音声レベルの
調整を行い、音声レベルの推定値が予め定められた範囲
内のにある場合には、音声レベル調整部５における増幅
率を１にして音声レベル調整部５を不能動化にすること
により音声レベルの調整を行わない。これにより、簡易
に話者の音声が有する言葉の抑揚であるアクセントに無
用な歪みを与えることを防止し音声認識を行うことがで
きるので音声認識の認識率を向上させることができる。

【０１３６】なお、上記実施の形態においては、音声レ
ベルの推定値を−１９ｄＢから−２ｄＢに調整すること
としたが、これに限定されず、音声認識を行う際に予め
設定される音声レベルの推定値または音声認識率の高い
音声レベル推定値に調整すればよい。

【０１３７】

【発明の効果】本発明によれば、音声区間内の一部の時
間内のデジタル音声信号に基づいて音声区間の全体の音
声レベルが推定され、推定された音声レベルおよび予め
設定された目標レベルに基づいて音声区間のデジタル音
声信号のレベルが一律に調整される。それにより、話者
の音声が有する言葉の抑揚を示すアクセントに歪みを与
えることなく音声認識を行うことができる。したがっ
て、音声認識の認識率を向上させることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における音声認識装
置の一実施例を示すブロック図

【図２】音声認識プログラムを実行するためのコンピュ
ータの構成を示すブロック図

【図３】話者により発声された“らぐびー”の音声スペ
クトルを示す波形図

【図４】本発明の第２の実施の形態における音声認識装
置を示すブロック図

【図５】（ａ）は図４のマイクロホンの出力波形図、
（ｂ）は音声信号（信号成分）と雑音成分との比を示す
図

【図６】図４の音声検出部の動作を示すフローチャート

【図７】２単語を話者が発声した場合におけるバッファ
のデジタル音声信号の入出力を表す模式図

【図８】本発明の第３の実施の形態における音声認識装
置の一例を示すブロック図

【図９】図８に示す音声レベル調整帰還部における音声
レベルの調整を行う際の動作を説明するフローチャート

【図１０】本発明の第４の実施の形態における音声認識
装置の一例を示すブロック図

【図１１】図１０の信号非線形処理部に入力される音声
レベルの推定値と図１０の音声認識部における認識率と
の関係を示す図

【図１２】信号非線形処理部の処理動作を示すフローチ
ャート

【図１３】音声認識を行う際の音声レベルと認識率との
関係の一例を示す模式図

【符号の説明】

１マイクロホン２Ａ／Ｄコンバータ３信号遅延部４音声レベル推定部５音声レベル調整部６音声認識部７音声検出部８音声レベル保持部１１信号非線形処理部

Claims

【特許請求の範囲】

【請求項１】デジタル音声信号を入力する入力手段
と、前記入力手段により入力される音声区間内の一部の時間
内のデジタル音声信号に基づいて前記音声区間の音声レ
ベルを推定する音声レベル推定手段と、前記音声レベル推定手段により推定された音声レベルお
よび予め設定された目標レベルに基づいて前記入力手段
により入力される前記音声区間のデジタル音声信号のレ
ベルを調整する音声レベル調整手段と、前記音声レベル調整手段により調整されたデジタル音声
信号に基づいて音声認識を行う音声認識手段とを備えた
ことを特徴とする音声認識装置。
【請求項２】前記音声レベル推定手段は、前記入力手段により入力される前記音声区間内の最初の
所定時間内のデジタル音声信号に基づいて前記音声区間
の音声レベルを推定することを特徴とする請求項１記載
の音声認識装置。
【請求項３】前記音声レベル推定手段は、前記入力手段により入力される前記音声区間内の最初の
所定時間内のデジタル音声信号の平均値を前記音声区間
の音声レベルとして推定することを特徴とする請求項２
記載の音声認識装置。
【請求項４】前記音声レベル調整手段は、前記予め設定された目標レベルと前記音声レベル推定手
段により推定される音声レベルとの比により定まる増幅
率で前記入力手段により入力される前記音声区間のデジ
タル音声信号のレベルを増幅または減衰させることを特
徴とする請求項１〜３のいずれかに記載の音声認識装
置。
【請求項５】前記音声区間のデジタル音声信号が前記
音声レベル推定手段により推定される音声レベルととも
に同期して前記音声レベル調整手段に与えられるように
前記入力手段により入力されるデジタル音声信号を遅延
させる遅延回路をさらに備えたことを特徴とする請求項
１〜４のいずれかに記載の音声認識装置。
【請求項６】前記音声レベル推定手段は、前記入力手段により入力される前記音声区間のデジタル
音声信号の開始点を検出する音声検出部と、前記入力手段により入力される前記音声区間内の最初の
所定時間内のデジタル音声信号に基づいて前記音声区間
の音声レベルを推定する音声レベル推定部と、前記音声レベル推定部により推定された音声レベルを保
持する保持回路と、前記音声検出部による検出に応答して前記入力手段によ
り入力される前記音声区間のデジタル音声信号を蓄積す
るとともに蓄積された前記音声区間のデジタル音声信号
を前記保持回路に保持された音声レベルと同期させて前
記音声レベル調整手段に出力する蓄積回路とを含むこと
を特徴とする請求項１〜５のいずれかに記載の音声認識
装置。
【請求項７】前記蓄積回路は、前記入力手段により入力される前記音声区間のデジタル
音声信号を交互に蓄積するとともに蓄積された前記音声
区間のデジタル音声信号を交互に前記音声レベル調整手
段に出力する第１および第２のバッファを含むことを特
徴とする請求項６記載の音声認識装置。
【請求項８】前記音声認識手段は、音声認識結果を前
記音声レベル調整手段に帰還させ、前記音声レベル調整手段は、前記音声認識手段により帰
還された音声認識結果に基づいて前記音声レベルの調整
程度を変更することを特徴とする請求項１〜７のいずれ
かに記載の音声認識装置。
【請求項９】前記音声レベル調整手段は、前記音声認
識手段による音声認識が不可能な場合に前記音声レベル
の増幅率を上昇させることを特徴とする請求項８記載の
音声認識装置。
【請求項１０】前記音声レベル推定手段により推定さ
れた音声レベルが予め定められた範囲内にある場合に前
記音声レベル調整手段を不能動化し、前記音声レベル推
定手段により推定された音声レベルが予め定められた範
囲内にない場合に前記音声レベル調整手段を能動化する
とともに前記音声レベル推定手段により推定された音声
レベルを前記予め定められた範囲内の音声レベルに変更
して前記音声レベル調整手段に与える非線形処理部をさ
らに備えたことを特徴とする請求項１〜９のいずれかに
記載の音声認識装置。
【請求項１１】デジタル音声信号を入力するステップ
と、音声区間内の一部の時間内の前記入力されたデジタル音
声信号に基づいて前記音声区間の音声レベルを推定する
ステップと、前記推定された音声レベルおよび予め設定された目標レ
ベルに基づいて前記音声区間のデジタル音声信号のレベ
ルを調整するステップと、前記調整されたデジタル音声信号に基づいて音声認識を
行うステップとを備えたことを特徴とする音声認識方
法。
【請求項１２】前記音声レベルを推定するステップ
は、前記音声区間内の最初の所定時間内のデジタル音声信号
に基づいて前記音声区間の音声レベルを推定することを
含むことを特徴とする請求項１１記載の音声認識方法。
【請求項１３】前記音声レベルを推定するステップ
は、前記音声区間内の最初の所定時間内のデジタル音声信号
の平均値を前記音声区間の音声レベルとして推定するこ
とを含むことを特徴とする請求項１２記載の音声認識方
法。
【請求項１４】前記デジタル音声信号のレベルを調整
するステップは、前記予め設定された目標レベルと前記推定される音声レ
ベルとの比により定まる増幅率で前記音声区間のデジタ
ル音声信号のレベルを増幅または減衰させることを含む
こと特徴とする請求項１１〜１３のいずれかに記載の音
声認識方法。
【請求項１５】前記音声区間のデジタル音声信号が前
記推定される音声レベルとともに同期して前記デジタル
音声信号のレベルを調整するステップに与えられるよう
に前記デジタル音声信号を遅延させるステップをさらに
備えたことを特徴とする請求項１１〜１４のいずれかに
記載の音声認識方法。
【請求項１６】前記音声レベルを推定するステップ
は、前記音声区間のデジタル音声信号の開始点を検出するス
テップと、前記音声区間内の最初の所定時間内のデジタル音声信号
に基づいて前記音声区間の音声レベルを推定するステッ
プと、前記推定された音声レベルを保持するステップと、前記デジタル音声信号の開始点の検出に応答して前記音
声区間のデジタル音声信号を蓄積するとともに蓄積され
た前記音声区間のデジタル音声信号を前記保持された音
声レベルと同期させて出力するステップとを含むことを
特徴とする請求項１１〜１５のいずれかに記載の音声認
識方法。
【請求項１７】前記蓄積するステップは、前記音声区間のデジタル音声信号を第１および第２のバ
ッファに交互に蓄積するとともに蓄積された前記音声区
間のデジタル音声信号を第１および第２のバッファから
交互に出力するステップを含むことを特徴とする請求項
１６記載の音声認識方法。
【請求項１８】前記音声認識を行うステップは、音声
認識結果を前記デジタル音声信号のレベルを調整するス
テップに帰還させることを含み、前記デジタル音声信号のレベルを調整するステップは、
前記帰還された音声認識結果に基づいて前記音声レベル
の調整程度を変更することを含むことを特徴とする請求
項１１〜１７のいずれかに記載の音声認識方法。
【請求項１９】前記デジタル音声信号のレベルを調整
するステップは、前記音声認識が不可能な場合に前記音
声レベルの増幅率を上昇させることを含むことを特徴と
する請求項１８記載の音声認識方法。
【請求項２０】前記推定された音声レベルが予め定め
られた範囲内にある場合に前記デジタル音声信号のレベ
ルを調整することを不能動化し、前記推定された音声レ
ベルが予め定められた範囲内にない場合に前記調整する
ステップを能動化するとともに前記推定された音声レベ
ルを前記予め定められた範囲内の音声レベルに変更して
変更された音声レベルを前記デジタル音声信号のレベル
を調整するために用いるステップをさらに備えたことを
特徴とする請求項１１〜１９のいずれかに記載の音声認
識方法。
【請求項２１】コンピュータ読み取り可能な音声認識
プログラムであって、デジタル音声信号を入力する処理と、前記入力される音声区間内の一部の時間内のデジタル音
声信号に基づいて前記音声区間の音声レベルを推定する
処理と、前記推定された音声レベルおよび予め設定された目標レ
ベルに基づいて前記入力される前記音声区間のデジタル
音声信号のレベルを調整する処理と、前記調整されたデジタル音声信号に基づいて音声認識を
行う処理とを、前記コンピュータに実行させることを特徴とする音声認
識プログラム。