JP2002091487A - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number
JP2002091487A
JP2002091487A JP2001203754A JP2001203754A JP2002091487A JP 2002091487 A JP2002091487 A JP 2002091487A JP 2001203754 A JP2001203754 A JP 2001203754A JP 2001203754 A JP2001203754 A JP 2001203754A JP 2002091487 A JP2002091487 A JP 2002091487A
Authority
JP
Japan
Prior art keywords
level
voice
audio
section
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001203754A
Other languages
English (en)
Other versions
JP4880136B2 (ja
Inventor
Tomoe Kawane
友恵 川根
Takeo Kanamori
丈郎 金森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2001203754A priority Critical patent/JP4880136B2/ja
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to CNB018019633A priority patent/CN1227647C/zh
Priority to US10/069,530 priority patent/US20020173957A1/en
Priority to DE60122893T priority patent/DE60122893T2/de
Priority to PCT/JP2001/005950 priority patent/WO2002005266A1/ja
Priority to KR10-2002-7003193A priority patent/KR100482477B1/ko
Priority to EP01947936A priority patent/EP1300832B1/en
Publication of JP2002091487A publication Critical patent/JP2002091487A/ja
Application granted granted Critical
Publication of JP4880136B2 publication Critical patent/JP4880136B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Navigation (AREA)

Abstract

(57)【要約】 【課題】 話者の音声レベルに左右されずに音声認識の
認識率を向上させることができる音声認識装置、音声認
識方法および音声認識プログラムを提供することであ
る。 【解決手段】 話者により発声された音声はマイクロホ
ン1により集音され、A/Dコンバータ2を介して信号
遅延部3および音声レベル推定部4に与えられる。音声
レベル推定部4は与えられるデジタル音声信号から音声
レベルの推定値の算出を行う。信号遅延部3は予め定め
られた音声レベル立ち上がり時間分を遅延させたデジタ
ル音声信号を音声レベル調整部5に与え、音声レベル調
整部5は、音声レベルの推定値に基づいてデジタル音声
信号の音声レベルの調整を行い、音声レベルの調整後の
出力を音声認識部6に与える。音声認識部6は与えられ
る音声レベルの調整後の出力に応じて音声認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者により発声さ
れた音声を認識する音声認識装置、音声認識方法および
音声認識プログラムに関する。
【0002】
【従来の技術】近年、音声認識に関する技術の発展が著
しい。この音声認識とは、コンピュータまたは機械など
が人間の音声を自動的に理解することである。例えば、
この音声認識を用いることにより、コンピュータまたは
機械などを人間の音声に応じて動作させたり、人間の音
声を文字に変換させたりすることができる。
【0003】音声認識では、発声された音声が有する周
波数スペクトルなどの物理的特徴を抽出し、予め記憶さ
れている母音、子音または単語の物理的特徴の型と比較
する方法が主に用いられる。しかし、複数の不特定の話
者の音声認識を行う場合には、話者各々の個人差による
音声の有する物理的特徴の相違が要因となり正確な音声
認識を行うことができない。また、特定の話者の音声認
識を行う場合にも、昼夜などの周囲環境の変化による雑
音(ノイズ)、または話者の体調などによる音声の有す
る物理的特徴の変化が、音声認識を行う際の認識率を低
下させる要因となり正確な音声認識を行うことができな
い。
【0004】図13は音声認識を行う際の音声レベルと
認識率との関係の一例を示す模式図である。図13に示
す模式図は、縦軸が認識率(%)を示し、横軸が音声レ
ベル(dB)を示す。ここで、音声レベルとは、音声パ
ワーのレベルを意味し、例えば0dBは、負荷抵抗60
0Ω、端子間電圧0.775V、消費電力1mWをい
う。
【0005】図13に示すように、従来の音声認識で
は、音声レベルが−19dBよりも低い場合、または音
声レベルが−2dBよりも高い場合に認識率が低下する
傾向がある。
【0006】従来の音声認識においては、母音、子音ま
たは単語の物理的特徴の型である音声レベルを予め記憶
する際の音声レベルの近傍において認識率が高くなって
いる。すなわち、予め記憶される音声レベルと入力され
る音声レベルとを比較して音声認識を行うため、音声レ
ベルが低い場合から高い場合まで平均的に高い認識率を
得ることはできない。
【0007】そこで、実開昭59−60700号公報に
は、音声を入力する際に使用するマイクロアンプにAG
C回路(Auto Gain Contoroller:自動利得制御回路)を
用いて常に入力される音声レベルをほぼ一定にする音声
認識装置が開示されている。また、実開平01−137
497号公報および特開昭63−014200号公報に
は、適当な手段により話者に音声レベルを知らせ、最適
な音声レベルの発声を行うように促す音声認識装置が開
示されている。
【0008】
【発明が解決しようとする課題】しかしながら、実開昭
59−60700号公報に開示された音声認識装置で
は、AGC回路により増幅する必要のない音声以外の雑
音(ノイズ)も増幅され、増幅された雑音によって認識
率が低下する場合がある。さらに、入力される音声に
は、1単語ごとに言葉の抑揚を示すアクセントが存在す
る。そのため、入力される音声レベルをAGC回路によ
って頻繁に増幅したり増幅しなかったりすることによ
り、ほぼ一定のレベルに増幅された音声の波形に歪みが
生じる。この音声の波形の歪みにより、一単語ごとに含
まれる言葉の抑揚を示すアクセントが歪みを生じ認識率
が低下する。
【0009】一方、実開平01−137497号公報お
よび特開昭63−014200号公報に開示された音声
認識装置では、周囲環境の変化または話者自身の体調不
良などの影響により、話者によって入力される音声レベ
ルが予め定められた規定値に達しない場合がある。ま
た、話者が予め定められた規定の音声レベルを発声して
も、音声認識装置が認識しない場合などがある。例え
ば、話者により発声される音声レベルは個人特有の物理
的特徴であり、無理に発声を変化させると物理的特徴が
異質のものとなり、かえって音声認識の認識率を低下さ
せる場合などがある。
【0010】本発明の目的は、話者の音声レベルに左右
されずに音声認識の認識率を向上させることができる音
声認識装置、音声認識方法および音声認識プログラムを
提供することである。
【0011】
【課題を解決するための手段】第1の発明に係る音声認
識装置は、デジタル音声信号を入力する入力手段と、入
力手段により入力される音声区間内の一部の時間内のデ
ジタル音声信号に基づいて音声区間の音声レベルを推定
する音声レベル推定手段と、音声レベル推定手段により
推定された音声レベルおよび予め設定された目標レベル
に基づいて入力手段により入力される音声区間のデジタ
ル音声信号のレベルを調整する音声レベル調整手段と、
音声レベル調整手段により調整されたデジタル音声信号
に基づいて音声認識を行う音声認識手段とを備えたもの
である。
【0012】第1の発明に係る音声認識装置において
は、入力手段によりデジタル音声信号が入力され、入力
手段により入力される音声区間内の予め定められた時間
内のデジタル音声信号に基づいて音声レベル推定手段に
より音声区間の音声レベルが推定される。音声レベル推
定手段により推定された音声レベルおよび予め設定され
た目標レベルに基づいて入力手段により入力される音声
区間のデジタル音声信号のレベルが音声レベル調整手段
により調整され、音声レベル調整手段により調整された
デジタル音声信号に基づいて音声認識手段により音声認
識が行われる。
【0013】この場合、音声区間内の一部の時間内のデ
ジタル音声信号に基づいて音声区間の全体の音声レベル
が推定され、推定された音声レベルおよび予め設定され
た目標レベルに基づいて音声区間のデジタル音声信号の
レベルが一律に調整される。それにより、話者の音声が
有する言葉の抑揚を示すアクセントに歪みを与えること
なく音声認識を行うことができる。したがって、音声認
識の認識率を向上させることができる。
【0014】第2の発明に係る音声認識装置は、第1の
発明に係る音声認識装置の構成において、音声レベル推
定手段は、入力手段により入力される音声区間内の最初
の所定時間内のデジタル音声信号に基づいて音声区間の
音声レベルを推定するものである。
【0015】この場合、通常、音声区間内の最初の所定
時間内の音声レベルの立ち上がり部分により音声区間の
全体の音声レベルを判断することができる。したがっ
て、音声区間内の最初の所定時間内のデジタル音声信号
に基づいて音声レベルの推定を行うことにより、音声区
間内の音声レベルを短時間で正確に推定することができ
る。
【0016】第3の発明に係る音声認識装置は、第2の
発明に係る音声認識装置の構成において、音声レベル推
定手段は、入力手段により入力される音声区間内の最初
の所定時間内のデジタル音声信号の平均値を音声区間の
音声レベルとして推定するものである。
【0017】この場合、音声区間の最初の所定時間内の
デジタル音声信号の平均値を算出することにより、音声
区間の音声レベルをより正確に推定することができる。
【0018】第4の発明に係る音声認識装置は、第1〜
第3のいずれかの発明に係る音声認識装置の構成におい
て、音声レベル調整手段は、予め設定された目標レベル
と音声レベル推定手段により推定される音声レベルとの
比により定まる増幅率で入力手段により入力される音声
区間のデジタル音声信号のレベルを増幅または減衰させ
るものである。
【0019】この場合、目標レベルと推定された音声レ
ベルとの比により定まる増幅率で音声区間のデジタル信
号のレベルを増加または減衰させることにより、音声区
間の音声レベルを目標レベルに設定することができる。
【0020】第5の発明に係る音声認識装置は、第1〜
第4のいずれかの発明に係る音声認識装置の構成におい
て、入力手段により入力されるデジタル音声信号が音声
レベル推定手段により推定される音声レベルとともに同
期して音声レベル調整手段に与えられるように入力手段
により入力されるデジタル音声信号を遅延させる遅延回
路をさらに備えたものである。
【0021】この場合、デジタル音声信号に対応した音
声レベルの推定値を用いて音声レベルを調整することが
できる。これにより、音声区間の音声レベルを正確に調
整することができる。
【0022】第6の発明に係る音声認識装置は、第1〜
第5のいずれかの発明に係る音声認識装置の構成おい
て、音声レベル推定手段は、入力手段により入力される
音声区間の開始点を検出する音声検出部と、入力手段に
より入力される音声区間内の最初の所定時間内のデジタ
ル音声信号に基づいて音声区間の音声レベルを推定する
音声レベル推定部と、音声レベル推定部により推定され
た音声レベルを保持する保持回路と、音声検出部による
検出に応答して入力手段により入力される音声区間のデ
ジタル音声信号を蓄積するとともに蓄積された音声区間
のデジタル音声信号を保持回路に保持された音声レベル
と同期させて音声レベル調整手段に出力する蓄積回路と
を含むものである。
【0023】この場合、入力手段により入力される音声
区間のデジタル音声信号の開始点が音声検出部により検
出され、入力手段により入力される音声区間内の最初の
所定時間内のデジタル音声信号に基づいて音声レベル推
定部により音声区間の音声レベルが推定される。音声レ
ベル推定部により推定された音声レベルが保持回路によ
り保持され、音声検出部による検出に応答して入力手段
により入力される音声区間のデジタル音声信号が蓄積回
路に蓄積されるとともに蓄積された音声区間のデジタル
音声信号が保持回路に保持された音声レベルと同期させ
て蓄積回路により音声レベル調整手段に出力される。
【0024】この場合、音声区間の開始点からデジタル
音声信号が蓄積回路に蓄積され、蓄積されたデジタル音
声信号に対応した音声レベルの推定値を用いて音声レベ
ルが調整される。これにより、デジタル音声信号を正確
な音声レベルに調整することができ、音声認識の認識率
を向上させることができる。
【0025】第7の発明に係る音声認識装置は、第6の
発明に係る音声認識装置の構成において、蓄積回路は、
入力手段により入力される音声区間のデジタル音声信号
を交互に蓄積するとともに蓄積された音声区間のデジタ
ル音声信号を交互に音声レベル調整手段に出力する第1
および第2のバッファを含むものである。
【0026】この場合、複数の単語を含む長い時間の音
声が入力されても、第1および第2のバッファに音声区
間のデジタル音声信号が交互に蓄積されるとともに第1
または第2のバッファから音声区間のデジタル音声信号
が出力される。これにより、複数の単語を含む長い時間
の音声の認識を小さな容量の第1または第2のバッファ
を用いて行うことができる。
【0027】第8の発明に係る音声認識装置は、第1〜
第7のいずれかの発明に係る音声認識装置の構成におい
て、音声認識手段は、音声認識結果を音声レベル調整手
段に帰還させ、音声レベル調整手段は、音声認識手段に
より帰還された音声認識結果に基づいて音声レベルの調
整程度を変更するものである。
【0028】この場合、音声認識結果を再び音声レベル
の調整に用いて音声レベルの調整程度を変更することに
より、音声レベルの調整程度が適切でない場合に音声レ
ベルの調整程度を適切な状態に近づけることができる。
【0029】第9の発明に係る音声認識装置は、第8の
発明に係る音声認識装置の構成において、音声レベル調
整手段は、音声認識手段による音声認識が不可能な場合
に音声レベルの増幅率を上昇させるものである。
【0030】この場合、音声認識が不可能な場合に音声
レベルの増幅率を上昇させることにより、音声認識が不
可能な音声レベルを音声認識が可能な音声レベルに調整
することができる。
【0031】第10の発明に係る音声認識装置は、第1
〜第9のいずれかの発明に係る音声認識装置の構成にお
いて、音声レベル推定手段により推定された音声レベル
が予め定められた範囲内にある場合に音声レベル調整手
段を不能動化し、音声レベル推定手段により推定された
音声レベルが予め定められた範囲内にない場合に音声レ
ベル調整手段を能動化するとともに音声レベル推定手段
により推定された音声レベルを予め定められた範囲内の
音声レベルに変更して音声レベル調整手段に与える非線
形処理部をさらに備えたものである。
【0032】この場合、予め定められた範囲内にない音
声レベルの場合にのみ、予め定められた範囲内の音声レ
ベルに変更して音声レベルの調整を行うことができる。
これにより、話者の音声が有する言葉の抑揚を示すアク
セントに無用な歪みを与えることを防止することができ
る。
【0033】第11の発明に係る音声認識方法は、デジ
タル音声信号を入力するステップと、音声区間内の一部
の時間内の入力されたデジタル音声信号に基づいて音声
区間の音声レベルを推定するステップと、推定された音
声レベルおよび予め設定された目標レベルに基づいて音
声区間のデジタル音声信号のレベルを調整するステップ
と、調整されたデジタル音声信号に基づいて音声認識を
行うステップとを備えたものである。
【0034】第11の発明に係る音声認識方法において
は、デジタル音声信号が入力され、音声区間内の一部の
時間内のデジタル音声信号に基づいて音声区間の音声レ
ベルが推定される。推定された音声レベルおよび予め設
定された目標レベルに基づいて音声区間のデジタル音声
信号のレベルが調整され、調整されたデジタル音声信号
に基づいて音声認識が行われる。
【0035】この場合、音声区間内の一部の時間内のデ
ジタル音声信号に基づいて音声区間の全体の音声レベル
が推定され、推定された音声レベルおよび予め設定され
た目標レベルに基づいて音声区間のデジタル音声信号の
レベルが一律に調整される。それにより、話者の音声が
有する言葉の抑揚を示すアクセントに歪みを与えること
なく音声認識を行うことができる。したがって、音声認
識の認識率を向上させることができる。
【0036】第12の発明に係る音声認識方法は、第1
1の発明に係る音声認識方法において、音声レベルを推
定するステップは、音声区間内の最初の所定時間内のデ
ジタル音声信号に基づいて音声区間の音声レベルを推定
することを含むものである。
【0037】この場合、通常、音声区間内の最初の所定
時間内の音声レベルの立ち上がり部分により音声区間の
全体の音声レベルを判断することができる。したがっ
て、音声区間内の最初の所定時間内のデジタル音声信号
に基づいて音声レベルの推定を行うことにより、音声区
間内の音声レベルを短時間で正確に推定することができ
る。
【0038】第13の発明に係る音声認識方法は、第1
2の発明に係る音声認識方法において、音声レベルを推
定するステップは、音声区間内の最初の所定時間内のデ
ジタル音声信号の平均値を音声区間の音声レベルとして
推定することを含むものである。
【0039】この場合、音声区間の最初の所定時間内の
デジタル音声信号の平均値を算出することにより、音声
区間の音声レベルをより正確に推定することができる。
【0040】第14の発明に係る音声認識方法は、第1
1〜第13のいずれかの発明に係る音声認識方法におい
て、デジタル音声信号のレベルを調整するステップは、
予め設定された目標レベルと推定される音声レベルとの
比により定まる増幅率で音声区間のデジタル音声信号の
レベルを増幅または減衰させることを含むものである。
【0041】この場合、目標レベルと推定された音声レ
ベルとの比により定まる増幅率で音声区間のデジタル信
号のレベルを増加または減衰させることにより、音声区
間の音声レベルを目標レベルに設定することができる。
【0042】第15の発明に係る音声認識方法は、第1
1〜第14のいずれかの発明に係る音声認識方法におい
て、音声区間のデジタル音声信号が推定される音声レベ
ルとともに同期してデジタル音声信号のレベルを調整す
るステップに与えられるようにデジタル音声信号を遅延
させるステップをさらに備えたものである。
【0043】この場合、デジタル音声信号に対応した音
声レベルの推定値を用いて音声レベルを調整することが
できる。これにより、音声区間の音声レベルを正確に調
整することができる。
【0044】第16の発明に係る音声認識方法は、第1
1〜第15のいずれかの発明に係る音声認識方法におい
て、音声レベルを推定するステップは、音声区間のデジ
タル音声信号の開始点を検出するステップと、音声区間
内の最初の所定時間内のデジタル音声信号に基づいて音
声区間の音声レベルを推定するステップと、推定された
音声レベルを保持するステップと、デジタル音声信号の
開始点の検出に応答して音声区間のデジタル音声信号を
蓄積するとともに蓄積された音声区間のデジタル音声信
号を保持された音声レベルと同期させて出力するステッ
プとを含むものである。
【0045】この場合、音声区間のデジタル音声信号の
開始点が検出され、音声区間内の最初の所定時間内のデ
ジタル音声信号に基づいて音声区間の音声レベルが推定
される。推定された音声レベルが保持され、音声区間の
デジタル音声信号の開始点の検出に応答して音声区間の
デジタル音声信号が蓄積されるとともに蓄積された音声
区間のデジタル音声信号が保持された音声レベルと同期
させて出力される。
【0046】この場合、音声区間の開始点からデジタル
音声信号が蓄積回路に蓄積され、蓄積されたデジタル音
声信号に対応した音声レベルの推定値を用いて音声レベ
ルが調整される。これにより、デジタル音声信号を正確
な音声レベルに調整することができ、音声認識の認識率
を向上させることができる。
【0047】第17の発明に係る音声認識方法は、第1
6の発明に係る音声認識方法において、蓄積するステッ
プは、音声区間のデジタル音声信号を第1および第2の
バッファに交互に蓄積するとともに蓄積された音声区間
のデジタル音声信号を第1および第2のバッファから交
互に出力するステップを含むものである。
【0048】この場合、複数の単語を含む長い時間の音
声が入力されても、第1および第2のバッファに音声区
間のデジタル音声信号が交互に蓄積されるとともに第1
または第2のバッファから音声区間のデジタル音声信号
が出力される。これにより、複数の単語を含む長い時間
の音声の認識を小さな容量の第1または第2のバッファ
を用いて行うことができる。
【0049】第18の発明に係る音声認識方法は、第1
1〜第17のいずれかの発明に係る音声認識方法におい
て、音声認識を行うステップは、音声認識結果をデジタ
ル音声信号のレベルを調整するステップに帰還させるこ
とを含み、デジタル音声信号のレベルを調整するステッ
プは、帰還された音声認識結果に基づいて音声レベルの
調整程度を変更することを含むものである。
【0050】この場合、音声認識結果を再び音声レベル
の調整に用いて音声レベルの調整程度を変更することに
より、音声レベルの調整程度が適切でない場合に繰り返
し音声レベルの調整程度を適切なレベルに近づけること
ができる。
【0051】第19の発明に係る音声認識方法は、第1
8の発明に係る音声認識方法において、デジタル音声信
号のレベルを調整するステップは、音声認識が不可能な
場合に音声レベルの増幅率を上昇させることを含むもの
である。
【0052】この場合、音声認識が不可能な場合に音声
レベルの増幅率を上昇させることにより、音声認識が不
可能な音声レベルを音声認識が可能な音声レベルに調整
することができる。
【0053】第20の発明に係る音声認識方法は、第1
1〜第19のいずれかの発明に係る音声認識方法におい
て、推定された音声レベルが予め定められた範囲内にあ
る場合にデジタル音声信号のレベルを調整することを不
能動化し、推定された音声レベルが予め定められた範囲
内にない場合に調整するステップを能動化するとともに
推定された音声レベルを予め定められた範囲内の音声レ
ベルに変更して変更された音声レベルをデジタル音声信
号のレベルを調整するために用いるステップをさらに備
えたものである。
【0054】この場合、予め定められた範囲内にない音
声レベルの場合にのみ、予め定められた範囲内の音声レ
ベルに変更して音声レベルの調整を行うことができる。
これにより、話者の音声が有する言葉の抑揚を示すアク
セントに無用な歪みを与えることを防止することができ
る。
【0055】第21の発明に係る音声認識プログラム
は、コンピュータ読み取り可能な音声認識プログラムで
あって、デジタル音声信号を入力する処理と、入力され
る音声区間内の一部の時間内のデジタル音声信号に基づ
いて音声区間の音声レベルを推定する処理と、推定され
た音声レベルおよび予め設定された目標レベルに基づい
て入力される音声区間のデジタル音声信号のレベルを調
整する処理と、調整されたデジタル音声信号に基づいて
音声認識を行う処理とをコンピュータに実行させるもの
である。
【0056】第21の発明に係る音声認識プログラムに
おいては、デジタル音声信号が入力され、入力される音
声区間内の予め定められた時間内のデジタル音声信号に
基づいて音声区間の音声レベルが推定される。推定され
た音声レベルおよび予め設定された目標レベルに基づい
て入力される音声区間のデジタル音声信号のレベルが調
整され、調整されたデジタル音声信号に基づいて音声認
識が行われる。
【0057】この場合、音声区間内の一部の時間内のデ
ジタル音声信号に基づいて音声区間の全体の音声レベル
が推定され、推定された音声レベルおよび予め設定され
た目標レベルに基づいて音声区間のデジタル音声信号の
レベルが一律に調整される。それにより、話者の音声が
有する言葉の抑揚を示すアクセントに歪みを与えること
なく音声認識を行うことができる。したがって、音声認
識の認識率を向上させることができる。
【0058】
【発明の実施の形態】(第1の実施の形態)図1は本発
明の第1の実施の形態における音声認識装置の一実施例
を示すブロック図である。
【0059】図1に示すように、音声認識装置は、マイ
クロホン1、A/D(アナログ−デジタル)コンバータ
2、信号遅延部3、音声レベル推定部4、音声レベル調
整部5および音声認識部6を含む。
【0060】図1に示すように、話者により発声された
音声は、マイクロホン1により集音される。集音された
音声は、マイクロホン1の働きによりアナログ音声信号
SAに変換されA/Dコンバータ2に出力される。A/
Dコンバータ2は、出力されるアナログ音声信号SAを
デジタル音声信号DSに変換し、信号遅延部3および音
声レベル推定部4に与える。音声レベル推定部4は、与
えられるデジタル音声信号DSから音声レベルの推定値
LVLの算出を行う。ここで、音声レベルとは、音声パ
ワー(音声エネルギー)のレベルを意味する。この音声
レベルの推定値LVLの算出については後述する。
【0061】信号遅延部3は、後述する予め定められた
音声レベル立ち上がり時間TLに相当する遅延量分のみ
遅延させたデジタル音声信号DSを音声レベル調整部5
に与える。音声レベル調整部5は、音声レベル推定部4
から与えられる音声レベルの推定値LVLに同期して信
号遅延部3により与えられるデジタル音声信号DSの音
声レベルの調整を行う。音声レベル調整部5は、音声レ
ベルの調整後の出力CTRL_OUTを音声認識部6に
与える。音声認識部6は、音声レベル調整部5により与
えられる音声レベルの調整後の出力CTRL_OUTに
基づき音声認識を行う。
【0062】第1の実施の形態における音声認識装置に
おいては、マイクロホン1およびA/D(アナログ−デ
ジタル)コンバータ2が入力手段に相当し、信号遅延部
3が遅延回路に相当し、音声レベル推定部4が音声レベ
ル推定手段に相当し、音声レベル調整部5が音声レベル
調整手段に相当し、音声認識部6が音声認識手段に相当
する。
【0063】なお、信号遅延部3、音声レベル推定部
4、音声レベル調整部5および音声認識部6は、それぞ
れ信号遅延回路、音声レベル推定回路、音声レベル調整
回路および音声認識回路により構成することができる。
また、信号遅延部3、音声レベル推定部4、音声レベル
調整部5および音声認識部6をコンピュータおよび音声
認識プログラムにより表現することができる。
【0064】ここで、音声認識プログラムを実行するた
めのコンピュータについて説明する。図2は音声認識プ
ログラムを実行するためのコンピュータの構成を示すブ
ロック図である。
【0065】コンピュータは、CPU(中央演算処理装
置)500、入出力装置501、ROM(リードオンリ
メモリ)502、RAM(ランダムアクセスメモリ)5
03、記録媒体504、記録媒体駆動装置505および
外部記録装置506を含む。
【0066】入出力装置501は、他の装置との間で情
報の送受信を行う。本実施の形態の入出力装置501
は、図1のA/Dコンバータ2からデジタル音声信号D
Sを入力する。ROM502にはシステムプログラムが
記録される。記録媒体駆動装置505は、CD−ROM
ドライブ、フロッピィディスクドライブ等からなり、C
D−ROM、フロッピィディスク等の記録媒体504に
対してデータの読み書きを行う。記録媒体504には、
音声認識プログラムが記録されている。外部記録装置5
06は、ハードディスク装置などからなり、記録媒体駆
動装置505を介して記録媒体504から読み込まれた
音声認識プログラムを記録する。CPU500は、外部
記録装置506に記録された音声認識プログラムをRA
M503上で実行する。これにより、図1の信号遅延部
3、音声レベル推定部4、音声レベル調整部5および音
声認識部6の機能が実行される。
【0067】次に、図1の音声レベル推定部4による音
声レベルの推定値LVLの算出方法および音声レベル調
整部5による音声レベルの調整方法について説明する。
【0068】まず、音声レベル推定部4による音声レベ
ルの推定値LVLの算出方法について説明を行う。音声
レベル推定部4に入力されるデジタル音声信号DSを、
DS(x)(x=1,2,…,Q)とする。ここで、x
は、予め定められた音声レベルの立ち上がり時間TL内
でのQ個の時点を表し、DS(x)はQ個の時点でのデ
ジタル音声信号DSの値を表す。この場合、音声レベル
の推定値LVLは、次式のように表される。
【0069】 LVL= (Σ|DS(x)|)/Q …(1) 式(1)によれば、音声レベルの推定値LVLは、予め
定められた音声レベル立ち上がり時間TL内のQ個の時
点でのデジタル音声信号DS(x)の絶対値の累積加算
をQで除算することにより得られる平均値である。この
ようにして、音声レベル推定部4において音声レベルの
推定値LVLが算出される。
【0070】次に、音声レベル調整部5による音声レベ
ルの調整方法について説明する。音声レベル調整部5に
おいて、予め定められた音声レベルの目標値をTRG_
LVLと表す。この場合、音声レベルの調整値LVL_
CTRLは、次式のように表される。
【0071】 LVL_CTRL=TRG_LVL/LVL …(2) 式(2)によれば、音声レベルの調整値LVL_CTR
Lは、予め定められた音声レベルの目標値TRG_LV
Lを音声レベルの推定値LVLにより除算することによ
り算出される。
【0072】また、音声レベルの調整後の出力CTRL
_OUTは、音声レベルの調整値LVL_CTRLを用
いて次式のように表される。
【0073】 CTRL_OUT(X)=DS(X)×LVL_CTRL …(3) ここで、Xは時間を表す。式(3)によれば、音声レベ
ルの調整後の出力CTRL_OUT(X)は、予め定め
られた音声レベル立ち上がり時間TLにおけるデジタル
音声信号DS(X)に音声レベルの調整値LVL_CT
RLを乗算した値となる。このように、音声レベル調整
部5は、音声レベルの調整を行い調整後の出力CTRL
_OUT(X)を音声認識部6に与える。
【0074】次に、図1に示す信号遅延部3の予め定め
られた音声レベル立ち上がり時間TLについて図を用い
て説明する。
【0075】図3は話者により発声された“らぐびー”
の音声スペクトルを示す波形図である。図3において、
縦軸が音声レベルを示し、横軸が時間を示す。
【0076】図3に示すように、“らぐびー”という一
単語の音声スペクトルは、“ら”の部分の音声レベルが
高くなっている。すなわち、音声レベルの高い部分が、
1単語ごとに言葉の抑揚を示すアクセントの部分であ
る。ここで、図3に示すように、話者により発声された
音声の開始時間TSから発声された音声レベルの値がピ
ーク値Pに到達するまでの時間を音声レベル立ち上がり
時間TLとする。一般に、音声レベル立ち上がり時間T
Lは0sec (秒)〜100msec(ミリ秒)以内に存在
し、本発明の実施の形態では、音声レベル立ち上がり時
間TLは、100msecとする。
【0077】例えば、この音声レベル立ち上がり時間T
Lを短時間に設定すると音声認識の認識率の低下を招く
こととなる。図3に示すように“らぐびー”という単語
を話者が発声した場合、音声レベル立ち上がり時間をT
L’で示すように短く設定した場合を考える。この場
合、図1に示す信号遅延部3において入力されるデジタ
ル音声信号DSを音声レベル立ち上がり時間TL’分の
み遅延させても、音声レベル推定部4により適切な音声
レベルの推定値LVLが算出されず、本来目標とする音
声レベルの推定値LVLよりも低い音声レベルの推定値
が算出される。その後、音声レベル調整部5に目標より
も低い音声レベルの推定値が与えられ、音声レベル調整
部5によりデジタル音声信号DSの音声レベルの値が誤
って調整される。これにより、音声認識部6に誤ったデ
ジタル音声信号DSが入力され音声認識の認識率が低下
する。
【0078】上記のように、信号遅延部3において音声
区間の最初の音声レベル立ち上がり時間TLを100m
secに設定することにより、音声区間全体の音声レベル
を音声レベル推定部4により算出することができる。こ
れにより、音声区間のデジタル音声信号DSのレベルが
一律に調整されるので、話者の音声が有する言葉の抑揚
を示すアクセントに歪みを与えることなく音声認識を行
うことができ音声認識の認識率を向上させることができ
る。
【0079】(第2の実施の形態)次に、本発明の第2
の実施の形態における音声認識装置について図を用いて
説明する。
【0080】図4は本発明の第2の実施の形態における
音声認識装置を示すブロック図である。
【0081】図4に示すように、音声認識装置は、マイ
クロホン1、A/Dコンバータ2、音声レベル推定部
4、音声レベル調整部5、音声認識部6、音声検出部
7、音声レベル保持部8、選択部11,12、バッファ
21およびバッファ22を含む。
【0082】図4に示すように、話者により発声された
音声は、マイクロホン1により集音される。集音された
音声は、マイクロホン1の働きによりアナログ音声信号
SAに変換されA/Dコンバータ2に出力される。A/
Dコンバータ2は、出力されるアナログ音声信号SAを
デジタル音声信号DSに変換し、音声レベル推定部4、
音声検出部7および選択部11に与える。音声レベル推
定部4は、与えられるデジタル音声信号DSから音声レ
ベルの推定値LVLの算出を行う。第2の実施の形態に
おける音声レベル推定部4による音声レベルの推定値L
VLの算出は、第1の実施の形態における音声レベル推
定部4による音声レベルの推定値LVLの算出方法と同
様である。
【0083】音声レベル推定部4は、A/Dコンバータ
2から与えられるデジタル音声信号DSに基づいて、一
単語ごとに音声レベルの推定値LVLを算出し、算出さ
れる音声レベルの推定値LVLを順次音声レベル保持部
8に与える。ここで、音声レベル保持部8は、音声レベ
ル保持部8内に設けられる保持レジスタに、次に音声レ
ベル推定部4により算出される音声レベルの推定値LV
Lが与えられるまで前回の音声レベルの推定値LVLを
保持し、音声レベル推定部4によって算出される音声レ
ベルの推定値LVLが与えられるごとに、前回の音声レ
ベルの推定値LVLが保持されている保持レジスタに、
新たに与えられた音声レベルの推定値LVLを上書き保
存する。また、この保持レジスタは、データ容量Mを有
している。
【0084】一方、音声検出部7は、A/Dコンバータ
2により与えられるデジタル音声信号DSから図3の音
声の開始時間TSを検出し、A/Dコンバータ2から与
えられるデジタル音声信号DSをバッファ21に与える
ように選択部11に制御信号CIS1を与えるととも
に、選択部11により与えられるデジタル音声信号DS
を蓄積するようにバッファ21に制御信号CB1を与え
る。バッファ21,22は、ぞれぞれ容量Lを有してい
る。
【0085】選択部11は、音声検出部7により与えら
れる制御信号CIS1に応答して、A/Dコンバータ2
から与えられるデジタル音声信号DSをバッファ21に
与える。バッファ21は、音声検出部7から与えられる
制御信号CB1に応答して、選択部11を介して与えら
れるデジタル音声信号DSを蓄積する。そして、バッフ
ァ21は、蓄積可能な容量Lのデジタル音声信号DSを
蓄積した際に、音声検出部7に満杯信号F1を与える。
それにより、音声検出部7は、バッファ21を介して、
音声レベル保持部8に音声レベルの推定値LVLを出力
させる制御信号SL1を与える。
【0086】また、音声検出部7は、バッファ21から
与えられる満杯信号F1に応答して、A/Dコンバータ
2から与えられるデジタル音声信号DSをバッファ22
に与えるように選択部11に制御信号CIS2を与える
とともに、選択部11から与えられるデジタル音声信号
DSを蓄積するようにバッファ22に制御信号CB2を
与える。さらに、音声検出部7は、バッファ21に制御
信号CBO1を与え、選択部12に制御信号COS1を
与える。
【0087】選択部11は、音声検出部7により与えら
れる制御信号CIS2に応答して、A/Dコンバータ2
から与えられるデジタル音声信号DSをバッファ22に
与える。バッファ22は、音声検出部7により与えられ
る制御信号CB2に応答して、選択部11を介して与え
られるデジタル音声信号DSを蓄積する。
【0088】一方、バッファ21は、音声検出部7によ
り与えられる制御信号CBO1に応答して、バッファ2
1に蓄積されたデジタル音声信号DSを選択部12を介
して音声レベル調整部5に与える。
【0089】そして、バッファ22は、音声検出部7か
ら与えられる制御信号CB2に応答して、選択部11を
介して与えられるデジタル音声信号DSを蓄積する。バ
ッファ22は、蓄積可能な容量Lのデジタル音声信号D
Sを蓄積した際に、音声検出部7に満杯信号F2を与え
る。それにより、音声検出部7は、バッファ22を介し
て音声レベル保持部8に音声レベルの推定値LVLを出
力させる制御信号SL2を与える。
【0090】また、音声検出部7は、バッファ22から
与えられる満杯信号F2に応答して、A/Dコンバータ
2から与えられるデジタル音声信号DSをバッファ21
に与えるように選択部11に制御信号CIS1を与え
る。さらに、音声検出部7は、バッファ22に制御信号
CBO2を与え、選択部12に制御信号COS2を与え
る。
【0091】一方、バッファ22は、音声検出部7によ
り与えられる制御信号CBO2に応答して、バッファ2
2に蓄積されたデジタル音声信号DSを選択部12を介
して音声レベル調整部5に与える。
【0092】音声レベル保持部8は、内部の保持レジス
タに保持された音声レベルの推定値LVLをバッファ2
1から与えられる制御信号SL1またはバッファ22か
ら与えられる制御信号SL2に応答して音声レベル調整
部5に与える。ここで、音声レベル保持部8内に設けら
れる保持レジスタの容量Mとバッファ21,22の容量
Lとは、ほぼ同一の容量であるため、選択部12を介し
て与えられるデジタル音声信号DSに対応する音声レベ
ルの推定値LVLが、音声レベル保持部8から出力され
る。
【0093】音声レベル調整部5は、音声レベル保持部
8により与えられる音声レベルの推定値LVLに基づい
て、選択部12を介して得られるデジタル音声信号DS
の調整を行う。第2の実施の形態における音声レベル調
整部5によるデジタル音声信号DSの調整方法は、第1
の実施の形態における音声レベル調整部5によるデジタ
ル音声信号DSの調整方法と同様である。音声レベル調
整部5は、音声レベルの調整後の出力CTRL_OUT
を音声認識部6に与える。音声認識部6は、音声レベル
調整部5により与えられる音声レベルの調整後の出力C
TRL_OUTに基づき音声認識を行う。
【0094】第2の実施の形態における音声認識装置に
おいては、マイクロホン1およびA/D(アナログ−デ
ジタル)コンバータ2が入力手段に相当し、音声レベル
推定部4が音声レベル推定手段に相当し、音声レベル調
整部5が音声レベル調整手段に相当し、音声認識部6が
音声認識手段に相当し、音声検出部7が音声検出部に相
当し、音声レベル保持部8が保持回路に相当し、バッフ
ァ21,22が蓄積回路に相当する。
【0095】図5(a)は図4のマイクロホン1の出力
波形図であり、図5(b)は音声信号(信号成分)
(S)と雑音成分(N)との比(S/N)を示す図であ
る。
【0096】図5(a)に示すように、マイクロホン1
の出力波形は、雑音成分と音声信号からなる。そして、
音声信号を含む音声区間では、出力波形の音声レベルの
値が高くなる。
【0097】また、図5(b)に示すように、図4の音
声検出部7は、音声信号(音声成分)と雑音成分との比
であるS/N値が低い場合は雑音区間であると判定し、
音声信号(音声成分)と雑音成分との比であるS/N値
が高い場合は音声区間であると判定する。
【0098】図6は図4の音声検出部7の動作を示すフ
ローチャートである。まず、図6に示すように、音声検
出部7は、入力されるデジタル音声信号DSが音声信号
であるか否かを判定する(ステップS61)。入力され
るデジタル音声信号DSが音声信号でない場合には、次
回に入力されるデジタル音声信号DSが音声信号と判定
されるまで待機する。一方、入力されるデジタル音声信
号DSが音声信号であると判定された場合、音声検出部
7は、図4の選択部11に与えられるデジタル音声信号
DSをバッファ21に与えるように選択部11に制御信
号CIS1を与える(ステップS62)。そして、音声
検出部7は、バッファ21にデジタル音声信号DSを蓄
積するように制御信号CB1を与える(ステップS6
3)。
【0099】次いで、音声検出部7は、バッファ21に
より蓄積可能な容量Lのデジタル音声信号DSを蓄積し
た際に出力される満杯信号F1を受信したか否かを判定
する(ステップS64)。音声検出部7は、バッファ2
1から満杯信号F1を受信していない場合には、引き続
きステップS63を繰り返す。一方、音声検出部7は、
バッファ21から満杯信号F1を受信した場合には、図
4の選択部11に与えられるデジタル音声信号DSをバ
ッファ22に与えるように選択部11に制御信号CIS
2を与える(ステップS65)。そして、音声検出部7
は、さらにバッファ22にデジタル音声信号DSを蓄積
するように制御信号CB2を与える(ステップS6
6)。また、音声検出部7は、制御信号CIS2および
制御信号CB2を出力した後に、選択部12にバッファ
21から与えられる蓄積されたデジタル音声信号DSを
音声レベル調整部5に与えるように制御信号COS1を
与える(ステップS67)。
【0100】次いで、音声検出部7は、音声レベル保持
部8にバッファ21を介して制御信号SL1を与える
(ステップS68)。音声レベル保持部8は、バッファ
21を介して与えられる制御信号SL1に応答して、音
声レベル保持部8内の保持レジスタに繰り返し記憶され
ている音声レベルの推定値LVLを音声レベル調整部5
に与える。
【0101】次いで、音声検出部7は、バッファ21に
制御信号CBO1を与え、蓄積されたデジタル音声信号
DSを音声レベル調整部5に出力させる(ステップS6
9)。続いて、音声検出部7は、バッファ21に蓄積さ
れた全てのデジタル音声信号DSが音声レベル調整部5
に出力されたか否かを判定する(ステップS70)。こ
こで、バッファ21から全てのデジタル音声信号DSが
出力されていない場合には、再度、バッファ21に制御
信号CBO1を与え蓄積されたデジタル音声信号DSを
音声レベル調整部5に出力させる。一方、バッファ21
に蓄積されたデジタル音声信号DSが全て出力された場
合、音声検出部7は、バッファ21にバッファ内のデー
タを消去(クリア)するように制御信号CRを与える
(ステップS71)。
【0102】図7は2単語を話者が発声した場合におけ
るバッファ21およびバッファ22のデジタル音声信号
DSの入出力を表す模式図である。
【0103】図7に示すように、バッファ21には、音
声区間(S)の一単語(W1)の開始時点において、音
声検出部7により制御信号CB1が与えられ、バッファ
21へのデジタル信号DSの入力が開始される。ここ
で、バッファ21およびバッファ22はFIFO(Firs
t In First Out)タイプのメモリで構成されており、ま
たバッファ21およびバッファ22のメモリ容量Lはほ
ぼ同一である。
【0104】バッファ21へのデジタル音声信号DSの
入力は、一単語(W1)のほぼ全てにおいて行われ、バ
ッファ21に蓄積可能な容量Lのデジタル音声信号DS
が蓄積されるとバッファ21は音声検出部7に満杯信号
F1を出力する。バッファ21は、満杯信号F1を出力
した後、バッファ21内に蓄積されたデジタル音声信号
DSを音声検出部7により与えられる制御信号CBO1
に応答して出力する。一方、バッファ22は、音声検出
部7により与えられる制御信号CB2に応答してデジタ
ル音声信号DSの蓄積を開始する。
【0105】バッファ22は、蓄積可能な容量Lのデジ
タル音声信号DSが蓄積された場合に、音声検出部7に
満杯信号F2を出力する。一方、バッファ22の蓄積の
間にバッファ21に蓄積されたデジタル音声信号DS
は、全て音声レベル調整部5に出力された後、音声検出
部7により制御信号CRが与えられバッファ21内のデ
ータが消去(クリア)される。それにより、バッファ2
1には、音声検出部7により再度デジタル音声信号DS
を蓄積させる制御信号CB1が与えられる。
【0106】上記のように、音声区間の開始点からデジ
タル音声信号が蓄積され、蓄積されたデジタル音声信号
に対応した音声レベルの推定値を用いて音声レベルを正
確に調整することができる。したがって、音声認識を正
確な音声レベルで調整することにより音声認識の認識率
を向上させることができる。
【0107】また、複数の単語を含む長い時間のデジタ
ル音声信号DSが入力されても、交互に蓄積および出力
を行うことができる。これにより、小さい容量のバッフ
ァを用いても音声認識を行うことができる。
【0108】なお、本発明の実施の形態においては、バ
ッファを用いることとしたが、これに限らず、他の蓄積
回路を用いてもよい。さらに、バッファの内部にカウン
タを設けて、音声検出部7によりバッファの内部のカウ
ンタを監視させて満杯信号F1,F2または制御信号C
Rを出力してもよい。
【0109】(第3の実施の形態)図8は本発明の第3
の実施の形態における音声認識装置の一例を示すブロッ
ク図である。
【0110】図8に示すように、音声認識装置は、マイ
クロホン1、A/D(アナログ−デジタル)コンバータ
2、信号遅延部3、音声レベル推定部4、音声レベル調
整帰還部9および音声認識帰還部10を含む。
【0111】図8に示すように、話者により発声された
音声は、マイクロホン1により集音される。集音された
音声は、マイクロホン1の働きによりアナログ音声信号
SAに変換されA/Dコンバータ2に出力される。A/
Dコンバータ2は、出力されるアナログ音声信号SAを
デジタル音声信号DSに変換し、信号遅延部3および音
声レベル推定部4に与える。音声レベル推定部4は、与
えられるデジタル音声信号DSから音声レベルの推定値
LVLの算出を行う。ここで、第3の発明の実施の形態
における音声レベル推定部4による音声レベルの推定値
LVLの算出方法については、第1の実施の形態におけ
る音声レベル推定部4による音声レベルの推定値LVL
の算出方法と同様である。
【0112】音声レベル推定部4は、音声レベルの推定
値LVLを算出し音声レベル調整帰還部9に与える。音
声レベル調整帰還部9は、音声レベル推定部4により与
えられる音声レベルの推定値LVLに基づいて、音声レ
ベルの推定値LVLに同期して信号遅延部3により与え
られるデジタル音声信号DSのレベルの調整を行う。音
声レベル調整帰還部9は、音声レベルの調整後の出力C
TRL_OUTを音声認識帰還部10に与える。音声認
識帰還部10は、音声レベル調整帰還部9により与えら
れる調整後の出力CTRL_OUTに基づき音声認識を
行い、音声認識が失敗したときに音声レベル制御信号R
Cを音声レベル調整帰還部9に与える。この音声レベル
調整帰還部9および音声認識帰還部10の動作について
は後述する。
【0113】第3の実施の形態における音声認識装置に
おいては、マイクロホン1およびA/D(アナログ−デ
ジタル)コンバータ2が入力手段に相当し、信号遅延部
3が遅延回路に相当し、音声レベル推定部4が音声レベ
ル推定手段に相当し、音声レベル調整帰還部9が音声レ
ベル調整手段に相当し、音声認識帰還部10が音声認識
手段に相当する。
【0114】図9は図8に示す音声レベル調整帰還部9
における音声レベルの調整を行う際の動作を説明するフ
ローチャートである。
【0115】図9に示すように、まず、音声レベル調整
帰還部9は、音声認識帰還部10による音声レベル制御
信号RCが入力されたか否かを判定する(ステップS9
1)。次に、音声レベル調整帰還部9は、音声認帰還識
部10により音声レベル制御信号RCが入力されていな
い場合には、音声認識帰還部10による音声レベル制御
信号RCが入力されたと判定されるまで待機する。一
方、音声認識帰還部10から音声レベル制御信号RCが
入力されたと判定された場合には、音声レベル調整帰還
部9は、変数Kに1を加算する(ステップS92)。
【0116】ここで、複数の段階の音声レベルの目標値
が予め設定されており、変数Kとは、この複数の段階を
表す変数である。ここで、本実施の第3の形態において
は、変数Kは1からRまでの値を有し、音声レベルの目
標値TRG_LVL(K)の取りうる値は、TRG_L
VL(1),TRG_LVL(2),…TRG_LVL
(R)とする。
【0117】次いで、音声レベル調整帰還部9は、変数
Kが最大値Rよりも大きいか否かを判定する(ステップ
S93)。ここで、音声レベル調整帰還部9は、変数K
が最大値Rよりも大きいと判定した場合には、変数Kを
最小値1に戻し(ステップS94)、音声レベルの目標
値TRG_LVLをTRG_LVL(1)に設定する
(ステップS95)。
【0118】一方、音声レベル調整帰還部9は、変数K
が最大値R以下と判定した場合、音声レベルの目標値T
RG_LVLをTRG_LVL(K)に設定する(ステ
ップS95)。
【0119】例えば、最初、音声レベルの目標値TRG
_LVLが、TRG_LVL(2)に設定されていると
する。そして、音声認識帰還部10が音声認識に失敗し
て音声認識を行うことができない場合には、制御信号R
Cが音声レベル調整帰還部9に出力される。音声レベル
調整帰還部9は、音声レベルの目標値TRG_LVL
(2)を音声レベルの目標値TRG_LVL(3)に変
更し、再度の話者からの音声入力を待つ。
【0120】このように、音声レベルの目標値TRG_
LVLをTRG_LVL(2),TRG_LVL
(3),TRG_LVL(4)と順次に変更し、音声認
識が成功した時点で音声レベルの目標値TRG_LVL
が固定される。また、音声レベルの目標値TRG_LV
Lが最大値であるTRG_LVL(R)に設定されても
音声認識に失敗した場合には、次に音声レベルの目標値
TRG_LVLを最小値であるTRG_LVL(1)に
戻し、再度の話者からの音声入力を待つ。
【0121】このようして、音声レベルの目標値TRG
_LVLが音声認識に最適な値に設定される。
【0122】上記のように、音声認識結果が失敗であっ
た場合に、再び音声レベル調整帰還部9において、音声
レベルの調整程度を順次上げていくことができる。ま
た、音声レベルの調整程度が、予め定めた音声レベルの
最大値に到達しても、再度音声レベルを最小値に戻して
調整程度を順次上げることができる。これにより、音声
レベルの調整程度が適切でなく音声認識に失敗した場合
には、繰り返し音声レベルの調整程度を順次変更するこ
とができるので音声認識の認識率を向上させることがで
きる。
【0123】なお、上記実施の形態においては、音声認
識に失敗した場合には、再度話者からの音声入力により
音声レベルの目標値TRG_LVL(K)を順次変更す
ることとしたが、これに限らず、話者の音声入力を保持
する手段を設け、音声認識に失敗した場合には、音声入
力を保持する手段により保持されている音声入力を用い
ることにより音声レベルの目標値TRG_LVL(K)
を順次変更させてもよい。
【0124】(第4の実施の形態)図10は本発明の第
4の実施の形態における音声認識装置の一例を示すブロ
ック図である。
【0125】図10に示すように、音声認識装置は、マ
イクロホン1、A/D(アナログ−デジタル)コンバー
タ2、信号遅延部3、音声レベル推定部4、音声レベル
調整部5、音声認識部6および信号非線形処理部11を
含む。
【0126】図10に示すように、話者により発声され
た音声は、マイクロホン1により集音される。集音され
た音声は、マイクロホン1の働きによりアナログ音声信
号SAに変換されA/Dコンバータ2に出力される。A
/Dコンバータ2は、出力されるアナログ音声信号SA
をデジタル音声信号DSに変換し、信号遅延部3および
音声レベル推定部4に与える。音声レベル推定部4は、
与えられるデジタル音声信号DSから音声レベルの推定
値LVLの算出を行う。ここで、第4の実施の形態にお
ける音声レベル推定部4による音声レベルの推定値LV
Lの算出方法については、第1の実施の形態における音
声レベル推定部4による音声レベルの推定値LVLの算
出方法と同様である。音声レベル推定部4は、与えられ
るデジタル音声信号DSおよび音声レベルの推定値LV
Lを信号非線形処理部11に与える。信号非線形処理部
11は、音声レベル推定部4により与えられる音声レベ
ルの推定値LVLに応じて後述する非線形処理を行い、
非線形処理を行った音声レベルの推定値LVLを音声レ
ベル調整部5に与える。
【0127】一方、信号遅延部3は、音声レベル立ち上
がり時間TLに相当する遅延量分のみ遅延させたデジタ
ル音声信号DSを音声レベル調整部5に与える。ここ
で、第4の実施の形態における音声レベル立上り時間T
Lに相当する遅延量分は、100msecとする。音声
レベル調整部5は、信号非線形処理部11から与えられ
る音声レベルの推定値LVLに応じて信号遅延部3によ
り与えられるデジタル音声信号DSの音声レベルの調整
を行う。音声レベル調整部5は、音声レベルの調整後の
出力CTRL_OUTを音声認識部6に与える。音声認
識部6は、音声レベル調整部5により与えられる音声レ
ベルの調整後の出力CTRL_OUTに応じて音声認識
を行う。
【0128】第4の実施の形態における音声認識装置に
おいては、マイクロホン1およびA/D(アナログ−デ
ジタル)コンバータ2が入力手段に相当し、信号遅延部
3が遅延回路に相当し、音声レベル推定部4が音声レベ
ル推定手段に相当し、音声レベル調整部5が音声レベル
調整手段に相当し、音声認識部6が音声認識手段に相当
し、信号非線形処理部11が非線形処理部に相当する。
【0129】図11は図10の信号非線形処理部11に
入力される音声レベルの推定値LVLと図10の音声認
識部6における認識率との関係を示す図である。
【0130】図11に示すように、図10の音声認識部
6における認識率は、音声レベルの推定値LVLに依存
している。音声レベルの推定値LVLが−19dB以上
−2dB以下の範囲にある場合には、認識率が80%以
上を示す。そして、特に音声レベルの推定値LVLが低
い(−19dB以下)場合、または音声レベルの推定値
LVLが高い(−2dB以上)場合には、音声認識の認
識率が急激に低下する。
【0131】このことから、本発明の第4の実施の形態
における信号非線形処理部11においては、入力される
音声レベルの推定値LVLが−19dBから−2dBま
での範囲内に存在するように音声レベルの推定値LVL
を調整する。
【0132】図12は信号非線形処理部11の処理動作
を示すフローチャートである。図12に示すように、信
号非線形処理部11は、音声レベル推定部4により入力
される音声レベルの推定値LVLが−19dB以上−2
dB以下であるか否かを判定する(ステップS10
1)。
【0133】信号非線形処理部11は、入力される音声
レベルの推定値LVLが−19dB以上−2dB以下の
値であると判定した場合には、音声レベル調整部5を不
能動化させる。すなわち、音声レベル調整部5において
式(2)に示す音声レベルの調整値LVL_CTRLは
1となる。
【0134】一方、信号非線形処理部11は、入力され
る音声レベルの推定値LVLが−19dB以上−2dB
以下の値でないと判定した場合、音声レベルの推定値L
VLを−10dBに設定する(ステップS102)。
【0135】上記のように、信号非線形処理部11は、
音声レベルの推定値LVLが認識率80%以上を満たす
ように、音声レベルの推定値LVLを設定するため、音
声認識部6において入力されるデジタル音声信号DSの
音声認識の認識率を向上させることができる。すなわ
ち、音声レベルの推定値LVLが予め定められた範囲内
にない場合にのみ、音声レベルの推定値を予め定められ
た範囲内の音声レベルの推定値に変更して音声レベルの
調整を行い、音声レベルの推定値が予め定められた範囲
内のにある場合には、音声レベル調整部5における増幅
率を1にして音声レベル調整部5を不能動化にすること
により音声レベルの調整を行わない。これにより、簡易
に話者の音声が有する言葉の抑揚であるアクセントに無
用な歪みを与えることを防止し音声認識を行うことがで
きるので音声認識の認識率を向上させることができる。
【0136】なお、上記実施の形態においては、音声レ
ベルの推定値を−19dBから−2dBに調整すること
としたが、これに限定されず、音声認識を行う際に予め
設定される音声レベルの推定値または音声認識率の高い
音声レベル推定値に調整すればよい。
【0137】
【発明の効果】本発明によれば、音声区間内の一部の時
間内のデジタル音声信号に基づいて音声区間の全体の音
声レベルが推定され、推定された音声レベルおよび予め
設定された目標レベルに基づいて音声区間のデジタル音
声信号のレベルが一律に調整される。それにより、話者
の音声が有する言葉の抑揚を示すアクセントに歪みを与
えることなく音声認識を行うことができる。したがっ
て、音声認識の認識率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声認識装
置の一実施例を示すブロック図
【図2】音声認識プログラムを実行するためのコンピュ
ータの構成を示すブロック図
【図3】話者により発声された“らぐびー”の音声スペ
クトルを示す波形図
【図4】本発明の第2の実施の形態における音声認識装
置を示すブロック図
【図5】(a)は図4のマイクロホンの出力波形図、
(b)は音声信号(信号成分)と雑音成分との比を示す
【図6】図4の音声検出部の動作を示すフローチャート
【図7】2単語を話者が発声した場合におけるバッファ
のデジタル音声信号の入出力を表す模式図
【図8】本発明の第3の実施の形態における音声認識装
置の一例を示すブロック図
【図9】図8に示す音声レベル調整帰還部における音声
レベルの調整を行う際の動作を説明するフローチャート
【図10】本発明の第4の実施の形態における音声認識
装置の一例を示すブロック図
【図11】図10の信号非線形処理部に入力される音声
レベルの推定値と図10の音声認識部における認識率と
の関係を示す図
【図12】信号非線形処理部の処理動作を示すフローチ
ャート
【図13】音声認識を行う際の音声レベルと認識率との
関係の一例を示す模式図
【符号の説明】
1 マイクロホン 2 A/Dコンバータ 3 信号遅延部 4 音声レベル推定部 5 音声レベル調整部 6 音声認識部 7 音声検出部 8 音声レベル保持部 11 信号非線形処理部

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 デジタル音声信号を入力する入力手段
    と、 前記入力手段により入力される音声区間内の一部の時間
    内のデジタル音声信号に基づいて前記音声区間の音声レ
    ベルを推定する音声レベル推定手段と、 前記音声レベル推定手段により推定された音声レベルお
    よび予め設定された目標レベルに基づいて前記入力手段
    により入力される前記音声区間のデジタル音声信号のレ
    ベルを調整する音声レベル調整手段と、 前記音声レベル調整手段により調整されたデジタル音声
    信号に基づいて音声認識を行う音声認識手段とを備えた
    ことを特徴とする音声認識装置。
  2. 【請求項2】 前記音声レベル推定手段は、 前記入力手段により入力される前記音声区間内の最初の
    所定時間内のデジタル音声信号に基づいて前記音声区間
    の音声レベルを推定することを特徴とする請求項1記載
    の音声認識装置。
  3. 【請求項3】 前記音声レベル推定手段は、 前記入力手段により入力される前記音声区間内の最初の
    所定時間内のデジタル音声信号の平均値を前記音声区間
    の音声レベルとして推定することを特徴とする請求項2
    記載の音声認識装置。
  4. 【請求項4】 前記音声レベル調整手段は、 前記予め設定された目標レベルと前記音声レベル推定手
    段により推定される音声レベルとの比により定まる増幅
    率で前記入力手段により入力される前記音声区間のデジ
    タル音声信号のレベルを増幅または減衰させることを特
    徴とする請求項1〜3のいずれかに記載の音声認識装
    置。
  5. 【請求項5】 前記音声区間のデジタル音声信号が前記
    音声レベル推定手段により推定される音声レベルととも
    に同期して前記音声レベル調整手段に与えられるように
    前記入力手段により入力されるデジタル音声信号を遅延
    させる遅延回路をさらに備えたことを特徴とする請求項
    1〜4のいずれかに記載の音声認識装置。
  6. 【請求項6】 前記音声レベル推定手段は、 前記入力手段により入力される前記音声区間のデジタル
    音声信号の開始点を検出する音声検出部と、 前記入力手段により入力される前記音声区間内の最初の
    所定時間内のデジタル音声信号に基づいて前記音声区間
    の音声レベルを推定する音声レベル推定部と、 前記音声レベル推定部により推定された音声レベルを保
    持する保持回路と、 前記音声検出部による検出に応答して前記入力手段によ
    り入力される前記音声区間のデジタル音声信号を蓄積す
    るとともに蓄積された前記音声区間のデジタル音声信号
    を前記保持回路に保持された音声レベルと同期させて前
    記音声レベル調整手段に出力する蓄積回路とを含むこと
    を特徴とする請求項1〜5のいずれかに記載の音声認識
    装置。
  7. 【請求項7】 前記蓄積回路は、 前記入力手段により入力される前記音声区間のデジタル
    音声信号を交互に蓄積するとともに蓄積された前記音声
    区間のデジタル音声信号を交互に前記音声レベル調整手
    段に出力する第1および第2のバッファを含むことを特
    徴とする請求項6記載の音声認識装置。
  8. 【請求項8】 前記音声認識手段は、音声認識結果を前
    記音声レベル調整手段に帰還させ、 前記音声レベル調整手段は、前記音声認識手段により帰
    還された音声認識結果に基づいて前記音声レベルの調整
    程度を変更することを特徴とする請求項1〜7のいずれ
    かに記載の音声認識装置。
  9. 【請求項9】 前記音声レベル調整手段は、前記音声認
    識手段による音声認識が不可能な場合に前記音声レベル
    の増幅率を上昇させることを特徴とする請求項8記載の
    音声認識装置。
  10. 【請求項10】 前記音声レベル推定手段により推定さ
    れた音声レベルが予め定められた範囲内にある場合に前
    記音声レベル調整手段を不能動化し、前記音声レベル推
    定手段により推定された音声レベルが予め定められた範
    囲内にない場合に前記音声レベル調整手段を能動化する
    とともに前記音声レベル推定手段により推定された音声
    レベルを前記予め定められた範囲内の音声レベルに変更
    して前記音声レベル調整手段に与える非線形処理部をさ
    らに備えたことを特徴とする請求項1〜9のいずれかに
    記載の音声認識装置。
  11. 【請求項11】 デジタル音声信号を入力するステップ
    と、 音声区間内の一部の時間内の前記入力されたデジタル音
    声信号に基づいて前記音声区間の音声レベルを推定する
    ステップと、 前記推定された音声レベルおよび予め設定された目標レ
    ベルに基づいて前記音声区間のデジタル音声信号のレベ
    ルを調整するステップと、 前記調整されたデジタル音声信号に基づいて音声認識を
    行うステップとを備えたことを特徴とする音声認識方
    法。
  12. 【請求項12】 前記音声レベルを推定するステップ
    は、 前記音声区間内の最初の所定時間内のデジタル音声信号
    に基づいて前記音声区間の音声レベルを推定することを
    含むことを特徴とする請求項11記載の音声認識方法。
  13. 【請求項13】 前記音声レベルを推定するステップ
    は、 前記音声区間内の最初の所定時間内のデジタル音声信号
    の平均値を前記音声区間の音声レベルとして推定するこ
    とを含むことを特徴とする請求項12記載の音声認識方
    法。
  14. 【請求項14】 前記デジタル音声信号のレベルを調整
    するステップは、 前記予め設定された目標レベルと前記推定される音声レ
    ベルとの比により定まる増幅率で前記音声区間のデジタ
    ル音声信号のレベルを増幅または減衰させることを含む
    こと特徴とする請求項11〜13のいずれかに記載の音
    声認識方法。
  15. 【請求項15】 前記音声区間のデジタル音声信号が前
    記推定される音声レベルとともに同期して前記デジタル
    音声信号のレベルを調整するステップに与えられるよう
    に前記デジタル音声信号を遅延させるステップをさらに
    備えたことを特徴とする請求項11〜14のいずれかに
    記載の音声認識方法。
  16. 【請求項16】 前記音声レベルを推定するステップ
    は、 前記音声区間のデジタル音声信号の開始点を検出するス
    テップと、 前記音声区間内の最初の所定時間内のデジタル音声信号
    に基づいて前記音声区間の音声レベルを推定するステッ
    プと、 前記推定された音声レベルを保持するステップと、 前記デジタル音声信号の開始点の検出に応答して前記音
    声区間のデジタル音声信号を蓄積するとともに蓄積され
    た前記音声区間のデジタル音声信号を前記保持された音
    声レベルと同期させて出力するステップとを含むことを
    特徴とする請求項11〜15のいずれかに記載の音声認
    識方法。
  17. 【請求項17】 前記蓄積するステップは、 前記音声区間のデジタル音声信号を第1および第2のバ
    ッファに交互に蓄積するとともに蓄積された前記音声区
    間のデジタル音声信号を第1および第2のバッファから
    交互に出力するステップを含むことを特徴とする請求項
    16記載の音声認識方法。
  18. 【請求項18】 前記音声認識を行うステップは、音声
    認識結果を前記デジタル音声信号のレベルを調整するス
    テップに帰還させることを含み、 前記デジタル音声信号のレベルを調整するステップは、
    前記帰還された音声認識結果に基づいて前記音声レベル
    の調整程度を変更することを含むことを特徴とする請求
    項11〜17のいずれかに記載の音声認識方法。
  19. 【請求項19】 前記デジタル音声信号のレベルを調整
    するステップは、前記音声認識が不可能な場合に前記音
    声レベルの増幅率を上昇させることを含むことを特徴と
    する請求項18記載の音声認識方法。
  20. 【請求項20】 前記推定された音声レベルが予め定め
    られた範囲内にある場合に前記デジタル音声信号のレベ
    ルを調整することを不能動化し、前記推定された音声レ
    ベルが予め定められた範囲内にない場合に前記調整する
    ステップを能動化するとともに前記推定された音声レベ
    ルを前記予め定められた範囲内の音声レベルに変更して
    変更された音声レベルを前記デジタル音声信号のレベル
    を調整するために用いるステップをさらに備えたことを
    特徴とする請求項11〜19のいずれかに記載の音声認
    識方法。
  21. 【請求項21】 コンピュータ読み取り可能な音声認識
    プログラムであって、 デジタル音声信号を入力する処理と、 前記入力される音声区間内の一部の時間内のデジタル音
    声信号に基づいて前記音声区間の音声レベルを推定する
    処理と、 前記推定された音声レベルおよび予め設定された目標レ
    ベルに基づいて前記入力される前記音声区間のデジタル
    音声信号のレベルを調整する処理と、 前記調整されたデジタル音声信号に基づいて音声認識を
    行う処理とを、 前記コンピュータに実行させることを特徴とする音声認
    識プログラム。
JP2001203754A 2000-07-10 2001-07-04 音声認識装置および音声認識方法 Expired - Fee Related JP4880136B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2001203754A JP4880136B2 (ja) 2000-07-10 2001-07-04 音声認識装置および音声認識方法
US10/069,530 US20020173957A1 (en) 2000-07-10 2001-07-09 Speech recognizer, method for recognizing speech and speech recognition program
DE60122893T DE60122893T2 (de) 2000-07-10 2001-07-09 Verfahren, vorrichtung und programm zur sprecherkennung
PCT/JP2001/005950 WO2002005266A1 (fr) 2000-07-10 2001-07-09 Systeme de reconnaissance de la parole, procede de reconnaissance de la parole et programme de reconnaissance de la parole
CNB018019633A CN1227647C (zh) 2000-07-10 2001-07-09 语音识别装置和语音识别方法
KR10-2002-7003193A KR100482477B1 (ko) 2000-07-10 2001-07-09 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체
EP01947936A EP1300832B1 (en) 2000-07-10 2001-07-09 Speech recognizer, method for recognizing speech and speech recognition program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2000208083 2000-07-10
JP2000208083 2000-07-10
JP2000-208083 2000-07-10
JP2001203754A JP4880136B2 (ja) 2000-07-10 2001-07-04 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JP2002091487A true JP2002091487A (ja) 2002-03-27
JP4880136B2 JP4880136B2 (ja) 2012-02-22

Family

ID=26595685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001203754A Expired - Fee Related JP4880136B2 (ja) 2000-07-10 2001-07-04 音声認識装置および音声認識方法

Country Status (7)

Country Link
US (1) US20020173957A1 (ja)
EP (1) EP1300832B1 (ja)
JP (1) JP4880136B2 (ja)
KR (1) KR100482477B1 (ja)
CN (1) CN1227647C (ja)
DE (1) DE60122893T2 (ja)
WO (1) WO2002005266A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005121786A (ja) * 2003-10-15 2005-05-12 National Institute Of Information & Communication Technology 音声レベル自動補正装置
KR100720337B1 (ko) 2005-09-06 2007-05-22 한국과학기술연구원 비선형 증폭기를 이용한 음성처리 시스템
US9503041B1 (en) 2015-05-11 2016-11-22 Hyundai Motor Company Automatic gain control module, method for controlling the same, vehicle including the automatic gain control module, and method for controlling the vehicle

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
JP3815388B2 (ja) * 2002-06-25 2006-08-30 株式会社デンソー 音声認識システムおよび端末
US7925510B2 (en) * 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
KR100705563B1 (ko) * 2004-12-07 2007-04-10 삼성전자주식회사 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
US20080015104A1 (en) 2006-07-13 2008-01-17 Unimin Corporation Ultrafine nepheline syenite
KR20080078458A (ko) * 2007-02-23 2008-08-27 이선일 음성 인식 회로
JP5259622B2 (ja) * 2007-12-10 2013-08-07 パナソニック株式会社 収音装置、収音方法、収音プログラム、および集積回路

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223499A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素認識装置
JPS6016200A (ja) * 1983-07-08 1985-01-26 池田 栄子 栄養群別カロリ−表示販売システム
JPH06337697A (ja) * 1993-05-31 1994-12-06 Sanyo Electric Co Ltd 音声認識装置
JPH08115098A (ja) * 1994-10-18 1996-05-07 Hitachi Microcomput Syst Ltd 音声編集方法および装置
JP2500761Y2 (ja) * 1994-03-30 1996-06-12 株式会社アルファ 音声認識装置
JPH10198397A (ja) * 1997-01-08 1998-07-31 Meidensha Corp 音声認識処理装置および音声認識処理方法
JPH11126093A (ja) * 1997-10-24 1999-05-11 Hitachi Eng & Service Co Ltd 音声入力調整方法および音声入力システム
JPH11212595A (ja) * 1998-01-23 1999-08-06 Olympus Optical Co Ltd 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6016200U (ja) * 1983-07-12 1985-02-02 カシオ計算機株式会社 音声認識装置に於けるリミツタアンプ
JPS6262399A (ja) * 1985-09-13 1987-03-19 株式会社日立製作所 音声高能率符号化方式
JPS63316097A (ja) * 1987-06-19 1988-12-23 日本電気株式会社 連続音声認識装置
JP2969862B2 (ja) * 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223499A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素認識装置
JPS6016200A (ja) * 1983-07-08 1985-01-26 池田 栄子 栄養群別カロリ−表示販売システム
JPH06337697A (ja) * 1993-05-31 1994-12-06 Sanyo Electric Co Ltd 音声認識装置
JP2500761Y2 (ja) * 1994-03-30 1996-06-12 株式会社アルファ 音声認識装置
JPH08115098A (ja) * 1994-10-18 1996-05-07 Hitachi Microcomput Syst Ltd 音声編集方法および装置
JPH10198397A (ja) * 1997-01-08 1998-07-31 Meidensha Corp 音声認識処理装置および音声認識処理方法
JPH11126093A (ja) * 1997-10-24 1999-05-11 Hitachi Eng & Service Co Ltd 音声入力調整方法および音声入力システム
JPH11212595A (ja) * 1998-01-23 1999-08-06 Olympus Optical Co Ltd 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005121786A (ja) * 2003-10-15 2005-05-12 National Institute Of Information & Communication Technology 音声レベル自動補正装置
JP4552064B2 (ja) * 2003-10-15 2010-09-29 独立行政法人情報通信研究機構 音声レベル自動補正装置
KR100720337B1 (ko) 2005-09-06 2007-05-22 한국과학기술연구원 비선형 증폭기를 이용한 음성처리 시스템
US9503041B1 (en) 2015-05-11 2016-11-22 Hyundai Motor Company Automatic gain control module, method for controlling the same, vehicle including the automatic gain control module, and method for controlling the vehicle

Also Published As

Publication number Publication date
DE60122893T2 (de) 2007-03-15
EP1300832B1 (en) 2006-09-06
EP1300832A4 (en) 2005-07-20
KR100482477B1 (ko) 2005-04-14
CN1386265A (zh) 2002-12-18
US20020173957A1 (en) 2002-11-21
CN1227647C (zh) 2005-11-16
DE60122893D1 (de) 2006-10-19
WO2002005266A1 (fr) 2002-01-17
KR20020033791A (ko) 2002-05-07
EP1300832A1 (en) 2003-04-09
JP4880136B2 (ja) 2012-02-22

Similar Documents

Publication Publication Date Title
US10579327B2 (en) Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold
WO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
EP2592546B1 (en) Automatic Gain Control in a multi-talker audio system
US20190005962A1 (en) Speaker identification
US20200075028A1 (en) Speaker recognition and speaker change detection
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
JP5716595B2 (ja) 音声補正装置、音声補正方法及び音声補正プログラム
US7797157B2 (en) Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances
JP4880136B2 (ja) 音声認識装置および音声認識方法
CN110660408B (zh) 一种数字自动控制增益的方法和装置
US9754606B2 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JPH08185196A (ja) 音声区間検出装置
JP7151724B2 (ja) 制御処理装置および制御処理方法、並びにプログラム
JP4548953B2 (ja) 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
WO2023006107A1 (zh) 语音交互系统的自动增益控制方法、装置及系统
JP3378672B2 (ja) 話速変換装置
JP3373933B2 (ja) 話速変換装置
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
CN112669872B (zh) 一种音频数据的增益方法及装置
US11776538B1 (en) Signal processing
US20120155656A1 (en) Audio-Signal Processing Apparatus and Method, and Program
US11348596B2 (en) Voice processing method for processing voice signal representing voice, voice processing device for processing voice signal representing voice, and recording medium storing program for processing voice signal representing voice
JPH08147874A (ja) 話速変換装置
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111201

R150 Certificate of patent or registration of utility model

Ref document number: 4880136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees