JPH02189600A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH02189600A JPH02189600A JP1020389A JP1020389A JPH02189600A JP H02189600 A JPH02189600 A JP H02189600A JP 1020389 A JP1020389 A JP 1020389A JP 1020389 A JP1020389 A JP 1020389A JP H02189600 A JPH02189600 A JP H02189600A
- Authority
- JP
- Japan
- Prior art keywords
- gain
- maximum value
- converter
- ratio
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(イ)産業上の利用分野
本発明は音声入力手段及び音声分析手段を備えた音声認
識装置に関するものである。
識装置に関するものである。
c口)従来の技術
従来から一般の音声gT!識装置には、入力される音声
の音圧の変動に対応するため、AGC(自動利得制gI
I)回路が用いられることが多い。
の音圧の変動に対応するため、AGC(自動利得制gI
I)回路が用いられることが多い。
第3図に音声分析後にAGC回路を用いた従来の音声認
識装置の一実施例を示す。マイクロフォン11より入力
された音声は、増幅512で振幅が飽和しない程度に増
幅され、音声分析部13で分析されろう ■声分析部13は通貨帯域が異なる15のバントハスフ
ィルタ郡と該各バンドパスフィルタの出力を順次選択出
力するマルチプレクサとからなるフィルタバンク方式の
音声特徴抽出機能を備えている。該音声分析部13で分
析された音声は、可変利得増幅器】4で増幅された後、
A/D変換部15で10ms程度のフレーム周期でスペ
クトルのデジタルデータに変換され、フレームバッファ
16に格納される。
識装置の一実施例を示す。マイクロフォン11より入力
された音声は、増幅512で振幅が飽和しない程度に増
幅され、音声分析部13で分析されろう ■声分析部13は通貨帯域が異なる15のバントハスフ
ィルタ郡と該各バンドパスフィルタの出力を順次選択出
力するマルチプレクサとからなるフィルタバンク方式の
音声特徴抽出機能を備えている。該音声分析部13で分
析された音声は、可変利得増幅器】4で増幅された後、
A/D変換部15で10ms程度のフレーム周期でスペ
クトルのデジタルデータに変換され、フレームバッファ
16に格納される。
この時のA/D変換部15でのA/D変換処理は、分析
部13から得られる音声のスペクトル(この場合は、l
サンプルにつきバンドパスフィルタの数と等しい15本
のスペクトル)が最適レベルとなるように可変利得増幅
器14の利得が動的に設定される。
部13から得られる音声のスペクトル(この場合は、l
サンプルにつきバンドパスフィルタの数と等しい15本
のスペクトル)が最適レベルとなるように可変利得増幅
器14の利得が動的に設定される。
このような従来のA/D変換処理を以下に説明する。始
め、可変利得増幅器14の利得は最大利得に設定されて
おり、分析部13で各バンドパスフィルタからの15の
スペクトル出力の内、マルチプレクサは第1のスペクト
ルを選択し、A/D変換する。この時A / D変換さ
れた値が、変換の最大値(8ビツトのA/Dの時、25
5)となっていれば、可変利得増幅器14の利得を1ス
テツプ落としてA 、、’ D変換し、そうでなければ
、次の第2のスペクトルの選択出力処理に移行する。
め、可変利得増幅器14の利得は最大利得に設定されて
おり、分析部13で各バンドパスフィルタからの15の
スペクトル出力の内、マルチプレクサは第1のスペクト
ルを選択し、A/D変換する。この時A / D変換さ
れた値が、変換の最大値(8ビツトのA/Dの時、25
5)となっていれば、可変利得増幅器14の利得を1ス
テツプ落としてA 、、’ D変換し、そうでなければ
、次の第2のスペクトルの選択出力処理に移行する。
以上を第1のスペクトルから第15のスペクトルまで順
に行ない、最後に設定された利得がそのフレームの利得
として設定される。
に行ない、最後に設定された利得がそのフレームの利得
として設定される。
このようにして、フレーム周期ごとのスペクトル時系列
を得て、DPマツチングなどのバタンマツチング法によ
り、識別処理が行なわれる。
を得て、DPマツチングなどのバタンマツチング法によ
り、識別処理が行なわれる。
(ハ)発明が射流しようとする課題
上述の如くスペクトルが最適レベルとなるように可変利
得増幅器の利得を設定しながらA/D変換を行なう場合
、従来は、初期状態において可変fl+得増幅器の利得
を最大利得に設定し、A/D変換された値が変換の最大
値となっていれば可変利得増幅器の利得を1ステツプ落
としてA/D変換していた。
得増幅器の利得を設定しながらA/D変換を行なう場合
、従来は、初期状態において可変fl+得増幅器の利得
を最大利得に設定し、A/D変換された値が変換の最大
値となっていれば可変利得増幅器の利得を1ステツプ落
としてA/D変換していた。
しかしこの方法では、実際の入力値がどの程度の大きさ
であるか判断できないので、−度にまとめて利j()を
落とすことは不可能であり、】ステップずつ利得を落と
していかなければならない為に迅速に適正な利得設定が
行えないという不都合かあ・った。
であるか判断できないので、−度にまとめて利j()を
落とすことは不可能であり、】ステップずつ利得を落と
していかなければならない為に迅速に適正な利得設定が
行えないという不都合かあ・った。
(ニ)課題を解決するための手段
本発明の音声認識装置は、スペクトルが最適レベルとな
るように可変利得増幅器の利得を設定するとき、A/D
変換器の複数出力の中の最大値を求める手段と、該最大
値とA 、/ D変換器の最大出力との比を求める手段
と、初期利得を該比率に応じて増大する手段を設け、予
め可変利得増幅器の初期利得を小さな値に設定しておき
、複数のA/D変換出力の最大値とA/D変換器の最大
出力との比率に応じて初期利得を増大させる事により、
入力音声に最適な利得を設定するものである。
るように可変利得増幅器の利得を設定するとき、A/D
変換器の複数出力の中の最大値を求める手段と、該最大
値とA 、/ D変換器の最大出力との比を求める手段
と、初期利得を該比率に応じて増大する手段を設け、予
め可変利得増幅器の初期利得を小さな値に設定しておき
、複数のA/D変換出力の最大値とA/D変換器の最大
出力との比率に応じて初期利得を増大させる事により、
入力音声に最適な利得を設定するものである。
また、A/D変換器の複数出力の中の最大値を出力した
マルチプレクサの設定位置を記憶する手段を設け、可変
利得増幅器の利得を増加させながら、該設定位置での値
を監視することにより、最適な利得を設定することも可
能である。
マルチプレクサの設定位置を記憶する手段を設け、可変
利得増幅器の利得を増加させながら、該設定位置での値
を監視することにより、最適な利得を設定することも可
能である。
(ホ)作用
本発明によれば、スペクトルが最適レベルとなるように
可変利得増幅器の利得を設定する時に、A 、/ D変
換器の複数出力の中の最大値とA/D変換器の最大出力
との比を求め、初期利得を該比率に応じて増大させるこ
とにより、最適情報のデジタル出力を得るまでに実際に
A/D変換を行なう回数が従来よりも削減でき、迅速な
利得制御が可能となる。
可変利得増幅器の利得を設定する時に、A 、/ D変
換器の複数出力の中の最大値とA/D変換器の最大出力
との比を求め、初期利得を該比率に応じて増大させるこ
とにより、最適情報のデジタル出力を得るまでに実際に
A/D変換を行なう回数が従来よりも削減でき、迅速な
利得制御が可能となる。
(へ)実施例
第1図に本発明の音声認識装置の一実施例の構成を示す
。
。
同図の音声認識装置は、マイクロフォン31より入力さ
れた音声は、増幅532で振幅が飽和しない程度に増幅
され、音声分析部33で分析される。この音声分析部3
3の具体例を第2図の構成図に示す。同図に於て、21
1.2115は、15チヤネルのバンドパスフィルタ(
BPF)で音声を15の周波数帯域に分割している。2
21゜2215は整流回路(DET)、231.231
5は、ローパスフィルタ(L P F )で、BPF各
出力出力絡を検出している。また、LPFI、LPFI
5の出力は、それぞれアナログマルチプレクサ(M P
X )の入力1、入力15に接続されている。
れた音声は、増幅532で振幅が飽和しない程度に増幅
され、音声分析部33で分析される。この音声分析部3
3の具体例を第2図の構成図に示す。同図に於て、21
1.2115は、15チヤネルのバンドパスフィルタ(
BPF)で音声を15の周波数帯域に分割している。2
21゜2215は整流回路(DET)、231.231
5は、ローパスフィルタ(L P F )で、BPF各
出力出力絡を検出している。また、LPFI、LPFI
5の出力は、それぞれアナログマルチプレクサ(M P
X )の入力1、入力15に接続されている。
第1図の可変利得増幅器34は、音声分析部33の出力
を増幅し、A/D変換部35に送る。A、/ l) 変
換部35は、フレームバッファ36の各チャネルの取り
込みごとに、最初に音声分析部33のアナログマルチプ
レクサ(MPX)に対して4ビツトのMI)X選択制御
信号CIを送り、変換するチャネルを選択する。
を増幅し、A/D変換部35に送る。A、/ l) 変
換部35は、フレームバッファ36の各チャネルの取り
込みごとに、最初に音声分析部33のアナログマルチプ
レクサ(MPX)に対して4ビツトのMI)X選択制御
信号CIを送り、変換するチャネルを選択する。
次に最大値検出部301はフレームバッファ36の各チ
ャネルのJh大値を検出し、比率計算部302において
A/D変換の最大値(8ビツトのA2′Dであれば、2
55)との比率を計算する。この比率をらとに、初期利
得記憶部303に記憶しである初期利得を用いて、利得
決定部304において最適利得を決定し、利得制御信号
C2を可変利得増幅器31に送り、最適利得を設定する
。
ャネルのJh大値を検出し、比率計算部302において
A/D変換の最大値(8ビツトのA2′Dであれば、2
55)との比率を計算する。この比率をらとに、初期利
得記憶部303に記憶しである初期利得を用いて、利得
決定部304において最適利得を決定し、利得制御信号
C2を可変利得増幅器31に送り、最適利得を設定する
。
第4図に、初期利得でのA /’ D変換器出力の最大
値Xが本発明によって最適利得Y/Xとなった場合のA
、” D変換器の最大出力レベルYまで増大される例
を示す。即ち、第4図(a)の初期利得でのA 、、/
’ D出力に対して、比率計算部302、及び利得決定
部304の動作により得られた最適利得Y 、/ Xに
従って、第4図(b)の最適利得でのA/D出力が得ら
れる。
値Xが本発明によって最適利得Y/Xとなった場合のA
、” D変換器の最大出力レベルYまで増大される例
を示す。即ち、第4図(a)の初期利得でのA 、、/
’ D出力に対して、比率計算部302、及び利得決定
部304の動作により得られた最適利得Y 、/ Xに
従って、第4図(b)の最適利得でのA/D出力が得ら
れる。
このようにして、最適レベルでA/D変換されたスペク
トルは、フレームバッファ36に格納された後に、10
msのフレーム周期でパワー正規化されて入力り声バタ
ンバッファ37に格納される。バタンマツチング部38
は、入力音声バタンバ/ファ37の入力音声バタンと標
準音声バタンメモリ39内の標準音声バタンとでバタン
マツチングを行い、最も距離の小さい標準音声バタンを
算出し、認識語を決定する。この時、バタンマツチング
は、一般にDPマツチングが用いられる。
トルは、フレームバッファ36に格納された後に、10
msのフレーム周期でパワー正規化されて入力り声バタ
ンバッファ37に格納される。バタンマツチング部38
は、入力音声バタンバ/ファ37の入力音声バタンと標
準音声バタンメモリ39内の標準音声バタンとでバタン
マツチングを行い、最も距離の小さい標準音声バタンを
算出し、認識語を決定する。この時、バタンマツチング
は、一般にDPマツチングが用いられる。
(ト)発明の効果
以−1−の説明から明らかな如く、本発明の音声認識装
置によれば、A/D変換器の複数出力の中の最大値とA
、y’ D変換器の最大出力との比を求め、初期利得
を該比率に応じて増大させることによりスペクトルが最
適レベルとなるように可変利得増幅器の利得を設定する
ことができ、A/D変換器の変換ビット暗度を最適にし
てスペクトルデータの抽出が高lit度に行なえる。従
って、最適利得を求めるまでに行われるA/D変換処理
の回数を従来よりも削減できるので全体の処理時間が短
くなり、より高速で高情度な音声認識装置が実現できる
。
置によれば、A/D変換器の複数出力の中の最大値とA
、y’ D変換器の最大出力との比を求め、初期利得
を該比率に応じて増大させることによりスペクトルが最
適レベルとなるように可変利得増幅器の利得を設定する
ことができ、A/D変換器の変換ビット暗度を最適にし
てスペクトルデータの抽出が高lit度に行なえる。従
って、最適利得を求めるまでに行われるA/D変換処理
の回数を従来よりも削減できるので全体の処理時間が短
くなり、より高速で高情度な音声認識装置が実現できる
。
第1図は本発明の音声Sl識装置の一実施例を示す構成
図、第2図は音声分析部の一実施例を示す構成図、第3
図は従来の音声認識装置の構成図、第1図は可変利得増
幅器の利得を最適に設定したときのA 、、/ D変換
器出力の変化を示す模式図である。 31・・マイクロホン、32・・増幅器、33・・音声
分析部、34・・可変利得増幅器、35・A/D変換部
、36・・フレームバッファ、37・・入力音声バタン
バッファ、38・・バタンマツチング部、39・・標準
音声バタンメモリ、301・・最大値検出部、302・
・比率計算部、303・・初期利得記憶部、304・最
適利得決定部。
図、第2図は音声分析部の一実施例を示す構成図、第3
図は従来の音声認識装置の構成図、第1図は可変利得増
幅器の利得を最適に設定したときのA 、、/ D変換
器出力の変化を示す模式図である。 31・・マイクロホン、32・・増幅器、33・・音声
分析部、34・・可変利得増幅器、35・A/D変換部
、36・・フレームバッファ、37・・入力音声バタン
バッファ、38・・バタンマツチング部、39・・標準
音声バタンメモリ、301・・最大値検出部、302・
・比率計算部、303・・初期利得記憶部、304・最
適利得決定部。
Claims (2)
- (1)音声入力手段と音声分析手段を備えた音声認識装
置において、該音声分析手段の複数の出力を選択出力す
るマルチプレクサ、該マルチプレクサの出力を増幅、或
いは減衰せしめるために利得を段階的に設定可能な可変
利得増幅器、該可変利得増幅器の初期利得を記憶する手
段、該可変利得増幅器の出力をデジタル信号に変換する
A/D変換器、該A/D変換器で選択的にA/D変換さ
れた複数の出力の中の最大値を検出する最大値検出手段
、該最大値手段から得られる最大値と上記A/D変換器
の最大出力との比率を求める比率検出手段、初期利得を
該比率検出手段から得られる比率に応じて増大する利得
制御手段を設け、 上記可変利得増幅器の初期利得を予じめ小さな値に設定
しておき、複数のA/D変換出力の最大値とA/D変換
器の最大出力との比率に応じて初期利得を増大させるこ
とにより、入力音声に最適な利得を設定する事を特徴と
する音声認識装置。 - (2)上記A/D変換された複数の出力の中の最大値を
出力した時の上記マルチプレクサの選択位置を記憶して
おく選択位置記憶手段を設け、予め可変利得増幅器の初
期利得を小さな値に設定しておき、複数のA/D変換出
力の最大値と該最大値を出力した上記マルチプレクサの
選択位置を記憶し、マルチプレクサの選択位置を該選択
位置記憶手段に記憶された位置に固定し、該選択位置で
のA/D変換出力の最大値がA/D変換器の最大出力を
越えない範囲で最大となるように可変利得増幅器の利得
を増加させ、所望の最大値が得られた時点で音声の分析
によって得られた複数のA/D変換値を該可変利得増幅
器の利得に適応させることを特徴とした請求項1記載の
音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1020389A JPH02189600A (ja) | 1989-01-19 | 1989-01-19 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1020389A JPH02189600A (ja) | 1989-01-19 | 1989-01-19 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02189600A true JPH02189600A (ja) | 1990-07-25 |
Family
ID=11743717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1020389A Pending JPH02189600A (ja) | 1989-01-19 | 1989-01-19 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02189600A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997048182A1 (de) * | 1996-06-12 | 1997-12-18 | GÖHRUM, Angelika | Spracherkennungssystem |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57178299A (en) * | 1981-04-27 | 1982-11-02 | Kyosan Electric Mfg | Recognition pattern preparation system |
JPS63503487A (ja) * | 1986-06-02 | 1988-12-15 | ブリティシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニ | 音声処理装置 |
-
1989
- 1989-01-19 JP JP1020389A patent/JPH02189600A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57178299A (en) * | 1981-04-27 | 1982-11-02 | Kyosan Electric Mfg | Recognition pattern preparation system |
JPS63503487A (ja) * | 1986-06-02 | 1988-12-15 | ブリティシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニ | 音声処理装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997048182A1 (de) * | 1996-06-12 | 1997-12-18 | GÖHRUM, Angelika | Spracherkennungssystem |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2561850B2 (ja) | 音声処理装置 | |
US4633499A (en) | Speech recognition system | |
US5056150A (en) | Method and apparatus for real time speech recognition with and without speaker dependency | |
US20010029449A1 (en) | Apparatus and method for recognizing voice with reduced sensitivity to ambient noise | |
US6032115A (en) | Apparatus and method for correcting the difference in frequency characteristics between microphones for analyzing speech and for creating a recognition dictionary | |
US6768801B1 (en) | Hearing aid having improved speech intelligibility due to frequency-selective signal processing, and method for operating same | |
JPH02189600A (ja) | 音声認識装置 | |
JPS6257040B2 (ja) | ||
KR100906676B1 (ko) | 지능형 로봇의 음성인식장치 및 방법 | |
JPH05224694A (ja) | 音声認識装置 | |
JPH04369697A (ja) | 音声認識装置 | |
JPH0664478B2 (ja) | パターン認識装置 | |
JPS6169296A (ja) | 音声入力回路 | |
JP2001117585A (ja) | 音声認識方法及び装置 | |
JPS6334477B2 (ja) | ||
JPH0573090A (ja) | 音声認識方法 | |
JP2000112500A (ja) | 音声入力レベル調整装置 | |
JPS6172299A (ja) | 音声認識装置 | |
JPH0136640B2 (ja) | ||
JPS62272300A (ja) | 音声認識装置 | |
JPS62172400A (ja) | 音声認識装置 | |
JPH06222788A (ja) | 音声認識装置 | |
JPS6344239B2 (ja) | ||
JPS6130280B2 (ja) | ||
JPH03122700A (ja) | 音声認識装置 |