JPH02189600A

JPH02189600A - 音声認識装置

Info

Publication number: JPH02189600A
Application number: JP1020389A
Authority: JP
Inventors: Shoichi Kamei; 亀井　正一
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1989-01-19
Filing date: 1989-01-19
Publication date: 1990-07-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）産業上の利用分野本発明は音声入力手段及び音声分析手段を備えた音声認
識装置に関するものである。

ｃ口）従来の技術従来から一般の音声ｇＴ！識装置には、入力される音声
の音圧の変動に対応するため、ＡＧＣ（自動利得制ｇＩ
Ｉ）回路が用いられることが多い。

第３図に音声分析後にＡＧＣ回路を用いた従来の音声認
識装置の一実施例を示す。マイクロフォン１１より入力
された音声は、増幅５１２で振幅が飽和しない程度に増
幅され、音声分析部１３で分析されろう ■声分析部１３は通貨帯域が異なる１５のバントハスフ
ィルタ郡と該各バンドパスフィルタの出力を順次選択出
力するマルチプレクサとからなるフィルタバンク方式の
音声特徴抽出機能を備えている。該音声分析部１３で分
析された音声は、可変利得増幅器】４で増幅された後、
Ａ／Ｄ変換部１５で１０ｍｓ程度のフレーム周期でスペ
クトルのデジタルデータに変換され、フレームバッファ
１６に格納される。

この時のＡ／Ｄ変換部１５でのＡ／Ｄ変換処理は、分析
部１３から得られる音声のスペクトル（この場合は、ｌ
サンプルにつきバンドパスフィルタの数と等しい１５本
のスペクトル）が最適レベルとなるように可変利得増幅
器１４の利得が動的に設定される。

このような従来のＡ／Ｄ変換処理を以下に説明する。始
め、可変利得増幅器１４の利得は最大利得に設定されて
おり、分析部１３で各バンドパスフィルタからの１５の
スペクトル出力の内、マルチプレクサは第１のスペクト
ルを選択し、Ａ／Ｄ変換する。この時Ａ　／　Ｄ変換さ
れた値が、変換の最大値（８ビツトのＡ／Ｄの時、２５
５）となっていれば、可変利得増幅器１４の利得を１ス
テツプ落としてＡ　、、’　Ｄ変換し、そうでなければ
、次の第２のスペクトルの選択出力処理に移行する。

以上を第１のスペクトルから第１５のスペクトルまで順
に行ない、最後に設定された利得がそのフレームの利得
として設定される。

このようにして、フレーム周期ごとのスペクトル時系列
を得て、ＤＰマツチングなどのバタンマツチング法によ
り、識別処理が行なわれる。

（ハ）発明が射流しようとする課題上述の如くスペクトルが最適レベルとなるように可変利
得増幅器の利得を設定しながらＡ／Ｄ変換を行なう場合
、従来は、初期状態において可変ｆｌ＋得増幅器の利得
を最大利得に設定し、Ａ／Ｄ変換された値が変換の最大
値となっていれば可変利得増幅器の利得を１ステツプ落
としてＡ／Ｄ変換していた。

しかしこの方法では、実際の入力値がどの程度の大きさ
であるか判断できないので、−度にまとめて利ｊ（）を
落とすことは不可能であり、】ステップずつ利得を落と
していかなければならない為に迅速に適正な利得設定が
行えないという不都合かあ・った。

（ニ）課題を解決するための手段本発明の音声認識装置は、スペクトルが最適レベルとな
るように可変利得増幅器の利得を設定するとき、Ａ／Ｄ
変換器の複数出力の中の最大値を求める手段と、該最大
値とＡ　、／　Ｄ変換器の最大出力との比を求める手段
と、初期利得を該比率に応じて増大する手段を設け、予
め可変利得増幅器の初期利得を小さな値に設定しておき
、複数のＡ／Ｄ変換出力の最大値とＡ／Ｄ変換器の最大
出力との比率に応じて初期利得を増大させる事により、
入力音声に最適な利得を設定するものである。

また、Ａ／Ｄ変換器の複数出力の中の最大値を出力した
マルチプレクサの設定位置を記憶する手段を設け、可変
利得増幅器の利得を増加させながら、該設定位置での値
を監視することにより、最適な利得を設定することも可
能である。

（ホ）作用本発明によれば、スペクトルが最適レベルとなるように
可変利得増幅器の利得を設定する時に、Ａ　、／　Ｄ変
換器の複数出力の中の最大値とＡ／Ｄ変換器の最大出力
との比を求め、初期利得を該比率に応じて増大させるこ
とにより、最適情報のデジタル出力を得るまでに実際に
Ａ／Ｄ変換を行なう回数が従来よりも削減でき、迅速な
利得制御が可能となる。

（へ）実施例第１図に本発明の音声認識装置の一実施例の構成を示す
。

同図の音声認識装置は、マイクロフォン３１より入力さ
れた音声は、増幅５３２で振幅が飽和しない程度に増幅
され、音声分析部３３で分析される。この音声分析部３
３の具体例を第２図の構成図に示す。同図に於て、２１
１．２１１５は、１５チヤネルのバンドパスフィルタ（
ＢＰＦ）で音声を１５の周波数帯域に分割している。２
２１゜２２１５は整流回路（ＤＥＴ）、２３１．２３１
５は、ローパスフィルタ（Ｌ　Ｐ　Ｆ　）で、ＢＰＦ各
出力出力絡を検出している。また、ＬＰＦＩ、ＬＰＦＩ
５の出力は、それぞれアナログマルチプレクサ（Ｍ　Ｐ
　Ｘ　）の入力１、入力１５に接続されている。

第１図の可変利得増幅器３４は、音声分析部３３の出力
を増幅し、Ａ／Ｄ変換部３５に送る。Ａ、／　ｌ）　変
換部３５は、フレームバッファ３６の各チャネルの取り
込みごとに、最初に音声分析部３３のアナログマルチプ
レクサ（ＭＰＸ）に対して４ビツトのＭＩ）Ｘ選択制御
信号ＣＩを送り、変換するチャネルを選択する。

次に最大値検出部３０１はフレームバッファ３６の各チ
ャネルのＪｈ大値を検出し、比率計算部３０２において
Ａ／Ｄ変換の最大値（８ビツトのＡ２′Ｄであれば、２
５５）との比率を計算する。この比率をらとに、初期利
得記憶部３０３に記憶しである初期利得を用いて、利得
決定部３０４において最適利得を決定し、利得制御信号
Ｃ２を可変利得増幅器３１に送り、最適利得を設定する
。

第４図に、初期利得でのＡ　／’　Ｄ変換器出力の最大
値Ｘが本発明によって最適利得Ｙ／Ｘとなった場合のＡ
　、”　Ｄ変換器の最大出力レベルＹまで増大される例
を示す。即ち、第４図（ａ）の初期利得でのＡ　、、／
’　Ｄ出力に対して、比率計算部３０２、及び利得決定
部３０４の動作により得られた最適利得Ｙ　、／　Ｘに
従って、第４図（ｂ）の最適利得でのＡ／Ｄ出力が得ら
れる。

このようにして、最適レベルでＡ／Ｄ変換されたスペク
トルは、フレームバッファ３６に格納された後に、１０
ｍｓのフレーム周期でパワー正規化されて入力り声バタ
ンバッファ３７に格納される。バタンマツチング部３８
は、入力音声バタンバ／ファ３７の入力音声バタンと標
準音声バタンメモリ３９内の標準音声バタンとでバタン
マツチングを行い、最も距離の小さい標準音声バタンを
算出し、認識語を決定する。この時、バタンマツチング
は、一般にＤＰマツチングが用いられる。

（ト）発明の効果以−１−の説明から明らかな如く、本発明の音声認識装
置によれば、Ａ／Ｄ変換器の複数出力の中の最大値とＡ
　、ｙ’　Ｄ変換器の最大出力との比を求め、初期利得
を該比率に応じて増大させることによりスペクトルが最
適レベルとなるように可変利得増幅器の利得を設定する
ことができ、Ａ／Ｄ変換器の変換ビット暗度を最適にし
てスペクトルデータの抽出が高ｌｉｔ度に行なえる。従
って、最適利得を求めるまでに行われるＡ／Ｄ変換処理
の回数を従来よりも削減できるので全体の処理時間が短
くなり、より高速で高情度な音声認識装置が実現できる
。

【図面の簡単な説明】

第１図は本発明の音声Ｓｌ識装置の一実施例を示す構成
図、第２図は音声分析部の一実施例を示す構成図、第３
図は従来の音声認識装置の構成図、第１図は可変利得増
幅器の利得を最適に設定したときのＡ　、、／　Ｄ変換
器出力の変化を示す模式図である。３１・・マイクロホン、３２・・増幅器、３３・・音声
分析部、３４・・可変利得増幅器、３５・Ａ／Ｄ変換部
、３６・・フレームバッファ、３７・・入力音声バタン
バッファ、３８・・バタンマツチング部、３９・・標準
音声バタンメモリ、３０１・・最大値検出部、３０２・
・比率計算部、３０３・・初期利得記憶部、３０４・最
適利得決定部。

Claims

【特許請求の範囲】

（１）音声入力手段と音声分析手段を備えた音声認識装
置において、該音声分析手段の複数の出力を選択出力す
るマルチプレクサ、該マルチプレクサの出力を増幅、或
いは減衰せしめるために利得を段階的に設定可能な可変
利得増幅器、該可変利得増幅器の初期利得を記憶する手
段、該可変利得増幅器の出力をデジタル信号に変換する
Ａ／Ｄ変換器、該Ａ／Ｄ変換器で選択的にＡ／Ｄ変換さ
れた複数の出力の中の最大値を検出する最大値検出手段
、該最大値手段から得られる最大値と上記Ａ／Ｄ変換器
の最大出力との比率を求める比率検出手段、初期利得を
該比率検出手段から得られる比率に応じて増大する利得
制御手段を設け、上記可変利得増幅器の初期利得を予じめ小さな値に設定
しておき、複数のＡ／Ｄ変換出力の最大値とＡ／Ｄ変換
器の最大出力との比率に応じて初期利得を増大させるこ
とにより、入力音声に最適な利得を設定する事を特徴と
する音声認識装置。
（２）上記Ａ／Ｄ変換された複数の出力の中の最大値を
出力した時の上記マルチプレクサの選択位置を記憶して
おく選択位置記憶手段を設け、予め可変利得増幅器の初
期利得を小さな値に設定しておき、複数のＡ／Ｄ変換出
力の最大値と該最大値を出力した上記マルチプレクサの
選択位置を記憶し、マルチプレクサの選択位置を該選択
位置記憶手段に記憶された位置に固定し、該選択位置で
のＡ／Ｄ変換出力の最大値がＡ／Ｄ変換器の最大出力を
越えない範囲で最大となるように可変利得増幅器の利得
を増加させ、所望の最大値が得られた時点で音声の分析
によって得られた複数のＡ／Ｄ変換値を該可変利得増幅
器の利得に適応させることを特徴とした請求項１記載の
音声認識装置。