JP2975808B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2975808B2
JP2975808B2 JP5129454A JP12945493A JP2975808B2 JP 2975808 B2 JP2975808 B2 JP 2975808B2 JP 5129454 A JP5129454 A JP 5129454A JP 12945493 A JP12945493 A JP 12945493A JP 2975808 B2 JP2975808 B2 JP 2975808B2
Authority
JP
Japan
Prior art keywords
recognition
input
speech recognition
microphone
amplifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5129454A
Other languages
English (en)
Other versions
JPH06337697A (ja
Inventor
廣一 井出
俊幸 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Denki Co Ltd
Original Assignee
Sanyo Denki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Denki Co Ltd filed Critical Sanyo Denki Co Ltd
Priority to JP5129454A priority Critical patent/JP2975808B2/ja
Publication of JPH06337697A publication Critical patent/JPH06337697A/ja
Application granted granted Critical
Publication of JP2975808B2 publication Critical patent/JP2975808B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は入力手段として音声を用
いる情報機器や民生機器一般に利用できる音声認識装置
に関する。
【0002】
【従来の技術】人間の発声音は発声者ごとに異なると共
に同一発声者でも発声のたびに変動する。初期の音声認
識技術ではこれらの時間領域での変動をいかに整合させ
パターンマッチングするかの検討がなされた。さらに、
数理統計手法やニューラルネットを導入する事で周波数
・スペクトル両領域でのモデル化が行われ不特定話者の
単語単位での認識率は格段に向上してきた。
【0003】このような技術開発に伴い現在では音声認
識が手軽に行えるパーソナルソコンピュータ内蔵ボード
が多数製品化されている。
【0004】一方、民生品分野でも複雑化したAV機器
の操作の単純化の1つのアプローチとして音声入力によ
る操作入力という試みがなされており、例えば、雑誌
「テレビ技術」(’91年5月号 第38頁〜第44
頁)には音声認識技術を利用したリモートコントロール
装置が紹介されているように一部商品化されている。
【0005】一般的な音声認識に使用される回路構成例
を図2に示す。一般にはディジタル信号処理が行われる
ため、入力マイク1・アンプ系2とAD(アナログ・デ
ィジタル)変換処理部3とコンピュータやDSP(ディ
ジタル・シグナルプロセッサ)もしくは専用の音声認識
用ICで構成される認識処理部4と外部インターフェイ
ス部5に分けられる。
【0006】
【発明が解決しようとする課題】現在製品化されている
技術は上述の単語単位(ユニット)あるいはその逐次処
理の範疇のもので、この場合、予め決められた単語のみ
を認識できれば良いので切り出した音声と用意したデー
タベースをどれだけうまくマッチングさせるかで認識率
が決まる。
【0007】これは、認識のアルゴリズム上の問題と共
に周辺回路でどれほどうまく必要な音声を取り込めるの
かも重要な要素となる。
【0008】簡単のため入力音声信号が図3に示すよう
な単一周波数であるとして考える。入力が過大レベルの
場合、認識の演算部へ取り込む前のアンプ系でオーバレ
ンジとなって図4に示すとおり波形はピークがクリップ
され台形状となり高調波成分が重畳する。この過大入力
レベルでは波形自体が変わってしまっている。つまり、
認識の重要なパラメータである周波数のパターンが変わ
ってしまい認識できなくなってしまう。
【0009】上述の様な過大入力時の対応としてはレン
ジオーバとならない用に予めアンプゲインを落としてし
まうことも考えられるが、逆に過小レベルの認識率が大
幅に低下してしまう。また、入力レベルに応じてゲイン
を可変させる方法もあるが、予めある程度入力レベルが
決まっており同期信号等の基準がある映像信号と異なり
音声信号はもともと時間軸・レベルとも基準がなく、か
なりダイナミックに変動するため、この方法では危険で
ある。
【0010】そこで、本考案では音声認識結果を使って
入力部の調整を行うことで認識の精度を向上させようと
言うものである。
【0011】
【課題を解決するための手段】同一人物がマイク等に向
かって発生する場合、ある一定時間内に決められた単語
を発生する時を考えると、マイクを比較的同じ様な位置
に持ってゆき同じ様な音圧で発生することが多い。そこ
で、音声入力もレベルーオーバ等で歪む場合は連続して
発生すると考えられる。
【0012】そこで、音声認識に不成功の場合はゲイン
調整をする。この時、学習効果の有るような手法例えば
過去数回のデータを平均するなどして記憶して置くよう
にする。
【0013】
【作用】このようにすることで上述のような発声の特性
から認識率が向上していく。
【0014】
【実施例】図1に本発明の一実施例を示す。
【0015】マイク1から入力された音声はプリアンプ
2A、可変利得アンプ2Bで増幅後、AD変換器3でデ
ィジタル信号に変換されDSP4に供給される。DSP
では音声認識処理を行った後インターフェイス回路5か
ら外部機器に任意のフォーマットもしくはポートを通じ
て出力される。
【0016】ここで、認識が不成功の場合、DSP4か
らアンプゲインを調整する信号が出力され、この信号が
可変利得アンプ2Bの利得切り換え回路2Cを切り換え
る。即ち、音声認識が不成功の場合は可変利得アンプ2
Bの利得を増加せしめるように切り替える。
【0017】尚、認識の成功・不成功は確率的な問題な
ので、ゲイン調整については人間が結果をフィードバッ
クしてやる方法やDSP側で確率的に学習させる方法等
を使用するようにしても良い。
【0018】音声認識では先述の様に周波数成分が重要
なパラメータとなっており、レンジオーバの様な特徴的
な歪であれば周波数分析で有る程度の予測がつけられる
場合もあり、アルゴリズムのプログラムROMに余裕が
あればこの情報も調整時の判別要素に加えればさらに精
度は向上する。
【0019】
【発明の効果】本発明によれば音声認識の成功率の重要
な要素となるマイクアンプ部での波形歪を認識結果をフ
ィードバックすることで改善させたので、認識率を向上
させることができる。
【図面の簡単な説明】
【図1】本発明を実施した音声認識装置のブロック図で
ある。
【図2】従来の音声認識システムのブロック図である。
【図3】動作説明のための波形図である。
【図4】動作説明のための波形図である。
【符号の説明】
1 マイクロフォン 2A プリアンプ 2B 可変利得増幅器 2C 利得切り換え回路 3 AD変換器 4 デジタル・シグナルプロセッサ 5 インターフェィス回路
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/02 301 G10L 3/00 561 EPAT(QUESTEL) INSPEC(DIALOG) WPI(DIALOG)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 マイクロフォンと、このマイクロフォン
    から得られる音声信号を増幅する可変利得アンプと、こ
    のアンプから得られる出力を入力とするアナログ・ディ
    ジタル変換器と、この変換器からの出力を処理する音声
    認識処理回路とを備え、 前記音声認識処理回路における音声認識率に基づいて前
    記可変利得アンプの利得を調整するようにした音声認識
    装置。
JP5129454A 1993-05-31 1993-05-31 音声認識装置 Expired - Fee Related JP2975808B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5129454A JP2975808B2 (ja) 1993-05-31 1993-05-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5129454A JP2975808B2 (ja) 1993-05-31 1993-05-31 音声認識装置

Publications (2)

Publication Number Publication Date
JPH06337697A JPH06337697A (ja) 1994-12-06
JP2975808B2 true JP2975808B2 (ja) 1999-11-10

Family

ID=15009891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5129454A Expired - Fee Related JP2975808B2 (ja) 1993-05-31 1993-05-31 音声認識装置

Country Status (1)

Country Link
JP (1) JP2975808B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005266A1 (fr) * 2000-07-10 2002-01-17 Matsushita Electric Industrial Co., Ltd. Systeme de reconnaissance de la parole, procede de reconnaissance de la parole et programme de reconnaissance de la parole

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005266A1 (fr) * 2000-07-10 2002-01-17 Matsushita Electric Industrial Co., Ltd. Systeme de reconnaissance de la parole, procede de reconnaissance de la parole et programme de reconnaissance de la parole

Also Published As

Publication number Publication date
JPH06337697A (ja) 1994-12-06

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
US20070027686A1 (en) Error detection for speech to text transcription systems
JP2975808B2 (ja) 音声認識装置
CN116156214A (zh) 一种视频调音方法、装置、电子设备及存储介质
JPS6257040B2 (ja)
JPS6367197B2 (ja)
JP2867425B2 (ja) 音声認識用前処理装置
WO1994002936A1 (en) Voice recognition apparatus and method
CN115294990B (zh) 扩声系统检测方法、系统、终端及存储介质
JPH04369698A (ja) 音声認識方式
JPH04324499A (ja) 音声認識装置
JP2989231B2 (ja) 音声認識装置
US20230283975A1 (en) Hearing aid calibration device for semantic evaluation and method thereof
JPS6126678B2 (ja)
KR20000047295A (ko) 음성신호 가공방법 및 가공장치
JPS5914769B2 (ja) 音声機器
JPS58125099A (ja) 音声認識装置
JPS6367400B2 (ja)
JP2000155600A (ja) 音声認識システムおよび入力音声レベル警告方法
JPH0556519B2 (ja)
CN115148208A (zh) 音频数据处理方法、装置、芯片及电子设备
JPH06138895A (ja) 音声認識装置
JPH04347898A (ja) 音声認識方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080903

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees