JP3002211B2 - 不特定話者音声認識装置 - Google Patents

不特定話者音声認識装置

Info

Publication number
JP3002211B2
JP3002211B2 JP1286790A JP28679089A JP3002211B2 JP 3002211 B2 JP3002211 B2 JP 3002211B2 JP 1286790 A JP1286790 A JP 1286790A JP 28679089 A JP28679089 A JP 28679089A JP 3002211 B2 JP3002211 B2 JP 3002211B2
Authority
JP
Japan
Prior art keywords
dictionary
unit
weighting
unspecified speaker
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1286790A
Other languages
English (en)
Other versions
JPH03146999A (ja
Inventor
章次 栗木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1286790A priority Critical patent/JP3002211B2/ja
Publication of JPH03146999A publication Critical patent/JPH03146999A/ja
Application granted granted Critical
Publication of JP3002211B2 publication Critical patent/JP3002211B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 技術分野 本発明は、不特定話者音声認識装置に関する。
従来技術 不特定話者音声認識装置の辞書は一般にマルチテンプ
レート方式が使用されている。これは認識対象となる単
語について複数個の辞書を用意しておき、最も類似して
いるものを認識結果にする方式である。そのため辞書の
容量が多くなりまた認識演算量も増加するため、認識装
置自体が高価になっていた。その欠点を補うためにファ
ジィパターンマッチングを用いた不特定話者認識装置が
提案されている。この方式では時間軸と周波数軸の2次
元的なメンバーシップ関数として不特定話者認識辞書を
現わしている。このメンバーシップ関数の最大値は15と
し、15個のBTSPパターンの重なりにより作られている。
この方式では1つの認識単語に対しては1つのテンプレ
ートで対応できるため辞書の容量や演算量が少なくて済
むという利点がある。しかし、1つのテンプレートだけ
では個人性による変動が十分吸収できない場合があるた
め、人によってはどうしても当たらない単語が存在する
という欠点があった。
ファジィパターンマッチング方式でも認識しない単語
に対して使用者は発声を用いて辞書を作成し、不特定話
者認識辞書と使用者が登録した特定話者認識辞書を共に
認識対象として最も類似度の高い単語を正解単語とする
方法が考えられる。しかし、この方法もマルチテンプレ
ート方式になるために辞書の容量や演算量の増加がおき
るという欠点があった。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、ファジィパターンマッチング方式において、
不特定話者辞書を使用者の発声により辞書更新し、使用
者に適した辞書に変化させること、更には、不特定話者
辞書に特定な使用者の持つ個人性を効率的に付加するこ
とにより、認識対象となる辞書単語数を増加させること
なく認識率を向上させることを目的としてなされたもの
である。
構成 本発明は、上記目的を達成するために、マイクからの
音声信号を処理する前処理部と、入力音声の特徴量を抽
出する特徴抽出部と、音声区間を検出する音声区間検出
部と、BTSPを生成するBTSP生成部と、使用者の入力音声
パターンで辞書を更新する辞書更新部と、更新された辞
書と不特定話者辞書とを対象に認識動作を行なう認識部
とを有する不特定話者認識装置において、加算回数に合
せた重み付け置を有する加重テーブルと、辞書更新の回
数をカウントする加算回数を記憶する加算回数記憶部
と、使用者の入力音声パターンの各エレメントに重み付
けをする加重部とを有し、該加重部は、前記加算回数記
憶部に記憶された加算回数に応じて重み付け値を前記加
重テーブルから選択し、前記BTSP生成部からの前記各エ
レメントに重み付けをして不特定話者辞書に加算し、加
算後の各エレメントの最大値を許容値を越えないように
調整して辞書更新を行うことを特徴としたものである。
本発明は、従来技術のように、特定話者辞書を作成し
て不特定話者辞書とのマルチテンプレートにすることに
より、個人性による変動は特定話者辞書に吸収させるこ
とにより認識率を向上させるのではなく、不特定話者辞
書に個人性を付加して認識率を向上させるようにしたも
のである。また、従来の特定辞書とのマルチテンプレー
ト方式は認識しにくい単語の特定辞書を増加すればする
ほど辞書の容量が増加し、さらに、認識対象となる単語
辞書も増加するので、より演算時間の増化につながった
が、本発明によると、効率的に不特定話者辞書に特定な
使用者の持つ個人性を付加することにより、認識対象と
なる辞書単語数を増加させることなく認識率を向上させ
ることができる。
而して、本発明は、時間軸と周波数軸の2次元的なメ
ンバシップ関数として認識辞書をあらわし、入力音声も
時間軸と周波数軸の2次元なバイナリー値(1,0)で現
わし、各辞書毎に類似度を計算して正解単語を求めるBT
SP方式の不特定話者認識装置において、使用者の入力音
声を用いてそのエレメント値に適切な重みを付けて不特
定辞書に加算し、メンバシップ関数の最大値を他の辞書
と同一にするために、全エレメントから一定値を差し引
くことにより、他の辞書と同一の認識アルゴリズムで類
似度を求めかつ類似度の直接比較ができる更新書を作成
するようにしたものである。
BTSP方式の不特定話者辞書は多人数の入力パターンか
ら、それらのパターンを代表するような15個のパターン
を加算することにより作成される。この辞書を用いるこ
とにより多くの人の発声をカバーすることができる。し
かし、なかには他の人と大きく発声の仕方が変わってい
るため、この代表されたパターンでは類似度が高くなら
ず、誤認識になる発声者がいる。辞書に加算された発声
者は他の発声者に比べて認識率が良いことは一般に知ら
れている。そこでこの辞書に使用者の入力パターンを重
ねることにより、特定話使用者の認識率を上げることが
できる。
第1図は、本発明の一実施例を説明するための構成図
で、図中、1はマイクロフォン、2は前処理部、3は特
徴抽出部、4は音声区間検出部、5はBTSP生成部、6は
加重部、7は加重テーブル、8は加算部、9は加算回数
記憶部、10はメンバシップ関数値調整部、11は登録部、
12は辞書、13は認識部、14は結果出力部で、同図は、音
声が入力された単語を登録、認識する場合の一実施例を
示す構成図で、マイクロフォン1より入力された音声信
号は前処理部2に転送される。前処理部2は例えばマイ
クロアンプ、プリエンファシス、AGCで構成されてお
り、ここで処理された音声信号は特徴抽出部3と音声区
間検出部4に入力される。特徴抽出部3に入力された信
号は例えばバンドパスフィルタ処理されて複数チャンネ
ルのスペクトル成分の時系列に変換される。音声区間検
出部4では音声のパワー変化等を用いて音声区間検出を
行なう。これらの信号はBTSP(バイナリタイムスペクト
ルパターン)生成部5に入力される。BTSP生成部5は入
力音声を時間軸と周波数軸の2次元的なバイナリーパタ
ーンに入力音声を変換する。使用者が不特定話者辞書を
更新する場合には、入力音声の各エレメントに加重部6
で重みを付ける。通常、不特定話者辞書の各エレメント
の最大値は10以上であり、ここに入力パターンに重みを
付けずに各エレメントが1か0のままで加算しても辞書
に与える影響が小さく認識率が上がらない。反対にあま
り重みを付けすぎるとその1回の発声だけの辞書に近く
なり、時間方向や周波数の方向の変動を吸収できなくな
り、認識率が低下する。そのため各加算回数に合わせた
最適な重みが存在する。この値は実験的に求めることが
できるため、この値を加重テーブル7に記録しておく。
加算部8では加重テーブル7からの値にしたがって入力
音声の各エレメントに重みを付ける。例えば、発声回数
が1回目ならば重みを5にすると認識率が良くなる。2
回目ならば3にする。この値は不特定話者辞書の各エレ
メントの最大値によって異なる。ここで5の重みを付け
るとは入力のパターンの1の部分を5にすることを示
す。つまり入力パターンの各エレメントは0か5になる
わけである。このように加重された入力パターンと不特
定話者辞書とを加算部で加算する。それとともに何回目
の加算であるかを記憶するために加算回数記憶部9の対
象単語の値を1上げる。この加算回数記憶部9の値は加
重テーブル7に与えられ該加重テーブル7に加算回数を
与える。これにより加算回数に適した重み付けの値が加
算テーブル7より出力される。重み付けの値を加算回数
に関係なく一定にするならば加重テーブルと加算回数記
憶部は必要がなく加重部で一定の重みを付ければ良い。
入力パターンと加算された辞書はメンバシップ関数値調
整部10に入力され、加算されることによって各エレメン
トの最大値が辞書の許容値を超えた場合には、その超過
分を全てのエレメントから差し引く。ただし、マイナス
になるエレメントは0にする。このようにして使用者の
発声により更新された辞書は登録部11により辞書12にス
トアされる。
認識時はこの更新された辞書と更新されない辞書と同
一の認識処理を認識部13で行ない最も類似度の高い単語
を正解として結果出力部14より出力する。
効果 以上の説明から明らかなように、本発明による不特定
話者音声認識装置においては、マルチテンプレートを用
いることなく使用者の発声情報を辞書に付加しているの
で、辞書容量や演算時間を増加せずに特定の使用者に対
する認識率を向上させることができ、装置を簡素化でき
る利点がある。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するための構成図で
ある。 1……マイクロフォン、2……前処理部、3……特徴抽
出部、4……音声区間検出部、5……BTSP生成部、6…
…加重部、7……加重テーブル、8……加算部、9……
加算回数記憶部、10……メンバシップ関数値調整部、11
……登録部、12……辞書、13……認識部、14……結果出
力部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭60−75897(JP,A) 特開 昭62−31900(JP,A) 特開 昭58−160994(JP,A) 特開 昭60−78489(JP,A) 特開 昭59−87500(JP,A) 電気学会論文誌 Vol.108−C, No.10,1988,「2値のTSPを用い た単語音声認識システムの開発」,p. 858−865 (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 521 G10L 7/08 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】マイクからの音声信号を処理する前処理部
    と、入力音声の特徴量を抽出する特徴抽出部と、音声区
    間を検出する音声区間検出部と、BTSPを生成するBTSP生
    成部と、使用者の入力音声パターンで辞書を更新する辞
    書更新部と、更新された辞書と不特定話者辞書とを対象
    に認識動作を行なう認識部とを有する不特定話者認識装
    置において、加算回数に合せた重み付け値を有する加重
    テーブルと、辞書更新の回数をカウントする加算回数を
    記憶する加算回数記憶部と、使用者の入力音声パターン
    の各エレメントに重み付けをする加重部とを有し、該加
    重部は、前記加算回数記憶部に記憶された加算回数に応
    じて重み付け置を前記加重テーブルから選択し、前記BT
    SP生成部からの前記各エレメントに重み付けをして不特
    定話者辞書に加算し、加算後の各エレメントの最大値を
    許容値を越えないように調整して辞書更新を行うことを
    特徴とする不特定話者音声認識装置。
JP1286790A 1989-11-02 1989-11-02 不特定話者音声認識装置 Expired - Fee Related JP3002211B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1286790A JP3002211B2 (ja) 1989-11-02 1989-11-02 不特定話者音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1286790A JP3002211B2 (ja) 1989-11-02 1989-11-02 不特定話者音声認識装置

Publications (2)

Publication Number Publication Date
JPH03146999A JPH03146999A (ja) 1991-06-21
JP3002211B2 true JP3002211B2 (ja) 2000-01-24

Family

ID=17709078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1286790A Expired - Fee Related JP3002211B2 (ja) 1989-11-02 1989-11-02 不特定話者音声認識装置

Country Status (1)

Country Link
JP (1) JP3002211B2 (ja)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電気学会論文誌 Vol.108−C,No.10,1988,「2値のTSPを用いた単語音声認識システムの開発」,p.858−865

Also Published As

Publication number Publication date
JPH03146999A (ja) 1991-06-21

Similar Documents

Publication Publication Date Title
US5091947A (en) Speech recognition method and apparatus
JP2776848B2 (ja) 雑音除去方法、それに用いるニューラルネットワークの学習方法
US5212764A (en) Noise eliminating apparatus and speech recognition apparatus using the same
JPH0566795A (ja) 雑音抑圧装置とその調整装置
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
JP3163109B2 (ja) 多方向同時収音式音声認識方法
JP3002211B2 (ja) 不特定話者音声認識装置
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP2989231B2 (ja) 音声認識装置
JPH04324499A (ja) 音声認識装置
JP2975808B2 (ja) 音声認識装置
JPS58125099A (ja) 音声認識装置
JP3083855B2 (ja) 音声認識方法及び装置
JPH0651792A (ja) 音声認識装置
JPH0461359B2 (ja)
JPH05224694A (ja) 音声認識装置
JP2886879B2 (ja) 音声認識方法
JP2999479B2 (ja) 音声認識装置の辞書更新方式
EP0856835A3 (en) Speaker recognition device
JP3002200B2 (ja) 音声認識
JPH06149287A (ja) 音声認識装置
JPS59124390A (ja) 候補削減音声認識方式
Tyler Speech recognition system using Walsh analysis and dynamic programming
JPS59124392A (ja) 音声認識方式
JPH0119158B2 (ja)

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees