JP2553173B2 - 音声認識リジェクト閾値設定方式 - Google Patents

音声認識リジェクト閾値設定方式

Info

Publication number
JP2553173B2
JP2553173B2 JP63290814A JP29081488A JP2553173B2 JP 2553173 B2 JP2553173 B2 JP 2553173B2 JP 63290814 A JP63290814 A JP 63290814A JP 29081488 A JP29081488 A JP 29081488A JP 2553173 B2 JP2553173 B2 JP 2553173B2
Authority
JP
Japan
Prior art keywords
word
pattern
voice
standard
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63290814A
Other languages
English (en)
Other versions
JPH02135499A (ja
Inventor
広之 野戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP63290814A priority Critical patent/JP2553173B2/ja
Publication of JPH02135499A publication Critical patent/JPH02135499A/ja
Application granted granted Critical
Publication of JP2553173B2 publication Critical patent/JP2553173B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、音声認識装置において発声された単語の
入力音声の音声パタンと標準パタン辞書メモリに予め登
録された音声標準パタンとの類似度、従って両パタン間
の距離に基づいて音声認識の判定の基準となるリジェク
ト閾値を設定するための音声認識リジェクト閾値設定方
式に関するものである。
(従来の技術) 先ず、この発明の理解を容易にするために、音声認識
装置の概要につき説明する。
音声認識装置はコンピュータ、その他の種々の外部機
器の有力な入力装置として利用され始めており、そのた
め、種々の開発が進められている。
第2図は従来の音声認識装置の典型例を示すブロック
図である。この従来装置の認識処理及び音声標準パタン
登録処理につき簡単に説明する。
先ず、認識処理動作を説明する。使用する話者の発声
した音声をマイクロホン等の外部音声入力装置10によっ
て取り込み、このアナログ入力音声をA/D変換部12にお
いてディジタル音声信号に変換し、特徴抽出部14におい
てこの音声信号から音声の特徴パラメータを抽出しこれ
を音声切り出し部16及び認識部18へそれぞれ出力する。
通常、特徴パラメータとして、フレームと称される一定
時間間隔で、スペクトル成分Sと対数パワーP等を抽出
する。そして、音声切り出し部16において、この抽出し
た特徴パラメータの時間変化から音声区間を判定して認
識部18へ送る。
この認識部18において音声区間の周波数成分S及び対
数パワーPの系列すなわち特徴パラメータ系列である音
声パタンを特徴パタンとして求め、この特徴パタンと予
め音声標準パタンメモリ20に登録されている標準パタン
を読み出してきて特徴パタンとこの標準パタンとの類似
度従って距離を求めて、この距離が一定のリジェクト閾
値より小さいとき、当該距離(類似度)を有する標準パ
タンの属するカテゴリを認識判定する。そして、認識結
果出力部22から認識結果としての当該標準パタンのカテ
ゴリの番号を外部機器24へ出力し、その後の所望の処理
に供せしめる構成となっている。
このような認識方法では、どのようなリジェクト閾値
を設定するかによって音声認識の良否が左右される。
次に、この従来のリジェクト閾値について説明する。
第3図(A)及び(B)は音声認識時にある単語名の
入力があった場合(認識対象単語以外の音で、音声とし
て区間検出された音を含む。以下、これを入力音と称す
る。)、標準パタンに対して計算される距離の度数分布
を示す図であり、横軸に距離D及び縦軸に度数をプロッ
トしてそれぞれ示してある。第3図(A)は、ある単語
名Cαの標準パタンに対する度数分布の例であり、分布
曲線Iαは入力音が単語名Cαであった場合の単語度数
分布、分布曲線IIαは単語名Cαの標準パタンに対して
計算された他の単語名の標準パタンとの距離の度数分布
及び分布曲線IIIαは単語名Cα以外の入力音に対する
距離の度数分布の例である。第3図(B)はある単語名
βの標準パタンに対する度数分布の例であり、分布曲
線Iβは入力音が単語名Cβであった場合の単語度数分
布、分布曲線IIβは単語名Cβの標準パタンに対して計
算された他の単語の標準パタンとの距離の度数分布及び
単語名IIIβは単語名Cβ以外の入力音に対する距離の
度数分布である。
既に説明したように、一般に音声認識時には、音声と
して区間検出された入力音に対して、全ての単語の標準
パタンとの距離を計算し、最小の距離をもつ標準パタン
の単語名を出力する。しかし、たとえその単語名がCα
であったとしてもその距離がリジェクト閾値Tよりも大
きな値である場合には、入力音は認識対象の単語以外の
音であると判定して誤入力に対する出力を抑制するのが
一般的な方法であった。
この従来の方法ではこの際に用いられるリジェクト閾
値Tは、単語名やその標準パタンの特徴によらず一定の
値を用い、しかもその値の設定は人手によって経験的に
定められたり、特定の単語セットに対する分析から求め
られるのが普通であった。しかしこのような方法では、
リジェクト閾値Tがある単語名Cαに対しては有効な値
であっても、他の単語名Cβに対しては最良の値ではな
い場合が多く見られた。その理由としては、単語名Cα
の標準パタンに対する距離の分布(第3図(A)参照)
と、単語名Cβの標準パタンに対する距離の分布(第3
図(B)参照)が各単語の標準パタンに対応して異なっ
ていることによる。例えば、リジェクト閾値Tを第3図
(A)に示すような値に定めたとき、単語名Cαに対し
ては有効であっても、このリジェクト閾値Tが第3図
(B)の単語名Cβに対しては高すぎる場合には、入力
音として単語名Cβに類似した音で、なおかつ認識対象
語ではない音が入力された場合に、誤って認識結果Cβ
が出力される可能性が高い。一方、逆にリジェクト閾値
T0を第3図(A)に示すような値としたとき、第3図
(B)の単語名Cβに対しては有効であっても、第3図
(A)の単語名Cαに対しては低すぎる場合には、入力
として単語名Cαを正しく発声しても出力が抑制される
可能性が高い。
(発明が解決しようとする課題) このように、上述した従来の音声認識リジェクト閾値
設定方法では、話者の発声のしかたや使用する単語セッ
トの変化にもかかわらず、リジェクト閾値が一定である
ために、認識対象単語を発声したにもかかわらず認識対
象単語以外の温であると判定されたり、認識対象外の音
が入力されたにもかかわらず、認識結果が出力されると
いった問題点があった。
この発明の目的は以上のような話者の変化や使用単語
セットの変化によって認識対象単語かどうかの判定の性
能が変化するという問題点を解決し、話者や使用単語セ
ットの変化に対応して自動的にリジェクト閾値を設定す
る音声認識リジェクト閾値設定方法を提供することにあ
る。
(課題を解決するための手段) この目的の達成を図るため、この発明によれば、 音声標準パタンを読み出し自在に登録しておくための
標準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登
録された音声標準パタンとの類似度を算出する認識部と
を含み、 該類似度に基づいて音声認識の判定を行った認識結果
を外部処理装置へ出力するように構成した音声認識装置
の当該音声認識の判定に用いるリジェクト閾値を設定す
る方式において、 前記認識部に、 登録したい単語名を発声して得られた入力音声の1つ
のリジェクト閾値設定対象標準パタンと他の単語名に属
する標準パタンとの距離を全て算出する標準パタン間距
離算出手段と、 これら距離の分布状態を表現するパラメータを求める
パラメータ算出手段と、 これらパラメータに基づいて前記リジェクト閾値設定
対象標準パタンに対するリジェクト閾値を算出するリジ
ェクト閾値算出手段とを設け、前記分布状態を、リジェ
クト閾値設定対象標準パタンと認識対象以外の一般の入
力音との距離の分布状態と近似することによりリジェク
ト閾値を算出することを特徴とする。
(作用) この発明の音声認識リジェクト閾値設定方式によれ
ば、標準パタン間距離算出手段によって単語標準パタン
の全ての組み合わせの間の距離を求めてこれを集計す
る。
続いてパラメータ算出手段によってこれら距離の分布
状態を表現するパラメータ、例えば、各単語標準パタン
に対する他の単語標準パタンの距離の平均値及び各単語
標準パタンに対する他の単語標準パタンの距離の平均偏
差を求め、これらパラメータによってある着目した単語
標準パタンと他の単語標準パタンとの間の距離の分布を
表現する。
次に、リジェクト閾値算出手段によってこのパラメー
タから着目した単語標準パタンに対するリジェクト閾値
を求める。この場合、各単語標準パタンに対する他の単
語標準パタンの距離の分布(全ての単語標準パタンに対
する分布曲線IIα(第3図(A))及びIIβ(第3図
(B))を用いて本来ならば推定が不可能な各単語標準
パタンに対する認識対象以外の入力音の距離の分布(全
ての単語標準パタンに対する分布曲線IIIα(第3図
(A))及びIIIβ(第3図(B)))を近似し、その
分布から各単語標準パタンに対するリジェクト閾値を設
定する。これによって各単語標準パタンに対して最適な
リジェクト閾値を設定し、音声認識応答を抑制すること
ができるようにしたものである。
(実施例) 以下、図面を参照して、この発明の音声認識リジェク
ト閾値設定多式の実施例につき説明する。
第1図はこの発明の一実施例を説明するためのブロッ
ク図であり、同図において、第2図で説明した構成成分
と同一の構成成分については、特に言及する場合を除
き、同一の符号を付して示し、その詳細な説明を省略す
る。
この発明の音声認識リジェクト閾値設定方式によれ
ば、認識部に標準パタン間距離算出手段310、パラメー
タ算出手段320及びリジェクト閾値算出手段330を、従来
の音声認識機能に追加して設ける。従ってこのような新
たな機能をもったこの発明に係る認識部を30で示す。
次に、これら各手段310、320及び330について説明す
る。
<標準パタン間距離算出手段> この標準パタン間距離の算出は従来周知の方法はもと
より、他の任意好適な手段を用いて算出してもよいが、
この実施例では、本出願人に係る他の出願に開示されて
いる手法を用いて標準パタン間距離の算出を行う例につ
き説明する。
音声認識装置では標準パタンは標準パタン辞書メモリ
20に登録されている。一般にこの標準パタンの登録に当
り、話者に指示を与えて同一カテゴリの音声を複数回発
声させ、これら発声音声から、音声標準パタン作成のた
めの特徴パタンセットを作成し、この特徴パタンセット
を構成する全ての特徴パタンを音声標準パタンとして登
録したりする技術、この特徴パタンセットの中から一つ
又はいくつかの特徴パタンを適当な規準を設けて取捨選
択し、選択されたパタンの音声長(音声区間)間の平均
化等を行い、平均音声長に該当する音声パタンを標準パ
タンとして登録する技術、或いは、マルチテンプレート
法、その他の技術等がある。いずれにしても、音声認識
において標準パタンを作成する際には認識の規準となる
音声を発声し、その特徴を数値化して音声の特徴パタン
とし、これを標準パタンとして保存する必要がある。
このような特徴パタンを作成するには、認識部30にお
いて、たとえば、特開昭62−159195において提案されて
いる技術により音声の特徴パタンを作成する。特徴パタ
ンは音声認識の際に用いる特徴量であればどのようなも
のであってもよい。
これら特徴パタンに基づく、標準パタンの作成法とし
て、まず、1種類の単語当り複数回例えば3回の登録発
声を行い、複数個、この場合3つの特徴パタンを標準パ
タンとして得る。このような操作を単語の全種類にわた
って行うことにより、単語の種類をNとすると3N個の特
徴パタンが初期標準パタンセットとして得られる。
しかし、このような従来の音声標準パタンの登録技術
では、話者に対して指示した単語が指示どおりに発声さ
れていることを前提にしており、読みや発声の誤り、音
声以外の音が入力された場合でも指示した単語が発声さ
れたとして、音声の標準パタンの作成が行われていた。
例えば発声者の登録発声の際に言い誤り、或いは雑音の
混入などによって、登録すべき音声以外の音の特徴パタ
ン(ここでは不良特徴パタンと称する)が生じたとする
と、その場合の単語の特徴空間内での各特徴パタンの配
置は、例えば第4図のようになる。ここで、n番目の単
語のi番目の登録発声の特徴パタンをPniとする。ま
た、登録発声が正常に行われた場合には特徴パタンPni
はそれぞれ特徴空間内のCnの範囲内に納まるとする。例
えば、不良特徴パタンP32が生じた場合には、従来技術
ではその音の特徴を用いて音声標準パタンが作成される
ために、音声標準パタンの質を悪くし、音声認識の際に
認識率を悪くする原因となる不良特徴パタンP32が音声
標準パタンの決定に用いられてしまうという問題があっ
た。
そこで、前述した本出願に係る先の特許出願におい
て、このような質の悪い音声標準パタンの登録を回避
し、音声認識の際の認識率の低下を図るためには、前述
したような不良特徴パタンを用いず、新たに単語名C3
登録発声を要求し、正常な特徴パタンP′32を得ること
によって良好な標準パタンセットを作成すればよいとい
う根拠に基づき、初期標準パタンセットを作成し、不良
特徴パタンを検出し、再登録操作によって最終的に良好
な標準パタンセットを得る処理手順を採用した音声標準
パタン登録方式を提案している。
この発明の実施例では、この提案された音声標準パタ
ン登録方式に従って標準パタン辞書メモリ20に標準パタ
ンの登録を行う場合に、その手順の途中で算出される標
準パタン間距離を利用する。
以下、第1図及び第5図(A)〜(C)を参照して、
前述の先の出願の音声標準パタン登録方式に従って、認
識部30において、初期標準パタンセットを作成し、不良
特徴パタンを検出し、再登録操作によって最終的に良好
な標準パタンセットを得るまでの処理手順の一実施例に
つき説明する。
第5図はこの発明における標準パタン作成のための動
作の流れ図を示す。ここでSは処理ステップを表わす。
第5図(A)は初期標準パタンセットの作成の動作の流
れ図であり、第5図(B)及び(C)は不良特徴パタン
の判定と再登録の動作の流れ図をそれぞれ示す。尚、図
中、、及びは動作の続き関係をそれぞれ示す。
初期標準パタンセット作成 処理はまず、初期標準パタンセットのなかのどの特徴
パタンを作成するかを定めるn及びiを1に初期化する
ことから始める(S1)。次に、n番目の単語名Cnの登録
発声を登録話者に対して要求し、発声を促す(S2)。
尚、この実施例では単語の種類をNとし、1単語当りの
発声回数を3回とする。この発声により外部音声入力装
置10、A/D変換部12を経て特徴抽出部14及び音声切り出
し部16のそれおれからの単語音声の入力を受ける(S
3)。これらの入力を受けて、例えば本出願人によ先の
出願(特開昭62−211698)において提案されている方法
により、単語音声区間の検出を開始する。この単語音声
区間内の入力フレームデータに対し、例えば(特開昭62
−159195)において提案されている方法によって特徴パ
タンを作成し、Pniとして記憶する(S4)。そして、同
一単語での発声回数をカウントするiに対して1を加え
(S5)、発声回数である3と比較し(S6)、3以下であ
れば同一の単語名に対する登録発声の要求(S2)に戻
る。もしも3より大きければ、n番目の単語名Cnに対す
る登録発声は終了したので、iを1に戻し、nに1を加
える(S7)。最後にnと単語数Nとを比較し、n≦Nな
らば登録発声の要求(S2)に戻る(S8)。逆にn>Nな
らば初期標準パタンセットの作成が終了したので、次の
不良特徴パタン判定処理へ移る。
不良特徴パタン判定 不良特徴パタンの判定処理に入ると、まず、判定を行
うべき単語名の番号nを1とし、総不良特徴パタンの数
Bを0とする(S9)。次に、いま着目しているn番目の
単語に対する不良特徴パタンの数Aを0とする(S1
0)。さらに、この単語内で着目すべき発声回数の番号
iを1とする。
ここで、判定の対象となる特徴パタンの単語番号nと
発声回数iが定まったので、特徴パタンPniが不良特徴
パタンであるかどうかの判定を行う。特徴パタンPni
もう1つの特徴パタンPxy(ただし、x=1、2、・・
・、N;y=1、2、3;n≠xまたはi≠y)との間の距離
niDxyを全てのx、yの組合せに対して求める。特徴パ
タン間の距離は線形伸縮によるパタンマッチング(特開
昭62−73299)や、動的計画法によるパタンマッチング
(特開昭62−73298)により計算する(S11)。次に、処
理ステップS11で求めた距離niDxyのうち、最小のものの
x、yをそれぞれX、Yとする(S12)。そして、Xと
nとを比較し(S13)もしも一致していなければ、Pni
単語形Cn以外の単語名の特徴パタンと最も距離が近いの
で、不良特徴パタンと判定し、不良特徴パタン数Aに1
を加える(S14)。もしもこの処理ステップS14でXとn
が一致していれば、Pniは不良特徴パタンではないの
で、次の処理ステップへ実行を移す。ここではパタンを
判定の対象とするため、iに1を加える(S15)。もし
もiが3以下ならば同じ単語名Cnの次の発声の特徴パタ
ンに対する判定(S11)〜(S14)に戻り、iが3よりも
大きければ、処理ステップS17に移る(S16)。処理ステ
ップS17ではn番目の単語に対する不良特徴パタン数A
と1単語当りの特徴パタン数(実施例では3)に対する
過半数の2とを比較し、Aが2以上であれば、次の処理
ステップS18に移り、このn番目の単語の特徴パタンは
全て不良特徴パタンであるとして、全てのiに対するP
niを不良特徴パタンと判定し、不良特徴パタン数Aを3
とする。
ここで、n番目の単語に対する不良特徴パタンの判定
がおわったので、総不良特徴パタン数Bにn番目の単語
の不良特徴パタン数Aを加え(S19)、さらに次の単語
名の特徴パタンを判定の対象とするためにnに1を加え
(S19)、次の処理ステップへ移る(S20)。nが単語数
N以下ならば、処理ステップ(S10)へ戻り、単語名Cn
の3つの特徴パタンについての判定に戻る。もしもnが
単語数Nよりも大きければ処理ステップ(S21)に移
る。ここでBが0ならば(S21)、全ての特徴パタンは
不良特徴パタンではないので一連の処理の終了となる。
もしもBが0でなければ(S21)、処理ステップS14で不
良と判定された全ての特徴パタンPniに対して代わりの
特徴パタンを登録する(以降これを再登録と称する)処
理を行うために第5図(C)に示す再登録操作の処理に
移る。
再登録操作手段 まず、再登録のパタン数をカウントするkを1とする
(S23)。次にk番目の不良特徴パタンの単語名の再登
録発声を登録話者に対して要求する(S24)。そして、
単語音声の入力を受ける(S25)。ここでは、第5図
(A)で示した処理ステップS3と同様の単語音声区間を
検出する。この単語音声区間内の入力フレームデータに
対し、第5図(A)で示した処理ステップS4と同様の方
法により特徴パタンを作成し、k番目の不良特徴パタン
を消去すると同時にこの消去した特徴パタンと同じn、
iを持つ特徴パタンPniとして格納する(S26)。
次にkに1を加え(S27)、不良特徴パタン数Bと比
較し(S28)、k>Bでなければ次の不良特徴パタンの
再登録のために処理ステップS24に戻る。k>Bなら
ば、全ての不良特徴パタンが消去され、再登録によって
新しい特徴パタンが格納されているので不良特徴パタン
判定手段320での、第5図(B)で示した処理ステップS
9に戻り、標準パタンセットの中の不良特徴パタンを判
定する処理に戻る。
以上の処理を不良特徴パタン数Bが0になるまで繰り
返す(S9〜S28)。
この発明の実施例では、標準パタン間距離算出手段31
0は上述したこのような一連の処理手順のうち、処理ス
テップS1(第5図(A))から第5図(B)の処理ステ
ップS11までの処理を行う。又、処理ステップS12(第5
図(B))から処理ステップS28(第5図(C))まで
の処理をこの手段310において実行出来るように構成し
てもよいし、又、別の機能手段として設けてもよい。
以上の標準パタン間距離算出の処理は特定話者に対す
る認識方式の場合のリジェクト閾値の設定に必要な処理
であるが、不特定話者に対する認識方式であっても、特
徴パタンPniともう1つの特徴パタンPxy(但し、x=
1、2、・・・、N;y=1、2、3;n≠xまたはi≠y)
との間の距離niDxyを全てのx、yの組み合わせに対し
て求めることによって同様にリジェクト閾値の設定が行
える。
<パラメータ算出手段> 次に、上述した処理ステップS11で得られた距離を用
いて、各単語の標準パタンに対する、他の単語の標準パ
タンの距離の分布をパラメータによって表現する。
この実施例では、パラメータとして各単語nの標準パ
タンに対する他の単語標準パタンの距離の平均値An及び
その平均偏差M/Kとする例につき説明する。尚、ここで
Mは偏差(=ΔM=niDxy−An)の総和であり、Kは分
布測定の対象となった他単語の標準パタン数の計数であ
る。
第6図にこの実施例におけるリジェクト閾値設定のた
めの動作の流れ図を示す。第6図(A)は各単語標準パ
タンに対する他の単語標準パタンの距離の平均値を求め
る動作の流れ図であり、第6図(B)は主として各単語
標準パタンに対する他の単語標準パタンの距離の平均偏
差を求めるための動作の流れ図である。
単語標準パタン間距離の平均値 この平均値はパラメータ算出手段320で算出して求め
る。
この処理を開始すると、まず最初に他の単語標準パタ
ンに対する距離の平均値を求める対象となる単語名の番
号nを1と初期設定する(S30)。次に、距離の総和S
を0、分布測定の対象となった他単語の標準パタン数の
計数Kを0とし、現在着目している単語の中のテンプレ
ートの計数iを1とする(S31)。次に、分布測定の対
象となる単語の単語番号xを1とする(S32)。次に、
現在着目している単語nと分布測定の対象となる単語が
同一の単語かどうかを判定し(S33)、もし、同一の単
語であれば処理ステップ(S38)に処理を移す。もし、
同一の単語ではない場合には分布測定の対象となる単語
の中のテンプレートの計数yを1とする(S34)。そし
て、距離の総和Sと距離niDxyとを加え、計数Kに1を
加える(S35)。次にテンプレートの計数yに1を加え
(S36)、テンプレート計数yと1単語あたりのテンプ
レート数3とを比較し(S37)、3以下であれば(S35)
に戻り、次のテンプレートに対する処理に戻る。判定処
理(S37)による判定でyが3よりも大きければ、分布
測定の対象となる単語名の単語番号xに1を加える(S3
8)。次に、xと単語数Nとを比較判定し(S39)、xが
N以下であれば処理ステップ(S33)に戻る。判定処理
(S39)においてx>Nであると判定されると、リジェ
クト閾値設定の対象となるテンプレートの番号iに1を
加え(S40)、今度はiと1単語あたりのテンプレート
数3とを比較し(S41)、3以下であれば処理ステップ
(S32)に戻り、同一の単語の他のテンプレートに対す
る距離の分布の測定に移る。処理ステップS41におい
て、iが3よりも大きければ、n番目の単語に対する距
離の平均値AnをS/Kにより計算しかつ単語番号nに1を
加える(S42)。続いて、分布測定の対象となる単語名
の単語番号xに1を加える(S43)。次に、単語番号n
と単語数Nとを比較判定し(S44)、nが単語数以下の
場合には(S31)に戻り、次の単語に対する距離の平均
値を求める上述した一連の処理を行う(S31〜S42)。n
が単語数Nよりも大きければ第6図(B)の最初の処理
ステップ(S45)に移り、各単語標準パタンに対する他
の単語標準パタンの距離の平均偏差を求める処理を実行
する。
このように、この実施例では、上述した処理ステップ
S30〜S44を送る処理手順によってパラメータとしての単
語標準パタン間距離の平均値Anの算出を実行できる。
単語標準パタン間距離の平均偏差 これら平均偏差M/Kは単語名Cαの分布曲線IIα(第
3図(A))及び単語名Cβの分布曲線IIβのそれぞれ
の広がりの度合を表わすパラメータである。これらパラ
メータをパラメータ算出手段320で算出する。この算出
処理を開始すると、先ず、他の単語標準パタンに対する
距離の平均偏差を求める対象となる単語名の番号nを1
とする(S45)。次に、偏差の総和Mを0、分布測定の
対象となった他単語の標準パタン数の計数Kを0とし、
現在着目している単語の中のテンプレートの計数iを1
とする(S46)。続いて、分布測定の対象となる単語の
単号番号xを1とし(S47)、現在着目している単語x
と分布測定の対象となる単語nが同一の単語かどうかを
判定し(S48)、もし、同一の単語であれば処理ステッ
プ(S54)に処理を移す。この判定処理(S48)で同一単
語でないと判定されたときには、分布測定の対象となる
単語の中のテンプレートの計数yを1とする(S49)。
然る後、距離niDxyと単語nにおける他単語の距離の
平均値Anとの下の絶対値である偏差ΔM(=|niDxy−An
|)を求める(S50)。次に、偏差の総和Mに、上述した
偏差ΔMを加えた新たな偏差の総和Mとし、しかも、計
数Kに1を加える(S51)。次に、テンプレートの計数
yに1を加え(S52)、計数yと1単語あたりのテンプ
レート数3とを比較し、3以下であれば(S50)に戻
り、次のテンプレートに対する処理に戻る。この判定処
理(S53)でyが3よりも大きければ、処理ステップ(S
54)に処理を移し、分布測定の対象となる単語名の単語
番号xに1を加える。次に、この単語番号xと単語数N
とを比較し(S55)、xがN以下であれば処理(S48)に
戻る。この判定処理(S55)での判定がx>Nである
と、リジェクト閾値設定の対象となるテンプレートの番
号iに1を加え(S56)、続いて、テンプレート番号i
と1単語あたりのテンプレート数3とを比較し(S5
7)、3以下であれば処理ステップ(S47)に戻り、同一
の単語の他のテンプレートに対する距離の分布の測定に
移る(S47〜S57)。この判定処理(S57)での判定結果
でテンプレート番号iが3よりも大きければ、次の処理
ステップ(S58)に処理を移し、処理ステップS51で得た
偏差の総和Mを、分布測定の対象となった他単語の標準
パタン数の計数Kで除算した値M/Kを平均偏差として算
出する(S58)。
このように、上述した処理ステップS45〜S58を経る処
理手順によってパラメータとしての単語標準パタン間距
離の平均偏差M/Kの算出を実行できる。
<リジェクト閾値算出手段> この実施例では、リジェクト閾値算出手段330におい
て、上述した処理手順中の処理ステップS42で得られた
平均値An(=S/K)と処理ステップS58で得られた平均偏
差M/Kとからn番目の単語に対するリジェクト閾値Tn
計算する。ここでαはリジェクトの強度を決定する通常
は負の定数であり、この値が小さければリジェクトの傾
向が強くなり、認識対象単語以外の音声を全く受けつけ
なくなる。αが大きければリジェクトの傾向は弱くなる
が認識対象単語以外の音を受けつける可能性が大きくな
る。n番目の単語に対するリジェクト閾値Tnは、この定
数αと平均偏差M/Kを乗じて距離の平均値Anを加えるこ
とにより計算する(S59)。尚、このαは例えば認識部3
0に設けた定数テーブルメモリ或いは他の任意のメモリ
(図示せず)に読み出し自在に格納しておけばよい。さ
らに、この実施例では、この処理ステップS59で、単語
番号nに1を加え、分布測定の対象となる単語名の単語
番号xに1を加える。
次に、単語番号nと単語数Nとを比較し(S60)、n
が単語数以下の場合には処理ステップ(S46)に戻り、
次の単語に対するリジェクト閾値を求める。この判定処
理(S60)によって単語番号nが単語数Nよりも大きけ
れば、全ての単語標準パタンのリジェクト閾値の設定が
終了したので全処理を終了する。
以上述べたようなリジェクト閾値設定方法によれば、
本来ならば推定が不可能な各単語標準パタンに対する入
力音の距離の分布(分布曲線IIIα及びIIIβを、各単語
標準パタンに対する他の単語標準パタンの距離の分布
(分布曲線IIα及びIIβ)で近似することができ、この
分布状態を表現するパラメータに基づいてリジェクト閾
値を算出することが出来る。
上述した実施例ではリジェクト閾値設定のためのパラ
メータとして平均値An及び平均偏差M/Kを用いたが、こ
れらの代わりに分布の形状を表わす数値であればどのよ
うなパラメータを使ってもよい。例えば、平均偏差の代
わりに標準偏差を使う、分布形状を2項分布や正規分布
を仮定して最小2剰近似したうえで、その標準偏差を用
いるなどの方法を用いてもよい。
このようにして得られたリジェクト閾値は認識部30又
は任意所望の箇所に設けたメモリに読み出し自在に格納
しておき、特定又は不特定話者の音声認識の際に、発声
して得られた入力単語音声の認識判定のための閾値とし
て利用できる。
この発明は上述した実施例にのみ限定されるものでは
なく、種々の変形又は変更を行い得ること明らかであ
る。例えば、上述したリジェクト閾値を決定するための
処理手順は設計に応じて任意に変えることができる。
又、上述した実施例では、この種の音声認識装置には
常套手段であるメモリ、制御部、その他の処理回路等の
図示及び説明を省略したが、これらは所要に応じ設ける
ことが出来る。
(発明の効果) 上述した説明からも明らかなように、この発明の音声
認識リジェクト閾値の設定方式によれば、ある着目した
標準パタンに対するリジェクト閾値が他の標準パタンと
の距離の分布から自動的に求められ、認識時の距離が大
きくなる傾向のある標準パタンに対してはリジェクト閾
値が大きく設定され、逆に認識時の距離が小さくなる傾
向のある標準パタンに対してはリジェクト閾値が小さく
設定されるので、認識単語による応答率の変化が少なく
安定した性能の音声認識を実現出来る。
【図面の簡単な説明】
第1図はこの発明の音声認識リジェクト閾値設定方式の
説明に供するブロック図、 第2図は従来方式の説明に供するブロック図、 第3図(A)及び(B)はこの発明及び従来のリジェク
ト閾値の説明に供する、標準パタンに対する入力音の距
離の度数分布を示す図、 第4図はこの発明の実施例の説明に供する、不良特徴パ
タンを含む標準パタンセットの説明図、 第5図(A)〜(C)はこの発明の方式の実施例を実行
する処理手順における音声標準パタンの登録処理及び標
準パタン間距離の算出の説明に供する動作の流れ図、 第6図(A)及び(B)はこの発明の方式の実施例を実
行する処理手順におけるリジェクト閾値設定の動作の流
れ図である。 10……外部音声入力装置、12……A/D変換部 14……特徴抽出部、16……音声切り出し部 20……標準パタン辞書メモリ 22……認識結果出力部、24……外部機器 30……認識部 310……標準パタン間距離算出手段 320……パラメータ算出手段 330……リジェクト閾値算出手段。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声標準パタンを読み出し自在に登録して
    おくための標準パタン辞書メモリと、 外部音声入力部からの入力音声の音声パタンと予め登録
    された音声標準パタンとの類似度を算出する認識部とを
    含み、 該類似度に基づいて音声認識の判定を行った認識結果を
    外部処理装置へ出力するように構成し音声認識装置の当
    該音声認識の判定に用いるリジェクト閾値を設定する方
    式において、 前記認識部に、 登録したい単語名を発声して得られた入力音声の1つの
    リジェクト閾値設定対象標準パタンと他の単語名に属す
    る標準パタンとの距離を全て算出する標準パタン間距離
    算出手段と、 これら距離の分布状態を表現するパラメータを求めるパ
    ラメータ算出手段と、 これらパラメータに基づいて前記リジェクト閾値設定対
    象標準パタンに対するリジェクト閾値を算出するリジェ
    クト閾値算出手段とを設け、 前記分布状態をリジェクト閾値設定対象標準パタンと認
    識対象以外の一般の入力音との距離の分布状態と近似す
    ることにより、リジェクト閾値を算出することを特徴と
    する音声認識リジェクト閾値設定方式。
JP63290814A 1988-11-17 1988-11-17 音声認識リジェクト閾値設定方式 Expired - Lifetime JP2553173B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63290814A JP2553173B2 (ja) 1988-11-17 1988-11-17 音声認識リジェクト閾値設定方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63290814A JP2553173B2 (ja) 1988-11-17 1988-11-17 音声認識リジェクト閾値設定方式

Publications (2)

Publication Number Publication Date
JPH02135499A JPH02135499A (ja) 1990-05-24
JP2553173B2 true JP2553173B2 (ja) 1996-11-13

Family

ID=17760830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63290814A Expired - Lifetime JP2553173B2 (ja) 1988-11-17 1988-11-17 音声認識リジェクト閾値設定方式

Country Status (1)

Country Link
JP (1) JP2553173B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
JP5293478B2 (ja) * 2009-07-17 2013-09-18 富士通株式会社 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
JP6659514B2 (ja) 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
JP6858334B2 (ja) * 2020-02-06 2021-04-14 Tvs Regza株式会社 電子機器及びその制御方法
JP6858336B2 (ja) * 2020-02-06 2021-04-14 Tvs Regza株式会社 電子機器及びその制御方法
JP6858335B2 (ja) * 2020-02-06 2021-04-14 Tvs Regza株式会社 電子機器及びその制御方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58189696A (ja) * 1982-04-30 1983-11-05 日産自動車株式会社 車両用音声認識装置
JPS63163399A (ja) * 1986-12-25 1988-07-06 日本電気株式会社 パタ−ン認識装置

Also Published As

Publication number Publication date
JPH02135499A (ja) 1990-05-24

Similar Documents

Publication Publication Date Title
JP2654503B2 (ja) 無線端末装置
JP2974423B2 (ja) ロンバード音声認識方法
US5167004A (en) Temporal decorrelation method for robust speaker verification
US5684924A (en) User adaptable speech recognition system
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
DE60004331T2 (de) Sprecher-erkennung
JPH0554959B2 (ja)
EP0077194A1 (en) Speech recognition system
US5621849A (en) Voice recognizing method and apparatus
US5416887A (en) Method and system for speech recognition without noise interference
US6275800B1 (en) Voice recognition system and method
US5040213A (en) Method of renewing reference pattern stored in dictionary
JP2553173B2 (ja) 音声認識リジェクト閾値設定方式
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP2975772B2 (ja) 音声認識装置
EP1063634A2 (en) System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy
JP2543584B2 (ja) 音声標準パタン登録方式
JP3011421B2 (ja) 音声認識装置
US20220215854A1 (en) Speech sound response device and speech sound response method
JP3135594B2 (ja) パターン認識装置およびパターン認識方法
JPH11249688A (ja) 音声認識装置およびその方法
WO2003085638A1 (en) Pattern recognition
JP3032551B2 (ja) 音声標準パターン登録方法
JPH02127697A (ja) 音声標準パタン登録方式