JPH02127697A

JPH02127697A - 音声標準パタン登録方式

Info

Publication number: JPH02127697A
Application number: JP63282132A
Authority: JP
Inventors: Hiroyuki Nodo; 広之野戸
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1988-11-08
Filing date: 1988-11-08
Publication date: 1990-05-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は、音声認識装置における音声標準パタン登録
方式、特に音声標準パタン作成用の候補パタンを取捨選
択するための標準パタンセットの作成方式に関するもの
である。

（従来の技術）音声認識装置はコンピュータ、その他の種々の外部機器
の有力な入力装置として利用され始めており、そのため
、種々の開発が進められている。

第２図は従来の音声認識装置の典型例を示すブロック図
である。先ず、この発明の理解を容易にするためこの従
来装置の認識処理及び音声標準パタン登録処理につき簡
単に説明する。

先ず、認識処理動作を説明する。使用する話者の発声し
た音声をマイクロホン等の外部音声入力装置１０によっ
て取り込み、このアナログ入力音声％Ａ／Ｄ変換部１２
においてディジタル音声信号に変換し、特徴抽出部１４
においでこの音声信号から音声の特徴パラメータを抽出
しこれを音声切り出し部１６及び認識部１８へそれぞれ
出力する０通常、特徴パラメータとして、フレームと称
される一定時間間隔で、スペクトル成分Ｓと対数パワー
Ｐ等を抽出する。そして、音声切り出し部１６において
、この抽出した特徴パラメータの時間変化から音声区間
を判定して認識部１８へ送る。

この認識部１日において音声区間の周波数成分Ｓ及び対
数パワーＰの系列ずなわち特徴パラメータ系列である音
声パタンを特徴パタンとしで求め、この特徴パタンと予
め音声標準パタンメモリ２０に登録されでいる標準パタ
ンを読み出してきで特徴パタンとこの標準パタンとの類
似度を求めで、最大類似度を有する標準パタンの属する
カテゴリを認識判定する。そして、認識結果出力部２２
から認識結果としての当該標準パタンのカテゴリの番号
を外部機器２４へ出力し、その後の所望の処理に供せし
める構成となっている。

このような認識方法では、どのような発声を音声標準パ
タンとして登録するかが認識性能を左右する。

次に、この従来の登録処理動作につき説明する。

一般に標準パタン登録方法としては、話者に指示を与え
て同一カテゴリの音声を複数回発声させ、これら発声音
声から、音声標準パタン作成のための特徴パタンセット
を作成し、この特徴パタンセットを構成する全ての特徴
パタンを音声標準パタンとして登録したつする技術、こ
の特徴パタンセットの中から一つ又はいくつがの特徴パ
タンを適当な規準を設けて取捨選択し、選択されたパタ
ンの音声長（音声区間）間の平均化等を行い、平均音声
長に該当する音声パタンを標準パタンとしで登録する技
術、或いは、マルチテンプレート法、その他の技術等が
ある。いずれにしても、音声認識において標準パタンを
作成する際には認識の基準となる音声を発声し、その特
徴を数値化して音声の特徴パタンとし、これを標準パタ
ンとして保存する必要がある。

このような特徴パタンを作成するには、通常は次のよう
にしで行っていた。

まずはじめにマイクロホン１０から得られた入力音声の
波形をＡ／Ｄ変換部１２で数値化する。ここではサンプ
リング周波数１０ｋＨｚで８ｂｉｔの量子化を行ってい
る。特徴抽出部１４においでこの波形データに対し、１
／４オクタ一ブ間隔、１６チヤネル、Ｑ＝６の単共振デ
ィジタルバンドパスフィルタによる帯域分割を行い、３
００Ｈｚから４ｋＨｚの周波数成分に分割する。各チャ
ネルにおいで、その波形の絶対債を１２８点ずつ加算し
、１２．８ｍ５ｅｃ！単位としたフレーム内でのスペク
トル強度を得る。１６チヤネル分の強度を１つのセット
として、入力フレームデータと称する。認識部１８にお
いて、この入力フレームデータを用い、たとえば、特開
昭６２−１５９１９５において提案されている技術によ
り音声の特徴パタンを作成する。特徴パタンは音声認識
の際に用いる特徴量であればどのようなものであっても
よい。

標準パタンの作成法としてここではまず、１種類の単語
当り複数回例えば３回の登録発声を行い、複数個、この
場合３つの特徴パタンを標準パタンとして得る。このよ
うな操作を単語の全種類にわたって行うことにより、−
単語のｆｉ類ＷＮとすると３Ｎ個の特徴パタンか得られ
る。これをここでは初期標準パタンセットと称する。

（発明が解決しようとする課題）しかしながら、このような従来の音声標準パタンの登録
技術では、話者に対して指示した単語が指示どおりに発
声されていることを前提にしでおり、読みや発声の誤り
、音声以外の音が入力された場合でも指示した単語が発
声されたとしで、音声の標準パタンの作成が行われでい
た。従って、例えば発声者のＲｆｉ発声の際に言い誤り
、或いは雑音の混入などによって、登録すべき音声以外
の音の特徴パタン（ここでは不良特徴パタンと称する）
が生したとする。この場合の単語の特徴空間内での各特
徴パタンの配置は、例えば第３図のようになる。ここで
、ｎ番目の単語のｉ番目の登録発声の特徴パタンをＰ、
、ｌとする。また、登録発声が正常に行われた場合には
特徴パタンＰ、、Ｉはそれぞれ特徴空間内のＣ，、の範
囲内に納まるとする。

例えば、不良特徴パタンＰ３□か生じた場合には、従来
技術ではその音の特徴を用いて音声標準パタンが作成さ
れるために、音声標準パタンの質を悪くし、音声認識の
際に認識率を悪くする原因となる不良特徴パタンＰ３□
が音声標準パタンの決定に用いられでしまうという問題
があった。

このような質の悪い音声標準パタンの登録を回避し、音
声認識の際の認識率の低下を図るためには、前述したよ
うな不良特徴パタンを用いず、新たに単語名Ｃ３の登録
発声を要求し、正常な特徴パタンＰ゛、２を得ることに
よって良好な標準パタンセットを作成すればよい。

この発明の目的は以上述べた音声の標準パタンとしての
登録の際の言い誤り、雑音の混入などによる標準パタン
の悪化を防ぎ、認識率の高い音声認識を可能とする音声
の登録方式を提供することにある。

（課題を解決するための手段）この目的の達成を図るため、この発明によれば、音声標準パタンを読み出し自在に登録しておく１、：め
の標準パタン辞書メモリと、外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、腿類似度に基づいて認識結果を外部処理装置へ出力する
ように構成した音声認識製画の当該標準パタン辞書メモ
リに音声標準パタンを登録する方式においで、前記認識部に、登録したい複数の単語名を１ｆｉ類当り複数回発声しＣ
得られた名々の入力音声の特徴パタンを標準パタンとし
て収集して初期標準パタンセットを形成する処理を実行
する初期標準パタンセット作成手段と、前記初期標準パタンセット中のある１つの特徴パタンに
対する他の特徴パタンの距離を全て計算し、最も距離の
短い特徴パタンか同一種類の単語名でない場合にこの特
徴パタンを不良特徴パタンと判定する処理を全特徴パタ
ンに対しで実行するための不良特徴パタン判定手段と、前記不良特徴パタンの単語名についで初期標準パタンセ
ットの作成及び不良特徴パタン判定についての処理を不
良特徴パタンか無くなるまで繰り返し実行させるための
再登録操作手段とを設け、得られた良好な特徴パタンがら成る標準パタンセットに
基づいて得た音声標準パタンを前記標準パタン辞書メモ
リに登録することを特徴とする３（作用）上述したこの発明の構成によれば、音声認識における標
準パタン登録方式において、単語音声を１種類当り２回
収上発声し、各々の発声の音声としての特徴を表現する
パタン（以降特徴パタンと称する）を標準パタンとして
登録・保存するような場合を考える。まず、話者に登録
しようとする単語名を１種類当つ複数回発声させる指示
を与え、１回の発声毎にその単語発声音から、認識部に
設けた初期標準パタンセット作成手段により、特徴パタ
ンを収集し、指定されたＮ個全ての種頚の単語について
指定された■回合ての発声回数についてのＮＩ個の特徴
パタンを１セツトとして初期標準パタンを認識部中に設
けた或いは認識部外に設けた適当なメモリに格納する。

次に、不良特徴パタン判定手段により、この初期標準パ
タンセット中のあるひとつの特徴パタンに対する他の特
徴パタンの距離を全て計算し、最も距離の小さい特徴パ
タンか同一種類の単語ではない場合にこの特徴パタンを
不良特徴パタンと判定する。また、一種類の単語中の不
良特徴パタンの割合が半分以上となるような場合には、
この単語に含まれる特徴パタンを全で不良特徴パタンと
判定する。

全での単語の全ての特徴パタンについて不良特徴パタン
かどうかを判定し、不良特徴パタンとなったものについ
ては、再登録操作手段によって、対応する単語名の再発
声を話者に指示して初期標準パタンの作成と不良特徴パ
タンの判定と処理等の登録操作を再度行う。以上の操作
を不良特徴パタンか無くなるまで繰り返し行う。

このように、この発明の方式によれば、不良特徴パタン
を検出したとき再登録操作を実行する構成となっている
ので、最終的に良好な特徴パタンかう成る標準パタンセ
ットを得る。このような良好な標準パタンセットの特徴
パタンの中から従来と同様に候補パタンを選別して音声
標準パタンを決定しこれを標準パタン辞書メモリに格納
するので、音声認識の際の認識率が向上する。

（実施例）以下、図面を参照して、この発明の実施例につき説明す
る。

第１図はこの発明の音声標準パタン登録方式の一実施例
を説明するためのブロック図、第４図はこの発明の登録
方式を実行する手順を示す動作の流れ図である。第４図
（Ａ）は初期標準パタンセットの作成、第４図（Ｂ）は
不良特徴パタンの判定及び第４図（Ｃ）は再登録操作の
各処理の動作の流れ図である。尚、第１図にあいで、第
２図で説明した構成成分と同一の構成成分についでは、
特に言及する場合を除き、同一の符号を付しで示し、そ
の詳細な説明を省略する。

この発明の音声標準パタン登録方式によれば、認識部に
初期標準パタンセット作成手段３１０、不良特徴パタン
判定手段３２０及び再登録操作手段３３０ヲ、従来の音
声認識機能に追加して設ける。

従って、このような新たな機能をもったこの発明の認識
部を３０で示す。

この認識部３０に設けた初期標準パタンセット作成手段
３１０は、登録したい複数の単語名を１種類当つ、すな
わち同一カテゴリ毎に、複数回発声して得られた各々の
入力音声の特徴パタンを標準パタンとして収集して特徴
パタンの初期セットを形成する。この特徴パタンの初期
セラ１〜を初期標準パタンセットとする。

不良特徴パタン判定手段３２０は、この初期標準パタン
セット中のある１つの特徴パタンに注目し、この注目し
た特徴パタンと他の全ての特徴パタンとの距離計算を行
って、最も距離の短い特徴パタンを選び、当該最短距離
の特徴パタンか前述の注目した特徴パタンと同一種類の
単語名でない場合には、この注目した特徴パタンを不良
特徴パタンと判定する。この処理を全ての特徴パタンに
注目して行う。

再登録操作手段３３０は前述した判定処理で不良特徴パ
タンと判定された単語名について、再び話者に当該単語
名の発声を要請し、前述した初期標準パタンセットの作
成及び不良特徴パタンの判定の処理を、不良特徴パタン
か無くなるまで、繰り返し実行させる。

以下、第１図及び第４図（Ａ）〜（Ｃ）を参照しで、こ
の発明の音声標準パタンＢ録方式に従って、初期標準パ
タンセットを作成し、不良特徴パタンを検出し、再登録
操作によって最終的に良好な標準パタンセットを得るま
での処理手順の一実施例につぎ説明する。尚、第４図（
Ａ）、第４図（Ｂ）及び（Ｃ）において、処理ステップ
ｔＳで表わし、又、図中、■、■及び■は動作の続き関
係をそれぞれ示ず。

く初期標準パタンセット作成手段〉処理はまず、初期標準パタンセットのなかのどの特徴パ
タンを作成するかを定めるｎ及びｉｔｌに初期化するこ
とから始める（Ｓｌ）。次に、ｎ番目の単語名Ｃ１の登
録発声を登録話者に対しで要求し、発声を促す（Ｓ２）
。尚、この実施例では単語のｔ！類をＮとし、１単語当
りの発声回数を３回とする。この発声により外部音声入
力表Ｍ１０、Ａ／Ｄ変換部１２を経て特徴抽出部１４及
び音声切り出し部１６のそれぞれからの単語音声の入力
を受ける（Ｓ３）。これらの入力を受けて、この初期標
準パタンセット作成手段３１０は、例えば本出願人によ
る先の出順（特開昭６２−２１１６９８）において提案
されでいる方法により、単語音声区間の検出を開始する
。この単語音声区間内の入力フレームデークに対し、例
えば先に記載した（特開昭６２−１５９１９５）におい
で提案されている方法によって特徴パタンを作成し、Ｐ
ｎｌとして記憶する（Ｓ４）、そして、同一単語での発
声回数をカウントするｉに対して１を加え（Ｓ５）、発
声回数である３と比較しくＳ６）、３以下であれば同一
の単語名に対する登録発声の要求（Ｓ２）に戻る。もし
も３より大きければ、ｎ番目の単語名Ｃ，，に対する登
録発声は終了したので、ｉを１に戻し、ｎに１を加える
（Ｓ７）、最少にｎと単語数Ｎとを比較し、ｎ≦Ｎなら
ば登録発声の要求（Ｓ２）に戻る（Ｓ８）、逆にｎ＞Ｎ
ならば初期標準パタンセット−の作成が終了したので、
第４図（８）の不良特徴パタン判定手段３２０での処理
へ移る。

く不良特徴パタン判定手段〉不良特徴パタンの判定処理に入ると、まず、判定を行う
べき単語名の番号ｎｉｌとし、総不良特′徴パタンの数
ＢをＯとする（Ｓ９）、次に、いま着目しているｎ番目
の単語に対する不良特徴パタンの数Ａを０とする（ＳＩ
Ｏ）、ざらに、この単語内で着目すべき発声回数の番号
ｉを１とする。

ここで、判定の対象となる特徴パタンの単語番号ｎと発
声回数ｉが定まったので、特徴パタンＰ。

が不良特徴パタンであるがどうかの判定を行う。

特徴パタンＰｎｌともう１つの特徴パタンＰ、、（ただ
し、ｘ＝１．２、・・・　Ｎ：Ｖ＝１．２．３　；　ｎ
＃ｘまたはｉ≠ｙ）との間の距離ｎ　ｌ　Ｄ　ｘ　ｙを
全てのｘ、ｙの組合せに対しで求める。特徴パタン間の
距離は、例えば特開昭６２−７３２９９に開示される線
形伸縮によるパタンマツチングや、特開昭６２−７３．
２９８に開示される動的計画法によるパタンマツチジグ
により計算する（Ｓ１１）。次に、処理ステップＳ１１
で求めた距離、、ｌＤ、、ｖのうち、最小のもののｘ、
ｙ％それぞれＸ、Ｙとする（Ｓ　１２）　、そして、Ｘ
とｎとを比較しくＳ　１３）　、もしも一致していなけ
れば、Ｐｎｌは単語名Ｃ０以外の単語名の特徴パタンと
最も距離が近いので、不良特徴パタンと判定し、不良特
徴パタン数Ａに１を加える（Ｓ　１４）　、もしもこの
処理ステップＳ１４でＸとｎが一致しでいれば、Ｐｎｉ
は不良特徴パタンではないので、次の処理ステップへ実
行を移す。ここで次のパタンを判定の対象とするため、
ｉに１を加える（Ｓ１５）。もしもｉが３以下ならば同
じ単語名Ｃ，。

の次の発声の特徴パタンに対する判定（Ｓｌｌ）〜（Ｓ
　１４）に戻り、ｉが３よりも大きければ、処理ステッ
プＳ１７に移る（Ｓ　１６）。処理ステップＳ１７では
ｎ番目の単語に対する不良特徴パタン数Ａと１単語当り
の特徴パタン数（実施例では３）に対する過半数の２と
を比較し、Ａが２以上であれば、次の処理ステップＳ１
８に移り、このｎ番目の単語の特徴パタンは全て不良特
徴パタンであるとして、全てのｉに対するＰ０□を不良
特徴パタンと判定し、不良特徴パタン数Ａを３とする。

ここで、ｎ番目の単語に対する不良特徴パタンの判定が
おわったので、総不良特徴パタン数−Ｂにｎ番目の単語
の不良特徴パタン数Ａを加え、ざらに次の単語名の特徴
パタンを判定の対象とするためにｒｌに１を加え、次の
処理ステップへ移る（Ｓ　１９）　、このｎと単語数Ｎ
との比較処理を行い（Ｓ２０）、ｎが単語数Ｎ以下なら
ば、処理ステップ（ＳＩＯ）へ戻り、単語名Ｃ１の３つ
の特徴パタンについての判定に戻る。この判定処理（Ｓ
２０）で、もしもｎが単語数Ｎよりも大きければ処理ス
テップ（３２１）に移る（Ｓ２０）。

ここでＢがＯならば（Ｓ２１）、全ての特徴パタンは不
良特徴パタンではないので一連の処理の終了となる。も
しもＢかＯでなければ（Ｓ２１）、処理ステップＳ１４
で不良と判定された全ての特徴パタンＰ、、ＩｌＬ：則
して代わりの特徴パタンを登録する（以降これを再登録
と称する）処理を行うために第４図（Ｃ）に示す再登録
操作手段３３０での処理に移る。

く再登録操作手段〉まず、再登録のパタン数をカウントするｋを１とする（
Ｓ２３）。次（こに番目の不良特徴パタンの単語名の再
登録発声を登録話者に対しで要求する（Ｓ２４）、そし
て、単語音声の入力を受ける（Ｓ２５）、ここでは、第
４図（Ａ）で示した処理ステップ＄３と同様の単語音声
区間を検出する。この単語音声区間内の入力フレームデ
ーウに対し、第４図（Ａ）で示した処理ステップＳ１４
と同様の方法により特徴パタンを作成し、ｋ番目の不良
特徴パタンを消去すると同時にこの消去した特徴パタン
と同じｎ、ｉを持つ特徴バクンＰ、、１として格納する
（３２６）。

次にｋに１を加え（Ｓ２７）、不良特徴パタン数Ｂと比
較しく５２８）、ｋ＞８でなければ次の不良特徴パタン
の再登録のために処理ステップＳ２４に戻る。ｋ＞８な
らば、全ての不良特徴パタンか消去され、再登録によっ
で新（）い特徴パタンが格納されているので不良特徴パ
タン判定手段３２０での、第４図（Ｂ）で示した処理ス
テップＳ９に戻り、標準パタンセットの中の不良特徴パ
タンを判定する処理に戻る。

以上の処理を不良特徴パタン数日がＯになるまで繰り返
す（５９〜５２８）。

この発明は上述した実施例にのみ限定されるものではな
く多くの変形又は変更をなし得ること明らかである０例
えば、上述した実施例では、初期標準パタンセフ１〜作
成手段３１Ｏ５不良特徴パタン判定手段３２０及び再登
録操作手段３３０を、従来の音声認識処理に設けられて
いる認識部に追加して設けているが、この場合従来の音
声標準パタンの登録機能に追加して或いはその代わりに
、設けた構成とすることが出来る。

尚、上述した実施例では、この種の音声認識処理には常
套手段であるメモリ、制御部、その他の処理回路等の図
示及び説明を省略したが、これらは所要に応じ、設ける
ことが出来る。

（発明の効果）上述した説明から明らかなように、この発明の音声標準
パタン登録方式によれば、音声を登録する際に生ずる言
い誤り、雑音の混入などが生じた場合でも、各単語のそ
れぞれの特徴パタンについて、他の全ての特徴パタンと
の距Ｎｉヲ求め、最も距離の小さな特徴パタン同志が同
一単語名であるかどうかということで特徴パタンの良・
不良が判定できる。この判定に基づいて、不良特徴パタ
ンについての再登録を行い、不良特徴パタンの無い標準
パタンになるまで判定と再登録を繰り返すことで良好な
標準パタンセットが得られ、音声認識における登録に用
いた場合には高い認識率か得られる。

【図面の簡単な説明】

第１図はこの発明の音声標準パタン登録方式の実施例の
説明に供するブロック図、第２図は従来の音声標準パタン登録方式の説明に供する
ブロック図、第３図はこの発明及び従来方式の説明に供する、不良特
徴パタンを含む標準パタンセットの説明図、第４図はこの発明の音声標準パタン登録方式の動作処理
手順の実施例を示す動作の流れ図である。１０：外部音声入力装百、１２：　Ａ／Ｄ変換部１４、
特徴抽出部、　　　１６　　音声切り出し部２０：標準
パクン辞書メモリ２２　　認識結果出力部、　２４．外部機器３０・認識
部３１０初期標準パタンセット作成手段３２０：不良特徴パタン判定手段３３０・再登録操作手段。特許出願人沖電気工業株式会社特徴空間不良特徴パタンを含む標準パタンセットの説明図＠３図動作の流れ図第４図＜Ａ＞動作の流れ図第４図（Ｃ）

Claims

【特許請求の範囲】

（１）音声標準パタンを読み出し自在に登録しておくた
めの標準パタン辞書メモリと、外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、該類似度に基づいて認識結果を外部処理装置へ出力する
ように構成した音声認識装置の当該標準パタン辞書メモ
リに音声標準パタンを登録する方式において、前記認識部に、登録したい複数の単語名を１種類当り複数回発声して得
られた名々の入力音声の特徴パタンを標準パタンとして
収集して初期標準パタンセットを形成する処理を実行す
る初期標準パタンセット作成手段と、前記初期標準パタンセット中のある１つの特徴パタンに
対する他の特徴パタンの距離を全て計算し、最も距離の
短い特徴パタンが同一種類の単語名でない場合にこの特
徴パタンを不良特徴パタンと判定する処理を全特徴パタ
ンに対して実行するための不良特徴パタン判定手段と、前記不良特徴パタンの単語名について初期標準パタンセ
ットの作成及び不良特徴パタン判定についての処理を不
良特徴パタンが無くなるまで繰り返し実行させるための
再登録操作手段とを設け、得られた良好な特徴パタンから成る標準パタンセットに
基づいて得た音声標準パタンを前記標準パタン辞書メモ
リに登録することを特徴とする音声標準パタン登録方式
。