JPH0160159B2

JPH0160159B2 -

Info

Publication number: JPH0160159B2
Application number: JP58031550A
Authority: JP
Inventors: Atsuo Tanaka; Tooru Ueda
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1983-02-25
Filing date: 1983-02-25
Publication date: 1989-12-21
Also published as: JPS59157699A

Description

【発明の詳細な説明】＜技術分野＞本発明は音声入力装置における音声登録方法の
改良に関するものである。

＜背景技術＞一般に大語彙の音声認識を行なう場合、従来の
ように単語単位で音声を発声して、その音声を登
録していたのでは膨大な音声を全て発声しなけれ
ばならず、その労力も相当なものになる。また語
彙数の増大による単語間の誤りも顕著になり実用
的でなくなつて来る問題点がある。

従つて、大語彙の音声認識を考えた場合、音声
を詳細に分析し、できる限り音声の特徴を引き出
す必要がある。そこで音声を単語単位でなく、音
素や音節といつたより微少時間の単位に分割し
て、その単位で識別を行なうことが提案されてい
る。

また、音素や音節は数十から高々数百の種類で
あるので、少ない音声の登録で大語彙の音声認識
ができ、有効であると考えられる。

しかしながら、各音素や音節は発声毎にばらつ
き、発声の仕方の違い、前後の音声の影響等のた
めに多種多様な変形を受けるため、音声の登録も
それらの影響を予め考慮しておく必要がある。

そのため、ある一つの音素や音節に対して、予
め変形を受けた多数の音声を登録しなくてはなら
なくなる。このことは処理量の増大を招き、登録
すべき音声の数も増大してしまうため、音素や音
節単位で識別を行なう利点が失なわれる。

一方、各音素や音節は全て同じ出現頻度で現わ
れることがなく、また識別率も全て同じではな
い。出現頻度が高く識別率の低い音素や音節に対
してはより注意深く取り扱う必要があるが、出現
頻度の極めて少ないものに対してはより多くの処
理を行なわなくてもよい。

音素や音節の出現頻度や識別率を考慮して音素
や音節の登録または再登録を行なうことにより、
全体としての性能を維持したままで、より少ない
処理量で識別を行なえる可能性がある。

＜目的＞本発明は上記のような観点でなされたものであ
り、より少ない数の音声の登録で、高い認識性能
を維持することが可能な音声登録方法を提供する
ことを目的とするものである。

＜実施例＞以下、図面を参照して本発明を詳細に説明す
る。

第１図は本発明の音声登録方法を実施した音声
入力装置の一例を示すブロツク構成図である。

第１図において、１は音節音声識別部であり、
該音節音声識別部１では区切つて発声された単音
節や連続音声から抽出された音節部の認識を行な
い、その音節の識別結果を出力して、判定結果処
理部２へ送る。上記音節音声識別部１は音節の標
準パターンを格納するメモリ１１を有し、入力さ
れ検出された音節音声から作成された入力パター
ンと標準パターンとのパターンマツチングを基本
として音節識別を行なう。

判定結果処理部２は上記音節音声識別部１から
送られて来る識別結果を記憶する識別結果記憶メ
モリ２１を有し、該メモリ２１に記憶された内容
にもとずいて、一旦、音節、単語、文節、文章等
の単位で音節符号を表示部３へ送る。上記表示部
３では適当なフオーマツトでこれらの文字列を表
示することになる。

オペレータは表示部３に表示された識別結果を
見て、どの音節の識別結果が誤つたかを見つけ、
誤識別結果指示手段４を構成している手動スイツ
チ、キーボードあるいはライトペン等の手動の入
力操作によつて、判定結果処理部２に識別の誤つ
た音節を指定するコードや番号を入力する。

一方、上記判定結果処理部２内に設けられた音
節出現回数計数手段２２及び誤り回数計数手段２
３によつて識別されてメモリ２１に記憶された各
音節の出現回数のカウント数がインクリメントさ
れると共に、誤識別結果指示手段４によつて指示
された音節の誤り回数のカウント数がインクリメ
ントされ、その結果が各音節毎の出現回数記憶メ
モリ２４及び誤り回数記憶メモリ２５に記憶され
る。

また判定結果処理部２は該処理部２内の変換手
段２６によつて上記メモリ２４及び２５に記憶さ
れた各音節毎の出現回数計数値及び誤り回数計数
値から各音節の出現率と識別率を求めて音節出現
率表記憶メモリ５１及び音節識別率表記憶メモリ
５２の内容を修正する。

具体的には、例えばメモリ２４に記憶された各
音節の出現回数のカウント数の総和を求めてか
ら、この総和で各音節の出現回数のカウント数を
割つた値を各音節の出現率a_i（ｉは音節の種類を
表わす番号）とし既に音節出現率表記憶メモリ５
１に記憶されている音節ｉの出現率b_iと例えば
（kb_i＋a_i）／（ｋ＋１）なる演算（ｋは適当な
値、例えば１〜10のある値）によつて得られる値
をb_iと置き換えてメモリ５１に記憶させるように
変換手段２６が構成されている。同様に誤り回数
に対しても、同様の処理が実行され、音節出現回
数の総和で各音節の誤り回数のカウント数を割つ
た値を各音節の誤り率d_iとし、既に音節識別率表
記憶メモリ５２に記憶されている音節ｉの誤り率
e_iと例えば（he_i＋d_i）／（ｈ＋１）なる演算（ｈ
は適当な値）によつて得られる値をe_iと置き換え
てメモリ５２に記憶させる。

このようにして、最近の頻度情報（出現、誤
り）を音節出現率表及び音節識別率表に盛り込ん
でいくことになる。

以上のようにして各音節の出現率及び誤り率を
頻度や度数の形で判定結果処理部２内に記憶して
おいて適宜（例えば入力音節数がある回数になつ
た時）出現率と識別率に変換し、処理部２内の頻
度や度数はリセツトされる。

なお、メモリ５１及び５２内の記憶内容の修正
を各音節の処理が終る毎に行なうようにしてもよ
い。

６は登録判定部であり、該登録判定部６は上記
メモリ５１及び５２に記憶されている出現率表及
び識別率表にもとずいてメモリ１１に登録されて
いる標準パターンの内の変更を要するものを判定
して、その結果を判定結果処理部２へ入力して、
表示部３に再登録すべき音節を表示すると共にメ
モリ１１内の所望の音節に対する標準パターンの
書き換えを可能な状態にする。

上記登録判定部６の判定動作は各音節に対する
誤り率e_iがある閾値Ｅを越えたことを判断して行
なわれ、この結果として表示部３に音節ｉの文字
を表示する。

なお、上記閾値Ｅは出現率b_iの値に応じて複数
個設定されることが望ましく、例えば出現率B₁、
B₂、B₃（B₁＞B₂＞B₃）とした場合、b_i＞B₁の音
節に対してはe_i＞E₁、B₁＞b_i＞B₂の音節に対して
はe_i＞E₂、B₂＞b_i＞B₃の音節に対してはe_i＞E₃
（E₁＜E₂＜E₃）の場合に再登録を指示するように
成せば、出現率のより高い音節についてはより低
い誤り率の場合にも再登録指示が成されることに
なる。

オペレータは表示部３に表示される音節文字を
確認して登録のやり直しをするか否かを判断する
ことになる。

なお、初期の登録の際には、予め別の話者か標
準的なものとして得られている出現率表や識別率
表に基いて各音節の標準パターンの個数を算定す
ることになる。

また連続音声でも文の初めや単語の語頭では音
節音声の先端部は無音区間の後に続いて現われ
る。従つて、同じ音節でも発声状況によつて標準
パターンが大変異なつたものとなり、音節の標準
パターンとしては音声区間中から抽出したもの
と、無音区間の後から抽出したものが必要とな
る。その他の調音結合による効果も考えれば、一
つの音節に対して多種の標準パターンが必要であ
る。

再登録の際には、一つの音節のどの発声条件で
の音声の登録が必要であるかの情報も含めて登録
判定部６より再登録すべき音節情報を判定結果処
理部２に送る。

ある音節の出現率が高くてしかも識別率が悪い
場合には再登録が急がれる。このような場合、判
定結果処理部２はこの音節の文字を表示部３で区
別表示させるように指示してもよい。例えばデイ
スプレイではその片隅にその文字を点滅させた
り、異なる色で表示させたりするように成せば良
い。

以上に述べた実施例は音節単位に識別の誤りを
指定できる装置に適用した場合であるが、音節単
位の識別で単語や文節等を認識する場合、音節の
誤りを指定できないことがある。

例えば、単語認識の場合、単語の認識結果をひ
らがなやカタカナの文字列で表示するよりも漢字
で表示した方が分かりやすい。従つて、音節単位
で誤りを指定するよりも単語単位で誤りを指定し
た方が全体の処理効率が高くなることが起こる。

このような場合の処理方法の一例を以下に示
す。

今、「たまがわ」と発声した音声入力の識別結
果として第２図ａで示すように音節「た」に対し
て音節候補「か」、「ぱ」、「た」が得られたとす
る。

なお、音節文字の下に示されている数値はその
候補の信頼性に関する量を表わしたものである。
この値は信頼性を表わす量と尤度、類似度、距
離、第１候補に対する距離比等を用いることがで
きる。ここでは、入力音節のパターンと音節標準
パターンとのユークリツド距離を例に示す。各音
節候補の信頼度は距離が大きくなるに従つて下が
る。

単語候補に対する距離を各音節候補の距離の和
で表わし、信頼度の高い順に並べると第２図ｂの
ようになる。入力される単語を地名に限り、単語
辞書（後述）に「かまがわ」や「ぱまがわ」がな
ければ地名単語として第２図ｃのようなものが候
補として残ることになる。

音節単位の識別で単語を認識する場合には、第
３図に示すような音節列候補作成部２７、単語辞
書２８及び辞書照合部２９の機能手段を判定結果
処理部２は備えている必要がある。ここで音節音
声識別部１からは第２図ａのように信頼度に関す
る量と同時に音節候補が出力される。音節列候補
作成部２７は第２図ｂのように信頼度の順に音節
列候補を作成して辞書照合部２９へ送る。辞書照
合部２９は音節列候補が単語辞書２８に有るかど
うかを検出し、なければ除外して、単語辞書に有
つた単語候補を表示部３へ送る。

文章や文節の認識の場合にも、辞書や照合のみ
ならず複雑な処理を必要とするが、いずれにして
も音節候補から文節候補、文章候補を表示部３に
出力することになる。

第２図ｃに示すように「たまがわ」と発声した
にもかかわらず表示された第１単語候補は「神奈
川」となつたとすると、この場合第２、第３候補
まで表示させて、正しい単語は「玉川」であるこ
とを指定すべく手動操作で判定結果処理部２に情
報を送れば音節候補（第２図ａから「た」を
「か」に誤つたということが分かり識別の正誤の
計数が誤り回数計数手段２３で行なわれる。

しかし、実用的見地から、第１単語候補が誤つ
た場合には、すみやかに発声し直した方がよい事
がある。この場合、「神奈川」が誤りであること
は分かるが、「か」「な」「が」「わ」のどの音節が
誤つたかは分からない。これらの各音節の頻度や
正誤の度数を計数からはぶくことが妥当な場合も
あるが、計数を要する場合には問題である。この
ような場合、誤つた音節列（今の場合「かまが
わ」）を一旦記憶しておき、発声し直して正しい
と判定された音節列（今の場合「たまがわ」）と
比較すれば、「た」を「か」と誤つたことが分か
り頻度や正誤の度数に加算することができる。

連続音声から音節部を検出して音節毎に識別す
る方法よりも、区切つて発声された音節の識別の
方が一般に識別率が高いと考えられる。従つて、
連続音声から音節部を検出して音節毎に識別して
いく方法で、識別を誤つた音節を表示部のカーソ
ルを移動して、例えばカナ文字列の相当する位置
にもつていつて、その音節のみを発声して識別さ
せることによつて修正を行うことも考えられる。
このとき音声は区切り発声の音節音声になつてい
るので識別は比較的容易である。この場合、同じ
音節を再び同じ音節と誤れば、自動的に別の音節
候補に修正することによつて、一つのカナ文字を
修正するのに数多くの発声は避けられる。

これらの動作を行うための装置の構成例を第４
図に示す。

この第４図に示した装置の構成動作を前述の第
２図に示した例を用いて説明する。

表示部３には最初の認識結果「神奈川」が表示
されているが、誤りであることをキーボード４１
で指定して、「金沢」と表示し直し、更に誤りを
指定した後「玉川」と表示される。このときの単
語項目の辞書はメモリ２８に格納されている。音
節識別結果の文字列「か」「ま」「が」「わ」はメ
モリ７１に記憶されている。

メモリ７２は各音節に対して出現回数と誤つた
回数を格納している。第２図の例の場合、正回答
が「玉川」であると分つた後（次の発声を行うと
同時に正しい回答であると判断することもでき
る）、音節照合部２０の照合結果によりメモリ７
２の中の「ま」「が」「わ」の各音節の出現回数の
カウント数をインクリメントし、「か」の音節の
誤り回数のカウントをインクリメントする。

このようにしてメモリ７２は各単語の認識毎に
更新されていく。話者が適当な時期にキーボード
から指定すればメモリ７２の内容を変換手段２６
によつて処理した後にメモリ３１及び３２に記憶
された音節出現率表及び音節識別率表をこの処理
された内容を用いて更新することができる（この
処理を表の更新と呼ぶ）。

この処理の方法としては例えば、一旦、各音節
の出現回数のカウント数の総和を求めてからこの
総和で各音節の出現回数のカウント数を割つた値
を各音節の出現率a_i（ｉは音節を表わす番号）と
し、既に音節出現率表にある音節ｉの値b_iと例え
ば（kb_i＋a_i）／（ｋ＋１）なる演算（ｋは適当
な値、例えば、１〜10）によつて得られる値をb_i
と置き換える。これによつて、最新の頻度情報を
音節出現率表にもり込んでいくことができる。同
様に誤り回数に対しても、このような処理を行う
ことができる。各音節に対する誤り率（音節識別
率表に格納されている）をe_iとする。

このe_iがある閾値を越えたことを登録判定部６
が判定すると、判定結果処理部２を介して表示部
３に音節ｉの文字を表示する。従つて、登録のや
り直しをするかどうかを話者（使用者）が判断で
きるようになる。

各音節の出現率は必ずしも一つにする必要はな
く、音節当り標準パターンを５個持つような場合
には各標準パターンについてカウンタやメモリを
もつように成せばよい。

各音節標準パターンは同様の発声状態で得られ
たものとは限らず、例えば５個の標準パターンの
内２個は区切り発声の音節音声から作られてい
て、残りの３個は単語音声中の音節部から作られ
ていることもある。この場合、音節出現率表、音
節識別率表及びメモリ７２は各音節毎に値を記憶
するのではなくて、各標準パターン毎に値を記憶
している。

第２図の例で、第１音節「た」の音声は「か」
の３番目の標準パターンとの類似度が最も大きか
つて誤つたとするとき「た」の出現回数をインク
リメントして「か」の３番目の標準パターンに対
応する誤り数のカウントをインクリメントする。
表の更新の結果「か」の３番目の標準パターンに
対応する音節識別率表の値e_iがある閾値を越えた
場合にはこの「か」の３番目の標準パターンが作
成された音声と同じ発声状態で再登録する必要が
ある。例えばその音声が「いか」という音声の
「か」の部分から作成されたものであれば、表示
部に例えば「いか：再登録要」と表示することが
できる。この場合、音節音声識別部内の標準パタ
ーンの各パターン作成状態を記憶するメモリをメ
モリ７２に付け加えておく必要がある。

以上のようにして再登録の必要性のある音節が
音節の出現頻度及び誤り度数にもとずいて表示出
力されることになる。

＜効果＞以上の如く、本発明によれば、音声入力実行時
に得られた音節の識別結果の正誤を指示し、この
音節の識別結果及び正誤の指示にもとずいて各音
節の出現頻度及び誤り度数を求め、この求められ
た各音節の出現頻度及び誤り度数に関連して登録
あるいは再登録すべき音節を決定するように成し
ているため、全体としての性能を維持したまま
で、より少ない処理量で再登録を必要とする音節
を効率よく見出して、再登録処理することが可能
となる。

【図面の簡単な説明】

第１図は本発明を実施した音声入力装置の一例
を示すブロツク図、第２図は音声認識例の説明に
供する図、第３図は判定結果処理部２の一例を示
すブロツク図、第４図は本発明を実施した装置の
他の一例を示すブロツク図である。１……音節音声識別部、２……判定結果処理
部、２２……出現回数計数手段、２３……誤り回
数計数手段、２４……出現回数記憶メモリ、２５
……誤り回数記憶メモリ、３……表示部、４……
誤識別結果指示手段、５１……音節出現率表記憶
メモリ、５２……音節識別率表記憶メモリ、６…
…登録判定部。

Claims

【特許請求の範囲】１音声入力実行時に得られた音節の識別結果の
正誤を指示し、前記音節の識別結果及び正誤の指
示に基づいて各音節毎に出現率と誤り率とを求
め、一方、予め前記出現率の大きさに対応させて前
記誤り率のしきい値を夫々設定しておき、前記音節の誤り率が当該音節の出現率に対応す
る前記誤り率のしきい値より大きいと判定されれ
ば当該音節の再登録を促すように成したことを特
徴とする音声登録方法。