JPH07192093A

JPH07192093A - 文字や音声の認識装置における認識評価閾値の作成方法

Info

Publication number: JPH07192093A
Application number: JP5330606A
Authority: JP
Inventors: Hideaki Tanaka; 秀明田中
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1993-12-27
Filing date: 1993-12-27
Publication date: 1995-07-28
Anticipated expiration: 2017-08-05
Also published as: JP3312149B2

Abstract

(57)【要約】【目的】不健全なデータを反映した認識評価閾値を自動
的に計算して求めることが可能な認識評価閾値の作成方
法を提供する。【構成】本発明にかかる認識評価閾値の作成方法は、既
存システムを用いての入力データに対する認識処理及び
言語処理を行って作成された最終認識結果が信頼できる
か否かを判定したうえ、最終認識結果が信頼できる場合
には、全ての分割認識結果のうちから最終認識結果に採
用された分割認識結果を判定し、不採用とされた分割認
識結果の認識評価値を基にして対応する辞書カテゴリの
評価値頻度を示す不採用評価値ヒストグラムを作成した
後、作成された不採用評価値ヒストグラムから評価値頻
度が所定値以上となる辞書カテゴリごとの最小の評価値
を求め、この最小の評価値を認識評価閾値とすることを
特徴としている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字や音声の認識装置
における認識評価閾値の作成方法に関する。

【０００２】

【従来の技術】一般的な文書や音声を対象とした従来の
認識装置、例えば、英文字ＯＣＲ（光学的文字読み取り
装置）などにおいては、特開昭６３−２１６１８８号公
報などで開示されているように、文字の接触や分離があ
るため（音声の場合には音節が接触しているため）、種
々の手法によって入力（画像）データの分割位置を設定
し、全ての分割区間に対しての認識処理を行った後、各
分割区間ごとの認識結果である分割認識結果を基にした
うえでの言語処理を行って認識結果文字列（組み合わせ
文字列）を作成し、作成された認識結果文字列を言語辞
書などと照合することによって正解の文字列を得る、と
いう一連の手順に従ったラティス方式といわれる処理方
法が採用されている。しかしながら、このラティス方式
では高精度の認識率を実現できるにも拘わらず、全ての
分割区間での認識処理と、多数の認識結果文字列を作成
するための言語処理とが必要になるため、処理速度が低
下することになってしまう。

【０００３】そこで、従来においては、認識辞書の作成
時に用いた学習データによって入力データを構成する各
文字ごとの認識評価値（類似度や距離尺度など）に対す
る閾値、すなわち、認識評価閾値を設定しておいたり、
入力データ長から文字数（または音節数）を推定した
り、あるいは、分離位置数を極力減らすなどの処理を行
ったうえでの組み合わせルール（経験則）を用いたりし
て組み合わせの総数（全組み合わせ数）を削減すること
によって処理速度の向上を図るようにしている。そし
て、これら全組み合わせ数を削減する方法のうちで最も
効果的なのは、認識評価閾値を設定しておく方法であ
り、この方法が効果的なのは、ある分割区間の分割認識
結果を確定できれば、その間における他の分割認識結果
を完全に無視できるからである。

【０００４】すなわち、図８で示す“Ｓｏｆｔｗａｒ
ｅ”という単語が入力データである場合を考えると、こ
の単語に対しては図中の１から１３までの分割番号で示
したような分割位置が設定されることになり、通常時に
おいては、図９で示すように、分割番号０からは１，
２，３へと、また、分割番号２からは３，４，５へと続
く全てのパスでの認識処理が順次行われる。ところが、
認識評価閾値を設定したことにより、分割番号０からは
２へと、さらに、分割番号２からは４へというようなパ
スの特定を行うことができれば、図中の仮想線で囲んだ
範囲内にあるパス、例えば、分割番号０から１，３へ
と、また、分割番号２から３，５へというようなパスに
おける認識処理を実行する必要がなくなる結果、処理速
度の向上を図ることが可能になるのである。

【０００５】

【発明が解決しようとする課題】ところで、前記従来例
の認識装置において、緩い認識評価閾値を設定した場合
には誤認識が増えることになり、また、認識評価閾値を
厳しくした場合には多大の処理時間を要したにも拘わら
ず分割認識結果が得られにくいことになるのが現状であ
り、最適な認識評価閾値を設定するのは大変に困難なこ
ととなっていた。そして、最適な認識評価閾値を設定す
るのが困難となる原因は認識手法（認識評価値）の曖昧
さにあるとする考えがあり、このような考えに基づいて
は、曖昧な認識評価値を確率値に変換する試みもなされ
ている（瀬川英生：“複合類似度法における類似度値の
分布について”信学技報、PRU87-18、(1987)）。

【０００６】しかしながら、最適な認識評価閾値を設定
するのが困難となる真の原因は、「一般的な認識装置へ
の入力データが必ずしも健全ではない」ところにある。
すなわち、英文字ＯＣＲにおいては、“ｒ”と“ｎ”と
が接触したパターンである接触文字“ｒｎ”は“ｍ”と
類似し、また、“ｏ”が分離してなるパターンは分離文
字“（”及び“）”として認識されることがあるにも拘
わらず、これらの不健全なデータを無視したうえでの健
全な学習データのみを用いて求められた認識評価閾値を
設定したのでは、種々の弊害が発生することになってし
まう。そして、このような不都合を解消するためには、
健全な学習データに対して不健全なデータをも加えたう
えでの認識評価閾値を求めて設定する必要があることに
なる。

【０００７】ところが、不健全なデータである接触文字
や分離文字についての組み合わせは巾（ベキ）乗で増加
するから、このような不健全なデータをも考慮した認識
評価閾値を計算によって求めるのは事実上不可能に近い
ことになる。なお、不健全なデータを一般原稿からある
程度収集したうえで認識評価閾値を求めることも考えら
れているが（MINDY BOKSER：“Omnidocument Technolog
ies”PROCEEDINGS OFTHE IEEE．VOL.80 NO.7.JULY199
2）、この場合においても非常に莫大なデータ処理を要
することになり、多大な手間及び時間を必要とすること
になっていた。さらにまた、音声の認識装置において
は、入力データが音声であるという性質上、不健全なデ
ータを収集しにくいという不都合が生じることになって
いた。

【０００８】本発明は、これらの不都合に鑑みて創案さ
れたものであって、不健全なデータを反映した認識評価
閾値を自動的に計算して求めることが可能な認識評価閾
値の作成方法を提供することを目的としている。

【０００９】

【課題を解決するための手段】本発明にかかる認識評価
閾値の作成方法は、このような目的を達成するため、既
存システムを用いての入力データに対する認識処理及び
言語処理を行って作成された最終認識結果が信頼できる
か否かを判定したうえ、最終認識結果が信頼できる場合
には、全ての分割認識結果のうちから最終認識結果に採
用された分割認識結果を判定し、不採用と判定された分
割認識結果の認識評価値を基にして対応する辞書カテゴ
リの評価値頻度を示す不採用評価値ヒストグラムを作成
した後、作成された不採用評価値ヒストグラムから評価
値頻度が所定値以上となる辞書カテゴリごとの最小の評
価値を求め、この最小の評価値を認識評価閾値とするこ
とを特徴としている。

【００１０】

【実施例】以下、本発明方法の実施例を図面に基づいて
説明するが、本実施例における文字や音声の認識装置は
その一例としての英文字ＯＣＲであるものとしている。
なお、本実施例方法においては、入力データを構成する
各文字ごとの認識評価値が類似度、すなわち、その値が
大きいほど辞書カテゴリに近いとする類似度によって決
定されるとするが、これに限られることはなく、認識評
価値を距離尺度によって決定することも可能である。

【００１１】図１は本実施例にかかる英文字ＯＣＲの要
部構成を示すブロック図であり、この英文字ＯＣＲは、
入力データを読み取るイメージスキャナーなどのような
入力デバイス１と、従来例通りの認識処理及び言語処理
を行う既存認識システム部２と、不採用ヒスト作成部３
と、確定閾値計算部４と、認識結果バッファ５及び不採
用ヒストバッファ６と、これらの全体を統括的に制御す
る制御部７とから構成されている。そして、不採用ヒス
ト作成部３は、不採用と判定された分割認識結果の認識
評価値（類似度）を基にして対応する辞書カテゴリの評
価値頻度を示す不採用評価値ヒストグラム（以下、不採
用ヒストという）を作成するものであり、また、確定閾
値計算部４は、不採用ヒスト作成部３によって作成され
た不採用ヒストから評価値頻度が所定値以上となる辞書
カテゴリごとの最小の評価値を確定的な認識評価閾値、
いわゆる確定閾値として求めるものとなっている。

【００１２】さらに、ここでの認識結果バッファ５は既
存認識システム部２及び不採用ヒスト作成部３に対して
接続されたものである一方、不採用ヒストバッファ６は
不採用ヒスト作成部３及び確定閾値計算部４に対して接
続されたものであり、既存認識システム部２に対して
は、言語辞書８、認識辞書９及び最終認識結果バッファ
１０のそれぞれが接続される一方、確定閾値計算部４に
対しては確定閾値バッファ１１が接続されている。

【００１３】ところで、認識結果バッファ５は各分割区
間ごとの分割認識結果を格納しておくものであり、図２
で示すような構造、すなわち、開始分割番号部、終了分
割番号部、候補文字類似度部、候補文字コード部、候補
文字辞書番号部、候補文字採用フラグ部が１分割当たり
の構成（単位バッファ）とされた構造を有している。そ
して、候補文字類似度部及び候補文字コード部には分割
認識結果のそれぞれに対応した文字類似度及び文字コー
ドが候補順に従って格納される一方、候補文字辞書番号
部には各候補文字に対応した辞書カテゴリの番号が格納
されるようになっている。また、候補文字採用フラグ部
は不採用ヒストの作成時に用いられる採用フラグからな
り、各採用フラグに対しては不採用を示す０もしくは採
用を示す１が格納されるようになっている。なお、開始
分割番号部及び終了分割番号部以外については、候補文
字数（ｎ）分のバッファサイズを与えるとしているが、
この候補文字数は認識システムに対応して随意に決定さ
れるものであり、本実施例においては候補文字数が５で
あるとする。

【００１４】また、不採用ヒストバッファ６は認識辞書
９における１カテゴリごとの構成に対応する確定ヒスト
グラム部によって構成されたものであり、文字類似度の
頻度情報を格納するために使用されるようになってい
る。そして、この不採用ヒストバッファ６を構成する確
定ヒストグラム部それぞれのバッファサイズ（ｍ）は、
最大類似度をある所定の類似度分割定数（ＤＣ）によっ
て分割した数だけ用意されている。なお、これらは認識
システムに対応したうえで随意に決定されるものであ
り、本実施例においては最大類似度を１００００、類似
度分割定数を１０とした結果、バッファサイズは１００
０となる。

【００１５】次に、本実施例方法における動作手順を、
図４（Ａ），（Ｂ）で示す不採用ヒスト作成時及び確定
閾値計算時の手順を示すフローチャートに基づいて説明
する。なお、本実施例方法は従来例と同様の構成とされ
た既存の認識システムをそのまま利用するものであり、
図４（Ａ）中の「データ入力」におけるデータとは、シ
ステムが認識処理によって決定し得る単位の入力データ
を意味している。すなわち、文字認識装置では１原稿か
ら切り出された行／形態素画像などが、また、音声認識
装置では音節／文節音声などが入力データとされるので
あり、これらの入力データは認識システムに対応したう
えで随意に決定されることになる。なお、本実施例にお
ける入力データは、図８で示した“Ｓｏｆｔｗａｒｅ”
という単語であるものとする。

【００１６】不採用ヒスト作成時動作以下、図４（Ａ）のフローチャートに基づき、不採用ヒ
ストを作成する際の処理動作について説明する。

【００１７】まず、“Ｓｏｆｔｗａｒｅ”という単語
が入力されると（Ｓ１）、図８で示したと同じく、この
単語に対しては図中の１から１３までの分割番号で示さ
れる分割位置が設定された後、全ての分割区間に対する
認識処理が行われる（Ｓ２）。そして、認識処理によっ
て求められた各分割区間ごとの認識結果、すなわち、分
割認識結果が認識結果バッファ５を構成する単位バッフ
ァのそれぞれに対して逐次的に格納されることになり、
認識結果バッファ５が作成される。ところで、この際、
認識結果バッファ５における候補文字採用フラグ部を構
成する全ての採用フラグは０（不採用）クリアーされて
おり、認識結果バッファ５の内容の一部は表１で示すよ
うな状態として表されることになる。なお、この表１で
は、候補文字辞書番号部の記載を省略している。

【００１８】

【表１】

【００１９】次に、分割認識結果を基にした言語処理
を行って最終認識結果としての認識結果文字列（組み合
わせ文字列）を作成し（Ｓ３）、作成された認識結果文
字列を言語辞書８や認識辞書９などと照合することによ
って認識結果文字列が信頼できるか否か（正解としてよ
いか否か）を判定する（Ｓ４）。そして、認識結果文字
列が信頼できると判定された際には次段階へと進むこと
になり、また、信頼できないと判定された際には処理動
作を終了したうえで次の入力データを待つことになる。
なお、ここまでの処理動作は、従来例におけるラティス
方式と基本的に同じである。

【００２０】ところで、このとき、既存認識システム部
２が従来周知のリジェクト判定を採用して構成されたも
のである場合には、その判定結果を用いればよい。ま
た、リジェクト判定を採用していない場合には、認識結
果文字列がある文字数（本実施例では５個）以上で言語
辞書８と照合可能であるならば、この認識結果文字列は
正解らしいと判定するのが最も簡単な方法である。な
お、この判定時に若干の誤りが生じたとしても、本実施
例方法においては、後述する確定閾値計算動作が引き続
いて行われ、かつ、この確定閾値計算動作によってある
程度の誤りは吸収されてしまうことになるから、不都合
が発生する恐れはない。

【００２１】さらに、認識結果文字列が信頼できると
判定された場合には、図５で示すようなパスの特定、す
なわち、分割番号０から２へ、また、分割番号２から４
へというような認識処理時におけるパスの特定が行われ
ていることになる。そこで、これらの特定されたパスを
基にしたうえで分割認識結果に対応した単位バッファの
候補文字採用フラグ部に採用フラグを設定すると、採用
された候補文字の採用フラグには１が格納される（Ｓ
５）。

【００２２】その結果、認識結果バッファ５の内容の一
部は、表２で示すような状態として表されることにな
る。そして、この表２では、分割認識結果として採用さ
れた候補文字“Ｓ”に対応する採用フラグのみが１とな
っている。さらに、認識結果文字列に採用された他の分
割認識結果に対応した単位バッファの全てに対する採用
フラグの設定を行い、採用された候補文字の採用フラグ
に対して１を格納する。すなわち、ここでは、全ての分
割認識結果のうちから認識結果文字列に採用された分割
認識結果を判定したことになる。

【００２３】

【表２】

【００２４】引き続き、不採用ヒストを作成する（Ｓ
６）。まず、認識結果バッファ５を構成する単位バッフ
ァの全てを先頭側から順に走査し、採用フラグが０とな
ったままの候補文字を注目候補文字として選び出す。そ
して、各注目候補文字の類似度（Ｓ）及び辞書番号
（ｉ）を各単位バッファから求めたうえ、求められた類
似度（Ｓ）を類似度分割定数（ＤＣ）で除することによ
ってヒストインデックス（ｊ）を計算する（ｊ＝Ｓ／Ｄ
Ｃ）。さらに、不採用ヒストバッファ６を構成したうえ
で辞書番号（ｉ）で示される確定ヒストグラム部を先頭
側から順に走査することにより、ヒストインデックス
（ｊ）で示される確定ヒストグラム部の値をインクリメ
ントする。さらに、これらの動作を注目候補文字がなく
なるまで繰り返して不採用ヒストを求めた後、処理動作
を終了する。

【００２５】その結果、このような手順に従って求めら
れた不採用ヒストは、不採用とされた分割認識結果の類
似度を基にして対応する辞書カテゴリの評価値頻度を示
していることになり、不健全なデータである接触文字や
分離文字をも反映したものとなる。そして、この際にお
いては、入力データ数を増加させるほど不健全なデータ
の反映度合も高まることになる。

【００２６】ところで、辞書カテゴリ“ｍ”に対する不
採用ヒストの例を示すと、図６及び図７のようになる。
すなわち、図６は接触文字である“ｒｎ”が存在してい
ない入力データに基づいて作成された不採用ヒスト、ま
た、図７は“ｒｎ”が存在する入力データに基づいて作
成された不採用ヒストであり、これらを比較した場合に
は、“ｒｎ”が存在する不採用ヒストの方が“ｒｎ”が
存在していない不採用ヒストよりも類似度が高い分布を
示すことが明らかとなっている。そして、このようにな
るのは、辞書カテゴリ“ｍ”に対する接触文字“ｒｎ”
の類似度が高いにも拘わらず、最終的には不採用となる
ためである。

【００２７】確定閾値計算時動作以下、図４（Ｂ）のフローチャートに基づき、確定閾値
（認識評価閾値）を計算する際の処理動作について説明
する。

【００２８】まず、辞書カテゴリごとの不採用ヒスト
を走査し、(１)式を用いることによって評価値頻度の総
和（ＨＳ）を求める（Ｓ７）。

【００２９】

【数１】

【００３０】但し、この式中のｃは辞書カテゴリ番号、
ｈは不採用ヒスト、ｍは確定ヒストグラム部のバッファ
サイズであり、本実施例におけるｍは１０００である。

【００３１】再び不採用ヒストを走査することによ
り、(２)式を満足する辞書カテゴリごとの最小のヒスト
インデックス（ｊ：０≦ｊ≦ｍ）を求める（Ｓ８）。

【００３２】

【数２】

【００３３】但し、この式中のＴは評価定数であり、本
実施例の場合には０．９５となる。なお、この評価定数
（Ｔ）は、システムごとの目標認識率や目標処理速度な
どの条件に基づいて随意に設定されるものである。

【００３４】次に、(３)式で示すように、最小のヒス
トインデックス（ｊ）に対して類似度分割定数（ＤＣ）
を乗じたうえ、算出された最小の評価値（ＳＴ）を確定
閾値とする（Ｓ９）。

【００３５】

【数３】

【００３６】さらに、これら一連の動作を全ての辞書
カテゴリに対して実行し、実行が終了したか否かを判定
した後（Ｓ１０）、処理動作を終了する。すなわち、以
上の手順に従った計算動作により、不作成ヒストから評
価値頻度が所定値以上となる辞書カテゴリごとの最小の
評価値を求めたうえ、この最小の評価値を確定閾値とす
ることが行われたことになる。なお、上記における
(２)式中の評価定数（Ｔ）を１に近づけておくほど、よ
り誤りの少ない高精度の認識率を得ることが可能な確定
閾値となるのは勿論である。

【００３７】ところで、本実施例方法ではラティス方式
を利用することによって確定閾値を求めるとしたが、確
定閾値を求めるための処理方法がラティス方式に限られ
ることはなく、周知となっている他の処理方法を利用す
ることも可能である。また、以上の説明においては、文
字の認識作業を行う場合の処理動作を例として説明した
が、音声の認識作業であっても同様であることは勿論で
ある。

【００３８】

【発明の効果】以上説明したように、本発明にかかる認
識評価閾値（確定閾値）の作成方法によれば、接触文字
や分離文字のような不健全なデータをも反映し、かつ、
弊害の少ない確定閾値を自動的に計算して求めることが
可能となり、文字や音声の認識処理作業を行う際に最適
な確定閾値を極めて容易に作成することができる。その
結果、このようにして求められた確定閾値を設定してお
くことにより、多大な手間及び時間のかかる非常に莫大
なデータ処理を要することなく、高精度の認識率を維持
しながら処理速度の大幅な向上を実現できるという優れ
た効果が得られることになる。

【図面の簡単な説明】

【図１】英文字ＯＣＲの要部構成を示すブロック図であ
る。

【図２】認識結果バッファの構造図である。

【図３】不採用ヒストバッファの構造図である。

【図４】不採用ヒスト作成時及び確定閾値計算時の手順
を示すフローチャートである。

【図５】認識処理時におけるパスの特定状態を示す説明
図である。

【図６】不採用ヒストの一例を示す説明図である。

【図７】不採用ヒストの他の例を示す説明図である。

【図８】入力データの一例を示す説明図である。

【図９】認識処理時におけるパスの状態を示す説明図で
ある。

Claims

【特許請求の範囲】

【請求項１】既存システムを用いての入力データに対す
る認識処理及び言語処理を行って作成された最終認識結
果が信頼できるか否かを判定したうえ、最終認識結果が信頼できる場合には、全ての分割認識結
果のうちから最終認識結果に採用された分割認識結果を
判定し、不採用とされた分割認識結果の認識評価値を基
にして対応する辞書カテゴリの評価値頻度を示す不採用
評価値ヒストグラムを作成した後、作成された不採用評価値ヒストグラムから評価値頻度が
所定値以上となる辞書カテゴリごとの最小の評価値を求
め、この最小の評価値を認識評価閾値とすることを特徴
とする文字や音声の認識装置における認識評価閾値の作
成方法。