JPH01134587A

JPH01134587A - 最良優先探索による文字認識後処理方式

Info

Publication number: JPH01134587A
Application number: JP62292897A
Authority: JP
Inventors: Fumito Nishino; 文人西野; Noriyasu Takao; 高尾　哲康
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-11-19
Filing date: 1987-11-19
Publication date: 1989-05-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概要〕文書リーグの文字認識部が認識した文字候補の中から１
文法等を考慮した計算機による言語的処理に基づいて、
最も確からしい候補文字を選出する最良優先探索による
文字認識後処理方式に関し。

人工知能等で用いられる最良優先探索手法を文字認識の
後処理に応用することにより、精度よく効率的に候補文
字を確定することを目的とし。

文字認識によって得られた文字候補集合の列に対して、
単語照合検査と文法的制約を満足する文字列を検索する
単語検索手段を含むノード生成処理手段と、生成された
ノードについて文字候補の評価値および言語的評価値か
らノードの評価値を計算する評価値算出手段と、上記ノ
ードの評価値の高いものを優先して探索を進める探索制
御手段とを備えるように構成する。

〔産業上の利用分野〕

本発明は１文書リーグの文字認識部が認識した文字候補
の中から１文法等を考慮した計算機による言語的処理に
基づいて、最も確からしい候補文字を選出する最良優先
探索による文字認識後処理方式に関する。

印刷文字または手書き文字の文書を入力する文書リーグ
装置が用いられている０例えば１日本語では９片板名の
「口」と漢字の「口」１片板名の「り」と漢字の「夕」
など、類偵文字が多くあるので２日本語文書リーグ装置
において１文字パターンの分析だけによる文字認識では
、その精度がいくら高くなっても、認識率に限界が生じ
る。そのため１文字構成による文字認識の後に、言語的
処理が必要であり、性能のよい後処理装置が望まれる。

〔従来の技術〕

第４図は従来方式の例、第５図は従来技術による認識例
を示す。

従来９日本語の文字認識では９例えば住所１氏名、商品
名等といった文字または単語単位の枠を設定し、その枠
内に記入された文字または文字列を認識対象の単位とす
るのが普通であった。

このように、予め設定された枠内の日本語または欧米語
の文書では、単語ごとの区切りがはっきりしているので
、単純に単語辞書との照合検査による文字認識の後処理
が行われ、各単語の処理は。

独立に行われていた。

しかし、このような枠などの制限がない、もっと−船釣
な日本語文書等を入力する装置も実用化され始めている
。第４図に示す装置は、その従来の文書リーグ装置の例
である。第４図において。

ＩＯは文書リーグ装置、１２は文字認識部、１３は後処
理部を表す。

文字認識部１２では、スキャナで読み取った２値画像情
報を解析し、まず２文字ブロックの切出しを行う０次に
９行切出しを行い３文字単位の文字切出しを行う。そし
て、切出した各文字について特徴を抽出し、標準バクー
ンの特徴との照合により２文字認識を行う。この文字認
識結果は、１つに確定できない場合、第１候補、第２候
補、・・・というように順位を付けて、後処理部１３に
通知する。

後処理部１３では、従来方式によれば、まず。

文字認識結果である一連の文字列を２例えば文節で区切
ることにより、単語辞書との照合範囲を決定する。この
文節を認定する場合９例えば平仮名から漢字または片仮
名というような文字種の変化点および句読点で２文節の
区切りをつけるようにしている。そして、照合範囲を決
定したうえで。

単語辞書との照合を行い、さらに文法的な接続可否の照
合を行うことによって、最良の認識結果を選択するよう
にしている。

しかし、このような方式では１例えば「は生類」、「ま
新しい」というように、“平板名士漢字”の単語等では
、最初の文節を認定するところでうまくいかない場合が
あった。

第５図は、その認識の具体例であって１文字認識部１２
による文字認識結果についての後処理により、最終出力
が［電話のシグマホンはヒジキズの・・・」となってい
る。

最初に文節を認定しない方式では、仮名漢字変換などで
利用されている最長一致法等を利用して。

前から順番に単語を確定していくやり方が使われている
。

〔発明が解決しようとする問題点〕

従来方式によれば１文字種などの情報により。

照合範囲を決定したうえで、言語的評価を行うようにし
ている。従って、照合範囲の決定に誤りがある場合には
、正しい評価ができないという問題があった。また、最
長−敗法等を利用した従来の方式では、精度よく最終出
力を得ることができない場合があるという問題があった
。

本発明は上記問題点の解決を図り１人工知能等で用いら
れる最良優先探索手法を文字認識の後処理に応用するこ
とにより、精度よく効率的に候補文字を確定する手段を
提供することを目的としている。

ｃ問題点を解決するための手段〕第１図は本発明の原理説明図である。

第１図において、１０は日本語文書等の文書リーグ装置
、１１は文書のパターンを２値画像情報として読み取る
スキャナ、１２はパターンの特徴を抽出して照合するこ
とにより文字認識を行う文字認識部、１３は文字候補の
中から正しい文字を選出する後処理部、１４は最良優先
探索による探索制御を行う探索制御部、１５は探索の対
象となるノードを動的に生成するノード生成処理部、１
６は各ノードについての評価値を計算する評価値算出処
理部、１７は文法的な単語の隣接規則が予め登録された
隣接規則記憶部、１８は各単語およびその品詞等の種別
情報が登録された単語辞書。

Ｎ１〜Ｎ４はノードを表す。

文字認識部１２は、パターンの解析のみでは。

例えば片仮名の「口」と漢字の「口」というように、１
つの候補に絞れない場合がある。このような場合１文字
認識部１２は、複数の文字候補を。

それらの認識における各評価値と共に、１１を処理部１
３に通知する。文字認識部１２による文字Ｕ２識方式は
１例えば多元圧縮法など種々の方式が知られているが、
どのような方式を採用してもよい。

本発明は、特に後処理部１３における処理に関連してお
り、後処理部１３は１文字認識部１２から各文字に対す
る候補文字と、それぞれの文字に対する評価値を入力と
して受は取ると１人工知能の分野等で用いられている最
良優先探索手法を利用することにより、候補文字群の列
から言語的に正しい文字列の並びを決定する。

探索制御部１４は、探索空間における初期状態のノード
を出発点として、各ノードの評価値の高いものを優先し
て探索を進める制御手段である。

ノード生成処理部１５は１次に処理すべき文字位置と、
これまでに処理して確定した単語のリストとを含む情報
によって定義される状態空間からなるノードを生成する
処理を行うものである。評価値算出処理部１６は、生成
されたノードについて文字候補の評価値および言語的評
価値から各ノードの評価値を計算する処理を行うもので
ある。

〔作用〕

本発明では、後処理部１３の課題を１次のような探索問
題として定義する。

＋ａ＋　　状態空間は２次に処理すべき文字の位置と。

これまでに処理して確定した単語のリストの対で与えら
れる。例えば、この状態空間は。

（７，［（、一般的、な、意志］）と表される。これは、ここまでの処理の結果の単語リス
トが、［（、一般的、な、意志］であり１次に７文字目
から処理が行われる状態を示す。なお、′（”は９文頭
を示すために、付加した記号である。

Ｔｂｌ　　初期状態は１文字の位置が１で１文頭記号の
みからなるリストを、確定単語リストとする状態、すな
わち、　　（１，［、、＜　　１）で与えられる。

ｔｅｌ　　最終状態は１文字の位置が（文字の最後の位
置＋１）で、言語的に正しい言語列を確定単語リストと
する状態である。

例：　　（１２，［、（、一般的、な、意志、疎通。

の２手段］）（ｄｌ　　各状態で適用できる作用は、その状態が与え
る文字の位置を起点として１文字認識結果の候補文字列
群の中から、確定単語リストに言語的に接続可能な単語
を選ぶことである。この作用を適用して得られる新しい
状態は９文字の位置を単語の文字数分だけ移動し２選ば
れた単語を元の確定単語リストに追加したものである。

例えば、第１図（ロ）に示すノードＮ１の状態で、４文
字目以降に続く文字候補に、「在」。

「な」、「を」などの候補があったとする。このノード
Ｎｌの状態において適用できる作用として。

単語「を」を選らぶことは、形容動詞「一般的」に、格
助詞「を」が接続不可能であるという言語知識によって
排除される。単語「在」ないしは「な」を選ぶことによ
り、それぞれ新しい状態のノードＮ２．Ｎ３が生成され
る。

これらの新しい状態に対する評価値は、各文字候補の評
価値、単語の出現頻度等による評価値。

単語の接続の評価値から計算される。ここでは。

ノードＮ２に対する評価値が１１で、ノードＮ３に対す
る評価値が１８となっている。そこで、最も有望そうな
ノードＮ３を優先して選び、探索を進める。

最良優先探索（ｂｅｓｔ４ｉｒｓｔ　５ｅａｒｃｈ）を
利用した探索のブロシジ中は、以下のとおりである。

但１μｍμｍ−探索 ■　初期状態を候補リスト（ｏｐｅｎｌｉｓｔ）に入れ
る。

■　画 ■　　ｉｆ　　ｏｐｅｎｌｉｓｔ”空リスト　ｔｈｅｎ
　ｅｘｉｔ（ｆａｉｌ）■　　　ｎ　：　ｘｐｏｐ（ｏ
ｐｅｎｌｉｓｔ）（ｏｐｅｎｌｉｓｔの先頭要素（最も
評価値の高いノード）をｎに代入し、　ｏｐｅｎｌｉｓ
ｔからは、その要素を取り除く）■　　　■　終了（ｎ
）　ｔｈｅｎ　　ｅｘｉｔ（ｓｕｃｃｅｓｓ）ｏ　　　
ｎを展開し、すべての子ノードを生成し。

その各々からｎへ向かうポインタを付けて。

０ｐ６６１１ｓＬに加え、　ｏｐｅｎｌｉｓｔを評価値
の高い順にソートする。

■　剋…並り上記処理■は、現在の候補リストのうちで最も有望そう
なものを選ぶ処理である。処理■で、もし取り出した要
素が２文章の終わりまたは句読点を認識したならば、処
理を終了する。句読点を認識しても、まだ文章の終了位
置まで達していないならば、その句読点の終了位置の次
の文字から。

再び探索を始める。すなわち９句読点の認識をもって探
索のカットを行う。これは句読点の認識に関する精度の
高さを仮定してのことである。

処理■では、そのノードの次の文字候補を選び。

その文字候補で始まって候補となり得る単語（文字認識
結果の候補の組み合わせで作られ、前の単語に接続可能
なもの）を作り、評価値を計算することによって新しい
ノードを作り、これまでに生成したノードの集合を追加
する。■から■へ戻るループにより、それまでに生成さ
れたノードのうち最も有望そうなノードを選び出し、こ
の過程を続行する。

〔実施例〕

第２図は本発明による実施例、第３図は本発明の一実施
例処理説明図を示す。

例えば第２図に示すように２文書リーグ装置への入力文
章が、「電話のシグマホンはビジネスの・・・」であっ
たとする０文字認識部１２による認識結果は、後処理部
１３に入力され、単語照合検査と接続検定により言語的
処理が行われる。

後処理部１３において１例えば第２図に示す■の状態ま
で処理が進んだとする。ここでは、「電話のシグマホン
は」までが確定している。この評価値は１０．０である
。

次に、「は」に続く文字候補の組み合わせで作られる言
葉であって、単語辞書に登録され、かつ格助詞「は」に
接続可能なものを検索する６例えば、第１候補「ヒ」で
始まる単語として、「ヒザ」、「ヒジ」、「ヒール」、
・・・などがある場合。

「ジ」が「ヒ」に読（認識候補内に存在するので。

「ヒジ」が選ばれることになる。

「ヒジ」という単語がみつかると、第２図■の状態にな
り、この結果を評価する。ここで評価値は、候補文字の
評価値（「ヒ」の評価値と「ジ」の評価値）、単語「ヒ
ジ」の評価値、および単語「ヒジ」が格助詞「は」に接
続するときの評価値から計算される。この計算結果では
、評価値が。

１２．０となっている。単語接続に関する接続可否およ
び評価値計算の基礎情報は、第１図に示す隣接規則記憶
部１７に予め記憶されている。これには１名詞、動詞、
助詞等の品詞をさらに詳細に分類した単位で、マトリッ
クス状の関係情報として。

前後の結び付きの評価情報が登録されている。例えば、
普通名詞に動詞の語幹が直接続く確率は小さいので、そ
の評価値は小さい、格助詞「力月の後に９名詞、動詞が
続くことは普通にあるので。

これらの評価値は大きい。

第２図■の評価終了時点で、この評価値１２．０の結果
が一番評価が高いので２次の■では、■に続（単語を検
索して、ここでは「キズ」を得ている。ここで評価値を
計算するのであるが、この場合、「ヒジ」と「キズ」と
いう片仮名同士の接続であり、このような接続にはマイ
ナスの評価が与えられているので、■の結果の評価値は
、９．０と低いものになる。

最良優先探索を用いない手法では、■の続きが実行され
ることになるが１本発明では、最良優先探索を用いるの
で、第２図■では、■の続きではなく、まだ候補が存在
する一番評価値が高いもの。

すなわち、■の別候補を探す。そして「キス」を得る。

しかし、これも片仮名の単語の接続なので。

評価値が下がり１次の■では、さらに別の候補を検索す
る。しかし、ここでは別候補が存在しないので２次の■
では、■を除く一番裔い評価を持つ■の別候補を検索し
、「ビジネス」という候補を得る。第２図■では、未展
開で一番評価の高い■の続きを検索する。

以上のような処理の結果、「電話のシグマホンはビジネ
スの・・・」といった最終出力が得られることになる。

第３図は９本発明の一実施例に係る処理を、フローチャ
ートの形で表したものである。以下の説明における■〜
■は、第３図に示す処理■〜■に対応する。

■　初期状態を候補リストに入れる。

■　候補リスト中に状態空間の要素があるかどうかを調
べる。候補リスト中に要素がない場合。

探索失敗とする。

■　候補リストの先頭要素（一番評価の高い１つの状態
空間）を取り出す。

■　取り出した要素が１句読点などの区切り記号である
かどうかを調べる。区切り記号である場合、探索成功と
して、それまでの確定単語リストの結果を、後処理によ
る候補選択結果とする。

■　区切り記号でない場合、取り出した先頭要素で指定
される文字位置にある候補文字集合の各候補文字から始
まる単語を検索する。

■　検索された単語と候補文字集合列とを突き合わせて
、候補文字集合列中の文字だけで構成される単語以外の
ものをふるい落とす。

■　確定単語リストに言語的に接続不可能なものをふる
い落とす。

■　残った単語のそれぞれに対して、状態空間（次に処
理すべき文字位置と確定単語リストの対）を作成し、評
価値を計算する。

■　候補リストに新しい状態空間を追加し、候補リスト
が状態空間の評価の高いものから順になるようにソート
する。

以下、処理■へ制御を戻し、同様に処理を繰り返す。

〔発明の効果〕

以上説明したように９本発明によれば、最良優先探索に
より文字認識の後処理を行うことにより。

効率的に精度のよい後処理結果を得ることができるよう
になる。

【図面の簡単な説明】

第１図は本発明の原理説明図。第２図は本発明による実施例。第３図は本発明の一実施例処理説明図。第４図は従来方式の例。第５図は従来技術による認識例を示す。図中、１０は文書リーグ装置、１１はスキャナ。１２は文字認識部、１３は後処理部、１４は探索制御部
、１５はノード生成処理部、１６は評価値算出処理部、
１７は隣接規則記憶部、１８は単語辞書、Ｎｌ〜Ｎ４は
ノードを表す。

Claims

【特許請求の範囲】文書リーダの文字認識部が認識した文字候補の中から、
正しい文字を選出する文字認識後処理方式において、文字認識によって得られた文字候補集合の列に対して、
単語照合検査と文法的制約を満足する文字列を検索する
単語検索手段を含むノード生成処理手段（１５）と、生成されたノードについて文字候補の評価値および言語
的評価値からノードの評価値を計算する評価値算出処理
手段（１６）と、上記ノードの評価値の高いものを優先して探索を進める
探索制御手段（１４）とを備えたことを特徴とする最良
優先探索による文字認識後処理方式。