JPH02170292A

JPH02170292A - 文字認識後処理方法

Info

Publication number: JPH02170292A
Application number: JP63323633A
Authority: JP
Inventors: Akira Suzuki; 章鈴木; Fumihiko Kobashi; 小橋　史彦; Sueji Miyahara; 末治宮原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1988-12-23
Filing date: 1988-12-23
Publication date: 1990-07-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は、文字切出しの誤りによって生じた文字認識の
誤りを高精度でかつ高速に訂正することができる文字認
識後処理方法に関するものである。

（従来の技術）従来の文字認識における文字行パターンからの切出し誤
りに対する対策としては、文字行パターンから切出せる
箇所全てについて文字の切出しを行い、それらを文字認
識した結果の文字標準パターンへの距離値がもっとも近
いものを採用するという方法や、或いは同じく文字行パ
ターンから切出せる箇所全てについて文字の切出しを行
い、その後で連続した文字列を単語辞書と照合させて単
語辞書中に存在する文字列を採用するという方法があっ
た。

（発明が解決しようとする課題）従来の文字切出しの誤りに対する訂正方法は、文字行か
ら切出せる全ての箇所で文字のパターンを切出した後に
それらを文字認識するという方法をとっていたため、処
理量が膨大になって長時間を要するという問題があった
。そして文字ピッチが一定でない文書、全角や半角や倍
角等の文字の混在する文書では文字切出しの誤りが生じ
易いので−屑処理量が膨大になるとともに精度よく読取
ることが困難になるという問題があった。

そこで本発明は、処理方法が簡易で、文字ピッチが一定
でない文書、全角や半角や倍角等の文字の混在する文書
等でも、高精度で且つ高速に文字読取りを行うことので
きる文字認識後処理方法を提供することを目的とする。

［発明の構成］（課題を解決するための手段）本発明は上記課題を解決するために、文字列パターンか
ら個々の文字を切出して文字認識を行う文字読取りにお
ける当該文字の誤切出しによる誤認識を訂正する文字認
識後処理方法であって、文字の誤切出しにより誤認識さ
れた箇所を訂正する情報から候補文字列集合を抽出し、
この候補文字列集合に対する正解文字列の関係を訂正規
則として登録し、この訂正規則を以後の文字認識結果に
適用することにより、当該訂正規則内の正解文字列を以
後の文字認識結果の第１位候補文字列に置換えることを
要旨とする。

（作用）上記構成において、文字の誤切出しにより誤認識された
箇所を操作者が訂正する情報から候補文字列集合が自動
抽出され、その候補文字列集合に対する正解文字列の関
係が訂正規則として自動登録される。そして、この訂正
規則が以後の文字認識結果に適用され、当該訂正規則内
の正解文字列が文字認識結果の第１位候補文字列に置き
変えられて誤切出しによる誤認識が自動訂正される。し
たがって処理方法が簡易で、文字ピッチが一定でない文
書、全角や半角や倍角等の文字の混在する文書等でも、
高速で且つ高い精度の文字読取りが行われる。

（実施例）以下、本発明の実施例を第１図ないし第５図に基づいて
説明する。

まず、この実施例に係る文字認識後処理方法を実現する
ための装置例から説明すると、第１図中、１は自動訂正
部、２は訂正規則テーブル、３は手動訂正制御部、４は
操作部であり、図示省略の文字切出し装置によって文字
列パターンから個々の文字が切り出され、次いで文字認
識装置により認識された結果が自動訂正部１に入力され
るようになっている。自動訂正部１は訂正規則テーブル
２を参照しながら誤認識文字を自動訂正するものであり
、その訂正規則テーブル２に入っている後述する訂正規
則は操作者が文字認識結果を手動訂正することにより順
次自動生成、更新されるため、初期の認識結果には適用
されず、次の手動訂正制御部３でまず操作者による手動
訂正が行われるようになっている。

次に、上述の装置を用いて文字の誤切出しによる誤認識
を訂正する文字認識後処理方法を説明する。

まず、第２図の（ａ）〜（ｅ）を用いて、入力文章とし
て、例えば「手段３１は・　　・」に対する文字切出し
結果とその文字を認識した文字認識結果、及び認識結果
に対する操作者の手動訂正操作並びに訂正規則生成の手
順から説明する。

各文字の認識結果が、手動訂正制御部３に人力されると
、手動訂正制御部３では、各文字の認識結果の第１位候
補文字を操作部４のデイスプレィに表示する（第２図（
ｄ））。操作者は、このデイスプレィに表示された文字
を見て、操作部４のキーボードを用いて誤って切出され
た箇所を訂正する。

訂正の方法は、かな漢字変換入力などにより、正解文字
列を人力することによる。訂正結果は第２図（ｅ）に示
すようにデイスプレィに表示される。訂正が終了したら
、操作者は操作部４から手動訂正制御部３に終了信号を
送る。

操作部４から手動訂正終了の信号が送られてくると、手
動訂正制御部３では操作者が訂正した箇所の認識結果の
候補文字列集合と正解文字列との関係を訂正規則として
作成し、これが訂正規則テーブル２に追加登録される。

訂正規則テーブルの内容の一部例を第２図（Ｃ）に示す
。訂正規則テーブルの中の１つの規則は、文字認識結果
の候補文字列集合及びそれに対する正解文字列から構成
されている。第２図（Ｃ）は次のようなことを示してい
る。即ち、入力文［手段３１は・　・」中の「１は」が
文字切出しの処理において切出し誤りによって第２図（
ａ）に示すように切出され、これを文字認識した結果が
第２図（ｂ）の文字番号４．５の箇所になり、この部分
をデイスプレィの表示を見て操作者が訂正して「１は」
と入力することにより、手動訂正制御部３は正解文字列
「１は」及びそれに対する候補文字集合ｒｔｓ１、°」
並びに「よ、よ、ま」からなる訂正規則１個を作成し、
これを訂正規則テーブル（Ｃ）に追加登録することを示
している。これが訂正規則番号が１の訂正規則である。

ここで、この「１は」に対する候補文字集合ｒｔ、１、
’Ｊ及び「よ、よ、ま」を１つにまとめて候補文字列集
合と呼ぶことにする。以下、候補文字列集合という用語
をこの意嗅、即ちいくつかの（単語も含む）候補文字集
合をまとめた集合という意味で用いることにする。

次に、上記のようにして訂正規則が訂正規則テーブル２
に追加登録されたのち、次の文字認識結果が本装置に入
力されたときの自動訂正部１による処理の流れを第３図
ないし第５図を用いて説明する。第３図は「文字４１は
・・」という文章を切出した切出し結果を示し、第４図
は第３図の切出し結果が文字認識された結果が入力され
た自動訂正部１の内部構成を示し、第５図は自動訂正部
１の処理の流れを示すフローチャートである。

また、第４図の自動訂正部１の内部構成における５は入
力データバッファ、６は人力データレジスタ、７は出力
データバッファ、８は訂正規則レジスタ、９は部分−成
度計算器、１０は部分一致度レジスタである。

そして、自動訂正部１に入力された文字認識結果はまず
人力データバッファ５に書き込まれ、その入力データバ
ッファ５の全ての第１候補文字からなる文字列が出力デ
ータバッファ７に入れられる（第５図ステップ１１、以
下単にステップという）。この出力データバッファ７に
入れられた文字列の文字数Ｓ（この例では５）及び訂正
規則の番号ｉが識別され（ステップ１２．１３）、その
訂正規則番号ｉが訂正規則テーブル２内に存在すること
か判別されたのち、訂正規則テーブル２の先頭から１番
目の訂正規則が訂正規則レジスタ８に入れられる。この
訂正規則の正解文字列の文字数をＮ（この例では２）と
する（ステップ１４．１５）。

次いて、訂正を要する部分の番号Ｋが判別されたのち（
ステップ１７）、入力文章の認識結果の先頭からに番目
の位置からＮ個分の候補文字列集合が取出されて入力デ
ータレジスタ６に入れられる（ステップ１９）。さらに
、入力データレジスタ６の先頭からＬ番目の候補文字集
合が計算レジスタａに入れられ、一方、訂正規則レジス
タ８の先頭からＬ番目の候補文字集合が計算レジスタｂ
に入れられる（ステップ２１）。この計算レジスタａの
データと計算レジスタｂのデータとの近似性を表す部分
一致度が部分−成度計算器９で次式により計算され、こ
れが部分一致度レジスタ１０のＬ番目の位置に書込まれ
る（ステップ２２）。

部分一致度＝２ｘｌ、（ｘ／ｌｙ）／　（Ｌ　（ｘ）　＋Ｌ　（ｙ）　）・・・（１）ここ
で、ｘＳｙはそれぞれ計算レジスタａ及び計算レジスタ
ｂに入っている候補文字集合を表し、Ｌ　（ｘ）　、Ｌ
　（ｙ）はそれぞれの候補文字数、またＬ（ｘ／’ｌｙ
）はｘ、７間の論理積集合の候補文字数を表している。

候補文字数はこの実施例では３である。

候補文字集合てについて部分一致度が計算されたのち（
ステップ２４）、部分一致度レジスタ１０に入っている
Ｎ個の部分一致度の中から最小の値が選ばれる（ステッ
プ２５）。これを全体−致度と命名すると、この全体一
致度が所要の閾値より大であれば（ステップ２６のＹｅ
Ｓ）、入力データレジスタ６に入っているデータに対応
する出力データレジスタ７の箇所のデータが、訂正規則
レジスタ８の正解文字列に書換えられる（ステップ２７
）。そして番号Ｋがインクリメントされて（ステップ２
８）、文字の誤切出しにより誤認識された箇所が全て訂
正され、出力データバッファ７には自動訂正された結果
が書込まれて自動訂正処理が終了する。

なお、上述の訂正規則テーブル２内の訂正規則の数は認
識文字数の増加につれて増加するが、訂正規則テーブル
２の各訂正規則に自動訂正に適用された履歴を記録して
おき、使用頻度の小さい訂正規則や、最後に適用されて
から長時間経過した訂正規則は訂正規則テーブル２から
除去するなどにより、訂正規則テーブル２を一定範囲の
サイズに抑えることができる。また、上述の実施例では
認識結果の候補文字は第３位までであったが、原理的に
は何位まで出現しても同様である。さらに、上述の実施
例において訂正規則の候補文字集合と認識結果の候補文
字集合との近似性の尺度として（１）式で定義した部分
−政変には、候補文字集合の順位や認識の結果の距離値
が考慮されていないが、これらを考慮にいれた候補文字
集合同士の近似性の尺度を定義して自動訂正に用いるこ
とも可能である。

［発明の効果］以上説明したように、本発明によれば、誤って切出され
て誤認識された箇所を訂正する情報から候補文字列集合
を抽出し、この候補文字列集合に対する正解文字列の関
係を訂正規則として自動登録し、この訂正規則を以後の
認識結果に適用して切出し誤りによる誤認識を自動訂正
するようにしたので、切出し可能な箇所全てについて切
出した後、認識した結果の距離値によって正解を選んだ
り文法処理を行ったりする従来の訂正方法に比べて処理
方法が簡易となり、文字ピッチが一定でない文書、全角
や半角や倍角等の文字の混在する文書でも、高速で且つ
高精度の文字読取りを行うことができるという利点があ
る。

そして、さらに、単語照合・形態素解析等による、文法
的には正しいが誤訂正された文を生成することがなく、
操作者による訂正作業を容易にすることができるという
利点がある。

【図面の簡単な説明】

第１図ないし第５図は本発明に係る文字認識後処理方法
の実施例を説明するための図で、第１図は装置例を示す
ブロック図、第２図は文字切出し結果及び文字認識結果
に対する操作者の手動訂正操作・訂正規則生成の手順並
びに操作部のデイスプレィへの表示例を示す図、第３図
は入力文字の切出し結果例を示す図、第４図は自動訂正
部の内部構成を示す図、第５図は自動訂正部での処理を
説明するためのフローチャートである。１：自動訂正部、　　　　２：訂正規則テーブル、３：
手動訂正制御部、　４：操作部。代理人　　弁理士　　三　好　　保　男第１図

Claims

【特許請求の範囲】文字列パターンから個々の文字を切出して文字認識を行
う文字読取りにおける当該文字の誤切出しによる誤認識
を訂正する文字認識後処理方法であって、文字の誤切出しにより誤認識された箇所を訂正する情報
から候補文字列集合を抽出し、この候補文字列集合に対
する正解文字列の関係を訂正規則として登録し、この訂
正規則を以後の文字認識結果に適用することにより、当
該訂正規則内の正解文字列を以後の文字認識結果の第１
位候補文字列に置換えることを特徴とする文字認識後処
理方法。