JPH02195489A - 文字認識の後処理装置 - Google Patents

文字認識の後処理装置

Info

Publication number
JPH02195489A
JPH02195489A JP1013907A JP1390789A JPH02195489A JP H02195489 A JPH02195489 A JP H02195489A JP 1013907 A JP1013907 A JP 1013907A JP 1390789 A JP1390789 A JP 1390789A JP H02195489 A JPH02195489 A JP H02195489A
Authority
JP
Japan
Prior art keywords
word
character
candidate
word matching
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1013907A
Other languages
English (en)
Inventor
Yasuaki Nakano
中野 康明
Hiromichi Fujisawa
浩道 藤澤
Akizo Kadota
門田 彰三
Toshihiro Hananoi
花野井 歳弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1013907A priority Critical patent/JPH02195489A/ja
Priority to KR1019900000786A priority patent/KR910014839A/ko
Publication of JPH02195489A publication Critical patent/JPH02195489A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文字認識の後処理装置に係り、特に住所や氏名
などの情報を高精度に認識する目的に好適な文字認識の
後処理装置に関する。
〔従来の技術〕
通常の文字認識装置(以下、OCRと略する)では、認
識性能は100%完全ではなく、誤読や不読が避けられ
ない。ここでいう不読の中には、認識結果として候補文
字が全く得られないものと。
複数個の候補文字が得られてそのいずれかを決定できな
いものとが含まれる。以下、前者の不読を拒絶性の不読
または単に拒絶、後者の不読を競合性の不読または単に
競合と呼んで区別することがある。
このようなOCRの認識性能の不完全性を補うため、た
とえば住所や氏名など単語としてまとまって書かれた文
字列の読み取り結果について、単語照合を行って認識性
能を高める手法が提案されている。単語照合とは、住所
や氏名として存在し得る単語の集合を予め単語辞書とし
て用意しておき、認識結果として得られた候補文字列を
単a辞書に含まれる単語と順次比較して単語の距離を求
め、単語距離をあらかじめ設定した閾値と比較して、単
語距離の小さい単語を候補単語と判定するものである。
ここで候補文字列とは、各入力文字パターンに対する候
補文字集合を並べたものをいう、このような手法は、例
えば特公昭6O−55866r文字認識装置」に述べら
れている。また、単語と認識候補文字列との比較に際し
てOCRでの認識結果の情報を利用するため、候補文字
に対して順位ごとに重みを付けて単語間の距離を計算す
る手法が、特開昭58−48181 r文字認識後処理
方式」や特公昭61−20038 r文字認識装置」に
述べられている。さらに、住所のように複数の単語から
なる文字列に対して、単語辞書との比較を行う方法も特
公昭62−62388 r住所読取装置」に述べられて
いる。
〔発明が解決しようとする課題〕
上記の従来技術では、文字認識結果が競合性不読であれ
ば正解単語の距離が小さくなるため、単語照合の精度が
高くなる。しかし、文字認識の結果に誤読あるいは不読
が含まれる場合には、正解単語の距離が大きくなるため
、正解単語を候補の中に含めるには、単語照合の閾値を
大きく取っておく必要があった。しかし、単語辞書の中
に含まれる語数が少ない場合は閾値を大きくとっても良
いが、単語辞書の語数が大きくなると、候補単語の個数
が増大してしまうため、単語照合の閾値を大きく取ると
単語照合の効果が十分得られないという問題点があった
単語照合で正解単語を候補に含めるための別の手段とし
て、文字認識結果として得られた候補文字に対して、あ
らかじめ定めた候補追加規則により、候補文字として推
定できる文字をも認識結果の候補の中に追加する方法も
提案されている。しかし、この方法でも、候補追加を積
極的に行うと候補単語の個数が増大してしまい、候補追
加の程度が小さければ正解単語が候補の中に入って来な
いという問題があった。
従って1本発明の目的は、m語照合の閾値を適切に選択
し、あるいは候補追加規則を適切に設定する方法を与え
ることにより、単語照合の効果を十分発揮させることに
ある。
[111!を解決するための手段〕 上記の目的は、単語照合の様態を外部、たとえば上位コ
ンピュータから指示し、単語照合の様態ごとに適切な閾
値を選択させ、あるいは適切な候補追加規則を選択させ
ることによって達成される。
〔作用〕
まず、従来方式による単語照合の原理を説明する。カナ
文字で書かれた地名(県名)の場合を例に取り、入力文
字が「ワカヤマ」であったとき、各文字に対する認識結
果として、 入力     ワ  カ  ヤ  マ 第1位   り  サ  ヤ  ア 2      フ  カ  オ  マ 3 ユヤキャ 4          り  シ のように候補文字が得られたとする。
ここで、アングラインを付けた文字は正解文字を示す。
この候補文字列と、単語辞書の中に存在する各単語との
距離は1文字ごとの距離の総和として定義され、文字ご
との距離は、例えば単語の中に含まれる文字が第n位候
補であるとき(n−1)であると定義される。したがっ
て、単語「ワカヤマ」に対する距離は最初の文字「ワ」
は第3位なので距離2となり、以下同様にして単語全体
ではD=2+l+O+1=4 となる。同様に単語「ツクシマ」に対してはD=1+3
+3+1==8 となる。以下同様に全ての単語との距離を求め、距離が
閾値DM八へ以下になる単語を候補単語として設定する
。この例で、閾値をDM^x=9に取れば、「ワカヤマ
」、「ツクシマ」が候補単語として得られる。候補単語
の定め方の別の方法として、最小距離との距離差が閾値
DDIF以下の場合は候補とするものもあり、DowF
=3に取れば「ワカヤマ」のみが候補となる。上記の二
つの閾値DHAXDDIFをそれぞれ絶対閾値、相対閾
値と呼ぶ。絶対閾値と相対閾値の両者を併用する候補単
語判定法もあり、また絶対閾値あるいは相対閾値を単語
長の関数として定める方法もある。
上記の例では、各文字パターンに対し候補中に正解が含
まれているとしたが、候補中に正解が含まれていない場
合は、上記の方法では正解単語を候補として得ることが
できない0例えば、上記の例で正解が「フクオカ」であ
る場合、第4文字目において正解文字が候補の中に含ま
れていないので、正解単語に対する距離が得られない。
この場合に、候補文字に類似した文字を候補文字として
追加する処理が知られている(この処理を類似文字追加
処理と呼ぶ)。この例では、第4文字目の候補に、「ヤ
」に対する類似文字r力」を追加する処理を行った後、
単語照合を行う、ただし、追加文字に対する距離はやや
大きく、例えば5にとるものと“する、この時「フクオ
カ」の単語距離はD=1+3+1+5=9 となり、 DM^x=9とすれば、候補単語の中に入る
。なお、候補追加は第4字目以外でも行われるが、第2
字目では「ヤ」に対する類似文字「力」は既に候補中に
存在するので追加は不要である。
「ヤ」以外の候補文字に対する候補追加は簡単のため省
略しである。候補追加処理は、各候補に対する類似文字
をあらかじめ定めたテーブルを参照して行ねれる。
候補追加の極端な場合として、全ての文字を候補文字と
して追加してしまう方法もある(この処理を全文字追加
処理と呼ぶ)。ただし、この場合は追加文字に対する距
離はかなり大きくしておく必要があり、例えば8にとる
ものとする。このようにすれば、4文字の単語に対して
必ず距離が求められる。たとえば、上記の例で「オカヤ
マ」、「トクシマ」に対して、単語距離はそれぞれ10
.15が得られる。
候補追加を行うことにより、正解単語が候補として得ら
れやすくなる利点はあるが、同時に無関係な単語が多数
候補になることは明かである。
次に、本発明の詳細な説明する前に、以下の実施例で用
いられる単語照合の原理を説明する。ただし、本発明は
特定の単語照合の手法に限定されるものではなく、次に
述べる手法以外のものを使用しても良い。
実施例で用いる単語照合手法の原理を、第1図を用いて
説明する0本手法では、候補文字列から、第1図(A)
のような有限オートマトンを生成する。
このオートマトンに単語辞書に含まれる各単語を文字列
として表したものを順次入力し、その文字列が受理され
るかどうか、またその場合の距離はいくらになるかを求
める。
第1図(A)のオートマトンで丸印は状態を示し、その
中に書かれた文字は状態番号を示し、状態と状態の間が
単語の各文字位置に対応する。状態間の線は遷移を示し
、ある状態で線上の左側に書かれた文字がオートマトン
に入力された場合に、その遷移経路をたどって次の状態
に遷移することを示す。線上の右側に書かれた数字は、
その遷移に要するコストであり、この場合は、候補文字
の順位に相当する値としている。遷移経路に応じたコス
トを加算したものが、その単語に対する距離として出力
される。ある単語の処理の途中で、遷移経路が存在しな
いような文字が出現した場合、その単語に対する処理は
打ち切られ、距離としては非常に大きな値(例えば99
9)が出力される。
第1図から、単語「ワカヤマ」がこの有限オートマトン
に入力されたとき、太線で示された経路を辿り、単語の
距離は D=2+1+O+1=4 となることは容易に確かめられる。同様に、単語「ツク
シマ」は距離9となる。
第1図(B)、(C)は、候補追加を行った場合のオー
トマトンを示し、(B)は類似文字候補追加を行った場
合であり、破線で示される遷移経路が追加された候補文
字に対応し、この場合のコストは5としである。(C)
は全文字候補追加を行った場合に対応し、破線で示され
た遷移経路の上に記されたothersは候補に含まれ
ていない任意の文字が通過する経路であり、通過コスト
は8としである。
第1図に示したオートマトンを用いる方式は、単語照合
を高速に処理できる利点がある。
次に、複数の単語からなる複合単語に対して、実施例で
採用した単語照合の原理を説明する。カナ文字で書かれ
た住所を例に取り、住所は都道府県、市郡区1区町村の
3階層からなるものとする(実際の住所には、さらに大
字・字、下目、番地などの表記が続いたり、郵便番号を
付記したりするが、階層数が増えた場合として考えれば
良いので、下記の説明から容易に類推できよう)。
入力帳票上で、住所は各階層ごとに別々の記入帯に分離
して書かれるものとする(記入帯が分離されず、全階層
が連続して書かれる場合にも容易に拡張できるが、説明
の簡単のため記入帯は分離されているとする)、、住所
の例としてオカヤマケン/ニイミシ/カナヤ を考える。ここで、「/」は記入帯が分かれていること
を示す。各記入帯ごとに、文字認識、単語照合を行うこ
とにより、各階層での候補単語として 都道府県:ワカヤマケン、オカヤマケン市郡区 :ニイ
ミシ、ニイツシ 区町村 :カナダ、カナダ、カナダ、ヤマヤが得られた
とする。ただし、区町村での候補単語で3個の「カナダ
」があるが、これらは別々の土地の地名を表わす、ここ
では、これら3個を別の単語として考え、「カナキー1
.2.3」と表わす。
単語照合の段階では、これらの候補のうち、いずれが正
しいかを判断することは困難である。しかし、都道府県
、市郡区、区町村の単語の間には従属関係があり、これ
を利用すればさらに候補を限定できる。この例では、第
2図に示すようにrカナヤーIJはrニイミシ」に、「
ニイミシ」は「オカヤマケン」に属するので、結局3階
層全てについて従属関係をを満足する候補単語の組合せ 「オカヤマケン」十「ニイミシJ+rカナヤー1」が得
られる。一方、「カナヤーニ」及び「ヤマヤ」はrニイ
ッシ」に属するが、「ニイッシ」が属する「ニイガタケ
ン」は候補単語の中に含まれていないので、「ニイツシ
」、「カナキー2」、「ヤマヤ」は候補単語から除去さ
れる。「オカヤマケン」も、「カナキー3」も、これに
接続する市郡区階層の単語が候補にないので、候補単語
から除去される。このように、階層間の従ノーー関係を
考慮することにより、単語照合の正解率が高まる。
以下では、この処理を複合単語照合処理と呼ぶ。
これに対し、前述した1個の単語の照合を単純単語照合
処理と呼ぶ。
次に1本発明の原理を述べる。本発明では、複数種類の
単語照合の様態(モード)という概念を導入する。一つ
の様態は、単純単語照合と複合単語照合のどちらを用い
るかの指定である。また、別の様態は、概略単語照合、
精細単語照合のいずれを用いるかの指定である。概略単
語照合は、候補が多数出ても良いから正解単語をできる
だけ候補に含めようとするものであり、精細単語照合は
、正解単語が得られなくても良いが、誤った単語が照合
されることを避けようとするものである。また、別の様
態は、階層単語照合を使用するか否かの指定である。階
層単語照合は、複数種類の単語照合を組合せた照合方法
である。その他、複合単語照合において、記入帯が分離
されているか否かも一つの様態である。このように、単
語照合を規定するいくつかの様態があり、使用状況に応
じて各様態を指定することになる。例えば、人名の場合
でも、不特定の人名を読み取る際には単語辞書のサイズ
が大きくなるので、概略単語照合では候補単語が増えす
ぎ、精細単語照合を選んだ方が良いが、ある事業所の中
の人名に限られる場合には、概略単語照合でも差し支え
ない。
単語照合の様態は、本発明が適用されるシステムに対し
て使用者から与えられる。すなわち、通常の文字ura
システムにおいては、書式情報(フォーマット情報)と
称して、文字認識の様態を指定する情報が外部から与え
られるが、書式情報の一項目として、単語照合の様態を
指定する部分を設けるようにする。使用者から指定され
た単語照合の様態は、システムを制御するコンピュータ
によって、書式情報から取り出され、単語照合部に与え
られる。
本発明においては、単語照合の様態に応じて、単語照合
における各種のパラメータや処理手順を制御する。
パラメータを制御する一つの方法は、絶対閾値と相対閾
値を単語照合の様態に応じて変えるものである。その一
つの例は、精細単語照合では、絶対閾値と相対閾値を小
さく取り、概略単語照合では、これらを大きく取る。こ
のように取ることにより、精細単語照合では正解単語が
得られない場合もあるが、誤照合は少なくなり、概略単
語照合では多数の候補が出る代わりに、正解単語が候補
に含まれるようになることは明らかである。パラメータ
の制御法の中には、単語照合を行う時のオートマトンの
遷移に要するコストを変える方法もある。
処理手順を制御する一つの方法は、単語照合の様態に応
じて、候補追加方法を変えるものである。
その一つの例は、単純単語照合では候補追加を行わない
か、あるいは類似文字追加を行うようにし、複合単記照
合では全文字追加を行うようにするものである。このよ
うにすれば、単純単語照合では候補数はあまり増加しな
いで済む。一方、複合単語照合の場合、各階層ごとの単
語照合では多数の候補が発生するが、階層間の従属関係
の検査によって無縁な候補は除外されるので、誤照合を
生ずることがほとんどない。
階層単語照合の場合には、処理手順の指定が可能である
0階層単語照合の一つのやり方は、概略単語照合とW1
1単語照合を組合せるものであるが、その組合せ方法と
して、最初に概略単語照合を行って得られた候補につい
て精細単語照合を行う方法と、最初に精細単語照合を行
って、候補が得られなかった場合に概略単語照合を行う
方法の2種類がある。前音は高速性の長所があり、後者
は平均候補数をあまり増加することなく照合失敗を防ぐ
ことができる。階層単語照合の別のやり方に、候補追加
方法を切り替えるものがあり、例えば最初は候補追加を
行わずに単語照合を行い、照合失敗の場合に候補追加を
行うものである。階層単語照合の処理手順は、上に述べ
たように選択可能としておいても良く、最も有効と考え
られる一つを選んで固定しておいてもよい。
以上に説明したように1本発明により文字認識の後処理
が処理対象に応じて最も有効なものが選択される。
〔実施例〕
以下、本発明による一実施例を第3図により説明する。
第3図は、本発明による文字認識の後、処理方式を実現
するシステムの装置構成を示す図である。
同システムは、システムを制御するCPU (中央制御
装置り100、主メモリ101、端末102、システム
フッ491031文書画像の走査を行うためのスキャナ
104、ビデオメモリ105、文字認識部106.単語
照合部107、ワークファイル108、バス109を基
本部として持つ。
各部の動作の流れを以下に詳細に説明する。
CPU100は、主メモリ101の中のプログラムを実
行することにより、以下に述べるシステム全体の動作を
制御する。システム各部の動作に応じて、必要なプログ
ラムをシステムファイル103から主メモリ101にロ
ードあるいは退避したり、各プログラムに実行権を付与
したりすることは、オペレーティングシステムプログラ
ムにより行われるが、その動作は周知の通りであるから
省略する。以下の説明で、システム各部が自律的に動作
するように述べるが、実際にはCPU100のプログラ
ム制御に従って動作することを簡略化して述べたもので
ある。また、システム各部の間のデータ授受はバス10
9を介して行われるが、説明を簡略化するため、システ
ム各部間で直接データ転送が行われるように述べる。
端末102は、プログラムが要求する時点で、操作者と
のデータ授受を行うために用いられる。
以下の説明では端末102の記述を省略し、 cpul
ooが直接操作者とデータ授受を行うように述べる場合
もある。
操作者は、作業の最初に端末102を介してCPU10
0と対話し、読取対象文書の形式や読取様態などの書式
情報をCPU100に与えるが。
その中で単語照合の様態を指定する情報も与えておく。
操作者が読取対象文書110をスキャナ104にセット
すると、スキャナ104は文書110の上の画像を走査
し、二値ディジタル画像に変換して、ビデオメモリ10
5に格納する。ビデオメモリ105は文書画像以外にも
後述する各種のデータの格納に用いられ、それぞれが相
互に干渉しないよう別々の領域に格納されるが、以下で
は特に断わらずにビデオメモリ105と記述している。
文字認識部106は、予め与えられた書式情報に従って
、ビデオメモリ105の中の文書画像から、文字の記入
された領域を探索し、その中の文字パターンを切出し、
認識する0文字の切出し、認識処理については公知であ
るので省略する。U諏結果は、各文字パターンに対する
候補文字の系列として表され、ビデオメモリ105に格
納される。
文字認識が終了すると、CPU100の制御により単語
照合処理が行われる。第4図に単語照合処理の流れ図を
PAD形式で示す0本実施例は、単語照合の様態として
概略単語照合と精細単語照合とを選択可能とするもので
ある。それぞれの中で、単純単語照合と複合単語照合が
あるが、この実施例では単純単語照合を対象としている
。また。
概略単語照合と精細単語照合の他に、階層単語照合の様
態が存在するが、階層単語照合については後述する。
第4図の流れ図において、401は単語照合様態が概略
単語照合か、精細単語照合かを判定する部分である。こ
の単語照合様態を表す情報は、CPU100から送られ
る。この情報を用いて、第5図に示す表を引き、単語照
合処理で用いる各種のパラメータを取り出す。
第5図は、単語照合様態とパラメータの関係を示す表の
一表現方法を表したものである。第5図で501,50
2は単語照合様態を表し、501では概略単語照合、精
細単語照合、階層単語照合の区別を表し、502では単
純単語照合、複合単語照合の区別を表す。前述したよう
に、本実施例では階層単語照合は考慮せず、また単純単
語照合のみを対象としているので、第5図の表で第1行
と第3行のみが選択の対象となる。503 、504は
単語照合に先立つ候補追加処理として、全文字追加を行
うか、類似文字追加を行うかの指定である。ただし、5
04は階層単語照合においてのみ意味を持ち、本実施例
では参照されない、505゜506は後述する絶対閾値
D waxと相対閾値D a t iを指定する部分で
ある。
第4図の流れ図の説明に戻り、単語照合様態が概略単語
照合の場合は、402において第5図の項目503の第
1列を参照して、候補追加処理方法として、全文字追加
処理を指定する。精細単語照合である場合は同様に50
3の第3列を参照して、403において候補追加処理方
法として、類似文字追加処理を指定する。404は単語
照合の準備を行う部分であり、その中には候補文字追加
処理も含まれるが、402または403で指定された処
理を行う。405は、単語照合における単語辞書の種類
を指定する部分で、書式により指定された辞書を選択す
る。具体的には、あらかじめメモリ105の上にロード
しておいた複数個の単語辞書の一つを、その先頭アドレ
スを指定することにより選択するものである。406は
単語照合を行う部分であり、文字認識の候補文字列から
生成された有限オートマトンに、単語辞書に含まれる各
単語を順次入力し、各単語に対する距離を求める処理を
行う、この単語距離を求める処理は、文字認識部の出力
文字数と等しい長さの単語についてのみ行う、単語照合
の詳細については後述する。407は単語照合部の出力
から総合判定を行う部分である。単語照合部の出力は、
各単語に対する距離を並べたリストであり、ビデオメモ
リ105に出力される。このリストの中で、距離が絶対
閾値Dmaxより小さい単語を求める。その中で最小距
離を求め、さらに最小距離からの差が相対閾値D m 
t i以下の単語を候補単語として設定する。この絶対
閾値り、口及び相対閾値D dt iの値は、第5図の
表の項目505,506から求める。
このようにして候補単語が求まると、CPU100はこ
の候補単語を端末102の上に表示し、操作者の選択あ
るいは修正を行わせる。ここで、選択とは表示されてい
る候補単語の中から正しい単語を選ぶものであり、修正
とは表示された単語の中に正しい単語が存在しない場合
に、操作者が正しい単語を入力するものである。この時
、認識対象となった部分の画像を候補単語と同時に端末
102に表示することは選択あるいは修正を行う上で有
効である。
操作者の選択あるいは修正を経た単語データはワークフ
ァイル108に出力される。用途によっては、操作者の
選択・修正を行わずに、単語照合での第1位単語をその
まま出力してもよい。
次に、単語照合の詳細について述べる。第6図によりビ
デオメモリ内におけるデータの表現方法について、第7
図により文字認識結果の候補文字列から生成される有限
オートマトンの遷移表についての説明を行う。
第6図は、文字vll郡部06の出力である候補文字列
のビデオメモリ105内での表現方法の一例を示す。第
6図で、601はポインタテーブルであり、各文字パタ
ーンに対する候補文字数N直。
N、、 N、106.と、候補文字列を格納したテーブ
ル602へのポインタp1.p、、p、1..。
を有する。602は候補文字テーブルであり、各文字パ
ターンごとの候補文字を並べたもので、先頭からの相対
アドレスP1以降に、第1字での候補(この例ではり、
)、ワ)が、同じくP2以降に第2字での候補文字が並
ぶ。
第7図は、候補文字列から生成される有限オートマトン
で用いられる遷移表の表現方法の一例を示す、この遷移
表は、単語照合部107に付属する内部メモリの中に作
られる。
第7図で、701は有限オートマトンの各状態s、、 
s、、 s、、 s、106.に対応する情報を含むテ
ーブルである。但し、Soは第1図の初期状態Sを、S
工11.は第1図の状態■10.に対応する。以下二の
テーブル701を状7ai1m移表あるいは略して遷移
表と呼ぶ、また、第7図で、702は各遷移に対するコ
ストを記憶したテーブルであり、以下このテーブル70
2を遷移コスト表と呼ぶ、有限オートマトンの各状態は
701における先頭アドレスポインタJ、、J、、J、
10.によって表される。
遷移表701及び遷移コスト表702は、第4図の単語
照合準備404で作られるもので、その概要を述べる。
遷移コスト値は候補文字の順位によって定まるが、順位
をコストに変換する規則は、CPU100から単語照合
部107に送られた単語照合の様態に応じて設定される
。第7図に示した例では、コストは全文字追加処理、す
なわち第1図(C)の説明図に対応するものであり、文
字認識の結果、候補文字として出力された文字に対して
は、順位から1を減じたものをコストとして与え、それ
以外の文字にはコスト8を与える。候補文字追加処理を
行わない場合、すなわち第1図(A)の場合は1文字認
識の候補の中に含まれない文字に対しては、次アドレス
として、最終状態のアドレスを与え、遷移コストは非常
に大きな値(例えば999)を与える。候補文字追加処
理として類似文字追加処理を行う場合、すなわち第1図
(B)の場合は、まず候補文字追加処理を行わない場合
と同様にして遷移表と遷移コスト表を作った後、文字認
識の結果得ら九た候補文字から、あらかじめ作成してお
いた類似文字テーブルを引いて定まる類似文字について
、遷移表では次アドレスとして次状態のアドレスを与え
、遷移コスト表ではコスト5を与える。以上の説明から
理解されるように、遷移表701と遷移コスト表702
を書き換えることにより、候補追加規則を変化させるこ
とができ、言い替えれば照合方法を変化させることかで
きる。
各状態に対して、701,702における先頭アドレス
ポインタJ0、Jい J2.、、、が定まる(説明を簡
単にするため、二つのテーブルで同じ記号を用いる)、
この例では、第1状態に対して J s =J a + (x   1 ) X 256
 X 2で定める。すなわち、701,702は各状態
ごとに256個のエントリを有するテーブルである。
256個のエントリは文字コードに対応しており。
この例ではJISコードにより文字を表わす。従って、
例えば1文字「キ」はJISコードで183であるから
、(先頭から数えて)184番目のエントリに対応して
いる。
状態遷移表701は、有限オートマトンの各状態St(
実際にはアドレスJtで示される)において、文字CI
が到来したときの動作を記述するものであり、次状態8
7(実際にはアドレスJJ)に遷移することを示す、遷
移コスト表702には、その遷移に対して発生するコス
トWJが記憶されており、701と702で先頭からの
相対アドレスが等しいもの同士が対応する。第7図の例
で言えば、初期状7180(実際にはアドレスJ0で文
字「)」が到来すれば、遷移表701でアドレス(J、
+204)の内容を引いて、次アドレスJ□を、また遷
移コスト表702の同じアドレスからコスト1を得る。
同様に、文字「へ」が到来すれば次アドレスJ1とコス
ト8を得る。上に述べたように、この場合のコストは全
文字追加処理に対応するものである。
このようにして、入力文字列が与えられれば、遷移表7
01を参照することにより、有限オートマトンを順次辿
ることができ、遷移コスト表702からその遷移に要す
るコストも順次得られることがねかる。
第7図の例では、JISコード256個全てについてエ
ントリを設けるとしたが、例えば入力文字列が片仮名に
限定されることが判っている場合には、JISコードは
166(ヲ)から191(@ :半濁点)までの範囲に
入るから、エントリとして入力コードC(i )の代り
に(C(i)−166)を用いれば、58個のエントリ
で済む。
文字詔識部106の高力である候補文字列から、有限オ
ートマトンの遷移表と遷移コスト表を生成する処理、ま
たその中で候補文字追加を行う処理、あるいは単語が与
えられたとき、遷移表をたどって距離を求める処理は、
情報処理分野の専門家には容易に実現され得ると思われ
るので、説明を省略する。
次に、単語照合部107すなわち有限オートマトンによ
る文字列受理の処理を実現するハードウェアの詳細な説
明を行う。
第8図は、単語照合部107の構成を示す構成図である
。第8図において入力端子800には単語辞書から与え
られる文字列が入力される。この文字列の各文字コード
はレジスタ801でラッチされ、そのラッチされた文字
コードはメモリ802及び809の入力となる。メモリ
802は第7図の状態遷移表701を記憶しているもの
で、以後第8図の説明においてはメモリ802を状態遷
移表あるいは単に遷移表と記述することがある。メモリ
809は第7図の遷移コスト表702を記憶しているも
ので、以後第8図の説明においてはメモリ809を遷移
コスト表と記述することがある。
遷移表802には、もう一つの入力として遷移表802
自身の出力がレジスタ803及びセレクタ804を経て
供給されている。遷移表802の出力は、有限オートマ
トンにおける次状態を表わす値(先頭アドレス)であり
、遷移表802に対する二つの入力、すなわち次状態の
先頭アドレスと文字コードとから、遷移表のアドレスが
決定され、そのアドレスの内容が読み出されて出力とな
る。
セレクタ804の入力にはもう1個のレジスタ817の
出力がつながれているが、レジスタ817は入力端子8
16から与えられる出発アドレスを記憶するものである
0通常は、入力端子816には初期状態のアドレスが与
えられるが、途中状態のアドレスを与えれば、オートマ
トンの途中の状態から出発することもできる。
単語照合部107の動作開始時に、セレクタ804で8
17側を選択して初期状態のアドレスを遷移表802の
初期値とする。その後、セレクタ804で803側を選
択する。以後は、入力端子800から到来する文字コー
ドに同期して、遷移表を辿る動作が繰り返される。入力
される文字列が尽きたとき、遷移表802は最終状態に
到達しており、この状態はデコーダ805で解読されて
出力端子806から結果識別番号として出力される。デ
コーダ805の出力は、最終状態以外ではOであるが、
0以外の出力はレジスタ807に対しラッチ制御信号と
して働き、最終状態はレジスタ807でラッチされる。
この値は、出力端子808から結果確定信号として最終
到達状態として出力される。本実施例では、意味のある
到達状態は最終状態の1個のみとしているので、デコー
ダ805は必ずしも必要ではないが、有限オートマトン
の途中まで到達したことを検出したい場合に対処するた
め、デコーダ805とレジスタ807を設けて有限オー
トマトンの中でどこまで到達しているかを識別する。デ
コーダ805で解読すべき到達目標状態の値は、外部か
ら与えられレジスタに保持される(図示せず)a 一方、セレクタ804の出力は遷移コスト表809の入
力にもつながれている。遷移ニス1−表に対する二つの
入力、すなわち各状態の先頭アドレスと文字コードから
、遷移に要するコストが決定され、加算器810に与え
られる。加算器の出力はレジスタ811でラッチされ、
そのラッチ出力は再び加算器810に入るので、レジス
タ811には遷移に要するコストの累積値が格納される
この累積値は出力端子712に出力される。
この累積値は、また比較器815にも与えられ。
入力端子813からレジスタ814にセットされた最悪
値と比較される。比較器815の出力は出力端子818
から外部に取り出されている。外部回路でこの信号を監
視することにより、累積コストが異常に大きい単語に対
する処理を途中で打ち切ることもできる。
以上に述べたように、本実施例においてはCPU100
から与えられた単語照合の様態によって、単語照合にお
ける照合方法あるいはパラメータを変えることができる
ので、対象に応じて最適な単語照合を行うことができる
次に本発明による文字認識の後処理方式の第二の実施例
について述べる。この第二の実施例は複数単語を処理す
るのに適する。第二の実施例を実現するシステムは、第
一の実施例と同じく、第3図の装置構成により実現され
、CPU100の処理プログラムにより複合語処理を行
う。第9図に、第二の実施例の処理の流れ図をPAD形
式で示す。
なお、複合単語照合においても概略単語照合と精細単語
照合が選択できるが、この実施例では精細単語照合とし
て説明する。
第9図の流れ図において、901は単語照合様態が単純
単語照合か、複合単語照合かを判定する部分である。単
純単語照合の場合は、902〜905の処理が実行され
る。902では、第5図の項目503で第3行を参照し
、候補追加処理方法として類似文字追加処理を指定する
。903で単語照合準備を行うが、その中で類似文字追
加処理が行われる。904で単語辞書の種類を指定する
。905は単語照合部107に単語照合動作を指示する
部分である。
一方、901の判定で複合単語照合である場合。
906〜914の処理が実行される。906において、
第5図の項目503で第4行を参照し、候補追加処理方
法として、全文字追加処理を指定する。907は階層数
(ここではMで表す)回だけ以下の処理を繰り返すルー
プ制御であり、mは階層の番号を表わす、908で単語
照合準備を行うが、その中で全文字追加処理が行われる
。909は、第m階層における単語辞書の種類を指定す
る部分で、904と同様である。908は単語照合部1
07に単語照合動作を指示する部分で、904と同様で
ある。909〜910の処理がM回実行された後、91
1でメモリ105の上に関係辞書をロードしくあらかじ
めロードしておいても良い)912で接続関係のチエツ
クを行って、接続関係を満たさない候補単語を除去する
。913は総合判定を行う部分である。総合判定として
は各種の手法が存在するが、ここではその−例として、
接続関係を満たす候補単語の組が−通りの場合は。
その候補単語の組を出力し、接続関係を満たす候補単語
の組が複数の場合は、その中で単語距離の和が最小とな
る組を出力し、接続関係を満たす候補単語の組が存在し
ない場合は、各階層ごとの候補単語の1位を組合せて候
補とする処理を行う。
本実施例の説明では省略したが、単語照合の絶対間、値
D+aaxと相対閾値D d l iは第5図の表から
定められることは第一の実施例と同様である。
次に本発明による文字認識の後処理方式の第三の実施例
について述べる。この第三の実施例は階層的単語照合を
行うもので、単純単語照合の場合について説明するが、
複合単語照合についても同様に実現できる。第三の実施
例を実現するシステムは、第一の実施例と同じく、第3
図の装置構成により実現され、CPU100の処理プロ
グラムにより複合語処理を行う、第10図に、第三の実
施例の処理の流れ図をPAD形式で示す。1001は、
単語照合の様態を判定する部分で、この実施例では概略
単語照合、精細単語照合、階層的単語照合のうちの一つ
を選択するものである。1001で概略あるいは精細が
指定されている場合は、1002の概略単語照合、また
は1003の精細単語照合が実行されるが、その内容は
第4図を用いて述べたものと同様である。1001で階
層的単語照合が指定された場合、まず1004で第1層
の単語照合が実行される。このとき、候補文字追加方法
として、第5図の表で項目503の第5行で指定された
全文字追加を行う、すなわち、第1層では概略単語照合
を行ったと等価な結果を得る。 1004の第1層処理
の結果、1005で候補単語数を判定し、候補単語数が
0個の場合は1006で第2層の単語照合が実行される
。このとき、候補文字追加方法として、第5図の表で項
目504の第5行で指定された類似文字追加を行う、す
なわち、第2層では精細単語照合を行ったと等価な結果
を得る。
この実施例における階層的単語照合では、第1層で概略
単語照合を行った結果により、第2層で精細単語照合を
行うか否かを定めているが、逆に精細単語照合を行った
結果により概略単語照合を行うか否かを定めるようにし
ても良い、そのためには、第5図の表で項目503,5
04を書き換えれば良い、また、第1層と第2層で閾値
の値を変えるようにしても良く、そのためには第5図の
表の項目を追加して、第2層での閾値を別に定める用に
すれば良い。
次に本発明による文字tgmの後処理方式の第四の実施
例について述べる。この第四の実施例は複合単語照合に
おいて、候補推定を行うか否かを選択するものである。
第四の実施例を実現するシステムは、第一の実施例と同
じく、第3図の装置構成により実現され、CPU100
の処理プログラムにより複合語処理を行う。第11図に
、第四の実施例の処理の流れ図をPAD形式で示す、 
1101は、単語照合の様態を判定する部分で、複合単
語照合において候補推定を行うか否かを判定する。
この推定を行うか否かを指定する情報も第5図と同様に
して、表の形式で格納しておくものであるが、図示は省
略する。単語照合11o1で候補推定を行うことが指定
された場合、1102で候補単語数がOの階層が存在す
るか否かを判定する。
候補単語数がOのP1層が存在しない場合(すなわち全
ての階層において少なくとも1個は候補単語が存在する
場合)は何もしないが、候補単語数が0の階層が存在す
る場合、1103において、その階層での単語辞書に含
まれる単語を候補単語とする。ただし、その階層での入
力文字列と長さが等しい単語のみを候補単語とする。1
104で、通常の複合単語照合を行う0通常の複合単語
照合とは第9図の905〜912で示されるような処理
である。
この実施例では、1103において、その階層での単語
辞書に含まれる単語のうち、長さの一致する単語を全て
候補単語としたが、その代わりに、その階層での単語照
合の閾値をさらに大きくして再度単語照合して候補単語
を推定することもできる。また、その階層の上位階層に
おける候補単語のそれぞれについて、下位すなわち当該
階層に接続する単語を求めて候補単語と推定しても良い
また、その階層の下位階層における候補単語のそれぞれ
について、上位すなわち当該階層に接続する単語を求め
て候補単語と推定しても良い。また、上位階層と下位階
層の両方の候補単語から求めた単語集合の共通集合を候
補単語と推定しても良い。
さらに、上記の候補単語の各種の推定方法を組合せても
良い。
また、第四の実施例の拡張として、ある階層において候
補単語が存在せず、その上位または下位に2個以上の連
続する階層で候補単語が存在するとき、その2個以上の
連続する階層について接続関係の検査を行って、候補単
語の削減を行って置き、それから第四の実施例と同様の
処理を行うこともできる。
〔発明の効果〕
本発明によれば、単語照合の様態に応じて最も適した単
語照合の手法あるいはパラメーが選択できるので、単語
照合の正解率、したがって単語照合後の文字正解率が高
くなる効果がある。文字正解率とは、正解文字が候補文
字中の第1位となる割合である。
カタカナによる単語の読取結果に対して単語照合を適用
した実験結果により、本発明の効果を示す。実験対象の
一つは人名(姓21,610語)である。
もう一つの実験対象は、日本全国の地名であり、都道府
県(47語)、市郡区(1,251語)、区町村(50
,820語)の3階層からなる。人名の場合は、ランダ
ムに約4,400 WJtを選び、実験サンプルとした
。地名の場合は、区町村の階層からランダムに約10,
000語を選び、各単語の上位に接続する市郡区及び都
道府県の2階層の単語をそれぞれ求めて、3階層の複合
単語的1o、ooo組を作って実験サンプルとした0文
字認識装置の認識特性をシミュレートし、上記の単語の
疑似読取結果を作成し、単語照合部に供給した。
人名の場合、4,400語について単純単語照合を行い
、候補文字追加法として類似文字追加と全文字追加を比
較した。文字正解率は、単語照合前は90.9%である
が、単語照合後は類似文字追加の場合96.1%、全文
字追加の場合95.5%となって、類似文字追加の方が
優れていることが判った。一方。
地名の場合、3階層の複合単語10,000組に対する
複合単語照合における候補文字追加方法を比較した。単
語照合後の第1位文字正解率は類似文字追加の場合97
.2%、全文字追加の場合99.3%となり、全文字追
加の方が優れていることが判った。したがって、本発明
を適用して、単語照合の対象に応じて単語照合様態を指
定することにより、最適の単語照合性能を発揮できるこ
とが明らかである。
【図面の簡単な説明】 第1図、第2図は文字認識の後処理方式の〃X理を示す
説明図、第3図は本発明の実施例の装置構成を示す図、
第4図、第9図、第10図、第11図は実施例における
文字認識処理の流れ図、第5図、第6図、第7図は実施
例におけるメモリ内での情報の配置を示す説明図、第8
図は単語照合を実行する回路のブロック図である。 100・・・中央制御装置、101・・・主メモリ、1
02・・・端末、103・・・システムファイル、10
4・・・スキャナ、 105・・・ビデオメモリ、 106・・・文学誌 郡部、 107・・・単語照合部、 108・・・ワークファ イル、 109・・・バス。 第 図 第 図 第 図 (A) (B) (C) 第 図 第 図 第 図 第 図 第 図 第 図 第 図

Claims (1)

  1. 【特許請求の範囲】 1、ディジタル画像を入力する手段と、上記ディジタル
    画像の内部に存在する文字パターンを認識して各文字パ
    ターンに対する単数または複数の候補文字を求める手段
    と、複数の単語を記憶してなる単語辞書と、上記単数ま
    たは複数の候補文字を組合せて得られる候補文字列を上
    記の単語辞書に含まれる単語と照合する手段と、複数種
    の単語照合様態から一つを選択する手段とを有し、上記
    の選択された単語照合様態によって上記の単語照合手段
    における照合方法またはパラメータを変化させることを
    特徴とする文字認識の後処理装置。 2、特許請求の範囲第1項記載の文字認識の後処理方式
    において、上記の単語照合手段は認識結果の候補文字に
    所定の規則に従って候補文字を追加する機能を有し、上
    記所定の規則は単語照合の様態ごとに異なっていること
    を特徴とする文字認識の後処理装置。 3、特許請求の範囲第1項記載の文字認識の後処理装置
    において、複数個の単語辞書と、上記の複数個の単語辞
    書に含まれる単語の相互の関係を記憶してなる関係辞書
    と、上記の複数個の文字パターン群ごとに候補単語を求
    める手段とを有し、入力されたディジタル画像の内部に
    存在する複数個の文字パターン群を認識して各文字パタ
    ーン群に含まれるそれぞれの文字パターンに対する候補
    文字を求め、各文字パターン群ごとに単語照合を行って
    候補単語を求め、上記の候補単語間の接続関係が関係辞
    書に含まれる情報と一致する候補単語を選択することを
    特徴とする文字認識の後処理装置。 4、特許請求の範囲第1項記載の文字認識の後処理装置
    において、単語照合様態の一つは、単語照合の結果得ら
    れる候補単語が存在しない場合、単語照合における照合
    方法またはパラメータを変更して再度単語照合を行うよ
    うに制御するものであることを特徴とする文字認識の後
    処理装置。 5、特許請求の範囲第3項記載の文字認識の後処理装置
    において、単語照合の結果得られる候補単語が存在しな
    い場合、候補単語を追加した後、候補単語間の接続関係
    によって候補単語の選択を行うことを特徴とする文字認
    識の後処理装置。
JP1013907A 1989-01-25 1989-01-25 文字認識の後処理装置 Pending JPH02195489A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1013907A JPH02195489A (ja) 1989-01-25 1989-01-25 文字認識の後処理装置
KR1019900000786A KR910014839A (ko) 1989-01-25 1990-01-24 문자인식의 후처리장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1013907A JPH02195489A (ja) 1989-01-25 1989-01-25 文字認識の後処理装置

Publications (1)

Publication Number Publication Date
JPH02195489A true JPH02195489A (ja) 1990-08-02

Family

ID=11846246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1013907A Pending JPH02195489A (ja) 1989-01-25 1989-01-25 文字認識の後処理装置

Country Status (2)

Country Link
JP (1) JPH02195489A (ja)
KR (1) KR910014839A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331672B2 (en) 2008-06-24 2012-12-11 Samsung Electronics Co., Ltd Method and apparatus for recognizing character in character recognizing apparatus
WO2021049070A1 (ja) * 2019-09-09 2021-03-18 株式会社日立システムズ 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62107390A (ja) * 1985-11-06 1987-05-18 Hitachi Ltd パタ−ン認識装置
JPS6336392A (ja) * 1986-07-31 1988-02-17 Toshiba Corp 閾値設定方式
JPS63298492A (ja) * 1987-05-28 1988-12-06 Ricoh Co Ltd 文字認識後処理装置
JPH01166187A (ja) * 1987-12-22 1989-06-30 Oki Electric Ind Co Ltd 文字認識方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62107390A (ja) * 1985-11-06 1987-05-18 Hitachi Ltd パタ−ン認識装置
JPS6336392A (ja) * 1986-07-31 1988-02-17 Toshiba Corp 閾値設定方式
JPS63298492A (ja) * 1987-05-28 1988-12-06 Ricoh Co Ltd 文字認識後処理装置
JPH01166187A (ja) * 1987-12-22 1989-06-30 Oki Electric Ind Co Ltd 文字認識方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8331672B2 (en) 2008-06-24 2012-12-11 Samsung Electronics Co., Ltd Method and apparatus for recognizing character in character recognizing apparatus
WO2021049070A1 (ja) * 2019-09-09 2021-03-18 株式会社日立システムズ 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム
JP2021043570A (ja) * 2019-09-09 2021-03-18 株式会社日立システムズ 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム
KR20210032380A (ko) * 2019-09-09 2021-03-24 가부시키가이샤 히타치 시스테무즈 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램
KR20220153096A (ko) * 2019-09-09 2022-11-17 가부시키가이샤 히타치 시스테무즈 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램

Also Published As

Publication number Publication date
KR910014839A (ko) 1991-08-31

Similar Documents

Publication Publication Date Title
US8645812B1 (en) Methods and apparatus for automated redaction of content in a document
JP4114600B2 (ja) 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム
JPH02195489A (ja) 文字認識の後処理装置
JP2006309377A (ja) 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体
JP2013197850A (ja) 符号化方法、符号化装置及びコンピュータプログラム
US7672965B2 (en) Finite-state machine augmented for multiple evaluations of text
JP2006185380A (ja) 予測機能付き文字処理装置、方法、記録媒体およびプログラム
JPH10143501A (ja) 文字列予測方法及びこの文字列予測方法を用いた文書作成装置
JP2007011438A (ja) 絞り込み検索用インデクス構造及び情報検索装置
JPWO2009050797A1 (ja) 検索装置および検索方法
JP2020140259A (ja) 入力文字列予測装置、入力文字列予測方法及びプログラム
JPH0736934A (ja) 情報検索方法及びその装置
CN114461130A (zh) 文字输入方法、装置和存储介质
JP2864418B2 (ja) 文書処理装置
JP2722684B2 (ja) ファイルシステムの検索装置
JP2798076B2 (ja) 文字列出力装置
JP5460836B2 (ja) 文字列予測プログラムおよび情報処理装置
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2842271B2 (ja) 手書き文字列入力装置
JP2011164924A (ja) プログラムおよび情報処理装置
JPH0271388A (ja) 文字認識の後処理方法
JPH06348688A (ja) かな漢字変換システム
JPH06251203A (ja) 手書き文字認識装置と手書き入力文字のかな漢字変換方法
JPH07129621A (ja) 画像情報記憶装置
JPH09134357A (ja) 文字処理装置