JP2886868B2 - 文字認識の後処理方法 - Google Patents

文字認識の後処理方法

Info

Publication number
JP2886868B2
JP2886868B2 JP63222307A JP22230788A JP2886868B2 JP 2886868 B2 JP2886868 B2 JP 2886868B2 JP 63222307 A JP63222307 A JP 63222307A JP 22230788 A JP22230788 A JP 22230788A JP 2886868 B2 JP2886868 B2 JP 2886868B2
Authority
JP
Japan
Prior art keywords
character
word
candidate
words
automaton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63222307A
Other languages
English (en)
Other versions
JPH0271388A (ja
Inventor
康明 中野
浩道 藤沢
川口  久光
歳弘 花野井
彰三 門田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63222307A priority Critical patent/JP2886868B2/ja
Publication of JPH0271388A publication Critical patent/JPH0271388A/ja
Application granted granted Critical
Publication of JP2886868B2 publication Critical patent/JP2886868B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文字認識の後処理方法に係り、特にカナ文字
で書かれた住所や氏名などの情報を自動的に漢字文字列
に変換する目的に好適な文字認識の後処理方法に関す
る。
〔従来の技術〕
通常の文字認識装置(以下、OCRと略する)では、認
識性能は100%完全ではなく、誤読や不読が避けられな
い。ここでいう不読の中には、認識結果として候補文字
が全く得られないものと、複数個の候補文字が得られて
そのいずれかを決定できないものとが含まれる。以下、
前者の不読を拒絶性の不読または単に拒絶、後者の不読
を競合性の不読または単に競合と呼んで区別することが
ある。
このようなOCRの認識性能の不完全性を補うため、た
とえば住所や氏名など単語としてまとまって書かれた文
字列の読み取り結果について、単語照合を行って認識性
能を高める手法が提案されている。単語照合とは、住所
や氏名として存在し得る単語の集合を予め単語辞書とし
て用意しておき、認識結果として得られた候補文字列を
単語辞書に含まれる単語と順次比較し、単語として成立
し得ないような候補文字を除去あるいは修正するもので
ある。ここで候補文字列とは、各入力文字パターンに対
する候補文字集合を並べたものをいう。このような手法
は、例えば特公昭60-55866「文字認識装置」に述べられ
ている。また、単語と認識候補文字列との比較に際して
OCRでの認識結果の情報を利用するため、候補文字に対
して順位ごとに重みを付けて単語間の距離を計算する手
法が、特開昭58-48181「文字認識後処理方式」や特公昭
61-20038「文字認識装置」に述べられている。さらに、
住所のように複数の単語からなる文字列に対して、単語
辞書との比較を行う方法も特公昭62-62388「住所読取装
置」に述べられている。
〔発明が解決しようとする課題〕
上記の従来技術では、単語辞書に含まれる各単語と候
補文字列との比較に際して、各文字位置ごとに出現する
全ての候補文字について、単語の中で同一文字位置にあ
る文字との距離を計算するため、計算時間がかかるとい
う問題点があった。そのため、単語照合の効果を高める
には候補文字数を増加することが有利であることが知ら
れているにもかかわらず、計算時間の制限から候補文字
数を少数個に抑える必要があり、単語照合の効果を充分
発揮できなかった。さらに、複数の単語が連続して記入
された場合には、単語間の切目が検出できないため、単
語照合が困難になる問題点があった。
本発明の第一の目的は、高速な単語照合手段を提供す
ることにある。また、本発明の第二の目的は複数の単語
が連続して書かれた場合にも単語照合を可能とする手段
を提供することにある。
〔課題を解決するための手段〕
上記の第一の目的は、OCRから出力される候補文字列
から、この候補文字列の組合せを受理するような有限オ
ートマトンを生成し、この有限オートマトンに単語辞書
に含まれる単語を順次入力し、受理されるような単語を
出力することによって達成される。
上記の第二の目的は、OCR出力の候補文字列から生成
される有限オートマトンを複数の候補点で切断して部分
オートマトンを生成し、その部分オートマトンに単語辞
書に含まれる単語を入力し、受理される単語が存在する
ような切断点を検出し、かつ各切断点間の部分オートマ
トンで受理された各単語の属する単語辞書の間の上下関
係に矛盾がないように制御することによって達成され
る。
〔作用〕
まず、従来方式による単語照合の原理を説明する。カ
ナ文字で書かれた地名の場合を例に取り、入力文字が
「カラスヤマ(烏山)」であったとき、各文字に対する
認識結果として、 のように候補文字が得られたとする。
ここで、アンダラインを付けた文字は正解文字を示
す。
この候補文字列と、単語辞書の中に存在する各単語と
の距離は、文字ごとの距離の総和として定義され、文字
ごとの距離は、例えば単語の中に含まれる文字が第n位
候補であるとき(n−1)であると定義される。候補の
中にない文字の場合は距離として適当な値、例えば16を
取る。したがって、単語「カラスヤマ(烏山)」に対す
る距離は最初の文字「カ」は第2位なので距離1とな
り、以下同様にして単語全体では D=1+2+1+2+0=6 となる。同様に単語「サクラヤマ(桜山)」に対して
は D=0+3+16+2+0=21 となる。以下同様に全ての単語との距離を求め、距離
が最小になる単語を候補単語として設定する。この例で
は「カラスヤマ(烏山)」に対する距離が最小になるの
で、これを候補単語として設定する。なお、単語辞書内
の単語との距離計算は、長さが等しい単語(この例では
5文字の単語)についてのみ行われるのが普通である。
上記の例では、各文字パターンに対する認識結果は全
て競合性の不読となっていて候補中に正解が含まれてい
るものとしたが、認識結果が正読の場合はいうまでもな
く、誤読あるいは拒絶性の不読の場合にも適用できるこ
とは明かであろう。誤読の場合には、単語辞書に存在す
る別の単語に偶然誤まる場合を除けば、ほとんどの場合
最小距離が大きくなり、このことを利用して誤読を検出
できる。一方、拒絶性の不読が1個含まれている場合に
は、どの単語にたいしても距離が16となるため、単語の
最小距離は少なくとも16以上になる。このとき、単語最
小距離を受理する閾値を16以上に取ることにより、拒絶
性不読以外の文字が正しく認識されていれば、正しい単
語を探索することができる。
この従来方式では、1文字ごとに必要な単位演算量は
文字コードの比較とその結果による距離の累算である。
1単語当たりの情報に対する処理量は単語長と平均候補
数の積が演算回数であり、上の例では19回の演算が必要
になる。長さが5文字の単語数を例えば3000語をすれ
ば、全体の演算回数は、19×3000=57,000回となる。
これに対し、本発明による単語照合の原理を第1図を
用いて説明する。本発明では、候補文字列から、第1図
のような有限オートマトンを生成する。このオートマト
ンに単語辞書に含まれる各単語を文字列として表したも
のを順次入力し、その文字列が受理されるかどうか、ま
たその場合のコストはいくらになるかを求める。
第1図のオートマトンで丸印は状態を示し、その中に
書かれた文字は状態番号を示し、状態と状態の間が単語
の各文字位置に対応する。状態間の線は遷移を示し、あ
る状態で線上の左側に書かれた文字がオートマトンに入
力された場合に、その遷移経路をたどって次の状態に遷
移することを示す。ただし、otherは二つの状態間の遷
移に対応する文字として明示されたもの以外の全ての文
字、言い替えれば、その文字位置で候補文字として現れ
なかった文字を表す。線上の右側に書かれた数字は、そ
の遷移に要するコストであり、この場合は、文字間の距
離に相当する値となっている。
第1図から、単語「カラスヤマ」がこの有限オートマ
トンに入力されたとき、太線で示された経路を辿り、全
体の遷移に要するコストすなわち単語の距離は D=1+2+1+2+0=6 となることは容易に確かめられる。同様に、単語「サ
クラヤマ」は距離21となる。すなわち、この有限オート
マトンは従来方式と同じ結果を与える。本方式の利点は
その高速性にあり、入力された文字1個についてどの遷
移を辿るべきかは1回の単位演算で決定できるから、単
語全体で5回の単位演算で済む。ここで、単位演算とは
文字コードの比較と遷移先状態の決定及びコストの累算
であり、後述するように極めて単純な回路で実現され
る。また、ソフトウェアによって本方式を実現する場合
も単純な処理で構成されるため、高速に処理できる。
本方式における長さが5文字の単語全体を処理するの
に必要な演算回路は、5×3000=15,000回となり、従来
方式に比べて高速化されることが判る。上記の例では、
説明を単純化するため候補文字数は比較的少ないとして
説明している。しかし、実際のOCRではカナ文字の場合
には候補数はもっと多いのが普通であり、演算回数の差
はさらに増加する。
次に、複数の単語が連続して書かれた場合における本
発明による単語照合の原理を説明する。カナ文字で書か
れた人名の場合を例に取り、OCRへの入力文字が「ナカ
ノヤスアキ(中野康明)」であったとき、認識結果とし
て、各文字に対し次のように候補文字が得られたとす
る。
前例と同様に、アンダラインを付けた文字は正解文字
を示す。
この場合、対象が姓名であることが判っているとして
説明を行うが、単に複数単語であることしか判っておら
ず、単語の種類や単語数が不明である場合にも、以下に
説明する本発明の原理は若干の修正を加えるのみで成立
する。
本例の姓名の場合は単語数が2であるので、上記の候
補文字を二分して、それぞれについて単語照合を行う必
要がある。本発明においては、単一単語の場合と同様
に、候補文字列から第2図のような有限オートマトンを
生成する。遷移を示す矢印で太線で書かれた部分は正解
文字列が辿る経路を示すことは第1図と同様である。
この有限オートマトンを、二つの部分オートマトンに
切断する。そのとき、からまでの6個の状態がいず
れも切断候補点になるが、それぞれの切断状態において
以下の処理を行い、後述するように最も高い評価点が得
られる切断候補点を正しい切断点として採用する。
どの切断点でも事情は同じであるから、状態で切断
した場合を例にとって説明する。状態で切断した有限
オートマトンの前部及び後部をそれぞれF(5;1)、L
(5;1)と書く。ここで、括弧の中の第一番目の数字
(5)は状態で切断したことを意味する。また、括弧
の中の第二番目の数字(1)は第1回目の切断を意味す
る。この例では単語数が2であるから、1回しか切断が
行われないが、一般には単語数をMとすれば、i=1か
ら(M−1)まで切断が行われる。切断iで行う単語照
合を第i階層の照合と呼ぶ。
第1階層では、後部の有限オートマトンのL(5;1)
に名の単語辞書に含まれる単語(この場合は単語長2の
もの)を順次入力し、各単語に対する距離を計算し、距
離の小さい順に並べる。この場合、例えば タキ(1)、アキ(2)、マホ(2)、 マキ(3)、フキ(4)、フネ(5)、・・・ の順になったとする。但し、上で括弧の中は各単語の
距離を示す。
次に、前部の有限オートマトンのF(5;1)に姓の単
語辞書に含まれる単語(この場合は単語長5のもの)を
順次入力し、各単語に対する距離を計算する。この場合
の距離を小さい順に並べるが、例えば ナカムカイ(20)、ナカ゛ヤス(20)、 アサナカ゛(35)、アカオキ゛(37)、 ナカノソノ(37)、・・・ なる結果が得られたとする。この前半部と後半部の距
離を合計し、 ナカムカイタキ(21)、ナカ゛ヤスタキ(21)、 ナカムカイアキ(22)、ナカ゛ヤスアキ(22)、 ナカムカイマホ(22)、ナカ゛ヤスマホ(22)、 ナカムカイマキ(21)、ナカ゛ヤスマキ(21)、 ・・・ のように並べ、距離の小さい順に数個を切断点にお
ける候補(複合単語の候補)として、テーブルに登録す
る。
次に、切断点を前に動かして切断点におけるオート
マトンL(4;1)及びF(4;1)とを用いて複合単語の候
補とその距離を求める。以下同様に、切断点を順次前に
動かして行き、複合単語の候補とその距離を求める。最
後に。各切断点での候補を統合して距離の小さい順に並
べ替えることにより、姓名の複合単語に対して ナカノヤスアキ( 9)、アサノヤスアキ(10)、 ナカムカイタキ(21)、ナカ゛ヤスタキ(21)、 ナカノカス゛キ(22)、・・・ のような候補系列を得る。この結果、OCRへの入力文
字「ナカノヤスアキ」に対して、 第一候補 ナカノ+ヤスアキ (中野、中埜)+(泰明、康昭、康明) 第二候補 アサノ+ヤスアキ (浅野、朝野)+(泰明、康昭、康明) という候補を得る。なお、単語辞書の中に、各単語に
対応して、上記の括弧の中に示したような漢字表記を記
憶しておけば、単語照合を行なうと同時に仮名から漢字
への変換も同時に行なうことができる。
以上の複合単語に関する説明では、複合単語として姓
名を取ったので、必ず姓、名の順に単語が並び、単語間
の順序関係の検査は省略しても良かった。しかし、例え
ば住所の場合、都道府県、市郡区、町村といった階層が
あり、各階層の間に従属関係が存在する。従って、この
従属関係を調べることにより、単語の候補をさらに限定
できる。いま、住所を後側から切断して単語照合して行
く場合を考える。単語照合の結果として町村名の候補が
求められた時、その前方の単語は市郡区の辞書を用いて
見出される。このとき、予めテーブルに登録しておいた
町村名と市郡区との従属関係を調べ、従属関係のない組
合せに対しては大きな距離を加算する。同様に市郡区と
その前方の都道府県についても、従属関係のない組合せ
に対しては大きな距離を加算する。このようにすれば、
誤った組合せを排除できる。
複合単語の処理として、上記の説明では後側から切断
するとしたが、前側から切断して行っても同様にできる
ことは言うまでもない。
次に、本発明においてOCRの認識性能を補うための付
加処理について原理を説明する。すなわち、単語照合に
おいては、OCRの誤認識や筆記者の誤記入によって正し
い文字が候補文字の中に含まれない場合には、辞書との
照合を行っても正しい単語との距離が大きくなってしま
い、認識能力の改善が図れない場合がある。この問題点
に対処するため、本発明では、OCRの認識結果に対し書
き換え規則を適用して候補追加を行ってから、単語照合
を行うものである。
この書き換え規則は、第一種及び第二種の規則に分類
される。第一種の規則とは、ある文字パターンに対する
候補文字集合に対し、候補文字を追加する規則である。
また第二種の規則とは、ある文字パターンの後に仮想的
な文字パターンを生成し、この二つの文字パターンに対
し、それぞれ候補文字を追加すべきことを示す規則であ
る。
次に書き換え規則の例を示す。この書き換え規則は、
基本的にはある文字パターンに対する候補文字に対し候
補追加を行うものであるが、場合によっては前後の文字
パターンに対する候補文字も参照して、すなわち前後関
係も考慮して候補を追加することがある。
以下の規則で、Γ(k)は第k文字位置における候補
文字の集合を示し、∈は集合の中にある要素が含まれる
ことを示す記号であり、:=は集合の変化を示す記号で
ある。また、&はAND条件を表す。また、記号φについ
ては後で説明する。
第一種の書き換え規則の例: (1)if ス∈Γ(k) then Γ(k):=Γ(k)+{ヌ} (2)if ユ(大文字)∈Γ(k) then Γ(k):=Γ(k)+{ユ(小文字)} (3)if ユ∈Γ(k) & ゛(半濁点)∈Γ(k+
1) then Γ(k):=Γ(k)+{コ} (4)if ノ∈Γ(k) & レ∈Γ(k+1) then Γ(k):=Γ(k)+{ルφ} (5)if ア∈Γ(k) & ア以外のア行の文字∈Γ(k−1) then Γ(k−1):=Γ(k−1)+{ー(長音)} 第二種の書き換え規則の例: (6)if ル∈Γ(k) then Γ(k):=Γ(k)+{ノ} かつ k+1以後の文字番号を1だけ増し、 かつ Γ(k+1):=+{レ} (7)if ア行の文字∈Γ(K)、但しKは候補文字数 かつ Γ(K)に属する候補(ア行の文字以外)
には記号φを付け かつ 候補文字数Kを1だけ増加し かつ Γ(K):={ー(長音)} これらの書き換え規則のうち、(1)〜(3)は文字
認識の誤りに対処するためのものであり、認識装置の誤
読し易さについての知識を用いて最適な規則を設定すれ
ば良い。
また、(4)、(6)は文字切出しの誤りに対処する
ものである。
(4)は1文字を誤って2文字に分離した場合に対処
する例に対応する。この場合には追加した候補文字の後
に記号φが付けられており、記号φは追加した候補文字
に対応する遷移が次の状態を飛ばして一つ先の状態へ遷
移すべきことを示す。
(6)は2文字を誤って1文字に統合した場合に対処
する例に対応する。この場合には、対象文字の後に仮想
文字パターンが追加される。そして、規則適用対象の候
補以外の候補文字と追加した仮想候補文字とが連接しな
いように、記号φを用いている。
また、(5)、(7)は表記の揺れに対処するための
ものである。
(5)の例では「アパート」を「アパアト」と書いた
場合に、標準的な表記すなわち長音が生成されるように
している。
(7)の例は「コンピューター」などの単語で語尾の
長音が脱落して「コンピュータ」と書かれた場合に長音
を補うものであり、この場合にも語尾に仮想文字パター
ンが追加される。記号φを用いる意味は(6)と同様で
ある。
以上の説明から理解されるように、書き換え規則とし
てはOCRの誤読の性質や筆記者の誤記入の状況に応じて
任意の規則を作成することができ、正しい候補文字を追
加できるので、単語照合の効果が高まる。従来にも、候
補文字を追加する考え方はあったが、候補追加によって
候補文字数が増加するため、照合速度の低下を来す問題
点があった。本発明では、先に述べたように高速に単語
照合が可能なので、候補文字数が多少増加しても速度の
低下はほとんどなく、単語照合の効果を充分発揮できる
利点がある。
以上の説明では、OCRが片仮名を認識する場合を例に
とり、文字コードが1文字1バイトで表わされる場合に
ついて説明した。片仮名以外にも英字であっても同様に
成立することはいうまでもない。漢字の場合にも以下に
述べるようにして適用できる。
漢字1文字は、普通2バイトで表わされる。この2バ
イトをまとめて一つの文字コードと見なして有限オート
マトンを作成しても良いが、次のようにこの2バイトを
2文字と見なして有限オートマトンを作成することもで
きる。
OCRへの入力文字を「中野康明」とし、認識結果とし
て、各文字に対し次のように候補文字が得られたとす
る。
前例と同様に、アンダラインを付けた文字は正解文字
を示す。括弧内は各文字に対するJISコード(区点番
号)である。第3図はその場合の有限オートマトンの説
明図であり、漢字1文字に対して2個の状態遷移が対応
し、前の遷移がJISコードの区番号に、後の遷移が点番
号に対応する(区番号及び点番号はそれぞれ1バイトで
表現できる)。第1図と異なるのは、遷移に要するコス
トは後の遷移に対してのみかかる点である。第3図で
は、otherに対応する遷移は破線で表現され、otherの表
記は省略している。
また、第3図から明らかなように、ある文字パターン
に対する候補文字として区番号が一致するものが複数個
あれば、それらについての状態遷移では区番号にたいす
る遷移を共通に用いることにより、状態数を減らすこと
もできる。
以上の説明により、本発明により文字認識の後処理が
高速に実現されることが理解されよう。
〔実施例〕
以下、本発明による一実施例を第4図により説明す
る。第4図は、本発明による文字認識の後処理方法を実
現するシステムの装置構成を示す図である。
同システムは、システムを制御するCPU(中央制御装
置)100、主メモリ101、端末102、システムファイル10
3、文書画像の走査を行うためのスキャナ104、ビデオメ
モリ105、文字認識部106、単語照合部107、ワークファ
イル108、バス109を基本部として持つ。
各部の動作の流れを以下に詳細に説明する。
CPU100は、主メモリ101の中のプログラムを実行する
ことにより、以下に述べるシステム全体の動作を制御す
る。システム各部の動作に応じて、必要なプログラムを
システムファイル103から主メモリ101にロードあるいは
退避したり、各プログラムに実行権を付与したりするこ
とは、オペレーティングシステムプログラムにより行わ
れるが、その動作は周知の通りであるから省略する。以
下の説明で、システム各部が自律的に動作するように述
べるが、実際にはCPU100のプログラム制御に従って動作
することを簡略化して述べたものである。また、システ
ム各部の間のデータ授受はバス109を介して行われる
が、説明を簡略化するため、システム各部間で直接デー
タ転送が行われるように述べる。
端末102は、プログラムが要求する時点で、操作者と
のデータ授受を行うために用いられる。以下の説明では
端末102の記述を省略し、CPU100が直接操作者とデータ
授受を行うように述べる場合もある。
操作者が読取対象文書110をスキャナ104にセットする
と、スキャナ104は文書110の上の画像を走査し、二値デ
ィジタル画像に変換して、ビデオメモリ105に格納す
る。ビデオメモリ105は文書画像以外にも後述する各種
のデータの格納に用いられ、それぞれが相互に干渉しな
いよう別々の領域に格納されるが、以下では特に断わら
ずにビデオメモリ105と記述している。
文字認識部106は、予め与えられた書式情報に従っ
て、ビデオメモリ105の中の文書画像から、文字の記入
された領域を探索し、その中の文字パターンを切出し、
認識する。文字の切出し、認識処理については公知であ
るので省略する。認識結果は、各文字パターンに対する
候補文字の系列として表され、ビデオメモリ105に格納
される。
文字認識が終了すると、CPU100は後述するような処理
を行って、候補文字列から有限オートマトンの遷移表を
生成する。その詳細な処理内容については後述する。生
成された遷移表の実体は単語照合部107に付属するメモ
リの中に格納されたテーブルである。
次に、単語照合部107が起動され、上記の候補文字列
から生成された遷移表を用いて、単語辞書に含まれる各
単語を有限オートマトンに入力し、各単語に対する距離
を求める処理を行う。この詳細な処理内容は後述する。
ここで、単語辞書はシステムファイル103からビデオメ
モリ105の中にあらかじめ読み込んでおくものとする。
単語照合部の出力は、各単語に対する距離を並べたリ
ストであり、ビデオメモリ105に出力される。このリス
トに対して、CPU100は公知の手法により距離の小さい順
に並べ替えを行い、距離の小さい候補単語数個を求め
る。CPU100はこの候補単語を端末102の上に表示し、操
作者の選択あるいは修正を行わせる。ここで、選択とは
表示されている候補単語の中から正しい単語を選ぶもの
であり、修正とは表示された単語の中に正しい単語が存
在しない場合に、操作者が正しい単語を入力するもので
ある。この時、認識対象となった部分の画像を候補単語
と同時に端末102の表示することは選択あるいは修正を
行う上で有効である。
操作者の選択あるいは修正を経た単語データはワーク
ファイル108に出力される。用途によっては、操作者の
選択・修正を行わずに、単語照合での第1位単語をその
まま出力してもよい。
次に、文字認識結果の候補文字列から有限オートマト
ンで用いられる遷移表を生成する処理の説明を行うが、
処理の説明に先立ってビデオメモリ内におけるデータの
表現方法について説明する。
第5図は、文字認識部106の出力である候補文字列の
ビデオメモリ105内での表現方法の一例を示す。第5図
で、501はポインタテーブルであり、各文字パターンに
対する候補文字数N(1)、N(2)、N(3)、...
と、候補文字列を格納したテーブル502へのポインタP
(1)、P(2)、P(3)、...を有する。502は候補
文字テーブルであり、各文字パターンごとの候補文字を
並べたもので、先頭からの相対アドレスP(1)以降
に、第1字での候補(この例ではサ、カ、ク、ヤ)が、
同じくP(2)以降に第2字での候補文字が並ぶ。
第6図は、候補文字列から生成される有限オートマト
ンで用いられる遷移表の表現方法の一例を示す。この遷
移表は、単語照合部107に付属する内部メモリの中に作
られる。
第6図で、601は有限オートマトンの各状態S
(0)、S(1)、S(2)、S(3)、...に対応す
る情報を含むテーブルである。但し、S(0)は第1図
の初期状態Sを、S(1)、...は第1図の状態、..
に対応する。以下このテーブル601を状態遷移表あるい
は略して遷移表と呼ぶ。また、第6図で、602は各遷移
に対するコストを記憶したテーブルであり、以下このテ
ーブル602を遷移コスト表と呼ぶ。
各状態に対して、601、602における先頭アドレスポイ
ンタJ(0)、J(1)、J(2)、...が定まる。こ
の例では、第i状態に対して J(i)=J(0)+(i−1)×256×2 で定める。すなわち、601、602は各状態ごとに256個
のエントリを有するテーブルである。256個のエントリ
は文字コードに対応しており、この例ではEBCDIKコード
により文字を表わす。従って、例えば、文字「カ」はEB
CDIKコードで182であるから、(先頭から数えて)183番
目のエントリに対応している。
状態遷移表601は、有限オートマトンの各状態S
(i)(実際にはアドレスJ(i)で示される)におい
て、C(i)が到来したときの動作を記述するものであ
り、次状態S(j)(実際にはアドレスJ(j))に遷
移することを示す。遷移コスト表602には、その遷移に
対して発生するコストW(j)が記憶されており、601
と602で先頭からの相対アドレスが等しいもの同士が対
応する。第6図の例で言えば、初期状態S(0)(実際
にはアドレスJ(0))で文字「カ」が到来すれば、遷
移表601でアドレス(J(0)+182)の内容を引いて、
次アドレスJ(1)を、また遷移コスト表の同じアドレ
スからコスト1を得る。同様に、文字「キ」が到来すれ
ば次アドレスJ(1)とコスト16を得る。なお、この場
合のコストは第1図の例に対応するものである。このよ
うにして、入力文字列が与えられれば、遷移表601を参
照することにより、有限オートマトンを順次辿ることが
でき、遷移コスト表602からその遷移に要するコストも
順次得られることがわかる。
第6図の例では、EBCDIKコード256個全てについてエ
ントリを設けるとしたが、例えば入力文字列が片仮名に
限定されることが判っている場合には、EBCDIKコードは
129(ア)から191(°:半濁点)までの範囲に入るか
ら、エントリとして入力コードC(i)の代りに(C
(i)‐129)を用いれば、63個のエントリで済む。
第6図の例では、一つの状態において全ての入力文字
に対する次状態は同一であるから、第6図のようなデー
タ表現形式は冗長に見えるが、後述するように、ある状
態から入力文字により異なった状態に遷移するような有
限オートマトンへの発展が考えられるので、拡張性に富
んだ第6図のデータ表現形式を採用している。
第7図は、この候補文字列から有限オートマトンの遷
移表と遷移コスト表を生成するための流れ図をPAD形式
で示したものである。第7図の説明に先立って記号の説
明を行う。
N :OCRで認識した文字数(オートマトンの
状態数=N+1) K(k) :第k文字パターンに対する候補数 C(k,j) :第k文字パターンを認識したときの第
j候補の文字コード J(i) :遷移表の第i状態の先頭アドレス T(m) :遷移表の第mエントリの内容(次状態
の先頭アドレス) P(m) :遷移コスト表の第mエントリの内容
(遷移に要するコスト) この記号の説明から判るように、この例では1文字コ
ードが1バイトで表わされる場合に対するものである
が、漢字のように1文字が2バイトで表現されるような
場合への拡張は容易であろう。
第7図の流れ図において、701〜704は初期化処理であ
り、遷移表及び遷移コスト表に初期値を埋め込むもので
ある。701は(状態数−1)回すなわちN回だけ以下の
処理を繰り返すループ制御であり、iは状態番号を表わ
す。702で、次状態の先頭アドレスAを計算する。703
は、状態iに属する256個のエントリについてのループ
制御であり、nは文字コードを表わす。704で、二つの
表における第i状態の第n文字コードに対するエントリ
mを計算し、遷移表の第mエントリT(m)に次状態の
先頭アドレスAを、遷移コスト表の第mエントリP
(m)にコストの初期値16を埋め込む。
第7図の705〜707はOCR出力結果を用いて遷移表を作
成する処理である。705は文字数すなわちN回だけ以下
の処理を繰り返すループ制御であり、kは文字パターン
番号を表わす。706は第k文字パターンに対する候補文
字数すなわちK(k)回だけ以下の処理を繰り返すルー
プ制御であり、jは候補文字の順位を表わす。707で
は、文字コードC(k,j)に対する遷移コスト表でのエ
ントリmを計算し、遷移コスト表の第mエントリP
(m)にコストとして(j−1)を埋め込む。エントリ
mは第(k−1)状態の先頭アドレスに対する相対アド
レスC(k,j)として求まる。
以上の説明により、OCRから出力された候補文字列か
ら、有限オートマトンに対応する遷移表と遷移コスト表
を生成できることが理解されよう。
次に、単語照合部107すなわち有限オートマトンによ
る文字列受理の処理を表現するハードウェアの詳細な説
明を行う。
第8図は、単語照合部107の構成を示す構成図であ
る。第8図において入力端子800には単語辞書から与え
られる文字列が入力される。この文字列の各文字コード
はレジスタ801でラッチされ、そのラッチされた文字コ
ードはメモリ802及び809の入力となる。メモリ802は第
6図の状態遷移表601を記憶しているもので、以後メモ
リ802を状態遷移表あるいは単に遷移表と記述すること
がある。メモリ809は第6図の遷移コスト表602を記憶し
ているもので、以後メモリ809を遷移コスト表と記述す
ることがある。
遷移表802には、もう一つの入力として遷移表802自身
の出力がレジスタ803及びセレクタ804を経て供給されて
いる。遷移表802の出力は、有限オートマトンにおける
次状態を表わす値(先頭アドレス)であり、遷移表802
に対する二つの入力、すなわち次状態の先頭アドレスと
文字コードとから、遷移表のアドレスが決定され、その
アドレスの内容が読み出されて出力となる。
セレクタ804の入力にはもう1個のレジスタ817の出力
がつながれているが、レジスタ817は入力端子816から与
えられる出発アドレスを記憶するものである。通常は、
入力端子816には初期状態のアドレスが与えられるが、
入力端子816に与える出発アドレスは任意の状態のもの
でよく、後述する複合単語の処理に際して効果を発揮す
る。
単語照合部107の動作開始時に、セレクタ804で817側
を選択して初期状態のアドレスを遷移表802の初期値と
する。その後、セレクタ804で803側を選択する。以後
は、入力端子800から到来する文字コードに同期して、
遷移表を辿る動作が繰り返される。入力される文字列が
尽きたとき、遷移表802は最終状態に到達しており、こ
の状態はデコーダ805で解読されて出力端子806から結果
識別番号として出力される。デコーダ805の出力は、最
終状態以外では0であるが、0以外の出力はレジスタ80
7に対しラッチ制御信号として働き、最終状態はレジス
タ807でラッチされる。この値は、出力端子808から結果
確定信号として最終到達状態として出力される。本実施
例では、意味のある到達状態は最終状態の1個のみとし
ているので、デコーダ805は必ずしも必要ではないが、
有限オートマトンの途中まで到達したことを検出したい
場合に対処するため、デコーダ805とレジスタ807を設け
て有限オートマトンの中でどこまで到達しているかを識
別する。デコーダ805で解読すべき到達目標状態の値
は、外部から与えられレジスタに保持される(図示せ
ず)。
一方、セレクタ804の出力は遷移コスト表809の入力に
もつながれている。遷移コスト表に対する二つの入力、
すなわち各状態の先頭アドレスと文字コードから、遷移
に要するコストが決定され、加算器810に与えられる。
加算器の出力はレジスタ811でラッチされ、そのラッチ
出力は再び加算器810に入るので、レジスタ811には遷移
に要するコストの累積値が格納される。この累積値は出
力端子812に出力される。
この累積値は、また比較器815にも与えられ、入力端
子813からレジスタ814にセットされた最悪値と比較され
る。比較器815の出力は出力端子818から外部に取り出さ
れている。外部回路でこの信号を監視することにより、
累積コストが異常に大きい単語に対する処理を途中で打
ち切ることもできる。
次に本発明による文字認識の後処理方式の第二の実施
例について述べる。この実施例は複合語を処理するのに
適する。本実施例を実現するシステムは、第一の実施例
と同じく、第4図の装置構成により実現され、CPU100の
処理プログラムにより複合語処理を行う。
第9図に、上記処理プログラムの流れ図をPAD形式で
示す。第9図の説明に先立って記号の説明を行う。
N :OCRで認識した文字数(オートマトンの
状態数=N+1) L(0) :認識結果の候補文字集合から作られる
初期オートマトン I :有限オートマトン切断の総回数(単語
数=I+1) i :切断した回数を表す変数 m :切断点に対応する状態を表す変数 F(m;i) :第i回目に状態mで切断した有限オー
トマトンの前半部 L(m;i) :第i回目に状態mで切断した有限オー
トマトンの後半部 S1(m;i) :第i切断における切断点mでの最小累
積距離 S2(m;i) :第i切断における切断点mでの次小累
積距離 V1(m;i) :第i切断における切断点mでの最小距
離候補単語集合 V2(m;i) :第i切断における切断点mでの次小距
離候補単語集合 第9図において901は初期値設定であり、以後の処理
で用いる変数や各種テーブルの初期化を行う。902は以
下の処理をI回だけ繰り返すループ制御であり、Iは切
断総回数すなわち(単語数−1)である。iは第i回目
の切断を表す。
903は第i回目の切断における切断箇所に関する制御
ループであり、mは切断箇所に対応する状態を表す。こ
の切断は後から行うものとし、mは最大値から最小値ま
で1づつ減少して行く。mの変化範囲の最大値(一番後
の切断箇所)は、後方に切断可能箇所として少なくとも
(i−1)個の状態を残した値、すなわち(N−i+
1)であり、また最小値(一番前の切断箇所)は、前方
に切断可能箇所として少なくとも(I−i)個の状態を
残した値、すなわち(I−i+2)である。
904は単語長についての制御ループであり、pは単語
長を表す。pの変化範囲の最小値は1である。また、切
断箇所で始まる長さpの単語の後方に(i−1)語の単
語が入り得る必要があるから、(m+p−1)に(i−
1)を加えた値はN以下でなければならず、従ってpの
変化範囲の最大値は(N+2−m−i)である。
905は、切断箇所mで有限オートマトンを切断して前
半部F(m;i)と後半部L(m;i)を設定する部分であ
る。この切断は、実際に部分オートマトンを作成するの
ではなく、仮想的に切断するものである。すなわち、前
半部F(m;i)は初期オートマトンL(0)の最終状態
をmとしたものである。また、後半部L(m;i)はL
(0)で出発状態をm、最終状態を(m+p)としたも
のである。後述するようにL(m;i)は単語を表す文字
列の受理を行うもので、L(m;i)の出発状態から文字
列を入力し、最終状態に到達したことを検出する必要が
ある。そのためには、第8図の入力端子816から出発ア
ドレスとしてmを与えてレジスタ817に記憶させ、また
デコーダ805に最終状態の値として(m+p)を予め設
定すればよく、そのとき第8図のように構成された有限
オートマトンL(0)は、部分オートマトンL(m;i)
として働く。
第9図で906は上記の出発状態及び最終状態の値を設
定するものである。
907は単語長pの単語について、908の処理を繰り返す
ループ制御である。908はその単語をオートマトンL
(m;i)に入力して距離を求める部分である。909では、
各単語に対して得られた距離を昇順にソートする。
910では、距離の小さな単語を数個(この実施例では
2個)を求める。最小距離をD1、その距離を与える単語
をW1と書く。次小距離(二番目に小さな距離)をD2、そ
の距離を与える単語をW2と書く。
911は、複合単語に対する累積距離を求める処理であ
る。次の式によって、最小及び次小の累積距離を求め
る。
S1(m;i)=min(S1(m+p;i−1)+D1, S1(m;i)) S2(m;i)=min(S1(m+p;i−1)+D2, S2(m+p;i−1)+D1). S2(m;i)). 上の第1式の第1項は、切断点mにおける最小累積距
離が、第(i−1)回での最小累積距離と今回の最小距
離(910で求めた最小距離)との和であることを意味す
る。第(i−1)回での最小累積距離は、単語長がpで
あることを考慮して、切断点(m+p)での値を取る。
第1式の第2項は、切断点mにおける最小累積距離のそ
れまでの値である。従って、第1式は、第1項で求めた
値が従来の最小累積距離以下になった時、最小累積距離
を第1項で置き換えることを示す。なお、最小累積距離
S1(m;0)の初期値は901で充分大きな値に設定しておく
ものとする。また、上の第2式は次小累積距離を求める
ものであり、次小累積距離は第(i−1)回での最小累
積距離と今回の次小距離との和であるか、第(i−1)
回での次小累積距離 次に本発明による文字認識の後処理方式の第三の実施
例について述べる。
本実施例を実現するシステムは、第一の実施例と同じ
く、第4図の装置構成を用いてCPU100の処理プログラム
により実現される。本実施例の処理は第一の実施例とほ
ぼ同様であるが、文字認識部106で得られた各文字パタ
ーンに対する候補文字に対し、候補追加処理を行ってか
ら、有限オートマトンの生成、単語照合を行う点が異な
る。従って、候補追加についてのみ説明を行う。
以下の説明に先立って記号の説明を行う。
N :OCRで認識した文字数 k :文字パターンの番号 K(k) :第k文字パターンに対する候補数 C(k,j) :第k文字パターンの認識結果における
第j候補の文字コード M :修正後の仮想的な文字パターン数 s :修正後の仮想的な文字パターン番号 G(s) :修正後の第s文字パターンに対する候
補数 D(s,c) :仮想的第s文字パターンに対する修正
後の第c候補の文字コード E :書き替え規則の数 e :書き替え規則の番号 R(e) :第e書き替え規則 第10図に、上記の候補処理を行うプログラムの流れ図
をPAD形式で示す。第10図において1001は初期値設定で
あり、図では特に仮想的な文字パターン番号sの初期値
を0にすることを示しているが、それ以外にも以後の処
理で用いる変数や各種テーブルの初期化を行う。
1002は1003〜1034の処理をN回だけ繰り返すループ制
御であり、Nは認識した総文字数である。文字パターン
の番号をkで表す。
以下の処理の詳細な説明に先立ち、各処理の内容を概
略的に説明する。1003〜1008は、もし第k文字パターン
の候補で第二種の書き替え規則が合致するものが一つで
もあれば、仮想文字パターン生成を行う必要があるの
で、それを前もって検出しておく部分である。1019〜10
26は第k文字パターンに対する候補文字の追加処理であ
る。1027〜1034は第k文字パターンの後に仮想的な文字
パターンを一個追加し、追加した仮想的な文字パターン
に対する候補文字の追加を行う部分である。なお、仮想
的な文字パターンの追加に伴い文字パターン番号がずれ
るので、追加後の文字パターン番号をsによって数えて
いる。また第s文字パターンに対する候補数をG(s)
とする。
1003は第k文字パターンについて行われるループ処理
の制御部であり、1004〜1008の処理をK(k)回だけ繰
り返すことを示す。ここで、K(k)は第k文字パター
ンに対する候補文字数である。
1004では、変数flagの初期値として1を設定する。こ
こで、変数flagの意味について説明すると、この値が1
である場合は第一種の書き替え規則に対応し、第k文字
パターンに候補文字を追加することを示す。またflagの
値が2である場合は第二種の書き替え規則に対応し、第
k文字パターンの後に仮想文字パターンを生成し、この
仮想文字パターンに対して候補文字を追加することを示
す。なお、追加された候補文字の順位は、追加が生じた
時点での最終候補の順位の次と定めるものとし、以下の
説明では省略している。
1005は1006〜1008の処理をE回だけ繰り返すループ制
御であり、Eは書き替え規則の個数を表す。書き替え規
則の番号をeで表す。1006では第e書き替え規則R
(e)を適用し、候補文字集合とこの規則とが合致する
かどうかを判定する。1007では、R(e)が合致した場
合、この規則が第二種の規則であるか否かを判定し、第
二種の規則である場合には1008でflagの値を2にする。
1019で仮想的な文字パターン番号sを1だけ増すとと
もに、この文字パターンに対する候補文字数cを初期値
0とする。1020は第k文字パターンに対する候補文字に
ついてのループであり、候補数K(k)だけループを回
る。1021では、第k文字パターンに対する候補文字C
(k,j)を複写して、D(s,c)とする。その時、候補文
字数cは1増える。1022では書き替え規則の個数Eだけ
1023〜1025を繰り返す。1023では第e書き替え規則R
(e)を適用し、候補文字集合とR(e)とが合致する
かどうかを判定する。1024では、R(e)が合致したか
否かを判定し、合致した場合には1025で候補文字生成を
行う。すなわち、候補文字数cを1だけ増すとともに、
R(e)と候補文字C(k,j)によって定まる候補文字
D(s,c)を追加する。候補文字追加が終了した後、102
6で修正後の第s文字パターンに対する候補文字数G
(s)をcとする。
1011ではflagの値が2であるか否かを判定し、2であ
る場合には1028〜1034の処理を実行して仮想的な文字パ
ターンを追加する。すなわち、1028で仮想的な文字パタ
ーン番号sを1だけ増すとともに、この文字パターンに
対する候補文字数cを初期値0とする。1029は候補文字 C(k,j)(k=1,K(k))に関するループ制御であ
る。1030では書き替え規則の個数Eだけ1031〜1033を繰
り返す。1031では第e書き替え規則を適用し、候補文字
集合とこの規則とが合致するかどうかを判定する。1032
では、第e書き替え規則が合致した場合、この規則が第
二種の規則であるか否かを判定し、第二種の規則である
場合には1033で候補文字生成を行う。すなわち、候補文
字数cを1だけ増すとともに第e書き替え規則R(e)
と候補文字C(k,j)によって定まる候補文字D(s,c)
を追加する。候補文字追加が終了した後、1018で修正後
の第s文字パターンに対する候補文字数G(s)をcと
する。
1035で修正後の仮想的な文字パターン数Mとして、s
の最終的な値を代入する。
この第三の実施例は単一単語の場合について説明した
が、複数単語の場合にも適用できることは言うまでもな
い。
次に、実施例の変形について述べる。上記の実施例で
は、文字認識結果の文字列を単語単位にまとめて単語辞
書と照合し、距離の小さい単語を出力するようにしてい
るが、最小距離と次小距離(最小距離の次に小さな距離
の値)とを求め、両者の差が十分大きいときは、最小距
離を与える単語を自動的に出力するようにし、両者の差
が小さいときのみコンソールに表示して操作者に選択さ
せるようにしてもよい。また、最小距離の値がある閾値
より小さい時には自動的に最小距離の単語を出力し、最
小距離が閾値より大きい時は結果をコンソールに表示し
て、操作者の指示を待つようにしてもよい。さらに、実
施例では単語の距離は文字の距離の和として与えられる
が、単語の距離を文字数で除して文字当たりの値に直し
てから閾値と比較してもよい。
次に、実施例では単語を表す文字列を出力するとした
が、単語の番号すなわち辞書におけるその単語の一貫番
号を出力して、単語への変換は外部に任せるようにして
もよい。さらに、この番号から別の情報に変換すること
もできる。例えば、実施例のようにしてカナ文字の単語
を決定したのち、その単語を読みとして持つ漢字の単語
(一般には複数存在する)に変換することができる。ま
た、実施例では単語辞書の決定法については説明を省略
したが、帳票上の位置によって辞書を選択したり、帳票
上のある部分の文字認識結果によって他の部分で使用す
べき辞書を決定するなどの方法が使用できる。
また、実施例では単語照合を行う有限オートマトンは
専用回路によって実現するとしたが、その動作をソフト
ウェアによってシミュレーションする実現法でもよい。
〔発明の効果〕
本発明によれば、従来の単語照合法と比較して高速に
単語照合ができ、文字認識部の性能が従来と同等である
ならば、文字認識と単語照合を総合した全体的な処理速
度が従来よりはるかに向上する。また、本発明による単
語照合は処理速度が速く、従来と同等の処理時間内に多
数の候補文字を処理することができるから、文字認識部
における候補数を増加することにより、単語照合で正し
い単語を選ぶ可能性が高められ、実効的な文字認識率を
高めることもできる。
さらに、複数単語を連続して記入した場合にも適用で
きるから、住所や氏名などを分ち書きしなくても単語照
合が適用でき、使用者にとって大変便利になる。
また、書き換え規則を適用すれば、文字認識部の認識
性能に癖があっても、その癖を補正して正しい候補を追
加でき、単語照合によって正しい単語を認識できるの
で、単語認識率が高まる。
【図面の簡単な説明】
第1、2、3図は本発明による単語照合の原理を示す説
明図、第4図は本発明の実施例の装置構成を示す図、第
5図、第6図は実施例におけるメモリ内での情報の配置
を示す説明図、第7図は実施例における有限オートマト
ンを作成するための処理の流れ図、第8図は実施例にお
ける有限オートマトンを実行する回路の回路図、第9図
は実施例における複合単語のための照合処理の流れ図、
第10図は実施例における候補文字追加を行う処理の流れ
図である。 100……中央制御装置、101……主メモリ、102……端
末、103……システムファイル、104……スキャナ、105
……ビデオメモリ、106……文字認識部、107……単語照
合部、108……ワークファイル、109……バス。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 花野井 歳弘 神奈川県小田原市国府津2880番地 株式 会社日立製作所小田原工場内 (72)発明者 門田 彰三 神奈川県小田原市国府津2880番地 株式 会社日立製作所小田原工場内 (56)参考文献 特開 昭60−29884(JP,A) 特開 昭62−179083(JP,A) 特開 昭60−173688(JP,A) 特開 昭62−28889(JP,A) 特開 昭61−161588(JP,A) 特開 昭60−156190(JP,A) 特開 平1−183794(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/72

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】文書のディジタル画像を入力する入力手段
    と、上記ディジタル画像中に含まれる文字パターンを切
    り出して文字パターンを認識して候補文字を出力する文
    字認識手段と、複数の単語を記憶する単語辞書とを有し
    て文字認識を行う文字認識の後処理方法において、 上記ディジタル画像中に含まれる文字パターン群につい
    て、上記文字認識手段により各文字パターンについて得
    られた単数又は複数の候補文字を組み合わせて得られる
    候補文字列を受理する有限オートマトンであって、各状
    態から次の状態に遷移するための遷移が文字コードに基
    づいて得られた遷移表及び各遷移に対する遷移コスト表
    を利用する有限オートマトンを生成し、 上記オートマトンに上記単語辞書に記載された単語を順
    次入力し、 上記入力された単語の各文字コードに応じて上記遷移表
    における各状態を遷移し、 上記各遷移に対するコストを累積した値を求め、 上記コストの累積値に基づいて上記有限オートマトンに
    受理された単語を上記文字パターンの群の認識結果とし
    て出力することを特徴とする文字認識の後処理方法。
  2. 【請求項2】特許請求の範囲第1項記載の文字認識の後
    処理方法において、 上記受理された単語は、上記コストの累積値の小さい上
    位N個(N≧0)の単語であることを特徴とする文字認
    識の後処理方法。
  3. 【請求項3】特許請求の範囲第1項において、 上記文字パターン群について上記文字認識手段により各
    文字パターンについて得られた単数または複数の候補文
    字を組み合わせて得られる候補文字列に対して、所定の
    書き換え規則に従って仮想候補文字を追加した候補文字
    列を生成し、 上記仮想候補文字を追加した候補文字列を受理する有限
    オートマトンを生成することを特徴とする文字認識の後
    処理方法。
  4. 【請求項4】文書のディジタル画像を入力する入力手段
    と、上記ディジタル画像中に含まれる文字パターンを切
    り出して文字パターンを認識して候補文字を出力する文
    字認識手段と、複数種類の単語辞書とを有して文字認識
    を行う文字認識の後処理方法において、 上記ディジタル画像中に含まれる複数の語が連続して書
    かれた文字パターン群について、上記文字認識手段によ
    り各文字パターンについて得られた単数または複数の候
    補文字を組み合わせて得られる候補文字列を受理する有
    限オートマトンであって、各状態から次の状態に遷移す
    るための遷移が文字コード基づいて得られた遷移表及び
    各遷移に対する遷移コスト表を利用する有限オートマト
    ンを生成し、 (a)上記有限オートマトンを単数または複数の切断点
    で切断し、 (b)上記切断により得られた部分オートマトンについ
    て上記複数種類の単語辞書のいずれかに記憶された単語
    を順次入力し、 (c)上記入力された単語の各文字コードに応じて上記
    遷移表における各状態を遷移し、 (d)上記各遷移に対するコストを累積した値を求め、 (a)〜(d)の処理を繰り返し、 上記切断により得られた部分オートマトンの全てにおい
    て上記(d)で得られたコストの累積値に基づき受理さ
    れる単語が存在するような切断点の系列が存在する場合
    に、それぞれの部分オートマトンにおいて受理された単
    語の系列を上記文字パターン群の認識結果である候補複
    合単語として出力することを特徴とする文字認識の後処
    理方法。
  5. 【請求項5】特許請求の範囲第3項記載の文字認識の後
    処理方法において、 上記受理される単語は、上記コストの累積値の小さい上
    位N個(N≧0)の単語であることを特徴とする文字認
    識の後処理方法。
  6. 【請求項6】特許請求の範囲第3項記載の文字認識の後
    処理方法において、 単語間の従属関係を指定する情報を予め記憶しておき、
    上記情報を用いて候補複合単語の検査を行うことを特徴
    とする文字認識の後処理方法。
JP63222307A 1988-09-07 1988-09-07 文字認識の後処理方法 Expired - Lifetime JP2886868B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63222307A JP2886868B2 (ja) 1988-09-07 1988-09-07 文字認識の後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63222307A JP2886868B2 (ja) 1988-09-07 1988-09-07 文字認識の後処理方法

Publications (2)

Publication Number Publication Date
JPH0271388A JPH0271388A (ja) 1990-03-09
JP2886868B2 true JP2886868B2 (ja) 1999-04-26

Family

ID=16780308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63222307A Expired - Lifetime JP2886868B2 (ja) 1988-09-07 1988-09-07 文字認識の後処理方法

Country Status (1)

Country Link
JP (1) JP2886868B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5293301B2 (ja) * 2009-03-16 2013-09-18 富士通株式会社 検索装置、検索方法および記憶媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6029884A (ja) * 1983-07-18 1985-02-15 Mitsubishi Electric Corp 単語の読取り方法
JPS61161588A (ja) * 1985-01-11 1986-07-22 Hitachi Ltd 文字認識後処理方式
JPS6228889A (ja) * 1985-07-31 1987-02-06 Canon Inc 情報認識装置
JPS63138480A (ja) * 1986-11-29 1988-06-10 Toshiba Corp 文字認識方式

Also Published As

Publication number Publication date
JPH0271388A (ja) 1990-03-09

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
JP2726568B2 (ja) 文字認識方法及び装置
US5577164A (en) Incorrect voice command recognition prevention and recovery processing method and apparatus
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US7027976B1 (en) Document based character ambiguity resolution
EP2138959A1 (en) Word recognizing method and word recognizing program
JP2886868B2 (ja) 文字認識の後処理方法
CN114677689B (zh) 一种文字图像识别纠错方法和电子设备
JPH11143893A (ja) 単語照合装置
JPH06215184A (ja) 抽出領域のラベリング装置
JP6759955B2 (ja) 地名抽出プログラム、地名抽出装置および地名抽出方法
JP3270551B2 (ja) 文字認識装置および文字認識方法
JP2870375B2 (ja) 文章訂正装置
JP2947832B2 (ja) 単語照合方法
JPH08272813A (ja) ファイリング装置
JPH07302306A (ja) 文字入力装置
JPH1049631A (ja) オンライン手書き文字認識方法および装置
JP3616126B2 (ja) 特殊範囲抽出装置および文抽出装置
JPH11272804A (ja) 文字認識方法および装置
JPH09120436A (ja) 単語照合方法
JPH0944606A (ja) 文字認識処理方法
CN114461130A (zh) 文字输入方法、装置和存储介质
JP4261831B2 (ja) 文字認識処理方法、文字認識処理装置、文字認識プログラム
JPH11120294A (ja) 文字認識装置および媒体
JP2007172662A (ja) 日本語入力装置および方法

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080212

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090212

Year of fee payment: 10