JPH064717A - 漢字住所補正処理方法 - Google Patents

漢字住所補正処理方法

Info

Publication number
JPH064717A
JPH064717A JP4161129A JP16112992A JPH064717A JP H064717 A JPH064717 A JP H064717A JP 4161129 A JP4161129 A JP 4161129A JP 16112992 A JP16112992 A JP 16112992A JP H064717 A JPH064717 A JP H064717A
Authority
JP
Japan
Prior art keywords
address
word
address word
dictionary
variant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4161129A
Other languages
English (en)
Inventor
Hideto Henmoto
英人 辺本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP4161129A priority Critical patent/JPH064717A/ja
Publication of JPH064717A publication Critical patent/JPH064717A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 手書き漢字住所データのOCR読み取り処理
において、1つの漢字住所について異なる表記が複数存
在する場合、辞書の大きさをあまり増大させることな
く、入力された住所表記の補正を効率的に処理可能にす
ることを目的としている。 【構成】 異体字により異なる複数の表記をもつ漢字住
所については、それぞれの表記の住所単語を住所単語辞
書に多重に登録せず、適当な一種類の表記のみを登録
し、代わりに異体字を登録した異体字辞書を設け、住所
単語中の文字に異体字があるかどうかを異体字辞書で検
索し、異体字がある場合、その異体字についても多重に
単語照合を行い、単語照合に成功した場合には、住所単
語辞書に登録してある表記の住所単語あるいは予め定め
られた異体字による表記の住所単語を補正結果として出
力するようにした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、漢字OCR処理システ
ムにおけるOCR装置を用いて入力した手書き漢字住所
データの補正処理方法に関するものであり、特に辞書を
用いた異体字の補正処理方法に関する。
【0002】漢字の住所表記には、旧字体などの特殊難
解な文字が用いられるものや、慣用的な略字、当て字を
含むものが少なくない。このため利用者が手書き記入の
際誤った文字あるいは不適切な文字を用いて住所表記を
行ったり、OCR入力時に誤読されるなどの場合が多
く、漢字データ処理システム側で補正する必要が生じ
る。本発明はそのための効率的な補正処理方法を提供す
る。
【0003】
【従来の技術】図3に漢字住所の正表記と誤表記の例を
示す。図中の(1),(2)は略字体の異体字を用いて
誤表記となった例、(3)は当て字の異体字を用いて誤
表記となった例、(4)は略字体を用いずに誤表記とな
った例である。
【0004】このように通常の漢字データ処理では、処
理の目的、出力帳票の種類などによって厳密な住所表記
を要求される場合や、慣用あるいは常用されている文字
を用いての住所表記を統一的に要求される場合がある。
【0005】手書きにより漢字住所データが記入された
帳票をOCR装置で読み取って漢字住所を含む出力デー
タを作成する場合、一般に漢字住所データの記入者に対
し、処理目的に適合する漢字表記を用いて正しく住所を
記入することを期待するのは無理である。そのため入力
された漢字住所データを後で何らかの方法で補正してや
ることが必要となる。
【0006】図4は、従来の漢字住所データの補正方法
の1例を示したものである。図4の(1)は、手書き漢
字帳票を示し、帳票上に設けられた枠内に1文字ずつ漢
字住所が手書き記入される。この例では“塩釜市”が記
入されている。
【0007】図4の(2)は、(1)の手書き漢字帳票
をOCR装置で読み取った結果の候補文字付き読取りデ
ータを示す。図示の例は、手書き文字“塩”に対しては
“塙”、“墟”、“塩”が、手書き文字“釜”に対して
は“金”、“釜”、“全”が、そして手書き文字“市”
に対しては“市”、“布”、“ホ”が認識候補として得
られたことを示す。
【0008】図4の(3)は、(2)の候補文字付き読
取りデータを対象に、正当な住所表記が行われているか
どうかの単語解析を,住所単語辞書を用いて行う単語照
合処理を示す。この従来例では、異体字などによる住所
表記が複数種類存在する場合、それぞれの表記をリンク
させて住所単語辞書に多重に登録してある。たとえば、
“塩釜市”は、“塩竃市”とともに二重に登録されてい
る。単語照合は住所単語辞書から住所単語を1つずつ取
り出して、候補文字付き読取りデータの同じ桁位置の文
字同士で照合し、住所単語の全ての文字がそれぞれの桁
位置でいずれかの候補文字と対応付け可能であるとき、
その住所単語を読取り結果すなわち認識結果として出力
するという方法で行われる。しかし住所単語辞書に異な
る表記で多重に登録されている住所単語の場合には、多
重登録されている複数の住所単語のうちの1つが候補文
字付き読取りデータと対応付け可能であったならば、そ
れらの多重登録されている複数の住所単語のうち予め定
められている最も優先度の高い1つの住所単語のみが読
取り結果として出力されるということで補正が行われ
る。たとえば図4の(3)の例では、住所単語“塩釜
市”のみが候補文字付き読取りデータと対応付け可能で
あるが、読取り結果としては“塩竃市”が選択され、
“塩釜市”で入力されても“塩竃市”に補正して出力さ
れる。 図4の(4)は、補正結果の“塩竃市”が表示
されている補正結果表示画面である。
【0009】
【発明が解決しようとする課題】従来の手書き漢字住所
データのOCR読み取り処理では、以下のような問題が
あった。
【0010】1)住所単語辞書に1つの表記しか持たな
い場合,帳票記入者は住所単語辞書に登録されている表
記通りに文字を記入する必要があったが、字体が複雑で
あるためOCR装置が誤読しやすくなったり、又、住所
単語辞書内の表記を正しく知っていなければならない。
【0011】2)住所単語辞書に幾通りもの単語を持つ
ことで解決していた場合は、辞書に要する資源が増大
し、単語の管理が面倒であった。
【0012】本発明は、1つの漢字住所について異なる
表記をもつ複数の住所単語が存在する場合、辞書の大き
さをあまり増大させることなく、入力された住所表記の
補正を効率的に処理可能にすることを目的としている。
【0013】
【課題を解決するための手段】本発明は、異体字により
異なる複数の表記をもつ漢字住所については、それぞれ
の表記の住所単語を住所単語辞書に多重に登録せず、適
当な一種類の表記のみを登録し、代わりに異体字を登録
した異体字辞書を設け、住所単語中の文字に異体字があ
るかどうかを異体字辞書で検索し、異体字がある場合、
その異体字についても多重に単語照合を行い、単語照合
に成功した場合には、住所単語辞書に登録してある表記
の住所単語あるいは予め定められた異体字による表記の
住所単語を補正結果として出力するようにしたものであ
る。
【0014】図1は、本発明の原理説明図である。ここ
では、手書き漢字住所データがOCR装置で読み取ら
れ、読取り結果の住所表記が補正される場合を例に説明
される。図において、 (1)は手書き漢字帳票であり、利用者が手書き漢字住
所データを記入したものである。この帳票はOCR装置
によって読み取られる。
【0015】(2)は候補文字付き読取りデータであ
り、(1)の手書き漢字帳票に記入された各漢字ごと
に、OCR読取り結果の候補文字が類似度順に配列して
示される。
【0016】(3)は単語照合処理であり、住所単語辞
書と異体字辞書とを参照して、候補文字付き読取りデー
タの単語解析(単語識別)を行い、表記の正当性チェッ
クと補正処理を行う。この場合,照合に用いられる住所
単語に、異体字が存在する場合は異体字関係にあるグル
ープ内の文字すべてと照合する。照合により候補文字付
き読取りデータとある異体字表記の住所単語との一致が
得られた場合、その異体字と同一のグループの表記をも
つ複数の住所単語のうちの予め定められた1つが補正結
果として出力される。
【0017】(4)は補正結果表示画面であり、補正結
果の住所単語が表示され、利用者によって確認される。
ここで住所単語辞書は、住所として用いられる表記要素
を住所単語として登録したもので、異体字による複数の
異なる表記が存在する場合にはそのうちの正しいあるい
は優先度の高い1種類の表記による住所単語のみを登録
する。また異体字辞書には、互いに異体字の関係にある
文字同士のグループを、グループごとにリンクさせて登
録してある。1つの異体字のグループについては、その
中の任意の文字で検索でき、グループ内の他の異体字を
取り出すことが可能にされている。
【0018】
【作用】図1に示されている本発明の構成による作用
を、図中の例を用いて説明する。図1の(1)では、手
書き漢字帳票に漢字住所データ“塩釜市”が記入されて
いる。これをOCR装置で読み取ると、図1の(2)の
候補文字付き読取りデータが得られる。ここでは手書き
文字“塩”、“釜”、“市”の各々に対してそれぞれ3
文字ずつの候補文字が提示されている。
【0019】図1の(3)の単語照合処理では、住所単
語辞書から住所単語を1つずつ取り出し、取り出した住
所単語、たとえば“塩竃市”については、“塩”、
“竃”、“市”の順次の文字について異体字辞書を参照
し、異体字があればその異体字と元の文字とを用いて候
補文字付き読取りデータと照合する。ここでは“竃”に
ついて異体字“釜”が検出されるので、これらの両者に
ついて照合し、“釜”で単語照合が成功する。そこで、
住所単語辞書にある“塩竃市”を補正結果として図1の
(4)のように出力する。
【0020】
【実施例】図2は、本発明実施例による漢字OCR処理
システムのブロック図である。図2において、1は手書
き漢字帳票、2はOCR装置、3はOCR読取りデータ
記憶部、4は住所単語辞書、5は異体字辞書、6は住所
補正処理部、7は補正結果データ記憶部、8は表示装置
である。
【0021】図1の(1)に例示されているように漢字
住所データを手書き記入された手書き漢字帳票1は、O
CR装置2で読み取られ、図1の(2)に例示されるよ
うに、手書き文字ごとに認識候補文字付きで読取り結果
のデータがOCR読取りデータ記憶部3に記憶される。
住所補正処理部6はプログラム制御のCPUで実現さ
れ、住所単語辞書4および異体字辞書5を用いてOCR
読取りデータの単語照合と住所補正を行う。
【0022】住所補正処理部6は、住所単語辞書4に登
録されている住所単語を先頭から1つずつ取り出し、取
り出した住所単語ごとにさらに単語を構成する各文字に
ついて異体字辞書5を参照し、異体字があればその異体
字を用いてOCR読取りデータと単語照合を行う。もし
も異体字による住所単語の表記でOCR読取りデータと
の一致が得られたならば、元の住所単語の表記(つまり
住所単語辞書4に登録されていた表記)が補正結果デー
タとして選択され、補正結果データ記憶部7に格納され
て表示装置8に表示される。また住所単語のいずれの文
字にも異体字が存在しない場合には、その住所単語の表
記でOCR読取りデータと単語照合が行われ、一致が得
られたならばその住所単語が補正結果データ記憶部7に
格納される。勿論、全ての場合について住所補正が不要
である場合には、住所補正処理部6に指示して、異体字
による表記で単語照合に成功した場合その表記をそのま
ま結果として出力するように動作させることも可能であ
る。
【0023】また異体字辞書5に登録されている異体字
に優先順位を設定して、いずれかの異体字による表記で
単語照合に成功した場合には、その設定された優先順位
が最も高い異体字の表記を補正結果として出力させるよ
うにしてもよい。
【0024】
【発明の効果】本発明によれば、記入者が書き慣れた表
記による漢字住所の記入に対して比較的小さいサイズの
辞書を用いて補正処理を行うことができ、また住所単語
の管理も容易となり、保守管理の負担が著しく軽減され
る。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明実施例による漢字OCR処理システムの
ブロック図である。
【図3】漢字住所データの正表記と誤表記の例の説明図
である。
【図4】従来の漢字住所データの補正方法の説明図であ
る。
【符号の説明】
1 手書き漢字帳票 2 OCR装置 3 OCR読取りデータ記憶部 4 住所単語辞書 5 異体字辞書 6 住所補正処理部 7 補正結果データ記憶部 8 表示装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 手書き漢字データをOCR装置で読み取
    り処理する漢字OCR処理システムにおける漢字住所補
    正処理方法において、 住所の要素となり得る複数の住所単語を参照可能に登録
    した住所単語辞書と、互いに異体字の関係にある複数の
    文字のグループをグループごとに参照可能に登録した異
    体字辞書と、入力された漢字住所データについて住所単
    語辞書を参照し住所単語辞書に登録されている住所単語
    と照合し補正する住所補正処理部とを備え、 上記住所補正処理部は、入力された漢字住所データを住
    所単語辞書の住所単語と照合する際、住所単語辞書から
    順次住所単語を1つずつ取り出し、かつ取り出した住所
    単語を構成する各文字ごとに異体字辞書を参照し、異体
    字が存在する場合その異体字のグループ内の個々の異体
    字ごとに住所単語の該当文字を置き換え、置き換えた各
    住所単語を用いてそれぞれ、入力された漢字住所データ
    を照合し、いずれかの異体字による住所単語で一致が得
    られた場合、予め定められた1つの異体字による住所単
    語の表記で照合結果を出力することを特徴とする漢字住
    所補正処理方法。
JP4161129A 1992-06-19 1992-06-19 漢字住所補正処理方法 Pending JPH064717A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4161129A JPH064717A (ja) 1992-06-19 1992-06-19 漢字住所補正処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4161129A JPH064717A (ja) 1992-06-19 1992-06-19 漢字住所補正処理方法

Publications (1)

Publication Number Publication Date
JPH064717A true JPH064717A (ja) 1994-01-14

Family

ID=15729155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4161129A Pending JPH064717A (ja) 1992-06-19 1992-06-19 漢字住所補正処理方法

Country Status (1)

Country Link
JP (1) JPH064717A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120294A (ja) * 1997-10-17 1999-04-30 Matsushita Electric Ind Co Ltd 文字認識装置および媒体
JPH11120293A (ja) * 1997-10-16 1999-04-30 Fujitsu Ltd 文字認識/修正方式
US6115707A (en) * 1997-02-21 2000-09-05 Nec Corporation Address reading apparatus and recording medium on which a program for an address reading apparatus is recorded
JP2002042057A (ja) * 2000-07-21 2002-02-08 Toshiba Corp 読取装置、読取方法、区分装置、及び区分方法
JP2004005761A (ja) * 2003-09-29 2004-01-08 Fujitsu Ltd キーワード抽出・検索装置
JP2004030695A (ja) * 2003-09-29 2004-01-29 Fujitsu Ltd キーワード抽出・検索装置
JP2006127451A (ja) * 2004-09-30 2006-05-18 Oki Electric Ind Co Ltd 帳票処理装置
JP2012155662A (ja) * 2011-01-28 2012-08-16 Hitachi Ltd 文書処理装置及び文書処理方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115707A (en) * 1997-02-21 2000-09-05 Nec Corporation Address reading apparatus and recording medium on which a program for an address reading apparatus is recorded
JPH11120293A (ja) * 1997-10-16 1999-04-30 Fujitsu Ltd 文字認識/修正方式
JPH11120294A (ja) * 1997-10-17 1999-04-30 Matsushita Electric Ind Co Ltd 文字認識装置および媒体
JP2002042057A (ja) * 2000-07-21 2002-02-08 Toshiba Corp 読取装置、読取方法、区分装置、及び区分方法
JP2004005761A (ja) * 2003-09-29 2004-01-08 Fujitsu Ltd キーワード抽出・検索装置
JP2004030695A (ja) * 2003-09-29 2004-01-29 Fujitsu Ltd キーワード抽出・検索装置
JP2006127451A (ja) * 2004-09-30 2006-05-18 Oki Electric Ind Co Ltd 帳票処理装置
JP2012155662A (ja) * 2011-01-28 2012-08-16 Hitachi Ltd 文書処理装置及び文書処理方法

Similar Documents

Publication Publication Date Title
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
KR19980042782A (ko) 문자 인식 장치 및 방법
JPH11120293A (ja) 文字認識/修正方式
JPH064717A (ja) 漢字住所補正処理方法
US6567548B2 (en) Handwriting recognition system and method using compound characters for improved recognition accuracy
Wan et al. An interactive mathematical handwriting recognizer for the Pocket PC
JPS592191A (ja) 手書き日本語文の認識処理方式
JPH10302025A (ja) 手書き文字認識装置およびそのプログラム記録媒体
JP3210778B2 (ja) 手書き文字認識装置
JP3455643B2 (ja) 文字認識装置における学習辞書の更新方法及び文字認識装置
Saluja Robust multilingual OCR: from Ancient Indic texts to modern Indian Street signs.
JPH11120294A (ja) 文字認識装置および媒体
JP2856752B2 (ja) 文字認識結果修正方法
JP2939945B2 (ja) ローマ字住所認識装置
JP3365537B2 (ja) オンライン文字認識方法および装置
JPH01292586A (ja) 文字認識支援装置
JP4092768B2 (ja) 文字認識装置および文字認識方法
JPH08241314A (ja) 文書ファイリングシステム
JPH117492A (ja) キー入力編集方法及び編集装置
JPH05210635A (ja) 入力装置
JPH06333083A (ja) 光学式文字読取装置
JPH09138835A (ja) 文字認識装置
JPH09231310A (ja) 情報処理装置
JPH08106513A (ja) 手書き文字認識装置
JPH07320002A (ja) 文字認識装置