JP2922365B2 - Ocr処理システムにおける漢字住所データ処理方法 - Google Patents

Ocr処理システムにおける漢字住所データ処理方法

Info

Publication number
JP2922365B2
JP2922365B2 JP4171165A JP17116592A JP2922365B2 JP 2922365 B2 JP2922365 B2 JP 2922365B2 JP 4171165 A JP4171165 A JP 4171165A JP 17116592 A JP17116592 A JP 17116592A JP 2922365 B2 JP2922365 B2 JP 2922365B2
Authority
JP
Japan
Prior art keywords
address
character string
name
read
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4171165A
Other languages
English (en)
Other versions
JPH0620087A (ja
Inventor
康治 井波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PII EFU YUU KK
Original Assignee
PII EFU YUU KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PII EFU YUU KK filed Critical PII EFU YUU KK
Priority to JP4171165A priority Critical patent/JP2922365B2/ja
Publication of JPH0620087A publication Critical patent/JPH0620087A/ja
Application granted granted Critical
Publication of JP2922365B2 publication Critical patent/JP2922365B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、帳票上の漢字文字列を
OCR装置で読み取ってコード化するOCR処理システ
ムにおける漢字住所データ処理方法に関する。
【0002】住所表記には、行政区画上の住所ととも
に、建物名やフロア番号、室番号、会社名などの補助的
な方名情報が用いられる場合が少なくない。本発明は、
OCR装置で読み取られた漢字住所データについて方名
を含むデータの照合、確定とカナ文字での読みデータの
生成付加とを行う漢字住所データ処理方法を提供するも
のである。
【0003】
【従来の技術】図6に、従来のOCR処理システムのブ
ロック構成を示す。図6において、1は入力帳票、2は
入力帳票1に設けられた住所フィールド、3は漢字読み
取りが可能なOCR装置、4はOCR読み取りデータ記
憶部、5は住所データの確定を行う知識処理部、6はO
CR装置3で読み取られる入力帳票1上の住所フィール
ド2を定義したOCR定義体、7は住所単語を登録した
住所辞書、8は知識処理部5により処理された結果のデ
ータを記憶する処理結果データ記憶部、9は表示装置で
ある。
【0004】図7は、図6の従来システムの処理フロー
である。以下に図7のフローにしたがって図6の従来シ
ステムの動作を説明する。入力帳票1の住所フィールド
2に、利用者により手書きで漢字住所データが記入され
ている。この入力帳票1は、OCR装置3にかけられる
と光学的に走査され、OCR定義体6の解釈により住所
フィールド2の入力パターンが切り出される。次にOC
R装置3は、各入力パターンごとに文字認識を行い、入
力パターンと内部に保持している複数の標準文字のパタ
ーンとを比較して、最も類似度の高い標準文字を読み取
り文字とし、次順位以下の標準文字を候補文字としてO
CR読み取りデータを作成し、OCR読み取りデータ記
憶部4に格納する。このOCR読み取りデータ中の読み
取り文字列には、誤読された文字やリジェクトによる欠
陥部分が含まれる可能性がある。このため、読み取り文
字列と候補文字列の全体から実際の行政区画表記に整合
する最も妥当な1つの文字列を確定する必要がある。知
識処理部5はその処理を行うものである。
【0005】知識処理部5は、OCR読み取りデータ記
憶部4のOCR読み取りデータについて第1レベル「都
道府県」、第2レベル「市郡」、第3レベル「区町
村」、第4レベル「大字」の順次の読み取り文字および
候補文字を対象に、第1から第4の各レベルごとに住所
辞書7の各住所単語と照合して、一致する住所単語を探
してもしも完全に一致する住所単語がなければ知識処理
により最も近い妥当な住所単語を選択するようにして、
OCR読み取りデータから1つの住所表記の漢字文字列
を確定する。
【0006】知識処理部5は、確定した漢字文字列につ
いて、次に漢字カナ変換処理を行い、対応するカナ文字
列を生成する。これは利用者からの要求に応じて読み情
報を提供できるようにするためである。
【0007】このようにして生成されたカナ文字列と漢
字文字列とは、処理結果データ記憶部8に格納されてか
ら表示装置9に表示され、利用者によるチェック修正を
受けて出力される。
【0008】
【発明が解決しようとする課題】図6に示されているよ
うな従来システムでは、知識処理部5の処理対象は住所
表記中の第1レベル(都道府県)から第4レベル(大
字)までであり、住所表記中にその他の情報、たとえば
方名情報が含まれていても知識処理によって自動的にチ
ェック、修正することはできなかった。そのため従来
は、第1レベルから第4レベルまでの知識処理を行った
結果のデータを修正画面に表示させて、必要な場合に利
用者が手入力により修正を行っており、修正作業が多く
なることからOCR読み取り処理の自動化率が低下する
という問題があった。
【0009】本発明は、方名を含む漢字住所データのO
CR読み取り処理の自動化率を向上させ、修正作業の負
担を軽減させることを目的としている。
【0010】
【課題を解決するための手段】本発明は、従来のOCR
処理システムにおける漢字住所データの知識処理が行政
区画の表記の範囲に限定されていたものを、方名の表記
の範囲にまで拡張することにより課題の解決を図るもの
である。本発明はそのため、従来の行政区画表記照合用
の住所辞書のほかに、方名に用いられる氏名、名称、そ
の他の単語を登録した方名辞書を用意し、入力されたO
CR読み取りデータに対する知識処理として、住所辞書
を用いて照合した行政区画の表記部分の後の方名表記部
分を切り出し、方名辞書により照合を行い、その際方名
辞書の単語のほかに住所表記中の住所単語とも照合を行
い、さらに必要な場合に修正画面で補正して方名表記を
確定する処理を追加した。
【0011】図1は本発明の原理説明図である。図にお
いて、1は入力帳票であり、手書きなどで記入された住
所等の漢字データをもち、OCR装置によって読み取ら
れる。
【0012】2は漢字による住所データが記入される住
所フィールドである。3は漢字読み取り機能をもつOC
R装置であり、入力帳票1の住所フィールド2のOCR
読み取りとして、読み取り文字列と候補文字列とを出力
する。
【0013】5′は知識処理部であり、読み取り文字列
と候補文字列とから、方名を含む妥当な漢字住所表記を
確定しまた読みとなるカナ文字列を生成する補正を行
う。7は住所辞書であり、行政区画上の表記単位となる
都道府県、市郡、区町村、大字についての住所単語が登
録されており、知識処理部5’によってOCR読み取り
データの照合に使用される。
【0014】10は方名辞書であり、方名に含まれ得る
氏名やビル、マンション、第1、1Fなどの一般単語が
登録されており、知識処理部5′によって方名の照合に
使用される。
【0015】11は修正画面であり、知識処理部5′に
よって確定された漢字表記住所の文字列および生成され
た読みのカナ文字列とが表示され、手入力による修正を
可能にする。修正処理後の各文字列のデータはファイル
に格納され、必要に応じて利用される。
【0016】入力帳票1はOCR装置3へ給送され、住
所フィールド2に記入されている漢字住所データの個々
の漢字パターンが読み取られる。OCR装置3は、個々
の漢字パターンについて内蔵している標準パターン辞書
を参照してパターン認識を行い、認識結果の読み取り文
字列と類似度が次順位以下の文字からなる候補文字列と
を出力する。読み取り文字列には誤認された文字やリジ
ェクト(読み取り不能)による欠陥が含まれ得るため、
知識処理部5′によってさらに単語レベルで知識処理さ
れる。この知識処理では、読み取り文字列と候補文字列
とから辞書アクセス用の単語を作成する方法で住所表記
部分と方名表記部分とがそれぞれ住所辞書7および方名
辞書10に登録されている住所単語と方名単語と照合さ
れ、各単語の中で合致するものが選択されて、それらの
単語を組み合わせた1つの漢字文字列が確定される。
【0017】この知識処理結果の文字列が修正画面11
に表示され、オペレータによるチェックが必要な場合に
マニュアル修正とを受けて出力される。
【0018】
【作用】本発明によれば、漢字で表記された住所データ
のOCR読み取り処理において、方名を含む住所の場合
にもOCR読み取りデータを一括して対象とし、住所辞
書および方名辞書を用いての単語照合と確定処理とを自
動的に行うことができるので、OCR読み取り率と精度
が向上し、OCR読み取りデータに対してオペレータが
修正画面により対話形式で修正しなければならない表記
中の欠陥量が減少する。
【0019】
【実施例】図2は、本発明の1実施例によるOCR処理
システムのブロック図である。図において知識処理部
5′と方名辞書10以外の構成は、図6に示されている
従来のOCR処理システムの構成におけるものと同じで
あるので重複する説明を省略する。知識処理部5′は、
住所辞書7を用いた行政区画上の住所表記の照合処理、
方名辞書10を用いた方名表記の照合処理、照合により
確定した住所および方名の漢字文字列から読みのカナ文
字列の作成の各処理機能をもつ。
【0020】住所辞書7は、都道府県名(第1レベ
ル)、市郡名(第2レベル)、区町村名(第3レベ
ル)、大字名(第4レベル)にそれぞれ属する住所単語
を漢字と読みのカナ文字とでもっている。
【0021】方名辞書10は、図3に例示されるよう
に、方名表記に現れるアパート、ビル等の一般単語と山
本、長島等の氏名単語とで構成される。住所辞書7およ
び方名辞書10は、利用者がそれまでに処理した漢字住
所データに基づいて作成されることができ、登録されて
いる単語は必要に応じて追加、変更、削除される。
【0022】図4は、図2の本発明実施例システムの処
理フローである。以下に、図4を参照して図2の実施例
システムの動作を説明する。入力帳票1をOCR装置3
にかけ、画像入力を行って住所フィールド2の手書漢字
パターンをOCR定義体6の帳票定義に基づいて切り出
し、文字認識を行う。認識結果として生成された読み取
り文字列と候補文字列とはOCR読み取りデータ記憶部
4に格納される。
【0023】知識処理部5′は、認識結果の読み取り文
字列と候補文字列とを対象に、住所辞書7の住所単語を
参照して第1レベルから第4レベルまでの行政区画上の
表記単位について順次照合処理を行う。なお表記単位は
空白で区切られているものとする。次に第4レベルの表
記に続く、数字の連続か、丁目、番地、番、号等の番地
表記部分を識別し、さらに番地に続く部分があればそれ
を方名表記部分として、方名辞書10を用いて照合処理
を行う。ただし方名表記部分の照合では、方名辞書10
の一般単語と氏名単語のほか、住所表記中の住所単語も
参照される。
【0024】このようにして第1レベルから第4レベル
までの住所表記部分と、あれば方名表記部分とを連続し
て照合し住所表記の漢字文字列を確定する。次に漢字カ
ナ変換処理により漢字文字列に対応するカナ文字列を作
成し、それらのカナ文字列と漢字文字列とを各々、処理
結果データ記憶部8に格納し、表示装置9の修正画面に
並べて表示する。
【0025】オペレータは修正画面に表示された各文字
列を見て住所表記の正当性をチェックし、欠陥があれば
漢字データあるいはANK(カナ英数字)データの入力
を行って修正してから出力する。
【0026】住所と方名の表記部分に対して知識処理部
5′が行う照合処理の手法は基本的には同じであるが、
方名の照合処理のアルゴリズムについて以下に詳述す
る。図5に方名照合処理の具体例を示す。この照合処理
は次のようなアルゴリズムで実行される。 照合開始位置を文字列の先頭に設定する。 照合開始位置から空白までの文字列長で、候補文字
を参照しながら一般単語を検索する。見つからなかった
場合は見つかるまで文字列長を一文字ずつ減らして検索
する。一致する単語が見つかった場合は照合開始位置を
一致した単語長分進めて同様の照合を繰り返す。文字列
長を減らしていっても見つからなかった場合はの処理
に移る。 文字列長を一文字ずつ減らしていったが一般単語が
一つも一致しなかった場合は住所部分で確定した単語と
比較する。(ただし、照合開始位置の文字が数字であっ
た場合は照合開始位置を進めてから繰り返す。)一致
する単語が見つかった場合は照合開始位置を一致した単
語長分進めてから繰り返す。文字列長を減らしていっ
ても見つからなかった場合はの処理に移る。 住所部分で確定した単語と一致しなかった場合は照
合開始位置から空白までの文字列長で候補文字を参照し
ながら姓属性の単語を検索する。見つからなかった場合
は見つかるまで文字列長を一文字ずつ減らして検索す
る。一致する単語が見つかった場合は照合開始位置を一
致した単語長分進めてから繰り返す。ただし、一回前
に見つかった単語が姓属性の単語であった場合はここま
での照合を無かったことにしてこの一区切りの文字列は
読み取った文字列のままに戻す。文字列長を減らしてい
っても見つからなかった場合はそこで処理は終了する。 〜の処理が終了した後、辞書の単語よりカナを
生成して出力する。
【0027】
【発明の効果】本発明によれば、方名を含む住所記入が
行われた帳票をOCR読み取りする場合認識率が向上
し、従来のように方名部分を修正画面で全面的に修正処
理する必要がなくなり、修正作業を必要最小限とするこ
とができ、OCR読み取りの処理効率を向上させること
ができる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の1実施例によるOCR処理システムの
ブロック図である。
【図3】本発明実施例に用いられる方名辞書の例の説明
図である。
【図4】本発明実施例システムの処理フロー図である。
【図5】本発明実施例による方名照合処理の具体例の説
明図である。
【図6】従来のOCR処理システムのブロック図であ
る。
【図7】従来システムの処理フロー図である。
【符号の説明】
1 入力帳票 2 住所フィールド 3 OCR装置 5’知識処理部 7 住所辞書 10 方名辞書 11 修正画面

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 帳票上の漢字文字列をOCR装置で読み
    取ってコード化するOCR処理システムにおける漢字住
    所データ処理方法において、 漢字住所データが記入されている帳票をOCR装置に読
    み取らせて、読み取り文字列と候補文字列とを作成する
    第1の段階と、 行政区画上の住所表記に用いられる住所単語を登録した
    住所辞書と方名表記に用いられる一般単語および氏名単
    語を登録した方名辞書とをそなえ、上記読み取り文字列
    と候補文字列とを対象に、行政区画上の住所表記部分と
    方名表記部分とに対してそれぞれ住所辞書と方名辞書と
    を参照して照合し、読み取り文字列を確定する知識処理
    を行う第2の段階と、 知識処理により確定された読み取り文字列を修正画面に
    表示して修正を可能にする第3の段階とからなり、上記第2の段階における読み取り文字列の方名表記部分
    を確定する知識処理では、番地表記部分に続く部分を方
    名表記部分として切り出すとともに方名辞書を用いての
    照合処理を行い、その際住所表記中の住所単語も参照し
    て照合を行うことを特徴 とするOCR処理システムにお
    ける漢字住所データ処理方法。
  2. 【請求項2】 請求項1において、第2の段階の知識処
    理で確定した読み取り文字列を漢字とカナ文字とで生成
    することを特徴とするOCR処理システムにおける漢字
    住所データ処理方法。
JP4171165A 1992-06-29 1992-06-29 Ocr処理システムにおける漢字住所データ処理方法 Expired - Lifetime JP2922365B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4171165A JP2922365B2 (ja) 1992-06-29 1992-06-29 Ocr処理システムにおける漢字住所データ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4171165A JP2922365B2 (ja) 1992-06-29 1992-06-29 Ocr処理システムにおける漢字住所データ処理方法

Publications (2)

Publication Number Publication Date
JPH0620087A JPH0620087A (ja) 1994-01-28
JP2922365B2 true JP2922365B2 (ja) 1999-07-19

Family

ID=15918205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4171165A Expired - Lifetime JP2922365B2 (ja) 1992-06-29 1992-06-29 Ocr処理システムにおける漢字住所データ処理方法

Country Status (1)

Country Link
JP (1) JP2922365B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3106994B2 (ja) * 1997-02-21 2000-11-06 日本電気株式会社 住所読み取り装置
JP6969818B1 (ja) * 2020-07-02 2021-11-24 株式会社ダブルスタンダード 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JPH0620087A (ja) 1994-01-28

Similar Documents

Publication Publication Date Title
JP3425408B2 (ja) 文書読取装置
JP2726568B2 (ja) 文字認識方法及び装置
JP2968145B2 (ja) 高度なデータ収集方法及びデータ処理システム
US20090006394A1 (en) Systems and methods for validating an address
JPH11505052A (ja) 語彙辞書の検索範囲を削減するシステム及び方法
JPH11282955A (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3812818B2 (ja) データベース生成装置、データベース生成方法及びデータベース生成処理プログラム
JPH07509576A (ja) 文字の認識方法
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JPH05258099A (ja) 文字認識処理装置
JP3394694B2 (ja) フォーマット情報登録方法及びocrシステム
JP2921522B1 (ja) データベース結合方法及び装置及びデータベース結合プログラムを格納した記憶媒体
JP2887171B2 (ja) カナ住所知識処理装置
JP3548372B2 (ja) 文字認識装置
JP2655087B2 (ja) 文字認識後処理方式
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH07141472A (ja) 文字列認識装置
JP2780654B2 (ja) 住所読み取り装置
JP2000090192A (ja) 住所および郵便番号の文字列修正方法
JPH11120294A (ja) 文字認識装置および媒体
JPH0546815A (ja) 光学式文字読取装置における住所単語照合方法
JPH0950485A (ja) 文字列認識装置
JPS61133487A (ja) 文字認識装置
JPH0498358A (ja) カナ住所知識処理方式
JPH09114929A (ja) 文字認識方法および装置

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080430

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110430

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110430

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 14