JPH0498358A - カナ住所知識処理方式 - Google Patents

カナ住所知識処理方式

Info

Publication number
JPH0498358A
JPH0498358A JP2211830A JP21183090A JPH0498358A JP H0498358 A JPH0498358 A JP H0498358A JP 2211830 A JP2211830 A JP 2211830A JP 21183090 A JP21183090 A JP 21183090A JP H0498358 A JPH0498358 A JP H0498358A
Authority
JP
Japan
Prior art keywords
address
level
kana
dictionary
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2211830A
Other languages
English (en)
Inventor
Koji Inami
康治 井波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2211830A priority Critical patent/JPH0498358A/ja
Publication of JPH0498358A publication Critical patent/JPH0498358A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 帳票上のカナ住所文字列を読取ってコード化するOCR
処理システムにおけるカナ住所知識処理方式に関し。
帳票記入者の負担を軽減しつつ認識率を向上することを
目的とし。
帳票のカナ住所フィールドに記入されたカナ住所文字列
を読取る読取部と2住所文字列を格納する住所辞書と、
前記読取部が読取ったカナ住所文字列について前記住所
辞書を用いた知識処理を行って住所データを出力する住
所知識処理プログラムとを備えたOCR処理システムに
おいて 前記住所知識処理プログラムが、前記読取部の
読取ったカナ住所文字列の中の第3レベルに基づいて前
記住所辞書をアクセスし、当該第3レベルに対応する住
所文字列を前記住所辞書から読出し、これに基づいて前
記住所データを出力するように構成[産業上の利用分野
] 本発明は、カナ住所知識処理方式に関し、更に詳しくは
、帳票上のカナ住所文字列を読取ってコード化するOC
R処理システムにおけるカナ住所知識処理方式に関する
帳票9例えば生命保険等の申込み用紙に記入された住所
をコード化する作業は、近年、0CR(光学文字読取装
置)処理ンステムによって行うことが多くなってきてい
る。例えば、r&票上の所定位置にあるカナ住所フィー
ルドに、カナ(カタカナ)により記入された文字列をO
CRによって読取り、これを知識処理して、認識率の向
上を図っている。
〔従来の技術〕
帳票上のカナ住所フィールド(記入欄)の位置は、予め
定まっている。またその記入事項も予め定まっており2
通常「都道府県者J、[郡名又は市区名」、「町村名等
」及び「番地」からなる。
このうち、「都道府県者」を第1レベル2 「部名又は
市区名Jを第2レベル、「町村名等jを第3レベルとい
う。
例えば 第1レベル;カナガワケン 第2レベル;カワサキノナカハラク 第3レベル;カミオダナカ 番地   、l−11 である。
カナ住所フィールド′内には、これらの事項が。
例えば1手書きの文字として記入される。
このような手書きの文字列をOCRで読取った後、対応
する候補文字を生成し、これを用いて住所辞書をアクセ
スし、知識処理を行っていた。即ち、住所辞書を郵便番
号又は第1レベル(の候補文字)を用いてアクセスする
。そして1例えば郵便番号による場合は2対応する第1
乃至第3レベルを辞書から読出し、これと候補文字とを
比較し一致した場合にこれを出力する。この時、カナ漢
字変換も合わせて行う。
なお、郵便番号は、帳票上の郵便番号フィールドに記入
されたものを、OCRで読取り、前記アクセスのため乙
こ使用する。
〔発明が解決しようとする課題〕
前述の従来技術によれば、住所辞書のアクセスを郵便番
号又は第1レベルを用いて行っている。
このため以下の如き問題があった。
郵便番号を用いる場合、帳票に必ず郵便番号が記入され
ている必要がある。しかし、帳票記入者が郵便番号を知
らない又は記入しない場合もありこの場合、郵便番号を
調べる等で帳票記入者又は帳票の処理担当者の負担が大
きくなる。また誤った郵便番号が帳票に記入されている
場合もある。
この場合、住所辞書から正しい第1乃至第3レベルを読
出すことができず、認識率の向上の障害となっていた。
一方、第1レベルを用いる場合においても、同様に、帳
票記入者が第ルヘルを記入しない場合がある。この場合
には、第1レベルの記入を欠いたまま入力すると知識処
理が十分に働かず、認識率向上の妨げとなる。また帳票
処理担当者が記入することとすると、その負担が大きく
なる。
本発明は、帳票記入者の負担を軽減しつつ認識率を向上
することが可能なカナ住所知識処理方式を提供すること
を目的とする。
〔課題を解決するための手段〕
第1図は本発明の原理構成図であり2本発明によるOC
R処理システムを示している。
第1図において、1は処理装置、3は住所知識処理ブコ
グラム、5は帳票、51は帳票5上のカナ住所フィール
ド、6は読取部、10は住所辞書である。
帳票5は、OCR処理システムの処理対象であり、その
所定の位置にカナ住所フィールド51を有する。カナ住
所フィールド51には5住所をカナ(カタカナ)で手書
きした文字列が記入される。
読取部6は1帳票5に記入されている情報、特に、カナ
住所フィールド51に記入されたカナ住所文字列を読取
る。
住所知識処理プログラム3は、CPU(中央処理装置)
及びメモリからなる処理装置1に設けられ、読取部6の
読取ったカナ住所文字列について住所辞書10を用いた
知識処理を行い、住所データを出力する。即ち、当該カ
ナ住所文字列に含まれる第3レベル(町村名等)に基づ
いて住所辞書10をアクセスし、当該カナ住所文字列に
対応する住所文字列を読出す。
このために、住所辞書10は、当該第3レベルを用いて
7検索できる形で住所文字列を格納する。
〔作 用〕
第2図は本発明の作用説明図である。
第2図図示の帳票5においては、カナ住所フィールド5
1内に、第2レベル(郡名又は市区名)第3レベル(町
村名等)及び番地のみが記入され郵便番号及び第ルヘル
(都道府県名)は省略される。即ち、[カワサキ・・・
・・・1−1−IJとのみ記入される。
このカナ住所文字列を読取部6が読取ると、住所知識処
理プログラム3は、そのうちの第3レベル即ち「カミオ
ダナカ」を用いて住所辞書10をアクセスする。そして
、 ′カミオダナ力」に対応するl又は2以上の住所文
字列を読出し、これらと読取部6が読取ったカナ住所文
字列の第2レベル即ち「カワサキノナカハラク」とを比
較する。
そして 一致したものを住所データとして出力する。
ここで、住所というものの性質から、郵便番号とは異な
り、帳票5の記入者が第2レベル及び第3レベルを知ら
ないということはあり得ない。また1第1レベルの記入
は省略することはあっても第2レベル及び第3レベルを
省略することは考えられない。従って、第2レベル及び
第3レベルについては、正確かつ確実な記入を期待でき
る。
方、記入者の立場からは、郵便番号及び第1レベルを省
略でき、その負担は軽減される。
また、第2レベルのカナ読みが重複する例は約30弱(
正確には271例えば東京都と広島界の府中市)であり
、この場合も第3レベルが重複することはない。従って
、第3レベル及びこれにより住所辞書10をアクセスし
て得た住所文字列の第2レベルを用いることにより、郵
便番号及び第1レベルを用いずとも、住所データを一意
に特定できる。
このように9本発明によれば、帳票5の記入者の負担を
軽減しつつ、正確かつ確実に記入された第2レベル及び
第3レー・ルを用いることにより十分な知識処理を行っ
て認識率を高くすることができる。
〔実施例〕
第3図は実施例構成図であり、、OCR処理システムを
示している。
第3図において、2は帳票処理部、4はアクセステーブ
ル、7は表示装置、8は住所データファイル、9はOC
R定義体である。
帳票処理部2は、処理装置1内に設けられ、帳票5につ
いての種々の処理を行う、このために読取部6は、帳票
5から読取った情報を帳票処理部2に送る。一方1 こ
の読取部6からの情報を処理するために、帳票処理部2
は、OCR定義体9を読込む。
OCR定義体9は、対応する所定の形式の帳票5を処理
するための種々の情報を格納している。
この情報は1例えば帳票5の用紙の大きさ、帳票5上の
各種のフィールド(記入1i!l)の位置、大きさ及び
8己大内容(住所である等)についての情報等からなる
帳票処理部2は、読取部6が光学的に読取った情報(読
取文字列)について、OCR定義体9により解釈する。
例えばOCR定義体9によりカナ住所フィールド51の
位置を知り、当該位置において読取った読取文字列は、
住所を表す文字列(カナ住所文字列)であることを認識
する。
帳票処理部2は、帳票5上の各種フィールドについての
読取文字列についての処理を行うが、カナ住所フィール
ド51についての読取文字列乙ごついては、以下の処理
を行う、即ち、当該読取文字列(カナ住所文字列)から
候補文字列を生成しこれら読取文字列及び候補文字列を
住所知識処理プログラム3に渡して、知識処理を依頼す
る。
住所知識処理プログラム3は、前記読取文字列及び候補
文字列を受は取ると、住所辞書1oを用いた住所知識処
理を行う。
このために、住所知識処理プログラム3は、アクセステ
ーブル4を作成する。即ち、読取文字列及び候補文字列
から各々の第3レベルのみを選択的に取り出し、読取文
字列の第3レベルに対応する形で候補文字列の第3レベ
ルを格納する。この時、1つの読取文字列に対して2以
上の候補文字列があれば、その優先順位の高い順に、候
補文字列の第3レベルを並べる。住所知識処理プログラ
ム3は9作成したアクセステーブル4に従って優先順に
、候補文字列の第3レベルを用いて、住所辞書10をア
クセスする(第3レベルアクセスを行う)。そして、当
該第3レベルに対応する住所文字列があれば、これを読
出す。
このために、住所辞書10は、第3レベルによる検索が
可能な形式で住所文字列を格納する。第3図図示の住所
辞書10の格納形式は、その−例である。即ち、1つの
第3レベルに対応して、第1及び第2レベルが格納され
ている。例えば、第3レベル「カミオダナカ」に対応す
る形で、第1及び第2レベル[カナガヮケン カヮサキ
ノナ力ハラク」が格納されている。1つの第3レベルに
対応する第1及び第2レベルが複数存在する場合には1
 当該第3レベルに対応して、当該複数の第1及び第2
レベルが所定の順に格納される。
なお、住所辞書10において、当該第3レベルに対応し
て格納される情報は、J:述の例に更に郵便番号を加え
たものでもよく、逆に第2レベルのみであってもよい、
また、第1ないし第3レベル及び郵便番号を格納しても
よい。
住所知識処理プログラム3は、第3レベルアクセスによ
り住所辞書IOから得た住所文字列を用いて、住所デー
タを作成する。即ち、まず当該住所文字列の第2レベル
と、候補文字列の第2レベルとを比較する。そして、一
致した場合ムこは、当該住所文字列を用いて住所データ
を作成する。例えば漢字データを作成し、これをカナデ
ータと対応させ、第ルヘルの漢字及びカナデータを作成
し5 これらをまとめて1つの住所データとする。
なお、前記比較において不一致の場合には、再度住所辞
書10をアクセスして2次の対応する住所文字列を取り
出して、同様の処理を行う。
表示装置7は、利用者に住所データを表示するためのも
のである。即ち、住所知識処理プログラム3は、住所デ
ータを表示装置7に表示する。これを見た利用者は、キ
ーボード等の人力装置(図示せず)からの入力により、
住所データを修正する。
住所データファイル8は、住所データを格納するための
ファイルであり、当該帳票5の処理を行う利用プログラ
ムの持つファイルである。即ち住所知識処理プログラム
3は、(修正済みの)住所データを、住所データファイ
ル8に出力する。
第4閏は住所知識処理フロー、第5図は住所知識処理の
一例を示す図である。
以下、第5図を参照しつつ、第4図に従って住所知識処
理について説明する。
■ 読取部6が、g票5上のカナ住所フィールド51等
の読取りを行い、その結果を帳票処理部2へ送る。
このカナ住所フィールド51には、第5図(A)図示の
如く、第2レベル、第3レベル及び番地のみが記入され
、郵便番号及び第1レベルは記入されていない。なお、
第2レベルと第3レベルとの間、第3レベルと番地との
間の各々に、空白(ブランク)が挿入され、これらを区
別するために用いられる。
■ 帳票処理部2が、OCR定義体9を読込み。
読取部から送られた読取文字列を解釈する。これにより
カナ住所フィールド51に対応する読取文字列は住所に
ついての情報であることを知る。
また、帳票処理部2は、読取文字列に対応する候補文字
列を生成する。この候補文字列は、■又は2以上生成さ
れる。
■ 住所知識処理プログラム3が、読取文字列及び候補
文字列を帳票処理部2から受取り2 これを用いて所定
の処理を行う。なお、この読取文字列及び候補文字列は
、カナ住所フィールド51についてのものであり、第2
レベル及び第3レベルからなる。
まず、住所知識処理プログラム3は、住所辞書10につ
いて第3レベルアクセスを行うか否かを調べる。この第
3レベルアクセスか否かの指定は。
例えば、利用者が行う。なお、第1レベル及びl又は郵
便番号が読取文字列の中にない場合に、第3レベルアク
セスを行うようにしてもよい。
■ 第3レベルアクセスを行う場合、住所知識処理プロ
グラム3が、アクセステーブル4を作成する。即ち、読
取文字列及び候補文字列をサーチし最初のブランクと第
2のブランクとの間の文字列(「カミオダナカ」)を第
3レベルとして取り出す。そして、候補文字列の第3レ
ベルを優先順に並べる。
■ 住所知識処理プログラム3は、候補文字列の第3レ
ベル(「カミオダナ力」)を用いて、住所辞書10をア
クセスし、当該第3レベルに二亥当する住所文字列が格
納されているか否かを調べる。
■ 住所辞書10に該当住所文字列がある場合住所知識
処理プログラム3は、まず、カナ漢字変換処理を行う。
例えば、該当住所文字列はカナ(カタカナ)文字例であ
るが、住所辞書10において、対応する漢字データ又は
文字列を格納するようにしておき、これを該当住所文字
列と共に読出すことによって、当該変換処理を行う。
■ 住所知識処理プログラム3は、住所辞書10から読
出した住所文字列のうちの第2レベルと候補文字列の第
2レベルとを比較する。ここで読出した住所文字列は1
例えば第5図(C)に図示の如<、「カナガワケン カ
ワサキノナ力ハラク カミオダナカ」となる、即ち、第
1乃至第3レベルからなる。このうち第2レベルは、最
初のブランクと第2のブランクとの間の文字列[カワサ
キンナカハラク」であると認識される。一方。
候補文字列の第2レベルは、先頭から最初のブランクま
での文字列「カワサキンナカハラク」であると認識され
る。
前述の如く5第2レベルが重複するのは約30種例であ
り、この場合にあっても第2レベル及び第3レベルの双
方が重複することはないので、第2レベルが前記比較に
より一致した場合、これを出力(住所データ)作成のた
めに用いる住所文字列として採用する。この時点で、こ
の住所文字列は、第5図(C)図示の如く、各々が、第
1乃至第3レベル及び番地からなるカナ文字列と漢字文
字列からなるように補正されている。
なお、住所辞書10において、1つの第3レベルに対応
して複数の住所文字列が格納されている場合には、その
格納順に処理■乃至■を行い、比較結果の一致した住所
文字列を採用する。
■ 前記カナ文字列及び漢字文字列から、住所知識処理
プログラム3が、住所データ、即ち、カナデータ、漢字
データを生成する。
■ 住所知識処理プログラム3が1表示装置7の画面の
所定位置に、第5図(D)図示の如く、漠字データ等を
表示するための枠を書き: この枠内に漢字データを表
示する。この画面は、利用者が表示された漢字データ等
をキーボード等からの人力により修正するための修正画
面である。
[相] 住所知識処理プログラム3が、前記修正画面の
枠内に、ANK (アルファニューメリッタカナ)デー
タを表示する。これにより、修正画面は。
第5図(D)図示の如くになる。
なお、住所辞書10に該当住所文字列がない場合であっ
ても、修正画面上には、前記枠が開設され9例えば読取
文字列又は候補文字列等が表示される。
■ 利用者による修正後、住所知識処理プログラム3は
、住所データを例えば、住所データファイル8に出力す
る。この時、住所データは、第5図(E)図示の如く、
レコード情報カナデータ及び漢字データからなるレコー
ドの形で出力される。
■ 第3レベルアクセスでない場合2住所知識処理プロ
グラム3は、OCR定義体9を用いた解釈により、郵便
番号フィールドとカナ住所フィールド51における第3
レベルの文字列の先頭2桁とをサーチし、これらとその
候補文字列を用いてアクセステーブルを作成する。
■ 前記アクセステーブルを用いて、住所知識処理プロ
グラム3が、住所辞書をアクセスし、該当する文字列が
あるか否かを調べる。このため、住所辞書は、郵便番号
及び第3レベルの先頭2桁による検索が可能な形式とさ
れる。
■ 処理■と同様の処理を行う。
■ 処理■と同様の処理を行う。
■ 処理■と同様の処理を行う。
〔発明の効果] 以上説明した様に2本発明によれば、カナ住所知識処理
において、確実かつ正確な記入を期待できる住所の第3
レベルを用いた住所辞書のアクセスを行うことにより、
転乗記入者に対しては郵便番号及び第ルヘルの記入の省
略により負担を軽減することができ、また、第3レベル
アクセスによる十分な知識処理が可能となるので認識率
を高(することができる。
【図面の簡単な説明】
第1図は本発明の原理構成V 第2図は本発明の作用説明図 第3図は実施例構成図 第4図は住所知識処理フロ 第5図は住所知識処理の一例を示す図。 1は処理装置、2は帳票処理部、3は住所知識処理プロ
グラム、4はアクセステーブル、5は帳[51はカナ住
所フィールド、6は読取部、7は表示装置、8は住所デ
ータファイル 9−はOCR定義体、IOは住所辞書。 本発明の原理構成図 @1図 特許出願人 株式会社 ビーエ ) ニー代理人弁理士
森1)寛(外2名) 本発明の作用説明図 第2図

Claims (3)

    【特許請求の範囲】
  1. (1)帳票(5)のカナ住所フィールド(51)に記入
    されたカナ住所文字列を読取る読取部(6)と、住所文
    字列を格納する住所辞書(10)と、前記読取部(6)
    が読取ったカナ住所文字列について前記住所辞書(10
    )を用いた知識処理を行って住所データを出力する住所
    知識処理プログラム(3)とを備えたOCR処理システ
    ムにおいて。 前記住所知識処理プログラム(3)が、前記読取部(6
    )の読取ったカナ住所文字列の中の第3レベルに基づい
    て前記住所辞書(10)をアクセスし、当該第3レベル
    に対応する住所文字列を前記住所辞書(10)から読出
    し、これに基づいて前記住所データを出力する ことを特徴とするカナ住所知識処理方式。
  2. (2)前記住所知識処理プログラム(3)が、前記読取
    部(6)の読取ったカナ住所文字列の中の第2レベルと
    、前記住所辞書(10)から読出した当該第3レベルに
    対応する住所文字列の中の第2レベルとを比較し、一致
    した第2レベルを含む住所文字列を用いて前記住所デー
    タを作成すると共に、当該一致した第2レベルを含む住
    所文字列の中の第1レベルを前記住所データの第1レベ
    ルとして用いる ことを特徴とする請求項(1)記載のカナ住所知識処理
    方式。
  3. (3)帳票(5)に記入されたカナ住所文字列を読取部
    (6)によって読取り、これに基づいて住所データを出
    力するOCR処理システムにおいて、前記住所データの
    出力のために住所文字列を格納する住所辞書(10)を
    備え、この住所辞書(10)において、前記住所文字列
    を当該住所文字列の第3レベルを用いて検索可能な形式
    で格納する ことを特徴とするOCR処理システム。
JP2211830A 1990-08-10 1990-08-10 カナ住所知識処理方式 Pending JPH0498358A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2211830A JPH0498358A (ja) 1990-08-10 1990-08-10 カナ住所知識処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2211830A JPH0498358A (ja) 1990-08-10 1990-08-10 カナ住所知識処理方式

Publications (1)

Publication Number Publication Date
JPH0498358A true JPH0498358A (ja) 1992-03-31

Family

ID=16612302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2211830A Pending JPH0498358A (ja) 1990-08-10 1990-08-10 カナ住所知識処理方式

Country Status (1)

Country Link
JP (1) JPH0498358A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997312A (ja) * 1995-09-29 1997-04-08 Fujitsu Ltd 認識文字補正装置およびデータベース検索装置
US6115707A (en) * 1997-02-21 2000-09-05 Nec Corporation Address reading apparatus and recording medium on which a program for an address reading apparatus is recorded

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734239A (en) * 1980-08-06 1982-02-24 Toshiba Corp Kanji (chinese character) term input device
JPS6240574A (ja) * 1985-08-16 1987-02-21 Omron Tateisi Electronics Co ワ−ドプロセツサ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734239A (en) * 1980-08-06 1982-02-24 Toshiba Corp Kanji (chinese character) term input device
JPS6240574A (ja) * 1985-08-16 1987-02-21 Omron Tateisi Electronics Co ワ−ドプロセツサ

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997312A (ja) * 1995-09-29 1997-04-08 Fujitsu Ltd 認識文字補正装置およびデータベース検索装置
US6115707A (en) * 1997-02-21 2000-09-05 Nec Corporation Address reading apparatus and recording medium on which a program for an address reading apparatus is recorded

Similar Documents

Publication Publication Date Title
US7769778B2 (en) Systems and methods for validating an address
JPH11505052A (ja) 語彙辞書の検索範囲を削減するシステム及び方法
JPH11282955A (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2009005492A1 (en) Systems and methods for validating an address
JPS5816488B2 (ja) 日本語文入力方式
JP3394694B2 (ja) フォーマット情報登録方法及びocrシステム
JPH0498358A (ja) カナ住所知識処理方式
JP2000090192A (ja) 住所および郵便番号の文字列修正方法
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JPH05250416A (ja) データベースの登録・検索装置
JP4382634B2 (ja) 住所解析装置、住所解析方法及び住所解析プログラム
JP2655087B2 (ja) 文字認識後処理方式
JPH04205457A (ja) カナ住所知識処理方式
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH08115330A (ja) 類似文書検索方法および装置
JPH0498363A (ja) 継続フィールドの知識処理方式
JPH1078953A (ja) 住所表記変換方法および住所表記チェック方法
JPH04283853A (ja) カナ−漢字変換方法
JP2634926B2 (ja) かな漢字変換装置
JPH0248938B2 (ja)
JPH0546815A (ja) 光学式文字読取装置における住所単語照合方法
JPS63268080A (ja) 手書文字入力デ−タ修正方式
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPH05135212A (ja) 住所単語照合方法
JP2865443B2 (ja) カナ氏名もしくはカナ法人名表記の漢字変換装置