JPH04205457A - カナ住所知識処理方式 - Google Patents

カナ住所知識処理方式

Info

Publication number
JPH04205457A
JPH04205457A JP2336399A JP33639990A JPH04205457A JP H04205457 A JPH04205457 A JP H04205457A JP 2336399 A JP2336399 A JP 2336399A JP 33639990 A JP33639990 A JP 33639990A JP H04205457 A JPH04205457 A JP H04205457A
Authority
JP
Japan
Prior art keywords
address
kana
dictionary
candidate
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2336399A
Other languages
English (en)
Other versions
JP2887171B2 (ja
Inventor
Hideto Henmoto
辺本 英人
Masaaki Nakanou
中農 正明
Toshinari Yonemura
米村 俊成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2336399A priority Critical patent/JP2887171B2/ja
Publication of JPH04205457A publication Critical patent/JPH04205457A/ja
Application granted granted Critical
Publication of JP2887171B2 publication Critical patent/JP2887171B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 帳票上のカナ住所文字列を読取るOCR処理システムに
おけるカナ住所知識処理方式に関し。
類偵する住所を抽出して認識率を向上することを目的と
し。
帳票に記入されたカナ住所文字列を読取る読取部と、住
所文字列を格納する住所辞書とを備え。
前記読取部が読取ったカナ住所文字列について前記住所
辞書を用いた知識処理を行って住所データを出力するO
CR処理システムにおいて、前記読取ったカナ住所文字
列と前記住所辞書の住所文字列とを照合する階層構造処
理部を設け、前記住所辞書を階層構造を有するように構
成し、前記階層構造処理部が、前記照合すべきカナ住所
文字列と住所文字列とを、その階層毎に照合すると共に
当該照合における一致の割合が所定の一致条件を満たす
場合に、これを前記住所データの候補とするように構成
する。
〔産業上の利用分野〕
本発明は、カナ住所知識処理方式に関し、更に詳しくは
、@票上のカナ住所文字列を読取るOCR処理システム
におけるカナ住所知識処理方式に関する= 帳票9例えば生命保険等の申込み用紙に記入された住所
をコード化する作業は、近年、0CR(光学文字読取装
置)処理システムによって行うことが多くなってきてい
る。例えば、@票上の所定位置にあるカナ住所フィール
ドに、カナ(カタカナ)により記入された文字列をOC
Rによって読取り、これを知識処理して、認識率の向上
をぼっている。
〔従来の技術〕
帳票上のカナ住所フィールド(記入411)の位置は、
予め定まっている。またその記入事項も予め定まってお
り9通常「都道前県名」、「郡名又は市区名」、「町村
名等」及びr番地」等からなる。
カナ住所フィールド内には、これらの事項力。
例えば1手書きの文字として記入される。
このような手書きの文字列をOCRで読取った後、対応
する候補文字を生成し、住所辞書をアクセスし、知識処
理を行っていた。即ち、住所辞書から読出した内容と候
補文字等とを比較し、一致した場合にこれを出力する。
この時、カナ漢字変換も合わせて行っている。
〔発明が解決しようとするR題〕
前述の従来技術においては、住所辞書から読出した内容
と候補文字等との照合を行う際に1文字数−敗が条件と
されていた。このため、以下の如き問題があった。
読取り結果が、正しい文字数と比べて1文字数不足であ
ったり1文字数超過となることがある。
この場合、照合を行っても正しい結果が得られない、即
ち、辞書内に所望の住所文字列が存在していても、これ
とは文字数が異なるので、読出しにくい。
また2表記の“ゆれ”に対して弱い(認識率が落ちる)
0例えば、「中津前」に対して、「ナカツクマ」又は「
ナカヅクマ」と記入されていた場合、その双方から同一
の結果「中津前」は得にくい。
本発明は、類似する住所を抽出して認識率を向上するこ
とが可能なカナ住所知識処理方式を提供することを目的
とする。
〔課題を解決するための手段〕
第1図は本発明の原理構成図であり1本発明によるOC
R処理システムを示している。
第1図において、1は処理装置、4は階層構造処理部、
6は帳票、61は帳票6上のカナ住所フィールド、7は
読取部、11は住所辞書である。
帳票6は、OCR処理システムの処理対象であり、その
所定の位置にカナ住所フィールド61を有する。カナ住
所フィールド61には、住所をカナ(カタカナ)で手書
き又は印刷した文字列が記入される。
読取部7は、帳票6に記入されている情報、特に、カナ
住所フィールド61に記入されたカナ住所文字列を読取
る。
読取部7の読取ったカナ住所文字列について。
住所辞書11を用いた知識処理が行われ、住所データが
出力される。即ち、当該カナ住所文字列に基づいて住所
辞書11がアクセスされ、当該カナ住所文字列に対応す
る住所文字列が読出される。
住所辞書11は、PJ層構造を有するように構成される
。即ち、住所の「都道前県名」、「郡名又は市区名」、
「町村名等」及び「番地J等の階層(レベル)を利用し
た1体系的な辞書とされる。
階層構造処理部4は、読取部7の読取ったカナ住所文字
列と、住所辞書11の住所文字列とを。
その階層毎に照合する。
〔作 用〕
階層構造処理部4は、照合すべきカナ住所文字列を1例
えば「カガワケン(誤記入されているとする)ヨコハマ
シ ミナミク・・・」とすると、その階層「カガワケン
」、「ヨコハマシ」、「ミナミク」毎に、住所辞書11
の住所文字列の対応する階層の内容と照合する。
そして、照合の結果、一致する割合が所定の一致条件を
満たす場合に、当該内容を住所データの候補とする0例
えば、都道府県塩の階層について。
一致条件を、「2文字以上一致していること」と定める
と、「カナガワケン」及び「カガワケン」の双方が得ら
れる。
従って、正しい住所「カナガワケン」を候補文字列とし
て得ることができ、これを漢字に変換すれば「神奈用県
」という正しい結果が得られる。
二のように、読取り結果に文字数の不足(1文字少ない
)があっても、また表記の“ゆれ”があっても、正しい
住所データを得ることができる。
〔実施例〕
(a)  全体構成の説明 第2図は実施例構成図であり、OCR処理システムを示
している。
第2図において、2は帳票処理部、3は住所知識処理プ
ログラム、5は表示データ生成部、8は表示装置、9は
住所データファイル、10はOCR定義体である。
帳票処理部2は、CPLI(中央処理装置)とメモリと
からなる処理装置l内に設けられ、帳票6についての種
々の処理を行う。このために、読取部7は、帳票6から
読取った情報を帳票処理部2に送る。一方、この読取部
7からの情報を処理するために、帳票処理部2は、OC
R定義体10を読込む。
OCR定義体10は、対応する所定の形式の帳票6を処
理するための種々の情報を格納している。
この情報は1例えば帳票6の用紙の大きさ、帳票6上の
各種のフィールド(記入欄)の位置、大きさ及び記入内
容(住所である等)についての情報等からなる。
帳票処理部2は、読取部7が光学的に読取った情報(読
取文字列)について、OCR定義体10により解釈する
0例えばOCR定義体10によりカナ住所フィールド6
1の位置を知り、当該位置において読取った読取文字列
は、住所を表す文字列(カナ住所文字列)であることを
認識する。
帳票処理部2は、帳票6上の各種フィールドについての
読取文字列についての処理を行うが、カナ住所フィール
ド61についての読取文字列については、以下の処理を
行う。即ち、当該読取文字列(カナ住所文字列)から候
補文字列を生成し。
これら読取文字列及び候補文字列を住所知識処理プログ
ラム3に渡して、知識処理を依頼する。
住所知識処理プログラム3は、前記読取文字列及び候補
文字列を受は取ると、住所辞書IIを用いた住所知識処
理を行う。
この知識処理は、具体的には、以下の■乃至■の処理を
行うものである。
■ 正確に書かれた住所(空白区切りあり)の認識及び
漢字表記の生成 (例)トウ41ウド チョダク マルハチ 3−3−3
    →トウ41ウド  チョウ り  マルハチ 
 3−3−3東京都千代田区丸の内3−3−3 ■ 誤字(vA記或いはOCR装置による誤認)があっ
た場合の住所の補正 (例) トウキ1?ト チ3夕?り マルlウチ 3−
3−3   →トウキ8ウド  チョウ り  マルハ
チ  3−3−3東京都千代田区丸の内3−3−3 ■ 都同府県名を省略した書き方の住所の認識(例) 
チョタク マルハチ 3−3−3   →トウキ2ウド
  チョウ り  マルハチ  3−3−3東京都千代
田区丸の内3−3−3 ■ 単語文字数不足の場合の補正 (B噂)トク専3ウ  チ3タク  マルウチ  3−
3−3   →トウキ1ウド  チョウ り  マルノ
ウチ  3−3−3東京都千代田区丸の内3−3−3 ■ 単語文字数超過の場合の補正 [1)  )ウキョウト  チョノダク  マルナイウ
チ  3−3−3   →表示装置8は、利用者に住所
データを表示するためのものである。即ち住所知識処理
プログラム3は、住所データを表示装置8に表示する。
これを見た利用者は、キーボード等の入力装W(図示せ
ず)からの入力により、住所データを修正する。
住所データファイル9は、住所データを格納するための
ファイルであり、当該帳票6の処理を行う利用プログラ
ムの持つファイルである。即ち。
住所知識処理プログラム3は、(修正済みの)住所デー
タを、住所データファイル9に出力する。
第3図も実施例構成図であり、特に2階層構造処理部4
及び表示データ生成部5の構成を示す。
階層構造処理部4は、アザ・オオアザ省略判定部(以下
、省略判定部)41と単語照合部42とを備える。なお
、この図では、住所辞書11が階層構造処理部4に含ま
れるように図示しである。
単語照合部42は1階層構造処理部4の主要部をなし、
単語毎の照合を行う。ここで、単語とは。
カナ住所文字列の1つの階層、又は、住所文字列の1つ
の階層をいうこととする。単語の照合は。
対応する(同一の)階層の単語の間で行う。
省略判定部41は、住所のうちの「字」および「大字」
の記載の有無に拘わらず、単語の認識を可能とするため
に、当該字又は大字の省略の有無を判定し、その結果を
単語照合部42に知らせる。
単語照合部42は、この判定結果に基づき1字」又は「
大字」を付加し又は削除した形で照合を行う。
表示データ生成部5は、単語−覧表示部51゜変換キー
処理部52及び区切り線表示部53を備える。
単梧−覧表示部51は1階層構造処理部4で得た候補住
所文字列が複数ある場合に、これらを−覧として一時に
出力する(表示する)。
変換キー処理部52は、候補住所文字列が複数ある場合
に、所定の変換キーの押下げの都度に。
これに対応して1つのカナ住所文字列を出力する(表示
する)、この出力は、優先順位の高い文字列からその順
に行われる。
従って、オペレータは、必要に応していずれかの表示方
式を選択できる。なお、いずれの表示方式においても、
当該カナ住所文字列(即ちカタカナからなる読み)と、
これをカナ漢字変換して得た漢字(単語)とが、一対と
して表示される。
区切り線表示部53は、カナ住所フィールド61が帳票
6上で2行(複数行)に分割されている場合に、当該行
の境界に対応する区切りを、カナ住所文字列と共に表示
する。
(ロ)単語照合の説明 本実施例では、住所の階層構造に着目して、第4図図示
の如き階層体系を採用する。図中、先頭の数字は、lk
別子を表す。
住所辞書(以下、単に辞書ともいう)11は。
この階層体系に従う構成とされる。第5図にその一例を
示す。
この階層体系により、単語の並びを限定することができ
る0例えば、「40郡Jに属する単語の下位に位置する
ことが許される単語は「41町」。
「42村」 (又は「43大字」)を属性に持つ単語の
みである。カナ住所知識処理はこれを利用したものにな
っている。すなわち、上記の階層構造に基づいた辞書1
1を用意し、辞書11中の都道府県単語と読み取った文
字列の先頭の1区切りの文字列を照合してまず都道府県
を決定する。以下。
その決定した都道府県に所属する市区郡単語と次の1区
切りの文字列を照合して市区郡を決定する。
というように上位から順に階層を降って行く、最下位レ
ベルの単語を処理してしまうか文字列の終端に達すれば
、そこで処理終了となる。
1つの階層での単語照合では、一致条件(確からしさの
度合い)により順位を付けた候補単語を最大3つまで挙
げて1次の階層の処理に移る。次の階層の処理では、前
階層で挙がった候補単語を元にしてその下位に属する単
語の照合を行う。このとき、処理の高速化のため以下の
ような“枝刈り”を行っている。即ち、前階層で挙がっ
た候補単語のすべて(最大3つ)について下位単語の照
合を行うのでなく、前階層の候補単語を優先順位の高い
方から1つ取り出し、その単語の下位単語について照合
を行い、1つでも候補単語が挙がればその時点で上位単
語は確定とし、候補単語が1つも挙がらなければ前の階
層の候補単語から次の優先順位を持つ単語を取り出し下
位単語の照合を行う。
以上の処理について、第6図に従って具体的に説明する
第6図(A)図示の如く、正しくは「カナガワケン・・
・・・・」と記入すべきであったのに、「カガワケン 
ヨコハマシ・・・・・・」と記入されていたとする。
この場合、単語照合の処理は、第6図図示の如くに行わ
れる。この処理は、単語照合部42が行う。
また、一致条件としては、「2字以上一致していること
」を用い、一致する字数の多い程、確からしさの度合い
が高い(順位が高い)とする。
■ 記入データの゛′カガワケン”に対して辞書11中
の最上位の階層の都道府県単語と照合する。
その結果、rカガワケン(香川系)jと「カナガワケン
(神奈川県)が候補単語となる。
■ まず「カガワケン(香川系)」を上位候補として、
その下位単語と“ヨコハマジ“を照合するが、その結果
、候補単語が挙がらない。
■ 次に、「カナガワケン(神奈川県)」を上位候補と
して、その下位単語と“ヨコハマシ“を照合する。その
結果、「ヨコハマシ(横浜型)」と「ヨコスカシ(横須
賀市)」が候補単語となる。
■ 次の階層処理として[ヨコハマシ(横浜型)」を上
位候補として、その下位単語と“ミナミク”を照合する
。その結果、「ミナミク(両区)」と[ツルミク(鶴見
区)が候補単語となる。
■′ [ヨコスカシ(横須賀市)」を上位候補とした照
合は行わない(枝刈りする)。
この“′枝刈り″を行った場合、早い時期に上位単語を
確定してしまうため、下位候補から逆に上位候補を決定
するというような柔軟性に欠けることになるが、標準的
な住所データに対しては処理速度の向上が期待できる。
なお、仮に、上述の例において「カガワケンタカハマシ
 ミナミク」と記入されていたとすると、“技刈り′°
を行った場合、知識処理は失敗する。即ち、この例は「
カガワケン タカマッシ」と「カナガワケン ヨコハマ
シ ミナミク」を混同させたような例であるが、カナ住
所知識処理では「カガワケン タカマッシ(香川県高松
市)」で上位固定となってしまう、そして、「カナガヮ
ケン(神奈川県)を上位候補とした照合は、“枝刈り”
されてしまう、従って、この場合は、 “枝刈り”を行
わず、処理を続行するようにしてもよい。
各階層での単語照合とそのときの優先順位の付は方は、
以下のように行う。
まず2文字列照合に先立ち、辞書11から検索した単語
と候補文字付きの比較対象文字列の長さのチエツクを行
う(比較対象となる文字列の長さは空白による区切りに
より判断する)、ここでは。
辞書単語の長さを基準にして約3割分の長さの前後を許
す。それを越えると無条件に不一致とする。
長さに幅を持たせる意味は、先に挙げた認識要件にもあ
るように脱字や余計な文字に対応するためである。こう
いう状況は記入者の記入ミスのみによるものではなく、
辞書11中の単語との表記のズレによっても起こりうる
。例えば、「中津前Jを辞書単語は「ナカヅクマJと読
み、記入者は「ナカツクマ」と読んだ場合或いはその逆
のパターンなどである(表記の“ゆれ″)。
文字列長チエツクで不一致にならなかった場合。
辞書単語を構成する1文字1文字を候補文字付きの文字
列と比較し、一致した文字については候補文字の深さ(
位置)に対応した点数を付ける。この例を、第7図に示
す「キョウトフ」は、「トウキョウト」と−文字しか違
わないので、不一致とならない。比較において、先頭文
字は、先頭文字同士で比較するようにする。一方、先頭
文字以外の比較は同じ位置の列のみを対象にするのでな
く候補付き文字列内すべての文字を対象とする。ただし
、一致する文字が見つかった列には印をつけておき2重
にサーチしないようにする。候補付き文字列内に一致す
る文字が見つからなかった文字に対しては候補文字の深
さの最大位置に対応する点数に罰点も含めて3点加点し
た点数を与える(キョウトフのrヰ」及び「)」)、ま
た、直前に見つかった文字よりも1列の位置が前で見つ
かった文字に対しては1点の罰点を加点する(キョウト
フの「つ」)、他は、その文字の見つかった候補順位を
点数とする。
辞書単語を構成する文字すべてについて上記の照合を行
い、完了後に一致文字数と合計点数を評価する。もし、
−数文字数が、辞書単語を構成する文字数に対応した規
定文字数以上一致していなければ不一致とみなす。規定
文字数は約7割程度をメトにして評価表を用意しておく
、これは場合によっては、チューニング(値を変える)
する。
評価表の一例を以下に示す。比較文字数が3乃至7の場
合、一致必要数の設定により認識率に太きく影響するの
で注意を要する。評価表は1例えば。
都道府県単語用とこれ以外の単語用の各々につき。
候補文字付きの場合と候補文字なしの場合が用意される
(即ち、4つ用意される)。
一致規定数を満たしていた場合は合計点数を構成文字数
で割り算した値をこの単語の獲得点数とし、この獲得点
数を基に優先順位を付ける。獲得点数は小さい方が優先
度が高い、同点の場合は文字列の長い方を優先する。獲
得点数も文字列長も同じ場合は辞書中の出現順となる。
(C)  省略判定の説明 アザ・オオアザ処理は、「アザ」又は「オオアザ」とい
う住所固有でかつ省略・非省略が任意に行われる単語に
対して省略されても省略されなくても処理出来るように
対応しているものである。
例えば「トウキタウト ミタ力シ キタノ」と書かれて
も「トウキョウト ミタ力シ オオアザキ9/」と書か
れても「東京都三鷹市北野」を出力することができる。
OCR装置による誤認を含む可能性があるため単純に「
アザ・オオアザ」の文字列を照合対象外にするだけでは
うまくいかない。
「アサノマチ」を「アザマチ」と誤認しているかも知れ
ないし、「アザプダイ」のように「アザ(オオアザ)」
で始まる単語なども存在するからである。
省略判定部41は、誤認文字を含みうる読取りデータ(
カナ)の(単語文字列の)先頭における「アザ」・「オ
オアザ」の確定度と辞書内の単語文字列の先頭における
「アザ」・「オオアザ」の確定度を求め、その結果によ
り比較両者の照合の対象となる基幹文字列を決定する。
このために、省略判定部41は、第8図(A)図示の如
き2判定テーブルを備える。このテーブルは、読取りデ
ータ(候補文字)が「アザ・・・」。
「オオアザ・・・」で始まる場合とそれ以外の場合の各
々につき、辞書単語がどのような構成かによって、照合
する文字を変更する。辞書単語は、漢字変換のため、読
みとしてのカタカナ部分と住所としての漢字の双方を持
つ、従って1図示の5通りに場合わけされる。照合の方
法は、rXX+J 。
「そのまま比較(そのまま)」及び[そのまま八X+J
とがある。rXX+Jは、Xxをアザ・オオアザの文字
数分だけ進ませた位置を、照合の対象とする。xXは、
読み側又は辞書側である。
「そのまま比較」は、双方の全文字列をそのまま照合の
対象とする。「そのまま八X+Jは、そのまま照合した
場合の一致の度合と、アザ・オオアザの文字数分だけX
を進ませて照合した場合の一致度のうち高い方を採用す
る。
第8図(B)図示の文字列を例にとって具体的に説明す
る。
例えば、読取りデータが「アサ才力マチ」である場合(
正しく読取っている場合)1判定テーブルにおいて、読
取りデータ側として「アザ・・・」が選択される。これ
は、「アサ・・・」は「アザ・・・」の誤記又は誤読と
も考えられるからである。一方。
候補となる辞書単語側においては、読みは「アサJを含
み、漢字は「浅丘町」ゆえ1字」を含まない。
そこで、“「アザ」Oかつ「字」X″の項が選択される
。従って、照合の方法は、「そのまま△読+」である、
これによると、「そのまま」照合すると完全に一致する
ので、辞書単語は、「アサ才力マチ(浅丘町)」が選択
される。
また、読取りデータが「フジヤマ」である場合(記入者
がアザを省略した場合)、読取りデータ側は「どっちで
もない」が選択される。4文字−致していることにより
候補となった辞書単語側においては、読みは「アザ」を
含み、漢字は1字」を含む、そこで、“「アザ」Oかつ
「字」O″の項が選択される。従って、照合の方法は、
「辞書側十Jである。これによると、辞書側を「アザ3
分だけ進めて照合すると「フジヤマ」同士であり一致す
る。そこで「アザフジヤマ(字藤山)」が選択され、記
入が省略されていたアザ(字)を追加する修正が行われ
たことになる。
なお、第8図(B)図示の他の例についても。
第8図(A)図示のテーブルに従えば、同様に修正が行
われ、又は正しい結果を選択できる。
(d)  表示データ生成の説明 知識処理により住所辞書11から複数OjI語が候補と
して得られるが、その表示の方法によってはオペレータ
が十分に候補を活用できないことがある。そこで9表示
データ生成部5が種々の処理を行って、操作性を高める
ような表示を可能とする。
第9図は変換キー処理について示す。
今、同図(A)の如く、「キタマチJと記入すべきとこ
ろ「キタマタ」と記入しであるとする。
この場合、知識処理により、同図(B)の如く優先度の
つけられた候補が1階層構造処理部4から表示データ生
成部5へ出力されてくる。この候補は、読み(カタカナ
)と単語(漢字)とからなる。
ここで、オペレータが所定の変換キーを押下げると、第
9図(C)図示の如く、第1候補が表示装置8に表示さ
れる。この変換キーの押下げに応じた処理は、変換キー
処理部52が行う、この表示において、「キタマタ」が
「キタマチ」に補正されて出力されており、補正後の読
みに対応する単語「北回」が表示されている。また、読
みと単語とが対応づけられて同時に同一画面上に表示さ
れる。これにより、変換結果の単語に対する読みは何で
あるのか、又は読みに対応する単語は何であるのかを知
ることができる。
更に、変換キーが押下げられると、第2候補が表示され
る。以下、この押下げに応じて、複数の候補につき、そ
の順位に従って1表示されることになる。
第10図は単陪−覧表示について示す。
第9図と同様に、第1乃至第3候補が表示データ生成部
5に出力されるが、オペレータが所定の指示入力を行う
と1画面の一部に一覧表が表示される。この−覧表の表
示処理は、単語−覧表示部51が行う、この−覧表では
、各候補がその読みと単語を対応づけた形式で同時に同
一画面上に表示される。これにより、オペレータは、変
換キーを押下げた場合に何が表示されるかを予め知るこ
とができる。従って、操作の信頼性を高めることができ
る。
この後、オペレータが変換キーを押下げると。
第10図(B)図示の如く、第1候補が表示される。こ
れを予知していたオペレータは、直ちに次の操作が実行
できる。
第11図は区切り線表示について示す。
一般に住所をカタカナ表示すると文字数が多くなる。こ
のため、帳票ε上において、カナ住所フィールド61が
、2つ(複数)の部分61−1及び61−2に分割され
てしまう(2行に亘る)ことがある、この場合、住所知
識処理プログラム3は1分割された部分(継続フィール
ド)61−1及び61−2をその順に結合して知識処理
を行う。
このような処理については、先に本願出願人が出願した
特願平2−213831号に詳細に開示されている。
オペレータが変換キーを押下げると、第1候補が表示さ
れる。この時1区切り線表示部53が。
分割された部分61−1及び61−2のつなぎ目に9区
切りマーク「1」を表示する。なお区切りマークのない
場合も合わせて図示した。この区切りマークにより、帳
票6での住所フィールド61の分割と3画面に表示され
た候補文字との対比が容易となる。従って、オペレータ
の作業がやりやすくなり、操作が向上する。
以上本発明を実施例により説明したが1本発明はその主
旨に従い種々の変形が可能である。
例えば2階層構造を利用した番地処理を行ってもよい。
これは1階層構造の最下位レベルの単語を処理した後に
、その後ろに続(文字列に対しても行うものであり、同
文字列を番地部とみなして。
番地部に固有の文字列「パンチ(番地)」、「ハン(番
)」、「ボウ(号)」なとの変換(補正)を行う、更に
その際、その1文字前の文字については字種を数字と仮
定して候補文字中から数字を昇格させる。1文字前だけ
でなく固有文字列で挟まれた部分に対して数字化するこ
ともできる。
また、同じく階層構造を利用した都道府県名の省略チエ
ツクを行ってもよい、全国の市、郡名ばかなり唯−性が
保たれている。市・郡名の総数はおよそ1 、200個
程程度あり、そのうち同名(ただし、カナ書きした場合
に)の市・郡名を持つものがおよそ40個程度であるか
ら、市・郡名から書き出してもだいたい都道府県が推定
できる。従って、前述した知識処理の最初での都道府県
単語との照合において、候補単語が挙がらなかった場合
及び候補単語が挙がったがあまり確からしくなさそうな
場合(獲得点数が一定値以上になってしまった場合)に
は、都道府県単語を照合した同し文字列に対して市・郡
名の照合を行う、これにより都道府県が省略された場合
に対処できる。
〔発明の効果〕
以上説明したように9本発明によれば、カナ住所知識処
理において、住所辞書を階層構造とすると共に、この階
層毎に照合を行って所定の一致条件を満たす場合に候補
とすることにより、類似する複数の候補を得ることがで
きるので、知識処理の結果を十分に活用でき、オペレー
タの負担を少なくすると共に、認識率を向上することが
できる。
【図面の簡単な説明】
第1図は本発明の原理構成図。 第2図は実施例構成図。 第3図は実施例構成図。 第4図は階層体系を示す図。 第5図は住所辞書の一例を示す図。 第6図は単語照合処理を示す図。 第7図は優先順位処理を示す図。 第8図は省略判定説明図。 第9図は変換キー処理を示す図。 第10図は単語−覧表示を示す図。 第11図は区切り線表示を示す図。 1は処理装置、4は階層構造処理部、6は帳票。 61は帳票6上のカナ住所フィールド、7は読取部、1
1は住所辞書である。〜 特許出願人 株式会社 ピーエ フ ニー代理−人弁理
士森 1)寛(外2名) 階層体系を示す図 第4図 単語照合処理を示す図 第6図 住所辞書の一例を示す図 第5図 9A  冒 〜 !l! @ II d v”’ f%I (Q 嘘LO
(Oト05   ’−1変換キー処理を示す図 第9図 (B) 単語−覧表示を示す図 第108 区切り線表示を示す図

Claims (2)

    【特許請求の範囲】
  1. (1)帳票(6)に記入されたカナ住所文字列を読取る
    読取部(7)と、、住所文字列を格納する住所辞書(1
    1)とを備え、前記読取部(7)が読取ったカナ住所文
    字列について前記住所辞書(11)を用いた知識処理を
    行って住所データを出力するOCR処理システムにおい
    て、 前記読取ったカナ住所文字列と前記住所辞書(11)の
    住所文字列とを照合する階層構造処理部(4)を設け、 前記住所辞書(11)を階層構造を有するように構成し
    、 前記階層構造処理部(4)が、前記照合すべきカナ住所
    文字列と住所辞書とを、その階層毎に照合すると共に、
    当該照合における一致の割合が所定の一致条件を満たす
    場合に、これを前記住所データの候補とする ことを特徴とするカナ住所知識処理方式。
  2. (2)前記住所データの候補の各々を、カタカナからな
    る読みと、漢字からなる単語とを一対として出力する ことを特徴とする請求項(1)記載のカナ住所知識処理
    方式。
JP2336399A 1990-11-30 1990-11-30 カナ住所知識処理装置 Expired - Lifetime JP2887171B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2336399A JP2887171B2 (ja) 1990-11-30 1990-11-30 カナ住所知識処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2336399A JP2887171B2 (ja) 1990-11-30 1990-11-30 カナ住所知識処理装置

Publications (2)

Publication Number Publication Date
JPH04205457A true JPH04205457A (ja) 1992-07-27
JP2887171B2 JP2887171B2 (ja) 1999-04-26

Family

ID=18298735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2336399A Expired - Lifetime JP2887171B2 (ja) 1990-11-30 1990-11-30 カナ住所知識処理装置

Country Status (1)

Country Link
JP (1) JP2887171B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115707A (en) * 1997-02-21 2000-09-05 Nec Corporation Address reading apparatus and recording medium on which a program for an address reading apparatus is recorded
JP2010237909A (ja) * 2009-03-31 2010-10-21 Fujitsu Frontech Ltd 知識補正プログラム、知識補正装置および知識補正方法
JP2019175317A (ja) * 2018-03-29 2019-10-10 三井住友海上火災保険株式会社 文字認識装置、文字認識方法およびプログラム
JP2020187622A (ja) * 2019-05-16 2020-11-19 株式会社Pfu 情報処理装置、制御方法及び制御プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734239A (en) * 1980-08-06 1982-02-24 Toshiba Corp Kanji (chinese character) term input device
JPS60245075A (ja) * 1984-05-18 1985-12-04 Sanyo Electric Co Ltd 自動ルビ表示方式
JPS6240574A (ja) * 1985-08-16 1987-02-21 Omron Tateisi Electronics Co ワ−ドプロセツサ

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734239A (en) * 1980-08-06 1982-02-24 Toshiba Corp Kanji (chinese character) term input device
JPS60245075A (ja) * 1984-05-18 1985-12-04 Sanyo Electric Co Ltd 自動ルビ表示方式
JPS6240574A (ja) * 1985-08-16 1987-02-21 Omron Tateisi Electronics Co ワ−ドプロセツサ

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115707A (en) * 1997-02-21 2000-09-05 Nec Corporation Address reading apparatus and recording medium on which a program for an address reading apparatus is recorded
JP2010237909A (ja) * 2009-03-31 2010-10-21 Fujitsu Frontech Ltd 知識補正プログラム、知識補正装置および知識補正方法
JP2019175317A (ja) * 2018-03-29 2019-10-10 三井住友海上火災保険株式会社 文字認識装置、文字認識方法およびプログラム
JP2020187622A (ja) * 2019-05-16 2020-11-19 株式会社Pfu 情報処理装置、制御方法及び制御プログラム

Also Published As

Publication number Publication date
JP2887171B2 (ja) 1999-04-26

Similar Documents

Publication Publication Date Title
US5992737A (en) Information search method and apparatus, and medium for storing information searching program
US5109352A (en) System for encoding a collection of ideographic characters
US4951202A (en) Oriental language processing system
JPS62221793A (ja) キャラクタ処理方法及びキャラクタ識別方法
JPH07160389A (ja) データ入力ワークステーション
JPS5816488B2 (ja) 日本語文入力方式
JPH04205457A (ja) カナ住所知識処理方式
WO2000036530A1 (fr) Methode de recherche et dispositif correspondant, support enregistre
JPH07141472A (ja) 文字列認識装置
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム
JPS61190653A (ja) 文書処理装置
JPH0498358A (ja) カナ住所知識処理方式
JPH11120294A (ja) 文字認識装置および媒体
JP2634926B2 (ja) かな漢字変換装置
JP3888701B2 (ja) 文字変換装置
TW541472B (en) Word/vocabulary searching method for electronic dictionary
Bandyopadhyay Detection and correction of phonetic errors with a new orthographic dictionary
Huntsman Computers and medieval english lexicography
JPS62164157A (ja) 漢字のコ−ド化およびそのキ−ボ−ドによる給送の実施方式
JPH0565912B2 (ja)
JPH01293463A (ja) 文字処理装置
JPH06223054A (ja) 手書き入力機能付き文字処理装置
JPH02136959A (ja) 日本文訂正候補抽出装置
Belaïd Future trends in retrospective document conversion

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080219

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110219

Year of fee payment: 12

EXPY Cancellation because of completion of term