JP4069093B2 - 読替パターン生成装置、方法及びプログラム - Google Patents

読替パターン生成装置、方法及びプログラム Download PDF

Info

Publication number
JP4069093B2
JP4069093B2 JP2004135724A JP2004135724A JP4069093B2 JP 4069093 B2 JP4069093 B2 JP 4069093B2 JP 2004135724 A JP2004135724 A JP 2004135724A JP 2004135724 A JP2004135724 A JP 2004135724A JP 4069093 B2 JP4069093 B2 JP 4069093B2
Authority
JP
Japan
Prior art keywords
character string
address
kana
character
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004135724A
Other languages
English (en)
Other versions
JP2005316845A (ja
Inventor
孝 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2004135724A priority Critical patent/JP4069093B2/ja
Publication of JP2005316845A publication Critical patent/JP2005316845A/ja
Application granted granted Critical
Publication of JP4069093B2 publication Critical patent/JP4069093B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、読替パターンの住所文字列を利用して、省略や表記のゆれのある住所文字列の表記を統一する処理における、今まで自動生成できなかった読替パターンを生成するための読替パターン生成装置、方法及びプログラム等に関する。
近年、入力された住所文字列に省略や表記のゆれがあった場合に、統一された正しい住所文字列に変換する住所変換技術が知られている。この技術を用いて住所変換を行う処理では、入力された住所文字列について、辞書に登録されている住所文字列との突き合わせを行い、辞書に登録されている住所文字列のうち最も近いと判断されるものを正しい住所文字列とみなして変換する。
このような住所変換処理では、文字の一致数などに基づいて最も近い住所文字列を判断するため、誤字・脱字が存在する場合には変換の精度が低下する。このため、一般に誤記の多い「ヶ」、「が」、「ガ」等の文字を含む住所文字列について誤字・脱字のパターンを登録した「読替辞書」を用意しておき、入力された住所文字列が読替辞書に登録されれている読替パターンと一致する場合、それに関連付けられている文字列に変換されるようにしている。
例えば、特殊な文字等を登録しておき、入力された住所文字列に特殊な文字等が含まれている場合には、入力された住所文字列中の該当文字を登録されている他の文字に置換することにより変形住所単語を生成するシステムがある(特許文献1参照)。
特開平11−184864号公報(第3頁、第1図)
現在、日本についての住所文字列は約40万件程度あり、上記のような読替辞書のデータ登録を手作業で行うのは現実的に不可能である。このため、例えば「ヶ」、「が」、「ガ」等の一般的に誤字・脱字の多い特定文字について、「ヶ」→「ガ」、「ヶ」→「」(空文字)等の読替変換をコンピュータで自動的に行うことにより、例えば「百合ヶ丘」については「百合ガ丘」「百合丘」等の読替パターンを自動生成して読替辞書に登録していた。
上記のような読替辞書による変換処理を行う場合、予め読替辞書を生成する必要がある。この読替辞書の生成では、コンピュータが、一般的に誤記の多い特定文字(例えば「ヶ」、「が」、「ガ」等)を含む正しい住所文字列について、それに含まれる誤記の多い文字を他の文字に置換することにより、誤った住所文字列パターンを生成していた。例えば、「○○県○○市○○区百合ヶ丘・・・・」という正しい住所文字列については、「○○県○○市○○区百合が丘・・・・」、「○○県○○市○○区百合ガ丘・・・・」等のような誤字・脱字のパターンを生成することができる。
しかし、上述の手法では、例えば「百合丘」のように、誤字・脱字の多い特定文字を含まない文字列については、特定文字を挿入する位置を判断することができないため、誤字・脱字パターンの文字列を自動生成することはできない。このため、結果的に住所変換処理の精度の向上には限界が生じていた。
本発明は、上記実状に鑑みてなされたものであり、省略や表記のゆれのある住所文字列の表記を統一する処理の精度を向上させることができる読替パターン生成装置等を提供することを目的とする。
また、本発明は、読替パターンの住所文字列を利用して、省略や表記のゆれのある住所文字列の表記を統一する処理における、今まで自動生成できなかった読替パターンを生成することができる読替パターン生成装置等を提供することを他の目的とする。
上記目的を達成するため、この発明の第1の観点に係る読替パターン生成装置は、
各住所について、住所が漢字で表記された住所漢字文字列のデータと、仮名で表記された住所仮名文字列のデータと、を含む住所データが登録されている住所マスタデータベースと、
漢字の読み仮名のデータが登録されている読み仮名データベースと、
一の住所データを前記住所マスタデータベースから読み出す読出手段と、
前記読み出した住所データの住所漢字文字列を構成する漢字文字列の読み仮名のデータを、前記読み仮名データベースから取得する取得手段と、
前記取得手段により取得された漢字文字列の読み仮名と、前記読み出した住所データの住所仮名文字列と、をマッチングし、マッチング結果に基づいて、当該漢字文字列の読み仮名を確定する確定手段と、
前記読み仮名が確定された漢字文字列について、前記読み出した住所データの住所仮名文字列に、前記確定された読み仮名に含まれない仮名文字が有るかを判定する手段と、
前記確定された読み仮名に含まれない仮名文字が有る場合、当該仮名文字を前記漢字文字列に挿入した文字列を生成する生成手段と、
前記生成された文字列を含む住所漢字文字列を生成し、当該生成された住所漢字文字列のデータを、前記読み出した住所データと関連付けて読替辞書データベースに記憶する登録手段と、
を備えることを特徴とする。
前記取得手段は、前記住所漢字文字列を構成する漢字文字列における文字又は文字列の読み仮名を取得する手段を備えてもよく、
前記確定手段は、
前記取得手段により取得された文字又は文字列の読み仮名を、前記住所仮名文字列を構成する仮名文字列とマッチングする手段と、
前記マッチングの結果、前記取得された文字又は文字列の読み仮名が、前記住所仮名文字列を構成する仮名文字列と合致する場合には、当該文字又は文字列の読み仮名を確定する手段と、
前記マッチングの結果、前記取得された文字又は文字列の読み仮名が、前記住所仮名文字列を構成する仮名文字列と合致しない場合には、前記漢字文字列から、当該文字又は文字列の次の文字を抽出して当該文字又は文字列に連結し、連結後の文字列について前記取得手段を介して読み仮名を取得する手段と、
を備えてもよい。
特定文字のデータと、当該特定文字から変換される変換文字のデータと、が関連付けて登録されている変換パターン記憶手段をさらに備えてもよく、
前記登録手段は、
前記生成され住所漢字文字列と前記読み出した住所データを所定のファイルに記憶する手段と、
前記所定のファイルに記憶された前記住所漢字文字列と前記住所データの住所漢字文字列とについて、前記変換パターン記憶手段に登録されている前記特定文字を検出する手段と、
前記検出手段により前記住所漢字文字列又は前記住所データの住所漢字文字列に特定文字が検出された場合、当該前記住所漢字文字列又は前記住所データの住所漢字文字列について、当該特定文字を前記変換パターン記憶手段において当該特定文字に関連付けられている変換文字に置換した文字列を生成し、当該生成した文字列のデータを、当該住所データに関連付けて前記所定のファイルに記憶する手段と、
前記所定のファイルに記憶された住所データ及び当該住所データに関連付けられたデータを前記読替辞書データベースに記憶する手段と、をさらに備えてもよい。
また、この発明の第2の観点に係る読替パターン生成方法は、
コンピュータを用いて、住所漢字文字列データの読替パターンを生成する読替パターン生成方法であって、
前記コンピュータが、
各住所について、住所が漢字で表記された住所漢字文字列のデータと、仮名で表記された住所仮名文字列のデータと、を含む住所データが登録されている住所マスタデータベースから、一の住所データを読み出す読出ステップと、
前記読み出した住所データの住所漢字文字列を構成する漢字文字列の読み仮名のデータを、漢字の読み仮名のデータが登録されている読み仮名データベースから取得する取得ステップと、
前記取得ステップにより取得された漢字文字列の読み仮名と、前記読み出した住所データの住所仮名文字列と、をマッチングし、マッチング結果に基づいて、当該漢字文字列の読み仮名を確定する確定ステップと、
前記読み仮名が確定された漢字文字列について、前記読み出した住所データの住所仮名文字列に、前記確定された読み仮名に含まれない仮名文字が有るかを判定するステップと、
前記確定された読み仮名に含まれない仮名文字が有る場合、当該仮名文字を前記漢字文字列に挿入した文字列を生成する生成ステップと、
前記生成された文字列を含む住所漢字文字列を生成し、当該生成された住所漢字文字列のデータを、前記読み出した住所データと関連付けて読替辞書データベースに記憶する登録ステップと、
実行することを特徴とする。
前記取得ステップは、前記住所漢字文字列を構成する漢字文字列における文字又は文字列の読み仮名を取得するステップを備えてもよく、
前記コンピュータが実行する前記確定ステップは、
前記取得ステップにより取得された文字又は文字列の読み仮名を、前記住所仮名文字列を構成する仮名文字列とマッチングするステップと、
前記マッチングの結果、前記取得された文字又は文字列の読み仮名が、前記住所仮名文字列を構成する仮名文字列と合致する場合には、当該文字又は文字列の読み仮名を確定するステップと、
前記マッチングの結果、前記取得された文字又は文字列の読み仮名が、前記住所仮名文字列を構成する仮名文字列と合致しない場合には、前記漢字文字列から、当該文字又は文字列の次の文字を抽出して当該文字又は文字列に連結し、連結後の文字列について前記取得手段を介して読み仮名を取得するステップと、
を備えてもよい。
前記コンピュータが実行する前記登録ステップは、
前記生成され住所漢字文字列と前記読み出した住所データを所定のファイルに記憶するステップと、
前記所定のファイルに記憶された前記住所漢字文字列と前記住所データの住所漢字文字列とについて、特定文字のデータと、当該特定文字から変換される変換文字のデータと、が関連付けて登録されている変換パターンファイルに登録されている前記特定文字を検出するステップと、
前記検出ステップにより前記住所漢字文字列又は前記住所データの住所漢字文字列に特定文字が検出された場合、当該前記住所漢字文字列又は前記住所データの住所漢字文字列について、当該特定文字を前記変換パターンファイルにおいて当該特定文字に関連付けられている変換文字に置換した文字列を生成し、当該生成した文字列のデータを、当該住所データに関連付けて前記所定のファイルに記憶するステップと、
前記所定のファイルに記憶された住所データ及び当該住所データに関連付けられたデータを前記読替辞書データベースに記憶するステップと、をさらに備えてもよい。
また、この発明の第3の観点に係るプログラムは、
コンピュータに、
各住所について、住所が漢字で表記された住所漢字文字列のデータと、仮名で表記された住所仮名文字列のデータと、を含む住所データが登録されている住所マスタデータベースから、一の住所データを読み出す読出ステップ、
前記読み出した住所データの住所漢字文字列を構成する漢字文字列の読み仮名のデータを、漢字の読み仮名のデータが登録されている読み仮名データベースから取得する取得ステップ、
前記取得ステップにより取得された漢字文字列の読み仮名と、前記読み出した住所データの住所仮名文字列と、をマッチングし、マッチング結果に基づいて、当該漢字文字列の読み仮名を確定する確定ステップ、
前記読み仮名が確定された漢字文字列について、前記読み出した住所データの住所仮名文字列に、前記確定された読み仮名に含まれない仮名文字が有るかを判定するステップ、
前記確定された読み仮名に含まれない仮名文字が有る場合、当該仮名文字を前記漢字文字列に挿入した文字列を生成する生成ステップ、
前記生成された文字列を含む住所漢字文字列を生成し、当該生成された住所漢字文字列のデータを、前記読み出した住所データと関連付けて読替辞書データベースに記憶する登録ステップ、
を実行させる。
本発明によれば、正しい住所文字列について誤字・脱字による読替パターンが登録される読替辞書の生成において、誤字・脱字の多い特定文字が含まれない文字列についても読替パターンを自動生成することができる。
以下、本発明の実施形態に係る読替パターン生成装置について図面を参照して説明する。
本発明に係る実施形態の読替パターン生成装置1の構成例を図1に示す。読替パターン生成装置1は、例えば、制御部11と、記憶部12と、入力部13と、表示部14と、通信制御部15と、を備えるコンピュータから構成される。
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等から構成され、記憶部12に予め記憶された動作プログラム等を読み出して、住所マスタDB(データベース)121に登録されている各住所データについて、誤字・脱字の読替パターンの住所データ(読替住所データ)を生成して読替辞書DB125に登録する読替パターン生成処理等を実行する。
記憶部12は、例えば、ハードディスク装置等から構成され、制御部11が実行するための動作プログラム及び処理に必要な各種データ等が記憶される。
また、記憶部12は、住所マスタDB121、読み仮名DB122、変換ファイル123、中間ファイル124、読替辞書DB125等を備える。
住所マスタDB121には、全国等の領域の地名の漢字及びカナ等を示す住所データが記憶されている。住所データは、例えば、各住所(地名)に一意に設定された住所コード、郵便番号コード、住所を漢字等で表記した住所漢字データ、住所を仮名で表記した住所仮名データ等を備える。住所漢字データは、「都道府県」、「市区郡町村名」、「大字・通称名」、「字名・丁目」等の項目からなるデータ構造を有しており、各項目にはそれぞれ対応する漢字文字列が格納されている。また、住所仮名データは、例えば、「都道府県」、「市区郡町村名」、「大字・通称名」、「字名・丁目」等の項目からなるデータ構造を有しており、各項目にはそれぞれ対応する仮名文字列が格納されている。住所データは、例えば国土地理協会の「町字ファイル」を用いても良い。住所データの一例を、図2に示す。
読み仮名DB122には、1又は複数の漢字のデータと、その読み仮名のデータと、が対応付けて記憶されている。
変換ファイル123には、誤字・脱字の多い特定文字について、特定文字のデータと、変換後の文字(変換文字)のデータと、が関連付けて記憶されている。変換ファイル123に登録されるデータの一例を図3に示す。図示されるように、例えば「が」の文字については、「ヶ」、「ガ」、「」(空文字)等の変換文字が登録されている。
中間ファイル124は、後述する読替パターン生成処理でワーク領域として使用されるファイルである。
読替辞書DB125には、住所マスタDB121に登録されている各住所データと、後述する辞書作成処理により生成される読替住所データと、が関連付けてが登録される。読替辞書DB125に登録されるデータの一例を図4に示す。
入力部13は、例えば、キーボード、ポインティング・デバイス等の入力装置から構成され、入力データを制御部11に送信する。
表示部14は、例えば、ディスプレイ装置等の表示装置から構成され、制御部11からの指示に従って各種データ等を出力する。
通信制御部15は、制御部11からの指示に従って、例えばインターネット、LAN、WAN等の各種ネットワークを介した他の装置との通信を制御する。
次に、本発明の実施形態に係る読替パターン生成装置において実行される読替パターン生成処理を図5のフローチャートを参照して説明する。
まず、制御部11は、住所マスタDB121から一の住所データを読み込む(ステップS1)。
次に、読み込んだ住所データについて条件に応じて読替パターンを生成する文字追加読替パターン生成処理を実行する(ステップS2)。
ここで、文字追加読替パターン生成処理の詳細について図6のフローチャートを参照して説明する。
制御部11は、住所マスタDB121から読み込んだ住所データから、その住所漢字データと住所仮名データを取り出す(ステップS11)。
次に、制御部11は、住所漢字データから1項目分の漢字文字列データを処理対象の文字列データとして取り出す(ステップS12)。
次に、制御部11は、その処理対象の漢字文字列データから1つの文字のデータを処理対象の文字のデータとして取り出す(ステップS13)。
次に、制御部11は、処理対象の文字又は文字列(以下、文字等)について、その読み仮名を読み仮名DB122から読み出す(ステップS14)。なお、文字に複数の読み方がある場合には、複数の読み仮名を取得する。
次に、制御部11は、ステップS14で取得した処理対象文字等の読み仮名のデータと、ステップS11で取り出した住所仮名データにおける処理対象の項目の文字列と、をマッチングし(ステップS15)、マッチングの結果に基づいて、ステップS14で取得した処理対象文字の読み仮名が正しいかを判定する(ステップS16)。ここでは、例えば、住所仮名データにおける処理対象の項目の仮名文字列に、ステップS14で取得した読み仮名が有るか(即ち、処理対象文字等の読み仮名が、住所仮名データにおける処理対象の項目の文字列と、部分的に一致するか)を判定し、有る場合には、取得した読み仮名を正しいものとみなし、無い場合には、正しくないものとみなす。なお、複数の読み方の有る文字等について複数の読み仮名を取得した場合には、各読み仮名についてマッチングを行う。
ステップS16において、取得した処理対象の文字等の読み仮名が正しいと判別された場合(YES)、処理対象の文字等の読み仮名を確定し、その読み仮名のデータを処理対象の文字等のデータと関連付けて、記憶部12に一時的に記憶する(ステップS17)。
また、ステップS16において、取得した処理対象の文字等の読み仮名が正しくないと判別された場合(NO)、ステップS12で取り出した処理対象の漢字文字列から、次に処理されるべき文字を取り出して処理対象の文字等に結合し、結合された文字等を新たな処理対象として、その読み仮名を読み仮名DB122から読み出す(ステップS18)。そして、ステップS14に戻って、新たに取得した読み仮名について、住所仮名データとのマッチングを行い、マッチング結果に応じて、上述の処理を行う。
例えば、処理対象の文字列が「百合丘」の場合について図6を参照して説明する。制御部11は、(1)処理対象文字列「百合丘」から処理対象の文字「百」を取り出し、この「百」についての読み仮名「ひゃく」等を読み仮名DB122を参照して取得する。そして、取得した読み仮名「ひゃく」について、住所仮名データの対応項目の文字列「ゆりがおか」とマッチングする。この場合、合致しないので、制御部11は、(2)処理対象文字列「百合丘」から「百」の次の文字「合」を取り出し、「百」に連結して処理対象文字列「百合」を生成する。そして、「百合」についての読み仮名「ゆり」を読み仮名DB122を参照して取得する。そして、取得した読み仮名「ゆり」について、住所仮名データの対応項目の文字列「ゆりがおか」とマッチングする。この場合、部分的に合致するため、文字列「百合」の読み仮名を「ゆり」に確定して記憶部12に記憶する。次に、制御部11は、(3)文字列「百合丘」から次の文字「丘」を取り出し、この「丘」についての読み仮名「がく」、「おか」等を読み仮名DB122を参照して取得する。そして、取得した読み仮名「がく」、「おか」等について、住所仮名データの対応項目の文字列「ゆりがおか」とマッチングする。この場合、取得した読み仮名のうち、「おか」が部分的に合致するため、文字「丘」の読み仮名を「おか」に確定して記憶部12に記憶する。
次に、制御部11は、ステップS17で処理対象の文字等の読み仮名を確定した後、ステップS12で取り出した処理対象文字列を構成する全文字について上述の処理が完了したかを判別する(ステップS19)。
ステップS19において、全文字について処理が完了していないと判別された場合(NO)、ステップS13に戻って、処理対象文字列データから次の処理対象文字を取り出し、取り出した処理対象文字について上述の処理を行う。
また、ステップS19において、全文字について処理が完了したと判別された場合(YES)、処理対象文字列について、確定された読み仮名と、住所データの住所仮名データが示す仮名と、を比較して、未使用文字の有無を判別する(ステップS20)。ここでは、例えば、住所仮名データにおける処理対象の項目の仮名文字列に、確定された読み仮名の文字のいずれでもない文字が有るかを判別し、有る場合には、未使用文字が有ると判別する。
ステップS20において、未使用文字があると判別された場合(YES)、制御部11は、未使用文字を処理対象文字列(漢字)に挿入した文字列を生成し、処理済文字列として記憶部12に記憶する(ステップS21)。ここでは、例えば、既存の日本語かな漢字変換技術を用いて、住所仮名データにおける処理対象の項目の仮名文字列を入力し、漢字変換された漢字文字列の候補の1つ(処理対象文字列(漢字)と同一の文字列以外のもの)を取得して処理済文字列とする。
例えば、処理対象の文字列が「百合丘」の場合、図7に示すように、制御部11は、確定された読み仮名が「ゆり」、「おか」であるのに対して、住所データの住所仮名データの仮名文字列は「ゆりがおか」であるため、これらを比較し、未使用文字「が」が存在すると判別する。この場合、仮名文字列「ゆりがおか」について漢字変換を行い、出力された変換候補の1つ、例えば「百合が丘」を取得する。
また、ステップS20において、未使用文字列がないと判別された場合(NO)、処理対象文字列(漢字)を、そのまま処理済文字列とする(ステップS22)。
次に、制御部11は、処理対象住所データの住所漢字データにおける全文字列について処理が完了したかを判別する(ステップS23)。全文字列について処理が完了していない場合(ステップS23:NO)、ステップS12に戻って、処理対象住所データの住所漢字データから次の処理対象文字列を取り出し、上述の処理を実行する。また、全文字列について処理が完了した場合(ステップS23:YES)、制御部11は、処理対象住所データについての全処理済文字列を連結して読替住所データを生成し、生成した読替住所データを、処理対象住所データに関連付けて記憶部12の中間ファイル124に記憶し(ステップS24)、メインフローに戻る。
次に、図5のフローチャートに戻って、制御部11は、ステップS2で中間ファイル124に格納した処理対象住所データにおける住所漢字データと読替住所データについて、他の読替パターンを生成し、中間ファイル124に追加する処理を行う(ステップS3)。具体的には、ステップS2で中間ファイル124に格納した処理対象住所データにおける住所漢字データと読替住所データについて、変換ファイル123に登録されている特定文字を検索し、特定文字を検出した場合には、その検出した特定文字を、変換ファイル123においてその特定文字に関連付けられている各変換文字に変換(置換)した文字列データを読替住所データとしてさらに生成し、処理対象住所データに関連付けて中間ファイル124に記憶する。
次に、制御部11は、全住所データについて処理が完了したかを判別する(ステップS4)。具体的には、例えば、住所マスタDB121に次に処理すべき住所データ(未処理の住所データ)が存在するかを判別する。そして、未処理の住所データが存在する場合(ステップS4:NO)、ステップS1に戻って、次の処理対象の住所データを取り出し、上述の処理を実行する。
また、住所マスタDB121に登録されている全住所データについて処理が完了した場合(ステップS4:YES)、制御部11は、中間ファイル124に登録されている住所データ及びこれに関連付けられている読替住所データを読み出して読替辞書DB125に記憶する(ステップS5)。なお、中間ファイル124から読み出した住所データ及びこれに関連付けられている読替住所データを、予め設定されているデータ形式(バイナリ形式等)に変換した後、読替辞書DB125に格納してもよい。
上述の読替パターン生成処理(図5)において処理されるデータの流れを図8に示す。図示されるように、住所マスタDB121から読み込まれた住所データに、読み仮名DB122を用いた文字追加読替パターン生成処理(図6)により生成された読替住所データが関連付けられて中間ファイル124に格納される(L1)。そして、その中間ファイル124に登録された住所データ及びこれに関連付けられている読替住所データについて、変換ファイル123を参照して生成された読替住所データがさらに中間ファイル124に追加登録される(L2)。そして、最終的に、中間ファイル124に登録された住所データ及びこれに関連付けられた読替住所データが読替辞書DB125に格納される(L3)。
以上説明したように、本発明によれば、省略や表記のゆれのある住所文字列の表記を統一する処理における、今まで自動生成できなかった読替パターンを生成することができる。これにより、読替辞書の精度を高め、ひいては住所変換処理の精度を向上させることができる。また、例えば、与信業務システムなどのように、入力された住所を解析するシステムであって、迅速な処理が求められるシステムにおいて、本発明により生成される読替パターンが登録された辞書を用いることにより、処理の高速化を実現することができる。
なお、本発明は種々の変形及び応用が可能である。
例えば、上述の文字追加読替パターン生成処理(図6参照)において未使用文字を挿入した文字列を生成する処理(ステップS21)において、他の方法により未使用文字を挿入した文字列を生成してもよい。例えば、住所仮名データの該当文字列データを参照し、未使用文字より前にある仮名文字又は文字列と後ろにある仮名文字又は文字列を特定し、処理対象の文字列(漢字)の各文字等にそれぞれ関連付けられている確定された読み仮名のデータを参照して、未使用文字より前にある仮名文字等に対応する漢字文字等と、未使用文字より後ろにある仮名文字等に対応する漢字文字等と、を特定し、それらの漢字文字等の間に未使用文字を挿入することにより、未使用文字が挿入された文字列を生成してもよい。
また、上記実施形態では、文字追加読替パターン生成処理において、住所漢字データを構成する項目単位で、読み仮名のマッチング等を行っているが、マッチングを行う文字列の単位は任意である。例えば、処理対象の文字列データを住所漢字データの全文字列としてもよい。
また、住所仮名データで使用する仮名はひらがなでもよくカタカナでもよい。
また、上記実施形態では、読替パターン生成装置1が、各データベース(住所マスタDB121、読み仮名DB122、読替辞書DB125)を備える構成としているがこれに限定されず、例えば、ネットワークに接続された他のコンピュータが備えてもよい。この場合、読替パターン生成装置1は、ネットワークを介してアクセス対象のDBを備えるコンピュータに接続し、DBからのデータの読出やデータの更新等を実行する。
また、上記実施形態における文字追加読替パターン生成処理(図6参照)では、一の住所データの住所漢字データから処理対象の文字列を取り出し、その取り出した文字列毎に、未使用文字の有無を判別し、未使用文字が有る場合にはそれを挿入するようにしているが、例えば、制御部11が、一の住所データの住所漢字文字列を構成する各文字列について未使用文字の判別を行った後、判別結果を記憶部12に記憶しておき、その判別結果に基づいて、一の住所データの住所漢字文字列を構成する全文字列についてまとめて未使用文字の挿入を行うようにしてもよい。この場合、例えば、制御部11は、未使用文字が有ると判別された文字列についてフラグをオンに設定し、全文字列について未使用文字の判別が完了した後、記憶部12に記憶された各文字列のフラグの設定状態を参照して、フラグがオンに設定されている文字列について、未使用文字を特定して挿入する処理を行って、読替住所データを生成してもよい。
なお、この発明のシステムは、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、上述の動作を実行するためのプログラムをコンピュータ読み取り可能な記録媒体(FD、CD−ROM、DVD等)に格納して配布し、該プログラムをコンピュータにインストールすることにより、上述の処理を実行する読替パターン生成装置1等を構成してもよい。また、インターネット等のネットワーク上のサーバ装置が有するディスク装置に格納しておき、例えばコンピュータにダウンロード等するようにしてもよい。
また、上述の機能を、OSが分担又はOSとアプリケーションの共同により実現する場合等には、OS以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等してもよい。
本発明の実施形態の読替パターン生成装置の構成を示す図である。 住所データの一例を示す図である。 変換ファイルに登録されるデータの一例を示す図である。 読替辞書DBに登録されるデータの一例を示す図である。 読替パターン生成処理を説明するためのフローチャートである。 文字追加読替パターン生成処理を説明するためのフローチャートである。 文字追加読替パターン生成処理を具体的に説明するための図である。 読替パターン生成処理において処理されるデータの流れを説明するための図である。
符号の説明
1 読替パターン生成装置
11 制御部
12 記憶部
121 住所マスタDB
122 読み仮名DB
123 変換ファイル
124 中間ファイル
125 読替辞書DB
13 入力部
14 表示部
15 通信制御部

Claims (7)

  1. 各住所について、住所が漢字で表記された住所漢字文字列のデータと、仮名で表記された住所仮名文字列のデータと、を含む住所データが登録されている住所マスタデータベースと、
    漢字の読み仮名のデータが登録されている読み仮名データベースと、
    一の住所データを前記住所マスタデータベースから読み出す読出手段と、
    前記読み出した住所データの住所漢字文字列を構成する漢字文字列の読み仮名のデータを、前記読み仮名データベースから取得する取得手段と、
    前記取得手段により取得された漢字文字列の読み仮名と、前記読み出した住所データの住所仮名文字列と、をマッチングし、マッチング結果に基づいて、当該漢字文字列の読み仮名を確定する確定手段と、
    前記読み仮名が確定された漢字文字列について、前記読み出した住所データの住所仮名文字列に、前記確定された読み仮名に含まれない仮名文字が有るかを判定する手段と、
    前記確定された読み仮名に含まれない仮名文字が有る場合、当該仮名文字を前記漢字文字列に挿入した文字列を生成する生成手段と、
    前記生成された文字列を含む住所漢字文字列を生成し、当該生成された住所漢字文字列のデータを、前記読み出した住所データと関連付けて読替辞書データベースに記憶する登録手段と、
    を備えることを特徴とする読替パターン生成装置。
  2. 前記取得手段は、前記住所漢字文字列を構成する漢字文字列における文字又は文字列の読み仮名を取得する手段を備え、
    前記確定手段は、
    前記取得手段により取得された文字又は文字列の読み仮名を、前記住所仮名文字列を構成する仮名文字列とマッチングする手段と、
    前記マッチングの結果、前記取得された文字又は文字列の読み仮名が、前記住所仮名文字列を構成する仮名文字列と合致する場合には、当該文字又は文字列の読み仮名を確定する手段と、
    前記マッチングの結果、前記取得された文字又は文字列の読み仮名が、前記住所仮名文字列を構成する仮名文字列と合致しない場合には、前記漢字文字列から、当該文字又は文字列の次の文字を抽出して当該文字又は文字列に連結し、連結後の文字列について前記取得手段を介して読み仮名を取得する手段と、
    を備えることを特徴とする請求項1に記載の読替パターン生成装置。
  3. 特定文字のデータと、当該特定文字から変換される変換文字のデータと、が関連付けて登録されている変換パターン記憶手段をさらに備え、
    前記登録手段は、
    前記生成され住所漢字文字列と前記読み出した住所データを所定のファイルに記憶する手段と、
    前記所定のファイルに記憶された前記住所漢字文字列と前記住所データの住所漢字文字列とについて、前記変換パターン記憶手段に登録されている前記特定文字を検出する手段と、
    前記検出手段により前記住所漢字文字列又は前記住所データの住所漢字文字列に特定文字が検出された場合、当該前記住所漢字文字列又は前記住所データの住所漢字文字列について、当該特定文字を前記変換パターン記憶手段において当該特定文字に関連付けられている変換文字に置換した文字列を生成し、当該生成した文字列のデータを、当該住所データに関連付けて前記所定のファイルに記憶する手段と、
    前記所定のファイルに記憶された住所データ及び当該住所データに関連付けられたデータを前記読替辞書データベースに記憶する手段と、をさらに備える、
    ことを特徴とする請求項1又は2に記載の読替パターン生成装置。
  4. コンピュータを用いて、住所漢字文字列データの読替パターンを生成する読替パターン生成方法であって、
    前記コンピュータが、
    各住所について、住所が漢字で表記された住所漢字文字列のデータと、仮名で表記された住所仮名文字列のデータと、を含む住所データが登録されている住所マスタデータベースから、一の住所データを読み出す読出ステップと、
    前記読み出した住所データの住所漢字文字列を構成する漢字文字列の読み仮名のデータを、漢字の読み仮名のデータが登録されている読み仮名データベースから取得する取得ステップと、
    前記取得ステップにより取得された漢字文字列の読み仮名と、前記読み出した住所データの住所仮名文字列と、をマッチングし、マッチング結果に基づいて、当該漢字文字列の読み仮名を確定する確定ステップと、
    前記読み仮名が確定された漢字文字列について、前記読み出した住所データの住所仮名文字列に、前記確定された読み仮名に含まれない仮名文字が有るかを判定するステップと、
    前記確定された読み仮名に含まれない仮名文字が有る場合、当該仮名文字を前記漢字文字列に挿入した文字列を生成する生成ステップと、
    前記生成された文字列を含む住所漢字文字列を生成し、当該生成された住所漢字文字列のデータを、前記読み出した住所データと関連付けて読替辞書データベースに記憶する登録ステップと、
    実行することを特徴とする読替パターン生成方法。
  5. 前記取得ステップは、前記住所漢字文字列を構成する漢字文字列における文字又は文字列の読み仮名を取得するステップを備え、
    前記コンピュータが実行する前記確定ステップは、
    前記取得ステップにより取得された文字又は文字列の読み仮名を、前記住所仮名文字列を構成する仮名文字列とマッチングするステップと、
    前記マッチングの結果、前記取得された文字又は文字列の読み仮名が、前記住所仮名文字列を構成する仮名文字列と合致する場合には、当該文字又は文字列の読み仮名を確定するステップと、
    前記マッチングの結果、前記取得された文字又は文字列の読み仮名が、前記住所仮名文字列を構成する仮名文字列と合致しない場合には、前記漢字文字列から、当該文字又は文字列の次の文字を抽出して当該文字又は文字列に連結し、連結後の文字列について前記取得手段を介して読み仮名を取得するステップと、
    を備えることを特徴とする請求項4に記載の読替パターン生成方法。
  6. 前記コンピュータが実行する前記登録ステップは、
    前記生成され住所漢字文字列と前記読み出した住所データを所定のファイルに記憶するステップと、
    前記所定のファイルに記憶された前記住所漢字文字列と前記住所データの住所漢字文字列とについて、特定文字のデータと、当該特定文字から変換される変換文字のデータと、が関連付けて登録されている変換パターンファイルに登録されている前記特定文字を検出するステップと、
    前記検出ステップにより前記住所漢字文字列又は前記住所データの住所漢字文字列に特定文字が検出された場合、当該前記住所漢字文字列又は前記住所データの住所漢字文字列について、当該特定文字を前記変換パターンファイルにおいて当該特定文字に関連付けられている変換文字に置換した文字列を生成し、当該生成した文字列のデータを、当該住所データに関連付けて前記所定のファイルに記憶するステップと、
    前記所定のファイルに記憶された住所データ及び当該住所データに関連付けられたデータを前記読替辞書データベースに記憶するステップと、をさらに備える、
    ことを特徴とする請求項4又は5に記載の読替パターン生成方法。
  7. コンピュータに、
    各住所について、住所が漢字で表記された住所漢字文字列のデータと、仮名で表記された住所仮名文字列のデータと、を含む住所データが登録されている住所マスタデータベースから、一の住所データを読み出す読出ステップ、
    前記読み出した住所データの住所漢字文字列を構成する漢字文字列の読み仮名のデータを、漢字の読み仮名のデータが登録されている読み仮名データベースから取得する取得ステップ、
    前記取得ステップにより取得された漢字文字列の読み仮名と、前記読み出した住所データの住所仮名文字列と、をマッチングし、マッチング結果に基づいて、当該漢字文字列の読み仮名を確定する確定ステップ、
    前記読み仮名が確定された漢字文字列について、前記読み出した住所データの住所仮名文字列に、前記確定された読み仮名に含まれない仮名文字が有るかを判定するステップ、
    前記確定された読み仮名に含まれない仮名文字が有る場合、当該仮名文字を前記漢字文字列に挿入した文字列を生成する生成ステップ、
    前記生成された文字列を含む住所漢字文字列を生成し、当該生成された住所漢字文字列のデータを、前記読み出した住所データと関連付けて読替辞書データベースに記憶する登録ステップ、
    を実行させるためのプログラム。
JP2004135724A 2004-04-30 2004-04-30 読替パターン生成装置、方法及びプログラム Expired - Lifetime JP4069093B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004135724A JP4069093B2 (ja) 2004-04-30 2004-04-30 読替パターン生成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004135724A JP4069093B2 (ja) 2004-04-30 2004-04-30 読替パターン生成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005316845A JP2005316845A (ja) 2005-11-10
JP4069093B2 true JP4069093B2 (ja) 2008-03-26

Family

ID=35444181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004135724A Expired - Lifetime JP4069093B2 (ja) 2004-04-30 2004-04-30 読替パターン生成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4069093B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011198302A (ja) * 2010-03-23 2011-10-06 Fujitsu Ltd 正規化処理装置、正規化方法、及び、正規化プログラム

Also Published As

Publication number Publication date
JP2005316845A (ja) 2005-11-10

Similar Documents

Publication Publication Date Title
JP5315664B2 (ja) 位置表現検出装置、プログラム、及び、記憶媒体
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
US8073680B2 (en) Language detection service
US8107671B2 (en) Script detection service
CA2630949A1 (en) Method for transliterating and suggesting arabic replacement for a given user input
US9286526B1 (en) Cohort-based learning from user edits
JP2007058380A (ja) 電子文書マスキングシステム
US10896292B1 (en) OCR error correction
CN115223188A (zh) 票据信息处理方法、装置、电子设备及计算机存储介质
JP2007128123A (ja) 影響範囲抽出システム
JP4069093B2 (ja) 読替パターン生成装置、方法及びプログラム
US7503036B2 (en) Testing multi-byte data handling using multi-byte equivalents to single-byte characters in a test string
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
JP2008210229A (ja) 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム
JP2015176541A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP4415768B2 (ja) 住所テーブル生成支援方法及び装置及びプログラム
JP3621614B2 (ja) 住所解析方法、装置、住所解析プログラムを記録した記録媒体
JP2009122886A (ja) 住所解析装置、方法及びそのプログラム
JP2015106216A (ja) 住民住所管理システム及び住民住所管理方法
JP6076285B2 (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP4294386B2 (ja) 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体
JP2006031099A (ja) 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム
JP2007140781A (ja) 名義解析装置、名義解析方法及び名義解析プログラム
JP2776069B2 (ja) 文章検査装置
KR101663521B1 (ko) 띄어쓰기 교정 방법 및 프로그램

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4069093

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140118

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250