JP3812818B2 - データベース生成装置、データベース生成方法及びデータベース生成処理プログラム - Google Patents

データベース生成装置、データベース生成方法及びデータベース生成処理プログラム Download PDF

Info

Publication number
JP3812818B2
JP3812818B2 JP2001371635A JP2001371635A JP3812818B2 JP 3812818 B2 JP3812818 B2 JP 3812818B2 JP 2001371635 A JP2001371635 A JP 2001371635A JP 2001371635 A JP2001371635 A JP 2001371635A JP 3812818 B2 JP3812818 B2 JP 3812818B2
Authority
JP
Japan
Prior art keywords
name
address
evaluation value
data
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001371635A
Other languages
English (en)
Other versions
JP2003173345A (ja
Inventor
成人 岩瀬
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001371635A priority Critical patent/JP3812818B2/ja
Publication of JP2003173345A publication Critical patent/JP2003173345A/ja
Application granted granted Critical
Publication of JP3812818B2 publication Critical patent/JP3812818B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、表記の間違いの修正や、表記の統一、重複データのチェックといったデータベースの品質向上に利用可能なデータベース生成装置及び方法、並びにデータベース生成処理プログラムに関する。
【0002】
【従来の技術】
手持ちの顧客データを用いて顧客データベース等を作成する時、住所や名義に間違いがあったり、表記の形式が統一されていない場合がある。また、チェック漏れで重複して顧客が登録されている場合もある。また、複数のデータベースから一つの統合したデータベースを作成する場合、データベースを作成した組織が違うと住所や名義の表現形式が違い、そのままでは同一データと判定できない場合もある。
【0003】
従来、住所や名義を含むデータの集合に対して、データ間の照合を行い、重複しているデータのうち一つを残すなどして重複データを削除(いわゆる同一データの名寄せ)してデータベースを生成する場合、住所の照合は、データ中の住所項目を比較対象とし、住所項目が文字列ならば文字単位の一致率での判定、住所コード、郵便番号等のコードならばコードの一致桁数での判定を行っている。また、名義表記に関しても名義欄の文字列をそのまま文字単位の一致率で判定を行っている。なお、文字列単位の一致率には、例えば、特開平10−154161号公報に記載のように、文字列間で一致する連続文字列数を調べ、連続文字列数に対する一致文字列数の割合を利用する方法がある。
【0004】
【発明が解決しようとする課題】
住所には都道府県、市区郡町村、町大字、字丁目、番地、号の様にコード化できる部分と建物名の様にコード化できない部分がある。住所を文字列で比較する場合は次のような問題がある。▲1▼丁目・番地・号の表記には「1丁目2番3号」「1−2−3」「1の2の3」「一ノニノ三(縦書きの時)」など種々の表記がある。▲2▼都道府県名や郡名を省略する。「横浜市中区山下町」「埼玉県横瀬町芦ヶ久保」などがその一例である。▲3▼「大字」「字」は頻繁に省略される。例えば、「名古屋市千種区天白町(大字)植田」「新城市(字)鹿原」などである。このため、字丁目までを文字列で比較することは表記の曖昧性のため困難である。
【0005】
また、番地・号までを含む住所コードや郵便番号、カスタマーバーコードなどで住所を比較する方法がある。しかし、コード化できない建物名は無視して比較するので、建物名を含む住所と建物名を省略した住所の比較、数字を含む建物名、階と部屋番号を含む住所では正確な比較は難しい。例えば、「新川町3丁目新川ビル203」と「新川町3−5−1新川ビル」の様に建物名は正確であるが、番地・号を省略した場合や、「新川3−5新川ビル3」と「新川3−5−3茅場ビル」の様にビル名を無視し、数字だけを取り出してコード化すると誤照合する場合もある。
【0006】
また、名義表記を文字単位で照合する方法では、次の問題がある。文字列で表される企業名や建物名にはキーとなる重要な単語があり、間違えたり省略することが少ない。創業者の姓(鈴木)や企業固有名(NTT等)及び、職種を表す単語(電器、弁護士、商店など)などがこれに当たる。一方、重要でない単語には冠称地名(日本、東京など)、修飾語(公認、一級など)が相当する。姓・固有名・職種は間違えにくく、省略されることも少ない。しかし、冠称地名や修飾語は省略されやすい。文字単位での照合は、こういった単語による重みの違いを考慮せず行われるので、「鈴木公認会計士事務所」と「鈴村公認会計士事務所」が一致したり、「日本00協会」と「00協会事務局」が不一致になる場合がある。また、「海外青年協力隊」「青年海外協力隊」の様に語順逆転などの場合は不一致となる。
【0007】
本発明の目的は、住所や名義の情報が不完全であっても的確な住所や名義の照合を行うことで、データの重複を除去でき、データベースの品質向上が期待できるデータベース生成装置及び方法、並びにデータベース生成処理プログラムを提供することにある。
【0008】
【課題を解決するための手段】
本発明は、入力されたデータの住所情報について、地名、番地、号、建物名等の単語情報を登録した住所解析用単語辞書を用いて地名、番地、号、建物名等に分解し、地名と住所コードの対応を登録した住所テーブルを用いて、前記地名は住所コードに置き換えて、各住所項目ごとに細分化した住所情報を得る住所解析手段と、入力されたデータの名義情報について、姓・名や企業名・部門名等の単語情報を登録した名義解析用単語辞書を用いて個人・法人等の区別、姓・名や企業名・部門名等に分解して、各名義項目ごとに細分化した名義情報を得る名義解析手段と、前記各住所項目ごとに細分化された住所情報及び前記各名義項目ごとに細分化された名義情報を含むデータの集合を対象に、前記データ集合中のそれぞれ二つのデータについて、住所及び名義の照合条件と照合結果の評価値との対応を定義した照合関数定義ファイル及び住所の照合結果の評価値と名義の照合結果の評価値によるデータ一致条件とデータ一致度との対応を定義したデータ一致判定定義ファイルを用いて、前記二つのデータ間の一致度を決定する照合手段とを設ける。
ここで、前記照合手段は、
(a) 前記照合関数定義ファイル中の住所コードと番地と号との組の一致の度合いと住所コードの評価値との対応表をもとに、各住所情報中の住所コードと番地と号との組に対応する住所コードの評価値を求め、
(b) 前記照合関数定義ファイル中の建物名の一致の度合いと建物名の評価値との対応表をもとに、各住所情報中の建物名に対応する建物名の評価値を求め、
(c) 前記照合関数定義ファイル中の住所コードの評価値と建物名の評価値の組と住所の評価値との対応表をもとに、前記住所コードの評価値と前記建物名の評価値との組に対応する住所の評価値を求め、
(d) 前記照合関数定義ファイル中の法人名の一致の度合いと法人名の評価値との対応表をもとに、名義情報中の法人名に対応する法人名の評価値を求め、
(e) 各名義情報中に部門名が含まれる場合には、前記照合関数定義ファイル中の部門名の一致の度合いと部門名の評価値との対応表をもとに、名義情報中の部門名に対応する部門名の評価値を求め、
(f) 前記照合関数定義ファイル中の法人名の評価値、または法人名の評価値と部門名の評価値の組、と名義の評価値との対応表をもとに、前記法人名の評価値、または前記法人名の評価値と前記部門名の評価値との組、に対応する名義の評価値を求め、
(g) 前記データー致判定定義ファイル中の住所の評価値と名義の評価値の組とデータ間の一致度との対応表をもとに、前記住所の評価値と名義の評価値の組に対応する前記二つのデータ間の一致度を決定する。
【0009】
住所の照合においては、複数の照合項目を選択できる。例えば照合項目として住所コードと建物名を選択すると、「新川町3丁目新川ビル203」と「新川町3−5−1新川ビル」の様に番地や号が省略されていても、町名や丁目が一致し、建物名が一致と見なせれば、住所が一致していると見なすことができる。また、住所の解析では建物名を切り出すので、「新川3−5新川ビル3」と「新川3−5−3茅場ビル」の場合は号及び建物名が異なるので一致とは見なさない。
【0010】
このように、住所や名義の照合において、それを構成する詳細項目に関して照合を行って、その照合結果を組み合わせて住所や名義の一致度(評価値)を算出することにより、住所や名義の情報が不完全であっても的確な住所や名義の照合を行え、照合率が向上するという利点がある。さらに、データ間の一致度を住所と名義の照合結果の評価値で定義し、住所や名義の照合結果の評価値は住所情報や名義情報の詳細な構成項目の照合条件により定義していくといった照合ルールの階層的な構成により、全ての詳細項目の照合結果からデータ間の一致度を定義する非階層的な構成に比べ、照合ルールを記述する際、人間の直観に則しており、照合ルールを定義しやすいという利点がある。
【0011】
また、名義の解析では、まず、名義を法人名、部門名に分割し、さらに法人名・部門名も単語に分割し、各単語に意味を付与しておく。照合処理においては、法人名・部門名から重要と判断される単語を取り出して照合する。重要な単語の判断は法人名・部門名を構成する各単語にふられた意味により行う。その結果、名義を構成する単語の中で重要な単語を重視して照合を行うので、重要でない単語に省略や誤謬があったり、単語列に語順逆転があっても的確な照合が可能となる。たとえば、「鈴木公認会計士事務所」と「鈴村公認会計士事務所」では名義中で重要な意味である姓を表す単語「鈴木」と「鈴村」が一致してないので不一致であるが、「鈴木隆公認会計事務所」と「鈴木会計事務所」では姓(「鈴木」)と職業(「会計」と「事務所」)を表す単語が一致するので両者は一致という結果になる。また、「日本作家協会」と「作家協会事務局」の例では職業を表す「作家」「協会」が一致するので両者は一致と判断できる。また、単語単位での照合なので「海外青年協力隊」「青年海外協力隊」の様に語順逆転にも対応できる。
【0012】
さらに本発明では、住所解析手段で、一つのデータに対し複数の住所コードが出力されたとき、照合手段は、各々の住所コードについて照合を行い、その結果、一致したデータをすべて出力する。これにより、一致データに洩れがないようにすることができる。
【0013】
また、本発明では、各住所項目ごとに細分化された住所情報及び各名義項目ごとに細分化された名義情報を含むデータの集合を、住所項目や名義項目を基準にデータ集合をグループ化する条件を定義したグルーピング条件定義ファイルをもとにグループ化するグルーピング手段を設け、照合手段では、前記グループ化された各グループごとに、当該グループ内のデータ間でのみの照合処理を行うようにする。これにより、一つのデータと照合するデータが全データであるときよりも、より高速に照合処理を行うことが可能となる。
【0014】
【発明の実施の形態】
以下、本発明の一実施例について、図面を参照して説明する。
図1は、本発明の一実施の形態のデータベース生成装置の構成例を示す図である。本データベース生成装置は所謂コンピュータ利用装置であり、CPU等のデータ処理装置10、ハードディスク等の外部記憶装置20及びRAM等の一時記憶装置30などで構成される。他にキーボードやマウス、ディスプレィ、ネットワークとの通信装置などを具備するが、図1では省略してある。
【0015】
ここで、データ処理装置10は、本発明に関係する手段(機能)として、データ入力手段11、住所解析手段12、名義解析手段13、グルーピング手段14、照合手段15、照合結果出力手段16を有する。なお、後述するように、グルーピング手段14は、データのグルーピングが不要の場合には省略することができる。外部記憶装置20は住所解析用単語辞書21、住所テーブル22、名義解析用単語辞書23、グルーピング条件定義ファイル24、データ一致判定定義ファイル26、照合関数定義ファイル26などを格納している。また、外部記憶装置20には、最終的に生成されたデータベース等も格納されるが、図1では省略してある。一時記憶装置30には、データ処理装置10での処理途中結果のデータ、外部記憶装置20から読み込まれた辞書、テーブル、ファイルなどが一時的に格納される。
【0016】
図2は、本発明の一実施の形態のデータベース生成方法の処理フローチャートを示す図であり、各ステップ111〜116は図1の各手段11〜16に対応する。以下に、図2のフローチャートに従って、図1の構成例の動作概要を説明する。具体的処理については後述する。
【0017】
まず、データ入力手段11から、処理対象の住所情報及び名義情報を含むデータの集合が入力される(ステップ111)。処理対象のデータ集合は、ユーザが直接入力したものでも、あるいは、あらかじめ作成されたデータベースでも、その他、どのような形式で入力されたものでもよい。例えば、データベースの場合には、入力されたデータベースのデータ集合に対して、データ間の照合を行い、同一データの名寄せを行うことで、重複データなしのデータベースが再構築されることになる。この結果、データの照合率が向上する。
【0018】
住所解析手段12では、入力された各データについて、住所解析用単語辞書21及び住所テーブル22を用いて住所情報を解析し、住所情報を都道府県から字丁目等までの住所コード、番地・号、建物名、棟・階・部屋番号などに分解する(ステップ112)。すなわち、各住所項目ごとに細分化された住所情報を得る。次に、名義解析手段13では、名義解析用単語辞書23を用いて名義情報を解析し、個人名の時は姓・名・敬称その他に分解し、企業名の時は法人種別・法人名・部門名などに分解する(ステップ113)。すなわち、各名義項目ごとに細分化された名義情報を得る。同時に法人名・部門名も単語に分解し、各単語に意味を付与しておく。同様に建物名も単語分解し、構成単語に意味を付与しておく。入力された各データについて、住所と名義を解析した結果は、一時記憶装置30に格納される。
【0019】
グルーピング手段14は、一時記憶装置30に格納された全データについて、グルーピング条件定義ファイル24に定義されている住所項目や名義項目を基準とするグルーピング条件に従ってグループ化する(ステップ114)。グルーピング条件は複数定義してもよい。このグルーピング処理は、データ数が多くて、次の照合処理で全データ間の照合を行ったのでは時間が掛りすぎるような場合に実施し、データ数が少ない場合は飛ばしてもよい。また、照合処理で時間の掛かることを許容する場合は、初めからグルービング手段14はなくてもよい。
【0020】
次に、照合手段15は、データ一致判定定義ファイル25に記述されいるデータ一致判定ルール及び照合関数定義ファイル26に記述されている住所と名義の照合判定ルールに従って、一時記憶装置30に格納されている全データ間の照合を行い、データ間の一致度を判定する(ステップ115)。ここでは、データ間の一致度を一致(ユーザチェック不要)、見なし一致(ユーザチェック要)、不一致の三つに分類するとする。なお、グルーピング手段14により一時記憶装置30に格納されているデータが複数にグルーピングされている場合、照合手段15では、各グループ内のデータ同士でのみ照合を行えばよい。
【0021】
照合結果出力手段16は、照合手段15による照合結果を出力する(ステップ116)。ユーザは、該照合結果を確認し、例えば、見なし一致と判定されたデータ同士については、一致あるいは不一致と決定する。また、一致あるいは不一致と判定されたデータ同士についても、必要なら照合結果を変更する。最終的にデータベースを生成する場合、一致と判定・決定されたデータ集合は、例えば、そのうちの一つを選択して他のデータは削除することで、重複データをなくす。なお、照合結果出力手段16では、照合手段15による照合結果をファイル等に出力し、後日、データベース生成に供することでもよい。
【0022】
図3に、照合手段15における照合処理(図2のステップ115)の詳細フローチャートを示す。データベースの性質は種々雑多なので、重複チエックをする方法もデータベースで異なる。そこで、ここでは照合結果(一致度)を一致、見なし一致、不一致の三つに分類し、データ一致判定ルールと照合判定ルール(照合関数)をユーザが定義できるようにする。データ一致判定ルールはデータ一致判定定義ファイル25に記述され、照合判定ルールは照合関数定義ファイル26に記述される。ここで、データ一致判定定義ファイル25のデータ一致判定ルールでは、住所の照合結果の評価値と名義の照合結果の評価値とによるデータ間の一致条件とデータ一致度の対応を定義する。照合関数定義ファイル26の照合判定ルールは、住所の照合判定ルール(住所の照合関数)と名義の照合判定ルール(名義の照合関数)からなり、住所の照合判定ルールでは、住所の照合条件と照合結果の評価値との対応を定義し、名義の照合判定ルールでは、名義の照合条件と照合結果の評価値との対応を定義する。なお、データ一致判定定義ファイル25及び照合関数定義ファイル26の具体例については後述する。
【0023】
一時記憶装置30には、入力されたデータの集合について、各住所項目ごとに細分化された住所情報及び各名義項目ごと細分化された名義情報を含むデータの集合が格納されている。照合手段15では、該一時記憶装置30から照合する二つのデータを取り込み(ステップ1151)、まず、照合関数定義ファイル26内の住所の照合判定ルール(照合関数)に従い、両データについて、住所解析手段12で得られている各住所項目から住所の照合項目を選択して住所情報の照合を行い(ステップ1152)、住所の照合結果に対応する評価値を求める(ステップ1153)。次に、照合関数定義ファイル26内の名義の照合判定ルール
(照合関数)に従い、両データについて、名義解析手段13で得られている各名義項目から名義の照合項目を選択して名義情報の照合を行い(ステップ1154)、名義の照合結果に対応する評価値を求める(ステップ1155)。次に、この求まった住所と名義の照合結果に対応する評価値を組み合わせ(ステップ1156)、データ一致判定定義ファイル25のデータ一致判定ルールに従ってデータ間の一致度(一致、見なし一致、不一致)を判定する(ステップ1157)。以上の処理を一時記憶装置30内の各データについて繰り返し、照合する対象データがなくなったなら、照合処理を終了とする(ステップ1150)。
【0024】
以下に、図1の実施の形態にもとづき一実施例を具体的に説明する。
図4は、データ入力手段11により入力されるデータの一例である。住所は都道府県市区郡町村から建物名・部屋番号まで連続して入力され、都道府県は省略される場合もある。企業名は法人種別・法人名・部門名が連続して入力されている。個人名の場合は姓・名・敬称などが連続して入力される。
【0025】
住所解析手段12では、入力された住所データに対し、正式住所表記を求め、住所コードに変換し、さらに、建物名・棟・階・部屋番号などを分離する。具体的には、住所解析手段12では、まず、地名・番地・建物名等の単語情報が登録された住所解析用単語辞書21を用いて、入力された住所データを単語に分割し、都道府県、市区郡町村、町大字、字丁目、番地、号、さらに建物名、棟・階・部屋番号及びその他の情報に分解する。次に、住所解析手段12では、地名と住所コードを対応付けて登録された住所テーブル22を用いて、コードで表せる都道府県から字丁目等までを住所コードに置き換える。図8に住所テーブル22の一例を示す。住所コードは国土地理協会で規定しているコードに大町コードなどの独自のコードを追加し、コード上で包含関係が分かるようにしたもので、左から県コード、政令市・郡コード、一般市・区・町村コード、大町コード、町コードを表している。なお、住所コードとして、国土地理協会コードを用い、政令市と配下の区、郡と配下の町村、大町と配下の一般町の関係は別テーブルとして準備する方法でもよい。
【0026】
図5(a)は住所解析結果の一例である。図5(a)に示すように、この住所解析処理により、入力された住所データは、都道府県から丁目レベルまでのコード化された部分と番地・号・棟・階・部屋番号に細分化され、表記が統一される。なお、この種の住所解析処理については、例えば特開2001−134602号公報に詳述されている。
【0027】
次に、名義解析手段13では、姓・名や企業名・部門名等の単語情報が登録された名義解析用単語辞書23を用いて、入力された名義データを単語に分解する。この結果、名義が個人名の時は姓・名・敬称その他に、企業名の時は法人種別・法人名・部門名に分解される。さらに、法人名・部門名と建物名を単語に分割し、各単語に意味を付与する。意味の一覧を図9に示す。
【0028】
図5(b)は、図5(a)の住所解析結果に対して、名義解析結果の例を示したものである。入力された各データについて、順次、図5(b)に示すような、各住所項目ごとに細分化された住所情報及び各名義項目ごとに細分化された名義情報を含むデータの集合が一時記憶装置30に格納される。
【0029】
次に、グルーピング手段14では、データ数が多くて、次の照合手段15において全データの任意の2データ(レコード)間で照合を行うのでは時間がかかり過ぎる場合、グルーピング条件定義ファイル24に定義されている住所項目や名義項目を基準としたグルービング条件をもとに、一時記憶装置30に格納されている全データをグループ化する。図10にグルーピング条件定義ファイル24の一例を示す。ここでは、グルーピング条件をソートキーで区別し、各ソートキー毎に、該グルーピング条件をデータの項目名とグルーピング対象となる桁位置とで指定する。例えば、ソートキー1のレコードは、住所コードが先頭から8桁
(町大字までの住所コード)まで同じデータを同一グループにすることを意味している。ソートキー2のレコードは、名義の読み先頭一文字が同じデータを同一グループにすることを意味している。どのソートキー(グルーピング条件)を適用するかは、あらかじめユーザが指定しておく。この場合、複数のソートキーを指定してもかまわないが、適用する優先順位を定めておく。グルーピング処理では、指定されたソートキーのグルーピング条件をもとに、一時記憶装置30に格納された全データをソートすることでグルーピングを行う。
【0030】
図6はグルーピング結果の一例である。この例は、図10に示したグルーピング条件定義ファイル24に定義されているソートキー1を適用して、それぞれ、住所コードが先頭から8桁まで同じデータ集合を同一グループにグルーピングしたものである。ここで、さらに図10に示したソートキー2を適用した場合には、図6の各グループ内は、同一姓あるいは同一法人名単位でさらにグルーピングされることになる。
【0031】
次に、照合手段15では、一時記憶装置30に格納された全データについて、各データ間の照合を行う。この場合、図6に示すように、一時記憶装置30内のデータがグループ化されていれば、各グループ単位でデータ間の照合を行うことができる。
【0032】
照合手段15での照合処理は、図3で説明したように、データ一致判定定義ファイル25及び照合関数定義ファイル26に定義されたデータ一致判定ルールと照合判定ルール(照合関数)を用いて行われる。ここでは、データ間一致度は、一致(ユーザチェック不要)、見なし一致(ユーザチェックが必要)、不一致と分類される。データ一致判定ルールと照合関数は、ユーザがあらかじめ定義しておく。
【0033】
図11は、データ一致判定定義ファイル25の一例を示す。図11に示すように、データ一致判定ファイル25において、データ間の一致度を決定する項目と、データ間一致と見なせる各項目の評価値の下限の値、及びそれらに対応するデータ間の一致度を定義する。この例では、データ間の一致度を決定する項目は、住所と名義としている。1行目は、住所の照合結果の評価値が90以上で、名義の照合結果の評価値が80以上ならば、データ間は一致とすることを意味する。ここでは、各項目が一致といえるのは評価値が90以上のときであり、見なし一致といえるのは評価値が80以上のときであるつもりで定義している。従って、1行目は、住所が正確(一致)なら名義は多少不正確(見なし一致)でもよいことを表し、2行目は、名義が正確(一致)なら住所は多少不正確(見なし一致)でもよいことを表している。3行目は、住所も名義も見なし一致ならデータ間の一致度は見なし一致となることを表している。実際に照合過程でデータ間の照合を行う際は、1行目からチェックしていって、該当する行があればその一致度をデータ間の一致度として決定する。どの行にも該当しなければ、データ間の一致度は不一致とする。
【0034】
図12は、各照合項目に対する照合判定ルール(照合関数)を定義する照合関数定義ファイル26の一例を示す。照合関数は住所と名義についてそれぞれ定義する必要がある。
【0035】
図12(a)は、住所の照合関数の一例を表す。まず、住所の照合結果の評価値(住所の一致度)を決定する項目と、住所が一致と見なせる各項目の評価値の下限の値、及びそれらに対応する住所の照合結果の評価値(一致度)を定義する。この例では、住所の照合結果の評価値(住所一致度)を決定する項目は、(番地・号を含む)住所コードと建物名としている。1行目は、住所コードの評価値(一致度)が100で、建物名の評価値(一致度)が80以上ならば、住所の照合結果の評価値(一致度)を90とすることを意味する。後に述べる住所コードと建物名の評価値(一致度)の定義により、1行目は号まで一致していれば、建物名は省略されていても、住所は一致とすることを表している。同様に2行目は字丁目まで一致しているときは、建物名は正確(一致)であるとき、住所は一致とすることを表し、3行目は字丁目まで一致して、建物名が多少不正確(見なし一致)であるとき、住所は見なし一致とすることを表している。実際に照合過程で住所の照合を行う際は、1行目からチェックしていって、該当する行があればその評価値を住所の照合結果の評価値(一致度)として決定する。どの行にも該当しなければ、住所の照合結果の評価値(一致度)は0とする。
【0036】
次に、住所の照合結果の評価値(一致度)を決定する各項目について、照合の際、適用する比較関数とその比較関数が返す結果の種類を指定し、また、比較関数が返す結果に対応する評価値(一致度)を定義する。比較関数そのものは、装置側で用意されている。
【0037】
この例では、住所コードに適用する比較関数として桁一致関数を指定している。桁一致関数の返す結果としては、先頭から何桁目まで一致しているかを指定する。ここでは、「号まで一致」、「番地まで一致」、「字丁目まで一致」を指定しており、それぞれに対する評価値(一致度)も定義している。実際に桁一致関数が起動されたときは、照合対象のコードが先頭から何桁目まで一致しているかを出し、それに該当する指定桁数を決定し、該指定桁数に対応する評価値(一致度)を返す。該当する指定桁数がなければ、評価値(一致度)は0となる。
【0038】
次に、建物名に適用する比較関数として、名義曖昧一致関数と文字単位一致関数と単語単位一致関数を指定している。
【0039】
名義曖昧一致関数は、重み付けした単語単位の一致による照合を行う比較関数の一つである。名義曖昧一致関数は、照合対象項目の少なくとも一方が省略されているときは、「少なくとも一方が省略」を返す。そうでないときは、完全一致、揺らぎ削除一致、主要語一致、固有名一致の処理を順に行う。各処理は、直前の処理結果を入力として行う。どれかの処理で一致したならば、それより後の処理は実行しない。完全一致は項目値が完全に一致するとき、一致とする。揺らぎ削除一致は、長音・2重母音の揺らぎ、外来語の長音有無の揺らぎ、拗音促音の揺らぎ、英字の大文字小文字の揺らぎ、旧字体・新字体の揺らぎ、「・」等の不要記号有無の揺らぎなどを正規化して一致するとき、一致とする。主要語一致は、名・冠称地名・修飾語等の意味をもつ暖味語を削除して一致するとき、一致とする。固有名とは、企業名を識別する最小構成の語句であり、固有名一致は、姓・企業固有名と職業、職業語尾を取り出して一致するとき、一致とする。照合関数定義ファイル2−9で名義曖昧一致関数を指定するときは、この関数の返す結果のいずれかを指定し、指定結果に対する評価値(一致度)を定義する。実際に名義曖昧一致関数が起動されたときは、指定された処理のみを実行し、返した結果に対応する評価値(一致度)を返す。いずれの指定結果にもならなかったときは、評価値(一致度)は0となる。
【0040】
文字単位一致関数を指定する際は、その関数が返す評価値(一致度)の最高点を指定する。この例では100を指定している。実際に文字単位一致関数が起動されたときは、その点に(一致した文字数/全体の文字数)を掛けた点を一致度として返す。一致する文字を探索する際は、文字の出現順序を考慮する。
【0041】
同様に、単語単位一致関数を指定する際も、その関数が返す評価値(一致度)の最高点を指定する。実際に単語単位一致関数が起動されたときは、その点に
(一致した単語数/全体の単語数)を掛けた点を評価値(一致度)として返す。一致する単語を探索する際は、単語の出現順序を考慮しない。このため、単語単位一致関数を使用すると、語順逆転が起こっていても照合可能である。さらに、単語数を計算する際、1単語を1個とカウントするのではなく、単語のもつ意味により単語を重み付けして、0〜1の範囲でカウントすることにより、重み付けした単語単位の一致による照合を行う比較関数にすることもできる。姓・企業固有名や職業、商品等の意味をもつ単語の重みは重くし、名・冠称地名・修飾語等の意味をもつ単語の重みを軽くすることが考えられる。
【0042】
この例の建物名のように、照合項目に適用する比較関数を複数指定した場合、照合過程で当該項目の照合を行う際は、全ての比較関数を起動して、それぞれの比較関数の返す評価値(一致度)のうち最高のものを当該項目の評価値(一致度)とする。
【0043】
図12(b)は、名義の照合関数を表す。名義も住所と同様の書き方をする。この例では、名義の照合結果の評価値(名義の一致度)を決定する項目は、法人名と部門名としている。1行目は、法人名が正確(一致)なら、部門名が不正確(見なし一致)であっても、名義は一致(評価値:95)とすることを表し、2行目は、法人名が正確(一致)なら、部門名が不一致であっても、名義は一致
(評価値:90)とすることを表している。また、3行目は、法人名が不正確
(見なし一致)なら、部門名の照合結果の如何に関わらず、名義は見なし一致
(評価値:80)とすることを表している。法人名、部門名に関する照合条件の記述の仕方も、建物名と同様である。
【0044】
ここでは、照合手段15において、図6のグルーピング結果のデータ集合に対し、図11の照合判定定義ファイルと図12の照合関数定義ファイルの照合ルールに従って照合処理を行う場合について述べる。但し、単語単位一致関数は単語の重み付けをしないものとする。
【0045】
図6のグループ1の2番目と3番目のデータについての照合において、住所コードは字丁目まで一致なので評価値80であり、建物名は完全一致なので評価値100である。従って、住所の照合結果の評価値は90(一致)となる。2番目のデータの法人名は、「鈴木(姓)/隆(名)/公認(修飾語)/会計(商品)/事務所(職業語尾)」であり、主要語は「鈴木会計事務所」となるので、3番目のデータの法人名と主要語一致となる。文字単位一致関数や単語単位一致関数の返す評価値は、主要語一致の評価値90より低いので、法人名の評価値は90となる。部門名は両方ともないので評価値80となり、従って、名義の照合結果の評価値は95(一致)となる。結局、2番目と3番目のデータは一致と判定される。グループ1の1番目と2番目の組、及び1番目と3番目の組は不一致となることが同様にして得られる。
【0046】
図6のグループ2の1番目と2番目のデータについての照合において、住所コードは号まで一致なので評価値100であり、建物名は一方が省略されているので評価値80である。従って、住所の照合結果の評価値は90(一致)となる。1番目のデータの法人名は、「日本(冠称地名)/不動産(商品)/協会(職業語尾)」であり、主要語は「不動産協会」となるので、2番目のデータの法人名と主要語一致となる。文字単位一致関数や単語単位一致関数の返す評価値は、主要語一致の一致度90より低いので、法人名の評価値は90となる。部門名は全く異なるので評価値0となり、従って、名義の照合結果の評価値(一致度)は90(一致)となる。結局、1番目と2番目のデータは一致と判定される。グループ2の1番目と3番目の組、及び2番目と3番目の組は不一致となることが同様にして得られる。
【0047】
図6のグループ3の1番目と2番目のデータについての照合において、住所コードは字丁目まで一致なので評価値80である。建物名はそれぞれ「三井(姓)/ビル(建物名)」、「三井(姓)/センター(建物名)」であり、主要語一致とはならないが、固有名はともに「三井」なので、固有名一致になる。文字単位一致関数や単語単位一致関数の返す評価値は、固有名一致の評価値85より低いので、建物名の評価値は85となる。従って、住所の照合結果の評価値(一致度)は80(見なし一致)となる。法人名はそれぞれ「伊藤(姓)/英会話(商品)/教室(職業語尾)」、「伊藤(姓)/外国語(商品)/教室(職業語尾)」であり、主要語一致とはならないが、固有名はともに「伊藤教室」なので、固有名一致となる。文字単位一致関数や単語単位一致関数の返す評価値は、固有名一致の評価値85より低いので、法人名の評価値は85となる。部門名は両方ともないので一致度80となり、従って、名義の照合結果の評価値(一致度)は80(見なし一致)となる。結局、1番目と2番目のデータは見なし一致と判定される。
【0048】
結局、図6のデータ集合について、図7に示すような照合結果が得られる。照合手段15では、一致関係にあるデータには同一の一致ID及び見なし一致IDを付与し、見なし一致関係にあるデータには同一の見なし一致IDを付与し、どのデータ同士が名寄せされるべきか分かるようにする。
【0049】
次に、住所解析過程で複数の住所コードが出力された場合の処理について説明する。住所解析結果、入力住所の曖昧さにより2つ以上の住所コードが出力される場合がある。例えば、大字や町の有無で町大字コードが異なる場合がある。
「川越市富士見町」と「川越市大字富士見」はどちらも正式住所名だが住所コードにおける町大字コードが異なる。もし、入力住所が「川越市富士見」であったなら、住所解析過程では「川越市富士見町」と「川越市大字富士見」に対応する2つの住所コードを出力する。このようなときは、データを一時記憶装置30に格納する際、データを、得られた住所コード数だけコピーし、住所コードだけ異なるようにしておく。こうして展開されたデータをそれぞれ別データとして扱い(どの元データから展開されたかの情報は、最終的な出力結果で分かる必要があれば、各展開データに付与しておく)、以降の処理を行っていく。このようにすると、一致データに洩れがないようにすることができる。例えば、入力データ1「川越市富士見」と入力データ2「川越市大字富士見」があったとする。入力データ1は住所解析の結果、データ1’「川越市富士見町」とデータ1”「川越市大字富士見」に展開される。ここで、データ1’のみ残して照合処理を進めていった場合、データ1’(=入力データ1)と入力データ2は一致と判断されない。しかし、データ1’とデータ1”の両方について照合処理を進めていけば、データ1”(=入力データ1)と入力データ2は一致と判断され、入力データ1の側から見ても、入力データ2の側から見ても、一致するデータに洩れがないようにすることができる。
【0050】
以上、本発明の典型的な一実施例について述べたが、本発明は、この実施例で述べたような1つのデータベース内での名寄せ処理だけでなく、一つの検索キーとなるデータと一致するデータをデータベース内から検索する処理や、2つのデータベースがあり、一方のデータベース中の各データと一致するデータをもう一方のデータベース中で特定し、2つのデータベースをリンク付けする処理にも適用できる。
【0051】
また、照合関数定義ファイルにおける照合関数の記述においては、図12(a)では、住所の照合条件の定義と、住所の構成項目の照合条件の定義の2段構成であるが、住所の構成項目の照合条件を、さらにそれを構成する項目の組み合わせで記述するといった、3段以上の構成にしてもよい。逆に、住所や名義の照合条件として、直接、比較関数を指定するといった1段構成にすることもできる。
【0052】
住所や名義の照合結果の評価値を決定する項目として、住所解析や名義解析の結果得られる項目以外の項目を指定してもよい。例えば、住所の照合結果の評価値(一致度)を決定する項目として、すでに入力データにある郵便番号項目を含ませることができる。他にも、入力データに住所項目が無く、郵便番号項目と建物名項目がある場合、郵便番号項目と建物名項目からなりたつ仮想の住所項目があるものとして、住所の照合関数を記述することもできる。
【0053】
また、データ一致判定定義ファイルにおけるデータの一致度を決定する要素として、例えば、建物名と法人名の照合結果をとることもできる。法人名がときとして、建物名にもなっている場合があるからである。これまで照合対象として、同一の項目の値同士を照合させることを考えてきたが、このように、2つの異なる項目の値同士を照合させることも考えることができ、照合判定定義ファイルや照合関数定義ファイルに記述する照合項目として、2つの異なる項目の組を記述することも可能である。
【0054】
上記に挙げた以外にも、本発明は特許請求の範囲の記載内で、様々な変更や拡張が可能である。
【0055】
なお、図1で示したデータ処理装置10における各手段の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図2及び図3で示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムは、コンピュータが読み取り可能な記憶媒体、例えば、FDや、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。
【0056】
【発明の効果】
以上説明したように、本発明では、住所や名義を構成する詳細項目に関する照合結果を組み合わせて住所や名義の一致度を算出するので、住所や名義の情報が不完全であっても的確な住所や名義の照合を行え、照合率が向上するという効果がある。また、照合ルールが人間の直観に即した階層的な構成であるので、照合ルールを定義するのが容易である。名義を照合する際は、名義を構成する単語の中で重要な単語を重視して照合を行うことで、重要でない単語に省略・誤謬があったり、単語列に語順逆転があっても的確な照合が可能である。また、複数に展開された住所コードの全てについて照合を行うことで、一致データに洩れがないようにすることができる。また、データのグルーピングにより、高速な照合処理が可能である。
【図面の簡単な説明】
【図1】本発明のデータベース生成装置の構成例を示すブロック図である。
【図2】本発明のデータベース生成方法のフローチャートの一例である。
【図3】照合処理の詳細フローチャートの一例である。
【図4】入力データの一例である。
【図5】住所と名義の解析結果の一例である。
【図6】グルーピング結果の一例である。
【図7】照合結果の一例である。
【図8】住所テーブルの一例である。
【図9】単語の意味一覧の一例である。
【図10】グルーピング条件定義ファイルの一例である。
【図11】データ一致判定定義ファイルの一例である。
【図12】照合関数定義ファイルの一例である。
【符号説明】
10 データ処理装置
11 データ入力手段
12 住所解析手段
13 名義解析手段
14 グルーピング手段
15 照合手段
16 照合結果出力手段
20 外部記憶装置
21 住所解析用単語辞書
22 住所テーブル
23 名義解析用単語辞書
24 グルーピング条件定義ファイル
25 データ一致判定定義ファイル
26 照合関数定義ファイル
30 一時記憶装置

Claims (9)

  1. 住所情報及び名義情報を含む入力データの集合に対してデータ間の照合を行って一致度を求め、該一致度を用いて重複しているデータを削除してデータベースを生成する装置であって、
    地名、番地、号、建物名等の単語情報を登録した住所解析用単語辞書と、地名と住所コードの対応を登録した住所テーブルと、姓・名や企業名・部門名等の単語情報を登録した名義解析用単語辞書と、住所及び名義の照合条件と照合結果の評価値との対応を定義した照合関数定義ファイルと、住所の照合結果の評価値と名義の照合結果の評価値によるデータ一致条件とデータ一致度との対応を定義したデータ一致判定定義ファイルとを記憶した記憶手段と、
    入力されたデータの住所情報について、前記住所解析用単語辞書を用いて地名、番地、号、建物名等に分解し、前記住所テーブルを用いて、前記地名は住所コードに置き換えて、各住所項目ごとに細分化した住所情報を得る住所解析手段と、
    前記入力されたデータの名義情報について、前記名義解析用単語辞書を用いて個人・法人等の区別、姓・名や企業名・部門名等に分解して、各名義項目ごとに細分化した名義情報を得る名義解析手段と、
    前記各住所項目ごとに細分化された住所情報及び前記各名義項目ごとに細分化された名義情報を含むデータの集合を対象に、前記データ集合中のそれぞれ二つのデータについて、前記照合関数定義ファイル及び前記データ一致判定定義ファイルを用いて前記二つのデータ間の一致度を決定する照合手段とを有し、
    前記照合手段は、
    前記照合関数定義ファイル中の住所コードと番地と号との組の一致の度合いと住所コードの評価値との対応表をもとに、各住所情報中の住所コードと番地と号との組に対応する住所コードの評価値を求め、
    前記照合関数定義ファイル中の建物名の一致の度合いと建物名の評価値との対応表をもとに、各住所情報中の建物名に対応する建物名の評価値を求め、
    前記照合関数定義ファイル中の住所コードの評価値と建物名の評価値の組と住所の評価値との対応表をもとに、前記住所コードの評価値と前記建物名の評価値との組に対応する住所の評価値を求め、
    前記照合関数定義ファイル中の法人名の一致の度合いと法人名の評価値との対応表をもとに、名義情報中の法人名に対応する法人名の評価値を求め、
    各名義情報中に部門名が含まれる場合には、前記照合関数定義ファイル中の部門名の一致の度合いと部門名の評価値との対応表をもとに、名義情報中の部門名に対応する部門名の評価値を求め、
    前記照合関数定義ファイル中の法人名の評価値、または法人名の評価値と部門名の評価値の組、と名義の評価値との対応表をもとに、前記法人名の評価値、または前記法人名の評価値と前記部門名の評価値との組、に対応する名義の評価値を求め、
    前記データー致判定定義ファイル中の住所の評価値と名義の評価値の組とデータ間の一致度との対応表をもとに、前記住所の評価値と名義の評価値の組に対応する前記二つのデータ間の一致度を決定する、
    ことを特徴とするデータベース生成装置。
  2. 請求項1記載のデータベース生成装置において、照合手段は、前記照合関数定義ファイルの住所及び名義の照合条件をもとに、住所情報や名義情報の選択された照合項目の完全一致、文字単位の一致、単語単位の一致照合を行うことを特徴とするデータベース生成装置。
  3. 請求項1もしくは2記載のデータベース生成装置において、照合手段は、住所解析手段にて一つのデータの住所情報について複数の住所コードが得られた場合、当該データに対して、各住所コード対応の複数のデータを生成し、それぞれ別のデータとして照合することを特徴とするデータベース生成装置。
  4. 請求項1、2もしくは3記載のデータベース生成装置において、
    住所項目や名義項目を基準にデータ集合をグループ化する条件(以下、グルーピング条件)を定義したグルーピング条件定義ファイルと、各住所項目ごとに細分化された住所情報及び各名義項目ごとに細分化された名義情報を含むデータの集合を、前記グルーピング条件定義ファイルのグルーピング条件をもとにグループ化するグルーピング手段とを具備し、
    照合手段は、前記グルーピング手段でグループ化された各グループごとに、当該グループ内のデータ間の照合を行うことを特徴とするデータベース生成装置。
  5. データ処理装置が、記憶装置に記憶された、地名、番地、号、建物名等の単語情報を登録した住所解析用単語辞書と、地名と住所コードの対応を登録した住所テーブルと、姓・名や企業名・部門名等の単語情報を登録した名義解析用単語辞書と、住所及び名義の照合条件と照合結果の評価値との対応を定義した照合関数定義ファイルと、住所の照合結果の評価値と名義の照合結果の評価値によるデータ一致条件とデータ一致度との対応を定義したデータ一致判定定義ファイルを用いて、住所情報及び名義情報を含む入力データの集合に対してデータ間の照合を行って一致度を求め、該一致度を用いて重複しているデータを削除してデータベースを自動生成する方法であって、
    前記データ処理装置は、
    入力されたデータの住所情報について、前記記憶装置に記憶された前記住所解析用単語辞書を用いて地名、番地、号、建物名等に分解し、前記記憶装置に記憶された前記住所テーブルを用いて、前記地名は住所コードに置き換えて、各住所項目ごとに細分化した住所情報を得る住所解析過程と、
    前記入力されたデータの名義情報について、前記記憶装置に記憶された前記名義解析用単語辞書を用いて個人・法人等の区別、姓・名や企業名・部門名等に分解して、各名義項目ごとに細分化した名義情報を得る名義解析過程と、
    前記各住所項目ごとに細分化された住所情報及び前記各名義項目ごとに細分化された名義情報を含むデータの集合を対象に、前記データ集合中のそれぞれ二つのデータについて、前記記憶装置に記憶された前記照合関数定義ファイル及び前記データ一致判定定義ファイルを用いて前記二つのデータ間の一致度を決定する照合過程とを実行し、
    前記照合過程では、
    前記照合関数定義ファイル中の住所コードと番地と号との組の一致の度合いと住所コードの評価値との対応表をもとに、各住所情報中の住所コードと番地と号との組に対応する住所コードの評価値を求め、
    前記照合関数定義ファイル中の建物名の一致の度合いと建物名の評価値との対応表をもとに、各住所情報中の建物名に対応する建物名の評価値を求め、
    前記照合関数定義ファイル中の住所コードの評価値と建物名の評価値の組と住所の評価値との対応表をもとに、前記住所コードの評価値と前記建物名の評価値との組に対応する住所の評価値を求め、
    前記照合関数定義ファイル中の法人名の一致の度合いと法人名の評価値との対応表をもとに、名義情報中の法人名に対応する法人名の評価値を求め、
    各名義情報中に部門名が含まれる場合には、前記照合関数定義ファイル中の部門名の一致の度合いと部門名の評価値との対応表をもとに、名義情報中の部門名に対応する部門名の評価値を求め、
    前記照合関数定義ファイル中の法人名の評価値、または法人名の評価値と部門名の評価値の組、と名義の評価値との対応表をもとに、前記法人名の評価値、または前記法人名の評価値と前記部門名の評価値との組、に対応する名義の評価値を求め、
    前記データー致判定定義ファイル中の住所の評価値と名義の評価値の組とデータ間の一致度との対応表をもとに、前記住所の評価値と名義の評価値の組に対応する前記二つのデータ間の一致度を決定する、
    ことを特徴とするデータベース生成方法。
  6. 請求項5記載のデータベース生成方法において、前記照合過程では、住所及び名義の照合判定ルールをもとに、住所情報や名義情報の選択された照合項目の完全一致、文字単位の一致、単語単位の一致照合を行うことを特徴とするデータベース生成方法。
  7. 請求項5もしくは6記載のデータベース生成方法において、前記照合過程では、住所解析過程にて一つのデータの住所情報について複数の住所コードが得られた場合、当該データに対して、各住所コード対応の複数のデータを生成し、それぞれ別のデータとして照合処理することを特徴とするデータベース生成方法。
  8. 請求項5、6もしくは7記載のデータベース生成方法において、
    前記記憶装置は、住所項目や名義項目を基準にデータ集合をグループ化するグルーピング条件を定義したグルーピング条件定義ファイルをさらに記憶し、
    前記データ処理装置は、前記照合過程の前に、各住所項目ごとに細分化された住所情報及び各名義項目ごとに細分化された名義情報を含むデータの集合を、前記グルーピング条件定義ファイルのグルーピング条件をもとにグループ化するグルーピング過程を実行し、前記照合過程では、前記グルーピング過程でグループ化された各グループごとに、当該グループ内のデータ間の照合を行うことを特徴とするデータベース生成方法。
  9. 請求項5、6、7もしくは8記載のデータベース生成方法の全過程をコンピュータに実行させるデータベース生成処理プログラム。
JP2001371635A 2001-12-05 2001-12-05 データベース生成装置、データベース生成方法及びデータベース生成処理プログラム Expired - Lifetime JP3812818B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001371635A JP3812818B2 (ja) 2001-12-05 2001-12-05 データベース生成装置、データベース生成方法及びデータベース生成処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001371635A JP3812818B2 (ja) 2001-12-05 2001-12-05 データベース生成装置、データベース生成方法及びデータベース生成処理プログラム

Publications (2)

Publication Number Publication Date
JP2003173345A JP2003173345A (ja) 2003-06-20
JP3812818B2 true JP3812818B2 (ja) 2006-08-23

Family

ID=19180653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001371635A Expired - Lifetime JP3812818B2 (ja) 2001-12-05 2001-12-05 データベース生成装置、データベース生成方法及びデータベース生成処理プログラム

Country Status (1)

Country Link
JP (1) JP3812818B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516149B2 (en) * 2004-08-30 2009-04-07 Microsoft Corporation Robust detector of fuzzy duplicates
JP4687089B2 (ja) * 2004-12-08 2011-05-25 日本電気株式会社 重複レコード検出システム、および重複レコード検出プログラム
JP4704880B2 (ja) * 2005-10-12 2011-06-22 シャープ株式会社 デジタルテレビ受信機
JP4906447B2 (ja) * 2006-09-06 2012-03-28 克佳 長嶋 住所名寄サーバおよび住所名寄方法
JP2008250861A (ja) * 2007-03-30 2008-10-16 Fujitsu Ltd コード変換システム、コード変換方法、コード対応関係情報生成方法、およびコンピュータプログラム
KR101607178B1 (ko) * 2008-10-23 2016-03-29 아브 이니티오 테크놀로지 엘엘시 데이터 조작 수행, 데이터 품질 측정, 또는 데이터 요소 결합을 위한 방법, 시스템, 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능한 매체
JP5505234B2 (ja) * 2010-09-29 2014-05-28 富士通株式会社 文字列比較プログラム、文字列比較装置及び文字列比較方法
JP4869448B1 (ja) * 2011-07-08 2012-02-08 株式会社ぐるなび 名寄せ管理システム
JP5955634B2 (ja) * 2012-05-10 2016-07-20 株式会社東芝 住所検索装置、住所検索方法、及び住所検索プログラム
CN102999618B (zh) * 2012-11-30 2016-02-24 深圳市络道科技有限公司 基于地址归户的个人行为属性信息库建立方法及系统
JP7336869B2 (ja) * 2019-04-12 2023-09-01 日本瓦斯株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2003173345A (ja) 2003-06-20

Similar Documents

Publication Publication Date Title
JP3160201B2 (ja) 情報検索方法、情報検索装置
US7693853B2 (en) Method and apparatus for retrieving data representing a postal address from a plurality of postal addresses
US20090006394A1 (en) Systems and methods for validating an address
CN101978348B (zh) 管理关于近似串匹配的档案
US8391614B2 (en) Determining near duplicate “noisy” data objects
JP3812818B2 (ja) データベース生成装置、データベース生成方法及びデータベース生成処理プログラム
WO2008032780A1 (fr) Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
JP2669601B2 (ja) 情報検索方法及びシステム
WO2009005492A1 (en) Systems and methods for validating an address
JP3126945B2 (ja) 文字誤り校正装置
JP2007535009A (ja) リレーショナルデータベースの超集合のためのデータ構造と管理システム
JPH08314947A (ja) キーワード自動抽出装置
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
JP6604207B2 (ja) 関係情報生成方法、装置、及びプログラム
Howard et al. Phonetic spelling algorithm implementations for R
Doherr The SearchEngine: A holistic approach to matching
JP2655087B2 (ja) 文字認識後処理方式
JP4054453B2 (ja) 文字認識装置およびプログラム記録媒体
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP4895988B2 (ja) 文書分類装置の余分構造減退方法
US20020065794A1 (en) Phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
JP2000090192A (ja) 住所および郵便番号の文字列修正方法
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JP2848430B2 (ja) 情報抽出方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060525

R151 Written notification of patent or utility model registration

Ref document number: 3812818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090609

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110609

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120609

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130609

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140609

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term