JP2003173345A - データベース生成装置、データベース生成方法及びデータベース生成処理プログラム - Google Patents

データベース生成装置、データベース生成方法及びデータベース生成処理プログラム

Info

Publication number
JP2003173345A
JP2003173345A JP2001371635A JP2001371635A JP2003173345A JP 2003173345 A JP2003173345 A JP 2003173345A JP 2001371635 A JP2001371635 A JP 2001371635A JP 2001371635 A JP2001371635 A JP 2001371635A JP 2003173345 A JP2003173345 A JP 2003173345A
Authority
JP
Japan
Prior art keywords
address
matching
data
name
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001371635A
Other languages
English (en)
Other versions
JP3812818B2 (ja
Inventor
Shigeto Iwase
成人 岩瀬
Katsuto Bessho
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001371635A priority Critical patent/JP3812818B2/ja
Publication of JP2003173345A publication Critical patent/JP2003173345A/ja
Application granted granted Critical
Publication of JP3812818B2 publication Critical patent/JP3812818B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 顧客データベース等の生成にあたり、住所や
名義の情報が不完全であっても的確な照合を可能にし、
重複データを除去してデータベースの品質向上を図る。 【解決手段】 入力データの住所情報を各住所項目ごと
に分解し、さらに地名は住所コードに置き換える住所解
析手段12、入力データの名義情報を各名義項目ごとに
分解する名義解析手段13、照合対象の二つのデータに
ついて、住所の照合ルールをもとに、各住所情報から照
合項目を選択して住所照合を行い、住所の照合結果の評
価値を求め、名義の照合ルールをもとに、各名義情報か
ら照合項目を選択して名義照合を行い、名義の照合結果
の評価値を求め、住所と名義の照合結果の各評価値の組
み合わせにより、データ一致判定ルールをもとにデータ
間の一致度を決定する照合手段15を設ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、表記の間違いの修
正や、表記の統一、重複データのチェックといったデー
タベースの品質向上に利用可能なデータベース生成装置
及び方法、並びにデータベース生成処理プログラムに関
する。
【0002】
【従来の技術】手持ちの顧客データを用いて顧客データ
ベース等を作成する時、住所や名義に間違いがあった
り、表記の形式が統一されていない場合がある。また、
チェック漏れで重複して顧客が登録されている場合もあ
る。また、複数のデータベースから一つの統合したデー
タベースを作成する場合、データベースを作成した組織
が違うと住所や名義の表現形式が違い、そのままでは同
一データと判定できない場合もある。
【0003】従来、住所や名義を含むデータの集合に対
して、データ間の照合を行い、重複しているデータのう
ち一つを残すなどして重複データを削除(いわゆる同一
データの名寄せ)してデータベースを生成する場合、住
所の照合は、データ中の住所項目を比較対象とし、住所
項目が文字列ならば文字単位の一致率での判定、住所コ
ード、郵便番号等のコードならばコードの一致桁数での
判定を行っている。また、名義表記に関しても名義欄の
文字列をそのまま文字単位の一致率で判定を行ってい
る。なお、文字列単位の一致率には、例えば、特開平1
0−154161号公報に記載のように、文字列間で一
致する連続文字列数を調べ、連続文字列数に対する一致
文字列数の割合を利用する方法がある。
【0004】
【発明が解決しようとする課題】住所には都道府県、市
区郡町村、町大字、字丁目、番地、号の様にコード化で
きる部分と建物名の様にコード化できない部分がある。
住所を文字列で比較する場合は次のような問題がある。
丁目・番地・号の表記には「1丁目2番3号」「1−
2−3」「1の2の3」「一ノニノ三(縦書きの時)」
など種々の表記がある。都道府県名や郡名を省略す
る。「横浜市中区山下町」「埼玉県横瀬町芦ヶ久保」な
どがその一例である。「大字」「字」は頻繁に省略さ
れる。例えば、「名古屋市千種区天白町(大字)植田」
「新城市(字)鹿原」などである。このため、字丁目ま
でを文字列で比較することは表記の曖昧性のため困難で
ある。
【0005】また、番地・号までを含む住所コードや郵
便番号、カスタマーバーコードなどで住所を比較する方
法がある。しかし、コード化できない建物名は無視して
比較するので、建物名を含む住所と建物名を省略した住
所の比較、数字を含む建物名、階と部屋番号を含む住所
では正確な比較は難しい。例えば、「新川町3丁目新川
ビル203」と「新川町3−5−1新川ビル」の様に建
物名は正確であるが、番地・号を省略した場合や、「新
川3−5新川ビル3」と「新川3−5−3茅場ビル」の
様にビル名を無視し、数字だけを取り出してコード化す
ると誤照合する場合もある。
【0006】また、名義表記を文字単位で照合する方法
では、次の問題がある。文字列で表される企業名や建物
名にはキーとなる重要な単語があり、間違えたり省略す
ることが少ない。創業者の姓(鈴木)や企業固有名(N
TT等)及び、職種を表す単語(電器、弁護士、商店な
ど)などがこれに当たる。一方、重要でない単語には冠
称地名(日本、東京など)、修飾語(公認、一級など)
が相当する。姓・固有名・職種は間違えにくく、省略さ
れることも少ない。しかし、冠称地名や修飾語は省略さ
れやすい。文字単位での照合は、こういった単語による
重みの違いを考慮せず行われるので、「鈴木公認会計士
事務所」と「鈴村公認会計士事務所」が一致したり、
「日本00協会」と「00協会事務局」が不一致になる
場合がある。また、「海外青年協力隊」「青年海外協力
隊」の様に語順逆転などの場合は不一致となる。
【0007】本発明の目的は、住所や名義の情報が不完
全であっても的確な住所や名義の照合を行うことで、デ
ータの重複を除去でき、データベースの品質向上が期待
できるデータベース生成装置及び方法、並びにデータベ
ース生成処理プログラムを提供することにある。
【0008】
【課題を解決するための手段】本発明は、入力されたデ
ータの住所情報について、地名、番地、建物名等の単語
情報を登録した住所解析用単語辞書を用いて地名、番
地、建物名等に分解し、地名と住所コードの対応を登録
した住所テーブルを用いて、前記地名は住所コードに置
き換えて、各住所項目ごとに細分化した住所情報を得る
住所解析手段と、入力されたデータの名義情報につい
て、姓・名や企業名・部門名等の単語情報を登録した名
義解析用単語辞書を用いて個人・法人等の区別、姓・名
や企業名・部門名等に分解して、各名義項目ごとに細分
化した名義情報を得る名義解析手段と、前記各住所項目
ごとに細分化された住所情報及び前記各名義項目ごとに
細分化された名義情報を含むデータの集合を対象に、前
記データ集合中のそれぞれ二つのデータについて、住所
の照合条件と照合結果の評価値との対応を定義した住所
照合ルールをもとに、各住所情報から照合項目を選択し
て住所情報の照合を行い、住所の照合結果の評価値を求
め、名義の照合条件と照合結果の評価値との対応を定義
した名義照合ルールをもとに、各名義情報から名義の照
合項目を選択して名義情報の照合を行い、名義の照合結
果の評価値を求め、前記求まった住所及び照合結果の各
評価値とにより、住所の照合結果の評価値と名義の照合
結果の評価値によるデータ一致条件とデータ一致度との
対応を定義したデータ一致判定ルールをもとに前記二つ
のデータ間の一致度を決定する照合手段とを設けること
主要な特徴とする。
【0009】住所の照合においては、複数の照合項目を
選択できる。例えば照合項目として住所コードと建物名
を選択すると、「新川町3丁目新川ビル203」と「新
川町3−5−1新川ビル」の様に番地や号が省略されて
いても、町名や丁目が一致し、建物名が一致と見なせれ
ば、住所が一致していると見なすことができる。また、
住所の解析では建物名を切り出すので、「新川3−5新
川ビル3」と「新川3−5−3茅場ビル」の場合は号及
び建物名が異なるので一致とは見なさない。
【0010】このように、住所や名義の照合において、
それを構成する詳細項目に関して照合を行って、その照
合結果を組み合わせて住所や名義の一致度(評価値)を
算出することにより、住所や名義の情報が不完全であっ
ても的確な住所や名義の照合を行え、照合率が向上する
という利点がある。さらに、データ間の一致度を住所と
名義の照合結果の評価値で定義し、住所や名義の照合結
果の評価値は住所情報や名義情報の詳細な構成項目の照
合条件により定義していくといった照合ルールの階層的
な構成により、全ての詳細項目の照合結果からデータ間
の一致度を定義する非階層的な構成に比べ、照合ルール
を記述する際、人間の直観に則しており、照合ルールを
定義しやすいという利点がある。
【0011】また、名義の解析では、まず、名義を法人
名、部門名に分割し、さらに法人名・部門名も単語に分
割し、各単語に意味を付与しておく。照合処理において
は、法人名・部門名から重要と判断される単語を取り出
して照合する。重要な単語の判断は法人名・部門名を構
成する各単語にふられた意味により行う。その結果、名
義を構成する単語の中で重要な単語を重視して照合を行
うので、重要でない単語に省略や誤謬があったり、単語
列に語順逆転があっても的確な照合が可能となる。たと
えば、「鈴木公認会計士事務所」と「鈴村公認会計士事
務所」では名義中で重要な意味である姓を表す単語「鈴
木」と「鈴村」が一致してないので不一致であるが、
「鈴木隆公認会計事務所」と「鈴木会計事務所」では姓
(「鈴木」)と職業(「会計」と「事務所」)を表す単
語が一致するので両者は一致という結果になる。また、
「日本作家協会」と「作家協会事務局」の例では職業を
表す「作家」「協会」が一致するので両者は一致と判断
できる。また、単語単位での照合なので「海外青年協力
隊」「青年海外協力隊」の様に語順逆転にも対応でき
る。
【0012】さらに本発明では、住所解析手段で、一つ
のデータに対し複数の住所コードが出力されたとき、照
合手段は、各々の住所コードについて照合を行い、その
結果、一致したデータをすべて出力する。これにより、
一致データに洩れがないようにすることができる。
【0013】また、本発明では、各住所項目ごとに細分
化された住所情報及び各名義項目ごとに細分化された名
義情報を含むデータの集合を、住所項目や名義項目を基
準にデータ集合をグループ化する条件を定義したグルー
ピング条件定義ファイルをもとにグループ化するグルー
ピング手段を設け、照合手段では、前記グループ化され
た各グループごとに、当該グループ内のデータ間でのみ
の照合処理を行うようにする。これにより、一つのデー
タと照合するデータが全データであるときよりも、より
高速に照合処理を行うことが可能となる。
【0014】
【発明の実施の形態】以下、本発明の一実施例につい
て、図面を参照して説明する。図1は、本発明の一実施
の形態のデータベース生成装置の構成例を示す図であ
る。本データベース生成装置は所謂コンピュータ利用装
置であり、CPU等のデータ処理装置10、ハードディ
スク等の外部記憶装置20及びRAM等の一時記憶装置
30などで構成される。他にキーボードやマウス、ディ
スプレィ、ネットワークとの通信装置などを具備する
が、図1では省略してある。
【0015】ここで、データ処理装置10は、本発明に
関係する手段(機能)として、データ入力手段11、住
所解析手段12、名義解析手段13、グルーピング手段
14、照合手段15、照合結果出力手段16を有する。
なお、後述するように、グルーピング手段14は、デー
タのグルーピングが不要の場合には省略することができ
る。外部記憶装置20は住所解析用単語辞書21、住所
テーブル22、名義解析用単語辞書23、グルーピング
条件定義ファイル24、データ一致判定定義ファイル2
6、照合関数定義ファイル26などを格納している。ま
た、外部記憶装置20には、最終的に生成されたデータ
ベース等も格納されるが、図1では省略してある。一時
記憶装置30には、データ処理装置10での処理途中結
果のデータ、外部記憶装置20から読み込まれた辞書、
テーブル、ファイルなどが一時的に格納される。
【0016】図2は、本発明の一実施の形態のデータベ
ース生成方法の処理フローチャートを示す図であり、各
ステップ111〜116は図1の各手段11〜16に対
応する。以下に、図2のフローチャートに従って、図1
の構成例の動作概要を説明する。具体的処理については
後述する。
【0017】まず、データ入力手段11から、処理対象
の住所情報及び名義情報を含むデータの集合が入力され
る(ステップ111)。処理対象のデータ集合は、ユー
ザが直接入力したものでも、あるいは、あらかじめ作成
されたデータベースでも、その他、どのような形式で入
力されたものでもよい。例えば、データベースの場合に
は、入力されたデータベースのデータ集合に対して、デ
ータ間の照合を行い、同一データの名寄せを行うこと
で、重複データなしのデータベースが再構築されること
になる。この結果、データの照合率が向上する。
【0018】住所解析手段12では、入力された各デー
タについて、住所解析用単語辞書21及び住所テーブル
22を用いて住所情報を解析し、住所情報を都道府県か
ら字丁目等までの住所コード、番地・号、建物名、棟・
階・部屋番号などに分解する(ステップ112)。すな
わち、各住所項目ごとに細分化された住所情報を得る。
次に、名義解析手段13では、名義解析用単語辞書23
を用いて名義情報を解析し、個人名の時は姓・名・敬称
その他に分解し、企業名の時は法人種別・法人名・部門
名などに分解する(ステップ113)。すなわち、各名
義項目ごとに細分化された名義情報を得る。同時に法人
名・部門名も単語に分解し、各単語に意味を付与してお
く。同様に建物名も単語分解し、構成単語に意味を付与
しておく。入力された各データについて、住所と名義を
解析した結果は、一時記憶装置30に格納される。
【0019】グルーピング手段14は、一時記憶装置3
0に格納された全データについて、グルーピング条件定
義ファイル24に定義されている住所項目や名義項目を
基準とするグルーピング条件に従ってグループ化する
(ステップ114)。グルーピング条件は複数定義して
もよい。このグルーピング処理は、データ数が多くて、
次の照合処理で全データ間の照合を行ったのでは時間が
掛りすぎるような場合に実施し、データ数が少ない場合
は飛ばしてもよい。また、照合処理で時間の掛かること
を許容する場合は、初めからグルービング手段14はな
くてもよい。
【0020】次に、照合手段15は、データ一致判定定
義ファイル25に記述されいるデータ一致判定ルール及
び照合関数定義ファイル26に記述されている住所と名
義の照合判定ルールに従って、一時記憶装置30に格納
されている全データ間の照合を行い、データ間の一致度
を判定する(ステップ115)。ここでは、データ間の
一致度を一致(ユーザチェック不要)、見なし一致(ユ
ーザチェック要)、不一致の三つに分類するとする。な
お、グルーピング手段14により一時記憶装置30に格
納されているデータが複数にグルーピングされている場
合、照合手段15では、各グループ内のデータ同士での
み照合を行えばよい。
【0021】照合結果出力手段16は、照合手段15に
よる照合結果を出力する(ステップ116)。ユーザ
は、該照合結果を確認し、例えば、見なし一致と判定さ
れたデータ同士については、一致あるいは不一致と決定
する。また、一致あるいは不一致と判定されたデータ同
士についても、必要なら照合結果を変更する。最終的に
データベースを生成する場合、一致と判定・決定された
データ集合は、例えば、そのうちの一つを選択して他の
データは削除することで、重複データをなくす。なお、
照合結果出力手段16では、照合手段15による照合結
果をファイル等に出力し、後日、データベース生成に供
することでもよい。
【0022】図3に、照合手段15における照合処理
(図2のステップ115)の詳細フローチャートを示
す。データベースの性質は種々雑多なので、重複チエッ
クをする方法もデータベースで異なる。そこで、ここで
は照合結果(一致度)を一致、見なし一致、不一致の三
つに分類し、データ一致判定ルールと照合判定ルール
(照合関数)をユーザが定義できるようにする。データ
一致判定ルールはデータ一致判定定義ファイル25に記
述され、照合判定ルールは照合関数定義ファイル26に
記述される。ここで、データ一致判定定義ファイル25
のデータ一致判定ルールでは、住所の照合結果の評価値
と名義の照合結果の評価値とによるデータ間の一致条件
とデータ一致度の対応を定義する。照合関数定義ファイ
ル26の照合判定ルールは、住所の照合判定ルール(住
所の照合関数)と名義の照合判定ルール(名義の照合関
数)からなり、住所の照合判定ルールでは、住所の照合
条件と照合結果の評価値との対応を定義し、名義の照合
判定ルールでは、名義の照合条件と照合結果の評価値と
の対応を定義する。なお、データ一致判定定義ファイル
25及び照合関数定義ファイル26の具体例については
後述する。
【0023】一時記憶装置30には、入力されたデータ
の集合について、各住所項目ごとに細分化された住所情
報及び各名義項目ごと細分化された名義情報を含むデー
タの集合が格納されている。照合手段15では、該一時
記憶装置30から照合する二つのデータを取り込み(ス
テップ1151)、まず、照合関数定義ファイル26内
の住所の照合判定ルール(照合関数)に従い、両データ
について、住所解析手段12で得られている各住所項目
から住所の照合項目を選択して住所情報の照合を行い
(ステップ1152)、住所の照合結果に対応する評価
値を求める(ステップ1153)。次に、照合関数定義
ファイル26内の名義の照合判定ルール(照合関数)に
従い、両データについて、名義解析手段13で得られて
いる各名義項目から名義の照合項目を選択して名義情報
の照合を行い(ステップ1154)、名義の照合結果に
対応する評価値を求める(ステップ1155)。次に、
この求まった住所と名義の照合結果に対応する評価値を
組み合わせ(ステップ1156)、データ一致判定定義
ファイル25のデータ一致判定ルールに従ってデータ間
の一致度(一致、見なし一致、不一致)を判定する(ス
テップ1157)。以上の処理を一時記憶装置30内の
各データについて繰り返し、照合する対象データがなく
なったなら、照合処理を終了とする(ステップ115
0)。
【0024】以下に、図1の実施の形態にもとづき一実
施例を具体的に説明する。図4は、データ入力手段11
により入力されるデータの一例である。住所は都道府県
市区郡町村から建物名・部屋番号まで連続して入力さ
れ、都道府県は省略される場合もある。企業名は法人種
別・法人名・部門名が連続して入力されている。個人名
の場合は姓・名・敬称などが連続して入力される。
【0025】住所解析手段12では、入力された住所デ
ータに対し、正式住所表記を求め、住所コードに変換
し、さらに、建物名・棟・階・部屋番号などを分離す
る。具体的には、住所解析手段12では、まず、地名・
番地・建物名等の単語情報が登録された住所解析用単語
辞書21を用いて、入力された住所データを単語に分割
し、都道府県、市区郡町村、町大字、字丁目、番地、
号、さらに建物名、棟・階・部屋番号及びその他の情報
に分解する。次に、住所解析手段12では、地名と住所
コードを対応付けて登録された住所テーブル22を用い
て、コードで表せる都道府県から字丁目等までを住所コ
ードに置き換える。図8に住所テーブル22の一例を示
す。住所コードは国土地理協会で規定しているコードに
大町コードなどの独自のコードを追加し、コード上で包
含関係が分かるようにしたもので、左から県コード、政
令市・郡コード、一般市・区・町村コード、大町コー
ド、町コードを表している。なお、住所コードとして、
国土地理協会コードを用い、政令市と配下の区、郡と配
下の町村、大町と配下の一般町の関係は別テーブルとし
て準備する方法でもよい。
【0026】図5(a)は住所解析結果の一例である。
図5(a)に示すように、この住所解析処理により、入
力された住所データは、都道府県から丁目レベルまでの
コード化された部分と番地・号・棟・階・部屋番号に細
分化され、表記が統一される。なお、この種の住所解析
処理については、例えば特開2001−134602号
公報に詳述されている。
【0027】次に、名義解析手段13では、姓・名や企
業名・部門名等の単語情報が登録された名義解析用単語
辞書23を用いて、入力された名義データを単語に分解
する。この結果、名義が個人名の時は姓・名・敬称その
他に、企業名の時は法人種別・法人名・部門名に分解さ
れる。さらに、法人名・部門名と建物名を単語に分割
し、各単語に意味を付与する。意味の一覧を図9に示
す。
【0028】図5(b)は、図5(a)の住所解析結果
に対して、名義解析結果の例を示したものである。入力
された各データについて、順次、図5(b)に示すよう
な、各住所項目ごとに細分化された住所情報及び各名義
項目ごとに細分化された名義情報を含むデータの集合が
一時記憶装置30に格納される。
【0029】次に、グルーピング手段14では、データ
数が多くて、次の照合手段15において全データの任意
の2データ(レコード)間で照合を行うのでは時間がか
かり過ぎる場合、グルーピング条件定義ファイル24に
定義されている住所項目や名義項目を基準としたグルー
ビング条件をもとに、一時記憶装置30に格納されてい
る全データをグループ化する。図10にグルーピング条
件定義ファイル24の一例を示す。ここでは、グルーピ
ング条件をソートキーで区別し、各ソートキー毎に、該
グルーピング条件をデータの項目名とグルーピング対象
となる桁位置とで指定する。例えば、ソートキー1のレ
コードは、住所コードが先頭から8桁(町大字までの住
所コード)まで同じデータを同一グループにすることを
意味している。ソートキー2のレコードは、名義の読み
先頭一文字が同じデータを同一グループにすることを意
味している。どのソートキー(グルーピング条件)を適
用するかは、あらかじめユーザが指定しておく。この場
合、複数のソートキーを指定してもかまわないが、適用
する優先順位を定めておく。グルーピング処理では、指
定されたソートキーのグルーピング条件をもとに、一時
記憶装置30に格納された全データをソートすることで
グルーピングを行う。
【0030】図6はグルーピング結果の一例である。こ
の例は、図10に示したグルーピング条件定義ファイル
24に定義されているソートキー1を適用して、それぞ
れ、住所コードが先頭から8桁まで同じデータ集合を同
一グループにグルーピングしたものである。ここで、さ
らに図10に示したソートキー2を適用した場合には、
図6の各グループ内は、同一姓あるいは同一法人名単位
でさらにグルーピングされることになる。
【0031】次に、照合手段15では、一時記憶装置3
0に格納された全データについて、各データ間の照合を
行う。この場合、図6に示すように、一時記憶装置30
内のデータがグループ化されていれば、各グループ単位
でデータ間の照合を行うことができる。
【0032】照合手段15での照合処理は、図3で説明
したように、データ一致判定定義ファイル25及び照合
関数定義ファイル26に定義されたデータ一致判定ルー
ルと照合判定ルール(照合関数)を用いて行われる。こ
こでは、データ間一致度は、一致(ユーザチェック不
要)、見なし一致(ユーザチェックが必要)、不一致と
分類される。データ一致判定ルールと照合関数は、ユー
ザがあらかじめ定義しておく。
【0033】図11は、データ一致判定定義ファイル2
5の一例を示す。図11に示すように、データ一致判定
ファイル25において、データ間の一致度を決定する項
目と、データ間一致と見なせる各項目の評価値の下限の
値、及びそれらに対応するデータ間の一致度を定義す
る。この例では、データ間の一致度を決定する項目は、
住所と名義としている。1行目は、住所の照合結果の評
価値が90以上で、名義の照合結果の評価値が80以上
ならば、データ間は一致とすることを意味する。ここで
は、各項目が一致といえるのは評価値が90以上のとき
であり、見なし一致といえるのは評価値が80以上のと
きであるつもりで定義している。従って、1行目は、住
所が正確(一致)なら名義は多少不正確(見なし一致)
でもよいことを表し、2行目は、名義が正確(一致)な
ら住所は多少不正確(見なし一致)でもよいことを表し
ている。3行目は、住所も名義も見なし一致ならデータ
間の一致度は見なし一致となることを表している。実際
に照合過程でデータ間の照合を行う際は、1行目からチ
ェックしていって、該当する行があればその一致度をデ
ータ間の一致度として決定する。どの行にも該当しなけ
れば、データ間の一致度は不一致とする。
【0034】図12は、各照合項目に対する照合判定ル
ール(照合関数)を定義する照合関数定義ファイル26
の一例を示す。照合関数は住所と名義についてそれぞれ
定義する必要がある。
【0035】図12(a)は、住所の照合関数の一例を
表す。まず、住所の照合結果の評価値(住所の一致度)
を決定する項目と、住所が一致と見なせる各項目の評価
値の下限の値、及びそれらに対応する住所の照合結果の
評価値(一致度)を定義する。この例では、住所の照合
結果の評価値(住所一致度)を決定する項目は、(番地
・号を含む)住所コードと建物名としている。1行目
は、住所コードの評価値(一致度)が100で、建物名
の評価値(一致度)が80以上ならば、住所の照合結果
の評価値(一致度)を90とすることを意味する。後に
述べる住所コードと建物名の評価値(一致度)の定義に
より、1行目は号まで一致していれば、建物名は省略さ
れていても、住所は一致とすることを表している。同様
に2行目は字丁目まで一致しているときは、建物名は正
確(一致)であるとき、住所は一致とすることを表し、
3行目は字丁目まで一致して、建物名が多少不正確(見
なし一致)であるとき、住所は見なし一致とすることを
表している。実際に照合過程で住所の照合を行う際は、
1行目からチェックしていって、該当する行があればそ
の評価値を住所の照合結果の評価値(一致度)として決
定する。どの行にも該当しなければ、住所の照合結果の
評価値(一致度)は0とする。
【0036】次に、住所の照合結果の評価値(一致度)
を決定する各項目について、照合の際、適用する比較関
数とその比較関数が返す結果の種類を指定し、また、比
較関数が返す結果に対応する評価値(一致度)を定義す
る。比較関数そのものは、装置側で用意されている。
【0037】この例では、住所コードに適用する比較関
数として桁一致関数を指定している。桁一致関数の返す
結果としては、先頭から何桁目まで一致しているかを指
定する。ここでは、「号まで一致」、「番地まで一
致」、「字丁目まで一致」を指定しており、それぞれに
対する評価値(一致度)も定義している。実際に桁一致
関数が起動されたときは、照合対象のコードが先頭から
何桁目まで一致しているかを出し、それに該当する指定
桁数を決定し、該指定桁数に対応する評価値(一致度)
を返す。該当する指定桁数がなければ、評価値(一致
度)は0となる。
【0038】次に、建物名に適用する比較関数として、
名義曖昧一致関数と文字単位一致関数と単語単位一致関
数を指定している。
【0039】名義曖昧一致関数は、重み付けした単語単
位の一致による照合を行う比較関数の一つである。名義
曖昧一致関数は、照合対象項目の少なくとも一方が省略
されているときは、「少なくとも一方が省略」を返す。
そうでないときは、完全一致、揺らぎ削除一致、主要語
一致、固有名一致の処理を順に行う。各処理は、直前の
処理結果を入力として行う。どれかの処理で一致したな
らば、それより後の処理は実行しない。完全一致は項目
値が完全に一致するとき、一致とする。揺らぎ削除一致
は、長音・2重母音の揺らぎ、外来語の長音有無の揺ら
ぎ、拗音促音の揺らぎ、英字の大文字小文字の揺らぎ、
旧字体・新字体の揺らぎ、「・」等の不要記号有無の揺
らぎなどを正規化して一致するとき、一致とする。主要
語一致は、名・冠称地名・修飾語等の意味をもつ暖味語
を削除して一致するとき、一致とする。固有名とは、企
業名を識別する最小構成の語句であり、固有名一致は、
姓・企業固有名と職業、職業語尾を取り出して一致する
とき、一致とする。照合関数定義ファイル2−9で名義
曖昧一致関数を指定するときは、この関数の返す結果の
いずれかを指定し、指定結果に対する評価値(一致度)
を定義する。実際に名義曖昧一致関数が起動されたとき
は、指定された処理のみを実行し、返した結果に対応す
る評価値(一致度)を返す。いずれの指定結果にもなら
なかったときは、評価値(一致度)は0となる。
【0040】文字単位一致関数を指定する際は、その関
数が返す評価値(一致度)の最高点を指定する。この例
では100を指定している。実際に文字単位一致関数が
起動されたときは、その点に(一致した文字数/全体の
文字数)を掛けた点を一致度として返す。一致する文字
を探索する際は、文字の出現順序を考慮する。
【0041】同様に、単語単位一致関数を指定する際
も、その関数が返す評価値(一致度)の最高点を指定す
る。実際に単語単位一致関数が起動されたときは、その
点に(一致した単語数/全体の単語数)を掛けた点を評
価値(一致度)として返す。一致する単語を探索する際
は、単語の出現順序を考慮しない。このため、単語単位
一致関数を使用すると、語順逆転が起こっていても照合
可能である。さらに、単語数を計算する際、1単語を1
個とカウントするのではなく、単語のもつ意味により単
語を重み付けして、0〜1の範囲でカウントすることに
より、重み付けした単語単位の一致による照合を行う比
較関数にすることもできる。姓・企業固有名や職業、商
品等の意味をもつ単語の重みは重くし、名・冠称地名・
修飾語等の意味をもつ単語の重みを軽くすることが考え
られる。
【0042】この例の建物名のように、照合項目に適用
する比較関数を複数指定した場合、照合過程で当該項目
の照合を行う際は、全ての比較関数を起動して、それぞ
れの比較関数の返す評価値(一致度)のうち最高のもの
を当該項目の評価値(一致度)とする。
【0043】図12(b)は、名義の照合関数を表す。
名義も住所と同様の書き方をする。この例では、名義の
照合結果の評価値(名義の一致度)を決定する項目は、
法人名と部門名としている。1行目は、法人名が正確
(一致)なら、部門名が不正確(見なし一致)であって
も、名義は一致(評価値:95)とすることを表し、2
行目は、法人名が正確(一致)なら、部門名が不一致で
あっても、名義は一致(評価値:90)とすることを表
している。また、3行目は、法人名が不正確(見なし一
致)なら、部門名の照合結果の如何に関わらず、名義は
見なし一致(評価値:80)とすることを表している。
法人名、部門名に関する照合条件の記述の仕方も、建物
名と同様である。
【0044】ここでは、照合手段15において、図6の
グルーピング結果のデータ集合に対し、図11の照合判
定定義ファイルと図12の照合関数定義ファイルの照合
ルールに従って照合処理を行う場合について述べる。但
し、単語単位一致関数は単語の重み付けをしないものと
する。
【0045】図6のグループ1の2番目と3番目のデー
タについての照合において、住所コードは字丁目まで一
致なので評価値80であり、建物名は完全一致なので評
価値100である。従って、住所の照合結果の評価値は
90(一致)となる。2番目のデータの法人名は、「鈴
木(姓)/隆(名)/公認(修飾語)/会計(商品)/
事務所(職業語尾)」であり、主要語は「鈴木会計事務
所」となるので、3番目のデータの法人名と主要語一致
となる。文字単位一致関数や単語単位一致関数の返す評
価値は、主要語一致の評価値90より低いので、法人名
の評価値は90となる。部門名は両方ともないので評価
値80となり、従って、名義の照合結果の評価値は95
(一致)となる。結局、2番目と3番目のデータは一致
と判定される。グループ1の1番目と2番目の組、及び
1番目と3番目の組は不一致となることが同様にして得
られる。
【0046】図6のグループ2の1番目と2番目のデー
タについての照合において、住所コードは号まで一致な
ので評価値100であり、建物名は一方が省略されてい
るので評価値80である。従って、住所の照合結果の評
価値は90(一致)となる。1番目のデータの法人名
は、「日本(冠称地名)/不動産(商品)/協会(職業
語尾)」であり、主要語は「不動産協会」となるので、
2番目のデータの法人名と主要語一致となる。文字単位
一致関数や単語単位一致関数の返す評価値は、主要語一
致の一致度90より低いので、法人名の評価値は90と
なる。部門名は全く異なるので評価値0となり、従っ
て、名義の照合結果の評価値(一致度)は90(一致)
となる。結局、1番目と2番目のデータは一致と判定さ
れる。グループ2の1番目と3番目の組、及び2番目と
3番目の組は不一致となることが同様にして得られる。
【0047】図6のグループ3の1番目と2番目のデー
タについての照合において、住所コードは字丁目まで一
致なので評価値80である。建物名はそれぞれ「三井
(姓)/ビル(建物名)」、「三井(姓)/センター
(建物名)」であり、主要語一致とはならないが、固有
名はともに「三井」なので、固有名一致になる。文字単
位一致関数や単語単位一致関数の返す評価値は、固有名
一致の評価値85より低いので、建物名の評価値は85
となる。従って、住所の照合結果の評価値(一致度)は
80(見なし一致)となる。法人名はそれぞれ「伊藤
(姓)/英会話(商品)/教室(職業語尾)」、「伊藤
(姓)/外国語(商品)/教室(職業語尾)」であり、
主要語一致とはならないが、固有名はともに「伊藤教
室」なので、固有名一致となる。文字単位一致関数や単
語単位一致関数の返す評価値は、固有名一致の評価値8
5より低いので、法人名の評価値は85となる。部門名
は両方ともないので一致度80となり、従って、名義の
照合結果の評価値(一致度)は80(見なし一致)とな
る。結局、1番目と2番目のデータは見なし一致と判定
される。
【0048】結局、図6のデータ集合について、図7に
示すような照合結果が得られる。照合手段15では、一
致関係にあるデータには同一の一致ID及び見なし一致
IDを付与し、見なし一致関係にあるデータには同一の
見なし一致IDを付与し、どのデータ同士が名寄せされ
るべきか分かるようにする。
【0049】次に、住所解析過程で複数の住所コードが
出力された場合の処理について説明する。住所解析結
果、入力住所の曖昧さにより2つ以上の住所コードが出
力される場合がある。例えば、大字や町の有無で町大字
コードが異なる場合がある。「川越市富士見町」と「川
越市大字富士見」はどちらも正式住所名だが住所コード
における町大字コードが異なる。もし、入力住所が「川
越市富士見」であったなら、住所解析過程では「川越市
富士見町」と「川越市大字富士見」に対応する2つの住
所コードを出力する。このようなときは、データを一時
記憶装置30に格納する際、データを、得られた住所コ
ード数だけコピーし、住所コードだけ異なるようにして
おく。こうして展開されたデータをそれぞれ別データと
して扱い(どの元データから展開されたかの情報は、最
終的な出力結果で分かる必要があれば、各展開データに
付与しておく)、以降の処理を行っていく。このように
すると、一致データに洩れがないようにすることができ
る。例えば、入力データ1「川越市富士見」と入力デー
タ2「川越市大字富士見」があったとする。入力データ
1は住所解析の結果、データ1’「川越市富士見町」と
データ1”「川越市大字富士見」に展開される。ここ
で、データ1’のみ残して照合処理を進めていった場
合、データ1’(=入力データ1)と入力データ2は一
致と判断されない。しかし、データ1’とデータ1”の
両方について照合処理を進めていけば、データ1”(=
入力データ1)と入力データ2は一致と判断され、入力
データ1の側から見ても、入力データ2の側から見て
も、一致するデータに洩れがないようにすることができ
る。
【0050】以上、本発明の典型的な一実施例について
述べたが、本発明は、この実施例で述べたような1つの
データベース内での名寄せ処理だけでなく、一つの検索
キーとなるデータと一致するデータをデータベース内か
ら検索する処理や、2つのデータベースがあり、一方の
データベース中の各データと一致するデータをもう一方
のデータベース中で特定し、2つのデータベースをリン
ク付けする処理にも適用できる。
【0051】また、照合関数定義ファイルにおける照合
関数の記述においては、図12(a)では、住所の照合
条件の定義と、住所の構成項目の照合条件の定義の2段
構成であるが、住所の構成項目の照合条件を、さらにそ
れを構成する項目の組み合わせで記述するといった、3
段以上の構成にしてもよい。逆に、住所や名義の照合条
件として、直接、比較関数を指定するといった1段構成
にすることもできる。
【0052】住所や名義の照合結果の評価値を決定する
項目として、住所解析や名義解析の結果得られる項目以
外の項目を指定してもよい。例えば、住所の照合結果の
評価値(一致度)を決定する項目として、すでに入力デ
ータにある郵便番号項目を含ませることができる。他に
も、入力データに住所項目が無く、郵便番号項目と建物
名項目がある場合、郵便番号項目と建物名項目からなり
たつ仮想の住所項目があるものとして、住所の照合関数
を記述することもできる。
【0053】また、データ一致判定定義ファイルにおけ
るデータの一致度を決定する要素として、例えば、建物
名と法人名の照合結果をとることもできる。法人名がと
きとして、建物名にもなっている場合があるからであ
る。これまで照合対象として、同一の項目の値同士を照
合させることを考えてきたが、このように、2つの異な
る項目の値同士を照合させることも考えることができ、
照合判定定義ファイルや照合関数定義ファイルに記述す
る照合項目として、2つの異なる項目の組を記述するこ
とも可能である。
【0054】上記に挙げた以外にも、本発明は特許請求
の範囲の記載内で、様々な変更や拡張が可能である。
【0055】なお、図1で示したデータ処理装置10に
おける各手段の一部もしくは全部の処理機能をコンピュ
ータのプログラムで構成し、そのプログラムをコンピュ
ータを用いて実行して本発明を実現することができるこ
と、あるいは、図2及び図3で示した処理手順をコンピ
ュータのプログラムで構成し、そのプログラムをコンピ
ュータに実行させることができることは言うまでもな
い。また、コンピュータでその処理機能を実現するため
のプログラム、あるいは、コンピュータにその処理手順
を実行させるためのプログラムは、コンピュータが読み
取り可能な記憶媒体、例えば、FDや、MO、ROM、
メモリカード、CD、DVD、リムーバブルディスクな
どに記録して、保存したり、提供したりすることができ
るとともに、インターネット等のネットワークを通して
そのプログラムを配布したりすることが可能である。
【0056】
【発明の効果】以上説明したように、本発明では、住所
や名義を構成する詳細項目に関する照合結果を組み合わ
せて住所や名義の一致度を算出するので、住所や名義の
情報が不完全であっても的確な住所や名義の照合を行
え、照合率が向上するという効果がある。また、照合ル
ールが人間の直観に即した階層的な構成であるので、照
合ルールを定義するのが容易である。名義を照合する際
は、名義を構成する単語の中で重要な単語を重視して照
合を行うことで、重要でない単語に省略・誤謬があった
り、単語列に語順逆転があっても的確な照合が可能であ
る。また、複数に展開された住所コードの全てについて
照合を行うことで、一致データに洩れがないようにする
ことができる。また、データのグルーピングにより、高
速な照合処理が可能である。
【図面の簡単な説明】
【図1】本発明のデータベース生成装置の構成例を示す
ブロック図である。
【図2】本発明のデータベース生成方法のフローチャー
トの一例である。
【図3】照合処理の詳細フローチャートの一例である。
【図4】入力データの一例である。
【図5】住所と名義の解析結果の一例である。
【図6】グルーピング結果の一例である。
【図7】照合結果の一例である。
【図8】住所テーブルの一例である。
【図9】単語の意味一覧の一例である。
【図10】グルーピング条件定義ファイルの一例であ
る。
【図11】データ一致判定定義ファイルの一例である。
【図12】照合関数定義ファイルの一例である。
【符号説明】
10 データ処理装置 11 データ入力手段 12 住所解析手段 13 名義解析手段 14 グルーピング手段 15 照合手段 16 照合結果出力手段 20 外部記憶装置 21 住所解析用単語辞書 22 住所テーブル 23 名義解析用単語辞書 24 グルーピング条件定義ファイル 25 データ一致判定定義ファイル 26 照合関数定義ファイル 30 一時記憶装置

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 住所情報及び名義情報を含む入力データ
    の集合に対してデータ間の照合を行って一致度を求め、
    該一致度を用いて重複しているデータを削除してデータ
    ベースを生成する装置であって、 地名、番地、建物名等の単語情報を登録した住所解析用
    単語辞書と、地名と住所コードの対応を登録した住所テ
    ーブルと、姓・名や企業名・部門名等の単語情報を登録
    した名義解析用単語辞書と、住所及び名義の照合条件と
    照合結果の評価値との対応を定義した照合関数定義ファ
    イルと、住所の照合結果の評価値と名義の照合結果の評
    価値によるデータ一致条件とデータ一致度との対応を定
    義したテデータ一致判定定義ファイルとを記憶した記憶
    手段と、 入力されたデータの住所情報について、前記住所解析用
    単語辞書を用いて地名、番地、建物名等に分解し、前記
    住所テーブルを用いて、前記地名は住所コードに置き換
    えて、各住所項目ごとに細分化した住所情報を得る住所
    解析手段と、 前記入力されたデータの名義情報について、前記名義解
    析用単語辞書を用いて個人・法人等の区別、姓・名や企
    業名・部門名等に分解して、各名義項目ごとに細分化し
    た名義情報を得る名義解析手段と、 前記各住所項目ごとに細分化された住所情報及び前記各
    名義項目ごとに細分化された名義情報を含むデータの集
    合を対象に、前記データ集合中のそれぞれ二つのデータ
    について、前記照合関数定義ファイルの住所の照合条件
    をもとに、各住所情報から照合項目を選択して住所情報
    の照合を行い、住所の照合結果の評価値を求め、前記照
    合関数定義ファイルの名義の照合条件をもとに、各名義
    情報から名義の照合項目を選択して名義情報の照合を行
    い、名義の照合結果の評価値を求め、前記求まった住所
    及び名義の照合結果の各評価値により、前記データ一致
    判定定義ファイルのデータ一致条件をもとに前記二つの
    データ間の一致度を決定する照合手段と、を有すること
    を特徴とするデータベース生成装置。
  2. 【請求項2】 請求項1記載のデータベース生成装置に
    おいて、照合手段は、前記照合関数定義ファイルの住所
    及び名義の照合条件をもとに、住所情報や名義情報の選
    択された照合項目の完全一致、文字単位の一致、単語単
    位の一致照合を行うことを特徴とするデータベース生成
    装置。
  3. 【請求項3】 請求項1もしくは2記載のデータベース
    生成装置において、照合手段は、住所解析手段にて一つ
    のデータの住所情報について複数の住所コードが得られ
    た場合、当該データに対して、各住所コード対応の複数
    のデータを生成し、それぞれ別のデータとして照合する
    ことを特徴とするデータベース生成装置。
  4. 【請求項4】 請求項1、2もしくは3記載のデータベ
    ース生成装置において、 住所項目や名義項目を基準にデータ集合をグループ化す
    る条件(以下、グルーピング条件)を定義したグルーピ
    ング条件定義ファイルと、各住所項目ごとに細分化され
    た住所情報及び各名義項目ごとに細分化された名義情報
    を含むデータの集合を、前記グルーピング条件定義ファ
    イルのグルーピング条件をもとにグループ化するグルー
    ピング手段とを具備し、 照合手段は、前記グルーピング手段でグループ化された
    各グループごとに、当該グループ内のデータ間の照合を
    行うことを特徴とするデータベース生成装置。
  5. 【請求項5】 住所情報及び名義情報を含む入力データ
    の集合に対してデータ間の照合を行って一致度を求め、
    該一致度を用いて重複しているデータを削除してデータ
    ベースを自動生成する方法であって、 入力されたデータの住所情報について、地名、番地、建
    物名等の単語情報を登録した住所解析用単語辞書を用い
    て地名、番地、建物名等に分解し、地名と住所コードの
    対応を登録した住所テーブルを用いて、前記地名は住所
    コードに置き換えて、各住所項目ごとに細分化した住所
    情報を得る住所解析過程と、 前記入力されたデータの名義情報について、姓・名や企
    業名・部門名等の単語情報を登録した名義解析用単語辞
    書を用いて個人・法人等の区別、姓・名や企業名・部門
    名等に分解して、各名義項目ごとに細分化した名義情報
    を得る名義解析過程と、 前記各住所項目ごとに細分化された住所情報及び前記各
    名義項目ごとに細分化された名義情報を含むデータの集
    合を対象に、前記データ集合中のそれぞれ二つのデータ
    について、住所の照合条件と照合結果の評価値との対応
    を定義した住所の照合判定ルールをもとに、各住所情報
    から照合項目を選択して住所情報の照合を行い、住所の
    照合結果の評価値を求め、名義の照合条件と照合結果の
    評価値との対応を定義した名義の照合判定ルールをもと
    に、各名義情報から名義の照合項目を選択して名義情報
    の照合を行い、名義の照合結果の評価値を求め、前記求
    まった住所及び名義の照合結果の各評価値により、住所
    の照合結果の評価値と名義の照合結果の評価値によるデ
    ータ一致条件とデータ一致度との対応を定義したデータ
    一致判定ルールをもとに前記二つのデータ間の一致度を
    決定する照合過程と、を有することを特徴とするデータ
    ベース生成方法。
  6. 【請求項6】 請求項5記載のデータベース生成方法に
    おいて、前記照合過程では、住所及び名義の照合判定ル
    ールをもとに、住所情報や名義情報の選択された照合項
    目の完全一致、文字単位の一致、単語単位の一致照合を
    行うことを特徴とするデータベース生成方法。
  7. 【請求項7】 請求項5もしくは6記載のデータベース
    生成方法において、照合過程では、住所解析過程にて一
    つのデータの住所情報について複数の住所コードが得ら
    れた場合、当該データに対して、各住所コード対応の複
    数のデータを生成し、それぞれ別のデータとして照合処
    理することを特徴とするデータベース生成方法。
  8. 【請求項8】 請求項5、6もしくは7記載のデータベ
    ース生成方法において、 各住所項目ごとに細分化された住所情報及び各名義項目
    ごとに細分化された名義情報を含むデータの集合を、住
    所項目や名義項目を基準にデータ集合をグループ化する
    条件を定義したグルーピングルールをもとにグループ化
    するグルーピング過程を具備し、 照合過程では、前記グルーピング過程でグループ化され
    た各グループごとに、当該グループ内のデータ間の照合
    を行うことを特徴とするデータベース生成方法。
  9. 【請求項9】 請求項5、6、7もしくは8記載のデー
    タベース生成方法をコンピュータで実行させるためのデ
    ータベース生成処理プログラム。
JP2001371635A 2001-12-05 2001-12-05 データベース生成装置、データベース生成方法及びデータベース生成処理プログラム Expired - Lifetime JP3812818B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001371635A JP3812818B2 (ja) 2001-12-05 2001-12-05 データベース生成装置、データベース生成方法及びデータベース生成処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001371635A JP3812818B2 (ja) 2001-12-05 2001-12-05 データベース生成装置、データベース生成方法及びデータベース生成処理プログラム

Publications (2)

Publication Number Publication Date
JP2003173345A true JP2003173345A (ja) 2003-06-20
JP3812818B2 JP3812818B2 (ja) 2006-08-23

Family

ID=19180653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001371635A Expired - Lifetime JP3812818B2 (ja) 2001-12-05 2001-12-05 データベース生成装置、データベース生成方法及びデータベース生成処理プログラム

Country Status (1)

Country Link
JP (1) JP3812818B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072985A (ja) * 2004-08-30 2006-03-16 Microsoft Corp あいまいな重複に強い検出器
JP2006163941A (ja) * 2004-12-08 2006-06-22 Nec Corp 重複レコード検出システム、および重複レコード検出プログラム
JP2007110319A (ja) * 2005-10-12 2007-04-26 Sharp Corp 電子機器、電子機器の属性情報設定システム
JP2008065494A (ja) * 2006-09-06 2008-03-21 Katsuyoshi Nagashima 住所名寄サーバおよび住所名寄方法
JP2008250861A (ja) * 2007-03-30 2008-10-16 Fujitsu Ltd コード変換システム、コード変換方法、コード対応関係情報生成方法、およびコンピュータプログラム
JP4869448B1 (ja) * 2011-07-08 2012-02-08 株式会社ぐるなび 名寄せ管理システム
JP2012073951A (ja) * 2010-09-29 2012-04-12 Fujitsu Ltd 文字列比較プログラム、文字列比較装置及び文字列比較方法
CN102999618A (zh) * 2012-11-30 2013-03-27 深圳市络道科技有限公司 基于地址归户的个人行为属性信息库建立方法及系统
JP2013235486A (ja) * 2012-05-10 2013-11-21 Toshiba Corp 住所検索装置、住所検索方法、及び住所検索プログラム
JP2015165435A (ja) * 2008-10-23 2015-09-17 アビニシオ テクノロジー エルエルシー グラフベース計算におけるデータ記録
JP2020173708A (ja) * 2019-04-12 2020-10-22 日本瓦斯株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072985A (ja) * 2004-08-30 2006-03-16 Microsoft Corp あいまいな重複に強い検出器
JP4687089B2 (ja) * 2004-12-08 2011-05-25 日本電気株式会社 重複レコード検出システム、および重複レコード検出プログラム
JP2006163941A (ja) * 2004-12-08 2006-06-22 Nec Corp 重複レコード検出システム、および重複レコード検出プログラム
JP2007110319A (ja) * 2005-10-12 2007-04-26 Sharp Corp 電子機器、電子機器の属性情報設定システム
JP4704880B2 (ja) * 2005-10-12 2011-06-22 シャープ株式会社 デジタルテレビ受信機
JP2008065494A (ja) * 2006-09-06 2008-03-21 Katsuyoshi Nagashima 住所名寄サーバおよび住所名寄方法
JP2008250861A (ja) * 2007-03-30 2008-10-16 Fujitsu Ltd コード変換システム、コード変換方法、コード対応関係情報生成方法、およびコンピュータプログラム
JP2015165435A (ja) * 2008-10-23 2015-09-17 アビニシオ テクノロジー エルエルシー グラフベース計算におけるデータ記録
JP2012073951A (ja) * 2010-09-29 2012-04-12 Fujitsu Ltd 文字列比較プログラム、文字列比較装置及び文字列比較方法
JP4869448B1 (ja) * 2011-07-08 2012-02-08 株式会社ぐるなび 名寄せ管理システム
JP2013235486A (ja) * 2012-05-10 2013-11-21 Toshiba Corp 住所検索装置、住所検索方法、及び住所検索プログラム
CN102999618A (zh) * 2012-11-30 2013-03-27 深圳市络道科技有限公司 基于地址归户的个人行为属性信息库建立方法及系统
CN102999618B (zh) * 2012-11-30 2016-02-24 深圳市络道科技有限公司 基于地址归户的个人行为属性信息库建立方法及系统
JP2020173708A (ja) * 2019-04-12 2020-10-22 日本瓦斯株式会社 情報処理装置、情報処理方法及びプログラム
JP7336869B2 (ja) 2019-04-12 2023-09-01 日本瓦斯株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP3812818B2 (ja) 2006-08-23

Similar Documents

Publication Publication Date Title
KR101276602B1 (ko) 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법
US8468167B2 (en) Automatic data validation and correction
US9195639B2 (en) Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates
RU2697647C1 (ru) Система и метод автоматического создания шаблонов
JP3812818B2 (ja) データベース生成装置、データベース生成方法及びデータベース生成処理プログラム
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN111209753A (zh) 一种实体命名识别方法及装置
JP3126945B2 (ja) 文字誤り校正装置
JP4185399B2 (ja) 顧客データ管理装置、顧客データ管理方法および顧客データ管理用プログラムならびに顧客データ管理用プログラムを格納した記録媒体
Weitz et al. Mining MARC's hidden treasures: initial investigations into how notes of the past might shape our future
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JPH10240901A (ja) 文書ファイリング装置及び文書ファイリング方法
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
Doherr The SearchEngine: A holistic approach to matching
JP2005190141A (ja) 情報区分装置、情報区分方法及び情報区分プログラム
CN113746946A (zh) 全球地址解析器
JP2655087B2 (ja) 文字認識後処理方式
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JP3548372B2 (ja) 文字認識装置
JP2000090193A (ja) 文字認識装置および項目分類方法
JP3252104B2 (ja) エンティティの一覧中に発見された所与のエンティティにマッチするものを等級分けする方法
JP2001092830A (ja) 文字列の照合装置およびその方法
JP4361655B2 (ja) 文章入力装置及び記録媒体
JPH0256086A (ja) 文字認識の後処理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060525

R151 Written notification of patent or utility model registration

Ref document number: 3812818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090609

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110609

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120609

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130609

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140609

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term