JPH09293076A - データグループ化方法 - Google Patents

データグループ化方法

Info

Publication number
JPH09293076A
JPH09293076A JP8106812A JP10681296A JPH09293076A JP H09293076 A JPH09293076 A JP H09293076A JP 8106812 A JP8106812 A JP 8106812A JP 10681296 A JP10681296 A JP 10681296A JP H09293076 A JPH09293076 A JP H09293076A
Authority
JP
Japan
Prior art keywords
data
group
same
grouping
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8106812A
Other languages
English (en)
Inventor
Koichi Yoshizu
弘一 吉津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8106812A priority Critical patent/JPH09293076A/ja
Publication of JPH09293076A publication Critical patent/JPH09293076A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】データベースから検索したデータ群をグループ
化する際に、データ登録時に設定したグループ化属性を
用いるのではなく、各データの持つ属性を比較しグルー
プ化の判断を行うことで、予めグループ化属性を持たせ
てデータを登録することなしに、検索したデータ群をグ
ループ化する方法を提供することにある。 【解決手段】データベースから検索したデータ群をグル
ープ化するために、データ群を構成する各データの属性
を比較した結果を5属性評価テーブルに設定し、このテ
ーブルをもとに2つのデータからなるデータのグループ
化を行い、各グループ間で共通のデータを共有するグル
ープ同士を結合し新たなグループとすることでグループ
化を行っていく。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベース(D
B)の情報検索方法に係わるもので、検索されたデータ
群を個々のデータが有する属性によってグループ化する
データグループ化方法に関する。
【0002】
【従来の技術】従来のデータベース(DB)の検索で
は、例えば、特開平6−44309号公報に記載されて
いるように、データ間でグループ化を行う際に、それぞ
れ異なるキーワードを持った2つのデータをキーワード
管理部によって同一グループとしてのグループ識別子を
与えキーワード管理テーブルに保存したのちデータベー
スに登録したデータに対してのみ有効であり、登録時に
同一グループとしての関連付けがされていないデータ間
には対応していなかった。
【0003】
【発明が解決しようとする課題】複数のデータベース
(DB)から同一のキーワードによって検索されたデー
タ群に対して、これらの中から同一のデータをグループ
化しようとした場合、予めデータを各データベース(D
B)に登録する際に、グループ化属性を設定したテーブ
ルを作成しておき、検索時にこのグループ化属性テーブ
ルの情報をもとに検索を行う必要があり、グループ化属
性を持たないデータベース(DB)では、グループ化検
索が行えないという課題があった。
【0004】本発明の目的は、これを改善するために、
データ群をグループ化する為に各データの持つ属性を比
較しグループ化の判断を行うことで、予めグループ化属
性を持たせてデータを登録することなしに、検索したデ
ータ群をグループ化するデータグループ化方法を提供す
ることにある。
【0005】
【課題を解決するための手段】上記目的を達成する為
に、本発明では、データ群をグループ化する為の最小単
位となる、2個のデータ間で属性の比較を行い、属性内
容が一致したものを2個のデータからなるグループとし
て、グループ化を行う。これらのグループ間に共通する
データが存在した場合、A=Bかつ、B=Cならば、A
=Cの関係を用いてデータAとデータBのグループとデ
ータBとデータCのグループをA=B=Cの同一グルー
プとして、新たに再構築してゆく。この様に生成された
グループ同士をグループ間に共通するデータを介して、
より大きなグループを生成していくことでグループ化を
行う方法である。
【0006】
【発明の実施の形態】以下、本発明の一実施例を図面に
より詳細に説明する。
【0007】図1は、本発明の一実施例で、データベー
ス(DB)から抽出した同姓同名者の中から同一人を推
定するシステムを示す説明図である。
【0008】図2は、本発明の一実施例で、データベー
ス(DB)の各記録の構成を示す図である。
【0009】図3は、本発明の一実施例である、データ
ベース(DB)から抽出した同姓同名者の中から同一人
を推定するシステムの処理過程を示すフロー図である。
【0010】図4は、属性評価テーブルを使った本デー
タグループ化方式による同一人推定過程を説明する図で
ある。
【0011】図1において、1はカナ氏名、生年月日、
性別が検索キーの1つであるデータベース(DB)A、
2はカナ氏名、生年月日、性別が検索キーの1つである
データベース(DB)B、3はカナ氏名、生年月日、性
別が検索キーの1つであるデータベース(DB)C、4
は1,2,3のデータベースから、カナ氏名,生年月
日,性別をキーワードとして抽出された同姓同名者を登
録する同姓同名者抽出テーブルである。同姓同名者抽出
テーブル4には、氏名及び、それぞれのデータベースで
記録をユニークに管理するために用いられている識別I
D情報からなる。5は同姓同名者抽出テーブル4に登録
された個人データが持つ属性内容を比較した結果を登録
する属性評価テーブル、6は属性評価テーブル5をもと
に判定したグループ化情報を登録するグループ抽出テー
ブル、7はグループ抽出テーブル6をもとに結果を整理
したグループ判定結果テーブルである。
【0012】図2において、8は、検索キーのカナ氏名
に対する漢字の氏名を収録している漢字氏名記録であ
る。漢字氏名記録8は、一部の登録者にしか存在しな
い。9は、各登録者の住所をカタカナで収録している住
所記録である。カタカナで収録されているため異なる住
所であっても同音異義語の関係で比較結果が同じ住所と
判定される場合も有り得るため、判定結果に曖昧さを生
む結果となる。10は、各登録者の被扶養者のカナ氏
名、生年月日、性別を収録している被扶養者記録であ
る。被扶養者の氏名がカタカナで登録されている為、同
音異義語の関係で比較結果が同じであっても、この記録
の登録者同士が同一人で無い場合も有り得るため、判定
結果に曖昧さを生む結果となる。
【0013】図3において、11は、データベースAを
カナ氏名、生年月日、性別をキーとして検索する処理ボ
ックス,12は、データベースBをカナ氏名、生年月
日、性別をキーとして検索する処理ボックス,13は、
データベースCをカナ氏名、生年月日、性別をキーとし
て検索する処理ボックス,14は、住所記録9の内容を
比較し2人の登録者が同一人であるかを判定する処理,
15は、住所記録9による判定結果を属性評価テーブル
5に設定する処理ボックス,16は、被扶養者記録10
の内容を比較し2人の登録者が同一人であるかを判定す
る処理,17は、被扶養者記録10による判定結果を属
性評価テーブル5に設定する処理ボックス,18は、漢
字氏名記録8の内容を比較し2人の登録者が同一人であ
るかを判定する処理,19は、漢字氏名記録8による判
定で内容が一致した場合の判定結果を属性評価テーブル
5に設定する処理ボックス,20は、漢字氏名記録8に
よる判定で内容が一致しなかった場合の判定結果を属性
評価テーブル5に設定する処理ボックス,21は属性評
価テーブル5の設定内容を判定してグループ抽出テーブ
ル6を生成する処理ボックス,22は、グループ抽出テ
ーブル6の設定内容からグループ判定結果テーブル7を
生成する処理ボックスである。
【0014】次に、本実施例のデータベース(DB)か
ら抽出した同姓同名者の中から同一人を推定するシステ
ムの処理手順について図3で述べる。
【0015】まず、データベース(DB)A1をカナ氏
名、生年月日、性別を検索キーとして検索し(11)、
次に、データベース(DB)B2をカナ氏名、生年月
日、性別を検索キーとして検索し(12)、さらに、デ
ータベース(DB)C3をカナ氏名、生年月日、性別を
検索キーとして検索し、検索結果を同姓同名者抽出テー
ブル4に登録する。次に、同姓同名者抽出テーブル4に
登録された8人の同姓同名者に対して、この8人の中か
ら任意の2人を選ぶ組数=28組(=8×7/2×1)
全てに対して、住所記録10、被扶養者記録11、漢字
氏名記録8、の内容を比較する。まず、住所記録9の内
容を比較し(14)、カタカナの県、市区町村名、番地
が一致する場合は、属性評価テーブル5の当該欄に評価
値(数値)を設定する(15)。次に、被扶養者記録1
0の内容を比較し(16)、被扶養者のカナ氏名、生年
月日、性別が一致する場合は、属性評価テーブル5の当
該欄に評価値(数値)を設定する(17)。さらに、漢
字氏名記録8の内容を比較し(18)、漢字氏名が一致
する場合は、属性評価テーブル5の当該欄に評価値(数
値)を設定する(19)。なお、複数の記録属性が一致
している場合は、評価値は合算することで同一人として
の結びつきの強弱を重み付けする。ただし、漢字氏名記
録8の内容の比較(18)に於いては、漢字氏名と登録
者の結び付きが強い(同姓同名者の存在確率が低い)こ
とから、比較結果が不一致の場合、属性評価テーブル5
の当該欄の評価値を0設定し(20)、全ての判定結果
を無効にする。次に、属性評価テーブル5を使って本デ
ータグループ化方法によりグループ化を行った結果をグ
ループ抽出テーブル6に設定する。最後に、グループ抽
出テーブル6の結果をグループ単位にソートし、グルー
プ判定結果テーブル7に設定する。
【0016】次に、属性評価テーブル5を使った本デー
タグループ化方法による同一人推定過程について図6で
述べる。
【0017】まず、表属性評価テーブル5において、縦
の座標及び横の座標(ただし、縦の座標>横の座標の領
域)により指し示される各配列要素が、各同姓同名者間
の同一人性を表している。ここで、各要素に設定されて
いる評価値が0より大きいものを属性評価テーブル5よ
り抽出すると、項番1−項番2、項番1−項番4、項番
1−項番8、項番2−項番5、項番3−項番6、項番4
−項番8、項番5−項番8、項番6−項番7の計8つの
同一人のグループが抽出される。
【0018】次に、本データグループ化方法によって、
これらの2つのデータからなるグループを共通項によっ
て結合し、新たなグループ化を行う。
【0019】具体的には、項番1−項番2のグループと
項番1−項番4のグループは、項番1のデータを互いに
グループの要素として持つから、新たに項番1−項番2
−項番4の3つのデータからなるグループとし、更に、
このグループと項番1−項番8のグループとは、項番1
のデータを互いにグループの要素として持つから、新た
に項番1−項番2−項番4−項番8の4つのデータから
なるグループとしてグループ化を行う。項番2−項番5
のグループも項番2を互いのグループ要素として持ち、
また、項番4−項番8のグループ及び、項番5−項番8
のグループも項番4、項番5、項番8の要素を互いのグ
ループとして持つことより、最終的に項番1−項番2−
項番4−項番5−項番8の5つのデータからなるグルー
プとして抽出される。
【0020】同様に、項番3−項番6のグループと項番
6−項番7のグループは項番6のデータを互いのグルー
プの要素として持つから、新たに項番3−項番6−項番
7の3つのデータからなるグループとして抽出される。
【0021】以上により、8人からなる同姓同名者は、
項番1−項番2−項番4−項番5−項番8のグループと
項番3−項番6−項番7の2つのグループにグループ化
される。
【0022】
【発明の効果】従来の技術では、検索したデータをグル
ープ化する為にデータベース(DB)へのデータ登録の
段階で、グループ化属性を設定し、検索時にこのグルー
プ化属性を利用してグループ化抽出を行う為、データ登
録の段階からグループ化を意識して属性を設定していな
いデータベースに対しては、グループ化を行えないとい
う問題点があったが、本発明では、従来技術で必要とし
ていたデータ登録時に設定したグループ化属性を使うこ
と無しに抽出段階で、各データがデータベース(DB)
上に持つ属性を比較属性として使用することでグループ
化を行う為、データ登録時に設定したグループ化属性を
必要とすること無しに、検索したデータをグループ化し
た検索結果が得られる。
【0023】また、検索時に検索キーの一部にデータ属
性を追加して検索条件を厳しくすることで検索条件を絞
り込み1つのグループとしてデータを抽出するのと違
い、本データグループ化方式では、グループ化したいデ
ータ間の全てに共通の属性項目が設定されていないデー
タであってもグループ化を行うことができる。
【0024】さらに、本データグループ化方式では、比
較属性の選択の仕方によって、その比較属性が持つ比較
属性一致時の曖昧性(例えば、カナ表記属性による同音
異義語)を利用することで、本実施例1のように同姓同
名者の中から同一人物を推定するといった曖昧検索を行
うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例で、データベース(DB)か
ら抽出した同姓同名者の中から同一人を推定するシステ
ムを示す説明図である。
【図2】本発明の一実施例で、データベース(DB)の
各記録の構成を示す図である。
【図3】本発明の一実施例である、データベース(D
B)から抽出した同姓同名者の中から同一人を推定する
システムの推定過程を示すフロー図である。
【図4】本発明の一実施例である、データベース(D
B)から抽出した同姓同名者の中から同一人を推定する
システムの推定過程を示すフロー図である。
【図5】本発明の一実施例である、データベース(D
B)から抽出した同姓同名者の中から同一人を推定する
システムの推定過程を示すフロー図である。
【図6】属性評価テーブルを使った本データグループ化
方法による同一人推定過程を説明する図である。
【符号の説明】
1…カナ氏名、生年月日、性別を検索キーの1つに持つ
データベース(DB)A、2…カナ氏名、生年月日、性
別を検索キーの1つに持つデータベース(DB)B、3
…カナ氏名、生年月日、性別を検索キーの1つに持つデ
ータベース(DB)C、4…データベース(DB)A
1、データベース(DB)B2、データベース(DB)
C3から、カナ氏名、生年月日、性別をキーワードとし
て抽出された同姓同名者を登録する同姓同名者テーブ
ル、5…同姓同名者抽出テーブル4に登録された各個人
データが持つ属性内容を比較した結果を登録する属性評
価テーブル、6…属性評価テーブル5をもとに本データ
グループ化出法により判定したグループ化情報を登録す
るグループ抽出テーブル、7…グループ抽出テーブル6
の設定結果をグループ単位に整理したグループ判定結果
テーブル、8…検索キーのカナ氏名に対する漢字の氏名
を収録している漢字氏名記録、9…各登録者の住所をカ
タカナで収録している住所記録、10…各登録者の被扶
養者のカナ氏名、生年月日、性別を収録している被扶養
者記録。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】データ群の中から任意の2個のデータの組
    み合わせ全てに対して、個々のデータが持つ属性同士を
    比較し2個のデータからなるグループを決定し、次に、
    このグループ間に共通のデータを持つグループ同士を新
    たなグループとして結合生成していくことを特徴とする
    データグループ化方法。
  2. 【請求項2】単独あるいは、複数のデータベースにまた
    がったデータ検索において、複数の検索条件(キーワー
    ド)を使って抽出されたデータ群の中から請求項1の方
    法によりグループ化を検索結果としたことを特徴とする
    データ検索方法。
JP8106812A 1996-04-26 1996-04-26 データグループ化方法 Pending JPH09293076A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8106812A JPH09293076A (ja) 1996-04-26 1996-04-26 データグループ化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8106812A JPH09293076A (ja) 1996-04-26 1996-04-26 データグループ化方法

Publications (1)

Publication Number Publication Date
JPH09293076A true JPH09293076A (ja) 1997-11-11

Family

ID=14443258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8106812A Pending JPH09293076A (ja) 1996-04-26 1996-04-26 データグループ化方法

Country Status (1)

Country Link
JP (1) JPH09293076A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250693A (ja) * 2004-03-02 2005-09-15 Tsubasa System Co Ltd 文字情報分類プログラム
JP2008027104A (ja) * 2006-07-20 2008-02-07 Sharp Corp 端末装置およびコンテンツ記録方法
US10318702B2 (en) 2016-01-19 2019-06-11 Ford Motor Company Multi-valued decision diagram reversible restriction

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250693A (ja) * 2004-03-02 2005-09-15 Tsubasa System Co Ltd 文字情報分類プログラム
JP2008027104A (ja) * 2006-07-20 2008-02-07 Sharp Corp 端末装置およびコンテンツ記録方法
US10318702B2 (en) 2016-01-19 2019-06-11 Ford Motor Company Multi-valued decision diagram reversible restriction
US10318703B2 (en) 2016-01-19 2019-06-11 Ford Motor Company Maximally standard automatic completion using a multi-valued decision diagram
US10318701B2 (en) 2016-01-19 2019-06-11 Ford Motor Company Resolving configuration conflicts using a multi-valued decision diagram
US10325063B2 (en) 2016-01-19 2019-06-18 Ford Motor Company Multi-valued decision diagram feature state determination

Similar Documents

Publication Publication Date Title
JP5306359B2 (ja) 複数言語によるデータ記録を関連付ける方法およびシステム
KR100850255B1 (ko) 실시간 데이터 웨어하우징
US9323738B2 (en) Classification of ambiguous geographic references
CA2588922C (en) Computer readable medium, method and apparatus for preserving filtering conditions to query multilingual data sources at various locales when regenerating a report
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
US8495151B2 (en) Methods and systems for determining email addresses
US20090182755A1 (en) Method and system for discovery and modification of data cluster and synonyms
WO2007143899A1 (fr) Système et procédé pour l'extraction intelligente et le traitement d'informations
CA2620770A1 (en) Local search
CA2471592A1 (en) Systems, methods and software for hyperlinking names
US6691103B1 (en) Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
Christen et al. A probabilistic geocoding system based on a national address file
Paulus et al. Gathering and Combining Semantic Concepts from Multiple Knowledge Bases.
US20030126119A1 (en) Method of searching a specific website by means of a numerical code combined from a plurality of specific phone numbers
JP2000339330A (ja) 座標付きホームページ情報収集提供方法、記録媒体及び装置
WO1998049632A1 (en) System and method for entity-based data retrieval
JPH09293076A (ja) データグループ化方法
JPH08272806A (ja) データベース検索システム
JPH1069487A (ja) あいまい名称による情報の管理方法
JPH0644309A (ja) データベース管理方式
JPH1153383A (ja) 複数データベースの検索方法及びその検索プログラム等を記録した記録媒体
JP3478558B2 (ja) データベースヘのオブジェクト格納検索方法
JP2001034621A (ja) 文書分類管理システム
JPH05250414A (ja) キーワード検索方式
CN112364032B (zh) 基于互联网技术的数据中台数据查询方法