JP2000339351A - 選択的に関連させられたデータベースレコードの識別のためのシステム - Google Patents

選択的に関連させられたデータベースレコードの識別のためのシステム

Info

Publication number
JP2000339351A
JP2000339351A JP2000106789A JP2000106789A JP2000339351A JP 2000339351 A JP2000339351 A JP 2000339351A JP 2000106789 A JP2000106789 A JP 2000106789A JP 2000106789 A JP2000106789 A JP 2000106789A JP 2000339351 A JP2000339351 A JP 2000339351A
Authority
JP
Japan
Prior art keywords
data
record
database
records
affiliation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000106789A
Other languages
English (en)
Inventor
Douglas R Mccormack
ダグラス、アール.マコーマック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Reclaim Technologies & Service
Reclaim Technologies & Services Ltd
Original Assignee
Reclaim Technologies & Service
Reclaim Technologies & Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reclaim Technologies & Service, Reclaim Technologies & Services Ltd filed Critical Reclaim Technologies & Service
Publication of JP2000339351A publication Critical patent/JP2000339351A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 ユーザが定めたレコードに関連しているデー
タベースレコードを識別する。 【解決の手段】 所与のデータベース中の種々のレコー
ドのおのおのの間の関係を、データベースレコード内に
含まれている各データフィールドにユーザにより割当て
られた重要度値と突合せ法により決定する。又、データ
ベースレコードと特に目標とされたレコードまたはデー
タの範囲内に散在されている複数の参照点との間の所属
度値(「DOB」)を重要度値及び突合せ法を用いて計
算して、関連するデータベースレコードを識別するのに
使用する。更に、ユーザによる分析と検証を容易にする
ために、関連するデータベースレコードの表を生成す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザが割当てた
重要度値を基にして選択的に関連させられているデータ
レコードを識別するための方法及び装置の少なくとも一
方を備えるシステム、並びに、各データフィールドの突
合せ法に関するものである。更に詳しくいえば、本発明
は、関連するデータベースレコードをユーザにより定め
られたものとして識別するために、ファジー論理および
データマイニング(mining)技術を使用するものであ
る。
【0002】
【従来の技術】コンピュータ時代の始まり以来、コンピ
ュータシステムは膨大な量のデータの累積および蓄積に
有効であった。それらの初期のコンピュータシステムの
大量のデータの分析は、下位レベルの個々の処理に主と
して的を絞っていた。しかし、今日は、増加しつつある
データを基にしてより高いレベルの評価、知識の発見お
よび判断を行うことがコンピュータ・システムにとって
重要になってきている。
【0003】コンピュータ・システムが大量のデータか
ら傾向の判断及び認識を行うというこの新しい需要の結
果として、エキスパートシステムおよび人工知能として
知られている種々のコンピュータ・システムが開発され
てきた。大量のデータを処理するそれらのシステムはデ
ータマイニングと呼ばれるコンピュータソフトウエア技
術をしばしば使用する。データマイニングというのは、
大きなデータベースに含まれている異なるデータ項目の
間の相関を見出だすために統計技術を用いる技術であ
る。データマイニングは、データにおけるパターンと傾
向を特定すること、および、新しい知識の創造へ向かう
そのデータの分析を含む。データマイニングの主な目標
は、大量のデータに隠されている重要な情報を明らかに
することである。データを分析して、そのデータについ
ての判断を行うために特殊化されたコンピュータ・シス
テムが開発されているが、大きな問題が依然として存在
する。その問題の1つは、同一の正確なデータを含んで
いない関連するデータベースレコードの識別である。こ
の問題は何等一つの産業に限定されず、関連する保険の
支払い請求を行うとき、及び、関連する指紋の特定、無
数の他のデータ集中評価を試みるときに起こる。
【0004】関連するデータベースレコードを識別でき
るコンピュータ・システムの製造における最大の障害は
2進論理である。2進論理はただ2つの状態、即ち、偽
を表す「0」と、真を表す「1」、を有する。ほとんど
のコンピュータ、およびそれらのコンピュータのための
プログラミングソフトウエアは2進論理に基づいてい
る。従って、それらのコンピュータが0状態と1状態と
の間のどこかで一層正確に表されている事象を認識する
ことは非常に困難である。
【0005】コンピュータ知識を表す新しい手法が最近
の30年間で出現した。その知識は急速に発展する技術
となっている。この新しい技術は「ファジー」論理とし
て知られている。ファジー論理は、我々の周囲の世界に
おける不確実さを取扱うことができるために、知識のモ
デル化のために使用されてきた。この不確実さ、すなわ
ち、ファジーネスは、2進論理、すなわち、伝統的なブ
ール論理では不適切に対処されている。ファジー論理シ
ステムは、例えば、次の出版物において記述されてい
る。
【0006】(1) ファジー論理:実際的手法(Fu
zzy Logic:A Practical App
roach),by McNeil,et al.,
AP Professional,1994 (2)ファジーシステムズ・ハンドブック(The F
uzzy Systems Handbook),by
Cox,AP Professional,1994 どのような論理系も変数と、集合と、規則とで構成され
ている。2進コードの基礎である、独自の(0−1)集
合理論を基にした既存のシステムは、真の存在又は非存
在に基づき真を評価する。集合の構成要素であること
は、あるものが構成要素であるかどうかについて質問
し、「肯定」または「否定」を答えることによって決定
される。真は存在と非存在との間のどこかにあることが
しばしばであるために、「クリスプ(crisp)」論
理としても知られているこの種の思考には欠陥がある。
間のどこかに入るというそれらの状況、または「いくぶ
ん」ファジー、を記述するために、ファジー論理は言語
変数を用いる。その後で、言語変数に関連させられたフ
ァジー集合をつくることができる。集合の各構成要素
に、集合における構成要素度、所属度または類似度が割
当てられる。類似度は百分率で通常表されている。クリ
スプ論理は最終的にはファジー論理に包含される。ファ
ジー集合の構成要素のうち、類似度が0%と100%に
等しいものはクリスプ論理値0と1に対応する。
【0007】そうすると、ファジー系の基礎であるファ
ジー規則を作成するために、言語変数およびファジー集
合が用いられる。ファジー論理の利点は、クリスプデー
タから言語変数およびファジー集合にひとたび翻訳され
ると、完全に確立されている数学原理によって情報を取
扱うことができることである。作業が終わると、情報は
再び翻訳されてクリスプデータとして出力される。それ
らのファジー系は複雑な非線形システムを簡単に記述で
きる。
【0008】ファジー論理は神経ネットワークと共に用
いられて、不確実さを取扱うファジー論理の能力を、分
類およびパターン突合せを行う神経ネットワークの能力
に組合わせていた。神経ネットワークは、節と重み付け
られたリンクとで構成されている。所与の節への信号
は、その信号が正確な結果に導くものであるならば、強
められ、その信号が不正確な結果に導くものであるなら
ば、その信号は弱められる。その不正確な結果は、新し
いデータを処理するために使用できるパターンをネット
ワークに「教える」。神経ネットワークは、規則および
論理構造に基づいていない。ファジー系は神経系の制御
システムとして用いられてきており、神経系はファジー
規則を生ずるために用いられてきた。ファジー系は、ど
のデータベースレコードが相互間または特定のレコード
との間にファジー関係を持っているかを決定することに
より、「関連させられた」データベースレコードを識別
するために使用することができる。
【0009】多数の企業の既存のコンピュータ・システ
ムが関連するデータベースレコードを識別できないため
に、それらの企業は莫大な金を失っている。それらの損
失は、コンピュータ・システムが特定しようと試みてい
る預金口座番号または顧客名をデータ入力者が誤入力し
た結果であることがある。それらの種類のデータ入力誤
りは企業の生産性と効率に悪影響を及ぼす。たとえば、
コンピュータ・システムが関連する保険請求を特定でき
ないことから生ずる損失は、再保険請求において何百万
ドルものコストを保険会社に掛けることがある。関連す
るデータベースレコードを選択的に識別するために、あ
らゆる種類のデータに普遍的に適用でき、データマイニ
ング技術と、ファジー論理技術と、神経ネットワーク技
術とを利用するコンピュータ・システムは、大量のデー
タを分析しなければならない任意の数の企業にとっては
極めて価値がある。
【0010】
【発明が解決しようとする課題】本発明の目的は、ユー
ザーにより定められた選択的に関連させられているデー
タベースレコードの識別のために広範囲な種類のデータ
に使用できる方法と装置の少なくとも一方を含むシステ
ムを提供することである。
【0011】本発明の他の目的は、特に目標とされてい
るデータベースレコードに選択的に関連させられている
データベースレコードを識別することである。
【0012】本発明の別の目的は、総ての構成要素が相
互に選択的に関連させられているような、データベース
レコードのクラスタを識別することである。
【0013】本発明の更に別の目的は、データベース内
のデータレコードの間の関係を所定の選択基準に従って
識別する方法を提供することである。
【0014】本発明の更に別の目的は、データベース内
のデータレコードの間の関係を決定するデータ処理装置
を提供することである。
【0015】
【課題を解決するための手段】本発明によれば、所定の
共通フォーマットによりデータフィールドをおのおの有
する複数のデータレコードを含んでいるデータベースを
用意するステップと、上記データレコードの間の上記関
係の決定に使用するために、重要度値を、選択されたレ
コード内の選択されたデータフィールドに割当てるステ
ップと、上記データレコードの間の上記関係の決定に使
用するために、突合せ値を選択されたレコード内の選択
されたデータフィールドに割当てるステップと、上記割
当てられた値を処理するモードを複数のデータ処理モー
ドから選択するステップと、上記データベース内の各デ
ータレコードとモードに特有の参照基準との間の第1の
所属度を取出すステップと、各データレコードへの上記
所属度を上記各データレコードに対応するプロジェクト
レコードに割当てるステップと、所定の第1の所属度を
有する上記データレコードを選択するステップと、保
存、別の処理及び解析の少なくともいずれかのために上
記選択されたデータレコードをグループ化するステップ
と、を備えるデータベース内のデータレコードの間の関
係を所定の選択基準に従って識別する方法が得られる。
【0016】また本発明によれば、データを処理するプ
ロセッサと、機械が実行できるコマンドを記憶するため
の第1のメモリ手段と、データベース内のデータレコー
ドを記憶するための第2のメモリ手段とを有する計算装
置と、命令とデータとの少なくとも一方を外部ソースか
ら受け入れるための入力装置と、 処理されたデータを
知覚できる方法で伝達する出力装置と、データベース内
のデータレコードの間の関係を識別するためのデータ処
理ルーチンと、を備え、このルーチンは、前記データベ
ース内の各データレコードと、割当てられた重要度値と
選択されたデータレコードに対応する突合せ法とに基づ
くモードに特有の参照基準との間の第1の所属度を取出
し、前記データレコードのおのおのへの所属度を、前記
データレコードのおのおのに対応するプロジェクトレコ
ードに割当て、所定の第1の所属度を有する前記データ
レコードを選択し、保存、別の処理及び解析の少なくと
もいずれかのために前記選択されたデータレコードをグ
ループ化するものである、データベース内のデータレコ
ードの間の関係を決定するデータ処理システムが得られ
る。
【0017】本発明は、同じ種類の活動についてのデー
タをデータベースレコードが含んでおり、ユーザにより
決定された関連させられたデータベースレコードを選択
的に識別するための方法と装置の少なくとも一方で構成
されている自動化されたシステムである。本発明は、×
×××××××××××××××××××××××××
×××××××××××××××××××××××××
×××××××××××××××××××××××××
という商標の下で現在入手できる。そのシステムは、た
とえば、容疑者の発見、詐欺の判定、病気の診断または
再保険請求のファイリングのために、関連させられてい
る保険請求、化学式、医学的診断、写真、指紋、音声パ
ターン等を識別するため広範囲な種類のデータに使用す
ることができる。
【0018】このシステムは関連するデータベースレコ
ードを識別するために突合せ技術またはクラスタ化技術
のいずれかを使用することができる。ユーザが特に目標
とされているレコードに関連するデータベースレコード
を識別することを望んだときに突合せ技術は用いられ
る。特に目標とされているレコードに関連させられてい
ないが、類似性に基づき相互に関連させられているデー
タベースレコードの群、すなわち、クラスタを識別する
ことをユーザーが望んだときに、クラスタ化技術は用い
られる。
【0019】種々のデータベースレコードの間の類似性
は、ユーザが定めた基準により決定される。ユーザが定
めた基準は、データベースレコード内に含まれている各
データフィールドに割当てられている重要度値と突合せ
法により構成されている。各データフィールドに割当て
られている重要度値は、ユーザにより0と100の間で
選択される数である。重要度値の数は、帰属度値(「D
OB」)、または、データベースレコード対の任意の部
分の間若しくはデータベースレコードと参照点との間の
関連性の決定における各データフィールドの寄与の強さ
を示す。
【0020】ユーザが各データフィールドに割当てる突
合せ法は、本発明が各データフィールドに対して実行す
る突合せの種類を示す。データベースレコードは、各デ
ータフィールド内の種々のデータを含むことができるか
ら、システムにより実行すべき適切な種類の突合せをユ
ーザは示す。ユーザは、データフィールドに含まれてい
る特定のデータに応じて、数値突合せ、日時突合せ、綴
り類似突合せ(Spelled−Like Match
ing)、発音類似突合せ(Sound−Like M
atching)、姓突合せ、キーワード突合せ等を含
めたいくつかの異なる種類の突合せを実行することを望
むことができる。
【0021】突合せ技術を用いて、このシステムは、特
に目標とされたレコードと他のデータベースレコードの
おのおのとの間の1つのDOBを、重要度値と各データ
フィールドに割当てられた突合せの近さとを基にして計
算する。システムは、DOBを用いて特に目標とされて
いるレコードに関連しているデータベースレコードを識
別する。
【0022】しかし、クラスタ化技術が用いられるもの
とすると、システムは、各データベースレコードと、
「マーカーポスト」と呼ばれている複数の参照点との間
のDOBを計算する。それらのマーカーポストは、疑似
レコードであって、データの範囲全体にわたって広く散
乱されている。第1のマーカーポストは、最大量に設定
されている第1のマーカーポストのデータフィールド値
の総てを基にしてそのデータ範囲内に配置できる。第2
のマーカーポストのデータフィールド値の総てをその最
少量に設定することにより、データの範囲内の異なる場
所に第2のマーカーポストを配置できる。第3のマーカ
ーポストの最大量に設定されているデータフィールドの
値の半分と、第3のマーカーポストの最少量に設定され
ているデータフィールドの値の他の半分とを基にして、
第3のマーカーポストをそのデータの範囲内に配置でき
る。平均量に設定されている第4のマーカーポストのデ
ータフィールド値の総てを基にしてそのデータの範囲内
に第4のマーカーポストを配置すること等ができる。こ
のシステムは、データベースレコードとマーカーポスト
との間のDOBのおのおのを用いて関連するデータベー
スレコードのクラスタを生ずる。
【0023】このシステムは、突合せ技術またはクラス
タ化技術を用いて関連するデータベースレコードの最後
の表を生成する。この表は、ハードコピーのためにプリ
ンタへ出力でき、または、ユーザが直接分析または検査
するためにビデオスクリーンに出力できる。
【0024】本発明のそれらの目的およびその他の目的
は、本発明の以下の詳細な説明および添付図面から明ら
かになるであろう。
【0025】
【発明の実施の形態】本発明は、同じ種類の処理または
その他の識別できる基準についてのデータをデータベー
スレコードが含んでおり、ユーザにより決定された関連
させられたデータベースレコード100を選択的に識別
するための方法及び装置の少なくとも一方で構成されて
いる自動化されたシステムである。このシステムは、オ
ペレータ入力手段と、データ伝達手段(表示装置または
その他の知覚できる読出し手段)と、データ蓄積手段と
を有するコンピュータ装置に常駐する、機械が実行でき
るデータ処理ルーチンで構成されている。本発明は、容
疑者の発見、詐欺の判定、病気の診断または再保険請求
のファイリングのために、写真、医学的診断、指紋、化
学式等の範囲に及ぶ各種のデータに使用できる。説明の
ために、この詳細な説明では保険請求データを用いる。
【0026】まず、本発明の実施例を示すフローチャー
トである図1を参照する。本発明のシステムは以下のス
テップを有する。分析すべきデータを標準化されたデー
タファイルまたはデータベースレコード(「オリジナル
データベース」)に編成する(ステップ2000)。ユ
ーザは、データベースレコードに含まれている各データ
フィールド102〜122に対する重要度値数と突合せ
形式を設定する(ステップ2100)。ユーザは、デー
タに対して突合せモード2310またはクラスタ化モー
ド2310検索のいずれを実行すべきかを選択する(ス
テップ2300)。突合せモードが選択されるとすると
(ステップ2310)、ユーザは、突合せをされるべき
目標データベースレコード(「目標レコード」)を入力
しなければならない(ステップ2500)。その後で、
プログラムは総てのデータベースレコード100を走査
して、目標レコードと他のデータベースレコードのおの
おのとの間の突合せ度または所属度(「DOB」)を割
当てる(ステップ3100)。ユーザーが突合せモード
を選択したとすると、データベースレコード100をそ
の突合せモードDOBに基づき分類する(ステップ38
00)。ユーザがクラスタ化モードを選択したとすると
(ステップ2320)、プログラムは、データ範囲内に
広く隔てられているいくつかの参照点(「マーカーポス
ト」)200〜220を割当てる(ステップ540
0)。その後でプログラムは、データベースレコード1
00を走査して、全データベースレコード100と各マ
ーカーポストとの間にクラスタ化モードDOBを割当て
る(ステップ5800)。ユーザは、クラスタサイズ及
びしきい値を選択する(ステップ5900)。プログラ
ムはクラスタ化モードDOBを最も近いクラスタへの概
数にする(ステップ6100)。総てのマーカーポスト
200〜220に対して同じ概数にされたクラスタ化モ
ードDOBを有するデータベースレコード100を同一
のクラスタに割当てる(ステップ6500)。しきい値
より小さい合計値を有するクラスタは無視される(ステ
ップ6700)。データベースレコード100は、クラ
スタおよびクラスタ値によって分類される(ステップ6
900)。突合せモード(ステップ2310)またはク
ラスタ化モード(ステップ2320)ルーチンが終わる
と、選択されたデータベースレコードを更に分析するた
めにユーザに表示する(ステップ8100)。その後
で、ユーザにより選択されたデータベースレコードは、
分離されたデータファイルに出力される(ステップ90
00)。
【0027】どの種類のデータを分析するかをユーザが
ひとたび決定すると、ユーザはデータベースレコード1
00のための標準化されたフォーマットを選択する。標
準化されたフォーマット、または、使用すべきオリジナ
ルデータベース2000は処理すべきデータの種類に依
存する。典型的なオリジナルデータベース2000は、
特定の保険請求情報のデータフィールドを30から50
含んでいるデータベースレコード100を含むことがで
きる。それらのデータフィールドは、たとえば、請求番
号、事故発生年、企業名、プロフィットエリア(pro
fit area)、保険証券番号、年次ステートメン
トライン(annual statement lin
e)、保険証券の種類、ワークライン適用範囲(wor
k line coverage)、保険証券の状態、
リスク状態、緯度、経度、事故発生市、事故発生郡(c
ounty)、事故状況、保険証券発効日、保険証券終
了日、損失の日付、報告日、開かれているまたは閉じら
れている時の状態、カタストロフコード番号、損失の種
類、損失の原因、請求者番号、事故コード、これまでの
支払い額、未払い額(amount outstand
ing)、割当てられた額、経費、これまでの回収額等
を含むであろう。当然、それらのデータフィールドの細
目は産業ごとに、また、集められているデータの種類に
より異なる。
【0028】図2は、保険請求情報を含んでいる11の
データフィールド102〜122から構成されている標
準化されたデータベースレコード100の例を示す。し
かし、先に述べたように、データベースレコード100
は、50またはそれ以上のデータフィールドにより構成
できる。オリジナルデータベース2000は、同一の標
準化されたフォーマットをおのおの有する何千および何
百万ものデータベースレコードにより構成されている。
オリジナルデータベース2000が分析すべきデータベ
ースレコード100で一杯になった後で、ユーザーは関
連するデータベースレコード100を選択的に識別する
ためにデータの処理を開始することができる。
【0029】データベースレコード100の間の類似性
は、ユーザーが定める2部分基準によって決定される。
ユーザーが定める基準は、データベースレコード100
内に含まれている各データフィールド102〜122に
割当てられている重要度値と突合せ法により構成されて
いる。重要度値は、ユーザーにより各データフィールド
102〜122に割当てられる「0」から「100」ま
での数である。重要度値の数は、各データベースレコー
ド10のDOBまたは類似性の決定における各データフ
ィールドの寄与の強さを表す。たとえば、ユーザーは、
重要度の最大値100を社会保障番号データフィールド
106に割当てて、同一人についての保険請求情報を含
む総てのデータベースレコード100を識別することが
できる。あるいは、ユーザーは社会保障番号データフィ
ールドに対する重要度値を最小値に設定して、損失の日
付データフィールド122を100に等しくして同じ日
の近くで起きた保険損失を含むデータベースレコード1
00を識別することができる。ユーザは、データベース
レコード100の全体の類似性の決定において、各デー
タフィールド102〜122が含む重要度を決定する能
力を有する。
【0030】逆に、ユーザが各データフィールド102
〜122に割当てる突合せ法は、特定の各データフィー
ルドに対してどの種類の突合せを実行すべきであるかを
示す。データベースレコード100は、各データフィー
ルド102〜122に各種のデータを含むことができる
ので、ユーザは個々の各データフィールドに含まれてい
るデータに対して実行すべき適切な種類の突合せを選択
する。特定の任意のデータフィールド102〜122に
対してユーザが選択できる異なる種類の突合せ法は、数
値突合せ、日時突合せ、綴り類似突合せ、発音類似突合
せ、姓突合せ等を含む。たとえば、ユーザは姓データフ
ィールド104のために綴り類似突合せを選択できる。
同様に、ユーザは同じ種類のファジー論理を用いて請求
IDデータフィールド120に対して数値突合せを実行
することを選択することができる。
【0031】本発明は、類似性を判定するためにデータ
処理においていくつかの種類のDOBアルゴリズムを用
いる。まず、あらゆるデータベースレコード100に含
まれている各データフィールド102〜122と、目標
レコードまたは各マーカーポスト200〜220内の各
データフィールドとの間でDOB値を計算する。次に、
各データベースレコード100と、目標レコードまたは
各マーカーポスト200〜220との間で全体のDOB
値を計算する。全体のDOBはデータフィールド102
〜122DOB結果から取出す。
【0032】種々のDOBを計算するために使用される
いくつかのアルゴリズムの例が次の通りである。
【0033】例1 数値DOBをどのように計算する
:Delta=考察されている2つのレコードの間の
値の差に設定する。
【0034】DeltaMax=データベース全体にわ
たってこのフィールドに対する最小値と最大値との間の
値の差に設定する。
【0035】[日時DOB=(1−(Delta/De
ltaMax))×100] 例2 日時DOBをどのように計算するか:Delta
=2つのレコードの間の日プラス日の一部の差に設定す
る。
【0036】DeltaMax=データベース全体にわ
たってこのフィールドに対する最初の日付と最後の日付
の間の日プラス日の一部の差に設定する。
【0037】[数DOB=(1−(Delta/Del
taMax))×100] 例3 綴り類似DOBをどのように計算するか:下記
は、Dr.Dobbs Journal、1988年7
月号46ページ記載の、RatcliffおよびMct
znerにより公開されたゲシュタルト(Gestal
t)アルゴリズムについての記述である。
【0038】PとQが比較すべき2つの文字列を表すも
のとする。
【0039】PとQにより共用されている最も広い副文
字列として文字列Sを見出す。
【0040】PLをPのうちSの左に残っている部分を
表すものとする。
【0041】PRをPのうちSの右に残っている部分を
表すものとする。
【0042】QLをQのうちSの左に残っている部分を
表すものとする。
【0043】QRをQのうちSの右に残っている部分を
表すものとする。
【0044】SLをPLとQLの間で共用されている最
も広い共通副文字列を表すものとする。
【0045】SRをPRとQRの間で共用されている最
も広い共通副文字列を表すものとする。
【0046】[綴り類似DOB=[長さ(S)+長さ
(SL)+長さ(SR)]/長さ(P)+長さ(Q)]
×200] 例4 発音類似DOBをどのように計算するか:下記は
サウンデックスアルゴリズムの典型的な実現についての
記述である。このアルゴリズムは英語言語についてのみ
対象とするものである。結果の最終的なファジー化はC
orMac Technologies Inc.によ
り考えられたものである。
【0047】2つの文字列のおのおのを取り、それらの
文字列を次のようにしてサウンデックスコードに変換す
る。
【0048】大文字に変換し、アルファベットでないキ
ャラクタはいずれも除去する。
【0049】合字を単一字で置き換える。
【0050】文字列の最初の文字をそのまま残すことを
除き、母音,「H」及び「W」を除去する。
【0051】文字列の2番目の文字で初め、下記の置換
を行うときに1つのキャラクタずつステップする
「B」、「F」、「P」、「V」を「」で置き換え
る。
【0052】「C」、「G」、「J」、「K」、「Q」
「S」「X」「Z」を「」で置き換える。
【0053】「D」、「T」を「」で置き換える。
【0054】「L」を「4」で置き換える。
【0055】「M」、「N」を「」で置き換える。
【0056】「R」を「」で置き換える。
【0057】結果は完成されたサウンデックスコード
(soundex code)である。
【0058】2つのサウンデックスコードを上記「発音
類似」(ゲシュタルト)技術で処理することによりそれ
らのコード中の類似性の量をファジー化する。
【0059】例5 姓DOBをどのように計算するか
下記は姓突合せのために特化されたサウンデックスアル
ゴリズムの記述である。結果の最終的なファジー化はC
orMac Technologies Inc.によ
り考えられたものである。
【0060】2つの文字列のおのおのを取り、それらを
下記のようにしてサウンデックスコードに変換する。
【0061】大文字に変換し、アルファベットでないキ
ャラクタはいずれも除去する。
【0062】文字列が「MAC」で始まっているなら
ば、「MCC」に変換する。
【0063】文字列が「SCH」で始まっているなら
ば、「SSS」に変換する。
【0064】文字列が「KN」で始まっているならば、
「NN」に変換する。
【0065】文字列が「PF」で始まっているならば、
「FF」に変換する。
【0066】この点を越えて最初の文字にはどのような
変更も行ってはならない。
【0067】どの「DG」も「GG」に変更する。
【0068】どの「CAAN」も「TAAN」に変更す
る。
【0069】どの「D」も「T」に変更する。
【0070】どの「NST」も「NSS」に変更する。
【0071】どの「AV」も「AF」に変更する。
【0072】どの「Q」も「G」に変更する。
【0073】どの「Z」も「S」に変更する。
【0074】どの「M」も「N」に変更する。
【0075】どの「KN」も「NN」に変更する。
【0076】どの「K」も「C」に変更する。
【0077】どの「AH」も「AA」に変更する。
【0078】どの「HA」も「AA」に変更する。
【0079】どの「AW」も「AA」に変更する。
【0080】どの「PH」も「FF」に変更する。
【0081】どの「SCH」も「SSS」に変更する。
【0082】文字列が今は「A」または「S」で終わっ
ているならばそのキャラクタを除去する。
【0083】文字列が今は「NT」で終わっているなら
ば「TT」に変更する。
【0084】ここで総ての母音(「A」、「E」、
「I」、「O」、「U」、「Y」)を除去する。
【0085】ここで総ての合字を単一字に変更する。
【0086】2つの姓サウンデックスコードを上記「綴
り類似」(ゲシュタルト)技術で処理することによりそ
れらのコード中の類似性の量をファジー化する。
【0087】例6 キーワードDOBをどのように計算
するか:考察されているフィールドが指定されたキーワ
ードを少なくとも1つ含んでいるならば、キーワードD
OB=1である。
【0088】考察されているフィールドが指定されたキ
ーワードのいずれも含んでいなければ、キーワードDO
B=0である。
【0089】例7 データベースレコードに対する全体
のDOBをどのように計算するか:フィールドの総てが
DOB値にひとたび割当てられたとすると、それらのD
OB値の総てを1つの全体値に組合わせる必要がある。
【0090】この方法は多次元空間内でのベクトル長さ
を計算することに類似する。
【0091】零より大きい重要性を持つあらゆるフィー
ルドに対して、[Delta=1−DOB/100]を
用いてフィールドDOBをフィールドDeltaに変更
する。
【0092】調整されたDelta=Delta×De
lta×Importance/100を用いてフィー
ルドDeltaを調整されたフィールドDeltaに変
更する。
【0093】Zで総ての調整されたフィールドDelt
aの和を表させる。
【0094】Sで総ての(Importance/10
0)の和を表させる。
【0095】全体のDOB=[1−(Z/S)の平方
根]×100 上記アルゴリズムには、本発明が実行することができ、
かつ、利用することができる無数の変形と、各種の突合
せ法がある。それは単に所望のアルゴリズムを本発明に
当てはめることである。したがって、本発明は、上の例
で述べたアルゴリズムのみを用いることに限定されない
ことを当業者は理解すべきである。
【0096】オリジナルデータが、各データフィールド
102〜122に割当てられた重要度値と突合せ法を有
する標準化されたフォーマットオリジナルデータベース
2000になった後で、ユーザは、検索モードを選択す
る(ステップ2300)。ユーザは、突合せモード(ス
テップ2310)またはクラスタ化モード(ステップ2
320)に本発明を用いるという選択肢を有する。ユー
ザが、特に目標とされたレコードに関連させられている
データベースレコード100を識別することをユーザが
希望したときに、突合せモード(ステップ2310)が
採用される。一実施例においては、目標レコードを手動
でシステムに入力でき、またはオリジナルデータベース
2000から既存のデータベースレコード100に設定
できる。その後で、図1のステップ3100に示されて
いるように、本発明は、特に目標とされたレコードと、
オリジナルデータベース2000に含まれている他のデ
ータベースレコード100のおのおのとの間の突合せモ
ードDOB300を計算する。
【0097】突合せモードDOB300は、重要度値
と、データベースレコード100のデータフィールド1
02〜122のおのおのに割当てられた突合せの近さと
によって決定される。図4を参照して、突合せモードの
DOB300を計算した後で、システムは、プロジェク
トファイル290を作成する。プロジェクトファイル2
90は、オリジナルデータベース2000に含まれてい
る各データベースレコード100に対応する個々のプロ
ジェクトレコードで構成されている。プロジェクトファ
イル290は、適切なプロジェクトレコードの第1の欄
内の各データベースレコード100に対応する突合せモ
ードのDOB300を蓄積する。
【0098】本発明の一実施例においては、プロジェク
トファイル290は次のような情報、すなわち、対応す
るデータベースレコード100の同一性、各データフィ
ールド102〜122に対する突合せ法の種類、各デー
タフィールドに対する重要度値、クラスタ和のために使
用すべき番号フィールド、最後の突合せモード(ステッ
プ2310)検索の結果、最後のクラスタ化モード(ス
テップ2320)検索の結果、を含むように構成され
る。プロジェクトファイル290は、関連するデータベ
ースレコード100を識別するために重要である、突合
せモードのDOB300とクラスタ化モードDOB31
0〜330を含む、パラメータの集合である。種々のデ
ータベースレコード100は、その対応するプロジェク
トレコードに含まれている種々のDOBにより分類およ
び配列される。オリジナルデータベース2000の同一
性は、プロジェクトファイル290を、オリジナルデー
タベース2000から分離されたままにすることによっ
て維持される。単一のオリジナルデータベース2000
は、いくつかのプロジェクトファイル290の主題とす
ることができる。データベースレコード100をその適
切なプロジェクトレコードに相関させるためにインデク
シングシステムが用いられる。このシステムは、各デー
タベースレコード100が目標にされたレコードに関連
させられたデータベースレコード100を分類および識
別するために、突合せモードDOB300を用いる。
【0099】しかし、図1を参照して、クラスタ化モー
ドが用いられているものとすると(ステップ232
0)、本発明は、ステップ5800に示されているよう
に、各データベースレコード100と複数のマーカーポ
スト200〜220との間でクラスタ化DOBを計算す
る。マーカーポスト200〜220は、オリジナルデー
タベース2000に含まれている実際のデータベースレ
コード100を表さず、むしろ、データベースレコード
100の種々のデータフィールド102〜122から作
成された参照値を表す。従って、図3及び図4はマーカ
ーポスト200〜220がデータベースレコード100
にどのように関連するかについての概念 (実際的でな
い)図である。
【0100】図3及び図4に示されているように、理想
的なマーカーポスト200〜220は、各データフィー
ルド102〜122に割当てられた値を基にして、デー
タの範囲全体にわたって広く散在させられている。たと
えば、第1のマーカーポスト200を、最大に設定され
ているマーカーポストのデータフィールドの値の総てに
ついて計算された、データの範囲内に配置することがで
きる。第2のマーカーポスト210のデータフィールド
の値の総てをその最小に設定することによって、第2の
マーカーポスト210をデータの範囲内の異なる場所に
配置することができる。最大に設定されている第3のマ
ーカーポスト230のデータフィールドの値の半分と、
最小に設定されている第3のマーカーポスト230のデ
ータフィールドの値の他の半分とを基にして、第3のマ
ーカーポスト210をデータの範囲内の別の場所に配置
できる。
【0101】各データベースレコード100に対するク
ラスタ化モードDOB310〜330も、プロジェクト
ファイル290に含まれているそれらのDOBの対応す
るプロジェクトレコードに保存されている。本発明の一
実施例においては、各データベースレコード100に対
する第1のマーカーポストのためのクラスタ化モードD
OB310は、プロジェクトレコードの欄2に保存され
る。各データベースレコード100に対する第2のマー
カーポストのためのクラスタ化モードDOB320は、
プロジェクトファイル290内の適切なプロジェクトレ
コードの欄3に保存される。各データベースレコード1
00に対する第3のマーカーポストのためのクラスタ化
モードDOB330は、プロジェクトレコードの欄4に
保存される。以下、利用されているマーカーポストの数
と同数のクラスタ化モードDOBがそのようにして保存
される。
【0102】マーカーポストのDOB310〜330の
総てがひとたび完成させられると、ユーザは各クラスタ
化モード検索(ステップ2320)に対するクラスタサ
イズとしきい値を設定および変更できる。クラスタ化モ
ード2320中は、本発明は各データベースレコード1
00に対するクラスタ化モードDOBを最も近いクラス
タへの概数にする。本発明は、総てのマーカーポスト2
00〜220に対する同一の全体の概数にされたDOB
を有するデータベースレコード100の総てを同一のク
ラスタに割当てる。ユーザが定めたしきい値量より小さ
い合計値を有するクラスタは無視される。本発明は、デ
ータベースレコード100をクラスタおよびクラスタ値
により分類することによって、クラスタ化モード検索
(ステップ2320)を終了する。
【0103】突合せモード検索(ステップ2310)と
クラスタ化モード検索(ステップ2320)が終わる
と、本発明は、ユーザが更に分析するために関連するデ
ータベースレコード100を表示する。図5は、突合せ
モード検索(ステップ2310)を行うためにユーザに
より用いられるスクリーンの表示である。同様に、図6
に表示されているスクリーンは、クラスタ化モード検索
(ステップ2320)を行うためにユーザにより用いら
れる。2つのスクリーンのおのおのは、ユーザが付加検
査のために、ユーザがあるデータベースレコード100
を選択できるようにする性能を有する。ユーザにより選
択されたデータベースレコード100は、更に調べるた
めにデータファイルと視覚的に知覚できる読出し装置と
の少なくとも一方に出力される。
【図面の簡単な説明】
【図1】本発明の好適な実施例のステップを示すフロー
チャートである。
【図2】特定の処理または事項に関するデータを保存す
るための一般的なデータ構造またはデータベースレコー
ドである。
【図3】3つのマーカーポストがデータの範囲全体にわ
たって分配されている4つのデータベースレコードの概
念的表現である。
【図4】3つのマーカーポストがデータの範囲全体にわ
たって分配されている4つのデータベースレコードと、
4つのデータベースレコードのおのおのに対応する4つ
のプロジェクトレコードを含んでいるプロジェクトファ
イルとの概念的表現である。
【図5】本発明の方法において手動介入のために突合せ
モード検索が終わったときにユーザが用いるスクリーン
の表示である。
【図6】本発明の方法において手動介入のためにクラス
タ化モード検索が終わったときにユーザーが用いるスク
リーンの表示である。
【符号の説明】
100 データベースレコード 102〜122 データフィールド 200〜220 マーカーポスト 290 プロジェクトファイル

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】データベース内のデータレコードの間の関
    係を所定の選択基準に従って識別する方法において、 所定の共通フォーマットによりデータフィールドをおの
    おの有する複数のデータレコードを含んでいるデータベ
    ースを準備するステップと、 前記データレコードの間の前記関係の決定に使用するた
    めに、重要度値を選択されたレコード内の選択されたデ
    ータフィールドに割当てるステップと、 前記データレコードの間の前記関係の決定に使用するた
    めに、突合せ値を選択されたレコード内の選択されたデ
    ータフィールドに割当てるステップと、 前記割当てられた値を処理するモードを複数のデータ処
    理モードから選択するステップと、 前記データベース内の各データレコードとモードに特有
    の参照基準との間の第1の所属度を取出すステップと、 前記各データレコードへの前記所属度を前記各データレ
    コードに対応するプロジェクトレコードに割当てるステ
    ップと、 所定の第1の所属度を有する前記データレコードを選択
    するステップと、 保存、別の処理及び解析の少なくともいずれかのために
    前記選択されたデータレコードをグループ化するステッ
    プと、を備えるデータベース内のデータレコードの間の
    関係を識別する方法。
  2. 【請求項2】請求項1に記載の方法であって、前記別の
    処理は、 突合せられたレコードの前記グループを視覚的に知覚で
    きる読出し装置に表示するステップと、 第2の所属度に合致するレコードを前記グループから選
    択するステップと、 データを含んでいる表コンパイルを、前記第1の所属度
    および前記第2の所属度に関連させられている選択され
    た前記データレコードから生成するステップと、を更に
    備える方法。
  3. 【請求項3】請求項1に記載の方法であって、前記第1
    の所属度を取出すステップは、 ターゲットデータレコードを選択するステップと、 前記ターゲットデータレコードと前記選択されたデータ
    レコードのおのおのとの間の前記第1の所属度を割当て
    るステップと、を含む方法。
  4. 【請求項4】請求項1に記載の方法であって、前記第1
    の所属度を取出すステップは、 前記データフィールド内で見出されるある範囲のデータ
    内からマーカーポスト値を計算するステップと、 前記マーカーポスト値と選択されたデータレコードとの
    間の第3の所属度を決定するステップと、 前記選択されたデータレコードに対応する第3の所属度
    を処理するステップと、 所定の第3の所属度を有する前記選択されたデータレコ
    ードをグループ化するステップと、を備える方法。
  5. 【請求項5】データを処理するプロセッサと、機械が実
    行できるコマンドを記憶するための第1のメモリ手段
    と、データベース内のデータレコードを記憶するための
    第2のメモリ手段とを有する計算装置と、 命令とデータとの少なくとも一方を外部ソースから受け
    入れるための入力装置と、 処理されたデータを知覚できる方法で伝達する出力装置
    と、 データベース内のデータレコードの間の関係を識別する
    ためのデータ処理ルーチンと、を備え、前記ルーチン
    は、 前記データベース内の各データレコードと、割当てられ
    た重要度値と選択されたデータレコードに対応する突合
    せ法とに基づくモードに特有の参照基準との間の第1の
    所属度を取出し、 前記データレコードのおのおのへの所属度を、前記デー
    タレコードのおのおのに対応するプロジェクトレコード
    に割当て、 所定の第1の所属度を有する前記データレコードを選択
    し、 保存、別の処理及び解析の少なくともいずれかのために
    前記選択されたデータレコードをグループ化する、デー
    タベース内のデータレコードの間の関係を決定するデー
    タ処理システム。
JP2000106789A 1999-04-07 2000-04-07 選択的に関連させられたデータベースレコードの識別のためのシステム Pending JP2000339351A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US28792899A 1999-04-07 1999-04-07
US287928 1999-04-07

Publications (1)

Publication Number Publication Date
JP2000339351A true JP2000339351A (ja) 2000-12-08

Family

ID=23104973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000106789A Pending JP2000339351A (ja) 1999-04-07 2000-04-07 選択的に関連させられたデータベースレコードの識別のためのシステム

Country Status (4)

Country Link
EP (1) EP1043666A2 (ja)
JP (1) JP2000339351A (ja)
AU (1) AU2523300A (ja)
CA (1) CA2304387A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077153A (ja) * 2006-09-19 2008-04-03 Fujitsu Ltd データ登録方法
US7900052B2 (en) 2002-11-06 2011-03-01 International Business Machines Corporation Confidential data sharing and anonymous entity resolution
US8204831B2 (en) 2006-11-13 2012-06-19 International Business Machines Corporation Post-anonymous fuzzy comparisons without the use of pre-anonymization variants
US8452787B2 (en) 2001-12-28 2013-05-28 International Business Machines Corporation Real time data warehousing
US8620937B2 (en) 2002-12-27 2013-12-31 International Business Machines Corporation Real time data warehousing

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2366408B (en) * 2000-09-01 2002-06-19 Jose Antonio Guerrero Compatibility selection system
EP1302864A1 (de) * 2001-10-16 2003-04-16 Siemens Schweiz AG System und Verfahren zur Verfolgung von Materialströmen innerhalb einer Materialflusskette
US7634464B2 (en) 2006-06-14 2009-12-15 Microsoft Corporation Designing record matching queries utilizing examples
US10734115B1 (en) 2012-08-09 2020-08-04 Cerner Innovation, Inc Clinical decision support for sepsis
US10431336B1 (en) 2010-10-01 2019-10-01 Cerner Innovation, Inc. Computerized systems and methods for facilitating clinical decision making
US11398310B1 (en) 2010-10-01 2022-07-26 Cerner Innovation, Inc. Clinical decision support for sepsis
US11348667B2 (en) 2010-10-08 2022-05-31 Cerner Innovation, Inc. Multi-site clinical decision support
US10628553B1 (en) 2010-12-30 2020-04-21 Cerner Innovation, Inc. Health information transformation system
US8856156B1 (en) 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
US10249385B1 (en) 2012-05-01 2019-04-02 Cerner Innovation, Inc. System and method for record linkage
US10769241B1 (en) 2013-02-07 2020-09-08 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US11894117B1 (en) 2013-02-07 2024-02-06 Cerner Innovation, Inc. Discovering context-specific complexity and utilization sequences
US10946311B1 (en) 2013-02-07 2021-03-16 Cerner Innovation, Inc. Discovering context-specific serial health trajectories
US10854334B1 (en) 2013-08-12 2020-12-01 Cerner Innovation, Inc. Enhanced natural language processing
US10483003B1 (en) 2013-08-12 2019-11-19 Cerner Innovation, Inc. Dynamically determining risk of clinical condition
US11730420B2 (en) 2019-12-17 2023-08-22 Cerner Innovation, Inc. Maternal-fetal sepsis indicator
CN113642310B (zh) * 2021-07-14 2022-04-19 广州市玄武无线科技股份有限公司 一种终端数据相似度度量方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452787B2 (en) 2001-12-28 2013-05-28 International Business Machines Corporation Real time data warehousing
US8615521B2 (en) 2001-12-28 2013-12-24 International Business Machines Corporation Real time data warehousing
US7900052B2 (en) 2002-11-06 2011-03-01 International Business Machines Corporation Confidential data sharing and anonymous entity resolution
US8620937B2 (en) 2002-12-27 2013-12-31 International Business Machines Corporation Real time data warehousing
JP2008077153A (ja) * 2006-09-19 2008-04-03 Fujitsu Ltd データ登録方法
US8204831B2 (en) 2006-11-13 2012-06-19 International Business Machines Corporation Post-anonymous fuzzy comparisons without the use of pre-anonymization variants

Also Published As

Publication number Publication date
CA2304387A1 (en) 2000-10-07
EP1043666A2 (en) 2000-10-11
AU2523300A (en) 2000-10-12

Similar Documents

Publication Publication Date Title
JP2000339351A (ja) 選択的に関連させられたデータベースレコードの識別のためのシステム
EP0681249B1 (en) Fuzzy logic entity behavior profiler
US6647379B2 (en) Method and apparatus for interpreting information
US10354187B2 (en) Confidentiality of files using file vectorization and machine learning
CN109389143A (zh) 一种数据分析处理系统及自动建模方法
JPH0877010A (ja) データ分析方法および装置
CN112259210B (zh) 医疗大数据访问控制方法、装置及计算机可读存储介质
Maulana et al. Logistic model tree and decision tree J48 algorithms for predicting the length of study period
Bay et al. Characterizing model errors and differences
Sakprasat et al. Classification rule mining for automatic credit approval using genetic programming
Ashtaiwi Artificial intelligence is transforming the world development indicators
WO1992017853A2 (en) Direct data base analysis, forecasting and diagnosis method
JP3452308B2 (ja) データ分析装置
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
Saleh et al. Design of decision support system for loans based on data mining techniques
CN118193855B (zh) 一种在线应答方法、装置及计算机设备
Dhami et al. Deep Learning Approach To Predict Software Development Life Cycle Model
Otoom et al. Predicting the amount of files required to fix a bug
Maher et al. Knowledge discovery in multimedia design case bases
Perea Predicting The Occupation Progress of A Person Using Decision Tree-Based Analysis
Pinheiro et al. Prediction of active debt in the State of Pernambuco, Brazil
Tang et al. Diagnosing the Organizational Climate of Junior High Schools in Taiwan: A Fuzzy DEMATEL-Based ANP Investigation
Gafar et al. Implementation of Machine Learning for Sharia financing Scoring in Indonesian MSME sectors
Govindu et al. Loan Prediction System with Exploring Explainable AI Transfer Learning with SHAP
Krieger Explainable Classification for an Application System