JP2000339351A

JP2000339351A - 選択的に関連させられたデータベースレコードの識別のためのシステム

Info

Publication number: JP2000339351A
Application number: JP2000106789A
Authority: JP
Inventors: Douglas R Mccormack; ダグラス、アール．マコーマック
Original assignee: Reclaim Technologies & Service; Reclaim Technologies & Services Ltd
Current assignee: Reclaim Technologies & Service; Reclaim Technologies & Services Ltd
Priority date: 1999-04-07
Filing date: 2000-04-07
Publication date: 2000-12-08
Also published as: CA2304387A1; EP1043666A2; AU2523300A

Abstract

(57)【要約】（修正有）【課題】ユーザが定めたレコードに関連しているデー
タベースレコードを識別する。【解決の手段】所与のデータベース中の種々のレコー
ドのおのおのの間の関係を、データベースレコード内に
含まれている各データフィールドにユーザにより割当て
られた重要度値と突合せ法により決定する。又、データ
ベースレコードと特に目標とされたレコードまたはデー
タの範囲内に散在されている複数の参照点との間の所属
度値（「ＤＯＢ」）を重要度値及び突合せ法を用いて計
算して、関連するデータベースレコードを識別するのに
使用する。更に、ユーザによる分析と検証を容易にする
ために、関連するデータベースレコードの表を生成す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザが割当てた
重要度値を基にして選択的に関連させられているデータ
レコードを識別するための方法及び装置の少なくとも一
方を備えるシステム、並びに、各データフィールドの突
合せ法に関するものである。更に詳しくいえば、本発明
は、関連するデータベースレコードをユーザにより定め
られたものとして識別するために、ファジー論理および
データマイニング（mining）技術を使用するものであ
る。

【０００２】

【従来の技術】コンピュータ時代の始まり以来、コンピ
ュータシステムは膨大な量のデータの累積および蓄積に
有効であった。それらの初期のコンピュータシステムの
大量のデータの分析は、下位レベルの個々の処理に主と
して的を絞っていた。しかし、今日は、増加しつつある
データを基にしてより高いレベルの評価、知識の発見お
よび判断を行うことがコンピュータ・システムにとって
重要になってきている。

【０００３】コンピュータ・システムが大量のデータか
ら傾向の判断及び認識を行うというこの新しい需要の結
果として、エキスパートシステムおよび人工知能として
知られている種々のコンピュータ・システムが開発され
てきた。大量のデータを処理するそれらのシステムはデ
ータマイニングと呼ばれるコンピュータソフトウエア技
術をしばしば使用する。データマイニングというのは、
大きなデータベースに含まれている異なるデータ項目の
間の相関を見出だすために統計技術を用いる技術であ
る。データマイニングは、データにおけるパターンと傾
向を特定すること、および、新しい知識の創造へ向かう
そのデータの分析を含む。データマイニングの主な目標
は、大量のデータに隠されている重要な情報を明らかに
することである。データを分析して、そのデータについ
ての判断を行うために特殊化されたコンピュータ・シス
テムが開発されているが、大きな問題が依然として存在
する。その問題の１つは、同一の正確なデータを含んで
いない関連するデータベースレコードの識別である。こ
の問題は何等一つの産業に限定されず、関連する保険の
支払い請求を行うとき、及び、関連する指紋の特定、無
数の他のデータ集中評価を試みるときに起こる。

【０００４】関連するデータベースレコードを識別でき
るコンピュータ・システムの製造における最大の障害は
２進論理である。２進論理はただ２つの状態、即ち、偽
を表す「０」と、真を表す「１」、を有する。ほとんど
のコンピュータ、およびそれらのコンピュータのための
プログラミングソフトウエアは２進論理に基づいてい
る。従って、それらのコンピュータが０状態と１状態と
の間のどこかで一層正確に表されている事象を認識する
ことは非常に困難である。

【０００５】コンピュータ知識を表す新しい手法が最近
の３０年間で出現した。その知識は急速に発展する技術
となっている。この新しい技術は「ファジー」論理とし
て知られている。ファジー論理は、我々の周囲の世界に
おける不確実さを取扱うことができるために、知識のモ
デル化のために使用されてきた。この不確実さ、すなわ
ち、ファジーネスは、２進論理、すなわち、伝統的なブ
ール論理では不適切に対処されている。ファジー論理シ
ステムは、例えば、次の出版物において記述されてい
る。

【０００６】（１）ファジー論理：実際的手法（Ｆｕ
ｚｚｙＬｏｇｉｃ：ＡＰｒａｃｔｉｃａｌＡｐｐ
ｒｏａｃｈ），ｂｙＭｃＮｅｉｌ，ｅｔａｌ．，
ＡＰＰｒｏｆｅｓｓｉｏｎａｌ，１９９４（２）ファジーシステムズ・ハンドブック（ＴｈｅＦ
ｕｚｚｙＳｙｓｔｅｍｓＨａｎｄｂｏｏｋ），ｂｙ
Ｃｏｘ，ＡＰＰｒｏｆｅｓｓｉｏｎａｌ，１９９４どのような論理系も変数と、集合と、規則とで構成され
ている。２進コードの基礎である、独自の（０−１）集
合理論を基にした既存のシステムは、真の存在又は非存
在に基づき真を評価する。集合の構成要素であること
は、あるものが構成要素であるかどうかについて質問
し、「肯定」または「否定」を答えることによって決定
される。真は存在と非存在との間のどこかにあることが
しばしばであるために、「クリスプ（ｃｒｉｓｐ）」論
理としても知られているこの種の思考には欠陥がある。
間のどこかに入るというそれらの状況、または「いくぶ
ん」ファジー、を記述するために、ファジー論理は言語
変数を用いる。その後で、言語変数に関連させられたフ
ァジー集合をつくることができる。集合の各構成要素
に、集合における構成要素度、所属度または類似度が割
当てられる。類似度は百分率で通常表されている。クリ
スプ論理は最終的にはファジー論理に包含される。ファ
ジー集合の構成要素のうち、類似度が０％と１００％に
等しいものはクリスプ論理値０と１に対応する。

【０００７】そうすると、ファジー系の基礎であるファ
ジー規則を作成するために、言語変数およびファジー集
合が用いられる。ファジー論理の利点は、クリスプデー
タから言語変数およびファジー集合にひとたび翻訳され
ると、完全に確立されている数学原理によって情報を取
扱うことができることである。作業が終わると、情報は
再び翻訳されてクリスプデータとして出力される。それ
らのファジー系は複雑な非線形システムを簡単に記述で
きる。

【０００８】ファジー論理は神経ネットワークと共に用
いられて、不確実さを取扱うファジー論理の能力を、分
類およびパターン突合せを行う神経ネットワークの能力
に組合わせていた。神経ネットワークは、節と重み付け
られたリンクとで構成されている。所与の節への信号
は、その信号が正確な結果に導くものであるならば、強
められ、その信号が不正確な結果に導くものであるなら
ば、その信号は弱められる。その不正確な結果は、新し
いデータを処理するために使用できるパターンをネット
ワークに「教える」。神経ネットワークは、規則および
論理構造に基づいていない。ファジー系は神経系の制御
システムとして用いられてきており、神経系はファジー
規則を生ずるために用いられてきた。ファジー系は、ど
のデータベースレコードが相互間または特定のレコード
との間にファジー関係を持っているかを決定することに
より、「関連させられた」データベースレコードを識別
するために使用することができる。

【０００９】多数の企業の既存のコンピュータ・システ
ムが関連するデータベースレコードを識別できないため
に、それらの企業は莫大な金を失っている。それらの損
失は、コンピュータ・システムが特定しようと試みてい
る預金口座番号または顧客名をデータ入力者が誤入力し
た結果であることがある。それらの種類のデータ入力誤
りは企業の生産性と効率に悪影響を及ぼす。たとえば、
コンピュータ・システムが関連する保険請求を特定でき
ないことから生ずる損失は、再保険請求において何百万
ドルものコストを保険会社に掛けることがある。関連す
るデータベースレコードを選択的に識別するために、あ
らゆる種類のデータに普遍的に適用でき、データマイニ
ング技術と、ファジー論理技術と、神経ネットワーク技
術とを利用するコンピュータ・システムは、大量のデー
タを分析しなければならない任意の数の企業にとっては
極めて価値がある。

【００１０】

【発明が解決しようとする課題】本発明の目的は、ユー
ザーにより定められた選択的に関連させられているデー
タベースレコードの識別のために広範囲な種類のデータ
に使用できる方法と装置の少なくとも一方を含むシステ
ムを提供することである。

【００１１】本発明の他の目的は、特に目標とされてい
るデータベースレコードに選択的に関連させられている
データベースレコードを識別することである。

【００１２】本発明の別の目的は、総ての構成要素が相
互に選択的に関連させられているような、データベース
レコードのクラスタを識別することである。

【００１３】本発明の更に別の目的は、データベース内
のデータレコードの間の関係を所定の選択基準に従って
識別する方法を提供することである。

【００１４】本発明の更に別の目的は、データベース内
のデータレコードの間の関係を決定するデータ処理装置
を提供することである。

【００１５】

【課題を解決するための手段】本発明によれば、所定の
共通フォーマットによりデータフィールドをおのおの有
する複数のデータレコードを含んでいるデータベースを
用意するステップと、上記データレコードの間の上記関
係の決定に使用するために、重要度値を、選択されたレ
コード内の選択されたデータフィールドに割当てるステ
ップと、上記データレコードの間の上記関係の決定に使
用するために、突合せ値を選択されたレコード内の選択
されたデータフィールドに割当てるステップと、上記割
当てられた値を処理するモードを複数のデータ処理モー
ドから選択するステップと、上記データベース内の各デ
ータレコードとモードに特有の参照基準との間の第１の
所属度を取出すステップと、各データレコードへの上記
所属度を上記各データレコードに対応するプロジェクト
レコードに割当てるステップと、所定の第１の所属度を
有する上記データレコードを選択するステップと、保
存、別の処理及び解析の少なくともいずれかのために上
記選択されたデータレコードをグループ化するステップ
と、を備えるデータベース内のデータレコードの間の関
係を所定の選択基準に従って識別する方法が得られる。

【００１６】また本発明によれば、データを処理するプ
ロセッサと、機械が実行できるコマンドを記憶するため
の第１のメモリ手段と、データベース内のデータレコー
ドを記憶するための第２のメモリ手段とを有する計算装
置と、命令とデータとの少なくとも一方を外部ソースか
ら受け入れるための入力装置と、処理されたデータを
知覚できる方法で伝達する出力装置と、データベース内
のデータレコードの間の関係を識別するためのデータ処
理ルーチンと、を備え、このルーチンは、前記データベ
ース内の各データレコードと、割当てられた重要度値と
選択されたデータレコードに対応する突合せ法とに基づ
くモードに特有の参照基準との間の第１の所属度を取出
し、前記データレコードのおのおのへの所属度を、前記
データレコードのおのおのに対応するプロジェクトレコ
ードに割当て、所定の第１の所属度を有する前記データ
レコードを選択し、保存、別の処理及び解析の少なくと
もいずれかのために前記選択されたデータレコードをグ
ループ化するものである、データベース内のデータレコ
ードの間の関係を決定するデータ処理システムが得られ
る。

【００１７】本発明は、同じ種類の活動についてのデー
タをデータベースレコードが含んでおり、ユーザにより
決定された関連させられたデータベースレコードを選択
的に識別するための方法と装置の少なくとも一方で構成
されている自動化されたシステムである。本発明は、×
×××××××××××××××××××××××××
×××××××××××××××××××××××××
×××××××××××××××××××××××××
という商標の下で現在入手できる。そのシステムは、た
とえば、容疑者の発見、詐欺の判定、病気の診断または
再保険請求のファイリングのために、関連させられてい
る保険請求、化学式、医学的診断、写真、指紋、音声パ
ターン等を識別するため広範囲な種類のデータに使用す
ることができる。

【００１８】このシステムは関連するデータベースレコ
ードを識別するために突合せ技術またはクラスタ化技術
のいずれかを使用することができる。ユーザが特に目標
とされているレコードに関連するデータベースレコード
を識別することを望んだときに突合せ技術は用いられ
る。特に目標とされているレコードに関連させられてい
ないが、類似性に基づき相互に関連させられているデー
タベースレコードの群、すなわち、クラスタを識別する
ことをユーザーが望んだときに、クラスタ化技術は用い
られる。

【００１９】種々のデータベースレコードの間の類似性
は、ユーザが定めた基準により決定される。ユーザが定
めた基準は、データベースレコード内に含まれている各
データフィールドに割当てられている重要度値と突合せ
法により構成されている。各データフィールドに割当て
られている重要度値は、ユーザにより０と１００の間で
選択される数である。重要度値の数は、帰属度値（「Ｄ
ＯＢ」）、または、データベースレコード対の任意の部
分の間若しくはデータベースレコードと参照点との間の
関連性の決定における各データフィールドの寄与の強さ
を示す。

【００２０】ユーザが各データフィールドに割当てる突
合せ法は、本発明が各データフィールドに対して実行す
る突合せの種類を示す。データベースレコードは、各デ
ータフィールド内の種々のデータを含むことができるか
ら、システムにより実行すべき適切な種類の突合せをユ
ーザは示す。ユーザは、データフィールドに含まれてい
る特定のデータに応じて、数値突合せ、日時突合せ、綴
り類似突合せ（Ｓｐｅｌｌｅｄ−ＬｉｋｅＭａｔｃｈ
ｉｎｇ）、発音類似突合せ（Ｓｏｕｎｄ−ＬｉｋｅＭ
ａｔｃｈｉｎｇ）、姓突合せ、キーワード突合せ等を含
めたいくつかの異なる種類の突合せを実行することを望
むことができる。

【００２１】突合せ技術を用いて、このシステムは、特
に目標とされたレコードと他のデータベースレコードの
おのおのとの間の１つのＤＯＢを、重要度値と各データ
フィールドに割当てられた突合せの近さとを基にして計
算する。システムは、ＤＯＢを用いて特に目標とされて
いるレコードに関連しているデータベースレコードを識
別する。

【００２２】しかし、クラスタ化技術が用いられるもの
とすると、システムは、各データベースレコードと、
「マーカーポスト」と呼ばれている複数の参照点との間
のＤＯＢを計算する。それらのマーカーポストは、疑似
レコードであって、データの範囲全体にわたって広く散
乱されている。第１のマーカーポストは、最大量に設定
されている第１のマーカーポストのデータフィールド値
の総てを基にしてそのデータ範囲内に配置できる。第２
のマーカーポストのデータフィールド値の総てをその最
少量に設定することにより、データの範囲内の異なる場
所に第２のマーカーポストを配置できる。第３のマーカ
ーポストの最大量に設定されているデータフィールドの
値の半分と、第３のマーカーポストの最少量に設定され
ているデータフィールドの値の他の半分とを基にして、
第３のマーカーポストをそのデータの範囲内に配置でき
る。平均量に設定されている第４のマーカーポストのデ
ータフィールド値の総てを基にしてそのデータの範囲内
に第４のマーカーポストを配置すること等ができる。こ
のシステムは、データベースレコードとマーカーポスト
との間のＤＯＢのおのおのを用いて関連するデータベー
スレコードのクラスタを生ずる。

【００２３】このシステムは、突合せ技術またはクラス
タ化技術を用いて関連するデータベースレコードの最後
の表を生成する。この表は、ハードコピーのためにプリ
ンタへ出力でき、または、ユーザが直接分析または検査
するためにビデオスクリーンに出力できる。

【００２４】本発明のそれらの目的およびその他の目的
は、本発明の以下の詳細な説明および添付図面から明ら
かになるであろう。

【００２５】

【発明の実施の形態】本発明は、同じ種類の処理または
その他の識別できる基準についてのデータをデータベー
スレコードが含んでおり、ユーザにより決定された関連
させられたデータベースレコード１００を選択的に識別
するための方法及び装置の少なくとも一方で構成されて
いる自動化されたシステムである。このシステムは、オ
ペレータ入力手段と、データ伝達手段（表示装置または
その他の知覚できる読出し手段）と、データ蓄積手段と
を有するコンピュータ装置に常駐する、機械が実行でき
るデータ処理ルーチンで構成されている。本発明は、容
疑者の発見、詐欺の判定、病気の診断または再保険請求
のファイリングのために、写真、医学的診断、指紋、化
学式等の範囲に及ぶ各種のデータに使用できる。説明の
ために、この詳細な説明では保険請求データを用いる。

【００２６】まず、本発明の実施例を示すフローチャー
トである図１を参照する。本発明のシステムは以下のス
テップを有する。分析すべきデータを標準化されたデー
タファイルまたはデータベースレコード（「オリジナル
データベース」）に編成する（ステップ２０００）。ユ
ーザは、データベースレコードに含まれている各データ
フィールド１０２〜１２２に対する重要度値数と突合せ
形式を設定する（ステップ２１００）。ユーザは、デー
タに対して突合せモード２３１０またはクラスタ化モー
ド２３１０検索のいずれを実行すべきかを選択する（ス
テップ２３００）。突合せモードが選択されるとすると
（ステップ２３１０）、ユーザは、突合せをされるべき
目標データベースレコード（「目標レコード」）を入力
しなければならない（ステップ２５００）。その後で、
プログラムは総てのデータベースレコード１００を走査
して、目標レコードと他のデータベースレコードのおの
おのとの間の突合せ度または所属度（「ＤＯＢ」）を割
当てる（ステップ３１００）。ユーザーが突合せモード
を選択したとすると、データベースレコード１００をそ
の突合せモードＤＯＢに基づき分類する（ステップ３８
００）。ユーザがクラスタ化モードを選択したとすると
（ステップ２３２０）、プログラムは、データ範囲内に
広く隔てられているいくつかの参照点（「マーカーポス
ト」）２００〜２２０を割当てる（ステップ５４０
０）。その後でプログラムは、データベースレコード１
００を走査して、全データベースレコード１００と各マ
ーカーポストとの間にクラスタ化モードＤＯＢを割当て
る（ステップ５８００）。ユーザは、クラスタサイズ及
びしきい値を選択する（ステップ５９００）。プログラ
ムはクラスタ化モードＤＯＢを最も近いクラスタへの概
数にする（ステップ６１００）。総てのマーカーポスト
２００〜２２０に対して同じ概数にされたクラスタ化モ
ードＤＯＢを有するデータベースレコード１００を同一
のクラスタに割当てる（ステップ６５００）。しきい値
より小さい合計値を有するクラスタは無視される（ステ
ップ６７００）。データベースレコード１００は、クラ
スタおよびクラスタ値によって分類される（ステップ６
９００）。突合せモード（ステップ２３１０）またはク
ラスタ化モード（ステップ２３２０）ルーチンが終わる
と、選択されたデータベースレコードを更に分析するた
めにユーザに表示する（ステップ８１００）。その後
で、ユーザにより選択されたデータベースレコードは、
分離されたデータファイルに出力される（ステップ９０
００）。

【００２７】どの種類のデータを分析するかをユーザが
ひとたび決定すると、ユーザはデータベースレコード１
００のための標準化されたフォーマットを選択する。標
準化されたフォーマット、または、使用すべきオリジナ
ルデータベース２０００は処理すべきデータの種類に依
存する。典型的なオリジナルデータベース２０００は、
特定の保険請求情報のデータフィールドを３０から５０
含んでいるデータベースレコード１００を含むことがで
きる。それらのデータフィールドは、たとえば、請求番
号、事故発生年、企業名、プロフィットエリア（ｐｒｏ
ｆｉｔａｒｅａ）、保険証券番号、年次ステートメン
トライン（ａｎｎｕａｌｓｔａｔｅｍｅｎｔｌｉｎ
ｅ）、保険証券の種類、ワークライン適用範囲（ｗｏｒ
ｋｌｉｎｅｃｏｖｅｒａｇｅ）、保険証券の状態、
リスク状態、緯度、経度、事故発生市、事故発生郡（ｃ
ｏｕｎｔｙ）、事故状況、保険証券発効日、保険証券終
了日、損失の日付、報告日、開かれているまたは閉じら
れている時の状態、カタストロフコード番号、損失の種
類、損失の原因、請求者番号、事故コード、これまでの
支払い額、未払い額（ａｍｏｕｎｔｏｕｔｓｔａｎｄ
ｉｎｇ）、割当てられた額、経費、これまでの回収額等
を含むであろう。当然、それらのデータフィールドの細
目は産業ごとに、また、集められているデータの種類に
より異なる。

【００２８】図２は、保険請求情報を含んでいる１１の
データフィールド１０２〜１２２から構成されている標
準化されたデータベースレコード１００の例を示す。し
かし、先に述べたように、データベースレコード１００
は、５０またはそれ以上のデータフィールドにより構成
できる。オリジナルデータベース２０００は、同一の標
準化されたフォーマットをおのおの有する何千および何
百万ものデータベースレコードにより構成されている。
オリジナルデータベース２０００が分析すべきデータベ
ースレコード１００で一杯になった後で、ユーザーは関
連するデータベースレコード１００を選択的に識別する
ためにデータの処理を開始することができる。

【００２９】データベースレコード１００の間の類似性
は、ユーザーが定める２部分基準によって決定される。
ユーザーが定める基準は、データベースレコード１００
内に含まれている各データフィールド１０２〜１２２に
割当てられている重要度値と突合せ法により構成されて
いる。重要度値は、ユーザーにより各データフィールド
１０２〜１２２に割当てられる「０」から「１００」ま
での数である。重要度値の数は、各データベースレコー
ド１０のＤＯＢまたは類似性の決定における各データフ
ィールドの寄与の強さを表す。たとえば、ユーザーは、
重要度の最大値１００を社会保障番号データフィールド
１０６に割当てて、同一人についての保険請求情報を含
む総てのデータベースレコード１００を識別することが
できる。あるいは、ユーザーは社会保障番号データフィ
ールドに対する重要度値を最小値に設定して、損失の日
付データフィールド１２２を１００に等しくして同じ日
の近くで起きた保険損失を含むデータベースレコード１
００を識別することができる。ユーザは、データベース
レコード１００の全体の類似性の決定において、各デー
タフィールド１０２〜１２２が含む重要度を決定する能
力を有する。

【００３０】逆に、ユーザが各データフィールド１０２
〜１２２に割当てる突合せ法は、特定の各データフィー
ルドに対してどの種類の突合せを実行すべきであるかを
示す。データベースレコード１００は、各データフィー
ルド１０２〜１２２に各種のデータを含むことができる
ので、ユーザは個々の各データフィールドに含まれてい
るデータに対して実行すべき適切な種類の突合せを選択
する。特定の任意のデータフィールド１０２〜１２２に
対してユーザが選択できる異なる種類の突合せ法は、数
値突合せ、日時突合せ、綴り類似突合せ、発音類似突合
せ、姓突合せ等を含む。たとえば、ユーザは姓データフ
ィールド１０４のために綴り類似突合せを選択できる。
同様に、ユーザは同じ種類のファジー論理を用いて請求
ＩＤデータフィールド１２０に対して数値突合せを実行
することを選択することができる。

【００３１】本発明は、類似性を判定するためにデータ
処理においていくつかの種類のＤＯＢアルゴリズムを用
いる。まず、あらゆるデータベースレコード１００に含
まれている各データフィールド１０２〜１２２と、目標
レコードまたは各マーカーポスト２００〜２２０内の各
データフィールドとの間でＤＯＢ値を計算する。次に、
各データベースレコード１００と、目標レコードまたは
各マーカーポスト２００〜２２０との間で全体のＤＯＢ
値を計算する。全体のＤＯＢはデータフィールド１０２
〜１２２ＤＯＢ結果から取出す。

【００３２】種々のＤＯＢを計算するために使用される
いくつかのアルゴリズムの例が次の通りである。

【００３３】例１数値ＤＯＢをどのように計算する
か：Ｄｅｌｔａ＝考察されている２つのレコードの間の
値の差に設定する。

【００３４】ＤｅｌｔａＭａｘ＝データベース全体にわ
たってこのフィールドに対する最小値と最大値との間の
値の差に設定する。

【００３５】［日時ＤＯＢ＝（１−（Ｄｅｌｔａ／Ｄｅ
ｌｔａＭａｘ））×１００］例２日時ＤＯＢをどのように計算するか：Ｄｅｌｔａ
＝２つのレコードの間の日プラス日の一部の差に設定す
る。

【００３６】ＤｅｌｔａＭａｘ＝データベース全体にわ
たってこのフィールドに対する最初の日付と最後の日付
の間の日プラス日の一部の差に設定する。

【００３７】［数ＤＯＢ＝（１−（Ｄｅｌｔａ／Ｄｅｌ
ｔａＭａｘ））×１００］例３綴り類似ＤＯＢをどのように計算するか：下記
は、Ｄｒ．ＤｏｂｂｓＪｏｕｒｎａｌ、１９８８年７
月号４６ページ記載の、ＲａｔｃｌｉｆｆおよびＭｃｔ
ｚｎｅｒにより公開されたゲシュタルト（Ｇｅｓｔａｌ
ｔ）アルゴリズムについての記述である。

【００３８】ＰとＱが比較すべき２つの文字列を表すも
のとする。

【００３９】ＰとＱにより共用されている最も広い副文
字列として文字列Ｓを見出す。

【００４０】ＰＬをＰのうちＳの左に残っている部分を
表すものとする。

【００４１】ＰＲをＰのうちＳの右に残っている部分を
表すものとする。

【００４２】ＱＬをＱのうちＳの左に残っている部分を
表すものとする。

【００４３】ＱＲをＱのうちＳの右に残っている部分を
表すものとする。

【００４４】ＳＬをＰＬとＱＬの間で共用されている最
も広い共通副文字列を表すものとする。

【００４５】ＳＲをＰＲとＱＲの間で共用されている最
も広い共通副文字列を表すものとする。

【００４６】［綴り類似ＤＯＢ＝［長さ（Ｓ）＋長さ
（ＳＬ）＋長さ（ＳＲ）］／長さ（Ｐ）＋長さ（Ｑ）］
×２００］例４発音類似ＤＯＢをどのように計算するか：下記は
サウンデックスアルゴリズムの典型的な実現についての
記述である。このアルゴリズムは英語言語についてのみ
対象とするものである。結果の最終的なファジー化はＣ
ｏｒＭａｃＴｅｃｈｎｏｌｏｇｉｅｓＩｎｃ．によ
り考えられたものである。

【００４７】２つの文字列のおのおのを取り、それらの
文字列を次のようにしてサウンデックスコードに変換す
る。

【００４８】大文字に変換し、アルファベットでないキ
ャラクタはいずれも除去する。

【００４９】合字を単一字で置き換える。

【００５０】文字列の最初の文字をそのまま残すことを
除き、母音，「Ｈ」及び「Ｗ」を除去する。

【００５１】文字列の２番目の文字で初め、下記の置換
を行うときに１つのキャラクタずつステップする
「Ｂ」、「Ｆ」、「Ｐ」、「Ｖ」を「１」で置き換え
る。

【００５２】「Ｃ」、「Ｇ」、「Ｊ」、「Ｋ」、「Ｑ」
「Ｓ」「Ｘ」「Ｚ」を「２」で置き換える。

【００５３】「Ｄ」、「Ｔ」を「３」で置き換える。

【００５４】「Ｌ」を「４」で置き換える。

【００５５】「Ｍ」、「Ｎ」を「５」で置き換える。

【００５６】「Ｒ」を「６」で置き換える。

【００５７】結果は完成されたサウンデックスコード
（soundex code）である。

【００５８】２つのサウンデックスコードを上記「発音
類似」（ゲシュタルト）技術で処理することによりそれ
らのコード中の類似性の量をファジー化する。

【００５９】例５姓ＤＯＢをどのように計算するか：
下記は姓突合せのために特化されたサウンデックスアル
ゴリズムの記述である。結果の最終的なファジー化はＣ
ｏｒＭａｃＴｅｃｈｎｏｌｏｇｉｅｓＩｎｃ．によ
り考えられたものである。

【００６０】２つの文字列のおのおのを取り、それらを
下記のようにしてサウンデックスコードに変換する。

【００６１】大文字に変換し、アルファベットでないキ
ャラクタはいずれも除去する。

【００６２】文字列が「ＭＡＣ」で始まっているなら
ば、「ＭＣＣ」に変換する。

【００６３】文字列が「ＳＣＨ」で始まっているなら
ば、「ＳＳＳ」に変換する。

【００６４】文字列が「ＫＮ」で始まっているならば、
「ＮＮ」に変換する。

【００６５】文字列が「ＰＦ」で始まっているならば、
「ＦＦ」に変換する。

【００６６】この点を越えて最初の文字にはどのような
変更も行ってはならない。

【００６７】どの「ＤＧ」も「ＧＧ」に変更する。

【００６８】どの「ＣＡＡＮ」も「ＴＡＡＮ」に変更す
る。

【００６９】どの「Ｄ」も「Ｔ」に変更する。

【００７０】どの「ＮＳＴ」も「ＮＳＳ」に変更する。

【００７１】どの「ＡＶ」も「ＡＦ」に変更する。

【００７２】どの「Ｑ」も「Ｇ」に変更する。

【００７３】どの「Ｚ」も「Ｓ」に変更する。

【００７４】どの「Ｍ」も「Ｎ」に変更する。

【００７５】どの「ＫＮ」も「ＮＮ」に変更する。

【００７６】どの「Ｋ」も「Ｃ」に変更する。

【００７７】どの「ＡＨ」も「ＡＡ」に変更する。

【００７８】どの「ＨＡ」も「ＡＡ」に変更する。

【００７９】どの「ＡＷ」も「ＡＡ」に変更する。

【００８０】どの「ＰＨ」も「ＦＦ」に変更する。

【００８１】どの「ＳＣＨ」も「ＳＳＳ」に変更する。

【００８２】文字列が今は「Ａ」または「Ｓ」で終わっ
ているならばそのキャラクタを除去する。

【００８３】文字列が今は「ＮＴ」で終わっているなら
ば「ＴＴ」に変更する。

【００８４】ここで総ての母音（「Ａ」、「Ｅ」、
「Ｉ」、「Ｏ」、「Ｕ」、「Ｙ」）を除去する。

【００８５】ここで総ての合字を単一字に変更する。

【００８６】２つの姓サウンデックスコードを上記「綴
り類似」（ゲシュタルト）技術で処理することによりそ
れらのコード中の類似性の量をファジー化する。

【００８７】例６キーワードＤＯＢをどのように計算
するか：考察されているフィールドが指定されたキーワ
ードを少なくとも１つ含んでいるならば、キーワードＤ
ＯＢ＝１である。

【００８８】考察されているフィールドが指定されたキ
ーワードのいずれも含んでいなければ、キーワードＤＯ
Ｂ＝０である。

【００８９】例７データベースレコードに対する全体
のＤＯＢをどのように計算するか：フィールドの総てが
ＤＯＢ値にひとたび割当てられたとすると、それらのＤ
ＯＢ値の総てを１つの全体値に組合わせる必要がある。

【００９０】この方法は多次元空間内でのベクトル長さ
を計算することに類似する。

【００９１】零より大きい重要性を持つあらゆるフィー
ルドに対して、［Ｄｅｌｔａ＝１−ＤＯＢ／１００］を
用いてフィールドＤＯＢをフィールドＤｅｌｔａに変更
する。

【００９２】調整されたＤｅｌｔａ＝Ｄｅｌｔａ×Ｄｅ
ｌｔａ×Ｉｍｐｏｒｔａｎｃｅ／１００を用いてフィー
ルドＤｅｌｔａを調整されたフィールドＤｅｌｔａに変
更する。

【００９３】Ｚで総ての調整されたフィールドＤｅｌｔ
ａの和を表させる。

【００９４】Ｓで総ての（Ｉｍｐｏｒｔａｎｃｅ／１０
０）の和を表させる。

【００９５】全体のＤＯＢ＝［１−（Ｚ／Ｓ）の平方
根］×１００上記アルゴリズムには、本発明が実行することができ、
かつ、利用することができる無数の変形と、各種の突合
せ法がある。それは単に所望のアルゴリズムを本発明に
当てはめることである。したがって、本発明は、上の例
で述べたアルゴリズムのみを用いることに限定されない
ことを当業者は理解すべきである。

【００９６】オリジナルデータが、各データフィールド
１０２〜１２２に割当てられた重要度値と突合せ法を有
する標準化されたフォーマットオリジナルデータベース
２０００になった後で、ユーザは、検索モードを選択す
る（ステップ２３００）。ユーザは、突合せモード（ス
テップ２３１０）またはクラスタ化モード（ステップ２
３２０）に本発明を用いるという選択肢を有する。ユー
ザが、特に目標とされたレコードに関連させられている
データベースレコード１００を識別することをユーザが
希望したときに、突合せモード（ステップ２３１０）が
採用される。一実施例においては、目標レコードを手動
でシステムに入力でき、またはオリジナルデータベース
２０００から既存のデータベースレコード１００に設定
できる。その後で、図１のステップ３１００に示されて
いるように、本発明は、特に目標とされたレコードと、
オリジナルデータベース２０００に含まれている他のデ
ータベースレコード１００のおのおのとの間の突合せモ
ードＤＯＢ３００を計算する。

【００９７】突合せモードＤＯＢ３００は、重要度値
と、データベースレコード１００のデータフィールド１
０２〜１２２のおのおのに割当てられた突合せの近さと
によって決定される。図４を参照して、突合せモードの
ＤＯＢ３００を計算した後で、システムは、プロジェク
トファイル２９０を作成する。プロジェクトファイル２
９０は、オリジナルデータベース２０００に含まれてい
る各データベースレコード１００に対応する個々のプロ
ジェクトレコードで構成されている。プロジェクトファ
イル２９０は、適切なプロジェクトレコードの第１の欄
内の各データベースレコード１００に対応する突合せモ
ードのＤＯＢ３００を蓄積する。

【００９８】本発明の一実施例においては、プロジェク
トファイル２９０は次のような情報、すなわち、対応す
るデータベースレコード１００の同一性、各データフィ
ールド１０２〜１２２に対する突合せ法の種類、各デー
タフィールドに対する重要度値、クラスタ和のために使
用すべき番号フィールド、最後の突合せモード（ステッ
プ２３１０）検索の結果、最後のクラスタ化モード（ス
テップ２３２０）検索の結果、を含むように構成され
る。プロジェクトファイル２９０は、関連するデータベ
ースレコード１００を識別するために重要である、突合
せモードのＤＯＢ３００とクラスタ化モードＤＯＢ３１
０〜３３０を含む、パラメータの集合である。種々のデ
ータベースレコード１００は、その対応するプロジェク
トレコードに含まれている種々のＤＯＢにより分類およ
び配列される。オリジナルデータベース２０００の同一
性は、プロジェクトファイル２９０を、オリジナルデー
タベース２０００から分離されたままにすることによっ
て維持される。単一のオリジナルデータベース２０００
は、いくつかのプロジェクトファイル２９０の主題とす
ることができる。データベースレコード１００をその適
切なプロジェクトレコードに相関させるためにインデク
シングシステムが用いられる。このシステムは、各デー
タベースレコード１００が目標にされたレコードに関連
させられたデータベースレコード１００を分類および識
別するために、突合せモードＤＯＢ３００を用いる。

【００９９】しかし、図１を参照して、クラスタ化モー
ドが用いられているものとすると（ステップ２３２
０）、本発明は、ステップ５８００に示されているよう
に、各データベースレコード１００と複数のマーカーポ
スト２００〜２２０との間でクラスタ化ＤＯＢを計算す
る。マーカーポスト２００〜２２０は、オリジナルデー
タベース２０００に含まれている実際のデータベースレ
コード１００を表さず、むしろ、データベースレコード
１００の種々のデータフィールド１０２〜１２２から作
成された参照値を表す。従って、図３及び図４はマーカ
ーポスト２００〜２２０がデータベースレコード１００
にどのように関連するかについての概念（実際的でな
い）図である。

【０１００】図３及び図４に示されているように、理想
的なマーカーポスト２００〜２２０は、各データフィー
ルド１０２〜１２２に割当てられた値を基にして、デー
タの範囲全体にわたって広く散在させられている。たと
えば、第１のマーカーポスト２００を、最大に設定され
ているマーカーポストのデータフィールドの値の総てに
ついて計算された、データの範囲内に配置することがで
きる。第２のマーカーポスト２１０のデータフィールド
の値の総てをその最小に設定することによって、第２の
マーカーポスト２１０をデータの範囲内の異なる場所に
配置することができる。最大に設定されている第３のマ
ーカーポスト２３０のデータフィールドの値の半分と、
最小に設定されている第３のマーカーポスト２３０のデ
ータフィールドの値の他の半分とを基にして、第３のマ
ーカーポスト２１０をデータの範囲内の別の場所に配置
できる。

【０１０１】各データベースレコード１００に対するク
ラスタ化モードＤＯＢ３１０〜３３０も、プロジェクト
ファイル２９０に含まれているそれらのＤＯＢの対応す
るプロジェクトレコードに保存されている。本発明の一
実施例においては、各データベースレコード１００に対
する第１のマーカーポストのためのクラスタ化モードＤ
ＯＢ３１０は、プロジェクトレコードの欄２に保存され
る。各データベースレコード１００に対する第２のマー
カーポストのためのクラスタ化モードＤＯＢ３２０は、
プロジェクトファイル２９０内の適切なプロジェクトレ
コードの欄３に保存される。各データベースレコード１
００に対する第３のマーカーポストのためのクラスタ化
モードＤＯＢ３３０は、プロジェクトレコードの欄４に
保存される。以下、利用されているマーカーポストの数
と同数のクラスタ化モードＤＯＢがそのようにして保存
される。

【０１０２】マーカーポストのＤＯＢ３１０〜３３０の
総てがひとたび完成させられると、ユーザは各クラスタ
化モード検索（ステップ２３２０）に対するクラスタサ
イズとしきい値を設定および変更できる。クラスタ化モ
ード２３２０中は、本発明は各データベースレコード１
００に対するクラスタ化モードＤＯＢを最も近いクラス
タへの概数にする。本発明は、総てのマーカーポスト２
００〜２２０に対する同一の全体の概数にされたＤＯＢ
を有するデータベースレコード１００の総てを同一のク
ラスタに割当てる。ユーザが定めたしきい値量より小さ
い合計値を有するクラスタは無視される。本発明は、デ
ータベースレコード１００をクラスタおよびクラスタ値
により分類することによって、クラスタ化モード検索
（ステップ２３２０）を終了する。

【０１０３】突合せモード検索（ステップ２３１０）と
クラスタ化モード検索（ステップ２３２０）が終わる
と、本発明は、ユーザが更に分析するために関連するデ
ータベースレコード１００を表示する。図５は、突合せ
モード検索（ステップ２３１０）を行うためにユーザに
より用いられるスクリーンの表示である。同様に、図６
に表示されているスクリーンは、クラスタ化モード検索
（ステップ２３２０）を行うためにユーザにより用いら
れる。２つのスクリーンのおのおのは、ユーザが付加検
査のために、ユーザがあるデータベースレコード１００
を選択できるようにする性能を有する。ユーザにより選
択されたデータベースレコード１００は、更に調べるた
めにデータファイルと視覚的に知覚できる読出し装置と
の少なくとも一方に出力される。

【図面の簡単な説明】

【図１】本発明の好適な実施例のステップを示すフロー
チャートである。

【図２】特定の処理または事項に関するデータを保存す
るための一般的なデータ構造またはデータベースレコー
ドである。

【図３】３つのマーカーポストがデータの範囲全体にわ
たって分配されている４つのデータベースレコードの概
念的表現である。

【図４】３つのマーカーポストがデータの範囲全体にわ
たって分配されている４つのデータベースレコードと、
４つのデータベースレコードのおのおのに対応する４つ
のプロジェクトレコードを含んでいるプロジェクトファ
イルとの概念的表現である。

【図５】本発明の方法において手動介入のために突合せ
モード検索が終わったときにユーザが用いるスクリーン
の表示である。

【図６】本発明の方法において手動介入のためにクラス
タ化モード検索が終わったときにユーザーが用いるスク
リーンの表示である。

【符号の説明】

１００データベースレコード１０２〜１２２データフィールド２００〜２２０マーカーポスト２９０プロジェクトファイル

Claims

【特許請求の範囲】

【請求項１】データベース内のデータレコードの間の関
係を所定の選択基準に従って識別する方法において、所定の共通フォーマットによりデータフィールドをおの
おの有する複数のデータレコードを含んでいるデータベ
ースを準備するステップと、前記データレコードの間の前記関係の決定に使用するた
めに、重要度値を選択されたレコード内の選択されたデ
ータフィールドに割当てるステップと、前記データレコードの間の前記関係の決定に使用するた
めに、突合せ値を選択されたレコード内の選択されたデ
ータフィールドに割当てるステップと、前記割当てられた値を処理するモードを複数のデータ処
理モードから選択するステップと、前記データベース内の各データレコードとモードに特有
の参照基準との間の第１の所属度を取出すステップと、前記各データレコードへの前記所属度を前記各データレ
コードに対応するプロジェクトレコードに割当てるステ
ップと、所定の第１の所属度を有する前記データレコードを選択
するステップと、保存、別の処理及び解析の少なくともいずれかのために
前記選択されたデータレコードをグループ化するステッ
プと、を備えるデータベース内のデータレコードの間の
関係を識別する方法。
【請求項２】請求項１に記載の方法であって、前記別の
処理は、突合せられたレコードの前記グループを視覚的に知覚で
きる読出し装置に表示するステップと、第２の所属度に合致するレコードを前記グループから選
択するステップと、データを含んでいる表コンパイルを、前記第１の所属度
および前記第２の所属度に関連させられている選択され
た前記データレコードから生成するステップと、を更に
備える方法。
【請求項３】請求項１に記載の方法であって、前記第１
の所属度を取出すステップは、ターゲットデータレコードを選択するステップと、前記ターゲットデータレコードと前記選択されたデータ
レコードのおのおのとの間の前記第１の所属度を割当て
るステップと、を含む方法。
【請求項４】請求項１に記載の方法であって、前記第１
の所属度を取出すステップは、前記データフィールド内で見出されるある範囲のデータ
内からマーカーポスト値を計算するステップと、前記マーカーポスト値と選択されたデータレコードとの
間の第３の所属度を決定するステップと、前記選択されたデータレコードに対応する第３の所属度
を処理するステップと、所定の第３の所属度を有する前記選択されたデータレコ
ードをグループ化するステップと、を備える方法。
【請求項５】データを処理するプロセッサと、機械が実
行できるコマンドを記憶するための第１のメモリ手段
と、データベース内のデータレコードを記憶するための
第２のメモリ手段とを有する計算装置と、命令とデータとの少なくとも一方を外部ソースから受け
入れるための入力装置と、処理されたデータを知覚できる方法で伝達する出力装置
と、データベース内のデータレコードの間の関係を識別する
ためのデータ処理ルーチンと、を備え、前記ルーチン
は、前記データベース内の各データレコードと、割当てられ
た重要度値と選択されたデータレコードに対応する突合
せ法とに基づくモードに特有の参照基準との間の第１の
所属度を取出し、前記データレコードのおのおのへの所属度を、前記デー
タレコードのおのおのに対応するプロジェクトレコード
に割当て、所定の第１の所属度を有する前記データレコードを選択
し、保存、別の処理及び解析の少なくともいずれかのために
前記選択されたデータレコードをグループ化する、デー
タベース内のデータレコードの間の関係を決定するデー
タ処理システム。