JP2005018689A

JP2005018689A - データマイニング方法

Info

Publication number: JP2005018689A
Application number: JP2003186223A
Authority: JP
Inventors: Munetetsu Oshima; 宗哲大島; Yasushi Tsun; 寧鍾
Original assignee: WEB INTELLIGENCE LAB KK
Current assignee: WEB INTELLIGENCE LAB KK
Priority date: 2003-06-30
Filing date: 2003-06-30
Publication date: 2005-01-20

Abstract

【課題】他のデータとは値が隔たっており、かつ、データ頻度が大きくないデータ（特異データ）を用いて、複数の異なる目的で編纂されたデータベースからデータマイニングを行うこと。
【解決手段】複数のデータ集合を予め関連づけを行い、これらのデータ集合に含まれる各データについて、他のデータとは値が隔たっていること及びデータの頻度が小さいことに相関を有する特異性指標を得て、予め定めた基準指標と特異性指標とを比較し、これに基づいて複数のデータを選択し、選択されたデータによりデータマイニングを行う。
【選択図】図２

Description

【０００１】
【産業上の利用分野】
本願発明は、データマイニングの新しい手法を提案する。特に、本願発明は、特異値を排除しないでマイニングの対象とし、かつ、データ源について複数のデータベースを用いたマルチデータに基づいてデータマイニングを行う手法にかかるものである。
【０００２】
【従来技術】
近年、実世界のデータベースは大規模になり、有用なデータを効率良く利用することが不可能になりつつある。そこで、データベースから知識（ルール）を発見するデータマイニング（ＫＤＤ：ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ）に関する研究が重要視されている。
【０００３】
データベースから発見される仮説は、次の３種類に分類することができる。
（１）間違った仮説。
（２）広く知られていて役に立たない仮説。
（３）新しく興味のある仮説。
データマイニングとは、この中で上記（３）の「新しく興味のある知識」（仮説）を発見することことをいう。
【０００４】
以下、本願発明に関連する先行技術と先行概念を羅列的に開示する。
【０００５】
（興味深さ）
ＢｉｎｇＬｉｕらにより、興味深さに関する研究がされている。
データマイニングによって得られるルールは、単に実用可能なルールではなく、ユーザにとって興味があり、役に立つルールである必要がある。そのためには、ルールの興味深さに対する、客観的かつ主観的な評価基準が必要である。
【０００６】
客観的評価として構造や統計、主観的評価として予期不能性と活用可能性をあげることができる。ここで、興味深さというのは人間による主観的評価であるため、予期不能性と活用可能性で評価することができる。活用可能性は発見したルールの評価であるため、ここでは予期不能性についてのみ考察する。ここでの予期不能性とは、ユーザの知らない知識、または、予想と反した知識を指す。つまり、ユーザの持つ知識と発見したルールを比較することで、予期不能性を評価することができる。
【０００７】
予期不能性は、発見されたルールとユーザの知識を比較することで次の４種類に分類することができる。
（１）Ｃｏｎｆｏｒｍｉｎｇｒｕｌｅｓ
すでに与えてある知識で、完全に予想されていたルール。
（２）Ｕｎｅｘｐｅｃｔｅｄｃｏｎｓｅｑｕｅｎｔｒｕｌｅｓ
予期していた条件で、予期しない結果となったルール。非常に興味深いことが多い。
（３）Ｕｎｅｘｐｅｃｔｅｄｃｏｎｄｉｔｉｏｎｒｕｌｅｓ
予期しない条件で、予期していた結果となったルール。自分の経験のない分野を学ぶ必要があると考えられる。
（４）Ｂｏｔｈ−ｓｉｄｅｕｎｅｘｐｅｃｔｅｄｒｕｌｅｓ
まったく予期しない条件、結果となったルール。自分の持っている知識の外に、知識があることを示している。
【０００８】
ここにいう「ユーザの知識」は、確信度の違いにより次の３種類に分類することができる。
（１）ＧｅｎｅｒａｌＩｍｐｒｅｓｓｉｏｎ（ＧＩ）
一般的な常識等を表す。はっきりとした確証を持たず、曖昧な感覚を表している。
（２）ＲｅａｓｏｎａｂｌｙＰｒｅｃｉｓｅＣｏｎｃｅｐｔ（ＲＰＣ）
ユーザの持つ知識を表している。曖昧な知識を表している。
（３）ＰｒｅｃｉｓｅＫｎｏｗｌｅｄｇｅ（ＰＫ）
ユーザの持つ知識を表している。ＲＰＣよりも強く、ユーザが信じている知識を表す。
【０００９】
これにより、ユーザの与えた知識に対しての、予期可能性を表す識別をすることができる。また、発見したルールを予期可能性を元に分類することができる。
【００１０】
（相関ルール）
相関ルールは、データベースから発見されるルールの表現方法の一つである。一般に“Ｘ → Ｙ”という形で表現され、属性間の相関関係を表している。また、相関ルールは次の３種類に分けられる。
（１）一般ルール
（２）例外ルール
（３）特異ルール
【００１１】
ここでは、相関ルールである、一般ルール、例外ルール、特異ルールについて説明する。その後、それぞれの特徴を比較する。
【００１２】
（一般ルール）
一般ルールは、Ａｇｒａｗａｌらによって提案された。一般ルールは、数多くのインスタンスをカバーしており、一般常識のような良く知られた事実を表すものである。
【００１３】
アイテムの集合をＬ＝｛ｉ_１、ｉ_２，・・・，ｉ_ｍ｝、トランザクションデータベースをＤ＝｛ｔ_１，ｔ_２，・・・，ｔ_ｎ｝（ｔ_ｉ⊆Ｌ）とし、アイテム集合Ｘの支持度はＤ全体に対しＸを含むトランザクションの割合を表すとする。
【００１４】
相関ルールＸ → Ｙにおいて、Ｘ⊆Ｌ、Ｙ⊆Ｌ、Ｘ∩Ｙ＝φとする。相関ルールＸ → Ｙは、支持度（ｓｕｐｐｏｒｔ）と確信度（ｃｏｎｆｉｄｅｎｃｅ）の２つのパラメータを持つ。ここで、支持度ｓｕｐｐｏｒｔ（Ｘ → Ｙ）とは、全体に対しＸとＹを共に含む割合ｓｕｐｐｏｒｔ（Ｘ∩Ｙ）をいう。支持度が大きいほど、そのルールは多くのデータに裏付けられており、支持されている度合いが強い。確信度ｃｏｎｆｉｄｅｎｃｅ（Ｘ → Ｙ）とは、Ｘを含むトランザクションのうち、ＸとＹを共に含むトランザクションの割合、すなわち、ｓｕｐｐｏｒｔ（Ｘ∩Ｙ）／ｓｕｐｐｏｒｔ（Ｘ）によって定義される。確信度が高いほど、その相関ルールは、そのようなルールが存在する確からしさが高いということになる。
【００１５】
支持度と確信度によりルールの有意性を示している。これらをまとめると次の式で定義される。
Ｘ → Ｙ［ｓｕｐｐｏｒｔ，ｃｏｎｆｉｄｅｎｃｅ］
ｓｕｐｐｏｒｔ＝Ｐ（Ｘ∩Ｙ）
ｃｏｎｆｉｄｅｎｃｅ＝Ｐ（Ｘ｜Ｙ）
但し、Ｐ（Ｘ）は全体ＬにおけるＸの割合である。
【０００１６】
一般ルールは、元のデータに対する被覆率を基準としｓｕｐｐｏｒｔ（Ｘ∩Ｙ）／ｓｕｐｐｏｒｔ（Ｘ）の大きさと、与えられたしきい値ｉの比較により評価される。また、サンプリングされたデータから導出される規則に対しても、統計的な妥当性を考慮した精度評価を行う。
【００１７】
一般ルールの例をいくつか挙げる。
ｂｉｒｄ（Ｘ） → ｆｌｙ（Ｘ）
「鳥であれば飛ぶ」というルールであり、ごく一般的な常識を表すルールである。
ｕｓｅ（Ｘ，ｓｅａｔｂｅｌｔ） → ｓａｆｅ（Ｘ）
「シートベルトを着用すれば安全である。」というルールであり、ごく一般的な常識を表すルールである。
【００１８】
このように、一般ルールは、数多くのインスタンスをカバーしており、一般常識のような良く知られた事実を表すものである。しかし、一般ルールはすでに知られていることがほとんどなので、データマイニングによって新たに発見する作業を行う意義が乏しい場合が多い。
【００１９】
（例外ルール）
例外ルールは、鈴木らによって提案された。例外ルールは、データの一般性に例外という条件を追加することで、一般的知識に対する例外的知識にかかるものである。例外ルールの特徴は、カバーしているインスタンスの数が少なく、一般ルールに対する例外なので、例外ルールと一般ルールとは常に組になっているという点である。この組をルールペアと呼ぶ。また、このルールは良く知られている例外的事実を表している。
【００２０】
発見される知識、ルールペアｒ（μ，ν）は次の形で表すことができる。
【数１】

ただし、ｘとｘ’の属性は等しく属性値は異なるとする。
【００２１】
ルールの前提部と結論部は、正の相関を表しているため、前提部の事象が出現するときに結論部の事象が出現する条件付き確率は、一般に結論部の事象が出現する確率よりも大きくなる。したがって、ルールペアにおいては、必ず
Ｐ（ｘ｜Ｙ_μ）＞Ｐ（ｘ），Ｐ（ｘ’｜Ｙ_μ ∧ Ｚ_ν）＞Ｐ（ｘ’）
（ただし、Ｙ_μ ＝ｙ_１，ｙ_２，・・・，ｙ_μ，Ｚ_ν ＝ｚ_１，ｚ_２，・・・，ｚ_νとする。）
が成立する。
【００２２】
上式のルールペアは「Ｙ_μならばｘであり、Ｙ_μ∧ Ｚ_νならばｘ’である」と解釈できる。このとき、ルールＹ_μ→ ｘを通常的ルール（一般ルール）と呼び、それに対し、Ｙ_μ∧ Ｚ_ν → ｘ’を例外ルールと呼ぶ。
【００２３】
例外ルールの例をいくつか示す。
ｂｉｒｄ（Ｘ） ∧ Ｐｅｎｇｕｉｎ（Ｘ） → ￣ｆｌｙ（Ｘ）
「鳥がペンギンの場合は飛ばない。」
ｕｓｅ（Ｘ，ｓｅａｔｂｅｌｔ） ∧ ｃｈｉｌｄ（Ｘ） → ￣ｓａｆｅ（Ｘ）
「子供がシートベルトを着用すると安全ではない。」
【００２４】
（特異ルール）
特異ルールは、本発明者らによって提案された（文献１）。例外ルールと同様に、カバーしているインスタンスの数が少ないが、発見されるルールは一般ルールと同様に良く知られている事実を表している。特異ルールを排除しないで行うデータマイニング手法の提供が、本願発明の主題である。
【００２５】
【非特許文献１】
ＺｈｏｎｇＮ．，ＹａｏＹ．Ｙ．，ａｎｄＯｈｓｕｇａＳ．， ”ＰｅｃｕｌｉａｒｉｔｙＯｒｉｅｎｔｅｄＭｕｌｔｉ−ＤａｔａｂａｓｅＭｉｎｉｎｇ”，ＳｐｒｉｎｇｅｒＬＮＡＩ１７０４（１９９９）１３６−１４６
【００２６】
特異ルールは、特異データ間の関連を調べることで発見される。この特異データとは、データセットにおいてとても数が少なく、他と大きく異なるデータである。例外ルールと同じように、数少ないインスタンスから発見されるにもかかわらず、発見されるルールは良く知られている事実を表している。
【００２７】
統計学のクラスター分析において、「特異値」という概念が存在する。この「特異値」はデータセット内において、一定の基準を満たしていない値全てを指している。しかし、ここでの特異データは、一定の基準を満たしていないデータではなく、他と比べたとき大きく異なるデータを指している。
【００２８】
下表はあるスーパーマーケットの売り上げを肉、野菜、果物に分類したものである。９／２７の売り上げに注目すると、
肉の売り上げ（少ない） ∧ 野菜の売り上げ（少ない） ∧ 果物の売り上げ（少ない）→ 総売り上げ（とても少ない）
というルールをを発見することができる。これを一般ルールであるとすると、
肉の売り上げ（普通） ∧ 野菜の売り上げ（普通） ∧ 果物の売り上げ（普通） → 総売り上げ（普通）
というような、価値のないルールにすぎない。
【００２９】
【表１】

この例でわかるように、特異ルールは、データセットにおいてとても数が少なく、他と大きく異なるデータから発見されるルールである。
【００３０】
（ルールの比較）
それぞれのルールを比較すると、下表のようにまとめられる。
【００３１】
【表２】

表より、それぞれのルールに対して、次のような特徴を挙げることができる。一般ルールは、データベース中から多くのインスタンスをカバーしており、よく知られた事実（普遍的なルール）を発見することができることから、知識ベースを生成する際に利用することができる。また、データ中のおおまかな概念を知ることができる。
【００３２】
例外ルールは、一般ルールとペアになっており、一般ルールに対しての条件付きの知識を得ることができる。
【００３３】
特異ルールは、希に表れる事実に関するものであるが、よく知られているが知識を得ることができる。
【００３４】
今までのデータマイニングの手法では、統計学的手法を用いていたので、特異データ（データ集合の中のほかの数値に対して異常である数値の一群）がデータマイニングのプロセスから除かれてしまう。しかし、特異データを取り除いてデータマイニングを行う方法では「新しく興味のある知識」を発見することは難しい。
【００３５】
この特異値は、相互に非常に異なっているため、対象間の類似性を決定する際に非特異データよりもずっと強影響を及ぼす。そのため、データ解析を行う前にデータ変換を行い、一定の範囲に収まるようにするか、データ集合から取り除いてしまう。しかし、この取り除かれていた特異データの中にこそ、興味深い知識を発見する手がかりが存在する。そこで、逆に今まで取り除かれていた特異データに注目することで、“新しく興味のある仮説”を発見する可能性が高くなる。
【００３６】
また、実世界のデータベースは、それぞれがある組織体の統合・共用資源として作られているものであり、データマイニングのために構築したものではない。そのため、単一のデータベースに対してデータマイニングを行っても、興味深く、新規性や実用性のあるルールを発見するのは難しい場合がある。
【００３７】
この原因として、次の２つを挙げることができる。
（１）特定の目的に特化しているため、マイニングに必要な情報が不足している。
（２）一面的な分析しか行わないため、結果が偏ってしまう。
【００３８】
この問題を解決するために、複数のデータベースを組み合わせたマルチデータベースマイニング、複数のエージェントを用いた多視点多面的分析が必要である。
【００３９】
本出願では、複数のデータベース間の概念関係を表現するＲＶＥＲモデルを開発し、ＲＶＥＲモデルと特異性指向マイニングをベースにした、マルチデータベースマイニング手法の開発を行った。また、特異性指向マイニングを複数の分野のデータベースに適用し、その有効性を確認した。
【００４０】
【発明が解決しようとする課題】
本願発明は、特異データを用いて複数の異なる目的により編纂されたデータベースからデータマイニングを行う手法を提案することを目的とする。
【００４１】
【課題を解決するための手段】
前記課題を解決するために、本願発明は、複数のデータを用いてデータマイニングする方法であって、複数のデータの選択のために、少なくとも、データ集合を用意するステップと、データ集合に含まれる各データについて、他のデータとは値が隔たっていること、及び、当該データの頻度が小さいことを正の相関とする特異性指標を得るステップと、予め定めた基準指標と各データにかかる特異性指標とを比較するステップと、この比較に基づいて、複数のデータを選択するステップを実施するデータマイニング方法を提案する。
【００４２】
また、上記課題を解決するために、本願発明は、データ集合として、複数のデータ集合を予め関連づけたデータ集合を用いるデータマイニング方法を提案する。
【００４３】
【作用】
本願発明によれば、単一のデータベースからのマイニングでは情報が不足している場合でも、本願発明にかかるＲＶＥＲモデルを用いて複数のデータソース間の概念関係を見つけ、マルチデータソースからのマイニングを行うことで、不足していた情報を補ってマイニングが可能となる。
【００４４】
【発明の実施形態】
（特異性指向マイニング）
本願発明にかかる特異性指向マイニングとは、データベースの中にある特異データに注目しデータマイニングを行う技法である。ここでいう特異データとは、データベースの中に含まれる、他とは大きく異なり数の少ないデータである。そこで、特異性指向マイニングでは、この特異データに注目しルールの発見を行う。
【００４５】
ここでは、本願発明にかかる特異性指向データマイニングに必要な技術である、特異性指向技法、グラニューラコンピューティングについて説明し、特異性指向マイニングの流れを示す。また、特異性指向技法で用いられるパラメータ、および特異性指向における特異性の評価式の頑強性について評価を行う。
【００４６】
（特異性指向技法）
本願発明にかかる特異性指向マイニングは、あるデータベースにおけるデータの特異性に注目し、そこからデータマイニングを行う手法である。そこで、データの特異性を定量的に表す指標を導入する必要がある。特異性を定量的に表す指標としてＰｅｃｕｌｉａｒｉｔｙＦａｃｔｏｒ（ＰＦ）を用いる。
【００４７】
【表３】

上表のようなデータセットが存在するときに、このＰＦは次の式で計算することができる。ＰＦは、データの特異性が高い場合（他のデータとは大きく異なる場合）は大きな値となり、データの特異性が低い場合（他と同じようなデータである場合）は小さな値となる。
【数２】

ただし、Ｎ（ｘｉｊ，ｘｋｊ）は属性値間の距離であり、αは距離の重要度を表すパラメータである。
【００４８】
ＰｅｃｕｌｉａｒｉｔｙＦａｃｔｏｒ（ＰＦ）はあるデータが他のデータからどれだけ隔たった値を有しているかを評価する指標である。従って、あるデータのＰＦ値（上式の左辺）は、そのデータとそのデータが属する列の他のデータとの距離（典型的には差分）を係数αで累乗した値で評価できる。
【００４９】
ここで、属性値間の距離Ｎ（ｘｉｊ，ｘｋｊ）は、次のようにして決定する。
（１）連続値の場合
値の差の絶対値を距離とする。
Ｎ（ｘ_ｉｊ，ｘ_ｋｊ）＝｜ｘ_ｉｊ−ｘ_ｋｊ｜
（２）記号データの場合
値が記号データの場合、そのままでは距離を決定できないため、次のようにして距離を決定する。
背景知識を利用できる場合・・背景知識に基づき、それぞれの距離を決定する。
背景知識を利用できない場合・・異なるデータであれば１、同じデータであれば０と仮定する。
【数３】

このように決定することで、属性値が連続値の場合でも、記号データの場合でも同じ式を用いて特異性を求めることができる。
【００５０】
特異データのＰＦの値は大きくなるから、ＰＦにしきい値を設定し、そのしきい値を超えたデータを特異データであると定義する。
【００５１】
表４は各県の有する耕地面積と森林面積を例として、ＰＦを計算した例である。ここで、例えば、ＰＦのしきい値を１２００と設定すると、耕地面積・森林面積ともに北海道が特異データであることがわかる。
【００５２】
【表４】

表４においては、数値データを用いてＰＦを計算したが、記号データの場合でもそれぞれの記号を定量化するなどしてＰＦを求めることが可能である。また、背景知識を利用できる場合は、背景知識に基づきそれぞれの距離を決定し、背景知識を利用できない場合は、例えば、異なるデータであれば１、同じデータであれば０と仮定することにより、何らかの数値化を経てＰＦを計算することができる。
【００５３】
（しきい値）
しきい値は、例えば、下式を用い、ＰＦの平均値と標準偏差を用いて決定することができる。
Ｔｈｒｅｓｈｏｌｄ＝ｍｅａｎｏｆＰＦ（ｘ_ｉ）＋ β×ｓｔａｎｄａｒｄｄｅｖｉａｔｉｏｎｏｆＰＦ（ｘ_ｉ）
【００５４】
これにより、コンピュータによる客観的評価で特異データの選択を行うことができる。また、βは人の主観的評価を行うためのパラメータである。βを適切に調整することで、特異データの選択を行うことができる。
【００５５】
（クラスタリング）
データセットに含まれるデータにはそれぞれ情報があり、情報を持たないデータはほとんど存在しない。この情報を元に、データを分類しデータマイニングを行うことにより、より正確なデータマイニングを行うことができる。そのためデータの持つ意味を考慮して特異データの発見を行う必要がある。考慮せずに特異データの発見を行うと、意味の異なる特異データを、同じ特異データとして扱ってしまうため、特異ルールの解釈を誤る可能性がある。
【００５６】
（１）背景知識を利用できる場合
背景知識に基づき、クラスタの作成を行う。
（２）背景知識を利用できない場合
そのままではクラスタリングによる分類を行うことができないため、次の方法でクラスタの作成を行う。
記号データの場合・・同じデータであれば同じクラスタ、異なるデータであれば他のクラスタであると仮定とする。
連続値の場合・・最短距離法を用いてクラスタの作成を行う。
【００５７】
（最短距離法）
最短距離法は、２つのクラスタの間の距離を各クラスタに含まれる個体の間の最短の距離を用いて、クラスタの融合を行う。例えば、（ａ）クラスタと（ｂ）クラスタが最も距離が小さいので融合し、（ｃ）クラスタができるとする。このとき、新たにできた（ｃ）クラスタと任意の（ｉ）クラスタの距離Ｄｃｉは次のように定義する。
Ｄ_ｃｉ＝ｍｉｎ（Ｄ_ａｉ＋Ｄ_ｂｉ）
【００５８】
この式は、
【数４】

とも表せる。この手法は、最も近い１つの個体を含むクラスタを逐次融合していくので、線状のクラスタの検出に優れている。また、融合が行われる毎に距離が近付くために空間が収縮される。
【００５９】
（グラニューラコンピューティング（ＧｒＣ））
グラニューラコンピューティングは、背景知識を利用して情報の粒度を調節する技法である。情報の粒度を調節することで、データの抽象化や概念化を行うことができる。大まかに分けると、次の二つに分類することができる。
（１）ＢａｓｉｃＧｒａｎｕｌｅｓ
（２）ＳｐｅｃｉｆｉｃＧｒａｎｕｌｅｓ
【００６０】
ＢａｓｉｃＧｒａｎｕｌｅｓは、基本的なグラニューで、一般的知識としてもっているもの。ほとんどのデータセットに対して適用することができる。ＢａｓｉｃＧｒａｎｕｌｅの例としては、｛高い，低い｝，｛大きい，小さい｝，｛多い，少ない｝，｛遠い，近い｝，｛長い，短い｝，等が挙げられる。
【００６１】
ＳｐｅｃｉｆｉｃＧｒａｎｕｌｅｓは、データセット特有のグラニューである。主に、背景知識として与えることができる。ＳｐｅｃｉｆｉｃＧｒａｎｕｌｅの例としては、
｛大都市｝＝｛東京，大阪｝
｛関東地方｝＝｛東京，千葉，埼玉，・・・｝
｛関西地方｝＝｛大阪，京都，奈良，・・・｝
が挙げられる。
【００６２】
（特異性指向マイニング）
本願発明にかかる特異性指向マイニングは次の７ステップからなる。また、特異性指向マイニングは属性値指向であるため並列処理を行うことができる。
１．クラスタの作成
発見した特異データを分類するために、あらかじめクラスタを作成しておく。ここで作成したクラスタは６．で特異データの分類に用いられる。
２．ＰＦの計算
各属性のデータセットをＸ＝｛ｘ_１，ｘ_２，・・・，ｘ_ｎ｝と置き、式（１）を用いてＰＦ（ｘ_ｉ）を求める。
３．しきい値の計算
２．で求めたＰＦ（ｘ_ｉ）を元に、式（１）を用いてしきい値を計算する。
４．特異データの選択
しきい値を越えているデータを特異データとして選ぶ。
５．データの確認
特異性が十分であれば６．へ進む．ここで、「特異性が十分である」とは、今までに選択した特異データがルールの生成を行うために十分である、ということである。
６．情報の粒度の調節
１．で作成したクラスタをもとに、特異データを修正する。また、グラニューラコンピューティングを用いて、情報の粒度の調節を行う。
７．特異ルールの生成
今までに得られた特異データから、特異ルールを生成する。
【００６３】
（ＰＦの評価）
ＰｅｃｕｌｉａｒｉｔｙＦａｃｔｏｒ（ＰＦ）を求める計算式の信頼性を確認するため、次のような評価を行った。
【００６４】
ある属性Ａにおいて、その値が表５のような分布であるとする。
【表５】

このとき、ＰＦ（ｘ_ｉ）は、式（１）で求める事ができる。式は次のように置き換えることができる。
【００６５】
【数５】

また、Ｎ（ｘ_ｉ、ｘ_ｉ）＝０である、という事から上式は計算上、次のように簡単化することができる。
【数６】

ここで、次の２つの特殊なケースについて考える。
Ｃａｓｅ１．すべての頻度が同じ、つまりｎ_１＝ｎ_２＝・・・＝ｎ_ｈ＝ｈ／ｎである場合、次の式を得ることができる。
【数７】

この式において、ｈ／ｎは一定であり、どのようなＰＦにも影響を与えない。そのため、ＰＦは、ｘ_ｉと他の値との距離の和だけで決定される。よって、他とは大きく異なる特異データのＰＦは大きな値となる。
【００６６】
Ｃａｓｅ２．すべての距離が同じ、つまりＮ（ｘ_ｉｊ，ｘ_ｋｊ）＝Ｃ，ｉ ≠ ｋかつＮ（ｘ_ｉｊ，ｘ_ｉｊ）＝０である場合、次の式を得ることができる。
ＰＦ（ｘ_ｉ）＝（ｎ−ｎ_ｉ）Ｃ＝ｎＣ−ｎ_ｉＣ
【００６７】
この式において、ｎＣは一定であり、どのようなＰＦにも影響を与えない。また、頻度が多くなるほど、ｎ_ｉＣは大きくなり、その結果、ＰＦは小さくなる。よって、逆に頻度が少ない特異データのＰＦは大きな値となる。
【００６８】
以上より、式（１）は、他のデータとは大きく異なり、相対的に数が少ないという、特異データの特徴を表すことができる。ＰＦは分布ｎ_ｋと、個々の距離Ｎ（ｘ_ｉ、ｘ_ｋ）に依存していることから、次のような性質的な特徴を挙げることができる。
・頻度の低い値ほど、ＰＦが大きな値となる傾向がある。
・各項は頻度ｎ_ｋと距離Ｎ（ｘ_ｉ，ｘ_ｋ）から作られている。これは、頻度が多い値から離れている値ほどＰＦが大きくなることを示している。また、頻度の少ない値から離れている値は、ｎ_ｋが小さいため、必ずしも特異であるとはいえないことも示している。
【００６９】
式（２）を書き直すと、次の式を得る。
【数８】

つまり、ＰＦはｘ_ｉと他の値との距離の加重平均である。また、距離Ｎ（ｘ_ｉ，ｘ_ｋ）と分散（ｎ_１／ｎ，ｎ_２／ｎ，・・・，ｎ_ｈ／ｎ）の間には、関係があると予想される。以上の事から、他の値との距離が大きい値は、特異であると見なすことができる。しかし、頻度が多い値が存在する場合、距離が小さくても頻度につられてＰＦが大きくなってしまう。
【００７０】
（重みの評価）
式（１）におけるαは、距離の重要度を表すパラメータと述べた。このパラメータに関して、次の２つの特殊なケースについて考える。
【００７１】
Ｃａｓｅ１ α→ ０とした場合。この場合、連続値であっても記号データであってもＮ（ｘ_ｉｊ，ｘ_ｋｊ）は次のようになる。
【数９】

これは、先ほどのＰＦの評価Ｃａｓｅ２におけるＣ＝１と等価であり、
ＰＦ（ｘ_ｉ）＝ｎＣ−ｎ_ｉＣ＝ｎ−ｎ_ｉ
を得ることができる。これより、ＰＦはｘ_ｉｊとｘ_ｋｊの距離には関係なく、頻度ｎ_ｉｊのみに依存しているといえる。
【００７２】
Ｃａｓｅ２ α ≫ ｎとした場合。つまり、ｎに対してαが十分に大きい場合を考える。
”α ≫ ｎ”であることから、”Ｎ（ｘ_ｉｊ，ｘ_ｋｊ）^α ≫ ｎ_ｉ”である。よって、式（２）におけるｎ_ｉは無視することができ、次の式が得られる。
【数１０】

この式より、頻度ｎ_ｉｊには関係なく、ｘ_ｉｊとｘ_ｋｊの距離のみに依存しているといえる。α＝０．１、０．５、０．９、１．０、２．０としたときの、距離とＰＦの関係は図１のようになる。
【００７３】
図１からも分かるように、ＰＦを求める時、距離を重要視したい場合は、αを大きくし、逆に頻度を重要視したい場合は、αを小さくする事で距離に対する重要度を変更することができる。経験的にα＝０．５程度がバランスがとれていると考えられる。
【００７４】
（マルチデータソースマイニング）
本願発明の優位性は、特異性データマイニングを複数のデータソースに適用する点、つまり、特異性データマイニングとマルチデータソースマイニングを組み合わせた点にもある。
【００７５】
データベース（リレーション）は、それぞれがある特定の目的に応じて作られている。そのため、各データベースに対してデータマイニングを行っても、発見されるルールは解釈が難しく、実用性のないものとなってしまう場合がある。
【００７６】
この原因として、次の２つを挙げることができる。
（１）データが特定の目的に特化しているため、マイニングに必要な情報が不足している。
（２）一面的な分析しか行わないため、結果が偏ってしまう。
【００７７】
この問題を解決するために、複数のデータベースを組み合わせたマルチデータベースマイニング、複数のエージェントを用いた多視点多面的分析が必要である。
【００７８】
また、マルチデータソースは、その形式により次の３つのレベルに分けることができる。
・リレーショナルデータベル（ＲＤＢ）における複数のリレーション
・複数のＲＤＢの複数のリレーション
・複数のデータ形式（マルチメディアデータベース）
【００７９】
複数のＲＤＢはＲＤＢ間を結ぶ外部リンクを探すことで単一のＲＤＢと見なすことができる。また、マルチメディアデータベースは、データ変換を行うことでＲＤＢへと変換することができると考えられる。
【００８０】
（ＲＶＥＲモデル）
本願発明の一部をなすＲＶＥＲ（ＲｅｖｅｒｓｅＶａｒｉａｎｔＥｎｔｉｔｙ−Ｒｅｌａｔｉｏｎｓｈｉｐ）モデルは、マルチデータベースにおいて、データベースリバースエンジニアリング、グラニューラコンピューティング、知識指向相関性分析などの技術を用いて発見した、概念関係を表現するモデルである。
【００８１】
メインデータソースから特異ルールを発見しようと試みるが、単一データソースだけでは情報が不足している場合、発見されるルールは実用性のないルールがほとんどである。そこでＲＶＥＲモデルでは、メインデータソースと関連のあるデータソースを発見し、複数のデータソースを用いて分析を行う（図２）。複数のデータソースを用いることで、不足している情報を補い、より興味深い情報・概念・ルールの発見を行うことができる。
【００８２】
図３は、ＲＶＥＲを用いた例である。ＲＶＥＲモデルを用い、スーパーマーケットの売り上げのデータベース（表５）に天気のデータベース（表６）を関連付けすることで、
肉の売り上げ（少ない） ∧ 野菜の売り上げ（少ない） ∧ 果物の売り上げ（少ない）→ 総売り上げ（とても少ない）
というルールは、
天気（台風） → 総売り上げ（とても少ない）
のように、概念化することができる。
【００８３】
【表６】

【表７】

本願発明によるＲＶＥＲモデル（マルチソース手法）を用いた特異性指向データマイニングのステップは次のようになる。
【００８４】
（１）特異性指向マイニングの適用
メインデータソースに対し、特異性指向マイニングを適用する。
（２）データ・属性の選択
発見された特異ルール・データの中で、特に興味のある属性（値）を選択する。ここで選択した属性を他のデータソースとのリレーションの基準とし、複数のデータソース間の関係をＲＶＥＲモデルを用いて表す。
（３）他のデータソースにおける特異データを選択
他のデータソースに対し、特異性指向データマイニングを適用し、特異データを抽出する。抽出したデータの中で、ステップ２で選択した属性（値）が一致する特異データを選択する。
（４）特異ルールの生成
ステップ１、３において発見された特異データ間の関係を調べ、モデルに従って特異ルールを生成する。
【００８５】
ＲＶＥＲモデルの拡張
ＲＶＥＲモデルにおいて、他のデータソースから新たな情報を得るとき、必ずしも特異ルールを用いる必要はない。データの特徴によって、例外ルール発見手法や、分類ルール発見手法を使い分けることにで、より有用な情報を得られると考えられる（図４）。
【００８６】
また、他のデータソースに限らず、メインデータソースに対しても他のルール発見手法を適用し、別の視点から解析を行うことで、多視点多面的からの分析を行うことが可能となる。その結果、より高次的なルールを発見することができる。
【００８７】
【実施例】
本願発明のかかるマルチデータソースによる特異性データマイニング手法の適用例を説明する。本願発明による手法の適用対象は、抗原抗体反応に関する実験データである。
【００８８】
（抗原抗体反応）
抗原抗体反応は、免疫反応として最も重要なものの１つである。抗体は抗原（蛋白質）と結合し、その機能を失わせることで、免疫機能を実現している。抗体は、Ｈ鎖とＬ鎖のポリペプチドからなる構造で、可変部を中心にして抗原と結合するが、実は可変部以外のアミノ酸も抗原との結合にある程度寄与している。
【００８９】
本解析の目的は、アミノ酸配列の変化によって、結合係数のみならず、熱力学特性も変化するが、これらの配列と、結合係数あるいは熱力学特性との相関関係を発見することである。
【００９０】
（データ）
使用したデータは、ニワトリリゾチームを抗原とする抗体（ＨｙＨＥＬ−１０）に関するアミノ酸配列及び結合係数、熱力学実測データである。このデータは、アミノ酸構造データと実験データの２つのリレーションからなり、構造データは２３１属性、実験データは８属性からなっている。
【００９１】
また、属性は表７のような構成になっている。
【表８】

＊属性値にＮＤとあるのは、測定不能の意味である。特に、結合係数＝ＮＤは、「抗体として機能していない」という意味である。
【００９２】
このデータの特徴は、以下の通りである。
・記号データと連続値が混在している。
・属性の数が非常に多い。
・属性の数に対して、インスタンスの数が少ない。
・属性のほとんどが記号データである。
・構造の変化が少なく、変化の全く無い属性も存在する。
・連続値には、未知データが存在する。
【００９３】
（解析結果）
α＝０．５、β＝１．０として、実験を行った結果、表８〜１０のような結果を得た。また、図５はＲＶＥＲによる表現である。ただし、特異データが発見されなかった属性については省略した。
【００９４】
この結果より、属性Ｋａに注目すると、ＰＦの最も高かった特異データは４２であり、その番号は２３である。そこで、この実験データに注目すると、ほかのデータと比べて構造の変化が全く無い。ところで、この実験の目的は、アミノ酸の構造が変化したとき熱力学特性はどのように変化するか、である。そこで、Ｋａの変化が最も大きなデータは、２６番目の０．０４である。この２６番目の実験データに注目すると、属性ＤＧの−３２．６、ＤＨの−５３．４、ＤＣの−０．９２は、特異データであることが分かる。また、ＶＬアミノ酸配３２番目のａは特異データである。ここで、ＫａとＤＧ、ＤＨ、ＤＣｐの間の相関表中の太字は特異データである。また、表９、表１０において、＊の付いているデータはＰＦが最も高かったデータである。
【００９５】
【表９】

【表１０】

【表１１】

この結果より，属性Ｋａに注目すると、ＰＦの最も高かった特異データは４２であり、その番号は２６である。そこで、この実験データに注目すると、ほかのデータと比べて構造の変化が全く無い。ところで、このシミュレーションの目的は、アミノ酸の構造が変化したとき熱力学特性はどのように変化するからである。そこで、Ｋａの変化が最も大きなデータは、２６番目の０．０４である。この２６番目の実験データに注目すると、属性ＤＧの−３２．６、ＤＨの−５３．４、ＤＣの−０．９２は、特異データであることが分かる。また、ＶＬアミノ酸配３２番目のａは特異データである。
【００９６】
ここで、ＫａとＤＧ、ＤＨ、ＤＣｐの間の関数関係を調べると、図６、図７、図８のようになる。これより、ＫａとＤＧの間には関数関係があることが分かる。よって、ルールの生成ではＤＧを省略することにする。
【００９７】
以上より、このデータからは下表に示す特異ルールを発見することができる。
【００９８】
【表１２】

これは、
ＶＬアミノ酸配列の３２番目がａに変化している
ならば、
Ｋａの値は最小となり、ＤＨ、ＤＣは特異データとなる。
Ｋａの値が最小で、ＤＨ、ＤＣが特異データであるならば、
ならば、
ＶＬアミノ酸配列の３２番目がａに変化する。
ということを意味している。
【００９９】
本願においては、特異性指向技法を用いたマイニング手法を開示し、特異性の評価式の信頼性について評価した結果を示す。また、ＲＶＥＲモデルと特異性指向マイニングをベースにした、マルチデータソースマイニングの手法を提案した。また、特異性指向マイニングを実データベースに適用し、その有用性を確認した結果を示した。
【０１００】
【発明の効果】
本願発明によれば、単一のデータベースからのマイニングでは情報が不足している場合でも、本願発明にかかるＲＶＥＲモデルを用いて複数のデータソース間の概念関係を見つけ、マルチデータソースからのマイニングを行うことで、不足していた情報を補ってマイニングが可能となる。
【０１０１】
本願発明によれば、複数のルール発見手法を組み合わせることで、多視点多面的からのマイニングを行うことができる。
【図面の簡単な説明】
【図１】αを変化させたときのデータ距離とＰＦとの関係を示す図である。
【図２】ＲＶＥＲモデルの概念図である。
【図３】ＲＶＥＲモデルの適用例を示す。
【図４】ＲＶＥＲモデルを拡張した図を示す。
【図５】本実施例におけるＲＶＥＲモデル適用例を示す。
【図６】ＫａとＤＧの相関関係を示す図である。
【図７】ＫａとＤＨの相関関係を示す図である。
【図８】ＫａとＤＣｐの相関関係を示す図である。

Claims

複数のデータを用いてデータマイニングする方法であって、前記複数のデータは、
データ集合を用意するステップと、
前記データ集合に含まれる各データについて、他のデータとは値が隔たっていること、及び、当該データの頻度が小さいことに相関を有する特異性指標を得るステップと、
予め定めた基準指標と前記各データにかかる特異性指標とを比較するステップと、
前記比較に基づいて、複数のデータを選択するステップ、
により選択されることを特徴とする、データマイニング方法。
前記データ集合として、複数のデータ集合を予め関連づけたデータ集合を用いることを特徴とする、請求項１のデータマイニング方法。