JP2005018689A - データマイニング方法 - Google Patents

データマイニング方法 Download PDF

Info

Publication number
JP2005018689A
JP2005018689A JP2003186223A JP2003186223A JP2005018689A JP 2005018689 A JP2005018689 A JP 2005018689A JP 2003186223 A JP2003186223 A JP 2003186223A JP 2003186223 A JP2003186223 A JP 2003186223A JP 2005018689 A JP2005018689 A JP 2005018689A
Authority
JP
Japan
Prior art keywords
data
mining
rule
singular
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003186223A
Other languages
English (en)
Inventor
Munetetsu Oshima
宗哲 大島
Yasushi Tsun
寧 鍾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WEB INTELLIGENCE LAB KK
Original Assignee
WEB INTELLIGENCE LAB KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WEB INTELLIGENCE LAB KK filed Critical WEB INTELLIGENCE LAB KK
Priority to JP2003186223A priority Critical patent/JP2005018689A/ja
Publication of JP2005018689A publication Critical patent/JP2005018689A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】他のデータとは値が隔たっており、かつ、データ頻度が大きくないデータ(特異データ)を用いて、複数の異なる目的で編纂されたデータベースからデータマイニングを行うこと。
【解決手段】複数のデータ集合を予め関連づけを行い、これらのデータ集合に含まれる各データについて、他のデータとは値が隔たっていること及びデータの頻度が小さいことに相関を有する特異性指標を得て、予め定めた基準指標と特異性指標とを比較し、これに基づいて複数のデータを選択し、選択されたデータによりデータマイニングを行う。
【選択図】 図2

Description

【0001】
【産業上の利用分野】
本願発明は、データマイニングの新しい手法を提案する。特に、本願発明は、特異値を排除しないでマイニングの対象とし、かつ、データ源について複数のデータベースを用いたマルチデータに基づいてデータマイニングを行う手法にかかるものである。
【0002】
【従来技術】
近年、実世界のデータベースは大規模になり、有用なデータを効率良く利用することが不可能になりつつある。そこで、データベースから知識(ルール)を発見するデータマイニング(KDD:Knowledge Discovery and Data Mining)に関する研究が重要視されている。
【0003】
データベースから発見される仮説は、次の3種類に分類することができる。
(1) 間違った仮説。
(2) 広く知られていて役に立たない仮説。
(3) 新しく興味のある仮説。
データマイニングとは、この中で上記(3)の「新しく興味のある知識」(仮説)を発見することことをいう。
【0004】
以下、本願発明に関連する先行技術と先行概念を羅列的に開示する。
【0005】
(興味深さ)
Bing Liuらにより、興味深さに関する研究がされている。
データマイニングによって得られるルールは、単に実用可能なルールではなく、ユーザにとって興味があり、役に立つルールである必要がある。そのためには、ルールの興味深さに対する、客観的かつ主観的な評価基準が必要である。
【0006】
客観的評価として構造や統計、主観的評価として予期不能性と活用可能性をあげることができる。ここで、興味深さというのは人間による主観的評価であるため、予期不能性と活用可能性で評価することができる。活用可能性は発見したルールの評価であるため、ここでは予期不能性についてのみ考察する。ここでの予期不能性とは、ユーザの知らない知識、または、予想と反した知識を指す。つまり、ユーザの持つ知識と発見したルールを比較することで、予期不能性を評価することができる。
【0007】
予期不能性は、発見されたルールとユーザの知識を比較することで次の4種類に分類することができる。
(1) Conforming rules
すでに与えてある知識で、完全に予想されていたルール。
(2) Unexpected consequent rules
予期していた条件で、予期しない結果となったルール。非常に興味深いことが多い。
(3) Unexpected condition rules
予期しない条件で、予期していた結果となったルール。自分の経験のない分野を学ぶ必要があると考えられる。
(4) Both−side unexpected rules
まったく予期しない条件、結果となったルール。自分の持っている知識の外に、知識があることを示している。
【0008】
ここにいう「ユーザの知識」は、確信度の違いにより次の3種類に分類することができる。
(1) General Impression(GI)
一般的な常識等を表す。はっきりとした確証を持たず、曖昧な感覚を表している。
(2) Reasonably Precise Concept(RPC)
ユーザの持つ知識を表している。曖昧な知識を表している。
(3) Precise Knowledge(PK)
ユーザの持つ知識を表している。RPCよりも強く、ユーザが信じている知識を表す。
【0009】
これにより、ユーザの与えた知識に対しての、予期可能性を表す識別をすることができる。また、発見したルールを予期可能性を元に分類することができる。
【0010】
(相関ルール)
相関ルールは、データベースから発見されるルールの表現方法の一つである。一般に“X → Y”という形で表現され、属性間の相関関係を表している。また、相関ルールは次の3種類に分けられる。
(1) 一般ルール
(2) 例外ルール
(3) 特異ルール
【0011】
ここでは、相関ルールである、一般ルール、例外ルール、特異ルールについて説明する。その後、それぞれの特徴を比較する。
【0012】
(一般ルール)
一般ルールは、Agrawalらによって提案された。一般ルールは、数多くのインスタンスをカバーしており、一般常識のような良く知られた事実を表すものである。
【0013】
アイテムの集合をL={i、i, ・・・, i}、トランザクションデータベースをD={t, t, ・・・, t} (t⊆L)とし、アイテム集合Xの支持度はD全体に対しXを含むトランザクションの割合を表すとする。
【0014】
相関ルールX → Yにおいて、X⊆L、Y⊆L、X∩Y=φとする。相関ルールX → Yは、支持度(support)と確信度(confidence)の2つのパラメータを持つ。ここで、支持度support(X → Y)とは、全体に対しXとYを共に含む割合support(X∩Y)をいう。支持度が大きいほど、そのルールは多くのデータに裏付けられており、支持されている度合いが強い。確信度confidence(X → Y)とは、Xを含むトランザクションのうち、XとYを共に含むトランザクションの割合、すなわち、support(X∩Y) / support(X)によって定義される。確信度が高いほど、その相関ルールは、そのようなルールが存在する確からしさが高いということになる。
【0015】
支持度と確信度によりルールの有意性を示している。これらをまとめると次の式で定義される。
X → Y [support, confidence]
support = P(X∩Y)
confidence = P(X|Y)
但し、P(X)は全体LにおけるXの割合である。
【00016】
一般ルールは、元のデータに対する被覆率を基準とし support(X∩Y) / support(X)の大きさと、与えられたしきい値iの比較により評価される。また、サンプリングされたデータから導出される規則に対しても、統計的な妥当性を考慮した精度評価を行う。
【0017】
一般ルールの例をいくつか挙げる。
bird(X) → fly(X)
「鳥であれば飛ぶ」というルールであり、ごく一般的な常識を表すルールである。
use(X, seatbelt) → safe(X)
「シートベルトを着用すれば安全である。」というルールであり、ごく一般的な常識を表すルールである。
【0018】
このように、一般ルールは、数多くのインスタンスをカバーしており、一般常識のような良く知られた事実を表すものである。しかし、一般ルールはすでに知られていることがほとんどなので、データマイニングによって新たに発見する作業を行う意義が乏しい場合が多い。
【0019】
(例外ルール)
例外ルールは、鈴木らによって提案された。例外ルールは、データの一般性に例外という条件を追加することで、一般的知識に対する例外的知識にかかるものである。例外ルールの特徴は、カバーしているインスタンスの数が少なく、一般ルールに対する例外なので、例外ルールと一般ルールとは常に組になっているという点である。この組をルールペアと呼ぶ。また、このルールは良く知られている例外的事実を表している。
【0020】
発見される知識、ルールペアr(μ,ν)は次の形で表すことができる。
【数1】
Figure 2005018689
ただし、xとx’の属性は等しく属性値は異なるとする。
【0021】
ルールの前提部と結論部は、正の相関を表しているため、前提部の事象が出現するときに結論部の事象が出現する条件付き確率は、一般に結論部の事象が出現する確率よりも大きくなる。したがって、ルールペアにおいては、必ず
P(x|Yμ) > P(x), P(x’|Yμ ∧ Zν) > P(x’)
(ただし、Yμ = y, y, ・・・, yμ, Zν = z, z, ・・・, zνとする。)
が成立する。
【0022】
上式のルールペアは「Yμならばxであり、Yμ∧ Zνならばx’である」と解釈できる。このとき、ルールYμ→ xを通常的ルール(一般ルール)と呼び、それに対し、Yμ∧ Zν → x’を例外ルールと呼ぶ。
【0023】
例外ルールの例をいくつか示す。
bird(X) ∧ Penguin(X) →  ̄fly(X)
「鳥がペンギンの場合は飛ばない。」
use(X, seatbelt) ∧ child(X) →  ̄safe(X)
「子供がシートベルトを着用すると安全ではない。」
【0024】
(特異ルール)
特異ルールは、本発明者らによって提案された(文献1)。例外ルールと同様に、カバーしているインスタンスの数が少ないが、発見されるルールは一般ルールと同様に良く知られている事実を表している。特異ルールを排除しないで行うデータマイニング手法の提供が、本願発明の主題である。
【0025】
【非特許文献1】
Zhong N., Yao Y.Y., and Ohsuga S., ”Peculiarity Oriented Multi−Database Mining”, Springer LNAI 1704 (1999) 136−146
【0026】
特異ルールは、特異データ間の関連を調べることで発見される。この特異データとは、データセットにおいてとても数が少なく、他と大きく異なるデータである。例外ルールと同じように、数少ないインスタンスから発見されるにもかかわらず、発見されるルールは良く知られている事実を表している。
【0027】
統計学のクラスター分析において、「特異値」という概念が存在する。この「特異値」はデータセット内において、一定の基準を満たしていない値全てを指している。しかし、ここでの特異データは、一定の基準を満たしていないデータではなく、他と比べたとき大きく異なるデータを指している。
【0028】
下表はあるスーパーマーケットの売り上げを肉、野菜、果物に分類したものである。9/27の売り上げに注目すると、
肉の売り上げ(少ない) ∧ 野菜の売り上げ(少ない) ∧ 果物の売り上げ(少ない)→ 総売り上げ(とても少ない)
というルールをを発見することができる。これを一般ルールであるとすると、
肉の売り上げ(普通) ∧ 野菜の売り上げ(普通) ∧ 果物の売り上げ(普通) → 総売り上げ(普通)
というような、価値のないルールにすぎない。
【0029】
【表1】
Figure 2005018689
この例でわかるように、特異ルールは、データセットにおいてとても数が少なく、他と大きく異なるデータから発見されるルールである。
【0030】
(ルールの比較)
それぞれのルールを比較すると、下表のようにまとめられる。
【0031】
【表2】
Figure 2005018689
表より、それぞれのルールに対して、次のような特徴を挙げることができる。一般ルールは、データベース中から多くのインスタンスをカバーしており、よく知られた事実(普遍的なルール)を発見することができることから、知識ベースを生成する際に利用することができる。また、データ中のおおまかな概念を知ることができる。
【0032】
例外ルールは、一般ルールとペアになっており、一般ルールに対しての条件付きの知識を得ることができる。
【0033】
特異ルールは、希に表れる事実に関するものであるが、よく知られているが知識を得ることができる。
【0034】
今までのデータマイニングの手法では、統計学的手法を用いていたので、特異データ(データ集合の中のほかの数値に対して異常である数値の一群)がデータマイニングのプロセスから除かれてしまう。しかし、特異データを取り除いてデータマイニングを行う方法では「新しく興味のある知識」を発見することは難しい。
【0035】
この特異値は、相互に非常に異なっているため、対象間の類似性を決定する際に非特異データよりもずっと強影響を及ぼす。そのため、データ解析を行う前にデータ変換を行い、一定の範囲に収まるようにするか、データ集合から取り除いてしまう。しかし、この取り除かれていた特異データの中にこそ、興味深い知識を発見する手がかりが存在する。そこで、逆に今まで取り除かれていた特異データに注目することで、“新しく興味のある仮説”を発見する可能性が高くなる。
【0036】
また、実世界のデータベースは、それぞれがある組織体の統合・共用資源として作られているものであり、データマイニングのために構築したものではない。そのため、単一のデータベースに対してデータマイニングを行っても、興味深く、新規性や実用性のあるルールを発見するのは難しい場合がある。
【0037】
この原因として、次の2つを挙げることができる。
(1) 特定の目的に特化しているため、マイニングに必要な情報が不足している。
(2) 一面的な分析しか行わないため、結果が偏ってしまう。
【0038】
この問題を解決するために、複数のデータベースを組み合わせたマルチデータベースマイニング、複数のエージェントを用いた多視点多面的分析が必要である。
【0039】
本出願では、複数のデータベース間の概念関係を表現するRVERモデルを開発し、RVERモデルと特異性指向マイニングをベースにした、マルチデータベースマイニング手法の開発を行った。また、特異性指向マイニングを複数の分野のデータベースに適用し、その有効性を確認した。
【0040】
【発明が解決しようとする課題】
本願発明は、特異データを用いて複数の異なる目的により編纂されたデータベースからデータマイニングを行う手法を提案することを目的とする。
【0041】
【課題を解決するための手段】
前記課題を解決するために、本願発明は、複数のデータを用いてデータマイニングする方法であって、複数のデータの選択のために、少なくとも、データ集合を用意するステップと、データ集合に含まれる各データについて、他のデータとは値が隔たっていること、及び、当該データの頻度が小さいことを正の相関とする特異性指標を得るステップと、予め定めた基準指標と各データにかかる特異性指標とを比較するステップと、この比較に基づいて、複数のデータを選択するステップを実施するデータマイニング方法を提案する。
【0042】
また、上記課題を解決するために、本願発明は、データ集合として、複数のデータ集合を予め関連づけたデータ集合を用いるデータマイニング方法を提案する。
【0043】
【作用】
本願発明によれば、単一のデータベースからのマイニングでは情報が不足している場合でも、本願発明にかかるRVERモデルを用いて複数のデータソース間の概念関係を見つけ、マルチデータソースからのマイニングを行うことで、不足していた情報を補ってマイニングが可能となる。
【0044】
【発明の実施形態】
(特異性指向マイニング)
本願発明にかかる特異性指向マイニングとは、データベースの中にある特異データに注目しデータマイニングを行う技法である。ここでいう特異データとは、データベースの中に含まれる、他とは大きく異なり数の少ないデータである。そこで、特異性指向マイニングでは、この特異データに注目しルールの発見を行う。
【0045】
ここでは、本願発明にかかる特異性指向データマイニングに必要な技術である、特異性指向技法、グラニューラコンピューティングについて説明し、特異性指向マイニングの流れを示す。また、特異性指向技法で用いられるパラメータ、および特異性指向における特異性の評価式の頑強性について評価を行う。
【0046】
(特異性指向技法)
本願発明にかかる特異性指向マイニングは、あるデータベースにおけるデータの特異性に注目し、そこからデータマイニングを行う手法である。そこで、データの特異性を定量的に表す指標を導入する必要がある。特異性を定量的に表す指標としてPeculiarity Factor(PF)を用いる。
【0047】
【表3】
Figure 2005018689
上表のようなデータセットが存在するときに、このPFは次の式で計算することができる。PFは、データの特異性が高い場合(他のデータとは大きく異なる場合)は大きな値となり、データの特異性が低い場合(他と同じようなデータである場合)は小さな値となる。
【数2】
Figure 2005018689
ただし、N(xij,xkj)は属性値間の距離であり、αは距離の重要度を表すパラメータである。
【0048】
Peculiarity Factor(PF)はあるデータが他のデータからどれだけ隔たった値を有しているかを評価する指標である。従って、あるデータのPF値(上式の左辺)は、そのデータとそのデータが属する列の他のデータとの距離(典型的には差分)を係数αで累乗した値で評価できる。
【0049】
ここで、属性値間の距離N(xij, xkj)は、次のようにして決定する。
(1) 連続値の場合
値の差の絶対値を距離とする。
N(xij, xkj) = |xij−xkj
(2) 記号データの場合
値が記号データの場合、そのままでは距離を決定できないため、次のようにして距離を決定する。
背景知識を利用できる場合・・背景知識に基づき、それぞれの距離を決定する。
背景知識を利用できない場合・・異なるデータであれば 1、同じデータであれば 0と仮定する。
【数3】
Figure 2005018689
このように決定することで、属性値が連続値の場合でも、記号データの場合でも同じ式を用いて特異性を求めることができる。
【0050】
特異データのPFの値は大きくなるから、PFにしきい値を設定し、そのしきい値を超えたデータを特異データであると定義する。
【0051】
表4は各県の有する耕地面積と森林面積を例として、PFを計算した例である。ここで、例えば、PFのしきい値を1200と設定すると、耕地面積・森林面積ともに北海道が特異データであることがわかる。
【0052】
【表4】
Figure 2005018689
表4においては、数値データを用いてPFを計算したが、記号データの場合でもそれぞれの記号を定量化するなどしてPFを求めることが可能である。また、背景知識を利用できる場合は、背景知識に基づきそれぞれの距離を決定し、背景知識を利用できない場合は、例えば、異なるデータであれば 1、同じデータであれば 0と仮定することにより、何らかの数値化を経てPFを計算することができる。
【0053】
(しきい値)
しきい値は、例えば、下式を用い、PFの平均値と標準偏差を用いて決定することができる。
Threshold = mean of PF(x) + β×standard deviation of PF(x
【0054】
これにより、コンピュータによる客観的評価で特異データの選択を行うことができる。また、βは人の主観的評価を行うためのパラメータである。βを適切に調整することで、特異データの選択を行うことができる。
【0055】
(クラスタリング)
データセットに含まれるデータにはそれぞれ情報があり、情報を持たないデータはほとんど存在しない。この情報を元に、データを分類しデータマイニングを行うことにより、より正確なデータマイニングを行うことができる。そのためデータの持つ意味を考慮して特異データの発見を行う必要がある。考慮せずに特異データの発見を行うと、意味の異なる特異データを、同じ特異データとして扱ってしまうため、特異ルールの解釈を誤る可能性がある。
【0056】
(1)背景知識を利用できる場合
背景知識に基づき、クラスタの作成を行う。
(2)背景知識を利用できない場合
そのままではクラスタリングによる分類を行うことができないため、次の方法でクラスタの作成を行う。
記号データの場合・・同じデータであれば同じクラスタ、異なるデータであれば他のクラスタであると仮定とする。
連続値の場合・・最短距離法を用いてクラスタの作成を行う。
【0057】
(最短距離法)
最短距離法は、2つのクラスタの間の距離を各クラスタに含まれる個体の間の最短の距離を用いて、クラスタの融合を行う。例えば、(a)クラスタと(b)クラスタが最も距離が小さいので融合し、(c)クラスタができるとする。このとき、新たにできた(c)クラスタと任意の(i)クラスタの距離Dci は次のように定義する。
ci=min(Dai+Dbi
【0058】
この式は、
【数4】
Figure 2005018689
とも表せる。この手法は、最も近い1つの個体を含むクラスタを逐次融合していくので、線状のクラスタの検出に優れている。また、融合が行われる毎に距離が近付くために空間が収縮される。
【0059】
(グラニューラコンピューティング(GrC))
グラニューラコンピューティングは、背景知識を利用して情報の粒度を調節する技法である。情報の粒度を調節することで、データの抽象化や概念化を行うことができる。大まかに分けると、次の二つに分類することができる。
(1) Basic Granules
(2) Specific Granules
【0060】
Basic Granulesは、基本的なグラニューで、一般的知識としてもっているもの。ほとんどのデータセットに対して適用することができる。Basic Granuleの例としては、{高い, 低い}, {大きい, 小さい}, {多い, 少ない}, {遠い, 近い}, {長い, 短い}, 等が挙げられる。
【0061】
Specific Granulesは、データセット特有のグラニューである。主に、背景知識として与えることができる。Specific Granuleの例としては、
{大都市} = {東京, 大阪}
{関東地方} = {東京, 千葉, 埼玉, ・・・}
{関西地方} = {大阪, 京都, 奈良, ・・・}
が挙げられる。
【0062】
(特異性指向マイニング)
本願発明にかかる特異性指向マイニングは次の7ステップからなる。また、特異性指向マイニングは属性値指向であるため並列処理を行うことができる。
1.クラスタの作成
発見した特異データを分類するために、あらかじめクラスタを作成しておく。ここで作成したクラスタは6.で特異データの分類に用いられる。
2.PFの計算
各属性のデータセットをX={x, x, ・・・, x}と置き、式(1)を用いてPF(x)を求める。
3.しきい値の計算
2.で求めたPF(x)を元に、式(1)を用いてしきい値を計算する。
4.特異データの選択
しきい値を越えているデータを特異データとして選ぶ。
5.データの確認
特異性が十分であれば6.へ進む. ここで、「特異性が十分である」 とは、今までに選択した特異データがルールの生成を行うために十分である、ということである。
6.情報の粒度の調節
1.で作成したクラスタをもとに、特異データを修正する。また、グラニューラコンピューティングを用いて、情報の粒度の調節を行う。
7.特異ルールの生成
今までに得られた特異データから、特異ルールを生成する。
【0063】
(PFの評価)
Peculiarity Factor(PF)を求める計算式の信頼性を確認するため、次のような評価を行った。
【0064】
ある属性Aにおいて、その値が表5のような分布であるとする。
【表5】
Figure 2005018689
このとき、PF(x)は、式(1)で求める事ができる。式は次のように置き換えることができる。
【0065】
【数5】
Figure 2005018689
また、N(x、x) = 0である、という事から上式は計算上、次のように簡単化することができる。
【数6】
Figure 2005018689
ここで、次の2つの特殊なケースについて考える。
Case 1. すべての頻度が同じ、つまりn = n = ・・・ = n = h/nである場合、次の式を得ることができる。
【数7】
Figure 2005018689
この式において、h / nは一定であり、どのようなPFにも影響を与えない。そのため、PFは、xと他の値との距離の和だけで決定される。よって、他とは大きく異なる特異データのPFは大きな値となる。
【0066】
Case 2. すべての距離が同じ、つまりN(xij, xkj) = C, i ≠ kかつN(xij, xij) = 0である場合、次の式を得ることができる。
PF(x)=(n−n)C=nC−n
【0067】
この式において、nCは一定であり、どのようなPFにも影響を与えない。また、頻度が多くなるほど、nCは大きくなり、その結果、PFは小さくなる。よって、逆に頻度が少ない特異データのPFは大きな値となる。
【0068】
以上より、式(1)は、他のデータとは大きく異なり、相対的に数が少ないという、特異データの特徴を表すことができる。PFは分布nと、個々の距離N(x、x)に依存していることから、次のような性質的な特徴を挙げることができる。
・頻度の低い値ほど、PFが大きな値となる傾向がある。
・各項は頻度nと距離N(x, x)から作られている。これは、頻度が多い値から離れている値ほどPFが大きくなることを示している。また、頻度の少ない値から離れている値は、nが小さいため、必ずしも特異であるとはいえないことも示している。
【0069】
式(2)を書き直すと、次の式を得る。
【数8】
Figure 2005018689
つまり、PFはxと他の値との距離の加重平均である。また、距離N(x, x)と分散(n/n, n/n, ・・・, n/n)の間には、関係があると予想される。以上の事から、他の値との距離が大きい値は、特異であると見なすことができる。しかし、頻度が多い値が存在する場合、距離が小さくても頻度につられてPFが大きくなってしまう。
【0070】
(重みの評価)
式(1)におけるαは、距離の重要度を表すパラメータと述べた。このパラメータに関して、次の2つの特殊なケースについて考える。
【0071】
Case 1 α→ 0とした場合。この場合、連続値であっても記号データであってもN(xij, xkj)は次のようになる。
【数9】
Figure 2005018689
これは、先ほどのPFの評価Case 2におけるC = 1と等価であり、
PF(x)=nC−nC=n−n
を得ることができる。これより、PFはxijとxkjの距離には関係なく、頻度nijのみに依存しているといえる。
【0072】
Case 2 α ≫ n とした場合。つまり、nに対してαが十分に大きい場合を考える。
”α ≫ n”であることから、”N(xij, xkjα ≫ n”である。よって、式(2)におけるnは無視することができ、次の式が得られる。
【数10】
Figure 2005018689
この式より、頻度nijには関係なく、xijとxkjの距離のみに依存しているといえる。α= 0.1、0.5、0.9、1.0、2.0としたときの、距離とPFの関係は図1のようになる。
【0073】
図1からも分かるように、PFを求める時、距離を重要視したい場合は、αを大きくし、逆に頻度を重要視したい場合は、αを小さくする事で距離に対する重要度を変更することができる。経験的にα= 0.5程度がバランスがとれていると考えられる。
【0074】
(マルチデータソースマイニング)
本願発明の優位性は、特異性データマイニングを複数のデータソースに適用する点、つまり、特異性データマイニングとマルチデータソースマイニングを組み合わせた点にもある。
【0075】
データベース(リレーション)は、それぞれがある特定の目的に応じて作られている。そのため、各データベースに対してデータマイニングを行っても、発見されるルールは解釈が難しく、実用性のないものとなってしまう場合がある。
【0076】
この原因として、次の2つを挙げることができる。
(1) データが特定の目的に特化しているため、マイニングに必要な情報が不足している。
(2) 一面的な分析しか行わないため、結果が偏ってしまう。
【0077】
この問題を解決するために、複数のデータベースを組み合わせたマルチデータベースマイニング、複数のエージェントを用いた多視点多面的分析が必要である。
【0078】
また、マルチデータソースは、その形式により次の3つのレベルに分けることができる。
・リレーショナルデータベル(RDB)における複数のリレーション
・複数のRDBの複数のリレーション
・複数のデータ形式(マルチメディアデータベース)
【0079】
複数のRDBはRDB間を結ぶ外部リンクを探すことで単一のRDBと見なすことができる。また、マルチメディアデータベースは、データ変換を行うことでRDBへと変換することができると考えられる。
【0080】
(RVERモデル)
本願発明の一部をなすRVER(Reverse Variant Entity−Relationship)モデルは、マルチデータベースにおいて、データベースリバースエンジニアリング、グラニューラコンピューティング、知識指向相関性分析などの技術を用いて発見した、概念関係を表現するモデルである。
【0081】
メインデータソースから特異ルールを発見しようと試みるが、単一データソースだけでは情報が不足している場合、発見されるルールは実用性のないルールがほとんどである。そこでRVERモデルでは、メインデータソースと関連のあるデータソースを発見し、複数のデータソースを用いて分析を行う(図2)。複数のデータソースを用いることで、不足している情報を補い、より興味深い情報・概念・ルールの発見を行うことができる。
【0082】
図3は、RVERを用いた例である。RVERモデルを用い、スーパーマーケットの売り上げのデータベース(表5)に天気のデータベース(表6)を関連付けすることで、
肉の売り上げ(少ない) ∧ 野菜の売り上げ(少ない) ∧ 果物の売り上げ(少ない)→ 総売り上げ(とても少ない)
というルールは、
天気(台風) → 総売り上げ(とても少ない)
のように、概念化することができる。
【0083】
【表6】
Figure 2005018689
【表7】
Figure 2005018689
本願発明によるRVERモデル(マルチソース手法)を用いた特異性指向データマイニングのステップは次のようになる。
【0084】
(1) 特異性指向マイニングの適用
メインデータソースに対し、特異性指向マイニングを適用する。
(2) データ・属性の選択
発見された特異ルール・データの中で、特に興味のある属性(値)を選択する。ここで選択した属性を他のデータソースとのリレーションの基準とし、複数のデータソース間の関係をRVERモデルを用いて表す。
(3) 他のデータソースにおける特異データを選択
他のデータソースに対し、特異性指向データマイニングを適用し、特異データを抽出する。抽出したデータの中で、ステップ2で選択した属性(値)が一致する特異データを選択する。
(4)特異ルールの生成
ステップ1、3において発見された特異データ間の関係を調べ、モデルに従って特異ルールを生成する。
【0085】
RVERモデルの拡張
RVERモデルにおいて、他のデータソースから新たな情報を得るとき、必ずしも特異ルールを用いる必要はない。データの特徴によって、例外ルール発見手法や、分類ルール発見手法を使い分けることにで、より有用な情報を得られると考えられる(図4)。
【0086】
また、他のデータソースに限らず、メインデータソースに対しても他のルール発見手法を適用し、別の視点から解析を行うことで、多視点多面的からの分析を行うことが可能となる。その結果、より高次的なルールを発見することができる。
【0087】
【実施例】
本願発明のかかるマルチデータソースによる特異性データマイニング手法の適用例を説明する。本願発明による手法の適用対象は、抗原抗体反応に関する実験データである。
【0088】
(抗原抗体反応)
抗原抗体反応は、免疫反応として最も重要なものの1つである。抗体は抗原(蛋白質)と結合し、その機能を失わせることで、免疫機能を実現している。抗体は、H鎖とL鎖のポリペプチドからなる構造で、可変部を中心にして抗原と結合するが、実は可変部以外のアミノ酸も抗原との結合にある程度寄与している。
【0089】
本解析の目的は、アミノ酸配列の変化によって、結合係数のみならず、熱力学特性も変化するが、これらの配列と、結合係数あるいは熱力学特性との相関関係を発見することである。
【0090】
(データ)
使用したデータは、ニワトリリゾチームを抗原とする抗体(HyHEL−10)に関するアミノ酸配列及び結合係数、熱力学実測データである。このデータは、アミノ酸構造データと実験データの2つのリレーションからなり、構造データは231属性、実験データは8属性からなっている。
【0091】
また、属性は表7のような構成になっている。
【表8】
Figure 2005018689
*属性値にNDとあるのは、測定不能の意味である。特に、結合係数=NDは、「抗体として機能していない」という意味である。
【0092】
このデータの特徴は、以下の通りである。
・記号データと連続値が混在している。
・属性の数が非常に多い。
・属性の数に対して、インスタンスの数が少ない。
・属性のほとんどが記号データである。
・構造の変化が少なく、変化の全く無い属性も存在する。
・連続値には、未知データが存在する。
【0093】
(解析結果)
α= 0.5、β= 1.0として、実験を行った結果、表8〜10のような結果を得た。また、図5はRVERによる表現である。ただし、特異データが発見されなかった属性については省略した。
【0094】
この結果より、属性Kaに注目すると、PFの最も高かった特異データは42であり、その番号は23である。そこで、この実験データに注目すると、ほかのデータと比べて構造の変化が全く無い。ところで、この実験の目的は、アミノ酸の構造が変化したとき熱力学特性はどのように変化するか、である。そこで、Kaの変化が最も大きなデータは、26番目の0.04である。この26番目の実験データに注目すると、属性DGの−32.6、DHの−53.4、DCの−0.92は、特異データであることが分かる。また、VLアミノ酸配32番目のaは特異データである。ここで、KaとDG、DH、DCpの間の相関表中の太字は特異データである。また、表9、表10において、*の付いているデータはPFが最も高かったデータである。
【0095】
【表9】
Figure 2005018689
【表10】
Figure 2005018689
【表11】
Figure 2005018689
この結果より, 属性Kaに注目すると、PFの最も高かった特異データは42であり、その番号は26である。そこで、この実験データに注目すると、ほかのデータと比べて構造の変化が全く無い。ところで、このシミュレーションの目的は、アミノ酸の構造が変化したとき熱力学特性はどのように変化するからである。そこで、Kaの変化が最も大きなデータは、26番目の0.04である。この26番目の実験データに注目すると、属性DGの−32.6、DHの−53.4、DCの−0.92は、特異データであることが分かる。また、VLアミノ酸配32番目のaは特異データである。
【0096】
ここで、KaとDG、DH、DCpの間の関数関係を調べると、図6、図7、図8のようになる。これより、KaとDGの間には関数関係があることが分かる。よって、ルールの生成ではDGを省略することにする。
【0097】
以上より、このデータからは下表に示す特異ルールを発見することができる。
【0098】
【表12】
Figure 2005018689
これは、
VLアミノ酸配列の32番目がaに変化している
ならば、
Kaの値は最小となり、DH、DCは特異データとなる。
Kaの値が最小で、DH、DCが特異データであるならば、
ならば、
VLアミノ酸配列の32番目がaに変化する。
ということを意味している。
【0099】
本願においては、特異性指向技法を用いたマイニング手法を開示し、特異性の評価式の信頼性について評価した結果を示す。また、RVERモデルと特異性指向マイニングをベースにした、マルチデータソースマイニングの手法を提案した。また、特異性指向マイニングを実データベースに適用し、その有用性を確認した結果を示した。
【0100】
【発明の効果】
本願発明によれば、単一のデータベースからのマイニングでは情報が不足している場合でも、本願発明にかかるRVERモデルを用いて複数のデータソース間の概念関係を見つけ、マルチデータソースからのマイニングを行うことで、不足していた情報を補ってマイニングが可能となる。
【0101】
本願発明によれば、複数のルール発見手法を組み合わせることで、多視点多面的からのマイニングを行うことができる。
【図面の簡単な説明】
【図1】αを変化させたときのデータ距離とPFとの関係を示す図である。
【図2】RVERモデルの概念図である。
【図3】RVERモデルの適用例を示す。
【図4】RVERモデルを拡張した図を示す。
【図5】本実施例におけるRVERモデル適用例を示す。
【図6】KaとDGの相関関係を示す図である。
【図7】KaとDHの相関関係を示す図である。
【図8】KaとDCpの相関関係を示す図である。

Claims (2)

  1. 複数のデータを用いてデータマイニングする方法であって、前記複数のデータは、
    データ集合を用意するステップと、
    前記データ集合に含まれる各データについて、他のデータとは値が隔たっていること、及び、当該データの頻度が小さいことに相関を有する特異性指標を得るステップと、
    予め定めた基準指標と前記各データにかかる特異性指標とを比較するステップと、
    前記比較に基づいて、複数のデータを選択するステップ、
    により選択されることを特徴とする、データマイニング方法。
  2. 前記データ集合として、複数のデータ集合を予め関連づけたデータ集合を用いることを特徴とする、請求項1のデータマイニング方法。
JP2003186223A 2003-06-30 2003-06-30 データマイニング方法 Pending JP2005018689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003186223A JP2005018689A (ja) 2003-06-30 2003-06-30 データマイニング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003186223A JP2005018689A (ja) 2003-06-30 2003-06-30 データマイニング方法

Publications (1)

Publication Number Publication Date
JP2005018689A true JP2005018689A (ja) 2005-01-20

Family

ID=34185414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003186223A Pending JP2005018689A (ja) 2003-06-30 2003-06-30 データマイニング方法

Country Status (1)

Country Link
JP (1) JP2005018689A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012029500A1 (ja) * 2010-09-01 2012-03-08 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
CN102971729A (zh) * 2010-04-14 2013-03-13 邓白氏公司 将可操作属性归于描述个人身份的数据
US8676738B2 (en) 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
US9626433B2 (en) 2013-04-23 2017-04-18 International Business Machines Corporation Supporting acquisition of information
CN111341454A (zh) * 2018-12-19 2020-06-26 中国电信股份有限公司 数据挖掘方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676738B2 (en) 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
CN102971729A (zh) * 2010-04-14 2013-03-13 邓白氏公司 将可操作属性归于描述个人身份的数据
JP2013524387A (ja) * 2010-04-14 2013-06-17 ザ ダン アンド ブラッドストリート コーポレーション アクショナブルな属性を、個人識別を表すデータに帰する方法及びシステム
US9442991B2 (en) 2010-04-14 2016-09-13 The Dun & Bradstreet Corporation Ascribing actionable attributes to data that describes a personal identity
WO2012029500A1 (ja) * 2010-09-01 2012-03-08 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
JP5387779B2 (ja) * 2010-09-01 2014-01-15 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
US9600391B2 (en) 2010-09-01 2017-03-21 Nec Corporation Operations management apparatus, operations management method and program
US9626433B2 (en) 2013-04-23 2017-04-18 International Business Machines Corporation Supporting acquisition of information
CN111341454A (zh) * 2018-12-19 2020-06-26 中国电信股份有限公司 数据挖掘方法和装置
CN111341454B (zh) * 2018-12-19 2023-07-25 中国电信股份有限公司 数据挖掘方法和装置

Similar Documents

Publication Publication Date Title
Thenmozhi et al. Heart disease prediction using classification with different decision tree techniques
Li An improved DBSCAN algorithm based on the neighbor similarity and fast nearest neighbor query
Hapfelmeier et al. A new variable selection approach using random forests
Yang et al. Ensemble-based wrapper methods for feature selection and class imbalance learning
Shajahaan et al. Application of data mining techniques to model breast cancer data
Kumar et al. Knowledge discovery from database using an integration of clustering and classification
Nguyen et al. SLINT: a schema-independent linked data interlinking system
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
Zhu et al. Grouping points by shared subspaces for effective subspace clustering
Lee et al. Modeling of inter‐sample variation in flow cytometric data with the joint clustering and matching procedure
Koyuncu et al. Artificial neural network based on rotation forest for biomedical pattern classification
CN110688549A (zh) 一种基于知识体系图谱构建的人工智能分类方法与系统
Gao Stability analysis of rock slope based on an abstraction ant colony clustering algorithm
CN105279524A (zh) 基于无权超图分割的高维数据聚类方法
Flores-Garrido et al. Mining maximal frequent patterns in a single graph using inexact matching
Marchese et al. Topological learning for acoustic signal identification
Ultsch et al. An Explainable AI System for the Diagnosis of High-Dimensional Biomedical Data
Baswade et al. A comparative study of k-means and weighted k-means for clustering
JP2005018689A (ja) データマイニング方法
CN114168751B (zh) 一种基于医学知识概念图的医学文本标签识别方法及系统
Krishna et al. AdaBoost with feature selection using IoT to bring the paths for somatic mutations evaluation in cancer
Hammoudi et al. Computing multi-purpose image-based descriptors for object detection: powerfulness of LBP and its variants
Bhuvaneswari et al. The study and analysis of classification algorithm for animal kingdom dataset
Nugroho et al. Decision Tree Induction for Classifying the Cholesterol Levels
Veena et al. Clustering of web users' access patterns using a modified competitive agglomerative algorithm

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070821