JP2001229026A - 知識発見方式 - Google Patents

知識発見方式

Info

Publication number
JP2001229026A
JP2001229026A JP2000104760A JP2000104760A JP2001229026A JP 2001229026 A JP2001229026 A JP 2001229026A JP 2000104760 A JP2000104760 A JP 2000104760A JP 2000104760 A JP2000104760 A JP 2000104760A JP 2001229026 A JP2001229026 A JP 2001229026A
Authority
JP
Japan
Prior art keywords
data
main memory
candidate points
prediction
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000104760A
Other languages
English (en)
Inventor
Hiroshi Mamizuka
拓 馬見塚
Naoki Abe
直樹 安倍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000104760A priority Critical patent/JP2001229026A/ja
Priority to US09/730,616 priority patent/US6973446B2/en
Publication of JP2001229026A publication Critical patent/JP2001229026A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 データベースから情報量の大きいデータのみ
選択的にサンプリングし、効率的に知識発見を行なう汎
用的な知識発見方式を提供する。 【解決手段】 学習手段104は、高速メインメモリ1
20に格納されているデータからサンプリングによって
作成した複数の部分サンプルを、入力部107を介して
入力した下位学習アルゴリズムに学習させ、複数の仮説
を得る。データ選択手段105は、この仮説を用いて、
大容量データ格納装置130より読み出された候補デー
タ各々の情報量を推定し、情報量の大きいデータのみを
高速メインメモリ120に追加格納する。制御部106
は、上記の処理を所定の回数繰りし、得られた最終仮説
を格納する。そして、予測部102は入力部107へ入
力されたラベル未知のデータに対し最終仮説によりラベ
ル値を予測し、出力部101はこの予測値を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、大容量ディスク
などのデータ格納装置に格納されたデータベースから有
益な知識を抽出するデータマイニングに用いて好適な知
識発見方式に関する。
【0002】
【従来の技術】従来、データマイニングまたは知識発見
方式は、ディスクに蓄えられた大量のデータに対してな
るべく少い回数アクセスし、読み込むことにより有効な
知識発見を行なうことに主眼が置かれていた。例えば、
結合ルールの抽出方式がその代表的なものであり、この
方式については1993年発行の国際会議の予稿集「プ
ロシーディングス オブ エーシーエム シグモッド
コンファレンス オンマネージメント オブ データ(P
roceedings of ACM SIGMOD Conference on Management
of data)」207頁―216頁に記載のアグラワル(Agg
rawal)らによる論文「マイニング アソシエーション
ルールズ ビトウィーン セッツ オブアイテムズ イン
ラージ データベーセス(Mining Association Rules
Between Sets of Items in Large Databases)」に詳細
に記載されている。
【0003】また、ディスクに蓄えられたデータの選択
的サンプリングの方式としては、集団質問学習と呼ばれ
る方法が知られており、1992年発行の国際会議の予
稿集「プロシーディングス オブ ザ フィフス アニ
ュアル エーシーエム ワークショップ オン コンピ
ュテーショナル ラーニング セオリー(Proceedingsof
the fifth annual ACM workshop on computational le
arning thoery)」287頁―294頁に記載のセング(S
eung)らの論文「クエリー バイ コミッティ(Query by C
ommittee)」に詳細が記載されている。この方法では、
ランダム化された下位学習方式に複数回予測をさせ、そ
の不一致度が大きい点のみを選択するということを行
う。この方法に用いられる下位学習方式はランダム化さ
れた高性能な学習方式であることが前提になっている。
【0004】一方、性能の比較的低い学習方式の精度を
増強するという文脈において、与えられたデータから繰
り返し再サンプリングを行ない、そのデータを用いて学
習させて得られた複数の仮説を統合することにより学習
精度を向上させる一連の技術が近年注目されている。こ
うした技術の代表的な手法はバッギング並びにブーステ
ィングであり、これらの技術は実験的に高い性能を有す
ることが確かめられている。バッギングの手法について
は、1994年発行のカリフォルニア大学バークレー校
の技術報告書421に記載されたブライマン(Breiman)
の論文「バッギング プレディクターズ(Bagging Predi
ctors)」に記載されている。
【0005】ブースティングの手法については、199
5年発行の国際会議予稿集「プロシーディングス オブ
ザ セカンド ヨーロピアン コンファレンス オン
コンピュテーショナル ラーニング セオリー(Proce
edings of the second european conference on comput
ational learning thoery)」23頁−37頁に記載のフ
ロインド(Freund)とシャピレ(Shapire)の論文「ア デ
シジョン セオレティック ジェネラライゼーション
オブ オンライン ラーニング アンド アンアプリケ
ーション トゥー ブースティング(A decision-theore
tic generalization of on-line learning and an appl
ication to boosting)」に記載されている。上記の集団
質問学習方式は、テキスト分類等の分野において、人手
で分類しラベルづけする文書を選択する問題等に適用さ
れている。また、バッギング技術やブースティング技術
は、受動学習における精度増強の目的で利用されてきて
いる。
【0006】
【発明が解決しようとする課題】ところで、上述したよ
うに、従来のデータマイニング手法では、効率的なデー
タマイニングのために、選択的サンプリング方式を用い
る場合、下位学習方式はランダム化された高性能な学習
方式でなければならないという問題がある。また、バッ
キング技術あるいはブースティング技術を用いて性能の
比較的低い学習方式の精度を上げることはできるが、両
方の技術の利点を合わせて用いることができる選択的サ
ンプリング方式がないという問題がある。
【0007】この発明は、上記の点に鑑みてなされたも
ので、その目的は、大容量データ格納装置に格納された
大量データからサンプル候補データを読み出し、比較的
精度の低い学習方式を用いて学習させ、その結果により
情報量の大きいデータを選択してメインメモリに読み込
むことにより、効率的に高精度のラベル予測規則を発見
する汎用的な知識発見方式を提供することにある。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めに、請求項1に記載の発明は、大容量データ格納装置
に格納されたデータベースからサンプリングしたデータ
を計算機のメインメモリに読み込み高次知識を抽出する
データマイニングの知識発見方式において、学習アルゴ
リズムおよび該学習アルゴリズムに学習させるデータを
入力する入力手段と、前記メインメモリに格納されてい
るデータからサンプリングして作成した複数の部分デー
タ集合を前記学習アルゴリズムへ訓練データとして入力
して学習させ、複数の仮説を得る学習手段と、該学習手
段により得られた複数の仮説を用いて前記大容量データ
格納装置から読み出された複数のサンプル候補点に対す
る関数値の予測を行い、求めた予測値に基づき候補点の
情報量を推定し、情報量の大きい候補点を1つあるいは
複数選択し、前記メインメモリに追加して格納するデー
タ選択手段と、前記学習手段と前記データ選択手段によ
る選択的なデータ格納および知識発見の処理を予め定め
た停止条件が満たされるまで繰り返し、その結果得られ
た複数の仮説を最終仮説として前記メインメモリに格納
させる制御手段と、前記複数の仮説間の平均または重み
付き平均をもって前記入力部に入力したラベル未知のデ
ータに対してラベル値を予測する予測手段とを有するこ
とを特徴とする。
【0009】請求項2に記載の発明は、請求項1に記載
の知識発見方式において、前記データ選択手段は、前記
学習手段により得られた複数の仮説を用いて前記サンプ
ル候補点に対する関数値の予測を行い、求めた予測値の
分散値により前記候補点の情報量を推定し、分散値の大
きい候補点を1つあるいは複数選択し、前記メインメモ
リに追加して格納することを特徴とする。請求項3に記
載の発明は、請求項1に記載の知識発見方式において、
前記データ選択手段は、前記学習手段により得られた各
仮説の前記訓練データに対する予測誤差の関数として各
仮説の重みを計算し、データ選択の際に、多値予測の場
合、各候補点に対して予測値を求める前記仮説の重みの
総和を算出し、最も大きい重みの総和と次に大きい重み
の総和の差分であるマージンを求め、このマージンの小
さい候補点を1つまたは複数選択し、あるいは、実数値
予測の場合、前記仮説による予測値の重み付き分散値の
大きい候補点を1つまたは複数選択して前記メインメモ
リに追加して格納し、前記予測手段は、前記仮説の重み
による重み付き平均をもって最終仮説による予測を行う
ことを特徴とする。
【0010】請求項4に記載の発明は、請求項1に記載
の知識発見方式において、前記データ選択手段は、前記
大容量データ格納装置から読み出されたデータに含まれ
るデータ候補点の真のラベルを利用して、多値予測の場
合、前記仮説の予測誤差を用いて誤差マージンを算出
し、該誤差マージンの小さい候補点を1つまたは複数選
択し、あるいは、実数値予測の場合、前記予測値の重み
付き予測誤差の大きい候補点を1つないし複数選択して
前記メインメモリに追加して格納することを特徴とす
る。請求項5に記載の発明は、請求項1または2に記載
の知識発見方式において、前記データ選択手段は、前記
候補点を選択し前記メインメモリに格納するとき、既に
前記メインメモリに格納されているデータに対して、前
記複数の仮説を用いて関数値の予測値を求め、前記予測
値の分散の小さい候補点を1つまたは複数選択して前記
メインメモリの格納データから削除することを特徴とす
る。
【0011】請求項6に記載の発明は、請求項1または
3に記載の知識発見方式において、前記データ選択手段
は、前記候補点を選択し前記メインメモリに格納すると
き、既に前記メインメモリに格納されているデータに対
して、前記複数の仮説を用いて関数値の予測値を求め、
多値予測の場合、前記予測値のマージンの大きい候補点
を1つまたは複数選択し、実数値予測の場合、前記予測
値の重み付き分散値の小さい候補点を1つまたは複数選
択し、前記メインメモリの格納データから削除すること
を特徴とする。請求項7に記載の発明は、前記データ選
択手段は、請求項1または4に記載の知識発見方式にお
いて、前記候補点を選択し前記メインメモリに格納する
とき、既に前記メインメモリに格納されているデータに
対して、前記複数の仮説を用いて関数値の予測値を求
め、多値予測の場合、前記予測値の誤差マージンの大き
い候補点を1つまたは複数選択し、実数値予測の場合、
前記予測値の重み付き予測誤差の小さい候補点を1つま
たは複数選択し、前記メインメモリの格納データから削
除することを特徴とする。
【0012】請求項8に記載の発明は、大容量データ格
納装置に格納されたデータベースからサンプリングした
データを計算機のメインメモリに読み込み高次知識を抽
出するデータマイニングの知識発見方式において、学習
アルゴリズムおよび該学習アルゴリズムに学習させるデ
ータを入力する入力手段と、前記メインメモリに格納さ
れたデータを訓練データとして入力して学習し、学習し
た仮説を大容量データ格納装置もしくはメインメモリに
格納する学習手段と、該学習手段により得られた過去の
複数の仮説を用いて、前記大容量データ格納装置から読
み出された複数のサンプル候補点に対する関数値の予測
を行い、求めた予測値に基づき候補点の情報量を推定
し、情報量の大きい候補点を複数選択し、前記メインメ
モリに格納するデータ選択手段と、前記学習手段と前記
データ選択手段におけるデータ格納および知識発見の処
理を予め定めた停止条件が満たされるまで繰り返し、そ
の結果得られた複数の仮説を最終仮説として前記メイン
メモリもしくは大容量データ格納装置に格納させる制御
手段と、前記複数の仮説間の平均または重み付き平均を
もって前記入力部に入力したラベル未知のデータに対し
てラベル値を予測する予測手段と、を有することを特徴
とする。
【0013】請求項9に記載の発明は、請求項8に記載
の知識発見方式において、前記データ選択手段は、前記
学習手段により得られた複数の仮説を用いて前記サンプ
ル候補点に対する関数値の予測を行い、求めた予測値の
分散値により前記候補点の情報量を推定し、分散値の大
きい候補点を1つあるいは複数選択し、前記メインメモ
リに格納することを特徴とする。請求項10に記載の発
明は、請求項8に記載の知識発見方式において、前記デ
ータ選択手段は、前記学習手段により得られた各仮説の
前記訓練データに対する予測誤差の関数として各仮説の
重みを計算し、データ選択の際に、多値予測の場合、各
候補点に対して予測値を求める前記仮説の重みの総和を
算出し、最も大きい重みの総和と次に大きい重みの総和
の差分であるマージンを求め、このマージンの小さい候
補点を1つまたは複数選択し、あるいは、実数値予測の
場合、前記仮説による予測値の重み付き分散値の大きい
候補点を1つまたは複数選択して前記メインメモリに格
納し、前記予測手段は、前記仮説の重みによる重み付き
平均をもって最終仮説による予測を行うことを特徴とす
る。
【0014】請求項11に記載の発明は、請求項8に記
載の知識発見方式において、前記データ選択手段は、前
記大容量データ格納装置から読み出されたデータに含ま
れるデータ候補点の真のラベルを利用して、多値予測の
場合、前記仮説の予測誤差を用いて誤差マージンを算出
し、該誤差マージンの小さい候補点を1つまたは複数選
択し、あるいは、実数値予測の場合、前記予測値の重み
付き予測誤差の大きい候補点を1つないし複数選択して
前記メインメモリに格納することを特徴とする。
【0015】請求項12に記載の発明は、大容量データ
格納装置に格納されたデータベースからサンプリングし
たデータを計算機のメインメモリに読み込み高次知識を
抽出するデータマイニングの知識発見方式において、学
習アルゴリズムおよび該学習アルゴリズムに学習させる
データを入力する入力手段と、前記メインメモリに格納
されているデータからサンプリングして作成した複数の
部分データ集合を前記学習アルゴリズムへ訓練データと
して入力して学習させ、複数の仮説を得る学習手段と、
該学習手段により得られた過去の複数の仮説を用いて、
前記大容量データ格納装置から読み出された複数のサン
プル候補点に対する関数値の予測を行い、求めた予測値
に基づき候補点の情報量を推定し、情報量の大きい候補
点を複数選択し、前記メインメモリに格納するデータ選
択手段と、前記学習手段と前記データ選択手段における
データ格納および知識発見の処理を予め定めた停止条件
が満たされるまで繰り返し、その結果得られた複数の仮
説を最終仮説として前記メインメモリもしくは大容量デ
ータ格納装置に格納させる制御手段と、前記複数の仮説
間の平均または重み付き平均をもって前記入力部に入力
したラベル未知のデータに対してラベル値を予測する予
測手段とを有することを特徴とする。
【0016】請求項13に記載の発明は、請求項12に
記載の知識発見方式において、前記データ選択手段は、
前記学習手段により得られた複数の仮説を用いて前記サ
ンプル候補点に対する関数値の予測を行い、求めた予測
値の分散値により前記候補点の情報量を推定し、分散値
の大きい候補点を1つあるいは複数選択し、前記メイン
メモリに格納することを特徴とする。請求項14に記載
の発明は、請求項12に記載の知識発見方式において、
前記データ選択手段は、前記学習手段により得られた各
仮説の前記訓練データに対する予測誤差の関数として各
仮説の重みを計算し、データ選択の際に、多値予測の場
合、各候補点に対して予測値を求める前記仮説の重みの
総和を算出し、最も大きい重みの総和と次に大きい重み
の総和の差分であるマージンを求め、このマージンの小
さい候補点を1つまたは複数選択し、あるいは、実数値
予測の場合、前記仮説による予測値の重み付き分散値の
大きい候補点を1つまたは複数選択して前記メインメモ
リに格納し、前記予測手段は、前記仮説の重みによる重
み付き平均をもって最終仮説による予測を行うことを特
徴とする。請求項15に記載の発明は、請求項12に記
載の知識発見方式において、前記データ選択手段は、前
記大容量データ格納装置から読み出されたデータに含ま
れるデータ候補点の真のラベルを利用して、多値予測の
場合、前記仮説の予測誤差を用いて誤差マージンを算出
し、該誤差マージンの小さい候補点を1つまたは複数選
択し、あるいは、実数値予測の場合、前記予測値の重み
付き予測誤差の大きい候補点を1つないし複数選択して
前記メインメモリに格納することを特徴とする。
【0017】
【発明の実施の形態】以下、先ず、この発明の基本的考
え方を説明する。この発明のアルゴリズムは、入力とし
て与えられる下位学習アルゴリズムと、これを用いて、
選択的サンプリングを行いながら知識発見を行なう上位
アルゴリズムからなる。下位学習アルゴリズムの機能
は、入力されたデータSから学習を行い仮説を出力する
ことと、データSの1つのデータ点(属性値の組み)x
に対して、学習により得られた仮説を使用して、そのラ
ベルyの予測値を出力することである。ここで使用する
学習アルゴリズムは、高度な学習性能を持つ学習アルゴ
リズムは必要なく、例えば、決定木を学習するアルゴリ
ズムや階層型のニューラルネットワークの学習アルゴリ
ズムなどを用いることができる。ラベル付きの学習デー
タSは次式で表される。 S=〈(x1,y1),..,(xm,ym)〉 (1) ここで、mはデータ数であり、xiはデータ中のあるレ
コードの予め指定された属性の組みの属性値の組み、y
iは同一レコードの予め指定されたラベル属性の属性値
である。
【0018】次に、上位アルゴリズムについて説明す
る。ここで、大容量データ格納装置から一部データを選
択的にメモリに格納し、リサンプリング、および学習を
するという手順を繰り返す回数(ステージ数)をN、各
ステージにおけるリサンプリングの回数をT、メインメ
モリに格納すべきデータ点を選ぶ際の候補点の数をR、
その中から実際にメインメモリに格納する点の数をQと
する。上位アルゴリズムは、以下の手順1から手順3を
N回繰り返す。もしくは、手順1の代わりに手順1’、
また、手順3の代わりに手順3’を使用する。
【0019】(手順1)メインメモリに格納されたデー
タからリサンプリングにより得られた複数のデータ集合
S1,..,STに対して、下位学習アルゴリズムを走らせて
仮説H1,..,HTを得る。ここで、データ S=〈(x1,y
1),..,(xm,ym)〉からのリサンプリングとは、例えば
データSから一様分布によりサンプリングする(即ち、
データS中の各データを1/mの確率で取り出す)こと
を一定回数繰り返すことを言う。また、仮説とは、任意
の属性値の組みに対して、そのラベルの予測値を規定す
るような表現形である。 (手順1’)メインメモリに格納されたデータSに対し
て、下位アルゴリズムAを走らせて仮説Hを得る。
【0020】(手順2)R個の候補サンプル点x1,..,
xRを大容量データ格納装置からメインメモリに読み込
み、その中から情報量の大きいQ個のサンプル点を選択
しメインメモリに格納する。他の点についてはメインメ
モリから削除する。情報量の大きいサンプル点の選択に
おいては、各候補点に対し、上記手順1で得られたT個
の仮説によりそのラベルの予測をさせて、その予測値の
分散が大きいQ個の点を選択する。 (手順3)過去のデータに、手順2において得られたデ
ータを加える。 (手順3’)過去のデータを、ステップ2において得ら
れたデータに置き換える。
【0021】なお、上記のリサンプリングの手順を逐次
的に変化する分布を用いて行なうことも可能である。例
えば、精度増強法としてブースティング方式を用いる場
合には、直前回の部分サンプルに対して得られた仮説の
予測値が誤るようなデータの分布を逐次的に変化させな
がらリサンプリングを行なう。この場合、各仮説の入力
訓練データに対する予測誤差の関数として各仮説の重み
を計算し、それらの重みによる重み付き平均をもって最
終仮説による予測を行なう。そして、データ選択の際の
情報量の推定にもこれらの重みを用いる。例えば、発見
すべき知識表現が多値関数の場合には、各候補データに
対して、各予測値を予測する仮説の重みの総和を算出
し、もっとも大きい重みの総和と次に大きい重みの総和
との差分(以下、この量をマージンと呼ぶ)を用いて、
情報量を測ることができる。
【0022】上記の手順をより詳細に説明する。データ
点xに対するマージンM(x)は以下のように定義され
る。
【数1】 ここで、Hi(x)は仮説Hiのデータ点xに対する予測
値、wiは、仮説Hiに付された重みを指す。また、yma
xは重み総和最大の予測値とする。即ち、
【数2】 となる。この場合、マージン最小の点が情報量最大の点
と推定される。なお、各仮説の重みを導入しない場合に
おいても、マージンの概念は各仮説の重みを1とするこ
とによって拡張可能なので、上記の手順によってマージ
ン最小の点を情報量最大の点として選択することが可能
である。
【0023】発見すべき知識表現が実数関数の場合に
は、各候補データに対して、予測値の分散値の重み付き
平均値を用いて、情報量を測ることができる。分散値の
重み付き平均V(x)は、次式で表される。
【数3】 ここで、Hi(x)にバーを付したものはxのラベル予
測値の平均値である。分散値の重み付き平均値の大きい
方が候補データの情報量は大きいとみなす。
【0024】以上、各仮説の予測値の分散値やマージン
値によって情報量を算出することを説明したが、各デー
タ点に対する正しいラベル値を用いて算出可能な、仮説
の予測誤差を利用することも可能である。例えば、発見
すべき知識表現が多値関数の場合、(2)式のマージン
の定義を修正して、次式で表される誤差マージンM’
(x)を定義して誤差マージン最小のデータ点を情報量
最大とすることができる。
【数4】 ここで、y*はデータxの真のラベル値を表す。
【0025】また、発見すべき知識表現が実数関数の場
合には、各仮説のデータ点xに対する予測誤差の重み付
き平均値V′(x)として算出することが可能である。
例えば、誤差として二乗誤差を用いればV′(x) は
次式から算出される。
【数5】 以上の定義によれば、M′(x)はM(x)の定義中の
予測値モードを真のラベル値で置き換えることにより得
られ、V′(x)はV(x)の定義中の予測平均値を真
の値で置き換えることにより得られる。一般には、二乗
誤差以外の誤差の測度、例えば絶対誤差を用いることも
可能である。
【0026】さらに、上記の上位アルゴリズムにおい
て、メインメモリ量に限度があり、繰り返し選択したデ
ータの蓄積がその限度を超過してしまう場合や、繰り返
し選択し、メインメモリに格納したデータの一部が学習
に不要となる場合、あるいはそれらデータを学習するに
は計算時間がかかり全てを学習することが実時間で不可
能な場合に、上記誤差マージンや V′(x)を利用し
て、メインメモリのデータを削除することが可能であ
る。これは、メインメモリに格納されたデータのうち、
情報量の小さなデータを削除することにより達成され
る。例えば、発見すべき知識表現が多値関数の場合に
は、上記誤差マージンを利用して、誤差マージンが比較
的大きな点を1つまたは複数、メインメモリから削除す
る。また、発見すべき知識表現が実数関数の場合には、
上記V′(x)を算出し、V′(x)の小さなデータか
ら削除する。
【0027】以下、図面を参照してこの発明の実施の形
態について説明する。図1は、同実施形態による知識発
見方式のプログラム100の構成を示す図である。プロ
グラム100は、下位学習アルゴリズムと訓練データと
して学習させるデータを入力する入力部107と、精度
増強部103と、入力部107へ入力されたラベル未知
のデータに対しラベル値を予測する予測部102と、予
測部102が予測したラベル値を出力する出力部101
と、精度増強部103における繰り返し処理を制御する
制御部106とから構成される。
【0028】図1の各部について説明する。精度増強部
103は、高速メインメモリ120に格納されているデ
ータから再サンプリングによって作成された複数の部分
サンプルを下位学習アルゴリズムに学習させ、複数の仮
説を得る学習手段104と、学習手段104により得ら
れた複数の仮説を用いて、大容量データ格納装置より読
み出された候補データ各々の情報量の推定を行ない、情
報量の大きいデータのみを高速メインメモリ120に追
加格納するデータ選択手段105からなる。大容量デー
タ格納装置130、高速メインメモリ120およびCP
U(中央演算処理装置)110は、プログラム100を
実行する計算機を構成する要素である。また、精度増強
部103のその他の動作例を説明する。精度増強部10
3は、メインメモリ120に格納されているデータから
学習を行い、学習した仮説をメインメモリ120もしく
は大容量データ格納装置130に格納する学習手段10
4と、大容量データ格納装置130より読み出された候
補データに対し、過去に学習された仮説を用いて情報量
の推定を行い、情報量の大きなデータのみをメインメモ
リ120に格納するデータ選択手段105からなる。
【0029】次に、上記構成による知識発見方式の動作
を図面を参照して説明する。図2は、本発明の実施例の
動作の流れを示す図である。先ず、下位学習アルゴリズ
ム、例えば、決定木を学習するアルゴリズムなどを入力
部107へ入力する(ステップS201)。次に、ステ
ップS202で、学習手段104は、この時点で高速メ
インメモリ120に格納されているデータからリサンプ
リングによって部分データ集合を作成する。この部分デ
ータ集合を入力部107を介して入力し、前記下位学習
アルゴリズムにより学習させ、仮説を得る(ステップS
203)。
【0030】次に、リサンプリング回数iと停止条件と
なるリサンプリング回数Tを比較し、リサンプリング回
数iが所定の回数Tを越えないとき(ステップS20
4;NO)、ステップS202に戻り、上記の処理を繰
り返す。リサンプリング回数iが所定の回数Tを越える
と(ステップS204;YES)、データ選択手段10
5は、最終的に得られた前記仮説を用いて、大容量デー
タ格納装置130から読み出された候補データの情報量
の推定を行い情報量の大きいデータを選択する(ステッ
プS205)。データ選択手段105により選択された
データを高速メインメモリ120に格納し、既に格納し
てあるデータに加える(ステップS206)。
【0031】次に、ステップS207において、ステー
ジ数jを停止条件となるステージ数Nと比較し、ステー
ジ数jが所定の回数Nを越えないとき(ステップS20
7;NO)、ステップS202から処理を繰り返す。ス
テージ数jが所定の回数Nを越えたとき(ステップS2
07;YES)、知識発見の過程を終了し、得られた規
則を最終仮説として出力する。図2と同様に、図3も本
発明の実施例の動作の流れを示す図である。図3におい
ては、まず下位学習アルゴリズムを入力部107へ入力
する(ステップS301)。次に、現在メインメモリに格
納されている学習データを入力して前記下位学習アルゴ
リズムに学習させ、学習した仮説をメインメモリ120
もしくは大容量データ格納装置130に格納する(ステ
ップS302)。次に、データ選択手段105は、これ
まで過去に得られた仮説を用いて、大容量データ格納装
置130から読み出された候補データの情報量を推定
し、情報量の大きなデータを選択し(ステップS30
3)、メインメモリに格納する(ステップS304)。最
後に、ステップS305において、ステージ数jを停止
条件となるステージ数Nと比較し、ステージ数jが所定
の回数Nを越えない時(ステップS305:NO)、ステ
ップS302から処理を繰り返す。ステージ数jが所定
の回数Nを越えた時(ステップS305:YES)、知識
発見の過程を終了し、得られた規則を最終仮説として出
力する。
【0032】
【発明の効果】以上説明したように、本発明の知識発見
方式によれば、ディスクなどの大容量データ格納装置に
格納された膨大な量のデータから情報量の大きい部分だ
けを選択的にサンプリングして得られた比較的少数のデ
ータから効率的に、高精度で未知データのラベル予測を
行なう規則を発見することが可能になり、データマイニ
ングの実効性を高めるという効果が得られる。また、デ
ータの選択的サンプリングにより少数のデータをメイン
メモリに読み込み知識発見を行うことからメインメモリ
に制限のある計算機でもデータマイニングを行うことが
できるという効果が得られる。
【図面の簡単な説明】
【図1】 この発明の一実施の形態の構成を示す図であ
る。
【図2】 同実施の形態の動作の流れを示す図である。
【図3】 同実施の形態の動作の流れを示す図である。
【符号の説明】
100 知識発見プログラム 101 出力部 102 予測部 103 精度増強部 104 学習手段 105 データ選択手段 106 制御部 107 入力部

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 大容量データ格納装置に格納されたデー
    タベースからサンプリングしたデータを計算機のメイン
    メモリに読み込み高次知識を抽出するデータマイニング
    の知識発見方式において、 学習アルゴリズムおよび該学習アルゴリズムに学習させ
    るデータを入力する入力手段と、 前記メインメモリに格納されているデータからサンプリ
    ングして作成した複数の部分データ集合を前記学習アル
    ゴリズムへ訓練データとして入力して学習させ、複数の
    仮説を得る学習手段と、 該学習手段により得られた複数の仮説を用いて前記大容
    量データ格納装置から読み出された複数のサンプル候補
    点に対する関数値の予測を行い、求めた予測値に基づき
    候補点の情報量を推定し、情報量の大きい候補点を1つ
    あるいは複数選択し、前記メインメモリに追加して格納
    するデータ選択手段と、 前記学習手段と前記データ選択手段による選択的なデー
    タ格納および知識発見の処理を予め定めた停止条件が満
    たされるまで繰り返し、その結果得られた複数の仮説を
    最終仮説として前記メインメモリに格納させる制御手段
    と、 前記複数の仮説間の平均または重み付き平均をもって前
    記入力部に入力したラベル未知のデータに対してラベル
    値を予測する予測手段と、 を有することを特徴とする知識発見方式。
  2. 【請求項2】 前記データ選択手段は、前記学習手段に
    より得られた複数の仮説を用いて前記サンプル候補点に
    対する関数値の予測を行い、求めた予測値の分散値によ
    り前記候補点の情報量を推定し、分散値の大きい候補点
    を1つあるいは複数選択し、前記メインメモリに追加し
    て格納することを特徴とする請求項1に記載の知識発見
    方式。
  3. 【請求項3】 前記データ選択手段は、前記学習手段に
    より得られた各仮説の前記訓練データに対する予測誤差
    の関数として各仮説の重みを計算し、データ選択の際
    に、多値予測の場合、各候補点に対して予測値を求める
    前記仮説の重みの総和を算出し、最も大きい重みの総和
    と次に大きい重みの総和の差分であるマージンを求め、
    このマージンの小さい候補点を1つまたは複数選択し、
    あるいは、実数値予測の場合、前記仮説による予測値の
    重み付き分散値の大きい候補点を1つまたは複数選択し
    て前記メインメモリに追加して格納し、 前記予測手段は、前記仮説の重みによる重み付き平均を
    もって最終仮説による予測を行うことを特徴とする請求
    項1に記載の知識発見方式。
  4. 【請求項4】 前記データ選択手段は、前記大容量デー
    タ格納装置から読み出されたデータに含まれるデータ候
    補点の真のラベルを利用して、多値予測の場合、前記仮
    説の予測誤差を用いて誤差マージンを算出し、該誤差マ
    ージンの小さい候補点を1つまたは複数選択し、あるい
    は、実数値予測の場合、前記予測値の重み付き予測誤差
    の大きい候補点を1つないし複数選択して前記メインメ
    モリに追加して格納することを特徴とする請求項1に記
    載の知識発見方式。
  5. 【請求項5】 前記データ選択手段は、前記候補点を選
    択し前記メインメモリに格納するとき、既に前記メイン
    メモリに格納されているデータに対して、前記複数の仮
    説を用いて関数値の予測値を求め、前記予測値の分散の
    小さい候補点を1つまたは複数選択して前記メインメモ
    リの格納データから削除することを特徴とする請求項1
    または2に記載の知識発見方式。
  6. 【請求項6】 前記データ選択手段は、前記候補点を選
    択し前記メインメモリに格納するとき、既に前記メイン
    メモリに格納されているデータに対して、前記複数の仮
    説を用いて関数値の予測値を求め、多値予測の場合、前
    記予測値のマージンの大きい候補点を1つまたは複数選
    択し、実数値予測の場合、前記予測値の重み付き分散値
    の小さい候補点を1つまたは複数選択し、前記メインメ
    モリの格納データから削除することを特徴とする請求項
    1または3に記載の知識発見方式。
  7. 【請求項7】 前記データ選択手段は、前記候補点を選
    択し前記メインメモリに格納するとき、既に前記メイン
    メモリに格納されているデータに対して、前記複数の仮
    説を用いて関数値の予測値を求め、多値予測の場合、前
    記予測値の誤差マージンの大きい候補点を1つまたは複
    数選択し、実数値予測の場合、前記予測値の重み付き予
    測誤差の小さい候補点を1つまたは複数選択し、前記メ
    インメモリの格納データから削除することを特徴とする
    請求項1または4に記載の知識発見方式。
  8. 【請求項8】 大容量データ格納装置に格納されたデー
    タベースからサンプリングしたデータを計算機のメイン
    メモリに読み込み高次知識を抽出するデータマイニング
    の知識発見方式において、 学習アルゴリズムおよび該学習アルゴリズムに学習させ
    るデータを入力する入力手段と、 前記メインメモリに格納されたデータを訓練データとし
    て入力して学習し、学習した仮説を大容量データ格納装
    置もしくはメインメモリに格納する学習手段と、 該学習手段により得られた過去の複数の仮説を用いて、
    前記大容量データ格納装置から読み出された複数のサン
    プル候補点に対する関数値の予測を行い、求めた予測値
    に基づき候補点の情報量を推定し、情報量の大きい候補
    点を複数選択し、前記メインメモリに格納するデータ選
    択手段と、 前記学習手段と前記データ選択手段におけるデータ格納
    および知識発見の処理を予め定めた停止条件が満たされ
    るまで繰り返し、その結果得られた複数の仮説を最終仮
    説として前記メインメモリもしくは大容量データ格納装
    置に格納させる制御手段と、 前記複数の仮説間の平均または重み付き平均をもって前
    記入力部に入力したラベル未知のデータに対してラベル
    値を予測する予測手段と、 を有することを特徴とする知識発見方式。
  9. 【請求項9】 前記データ選択手段は、前記学習手段に
    より得られた複数の仮説を用いて前記サンプル候補点に
    対する関数値の予測を行い、求めた予測値の分散値によ
    り前記候補点の情報量を推定し、分散値の大きい候補点
    を1つあるいは複数選択し、前記メインメモリに格納す
    ることを特徴とする請求項8に記載の知識発見方式。
  10. 【請求項10】 前記データ選択手段は、前記学習手段
    により得られた各仮説の前記訓練データに対する予測誤
    差の関数として各仮説の重みを計算し、データ選択の際
    に、多値予測の場合、各候補点に対して予測値を求める
    前記仮説の重みの総和を算出し、最も大きい重みの総和
    と次に大きい重みの総和の差分であるマージンを求め、
    このマージンの小さい候補点を1つまたは複数選択し、
    あるいは、実数値予測の場合、前記仮説による予測値の
    重み付き分散値の大きい候補点を1つまたは複数選択し
    て前記メインメモリに格納し、 前記予測手段は、前記仮説の重みによる重み付き平均を
    もって最終仮説による予測を行うことを特徴とする請求
    項8に記載の知識発見方式。
  11. 【請求項11】 前記データ選択手段は、前記大容量デ
    ータ格納装置から読み出されたデータに含まれるデータ
    候補点の真のラベルを利用して、多値予測の場合、前記
    仮説の予測誤差を用いて誤差マージンを算出し、該誤差
    マージンの小さい候補点を1つまたは複数選択し、ある
    いは、実数値予測の場合、前記予測値の重み付き予測誤
    差の大きい候補点を1つないし複数選択して前記メイン
    メモリに格納することを特徴とする請求項8に記載の知
    識発見方式。
  12. 【請求項12】 大容量データ格納装置に格納されたデ
    ータベースからサンプリングしたデータを計算機のメイ
    ンメモリに読み込み高次知識を抽出するデータマイニン
    グの知識発見方式において、 学習アルゴリズムおよび該学習アルゴリズムに学習させ
    るデータを入力する入力手段と、 前記メインメモリに格納されているデータからサンプリ
    ングして作成した複数の部分データ集合を前記学習アル
    ゴリズムへ訓練データとして入力して学習させ、複数の
    仮説を得る学習手段と、 該学習手段により得られた過去の複数の仮説を用いて、
    前記大容量データ格納装置から読み出された複数のサン
    プル候補点に対する関数値の予測を行い、求めた予測値
    に基づき候補点の情報量を推定し、情報量の大きい候補
    点を複数選択し、前記メインメモリに格納するデータ選
    択手段と、 前記学習手段と前記データ選択手段におけるデータ格納
    および知識発見の処理を予め定めた停止条件が満たされ
    るまで繰り返し、その結果得られた複数の仮説を最終仮
    説として前記メインメモリもしくは大容量データ格納装
    置に格納させる制御手段と、 前記複数の仮説間の平均または重み付き平均をもって前
    記入力部に入力したラベル未知のデータに対してラベル
    値を予測する予測手段と、 を有することを特徴とする知識発見方式。
  13. 【請求項13】 前記データ選択手段は、前記学習手段
    により得られた複数の仮説を用いて前記サンプル候補点
    に対する関数値の予測を行い、求めた予測値の分散値に
    より前記候補点の情報量を推定し、分散値の大きい候補
    点を1つあるいは複数選択し、前記メインメモリに格納
    することを特徴とする請求項12に記載の知識発見方
    式。
  14. 【請求項14】 前記データ選択手段は、前記学習手段
    により得られた各仮説の前記訓練データに対する予測誤
    差の関数として各仮説の重みを計算し、データ選択の際
    に、多値予測の場合、各候補点に対して予測値を求める
    前記仮説の重みの総和を算出し、最も大きい重みの総和
    と次に大きい重みの総和の差分であるマージンを求め、
    このマージンの小さい候補点を1つまたは複数選択し、
    あるいは、実数値予測の場合、前記仮説による予測値の
    重み付き分散値の大きい候補点を1つまたは複数選択し
    て前記メインメモリに格納し、前記予測手段は、前記仮
    説の重みによる重み付き平均をもって最終仮説による予
    測を行うことを特徴とする請求項12に記載の知識発見
    方式。
  15. 【請求項15】 前記データ選択手段は、前記大容量デ
    ータ格納装置から読み出されたデータに含まれるデータ
    候補点の真のラベルを利用して、多値予測の場合、前記
    仮説の予測誤差を用いて誤差マージンを算出し、該誤差
    マージンの小さい候補点を1つまたは複数選択し、ある
    いは、実数値予測の場合、前記予測値の重み付き予測誤
    差の大きい候補点を1つないし複数選択して前記メイン
    メモリに格納することを特徴とする請求項12に記載の
    知識発見方式。
JP2000104760A 1999-12-09 2000-04-06 知識発見方式 Pending JP2001229026A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000104760A JP2001229026A (ja) 1999-12-09 2000-04-06 知識発見方式
US09/730,616 US6973446B2 (en) 1999-12-09 2000-12-06 Knowledge finding method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-350834 1999-12-09
JP35083499 1999-12-09
JP2000104760A JP2001229026A (ja) 1999-12-09 2000-04-06 知識発見方式

Publications (1)

Publication Number Publication Date
JP2001229026A true JP2001229026A (ja) 2001-08-24

Family

ID=26579277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000104760A Pending JP2001229026A (ja) 1999-12-09 2000-04-06 知識発見方式

Country Status (2)

Country Link
US (1) US6973446B2 (ja)
JP (1) JP2001229026A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287776A (ja) * 2003-03-20 2004-10-14 Fujitsu Ltd 文書分類方法、文書分類装置、および文書分類プログラム
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム
JP2006309485A (ja) * 2005-04-28 2006-11-09 Nec Corp 能動学習方法および能動学習システム
US7483864B2 (en) 2003-11-17 2009-01-27 Nec Corporation Active learning method and system
JP2009301557A (ja) * 2009-07-21 2009-12-24 Nec Corp 学習システム
WO2010047019A1 (ja) * 2008-10-21 2010-04-29 日本電気株式会社 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP2020046888A (ja) * 2018-09-18 2020-03-26 富士通株式会社 学習プログラム、予測プログラム、学習方法、予測方法、学習装置および予測装置
JP2021009572A (ja) * 2019-07-01 2021-01-28 富士通株式会社 予測プログラム、予測方法および予測装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9443192B1 (en) 2015-08-30 2016-09-13 Jasmin Cosic Universal artificial intelligence engine for autonomous computing devices and software applications
CN109937413B (zh) * 2016-07-20 2023-04-21 深圳市东信时代信息技术有限公司 海量人群特征数据的处理方法及系统
US9864933B1 (en) 2016-08-23 2018-01-09 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using visual surrounding for autonomous object operation
US10452974B1 (en) 2016-11-02 2019-10-22 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using a device's circumstances for autonomous device operation
US10607134B1 (en) 2016-12-19 2020-03-31 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using an avatar's circumstances for autonomous avatar operation
US10102449B1 (en) 2017-11-21 2018-10-16 Jasmin Cosic Devices, systems, and methods for use in automation
US10474934B1 (en) 2017-11-26 2019-11-12 Jasmin Cosic Machine learning for computing enabled systems and/or devices
US10402731B1 (en) 2017-12-15 2019-09-03 Jasmin Cosic Machine learning for computer generated objects and/or applications
US11797876B1 (en) * 2019-06-26 2023-10-24 Amazon Technologies, Inc Unified optimization for convolutional neural network model inference on integrated graphics processing units

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5704017A (en) * 1996-02-16 1997-12-30 Microsoft Corporation Collaborative filtering utilizing a belief network
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US5933818A (en) * 1997-06-02 1999-08-03 Electronic Data Systems Corporation Autonomous knowledge discovery system and method

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287776A (ja) * 2003-03-20 2004-10-14 Fujitsu Ltd 文書分類方法、文書分類装置、および文書分類プログラム
JP2005107743A (ja) * 2003-09-29 2005-04-21 Nec Corp 学習システム
US7698235B2 (en) 2003-09-29 2010-04-13 Nec Corporation Ensemble learning system and method
US7483864B2 (en) 2003-11-17 2009-01-27 Nec Corporation Active learning method and system
JP2006309485A (ja) * 2005-04-28 2006-11-09 Nec Corp 能動学習方法および能動学習システム
JP4645288B2 (ja) * 2005-04-28 2011-03-09 日本電気株式会社 能動学習方法および能動学習システム
WO2010047019A1 (ja) * 2008-10-21 2010-04-29 日本電気株式会社 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP5321596B2 (ja) * 2008-10-21 2013-10-23 日本電気株式会社 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP2009301557A (ja) * 2009-07-21 2009-12-24 Nec Corp 学習システム
JP2020046888A (ja) * 2018-09-18 2020-03-26 富士通株式会社 学習プログラム、予測プログラム、学習方法、予測方法、学習装置および予測装置
JP7172332B2 (ja) 2018-09-18 2022-11-16 富士通株式会社 学習プログラム、予測プログラム、学習方法、予測方法、学習装置および予測装置
JP2021009572A (ja) * 2019-07-01 2021-01-28 富士通株式会社 予測プログラム、予測方法および予測装置
JP7259596B2 (ja) 2019-07-01 2023-04-18 富士通株式会社 予測プログラム、予測方法および予測装置

Also Published As

Publication number Publication date
US6973446B2 (en) 2005-12-06
US20010003817A1 (en) 2001-06-14

Similar Documents

Publication Publication Date Title
JP2001229026A (ja) 知識発見方式
JP7392668B2 (ja) データ処理方法および電子機器
JP2020194560A (ja) 因果関係分析方法および電子デバイス
US7580813B2 (en) Systems and methods for new time series model probabilistic ARMA
Oncina et al. Learning stochastic edit distance: Application in handwritten character recognition
Last et al. A compact and accurate model for classification
CN109214004B (zh) 基于机器学习的大数据处理方法
CN111930518A (zh) 面向知识图谱表示学习的分布式框架构建方法
WO2021026034A1 (en) Artificial intelligence job recommendation neural network machine learning training based on embedding technologies and actual and synthetic job transition latent information
Li et al. An efficient probabilistic approach for graph similarity search
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
Xi et al. Lb-simtsc: An efficient similarity-aware graph neural network for semi-supervised time series classification
US7139688B2 (en) Method and apparatus for classifying unmarked string substructures using Markov Models
Balasis et al. Detection of dynamical complexity changes in Dst time series using entropy concepts and rescaled range analysis
KR20220014744A (ko) 강화 학습을 기반으로 한 데이터 전처리 시스템 및 방법
US20100005043A1 (en) Active learning system, active learning method and program for active learning
Poornima et al. Prediction of water consumption using machine learning algorithm
Badriyah et al. Deep learning algorithm for data classification with hyperparameter optimization method
CN112559680B (zh) 基于多层次特征提取的文本分类方法、模型及存储介质
Lee et al. K2vtune: Automatic Database Tuning with Knob Vector Representation
CN113254428A (zh) 一种基于决策树的缺失数据填充方法及系统
JP2006004103A (ja) 文書分類体系間の構造マッチング方法、構造マッチング装置、構造マッチングプログラム及びそのプログラムを記録した記録媒体
Novak Use of unlabeled data in supervised machine learning
JP7439923B2 (ja) 学習方法、学習装置及びプログラム
Qayyumi et al. Active Learning for kNN Using Instance Impact

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020730

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050311