JP2004326480A

JP2004326480A - 大量データの分散並列分析方法

Info

Publication number: JP2004326480A
Application number: JP2003120900A
Authority: JP
Inventors: Kazuya Okochi; 一弥大河内; Hideyuki Maki; 秀行牧; Toyohisa Morita; 豊久森田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-04-25
Filing date: 2003-04-25
Publication date: 2004-11-18

Abstract

【課題】大量のデータから知識を発見するデータマイニングの技術において、従来の方法は、単一の処理装置を前提とした方法では、問題の規模が大きくなったときに実用的な時間でアルゴリズムが停止しないという問題点があった。また、分散並列の処理方法においても、大きなメモリ空間が必要であると言う問題点があった。
【解決手段】本発明では、上記の課題を解決するために、一台の分析管理装置と一台のデータ記憶装置と一台以上の分析実行装置を用いて分析を行う。分析管理装置は分析実行装置や分析を効率よく行うためのパラメータの管理を行う。また分析管理装置と分析実行装置は、それぞれ評価値の高い特徴ルールを保持して分析を行い、必要なメモリの量を節約する。
【選択図】図５

Description

【０００１】
【発明の属する技術分野】
本発明は大量のデータを複数の分析装置を利用して並列に分析するデータ分析方法に関する。
【０００２】
【従来の技術】
大量のデータから知識を発見する技術はデータマイニングと呼ばれている。発見される知識の具体例としては特徴ルール（ＣｈａｒａｃｔｅｒｉｓｔｉｃＲｕｌｅ）が知られている。特徴ルールとその発見法に関しては特許文献１に解説されている。
【０００３】
特徴ルールは「ＩＦＡＴＨＥＮＢ」の形式で書き表すことが出来る。Ａ（条件部と呼ばれる）は１個以上の条件の組み合わせ、Ｂ（結論部と呼ばれる）は単一の条件である。ここで「条件」とは、データの属性とその値の組であり、例えば「年齢＝２０代」のように記述される。特徴ルールには、一般性（あるルールがどのくらい多くのデータに適用できるかを示す指標）と精度（あるルールの条件部がどのくらい正確に結論部をあらわしているかを示す指標）のトレードオフを考えて計算した評価尺度が定義される。特徴ルール生成のアルゴリズムはこの評価尺度を用いてルールを評価し、その値の高い順にソートしたランキングの上位が結果として出力される。
【０００４】
また、特許文献１には、ルールの評価を効率的に行うために、「枝刈り」という処理を行って、評価する必要の無いルールについて評価を省略し、ルール発見のための時間を短縮する方法が示されている。特許文献１に記述されている枝刈りの方法を以下に示す。特徴ルール生成において特徴ルールを発見する際には、あらかじめ発見するルール数の上限を決定しておくが、この個数をＮとする。探索においてＮ個のルールを生成する時、探索のある時点で発見されているＮ番目に評価尺度の高い特徴ルールの評価尺度をμとする。枝刈りでは、ルールＲの評価尺度を計算する際に、Ｒの条件部にさらに条件を付け加えたような考えうる全てのルールの評価尺度の上限を計算し、その値がμを上回らない場合にはこれらのルールについて評価を省略する。
【０００５】
また、データマイニングのアルゴリズムは膨大な量の計算を必要とする場合があるため、分散環境においてアルゴリズムを実行するためのスキームが考案されている。
【０００６】
特徴ルールを複数の分析装置を用いて発見する手法については特許文献２に解説されている。この方法において、与えられた問題において考えうる全ての特徴ルールについて、評価尺度を算出するのに必要な値を計数するカウンタを複数のデータ分析装置で分割して保持する。分析対象データはデータ格納装置から１回だけ送信され、各データ分析装置は、自分に必要なデータのみを受信し、各ルールのカウンタにて上記の値をカウントする。
【０００７】
【特許文献１】
特開平８−７７０１０号公報
【特許文献２】
特開２００１−１６７０９８号公報
【０００８】
【発明が解決しようとする課題】
ここで挙げた従来の技術には以下のような問題点がある。
【０００９】
まず、第１の特許文献で述べられているアルゴリズムは、単一の処理装置を用いてルールを発見することを前提にしているため、データの属性数や探索するルールの数が増加した場合には１台の装置では十分な計算能力が得られず、実用的な時間でアルゴリズムが停止しないという問題点がある。特に、条件部に許される条件の数を増やして特徴ルール発見の探索を行った場合、探索すべきルールの数は爆発的に増加するため、この探索にかかる時間も膨大なものになってしまう。
【００１０】
また、第２の特許文献で述べられている方法は、全ての考えうるルールについてのカウンタを複数の分析装置に分けて保持するため、探索するルールの条件節が増えた場合にその組み合わせが爆発的に増え、それにあわせて膨大な量のメモリが必要になるという問題点がある。この方法は、データを一回読み込むだけで分析が終了するため、レコード数の非常に多いデータを扱う場合にはそのメリットを享受できるが、レコード数が少なく項目数が非常に多いデータ（例えば、医療関連のデータで測定項目数が数万程度にのぼるが臨床のサンプル数が少ない場合など）から多くの条件の組み合わせを含む特徴ルールを生成したい場合などには、カウンタを分散して保持しても、必要なメモリ量の爆発的な増加に対応できない可能性がある。
【００１１】
本発明の目的は複数台の処理装置を用いて効率的に知識を発見するデータ分析の手段を提供することである。
【００１２】
また本発明の別の目的は、分析対象データ自体はそれほど大きくないが、多くの条件の組み合わせを含む特徴ルールを生成したいような場合に、分析実行装置に必要なメモリの量を少なく抑えた上で分析を行うデータ分析の手段を提供することである。
【００１３】
【課題を解決するための手段】
本発明では、上記の課題を解決するために、一台の分析管理装置と一台のデータ記憶装置と一台以上の分析実行装置を用いる。
【００１４】
分析管理装置では、分析に参加する分析実行装置の登録・削除を管理する。分析管理装置は、分析実行装置に対して、分析における部分問題の割り当て、すなわち特徴ルールの発見を行う探索空間の一部の割り当てを行い、この結果として得られる候補ルールを受け取る。さらに、分析管理装置は、受け取った候補ルールを元に、全体の出力を得るために特徴ルールのランキングを管理し、ある時点でランクされているルールの最低評価尺度から、それ以降の部分問題の割り当てにおいて用いる枝刈りのパラメータを更新する。このようにして一台以上の分析実行装置を用いて、枝刈りのパラメータを含む分析条件を更新しつつ特徴ルールの発見を行う。
【００１５】
また、本発明では、分析の過程を通して、分析管理装置では少なくとも分析条件および候補ルールを、分析実行装置では分析対象データ、分析条件および候補ルールを保持しておく。ただし、ここで分析条件には少なくとも枝刈りのパラメータが含まれるものとする。
【００１６】
また、本発明では、登録の際には分析管理装置から分析実行装置に分析対象データが送信されるが、複数の分析実行装置を一度に分析管理装置に登録するとき、これらの分析装置に一括して分析対象データを送信しても良い。また、本発明では、分析実行装置が分析を中断する際に、分析対象データを保持したままの状態にしておき、同じデータに対して再び分析を実行する際に分析対象データを受信する処理を省いても良い。また、本発明では、分析実行装置が分析の最中に分析者から分析中断の指示を受けた場合、その部分問題の結果を分析管理装置に送信した後に、分析の実行を中断するが、部分問題の分析の最中であっても直ちに分析を中断し、分析管理装置はこの部分問題については分析がまだ行われていないものとみなすようにしてもよい。
【００１７】
【発明の実施の形態】
本発明における実施の形態を以下に説明する。
【００１８】
図１に本実施形態の装置の構成を示す。本実施形態においては、分析管理装置０１０１、データ記憶装置０１０８と一つ以上の分析実行装置０１０９が、バス型の通信路０１１０を介して接続されている。分析管理装置０１０１は処理装置０１０２、入出力装置０１０５、記憶装置０１０７が含まれ、それぞれの装置は通信路０１１１を介して接続されている。また処理装置には処理装置が行う処理に必要なデータを一時的に格納するメモリ０１０３が含まれ、メモリ０１０３には処理装置が行う処理を記述したプログラム０１０４が含まれている。入出力装置０１０５には装置の外部との通信を管理する通信装置０１０６が含まれ、分析管理装置０１０１はこの通信装置を介して通信路０１１０と接続されている。また本実施の形態において、分析実行装置０１０９とデータ記憶装置０１０８も同様の処理装置、記憶装置、入出力装置を備えている。
【００１９】
本実施形態では、知識の発見に特徴ルール生成のアルゴリズムを用いる。以下に、特徴ルール生成について詳細を説明する。まずは、本実施形態において用いられる分析対象データと分析結果のルールについて述べる。
【００２０】
本実施形態で用いられる分析対象データの例を図２に示す。分析対象データは複数のフィールドからなるレコードの集合であり、全てのレコードは同じフィールドを持っている。フィールドにはレコードのある属性をあらわす値が格納されている。レコードやフィールドが具体的に何を表すかは分析対象のデータに依存するが、例えばある商店の購買履歴のデータを分析対象とする場合、１つのレコードが一人の顧客、各フィールドが顧客の顧客ＩＤ、性別、年齢、購買頻度、購入総額などの属性に対応する。特徴ルール生成では、前処理として、各フィールドの属性値をより少数のカテゴリに変換する。例えば、年齢は通常１０〜１００程度の値を取りうるが、これを「２５歳以下」、「２６歳から３５歳」、「３６歳以上」のようにカテゴリに変換する。性別のように元々「男」「女」の２値しか値を取らないものは、このままカテゴリとして用いることもある。図２はこのようにカテゴリ化を施した分析対象データの例である。
【００２１】
特徴ルールは例えば次のように書き表すことが出来る。「ＩＦ年齢＝２６〜３５ＡＮＤ購買頻度＝高ＴＨＥＮ購入総額＝高」。すなわち、属性（フィールドの名称）とそのカテゴリを組み合わせた節をＩＦ以下の条件部とＴＨＥＮ以下の結論部に持つ、ＩＦ〜ＴＨＥＮルールである。条件部に現れる属性を条件項目、結論部に現れる属性を結論項目と呼ぶ。また条件部に現れる属性と値の組を、条件節と呼ぶ。
【００２２】
特徴ルールはそのルールがどの程度対象データの特徴を表しているかを定量的に評価する一つの指標となる評価値を持つ。特徴ルールを一般的に「ＩＦＡＴＨＥＮＢ」と表す場合、評価値は次の式で定義される。
【００２３】
Ｐ（Ａ）＾ａ＊ｌｏｇ（Ｐ（Ｂ｜Ａ）／Ｐ（Ｂ））
ここでＰ（Ａ）、Ｐ（Ｂ）はそれぞれ、分析対象データ全体のうちで、条件Ａ、条件Ｂを満足するレコードの割合であり、Ｐ（Ｂ｜Ａ）は条件Ａを満足するレコードのうち条件Ａと条件Ｂの両方を満足するレコードの割合である。また、指数ａはルールの評価において一般性（あるルールがどのくらい多くのデータに適用できるかを示す指標）と精度（あるルールの条件部がどのくらい正確に結論部をあらわしているかを示す指標）のどちらに重点をおくかを定める正の定数であり分析者によって指定される。また、評価値の別の定義として、次の式を用いる場合もある。
【００２４】
Ｐ（Ａ）＾ａ＊Ｐ（Ｂ｜Ａ）＊ｌｏｇ（Ｐ（Ｂ｜Ａ）／Ｐ（Ｂ））
評価値にいずれの値を用いるにしても、ルールに現れる条件を満たすレコード、および分析対象データ全体のレコードの数を知ることによって、評価値を算出することが出来る。特徴ルール生成ではこの評価値によって特徴ルールを評価し、評価値の高いルールから順にソートしてその上位を結果として出力する。ソートされた特徴ルールの例を図３に示す。
【００２５】
特徴的ルール生成とは、上記で定義したルールの評価値に基づき、評価値の大きな特徴ルールを発見するアルゴリズムである。この処理を行うにあたって発見すべき特徴ルール数の上限、結論項目となるフィールドとその値、条件項目の候補となる複数のフィールド、一つの特徴ルールに含まれる条件項目の数の上限が分析者により与えられているものとする。このとき、生成され得る特徴ルールの全ての組み合わせは図４に例示する木構造のように書き表すことができる。ただし、この例では結論部を「購入総額＝高」として特徴ルールを発見しようとしている場合を仮定する。この木構造において、ルートノード０４０１を除く全てのノードは一つの特徴ルールに対応している。すなわち破線０４０４で囲まれた第１階層には条件項目とそのカテゴリの全ての組み合わせがノードとして含まれており、それぞれのノードは１つの条件項目を持つルールに対応している。例えばノード０４０２は「ＩＦ性別＝男ＴＨＥＮ購入総額＝高」というルールに対応している。また第１階層の全てのノードの下には、第１階層のノードに現れる条件項目を除く全ての条件項目とそのカテゴリの全組み合わせがノードとして含まれている（ただし、ＩＦＡＡＮＤＢＴＨＥＮＸと、ＩＦＢＡＮＤＡＴＨＥＮＸは同じルールを表しているので、このような重複がある場合は、同じルールとなるノードは一つを残して省かれている。また一般に、第ｎ階層のノードの下には、ルートノードからそのノードに至るパスに現れた条件項目を除く全ての条件項目とそのカテゴリの全組み合わせから、さらに前記の重複を除いた組み合わせが、ノードとして含まれている）。このようにして構成される木構造の第２階層（階層０４０５）は、２つの条件項目をもつルールと対応する。例えばノード０４０３は、「ＩＦ性別＝男性ＡＮＤ購買頻度＝高ＴＨＥＮ購入総額＝高」というルールに対応する。
【００２６】
特徴ルール生成においてルールを発見するアルゴリズムの考え方は、このような木構造において各ノード（ルール）を評価し、評価値の高いルールを選び出すという事と同等であると考えることができる。
【００２７】
本実施例における処理の詳細を以下に示す。
【００２８】
図５は分析管理装置で行われる分析管理の手順である。ステップ０５０１の初期化処理においてはデータ分析の管理を行うための準備として、分析対象のデータを分析実行装置に送信する準備、分析結果のルールを格納する準備、分析の初期条件の設定を行う。分析の初期条件の設定においては、発見すべき特徴ルール数の上限Ｎ、結論項目となるフィールドとその値、条件項目の候補となる複数のフィールド、一つの特徴ルールに含まれる条件項目の数の上限Ｍを含む。初期化処理５０１が終了すると、ステップ０５０２の分析実行装置管理処理に進む。ここで、今後分析を進めていく際に必要なメモリは、分析条件を格納する領域と、上位Ｎ個のルールを格納する領域に限られている。また、この分析条件には上記の初期条件で設定した各条件に加え、枝刈りのためのパラメータや、分析実行装置を管理するためのテーブルが含まれている。
【００２９】
分析実行装置管理処理０５０２の詳細を図６に示す。ステップ０６０１では分析の実行を許可する信号が分析実行装置から送られてきているかどうかをチェックし、ある分析実行装置から信号が送られてきていればステップ０６０２に進む。そのような信号が送られてきていなければステップ０６０３に進む。分析実行装置追加処理０６０２では、ステップ０６０１で信号を受け取った装置のひとつについて、分析実行装置を管理するテーブルにこの装置を登録し、この装置に分析対象データを送信した後、ステップ６０１に戻る。ステップ０６０３では分析実行の中断を要求する信号が分析実行装置から送られてきているかどうかをチェックし、ある分析実行装置からそのような信号が送られてきていればステップ０６０４に進む。そのような信号が送られてきていなければ分析実行装置管理処理０５０２の処理を終了し、ステップ０５０３に進む。分析実行装置追加処理０６０４では、ステップ０６０３で中断要求の信号を受け取った分析実行装置を管理テーブルから削除する。
【００３０】
ステップ０５０３の問題割り当て処理について、詳細を図７に示す。ステップ０７０１では分析実行装置から問題の割り当て要求が来ているかどうかをチェックし、もし割り当ての要求が来ているならばステップ０７０２に、来ていないならば問題割り当て処理を終了し、ステップ０５０４に進む。ステップ０７０２の問題生成処理では、図４で示した特徴ルールの探索木からその一部を要求の来ている分析実行装置が分析する部分問題として切り出す。この部分問題の切り出し方の一例について、図８を用いて説明する。図８に示すのは特徴ルールの探索空間を探索木としてあらわしたもので、図４と同じである。ここでは１条件を持つ特徴ルールの集合である０８０１の層に着目し、この層のひとつのノードとそのノードをルートノードとして持つ部分木全体をひとつの部分問題とみなす。すなわち部分木０８０２と部分木０８０３はどちらも部分問題をあらわしている。ステップ０７０２では、図８のような探索木全体から、まだ分析の終わっていない部分木を部分問題として切り出す。もし、この時点で全ての部分問題について割り当てが終わっているならば、この切り出しは行わない。ステップ０７０３では、ステップ０７０２で切り出した部分問題を問題割り当て要求のあった分析実行装置に割り当てる。また、同時にこの時点での枝刈りのパラメータなど分析実行のための条件を送信する。ステップ０７０２で部分問題の切り出しが行われなかった場合には、もう割り当てるべき部分問題が無い旨を分析実行装置に通知する。ここで部分問題の通知の仕方は、分析実行装置が分析を行う部分木が正確に伝わるような方法であれば任意だが、例えば図８の木構造を仮定する場合には、分析実行装置が探索するべき部分木のルートノードを分析実行装置に送信すればよい。
【００３１】
ステップ０５０４の結果登録処理について、その詳細を図９に示す。ステップ０９０１では分析が終了し結果登録の要求が来ている分析装置があるかないかをチェックし、もし結果登録の要求が来ているならばステップ０９０２に、来ていないならば結果登録処理を終了し、ステップ０５０５に進む。ステップ０９０２では、分析実行装置より結果としてＮ個の候補ルールを受け取り、分析管理装置の中で管理している候補ルールとあわせて評価尺度の順にルールをソートし、上位Ｎ個の候補ルールを更新する。
【００３２】
ステップ０５０５の分析条件更新処理について、その詳細を図１０に示す。ステップ１００１では更新すべきパラメータがあるかどうかをチェックし、更新すべきパラメータがある場合にはステップ１００２に進みそのパラメータを更新する。そのようなパラメータがなければ分析条件更新処理を終了し、ステップ０５０６に進む。この分析条件更新処理では、少なくとも枝刈りのパラメータのチェックが行われる。このチェックは以下のようになる。ステップ１００１で分析管理装置の中で管理しているこの時点での候補ルールの最低の評価尺度と現在の枝刈りのパラメータとをチェックし、枝刈りのパラメータが最低評価尺度よりも小さい場合、ステップ１００２で枝刈りパラメータをこの最低の評価尺度で上書きする。
【００３３】
ステップ０５０６では全ての部分問題について分析が終了したかどうかをチェックし、分析が終了しているならステップ０５０７に進み、終了していないならばステップ０５０２の前に戻る。
【００３４】
ステップ０５０７では、分析管理装置の中で保持されている候補ルールを最終的な結果として出力し、分析を終了する。
【００３５】
以上が分析管理装置における処理の詳細である。
【００３６】
次に、分析実行装置における処理の詳細について述べる。分析実行装置における処理の詳細を図１１に示す。
【００３７】
ステップ１１０１の分析装置登録処理では、分析の実行を許可する信号を分析管理装置に送信する。その後、分析管理装置に登録が終了したら、分析管理装置より分析対象データを受信する。
【００３８】
ステップ１１０２の問題割り当て要求処理では、分析管理装置に問題の割り当てを要求し、分析処理装置が実行すべき問題と枝刈りのパラメータを含む、分析のための条件を受信する。受信する問題の具体的な形式については、分析実行装置が分析を行う部分木が正確に伝わるような方法であれば任意であるが、例えば図８の木構造を仮定するような場合には、分析実行装置が探索するべき部分木のルートノードを分析管理装置から受信すればよい。
【００３９】
ステップ１１０３ではステップ１１０２の受信の内容をチェックし、もう割り当てる問題が無い旨を受信したならばステップ１１０７に進む。問題の割り当てがあった場合はステップ１１０４に進む。
【００４０】
ステップ１１０４の分析実行処理では割り当てられた部分問題に対応する部分木を分析し、評価値の高いＮ個の候補ルールを発見する。
【００４１】
ステップ１１０５の結果送信処理では、ステップ１１０４で発見した候補ルールを分析管理装置に送信する。
【００４２】
また、このステップ１１０１からステップ１１０５を実行している装置では同時に中断受付処理１１０８が実行されており、入力装置から中止の指示を受信した場合には分析を中断させるフラグを立てる。
【００４３】
ステップ１１０６では、分析中断フラグが立っているかどうかをチェックし、分析中断のフラグが立っているならばステップ１１０７の分析終了処理に進む。そうでなければステップ１１０２に戻る。
【００４４】
ステップ１１０７の分析終了処理では、ステップ１１０１で格納したデータなどの領域を解放し、分析管理装置に分析の実行を中断する信号を送信するなど、分析の後処理を行って、分析実行装置における処理を終了する。
【００４５】
本実施例は以下のように変更して実施することも可能である。
【００４６】
第１に分析装置追加処理０６０２では、ステップ０６０１で信号を受け取った装置のひとつについて、管理テーブルに装置を登録し、分析対象データを送信するのではなく、この時点で分析実行許可の信号を送ってきており、まだ追加処理がなされていない全ての装置を管理テーブルに登録し、これらの全ての装置に対して一回だけデータを送信する。この変更例によって、データを送信する時の時間と通信路のトラフィックを削減することができる。
【００４７】
第２に分析終了処理１１０７において、ステップ１１０１で受信したデータの情報を解放せずに格納しておき、同じ装置を用いて同じ分析対象データを対象に分析を行う際には再びデータを受信しないよう変更する。これにより、同じ装置を用いて分析の中断、再実行を行う際に、データを受信しなおす手間を省くことができる。
【００４８】
第３に中断受付処理１１０８において、入力装置から中断の指示を受けた場合には分析を中断するフラグを立てるのではなく、直ちに分析終了処理１１０７に進むように変更する。この場合、結果を出さずに中断された部分問題は、分析管理装置ではまだ分析が終わっていないものとみなされる。これにより、より柔軟に分析の停止ができるようになり、汎用のコンピュータ装置を分析実行マシンとして用いている場合でも他のアプリケーションとの兼ね合いの利便性を提供できるようになる。
【００４９】
【発明の効果】
本発明によれば、特徴ルール発見のための分析問題を複数の部分問題に分け、個々の問題を解くごとにそれ以降の分析で用いられる枝刈りのパラメータを更新していくことにより、効率よく枝刈りを行いつつ知識を発見ができるようになる。
【００５０】
また本発明によれば、それぞれの分析装置は、条件部で許される条件の組み合わせの最大数をいくつに定めるかによらず、分析対象データ、分析条件および候補ルールを格納するだけのメモリを持っていれば分析が行えるので、分析対象データ自体はそれほど大きく無いが多くの条件の組み合わせを含む特徴ルールを生成したいような場合に、分析実行装置に必要なメモリの量を少なく抑えた上で分析を行うことができるようになる。
【図面の簡単な説明】
【図１】本発明の実施の形態をあらわす構成図である。
【図２】本発明で分析対象とするデータの一例である。
【図３】特徴ルールの一例である。
【図４】特徴ルールの発見のための探索空間を木構造で表した図である。
【図５】分析管理装置が実行するアルゴリズムの全体を示すフローチャートである。
【図６】分析実行装置管理処理の詳細を示すフローチャートである。
【図７】問題割り当て処理の詳細を示すフローチャートである。
【図８】特徴ルールの発見のための探索空間を木構造で表した図である。
【図９】結果登録処理の詳細を示すフローチャートである。
【図１０】分析条件更新処理の詳細を示すフローチャートである。
【図１１】分析実行装置が実行するアルゴリズムの全体を示すフローチャートである。
【符号の説明】
０１０２…処理装置、０１０３…メモリ、０１０４…プログラム、０１０５…入出力装置、０１０６…通信装置、０１０７…記憶装置、０１１０…通信路、０１１１…通信路。

Claims

分析管理装置と一台以上の分析実行装置を用いて、分析対象のデータからデータの特徴を記述したルールを発見するデータ分析方法であって、
分析管理装置は、分析に参加する分析実行装置の登録・削除の管理を行う処理と、
分析実行装置に対して、データ分析問題の一部分を割り当てる処理と、
分析実行装置からルールを受け取り、ルールに対して定義される評価値を元に評価の高いルールをリストアップする処理と、
リストアップされたルールの評価値を元に分析処理の一部を省くためのパラメータを更新する処理をそれぞれ有することを特徴とするデータ分析方法。
請求項１のデータ分析方法において、
分析管理装置は、少なくとも、分析処理の一部を省くためのパラメータを含むルール発見を行うためのパラメータと、データ分析の処理を行う過程のある時点で評価値の高いルールを保持し、
分析実行装置は、少なくとも、分析の対象となるデータと、分析処理の一部を省くためのパラメータを含むデータ分析の処理を行うためのパラメータと、データ分析の処理を行う過程のある時点で評価値の高いルール保持することを特徴とするデータ分析方法。
請求項１乃至２のデータ分析方法において、分析管理装置に分析実行装置を登録する際に、複数の分析実行装置を一度に分析管理装置に登録し、これらの分析装置に一括して分析対象データを送信することを特徴とするデータ分析方法。
請求項１乃至２のデータ分析方法において、分析実行装置が分析を中断する際に、分析対象データを保持したままにしておき、該分析対象データに対して再び分析を実行する際に保持しているデータを利用することを特徴とするデータ分析方法。
請求項１乃至２のデータ分析方法において、分析実行装置が分析の最中に分析者から分析中断の指示を受けた場合、その部分問題の結果を分析管理装置に送信した後に、分析の実行を中断することを特徴とするデータ分析方法。
請求項１乃至２のデータ分析方法において、分析実行装置が分析の最中に分析者から分析中断の指示を受けた場合、部分問題の分析の最中であっても直ちに分析を中断し、分析管理装置はこの部分問題については分析がまだ行われていないものとみなすことを特徴とするデータ分析方法。
請求項１乃至６に記載のデータ分析方法を計算機で実行するための計算機プログラムを格納した記憶媒体。