JP2004326480A - 大量データの分散並列分析方法 - Google Patents
大量データの分散並列分析方法 Download PDFInfo
- Publication number
- JP2004326480A JP2004326480A JP2003120900A JP2003120900A JP2004326480A JP 2004326480 A JP2004326480 A JP 2004326480A JP 2003120900 A JP2003120900 A JP 2003120900A JP 2003120900 A JP2003120900 A JP 2003120900A JP 2004326480 A JP2004326480 A JP 2004326480A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- data
- rule
- management device
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 32
- 238000007405 data analysis Methods 0.000 claims description 22
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 1
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000003672 processing method Methods 0.000 abstract 1
- 238000007726 management method Methods 0.000 description 34
- 238000013138 pruning Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 239000000725 suspension Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】大量のデータから知識を発見するデータマイニングの技術において、従来の方法は、単一の処理装置を前提とした方法では、問題の規模が大きくなったときに実用的な時間でアルゴリズムが停止しないという問題点があった。また、分散並列の処理方法においても、大きなメモリ空間が必要であると言う問題点があった。
【解決手段】本発明では、上記の課題を解決するために、一台の分析管理装置と一台のデータ記憶装置と一台以上の分析実行装置を用いて分析を行う。分析管理装置は分析実行装置や分析を効率よく行うためのパラメータの管理を行う。また分析管理装置と分析実行装置は、それぞれ評価値の高い特徴ルールを保持して分析を行い、必要なメモリの量を節約する。
【選択図】 図5
【解決手段】本発明では、上記の課題を解決するために、一台の分析管理装置と一台のデータ記憶装置と一台以上の分析実行装置を用いて分析を行う。分析管理装置は分析実行装置や分析を効率よく行うためのパラメータの管理を行う。また分析管理装置と分析実行装置は、それぞれ評価値の高い特徴ルールを保持して分析を行い、必要なメモリの量を節約する。
【選択図】 図5
Description
【0001】
【発明の属する技術分野】
本発明は大量のデータを複数の分析装置を利用して並列に分析するデータ分析方法に関する。
【0002】
【従来の技術】
大量のデータから知識を発見する技術はデータマイニングと呼ばれている。発見される知識の具体例としては特徴ルール(Characteristic Rule)が知られている。特徴ルールとその発見法に関しては特許文献1に解説されている。
【0003】
特徴ルールは「IF A THEN B」の形式で書き表すことが出来る。A(条件部と呼ばれる)は1個以上の条件の組み合わせ、B(結論部と呼ばれる)は単一の条件である。ここで「条件」とは、データの属性とその値の組であり、例えば「年齢=20代」のように記述される。特徴ルールには、一般性 (あるルールがどのくらい多くのデータに適用できるかを示す指標) と精度 (あるルールの条件部がどのくらい正確に結論部をあらわしているかを示す指標)のトレードオフを考えて計算した評価尺度が定義される。特徴ルール生成のアルゴリズムはこの評価尺度を用いてルールを評価し、その値の高い順にソートしたランキングの上位が結果として出力される。
【0004】
また、特許文献1には、ルールの評価を効率的に行うために、「枝刈り」という処理を行って、評価する必要の無いルールについて評価を省略し、ルール発見のための時間を短縮する方法が示されている。特許文献1に記述されている枝刈りの方法を以下に示す。特徴ルール生成において特徴ルールを発見する際には、あらかじめ発見するルール数の上限を決定しておくが、この個数をNとする。探索においてN個のルールを生成する時、探索のある時点で発見されているN番目に評価尺度の高い特徴ルールの評価尺度をμとする。枝刈りでは、ルールRの評価尺度を計算する際に、Rの条件部にさらに条件を付け加えたような考えうる全てのルールの評価尺度の上限を計算し、その値がμを上回らない場合にはこれらのルールについて評価を省略する。
【0005】
また、データマイニングのアルゴリズムは膨大な量の計算を必要とする場合があるため、分散環境においてアルゴリズムを実行するためのスキームが考案されている。
【0006】
特徴ルールを複数の分析装置を用いて発見する手法については特許文献2に解説されている。この方法において、与えられた問題において考えうる全ての特徴ルールについて、評価尺度を算出するのに必要な値を計数するカウンタを複数のデータ分析装置で分割して保持する。分析対象データはデータ格納装置から1回だけ送信され、各データ分析装置は、自分に必要なデータのみを受信し、各ルールのカウンタにて上記の値をカウントする。
【0007】
【特許文献1】
特開平8−77010号公報
【特許文献2】
特開2001−167098号公報
【0008】
【発明が解決しようとする課題】
ここで挙げた従来の技術には以下のような問題点がある。
【0009】
まず、第1の特許文献で述べられているアルゴリズムは、単一の処理装置を用いてルールを発見することを前提にしているため、データの属性数や探索するルールの数が増加した場合には1台の装置では十分な計算能力が得られず、実用的な時間でアルゴリズムが停止しないという問題点がある。特に、条件部に許される条件の数を増やして特徴ルール発見の探索を行った場合、探索すべきルールの数は爆発的に増加するため、この探索にかかる時間も膨大なものになってしまう。
【0010】
また、第2の特許文献で述べられている方法は、全ての考えうるルールについてのカウンタを複数の分析装置に分けて保持するため、探索するルールの条件節が増えた場合にその組み合わせが爆発的に増え、それにあわせて膨大な量のメモリが必要になるという問題点がある。この方法は、データを一回読み込むだけで分析が終了するため、レコード数の非常に多いデータを扱う場合にはそのメリットを享受できるが、レコード数が少なく項目数が非常に多いデータ(例えば、医療関連のデータで測定項目数が数万程度にのぼるが臨床のサンプル数が少ない場合など)から多くの条件の組み合わせを含む特徴ルールを生成したい場合などには、カウンタを分散して保持しても、必要なメモリ量の爆発的な増加に対応できない可能性がある。
【0011】
本発明の目的は複数台の処理装置を用いて効率的に知識を発見するデータ分析の手段を提供することである。
【0012】
また本発明の別の目的は、分析対象データ自体はそれほど大きくないが、多くの条件の組み合わせを含む特徴ルールを生成したいような場合に、分析実行装置に必要なメモリの量を少なく抑えた上で分析を行うデータ分析の手段を提供することである。
【0013】
【課題を解決するための手段】
本発明では、上記の課題を解決するために、一台の分析管理装置と一台のデータ記憶装置と一台以上の分析実行装置を用いる。
【0014】
分析管理装置では、分析に参加する分析実行装置の登録・削除を管理する。分析管理装置は、分析実行装置に対して、分析における部分問題の割り当て、すなわち特徴ルールの発見を行う探索空間の一部の割り当てを行い、この結果として得られる候補ルールを受け取る。さらに、分析管理装置は、受け取った候補ルールを元に、全体の出力を得るために特徴ルールのランキングを管理し、ある時点でランクされているルールの最低評価尺度から、それ以降の部分問題の割り当てにおいて用いる枝刈りのパラメータを更新する。このようにして一台以上の分析実行装置を用いて、枝刈りのパラメータを含む分析条件を更新しつつ特徴ルールの発見を行う。
【0015】
また、本発明では、分析の過程を通して、分析管理装置では少なくとも分析条件および候補ルールを、分析実行装置では分析対象データ、分析条件および候補ルールを保持しておく。ただし、ここで分析条件には少なくとも枝刈りのパラメータが含まれるものとする。
【0016】
また、本発明では、登録の際には分析管理装置から分析実行装置に分析対象データが送信されるが、複数の分析実行装置を一度に分析管理装置に登録するとき、これらの分析装置に一括して分析対象データを送信しても良い。また、本発明では、分析実行装置が分析を中断する際に、分析対象データを保持したままの状態にしておき、同じデータに対して再び分析を実行する際に分析対象データを受信する処理を省いても良い。また、本発明では、分析実行装置が分析の最中に分析者から分析中断の指示を受けた場合、その部分問題の結果を分析管理装置に送信した後に、分析の実行を中断するが、部分問題の分析の最中であっても直ちに分析を中断し、分析管理装置はこの部分問題については分析がまだ行われていないものとみなすようにしてもよい。
【0017】
【発明の実施の形態】
本発明における実施の形態を以下に説明する。
【0018】
図1に本実施形態の装置の構成を示す。本実施形態においては、分析管理装置0101、データ記憶装置0108と一つ以上の分析実行装置0109が、バス型の通信路0110を介して接続されている。分析管理装置0101は処理装置0102、入出力装置0105、記憶装置0107が含まれ、それぞれの装置は通信路0111を介して接続されている。また処理装置には処理装置が行う処理に必要なデータを一時的に格納するメモリ0103が含まれ、メモリ0103には処理装置が行う処理を記述したプログラム0104が含まれている。入出力装置0105には装置の外部との通信を管理する通信装置0106が含まれ、分析管理装置0101はこの通信装置を介して通信路0110と接続されている。また本実施の形態において、分析実行装置0109とデータ記憶装置0108も同様の処理装置、記憶装置、入出力装置を備えている。
【0019】
本実施形態では、知識の発見に特徴ルール生成のアルゴリズムを用いる。以下に、特徴ルール生成について詳細を説明する。まずは、本実施形態において用いられる分析対象データと分析結果のルールについて述べる。
【0020】
本実施形態で用いられる分析対象データの例を図2に示す。分析対象データは複数のフィールドからなるレコードの集合であり、全てのレコードは同じフィールドを持っている。フィールドにはレコードのある属性をあらわす値が格納されている。レコードやフィールドが具体的に何を表すかは分析対象のデータに依存するが、例えばある商店の購買履歴のデータを分析対象とする場合、1つのレコードが一人の顧客、各フィールドが顧客の顧客ID、性別、年齢、購買頻度、購入総額などの属性に対応する。特徴ルール生成では、前処理として、各フィールドの属性値をより少数のカテゴリに変換する。例えば、年齢は通常10〜100程度の値を取りうるが、これを「25歳以下」、「26歳から35歳」、「36歳以上」のようにカテゴリに変換する。性別のように元々「男」「女」の2値しか値を取らないものは、このままカテゴリとして用いることもある。図2はこのようにカテゴリ化を施した分析対象データの例である。
【0021】
特徴ルールは例えば次のように書き表すことが出来る。「IF 年齢=26〜35 AND購買頻度=高 THEN 購入総額=高」。すなわち、属性(フィールドの名称)とそのカテゴリを組み合わせた節をIF以下の条件部とTHEN以下の結論部に持つ、IF〜THENルールである。条件部に現れる属性を条件項目、結論部に現れる属性を結論項目と呼ぶ。また条件部に現れる属性と値の組を、条件節と呼ぶ。
【0022】
特徴ルールはそのルールがどの程度対象データの特徴を表しているかを定量的に評価する一つの指標となる評価値を持つ。特徴ルールを一般的に「IF A THEN B」と表す場合、評価値は次の式で定義される。
【0023】
P(A)^a * log(P(B|A)/P(B))
ここでP(A)、P(B)はそれぞれ、分析対象データ全体のうちで、条件A、条件Bを満足するレコードの割合であり、P(B|A)は条件Aを満足するレコードのうち条件Aと条件Bの両方を満足するレコードの割合である。また、指数aはルールの評価において一般性 (あるルールがどのくらい多くのデータに適用できるかを示す指標) と精度 (あるルールの条件部がどのくらい正確に結論部をあらわしているかを示す指標)のどちらに重点をおくかを定める正の定数であり分析者によって指定される。また、評価値の別の定義として、次の式を用いる場合もある。
【0024】
P(A)^a * P(B|A) * log(P(B|A)/P(B))
評価値にいずれの値を用いるにしても、ルールに現れる条件を満たすレコード、および分析対象データ全体のレコードの数を知ることによって、評価値を算出することが出来る。特徴ルール生成ではこの評価値によって特徴ルールを評価し、評価値の高いルールから順にソートしてその上位を結果として出力する。ソートされた特徴ルールの例を図3に示す。
【0025】
特徴的ルール生成とは、上記で定義したルールの評価値に基づき、評価値の大きな特徴ルールを発見するアルゴリズムである。この処理を行うにあたって発見すべき特徴ルール数の上限、結論項目となるフィールドとその値、条件項目の候補となる複数のフィールド、一つの特徴ルールに含まれる条件項目の数の上限が分析者により与えられているものとする。このとき、生成され得る特徴ルールの全ての組み合わせは図4に例示する木構造のように書き表すことができる。ただし、この例では結論部を「購入総額=高」として特徴ルールを発見しようとしている場合を仮定する。この木構造において、ルートノード0401を除く全てのノードは一つの特徴ルールに対応している。すなわち破線0404で囲まれた第1階層には条件項目とそのカテゴリの全ての組み合わせがノードとして含まれており、それぞれのノードは1つの条件項目を持つルールに対応している。例えばノード0402は「IF 性別=男 THEN 購入総額=高」というルールに対応している。また第1階層の全てのノードの下には、第1階層のノードに現れる条件項目を除く全ての条件項目とそのカテゴリの全組み合わせがノードとして含まれている(ただし、IF A AND B THEN Xと、IF B AND A THEN Xは同じルールを表しているので、このような重複がある場合は、同じルールとなるノードは一つを残して省かれている。また一般に、第n階層のノードの下には、ルートノードからそのノードに至るパスに現れた条件項目を除く全ての条件項目とそのカテゴリの全組み合わせから、さらに前記の重複を除いた組み合わせが、ノードとして含まれている)。このようにして構成される木構造の第2階層(階層0405)は、2つの条件項目をもつルールと対応する。例えばノード0403は、「IF 性別=男性 AND 購買頻度=高 THEN 購入総額=高」というルールに対応する。
【0026】
特徴ルール生成においてルールを発見するアルゴリズムの考え方は、このような木構造において各ノード(ルール)を評価し、評価値の高いルールを選び出すという事と同等であると考えることができる。
【0027】
本実施例における処理の詳細を以下に示す。
【0028】
図5は分析管理装置で行われる分析管理の手順である。ステップ0501の初期化処理においてはデータ分析の管理を行うための準備として、分析対象のデータを分析実行装置に送信する準備、分析結果のルールを格納する準備、分析の初期条件の設定を行う。分析の初期条件の設定においては、発見すべき特徴ルール数の上限N、結論項目となるフィールドとその値、条件項目の候補となる複数のフィールド、一つの特徴ルールに含まれる条件項目の数の上限Mを含む。初期化処理501が終了すると、ステップ0502の分析実行装置管理処理に進む。ここで、今後分析を進めていく際に必要なメモリは、分析条件を格納する領域と、上位N個のルールを格納する領域に限られている。また、この分析条件には上記の初期条件で設定した各条件に加え、枝刈りのためのパラメータや、分析実行装置を管理するためのテーブルが含まれている。
【0029】
分析実行装置管理処理0502の詳細を図6に示す。ステップ0601では分析の実行を許可する信号が分析実行装置から送られてきているかどうかをチェックし、ある分析実行装置から信号が送られてきていればステップ0602に進む。そのような信号が送られてきていなければステップ0603に進む。分析実行装置追加処理0602では、ステップ0601で信号を受け取った装置のひとつについて、分析実行装置を管理するテーブルにこの装置を登録し、この装置に分析対象データを送信した後、ステップ601に戻る。ステップ0603では分析実行の中断を要求する信号が分析実行装置から送られてきているかどうかをチェックし、ある分析実行装置からそのような信号が送られてきていればステップ0604に進む。そのような信号が送られてきていなければ分析実行装置管理処理0502の処理を終了し、ステップ0503に進む。分析実行装置追加処理0604では、ステップ0603で中断要求の信号を受け取った分析実行装置を管理テーブルから削除する。
【0030】
ステップ0503の問題割り当て処理について、詳細を図7に示す。ステップ0701では分析実行装置から問題の割り当て要求が来ているかどうかをチェックし、もし割り当ての要求が来ているならばステップ0702に、来ていないならば問題割り当て処理を終了し、ステップ0504に進む。ステップ0702の問題生成処理では、図4で示した特徴ルールの探索木からその一部を要求の来ている分析実行装置が分析する部分問題として切り出す。この部分問題の切り出し方の一例について、図8を用いて説明する。図8に示すのは特徴ルールの探索空間を探索木としてあらわしたもので、図4と同じである。ここでは1条件を持つ特徴ルールの集合である0801の層に着目し、この層のひとつのノードとそのノードをルートノードとして持つ部分木全体をひとつの部分問題とみなす。すなわち部分木0802と部分木0803はどちらも部分問題をあらわしている。ステップ0702では、図8のような探索木全体から、まだ分析の終わっていない部分木を部分問題として切り出す。もし、この時点で全ての部分問題について割り当てが終わっているならば、この切り出しは行わない。ステップ0703では、ステップ0702で切り出した部分問題を問題割り当て要求のあった分析実行装置に割り当てる。また、同時にこの時点での枝刈りのパラメータなど分析実行のための条件を送信する。ステップ0702で部分問題の切り出しが行われなかった場合には、もう割り当てるべき部分問題が無い旨を分析実行装置に通知する。ここで部分問題の通知の仕方は、分析実行装置が分析を行う部分木が正確に伝わるような方法であれば任意だが、例えば図8の木構造を仮定する場合には、分析実行装置が探索するべき部分木のルートノードを分析実行装置に送信すればよい。
【0031】
ステップ0504の結果登録処理について、その詳細を図9に示す。ステップ0901では分析が終了し結果登録の要求が来ている分析装置があるかないかをチェックし、もし結果登録の要求が来ているならばステップ0902に、来ていないならば結果登録処理を終了し、ステップ0505に進む。ステップ0902では、分析実行装置より結果としてN個の候補ルールを受け取り、分析管理装置の中で管理している候補ルールとあわせて評価尺度の順にルールをソートし、上位N個の候補ルールを更新する。
【0032】
ステップ0505の分析条件更新処理について、その詳細を図10に示す。ステップ1001では更新すべきパラメータがあるかどうかをチェックし、更新すべきパラメータがある場合にはステップ1002に進みそのパラメータを更新する。そのようなパラメータがなければ分析条件更新処理を終了し、ステップ0506に進む。この分析条件更新処理では、少なくとも枝刈りのパラメータのチェックが行われる。このチェックは以下のようになる。ステップ1001で分析管理装置の中で管理しているこの時点での候補ルールの最低の評価尺度と現在の枝刈りのパラメータとをチェックし、枝刈りのパラメータが最低評価尺度よりも小さい場合、ステップ1002で枝刈りパラメータをこの最低の評価尺度で上書きする。
【0033】
ステップ0506では全ての部分問題について分析が終了したかどうかをチェックし、分析が終了しているならステップ0507に進み、終了していないならばステップ0502の前に戻る。
【0034】
ステップ0507では、分析管理装置の中で保持されている候補ルールを最終的な結果として出力し、分析を終了する。
【0035】
以上が分析管理装置における処理の詳細である。
【0036】
次に、分析実行装置における処理の詳細について述べる。分析実行装置における処理の詳細を図11に示す。
【0037】
ステップ1101の分析装置登録処理では、分析の実行を許可する信号を分析管理装置に送信する。その後、分析管理装置に登録が終了したら、分析管理装置より分析対象データを受信する。
【0038】
ステップ1102の問題割り当て要求処理では、分析管理装置に問題の割り当てを要求し、分析処理装置が実行すべき問題と枝刈りのパラメータを含む、分析のための条件を受信する。受信する問題の具体的な形式については、分析実行装置が分析を行う部分木が正確に伝わるような方法であれば任意であるが、例えば図8の木構造を仮定するような場合には、分析実行装置が探索するべき部分木のルートノードを分析管理装置から受信すればよい。
【0039】
ステップ1103ではステップ1102の受信の内容をチェックし、もう割り当てる問題が無い旨を受信したならばステップ1107に進む。問題の割り当てがあった場合はステップ1104に進む。
【0040】
ステップ1104の分析実行処理では割り当てられた部分問題に対応する部分木を分析し、評価値の高いN個の候補ルールを発見する。
【0041】
ステップ1105の結果送信処理では、ステップ1104で発見した候補ルールを分析管理装置に送信する。
【0042】
また、このステップ1101からステップ1105を実行している装置では同時に中断受付処理1108が実行されており、入力装置から中止の指示を受信した場合には分析を中断させるフラグを立てる。
【0043】
ステップ1106では、分析中断フラグが立っているかどうかをチェックし、分析中断のフラグが立っているならばステップ1107の分析終了処理に進む。そうでなければステップ1102に戻る。
【0044】
ステップ1107の分析終了処理では、ステップ1101で格納したデータなどの領域を解放し、分析管理装置に分析の実行を中断する信号を送信するなど、分析の後処理を行って、分析実行装置における処理を終了する。
【0045】
本実施例は以下のように変更して実施することも可能である。
【0046】
第1に分析装置追加処理0602では、ステップ0601で信号を受け取った装置のひとつについて、管理テーブルに装置を登録し、分析対象データを送信するのではなく、この時点で分析実行許可の信号を送ってきており、まだ追加処理がなされていない全ての装置を管理テーブルに登録し、これらの全ての装置に対して一回だけデータを送信する。この変更例によって、データを送信する時の時間と通信路のトラフィックを削減することができる。
【0047】
第2に分析終了処理1107において、ステップ1101で受信したデータの情報を解放せずに格納しておき、同じ装置を用いて同じ分析対象データを対象に分析を行う際には再びデータを受信しないよう変更する。これにより、同じ装置を用いて分析の中断、再実行を行う際に、データを受信しなおす手間を省くことができる。
【0048】
第3に中断受付処理1108において、入力装置から中断の指示を受けた場合には分析を中断するフラグを立てるのではなく、直ちに分析終了処理1107に進むように変更する。この場合、結果を出さずに中断された部分問題は、分析管理装置ではまだ分析が終わっていないものとみなされる。これにより、より柔軟に分析の停止ができるようになり、汎用のコンピュータ装置を分析実行マシンとして用いている場合でも他のアプリケーションとの兼ね合いの利便性を提供できるようになる。
【0049】
【発明の効果】
本発明によれば、特徴ルール発見のための分析問題を複数の部分問題に分け、個々の問題を解くごとにそれ以降の分析で用いられる枝刈りのパラメータを更新していくことにより、効率よく枝刈りを行いつつ知識を発見ができるようになる。
【0050】
また本発明によれば、それぞれの分析装置は、条件部で許される条件の組み合わせの最大数をいくつに定めるかによらず、分析対象データ、分析条件および候補ルールを格納するだけのメモリを持っていれば分析が行えるので、分析対象データ自体はそれほど大きく無いが多くの条件の組み合わせを含む特徴ルールを生成したいような場合に、分析実行装置に必要なメモリの量を少なく抑えた上で分析を行うことができるようになる。
【図面の簡単な説明】
【図1】本発明の実施の形態をあらわす構成図である。
【図2】本発明で分析対象とするデータの一例である。
【図3】特徴ルールの一例である。
【図4】特徴ルールの発見のための探索空間を木構造で表した図である。
【図5】分析管理装置が実行するアルゴリズムの全体を示すフローチャートである。
【図6】分析実行装置管理処理の詳細を示すフローチャートである。
【図7】問題割り当て処理の詳細を示すフローチャートである。
【図8】特徴ルールの発見のための探索空間を木構造で表した図である。
【図9】結果登録処理の詳細を示すフローチャートである。
【図10】分析条件更新処理の詳細を示すフローチャートである。
【図11】分析実行装置が実行するアルゴリズムの全体を示すフローチャートである。
【符号の説明】
0102…処理装置、0103…メモリ、0104…プログラム、0105…入出力装置、0106…通信装置、0107…記憶装置、0110…通信路、0111…通信路。
【発明の属する技術分野】
本発明は大量のデータを複数の分析装置を利用して並列に分析するデータ分析方法に関する。
【0002】
【従来の技術】
大量のデータから知識を発見する技術はデータマイニングと呼ばれている。発見される知識の具体例としては特徴ルール(Characteristic Rule)が知られている。特徴ルールとその発見法に関しては特許文献1に解説されている。
【0003】
特徴ルールは「IF A THEN B」の形式で書き表すことが出来る。A(条件部と呼ばれる)は1個以上の条件の組み合わせ、B(結論部と呼ばれる)は単一の条件である。ここで「条件」とは、データの属性とその値の組であり、例えば「年齢=20代」のように記述される。特徴ルールには、一般性 (あるルールがどのくらい多くのデータに適用できるかを示す指標) と精度 (あるルールの条件部がどのくらい正確に結論部をあらわしているかを示す指標)のトレードオフを考えて計算した評価尺度が定義される。特徴ルール生成のアルゴリズムはこの評価尺度を用いてルールを評価し、その値の高い順にソートしたランキングの上位が結果として出力される。
【0004】
また、特許文献1には、ルールの評価を効率的に行うために、「枝刈り」という処理を行って、評価する必要の無いルールについて評価を省略し、ルール発見のための時間を短縮する方法が示されている。特許文献1に記述されている枝刈りの方法を以下に示す。特徴ルール生成において特徴ルールを発見する際には、あらかじめ発見するルール数の上限を決定しておくが、この個数をNとする。探索においてN個のルールを生成する時、探索のある時点で発見されているN番目に評価尺度の高い特徴ルールの評価尺度をμとする。枝刈りでは、ルールRの評価尺度を計算する際に、Rの条件部にさらに条件を付け加えたような考えうる全てのルールの評価尺度の上限を計算し、その値がμを上回らない場合にはこれらのルールについて評価を省略する。
【0005】
また、データマイニングのアルゴリズムは膨大な量の計算を必要とする場合があるため、分散環境においてアルゴリズムを実行するためのスキームが考案されている。
【0006】
特徴ルールを複数の分析装置を用いて発見する手法については特許文献2に解説されている。この方法において、与えられた問題において考えうる全ての特徴ルールについて、評価尺度を算出するのに必要な値を計数するカウンタを複数のデータ分析装置で分割して保持する。分析対象データはデータ格納装置から1回だけ送信され、各データ分析装置は、自分に必要なデータのみを受信し、各ルールのカウンタにて上記の値をカウントする。
【0007】
【特許文献1】
特開平8−77010号公報
【特許文献2】
特開2001−167098号公報
【0008】
【発明が解決しようとする課題】
ここで挙げた従来の技術には以下のような問題点がある。
【0009】
まず、第1の特許文献で述べられているアルゴリズムは、単一の処理装置を用いてルールを発見することを前提にしているため、データの属性数や探索するルールの数が増加した場合には1台の装置では十分な計算能力が得られず、実用的な時間でアルゴリズムが停止しないという問題点がある。特に、条件部に許される条件の数を増やして特徴ルール発見の探索を行った場合、探索すべきルールの数は爆発的に増加するため、この探索にかかる時間も膨大なものになってしまう。
【0010】
また、第2の特許文献で述べられている方法は、全ての考えうるルールについてのカウンタを複数の分析装置に分けて保持するため、探索するルールの条件節が増えた場合にその組み合わせが爆発的に増え、それにあわせて膨大な量のメモリが必要になるという問題点がある。この方法は、データを一回読み込むだけで分析が終了するため、レコード数の非常に多いデータを扱う場合にはそのメリットを享受できるが、レコード数が少なく項目数が非常に多いデータ(例えば、医療関連のデータで測定項目数が数万程度にのぼるが臨床のサンプル数が少ない場合など)から多くの条件の組み合わせを含む特徴ルールを生成したい場合などには、カウンタを分散して保持しても、必要なメモリ量の爆発的な増加に対応できない可能性がある。
【0011】
本発明の目的は複数台の処理装置を用いて効率的に知識を発見するデータ分析の手段を提供することである。
【0012】
また本発明の別の目的は、分析対象データ自体はそれほど大きくないが、多くの条件の組み合わせを含む特徴ルールを生成したいような場合に、分析実行装置に必要なメモリの量を少なく抑えた上で分析を行うデータ分析の手段を提供することである。
【0013】
【課題を解決するための手段】
本発明では、上記の課題を解決するために、一台の分析管理装置と一台のデータ記憶装置と一台以上の分析実行装置を用いる。
【0014】
分析管理装置では、分析に参加する分析実行装置の登録・削除を管理する。分析管理装置は、分析実行装置に対して、分析における部分問題の割り当て、すなわち特徴ルールの発見を行う探索空間の一部の割り当てを行い、この結果として得られる候補ルールを受け取る。さらに、分析管理装置は、受け取った候補ルールを元に、全体の出力を得るために特徴ルールのランキングを管理し、ある時点でランクされているルールの最低評価尺度から、それ以降の部分問題の割り当てにおいて用いる枝刈りのパラメータを更新する。このようにして一台以上の分析実行装置を用いて、枝刈りのパラメータを含む分析条件を更新しつつ特徴ルールの発見を行う。
【0015】
また、本発明では、分析の過程を通して、分析管理装置では少なくとも分析条件および候補ルールを、分析実行装置では分析対象データ、分析条件および候補ルールを保持しておく。ただし、ここで分析条件には少なくとも枝刈りのパラメータが含まれるものとする。
【0016】
また、本発明では、登録の際には分析管理装置から分析実行装置に分析対象データが送信されるが、複数の分析実行装置を一度に分析管理装置に登録するとき、これらの分析装置に一括して分析対象データを送信しても良い。また、本発明では、分析実行装置が分析を中断する際に、分析対象データを保持したままの状態にしておき、同じデータに対して再び分析を実行する際に分析対象データを受信する処理を省いても良い。また、本発明では、分析実行装置が分析の最中に分析者から分析中断の指示を受けた場合、その部分問題の結果を分析管理装置に送信した後に、分析の実行を中断するが、部分問題の分析の最中であっても直ちに分析を中断し、分析管理装置はこの部分問題については分析がまだ行われていないものとみなすようにしてもよい。
【0017】
【発明の実施の形態】
本発明における実施の形態を以下に説明する。
【0018】
図1に本実施形態の装置の構成を示す。本実施形態においては、分析管理装置0101、データ記憶装置0108と一つ以上の分析実行装置0109が、バス型の通信路0110を介して接続されている。分析管理装置0101は処理装置0102、入出力装置0105、記憶装置0107が含まれ、それぞれの装置は通信路0111を介して接続されている。また処理装置には処理装置が行う処理に必要なデータを一時的に格納するメモリ0103が含まれ、メモリ0103には処理装置が行う処理を記述したプログラム0104が含まれている。入出力装置0105には装置の外部との通信を管理する通信装置0106が含まれ、分析管理装置0101はこの通信装置を介して通信路0110と接続されている。また本実施の形態において、分析実行装置0109とデータ記憶装置0108も同様の処理装置、記憶装置、入出力装置を備えている。
【0019】
本実施形態では、知識の発見に特徴ルール生成のアルゴリズムを用いる。以下に、特徴ルール生成について詳細を説明する。まずは、本実施形態において用いられる分析対象データと分析結果のルールについて述べる。
【0020】
本実施形態で用いられる分析対象データの例を図2に示す。分析対象データは複数のフィールドからなるレコードの集合であり、全てのレコードは同じフィールドを持っている。フィールドにはレコードのある属性をあらわす値が格納されている。レコードやフィールドが具体的に何を表すかは分析対象のデータに依存するが、例えばある商店の購買履歴のデータを分析対象とする場合、1つのレコードが一人の顧客、各フィールドが顧客の顧客ID、性別、年齢、購買頻度、購入総額などの属性に対応する。特徴ルール生成では、前処理として、各フィールドの属性値をより少数のカテゴリに変換する。例えば、年齢は通常10〜100程度の値を取りうるが、これを「25歳以下」、「26歳から35歳」、「36歳以上」のようにカテゴリに変換する。性別のように元々「男」「女」の2値しか値を取らないものは、このままカテゴリとして用いることもある。図2はこのようにカテゴリ化を施した分析対象データの例である。
【0021】
特徴ルールは例えば次のように書き表すことが出来る。「IF 年齢=26〜35 AND購買頻度=高 THEN 購入総額=高」。すなわち、属性(フィールドの名称)とそのカテゴリを組み合わせた節をIF以下の条件部とTHEN以下の結論部に持つ、IF〜THENルールである。条件部に現れる属性を条件項目、結論部に現れる属性を結論項目と呼ぶ。また条件部に現れる属性と値の組を、条件節と呼ぶ。
【0022】
特徴ルールはそのルールがどの程度対象データの特徴を表しているかを定量的に評価する一つの指標となる評価値を持つ。特徴ルールを一般的に「IF A THEN B」と表す場合、評価値は次の式で定義される。
【0023】
P(A)^a * log(P(B|A)/P(B))
ここでP(A)、P(B)はそれぞれ、分析対象データ全体のうちで、条件A、条件Bを満足するレコードの割合であり、P(B|A)は条件Aを満足するレコードのうち条件Aと条件Bの両方を満足するレコードの割合である。また、指数aはルールの評価において一般性 (あるルールがどのくらい多くのデータに適用できるかを示す指標) と精度 (あるルールの条件部がどのくらい正確に結論部をあらわしているかを示す指標)のどちらに重点をおくかを定める正の定数であり分析者によって指定される。また、評価値の別の定義として、次の式を用いる場合もある。
【0024】
P(A)^a * P(B|A) * log(P(B|A)/P(B))
評価値にいずれの値を用いるにしても、ルールに現れる条件を満たすレコード、および分析対象データ全体のレコードの数を知ることによって、評価値を算出することが出来る。特徴ルール生成ではこの評価値によって特徴ルールを評価し、評価値の高いルールから順にソートしてその上位を結果として出力する。ソートされた特徴ルールの例を図3に示す。
【0025】
特徴的ルール生成とは、上記で定義したルールの評価値に基づき、評価値の大きな特徴ルールを発見するアルゴリズムである。この処理を行うにあたって発見すべき特徴ルール数の上限、結論項目となるフィールドとその値、条件項目の候補となる複数のフィールド、一つの特徴ルールに含まれる条件項目の数の上限が分析者により与えられているものとする。このとき、生成され得る特徴ルールの全ての組み合わせは図4に例示する木構造のように書き表すことができる。ただし、この例では結論部を「購入総額=高」として特徴ルールを発見しようとしている場合を仮定する。この木構造において、ルートノード0401を除く全てのノードは一つの特徴ルールに対応している。すなわち破線0404で囲まれた第1階層には条件項目とそのカテゴリの全ての組み合わせがノードとして含まれており、それぞれのノードは1つの条件項目を持つルールに対応している。例えばノード0402は「IF 性別=男 THEN 購入総額=高」というルールに対応している。また第1階層の全てのノードの下には、第1階層のノードに現れる条件項目を除く全ての条件項目とそのカテゴリの全組み合わせがノードとして含まれている(ただし、IF A AND B THEN Xと、IF B AND A THEN Xは同じルールを表しているので、このような重複がある場合は、同じルールとなるノードは一つを残して省かれている。また一般に、第n階層のノードの下には、ルートノードからそのノードに至るパスに現れた条件項目を除く全ての条件項目とそのカテゴリの全組み合わせから、さらに前記の重複を除いた組み合わせが、ノードとして含まれている)。このようにして構成される木構造の第2階層(階層0405)は、2つの条件項目をもつルールと対応する。例えばノード0403は、「IF 性別=男性 AND 購買頻度=高 THEN 購入総額=高」というルールに対応する。
【0026】
特徴ルール生成においてルールを発見するアルゴリズムの考え方は、このような木構造において各ノード(ルール)を評価し、評価値の高いルールを選び出すという事と同等であると考えることができる。
【0027】
本実施例における処理の詳細を以下に示す。
【0028】
図5は分析管理装置で行われる分析管理の手順である。ステップ0501の初期化処理においてはデータ分析の管理を行うための準備として、分析対象のデータを分析実行装置に送信する準備、分析結果のルールを格納する準備、分析の初期条件の設定を行う。分析の初期条件の設定においては、発見すべき特徴ルール数の上限N、結論項目となるフィールドとその値、条件項目の候補となる複数のフィールド、一つの特徴ルールに含まれる条件項目の数の上限Mを含む。初期化処理501が終了すると、ステップ0502の分析実行装置管理処理に進む。ここで、今後分析を進めていく際に必要なメモリは、分析条件を格納する領域と、上位N個のルールを格納する領域に限られている。また、この分析条件には上記の初期条件で設定した各条件に加え、枝刈りのためのパラメータや、分析実行装置を管理するためのテーブルが含まれている。
【0029】
分析実行装置管理処理0502の詳細を図6に示す。ステップ0601では分析の実行を許可する信号が分析実行装置から送られてきているかどうかをチェックし、ある分析実行装置から信号が送られてきていればステップ0602に進む。そのような信号が送られてきていなければステップ0603に進む。分析実行装置追加処理0602では、ステップ0601で信号を受け取った装置のひとつについて、分析実行装置を管理するテーブルにこの装置を登録し、この装置に分析対象データを送信した後、ステップ601に戻る。ステップ0603では分析実行の中断を要求する信号が分析実行装置から送られてきているかどうかをチェックし、ある分析実行装置からそのような信号が送られてきていればステップ0604に進む。そのような信号が送られてきていなければ分析実行装置管理処理0502の処理を終了し、ステップ0503に進む。分析実行装置追加処理0604では、ステップ0603で中断要求の信号を受け取った分析実行装置を管理テーブルから削除する。
【0030】
ステップ0503の問題割り当て処理について、詳細を図7に示す。ステップ0701では分析実行装置から問題の割り当て要求が来ているかどうかをチェックし、もし割り当ての要求が来ているならばステップ0702に、来ていないならば問題割り当て処理を終了し、ステップ0504に進む。ステップ0702の問題生成処理では、図4で示した特徴ルールの探索木からその一部を要求の来ている分析実行装置が分析する部分問題として切り出す。この部分問題の切り出し方の一例について、図8を用いて説明する。図8に示すのは特徴ルールの探索空間を探索木としてあらわしたもので、図4と同じである。ここでは1条件を持つ特徴ルールの集合である0801の層に着目し、この層のひとつのノードとそのノードをルートノードとして持つ部分木全体をひとつの部分問題とみなす。すなわち部分木0802と部分木0803はどちらも部分問題をあらわしている。ステップ0702では、図8のような探索木全体から、まだ分析の終わっていない部分木を部分問題として切り出す。もし、この時点で全ての部分問題について割り当てが終わっているならば、この切り出しは行わない。ステップ0703では、ステップ0702で切り出した部分問題を問題割り当て要求のあった分析実行装置に割り当てる。また、同時にこの時点での枝刈りのパラメータなど分析実行のための条件を送信する。ステップ0702で部分問題の切り出しが行われなかった場合には、もう割り当てるべき部分問題が無い旨を分析実行装置に通知する。ここで部分問題の通知の仕方は、分析実行装置が分析を行う部分木が正確に伝わるような方法であれば任意だが、例えば図8の木構造を仮定する場合には、分析実行装置が探索するべき部分木のルートノードを分析実行装置に送信すればよい。
【0031】
ステップ0504の結果登録処理について、その詳細を図9に示す。ステップ0901では分析が終了し結果登録の要求が来ている分析装置があるかないかをチェックし、もし結果登録の要求が来ているならばステップ0902に、来ていないならば結果登録処理を終了し、ステップ0505に進む。ステップ0902では、分析実行装置より結果としてN個の候補ルールを受け取り、分析管理装置の中で管理している候補ルールとあわせて評価尺度の順にルールをソートし、上位N個の候補ルールを更新する。
【0032】
ステップ0505の分析条件更新処理について、その詳細を図10に示す。ステップ1001では更新すべきパラメータがあるかどうかをチェックし、更新すべきパラメータがある場合にはステップ1002に進みそのパラメータを更新する。そのようなパラメータがなければ分析条件更新処理を終了し、ステップ0506に進む。この分析条件更新処理では、少なくとも枝刈りのパラメータのチェックが行われる。このチェックは以下のようになる。ステップ1001で分析管理装置の中で管理しているこの時点での候補ルールの最低の評価尺度と現在の枝刈りのパラメータとをチェックし、枝刈りのパラメータが最低評価尺度よりも小さい場合、ステップ1002で枝刈りパラメータをこの最低の評価尺度で上書きする。
【0033】
ステップ0506では全ての部分問題について分析が終了したかどうかをチェックし、分析が終了しているならステップ0507に進み、終了していないならばステップ0502の前に戻る。
【0034】
ステップ0507では、分析管理装置の中で保持されている候補ルールを最終的な結果として出力し、分析を終了する。
【0035】
以上が分析管理装置における処理の詳細である。
【0036】
次に、分析実行装置における処理の詳細について述べる。分析実行装置における処理の詳細を図11に示す。
【0037】
ステップ1101の分析装置登録処理では、分析の実行を許可する信号を分析管理装置に送信する。その後、分析管理装置に登録が終了したら、分析管理装置より分析対象データを受信する。
【0038】
ステップ1102の問題割り当て要求処理では、分析管理装置に問題の割り当てを要求し、分析処理装置が実行すべき問題と枝刈りのパラメータを含む、分析のための条件を受信する。受信する問題の具体的な形式については、分析実行装置が分析を行う部分木が正確に伝わるような方法であれば任意であるが、例えば図8の木構造を仮定するような場合には、分析実行装置が探索するべき部分木のルートノードを分析管理装置から受信すればよい。
【0039】
ステップ1103ではステップ1102の受信の内容をチェックし、もう割り当てる問題が無い旨を受信したならばステップ1107に進む。問題の割り当てがあった場合はステップ1104に進む。
【0040】
ステップ1104の分析実行処理では割り当てられた部分問題に対応する部分木を分析し、評価値の高いN個の候補ルールを発見する。
【0041】
ステップ1105の結果送信処理では、ステップ1104で発見した候補ルールを分析管理装置に送信する。
【0042】
また、このステップ1101からステップ1105を実行している装置では同時に中断受付処理1108が実行されており、入力装置から中止の指示を受信した場合には分析を中断させるフラグを立てる。
【0043】
ステップ1106では、分析中断フラグが立っているかどうかをチェックし、分析中断のフラグが立っているならばステップ1107の分析終了処理に進む。そうでなければステップ1102に戻る。
【0044】
ステップ1107の分析終了処理では、ステップ1101で格納したデータなどの領域を解放し、分析管理装置に分析の実行を中断する信号を送信するなど、分析の後処理を行って、分析実行装置における処理を終了する。
【0045】
本実施例は以下のように変更して実施することも可能である。
【0046】
第1に分析装置追加処理0602では、ステップ0601で信号を受け取った装置のひとつについて、管理テーブルに装置を登録し、分析対象データを送信するのではなく、この時点で分析実行許可の信号を送ってきており、まだ追加処理がなされていない全ての装置を管理テーブルに登録し、これらの全ての装置に対して一回だけデータを送信する。この変更例によって、データを送信する時の時間と通信路のトラフィックを削減することができる。
【0047】
第2に分析終了処理1107において、ステップ1101で受信したデータの情報を解放せずに格納しておき、同じ装置を用いて同じ分析対象データを対象に分析を行う際には再びデータを受信しないよう変更する。これにより、同じ装置を用いて分析の中断、再実行を行う際に、データを受信しなおす手間を省くことができる。
【0048】
第3に中断受付処理1108において、入力装置から中断の指示を受けた場合には分析を中断するフラグを立てるのではなく、直ちに分析終了処理1107に進むように変更する。この場合、結果を出さずに中断された部分問題は、分析管理装置ではまだ分析が終わっていないものとみなされる。これにより、より柔軟に分析の停止ができるようになり、汎用のコンピュータ装置を分析実行マシンとして用いている場合でも他のアプリケーションとの兼ね合いの利便性を提供できるようになる。
【0049】
【発明の効果】
本発明によれば、特徴ルール発見のための分析問題を複数の部分問題に分け、個々の問題を解くごとにそれ以降の分析で用いられる枝刈りのパラメータを更新していくことにより、効率よく枝刈りを行いつつ知識を発見ができるようになる。
【0050】
また本発明によれば、それぞれの分析装置は、条件部で許される条件の組み合わせの最大数をいくつに定めるかによらず、分析対象データ、分析条件および候補ルールを格納するだけのメモリを持っていれば分析が行えるので、分析対象データ自体はそれほど大きく無いが多くの条件の組み合わせを含む特徴ルールを生成したいような場合に、分析実行装置に必要なメモリの量を少なく抑えた上で分析を行うことができるようになる。
【図面の簡単な説明】
【図1】本発明の実施の形態をあらわす構成図である。
【図2】本発明で分析対象とするデータの一例である。
【図3】特徴ルールの一例である。
【図4】特徴ルールの発見のための探索空間を木構造で表した図である。
【図5】分析管理装置が実行するアルゴリズムの全体を示すフローチャートである。
【図6】分析実行装置管理処理の詳細を示すフローチャートである。
【図7】問題割り当て処理の詳細を示すフローチャートである。
【図8】特徴ルールの発見のための探索空間を木構造で表した図である。
【図9】結果登録処理の詳細を示すフローチャートである。
【図10】分析条件更新処理の詳細を示すフローチャートである。
【図11】分析実行装置が実行するアルゴリズムの全体を示すフローチャートである。
【符号の説明】
0102…処理装置、0103…メモリ、0104…プログラム、0105…入出力装置、0106…通信装置、0107…記憶装置、0110…通信路、0111…通信路。
Claims (7)
- 分析管理装置と一台以上の分析実行装置を用いて、分析対象のデータからデータの特徴を記述したルールを発見するデータ分析方法であって、
分析管理装置は、分析に参加する分析実行装置の登録・削除の管理を行う処理と、
分析実行装置に対して、データ分析問題の一部分を割り当てる処理と、
分析実行装置からルールを受け取り、ルールに対して定義される評価値を元に評価の高いルールをリストアップする処理と、
リストアップされたルールの評価値を元に分析処理の一部を省くためのパラメータを更新する処理をそれぞれ有することを特徴とするデータ分析方法。 - 請求項1のデータ分析方法において、
分析管理装置は、少なくとも、分析処理の一部を省くためのパラメータを含むルール発見を行うためのパラメータと、データ分析の処理を行う過程のある時点で評価値の高いルールを保持し、
分析実行装置は、少なくとも、分析の対象となるデータと、分析処理の一部を省くためのパラメータを含むデータ分析の処理を行うためのパラメータと、データ分析の処理を行う過程のある時点で評価値の高いルール保持することを特徴とするデータ分析方法。 - 請求項1乃至2のデータ分析方法において、分析管理装置に分析実行装置を登録する際に、複数の分析実行装置を一度に分析管理装置に登録し、これらの分析装置に一括して分析対象データを送信することを特徴とするデータ分析方法。
- 請求項1乃至2のデータ分析方法において、分析実行装置が分析を中断する際に、分析対象データを保持したままにしておき、該分析対象データに対して再び分析を実行する際に保持しているデータを利用することを特徴とするデータ分析方法。
- 請求項1乃至2のデータ分析方法において、分析実行装置が分析の最中に分析者から分析中断の指示を受けた場合、その部分問題の結果を分析管理装置に送信した後に、分析の実行を中断することを特徴とするデータ分析方法。
- 請求項1乃至2のデータ分析方法において、分析実行装置が分析の最中に分析者から分析中断の指示を受けた場合、部分問題の分析の最中であっても直ちに分析を中断し、分析管理装置はこの部分問題については分析がまだ行われていないものとみなすことを特徴とするデータ分析方法。
- 請求項1乃至6に記載のデータ分析方法を計算機で実行するための計算機プログラムを格納した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003120900A JP2004326480A (ja) | 2003-04-25 | 2003-04-25 | 大量データの分散並列分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003120900A JP2004326480A (ja) | 2003-04-25 | 2003-04-25 | 大量データの分散並列分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004326480A true JP2004326480A (ja) | 2004-11-18 |
Family
ID=33499602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003120900A Pending JP2004326480A (ja) | 2003-04-25 | 2003-04-25 | 大量データの分散並列分析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004326480A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280231A (ja) * | 2006-04-11 | 2007-10-25 | Hitachi Ltd | バリアンス根本原因分析支援システム |
JP2012022558A (ja) * | 2010-07-15 | 2012-02-02 | Hitachi Ltd | 分散計算システム |
CN102693361A (zh) * | 2012-05-07 | 2012-09-26 | 北京航空航天大学 | 一种大数据量的趋势曲线绘制方法 |
WO2013039799A3 (en) * | 2011-09-12 | 2013-05-02 | Microsoft Corporation | Marketplace for timely event data distribution |
JP2013127673A (ja) * | 2011-12-16 | 2013-06-27 | Seiko Epson Corp | 識別装置、及び、識別方法 |
US8595322B2 (en) | 2011-09-12 | 2013-11-26 | Microsoft Corporation | Target subscription for a notification distribution system |
US8694462B2 (en) | 2011-09-12 | 2014-04-08 | Microsoft Corporation | Scale-out system to acquire event data |
US9208476B2 (en) | 2011-09-12 | 2015-12-08 | Microsoft Technology Licensing, Llc | Counting and resetting broadcast system badge counters |
US9830603B2 (en) | 2015-03-20 | 2017-11-28 | Microsoft Technology Licensing, Llc | Digital identity and authorization for machines with replaceable parts |
WO2017217349A1 (ja) * | 2016-06-13 | 2017-12-21 | 日本電気株式会社 | 情報処理システム、分析装置、制御装置、方法および記憶媒体 |
-
2003
- 2003-04-25 JP JP2003120900A patent/JP2004326480A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280231A (ja) * | 2006-04-11 | 2007-10-25 | Hitachi Ltd | バリアンス根本原因分析支援システム |
JP2012022558A (ja) * | 2010-07-15 | 2012-02-02 | Hitachi Ltd | 分散計算システム |
WO2013039799A3 (en) * | 2011-09-12 | 2013-05-02 | Microsoft Corporation | Marketplace for timely event data distribution |
US8595322B2 (en) | 2011-09-12 | 2013-11-26 | Microsoft Corporation | Target subscription for a notification distribution system |
US8694462B2 (en) | 2011-09-12 | 2014-04-08 | Microsoft Corporation | Scale-out system to acquire event data |
US9208476B2 (en) | 2011-09-12 | 2015-12-08 | Microsoft Technology Licensing, Llc | Counting and resetting broadcast system badge counters |
JP2013127673A (ja) * | 2011-12-16 | 2013-06-27 | Seiko Epson Corp | 識別装置、及び、識別方法 |
CN102693361A (zh) * | 2012-05-07 | 2012-09-26 | 北京航空航天大学 | 一种大数据量的趋势曲线绘制方法 |
US9830603B2 (en) | 2015-03-20 | 2017-11-28 | Microsoft Technology Licensing, Llc | Digital identity and authorization for machines with replaceable parts |
WO2017217349A1 (ja) * | 2016-06-13 | 2017-12-21 | 日本電気株式会社 | 情報処理システム、分析装置、制御装置、方法および記憶媒体 |
JPWO2017217349A1 (ja) * | 2016-06-13 | 2019-04-11 | 日本電気株式会社 | 情報処理システム、分析装置、制御装置、方法およびプログラム |
US11243865B2 (en) | 2016-06-13 | 2022-02-08 | Nec Corporation | Information processing system, method, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12073298B2 (en) | Machine learning service | |
US10713589B1 (en) | Consistent sort-based record-level shuffling of machine learning data | |
US9778967B2 (en) | Sophisticated run-time system for graph processing | |
US10366053B1 (en) | Consistent randomized record-level splitting of machine learning data | |
US11775501B2 (en) | Trace and span sampling and analysis for instrumented software | |
US9304835B1 (en) | Optimized system for analytics (graphs and sparse matrices) operations | |
US8140514B2 (en) | Automatic classification of defects | |
US7721288B2 (en) | Organizing transmission of repository data | |
US11204707B2 (en) | Scalable binning for big data deduplication | |
US10127283B2 (en) | Projecting effect of in-flight streamed data on a relational database | |
CN113015970A (zh) | 划分知识图 | |
US20150222731A1 (en) | Computer, guide information providing method and recording medium | |
KR101355273B1 (ko) | 컴퓨팅 시스템 및 그 실행 제어 방법과, 그 실행 제어 프로그램을 기록한 기록 매체 | |
US20230289376A1 (en) | Data processing systems and methods for automatically redacting unstructured data from a data subject access request | |
US20240045862A1 (en) | System and method for efficient processing and managing of reports data and metrics | |
JP2004326480A (ja) | 大量データの分散並列分析方法 | |
US10534762B2 (en) | Data sampling in a storage system | |
US10261998B2 (en) | Search apparatus and search method | |
CN114626366A (zh) | 数据词汇表的维护 | |
US11157506B2 (en) | Multiform persistence abstraction | |
US10853217B2 (en) | Performance engineering platform using probes and searchable tags | |
CN112860652A (zh) | 作业状态预测方法、装置和电子设备 | |
US8001100B2 (en) | Leveraging multilevel hierarchical associations to find cross-boundary issues | |
JP2021033695A (ja) | 計算機システム及び業務の支援方法 | |
US11165875B2 (en) | Method and system for a discovery engine |