JPH113360A - 大規模データ分析方法 - Google Patents

大規模データ分析方法

Info

Publication number
JPH113360A
JPH113360A JP15333397A JP15333397A JPH113360A JP H113360 A JPH113360 A JP H113360A JP 15333397 A JP15333397 A JP 15333397A JP 15333397 A JP15333397 A JP 15333397A JP H113360 A JPH113360 A JP H113360A
Authority
JP
Japan
Prior art keywords
counter
record
data
calculation
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP15333397A
Other languages
English (en)
Other versions
JP4038255B2 (ja
Inventor
Toyohisa Morita
豊久 森田
Akira Maeda
章 前田
Yukiyasu Ito
幸康 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP15333397A priority Critical patent/JP4038255B2/ja
Publication of JPH113360A publication Critical patent/JPH113360A/ja
Application granted granted Critical
Publication of JP4038255B2 publication Critical patent/JP4038255B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】複数回レコードを読むことによって回数を計数
し記憶するので、処理の途中で止めても、参照したレコ
ードに対応する結果がすべては得られない。 【解決手段】カウンタ103にすべての生起条件に対応
する計数カウンタを置き、レコードの読み込みごとにカ
ウンタを更新し、最新レコードID記憶装置106の最
新レコードIDを更新する。

Description

【発明の詳細な説明】
【発明の属する技術分野】本発明は、データ(特に大規
模な)の解析を行う技術分野に属する。その中でも特
に、データにおける因果関係やデータ中の規則性を求め
るデータマイニングの技術分野に属する。
【従来の技術】大規模なデータをもとに、そこから因果
関係や規則性を求めたりする場合に、データマイニング
と呼ばれる手法がある。この手法として、例えば、Rake
sh Agrawal, Ramakrishnan Srikant,"Fast Algorit
hms for Mining AssociationRules",Proceedings o
f the 20th VLDB Conference Santiago, Chile(1
994)(従来技術1)がある。ここでは、最大k個までの
条件の組合せの同時生起を求めるために、まず、すべて
の条件について、それが生起する回数を全レコードを参
照して求め、さらに、そこで回数が予め定めた閾値より
大きかった条件の中から2個が同時に生起する回数を全
レコードを参照して求める、ということをk個の条件数
まで行なう。これにより、全レコードに占める回数の割
合が一定値以上であるk個までの条件の組合せを得るこ
とができる。
【発明が解決しようとする課題】上記従来技術1には以
下のような課題がある。従来技術1にあるように、この
手法は最大k条件の同時生起を考慮するのに、k回にわ
たって全レコードを読む必要がある。このため、第1
に、計算の途中で止めてみても、少ない条件数の結果が
得られるだけであり、例えば100個のデータに関する
計算を全体の計算時間の半分で止めても、50個分の完
全な答えが得られるわけではない。計算を途中で止めた
場合に、参照したレコード数に対応した完全な結果が欲
しい場合があるが、これは、そのような要求には応えら
れない。第2に、閾値以上の条件の種類自体がレコード
集合に対応しているので、レコードが追加されたり削除
されたりした場合には、追加・削除分だけの再計算では
済まず、もう一度すべてのレコードを読み直した上で、
閾値以上の条件の種類を見つける必要がある。つまりレ
コードが次々と更新されるような状況には対応できな
い。第3に、全レコードを読んで回数を求めるところを
並列化しようとすれば、配分が適切ではない場合、計算
終了時刻がそれぞれのプロセッサで異なることが起こり
得、待ち状態となるプロセッサが生じ、時間と計算資源
の無駄となる。第4に、回数の閾値は、条件を確定する
ために使われるため、計算が始まった後に変更ができな
い。閾値をより低く設定変更するときには、計算を全く
最初からやり直す必要が生じる。したがって、本発明の
第1の目的は、計算を途中で止めることができるように
することと、その際に、参照したレコード数に対応した
完全な出力結果を得られるようにすることである。ま
た、本発明の第2の目的は、レコードが次々と更新され
るようなときに、すべての計算をやり直さなくても、更
新されたデータの分だけ処理すれば、正確な結果が得ら
れるようにすることである。また、本発明の第3の目的
は、並列処理を行なう際に、適切なレコード配分を行な
うようにすることである。また、本発明の第4の目的
は、データマイニング処理に関わる閾値等のパラメータ
を変更しても、それが、レコードの読み直しの必要を生
じさせないようにすることである。
【課題を解決するための手段】本発明は、条件に対応す
る回数を算出するカウンタを持ち、レコードを1度読む
ことで対応するカウンタをすべて更新できるようにし
た。既に参照したレコードは、参照後は利用しないで済
むようにした。また、計算を途中でやめるように指示を
入力する手段を持ってもよい。また、どこまで計算して
止めたかわかるように、止めたレコードの位置がわかる
ようにしてもよい。また、本発明は、レコードが追加・
削除されたときに、対応するカウンタの値のみを更新す
る手段を提供してもよい。また、次々と入力されるレコ
ードに対して、最新のレコードから何個前から何個前ま
でを計算対象とするかを指定する手段を持ち、上述のカ
ウンタの値を更新する手段を用いて、計算対象のレコー
ドのみがカウントされている出力結果を常に得られるよ
うにしてもよい。また、上述の計算対象の区間を動的に
変化させられるようにしてもよい。また、本発明は、並
列処理を行なう際に、それぞれのプロセッサの処理能力
を表す数値から終了時刻が同時になるようにレコード数
を配分してもよい。また、早く終了したプロセッサが他
のプロセッサの担当のレコードを通信によって獲得し、
処理を肩代りすることによって全体の終了時刻を早めて
もよい。また、並列処理に関与するプロセッサと、それ
ぞれのプロセッサの処理能力と残りレコード数を管理す
るサーバを置くことによって、途中でプロセッサが増え
たときにも同時に計算が終了するようにしてもよい。ま
た、あるプロセッサが自らが算出したカウンタの値を、
足算をするサーバに送信し、残りのレコードを他のプロ
セッサに配分することによって処理を終了し、並列処理
から脱退することを可能にしてもよい。また、本発明
は、カウンタの値を用いた計算は、すべての回数の集計
を終了した後に行なうようにしてもよい。
【発明の実施の形態】以下、本発明の実施の形態の一例
を詳細に説明する。図1に本発明の実施の形態の構成図
を示す。本発明では、入力装置100、レコード入力装
置101、カウンタ初期化装置102、カウンタ10
3、カウンタ選択装置104、カウンタ更新装置10
5、更新レコードID記憶装置106、終了指示入力装
置107、終了指示判定装置108、出力装置109
が、バス110を介して相互接続されている。また、レ
コード入力装置101は、通信線112を介してレコー
ドデータ記憶装置111と接続されている。以下、図2
に示すフローチャートを利用して、本発明の実施の形態
の一例を詳細に説明する。ステップ201では、レコー
ド入力装置のレコード読み出し位置を初期化する。これ
により、次にどのレコードをレコードデータ記憶装置1
11から読み出せばよいかが決まる。ここでは、データ
の先頭レコードを指す。ここで、レコードは、図3に示
すような形式で表される。ステップ202では、カウン
タの初期化を行なう。カウンタ初期化装置102がカウ
ンタ103を初期化する。ここでは、必要なカウンタを
生成し、すべてのカウンタの内容を0にする。カウンタ
の例を図4に示す。ステップ203では、レコード入力
装置101が通信線112を介してレコードデータ記憶
装置111からレコードを1つ入力する。ステップ20
4では、すべてのカウンタの中から、条件が該当するカ
ウンタをカウントアップする。カウンタ選択装置104
がカウンタ103の中から適切なカウンタを選択し、そ
のカウンタに対して、カウンタ更新装置105がカウン
タの値を更新する。この場合は1増やす。ステップ20
5では、最新レコードID記憶装置にある最新レコード
IDを現在の最新の値に更新する。レコードIDとして
は、タイムスタンプが実施可能である。ステップ206
では、終了指示判定装置108が、終了指示入力装置1
07からの終了指示があるかどうかを判定し、指示があ
る場合には、ステップ208に移り、指示がない場合に
は、ステップ207に移る。図5に、終了指示入力装置
107の例を示す。ステップ207では、全レコードが
読み出されたかどうかをチェックし、読まれたときに
は、ステップ208に移り、まだ残りがある場合にはス
テップ203に移る。ステップ208では、結果を出力
する。ここでは、上位N個のカウンタの条件部とそのカ
ウンタの値と、最新レコードIDを出力する。ここで、
Nの値は予め定めておく。この実施の形態によれば、計
算を途中で止めることができ、さらに、その時点でのす
べての条件数における上位の条件が出力できる。また、
最新レコードIDのタイムスタンプを参照することで、
結果が現在でも最新のものか、であるとか、どのくらい
新しいまたは古いものかということを知ることができ
る。また、この実施の形態は以下のように変更して実施
することも可能である。第1に、ステップ203におけ
るレコードの読み込みは1レコードずつでなく、予め定
められた複数のレコードずつであってもよい。そのとき
には、ステップ204のカウントアップは複数のレコー
ドに対して行ない、ステップ205においては最新のレ
コードIDに更新するようにする。これにより、レコー
ドデータ記憶装置111から通信線112を介してレコ
ード入力装置101にレコードを入力する際の効率の調
整が行なえ、より速い処理が可能となる。第2に、ステ
ップ205における最新レコードIDは、タイムスタン
プではなく、レコードを一意に表すレコードIDでもよ
い。第3に、ステップ205における最新レコードID
は、単に、処理したレコードに通算でつけられた数でも
よい。この場合は、ステップ205での処理は、カウン
タを1増やす、という処理と等価になる。第4に、この
一連の処理は、初期値をカウンタ0から始めなくてもよ
い。すなわち、何度か過去に行なった途中結果を継続す
るような処理として実施することも可能である。ステッ
プ208における結果の出力では、最新レコードIDに
加えて、全条件のカウンタの値も出力する。この結果を
元に、ステップ101では、次のレコードを読みに行く
ように読み出し位置を設定し、ステップ102では、カ
ウンタを過去の結果に初期化する。これにより、途中で
終了した結果を用いて、それを継続することができる。
これは、時間を適当に区切って、そこまでの結果を出力
し、さらに、必要に応じてより多くのレコードを参照し
てその処理を継続する、ということを可能にする。第5
に、これまでの実施例は同時生起であったが、これを、
ある特徴を満たすときに特徴的な条件を見つける、とい
うように変更することも可能である。カウンタの構造を
図6にあるように、すべての条件に対して、その条件が
満たされていたときに、結論が満たされていた場合のカ
ウンタと、結論が満たされていなかった場合のカウンタ
の2種類を設ける。ステップ202のカウンタの初期化
では、このようなカウンタを生成し、初期化する。ま
た、ステップ204では、対応するカウンタについて、
結論が満たされている場合には「結論○」の方のカウン
タを増やし、結論が満たされていない場合には「結論
×」の方のカウンタを増やす。また、ステップ208で
は、単にカウンタの大きいものをとってくるだけではな
く、数1に示す式を用いて、その値が大きいものを出力
する。
【数1】 以上によれば、ある特殊な条件を満たすときに特徴的な
条件が得られる。これは、その特殊な条件の起こる確率
が少なくても抽出できる。また、その特殊な条件の起こ
る確率に関わらず、その特殊な条件と同時に生起する条
件を定量的に抽出できる。第6に、ステップ208での
上位N個のNは予め定めておかず、ステップ208にお
いて対話的に入力して、結果を出力するように変更でき
る。そのために、入力装置100から対話的にNを入力
して、それに対して出力を行なうようにすればよい。そ
のときに、必要なだけその処理を繰り返すこともでき
る。このようにすれば、パラメータを替えた解析結果を
レコードの読み直しなしに実現できる。第7に、第4の
変更例において再開するときに、得られた最新レコード
IDのタイムスタンプによって、現在の最新のデータベ
ースとの差分データがジャーナルによってわかるので、
それを利用してデータを元に戻してデータマイニングを
再開することも実施可能である。次に、本発明の第2の
実施の形態について詳細に説明する。図7に本発明の実
施の形態の構成図を示す。本実施の形態では、入力装置
700、レコード入力装置701、カウンタ初期化装置
702、カウンタ703、カウンタ選択装置704、カ
ウンタ更新装置705、区間変更装置706、区間デー
タ記憶装置707、終了指示入力装置708、終了指示
判定装置709、出力装置710がバス711を介して
相互接続されている。また、オンライン処理システム7
15がネットワーク716に接続されている。また、オ
ンラインデータ記憶装置712が通信線A713を介し
てレコード入力装置701に接続されており、さらに、
通信線B714を介してネットワーク716に接続され
ている。オンライン処理システム715はデータをオン
ラインに処理し、その結果をオンラインデータ記憶装置
712に記憶する。バス711及びそれにつながる装置
はオンラインデータ記憶装置712のデータをレコード
入力装置701を介してのみ利用できるようにしてあ
る。以下、図8に示すフローチャートを利用して、本発
明の実施の形態の一例を詳細に説明する。ステップ80
1では、レコード入力装置のレコード読み出し位置を初
期化する。これにより、次にどのレコードをレコードデ
ータ記憶装置712から読み出せばよいかが決まる。こ
こでは、データの先頭レコードを指す。ステップ802
では、カウンタの初期化を行なう。カウンタ初期化装置
702がカウンタ703を初期化する。ここでは、必要
なカウンタを生成し、すべてのカウンタの内容を0にす
る。ステップ803では、レコード入力装置701が通
信線A713を介してオンラインデータ記憶装置712
からレコードを入力する。ここで、入力されるレコード
は、区間データ記憶装置707に記憶された区間内にあ
って、かつ、まだ入力されていないレコードすべてであ
る。図9に示すように、時間軸において、区間データと
いうものが定義される。これはデータマイニングに利用
されるデータの時間区間を定義するものである。その区
間の現在に遠い方の端点を端点Aとし、現在に近い方の
端点を端点Bとすると、入力すべきデータは、レコード
読み出し位置から端点Bまでの間のデータである。レコ
ード読み出し位置が区間内にないときは入力を見送る。
ステップ804では、すべてのカウンタの中から、必要
なカウンタを更新する。カウンタ選択装置704がカウ
ンタ703の中から適切なカウンタを選択し、そのカウ
ンタに対して、カウンタ更新装置705がカウンタの値
を更新する。ここでは、古いデータを捨て、新しいデー
タを取り込む処理を行なう。図10に示すように、1回
前の端点A、端点Bを保存しておき、それぞれ、ここで
は、端点A’、端点B’と呼ぶことにすると、端点A’
から端点Aまでの間のデータが古くなり捨てられるデー
タであり、端点B’から端点Bまでの間のデータが新し
く採用されたデータとなる。参考までに、端点B’の1
個現在側のデータが読み出し位置となっていたデータで
ある。前者の古いデータに対しては、対応するデータを
再び読み出し、対応する条件のカウンタを選択してこれ
を1減らし、後者の新しいデータに対しては、対応する
条件のカウンタを選択してこれを1増やす処理を行な
う。また、次の処理のために、端点Aを端点A’とし
て、また、端点Bを端点B’として区間データ記憶装置
707に保存する。ステップ805では、区間変更装置
706から区間変更の指示があったかどうかを判定し、
区間変更の指示があった場合は、ステップ806に進
み、区間変更の指示がなかった場合は、ステップ807
に進む。区間変更の指示は、区間変更装置706で行な
う。ステップ806では、区間変更を行なう。区間変更
の内容は、区間変更装置において図11にあるように画
面上の区間の位置をマウス等の入力装置で変更すること
によって指示する。これにより、端点Aと端点Bを変更
して区間データ記憶装置707に記憶する。ステップ8
07では、今まで読み込んだデータにおけるデータマイ
ニングの結果を出力する。結果は、予め上位N個のカウ
ンタを出力する、というように指定しておく。カウンタ
の条件部とカウンタの値を出力する。ステップ808で
は、終了指示が終了指示入力装置708から入力された
かどうかを終了指示判定装置709で判定して、終了が
指示されているときには、ステップ809に移り、指示
されていないときには、ステップ803に移る。終了指
示入力装置708は図12のように、実現できる。ステ
ップ809では、結果を出力する。ここでは、区間デー
タ記憶装置707の区間データと、カウンタ703のカ
ウンタの値を出力する。この実施の形態によれば、デー
タを次々と追加・削除しながら、ある定められた時間区
間のデータを対象にデータマイニングを実行することが
できる。また、データマイニングの結果を逐次に得るこ
とができる。また、時間区間自体を動的に変更できる。
また、動的な時間区間の変更を利用すれば、カウンタの
内容が全くの0の状態から定常状態までのスタートアッ
プを全く同じこのアルゴリズムで実現できる。また、こ
の実施の形態は以下のように変更して実施することも可
能である。第1に、この一連の処理は、初期値をカウン
タ0から始めなくてもよい。すなわち、何度か過去に行
なった途中結果を継続するような処理として実施するこ
とも可能である。ステップ809における結果の出力で
は、カウンタの値と区間データを出力しているので、過
去の実行結果のこの出力から初期値をステップ801及
びステップ802で設定して再開することが可能であ
る。これにより、オンラインのデータマイニングの途中
での実行停止とその再開が可能となる。第2に、これま
での実施例は単なる同時生起であったが、これを、ある
特徴を満たすときに特徴的な条件を見つける、というよ
うに変更することも可能である。カウンタの構造を図6
にあるように、すべての条件に対して、その条件が満た
されていたときに、結論が満たされていた場合のカウン
タと、結論が満たされていなかった場合のカウンタの2
種類を設ける。ステップ802のカウンタの初期化で
は、このようなカウンタを生成し、初期化する。また、
ステップ804では、対応するカウンタについて、結論
が満たされている場合には「結論○」の方のカウンタを
更新し、結論が満たされていない場合には「結論×」の
方のカウンタを更新する。また、ステップ807では、
単にカウンタの大きいものをとってくるだけではなく、
数1に示す式を用いて、その値が大きいものを出力す
る。以上によれば、ある特殊な条件を満たすときに特徴
的な条件が得られる。これは、その特殊な条件の起こる
確率が少なくても抽出できる。また、その特殊な条件の
起こる確率に関わらず、その特殊な条件と同時に生起す
る条件を定量的に抽出できる。第3に、ステップ807
での上位N個のNは予め定めておかず、ステップ807
において対話的に入力して、結果を出力するように変更
できる。そのために、入力装置700から対話的にNを
入力して、それに対して出力を行なうようにすればよ
い。そのときに、必要なだけその処理を繰り返すことも
できる。このようにすれば、パラメータを替えた解析結
果をレコードの読み直しなしに実現できる。第4に、ス
テップ807の結果の出力において、上位N個のカウン
タの条件部とカウントの値を出力するだけではなく、そ
れに加えて、任意の条件に対して、ヒストグラムを出力
し、それに、古いデータで捨てられたデータの度数、新
しく入ったデータの度数、それらの差し引きのデータの
度数がヒストグラムの形で重畳表示されるようにするこ
ともできる。図13にそれを例示する。図中の横軸の変
数は入力装置700によって変更が可能である。次に、
本発明の第3の実施の形態について詳細に説明する。図
14に本発明の実施の形態の構成図を示す。ネットワー
ク1401に、管理サーバA1402、計算サーバB1
404、計算サーバC1406、計算サーバD1408
が接続されている。また、管理サーバA1402には、
レコードデータ記憶装置A1403が接続されており、
計算サーバB1404には、レコードデータ記憶装置B
1405が接続されており、計算サーバC1406に
は、レコードデータ記憶装置C1407が接続されてお
り、計算サーバD1408には、レコードデータ記憶装
置D1409が接続されている。実際には、計算サーバ
とレコードデータ記憶装置の組は2個以上であればいく
つでも実施可能である。次に、管理サーバAでのアルゴ
リズムの流れをフローチャートで図15に示す。ステッ
プ1501では、管理サーバAが計算サーバを決定す
る。図14の例では、計算サーバは、計算サーバB14
04、計算サーバC1406、計算サーバD1408の
3つである。ステップ1502では、管理サーバAが、
それぞれの計算サーバから、計算サーバの処理能力をネ
ットワーク1401を介した通信によって取得する。計
算サーバの処理能力は、単位時間あたりの処理レコード
数で表される。ステップ1503では、管理サーバA
が、それぞれの計算サーバに対してレコードデータを配
分する。配分は、レコード数が処理能力に比例するよう
にする。元々は管理サーバAに接続されているレコード
データ記憶装置Aに記憶されていたレコードをこの数に
したがって、それぞれの計算サーバに送り、それぞれの
計算サーバは自分に接続されているレコードデータ記憶
装置にそのレコードを保存する。管理サーバA1402
が保持している計算サーバに関するデータを図16に示
す。図16のように、計算サーバの一覧と、それぞれに
ついて、処理能力が数値で表されており、初期状態で
は、残りレコード数の値は、最初に送信したレコード数
となっている。この表形式で管理サーバAは計算サーバ
の情報を記憶する。ステップ1504では、計算サーバ
から計算終了通知が来ているかどうかを判定する。来て
いる場合には、ステップ1505に移り、来ていない場
合には、ステップ1506に移る。ステップ1505で
は、すべての計算サーバから計算終了通知が来ているか
どうかを判定する。すべての計算サーバから計算終了通
知が来ている場合にはステップ1509に移り、少なく
とも一つでも計算終了通知が来ていない計算サーバがあ
るときにはステップ1508に移る。ステップ1506
では、計算サーバの追加・削除通知が来ているかどうか
判定する。来ている場合には、ステップ1507に移
り、来ていない場合には、ステップ1504に移る。ス
テップ1507では、計算サーバの追加・削除処理を行
なう。計算サーバの追加については、図16で示した計
算サーバの表を垂直方向に増やす処理を行なう。計算サ
ーバ名には、計算サーバの名前を入れ、処理能力を入
れ、残りレコード数は0とする。計算サーバの削除につ
いては、残りレコードを任意の計算サーバに送信し、自
計算サーバのカウンタの内容をすべて管理サーバAに送
信し、図16で示す表の該当するサーバの欄を削除す
る。カウンタには図4に示すように、全ての条件に対応
するレコードデータの回数が記されている。ステップ1
508では、レコードデータの再配分を行なう。図16
に示す表において、残りレコード数をすべての計算サー
バから通信によって取得し、最新の値に更新する。残り
レコード数の合計を計算し、それを処理能力に比例配分
した値を計算し、その値が残りレコード数より少ない場
合は、その分だけ、多いところにレコードデータを送信
し、その分の自らのレコードを削除する。逆に、その値
が残りレコード数より多い場合は、その分だけ、他から
レコードデータを取得し、自らのレコードに追加する。
図16に示す表は最新の値に更新する。ステップ150
9では、図16の表に示してある計算サーバすべてから
カウンタの内容を取得し、合計する。ステップ1510
では、カウンタの合計で上位N個の条件部とカウンタの
値を出力する。Nの値は予め定めておく。次に、それぞ
れの計算サーバでのアルゴリズムの流れをフローチャー
トで図17に示す。ステップ1701では、ステップ1
503で管理サーバAが送信したレコードを受信する。
受信したレコードは自らに接続されているレコードデー
タ記憶装置に記憶する。ステップ1702では、レコー
ドをレコードデータ記憶装置から計算サーバに入力す
る。ステップ1703では、対応する条件のカウンタの
値を更新する。カウンタは、図4のように、条件部に対
してその回数を記録できるようになっている。予めすべ
ての条件部のカウンタを用意しておく。ステップ170
4では、レコードデータ記憶装置のレコードをすべて参
照したかどうか判定する。すべて参照した場合には、ス
テップ1705に移り、残りがある場合にはステップ1
702に移る。ステップ1705では、計算終了通知を
管理サーバAに送信する。ステップ1504では、ここ
で送信された計算終了通知を取得することになる。ステ
ップ1706では、レコード受信が起こったかどうかを
判定する。これは、ステップ1507、ステップ150
8の後で、他の計算サーバからレコードが送信されてく
る場合に、レコード受信が生ずることとなる。レコード
受信が起こった場合には、ステップ1702に戻り、起
こらなかった場合にはステップ1707に移る。ステッ
プ1707ではカウンタの内容を管理サーバAに送信す
る。以上の実施の形態によれば、終了時刻が同時になる
ようにレコードをやりとりできる。また、先に計算が終
了した計算サーバが他のまだ終わっていない計算サーバ
のレコードデータを取得して計算を肩代りすることで、
全体の終了時刻を早めることができる。また、途中で計
算サーバの追加・削除が動的にできる。以上の実施の形
態は次のように変更して実施することも可能である。第
1に、この一連の処理は、初期値をカウンタ0から始め
なくてもよい。すなわち、何度か過去に行なった途中結
果を継続するような処理として実施することも可能であ
る。ステップ1510における結果の出力で、カウンタ
の値すべてを出力しているので、過去の実行結果のこの
出力から管理サーバAのカウンタの初期値を設定してお
けば、新たなデータを追加してカウンタの計算を継続す
ることが可能である。これにより、データマイニングの
途中での実行停止とその再開が可能となる。第2に、こ
れまでの実施例は同時生起であったが、これを、ある特
徴を満たすときに特徴的な条件を見つける、というよう
に変更することも可能である。カウンタの構造を図6に
あるように、すべての条件に対して、その条件が満たさ
れていたときに、結論が満たされていた場合のカウンタ
と、結論が満たされていなかった場合のカウンタの2種
類を設ける。管理サーバAとすべての計算サーバでは、
カウンタはこのような形式で持つようにする。また、ス
テップ1703では、対応するカウンタについて、結論
が満たされている場合には「結論○」の方のカウンタを
更新し、結論が満たされていない場合には「結論×」の
方のカウンタを更新する。また、ステップ1510で
は、単にカウンタの大きいものをとってくるだけではな
く、数1に示す式を用いて、その値が大きいものを出力
する。以上によれば、ある特殊な条件を満たすときに特
徴的な条件が得られる。これは、その特殊な条件の起こ
る確率が少なくても抽出できる。また、その特殊な条件
の起こる確率に関わらず、その特殊な条件と同時に生起
する条件を定量的に抽出できる。第3に、ステップ15
10での上位N個のNは予め定めておかず、ステップ1
510において対話的に入力して、結果を出力するよう
に変更できる。このようにすれば、パラメータを替えた
解析結果をレコードの読み直しなしに実現できる。第4
に、ステップ1508において管理サーバAはすべての
計算サーバから残りレコード数のみを取得するだけでは
なく、最近の処理能力の値も取得する。これにより、処
理能力が時間とともに変化するような場合にでも適切な
レコードの配分が行なえ、より早い計算の終了が期待で
きる。以上述べた3つの実施の形態のすべてに共通する
実施の変更例について述べる。第1に、図3に示したよ
うなテーブル形式のデータではなく、図18で示すよう
なトランザクションデータが入力される場合にも対応が
可能である。前者が、集計データであるのに対して、後
者は、何らかのイベントに対応した情報だけが記述され
ている。図18で示す例は、スーパのレジなどで用いら
れるPOSにおいて、一人の客が買った商品が顧客ID
とともに記されている。商品の組合せを問題にするとき
に、顧客IDとすべての商品の組合せについての条件の
組合せをカウンタとして生成しておく。そのカウンタの
例を図19に示す。このようにすれば、テーブル形式の
データを持たなくても、トランザクションデータから直
接に、対応するカウンタの更新を行なえば、前述の3つ
の実施の形態をそのまま実施できる。第2に、上述の3
つの実施の形態はレコードを1パスで読んで処理するよ
うな手法であったが、一度1パスで処理を終了し、その
後に、条件を変えてさらに1パスの処理を繰り返すこと
により、得られる結果を詳細化することができる。その
処理を図20で説明する。ステップ2001にある処理
Aは、これまで説明してきた3つの実施の形態での処理
が入る。すなわち、レコードが与えられて、一連のデー
タマイニング処理をして結果が出力されるまでを表す。
ステップ2002では、これで処理を終了するかどうか
を判定し、終了するときはこれで処理を終了し、そうで
ないときにはステップ2003に移る。ステップ200
3では、条件の変更を行ない、ステップ2001に移
る。ここで条件の変更について説明する。処理Aが1度
終わると、有意な条件がいくつか出力される。この有意
な条件に限って、カテゴリ化の閾値を変更してより詳細
な条件を求める。ここでカテゴリ化とは、例えば、年齢
を10代、20代、30代というような離散的なカテゴ
リに分ける処理のことである。また、カテゴリ化の閾値
を変更してより詳細な条件を求めるとは、例えば最初の
処理Aで、20代という年齢が条件として有意になった
とき、2回目では、これを20代前半と20代後半に分
けるようなことが考えられる。このようにすれば、何度
か処理Aを繰り返すことにより、より詳細な結果出力が
期待できる。また、上述の実施の形態を次のように変更
もできる。条件の変更の際に、有意な条件を満たすレコ
ードのみをピックアップし、レコードの全体集合自体を
小さくする。そして小さくなったレコード集合に対し
て、処理Aを繰り返すことにすると、まったく同じ結果
をより高速に得ることができる。第3に、上記で説明し
たすべての方法をコンピュータで読み取り可能なプログ
ラムに格納し、記憶した媒体とすることもできる。第4
に、上記で説明したすべての方法をコンピュータで読み
取り可能なプログラムに格納し、ネットワークを通じて
配布するシステムも実施可能である。
【発明の効果】以上述べたように、本発明によれば、デ
ータマイニングの計算を途中で止めることができる。ま
た、その際に、参照したレコード数に対応した完全な出
力結果が得られる。また、一度止めた計算を再開するこ
とができる。また、タイムスタンプを参照することで、
結果が新しいものかどうか、また、どれくらい新しいも
のかを知ることができる。また、本発明によれば、レコ
ードが次々と更新されるようなときに、すべての計算を
やり直さなくても、更新されたデータの分だけ処理すれ
ば、正確な結果が得られる。またデータマイニングの結
果を逐次に得ることができる。また、対象となっている
レコードの対象区間を計算の途中で動的に変更できる。
また、本発明によれば、並列処理を行なう際に、適切な
レコード配分を行うことで、全体の計算が早く終わる。
また、並列処理するプロセッサの計算の途中での追加や
削除が可能となる。また、本発明によれば、計算に関わ
るパラメータを、レコードの読み直しなしに変更でき
る。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成図である。
【図2】本発明の第1の実施の形態のフローチャートで
ある。
【図3】レコード形式の例を示す図である。
【図4】カウンタの第1の例を示す図である。
【図5】終了指示入力装置の表示例である。
【図6】カウンタの第2の例を示す図である。
【図7】本発明の第2の実施の形態の構成図である。
【図8】本発明の第2の実施の形態のフローチャートで
ある。
【図9】区間データを示す図である。
【図10】区間データの更新を示す図である。
【図11】区間変更装置の例を示す図である。
【図12】終了指示入力装置の例を示す図である。
【図13】差分データの重畳表示の例を示す図である。
【図14】本発明の第3の実施の形態の構成図である。
【図15】管理サーバAのフローチャートである。
【図16】計算サーバの表を例示する図である。
【図17】計算サーバのフローチャートである。
【図18】トランザクションデータの例を示す図であ
る。
【図19】カウンタの例を示す図である。
【図20】詳細化処理のフローチャートである。
【符号の説明】
100…入力装置、101…レコード入力装置、102
…カウンタ初期化装置、103……カウンタ、104…
カウンタ選択装置、105…カウンタ更新装置、106
…最新レコードID記憶装置、107…終了指示入力装
置、108…終了指示判定装置、109…出力装置、1
10…バス、111…レコードデータ記憶装置、112
…通信線

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】複数の属性の値を記述したレコードを複数
    集めたデータから、属性の組合せの生起回数を求める方
    法であって、 レコードを入力し、生起回数をカウンタに格納し、前記
    カウンタを初期化し、前記カウンタを更新し、最後に参
    照したレコードのIDを記憶し、処理終了の指示を入力
    し、結果を出力することを特徴とするデータ分析方法。
  2. 【請求項2】複数の属性の値を記述したレコードを複数
    集めたデータから、属性の組合せの生起回数を求める装
    置であって、 レコードを入力する手段と、生起回数を格納するカウン
    タと、前記カウンタを初期化する手段と、カウンタを更
    新する手段と、最後に参照したレコードのIDを記憶す
    る手段と、処理終了の指示を入力する手段と、結果を出
    力する手段とを持つことを特徴とするデータ分析装置。
JP15333397A 1997-06-11 1997-06-11 大規模データ分析方法 Expired - Fee Related JP4038255B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15333397A JP4038255B2 (ja) 1997-06-11 1997-06-11 大規模データ分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15333397A JP4038255B2 (ja) 1997-06-11 1997-06-11 大規模データ分析方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004174923A Division JP3952043B2 (ja) 2004-06-14 2004-06-14 分析装置

Publications (2)

Publication Number Publication Date
JPH113360A true JPH113360A (ja) 1999-01-06
JP4038255B2 JP4038255B2 (ja) 2008-01-23

Family

ID=15560201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15333397A Expired - Fee Related JP4038255B2 (ja) 1997-06-11 1997-06-11 大規模データ分析方法

Country Status (1)

Country Link
JP (1) JP4038255B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000288877A (ja) * 1999-04-05 2000-10-17 Toshiba Corp データ間の因果関係導出システム及びデータベースに於ける因果関係導出方法
JP2000293537A (ja) * 1999-04-09 2000-10-20 Hitachi Ltd データ分析支援方法および装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000288877A (ja) * 1999-04-05 2000-10-17 Toshiba Corp データ間の因果関係導出システム及びデータベースに於ける因果関係導出方法
JP2000293537A (ja) * 1999-04-09 2000-10-20 Hitachi Ltd データ分析支援方法および装置

Also Published As

Publication number Publication date
JP4038255B2 (ja) 2008-01-23

Similar Documents

Publication Publication Date Title
CN111339071B (zh) 一种多源异构数据的处理方法及装置
CN104731690B (zh) 适应性度量收集、存储、和警告阈值
CN105354315B (zh) 分布式数据库中子表分裂的方法、子表节点和系统
CN111932342B (zh) 基于Apriori算法的用户冷启动产品推荐方法及系统
CN115022153B (zh) 故障根因分析方法、装置、设备和存储介质
CN111090686A (zh) 数据处理方法、装置、服务器和存储介质
CN113656407A (zh) 一种数据拓扑生成方法、装置、电子设备及存储介质
CN114282011B (zh) 知识图谱的构建方法和装置、图计算方法及装置
CN108363787A (zh) 一种ifc文件并行存储方法、装置及系统
CN114385437A (zh) 数据质量分析系统及方法
CN111159515B (zh) 数据处理方法、装置及电子设备
JPH113360A (ja) 大規模データ分析方法
CN115203192B (zh) 一种基于可视化数据的清洗方法、装置及相关组件
US20060004807A1 (en) Performing recursive database operations
JP3952043B2 (ja) 分析装置
CN113434607A (zh) 基于图数据的行为分析方法、装置、电子设备和存储介质
CN113590277A (zh) 任务状态切换方法、装置和电子系统
CN115858759B (zh) 一种基于医学知识图谱的智能查询算法及管理系统
CN108920676A (zh) 一种处理图数据的方法及系统
JP2919240B2 (ja) 入出力優先順位制御方式
CN113220945B (zh) 一种用于数据血缘的字段检索和路径展示的方法及系统
CN111277445B (zh) 一种评估在线节点服务器性能的方法及装置
JP3053288B2 (ja) 通信端末装置
JP2000322262A (ja) データ解析方法
CN116843913A (zh) 一种商品特征的处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040614

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040722

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050121

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101109

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees