JPH0934721A

JPH0934721A - データ分析装置

Info

Publication number: JPH0934721A
Application number: JP7185297A
Authority: JP
Inventors: Yoshinori Sato; 嘉則佐藤; Katsumi Omori; 勝美大森; Akira Maeda; 章前田; Hideyuki Maki; 牧　　秀行; Hitoshi Ashida; 仁史芦田; Mutsumi Shimoda; 睦下田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-07-21
Filing date: 1995-07-21
Publication date: 1997-02-07

Abstract

(57)【要約】【課題】分割格納されているデータを分析し、項目値同
士の関係を表すルールとして知識を高速に抽出すること
を課題とする。【解決手段】装置１０１によりデータ分析方法及び対象
データ指示指定をする。指定を受けた装置１０２が並列
にルール生成を行い、また、指定を受けた装置１０３は
ルール該当事例数計算を並列に計算する。装置１０４は
これらの結果を評価しルールの再構成を行い、装置１０
５によりルールを出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は分割格納されているデー
タを分析し、項目値同士の関係を表すルールとして、知
識を高速に抽出するためのデータ分析装置に関する。

【０００２】

【従来の技術】近年の計算機技術の発達により、計算機
内に蓄積されたデータは既に膨大な量に達し、なお年々
増加する傾向にある。特にネットワーク環境の整備が進
むにつれて、オンラインシステムを中心にこの傾向はま
すます顕著になっている。現在ではデータ量がテラ（＝
１０の１２乗）バイト、レコード数で１００万件を超え
るものも珍しくない。

【０００３】これらの大量データから何らかの知識を取
り出す手法としては、相関分析、主成分分析、重回帰分
析などの統計的手法があり、また最近はデータマイニン
グと呼ばれる新しい技術が提案されている（以下従来技
術１と呼ぶ）。従来技術１は、大量の生データから隠れ
た情報を自動的に見つけ出すもので、Christopher J.Ma
theus, et al.:Systems for Knowledge Discovery in D
atabases,IEEE Trans,on Knowledge and Data Engineer
ing, Vol.5, No.6, December 1993, pp903-913にその概
要が述べられている。最近では人工知能学会 1995年1月
号、pp38ー44「データベースからの知識獲得技術」に詳
しい。

【０００４】また、日経コンピュータ1995年1月23日号,
pp91-p98 には、データマイニング技術製品について述
べられている。この中でニューラルネットワークモデル
や、ルール生成モデルなどの知識獲得技術を用いた製品
が紹介されている。

【０００５】ニューラルネットワークを使った変数間の
分析は、入出力変数の非線形な関係をモデリングするも
のであり、多くの文献に記載されている。例えば、「PD
Pモデル、認知科学とニュ−ロン回路網の探索」; Rumel
hart,D.E.; 産業図書（89/03/13）。は、現実の問題解
決に応用されているニューラルネットワークである、誤
差逆伝播モデルを記載している。

【０００６】知識獲得技術に関しては、J.G.Carbonell:
MACHNE LEARNING, pp11-64にデータ分類決定木構築技術
の記載がある。ルールモデルにおいては項目値同士の関
係を表現するIF-THEN 形式のルールとして生データから
知識を抽出する。

【０００７】このように従来技術１により、統計的手法
による変数間の関係発見だけでなく、ある変数が特定の
値を持つときに、結果とどれくらいの関係があるのかを
利用者の理解が容易な明示的因果関係として、生データ
から抽出することが可能になる。

【０００８】一方、大量データを高速検索する技術とし
ては、並列汎用計算機や並列専用機を使った並列DBMS(D
ata Base Managment System)がある（以下従来技術２と
呼ぶ）。特に近年は、一度に数百プロセサを疎結合して
使用する超並列機が製品化されている。「日経コンピュ
ータ1994年9月号」の88〜95ページに掲載された"大規模
な処理を安く速く、日米で脚光浴びる新並列機"に超並
列機を使った製品と並列DBMSの技術動向が掲載されてい
る。

【０００９】またISDN(Integrated Serves Digital Net
work) などの公衆回線網の整備、ネットワーク技術の発
達により、利用者はネットワーク接続したクライアント
を介して、遠隔地のサーバから様々なオンラインサービ
スを受けることが可能になっている。このような機能分
散を実現するCSS （Client-Server System、以下従来
技術３と呼ぶ）は、地理的に離れているホストどうしの
接続にとどまらず、異なるベンダー機種の相互接続を可
能にし、汎用機よりも小規模なワークステーション、パ
ーソナルコンピュータ等をネットワークを介して利用す
ることが可能になるとともに、このようなCSSを使い、
遠隔データベース検索等の広義の負荷分散を実現するこ
とも可能になった。

【００１０】

【発明が解決しようとする課題】従来技術１ではデータ
の分析方法そのものに主眼が置かれており、現実のデー
タベースの運用形態を考慮していない。すなわち、現実
の分析で必要になるデータの入力手続きを考慮していな
いため、従来技術２が提供する並列DBMS環境をどのよう
に使うかは未検討である。

【００１１】従来技術２ではデータの高速検索に主眼が
置かれており、プロセサ数を増やし処理の並列度を上げ
ることにより検索の高速化を実現している。超並列機に
おいては、外部バスを通じてプロセッサを疎結合し、各
プロセサにメモリや２次記憶を各々割り振っているた
め、従来技術１で求められる複雑なデータ検索をそのま
ま行なうと、プロセサ間ディスク共有が頻繁に発生し、
プロセサ間のオーバヘッドが大きくなり、高速処理が不
可能になる。

【００１２】従来技術３では、広義の負荷分散という観
点からネットワーク上の計算機資源を利用する方法や、
計算機資源の管理／共有法に主眼がおかれている。この
負荷分散は機能分散の一種であり、CSSそのものが複数
サーバによる処理の分割と、その同時実行する手段を提
供するわけではない。

【００１３】従来技術２、３で管理されているデータを
全てクライアントに集めてから分析を行なうならば、容
易に従来技術１を適用できる。しかし、分析の対象デー
タが大量にある場合、サーバ−クライアント間での通信
により高速処理が困難になる上、いったん全てのデータ
をクライアントに集めるためにクライアント側に大きな
作業領域が必要となる。さらに、分析そのものは一台の
クライアントが行なうため、従来技術２の効果による処
理の高速化は期待できない。

【００１４】本発明の第一の目的は、上記の問題点を解
決し、並列／分散環境で高速に実行可能なデータ分析方
法及び装置を提供することにある。

【００１５】またDBMSを用いた分析では、利用者が条件
と結論の因果関係に対して何らかの仮説を立て、その仮
説に従ってデータの検索を繰り返し、検索結果に応じて
仮説を修正しながら、何らかの知識を発見するまで検索
を繰り返すことがある。特に、データが何らかの基準に
基づいて分割されているならば、仮説の構築と検証は分
割基準も考慮して行われるべきであるが、従来技術１で
は分割されたデータ集合を各々分析することや、分割基
準を項目値とみなして全てのデータをひとまとめにした
分析は可能でも、別々のデータ集合から抽出したルール
同士を比較、検証しつつルール同士の関係を把握した
り、複数のデータ集合の特徴を抽出することはできない
という問題があった。特に、従来技術２、３を用いてこ
のようなデータ集合が分散管理されているときに、これ
らのデータを高速に分析する技術は知られていない。

【００１６】本発明の第二の目的は、上記問題点を解決
し、上記分割されたデータを高速に分析する方法及び装
置を提供することにある。

【００１７】

【課題を解決するための手段】本発明の望ましい第一の
実施形態においては、各サーバにより複数の項目値間の
因果関係を、条件部と結論部からなる一個以上のルール
として抽出する手段と、ルールをクライアントに伝達す
る手段と、伝達されたルールのうち、等しい条件部と結
論部を持つ複数のルールを合成し、１個のレコード集合
から生成されたルールに変換する手段とを有している。
この構成のデータ分析装置を便宜上第一のデータ分析装
置と称する。

【００１８】本発明の望ましい第二の実施形態において
は、各サーバにより複数の項目値間の因果関係を、条件
部と結論部からなる一個以上のルールとして抽出する手
段と、各サーバにより予め定められた項目値間の組み合
わせを計算する手段と、クライアントにより上記計算し
た事例数を用いて上記抽出したルールを再評価する手段
とを有している。この構成のデータ分析装置を便宜上第
二のデータ分析装置と称する。

【００１９】本発明の望ましい第三の実施形態において
は、各サーバにより複数の項目値間の因果関係を、条件
部と結論部からなる一個以上のルールとして抽出する手
段と、クライアントによりルール条件部の包含関係と結
論部を各々比較することによって、ルール間の関係及び
項目値間の関係を求める手段と、ルール間の関係及び項
目値間の関係を各ルールの条件部をノードとする木構造
として表示する手段を有する。この構成のデータ分析装
置を便宜上第三のデータ分析装置と称する。

【００２０】本発明の第一のデータ分析装置において、
サーバは各々が管理するデータから局所的なルールを生
成し、またこの処理はお互いに独立して実行される。こ
れにより、１台のサーバに比べ高速なルール生成が可能
になる。また、条件部と結論部が共に等しいルール同士
の条件部を満たす事例数、条件部と結論部を満たす事例
数を各々加算することにより複数の同一ルールを統合す
る、クライアント上のルール評価手段を有する。これに
より、各々のサーバが管理するデータの局所的構造を抽
出したルールから、データ全体の構造を反映するルール
を導き出すことが可能になる。

【００２１】従って、本発明の第一の目的である、並列
／分散環境で高速に実行可能なデータ分析方法及び装置
を提供することができる。

【００２２】本発明の第二のデータ分析装置において、
ルール生成は一部のサーバで行ない、他のサーバはルー
ルの検証を行う。ルール生成では与えられた項目値間の
全ての組み合わせを調べるため処理が重くなるが、ルー
ル検証ではルール生成よりも少ない組み合わせを調べる
ため、比較的処理が軽くなり、また高速である。このた
め、システム全体にかける負荷は軽減し、マルチタスク
を行なう環境では、他の処理（例えばＤＢＭＳのオンラ
イントランザクション等）に及ぼす影響が軽減する。ま
た、各サーバの負荷を考慮して、ルールの生成、検証を
それぞれ担当するサーバの割り当てる機能により、処理
を始める時点で最も負荷が低いサーバをルール生成のた
めに使用することができ、結果としてデータ分析の処理
を高速化できる。

【００２３】従って、本発明の第一の目的である、並列
／分散環境で高速に実行可能なデータ分析方法及び装置
を提供することができる。

【００２４】本発明の第三のデータ分析装置では、同一
の項目を持つ別々のデータサンプルから生成したルール
の条件部に着目し、ルール間関係を木構造として表示す
る手段を有する。これにより、本発明の第二の目的であ
る、分散環境で運用されているデータを対象として局所
的なデータ構造を分析する方法及び装置を提供すること
ができる。

【００２５】

【実施例】以下、図面を用いて本発明の第一の実施例を
説明する。図１において、１０１はデータ分析方法及び
対象データ指示装置、１０２はルール生成装置、１０３
はルール該当事例数計算装置、１０４はルール評価装
置、１０５はルール出力装置である。また、図２におい
て、２００はクライアント処理装置、２０１〜２０３は
サーバ処理装置、２０４〜２０６はサーバ処理装置に接
続された分析対象データベースである。装置１０１、１
０４、１０５はクライアント処理装置２００上にあり、
装置１０２、１０３はサーバ装置２０１〜２０３上にあ
る。図３はレコードの集合からなる分析対象データであ
り、このデータはレコード単位で分割され、各々がデー
タベース２０４〜２０６に格納されている。

【００２６】図４において、４００はルール生成条件設
定処理、４０１はルール生成指示処理、４０２はルール
生成指示受信処理、４０３はルール生成処理、４０４は
ルール送信処理、４０５はルール受信処理、４０６はル
ール評価処理、４０７は出力処理である。

【００２７】第１の実施例では各サーバに処理４０３を
設けてサーバ毎に並列にルール生成を行ない、処理４０
６によりルール群を合成し、結果として、仮想的に単一
のレコード集合を分析する場合と同じルールを、高速に
生成をする特徴がある。

【００２８】図５にデータベース２０４〜２０６に分割
格納されている分析対象データの例を示す。ここではあ
る製品製造ラインにおいて、稼働状況を分析することを
考える。図５のデータには、製品の種類、製品が持つ物
理的な特性や、不良本数、月間生産本数などのような稼
働実績が記入されている。

【００２９】図６に本データ分析により生成されたルー
ルの例を示す。重量が２７００以上の品種群のうち５０
％（これをヒット率とする）は不良本数が多い品種であ
ることをルール６０１は示し、また種別が＃４の品種群
のうち２０％は不良本数が多い品種であることをルール
６０２が示している。さらに、これら二つの条件が同時
に成り立つときは８０％の品種について、不良本数が多
くなることルール６０３は示しており、利用者は「重量
が２７００以上」と「種別が＃４」の組み合わせを、製
造ラインの稼働状況を改善するための情報として使用す
ることができる。

【００３０】以下、図４に従って第１の実施例の詳細な
説明を行う。図３のレコードデータがハッシュ分割され
ている場合を考える。ここでハッシュ分割とは、個々の
レコードのキー項目値を引数として、レコードが一様分
布になるよう写像する全射関数によりレコードをサーバ
に割り付け、分割する方法である。

【００３１】処理４００では、ルール生成に必要なパラ
メータを設定する。

【００３２】まずルール生成に先立ち、項目値のカテゴ
リ化をルール生成の前処理として行なっておく。カテゴ
リ化とは複数の項目値をまとめて名前付けを行なう処理
のことである。対象が数値項目の場合は適当な区間分割
を行なって、各区間毎に名前を割り当てることにより、
数値を記号に変換し、カテゴリ化を行う。記号項目の場
合は単一の項目値をそのまま用いるか、複数の項目値を
何種類化に分類し、分類毎にカテゴリ化を行う。図５中
の数値項目値のカテゴリ化情報を図７に示す。例えば重
量が２０００以上２３００未満のものを「小」、２３０
０以上２７００未満のものを「中」、２７００以上３０
００以下のものを「大」と定義している。同様に記号項
目値のカテゴリ化情報を図８に示す。

【００３３】また、ここでいうルールとは、カテゴリ値
A、B間の関係を表すif A then B のことであり、Aを条
件部、Bを結論部と呼ぶ。ルール生成とは、予め定めら
れた条件部候補項目の項目値と、結論部の項目値の組み
合わせを探索、評価することによって、強い関係がある
ものを抽出する処理のことである。組み合わせの数が増
加し時間的に全空間探索が困難なとき、探索範囲を限定
するための処理（一般に枝刈りと呼ばれている）と、枝
刈りを適用する条件が必要になる。また、扱うデータに
よってルール評価の適正な基準は異なるので、評価に使
う条件も必要になる。

【００３４】処理４００では、カテゴリ化条件、結論部
項目、条件部候補項目、枝刈り条件、ルール評価条件を
利用者が決定する。

【００３５】処理４０１では、処理４００で設定した生
成条件を図１のサーバ処理装置へ発送し、処理４０２に
より各サーバ処理装置がこの指示を受け取る。

【００３６】処理４０３では、処理４００で設定した条
件に従って使用する項目値を記号化し、条件部項目値群
と結論部項目値の関係が強いものをルールとして採用す
る。ルールとして取り出す情報は、ルールを構成する項
目値、条件部を満たすレコードの数、条件部と結論部を
満たすレコードの数、ルールの評価値からなる。

【００３７】次に、各サーバ処理装置のルール送信処理
４０４が生成したルールをクライアント処理装置に送信
し、クライアント処理装置の処理４０５がこれを受け取
る。

【００３８】処理４０６は、局所的なデータから生成し
たルールを合成して、データ全体を説明するルールを出
力する。レコード集合がハッシュ分割されている場合に
は、各クライアント処理装置には無作為抽出したレコー
ドが格納されているとみなせるので、これを利用する。
以下、図１０に従って処理４０６の処理を詳細に説明す
る。

【００３９】ルール生成の結果としてクライアント処理
装置が受け取ったルールの例を図９に示す。まず、処理
１００１でルール９０１を取り出し、処理１００２でル
ール９０１の条件部と結論部の参照することにより、ル
ールが既知のものかどうかを検査する。ただし、条件
部、結論部がそれぞれ等しいことをルールの等価性とす
る。未知のルールに出会った時点で、このルールを辞書
に保存しておき、この辞書を参照することで検査を行
う。ルール９０１は未知であるから、ルール９０１の条
件部、結論部、条件部を満たす事例の数、条件部と結論
部を共に満たす事例の数を処理１００４で辞書に登録す
る。処理１００５で全てのルールの検査が終了したかを
チェックし、この場合はルールが残っているので処理１
００１に戻る。

【００４０】この後、処理４０７はルール９０２の分析
に入る。ルール９０２は未知のルールであるから、処理
はルール９０１の場合と同様になる。

【００４１】ルール９０３はルール９０１と同様の構造
を持つので処理１００２から処理１００３に進む。ここ
ではルール９０３の条件部を満たす事例数、結論部を満
たす事例数を、辞書内のルール９０１にそれぞれ加算す
る。１図１に示すように、ルール９０１と９０３を合成
したルールが辞書に登録される。全てのルールを参照し
た段階で処理４０７の処理は終了し、結果が辞書に残
る。

【００４２】このように、ネットワークを通してクライ
アント処理装置とサーバ処理装置の間を流れるデータ
は、ルール生成の条件と生成されたルールだけであり、
また各サーバ処理装置は完全に並列な処理を行うので、
計算機資源を有効に活用した高速なルール生成となる。
また、各クライアント処理装置毎に生成したルールを合
成することで、全てのレコードを集めてルール生成した
ときと同様の結果を得ることができる。

【００４３】データがハッシュ分割されている場合、各
々の分割データは、母集団（全データ）から無作為抽出
した標本と捉えることができる。従って、生成したルー
ルの評価は各サーバが並列に行うことができると共に、
異なるサーバが抽出した複数の等しいルールを合成する
ことができる。また、合成の前に必要ならばルールの確
からしさを統計的に評価することが可能である。

【００４４】次に、本発明の第２の実施例の説明をす
る。図１２において、処理１２０１は、図４全体の処理
と同様である。

【００４５】まず、処理１２０１でルール生成を行う。
ただし、処理４０１に該当する処理においてルール生成
を行うサーバ処理装置を限定する点が第１の実施例とは
異なる。

【００４６】処理１２０３では、処理１２０２で選択し
たサーバ処理装置に対して、処理１２０１で生成したル
ールの条件部と結論部を送信し、処理１２０４により上
記サーバ処理装置がこれらを受け取る。

【００４７】処理１２０５では各サーバ処理装置が、受
け取ったルールにマッチする事例をカウントする。この
ように本実施例では、一部のサーバ群がルール生成を行
ない、他のサーバが得られたルールを検証するところに
特徴がある。

【００４８】処理１２０６でクライアント処理装置に対
して検索結果を送信し、処理１２０７でクライアント処
理装置がこれを受け取る。

【００４９】処理１２０８では、処理１２０５で検証し
た事例数と処理１２０１で生成したルールの事例数を加
算し、処理１２０９でこれを出力する。

【００５０】第２の実施例では、一部のサーバ上の処理
１２０１でサーバ毎に並列にルール生成を行い、それ以
外のサーバ上のルール検証部１２０５によりルールの検
査を行うことにより、システム全体にかける負荷を軽減
しているため、高速なルール生成を実現可能にすると共
に、システム全体のスループットを向上する効果があ
る。

【００５１】次に、本発明の第３の実施例を説明する。
本実施例では、レコード集合がユーザの利便を図って分
割されているものとする。図１３はこのような分割を用
いたデータ管理の例である。この例では各サーバが置か
れている地域によって、各々が管理するレコードが決定
されている。この場合第１の実施例及び第２の実施例と
異なり、分割それ自体が分析に必要な情報を含んでい
る。

【００５２】図１４において、処理１４０１は図４全体
の処理と同様であり、このときルール生成処理は全ての
サーバによって実行される。処理１４０２は、生成した
ルールが成立する範囲を分析するルール分析処理であ
り、ルールが広く成り立つもの（大局的ルール）と、一
部のサーバが保持するデータに対して成り立つもの（局
所的ルール）に分類するための情報を計算する。処理１
４０３は出力を制御するパラメータを設定する処理であ
る。処理１４０４は、大局的ルールと局所的ルールの関
係を出力する処理であり、この結果が図１６である。

【００５３】本実施例では、処理１４０１を実装した並
列ルール生成部と、処理１４０２を実装したルール間関
係分析部と、処理１４０４を実装したルール間関係出力
部を設けて、データの利用形態を生かしたルール生成
と、ルールによるデータ構造表示を実現するところに特
徴がある。

【００５４】以下、図１５に従って処理１４０２の詳細
な説明を行う。まず、条件節同士、結論部同士には予め
順序関係を定義しておく。初期状態では辞書は空であ
る。

【００５５】処理１５０１でルールを取り出す。次に処
理１５０２で取り出したルールが辞書に登録されている
かどうかを調べる。既に辞書に登録されているのであれ
ば次のルールの処理に入り、登録されていないルールで
あれば、処理１５０３でルールの出現頻度を計算する。
処理１５０４は、結論部項目値順、条件節数順、条件節
順にルールが並ぶよう、ルールとその出現頻度を辞書に
追加する。各サーバは同じルールを複数生成しないの
で、あるルールの出現頻度はこのルールを生成したサー
バの数になり、出現頻度によって大局的ルールと局所的
ルールを判定できる。

【００５６】処理１４０３では、利用者が表示を制御す
るパラメータを設定する。まず、大局的ルールを決める
出現頻度の閾値、局所的ルールを決定する出現頻度の閾
値が設定されると、これらの閾値によりルールは、大局
的、局所的、それ以外の３種類に分類される。また必要
ならば、利用者が局所的ルールの意味付けが可能なサー
バを予め設定しておく。利用者はこれらの設定に加え
て、ルールの結論部の項目値、最大条件節数等の条件に
より表示を制御する。

【００５７】処理１４０４では、上記設定に従い図１６
に示す木構造としてルールを表示する。結論項目値毎に
ルールの木が表示され、各ノードはルールの条件節を表
し、木の深さは条件節数を表し、木のノードとリンクの
違いはルールの種別を表す。例えば、ノード１６０１は
「If 重量=大 then 不良本数＝大」を、ノード１６０２
は「If 種別＝分類２ AND 重量=大 then 不良本数＝多
い」を意味する。また、角が付いているノードは局所的
ルール、角が丸いノードは大局的ルールを表し、破線で
囲まれているノードはそれ以外のルールを表している。
さらに、ノードが実線でリンクされている状態はルール
として存在する条件節を表し、破線によるリンクはルー
ルとしては生成されなかった条件節を表す。ノード１６
０３とノード１６０４は、「月間生産本数＝中」だけで
はルールが成立しないが、「形状＝分類１」を併せて考
えるとルールが成立することを意味している。

【００５８】このように、第３の実施例では、ルールを
生成したサーバの情報とルールを同時に表示し、サーバ
ローカルな局所的ルールと、複数のサーバにまたがる大
局的ルールの関連性を利用者に提供できるので、この情
報を元に事例の選択と仮説の検証を行うことが可能にな
る。また、それぞれのサーバは並列に動作するため高速
なデータ分析が可能である。

【００５９】

【発明の効果】以上、本発明では分散環境で管理されて
いるデータを対象として、各サーバ処理装置が完全に並
列にルール生成を行うことができるので、大量データを
高速に分析することができるという効果がある。また、
ルールを生成したサーバとルール間関係を表示する手段
を設けた場合には、各サーバが管理するデータの局所的
な情報と、複数のサーバ上で成り立つ大局的な情報を利
用者に提供することができるという効果がある。

【図面の簡単な説明】

【図１】サーバ処理装置とクライアント処理装置を用い
た本発明の全体図である。

【図２】データの分割状態を示す例である。

【図３】サーバとクライアントを用いた分析処理フロー
チャートである。

【図４】製品製造ラインの稼動実績データである。

【図５】図４のデータから生成したルールの例である。

【図６】数値データをカテゴリ化した例である。

【図７】記号値データをカテゴリ化した例である。

【図８】各サーバが生成し、クライアントに収拾したル
ールである。

【図９】ルールを分析し、合成する処理のフローチャー
トである。

【図１０】ルール合成の具体例である。

【図１1】第２実施例の処理全体のフローチャートであ
る。

【図１２】地理的に分割、管理されているデータの例で
ある。

【図１３】第３の実施例の処理全体のフローチャートで
ある。

【図１４】ルール間関係解析処理のフローチャートであ
る。

【図１５】ルール間関係を表示した例である。

【図１６】ルールを木構造で表した例である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者牧秀行神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者芦田仁史神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (72)発明者下田睦神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内

Claims

【特許請求の範囲】

【請求項１】クライアント処理装置と、複数の項目からなる複数のレコードデータを管理する複
数のＤＢサーバ処理装置と、前記クライアント処理装置および前記ＤＢサーバ処理装
置を相互に接続するネットワークとからなるデータ分析
装置において、前記クライアント処理装置から前記複数のＤＢサーバ処
理装置のうち少なくとも１つに、データ分析の対象とす
る複数のレコード、データ分析方法の指示を前記ネット
ワークを介して伝達する第一の伝達手段と、前記第一の伝達手段にて伝達された指示に従い、上記サ
ーバ処理装置が、各々のデータベースに格納されている
データから複数の項目値間の因果関係を、条件部と結論
部からなる一個以上のルールとして抽出する分析手段
と、前記分析結果を上記クライアント処理装置に伝達する第
二の伝達手段と、前記伝達された分析結果を上記クライアント処理装置に
より評価する手段と、前記評価結果を上記クライアント処理装置により出力す
る手段とからなることを特徴とするデータ分析装置。
【請求項２】請求項１に記載のデータ分析装置におい
て、上記ルール評価はルール条件部の包含関係と結論部を各
々比較することによって、ルール間の関係及び項目値間
の関係を求めることを特徴とするデータ分析装置。
【請求項３】請求項１に記載のデータ分析装置におい
て、上記ルール評価は異なるレコード集合から生成された、
等しい条件部と結論部を持つ複数のルールを合成し、１個のレコード集合から生成されたルールに変換するこ
とを特徴とするデータ分析装置。
【請求項４】請求項１に記載のデータ分析装置におい
て、上記データ分析は予め定められた項目値間の組み合わせ
を計算することを特徴とするデータ分析装置。
【請求項５】請求項１または４に記載のデータ分析装置
において、上記ルール評価は計算した事例数を用いて、上記抽出し
たルールを再評価することを特徴とするデータ分析装
置。
【請求項６】請求項１乃至請求項３のいずれかに記載の
データ分析装置において、上記分析結果出力は、ルール間関係を各ルールの条件部
をノードとする木構造として表示することを特徴とする
データ分析装置。