JPH0934721A - データ分析装置 - Google Patents

データ分析装置

Info

Publication number
JPH0934721A
JPH0934721A JP7185297A JP18529795A JPH0934721A JP H0934721 A JPH0934721 A JP H0934721A JP 7185297 A JP7185297 A JP 7185297A JP 18529795 A JP18529795 A JP 18529795A JP H0934721 A JPH0934721 A JP H0934721A
Authority
JP
Japan
Prior art keywords
rule
data
rules
data analysis
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7185297A
Other languages
English (en)
Inventor
Yoshinori Sato
嘉則 佐藤
Katsumi Omori
勝美 大森
Akira Maeda
章 前田
Hideyuki Maki
牧  秀行
Hitoshi Ashida
仁史 芦田
Mutsumi Shimoda
睦 下田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7185297A priority Critical patent/JPH0934721A/ja
Publication of JPH0934721A publication Critical patent/JPH0934721A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】分割格納されているデータを分析し、項目値同
士の関係を表すルールとして知識を高速に抽出すること
を課題とする。 【解決手段】装置101によりデータ分析方法及び対象
データ指示指定をする。指定を受けた装置102が並列
にルール生成を行い、また、指定を受けた装置103は
ルール該当事例数計算を並列に計算する。装置104は
これらの結果を評価しルールの再構成を行い、装置10
5によりルールを出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は分割格納されているデー
タを分析し、項目値同士の関係を表すルールとして、知
識を高速に抽出するためのデータ分析装置に関する。
【0002】
【従来の技術】近年の計算機技術の発達により、計算機
内に蓄積されたデータは既に膨大な量に達し、なお年々
増加する傾向にある。特にネットワーク環境の整備が進
むにつれて、オンラインシステムを中心にこの傾向はま
すます顕著になっている。現在ではデータ量がテラ(=
10の12乗)バイト、レコード数で100万件を超え
るものも珍しくない。
【0003】これらの大量データから何らかの知識を取
り出す手法としては、相関分析、主成分分析、重回帰分
析などの統計的手法があり、また最近はデータマイニン
グと呼ばれる新しい技術が提案されている(以下従来技
術1と呼ぶ)。従来技術1は、大量の生データから隠れ
た情報を自動的に見つけ出すもので、Christopher J.Ma
theus, et al.:Systems for Knowledge Discovery in D
atabases,IEEE Trans,on Knowledge and Data Engineer
ing, Vol.5, No.6, December 1993, pp903-913にその概
要が述べられている。最近では人工知能学会 1995年1月
号、pp38ー44「データベースからの知識獲得技術」に詳
しい。
【0004】また、日経コンピュータ1995年1月23日号,
pp91-p98 には、データマイニング技術製品について述
べられている。この中でニューラルネットワークモデル
や、ルール生成モデルなどの知識獲得技術を用いた製品
が紹介されている。
【0005】ニューラルネットワークを使った変数間の
分析は、入出力変数の非線形な関係をモデリングするも
のであり、多くの文献に記載されている。例えば、「PD
Pモデル、認知科学とニュ−ロン回路網の探索」; Rumel
hart,D.E.; 産業図書 (89/03/13)。は、現実の問題解
決に応用されているニューラルネットワークである、誤
差逆伝播モデルを記載している。
【0006】知識獲得技術に関しては、J.G.Carbonell:
MACHNE LEARNING, pp11-64にデータ分類決定木構築技術
の記載がある。ルールモデルにおいては項目値同士の関
係を表現するIF-THEN 形式のルールとして生データから
知識を抽出する。
【0007】このように従来技術1により、統計的手法
による変数間の関係発見だけでなく、ある変数が特定の
値を持つときに、結果とどれくらいの関係があるのかを
利用者の理解が容易な明示的因果関係として、生データ
から抽出することが可能になる。
【0008】一方、大量データを高速検索する技術とし
ては、並列汎用計算機や並列専用機を使った並列DBMS(D
ata Base Managment System)がある(以下従来技術2と
呼ぶ)。特に近年は、一度に数百プロセサを疎結合して
使用する超並列機が製品化されている。「日経コンピュ
ータ1994年9月号」の88〜95ページに掲載された"大規模
な処理を安く速く、日米で脚光浴びる新並列機"に超並
列機を使った製品と並列DBMSの技術動向が掲載されてい
る。
【0009】またISDN(Integrated Serves Digital Net
work) などの公衆回線網の整備、ネットワーク技術の発
達により、利用者はネットワーク接続したクライアント
を介して、遠隔地のサーバから様々なオンラインサービ
スを受けることが可能になっている。このような機能分
散を実現するCSS (Client-Server System、以下従来
技術3と呼ぶ)は、地理的に離れているホストどうしの
接続にとどまらず、異なるベンダー機種の相互接続を可
能にし、汎用機よりも小規模なワークステーション、パ
ーソナルコンピュータ等をネットワークを介して利用す
ることが可能になるとともに、このようなCSSを使い、
遠隔データベース検索等の広義の負荷分散を実現するこ
とも可能になった。
【0010】
【発明が解決しようとする課題】従来技術1ではデータ
の分析方法そのものに主眼が置かれており、現実のデー
タベースの運用形態を考慮していない。すなわち、現実
の分析で必要になるデータの入力手続きを考慮していな
いため、従来技術2が提供する並列DBMS環境をどのよう
に使うかは未検討である。
【0011】従来技術2ではデータの高速検索に主眼が
置かれており、プロセサ数を増やし処理の並列度を上げ
ることにより検索の高速化を実現している。超並列機に
おいては、外部バスを通じてプロセッサを疎結合し、各
プロセサにメモリや2次記憶を各々割り振っているた
め、従来技術1で求められる複雑なデータ検索をそのま
ま行なうと、プロセサ間ディスク共有が頻繁に発生し、
プロセサ間のオーバヘッドが大きくなり、高速処理が不
可能になる。
【0012】従来技術3では、広義の負荷分散という観
点からネットワーク上の計算機資源を利用する方法や、
計算機資源の管理/共有法に主眼がおかれている。この
負荷分散は機能分散の一種であり、CSSそのものが複数
サーバによる処理の分割と、その同時実行する手段を提
供するわけではない。
【0013】従来技術2、3で管理されているデータを
全てクライアントに集めてから分析を行なうならば、容
易に従来技術1を適用できる。しかし、分析の対象デー
タが大量にある場合、サーバ−クライアント間での通信
により高速処理が困難になる上、いったん全てのデータ
をクライアントに集めるためにクライアント側に大きな
作業領域が必要となる。さらに、分析そのものは一台の
クライアントが行なうため、従来技術2の効果による処
理の高速化は期待できない。
【0014】本発明の第一の目的は、上記の問題点を解
決し、並列/分散環境で高速に実行可能なデータ分析方
法及び装置を提供することにある。
【0015】またDBMSを用いた分析では、利用者が条件
と結論の因果関係に対して何らかの仮説を立て、その仮
説に従ってデータの検索を繰り返し、検索結果に応じて
仮説を修正しながら、何らかの知識を発見するまで検索
を繰り返すことがある。特に、データが何らかの基準に
基づいて分割されているならば、仮説の構築と検証は分
割基準も考慮して行われるべきであるが、従来技術1で
は分割されたデータ集合を各々分析することや、分割基
準を項目値とみなして全てのデータをひとまとめにした
分析は可能でも、別々のデータ集合から抽出したルール
同士を比較、検証しつつルール同士の関係を把握した
り、複数のデータ集合の特徴を抽出することはできない
という問題があった。特に、従来技術2、3を用いてこ
のようなデータ集合が分散管理されているときに、これ
らのデータを高速に分析する技術は知られていない。
【0016】本発明の第二の目的は、上記問題点を解決
し、上記分割されたデータを高速に分析する方法及び装
置を提供することにある。
【0017】
【課題を解決するための手段】本発明の望ましい第一の
実施形態においては、各サーバにより複数の項目値間の
因果関係を、条件部と結論部からなる一個以上のルール
として抽出する手段と、ルールをクライアントに伝達す
る手段と、伝達されたルールのうち、等しい条件部と結
論部を持つ複数のルールを合成し、1個のレコード集合
から生成されたルールに変換する手段とを有している。
この構成のデータ分析装置を便宜上第一のデータ分析装
置と称する。
【0018】本発明の望ましい第二の実施形態において
は、各サーバにより複数の項目値間の因果関係を、条件
部と結論部からなる一個以上のルールとして抽出する手
段と、各サーバにより予め定められた項目値間の組み合
わせを計算する手段と、クライアントにより上記計算し
た事例数を用いて上記抽出したルールを再評価する手段
とを有している。この構成のデータ分析装置を便宜上第
二のデータ分析装置と称する。
【0019】本発明の望ましい第三の実施形態において
は、各サーバにより複数の項目値間の因果関係を、条件
部と結論部からなる一個以上のルールとして抽出する手
段と、クライアントによりルール条件部の包含関係と結
論部を各々比較することによって、ルール間の関係及び
項目値間の関係を求める手段と、ルール間の関係及び項
目値間の関係を各ルールの条件部をノードとする木構造
として表示する手段を有する。この構成のデータ分析装
置を便宜上第三のデータ分析装置と称する。
【0020】本発明の第一のデータ分析装置において、
サーバは各々が管理するデータから局所的なルールを生
成し、またこの処理はお互いに独立して実行される。こ
れにより、1台のサーバに比べ高速なルール生成が可能
になる。また、条件部と結論部が共に等しいルール同士
の条件部を満たす事例数、条件部と結論部を満たす事例
数を各々加算することにより複数の同一ルールを統合す
る、クライアント上のルール評価手段を有する。これに
より、各々のサーバが管理するデータの局所的構造を抽
出したルールから、データ全体の構造を反映するルール
を導き出すことが可能になる。
【0021】従って、本発明の第一の目的である、並列
/分散環境で高速に実行可能なデータ分析方法及び装置
を提供することができる。
【0022】本発明の第二のデータ分析装置において、
ルール生成は一部のサーバで行ない、他のサーバはルー
ルの検証を行う。ルール生成では与えられた項目値間の
全ての組み合わせを調べるため処理が重くなるが、ルー
ル検証ではルール生成よりも少ない組み合わせを調べる
ため、比較的処理が軽くなり、また高速である。このた
め、システム全体にかける負荷は軽減し、マルチタスク
を行なう環境では、他の処理(例えばDBMSのオンラ
イントランザクション等)に及ぼす影響が軽減する。ま
た、各サーバの負荷を考慮して、ルールの生成、検証を
それぞれ担当するサーバの割り当てる機能により、処理
を始める時点で最も負荷が低いサーバをルール生成のた
めに使用することができ、結果としてデータ分析の処理
を高速化できる。
【0023】従って、本発明の第一の目的である、並列
/分散環境で高速に実行可能なデータ分析方法及び装置
を提供することができる。
【0024】本発明の第三のデータ分析装置では、同一
の項目を持つ別々のデータサンプルから生成したルール
の条件部に着目し、ルール間関係を木構造として表示す
る手段を有する。これにより、本発明の第二の目的であ
る、分散環境で運用されているデータを対象として局所
的なデータ構造を分析する方法及び装置を提供すること
ができる。
【0025】
【実施例】以下、図面を用いて本発明の第一の実施例を
説明する。図1において、101はデータ分析方法及び
対象データ指示装置、102はルール生成装置、103
はルール該当事例数計算装置、104はルール評価装
置、105はルール出力装置である。また、図2におい
て、200はクライアント処理装置、201〜203は
サーバ処理装置、204〜206はサーバ処理装置に接
続された分析対象データベースである。装置101、1
04、105はクライアント処理装置200上にあり、
装置102、103はサーバ装置201〜203上にあ
る。図3はレコードの集合からなる分析対象データであ
り、このデータはレコード単位で分割され、各々がデー
タベース204〜206に格納されている。
【0026】図4において、400はルール生成条件設
定処理、401はルール生成指示処理、402はルール
生成指示受信処理、403はルール生成処理、404は
ルール送信処理、405はルール受信処理、406はル
ール評価処理、407は出力処理である。
【0027】第1の実施例では各サーバに処理403を
設けてサーバ毎に並列にルール生成を行ない、処理40
6によりルール群を合成し、結果として、仮想的に単一
のレコード集合を分析する場合と同じルールを、高速に
生成をする特徴がある。
【0028】図5にデータベース204〜206に分割
格納されている分析対象データの例を示す。ここではあ
る製品製造ラインにおいて、稼働状況を分析することを
考える。図5のデータには、製品の種類、製品が持つ物
理的な特性や、不良本数、月間生産本数などのような稼
働実績が記入されている。
【0029】図6に本データ分析により生成されたルー
ルの例を示す。重量が2700以上の品種群のうち50
%(これをヒット率とする)は不良本数が多い品種であ
ることをルール601は示し、また種別が#4の品種群
のうち20%は不良本数が多い品種であることをルール
602が示している。さらに、これら二つの条件が同時
に成り立つときは80%の品種について、不良本数が多
くなることルール603は示しており、利用者は「重量
が2700以上」と「種別が#4」の組み合わせを、製
造ラインの稼働状況を改善するための情報として使用す
ることができる。
【0030】以下、図4に従って第1の実施例の詳細な
説明を行う。図3のレコードデータがハッシュ分割され
ている場合を考える。ここでハッシュ分割とは、個々の
レコードのキー項目値を引数として、レコードが一様分
布になるよう写像する全射関数によりレコードをサーバ
に割り付け、分割する方法である。
【0031】処理400では、ルール生成に必要なパラ
メータを設定する。
【0032】まずルール生成に先立ち、項目値のカテゴ
リ化をルール生成の前処理として行なっておく。カテゴ
リ化とは複数の項目値をまとめて名前付けを行なう処理
のことである。対象が数値項目の場合は適当な区間分割
を行なって、各区間毎に名前を割り当てることにより、
数値を記号に変換し、カテゴリ化を行う。記号項目の場
合は単一の項目値をそのまま用いるか、複数の項目値を
何種類化に分類し、分類毎にカテゴリ化を行う。図5中
の数値項目値のカテゴリ化情報を図7に示す。例えば重
量が2000以上2300未満のものを「小」、230
0以上2700未満のものを「中」、2700以上30
00以下のものを「大」と定義している。同様に記号項
目値のカテゴリ化情報を図8に示す。
【0033】また、ここでいうルールとは、カテゴリ値
A、B間の関係を表すif A then B のことであり、Aを条
件部、Bを結論部と呼ぶ。ルール生成とは、予め定めら
れた条件部候補項目の項目値と、結論部の項目値の組み
合わせを探索、評価することによって、強い関係がある
ものを抽出する処理のことである。組み合わせの数が増
加し時間的に全空間探索が困難なとき、探索範囲を限定
するための処理(一般に枝刈りと呼ばれている)と、枝
刈りを適用する条件が必要になる。また、扱うデータに
よってルール評価の適正な基準は異なるので、評価に使
う条件も必要になる。
【0034】処理400では、カテゴリ化条件、結論部
項目、条件部候補項目、枝刈り条件、ルール評価条件を
利用者が決定する。
【0035】処理401では、処理400で設定した生
成条件を図1のサーバ処理装置へ発送し、処理402に
より各サーバ処理装置がこの指示を受け取る。
【0036】処理403では、処理400で設定した条
件に従って使用する項目値を記号化し、条件部項目値群
と結論部項目値の関係が強いものをルールとして採用す
る。ルールとして取り出す情報は、ルールを構成する項
目値、条件部を満たすレコードの数、条件部と結論部を
満たすレコードの数、ルールの評価値からなる。
【0037】次に、各サーバ処理装置のルール送信処理
404が生成したルールをクライアント処理装置に送信
し、クライアント処理装置の処理405がこれを受け取
る。
【0038】処理406は、局所的なデータから生成し
たルールを合成して、データ全体を説明するルールを出
力する。レコード集合がハッシュ分割されている場合に
は、各クライアント処理装置には無作為抽出したレコー
ドが格納されているとみなせるので、これを利用する。
以下、図10に従って処理406の処理を詳細に説明す
る。
【0039】ルール生成の結果としてクライアント処理
装置が受け取ったルールの例を図9に示す。まず、処理
1001でルール901を取り出し、処理1002でル
ール901の条件部と結論部の参照することにより、ル
ールが既知のものかどうかを検査する。ただし、条件
部、結論部がそれぞれ等しいことをルールの等価性とす
る。未知のルールに出会った時点で、このルールを辞書
に保存しておき、この辞書を参照することで検査を行
う。ルール901は未知であるから、ルール901の条
件部、結論部、条件部を満たす事例の数、条件部と結論
部を共に満たす事例の数を処理1004で辞書に登録す
る。処理1005で全てのルールの検査が終了したかを
チェックし、この場合はルールが残っているので処理1
001に戻る。
【0040】この後、処理407はルール902の分析
に入る。ルール902は未知のルールであるから、処理
はルール901の場合と同様になる。
【0041】ルール903はルール901と同様の構造
を持つので処理1002から処理1003に進む。ここ
ではルール903の条件部を満たす事例数、結論部を満
たす事例数を、辞書内のルール901にそれぞれ加算す
る。1図1に示すように、ルール901と903を合成
したルールが辞書に登録される。全てのルールを参照し
た段階で処理407の処理は終了し、結果が辞書に残
る。
【0042】このように、ネットワークを通してクライ
アント処理装置とサーバ処理装置の間を流れるデータ
は、ルール生成の条件と生成されたルールだけであり、
また各サーバ処理装置は完全に並列な処理を行うので、
計算機資源を有効に活用した高速なルール生成となる。
また、各クライアント処理装置毎に生成したルールを合
成することで、全てのレコードを集めてルール生成した
ときと同様の結果を得ることができる。
【0043】データがハッシュ分割されている場合、各
々の分割データは、母集団(全データ)から無作為抽出
した標本と捉えることができる。従って、生成したルー
ルの評価は各サーバが並列に行うことができると共に、
異なるサーバが抽出した複数の等しいルールを合成する
ことができる。また、合成の前に必要ならばルールの確
からしさを統計的に評価することが可能である。
【0044】次に、本発明の第2の実施例の説明をす
る。図12において、処理1201は、図4全体の処理
と同様である。
【0045】まず、処理1201でルール生成を行う。
ただし、処理401に該当する処理においてルール生成
を行うサーバ処理装置を限定する点が第1の実施例とは
異なる。
【0046】処理1203では、処理1202で選択し
たサーバ処理装置に対して、処理1201で生成したル
ールの条件部と結論部を送信し、処理1204により上
記サーバ処理装置がこれらを受け取る。
【0047】処理1205では各サーバ処理装置が、受
け取ったルールにマッチする事例をカウントする。この
ように本実施例では、一部のサーバ群がルール生成を行
ない、他のサーバが得られたルールを検証するところに
特徴がある。
【0048】処理1206でクライアント処理装置に対
して検索結果を送信し、処理1207でクライアント処
理装置がこれを受け取る。
【0049】処理1208では、処理1205で検証し
た事例数と処理1201で生成したルールの事例数を加
算し、処理1209でこれを出力する。
【0050】第2の実施例では、一部のサーバ上の処理
1201でサーバ毎に並列にルール生成を行い、それ以
外のサーバ上のルール検証部1205によりルールの検
査を行うことにより、システム全体にかける負荷を軽減
しているため、高速なルール生成を実現可能にすると共
に、システム全体のスループットを向上する効果があ
る。
【0051】次に、本発明の第3の実施例を説明する。
本実施例では、レコード集合がユーザの利便を図って分
割されているものとする。図13はこのような分割を用
いたデータ管理の例である。この例では各サーバが置か
れている地域によって、各々が管理するレコードが決定
されている。この場合第1の実施例及び第2の実施例と
異なり、分割それ自体が分析に必要な情報を含んでい
る。
【0052】図14において、処理1401は図4全体
の処理と同様であり、このときルール生成処理は全ての
サーバによって実行される。処理1402は、生成した
ルールが成立する範囲を分析するルール分析処理であ
り、ルールが広く成り立つもの(大局的ルール)と、一
部のサーバが保持するデータに対して成り立つもの(局
所的ルール)に分類するための情報を計算する。処理1
403は出力を制御するパラメータを設定する処理であ
る。処理1404は、大局的ルールと局所的ルールの関
係を出力する処理であり、この結果が図16である。
【0053】本実施例では、処理1401を実装した並
列ルール生成部と、処理1402を実装したルール間関
係分析部と、処理1404を実装したルール間関係出力
部を設けて、データの利用形態を生かしたルール生成
と、ルールによるデータ構造表示を実現するところに特
徴がある。
【0054】以下、図15に従って処理1402の詳細
な説明を行う。まず、条件節同士、結論部同士には予め
順序関係を定義しておく。初期状態では辞書は空であ
る。
【0055】処理1501でルールを取り出す。次に処
理1502で取り出したルールが辞書に登録されている
かどうかを調べる。既に辞書に登録されているのであれ
ば次のルールの処理に入り、登録されていないルールで
あれば、処理1503でルールの出現頻度を計算する。
処理1504は、結論部項目値順、条件節数順、条件節
順にルールが並ぶよう、ルールとその出現頻度を辞書に
追加する。各サーバは同じルールを複数生成しないの
で、あるルールの出現頻度はこのルールを生成したサー
バの数になり、出現頻度によって大局的ルールと局所的
ルールを判定できる。
【0056】処理1403では、利用者が表示を制御す
るパラメータを設定する。まず、大局的ルールを決める
出現頻度の閾値、局所的ルールを決定する出現頻度の閾
値が設定されると、これらの閾値によりルールは、大局
的、局所的、それ以外の3種類に分類される。また必要
ならば、利用者が局所的ルールの意味付けが可能なサー
バを予め設定しておく。利用者はこれらの設定に加え
て、ルールの結論部の項目値、最大条件節数等の条件に
より表示を制御する。
【0057】処理1404では、上記設定に従い図16
に示す木構造としてルールを表示する。結論項目値毎に
ルールの木が表示され、各ノードはルールの条件節を表
し、木の深さは条件節数を表し、木のノードとリンクの
違いはルールの種別を表す。例えば、ノード1601は
「If 重量=大 then 不良本数=大」を、ノード1602
は「If 種別=分類2 AND 重量=大 then 不良本数=多
い」を意味する。また、角が付いているノードは局所的
ルール、角が丸いノードは大局的ルールを表し、破線で
囲まれているノードはそれ以外のルールを表している。
さらに、ノードが実線でリンクされている状態はルール
として存在する条件節を表し、破線によるリンクはルー
ルとしては生成されなかった条件節を表す。ノード16
03とノード1604は、「月間生産本数=中」だけで
はルールが成立しないが、「形状=分類1」を併せて考
えるとルールが成立することを意味している。
【0058】このように、第3の実施例では、ルールを
生成したサーバの情報とルールを同時に表示し、サーバ
ローカルな局所的ルールと、複数のサーバにまたがる大
局的ルールの関連性を利用者に提供できるので、この情
報を元に事例の選択と仮説の検証を行うことが可能にな
る。また、それぞれのサーバは並列に動作するため高速
なデータ分析が可能である。
【0059】
【発明の効果】以上、本発明では分散環境で管理されて
いるデータを対象として、各サーバ処理装置が完全に並
列にルール生成を行うことができるので、大量データを
高速に分析することができるという効果がある。また、
ルールを生成したサーバとルール間関係を表示する手段
を設けた場合には、各サーバが管理するデータの局所的
な情報と、複数のサーバ上で成り立つ大局的な情報を利
用者に提供することができるという効果がある。
【図面の簡単な説明】
【図1】サーバ処理装置とクライアント処理装置を用い
た本発明の全体図である。
【図2】データの分割状態を示す例である。
【図3】サーバとクライアントを用いた分析処理フロー
チャートである。
【図4】製品製造ラインの稼動実績データである。
【図5】図4のデータから生成したルールの例である。
【図6】数値データをカテゴリ化した例である。
【図7】記号値データをカテゴリ化した例である。
【図8】各サーバが生成し、クライアントに収拾したル
ールである。
【図9】ルールを分析し、合成する処理のフローチャー
トである。
【図10】ルール合成の具体例である。
【図11】第2実施例の処理全体のフローチャートであ
る。
【図12】地理的に分割、管理されているデータの例で
ある。
【図13】第3の実施例の処理全体のフローチャートで
ある。
【図14】ルール間関係解析処理のフローチャートであ
る。
【図15】ルール間関係を表示した例である。
【図16】ルールを木構造で表した例である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 牧 秀行 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 芦田 仁史 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 下田 睦 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】クライアント処理装置と、 複数の項目からなる複数のレコードデータを管理する複
    数のDBサーバ処理装置と、 前記クライアント処理装置および前記DBサーバ処理装
    置を相互に接続するネットワークとからなるデータ分析
    装置において、 前記クライアント処理装置から前記複数のDBサーバ処
    理装置のうち少なくとも1つに、データ分析の対象とす
    る複数のレコード、データ分析方法の指示を前記ネット
    ワークを介して伝達する第一の伝達手段と、 前記第一の伝達手段にて伝達された指示に従い、上記サ
    ーバ処理装置が、各々のデータベースに格納されている
    データから複数の項目値間の因果関係を、条件部と結論
    部からなる一個以上のルールとして抽出する分析手段
    と、 前記分析結果を上記クライアント処理装置に伝達する第
    二の伝達手段と、 前記伝達された分析結果を上記クライアント処理装置に
    より評価する手段と、 前記評価結果を上記クライアント処理装置により出力す
    る手段とからなることを特徴とするデータ分析装置。
  2. 【請求項2】請求項1に記載のデータ分析装置におい
    て、 上記ルール評価はルール条件部の包含関係と結論部を各
    々比較することによって、ルール間の関係及び項目値間
    の関係を求めることを特徴とするデータ分析装置。
  3. 【請求項3】請求項1に記載のデータ分析装置におい
    て、 上記ルール評価は異なるレコード集合から生成された、
    等しい条件部と結論部を持つ複数のルールを合成し、 1個のレコード集合から生成されたルールに変換するこ
    とを特徴とするデータ分析装置。
  4. 【請求項4】請求項1に記載のデータ分析装置におい
    て、 上記データ分析は予め定められた項目値間の組み合わせ
    を計算することを特徴とするデータ分析装置。
  5. 【請求項5】請求項1または4に記載のデータ分析装置
    において、 上記ルール評価は計算した事例数を用いて、上記抽出し
    たルールを再評価することを特徴とするデータ分析装
    置。
  6. 【請求項6】請求項1乃至請求項3のいずれかに記載の
    データ分析装置において、 上記分析結果出力は、ルール間関係を各ルールの条件部
    をノードとする木構造として表示することを特徴とする
    データ分析装置。
JP7185297A 1995-07-21 1995-07-21 データ分析装置 Pending JPH0934721A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7185297A JPH0934721A (ja) 1995-07-21 1995-07-21 データ分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7185297A JPH0934721A (ja) 1995-07-21 1995-07-21 データ分析装置

Publications (1)

Publication Number Publication Date
JPH0934721A true JPH0934721A (ja) 1997-02-07

Family

ID=16168401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7185297A Pending JPH0934721A (ja) 1995-07-21 1995-07-21 データ分析装置

Country Status (1)

Country Link
JP (1) JPH0934721A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007073024A (ja) * 2005-08-11 2007-03-22 Nec Corp マクロ情報生成システム、マクロ情報生成装置、マクロ情報生成方法及びマクロ情報生成プログラム
JP2008525895A (ja) * 2004-12-23 2008-07-17 コンフォーミア ソフトウェア, インコーポレイテッド 医薬品の開発と製造を管理するシステムと方法
JP2016206784A (ja) * 2015-04-17 2016-12-08 株式会社Ihi データ分析装置及びデータ分析方法
US11126948B2 (en) 2018-07-31 2021-09-21 Hitachi, Ltd. Analysis method and computer

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008525895A (ja) * 2004-12-23 2008-07-17 コンフォーミア ソフトウェア, インコーポレイテッド 医薬品の開発と製造を管理するシステムと方法
JP4820953B2 (ja) * 2004-12-23 2011-11-24 オラクル・インターナショナル・コーポレイション 医薬品の開発と製造を管理するシステムと方法
JP2007073024A (ja) * 2005-08-11 2007-03-22 Nec Corp マクロ情報生成システム、マクロ情報生成装置、マクロ情報生成方法及びマクロ情報生成プログラム
JP2016206784A (ja) * 2015-04-17 2016-12-08 株式会社Ihi データ分析装置及びデータ分析方法
US11126948B2 (en) 2018-07-31 2021-09-21 Hitachi, Ltd. Analysis method and computer

Similar Documents

Publication Publication Date Title
CN111339433B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN100565503C (zh) 动态内容聚类
KR101130524B1 (ko) 목표 변수를 위한 데이터 전망 자동 생성
US7107191B2 (en) Modular architecture for optimizing a configuration of a computer system
US8122015B2 (en) Multi-ranker for search
CN109388565B (zh) 基于生成式对抗网络的软件系统性能优化方法
CN108717661B (zh) 一种金融业风险预警的集群存储与分析方法
CN111782644A (zh) 一种基于区块链技术的科研数据管理控制系统及方法
CN115577152B (zh) 基于数据分析的在线图书借阅管理系统
JP6972935B2 (ja) 関連スコア算出システム、方法およびプログラム
Han et al. Accelerating deep learning systems via critical set identification and model compression
CN111708919B (zh) 一种大数据处理方法及系统
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
JPH0934721A (ja) データ分析装置
Singh et al. Knowledge based retrieval scheme from big data for aviation industry
CN115329078B (zh) 文本数据处理方法、装置、设备以及存储介质
WO2022252694A1 (zh) 神经网络优化方法及其装置
CN116956994A (zh) 业务平台扩容预测方法及装置
CN110852078A (zh) 生成标题的方法和装置
CN108256086A (zh) 数据特征统计分析方法
CN108256083A (zh) 基于深度学习的内容推荐方法
CN108280176A (zh) 基于MapReduce的数据挖掘优化方法
Ali et al. Online web navigation assistant
JP2000040079A (ja) 並列データ分析装置
CN114218569A (zh) 数据分析方法、装置、设备、介质和产品

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080329

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090329

Year of fee payment: 7

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 8

Free format text: PAYMENT UNTIL: 20100329

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20110329

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20110329

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120329

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 11

Free format text: PAYMENT UNTIL: 20130329

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130329

Year of fee payment: 11

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140329

Year of fee payment: 12