JP4234841B2 - データ分析装置 - Google Patents
データ分析装置 Download PDFInfo
- Publication number
- JP4234841B2 JP4234841B2 JP11592799A JP11592799A JP4234841B2 JP 4234841 B2 JP4234841 B2 JP 4234841B2 JP 11592799 A JP11592799 A JP 11592799A JP 11592799 A JP11592799 A JP 11592799A JP 4234841 B2 JP4234841 B2 JP 4234841B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- record
- value
- unit
- change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007405 data analysis Methods 0.000 claims description 96
- 238000000034 method Methods 0.000 claims description 95
- 238000004458 analytical method Methods 0.000 claims description 82
- 238000003066 decision tree Methods 0.000 claims description 67
- 230000000694 effects Effects 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 67
- 238000011156 evaluation Methods 0.000 description 40
- 238000010586 diagram Methods 0.000 description 30
- 238000012360 testing method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000009423 ventilation Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 241000073677 Changea Species 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、データ分析装置に関し、特に、データを分析し状況を改善するための方法及びその方法を取った場合の効果を提示するデータ分析装置に関する。
【0002】
【従来の技術】
近年、種々のデータベースやデータウェアハウス等のデータを蓄積する手段が整備され一般化してきている。また、データ分析装置の一種であるデータマイニングツールなどによるデータ分析が行われるようになってきた。データマイニングツールのようなデータ分析装置は、指定された分析対象を分析してその分析結果をユーザに提示する。データ分析装置が分析の対象とするデータに制限はなく、従って、データ分析には分析対象に応じた種々の方法が存在する。データ分析装置によるデータ分析の結果は、データそれ自体を理解するには適している。
【0003】
【発明が解決しようとする課題】
データ分析装置によるデータ分析の結果は、データそれ自体を理解するには適している。例えば、ユーザは、「商品の品質には、操業条件の内の湿度が関係している」と言う分析結果を得ることができる。即ち、分析結果に基づいて、「商品の品質には、操業条件の内の湿度が関係している」と言うことを、データ分析装置が出力することができる。例えば、「品質の悪い商品の多くは、湿度の低い状態で製造されている」と言う分析結果を得て、これに基づいて、「湿度が低いと品質が悪い」と言う出力が得られる。
【0004】
しかし、この分析結果をそのままビジネスに適用することは難しく、また、適用した場合の効果が明確でない場合が多い。例えば、「商品の品質に湿度が関係している」ことは判断できても、この判断に基づいて「湿度」を「どのように変更すれば、どの程度商品の品質が改善される」かの情報は、分析結果からは何ら得ることはできない。このため、データ分析装置によるデータ分析の結果をビジネスへ適用すること、例えば、データ分析装置による分析結果をビジネスへ適用する方法をどのようにするかや、分析結果に基づいて分析対象の状況を改善する方法をどのようにするかなどの判断は、完全にユーザに任されている。
【0005】
従って、将来のデータ分析装置には、データ分析の結果に基づいて、ビジネスへの適用方法を分析対象の状況の改善方法として具体的に提示し、その効果を明確に算出することが要求される。具体的には、本発明者の検討によれば、データ分析装置によるデータ分析の結果をビジネスへ適用するためには、分析対象の状況の改善方法を、データに含まれる結果値に影響を与える要素とその変更方法を提示することが望ましい。また、要素及び変更方法と共に、その変更の場合に見込まれる効果を出力することが望ましい。
【0006】
本発明は、データに含まれる結果値に影響を与える要素と変更方法と共に変更により予想される効果を求めるデータ分析装置を提供することを目的とする。
【0008】
【課題を解決するための手段】
図1は本発明の原理構成図であり、本発明によるデータ分析装置100の構成を示す。本発明のデータ分析装置100は、各々のデータが複数の評価項目について評価され当該複数の評価項目の値に基づいて定められた結果値を有するデータの集合であって、少なくとも第1の結果値を有するデータと第2の結果値を有するデータとを含むデータの集合(入力データ10)を、分析の対象とする。データ分析装置100は、分析部2と、予測部3と、効果計算部4とを有する。分析部2は、前記のようなデータの集合に関して、第1の結果値を有するデータと第2の結果値を有するデータとの間の関係に基づいて、第2の結果値を有するデータを第1の結果値を有するデータに変化させるための評価項目及びその値を抽出する。予測部3は、分析部2の抽出した評価項目の値を変更する場合に、当該結果値への影響を調べる。効果計算部4は、分析部2の抽出した評価項目の値の変更の効果を計算する。
特に、分析部2は、予め定められた類似の定義に従って、望まない結果値を有するレコードのフィールド値に類似するフィールド値を有し、望む結果値を有するレコードを抽出し、前記抽出したレコードを第1のレコードとし、対応する前記第1のレコードが存在する望まない結果値を有するレコードを第2のレコードとしたとき、前記第2のレコードと前記第1のレコードとで値の異なるフィールドを抽出し、前記第2のレコードの数を数え上げて、前記候補データを作成する類似分析部と、前記第1のレコードから前記値の異なるフィールドの値を抽出し、前記抽出した値の異なるフィールドの値を変更方法として、前記変更方法データを作成する類似変更部と、を有する。
また、分析部2は、決定木作成アルゴリズムに従って、前記フィールドの各々を分岐部としてフィールド値毎に分岐し結果値が望まない結果値である場合に分岐を繰り返して決定木を作成する決定木作成部と、前記決定木の分岐部において、望まない結果値を有するレコードのフィールド値に類似するフィールド値を有し、望む結果値を有するレコードを抽出し、前記抽出したレコードを第1のレコードとし、対応する前記第1のレコードが存在する望まない結果値を有するレコードを第2のレコードとしたとき、前記第2のレコードと前記第1のレコードとで値の異なるフィールドを抽出し、前記第2のレコードの数を数え上げて、前記候補データを作成する決定木分析部と、前記第1のレコードから前記値の異なるフィールドの値を抽出し、前記抽出した値の異なるフィールドの値を変更方法として、前記変更方法データを作成する決定木変更部と、を有する。
【0009】
本発明のデータ分析装置100によれば、分析部2における入力データ10の分析の結果として、結果値に影響を与える評価項目(要素)とその変更方法を候補データとして出力することができると共に、予測部3及び効果計算部4における予測等の結果として、
当該変更の場合の変更の効果を効果データとして出力することができる。従って、データ分析装置100によるデータ分析の結果を、ビジネスに適用することができる(できやすくなる)と共に、適用した場合の効果を明確に予測することができる。例えば、データ分析装置100による分析結果をビジネスへ適用する方法や、分析結果に基づいて分析対象の状況を改善する方法をまでも、ユーザに具体的に提示することができる。従って、ユーザは、このような具体的なデータ分析の結果に基づいて、ビジネスへの適用方法を直ちに判断することができる。
【0010】
【発明の実施の形態】
図2はデータ分析装置構成図であり、本発明のデータ分析装置100の構成の一例を示す。データ分析装置100は、入力部1、類似分析部21、類似変更部22、類似予測部31、効果計算部41及び出力部6を備える。類似分析部21と類似変更部とが、分析部を構成する。
【0011】
入力部1は、当該データ分析装置100の行うデータ分析の対象データの入力を受け付け、類似分析部21、類似変更部22、類似予測部31に入力する。入力データ10は、各々のデータが複数の評価項目について評価され当該複数の評価項目の値に基づいて定められた結果値を有するデータの集合であって、少なくとも第1の結果値を有するデータと第2の結果値を有するデータとを含むデータの集合である。
【0012】
図3は入力データ説明図であり、入力データ10の一例を示す。なお、この入力データ10は、以下の例の各々において用いるものとする。この入力データ10は、ある製品を製造する場合における複数の評価項目「温度」「湿度」「通風」などの操業条件から、当該複数の評価項目の値に基づいて定められた結果値「品質」を調べるためのデータである。温度、湿度、通風、など評価項目の領域をそれぞれをフィールドと呼び、その値「高」「低」等をそのフィールドの値と呼ぶ。結果値「品質」の領域を結果フィールドと呼び、その値「良」「悪」を結果値と呼ぶ。個々の商品について、これらの値の集まり(データ)をレコードと呼ぶ。入力データ10は複数のレコードの集合である。レコードの数は、例えば数百個乃至数千個以上とされる。
【0013】
この例の場合、フィールドにおいて、当該商品の当該項目がどのような条件であったかが記録される。例えば、「湿度」のフィールドが「高」であれば、当該商品は高い湿度の条件の下で製造されたことを示す。また、結果フィールドにおいて、当該商品がどのような評価を受けたか、その結果値が記録される。例えば、第1の結果値である望む結果値は「良」、第2の結果値である望まない結果値は「悪」である。望む結果値を有する(に属する)レコードは、「商品1」、「商品3」のレコード、望まない結果値に属するレコードは、「商品2」のレコードである。
【0014】
なお、入力データ10は、直接データ分析装置100に入力される以外に、データベース(図示せず)として予め用意されたものであっても良く、当該データベースから入力部1が図3に示すような入力データ10を作成するようにしても良い。即ち、図3に示すように、縦軸にレコード(名)、横軸に評価の要素及び要素毎の評価を格納した2次元データであれば、どのようなデータであっても良い。
【0015】
また、フィールド及び結果フィールドは他の項目であっても良い。例えば、フィールドは「天候」等であっても良く、結果フィールドは「歩留り」等であっても良い。フィールドの数は、通常、数十個乃至数百個とされる。また、フィールドの値は、「高」「低」等の2値以外の値であっても良い。例えば、「高」「中」「低」の3値や、4値、5値等であっても良い。同様に、結果フィールドの値も、「良」「悪」の2値以外の値であっても良い。例えば、「良」「並」「悪」の3値や、4値、5値等であっても良い。また、フィールド及び結果フィールドの値を得点形式で表現しても良い。更に、このようにフィールド及び結果フィールドの値が2値データ以外である場合、当該値を2値データに変換した後、本発明による処理を行うようにしても良い。
【0016】
分析部2である類似分析部21は、入力データ10から候補データ51を抽出する。即ち、第2の結果値を有するデータについて第1の結果値を有するデータの中から当該複数の評価項目の値が類似するものを検出し、これらの間の関係に基づいて当該第2の結果値を有するデータを第1の結果値を有するデータに変化させるための評価項目(有用な評価項目)及びその値を、候補データ51として抽出する。このために、類似分析部21は、第2の結果値を有するデータと、これについて検出した類似する第1の結果値を有するデータ(類似データ)とを比較し、これらの間において値の異なる評価項目を調べ、図4に示すように、これに基づいて当該第2の結果値を有するデータを第1の結果値を有するデータに変化させるために有用な評価項目及びその値を抽出する。
【0017】
具体的には、類似分析部21が、予め定められた類似の定義に従って、図3に示す入力データ10において、望まない結果値に属するレコードである「商品2のレコード」に類似する望む結果値に属するレコードを抽出する。この場合、当該レコードとして「商品1のレコード」が抽出される。即ち、「商品2のレコード」と「商品1のレコード」との間では、「湿度」のフィールドの値のみが異なり、他のフィールドの値は同一である。対比される2個のレコードの間において、n個のフィールドの値のみが異なる時、これを「距離n」とする。対比される2個のレコードが類似であるとは、例えば、距離が「1」であることとする。この類似の定義は、ユーザにより予め与えられる。なお、距離が、例えば「2以下」であることを類似と定義しても良い。即ち、フィールドの数が数百個と多い場合には、類似の定義を距離i(iは整数)としても良い。
【0018】
類似分析部21は、各々の望まない結果値に属するレコードについて、同様の処理を行うことにより、その「類似するレコード」及び「値の異なるフィールド」を求める。類似の定義が「距離1」であれば、値の異なるフィールドの値を変更すれば、結果フィールドの値は、望まない結果値「悪」から望む結果値「良」に変化する。即ち、当該値の異なるフィールドは、結果値を改善するために「有用なフィールド」である。また、値の異なるフィールドの値を現在の値とは異なる(逆の)値に変更すれば、結果フィールドの値は「良」に変化する。即ち、当該変更が結果値を改善するための「変更方法」である。なお、類似の定義によっては、類似するレコードの存在しない「望まない結果値に属するレコード」も存在する。
【0019】
類似分析部21は、これらの処理の結果を統合して、候補データ51を作成する。候補データ51はフィールドの値を変更する候補(商品)を示すデータである。類似分析部21の出力する候補データ51の一例を図4に示す。図4に示すように、候補データ51は、有用なフィールド毎に、その変更方法と、該当する望まない結果値のレコード数とを格納してある。類似分析部21は、求めた「類似するレコード」及び「値の異なるフィールド」を用いて、当該フィールド毎に、その「変更方法」を求め、「類似するレコード」の数をカウントすることにより、候補データ51を作成する。
【0020】
出力部6は、類似分析部21における分析結果である候補データ51を、例えば図4に示すようなフォーマットで出力データ60として出力する(印刷出力又は表示出力する)。ユーザは、「有用なフィールド」を参照することにより、どのフィールドが結果値の改善に有用であるかを知ることができる。また、「変更方法」を参照することにより、当該フィールドをどのように変更すれば結果値の改善に有用であるかを知ることができる。また、「レコード数」を参照することにより、どの程度の改善が図られるかを知ることができる。なお、候補データ51として、有用なフィールド毎及びその変更方法のみを出力するようにしても良い。また、後述する図7に示す効果計算部41における分析結果(効果データ55)及び図8に示す類似変更部22における分析結果(変更方法データ52)をも出力する。いずれのデータをどのようなフォーマットで出力するかは、ユーザの指示による。
【0021】
類似予測部31は、類似分析部21の検出した有用な評価項目の値を他の評価項目と無関係に変更する場合に、当該結果値への影響を調べる。このために、類似予測部31は、当該検出した第1の結果値を有するデータにおいて、仮想的に、値の異なる評価項目の値を他の評価項目と無関係に変更して、当該変更の場合における結果値への影響を調べる。
【0022】
具体的には、類似予測部31は、図3の入力データ10において、他のフィールドと無関係に、当該検出した第1の結果値を有するデータのフィールドの値を変更する。例えば、「商品2」のフィールド「湿度」の値を「低」から「高」に変更する。このために、類似予測部31は、入力データ10を複写したものにフィールド値の変更処理を施し、図5に示すように、フィールド値を変更したデータ(変更データ53)を作成する。変更データ53は、実在するデータではなく、データ分析のために生成された仮想的なデータである。変更データ53において、入力データ10等と区別するために、レコード名が「商品1’」等と表される。
【0023】
この上で、類似予測部31は、変更データ53においてそのフィールド値を変更した各レコードに対し、入力データ10から類似するレコードを検索し、その結果値を類似予測部31による予測値とし、図6に示すように、結果値を予測したデータ(予測データ54)を作成する。
【0024】
効果計算部41は、分析部の抽出した有用な評価項目の値の変更の効果を計算する。このために、効果計算部41は、予測データ54について、フィールド値(有用なフィールド)の変更毎に、当該変更の前に「望まない結果値」に属していたレコード数、及び、その中で当該変更の後で「望む結果値」に属するようになったレコード数を数え、図7のような効果データ55を出力する。このために、効果計算部41は、入力データ10と予測データ54とを比較する。
【0025】
出力された効果データ55を見たユーザは、状況を改善するための方法がフィールド値の変更及びその効果として提示されているので、これにより直ちに改善方法を理解することができる。例えば、ユーザは、製造ラインの操業条件の改善による品質の向上、物性試験や製薬実験の実験条件と物性量との関係の分析、各種製品の試作の場合の品質や性能の改善方法の検討等を図ることができる。
【0026】
なお、「変更前からの増加数」の値が大きいということは、当該フィールドの変更によってより多数の改善の効果が得られることを示す。そこで、出力される効果データ55において、「変更前からの増加数」の値の大きいレコードから順に表示される。
【0027】
前述のように、レコード間の類似の定義を「距離1」とすると、フィールド変更の内容は、図7に示すように、「湿度を高にする」等の如く、単一の評価項目の変更である。レコード間の類似の定義を「距離2」とすると、例えば、「湿度を高にし、かつ、通風を有にする」等の如く、複数の評価項目の変更の組み合わせとされる。この用に、類似の定義に応じて組み合わせの数は増加し、データ分析処理の正確さを向上することが期待され、一方、処理速度は低下する。従って、例えば、レコード間の類似の定義を「距離2」とすると共に、後述する優先順位等を用いて優先順位が2番目の物までに処理対象を制限すれば、比較的少ない処理で大きな効果を得ることができる。即ち、効果データ55において、「変更前からの増加数」の値を大きくすることができる。
【0028】
分析部2である類似変更部22は、類似分析部21の検出した望まない(第2の)結果値「悪」を有するデータについての望む(第1の)結果値「良」を有するデータの中から、当該複数の評価項目の値が類似するものを調べることにより、評価項目の値の変更方法を分析する。
【0029】
具体的には、類似変更部22は、入力データ10から、結果値が「良」のレコードを抜き出し、当該抜き出したレコードの各々において湿度フィールドを変更方法フィールド(図中、右端の「変更方法」フィールド)に移動し、変更方法フィールドにおいて当該湿度フィールドの値「高」をそのまま変更方法として記述し、結果として湿度フィールドを削除する。これにより、図8に示す変更方法データ52を作成する。変更方法データ52は出力部6から出力される。図8の例は、入力データ10において、変更方法フィールドが「湿度」の場合を示す。変更方法データ52は、実在するデータではなく、データ分析のために生成された仮想的なデータである。変更方法データ52において、入力データ10等と区別するために、レコード名が「商品1’’」等と表される。
【0030】
類似予測部31は、当該検出した第1の結果値を有するデータにおいて値の異なる評価項目の値を他の評価項目との関係を考慮に入れて変更する場合に、変更方法データ52を参照して、結果値への影響を調べ、予測データ54を得る。このために、類似予測部31は、変更データ53に代えて変更方法データ52を用いて、前述したと同様の処理を行う。即ち、類似予測部31は、変更データ53又は変更方法データ52のいずれかを用いて、予測データ54を得る。
【0031】
図9はデータ分析装置構成図であり、本発明のデータ分析装置100の構成の他の一例を示す。
【0032】
このデータ分析装置100は、基本的には、図2に示すデータ分析装置100と同様の構成を有するが、変更データ53を作成する手段が異なる。また、変更データ53の作成手段が異なることに伴って、候補データ51を作成する手段等が異なり、決定木56を作成する手段を備えることが異なる。即ち、分析部2が決定木56を作成する決定木作成部23と決定木56を分析する決定木分析部24とからなる。
【0033】
決定木作成部23は入力データ10に関しての決定木56を作成する。決定木56は周知の一般的な決定木作成アルゴリズムを用いて作成する。決定木56の例を図10に示す。決定木56は、図10に示すように、前述の入力データ10のフィールドの各々を分岐部としてフィールド値毎に分岐し、結果値が望まない値「悪」である場合に分岐を繰り返す。これにより、入力データ10についての決定木56が作成される。
【0034】
決定木分析部24は、決定木56を分析することにより、望まない(第2)の結果値を有するデータを、望む(第1の)結果値を有するデータに変化させるために有用な評価項目とその値の関係を調べ、候補データ51を作成する。決定木分析部24は類似分析部21に相当する。具体的には、決定木分析部24は、図10に示す決定木56について、「湿度」の分岐部に着目する。即ち、「湿度」の値が「低」から「高」に変更すれば、結果値が「悪」から「良」に変更することが分かる。そこで、決定木分析部24は、結果として、図4と同様なフィールド値変更の候補データ51を得る。
【0035】
決定木予測部32は、評価項目の値を他の評価項目と無関係に変更する場合に、結果値への影響を調べる。即ち、決定木予測部32は、図6のような予測データ54を作成する。この予測データ54に基づいて、効果計算部42は図7のような効果データ55を算出して出力する。具体的には、決定木予測部7は、入力データ10について、フィールド値変更を他のフィールドと無関係に行う。例えば、フィールド値変更として「湿度を高にする」処理を行う。この場合、決定木予測部7は、入力データ10にフィールド値の変更処理を施し、図5のようなフィールド値の変更データ53を作成する。決定木予測部7は、フィールド値の変更データ53の各レコードについて、決定木56を分岐に従って上から順に結果値を得るまで辿る。これにより、決定木予測部7は、決定木56の末端の結果値を読み取り、これを当該レコードの予測値とし、図6のような結果値の予測データ54を作成する。
【0036】
なお、図9に示すデータ分析装置100が、決定木変更部(図示せず)を有していても良い。決定木変更部は、類似変更部22に相当し、これと同様の処理を行う。即ち、入力データ10及び決定木56を用いて、周知の決定木アルゴリズムによりフィールド(評価項目)の値の変更方法を分析して、変更方法データ52を作成する。具体的には、決定木変更部は、入力データ10について、変更対象のフィールドが「湿度」の場合、結果値が「良」のレコードを抜き出し、湿度フィールドの値を変更方法フィールドに設定し、湿度フィールドを削除することで、図8のような変更方法データ52を作成する。
【0037】
この場合、決定木作成部23は、変更方法データ52を分析することにより、決定木56を作成する。即ち、決定木作成部23は、フィールド(評価項目)の値の変更方法を、決定木56の形式で出力する。また、決定木予測部32は、入力データ10の各レコードについて、変更方法データ52に基づいて類似するレコードを検索し、変更対象のフィールド値を、変更方法データ52の値に変更し、図5のようなフィールド値の変更データ53を作成する。
【0038】
図13はデータ分析装置構成図であり、本発明のデータ分析装置100の構成の他の一例を示す。
【0039】
このデータ分析装置100は、基本的には、図2に示すデータ分析装置100と同様の構成を有するが、変更データ53を作成する手段が異なる。即ち、分析部2が、関連度テーブル57を作成する関連度計算部25、ルール58を変更するルール変更部26及びルール58を作成するルール作成部27からなる。
【0040】
関連度計算部25は、入力データ10を分析し、図11に示すように、フィールドと結果フィールドとの関連度を算出し、関連度テーブル57を作成する。関連度の算出処理には、周知の相互情報量などの一般的な評価値を用いる。関連度の大きいフィールドほど、フィールド値変更の候補として、見込みのあるものと言える。そこで、ルール変更部26は、関連度テーブル57を利用して、見込みのある(関連度の高い)フィールドを優先して処理して、当該フィールドについてのルールを優先して作成する。これにより、データ分析処理の時間を短縮することができる。
【0041】
ルール変更部26は、周知のルールアルゴリズムにより、フィールド(評価項目)の値の変更方法を分析する。この場合、ルール作成部27がフィールドの値の変更方法を、ルール58の形式で出力する。また、フィールドの値を他のフィールドとの関係を考慮に入れて変更する場合に、ルール予測部33が結果値への影響を調べ、効果計算部43がフィールドの値の変更による効果データ55を作成して出力する。
【0042】
具体的には、ルール変更部26は、入力データ10において、変更対象のフィールドが「湿度」の場合、結果値が「良」のレコードを抜き出し、湿度フィールドの値を変更方法フィールドに設定し、湿度フィールドを削除することで、図8のような変更方法データ52を作成する。この変更方法データ52を、ルール作成部27が分析することにより、ルール58を作成する。
【0043】
ルール作成部27は、入力データ10に関して、望まない(第2の)結果値を有するデータを望む(第1の)結果値を有するデータに変化させるためのルールを作成する。このために、ルール作成部27は、入力データ10を分析し、上記変更に有用な評価項目とその値の関係を調べて、図12に示すように、ルール58を作成する。ルール58は周知の一般的なルール作成アルゴリズムを用いて作成する。
【0044】
ルール予測部33は、入力データ10において、フィールド値の変更処理を他のフィールドと無関係に行う。例えば、フィールド値の変更として「湿度を高にする」処理を行う。この場合、ルール予測部33は、入力データ10にフィールド値の変更処理を施し、図5のようなフィールド値の変更データ53を作成する。即ち、ルール予測部33は、入力データ10の各レコードについて、ルール58の条件部(「〜ならば、」の部分)を満足する個別ルールを上から検索し、変更対象フィールドの値を、結論部(「結果値は〜」の部分)の変更方法の値に変更し、図5のようなフィールド値の変更データ53を作成する。そして、ルール予測部33は、フィールド値の変更データ53の各レコードについて、ルール58の条件部を満足する個別ルールを上から調べ、その結果値を読み取り、これを当該レコードの予測値とし、図6のような結果値の予測データ54を作成する。効果計算部43は、結果値の予測データ54に基づいて、図7のような効果データ55を出力する。
【0045】
なお、図13のデータ分析装置100がルール分析部(図示せず)を有していても良い。ルール分析部は類似分析部21又は決定木分析部24に相当し、これと同様の処理を行う。即ち、ルール分析部はルール58を用いて候補データ51を作成する。この場合、ルール分析部は、図12の「ルール3」に着目して、結果値が「良」のルールで、「ルール3」に類似するものを検索する。この場合、「ルール2」において、「湿度が高」を「湿度が低」に変更すれば、双方の条件部は一致する。この結果、「湿度が高」に着目することにより、望まない結果値のレコードを望む結果値のレコードに変化させることができる。ルール分析部は、結果の例として、図4と同様なフィールド値変更の候補データ51を得る。
【0046】
図14はデータ分析装置構成図であり、本発明のデータ分析装置100の構成の他の一例を示す。
【0047】
このデータ分析装置100は、選択処理部81、打切処理部82、類似処理部91、決定木処理部92、ルール処理部93を備える。類似処理部91は図2に示したデータ分析装置100と同様の構成を有し、決定木処理部92は図9に示したデータ分析装置100と同様の構成を有し、ルール処理部93は図13に示したデータ分析装置100と同様の構成を有する。なお、類似処理部91、決定木処理部92及びルール処理部93において、入力部1及び出力部6は共通である。
【0048】
選択処理部81は、ユーザからの指示入力に従って、入力データ1について、類似処理部91、決定木処理部92及びルール処理部93のいずれにおいてデータ分析処理を行うかを選択する。類似処理部91におけるデータ分析処理によれば、正確な分析結果を得ることができるが、その分処理時間が長くなり、また、分析結果がユーザには判り難くなる。即ち、分析の精度が要求される場合に適している。決定木処理部92及びルール処理部93におけるデータ分析処理によれば、分析結果の精度はやや劣るが、その分処理時間を短くすることができ、また、分析結果がユーザには判り易くなる。即ち、短時間で概略的な傾向(改善のヒント等)を得る場合に適している。ユーザは、入力データ10の性質や当該分析処理に対する要求を考慮して、処理を選択する。例えば、2以上の処理部における処理を選択しても良い。
【0049】
打切処理部82は、ユーザからの指示入力として、効果のしきい値や終了見込み時間などの打ち切り条件を受け付け、これを保持する。即ち、類似分析部21によるフィールド値変更の候補データ51の算出処理では、非常に多数の「望まない結果値のレコード」について個々に処理するので、処理時間が長くなる。そこで、打切処理部82は、1個のレコードについての処理を終える毎に、その時点で、それまでに作成された当該候補データ51が打ち切り条件を満足するかを調べ、満足する場合にはその時点で当該算出処理を終了する。また、決定木分析部24及びルール分析部によるフィールド値変更の候補データ51の算出処理では、非常に多数の分岐部や個別ルールからフィールド値変更の候補データ51となるかを調べる。そこで、1個の分岐部や個別ルールについての処理を終える毎に、その時点で、それまでに作成された当該候補データ51が打ち切り条件を満足するかを調べ、満足する場合にはその時点で処理を終了する。
【0050】
同様に、類似変更部22、決定木分析部24、ルール変更部26によるフィールド値の変更方法データ52の算出処理では、多数のフィールドを扱うことがある。そこで、1個のフィールドについての処理を終える毎に、その時点で、それまでに作成された当該変更方法データ52が打ち切り条件を満足するかを調べ、満足する場合にはその時点で処理を終了する。
【0051】
更に、同様に、フィールド値変更の候補データ51は非常に多数存在する。そこで、効果計算部41等による効果データ55の算出処理は、以下のように行う。即ち、フィールド値変更の候補データ51のうち1個目のフィールドについて効果を計算した後、打ち切り条件を満足しているかを調べ、満足している場合、全てのフィールドについての処理を終了しているか否かにかかわりなく、その時点で処理を終了する。
【0052】
なお、選択処理部81において複数のデータ分析処理を選択している場合において、いずれか1つのデータ分析処理が打ち切り条件を満足している場合、当該データ分析処理(のみ)を打ち切るようにしても、又は、複数のデータ分析処理の全体を打ち切るようにしても良い。
【0053】
図15はデータ分析装置構成図であり、本発明のデータ分析装置100の構成の他の一例を示す。
【0054】
このデータ分析装置100においては、ルール処理部93の関連度計算部25が、ルール処理部93とは独立に設けられる。関連度計算部25は、前述のように、入力データ10を分析し、図11に示す関連度テーブル57を作成する。関連度の大きいフィールドほど、フィールド値変更の候補として、見込みのあるものと言える。そこで、関連度テーブル57を、以下のように、データ分析処理の効率化に利用する。即ち、類似処理部91等は、フィールド値変更の候補データ51を抽出する際に、見込みのある(関連度の高い)フィールドを優先して処理する。また、類似処理部91等は、効果データ55を算出する際にも、見込みのあるフィールドを優先して処理する。更に、類似処理部91等は、処理対象となるフィールドの数を少なくするために、類似処理部91等において結果フィールドに関連の深いフィールドのみに限定してデータ分析処理を行う。これにより、データ分析処理の時間を短縮することができる。
【0055】
図16はデータ分析装置構成図であり、本発明のデータ分析装置100の構成の他の一例を示す。
【0056】
このデータ分析装置100は条件計算部83を備える。条件計算部83は類似処理部91等とは独立に設けられる。条件計算部83は、フィールド値変更の候補データ51を選出する際に、分岐部や個別ルールについての分析を行う。即ち、条件計算部83では、前述のようにして得た決定木56及び/又はルール58を分析し、フィールド値変更の候補データ51となる可能性の高い順に、分岐部や個別ルールに優先順位を付け、条件テーブル84に保持する。
【0057】
条件テーブル84の例を、図17に示す。図17(A)及び(B)は、各々、決定木56及びルール58についての条件テーブル84を示す。優先順位は、例えば、その分岐部や個別ルールに該当し「望まない結果値に属するレコード」の数が多い程、順位が高くなるように定める。
【0058】
決定木分析部24又はルール分析部28は、候補データ51を算出する際に、条件テーブル84を参照することにより、優先度の高い分岐部又は個別ルールから順に候補データ51の算出処理を開始する。これにより、多数のフィールド値変更の候補を算出する際に、処理したフィールドの数が少ない段階において、比較的多くの候補データ51を得ることができる。
【0059】
図18はデータ分析装置構成図であり、本発明のデータ分析装置100の構成の他の一例を示す。
【0060】
このデータ分析装置100はフィールドテーブル86を備える。フィールドテーブル86は、ユーザにより入力部1(図示せず)を介して入力されるフィールドテーブル情報85を保持する。フィールドテーブル86の例を図19に示す。フィールドテーブル情報85又はフィールドテーブル86は、図19に示すように、各々のフィールド(名)毎に、その変更の可否についての情報を格納してなる。フィールドの変更可否には、当該フィールドの値を変更する際に他のフィールドと無関係に行うもの、当該フィールドの値を変更する際に他のフィールドとの関係を考慮して行うもの、及び、当該フィールドの値を変更出来ないものの3種類がある。類似処理部91等は、フィールドテーブル86を参照することにより、適切なデータ分析処理を行うことができ、また、「変更不可」のフィールドを候補データ51の算出処理の対象から除外することにより、効率的な処理を行うことができる。
【0061】
図20はデータ分析装置構成図であり、本発明のデータ分析装置100の構成の他の一例を示す。
【0062】
このデータ分析装置100はフィールド値変更部88を備える。フィールド値変更部88は、ユーザにより(実際には入力部1を介して)入力されるフィールド値変更情報87を保持する。フィールド値変更情報87は、例えば、「温度が高の場合にのみ、湿度を高に変更する」のような情報からなる。即ち、フィールド値変更情報87は変更データ53に相当する。類似処理部91等の類似予測部31等は、フィールド値についての予測データ54を作成する際、他のアルゴリズムを使用する代わりに、フィールド値変更情報87に従って予測データ54を作成する。類似処理部91等の効果計算部31等は、予測データ54に基づいて、図7のような効果データ55を出力する。これにより、ユーザの経験や意向を反映したフィールド値変更情報87に基づいて、柔軟なデータ分析処理を行うことができる。
【0063】
以上、本発明をその実施の態様により説明したが、本発明は、その主旨の範囲内で種々の変形が可能である。
【0064】
例えば、入力データ10を訓練データとテストデータとに分割することができる。訓練データの割合は80%〜90%とされ、残りがテストデータとされる。この場合、フィールド値変更の候補データ51及びフィールド値の変更方法データ52の算出処理には、入力データ10として訓練データが用いられる。効果データ55の算出処理には、入力データ10として訓練データとテストデータとの双方が用いられる。これにより、よりもっともらしい効果データ55を得ることができる。
【0065】
また、例えば、多数ある分岐部や個別ルールから、フィールド値変更の候補データ51を作成する処理において、個々の分岐部や個別ルールに関する処理を、別々の独立した処理装置(CPU)に割り当て、これらを並列に動作させて並列処理を行うことができる。同様に、例えば、多数あるフィールド値変更の候補データ51の作成処理等において、個々のフィールド値変更の候補データ51等の作成処理やフィールドに関する処理を、別々の独立した処理装置に割り当て並列処理を行うことができる。これにより、データ分析処理の処理時間を短縮することができる。特に、本発明のデータ分析処理は、前述のような処理を採用することにより、高速化及び並列化に適した処理とすることができるので、並列計算機上での高速処理を実現することができる。
【0066】
【発明の効果】
以上説明したように、本発明によれば、データ分析装置において、第1の結果値を有するデータと第2の結果値を有するデータとの間の関係に基づいて第2の結果値を有するデータを第1の結果値を有するデータに変化させるための評価項目及びその値を抽出することにより、データ分析の結果として、候補データである結果値に影響を与える評価項目(要素)とその変更方法を出力することができると共に、効果データである当該変更の場合の変更の効果を出力することができるので、データ分析の結果をビジネスに適用可能とすると共に適用した場合の効果や分析対象の状況を改善する方法を明確に予測することができ、ユーザは具体的なデータ分析の結果に基づいて、ビジネスへの適用方法を直ちに判断することができる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】データ分析装置構成図である。
【図3】入力データ説明図である。
【図4】候補データ説明図である。
【図5】変更データ説明図である。
【図6】予測データ説明図である。
【図7】効果データ説明図である。
【図8】変更方法データ説明図である。
【図9】データ分析装置構成図である。
【図10】決定木説明図である。
【図11】関連度テーブル説明図である。
【図12】ルール説明図である。
【図13】データ分析装置構成図である。
【図14】データ分析装置構成図である。
【図15】データ分析装置構成図である。
【図16】データ分析装置構成図である。
【図17】条件テーブル説明図である。
【図18】データ分析装置構成図である。
【図19】フィールドテーブル説明図である。
【図20】データ分析装置構成図である。
【符号の説明】
2 分析部
3 予測部
4 効果計算部
51 候補データ
52 変更方法データ
53 変更データ
54 予測データ
55 効果データ
56 決定木
57 関連度テーブル
58 ルール
Claims (4)
- データ分析の対象データの入力を入力データとして受け付ける入力部と、
前記入力データから候補データ及び変更方法データを作成する分析部と、
前記候補データ及び前記変更方法データを出力する出力部と、
を有するデータ分析装置であって、
前記入力部は、複数のフィールドと1つの結果フィールドとから構成されるレコードを前記入力データとして複数受け付け、
前記分析部は、
予め定められた類似の定義に従って、望まない結果値を有するレコードのフィールド値に類似するフィールド値を有し、望む結果値を有するレコードを抽出し、前記抽出したレコードを第1のレコードとし、対応する前記第1のレコードが存在する望まない結果値を有するレコードを第2のレコードとしたとき、前記第2のレコードと前記第1のレコードとで値の異なるフィールドを抽出し、前記第2のレコードの数を数え上げて、前記候補データを作成する類似分析部と、
前記第1のレコードから前記値の異なるフィールドの値を抽出し、前記抽出した値の異なるフィールドの値を変更方法として、前記変更方法データを作成する類似変更部と、を有する
ことを特徴とするデータ分析装置。 - 前記入力データにおいて、前記値の異なるフィールドの値を前記変更方法に変更した変更データを作成し、前記変更データの各レコードに対し、予め定められた類似の定義に従って前記入力データから類似するレコードを検索し、前記検索したレコードの結果値を予測値として予測データを作成する類似予測部と、
前記予測データについて、前記フィールド値の変更毎に、前記フィールド値の変更前に望まない結果値を有していた前記入力データのレコードを第3のレコードとしたとき、前記第3のレコードの数と、前記第3のレコードの中で前記フィールド値の変更後に望む結果値を有するようになったレコードの数とを数え、その差を算出して、効果データを作成する効果計算部と、
をさらに有し、
前記出力部は、前記効果データを出力する、
ことを特徴とする請求項1に記載のデータ分析装置。 - データ分析の対象データの入力を入力データとして受け付ける入力部と、
前記入力データから候補データ及び決定木を作成する分析部と、
前記候補データ及び前記決定木を出力する出力部と、
を有するデータ分析装置であって、
前記入力部は、複数のフィールドと1つの結果フィールドとから構成されるレコードを前記入力データとして複数受け付け、
前記分析部は、
決定木作成アルゴリズムに従って、前記フィールドの各々を分岐部としてフィールド値毎に分岐し結果値が望まない結果値である場合に分岐を繰り返して決定木を作成する決定木作成部と、
前記決定木の分岐部において、望まない結果値を有するレコードのフィールド値に類似するフィールド値を有し、望む結果値を有するレコードを抽出し、前記抽出したレコードを第1のレコードとし、対応する前記第1のレコードが存在する望まない結果値を有するレコードを第2のレコードとしたとき、前記第2のレコードと前記第1のレコードとで値の異なるフィールドを抽出し、前記第2のレコードの数を数え上げて、前記候補データを作成する決定木分析部と、
前記第1のレコードから前記値の異なるフィールドの値を抽出し、前記抽出した値の異 なるフィールドの値を変更方法として、前記変更方法データを作成する決定木変更部と、を有する
ことを特徴とするデータ分析装置。 - 前記入力データにおいて、前記値の異なるフィールドの値を前記変更方法に変更した前記変更データを作成し、前記変更データの各レコードに対し、前記決定木の分岐に従って上から順に結果値を得るまで辿り前記決定木の末端の結果値を読み取り、前記読み取った結果値を当該レコードの予測値として予測データを作成する決定木予測部と、
前記予測データについて、前記フィールド値の変更毎に、前記フィールド値の変更前に望まない結果値を有していた前記入力データのレコードを第3のレコードとしたとき、前記第3のレコードの数と、前記第3のレコードの中で前記フィールド値の変更後に望む結果値を有するようになったレコードの数とを数え、その差を算出して、効果データを作成する効果計算部と、
をさらに有し、
前記出力部は、前記効果データを出力する、
ことを特徴とする請求項3に記載のデータ分析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11592799A JP4234841B2 (ja) | 1999-04-23 | 1999-04-23 | データ分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11592799A JP4234841B2 (ja) | 1999-04-23 | 1999-04-23 | データ分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000305941A JP2000305941A (ja) | 2000-11-02 |
JP4234841B2 true JP4234841B2 (ja) | 2009-03-04 |
Family
ID=14674646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11592799A Expired - Fee Related JP4234841B2 (ja) | 1999-04-23 | 1999-04-23 | データ分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4234841B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104685492A (zh) * | 2012-09-27 | 2015-06-03 | 株式会社东芝 | 数据分析支援装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058562A (ja) * | 2001-08-02 | 2003-02-28 | Ncr Internatl Inc | インタラクティブビジネスの分析環境下における予測モデルのコンピュータを利用した動的な分析構築方法 |
US7346551B2 (en) * | 2002-12-23 | 2008-03-18 | Cybersource Corporation | Method and apparatus for custom strategy specification in a hosted electronic transaction service system |
JP3942568B2 (ja) * | 2003-09-04 | 2007-07-11 | 株式会社国際電気通信基礎技術研究所 | 作曲支援装置および作曲支援プログラム |
JP2005115868A (ja) | 2003-10-10 | 2005-04-28 | Sony Corp | 私的情報蓄積装置及び私的情報蓄積方法、並びに、私的情報管理装置及び私的情報管理方法 |
JP4418693B2 (ja) * | 2004-02-16 | 2010-02-17 | 株式会社イー・ファルコン | 集団評価装置 |
JP6163269B2 (ja) * | 2014-07-29 | 2017-07-12 | 株式会社日立製作所 | 嗜好分析システム |
-
1999
- 1999-04-23 JP JP11592799A patent/JP4234841B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104685492A (zh) * | 2012-09-27 | 2015-06-03 | 株式会社东芝 | 数据分析支援装置 |
US10515051B2 (en) | 2012-09-27 | 2019-12-24 | Kabushiki Kaisha Toshiba | Data analysis supporting apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2000305941A (ja) | 2000-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4382526B2 (ja) | 文章分類装置および方法 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US20020069197A1 (en) | Method and apparatus for categorizing information, and a computer product | |
JP4490012B2 (ja) | ファイル検索装置、ファイル検索プログラム | |
CN112035620A (zh) | 医疗查询系统的问答管理方法、装置、设备及存储介质 | |
JP7428927B2 (ja) | ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置 | |
JPH10240716A (ja) | 時系列データ解析装置及びプログラムを記録した機械読み取り可能な記録媒体 | |
CN106599047A (zh) | 一种信息的推送方法及装置 | |
JP2012073812A (ja) | データ分析支援システム及び方法 | |
JP5391637B2 (ja) | データ類似度計算システム、データ類似度計算方法およびデータ類似度計算プログラム | |
JP4234841B2 (ja) | データ分析装置 | |
CN104615910A (zh) | 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法 | |
CN112598405B (zh) | 一种基于大数据的商业项目数据管理方法及系统 | |
CN113408207A (zh) | 基于社会网络分析技术的数据挖掘的一种方法 | |
CN112860850A (zh) | 人机交互方法、装置、设备及存储介质 | |
CN116910650A (zh) | 数据识别方法、装置、存储介质及计算机设备 | |
JP4194697B2 (ja) | 分類ルール探求式クラスター分析装置 | |
JP2016076115A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115147020B (zh) | 装修数据处理方法、装置、设备及存储介质 | |
JP6300572B2 (ja) | データ分析プログラム、及びデータ分析装置 | |
JP2007249600A (ja) | 目的データをカテゴリに分類する方法 | |
JP2002024251A (ja) | 時系列データの分類方法及び装置並びに時系列データの分類プログラムを記録した記録媒体 | |
KR20130021945A (ko) | 상품 정보 자동 추출 방법 및 장치 | |
JP2001155020A (ja) | 類似文書検索装置、類似文書検索方法及び記録媒体 | |
CN110737749B (zh) | 创业计划评价方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071015 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080527 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080527 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080826 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081212 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131219 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |