JP2005063353A - 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体 - Google Patents

説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体 Download PDF

Info

Publication number
JP2005063353A
JP2005063353A JP2003295979A JP2003295979A JP2005063353A JP 2005063353 A JP2005063353 A JP 2005063353A JP 2003295979 A JP2003295979 A JP 2003295979A JP 2003295979 A JP2003295979 A JP 2003295979A JP 2005063353 A JP2005063353 A JP 2005063353A
Authority
JP
Japan
Prior art keywords
variable
explanatory
data analysis
explanatory variable
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003295979A
Other languages
English (en)
Inventor
Tomoko Shibata
朋子 柴田
Kentaro Hotta
健太郎 堀田
Toshinao Kokubu
利直 国分
Hiroyuki Magarisawa
弘行 曲沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003295979A priority Critical patent/JP2005063353A/ja
Publication of JP2005063353A publication Critical patent/JP2005063353A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 目的変数を持った相関分析に用いる説明変数の有効度判定ルールを確立し、その定義したルールに従い有効度判定を行う手順、及びそこで使用する指標を明らかにする。
【解決手段】 説明変数有効度検証のためのデータ分析装置は、クロス集計手段と、相関ルール抽出手段と、有効説明変数判定手段とを備えている。クロス集計手段は、個々の説明変数毎に目的変数に対する影響度を測定し、相関ルール抽出手段は、複数の説明変数を同時に用いて目的変数に対する相関ルールを抽出し、有効説明変数判定手段は、個々の説明変数として影響度が高くかつ相関ルールを形成している説明変数を有効と判定する。
【選択図】 図2

Description

本発明は、決定木等の相関分析を行う際に、使用する説明変数の有効度を事前に検証し、試行錯誤作業の削減やより精度の高い相関ルールの抽出を実現するためのデータ分析装置、このデータ分析をコンピュータに実行させるためのプログラム及びこのプログラムの記録媒体に関する。
決定木等、仮説発見型分析を含んだ一連のデータ分析プロセスは、大まかに、「データ収集/加工」、「データ分析」、「仮説導出/施策立案」、「施策実施/検証」のフェイズから構成される。これらのフェイズは互いにフィードバック可能でありクローズドループを成すべきであると考えられている。
データ分析プロセスに関わる体系化を行う従来技術として、以下の2つが知られている。
第1の従来技術は、データ分析ツールにおいて世界最大のシェアを占めるSAS社(SAS Institute)が提唱するSEMMAプロセスである(非特許文献1)。このSEMMAは、Sample、Explore、Modify、Model、Assessの頭文字を取ったものであり、SAS社のデータマイニング製品であるEnterprise Minerに実装されている様々な機能部品が、これら5つに分類され、体系化されている。SAS社は、「この手順に従って機能部品を選択すれば適切なデータ分析プロセスが実行できる」としているが、それぞれの機能部品の操作やパラメータ設定、導き出された結果に対する評価には統計的な専門知識が必要である。
第2の従来技術は、200を超えるベンダーやユーザが参画するSpecial Interest Groupによって業界標準とされた、CRISP−DM(Cross−Industry Standard Process for Data Mining)である(非特許文献2)。データ分析プロセスを6つのフェイズに分類し、各フェイズにおけるガイドラインと作業内容、目的を段階毎に示している。CRISP−DMは方法論としてドキュメント化されているが、対象とする範囲が広範で、マクロなスタンスによって記述されたものであり、データマイニングプロセスを業務へ導入する際のコンセプトメイクやコンサルティングのガイドラインとして用いるのが適当であると考えられる。従って、実務の際には、個別要件毎に具体的な作業内容を改めて洗い出す必要があり実践性に欠ける面がある。
一方、本願発明者等もデータ分析プロセスの体系化を目指しており、より実践的な方法論の検討を進めている。今までの検討範囲は、図1に示す一連のデータ分析プロセスのうち、データ収集/加工及び、(2)及び(3)に当たる部分であった。データ加工に関しては、煩雑なデータ加エプロセスの部品化、(2)及び(3)に関しては、データ分析結果の評価手法の提唱等、データ分析業務において統計の専門知識が無くても一連のプロセスを実行できるような個別技術の検討を行ってきた(非特許文献3、4)。しかし、全てのフェイズ及びフェイズ間の要件に対応しきれていないという問題があった。
SEMMA:http://www.sas.com/technologies/analytics/datamining/miner/semma.html CRISP−DM:http://www.spss.co.jp/PSG/crisp-dm/crispdm.htm 国分、他、「新サービス市場拡大/シェア獲得促進に向けたマーケティング分析支援システム」、NTTジャーナル、Vol.15、No.6、(2003) 柴田、他、「相関ルール分析結果に対する複合スコアリング手法の検討」、信学会2003春季総合大会
今回フォーカスしたフェイズは、図1に示した一連のデータ分析プロセスのうち、「データ収集/加工」から「データ分析」に至る(1)の部分に当たる。このフェイズの目的は、「データ分析」フェイズのために、有効な説明変数を準備することである。従来は、大まかには前述したSEMMAのような手順に従うとしても、統計的な処理を駆使したデータハンドリング作業そのものは、個々の専門家の知見に基づいて実施されていた。本願発明者等の、分析プロセス体系化検討に対するコンセプトは、一連の作業を、高度な統計的スキルなしに、簡易に実行できるような実践的方法論の確立である。
従って、本発明の第1の課題は、目的変数を持った相関分析に用いる説明変数の有効度判定ルールを確立することにある。
本発明の第2の課題は、第1の課題において検討し定義したルールに従い有効度判定を行う手順、及びそこで使用する指標を明らかにすることにある。
前述した課題を解決するために、本発明によれば、クロス集計手段と、相関ルール抽出手段と、有効説明変数判定手段とを備えた説明変数有効度検証のためのデータ分析装置、このデータ分析をコンピュータに実行させるためのプログラム及びこのプログラムの記録媒体が提供される。クロス集計手段は、個々の説明変数毎に目的変数に対する影響度を測定し、相関ルール抽出手段は、複数の説明変数を同時に用いて目的変数に対する相関ルールを抽出し、有効説明変数判定手段は、個々の説明変数として影響度が高くかつ相関ルールを形成している説明変数を有効と判定する。
より詳しくは、このデータ分析装置は、あらかじめ目的変数を決定し、それに対する説明変数候補群を準備しておき、それらをクロス集計手段に入力して個々の説明変数毎に目的変数に対する影響度を算出し、影響度の高い順に説明変数をソートし、次に、先ほどと同じ目的変数と説明変数候補群のデータを相関ルール抽出手段に入力することにより、複数の説明変数を同時に用いて目的変数の値の差異を説明する相関ルール群を抽出し、それらの相関ルールに出現している説明変数を列挙し、次に、クロス集計手段によって測定された個々の説明変数としての影響度の高さと相関ルール抽出手段によって測定されたの影響度の高さとの両方を、変数の有効度を表すパラメータであると定義し、それらのパラメータを有効説明変数判定手段に入力し、表1に示すような判定ルールを適用し、説明変数の有効度を4段階に判定するように構成されている。
Figure 2005063353
このデータ分析装置を構成する手段のうち、クロス集計手段は、例えば、表2に示すような統計処理に基づくデータ処理ロジックに対応している。
Figure 2005063353
また、相関ルール抽出手段は、例えば、決定木分析のような目的変数を持つ多変量解析を行う手段に対応している。従って、クロス集計手段は個々の説明変数が目的変数に与える影響の大きさを測定することを目的とし、相関ルール抽出手段は、説明変数同士の交互作用を加味した場合、個々の説明変数が目的変数に与えるか否かを測定することを目的とする。有効説明変数判定手段は、表1に示したように、単変数としての影響度が高くかつ交互作用を考慮しても有効な変数を、最も有効である(◎)とし、単変数としての影響度は高くないが、交互作用を考慮すると有効な変数を2番目に有効である(○)とし、単変数としての影響度は高いが、交互作用を考慮すると有効でない変数を余り有効でない(△)とし、単変数としての影響度、交互作用を考慮した場合の影響度が共に低い変数を有効でない(×)とし、説明変数の有効度を4段階に判定するロジックに対応している。
本発明によれば、目的変数を持った相関分析を実施するに当たって説明変数の有効度を事前検証する手順及び判定ルールが明確化されるため、個人の統計的スキルによる判断のブレを防止でき、一様の有意性を持つ有効度検証作業を行うことが可能になる。また、このように体系化された手段を、データ分析を実務的に実施しているセクションヘ業務フローとして導入することにより、説明変数の有効度検証がタイムリーに実施することができる。これにより、データ分析結果の精度を常に一定以上に保つ効果が得られる。
図2は本発明の好ましい実施形態における説明変数有効度判定処理のフローチャートである。
同図に示すように、まず、目的変数をあらかじめ決定し、さらにそれに対する説明変数候補群を準備しておく。説明変数の有効度検証が必要となるのは、目的変数が変更になった時、新しい説明変数が加わった時、又は相関分析結果の精度が落ちてきた時等が考えられる。例として、目的変数を「サービスXへの加入有無」とし、説明変数候補群には、カテゴリ変数(A、B、C、D)と、連続変数(E、F、G、H)とが存在するものとする。
次いで、これら目的変数及び説明変数候補群をクロス集計手段に入力して、個々の説明変数毎の目的変数に対する影響度を測定(算出)し、影響度の高い順に説明変数をソートする。本実施形態におけるクロス集計手段は、カテゴリ変数についてはカイ2乗検定、連続変数についてはt検定を用い、相関分析として決定木分析を行うものとする。ただし、表2に示したような他の統計処理に基づいてクロス集計を行っても良いことはもちろんである。
ここで算出及びソートした影響度はP値で表される。図3は、影響度を横軸に取った数直線を用いて、ソートされた説明変数を表している。
次いで、前述した目的変数及び説明変数候補群を相関ルール抽出手段に入力して、決定木分析を行う。相関ルール抽出手段は、決定木分析のような目的変数を持つ多変量解析を行い、説明変数同士の交互作用を加味した場合に個々の説明変数が目的変数に影響を与えるか否かを測定するものである。この場合、交互作用を考慮した説明変数の有効度は、決定木に出現するか否かで表わすことができる。
表3は、クロス集計手段及び相関ルール抽出手段によって得られた説明変数の有効度を表すパラメータ値をまとめたものである。
Figure 2005063353
図4は、決定木分析の出力である樹形図を示している。また、図5は、図3で示した数直線上の変数のうち、この樹形図に出現した変数について黒く塗った結果を示している。
有効説明変数判定手段は、表1に関連して述べたように、単変数としての影響度が高くかつ交互作用を考慮しても有効な変数について最も有効である(◎)と、単変数としての影響度は高くないが交互作用を考慮すると有効な変数について有効である(○)と、単変数としての影響度は高いが交互作用を考慮すると有効でない変数をあまり有効ではない(△)と、単変数としての影響度及び交互作用を考慮した場合の影響度が共に低い変数を有効ではない(×)とそれぞれ判定するものである。
表4は、本実施形態における有効説明変数判定手段の判定結果を示している。
Figure 2005063353
以上述べた処理によって、サービスXへの加入有無を判定する相関ルールを導出するために有効な説明変数を抽出することができる。
以降の決定木分析においては、有効であると判定された説明変数を用いて分析を実行することにより、効率良く精度の高いルールを得ることができる。
以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。
データ分析プロセスを示す図である。 本発明の一実施形態である説明変数有効度判定処理のフローチャートである。 単変数としての影響度順のソート結果を示す図である。 決定木分析結果の樹形図である。 単変数としての影響度順のソート結果(決定木出現有無付き)を示す図である。

Claims (8)

  1. 個々の説明変数毎に目的変数に対する影響度を測定するクロス集計手段と、
    複数の説明変数を同時に用いて目的変数に対する相関ルールを抽出する相関ルール抽出手段と、
    個々の説明変数として影響度が高くかつ相関ルールを形成している説明変数を有効と判定する有効説明変数判定手段と、
    を備えたことを特徴とする説明変数有効度検証のためのデータ分析装置。
  2. 前記クロス集計手段が、個々の説明変数毎に目的変数に対する影響度を算出し、影響度の高い順に説明変数をソートする手段であることを特徴とする請求項1に記載のデータ分析装置。
  3. 前記相関ルール抽出手段が、目的変数を持つ多変量解析を行い、説明変数同士の交互作用を加味した場合に個々の説明変数が目的変数に影響を与えるか否かを測定する手段であることを特徴とする請求項1又は2に記載のデータ分析装置。
  4. 前記目的変数を持つ多変量解析が、決定木分析であることを特徴とする請求項3に記載のデータ分析装置。
  5. 前記有効説明変数判定手段が、個々の説明変数としての影響度が高いかどうか及び交互作用を考慮しても有効であるかどうかによって有効であるなしを判定する手段であることを特徴とする請求項1から4のいずれか1項に記載のデータ分析装置。
  6. 前記有効説明変数判定手段が、説明変数の有効度を4段階に判定する手段であることを特徴とする請求項5に記載のデータ分析装置。
  7. 請求項1から6のいずれか1項に記載のデータ分析をコンピュータに実行させるためのプログラム。
  8. 請求項7に記載のプログラムを記録したコンピュータに読取り可能な記録媒体。
JP2003295979A 2003-08-20 2003-08-20 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体 Pending JP2005063353A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003295979A JP2005063353A (ja) 2003-08-20 2003-08-20 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003295979A JP2005063353A (ja) 2003-08-20 2003-08-20 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体

Publications (1)

Publication Number Publication Date
JP2005063353A true JP2005063353A (ja) 2005-03-10

Family

ID=34372031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003295979A Pending JP2005063353A (ja) 2003-08-20 2003-08-20 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP2005063353A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018331A (ja) * 2009-07-09 2011-01-27 Accenture Global Services Gmbh マーケティング・モデル決定システム
JP5349699B1 (ja) * 2012-09-26 2013-11-20 株式会社東芝 文書分析装置およびプログラム
US8600709B2 (en) 2009-08-31 2013-12-03 Accenture Global Services Limited Adaptive analytics multidimensional processing system
WO2015045318A1 (ja) * 2013-09-27 2015-04-02 日本電気株式会社 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018331A (ja) * 2009-07-09 2011-01-27 Accenture Global Services Gmbh マーケティング・モデル決定システム
US9123052B2 (en) 2009-07-09 2015-09-01 Accenture Global Services Limited Marketing model determination system
US8600709B2 (en) 2009-08-31 2013-12-03 Accenture Global Services Limited Adaptive analytics multidimensional processing system
JP5349699B1 (ja) * 2012-09-26 2013-11-20 株式会社東芝 文書分析装置およびプログラム
WO2014049708A1 (ja) * 2012-09-26 2014-04-03 株式会社 東芝 文書分析装置およびプログラム
WO2015045318A1 (ja) * 2013-09-27 2015-04-02 日本電気株式会社 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体
JPWO2015045318A1 (ja) * 2013-09-27 2017-03-09 日本電気株式会社 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体

Similar Documents

Publication Publication Date Title
CN110992167B (zh) 银行客户业务意图识别方法及装置
CN108509617A (zh) 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端
CN106529293A (zh) 一种用于恶意软件检测的样本类别判定方法
TW201519150A (zh) 文件分類系統及文件分類方法以及文件分類程式
Wohlgenannt et al. Extracting social networks from literary text with word embedding tools
CN109063983A (zh) 一种基于社交媒体数据的自然灾害损失实时评估方法
CN106126736A (zh) 面向软件安全性bug修复的软件开发者个性化推荐方法
Singh et al. Introduce quality processes through DOE: a case study in die casting foundry
Chaturvedi et al. Design pattern detection using machine learning techniques
Mahringer et al. Sequence analysis in routine dynamics
JP2005063353A (ja) 説明変数有効度検証のためのデータ分析装置、該データ分析をコンピュータに実行させるためのプログラム及び該プログラムの記録媒体
Owen et al. Standardization and Data Augmentation in Genetic Programming
CN106228453A (zh) 一种获得用户职业信息的方法和装置
CN111445025B (zh) 确定业务模型超参数的方法和装置
Iriondo Pascual et al. Multi-objective optimization of ergonomics and productivity by using an optimization framework
CN108009152A (zh) 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置
JP5233587B2 (ja) 業務フロー分析プログラム、方法及び装置
KR102170535B1 (ko) 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법
CN109284360A (zh) 一种专利检索自动去噪方法和装置
JP5506629B2 (ja) 準頻出構造パターンマイニング装置と頻出構造パターンマイニング装置とそれらの方法、及びプログラム
CN109388741A (zh) 一种金融信息的推送方法和装置
Heymann et al. Assessment Framework for Deployability of Machine Learning Models in Production
Voronkov et al. Usage of a BART algorithm and cognitive services to research collaboration platforms
CN111460302A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
JP2002251590A (ja) 文書分析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070718

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071120