JP4464323B2 - 情報処理装置及びその制御方法、プログラム - Google Patents

情報処理装置及びその制御方法、プログラム Download PDF

Info

Publication number
JP4464323B2
JP4464323B2 JP2005188287A JP2005188287A JP4464323B2 JP 4464323 B2 JP4464323 B2 JP 4464323B2 JP 2005188287 A JP2005188287 A JP 2005188287A JP 2005188287 A JP2005188287 A JP 2005188287A JP 4464323 B2 JP4464323 B2 JP 4464323B2
Authority
JP
Japan
Prior art keywords
data
item
axis
information
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005188287A
Other languages
English (en)
Other versions
JP2007011468A (ja
Inventor
吾朗 大下
賢太郎 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon IT Solutions Inc
Original Assignee
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon IT Solutions Inc filed Critical Canon IT Solutions Inc
Priority to JP2005188287A priority Critical patent/JP4464323B2/ja
Publication of JP2007011468A publication Critical patent/JP2007011468A/ja
Application granted granted Critical
Publication of JP4464323B2 publication Critical patent/JP4464323B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、1レコードが複数の項目からなるデータのデータ集合に対し、前記データ集合に関する評価情報を生成して出力装置に出力する情報処理装置及びその制御方法、プログラムに関するものである。
大量データの中からの有益なパターンの発見技術に関しては、多変量解析技術やデータマイニングと一般的に総称されている各種の分析方法が提供されている。
データの中にある規則性(パターン)については、一般的に2つの考え方がある。この2つの考え方の大きな違いは、データの中にある規則性について分析者による理解を必要とするか否かである。
まず、規則性の理解を必要としないものとしては、例えば、需要予測があげられる。需要予測の場合には、予測量が算出さえできれば、規則性を理解しなくとも分析結果の利用価値がある。
これに対して、製造品質不良の原因をデータより探り、不良発生に至る規則性を理解した上で対処策を講じたいような場合には、分析者がデータマイニング結果を理解し、その中に含まれる規則性を的確に掴むことが求められ、それが重要な技術的視点となる。
分析者が理解しやすいことを特徴とする各種の技術が提供されている。例えば、データに隠された規則性を、階層的な木構造、または等価なIF THENルール群で表す決定木や回帰木と呼ばれる方法がある。以下、総称して決定木と呼ぶこととする。
また、分析者の理解を支援するために、データマイニングが導出した規則性(パターン)に含まれている分析対象データのリスト情報など、パターンと連動してレコード情報を表示したり、パターンに含まれていない属性も参考情報として表示する技術などが提案されている。これは、決定木を始め、データマイニングの手法の多くが、規則性として導出した一部分の属性情報しか提示しないために、導出されたパターンに含まれていない属性との関連情報が存在しないからである。
例えば、特許文献1では、並行座標へ多数の属性と、データマイニング結果も一つの属性として表示し、その関連性を座標間を結ぶ線で可視化を行っている。
また、特許文献2では、導出されたパターンに含まれている属性の特定カテゴリ値以外の値についても参照可能とするために、OLAP(On−Line Analytical Processing)集計結果を表示する方法等が開示されている。
また、特許文献3では、分析対象データに対して多次元クロス集計を行い、その中より分析者が指定したセル範囲に対して、並行座標として表示する方法が開示されている。この技術の特徴は、分析者がクロス集計表より詳細を調べたいと思うセルを指定させ、それに連動させて指定した範囲のデータを並行座標の形式でグラフ表示し、分析者が確認しながら対話的にセル範囲を移動させるというものである。
また、特許文献4では、決定木などにより生成されたグラフ構造を持つ分析結果に対して、分析に使用したデータの中より、特定ノード(決定木の場合、IF THENルールで表される)に含まれるデータを抽出する。そして、抽出した結果の一覧リスト表示を行うための、汎用的なクエリが開示されている。
特開平11−15897号公報 特開2001−273315号公報 特開平11−15897号公報 特開2005−25731号公報
上述の従来技術が提示された背景として、分析者が導出されたルールの真偽を吟味する過程では、データマイニングの個々の手法が表示するよりも多くの情報を必要としていることに起因した共通の課題がある。しかしながら、上述の従来技術で解決されていない課題として、以下に示す2つの有用情報の不足が存在する。
課題1:履歴データよりデータ件数の意味を理解するための情報
課題2:データマイニング手法により抽出された情報以外の分析者の理解を助ける有用情報の表示
●課題1の説明
課題1を説明するにあたり、履歴データの構成について説明する。
例えば、会員に対してサービスを行うような業態の顧客取引状況の履歴データは、一般的に分析対象とされるデータレコードが、各会員識別キー毎に、サービス期間を表す単位、月・週・日等の時期を表す識別キーにより、反復しながらデータレコードが蓄積される。
また、製造品質の分析のような場合には、その製造履歴データは、製造した製品区別に対して、製造時期を表す識別キーが反復して、蓄積される。例えば、装置の稼動状態を監視して、その装置故障原因を分析したい場合では、装置の識別キーに対して、稼動時期を表す識別キーが反復して、蓄積される。
また、取扱い商品の売れ行きを分析したいような場合では、商品識別キーに対して、販売時期を表す単位、月・週・日・時間等の時期を表す識別キーにより、反復しながらデータレコードが蓄積される。
また、所定の期間だけ有効の会員制サービス等で、会員識別キーと、サービス契約の更新時にデータレコードが蓄積されるような場合は、更新回数がキーとなり反復蓄積される。
以上、例示したように、分析対象となるデータの構造として、サービス対象会員や、製造対象製品、監視対象装置、取扱い商品等の対象となるITEM(項目)に関するキー(以下、ITEMキー)と、これらのITEMが時間軸や更新回数等の反復を表すキー(以下、反復キー)の2つを少なくとも保持するデータレコードにより蓄積される場合が多く存在する。
このような構造を持つデータを、以下、ITEMキーと反復キーを持つ、または、ITEM軸と反復軸を持つデータと呼ぶこととする。
履歴データは、上述の通りITEM軸と反復軸とを含む構成で成り立っているために、レコード件数は両軸のかけ合わせで求められる。そのため、例えば、レコード件数が、膨大である(例えば、10万件)場合、その構成を把握することは容易に実現することができない。また、ITEM軸、反復軸の両軸ともに、欠損のレコードがある場合は、さらに、構成の把握が困難になる。
例えば、ITEM軸であれば、新規会員や、退会会員のように、分析対象期間の中で継続して、レコードが存在しない(欠損データがある)場合がある。また、反復軸に関しても、特定時期の情報が収集されていない(できなかった)ような状況も実際には多く存在する。分析者は、分析結果を正しく理解するために、対象データの構成について把握しておく必要があるが、従来の履歴データの捕らえ方だけでは、データ件数の意味合いを把握するのが難しいという課題があった。
●課題2の説明
データマイニングに使用したい属性の中には、欠損値の比率が高いものが存在する場合がある。例えば、トラブル発生や、注目に値する興味深い事象に関して追跡調査を行った場合などである。このような少数のレコードについてだけ評価を記録した情報は、背景にある規則性を考える上で分析者にとって有用な情報である。そのため、データマイニングを行う場合にも、情報を積極的に活用することが望ましい。しかしながら、データの定量化が均質でないという分析技術上の問題点により、データマイニングの説明変数として使用するには適さないという課題があった。
また、データの定量化が均質で、欠損値比率も低い場合であっても、結果解釈上の観点より、説明変数としてある類似した属性と同時に使用したくない場合がある。導出されるルールが分析者の分析意図に反して類似する属性がルール中に多く含まれてしまうなど、結果解釈を妨げてしまうことを防ぐために行なわれるものである。このように、説明変数候補ではあるが、説明変数に用いず結果を解釈する上で参考にしたいような場合、効果的な結果解釈のための表示方法がなかった。
また、ビジネス取引履歴からロイヤルカスタマーとなる条件や、製造履歴から製造不良となる条件など、履歴データの中からデータマイニングにより規則性として抽出する場合、導出されたルールに含まれるデータ件数について、上述のITEM軸と反復軸に関するデータ件数の把握が難しいという課題があった。
分析者が分析により得たいルールとは、一般的に汎用性が高い(再現性がある)と考えられるパターンを抽出することである。例えば、購入金額が多い会員に共通する属性に関するパターンを得ることで、同様の属性を持つ層をターゲットして勧誘を図るとか、ある特定時期に購入金額が増加するパターンを得ることで、その時期にキャンペーンを行うといった活用をするわけである。上述の例からわかるように、求めるパターンには、会員などのITEM軸に関する汎用性と、反復軸に関する汎用性の両面が含まれている。
分析者がルールを理解する上で、上述のITEM軸と反復軸のどちらに重きがおかれたルールであるかを確認したい場合があっても、従来技術で提示されている方法では、ITEM軸と反復軸のかけ合わせであるデータ件数しか得ることができず、確認できないという課題があった。
本発明は上記の課題を解決するためになされたものであり、データ分析結果として、より有用で効果的な情報を提供することができる情報処理装置及びその制御方法、プログラムを提供することを目的とする。
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
1レコードが複数のデータ項目からなるデータのデータ集合に対し、前記データ集合に関する評価情報を生成して出力装置に出力する情報処理装置であって、
前記データを一意に識別するためのデータ項目のうち、前記データの観測対象を識別するためのデータ項目であるITEM軸項目、及び、前記データの観測時期や回数を識別するためのデータ項目である反復軸項目を指定する第1の指定手段と、
前記データ集合中の、前記ITEM軸項目のデータの種類、前記反復軸項目のデータの種類及びそれらの種類数を集計する第1の集計手段と、
前記第1の集計手段で集計したITEM軸項目のデータ種類ごとに、前記反復軸項目データの存在する種類数であるITEM軸項目別反復数を集計し、且つ、前記反復軸項目のデータ種類ごとに、前記ITEM軸項目データの存在する種類数である反復軸項目別ITEM数を集計する第2の集計手段と、
前記第1の集計手段で集計したITEM軸項目のデータ種類数と反復軸項目のデータ種類数とを用いて算出される理論レコード数、及び、前記第2の集計手段で集計した前記ITEM軸項目別反復数を用いて前記データ集合に対するITEM軸項目についての図式情報を生成し、且つ、前記理論レコード数と前記反復軸項目別ITEM数と用いて前記データ集合に対する前記反復軸項目についての図式情報を生成する生成手段と、
前記ITEM軸項目についての図式情報及び前記反復軸項目についての図式情報を、前記評価情報として前記出力装置に出力制御する出力制御手段と
を備える。
また、好ましくは、前記生成手段は、前記図式情報として、
前記第1の指定手段指定した前記ITEM軸項目のデータ種類を第1軸、前記ITEM軸項目のデータの種類毎に、前記反復軸項目のデータの種類の内、実際にレコードが存在する種類数を第2軸とした座標系上で表現される、前記理論レコード数に対する前記ITEM軸項目別反復数の密度分布グラフを生成し、且つ、前記第1の指定手段で指定した前記反復軸項目のデータの種類を第1軸、及び、前記反復軸項目のデータの種類毎に、前記ITEM軸項目のデータの種類の内、実際にレコードが存在する値の種類数を第2軸とした座標系上で表現される、前記理論レコード数に対する前記反復軸項目別ITEM数の密度分布グラフを生成する。
また、好ましくは、前記生成手段は、前記座標系を構成する前記第1軸のデータの種類を、前記第2軸を構成するデータの種類のうち、実際にレコードが存在する種類数でソートした順序で座標系上に表現される、前記密度分布グラフを生成する。
また、好ましくは、前記生成手段は、前記評価情報として、更に、
実測レコード数を分子とし、前記理論レコード数を分母とする除算によって得られる値を生成し、
前記実測レコード数は、前記第1軸を構成する各値毎の前記第2軸を構成する項目の値の内、実際にレコードが存在する値の種類の総和であり、
前記理論レコード数は、前記ITEM軸項目のデータ種類数と前記反復軸項目のデータ種類数との積算により算出される。
また、好ましくは、前記生成手段は、前記評価情報として、更に、前記密度分布グラフのバラツキを示す指標を生成する。
また、好ましくは、前記データ集合に対してデータマイニング処理を実行するデータマイニング手段とを更に備え、
前記出力制御手段は、前記図式情報、及び前記データマイニング手段のデータマイニング結果とを、前記評価情報として前記出力装置に出力制御する。
また、好ましくは、前記データマイニング手段によるデータマイニング結果として得られる、前記データ集合の各データに含まれている属性間の関連性を示す階層構造のノードの内、指定されたノードに対応するデータの特定属性情報を算出する算出手段を更に備え、
前記出力制御手段は、さらに前記特定属性情報を、前記評価情報として前記出力装置に出力制御する。
また、好ましくは、前記データマイニング結果として得られる、前記データ集合の各データに含まれている属性間の関連性を示す階層構造のノードから、前記算出手段による前記データの特定属性情報の算出対象とする基準ノード及び特定属性を指定する第2の指定手段を更に備える。
また、好ましくは、前記第2の指定手段により、前記特定情報として1つの特定属性が選択された場合に、
前記算出手段は、前記特性属性情報として、
1)前記基準ノードに属するレコードに対応する特定属性の有効データ数を示す度数と、
2)前記基準ノードにおける特定属性の有効データ数と、前記基準ノードの下位階層の各ノードにおける特定属性の有効データ数との比率である分配率と、
3)前記下位階層の各ノードに属すレコード数に対する特定属性の有効データ数との比率を示すノード内密度と、
を算出する。
また、好ましくは、前記第2の指定手段で指定された特定属性のデータ型が多値の値を示すカテゴリ型の場合、前記算出手段は、前記特性属性情報として、前記下位階層の各ノードに属するレコードに対応する特定属性のカテゴリ毎の有効データ数を示す度数を算出する。
また、好ましくは、前記第2の指定手段で指定された特定属性のデータ型が連続型の場合、前記算出手段は、前記特性属性情報として、前記下位階層の各ノードに属するレコードに対応する特定属性のデータ値の分布情報を算出する。
また、好ましくは、前記第2の指定手段で指定された特定属性のデータ型が多値の値を示すカテゴリ型であり、かつ前記特定属性として複数の属性が選択された場合、
前記算出手段は、前記特性属性情報として、
1)前記基準ノードに属するレコードに対応する特定属性毎の種類数と、
2)前記種類数の出現比率と、
3)前記出現比率に基づく図式情報と、
を算出する。
上記の目的を達成するための本発明による情報処理装置の制御方法は、以下の構成を備える。即ち、
1レコードが複数のデータ項目からなるデータのデータ集合に対し、前記データ集合に関する評価情報を生成して出力装置に出力する情報処理装置の制御方法であって、
前記データを一意に識別するためのデータ項目のうち、前記データの観測対象を識別するためのデータ項目であるITEM軸項目、及び、前記データの観測時期や回数を識別するためのデータ項目である反復軸項目を指定する第1の指定工程と、
前記データ集合中の、前記ITEM軸項目のデータの種類、前記反復軸項目のデータの種類及びそれらの種類数を集計する第1の集計工程と、
前記第1の集計工程で集計したITEM軸項目のデータ種類ごとに、前記反復軸項目データの存在する種類数であるITEM軸項目別反復数を集計し、且つ 前記反復軸項目のデータ種類ごとに、前記ITEM軸項目データの存在する種類数である反復軸項目別ITEM数を集計する第2の集計工程と、
前記第1の集計工程で集計したITEM軸項目のデータ種類数と反復軸項目のデータ種類数とを用いて算出される理論レコード数、及び、前記第2の集計工程で集計した前記ITEM軸項目別反復数を用いて前記データ集合に対するITEM軸項目についての図式情報を生成し、且つ、前記理論レコード数と前記反復軸項目別ITEM数と用いて前記データ集合に対する前記反復軸項目についての図式情報を生成する生成工程と、
前記ITEM軸項目についての図式情報及び前記反復軸項目についての図式情報を、前記評価情報として前記出力装置に出力制御する出力制御工程と
を備える。
上記の目的を達成するための本発明によるプログラムは、以下の構成を備える。即ち、
コンピュータを、1レコードが複数のデータ項目からなるデータのデータ集合に対し、前記データ集合に関する評価情報を生成して出力装置に出力する情報処理装置として機能させるためのプログラムであって、
前記コンピュータを、
前記データを一意に識別するためのデータ項目のうち、前記データの観測対象を識別するためのデータ項目であるITEM軸項目、及び、前記データの観測時期や回数を識別するためのデータ項目である反復軸項目を指定する第1の指定手段と、
前記データ集合中の、前記ITEM軸項目のデータの種類、前記反復軸項目のデータの種類及びそれらの種類数を集計する第1の集計手段と、
前記第1の集計手段で集計したITEM軸項目のデータ種類ごとに、前記反復軸項目データの存在する種類数であるITEM軸項目別反復数を集計し、且つ、前記反復軸項目のデータ種類ごとに、前記ITEM軸項目データの存在する種類数である反復軸項目別ITEM数を集計する第2の集計手段と、
前記第1の集計手段で集計したITEM軸項目のデータ種類数と反復軸項目のデータ種類数とを用いて算出される理論レコード数、及び、前記第2の集計手段で集計した前記ITEM軸項目別反復数を用いて前記データ集合に対するITEM軸項目についての図式情報を生成し、且つ、前記理論レコード数と前記反復軸項目別ITEM数と用いて前記データ集合に対する前記反復軸項目についての図式情報を生成する生成手段と、
前記ITEM軸項目についての図式情報及び前記反復軸項目についての図式情報を、前記評価情報として前記出力装置に出力制御する出力制御手段と
として機能させる
本発明によれば、データ分析結果として、より有用で効果的な情報を提供することができる情報処理装置及びその制御方法、プログラムを提供できる。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
<実施形態1>
図1Aは本発明の実施形態1の情報処理装置の機能構成を示す図である。
100は入出力部であり、ユーザからの操作指示を制御部101へ渡すとともに、制御部101からの処理結果をユーザへ出力する。つまり、入出力部100では、ユーザと制御部101間の情報伝達を行うインタフェースとして機能する。
制御部101は、入出力部100よりユーザの操作指示を受信し、指示内容に応じてレコード識別キー分割部101a、種類数集計部101b、グラフ化(図式情報作成)部101cを実行する。
データ管理部102は、履歴データ102a及び算出データ102bを管理する。
次に、実施形態1の情報処理装置のハードウェア構成について、図1Bを用いて説明する。
図1Bは本発明の実施形態1の情報処理装置のハードウェア構成を示す図である。
301はCPUであり、情報処理装置全体の制御を実行する。302はRAMであり、データ作業領域、一時待避領域として機能する。303はROMであり、情報処理装置を制御するための各種制御プログラムや設定情報等を記録する。
尚、図1の制御部101、レコード識別キー分割部101a、種類数集計部101b、グラフ化(図式情報作成部)部101cは、例えば、CPU301がROM303上のプログラムをRAM302上にロードして実行することで実現される。
304はハードディスクドライブ(HDD)であり、画像データ等の各種データを記憶する。図1のデータ管理部102は、例えば、このハードディスクドライブ304で実現される。305はネットワークI/F(インタフェース)であり、ネットワーク104を介するデータの送受信を行う。
306はビデオI/F(インタフェース)であり、ディスプレイ部321に表示する画像等の表示制御を行う。321はディスプレイ部であり、液晶やCRT等から構成され、図1の入出力部100の出力機能に対応する。尚、この出力機能としては、ディスプレイ部321及びビデオI/F306の代りに、プリンタ(不図示)を用いても良い。
307はポインティングデバイスであり、例えば、マウス、入力タブレット、タッチパネル等から構成される。308はキーボードである。図1の入出力部100の入力機能は、このポインティングデバイス307及びキーボード308によって実現される。
309は外部記憶装置であり、CD−ROM、CD−R/RW、DVD−ROM、DVD−R/RW、DVD−RAM等から構成される。図1のデータ管理部102は、この外部記憶装置309で実現されても勿論かまわない。
311は上記各構成要素を相互に接続するバスである。
次に、制御部101内の各機能(レコード識別キー分割部101a、種類数集計部101b、グラフ化(図式情報作成部)部101c)と、履歴データ102a及び算出データ102bとの入出力関係について、図2を用いて説明する。
図2は本発明の実施形態1の制御部内の各機能と、履歴データ及び算出データの入出力関係を示す図である。
制御部101内の各機能(レコード識別キー分割部101a、種類数集計部101b、グラフ化(図式情報作成部)部101c)は、図2に示すような、履歴データ及び算出データの入出力関係を有している。ここで、算出データとは、各機能による処理によって出力されるデータを意味するものである。
次に、実施形態1が実行する処理の全体処理フローについて、図3を用いて説明する。
<全体処理フロー>
図3は本発明の実施形態1が実行する処理の全体処理フローを示すフローチャートである。この処理は、図1に示す制御部101によって行われることになる。
特に、実施形態1では、後述する相対密度分布グラフを表示する処理(相対密度分布グラフ表示処理)について説明する。
ステップS101で、制御部101が、ユーザからの操作指示を入出力部100から受信すると、レコード識別キー分割部101aにより、履歴データ102aをデータ管理部102より取得する。
ここで、履歴データの一例について、図4を用いて説明する。
図4は本発明の実施形態1の履歴データの一例を示す図である。
履歴データとは、観測対象を識別可能なITEMキーと観測時期や回数を識別可能な反復キーの重複のない組合せにより構成されるレコード識別キーと、レコード識別キーに対応して記録されている値(観測値)を一つ以上持つことを特徴とするデータである。
図4に示す例では、地域名、支店名、会員名の3つの属性よりITEMキーが構成される。また、年、月より反復キーが構成される。また、ITEMキー、反復キーの結合によりレコード識別キーが構成され、観測値として金額が構成される履歴データとなっている。
図3の説明に戻る。
ステップS102で、レコード識別キー分割部101aによって取得した履歴データ102aに基づいて、レコード識別キー分割処理を実行する。これは、例えば、レコード識別キー分割画面を入出力部100に出力して、その画面を介する指示入力に基づいて、レコード識別キー分割処理を実行する。
ここで、レコード識別キー分割画面の一例について、図5を用いて説明する。
図5は本発明の実施形態1のレコード識別キー分割画面の一例を示す図である。
このレコード識別キー分割画面500は、履歴データのレコード識別キーを構成する各項目を、ITEMキー(第1項目グループ)及び反復キー(第2項目グループ)のいずれかに割り当てるための画面である。
ここで、501は、レコード識別キーを構成する各項目をリスト表示するレコード識別キー表示領域である。502は、ITEMキーを構成する項目をリスト表示するITEMキー表示領域である。503は、反復キーを構成する項目をリスト表示する反復キー表示領域である。
ユーザは、レコード識別キー表示領域501中の任意の項目を選択して、キー504及び505を操作することによって、その選択した項目をITEMキー表示領域502及び反復キー表示領域503それぞれに追加することができる。一方で、ITEMキー表示領域502あるいは反復キー表示領域503中の任意の項目を選択して、キー504及び505を操作することで、その選択した項目をITEMキー若しくは反復キーを構成する項目から除外することも可能である。
そして、OKボタン506を操作すると、ITEMキー表示領域502及び反復キー表示領域503に設定されている項目に従って、レコード識別キーを構成する各項目がITEM軸と反復軸のどちらかに分割され、各ITEM軸と反復軸のレコード数及び種類数を算出する。
一方、キャンセルボタン507を操作すると、レコード識別キー分割画面500での設定項目がキャンセルされ、レコード識別キー分割画面500の表示が消去される。
尚、レコード数及び種類数は、履歴データ中のレコードを入力変数とする、図6に例示するSQL文等のデータベース言語により算出することが可能である。
レコード識別キー分割画面500より得られる分割指示内容のITEM軸項目、反復軸項目と、その分割結果は、算出データ102bの新規レコードとして、データ管理部102に保存される。
ここで、算出データ102bの一例について、図7を用いて説明する。
図7は本発明の実施形態1の算出データの一例を示す図である。
図7では、算出データ102のデータ例として、各項目値が制御部101内の各機能(レコード識別キー分割部101a、種類数集計部101b、グラフ化(図式情報作成部)部101c)の内のどの機能によって出力されているかを示している。
図中の1行目は項目名を示し、2行目は項目に対応する値を示している。
図5のレコード識別キー分割画面500による分割指示を実行した場合、分割指示内容は「ITEM軸」及び「反復軸」項目それぞれに、「地域名、支店名、会員名」及び「年、月」というように保存される。また、分割結果は「レコード数」、「ITEM軸種類数」及び「反復軸種類数」項目それぞれに、「11」、「3」及び「6」というように保存される。
図3の説明に戻る。
レコード識別キー分割処理が終了すると、ステップS103で、種類数集計部101bによって、種類数集計処理を実行する。種類数集計処理は、履歴データ102aと、レコード識別キー分割処理により保存された算出データ102bのレコードを入力として、そのレコードの集計結果の値をもとにソートして、算出データ102b(図7)の同一レコードの「ITEM軸項目別反復数」、「反復軸項目別ITEM数」項目へ保存する。
ここで、種類数集計処理の具体例について、図8を用いて説明する。
図8は本発明の実施形態1の種類数集計処理の具体例を説明するための図である。
図8はITEM軸項目を縦軸、反復軸項目を横軸とした場合の、各軸に対応するレコードの有無を「1」と「0」で表現している。ITEM軸項目別反復数、反復軸項目別ITEM数とは、縦横軸項目別に「1」(レコード有り)を合計した値(合計値)である。そして、この合計値に基づいて、各項目の降順ソートを行う。集計処理及びソート処理としては、例えば、図9に示すSQL文等のデータベース言語により実現することが可能である。
尚、この合計値は、換言すれば、各軸の項目の値において、実際にレコードが存在する項目の値の種類数(レコードの種類数)を示す値となる。また、ソート処理によって項目の降順ソートを行うことは、各軸のスケールが、項目の値の内、降順の値で配置されることになるので、項目の値の分布状況をより容易に視認することが可能となる。また、ソート処理は、降順ソートに限定されるものではなく、昇順ソートであっても良い。
図3の説明に戻る。
種類数集計処理が終了すると、ステップS104で、グラフ化部101cによって、グラフ化処理を実行する。グラフ化処理は、種類数集計処理によって保存された算出データ102bのレコードを入力とし、処理結果を算出データ102bの同一レコードへ出力する。
そして、ステップS105で、グラフ化処理により算出された算出データ102bに基づいて、相対密度分布グラフを表示する。
次に、ステップS104のグラフ化処理の詳細フローについて、図10を用いて説明する。
<グラフ化処理の詳細処理フロー>
図10は本発明の実施形態1のステップS104のグラフ化処理の詳細フローを示すフローチャートである。
まず、ステップS201で、算出データ102bに対する面積比率を算出し、その算出結果をデータ管理部102に保存する。この面積比率は、例えば、下記計算式により算出される。
Figure 0004464323
ここで、分子は、実際に観測されたレコード数を示している。また、分母は、レコード識別キーの一意性の性質より、ITEM軸、反復軸の2軸において観測(記録)が可能な最大のレコード数を示している。このことから、面積比率は、理論的に観測が可能なレコード数(理論レコード数)に対する、実際に観測されたレコード数(実測レコード数)の比率(レコードの密度情報)を意味している。つまり、面積比率は、観測の充足状態または欠損状態を定量化した指標である。
次に、ステップS202で、ITEM軸、反復軸の相対比率を算出し、その算出結果をデータ管理部102に保存する。
ここで、ITEM軸相対比率とは、各観測対象に対して、最大観測回数の内、何回観測が行われたかを示す指標である。また、同様に、反復軸相対比率とは、観測回数毎に、全観測対象の内、どれだけ観測を行ったかを示す指標である。ITEM軸相対比率及び反復軸相対比率は、下記計算式により算出する。
Figure 0004464323
ここで、iはITEM軸項目を一意に表す番号、mはITEM軸項目数である。同様に、jは反復軸項目番号、nは反復軸項目数である。
IRiは、ITEM軸項目iに対するITEM軸相対比率、RRjは反復軸項目jに対する反復軸相対比率を示している。また、IiはITEM軸項目iに対するITEM軸項目別反復数、Rjは反復軸項目jに対する反復軸項目別ITEM数を示している。
次に、ステップS203で、ITME軸及び反復軸の標準偏差を算出し、その算出結果をデータ管理部102に保存する。
ここで、ITEM軸標準偏差及び反復軸標準偏差とは、各軸の相対比率のバラツキを示す指標であり、例えば、下記計算式により算出する。
Figure 0004464323
ここで、IS及びRSは、それぞれITEM軸標準偏差、反復軸標準偏差を示している。また、A(IR)及びA(RR)は、それぞれITEM軸相対比率の平均値、反復軸相対比率の平均値を示している。
以上のようにして、算出した面積比率、ITEM軸相対比率、反復軸相対比率、ITEM軸標準偏差、反復軸標準偏差は、算出データ102b(図7)として逐次データ管理部102に保存される。
次に、相対密度分布グラフの一例について、図11を用いて説明する。
図11は本発明の実施形態1の相対密度分布グラフの一例を示す図である。
相対密度分布グラフとは、図11に示すように、ITEM軸と反復軸の相対比率を示す棒グラフ、面積比率、ITEM軸及び反復軸の標準偏差に基づいて得られるグラフ(図式情報)である。
相対比率を示す棒グラフは、ITEM軸、反復軸に分けてグラフ化することにより、視覚的容易に相対的な充足情報、欠損情報をユーザに提示することが可能となる。
棒グラフ描画部(図中の黒い部分)及び面積比率は、履歴データの密度を可視化したものであり、データの質をユーザに提示することが可能である。全ITEM項目が毎回観測されていれば、棒グラフ描画部は正方形(面積比率=1)となる。
標準偏差は、履歴データの均質性を測る指標となる。均質性からの乖離(標準偏差値が大)は、例外的な特異値の存在を示すことになる。より詳しくは、この標準偏差(あるいは分散)は、2つの相対密度分布グラフ毎に、縦軸を母集団とする変動を表す指標となる。
指標の値の単位は、2つの相対密度分布グラフで値を比較することが目的にあるので、縦軸の単位を、2つの相対密度分布グラフ間で整合性を図る必要ある。そこで、実施形態1では、相対密度分布グラフ毎に縦軸で、理論的な最大値を基準とした相対比へ変換した値に対して、変動量を算出する。
尚、理論的な最大値とは、横軸がITEM軸の場合では、縦軸が反復軸を意味するので、反復軸の全集合の種類数を基準値とする。また、変動量を算出する元になる縦軸の値とは、横軸の個々の値に対する種類数を理論的最大値で相対化したものである。
また、実施形態1では、相対密度分布グラフとして、ITEM軸と、反復軸の2軸から構成される2次元グラフの座標系としているが、これに限定されない。例えば、レコードの出現回数を示す出現回数軸を更に定義して、ITEM軸と、反復軸及び出現回数軸の3軸から構成される3次元グラフの座標系としても良い。
尚、図式情報としては、ユーザに対して情報を効果的に提供できる手法であればグラフに限らず、例えば、表形式のデータ等を用いても勿論かまわない。
以上説明したように、実施形態1によれば、履歴データに対して、ITEM軸、反復軸の2軸に分割して、各軸に関する情報(評価情報)をグラフ化して表示する。これにより、分析者は容易にデータ件数の構成を把握することが可能となる。また、情報の欠損状況が少なくともグラフ化されて可視化されるため、分析対象とするデータの質を素早く判断することが可能となる。
<実施形態2>
実施形態1では、処理対象のデータが履歴データである場合の処理結果を効果的に提示する構成について説明した。
これに対し、実施形態2では、処理対象のデータとして、多数の属性を有する多次元データの中にある関係をルールとして抽出するデータマイニングを実施する上で、分析者がデータマイニングより抽出されたルールが意味するところの把握が難しいという課題に対して、その把握をより容易に可能にする処理結果を提示する構成について説明する。
まず、実施形態2の情報処理装置の機能構成について、図12を用いて説明する。
図12は本発明の実施形態2の情報処理装置の機能構成を示す図である。
実施形態2では、処理対象のデータセットが履歴データである場合と、履歴データでない場合の2種類のデータセットに対する機能構成を有している。
特に、図12(a)は、処理対象のデータセットが履歴データでない場合の機能構成を示している。これは、データセットが、欠損値の比率が高いためにデータマイニングに使用できない属性や、データマイニングの説明変数には使用しないが結果を解釈する上で参考にしたいような属性等、任意の属性に関する情報を処理結果として表示する構成の一例を示している。
図12(a)において、入出力部200、制御部201及びデータ管理部202は、実施形態1の図1Aの入出力部100、制御部101及びデータ管理部102に対応する。
制御部201は、入出力部200よりユーザの操作指示を受信し、指示内容に応じて、基準ノード指定部201a、単属性情報算出部201b、複数属性情報算出部201c及び結果表示部201dを実行する。
データ管理部202は、データセット202a、データマイニング結果データ202b、属性情報データ202cを管理する。
データマイニング部203は、データセット202aに対して、データマイニングを実行する。
一方、図12(b)は、処理対象のデータセットが履歴データである場合の機能構成を示している。これは、データセットが履歴データである場合のデータマイニング結果に対して、データマイニング結果として得られる各ノードに含まれるデータ件数をITEM軸、反復軸により把握したい場合にも対応できる構成の一例を示している。
図12(b)では、図12(a)の構成に加えて、実施形態1で説明した相対密度分布グラフを生成するための構成を備えている。
つまり、図12(b)では、制御部201に、相対密度分布グラフ表示部204を備えている。そして、この相対密度分布グラフ表示部204は、レコード識別キー分割部204a、種類数集計部204b及びグラフ化部204cを備えていて、これらはそれぞれ、実施形態1の図1Aのレコード識別キー分割部101a、種類数集計部101b及びグラフ化部101cに対応する。更に、データ管理部202に、図12(a)の構成に加えて、算出データ202dを備えていて、これは、実施形態1の図1Aの算出データ102bに対応する。
尚、実施形態2の情報処理装置のハードウェア構成は、実施形態1の図1Bと同様であるので、ここでは、その説明を省略する。
次に、データマイニング203が実行するデータマイニングの処理フローについて、図13を用いて説明する。
<データマイニングの処理フロー>
図13は本発明の実施形態2のデータマイニングの処理フローを示すフローチャートである。この処理は、図12に示す制御部201によって行われるものである。
ステップS301で、制御部201は、ユーザからの操作指示を入出力部200から受信すると、データ管理部202より分析対象とするデータセット202aを取得する。ここで、データセットとは、データマイニング向けに加工が施されたデータレコードの集合を指す。
ステップS302で、データマイニング部203は、データマイニングモデル(使用する決定木等の分析ロジックや目的変数、説明変数等の定義情報)を設定する。次に、ステップS303で、取得したデータセット202aに対して、データマイニングを実行する。次に、ステップS304で、データマイニング結果を、制御部201により入出力部200で表示する。
ステップS305で、表示したデータマイニング結果に対する妥当性の有無の指示入力を待機する。妥当性がないという指示入力がある場合(ステップS305でNO)、ステップS302に戻り、新規説明変数の採用、目的変数の変更等を実行して、データマイニングモデルを再設定し、再度、データマイニングを実行する。
一方、妥当性があるという指示入力がある場合(ステップS305でYES)、処理を終了する。
尚、ここで、妥当性の有無は、データセット及びデータマイニングモデルから導出されるデータマイニング結果が、分析者にとって理解し得るかどうかを指すものである。
次に、データマイニング結果の一例について、図14を用いて説明する。
<データマイニング結果の説明>
図14は本発明の実施形態2のデータマイニング結果の一例を示す図である。
尚、実施形態2で想定するデータマイニングは、分析者がデータの背景にある規則性を理解しやすいという特徴を有する決定木または回帰木(以下、決定木と呼ぶ)を用いる場合を例に挙げて説明する。
決定木により導出されたデータマイニング結果の構造について説明する。一般的に導出されたデータマイニング結果は、図14に示す階層構造をもつ形で表すことができる。
最上位にあるノードをルートノード(図中、ノード0)と呼び、このノードに分析対象全体のデータが含まれている。ルートノードに対して、分析対象の属性群の中より抽出された、ある属性とその属性の値の条件で表される分岐条件により、2つ以上のノードに分割される(図中、ノード1、ノード2)。
分割された各ノードに対しても、同様に属性とその値の条件からなる分岐条件で分割し、これを多段階に繰り返し、それ以上分割を行なわないノードをリーフノードとする(図中、ノード2、3、4)階層構造で表すことができる。
ここで、ノードの上位ノードを親ノード、下位ノードを子ノードと呼ぶ。各ノードを識別するためにノードIDが付加される。データマイニング結果は、図15に示すように、全ノードに対してノード別に保存されている。保存項目としては、ノードIDと、対応する親ノードID、分割の条件である分岐条件、ノード内のデータ件数を表すサポートなどが保存される。
従来技術では、データマイニング結果を上述の階層構造として表示させるか、あるいは、階層構造と等価の情報をもつIF THENルールの表示に基づく結果解釈が行われている。これに対して、実施形態2では、従来の方法だけでは結果解釈が難しいという課題に対して、階層構造の表示に加え、さらに多くの情報を分析者へ提供することを目的としている。
そこで、実施形態2が実行する処理の全体処理フローについて、図16を用いて説明する。
<全体処理フロー>
図16は本発明の実施形態2が実行する処理の全体処理フローを示すフローチャートである。
尚、図16では、処理対象のデータセットが履歴データであるか否かに応じて、その処理内容を異ならせている。データセットが履歴データでない場合は、図12(a)の構成によって、ステップS402〜ステップS410の処理を実行する。一方、データセットが履歴データである場合は、図12(b)の構成によって、ステップS411〜ステップS420の処理を実行する。
また、データマイニング部203によるデータマイニング結果202bが既に得られているとする。
ステップS401で、処理対象のデータセット202aが履歴データであるか否かを判定する。履歴データである場合(ステップS401でYES)、ステップS411に進む。一方、履歴データでない場合(ステップS401でNO)、ステップS402に進む。
尚、データセットが履歴データであるか否かの判定は、例えば、ユーザが入出力部100から明示的にそれを示す情報を入力しても良いし、データセットの内容を解析して、システムが自動的に判定しても良い。ここで、データセットが履歴データである場合の構成例を図17に示す。特に、図17では、データマイニング結果データに履歴データが含まれている状態のデータセットの例を示している。
まず、処理対象のデータセット202aが履歴データでない場合の処理について、以下に説明する。
<データセットが履歴データでない場合の処理>
ステップS401で、処理対象のデータセット202aが履歴データでない場合(ステップS401でNO)、ステップS402で、基準ノード指定部201aによって、基準ノード指定処理を実行する。これは、例えば、基準ノード指定画面を入出力部200に出力して、その画面を介する指示入力に基づいて、基準ノード指定処理を実行する。
ここで、基準ノード指定画面の一例について、図18を用いて説明する。
図18は本発明の実施形態2の基準ノード指定画面の一例を示す図である。
この基準ノード指定画面1700は、基準ノード及び特定属性の指定を行うための画面である。
ここで、基準ノードとは、図14に示す階層構造の内、リーフノードでないノードに対して指定可能であり、後述する各算出値の基準値となるノードである。また、特定属性とは、主にデータマイニングの説明変数としては使用されていないが、結果解釈のために重要な役割を果たすと推測される属性項目である。しかし、これに限定されるものではなくデータマイニングに使用した説明変数を用いても良い。
特定属性の数は、一つ以上の設定を行うことができるが、複数を指定する場合には、特定属性のデータ型はカテゴリ型のみが選択可能である。
ここで、1701は、基準ノード指定コントロールであり、例えば、プルダウンメニューで構成される。1702は、特定属性の種類を指定するためのラジオボタンであり、ここでは、単属性と複数属性のどちらかが選択可能に構成されている。
1703は、特定属性となる各属性候補をリスト表示する候補表示領域である。1705は、指定された特定属性をリスト表示する特定属性表示領域である。
ユーザは、候補表示領域1703中の任意の項目を選択して、キー1704を操作することによって、その項目を特定属性表示領域1705に追加することができる。一方で、特定属性表示領域1705中の任意の項目を選択して、キー1704を操作することで、その項目を候補表示領域1703に戻すことも可能である。
そして、OKボタン1706を操作すると、プルダウンメニュー1701、ラジオボタン1702及び特定属性表示領域1705に設定されている項目を示す値が保存される。一方、キャンセルボタン1707を操作すると、基準ノード指定画面1700での設定項目がキャンセルされ、基準ノード指定画面1700の表示が消去される。
図16の説明に戻る。
ステップS403で、特定属性が単属性であるか否かを判定する。特定属性が単属性でない場合(ステップS403でNO)、つまり、複数属性である場合、ステップS406に進む。一方、特定属性が単属性である場合(ステップS403でYES)、ステップS404に進む。
特定属性が1つ指定された場合(単属性)、ステップS404で、単属性情報算出部201bによって、初めに、ノード内特定属性の度数、分配率、ノード内密度を算出する。これは、基準ノードより下位にある全てのノードに対して、度数、分配率、ノード内密度を算出する。
度数とは、ノード内に含まれているレコードに対応する特定属性の値が有効であるデータ数(以下、有効データ数と呼ぶ)である。また、分配率は、基準ノードにおける特定属性の有効データ数を基準とした場合の各ノード(基準ノードより下位階層の各ノード)における特定属性の有効データ数の比率である。更に、ノード内密度は、基準ノードより下位階層の各ノードにおける特定属性のレコード数を基準とした各ノードの特定属性の有効データ数の比率を表している。
各指標は以下の計算式により算出する。
Figure 0004464323
ここで、iはノード番号、αは基準ノードのノード番号である。Diは、ノードiにおける特性属性の有効データ数、Siはノードiに含まれるレコード数を示している。また、BRi及びMRiは、それぞれノードiにおける分配率、ノード内密度を示している。度数Diは、SQL文等のデータベース言語により取得可能である。
これらの算出結果は、図19に示す属性情報データの「ノードID」、「基準ノード」に対応する「度数」、「分配率」、「ノード内密度」に保存する。
次に、ステップS405で、特定属性のデータ型を判定する。
ここで判定するデータ型は、レコードの有無(有効/無効)を示すフラグ型(2値の値を示すデータ型)、名義尺度情報を示すカテゴリ型(多値の値を示すデータ型)、数値情報を示す連続型に分類する。
データ型がフラグ型である場合(単属性フラグ型)、ステップS409で、処理対象のデータを属性情報データ202cとしてデータ管理部202に保存する。
データ型がカテゴリ型である場合(単属性カテゴリ型)、ステップS407に進み、ノード別にカテゴリ値及びカテゴリ値毎の度数を算出する。そして、ステップS409で、その算出結果を属性情報データ202cとしてデータ管理部202に保存する。
データ型が連続型である場合(単属性連続型)、ステップS408に進み、統計値(最小値、25%分位点、中央値、75%分位点、最大値、はずれ値等)を算出する。そして、ステップS409で、その算出結果を属性情報データ202cとしてデータ管理部202に保存する。
一方、ステップS403において、特定属性が複数(2つ以上)指定された場合(複数属性)、ステップS406に進み、複数属性情報算出部201cによって、複数属性情報算出処理を実行する。
上述のように、複数の特定属性の場合に指定が可能なのはカテゴリ型の属性のみである。ここで、指定された特定属性をSV1,SV2,...SVmとすると、複数属性情報算出処理は各ノード内に含まれているレコードに対して、特定属性毎にカテゴリの値の種類数CiSVmをSQL等のデータベース言語を用いて取得し、下記の計算式によりノードiの特定属性SVmに対する出現種類数比率NRi(SVm)を算出する。
Figure 0004464323
ここで、出現種類数比率とは、ノード内の特定属性毎の種類数の出現比率を測る指標である。これは、各ノード間で比較することにより、特定属性の種類数の加減情報をユーザに提供することができる。そして、ステップS409で、その算出結果は、属性情報データ202cとしてデータ管理部202に保存する。
そして、ステップS410で、結果表示部201dによって、結果表示処理を実行する。ここでは、データマイニング結果データ202bと、ステップS409で保存された属性情報データ202cに基づく特定属性情報を、処理結果(結果表示ビューア)として表示する。
ここで、結果表示ビューアの一例について、図20を用いて説明する。
<結果表示ビューアの説明(データセットが履歴データでない場合)>
図20は本発明の実施形態2の結果表示ビューアの一例を示す図である。
結果表示部201dによって生成される結果表示ビューア2000は、データマイニング結果202dの表示領域であるデータマイニング結果表示部2001と、属性情報データ202cに基づく属性情報の表示領域である属性情報表示部2002を構成している。
データマイニング結果表示部2001では、データ管理部202に保存されているデータマイニング結果データ202bに基づいて、図14に示す、階層構造を有するデータマイニング結果を表示する。
属性情報表示部2002では、データマイニング結果表示部2001に表示されるノード群から、任意のノードを指定することで、そのノードに対応する特定属性情報(属性情報データ202c)を選択的に切り替えて表示することが可能である。但し、この指定は、基準ノード以下のノードに限定されることが好ましい。
例えば、図中では、ノード1が基準ノードとして指定されているため、この場合、ノード0、ノード2の特定属性情報は表示されない。また、ノードの指定は、1つに限定されるものではなく、複数の任意のノードを指定可能とする構成にしても良い。この場合、その指定された複数のノードそれぞれに対応する特定属性情報を、属性情報表示部2002内に識別可能に(例えば、複数の領域に分割して、あるいは色分けして)表示する。あるいは、各特定属性情報を別画面(ウインドウ)として表示しても良い。
属性情報表示部2002では、単属性フラグ型、単属性カテゴリ型、単属性連続型、もしくは複数属性の4種類それぞれの属性情報を表示することが可能である。
単属性フラグ型の場合は、特定属性のノード内度数、分配率、ノード内密度を表示する。尚、図20の属性情報表示部2002の表示内容は、単属性フラグ型の場合の表示例を示している。
単属性カテゴリ型の場合は、図中、表示例2003に示すように、単属性フラグ型の特定情報2003aに加え、カテゴリ値毎の度数を示すグラフ2003bを表示する。
単属性連続型の場合は、図中、表示例2004に示すように、単属性フラグ型の特定情報2004aに加え、連続値に基づくヒストグラム2004bや、算出統計量(平均値、中央値、最頻値、分散、標準偏差、分位点、異常値判定値等)に基づく箱ヒゲ図2004c等のデータ値の分布情報を表示する。尚、箱ヒゲ図2004cの詳細は、図21に示す通りである。
複数属性の場合は、図中、表示例2005に示すように、基準ノードを基準とする特定属性毎の種類数の出現比率、種類数及び出現比率に基づくグラフ(図式情報)を表示する。
尚、図式情報としては、ユーザに対して情報を効果的に提供できる手法であればグラフに限らず、例えば表形式のデータ等を用いても勿論かまわない。
このように、結果表示ビューア2000では、データマイニング結果とあわせて、特定属性情報を表示することで、従来技術と比較してより多くの有益な情報(評価情報)をユーザに効果的に提供し、妥当性評価を効率的かつ効果的に行うことができる。
特に、実施形態2では、データマイニング結果と、そのデータマイニング結果中の注目するノードの特定属性情報を対比して表示することで、ユーザは、一度に、データマイニング結果とし、目的とするノードの特定属性情報を容易に検証することができる。
<データセットが履歴データである場合の処理>
次に、処理対象のデータセット202aが履歴データである場合の処理について、以下に説明する。
ステップS401で、処理対象のデータセット202aが履歴データである場合(ステップS401でYES)、ステップS411で、相対密度分布グラフ表示部204によって、相対密度分布グラフ表示処理を実行する。尚、相対密度分布グラフ表示処理は、実施形態1の図3で説明した通りである。この処理が終了すると、その処理結果が算出データ202dとしてデータ管理部202に保存される。
その後、ステップS412以降の処理が実行される。尚、ステップS412〜ステップS419の処理は、データセットが履歴データでない場合における、上述のステップS402〜ステップS409に対応するので、その説明は省略する。
そして、ステップS420で、結果表示部201dによって、結果表示処理を実行する。ここでは、データマイニング結果データ202bと、ステップS419で保存された属性情報データ202cに基づく特定属性情報と、算出データ202dによって得られる相対密度分布グラフを、処理結果(結果表示ビューア)として表示する。
ここで、結果表示ビューアの一例について、図22を用いて説明する。
<結果表示ビューアの説明(データセットが履歴データである場合)>
図22は本発明の実施形態2の結果表示ビューアの一例を示す図である。
結果表示部201dによって生成される結果表示ビューア2200は、図20のデータマイニング結果表示部2001及び属性情報表示部2002それぞれに対応するデータマイニング結果表示部2201及び属性情報表示部2202に加え、相対密度分布グラフ表示部2203を構成している。
相対密度分布グラフ表示部2203では、データマイニング結果表示部2201から指定された任意のノードに対応する相対密度分布グラフを選択的に切り替えて表示することが可能である。指定対象となるノードは、データマイニング結果表示部2201に表示される全てのノードが対象となる。
このように、結果表示ビューア2200では、相対密度分布グラフにより、ユーザは、ルールが示す規則性について正確な妥当性を評価することができる。
尚、結果表示ビューア2200では、データマイニング結果表示部2201及び属性情報表示部2202及び相対密度分布グラフ表示部2203を構成している場合を説明しているが、これに限定されない。
例えば、結果表示ビューア2200では、データマイニング結果表示部2201と相対密度分布グラフ表示部2203だけを構成するようにしても良い。つまり、用途や目的によっては、属性情報表示部2202が不要の場合も考えられる。従って、そのような場合には、属性情報表示部2202で表示するための属性情報データを生成する処理(ステップS412〜ステップS419)を省略することになる。
次に、この結果表示ビューア2200の解釈例について、図23を用いて説明する。
図23は本発明の実施形態2の結果表示ビューアの解釈例を説明するための図である。
尚、ここでは、結果表示ビューア2200において、データマイニング結果表示部2201と、相対密度分布グラフ表示部2203の解釈例について説明する。
また、図23では、データセットが履歴データである場合の処理結果例で説明する。その前提として、履歴データは、そのITEM軸が顧客、その反復軸が利用日であるとする。更に、処理目的としては、例えば、カード会社Aが、会員である顧客に対して当月利用金額(カテゴリ値として、大、中、小)を目的変数として、データマイニングを実行した場合の処理結果の妥当性を評価することである。
図23(a)は、顧客(ITEM軸)と利用日(反復軸)をレコード識別キーとして構成される履歴データに対して、目的変数を「当月利用金額」とした場合において、結果表示ビューア2200のデータマイニング結果表示部2201に表示されるデータマイニング結果を示している。このデータマイニング結果では、各ノード(ノード0〜ノード1)間における目的変数の構成比や度数の推移、また、分岐条件としてどの説明変数が採用されたか等の情報を得ることができる。
ここで、ノード0は、データセット全体に係るデータマイニング結果である。また、ノード1は、販促活動を実施しなかった場合のデータマイニング結果である。更に、ノード2は、販促活動を実施した場合のデータマイニング結果である。
そして、実施形態2では、さらに、結果表示ビューア2200の相対密度分布グラフ表示部2203に、注目ノード(指定ノード)に対応する図23(b)に示す相対密度分布グラフ(ノード0〜ノード2のいずれか)を同時に表示する。これにより、各ノードにおけるレコード識別キーの量(面積率)及び質(グラフ形状、標準偏差)に関する情報を得ることが可能である。
図23(a)で特徴が現れていたノード2に対応する相対密度分布グラフを見ると、他ノードと比べ面積率、グラフ形状ともに特徴があることが視覚的にわかる。面積率からはノード内のレコード識別キーの充足率を得ることができ、グラフ形状及び標準偏差は特定のITEM軸項目(顧客)に特徴があり、反復軸(利用日)には大きな特徴がないことを示している。
具体的には、ノード2に対する相対密度分布グラフでは、ITEM軸の一部たけ充足率が高い。これは、特定の顧客は、販促活動対象日の利用率が高いことを示している。また、反復軸はデータのバラツキが少ない。これは、販促活動時期に利用する顧客数は安定していることを示している。
以上のことから、販促活動を実施した場合は、特定の顧客に対して、その効果が得られ、販促活動の時期に依存しないで、利用顧客数が一定であることが評価することができる。
以上説明したように、実施形態2によれば、データマイニング結果に対して、データマイニング対象とすることができない属性の情報についても、参考情報としてデータマイニング結果と同時に表示することで、分析者による質の高いルール解釈(判断間違いが低下≒重要ルールの見逃し防止、あるいは無用なルールの採用防止)に関する情報を提供することが可能となる。
また、履歴データを対象とするデータマイニング結果の表示については、ルールに含まれるデータレコードを、総数ではなく、ITEM軸、反復軸の2軸で情報を表示する。そのため、分析者がルールを解釈する上で、どちらの軸により着目すべきかを判断することができる。従って、ルールが示す規則性について、正しく解釈することが可能となる情報提供を実現することができる。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明の実施形態1の情報処理装置の機能構成を示す図である。 本発明の実施形態1の情報処理装置のハードウェア構成を示す図である。 本発明の実施形態1の制御部内の各機能と、履歴データ及び算出データの入出力関係を示す図である。 本発明の実施形態1が実行する処理の全体処理フローを示すフローチャートである。 本発明の実施形態1の履歴データの一例を示す図である。 本発明の実施形態1のレコード識別キー分割画面の一例を示す図である。 本発明の実施形態1のレコード数及び種類数の算出例を説明するための図である。 本発明の実施形態1の算出データの一例を示す図である。 本発明の実施形態1の種類数集計処理の具体例を説明するための図である。 本発明の実施形態1の集計処理及びソート処理の実現例を説明するための図である。 本発明の実施形態1のステップS104のグラフ化処理の詳細フローを示すフローチャートである。 本発明の実施形態1の相対密度分布グラフの一例を示す図である。 本発明の実施形態2の情報処理装置の機能構成を示す図である。 本発明の実施形態2のデータマイニングの処理フローを示すフローチャートである。 本発明の実施形態2のデータマイニング結果の一例を示す図である。 本発明の実施形態2のデータマイニング結果のデータ構成例を示す図である。 本発明の実施形態2が実行する処理の全体処理フローを示すフローチャートである。 本発明の実施形態2のデータセットの一例を示す図である。 本発明の実施形態2の基準ノード指定画面の一例を示す図である。 本発明の実施形態2の属性情報データの一例を示す図である。 本発明の実施形態2の結果表示ビューアの一例を示す図である。 本発明の実施形態2の箱ヒゲ図の詳細を示す図である。 本発明の実施形態2の結果表示ビューアの一例を示す図である。 本発明の実施形態2の結果表示ビューアの解釈例を説明するための図である。
符号の説明
100 入出力部
101 制御部
101a レコード識別キー分割部
101b 種類数集計部
101c グラフ化部
102 データ管理部
102a 履歴データ
102b 算出データ

Claims (14)

  1. 1レコードが複数のデータ項目からなるデータのデータ集合に対し、前記データ集合に関する評価情報を生成して出力装置に出力する情報処理装置であって、
    前記データを一意に識別するためのデータ項目のうち、前記データの観測対象を識別するためのデータ項目であるITEM軸項目、及び、前記データの観測時期や回数を識別するためのデータ項目である反復軸項目を指定する第1の指定手段と、
    前記データ集合中の、前記ITEM軸項目のデータの種類、前記反復軸項目のデータの種類及びそれらの種類数を集計する第1の集計手段と、
    前記第1の集計手段で集計したITEM軸項目のデータ種類ごとに、前記反復軸項目データの存在する種類数であるITEM軸項目別反復数を集計し、且つ、前記反復軸項目のデータ種類ごとに、前記ITEM軸項目データの存在する種類数である反復軸項目別ITEM数を集計する第2の集計手段と、
    前記第1の集計手段で集計したITEM軸項目のデータ種類数と反復軸項目のデータ種類数とを用いて算出される理論レコード数、及び、前記第2の集計手段で集計した前記ITEM軸項目別反復数を用いて前記データ集合に対するITEM軸項目についての図式情報を生成し、且つ、前記理論レコード数と前記反復軸項目別ITEM数と用いて前記データ集合に対する前記反復軸項目についての図式情報を生成する生成手段と、
    前記ITEM軸項目についての図式情報及び前記反復軸項目についての図式情報を、前記評価情報として前記出力装置に出力制御する出力制御手段と
    を備えることを特徴とする情報処理装置。
  2. 前記生成手段は、前記図式情報として、
    前記第1の指定手段指定した前記ITEM軸項目のデータ種類を第1軸、前記ITEM軸項目のデータの種類毎に、前記反復軸項目のデータの種類の内、実際にレコードが存在する種類数を第2軸とした座標系上で表現される、前記理論レコード数に対する前記ITEM軸項目別反復数の密度分布グラフを生成し、且つ、前記第1の指定手段で指定した前記反復軸項目のデータの種類を第1軸、及び、前記反復軸項目のデータの種類毎に、前記ITEM軸項目のデータの種類の内、実際にレコードが存在する値の種類数を第2軸とした座標系上で表現される、前記理論レコード数に対する前記反復軸項目別ITEM数の密度分布グラフを生成する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記生成手段は、前記座標系を構成する前記第1軸のデータの種類を、前記第2軸を構成するデータの種類のうち、実際にレコードが存在する種類数でソートした順序で座標系上に表現される、前記密度分布グラフを生成する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記生成手段は、前記評価情報として、更に、
    実測レコード数を分子とし、前記理論レコード数を分母とする除算によって得られる値を生成し、
    前記実測レコード数は、前記第1軸を構成する各値毎の前記第2軸を構成する項目の値の内、実際にレコードが存在する値の種類の総和であり、
    前記理論レコード数は、前記ITEM軸項目のデータ種類数と前記反復軸項目のデータ種類数との積算により算出される
    ことを特徴とする請求項2または3に記載の情報処理装置。
  5. 前記生成手段は、前記評価情報として、更に、前記密度分布グラフのバラツキを示す指標を生成する
    ことを特徴とする請求項2乃至4のいずれか1項に記載の情報処理装置。
  6. 前記データ集合に対してデータマイニング処理を実行するデータマイニング手段を更に備え、
    前記出力制御手段は、さらに、前記データマイニング手段によるデータマイニング結果を前記評価情報として前記出力装置に出力制御する
    ことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記データマイニング手段によるデータマイニング結果として得られる、前記データ集合の各データに含まれている属性間の関連性を示す階層構造のノードの内、指定されたノードに対応するデータの特定属性情報を算出する算出手段を更に備え、
    前記出力制御手段は、さらに前記特定属性情報を、前記評価情報として前記出力装置に出力制御する
    ことを特徴とする請求項に記載の情報処理装置。
  8. 前記データマイニング結果として得られる、前記データ集合の各データに含まれている属性間の関連性を示す階層構造のノードから、前記算出手段による前記データの特定属性情報の算出対象とする基準ノード及び特定属性を指定する第2の指定手段を更に備える
    ことを特徴とする請求項に記載の情報処理装置。
  9. 前記第2の指定手段により、前記特定情報として1つの特定属性が選択された場合に、
    前記算出手段は、前記特性属性情報として、
    1)前記基準ノードに属するレコードに対応する特定属性の有効データ数を示す度数と、
    2)前記基準ノードにおける特定属性の有効データ数と、前記基準ノードの下位階層の各ノードにおける特定属性の有効データ数との比率である分配率と、
    3)前記下位階層の各ノードに属すレコード数に対する特定属性の有効データ数との比率を示すノード内密度と、
    を算出する
    ことを特徴とする請求項に記載の情報処理装置。
  10. 前記第2の指定手段で指定された特定属性のデータ型が多値の値を示すカテゴリ型の場合、前記算出手段は、前記特性属性情報として、前記下位階層の各ノードに属するレコードに対応する特定属性のカテゴリ毎の有効データ数を示す度数を算出する
    ことを特徴とする請求項に記載の情報処理装置。
  11. 前記第2の指定手段で指定された特定属性のデータ型が連続型の場合、前記算出手段は、前記特性属性情報として、前記下位階層の各ノードに属するレコードに対応する特定属性のデータ値の分布情報を算出する
    ことを特徴とする請求項に記載の情報処理装置。
  12. 前記第2の指定手段で指定された特定属性のデータ型が多値の値を示すカテゴリ型であり、かつ前記特定属性として複数の属性が選択された場合、
    前記算出手段は、前記特性属性情報として、
    1)前記基準ノードに属するレコードに対応する特定属性毎の種類数と、
    2)前記種類数の出現比率と、
    3)前記出現比率に基づく図式情報と、
    を算出する
    ことを特徴とする請求項に記載の情報処理装置。
  13. 1レコードが複数のデータ項目からなるデータのデータ集合に対し、前記データ集合に関する評価情報を生成して出力装置に出力する情報処理装置の制御方法であって、
    前記データを一意に識別するためのデータ項目のうち、前記データの観測対象を識別するためのデータ項目であるITEM軸項目、及び、前記データの観測時期や回数を識別するためのデータ項目である反復軸項目を指定する第1の指定工程と、
    前記データ集合中の、前記ITEM軸項目のデータの種類、前記反復軸項目のデータの種類及びそれらの種類数を集計する第1の集計工程と、
    前記第1の集計工程で集計したITEM軸項目のデータ種類ごとに、前記反復軸項目データの存在する種類数であるITEM軸項目別反復数を集計し、且つ 前記反復軸項目のデータ種類ごとに、前記ITEM軸項目データの存在する種類数である反復軸項目別ITEM数を集計する第2の集計工程と、
    前記第1の集計工程で集計したITEM軸項目のデータ種類数と反復軸項目のデータ種類数とを用いて算出される理論レコード数、及び、前記第2の集計工程で集計した前記ITEM軸項目別反復数を用いて前記データ集合に対するITEM軸項目についての図式情報を生成し、且つ、前記理論レコード数と前記反復軸項目別ITEM数と用いて前記データ集合に対する前記反復軸項目についての図式情報を生成する生成工程と、
    前記ITEM軸項目についての図式情報及び前記反復軸項目についての図式情報を、前記評価情報として前記出力装置に出力制御する出力制御工程と
    を備えることを特徴とする情報処理装置の制御方法。
  14. コンピュータを、1レコードが複数のデータ項目からなるデータのデータ集合に対し、前記データ集合に関する評価情報を生成して出力装置に出力する情報処理装置として機能させるためのプログラムであって、
    前記コンピュータを、
    前記データを一意に識別するためのデータ項目のうち、前記データの観測対象を識別するためのデータ項目であるITEM軸項目、及び、前記データの観測時期や回数を識別するためのデータ項目である反復軸項目を指定する第1の指定手段と、
    前記データ集合中の、前記ITEM軸項目のデータの種類、前記反復軸項目のデータの種類及びそれらの種類数を集計する第1の集計手段と、
    前記第1の集計手段で集計したITEM軸項目のデータ種類ごとに、前記反復軸項目データの存在する種類数であるITEM軸項目別反復数を集計し、且つ、前記反復軸項目のデータ種類ごとに、前記ITEM軸項目データの存在する種類数である反復軸項目別ITEM数を集計する第2の集計手段と、
    前記第1の集計手段で集計したITEM軸項目のデータ種類数と反復軸項目のデータ種類数とを用いて算出される理論レコード数、及び、前記第2の集計手段で集計した前記ITEM軸項目別反復数を用いて前記データ集合に対するITEM軸項目についての図式情報を生成し、且つ、前記理論レコード数と前記反復軸項目別ITEM数と用いて前記データ集合に対する前記反復軸項目についての図式情報を生成する生成手段と、
    前記ITEM軸項目についての図式情報及び前記反復軸項目についての図式情報を、前記評価情報として前記出力装置に出力制御する出力制御手段と
    として機能させることを特徴とするプログラム。
JP2005188287A 2005-06-28 2005-06-28 情報処理装置及びその制御方法、プログラム Expired - Fee Related JP4464323B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005188287A JP4464323B2 (ja) 2005-06-28 2005-06-28 情報処理装置及びその制御方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005188287A JP4464323B2 (ja) 2005-06-28 2005-06-28 情報処理装置及びその制御方法、プログラム

Publications (2)

Publication Number Publication Date
JP2007011468A JP2007011468A (ja) 2007-01-18
JP4464323B2 true JP4464323B2 (ja) 2010-05-19

Family

ID=37749922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005188287A Expired - Fee Related JP4464323B2 (ja) 2005-06-28 2005-06-28 情報処理装置及びその制御方法、プログラム

Country Status (1)

Country Link
JP (1) JP4464323B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体

Also Published As

Publication number Publication date
JP2007011468A (ja) 2007-01-18

Similar Documents

Publication Publication Date Title
US8600709B2 (en) Adaptive analytics multidimensional processing system
US10628775B2 (en) Sankey diagram graphical user interface customization
US20230316206A1 (en) Methods and apparatus for the formatting of data values that may be arbitrary or indeterminate collected from a plurality of sources
CN102870129B (zh) 模拟进程的方法和系统
JP4717945B2 (ja) 業務分析プログラムおよび業務分析装置
CN103677802B (zh) 用于分析的改进的消费模型的系统和方法
Ko et al. Marketanalyzer: An interactive visual analytics system for analyzing competitive advantage using point of sale data
Cabena et al. Intelligent miner for data applications guide
EP2273431A1 (en) Model determination system
AU2011204831B2 (en) Digital analytics platform
Dolk Integrated model management in the data warehouse era
Mohsen et al. A machine learning approach to predict production time using real-time RFID data in industrialized building construction
Sastry et al. Implementation of CRISP methodology for ERP systems
CN111178688A (zh) 电力技术监督数据的自助化分析方法、系统、存储介质及计算机设备
US20020069103A1 (en) Methods and systems enabling the identification of actual costs in a transaction based financial and manufacturing environment
Batini et al. A Framework And A Methodology For Data Quality Assessment And Monitoring.
Burstein et al. Developing practical decision support tools using dashboards of information
Serrano et al. Validating metrics for data warehouses
US7992126B2 (en) Apparatus and method for quantitatively measuring the balance within a balanced scorecard
CN113722564A (zh) 基于空间图卷积能源物资供应链的可视化方法及装置
JP4464323B2 (ja) 情報処理装置及びその制御方法、プログラム
Kaur et al. Timeline-based process discovery
Kulk et al. Quantifying IT estimation risks
AU2020201689A1 (en) Cognitive forecasting
Febrianti et al. COGS Report Customization Design for Profitability Analysis with ABAP List Viewer: Case Study of a Telecommunication Enterprise

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100205

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4464323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees