JP2023096330A - データ分析装置及びデータ分析方法 - Google Patents
データ分析装置及びデータ分析方法 Download PDFInfo
- Publication number
- JP2023096330A JP2023096330A JP2021211994A JP2021211994A JP2023096330A JP 2023096330 A JP2023096330 A JP 2023096330A JP 2021211994 A JP2021211994 A JP 2021211994A JP 2021211994 A JP2021211994 A JP 2021211994A JP 2023096330 A JP2023096330 A JP 2023096330A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- data
- unit
- data model
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000007405 data analysis Methods 0.000 title claims description 89
- 238000004458 analytical method Methods 0.000 claims abstract description 485
- 238000013499 data model Methods 0.000 claims abstract description 110
- 238000000556 factor analysis Methods 0.000 claims description 44
- 230000002776 aggregation Effects 0.000 claims description 34
- 238000004220 aggregation Methods 0.000 claims description 34
- 238000010801 machine learning Methods 0.000 claims description 24
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 40
- 238000006243 chemical reaction Methods 0.000 description 29
- 230000000694 effects Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 23
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008450 motivation Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】高度なプログラミング技術を持った専門家を介さなくても、共通の入力データに基づいて様々な種類の分析が行えるようにする。【解決手段】データ分析装置は、複数の表形式データを入力するためのデータ入力部12aと、表形式データに含まれる特徴量の関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定するデータモデル設定部12bと、設定されたデータモデルを分析設定情報に基づいて調整するデータ調整部13、14と、設定されたデータモデルに対して、第1の分析を実行し、第1の分析結果を生成する第1分析部15と、調整されたデータモデルに対して第2の分析を実行し、第2の分析結果を生成する第2分析部16と、を備えている。【選択図】図5
Description
本開示は、データ分析装置及びデータ分析方法に関する。
データ分析には様々な手法があり、それぞれの手法に適したデータ形式・ツールは異なっている。例えば、企業が持っている様々なデータをBI(ビジネスインテリジェンス)ツールで集計・可視化する際には、一般的にスタースキーマと呼ばれる形式で集計前のデータを保持することが推奨される一方で、機械学習を用いた分析を行う際には、データを1枚の表形式に事前に集計・結合する必要がある。この集計・結合は特徴抽出と呼ばれ、機械学習を用いた分析に長い時間を要する原因となっていることも知られている。
さらに、機械学習を用いる際には学習時と、学習後の予測時とで異なる集計期間のデータを利用することが普通であるため、学習用と予測用のデータをそれぞれ用意することも必要となる。
そのため、通常、データ分析者は例えばSQLのような高度なプログラミングを用いて、分析の目的ごとにデータ変換処理を個別に設計・実装し、ツールを適切に使い分けることで所望の分析を実現しているという現状がある。
また、分析におけるデータ変換処理の手間を軽減するために、複数の入力データから自動的に結合・集計処理を行うことで目的変数や特徴量を自動的に生成する技術が知られている(例えば特許文献1参照)。
ところで、例えば営業活動の支援を目的に営業活動・販売データを分析する際には、以下に挙げるようなデータ活用用途が考えられる。すなわち、営業活動を支援する現場におけるデータ活用用途としては、営業指標を帳票で定常的にモニタリングする、帳票の中から深堀したい箇所を特定し、複数の軸を組み合わせることでより細かい集計を行う、帳票で発見されたビジネス課題に対して、機械学習を用いて要因となっている事象を特定する、機械学習による予測を用いて、改善見込みの高い箇所を特定し、施策を実行する、施策の実行状況を帳票で確認する等がある。
ところが、上述したデータ活用用途は、それぞれが独立したものではなく、繰り返し実施される改善プロセスの一部である。一般に単一の分析手法で全ての用途をカバーすることはできないため、この改善プロセスを実現するためには、各ステップを実現するための分析手法の特定、ツールの選定、データ変換処理の設計・実装と、ステップ間でのデータの連携方法の検討などが必要となり、多大な工数を必要とする。
また、あるステップの分析で有用な特徴量が発見されたとしても、それを別のステップの分析で流用するためには、各ステップにおける分析に必要な変換処理がそれぞれ異なるために、特徴量の集計・変換方法が各ステップで最適になるように再調整する必要があり、各分析で得られた知見を他のステップに流用しにくいという問題があった。
また、一般にビジネス課題を解決するためには機械学習や集計など、複数の種類の分析を組み合わせて用いる必要があり、それぞれの分析で個別に変換処理を行う必要があった。
また、機械学習を用いてモデルを学習する際、目的変数の集計期間における情報の一部が特徴量に意図せず含まれてしまうリークと呼ばれる現象が知られている。リークを防ぐためには特徴量と目的変数に用いるデータの期間が互いに重複しないように調整する必要がある。
一方、学習したモデルで予測を行う際には、実際に予測を行いたい時点を基準とした特徴量の再計算が必要であり、学習時と予測時で異なる値を計算する必要がある。さらに、帳票のような集計用途においては、多くの場合最新の数値をモニタリングしたいことから、最新の日付を基準にした値を計算する必要があることが多い。
つまり、モデルの学習時、予測時、及び集計用途においては、それぞれ用途に応じて適切な集計の期間が異なるため、各分析用の変換処理で得られた特徴量の値は、別の分析にそのまま流用することはできず、SQLのようなプログラミングの知識がある専門家を介して、特徴量の集計期間を調整するといった作業が必要であり、工数がかかる上に間違いも発生しやすいという問題があった。
本開示は、かかる点に鑑みたものであり、その目的とするところは、高度なプログラミング技術を持った専門家を介さなくても、共通の入力データに基づいて様々な種類の分析が行えるようにすることにある。
上記目的を達成するために、本開示の一態様に係るデータ分析装置は、複数の特徴量を有する複数の表形式データを入力するためのデータ入力部と、前記データ入力部に入力された複数の前記表形式データの対応関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定するデータモデル設定部と、前記データモデル設定部により設定されたデータモデルを分析設定情報に基づいて調整するデータ調整部と、前記データモデル設定部により設定されたデータモデルに対して、第1の分析を実行し、第1の分析結果を生成する第1分析部と、前記データ調整部により調整されたデータモデルに対して第2の分析を実行し、第2の分析結果を生成する第2分析部と、を備えている。
この構成によれば、複数の表形式データが入力され、かつ、当該表形式データの対応関係を定めたリレーション情報の設定を受け付けると、分析対象となるデータモデルがデータモデル設定部により設定される。データモデルが設定されると、例えば使用者により設定された分析設定情報に基づいてデータモデルがデータ調整部により調整される。第1分析部は、データモデル設定部により設定されたデータモデルに対して、第1の分析を実行し、第1の分析結果を生成する一方、第2分析部は、データ調整部により調整されたデータモデルに対して第2の分析を実行し、第2の分析結果を生成する。したがって、例えば特徴量の集計期間を調整するといった作業を使用者に強いることなく、異なる種類の分析を行うことが可能になる。
他の態様では、前記第1分析部及び前記第2分析部の少なくともいずれか一方の分析結果に含まれる新たな特徴量を、次回の分析対象となるデータモデルに付加することができるので、使用者の負担を少なくすることができる。
他の態様では、複数の表形式データの中から一部のデータを抽出するためのセグメントの設定を受け付けて、分析対象となるデータモデルを設定することができ、この場合、第1分析部及び第2分析部の少なくともいずれか一方の分析結果に含まれる新たなセグメントを、次回の分析対象となるデータモデルに付加することができる。
他の態様では、第1分析部が目的変数の指定を受け付けると、指定された目的変数と関連度が大きい特徴量を抽出するとともに、全データの目的変数の平均値と比較して、前記目的変数の平均値が相対的に高くなる又は低くなるセグメントを抽出するための要因分析を実行する。第1分析部が実行した要因分析の結果に基づいて、目的変数との関連度が大きい特徴量を次回の分析対象となるデータモデルに付加することができる。
以上説明したように、複数の表形式データ及びリレーション情報に基づいて設定されたデータモデルに対して第1の分析を実行し、また、設定されたデータモデルを分析設定情報に基づいて調整し、調整後のデータモデルに対して第1の分析とは異なる第2の分析を実行することができる。したがって、高度なプログラミング技術を持った専門家を介さなくても、共通の入力データに基づいて様々な種類の分析を行うことができる。
以下、本発明の実施形態を図面に基づいて詳細に説明する。尚、以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用物或いはその用途を制限することを意図するものではない。
図1は、本発明の実施形態に係るデータ分析装置1の概略構成を示す図であり、図2は、データ分析装置1のブロック図である。データ分析装置1は、各種分析対象データを分析するための装置であり、このデータ分析装置1を使用することで本発明に係るデータ分析方法を実行することが可能である。
データ分析装置1の構成を説明する前に、実際のデータ分析の一例について図3に基づいて説明する。分析1は、2018年1~6月の目的変数の実績から2018年7~12月の目的変数を予測する分析であり、特徴量には1年間のデータを利用する。分析2は、2019年1~3月の目的変数の実績から2019年4~6月の目的変数を予測する分析であり、特徴量には6か月分のデータを利用する。分析3は、帳票による可視化であり、特徴量は最新データまでの期間を利用する。また、分析1、2では、モデルの学習が必要であり、この学習で利用する期間と、予測で利用する期間とは異なっている。このように、モデルの学習時、予測時、および集計用途においては、それぞれ用途に応じて適切な集計の期間が異なることがあり、各分析用の変換処理で得られた特徴量の値は、別の分析にそのまま流用することはできないケースがある。本実施形態に係るデータ分析装置1は、このようなケースであっても、SQLのようなプログラミングの知識がある専門家を介することなく、共通のデータから様々な分析を可能にするものである。以下、データ分析装置1の構成について具体的に説明する。
(データ分析装置1の全体構成)
図1及び図2に示すように、データ分析装置1は、装置本体2と、モニタ3と、キーボード4と、マウス5とを備えており、モニタ3、キーボード4及びマウス5は、装置本体2に接続されている。装置本体2とモニタ3とは一体化されていてもよいし、装置本体2の一部または装置本体2が実行する機能の一部がモニタ3に内蔵されていてもよい。データ分析装置1は、通信モジュール(図示せず)を内蔵しており、外部との通信が可能に構成されている。これにより、例えばインターネット回線等を介して外部サーバーからのデータのダウンロード等が可能になる。通信形態は、無線通信であってもよいし、有線通信であってもよい。キーボード4及びマウス5は、データ分析装置1を操作する操作手段の一例であるとともに、各種情報を入力する入力手段の一例、選択操作を行う選択手段の一例でもある。キーボード4及びマウス5に加えて、またはキーボード4及びマウス5に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。
図1及び図2に示すように、データ分析装置1は、装置本体2と、モニタ3と、キーボード4と、マウス5とを備えており、モニタ3、キーボード4及びマウス5は、装置本体2に接続されている。装置本体2とモニタ3とは一体化されていてもよいし、装置本体2の一部または装置本体2が実行する機能の一部がモニタ3に内蔵されていてもよい。データ分析装置1は、通信モジュール(図示せず)を内蔵しており、外部との通信が可能に構成されている。これにより、例えばインターネット回線等を介して外部サーバーからのデータのダウンロード等が可能になる。通信形態は、無線通信であってもよいし、有線通信であってもよい。キーボード4及びマウス5は、データ分析装置1を操作する操作手段の一例であるとともに、各種情報を入力する入力手段の一例、選択操作を行う選択手段の一例でもある。キーボード4及びマウス5に加えて、またはキーボード4及びマウス5に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。
例えば汎用のパーソナルコンピュータに、後述する制御及び処理等を実行可能なプログラムをインストールすることによってデータ分析装置1とすることができ、また、前記プログラムがインストールされた専用のハードウェアでデータ分析装置1を構成することもできる。たとえば、使用者のパーソナルコンピュータに前記プログラムを直接インストールすることで、当該パーソナルコンピュータをデータ分析装置1として利用する形態、サーバーに前記プログラムをインストールしてデータ分析装置1を構築し、各使用者は各自のパーソナルコンピュータのブラウザからネットワーク経由でデータ分析装置1にアクセスして使用する形態、クラウド上に置かれており、各使用者は各自のパーソナルコンピュータのブラウザからクラウド上のデータ分析装置1にアクセスする形態のいずれの形態であってもよい。また、後述する制御及び処理等の一部を使用者のパーソナルコンピュータで実行し、残りを他者のパーソナルコンピュータないしクラウド上で実行可能にしてもよい。つまり、データ分析装置1が実行する制御及び処理等の全てが同一のパーソナルコンピュータ上で行われる必要はなく、結果的に同様な作用効果を奏するシステムは、データ分析装置1である。また、図4に一例として示すデータ分析方法についても同様に、全てのステップS1~S8が同一のパーソナルコンピュータ上で行われる必要はない。尚、本実施形態では、データ分析装置1を使用して営業活動データを分析し、その分析結果を通じて、商談件数や成約率といった営業指標のモニタリングと深堀、変化が発生した際の要因分析、改善のための見込み会社リストの作成、施策の進捗監視、という一連の活動を実施する例を示すが、データ分析装置1は営業活動の支援以外の用途に使用することも可能である。
(モニタ3の構成)
図1に示すモニタ3は、例えば有機ELディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ3と、図2に示す表示制御部3aとを合わせて表示部と呼ぶこともできる。表示制御部3aは、モニタ3に内蔵されていてもよいし、装置本体2に内蔵されていてもよい。表示制御部3aは、モニタ3に対して画像を表示させる表示用DSPなどを含んでいる。表示制御部3aには、画像を表示させる際に画像データを一時記憶するVRAMなどのビデオメモリが含まれていてもよい。表示制御部3aは、後述する主制御部11のCPU11aから送られてきた表示指令(表示コマンド)に基づいて、モニタ3に対して所定の画像を表示させるための制御信号を送信する。たとえば、後述するような各種ユーザーインターフェースの他、アイコン、キーボード4やマウス5を用いた使用者の操作内容をモニタ3に表示させるための制御信号も送信する。また、マウス5で操作可能なポインタ等もモニタ3に表示することができるようになっている。モニタ3をタッチ操作パネル型モニタとすることも可能であり、こうすることで、モニタ3に各種情報の入力機能、データ分析装置1の操作機能、選択操作機能を持たせることができる。
図1に示すモニタ3は、例えば有機ELディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ3と、図2に示す表示制御部3aとを合わせて表示部と呼ぶこともできる。表示制御部3aは、モニタ3に内蔵されていてもよいし、装置本体2に内蔵されていてもよい。表示制御部3aは、モニタ3に対して画像を表示させる表示用DSPなどを含んでいる。表示制御部3aには、画像を表示させる際に画像データを一時記憶するVRAMなどのビデオメモリが含まれていてもよい。表示制御部3aは、後述する主制御部11のCPU11aから送られてきた表示指令(表示コマンド)に基づいて、モニタ3に対して所定の画像を表示させるための制御信号を送信する。たとえば、後述するような各種ユーザーインターフェースの他、アイコン、キーボード4やマウス5を用いた使用者の操作内容をモニタ3に表示させるための制御信号も送信する。また、マウス5で操作可能なポインタ等もモニタ3に表示することができるようになっている。モニタ3をタッチ操作パネル型モニタとすることも可能であり、こうすることで、モニタ3に各種情報の入力機能、データ分析装置1の操作機能、選択操作機能を持たせることができる。
(装置本体2の全体構成)
図1に示す装置本体2は、制御ユニット10と、記憶部30とを備えている。記憶部30は、ハードディスクドライブ、ソリッドステートドライブ(SSD)等で構成されている。記憶部30は、制御ユニット10に接続されており、制御ユニット10によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。記憶部30の一部または全部がクラウド上に存在していてもよい。
図1に示す装置本体2は、制御ユニット10と、記憶部30とを備えている。記憶部30は、ハードディスクドライブ、ソリッドステートドライブ(SSD)等で構成されている。記憶部30は、制御ユニット10に接続されており、制御ユニット10によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。記憶部30の一部または全部がクラウド上に存在していてもよい。
(制御ユニット10)
制御ユニット10は、具体的に図示しないが、MPU、システムLSI、DSPや専用ハードウェア等で構成することができる。制御ユニット10は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。
制御ユニット10は、具体的に図示しないが、MPU、システムLSI、DSPや専用ハードウェア等で構成することができる。制御ユニット10は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。
図2に示すように、制御ユニット10は、主制御部11と、データ入力部12a及びデータモデル設定部12bと、第1調整部13と、第2調整部14と、第1分析部15と、第2分析部16と、出力部18と、第3分析部19と、第4分析部20とを備えている。図5は、データ入力部12a、データモデル設定部12b、第1調整部13、第2調整部14、第1分析部15、第2分析部16及び出力部18の詳細、情報の送受信経路について示している。また、図6は、モニタ3に表示可能な画面構成の例を示している。図6の各画面は、いわゆるユーザーインターフェースであり、各種情報の使用者への提示や、使用者からの各種情報等の入力、設定、選択等の操作がなされる画面である。主制御部11からの信号に基づいて表示制御部3aが各画面を生成し、モニタ3に表示させることができるが、各画面の生成は、第1分析部15や、第2分析部16等の分析部が行ってもよい。
詳細については後述するが、図6に示すように、メニュー部には、ワークフロー、分析対象データ、リレーション、セグメント、分析が含まれている。ワークフローはワークフロー画面、分析対象データは分析対象データ画面、リレーションはリレーション設定画面、セグメントはセグメント一覧画面、分析は分析一覧画面に移行する。ワークフロー画面では、データ編集が可能であり、また、セグメント一覧画面からセグメント編集画面に移行することで、セグメントの編集が可能になる。さらに、分析一覧画面からは、帳票分析、ツリー分析、要因分析、予測分析等が可能である。つまり、使用者は、メニューから分析対象データ、リレーション、セグメントの各画面にてデータモデルの設定を行い、分析一覧画面から各種分析を開始することができる。また、ワークフロー画面は入力されたデータを事前に加工するための画面であり、列の削除やデータ間の結合など、データを分析で利用可能な状態にするために必要な前処理をこの画面にて行ってもよい。
図6に示すように、本実施形態では「帳票分析」、「ツリー分析」、「要因分析」、「予測分析」の4つの分析を、共通のデータモデルに対して実施できる。帳票分析とツリー分析は、それぞれ表形式とツリー形式で分析対象データを集計・可視化する分析であり、日々のモニタリングやレポーティングに高頻度に利用される。また、要因分析と予測分析は機械学習を用いた分析で、帳票分析とツリー分析に比べて利用頻度は低いものの、単純な集計では解決できない課題を高度な分析によって解決するために利用される。
制御ユニット10の各部は、上述したように各部分に分けて記載しているが、同じ部分が複数種の処理を実行するように構成してもよいし、更に細かく分けて複数の部分を連携させて1つの処理を実行するように構成してもよい。上記各ハードウェアは、図2に示すバスBなどの電気的な通信路(配線)を介し、必要に応じて双方向通信可能または一方向通信可能に接続されている。
主制御部11は、各種プログラムに基づき数値計算、演算処理、各種情報処理等を行うとともに、ハードウェア各部の制御を行う。主制御部11は、中央演算処理装置として機能するCPU11aと、主制御部11が各種プログラムを実行する際のワークエリアとして機能するRAM等のワークメモリ11bと、起動プログラムや初期化プログラム等が格納されたROM、フラッシュROMまたはEEPROM等のプログラムメモリ11cとを備えている。
図5にも示すように、データ入力部12aは、複数の特徴量を有する複数の表形式データ(分析対象データ)を使用者が入力するための部分である。図5に示す例では、分析対象データを2つ入力しているが、これに限らず、3つ以上の分析対象データを入力してもよい。また、1つの分析対象データの入力も可能である。データ入力部12aによって図4に示すフローチャートのステップS1の処理、即ちデータ入力ステップを実行することが可能になっている。
データ入力部12aは、データ入力用ユーザーインターフェース(図示せず)を生成してモニタ3に表示させる。データ入力部12aは、データ入力用ユーザーインターフェース上でなされた使用者の各種操作を受け付ける。使用者の操作とは、たとえば、キーボード4の操作や、マウス5の操作(ボタンクリック、ドラッグ&ドロップ、ホイールの回転等を含む)、タッチパネル式の入力装置へのタップ操作、ドラッグ操作等があり、これらのいずれの操作であってもよい。以下、同様である。
例えば、分析対象データを格納したファイルが外部記憶装置や記憶部30(図2に示す)に保存されていて、デスクトップ上や、開いた状態のフォルダにある場合には、使用者が当該ファイルをデータ入力用ユーザーインターフェース上へドラッグ&ドロップ操作する。これにより、分析対象データを格納したファイルが読み込まれて記憶部30の所定領域に保存される。また、分析対象データがデータベース上にある場合には、使用者がデータベースに接続し、所望の分析対象データが読み込まれて記憶部30の所定領域に保存される。また、分析対象データがインターネットやサーバー上にある場合には、使用者がURLを入力する。分析対象データは、インターネットやサーバーからダウンロードされて記憶部30の所定領域に保存される。上述した方法は例であり、分析対象データの入力方法はどのような方法であってもよい。以上が図4に示すフローチャートのステップS1のデータ入力ステップである。
図7は、データ入力ステップで入力された分析対象データの例を示しており、ここでは、「会社」、「商談」、「営業活動」、「カレンダー」という4つの分析対象データを入力するものとする。このとき、分析用の型(例えば数値型、カテゴリ型、日付型)を属性ごとに設定する。すなわち、分析対象データは、複数の属性を含むデータであり、属性とは、分析対象データに含まれる名称と型のペアからなる項目のことである。属性には、会社ID、所在地、活動日などが存在する。型とは、属性がどのような値を取り得るかを定義する分類であり、分類の仕方はシステムによって異なるが、たとえば一般的なリレーショナルデータベースでは、INT型(整数)、REAL型(実数)、DATE型(日付)、VARCHAR型(文字列)などのデータ型のうち、いずれかが属性ごとに割り当てられている。実際のデータベースではこれら以外にも多種多様な型が使用されている。また、分析対象データは、例えばCSVファイルやリレーショナルデータベース上のテーブルであってもよい。
型情報は、リレーショナルデータベース上の型から類推してもよい。例えばデータベース上でINT型の場合は数値型とする、等である。また、型情報は、使用者からの指定を受け付けてもよい。また、必要であれば、文字列の置換などの前処理を使用者やシステム自身によって行ってもよい。
入力された分析対象データは、図8に示す分析対象データ画面100上で確認することができる。分析対象データ画面100は、表示制御部3aが生成してモニタ3に表示させる画面である。分析対象データ画面100には、分析対象データの名称を表示する名称表示領域101と、分析対象データ追加ボタン102とが設けられている。名称表示領域101には、入力された複数の分析対象データの名称を一覧表示可能になっており、この例では、入力された分析対象データの例として、「会社」、「商談」、「営業活動」、「カレンダー」が表示されている。分析対象データ追加ボタン102を操作することで、別の分析対象データを新たに入力することが可能になる。分析対象データ画面100には、データ表示領域103も設けられている。名称表示領域101に表示されている複数の分析対象データの名称のうち、任意の一を使用者が選択操作すると、その選択された分析対象データの内容がデータ表示領域103に表形式で表示される。必要に応じて、分析対象データ画面100上のデータに対してワークフロー画面でデータ型の変換など、さまざまな加工処理を行ってもよい。また、一旦入力した分析対象データを削除する操作を受け付けるように構成することもできる。
図5に示すデータモデル設定部12bは、データ入力部12aに入力された複数の分析対象データに含まれる特徴量の関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定する部分である。各分析対象データは表形式であることから、行と列を有している。複数の分析対象データ間の行の対応関係を定義するための情報がリレーション情報であり、このリレーション情報を使用者が追加で設定する。また、必須ではないが、必要に応じて、後述する抽出条件(セグメント)を使用者が定義し、そのセグメントに名称等を付けて記憶部30に保存しておくこともできる。すなわち、データモデルは、分析の入力に利用される複数の表形式データ、およびそれらの対応関係を定義するリレーションの組み合わせであり、分析で共通に利用するセグメントの定義を追加で含むこともできる。
上記リレーション情報の設定は、図4に示すフローチャートのステップS2で実行する。ステップS2の処理内容について、図9~図11に基づいて説明する。図9は、複数の分析対象データ間のリレーション関係を説明する図であり、また、図10は、多重度の種類を示すものである。ステップS2は、データモデル設定ステップに相当する。
ステップS2では、まず、図11に示すようなリレーション設定画面110にて、使用者が分析対象データ間のリレーション(紐づけ)を定義する。リレーション設定画面110は、表示制御部3aが生成してモニタ3に表示させる画面である。リレーション設定画面110には、リレーション表示領域111が設けられており、このリレーション表示領域111において異なる分析対象データ間のリレーションを任意に設定可能になっている。リレーションの設定は、使用者が分析対象データの組に対してそれぞれ属性の名前を指定することで行われる。リレーション表示領域111は、複数の領域111a~111dを含んでいる。各領域111a~111dは同様に構成されており、例えば最も上に位置する領域111aについて説明すると、一の分析対象データの属性の名前を指定する第1指定部111eと、他の分析対象データの属性の名前を指定する第2指定部111fとが設けられている。この例では、第1指定部111eで「会社」の分析対象データの属性の名前から任意の一の名前を指定し、第2指定部111fで「商談」の分析対象データの属性の名前から任意の一の名前を指定している。他の領域111b~111dでも同様にして指定できる。この指定操作を経ることで、指定した属性の値が一致する行同士が対応しているとみなされる。
リレーションに使われる属性のことを、結合キーと呼ぶ。例えば「会社」と「商談」の分析対象データに対して、会社IDを結合キーとしたリレーションを設定した場合、同じ会社IDの行同士が、紐づいているとみなされる。図9における符号Lはリレーション関係を示す線である。
リレーショナルデータベースの場合、データベースの側で既に分析対象データの属性同士の対応関係が定義されていることがある。このデータベース側で定義される対応関係を外部キー制約と呼ぶ。この外部キー制約がある場合、設定済の対応関係を上記ステップS1においてデータ分析装置1側で読み込み、分析対象データ間のリレーションの定義をデータ分析装置1側で自動的に設定してもよい。
以上のようにして分析対象データ間のリレーションが定義されると、データ分析装置1側ではそれぞれの対応関係について多重度を自動判別する。多重度の自動判別は、制御ユニット10で行われる。図10に示すように、多重度には1:1型、1:N型、N:N型の3種類があり、分析対象データの内容を参照することで判別することができる。1:1型は、一方の分析対象データの1行が他方の分析対象データの1行に対応している関係である。1:N型は、一方の分析対象データの1行に他方の分析対象データが複数行対応している関係である。N:N型は、一方の分析対象データの1行に他方の分析対象データが複数行対応し、他方の分析対象データの1行に一方の分析対象データが複数行対応している関係である。
図11に示すリレーション設定画面110には、多重度表示領域112が設けられている。多重度表示領域112には、上述のようにして自動判別された多重度の判別結果が表示される。この例では、「会社」と「商談」の間は1:Nの関係であることが分かる。多重度表示領域112に表示される判定結果は、リアルタイムで更新される。
また、データモデル設定部12bは、さらに、複数の分析対象データの中から一部のデータを抽出するためのセグメントの設定を受け付けることが可能に構成されている。セグメントは、分析対象データに対して行の抽出条件を適用することで抽出されるデータの部分集合であり、属性とその条件との組み合わせと呼ぶこともできる。
分析対象データ、リレーション情報及びセグメントはデータモデルを構成しており、これらは後述する様々な分析を行う際に共通の入力及び設定情報となる。すなわち、データモデル設定部12bは、分析対象データの入力、リレーション情報の設定及びセグメントの設定を受け付けて、分析対象となるデータモデルを設定する。データモデル設定部12bによってデータモデルの設定が完了すると、使用者は単一のデータモデルから、様々な分析を自由に開始することができる。
ここで、データ分析装置1の詳細構造について図5に基づいて説明する。各部の具体的な機能及び動作については、後述するフローチャートやモニタ3に表示される画面例に基づいて説明し、ここでは概略を説明する。
図5に示すように、データモデル設定部12bにより設定されたデータモデルは、第1調整部(データ調整部)13及び第2調整部(データ調整部)14にそれぞれ入力される。第1調整部13及び第2調整部14では、使用者により分析設定情報が設定されていれば、その分析設定情報に基づいてデータモデルを調整する。分析設定情報が設定されていなければ、第1調整部13及び第2調整部14でデータモデルの調整は行われない。分析設定情報には、目的変数が含まれていてもよく、この目的変数は使用者により指定されたものであってもよい。
第1分析部15は、データモデル設定部12bにより設定されたデータモデルに対して、第1の分析を実行し、第1の分析結果を生成する部分であり、第1変換・結合処理部15aと第1処理エンジン15bとを有している。第1変換・結合処理部15aは、第1分析部15に入力されたデータモデルに基づいて必要な変換・結合処理を内部で自動的に行う部分である。この変換・結合処理には、特許文献1に開示されているような特徴量の自動生成処理が含まれていてもよい。第1変換・結合処理部15aで変換・結合処理が行われたデータモデルは、第1処理エンジン15bに入力される。第1処理エンジン15bで行われる分析処理には、機械学習を用いた処理、SQLなどを用いた集計処理の少なくとも一方または両方が含まれる。尚、第1分析部15は、第1調整部13でデータモデルの調整が行われていなければ、調整されていないデータモデルに対して分析を実行するが、第1調整部13でデータモデルの調整が行われていれば、調整されたデータモデルに対して分析を実行する場合がある。
使用者により指定された目的変数が分析設定情報に含まれている場合、第1分析部は要因分析を実行する。第1分析部は、指定された目的変数と関連度が大きい特徴量を抽出するとともに、全データの目的変数の平均値と比較し、目的変数の平均値が相対的に高くなる又は低くなるセグメントを抽出するための要因分析を実行することで、より深いデータ分析が可能になる。
第1分析部15は、使用者により指定された目的変数と関連度が大きい特徴量として、元のデータモデルには存在しない新しい特徴量を自動的に生成することもできる。
第2分析部16は、第2調整部14により調整されたデータモデルに対して第2の分析を実行し、第2の分析結果を生成する部分であり、第2変換・結合処理部16aと第2処理エンジン16bとを有している。第2変換・結合処理部16aは、第2分析部16に入力されたデータモデルに基づいて第1変換・結合処理部15aと同様に、変換・結合処理を内部で自動的に行う部分である。第2変換・結合処理部16aで変換・結合処理が行われたデータモデルは、第2処理エンジン16bに入力される。第2処理エンジン16bは、第1処理エンジン15bと同様に構成されている。尚、第2分析部16は、第2調整部14でデータモデルの調整が行われていれば、調整されたデータモデルに対して分析を実行するが、第2調整部14でデータモデルの調整が行われていなければ、調整されていないデータモデルに対して分析を実行する場合がある。
また、第1分析部15は、予測対象のデータごとに、目的変数の値を予測する予測分析を実行することもできる。この場合、第1分析部15は、分析設定情報として、使用者による予測基準日の設定を受け付けることができる。第1分析部15は、予測基準日を受け付けると、予測対象のデータモデルの中に集計期間をパラメータに持つ特徴量が含まれている場合は、受け付けた予測基準日に基づいて、集計期間をパラメータに持つ各特徴量の値を自動的に再計算する処理を実行する。
分析に機械学習を用いる場合には、第1分析部15は、分析設定情報として使用者により設定された学習基準日を受け付ける。第1分析部15は、受け付けた学習基準日よりも前の期間に集計されたデータに基づいて特徴量を集計し、学習基準日よりも後の期間に集計されたデータに基づいて目的変数を集計することにより、要因分析を実行することができる。つまり、特徴量を集計するためのデータの集計期間と、目的変数を集計するためのデータの集計期間とを使用者によって任意に変えることができる。
第1分析部15が要因分析を実行した場合、第2分析部16は、第1分析部15が実行した要因分析により、目的変数との関連度が高い特徴量として抽出された特徴量が付加されたデータモデルに基づいて、予測分析を実行することが可能である。このとき、第2分析部16は、分析設定情報として、学習基準日とは異なる予測基準日の設定を受け付けることができる。予測対象のデータモデルの中に、集計期間をパラメータに持つ特徴量が含まれている場合があり、この場合、予測分析に用いられる特徴量を集計するためのデータの集計期間は、要因分析に用いられる特徴量を集計するためのデータの集計期間と異なる。そのため、予測分析を行う場合は、要因分析により抽出された特徴量をそのまま用いるのではなく、予測分析に適した特徴量を得るために、第2分析部16は、予測基準日に基づいて各特徴量の値を自動的に再計算する。
第2分析部16は、ルールベース方式にしたがって予測分析によって予測された予測対象のデータごとの目的変数のスコアリングを行うこと、及び機械学習方式にしたがって予測分析によって予測された予測対象のデータごとの目的変数のスコアリングを行うことが可能である。この場合、第2分析部16は、使用者はルールベース方式と機械学習方式のいずれか一方の選択操作を受け付ける。第2分析部16は、ルールベース方式と機械学習方式のいずれかの方式から、使用者により選択された方式にしたがって、予測分析のスコアリングを行う。
予測分析のスコアリングを行った場合、第2分析部16は、データを、スコアが高いデータから順に並べてモニタ3に表示させることができる。第2分析部16は、使用者からある施策を適用すべきデータ範囲の入力を受け付けることができるとともに、その施策1件あたりにかかるコストの入力と、目的達成1件あたりに得られる利益の入力とを受け付けることができる。第2分析部16は、前記データ範囲に含まれるデータの数と、施策1件あたりにかかるコストと、目的達成1件あたりに得られる利益とに基づいて、前記データ範囲に施策を適用した場合にかかる総コストと、得られる総利益を計算することができる。
第2分析部16は、施策の総コストと、施策によって得られる総利益を計算するとともに、施策を実行すべきデータ件数を自動的に計算することで、施策を実行した場合に得られる投資対効果を数値で使用者に提示することができる。
図2に示すように、データ分析装置1は、第3分析部19及び第4分析部20を備えていてもよい。第3分析部19は、データモデルに基づいて帳票分析を実行する部分であり、モニタ3上に、マトリクスに帳票分析結果を表示させる。第3分析部19は、マトリクス上で、基準データと、比較データの選択を使用者から受け付け、受け付けた2つのデータの差異に関連した情報をモニタ3上にさらに表示させる。
第4分析部20は、前記2つのデータの差異に関連した情報をツリー状に表示するツリー分析を実行する部分であり、前記2つのデータの差異を特定の特徴量に注目してモニタ3に表示させる。データ分析装置1は、第3分析部19及び第4分析部20を備えている場合、第4分析部20によるツリー分析から、第3分析部19による帳票分析を派生させてモニタ3に表示可能に構成されている。
出力部18は、第1分析部15及び第2分析部16の少なくともいずれか一方の分析結果に含まれる新たな特徴量を、次回の分析対象となるデータモデルに付加する部分である。第1分析部15が第1の分析を実行するとその分析結果が取得されるが、この分析結果には、別の分析に役立つ特徴量が含まれている場合がある。第2分析部16で取得された分析結果も同様である。このような特徴量が含まれている場合には、その特徴量を次回の分析対象となるデータモデルに付加することで、次回の分析では新たな特徴量を用いた分析が可能になる。
また、出力部18は、第1分析部15及び第2分析部16の少なくともいずれか一方の分析結果に含まれる新たなセグメントを、次回の分析対象となるデータモデルに付加することもできる。セグメントは、分析対象データに対して行の抽出条件を適用することで抽出されるデータの部分集合であり、属性とその条件との組み合わせと呼ぶこともできる。このセグメントが第1分析部15から取得された分析結果や第2分析部16から取得された分析結果に含まれている場合がある。このようなセグメントが含まれている場合には、そのセグメントを次回の分析対象となるデータモデルに付加することで、次回の分析では新たなセグメントを用いた分析が可能になる。要するに、分析の結果として特徴量やセグメントが得られた場合、それらをデータモデルに付加することで、ある分析で取得された結果を、別の分析の入力として簡単に用いることができる。
第1分析部15が要因分析を実行した場合、出力部18は、第1分析部15が実行した要因分析の結果に基づいて、使用者により指定された目的変数との関連度が大きい特徴量を次回の分析対象となるデータモデルに付加する。また、第1分析部15が要因分析を実行した結果、セグメントが抽出された場合、出力部18は、実行した要因分析に基づいて抽出されたセグメントを、次回の分析対象となるデータモデルに付加する。
第2分析部16が要因分析を実行してスコアリングした場合、出力部18は、予測分析によって特定されたスコアが高い一部のデータをセグメントとして出力し、次回の分析対象のデータモデルに付加することが可能になっている。
図4に示すフローチャートのステップS2でリレーションの定義が完了すると、ステップS3に進む。ステップS3では、帳票分析及びツリー分析を実行する。ステップS3の説明を行う前に、以下、データモデルの設定完了後、データ分析装置1による分析の例について説明する。データ分析装置1は、データモデルの設定が完了すると図12に示す分析一覧画面120を表示制御部3aが生成してモニタ3に表示させる。分析一覧画面120には、分析種別選択部121が設けられている。分析種別選択部121をクリックすると、「帳票分析」、「ツリー分析」、「要因分析」、「予測分析」等の分析種別が表示され、それらの中から使用者が所望の分析種別を選択できる。この選択操作は、どのような操作であってもよく、キーボード4やマウス5等を用いて行うことができる。作成ボタン122を押すと、選択された分析が実行される。図12に示す例では、「帳票分析」が選択された場合を示している。要因分析は、第1分析部15で実行される第1の分析であり、また、予測分析は、第2分析部16で実行される第2の分析であり、また、帳票分析は、第3分析部19で実行される第3の分析であり、さらに、ツリー分析は、第4分析部20で実行される第4の分析である。
データ分析装置1の主制御部11は「帳票分析」が選択されたことを検出すると、帳票分析の設定を受け付ける。まず、図13に示す帳票分析の設定画面130を表示制御部3aが生成してモニタ3に表示させる。帳票分析の設定画面130には、分析対象データの属性を表示する属性表示領域131が設けられている。属性表示領域131には、既に入力されている全ての分析対象データの属性が、分析対象データごとにまとめて表示される。この場合「会社」「商談」「営業活動」「カレンダー」の属性が表示されている。
帳票分析の設定画面130には、帳票分析用の行及び列を定義するための列エリア132及び行エリア133が設けられている。列エリア132や行エリア133には、それぞれ属性表示領域131に表示されている属性を入力できる。例えば所望の属性を選択して列エリア132や行エリア133にドラッグ&ドロップ操作によって配置してもよく、その入力操作はどのような操作であってもよい。つまり、分析対象データの属性を列エリア132及び行エリア133に配置していく操作を使用者が行うことで、帳票の行及び列を容易に定義することができる。
帳票分析の設定画面130には、フィルターエリア134が設けられている。フィルターエリア134には、属性やデータモデルで定義されたセグメントを絞り込み条件として入力することができる。フィルターエリア134に絞り込み条件を入力することで、帳票の計算対象とするデータを自由に絞り込むことができる。ここにも所望の属性をドラッグ&ドロップ操作によって配置できる。
帳票分析の設定画面130には、値エリア135が設けられている。値エリア135では、帳票の内容として表示する数値の定義が可能になっている。値エリア135に例えば数値型の属性を配置すると、配置した属性の合計値が自動的に計算され、表エリア136に表示されている表の各部に表示される。ここにも所望の属性をドラッグ&ドロップ操作によって配置できる。
この例では、表エリア136に表示されている表において、成約の合計値が値に設定されており、2018年、第4四半期、商談動機=Webに該当する箇所の値は破線で囲んで示しているように「8」となっている。この数値を計算する際には、図14に示すように、まず、「商談」の分析対象データに対して、「年度=2018かつ四半期=第4四半期かつ商談動機=Web」に該当する行を抽出する。「年度」と「四半期」については、ステップS2で設定されたリレーション情報に基づいて、「カレンダー」の分析対象データの該当行に紐づいている「商談」の行だけを抽出する。抽出された「商談」の行に対して、属性:成約の合計値を計算する。
集計方法は合計に限られるものではなく、合計以外に平均、最小、最大等が選択可能であってもよい。数式を使用者が入力することで、より複雑な値を定義できるようにしてもよい。このように、予め設定されているリレーション情報を用いることで、複数の分析対象データを事前に集計、結合することなく、属性を自由に組み合わせた帳票を作成することが簡単にできる。
図15は、帳票として設定した値を示す表であり、図16は、帳票として設定した値に基づいて自動的に作成された帳票の出力画面140の例を示している。帳票の出力画面140には、帳票が表示される帳票表示領域141が設けられている。帳票表示領域141には、帳票分析結果がマトリクスに表示されており、この表示は、第3分析部19が実行する。このように、様々な集計方法を組み合わせることで、ビジネス上の指標を高度なプログラミングを必要とせずに簡単に計算することができる。
さらに、計算に利用している分析対象データを定期的に最新データに置換することもできる。例えば、最新データが入力されると、古い分析対象データを最新データに自動的に置換することで、定期的に行う集計作業が自動的に実行されることになる。この最新データへの置換は、使用者が手動で行ってもよく、接続先のデータベースから定期的に自動取得するような設定が可能であってもよい。
以上の例は、図12に示す分析一覧画面120で帳票分析が選択された場合の例であるが、次は、分析一覧画面120でツリー分析が選択された場合の例について説明する。第4分析部20は、帳票分析の結果が表示されるマトリクス上で、例えば基準データと、比較データの選択を使用者から受け付け、受け付けた2つのデータの差異に関連した情報を表示する。その一例として、基準データと比較データとの差異に関連した情報をツリー状に表示するツリー分析を第4分析部20が実行する。第4分析部20は、図17に示すようなツリー分析画面150を生成してモニタ3に表示させる。この例では、基準データと比較データとの差異を特定の特徴量に注目して表示させることができる。
ツリー分析画面150に示す例は、同一の分析対象データに対してツリー分析を行っている例である。このツリー分析では、2つの分析グループ(データのサブセット)を指定することで、両グループ間で値の差を掘り下げて分析することができる。
ツリー分析画面150には、第1の分析グループを指定するための第1指定領域151と、第2の分析グループを指定するための第2指定領域152とが設けられている。図17に示す例では、第1の分析グループは「年度=2019かつ四半期=第4四半期」の条件に合致するデータのサブセットが指定され、また第2の分析グループは「年度=2018かつ四半期=第4四半期」の条件に合致するデータのサブセットが指定されている。また、ここでの値は、集計分析における値と同様、カラムと集計方法を指定したり、使用者が数式を入力することで定義できる。
ツリー分析画面150には、第1指定領域151及び第2指定領域152の下方にツリー表示領域153が設けられている。ツリー表示領域153には、分析内容がツリー形式に表示されており、ここに表示さる分析軸の追加ウインドウ154の項目名を例えばマウス5でクリックすることで、分析軸を次々に追加していくことができる。分析軸を追加していくことで、2つのグループの間でどの場所で大きな差が発生しているのか、詳細に掘り下げて分析することができる。
すなわち、例えば「2019年第4四半期と2018年第4四半期を比較すると、2019年のほうが成約数が6件多かった」という集計結果が帳票から得られたときに、どのような種別の商談で成約に差が付いたのか、どの地区で差が付いたのか、四半期の中でどの月度に差があったのか、といった要素への掘り下げを行いたくなる場合は多いと考えられるが、帳票の場合、複数の軸の組み合わせで掘り下げを行うことは、表の行・列数が組み合わせによって莫大になってしまうので難しい。
それに対して、ツリー形式の分析では、表示されているノードを選択して分析軸を追加していくことで、より直感的な操作で任意の要素の組み合わせによる掘り下げを行うことができる。例えば、図17に示す例では、商談動機が「紹介」という条件の時に、2つのグループの間で成約率に6ポイントの差が生じていることが分かる。さらに、図17に示す例では、商談動機が「Web」という条件では、2つのグループの間で成約率の差は生じていないが、商談動機が「Web」という条件を掘り下げた場合、月度が「1月度」という条件で、成約率に1ポイントの差が生じていることが分かる。
一方、ツリー形式では掘り下げを行う要素以外の要素、例えば図17に示す例では、2019年第4四半期と2018年第4四半期以外の期間での推移のような情報を見ることはできず、帳票分析と比較してツリー分析では情報の網羅性に欠ける部分がある。そのため、分析の目的に応じて帳票分析とツリー分析とを組み合わせることが有効である。
このように、網羅的に数値を確認できる帳票分析と、任意の掘り下げが可能なツリー分析とは互いに補完関係にあるため、分析を個別に実行できるだけでなく、帳票分析とツリー分析を相互に行き来できるようにすることがデータ分析の利便性を向上する上で有効である。本実施形態では、帳票分析からツリー分析を開始する機能を搭載している。
表示制御部3aが図16に示す帳票の出力画面140を表示させている状態で、使用者が帳票表示領域141に表示されている帳票の2箇所を選択すると、図18に示すように、帳票表示領域141の隣に情報表示領域142が生成される。図18では、使用者により選択された箇所をそれぞれ破線で囲んで示している。
情報表示領域142には、選択した2箇所の差異に関連した情報が1つまたは複数表示される。情報表示領域142に表示される情報が複数存在している場合には、複数の情報が優先度順に表示される。ここでの順は、差異が大きい順であってもよいし、何らかの統計分析を行った結果得られた指標に基づいて決定した順であってもよい。
使用者は、情報表示領域142に表示された複数の情報の中から、詳細に分析したい項目を選択することができる。使用者による選択操作は、例えば項目をマウス5でクリックする操作等を挙げることができる。項目を選択すると、分析開始ボタン143が表示される。分析開始ボタン143を使用者が操作すると、主制御部11は、使用者が選択した項目に基づいて、その内容をツリー分析の設定項目へと自動的に変換し、ツリー分析を開始する。例えば、図19に示すような変換規則に基づいて、帳票での設定情報と選択状態から、ツリー分析の設定を生成することができる。この変換規則はあくまでも一例であり、他の変換規則を用いてもよい。図19に示す変換規則に基づいて、図18に示す帳票分析からツリー分析を開始する。開始されたツリー分析の状態を図20に示す。
次に、ツリー分析から帳票分析を開始する場合について説明する。図17や図20に示すツリー分析画面150を用いてツリー分析で掘り下げを行っていると、2つの分析グループ以外での値について確認したくなることがある。例えば図21に示すように、ツリー分析画面150上では、2019年と2018年の第4四半期間で成約率を比較した結果、「商談動機=紹介」の条件で成約率が3.57%から23.33%に大きく変化していることが分かる。しかしながら、このツリー分析では2グループ間の数値のみ比較しているため、上記差異が一過性のものなのか、継続的なトレンドを持っているのかを確認することができない。
図22に示すように、「商談動機=紹介」の欄、即ち紹介欄153aを使用者が選択すると、ツリー表示領域153の隣に情報表示領域155が生成される。図22では、使用者により選択された箇所を破線で囲んで示している。情報表示領域155には、使用者が選択した欄で生じている差異の具体的な数値等が表示される。また、紹介欄153aを使用者が選択すると、推移を確認するための確認ボタン155aが情報表示領域155に表示される。確認ボタン155aを使用者が操作すると、ツリー分析の設定に基づいて、帳票分析の設定を自動的に行い、帳票分析を開始する。
例えば、図23に示す変換規則に基づいて、ツリー分析での設定情報から帳票分析の設定を生成することができる。自動設定では、例えば2グループの条件を比較して共通部分と異なる部分を抽出し、共通部分を帳票分析におけるフィルター設定、異なる部分を帳票分析における列の設定とすることができる。この変換規則も一例であり、他の変換規則を用いてもよい。
図22に示す例では、2つのグループの条件間の共通部分は「四半期=第4四半期」で、異なる部分は「年度」の条件であるため、「年度」を列に設定した帳票を作成し、「四半期=第4四半期」および選択されている「商談動機=紹介」をフィルター条件に設定すると、図24に示す出力画面140に表示されるような帳票を自動的に作成できる。この帳票には、ツリー分析で見えていた2018年、2019年の数値のほかに、他の年(例えば2020年)の数値も表示される。このように、2つのグループ間を比較するツリー分析を行っている時またはツリー分析を行った後に、帳票のような別種の分析を任意のタイミングで実行することができる。つまり、使用者は分析対象データの掘り下げを行いながら、必要に応じて着目している2グループの周辺の値を確認することができる。さらに、2つのグループ間で異なる条件が複数存在する場合、異なる条件の内、帳票の列に用いる条件の組を複数生成して、ユーザに提示してもよい。この場合、年や月といった時系列を表す条件を優先的にユーザに提示することもできる。また、帳票を生成する際に、ツリー分析で分析対象としていた第1の指標だけでなく、ユーザが他の帳票分析で利用している第2の指標を自動的に抽出し、生成した帳票に追加してもよい。
このように、第4分析部20によるツリー分析から第3分析部19による帳票分析を派生されてモニタ3に表示させることができる。ツリー分析から派生させた帳票は元のツリー分析とは独立した分析であるために、必要であれば使用者側でこの帳票の設定を変更することもできる。使用者が所望の条件設定を行うと、その条件が主制御部11で受け付けられる。これにより、さらに帳票分析を発展させたり、別個の分析として保存することができる。例えば、自動的に生成された設定では、第4四半期の推移を確認することができるが、例えば設定を変えることで、他の四半期を含む時系列の推移を確認することも可能である。
さらに、別の実施形態として、図25に示すように、ツリー表示領域153に表示されているツリー分析の情報に、帳票分析に相当する内容の情報を重畳表示させることもできる。具体的には、帳票分析に相当する内容の情報を表示するためのウインドウ156をツリー表示領域153内に表示させる。これにより、ツリー分析の表示形式に合わせた形態で帳票分析に相当する内容の情報を埋め込んで表示することができる。
以上のように、図4に示すフローチャートのステップS3で作成された帳票を用いることで、使用者が最新の営業指標をモニタリングすることができるようになる。一方、帳票分析で特定の指標の値が悪化していることが分かった場合、その要因を分析することがしばしば必要となる。例えば、ある四半期について、商談が発生した会社と、発生しなかった会社にどのような違いがあったのかを分析したい場合、図4に示すフローチャートのステップS4に進み、帳票分析で用いたデータモデルから機械学習を用いた要因分析を実行できる。この要因分析のステップが、第1分析ステップである。
ステップS4に進むと、表示制御部3aが図26に示す要因分析の設定画面170を生成してモニタ3に表示させる。要因分析の設定画面170には、分析の単位を入力する単位入力領域171と、分析の目的を入力する目的入力領域172と、分析基準日を入力する基準日入力領域173とが設けられている。基準日入力領域173には、分析対象データを目的変数と特徴量の期間に分割する際の分割点となる日を予測基準日として使用者が入力可能になっている。この予測基準日に基づいて、集計期間をパラメータに持つ各特徴量の値を自動的に再計算することができる。
この例では、「商談」データを2018年12月までの集計期間と、2019年1月以降の集計期間とに分割し、前者を特徴量の集計に、後者を目的変数の集計に用いるよう設定している。このように期間を分割する設定を行うことで、例えば上記特許文献1に開示されている方法を用いた変換・結合処理によって目的変数と特徴量を自動的に生成し、機械学習向けのデータ変換処理を簡単に実行することができる。
また、この実施形態では使用者が帳票から変化点を発見したのち、要因分析の設定を手動で行っていたが、データ分析装置1が帳票から自動的に値の変化点を検出し、開始可能な要因分析を提示してもよい。その場合に、要因分析の設定の一部または全部を、データ分析装置1側が帳票の設定と値とに基づいて自動的に行ってもよい。
要因分析時の処理手順の一例を図27のフローチャートに基づいて説明する。最初のステップSA1は入力データ解析ステップであり、この入力データ解析ステップでは、入力された分析対象データ、及び複数の分析対象データ間の結合関係と、分析設定を解析する。この解析により、分析対象データ(ここでは会社)に対して、各分析対象データからどのような経路で変換・結合処理を行うかを決定する。
続くステップSA2はパラメータ抽出ステップであり、このパラメータ抽出ステップでは、ステップSA1で解析された情報に基づいて、目的変数と特徴量を生成するために必要なパラメータを生成する。ステップSA2で生成されたパラメータは、特徴量の値を計算するために必要な集計関数や集計対象カラム等の情報を含んでおり、1つの特徴量につき1つのパラメータが生成される。パラメータの例を図27中に示している。
続くステップSA3はSQL変換ステップであり、このSQL変換ステップでは、ステップSA2で生成されたパラメータをSQLと呼ばれるプログラミング言語に変換する。
最後のステップSA4はSQL実行ステップであり、このSQL実行ステップでは、データベースに対してSQLを使った問い合わせを実行することで、特徴量の値を得る。
分析が完了すると、表示制御部3aは図28に示すセグメント出力画面180を生成してモニタ3に表示させる。セグメント出力画面180には、1つまたは複数のセグメントを表示可能なセグメント表示領域181が設けられている。セグメント表示領域181には、目的変数と関連度が大きい特徴量と、その特徴量を用いた場合に目的変数の値が高くなるようなセグメントを表示している。すなわち、第1分析部15は、使用者により指定された目的変数と関連度が大きい特徴量を抽出するとともに、全データの目的変数の平均値を比較して、目的変数の平均値が相対的に高くなるセグメントを抽出してセグメント出力画面180に表示させる。尚、第1分析部15は、前記目的変数と関連度が大きい特徴量と、全データの目的変数の平均値とを比較して、目的変数の平均値が相対的に低くなるセグメントを抽出してセグメント出力画面180に表示させてもよい。
セグメント表示領域181に表示されたセグメントに対応してチェックボックス181aが設けられている。このチェックボックス181aについては後述する。
また、セグメント出力画面180には、平均値を表示する平均値表示領域182も設けられている。平均値表示領域182の代わりに、最大値を表示する最大値表示領域であってもよいし、最小値を表示する最小値表示領域であってもよい。
図28に示す例では、分析対象データの「会社」における平均の商談率は平均値表示領域182に表示されているとおり23.3%であるのに対して、「直近90日間の活動種別=“メール送信”の数」が2件以上ある会社では商談率が38.8%と、平均より15.5ポイント高いことが分かる。同様に、「直近30日間の活動種別=“TEL”の数」が多い場合にも商談率が高いことも分かり、直近での営業活動のうち、メール送信と電話の回数が商談に影響を与えている可能性が示唆される。
ここで、「直近90日間の活動種別=“メール送信”の数」は、第1分析部15が、目的変数と関連度が大きい特徴量として自動的に生成した特徴量であり、元のデータモデルには存在しない。尚、「直近90日間」は、この分析においては2019年1月1日を基準日としているため、「2019/01/01までの90日間」の期間を意味する。
次に、図4に示すフローチャートのステップS5に進む。ステップS5は特徴量の出力ステップであり、ステップS4で生成された特徴量を他の分析でも利用できるように出力する。この出力ステップは出力部18が実行するものであり、自動的に生成した新しい特徴量や、要因分析に基づいて抽出されたセグメント、目的変数との関連度が大きい特徴量を次回の分析対象となるデータモデルに付加する。
具体的な手順は図30のフローチャートに示す通りである。まず、ステップSB1において、図29に示すセグメント出力画面180のセグメント表示領域181に表示されているセグメントを使用者が選択する。この例では、セグメントに対応するチェックボックス181aをチェックする操作が選択操作であるが、この操作に限定されるものではない。主制御部11は、使用者による選択操作を受け付けると、セグメント出力画面180に出力ボタン183を表示させる。使用者が出力ボタン183を操作すると、選択された特徴量の特徴量パラメータを読み出し、特徴量の出力先を変更することで、特徴量の値を入力データに対して計算できるようにする。また、必要であれば、他のパラメータ、例えば基準日となる日付を調整してもよい。これが図30に示すフローチャートのステップSB2の処理である。その後、ステップSB3、SB4では、それぞれ図27に示すフローチャートのステップSA3、SA4と同様に、SQL変換ステップとSQL実行ステップを行う。
このように、調整後の特徴量パラメータに対して、分析時と同様にSQL変換と実行を適用することで、分析に用いた特徴量を簡単に入力データにも反映させることができる。また、基準日の調整も同時に行うことで、機械学習による分析で用いた特徴量を、機械学習以外の用途で使いやすい形式に変換することもできる。この基準日は「2019/01/01」のように日付で指定してもよいし、「現在日時」のように設定をすることで、表示のたびに更新してもよい。
特徴量の出力が完了した後、図31に示すように、分析対象データ画面100が更新される。具体的には、出力された特徴量がデータ表示領域103に「会社」の分析用データの属性として追加される。次の分析を開始した際には、この入力データを用いることで、追加した特徴量を元の属性と同じように利用することができる。
次に、図4に示すフローチャートのステップS6に進む。ステップS6は、第2分析部16による予測分析の実行ステップ、即ち調整後のデータモデルに対して予測分析を実行する第2分析ステップであり、予測対象のデータごとに目的変数の値を予測する。
上記ステップS5では、例えば会社ごとの商談の発生有無に対して、どのような特徴量が高い相関があるのかを把握できる。実際の営業データ分析においては、単に要因を分析するだけではなく、今後商談が発生する見込みの高い会社を抽出するなどして、営業活動のリソース配分を効率化することが可能であり、そのために予測分析を用いることがある。
予測分析の実行ステップでは、ステップS5で得られた会社データに基づいて、次の90日間に商談が発生する確度が高い会社を予測するものとする。このステップでは、表示制御部3aが図32に示す予測分析の設定画面190を生成してモニタ3に表示させる。予測分析の設定画面190には、図26に示す要因分析の設定画面170と同様に、分析の単位を入力する単位入力領域191と、分析の目的を入力する目的入力領域192と、分析基準日を入力する基準日入力領域193とが設けられている。基準日入力領域193には、分析の基準日として、学習時の基準日(学習基準日)と、学習時の基準日とは異なる予測時の基準日との設定が可能になっている。
また、予測分析においては、単に精度よく予測できるだけでなく、予測結果の根拠が必要となる用途も多い。そこで、本実施形態では、予測分析の設定の中で、スコアリングの計算方式を、ルールベースの方式と機械学習を用いた方式とから選択可能としている。表示制御部3aは、図33に示すスコアリング設定画面200を生成してモニタ3に表示させる。スコアリング設定画面200には、ルール方式と、機械学習方式とのうち、一方の選択が使用者によって可能な方式選択領域201が設けられている。これら方式の選択は、ボタン操作等で行うことが可能であるが、どのような方法であってもよい。方式選択領域201には、ルール方式と機械学習方式のそれぞれの概要について説明書きが記載されている。スコアリング設定画面200には、ルール作成方法の選択領域202も設けられている。ルール作成方法の選択領域202では、データ分析装置1が自動で生成する「自動生成」と、使用者が任意のルールを指定する「ルールを指定」の2つの選択肢が表示されており、これら選択肢のうち、使用者が一方を選択可能になっている。また、スコアリング設定画面200には、ルール数を入力するための入力領域203も設けられており、使用者が任意のルール数を入力可能になっている。さらに、スコアリング設定画面200には、ルール作成時に使用する属性の選択領域204も設けられており、使用者が1以上の任意の数の属性を選択できるようになっている。
機械学習方式では、目的変数が1となる確率を表す予測値(スコア)は機械学習モデルが出力した予測結果から計算されるが、ルール方式の場合は、ルール(条件式)に何個該当したかを予測対象の行ごとに数え上げることで、スコアを計算する。スコアリング設定画面200で例えば4つのルールを設定した場合、ルールへの該当数を行ごとに計算した結果、図34に示すように、行ごとに0~4の該当数が得られる。この該当数と、別途計算しておいた該当数-スコアの対応表を照合することで、行ごとのスコアを計算することができる。この対応表は、学習用データを用いた集計等によって事前に計算しておけばよい。ルールは、例えば「会社規模が“A”に合致するかどうか」など、属性と値の組み合わせによって表現してもよいし、データモデルで定義されているセグメントを用いて、「セグメントXに該当するかどうか」といった表現をしてもよい。
ルール自体は分析を行う使用者が自分で指定してもよいし、決定木分析などの分析手法を使うことで、目的変数の値が高いグループを抽出できるようなルールを分析エンジンが自動的に生成してもよい。
スコアリング方式を選択して分析を開始すると、分析部では、機械学習に用いる学習用のデータと予測用のデータを生成する。この際、分析対象となるデータの中に、基準日をパラメータに持つ特徴量が含まれていた場合、学習用のデータの基準日と予測用のデータの基準日は異なるため、学習用のデータから生成された特徴量と、予測用のデータから生成された特徴量が変わることがある。そのため、基準日の再調整が行われ、予測用のデータの基準日に基づいて、予測用のデータの集計期間が自動的に調整される。これが、データモデル設定部12bで設定されたデータモデルを分析設定情報に基づいて調整するデータ調整ステップであり、例えば第1調整部13または第2調整部14が実行する。すなわち、図4に示すフローチャートのステップS5で追加された特徴量が基準日を持っているため、図35に示すように、学習用データでは基準日を2019年1月1日、予測用データでは基準日を2019年4月1日として特徴量の値がそれぞれ再計算される。続く変換・結合処理では、学習用データに対して、上記特許文献1に記載されている方法で目的変数の値を付加する。
データ生成が完了すると、学習用データでモデルの学習を行い、予測データの行ごとに予測値(スコア)が計算される。予測が完了すると、予測値をプレビューする予測値表示画面210(図36に示す)に遷移する。すなわち、表示制御部3aは予測値表示画面210を生成してモニタ3に表示させる。
予測値表示画面210には、一覧表示領域211が設けられている。一覧表示領域211には、予測値が高い順に会社が一覧表示されている。また、予測値表示画面210には、一覧表示領域211の隣に、グラフ表示領域212と、フィルター設定領域213とが設けられている。グラフ表示領域212のスライドバー212aの右端部ないし左端部を左右に動かすことで、一覧表示領域211に表示するデータの件数を増減できる。スライドバー212aは、使用者がデータの件数を増減させるための増減操作部の一例であるが、スライドバー212a以外の形態でデータの件数を増減可能にしてもよい。
フィルター設定領域213では、一覧表示領域211に表示するデータを、条件に合致するものに絞り込むことができる。例えば、優先的に営業活動を行うべき会社を、商談見込みに基づいて上位100社分抽出したい、という場合には、グラフ表示領域212及びフィルター設定領域213で件数を100件に調整したのち、一覧表示領域211にプレビューされているデータをダウンロードすることで、営業活動用の客先リストを作成することができる。
一般的に、図36の一覧表示領域211に示すように、予測スコアが高いデータから順に施策対象を並べるのが施策を検討する上では有効であるが、一覧表示領域211に表示されている上位のごく少数だけを施策を適用すべきデータ範囲として施策の対象者としてしまうと、平均スコアは上昇するため効率的に施策を実施できる一方で、対象者が少ないため施策により得られる総利益は小さくなってしまう場合がある。一方、施策対象者を増やしていった場合、ある時点で利益を施策の実施コストが上回ってしまい、増やせば増やすほど利益が低下してしまうことになる。
本実施例のような営業活動用の会社リストのような用途では、営業リソースの総量で施策対象者のサイズの上限が決まる場合が多いため、多くの場合あまり調整の余地が無い一方、ダイレクトメールの送付やインターネット広告等の施策の場合は、施策対象者のサイズをコントロールできる場合が多く、利益を最大化する施策対象者サイズをうまく決定したい。また、施策を実行した場合に得られる投資対効果(ROI)を事前に知りたいこともある。
そこで、本実施形態に係るデータ分析装置1は予想ROIの計算機能を有している。具体的には、表示制御部3aが図37に示すようなROI計算領域214を生成して予測値表示画面210に重畳表示させる。ROI計算領域214には、施策1件あたりにかかるコスト(C)を入力するコスト入力領域214aと、獲得(目標達成)1件あたりに得られる利益(R)を入力する利益入力領域214bと、対象件数(N)を表示する件数表示領域214cと、ターゲットの平均スコア(p)を表示するスコア表示領域214dと、計算したROIを表示するROI表示領域214eとが設けられている。件数表示領域214cには、施策を適用すべきデータ範囲に含まれるデータの数が表示され、ここに表示される件数は、グラフ表示領域212及びフィルター設定領域213で調整可能である。使用者がコスト入力領域214a及び利益入力領域214bに金額をそれぞれ入力すると、主制御部11が現在の範囲選択の状態を元に、選択中の件数(N)と、選択範囲における平均スコア(p)を算出する。
これらの数値から、施策の総コストがN×C、施策によって得られる総利益がN×R×pと計算できるため、主制御部11がN×R×p-N×Cの式でROIを計算する。計算結果は、ROI表示領域214eに表示される。ROIを画面中のスライドバー212aやフィルター設定に連動して再計算することで、ROIを加味しながら施策の対象者サイズ(施策を実行すべきデータ件数)を決定することができる。あるいは、ROIが最大となるような対象者サイズをデータ分析装置1が自動的に算出し、使用者に提示してもよい。
上述した例では使用者が自ら予測分析の設定を行ったが、ステップS4で帳票分析から要因分析を開始する場合と同様に、要因分析から予測分析を開始するよう提案することもできる。この場合、要因分析と予測分析は目的変数の設定が共通して必要であるため、要因分析から予測分析を開始する際には、目的変数の設定を省略することができる。
要因分析から予測分析への連携、即ち、要因分析で選択したセグメントから予測分析を開始する例について、図38に基づいて説明する。図38の上側に記載している画面は、特徴量を出力する場合のセグメント出力画面180である。また、図38の下側に記載している画面は、スコアリング設定画面200である。セグメント出力画面180で選択したセグメントを、スコアリング設定画面200で示すようにルール方式の予測分析におけるルールとして採用することで、使用者は要因分析で発見されたセグメントの中から、ビジネス上の解釈性が高い等の理由で好ましいセグメントを自由に選択して、それらを利用した予測分析を開始することができる。
次に、図4に示すフローチャートのステップS7に進む。ステップS7は、セグメントの出力ステップである。ステップS6では商談見込みの高い会社を抽出することが可能であるが、抽出されたリストを営業活動に用いるだけでなく、分析にも使いたいことがある。その場合、図36に示す予測値表示画面210の「セグメントに出力」ボタン215を操作することで、表示している会社リストを保存できる。図39はセグメントの保存画面220を示すものである。表示制御部3aはセグメントの保存画面220を生成してモニタ3に表示させる。セグメントの保存画面220には、セグメントの保存時の名称を表示する名称表示領域221が設けられている。この例では、「商談見込み上位100件」という名前で、上位100件の会社をセグメントとして保存する。データモデルに保存したセグメントは、図28に示すセグメント出力画面180等から定義や該当者の割合を確認することができる。また、図39に示すセグメントの保存画面220では分析結果から生成されたセグメントを確認するだけでなく、新たなセグメントを追加することもできる。
セグメントは分析用データのいずれか1つに対して定義される。セグメントは、分析用データからその一部を抽出することができるのであれば、任意の定義であってもよく、例えば、図40に示す条件式の設定画面230を用いて定義することもできる。図40に示す条件式の設定画面230は表示制御部3aが生成してモニタ3に表示させる。条件式の設定画面230には、条件式の入力領域231が設けられており、この条件式の入力領域231は2つ以上設けられていてもよい。この例では、「会社規模がA、かつ所在地が東京都」のように1つ以上の条件式を複数組み合わせて定義できる。あるいは、セグメントが「照合用テーブルと行の対応付けが可能なもの」のように、別のテーブルと照合する形で定義されてもよい。
予測分析から生成されたセグメントは、図41に示すように、予測分析の内部で生成されたテーブルを照合する形で定義することが可能である。照合テーブルを用いたセグメントの場合、分析用のデータが更新されても該当/非該当は同じIDに対しては変化しないのに対して、条件式を用いたセグメントの場合、分析用のデータが更新されることで、同じIDでも属性値が変われば該当/非該当が変化することがある。そのため、「ある時点で施策対象者だった集団」のような、対象者を固定しておきたい用途では前者が適しているが、「直近1週間でWebページにアクセスした集団」のような、現時点での対象者を知りたい用途では後者が適している。
次に、図4に示すフローチャートのステップS8に進む。ステップS8は、帳票の更新ステップであり、ステップS7で保存したセグメントを利用して、新たな帳票分析を開始する。表示制御部3aは図42に示す設定画面250を生成してモニタ3に表示させる。この設定画面250では、ステップS3の帳票作成時に用いた値に加えて別の値を定義している。具体的には、「TEL件数」という値を新たに定義することで、営業担当別に活動量を可視化している。また、ステップS6で作成した「商談見込み上位100件」という条件で帳票全体を絞り込むことで、集計対象をステップS7で抽出した商談見込みのある会社に限定している。
ステップS5で出力された特徴量もこの帳票に用いることができるので、たとえば特徴量をフィルター条件に用いることで、「商談見込み上位100件に該当するにも関わらず、直近90日間でメール送信の数が0件の会社」のような条件で帳票を確認することもできる。このように、ステップS6で抽出された商談可能性が高い会社に対して、営業担当者別の指標を帳票化することで、各営業担当者が抽出した会社に実際に活動を実施できているか、商談や成約が得られているかどうかをモニタリングすることができる。
(実施形態の作用効果)
以上説明したように、使用者は分析対象データをデータ分析装置1に入力し、分析対象データ間の行の対応関係を定義してデータモデルを設定すると、そのデータモデルを用いて要因分析や予測分析を行うことができる。このとき、分析の結果として特徴量やセグメントが得られた場合、それらのデータモデルに付加することができ、また、特徴量の集計パラメータを分析の設定情報に応じて自動的に再調整することもできる。これにより、使用者は特徴量を複数の分析で用いる際に、分析の特性に応じた個別の再調整を自ら行うことなく、また、高度なプログラミング技術を持った専門家を介さなくても、共通の入力データで様々な分析が行えるようになる。
以上説明したように、使用者は分析対象データをデータ分析装置1に入力し、分析対象データ間の行の対応関係を定義してデータモデルを設定すると、そのデータモデルを用いて要因分析や予測分析を行うことができる。このとき、分析の結果として特徴量やセグメントが得られた場合、それらのデータモデルに付加することができ、また、特徴量の集計パラメータを分析の設定情報に応じて自動的に再調整することもできる。これにより、使用者は特徴量を複数の分析で用いる際に、分析の特性に応じた個別の再調整を自ら行うことなく、また、高度なプログラミング技術を持った専門家を介さなくても、共通の入力データで様々な分析が行えるようになる。
このように、共通の入力データから様々な分析を可能にすることで、使用者側で分析のために必要な準備の手間が大幅に削減されるとともに、ある分析で見つかった有用な知見を他の分析で容易に利用できるようになる。
また、定期的に行う分析では、入力データを最新版に更新することで、複数の分析を一括して更新することもできるようになり、データ分析を業務フローに組み込んで繰り返し実行する場合には、工数削減効果がより一層大きなものになる。
上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
以上説明したように、本発明に係るデータ分析装置及びデータ分析方法は、例えば企業が持っている様々なデータを集計・可視化する場合等に利用できる。
1 データ分析装置
3 モニタ(表示部)
3a 表示制御部
12a データ入力部
12b データモデル設定部
13 第1調整部
14 第2調整部
15 第1分析部
16 第2分析部
18 出力部
19 第3分析部
20 第4分析部
3 モニタ(表示部)
3a 表示制御部
12a データ入力部
12b データモデル設定部
13 第1調整部
14 第2調整部
15 第1分析部
16 第2分析部
18 出力部
19 第3分析部
20 第4分析部
Claims (18)
- データを分析するデータ分析装置において、
複数の特徴量を有する複数の表形式データを入力するためのデータ入力部と、
前記データ入力部に入力された複数の前記表形式データの対応関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定するデータモデル設定部と、
前記データモデル設定部により設定されたデータモデルを分析設定情報に基づいて調整するデータ調整部と、
前記データモデル設定部により設定されたデータモデルに対して、第1の分析を実行し、第1の分析結果を生成する第1分析部と、
前記データ調整部により調整されたデータモデルに対して第2の分析を実行し、第2の分析結果を生成する第2分析部と、を備えることを特徴とするデータ分析装置。 - 請求項1に記載のデータ分析装置において、
前記第1分析部及び前記第2分析部の少なくともいずれか一方の分析結果に含まれる新たな特徴量を、次回の分析対象となるデータモデルに付加する出力部を更に備えることを特徴とするデータ分析装置。 - 請求項2に記載のデータ分析装置において、
前記データモデル設定部は、さらに、前記複数の表形式データの中から一部のデータを抽出するためのセグメントの設定を受け付けて、分析対象となる前記データモデルを設定し、
前記出力部は、さらに、前記第1分析部及び前記第2分析部の少なくともいずれか一方の分析結果に含まれる新たなセグメントを、次回の分析対象となるデータモデルに付加することを特徴とするデータ分析装置。 - 請求項2または3に記載のデータ分析装置において、
前記第1分析部は、
分析設定情報として、使用者により指定された目的変数を受け付け可能であり、
指定された目的変数と関連度が大きい特徴量を抽出するとともに、全データの目的変数の平均値と比較して、前記目的変数の平均値が相対的に高くなる又は低くなるセグメントを抽出するための要因分析を実行し、
前記出力部は、前記第1分析部が実行した前記要因分析の結果に基づいて、前記目的変数との関連度が大きい特徴量を次回の分析対象となるデータモデルに付加することを特徴とするデータ分析装置。 - 請求項4に記載のデータ分析装置において、
前記第1分析部は、前記目的変数と関連度が大きい特徴量として、元のデータモデルには存在しない新しい特徴量を自動的に生成し、
前記出力部は、前記第1分析部が自動的に生成した新しい特徴量を次回の分析対象となるデータモデルに付加することを特徴とするデータ分析装置。 - 請求項5に記載のデータ分析装置において、
前記出力部は、さらに、前記第1分析部が実行した前記要因分析に基づいて抽出されたセグメントを、次回の分析対象となるデータモデルに付加することを特徴とするデータ分析装置。 - 請求項4から6のいずれか1つに記載のデータ分析装置において、
前記第2分析部は、予測対象のデータごとに、前記目的変数の値を予測する予測分析を実行することを特徴とするデータ分析装置。 - 請求項7に記載のデータ分析装置において、
前記第1分析部は、前記分析設定情報として、予測基準日の設定を受け付け可能であり、予測対象の前記データモデルの中に、集計期間をパラメータに持つ特徴量が含まれている場合は、前記予測基準日に基づいて、前記集計期間をパラメータに持つ各特徴量の値を自動的に再計算することを特徴とするデータ分析装置。 - 請求項7に記載のデータ分析装置において、
前記第1分析部は、分析設定情報として使用者により設定された学習基準日よりも前の期間に集計されたデータに基づいて特徴量を集計し、前記学習基準日よりも後の期間に集計されたデータに基づいて目的変数を集計することにより、前記要因分析を実行し、
前記第2分析部は、前記第1分析部が実行した前記要因分析により、前記目的変数との関連度が高い特徴量として抽出された特徴量が付加されたデータモデルに基づいて、前記予測分析を実行可能に構成されていることを特徴とするデータ分析装置。 - 請求項9に記載のデータ分析装置において、
前記第2分析部は、前記分析設定情報として、前記学習基準日とは異なる予測基準日の設定を受け付け可能であり、予測対象の前記データモデルの中に、集計期間をパラメータに持つ特徴量が含まれている場合は、前記予測基準日に基づいて、各特徴量の値を自動的に再計算することを特徴とするデータ分析装置。 - 請求項8から10のいずれか1つに記載のデータ分析装置において、
前記第2分析部は、ルールベース方式と機械学習方式のいずれかの方式から、使用者により選択された方式にしたがって、前記予測分析のスコアリングを行うことを特徴とするデータ分析装置。 - 請求項7から11のいずれか1つに記載のデータ分析装置において、
前記第2分析部は、前記予測分析によって予測された予測対象のデータごとの目的変数を、スコアが高い順に並べて表示するとともに、使用者から、施策を適用すべきデータ範囲と、施策1件あたりにかかるコスト及び目的達成1件あたりに得られる利益の入力を受け付けることで、前記データ範囲に施策を適用した場合にかかる総コストと、得られる総利益を計算することを特徴とするデータ分析装置。 - 請求項7から11のいずれか1つに記載のデータ分析装置において、
前記第2分析部は、施策1件あたりにかかるコストと、目的達成1件あたりに得られる利益の入力を受け付けることで、施策の総コストと、施策によって得られる総利益を計算し、施策を実行すべきデータ件数を自動的に計算することを特徴とするデータ分析装置。 - 請求項7から13のいずれか1つに記載のデータ分析装置において、
前記出力部は、前記予測分析によって予測された予測対象のデータごとの目的変数のうち、スコアが高い一部のデータをセグメントとして出力し、次回の分析対象のデータモデルに付加することを特徴とするデータ分析装置。 - 請求項1に記載のデータ分析装置において、
前記データモデルに基づいて、帳票分析を実行することにより、マトリクスに帳票分析結果を表示する第3分析部をさらに備え、
前記マトリクス上で、基準データと、比較データの選択を使用者から受け付け、受け付けた2つのデータの差異に関連した情報をさらに表示することを特徴とするデータ分析装置。 - 請求項15に記載のデータ分析装置において、
前記2つのデータの差異に関連した情報をツリー状に表示するツリー分析を実行する第4分析部をさらに備え、前記2つのデータの差異を特定の特徴量に注目して表示することを特徴とするデータ分析装置。 - 請求項16に記載のデータ分析装置において、
前記第4分析部によるツリー分析から、前記第3分析部による帳票分析を派生させて表示可能に構成されていることを特徴とするデータ分析装置。 - データを分析するデータ分析方法において、
複数の特徴量を有する複数の表形式データを入力するデータ入力ステップと、
前記データ入力ステップで入力された複数の前記表形式データに含まれる特徴量の関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定するデータモデル設定ステップと、
前記データモデル設定ステップで設定されたデータモデルを分析設定情報に基づいて調整するデータ調整ステップと、
前記データモデル設定ステップで設定されたデータモデルに対して、第1の分析を実行し、第1の分析結果を生成する第1分析ステップと、
前記データ調整ステップで調整したデータモデルに対して第2の分析を実行し、第2の分析結果を生成する第2分析ステップと、を備えることを特徴とするデータ分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021211994A JP2023096330A (ja) | 2021-12-27 | 2021-12-27 | データ分析装置及びデータ分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021211994A JP2023096330A (ja) | 2021-12-27 | 2021-12-27 | データ分析装置及びデータ分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023096330A true JP2023096330A (ja) | 2023-07-07 |
Family
ID=87005844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021211994A Pending JP2023096330A (ja) | 2021-12-27 | 2021-12-27 | データ分析装置及びデータ分析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023096330A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7540808B1 (ja) | 2024-06-28 | 2024-08-27 | 株式会社フェズ | 分析支援システム、分析支援方法、及び分析支援プログラム |
-
2021
- 2021-12-27 JP JP2021211994A patent/JP2023096330A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7540808B1 (ja) | 2024-06-28 | 2024-08-27 | 株式会社フェズ | 分析支援システム、分析支援方法、及び分析支援プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200211103A1 (en) | Systems and methods of assisted strategy design | |
US10628775B2 (en) | Sankey diagram graphical user interface customization | |
US9064224B2 (en) | Process driven business intelligence | |
US7933762B2 (en) | Predictive model generation | |
US7730023B2 (en) | Apparatus and method for strategy map validation and visualization | |
JP7257169B2 (ja) | データ分析装置 | |
AU2021281120B2 (en) | Domain-specific language interpreter and interactive visual interface for rapid screening | |
US20130151305A1 (en) | Method and Apparatus for Business Drivers and Outcomes to Enable Scenario Planning and Simulation | |
US20080172348A1 (en) | Statistical Determination of Multi-Dimensional Targets | |
US20100010878A1 (en) | Predictive model development | |
US8850314B2 (en) | Context driven help function | |
US20020174049A1 (en) | Apparatus and method for supporting investment decision making, and computer program | |
US20060190280A1 (en) | Method and apparatus for management for use in fleet service and logistics | |
EP1941432A1 (en) | Strategy trees for data mining | |
JP6467264B2 (ja) | 計画作成支援装置および計画作成支援方法 | |
WO2005106656A2 (en) | Predictive modeling | |
US20040039585A1 (en) | Managerial decision support system and method | |
US20080059437A1 (en) | Data mining system | |
JP7246956B2 (ja) | データ分析装置及びデータ分析方法 | |
JP2023096330A (ja) | データ分析装置及びデータ分析方法 | |
US11593096B1 (en) | Systems and methods for measuring complexity of applications and components in software development and deployment platforms | |
WO2021240370A1 (en) | Domain-specific language interpreter and interactive visual interface for rapid screening | |
JP7257168B2 (ja) | データ分析装置 | |
WO2016039011A1 (ja) | シミュレーションシステム、シミュレーション方法及びシミュレーションプログラム | |
US20220300907A1 (en) | Systems and methods for conducting job analyses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240912 |