JP2023096330A

JP2023096330A - データ分析装置及びデータ分析方法

Info

Publication number: JP2023096330A
Application number: JP2021211994A
Authority: JP
Inventors: 大河能見; Taiga Nomi; 彰信瀬里; Akinobu Sesato
Original assignee: Keyence Corp
Current assignee: Keyence Corp
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2023-07-07

Abstract

【課題】高度なプログラミング技術を持った専門家を介さなくても、共通の入力データに基づいて様々な種類の分析が行えるようにする。
【解決手段】データ分析装置は、複数の表形式データを入力するためのデータ入力部１２ａと、表形式データに含まれる特徴量の関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定するデータモデル設定部１２ｂと、設定されたデータモデルを分析設定情報に基づいて調整するデータ調整部１３、１４と、設定されたデータモデルに対して、第１の分析を実行し、第１の分析結果を生成する第１分析部１５と、調整されたデータモデルに対して第２の分析を実行し、第２の分析結果を生成する第２分析部１６と、を備えている。
【選択図】図５

Description

本開示は、データ分析装置及びデータ分析方法に関する。

データ分析には様々な手法があり、それぞれの手法に適したデータ形式・ツールは異なっている。例えば、企業が持っている様々なデータをＢＩ（ビジネスインテリジェンス）ツールで集計・可視化する際には、一般的にスタースキーマと呼ばれる形式で集計前のデータを保持することが推奨される一方で、機械学習を用いた分析を行う際には、データを１枚の表形式に事前に集計・結合する必要がある。この集計・結合は特徴抽出と呼ばれ、機械学習を用いた分析に長い時間を要する原因となっていることも知られている。

さらに、機械学習を用いる際には学習時と、学習後の予測時とで異なる集計期間のデータを利用することが普通であるため、学習用と予測用のデータをそれぞれ用意することも必要となる。

そのため、通常、データ分析者は例えばＳＱＬのような高度なプログラミングを用いて、分析の目的ごとにデータ変換処理を個別に設計・実装し、ツールを適切に使い分けることで所望の分析を実現しているという現状がある。

また、分析におけるデータ変換処理の手間を軽減するために、複数の入力データから自動的に結合・集計処理を行うことで目的変数や特徴量を自動的に生成する技術が知られている（例えば特許文献１参照）。

特開２０２０－１３５０５４号公報

ところで、例えば営業活動の支援を目的に営業活動・販売データを分析する際には、以下に挙げるようなデータ活用用途が考えられる。すなわち、営業活動を支援する現場におけるデータ活用用途としては、営業指標を帳票で定常的にモニタリングする、帳票の中から深堀したい箇所を特定し、複数の軸を組み合わせることでより細かい集計を行う、帳票で発見されたビジネス課題に対して、機械学習を用いて要因となっている事象を特定する、機械学習による予測を用いて、改善見込みの高い箇所を特定し、施策を実行する、施策の実行状況を帳票で確認する等がある。

ところが、上述したデータ活用用途は、それぞれが独立したものではなく、繰り返し実施される改善プロセスの一部である。一般に単一の分析手法で全ての用途をカバーすることはできないため、この改善プロセスを実現するためには、各ステップを実現するための分析手法の特定、ツールの選定、データ変換処理の設計・実装と、ステップ間でのデータの連携方法の検討などが必要となり、多大な工数を必要とする。

また、あるステップの分析で有用な特徴量が発見されたとしても、それを別のステップの分析で流用するためには、各ステップにおける分析に必要な変換処理がそれぞれ異なるために、特徴量の集計・変換方法が各ステップで最適になるように再調整する必要があり、各分析で得られた知見を他のステップに流用しにくいという問題があった。

また、一般にビジネス課題を解決するためには機械学習や集計など、複数の種類の分析を組み合わせて用いる必要があり、それぞれの分析で個別に変換処理を行う必要があった。

また、機械学習を用いてモデルを学習する際、目的変数の集計期間における情報の一部が特徴量に意図せず含まれてしまうリークと呼ばれる現象が知られている。リークを防ぐためには特徴量と目的変数に用いるデータの期間が互いに重複しないように調整する必要がある。

一方、学習したモデルで予測を行う際には、実際に予測を行いたい時点を基準とした特徴量の再計算が必要であり、学習時と予測時で異なる値を計算する必要がある。さらに、帳票のような集計用途においては、多くの場合最新の数値をモニタリングしたいことから、最新の日付を基準にした値を計算する必要があることが多い。

つまり、モデルの学習時、予測時、及び集計用途においては、それぞれ用途に応じて適切な集計の期間が異なるため、各分析用の変換処理で得られた特徴量の値は、別の分析にそのまま流用することはできず、ＳＱＬのようなプログラミングの知識がある専門家を介して、特徴量の集計期間を調整するといった作業が必要であり、工数がかかる上に間違いも発生しやすいという問題があった。

本開示は、かかる点に鑑みたものであり、その目的とするところは、高度なプログラミング技術を持った専門家を介さなくても、共通の入力データに基づいて様々な種類の分析が行えるようにすることにある。

上記目的を達成するために、本開示の一態様に係るデータ分析装置は、複数の特徴量を有する複数の表形式データを入力するためのデータ入力部と、前記データ入力部に入力された複数の前記表形式データの対応関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定するデータモデル設定部と、前記データモデル設定部により設定されたデータモデルを分析設定情報に基づいて調整するデータ調整部と、前記データモデル設定部により設定されたデータモデルに対して、第１の分析を実行し、第１の分析結果を生成する第１分析部と、前記データ調整部により調整されたデータモデルに対して第２の分析を実行し、第２の分析結果を生成する第２分析部と、を備えている。

この構成によれば、複数の表形式データが入力され、かつ、当該表形式データの対応関係を定めたリレーション情報の設定を受け付けると、分析対象となるデータモデルがデータモデル設定部により設定される。データモデルが設定されると、例えば使用者により設定された分析設定情報に基づいてデータモデルがデータ調整部により調整される。第１分析部は、データモデル設定部により設定されたデータモデルに対して、第１の分析を実行し、第１の分析結果を生成する一方、第２分析部は、データ調整部により調整されたデータモデルに対して第２の分析を実行し、第２の分析結果を生成する。したがって、例えば特徴量の集計期間を調整するといった作業を使用者に強いることなく、異なる種類の分析を行うことが可能になる。

他の態様では、前記第１分析部及び前記第２分析部の少なくともいずれか一方の分析結果に含まれる新たな特徴量を、次回の分析対象となるデータモデルに付加することができるので、使用者の負担を少なくすることができる。

他の態様では、複数の表形式データの中から一部のデータを抽出するためのセグメントの設定を受け付けて、分析対象となるデータモデルを設定することができ、この場合、第１分析部及び第２分析部の少なくともいずれか一方の分析結果に含まれる新たなセグメントを、次回の分析対象となるデータモデルに付加することができる。

他の態様では、第１分析部が目的変数の指定を受け付けると、指定された目的変数と関連度が大きい特徴量を抽出するとともに、全データの目的変数の平均値と比較して、前記目的変数の平均値が相対的に高くなる又は低くなるセグメントを抽出するための要因分析を実行する。第１分析部が実行した要因分析の結果に基づいて、目的変数との関連度が大きい特徴量を次回の分析対象となるデータモデルに付加することができる。

以上説明したように、複数の表形式データ及びリレーション情報に基づいて設定されたデータモデルに対して第１の分析を実行し、また、設定されたデータモデルを分析設定情報に基づいて調整し、調整後のデータモデルに対して第１の分析とは異なる第２の分析を実行することができる。したがって、高度なプログラミング技術を持った専門家を介さなくても、共通の入力データに基づいて様々な種類の分析を行うことができる。

本発明の実施形態に係るデータ分析装置の概略構成を示す図である。データ分析装置のブロック図である。分析の目的によって特徴量の計算に使われるデータ期間が異なる例を示す図である。データ分析の手順の一例を示すフローチャートである。データ入力部、データモデル設定部、調整部、分析部及び出力部の詳細を示すブロック図である。表示部に表示可能な画面構成の例を示す図である。分析対象データの例を示す図である。分析対象データ画面の一例を示す図である。リレーション情報の設定例を示す図である。３種類の多重度を説明する図である。リレーション設定画面の一例を示す図である。分析一覧画面の一例を示す図である。帳票分析の設定画面の一例を示す図である。帳票分析用の表に表示される値を計算する手法を説明する図である。帳票として設定した値を示す図である。帳票の出力画面の例を示す図である。ツリー分析画面の一例を示す図である。帳票の２箇所が選択された場合の出力画面の例を示す図である。帳票分析からツリー分析への変換規則の例を示す図である。帳票分析から開始されたツリー分析の状態を示す図１７相当図である。ツリー分析から帳票分析を開始するきっかけとなり得るツリー分析画面の一例を示す図である。紹介欄が選択されたツリー分析画面の一例を示す図である。ツリー分析から帳票分析への変換規則の例を示す図である。ツリー分析から開始された帳票分析を示す出力画面の例を示す図である。帳票分析の情報をツリー分析の表示領域に埋め込んで表示させる画面の例を示す図である。要因分析の設定画面の例を示す図である。要因分析時の処理手順の一例を示すフローチャートである。セグメント出力画面の一例を示す図である。特徴量を出力する場合の図２８相当図である。特徴量の出力手順の一例を示すフローチャートである。更新後の分析対象データ画面の一例を示す図である。予測分析の設定画面の一例を示す図である。スコアリング設定画面の一例を示す図である。ルールへの該当数とスコアの対応表の一例を示す図である。学習用データの基準日と予測用データの基準日とが異なる場合のデータを示す図である。予測値表示画面の一例を示す図である。ＲＯＩを計算する場合の図３６相当図である。要因分析から予測分析への連携を説明する図である。セグメントの保存画面の一例を示す図である。条件式の設定画面の一例を示す図である。予測分析から生成されたセグメントを表形式で照合する場合を説明する図である。帳票分析の更新を行う際の設定画面の一例を示す図である。

以下、本発明の実施形態を図面に基づいて詳細に説明する。尚、以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用物或いはその用途を制限することを意図するものではない。

図１は、本発明の実施形態に係るデータ分析装置１の概略構成を示す図であり、図２は、データ分析装置１のブロック図である。データ分析装置１は、各種分析対象データを分析するための装置であり、このデータ分析装置１を使用することで本発明に係るデータ分析方法を実行することが可能である。

データ分析装置１の構成を説明する前に、実際のデータ分析の一例について図３に基づいて説明する。分析１は、２０１８年１～６月の目的変数の実績から２０１８年７～１２月の目的変数を予測する分析であり、特徴量には１年間のデータを利用する。分析２は、２０１９年１～３月の目的変数の実績から２０１９年４～６月の目的変数を予測する分析であり、特徴量には６か月分のデータを利用する。分析３は、帳票による可視化であり、特徴量は最新データまでの期間を利用する。また、分析１、２では、モデルの学習が必要であり、この学習で利用する期間と、予測で利用する期間とは異なっている。このように、モデルの学習時、予測時、および集計用途においては、それぞれ用途に応じて適切な集計の期間が異なることがあり、各分析用の変換処理で得られた特徴量の値は、別の分析にそのまま流用することはできないケースがある。本実施形態に係るデータ分析装置１は、このようなケースであっても、ＳＱＬのようなプログラミングの知識がある専門家を介することなく、共通のデータから様々な分析を可能にするものである。以下、データ分析装置１の構成について具体的に説明する。

（データ分析装置１の全体構成）
図１及び図２に示すように、データ分析装置１は、装置本体２と、モニタ３と、キーボード４と、マウス５とを備えており、モニタ３、キーボード４及びマウス５は、装置本体２に接続されている。装置本体２とモニタ３とは一体化されていてもよいし、装置本体２の一部または装置本体２が実行する機能の一部がモニタ３に内蔵されていてもよい。データ分析装置１は、通信モジュール（図示せず）を内蔵しており、外部との通信が可能に構成されている。これにより、例えばインターネット回線等を介して外部サーバーからのデータのダウンロード等が可能になる。通信形態は、無線通信であってもよいし、有線通信であってもよい。キーボード４及びマウス５は、データ分析装置１を操作する操作手段の一例であるとともに、各種情報を入力する入力手段の一例、選択操作を行う選択手段の一例でもある。キーボード４及びマウス５に加えて、またはキーボード４及びマウス５に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。

例えば汎用のパーソナルコンピュータに、後述する制御及び処理等を実行可能なプログラムをインストールすることによってデータ分析装置１とすることができ、また、前記プログラムがインストールされた専用のハードウェアでデータ分析装置１を構成することもできる。たとえば、使用者のパーソナルコンピュータに前記プログラムを直接インストールすることで、当該パーソナルコンピュータをデータ分析装置１として利用する形態、サーバーに前記プログラムをインストールしてデータ分析装置１を構築し、各使用者は各自のパーソナルコンピュータのブラウザからネットワーク経由でデータ分析装置１にアクセスして使用する形態、クラウド上に置かれており、各使用者は各自のパーソナルコンピュータのブラウザからクラウド上のデータ分析装置１にアクセスする形態のいずれの形態であってもよい。また、後述する制御及び処理等の一部を使用者のパーソナルコンピュータで実行し、残りを他者のパーソナルコンピュータないしクラウド上で実行可能にしてもよい。つまり、データ分析装置１が実行する制御及び処理等の全てが同一のパーソナルコンピュータ上で行われる必要はなく、結果的に同様な作用効果を奏するシステムは、データ分析装置１である。また、図４に一例として示すデータ分析方法についても同様に、全てのステップＳ１～Ｓ８が同一のパーソナルコンピュータ上で行われる必要はない。尚、本実施形態では、データ分析装置１を使用して営業活動データを分析し、その分析結果を通じて、商談件数や成約率といった営業指標のモニタリングと深堀、変化が発生した際の要因分析、改善のための見込み会社リストの作成、施策の進捗監視、という一連の活動を実施する例を示すが、データ分析装置１は営業活動の支援以外の用途に使用することも可能である。

（モニタ３の構成）
図１に示すモニタ３は、例えば有機ＥＬディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ３と、図２に示す表示制御部３ａとを合わせて表示部と呼ぶこともできる。表示制御部３ａは、モニタ３に内蔵されていてもよいし、装置本体２に内蔵されていてもよい。表示制御部３ａは、モニタ３に対して画像を表示させる表示用ＤＳＰなどを含んでいる。表示制御部３ａには、画像を表示させる際に画像データを一時記憶するＶＲＡＭなどのビデオメモリが含まれていてもよい。表示制御部３ａは、後述する主制御部１１のＣＰＵ１１ａから送られてきた表示指令（表示コマンド）に基づいて、モニタ３に対して所定の画像を表示させるための制御信号を送信する。たとえば、後述するような各種ユーザーインターフェースの他、アイコン、キーボード４やマウス５を用いた使用者の操作内容をモニタ３に表示させるための制御信号も送信する。また、マウス５で操作可能なポインタ等もモニタ３に表示することができるようになっている。モニタ３をタッチ操作パネル型モニタとすることも可能であり、こうすることで、モニタ３に各種情報の入力機能、データ分析装置１の操作機能、選択操作機能を持たせることができる。

（装置本体２の全体構成）
図１に示す装置本体２は、制御ユニット１０と、記憶部３０とを備えている。記憶部３０は、ハードディスクドライブ、ソリッドステートドライブ（ＳＳＤ）等で構成されている。記憶部３０は、制御ユニット１０に接続されており、制御ユニット１０によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。記憶部３０の一部または全部がクラウド上に存在していてもよい。

（制御ユニット１０）
制御ユニット１０は、具体的に図示しないが、ＭＰＵ、システムＬＳＩ、ＤＳＰや専用ハードウェア等で構成することができる。制御ユニット１０は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。

図２に示すように、制御ユニット１０は、主制御部１１と、データ入力部１２ａ及びデータモデル設定部１２ｂと、第１調整部１３と、第２調整部１４と、第１分析部１５と、第２分析部１６と、出力部１８と、第３分析部１９と、第４分析部２０とを備えている。図５は、データ入力部１２ａ、データモデル設定部１２ｂ、第１調整部１３、第２調整部１４、第１分析部１５、第２分析部１６及び出力部１８の詳細、情報の送受信経路について示している。また、図６は、モニタ３に表示可能な画面構成の例を示している。図６の各画面は、いわゆるユーザーインターフェースであり、各種情報の使用者への提示や、使用者からの各種情報等の入力、設定、選択等の操作がなされる画面である。主制御部１１からの信号に基づいて表示制御部３ａが各画面を生成し、モニタ３に表示させることができるが、各画面の生成は、第１分析部１５や、第２分析部１６等の分析部が行ってもよい。

詳細については後述するが、図６に示すように、メニュー部には、ワークフロー、分析対象データ、リレーション、セグメント、分析が含まれている。ワークフローはワークフロー画面、分析対象データは分析対象データ画面、リレーションはリレーション設定画面、セグメントはセグメント一覧画面、分析は分析一覧画面に移行する。ワークフロー画面では、データ編集が可能であり、また、セグメント一覧画面からセグメント編集画面に移行することで、セグメントの編集が可能になる。さらに、分析一覧画面からは、帳票分析、ツリー分析、要因分析、予測分析等が可能である。つまり、使用者は、メニューから分析対象データ、リレーション、セグメントの各画面にてデータモデルの設定を行い、分析一覧画面から各種分析を開始することができる。また、ワークフロー画面は入力されたデータを事前に加工するための画面であり、列の削除やデータ間の結合など、データを分析で利用可能な状態にするために必要な前処理をこの画面にて行ってもよい。

図６に示すように、本実施形態では「帳票分析」、「ツリー分析」、「要因分析」、「予測分析」の４つの分析を、共通のデータモデルに対して実施できる。帳票分析とツリー分析は、それぞれ表形式とツリー形式で分析対象データを集計・可視化する分析であり、日々のモニタリングやレポーティングに高頻度に利用される。また、要因分析と予測分析は機械学習を用いた分析で、帳票分析とツリー分析に比べて利用頻度は低いものの、単純な集計では解決できない課題を高度な分析によって解決するために利用される。

制御ユニット１０の各部は、上述したように各部分に分けて記載しているが、同じ部分が複数種の処理を実行するように構成してもよいし、更に細かく分けて複数の部分を連携させて１つの処理を実行するように構成してもよい。上記各ハードウェアは、図２に示すバスＢなどの電気的な通信路（配線）を介し、必要に応じて双方向通信可能または一方向通信可能に接続されている。

主制御部１１は、各種プログラムに基づき数値計算、演算処理、各種情報処理等を行うとともに、ハードウェア各部の制御を行う。主制御部１１は、中央演算処理装置として機能するＣＰＵ１１ａと、主制御部１１が各種プログラムを実行する際のワークエリアとして機能するＲＡＭ等のワークメモリ１１ｂと、起動プログラムや初期化プログラム等が格納されたＲＯＭ、フラッシュＲＯＭまたはＥＥＰＲＯＭ等のプログラムメモリ１１ｃとを備えている。

図５にも示すように、データ入力部１２ａは、複数の特徴量を有する複数の表形式データ（分析対象データ）を使用者が入力するための部分である。図５に示す例では、分析対象データを２つ入力しているが、これに限らず、３つ以上の分析対象データを入力してもよい。また、１つの分析対象データの入力も可能である。データ入力部１２ａによって図４に示すフローチャートのステップＳ１の処理、即ちデータ入力ステップを実行することが可能になっている。

データ入力部１２ａは、データ入力用ユーザーインターフェース（図示せず）を生成してモニタ３に表示させる。データ入力部１２ａは、データ入力用ユーザーインターフェース上でなされた使用者の各種操作を受け付ける。使用者の操作とは、たとえば、キーボード４の操作や、マウス５の操作（ボタンクリック、ドラッグ＆ドロップ、ホイールの回転等を含む）、タッチパネル式の入力装置へのタップ操作、ドラッグ操作等があり、これらのいずれの操作であってもよい。以下、同様である。

例えば、分析対象データを格納したファイルが外部記憶装置や記憶部３０（図２に示す）に保存されていて、デスクトップ上や、開いた状態のフォルダにある場合には、使用者が当該ファイルをデータ入力用ユーザーインターフェース上へドラッグ＆ドロップ操作する。これにより、分析対象データを格納したファイルが読み込まれて記憶部３０の所定領域に保存される。また、分析対象データがデータベース上にある場合には、使用者がデータベースに接続し、所望の分析対象データが読み込まれて記憶部３０の所定領域に保存される。また、分析対象データがインターネットやサーバー上にある場合には、使用者がＵＲＬを入力する。分析対象データは、インターネットやサーバーからダウンロードされて記憶部３０の所定領域に保存される。上述した方法は例であり、分析対象データの入力方法はどのような方法であってもよい。以上が図４に示すフローチャートのステップＳ１のデータ入力ステップである。

図７は、データ入力ステップで入力された分析対象データの例を示しており、ここでは、「会社」、「商談」、「営業活動」、「カレンダー」という４つの分析対象データを入力するものとする。このとき、分析用の型（例えば数値型、カテゴリ型、日付型）を属性ごとに設定する。すなわち、分析対象データは、複数の属性を含むデータであり、属性とは、分析対象データに含まれる名称と型のペアからなる項目のことである。属性には、会社ＩＤ、所在地、活動日などが存在する。型とは、属性がどのような値を取り得るかを定義する分類であり、分類の仕方はシステムによって異なるが、たとえば一般的なリレーショナルデータベースでは、ＩＮＴ型（整数）、ＲＥＡＬ型（実数）、ＤＡＴＥ型（日付）、ＶＡＲＣＨＡＲ型（文字列）などのデータ型のうち、いずれかが属性ごとに割り当てられている。実際のデータベースではこれら以外にも多種多様な型が使用されている。また、分析対象データは、例えばＣＳＶファイルやリレーショナルデータベース上のテーブルであってもよい。

型情報は、リレーショナルデータベース上の型から類推してもよい。例えばデータベース上でＩＮＴ型の場合は数値型とする、等である。また、型情報は、使用者からの指定を受け付けてもよい。また、必要であれば、文字列の置換などの前処理を使用者やシステム自身によって行ってもよい。

入力された分析対象データは、図８に示す分析対象データ画面１００上で確認することができる。分析対象データ画面１００は、表示制御部３ａが生成してモニタ３に表示させる画面である。分析対象データ画面１００には、分析対象データの名称を表示する名称表示領域１０１と、分析対象データ追加ボタン１０２とが設けられている。名称表示領域１０１には、入力された複数の分析対象データの名称を一覧表示可能になっており、この例では、入力された分析対象データの例として、「会社」、「商談」、「営業活動」、「カレンダー」が表示されている。分析対象データ追加ボタン１０２を操作することで、別の分析対象データを新たに入力することが可能になる。分析対象データ画面１００には、データ表示領域１０３も設けられている。名称表示領域１０１に表示されている複数の分析対象データの名称のうち、任意の一を使用者が選択操作すると、その選択された分析対象データの内容がデータ表示領域１０３に表形式で表示される。必要に応じて、分析対象データ画面１００上のデータに対してワークフロー画面でデータ型の変換など、さまざまな加工処理を行ってもよい。また、一旦入力した分析対象データを削除する操作を受け付けるように構成することもできる。

図５に示すデータモデル設定部１２ｂは、データ入力部１２ａに入力された複数の分析対象データに含まれる特徴量の関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定する部分である。各分析対象データは表形式であることから、行と列を有している。複数の分析対象データ間の行の対応関係を定義するための情報がリレーション情報であり、このリレーション情報を使用者が追加で設定する。また、必須ではないが、必要に応じて、後述する抽出条件（セグメント）を使用者が定義し、そのセグメントに名称等を付けて記憶部３０に保存しておくこともできる。すなわち、データモデルは、分析の入力に利用される複数の表形式データ、およびそれらの対応関係を定義するリレーションの組み合わせであり、分析で共通に利用するセグメントの定義を追加で含むこともできる。

上記リレーション情報の設定は、図４に示すフローチャートのステップＳ２で実行する。ステップＳ２の処理内容について、図９～図１１に基づいて説明する。図９は、複数の分析対象データ間のリレーション関係を説明する図であり、また、図１０は、多重度の種類を示すものである。ステップＳ２は、データモデル設定ステップに相当する。

ステップＳ２では、まず、図１１に示すようなリレーション設定画面１１０にて、使用者が分析対象データ間のリレーション（紐づけ）を定義する。リレーション設定画面１１０は、表示制御部３ａが生成してモニタ３に表示させる画面である。リレーション設定画面１１０には、リレーション表示領域１１１が設けられており、このリレーション表示領域１１１において異なる分析対象データ間のリレーションを任意に設定可能になっている。リレーションの設定は、使用者が分析対象データの組に対してそれぞれ属性の名前を指定することで行われる。リレーション表示領域１１１は、複数の領域１１１ａ～１１１ｄを含んでいる。各領域１１１ａ～１１１ｄは同様に構成されており、例えば最も上に位置する領域１１１ａについて説明すると、一の分析対象データの属性の名前を指定する第１指定部１１１ｅと、他の分析対象データの属性の名前を指定する第２指定部１１１ｆとが設けられている。この例では、第１指定部１１１ｅで「会社」の分析対象データの属性の名前から任意の一の名前を指定し、第２指定部１１１ｆで「商談」の分析対象データの属性の名前から任意の一の名前を指定している。他の領域１１１ｂ～１１１ｄでも同様にして指定できる。この指定操作を経ることで、指定した属性の値が一致する行同士が対応しているとみなされる。

リレーションに使われる属性のことを、結合キーと呼ぶ。例えば「会社」と「商談」の分析対象データに対して、会社ＩＤを結合キーとしたリレーションを設定した場合、同じ会社ＩＤの行同士が、紐づいているとみなされる。図９における符号Ｌはリレーション関係を示す線である。

リレーショナルデータベースの場合、データベースの側で既に分析対象データの属性同士の対応関係が定義されていることがある。このデータベース側で定義される対応関係を外部キー制約と呼ぶ。この外部キー制約がある場合、設定済の対応関係を上記ステップＳ１においてデータ分析装置１側で読み込み、分析対象データ間のリレーションの定義をデータ分析装置１側で自動的に設定してもよい。

以上のようにして分析対象データ間のリレーションが定義されると、データ分析装置１側ではそれぞれの対応関係について多重度を自動判別する。多重度の自動判別は、制御ユニット１０で行われる。図１０に示すように、多重度には１：１型、１：Ｎ型、Ｎ：Ｎ型の３種類があり、分析対象データの内容を参照することで判別することができる。１：１型は、一方の分析対象データの１行が他方の分析対象データの１行に対応している関係である。１：Ｎ型は、一方の分析対象データの１行に他方の分析対象データが複数行対応している関係である。Ｎ：Ｎ型は、一方の分析対象データの１行に他方の分析対象データが複数行対応し、他方の分析対象データの１行に一方の分析対象データが複数行対応している関係である。

図１１に示すリレーション設定画面１１０には、多重度表示領域１１２が設けられている。多重度表示領域１１２には、上述のようにして自動判別された多重度の判別結果が表示される。この例では、「会社」と「商談」の間は１：Ｎの関係であることが分かる。多重度表示領域１１２に表示される判定結果は、リアルタイムで更新される。

また、データモデル設定部１２ｂは、さらに、複数の分析対象データの中から一部のデータを抽出するためのセグメントの設定を受け付けることが可能に構成されている。セグメントは、分析対象データに対して行の抽出条件を適用することで抽出されるデータの部分集合であり、属性とその条件との組み合わせと呼ぶこともできる。

分析対象データ、リレーション情報及びセグメントはデータモデルを構成しており、これらは後述する様々な分析を行う際に共通の入力及び設定情報となる。すなわち、データモデル設定部１２ｂは、分析対象データの入力、リレーション情報の設定及びセグメントの設定を受け付けて、分析対象となるデータモデルを設定する。データモデル設定部１２ｂによってデータモデルの設定が完了すると、使用者は単一のデータモデルから、様々な分析を自由に開始することができる。

ここで、データ分析装置１の詳細構造について図５に基づいて説明する。各部の具体的な機能及び動作については、後述するフローチャートやモニタ３に表示される画面例に基づいて説明し、ここでは概略を説明する。

図５に示すように、データモデル設定部１２ｂにより設定されたデータモデルは、第１調整部（データ調整部）１３及び第２調整部（データ調整部）１４にそれぞれ入力される。第１調整部１３及び第２調整部１４では、使用者により分析設定情報が設定されていれば、その分析設定情報に基づいてデータモデルを調整する。分析設定情報が設定されていなければ、第１調整部１３及び第２調整部１４でデータモデルの調整は行われない。分析設定情報には、目的変数が含まれていてもよく、この目的変数は使用者により指定されたものであってもよい。

第１分析部１５は、データモデル設定部１２ｂにより設定されたデータモデルに対して、第１の分析を実行し、第１の分析結果を生成する部分であり、第１変換・結合処理部１５ａと第１処理エンジン１５ｂとを有している。第１変換・結合処理部１５ａは、第１分析部１５に入力されたデータモデルに基づいて必要な変換・結合処理を内部で自動的に行う部分である。この変換・結合処理には、特許文献１に開示されているような特徴量の自動生成処理が含まれていてもよい。第１変換・結合処理部１５ａで変換・結合処理が行われたデータモデルは、第１処理エンジン１５ｂに入力される。第１処理エンジン１５ｂで行われる分析処理には、機械学習を用いた処理、ＳＱＬなどを用いた集計処理の少なくとも一方または両方が含まれる。尚、第１分析部１５は、第１調整部１３でデータモデルの調整が行われていなければ、調整されていないデータモデルに対して分析を実行するが、第１調整部１３でデータモデルの調整が行われていれば、調整されたデータモデルに対して分析を実行する場合がある。

使用者により指定された目的変数が分析設定情報に含まれている場合、第１分析部は要因分析を実行する。第１分析部は、指定された目的変数と関連度が大きい特徴量を抽出するとともに、全データの目的変数の平均値と比較し、目的変数の平均値が相対的に高くなる又は低くなるセグメントを抽出するための要因分析を実行することで、より深いデータ分析が可能になる。

第１分析部１５は、使用者により指定された目的変数と関連度が大きい特徴量として、元のデータモデルには存在しない新しい特徴量を自動的に生成することもできる。

第２分析部１６は、第２調整部１４により調整されたデータモデルに対して第２の分析を実行し、第２の分析結果を生成する部分であり、第２変換・結合処理部１６ａと第２処理エンジン１６ｂとを有している。第２変換・結合処理部１６ａは、第２分析部１６に入力されたデータモデルに基づいて第１変換・結合処理部１５ａと同様に、変換・結合処理を内部で自動的に行う部分である。第２変換・結合処理部１６ａで変換・結合処理が行われたデータモデルは、第２処理エンジン１６ｂに入力される。第２処理エンジン１６ｂは、第１処理エンジン１５ｂと同様に構成されている。尚、第２分析部１６は、第２調整部１４でデータモデルの調整が行われていれば、調整されたデータモデルに対して分析を実行するが、第２調整部１４でデータモデルの調整が行われていなければ、調整されていないデータモデルに対して分析を実行する場合がある。

また、第１分析部１５は、予測対象のデータごとに、目的変数の値を予測する予測分析を実行することもできる。この場合、第１分析部１５は、分析設定情報として、使用者による予測基準日の設定を受け付けることができる。第１分析部１５は、予測基準日を受け付けると、予測対象のデータモデルの中に集計期間をパラメータに持つ特徴量が含まれている場合は、受け付けた予測基準日に基づいて、集計期間をパラメータに持つ各特徴量の値を自動的に再計算する処理を実行する。

分析に機械学習を用いる場合には、第１分析部１５は、分析設定情報として使用者により設定された学習基準日を受け付ける。第１分析部１５は、受け付けた学習基準日よりも前の期間に集計されたデータに基づいて特徴量を集計し、学習基準日よりも後の期間に集計されたデータに基づいて目的変数を集計することにより、要因分析を実行することができる。つまり、特徴量を集計するためのデータの集計期間と、目的変数を集計するためのデータの集計期間とを使用者によって任意に変えることができる。

第１分析部１５が要因分析を実行した場合、第２分析部１６は、第１分析部１５が実行した要因分析により、目的変数との関連度が高い特徴量として抽出された特徴量が付加されたデータモデルに基づいて、予測分析を実行することが可能である。このとき、第２分析部１６は、分析設定情報として、学習基準日とは異なる予測基準日の設定を受け付けることができる。予測対象のデータモデルの中に、集計期間をパラメータに持つ特徴量が含まれている場合があり、この場合、予測分析に用いられる特徴量を集計するためのデータの集計期間は、要因分析に用いられる特徴量を集計するためのデータの集計期間と異なる。そのため、予測分析を行う場合は、要因分析により抽出された特徴量をそのまま用いるのではなく、予測分析に適した特徴量を得るために、第２分析部１６は、予測基準日に基づいて各特徴量の値を自動的に再計算する。

第２分析部１６は、ルールベース方式にしたがって予測分析によって予測された予測対象のデータごとの目的変数のスコアリングを行うこと、及び機械学習方式にしたがって予測分析によって予測された予測対象のデータごとの目的変数のスコアリングを行うことが可能である。この場合、第２分析部１６は、使用者はルールベース方式と機械学習方式のいずれか一方の選択操作を受け付ける。第２分析部１６は、ルールベース方式と機械学習方式のいずれかの方式から、使用者により選択された方式にしたがって、予測分析のスコアリングを行う。

予測分析のスコアリングを行った場合、第２分析部１６は、データを、スコアが高いデータから順に並べてモニタ３に表示させることができる。第２分析部１６は、使用者からある施策を適用すべきデータ範囲の入力を受け付けることができるとともに、その施策１件あたりにかかるコストの入力と、目的達成１件あたりに得られる利益の入力とを受け付けることができる。第２分析部１６は、前記データ範囲に含まれるデータの数と、施策１件あたりにかかるコストと、目的達成１件あたりに得られる利益とに基づいて、前記データ範囲に施策を適用した場合にかかる総コストと、得られる総利益を計算することができる。

第２分析部１６は、施策の総コストと、施策によって得られる総利益を計算するとともに、施策を実行すべきデータ件数を自動的に計算することで、施策を実行した場合に得られる投資対効果を数値で使用者に提示することができる。

図２に示すように、データ分析装置１は、第３分析部１９及び第４分析部２０を備えていてもよい。第３分析部１９は、データモデルに基づいて帳票分析を実行する部分であり、モニタ３上に、マトリクスに帳票分析結果を表示させる。第３分析部１９は、マトリクス上で、基準データと、比較データの選択を使用者から受け付け、受け付けた２つのデータの差異に関連した情報をモニタ３上にさらに表示させる。

第４分析部２０は、前記２つのデータの差異に関連した情報をツリー状に表示するツリー分析を実行する部分であり、前記２つのデータの差異を特定の特徴量に注目してモニタ３に表示させる。データ分析装置１は、第３分析部１９及び第４分析部２０を備えている場合、第４分析部２０によるツリー分析から、第３分析部１９による帳票分析を派生させてモニタ３に表示可能に構成されている。

出力部１８は、第１分析部１５及び第２分析部１６の少なくともいずれか一方の分析結果に含まれる新たな特徴量を、次回の分析対象となるデータモデルに付加する部分である。第１分析部１５が第１の分析を実行するとその分析結果が取得されるが、この分析結果には、別の分析に役立つ特徴量が含まれている場合がある。第２分析部１６で取得された分析結果も同様である。このような特徴量が含まれている場合には、その特徴量を次回の分析対象となるデータモデルに付加することで、次回の分析では新たな特徴量を用いた分析が可能になる。

また、出力部１８は、第１分析部１５及び第２分析部１６の少なくともいずれか一方の分析結果に含まれる新たなセグメントを、次回の分析対象となるデータモデルに付加することもできる。セグメントは、分析対象データに対して行の抽出条件を適用することで抽出されるデータの部分集合であり、属性とその条件との組み合わせと呼ぶこともできる。このセグメントが第１分析部１５から取得された分析結果や第２分析部１６から取得された分析結果に含まれている場合がある。このようなセグメントが含まれている場合には、そのセグメントを次回の分析対象となるデータモデルに付加することで、次回の分析では新たなセグメントを用いた分析が可能になる。要するに、分析の結果として特徴量やセグメントが得られた場合、それらをデータモデルに付加することで、ある分析で取得された結果を、別の分析の入力として簡単に用いることができる。

第１分析部１５が要因分析を実行した場合、出力部１８は、第１分析部１５が実行した要因分析の結果に基づいて、使用者により指定された目的変数との関連度が大きい特徴量を次回の分析対象となるデータモデルに付加する。また、第１分析部１５が要因分析を実行した結果、セグメントが抽出された場合、出力部１８は、実行した要因分析に基づいて抽出されたセグメントを、次回の分析対象となるデータモデルに付加する。

第２分析部１６が要因分析を実行してスコアリングした場合、出力部１８は、予測分析によって特定されたスコアが高い一部のデータをセグメントとして出力し、次回の分析対象のデータモデルに付加することが可能になっている。

図４に示すフローチャートのステップＳ２でリレーションの定義が完了すると、ステップＳ３に進む。ステップＳ３では、帳票分析及びツリー分析を実行する。ステップＳ３の説明を行う前に、以下、データモデルの設定完了後、データ分析装置１による分析の例について説明する。データ分析装置１は、データモデルの設定が完了すると図１２に示す分析一覧画面１２０を表示制御部３ａが生成してモニタ３に表示させる。分析一覧画面１２０には、分析種別選択部１２１が設けられている。分析種別選択部１２１をクリックすると、「帳票分析」、「ツリー分析」、「要因分析」、「予測分析」等の分析種別が表示され、それらの中から使用者が所望の分析種別を選択できる。この選択操作は、どのような操作であってもよく、キーボード４やマウス５等を用いて行うことができる。作成ボタン１２２を押すと、選択された分析が実行される。図１２に示す例では、「帳票分析」が選択された場合を示している。要因分析は、第１分析部１５で実行される第１の分析であり、また、予測分析は、第２分析部１６で実行される第２の分析であり、また、帳票分析は、第３分析部１９で実行される第３の分析であり、さらに、ツリー分析は、第４分析部２０で実行される第４の分析である。

データ分析装置１の主制御部１１は「帳票分析」が選択されたことを検出すると、帳票分析の設定を受け付ける。まず、図１３に示す帳票分析の設定画面１３０を表示制御部３ａが生成してモニタ３に表示させる。帳票分析の設定画面１３０には、分析対象データの属性を表示する属性表示領域１３１が設けられている。属性表示領域１３１には、既に入力されている全ての分析対象データの属性が、分析対象データごとにまとめて表示される。この場合「会社」「商談」「営業活動」「カレンダー」の属性が表示されている。

帳票分析の設定画面１３０には、帳票分析用の行及び列を定義するための列エリア１３２及び行エリア１３３が設けられている。列エリア１３２や行エリア１３３には、それぞれ属性表示領域１３１に表示されている属性を入力できる。例えば所望の属性を選択して列エリア１３２や行エリア１３３にドラッグ＆ドロップ操作によって配置してもよく、その入力操作はどのような操作であってもよい。つまり、分析対象データの属性を列エリア１３２及び行エリア１３３に配置していく操作を使用者が行うことで、帳票の行及び列を容易に定義することができる。

帳票分析の設定画面１３０には、フィルターエリア１３４が設けられている。フィルターエリア１３４には、属性やデータモデルで定義されたセグメントを絞り込み条件として入力することができる。フィルターエリア１３４に絞り込み条件を入力することで、帳票の計算対象とするデータを自由に絞り込むことができる。ここにも所望の属性をドラッグ＆ドロップ操作によって配置できる。

帳票分析の設定画面１３０には、値エリア１３５が設けられている。値エリア１３５では、帳票の内容として表示する数値の定義が可能になっている。値エリア１３５に例えば数値型の属性を配置すると、配置した属性の合計値が自動的に計算され、表エリア１３６に表示されている表の各部に表示される。ここにも所望の属性をドラッグ＆ドロップ操作によって配置できる。

この例では、表エリア１３６に表示されている表において、成約の合計値が値に設定されており、２０１８年、第４四半期、商談動機＝Ｗｅｂに該当する箇所の値は破線で囲んで示しているように「８」となっている。この数値を計算する際には、図１４に示すように、まず、「商談」の分析対象データに対して、「年度＝２０１８かつ四半期＝第４四半期かつ商談動機＝Ｗｅｂ」に該当する行を抽出する。「年度」と「四半期」については、ステップＳ２で設定されたリレーション情報に基づいて、「カレンダー」の分析対象データの該当行に紐づいている「商談」の行だけを抽出する。抽出された「商談」の行に対して、属性：成約の合計値を計算する。

集計方法は合計に限られるものではなく、合計以外に平均、最小、最大等が選択可能であってもよい。数式を使用者が入力することで、より複雑な値を定義できるようにしてもよい。このように、予め設定されているリレーション情報を用いることで、複数の分析対象データを事前に集計、結合することなく、属性を自由に組み合わせた帳票を作成することが簡単にできる。

図１５は、帳票として設定した値を示す表であり、図１６は、帳票として設定した値に基づいて自動的に作成された帳票の出力画面１４０の例を示している。帳票の出力画面１４０には、帳票が表示される帳票表示領域１４１が設けられている。帳票表示領域１４１には、帳票分析結果がマトリクスに表示されており、この表示は、第３分析部１９が実行する。このように、様々な集計方法を組み合わせることで、ビジネス上の指標を高度なプログラミングを必要とせずに簡単に計算することができる。

さらに、計算に利用している分析対象データを定期的に最新データに置換することもできる。例えば、最新データが入力されると、古い分析対象データを最新データに自動的に置換することで、定期的に行う集計作業が自動的に実行されることになる。この最新データへの置換は、使用者が手動で行ってもよく、接続先のデータベースから定期的に自動取得するような設定が可能であってもよい。

以上の例は、図１２に示す分析一覧画面１２０で帳票分析が選択された場合の例であるが、次は、分析一覧画面１２０でツリー分析が選択された場合の例について説明する。第４分析部２０は、帳票分析の結果が表示されるマトリクス上で、例えば基準データと、比較データの選択を使用者から受け付け、受け付けた２つのデータの差異に関連した情報を表示する。その一例として、基準データと比較データとの差異に関連した情報をツリー状に表示するツリー分析を第４分析部２０が実行する。第４分析部２０は、図１７に示すようなツリー分析画面１５０を生成してモニタ３に表示させる。この例では、基準データと比較データとの差異を特定の特徴量に注目して表示させることができる。

ツリー分析画面１５０に示す例は、同一の分析対象データに対してツリー分析を行っている例である。このツリー分析では、２つの分析グループ（データのサブセット）を指定することで、両グループ間で値の差を掘り下げて分析することができる。

ツリー分析画面１５０には、第１の分析グループを指定するための第１指定領域１５１と、第２の分析グループを指定するための第２指定領域１５２とが設けられている。図１７に示す例では、第１の分析グループは「年度＝２０１９かつ四半期＝第４四半期」の条件に合致するデータのサブセットが指定され、また第２の分析グループは「年度＝２０１８かつ四半期＝第４四半期」の条件に合致するデータのサブセットが指定されている。また、ここでの値は、集計分析における値と同様、カラムと集計方法を指定したり、使用者が数式を入力することで定義できる。

ツリー分析画面１５０には、第１指定領域１５１及び第２指定領域１５２の下方にツリー表示領域１５３が設けられている。ツリー表示領域１５３には、分析内容がツリー形式に表示されており、ここに表示さる分析軸の追加ウインドウ１５４の項目名を例えばマウス５でクリックすることで、分析軸を次々に追加していくことができる。分析軸を追加していくことで、２つのグループの間でどの場所で大きな差が発生しているのか、詳細に掘り下げて分析することができる。

すなわち、例えば「２０１９年第４四半期と２０１８年第４四半期を比較すると、２０１９年のほうが成約数が６件多かった」という集計結果が帳票から得られたときに、どのような種別の商談で成約に差が付いたのか、どの地区で差が付いたのか、四半期の中でどの月度に差があったのか、といった要素への掘り下げを行いたくなる場合は多いと考えられるが、帳票の場合、複数の軸の組み合わせで掘り下げを行うことは、表の行・列数が組み合わせによって莫大になってしまうので難しい。

それに対して、ツリー形式の分析では、表示されているノードを選択して分析軸を追加していくことで、より直感的な操作で任意の要素の組み合わせによる掘り下げを行うことができる。例えば、図１７に示す例では、商談動機が「紹介」という条件の時に、２つのグループの間で成約率に６ポイントの差が生じていることが分かる。さらに、図１７に示す例では、商談動機が「Ｗｅｂ」という条件では、２つのグループの間で成約率の差は生じていないが、商談動機が「Ｗｅｂ」という条件を掘り下げた場合、月度が「１月度」という条件で、成約率に１ポイントの差が生じていることが分かる。

一方、ツリー形式では掘り下げを行う要素以外の要素、例えば図１７に示す例では、２０１９年第４四半期と２０１８年第４四半期以外の期間での推移のような情報を見ることはできず、帳票分析と比較してツリー分析では情報の網羅性に欠ける部分がある。そのため、分析の目的に応じて帳票分析とツリー分析とを組み合わせることが有効である。

このように、網羅的に数値を確認できる帳票分析と、任意の掘り下げが可能なツリー分析とは互いに補完関係にあるため、分析を個別に実行できるだけでなく、帳票分析とツリー分析を相互に行き来できるようにすることがデータ分析の利便性を向上する上で有効である。本実施形態では、帳票分析からツリー分析を開始する機能を搭載している。

表示制御部３ａが図１６に示す帳票の出力画面１４０を表示させている状態で、使用者が帳票表示領域１４１に表示されている帳票の２箇所を選択すると、図１８に示すように、帳票表示領域１４１の隣に情報表示領域１４２が生成される。図１８では、使用者により選択された箇所をそれぞれ破線で囲んで示している。

情報表示領域１４２には、選択した２箇所の差異に関連した情報が１つまたは複数表示される。情報表示領域１４２に表示される情報が複数存在している場合には、複数の情報が優先度順に表示される。ここでの順は、差異が大きい順であってもよいし、何らかの統計分析を行った結果得られた指標に基づいて決定した順であってもよい。

使用者は、情報表示領域１４２に表示された複数の情報の中から、詳細に分析したい項目を選択することができる。使用者による選択操作は、例えば項目をマウス５でクリックする操作等を挙げることができる。項目を選択すると、分析開始ボタン１４３が表示される。分析開始ボタン１４３を使用者が操作すると、主制御部１１は、使用者が選択した項目に基づいて、その内容をツリー分析の設定項目へと自動的に変換し、ツリー分析を開始する。例えば、図１９に示すような変換規則に基づいて、帳票での設定情報と選択状態から、ツリー分析の設定を生成することができる。この変換規則はあくまでも一例であり、他の変換規則を用いてもよい。図１９に示す変換規則に基づいて、図１８に示す帳票分析からツリー分析を開始する。開始されたツリー分析の状態を図２０に示す。

次に、ツリー分析から帳票分析を開始する場合について説明する。図１７や図２０に示すツリー分析画面１５０を用いてツリー分析で掘り下げを行っていると、２つの分析グループ以外での値について確認したくなることがある。例えば図２１に示すように、ツリー分析画面１５０上では、２０１９年と２０１８年の第４四半期間で成約率を比較した結果、「商談動機＝紹介」の条件で成約率が３．５７％から２３．３３％に大きく変化していることが分かる。しかしながら、このツリー分析では２グループ間の数値のみ比較しているため、上記差異が一過性のものなのか、継続的なトレンドを持っているのかを確認することができない。

図２２に示すように、「商談動機＝紹介」の欄、即ち紹介欄１５３ａを使用者が選択すると、ツリー表示領域１５３の隣に情報表示領域１５５が生成される。図２２では、使用者により選択された箇所を破線で囲んで示している。情報表示領域１５５には、使用者が選択した欄で生じている差異の具体的な数値等が表示される。また、紹介欄１５３ａを使用者が選択すると、推移を確認するための確認ボタン１５５ａが情報表示領域１５５に表示される。確認ボタン１５５ａを使用者が操作すると、ツリー分析の設定に基づいて、帳票分析の設定を自動的に行い、帳票分析を開始する。

例えば、図２３に示す変換規則に基づいて、ツリー分析での設定情報から帳票分析の設定を生成することができる。自動設定では、例えば２グループの条件を比較して共通部分と異なる部分を抽出し、共通部分を帳票分析におけるフィルター設定、異なる部分を帳票分析における列の設定とすることができる。この変換規則も一例であり、他の変換規則を用いてもよい。

図２２に示す例では、２つのグループの条件間の共通部分は「四半期＝第４四半期」で、異なる部分は「年度」の条件であるため、「年度」を列に設定した帳票を作成し、「四半期＝第４四半期」および選択されている「商談動機＝紹介」をフィルター条件に設定すると、図２４に示す出力画面１４０に表示されるような帳票を自動的に作成できる。この帳票には、ツリー分析で見えていた２０１８年、２０１９年の数値のほかに、他の年（例えば２０２０年）の数値も表示される。このように、２つのグループ間を比較するツリー分析を行っている時またはツリー分析を行った後に、帳票のような別種の分析を任意のタイミングで実行することができる。つまり、使用者は分析対象データの掘り下げを行いながら、必要に応じて着目している２グループの周辺の値を確認することができる。さらに、２つのグループ間で異なる条件が複数存在する場合、異なる条件の内、帳票の列に用いる条件の組を複数生成して、ユーザに提示してもよい。この場合、年や月といった時系列を表す条件を優先的にユーザに提示することもできる。また、帳票を生成する際に、ツリー分析で分析対象としていた第１の指標だけでなく、ユーザが他の帳票分析で利用している第２の指標を自動的に抽出し、生成した帳票に追加してもよい。

このように、第４分析部２０によるツリー分析から第３分析部１９による帳票分析を派生されてモニタ３に表示させることができる。ツリー分析から派生させた帳票は元のツリー分析とは独立した分析であるために、必要であれば使用者側でこの帳票の設定を変更することもできる。使用者が所望の条件設定を行うと、その条件が主制御部１１で受け付けられる。これにより、さらに帳票分析を発展させたり、別個の分析として保存することができる。例えば、自動的に生成された設定では、第４四半期の推移を確認することができるが、例えば設定を変えることで、他の四半期を含む時系列の推移を確認することも可能である。

さらに、別の実施形態として、図２５に示すように、ツリー表示領域１５３に表示されているツリー分析の情報に、帳票分析に相当する内容の情報を重畳表示させることもできる。具体的には、帳票分析に相当する内容の情報を表示するためのウインドウ１５６をツリー表示領域１５３内に表示させる。これにより、ツリー分析の表示形式に合わせた形態で帳票分析に相当する内容の情報を埋め込んで表示することができる。

以上のように、図４に示すフローチャートのステップＳ３で作成された帳票を用いることで、使用者が最新の営業指標をモニタリングすることができるようになる。一方、帳票分析で特定の指標の値が悪化していることが分かった場合、その要因を分析することがしばしば必要となる。例えば、ある四半期について、商談が発生した会社と、発生しなかった会社にどのような違いがあったのかを分析したい場合、図４に示すフローチャートのステップＳ４に進み、帳票分析で用いたデータモデルから機械学習を用いた要因分析を実行できる。この要因分析のステップが、第１分析ステップである。

ステップＳ４に進むと、表示制御部３ａが図２６に示す要因分析の設定画面１７０を生成してモニタ３に表示させる。要因分析の設定画面１７０には、分析の単位を入力する単位入力領域１７１と、分析の目的を入力する目的入力領域１７２と、分析基準日を入力する基準日入力領域１７３とが設けられている。基準日入力領域１７３には、分析対象データを目的変数と特徴量の期間に分割する際の分割点となる日を予測基準日として使用者が入力可能になっている。この予測基準日に基づいて、集計期間をパラメータに持つ各特徴量の値を自動的に再計算することができる。

この例では、「商談」データを２０１８年１２月までの集計期間と、２０１９年１月以降の集計期間とに分割し、前者を特徴量の集計に、後者を目的変数の集計に用いるよう設定している。このように期間を分割する設定を行うことで、例えば上記特許文献１に開示されている方法を用いた変換・結合処理によって目的変数と特徴量を自動的に生成し、機械学習向けのデータ変換処理を簡単に実行することができる。

また、この実施形態では使用者が帳票から変化点を発見したのち、要因分析の設定を手動で行っていたが、データ分析装置１が帳票から自動的に値の変化点を検出し、開始可能な要因分析を提示してもよい。その場合に、要因分析の設定の一部または全部を、データ分析装置１側が帳票の設定と値とに基づいて自動的に行ってもよい。

要因分析時の処理手順の一例を図２７のフローチャートに基づいて説明する。最初のステップＳＡ１は入力データ解析ステップであり、この入力データ解析ステップでは、入力された分析対象データ、及び複数の分析対象データ間の結合関係と、分析設定を解析する。この解析により、分析対象データ（ここでは会社）に対して、各分析対象データからどのような経路で変換・結合処理を行うかを決定する。

続くステップＳＡ２はパラメータ抽出ステップであり、このパラメータ抽出ステップでは、ステップＳＡ１で解析された情報に基づいて、目的変数と特徴量を生成するために必要なパラメータを生成する。ステップＳＡ２で生成されたパラメータは、特徴量の値を計算するために必要な集計関数や集計対象カラム等の情報を含んでおり、１つの特徴量につき１つのパラメータが生成される。パラメータの例を図２７中に示している。

続くステップＳＡ３はＳＱＬ変換ステップであり、このＳＱＬ変換ステップでは、ステップＳＡ２で生成されたパラメータをＳＱＬと呼ばれるプログラミング言語に変換する。

最後のステップＳＡ４はＳＱＬ実行ステップであり、このＳＱＬ実行ステップでは、データベースに対してＳＱＬを使った問い合わせを実行することで、特徴量の値を得る。

分析が完了すると、表示制御部３ａは図２８に示すセグメント出力画面１８０を生成してモニタ３に表示させる。セグメント出力画面１８０には、１つまたは複数のセグメントを表示可能なセグメント表示領域１８１が設けられている。セグメント表示領域１８１には、目的変数と関連度が大きい特徴量と、その特徴量を用いた場合に目的変数の値が高くなるようなセグメントを表示している。すなわち、第１分析部１５は、使用者により指定された目的変数と関連度が大きい特徴量を抽出するとともに、全データの目的変数の平均値を比較して、目的変数の平均値が相対的に高くなるセグメントを抽出してセグメント出力画面１８０に表示させる。尚、第１分析部１５は、前記目的変数と関連度が大きい特徴量と、全データの目的変数の平均値とを比較して、目的変数の平均値が相対的に低くなるセグメントを抽出してセグメント出力画面１８０に表示させてもよい。

セグメント表示領域１８１に表示されたセグメントに対応してチェックボックス１８１ａが設けられている。このチェックボックス１８１ａについては後述する。

また、セグメント出力画面１８０には、平均値を表示する平均値表示領域１８２も設けられている。平均値表示領域１８２の代わりに、最大値を表示する最大値表示領域であってもよいし、最小値を表示する最小値表示領域であってもよい。

図２８に示す例では、分析対象データの「会社」における平均の商談率は平均値表示領域１８２に表示されているとおり２３．３％であるのに対して、「直近９０日間の活動種別＝“メール送信”の数」が２件以上ある会社では商談率が３８．８％と、平均より１５．５ポイント高いことが分かる。同様に、「直近３０日間の活動種別=“ＴＥＬ”の数」が多い場合にも商談率が高いことも分かり、直近での営業活動のうち、メール送信と電話の回数が商談に影響を与えている可能性が示唆される。

ここで、「直近９０日間の活動種別＝“メール送信”の数」は、第１分析部１５が、目的変数と関連度が大きい特徴量として自動的に生成した特徴量であり、元のデータモデルには存在しない。尚、「直近９０日間」は、この分析においては２０１９年１月１日を基準日としているため、「２０１９／０１／０１までの９０日間」の期間を意味する。

次に、図４に示すフローチャートのステップＳ５に進む。ステップＳ５は特徴量の出力ステップであり、ステップＳ４で生成された特徴量を他の分析でも利用できるように出力する。この出力ステップは出力部１８が実行するものであり、自動的に生成した新しい特徴量や、要因分析に基づいて抽出されたセグメント、目的変数との関連度が大きい特徴量を次回の分析対象となるデータモデルに付加する。

具体的な手順は図３０のフローチャートに示す通りである。まず、ステップＳＢ１において、図２９に示すセグメント出力画面１８０のセグメント表示領域１８１に表示されているセグメントを使用者が選択する。この例では、セグメントに対応するチェックボックス１８１ａをチェックする操作が選択操作であるが、この操作に限定されるものではない。主制御部１１は、使用者による選択操作を受け付けると、セグメント出力画面１８０に出力ボタン１８３を表示させる。使用者が出力ボタン１８３を操作すると、選択された特徴量の特徴量パラメータを読み出し、特徴量の出力先を変更することで、特徴量の値を入力データに対して計算できるようにする。また、必要であれば、他のパラメータ、例えば基準日となる日付を調整してもよい。これが図３０に示すフローチャートのステップＳＢ２の処理である。その後、ステップＳＢ３、ＳＢ４では、それぞれ図２７に示すフローチャートのステップＳＡ３、ＳＡ４と同様に、ＳＱＬ変換ステップとＳＱＬ実行ステップを行う。

このように、調整後の特徴量パラメータに対して、分析時と同様にＳＱＬ変換と実行を適用することで、分析に用いた特徴量を簡単に入力データにも反映させることができる。また、基準日の調整も同時に行うことで、機械学習による分析で用いた特徴量を、機械学習以外の用途で使いやすい形式に変換することもできる。この基準日は「２０１９／０１／０１」のように日付で指定してもよいし、「現在日時」のように設定をすることで、表示のたびに更新してもよい。

特徴量の出力が完了した後、図３１に示すように、分析対象データ画面１００が更新される。具体的には、出力された特徴量がデータ表示領域１０３に「会社」の分析用データの属性として追加される。次の分析を開始した際には、この入力データを用いることで、追加した特徴量を元の属性と同じように利用することができる。

次に、図４に示すフローチャートのステップＳ６に進む。ステップＳ６は、第２分析部１６による予測分析の実行ステップ、即ち調整後のデータモデルに対して予測分析を実行する第２分析ステップであり、予測対象のデータごとに目的変数の値を予測する。

上記ステップＳ５では、例えば会社ごとの商談の発生有無に対して、どのような特徴量が高い相関があるのかを把握できる。実際の営業データ分析においては、単に要因を分析するだけではなく、今後商談が発生する見込みの高い会社を抽出するなどして、営業活動のリソース配分を効率化することが可能であり、そのために予測分析を用いることがある。

予測分析の実行ステップでは、ステップＳ５で得られた会社データに基づいて、次の９０日間に商談が発生する確度が高い会社を予測するものとする。このステップでは、表示制御部３ａが図３２に示す予測分析の設定画面１９０を生成してモニタ３に表示させる。予測分析の設定画面１９０には、図２６に示す要因分析の設定画面１７０と同様に、分析の単位を入力する単位入力領域１９１と、分析の目的を入力する目的入力領域１９２と、分析基準日を入力する基準日入力領域１９３とが設けられている。基準日入力領域１９３には、分析の基準日として、学習時の基準日（学習基準日）と、学習時の基準日とは異なる予測時の基準日との設定が可能になっている。

また、予測分析においては、単に精度よく予測できるだけでなく、予測結果の根拠が必要となる用途も多い。そこで、本実施形態では、予測分析の設定の中で、スコアリングの計算方式を、ルールベースの方式と機械学習を用いた方式とから選択可能としている。表示制御部３ａは、図３３に示すスコアリング設定画面２００を生成してモニタ３に表示させる。スコアリング設定画面２００には、ルール方式と、機械学習方式とのうち、一方の選択が使用者によって可能な方式選択領域２０１が設けられている。これら方式の選択は、ボタン操作等で行うことが可能であるが、どのような方法であってもよい。方式選択領域２０１には、ルール方式と機械学習方式のそれぞれの概要について説明書きが記載されている。スコアリング設定画面２００には、ルール作成方法の選択領域２０２も設けられている。ルール作成方法の選択領域２０２では、データ分析装置１が自動で生成する「自動生成」と、使用者が任意のルールを指定する「ルールを指定」の２つの選択肢が表示されており、これら選択肢のうち、使用者が一方を選択可能になっている。また、スコアリング設定画面２００には、ルール数を入力するための入力領域２０３も設けられており、使用者が任意のルール数を入力可能になっている。さらに、スコアリング設定画面２００には、ルール作成時に使用する属性の選択領域２０４も設けられており、使用者が１以上の任意の数の属性を選択できるようになっている。

機械学習方式では、目的変数が１となる確率を表す予測値（スコア）は機械学習モデルが出力した予測結果から計算されるが、ルール方式の場合は、ルール（条件式）に何個該当したかを予測対象の行ごとに数え上げることで、スコアを計算する。スコアリング設定画面２００で例えば４つのルールを設定した場合、ルールへの該当数を行ごとに計算した結果、図３４に示すように、行ごとに０～４の該当数が得られる。この該当数と、別途計算しておいた該当数－スコアの対応表を照合することで、行ごとのスコアを計算することができる。この対応表は、学習用データを用いた集計等によって事前に計算しておけばよい。ルールは、例えば「会社規模が“Ａ”に合致するかどうか」など、属性と値の組み合わせによって表現してもよいし、データモデルで定義されているセグメントを用いて、「セグメントＸに該当するかどうか」といった表現をしてもよい。

ルール自体は分析を行う使用者が自分で指定してもよいし、決定木分析などの分析手法を使うことで、目的変数の値が高いグループを抽出できるようなルールを分析エンジンが自動的に生成してもよい。

スコアリング方式を選択して分析を開始すると、分析部では、機械学習に用いる学習用のデータと予測用のデータを生成する。この際、分析対象となるデータの中に、基準日をパラメータに持つ特徴量が含まれていた場合、学習用のデータの基準日と予測用のデータの基準日は異なるため、学習用のデータから生成された特徴量と、予測用のデータから生成された特徴量が変わることがある。そのため、基準日の再調整が行われ、予測用のデータの基準日に基づいて、予測用のデータの集計期間が自動的に調整される。これが、データモデル設定部１２ｂで設定されたデータモデルを分析設定情報に基づいて調整するデータ調整ステップであり、例えば第１調整部１３または第２調整部１４が実行する。すなわち、図４に示すフローチャートのステップＳ５で追加された特徴量が基準日を持っているため、図３５に示すように、学習用データでは基準日を２０１９年１月１日、予測用データでは基準日を２０１９年４月１日として特徴量の値がそれぞれ再計算される。続く変換・結合処理では、学習用データに対して、上記特許文献１に記載されている方法で目的変数の値を付加する。

データ生成が完了すると、学習用データでモデルの学習を行い、予測データの行ごとに予測値（スコア）が計算される。予測が完了すると、予測値をプレビューする予測値表示画面２１０（図３６に示す）に遷移する。すなわち、表示制御部３ａは予測値表示画面２１０を生成してモニタ３に表示させる。

予測値表示画面２１０には、一覧表示領域２１１が設けられている。一覧表示領域２１１には、予測値が高い順に会社が一覧表示されている。また、予測値表示画面２１０には、一覧表示領域２１１の隣に、グラフ表示領域２１２と、フィルター設定領域２１３とが設けられている。グラフ表示領域２１２のスライドバー２１２ａの右端部ないし左端部を左右に動かすことで、一覧表示領域２１１に表示するデータの件数を増減できる。スライドバー２１２ａは、使用者がデータの件数を増減させるための増減操作部の一例であるが、スライドバー２１２ａ以外の形態でデータの件数を増減可能にしてもよい。

フィルター設定領域２１３では、一覧表示領域２１１に表示するデータを、条件に合致するものに絞り込むことができる。例えば、優先的に営業活動を行うべき会社を、商談見込みに基づいて上位１００社分抽出したい、という場合には、グラフ表示領域２１２及びフィルター設定領域２１３で件数を１００件に調整したのち、一覧表示領域２１１にプレビューされているデータをダウンロードすることで、営業活動用の客先リストを作成することができる。

一般的に、図３６の一覧表示領域２１１に示すように、予測スコアが高いデータから順に施策対象を並べるのが施策を検討する上では有効であるが、一覧表示領域２１１に表示されている上位のごく少数だけを施策を適用すべきデータ範囲として施策の対象者としてしまうと、平均スコアは上昇するため効率的に施策を実施できる一方で、対象者が少ないため施策により得られる総利益は小さくなってしまう場合がある。一方、施策対象者を増やしていった場合、ある時点で利益を施策の実施コストが上回ってしまい、増やせば増やすほど利益が低下してしまうことになる。

本実施例のような営業活動用の会社リストのような用途では、営業リソースの総量で施策対象者のサイズの上限が決まる場合が多いため、多くの場合あまり調整の余地が無い一方、ダイレクトメールの送付やインターネット広告等の施策の場合は、施策対象者のサイズをコントロールできる場合が多く、利益を最大化する施策対象者サイズをうまく決定したい。また、施策を実行した場合に得られる投資対効果（ＲＯＩ）を事前に知りたいこともある。

そこで、本実施形態に係るデータ分析装置１は予想ＲＯＩの計算機能を有している。具体的には、表示制御部３ａが図３７に示すようなＲＯＩ計算領域２１４を生成して予測値表示画面２１０に重畳表示させる。ＲＯＩ計算領域２１４には、施策１件あたりにかかるコスト（Ｃ）を入力するコスト入力領域２１４ａと、獲得（目標達成）１件あたりに得られる利益（Ｒ）を入力する利益入力領域２１４ｂと、対象件数（Ｎ）を表示する件数表示領域２１４ｃと、ターゲットの平均スコア（ｐ）を表示するスコア表示領域２１４ｄと、計算したＲＯＩを表示するＲＯＩ表示領域２１４ｅとが設けられている。件数表示領域２１４ｃには、施策を適用すべきデータ範囲に含まれるデータの数が表示され、ここに表示される件数は、グラフ表示領域２１２及びフィルター設定領域２１３で調整可能である。使用者がコスト入力領域２１４ａ及び利益入力領域２１４ｂに金額をそれぞれ入力すると、主制御部１１が現在の範囲選択の状態を元に、選択中の件数（Ｎ）と、選択範囲における平均スコア（ｐ）を算出する。

これらの数値から、施策の総コストがＮ×Ｃ、施策によって得られる総利益がＮ×Ｒ×ｐと計算できるため、主制御部１１がＮ×Ｒ×ｐ－Ｎ×Ｃの式でＲＯＩを計算する。計算結果は、ＲＯＩ表示領域２１４ｅに表示される。ＲＯＩを画面中のスライドバー２１２ａやフィルター設定に連動して再計算することで、ＲＯＩを加味しながら施策の対象者サイズ（施策を実行すべきデータ件数）を決定することができる。あるいは、ＲＯＩが最大となるような対象者サイズをデータ分析装置１が自動的に算出し、使用者に提示してもよい。

上述した例では使用者が自ら予測分析の設定を行ったが、ステップＳ４で帳票分析から要因分析を開始する場合と同様に、要因分析から予測分析を開始するよう提案することもできる。この場合、要因分析と予測分析は目的変数の設定が共通して必要であるため、要因分析から予測分析を開始する際には、目的変数の設定を省略することができる。

要因分析から予測分析への連携、即ち、要因分析で選択したセグメントから予測分析を開始する例について、図３８に基づいて説明する。図３８の上側に記載している画面は、特徴量を出力する場合のセグメント出力画面１８０である。また、図３８の下側に記載している画面は、スコアリング設定画面２００である。セグメント出力画面１８０で選択したセグメントを、スコアリング設定画面２００で示すようにルール方式の予測分析におけるルールとして採用することで、使用者は要因分析で発見されたセグメントの中から、ビジネス上の解釈性が高い等の理由で好ましいセグメントを自由に選択して、それらを利用した予測分析を開始することができる。

次に、図４に示すフローチャートのステップＳ７に進む。ステップＳ７は、セグメントの出力ステップである。ステップＳ６では商談見込みの高い会社を抽出することが可能であるが、抽出されたリストを営業活動に用いるだけでなく、分析にも使いたいことがある。その場合、図３６に示す予測値表示画面２１０の「セグメントに出力」ボタン２１５を操作することで、表示している会社リストを保存できる。図３９はセグメントの保存画面２２０を示すものである。表示制御部３ａはセグメントの保存画面２２０を生成してモニタ３に表示させる。セグメントの保存画面２２０には、セグメントの保存時の名称を表示する名称表示領域２２１が設けられている。この例では、「商談見込み上位１００件」という名前で、上位１００件の会社をセグメントとして保存する。データモデルに保存したセグメントは、図２８に示すセグメント出力画面１８０等から定義や該当者の割合を確認することができる。また、図３９に示すセグメントの保存画面２２０では分析結果から生成されたセグメントを確認するだけでなく、新たなセグメントを追加することもできる。

セグメントは分析用データのいずれか１つに対して定義される。セグメントは、分析用データからその一部を抽出することができるのであれば、任意の定義であってもよく、例えば、図４０に示す条件式の設定画面２３０を用いて定義することもできる。図４０に示す条件式の設定画面２３０は表示制御部３ａが生成してモニタ３に表示させる。条件式の設定画面２３０には、条件式の入力領域２３１が設けられており、この条件式の入力領域２３１は２つ以上設けられていてもよい。この例では、「会社規模がＡ、かつ所在地が東京都」のように１つ以上の条件式を複数組み合わせて定義できる。あるいは、セグメントが「照合用テーブルと行の対応付けが可能なもの」のように、別のテーブルと照合する形で定義されてもよい。

予測分析から生成されたセグメントは、図４１に示すように、予測分析の内部で生成されたテーブルを照合する形で定義することが可能である。照合テーブルを用いたセグメントの場合、分析用のデータが更新されても該当／非該当は同じＩＤに対しては変化しないのに対して、条件式を用いたセグメントの場合、分析用のデータが更新されることで、同じＩＤでも属性値が変われば該当／非該当が変化することがある。そのため、「ある時点で施策対象者だった集団」のような、対象者を固定しておきたい用途では前者が適しているが、「直近１週間でＷｅｂページにアクセスした集団」のような、現時点での対象者を知りたい用途では後者が適している。

次に、図４に示すフローチャートのステップＳ８に進む。ステップＳ８は、帳票の更新ステップであり、ステップＳ７で保存したセグメントを利用して、新たな帳票分析を開始する。表示制御部３ａは図４２に示す設定画面２５０を生成してモニタ３に表示させる。この設定画面２５０では、ステップＳ３の帳票作成時に用いた値に加えて別の値を定義している。具体的には、「ＴＥＬ件数」という値を新たに定義することで、営業担当別に活動量を可視化している。また、ステップＳ６で作成した「商談見込み上位１００件」という条件で帳票全体を絞り込むことで、集計対象をステップＳ７で抽出した商談見込みのある会社に限定している。

ステップＳ５で出力された特徴量もこの帳票に用いることができるので、たとえば特徴量をフィルター条件に用いることで、「商談見込み上位１００件に該当するにも関わらず、直近９０日間でメール送信の数が０件の会社」のような条件で帳票を確認することもできる。このように、ステップＳ６で抽出された商談可能性が高い会社に対して、営業担当者別の指標を帳票化することで、各営業担当者が抽出した会社に実際に活動を実施できているか、商談や成約が得られているかどうかをモニタリングすることができる。

（実施形態の作用効果）
以上説明したように、使用者は分析対象データをデータ分析装置１に入力し、分析対象データ間の行の対応関係を定義してデータモデルを設定すると、そのデータモデルを用いて要因分析や予測分析を行うことができる。このとき、分析の結果として特徴量やセグメントが得られた場合、それらのデータモデルに付加することができ、また、特徴量の集計パラメータを分析の設定情報に応じて自動的に再調整することもできる。これにより、使用者は特徴量を複数の分析で用いる際に、分析の特性に応じた個別の再調整を自ら行うことなく、また、高度なプログラミング技術を持った専門家を介さなくても、共通の入力データで様々な分析が行えるようになる。

このように、共通の入力データから様々な分析を可能にすることで、使用者側で分析のために必要な準備の手間が大幅に削減されるとともに、ある分析で見つかった有用な知見を他の分析で容易に利用できるようになる。

また、定期的に行う分析では、入力データを最新版に更新することで、複数の分析を一括して更新することもできるようになり、データ分析を業務フローに組み込んで繰り返し実行する場合には、工数削減効果がより一層大きなものになる。

上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。

以上説明したように、本発明に係るデータ分析装置及びデータ分析方法は、例えば企業が持っている様々なデータを集計・可視化する場合等に利用できる。

１データ分析装置
３モニタ（表示部）
３ａ表示制御部
１２ａデータ入力部
１２ｂデータモデル設定部
１３第１調整部
１４第２調整部
１５第１分析部
１６第２分析部
１８出力部
１９第３分析部
２０第４分析部

Claims

データを分析するデータ分析装置において、
複数の特徴量を有する複数の表形式データを入力するためのデータ入力部と、
前記データ入力部に入力された複数の前記表形式データの対応関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定するデータモデル設定部と、
前記データモデル設定部により設定されたデータモデルを分析設定情報に基づいて調整するデータ調整部と、
前記データモデル設定部により設定されたデータモデルに対して、第１の分析を実行し、第１の分析結果を生成する第１分析部と、
前記データ調整部により調整されたデータモデルに対して第２の分析を実行し、第２の分析結果を生成する第２分析部と、を備えることを特徴とするデータ分析装置。
請求項１に記載のデータ分析装置において、
前記第１分析部及び前記第２分析部の少なくともいずれか一方の分析結果に含まれる新たな特徴量を、次回の分析対象となるデータモデルに付加する出力部を更に備えることを特徴とするデータ分析装置。
請求項２に記載のデータ分析装置において、
前記データモデル設定部は、さらに、前記複数の表形式データの中から一部のデータを抽出するためのセグメントの設定を受け付けて、分析対象となる前記データモデルを設定し、
前記出力部は、さらに、前記第１分析部及び前記第２分析部の少なくともいずれか一方の分析結果に含まれる新たなセグメントを、次回の分析対象となるデータモデルに付加することを特徴とするデータ分析装置。
請求項２または３に記載のデータ分析装置において、
前記第１分析部は、
分析設定情報として、使用者により指定された目的変数を受け付け可能であり、
指定された目的変数と関連度が大きい特徴量を抽出するとともに、全データの目的変数の平均値と比較して、前記目的変数の平均値が相対的に高くなる又は低くなるセグメントを抽出するための要因分析を実行し、
前記出力部は、前記第１分析部が実行した前記要因分析の結果に基づいて、前記目的変数との関連度が大きい特徴量を次回の分析対象となるデータモデルに付加することを特徴とするデータ分析装置。
請求項４に記載のデータ分析装置において、
前記第１分析部は、前記目的変数と関連度が大きい特徴量として、元のデータモデルには存在しない新しい特徴量を自動的に生成し、
前記出力部は、前記第１分析部が自動的に生成した新しい特徴量を次回の分析対象となるデータモデルに付加することを特徴とするデータ分析装置。
請求項５に記載のデータ分析装置において、
前記出力部は、さらに、前記第１分析部が実行した前記要因分析に基づいて抽出されたセグメントを、次回の分析対象となるデータモデルに付加することを特徴とするデータ分析装置。
請求項４から６のいずれか１つに記載のデータ分析装置において、
前記第２分析部は、予測対象のデータごとに、前記目的変数の値を予測する予測分析を実行することを特徴とするデータ分析装置。
請求項７に記載のデータ分析装置において、
前記第１分析部は、前記分析設定情報として、予測基準日の設定を受け付け可能であり、予測対象の前記データモデルの中に、集計期間をパラメータに持つ特徴量が含まれている場合は、前記予測基準日に基づいて、前記集計期間をパラメータに持つ各特徴量の値を自動的に再計算することを特徴とするデータ分析装置。
請求項７に記載のデータ分析装置において、
前記第１分析部は、分析設定情報として使用者により設定された学習基準日よりも前の期間に集計されたデータに基づいて特徴量を集計し、前記学習基準日よりも後の期間に集計されたデータに基づいて目的変数を集計することにより、前記要因分析を実行し、
前記第２分析部は、前記第１分析部が実行した前記要因分析により、前記目的変数との関連度が高い特徴量として抽出された特徴量が付加されたデータモデルに基づいて、前記予測分析を実行可能に構成されていることを特徴とするデータ分析装置。
請求項９に記載のデータ分析装置において、
前記第２分析部は、前記分析設定情報として、前記学習基準日とは異なる予測基準日の設定を受け付け可能であり、予測対象の前記データモデルの中に、集計期間をパラメータに持つ特徴量が含まれている場合は、前記予測基準日に基づいて、各特徴量の値を自動的に再計算することを特徴とするデータ分析装置。
請求項８から１０のいずれか１つに記載のデータ分析装置において、
前記第２分析部は、ルールベース方式と機械学習方式のいずれかの方式から、使用者により選択された方式にしたがって、前記予測分析のスコアリングを行うことを特徴とするデータ分析装置。
請求項７から１１のいずれか１つに記載のデータ分析装置において、
前記第２分析部は、前記予測分析によって予測された予測対象のデータごとの目的変数を、スコアが高い順に並べて表示するとともに、使用者から、施策を適用すべきデータ範囲と、施策１件あたりにかかるコスト及び目的達成１件あたりに得られる利益の入力を受け付けることで、前記データ範囲に施策を適用した場合にかかる総コストと、得られる総利益を計算することを特徴とするデータ分析装置。
請求項７から１１のいずれか１つに記載のデータ分析装置において、
前記第２分析部は、施策１件あたりにかかるコストと、目的達成１件あたりに得られる利益の入力を受け付けることで、施策の総コストと、施策によって得られる総利益を計算し、施策を実行すべきデータ件数を自動的に計算することを特徴とするデータ分析装置。
請求項７から１３のいずれか１つに記載のデータ分析装置において、
前記出力部は、前記予測分析によって予測された予測対象のデータごとの目的変数のうち、スコアが高い一部のデータをセグメントとして出力し、次回の分析対象のデータモデルに付加することを特徴とするデータ分析装置。
請求項１に記載のデータ分析装置において、
前記データモデルに基づいて、帳票分析を実行することにより、マトリクスに帳票分析結果を表示する第３分析部をさらに備え、
前記マトリクス上で、基準データと、比較データの選択を使用者から受け付け、受け付けた２つのデータの差異に関連した情報をさらに表示することを特徴とするデータ分析装置。
請求項１５に記載のデータ分析装置において、
前記２つのデータの差異に関連した情報をツリー状に表示するツリー分析を実行する第４分析部をさらに備え、前記２つのデータの差異を特定の特徴量に注目して表示することを特徴とするデータ分析装置。
請求項１６に記載のデータ分析装置において、
前記第４分析部によるツリー分析から、前記第３分析部による帳票分析を派生させて表示可能に構成されていることを特徴とするデータ分析装置。
データを分析するデータ分析方法において、
複数の特徴量を有する複数の表形式データを入力するデータ入力ステップと、
前記データ入力ステップで入力された複数の前記表形式データに含まれる特徴量の関係を定めたリレーション情報の設定を受け付けて、分析対象となるデータモデルを設定するデータモデル設定ステップと、
前記データモデル設定ステップで設定されたデータモデルを分析設定情報に基づいて調整するデータ調整ステップと、
前記データモデル設定ステップで設定されたデータモデルに対して、第１の分析を実行し、第１の分析結果を生成する第１分析ステップと、
前記データ調整ステップで調整したデータモデルに対して第２の分析を実行し、第２の分析結果を生成する第２分析ステップと、を備えることを特徴とするデータ分析方法。