JP7049210B2

JP7049210B2 - データ分析装置及びデータ分析方法

Info

Publication number: JP7049210B2
Application number: JP2018148303A
Authority: JP
Inventors: 大河能見; 康暢梅原
Original assignee: Keyence Corp
Current assignee: Keyence Corp
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2022-04-06
Anticipated expiration: 2038-08-07
Also published as: US20200050888A1; US11281937B2; JP2020024541A

Description

本発明は、データ分析装置及びデータ分析方法に関する。

従来より、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングが知られている。一般的なデータマイニングの手法では、前処理ステップ、特徴抽出ステップ、モデル学習ステップ、後処理ステップの各ステップを順に実行する。前処理ステップでは、分析に必要なデータを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はＥＴＬ：Ｅｘｔｒａｃｔ／Ｔｒａｎｓｆｏｒｍ／Ｌｏａｄと呼ばれている。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。

ところで、最適な特徴量の設計には、熟練の分析者による試行錯誤が必要で、データ分析に長い時間を要する原因となっていた。このことに対し、例えば、非特許文献１に開示されているように、新たな特徴量をデータから自動的に生成する技術が知られている。これら文献に開示されている技術では、事前に定義された一連の演算子（＋，－，×，÷など）を元の特徴量に対して網羅的に適用し、大量の新たな特徴量を自動的に生成することができる。

「A Randomized Exhaustive Propositionalization Approach for Molecule Classification」２０１０年５月２６日

しかしながら、上記文献の技術では、複数の演算子の組み合わせの結果得られた新たな特徴量は膨大な数になる。その膨大な数の特徴量の中には、分析に有効でない特徴量も大量に含まれているため、後続のモデル学習ステップに時間がかかるという問題があった。

また、分析の精度向上に役立つ新たな特徴量が生成されたとしても、その生成された特徴量と目的変数との関係や、他の特徴量との関係性が直観的に分からないため、実際に分析結果から知見を得ようとすると、個々の特徴量に関して追加の分析作業を必要としていた。つまり、上記文献の技術を使用したとしても、有用な知見を得るためには、分析者による手作業が結局必要になるので、データ分析に時間がかかるという問題は依然として解決されない。

本発明は、かかる点に鑑みてなされたものであり、その目的とするところは、大量のデータから特徴量を得て重要度の高い特徴量を表示可能にし、新たな知見を得るための手助けができるようにすることにある。

上記目的を達成するために、第１の発明は、分析対象データを分析するデータ分析装置において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、前記表示部に表示された特徴量の中から使用者の入力に応じて選択された第１の特徴量と、前記目的変数との関係を示す基本図を生成する基本図生成部と、前記第１の特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか１つのクラスターで、前記第１の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第２の特徴量を抽出し、当該第２の特徴量と前記目的変数との関係を示す第１の派生図と、前記複数のクラスターのうち、所定のクラスターで前記目的変数の予測に寄与している特徴量を示す第２の派生図と、前記第１の特徴量に基づいて生成された予測モデルの精度と、前記第１の特徴量と同一カテゴリーに属し、且つ前記第１の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す第３の派生図とのうち、少なくともいずれか１つを生成する派生図生成部とを備え、前記表示部は、前記基本図生成部により生成された前記基本図と、前記派生図生成部により生成された派生図とを表示可能に構成されていることを特徴とする。

この構成によれば、分析対象データが入力されると、分析対象データに含まれる複数の特徴量から目的変数を予測するための予測モデルが生成される。特徴量は、分析対象データに含まれていたものであってもよいし、新たに生成されたものであってもよい。そして、予測モデルによる予測に対する重要度が、複数の特徴量のそれぞれに対して算出され、算出された複数の特徴量のうち、上位の重要度を有する特徴量が表示部に表示される。このとき、下位の重要度を有する特徴量が表示されていてもよい。いずれにしても、使用者は、表示部を見ることで、重要度の高い特徴量を、重要度の低い特徴量と区別して把握することができる。使用者が、表示部に表示された特徴量の中から所望の特徴量を選択すると、その選択された第１の特徴量と、目的変数との関係を示す基本図が生成されて表示部に表示される。また、表示部には、以下に述べる第１の派生図、第２の派生図及び第３の派生図のうち、任意の１つの派生図が表示される。

すなわち、派生図生成部が第１の派生図を生成する場合には、例えば、複数の区間に分割した第１の特徴量を得て、各区間の目的変数の代表値として平均値や中央値等を算出し、任意の区間において、第１の特徴量の目的変数の代表値に対して有意な差が存在する目的変数の代表値を有する第２の特徴量を抽出し、この第２の特徴量と目的変数との関係を示すことができる。これにより、第１の特徴量だけでは得ることのできなかった知見を得ることができる。前記区間は、分析対象データを振り分ける条件であり、期間だけでなく、例えば、性別、場所等であってもよい。

派生図生成部が第２の派生図を生成する場合には、例えば、分析対象データを男、女に分割したとき、性別の違いによって目的変数の予測に対する寄与度合いが大きく変わることがあり、このような目的変数の予測に寄与している特徴量を示すことで、新たな知見を得ることができる。

派生図生成部が第３の派生図を生成する場合には、第１の特徴量と同一カテゴリーに属し、集計期間が異なる別の特徴量に基づいて予測された予測モデルの精度を、第１の特徴量に基づいて生成された予測モデルの精度と比較することができる。これにより、使用者が各予測モデルの精度の相対差を把握した上で、どの予測モデルを使用して分析を行えば精度が高まるか、容易に判断可能になる。同じ種類や部類のものを、同一カテゴリーに属するものとすることができ、例えば、日付は異なるが「期間」であれば、同一カテゴリーに属するものとすることができ、また、長さは異なるが「期間」であれば、同一カテゴリーに属するものとすることができ、また、男女も「性別」という同一カテゴリーに属するものとすることができる。

尚、第１の派生図、第２の派生図及び第３の派生図のうち、任意の１つと、基本図とを表示部に同時に表示してもよいし、異なるタイミングで表示してもよい。第１の派生図、第２の派生図及び第３の派生図の全てを生成してもよく、生成する順番は特に限定されない。また、第１の派生図、第２の派生図及び第３の派生図の全てを表示部に表示してもよい。また、「図」には、グラフや表、文字も含まれる。

第２の発明は、前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とする。

この構成によれば、上位の重要度を有する複数の特徴量がランキング形式で表示部に表示されることになるので、使用者が複数の特徴量の重要度を相対比較することができる。重要度を高い順に並べる方向としては、例えば上下方向であってもよいし、使用者から見て左右方向であってもよい。

第３の発明は、前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とする。

この構成によれば、最上位の重要度を有する特徴量がどの特徴量であるか、また、最上位の重要度とそれ未満の重要度との差を容易に把握することができる。

第４の発明は、前記派生図生成部は、前記第３の派生図の生成時に、複数の前記別の特徴量に基づいてそれぞれ生成された各予測モデルの精度と、前記第１の特徴量に基づいて生成された予測モデルの精度とを比較可能にすることを特徴とする。

この構成によれば、第１の特徴量と同一カテゴリーに属し、且つ第１の特徴量と集計期間が異なる特徴量（別の特徴量）が複数ある場合に、それら各特徴量に基づいてそれぞれ生成された複数の予測モデルの精度と、第１の特徴量に基づいて生成された予測モデルの精度とを表示部に表示させた状態で使用者が比較できる。これにより、同一カテゴリーに属する特徴量が複数ある場合に、どの特徴量に基づいて分析するのがよいか、容易に判断可能になる。

第５の発明は、前記派生図生成部は、前記第３の派生図の生成時に、所定以上の重要度を有する前記別の特徴量に基づいて生成された予測モデルの精度と、前記第１の特徴量に基づいて生成された予測モデルの精度とを比較可能にすることを特徴とする。

すなわち、重要度が低い特徴量は、そもそも、分析に役立たない場合が多いので、このような特徴量に基づいて生成された予測モデルの精度を、第１の特徴量に基づいて生成された予測モデルの精度と比較することに意味が無いことがある。本発明では、重要度が低い特徴量が除外された上で、所定以上の重要度を有する特徴量に基づいて生成された予測モデルの精度を、第１の特徴量に基づいて生成された予測モデルの精度と比較することができる。

第６の発明は、前記派生図生成部は、各クラスターに属する前記分析対象データの数を示すデータ数表示グラフを生成するように構成され、前記表示部は、前記派生図生成部により生成された前記データ数表示グラフを表示可能に構成されていることを特徴とする。

この構成によれば、分析対象データを複数のクラスターに分割した際、各クラスターに属するデータ数の大小を把握することができる。これにより、各クラスターの目的変数の信頼度を判定することができる。データ数表示グラフは、ヒストグラムであってもよい。

第７の発明は、前記派生図生成部は、前記分析対象データの数が第１の所定数以下のクラスターが存在することを使用者に通知するように構成されていることを特徴とする。

この構成によれば、例えば、分析対象データの数が著しく少ないクラスターが存在している場合に、そのことが使用者に対して通知されるので、使用者がそのようなクラスターの有無を把握でき、分析の精度を高めることができる。第１の所定数は、例えば全データ数の数％といった相対的な数とすることができる。

第８の発明は、前記派生図生成部は、前記分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割するように構成されていることを特徴とする。

この構成によれば、集計期間が長期間に亘っている場合に、派生図生成部が自動的に複数の集計期間に分割するので、使用者が集計期間を分割する手間を省くことができる。

第９の発明は、前記派生図生成部は、前記第１の派生図の生成時に、前記分析対象データの数が第２の所定数以下の特徴量については、前記第１の特徴量の目的変数の代表値に対して有意な差が無いと判定するように構成されていることを特徴とする。

この構成によれば、例えば、分析対象データの数が著しく少ない特徴量は信頼性が低い場合が多いので、そのような特徴量については有意な差が無いと判定することで、分析の精度を高めることができる。第２の所定数は、例えば全データ数の数％といった相対的な数とすることができる。

第１０の発明は、前記派生図生成部は、前記第１の派生図の生成時に、前記第１の特徴量及び前記第２の特徴量を同時に表示した同時表示グラフを生成するように構成され、前記表示部は、前記派生図生成部により生成された前記同時表示グラフを表示可能に構成されていることを特徴とする。

この構成によれば、第１の特徴量及び第２の特徴量がグラフに同時に表示されるので、第１の特徴量だけでは得ることのできなかった知見を同時表示グラフに基づいて容易に得ることができる。

第１１の発明は、前記派生図生成部は、前記所定のクラスターで前記目的変数の予測に寄与している特徴量と、全クラスターを合わせた前記第１の特徴量とを同時に表示した前記第２の派生図を生成するように構成されていることを特徴とする。

この構成によれば、所定のクラスターの特徴量が、全クラスターを合わせた特徴量に対してどの程度相違しているのか、容易に判断可能になる。

第１２の発明は、前記第１の特徴量と前記目的変数との関係を説明する説明文を自動生成する説明文自動生成部を備えていることを特徴とする。

この構成によれば、例えば、データ入力部で受け付けた分析対象データの名称や、特徴量の相対差に基づいて、第１の特徴量が目的変数に与える影響の度合い等を説明する説明文が自動生成されるので、使用者が特徴量と目的変数との関係を把握し易くなる。

第１３の発明は、分析対象データを分析するデータ分析方法において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、前記重要度算出ステップで算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された第１の特徴量と、前記目的変数との関係を示す基本図を生成する基本図生成ステップと、前記第１の特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか１つのクラスターで、前記第１の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第２の特徴量を抽出し、当該第２の特徴量と前記目的変数との関係を示す第１の派生図と、前記複数のクラスターのうち、所定のクラスターで前記目的変数の予測に寄与している特徴量を示す第２の派生図と、前記第１の特徴量に基づいて生成された予測モデルの精度と、前記第１の特徴量と同一カテゴリーに属し、且つ前記第１の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す第３の派生図とのうち少なくともいずれか１つを生成する派生図生成ステップと、前記基本図生成ステップにより生成された前記基本図と、前記派生図生成ステップにより生成された派生図とを表示可能な派生図表示ステップとを備えていることを特徴とする。

本発明によれば、大量のデータに含まれる重要度の高い特徴量を表示部に表示することができる。そして、特徴量と目的変数との関係を示す基本図や、複数の特徴量と目的変数との関係を示す派生図、所定のクラスターで目的変数の予測に寄与している特徴量を示す派生図、集計期間が異なる特徴量に基づいて生成された予測モデルの精度比較を示す派生図等を表示部に表示することが可能なので、新たな知見を得るための手助けをすることができる。

本発明の実施形態に係るデータ分析装置の概略構成を示す図である。データ分析装置のブロック図である。データ分析の手順を示すフローチャートである。データ分析装置の動作を示すフローチャートである。データ入力用ユーザーインターフェースを示す図である。２つのファイルにそれぞれ格納されている分析対象データを表形式で示す図である。データフロー表示ユーザーインターフェースを示す図である。分析対象データをプレビュー表示したデータフロー表示ユーザーインターフェースを示す図である。データ加工ユーザーインターフェースを示す図である。加工後データをアイコン表示したデータフロー表示ユーザーインターフェースを示す図である。特徴量自動生成ユーザーインターフェースを示す図である。２つの分析対象データ間で対応関係にある割合の算出方法を説明する図である。価格の列の合計を計算して「ｍａｓｔｅｒ」に加える場合を説明する図である。日付を表す行との組み合わせに基づいて、集約する行を決定する場合を説明する図である。特徴量表示ユーザーインターフェースを示す図である。「直近３０日の総来店日数」が選択された場合の特徴量表示ユーザーインターフェースを示す図である。詳細メニューから「値の平均値を比較」を選択した場合の特徴量表示ユーザーインターフェースを示す図である。比較表が表示された特徴量表示ユーザーインターフェースを示す図である。予測精度比較グラフが表示された特徴量表示ユーザーインターフェースを示す図である。「最終来店日からの経過日数」が選択された場合の特徴量表示ユーザーインターフェースを示す図である。影響度比較グラフが表示された特徴量表示ユーザーインターフェースを示す図である。詳細メニューから「特徴量の寄与度を比較」を選択した場合の特徴量表示ユーザーインターフェースを示す図である。寄与度表示グラフが表示された特徴量表示ユーザーインターフェースを示す図である。寄与度の計算方法を説明する図である。特徴量の「性別」を選択した場合に表示される特徴量表示ユーザーインターフェースを示す図である。差分の説明グラフが表示された特徴量表示ユーザーインターフェースを示す図である。特徴量の寄与度の変化に関するグラフが表示された特徴量表示ユーザーインターフェースを示す図である。

以下、本発明の実施形態を図面に基づいて詳細に説明する。尚、以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用物或いはその用途を制限することを意図するものではない。

図１は、本発明の実施形態に係るデータ分析装置１の概略構成を示す図であり、図２は、データ分析装置１のブロック図である。このデータ分析装置１は、分析対象データを分析する装置であり、このデータ分析装置１を使用することで、本発明に係るデータ分析方法を実行することができる。データ分析装置１及びデータ分析方法は、例えば、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングを行う際に使用することができる。
（データ分析手順）
図３に示すフローチャートに基づいて、一般的なデータ分析の手順について説明する。開始後、ステップＳＡ１では前処理ステップを実行する。前処理ステップでは、分析に必要なデータ、すなわち分析対象データを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はＥＴＬ：Ｅｘｔｒａｃｔ／Ｔｒａｎｓｆｏｒｍ／Ｌｏａｄと呼ばれている。ステップＳＡ２では特徴抽出ステップを実行する。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。ステップＳＡ３ではモデル学習ステップを実行する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。ステップＳＡ４では後処理ステップを実行する。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。

（データ分析装置１の全体構成）
図１及び図２に示すように、データ分析装置１は、装置本体２と、モニタ３と、キーボード４と、マウス５とを備えており、モニタ３、キーボード４及びマウス５は、装置本体２に接続されている。例えば汎用のパーソナルコンピュータに、後述する制御内容を実行するプログラムをインストールすることによってデータ分析装置１とすることができ、また、前記プログラムがインストールされた専用のハードウェアでデータ分析装置１を構成することもできる。装置本体２とモニタ３とは一体化されていてもよいし、装置本体２の一部がモニタ３に内蔵されていてもよい。

データ分析装置１は、通信モジュール（図示せず）を内蔵しており、外部との通信が可能に構成されている。これにより、インターネット回線を介して外部サーバーからのデータのダウンロードが可能になる。

また、キーボード４及びマウス５は、データ分析装置１を操作する操作手段であるとともに、各種情報を入力する入力手段、選択操作を行う選択手段等でもある。キーボード４及びマウス５に加えて、またはキーボード４及びマウス５に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。

（モニタ３の構成）
図１に示すモニタ３は、たとえば有機ＥＬディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ３と、図２に示す表示制御部３ａとを合わせて表示部と呼ぶこともできる。表示制御部３ａは、モニタ３に内蔵されていてもよいし、装置本体１０に内蔵されていてもよい。表示制御部３ａは、モニタ３に対して画像を表示させる表示用ＤＳＰなどから構成される。表示制御部３ａには、画像を表示させる際に画像データを一時記憶するＶＲＡＭなどのビデオメモリが含まれていてもよい。表示制御部３ａは、後述する主制御部１１のＣＰＵ１１ａから送られてきた表示指令（表示コマンド）に基づいて、モニタ３に対して所定の画像を表示させるための制御信号を送信する。たとえば、各種ユーザーインターフェースやアイコン、キーボード４やマウス５を用いた使用者の操作内容をモニタ３に表示させるための制御信号も送信する。また、マウス５で操作可能なポインタ等もモニタ３に表示することができるようになっている。

モニタ３をタッチ操作パネル型モニタとすることで、モニタ３に各種情報の入力機能を持たせることができる。

（装置本体２の全体構成）
図１に示す装置本体２は、制御ユニット１０と、記憶部３０とを備えている。記憶部３０は、ハードディスクドライブ、ソリッドステートドライブ（ＳＳＤ）等で構成されている。記憶部３０は、制御ユニット１０に接続されており、制御ユニット１０によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。

（制御ユニット１０）
制御ユニット１０は、具体的に図示しないが、ＭＰＵ、システムＬＳＩ、ＤＳＰや専用ハードウェア等で構成することができる。制御ユニット１０は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。

図２に示すように、制御ユニット１０は、主制御部１１と、データ入力部１２と、予測モデル生成部１３と、重要度算出部１４と、クラスター選択部１５と、表示図生成部１６と、説明文自動生成部１８とを備えている。制御ユニット１０の各部は、上述したように分けて記載しているが、同じ部分が複数種の処理を実行するように構成してもよいし、更に細かく分けてこれらを連携させて１つの処理を実行するように構成してもよい。

上記各ハードウェアは、バスなどの電気的な通信路（配線）を介し、双方向通信可能または一方向通信可能に接続されている。

主制御部１１は、各種プログラムに基づき数値計算や情報処理を行うとともに、ハードウェア各部の制御を行う。主制御部１１は、中央演算処理装置として機能するＣＰＵ１１ａと、主制御部１１が各種プログラムを実行する際のワークエリアとして機能するＲＡＭ等のワークメモリ１１ｂと、起動プログラムや初期化プログラム等が格納されたＲＯＭ、フラッシュＲＯＭまたはＥＥＰＲＯＭ等のプログラムメモリ１１ｃとを備えている。

データ入力部１２は、複数の特徴量と目的変数とを含む分析対象データの入力を受け付ける部分であり、図５に示すデータ入力用ユーザーインターフェース５０をモニタ３に表示させるとともに、データ入力用ユーザーインターフェース５０上でなされた使用者の操作を受け付ける。使用者の操作とは、キーボード４の操作や、マウス５の操作（ボタンクリック、ドラッグ＆ドロップ、ホイールの回転等を含む）がある。

ここで、分析対象データは、複数の特徴量と目的変数とを含むデータであるが、複数の特徴量は、分析対象データにもともと存在しているもの（既存特徴量）、使用者が気付いていなくて分析対象データに暗に含まれているもの（潜在的特徴量）、新たに生成したもの（新たな特徴量）等のいずれか１種または複数種を含むデータであればよい。分析対象データの一部が欠損していてもよく、その場合は、後述するように欠損した項目を埋める作業を行えばよい。

図５に示すデータ入力用ユーザーインターフェース５０には、ファイル選択ボタン５０ａと、データベース選択ボタン５０ｂと、ＵＲＬ指定ボタン５０ｃと、データベース表示領域５０ｄと、読み込み開始ボタン５０ｅとが設けられている。各ボタンの配置は自由に設定できる。

例えば、分析対象データを格納したファイルが外部記憶装置や記憶部３０に保存されていて、デスクトップ上や、開いた状態のフォルダにある場合には、使用者が当該ファイルをデータベース表示領域５０ｄへドラッグ＆ドロップ操作する。これにより、分析対象データを格納したファイル名がデータベース表示領域５０ｄに表示される。その後、読み込み開始ボタン５０ｅを押すと、データベース表示領域５０ｄに表示されているファイルが記憶部３０の所定領域に読み込まれて保存される。

分析対象データがデータベース上にある場合には、使用者がデータベース選択ボタン５０ｂを押す。データベース選択ボタン５０ｂが押されると、データベースに接続するための設定画面（図示せず）を表示し、テーブル名の入力や必要に応じてパスワードの入力を使用者に促す。その後、読み込み開始ボタン５０ｅを押すと、分析対象データが所定のファイル形式で記憶部３０の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域５０ｄに表示される。

分析対象データがインターネットやサーバー上にある場合には、使用者がＵＲＬ指定ボタン５０ｃを押す。ＵＲＬ指定ボタン５０ｃが押されると、ＵＲＬ入力画面（図示せず）を表示し、ＵＲＬの入力を使用者に促す。その後、読み込み開始ボタン５０ｅを押すと、分析対象データがダウンロードされて所定のファイル形式で記憶部３０の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域５０ｄに表示される。

分析対象データを格納したファイルは、１つのみであってもよいし、複数であってもよい。この図５では、「ｔｒａｎｓａｃｔｉｏｎ」、「ｍａｓｔｅｒ」の２つのファイルにそれぞれ格納されている分析対象データを読み込んだ場合を示している。上述した３つの方法以外の方法でファイルを読み込んでもよい。上記ファイル形式は、ｃｓｖ形式であるが、これ以外の形式であってもよい。

図６は、「ｍａｓｔｅｒ」と「ｔｒａｎｓａｃｔｉｏｎ」にそれぞれ格納されている分析対象データを示している。この例では、「ｍａｓｔｅｒ」が顧客情報であり、顧客ＩＤに対応付けられて年齢及び性別が記録されているとともに、顧客ＩＤに対応付けられて、当該顧客が離反した顧客かどうかが「離反」列に記録されている。「離反」とは、一度来店したが、その後、来店しなくなったことである。「離反」列に「１」と記録されている顧客は離反した顧客であり、「０」と記録されている顧客は離反していない顧客である。

「ｔｒａｎｓａｃｔｉｏｎ」には、個々の購買履歴が記録されており、「顧客ＩＤ」列で、「ｍａｓｔｅｒ」と行ごとの対応関係が紐づけられている。「ｔｒａｎｓａｃｔｉｏｎ」には、顧客ＩＤに対応付けられて購入日、カテゴリ及び価格が記録されている。尚、上述したデータは本発明の説明のために用意した例であり、本発明の適用範囲を限定するものではない。本発明は、購買履歴データ以外にも、様々な分析対象データを分析することができるものである。

分析対象データの読み込みが完了すると、図７に示すデータフロー表示ユーザーインターフェース５１をモニタ３に表示させるとともに、データフロー表示ユーザーインターフェース５１上でなされた使用者の操作を受け付ける。データフロー表示ユーザーインターフェース５１には、データフロー表示領域５１ａと、下部表示領域５１ｂと、特徴量自動生成ボタン５１ｃと、データ加工ボタン５１ｄと、データ出力ボタン５１ｅとが設けられている。

データフロー表示領域５１ａには、読み込んだ分析対象データがアイコンとして表示される。下部表示領域５１ｂには、読み込んだ分析対象データ同士の関係図（一般的にＥＲ図と呼ばれる）が表示される。図２に示すデータ入力部１２は、読み込んだ複数の分析対象データで共通の列が存在するか否かを検出する。共通の列が存在するか否かは、例えば列の名称に基づいて判定できる。この例では、図６に示すように「ｍａｓｔｅｒ」及び「ｔｒａｎｓａｃｔｉｏｎ」の両方に「顧客ＩＤ」という名称の列が存在することから、このことをデータ入力部１２が検出する。すると、データ入力部１２は、「ｍａｓｔｅｒ」の「顧客ＩＤ」と、「ｔｒａｎｓａｃｔｉｏｎ」の「顧客ＩＤ」とが関連していると判断し、図７に示すように下部表示領域５１ｂに表示される関係図において、「ｍａｓｔｅｒ」の「顧客ＩＤ」と、「ｔｒａｎｓａｃｔｉｏｎ」の「顧客ＩＤ」と線で結んで表示する。

以上の処理が、分析対象データの入力を受け付ける処理であり、データ入力部１２で行われる。データ入力部１２は、キーボード４やマウス５等の入力装置を含んでいてもよい。また、以上の処理は、図４に示すフローチャートにおけるステップＳＢ１のデータ入力ステップに相当する。

ステップＳＢ１に続くステップＳＢ２では、データ入力ステップで入力された分析対象データを加工する。まず、図７に示すデータフロー表示ユーザーインターフェース５１のデータフロー表示領域５１ａに表示されている分析対象データのうち、加工したいデータを選択する。データの選択操作は、例えば、加工したいデータに対応するアイコンをクリックする操作を挙げることができる。アイコンをクリックすると、下部表示領域５１ｂの関係図が消去されて、図８に示すように、選択した分析対象データが下部表示領域５１ｂに表示される。このとき、下部表示領域５１ｂには、選択した分析対象データの一部のみをプレビュー表示することができる。

「ｔｒａｎｓａｃｔｉｏｎ」をプレビュー表示して見ると、「カテゴリ」列に「日配品」、「日配品Ａ」という文言が混在している。「日配品」と「日配品Ａ」は、値が互いに異なることになるため、後述するモデル学習時にはこれらは異なるカテゴリとして扱われるが、データ分析上、同一として扱いたいのであれば、これらの表記ゆれを統一する方がより高い精度が得られる。これをデータ加工という。

データ加工を行う際には、図８に示すデータフロー表示ユーザーインターフェース５１のデータ加工ボタン５１ｄを押す。データ加工ボタン５１ｄが押されると、図９に示すデータ加工ユーザーインターフェース５２をモニタ３に表示させるとともに、データ加工ユーザーインターフェース５２上でなされた使用者の操作を受け付ける。データ加工ユーザーインターフェース５２には、加工対象データ表示領域５２ａと、欠損値除去・穴埋めボタン５２ｂと、データ置き換えボタン５２ｃと、列削除ボタン５２ｄと、列追加ボタン５２ｅと、数式入力ボタン５２ｆと、列情報表示ボタン５２ｇと、終了ボタン５２ｈとが設けられている。加工対象データ表示領域５２ａには、選択した分析対象データが表形式で表示される。表示されている表が大きい場合にはスクロールすることもできる。

欠損値除去・穴埋めボタン５２ｂは、分析対象データの欠損値の除去、及び分析対象データの穴埋めをする際に操作するボタンである。欠損値除去・穴埋めボタン５２ｂを操作することで、任意の欠損値を除去したり、欠損した項目を追加することができる。データ置き換えボタン５２ｃは、既存の値を別の値に置き換える際に操作するボタンである。例えば、「カテゴリ」列の「日配品Ａ」のセルを選択してデータ置き換えボタン５２ｃを押し、置き換え文字（値）として「日配品」と入力することで、同じ列の「日配品Ａ」という値が「日配品」という値に自動的に置き換わる。列削除ボタン５２ｄは、任意の列を削除する際に操作するボタンである。任意の列を選択した後、列削除ボタン５２ｄを押すことで選択された列が削除される。列追加ボタン５２ｅは任意の列を追加する際に操作するボタンである。表の任意の列を選択した後、列追加ボタン５２ｅを押すことで選択された列の前後いずれかに列が追加される。数式入力ボタン５２ｆは、セルに数式を入力するためのボタンである。数式入力ボタン５２ｆの操作によって入力された数式によって演算された値になる。列情報表示ボタン５２ｇは、任意の列に所定の情報を追加するためのボタンである。

欠損値除去・穴埋めボタン５２ｂ、データ置き換えボタン５２ｃ、列削除ボタン５２ｄ、列追加ボタン５２ｅ、数式入力ボタン５２ｆ、列情報表示ボタン５２ｇを操作して分析対象データを加工することができる。従って、データ分析装置１ではＥＴＬ処理を行うことができ、ＥＴＬ処理を行うことで分析対象データを分析により適した形に変形することができる。これにより、分析結果の精度をより一層高めることができる。一連の操作が終了したら、図９に示すデータ加工ユーザーインターフェース５２の終了ボタン５２ｈを押す。

終了ボタン５２ｈが押されると、図１０に示すように、データフロー表示ユーザーインターフェース５１が再び表示される。データフロー表示ユーザーインターフェース５１のデータフロー表示領域５１ａには、新たなアイコン「ｔｒａｎｓａｃｔｉｏｎ－１」が表示される。この「ｔｒａｎｓａｃｔｉｏｎ－１」は、「ｔｒａｎｓａｃｔｉｏｎ」を加工した後の分析対象データであり、「ｔｒａｎｓａｃｔｉｏｎ－１」と「ｔｒａｎｓａｃｔｉｏｎ」とが関連線によって結ばれており、関係性をグラフィカルに表示している。よって、使用者は、「ｔｒａｎｓａｃｔｉｏｎ－１」が「ｔｒａｎｓａｃｔｉｏｎ」の加工後データであること、及び「ｔｒａｎｓａｃｔｉｏｎ－１」は加工処理が行われたものであることを直観的に把握できる。以上の一連のＥＴＬ処理が図４に示すフローチャートのステップＳＢ２のデータ加工処理である。

一連のＥＴＬ処理が終了すると、図４に示すフローチャートのステップＳＢ３の特徴量生成に関する設定を入力するステップに進む。図１０に示すデータフロー表示ユーザーインターフェース５１の特徴量自動生成ボタン５１ｃを押すと、図１１に示す特徴量自動生成ユーザーインターフェース５３をモニタ３に表示させるとともに、特徴量自動生成ユーザーインターフェース５３上でなされた使用者の操作を受け付ける。

特徴量自動生成ユーザーインターフェース５３には、データフロー表示領域５３ａと、下部表示領域５３ｂと、関係性指定領域５３ｃと、目的変数指定領域５３ｄと、詳細設定領域５３ｅと、実行ボタン５３ｆとが設けられている。データフロー表示領域５３ａは、例えば図１０に示すデータフロー表示ユーザーインターフェース５１のデータフロー表示領域５１ａと同様にデータフローが表示される。下部表示領域５３ｂには、図７に示すデータフロー表示ユーザーインターフェース５１の下部表示領域５１ｂと同様に、分析対象データ同士の関係図が表示される。

図１１に示す関係性指定領域５３ｃは、複数の分析対象データ間での対応関係を指定するための領域である。ここでは、「ｔｒａｎｓａｃｔｉｏｎ－１」と「ｍａｓｔｅｒ」との対応関係を指定する。一例として、上述したように「ｔｒａｎｓａｃｔｉｏｎ－１」の「顧客ＩＤ」と「ｍａｓｔｅｒ」の「顧客ＩＤ」とが対応した関係にあるので、「ｔｒａｎｓａｃｔｉｏｎ－１」の「顧客ＩＤ」と「ｍａｓｔｅｒ」の「顧客ＩＤ」とを対応関係として指定しているが、これに限らず、「ｔｒａｎｓａｃｔｉｏｎ－１」の任意の列と、「ｍａｓｔｅｒ」の任意の列とが対応関係にあるとして指定することもでき、両者の名前が一致している必要はない。

関係性の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、関係図上でドラッグ操作して線を引くことで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。尚、データが１つしか無い場合には、分析対象データ間での対応関係は指定しない。

関係性指定領域５３ｃの下部には、パーセント表示されている数値がある。この数値は、指定した列によって全体の何割の行が２つの分析対象データ間で対応しているのかを示している。例えば、図１２に一例を示すように、第１分析対象データの「ＩＤ」列に「１」、「２」、「３」、「４」が１つずつ存在していて、第２分析対象データの「ＩＤ」列に「１」が３つ、「３」が１つ、「５」が１つ存在しているとすると、第１分析対象データの「１」が第２分析対象データの「１」にそれぞれ対応し、第１分析対象データの「３」が第２分析対象データの「３」に対応し、それ以外のＩＤは対応しないことになる。この場合、第１分析対象データでは５０％（２／４行）、第２分析対象データでは８０％（４／５行）が「ＩＤ」列で対応していることになり、全体としては６／９行、つまり、約６７％で対応しているということになる。このような計算を行い、計算結果を関係性指定領域５３ｃの下部に表示する。

目的変数指定領域５３ｄは、分析対象となる目的変数を指定するための領域である。目的変数を指定することで、集約先のテーブルを決定することができる。ここでは顧客が離反するかどうかを分析するため、「ｍａｓｔｅｒ」の「離反」列を目的変数として指定している。従って、「ｔｒａｎｓａｃｔｉｏｎ－１」の特徴量を集約し、「ｍａｓｔｅｒ」の新たな特徴量として加えることができる。目的変数の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、リストからドラッグ操作することで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。また、データ分析装置１は、目的変数が指定されると、目標変数として指定されたことを表すフラグを内部に設定する。このフラグを設定することで、後述する特徴量を目的変数自身から生成しないようにしている。

以上の一連の処理が図４に示すフローチャートのステップＳＢ３の特徴量生成に関する設定を入力する処理である。

続くステップＳＢ４では、特徴量を生成する処理を実行する。この処理は、特徴量自動生成ユーザーインターフェース５３の実行ボタン５３ｆを押すことで開始される。

すなわち、ステップＳＢ１、２で複数の分析対象データを指定し、ステップＳＢ３で複数の分析対象データ関係性を指定した場合の特徴量の生成方法としては、例えば、AJ Knobbe, "Propositionalisation and Aggregates", 2001 に記載されている技術を使うことができる。図１３に示す例は、「ｔｒａｎｓａｃｔｉｏｎ」の「価格」の列について合計を計算し、「ｍａｓｔｅｒ」の特徴量として加える場合である。「ｔｒａｎｓａｃｔｉｏｎ」の「顧客ＩＤ」が「１」の購買履歴を抽出し、「価格」の値を合計して購入金額の合計値を得る。「ｍａｓｔｅｒ」には、「合計の購入金額」の列を生成し、「顧客ＩＤ」が「１」の「合計の購入金額」の列に合計値を自動入力する。これは、「ｍａｓｔｅｒ」と「ｔｒａｎｓａｃｔｉｏｎ」の間の行の対応関係が「顧客ＩＤ」列によって紐づけられていることから可能になる。

集約する行は、例えば日付を表す行との組み合わせに基づいて決定してもよい。例えば、図１４に示すように、「ｔｒａｎｓａｃｔｉｏｎ」の「顧客ＩＤ」が「１」の購買履歴を抽出し、２０１８年２月１日を起点として直近１０日以内の「価格」の値を合計する。「ｍａｓｔｅｒ」には、「直近１０日以内の購入金額」の列を生成し、「顧客ＩＤ」が「１」の「直近１０日以内の購入金額」の列に、直近１０日以内の「価格」の合計値を自動入力する。全ての顧客ＩＤについて同様な処理を行うことができる。

分析対象データが時系列データの場合、このように集計期間を、例えば１０日、２０日、３０日と切り替えることができるように構成されている。集計期間を切り替えることで、同一の集約関数であっても様々な種類の特徴量を生成することができる。期間の単位は、秒、分、時、月、年のいずれであってもよい。例えば、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割するように構成することもできる。分析対象データの全集計期間が３０日間の場合、０～１０日、１１日～２０日、２１日～３０日のように分割することができる。この集計期間の分割は、後述する派生図生成部１６ｂが派生図を生成する際に行うように構成できる。

特徴量を生成した後、目的変数の予測に対する重要度を、各特徴量に対して評価する。目的変数の予測は、図２に示す予測モデル生成部１３によって実行される。これが予測モデル生成ステップである。予測モデル生成部１３は、複数の特徴量から目的変数を予測するための予測モデルを生成する。予測モデルは、例えば重回帰分析や決定木によって作ることができる。その生成手法については様々あるが、いずれも従来から知られた手法を用いることができる。

予測モデルを生成した後、複数の特徴量それぞれに対して予測モデルによる予測に対する重要度を算出する。これは図２に示す重要度算出部１４によって実行される処理であり、重要度算出ステップである。特徴量の重要度はFeature Importanceという名前で知られており、種々の計算方法が提案されており、いずれの計算方法を用いてもよい。例えば、以下の式（１）で表される線形重回帰モデルにおいて、各特徴量ｘ１，ｘ２，…に対する係数ａ１，ａ２，…を求め、その絶対値を重要度の値として使ってもよい。

ｙ＝ａ１ｘ１＋ａ２ｘ２＋…＋ａｎｘｎ・・・（１）
あるいは、係数をそのまま使うのではなく、各特徴量ｘ１，ｘ２，…の大きさが揃うように補正した正規化係数を重要度に用いてもよい。

このような重要度の分析を行った後、重要度が上位のものを制御ユニット１０が抽出する。このとき、先ほどの集計期間が異なる特徴量については、複数の特徴量が重要度の上位に入る場合でも、最も重要なものだけを残して他は削除する。これは、例えば「直近３０日の購入金額」、「直近２０日の購入金額」、「直近１０日の購入金額」が同時に特徴量の上位に入った場合、それを使用者にそのまま提示すると、ほぼ同じ意味を持った特徴量が重複して表示されることになるため使用者にとって分かりにくくなる。また、上位を、同じ意味を持った特徴量が占めてしまうと、それ以外の有効な特徴量が上位から追い出されてしまうことになり、有効な知見が得られにくくなるからである。

「上位」に入る数としては、例えば２以上、５以上、１０以上、２０以上とすることができる。「上位」に入る数は、制御ユニット１０が自動的に設定してもよいし、使用者が任意の数に設定してもよい。

以上の一連の処理が図４に示すフローチャートのステップＳＢ４の特徴量の生成処理である。特徴量の生成が完了するとステップＳＢ５に進む。ステップＳＢ５は、ステップＳＢ４で生成した特徴量の情報を出力するステップである。

特徴量の生成が完了して上位の特徴量が抽出されると、図１５に示す特徴量表示ユーザーインターフェース６０をモニタ３に表示させるとともに、特徴量表示ユーザーインターフェース６０上でなされた使用者の操作を受け付ける。

特徴量表示ユーザーインターフェース６０には、特徴量表示領域６０ａと、詳細情報表示領域６０ｂとが設けられている。特徴量表示領域６０ａと詳細情報表示領域６０ｂとはモニタ３の左右に並ぶように配置することができる。特徴量表示領域６０ａには、上位の特徴量が表示される。つまり、モニタ５は、重要度算出部１４により算出された重要度に基づき、上位の重要度を有する特徴量を表示するものである。このステップが特徴量表示ステップである。

モニタ５は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示する、すなわち、ランキング表示するように構成されている。この例では、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されており、最上位の重要度を有する特徴量が最も上に位置し、最上位の重要度未満の複数の特徴量は、重要度の大きさによって降順に配置される。特徴量は、昇順に配置してもよいし、左右方向に並ぶように配置してもよい。特徴量表示領域６０ａに表示する特徴量は所定数であればよく、その数は特に限定されない。

特徴量表示領域６０ａには、特徴量の名称が表示される名称表示部６０ｃと、重要度が表示される重要度表示部６０ｄとが設けられている。名称表示部６０ｃには、「ｔｒａｎｓａｃｔｉｏｎ」、「ｍａｓｔｅｒ」に存在していた特徴量の名称が表示されるようになっている。「ｔｒａｎｓａｃｔｉｏｎ」、「ｍａｓｔｅｒ」に存在していた特徴量の名称はそのまま名称表示部６０ｃに表示することができるが、使用者が変更できるようにしてもよい。

重要度表示部６０ｄには、棒グラフ形式で各特徴量の横に並ぶように、重要度が表示される。棒グラフ形式で表示する場合、長ければ長いほど重要度が高いとすることができる。重要度表示部６０ｄには、各種グラフ形式以外にも重量度を数値で表示してもよいし、数値とグラフとを同時に表示してもよい。

特徴量表示領域６０ａには、特徴量追加ボタン６０ｆが設けられている。特徴量追加ボタン６０ｆを押すと、特徴量表示領域６０ａに表示されている以外の特徴量が表示され、表示された特徴量の中から使用者が特徴量表示領域６０ａに表示したい特徴量を選択することができるようになっている。選択された特徴量は、特徴量表示領域６０ａに表示される。尚、特徴量表示領域６０ａに表示されている特徴量で不要だと思われる特徴量を削除する、非表示にする等も可能に構成されている。

（制御ユニット１０の詳細動作）
図１５に示す特徴量表示ユーザーインターフェース６０の特徴量表示領域６０ａに表示されている特徴量は使用者によって選択することができる。マウス５等を使用して、どの特徴量を選択するか使用者が入力操作を行うと、図１６に示すように、特徴量表示ユーザーインターフェース６０の詳細情報表示領域６０ｂに第１基本図７０が表示される。第１基本図７０は、図２に示す表示図生成部１６の基本図生成部１６ａが生成する。この処理が基本図生成ステップである。つまり、基本図生成部１６ａは、モニタ３に表示された特徴量の中から使用者の入力に応じて選択された第１の特徴量と、目的変数との関係を示す基本図を生成する部分である。第１の特徴量とは、上記使用者が選択した特徴量のことであり、図１６に示す例では、「直近３０日の総来店日数」である。使用者が選択した特徴量は強調表示されて他の特徴量との識別が容易になっている。また、第１基本図７０は、使用者の入力に応じて選択された特徴量の値に基づいて分析対象データを複数のクラスターに分割しており、各クラスターと、各クラスターの目的変数の代表値との関係を示す図となっている。

以下、第１基本図７０について詳細に説明する。第１基本図７０は、上側領域７１と、中間領域７２と、下側領域７３の３つの領域に分けることができる。上側領域７１には、縦軸を離反の割合とし、横軸を直近３０日の総来店日数とした折れ線グラフが表示される。離反の割合とは、一度来店したが、その後、来店しなくなった顧客の割合である。横軸では、０日～３０日までを６つの期間（区間）に分割して表示している。折れ線グラフでは、選択した特徴量と、目的変数（離反）との関係性が表示されている。

中間領域７２には、縦軸をデータ数とし、横軸を直近３０日の総来店日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域７１に表示されている折れ線グラフの横軸と共有されている。この棒グラフでは、各区間に存在するデータの数が表現されており、度数分布表となっている。すなわち、制御ユニット１０は、第１の特徴量の値に基づいて分析対象データを複数の期間に分割してクラスターを形成し、各クラスターに属する分析対象データの数を示すデータ数表示グラフを生成するように構成されている。そして、モニタ３は、生成されたデータ数表示グラフを表示可能に構成されている。

上側領域７１の折れ線グラフと、中間領域７２の棒グラフとから、「直近３０日の総来店日数が多いほど、離反＝１のデータの割合が低下する」、「総来店日数が２１日～２５日の場合に離反＝１の割合が最小となるが、該当するデータ数は少ない」といった傾向を読み取ることができる。

さらに、制御ユニット１０は、離反＝１の割合の平均値を算出する。平均値は全データの平均値とすることができ、この例では２１％である。さらに、全体の平均値（２１％）と比べて、目的変数の平均値に有意差があると判定された区間では、系列が強調表示され、さらに説明文がグラフ下部、すなわち、下側領域７３に付加される。

有意差が無い場合には強調表示はされない。「有意差が無い」とは、データのバラつきやデータの数などを考慮した上で、その区間の代表値が比較対象の区間の代表値に対して十分な差を持っていると言えない場合のことを指す。また、強調表示とは、例えば、文字を太くする、文字の色の他の文字の色と変える、文字の背景に色を付ける等、他の文字と区別することができる表示である。

説明文は、選択された第１の特徴量と目的変数との関係を説明する文であり、図２に示す説明文自動生成部１８によって自動的に生成される。説明文自動生成部１８は、例えば、データ入力部１２で受け付けた分析対象データの名称や、特徴量の名称、特徴量の相対差、データ数等に基づいて、選択された第１の特徴量が目的変数に与える影響の度合い等を説明する文を生成することができる。これにより、使用者が特徴量と目的変数との関係を把握し易くなるとともに、使用者がコメントを作成する手間を省くことができる。

ここで、有意差の判定について説明する。有意差の判定には、統計で一般に使用されるp値やt検定といった指標を使うことができる。例えばt検定は以下の式１で計算される。ｘ，ｓは注目する系列での目的値の平均と標準偏差、μは目的値の全体平均、ｎは系列のデータ数である。この値が大きいほど、差が有意であると判定できる。

これらの指標を使うことで、単純に全体平均からの乖離の度合を見るだけでなく、データの量や個々のデータのバラつきを加味することができるので、偶然大きな乖離が生じているのか、意味のある差が生じているのかを区別することができる。

この統計検定を用いた強調表示によって、使用者はデータから真に意味のある場所に着目することができ、自動生成された特徴量から素早く有用な知見を得ることができる。

上側領域７１に表示されたグラフの中から任意の区間を選択すると、図１７に示すように詳細メニュー７４が表示される。詳細メニュー７４は、選択した区間に含まれるデータと、全体の傾向とを比較するためのメニューであり、メニュー選択に応じてさらに詳細な情報を表示することができる。詳細メニュー７４には、「値の平均値を比較」、「特徴量の寄与度を比較」及び「差分の説明を計算」の３つのメニューが含まれている。

図１７に示すように、例えば、「直近３０日の総来店日数～５日」の区間に対して、「値の平均値を比較」というメニューを選択すると、図１８に示すように、選択した区間のデータと全データのそれぞれについて、各特徴量の平均値を比較した比較表７５が表示される。

詳しくは、使用者が図１６に示す第１基本図７０に示された複数のクラスターから、いずれか１つのクラスターを選択する操作（クリック操作等）を行うと、この操作が図２に示すクラスター選択部１５によって受け付けられる。この処理がクラスター選択ステップである。図２に示す比較図生成部１６ｃは、クラスター選択部１５により選択が受け付けられた後、選択されたクラスターにおいて、目的変数の予測に寄与する特徴量と、全クラスターまたはクラスター選択部１５により選択されていない選択外のクラスターにおいて、目的変数の予測に寄与する特徴量との比較を示す比較表７５（図１８に示す）を生成する。この処理が比較図生成ステップである。

詳細は後述するが、比較図生成部１６ｃは、クラスター選択部１５により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す比較図を生成するように構成することもできる。また、比較図生成部１６ｃは、上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す比較図を生成するように構成することもできる。さらに、比較図生成部１６ｃは、分析対象データの値が存在していない欠損クラスターにおいて、目的変数の予測に寄与する特徴量を示す比較図を生成するように構成することもできる。

比較表７５は、比較図であり、表形式以外にもグラフを表示した比較図であってもよい。そして、モニタ３は、第１基本図７０と比較表７５と同時または別々に表示可能に構成されており、第１基本図７０と、比較表７５とを同時または別々に表示する比較図表示ステップを実行することができる。

比較表７５には、重要度が高くないものを含む全ての特徴量の中から、平均値の乖離が有意に大きいものだけを表示している。ここでの有意性の判定にも、先ほどと同様にp値やt検定を使うことができる。

比較表７５に表示する特徴量を使用者が選択可能に構成することもできる。比較表７５の下部には、特徴量追加ボタン７５ａが設けられている。特徴量追加ボタン７５ａを押すと、任意の特徴量を比較軸として追加することができる。比較表７５に表示する特徴量を使用者が削除可能に構成することもできる。

この例では比較表７５に平均値を表示しているが、例えば、分散、中央値、最小値など、平均値以外の統計量を表示してもよい。

これによって、ある特徴量を切り口として興味深いデータ群(本例なら離反率が高い顧客群)が見つかったときに、そのデータ群に固有の性質が何なのかを詳細に掘り下げることができ、その結果、新たな知見を得ることができる。

さらに、比較や分析の軸となる特徴量は自動的に生成されているため、例えば「直近３０日の総来店日数が少ない顧客では、野菜と日配品の購入額が特に小さい」といった、熟練の分析者でなければ気づきにくい、深い知見を容易に得ることができる。

また、特徴量を選択した際に表示されるグラフは、目的変数との関係に加えて、それ以外のグラフを１つ以上含んでいてもよい。例えば、「直近３０日の総来店日数」を指定した場合に、図１９に示すように、２つ目のグラフとして「３０日以外の期間で集計した場合との精度の比較」に関する予測精度比較グラフ７６を表示することができる。予測精度比較グラフ７６は、図１８に示す第１基本図７０の下に位置しており、従って第１基本図７０が詳細情報表示領域６０ｂに表示された状態から縦スクロールバー６０ｅを操作して下スクロールすることで、予測精度比較グラフ７６を表示することができる。第１基本図７０と予測精度比較グラフ７６とは同時に表示できるようにしてもよい。以上のようにして、第１基本図７０と予測精度比較グラフ７６とを同時にまたは別々に表示する派生図表示ステップを実行することができる。

図１９に示す予測精度比較グラフ７６は、第３の派生図と呼ぶこともできる。第３の派生図は、第１の特徴量（本例では「直近３０日の総来店日数」）に基づいて生成された予測モデルの精度と、第１の特徴量と同一カテゴリーに属し、且つ第１の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す図である。「集計期間が異なる」ことは、予測精度比較グラフ７６の横軸に示しており、具体的には「１０日」、「２０日」、…という表示である。この第３の派生図は、図２に示す派生図生成部１６ｂによって生成される。この処理が派生図生成ステップである。これら直近１０日の総来店日数、直近２０日の総来店日数、直近３０日の総来店日数は、「総来店日数」という同一のカテゴリーに属する。

派生図生成部１６ｂが第３の派生図を生成する場合には、第１の特徴量と同一カテゴリーに属し、集計期間が異なる別の特徴量に基づいて予測された予測モデルの精度を、第１の特徴量に基づいて生成された予測モデルの精度と比較することができる。これにより、使用者が各予測モデルの精度の相対差を把握した上で、どの予測モデルを使用して分析を行えば精度が高まるか、容易に判断可能になる。

また、派生図生成部１６ｂは、第３の派生図の生成時に、複数の別の特徴量に基づいてそれぞれ生成された各予測モデルの精度と、第１の特徴量に基づいて生成された予測モデルの精度とを比較可能に表現する図を生成する。さらに、派生図生成部１６ｂは、第３の派生図の生成時に、別の特徴量として、所定以上の重要度を有する特徴量に基づいて生成された予測モデルの精度と、第１の特徴量に基づいて生成された予測モデルの精度とを比較可能にする図を生成する。具体的には、グラフであるが、その他にも数値で比較可能な図であってもよい。

例えば時間や日数で集計される特徴量については、上述したように、集計期間が異なる特徴量を複数パターン生成し、その中で最適なものを１つ自動的に選択するように構成されている。図１９では、選択されなかった集計期間との精度差を相対値で提示することで、「別の集計期間での総来店日数を特徴量として使うとどうなっていたか」を示すことができる。

精度としては、データ分析で一般的に使用されるＦ値、ＡＵＣなどを使う。精度は絶対値でもよく、処理時間やデータ量など、精度以外の観点を組み合わせた指標でもよい。これによって、「なぜ２０日でも４０日でもなく、３０日の総来店日数が出力されたのか？」と考えるユーザーに対して、より納得感を持たせることができる。また、「精度があまり変わらないのであれば集計するデータ量をなるべく少なくしたい」という要望に対して、データ量の影響度合いを提示することで判断基準を提供できる。

図２０は、特徴量表示ユーザーインターフェース６０の特徴量表示領域６０ａに表示されている特徴量のうち、「最終来店日からの経過日数」を選択した場合を示している。特徴量表示ユーザーインターフェース６０の詳細情報表示領域６０ｂに第２基本図７７が表示される。第２基本図７７は、図２に示す表示図生成部１６の基本図生成部１６ａが生成したものであり、この処理が基本図生成ステップである。つまり、基本図生成部１６ａは、モニタ３に表示された特徴量の中から使用者の入力に応じて選択された第１の特徴量と、目的変数との関係を示す基本図を生成しており、第１の特徴量とは、図２０に示す例では、「最終来店日からの経過日数」である。

第２基本図７７は、上側領域７７ａと、中間領域７７ｂと、下側領域７７ｃの３つの領域に分けることができる。上側領域７７ａには、縦軸を離反の割合とし、横軸を最終来店日からの経過日数とした折れ線グラフが表示される。横軸では、０日～３０日までを６つの期間（区間）に分割して表示している。

中間領域７７ｂには、縦軸をデータ数とし、横軸を最終来店日からの経過日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域７７ａに表示されている折れ線グラフの横軸と共有されている。また、下側領域７７ｃには、説明文自動生成部１８で自動生成された説明文が表示される。

図２０に示す例でも、選択した特徴量と目的変数との関係性が表示されているが、強調される系列や、下側領域７７ｃに記載される説明文の内容は、特徴量の性質に応じて図１６に示す例とは異なっている。

さらに、特徴量の詳細説明を行う２番目のグラフは、図２１に示すように、別の特徴量との複合的な影響を示す影響度比較グラフ７８となっている。このような影響度比較グラフ７８を生成することもでき、このグラフ７８は、第１の特徴量及び第２の特徴量を同時に表示した同時表示グラフと呼ぶことができる。生成された同時表示グラフは、モニタ３に表示可能になっている。影響度比較グラフ７８は、第２基本図７７と同時に表示してもよいし、別々に表示してもよい。影響度比較グラフ７８と、第２基本図７７と表示するステップが派生図表示ステップである。

影響度比較グラフ７８は、第１の派生図と呼ぶこともできる。第１の派生図は、第１の特徴量（本例では「最終来店日からの経過日数」）の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか１つのクラスターで、第１の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第２の特徴量（本例では「直近３０日の総来店日数」）を抽出し、当該第２の特徴量と目的変数との関係を示す図である。この第１の派生図は、図２に示す派生図生成部１６ｂによって生成される。この処理が派生図生成ステップである。

すなわち、図２に示す派生図生成部１６ｂが第１の派生図である影響度比較グラフ７８（図２１に示す）を生成する場合には、例えば、複数の期間に分割した第１の特徴量を得て、各期間の目的変数の代表値として平均値や中央値等を算出し、任意の期間において、第１の特徴量の目的変数の代表値に対して有意な差が存在する目的変数の代表値を有する第２の特徴量を抽出し、この第２の特徴量と目的変数との関係を示すことができる。これにより、第１の特徴量だけでは得ることのできなかった知見を得ることができる。分析対象データを振り分ける条件を区間と呼ぶことができ、区間は、期間だけでなく、例えば、性別、場所等であってもよい。

また、派生図生成部１６ｂは、第１の特徴量の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターに属する分析対象データの数を示すデータ数表示グラフ７８ａを生成するように構成されている。分析対象データを複数のクラスターに分割する際、派生図生成部１６ｂは、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割する。これにより、使用者の分割作業の手間を省くことができる。

データ数表示グラフ７８ａは、第１の派生図（影響度比較グラフ７８）の下に表示された棒グラフである。そして、モニタ３は、派生図生成部１６ｂにより生成されたデータ数表示グラフ７８ａを表示可能に構成されている。データ数表示グラフ７８ａによれば、分析対象データの数を把握することができる。

また、分析対象データの数が第１の所定数以下のクラスターが存在することを使用者に通知するように構成することができる。例えば、全データ数の数％以下のデータ数しかないクラスターが存在した場合、当該クラスターを構成するデータ数が全データ数の数％以下であるといった通知をすることで、使用者がクラスターの特徴量の信頼性を判断する際の材料になる。

派生図生成部１６ｂは、第１の派生図の生成時に、分析対象データの数が第２の所定数以下の特徴量については、第１の特徴量の目的変数の代表値に対して有意な差が無いと判定するように構成されている。第２の所定数と、前記第１の所定数とは同じであってもよいし、一方が他方よりも少なくてもよい。例えば、全データ数の数％以下のデータ数しかない特徴量が存在した場合、目的変数の信頼性が乏しいと考えることができ、このような場合には、有意な差が無いと判定することで、分析に用いられないようにすることができる。

影響度比較グラフ７８では、選択した特徴量だけで見ると同一区間のデータであっても、別の特徴量でデータを更に分割することで、目的変数との関係に大きな差異が生じることを示している。図２０に示す上側領域７７ａに表示されている折れ線グラフでは、「最終来店日からの経過日数が小さいほど、離反＝１の割合が低下する」という事実を読み取ることができたが、図２１に示す影響度比較グラフ７８からは更に、「たとえ最終来店日からの経過日数が小さくても、総来店日数が１０日未満の顧客は離反率が高い」という新たな知見を得ることができる。

この影響度比較グラフ７８では、別の特徴量の違いによる区間内の差が有意かどうかを検定し、有意であると判定された区間だけが強調表示されている。ここでは「直近３０日の総来店日数」という特徴量を選択した特徴量と組み合わせているが、他の全ての特徴量について組合せのグラフを表示すると表示される数が膨大となる。

そこで、各組合せについて上記有意性の値を計算した上で、有意性が特に高いものだけを選択して表示する。なお、図１６に示す例では、この影響度比較グラフ７８について説明しなかったが、その理由は、どの組合せで評価した場合でも系列内で有意な差が生じなかったからである。つまり、系列内で有意な差が生じれば、影響度比較グラフ７８を自動的に生成して表示させることができるように構成されている。

この際、組み合わせる特徴量は、重要度が高い特徴量であってもよいし、重要度が低い特徴量であってもよく、重要度の高低に関係なく決定することができる。

また、組み合わせる特徴量をどの区間で分割するか（図２１の場合５日）についても、様々な分割方法のそれぞれで有意性を検証し、有意性が最も高くなる値を選択するように構成することができる。例えば、５日間で分割した場合と、１０日間で分割した場合とのそれぞれで有意性を検証することもでき、このような区間の分割方法は制御ユニット１０が自動で行うようにしてもよいし、使用者が手動で行うようにしてもよい。

図２２に示す特徴量表示ユーザーインターフェース６０は、その上側領域７１に表示されたグラフの中から任意の区間を選択したことで詳細メニュー７４が表示されており、さらに、その詳細メニュー７４の中から、「特徴量の寄与度を比較」を選択した場合である。すると、図２３に示す寄与度表示グラフ７９を特徴量表示ユーザーインターフェース６０に表示することができる。この寄与度表示グラフ７９では、選択したデータ群と全体との間で、各特徴量の寄与度を比較しており、比較図に相当するものである。よって、寄与度表示グラフ７９は、比較図生成部１６ｃによって生成される。このステップが比較図生成ステップである。また、寄与度表示グラフ７９と第２基本図７７とを同時にまたは別々に、モニタ３に表示させることが可能になっている。寄与度表示グラフ７９と第２基本図７７とを同時にまたは別々に表示させる処理が比較図表示ステップである。

ここで、特徴量の寄与度の計算方法について詳細に説明する。線形重回帰分析と呼ばれる分析手法では、以下の形式で表される予測式（２）を用いる。

ｙ＝ａ１ｘ１＋ａ２ｘ２＋ａ３ｘ３＋…＋ａｎｘｎ＋ｂ・・・（２）
ｙは予測値、ｘ１，ｘ２，…は各特徴量の値(説明変数)、ａ１，ａ２，…は各特徴量に対する係数を表す。また、ｂは定数項である。重回帰分析では、各データについてｙの値が目的変数に近づくように、係数ａおよび定数項ｂを学習する。

上式（２）から、予測値yは各特徴量に関する項(ａ１ｘ１，ａ２ｘ２，…)と、定数項の和からなる。項の絶対値が大きな特徴量ほど、予測に対してより大きな影響を与えていると解釈できる。

そこで、係数と特徴量の値の積ａｉｘｉのことを、特徴量ｉに関する寄与度と定義する。この寄与度を、複数のデータに対する予測について平均すると、任意のデータ群について、そのデータ群の予測に対する平均的な寄与度を算出することができる。

例えば図２４に示すように、ｙ＝３ｘ１－２ｘ２＋１の場合、４つのデータで平均を取ると、特徴ｘ１は予測値に対してややプラスの寄与度を持ち、また、特徴ｘ２は予測値に対して大きくマイナスの寄与度を持っていることになる。

本例では上式の線形重回帰分析による寄与度の計算手順について説明したが、非線形のアルゴリズムであっても各予測に対して線形モデルでの近似を行うことで、同様の計算を行うことができる（例：Scott M. Lundberg, ”Consistent Individualized Feature Attribution for Tree Ensembles”(2018)）。

上記で定義される寄与度を選択中のデータについて算出するとともに、全データについても算出し、両者を比較しているのが図２３に示す寄与度表示グラフ７９である。寄与度表示グラフ７９により、例えば、「最低購入金額は全体ではさほど離反に影響しないが、注目するデータ群では大きな影響を与える」、「しかしながら、それでも全体の購入金額の影響のほうが大きい」といった傾向を把握することができ、これが新たな知見になる。

本例で表示している特徴量は、重要度が上位の特徴量と、選択したデータ群でのみ寄与度が有意に高い特徴量（最低購入金額）との２つに絞り込んでいるが、これ以外にも寄与度の差が有意に高いものだけを表示してもよい。表示する特徴量は使用者が削除できるようにしてもよい。

図１５に示す特徴量表示ユーザーインターフェース６０の特徴量表示領域６０ａに表示されている特徴量の中から、「性別」を選択すると、図２５に示す第３基本図８０が特徴量表示ユーザーインターフェース６０に表示される。第３基本図８０は、図２に示す表示図生成部１６の基本図生成部１６ａが生成したものであり、この処理が基本図生成ステップである。この第３基本図８０では、図１６に示す例、図２０に示す例と違って特徴量が数値ではないため、第３基本図８０の表現が棒グラフに変更される。また、項目の「欠損」は、元の分析対象データに値が存在しない場合を表している。図２５に示す例では、性別の差によって目的変数の値に有意差が見られなかったため、どの系列も強調されない状態で表示されているが、有意差が見られれば強調表示することができる。

ここで、図２５に示す系列「欠損」を選択して図１７に示すような詳細メニュー７４を表示した後、詳細メニュー７４の中から「差分の説明を計算」を選択すると、図２６に示す差分の説明グラフ８１を特徴量表示ユーザーインターフェース６０に表示することができる。この差分の説明グラフ８１では、選択したデータ群と全体を比較したとき、目的変数の値の差分が主にどの特徴量で説明付けられるのかを示しており、比較図に相当するものである。よって、図２６に示す差分の説明グラフ８１は、比較図生成部１６ｃによって生成される。このステップが比較図生成ステップである。また、差分の説明グラフ８１と第３基本図８０とを同時にまたは別々に、モニタ３に表示させることが可能になっている。差分の説明グラフ８１と第３基本図８０とを同時にまたは別々に表示させる処理が比較図表示ステップである。尚、説明付けのための計算には、先述の貢献度の値を使用する。

ここで、差分の説明の算出方法について説明する。まず、全データと選択したデータ群それぞれについて、先述の貢献度を各特徴量で計算する。

y_all = B1all + B2all + B3all + … + Bnall + b ・・・（３）
y_sel = B1sel + B2sel + B3sel + … + Bnsel + b ・・・（４）
y_all，y_selは全データ/選択したデータに対する平均の予測値を表す。Biall，Biselはi番目の特徴量についての全データ/選択したデータの貢献度を表す。

（４）－（３）を計算すると、
y_sel = y_all + (B1sel - B1all) + (B2sel - B2all) + … + (Bnsel - Bnall)
・・・（５）
となる。右辺の第２項以降は選択したデータと全データの貢献度の差を表す(これをＤｉとする)。また、y_sel，y_allは実際の目的変数の平均値y_sel_true，y_all_trueに対して、予測誤差が含まれていると考えられる。

y_sel_true = y_sel + δ_sel ・・・（６）
y_all_true = y_all + δ_all ・・・（７）
（６）、（７）を（５）に代入すると、
y_sel_true = y_all_true + D1 + D2 + … Dn + (δ_all - δ_sel) ・・・（８）
となる。式（８）から、選択したデータの目的変数の平均値(y_sel_true)は、全データの目的変数の平均値、各々の特徴量の貢献度の差、予測誤差の３つの要素の和であると説明できる。

上記のグラフでは、貢献度の差Ｄ１，Ｄ２，…のうち、値が特に大きいものを個別に表示し、残りの要素と予測誤差は、まとめて「その他／予測誤差」の項目で表示している。

このように、貢献度の差によって目的変数の差を説明するグラフ８１を表示することによって、「性別＝欠損のユーザー群の離反率が５４％と高いのは何故か？」という疑問に対して、「性別＝欠損のユーザーの離反率の高さは、『合計の購入金額』による影響を部分的に受けている」、「ただし、差分のうち15％程度は、主要な特徴量の差分では説明が出来ない」という洞察を得ることができる。

ただし、性別＝欠損の系列が元々強調表示されていなかった通り、性別＝欠損で離反が大きいことに有意と言えるほどの情報がなく、上記の洞察は誤っている可能性もある。その注意を促す文言も、グラフ８１と併せて表示する。

さらに、性別を説明する別のグラフとして、図２７に示すように、特徴量の寄与度の変化に関するグラフ８２を表示することができる。これは図２０に示す例においてグラフをクリックすることで表示されたものと同じ種類のグラフを性別に対して表示している。

図２７に示すグラフ８２は、第２の派生図と呼ぶこともできる。第２の派生図は、複数のクラスターのうち、所定のクラスターで目的変数の予測に寄与している特徴量を示す図である。クラスターとは、前記第１の派生図と同じであり、この例では性別の「男」、「女」、「欠損」としているが、期間とすることもできる。第２の派生図は、図２に示す派生図生成部１６ｂによって生成される。この処理が派生図生成ステップである。派生図生成ステップの後、基本図と第２の派生図とを同時にまたは別々に表示する派生図表示ステップを実行することができる。

また、この例では、所定のクラスターで目的変数の予測に寄与している特徴量と、全クラスターを合わせた第１の特徴量とを同時に表示することができるようになっている。

派生図生成部１６ｂが第２の派生図を生成する場合には、上述したようにクラスターとして男、女に分割したとき、性別の違いによって目的変数の予測に対する寄与度合いが大きく変わることがあり、このような目的変数の予測に寄与している特徴量を示すことで、新たな知見を得ることができる。

また、図２７に示すグラフに基づいて、「性別は単独では目的変数の平均値に影響を与えないが、性別の違いによって他の特徴量の寄与の度合が大きく変わるため、結果的に重要な特徴量である」という知見が得られる。

（実施形態の作用効果）
以上説明したように、この実施形態に係るデータ分析装置１及びデータ分析方法によれば、大量のデータに含まれる重要度の高い特徴量をモニタ３に表示することができる。そして、特徴量と目的変数との関係を示す基本図や、複数の特徴量と目的変数との関係を示す派生図、所定のクラスターで目的変数の予測に寄与している特徴量を示す派生図、集計期間が異なる特徴量に基づいて生成された予測モデルの精度比較を示す派生図等をモニタ３に表示することができる。

また、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができる。従って、新たな知見を得るための手助けをすることができる。

（その他の実施形態）
上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。

上記実施形態では、目的変数と特徴量の関係を示すために折れ線グラフや棒グラフを用いたが、散布図など他の表現方法を用いてもよい。散布図の場合、グラフの系列をクリックする代わりに、グラフ内の領域をドラッグで選択することでデータの一部を選択し、詳細なグラフを更に表示することができる。

第１の派生図（図２１に示す影響度比較グラフ７８）、第２の派生図（図２７に示す特徴量の寄与度の変化に関するグラフ８２）及び第３の派生図（図１９に示す予測精度比較グラフ７６）のうち、任意の１つと、基本図７０、７７、８０とをモニタ３に同時に表示してもよいし、異なるタイミングで表示してもよい。派生図生成部１６ｂが第１の派生図、第２の派生図及び第３の派生図の全てを生成してもよく、生成する順番は特に限定されない。また、第１の派生図、第２の派生図及び第３の派生図の全てをモニタ３に表示してもよい。

また、基本図７０、７７、８０については、本実施形態では３つだけ示しているが、使用者が選択する特徴量に応じて基本図生成部１６ａが生成する。基本図７０、７７、８０と、第１の派生図、第２の派生図及び第３の派生図とを切り替えて表示する場合、例えば画面切替ボタンのような操作手段を利用することもできる。

以上説明したように、本発明に係るデータ分析装置及びデータ分析方法は、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる場合に使用することができる。

１データ分析装置
３モニタ（表示部）
３ａ表示制御部
１１主制御部
１２データ入力部
１３予測モデル生成部
１４重要度算出部
１５クラスター選択部
１６ａ基本図生成部
１６ｂ派生図生成部
１６ｃ比較図生成部
１８説明文自動生成部
３０記憶部
７０、７７、８０基本図
７６予測精度比較グラフ（第３の派生図）
７５比較表（比較図）
７８影響度比較グラフ（第１の派生図）
７９寄与度表示グラフ（比較図）
８１差分の説明グラフ（比較図）
８３特徴量の寄与度の変化に関するグラフ（第２の派生図）

Claims

分析対象データを分析するデータ分析装置において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、
前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、
前記表示部に表示された特徴量の中から使用者の入力に応じて選択された第１の特徴量と、前記目的変数との関係を示す基本図を生成する基本図生成部と、
前記第１の特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか１つのクラスターで、前記第１の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第２の特徴量を抽出し、当該第２の特徴量と前記目的変数との関係を示す第１の派生図と、
前記複数のクラスターのうち、所定のクラスターで前記目的変数の予測に寄与している特徴量を示す第２の派生図と、
前記第１の特徴量に基づいて生成された予測モデルの精度と、前記第１の特徴量と同一カテゴリーに属し、且つ前記第１の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す第３の派生図と、
のうち、少なくともいずれか１つを生成する派生図生成部とを備え、
前記表示部は、前記基本図生成部により生成された前記基本図と、前記派生図生成部により生成された派生図とを表示可能に構成されていることを特徴とするデータ分析装置。
請求項１に記載のデータ分析装置において、
前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とするデータ分析装置。
請求項２に記載のデータ分析装置において、
前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とするデータ分析装置。
請求項１から３のいずれか１つに記載のデータ分析装置において、
前記派生図生成部は、前記第３の派生図の生成時に、複数の前記別の特徴量に基づいてそれぞれ生成された各予測モデルの精度と、前記第１の特徴量に基づいて生成された予測モデルの精度とを比較可能にすることを特徴とするデータ分析装置。
請求項４に記載のデータ分析装置において、
前記派生図生成部は、前記第３の派生図の生成時に、所定以上の重要度を有する前記別の特徴量に基づいて生成された予測モデルの精度と、前記第１の特徴量に基づいて生成された予測モデルの精度とを比較可能にすることを特徴とするデータ分析装置。
請求項１から５のいずれか１つに記載のデータ分析装置において、
前記派生図生成部は、各クラスターに属する前記分析対象データの数を示すデータ数表示グラフを生成するように構成され、
前記表示部は、前記派生図生成部により生成された前記データ数表示グラフを表示可能に構成されていることを特徴とするデータ分析装置。
請求項６に記載のデータ分析装置において、
前記派生図生成部は、前記分析対象データの数が第１の所定数以下のクラスターが存在することを使用者に通知するように構成されていることを特徴とするデータ分析装置。
請求項１から７のいずれか１つに記載のデータ分析装置において、
前記派生図生成部は、前記分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割するように構成されていることを特徴とするデータ分析装置。
請求項１から８のいずれか１つに記載のデータ分析装置において、
前記派生図生成部は、前記第１の派生図の生成時に、前記分析対象データの数が第２の所定数以下の特徴量については、前記第１の特徴量の目的変数の代表値に対して有意な差が無いと判定するように構成されていることを特徴とするデータ分析装置。
請求項１から９のいずれか１つに記載のデータ分析装置において、
前記派生図生成部は、前記第１の派生図の生成時に、前記第１の特徴量及び前記第２の特徴量を同時に表示した同時表示グラフを生成するように構成され、
前記表示部は、前記派生図生成部により生成された前記同時表示グラフを表示可能に構成されていることを特徴とするデータ分析装置。
請求項１から１０のいずれか１つに記載のデータ分析装置において、
前記派生図生成部は、前記所定のクラスターで前記目的変数の予測に寄与している特徴量と、全クラスターを合わせた前記第１の特徴量とを同時に表示した前記第２の派生図を生成するように構成されていることを特徴とするデータ分析装置。
請求項１から１１のいずれか１つに記載のデータ分析装置において、
前記第１の特徴量と前記目的変数との関係を説明する説明文を自動生成する説明文自動生成部を備えていることを特徴とするデータ分析装置。
分析対象データを分析するデータ分析方法において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、
前記重要度算出ステップで算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、
前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された第１の特徴量と、前記目的変数との関係を示す基本図を生成する基本図生成ステップと、
前記第１の特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか１つのクラスターで、前記第１の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第２の特徴量を抽出し、当該第２の特徴量と前記目的変数との関係を示す第１の派生図と、
前記複数のクラスターのうち、所定のクラスターで前記目的変数の予測に寄与している特徴量を示す第２の派生図と、
前記第１の特徴量に基づいて生成された予測モデルの精度と、前記第１の特徴量と同一カテゴリーに属し、且つ前記第１の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す第３の派生図と、
のうち、少なくともいずれか１つを生成する派生図生成ステップと、
前記基本図生成ステップにより生成された前記基本図と、前記派生図生成ステップにより生成された派生図とを表示可能な派生図表示ステップとを備えていることを特徴とするデータ分析方法。