JP7049211B2 - Data analyzer and data analysis method - Google Patents
Data analyzer and data analysis method Download PDFInfo
- Publication number
- JP7049211B2 JP7049211B2 JP2018148304A JP2018148304A JP7049211B2 JP 7049211 B2 JP7049211 B2 JP 7049211B2 JP 2018148304 A JP2018148304 A JP 2018148304A JP 2018148304 A JP2018148304 A JP 2018148304A JP 7049211 B2 JP7049211 B2 JP 7049211B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- feature amount
- displayed
- cluster
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、データ分析装置及びデータ分析方法に関する。 The present invention relates to a data analyzer and a data analysis method.
従来より、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングが知られている。一般的なデータマイニングの手法では、前処理ステップ、特徴抽出ステップ、モデル学習ステップ、後処理ステップの各ステップを順に実行する。前処理ステップでは、分析に必要なデータを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。 Conventionally, so-called data mining, which attempts to obtain useful knowledge that has been unknown until now from a large amount of information, has been known. In a general data mining method, each step of a preprocessing step, a feature extraction step, a model learning step, and a postprocessing step is executed in order. In the preprocessing step, data necessary for analysis is collected, and in order to enhance the effect of analysis, unnecessary noise is removed from the data and missing items are filled. This work is called ETL: Extract / Transport / Load. In the feature extraction step, the features existing in the original data are processed to generate new features that are more useful for analysis. In the model learning step, the data prepared in the preprocessing step and the feature extraction step are input to the machine learning algorithm, and the analysis result is obtained. In the post-processing step, the analysis result obtained in the model learning step is output to an external device, and a report is created based on the analysis result.
ところで、最適な特徴量の設計には、熟練の分析者による試行錯誤が必要で、データ分析に長い時間を要する原因となっていた。このことに対し、例えば、非特許文献1に開示されているように、新たな特徴量をデータから自動的に生成する技術が知られている。これら文献に開示されている技術では、事前に定義された一連の演算子(+,-,×,÷など)を元の特徴量に対して網羅的に適用し、大量の新たな特徴量を自動的に生成することができる。
By the way, the design of the optimum feature amount requires trial and error by a skilled analyst, which causes a long time for data analysis. On the other hand, for example, as disclosed in Non-Patent
しかしながら、上記文献の技術では、複数の演算子の組み合わせの結果得られた新たな特徴量は膨大な数になる。その膨大な数の特徴量の中には、分析に有効でない特徴量も大量に含まれているため、後続のモデル学習ステップに時間がかかるという問題があった。 However, in the technique of the above literature, the number of new features obtained as a result of the combination of a plurality of operators is enormous. Since the huge number of features includes a large amount of features that are not effective for analysis, there is a problem that the subsequent model learning step takes time.
また、分析の精度向上に役立つ新たな特徴量が生成されたとしても、その生成された特徴量と目的変数との関係や、他の特徴量との関係性が直観的に分からないため、実際に分析結果から知見を得ようとすると、個々の特徴量に関して追加の分析作業を必要としていた。つまり、上記文献の技術を使用したとしても、有用な知見を得るためには、分析者による手作業が結局必要になるので、データ分析に時間がかかるという問題は依然として解決されない。 In addition, even if a new feature quantity that helps improve the accuracy of analysis is generated, the relationship between the generated feature quantity and the objective variable and the relationship with other feature quantities cannot be intuitively understood, so that it is actually In order to obtain knowledge from the analysis results, additional analysis work was required for individual features. That is, even if the techniques of the above documents are used, the problem that data analysis takes time is still not solved because manual work by an analyst is required in order to obtain useful findings.
本発明は、かかる点に鑑みてなされたものであり、その目的とするところは、大量のデータから特徴量を得て重要度の高い特徴量を表示可能にし、新たな知見を得るための手助けができるようにすることにある。 The present invention has been made in view of this point, and an object of the present invention is to obtain a feature amount from a large amount of data, enable display of a feature amount of high importance, and help to obtain new knowledge. Is to be able to do.
上記目的を達成するために、第1の発明は、分析対象データを分析するデータ分析装置において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、前記表示部に表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成部と、前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択部と、前記クラスター選択部により選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択部により選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成部とを備え、前記表示部は、前記基本図生成部により生成された基本図と、前記比較図生成部により生成された比較図とを表示可能に構成されていることを特徴とする。 In order to achieve the above object, the first invention comprises a data input unit for receiving input of analysis target data including a plurality of feature quantities and objective variables in a data analysis apparatus for analyzing analysis target data, and the plurality of data input units. A prediction model generation unit that generates a prediction model for predicting the objective variable from the feature amount, an importance calculation unit that calculates the importance of the prediction by the prediction model for each of the plurality of feature amounts, and the importance. Based on the importance calculated by the degree calculation unit, the display unit that displays the feature amount with higher importance and the feature selected from the feature amounts displayed on the display unit according to the input of the user. The basic diagram generator that divides the analysis target data into a plurality of clusters based on the amount value and generates a basic diagram showing the relationship between each cluster and the representative value of the objective variable of each cluster, and the basic diagram. A cluster selection unit that accepts the selection of any one of the indicated clusters, a feature amount that contributes to the prediction of the objective variable in the cluster selected by the cluster selection unit, and all clusters or the clusters. In a non-selected cluster not selected by the selection unit, the display unit includes a comparison diagram generation unit that generates a comparison diagram showing a comparison with a feature amount that contributes to the prediction of the objective variable, and the display unit generates the basic diagram. It is characterized in that the basic diagram generated by the unit and the comparison diagram generated by the comparison diagram generation unit can be displayed.
この構成によれば、分析対象データが入力されると、分析対象データに含まれる複数の特徴量から目的変数を予測するための予測モデルが生成される。特徴量は、分析対象データに含まれていたものであってもよいし、新たに生成されたものであってもよい。そして、予測モデルによる予測に対する重要度が、複数の特徴量のそれぞれに対して算出され、算出された複数の特徴量のうち、上位の重要度を有する特徴量が表示部に表示される。このとき、下位の重要度を有する特徴量が表示されていてもよい。いずれにしても、使用者は、表示部を見ることで、重要度の高い特徴量を、重要度の低い特徴量と区別して把握することができる。使用者が、表示部に表示された特徴量の中から所望の特徴量を選択すると、その選択された特徴量の値に基づいて分析対象データが複数のクラスターに分割される。 According to this configuration, when the analysis target data is input, a prediction model for predicting the objective variable from a plurality of features included in the analysis target data is generated. The feature amount may be one included in the analysis target data or a newly generated one. Then, the importance to the prediction by the prediction model is calculated for each of the plurality of feature quantities, and among the calculated plurality of feature quantities, the feature quantity having the higher importance is displayed on the display unit. At this time, a feature amount having a lower importance may be displayed. In any case, the user can grasp the feature amount of high importance separately from the feature amount of low importance by looking at the display unit. When the user selects a desired feature amount from the feature amounts displayed on the display unit, the analysis target data is divided into a plurality of clusters based on the value of the selected feature amount.
また、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図が生成され、この基本図に示された複数のクラスターから任意の1つのクラスターの選択が受け付けられると、選択されたクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラススターにおける目的変数の予測に寄与する特徴量との比較を示す比較図が生成される。そして、基本図と比較図が表示部に表示される。 In addition, a basic diagram showing the relationship between each cluster and the representative value of the objective variable of each cluster is generated, and when the selection of any one cluster is accepted from the plurality of clusters shown in this basic diagram, it is selected. A comparison diagram showing a comparison between the feature quantities that contribute to the prediction of the objective variable in the clusters and the feature quantities that contribute to the prediction of the objective variables in all clusters or non-selected class stars is generated. Then, the basic diagram and the comparison diagram are displayed on the display unit.
使用者は、基本図を見ることで、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるので、これに基づいて新たな知見を得ることができる。 By looking at the basic diagram, the user can know the relationship with the representative value of the objective variable for each of the clusters formed by dividing the data to be analyzed, so it is possible to obtain new knowledge based on this. can.
また、使用者は、注目したいクラスターがあった場合、そのクラスターを選択すると、そのクラスターにおける目的変数の予測に寄与する特徴量だけでなく、全クラスターにおける目的変数の予測に寄与する特徴量との比較や、選択外のクラススターにおける目的変数の予測に寄与する特徴量との比較を行うことができるので、これに基づいて新たな知見を得ることができる。 In addition, when there is a cluster that the user wants to pay attention to, when the cluster is selected, not only the feature amount that contributes to the prediction of the objective variable in the cluster but also the feature amount that contributes to the prediction of the objective variable in all the clusters. Since it is possible to make a comparison and a comparison with a feature amount that contributes to the prediction of the objective variable in a non-selected class star, new findings can be obtained based on this.
尚、基本図と比較図とを表示部に同時に表示してもよいし、異なるタイミングで表示してもよい。また、「図」には、グラフや表、文字も含まれる。 The basic diagram and the comparison diagram may be displayed on the display unit at the same time, or may be displayed at different timings. The "figure" also includes graphs, tables, and characters.
第2の発明は、前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とする。 The second invention is characterized in that the display unit is configured to display a plurality of feature quantities having higher importance side by side in descending order of importance.
この構成によれば、上位の重要度を有する複数の特徴量がランキング形式で表示部に表示されることになるので、使用者が複数の特徴量の重要度を相対比較することができる。重要度を高い順に並べる方向としては、例えば上下方向であってもよいし、使用者から見て左右方向であってもよい。 According to this configuration, a plurality of features having higher importance are displayed on the display unit in a ranking format, so that the user can make a relative comparison of the importance of the plurality of features. The direction in which the importance is arranged in descending order may be, for example, a vertical direction or a horizontal direction when viewed from the user.
第3の発明は、前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とする。 A third aspect of the invention is characterized in that the display unit is configured to simultaneously display a feature amount having the highest importance and a plurality of feature amounts less than the highest importance.
この構成によれば、最上位の重要度を有する特徴量がどの特徴量であるか、また、最上位の重要度と次に高い重要度との差を容易に把握することができる。 According to this configuration, it is possible to easily grasp which feature amount has the highest importance and the difference between the highest importance and the next highest importance.
第4の発明は、前記比較図生成部は、前記クラスター選択部により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す前記比較図を生成するように構成されていることを特徴とする。 A fourth aspect of the invention is characterized in that the comparison diagram generation unit is configured to generate the comparison diagram showing a feature amount having a significantly high contribution only in the cluster selected by the cluster selection unit. do.
この構成によれば、選択されたクラスターに関連性の高い特徴量が自動的に示されるので、複数の特徴量に基づいて新たな知見を得ることができる。 According to this configuration, features that are highly relevant to the selected cluster are automatically shown, so that new findings can be obtained based on a plurality of features.
第5の発明は、前記比較図生成部は、前記上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す前記比較図を生成するように構成されていることを特徴とする。 In the fifth aspect of the invention, the comparison diagram generation unit is configured to generate the comparison diagram showing the feature quantities not selected by the user among the feature quantities having higher importance. It is a feature.
この構成によれば、使用者により選択されなかったが、上位の重要度を有する特徴量は目的変数に与える影響が大きいことが考えられるので、この上位の重要度を有する特徴量も比較図として示すことで、複数の特徴量に基づいて新たな知見を得ることができる。 According to this configuration, although it was not selected by the user, it is considered that the features having higher importance have a large influence on the objective variable, so the features having higher importance are also used as a comparison diagram. By showing, new findings can be obtained based on a plurality of features.
第6の発明は、前記比較図生成部は、前記分析対象データの値が存在していない欠損クラスターにおいて、前記目的変数の予測に寄与する特徴量を示す前記比較図を生成するように構成されていることを特徴とする。 In the sixth invention, the comparison diagram generation unit is configured to generate the comparison diagram showing the feature amount that contributes to the prediction of the objective variable in the defective cluster in which the value of the analysis target data does not exist. It is characterized by being.
この構成によれば、値が存在していない分析対象データ群を欠損クラスターとしたとき、この欠損クラスターも目的変数の予測に寄与する場合があり、比較図に、欠損クラスターにおける目的変数の予測に寄与する特徴量を示すことで、新たな知見を得ることができる。 According to this configuration, when the analysis target data group for which no value exists is used as a missing cluster, this missing cluster may also contribute to the prediction of the objective variable, and the comparison diagram shows the prediction of the objective variable in the missing cluster. New findings can be obtained by showing the amount of features that contribute.
第7の発明は、分析対象データを分析するデータ分析方法において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、前記重要度算出ステップにより算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成ステップと、前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択ステップと、前記クラスター選択ステップで選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択ステップにより選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成ステップと、前記基本図生成ステップで生成された基本図と、前記比較図生成ステップで生成された比較図とを表示可能な比較図表示ステップとを備えていることを特徴とするデータ分析方法である。 The seventh invention is a data analysis method for analyzing analysis target data, in which a data input step for accepting input of analysis target data including a plurality of feature quantities and objective variables and a prediction of the objective variable from the plurality of feature quantities. The importance calculated by the prediction model generation step for generating the prediction model, the importance calculation step for calculating the importance of the prediction by the prediction model for each of the plurality of features, and the importance calculation step. Based on the degree, the value of the feature amount selected according to the input of the user from the feature amount display step for displaying the feature amount having higher importance and the feature amount displayed in the feature amount display step. Based on this, the analysis target data is divided into a plurality of clusters, and a basic diagram generation step for generating a basic diagram showing the relationship between each cluster and the representative value of the objective variable of each cluster, and the plurality shown in the basic diagram. A cluster selection step that accepts the selection of any one of the clusters, a feature amount that contributes to the prediction of the objective variable in the cluster selected in the cluster selection step, and selection by all clusters or the cluster selection step. In the unselected clusters that have not been selected, the comparison diagram generation step that generates a comparison diagram showing the comparison with the feature amount that contributes to the prediction of the objective variable, the basic diagram generated in the basic diagram generation step, and the comparison. It is a data analysis method characterized by including a comparison diagram display step capable of displaying a comparison diagram generated in the diagram generation step.
本発明によれば、大量のデータに含まれる重要度の高い特徴量を表示部に表示することができる。そして、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができるので、新たな知見を得るための手助けをすることができる。 According to the present invention, a feature amount of high importance contained in a large amount of data can be displayed on the display unit. Then, the relationship between the representative value of the objective variable and the representative value of the objective variable can be known for each of the clusters formed by dividing the data to be analyzed, and the features that contribute to the prediction of the objective variable in the selected cluster and all clusters or non-selected clusters. Since it is possible to compare with the features that contribute to the prediction of the objective variable in the cluster of, it is possible to help to obtain new findings.
以下、本発明の実施形態を図面に基づいて詳細に説明する。尚、以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用物或いはその用途を制限することを意図するものではない。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. It should be noted that the following description of the preferred embodiment is essentially merely an example and is not intended to limit the present invention, its application or its use.
図1は、本発明の実施形態に係るデータ分析装置1の概略構成を示す図であり、図2は、データ分析装置1のブロック図である。このデータ分析装置1は、分析対象データを分析する装置であり、このデータ分析装置1を使用することで、本発明に係るデータ分析方法を実行することができる。データ分析装置1及びデータ分析方法は、例えば、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングを行う際に使用することができる。
(データ分析手順)
図3に示すフローチャートに基づいて、一般的なデータ分析の手順について説明する。開始後、ステップSA1では前処理ステップを実行する。前処理ステップでは、分析に必要なデータ、すなわち分析対象データを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。ステップSA2では特徴抽出ステップを実行する。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。ステップSA3ではモデル学習ステップを実行する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。ステップSA4では後処理ステップを実行する。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。
FIG. 1 is a diagram showing a schematic configuration of a
(Data analysis procedure)
A general data analysis procedure will be described with reference to the flowchart shown in FIG. After the start, the preprocessing step is executed in step SA1. In the preprocessing step, data necessary for analysis, that is, data to be analyzed is collected, and in order to enhance the effect of analysis, unnecessary noise is removed from the data and missing items are filled. This work is called ETL: Extract / Transport / Load. In step SA2, a feature extraction step is executed. In the feature extraction step, the features existing in the original data are processed to generate new features that are more useful for analysis. In step SA3, a model learning step is executed. In the model learning step, the data prepared in the preprocessing step and the feature extraction step are input to the machine learning algorithm, and the analysis result is obtained. In step SA4, a post-processing step is executed. In the post-processing step, the analysis result obtained in the model learning step is output to an external device, and a report is created based on the analysis result.
(データ分析装置1の全体構成)
図1及び図2に示すように、データ分析装置1は、装置本体2と、モニタ3と、キーボード4と、マウス5とを備えており、モニタ3、キーボード4及びマウス5は、装置本体2に接続されている。例えば汎用のパーソナルコンピュータに、後述する制御内容を実行するプログラムをインストールすることによってデータ分析装置1とすることができ、また、前記プログラムがインストールされた専用のハードウェアでデータ分析装置1を構成することもできる。装置本体2とモニタ3とは一体化されていてもよいし、装置本体2の一部がモニタ3に内蔵されていてもよい。
(Overall configuration of data analyzer 1)
As shown in FIGS. 1 and 2, the
データ分析装置1は、通信モジュール(図示せず)を内蔵しており、外部との通信が可能に構成されている。これにより、インターネット回線を介して外部サーバーからのデータのダウンロードが可能になる。
The
また、キーボード4及びマウス5は、データ分析装置1を操作する操作手段であるとともに、各種情報を入力する入力手段、選択操作を行う選択手段等でもある。キーボード4及びマウス5に加えて、またはキーボード4及びマウス5に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。
Further, the
(モニタ3の構成)
図1に示すモニタ3は、たとえば有機ELディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ3と、図2に示す表示制御部3aとを合わせて表示部と呼ぶこともできる。表示制御部3aは、モニタ3に内蔵されていてもよいし、装置本体10に内蔵されていてもよい。表示制御部3aは、モニタ3に対して画像を表示させる表示用DSPなどから構成される。表示制御部3aには、画像を表示させる際に画像データを一時記憶するVRAMなどのビデオメモリが含まれていてもよい。表示制御部3aは、後述する主制御部11のCPU11aから送られてきた表示指令(表示コマンド)に基づいて、モニタ3に対して所定の画像を表示させるための制御信号を送信する。たとえば、各種ユーザーインターフェースやアイコン、キーボード4やマウス5を用いた使用者の操作内容をモニタ3に表示させるための制御信号も送信する。また、マウス5で操作可能なポインタ等もモニタ3に表示することができるようになっている。
(Configuration of monitor 3)
The
モニタ3をタッチ操作パネル型モニタとすることで、モニタ3に各種情報の入力機能を持たせることができる。
By using the
(装置本体2の全体構成)
図1に示す装置本体2は、制御ユニット10と、記憶部30とを備えている。記憶部30は、ハードディスクドライブ、ソリッドステートドライブ(SSD)等で構成されている。記憶部30は、制御ユニット10に接続されており、制御ユニット10によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。
(Overall configuration of device body 2)
The apparatus
(制御ユニット10)
制御ユニット10は、具体的に図示しないが、MPU、システムLSI、DSPや専用ハードウェア等で構成することができる。制御ユニット10は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。
(Control unit 10)
Although not specifically shown, the
図2に示すように、制御ユニット10は、主制御部11と、データ入力部12と、予測モデル生成部13と、重要度算出部14と、クラスター選択部15と、表示図生成部16と、説明文自動生成部18とを備えている。制御ユニット10の各部は、上述したように分けて記載しているが、同じ部分が複数種の処理を実行するように構成してもよいし、更に細かく分けてこれらを連携させて1つの処理を実行するように構成してもよい。
As shown in FIG. 2, the
上記各ハードウェアは、バスなどの電気的な通信路(配線)を介し、双方向通信可能または一方向通信可能に接続されている。 Each of the above hardware is connected so as to be capable of two-way communication or one-way communication via an electrical communication path (wiring) such as a bus.
主制御部11は、各種プログラムに基づき数値計算や情報処理を行うとともに、ハードウェア各部の制御を行う。主制御部11は、中央演算処理装置として機能するCPU11aと、主制御部11が各種プログラムを実行する際のワークエリアとして機能するRAM等のワークメモリ11bと、起動プログラムや初期化プログラム等が格納されたROM、フラッシュROMまたはEEPROM等のプログラムメモリ11cとを備えている。
The
データ入力部12は、複数の特徴量と目的変数とを含む分析対象データの入力を受け付ける部分であり、図5に示すデータ入力用ユーザーインターフェース50をモニタ3に表示させるとともに、データ入力用ユーザーインターフェース50上でなされた使用者の操作を受け付ける。使用者の操作とは、キーボード4の操作や、マウス5の操作(ボタンクリック、ドラッグ&ドロップ、ホイールの回転等を含む)がある。
The
ここで、分析対象データは、複数の特徴量と目的変数とを含むデータであるが、複数の特徴量は、分析対象データにもともと存在しているもの(既存特徴量)、使用者が気付いていなくて分析対象データに暗に含まれているもの(潜在的特徴量)、新たに生成したもの(新たな特徴量)等のいずれか1種または複数種を含むデータであればよい。分析対象データの一部が欠損していてもよく、その場合は、後述するように欠損した項目を埋める作業を行えばよい。 Here, the analysis target data is data including a plurality of feature quantities and objective variables, but the user is aware that the plurality of feature quantities originally exist in the analysis target data (existing feature quantities). Any data may be used as long as it does not include data implicitly contained in the data to be analyzed (potential feature amount), newly generated data (new feature amount), or any one or more of them. A part of the data to be analyzed may be missing. In that case, the work of filling in the missing items may be performed as described later.
図5に示すデータ入力用ユーザーインターフェース50には、ファイル選択ボタン50aと、データベース選択ボタン50bと、URL指定ボタン50cと、データベース表示領域50dと、読み込み開始ボタン50eとが設けられている。各ボタンの配置は自由に設定できる。
The data
例えば、分析対象データを格納したファイルが外部記憶装置や記憶部30に保存されていて、デスクトップ上や、開いた状態のフォルダにある場合には、使用者が当該ファイルをデータベース表示領域50dへドラッグ&ドロップ操作する。これにより、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。その後、読み込み開始ボタン50eを押すと、データベース表示領域50dに表示されているファイルが記憶部30の所定領域に読み込まれて保存される。
For example, if a file storing analysis target data is stored in an external storage device or
分析対象データがデータベース上にある場合には、使用者がデータベース選択ボタン50bを押す。データベース選択ボタン50bが押されると、データベースに接続するための設定画面(図示せず)を表示し、テーブル名の入力や必要に応じてパスワードの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データが所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。
When the data to be analyzed is on the database, the user presses the
分析対象データがインターネットやサーバー上にある場合には、使用者がURL指定ボタン50cを押す。URL指定ボタン50cが押されると、URL入力画面(図示せず)を表示し、URLの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データがダウンロードされて所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。
When the data to be analyzed is on the Internet or a server, the user presses the
分析対象データを格納したファイルは、1つのみであってもよいし、複数であってもよい。この図5では、「transaction」、「master」の2つのファイルにそれぞれ格納されている分析対象データを読み込んだ場合を示している。上述した3つの方法以外の方法でファイルを読み込んでもよい。上記ファイル形式は、csv形式であるが、これ以外の形式であってもよい。 There may be only one file or a plurality of files storing the data to be analyzed. FIG. 5 shows a case where the analysis target data stored in each of the two files "transaction" and "master" is read. The file may be read by a method other than the above three methods. The above file format is a csv format, but other formats may be used.
図6は、「master」と「transaction」にそれぞれ格納されている分析対象データを示している。この例では、「master」が顧客情報であり、顧客IDに対応付けられて年齢及び性別が記録されているとともに、顧客IDに対応付けられて、当該顧客が離反した顧客かどうかが「離反」列に記録されている。「離反」とは、一度来店したが、その後、来店しなくなったことである。「離反」列に「1」と記録されている顧客は離反した顧客であり、「0」と記録されている顧客は離反していない顧客である。 FIG. 6 shows the analysis target data stored in the “master” and the “transaction”, respectively. In this example, "master" is customer information, and the age and gender are recorded in association with the customer ID, and whether or not the customer is separated from the customer in association with the customer ID is "separation". Recorded in a column. "Release" means that you visited the store once, but then stopped visiting. A customer recorded as "1" in the "separation" column is a estranged customer, and a customer recorded as "0" is a non-separated customer.
「transaction」には、個々の購買履歴が記録されており、「顧客ID」列で、「master」と行ごとの対応関係が紐づけられている。「transaction」には、顧客IDに対応付けられて購入日、カテゴリ及び価格が記録されている。尚、上述したデータは本発明の説明のために用意した例であり、本発明の適用範囲を限定するものではない。本発明は、購買履歴データ以外にも、様々な分析対象データを分析することができるものである。 In the "transaction", each purchase history is recorded, and in the "customer ID" column, the correspondence relationship between "master" and each row is associated. In the "transaction", the purchase date, category and price are recorded in association with the customer ID. The data described above are examples prepared for the purpose of explaining the present invention, and do not limit the scope of application of the present invention. INDUSTRIAL APPLICABILITY In addition to the purchase history data, the present invention can analyze various analysis target data.
分析対象データの読み込みが完了すると、図7に示すデータフロー表示ユーザーインターフェース51をモニタ3に表示させるとともに、データフロー表示ユーザーインターフェース51上でなされた使用者の操作を受け付ける。データフロー表示ユーザーインターフェース51には、データフロー表示領域51aと、下部表示領域51bと、特徴量自動生成ボタン51cと、データ加工ボタン51dと、データ出力ボタン51eとが設けられている。
When the reading of the data to be analyzed is completed, the data flow
データフロー表示領域51aには、読み込んだ分析対象データがアイコンとして表示される。下部表示領域51bには、読み込んだ分析対象データ同士の関係図(一般的にER図と呼ばれる)が表示される。図2に示すデータ入力部12は、読み込んだ複数の分析対象データで共通の列が存在するか否かを検出する。共通の列が存在するか否かは、例えば列の名称に基づいて判定できる。この例では、図6に示すように「master」及び「transaction」の両方に「顧客ID」という名称の列が存在することから、このことをデータ入力部12が検出する。すると、データ入力部12は、「master」の「顧客ID」と、「transaction」の「顧客ID」とが関連していると判断し、図7に示すように下部表示領域51bに表示される関係図において、「master」の「顧客ID」と、「transaction」の「顧客ID」と線で結んで表示する。
The read analysis target data is displayed as an icon in the data
以上の処理が、分析対象データの入力を受け付ける処理であり、データ入力部12で行われる。データ入力部12は、キーボード4やマウス5等の入力装置を含んでいてもよい。また、以上の処理は、図4に示すフローチャートにおけるステップSB1のデータ入力ステップに相当する。
The above processing is a processing for accepting input of analysis target data, and is performed by the
ステップSB1に続くステップSB2では、データ入力ステップで入力された分析対象データを加工する。まず、図7に示すデータフロー表示ユーザーインターフェース51のデータフロー表示領域51aに表示されている分析対象データのうち、加工したいデータを選択する。データの選択操作は、例えば、加工したいデータに対応するアイコンをクリックする操作を挙げることができる。アイコンをクリックすると、下部表示領域51bの関係図が消去されて、図8に示すように、選択した分析対象データが下部表示領域51bに表示される。このとき、下部表示領域51bには、選択した分析対象データの一部のみをプレビュー表示することができる。
In step SB2 following step SB1, the analysis target data input in the data input step is processed. First, from the analysis target data displayed in the data
「transaction」をプレビュー表示して見ると、「カテゴリ」列に「日配品」、「日配品A」という文言が混在している。「日配品」と「日配品A」は、値が互いに異なることになるため、後述するモデル学習時にはこれらは異なるカテゴリとして扱われるが、データ分析上、同一として扱いたいのであれば、これらの表記ゆれを統一する方がより高い精度が得られる。これをデータ加工という。 When the "transaction" is previewed and viewed, the words "daily delivery" and "daily delivery A" are mixed in the "category" column. Since the values of "daily delivery product" and "daily delivery product A" are different from each other, they are treated as different categories at the time of model learning described later, but if they are to be treated as the same in data analysis, these are treated. Higher accuracy can be obtained by unifying the notational fluctuations of. This is called data processing.
データ加工を行う際には、図8に示すデータフロー表示ユーザーインターフェース51のデータ加工ボタン51dを押す。データ加工ボタン51dが押されると、図9に示すデータ加工ユーザーインターフェース52をモニタ3に表示させるとともに、データ加工ユーザーインターフェース52上でなされた使用者の操作を受け付ける。データ加工ユーザーインターフェース52には、加工対象データ表示領域52aと、欠損値除去・穴埋めボタン52bと、データ置き換えボタン52cと、列削除ボタン52dと、列追加ボタン52eと、数式入力ボタン52fと、列情報表示ボタン52gと、終了ボタン52hとが設けられている。加工対象データ表示領域52aには、選択した分析対象データが表形式で表示される。表示されている表が大きい場合にはスクロールすることもできる。
When performing data processing, the
欠損値除去・穴埋めボタン52bは、分析対象データの欠損値の除去、及び分析対象データの穴埋めをする際に操作するボタンである。欠損値除去・穴埋めボタン52bを操作することで、任意の欠損値を除去したり、欠損した項目を追加することができる。データ置き換えボタン52cは、既存の値を別の値に置き換える際に操作するボタンである。例えば、「カテゴリ」列の「日配品A」のセルを選択してデータ置き換えボタン52cを押し、置き換え文字(値)として「日配品」と入力することで、同じ列の「日配品A」という値が「日配品」という値に自動的に置き換わる。列削除ボタン52dは、任意の列を削除する際に操作するボタンである。任意の列を選択した後、列削除ボタン52dを押すことで選択された列が削除される。列追加ボタン52eは任意の列を追加する際に操作するボタンである。表の任意の列を選択した後、列追加ボタン52eを押すことで選択された列の前後いずれかに列が追加される。数式入力ボタン52fは、セルに数式を入力するためのボタンである。数式入力ボタン52fの操作によって入力された数式によって演算された値になる。列情報表示ボタン52gは、任意の列に所定の情報を追加するためのボタンである。
The missing value removal / fill-in-the-
欠損値除去・穴埋めボタン52b、データ置き換えボタン52c、列削除ボタン52d、列追加ボタン52e、数式入力ボタン52f、列情報表示ボタン52gを操作して分析対象データを加工することができる。従って、データ分析装置1ではETL処理を行うことができ、ETL処理を行うことで分析対象データを分析により適した形に変形することができる。これにより、分析結果の精度をより一層高めることができる。一連の操作が終了したら、図9に示すデータ加工ユーザーインターフェース52の終了ボタン52hを押す。
The data to be analyzed can be processed by operating the missing value removal / fill-in-the-
終了ボタン52hが押されると、図10に示すように、データフロー表示ユーザーインターフェース51が再び表示される。データフロー表示ユーザーインターフェース51のデータフロー表示領域51aには、新たなアイコン「transaction-1」が表示される。この「transaction-1」は、「transaction」を加工した後の分析対象データであり、「transaction-1」と「transaction」とが関連線によって結ばれており、関係性をグラフィカルに表示している。よって、使用者は、「transaction-1」が「transaction」の加工後データであること、及び「transaction-1」は加工処理が行われたものであることを直観的に把握できる。以上の一連のETL処理が図4に示すフローチャートのステップSB2のデータ加工処理である。
When the
一連のETL処理が終了すると、図4に示すフローチャートのステップSB3の特徴量生成に関する設定を入力するステップに進む。図10に示すデータフロー表示ユーザーインターフェース51の特徴量自動生成ボタン51cを押すと、図11に示す特徴量自動生成ユーザーインターフェース53をモニタ3に表示させるとともに、特徴量自動生成ユーザーインターフェース53上でなされた使用者の操作を受け付ける。
When the series of ETL processing is completed, the process proceeds to the step of inputting the setting related to the feature amount generation in step SB3 of the flowchart shown in FIG. When the feature amount
特徴量自動生成ユーザーインターフェース53には、データフロー表示領域53aと、下部表示領域53bと、関係性指定領域53cと、目的変数指定領域53dと、詳細設定領域53eと、実行ボタン53fとが設けられている。データフロー表示領域53aは、例えば図10に示すデータフロー表示ユーザーインターフェース51のデータフロー表示領域51aと同様にデータフローが表示される。下部表示領域53bには、図7に示すデータフロー表示ユーザーインターフェース51の下部表示領域51bと同様に、分析対象データ同士の関係図が表示される。
The feature amount automatic
図11に示す関係性指定領域53cは、複数の分析対象データ間での対応関係を指定するための領域である。ここでは、「transaction-1」と「master」との対応関係を指定する。一例として、上述したように「transaction-1」の「顧客ID」と「master」の「顧客ID」とが対応した関係にあるので、「transaction-1」の「顧客ID」と「master」の「顧客ID」とを対応関係として指定しているが、これに限らず、「transaction-1」の任意の列と、「master」の任意の列とが対応関係にあるとして指定することもでき、両者の名前が一致している必要はない。
The
関係性の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、関係図上でドラッグ操作して線を引くことで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。尚、データが1つしか無い場合には、分析対象データ間での対応関係は指定しない。 The relationship may be specified by selecting it from the list of features, by dragging it on the relationship diagram to draw a line, or by directly entering the name. It may be specified by. If there is only one data, the correspondence between the data to be analyzed is not specified.
関係性指定領域53cの下部には、パーセント表示されている数値がある。この数値は、指定した列によって全体の何割の行が2つの分析対象データ間で対応しているのかを示している。例えば、図12に一例を示すように、第1分析対象データの「ID」列に「1」、「2」、「3」、「4」が1つずつ存在していて、第2分析対象データの「ID」列に「1」が3つ、「3」が1つ、「5」が1つ存在しているとすると、第1分析対象データの「1」が第2分析対象データの「1」にそれぞれ対応し、第1分析対象データの「3」が第2分析対象データの「3」に対応し、それ以外のIDは対応しないことになる。この場合、第1分析対象データでは50%(2/4行)、第2分析対象データでは80%(4/5行)が「ID」列で対応していることになり、全体としては6/9行、つまり、約67%で対応しているということになる。このような計算を行い、計算結果を関係性指定領域53cの下部に表示する。
At the bottom of the
目的変数指定領域53dは、分析対象となる目的変数を指定するための領域である。目的変数を指定することで、集約先のテーブルを決定することができる。ここでは顧客が離反するかどうかを分析するため、「master」の「離反」列を目的変数として指定している。従って、「transaction-1」の特徴量を集約し、「master」の新たな特徴量として加えることができる。目的変数の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、リストからドラッグ操作することで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。また、データ分析装置1は、目的変数が指定されると、目標変数として指定されたことを表すフラグを内部に設定する。このフラグを設定することで、後述する特徴量を目的変数自身から生成しないようにしている。
The objective
以上の一連の処理が図4に示すフローチャートのステップSB3の特徴量生成に関する設定を入力する処理である。 The above series of processes is the process of inputting the settings related to the feature amount generation in step SB3 of the flowchart shown in FIG.
続くステップSB4では、特徴量を生成する処理を実行する。この処理は、特徴量自動生成ユーザーインターフェース53の実行ボタン53fを押すことで開始される。
In the following step SB4, a process of generating a feature amount is executed. This process is started by pressing the
すなわち、ステップSB1、2で複数の分析対象データを指定し、ステップSB3で複数の分析対象データ関係性を指定した場合の特徴量の生成方法としては、例えば、AJ Knobbe, "Propositionalisation and Aggregates", 2001 に記載されている技術を使うことができる。図13に示す例は、「transaction」の「価格」の列について合計を計算し、「master」の特徴量として加える場合である。「transaction」の「顧客ID」が「1」の購買履歴を抽出し、「価格」の値を合計して購入金額の合計値を得る。「master」には、「合計の購入金額」の列を生成し、「顧客ID」が「1」の「合計の購入金額」の列に合計値を自動入力する。これは、「master」と「transaction」の間の行の対応関係が「顧客ID」列によって紐づけられていることから可能になる。 That is, as a method of generating a feature amount when a plurality of analysis target data are specified in steps SB1 and SB3 and a plurality of analysis target data relationships are specified in step SB3, for example, AJ Knobbe, "Propositionalisation and Aggregates", The techniques described in 2001 can be used. The example shown in FIG. 13 is a case where the total is calculated for the "price" column of "transaction" and added as the feature amount of "master". The purchase history in which the "customer ID" of the "transaction" is "1" is extracted, and the values of the "price" are summed to obtain the total purchase price. In "master", a column of "total purchase amount" is generated, and a total value is automatically input in a column of "total purchase amount" in which "customer ID" is "1". This is possible because the row correspondence between "master" and "transaction" is linked by the "customer ID" column.
集約する行は、例えば日付を表す行との組み合わせに基づいて決定してもよい。例えば、図14に示すように、「transaction」の「顧客ID」が「1」の購買履歴を抽出し、2018年2月1日を起点として直近10日以内の「価格」の値を合計する。「master」には、「直近10日以内の購入金額」の列を生成し、「顧客ID」が「1」の「直近10日以内の購入金額」の列に、直近10日以内の「価格」の合計値を自動入力する。全ての顧客IDについて同様な処理を行うことができる。 The row to be aggregated may be determined based on, for example, a combination with a row representing a date. For example, as shown in FIG. 14, the purchase history in which the "customer ID" of "transaction" is "1" is extracted, and the values of "price" within the last 10 days starting from February 1, 2018 are totaled. .. In "master", a column of "purchase amount within the last 10 days" is generated, and in the column of "purchase amount within the last 10 days" with "customer ID" of "1", "price within the last 10 days". The total value of "" is automatically entered. Similar processing can be performed for all customer IDs.
分析対象データが時系列データの場合、このように集計期間を、例えば10日、20日、30日と切り替えることができるように構成されている。集計期間を切り替えることで、同一の集約関数であっても様々な種類の特徴量を生成することができる。期間の単位は、秒、分、時、月、年のいずれであってもよい。例えば、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割するように構成することもできる。分析対象データの全集計期間が30日間の場合、0~10日、11日~20日、21日~30日のように分割することができる。この集計期間の分割は、後述する派生図生成部16bが派生図を生成する際に行うように構成できる。
When the data to be analyzed is time-series data, the aggregation period can be switched to, for example, 10 days, 20 days, and 30 days in this way. By switching the aggregation period, various types of features can be generated even with the same aggregation function. The unit of the period may be seconds, minutes, hours, months, or years. For example, it is possible to acquire the total aggregation period of the data to be analyzed and automatically divide the acquired total aggregation period into a plurality of aggregation periods. When the total aggregation period of the data to be analyzed is 30 days, it can be divided into 0 to 10 days, 11 to 20 days, and 21 to 30 days. The division of the aggregation period can be configured to be performed when the derivation
特徴量を生成した後、目的変数の予測に対する重要度を、各特徴量に対して評価する。目的変数の予測は、図2に示す予測モデル生成部13によって実行される。これが予測モデル生成ステップである。予測モデル生成部13は、複数の特徴量から目的変数を予測するための予測モデルを生成する。予測モデルは、例えば重回帰分析や決定木によって作ることができる。その生成手法については様々あるが、いずれも従来から知られた手法を用いることができる。
After the features are generated, the importance of the objective variable for prediction is evaluated for each feature. The prediction of the objective variable is executed by the prediction
予測モデルを生成した後、複数の特徴量それぞれに対して予測モデルによる予測に対する重要度を算出する。これは図2に示す重要度算出部14によって実行される処理であり、重要度算出ステップである。特徴量の重要度はFeature Importanceという名前で知られており、種々の計算方法が提案されており、いずれの計算方法を用いてもよい。例えば、以下の式(1)で表される線形重回帰モデルにおいて、各特徴量x1,x2,…に対する係数a1,a2,…を求め、その絶対値を重要度の値として使ってもよい。
After generating the prediction model, the importance of the prediction by the prediction model is calculated for each of the plurality of features. This is a process executed by the
y=a1x1+a2x2+…+anxn ・・・(1)
あるいは、係数をそのまま使うのではなく、各特徴量x1,x2,…の大きさが揃うように補正した正規化係数を重要度に用いてもよい。
y = a1x1 + a2x2 + ... + anxn ... (1)
Alternatively, instead of using the coefficient as it is, a normalization coefficient corrected so that the sizes of the feature quantities x1, x2, ... Are uniform may be used for the importance.
このような重要度の分析を行った後、重要度が上位のものを制御ユニット10が抽出する。このとき、先ほどの集計期間が異なる特徴量については、複数の特徴量が重要度の上位に入る場合でも、最も重要なものだけを残して他は削除する。これは、例えば「直近30日の購入金額」、「直近20日の購入金額」、「直近10日の購入金額」が同時に特徴量の上位に入った場合、それを使用者にそのまま提示すると、ほぼ同じ意味を持った特徴量が重複して表示されることになるため使用者にとって分かりにくくなる。また、上位を、同じ意味を持った特徴量が占めてしまうと、それ以外の有効な特徴量が上位から追い出されてしまうことになり、有効な知見が得られにくくなるからである。
After performing such an analysis of importance, the
「上位」に入る数としては、例えば2以上、5以上、10以上、20以上とすることができる。「上位」に入る数は、制御ユニット10が自動的に設定してもよいし、使用者が任意の数に設定してもよい。
The number in the "higher rank" can be, for example, 2 or more, 5 or more, 10 or more, and 20 or more. The number to be included in the "upper" may be automatically set by the
以上の一連の処理が図4に示すフローチャートのステップSB4の特徴量の生成処理である。特徴量の生成が完了するとステップSB5に進む。ステップSB5は、ステップSB4で生成した特徴量の情報を出力するステップである。 The above series of processes is the feature amount generation process of step SB4 in the flowchart shown in FIG. When the generation of the feature amount is completed, the process proceeds to step SB5. Step SB5 is a step of outputting information on the feature amount generated in step SB4.
特徴量の生成が完了して上位の特徴量が抽出されると、図15に示す特徴量表示ユーザーインターフェース60をモニタ3に表示させるとともに、特徴量表示ユーザーインターフェース60上でなされた使用者の操作を受け付ける。
When the generation of the feature amount is completed and the upper feature amount is extracted, the feature amount
特徴量表示ユーザーインターフェース60には、特徴量表示領域60aと、詳細情報表示領域60bとが設けられている。特徴量表示領域60aと詳細情報表示領域60bとはモニタ3の左右に並ぶように配置することができる。特徴量表示領域60aには、上位の特徴量が表示される。つまり、モニタ5は、重要度算出部14により算出された重要度に基づき、上位の重要度を有する特徴量を表示するものである。このステップが特徴量表示ステップである。
The feature amount
モニタ5は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示する、すなわち、ランキング表示するように構成されている。この例では、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されており、最上位の重要度を有する特徴量が最も上に位置し、最上位の重要度未満の複数の特徴量は、重要度の大きさによって降順に配置される。特徴量は、昇順に配置してもよいし、左右方向に並ぶように配置してもよい。特徴量表示領域60aに表示する特徴量は所定数であればよく、その数は特に限定されない。
The
特徴量表示領域60aには、特徴量の名称が表示される名称表示部60cと、重要度が表示される重要度表示部60dとが設けられている。名称表示部60cには、「transaction」、「master」に存在していた特徴量の名称が表示されるようになっている。「transaction」、「master」に存在していた特徴量の名称はそのまま名称表示部60cに表示することができるが、使用者が変更できるようにしてもよい。
The feature
重要度表示部60dには、棒グラフ形式で各特徴量の横に並ぶように、重要度が表示される。棒グラフ形式で表示する場合、長ければ長いほど重要度が高いとすることができる。重要度表示部60dには、各種グラフ形式以外にも重量度を数値で表示してもよいし、数値とグラフとを同時に表示してもよい。
On the
特徴量表示領域60aには、特徴量追加ボタン60fが設けられている。特徴量追加ボタン60fを押すと、特徴量表示領域60aに表示されている以外の特徴量が表示され、表示された特徴量の中から使用者が特徴量表示領域60aに表示したい特徴量を選択することができるようになっている。選択された特徴量は、特徴量表示領域60aに表示される。尚、特徴量表示領域60aに表示されている特徴量で不要だと思われる特徴量を削除する、非表示にする等も可能に構成されている。
The feature
(制御ユニット10の詳細動作)
図15に示す特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量は使用者によって選択することができる。マウス5等を使用して、どの特徴量を選択するか使用者が入力操作を行うと、図16に示すように、特徴量表示ユーザーインターフェース60の詳細情報表示領域60bに第1基本図70が表示される。第1基本図70は、図2に示す表示図生成部16の基本図生成部16aが生成する。この処理が基本図生成ステップである。つまり、基本図生成部16aは、モニタ3に表示された特徴量の中から使用者の入力に応じて選択された第1の特徴量と、目的変数との関係を示す基本図を生成する部分である。第1の特徴量とは、上記使用者が選択した特徴量のことであり、図16に示す例では、「直近30日の総来店日数」である。使用者が選択した特徴量は強調表示されて他の特徴量との識別が容易になっている。また、第1基本図70は、使用者の入力に応じて選択された特徴量の値に基づいて分析対象データを複数のクラスターに分割しており、各クラスターと、各クラスターの目的変数の代表値との関係を示す図となっている。
(Detailed operation of control unit 10)
The feature amount displayed in the feature
以下、第1基本図70について詳細に説明する。第1基本図70は、上側領域71と、中間領域72と、下側領域73の3つの領域に分けることができる。上側領域71には、縦軸を離反の割合とし、横軸を直近30日の総来店日数とした折れ線グラフが表示される。離反の割合とは、一度来店したが、その後、来店しなくなった顧客の割合である。横軸では、0日~30日までを6つの期間(区間)に分割して表示している。折れ線グラフでは、選択した特徴量と、目的変数(離反)との関係性が表示されている。
Hereinafter, the first basic diagram 70 will be described in detail. The first basic figure 70 can be divided into three regions, an
中間領域72には、縦軸をデータ数とし、横軸を直近30日の総来店日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域71に表示されている折れ線グラフの横軸と共有されている。この棒グラフでは、各区間に存在するデータの数が表現されており、度数分布表となっている。すなわち、制御ユニット10は、第1の特徴量の値に基づいて分析対象データを複数の期間に分割してクラスターを形成し、各クラスターに属する分析対象データの数を示すデータ数表示グラフを生成するように構成されている。そして、モニタ3は、生成されたデータ数表示グラフを表示可能に構成されている。
In the
上側領域71の折れ線グラフと、中間領域72の棒グラフとから、「直近30日の総来店日数が多いほど、離反=1のデータの割合が低下する」、「総来店日数が21日~25日の場合に離反=1の割合が最小となるが、該当するデータ数は少ない」といった傾向を読み取ることができる。
From the line graph of the
さらに、制御ユニット10は、離反=1の割合の平均値を算出する。平均値は全データの平均値とすることができ、この例では21%である。さらに、全体の平均値(21%)と比べて、目的変数の平均値に有意差があると判定された区間では、系列が強調表示され、さらに説明文がグラフ下部、すなわち、下側領域73に付加される。
Further, the
有意差が無い場合には強調表示はされない。「有意差が無い」とは、データのバラつきやデータの数などを考慮した上で、その区間の代表値が比較対象の区間の代表値に対して十分な差を持っていると言えない場合のことを指す。また、強調表示とは、例えば、文字を太くする、文字の色の他の文字の色と変える、文字の背景に色を付ける等、他の文字と区別することができる表示である。 If there is no significant difference, it will not be highlighted. "There is no significant difference" means that the representative value of the section does not have a sufficient difference from the representative value of the section to be compared, taking into consideration the variation of data and the number of data. Refers to. Further, the highlighting is a display that can be distinguished from other characters, for example, by thickening the character, changing the color of the character from the color of another character, or coloring the background of the character.
説明文は、選択された第1の特徴量と目的変数との関係を説明する文であり、図2に示す説明文自動生成部18によって自動的に生成される。説明文自動生成部18は、例えば、データ入力部12で受け付けた分析対象データの名称や、特徴量の名称、特徴量の相対差、データ数等に基づいて、選択された第1の特徴量が目的変数に与える影響の度合い等を説明する文を生成することができる。これにより、使用者が特徴量と目的変数との関係を把握し易くなるとともに、使用者がコメントを作成する手間を省くことができる。
The explanatory text is a text explaining the relationship between the selected first feature amount and the objective variable, and is automatically generated by the explanatory text
ここで、有意差の判定について説明する。有意差の判定には、統計で一般に使用されるp値やt検定といった指標を使うことができる。例えばt検定は以下の式1で計算される。x,sは注目する系列での目的値の平均と標準偏差、μは目的値の全体平均、nは系列のデータ数である。この値が大きいほど、差が有意であると判定できる。
Here, the determination of the significant difference will be described. Indicators such as p-values and t-tests commonly used in statistics can be used to determine significant differences. For example, the t-test is calculated by the
これらの指標を使うことで、単純に全体平均からの乖離の度合を見るだけでなく、データの量や個々のデータのバラつきを加味することができるので、偶然大きな乖離が生じているのか、意味のある差が生じているのかを区別することができる。 By using these indicators, it is possible not only to simply look at the degree of deviation from the overall average, but also to take into account the amount of data and the variation of individual data, so it means that a large deviation has occurred by chance. It is possible to distinguish whether a certain difference is occurring.
この統計検定を用いた強調表示によって、使用者はデータから真に意味のある場所に着目することができ、自動生成された特徴量から素早く有用な知見を得ることができる。 Highlighting using this statistical test allows the user to focus on truly meaningful locations from the data and quickly obtain useful insights from the automatically generated features.
上側領域71に表示されたグラフの中から任意の区間を選択すると、図17に示すように詳細メニュー74が表示される。詳細メニュー74は、選択した区間に含まれるデータと、全体の傾向とを比較するためのメニューであり、メニュー選択に応じてさらに詳細な情報を表示することができる。詳細メニュー74には、「値の平均値を比較」、「特徴量の寄与度を比較」及び「差分の説明を計算」の3つのメニューが含まれている。
When an arbitrary section is selected from the graph displayed in the
図17に示すように、例えば、「直近30日の総来店日数~5日」の区間に対して、「値の平均値を比較」というメニューを選択すると、図18に示すように、選択した区間のデータと全データのそれぞれについて、各特徴量の平均値を比較した比較表75が表示される。 As shown in FIG. 17, for example, when the menu "Compare average values" is selected for the section of "total number of visits to the store in the last 30 days to 5 days", the selection is made as shown in FIG. A comparison table 75 comparing the average value of each feature amount is displayed for each of the section data and all the data.
詳しくは、使用者が図16に示す第1基本図70に示された複数のクラスターから、いずれか1つのクラスターを選択する操作(クリック操作等)を行うと、この操作が図2に示すクラスター選択部15によって受け付けられる。この処理がクラスター選択ステップである。図2に示す比較図生成部16cは、クラスター選択部15により選択が受け付けられた後、選択されたクラスターにおいて、目的変数の予測に寄与する特徴量と、全クラスターまたはクラスター選択部15により選択されていない選択外のクラスターにおいて、目的変数の予測に寄与する特徴量との比較を示す比較表75(図18に示す)を生成する。この処理が比較図生成ステップである。
Specifically, when the user performs an operation (click operation, etc.) to select one of the clusters from the plurality of clusters shown in the first basic FIG. 70 shown in FIG. 16, this operation is performed by the cluster shown in FIG. It is accepted by the
詳細は後述するが、比較図生成部16cは、クラスター選択部15により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す比較図を生成するように構成することもできる。また、比較図生成部16cは、上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す比較図を生成するように構成することもできる。さらに、比較図生成部16cは、分析対象データの値が存在していない欠損クラスターにおいて、目的変数の予測に寄与する特徴量を示す比較図を生成するように構成することもできる。
Although the details will be described later, the comparison
比較表75は、比較図であり、表形式以外にもグラフを表示した比較図であってもよい。そして、モニタ3は、第1基本図70と比較表75と同時または別々に表示可能に構成されており、第1基本図70と、比較表75とを同時または別々に表示する比較図表示ステップを実行することができる。
The comparison table 75 is a comparison diagram, and may be a comparison diagram displaying a graph in addition to the tabular format. The
比較表75には、重要度が高くないものを含む全ての特徴量の中から、平均値の乖離が有意に大きいものだけを表示している。ここでの有意性の判定にも、先ほどと同様にp値やt検定を使うことができる。 In the comparison table 75, only the ones having a significantly large deviation in the mean value are displayed from all the feature quantities including the ones having a low importance. The p-value and t-test can be used to determine the significance here as before.
比較表75に表示する特徴量を使用者が選択可能に構成することもできる。比較表75の下部には、特徴量追加ボタン75aが設けられている。特徴量追加ボタン75aを押すと、任意の特徴量を比較軸として追加することができる。比較表75に表示する特徴量を使用者が削除可能に構成することもできる。
The feature amount to be displayed in the comparison table 75 can be configured to be selectable by the user. At the bottom of the comparison table 75, a feature
この例では比較表75に平均値を表示しているが、例えば、分散、中央値、最小値など、平均値以外の統計量を表示してもよい。 In this example, the mean value is displayed in the comparison table 75, but statistics other than the mean value such as variance, median value, and minimum value may be displayed.
これによって、ある特徴量を切り口として興味深いデータ群(本例なら離反率が高い顧客群)が見つかったときに、そのデータ群に固有の性質が何なのかを詳細に掘り下げることができ、その結果、新たな知見を得ることができる。 As a result, when an interesting data group (customer group with a high separation rate in this example) is found using a certain feature amount as a starting point, it is possible to delve into in detail what the unique properties of the data group are. , New findings can be obtained.
さらに、比較や分析の軸となる特徴量は自動的に生成されているため、例えば「直近30日の総来店日数が少ない顧客では、野菜と日配品の購入額が特に小さい」といった、熟練の分析者でなければ気づきにくい、深い知見を容易に得ることができる。 Furthermore, since the feature quantities that are the core of comparison and analysis are automatically generated, for example, "customers who have a short total number of visits in the last 30 days have a particularly small purchase price of vegetables and daily deliveries." It is easy to obtain deep knowledge that is difficult to notice unless you are an analyst.
また、特徴量を選択した際に表示されるグラフは、目的変数との関係に加えて、それ以外のグラフを1つ以上含んでいてもよい。例えば、「直近30日の総来店日数」を指定した場合に、図19に示すように、2つ目のグラフとして「30日以外の期間で集計した場合との精度の比較」に関する予測精度比較グラフ76を表示することができる。予測精度比較グラフ76は、図18に示す第1基本図70の下に位置しており、従って第1基本図70が詳細情報表示領域60bに表示された状態から縦スクロールバー60eを操作して下スクロールすることで、予測精度比較グラフ76を表示することができる。第1基本図70と予測精度比較グラフ76とは同時に表示できるようにしてもよい。以上のようにして、第1基本図70と予測精度比較グラフ76とを同時にまたは別々に表示する派生図表示ステップを実行することができる。
Further, the graph displayed when the feature amount is selected may include one or more graphs other than the graph in addition to the relationship with the objective variable. For example, when "total number of days visited in the last 30 days" is specified, as shown in FIG. 19, the prediction accuracy comparison regarding "comparison of accuracy with the case of totaling in a period other than 30 days" as the second graph.
図19に示す予測精度比較グラフ76は、第3の派生図と呼ぶこともできる。第3の派生図は、第1の特徴量(本例では「直近30日の総来店日数」)に基づいて生成された予測モデルの精度と、第1の特徴量と同一カテゴリーに属し、且つ第1の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す図である。「集計期間が異なる」ことは、予測精度比較グラフ76の横軸に示しており、具体的には「10日」、「20日」、…という表示である。この第3の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。これら直近10日の総来店日数、直近20日の総来店日数、直近30日の総来店日数は、「総来店日数」という同一のカテゴリーに属する。
The prediction
派生図生成部16bが第3の派生図を生成する場合には、第1の特徴量と同一カテゴリーに属し、集計期間が異なる別の特徴量に基づいて予測された予測モデルの精度を、第1の特徴量に基づいて生成された予測モデルの精度と比較することができる。これにより、使用者が各予測モデルの精度の相対差を把握した上で、どの予測モデルを使用して分析を行えば精度が高まるか、容易に判断可能になる。
When the derivation
また、派生図生成部16bは、第3の派生図の生成時に、複数の別の特徴量に基づいてそれぞれ生成された各予測モデルの精度と、第1の特徴量に基づいて生成された予測モデルの精度とを比較可能に表現する図を生成する。さらに、派生図生成部16bは、第3の派生図の生成時に、別の特徴量として、所定以上の重要度を有する特徴量に基づいて生成された予測モデルの精度と、第1の特徴量に基づいて生成された予測モデルの精度とを比較可能にする図を生成する。具体的には、グラフであるが、その他にも数値で比較可能な図であってもよい。
Further, the derivative
例えば時間や日数で集計される特徴量については、上述したように、集計期間が異なる特徴量を複数パターン生成し、その中で最適なものを1つ自動的に選択するように構成されている。図19では、選択されなかった集計期間との精度差を相対値で提示することで、「別の集計期間での総来店日数を特徴量として使うとどうなっていたか」を示すことができる。 For example, for features that are aggregated by time or number of days, as described above, it is configured to generate multiple patterns of features with different aggregation periods and automatically select the most suitable one. .. In FIG. 19, by presenting the accuracy difference from the unselected aggregation period as a relative value, it is possible to show "what happened when the total number of store visits in another aggregation period was used as a feature quantity".
精度としては、データ分析で一般的に使用されるF値、AUCなどを使う。精度は絶対値でもよく、処理時間やデータ量など、精度以外の観点を組み合わせた指標でもよい。これによって、「なぜ20日でも40日でもなく、30日の総来店日数が出力されたのか?」と考えるユーザーに対して、より納得感を持たせることができる。また、「精度があまり変わらないのであれば集計するデータ量をなるべく少なくしたい」という要望に対して、データ量の影響度合いを提示することで判断基準を提供できる。
As the accuracy, the F value, AUC, etc. generally used in data analysis are used. The accuracy may be an absolute value, or may be an index that combines viewpoints other than accuracy, such as processing time and data amount. As a result, it is possible to give a more convincing feeling to the user who thinks "Why was the total number of visits to the
図20は、特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量のうち、「最終来店日からの経過日数」を選択した場合を示している。特徴量表示ユーザーインターフェース60の詳細情報表示領域60bに第2基本図77が表示される。第2基本図77は、図2に示す表示図生成部16の基本図生成部16aが生成したものであり、この処理が基本図生成ステップである。つまり、基本図生成部16aは、モニタ3に表示された特徴量の中から使用者の入力に応じて選択された第1の特徴量と、目的変数との関係を示す基本図を生成しており、第1の特徴量とは、図20に示す例では、「最終来店日からの経過日数」である。
FIG. 20 shows a case where “the number of days elapsed from the last visit date” is selected from the feature quantities displayed in the feature
第2基本図77は、上側領域77aと、中間領域77bと、下側領域77cの3つの領域に分けることができる。上側領域77aには、縦軸を離反の割合とし、横軸を最終来店日からの経過日数とした折れ線グラフが表示される。横軸では、0日~30日までを6つの期間(区間)に分割して表示している。
The second basic figure 77 can be divided into three regions, an
中間領域77bには、縦軸をデータ数とし、横軸を最終来店日からの経過日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域77aに表示されている折れ線グラフの横軸と共有されている。また、下側領域77cには、説明文自動生成部18で自動生成された説明文が表示される。
In the
図20に示す例でも、選択した特徴量と目的変数との関係性が表示されているが、強調される系列や、下側領域77cに記載される説明文の内容は、特徴量の性質に応じて図16に示す例とは異なっている。
In the example shown in FIG. 20, the relationship between the selected feature amount and the objective variable is also displayed, but the emphasized series and the content of the explanatory text described in the
さらに、特徴量の詳細説明を行う2番目のグラフは、図21に示すように、別の特徴量との複合的な影響を示す影響度比較グラフ78となっている。このような影響度比較グラフ78を生成することもでき、このグラフ78は、第1の特徴量及び第2の特徴量を同時に表示した同時表示グラフと呼ぶことができる。生成された同時表示グラフは、モニタ3に表示可能になっている。影響度比較グラフ78は、第2基本図77と同時に表示してもよいし、別々に表示してもよい。影響度比較グラフ78と、第2基本図77と表示するステップが派生図表示ステップである。
Further, as shown in FIG. 21, the second graph for explaining the feature amount in detail is an influence
影響度比較グラフ78は、第1の派生図と呼ぶこともできる。第1の派生図は、第1の特徴量(本例では「最終来店日からの経過日数」)の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか1つのクラスターで、第1の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第2の特徴量(本例では「直近30日の総来店日数」)を抽出し、当該第2の特徴量と目的変数との関係を示す図である。この第1の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。
The influence
すなわち、図2に示す派生図生成部16bが第1の派生図である影響度比較グラフ78(図21に示す)を生成する場合には、例えば、複数の期間に分割した第1の特徴量を得て、各期間の目的変数の代表値として平均値や中央値等を算出し、任意の期間において、第1の特徴量の目的変数の代表値に対して有意な差が存在する目的変数の代表値を有する第2の特徴量を抽出し、この第2の特徴量と目的変数との関係を示すことができる。これにより、第1の特徴量だけでは得ることのできなかった知見を得ることができる。分析対象データを振り分ける条件を区間と呼ぶことができ、区間は、期間だけでなく、例えば、性別、場所等であってもよい。
That is, when the derivative
また、派生図生成部16bは、第1の特徴量の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターに属する分析対象データの数を示すデータ数表示グラフ78aを生成するように構成されている。分析対象データを複数のクラスターに分割する際、派生図生成部16bは、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割する。これにより、使用者の分割作業の手間を省くことができる。
Further, the derivative
データ数表示グラフ78aは、第1の派生図(影響度比較グラフ78)の下に表示された棒グラフである。そして、モニタ3は、派生図生成部16bにより生成されたデータ数表示グラフ78aを表示可能に構成されている。データ数表示グラフ78aによれば、分析対象データの数を把握することができる。
The data
また、分析対象データの数が第1の所定数以下のクラスターが存在することを使用者に通知するように構成することができる。例えば、全データ数の数%以下のデータ数しかないクラスターが存在した場合、当該クラスターを構成するデータ数が全データ数の数%以下であるといった通知をすることで、使用者がクラスターの特徴量の信頼性を判断する際の材料になる。 Further, it can be configured to notify the user that there are clusters in which the number of data to be analyzed is the first predetermined number or less. For example, if there is a cluster with less than a few percent of the total number of data, the user can be notified that the number of data constituting the cluster is less than a few percent of the total number of data. It is a material for judging the reliability of the quantity.
派生図生成部16bは、第1の派生図の生成時に、分析対象データの数が第2の所定数以下の特徴量については、第1の特徴量の目的変数の代表値に対して有意な差が無いと判定するように構成されている。第2の所定数と、前記第1の所定数とは同じであってもよいし、一方が他方よりも少なくてもよい。例えば、全データ数の数%以下のデータ数しかない特徴量が存在した場合、目的変数の信頼性が乏しいと考えることができ、このような場合には、有意な差が無いと判定することで、分析に用いられないようにすることができる。
When the derivation
影響度比較グラフ78では、選択した特徴量だけで見ると同一区間のデータであっても、別の特徴量でデータを更に分割することで、目的変数との関係に大きな差異が生じることを示している。図20に示す上側領域77aに表示されている折れ線グラフでは、「最終来店日からの経過日数が小さいほど、離反=1の割合が低下する」という事実を読み取ることができたが、図21に示す影響度比較グラフ78からは更に、「たとえ最終来店日からの経過日数が小さくても、総来店日数が10日未満の顧客は離反率が高い」という新たな知見を得ることができる。
The
この影響度比較グラフ78では、別の特徴量の違いによる区間内の差が有意かどうかを検定し、有意であると判定された区間だけが強調表示されている。ここでは「直近30日の総来店日数」という特徴量を選択した特徴量と組み合わせているが、他の全ての特徴量について組合せのグラフを表示すると表示される数が膨大となる。
In this influence
そこで、各組合せについて上記有意性の値を計算した上で、有意性が特に高いものだけを選択して表示する。なお、図16に示す例では、この影響度比較グラフ78について説明しなかったが、その理由は、どの組合せで評価した場合でも系列内で有意な差が生じなかったからである。つまり、系列内で有意な差が生じれば、影響度比較グラフ78を自動的に生成して表示させることができるように構成されている。
Therefore, after calculating the significance value for each combination, only those having a particularly high significance are selected and displayed. In the example shown in FIG. 16, this influence
この際、組み合わせる特徴量は、重要度が高い特徴量であってもよいし、重要度が低い特徴量であってもよく、重要度の高低に関係なく決定することができる。 At this time, the feature amount to be combined may be a feature amount having high importance or a feature amount having low importance, and can be determined regardless of the degree of importance.
また、組み合わせる特徴量をどの区間で分割するか(図21の場合5日)についても、様々な分割方法のそれぞれで有意性を検証し、有意性が最も高くなる値を選択するように構成することができる。例えば、5日間で分割した場合と、10日間で分割した場合とのそれぞれで有意性を検証することもでき、このような区間の分割方法は制御ユニット10が自動で行うようにしてもよいし、使用者が手動で行うようにしてもよい。
Also, regarding which section to divide the feature amount to be combined (5 days in the case of FIG. 21), the significance is verified by each of the various division methods, and the value having the highest significance is selected. be able to. For example, it is possible to verify the significance of each of the case of dividing into 5 days and the case of dividing into 10 days, and the
図22に示す特徴量表示ユーザーインターフェース60は、その上側領域71に表示されたグラフの中から任意の区間を選択したことで詳細メニュー74が表示されており、さらに、その詳細メニュー74の中から、「特徴量の寄与度を比較」を選択した場合である。すると、図23に示す寄与度表示グラフ79を特徴量表示ユーザーインターフェース60に表示することができる。この寄与度表示グラフ79では、選択したデータ群と全体との間で、各特徴量の寄与度を比較しており、比較図に相当するものである。よって、寄与度表示グラフ79は、比較図生成部16cによって生成される。このステップが比較図生成ステップである。また、寄与度表示グラフ79と第2基本図77とを同時にまたは別々に、モニタ3に表示させることが可能になっている。寄与度表示グラフ79と第2基本図77とを同時にまたは別々に表示させる処理が比較図表示ステップである。
In the feature amount
ここで、特徴量の寄与度の計算方法について詳細に説明する。線形重回帰分析と呼ばれる分析手法では、以下の形式で表される予測式(2)を用いる。 Here, the calculation method of the contribution of the feature amount will be described in detail. In the analysis method called linear multiple regression analysis, the prediction formula (2) expressed in the following format is used.
y=a1x1+a2x2+a3x3+…+anxn+b ・・・(2)
yは予測値、x1,x2,…は各特徴量の値(説明変数)、a1,a2,…は各特徴量に対する係数を表す。また、bは定数項である。重回帰分析では、各データについてyの値が目的変数に近づくように、係数aおよび定数項bを学習する。
y = a1x1 + a2x2 + a3x3 + ... + anxn + b ... (2)
y represents a predicted value, x1, x2, ... Represents a value (explanatory variable) of each feature amount, and a1, a2, ... Represents a coefficient for each feature amount. Further, b is a constant term. In the multiple regression analysis, the coefficient a and the constant term b are learned so that the value of y approaches the objective variable for each data.
上式(2)から、予測値yは各特徴量に関する項(a1x1,a2x2,…)と、定数項の和からなる。項の絶対値が大きな特徴量ほど、予測に対してより大きな影響を与えていると解釈できる。 From the above equation (2), the predicted value y consists of the terms (a1x1, a2x2, ...) For each feature amount and the constant term. It can be interpreted that the larger the absolute value of the term is, the greater the influence on the prediction.
そこで、係数と特徴量の値の積aixiのことを、特徴量iに関する寄与度と定義する。この寄与度を、複数のデータに対する予測について平均すると、任意のデータ群について、そのデータ群の予測に対する平均的な寄与度を算出することができる。 Therefore, the product aixi of the coefficient and the value of the feature amount is defined as the contribution degree with respect to the feature amount i. By averaging this contribution to the predictions for a plurality of data, it is possible to calculate the average contribution to the predictions of the data group for any data group.
例えば図24に示すように、y=3x1-2x2+1の場合、4つのデータで平均を取ると、特徴x1は予測値に対してややプラスの寄与度を持ち、また、特徴x2は予測値に対して大きくマイナスの寄与度を持っていることになる。
For example, as shown in FIG. 24, when y = 3x1-
本例では上式の線形重回帰分析による寄与度の計算手順について説明したが、非線形のアルゴリズムであっても各予測に対して線形モデルでの近似を行うことで、同様の計算を行うことができる(例:Scott M. Lundberg, ”Consistent Individualized Feature Attribution for Tree Ensembles”(2018))。 In this example, the procedure for calculating the contribution by the linear multiple regression analysis in the above equation was explained, but even if it is a non-linear algorithm, the same calculation can be performed by approximating each prediction with a linear model. Yes (eg Scott M. Lundberg, “Consistent Individualized Feature Attribution for Tree Ensembles” (2018)).
上記で定義される寄与度を選択中のデータについて算出するとともに、全データについても算出し、両者を比較しているのが図23に示す寄与度表示グラフ79である。寄与度表示グラフ79により、例えば、「最低購入金額は全体ではさほど離反に影響しないが、注目するデータ群では大きな影響を与える」、「しかしながら、それでも全体の購入金額の影響のほうが大きい」といった傾向を把握することができ、これが新たな知見になる。
The
本例で表示している特徴量は、重要度が上位の特徴量と、選択したデータ群でのみ寄与度が有意に高い特徴量(最低購入金額)との2つに絞り込んでいるが、これ以外にも寄与度の差が有意に高いものだけを表示してもよい。表示する特徴量は使用者が削除できるようにしてもよい。 The features displayed in this example are narrowed down to two, the features with higher importance and the features with significantly higher contribution only in the selected data group (minimum purchase price). In addition to this, only those with a significantly high difference in contribution may be displayed. The feature amount to be displayed may be deleted by the user.
図15に示す特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量の中から、「性別」を選択すると、図25に示す第3基本図80が特徴量表示ユーザーインターフェース60に表示される。第3基本図80は、図2に示す表示図生成部16の基本図生成部16aが生成したものであり、この処理が基本図生成ステップである。この第3基本図80では、図16に示す例、図20に示す例と違って特徴量が数値ではないため、第3基本図80の表現が棒グラフに変更される。また、項目の「欠損」は、元の分析対象データに値が存在しない場合を表している。図25に示す例では、性別の差によって目的変数の値に有意差が見られなかったため、どの系列も強調されない状態で表示されているが、有意差が見られれば強調表示することができる。
When "gender" is selected from the feature quantities displayed in the feature
ここで、図25に示す系列「欠損」を選択して図17に示すような詳細メニュー74を表示した後、詳細メニュー74の中から「差分の説明を計算」を選択すると、図26に示す差分の説明グラフ81を特徴量表示ユーザーインターフェース60に表示することができる。この差分の説明グラフ81では、選択したデータ群と全体を比較したとき、目的変数の値の差分が主にどの特徴量で説明付けられるのかを示しており、比較図に相当するものである。よって、図26に示す差分の説明グラフ81は、比較図生成部16cによって生成される。このステップが比較図生成ステップである。また、差分の説明グラフ81と第3基本図80とを同時にまたは別々に、モニタ3に表示させることが可能になっている。差分の説明グラフ81と第3基本図80とを同時にまたは別々に表示させる処理が比較図表示ステップである。尚、説明付けのための計算には、先述の貢献度の値を使用する。
Here, when the series "missing" shown in FIG. 25 is selected to display the
ここで、差分の説明の算出方法について説明する。まず、全データと選択したデータ群それぞれについて、先述の貢献度を各特徴量で計算する。 Here, the calculation method of the explanation of the difference will be described. First, for all the data and each of the selected data groups, the above-mentioned contribution is calculated for each feature amount.
y_all = B1all + B2all + B3all + … + Bnall + b ・・・(3)
y_sel = B1sel + B2sel + B3sel + … + Bnsel + b ・・・(4)
y_all,y_selは全データ/選択したデータに対する平均の予測値を表す。Biall,Biselはi番目の特徴量についての全データ/選択したデータの貢献度を表す。
y_all = B1all + B2all + B3all +… + Bnall + b ・ ・ ・ (3)
y_sel = B1sel + B2sel + B3sel +… + Bnsel + b ・ ・ ・ (4)
y_all and y_sel represent the average predicted value for all data / selected data. Biall and Bisel represent the contribution of all data / selected data for the i-th feature.
(4)-(3)を計算すると、
y_sel = y_all + (B1sel - B1all) + (B2sel - B2all) + … + (Bnsel - Bnall)
・・・(5)
となる。右辺の第2項以降は選択したデータと全データの貢献度の差を表す(これをDiとする)。また、y_sel,y_allは実際の目的変数の平均値y_sel_true,y_all_trueに対して、予測誤差が含まれていると考えられる。
When (4)-(3) is calculated,
y_sel = y_all + (B1sel --B1all) + (B2sel --B2all) +… + (Bnsel --Bnall)
... (5)
Will be. The second and subsequent terms on the right side represent the difference in contribution between the selected data and all data (this is referred to as Di). In addition, y_sel and y_all are considered to contain prediction errors with respect to the average values y_sel_true and y_all_true of the actual objective variables.
y_sel_true = y_sel + δ_sel ・・・(6)
y_all_true = y_all + δ_all ・・・(7)
(6)、(7)を(5)に代入すると、
y_sel_true = y_all_true + D1 + D2 + … Dn + (δ_all - δ_sel) ・・・(8)
となる。式(8)から、選択したデータの目的変数の平均値(y_sel_true)は、全データの目的変数の平均値、各々の特徴量の貢献度の差、予測誤差の3つの要素の和であると説明できる。
y_sel_true = y_sel + δ_sel ・ ・ ・ (6)
y_all_true = y_all + δ_all ・ ・ ・ (7)
Substituting (6) and (7) into (5)
y_sel_true = y_all_true + D1 + D2 +… Dn + (δ_all --δ_sel) ・ ・ ・ (8)
Will be. From equation (8), the mean value (y_sel_true) of the objective variable of the selected data is the sum of the three elements of the mean value of the objective variable of all the data, the difference in the contribution of each feature, and the prediction error. I can explain.
上記のグラフでは、貢献度の差D1,D2,…のうち、値が特に大きいものを個別に表示し、残りの要素と予測誤差は、まとめて「その他/予測誤差」の項目で表示している。 In the above graph, among the differences D1, D2, ... Of the degree of contribution, the ones with particularly large values are displayed individually, and the remaining elements and the prediction error are collectively displayed in the "Other / Prediction error" item. There is.
このように、貢献度の差によって目的変数の差を説明するグラフ81を表示することによって、「性別=欠損のユーザー群の離反率が54%と高いのは何故か?」という疑問に対して、「性別=欠損のユーザーの離反率の高さは、『合計の購入金額』による影響を部分的に受けている」、「ただし、差分のうち15%程度は、主要な特徴量の差分では説明が出来ない」という洞察を得ることができる。
In this way, by displaying the
ただし、性別=欠損の系列が元々強調表示されていなかった通り、性別=欠損で離反が大きいことに有意と言えるほどの情報がなく、上記の洞察は誤っている可能性もある。その注意を促す文言も、グラフ81と併せて表示する。
However, as the gender-deficient sequence was not originally highlighted, there is not enough information to say that gender = deficiency has a large divergence, and the above insights may be incorrect. The wording that calls attention is also displayed together with the
さらに、性別を説明する別のグラフとして、図27に示すように、特徴量の寄与度の変化に関するグラフ82を表示することができる。これは図20に示す例においてグラフをクリックすることで表示されたものと同じ種類のグラフを性別に対して表示している。
Further, as another graph for explaining gender, as shown in FIG. 27, a
図27に示すグラフ82は、第2の派生図と呼ぶこともできる。第2の派生図は、複数のクラスターのうち、所定のクラスターで目的変数の予測に寄与している特徴量を示す図である。クラスターとは、前記第1の派生図と同じであり、この例では性別の「男」、「女」、「欠損」としているが、期間とすることもできる。第2の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。派生図生成ステップの後、基本図と第2の派生図とを同時にまたは別々に表示する派生図表示ステップを実行することができる。
The
また、この例では、所定のクラスターで目的変数の予測に寄与している特徴量と、全クラスターを合わせた第1の特徴量とを同時に表示することができるようになっている。 Further, in this example, the feature amount contributing to the prediction of the objective variable in a predetermined cluster and the first feature amount in which all the clusters are combined can be displayed at the same time.
派生図生成部16bが第2の派生図を生成する場合には、上述したようにクラスターとして男、女に分割したとき、性別の違いによって目的変数の予測に対する寄与度合いが大きく変わることがあり、このような目的変数の予測に寄与している特徴量を示すことで、新たな知見を得ることができる。
When the derivation
また、図27に示すグラフに基づいて、「性別は単独では目的変数の平均値に影響を与えないが、性別の違いによって他の特徴量の寄与の度合が大きく変わるため、結果的に重要な特徴量である」という知見が得られる。 Further, based on the graph shown in FIG. 27, "Gender alone does not affect the mean value of the objective variable, but the degree of contribution of other features varies greatly depending on the gender, which is important as a result. It is a feature quantity. "
(実施形態の作用効果)
以上説明したように、この実施形態に係るデータ分析装置1及びデータ分析方法によれば、大量のデータに含まれる重要度の高い特徴量をモニタ3に表示することができる。そして、特徴量と目的変数との関係を示す基本図や、複数の特徴量と目的変数との関係を示す派生図、所定のクラスターで目的変数の予測に寄与している特徴量を示す派生図、集計期間が異なる特徴量に基づいて生成された予測モデルの精度比較を示す派生図等をモニタ3に表示することができる。
(Action and effect of the embodiment)
As described above, according to the
また、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができる。従って、新たな知見を得るための手助けをすることができる。 In addition, it is possible to know the relationship between the representative value of the objective variable for each of the clusters formed by dividing the data to be analyzed, and the features that contribute to the prediction of the objective variable in the selected cluster, and all clusters or non-selected clusters. It is possible to compare with the features that contribute to the prediction of the objective variable in the cluster of. Therefore, it can help to obtain new knowledge.
(その他の実施形態)
上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
(Other embodiments)
The above embodiments are merely exemplary in all respects and should not be construed in a limited way. Further, all modifications and modifications belonging to the equivalent scope of the claims are within the scope of the present invention.
上記実施形態では、目的変数と特徴量の関係を示すために折れ線グラフや棒グラフを用いたが、散布図など他の表現方法を用いてもよい。散布図の場合、グラフの系列をクリックする代わりに、グラフ内の領域をドラッグで選択することでデータの一部を選択し、詳細なグラフを更に表示することができる。 In the above embodiment, a line graph or a bar graph is used to show the relationship between the objective variable and the feature amount, but other expression methods such as a scatter diagram may be used. In the case of a scatter plot, instead of clicking on a series of graphs, you can select a portion of the data by dragging and selecting an area in the graph to see more detailed graphs.
第1の派生図(図21に示す影響度比較グラフ78)、第2の派生図(図27に示す特徴量の寄与度の変化に関するグラフ82)及び第3の派生図(図19に示す予測精度比較グラフ76)のうち、任意の1つと、基本図70、77、80とをモニタ3に同時に表示してもよいし、異なるタイミングで表示してもよい。派生図生成部16bが第1の派生図、第2の派生図及び第3の派生図の全てを生成してもよく、生成する順番は特に限定されない。また、第1の派生図、第2の派生図及び第3の派生図の全てをモニタ3に表示してもよい。
The first derivative diagram (influence
また、基本図70、77、80については、本実施形態では3つだけ示しているが、使用者が選択する特徴量に応じて基本図生成部16aが生成する。基本図70、77、80と、第1の派生図、第2の派生図及び第3の派生図とを切り替えて表示する場合、例えば画面切替ボタンのような操作手段を利用することもできる。
Further, although only three
以上説明したように、本発明に係るデータ分析装置及びデータ分析方法は、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる場合に使用することができる。 As described above, the data analysis device and the data analysis method according to the present invention can be used when attempting to obtain useful knowledge previously unknown from a large amount of information.
1 データ分析装置
3 モニタ(表示部)
3a 表示制御部
11 主制御部
12 データ入力部
13 予測モデル生成部
14 重要度算出部
15 クラスター選択部
16a 基本図生成部
16b 派生図生成部
16c 比較図生成部
17 名称自動生成部
18 説明文自動生成部
30 記憶部
70、77、80 基本図
76 予測精度比較グラフ(第3の派生図)
75 比較表(比較図)
78 影響度比較グラフ(第1の派生図)
79 寄与度表示グラフ(比較図)
81 差分の説明グラフ(比較図)
83 特徴量の寄与度の変化に関するグラフ(第2の派生図)
1
3a
75 Comparison table (comparison diagram)
78 Impact comparison graph (first derivative)
79 Contribution display graph (comparison diagram)
81 Difference explanation graph (comparison diagram)
83 Graph regarding changes in the contribution of features (second derivative diagram)
Claims (7)
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、
前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、
前記表示部に表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成部と、
前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択部と、
前記クラスター選択部により選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択部により選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成部とを備え、
前記表示部は、前記基本図生成部により生成された基本図と、前記比較図生成部により生成された比較図とを表示可能に構成されていることを特徴とするデータ分析装置。 In a data analyzer that analyzes data to be analyzed,
A data input unit that accepts input of analysis target data including multiple features and objective variables,
A prediction model generation unit that generates a prediction model for predicting the objective variable from the plurality of features.
An importance calculation unit that calculates the importance of the prediction by the prediction model for each of the plurality of features,
A display unit that displays features having higher importance based on the importance calculated by the importance calculation unit, and a display unit.
The data to be analyzed is divided into a plurality of clusters based on the value of the feature amount selected according to the input of the user from the feature amounts displayed on the display unit, and each cluster and the objective variable of each cluster are divided. A basic diagram generator that generates a basic diagram showing the relationship with the representative values of
A cluster selection unit that accepts the selection of any one of the multiple clusters shown in the basic diagram, and a cluster selection unit.
Features that contribute to the prediction of the objective variable in the cluster selected by the cluster selection unit and features that contribute to the prediction of the objective variable in all clusters or non-selected clusters that are not selected by the cluster selection unit. It is equipped with a comparison diagram generation unit that generates a comparison diagram showing comparison with a quantity.
The display unit is a data analysis device characterized in that the basic diagram generated by the basic diagram generation unit and the comparison diagram generated by the comparison diagram generation unit can be displayed.
前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とするデータ分析装置。 In the data analyzer according to claim 1,
The display unit is a data analysis device characterized in that a plurality of feature quantities having higher importance are arranged and displayed in descending order of importance.
前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とするデータ分析装置。 In the data analyzer according to claim 2,
The display unit is a data analysis device characterized in that the feature amount having the highest importance and a plurality of feature amounts less than the highest importance are simultaneously displayed.
前記比較図生成部は、前記クラスター選択部により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。 The data analyzer according to any one of claims 1 to 3.
The data analyzer is characterized in that the comparison diagram generation unit is configured to generate the comparison diagram showing a feature amount having a significantly high contribution only in the cluster selected by the cluster selection unit.
前記比較図生成部は、前記上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。 The data analyzer according to any one of claims 1 to 4.
The data analysis device is characterized in that the comparison diagram generation unit is configured to generate the comparison diagram showing the feature quantities not selected by the user among the feature quantities having higher importance. ..
前記比較図生成部は、前記分析対象データの値が存在していない欠損クラスターにおいて、前記目的変数の予測に寄与する特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。 The data analyzer according to any one of claims 1 to 5.
The comparison diagram generation unit is characterized in that it is configured to generate the comparison diagram showing the feature amount that contributes to the prediction of the objective variable in the defective cluster in which the value of the analysis target data does not exist. Data analyzer.
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、
前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成ステップと、
前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択ステップと、
前記クラスター選択ステップで選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択ステップにより選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成ステップと、
前記基本図生成ステップで生成された基本図と、前記比較図生成ステップで生成された比較図とを表示可能な比較図表示ステップとを備えていることを特徴とするデータ分析方法。 In the data analysis method that analyzes the data to be analyzed,
A data input step that accepts input of analysis target data including multiple features and objective variables,
A prediction model generation step for generating a prediction model for predicting the objective variable from the plurality of features, and a prediction model generation step.
An importance calculation step for calculating the importance of the prediction by the prediction model for each of the plurality of features, and
A feature amount display step that displays a feature amount having a higher importance based on the importance calculated by the importance calculation step, and a feature amount display step.
The analysis target data is divided into a plurality of clusters based on the value of the feature amount selected according to the input of the user from the feature amounts displayed in the feature amount display step, and each cluster and each cluster A basic diagram generation step that generates a basic diagram showing the relationship with the representative value of the objective variable,
A cluster selection step that accepts the selection of any one of the multiple clusters shown in the basic diagram,
Features that contribute to the prediction of the objective variable in the cluster selected in the cluster selection step and features that contribute to the prediction of the objective variable in all clusters or non-selected clusters not selected by the cluster selection step. A comparison diagram generation step that generates a comparison diagram showing a comparison with a quantity,
A data analysis method comprising: a comparison diagram display step capable of displaying a basic diagram generated in the basic diagram generation step and a comparison diagram generated in the comparison diagram generation step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018148304A JP7049211B2 (en) | 2018-08-07 | 2018-08-07 | Data analyzer and data analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018148304A JP7049211B2 (en) | 2018-08-07 | 2018-08-07 | Data analyzer and data analysis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020024542A JP2020024542A (en) | 2020-02-13 |
JP7049211B2 true JP7049211B2 (en) | 2022-04-06 |
Family
ID=69618737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018148304A Active JP7049211B2 (en) | 2018-08-07 | 2018-08-07 | Data analyzer and data analysis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7049211B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023023919A (en) | 2021-08-06 | 2023-02-16 | 富士通株式会社 | Explanation information output program, explanation information output method, and information processing device |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070158040A1 (en) | 2003-10-28 | 2007-07-12 | Mokhtar Benaoudia | Method and apparatus for estimating an optimal dosage of bleaching agent to be used in a process for producing pulp |
JP2007272917A (en) | 2007-05-14 | 2007-10-18 | Fujitsu Ltd | Document data providing device, document data providing system, document data providing method, and recording medium recording program for providing document data |
JP2010250769A (en) | 2009-04-20 | 2010-11-04 | Mitsubishi Electric Corp | Device, method and program for visualization of analysis result |
JP2012256283A (en) | 2011-06-10 | 2012-12-27 | Nomura Research Institute Ltd | Sensitivity analysis system and program |
JP2016091343A (en) | 2014-11-06 | 2016-05-23 | 日本電気株式会社 | Information processing system, information processing method, and program |
WO2017168524A1 (en) | 2016-03-28 | 2017-10-05 | 株式会社日立製作所 | Analysis server device, data analysis system, and data analysis method |
-
2018
- 2018-08-07 JP JP2018148304A patent/JP7049211B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070158040A1 (en) | 2003-10-28 | 2007-07-12 | Mokhtar Benaoudia | Method and apparatus for estimating an optimal dosage of bleaching agent to be used in a process for producing pulp |
JP2007272917A (en) | 2007-05-14 | 2007-10-18 | Fujitsu Ltd | Document data providing device, document data providing system, document data providing method, and recording medium recording program for providing document data |
JP2010250769A (en) | 2009-04-20 | 2010-11-04 | Mitsubishi Electric Corp | Device, method and program for visualization of analysis result |
JP2012256283A (en) | 2011-06-10 | 2012-12-27 | Nomura Research Institute Ltd | Sensitivity analysis system and program |
JP2016091343A (en) | 2014-11-06 | 2016-05-23 | 日本電気株式会社 | Information processing system, information processing method, and program |
WO2017168524A1 (en) | 2016-03-28 | 2017-10-05 | 株式会社日立製作所 | Analysis server device, data analysis system, and data analysis method |
Also Published As
Publication number | Publication date |
---|---|
JP2020024542A (en) | 2020-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7049210B2 (en) | Data analyzer and data analysis method | |
JP7257169B2 (en) | data analyzer | |
US10586241B2 (en) | Rendering details from user selections of mined data habits | |
US20170039577A1 (en) | Generating metadata and visuals related to mined data habits | |
US20070022000A1 (en) | Data analysis using graphical visualization | |
CN108228861B (en) | Method and system for performing feature engineering for machine learning | |
AU2015315277A1 (en) | Systems and methods for providing drag and drop analytics in a dynamic data visualization interface | |
US20180240138A1 (en) | Generating and presenting statistical results for electronic survey data | |
US20220261510A1 (en) | Material design system, material design method, and material design program | |
JP7246956B2 (en) | Data analysis device and data analysis method | |
JP2012527043A (en) | Method and system for interacting with and manipulating information | |
US20140019207A1 (en) | Interactive in-memory based sales forecasting | |
JP7049211B2 (en) | Data analyzer and data analysis method | |
US11222039B2 (en) | Methods and systems for visual data manipulation | |
JP2017122981A (en) | Decision support apparatus and method | |
JP7246957B2 (en) | Data analysis device and data analysis method | |
JP7257168B2 (en) | data analyzer | |
US11443145B2 (en) | Data analyzing device and data analyzing method | |
JP7246958B2 (en) | Data analysis device and data analysis method | |
JP2020024544A (en) | Data analyzer and method for analyzing data | |
CN112236786B (en) | Future prediction simulation device, method, and recording device | |
JP6861176B2 (en) | Project estimation support method and project estimation support device | |
JP2012038012A (en) | Defective factor extraction device, defective factor extraction method, program and recording medium | |
US9514158B1 (en) | Methods, devices, and mediums associated with generating a change history listing associated with a value of information | |
JP2023063162A (en) | Prediction model forming method and operating process condition setting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210329 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7049211 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |