JP7049211B2 - Data analyzer and data analysis method - Google Patents

Data analyzer and data analysis method Download PDF

Info

Publication number
JP7049211B2
JP7049211B2 JP2018148304A JP2018148304A JP7049211B2 JP 7049211 B2 JP7049211 B2 JP 7049211B2 JP 2018148304 A JP2018148304 A JP 2018148304A JP 2018148304 A JP2018148304 A JP 2018148304A JP 7049211 B2 JP7049211 B2 JP 7049211B2
Authority
JP
Japan
Prior art keywords
data
feature amount
displayed
cluster
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018148304A
Other languages
Japanese (ja)
Other versions
JP2020024542A (en
Inventor
大河 能見
康暢 梅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Keyence Corp
Original Assignee
Keyence Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Keyence Corp filed Critical Keyence Corp
Priority to JP2018148304A priority Critical patent/JP7049211B2/en
Publication of JP2020024542A publication Critical patent/JP2020024542A/en
Application granted granted Critical
Publication of JP7049211B2 publication Critical patent/JP7049211B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、データ分析装置及びデータ分析方法に関する。 The present invention relates to a data analyzer and a data analysis method.

従来より、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングが知られている。一般的なデータマイニングの手法では、前処理ステップ、特徴抽出ステップ、モデル学習ステップ、後処理ステップの各ステップを順に実行する。前処理ステップでは、分析に必要なデータを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。 Conventionally, so-called data mining, which attempts to obtain useful knowledge that has been unknown until now from a large amount of information, has been known. In a general data mining method, each step of a preprocessing step, a feature extraction step, a model learning step, and a postprocessing step is executed in order. In the preprocessing step, data necessary for analysis is collected, and in order to enhance the effect of analysis, unnecessary noise is removed from the data and missing items are filled. This work is called ETL: Extract / Transport / Load. In the feature extraction step, the features existing in the original data are processed to generate new features that are more useful for analysis. In the model learning step, the data prepared in the preprocessing step and the feature extraction step are input to the machine learning algorithm, and the analysis result is obtained. In the post-processing step, the analysis result obtained in the model learning step is output to an external device, and a report is created based on the analysis result.

ところで、最適な特徴量の設計には、熟練の分析者による試行錯誤が必要で、データ分析に長い時間を要する原因となっていた。このことに対し、例えば、非特許文献1に開示されているように、新たな特徴量をデータから自動的に生成する技術が知られている。これら文献に開示されている技術では、事前に定義された一連の演算子(+,-,×,÷など)を元の特徴量に対して網羅的に適用し、大量の新たな特徴量を自動的に生成することができる。 By the way, the design of the optimum feature amount requires trial and error by a skilled analyst, which causes a long time for data analysis. On the other hand, for example, as disclosed in Non-Patent Document 1, a technique for automatically generating a new feature amount from data is known. In the techniques disclosed in these documents, a series of predefined operators (+,-, ×, ÷, etc.) are comprehensively applied to the original features to create a large number of new features. It can be generated automatically.

「A Randomized Exhaustive Propositionalization Approach for Molecule Classification」2010年5月26日"A Randomized Exhaustive Propositionalization Approach for Molecule Classification" May 26, 2010

しかしながら、上記文献の技術では、複数の演算子の組み合わせの結果得られた新たな特徴量は膨大な数になる。その膨大な数の特徴量の中には、分析に有効でない特徴量も大量に含まれているため、後続のモデル学習ステップに時間がかかるという問題があった。 However, in the technique of the above literature, the number of new features obtained as a result of the combination of a plurality of operators is enormous. Since the huge number of features includes a large amount of features that are not effective for analysis, there is a problem that the subsequent model learning step takes time.

また、分析の精度向上に役立つ新たな特徴量が生成されたとしても、その生成された特徴量と目的変数との関係や、他の特徴量との関係性が直観的に分からないため、実際に分析結果から知見を得ようとすると、個々の特徴量に関して追加の分析作業を必要としていた。つまり、上記文献の技術を使用したとしても、有用な知見を得るためには、分析者による手作業が結局必要になるので、データ分析に時間がかかるという問題は依然として解決されない。 In addition, even if a new feature quantity that helps improve the accuracy of analysis is generated, the relationship between the generated feature quantity and the objective variable and the relationship with other feature quantities cannot be intuitively understood, so that it is actually In order to obtain knowledge from the analysis results, additional analysis work was required for individual features. That is, even if the techniques of the above documents are used, the problem that data analysis takes time is still not solved because manual work by an analyst is required in order to obtain useful findings.

本発明は、かかる点に鑑みてなされたものであり、その目的とするところは、大量のデータから特徴量を得て重要度の高い特徴量を表示可能にし、新たな知見を得るための手助けができるようにすることにある。 The present invention has been made in view of this point, and an object of the present invention is to obtain a feature amount from a large amount of data, enable display of a feature amount of high importance, and help to obtain new knowledge. Is to be able to do.

上記目的を達成するために、第1の発明は、分析対象データを分析するデータ分析装置において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、前記表示部に表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成部と、前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択部と、前記クラスター選択部により選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択部により選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成部とを備え、前記表示部は、前記基本図生成部により生成された基本図と、前記比較図生成部により生成された比較図とを表示可能に構成されていることを特徴とする。 In order to achieve the above object, the first invention comprises a data input unit for receiving input of analysis target data including a plurality of feature quantities and objective variables in a data analysis apparatus for analyzing analysis target data, and the plurality of data input units. A prediction model generation unit that generates a prediction model for predicting the objective variable from the feature amount, an importance calculation unit that calculates the importance of the prediction by the prediction model for each of the plurality of feature amounts, and the importance. Based on the importance calculated by the degree calculation unit, the display unit that displays the feature amount with higher importance and the feature selected from the feature amounts displayed on the display unit according to the input of the user. The basic diagram generator that divides the analysis target data into a plurality of clusters based on the amount value and generates a basic diagram showing the relationship between each cluster and the representative value of the objective variable of each cluster, and the basic diagram. A cluster selection unit that accepts the selection of any one of the indicated clusters, a feature amount that contributes to the prediction of the objective variable in the cluster selected by the cluster selection unit, and all clusters or the clusters. In a non-selected cluster not selected by the selection unit, the display unit includes a comparison diagram generation unit that generates a comparison diagram showing a comparison with a feature amount that contributes to the prediction of the objective variable, and the display unit generates the basic diagram. It is characterized in that the basic diagram generated by the unit and the comparison diagram generated by the comparison diagram generation unit can be displayed.

この構成によれば、分析対象データが入力されると、分析対象データに含まれる複数の特徴量から目的変数を予測するための予測モデルが生成される。特徴量は、分析対象データに含まれていたものであってもよいし、新たに生成されたものであってもよい。そして、予測モデルによる予測に対する重要度が、複数の特徴量のそれぞれに対して算出され、算出された複数の特徴量のうち、上位の重要度を有する特徴量が表示部に表示される。このとき、下位の重要度を有する特徴量が表示されていてもよい。いずれにしても、使用者は、表示部を見ることで、重要度の高い特徴量を、重要度の低い特徴量と区別して把握することができる。使用者が、表示部に表示された特徴量の中から所望の特徴量を選択すると、その選択された特徴量の値に基づいて分析対象データが複数のクラスターに分割される。 According to this configuration, when the analysis target data is input, a prediction model for predicting the objective variable from a plurality of features included in the analysis target data is generated. The feature amount may be one included in the analysis target data or a newly generated one. Then, the importance to the prediction by the prediction model is calculated for each of the plurality of feature quantities, and among the calculated plurality of feature quantities, the feature quantity having the higher importance is displayed on the display unit. At this time, a feature amount having a lower importance may be displayed. In any case, the user can grasp the feature amount of high importance separately from the feature amount of low importance by looking at the display unit. When the user selects a desired feature amount from the feature amounts displayed on the display unit, the analysis target data is divided into a plurality of clusters based on the value of the selected feature amount.

また、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図が生成され、この基本図に示された複数のクラスターから任意の1つのクラスターの選択が受け付けられると、選択されたクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラススターにおける目的変数の予測に寄与する特徴量との比較を示す比較図が生成される。そして、基本図と比較図が表示部に表示される。 In addition, a basic diagram showing the relationship between each cluster and the representative value of the objective variable of each cluster is generated, and when the selection of any one cluster is accepted from the plurality of clusters shown in this basic diagram, it is selected. A comparison diagram showing a comparison between the feature quantities that contribute to the prediction of the objective variable in the clusters and the feature quantities that contribute to the prediction of the objective variables in all clusters or non-selected class stars is generated. Then, the basic diagram and the comparison diagram are displayed on the display unit.

使用者は、基本図を見ることで、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるので、これに基づいて新たな知見を得ることができる。 By looking at the basic diagram, the user can know the relationship with the representative value of the objective variable for each of the clusters formed by dividing the data to be analyzed, so it is possible to obtain new knowledge based on this. can.

また、使用者は、注目したいクラスターがあった場合、そのクラスターを選択すると、そのクラスターにおける目的変数の予測に寄与する特徴量だけでなく、全クラスターにおける目的変数の予測に寄与する特徴量との比較や、選択外のクラススターにおける目的変数の予測に寄与する特徴量との比較を行うことができるので、これに基づいて新たな知見を得ることができる。 In addition, when there is a cluster that the user wants to pay attention to, when the cluster is selected, not only the feature amount that contributes to the prediction of the objective variable in the cluster but also the feature amount that contributes to the prediction of the objective variable in all the clusters. Since it is possible to make a comparison and a comparison with a feature amount that contributes to the prediction of the objective variable in a non-selected class star, new findings can be obtained based on this.

尚、基本図と比較図とを表示部に同時に表示してもよいし、異なるタイミングで表示してもよい。また、「図」には、グラフや表、文字も含まれる。 The basic diagram and the comparison diagram may be displayed on the display unit at the same time, or may be displayed at different timings. The "figure" also includes graphs, tables, and characters.

第2の発明は、前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とする。 The second invention is characterized in that the display unit is configured to display a plurality of feature quantities having higher importance side by side in descending order of importance.

この構成によれば、上位の重要度を有する複数の特徴量がランキング形式で表示部に表示されることになるので、使用者が複数の特徴量の重要度を相対比較することができる。重要度を高い順に並べる方向としては、例えば上下方向であってもよいし、使用者から見て左右方向であってもよい。 According to this configuration, a plurality of features having higher importance are displayed on the display unit in a ranking format, so that the user can make a relative comparison of the importance of the plurality of features. The direction in which the importance is arranged in descending order may be, for example, a vertical direction or a horizontal direction when viewed from the user.

第3の発明は、前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とする。 A third aspect of the invention is characterized in that the display unit is configured to simultaneously display a feature amount having the highest importance and a plurality of feature amounts less than the highest importance.

この構成によれば、最上位の重要度を有する特徴量がどの特徴量であるか、また、最上位の重要度と次に高い重要度との差を容易に把握することができる。 According to this configuration, it is possible to easily grasp which feature amount has the highest importance and the difference between the highest importance and the next highest importance.

第4の発明は、前記比較図生成部は、前記クラスター選択部により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す前記比較図を生成するように構成されていることを特徴とする。 A fourth aspect of the invention is characterized in that the comparison diagram generation unit is configured to generate the comparison diagram showing a feature amount having a significantly high contribution only in the cluster selected by the cluster selection unit. do.

この構成によれば、選択されたクラスターに関連性の高い特徴量が自動的に示されるので、複数の特徴量に基づいて新たな知見を得ることができる。 According to this configuration, features that are highly relevant to the selected cluster are automatically shown, so that new findings can be obtained based on a plurality of features.

第5の発明は、前記比較図生成部は、前記上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す前記比較図を生成するように構成されていることを特徴とする。 In the fifth aspect of the invention, the comparison diagram generation unit is configured to generate the comparison diagram showing the feature quantities not selected by the user among the feature quantities having higher importance. It is a feature.

この構成によれば、使用者により選択されなかったが、上位の重要度を有する特徴量は目的変数に与える影響が大きいことが考えられるので、この上位の重要度を有する特徴量も比較図として示すことで、複数の特徴量に基づいて新たな知見を得ることができる。 According to this configuration, although it was not selected by the user, it is considered that the features having higher importance have a large influence on the objective variable, so the features having higher importance are also used as a comparison diagram. By showing, new findings can be obtained based on a plurality of features.

第6の発明は、前記比較図生成部は、前記分析対象データの値が存在していない欠損クラスターにおいて、前記目的変数の予測に寄与する特徴量を示す前記比較図を生成するように構成されていることを特徴とする。 In the sixth invention, the comparison diagram generation unit is configured to generate the comparison diagram showing the feature amount that contributes to the prediction of the objective variable in the defective cluster in which the value of the analysis target data does not exist. It is characterized by being.

この構成によれば、値が存在していない分析対象データ群を欠損クラスターとしたとき、この欠損クラスターも目的変数の予測に寄与する場合があり、比較図に、欠損クラスターにおける目的変数の予測に寄与する特徴量を示すことで、新たな知見を得ることができる。 According to this configuration, when the analysis target data group for which no value exists is used as a missing cluster, this missing cluster may also contribute to the prediction of the objective variable, and the comparison diagram shows the prediction of the objective variable in the missing cluster. New findings can be obtained by showing the amount of features that contribute.

第7の発明は、分析対象データを分析するデータ分析方法において、複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、前記重要度算出ステップにより算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成ステップと、前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択ステップと、前記クラスター選択ステップで選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択ステップにより選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成ステップと、前記基本図生成ステップで生成された基本図と、前記比較図生成ステップで生成された比較図とを表示可能な比較図表示ステップとを備えていることを特徴とするデータ分析方法である。 The seventh invention is a data analysis method for analyzing analysis target data, in which a data input step for accepting input of analysis target data including a plurality of feature quantities and objective variables and a prediction of the objective variable from the plurality of feature quantities. The importance calculated by the prediction model generation step for generating the prediction model, the importance calculation step for calculating the importance of the prediction by the prediction model for each of the plurality of features, and the importance calculation step. Based on the degree, the value of the feature amount selected according to the input of the user from the feature amount display step for displaying the feature amount having higher importance and the feature amount displayed in the feature amount display step. Based on this, the analysis target data is divided into a plurality of clusters, and a basic diagram generation step for generating a basic diagram showing the relationship between each cluster and the representative value of the objective variable of each cluster, and the plurality shown in the basic diagram. A cluster selection step that accepts the selection of any one of the clusters, a feature amount that contributes to the prediction of the objective variable in the cluster selected in the cluster selection step, and selection by all clusters or the cluster selection step. In the unselected clusters that have not been selected, the comparison diagram generation step that generates a comparison diagram showing the comparison with the feature amount that contributes to the prediction of the objective variable, the basic diagram generated in the basic diagram generation step, and the comparison. It is a data analysis method characterized by including a comparison diagram display step capable of displaying a comparison diagram generated in the diagram generation step.

本発明によれば、大量のデータに含まれる重要度の高い特徴量を表示部に表示することができる。そして、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができるので、新たな知見を得るための手助けをすることができる。 According to the present invention, a feature amount of high importance contained in a large amount of data can be displayed on the display unit. Then, the relationship between the representative value of the objective variable and the representative value of the objective variable can be known for each of the clusters formed by dividing the data to be analyzed, and the features that contribute to the prediction of the objective variable in the selected cluster and all clusters or non-selected clusters. Since it is possible to compare with the features that contribute to the prediction of the objective variable in the cluster of, it is possible to help to obtain new findings.

本発明の実施形態に係るデータ分析装置の概略構成を示す図である。It is a figure which shows the schematic structure of the data analysis apparatus which concerns on embodiment of this invention. データ分析装置のブロック図である。It is a block diagram of a data analyzer. データ分析の手順を示すフローチャートである。It is a flowchart which shows the procedure of data analysis. データ分析装置の動作を示すフローチャートである。It is a flowchart which shows the operation of a data analyzer. データ入力用ユーザーインターフェースを示す図である。It is a figure which shows the user interface for data input. 2つのファイルにそれぞれ格納されている分析対象データを表形式で示す図である。It is a figure which shows the analysis target data stored in each of two files in a table format. データフロー表示ユーザーインターフェースを示す図である。It is a figure which shows the data flow display user interface. 分析対象データをプレビュー表示したデータフロー表示ユーザーインターフェースを示す図である。It is a figure which shows the data flow display user interface which preview-displayed the analysis target data. データ加工ユーザーインターフェースを示す図である。It is a figure which shows the data processing user interface. 加工後データをアイコン表示したデータフロー表示ユーザーインターフェースを示す図である。It is a figure which shows the data flow display user interface which displayed the processed data as an icon. 特徴量自動生成ユーザーインターフェースを示す図である。It is a figure which shows the feature quantity automatic generation user interface. 2つの分析対象データ間で対応関係にある割合の算出方法を説明する図である。It is a figure explaining the calculation method of the ratio which has a correspondence relationship between two analysis target data. 価格の列の合計を計算して「master」に加える場合を説明する図である。It is a figure explaining the case which the sum of the price columns is calculated and added to "master". 日付を表す行との組み合わせに基づいて、集約する行を決定する場合を説明する図である。It is a figure explaining the case which determines the row to be aggregated based on the combination with the row representing a date. 特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface. 「直近30日の総来店日数」が選択された場合の特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature quantity display user interface when "the total number of visits of the last 30 days" is selected. 詳細メニューから「値の平均値を比較」を選択した場合の特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface when "Compare average value of values" is selected from a detail menu. 比較表が表示された特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface which the comparison table is displayed. 予測精度比較グラフが表示された特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature quantity display user interface which displayed the prediction accuracy comparison graph. 「最終来店日からの経過日数」が選択された場合の特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature quantity display user interface when "the number of days elapsed from the last visit date" is selected. 影響度比較グラフが表示された特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface which the influence degree comparison graph is displayed. 詳細メニューから「特徴量の寄与度を比較」を選択した場合の特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface when "comparison of the contribution degree of a feature amount" is selected from a detail menu. 寄与度表示グラフが表示された特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface which the contribution display graph is displayed. 寄与度の計算方法を説明する図である。It is a figure explaining the calculation method of the degree of contribution. 特徴量の「性別」を選択した場合に表示される特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface which is displayed when the feature amount "gender" is selected. 差分の説明グラフが表示された特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface which the explanation graph of the difference is displayed. 特徴量の寄与度の変化に関するグラフが表示された特徴量表示ユーザーインターフェースを示す図である。It is a figure which shows the feature amount display user interface which displayed the graph about the change of the contribution degree of a feature amount.

以下、本発明の実施形態を図面に基づいて詳細に説明する。尚、以下の好ましい実施形態の説明は、本質的に例示に過ぎず、本発明、その適用物或いはその用途を制限することを意図するものではない。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. It should be noted that the following description of the preferred embodiment is essentially merely an example and is not intended to limit the present invention, its application or its use.

図1は、本発明の実施形態に係るデータ分析装置1の概略構成を示す図であり、図2は、データ分析装置1のブロック図である。このデータ分析装置1は、分析対象データを分析する装置であり、このデータ分析装置1を使用することで、本発明に係るデータ分析方法を実行することができる。データ分析装置1及びデータ分析方法は、例えば、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる、いわゆるデータマイニングを行う際に使用することができる。
(データ分析手順)
図3に示すフローチャートに基づいて、一般的なデータ分析の手順について説明する。開始後、ステップSA1では前処理ステップを実行する。前処理ステップでは、分析に必要なデータ、すなわち分析対象データを収集し、分析の効果を高めるために、データの中から不要なノイズを取り除いたり、欠損した項目を埋めるといった作業を行う。この作業はETL:Extract/Transform/Loadと呼ばれている。ステップSA2では特徴抽出ステップを実行する。特徴抽出ステップでは、元データに存在する特徴量を加工し、分析により役立つ新たな特徴量を生成する。ステップSA3ではモデル学習ステップを実行する。モデル学習ステップでは、前処理ステップ及び特徴抽出ステップで準備されたデータを機械学習アルゴリズムに入力し、分析結果を得る。ステップSA4では後処理ステップを実行する。後処理ステップでは、モデル学習ステップで得られた分析結果を外部の機器に出力したり、分析結果に基づいてレポートを作成するといった処理を行う。
FIG. 1 is a diagram showing a schematic configuration of a data analysis device 1 according to an embodiment of the present invention, and FIG. 2 is a block diagram of the data analysis device 1. The data analysis device 1 is a device that analyzes the data to be analyzed, and by using the data analysis device 1, the data analysis method according to the present invention can be executed. The data analysis device 1 and the data analysis method can be used, for example, when performing so-called data mining, which attempts to obtain useful findings previously unknown from a large amount of information.
(Data analysis procedure)
A general data analysis procedure will be described with reference to the flowchart shown in FIG. After the start, the preprocessing step is executed in step SA1. In the preprocessing step, data necessary for analysis, that is, data to be analyzed is collected, and in order to enhance the effect of analysis, unnecessary noise is removed from the data and missing items are filled. This work is called ETL: Extract / Transport / Load. In step SA2, a feature extraction step is executed. In the feature extraction step, the features existing in the original data are processed to generate new features that are more useful for analysis. In step SA3, a model learning step is executed. In the model learning step, the data prepared in the preprocessing step and the feature extraction step are input to the machine learning algorithm, and the analysis result is obtained. In step SA4, a post-processing step is executed. In the post-processing step, the analysis result obtained in the model learning step is output to an external device, and a report is created based on the analysis result.

(データ分析装置1の全体構成)
図1及び図2に示すように、データ分析装置1は、装置本体2と、モニタ3と、キーボード4と、マウス5とを備えており、モニタ3、キーボード4及びマウス5は、装置本体2に接続されている。例えば汎用のパーソナルコンピュータに、後述する制御内容を実行するプログラムをインストールすることによってデータ分析装置1とすることができ、また、前記プログラムがインストールされた専用のハードウェアでデータ分析装置1を構成することもできる。装置本体2とモニタ3とは一体化されていてもよいし、装置本体2の一部がモニタ3に内蔵されていてもよい。
(Overall configuration of data analyzer 1)
As shown in FIGS. 1 and 2, the data analysis apparatus 1 includes an apparatus main body 2, a monitor 3, a keyboard 4, and a mouse 5, and the monitor 3, the keyboard 4, and the mouse 5 include the apparatus main body 2. It is connected to the. For example, the data analysis device 1 can be set by installing a program that executes the control contents described later on a general-purpose personal computer, and the data analysis device 1 is configured by the dedicated hardware in which the program is installed. You can also do it. The device main body 2 and the monitor 3 may be integrated, or a part of the device main body 2 may be built in the monitor 3.

データ分析装置1は、通信モジュール(図示せず)を内蔵しており、外部との通信が可能に構成されている。これにより、インターネット回線を介して外部サーバーからのデータのダウンロードが可能になる。 The data analysis device 1 has a built-in communication module (not shown) and is configured to enable communication with the outside. This makes it possible to download data from an external server via the Internet line.

また、キーボード4及びマウス5は、データ分析装置1を操作する操作手段であるとともに、各種情報を入力する入力手段、選択操作を行う選択手段等でもある。キーボード4及びマウス5に加えて、またはキーボード4及びマウス5に変えて、タッチパネル式の入力装置、音声入力装置、ペン型の入力装置等を使用することもできる。 Further, the keyboard 4 and the mouse 5 are an operation means for operating the data analysis device 1, an input means for inputting various information, a selection means for performing a selection operation, and the like. In addition to the keyboard 4 and the mouse 5, or in place of the keyboard 4 and the mouse 5, a touch panel type input device, a voice input device, a pen type input device, and the like can also be used.

(モニタ3の構成)
図1に示すモニタ3は、たとえば有機ELディスプレイや液晶ディスプレイ等からなるものであり、それ単体で表示部と呼ぶこともできるし、モニタ3と、図2に示す表示制御部3aとを合わせて表示部と呼ぶこともできる。表示制御部3aは、モニタ3に内蔵されていてもよいし、装置本体10に内蔵されていてもよい。表示制御部3aは、モニタ3に対して画像を表示させる表示用DSPなどから構成される。表示制御部3aには、画像を表示させる際に画像データを一時記憶するVRAMなどのビデオメモリが含まれていてもよい。表示制御部3aは、後述する主制御部11のCPU11aから送られてきた表示指令(表示コマンド)に基づいて、モニタ3に対して所定の画像を表示させるための制御信号を送信する。たとえば、各種ユーザーインターフェースやアイコン、キーボード4やマウス5を用いた使用者の操作内容をモニタ3に表示させるための制御信号も送信する。また、マウス5で操作可能なポインタ等もモニタ3に表示することができるようになっている。
(Configuration of monitor 3)
The monitor 3 shown in FIG. 1 is composed of, for example, an organic EL display, a liquid crystal display, or the like, and can be referred to as a display unit by itself, or the monitor 3 and the display control unit 3a shown in FIG. 2 are combined. It can also be called a display unit. The display control unit 3a may be built in the monitor 3 or may be built in the device main body 10. The display control unit 3a is composed of a display DSP or the like for displaying an image on the monitor 3. The display control unit 3a may include a video memory such as a VRAM that temporarily stores image data when displaying an image. The display control unit 3a transmits a control signal for displaying a predetermined image to the monitor 3 based on a display command (display command) sent from the CPU 11a of the main control unit 11 described later. For example, various user interfaces and icons, and control signals for displaying the user's operation contents using the keyboard 4 and the mouse 5 on the monitor 3 are also transmitted. Further, a pointer or the like that can be operated by the mouse 5 can also be displayed on the monitor 3.

モニタ3をタッチ操作パネル型モニタとすることで、モニタ3に各種情報の入力機能を持たせることができる。 By using the monitor 3 as a touch operation panel type monitor, the monitor 3 can be provided with various information input functions.

(装置本体2の全体構成)
図1に示す装置本体2は、制御ユニット10と、記憶部30とを備えている。記憶部30は、ハードディスクドライブ、ソリッドステートドライブ(SSD)等で構成されている。記憶部30は、制御ユニット10に接続されており、制御ユニット10によって制御され、各種データを保存しておくことができるとともに、保存しておいたデータを読み出すこともできるようになっている。
(Overall configuration of device body 2)
The apparatus main body 2 shown in FIG. 1 includes a control unit 10 and a storage unit 30. The storage unit 30 is composed of a hard disk drive, a solid state drive (SSD), or the like. The storage unit 30 is connected to the control unit 10 and is controlled by the control unit 10 so that various data can be stored and the stored data can be read out.

(制御ユニット10)
制御ユニット10は、具体的に図示しないが、MPU、システムLSI、DSPや専用ハードウェア等で構成することができる。制御ユニット10は、後述するように様々な機能を搭載しているが、これらは論理回路によって実現されていてもよいし、ソフトウェアを実行することによって実現されていてもよい。
(Control unit 10)
Although not specifically shown, the control unit 10 can be configured by an MPU, a system LSI, a DSP, dedicated hardware, or the like. The control unit 10 is equipped with various functions as described later, and these may be realized by a logic circuit or may be realized by executing software.

図2に示すように、制御ユニット10は、主制御部11と、データ入力部12と、予測モデル生成部13と、重要度算出部14と、クラスター選択部15と、表示図生成部16と、説明文自動生成部18とを備えている。制御ユニット10の各部は、上述したように分けて記載しているが、同じ部分が複数種の処理を実行するように構成してもよいし、更に細かく分けてこれらを連携させて1つの処理を実行するように構成してもよい。 As shown in FIG. 2, the control unit 10 includes a main control unit 11, a data input unit 12, a prediction model generation unit 13, an importance calculation unit 14, a cluster selection unit 15, and a display diagram generation unit 16. , The explanation text automatic generation unit 18 is provided. Although each part of the control unit 10 is described separately as described above, the same part may be configured to execute a plurality of types of processing, or may be further subdivided and linked to each other for one processing. May be configured to run.

上記各ハードウェアは、バスなどの電気的な通信路(配線)を介し、双方向通信可能または一方向通信可能に接続されている。 Each of the above hardware is connected so as to be capable of two-way communication or one-way communication via an electrical communication path (wiring) such as a bus.

主制御部11は、各種プログラムに基づき数値計算や情報処理を行うとともに、ハードウェア各部の制御を行う。主制御部11は、中央演算処理装置として機能するCPU11aと、主制御部11が各種プログラムを実行する際のワークエリアとして機能するRAM等のワークメモリ11bと、起動プログラムや初期化プログラム等が格納されたROM、フラッシュROMまたはEEPROM等のプログラムメモリ11cとを備えている。 The main control unit 11 performs numerical calculation and information processing based on various programs, and also controls each hardware unit. The main control unit 11 stores a CPU 11a that functions as a central arithmetic processing unit, a work memory 11b such as a RAM that functions as a work area when the main control unit 11 executes various programs, a startup program, an initialization program, and the like. It is provided with a program memory 11c such as a ROM, a flash ROM, or an EEPROM.

データ入力部12は、複数の特徴量と目的変数とを含む分析対象データの入力を受け付ける部分であり、図5に示すデータ入力用ユーザーインターフェース50をモニタ3に表示させるとともに、データ入力用ユーザーインターフェース50上でなされた使用者の操作を受け付ける。使用者の操作とは、キーボード4の操作や、マウス5の操作(ボタンクリック、ドラッグ&ドロップ、ホイールの回転等を含む)がある。 The data input unit 12 is a part that accepts input of data to be analyzed including a plurality of feature quantities and objective variables. The data input user interface 50 shown in FIG. 5 is displayed on the monitor 3, and the data input user interface is displayed. Accepts user operations made on 50. User operations include keyboard 4 operations and mouse 5 operations (including button clicks, drag and drop, wheel rotation, and the like).

ここで、分析対象データは、複数の特徴量と目的変数とを含むデータであるが、複数の特徴量は、分析対象データにもともと存在しているもの(既存特徴量)、使用者が気付いていなくて分析対象データに暗に含まれているもの(潜在的特徴量)、新たに生成したもの(新たな特徴量)等のいずれか1種または複数種を含むデータであればよい。分析対象データの一部が欠損していてもよく、その場合は、後述するように欠損した項目を埋める作業を行えばよい。 Here, the analysis target data is data including a plurality of feature quantities and objective variables, but the user is aware that the plurality of feature quantities originally exist in the analysis target data (existing feature quantities). Any data may be used as long as it does not include data implicitly contained in the data to be analyzed (potential feature amount), newly generated data (new feature amount), or any one or more of them. A part of the data to be analyzed may be missing. In that case, the work of filling in the missing items may be performed as described later.

図5に示すデータ入力用ユーザーインターフェース50には、ファイル選択ボタン50aと、データベース選択ボタン50bと、URL指定ボタン50cと、データベース表示領域50dと、読み込み開始ボタン50eとが設けられている。各ボタンの配置は自由に設定できる。 The data input user interface 50 shown in FIG. 5 is provided with a file selection button 50a, a database selection button 50b, a URL designation button 50c, a database display area 50d, and a read start button 50e. The arrangement of each button can be set freely.

例えば、分析対象データを格納したファイルが外部記憶装置や記憶部30に保存されていて、デスクトップ上や、開いた状態のフォルダにある場合には、使用者が当該ファイルをデータベース表示領域50dへドラッグ&ドロップ操作する。これにより、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。その後、読み込み開始ボタン50eを押すと、データベース表示領域50dに表示されているファイルが記憶部30の所定領域に読み込まれて保存される。 For example, if a file storing analysis target data is stored in an external storage device or storage unit 30 and is on the desktop or in an open folder, the user drags the file to the database display area 50d. & Drop operation. As a result, the file name in which the analysis target data is stored is displayed in the database display area 50d. After that, when the read start button 50e is pressed, the file displayed in the database display area 50d is read into a predetermined area of the storage unit 30 and saved.

分析対象データがデータベース上にある場合には、使用者がデータベース選択ボタン50bを押す。データベース選択ボタン50bが押されると、データベースに接続するための設定画面(図示せず)を表示し、テーブル名の入力や必要に応じてパスワードの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データが所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。 When the data to be analyzed is on the database, the user presses the database selection button 50b. When the database selection button 50b is pressed, a setting screen (not shown) for connecting to the database is displayed, and the user is urged to enter the table name and, if necessary, the password. After that, when the read start button 50e is pressed, the analysis target data is read and saved in the predetermined area of the storage unit 30 in a predetermined file format, and the file name storing the analysis target data is displayed in the database display area 50d. File.

分析対象データがインターネットやサーバー上にある場合には、使用者がURL指定ボタン50cを押す。URL指定ボタン50cが押されると、URL入力画面(図示せず)を表示し、URLの入力を使用者に促す。その後、読み込み開始ボタン50eを押すと、分析対象データがダウンロードされて所定のファイル形式で記憶部30の所定領域に読み込まれて保存されるとともに、分析対象データを格納したファイル名がデータベース表示領域50dに表示される。 When the data to be analyzed is on the Internet or a server, the user presses the URL designation button 50c. When the URL designation button 50c is pressed, a URL input screen (not shown) is displayed, prompting the user to input the URL. After that, when the read start button 50e is pressed, the analysis target data is downloaded, read into a predetermined area of the storage unit 30 in a predetermined file format, and saved, and the file name in which the analysis target data is stored is the database display area 50d. Is displayed in.

分析対象データを格納したファイルは、1つのみであってもよいし、複数であってもよい。この図5では、「transaction」、「master」の2つのファイルにそれぞれ格納されている分析対象データを読み込んだ場合を示している。上述した3つの方法以外の方法でファイルを読み込んでもよい。上記ファイル形式は、csv形式であるが、これ以外の形式であってもよい。 There may be only one file or a plurality of files storing the data to be analyzed. FIG. 5 shows a case where the analysis target data stored in each of the two files "transaction" and "master" is read. The file may be read by a method other than the above three methods. The above file format is a csv format, but other formats may be used.

図6は、「master」と「transaction」にそれぞれ格納されている分析対象データを示している。この例では、「master」が顧客情報であり、顧客IDに対応付けられて年齢及び性別が記録されているとともに、顧客IDに対応付けられて、当該顧客が離反した顧客かどうかが「離反」列に記録されている。「離反」とは、一度来店したが、その後、来店しなくなったことである。「離反」列に「1」と記録されている顧客は離反した顧客であり、「0」と記録されている顧客は離反していない顧客である。 FIG. 6 shows the analysis target data stored in the “master” and the “transaction”, respectively. In this example, "master" is customer information, and the age and gender are recorded in association with the customer ID, and whether or not the customer is separated from the customer in association with the customer ID is "separation". Recorded in a column. "Release" means that you visited the store once, but then stopped visiting. A customer recorded as "1" in the "separation" column is a estranged customer, and a customer recorded as "0" is a non-separated customer.

「transaction」には、個々の購買履歴が記録されており、「顧客ID」列で、「master」と行ごとの対応関係が紐づけられている。「transaction」には、顧客IDに対応付けられて購入日、カテゴリ及び価格が記録されている。尚、上述したデータは本発明の説明のために用意した例であり、本発明の適用範囲を限定するものではない。本発明は、購買履歴データ以外にも、様々な分析対象データを分析することができるものである。 In the "transaction", each purchase history is recorded, and in the "customer ID" column, the correspondence relationship between "master" and each row is associated. In the "transaction", the purchase date, category and price are recorded in association with the customer ID. The data described above are examples prepared for the purpose of explaining the present invention, and do not limit the scope of application of the present invention. INDUSTRIAL APPLICABILITY In addition to the purchase history data, the present invention can analyze various analysis target data.

分析対象データの読み込みが完了すると、図7に示すデータフロー表示ユーザーインターフェース51をモニタ3に表示させるとともに、データフロー表示ユーザーインターフェース51上でなされた使用者の操作を受け付ける。データフロー表示ユーザーインターフェース51には、データフロー表示領域51aと、下部表示領域51bと、特徴量自動生成ボタン51cと、データ加工ボタン51dと、データ出力ボタン51eとが設けられている。 When the reading of the data to be analyzed is completed, the data flow display user interface 51 shown in FIG. 7 is displayed on the monitor 3, and the user's operation performed on the data flow display user interface 51 is received. The data flow display user interface 51 is provided with a data flow display area 51a, a lower display area 51b, a feature amount automatic generation button 51c, a data processing button 51d, and a data output button 51e.

データフロー表示領域51aには、読み込んだ分析対象データがアイコンとして表示される。下部表示領域51bには、読み込んだ分析対象データ同士の関係図(一般的にER図と呼ばれる)が表示される。図2に示すデータ入力部12は、読み込んだ複数の分析対象データで共通の列が存在するか否かを検出する。共通の列が存在するか否かは、例えば列の名称に基づいて判定できる。この例では、図6に示すように「master」及び「transaction」の両方に「顧客ID」という名称の列が存在することから、このことをデータ入力部12が検出する。すると、データ入力部12は、「master」の「顧客ID」と、「transaction」の「顧客ID」とが関連していると判断し、図7に示すように下部表示領域51bに表示される関係図において、「master」の「顧客ID」と、「transaction」の「顧客ID」と線で結んで表示する。 The read analysis target data is displayed as an icon in the data flow display area 51a. In the lower display area 51b, a relationship diagram (generally called an ER diagram) between the read analysis target data is displayed. The data input unit 12 shown in FIG. 2 detects whether or not a common column exists in the plurality of read data to be analyzed. Whether or not there is a common column can be determined based on, for example, the name of the column. In this example, as shown in FIG. 6, since a column named "customer ID" exists in both "master" and "transaction", the data input unit 12 detects this. Then, the data input unit 12 determines that the "customer ID" of the "master" and the "customer ID" of the "transaction" are related, and is displayed in the lower display area 51b as shown in FIG. In the relationship diagram, the "customer ID" of "master" and the "customer ID" of "transaction" are connected by a line and displayed.

以上の処理が、分析対象データの入力を受け付ける処理であり、データ入力部12で行われる。データ入力部12は、キーボード4やマウス5等の入力装置を含んでいてもよい。また、以上の処理は、図4に示すフローチャートにおけるステップSB1のデータ入力ステップに相当する。 The above processing is a processing for accepting input of analysis target data, and is performed by the data input unit 12. The data input unit 12 may include an input device such as a keyboard 4 and a mouse 5. Further, the above processing corresponds to the data input step of step SB1 in the flowchart shown in FIG.

ステップSB1に続くステップSB2では、データ入力ステップで入力された分析対象データを加工する。まず、図7に示すデータフロー表示ユーザーインターフェース51のデータフロー表示領域51aに表示されている分析対象データのうち、加工したいデータを選択する。データの選択操作は、例えば、加工したいデータに対応するアイコンをクリックする操作を挙げることができる。アイコンをクリックすると、下部表示領域51bの関係図が消去されて、図8に示すように、選択した分析対象データが下部表示領域51bに表示される。このとき、下部表示領域51bには、選択した分析対象データの一部のみをプレビュー表示することができる。 In step SB2 following step SB1, the analysis target data input in the data input step is processed. First, from the analysis target data displayed in the data flow display area 51a of the data flow display user interface 51 shown in FIG. 7, the data to be processed is selected. The data selection operation may be, for example, an operation of clicking an icon corresponding to the data to be processed. When the icon is clicked, the relationship diagram of the lower display area 51b is deleted, and the selected analysis target data is displayed in the lower display area 51b as shown in FIG. At this time, only a part of the selected analysis target data can be preview-displayed in the lower display area 51b.

「transaction」をプレビュー表示して見ると、「カテゴリ」列に「日配品」、「日配品A」という文言が混在している。「日配品」と「日配品A」は、値が互いに異なることになるため、後述するモデル学習時にはこれらは異なるカテゴリとして扱われるが、データ分析上、同一として扱いたいのであれば、これらの表記ゆれを統一する方がより高い精度が得られる。これをデータ加工という。 When the "transaction" is previewed and viewed, the words "daily delivery" and "daily delivery A" are mixed in the "category" column. Since the values of "daily delivery product" and "daily delivery product A" are different from each other, they are treated as different categories at the time of model learning described later, but if they are to be treated as the same in data analysis, these are treated. Higher accuracy can be obtained by unifying the notational fluctuations of. This is called data processing.

データ加工を行う際には、図8に示すデータフロー表示ユーザーインターフェース51のデータ加工ボタン51dを押す。データ加工ボタン51dが押されると、図9に示すデータ加工ユーザーインターフェース52をモニタ3に表示させるとともに、データ加工ユーザーインターフェース52上でなされた使用者の操作を受け付ける。データ加工ユーザーインターフェース52には、加工対象データ表示領域52aと、欠損値除去・穴埋めボタン52bと、データ置き換えボタン52cと、列削除ボタン52dと、列追加ボタン52eと、数式入力ボタン52fと、列情報表示ボタン52gと、終了ボタン52hとが設けられている。加工対象データ表示領域52aには、選択した分析対象データが表形式で表示される。表示されている表が大きい場合にはスクロールすることもできる。 When performing data processing, the data processing button 51d of the data flow display user interface 51 shown in FIG. 8 is pressed. When the data processing button 51d is pressed, the data processing user interface 52 shown in FIG. 9 is displayed on the monitor 3, and the user's operation performed on the data processing user interface 52 is received. The data processing user interface 52 includes a processing target data display area 52a, a missing value removal / fill-in-the-blank button 52b, a data replacement button 52c, a column deletion button 52d, a column addition button 52e, a formula input button 52f, and a column. An information display button 52g and an end button 52h are provided. The selected analysis target data is displayed in a table format in the processing target data display area 52a. You can also scroll if the displayed table is large.

欠損値除去・穴埋めボタン52bは、分析対象データの欠損値の除去、及び分析対象データの穴埋めをする際に操作するボタンである。欠損値除去・穴埋めボタン52bを操作することで、任意の欠損値を除去したり、欠損した項目を追加することができる。データ置き換えボタン52cは、既存の値を別の値に置き換える際に操作するボタンである。例えば、「カテゴリ」列の「日配品A」のセルを選択してデータ置き換えボタン52cを押し、置き換え文字(値)として「日配品」と入力することで、同じ列の「日配品A」という値が「日配品」という値に自動的に置き換わる。列削除ボタン52dは、任意の列を削除する際に操作するボタンである。任意の列を選択した後、列削除ボタン52dを押すことで選択された列が削除される。列追加ボタン52eは任意の列を追加する際に操作するボタンである。表の任意の列を選択した後、列追加ボタン52eを押すことで選択された列の前後いずれかに列が追加される。数式入力ボタン52fは、セルに数式を入力するためのボタンである。数式入力ボタン52fの操作によって入力された数式によって演算された値になる。列情報表示ボタン52gは、任意の列に所定の情報を追加するためのボタンである。 The missing value removal / fill-in-the-blank button 52b is a button operated when removing the missing value of the analysis target data and filling in the hole in the analysis target data. By operating the missing value removal / fill-in-the-blank button 52b, any missing value can be removed or a missing item can be added. The data replacement button 52c is a button operated when replacing an existing value with another value. For example, by selecting the cell of "Daily delivery A" in the "Category" column, pressing the data replacement button 52c, and entering "Daily delivery" as the replacement character (value), "Daily delivery" in the same column The value "A" is automatically replaced with the value "daily delivery". The column deletion button 52d is a button operated when deleting an arbitrary column. After selecting an arbitrary column, the selected column is deleted by pressing the column delete button 52d. The column addition button 52e is a button operated when adding an arbitrary column. After selecting any column in the table, pressing the column addition button 52e adds a column to the front or back of the selected column. The formula input button 52f is a button for inputting a formula in a cell. The value is calculated by the formula input by the operation of the formula input button 52f. The column information display button 52g is a button for adding predetermined information to an arbitrary column.

欠損値除去・穴埋めボタン52b、データ置き換えボタン52c、列削除ボタン52d、列追加ボタン52e、数式入力ボタン52f、列情報表示ボタン52gを操作して分析対象データを加工することができる。従って、データ分析装置1ではETL処理を行うことができ、ETL処理を行うことで分析対象データを分析により適した形に変形することができる。これにより、分析結果の精度をより一層高めることができる。一連の操作が終了したら、図9に示すデータ加工ユーザーインターフェース52の終了ボタン52hを押す。 The data to be analyzed can be processed by operating the missing value removal / fill-in-the-blank button 52b, the data replacement button 52c, the column deletion button 52d, the column addition button 52e, the formula input button 52f, and the column information display button 52g. Therefore, the data analyzer 1 can perform ETL processing, and by performing ETL processing, the data to be analyzed can be transformed into a form more suitable for analysis. As a result, the accuracy of the analysis result can be further improved. When the series of operations is completed, the end button 52h of the data processing user interface 52 shown in FIG. 9 is pressed.

終了ボタン52hが押されると、図10に示すように、データフロー表示ユーザーインターフェース51が再び表示される。データフロー表示ユーザーインターフェース51のデータフロー表示領域51aには、新たなアイコン「transaction-1」が表示される。この「transaction-1」は、「transaction」を加工した後の分析対象データであり、「transaction-1」と「transaction」とが関連線によって結ばれており、関係性をグラフィカルに表示している。よって、使用者は、「transaction-1」が「transaction」の加工後データであること、及び「transaction-1」は加工処理が行われたものであることを直観的に把握できる。以上の一連のETL処理が図4に示すフローチャートのステップSB2のデータ加工処理である。 When the end button 52h is pressed, the data flow display user interface 51 is displayed again, as shown in FIG. A new icon "transaction-1" is displayed in the data flow display area 51a of the data flow display user interface 51. This "transaction-1" is the analysis target data after processing the "transaction", and the "transaction-1" and the "transaction" are connected by a relation line, and the relationship is graphically displayed. .. Therefore, the user can intuitively understand that "transaction-1" is the processed data of "transaction" and that "transaction-1" is the processed data. The above series of ETL processing is the data processing processing in step SB2 of the flowchart shown in FIG.

一連のETL処理が終了すると、図4に示すフローチャートのステップSB3の特徴量生成に関する設定を入力するステップに進む。図10に示すデータフロー表示ユーザーインターフェース51の特徴量自動生成ボタン51cを押すと、図11に示す特徴量自動生成ユーザーインターフェース53をモニタ3に表示させるとともに、特徴量自動生成ユーザーインターフェース53上でなされた使用者の操作を受け付ける。 When the series of ETL processing is completed, the process proceeds to the step of inputting the setting related to the feature amount generation in step SB3 of the flowchart shown in FIG. When the feature amount automatic generation button 51c of the data flow display user interface 51 shown in FIG. 10 is pressed, the feature amount automatic generation user interface 53 shown in FIG. 11 is displayed on the monitor 3 and is performed on the feature amount automatic generation user interface 53. Accepts user operations.

特徴量自動生成ユーザーインターフェース53には、データフロー表示領域53aと、下部表示領域53bと、関係性指定領域53cと、目的変数指定領域53dと、詳細設定領域53eと、実行ボタン53fとが設けられている。データフロー表示領域53aは、例えば図10に示すデータフロー表示ユーザーインターフェース51のデータフロー表示領域51aと同様にデータフローが表示される。下部表示領域53bには、図7に示すデータフロー表示ユーザーインターフェース51の下部表示領域51bと同様に、分析対象データ同士の関係図が表示される。 The feature amount automatic generation user interface 53 is provided with a data flow display area 53a, a lower display area 53b, a relationship designation area 53c, an objective variable designation area 53d, a detailed setting area 53e, and an execution button 53f. ing. In the data flow display area 53a, for example, the data flow is displayed in the same manner as the data flow display area 51a of the data flow display user interface 51 shown in FIG. Similar to the lower display area 51b of the data flow display user interface 51 shown in FIG. 7, the lower display area 53b displays a relationship diagram between the data to be analyzed.

図11に示す関係性指定領域53cは、複数の分析対象データ間での対応関係を指定するための領域である。ここでは、「transaction-1」と「master」との対応関係を指定する。一例として、上述したように「transaction-1」の「顧客ID」と「master」の「顧客ID」とが対応した関係にあるので、「transaction-1」の「顧客ID」と「master」の「顧客ID」とを対応関係として指定しているが、これに限らず、「transaction-1」の任意の列と、「master」の任意の列とが対応関係にあるとして指定することもでき、両者の名前が一致している必要はない。 The relationship designation area 53c shown in FIG. 11 is an area for designating a correspondence relationship between a plurality of analysis target data. Here, the correspondence between "transaction-1" and "master" is specified. As an example, as described above, since the "customer ID" of "transaction-1" and the "customer ID" of "master" are in a corresponding relationship, the "customer ID" and "master" of "transaction-1" Although "customer ID" is specified as a correspondence relationship, it is not limited to this, and any column of "transaction-1" and any column of "master" can be specified as having a correspondence relationship. , The names do not have to match.

関係性の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、関係図上でドラッグ操作して線を引くことで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。尚、データが1つしか無い場合には、分析対象データ間での対応関係は指定しない。 The relationship may be specified by selecting it from the list of features, by dragging it on the relationship diagram to draw a line, or by directly entering the name. It may be specified by. If there is only one data, the correspondence between the data to be analyzed is not specified.

関係性指定領域53cの下部には、パーセント表示されている数値がある。この数値は、指定した列によって全体の何割の行が2つの分析対象データ間で対応しているのかを示している。例えば、図12に一例を示すように、第1分析対象データの「ID」列に「1」、「2」、「3」、「4」が1つずつ存在していて、第2分析対象データの「ID」列に「1」が3つ、「3」が1つ、「5」が1つ存在しているとすると、第1分析対象データの「1」が第2分析対象データの「1」にそれぞれ対応し、第1分析対象データの「3」が第2分析対象データの「3」に対応し、それ以外のIDは対応しないことになる。この場合、第1分析対象データでは50%(2/4行)、第2分析対象データでは80%(4/5行)が「ID」列で対応していることになり、全体としては6/9行、つまり、約67%で対応しているということになる。このような計算を行い、計算結果を関係性指定領域53cの下部に表示する。 At the bottom of the relationship designation area 53c, there is a numerical value displayed as a percentage. This number indicates what percentage of the total rows correspond between the two analyzed data according to the specified column. For example, as shown in FIG. 12, one "1", "2", "3", and "4" exist in the "ID" column of the first analysis target data, and the second analysis target. Assuming that there are three "1" s, one "3", and one "5" in the "ID" column of the data, "1" of the first analysis target data is the second analysis target data. Corresponding to "1", "3" of the first analysis target data corresponds to "3" of the second analysis target data, and other IDs do not correspond. In this case, 50% (2/4 rows) of the first analysis target data and 80% (4/5 rows) of the second analysis target data correspond to the "ID" column, which is 6 as a whole. / 9 lines, that is, about 67% corresponds. Such a calculation is performed, and the calculation result is displayed at the lower part of the relationship designation area 53c.

目的変数指定領域53dは、分析対象となる目的変数を指定するための領域である。目的変数を指定することで、集約先のテーブルを決定することができる。ここでは顧客が離反するかどうかを分析するため、「master」の「離反」列を目的変数として指定している。従って、「transaction-1」の特徴量を集約し、「master」の新たな特徴量として加えることができる。目的変数の指定は、特徴量のリストから選択することによって指定するようにしてもよいし、リストからドラッグ操作することで指定してもよいし、名前を直接入力することによって指定するようにしてもよい。また、データ分析装置1は、目的変数が指定されると、目標変数として指定されたことを表すフラグを内部に設定する。このフラグを設定することで、後述する特徴量を目的変数自身から生成しないようにしている。 The objective variable designation area 53d is an area for designating the objective variable to be analyzed. By specifying the objective variable, the table to be aggregated can be determined. Here, in order to analyze whether or not the customer is separated, the "separation" column of "master" is specified as the objective variable. Therefore, the features of "transaction-1" can be aggregated and added as new features of "master". The objective variable may be specified by selecting it from the list of features, by dragging it from the list, or by directly entering the name. May be good. Further, when the objective variable is specified, the data analysis device 1 internally sets a flag indicating that the objective variable has been specified. By setting this flag, the features described later are not generated from the objective variable itself.

以上の一連の処理が図4に示すフローチャートのステップSB3の特徴量生成に関する設定を入力する処理である。 The above series of processes is the process of inputting the settings related to the feature amount generation in step SB3 of the flowchart shown in FIG.

続くステップSB4では、特徴量を生成する処理を実行する。この処理は、特徴量自動生成ユーザーインターフェース53の実行ボタン53fを押すことで開始される。 In the following step SB4, a process of generating a feature amount is executed. This process is started by pressing the execution button 53f of the feature amount automatic generation user interface 53.

すなわち、ステップSB1、2で複数の分析対象データを指定し、ステップSB3で複数の分析対象データ関係性を指定した場合の特徴量の生成方法としては、例えば、AJ Knobbe, "Propositionalisation and Aggregates", 2001 に記載されている技術を使うことができる。図13に示す例は、「transaction」の「価格」の列について合計を計算し、「master」の特徴量として加える場合である。「transaction」の「顧客ID」が「1」の購買履歴を抽出し、「価格」の値を合計して購入金額の合計値を得る。「master」には、「合計の購入金額」の列を生成し、「顧客ID」が「1」の「合計の購入金額」の列に合計値を自動入力する。これは、「master」と「transaction」の間の行の対応関係が「顧客ID」列によって紐づけられていることから可能になる。 That is, as a method of generating a feature amount when a plurality of analysis target data are specified in steps SB1 and SB3 and a plurality of analysis target data relationships are specified in step SB3, for example, AJ Knobbe, "Propositionalisation and Aggregates", The techniques described in 2001 can be used. The example shown in FIG. 13 is a case where the total is calculated for the "price" column of "transaction" and added as the feature amount of "master". The purchase history in which the "customer ID" of the "transaction" is "1" is extracted, and the values of the "price" are summed to obtain the total purchase price. In "master", a column of "total purchase amount" is generated, and a total value is automatically input in a column of "total purchase amount" in which "customer ID" is "1". This is possible because the row correspondence between "master" and "transaction" is linked by the "customer ID" column.

集約する行は、例えば日付を表す行との組み合わせに基づいて決定してもよい。例えば、図14に示すように、「transaction」の「顧客ID」が「1」の購買履歴を抽出し、2018年2月1日を起点として直近10日以内の「価格」の値を合計する。「master」には、「直近10日以内の購入金額」の列を生成し、「顧客ID」が「1」の「直近10日以内の購入金額」の列に、直近10日以内の「価格」の合計値を自動入力する。全ての顧客IDについて同様な処理を行うことができる。 The row to be aggregated may be determined based on, for example, a combination with a row representing a date. For example, as shown in FIG. 14, the purchase history in which the "customer ID" of "transaction" is "1" is extracted, and the values of "price" within the last 10 days starting from February 1, 2018 are totaled. .. In "master", a column of "purchase amount within the last 10 days" is generated, and in the column of "purchase amount within the last 10 days" with "customer ID" of "1", "price within the last 10 days". The total value of "" is automatically entered. Similar processing can be performed for all customer IDs.

分析対象データが時系列データの場合、このように集計期間を、例えば10日、20日、30日と切り替えることができるように構成されている。集計期間を切り替えることで、同一の集約関数であっても様々な種類の特徴量を生成することができる。期間の単位は、秒、分、時、月、年のいずれであってもよい。例えば、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割するように構成することもできる。分析対象データの全集計期間が30日間の場合、0~10日、11日~20日、21日~30日のように分割することができる。この集計期間の分割は、後述する派生図生成部16bが派生図を生成する際に行うように構成できる。 When the data to be analyzed is time-series data, the aggregation period can be switched to, for example, 10 days, 20 days, and 30 days in this way. By switching the aggregation period, various types of features can be generated even with the same aggregation function. The unit of the period may be seconds, minutes, hours, months, or years. For example, it is possible to acquire the total aggregation period of the data to be analyzed and automatically divide the acquired total aggregation period into a plurality of aggregation periods. When the total aggregation period of the data to be analyzed is 30 days, it can be divided into 0 to 10 days, 11 to 20 days, and 21 to 30 days. The division of the aggregation period can be configured to be performed when the derivation diagram generation unit 16b, which will be described later, generates the derivation diagram.

特徴量を生成した後、目的変数の予測に対する重要度を、各特徴量に対して評価する。目的変数の予測は、図2に示す予測モデル生成部13によって実行される。これが予測モデル生成ステップである。予測モデル生成部13は、複数の特徴量から目的変数を予測するための予測モデルを生成する。予測モデルは、例えば重回帰分析や決定木によって作ることができる。その生成手法については様々あるが、いずれも従来から知られた手法を用いることができる。 After the features are generated, the importance of the objective variable for prediction is evaluated for each feature. The prediction of the objective variable is executed by the prediction model generation unit 13 shown in FIG. This is the predictive model generation step. The prediction model generation unit 13 generates a prediction model for predicting the objective variable from a plurality of feature quantities. Predictive models can be created, for example, by multiple regression analysis or decision trees. There are various generation methods, but all of them can use conventionally known methods.

予測モデルを生成した後、複数の特徴量それぞれに対して予測モデルによる予測に対する重要度を算出する。これは図2に示す重要度算出部14によって実行される処理であり、重要度算出ステップである。特徴量の重要度はFeature Importanceという名前で知られており、種々の計算方法が提案されており、いずれの計算方法を用いてもよい。例えば、以下の式(1)で表される線形重回帰モデルにおいて、各特徴量x1,x2,…に対する係数a1,a2,…を求め、その絶対値を重要度の値として使ってもよい。 After generating the prediction model, the importance of the prediction by the prediction model is calculated for each of the plurality of features. This is a process executed by the importance calculation unit 14 shown in FIG. 2, and is an importance calculation step. The importance of the feature amount is known by the name of Feature Importance, and various calculation methods have been proposed, and any calculation method may be used. For example, in the linear multiple regression model represented by the following equation (1), the coefficients a1, a2, ... For each feature amount x1, x2, ... may be obtained and the absolute value thereof may be used as the value of importance.

y=a1x1+a2x2+…+anxn ・・・(1)
あるいは、係数をそのまま使うのではなく、各特徴量x1,x2,…の大きさが揃うように補正した正規化係数を重要度に用いてもよい。
y = a1x1 + a2x2 + ... + anxn ... (1)
Alternatively, instead of using the coefficient as it is, a normalization coefficient corrected so that the sizes of the feature quantities x1, x2, ... Are uniform may be used for the importance.

このような重要度の分析を行った後、重要度が上位のものを制御ユニット10が抽出する。このとき、先ほどの集計期間が異なる特徴量については、複数の特徴量が重要度の上位に入る場合でも、最も重要なものだけを残して他は削除する。これは、例えば「直近30日の購入金額」、「直近20日の購入金額」、「直近10日の購入金額」が同時に特徴量の上位に入った場合、それを使用者にそのまま提示すると、ほぼ同じ意味を持った特徴量が重複して表示されることになるため使用者にとって分かりにくくなる。また、上位を、同じ意味を持った特徴量が占めてしまうと、それ以外の有効な特徴量が上位から追い出されてしまうことになり、有効な知見が得られにくくなるからである。 After performing such an analysis of importance, the control unit 10 extracts the one having the higher importance. At this time, for the feature quantities having different aggregation periods, even if a plurality of feature quantities are in the higher order of importance, only the most important one is left and the others are deleted. For example, if the "purchase amount of the last 30 days", "purchase amount of the last 20 days", and "purchase amount of the last 10 days" are in the top of the feature amount at the same time, if they are presented to the user as they are, It is difficult for the user to understand because the features having almost the same meaning are displayed in duplicate. Further, if a feature amount having the same meaning occupies the upper part, other effective feature amounts will be expelled from the upper part, and it will be difficult to obtain effective knowledge.

「上位」に入る数としては、例えば2以上、5以上、10以上、20以上とすることができる。「上位」に入る数は、制御ユニット10が自動的に設定してもよいし、使用者が任意の数に設定してもよい。 The number in the "higher rank" can be, for example, 2 or more, 5 or more, 10 or more, and 20 or more. The number to be included in the "upper" may be automatically set by the control unit 10 or may be set by the user to any number.

以上の一連の処理が図4に示すフローチャートのステップSB4の特徴量の生成処理である。特徴量の生成が完了するとステップSB5に進む。ステップSB5は、ステップSB4で生成した特徴量の情報を出力するステップである。 The above series of processes is the feature amount generation process of step SB4 in the flowchart shown in FIG. When the generation of the feature amount is completed, the process proceeds to step SB5. Step SB5 is a step of outputting information on the feature amount generated in step SB4.

特徴量の生成が完了して上位の特徴量が抽出されると、図15に示す特徴量表示ユーザーインターフェース60をモニタ3に表示させるとともに、特徴量表示ユーザーインターフェース60上でなされた使用者の操作を受け付ける。 When the generation of the feature amount is completed and the upper feature amount is extracted, the feature amount display user interface 60 shown in FIG. 15 is displayed on the monitor 3, and the user's operation performed on the feature amount display user interface 60 is performed. Accept.

特徴量表示ユーザーインターフェース60には、特徴量表示領域60aと、詳細情報表示領域60bとが設けられている。特徴量表示領域60aと詳細情報表示領域60bとはモニタ3の左右に並ぶように配置することができる。特徴量表示領域60aには、上位の特徴量が表示される。つまり、モニタ5は、重要度算出部14により算出された重要度に基づき、上位の重要度を有する特徴量を表示するものである。このステップが特徴量表示ステップである。 The feature amount display user interface 60 is provided with a feature amount display area 60a and a detailed information display area 60b. The feature amount display area 60a and the detailed information display area 60b can be arranged so as to be arranged on the left and right sides of the monitor 3. The upper feature amount is displayed in the feature amount display area 60a. That is, the monitor 5 displays the feature amount having a higher importance based on the importance calculated by the importance calculation unit 14. This step is a feature quantity display step.

モニタ5は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示する、すなわち、ランキング表示するように構成されている。この例では、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されており、最上位の重要度を有する特徴量が最も上に位置し、最上位の重要度未満の複数の特徴量は、重要度の大きさによって降順に配置される。特徴量は、昇順に配置してもよいし、左右方向に並ぶように配置してもよい。特徴量表示領域60aに表示する特徴量は所定数であればよく、その数は特に限定されない。 The monitor 5 is configured to display a plurality of features having higher importance side by side in descending order of importance, that is, to display a ranking. In this example, the feature quantity having the highest importance and the feature quantity having the highest importance are displayed at the same time, and the feature quantity having the highest importance is the highest. Multiple features that are located in and less than the highest importance are arranged in descending order according to the magnitude of importance. The feature quantities may be arranged in ascending order or may be arranged so as to be arranged in the left-right direction. The feature amount to be displayed in the feature amount display area 60a may be a predetermined number, and the number is not particularly limited.

特徴量表示領域60aには、特徴量の名称が表示される名称表示部60cと、重要度が表示される重要度表示部60dとが設けられている。名称表示部60cには、「transaction」、「master」に存在していた特徴量の名称が表示されるようになっている。「transaction」、「master」に存在していた特徴量の名称はそのまま名称表示部60cに表示することができるが、使用者が変更できるようにしてもよい。 The feature amount display area 60a is provided with a name display unit 60c for displaying the name of the feature amount and an importance display unit 60d for displaying the importance. The name of the feature amount existing in "transaction" and "master" is displayed on the name display unit 60c. The name of the feature amount existing in "transaction" and "master" can be displayed as it is on the name display unit 60c, but it may be changed by the user.

重要度表示部60dには、棒グラフ形式で各特徴量の横に並ぶように、重要度が表示される。棒グラフ形式で表示する場合、長ければ長いほど重要度が高いとすることができる。重要度表示部60dには、各種グラフ形式以外にも重量度を数値で表示してもよいし、数値とグラフとを同時に表示してもよい。 On the importance display unit 60d, the importance is displayed so as to be arranged next to each feature amount in a bar graph format. When displaying in a bar graph format, the longer it is, the more important it can be. In addition to the various graph formats, the weight degree may be displayed numerically on the importance display unit 60d, or the numerical value and the graph may be displayed at the same time.

特徴量表示領域60aには、特徴量追加ボタン60fが設けられている。特徴量追加ボタン60fを押すと、特徴量表示領域60aに表示されている以外の特徴量が表示され、表示された特徴量の中から使用者が特徴量表示領域60aに表示したい特徴量を選択することができるようになっている。選択された特徴量は、特徴量表示領域60aに表示される。尚、特徴量表示領域60aに表示されている特徴量で不要だと思われる特徴量を削除する、非表示にする等も可能に構成されている。 The feature amount display area 60a is provided with a feature amount addition button 60f. When the feature amount addition button 60f is pressed, a feature amount other than that displayed in the feature amount display area 60a is displayed, and the user selects a feature amount to be displayed in the feature amount display area 60a from the displayed feature amounts. You can do it. The selected feature amount is displayed in the feature amount display area 60a. It is also possible to delete or hide the feature amount displayed in the feature amount display area 60a, which is considered unnecessary.

(制御ユニット10の詳細動作)
図15に示す特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量は使用者によって選択することができる。マウス5等を使用して、どの特徴量を選択するか使用者が入力操作を行うと、図16に示すように、特徴量表示ユーザーインターフェース60の詳細情報表示領域60bに第1基本図70が表示される。第1基本図70は、図2に示す表示図生成部16の基本図生成部16aが生成する。この処理が基本図生成ステップである。つまり、基本図生成部16aは、モニタ3に表示された特徴量の中から使用者の入力に応じて選択された第1の特徴量と、目的変数との関係を示す基本図を生成する部分である。第1の特徴量とは、上記使用者が選択した特徴量のことであり、図16に示す例では、「直近30日の総来店日数」である。使用者が選択した特徴量は強調表示されて他の特徴量との識別が容易になっている。また、第1基本図70は、使用者の入力に応じて選択された特徴量の値に基づいて分析対象データを複数のクラスターに分割しており、各クラスターと、各クラスターの目的変数の代表値との関係を示す図となっている。
(Detailed operation of control unit 10)
The feature amount displayed in the feature amount display area 60a of the feature amount display user interface 60 shown in FIG. 15 can be selected by the user. When the user performs an input operation as to which feature amount is to be selected by using the mouse 5 or the like, as shown in FIG. 16, the first basic figure 70 is displayed in the detailed information display area 60b of the feature amount display user interface 60. Is displayed. The first basic diagram 70 is generated by the basic diagram generation unit 16a of the display diagram generation unit 16 shown in FIG. This process is the basic diagram generation step. That is, the basic diagram generation unit 16a is a portion that generates a basic diagram showing the relationship between the first feature amount selected according to the user's input from the feature amounts displayed on the monitor 3 and the objective variable. Is. The first feature amount is the feature amount selected by the user, and in the example shown in FIG. 16, it is the “total number of days of visit to the store in the last 30 days”. The feature amount selected by the user is highlighted so that it can be easily distinguished from other feature amounts. Further, in FIG. 70, the analysis target data is divided into a plurality of clusters based on the value of the feature amount selected according to the input of the user, and each cluster and the representative of the objective variable of each cluster are represented. It is a figure which shows the relationship with a value.

以下、第1基本図70について詳細に説明する。第1基本図70は、上側領域71と、中間領域72と、下側領域73の3つの領域に分けることができる。上側領域71には、縦軸を離反の割合とし、横軸を直近30日の総来店日数とした折れ線グラフが表示される。離反の割合とは、一度来店したが、その後、来店しなくなった顧客の割合である。横軸では、0日~30日までを6つの期間(区間)に分割して表示している。折れ線グラフでは、選択した特徴量と、目的変数(離反)との関係性が表示されている。 Hereinafter, the first basic diagram 70 will be described in detail. The first basic figure 70 can be divided into three regions, an upper region 71, an intermediate region 72, and a lower region 73. In the upper region 71, a line graph is displayed in which the vertical axis is the ratio of separation and the horizontal axis is the total number of days visited in the last 30 days. The percentage of customers who have left the store is the percentage of customers who have visited the store once but have not visited the store since then. On the horizontal axis, 0 to 30 days are divided into 6 periods (sections) and displayed. The line graph shows the relationship between the selected features and the objective variable (separation).

中間領域72には、縦軸をデータ数とし、横軸を直近30日の総来店日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域71に表示されている折れ線グラフの横軸と共有されている。この棒グラフでは、各区間に存在するデータの数が表現されており、度数分布表となっている。すなわち、制御ユニット10は、第1の特徴量の値に基づいて分析対象データを複数の期間に分割してクラスターを形成し、各クラスターに属する分析対象データの数を示すデータ数表示グラフを生成するように構成されている。そして、モニタ3は、生成されたデータ数表示グラフを表示可能に構成されている。 In the intermediate region 72, a bar graph is displayed in which the vertical axis is the number of data and the horizontal axis is the total number of days visited in the last 30 days. The horizontal axis of this bar graph is shared with the horizontal axis of the line graph displayed in the upper region 71. In this bar graph, the number of data existing in each section is represented, and it is a frequency distribution table. That is, the control unit 10 divides the analysis target data into a plurality of periods based on the value of the first feature amount to form a cluster, and generates a data number display graph showing the number of analysis target data belonging to each cluster. It is configured to do. The monitor 3 is configured to be able to display the generated data number display graph.

上側領域71の折れ線グラフと、中間領域72の棒グラフとから、「直近30日の総来店日数が多いほど、離反=1のデータの割合が低下する」、「総来店日数が21日~25日の場合に離反=1の割合が最小となるが、該当するデータ数は少ない」といった傾向を読み取ることができる。 From the line graph of the upper area 71 and the bar graph of the intermediate area 72, "The greater the total number of store visits in the last 30 days, the lower the ratio of data with separation = 1", "The total number of store visits is 21 to 25 days." In the case of, the ratio of separation = 1 is the minimum, but the number of applicable data is small. "

さらに、制御ユニット10は、離反=1の割合の平均値を算出する。平均値は全データの平均値とすることができ、この例では21%である。さらに、全体の平均値(21%)と比べて、目的変数の平均値に有意差があると判定された区間では、系列が強調表示され、さらに説明文がグラフ下部、すなわち、下側領域73に付加される。 Further, the control unit 10 calculates an average value of the ratio of separation = 1. The average value can be the average value of all data, which is 21% in this example. Furthermore, in the section where it is determined that there is a significant difference in the mean value of the objective variable compared to the overall mean value (21%), the series is highlighted and the explanatory text is further shown at the bottom of the graph, that is, the lower region 73. Is added to.

有意差が無い場合には強調表示はされない。「有意差が無い」とは、データのバラつきやデータの数などを考慮した上で、その区間の代表値が比較対象の区間の代表値に対して十分な差を持っていると言えない場合のことを指す。また、強調表示とは、例えば、文字を太くする、文字の色の他の文字の色と変える、文字の背景に色を付ける等、他の文字と区別することができる表示である。 If there is no significant difference, it will not be highlighted. "There is no significant difference" means that the representative value of the section does not have a sufficient difference from the representative value of the section to be compared, taking into consideration the variation of data and the number of data. Refers to. Further, the highlighting is a display that can be distinguished from other characters, for example, by thickening the character, changing the color of the character from the color of another character, or coloring the background of the character.

説明文は、選択された第1の特徴量と目的変数との関係を説明する文であり、図2に示す説明文自動生成部18によって自動的に生成される。説明文自動生成部18は、例えば、データ入力部12で受け付けた分析対象データの名称や、特徴量の名称、特徴量の相対差、データ数等に基づいて、選択された第1の特徴量が目的変数に与える影響の度合い等を説明する文を生成することができる。これにより、使用者が特徴量と目的変数との関係を把握し易くなるとともに、使用者がコメントを作成する手間を省くことができる。 The explanatory text is a text explaining the relationship between the selected first feature amount and the objective variable, and is automatically generated by the explanatory text automatic generation unit 18 shown in FIG. The description automatic generation unit 18 is, for example, a first feature amount selected based on the name of the analysis target data received by the data input unit 12, the name of the feature amount, the relative difference of the feature amount, the number of data, and the like. Can generate statements that explain the degree of influence that has on the objective variable. This makes it easier for the user to understand the relationship between the feature amount and the objective variable, and saves the user the trouble of creating a comment.

ここで、有意差の判定について説明する。有意差の判定には、統計で一般に使用されるp値やt検定といった指標を使うことができる。例えばt検定は以下の式1で計算される。x,sは注目する系列での目的値の平均と標準偏差、μは目的値の全体平均、nは系列のデータ数である。この値が大きいほど、差が有意であると判定できる。 Here, the determination of the significant difference will be described. Indicators such as p-values and t-tests commonly used in statistics can be used to determine significant differences. For example, the t-test is calculated by the following equation 1. x and s are the average and standard deviation of the target values in the series of interest, μ is the overall average of the target values, and n is the number of data in the series. It can be determined that the larger this value is, the more significant the difference is.

Figure 0007049211000001
Figure 0007049211000001

これらの指標を使うことで、単純に全体平均からの乖離の度合を見るだけでなく、データの量や個々のデータのバラつきを加味することができるので、偶然大きな乖離が生じているのか、意味のある差が生じているのかを区別することができる。 By using these indicators, it is possible not only to simply look at the degree of deviation from the overall average, but also to take into account the amount of data and the variation of individual data, so it means that a large deviation has occurred by chance. It is possible to distinguish whether a certain difference is occurring.

この統計検定を用いた強調表示によって、使用者はデータから真に意味のある場所に着目することができ、自動生成された特徴量から素早く有用な知見を得ることができる。 Highlighting using this statistical test allows the user to focus on truly meaningful locations from the data and quickly obtain useful insights from the automatically generated features.

上側領域71に表示されたグラフの中から任意の区間を選択すると、図17に示すように詳細メニュー74が表示される。詳細メニュー74は、選択した区間に含まれるデータと、全体の傾向とを比較するためのメニューであり、メニュー選択に応じてさらに詳細な情報を表示することができる。詳細メニュー74には、「値の平均値を比較」、「特徴量の寄与度を比較」及び「差分の説明を計算」の3つのメニューが含まれている。 When an arbitrary section is selected from the graph displayed in the upper area 71, the detailed menu 74 is displayed as shown in FIG. The detail menu 74 is a menu for comparing the data included in the selected section with the overall tendency, and more detailed information can be displayed according to the menu selection. The detailed menu 74 includes three menus, "Compare average values", "Compare contributions of features", and "Calculate explanation of difference".

図17に示すように、例えば、「直近30日の総来店日数~5日」の区間に対して、「値の平均値を比較」というメニューを選択すると、図18に示すように、選択した区間のデータと全データのそれぞれについて、各特徴量の平均値を比較した比較表75が表示される。 As shown in FIG. 17, for example, when the menu "Compare average values" is selected for the section of "total number of visits to the store in the last 30 days to 5 days", the selection is made as shown in FIG. A comparison table 75 comparing the average value of each feature amount is displayed for each of the section data and all the data.

詳しくは、使用者が図16に示す第1基本図70に示された複数のクラスターから、いずれか1つのクラスターを選択する操作(クリック操作等)を行うと、この操作が図2に示すクラスター選択部15によって受け付けられる。この処理がクラスター選択ステップである。図2に示す比較図生成部16cは、クラスター選択部15により選択が受け付けられた後、選択されたクラスターにおいて、目的変数の予測に寄与する特徴量と、全クラスターまたはクラスター選択部15により選択されていない選択外のクラスターにおいて、目的変数の予測に寄与する特徴量との比較を示す比較表75(図18に示す)を生成する。この処理が比較図生成ステップである。 Specifically, when the user performs an operation (click operation, etc.) to select one of the clusters from the plurality of clusters shown in the first basic FIG. 70 shown in FIG. 16, this operation is performed by the cluster shown in FIG. It is accepted by the selection unit 15. This process is the cluster selection step. After the selection is accepted by the cluster selection unit 15, the comparison diagram generation unit 16c shown in FIG. 2 is selected by the feature quantity that contributes to the prediction of the objective variable and all clusters or the cluster selection unit 15 in the selected cluster. In the unselected clusters, a comparison table 75 (shown in FIG. 18) showing a comparison with the features that contribute to the prediction of the objective variable is generated. This process is the comparison diagram generation step.

詳細は後述するが、比較図生成部16cは、クラスター選択部15により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す比較図を生成するように構成することもできる。また、比較図生成部16cは、上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す比較図を生成するように構成することもできる。さらに、比較図生成部16cは、分析対象データの値が存在していない欠損クラスターにおいて、目的変数の予測に寄与する特徴量を示す比較図を生成するように構成することもできる。 Although the details will be described later, the comparison diagram generation unit 16c can also be configured to generate a comparison diagram showing a feature amount having a significantly high contribution only in the cluster selected by the cluster selection unit 15. Further, the comparison diagram generation unit 16c can be configured to generate a comparison diagram showing the feature quantities not selected by the user among the feature quantities having higher importance. Further, the comparison diagram generation unit 16c can be configured to generate a comparison diagram showing the feature amount that contributes to the prediction of the objective variable in the defective cluster in which the value of the analysis target data does not exist.

比較表75は、比較図であり、表形式以外にもグラフを表示した比較図であってもよい。そして、モニタ3は、第1基本図70と比較表75と同時または別々に表示可能に構成されており、第1基本図70と、比較表75とを同時または別々に表示する比較図表示ステップを実行することができる。 The comparison table 75 is a comparison diagram, and may be a comparison diagram displaying a graph in addition to the tabular format. The monitor 3 is configured to be able to display the first basic diagram 70 and the comparison table 75 simultaneously or separately, and the comparison diagram display step of displaying the first basic diagram 70 and the comparison table 75 simultaneously or separately. Can be executed.

比較表75には、重要度が高くないものを含む全ての特徴量の中から、平均値の乖離が有意に大きいものだけを表示している。ここでの有意性の判定にも、先ほどと同様にp値やt検定を使うことができる。 In the comparison table 75, only the ones having a significantly large deviation in the mean value are displayed from all the feature quantities including the ones having a low importance. The p-value and t-test can be used to determine the significance here as before.

比較表75に表示する特徴量を使用者が選択可能に構成することもできる。比較表75の下部には、特徴量追加ボタン75aが設けられている。特徴量追加ボタン75aを押すと、任意の特徴量を比較軸として追加することができる。比較表75に表示する特徴量を使用者が削除可能に構成することもできる。 The feature amount to be displayed in the comparison table 75 can be configured to be selectable by the user. At the bottom of the comparison table 75, a feature amount addition button 75a is provided. By pressing the feature amount addition button 75a, any feature amount can be added as a comparison axis. The feature amount displayed in the comparison table 75 can be configured to be deleteable by the user.

この例では比較表75に平均値を表示しているが、例えば、分散、中央値、最小値など、平均値以外の統計量を表示してもよい。 In this example, the mean value is displayed in the comparison table 75, but statistics other than the mean value such as variance, median value, and minimum value may be displayed.

これによって、ある特徴量を切り口として興味深いデータ群(本例なら離反率が高い顧客群)が見つかったときに、そのデータ群に固有の性質が何なのかを詳細に掘り下げることができ、その結果、新たな知見を得ることができる。 As a result, when an interesting data group (customer group with a high separation rate in this example) is found using a certain feature amount as a starting point, it is possible to delve into in detail what the unique properties of the data group are. , New findings can be obtained.

さらに、比較や分析の軸となる特徴量は自動的に生成されているため、例えば「直近30日の総来店日数が少ない顧客では、野菜と日配品の購入額が特に小さい」といった、熟練の分析者でなければ気づきにくい、深い知見を容易に得ることができる。 Furthermore, since the feature quantities that are the core of comparison and analysis are automatically generated, for example, "customers who have a short total number of visits in the last 30 days have a particularly small purchase price of vegetables and daily deliveries." It is easy to obtain deep knowledge that is difficult to notice unless you are an analyst.

また、特徴量を選択した際に表示されるグラフは、目的変数との関係に加えて、それ以外のグラフを1つ以上含んでいてもよい。例えば、「直近30日の総来店日数」を指定した場合に、図19に示すように、2つ目のグラフとして「30日以外の期間で集計した場合との精度の比較」に関する予測精度比較グラフ76を表示することができる。予測精度比較グラフ76は、図18に示す第1基本図70の下に位置しており、従って第1基本図70が詳細情報表示領域60bに表示された状態から縦スクロールバー60eを操作して下スクロールすることで、予測精度比較グラフ76を表示することができる。第1基本図70と予測精度比較グラフ76とは同時に表示できるようにしてもよい。以上のようにして、第1基本図70と予測精度比較グラフ76とを同時にまたは別々に表示する派生図表示ステップを実行することができる。 Further, the graph displayed when the feature amount is selected may include one or more graphs other than the graph in addition to the relationship with the objective variable. For example, when "total number of days visited in the last 30 days" is specified, as shown in FIG. 19, the prediction accuracy comparison regarding "comparison of accuracy with the case of totaling in a period other than 30 days" as the second graph. Graph 76 can be displayed. The prediction accuracy comparison graph 76 is located below the first basic drawing 70 shown in FIG. 18, and therefore the vertical scroll bar 60e is operated from the state where the first basic drawing 70 is displayed in the detailed information display area 60b. By scrolling down, the prediction accuracy comparison graph 76 can be displayed. The first basic figure 70 and the prediction accuracy comparison graph 76 may be displayed at the same time. As described above, the derivative diagram display step of displaying the first basic diagram 70 and the prediction accuracy comparison graph 76 simultaneously or separately can be executed.

図19に示す予測精度比較グラフ76は、第3の派生図と呼ぶこともできる。第3の派生図は、第1の特徴量(本例では「直近30日の総来店日数」)に基づいて生成された予測モデルの精度と、第1の特徴量と同一カテゴリーに属し、且つ第1の特徴量と集計期間が異なる別の特徴量に基づいて生成された予測モデルの精度との比較を示す図である。「集計期間が異なる」ことは、予測精度比較グラフ76の横軸に示しており、具体的には「10日」、「20日」、…という表示である。この第3の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。これら直近10日の総来店日数、直近20日の総来店日数、直近30日の総来店日数は、「総来店日数」という同一のカテゴリーに属する。 The prediction accuracy comparison graph 76 shown in FIG. 19 can also be referred to as a third derivative diagram. The third derivative diagram shows the accuracy of the prediction model generated based on the first feature amount (in this example, "total number of days visited in the last 30 days"), and belongs to the same category as the first feature amount, and It is a figure which shows the comparison with the accuracy of the prediction model generated based on the 1st feature quantity and another feature quantity which has a different aggregation period. "The aggregation period is different" is shown on the horizontal axis of the prediction accuracy comparison graph 76, and specifically, "10 days", "20 days", ... This third derivative diagram is generated by the derivative diagram generation unit 16b shown in FIG. This process is the derivation diagram generation step. The total number of days visited in the last 10 days, the total number of days visited in the last 20 days, and the total number of days visited in the last 30 days belong to the same category of "total number of days visited".

派生図生成部16bが第3の派生図を生成する場合には、第1の特徴量と同一カテゴリーに属し、集計期間が異なる別の特徴量に基づいて予測された予測モデルの精度を、第1の特徴量に基づいて生成された予測モデルの精度と比較することができる。これにより、使用者が各予測モデルの精度の相対差を把握した上で、どの予測モデルを使用して分析を行えば精度が高まるか、容易に判断可能になる。 When the derivation diagram generation unit 16b generates the third derivation diagram, the accuracy of the prediction model predicted based on another feature amount that belongs to the same category as the first feature amount and has a different aggregation period is determined. It can be compared with the accuracy of the prediction model generated based on the feature amount of 1. This makes it possible for the user to grasp the relative difference in accuracy of each prediction model and then easily determine which prediction model should be used for analysis to improve the accuracy.

また、派生図生成部16bは、第3の派生図の生成時に、複数の別の特徴量に基づいてそれぞれ生成された各予測モデルの精度と、第1の特徴量に基づいて生成された予測モデルの精度とを比較可能に表現する図を生成する。さらに、派生図生成部16bは、第3の派生図の生成時に、別の特徴量として、所定以上の重要度を有する特徴量に基づいて生成された予測モデルの精度と、第1の特徴量に基づいて生成された予測モデルの精度とを比較可能にする図を生成する。具体的には、グラフであるが、その他にも数値で比較可能な図であってもよい。 Further, the derivative diagram generation unit 16b has the accuracy of each prediction model generated based on a plurality of different feature quantities at the time of generation of the third derivative diagram, and the prediction generated based on the first feature quantity. Generate a diagram that is comparable to the accuracy of the model. Further, the derivative diagram generation unit 16b has, as another feature amount, the accuracy of the prediction model generated based on the feature amount having a predetermined degree of importance at the time of generating the third derivative figure, and the first feature amount. Generates a diagram that makes it possible to compare with the accuracy of the predictive model generated based on. Specifically, it is a graph, but it may also be a figure that can be compared numerically.

例えば時間や日数で集計される特徴量については、上述したように、集計期間が異なる特徴量を複数パターン生成し、その中で最適なものを1つ自動的に選択するように構成されている。図19では、選択されなかった集計期間との精度差を相対値で提示することで、「別の集計期間での総来店日数を特徴量として使うとどうなっていたか」を示すことができる。 For example, for features that are aggregated by time or number of days, as described above, it is configured to generate multiple patterns of features with different aggregation periods and automatically select the most suitable one. .. In FIG. 19, by presenting the accuracy difference from the unselected aggregation period as a relative value, it is possible to show "what happened when the total number of store visits in another aggregation period was used as a feature quantity".

精度としては、データ分析で一般的に使用されるF値、AUCなどを使う。精度は絶対値でもよく、処理時間やデータ量など、精度以外の観点を組み合わせた指標でもよい。これによって、「なぜ20日でも40日でもなく、30日の総来店日数が出力されたのか?」と考えるユーザーに対して、より納得感を持たせることができる。また、「精度があまり変わらないのであれば集計するデータ量をなるべく少なくしたい」という要望に対して、データ量の影響度合いを提示することで判断基準を提供できる。 As the accuracy, the F value, AUC, etc. generally used in data analysis are used. The accuracy may be an absolute value, or may be an index that combines viewpoints other than accuracy, such as processing time and data amount. As a result, it is possible to give a more convincing feeling to the user who thinks "Why was the total number of visits to the store 30 days output instead of 20 days or 40 days?". In addition, it is possible to provide a judgment criterion by presenting the degree of influence of the amount of data in response to the request that "if the accuracy does not change so much, the amount of data to be aggregated should be reduced as much as possible".

図20は、特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量のうち、「最終来店日からの経過日数」を選択した場合を示している。特徴量表示ユーザーインターフェース60の詳細情報表示領域60bに第2基本図77が表示される。第2基本図77は、図2に示す表示図生成部16の基本図生成部16aが生成したものであり、この処理が基本図生成ステップである。つまり、基本図生成部16aは、モニタ3に表示された特徴量の中から使用者の入力に応じて選択された第1の特徴量と、目的変数との関係を示す基本図を生成しており、第1の特徴量とは、図20に示す例では、「最終来店日からの経過日数」である。 FIG. 20 shows a case where “the number of days elapsed from the last visit date” is selected from the feature quantities displayed in the feature quantity display area 60a of the feature quantity display user interface 60. The second basic figure 77 is displayed in the detailed information display area 60b of the feature amount display user interface 60. The second basic diagram 77 is generated by the basic diagram generation unit 16a of the display diagram generation unit 16 shown in FIG. 2, and this process is the basic diagram generation step. That is, the basic diagram generation unit 16a generates a basic diagram showing the relationship between the first feature amount selected according to the user's input from the feature amounts displayed on the monitor 3 and the objective variable. The first feature amount is, in the example shown in FIG. 20, "the number of days elapsed since the last visit date".

第2基本図77は、上側領域77aと、中間領域77bと、下側領域77cの3つの領域に分けることができる。上側領域77aには、縦軸を離反の割合とし、横軸を最終来店日からの経過日数とした折れ線グラフが表示される。横軸では、0日~30日までを6つの期間(区間)に分割して表示している。 The second basic figure 77 can be divided into three regions, an upper region 77a, an intermediate region 77b, and a lower region 77c. In the upper region 77a, a line graph is displayed in which the vertical axis is the ratio of separation and the horizontal axis is the number of days elapsed from the last visit date. On the horizontal axis, 0 to 30 days are divided into 6 periods (sections) and displayed.

中間領域77bには、縦軸をデータ数とし、横軸を最終来店日からの経過日数とした棒グラフが表示される。この棒グラフの横軸は、上側領域77aに表示されている折れ線グラフの横軸と共有されている。また、下側領域77cには、説明文自動生成部18で自動生成された説明文が表示される。 In the intermediate region 77b, a bar graph is displayed in which the vertical axis is the number of data and the horizontal axis is the number of days elapsed since the last visit date. The horizontal axis of this bar graph is shared with the horizontal axis of the line graph displayed in the upper region 77a. Further, in the lower region 77c, the explanatory text automatically generated by the explanatory text automatic generation unit 18 is displayed.

図20に示す例でも、選択した特徴量と目的変数との関係性が表示されているが、強調される系列や、下側領域77cに記載される説明文の内容は、特徴量の性質に応じて図16に示す例とは異なっている。 In the example shown in FIG. 20, the relationship between the selected feature amount and the objective variable is also displayed, but the emphasized series and the content of the explanatory text described in the lower region 77c are the properties of the feature amount. Correspondingly, it is different from the example shown in FIG.

さらに、特徴量の詳細説明を行う2番目のグラフは、図21に示すように、別の特徴量との複合的な影響を示す影響度比較グラフ78となっている。このような影響度比較グラフ78を生成することもでき、このグラフ78は、第1の特徴量及び第2の特徴量を同時に表示した同時表示グラフと呼ぶことができる。生成された同時表示グラフは、モニタ3に表示可能になっている。影響度比較グラフ78は、第2基本図77と同時に表示してもよいし、別々に表示してもよい。影響度比較グラフ78と、第2基本図77と表示するステップが派生図表示ステップである。 Further, as shown in FIG. 21, the second graph for explaining the feature amount in detail is an influence degree comparison graph 78 showing a complex effect with another feature amount. Such an influence degree comparison graph 78 can also be generated, and this graph 78 can be called a simultaneous display graph in which the first feature amount and the second feature amount are simultaneously displayed. The generated simultaneous display graph can be displayed on the monitor 3. The influence degree comparison graph 78 may be displayed at the same time as the second basic diagram 77, or may be displayed separately. The step of displaying the influence degree comparison graph 78 and the second basic diagram 77 is a derivative diagram display step.

影響度比較グラフ78は、第1の派生図と呼ぶこともできる。第1の派生図は、第1の特徴量(本例では「最終来店日からの経過日数」)の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターの目的変数の代表値を算出し、少なくともいずれか1つのクラスターで、第1の特徴量の目的変数の代表値に対して有意な差が存在すると判定される目的変数の代表値を有する第2の特徴量(本例では「直近30日の総来店日数」)を抽出し、当該第2の特徴量と目的変数との関係を示す図である。この第1の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。 The influence degree comparison graph 78 can also be called a first derivative diagram. In the first derivative diagram, the data to be analyzed is divided into a plurality of clusters based on the value of the first feature amount (in this example, "the number of days elapsed from the last visit date"), and the representative value of the objective variable of each cluster. A second feature amount having a representative value of the objective variable determined to have a significant difference from the representative value of the objective variable of the first feature amount in at least one cluster (this example). Is a diagram showing the relationship between the second feature amount and the objective variable by extracting “total number of days visited in the last 30 days”). This first derivative diagram is generated by the derivative diagram generation unit 16b shown in FIG. This process is the derivation diagram generation step.

すなわち、図2に示す派生図生成部16bが第1の派生図である影響度比較グラフ78(図21に示す)を生成する場合には、例えば、複数の期間に分割した第1の特徴量を得て、各期間の目的変数の代表値として平均値や中央値等を算出し、任意の期間において、第1の特徴量の目的変数の代表値に対して有意な差が存在する目的変数の代表値を有する第2の特徴量を抽出し、この第2の特徴量と目的変数との関係を示すことができる。これにより、第1の特徴量だけでは得ることのできなかった知見を得ることができる。分析対象データを振り分ける条件を区間と呼ぶことができ、区間は、期間だけでなく、例えば、性別、場所等であってもよい。 That is, when the derivative diagram generation unit 16b shown in FIG. 2 generates the influence degree comparison graph 78 (shown in FIG. 21) which is the first derivative diagram, for example, the first feature amount divided into a plurality of periods. The mean value, median value, etc. are calculated as the representative value of the objective variable for each period, and the objective variable having a significant difference from the representative value of the objective variable of the first feature amount in an arbitrary period. A second feature amount having a representative value of can be extracted, and the relationship between the second feature amount and the objective variable can be shown. As a result, it is possible to obtain findings that could not be obtained only with the first feature amount. The condition for distributing the analysis target data can be called an interval, and the interval may be not only the period but also, for example, gender, place, and the like.

また、派生図生成部16bは、第1の特徴量の値に基づいて分析対象データを複数のクラスターに分割し、各クラスターに属する分析対象データの数を示すデータ数表示グラフ78aを生成するように構成されている。分析対象データを複数のクラスターに分割する際、派生図生成部16bは、分析対象データの全集計期間を取得し、取得した全集計期間を自動的に複数の集計期間に分割する。これにより、使用者の分割作業の手間を省くことができる。 Further, the derivative diagram generation unit 16b divides the analysis target data into a plurality of clusters based on the value of the first feature amount, and generates a data number display graph 78a showing the number of analysis target data belonging to each cluster. It is configured in. When the analysis target data is divided into a plurality of clusters, the derivative diagram generation unit 16b acquires the total aggregation period of the analysis target data, and automatically divides the acquired total aggregation period into a plurality of aggregation periods. This can save the user the trouble of dividing work.

データ数表示グラフ78aは、第1の派生図(影響度比較グラフ78)の下に表示された棒グラフである。そして、モニタ3は、派生図生成部16bにより生成されたデータ数表示グラフ78aを表示可能に構成されている。データ数表示グラフ78aによれば、分析対象データの数を把握することができる。 The data number display graph 78a is a bar graph displayed below the first derivative diagram (impact degree comparison graph 78). The monitor 3 is configured to be able to display the data number display graph 78a generated by the derivative diagram generation unit 16b. According to the data number display graph 78a, the number of data to be analyzed can be grasped.

また、分析対象データの数が第1の所定数以下のクラスターが存在することを使用者に通知するように構成することができる。例えば、全データ数の数%以下のデータ数しかないクラスターが存在した場合、当該クラスターを構成するデータ数が全データ数の数%以下であるといった通知をすることで、使用者がクラスターの特徴量の信頼性を判断する際の材料になる。 Further, it can be configured to notify the user that there are clusters in which the number of data to be analyzed is the first predetermined number or less. For example, if there is a cluster with less than a few percent of the total number of data, the user can be notified that the number of data constituting the cluster is less than a few percent of the total number of data. It is a material for judging the reliability of the quantity.

派生図生成部16bは、第1の派生図の生成時に、分析対象データの数が第2の所定数以下の特徴量については、第1の特徴量の目的変数の代表値に対して有意な差が無いと判定するように構成されている。第2の所定数と、前記第1の所定数とは同じであってもよいし、一方が他方よりも少なくてもよい。例えば、全データ数の数%以下のデータ数しかない特徴量が存在した場合、目的変数の信頼性が乏しいと考えることができ、このような場合には、有意な差が無いと判定することで、分析に用いられないようにすることができる。 When the derivation diagram generation unit 16b generates the first derivation diagram, the feature amount whose number of data to be analyzed is equal to or less than the second predetermined number is significant with respect to the representative value of the objective variable of the first feature amount. It is configured to determine that there is no difference. The second predetermined number and the first predetermined number may be the same, or one may be less than the other. For example, if there is a feature amount with only a few percent or less of the total number of data, it can be considered that the reliability of the objective variable is poor, and in such a case, it is determined that there is no significant difference. It can be prevented from being used for analysis.

影響度比較グラフ78では、選択した特徴量だけで見ると同一区間のデータであっても、別の特徴量でデータを更に分割することで、目的変数との関係に大きな差異が生じることを示している。図20に示す上側領域77aに表示されている折れ線グラフでは、「最終来店日からの経過日数が小さいほど、離反=1の割合が低下する」という事実を読み取ることができたが、図21に示す影響度比較グラフ78からは更に、「たとえ最終来店日からの経過日数が小さくても、総来店日数が10日未満の顧客は離反率が高い」という新たな知見を得ることができる。 The influence comparison graph 78 shows that even if the data is in the same section when viewed only with the selected features, further division of the data by different features causes a large difference in the relationship with the objective variable. ing. In the line graph displayed in the upper region 77a shown in FIG. 20, it was possible to read the fact that "the smaller the number of days elapsed from the last visit date, the lower the ratio of separation = 1". Further, from the influence degree comparison graph 78 shown, it is possible to obtain a new finding that "even if the number of days elapsed from the last visit date is small, the customer who has a total visit time of less than 10 days has a high turnover rate".

この影響度比較グラフ78では、別の特徴量の違いによる区間内の差が有意かどうかを検定し、有意であると判定された区間だけが強調表示されている。ここでは「直近30日の総来店日数」という特徴量を選択した特徴量と組み合わせているが、他の全ての特徴量について組合せのグラフを表示すると表示される数が膨大となる。 In this influence degree comparison graph 78, whether or not the difference in the section due to the difference in another feature amount is significant is tested, and only the section determined to be significant is highlighted. Here, the feature amount of "total number of days of visit to the store in the last 30 days" is combined with the selected feature amount, but when the graph of the combination is displayed for all the other feature amounts, the number displayed becomes enormous.

そこで、各組合せについて上記有意性の値を計算した上で、有意性が特に高いものだけを選択して表示する。なお、図16に示す例では、この影響度比較グラフ78について説明しなかったが、その理由は、どの組合せで評価した場合でも系列内で有意な差が生じなかったからである。つまり、系列内で有意な差が生じれば、影響度比較グラフ78を自動的に生成して表示させることができるように構成されている。 Therefore, after calculating the significance value for each combination, only those having a particularly high significance are selected and displayed. In the example shown in FIG. 16, this influence degree comparison graph 78 was not described, because no significant difference occurred in the series regardless of the combination evaluated. That is, if a significant difference occurs in the series, the influence degree comparison graph 78 is automatically generated and displayed.

この際、組み合わせる特徴量は、重要度が高い特徴量であってもよいし、重要度が低い特徴量であってもよく、重要度の高低に関係なく決定することができる。 At this time, the feature amount to be combined may be a feature amount having high importance or a feature amount having low importance, and can be determined regardless of the degree of importance.

また、組み合わせる特徴量をどの区間で分割するか(図21の場合5日)についても、様々な分割方法のそれぞれで有意性を検証し、有意性が最も高くなる値を選択するように構成することができる。例えば、5日間で分割した場合と、10日間で分割した場合とのそれぞれで有意性を検証することもでき、このような区間の分割方法は制御ユニット10が自動で行うようにしてもよいし、使用者が手動で行うようにしてもよい。 Also, regarding which section to divide the feature amount to be combined (5 days in the case of FIG. 21), the significance is verified by each of the various division methods, and the value having the highest significance is selected. be able to. For example, it is possible to verify the significance of each of the case of dividing into 5 days and the case of dividing into 10 days, and the control unit 10 may automatically perform the method of dividing such an interval. , The user may manually do it.

図22に示す特徴量表示ユーザーインターフェース60は、その上側領域71に表示されたグラフの中から任意の区間を選択したことで詳細メニュー74が表示されており、さらに、その詳細メニュー74の中から、「特徴量の寄与度を比較」を選択した場合である。すると、図23に示す寄与度表示グラフ79を特徴量表示ユーザーインターフェース60に表示することができる。この寄与度表示グラフ79では、選択したデータ群と全体との間で、各特徴量の寄与度を比較しており、比較図に相当するものである。よって、寄与度表示グラフ79は、比較図生成部16cによって生成される。このステップが比較図生成ステップである。また、寄与度表示グラフ79と第2基本図77とを同時にまたは別々に、モニタ3に表示させることが可能になっている。寄与度表示グラフ79と第2基本図77とを同時にまたは別々に表示させる処理が比較図表示ステップである。 In the feature amount display user interface 60 shown in FIG. 22, a detailed menu 74 is displayed by selecting an arbitrary section from the graph displayed in the upper area 71 thereof, and further, the detailed menu 74 is displayed. , "Compare the contributions of features" is selected. Then, the contribution display graph 79 shown in FIG. 23 can be displayed on the feature amount display user interface 60. In this contribution display graph 79, the contribution of each feature amount is compared between the selected data group and the whole, which corresponds to a comparison diagram. Therefore, the contribution display graph 79 is generated by the comparison diagram generation unit 16c. This step is a comparison diagram generation step. Further, the contribution display graph 79 and the second basic diagram 77 can be displayed on the monitor 3 at the same time or separately. The process of displaying the contribution display graph 79 and the second basic diagram 77 at the same time or separately is the comparison diagram display step.

ここで、特徴量の寄与度の計算方法について詳細に説明する。線形重回帰分析と呼ばれる分析手法では、以下の形式で表される予測式(2)を用いる。 Here, the calculation method of the contribution of the feature amount will be described in detail. In the analysis method called linear multiple regression analysis, the prediction formula (2) expressed in the following format is used.

y=a1x1+a2x2+a3x3+…+anxn+b ・・・(2)
yは予測値、x1,x2,…は各特徴量の値(説明変数)、a1,a2,…は各特徴量に対する係数を表す。また、bは定数項である。重回帰分析では、各データについてyの値が目的変数に近づくように、係数aおよび定数項bを学習する。
y = a1x1 + a2x2 + a3x3 + ... + anxn + b ... (2)
y represents a predicted value, x1, x2, ... Represents a value (explanatory variable) of each feature amount, and a1, a2, ... Represents a coefficient for each feature amount. Further, b is a constant term. In the multiple regression analysis, the coefficient a and the constant term b are learned so that the value of y approaches the objective variable for each data.

上式(2)から、予測値yは各特徴量に関する項(a1x1,a2x2,…)と、定数項の和からなる。項の絶対値が大きな特徴量ほど、予測に対してより大きな影響を与えていると解釈できる。 From the above equation (2), the predicted value y consists of the terms (a1x1, a2x2, ...) For each feature amount and the constant term. It can be interpreted that the larger the absolute value of the term is, the greater the influence on the prediction.

そこで、係数と特徴量の値の積aixiのことを、特徴量iに関する寄与度と定義する。この寄与度を、複数のデータに対する予測について平均すると、任意のデータ群について、そのデータ群の予測に対する平均的な寄与度を算出することができる。 Therefore, the product aixi of the coefficient and the value of the feature amount is defined as the contribution degree with respect to the feature amount i. By averaging this contribution to the predictions for a plurality of data, it is possible to calculate the average contribution to the predictions of the data group for any data group.

例えば図24に示すように、y=3x1-2x2+1の場合、4つのデータで平均を取ると、特徴x1は予測値に対してややプラスの寄与度を持ち、また、特徴x2は予測値に対して大きくマイナスの寄与度を持っていることになる。 For example, as shown in FIG. 24, when y = 3x1-2x2 + 1, when averaging the four data, the feature x1 has a slightly positive contribution to the predicted value, and the feature x2 has a slightly positive contribution to the predicted value. It will have a large negative contribution.

本例では上式の線形重回帰分析による寄与度の計算手順について説明したが、非線形のアルゴリズムであっても各予測に対して線形モデルでの近似を行うことで、同様の計算を行うことができる(例:Scott M. Lundberg, ”Consistent Individualized Feature Attribution for Tree Ensembles”(2018))。 In this example, the procedure for calculating the contribution by the linear multiple regression analysis in the above equation was explained, but even if it is a non-linear algorithm, the same calculation can be performed by approximating each prediction with a linear model. Yes (eg Scott M. Lundberg, “Consistent Individualized Feature Attribution for Tree Ensembles” (2018)).

上記で定義される寄与度を選択中のデータについて算出するとともに、全データについても算出し、両者を比較しているのが図23に示す寄与度表示グラフ79である。寄与度表示グラフ79により、例えば、「最低購入金額は全体ではさほど離反に影響しないが、注目するデータ群では大きな影響を与える」、「しかしながら、それでも全体の購入金額の影響のほうが大きい」といった傾向を把握することができ、これが新たな知見になる。 The contribution display graph 79 shown in FIG. 23 calculates the contribution degree defined above for the selected data, calculates all the data, and compares the two. According to the contribution display graph 79, for example, there is a tendency that "the minimum purchase amount does not affect the separation so much as a whole, but it has a large effect on the data group of interest" and "however, the influence of the total purchase amount is still larger". This will be a new finding.

本例で表示している特徴量は、重要度が上位の特徴量と、選択したデータ群でのみ寄与度が有意に高い特徴量(最低購入金額)との2つに絞り込んでいるが、これ以外にも寄与度の差が有意に高いものだけを表示してもよい。表示する特徴量は使用者が削除できるようにしてもよい。 The features displayed in this example are narrowed down to two, the features with higher importance and the features with significantly higher contribution only in the selected data group (minimum purchase price). In addition to this, only those with a significantly high difference in contribution may be displayed. The feature amount to be displayed may be deleted by the user.

図15に示す特徴量表示ユーザーインターフェース60の特徴量表示領域60aに表示されている特徴量の中から、「性別」を選択すると、図25に示す第3基本図80が特徴量表示ユーザーインターフェース60に表示される。第3基本図80は、図2に示す表示図生成部16の基本図生成部16aが生成したものであり、この処理が基本図生成ステップである。この第3基本図80では、図16に示す例、図20に示す例と違って特徴量が数値ではないため、第3基本図80の表現が棒グラフに変更される。また、項目の「欠損」は、元の分析対象データに値が存在しない場合を表している。図25に示す例では、性別の差によって目的変数の値に有意差が見られなかったため、どの系列も強調されない状態で表示されているが、有意差が見られれば強調表示することができる。 When "gender" is selected from the feature quantities displayed in the feature quantity display area 60a of the feature quantity display user interface 60 shown in FIG. 15, the third basic diagram 80 shown in FIG. 25 is the feature quantity display user interface 60. Is displayed in. The third basic diagram 80 is generated by the basic diagram generation unit 16a of the display diagram generation unit 16 shown in FIG. 2, and this process is the basic diagram generation step. In the third basic figure 80, unlike the example shown in FIG. 16 and the example shown in FIG. 20, since the feature amount is not a numerical value, the expression of the third basic figure 80 is changed to a bar graph. Further, the "missing" of the item represents the case where the value does not exist in the original analysis target data. In the example shown in FIG. 25, since no significant difference was found in the value of the objective variable due to the difference in gender, none of the series was highlighted, but if a significant difference was found, it could be highlighted.

ここで、図25に示す系列「欠損」を選択して図17に示すような詳細メニュー74を表示した後、詳細メニュー74の中から「差分の説明を計算」を選択すると、図26に示す差分の説明グラフ81を特徴量表示ユーザーインターフェース60に表示することができる。この差分の説明グラフ81では、選択したデータ群と全体を比較したとき、目的変数の値の差分が主にどの特徴量で説明付けられるのかを示しており、比較図に相当するものである。よって、図26に示す差分の説明グラフ81は、比較図生成部16cによって生成される。このステップが比較図生成ステップである。また、差分の説明グラフ81と第3基本図80とを同時にまたは別々に、モニタ3に表示させることが可能になっている。差分の説明グラフ81と第3基本図80とを同時にまたは別々に表示させる処理が比較図表示ステップである。尚、説明付けのための計算には、先述の貢献度の値を使用する。 Here, when the series "missing" shown in FIG. 25 is selected to display the detailed menu 74 as shown in FIG. 17, and then "calculate the explanation of the difference" is selected from the detailed menu 74, it is shown in FIG. The difference explanation graph 81 can be displayed on the feature amount display user interface 60. Explanation graph 81 of this difference shows which feature amount mainly explains the difference of the value of the objective variable when the whole is compared with the selected data group, and corresponds to the comparison diagram. Therefore, the difference explanatory graph 81 shown in FIG. 26 is generated by the comparison diagram generation unit 16c. This step is a comparison diagram generation step. Further, the difference explanatory graph 81 and the third basic diagram 80 can be displayed on the monitor 3 at the same time or separately. Explanation of Differences The process of displaying the graph 81 and the third basic diagram 80 at the same time or separately is the comparison diagram display step. The above-mentioned contribution value is used in the calculation for explanation.

ここで、差分の説明の算出方法について説明する。まず、全データと選択したデータ群それぞれについて、先述の貢献度を各特徴量で計算する。 Here, the calculation method of the explanation of the difference will be described. First, for all the data and each of the selected data groups, the above-mentioned contribution is calculated for each feature amount.

y_all = B1all + B2all + B3all + … + Bnall + b ・・・(3)
y_sel = B1sel + B2sel + B3sel + … + Bnsel + b ・・・(4)
y_all,y_selは全データ/選択したデータに対する平均の予測値を表す。Biall,Biselはi番目の特徴量についての全データ/選択したデータの貢献度を表す。
y_all = B1all + B2all + B3all +… + Bnall + b ・ ・ ・ (3)
y_sel = B1sel + B2sel + B3sel +… + Bnsel + b ・ ・ ・ (4)
y_all and y_sel represent the average predicted value for all data / selected data. Biall and Bisel represent the contribution of all data / selected data for the i-th feature.

(4)-(3)を計算すると、
y_sel = y_all + (B1sel - B1all) + (B2sel - B2all) + … + (Bnsel - Bnall)
・・・(5)
となる。右辺の第2項以降は選択したデータと全データの貢献度の差を表す(これをDiとする)。また、y_sel,y_allは実際の目的変数の平均値y_sel_true,y_all_trueに対して、予測誤差が含まれていると考えられる。
When (4)-(3) is calculated,
y_sel = y_all + (B1sel --B1all) + (B2sel --B2all) +… + (Bnsel --Bnall)
... (5)
Will be. The second and subsequent terms on the right side represent the difference in contribution between the selected data and all data (this is referred to as Di). In addition, y_sel and y_all are considered to contain prediction errors with respect to the average values y_sel_true and y_all_true of the actual objective variables.

y_sel_true = y_sel + δ_sel ・・・(6)
y_all_true = y_all + δ_all ・・・(7)
(6)、(7)を(5)に代入すると、
y_sel_true = y_all_true + D1 + D2 + … Dn + (δ_all - δ_sel) ・・・(8)
となる。式(8)から、選択したデータの目的変数の平均値(y_sel_true)は、全データの目的変数の平均値、各々の特徴量の貢献度の差、予測誤差の3つの要素の和であると説明できる。
y_sel_true = y_sel + δ_sel ・ ・ ・ (6)
y_all_true = y_all + δ_all ・ ・ ・ (7)
Substituting (6) and (7) into (5)
y_sel_true = y_all_true + D1 + D2 +… Dn + (δ_all --δ_sel) ・ ・ ・ (8)
Will be. From equation (8), the mean value (y_sel_true) of the objective variable of the selected data is the sum of the three elements of the mean value of the objective variable of all the data, the difference in the contribution of each feature, and the prediction error. I can explain.

上記のグラフでは、貢献度の差D1,D2,…のうち、値が特に大きいものを個別に表示し、残りの要素と予測誤差は、まとめて「その他/予測誤差」の項目で表示している。 In the above graph, among the differences D1, D2, ... Of the degree of contribution, the ones with particularly large values are displayed individually, and the remaining elements and the prediction error are collectively displayed in the "Other / Prediction error" item. There is.

このように、貢献度の差によって目的変数の差を説明するグラフ81を表示することによって、「性別=欠損のユーザー群の離反率が54%と高いのは何故か?」という疑問に対して、「性別=欠損のユーザーの離反率の高さは、『合計の購入金額』による影響を部分的に受けている」、「ただし、差分のうち15%程度は、主要な特徴量の差分では説明が出来ない」という洞察を得ることができる。 In this way, by displaying the graph 81 that explains the difference in the objective variable according to the difference in the degree of contribution, the question "Why is the separation rate of the user group of gender = defect as high as 54%?" "The high divergence rate of users with gender = deficiency is partially affected by the'total purchase price'", "However, about 15% of the difference is explained by the difference in the main features. You can get the insight that you can't do it. "

ただし、性別=欠損の系列が元々強調表示されていなかった通り、性別=欠損で離反が大きいことに有意と言えるほどの情報がなく、上記の洞察は誤っている可能性もある。その注意を促す文言も、グラフ81と併せて表示する。 However, as the gender-deficient sequence was not originally highlighted, there is not enough information to say that gender = deficiency has a large divergence, and the above insights may be incorrect. The wording that calls attention is also displayed together with the graph 81.

さらに、性別を説明する別のグラフとして、図27に示すように、特徴量の寄与度の変化に関するグラフ82を表示することができる。これは図20に示す例においてグラフをクリックすることで表示されたものと同じ種類のグラフを性別に対して表示している。 Further, as another graph for explaining gender, as shown in FIG. 27, a graph 82 relating to a change in the contribution of the feature amount can be displayed. This displays the same type of graph for gender as that displayed by clicking on the graph in the example shown in FIG.

図27に示すグラフ82は、第2の派生図と呼ぶこともできる。第2の派生図は、複数のクラスターのうち、所定のクラスターで目的変数の予測に寄与している特徴量を示す図である。クラスターとは、前記第1の派生図と同じであり、この例では性別の「男」、「女」、「欠損」としているが、期間とすることもできる。第2の派生図は、図2に示す派生図生成部16bによって生成される。この処理が派生図生成ステップである。派生図生成ステップの後、基本図と第2の派生図とを同時にまたは別々に表示する派生図表示ステップを実行することができる。 The graph 82 shown in FIG. 27 can also be referred to as a second derivative diagram. The second derivative diagram is a diagram showing the feature quantities that contribute to the prediction of the objective variable in a predetermined cluster among a plurality of clusters. The cluster is the same as the first derivative diagram, and in this example, the gender is "male", "female", and "defective", but it can also be a period. The second derivative diagram is generated by the derivative diagram generation unit 16b shown in FIG. This process is the derivation diagram generation step. After the derivation diagram generation step, a derivation diagram display step that displays the basic diagram and the second derivative diagram simultaneously or separately can be executed.

また、この例では、所定のクラスターで目的変数の予測に寄与している特徴量と、全クラスターを合わせた第1の特徴量とを同時に表示することができるようになっている。 Further, in this example, the feature amount contributing to the prediction of the objective variable in a predetermined cluster and the first feature amount in which all the clusters are combined can be displayed at the same time.

派生図生成部16bが第2の派生図を生成する場合には、上述したようにクラスターとして男、女に分割したとき、性別の違いによって目的変数の予測に対する寄与度合いが大きく変わることがあり、このような目的変数の予測に寄与している特徴量を示すことで、新たな知見を得ることができる。 When the derivation diagram generation unit 16b generates the second derivation diagram, when the cluster is divided into male and female as described above, the degree of contribution to the prediction of the objective variable may change significantly depending on the gender. By showing the features that contribute to the prediction of such objective variables, new findings can be obtained.

また、図27に示すグラフに基づいて、「性別は単独では目的変数の平均値に影響を与えないが、性別の違いによって他の特徴量の寄与の度合が大きく変わるため、結果的に重要な特徴量である」という知見が得られる。 Further, based on the graph shown in FIG. 27, "Gender alone does not affect the mean value of the objective variable, but the degree of contribution of other features varies greatly depending on the gender, which is important as a result. It is a feature quantity. "

(実施形態の作用効果)
以上説明したように、この実施形態に係るデータ分析装置1及びデータ分析方法によれば、大量のデータに含まれる重要度の高い特徴量をモニタ3に表示することができる。そして、特徴量と目的変数との関係を示す基本図や、複数の特徴量と目的変数との関係を示す派生図、所定のクラスターで目的変数の予測に寄与している特徴量を示す派生図、集計期間が異なる特徴量に基づいて生成された予測モデルの精度比較を示す派生図等をモニタ3に表示することができる。
(Action and effect of the embodiment)
As described above, according to the data analysis device 1 and the data analysis method according to this embodiment, the feature amount of high importance contained in a large amount of data can be displayed on the monitor 3. Then, a basic diagram showing the relationship between the feature amount and the objective variable, a derivative diagram showing the relationship between a plurality of feature quantities and the objective variable, and a derivative diagram showing the feature amount contributing to the prediction of the objective variable in a predetermined cluster. , A derivative diagram or the like showing an accuracy comparison of prediction models generated based on features with different aggregation periods can be displayed on the monitor 3.

また、分析対象データが分割されてできたクラスターのそれぞれについて目的変数の代表値との関係を知ることができるとともに、選択したクラスターにおける目的変数の予測に寄与する特徴量と、全クラスターまたは選択外のクラスターにおける目的変数の予測に寄与する特徴量との比較を行うことができる。従って、新たな知見を得るための手助けをすることができる。 In addition, it is possible to know the relationship between the representative value of the objective variable for each of the clusters formed by dividing the data to be analyzed, and the features that contribute to the prediction of the objective variable in the selected cluster, and all clusters or non-selected clusters. It is possible to compare with the features that contribute to the prediction of the objective variable in the cluster of. Therefore, it can help to obtain new knowledge.

(その他の実施形態)
上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
(Other embodiments)
The above embodiments are merely exemplary in all respects and should not be construed in a limited way. Further, all modifications and modifications belonging to the equivalent scope of the claims are within the scope of the present invention.

上記実施形態では、目的変数と特徴量の関係を示すために折れ線グラフや棒グラフを用いたが、散布図など他の表現方法を用いてもよい。散布図の場合、グラフの系列をクリックする代わりに、グラフ内の領域をドラッグで選択することでデータの一部を選択し、詳細なグラフを更に表示することができる。 In the above embodiment, a line graph or a bar graph is used to show the relationship between the objective variable and the feature amount, but other expression methods such as a scatter diagram may be used. In the case of a scatter plot, instead of clicking on a series of graphs, you can select a portion of the data by dragging and selecting an area in the graph to see more detailed graphs.

第1の派生図(図21に示す影響度比較グラフ78)、第2の派生図(図27に示す特徴量の寄与度の変化に関するグラフ82)及び第3の派生図(図19に示す予測精度比較グラフ76)のうち、任意の1つと、基本図70、77、80とをモニタ3に同時に表示してもよいし、異なるタイミングで表示してもよい。派生図生成部16bが第1の派生図、第2の派生図及び第3の派生図の全てを生成してもよく、生成する順番は特に限定されない。また、第1の派生図、第2の派生図及び第3の派生図の全てをモニタ3に表示してもよい。 The first derivative diagram (influence comparison graph 78 shown in FIG. 21), the second derivative diagram (graph 82 regarding the change in the contribution of the feature amount shown in FIG. 27), and the third derivative diagram (prediction shown in FIG. 19). Any one of the accuracy comparison graphs 76) and the basic drawings 70, 77, 80 may be displayed on the monitor 3 at the same time, or may be displayed at different timings. The derivation diagram generation unit 16b may generate all of the first derivation diagram, the second derivation diagram, and the third derivation diagram, and the order of generation is not particularly limited. Further, all of the first derivative diagram, the second derivative diagram, and the third derivative diagram may be displayed on the monitor 3.

また、基本図70、77、80については、本実施形態では3つだけ示しているが、使用者が選択する特徴量に応じて基本図生成部16aが生成する。基本図70、77、80と、第1の派生図、第2の派生図及び第3の派生図とを切り替えて表示する場合、例えば画面切替ボタンのような操作手段を利用することもできる。 Further, although only three basic drawings 70, 77, and 80 are shown in the present embodiment, the basic figure generation unit 16a is generated according to the feature amount selected by the user. When switching between the basic diagrams 70, 77, 80 and the first derivative diagram, the second derivative diagram, and the third derivative diagram, an operation means such as a screen switching button can be used.

以上説明したように、本発明に係るデータ分析装置及びデータ分析方法は、大量の情報の中からこれまで未知であった有用な知見を得ようと試みる場合に使用することができる。 As described above, the data analysis device and the data analysis method according to the present invention can be used when attempting to obtain useful knowledge previously unknown from a large amount of information.

1 データ分析装置
3 モニタ(表示部)
3a 表示制御部
11 主制御部
12 データ入力部
13 予測モデル生成部
14 重要度算出部
15 クラスター選択部
16a 基本図生成部
16b 派生図生成部
16c 比較図生成部
17 名称自動生成部
18 説明文自動生成部
30 記憶部
70、77、80 基本図
76 予測精度比較グラフ(第3の派生図)
75 比較表(比較図)
78 影響度比較グラフ(第1の派生図)
79 寄与度表示グラフ(比較図)
81 差分の説明グラフ(比較図)
83 特徴量の寄与度の変化に関するグラフ(第2の派生図)
1 Data analyzer 3 Monitor (display)
3a Display control unit 11 Main control unit 12 Data input unit 13 Predictive model generation unit 14 Importance calculation unit 15 Cluster selection unit 16a Basic diagram generation unit 16b Derived diagram generation unit 16c Comparison diagram generation unit 17 Name automatic generation unit 18 Description Automatic Generation unit 30 Storage unit 70, 77, 80 Basic diagram 76 Predictive accuracy comparison graph (third derivative diagram)
75 Comparison table (comparison diagram)
78 Impact comparison graph (first derivative)
79 Contribution display graph (comparison diagram)
81 Difference explanation graph (comparison diagram)
83 Graph regarding changes in the contribution of features (second derivative diagram)

Claims (7)

分析対象データを分析するデータ分析装置において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力部と、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成部と、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出部と、
前記重要度算出部により算出された重要度に基づき、上位の重要度を有する特徴量を表示する表示部と、
前記表示部に表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成部と、
前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択部と、
前記クラスター選択部により選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択部により選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成部とを備え、
前記表示部は、前記基本図生成部により生成された基本図と、前記比較図生成部により生成された比較図とを表示可能に構成されていることを特徴とするデータ分析装置。
In a data analyzer that analyzes data to be analyzed,
A data input unit that accepts input of analysis target data including multiple features and objective variables,
A prediction model generation unit that generates a prediction model for predicting the objective variable from the plurality of features.
An importance calculation unit that calculates the importance of the prediction by the prediction model for each of the plurality of features,
A display unit that displays features having higher importance based on the importance calculated by the importance calculation unit, and a display unit.
The data to be analyzed is divided into a plurality of clusters based on the value of the feature amount selected according to the input of the user from the feature amounts displayed on the display unit, and each cluster and the objective variable of each cluster are divided. A basic diagram generator that generates a basic diagram showing the relationship with the representative values of
A cluster selection unit that accepts the selection of any one of the multiple clusters shown in the basic diagram, and a cluster selection unit.
Features that contribute to the prediction of the objective variable in the cluster selected by the cluster selection unit and features that contribute to the prediction of the objective variable in all clusters or non-selected clusters that are not selected by the cluster selection unit. It is equipped with a comparison diagram generation unit that generates a comparison diagram showing comparison with a quantity.
The display unit is a data analysis device characterized in that the basic diagram generated by the basic diagram generation unit and the comparison diagram generated by the comparison diagram generation unit can be displayed.
請求項1に記載のデータ分析装置において、
前記表示部は、上位の重要度を有する複数の特徴量を重要度の高い順に並べて表示するように構成されていることを特徴とするデータ分析装置。
In the data analyzer according to claim 1,
The display unit is a data analysis device characterized in that a plurality of feature quantities having higher importance are arranged and displayed in descending order of importance.
請求項2に記載のデータ分析装置において、
前記表示部は、最上位の重要度を有する特徴量と、最上位の重要度未満の複数の特徴量とを同時に表示するように構成されていることを特徴とするデータ分析装置。
In the data analyzer according to claim 2,
The display unit is a data analysis device characterized in that the feature amount having the highest importance and a plurality of feature amounts less than the highest importance are simultaneously displayed.
請求項1から3のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記クラスター選択部により選択されたクラスターでのみ寄与度が有意に高い特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
The data analyzer according to any one of claims 1 to 3.
The data analyzer is characterized in that the comparison diagram generation unit is configured to generate the comparison diagram showing a feature amount having a significantly high contribution only in the cluster selected by the cluster selection unit.
請求項1から4のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記上位の重要度を有する特徴量のうち、使用者により選択されなかった特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
The data analyzer according to any one of claims 1 to 4.
The data analysis device is characterized in that the comparison diagram generation unit is configured to generate the comparison diagram showing the feature quantities not selected by the user among the feature quantities having higher importance. ..
請求項1から5のいずれか1つに記載のデータ分析装置において、
前記比較図生成部は、前記分析対象データの値が存在していない欠損クラスターにおいて、前記目的変数の予測に寄与する特徴量を示す前記比較図を生成するように構成されていることを特徴とするデータ分析装置。
The data analyzer according to any one of claims 1 to 5.
The comparison diagram generation unit is characterized in that it is configured to generate the comparison diagram showing the feature amount that contributes to the prediction of the objective variable in the defective cluster in which the value of the analysis target data does not exist. Data analyzer.
分析対象データを分析するデータ分析方法において、
複数の特徴量と目的変数とを含む分析対象データの入力を受け付けるデータ入力ステップと、
前記複数の特徴量から前記目的変数を予測するための予測モデルを生成する予測モデル生成ステップと、
前記複数の特徴量それぞれに対して前記予測モデルによる予測に対する重要度を算出する重要度算出ステップと、
前記重要度算出ステップにより算出された重要度に基づき、上位の重要度を有する特徴量を表示する特徴量表示ステップと、
前記特徴量表示ステップで表示された特徴量の中から使用者の入力に応じて選択された特徴量の値に基づいて前記分析対象データを複数のクラスターに分割し、各クラスターと、各クラスターの目的変数の代表値との関係を示す基本図を生成する基本図生成ステップと、
前記基本図に示された複数のクラスターから、いずれか1つのクラスターの選択を受け付けるクラスター選択ステップと、
前記クラスター選択ステップで選択されたクラスターにおいて、前記目的変数の予測に寄与する特徴量と、全クラスターまたは前記クラスター選択ステップにより選択されていない選択外のクラスターにおいて、前記目的変数の予測に寄与する特徴量との比較を示す比較図を生成する比較図生成ステップと、
前記基本図生成ステップで生成された基本図と、前記比較図生成ステップで生成された比較図とを表示可能な比較図表示ステップとを備えていることを特徴とするデータ分析方法。
In the data analysis method that analyzes the data to be analyzed,
A data input step that accepts input of analysis target data including multiple features and objective variables,
A prediction model generation step for generating a prediction model for predicting the objective variable from the plurality of features, and a prediction model generation step.
An importance calculation step for calculating the importance of the prediction by the prediction model for each of the plurality of features, and
A feature amount display step that displays a feature amount having a higher importance based on the importance calculated by the importance calculation step, and a feature amount display step.
The analysis target data is divided into a plurality of clusters based on the value of the feature amount selected according to the input of the user from the feature amounts displayed in the feature amount display step, and each cluster and each cluster A basic diagram generation step that generates a basic diagram showing the relationship with the representative value of the objective variable,
A cluster selection step that accepts the selection of any one of the multiple clusters shown in the basic diagram,
Features that contribute to the prediction of the objective variable in the cluster selected in the cluster selection step and features that contribute to the prediction of the objective variable in all clusters or non-selected clusters not selected by the cluster selection step. A comparison diagram generation step that generates a comparison diagram showing a comparison with a quantity,
A data analysis method comprising: a comparison diagram display step capable of displaying a basic diagram generated in the basic diagram generation step and a comparison diagram generated in the comparison diagram generation step.
JP2018148304A 2018-08-07 2018-08-07 Data analyzer and data analysis method Active JP7049211B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018148304A JP7049211B2 (en) 2018-08-07 2018-08-07 Data analyzer and data analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018148304A JP7049211B2 (en) 2018-08-07 2018-08-07 Data analyzer and data analysis method

Publications (2)

Publication Number Publication Date
JP2020024542A JP2020024542A (en) 2020-02-13
JP7049211B2 true JP7049211B2 (en) 2022-04-06

Family

ID=69618737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018148304A Active JP7049211B2 (en) 2018-08-07 2018-08-07 Data analyzer and data analysis method

Country Status (1)

Country Link
JP (1) JP7049211B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023023919A (en) 2021-08-06 2023-02-16 富士通株式会社 Explanation information output program, explanation information output method, and information processing device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070158040A1 (en) 2003-10-28 2007-07-12 Mokhtar Benaoudia Method and apparatus for estimating an optimal dosage of bleaching agent to be used in a process for producing pulp
JP2007272917A (en) 2007-05-14 2007-10-18 Fujitsu Ltd Document data providing device, document data providing system, document data providing method, and recording medium recording program for providing document data
JP2010250769A (en) 2009-04-20 2010-11-04 Mitsubishi Electric Corp Device, method and program for visualization of analysis result
JP2012256283A (en) 2011-06-10 2012-12-27 Nomura Research Institute Ltd Sensitivity analysis system and program
JP2016091343A (en) 2014-11-06 2016-05-23 日本電気株式会社 Information processing system, information processing method, and program
WO2017168524A1 (en) 2016-03-28 2017-10-05 株式会社日立製作所 Analysis server device, data analysis system, and data analysis method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070158040A1 (en) 2003-10-28 2007-07-12 Mokhtar Benaoudia Method and apparatus for estimating an optimal dosage of bleaching agent to be used in a process for producing pulp
JP2007272917A (en) 2007-05-14 2007-10-18 Fujitsu Ltd Document data providing device, document data providing system, document data providing method, and recording medium recording program for providing document data
JP2010250769A (en) 2009-04-20 2010-11-04 Mitsubishi Electric Corp Device, method and program for visualization of analysis result
JP2012256283A (en) 2011-06-10 2012-12-27 Nomura Research Institute Ltd Sensitivity analysis system and program
JP2016091343A (en) 2014-11-06 2016-05-23 日本電気株式会社 Information processing system, information processing method, and program
WO2017168524A1 (en) 2016-03-28 2017-10-05 株式会社日立製作所 Analysis server device, data analysis system, and data analysis method

Also Published As

Publication number Publication date
JP2020024542A (en) 2020-02-13

Similar Documents

Publication Publication Date Title
JP7049210B2 (en) Data analyzer and data analysis method
JP7257169B2 (en) data analyzer
US10586241B2 (en) Rendering details from user selections of mined data habits
US20170039577A1 (en) Generating metadata and visuals related to mined data habits
US20070022000A1 (en) Data analysis using graphical visualization
CN108228861B (en) Method and system for performing feature engineering for machine learning
AU2015315277A1 (en) Systems and methods for providing drag and drop analytics in a dynamic data visualization interface
US20180240138A1 (en) Generating and presenting statistical results for electronic survey data
US20220261510A1 (en) Material design system, material design method, and material design program
JP7246956B2 (en) Data analysis device and data analysis method
JP2012527043A (en) Method and system for interacting with and manipulating information
US20140019207A1 (en) Interactive in-memory based sales forecasting
JP7049211B2 (en) Data analyzer and data analysis method
US11222039B2 (en) Methods and systems for visual data manipulation
JP2017122981A (en) Decision support apparatus and method
JP7246957B2 (en) Data analysis device and data analysis method
JP7257168B2 (en) data analyzer
US11443145B2 (en) Data analyzing device and data analyzing method
JP7246958B2 (en) Data analysis device and data analysis method
JP2020024544A (en) Data analyzer and method for analyzing data
CN112236786B (en) Future prediction simulation device, method, and recording device
JP6861176B2 (en) Project estimation support method and project estimation support device
JP2012038012A (en) Defective factor extraction device, defective factor extraction method, program and recording medium
US9514158B1 (en) Methods, devices, and mediums associated with generating a change history listing associated with a value of information
JP2023063162A (en) Prediction model forming method and operating process condition setting method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220325

R150 Certificate of patent or registration of utility model

Ref document number: 7049211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150