JP6863926B2 - Data analysis system and data analysis method - Google Patents
Data analysis system and data analysis method Download PDFInfo
- Publication number
- JP6863926B2 JP6863926B2 JP2018083408A JP2018083408A JP6863926B2 JP 6863926 B2 JP6863926 B2 JP 6863926B2 JP 2018083408 A JP2018083408 A JP 2018083408A JP 2018083408 A JP2018083408 A JP 2018083408A JP 6863926 B2 JP6863926 B2 JP 6863926B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- node
- score
- analysis system
- data analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本開示は、データ分析システムに関する。 The present disclosure relates to a data analysis system.
ニューラルネットワーク等の機械学習技術が注目を集めている。機械学習により得られた機械学習モデルを利用して様々な問題の解決が試みられている。例えば、特許文献1においては、既知事例集合と、予測事例が入力された場合に、既知事例集合から予測事例に類似した事例の集合である類似事例集合を抽出する類似事例抽出部1と、類似事例集合から或る予測属性値の確信度を計算する確信度計算部2と、類似事例集合と確信度から、その確信度の信頼性尺度を計算する信頼性尺度計算部3とを備え、ある予測属性値の確信度と、その確信度の信頼性尺度を出力するように構成する予想装置が記載されている。
Machine learning technologies such as neural networks are attracting attention. Attempts have been made to solve various problems using the machine learning model obtained by machine learning. For example, in Patent Document 1, it is similar to the similar case extraction unit 1 that extracts a known case set and a similar case set that is a set of cases similar to the predicted case from the known case set when a predicted case is input. It includes a
しかしながら、特許文献1に記載された手法は、類似事例に基づく予測結果の確信度に、その確信度の信頼度を示す信頼性尺度を付加することにより、予測結果に対するユーザのその後の判断を支援するものであり、ユーザは各説明変数の予測結果に対する寄与度を知ることができない。すなわち、ユーザはどのような要因により入力データから予測結果が導かれたかを知ることができない。換言すると、ユーザは、ニューラルネットワークにおいて説明変数と予測結果である目的変数との関連性が未知のまま機械学習モデルを利用していた。このため、ユーザは予測結果に基づいてどのような判断をすべきか知ることが困難であった。 However, the method described in Patent Document 1 supports the user's subsequent judgment on the prediction result by adding a reliability scale indicating the reliability of the prediction result to the certainty of the prediction result based on a similar case. The user cannot know the contribution of each explanatory variable to the prediction result. That is, the user cannot know by what factor the prediction result is derived from the input data. In other words, the user used the machine learning model in the neural network without knowing the relationship between the explanatory variable and the objective variable which is the prediction result. Therefore, it is difficult for the user to know what kind of judgment should be made based on the prediction result.
本発明は、このような状況に鑑みてなされたものであり、説明変数が目的変数に与える影響度を可視化して、予測結果に基づいてどのような判断をすべきかを把握可能にする技術を提供する。 The present invention has been made in view of such a situation, and a technique for visualizing the degree of influence of an explanatory variable on an objective variable and making it possible to grasp what kind of judgment should be made based on a prediction result. provide.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、データ分析システムであって、プログラムを実行する演算装置と、前記演算装置と接続された記憶装置とを備え、前記演算装置が、機械学習モデルが学習時に用いた複数の説明変数からなる入力データセット又は前記説明変数が加工されたデータセットからなる入力データセットを、指定された分割条件で分割し、前記分割された各データセットの分布構造の特徴を表す特徴ノードを算出する特徴ノード算出部と、前記演算装置が、前記特徴ノードを含む入力データの近傍データを生成し、前記生成された近傍データの説明変数と、前記近傍データを前記機械学習モデルに入力して得られた目的変数のデータとに基づいて、当該説明変数と当該目的変数との関係性を表すスコアを算出するスコア算出部と、前記演算装置が、前記スコアを含む出力結果を出力する出力処理部とを備える。 A typical example of the invention disclosed in the present application is as follows. That is, it is a data analysis system, which includes a calculation device for executing a program and a storage device connected to the calculation device, and the calculation device is an input composed of a plurality of explanatory variables used at the time of learning by the machine learning model. Feature node calculation that divides an input data set consisting of a data set or a data set in which the explanatory variables are processed under specified division conditions, and calculates a feature node that represents the characteristics of the distribution structure of each of the divided data sets. The unit and the arithmetic unit generate neighborhood data of input data including the feature node, and input the explanatory variables of the generated neighborhood data and the neighborhood data into the machine learning model to obtain an objective variable. A score calculation unit that calculates a score representing the relationship between the explanatory variable and the objective variable based on the data of the above, and an output processing unit that outputs an output result including the score by the arithmetic unit are provided.
本発明の一態様によれば、説明変数が目的変数に与える影響度を可視化できる。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。 According to one aspect of the present invention, the degree of influence of the explanatory variable on the objective variable can be visualized. Issues, configurations and effects other than those mentioned above will be clarified by the description of the following examples.
<実施例1>
以下、本発明の実施例を図面を参照して説明する。
<Example 1>
Hereinafter, examples of the present invention will be described with reference to the drawings.
なお、本実施例では、機械学習モデルは、予め学習済みであり、その学習において利用された学習データを参照し、及び学習済みの機械学習モデルを利用して出力結果を得る処理を行うものである。また、機械学習モデルは、d次元ベクトルの入力信号に対してk次元ベクトルの出力信号を返すものであり、さらに、本実施例での機械学習モデルの出力信号は、k個の分類クラスに属する分類確率に相当するものとして説明する。 In this embodiment, the machine learning model has been trained in advance, and the learning data used in the learning is referred to, and the trained machine learning model is used to obtain an output result. is there. Further, the machine learning model returns the output signal of the k-dimensional vector with respect to the input signal of the d-dimensional vector, and the output signal of the machine learning model in this embodiment belongs to k classification classes. It will be described as corresponding to the classification probability.
図1は、本実施例のデータ分析システム構成を表す図である。 FIG. 1 is a diagram showing a data analysis system configuration of this embodiment.
本実施例のデータ分析システムは、機械学習における入力データ及び出力データの関係性を分析する計算機であり、入力装置101、出力装置102、表示装置103、処理装置104、及び記憶装置111を有する。
The data analysis system of this embodiment is a computer that analyzes the relationship between input data and output data in machine learning, and includes an
入力装置101は、キーボードやマウスなどであり、ユーザからの入力を受けるインターフェースである。出力装置102は、プリンタなどであり、プログラムの実行結果をユーザが視認可能な形式で出力するインターフェースである。表示装置103は、液晶表示装置などのディスプレイ装置であり、プログラムの実行結果をユーザが視認可能な形式で出力するインターフェースである。なお、データ分析システムにネットワークを介して接続された端末が入力装置101と出力装置102と表示装置103とを提供してもよい。
The
処理装置104は、プログラムを実行するプロセッサ(演算装置)及びプログラムやデータを格納するメモリによって構成される。具体的には、プロセッサがプログラムを実行することによって、入力処理部106、特徴ノード算出部107、スコア算出部108、ノードマッピング部109、及び出力処理部110が実現される。なお、プロセッサがプログラムを実行して行う処理の一部を、他の演算装置(例えば、FPGA)で実行してもよい。
The
メモリは、不揮発性の記憶素子であるROM及び揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ11が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
The memory includes a ROM which is a non-volatile storage element and a RAM which is a volatile storage element. The ROM stores an invariant program (for example, BIOS) and the like. The RAM is a high-speed and volatile storage element such as a DRAM (Dynamic Random Access Memory), and temporarily stores a program executed by the
記憶装置111は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置である。記憶装置111は、処理装置104がプログラムの実行時に使用するデータ及び処理装置104が実行するプログラムを格納する。具体的には、記憶装置111は、入力データテーブル112、正規化情報テーブル113、分割条件テーブル114、ノード情報テーブル115、ノード距離テーブル116、スコアテーブル117及び加重平均スコアテーブル118などの一連の処理に必要なデータ及び出力結果を格納する。なお、プログラムは、記憶装置111から読み出されて、メモリにロードされて、プロセッサによって実行される。
The
データ分析システムは、所定のプロトコルに従って、他の装置との通信を制御する通信インターフェースを有してもよい。 The data analysis system may have a communication interface that controls communication with other devices according to a predetermined protocol.
処理装置104が実行するプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介してデータ分析システムに提供され、非一時的記憶媒体である不揮発性の記憶装置111に格納される。このため、データ分析システムは、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
The program executed by the
データ分析システムは、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。 A data analysis system is a computer system composed of physically one computer or a plurality of computers logically or physically configured, and is a virtual system constructed on a plurality of physical computer resources. It may operate on a computer.
図2は、本実施例のデータ分析システムのデータ構造を示す図である。 FIG. 2 is a diagram showing a data structure of the data analysis system of this embodiment.
入力データテーブル112は、機械学習モデルの学習データを、本実施例のデータ分析システムによる一連の処理で利用する形式に加工したデータを格納し、説明変数1〜d(201)及び目的変数1〜k(202)を含む。 The input data table 112 stores data obtained by processing the training data of the machine learning model into a format used in a series of processing by the data analysis system of this embodiment, and stores explanatory variables 1 to d (201) and objective variables 1 to 1. Includes k (202).
説明変数1〜d(201)は、機械学習モデルの入力データであるd次元ベクトルを表している。但し、機械学習では変数ごとにデータを正規化することが多い。本実施例ではこの正規化されたデータを、正規化情報テーブル113を用いて、もとの数値データに戻して格納する。また、機械学習モデルの学習データが時系列である場合、変数名xに対して、x_t0,x_t1,x_t2,...のように各時点の値での変数名として平坦化できる。この場合、説明変数201の次元数と機械学習モデルの入力次元数は一致せず、本実施例の入力データ形式でデータを機械学習モデルに入力する際には、その都度データ形式を変換する。目的変数1〜k(202)は、機械学習モデルの出力結果であるk次元ベクトルである。 Explanatory variables 1 to d (201) represent d-dimensional vectors that are input data of the machine learning model. However, in machine learning, data is often normalized for each variable. In this embodiment, the normalized data is returned to the original numerical data and stored by using the normalized information table 113. Further, when the learning data of the machine learning model is a time series, x_t0, x_t1, x_t2, for the variable name x. .. .. It can be flattened as a variable name at each time point value as in. In this case, the number of dimensions of the explanatory variable 201 and the number of input dimensions of the machine learning model do not match, and the data format is converted each time data is input to the machine learning model in the input data format of this embodiment. The objective variables 1 to k (202) are k-dimensional vectors that are the output results of the machine learning model.
正規化情報テーブル113は、機械学習モデルの学習時に行った正規化処理に関する情報を格納し、変数ID203、変数名204、データ型205、平均206、標準偏差207及びモデル用データ形式対応情報208のデータを含む。 The normalization information table 113 stores information related to the normalization process performed at the time of learning the machine learning model, and includes variable ID 203, variable name 204, data type 205, average 206, standard deviation 207, and model data format correspondence information 208. Contains data.
変数ID203は、説明変数201の要素を特定するインデクスである。変数名204は、当該説明変数の名前である。データ型205は、当該説明変数のデータ型(例えば、論理型、整数型、浮動小数点型など)である。 The variable ID 203 is an index that identifies the element of the explanatory variable 201. The variable name 204 is the name of the explanatory variable. The data type 205 is the data type of the explanatory variable (for example, logical type, integer type, floating point type, etc.).
平均206及び標準偏差207は、機械学習モデルの学習時の正規化処理で用いた平均と標準偏差を格納する。但し、変数が論理型の場合など、正規化処理を行わない変数に対しては、平均を0、標準偏差を1などと設定するとよい。モデル用データ形式対応情報209は、機械学習モデルの入力形式と本実施例のデータ分析システムで扱う入力形式が異なる場合に、その形式を相互変換するための情報を格納する。例えば、時系列を含むデータの場合、変数xをx_t0,x_t1,...と展開するので、展開前のインデクスと展開後のインデクスとの対応関係を記述しておくことで、相互変換が可能となる。 The mean 206 and the standard deviation 207 store the mean and standard deviation used in the normalization process during training of the machine learning model. However, for variables that are not normalized, such as when the variables are logical types, it is advisable to set the mean to 0, the standard deviation to 1, and so on. The model data format correspondence information 209 stores information for mutual conversion between the input formats of the machine learning model and the input formats handled by the data analysis system of the present embodiment. For example, in the case of data including a time series, the variables x are x_t0, x_t1,. .. .. Therefore, mutual conversion is possible by describing the correspondence between the index before expansion and the index after expansion.
分割条件テーブル114は、特徴ノード算出部107が入力データテーブル112を分割する条件を格納し、条件ID209、分割条件210、データ数211、マップサイズ212及び集計フラグ1〜k(213)のデータを含む。
The division condition table 114 stores the conditions for dividing the input data table 112 by the feature
条件ID209は、分割条件テーブル114に記録される条件を識別するための識別情報である。分割条件210は、入力データを分割して1組のデータセットを得るための条件である。例えば、SQLのselect文のような文字列でもよい。分割条件210には、説明変数に対する特定の値又は範囲や、目的変数に対する値の条件の組み合わせを記述されてもよい。データ数211は、当該分割条件によって選択された入力データ中のデータ数である。 The condition ID 209 is identification information for identifying the conditions recorded in the division condition table 114. The division condition 210 is a condition for dividing the input data to obtain a set of data sets. For example, it may be a character string such as an SQL select statement. In the division condition 210, a specific value or range for the explanatory variable or a combination of the value condition for the objective variable may be described. The number of data 211 is the number of data in the input data selected by the division condition.
マップサイズ212は、特徴ノード算出部107が、図4のノードベクトル算出ステップ403で使用するマップサイズを格納する。又は、マップサイズを自動設定する場合には、マップサイズ212の値をNULLなどとしておき、自動設定の結果を格納してもよい。集計フラグ1〜k(213)は、図5の目的スコア集計処理504で使用する目的変数に対するk個のフラグ配列である。この配列で1が設定されている目的変数に対するスコアのみを集計し、目的スコアとする。例えば、会員管理システムにおいて現在ランクからのランクアップを目的とした分析では、各現在ランクを分割条件として設定し、現在ランクより上位の予測ランクに対応する目的変数のフラグを1に設定する。
The map size 212 stores the map size used by the feature
ノード情報テーブル115は、特徴ノード算出部107による特徴ノード算出結果を格納し、条件ID214、ノードID215、ヒット数216、ヒット率217、座標218、説明変数1〜d(219)及び目的変数1〜k(220)のデータを含む。
The node information table 115 stores the feature node calculation result by the feature
条件ID214は、分割条件テーブル114に記録される条件を識別するための識別情報(条件ID209)である。ノードID215は、条件ID214によって特定される条件を満たすノードの識別情報である。ヒット数216は、ノードID215で特定されたノードについて、分割条件によって分割されたデータセットのうち、当該ノードが他ノードより近い距離にあるデータ数である。ヒット率217は、ヒット数216をデータ数211で除した値である。座標218は、図3に示すノードマッピング処理304の処理結果である。
The condition ID 214 is identification information (condition ID 209) for identifying the conditions recorded in the division condition table 114. The
説明変数1〜d(219)及び目的変数1〜k(220)は、入力データテーブル112と同形式のデータであり、入力データセットに対して、その分布構造の特徴を表すノードベクトルである。このベクトルは入力データテーブルに含まれるデータと一致するものが存在する必要はなく、また、データ型205に指定された型に従わなくてもよい。例えば、論理値や整数値が指定されても、浮動小数点型のデータとして格納できる。 The explanatory variables 1 to d (219) and the objective variables 1 to k (220) are data having the same format as the input data table 112, and are node vectors representing the characteristics of the distribution structure of the input data set. This vector does not have to match the data contained in the input data table and does not have to follow the type specified in data type 205. For example, even if a logical value or an integer value is specified, it can be stored as floating-point type data.
ノード距離テーブル116は、ノード情報テーブル115の説明変数219、又は説明変数219に目的変数220を加えたノードベクトルについて、各ノード間の距離を格納し、ノードfrom221、ノードto222及び距離223のデータを含む。 The node distance table 116 stores the distance between each node for the explanatory variable 219 of the node information table 115 or the node vector obtained by adding the objective variable 220 to the explanatory variable 219, and stores the data of the node from 221 and the node to 222 and the distance 223. Including.
ノードfrom221及びノードto222は、それぞれノード情報テーブル115に記録されるノードを特定するための識別情報である。ノードfrom221及びノードto222の値は、条件ID214とノードID215の組でもよいし、ノード情報テーブル115上のindexでもよい。距離223は、ノードfrom221とノードto222の間のノードベクトルの距離である。
The node from 221 and the node to 222 are identification information for identifying the node recorded in the node information table 115, respectively. The values of the node from 221 and the node to 222 may be a set of the condition ID 214 and the
なお、ノード距離テーブル116は二次元配列として表現してもよい。この場合、行及び列にはノード情報テーブル115のindexを用いる。 The node distance table 116 may be expressed as a two-dimensional array. In this case, the index of the node information table 115 is used for the rows and columns.
スコアテーブル117は、スコア算出部108の算出結果を格納し、目的変数ID224、条件ID225、ノードID226及び説明変数1〜dのスコア227のデータを含む。
The score table 117 stores the calculation result of the
目的変数ID224は、機械学習モデルの出力結果におけるk次元ベクトルの要素番号を格納する。条件ID225及びノードID226は、ノード情報テーブル115に記録されたノードを特定するための識別情報であり、ノード情報テーブル115の条件ID214及びノードID215と共通の値を用いる。説明変数1〜dのスコア227は、スコア算出部108の算出結果であり、目的変数ID224、条件ID225、ノードID226及び説明変数ごとに格納する。
The objective variable ID 224 stores the element number of the k-dimensional vector in the output result of the machine learning model. The condition ID 225 and the node ID 226 are identification information for identifying the node recorded in the node information table 115, and use values common to the condition ID 214 and the
スコアテーブル117は、図5で説明する目的スコア及び加重平均スコアも格納する。目的スコアは、目的変数ID224に−1などを設定し、加重平均スコアは、目的変数ID224及びノードID226に−1などを設定し、目的変数とノードが特定のものを識別していないことを表すものである。 The score table 117 also stores the objective score and the weighted average score described in FIG. The objective score is set to -1 or the like in the objective variable ID 224, and the weighted average score is set to -1 or the like in the objective variable ID 224 and the node ID 226 to indicate that the objective variable and the node do not identify a specific object. It is a thing.
加重平均スコアテーブル118は、目的変数224とノードID226が−1のように特定されない形で、分割条件と説明変数ごとのスコアを格納している。具体的には、加重平均スコアテーブル118は、後述するスコア算出処理303(図5)のステップ505で算出された加重平均スコアを分割条件ごとに分け、各説明変数のスコアを絶対値の降順にソートし、変数名とともに列挙したリストである。加重平均スコアテーブル118は、出力処理305(図7)のステップ701で生成される。加重平均スコアテーブル118によって、ユーザは、各分割条件が表すターゲット層ごとに、影響度が高い説明変数を容易に把握でき、分割条件での説明変数の順位及びスコアを比較できる。例えば、条件1、2では属性Aの影響度が大きく、条件3、4では属性Jの影響度が大きい。また、属性Iのスコアは符号が逆になっており、同一の施策を適用すると効果が逆に現れる可能性がある。このように、各条件が示すターゲット層への施策立案に活用できる。
The weighted average score table 118 stores the division conditions and the scores for each explanatory variable in a form in which the objective variable 224 and the node ID 226 are not specified as -1. Specifically, in the weighted average score table 118, the weighted average score calculated in
図3は、本実施例の全体処理のフローチャートである。 FIG. 3 is a flowchart of the entire process of this embodiment.
まず、入力処理部106が入力処理を実行する(301)。例えば、入力処理部106は、正規化情報テーブル113を参照して、機械学習モデルの学習データを、その入力形式から本実施例の入力形式に変換し、正規化された数値を元に戻す処理を実行し、その結果を入力データテーブル112に格納する。
First, the
次に、特徴ノード算出部107が特徴ノード算出処理を実行する(302)。例えば、特徴ノード算出部107は、分割条件テーブル114に従って入力データテーブル112を分割し、分割された各データセットから特徴ノードを算出し、結果をノード情報テーブルに格納する。特徴ノード算出処理の詳細は図4で説明する。
Next, the feature
次に、スコア算出部108がスコア算出処理を実行する(303)。例えば、スコア算出部108は、説明変数の影響度を表すスコアを算出し、結果をスコアテーブルに格納する。スコア算出処理の詳細は図5で説明する。
Next, the
次に、ノードマッピング部109がノードマッピング処理を実行する(304)。例えば、ノードマッピング部109は、ステップ302で得られた特徴ノードを低次元空間へマッピングする。ノードマッピング処理の詳細は図6で説明する。
Next, the
次に、出力処理部110が出力処理を実行し(305)、処理を終了する。出力処理の詳細は図7で説明する。
Next, the
図4は、本実施例の特徴ノード算出処理302のフローチャートである。
FIG. 4 is a flowchart of the feature
まず、特徴ノード算出部107は、変数pを1から分割条件テーブル114のデータ件数でループする(401)。以降、p番目の分割条件についてステップ402からステップ405の処理を実行する。
First, the feature
次に、特徴ノード算出部107は、データ分割処理を行う(402)。例えば、p番目の分割条件の分割条件210を満たすデータを入力データテーブル112から選択する。選択されたデータセットは、正規化情報テーブルを用いて正規化処理を施される。
Next, the feature
次に、特徴ノード算出部107は、ノードベクトル算出を行う(403)。例えば、k−平均法に代表されるクラスタリング手法などによって、選択されたデータセットの分布構造を考慮し、より少ないノード数でその特徴を表すノードベクトルを算出する。本実施例では、自己組織化マップ(以下、SOMと略す)を適用する。SOMは、格子状に配置されたノードと、隣接するノードとの間を連結するエッジで表現されるニューラルネットワークの一種である。各ノードには、入力データと同形式の参照ベクトルが割り当てられる。参照ベクトルは、SOMの学習データと距離が最も近いノード(以下、BMU(Best Matching Unit)と略す)の参照ベクトルと共に、BMUに連結したノードの参照ベクトルも、学習データに近づくように更新する。SOMは公知の手法であるため、手法の詳細な説明は省略する。この処理を繰り返すことによって、学習データの複雑な分布構造を、ノードの幾何学的構造に写像できる。
Next, the feature
SOMの結果として算出される各ノードの参照ベクトルは、説明変数219と目的変数220の形式でノード情報テーブル115に格納される。 The reference vector of each node calculated as a result of SOM is stored in the node information table 115 in the form of the explanatory variable 219 and the objective variable 220.
なお、SOMを実行する際の学習データの形式は、説明変数のみ、又は説明変数及び目的変数の組によって設定できる。どちらの形式を利用するかは予め設定されているとよい。そして、出力結果としての目的変数220は、これら学習データの入力形式に従う。 The format of the learning data when executing SOM can be set only by the explanatory variables or by a set of the explanatory variables and the objective variables. Which format to use should be set in advance. Then, the objective variable 220 as an output result follows the input format of these learning data.
次に、特徴ノード算出部107は、ノードごとにヒット数を計数する(404)。ここでは、ステップ403で算出したノードごとに、それをBMUとする選択データセット中のデータ数をヒット数216の値として算出する。ヒット率217はこれを選択されたデータ件数で割って算出する。
Next, the feature
次に、特徴ノード算出部107は、算出された結果をデータの保存領域に格納する(405)。このとき、ステップ403で算出されたノードベクトルは正規化されているため、正規化情報テーブル113を用いて元に戻す処理を行い、その結果を格納する。
Next, the feature
そして、ステップ401からステップ405のループが終了すると特徴ノード算出処理302を終了する。
Then, when the loop from
図5は、本実施例のスコア算出処理303のフローチャートである。
FIG. 5 is a flowchart of the
まず、スコア算出部108は、変数iを1からノード情報テーブル115のデータ件数でループする(501)。以降、i番目のノードについてステップ502からステップ504の処理を実行する。
First, the
次に、スコア算出部108は、ノードiの近傍データセットと、それに対する機械学習モデルの予測結果を生成する(502)。近傍データとは、変数iで指定されたノードの説明変数が表すd次元ベクトルの周辺に位置するベクトルデータである。本実施例では近傍データの生成方法として、ノードiの説明変数の値を平均とし、正規化情報の標準偏差の2分の1を標準偏差とした正規分布に従った乱数によって生成する方法を用いるが、他の生成方法を用いてもよい。近傍データセットのデータ件数は予め指定されているとよい。機械学習モデルによる予測は、正規化情報テーブルを用いた正規化と、モデル用データ形式対応情報208による変換を行って実行できる。
Next, the
次に、スコア算出部108は、生成された近傍データセットと機械学習モデルの予測結果について局所モデル推定処理を行う(503)。ステップ503では、近傍データについて説明変数と目的変数との関係性を表すスコアを得る。本実施例では近傍データセットと機械学習モデルの予測結果に対して線形モデル推定を適用し、その推定パラメータをスコアとする。すなわち、d次元の説明変数X=(x1,x2,…,xd)に対する機械学習モデルの出力結果Yを、下式で表される線形モデルで近似し、推定パラメータSiを入力xiにおけるスコアとする。ここで、Y,Y,Si,Cはk次元ベクトルである。線形モデル推定の手法は公知の技術であるため、手法の詳細な説明は省略する。
Next, the
次に、スコア算出部108は、ステップ503で得られたスコアを、集計フラグ213に従って集計して目的スコアを算出する(504)。具体的には、フラグが1の要素のスコアを説明変数ごとに集計する。
Next, the
そして、スコア算出部108は、ステップ501からステップ504のループが終了すると、ヒット率217を目的スコアに適用して加重平均スコアを算出する(505)。加重平均スコアは、同一条件IDの全ノードについて、説明変数ごとに算出される。
Then, when the loop from
そして、スコア算出部108は、算出された結果をデータの保存領域に格納し(506)、スコア算出処理を終了する。
Then, the
図6は、本実施例のノードマッピング処理304のフローチャートである。本実施例では、多次元尺度構成法(以下、MDSと略す)を使って格子状の平面SOMノードの分割条件ごとのセットを2次元座標にマッピングするが、ノードの幾何学的構造やマッピングする空間は他の次元数の空間でもよい。
FIG. 6 is a flowchart of the
MDSは、多次元ベクトル空間上のノードを、2次元や3次元などの低次元空間にマッピングする手法の一つで、ノード間の距離を可能な限り再現するようにマッピングを行う。MDSは公知の手法であるため、手法の詳細な説明は省略する。本実施例では、MDSを適用する際に、SOMノードの幾何学的構造を考慮した初期化を行う。 MDS is one of the methods for mapping nodes on a multidimensional vector space to a low-dimensional space such as two-dimensional or three-dimensional, and mapping is performed so as to reproduce the distance between the nodes as much as possible. Since MDS is a known method, detailed description of the method will be omitted. In this embodiment, when applying MDS, initialization is performed in consideration of the geometric structure of the SOM node.
まず、ノードマッピング部109は、ノード距離テーブル116を生成する(601)。本実施例では、各特徴ノードベクトルを、正規化された説明変数219とし、ユークリッド距離によって距離テーブルを生成する。
First, the
次に、ノードマッピング部109は、各変数を初期化する(602)。具体的には、まずlt、lb、rt、rbを、それぞれ格子状のSOMノードの構造における左上、左下、右上、右下のノードindexとして定義し、全て−1を設定する。次に、yを0に設定する。次に、配列Posを、各ノードの座標を格納する配列として定義する。そして、Sw、Shを、それぞれx方向、y方向のノード座標配列として定義する。この配列サイズはマップサイズ212によって決定される。Pos、Sw、Shの要素は全て0で初期化する。
Next, the
次に、ノードマッピング部109は、変数pを1から分割条件テーブル114のデータ件数でループする(603)。以降、p番目の分割条件についてステップ604からステップ609の処理を実行する。
Next, the
次に、ノードマッピング部109は、rbが0以上であれば(604でYes)、yに配列Sh内の最大値に所定数(例えば、2)を加算した数を入力する(605)。所定数は適切な値に変更してもよい。
Next, if rb is 0 or more (Yes at 604), the
一方、ノードマッピング部109は、rbが負の数であれば(604でNo)、何もせずにステップ606に進む。
On the other hand, if rb is a negative number (No at 604), the
次に、分割条件pのノードに対する四隅ノードindexを、それぞれlt,lb,rt,rbに設定する(606)。このとき、ltをrb+1に設定し、マップサイズ212に従って残りの変数を設定できる。 Next, the four corner node indexes for the node of the division condition p are set to lt, lb, rt, and rb, respectively (606). At this time, lt can be set to rb + 1 and the remaining variables can be set according to the map size 212.
次に、ノードマッピング部109は、Sw、Shに値を設定する(607)。本実施例では、ノードltとrtとの距離、ltとlbとの距離を、マップサイズに従って均等分割した値を設定する。
Next, the
次に、ノードマッピング部109は、Shの各要素にyを加算する(608)。x軸方向に移動したい場合、変数xを定義して、yと同様の処理をSwに適用すればよい。
Next, the
次に、ノードマッピング部109は、ノードlt〜rbの座標をPosに設定する(609)。この処理は、例えば、SOMのノード構造においてi行j列の位置のノードの座標を、(Sw[i],Sh[j])で設定するとよい。
Next, the
そして、ステップ603からステップ608のループが終了すると、Posをノードの初期座標としてMDSを適用する(610)。
Then, when the loop from
次に、ノードマッピング部109は、結果を保存領域に格納し(611)、ノードマッピング処理を終了する。
Next, the
図7は、本実施例の出力処理305のフローチャートである。
FIG. 7 is a flowchart of the
まず、出力処理部110は、加重平均スコアを列挙して、加重平均スコアテーブル118を生成する(701)。加重平均スコアテーブル118は、前述したように、分割条件ごとに加重平均スコアを分け、各説明変数のスコアを絶対値の降順にソートし、変数名ともに列挙したものである。
First, the
次に、出力処理部110は、ノードベクトルの成分マップを表示する(702)。成分マップは、同一条件における各ノードの特定の説明変数319又は目的変数220の値を、SOMのノードの幾何学的構造とマップサイズによって可視化したものである。例えば、マップサイズがm×nのときの説明変数iの成分マップは、ノード情報テーブルの同一条件IDの全ノードにおける説明変数iの値を、その値に対応した色でm×nの画像として表示する。
Next, the
本実施例の成分マップは、図8に例示するように、特定の分割条件に対して、説明変数219ごとに、ノードの幾何学的構造に基づいて、説明変数319の値を画像化している。また、ステップ403において、目的変数202も加えたベクトルに対する処理を行った場合には、目的変数220を用いた成分マップも表示可能である。成分マップによって、各説明変数間の相関や、説明変数と目的変数との間の相関関係などを視覚的に把握できる。
As illustrated in FIG. 8, the component map of this embodiment images the value of the explanatory variable 319 for each explanatory variable 219 based on the geometric structure of the node for a specific division condition. .. Further, in
次に、出力処理部110は、ヒットマップを表示する(703)。ヒットマップは、ステップ702の可視化手法を用いて、ヒット数216(又はその対数)又はヒット率217を可視化したものである。
Next, the
本実施例のヒットマップは、図9に例示するように、ヒット率217の対数に基づいた色分けによってヒット数を画像化している。また、図のようにヒット数の数値を表示してもよい。ヒットマップによって、学習データの分布において密度の濃いノードなどを把握できる。 As illustrated in FIG. 9, the hit map of this embodiment images the number of hits by color coding based on the logarithm of the hit rate 217. Further, the numerical value of the number of hits may be displayed as shown in the figure. From the hit map, it is possible to grasp the dense nodes in the distribution of the training data.
次に、出力処理部110は、スコアマップを表示する(704)。スコアマップは、ステップ702の可視化手法を用いて、特定の説明変数に対するスコア227又は目的スコアを可視化したものである。
Next, the
本実施例のスコアマップは、図10に例示するように、説明変数ごとのスコア227に基づいた色分けによってスコア227を画像化している。例えば、スコアが0の場合を緑に設定し、プラス方向に赤、マイナス方向に青へと段階的に変化する色分けを行うことで、どのノード位置で、どの説明変数の影響度が強いかを容易に把握できる。また、図のように、該当する説明変数の成分マップと模様を比較することで、影響度が高いノードにおける説明変数の値の様子を把握できる。 In the score map of this embodiment, as illustrated in FIG. 10, the score 227 is imaged by color coding based on the score 227 for each explanatory variable. For example, if the score is 0, it is set to green, and by performing color coding that gradually changes to red in the plus direction and blue in the minus direction, which node position and which explanatory variable has a strong influence can be determined. Easy to grasp. In addition, as shown in the figure, by comparing the component map of the corresponding explanatory variable with the pattern, it is possible to grasp the state of the value of the explanatory variable in the node having a high degree of influence.
次に、出力処理部110は、ノードマップを表示する(705)。ノードマップは、ステップ304で算出したノードごとの座標218によって、各ノードを低次元空間上の点として可視化したものである。このとき、各ノードを表す点の形や色などは、ノード情報テーブルの説明変数の値、目的変数の値、スコアテーブルの説明変数ごとのスコア、目的スコア、分割条件などによって設定するとよい。
Next, the
本実施例のノードマップは、図11に例示するように、各分割条件におけるノードの座標218に基づいて、2次元空間にノードをプロットしたものである。また、特定の分割条件におけるノードの幾何学的構造を格子状の線によって表示してもよい。ノードマップによって、複数の分割条件での各ノードの位置関係を把握できる。例えば、現在ランクを分割条件とした場合に、距離が近いノードを見ることで、ランクが上がる可能性や下がるリスクが高そうなノードを容易に探し出せる。それら近隣ノードとの特徴の違いは、ノード情報テーブルの値を直接比較したり、成分マップを用いて比較できる。 As illustrated in FIG. 11, the node map of this embodiment is a plot of nodes in a two-dimensional space based on the coordinates 218 of the nodes under each division condition. Further, the geometrical structure of the node under a specific division condition may be displayed by a grid-like line. The node map makes it possible to grasp the positional relationship of each node under a plurality of division conditions. For example, when the current rank is set as the division condition, by looking at the nodes that are close to each other, it is possible to easily find the node that has a high possibility of increasing the rank or a high risk of decreasing the rank. Differences in characteristics from those neighboring nodes can be compared directly by comparing the values in the node information table or by using a component map.
そして、処理を終了する。 Then, the process ends.
なお、前述した可視化手法はユーザの指示によって任意の順序で実行可能であり、それらを組み合わせて同時に表示してもよい。 The visualization methods described above can be executed in any order according to the user's instruction, and they may be combined and displayed at the same time.
以上に説明したように、本実施例のデータ分析システムは、機械学習モデルが学習時に用いた複数の説明変数からなる入力データセット又は前記説明変数が加工されたデータセットからなる入力データセットを、指定された分割条件で分割し、前記分割された各データセットの分布構造の特徴を表す特徴ノードを算出する特徴ノード算出部107と、前記特徴ノードを含む入力データの近傍データを生成し、前記生成された近傍データの説明変数と、前記近傍データを前記機械学習モデルに入力して得られた目的変数のデータとに基づいて、当該説明変数と当該目的変数との関係性を表すスコアを算出するスコア算出部108と、前記スコアを含む出力結果を出力する出力処理部110とを備える。このため、学習済の機械学習モデルに対し、分割条件が示すターゲット層ごとに、説明変数が目的変数に与える影響度を算出し可視化できる。また、分布構造の特徴を表す特徴ノードによって、学習データより少ないデータでデータセットの特徴を表すことができる。また、学習データが少なく、網羅されていなくても、近傍データによってデータセットの特徴を表して、特徴ノードを補完できる。つまり、少ないデータでデータセットの特徴を表して、演算量を低減できる。
As described above, the data analysis system of this embodiment uses an input data set consisting of a plurality of explanatory variables used by the machine learning model at the time of training or an input data set consisting of a data set obtained by processing the explanatory variables. The feature
また、特徴ノード算出部107は、自己組織化マップが適用された前記入力データセットに基づいて特徴ノードを算出するので、特徴ノードを的確に算出できる。
Further, since the feature
また、特徴ノード算出部107は、前記機械学習モデルが学習時に用いた複数の説明変数及び前記機械学習モデルが算出した目的変数からなる入力データセット、又は前記説明変数及び前記目的変数が加工されたデータセットからなる入力データセットを用いて前記特徴ノードを算出するので、目的変数をマップで比較できる。
Further, in the feature
また、特徴ノード算出部107は、特定の説明変数の特定の値又は範囲、及び前記目的変数の要素の特定の値(例えば、最大値)又は範囲の少なくとも一つを含む分割条件、又はこれらの組み合わせによって表現される分割条件によって前記入力データセットを分割するので、ターゲット層を絞り込んだ分析ができる。すなわち、集団全体ではなく、目的によって属性を変えることによって、特定の属性を有する集団のデータを解析できる。
Further, the feature
また、スコア算出部108は、前記説明変数のデータと前記目的変数のデータとに基づいて線形モデル推定を適用することによって、前記説明変数毎に前記目的変数の形式に対応したスコアを算出するので、線形モデルはシンプルで扱いやすいことから、ユーザにとって分かりやすく、結果に対する信頼性を向上できる。特に、線形モデルでは、複数属性を統合する場合に確率の和で計算可能であるため、ユーザが直感的に分かりやすい。
Further, the
また、スコア算出部108は、前記目的変数中の要素の一部のうち、前記分割条件ごとに指定された部分を集計して目的スコアを算出するので、ターゲット層を絞り込んだ分析ができる。すなわち、集団全体ではなく、目的によって属性を変えることによって、特定の属性を有する集団のデータを解析できる。
Further, since the
また、スコア算出部108は、前記算出したスコア及び前記算出した目的スコアについて、前記各分割条件における特徴ノードごとの周辺データの数に基づいて、説明変数ごとに加重平均スコアを算出するので、密度分布を考慮して、データの特性を正しく表せる。
Further, since the
また、各分割条件において、前記各分割条件において、特徴ノード算出部107によって算出された特徴ノードを二次元空間にマッピングするノードマッピング部部109を備えるので、集団の特性を分かりやすく表すことができる。
Further, in each division condition, since the
また、ノードマッピング部109は、前記説明変数ごとの特徴ノードの値と、前記算出されたスコアと、前記スコア及び目的スコアについて算出された加重平均スコアとを、ノードの幾何学的構造に基づいて画像化して表示するためのデータを生成するので、ノード間の距離の関係性を維持しつつ、異なる属性の集団間でデータを比較できる。
Further, the
また、ノードマッピング部109は、前記特徴ノードのベクトル又は目的変数成分を含む特徴ノードのベクトルを、前記分割条件の特徴ノードの幾何学的構造に基づいて初期化した後、多次元尺度構成法を適用してマッピングを行うので、スコアマップによって、影響度が高い属性と低い属性とを分かりやすく表すことができる。
Further, the
また、入力データセットが、所定時間ごとの説明変数を含む時系列データである場合、当該説明変数を過去のある時点から現時点までの独立した変数として展開したデータを入力データとし、当該展開に用いた規則を格納するので、入力データセットが時系列データであるデータを解析できる。 If the input data set is time-series data including explanatory variables for each predetermined time, the data obtained by expanding the explanatory variables as independent variables from a certain point in the past to the present time is used as input data for the expansion. Since the existing rules are stored, it is possible to analyze data whose input data set is time series data.
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。 The present invention is not limited to the above-described embodiment, and includes various modifications and equivalent configurations within the scope of the attached claims. For example, the above-described examples have been described in detail in order to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to those having all the described configurations. Further, a part of the configuration of one embodiment may be replaced with the configuration of another embodiment. Further, the configuration of another embodiment may be added to the configuration of one embodiment. In addition, other configurations may be added / deleted / replaced with respect to a part of the configurations of each embodiment.
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。 Further, each of the above-described configurations, functions, processing units, processing means, etc. may be realized by hardware by designing a part or all of them by, for example, an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing the program to be executed.
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。 Information such as programs, tables, and files that realize each function can be stored in a memory, a hard disk, a storage device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。 In addition, the control lines and information lines indicate those that are considered necessary for explanation, and do not necessarily indicate all the control lines and information lines necessary for implementation. In practice, it can be considered that almost all configurations are interconnected.
101…入力装置
102…出力装置
103…表示装置
104…処理装置
105…プログラム
106…入力処理部
107…特徴ノード算出部
108…スコア算出部
109…ノードマッピング部
110…出力処理部
111…記憶装置
112…入力データテーブル
113…正規化情報テーブル
114…分割条件テーブル
115…ノード情報テーブル
116…ノード距離テーブル
117…スコアテーブル
101 ...
Claims (12)
プログラムを実行する演算装置と、前記演算装置と接続された記憶装置とを備え、
前記演算装置が、機械学習モデルが学習時に用いた複数の説明変数からなる入力データセット又は前記説明変数が加工されたデータセットからなる入力データセットを、指定された分割条件で分割し、前記分割された各データセットの分布構造の特徴を表す特徴ノードを算出する特徴ノード算出部と、
前記演算装置が、前記特徴ノードを含む入力データの近傍データを生成し、前記生成された近傍データの説明変数と、前記近傍データを前記機械学習モデルに入力して得られた目的変数のデータとに基づいて、当該説明変数と当該目的変数との関係性を表すスコアを算出するスコア算出部と、
前記演算装置が、前記スコアを含む出力結果を出力する出力処理部とを備えることを特徴とするデータ分析システム。 A data analysis system
An arithmetic unit for executing a program and a storage device connected to the arithmetic unit are provided.
The arithmetic unit divides an input data set consisting of a plurality of explanatory variables used by the machine learning model at the time of training or an input data set consisting of a data set obtained by processing the explanatory variables under specified division conditions, and the division is performed. A feature node calculation unit that calculates feature nodes that represent the features of the distribution structure of each dataset,
The arithmetic unit generates neighborhood data of input data including the feature node, and the explanatory variables of the generated neighborhood data and the data of the objective variable obtained by inputting the neighborhood data into the machine learning model. A score calculation unit that calculates a score representing the relationship between the explanatory variable and the objective variable based on
A data analysis system, wherein the arithmetic unit includes an output processing unit that outputs an output result including the score.
前記特徴ノード算出部は、自己組織化マップが適用された前記入力データセットに基づいて特徴ノードを算出することを特徴とするデータ分析システム。 The data analysis system according to claim 1.
The feature node calculation unit is a data analysis system characterized by calculating feature nodes based on the input data set to which a self-organizing map is applied.
前記特徴ノード算出部は、前記機械学習モデルが学習時に用いた複数の説明変数及び前記機械学習モデルが算出した目的変数からなる入力データセット、又は前記説明変数及び前記目的変数が加工されたデータセットからなる入力データセットを用いて前記特徴ノードを算出することを特徴とするデータ分析システム。 The data analysis system according to claim 1.
The feature node calculation unit is an input data set composed of a plurality of explanatory variables used by the machine learning model at the time of learning and objective variables calculated by the machine learning model, or a data set obtained by processing the explanatory variables and the objective variables. A data analysis system characterized in that the feature node is calculated using an input data set consisting of.
前記特徴ノード算出部は、特定の説明変数の特定の値又は範囲、及び前記目的変数の要素の特定の値又は範囲の少なくとも一つを含む分割条件、又はこれらの組み合わせによって表現される分割条件によって前記入力データセットを分割することを特徴とするデータ分析システム。 The data analysis system according to claim 1.
The feature node calculation unit is based on a division condition containing at least one of a specific value or range of a specific explanatory variable and a specific value or range of an element of the objective variable, or a division condition expressed by a combination thereof. A data analysis system characterized by dividing the input data set.
前記スコア算出部は、前記説明変数のデータと前記目的変数のデータとに基づいて線形モデル推定を適用することによって、前記説明変数毎に前記目的変数の形式に対応したスコアを算出することを特徴とするデータ分析システム。 The data analysis system according to claim 1.
The score calculation unit is characterized by calculating a score corresponding to the format of the objective variable for each explanatory variable by applying a linear model estimation based on the data of the explanatory variable and the data of the objective variable. Data analysis system.
前記スコア算出部は、前記目的変数中の要素の一部のうち、前記分割条件ごとに指定された部分を集計して目的スコアを算出することを特徴とするデータ分析システム。 The data analysis system according to claim 1.
The score calculation unit is a data analysis system characterized in that a part of the elements in the objective variable, which is designated for each division condition, is aggregated to calculate the objective score.
前記スコア算出部は、前記算出したスコア及び前記算出した目的スコアについて、前記各分割条件における特徴ノードごとの周辺データの数に基づいて、説明変数ごとに加重平均スコアを算出することを特徴とするデータ分析システム。 The data analysis system according to claim 6.
The score calculation unit is characterized in that it calculates a weighted average score for each explanatory variable based on the number of peripheral data for each feature node in each of the division conditions for the calculated score and the calculated target score. Data analysis system.
前記演算装置が、前記各分割条件において、前記特徴ノード算出部によって算出された特徴ノードを二次元空間にマッピングするノードマッピング部を備えることを特徴とするデータ分析システム。 The data analysis system according to claim 1.
A data analysis system, wherein the arithmetic unit includes a node mapping unit that maps a feature node calculated by the feature node calculation unit to a two-dimensional space under each of the division conditions.
前記演算装置が、前記各分割条件において、前記特徴ノード算出部によって算出された特徴ノードを二次元空間にマッピングするノードマッピング部を備え、
前記ノードマッピング部は、前記説明変数ごとの特徴ノードの値と、前記算出されたスコアと、前記スコア及び目的スコアについて算出された加重平均スコアとを、ノードの幾何学的構造に基づいて画像化して表示するためのデータを生成することを特徴とするデータ分析システム。 The data analysis system according to claim 7.
The arithmetic unit includes a node mapping unit that maps a feature node calculated by the feature node calculation unit to a two-dimensional space under each division condition.
The node mapping unit images the value of the feature node for each explanatory variable, the calculated score, and the weighted average score calculated for the score and the target score based on the geometric structure of the node. A data analysis system characterized by generating data for display.
前記ノードマッピング部は、前記特徴ノードのベクトル又は目的変数成分を含む特徴ノードのベクトルを、前記分割条件の特徴ノードの幾何学的構造に基づいて初期化した後、多次元尺度構成法を適用してマッピングを行うことを特徴とするデータ分析システム。 The data analysis system according to claim 8.
The node mapping unit initializes the vector of the feature node or the vector of the feature node including the objective variable component based on the geometric structure of the feature node of the division condition, and then applies the multidimensional scaling method. A data analysis system characterized by mapping.
前記入力データセットが、所定時間ごとの説明変数を含む時系列データである場合、当該説明変数を過去のある時点から現時点までの独立した変数として展開したデータを入力データとし、
前記演算装置が、当該展開に用いた規則を格納することを特徴とするデータ分析システム。 The data analysis system according to claim 1.
When the input data set is time-series data including explanatory variables for each predetermined time, the data obtained by expanding the explanatory variables as independent variables from a certain point in the past to the present time is used as input data.
A data analysis system in which the arithmetic unit stores the rules used for the development.
前記計算機は、プログラムを実行する演算装置と、前記演算装置と接続された記憶装置とを有し、
前記方法は、
前記演算装置が、機械学習モデルが学習時に用いた複数の説明変数からなる入力データセット又は前記説明変数が加工されたデータセットからなる入力データセットを、指定された分割条件で分割し、
前記演算装置が、前記分割された各データセットの分布構造の特徴を表す特徴ノードを算出し、
前記演算装置が、前記特徴ノードを含む入力データの近傍データを生成し、
前記生成された近傍データの説明変数と、前記近傍データを前記機械学習モデルに入力して得られた目的変数のデータとに基づいて、当該説明変数と当該目的変数との関係性を表すスコアを算出し、
前記演算装置が、前記スコアを含む出力結果を出力することを特徴とするデータ分析方法。 It is a data analysis method executed by a calculator.
The calculator has an arithmetic unit that executes a program and a storage device connected to the arithmetic unit.
The method is
The arithmetic unit divides an input data set consisting of a plurality of explanatory variables used by the machine learning model at the time of training or an input data set consisting of a data set obtained by processing the explanatory variables under specified division conditions.
The arithmetic unit calculates a feature node representing the feature of the distribution structure of each of the divided data sets.
The arithmetic unit generates neighborhood data of input data including the feature node,
Based on the explanatory variables of the generated neighborhood data and the data of the objective variable obtained by inputting the neighborhood data into the machine learning model, a score representing the relationship between the explanatory variable and the objective variable is obtained. Calculate and
A data analysis method, wherein the arithmetic unit outputs an output result including the score.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018083408A JP6863926B2 (en) | 2018-04-24 | 2018-04-24 | Data analysis system and data analysis method |
PCT/JP2019/005167 WO2019207910A1 (en) | 2018-04-24 | 2019-02-13 | Data analysis system and data analysis mehtod |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018083408A JP6863926B2 (en) | 2018-04-24 | 2018-04-24 | Data analysis system and data analysis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019191895A JP2019191895A (en) | 2019-10-31 |
JP6863926B2 true JP6863926B2 (en) | 2021-04-21 |
Family
ID=68295150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018083408A Active JP6863926B2 (en) | 2018-04-24 | 2018-04-24 | Data analysis system and data analysis method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6863926B2 (en) |
WO (1) | WO2019207910A1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7353952B2 (en) * | 2019-12-09 | 2023-10-02 | 株式会社日立製作所 | Analysis system and method |
JP7499597B2 (en) | 2020-04-16 | 2024-06-14 | 株式会社日立製作所 | Learning model construction system and method |
WO2022074806A1 (en) | 2020-10-08 | 2022-04-14 | 富士通株式会社 | Output control program, output control method, and information processing device |
CN113344214B (en) * | 2021-05-31 | 2022-06-14 | 北京百度网讯科技有限公司 | Training method and device of data processing model, electronic equipment and storage medium |
JP7314328B1 (en) | 2022-01-11 | 2023-07-25 | みずほリサーチ&テクノロジーズ株式会社 | LEARNING SYSTEMS, LEARNING METHODS AND LEARNING PROGRAMS |
JP7263567B1 (en) | 2022-01-11 | 2023-04-24 | みずほリサーチ&テクノロジーズ株式会社 | Information selection system, information selection method and information selection program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6270182B2 (en) * | 2014-07-17 | 2018-01-31 | Necソリューションイノベータ株式会社 | Attribute factor analysis method, apparatus, and program |
-
2018
- 2018-04-24 JP JP2018083408A patent/JP6863926B2/en active Active
-
2019
- 2019-02-13 WO PCT/JP2019/005167 patent/WO2019207910A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019207910A1 (en) | 2019-10-31 |
JP2019191895A (en) | 2019-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6863926B2 (en) | Data analysis system and data analysis method | |
US11080333B2 (en) | Systems and methods for capture of relationships within information | |
US11397753B2 (en) | Scalable topological summary construction using landmark point selection | |
US11709868B2 (en) | Landmark point selection | |
US9519660B2 (en) | Information processing apparatus, clustering method, and recording medium storing clustering program | |
Tasse et al. | Cluster-based point set saliency | |
US9208278B2 (en) | Clustering using N-dimensional placement | |
Liu et al. | A fast weak-supervised pulmonary nodule segmentation method based on modified self-adaptive FCM algorithm | |
JP2000311246A (en) | Similar image display method and recording medium storing similar image display processing program | |
JP6311404B2 (en) | Management program, management apparatus, and management method | |
KR20150112832A (en) | Computing program, computing apparatus and computing method | |
Bergamasco et al. | A graph-based technique for semi-supervised segmentation of 3D surfaces | |
JP2018124851A (en) | Supporting apparatus and supporting method | |
US20150154282A1 (en) | Data search apparatus and method for controlling the same | |
Beilschmidt et al. | A linear-time algorithm for the aggregation and visualization of big spatial point data | |
Wang et al. | An efficient k-medoids clustering algorithm for large scale data | |
US10424095B2 (en) | Landmark feature selection | |
US20080221788A1 (en) | Map generation apparatus, map generation method and computer readable medium | |
WO2016179438A1 (en) | Scalable topological summary construction using landmark point selection | |
Li et al. | A Fast Color Image Segmentation Approach Using GDF with Improved Region‐Level Ncut | |
JP2021152751A (en) | Analysis support device and analysis support method | |
Stanescu et al. | A comparative study of some methods for color medical images segmentation | |
Xiang et al. | Salient object detection via saliency bias and diffusion | |
Zhang et al. | Probabilistic hypergraph optimization for salient object detection | |
Meng et al. | Determining the number of clusters in co-authorship networks using social network theory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210330 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6863926 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |