JP7139625B2 - Factor analysis system, factor analysis method and program - Google Patents
Factor analysis system, factor analysis method and program Download PDFInfo
- Publication number
- JP7139625B2 JP7139625B2 JP2018037841A JP2018037841A JP7139625B2 JP 7139625 B2 JP7139625 B2 JP 7139625B2 JP 2018037841 A JP2018037841 A JP 2018037841A JP 2018037841 A JP2018037841 A JP 2018037841A JP 7139625 B2 JP7139625 B2 JP 7139625B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- analysis
- factor
- factor analysis
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000556 factor analysis Methods 0.000 title claims description 124
- 238000000034 method Methods 0.000 title claims description 60
- 238000004458 analytical method Methods 0.000 claims description 121
- 238000012545 processing Methods 0.000 claims description 54
- 238000007781 pre-processing Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 23
- 238000003066 decision tree Methods 0.000 claims description 17
- 238000000491 multivariate analysis Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 31
- 239000011159 matrix material Substances 0.000 description 13
- 238000013500 data storage Methods 0.000 description 11
- 230000010354 integration Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000010219 correlation analysis Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013138 pruning Methods 0.000 description 5
- 238000013079 data visualisation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、要因分析システム、要因分析方法およびプログラムに関する。 The present invention relates to a factor analysis system, factor analysis method and program.
近年の電力システム改革では、例えば、「計画値同時同量制度」がトピックとなっている。「計画値同時同量制度」では、需要予測を正確に行なうことが重要となる。しかし、エネルギー事業者(電力会社等)が行っている、従来の需要予測は、自社エリア(テリトリー)の電力需要を、変動要因である「気象情報」や「暦情報」等を入力データに取り入れて予測するモデルを用いて運用することが多い。 In the recent electric power system reform, for example, the "planned value simultaneous equalization system" has become a topic. Accurate demand forecasting is important in the "simultaneous planned value system". However, conventional demand forecasting conducted by energy companies (electric power companies, etc.) incorporates fluctuation factors such as "weather information" and "calendar information" into the input data for power demand in their own area (territory). It is often operated using a model that predicts
しかしながら上記電力システム改革が施行されたことで、既存の電力会社以外に、所謂“新電力”と呼ばれる電力小売事業者(以降、新電力事業者と呼ぶ)が新たなエネルギー事業者として参画することが可能になっている。 However, with the implementation of the above-mentioned electric power system reform, in addition to the existing electric power companies, electric power retailers called "new electric power companies" (hereinafter referred to as new electric power companies) will participate as new energy companies. is possible.
新電力事業者が予測する顧客の電力需要は、契約状況によって日々大きく変動する。そのため新電力事業者が抱える電力需要の変動要因を、運用者(以降、ユーザと呼ぶ)が定期的に分析し、その分析結果を反映した入力データに基づいて新たな電力需要を予測することが必要となる。当該新たな電力需要の予測は、新電力事業者には限られず、既存の電力事業者にとっても必要な事項である。 The customer's power demand predicted by the new electric power company fluctuates greatly on a daily basis depending on the contract status. Therefore, the operator (hereafter referred to as the user) periodically analyzes the fluctuation factors of power demand faced by the new power company, and predicts the new power demand based on the input data that reflects the analysis results. necessary. Prediction of the new power demand is necessary not only for new power companies but also for existing power companies.
従来の電力需要に関する予測において使用されていた相関係数を用いた相関構造モデルは、“擬似相関”と呼ばれる見掛けの相関に起因して、説明変数と目的変数との純粋な関係を求めることができない。 Correlation structure models that use correlation coefficients, which have been used in conventional electricity demand forecasting, can obtain pure relationships between explanatory variables and objective variables due to apparent correlations called "pseudo-correlations." Can not.
関連する技術として、最大電力予測のために、電力需要と関係がありそうな需要要因を事前に相関分析によって分析し、その結果から電力の需要予測に用いる入力データを選択する技術が提案されている(例えば、非特許文献1を参照)。 As a related technology, for maximum power forecasting, a technology has been proposed in which demand factors that are likely to be related to power demand are analyzed in advance by correlation analysis, and based on the results, input data to be used for power demand forecasting is selected. (See, for example, Non-Patent Document 1).
相関分析は、相関係数を用いて要因間の関係を-1から1の範囲で定量的に分析する手法である。しかし相関分析は、分析対象となる要因が多いと、相関係数がどの閾値までの変数を入力データに用いるかの判断ができない場合がある。 Correlation analysis is a method of quantitatively analyzing the relationship between factors in the range of -1 to 1 using correlation coefficients. However, in correlation analysis, if there are many factors to be analyzed, it may not be possible to determine up to which threshold the correlation coefficient of variables should be used as input data.
近年では、需要予測に、偏相関係数を用いたグラフィカルモデリングという手法が用いられている(例えば、特許文献2を参照)。グラフィカルモデリングを用いた相関構造モデルは、上記した“擬似相関”を除去することができるため、需要予測を行なう際に適切な要因選択が可能になる。
In recent years, a technique called graphical modeling using a partial correlation coefficient has been used for demand forecasting (see
グラフィカルモデリングは、条件付き独立を仮定することで、ある要因間の偏相関係数を0(無相関)とし、他の偏相関係数を推定するものであるため、出力結果として、偏相関係数が0(無相関)の要因は需要予測の入力データとして除外することで要因の数を減少させて要因を絞り込むことができる。 Graphical modeling assumes that the partial correlation coefficient between certain factors is 0 (uncorrelated) and estimates the other partial correlation coefficients by assuming conditional independence. By excluding factors with a number of 0 (no correlation) as input data for demand forecasting, the number of factors can be reduced and the factors can be narrowed down.
上記した相関分析およびグラフィカルモデリングは、いずれも統計に基づく分析手法であり、線形の要因に対しては有効な分析手法であるが、非線形の要因を分析する際には、要因分析の分析精度が低下する。 Both the correlation analysis and graphical modeling mentioned above are analytical methods based on statistics, and are effective analytical methods for linear factors. descend.
そこで、本発明は、要因分析を行なう際の分析精度を向上させることを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to improve the accuracy of factor analysis.
上記課題を解決するために、本発明の一つの側面は、
要因分析に関する非線形の分析対象データについての入力処理を行なう入力処理部と、
前記分析対象データに対して所定の加工を行なうデータ前処理部と、
前記入力処理部が入力処理を行った前記分析対象データ、または前記データ前処理部が加工した前記分析対象データから線形部分のデータを抽出する線形部分抽出部と、
前記線形部分抽出部が抽出した前記線形部分のデータに対して予測対象に対する要因の関係性を分析し、分析結果を定量的に表示する制御を行なう要因分析部と、
を備えており、
前記要因分析部は、前記線形部分抽出部が抽出した線形部分に対して多変量解析手法を適用して得られた分析結果に基づいて変数選択を行なう、
ことを特徴とする。
In order to solve the above problems, one aspect of the present invention is
an input processing unit that performs input processing on non-linear analysis target data related to factor analysis;
a data preprocessing unit that performs predetermined processing on the data to be analyzed;
a linear part extracting unit for extracting linear part data from the analysis target data input processed by the input processing unit or from the analysis target data processed by the data preprocessing unit;
a factor analysis unit that analyzes the relationship of factors with respect to the prediction target with respect to the data of the linear portion extracted by the linear portion extraction unit, and performs control for quantitatively displaying the analysis results;
and
The factor analysis unit selects variables based on analysis results obtained by applying a multivariate analysis method to the linear part extracted by the linear part extraction unit,
It is characterized by
上記において前記分析対象データは、エネルギー事業者の予測対象情報と、気象情報と、暦情報と、イベント情報とのうちの少なくとも1つ以上を含む、ことを特徴とする。 In the above, the analysis target data is characterized by including at least one or more of prediction target information of an energy supplier, weather information, calendar information, and event information.
また上記において前記データ前処理部は、予測対象と要因の関係を可視化することを特徴とする。 In the above, the data preprocessing unit is characterized by visualizing the relationship between the prediction target and the factors.
また上記いずれかにおいて、前記データ前処理部は、前記分析対象データに含まれる異常データの除去と欠損データの補間のうち何れか一方または両方を行なうことを特徴とする。 Further, in any one of the above, the data preprocessing unit is characterized by performing one or both of removing abnormal data and interpolating missing data included in the data to be analyzed.
上記において前記線形部分抽出部は、決定木もしくはクラスタリング手法を用いて前記分析対象データから線形部分を抽出することを特徴とする。 In the above, the linear part extraction unit is characterized by extracting a linear part from the analysis object data using a decision tree or clustering method.
上記において前記要因分析部は、前記多変量解析手法として、グラフィカルモデリングを適用することを特徴とする。 In the above, the factor analysis unit is characterized by applying graphical modeling as the multivariate analysis method.
上記において前記要因分析部は、前記分析対象データに含まれる複数の要因を複数のグループに分割し、当該複数のグループに属する1または複数の要因ごとに前記グラフィカルモデリングを実施した後に、結果を統合する、ことを特徴とする。 In the above, the factor analysis unit divides a plurality of factors included in the analysis target data into a plurality of groups, performs the graphical modeling for each of the one or more factors belonging to the plurality of groups, and then integrates the results. characterized in that
また上記課題を解決するために、本発明の別の側面は、
要因分析に関する非線形の分析対象データについての入力処理を行ない、
前記分析対象データに対して所定の加工を行ない、
前記入力処理を行った前記分析対象データ、または前記所定の加工がされた前記分析対象データから線形部分のデータを抽出し、
抽出された前記線形部分のデータに対して予測対象に対する要因の関係性を分析し、分析結果を定量的に表示する制御を行ない、
前記要因の関係性を分析することが、抽出された前記線形部分に対して多変量解析手法を適用して得られた分析結果に基づいて変数選択を行なうことを含む、
ことを特徴とする。
In order to solve the above problems, another aspect of the present invention is
Perform input processing for non-linear analysis target data related to factor analysis,
performing predetermined processing on the data to be analyzed;
extracting data of a linear part from the data to be analyzed that has undergone the input process or from the data to be analyzed that has undergone the predetermined processing;
Analyze the relationship of factors with respect to the prediction target for the extracted data of the linear part, and perform control to quantitatively display the analysis results,
Analyzing the relationship of the factors includes performing variable selection based on analysis results obtained by applying a multivariate analysis method to the extracted linear portion.
It is characterized by
また上記課題を解決するために、本発明のさらに別の側面は、
要因分析に関する非線形の分析対象データについての入力処理を行ない、
前記分析対象データに対して所定の加工を行ない、
前記入力処理を行った前記分析対象データ、または前記所定の加工がされた前記分析対象データから線形部分のデータを抽出し、
抽出された前記線形部分のデータに対して予測対象に対する要因の関係性を分析し、分析結果を定量的に表示する制御を行なうことであって、前記要因の関係性を分析することが、抽出された前記線形部分に対して多変量解析手法を適用して得られた分析結果に基づいて変数選択を行なうことを含む、
処理をコンピュータに実行させるためのプログラムを有していることを特徴とする。
In order to solve the above problems, still another aspect of the present invention is
Perform input processing for non-linear analysis target data related to factor analysis,
performing predetermined processing on the data to be analyzed;
extracting data of a linear part from the data to be analyzed that has undergone the input process or from the data to be analyzed that has undergone the predetermined processing;
Analyzing the relationship of factors with respect to the prediction target for the extracted data of the linear portion, and performing control to quantitatively display the analysis results , wherein analyzing the relationship of the factors is the extraction performing variable selection based on analysis results obtained by applying a multivariate analysis technique to the linear part obtained ;
It is characterized by having a program for causing a computer to execute processing.
本発明によれば、要因分析を行なう際の分析精度を向上させることが可能となる。 ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to improve the analysis precision at the time of factor analysis.
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。以下の実施形態では、要因分析システムは、電力需要の予測を行なう際の変動要因を分析するシステムであるものとして説明する。ただし、当該要因分析システムは、電力需要の予測を行なう際の変動要因以外の各種の要因を分析するのに用いてもよい。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the following embodiments, the factor analysis system will be described as a system that analyzes fluctuation factors when forecasting power demand. However, the factor analysis system may be used to analyze various factors other than fluctuation factors when predicting power demand.
電力の最大需要は、休平日や気象条件などの様々な要因に対して変動するため、実施形態の要因分析システムが分析する対象となるデータ(以下、分析対象データ)の性質は非線形となるのが普通である。従って、実施形態における分析対象データは、非線形のデータであるものとして説明する。そのため分析対象データを分析する際には、従来技術の如き線形手法をそのまま適用することはできない。 Since the maximum power demand fluctuates due to various factors such as holidays and weather conditions, the data to be analyzed by the factor analysis system of the embodiment (hereinafter referred to as analysis target data) is non-linear in nature. is normal. Therefore, the analysis target data in the embodiment will be described as non-linear data. Therefore, when analyzing data to be analyzed, it is not possible to apply the linear method as in the prior art as it is.
図1は、本発明の実施形態に係る要因分析システムのハードウェア構成の一例を示す図である。要因分析システム100のハードウェアは、機能ブロックで示され、分析対象に資するデータ(上述した分析対象データ)を入力する入力部10、入力された分析対象データを変数項目に分けて記憶装置30に記憶させるとともに記憶装置30から取出した変数項目のデータを選び出して処理する演算装置20、入力された分析対象データを変数項目に分けて記憶する記憶装置30、および、演算装置20から出力されたデータを保存するとともに出力されたデータを表示する出力データ保存・出力部40を備える。
FIG. 1 is a diagram showing an example of the hardware configuration of a factor analysis system according to an embodiment of the invention. The hardware of the factor analysis system 100 is represented by functional blocks, and includes an
なお出力されたデータを表示する出力データ保存・出力部40としては、ディスプレイ等が適用されてもよい。また、ディスプレイ等に表示されたデータは、例えば、GUI(Graphical User-Interface)に基づいて、修正可能であってもよい。
A display or the like may be applied as the output data storage/
次に、図1に示された要因分析システムについてさらに詳細に説明する。入力部10は、エネルギー事業者が管轄する需要情報,気象庁等が提供する気象情報,暦情報,エネルギー事業者が計画したイベント情報等の分析対象となり得るデータ(分析対象データ)を演算装置20に入力する。入力部10は、キーボード等であってもよい。また、入力部10は、不図示のLAN(Local Area Network),計測用センサなどの機器から取得した分析対象データを演算装置20に入力してもよい。分析対象データを入力した演算装置20は、当該分析対象データに基づいて、変数項目(例.需要情報,気象情報,暦情報,イベント情報等)に分けて記憶装置30に記憶させる。
Next, the factor analysis system shown in FIG. 1 will be described in more detail. The
そして記憶させたデータを演算装置20が記憶装置30から取出し、分析対象データとしての目的変数データ、説明変数データを設定するとともに、要因分析を実施する。
Then, the
分析対象データには、需要予測の入力データとして用いるかどうか、分析対象の過去の実績値または予報値のデータ、カテゴリーの違いを表す名義尺度である質的変数(例えば曜日情報)、ダミー変数として離散値(0,1)等を用いることができる。 The data to be analyzed includes whether or not it will be used as input data for demand forecasts, data on past actual values or forecast values to be analyzed, qualitative variables (e.g., day of the week information) that are nominal scales representing differences in categories, and dummy variables. Discrete values (0,1) etc. can be used.
ところで、分析対象データには、需要(目的変数データ)と要因(説明変数データ)とが含まれている。該要因は、需要に関する要因である。例えば、分析対象データは、図2に示されるデータ構造として、記憶装置30に記憶される。記憶装置30は、データベースであってもよい。
By the way, data to be analyzed includes demand (objective variable data) and factors (explanatory variable data). The factor is a demand related factor. For example, the analysis target data is stored in the
図2の例の分析対象データは、データ取得期間として、2015年7月1日~2016年3月31日、目的変数データとして、当日最大電力需要(Y1)、説明変数データとして、前日最大電力需要(X1),当日平均気温(X2),当日13時日射量(X3),当日イベント(X4)等を含む。分析対象データは、図2の例には限定されない。 The data to be analyzed in the example in Fig. 2 is from July 1, 2015 to March 31, 2016 as the data acquisition period, the maximum power demand of the day (Y1) as the objective variable data, and the previous day's maximum power demand as the explanatory variable data. Includes demand (X1), average temperature of the day (X2), solar radiation at 13:00 on the day (X3), events on the day (X4), etc. Data to be analyzed is not limited to the example in FIG.
例えば、図2の例では、説明変数データの数(要因の数)は、3つ以下であってもよいし、5つ以上であってもよい。図2の例では、説明変数データは、さらに他の要因(Xn:nは5以上の整数)を含む。 For example, in the example of FIG. 2, the number of explanatory variable data (the number of factors) may be three or less, or may be five or more. In the example of FIG. 2, explanatory variable data further includes other factors (Xn: n is an integer of 5 or more).
このように本発明の実施形態に係る演算装置20は、記憶装置30に記憶された分析対象データから指定時刻のデータを抽出するだけでなく、最大電力需要や平均気温のような統計値を算出する処理を行い、要因分析を行なう場合もある。
As described above, the
図1に示した演算装置20は、入力・選択処理部21,データ前処理部22,線形部分抽出部23,要因分析部24を含む。演算装置20の各部の機能は、例えば、コンピュータが、所定の制御プログラムを実行することにより、実現されてもよい。
The
記憶装置30は、入力部10を介して入力された分析対象データをデータベース化して保存する。記憶装置30は、上記した以外のデータや途中の計算結果を蓄積するようにしても良い。
The
出力データ保存・出力部40は、要因分析部24で分析した定量的な分析結果を保存する機能およびディスプレイ等に出力してユーザに表示する機能を備えている。
The output data storage/
出力データ保存・出力部40に保存されたデータは、ユーザの設定により分析対象期間だけ変更して定期的に分析を実施し、過去の分析結果と比較し差異がある場合にレポートとしてユーザに視覚的に表示するようにしても良い。
The data stored in the output data storage/
図9は、本発明の実施形態に係る要因分析システムの要因分析部24による分析結果に基づくレポートの一例を示す図である。図9の例において、2015年7月~8月の分析結果と2015年9月~10月の分析結果とが棒グラフとして示されている。
FIG. 9 is a diagram showing an example of a report based on analysis results by the
図9のレポートにおいて、縦軸は、定量的指標を示し、横軸は、説明変数データを示す。図9の例では、2015年7月~8月の分析結果に対して2015年9月~10月の分析結果では重要な変数(例えば、当日平均気温(X2),当日13時日射量(X3),当日イベント(X4),・・・)が変化していることを示す。当該分析結果は、ユーザに対して、要因分析に用いる入力データの変更の必要性を判断する際の材料を提示することができる。 In the report of FIG. 9, the vertical axis indicates the quantitative index, and the horizontal axis indicates explanatory variable data. In the example of Figure 9, the analysis results for September and October 2015 are important variables (for example, the average temperature of the day (X2), the amount of solar radiation at 13:00 (X3 ), that day's event (X4), . . . ) has changed. The analysis result can present the user with materials for determining the necessity of changing the input data used for the factor analysis.
上述したように演算装置20は、一般的なコンピュータのハードウェアで構成されており、記憶装置30から取出したデータに対して演算装置20の処理の流れ(図1中の矢印線参照)に沿って一連の演算処理が実行され、最終段の演算処理より出力されるデータを出力データ保存・出力部40に保存・表示する。
As described above, the
図3は、一般的なコンピュータのハードウェア構成の一例を示す図である。コンピュータ300は、CPU(Central Processing Unit)302、メモリ304、入力装置306、出力装置308、外部記憶装置312、媒体駆動装置314、ネットワーク接続装置318等がバス310を介して接続されている。なお、本実施形態の演算装置20に対してコンピュータ300の構成が適用される。
FIG. 3 is a diagram showing an example of the hardware configuration of a general computer. A
CPU302は、コンピュータ300全体の動作を制御する演算処理装置である。メモリ304は、コンピュータ300の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ304は、例えばRAM(Random Access Memory)、ROM(Read Only Memory)等である。
The
入力装置306は、ユーザにより操作されると、その操作内容に対応付けられているユーザからの各種情報の入力を取得し、取得した入力情報をCPU302に送付する装置であり、例えばキーボード装置、マウス装置等である。
The
出力装置308は、コンピュータ300による処理結果を出力する装置であり、表示装置等が含まれる。例えば表示装置は、CPU302により送付される表示データに応じてテキストや画像を表示する。
The
外部記憶装置312は、例えば、ハードディスクなどの記憶装置であり、CPU302により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。
The
媒体駆動装置314は、可搬記録媒体316に書込みおよび読出しを行なうための装置である。CPU302は、可搬記録媒体316に記録されている所定の制御プログラムを、媒体駆動装置314を介して読出して実行することによって、各種の制御処理を行なうことができる。
A
可搬記録媒体316には、例えばCD(Compact Disc)-ROM、DVD(Digital Versatile Disc)、USB(Universal Serial Bus)メモリ等が含まれている。
The
ネットワーク接続装置318は、有線または無線により外部との間で行われる各種データの授受の管理を行なうインタフェース装置である。なお、本実施形態の入力部10は、上記ネットワーク接続装置318と通信を行ってもよい。バス310は、上記各装置等を互いに接続し、データのやり取りを行なう通信経路である。
The
図1に戻り演算装置20についてさらに説明する。入力・選択処理部21は、入力部10から取得した分析対象データを、演算装置20を介して記憶装置30に記憶することも、分析対象データを記憶装置30に記憶することなくデータ前処理部22に引き渡すこともできる。
Returning to FIG. 1, the
入力・選択処理部21は、記憶装置30から取出した分析対象データから、目的変数データまたは説明変数データを選んだうえで、後述するデータ前処理部22に引き渡す。入力・選択処理部21は、入力処理部として機能する。
The input/
データ前処理部22は、入力・選択処理部21を介して記憶装置30に記憶された分析対象データを演算装置20の表示装置(例えば、出力装置308)に表示し、需要(目的変数データ)と要因(説明変数データ)の関係を可視化し、異常データの除去や欠損データの補間の演算処理を行なう。
The
図4は、本発明の実施形態に係るデータの可視化処理及びデータの除去・補間の処理の具体例を示す図である。 FIG. 4 is a diagram showing a specific example of data visualization processing and data removal/interpolation processing according to the embodiment of the present invention.
上記したようにデータ前処理部22が実行するデータの可視化処理では、予測対象と要因の関係を演算装置20の表示装置に散布図や時系列図等で表示し、ユーザ(運用者)によるGUI操作に基づいて、演算装置20に対しアクセス可能としている。
As described above, in the data visualization process executed by the
データ前処理部22は、上記データの可視化の処理で散布図や時系列図等で表示されたデータに対して、異常値の除去やデータ欠損の補間等を行なうGUI操作を認識した場合、異常値の除去やデータ欠損の補間等の処理を行なう。データ前処理部22は、当該処理を、自動的に行なってもよい。
When the
具体的に説明すれば、図4の散布図の例では、当日最大電力需要(Y1)を縦軸に、前日最大電力需要(X1)を横軸にして画面上にデータを表示し、散布図上で大きくずれたデータを“異常値”と把握でき、また本来データが存在するにもかかわらずデータが飛んでいる(データの欠損)と把握できる。従って、データ前処理部22は、異常値の除去やデータ欠損の補間等を行なうGUI操作を認識した場合、認識した操作に応じた処理(異常値の除去やデータ欠損の補間等の処理)を行なう。
Specifically, in the example of the scatter diagram in Fig. 4, the maximum power demand of the day (Y1) is plotted on the vertical axis, and the maximum power demand of the previous day (X1) is displayed on the screen on the horizontal axis. Data that greatly deviate from the above can be recognized as "abnormal values", and data are skipped (missing data) even though the data originally exists. Therefore, when the
また図4の時系列図の例では、当日最大電力需要(Y1)を縦軸に、時系列である日時を横軸にして、画面上に時系列のデータを表示し、時系列上で大きくずれたデータが表示された場合には“異常値”と把握でき、また本来データが存在するにもかかわらずデータが不連続(データの欠損)と把握できる。この場合、上述したGUI操作に基づいて、または自動的に、データ前処理部22は、異常値の除去やデータの補間等を行なう。
In the example of the time-series diagram in Fig. 4, the maximum power demand (Y1) of the day is displayed on the vertical axis, and the time-series date and time are displayed on the horizontal axis. If deviated data is displayed, it can be recognized as an "abnormal value", and it can be recognized that the data is discontinuous (missing data) even though the data originally exists. In this case, the
図5は、本発明の実施形態に係るデータ前処理部におけるデータ加工の一例を示す図である。図2と図5を比較すると、図2はデータ前処理部22によるデータ加工がまだ施されていないため、異常値やデータ欠損がテーブル中のレコードに含まれているのに対して、図5はデータ前処理部22によるデータ加工が施された後であるため、テーブル中の異常値やデータ欠損は修復されている(図5の脚注(1)~(3)参照)。
FIG. 5 is a diagram showing an example of data processing in the data preprocessing unit according to the embodiment of the present invention. Comparing FIG. 2 and FIG. 5, since data processing by the
なお、異常を示すデータの除去又はデータの補間処理は、例えば、上下限フィルタやデータ検定,スプライン補間等の統計処理に基づいてデータ前処理部22が処理することで、異常を示すデータ部分であると判定されたデータの除去並びにデータの補間を自動的に行なうこともできる。この場合、上記処理は、自動的に行なわれるため、ユーザによるGUI操作は要しない。
The removal of data indicating anomalies or the interpolation processing of data is performed by the
図1に戻って演算装置20内の線形部分抽出部23について説明する。線形部分抽出部23は、データ前処理部22で加工した分析対象データから線形部分を抽出する。本実施形態において、線形部分抽出部23は、決定木またはクラスタリング等の手法を適用して、非線形データである分析対象データから線形部分を抽出する。図6は、本発明の実施形態に係る線形部分抽出部における決定木の一例を示す図である。
Returning to FIG. 1, the
図6において決定木による抽出処理が開始されると、分岐ノードを示す菱形の右肩部に示された非線形の元データが、分岐ノードにおけるif-thenルールにより線形部分を抽出することができる。線形部分が抽出された場合には、図6に示すように、線形部分1、線形部分2のような長方形のターミナルノードが形成されて出力される。
When the extraction process by the decision tree is started in FIG. 6, the linear part can be extracted from the non-linear original data shown on the right shoulder of the rhombus indicating the branch node by the if-then rule at the branch node. When a linear portion is extracted, rectangular terminal nodes such as
これにより、長方形のターミナルノード、すなわち、線形部分1、線形部分2に示されるように、線形部分を示すデータを自動的に抽出することができる。
As a result, it is possible to automatically extract the data representing the linear portions as indicated by rectangular terminal nodes, that is,
なお本実施例では図6の右肩部に示される非線形の元データから、線形部分1、線形部分2に示す線形データが抽出される例を示しているが、非線形の元データが図6の右肩部に示されるものと異なる場合であっても、抽出される分岐ノードに対してif-thenルールを適用することで線形部分を抽出できる。
In this embodiment, the linear data shown in the
次に、本発明の実施形態に係るクラスタリング手法による線形部分抽出の一例を図7に示す。図7に示されるように、非線形の元データを任意のクラスタ数に分割する(本実施例ではクラスタ1,2の二つのクラスタに分割される)ことで、線形部分のデータを自動的に抽出することができる。
Next, FIG. 7 shows an example of linear partial extraction by the clustering method according to the embodiment of the present invention. As shown in FIG. 7, by dividing the original non-linear data into an arbitrary number of clusters (in this embodiment, it is divided into two
クラスタ数は、画面表示されている非線形データについてユーザがGUIによって設定してもよいし、AIC(Akaike’s Information Criterion:赤池情報量基準)等の情報基準量を用いて自動的に決めても良い。また線形部分を精度よく抽出するために距離関数に“マハラノビス距離”を用いて決めるようにしてもよい。 The number of clusters may be set by the user using a GUI for the nonlinear data displayed on the screen, or may be automatically determined using an information criterion such as AIC (Akaike's Information Criterion). Also, in order to extract the linear portion with high accuracy, the distance function may be determined using the "Mahalanobis distance".
線形部分抽出部23は、入力・選択処理部21から、分析対象データを取得してもよい。この場合、当該分析対象データは、データ前処理部22による加工(異常を示すデータの除去又はデータの補間処理等)が行なわれていない。
The linear
従って、線形部分抽出部23は、上記の加工が行なわれた分析対象データから線形部分を抽出することが好ましい。ただし、線形部分抽出部23は、上記の加工が行なわれていない分析対象データから線形部分を抽出することもできる。
Therefore, it is preferable that the linear
再び図1に戻って演算装置20内の要因分析部24について説明する。要因分析部24では、線形部分抽出部23で抽出した線形部分毎に、多変量解析手法を用いて要因選択を考慮した要因分析を定量的に行い、その結果をデータ保存・出力部40に表示する。なお多変量解析手法のいずれかの手法を用いるかはユーザが自由に設定できる。
Returning to FIG. 1 again, the
図8は、本発明の実施形態に係る要因分析システムの要因分析部24に基づく定量的指標が示された分析結果例を示す図である。
FIG. 8 is a diagram showing an analysis result example showing quantitative indicators based on the
図8に示す例では、説明変数データとして、前日最大電力需要(X1),当日平均気温(X2),当日13時日射量(X3),当日イベント(X4)・・・について、7月-8月,9月-10月のそれぞれ2月分について定量的指標を算出して分析結果を出力したものである。図9は、図8の例の分析結果を、棒グラフで示したレポートである。当該レポートは、上述したように、画面表示などにより、ユーザに提示される。 In the example shown in Fig. 8, the explanatory variable data for July-8 Quantitative indices were calculated for each month, September to October, and the analysis results were output. FIG. 9 is a report showing the analysis results of the example of FIG. 8 in bar graph form. The report is presented to the user through screen display or the like, as described above.
演算装置20は、説明変数データに対する分析結果を定量的指標に基づいてユーザに示すだけでなく、当該分析結果の情報から棒グラフや折れ線グラフ等を用いて表示してもよい。棒グラフや折れ線グラフ等が表示されることにより、分析結果をユーザにわかりやすく提示することができる。
The
また、線形部分抽出部23で複数の線形部分が抽出された場合、それぞれの結果の分析結果を平均や重み付き平均等の統計処理によって1つの結果として表示してもよい。要因分析の詳細な手法については後で触れることにする。
Further, when a plurality of linear parts are extracted by the linear
図10は、本発明の実施形態に係る要因分析システムの要因分析部24の動作を説明するフロー図である。要因分析部24は、(1)分析対象データの分割、(2)要因選択を考慮した分析手法の適用、および、(3)分析結果の統合の各プロセスを含む。以下、図10に沿って各プロセスについて順に説明する。
FIG. 10 is a flowchart for explaining the operation of the
[1]分析対象データの分割(ステップS11)
分析対象となる要因を削減するため、分析対象データ(図12A参照)の要因を任意の数で分割する。元の分析対象データの説明変数データ(要因)の数をTとしたとき、任意の分割数Bで分析対象データを分割する。このとき、分割される分析対象データの目的変数は常に同じとする。
[1] Division of data to be analyzed (step S11)
In order to reduce the factors to be analyzed, the factors of the data to be analyzed (see FIG. 12A) are divided by an arbitrary number. Assuming that the number of explanatory variable data (factors) of the original data to be analyzed is T, the data to be analyzed is divided by an arbitrary number B of divisions. At this time, the objective variable of the divided analysis object data is always the same.
図11は、本発明の実施形態に係る要因分析システムにおける要因分析部の分析対象データの分割プロセスの様子を示すイメージ図である。図11の左端に示す元の分析対象データにおいては、目的変数はY1のみで、説明変数(要因)はX1・・・XTまで有るものとする。 FIG. 11 is an image diagram showing the process of dividing the analysis target data of the factor analysis unit in the factor analysis system according to the embodiment of the present invention. In the original data to be analyzed shown on the left side of FIG. 11, the objective variable is Y1 only, and the explanatory variables (factors) are X1 . . . XT.
中央部に示す分割データ1では、目的変数Y1は同じで、説明変数(要因)はX1・・・XBに分割され、また右端に示す分割データ2では、目的変数Y1は同じで、説明変数(要因)はXB+1・・・X2B、・・・に分割される。なおデータ取得期間Nは分割プロセス中の全てのデータで同じである。
In the divided
図12Aは、図11に示した分析対象データの分割前のデータの具体例を示す図である。すなわち、図12Aには、データ取得期間として、2015年7月~2015年10月末、目的変数データとして、当日最大電力需要(Y1)、説明変数データとして、前日最大電力需要(X1),当日平均気温(X2),当日13時日射量(X3),当日イベント(X4)について、数値が具体的に埋め込まれた分割前の分析対象データの例が示されている。 12A is a diagram showing a specific example of data before division of the analysis target data shown in FIG. 11. FIG. That is, in FIG. 12A, the data acquisition period is from July 2015 to the end of October 2015, the maximum power demand of the day (Y1) is the objective variable data, the maximum power demand of the previous day (X1) is the explanatory variable data, and the average An example of analysis target data before division in which numerical values are specifically embedded is shown for the temperature (X2), the amount of solar radiation at 13:00 on the day (X3), and the event on the day (X4).
以下の説明において、要因分析部24は、上述したTおよびBが「T/B=2」となるように、図12Aで示される分析対象データを分割する例について説明する。従って、分割後のグループ(分割データ)に属する説明変数データの数(要因数)は、2つとなる。分割後のグループに属する説明変数データの数は、1つであってもよい。
In the following description, an example will be described in which the
図12Bは、図11に示した分析対象データの分割後の分割データ1の具体例を示す図である。図12Bの例に示される分割後の分割データ1は、2つの説明変数データ(前日最大電力需要(X1)および当日平均気温(X2))を含む。
FIG. 12B is a diagram showing a specific example of
図12Cは、図11に示した分析対象データの分割後の分割データ2の具体例を示す図である。図12Cの例に示される分割後の分割データ2は、2つの説明変数データ(当日13時日射量(X3))および当日イベント(X4))を含む。
FIG. 12C is a diagram showing a specific example of divided
[2]要因選択を考慮した分析手法の適用(ステップS13)
図10に戻って要因選択を考慮した分析手法の適用(ステップS13)では、ステップS11で分割したデータ毎に要因選択を考慮した分析手法を、設定した分割回数に成るまで適用し、要因分析を行なう。
[2] Application of analysis method considering factor selection (step S13)
Returning to FIG. 10, in the application of the analysis method considering factor selection (step S13), the analysis method considering factor selection is applied to each data divided in step S11 until the set number of divisions is reached, and factor analysis is performed. do
[3]分析結果の統合(ステップS14)
図10に示す分析結果の統合(ステップS14)では、要因選択を考慮した分析手法を適用したステップS13で算出した複数の分析結果を1つに統合する。
[3] Integration of analysis results (step S14)
In integration of analysis results (step S14) shown in FIG. 10, a plurality of analysis results calculated in step S13 using the analysis method considering factor selection are integrated into one.
図13は、本発明の実施形態に係る要因分析システムにおける要因分析部の分析結果の統合の様子を示すイメージ図である。図13に示されるように、図12Bで分割された分割データ1の出力結果と、図12Cで分割された分割データ2の出力結果とが統合されて、図11の左端に示された分割前の分析対象データにおける説明変数データの構造と殆ど同じ形式であっても定量的指標が新たに付された分析結果を得ることができる。
FIG. 13 is an image diagram showing how the analysis results of the factor analysis unit in the factor analysis system according to the embodiment of the present invention are integrated. As shown in FIG. 13, the output result of the divided
図14Aは、図12Bに示された統合前の分割データ1に対応する分析結果の具体例を示す図であり、図13の左端に示されたイメージを具現化したものである。
FIG. 14A is a diagram showing a specific example of the analysis result corresponding to the divided
図14Bは、図12Cに示された統合前の分割データ2に対応する分析結果の具体例を示す図であり、図13の中央に示されたイメージを具現化したものである。
FIG. 14B is a diagram showing a specific example of the analysis result corresponding to the divided
図14Cは、図14Aに示す分割データ1の分析結果及び図14Bに示す分割データ2の分析結果を統合して得た分析結果の具体例を示す図であり、図13の右端に示されたイメージを具現化したものである。
FIG. 14C is a diagram showing a specific example of the analysis result obtained by integrating the analysis result of the divided
上述したように、要因分析部24は、多変量解析を用いて、要因分析を行なう。多変量解析手法の1つに、グラフィカルモデリングがある。要因分析部24が、グラフィカルモデリングを適用して、要因分析を行なう場合、分析対象の要因数(説明変数データの数)が多くなると、計算量が膨大になる。例えば、グラフィカルモデリングの場合、要因数が1つ増えるに応じて、計算量が二乗になる。
As described above, the
そこで、要因分析部24は、上述したように、分析対象データの説明変数データを分割することで、要因分析を行なう際の計算量が減少する。従って、説明変数データの数が多くなったとしても、適正な計算量で、要因分析を行なうことができる。
Therefore, the
上述したように、例えば、線形部分抽出部23が、非線形の分析対象データから、線形部分を抽出し、要因分析部24は、抽出された線形部分に対して、グラフィカルモデリング等を適用して、要因分析を行なう。従って、分析精度が向上する。
As described above, for example, the linear
またグラフィカルモデリングは、条件付き独立を仮定することで、ある要因間の偏相関係数を0(無相関)とし、他の偏相関係数を推定するため、出力結果として、偏相関係数が0(無相関)の要因は需要予測の入力データとして除外することで要因の数を減少させて要因を絞り込むことができる。 In addition, graphical modeling assumes that the partial correlation coefficient between certain factors is 0 (uncorrelated) and estimates the other partial correlation coefficients by assuming conditional independence. By excluding 0 (uncorrelated) factors as input data for demand forecast, the number of factors can be reduced and the factors can be narrowed down.
本発明の実施形態に係る要因分析部24が、線形部分抽出部23で抽出した線形データ毎に、多変量解析手法を用いて要因選択を考慮した要因分析を定量的に行なうことについては既述したとおりなので、ここでは要因分析部24における要因選択を考慮した多変量解析手法の例について説明する。
It has already been described that the
以下、多変量解析手法の一つの手法として、上述したグラフィカルモデリングについて説明する。多変量解析手法には、例えば、主成分分析や重回帰分析等の手法が適用されてもよい。 The above-described graphical modeling will be described below as one method of multivariate analysis. Methods such as principal component analysis and multiple regression analysis may be applied to the multivariate analysis method, for example.
グラフィカルモデリングは、変数間の擬似相関を除去した偏相関係数をグラフで表現する手法として、音声認識、画像処理、マーケティングリサーチ等の分野で使用されている。 Graphical modeling is used in fields such as speech recognition, image processing, and marketing research as a method of graphically expressing partial correlation coefficients from which pseudo-correlation is removed between variables.
図15は、本発明の実施形態に係る要因分析システムにおけるグラフィカルモデリングのアルゴリズムを説明するフローチャートである。 FIG. 15 is a flow chart explaining a graphical modeling algorithm in the factor analysis system according to the embodiment of the present invention.
図15では、グラフィカルモデリングのアルゴリズムを、Step21~Step23に分けて説明している。すなわち、
Step21:偏相関係数行列の算出
目的変数データと説明変数データを1つの学習データの行列として、その行列の相関係数行列Rから偏相関係数行列Pを算出する。偏相関係数とは、2変数間の相関に対して、他に関連している変数の影響を除去した相関係数のことである。一般化した偏相関係数の算出式を次式(1)に示す。
In FIG. 15, the graphical modeling algorithm is divided into
Step 21: Calculation of Partial Correlation Coefficient Matrix The objective variable data and explanatory variable data are treated as one matrix of learning data, and the partial correlation coefficient matrix P is calculated from the correlation coefficient matrix R of that matrix. A partial correlation coefficient is a correlation coefficient obtained by removing the influence of other related variables from the correlation between two variables. A formula for calculating a generalized partial correlation coefficient is shown in the following formula (1).
Step22:共分散選択による偏相関係数行列の推定
偏相関係数行列の中で絶対値が最小のものを条件付独立(i,j)とし、次式(2)により相関係数行列を更新する。相関係数行列をSとし、Dempsterの定理から分割逆行列の公式を用いることで条件付独立での相関係数行列Mを推定する。
Step 22: Estimation of partial correlation coefficient matrix by covariance selection The one with the smallest absolute value in the partial correlation coefficient matrix is assumed to be conditionally independent (i,j), and the correlation coefficient matrix is updated by the following equation (2). do. Let S be the correlation coefficient matrix, and estimate the conditionally independent correlation coefficient matrix M by using the formula of the partitioned inverse matrix from Dempster's theorem.
推定した相関係数行列Mから偏相関係数行列を算出する。複数の条件付独立が存在するとき、先に条件付独立とした係数はほとんどの場合0ではなくなるため、選択した条件付独立すべてが0に収束するまでこの仮定を逐次的に繰り返す。これを繰り返すことで0とみなせる収束判断基準を設定することができる。 A partial correlation coefficient matrix is calculated from the estimated correlation coefficient matrix M. When there are multiple conditions of independence, the coefficients that were previously conditionally independent are almost always non-zero, so we repeat this assumption iteratively until all of the chosen conditions of independence converge to zero. By repeating this, it is possible to set a convergence criterion that can be regarded as 0.
Step23:モデルの評価
共分散選択の打ち切り基準を赤池情報基準量(AIC)によるモデル評価により判断するため、モデルの適合度をAICが最小となるときを共分散選択打ち切り条件とし、そうでなければStep21に戻る。
Step 23: Model Evaluation Since the criterion for covariance selection is determined by model evaluation using the Akaike Information Criterion (AIC), the covariance selection criterion is set when the AIC is the minimum for the goodness of fit of the model. Return to Step21.
次に、多変量解析手法の別法としての決定木について説明する。図16は、本発明の実施形態に係る要因分析システムにおける決定木のアルゴリズムを説明するフローチャートである。 Next, a decision tree as another method of multivariate analysis will be described. FIG. 16 is a flow chart explaining the decision tree algorithm in the factor analysis system according to the embodiment of the present invention.
決定木は、大量のデータの中に隠れている有用な情報、知識やルールを抽出する方法論であるデータマイニング手法の一つであり、入出力関係をif-thenルールによる木構造で表現するものである。if-thenルールは、一般には前提又は条件を表すif部と、if部が真である場合に実行される結論又は動作を表すthen部とから構成される規則ruleと定義される。 A decision tree is a data mining method that is a methodology for extracting useful information, knowledge, and rules hidden in a large amount of data, and expresses input/output relationships in a tree structure based on if-then rules. is. An if-then rule is generally defined as a rule consisting of an if part representing a premise or condition and a then part representing a conclusion or action to be taken if the if part is true.
図16に示される決定木のアルゴリズムは、Step31~Step34に分けて説明される。すなわち、
Step31:木の生長
木の生長は、親ノード内のデータを2つの子ノードに分割することで、木を生長させる。まず、要因である変数に対して、対象データとなる親ノードのデータに対して生じる誤差が最も減少する分岐条件を選択し、木を構築する。すべての入力変数の改善度を次式(4)により算出し、その中で最も大きい値のものを最良分岐条件とする。そのときの入力変数を分岐入力変数とし、その分割した左右の平均を分岐値とする。この作業を繰り返し行なうことで決定木をこれ以上分割できない最大木まで生長させる。
The decision tree algorithm shown in FIG. 16 is divided into
Step 31: Tree Growing Tree growing grows the tree by splitting the data in the parent node into two child nodes. First, a tree is constructed by selecting a branching condition that minimizes the error that occurs with respect to the data of the parent node that is the target data for the variable that is the factor. The degree of improvement of all input variables is calculated by the following equation (4), and the largest value among them is taken as the best branching condition. The input variable at that time is used as a branch input variable, and the divided right and left averages are used as branch values. By repeating this operation, the decision tree is grown to the maximum tree that cannot be subdivided any more.
Step32:木の剪定
木構造を簡略化するため、一旦最大木まで生長した木に対して枝の剪定を行なう。各分岐ノードにおいて、そのノードよりも下層にある部分木のノード数あたりの誤差を求める。次に、得られた値において、最も小さな値となる分岐ノードをターミナルノードに置き換える。最後に、全ての分岐ノードがターミナルノードになるまで繰り返す。以下の手順により最大木を一旦最小木まで剪定を行なう。次式(5)に分岐ノードの誤差を複雑度パラメータとして定義する。
Step32: Tree pruning In order to simplify the tree structure, pruning the branches of the tree once it has grown to the maximum size. At each branch node, find the error per number of nodes in the subtree below that node. Next, among the obtained values, the branch node with the smallest value is replaced with the terminal node. Finally, repeat until all branch nodes become terminal nodes. The maximum tree is once pruned to the minimum tree by the following procedure. The branch node error is defined as a complexity parameter in the following equation (5).
Step33:最良木の選択
木の剪定を行なう過程において、CART(Classification And Regression Trees)では、決定木の誤差推定法として交差検証法を用いる。交差検証法は、モデル構築の際に、学習データが十分でない場合もしくは、学習の偏りを小さくするための学習法である。最初に、学習データをν個のグループに分割し、その中の(ν―1)個のグループをモデル構築の学習データとして用い、残りの1グループを誤差推定用のテストデータとして用いる。次式(6)に交差検証法とテストデータの誤差の式を示す。
Step 33: Selection of Best Tree In the process of pruning trees, CART (Classification And Regression Trees) uses cross-validation as a decision tree error estimation method. The cross-validation method is a learning method for reducing learning bias or when learning data is insufficient during model building. First, the learning data is divided into ν groups, (ν−1) groups among them are used as learning data for model construction, and the remaining one group is used as test data for error estimation. The following equation (6) shows the error between the cross-validation method and the test data.
上記式(6)により、剪定毎に交差検証法を用いることで、剪定後の誤差を求める。CARTでは、交差検証誤差に最良木選択ルールを用いることで最良木を選択する。次式(7)にCARTで用いるSEルールを示す。SEルールによって得られた最良候補木の中で最もノードが少ない決定木を最良木とする。 The post-pruning error is obtained by using the cross-validation method for each pruning according to the above equation (6). CART selects the best tree by using the best tree selection rule on the cross-validation error. The SE rule used in CART is shown in the following equation (7). A decision tree with the smallest number of nodes among the best candidate trees obtained by the SE rule is taken as the best tree.
Step34:変数重要度の算出
変数重要度は、決定木構築の際の入力変数の度合いを明確にした指標である。最良木での分岐ノードに使用した変数の改善度を用いる。変数重要度は、これを変数毎に合計した値であり、次式(8)に示す。変数重要度は、予測対象に最も重要である変数を100とし、他の変数の重要度を量的に表すことができる。
Step 34: Calculation of variable importance The variable importance is an index that clarifies the degree of input variables when constructing a decision tree. Use the improvement of the variable used for the branch node in the best tree. The variable importance is a value obtained by summing this for each variable, and is shown in the following equation (8). The variable importance can quantitatively express the importance of the other variables, with the variable that is the most important for the prediction target set to 100.
本発明は、以上の実施の形態に限定されるものでなく、本発明の要旨を逸脱しない範囲内で種々の改良、変更が可能である。例えば、上述の実施形態を以下のように改良、変更してもよい。 The present invention is not limited to the above embodiments, and various improvements and modifications are possible without departing from the gist of the present invention. For example, the above-described embodiments may be improved and changed as follows.
上述の実施形態では、入力部10又は記憶装置30を介して演算装置20が取得した分析対象データは、非線形データであり、離散値である説明変数データ(要因データ)を含み得る。離散値である要因データとは、当該要因のデータ数と比較して、当該要因の項目数或いは当該要因のデータ値のばらつきが少ないデータを指す。例えば、平日を0、休日を1で表す暦データでは、項目数は2であり、データ数と比較して項目数が少なくなり得るため、暦データは、離散値である要因データに該当し得る。一方、例えば、気温データでは、項目に相当する各データ値が異なり得、データ数に比例して項目数も多くなり得るため、気温データは、離散値である要因データに該当しない可能性がある。線形部分抽出部23は、決定木やクラスタリング等の非線形的手法を用いて、上述したような特徴を含み得る分析対象データから線形部分を抽出する。そして、要因分析部24は、グラフィカルモデリングや相関分析等の線形的手法を用いて、抽出した線形部分に対して要因分析を行う。
In the above-described embodiment, the analysis target data acquired by the
ある要因と、データが離散値であり得る他の要因とは相互に関連性を有し得る。そこで、線形部分抽出部23は、線形部分を適切に抽出するために、離散値である要因データを含む分析対象データから線形部分を抽出することが望ましい。一方、要因分析部24が要因分析に用いる線形的手法において分析対象データに離散値が含まれると正確な分析結果が得られない可能性がある。そこで、別の実施形態では、要因分析部24は、分析対象データである線形部分から離散値の要因データを除去した後に、要因分析を行ってもよい。
Certain factors may be correlated with other factors whose data may be discrete values. Therefore, in order to appropriately extract the linear part, the linear
具体的には、図17に示すように、要因分析部24は、分析対象データを分割する処理(Step S11)に先立ち、分析対象データである線形部分から離散値の要因データを除去する(Step S11´)。図17は、本発明の別の実施形態に係る要因分析システムの要因分析部の動作を説明するフロー図である。
Specifically, as shown in FIG. 17, the
Step S11´において、要因分析部24は、線形部分である分析対象データの各説明変数(要因)に対して離散値比率を算出する。そして、要因分析部24は、算出した離散値比率を予め設定した閾値と比較することで、離散値である要因データを分析対象データから除去する。
In Step S11', the
例えば、要因分析部24は、次の式(9)に示すように、当該要因の項目数を当該要因のデータ数で除算することによって離散値比率を算出する。或いは、要因分析部24は、次の式(10)に示すように、当該要因のデータ数から当該要因の項目数を減算した値を当該要因のデータ数で除算することによって離散値比率を算出する。
For example, the
離散値比率の算出に式(9)を用いた場合、要因分析部24は、算出した離散値比率が閾値を下回る要因データを分析対象データから除去する。また、離散値比率の算出に式(10)を用いた場合、要因分析部24は、算出した離散値比率が閾値を上回る要因データを分析対象データから除去する。例えば、図18に示すように、要因分析部24は、2値の離散値である要因X2のデータと、3値の離散値である要因X4のデータとを分析対象データから除去する。図18は、本発明の別の実施形態に係る要因分析システムにおける要因分析部の分析対象データからの離散値要因除去の様子を示すイメージ図である。
When Equation (9) is used to calculate the discrete value ratio, the
Step S12以降の処理は前述した処理と同様である。要因分析部24は、離散値である要因を含まない分析結果を出力データ保存・出力部40へ出力し、出力データ保存・出力部40は、分析結果を保存すると共に、ディスプレイ等に分析結果を出力してユーザに表示する。
The processing after Step S12 is the same as the processing described above. The
このように、別の実施形態では、要因分析部24は、グラフィカルモデリングや相関分析等の線形的手法を用いて線形部分である分析対象データに対して要因分析を行う前に、該分析対象データから離散値の要因データを除去するため、要因分析をより正確に行うことができる。
As described above, in another embodiment, the
また、要因分析部24は、離散値である要因を含まない分析結果と共に、線形部分抽出部23が分析対象データの線形部分を抽出する際に離散値である要因に対して取得した分析結果を出力データ保存・出力部40へ出力してもよい。線形部分抽出部23が取得した分析結果の一例としては、離散値ではない要因に対する決定木の構築に離散値である要因が与えた影響度が挙げられる。出力データ保存・出力部40は、要因分析部24から入力した分析結果を保存すると共に、該分析結果をディスプレイ等に出力してユーザに表示してもよい。こうした構成によれば、離散値である要因が需要(目的変数データ)に与える影響もユーザは認識できる。
Further, the
10 入力部
20 演算装置
21 入力・選択処理部
22 データ前処理部
23 線形部分抽出部
24 要因分析部
30 記憶装置
40 出力データ保存・出力部
100 要因分析システム
REFERENCE SIGNS
Claims (11)
前記分析対象データに対して所定の加工を行なうデータ前処理部と、
前記入力処理部が入力処理を行った前記分析対象データ、または前記データ前処理部が加工した前記分析対象データから線形部分のデータを抽出する線形部分抽出部と、
前記線形部分抽出部が抽出した前記線形部分のデータに対して予測対象に対する要因の関係性を分析し、分析結果を定量的に表示する制御を行なう要因分析部と、
を備え、
前記要因分析部は、前記線形部分抽出部が抽出した線形部分に対して多変量解析手法を適用して得られた分析結果に基づいて変数選択を行なう、
ことを特徴とする要因分析システム。 an input processing unit that performs input processing on non-linear analysis target data related to factor analysis;
a data preprocessing unit that performs predetermined processing on the data to be analyzed;
a linear part extracting unit for extracting linear part data from the analysis target data input processed by the input processing unit or from the analysis target data processed by the data preprocessing unit;
a factor analysis unit that analyzes the relationship of factors with respect to the prediction target with respect to the data of the linear portion extracted by the linear portion extraction unit, and performs control for quantitatively displaying the analysis results;
with
The factor analysis unit selects variables based on analysis results obtained by applying a multivariate analysis method to the linear part extracted by the linear part extraction unit,
A factor analysis system characterized by:
前記分析対象データは、エネルギー事業者の予測対象情報と、気象情報と、暦情報と、イベント情報とのうちの少なくとも1つ以上を含む、ことを特徴とする要因分析システム。 In the factor analysis system according to claim 1,
A factor analysis system, wherein the analysis target data includes at least one or more of prediction target information of an energy supplier, weather information, calendar information, and event information.
前記データ前処理部は、予測対象と要因の関係を可視化することを特徴とする要因分析システム。 In the factor analysis system according to claim 1,
The factor analysis system, wherein the data preprocessing unit visualizes a relationship between a prediction target and factors.
前記データ前処理部は、前記分析対象データに含まれる異常データの除去と欠損データの補間のうち何れか一方または両方を行なうことを特徴とする要因分析システム。 In the factor analysis system according to any one of claims 1 to 3,
The factor analysis system, wherein the data preprocessing unit performs one or both of removal of abnormal data and interpolation of missing data included in the data to be analyzed.
前記線形部分抽出部は、決定木もしくはクラスタリング手法を用いて前記分析対象データから線形部分を抽出することを特徴とする要因分析システム。 In the factor analysis system according to claim 1,
The factor analysis system, wherein the linear part extracting unit extracts the linear part from the data to be analyzed using a decision tree or a clustering method.
前記要因分析部は、前記線形部分抽出部が抽出した前記線形部分から離散値である要因データを除去することを特徴とする要因分析システム。 In the factor analysis system according to claim 1,
The factor analysis system, wherein the factor analysis unit removes factor data, which are discrete values, from the linear part extracted by the linear part extraction part.
前記要因分析部は、離散値である前記要因データを除去した前記線形部分に対する分析結果と共に、前記線形部分抽出部が前記線形部分を抽出する際に離散値である前記要因に対して取得した分析結果を出力することを特徴とする要因分析システム。 In the factor analysis system according to claim 6,
The factor analysis unit analyzes the factor that is a discrete value when the linear part extraction unit extracts the linear part together with the analysis result of the linear part from which the factor data that is a discrete value is removed. A factor analysis system characterized by outputting results.
前記要因分析部は、前記多変量解析手法として、グラフィカルモデリングを適用することを特徴とする要因分析システム。 In the factor analysis system according to claim 1 ,
The factor analysis system, wherein the factor analysis unit applies graphical modeling as the multivariate analysis method.
前記要因分析部は、前記分析対象データに含まれる複数の要因を複数のグループに分割し、当該複数のグループに属する1または複数の要因ごとに前記グラフィカルモデリングを実施した後に、結果を統合する、ことを特徴とする要因分析システム。 In the factor analysis system according to claim 8 ,
The factor analysis unit divides a plurality of factors included in the analysis target data into a plurality of groups, performs the graphical modeling for each of one or more factors belonging to the plurality of groups, and integrates the results. A factor analysis system characterized by:
要因分析に関する非線形の分析対象データについての入力処理を行ない、
前記分析対象データに対して所定の加工を行ない、
前記入力処理を行った前記分析対象データ、または前記所定の加工がされた前記分析対象データから線形部分のデータを抽出し、
抽出された前記線形部分のデータに対して予測対象に対する要因の関係性を分析し、分析結果を定量的に表示する制御を行ない、
前記要因の関係性を分析することが、抽出された前記線形部分に対して多変量解析手法を適用して得られた分析結果に基づいて変数選択を行なうことを含む、
ことを特徴とする要因分析方法。 the computer
Perform input processing for non-linear analysis target data related to factor analysis,
performing predetermined processing on the data to be analyzed;
extracting data of a linear part from the data to be analyzed that has undergone the input process or from the data to be analyzed that has undergone the predetermined processing;
Analyze the relationship of factors with respect to the prediction target for the extracted data of the linear part, and perform control to quantitatively display the analysis results,
Analyzing the relationship of the factors includes performing variable selection based on analysis results obtained by applying a multivariate analysis method to the extracted linear portion.
A factor analysis method characterized by:
前記分析対象データに対して所定の加工を行ない、
前記入力処理を行った前記分析対象データ、または前記所定の加工がされた前記分析対象データから線形部分のデータを抽出し、
抽出された前記線形部分のデータに対して予測対象に対する要因の関係性を分析し、分析結果を定量的に表示する制御を行なうことであって、前記要因の関係性を分析することが、抽出された前記線形部分に対して多変量解析手法を適用して得られた分析結果に基づいて変数選択を行なうことを含む、
処理をコンピュータに実行させるためのプログラム。 Perform input processing for non-linear analysis target data related to factor analysis,
performing predetermined processing on the data to be analyzed;
extracting data of a linear part from the data to be analyzed that has undergone the input process or from the data to be analyzed that has undergone the predetermined processing;
Analyzing the relationship of factors with respect to the prediction target for the extracted data of the linear portion, and performing control to quantitatively display the analysis results , wherein analyzing the relationship of the factors is the extraction performing variable selection based on analysis results obtained by applying a multivariate analysis technique to the linear part obtained ;
A program that causes a computer to execute a process.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017151430 | 2017-08-04 | ||
JP2017151430 | 2017-08-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019032807A JP2019032807A (en) | 2019-02-28 |
JP7139625B2 true JP7139625B2 (en) | 2022-09-21 |
Family
ID=65524322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018037841A Active JP7139625B2 (en) | 2017-08-04 | 2018-03-02 | Factor analysis system, factor analysis method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7139625B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102579615B1 (en) * | 2020-08-04 | 2023-09-19 | 나이스디앤알(주) | The system that provides a quote for the sale of a used car |
US20220172064A1 (en) * | 2020-12-02 | 2022-06-02 | Htc Corporation | Machine learning method and machine learning device for eliminating spurious correlation |
CN118428774A (en) * | 2024-07-02 | 2024-08-02 | 三峡集团浙江能源投资有限公司 | Intelligent analysis method and system for energy consumption based on time sequence and load characteristics |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002110493A (en) | 2000-10-04 | 2002-04-12 | Matsushita Electric Ind Co Ltd | Method and apparatus for extracting failure in machining process |
JP2003242165A (en) | 2002-02-18 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | Latent target leading-out device, latent target leading- out method, program and recording medium therefor |
JP2008084039A (en) | 2006-09-28 | 2008-04-10 | Hitachi Ltd | Method for analyzing manufacturing process |
JP2009237832A (en) | 2008-03-26 | 2009-10-15 | Tokyo Gas Co Ltd | Variable prediction model construction method and variable prediction model construction system |
WO2009128442A1 (en) | 2008-04-15 | 2009-10-22 | シャープ株式会社 | Influence factor specifying method |
JP2013175108A (en) | 2012-02-27 | 2013-09-05 | Mitsubishi Electric Corp | Clustering device and clustering program |
JP2015033203A (en) | 2013-08-01 | 2015-02-16 | 富士電機株式会社 | Similar day extraction device and method and program for similar day extraction |
WO2015136586A1 (en) | 2014-03-14 | 2015-09-17 | 日本電気株式会社 | Factor analysis device, factor analysis method, and factor analysis program |
-
2018
- 2018-03-02 JP JP2018037841A patent/JP7139625B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002110493A (en) | 2000-10-04 | 2002-04-12 | Matsushita Electric Ind Co Ltd | Method and apparatus for extracting failure in machining process |
JP2003242165A (en) | 2002-02-18 | 2003-08-29 | Nippon Telegr & Teleph Corp <Ntt> | Latent target leading-out device, latent target leading- out method, program and recording medium therefor |
JP2008084039A (en) | 2006-09-28 | 2008-04-10 | Hitachi Ltd | Method for analyzing manufacturing process |
JP2009237832A (en) | 2008-03-26 | 2009-10-15 | Tokyo Gas Co Ltd | Variable prediction model construction method and variable prediction model construction system |
WO2009128442A1 (en) | 2008-04-15 | 2009-10-22 | シャープ株式会社 | Influence factor specifying method |
JP2013175108A (en) | 2012-02-27 | 2013-09-05 | Mitsubishi Electric Corp | Clustering device and clustering program |
JP2015033203A (en) | 2013-08-01 | 2015-02-16 | 富士電機株式会社 | Similar day extraction device and method and program for similar day extraction |
WO2015136586A1 (en) | 2014-03-14 | 2015-09-17 | 日本電気株式会社 | Factor analysis device, factor analysis method, and factor analysis program |
Also Published As
Publication number | Publication date |
---|---|
JP2019032807A (en) | 2019-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11216741B2 (en) | Analysis apparatus, analysis method, and non-transitory computer readable medium | |
JP7162442B2 (en) | Methods and systems for data-driven optimization of performance indicators in process and manufacturing industries | |
US9047559B2 (en) | Computer-implemented systems and methods for testing large scale automatic forecast combinations | |
Ghasemi et al. | Optimal condition based maintenance with imperfect information and the proportional hazards model | |
Trapero et al. | Analysis of judgmental adjustments in the presence of promotions | |
JP5868216B2 (en) | Clustering apparatus and clustering program | |
JP7139625B2 (en) | Factor analysis system, factor analysis method and program | |
US10482204B2 (en) | System for processing data and modelling for analysis of the energy consumption of a site | |
CN107016571A (en) | Data predication method and its system | |
US20210304015A1 (en) | Method, device, and computer readable storage media for data analysis | |
JP2004157814A (en) | Decision tree generating method and model structure generating device | |
JP6326510B2 (en) | Evaluation system, evaluation method, and data analysis system | |
CN116934486A (en) | Decision evaluation method and system based on deep learning | |
KR102646061B1 (en) | Demand forecasting method using ai-based model selector algorithm | |
CN116760033B (en) | Real-time power demand prediction system based on artificial intelligence | |
Jadli et al. | A Novel LSTM-GRU-Based Hybrid Approach for Electrical Products Demand Forecasting. | |
Sidabutar et al. | Comparison of linear regression, neural net, and arima methods for sales prediction of instrumentation and control products in PT. Sarana instrument | |
CN115145903A (en) | Data interpolation method based on production process | |
JP5680144B2 (en) | Prediction device, prediction method, and computer program | |
Kavitha et al. | Stock Closing Price Prediction Using Deep Learning, TensorFlow, and Keras | |
JP5602283B1 (en) | Prediction device, prediction method, and computer program | |
Chramcov | Utilization of Mathematica environment for designing the forecast model of heat demand | |
Balti et al. | Predicting Laptop Prices in the Tunisian Market Using Data Mining and Machine Learning Methods | |
WO2023181230A1 (en) | Model analysis device, model analysis method, and recording medium | |
Tantawy et al. | Applying Big Data Analytics to Retail for Improved Supply Chain Visibility |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220324 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7139625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |