JP2021128478A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2021128478A5 JP2021128478A5 JP2020021959A JP2020021959A JP2021128478A5 JP 2021128478 A5 JP2021128478 A5 JP 2021128478A5 JP 2020021959 A JP2020021959 A JP 2020021959A JP 2020021959 A JP2020021959 A JP 2020021959A JP 2021128478 A5 JP2021128478 A5 JP 2021128478A5
- Authority
- JP
- Japan
- Prior art keywords
- data
- prediction
- output
- unit
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 description 70
- 238000000034 method Methods 0.000 description 62
- 238000003066 decision tree Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 42
- 238000004364 calculation method Methods 0.000 description 40
- 238000004458 analytical method Methods 0.000 description 36
- 238000013500 data storage Methods 0.000 description 36
- 238000007405 data analysis Methods 0.000 description 33
- 238000009826 distribution Methods 0.000 description 33
- 238000010248 power generation Methods 0.000 description 24
- 238000003860 storage Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 20
- 238000012549 training Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000007726 management method Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 239000000446 fuel Substances 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000012916 structural analysis Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000007789 gas Substances 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 238000005309 stochastic process Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000010779 crude oil Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 230000009291 secondary effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Description
本発明は、データ処理システムおよびデータ処理方法に関し、例えば、予測モデルにより予測を行うデータ処理システムおよびデータ処理方法に適用して好適なものである。
電力事業、ガス事業等のエネルギー事業分野、通信事業分野、タクシーや配送業等の運送事業分野等では、需要家の需要に合わせた設備稼働、資源配分等を行うために、将来の需要量、決済価格等の予測が行われる。
例えば、日時変動する電力の需要に対して供給を計画するため、1時間先、2時間先、3時間先、翌日、1週間先、1か月先、1年先等の指定時間の需要(消費される電力量)の値の予測と、風力発電機、太陽光発電機等で発電される電力量の値の予測とが行われている。
ところで、電力、ガス等のエネルギーの現象の解析および/または予測では、誤差が発生し得る。そのため、解析の限界を想定し、解析および/または予測の誤差を縮小することが行われている。
より高い精度で需要予測をする装置として、所定の情報の予測値を含む予報データと、需要の実績値を含む第1実績データと、に基づいて需要の予測値を示す第1予測データを決定する第1予測決定部と、第1予測データが所定の条件を満たす場合、第1実績データと、所定の情報の実績値を含む第2実績データと、に基づいて需要の予測値を示す第2予測データを決定する第2予測決定部と、を備える、需要予測装置が示されている(特許文献1参照)。
ここで、重回帰予測、決定木モデルを用いたベイズ最適な予測、確率関数から導出されるガウス過程を再現するガウス過程回帰を用いた予測の順に予測の精度が高くなる。また、確率モデルを正確に取り入れるほど、予測の精度は高くなる。
しかしながら、特許文献1に記載の需要予測装置においてガウス過程回帰を用いた予測を採用する場合、確率モデルの導出にサンプル数Nの二乗でメモリを消費するため、サンプリング期間を短くせざるを得ず、稀頻度事象(気温特異日、発電計画停止、燃料輸送余剰等)のサンプルのデータが抜けるおそれがある。
本発明は、以上の点を考慮してなされたもので、予測モデルの同定に用いるデータを適切に決定し得るデータ処理システム等を提案しようとするものである。
かかる課題を解決するため本発明においては、予測モデルにより予測を行うデータ処理システムであって、データを記憶する記憶部から、前記予測モデルの同定に用いるデータを選定する選定部と、前記選定部により選定されたデータを用いて前記予測モデルの同定を行う処理部と、を備え、前記選定部は、前記記憶部から、所定の第1のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、前記第1のデータと異なる種類および/または条件の第2のデータとを選定するようにした。
上記構成では、例えば、所定の第1のデータと、第1のデータと異なる種類および/または条件の第2のデータとが予測モデルの同定に用いられ、所定の第1のデータに不足していた因果関係を取入れた高精度な予測が実現される。上記構成では、予測モデルの同定に用いるデータから稀頻度事象のデータが抜けてしまう事態を回避することができるので、例えば、カーネル関数を用いた予測モデルを採用してサンプリング期間を短くすることで、メモリの消費量を抑えると共に、予測の精度を高めることができる。
本発明によれば、予測モデルの同定に用いるデータを適切に決定することができる。
以下図面について、本発明の一実施の形態を詳述する。本実施の形態は、データを予測する技術に関する。本実施の形態に示す構成は、例えば、電力、ガス、燃料等のエネルギーの運用支援システムに適用して好適なものである。
例えば、本実施の形態に係るシステムは、予測対象のデータと説明変数のデータとの間のモデル(回帰式、自己回帰式、写像、確率写像)の解析および/または予測を行い得るシステムである。より具体的には、予測を行うシステムであって、構造的予測モデルを用いて、説明変数(または、予測子、入力データ)により、予測対象のデータ(または、予測出力、予測値、予測データ、出力データ)を予測(分類)する構造分析部と、予測モデル(説明変数と回帰または数理式)に基づいて予測を行う第1の予測部と、第1の予測部に転送する説明変数の種類および説明変数に添える期間、場所等のインデックスを構造分析部の出力から決定する決定部とを備える。
なお、構造的予測モデルは、具体的には、ネットワーク構造であり、更に具体的には、木構造である。予測モデルは、具体的には、カーネル関数を用いた予測モデルであり、更に具体的には、ガウス過程回帰を用いた予測モデルである。
(1)第1の実施の形態
図1において、100は全体として第1の実施の形態によるデータ処理システムを示す。
図1において、100は全体として第1の実施の形態によるデータ処理システムを示す。
図1は、データ処理システム100に係る構成の一例を示す図である。
図1に示すデータ処理システム100は、電力事業分野で好適に採用できる。その場合、データ処理システム100は、観測データおよび/または配信データに基づいて、将来の所定の期間の電力の需要量を予測する。または、データ処理システム100は、過去の電力の発電市場決済価格の実績量に基づいて、将来の所定の期間の電力の発電市場決済価格を予測する。
ここで、データ処理の目的は、入力、出力と呼ばれるデータの背後にある定量的な関係を解析したり、統計的に関係を推定、回帰、復元したり、関係の構造を特定したり、またその関係に基づいて新たな入力データと対となる出力データを推定したりすることである。一般に、出力データが将来時刻についての値である場合は、当該出力データを推定することを予測するという。特に、限定しない場合は、予測を含めて推定と記すことがある。
予測結果に基づいて、電力事業者は、円滑な電力の需給管理を可能にする。ある電力事業者は、自社設備による発電機の運転計画を的確に策定して、それを実行することができる。また、電力事業者は、他の電力事業者に発電を委託する電力調達の取引計画についても、的確に策定して実行することができる。
データ処理システム100は、データ解析予測システム110、情報入出力端末120、計画実行管理装置130、データ観測装置140、およびデータ配信装置150を含んで構成される。データ解析予測システム110、情報入出力端末120、計画実行管理装置130、データ観測装置140、およびデータ配信装置150は、通信経路101を介して通信可能に接続される。
通信経路101は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)である。ただし、通信経路101は、データ処理システム100を構成する各種装置および端末を互いに通信可能に接続できれば他の形態でもかまわない。
データ解析予測システム110は、データ格納装置111および解析予測演算装置112を含んで構成される。
データ格納装置111は、入力を構成するデータと、出力を構成する予測対象のデータとを格納可能である。入力を構成するデータは、観測データ、配信データ、データへのインデックスのデータ等である。
データ格納装置111は、入力のデータと出力のデータとの間の関係の解析の処理、および/または、出力の推定(または予測)の処理のためにデータを提供する。解析および/または推定の処理に提供される入力のデータおよび出力のデータ、または、処理への提供に備えて記録されるデータを「標本データ」と記す。
データ格納装置111は、情報入出力端末120から標本データの格納範囲をはじめとする設定入力を受付け可能な構成を備える。また、データ解析予測システム110が記憶するデータまたは出力するデータは、情報入出力端末120で表示することも可能である。
解析予測演算装置112は、図2を用いて後述するように、標本データに基づいて、入力と出力との関係を求める解析処理を行い、この関係に基づいて予測対象のデータ(出力)を算出する。
情報入出力端末120は、データ格納装置111、解析予測演算装置112、および計画実行管理装置130への設定入力の機能を構成する。
計画実行管理装置130は、解析予測演算装置112が算出した出力を基に、所定の目標を達成するための物理的な設備の運転計画の作成と実行とを行う。ここで、物理的な設備の運転計画とは、エネルギー分野においては、例えば、予測した将来のエネルギー需要値または予測した将来のエネルギー需要値に基づいて作成したエネルギー需要計画値を充足させるような、発電機の運転計画である。運転計画には、他の電力事業者の発電機に委託する発電量の計画値が含まれることがある。
データ観測装置140は、不図示の予測対象を定期的に計測し、計測データを、データ格納装置111と解析予測演算装置112とのうち少なくとも1つに送信する。計測データは、電力の消費を計測する計測器データ、送電線に接続された発電機の発電量である発電端メーターのデータ、発電市場決済価格のデータ等である。
データ配信装置150は、データ処理システム100の外部からのデータを受信し、データ格納装置111と解析予測演算装置112と少なくとも1つに送信する。データ配信装置150は、データの受信のために、不図示の気象観測装置および数値気象予測装置、送電線に設置した気象計測装置(気温、水蒸気量の気象データを計測)、送電線の電流計測装置、大口需要設備の管理装置、電力取引市場の管理装置、燃料取引市場の管理装置、傭船事業の管理装置、鉄道事業用設備の管理装置、および通人事業用設備の管理装置のうち少なくとも1つと接続する。なお、気象観測装置および数値気象予測装置は、気象会社、気象庁等の気象機関に設置されていてもよい。
データ配信装置150は、気象実績データと、数値気象予測データと、送電電流データと、大口需要設備の稼働データと、電力取引データと、燃料取引データと、燃料輸送等の傭船の稼働データと、鉄道事業用の稼働データと、通信事業用設備の稼働データとのうち少なくとも1つを受信する。
また、データ配信装置150は、警察、消防の機関、新聞社等の報道機関等のデータ配信装置と接続し、これら機関から発信される、災害、事故、行楽等のイベントのデータを受信する。
データ処理システム100の予測対象(出力)には、例えば、電力、ガス、水道等のエネルギー消費量データ、太陽光発電、風力発電等のエネルギーの生産量データ、または、一例として、日本卸電力取引所(JEPX)で取引されるエネルギーの取引量、発電市場決済価格等がある。
また、入力には、例えば、気温、湿度、日射量、風速、気圧等の気象データ、年月日、曜日、任意に設定した日の種別を示すフラグ値等の暦日データ、台風やイベント等の突発事象の発生有無を示すデータ等がある。
これら以外にも、入力には、エネルギーの消費者数、産業動向、景況指数等の経済状況を示すデータ、特急列車の乗車率、乗車客数、予約席数、または道路交通状況等の人、移動体等の移動状況を示すデータ、原油、天然ガス、石油等の燃料のFOB(Free on Board)価格(本船甲板渡し条件価格)、DES(Delivered Ex Ship)価格(向港着船渡し条件価格)、先物限月価格のデータ等がある。
(データ解析予測システムの具体的な構成)
図2は、データ解析予測システム110に係る構成の一例を示す図である。図2は、データ解析予測システム110を構成するデータ格納装置111のハードウェア構成および機能構成と解析予測演算装置112のハードウェア構成および機能構成との一例を示す。
図2は、データ解析予測システム110に係る構成の一例を示す図である。図2は、データ解析予測システム110を構成するデータ格納装置111のハードウェア構成および機能構成と解析予測演算装置112のハードウェア構成および機能構成との一例を示す。
データ格納装置111は、CPU(Central Processing Unit)211、入力装置212、出力装置213、通信装置214、および記憶装置215を含んで構成される。データ格納装置111は、例えば、パーソナルコンピュータ、サーバコンピュータ、またはハンドヘルドコンピュータ等のデータ処理装置である。
CPU211は、データ格納装置111の動作を統括的に制御する。入力装置212は、キーボード、マウス等である。出力装置213は、ディスプレイ、プリンタ等である。通信装置214は、無線LANまたは有線LANに接続するためのNIC(Network Interface Card)を備えて構成される。記憶装置215は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスクドライブ等の記憶媒体である。なお、データ格納装置111は、各処理部の出力結果、中間結果を、出力装置213を介して適宜出力してもよい。
記憶装置215には、観測データ記憶部221、配信データ記憶部222等のデータベースが格納されている。
観測データ記憶部221には、データ観測装置140から受信した、予測対象を定期的に計測し、計測データyの値が観測した時刻、場所といった検索のためのインデックスt(複数の情報をインデックスするとするときにはtはベクトル)を添えて保持されている。この保持されたデータを出力y(t)と記す。
配信データ記憶部222には、データ配信装置150から受信した、気象実績データ、数値気象予測データ、送電電流データ、大口需要設備の稼働データ、電力取引データ、燃料取引データ、燃料輸送等の傭船の稼働データ、鉄道事業用の稼働データ、通信事業用設備の稼働データ等のデータが各々の名称、発生時刻、発生場所等の検索のためのインデックスtを添えて保持されている。この保持されたデータを入力x(t)と記す。特に、x(t)が数値気象予測データのように将来予測のデータである場合には、入力x*(t)と記すことがある。特に、「予測入力x*(t)」と将来予測のデータであることを記すこともある。
データ解析予測システム110では、予測対象の実績値yが観測データ記憶部221に保持され、予測対象の将来の値である推定のデータy*を出力する。予測対象の実績値yは、例えば、関東エリアの送電線の電力需要の計測システムの出力、指定された需要家の計器の合算を求めるシステムの出力、発電市場決済価格の決定システムの出力等である。なお、データy*は、予測対象の背景にある装置およびシステムの出力にあたるため、出力のデータ、出力データ、または単に出力と記すことがある。エリアは、関東エリア、関西エリア、北海道エリアのように複数のエリアがある。データ解析予測システム110では、各々のエリアでの予測対象の実績値yの保持と、将来の値である推定のデータy*を出力する処理が可能である。
解析予測演算装置112は、CPU231、入力装置232、出力装置233、通信装置234、および記憶装置235を含んで構成される。解析予測演算装置112は、例えば、パーソナルコンピュータ、サーバコンピュータまたはハンドヘルドコンピュータ等のデータ処理装置である。CPU231、入力装置232、出力装置233、通信装置234、および記憶装置235は、基本的には、CPU211、入力装置212、出力装置213、通信装置214、および記憶装置215と同様である。
記憶装置235には、決定木モデル生成部241、データ選抜序数算出部242、データおよびインデックス選抜部243、選抜データ転送処理部244、予測モデル同定部245、第一予測処理部246等の各種コンピュータプログラムが格納されている。
加えて、記憶装置235には、誤差評価部247のコンピュータプログラムが格納されていてもよい。例えば、誤差評価部247からデータおよびインデックス選抜部243へのフィードバックが行われる。
加えて、記憶装置235には、第二予測処理部248、重ね合せ処理部249等の各種コンピュータプログラムが格納されていてもよい。第二予測処理部248および重ね合せ処理部249によれば、例えば、通年のn個のデータを用いた予測と、直近のn’(<n)個のデータを使った短期モデルでの精密な予測(予測手段)との出力を比較して、例えば、外れが大きければ短期モデルに折込が足りていないデータがあったことを検知することができる。
また、解析予測演算装置112は、各処理部の出力結果、中間結果等は、出力装置233を介して適宜出力してもよい。
(データ解析予測システムにおける処理の内容)
図3~図11を参照して、データ解析予測システム110の処理およびデータフローについて説明する。
図3~図11を参照して、データ解析予測システム110の処理およびデータフローについて説明する。
図3は、データ解析予測システム110におけるデータ(信号)の流れを示すブロック図である。図3の各処理部の処理は、符号番号を示した図4の各ステップとして実行される。なお、図4のステップS402の詳細については、図5を用いて説明し、図4のステップS404の詳細については、図6を用いて説明する。
図4は、データ解析予測システム110が行う処理(データ解析予測処理)に係るフローチャートの一例を示す図である。データ解析予測処理は、解析予測演算装置112が利用者からの入力操作を受け付けたことと、情報入出力端末120を介して予め設定した実行時刻が到来したこととの少なくとも1つを契機として始まる。
(ステップS401)
データ格納装置111は、データ配信装置150から「入力x」のデータおよび/または入力についての予測値である「入力x*」のデータを受信して配信データ記憶部222に記憶する。また、データ格納装置111は、データ観測装置140から「出力y」のデータを受信して観測データ記憶部221に記憶する。
データ格納装置111は、データ配信装置150から「入力x」のデータおよび/または入力についての予測値である「入力x*」のデータを受信して配信データ記憶部222に記憶する。また、データ格納装置111は、データ観測装置140から「出力y」のデータを受信して観測データ記憶部221に記憶する。
(ステップS402)
解析予測演算装置112は、決定木モデル生成部241において、観測データ記憶部221のデータと、配信データ記憶部222のデータとから決定木モデルを生成する。決定木モデルは、大量のデータの中から規則性、関連性等の意味のあるデータの分類のルールを自動的に抽出する手法である。
解析予測演算装置112は、決定木モデル生成部241において、観測データ記憶部221のデータと、配信データ記憶部222のデータとから決定木モデルを生成する。決定木モデルは、大量のデータの中から規則性、関連性等の意味のあるデータの分類のルールを自動的に抽出する手法である。
決定木モデル生成部241は、分類対象を離散値とした決定木モデルを生成する。まず、決定木モデル生成部241は、予測対象の観測データ記憶部221のデータを所定の時間長(例えば、24時間、12時間、6時間のいずれか)の時系列データとして纏め(これを「観測時系列データ」と記す)、観測時系列データを、図5のフローチャートの手順に従い、周波数スペクトルを特徴量としたクラスタリング処理により離散化する。
図5は、決定木モデル生成部241により実行される処理(観測時系列データクラスタリング処理)に係るフローチャートの一例を示す図である。観測時系列データクラスタリング処理は、各エリアでの観測時系列データの概形等の特徴量が概類似している幾つかのクラスタ(需要パターン)に分類し、各クラスタを代表する情報としてクラスタ中心を算出する処理である。決定木モデル生成部241は、各エリアの観測時系列データおよび属性情報が与えられると、観測時系列データクラスタリング処理を開始する。
(ステップS501)
決定木モデル生成部241は、取得した観測時系列データを1~M個のクラスタにそれぞれ分類した場合の各クラスタのクラスタ中心の集合{Ck :k=1、2、…、N}(ただし、Nは1からMのいずれかの値)を求める。なお、Mの理論上の最大は観測時系列の全数の値であるが、簡単のためにそれ以下の値に制限してもよい。
決定木モデル生成部241は、取得した観測時系列データを1~M個のクラスタにそれぞれ分類した場合の各クラスタのクラスタ中心の集合{Ck :k=1、2、…、N}(ただし、Nは1からMのいずれかの値)を求める。なお、Mの理論上の最大は観測時系列の全数の値であるが、簡単のためにそれ以下の値に制限してもよい。
より具体的には、決定木モデル生成部241は、k-means法により、かかる観測時系列データを1個のクラスタに分類した場合のそのクラスタのクラスタ中心集合{C1}、かかる観測時系列データを2個のクラスタに分類した場合の各クラスタのクラスタ中心集合{C1、C2}、かかる観測時系列データを3個のクラスタに分類した場合の各クラスタのクラスタ中心集合{C1、C2、C3}、……のように、クラスタ数Nを順次1~M個に変化させながら、観測時系列データを各クラスタに振り分け、そのときの各クラスタのクラスタ中心集合{C1、C2、C3、。。。、CN}を求める。(なお、{C1、C2、C3、。。。、CN}を{Ck}(k∈{1、2、…、N})と記す場合がある)
(ステップS502)
決定木モデル生成部241は、上述のクラスタリング処理の処理結果に基づいて、クラスタ数Nをいずれにするのが妥当かを評価するための指数(以下、「妥当性評価値」と記す)を算出するクラスタ数妥当性評価値算出処理を実行する。本実施の形態の場合、決定木モデル生成部241は、かかる妥当性評価値として、個々のクラスタ内における観測時系列データのまとまり度合いを表すクラスタ内適合度と、クラスタ同士の分離の度合いを表すクラスタ間平均分離度とを算出する。
決定木モデル生成部241は、上述のクラスタリング処理の処理結果に基づいて、クラスタ数Nをいずれにするのが妥当かを評価するための指数(以下、「妥当性評価値」と記す)を算出するクラスタ数妥当性評価値算出処理を実行する。本実施の形態の場合、決定木モデル生成部241は、かかる妥当性評価値として、個々のクラスタ内における観測時系列データのまとまり度合いを表すクラスタ内適合度と、クラスタ同士の分離の度合いを表すクラスタ間平均分離度とを算出する。
(ステップS503)
決定木モデル生成部241は、ステップS502で算出したクラスタ内適合度およびクラスタ間平均分離度に基づいて、最適なクラスタ数を決定する。
決定木モデル生成部241は、ステップS502で算出したクラスタ内適合度およびクラスタ間平均分離度に基づいて、最適なクラスタ数を決定する。
以上の処理により、観測時系列データが適切なクラスタ数のクラスタに分類される。なお、ステップS501~ステップS503については、国際公開第2015/133635号に記載の技術を適宜に援用することができる。
決定木モデル生成部241は、離散化した観測時系列データのクラスタ集合の葉「リーフ」にクラスタIDを付与する。
図7は、観測時系列データクラスタリング処理の中間結果の一例を示す図である。ここでは、観測時系列データを特徴量の近さからグループに分類した結果のクラスタは、14個となっている。決定木モデル生成部241は、生成したグループにユニークな番号(クラスタID)をつけ、観測時系列データの各々にクラスタIDを付与する。
次いで、決定木モデル生成部241は、観測時系列データの各々のクラスタIDを教師データとして、観測時系列データを分類する決定木モデルを生成する。より具体的には、決定木モデル生成部241は、配信データ記憶部222のデータを予測子(分岐条件)として、観測時系列データを分類する決定木モデルTrMを、決定木モデル生成のアルゴリズムを用いて生成する。
決定木モデル生成のアルゴリズムは、一般に知られるCART(Classification And Regression Trees)を用いる。他にID3(Iterative Dichotomiser 3)、CHAID(Chi-squared Automatic Interaction Detection)等のアルゴリズムを用いてもよい。
決定木モデル生成部241は、例えば、予測対象を支配的に決定する因子ほど上の方の枝「ブランチ」に出てくる決定木モデルを生成する。付言するならば、出力を識別するブランチは、説明変数に相当する。
図8は、決定木モデル生成部241による処理結果の一例を示す図である。決定木モデルのリーフは、クラスタIDとして表示している。観測時系列データの1つ1つは、決定木モデルの分岐条件である予測子と、当該予測子の値の条件により分類されている。予測子は、例えば、図8の図中の予測子表示801、予測子表示802、予測子表示803、予測子表示804の枠でかこった配信データであるところの変数である。予測子の値の条件は、例えば、図8の条件表示811、条件表示812、条件表示813、条件表示814の枠で囲った変数の大小関係や該当非該当の判別に使われる観測データの値である。
ここでは、前述の周波数スペクトルを特徴量として離散化したクラスタIDを教師データとして、決定木モデルをコンパクトにしたことで主要な予測子を抽出することが可能となっている。ただし、簡単のために、離散化の処理を省いて、観測時系列データを分類する決定木モデルを生成するようにしてもよい。
(ステップS403)
データ選抜序数算出部242は、決定木モデルTrMのルートから、リーフに至る各段階の分岐条件の配信データ種類および観測データについて、上位の分岐に重みが大きいガイド値を与えるようにしてもよい。好ましくは、決定木モデルのジニ係数として知られる、決定木モデルの中間のノードでの分類の前後のデータの不純度の減少量をガイド値としてもよく、また各同様に中間のノードでの分岐のエントロピーの減少量をガイド値としてもよい。複数の中間ノードでの分岐条件となっているデータ種類については、ガイド値を加重加算するようにしてもよい。
データ選抜序数算出部242は、決定木モデルTrMのルートから、リーフに至る各段階の分岐条件の配信データ種類および観測データについて、上位の分岐に重みが大きいガイド値を与えるようにしてもよい。好ましくは、決定木モデルのジニ係数として知られる、決定木モデルの中間のノードでの分類の前後のデータの不純度の減少量をガイド値としてもよく、また各同様に中間のノードでの分岐のエントロピーの減少量をガイド値としてもよい。複数の中間ノードでの分岐条件となっているデータ種類については、ガイド値を加重加算するようにしてもよい。
データ選抜序数算出部242は、すべての予測子(変数)について分割によるデータの不純度の減少量を合計し、この合計を分枝ノード数で除算した値を、学習した木における予測子(変数)の重要度とみなす。データ選抜序数算出部242は、分岐に用いる予測子の決定に、エントロピーの減少量をガイド値としたときには、エントロピーの減少量を合計し、この合計を分岐ノード数で除算した値を、学習した木における予測子(変数)の重要度とみなす。
データ選抜序数算出部242は、予測子の重要度の大きい順に、データの選抜に用いられる序数をデータ種類の各々に付与する。または、データ選抜序数算出部242は、学習した木の分岐の順(図8の例では予測子表示801、予測子表示802、予測子表示803、予測子表示804に囲われた予測子の順で、同一レベルにある場合には、分岐で分類する観測時系列データの個数が多いものを優先する)で序数を付与してもよい。
図9は、予測子の重要度と序数とを記憶したテーブルの一例を示す図である。
(ステップS404)
データおよびインデックス選抜部243は、後述の予測モデルの同定に用いるデータに追加する配信データおよび観測データの選択を行うためのデータとして決定木モデルTrMの分岐条件の予測子とその値を決定する。すなわち、データおよびインデックス選抜部243は、配信データの種類を示すデータ種リストsM、データのへのインデックスの集合を示すインデックスリストsTを決定する。なお、データ種リストsMは、配信データ記憶部222に保持されている配信データのM種の中から選択された種類を示す集合である。
データおよびインデックス選抜部243は、後述の予測モデルの同定に用いるデータに追加する配信データおよび観測データの選択を行うためのデータとして決定木モデルTrMの分岐条件の予測子とその値を決定する。すなわち、データおよびインデックス選抜部243は、配信データの種類を示すデータ種リストsM、データのへのインデックスの集合を示すインデックスリストsTを決定する。なお、データ種リストsMは、配信データ記憶部222に保持されている配信データのM種の中から選択された種類を示す集合である。
以下では、予測対象を「9時の電力需要」として、後述の予測モデルの同定に用いる配信データの種類の標準設定として、「1日前9時電力需要」、「2日前9時電力需要」、「3日前9時電力需要」、「4日前9時電力需要」、「5日前9時電力需要」、「6日前9時電力需要」、「7日前9時電力需要」、「9時東京地点気温」、および「日種別」が設定されているものとして説明する。
気温に関しては、学習の処理では、予報気温にかわり実際の気温を用いるようにしてもよい。また、標本データとして用いる観測データについては、すべての観測データの中から、直近の30日分の観測データを選択するように標準設定している。これらの標準設定から選ばれるデータ(標準設定のデータ)に対して、稀頻度事象のデータの追加が行われ、予測モデルの同定に用いられる訓練データとされる。
ステップS404の処理の詳細を、図6のフローチャートと、図10の予測モデルの同定に用いる訓練データを保持したテーブルの一例(訓練データテーブル1000)とを参照して説明する。
図6は、データおよびインデックス選抜部243が行う処理(データおよびインデックス選抜処理)に係るフローチャートの一例を示す図である。
(ステップS601)
データおよびインデックス選抜部243は、1番目の序数の予測子のデータ種類xを読み取る。
データおよびインデックス選抜部243は、1番目の序数の予測子のデータ種類xを読み取る。
(ステップS602)
データおよびインデックス選抜部243は、データ種類xが訓練データのデータ種類に選択済みであるか否かを判定する。データおよびインデックス選抜部243は、選択済みであると判定した場合、ステップS603に処理を移し、未選択であると判定した場合、ステップS604に処理を移す。
データおよびインデックス選抜部243は、データ種類xが訓練データのデータ種類に選択済みであるか否かを判定する。データおよびインデックス選抜部243は、選択済みであると判定した場合、ステップS603に処理を移し、未選択であると判定した場合、ステップS604に処理を移す。
(ステップS603)
データおよびインデックス選抜部243は、次の序数の予測子のデータ種類を読み取り、ステップS602に処理を戻す。
データおよびインデックス選抜部243は、次の序数の予測子のデータ種類を読み取り、ステップS602に処理を戻す。
(ステップS604)
データおよびインデックス選抜部243は、訓練データテーブル1000に保持する項目の指定に、選択したデータ種類xをデータ種リストsMに追加する。図10の例では、「3時神奈川地点気温」のデータ種類が、訓練データテーブル1000のデータ種類を指定するデータ種リストsMに追加される。
データおよびインデックス選抜部243は、訓練データテーブル1000に保持する項目の指定に、選択したデータ種類xをデータ種リストsMに追加する。図10の例では、「3時神奈川地点気温」のデータ種類が、訓練データテーブル1000のデータ種類を指定するデータ種リストsMに追加される。
(ステップS605)
データおよびインデックス選抜部243は、訓練データテーブル1000に保持されるデータ種類の各々に関して、格納データをプレサーチする。より具体的には、データおよびインデックス選抜部243は、訓練データテーブル1000に指定されるデータ種類の予測子の各々について、予測対象の時刻tでの予報値(予測入力x*(t))を、データ格納装置111から検索する。
データおよびインデックス選抜部243は、訓練データテーブル1000に保持されるデータ種類の各々に関して、格納データをプレサーチする。より具体的には、データおよびインデックス選抜部243は、訓練データテーブル1000に指定されるデータ種類の予測子の各々について、予測対象の時刻tでの予報値(予測入力x*(t))を、データ格納装置111から検索する。
例えば、データおよびインデックス選抜部243は、「9時東京地点気温」を検索して、「9℃」といった検索結果(予報値)を得る。データおよびインデックス選抜部243は、決定木モデルTrMの分岐の値である条件値(例えば、図9で示すように序数が「2」となっている予測子の「9時東京地点気温」では、図8に示す例では条件表示812および条件表示813の枠内にあるように、「14℃以上/14℃未満」、「10℃以上/10℃未満」である)を参照し、予測入力x*(t)(ここでは、予測入力x*(t)に最も近い条件「10℃」>予測入力x*(t)「9℃」)に該当するサンプル(観測時系列データ)が訓練データテーブル1000の基本サンプル(標準設定のデータ)の中に含まれるかを検索する。
データおよびインデックス選抜部243は、基本サンプルに含まれない場合には、決定木モデルTrMの当該分岐より先の部分木に分類されている観測時系列データのインデックス情報を取得し、訓練データの追加のサンプル(選抜データ)となるように、観測時系列データのインデックスリストsTに追加する。例えば、図8に示す例では、インデックスリストsTには、「日種別」が「3連休日以外」であり、「9時東京地点気温」が「10℃未満かつ9℃以上」であるサンプルを示す情報(例えば、サンプリング日)が追加される。
また、例えば、データおよびインデックス選抜部243は、「3時神奈川地点気温」を検索して、「17℃」といった検索結果(予報値)を得る。データおよびインデックス選抜部243は、決定木モデルTrMの分岐の値である条件値(例えば、図9で示すように序数が「4」となっている予測子の「3時神奈川地点気温」では、図8に示す例では条件表示813および条件表示814の枠内にあるように、「16℃以上/16℃未満、12℃以上/12℃未満」である)を参照し、予測入力x*(t)(ここでは、予測入力x*(t)に最も近い条件「16℃」≦予測入力x*(t)「17℃」)に該当するサンプルが訓練データテーブル1000の基本サンプルの中に含まれるかを検索する。
データおよびインデックス選抜部243は、基本サンプルに含まれない場合には、決定木モデルTrMの当該分岐より先の部分木に分類されている観測時系列データのインデックス情報を取得し、訓練データの追加のサンプル(選抜データ)となるように、観測時系列データのインデックスリストsTに追加する。例えば、図8に示す例では、インデックスリストsTには、「日種別」が「3連休日以外」であり、「9時東京地点気温」が「14℃以上」であり、「3時神奈川地点気温」が「16℃以上かつ17℃未満」であるサンプルを示す情報(例えば、サンプリング日)が追加される。
図10に示した一例では、インデックス情報には、サンプリング日の情報を用いており、「9時東京地点気温」が予報値の「9℃」に該当する、決定木モデルTrMの部分木に分類される観測時系列データのサンプリング日の、「2018年10月3日(水)」、「2018年10月10日(水)」、「2018年9月27日(木)」がインデックスリストsTに追加されている。また、「3時神奈川地点気温」の予報値「17℃」に該当するサンプリング日の、「2017年10月4日(水)」、「2017年10月3日(火)」、「2017年10月1日(日)」がインデックスリストsTに追加されている。
このように、ステップS605では、標準設定のデータのデータ種の予報値をもとに標準設定のデータに不足しているデータが追加されるようにインデックスリストsTが生成される。更に、ステップS605では、生成される決定木モデルをもとに、標準設定のデータのデータ種にないデータ種がデータ種リストsMに追加されると共に、追加されたデータ種については、当該データ種の予報値をもとに標準設定のデータに不足しているデータが追加されるようにインデックスリストsTが生成される。
(ステップS606)
データ種類とデータインデックスの追加において、データおよびインデックス選抜部243は、訓練データの数が、上限数NN(所定値であり、例えば、8000個)以下であるか否かを判定する。データおよびインデックス選抜部243は、訓練データの数が上限数NNであると判定した場合、ステップS603に処理を戻し、予定個数の上限までの選抜データのデータ種リストsMおよびインデックスリストsTを生成する。
データ種類とデータインデックスの追加において、データおよびインデックス選抜部243は、訓練データの数が、上限数NN(所定値であり、例えば、8000個)以下であるか否かを判定する。データおよびインデックス選抜部243は、訓練データの数が上限数NNであると判定した場合、ステップS603に処理を戻し、予定個数の上限までの選抜データのデータ種リストsMおよびインデックスリストsTを生成する。
好ましくは、訓練データの上限数NNは、パラメータとして変更可能な形態をとり、上限数NNの初期値は、小さい値(例えば、500)とし、後述の誤差評価部247の誤差評価値deltaの減少が続く範囲で、上限数NNの値を増加させるように変更するようにしてもよい。これにより必要かつ充分な訓練データによる予測モデルの同定が実行される。
(ステップS405)
選抜データ転送処理部244は、少なくとも選抜データのデータ種リストsMと、インデックスリストsTに従い「入力」と「出力」のデータを選抜データとして選択し、通信装置234、通信装置214を介してデータ格納装置111から取得する。また、インデックスリストsT以外に、直近の2週間等の期間を標準的に利用するデータ(標準設定のデータ)の期間としてデータインデックスとして設定し、該当するインデックスのデータをデータ格納装置111から合せて取得する。
選抜データ転送処理部244は、少なくとも選抜データのデータ種リストsMと、インデックスリストsTに従い「入力」と「出力」のデータを選抜データとして選択し、通信装置234、通信装置214を介してデータ格納装置111から取得する。また、インデックスリストsT以外に、直近の2週間等の期間を標準的に利用するデータ(標準設定のデータ)の期間としてデータインデックスとして設定し、該当するインデックスのデータをデータ格納装置111から合せて取得する。
(ステップS406)
予測モデル同定部245は、前述の選抜データと標準設定のデータ(xi,yi)[i∈sM×(sT ∪ sTs)](このデータの組の集まりを訓練データと記す)を用いて、予測対象の予測値を算出するための予測モデルを同定する。予測モデルの同定は、例えば、説明変数とするデータが、x1とx2との2種である場合と、予測モデルが多変量回帰モデルの重回帰モデルである場合、予測モデルは、下記(式1)で与えられる。
予測モデル同定部245は、前述の選抜データと標準設定のデータ(xi,yi)[i∈sM×(sT ∪ sTs)](このデータの組の集まりを訓練データと記す)を用いて、予測対象の予測値を算出するための予測モデルを同定する。予測モデルの同定は、例えば、説明変数とするデータが、x1とx2との2種である場合と、予測モデルが多変量回帰モデルの重回帰モデルである場合、予測モデルは、下記(式1)で与えられる。
y*=a×x1 + b×x2 + c ・・・(式1)
y* :目的変数
a、b :偏回帰係数
c :定数項(切片)
x1、x2:説明変数
y* :目的変数
a、b :偏回帰係数
c :定数項(切片)
x1、x2:説明変数
予測対象の予測モデルについては、上述のモデルに限らず、他の公知の手法を適用してよい。公知の手法とは、以下に例示列挙するものをいう。例えば、重回帰モデル等の線形回帰モデル、ロジスティック回帰等の一般化線形モデル等の線形性を仮定する手法、ARX(AutoRegressive with Exogenous)モデル等の自己回帰性を仮定する手法、Ridge回帰、Lasso回帰、ElasticNet等の縮小推定器を利用する手法、部分最小二乗法、主成分回帰等の次元縮退器を利用する手法、多項式を用いた非線形モデル、サポートベクトル回帰、回帰木、ガウス過程回帰、ニューラルネット等のノンパラメトリック、と呼ばれる手法である。好ましくは、ガウス過程の近似出力をデータからの回帰によりガウス過程回帰をはじめとするカーネル関数を用いたアルゴリズム(カーネル関数予測方式)を適用することで、予測を高い精度で達成することができる。本実施の形態の予測モデル同定部245は、同定したガウス過程回帰モデルGpM(Gauss Pseudospectral Method)を出力する。
なお、一般には、確率変数がランダムな試行の結果で値の決まる変数であるのに対し、パラメータ集合Tによって、インデックスを付けられた確率変数の集まり{X(t)|t∈T}を確率過程と呼ぶ。Tが時間を表す場合には、確率過程は、時間の経過に従ってランダムに変化する値の系列となる。
ただし、本実施の形態では、Tは、時間を示す集合に限定しない。ここで、t∈Tは、入力と出力のデータ(予測対象の観測データや配信データ)についての、データを特定するインデックスであればよい。例えば、地点インデックスや空間座標のインデックスであってもよく、時刻インデックス、地点インデックスと時刻インデックスの組番号インデックスであってもよく、データ観測装置の各々を特定する計器インデックスであってもよく、予測対象の値xが特定の範囲Yにあることを示すインデックスz(z∈Z,Z={t|X(t)⊆Y)})であってもよく、予測対象の値を分類する木構造の分岐情報を示す予測子であってもよい。
(ステップS407)
解析予測演算装置112の第一予測処理部246は、将来の気温といった将来データの入力x*、および過去の配信データを入力とした入力xと、ガウス過程回帰モデルGpMとを用いて予測対象の予測値である出力y*を算出する。
解析予測演算装置112の第一予測処理部246は、将来の気温といった将来データの入力x*、および過去の配信データを入力とした入力xと、ガウス過程回帰モデルGpMとを用いて予測対象の予測値である出力y*を算出する。
なお、入力xとするデータの中には、過去の予測対象の出力y、過去に行った予測の出力y*を含めるようにしてもよい。例えば、予測を実行する日の前日の12時の需要値y(t12)を入力x(xは、ベクトル)の要素の1つとする。予測は、例えば、(式1)にx1、x2の各々に、入力x*の要素x1*、x2*の値が代入されてyの値を算出して、出力y*として出力されることを意味する。
(ステップS408)
解析予測演算装置112は、第二予測処理部248において、決定木モデルTrMと、将来の気温といった将来データの入力x*および/または過去の配信データを入力とした入力xと、過去の予測対象の出力である観測データyと、を用いて予測対象についての第二の予測値である出力y~を算出する。例えば、解析予測演算装置112は、配信データおよび観測データで、決定木の分岐条件を順に判定し、予測を行う。さらに、解析予測演算装置112は、分岐条件の値が未確定であるときには、決定木モデルに基づくベイズ最適な予測アルゴリズムとして知られている予測計算を行う。
解析予測演算装置112は、第二予測処理部248において、決定木モデルTrMと、将来の気温といった将来データの入力x*および/または過去の配信データを入力とした入力xと、過去の予測対象の出力である観測データyと、を用いて予測対象についての第二の予測値である出力y~を算出する。例えば、解析予測演算装置112は、配信データおよび観測データで、決定木の分岐条件を順に判定し、予測を行う。さらに、解析予測演算装置112は、分岐条件の値が未確定であるときには、決定木モデルに基づくベイズ最適な予測アルゴリズムとして知られている予測計算を行う。
(ステップS409)
解析予測演算装置112は、誤差評価部247において、観測データ記憶部221と配信データ記憶部222とのデータを、乱数を用いて所定の複数組(例えば、20組)だけ選択し、そのデータでの予測を試行し、実際の予測対象の過去の出力yとを比較した予測誤差の平均値を誤差評価値として出力するようにしてもよい。
解析予測演算装置112は、誤差評価部247において、観測データ記憶部221と配信データ記憶部222とのデータを、乱数を用いて所定の複数組(例えば、20組)だけ選択し、そのデータでの予測を試行し、実際の予測対象の過去の出力yとを比較した予測誤差の平均値を誤差評価値として出力するようにしてもよい。
(ステップS410)
重ね合わせ処理部249は、第一予測処理部246の出力y*に係る情報と、第二予測処理部248の出力y~に係る情報を重ね合わせたグラフ(重ね合せグラフ)を出力する。
重ね合わせ処理部249は、第一予測処理部246の出力y*に係る情報と、第二予測処理部248の出力y~に係る情報を重ね合わせたグラフ(重ね合せグラフ)を出力する。
図11は、重ね合せグラフの一例を示す図である。横軸は、時間であり、「0」が現時刻で10時刻先の予測の時刻を例示している。縦軸は、「-1」から「1」の値を取るように正規化された予測対象の出力の値である。第一予測処理の出力y*の値1101(実線)と、予測対象がガウス過程回帰による90%予測区間の幅1102とが出力されている。さらに、第二予測処理の出力y~の値1103(点線)が出力されている。
なお、一般に、確率過程(stochastic process)は、時間とともに変化する確率変数を意味し、ガウス過程(Gaussian process)は、連続時間の確率過程の一種である。確率過程{Xt}t∈Tから、任意に(有限個の)Xt1,...,Xtkを選んで作った線型結合は、正規分布に従うとき、{Xt}t∈Tは、ガウス過程と呼ばれている。
図12は、データ予測方法を用いた発電と蓄電の予測制御システム1200の構成の一例を示す図である。
データ解析予測システム110では、電力需要の4時間後の予測値を出力している。計測制御装置1210は、通常使用する発電1号機1220の現在の発電出力、および、発電出力の4時間のうちでの変更可能量である出力変更速度を計測し、4時間後の需要を満たすための発電余力が不足している場合には、予備の発電機(例えば、発電機2号機1230)の起動を指令する予測制御を行う。発電1号機1220および発電2号機1230が発生した電力は、変電設備1240により電圧の昇圧が行われ、送電網1250を介して送電される。
(総括)
データ解析予測システム110は、以下のように総括してもよい。
データ解析予測システム110は、以下のように総括してもよい。
[1]データ解析予測システム110は、決定木モデルの構造を用いて、説明変数(または、予測子、入力データ、出力)により、予測対象のデータ(または、予測出力、予測値、予測データ、出力データ、出力)を予測(分類)する構造分析手段を備える。また、データ解析予測システム110は、長期(1年から2年)のデータを解析し、予測に必要なデータの種類と、データのサンプリングの時刻や場所等の条件を決定するデータ選択手段を備える。好ましくは、データ解析予測システム110は、予測処理における説明変数の種類および説明変数に添える期間や場所等のインデックスを構造分析手段の出力から決定する変数およびインデックス決定手段を備える。
[2]データ解析予測システム110は、データ選択手段で選択したデータを用いて、カーネル関数を用いた予測モデルの同定と予測の処理を行うカーネル関数予測手段を備える。
[3]データ解析予測システム110は、好ましくは、決定木モデルに基づく予測手段を備える。
[4]データ解析予測システム110は、好ましくは、カーネル関数に基づく予測出力の情報と決定木モデルに基づく予測出力の情報とを表示する予測表示手段を備える。
(本実施の形態の効果)
カーネル関数を用いる統計的機械学習における訓練データとして採用される標本データの種類数Mに比例してメモリが必要になるに留まらず、採用される標本数Kの二乗で比例してメモリおよび演算量が必要となる。一例では、計測器信号から生成した5分刻みデータを1年分扱うには、n=105120となり、おおよそ800テラバイトのメモリが必要となる。このため、標本データを直近期間に限定するといった場当たり的な標本データの選抜が行われ、高精度な予測の妨げとなる。
カーネル関数を用いる統計的機械学習における訓練データとして採用される標本データの種類数Mに比例してメモリが必要になるに留まらず、採用される標本数Kの二乗で比例してメモリおよび演算量が必要となる。一例では、計測器信号から生成した5分刻みデータを1年分扱うには、n=105120となり、おおよそ800テラバイトのメモリが必要となる。このため、標本データを直近期間に限定するといった場当たり的な標本データの選抜が行われ、高精度な予測の妨げとなる。
本発明の適用の一例では、発電市場決済価格の標本データから、タンカーの通常基準値を超える沖待ち時間(輸送燃料の陸揚げを海上で待つ待ち時間)の発生と、年平均を上回る日射量の発生とが、上位の序数の予測子しとして構造解析され、これらの事象に該当する標本データのインデックスが選択インデックス集合に追加され、解析予測装置のK×K統計量解析処理部に自動的に転送される。
本システムによれば、長期(一例では、2年)にわたる標本データの構造解析(すなわち決定木モデルの生成)により、予測子(構造解析における条件分岐)に序数を与え、序数の上位の予測子にあたる入力データの項目i種(i∈M)にかかわり、予測子が有意な値をとる標本データを選抜に加えることが実現される。全ての標本(標本数N)を利用した仮想の予測に比べ、メモリ量および演算量は、Kの二乗に比例して削減(削減量=N2-K2)できる、かつ直近期間での標本データに不足していた因果関係を取入れた高精度な予測が実現される。
また、図11に例示されるように、メモリ制約が緩和されている第二予測処理で、1年から2年の標本データを用いた予測を行った結果と、第一予測処理の予測結果および予測区間の計算結果とを比較可能な出力が行われることでの副次的な効果がある。例えば、利用者は、予測結果に大きな違いがないこと、または予測結果に違いがあるときには、予測モデルの同定のための標本データの偏りにより過学習が起きている(例えば、予測区間の幅は狭いが、2つの予測値に相違がある)であるとか、標本データが足りていない(予測区間の幅が大きいが、予測値に相違があり安定していない)であるといったことが、利用者自身により判断する支援情報として活用され得る。
以上、本実施の形態のデータ解析予測システムによる、予測値の説明性と予測値の誤差を低減させ得た効果の説明である。
なお、本データ解析予測システムが有益と認められる背景には、緊急電力融通を困難にする昨今の社会環境があり、その原因には、発送電分離を始めとする電力供給体制の変更もある。すなわち、電力会社において、発電、送配電、および電力販売の3事業に対する企業実態が、従来は単一経営で迅速制御も容易であったところ、昨今になって3分割された例もある。
この例によれば、3分割等の発送電分離が原因で緊急電力融通するための迅速制御も困難、かつコスト増大に直結するという事情がある。これに対し、本データ解析予測システムは、緊急電力融通を未然に予知して低減させることが可能な高精度の電力需要予測を実現して社会貢献するものである。
さらに、本データ解析予測システムが有益と認められる背景には、近年のコンピュータの集積回路の高集積化により、理論式にかわり多様な回帰モデルによる予測が、実業務での処理時間に対応できるようになった反面、理論的な数式や構造モデルが明示されない回帰では非常時に適したデータの内挿および外挿が行われているかの確認の手段がなく、実業務での異常処理に適さないという事情がある。これに対し、本データ解析予測システムは、予測値が決定されるまでの段階を、木構造で正順に並べられた入力データである予測子を読み取ることで、確認させ得ることで、利用者に予測値に基づく適切な業務遂行を実現して、社会貢献するものである。
(2)付記
上述の実施の形態には、例えば、以下のような内容が含まれる。
上述の実施の形態には、例えば、以下のような内容が含まれる。
上述の実施の形態においては、本発明をデータ処理システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラムに広く適用することができる。
上述の実施の形態においては、データ格納装置111の機能(観測データ記憶部221、配信データ記憶部222等)は、例えば、CPU211がROMに格納されたプログラムをRAMに読み出して実行すること(ソフトウェア)により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、データ格納装置111の機能の一部は、データ格納装置111と通信可能な他のコンピュータにより実現されてもよい。
上述の実施の形態においては、解析予測演算装置112の機能(決定木モデル生成部241、データ選抜序数算出部242、データおよびインデックス選抜部243、選抜データ転送処理部244、予測モデル同定部245、第一予測処理部246等)は、例えば、CPUがROMに格納されたプログラムをRAMに読み出して実行すること(ソフトウェア)により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、解析予測演算装置112の機能の一部は、解析予測演算装置112と通信可能な他のコンピュータにより実現されてもよい。
また、上述の実施の形態において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部または一部が1つのテーブルであってもよい。
また、上述の実施の形態において、説明の便宜上、XXテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、XX情報等と表現してもよい。
また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
上述した実施の形態は、例えば、以下の特徴的な構成を有する。
予測モデル(例えば、線形性を仮定する手法、自己回帰性を仮定する手法、縮小推定器を利用する手法、次元縮退器を利用する手法、ノンパラメトリックと呼ばれる手法、または、カーネル関数を用いた手法、の予測モデル)により予測を行うデータ処理システム(例えば、データ処理システム100、データ解析予測システム110)であって、データを記憶する記憶部(例えば、記憶装置235、解析予測演算装置112、記憶装置215、データ格納装置111、データ観測装置140、データ配信装置150)から、前記予測モデルの同定に用いるデータを選定する選定部(例えば、解析予測演算装置112、データおよびインデックス選抜部243並びに選抜データ転送処理部244)と、前記選定部により選定されたデータを用いて前記予測モデルの同定を行う処理部(例えば、解析予測演算装置112、予測モデル同定部245)と、を備え、前記選定部は、前記記憶部から、所定の第1のデータ(例えば、所定の期間のデータ、標準設定のデータ)と、構造的予測モデルの構造データにおける分岐条件をもとに、前記第1のデータと異なる種類(例えば、データ種)および/または条件(例えば、分岐条件の値)の第2のデータ(例えば、選抜データ)とを選定する。
上記構成では、例えば、所定の第1のデータと、第1のデータと異なる種類および/または条件の第2のデータとが予測モデルの同定に用いられ、所定の第1のデータに不足していた因果関係を取入れた高精度な予測が実現される。上記構成では、予測モデルの同定に用いるデータから稀頻度事象のデータが抜けてしまう事態を回避することができるので、例えば、カーネル関数を用いた予測モデルを採用してサンプリング期間を短くすることで、メモリの消費量を抑えると共に、予測の精度を高めることができる。
前記記憶部に記憶されているデータを用いて、前記構造的予測モデルの構造データとして、予測対象(例えば、電力、ガス、水道等のエネルギー消費量データ、太陽光発電、風力発電等のエネルギーの生産量データ、または、日本卸電力取引所(JEPX)で取引されるエネルギーの取引量、発電市場決済価格)を支配的に決定する分岐条件である予測子ほど上位に現れる決定木モデルを生成する生成部(例えば、解析予測演算装置112、決定木モデル生成部241)と、前記生成部により生成された決定木モデルにおける予測子に、前記選定部におけるデータの選定に用いられる序数を付与する付与部(例えば、解析予測演算装置112、データ選抜序数算出部242)と、を備え、前記選定部は、前記付与部により付与された序数に従って、所定の数(例えば、上限数NN)に達するまで、前記記憶部から前記第2のデータを選定する。
上記構成では、決定木の生成により、予測子に序数が与えられ、序数の上位の予測子が有意な値をとるデータが選定される。例えば、カーネル関数を用いた予測モデルの同定を行う場合、全てのデータ(N)を利用した仮想の予測に比べ、メモリ量および演算量は、第1のデータ数と第2のデータ数との和(K)の二乗に比例して削減(削減量=N2-K2)される。
ここで、稀頻度事象に係る予測子(説明変数)は、相対的に重要度が高くなる。よって、例えば、予測子の重要度が大きい順に序数が与えられた場合、サンプリング期間(所定の期間)を短くしたとしても、予測モデルの同定では、序数の上位の予測子が有意な値をとる第2のデータが用いられるので、稀頻度事象のデータが抜けてしまう事態を回避することができるようになる。
このように、上記構成によれば、メモリの消費量を抑え、かつ、予測モデルの同定に用いるデータから稀頻度事象のデータが抜けてしまう事態を回避することができる。
前記予測モデルは、カーネル関数を用いた予測モデルである。
上記構成では、カーネル関数を用いた予測が行われるので、重回帰予測、決定木モデルを用いたベイズ最適な予測等よりも、高精度な予測が実現される。
前記記憶部に記憶されているデータを用いて、前記生成部により生成された決定木モデルによる予測を行う第二の処理部(例えば、解析予測演算装置112、第二予測処理部248)と、出力を行う出力部(例えば、解析予測演算装置112、重ね合せ処理部249)と、を備え、前記処理部(例えば、第一予測処理部246)は、前記予測モデルによる予測を行い、前記出力部は、前記処理部の予測の結果と、前記第二の処理部の予測の結果とを出力する。
なお、前記出力部は、前記処理部の予測の結果と前記第二の処理部の予測の結果とを、情報入出力端末120に表示してもよいし、ファイルとして情報入出力端末120に送信してもよいし、出力装置233で印刷してもよいし、その他の出力を行ってもよい。
上記構成では、処理部の予測の結果と、第二の処理部の予測の結果とが出力されるので、例えば、これらの結果が重ね合わせて表示された場合には、利用者は、予測結果に大きな違いがないことを確認できるようになる。また、利用者は、予測結果に違いがあるときには、選定されたデータの偏りにより過学習が起きているであるとか、選定されたデータが足りていないといったことを確認できるようになる。
また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。
「A、B、およびCのうちの少なくとも1つ」という形式におけるリストに含まれる項目は、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)または(A、B、およびC)を意味することができると理解されたい。同様に、「A、B、またはCのうちの少なくとも1つ」の形式においてリストされた項目は、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)または(A、B、およびC)を意味することができる。
100……データ処理システム、110……データ解析予測システム、112……解析予測演算装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020021959A JP7316233B2 (ja) | 2020-02-12 | 2020-02-12 | データ処理システムおよびデータ処理方法 |
US16/951,088 US20210248481A1 (en) | 2020-02-12 | 2020-11-18 | Data Processing System and Data Processing Method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020021959A JP7316233B2 (ja) | 2020-02-12 | 2020-02-12 | データ処理システムおよびデータ処理方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021128478A JP2021128478A (ja) | 2021-09-02 |
JP2021128478A5 true JP2021128478A5 (ja) | 2022-05-11 |
JP7316233B2 JP7316233B2 (ja) | 2023-07-27 |
Family
ID=77177599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020021959A Active JP7316233B2 (ja) | 2020-02-12 | 2020-02-12 | データ処理システムおよびデータ処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210248481A1 (ja) |
JP (1) | JP7316233B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021258051A1 (en) * | 2020-06-19 | 2021-12-23 | Demand Driven Technologies, Inc. | A global registry with automated demand profiling via machine learning to optimize inventory management |
US11620274B2 (en) * | 2021-04-30 | 2023-04-04 | Intuit Inc. | Method and system of automatically predicting anomalies in online forms |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091505A (ja) * | 2000-09-14 | 2002-03-29 | Toshiba Corp | モデル同定装置 |
JP2002337521A (ja) * | 2001-05-18 | 2002-11-27 | Denso Corp | タイヤ空気圧推定装置 |
JP5950284B2 (ja) * | 2013-12-13 | 2016-07-13 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 処理装置、処理方法、およびプログラム |
JP6451895B2 (ja) | 2016-03-28 | 2019-01-16 | 日本電気株式会社 | 予測モデル選択システム、予測モデル選択方法および予測モデル選択プログラム |
JP7319757B2 (ja) * | 2016-12-05 | 2023-08-02 | 株式会社日立製作所 | データ処理システム及びデータ処理方法 |
JP2019117601A (ja) | 2017-12-27 | 2019-07-18 | 株式会社東芝 | 需要予測装置、需要予測方法及びコンピュータプログラム |
-
2020
- 2020-02-12 JP JP2020021959A patent/JP7316233B2/ja active Active
- 2020-11-18 US US16/951,088 patent/US20210248481A1/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Godahewa et al. | Monash time series forecasting archive | |
Vile et al. | Predicting ambulance demand using singular spectrum analysis | |
Koyuncu et al. | Forecasting COVID-19 impact on RWI/ISL container throughput index by using SARIMA models | |
CN106933956B (zh) | 数据挖掘方法和装置 | |
US7565331B2 (en) | Method for modeling processes in airlines and other industries, including cost asssesment of service disruptions | |
JP7316233B2 (ja) | データ処理システムおよびデータ処理方法 | |
JP2021128478A5 (ja) | ||
US20220351051A1 (en) | Analysis system, apparatus, control method, and program | |
Sajan et al. | Forecasting and analysis of train delays and impact of weather data using machine learning | |
Segnon et al. | Forecasting market risk of portfolios: copula-Markov switching multifractal approach | |
Bhattacharjee et al. | Using global variance-based sensitivity analysis to prioritise bridge retrofits in a regional road network subject to seismic hazard | |
Lucko et al. | Quantitative research: Preparation of incongruous economic data sets for archival data analysis | |
JP5957725B2 (ja) | 予測装置、予測方法、および、予測プログラム | |
JP6507734B2 (ja) | 電力取引量決定システム、電力取引量決定方法およびプログラム | |
Chu et al. | Evaluation and prediction of punctuality of vessel arrival at port: a case study of Hong Kong | |
Song et al. | On probability distributions of the time deviation law of container liner ships under interference uncertainty | |
CN116308448A (zh) | 一种基于神经网络的商户日交易量预测方法及系统 | |
Tule et al. | A composite index of leading indicators of unemployment in Nigeria | |
Yang et al. | Temporal and spatial Taylor's Law: Application to Japanese subnational mortality rates | |
JP2022057644A (ja) | データ生成システム及びデータ生成方法 | |
Henzel et al. | Impact of time series clustering on fuel sales prediction results. | |
Bao et al. | Dynamic financial distress prediction based on Kalman filtering | |
JP2022002063A (ja) | 予測システムおよび予測方法 | |
Enck et al. | Using statistical process monitoring to identify us business cycle change points and turning points | |
Wanke | Evaluating efficiency in the Brazilian trucking industry |