JP2021128478A - データ処理システムおよびデータ処理方法 - Google Patents

データ処理システムおよびデータ処理方法 Download PDF

Info

Publication number
JP2021128478A
JP2021128478A JP2020021959A JP2020021959A JP2021128478A JP 2021128478 A JP2021128478 A JP 2021128478A JP 2020021959 A JP2020021959 A JP 2020021959A JP 2020021959 A JP2020021959 A JP 2020021959A JP 2021128478 A JP2021128478 A JP 2021128478A
Authority
JP
Japan
Prior art keywords
data
prediction
unit
prediction model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020021959A
Other languages
English (en)
Other versions
JP2021128478A5 (ja
JP7316233B2 (ja
Inventor
徹 渡辺
Toru Watanabe
徹 渡辺
将人 内海
Masahito Utsumi
将人 内海
郁雄 茂森
Ikuo Shigemori
郁雄 茂森
哲 伊藤
Satoru Ito
哲 伊藤
潤 山崎
Jun Yamazaki
潤 山崎
大輔 浜場
Daisuke Hamaba
大輔 浜場
洋 飯村
Hiroshi Iimura
洋 飯村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020021959A priority Critical patent/JP7316233B2/ja
Priority to US16/951,088 priority patent/US20210248481A1/en
Publication of JP2021128478A publication Critical patent/JP2021128478A/ja
Publication of JP2021128478A5 publication Critical patent/JP2021128478A5/ja
Application granted granted Critical
Publication of JP7316233B2 publication Critical patent/JP7316233B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】予測モデルの同定に用いるデータを適切に決定し得るデータ処理システムを提供する。【解決手段】予測モデルにより予測を行うデータ処理システムであって、データを記憶する記憶部から、予測モデルの同定に用いるデータを選定する選定部と、選定部により選定されたデータを用いて予測モデルの同定を行う処理部と、を備え、選定部は、記憶部から、所定の第1のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、第1のデータと異なる種類および/または条件の第2のデータとを選定する。【選択図】図1

Description

本発明は、データ処理システムおよびデータ処理方法に関し、例えば、予測モデルにより予測を行うデータ処理システムおよびデータ処理方法に適用して好適なものである。
電力事業、ガス事業等のエネルギー事業分野、通信事業分野、タクシーや配送業等の運送事業分野等では、需要家の需要に合わせた設備稼働、資源配分等を行うために、将来の需要量、決済価格等の予測が行われる。
例えば、日時変動する電力の需要に対して供給を計画するため、1時間先、2時間先、3時間先、翌日、1週間先、1か月先、1年先等の指定時間の需要(消費される電力量)の値の予測と、風力発電機、太陽光発電機等で発電される電力量の値の予測とが行われている。
ところで、電力、ガス等のエネルギーの現象の解析および/または予測では、誤差が発生し得る。そのため、解析の限界を想定し、解析および/または予測の誤差を縮小することが行われている。
より高い精度で需要予測をする装置として、所定の情報の予測値を含む予報データと、需要の実績値を含む第1実績データと、に基づいて需要の予測値を示す第1予測データを決定する第1予測決定部と、第1予測データが所定の条件を満たす場合、第1実績データと、所定の情報の実績値を含む第2実績データと、に基づいて需要の予測値を示す第2予測データを決定する第2予測決定部と、を備える、需要予測装置が示されている(特許文献1参照)。
特開2019−117601号公報
ここで、重回帰予測、決定木モデルを用いたベイズ最適な予測、確率関数から導出されるガウス過程を再現するガウス過程回帰を用いた予測の順に予測の精度が高くなる。また、確率モデルを正確に取り入れるほど、予測の精度は高くなる。
しかしながら、特許文献1に記載の需要予測装置においてガウス過程回帰を用いた予測を採用する場合、確率モデルの導出にサンプル数Nの二乗でメモリを消費するため、サンプリング期間を短くせざるを得ず、稀頻度事象(気温特異日、発電計画停止、燃料輸送余剰等)のサンプルのデータが抜けるおそれがある。
本発明は、以上の点を考慮してなされたもので、予測モデルの同定に用いるデータを適切に決定し得るデータ処理システム等を提案しようとするものである。
かかる課題を解決するため本発明においては、予測モデルにより予測を行うデータ処理システムであって、データを記憶する記憶部から、前記予測モデルの同定に用いるデータを選定する選定部と、前記選定部により選定されたデータを用いて前記予測モデルの同定を行う処理部と、を備え、前記選定部は、前記記憶部から、所定の第1のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、前記第1のデータと異なる種類および/または条件の第2のデータとを選定するようにした。
上記構成では、例えば、所定の第1のデータと、第1のデータと異なる種類および/または条件の第2のデータとが予測モデルの同定に用いられ、所定の第1のデータに不足していた因果関係を取入れた高精度な予測が実現される。上記構成では、予測モデルの同定に用いるデータから稀頻度事象のデータが抜けてしまう事態を回避することができるので、例えば、カーネル関数を用いた予測モデルを採用してサンプリング期間を短くすることで、メモリの消費量を抑えると共に、予測の精度を高めることができる。
本発明によれば、予測モデルの同定に用いるデータを適切に決定することができる。
第1の実施の形態によるデータ処理システムに係る構成の一例を示す図である。 第1の実施の形態によるデータ解析予測システムに係る構成の一例を示す図である。 第1の実施の形態によるデータ解析予測システムにおけるデータの流れを示すブロック図である。 第1の実施の形態によるデータ解析予測処理に係るフローチャートの一例を示す図である。 第1の実施の形態による観測時系列データクラスタリング処理に係るフローチャートの一例を示す図である。 第1の実施の形態によるデータおよびインデックス選抜処理に係るフローチャートの一例を示す図である。 第1の実施の形態による観測時系列データクラスタリング処理の中間結果の一例を示す図である。 第1の実施の形態による決定木モデル生成部による処理結果の一例を示す図である。 第1の実施の形態による予測子の重要度と序数とを記憶したテーブルの一例を示す図である。 第1の実施の形態による予測モデルの同定に用いる訓練データを保持したテーブルの一例を示す図である。 第1の実施の形態による重ね合せグラフの一例を示す図である。 第1の実施の形態によるデータ予測方法を用いた発電の予測制御システムの一例を示す図である。
以下図面について、本発明の一実施の形態を詳述する。本実施の形態は、データを予測する技術に関する。本実施の形態に示す構成は、例えば、電力、ガス、燃料等のエネルギーの運用支援システムに適用して好適なものである。
例えば、本実施の形態に係るシステムは、予測対象のデータと説明変数のデータとの間のモデル(回帰式、自己回帰式、写像、確率写像)の解析および/または予測を行い得るシステムである。より具体的には、予測を行うシステムであって、構造的予測モデルを用いて、説明変数(または、予測子、入力データ)により、予測対象のデータ(または、予測出力、予測値、予測データ、出力データ)を予測(分類)する構造分析部と、予測モデル(説明変数と回帰または数理式)に基づいて予測を行う第1の予測部と、第1の予測部に転送する説明変数の種類および説明変数に添える期間、場所等のインデックスを構造分析部の出力から決定する決定部とを備える。
なお、構造的予測モデルは、具体的には、ネットワーク構造であり、更に具体的には、木構造である。予測モデルは、具体的には、カーネル関数を用いた予測モデルであり、更に具体的には、ガウス過程回帰を用いた予測モデルである。
(1)第1の実施の形態
図1において、100は全体として第1の実施の形態によるデータ処理システムを示す。
図1は、データ処理システム100に係る構成の一例を示す図である。
図1に示すデータ処理システム100は、電力事業分野で好適に採用できる。その場合、データ処理システム100は、観測データおよび/または配信データに基づいて、将来の所定の期間の電力の需要量を予測する。または、データ処理システム100は、過去の電力の発電市場決済価格の実績量に基づいて、将来の所定の期間の電力の発電市場決済価格を予測する。
ここで、データ処理の目的は、入力、出力と呼ばれるデータの背後にある定量的な関係を解析したり、統計的に関係を推定、回帰、復元したり、関係の構造を特定したり、またその関係に基づいて新たな入力データと対となる出力データを推定したりすることである。一般に、出力データが将来時刻についての値である場合は、当該出力データを推定することを予測するという。特に、限定しない場合は、予測を含めて推定と記すことがある。
予測結果に基づいて、電力事業者は、円滑な電力の需給管理を可能にする。ある電力事業者は、自社設備による発電機の運転計画を的確に策定して、それを実行することができる。また、電力事業者は、他の電力事業者に発電を委託する電力調達の取引計画についても、的確に策定して実行することができる。
データ処理システム100は、データ解析予測システム110、情報入出力端末120、計画実行管理装置130、データ観測装置140、およびデータ配信装置150を含んで構成される。データ解析予測システム110、情報入出力端末120、計画実行管理装置130、データ観測装置140、およびデータ配信装置150は、通信経路101を介して通信可能に接続される。
通信経路101は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)である。ただし、通信経路101は、データ処理システム100を構成する各種装置および端末を互いに通信可能に接続できれば他の形態でもかまわない。
データ解析予測システム110は、データ格納装置111および解析予測演算装置112を含んで構成される。
データ格納装置111は、入力を構成するデータと、出力を構成する予測対象のデータとを格納可能である。入力を構成するデータは、観測データ、配信データ、データへのインデックスのデータ等である。
データ格納装置111は、入力のデータと出力のデータとの間の関係の解析の処理、および/または、出力の推定(または予測)の処理のためにデータを提供する。解析および/または推定の処理に提供される入力のデータおよび出力のデータ、または、処理への提供に備えて記録されるデータを「標本データ」と記す。
データ格納装置111は、情報入出力端末120から標本データの格納範囲をはじめとする設定入力を受付け可能な構成を備える。また、データ解析予測システム110が記憶するデータまたは出力するデータは、情報入出力端末120で表示することも可能である。
解析予測演算装置112は、図2を用いて後述するように、標本データに基づいて、入力と出力との関係を求める解析処理を行い、この関係に基づいて予測対象のデータ(出力)を算出する。
情報入出力端末120は、データ格納装置111、解析予測演算装置112、および計画実行管理装置130への設定入力の機能を構成する。
計画実行管理装置130は、解析予測演算装置112が算出した出力を基に、所定の目標を達成するための物理的な設備の運転計画の作成と実行とを行う。ここで、物理的な設備の運転計画とは、エネルギー分野においては、例えば、予測した将来のエネルギー需要値または予測した将来のエネルギー需要値に基づいて作成したエネルギー需要計画値を充足させるような、発電機の運転計画である。運転計画には、他の電力事業者の発電機に委託する発電量の計画値が含まれることがある。
データ観測装置140は、不図示の予測対象を定期的に計測し、計測データを、データ格納装置111と解析予測演算装置112とのうち少なくとも1つに送信する。計測データは、電力の消費を計測する計測器データ、送電線に接続された発電機の発電量である発電端メーターのデータ、発電市場決済価格のデータ等である。
データ配信装置150は、データ処理システム100の外部からのデータを受信し、データ格納装置111と解析予測演算装置112と少なくとも1つに送信する。データ配信装置150は、データの受信のために、不図示の気象観測装置および数値気象予測装置、送電線に設置した気象計測装置(気温、水蒸気量の気象データを計測)、送電線の電流計測装置、大口需要設備の管理装置、電力取引市場の管理装置、燃料取引市場の管理装置、傭船事業の管理装置、鉄道事業用設備の管理装置、および通人事業用設備の管理装置のうち少なくとも1つと接続する。なお、気象観測装置および数値気象予測装置は、気象会社、気象庁等の気象機関に設置されていてもよい。
データ配信装置150は、気象実績データと、数値気象予測データと、送電電流データと、大口需要設備の稼働データと、電力取引データと、燃料取引データと、燃料輸送等の傭船の稼働データと、鉄道事業用の稼働データと、通信事業用設備の稼働データとのうち少なくとも1つを受信する。
また、データ配信装置150は、警察、消防の機関、新聞社等の報道機関等のデータ配信装置と接続し、これら機関から発信される、災害、事故、行楽等のイベントのデータを受信する。
データ処理システム100の予測対象(出力)には、例えば、電力、ガス、水道等のエネルギー消費量データ、太陽光発電、風力発電等のエネルギーの生産量データ、または、一例として、日本卸電力取引所(JEPX)で取引されるエネルギーの取引量、発電市場決済価格等がある。
また、入力には、例えば、気温、湿度、日射量、風速、気圧等の気象データ、年月日、曜日、任意に設定した日の種別を示すフラグ値等の暦日データ、台風やイベント等の突発事象の発生有無を示すデータ等がある。
これら以外にも、入力には、エネルギーの消費者数、産業動向、景況指数等の経済状況を示すデータ、特急列車の乗車率、乗車客数、予約席数、または道路交通状況等の人、移動体等の移動状況を示すデータ、原油、天然ガス、石油等の燃料のFOB(Free on Board)価格(本船甲板渡し条件価格)、DES(Delivered Ex Ship)価格(向港着船渡し条件価格)、先物限月価格のデータ等がある。
(データ解析予測システムの具体的な構成)
図2は、データ解析予測システム110に係る構成の一例を示す図である。図2は、データ解析予測システム110を構成するデータ格納装置111のハードウェア構成および機能構成と解析予測演算装置112のハードウェア構成および機能構成との一例を示す。
データ格納装置111は、CPU(Central Processing Unit)211、入力装置212、出力装置213、通信装置214、および記憶装置215を含んで構成される。データ格納装置111は、例えば、パーソナルコンピュータ、サーバコンピュータ、またはハンドヘルドコンピュータ等のデータ処理装置である。
CPU211は、データ格納装置111の動作を統括的に制御する。入力装置212は、キーボード、マウス等である。出力装置213は、ディスプレイ、プリンタ等である。通信装置214は、無線LANまたは有線LANに接続するためのNIC(Network Interface Card)を備えて構成される。記憶装置215は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスクドライブ等の記憶媒体である。なお、データ格納装置111は、各処理部の出力結果、中間結果を、出力装置213を介して適宜出力してもよい。
記憶装置215には、観測データ記憶部221、配信データ記憶部222等のデータベースが格納されている。
観測データ記憶部221には、データ観測装置140から受信した、予測対象を定期的に計測し、計測データyの値が観測した時刻、場所といった検索のためのインデックスt(複数の情報をインデックスするとするときにはtはベクトル)を添えて保持されている。この保持されたデータを出力y(t)と記す。
配信データ記憶部222には、データ配信装置150から受信した、気象実績データ、数値気象予測データ、送電電流データ、大口需要設備の稼働データ、電力取引データ、燃料取引データ、燃料輸送等の傭船の稼働データ、鉄道事業用の稼働データ、通信事業用設備の稼働データ等のデータが各々の名称、発生時刻、発生場所等の検索のためのインデックスtを添えて保持されている。この保持されたデータを入力x(t)と記す。特に、x(t)が数値気象予測データのように将来予測のデータである場合には、入力x*(t)と記すことがある。特に、「予測入力x*(t)」と将来予測のデータであることを記すこともある。
データ解析予測システム110では、予測対象の実績値yが観測データ記憶部221に保持され、予測対象の将来の値である推定のデータy*を出力する。予測対象の実績値yは、例えば、関東エリアの送電線の電力需要の計測システムの出力、指定された需要家の計器の合算を求めるシステムの出力、発電市場決済価格の決定システムの出力等である。なお、データy*は、予測対象の背景にある装置およびシステムの出力にあたるため、出力のデータ、出力データ、または単に出力と記すことがある。エリアは、関東エリア、関西エリア、北海道エリアのように複数のエリアがある。データ解析予測システム110では、各々のエリアでの予測対象の実績値yの保持と、将来の値である推定のデータy*を出力する処理が可能である。
解析予測演算装置112は、CPU231、入力装置232、出力装置233、通信装置234、および記憶装置235を含んで構成される。解析予測演算装置112は、例えば、パーソナルコンピュータ、サーバコンピュータまたはハンドヘルドコンピュータ等のデータ処理装置である。CPU231、入力装置232、出力装置233、通信装置234、および記憶装置235は、基本的には、CPU211、入力装置212、出力装置213、通信装置214、および記憶装置215と同様である。
記憶装置235には、決定木モデル生成部241、データ選抜序数算出部242、データおよびインデックス選抜部243、選抜データ転送処理部244、予測モデル同定部245、第一予測処理部246等の各種コンピュータプログラムが格納されている。
加えて、記憶装置235には、誤差評価部247のコンピュータプログラムが格納されていてもよい。例えば、誤差評価部247からデータおよびインデックス選抜部243へのフィードバックが行われる。
加えて、記憶装置235には、第二予測処理部248、重ね合せ処理部249等の各種コンピュータプログラムが格納されていてもよい。第二予測処理部248および重ね合せ処理部249によれば、例えば、通年のn個のデータを用いた予測と、直近のn’(<n)個のデータを使った短期モデルでの精密な予測(予測手段)との出力を比較して、例えば、外れが大きければ短期モデルに折込が足りていないデータがあったことを検知することができる。
また、解析予測演算装置112は、各処理部の出力結果、中間結果等は、出力装置233を介して適宜出力してもよい。
(データ解析予測システムにおける処理の内容)
図3〜図11を参照して、データ解析予測システム110の処理およびデータフローについて説明する。
図3は、データ解析予測システム110におけるデータ(信号)の流れを示すブロック図である。図3の各処理部の処理は、符合番号を示した図4の各ステップとして実行される。なお、図4のステップS402の詳細については、図5を用いて説明し、図4のステップS404の詳細については、図6を用いて説明する。
図4は、データ解析予測システム110が行う処理(データ解析予測処理)に係るフローチャートの一例を示す図である。データ解析予測処理は、解析予測演算装置112が利用者からの入力操作を受け付けたことと、情報入出力端末120を介して予め設定した実行時刻が到来したこととの少なくとも1つを契機として始まる。
(ステップS401)
データ格納装置111は、データ観測装置140から「入力x」のデータおよび/または入力についての予測値である「入力x*」のデータを受信して配信データ記憶部222に記憶する。また、データ格納装置111は、データ配信装置150から「出力y」のデータを受信して観測データ記憶部221に記憶する。
(ステップS402)
解析予測演算装置112は、決定木モデル生成部241において、観測データ記憶部221のデータと、配信データ記憶部222のデータとから決定木モデルを生成する。決定木モデルは、大量のデータの中から規則性、関連性等の意味のあるデータの分類のルールを自動的に抽出する手法である。
決定木モデル生成部241は、分類対象を離散値とした決定木モデルを生成する。まず、決定木モデル生成部241は、予測対象の観測データ記憶部221のデータを所定の時間長(例えば、24時間、12時間、6時間のいずれか)の時系列データとして纏め(これを「観測時系列データ」と記す)、観測時系列データを、図5のフローチャートの手順に従い、周波数スペクトルを特徴量としたクラスタリング処理により離散化する。
図5は、決定木モデル生成部241により実行される処理(観測時系列データクラスタリング処理)に係るフローチャートの一例を示す図である。観測時系列データクラスタリング処理は、各エリアでの観測時系列データの概形等の特徴量が概類似している幾つかのクラスタ(需要パターン)に分類し、各クラスタを代表する情報としてクラスタ中心を算出する処理である。決定木モデル生成部241は、各エリアの観測時系列データおよび属性情報が与えられると、観測時系列データクラスタリング処理を開始する。
(ステップS501)
決定木モデル生成部241は、取得した観測時系列データを1〜M個のクラスタにそれぞれ分類した場合の各クラスタのクラスタ中心の集合{C:k=1、2、…、N}(ただし、Nは1からMのいずれかの値)を求める。なお、Mの理論上の最大は観測時系列の全数の値であるが、簡単のためにそれ以下の値に制限してもよい。
より具体的には、決定木モデル生成部241は、k-means法により、かかる観測時系列データを1個のクラスタに分類した場合のそのクラスタのクラスタ中心集合{C}、かかる観測時系列データを2個のクラスタに分類した場合の各クラスタのクラスタ中心集合{C、C}、かかる観測時系列データを3個のクラスタに分類した場合の各クラスタのクラスタ中心集合{C、C、C}、……のように、クラスタ数Nを順次1〜M個に変化させながら、観測時系列データを各クラスタに振り分け、そのときの各クラスタのクラスタ中心集合{C、C、C3、。。。、N}を求める。(なお、{C、C、C3、。。。、N}を{Ck}(k∈{1、2、…、N})と記す場合がある)
(ステップS502)
決定木モデル生成部241は、上述のクラスタリング処理の処理結果に基づいて、クラスタ数Nをいずれにするのが妥当かを評価するための指数(以下、「妥当性評価値」と記す)を算出するクラスタ数妥当性評価値算出処理を実行する。本実施の形態の場合、決定木モデル生成部241は、かかる妥当性評価値として、個々のクラスタ内における観測時系列データのまとまり度合いを表すクラスタ内適合度と、クラスタ同士の分離の度合いを表すクラスタ間平均分離度とを算出する。
(ステップS503)
決定木モデル生成部241は、ステップS502で算出したクラスタ内適合度およびクラスタ間平均分離度に基づいて、最適なクラスタ数を決定する。
以上の処理により、観測時系列データが適切なクラスタ数のクラスタに分類される。なお、ステップS501〜ステップS503については、国際公開第2015/133635号に記載の技術を適宜に援用することができる。
決定木モデル生成部241は、離散化した観測時系列データのクラスタ集合の葉「リーフ」にクラスタIDを付与する。
図7は、観測時系列データクラスタリング処理の中間結果の一例を示す図である。ここでは、観測時系列データを特徴量の近さからグループに分類した結果のクラスタは、14個となっている。決定木モデル生成部241は、生成したグループにユニークな番号(クラスタID)をつけ、観測時系列データの各々にクラスタIDを付与する。
次いで、決定木モデル生成部241は、観測時系列データの各々のクラスタIDを教師データとして、観測時系列データを分類する決定木モデルを生成する。より具体的には、決定木モデル生成部241は、配信データ記憶部222のデータを予測子(分岐条件)として、観測時系列データを分類する決定木モデルTrMを、決定木モデル生成のアルゴリズムを用いて生成する。
決定木モデル生成のアルゴリズムは、一般に知られるCART(Classification And Regression Trees)を用いる。他にID3(Iterative Dichotomiser 3)、CHAID(Chi-squared Automatic Interaction Detection)等のアルゴリズムを用いてもよい。
決定木モデル生成部241は、例えば、予測対象を支配的に決定する因子ほど上の方の枝「ブランチ」に出てくる決定木モデルを生成する。付言するならば、出力を識別するブランチは、説明変数に相当する。
図8は、決定木モデル生成部241による処理結果の一例を示す図である。決定木モデルのリーフは、クラスタIDとして表示している。観測時系列データの1つ1つは、決定木モデルの分岐条件である予測子と、当該予測子の値の条件により分類されている。予測子は、例えば、図8の図中の予測子表示801、予測子表示802、予測子表示803、予測子表示804の枠でかこった配信データであるところの変数である。予測子の値の条件は、例えば、図8の条件表示811、条件表示812、条件表示813、条件表示814の枠で囲った変数の大小関係や該当非該当の判別に使われる観測データの値である。
ここでは、前述の周波数スペクトルを特徴量として離散化したクラスタIDを教師データとして、決定木モデルをコンパクトにしたことで主要な予測子を抽出することが可能となっている。ただし、簡単のために、離散化の処理を省いて、観測時系列データを分類する決定木モデルを生成するようにしてもよい。
(ステップS403)
データ選抜序数算出部242は、決定木モデルTrMのルートから、リーフに至る各段階の分岐条件の配信データ種類および観測データについて、上位の分岐に重みが大きいガイド値を与えるようにしてもよい。好ましくは、決定木モデルのジニ係数として知られる、決定木モデルの中間のノードでの分類の前後のデータの不純度の減少量をガイド値としてもよく、また各同様に中間のノードでの分岐のエントロピーの減少量をガイド値としてもよい。複数の中間ノードでの分岐条件となっているデータ種類については、ガイド値を加重加算するようにしてもよい。
データ選抜序数算出部242は、すべての予測子(変数)について分割によるデータの不純度の減少量を合計し、この合計を分枝ノード数で除算した値を、学習した木における予測子(変数)の重要度とみなす。データ選抜序数算出部242は、分岐に用いる予測子の決定に、エントロピーの減少量をガイド値としたときには、エントロピーの減少量を合計し、この合計を分岐ノード数で除算した値を、学習した木における予測子(変数)の重要度とみなす。
データ選抜序数算出部242は、予測子の重要度の大きい順に、データの選抜に用いられる序数をデータ種類の各々に付与する。または、データ選抜序数算出部242は、学習した木の分岐の順(図8の例では予測子表示801、予測子表示802、予測子表示803、予測子表示804に囲われた予測子の順で、同一レベルにある場合には、分岐で分類する観測時系列データの個数が多いものを優先する)で序数を付与してもよい。
図9は、予測子の重要度と序数とを記憶したテーブルの一例を示す図である。
(ステップS404)
データおよびインデックス選抜部243は、後述の予測モデルの同定に用いるデータに追加する配信データおよび観測データの選択を行うためのデータとして決定技モデルTrMの分岐条件の予測子とその値を決定する。すなわち、データおよびインデックス選抜部243は、配信データの種類を示すデータ種リストsM、データのへのインデックスの集合を示すインデックスリストsTを決定する。なお、データ種リストsMは、配信データ記憶部222に保持されている配信データのM種の中から選択された種類を示す集合である。
以下では、予測対象を「9時の電力需要」として、後述の予測モデルの同定に用いる配信データの種類の標準設定として、「1日前9時電力需要」、「2日前9時電力需要」、「3日前9時電力需要」、「4日前9時電力需要」、「5日前9時電力需要」、「6日前9時電力需要」、「7日前9時電力需要」、「9時東京地点気温」、および「日種別」が設定されているものとして説明する。
気温に関しては、学習の処理では、予報気温にかわり実際の気温を用いるようにしてもよい。また、標本データとして用いる観測データについては、すべての観測データの中から、直近の30日分の観測データを選択するように標準設定している。これらの標準設定から選ばれるデータ(標準設定のデータ)に対して、稀頻度事象のデータの追加が行われ、予測モデルの同定に用いられる訓練データとされる。
ステップS404の処理の詳細を、図6のフローチャートと、図10の予測モデルの同定に用いる訓練データを保持したテーブルの一例(訓練データテーブル1000)とを参照して説明する。
図6は、データおよびインデックス選抜部243が行う処理(データおよびインデックス選抜処理)に係るフローチャートの一例を示す図である。
(ステップS601)
データおよびインデックス選抜部243は、1番目の序数の予測子のデータ種類xを読み取る。
(ステップS602)
データおよびインデックス選抜部243は、データ種類xが訓練データのデータ種類に選択済みであるか否かを判定する。データおよびインデックス選抜部243は、選択済みであると判定した場合、ステップS603に処理を移し、未選択であると判定した場合、ステップS604に処理を移す。
(ステップS603)
データおよびインデックス選抜部243は、次の序数の予測子のデータ種類を読み取り、ステップS602に処理を戻す。
(ステップS604)
データおよびインデックス選抜部243は、訓練データテーブル1000に保持する項目の指定に、選択したデータ種類xをデータ種リストsMに追加する。図10の例では、「3時神奈川地点気温」のデータ種類が、訓練データテーブル1000のデータ種類を指定するデータ種リストsMに追加される。
(ステップS605)
データおよびインデックス選抜部243は、訓練データテーブル1000に保持されるデータ種類の各々に関して、格納データをプレサーチする。より具体的には、データおよびインデックス選抜部243は、訓練データテーブル1000に指定されるデータ種類の予測子の各々について、予測対象の時刻tでの予報値(予測入力x*(t))を、データ格納装置111から検索する。
例えば、データおよびインデックス選抜部243は、「9時東京地点気温」を検索して、「9℃」といった検索結果(予報値)を得る。データおよびインデックス選抜部243は、決定木モデルTrMの分岐の値である条件値(例えば、図9で示すように序数が「2」となっている予測子の「9時東京地点気温」では、図8に示す例では条件表示812および条件表示813の枠内にあるように、「14℃以上/14℃未満」、「10℃以上/10℃未満」である)を参照し、予測入力x*(t)(ここでは、予測入力x*(t)に最も近い条件「10℃」>予測入力x*(t)「9℃」)に該当するサンプル(観測時系列データ)が訓練データテーブル1000の基本サンプル(標準設定のデータ)の中に含まれるかを検索する。
データおよびインデックス選抜部243は、基本サンプルに含まれない場合には、決定木モデルTrMの当該分岐より先の部分木に分類されている観測時系列データのインデックス情報を取得し、訓練データの追加のサンプル(選抜データ)となるように、観測時系列データのインデックスリストsTに追加する。例えば、図8に示す例では、インデックスリストsTには、「日種別」が「3連休日以外」であり、「9時東京地点気温」が「10℃未満かつ9℃以上」であるサンプルを示す情報(例えば、サンプリング日)が追加される。
また、例えば、データおよびインデックス選抜部243は、「3時神奈川地点気温」を検索して、「17℃」といった検索結果(予報値)を得る。データおよびインデックス選抜部243は、決定木モデルTrMの分岐の値である条件値(例えば、図9で示すように序数が「4」となっている予測子の「3時神奈川地点気温」では、図8に示す例では条件表示813および条件表示814の枠内にあるように、「16℃以上/16℃未満、12℃以上/12℃未満」である)を参照し、予測入力x*(t)(ここでは、予測入力x*(t)に最も近い条件「16℃」≦予測入力x*(t)「17℃」)に該当するサンプルが訓練データテーブル1000の基本サンプルの中に含まれるかを検索する。
データおよびインデックス選抜部243は、基本サンプルに含まれない場合には、決定木モデルTrMの当該分岐より先の部分木に分類されている観測時系列データのインデックス情報を取得し、訓練データの追加のサンプル(選抜データ)となるように、観測時系列データのインデックスリストsTに追加する。例えば、図8に示す例では、インデックスリストsTには、「日種別」が「3連休日以外」であり、「9時東京地点気温」が「14℃以上」であり、「3時神奈川地点気温」が「16℃以上かつ17℃未満」であるサンプルを示す情報(例えば、サンプリング日)が追加される。
図10に示した一例では、インデックス情報には、サンプリング日の情報を用いており、「9時東京地点気温」が予報値の「9℃」に該当する、決定木モデルTrMの部分木に分類される観測時系列データのサンプリング日の、「2018年10月3日(水)」、「2018年10月10日(水)」、「2018年9月27日(木)」がインデックスリストsTに追加されている。また、「3時神奈川地点気温」の予報値「17℃」に該当するサンプリング日の、「2017年10月4日(水)」、「2017年10月3日(火)」、「2017年10月1日(日)」がインデックスリストsTに追加されている。
このように、ステップS605では、標準設定のデータのデータ種の予報値をもとに標準設定のデータに不足しているデータが追加されるようにインデックスリストsTが生成される。更に、ステップS605では、生成される決定木モデルをもとに、標準設定のデータのデータ種にないデータ種がデータ種リストsMに追加されると共に、追加されたデータ種については、当該データ種の予報値をもとに標準設定のデータに不足しているデータが追加されるようにインデックスリストsTが生成される。
(ステップS606)
データ種類とデータインデックスの追加において、データおよびインデックス選抜部243は、訓練データの数が、上限数NN(所定値であり、例えば、8000個)以下であるか否かを判定する。データおよびインデックス選抜部243は、訓練データの数が上限数NNであると判定した場合、ステップS603に処理を戻し、予定個数の上限までの選抜データのデータ種リストsMおよびインデックスリストsTを生成する。
好ましくは、訓練データの上限数NNは、パラメータとして変更可能な形態をとり、上限数NNの初期値は、小さい値(例えば、500)とし、後述の誤差評価部247の誤差評価値deltaの減少が続く範囲で、上限数NNの値を増加させるように変更するようにしてもよい。これにより必要かつ充分な訓練データによる予測モデルの同定が実行される。
(ステップS405)
選抜データ転送処理部244は、少なくとも選抜データのデータ種リストsMと、インデックスリストsTに従い「入力」と「出力」のデータを選抜データとして選択し、通信装置234、通信装置214を介してデータ格納装置111から取得する。また、インデックスリストsT以外に、直近の2週間等の期間を標準的に利用するデータ(標準設定のデータ)の期間としてデータインデックスとして設定し、該当するインデックスのデータをデータ格納装置111から合せて取得する。
(ステップS406)
予測モデル同定部245は、前述の選抜データと標準設定のデータ(xi,yi)[i∈sM×(sT ∪ sTs)](このデータの組の集まりを訓練データと記す)を用いて、予測対象の予測値を算出するための予測モデルを同定する。予測モデルの同定は、例えば、説明変数とするデータが、x1とx2との2種である場合と、予測モデルが多変量回帰モデルの重回帰モデルである場合、予測モデルは、下記(式1)で与えられる。
y*=a×x1 + b×x2 + c ・・・(式1)
y* :目的変数
a、b :偏回帰係数
c :定数項(切片)
x1、x2:説明変数
予測対象の予測モデルについては、上述のモデルに限らず、他の公知の手法を適用してよい。公知の手法とは、以下に例示列挙するものをいう。例えば、重回帰モデル等の線形回帰モデル、ロジスティック回帰等の一般化線形モデル等の線形性を仮定する手法、ARX(AutoRegressive with Exogenous)モデル等の自己回帰性を仮定する手法、Ridge回帰、Lasso回帰、ElasticNet等の縮小推定器を利用する手法、部分最小二乗法、主成分回帰等の次元縮退器を利用する手法、多項式を用いた非線形モデル、サポートベクトル回帰、回帰木、ガウス過程回帰、ニューラルネット等のノンパラメトリック、と呼ばれる手法である。好ましくは、ガウス過程の近似出力をデータからの回帰によりガウス過程回帰をはじめとするカーネル関数を用いたアルゴリズム(カーネル関数予測方式)を適用することで、予測を高い精度で達成することができる。本実施の形態の予測モデル同定部245は、同定したガウス過程回帰モデルGpM(Gauss Pseudospectral Method)を出力する。
なお、一般には、確率変数がランダムな試行の結果で値の決まる変数であるのに対し、パラメータ集合Tによって、インデックスを付けられた確率変数の集まり{X(t)|t∈T}を確率過程と呼ぶ。Tが時間を表す場合には、確率過程は、時間の経過に従ってランダムに変化する値の系列となる。
ただし、本実施の形態では、Tは、時間を示す集合に限定しない。ここで、t∈Tは、入力と出力のデータ(予測対象の観測データや配信データ)についての、データを特定するインデックスであればよい。例えば、地点インデックスや空間座標のインデックスであってもよく、時刻インデックス、地点インデックスと時刻インデックスの組番号インデックスであってもよく、データ観測装置の各々を特定する計器インデックスであってもよく、予測対象の値xが特定の範囲Yにあることを示すインデックスz(z∈Z,Z={t|X(t)⊆Y)})であってもよく、予測対象の値を分類する木構造の分岐情報を示す予測子であってもよい。
(ステップS407)
解析予測演算装置112の第一予測処理部246は、将来の気温といった将来データの入力x*、および過去の配信データを入力とした入力xと、ガウス過程回帰モデルGpMとを用いて予測対象の予測値である出力y*を算出する。
なお、入力xとするデータの中には、過去の予測対象の出力y、過去に行った予測の出力y*を含めるようにしてもよい。例えば、予測を実行する日の前日の12時の需要値y(t12)を入力x(xは、ベクトル)の要素の1つとする。予測は、例えば、(式1)にx1、x2の各々に、入力x*の要素x1*、x2*の値が代入されてyの値を算出して、出力y*として出力されることを意味する。
(ステップS408)
解析予測演算装置112は、第二予測処理部248において、決定木モデルTrMと、将来の気温といった将来データの入力x*および/または過去の配信データを入力とした入力xと、過去の予測対象の出力である観測データyと、を用いて予測対象についての第二の予測値である出力y〜を算出する。例えば、解析予測演算装置112は、配信データおよび観測データで、決定木の分岐条件を順に判定し、予測を行う。さらに、解析予測演算装置112は、分岐条件の値が未確定であるときには、決定木モデルに基づくベイズ最適な予測アルゴリズムとして知られている予測計算を行う。
(ステップS409)
解析予測演算装置112は、誤差評価部247において、観測データ記憶部221と配信データ記憶部222とのデータを、乱数を用いて所定の複数組(例えば、20組)だけ選択し、そのデータでの予測を試行し、実際の予測対象の過去の出力yとを比較した予測誤差の平均値を誤差評価値として出力するようにしてもよい。
(ステップS410)
重ね合わせ処理部249は、第一予測処理部246の出力y*に係る情報と、第二予測処理部248の出力y〜に係る情報を重ね合わせたグラフ(重ね合せグラフ)を出力する。
図11は、重ね合せグラフの一例を示す図である。横軸は、時間であり、「0」が現時刻で10時刻先の予測の時刻を例示している。縦軸は、「−1」から「1」の値を取るように正規化された予測対象の出力の値である。第一予測処理の出力y*の値1101(実線)と、予測対象がガウス過程回帰による90%予測区間の幅1102とが出力されている。さらに、第二予測処理の出力y〜の値1103(点線)が出力されている。
なお、一般に、確率過程(stochastic process)は、時間とともに変化する確率変数を意味し、ガウス過程(Gaussian process)は、連続時間の確率過程の一種である。確率過程{Xt}t∈Tから、任意に(有限個の)Xt1,...,Xtkを選んで作った線型結合は、正規分布に従うとき、{Xt}t∈Tは、ガウス過程と呼ばれている。
図12は、データ予測方法を用いた発電と蓄電の予測制御システム1200の構成の一例を示す図である。
データ解析予測システム110では、電力需要の4時間後の予測値を出力している。計測制御装置1210は、通常使用する発電1号機1220の現在の発電出力、および、発電出力の4時間のうちでの変更可能量である出力変更速度を計測し、4時間後の需要を満たすための発電余力が不足している場合には、予備の発電機(例えば、発電機2号機1230)の起動を指令する予測制御を行う。発電1号機1220および発電2号機1230が発生した電力は、変電設備1240により電圧の昇圧が行われ、送電網1250を介して送電される。
(総括)
データ解析予測システム110は、以下のように総括してもよい。
[1]データ解析予測システム110は、決定木モデルの構造を用いて、説明変数(または、予測子、入力データ、出力)により、予測対象のデータ(または、予測出力、予測値、予測データ、出力データ、出力)を予測(分類)する構造分析手段を備える。また、データ解析予測システム110は、長期(1年から2年)のデータを解析し、予測に必要なデータの種類と、データのサンプリングの時刻や場所等の条件を決定するデータ選択手段を備える。好ましくは、データ解析予測システム110は、予測処理における説明変数の種類および説明変数に添える期間や場所等のインデックスを構造分析手段の出力から決定する変数およびインデックス決定手段を備える。
[2]データ解析予測システム110は、データ選択手段で選択したデータを用いて、カーネル関数を用いた予測モデルの同定と予測の処理を行うカーネル関数予測手段を備える。
[3]データ解析予測システム110は、好ましくは、決定木モデルに基づく予測手段を備える。
[4]データ解析予測システム110は、好ましくは、カーネル関数に基づく予測出力の情報と決定木モデルに基づく予測出力の情報とを表示する予測表示手段を備える。
(本実施の形態の効果)
カーネル関数を用いる統計的機械学習における訓練データとして採用される標本データの種類数Mに比例してメモリが必要になるに留まらず、採用される標本数Kの二乗で比例してメモリおよび演算量が必要となる。一例では、計測器信号から生成した5分刻みデータを1年分扱うには、n=105120となり、おおよそ800テラバイトのメモリが必要となる。このため、標本データを直近期間に限定するといった場当たり的な標本データの選抜が行われ、高精度な予測の妨げとなる。
本発明の適用の一例では、発電市場決済価格の標本データから、タンカーの通常基準値を超える沖待ち時間(輸送燃料の陸揚げを海上で待つ待ち時間)の発生と、年平均を上回る日射量の発生とが、上位の序数の予測子しとして構造解析され、これらの事象に該当する標本データのインデックスが選択インデックス集合に追加され、解析予測装置のK×K統計量解析処理部に自動的に転送される。
本システムによれば、長期(一例では、2年)にわたる標本データの構造解析(すなわち決定木モデルの生成)により、予測子(構造解析における条件分岐)に序数を与え、序数の上位の予測子にあたる入力データの項目i種(i∈M)にかかわり、予測子が有意な値をとる標本データを選抜に加えることが実現される。全ての標本(標本数N)を利用した仮想の予測に比べ、メモリ量および演算量は、Kの二乗に比例して削減(削減量=N−K)できる、かつ直近期間での標本データに不足していた因果関係を取入れた高精度な予測が実現される。
また、図11に例示されるように、メモリ制約が緩和されている第二予測処理で、1年から2年の標本データを用いた予測を行った結果と、第一予測処理の予測結果および予測区間の計算結果とを比較可能な出力が行われることでの副次的な効果がある。例えば、利用者は、予測結果に大きな違いがないこと、または予測結果に違いがあるときには、予測モデルの同定のための標本データの偏りにより過学習が起きている(例えば、予測区間の幅は狭いが、2つの予測値に相違がある)であるとか、標本データが足りていない(予測区間の幅が大きいが、予測値に相違があり安定していない)であるといったことが、利用者自身により判断する支援情報として活用され得る。
以上、本実施の形態のデータ解析予測システムによる、予測値の説明性と予測値の誤差を低減させ得た効果の説明である。
なお、本データ解析予測システムが有益と認められる背景には、緊急電力融通を困難にする昨今の社会環境があり、その原因には、発送電分離を始めとする電力供給体制の変更もある。すなわち、電力会社において、発電、送配電、および電力販売の3事業に対する企業実態が、従来は単一経営で迅速制御も容易であったところ、昨今になって3分割された例もある。
この例によれば、3分割等の発送電分離が原因で緊急電力融通するための迅速制御も困難、かつコスト増大に直結するという事情がある。これに対し、本データ解析予測システムは、緊急電力融通を未然に予知して低減させることが可能な高精度の電力需要予測を実現して社会貢献するものである。
さらに、本データ解析予測システムが有益と認められる背景には、近年のコンピュータの集積回路の高集積化により、理論式にかわり多様な回帰モデルによる予測が、実業務での処理時間に対応できるようになった反面、理論的な数式や構造モデルが明示されない回帰では非常時に適したデータの内挿および外挿が行われているかの確認の手段がなく、実業務での異常処理に適さないという事情がある。これに対し、本データ解析予測システムは、予測値が決定されるまでの段階を、木構造で正順に並べられた入力データである予測子を読み取ることで、確認させ得ることで、利用者に予測値に基づく適切な業務遂行を実現して、社会貢献するものである。
(2)付記
上述の実施の形態には、例えば、以下のような内容が含まれる。
上述の実施の形態においては、本発明をデータ処理システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラムに広く適用することができる。
上述の実施の形態においては、データ格納装置111の機能(観測データ記憶部221、配信データ記憶部222等)は、例えば、CPU211がROMに格納されたプログラムをRAMに読み出して実行すること(ソフトウェア)により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、データ格納装置111の機能の一部は、データ格納装置111と通信可能な他のコンピュータにより実現されてもよい。
上述の実施の形態においては、解析予測演算装置112の機能(決定木モデル生成部241、データ選抜序数算出部242、データおよびインデックス選抜部243、選抜データ転送処理部244、予測モデル同定部245、第一予測処理部246等)は、例えば、CPUがROMに格納されたプログラムをRAMに読み出して実行すること(ソフトウェア)により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、解析予測演算装置112の機能の一部は、解析予測演算装置112と通信可能な他のコンピュータにより実現されてもよい。
また、上述の実施の形態において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部または一部が1つのテーブルであってもよい。
また、上述の実施の形態において、説明の便宜上、XXテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、XX情報等と表現してもよい。
また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
上述した実施の形態は、例えば、以下の特徴的な構成を有する。
予測モデル(例えば、線形性を仮定する手法、自己回帰性を仮定する手法、縮小推定器を利用する手法、次元縮退器を利用する手法、ノンパラメトリックと呼ばれる手法、または、カーネル関数を用いた手法、の予測モデル)により予測を行うデータ処理システム(例えば、データ処理システム100、データ解析予測システム110)であって、データを記憶する記憶部(例えば、記憶装置235、解析予測演算装置112、記憶装置215、データ格納装置111、データ観測装置140、データ配信装置150)から、前記予測モデルの同定に用いるデータを選定する選定部(例えば、解析予測演算装置112、データおよびインデックス選抜部243並びに選抜データ転送処理部244)と、前記選定部により選定されたデータを用いて前記予測モデルの同定を行う処理部(例えば、解析予測演算装置112、予測モデル同定部245)と、を備え、前記選定部は、前記記憶部から、所定の第1のデータ(例えば、所定の期間のデータ、標準設定のデータ)と、構造的予測モデルの構造データにおける分岐条件をもとに、前記第1のデータと異なる種類(例えば、データ種)および/または条件(例えば、分岐条件の値)の第2のデータ(例えば、選抜データ)とを選定する。
上記構成では、例えば、所定の第1のデータと、第1のデータと異なる種類および/または条件の第2のデータとが予測モデルの同定に用いられ、所定の第1のデータに不足していた因果関係を取入れた高精度な予測が実現される。上記構成では、予測モデルの同定に用いるデータから稀頻度事象のデータが抜けてしまう事態を回避することができるので、例えば、カーネル関数を用いた予測モデルを採用してサンプリング期間を短くすることで、メモリの消費量を抑えると共に、予測の精度を高めることができる。
前記記憶部に記憶されているデータを用いて、前記構造的予測モデルの構造データとして、予測対象(例えば、電力、ガス、水道等のエネルギー消費量データ、太陽光発電、風力発電等のエネルギーの生産量データ、または、日本卸電力取引所(JEPX)で取引されるエネルギーの取引量、発電市場決済価格)を支配的に決定する分岐条件である予測子ほど上位に現れる決定木モデルを生成する生成部(例えば、解析予測演算装置112、決定木モデル生成部241)と、前記生成部により生成された決定木モデルにおける予測子に、前記選定部におけるデータの選定に用いられる序数を付与する付与部(例えば、解析予測演算装置112、データ選抜序数算出部242)と、を備え、前記選定部は、前記付与部により付与された序数に従って、所定の数(例えば、上限数NN)に達するまで、前記記憶部から前記第2のデータを選定する。
上記構成では、決定木の生成により、予測子に序数が与えられ、序数の上位の予測子が有意な値をとるデータが選定される。例えば、カーネル関数を用いた予測モデルの同定を行う場合、全てのデータ(N)を利用した仮想の予測に比べ、メモリ量および演算量は、第1のデータ数と第2のデータ数との和(K)の二乗に比例して削減(削減量=N−K)される。
ここで、稀頻度事象に係る予測子(説明変数)は、相対的に重要度が高くなる。よって、例えば、予測子の重要度が大きい順に序数が与えられた場合、サンプリング期間(所定の期間)を短くしたとしても、予測モデルの同定では、序数の上位の予測子が有意な値をとる第2のデータが用いられるので、稀頻度事象のデータが抜けてしまう事態を回避することができるようになる。
このように、上記構成によれば、メモリの消費量を抑え、かつ、予測モデルの同定に用いるデータから稀頻度事象のデータが抜けてしまう事態を回避することができる。
前記予測モデルは、カーネル関数を用いた予測モデルである。
上記構成では、カーネル関数を用いた予測が行われるので、重回帰予測、決定木モデルを用いたベイズ最適な予測等よりも、高精度な予測が実現される。
前記記憶部に記憶されているデータを用いて、前記生成部により生成された決定木モデルによる予測を行う第二の処理部(例えば、解析予測演算装置112、第二予測処理部248)と、出力を行う出力部(例えば、解析予測演算装置112、重ね合せ処理部249)と、を備え、前記処理部(例えば、第一予測処理部246)は、前記予測モデルによる予測を行い、前記出力部は、前記処理部の予測の結果と、前記第二の処理部の予測の結果とを出力する。
なお、前記出力部は、前記処理部の予測の結果と前記第二の処理部の予測の結果とを、情報入出力端末120に表示してもよいし、ファイルとして情報入出力端末120に送信してもよいし、出力装置233で印刷してもよいし、その他の出力を行ってもよい。
上記構成では、処理部の予測の結果と、第二の処理部の予測の結果とが出力されるので、例えば、これらの結果が重ね合わせて表示された場合には、利用者は、予測結果に大きな違いがないことを確認できるようになる。また、利用者は、予測結果に違いがあるときには、選定されたデータの偏りにより過学習が起きているであるとか、選定されたデータが足りていないといったことを確認できるようになる。
また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。
「A、B、およびCのうちの少なくとも1つ」という形式におけるリストに含まれる項目は、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)または(A、B、およびC)を意味することができると理解されたい。同様に、「A、B、またはCのうちの少なくとも1つ」の形式においてリストされた項目は、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)または(A、B、およびC)を意味することができる。
100……データ処理システム、110……データ解析予測システム、112……解析予測演算装置。

Claims (5)

  1. 予測モデルにより予測を行うデータ処理システムであって、
    データを記憶する記憶部から、前記予測モデルの同定に用いるデータを選定する選定部と、
    前記選定部により選定されたデータを用いて前記予測モデルの同定を行う処理部と、
    を備え、
    前記選定部は、前記記憶部から、所定の第1のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、前記第1のデータと異なる種類および/または条件の第2のデータとを選定する、
    データ処理システム。
  2. 前記記憶部に記憶されているデータを用いて、前記構造的予測モデルの構造データとして、予測対象を支配的に決定する分岐条件である予測子ほど上位に現れる決定木モデルを生成する生成部と、
    前記生成部により生成された決定木モデルにおける予測子に、前記選定部におけるデータの選定に用いられる序数を付与する付与部と、
    を備え、
    前記選定部は、前記付与部により付与された序数に従って、所定の数に達するまで、前記記憶部から前記第2のデータを選定する、
    請求項1に記載のデータ処理システム。
  3. 前記予測モデルは、カーネル関数を用いた予測モデルである、
    請求項1に記載のデータ処理システム。
  4. 前記記憶部に記憶されているデータを用いて、前記生成部により生成された決定木モデルによる予測を行う第二の処理部と、
    出力を行う出力部と、
    を備え、
    前記処理部は、前記予測モデルによる予測を行い、
    前記出力部は、前記処理部の予測の結果と、前記第二の処理部の予測の結果とを出力する、
    請求項2に記載のデータ処理システム。
  5. 予測モデルにより予測を行うデータ処理システムにおけるデータ処理方法であって、
    選定部が、データを記憶する記憶部から、前記予測モデルの同定に用いるデータを選定することと、
    処理部が、前記選定部により選定されたデータを用いて前記予測モデルの同定を行うことと、
    を備え、
    前記選定部は、前記記憶部から、所定の第1のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、前記第1のデータと異なる種類および/または条件の第2のデータとを選定する、
    データ処理方法。
JP2020021959A 2020-02-12 2020-02-12 データ処理システムおよびデータ処理方法 Active JP7316233B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020021959A JP7316233B2 (ja) 2020-02-12 2020-02-12 データ処理システムおよびデータ処理方法
US16/951,088 US20210248481A1 (en) 2020-02-12 2020-11-18 Data Processing System and Data Processing Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020021959A JP7316233B2 (ja) 2020-02-12 2020-02-12 データ処理システムおよびデータ処理方法

Publications (3)

Publication Number Publication Date
JP2021128478A true JP2021128478A (ja) 2021-09-02
JP2021128478A5 JP2021128478A5 (ja) 2022-05-11
JP7316233B2 JP7316233B2 (ja) 2023-07-27

Family

ID=77177599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020021959A Active JP7316233B2 (ja) 2020-02-12 2020-02-12 データ処理システムおよびデータ処理方法

Country Status (2)

Country Link
US (1) US20210248481A1 (ja)
JP (1) JP7316233B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537966B2 (en) * 2020-06-19 2022-12-27 Demand Driven Technologies, Inc. Systems and methods for use of a global registry with automated demand profiling via machine learning to optimize inventory management
US11620274B2 (en) * 2021-04-30 2023-04-04 Intuit Inc. Method and system of automatically predicting anomalies in online forms

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091505A (ja) * 2000-09-14 2002-03-29 Toshiba Corp モデル同定装置
WO2017168458A1 (ja) * 2016-03-28 2017-10-05 日本電気株式会社 予測モデル選択システム、予測モデル選択方法および予測モデル選択プログラム
JP2018092439A (ja) * 2016-12-05 2018-06-14 株式会社日立製作所 データ処理システム及びデータ処理方法
JP2019117601A (ja) * 2017-12-27 2019-07-18 株式会社東芝 需要予測装置、需要予測方法及びコンピュータプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002337521A (ja) * 2001-05-18 2002-11-27 Denso Corp タイヤ空気圧推定装置
JP5950284B2 (ja) * 2013-12-13 2016-07-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 処理装置、処理方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091505A (ja) * 2000-09-14 2002-03-29 Toshiba Corp モデル同定装置
WO2017168458A1 (ja) * 2016-03-28 2017-10-05 日本電気株式会社 予測モデル選択システム、予測モデル選択方法および予測モデル選択プログラム
JP2018092439A (ja) * 2016-12-05 2018-06-14 株式会社日立製作所 データ処理システム及びデータ処理方法
JP2019117601A (ja) * 2017-12-27 2019-07-18 株式会社東芝 需要予測装置、需要予測方法及びコンピュータプログラム

Also Published As

Publication number Publication date
US20210248481A1 (en) 2021-08-12
JP7316233B2 (ja) 2023-07-27

Similar Documents

Publication Publication Date Title
Godahewa et al. Monash time series forecasting archive
JP6742894B2 (ja) データ予測システムおよびデータ予測方法
Koyuncu et al. Forecasting COVID-19 impact on RWI/ISL container throughput index by using SARIMA models
Vile et al. Predicting ambulance demand using singular spectrum analysis
Taskin et al. A Bayesian decision model with hurricane forecast updates for emergency supplies inventory management
CN111401777B (zh) 企业风险的评估方法、装置、终端设备及存储介质
Bobde et al. Efficiency evaluation of electricity distribution utilities in India: A two-stage DEA with bootstrap estimation
WO2019049546A1 (ja) 予測システム及び方法
Englberger et al. Two-stage stochastic master production scheduling under demand uncertainty in a rolling planning environment
Yu et al. Robust supply chain networks design and ambiguous risk preferences
JP7316233B2 (ja) データ処理システムおよびデータ処理方法
JP2021128478A5 (ja)
US20220351051A1 (en) Analysis system, apparatus, control method, and program
Bhattacharjee et al. Using global variance-based sensitivity analysis to prioritise bridge retrofits in a regional road network subject to seismic hazard
Park et al. Spatial equity of excess commuting by transit in Seoul
Kim et al. A scenario-based stochastic programming approach for the public charging station location problem
Hodge et al. Examining information entropy approaches as wind power forecasting performance metrics
KR101442507B1 (ko) 통합연료정보시스템
Petropoulos et al. A technical analysis approach to tourism demand forecasting
Busquets et al. Air itinerary shares estimation using multinomial logit models
WO2021260982A1 (ja) 予測システムおよび予測方法
JP2019211922A (ja) データ予測システム、データ予測方法、およびデータ予測装置
Zhang et al. Location, inventory and testing decisions in closed-loop supply chains: A multimedia company
Uppal et al. Short term load forecasting through heat index biasing approach for smart grid sustainability
Yang et al. Temporal and spatial Taylor's law: Application to Japanese subnational mortality rates

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230714

R150 Certificate of patent or registration of utility model

Ref document number: 7316233

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150