JP2022002063A - 予測システムおよび予測方法 - Google Patents

予測システムおよび予測方法 Download PDF

Info

Publication number
JP2022002063A
JP2022002063A JP2020107291A JP2020107291A JP2022002063A JP 2022002063 A JP2022002063 A JP 2022002063A JP 2020107291 A JP2020107291 A JP 2020107291A JP 2020107291 A JP2020107291 A JP 2020107291A JP 2022002063 A JP2022002063 A JP 2022002063A
Authority
JP
Japan
Prior art keywords
factor
prediction
factors
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020107291A
Other languages
English (en)
Other versions
JP7001766B2 (ja
Inventor
将人 内海
Masahito Utsumi
徹 渡辺
Toru Watanabe
郁雄 茂森
Ikuo Shigemori
哲 伊藤
Satoru Ito
大輔 浜場
Daisuke Hamaba
潤 山崎
Jun Yamazaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020107291A priority Critical patent/JP7001766B2/ja
Priority to AU2021294867A priority patent/AU2021294867A1/en
Priority to EP21829969.1A priority patent/EP4170566A1/en
Priority to US17/911,155 priority patent/US20230027383A1/en
Priority to PCT/JP2021/001254 priority patent/WO2021260982A1/ja
Publication of JP2022002063A publication Critical patent/JP2022002063A/ja
Application granted granted Critical
Publication of JP7001766B2 publication Critical patent/JP7001766B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Abstract

【課題】標本範囲に時間依存性がある因子に起因した予測誤差を低減する。【解決手段】システムが、因子選択処理と、因子フィルタリング処理と、予測処理とを行う。因子選択処理は、一つまたは複数の因子から一つまたは二つ以上の因子を選択するための演算である因子選択演算を行うことを含む。因子フィルタリング処理は、予測モデルの同定に用いられる複数の標本用因子値の範囲に、当該予測モデルに入力される予測用因子値が収まっているか否かを、因子選択処理が行われる前の一つまたは複数の因子の各々について判定することと、当該判定の結果が偽の因子を除外し除外されない因子を出力することとを含む。予測処理は、因子選択処理において選択された因子を含み因子フィルタリング処理において除外された因子を含まない一つ以上の因子の各々についての予測用因子値を予測モデルに入力することで予測対象の予測値を算出することを含む。【選択図】図1

Description

本発明は、概して、予測対象(例えば、電力需要量または市場価格)についての将来の値を予測する技術に関する。
電力事業やガス事業などのエネルギー事業分野や、通信事業分野や、タクシーや配送業などの運送事業分野などでは、消費者の需要に合わせた設備稼働や資源配分を行うために、需要量等の各種の予測対象についての値の予測を行う。
例えば電力需要量は気温の影響を受ける事が知られており、この場合は外気温を説明変数(因子の一例)として電力需要の予測モデルが同定される。予測対象としての電力需要量が広範囲のエリアについての電力需要量である場合、複数の因子として、複数の地点の外気温を用いることができる。また電力需要量は外気温以外の気象関連項目の影響も受けることがある。したがって、電力需要量の因子として複数の因子が存在する。因子の数が多い場合、予測モデルの同定に用いられる因子を取捨選択することで、予測される値の精度を向上することができる。なお、本明細書において、「因子値」とは、因子について得られた値である。例えば、因子が、外気温の場合、因子値は、29℃や30℃といった値である。
特許文献1に開示の方法は、入力変数それぞれと出力変数との関係を表す入出力モデルを生成し、各入力変数の出力変数に対する感度を生成し、感度に基づいて入力変数を選択提示する。
特許文献2に開示の方法は、複数地点を有する地理的範囲における各地点の需要予測値を出力する地点モデルを生成し、各地点の気象値の需要予測値への寄与度に基づき設定された係数と地点モデルとに基づき、全体モデルを生成する。
特許文献3に開示の方法は、プロセスデータを入力変数として予測値を算出する予測モデルをそれぞれ同定し、同定した複数の予測モデルから予測値をそれぞれ算出し、同定した複数の予測モデルのそれぞれに対して、入力変数として用いられるプロセスデータの異常の有無を診断する。当該方法は、異常有りと診断したプロセスデータを入力変数として含む予測モデルを使用しないと設定し、予め設定された複数の予測モデルの優先度に応じて、予測モデルによって予測された予測値を選定する。
特開2010−282547号公報 特開2019−87027号公報 特開2015−179454号公報
選択された因子を用いた予測モデルの同定の際には、各因子の過去標本に対して最も適合するように予測モデルが最適化(学習)される。この結果、過去標本の値の範囲内において高い予測精度を得ることができる。同定した予測モデルから予測値を出力させる際には、当該予測値の基になる予測用の因子値を入力する必要がある。
しかし、以下の第1および第2の課題が考えられる。
第1の課題は、選択された因子について、入力される予測用因子値が、予測モデルの同定に使用される標本(過去値)の範囲外である場合、標本範囲外の外挿処理が行われることとなるため、予測モデルから出力された予測値に大きな誤差が生じる場合があることである。
第2の課題は、ある時点について得られた因子値は標本範囲外であるが時間を経て十分な標本(因子値)が蓄積された後に同じ大きさの因子値が得られた場合、当該因子値は標本範囲内であり得ること、つまり、標本範囲の大きさに時間依存性がある因子があることである。
特許文献1および2には、第1および第2の課題のいずれについても対処方法が開示されておらず、故に、精度の良い予測値を得難いという問題がある。
また特許文献3では、プロセスデータが対象であるため、いずれの因子についても標本範囲に時間依存性が無い。故に、特許文献3に開示の方法は第2の課題が生じる場面には適さない。
本発明は以上の点を考慮してなされたもので、その目的は、標本範囲に時間依存性がある因子に起因した予測誤差を低減することである。
システムが、因子選択処理と、因子フィルタリング処理と、予測処理とを行う。因子選択処理は、一つまたは複数の因子から一つまたは二つ以上の因子を選択するための演算である因子選択演算を行うことを含む。因子フィルタリング処理は、予測モデルの同定に用いられる複数の標本用因子値の範囲に、予測対象の予測値の算出のために当該予測モデルに入力される予測用因子値が収まっているか否かを、因子選択処理が行われる前の一つまたは複数の因子の各々について判定することと、当該判定の結果が偽の因子を除外し除外されない因子を出力することとを含む。予測処理は、因子選択処理において選択された因子を含み因子フィルタリング処理において除外された因子を含まない一つ以上の因子の各々についての予測用因子値を予測モデルに入力することで予測対象の予測値を算出することを含む。
本発明によれば、標本範囲に時間依存性がある因子に起因した予測誤差を低減する事ができる。
第一の実施の形態によるデータ管理システムの構成例を示す図である。 予測システムの構成例を示す図である。 予測システムのデータフローの一例を示す図である。 予測システムが行う処理のフローの一例を示す図である。 因子フィルタリング処理のデータフローの一例を示す図である。 因子選択処理のデータフローの一例を示す図である。 予測処理のデータフローの一例を示す図である。 除外される因子についての標本範囲および予測用因子値の関係の一例を示す図である。 除外される因子と類似の因子についての標本範囲および予測用因子値の関係の一例を示す図である。 予測システムが表示する結果表示画面の一例を示す図である。
以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/O(Input/Output)インターフェースデバイスは、I/Oデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボードおよびポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
また、以下の説明では、「メモリ」は、一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。
また、以下の説明では、「永続記憶装置」は、一つ以上の永続記憶デバイスである。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)であり、具体的には、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)である。
また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。
また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスである。少なくとも一つのプロセッサデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサデバイスであるが、GPU(Graphics Processing Unit)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部または全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)またはASIC(Application Specific Integrated Circuit))といった広義のプロセッサデバイスでもよい。
また、以下の説明では、「yyy部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置および/またはインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
以下図面を参照して、本願発明の幾つかの実施の形態を詳述する。
(1)第一の実施の形態
(1−1)本実施の形態によるデータ管理システムの構成
図1において、符号1は、全体として本実施の形態によるデータ管理システムを示す。データ管理システム1は、例えば電力事業分野に適用される場合、過去の電力需要の実績量に基づいて将来の所定期間の電力の需要量、発電量、市場取引価格などの値を予測し、予測された値に基づいて、発電機の運転計画の策定と実行、そして、他の電気事業者からの電力の調達取引計画の策定や実行など電力の需給管理を可能にするものである。
データ管理システム1は、予測システム12(例えば、予測演算装置2およびデータ管理装置3)、計画管理装置5、情報入出力端末4、データ観測装置6およびデータ配信装置7から構成される。また通信経路8は、例えばLAN(Local Area Network)やWAN(Wide Area Network)のような通信ネットワークであり、データ管理システム1を構成する各種装置および端末を互いに通信可能に接続する通信経路である。
データ管理装置3は、予測対象の予測値を算出するために使用する予測対象や因子の標本用データ、および因子の予測用データを記憶する。
予測対象の標本用データには、時間推移に伴い観測された予測対象の過去の観測データである標本用予測対象データを少なくとも含む。また因子の標本用データには、予測対象の値の増減に影響を及ぼす可能性のある各種因子の過去の観測データである標本用因子データを少なくとも含む。また因子の予測用データには、標本用因子データに含まれる因子それぞれの予測用データを少なくとも含む。
予測対象は、例えば、電力、ガス、水道などのエネルギー消費量、あるいは太陽光発電や風力発電などのエネルギーの発電出力量、あるいは卸取引所で取引されるエネルギーの取引量や取引価格などでよい。また電力事業分野以外では、予測対象は、通信基地局などで計測される通信量、自動車はどの移動体の位置情報履歴などでよい。またこれらの標本用データは、計測器単位のデータ、あるいは複数の計測器の合計としてデータでよい。
また因子は、例えば気温、湿度、日射量、風速、気圧などの気象関連項目、原油や天然ガスなどの取引量や取引価格などの燃料関連項目、送電線の送電容量などの送電線関連項目、発電機の運転もしくは保守スケジュールなどの発電機稼働状況に関連する項目、年月日、曜日、任意に設定した日の種別を示すフラグ値などの暦日関連項目、台風やイベントなどの突発事象の発生有無、エネルギーの消費者数、産業動向や景況指数などの経済状況に関連する項目、特急列車の乗車率、乗車客数、予約席数、あるいは道路交通状況などの人や移動体の移動状況に関連する項目、あるいは通信基地局に接続する通信端末数などの項目でよい。また一部の因子は、上記の予測対象でもよく、その場合、因子値は、過去の観測値そのもの、あるいは予測対象日時における予測値自体などでもよい。
データ管理装置3は、情報入出力端末4を介して予め設定した過去日時から最新の観測日時までの標本用データを記憶する。またデータ管理装置3は、他装置からのデータ取得要求に応じて、標本用データの検索および送信を行う。
予測演算装置2は、データ管理装置3に記憶されたデータを用いて予測を行う。予測演算装置2の詳細は、後述する。
計画管理装置5は、予測演算装置2が出力した予測結果データを基に、所定の目標を達成するための物理的な設備の運転計画の作成と実行を行う。ここで物理的な設備の運転計画とは、エネルギー分野においては、例えば、予測した将来のエネルギー需要値、発電出力、市場取引価格に基づいた発電機の運転計画でよい。具体的には、運転計画は、発電機の起動台数およびそれら発電機の出力配分の計画や、ガス導管や水道管に流すガスや水の流量や圧力の配分計画でよい。あるいはデマンドレスポンスと呼ばれる電力需要の調整制御においては、運転計画は、デマンドレスポンスに参加している電力消費者もしくは電力消費者の需要設備の需要調整量配分の計画でよい。また通信分野においては、運転計画は、例えば、通信基地局の収容容量を超えないように、各通信基地局に接続する通信端末数の制御計画でよい。また運送分野においては、運転計とは、例えば、予測した利用者数を充足させることが出来るようなタクシーの配車計画でよい。
なお設備の運転計画は、計画管理装置5を利用する主体者による直接的な実行に限定されるものではなく、間接的に実現される形態で実現されてもよい。間接的な設備の運転とは、電力分野においては、例えば、直接的な相対取引契約や取引所を介した取引契約に基づいた他者による物理的な設備の運転でよい。この場合、取引契約の実行計画が設備の運転計画に相当する。
情報入出力端末4は、予測演算装置2、データ管理装置3および計画管理装置5へのデータ入力や、これら装置が記憶するデータまたは出力するデータの表示を行う。データ観測装置6は、標本用予測対象データ、標本用因子データ、および予測用因子データを所定の時間間隔で定期的に計測もしくは収集し、データ配信装置7またはデータ管理装置3に送信する。データ配信装置7は、データ観測装置6から受信したデータを記憶し、データ管理装置3、予測演算装置2またはその両方に送信する。
(1−2)装置内部構成
図2は、予測システム12の構成例を示す。
予測システム12は、予測演算装置2とデータ管理装置3とから構成される。なお、「予測システム」は、予測演算装置2やデータ管理装置3のような物理的な計算機を備えたシステムに代えて、他種のシステム、例えば、物理的な計算リソース群(例えば、クラウド基盤)上に実現されたシステム(例えば、クラウドコンピューティングシステム)でもよい。
データ管理装置3は、データ管理装置3の動作を統括的に制御するCPU(Central Processing Unit)31、入力装置32、出力装置33、通信装置34および記憶装置35から構成される。データ管理装置3は、例えばパーソナルコンピュータ、サーバコンピュータまたはハンドヘルドコンピュータなどの情報処理装置である。
入力装置32は、キーボードまたはマウスから構成され、出力装置33は、ディスプレイまたはプリンタから構成される。また通信装置34は、無線LANまたは有線LANに接続するためのNIC(Network Interface Card)を備えて構成される。また記憶装置35は、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶媒体である。出力装置33を介して各処理部の出力結果や中間結果が適宜出力されてもよい。
記憶装置35には、標本用予測対象データ351、標本用因子データ352および予測用因子データ353が格納されている。
標本用予測対象データ351は、予測対象の過去の一つまたは複数の時点での観測値を含むデータである。予測対象の具体例は、上述の通りでよい。
標本用因子データ352は、予測対象の値の増減に影響を与える各種因子の過去の一つまたは複数の時点での観測値を含むデータである。因子の具体例は、上述の通りでよい。また、この段落で言う「観測値」が、標本用因子値の一例である。以下、適宜、「観測値」を「標本用因子値」と言うことがある。
予測用因子データ353は、予測対象の予測値の算出において使用する各因子の入力値を含んだデータである。この段落で言う「入力値」が、予測用因子値の一例である。以下、適宜、「入力値」を「予測用因子値」と言うことがある。
予測演算装置2は、予測演算装置2の動作を統括的に制御するCPU(Central Processing Unit)21、入力装置22、出力装置23、通信装置24および記憶装置25から構成される。予測演算装置2は、例えばパーソナルコンピュータ、サーバコンピュータまたはハンドヘルドコンピュータなどの情報処理装置である。
記憶装置25には、因子フィルタ部251、因子選択部252および予測部253といった機能を実現するための各種コンピュータプログラムが格納されている。そのような各種コンピュータプログラムがCPU21により実行されることで因子フィルタ部251、因子選択部252および予測部253が実現される。
因子フィルタ部251は、標本用予測対象データ351、標本用因子データ352、予測用因子データ353を入力し、標本用因子データ352および予測用因子データ353のうち、因子選択部252での因子選択処理の対象因子に該当する部分である標本用因子データ部分352A1と予測用因子データ部分353A1を出力する。具体的に因子フィルタ部251は、標本用因子データ352と予測用因子データ353を用いて、複数の因子の各々について、予測用因子値が、当該因子の複数の標本用因子値(複数の過去の観測値)の範囲である標本範囲に収まっているか否かを判定する。因子フィルタ部251は、標本用因子データ352および予測用因子データ353のうち、予測用因子値が標本範囲内に収まっている因子に対応した部分を、標本用因子データ部分352A1と予測用因子データ部分353A1(図5参照)として出力する。
因子選択部252は、因子フィルタ部251が出力した標本用因子データ部分352A1と予測用因子データ353部分A1、および標本用予測対象データ351を入力し、予測部253での予測モデル同定および予測値算出に用いる標本用因子データ部分352A2と予測用因子データ部分353A2を出力する。具体的に因子選択部252は、標本用因子データ部分352A1と標本用予測対象データ351用いて、予測対象の予測モデルの同定において必要十分な因子を取捨選択する。因子選択部252は、標本用因子データ部分352A1と予測用因子データ353部分A1のうち、選択した因子に対応した部分を、標本用因子データ部分352A2と予測用因子データ部分353A2(図6参照)として出力する。
予測部253は、標本用予測対象データ351、および因子選択部252が出力した標本用因子データ部分352A2と予測用因子データ部分353A2を入力し、予測値を算出し、算出した予測値を含むデータを予測結果データ254に追加する。具体的に予測部253は、標本用予測対象データ351と標本用因子データ部分352A2を用いて、予測対象の予測値を算出する予測モデルを同定する。予測部253は、同定した予測モデルに、予測用因子データ部分353A2を入力することで、予測対象日時における予測対象の予測値を算出する。予測部253は、算出した予測値を含むデータを予測結果データ254に追加する。
図2が例示する予測システム12において、通信装置24および34が、インターフェース装置の一例である。記憶装置25および35が、記憶装置の一例である。CPU21および31が、プロセッサの一例である。
(1−3)予測システム12の全体の処理およびデータフロー
図3および図4を参照して、予測システム12の処理およびデータフローについて説明する。
図3を参照して、予測システム12のデータフローを説明する。なお、図3において、一点鎖線矢印は、後述の第四の実施形態(再帰的な処理)に関わる。
データ管理装置3は、データ観測装置6またはデータ配信装置7から標本用予測対象データ351、標本用因子データ352、および予測用因子データ353を受信(取得)し、それらのデータ351、352および353を記憶装置35に格納する。
予測演算装置2において、因子フィルタ部251が、標本用因子データ352における各因子について、標本範囲(過去値の範囲)に、予測用因子データ353における予測用因子値が収まっているか否かを判定する。因子フィルタ部251が、予測用因子値が標本範囲に収まっている因子について標本用因子データ部分352A1と予測用因子データ部分353A1(図5参照)を出力する。
次いで予測演算装置2において、因子選択部252が、標本用予測対象データ351と、因子フィルタ部251が出力した標本用因子データ部分352A1および予測用因子データ部分353A1とを用いて、予測部253において同定する予測モデルに使用する必要十分な因子を取捨選択する。因子選択部252が、標本用因子データ部分352A1および予測用因子データ部分353A1のうち、選択した因子の標本用因子データ部分352A2および予測用因子データ部分353A2(図6参照)を出力する。また因子選択部252が、選択された因子を識別する識別子を含んだデータを因子選択結果データ255に追加する。因子選択結果データ255は、例えば、各因子について、予測に対する寄与度を表すデータを含んでよい。
そして予測演算装置2において、予測部253が、標本用予測対象データ351と因子選択部252が出力した標本用因子データ部分352A2とを用いて予測モデルを同定する。予測部253が、同定した予測モデルに対して、因子選択部252が出力した予測用因子データ部分353A2を入力することで予測値を算出し、算出した予測値を含むデータを予測結果データ254に追加する。
最後に予測演算装置2は、算出した予測値を含む予測結果データ254を、計画管理装置5に、計画管理装置5からのリクエスト無しにまたは計画管理装置5からのリクエストに応答して、送信する。
次に図4を参照して、予測システム12が行う処理の手順を説明する。この処理は、予測演算装置2が装置利用者からの入力操作を受け付けたことまたは情報入出力端末4を介して予め設定した実行時刻になったことを契機として始まる処理でよい。予測演算装置2によりステップS401からステップS404の処理が実行される。
先ず因子フィルタ部251が、データ管理装置3から、標本用予測対象データ351、標本用因子データ352、および予測用因子データ353を取得受信する(S401)。
次いで、因子フィルタ部251は、因子フィルタリング処理を行う(S402)。因子フィルタリング処理は、各因子について、予測用因子データ353における予測用因子値と、標本用因子データ352から特定される標本範囲とに基づいて、因子選択部252において因子選択処理を行う対象の因子を選択することと、選択された因子の標本用因子データ部分352A1および予測用因子データ部分353A1を出力することとを含む。因子フィルタリング処理において選択される因子は、因子用予測値が標本範囲に収まっていないが故に除外された因子以外の全ての因子(つまり、因子用予測値が標本範囲に収まっている全ての因子)でもよいが、本実施形態では、除外されずに残った因子のうち、除外された因子と類似の因子が優先的に含まれる。「類似の因子」とは、除外された因子との相関が絶対的にまたは相対的に強い因子である。「相関が絶対的に強い」とは、相関係数が一定値以上であることでよい。「相関が相対的に強い」とは、除外された因子以外の因子において相関係数が相対的に強い(例えば、最も強い)ことでよい。また、「相関が絶対的にまたは相対的に強い」は、予測に対する寄与度が類似していることを含んでよい。「寄与度が類似」とは、寄与度間の差が一定値以下であることでよい。
そして、因子選択部252は、標本用予測対象データ351と、因子フィルタ部251が出力した標本用因子データ部分352A1および予測用因子データ部分353A1とを用いて、因子選択演算を行うか否かを判定する(S4031)。
S4031の判定結果が真の場合、因子選択部252は、予測部253において同定する予測モデルに使用する因子を、因子選択演算を経て選択し、選択した因子に対応した標本用因子データ部分352A2および予測用因子データ部分353A2を出力する(S4032)。
S4031の判定結果が偽の場合、因子選択部252は、予測部253において同定する予測モデルに使用する因子を、因子選択演算を経ないで選択し(言い換えれば、過去の因子の選択結果と同じ因子を選択し)、選択した因子に対応した標本用因子データ部分352A2および予測用因子データ部分353A2を出力する(S4033)。
そして、予測部253は、標本用予測対象データ351と、因子選択部252が出力した標本用因子データ部分352A2とを用いて予測モデルを同定し、同定した予測モデルに対して因子選択部252が出力した予測用因子データ部分353A2を入力し、予測対象の予測値を出力する(S404)。
最後に予測演算装置2は、予測部253が出力した予測値を含む予測結果データ254を、計画管理装置5からのリクエスト無しにまたは計画管理装置5からのリクエストに応答して、計画管理装置5に送信する。
以降、図5から図7を用いて、各構成要素の詳細を説明する。
(1−4)各構成要素の詳細
(1−4−1)因子フィルタ部251
図5を参照して、因子フィルタ部251のデータフローおよび処理を説明する。なお、図5において、一点鎖線矢印は、後述の第六の実施形態(過去に行った因子選択結果の重みづけ平均)に関わる。
因子フィルタ部251は、因子フィルタリング処理を行う。因子フィルタリング処理は、下記の(a)および(b)を含む。
(a)予測用因子データ353における予測用因子値が、標本用因子データ352から特定される標本範囲(予測モデルの同定に用いられる複数の標本用因子値の範囲)に収まっているか否かを、因子選択処理が行われる前の各因子について判定すること。
(b)当該判定の結果が偽の因子を除外し除外されない因子について標本用因子データ部分352A1および予測用因子データ部分353A1を出力すること。
標本用因子データ352には、随時にまたは定期的に、少なくとも一つの因子について新たに一つまたは複数の標本用因子値が追加される。予測モデルの同定の必要があるときに、因子フィルタ部251が、標本用因子データ352から、予測モデルの同定のために因子の複数の標本用因子値を取得する。当該複数の標本用因子値の範囲が、標本範囲である。因子フィルタ部251が、予測用因子値が標本範囲に収まらない因子を除外する。これにより、標本範囲に時間依存性がある因子に起因した予測誤差を低減する事ができる。
また、因子フィルタリング処理は、因子選択部252による因子選択処理の前に行われる。因子選択処理における因子選択演算のアルゴリズムによっては選択肢としての因子の数が多いと因子選択の精度が低下し得るという技術的課題が知られている。因子フィルタリング処理は因子選択処理の後に行われてもよいが、本実施形態では、因子フィルタリング処理は因子選択処理の前に行われる。これにより、因子選択の精度が低下する可能性を低減することができる。
具体的に因子フィルタ部251は、範囲フィルタ部251A、相関フィルタ部251Bおよびフィルタ結果調整部251Cを有する。
範囲フィルタ部251Aは、データ管理装置3から標本用因子データ352と予測用因子データ353を取得する。次いで範囲フィルタ部251Aは、それぞれの因子について、予測用因子データ353における予測用因子値が標本用因子データ352から特定される標本範囲に収まっているか否かを判定する。例えばある因子Aについて、予測用因子値が「10」であり、標本用因子値の最小値と最大値がそれぞれ「0」と「20」であれば、因子Aの予測用因子値は標本範囲に収まっていると判定する。なお標本範囲は、複数の標本用因子値のうちの最小値から最大値までの範囲に限らず、複数の標本用因子値の他種の範囲、あらかじめ設定した乗数を複数の標本用因子値に乗算した範囲や、あらかじめ設定した値を複数の標本用因子値に加算もしくは減算した範囲であってもよい。範囲フィルタ部251Aは、すべての因子について判定処理を行う。範囲フィルタ部251Aは、下記(X)および(Y)のいずれかを行う。
(X)標本範囲に予測用因子値が収まっていると判定された因子についてのみ標本用因子データ部分と予測用因子データ部分を出力する。
(Y)下記の(y1)および(y2)を出力する。
(y1)標本範囲に予測用因子値が収まっていると判定された因子であることを表す情報が関連付けられた標本用因子データ部分と予測用因子データ部分。
(y2)標本範囲に予測用因子値が収まっていないと判定された因子(つまり除外対象の因子)であることを表す情報が関連付けられた標本用因子データ部分と予測用因子データ部分。
相関フィルタ部251Bは、下記の(A)および(B)のうちの少なくとも一つの処理を行う。
(A)上述の(X)が範囲フィルタ部251Aにより行われた場合、相関フィルタ部251Bは、範囲フィルタ部251Aが出力した標本用因子データ部分から因子間の互いの相関(因子間の標本用因子値群(複数の標本用因子値)の相関)を算出する。相関フィルタ部251Bは、あらかじめ定めた閾値を超える相関値(相関係数)を持つ因子同士の内、一つの因子のみの標本用因子データ部分と予測用因子データ部分を出力する。なお相関フィルタ部251Bが行う処理はこれに限らず、他種の処理、例えば、多重共線性を除外する公知の処理が適用されてもよい。
(B)上述の(Y)が範囲フィルタ部251Aにより行われた場合、相関フィルタ部251Bは、(y1)と(y2)を基に、除外対象の因子と類似の因子(除外対象の因子と絶対的にまたは相対的に相関が強い因子)を特定し、特定された類似の因子の標本用因子データ部分と予測用因子データ部分を出力する。複数の類似の因子が見つかった場合、相関フィルタ部251Bは、(A)の処理と同様の方法により、複数の類似の因子を一つの類似の因子に絞り、絞り込まれた類似の因子の標本用因子データ部分と予測用因子データ部分とを出力する。
最後にフィルタ結果調整部251Cは、因子選択結果データ255に記録されている各因子の予測に対する寄与度を参照する。これにより、因子選択結果データ255から、相関フィルタ部251Bが出力した標本用因子データ部分と予測用因子データ部分について各因子の寄与度がわかる。フィルタ結果調整部251Cは、相関フィルタ部251Bが出力した標本用因子データ部分と予測用因子データ部分の中に、あらかじめ定めた閾値を超える寄与度を示す因子の因子値が含まれているか否かを判定する。
この判定の結果が真の場合、フィルタ結果調整部251Cは、相関フィルタ部251Bが出力した標本用因子データ部分と予測用因子データ部分を出力する。
一方、この判定の結果が偽の場合、フィルタ結果調整部251Cは、範囲フィルタ部251Aが出力した標本用因子データ部分と予測用因子データ部分から、寄与度が閾値を超える因子の標本用因子データ部分と予測用因子データ部分を取得する。フィルタ結果調整部251Cは、取得した標本用因子データ部分と相関フィルタ部251Bが出力した標本用因子データ部分とを含んだデータを標本用因子データ部分352A1として出力する。また、フィルタ結果調整部251Cは、取得した予測用因子データ部分と相関フィルタ部251Bが出力した予測用因子データ部分とを含んだデータを予測用因子データ部分353A1として出力する。
因子フィルタ部251によれば、標本範囲に予測用因子値が収まっている因子のうち、標本範囲に予測用因子値が収まっていない除外される因子と類似した因子が、優先的に出力対象となる。これにより、例えば除外された因子の寄与度が閾値を超えている場合、当該因子と類似した因子の予測用因子値を用いて予測値が算出されることが期待される。結果として、予測誤差の一層の低減が期待できる。
また、因子フィルタ部251によれば、因子間の相関が高い場合、それらの因子のうちの一つの因子に絞られる。これにより、因子選択処理の選択肢としての因子の数が低減され、以って、因子選択演算のアルゴリズムによっては選択肢としての因子の数が多いと因子選択の精度が低下し得るという技術的課題の影響を低減することが期待できる。
また、因子フィルタ部251によれば、絞り込んだ結果として寄与度が閾値を超える因子が無くなった場合には、絞り込みにおいて外された因子のうち寄与度が閾値を超える因子が戻される。これにより、予測誤差の一層の低減が期待できる。
以上が、因子フィルタ部251の詳細の説明である。
(1−4−2)因子選択部252
図6を参照して、因子選択部252のデータフローおよび処理を説明する。なお、図6において、一点鎖線矢印は、後述の第七の実施形態(予測誤差の大きさに応じて因子選択演算の実行頻度を低減すること)に関わる。
因子選択部252は、因子選択処理を行う。因子選択処理は、下記(a)および(b)を含む。
(a)標本用予測対象データ351と、因子フィルタ部251が出力した標本用因子データ部分352A1と予測用因子データ部分353A1部分とを用いて、予測部253において同定する予測モデルに使用する因子を取捨選択すること。
(b)選択した因子の標本用因子データ部分352A2と予測用因子データ部分353A2とを出力すること。
具体的に因子選択部252は、因子選択要否判定部252Aおよび因子選択演算部252Bを有する。
因子選択要否判定部252Aは、因子フィルタ部251が出力した標本用因子データ部分352A1と予測用因子データ部分353A1に基づいて、因子選択演算部252Bにおいて新たに因子選択演算を行う必要があるか否かの判定を行い、当該判定結果(因子選択演算の実行要否)を示す制御値を出力する。これにより、因子選択演算の実行頻度が減るので、予測誤差の低減に加えて処理負荷の低減が期待できる。例えば因子選択要否判定部252Aは、標本用因子データ部分352A1に対して予測用因子データ部分353A1を加えたことによる情報量の変化量(差分)を算出する。算出した変化量があらかじめ定めた閾値を超える場合、因子選択要否判定部252Aは、新たな因子選択演算の必要があることを表す制御値を出力する。一方、算出された差分があらかじめ定めた閾値以下の場合、因子選択要否判定部252Aは、新たな因子選択演算の必要が無いことを表す制御値を出力する。このようにして、因子選択演算の実行頻度が適切に低減される。
次いで因子選択演算部252Bは、因子選択要否判定部252Aからの制御値が因子選択演算の必要があることを表している場合、標本用予測対象データ351と因子フィルタ部251が出力した標本用因子データ部分352A1とを用いて、予測部253で同定する予測モデルに使用する因子を取捨選択する因子選択演算を行う。因子選択演算部252Bは、標本用因子データ部分352A1と予測用因子データ部分353A1のうち選択した因子に対応した部分を標本用因子データ部分352A2と予測用因子データ部分353A2として出力する。なお本選択演算は、一般的には特徴選択や変数選択と呼ばれる処理でよく、公知の手法が適用された演算でよい。公知の手法とは、予測対象との相関に基づいたフィルタ法、前向き法、後ろ向き法、組合せ最適化応用などのラッパー法、リッジ回帰、ラッソ回帰、エラスティックネットなどの正則化や、ランダムフォレストや勾配ブースティング木などのアンサンブル木を用いた方法などでよい。
因子選択要否判定部252Aからの制御値が因子選択演算の不要を表している場合、因子選択演算部252Bは、因子選択演算無しに因子を選択する。例えば、因子選択演算部252Bは、標本用因子データ部分352A1と予測用因子データ部分353A1のうち因子選択結果データ255に記録されている因子に対応した部分を標本用因子データ部分352A2と予測用因子データ部分353A2として出力する。
なお、因子選択演算部252Bは、選択した各因子について、予測に対する寄与度を算出し、当該選択した因子と算出された寄与度とを表すデータを因子選択結果データ255に追加できる。
以上が、因子選択部252の詳細の説明である。
(1−4−3)予測部253
図7を参照して、予測部253のデータフローおよび処理を説明する。なお、図7において、一点鎖線矢印は、後述の第九の実施形態(因子の寄与度を考慮した予測)に関わる。
予測部253は、予測処理を行う。予測処理は、下記(a)乃至(c)を含む。
(a)標本用予測対象データ351と、因子選択部252が出力した標本用因子データ部分352A2とを用いて、予測対象の予測値を算出する予測モデルを同定すること。
(b)同定された予測モデルに予測用因子データ部分353A2を入力することで予測対象の予測値を算出すること。
(c)算出された予測値を含むデータを予測結果データ254に追加すること。
具体的に予測部253は、予測モデル同定部253Aおよび予測値算出部253Bを有する。
予測モデル同定部253Aは、データ管理装置3から標本用予測対象データ351を取得し、また因子選択部252から標本用因子データ部分352A2と予測用因子データ部分353A2を受ける。次いで予測モデル同定部253Aは、標本用予測対象データ351と標本用因子データ部分352A2とを用いて、予測対象の予測値を算出する予測モデルを同定する。予測モデルは公知のモデルでよい。公知のモデルとは、例えば、下記のいずれでもよい。
・リッジ回帰、ラッソ回帰、エラスティックネットなどの線形モデル。
・回帰木、ランダムフォレスト、ブースティングツリーなどのツリーモデル。
・サポートベクトル回帰、カーネルリッジ回帰、ガウス過程回帰などのカーネル法。
・リカレントネットやLong Short−Term Memoryなどのニューラルネットワーク。
そして予測値算出部253Bは、予測モデル同定部253Aが同定(出力)した予測モデルに対し、因子選択部252が出力した予測用因子データ部分353A1を入力することで、予測対象の予測値を算出し、算出された予測値を含むデータを予測結果データ254に追加する。
以上が、予測部253の詳細の説明である。
(1−5)本願発明の効果の説明
次に図8Aおよび図8Bを参照して、予測システム12の効果の一例を説明する。
図8Aは、予測対象の予測値を算出する予測モデルの同定において、因子Aの複数の標本用因子値が用いられた場合を例示している。典型的には、複数の因子の複数の標本用因子値を用いた多次元の予測モデルが同定されるが、図の簡略化のため、予測モデルの同定に、因子Aのみの複数の標本用因子値が用いられる例が採用されている。
点8A1は、標本用因子値とそれに対応する標本用予測値(標本用予測対象データ351における値)とに該当する座標にプロットされた標本点である。この複数の標本点8A1を用いて同定された予測モデルが、破線曲線8A3である。この予測モデル8A3に対し、標本範囲(図8Aでは、複数の標本点8A1の標本用因子値の最小値から最大値の範囲)の外にある予測用因子値8A4が入力された場合、予測値8A5が出力される。
しかし因子Aの因子値と予測対象の値との真の予測モデルは太線8A2であった場合、予測対象について予測用因子値8A4に対応する値として事後に観測される実際の値は、値8A6であり、予測値8A5よりも大幅に小さい値となる。
したがって因子Aの複数の標本用因子値を用いて予測モデル8A3が同定された場合、因子Aの予測用因子値8A4は標本範囲外であることから、同定された予測モデル8A3の信頼性が低く、結果として大きな予測誤差が生じる。
そこで本実施の形態における因子フィルタ部251による因子フィルタリング処理が行われる。これにより、因子Aは除外される、すなわち、予測モデルの同定に使用されないこととなる。この場合、因子フィルタリング処理において、予測用因子値が標本範囲に収まっている因子のうち、少なくとも、因子Aと相関が強い(例えば、因子Aと寄与度が類似している)因子の一例である因子Xが選択される。因子Xの複数の標本点8A9を用いて予測モデル(曲線)8A8が同定される。予測モデル8A8は、真の予測モデル(太線)8A7と標本範囲において類似している。そして、因子Xの予測用因子値8A10は、標本範囲内である。したがって予測モデル8A8の信頼性は比較的高く、予測用因子値8A10が予測モデル8A8に入力されることで得られた予測値8A11は、事後に観測される実際の値8A12に近い値となる。つまり、予測誤差が小さい。
以上のように本実施の形態において、予測用因子値が標本範囲外であることに起因する予測の過大誤差の発生を低減することが可能となる。
(2)第二の実施の形態
第一の実施の形態では、データ配信装置7およびデータ観測装置6の少なくとも一つから標本用因子データ352および予測用因子データ353が取得されるが、本実施の形態では、標本用因子データ352および予測用因子データ353の少なくとも一部が、情報入出力端末4を介してあらかじめ入力設定される。
具体的に、例えば、ある因子Aについてデータ配信装置7およびデータ観測装置6の少なくとも一つから収集された標本用因子データ352において、標本用因子値の上下限値が「8」と「0」とする(つまり、標本範囲が0以上8以下の範囲とする)。この時、上下限値それぞれに対する標本用予測値が「10」と「1」とする。ここで予測用因子値が「9」であるとした場合、予測用因子値が標本範囲外であることから、因子Aは因子フィルタ部251において除外される。
ここで因子Aの因子値と予測値との関係は原理的に明らかであり、故に、例えば、標本範囲外の因子値「10」に対して予測値が「15」であることが明らかであるとする。この場合、運用管理者(ユーザの一例)が標本用因子データ352に標本用因子値「10」を追加しそれに対応する予測値「15」を標本用予測対象データ351に追加することで、標本範囲が0以上8以下から0以上10以下に変化し、したがって、予測用因子値が上述の「9」であっても、因子Aの除外は回避される。
これにより、因子値と予測値の関係が原理的に明らかであり、かつその標本点(標本用因子値と標本用予測値のペア)が未だ観測されていない場面において、原理的に明らかな上下限の標本点を事前に定義することで、予測用因子値が標本範囲外であることを理由に寄与度が高い因子が除外されてしまうことを回避し、以って、同定される予測モデルの信頼性の低下を回避することができる。
(3)第三の実施の形態
第一の実施の形態では、相関フィルタ部251Bが、互いに強い相関を持つ因子同士の内、一方を除外するが、第三の実施形態では、相関フィルタ部251Bの処理がスキップされ、結果として、範囲フィルタ部251Aの出力が全てフィルタ結果調整部251Cに入力されることがある。例えば、因子フィルタ部251は、範囲フィルタ部251Aにより除外された因子の数が少なく、故に、範囲フィルタ部251Aをパスした因子の数が一定値以上の場合、相関フィルタ部251Bの処理をスキップしてよい。
これにより、互いに強い相関を有しながらもわずかな値の違いで除去されてしまうが予測モデルへの大きな寄与を有する(つまり寄与度が高い)因子が存在する場合、当該因子の除外が回避される。故に、最終的な予測精度の向上させることができる。
(4)第四の実施の形態
第一の実施の形態では、因子フィルタリング処理、因子選択処理および予測処理に至るまでの処理の流れが一度のみであるが、本実施の形態では、予測部253が出力した予測値が新たな予測用因子値として加えられて、因子フィルタリング処理から予測処理までの処理が再帰的に行われる。このとき、当該新たな予測用因子値に対応する新たな標本用因子値として、標本用予測対象データ351もしくは予測結果データ254に格納されている過去の予測値が加えられる。
このように、本実施の形態では、因子フィルタリング処理において、因子として、予測対象が含まれ、因子としての予測対象について、予測用因子値は、算出された予測値であり、複数の標本用因子値は、予測対象について過去に得られた複数の値である。これにより、予測対象が複数の値であり、かつそれらの値の間に相関関係を有する場合、再帰的な予測を行うことで予測値間の相関関係を反映した予測値を出力することが可能となり、予測精度を向上させることができる。より具体的には、予測用因子値が標本範囲外にある因子が予測に使用される因子から除外されるため予測誤差が低減され、故に、予測値の精度は高いので、因子として予測対象を追加し予測値を予測用因子として再帰的な処理を行うことで、予測精度を向上させることができる。
(5)第五の実施の形態
第一の実施の形態では、因子選択演算は公知の手法の演算であるが、本実施の形態では、因子選択演算は、予測部253において用いられる予測モデルを利用した因子選択演算である。
具体的には、先ず因子選択演算部252Bは、公知の手法を用いて、各因子の寄与度(予測に対する寄与度)を算出する。次いで、因子選択演算部252Bは、寄与度の大きい順もしくは小さい順に因子を使用して予測モデルを複数同定する。そして因子選択演算部252Bは、それぞれの予測モデルの予測精度(予測モデルの評価値の一例)を算出し、予測精度が最良となる予測モデルに使用している因子を選択し、選択された因子に対応する標本用因子データ部分352A2と予測用因子データ部分353A2を出力する。
因子選択演算部252Bにおいて算出した因子選択結果には、誤って選択された因子が含まれている場合がある。因子選択演算部252Bにおいて得た因子選択結果を、予測部253で用いられることになる予測モデルを用いて検査することで、予測モデルの予測精度が最良となる因子のみを選択することができ、以って、予測精度を向上させることができる。
(6)第六の実施の形態
第一の実施の形態では、因子選択部252は、因子選択結果データ255を都度更新するか、もしくは過去に行った因子選択処理の結果を流用するが、本実施の形態では、因子選択部252は、過去に行った因子選択結果の重みづけ平均を行う。
具体的に図6における因子選択演算部252Bが、先ず、標本用予測対象データ351と標本用因子データ部分352A1を用いて、予測部253において同定される予測モデルに使用する因子を取捨選択することに加えて、各因子の予測モデルに対する寄与度を算出する。次いで因子選択演算部252Bは、因子選択結果データ255に格納されている全ての寄与度(過去に実施した因子選択処理において得た各因子の予測モデルへの寄与度)を取得する。そして因子選択演算部252Bは、算出および取得した各因子の寄与度を平均化する。平均化は単純な算術平均でもよいし、それぞれの寄与度を示す指標値を算出した日時に基づいた重みづけ平均でもよい。そして因子選択演算部252Bは、算出した各因子の寄与度を用いて、予測モデルの同定に用いる因子の取捨選択を交差検定により行う。
このように、因子選択処理は、各因子について、複数の標本用因子値を基に同定される予測モデルに対する寄与度と、複数の過去の時点にそれぞれ対応した複数の寄与度とを平均化することを含む。因子選択演算は、各因子についての平均化された寄与度を基に因子を選択するための演算である。因子の寄与度は、時間経過に応じて変化し得るが、本実施の形態により、予測モデルへの寄与度の高い因子の時間変化に追従した因子選択が可能となり、故に、因子の誤選択の可能性が低減され、結果として、予測精度を向上させることができる。
(7)第七の実施の形態
第一の実施の形態では、因子選択演算の要否判定の基準として、情報量の変化量が採用れるが、本実施の形態では、情報量の変化量に代えてまたは加えて、予測誤差が採用される。具体的には、因子選択要否判定部252Aは、予測結果データ254を取得し、予測結果データ254に基づいて特定される予測誤差に従う値(例えば、ある単体の予測誤差もしくは所定の過去期間からの予測誤差の平均や累積)があらかじめ定めた閾値を超えるか否かを判定する。この判定の結果が真の場合に(あるいは、情報量の変化量もさらに閾値を超えている場合に)、因子選択演算が必要であることを表す制御値が出力される。この判定の結果が偽の場合に(あるいは、情報量の変化量も閾値以下の場合に)、因子選択演算が不要であることを表す制御値が出力される。
これにより、時間変化に伴う予測誤差拡大を検知し、予測モデルに使用のために選択する因子を時間変化に追従させることができるため、予測精度を維持させることができる。
(8)第八の実施の形態
第一の実施の形態では、因子選択部252は、因子選択結果データ255に因子選択結果を格納するが、本実施の形態では、因子選択部252は、因子選択結果データ255を可視化する。例えば、因子選択部252は、因子選択結果データ255に基づく結果表示画面を、情報入出力端末4に表示する。具体的に図9を用いて説明する。図9は結果表示画面の一例を示す。
結果表示画面90には、第1のグラフ91と第2のグラフ92のうちの少なくとも一つが表示される。
第1のグラフ91は、各因子について標本範囲と予測用因子値との関係を表すグラフである。第1のグラフ91において、縦軸9A1は、因子の軸である。縦軸9A1には、標本用因子データ352および予測用因子データ353から特定される全因子の識別子(例えば名称)が表示される。横軸9A2は、因子値の軸である。横軸9A2には、因子値が表示される。なお、ここでは、各因子の因子値は正規化されて表示される。各因子(例えば因子A)について、符号9A3は、標本範囲を表すオブジェクトである。各因子(例えば因子Aまたは因子D)について、菱形点9A4は、当該因子の予測用因子値を表すオブジェクトである。
図9が例示する第1のグラフ91によれば、因子Dの標本範囲外に因子Dの予測用因子値が存在する。よって因子Dは因子フィルタ部251において選択対象の因子からは除外される。
第2のグラフ92は、各因子について少なくとも一つの因子の除外前後での予測に対する寄与度を表すグラフである。第2のグラフ92において、縦軸9A9は、縦軸9A1と同様、因子の軸である。横軸9A5は、寄与度の軸である。横軸9A5には、各因子の予測モデルに対する寄与度が表示される。第2のグラフ92では、各因子について、二種類の棒が表示される。各因子について、上段の棒は、因子フィルタリング処理を行わずに全因子を対象に因子選択処理を実施した場合での当該因子の寄与度を表す。各因子について、ており、下段の棒は、因子フィルタリング処理を適用し因子選択処理を行った場合での当該因子の寄与度を表す。各因子について、寄与度は、相対的な値であり、故に、少なくとも一つの因子が除外されると、残った各因子の寄与度は変わる。
ここで因子Dは、因子フィルタリング処理が行われない場合、棒9A6によれば高い寄与度の因子ではある。しかし、因子Dは第1のグラフ91のとおり因子選択処理の対象から除外されているため、因子フィルタリング処理が行われた場合、因子Dの寄与度は、棒9A7のとおりゼロとなる。したがって予測部253において、因子Dは予測モデルの同定に使用されないこととなる。
このように因子選択結果データ255を基に結果表示画面が表示される。因子選択結果データ255には、因子フィルタリング処理の後に選択された因子毎の寄与度の他に、因子フィルタリング処理前の各因子の寄与度(因子選択部252により算出された寄与度)や、各因子の標本用因子データおよび予測用因子データから特定される標本範囲および予測用因子値が記録される。このような因子選択結果データ255に基づき、各因子について、標本範囲および予測用因子値との関係と、因子フィルタリング処理の前後の寄与度とのうちの少なくとも一つが表示される。これにより、予測部253において同定した予測モデルに使用している因子の使用根拠を明確にすることができ、本実施の形態における予測システムの利便性を向上させることができる。
(9)第九の実施の形態
第一の実施の形態では、予測部253は、公知の手法で予測モデルを同定するが、本実施の形態では、予測部253は、因子選択部252が出力する各因子の予測モデルへの寄与度を基に予測モデルを同定する。
具体的には、例えば用いる因子が因子x1と因子x2の2種であり、また予測モデルが多変量回帰モデルや自己回帰モデルなどの線形回帰モデルである場合、予測モデルは例えば以下の式でよい。
Y=a*x1*w1+b*x2*w2+c
ここで、Yは、予測値である。またa、bおよびcの各々は、回帰モデルのパラメータである。*は、乗算を意味する。そしてw1およびw2の各々が、因子選択部252が出力した各因子の寄与度である。例えばw1よりw2の方が大きい場合、因子x1より因子x2の方が寄与度が高いことを意味する。
また例えばカーネル法などのデータ同士の類似度に基づいた予測モデルであって、類似度をユークリッド距離で算出する場合、類似度Sは例えば以下の式で与えられる。
S=d_ij〜w1(x1_i−x1_j)^2+w2(x2_i−x2_j)^2
ここでd_ijは、i番目とj番目の標本のユークリッド距離である。〜は、比例を意味する。そしてw1およびw2の各々が寄与度である。
このように、予測処理は、各因子についての予測に対する寄与度を基に、同定される予測モデルに対する当該因子の適合度を調整することと、各因子についての調整後の適合度に基づく予測モデルに対して予測用因子値を入力することとを含む。これにより、因子選択部252が選択した因子の中にあって、さらに予測モデルへの寄与度が高い因子に対し、予測モデルをより強く適合させることができ、予測精度を向上させることができる。
以上、本発明の幾つかの実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態に限定する趣旨ではない。本発明は、他の種々の形態でも実施する事が可能である。例えば、上述した複数の実施の形態のうちの任意の二つ以上の実施の形態を組み合わせる事が可能である。
1…データ管理システム、2…予測演算装置、3…データ管理装置、4…情報入出力端末、5…計画管理装置、6…データ観測装置、7…データ配信装置、8…通信経路、12…予測システム。
本発明は、概して、予測対象(例えば、電力需要量または市場価格)についての将来の値を予測する技術に関する。
電力事業やガス事業などのエネルギー事業分野や、通信事業分野や、タクシーや配送業などの運送事業分野などでは、消費者の需要に合わせた設備稼働や資源配分を行うために、需要量等の各種の予測対象についての値の予測を行う。
例えば電力需要量は気温の影響を受ける事が知られており、この場合は外気温を説明変数(因子の一例)として電力需要の予測モデルが同定される。予測対象としての電力需要量が広範囲のエリアについての電力需要量である場合、複数の因子として、複数の地点の外気温を用いることができる。また電力需要量は外気温以外の気象関連項目の影響も受けることがある。したがって、電力需要量の因子として複数の因子が存在する。因子の数が多い場合、予測モデルの同定に用いられる因子を取捨選択することで、予測される値の精度を向上することができる。なお、本明細書において、「因子値」とは、因子について得られた値である。例えば、因子が、外気温の場合、因子値は、29℃や30℃といった値である。
特許文献1に開示の方法は、入力変数それぞれと出力変数との関係を表す入出力モデルを生成し、各入力変数の出力変数に対する感度を生成し、感度に基づいて入力変数を選択提示する。
特許文献2に開示の方法は、複数地点を有する地理的範囲における各地点の需要予測値を出力する地点モデルを生成し、各地点の気象値の需要予測値への寄与度に基づき設定された係数と地点モデルとに基づき、全体モデルを生成する。
特許文献3に開示の方法は、プロセスデータを入力変数として予測値を算出する予測モデルをそれぞれ同定し、同定した複数の予測モデルから予測値をそれぞれ算出し、同定した複数の予測モデルのそれぞれに対して、入力変数として用いられるプロセスデータの異常の有無を診断する。当該方法は、異常有りと診断したプロセスデータを入力変数として含む予測モデルを使用しないと設定し、予め設定された複数の予測モデルの優先度に応じて、予測モデルによって予測された予測値を選定する。
特開2010−282547号公報 特開2019−87027号公報 特開2015−179454号公報
選択された因子を用いた予測モデルの同定の際には、各因子の過去標本に対して最も適合するように予測モデルが最適化(学習)される。この結果、過去標本の値の範囲内において高い予測精度を得ることができる。同定した予測モデルから予測値を出力させる際には、当該予測値の基になる予測用の因子値を入力する必要がある。
しかし、以下の第1および第2の課題が考えられる。
第1の課題は、選択された因子について、入力される予測用因子値が、予測モデルの同定に使用される標本(過去値)の範囲外である場合、標本範囲外の外挿処理が行われることとなるため、予測モデルから出力された予測値に大きな誤差が生じる場合があることである。
第2の課題は、ある時点について得られた因子値は標本範囲外であるが時間を経て十分な標本(因子値)が蓄積された後に同じ大きさの因子値が得られた場合、当該因子値は標本範囲内であり得ること、つまり、標本範囲の大きさに時間依存性がある因子があることである。
特許文献1および2には、第1および第2の課題のいずれについても対処方法が開示されておらず、故に、精度の良い予測値を得難いという問題がある。
また特許文献3では、プロセスデータが対象であるため、いずれの因子についても標本範囲に時間依存性が無い。故に、特許文献3に開示の方法は第2の課題が生じる場面には適さない。
本発明は以上の点を考慮してなされたもので、その目的は、標本範囲に時間依存性がある因子に起因した予測誤差を低減することである。
システムが、因子選択処理と、因子フィルタリング処理と、予測処理とを行う。因子選択処理は、一つまたは複数の因子から一つまたは二つ以上の因子を選択するための演算である因子選択演算を行うことを含む。因子フィルタリング処理は、予測モデルの同定に用いられる複数の標本用因子値の範囲に、予測対象の予測値の算出のために当該予測モデルに入力される予測用因子値が収まっているか否かを、因子選択処理が行われる前の一つまたは複数の因子の各々について判定することと、当該判定の結果が偽の因子を除外し除外されない因子を出力することとを含む。予測処理は、因子選択処理において選択された因子を含み因子フィルタリング処理において除外された因子を含まない一つ以上の因子の各々についての予測用因子値を予測モデルに入力することで予測対象の予測値を算出することを含む。
本発明によれば、標本範囲に時間依存性がある因子に起因した予測誤差を低減する事ができる。
第一の実施の形態によるデータ管理システムの構成例を示す図である。 予測システムの構成例を示す図である。 予測システムのデータフローの一例を示す図である。 予測システムが行う処理のフローの一例を示す図である。 因子フィルタリング処理のデータフローの一例を示す図である。 因子選択処理のデータフローの一例を示す図である。 予測処理のデータフローの一例を示す図である。 除外される因子についての標本範囲および予測用因子値の関係の一例を示す図である。 除外される因子と類似の因子についての標本範囲および予測用因子値の関係の一例を示す図である。 予測システムが表示する結果表示画面の一例を示す図である。
以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/O(Input/Output)インターフェースデバイスは、I/Oデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボードおよびポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
また、以下の説明では、「メモリ」は、一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。
また、以下の説明では、「永続記憶装置」は、一つ以上の永続記憶デバイスである。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)であり、具体的には、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)である。
また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。
また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスである。少なくとも一つのプロセッサデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサデバイスであるが、GPU(Graphics Processing Unit)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部または全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)またはASIC(Application Specific Integrated Circuit))といった広義のプロセッサデバイスでもよい。
また、以下の説明では、「yyy部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置および/またはインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
以下図面を参照して、本願発明の幾つかの実施の形態を詳述する。
(1)第一の実施の形態
(1−1)本実施の形態によるデータ管理システムの構成
図1において、符号1は、全体として本実施の形態によるデータ管理システムを示す。データ管理システム1は、例えば電力事業分野に適用される場合、過去の電力需要の実績量に基づいて将来の所定期間の電力の需要量、発電量、市場取引価格などの値を予測し、予測された値に基づいて、発電機の運転計画の策定と実行、そして、他の電気事業者からの電力の調達取引計画の策定や実行など電力の需給管理を可能にするものである。
データ管理システム1は、予測システム12(例えば、予測演算装置2およびデータ管理装置3)、計画管理装置5、情報入出力端末4、データ観測装置6およびデータ配信装置7から構成される。また通信経路8は、例えばLAN(Local Area Network)やWAN(Wide Area Network)のような通信ネットワークであり、データ管理システム1を構成する各種装置および端末を互いに通信可能に接続する通信経路である。
データ管理装置3は、予測対象の予測値を算出するために使用する予測対象や因子の標本用データ、および因子の予測用データを記憶する。
予測対象の標本用データには、時間推移に伴い観測された予測対象の過去の観測データである標本用予測対象データを少なくとも含む。また因子の標本用データには、予測対象の値の増減に影響を及ぼす可能性のある各種因子の過去の観測データである標本用因子データを少なくとも含む。また因子の予測用データには、標本用因子データに含まれる因子それぞれの予測用データを少なくとも含む。
予測対象は、例えば、電力、ガス、水道などのエネルギー消費量、あるいは太陽光発電や風力発電などのエネルギーの発電出力量、あるいは卸取引所で取引されるエネルギーの取引量や取引価格などでよい。また電力事業分野以外では、予測対象は、通信基地局などで計測される通信量、自動車どの移動体の位置情報履歴などでよい。またこれらの標本用データは、計測器単位のデータ、あるいは複数の計測器の合計としてデータでよい。
また因子は、例えば気温、湿度、日射量、風速、気圧などの気象関連項目、原油や天然ガスなどの取引量や取引価格などの燃料関連項目、送電線の送電容量などの送電線関連項目、発電機の運転もしくは保守スケジュールなどの発電機稼働状況に関連する項目、年月日、曜日、任意に設定した日の種別を示すフラグ値などの暦日関連項目、台風やイベントなどの突発事象の発生有無、エネルギーの消費者数、産業動向や景況指数などの経済状況に関連する項目、特急列車の乗車率、乗車客数、予約席数、あるいは道路交通状況などの人や移動体の移動状況に関連する項目、あるいは通信基地局に接続する通信端末数などの項目でよい。また一部の因子は、上記の予測対象でもよく、その場合、因子値は、過去の観測値そのもの、あるいは予測対象日時における予測値自体などでもよい。
データ管理装置3は、情報入出力端末4を介して予め設定した過去日時から最新の観測日時までの標本用データを記憶する。またデータ管理装置3は、他装置からのデータ取得要求に応じて、標本用データの検索および送信を行う。
予測演算装置2は、データ管理装置3に記憶されたデータを用いて予測を行う。予測演算装置2の詳細は、後述する。
計画管理装置5は、予測演算装置2が出力した予測結果データを基に、所定の目標を達成するための物理的な設備の運転計画の作成と実行を行う。ここで物理的な設備の運転計画とは、エネルギー分野においては、例えば、予測した将来のエネルギー需要値、発電出力、市場取引価格に基づいた発電機の運転計画でよい。具体的には、運転計画は、発電機の起動台数およびそれら発電機の出力配分の計画や、ガス導管や水道管に流すガスや水の流量や圧力の配分計画でよい。あるいはデマンドレスポンスと呼ばれる電力需要の調整制御においては、運転計画は、デマンドレスポンスに参加している電力消費者もしくは電力消費者の需要設備の需要調整量配分の計画でよい。また通信分野においては、運転計画は、例えば、通信基地局の収容容量を超えないように、各通信基地局に接続する通信端末数の制御計画でよい。また運送分野においては、運転計とは、例えば、予測した利用者数を充足させることが出来るようなタクシーの配車計画でよい。
なお設備の運転計画は、計画管理装置5を利用する主体者による直接的な実行に限定されるものではなく、間接的に実現される形態で実現されてもよい。間接的な設備の運転とは、電力分野においては、例えば、直接的な相対取引契約や取引所を介した取引契約に基づいた他者による物理的な設備の運転でよい。この場合、取引契約の実行計画が設備の運転計画に相当する。
情報入出力端末4は、予測演算装置2、データ管理装置3および計画管理装置5へのデータ入力や、これら装置が記憶するデータまたは出力するデータの表示を行う。データ観測装置6は、標本用予測対象データ、標本用因子データ、および予測用因子データを所定の時間間隔で定期的に計測もしくは収集し、データ配信装置7またはデータ管理装置3に送信する。データ配信装置7は、データ観測装置6から受信したデータを記憶し、データ管理装置3、予測演算装置2またはその両方に送信する。
(1−2)装置内部構成
図2は、予測システム12の構成例を示す。
予測システム12は、予測演算装置2とデータ管理装置3とから構成される。なお、「予測システム」は、予測演算装置2やデータ管理装置3のような物理的な計算機を備えたシステムに代えて、他種のシステム、例えば、物理的な計算リソース群(例えば、クラウド基盤)上に実現されたシステム(例えば、クラウドコンピューティングシステム)でもよい。
データ管理装置3は、データ管理装置3の動作を統括的に制御するCPU(Central Processing Unit)31、入力装置32、出力装置33、通信装置34および記憶装置35から構成される。データ管理装置3は、例えばパーソナルコンピュータ、サーバコンピュータまたはハンドヘルドコンピュータなどの情報処理装置である。
入力装置32は、キーボードまたはマウスから構成され、出力装置33は、ディスプレイまたはプリンタから構成される。また通信装置34は、無線LANまたは有線LANに接続するためのNIC(Network Interface Card)を備えて構成される。また記憶装置35は、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶媒体である。出力装置33を介して各処理部の出力結果や中間結果が適宜出力されてもよい。
記憶装置35には、標本用予測対象データ351、標本用因子データ352および予測用因子データ353が格納されている。
標本用予測対象データ351は、予測対象の過去の一つまたは複数の時点での観測値を含むデータである。予測対象の具体例は、上述の通りでよい。
標本用因子データ352は、予測対象の値の増減に影響を与える各種因子の過去の一つまたは複数の時点での観測値を含むデータである。因子の具体例は、上述の通りでよい。また、この段落で言う「観測値」が、標本用因子値の一例である。以下、適宜、「観測値」を「標本用因子値」と言うことがある。
予測用因子データ353は、予測対象の予測値の算出において使用する各因子の入力値を含んだデータである。この段落で言う「入力値」が、予測用因子値の一例である。以下、適宜、「入力値」を「予測用因子値」と言うことがある。
予測演算装置2は、予測演算装置2の動作を統括的に制御するCPU(Central Processing Unit)21、入力装置22、出力装置23、通信装置24および記憶装置25から構成される。予測演算装置2は、例えばパーソナルコンピュータ、サーバコンピュータまたはハンドヘルドコンピュータなどの情報処理装置である。
記憶装置25には、因子フィルタ部251、因子選択部252および予測部253といった機能を実現するための各種コンピュータプログラムが格納されている。そのような各種コンピュータプログラムがCPU21により実行されることで因子フィルタ部251、因子選択部252および予測部253が実現される。
因子フィルタ部251は、標本用予測対象データ351、標本用因子データ352、予測用因子データ353を入力し、標本用因子データ352および予測用因子データ353のうち、因子選択部252での因子選択処理の対象因子に該当する部分である標本用因子データ部分352A1と予測用因子データ部分353A1を出力する。具体的に因子フィルタ部251は、標本用因子データ352と予測用因子データ353を用いて、複数の因子の各々について、予測用因子値が、当該因子の複数の標本用因子値(複数の過去の観測値)の範囲である標本範囲に収まっているか否かを判定する。因子フィルタ部251は、標本用因子データ352および予測用因子データ353のうち、予測用因子値が標本範囲内に収まっている因子に対応した部分を、標本用因子データ部分352A1と予測用因子データ部分353A1(図5参照)として出力する。
因子選択部252は、因子フィルタ部251が出力した標本用因子データ部分352A1と予測用因子データ部分353A1、および標本用予測対象データ351を入力し、予測部253での予測モデル同定および予測値算出に用いる標本用因子データ部分352A2と予測用因子データ部分353A2を出力する。具体的に因子選択部252は、標本用因子データ部分352A1と標本用予測対象データ351用いて、予測対象の予測モデルの同定において必要十分な因子を取捨選択する。因子選択部252は、標本用因子データ部分352A1と予測用因子データ353部分A1のうち、選択した因子に対応した部分を、標本用因子データ部分352A2と予測用因子データ部分353A2(図6参照)として出力する。
予測部253は、標本用予測対象データ351、および因子選択部252が出力した標本用因子データ部分352A2と予測用因子データ部分353A2を入力し、予測値を算出し、算出した予測値を含むデータを予測結果データ254に追加する。具体的に予測部253は、標本用予測対象データ351と標本用因子データ部分352A2を用いて、予測対象の予測値を算出する予測モデルを同定する。予測部253は、同定した予測モデルに、予測用因子データ部分353A2を入力することで、予測対象日時における予測対象の予測値を算出する。予測部253は、算出した予測値を含むデータを予測結果データ254に追加する。
図2が例示する予測システム12において、通信装置24および34が、インターフェース装置の一例である。記憶装置25および35が、記憶装置の一例である。CPU21および31が、プロセッサの一例である。
(1−3)予測システム12の全体の処理およびデータフロー
図3および図4を参照して、予測システム12の処理およびデータフローについて説明する。
図3を参照して、予測システム12のデータフローを説明する。なお、図3において、一点鎖線矢印は、後述の第四の実施形態(再帰的な処理)に関わる。
データ管理装置3は、データ観測装置6またはデータ配信装置7から標本用予測対象データ351、標本用因子データ352、および予測用因子データ353を受信(取得)し、それらのデータ351、352および353を記憶装置35に格納する。
予測演算装置2において、因子フィルタ部251が、標本用因子データ352における各因子について、標本範囲(過去値の範囲)に、予測用因子データ353における予測用因子値が収まっているか否かを判定する。因子フィルタ部251が、予測用因子値が標本範囲に収まっている因子について標本用因子データ部分352A1と予測用因子データ部分353A1(図5参照)を出力する。
次いで予測演算装置2において、因子選択部252が、標本用予測対象データ351と、因子フィルタ部251が出力した標本用因子データ部分352A1および予測用因子データ部分353A1とを用いて、予測部253において同定する予測モデルに使用する必要十分な因子を取捨選択する。因子選択部252が、標本用因子データ部分352A1および予測用因子データ部分353A1のうち、選択した因子の標本用因子データ部分352A2および予測用因子データ部分353A2(図6参照)を出力する。また因子選択部252が、選択された因子を識別する識別子を含んだデータを因子選択結果データ255に追加する。因子選択結果データ255は、例えば、各因子について、予測に対する寄与度を表すデータを含んでよい。
そして予測演算装置2において、予測部253が、標本用予測対象データ351と因子選択部252が出力した標本用因子データ部分352A2とを用いて予測モデルを同定する。予測部253が、同定した予測モデルに対して、因子選択部252が出力した予測用因子データ部分353A2を入力することで予測値を算出し、算出した予測値を含むデータを予測結果データ254に追加する。
最後に予測演算装置2は、算出した予測値を含む予測結果データ254を、計画管理装置5に、計画管理装置5からのリクエスト無しにまたは計画管理装置5からのリクエストに応答して、送信する。
次に図4を参照して、予測システム12が行う処理の手順を説明する。この処理は、予測演算装置2が装置利用者からの入力操作を受け付けたことまたは情報入出力端末4を介して予め設定した実行時刻になったことを契機として始まる処理でよい。予測演算装置2によりステップS401からステップS404の処理が実行される。
先ず因子フィルタ部251が、データ管理装置3から、標本用予測対象データ351、標本用因子データ352、および予測用因子データ353を取得受信する(S401)。
次いで、因子フィルタ部251は、因子フィルタリング処理を行う(S402)。因子フィルタリング処理は、各因子について、予測用因子データ353における予測用因子値と、標本用因子データ352から特定される標本範囲とに基づいて、因子選択部252において因子選択処理を行う対象の因子を選択することと、選択された因子の標本用因子データ部分352A1および予測用因子データ部分353A1を出力することとを含む。因子フィルタリング処理において選択される因子は、因子用予測値が標本範囲に収まっていないが故に除外された因子以外の全ての因子(つまり、因子用予測値が標本範囲に収まっている全ての因子)でもよいが、本実施形態では、除外されずに残った因子のうち、除外された因子と類似の因子が優先的に含まれる。「類似の因子」とは、除外された因子との相関が絶対的にまたは相対的に強い因子である。「相関が絶対的に強い」とは、相関係数が一定値以上であることでよい。「相関が相対的に強い」とは、除外された因子以外の因子において相関係数が相対的に強い(例えば、最も強い)ことでよい。また、「相関が絶対的にまたは相対的に強い」は、予測に対する寄与度が類似していることを含んでよい。「寄与度が類似」とは、寄与度間の差が一定値以下であることでよい。
そして、因子選択部252は、標本用予測対象データ351と、因子フィルタ部251が出力した標本用因子データ部分352A1および予測用因子データ部分353A1とを用いて、因子選択演算を行うか否かを判定する(S4031)。
S4031の判定結果が真の場合、因子選択部252は、予測部253において同定する予測モデルに使用する因子を、因子選択演算を経て選択し、選択した因子に対応した標本用因子データ部分352A2および予測用因子データ部分353A2を出力する(S4032)。
S4031の判定結果が偽の場合、因子選択部252は、予測部253において同定する予測モデルに使用する因子を、因子選択演算を経ないで選択し(言い換えれば、過去の因子の選択結果と同じ因子を選択し)、選択した因子に対応した標本用因子データ部分352A2および予測用因子データ部分353A2を出力する(S4033)。
そして、予測部253は、標本用予測対象データ351と、因子選択部252が出力した標本用因子データ部分352A2とを用いて予測モデルを同定し、同定した予測モデルに対して因子選択部252が出力した予測用因子データ部分353A2を入力し、予測対象の予測値を出力する(S404)。
最後に予測演算装置2は、予測部253が出力した予測値を含む予測結果データ254を、計画管理装置5からのリクエスト無しにまたは計画管理装置5からのリクエストに応答して、計画管理装置5に送信する。
以降、図5から図7を用いて、各構成要素の詳細を説明する。
(1−4)各構成要素の詳細
(1−4−1)因子フィルタ部251
図5を参照して、因子フィルタ部251のデータフローおよび処理を説明する。なお、図5において、一点鎖線矢印は、後述の第六の実施形態(過去に行った因子選択結果の重みづけ平均)に関わる。
因子フィルタ部251は、因子フィルタリング処理を行う。因子フィルタリング処理は、下記の(a)および(b)を含む。
(a)予測用因子データ353における予測用因子値が、標本用因子データ352から特定される標本範囲(予測モデルの同定に用いられる複数の標本用因子値の範囲)に収まっているか否かを、因子選択処理が行われる前の各因子について判定すること。
(b)当該判定の結果が偽の因子を除外し除外されない因子について標本用因子データ部分352A1および予測用因子データ部分353A1を出力すること。
標本用因子データ352には、随時にまたは定期的に、少なくとも一つの因子について新たに一つまたは複数の標本用因子値が追加される。予測モデルの同定の必要があるときに、因子フィルタ部251が、標本用因子データ352から、予測モデルの同定のために因子の複数の標本用因子値を取得する。当該複数の標本用因子値の範囲が、標本範囲である。因子フィルタ部251が、予測用因子値が標本範囲に収まらない因子を除外する。これにより、標本範囲に時間依存性がある因子に起因した予測誤差を低減する事ができる。
また、因子フィルタリング処理は、因子選択部252による因子選択処理の前に行われる。因子選択処理における因子選択演算のアルゴリズムによっては選択肢としての因子の数が多いと因子選択の精度が低下し得るという技術的課題が知られている。因子フィルタリング処理は因子選択処理の後に行われてもよいが、本実施形態では、因子フィルタリング処理は因子選択処理の前に行われる。これにより、因子選択の精度が低下する可能性を低減することができる。
具体的に因子フィルタ部251は、範囲フィルタ部251A、相関フィルタ部251Bおよびフィルタ結果調整部251Cを有する。
範囲フィルタ部251Aは、データ管理装置3から標本用因子データ352と予測用因子データ353を取得する。次いで範囲フィルタ部251Aは、それぞれの因子について、予測用因子データ353における予測用因子値が標本用因子データ352から特定される標本範囲に収まっているか否かを判定する。例えばある因子Aについて、予測用因子値が「10」であり、標本用因子値の最小値と最大値がそれぞれ「0」と「20」であれば、因子Aの予測用因子値は標本範囲に収まっていると判定する。なお標本範囲は、複数の標本用因子値のうちの最小値から最大値までの範囲に限らず、複数の標本用因子値の他種の範囲、あらかじめ設定した乗数を複数の標本用因子値に乗算した範囲や、あらかじめ設定した値を複数の標本用因子値に加算もしくは減算した範囲であってもよい。範囲フィルタ部251Aは、すべての因子について判定処理を行う。範囲フィルタ部251Aは、下記(X)および(Y)のいずれかを行う。
(X)標本範囲に予測用因子値が収まっていると判定された因子についてのみ標本用因子データ部分と予測用因子データ部分を出力する。
(Y)下記の(y1)および(y2)を出力する。
(y1)標本範囲に予測用因子値が収まっていると判定された因子であることを表す情報が関連付けられた標本用因子データ部分と予測用因子データ部分。
(y2)標本範囲に予測用因子値が収まっていないと判定された因子(つまり除外対象の因子)であることを表す情報が関連付けられた標本用因子データ部分と予測用因子データ部分。
相関フィルタ部251Bは、下記の(A)および(B)のうちの少なくとも一つの処理を行う。
(A)上述の(X)が範囲フィルタ部251Aにより行われた場合、相関フィルタ部251Bは、範囲フィルタ部251Aが出力した標本用因子データ部分から因子間の互いの相関(因子間の標本用因子値群(複数の標本用因子値)の相関)を算出する。相関フィルタ部251Bは、あらかじめ定めた閾値を超える相関値(相関係数)を持つ因子同士の内、一つの因子のみの標本用因子データ部分と予測用因子データ部分を出力する。なお相関フィルタ部251Bが行う処理はこれに限らず、他種の処理、例えば、多重共線性を除外する公知の処理が適用されてもよい。
(B)上述の(Y)が範囲フィルタ部251Aにより行われた場合、相関フィルタ部251Bは、(y1)と(y2)を基に、除外対象の因子と類似の因子(除外対象の因子と絶対的にまたは相対的に相関が強い因子)を特定し、特定された類似の因子の標本用因子データ部分と予測用因子データ部分を出力する。複数の類似の因子が見つかった場合、相関フィルタ部251Bは、(A)の処理と同様の方法により、複数の類似の因子を一つの類似の因子に絞り、絞り込まれた類似の因子の標本用因子データ部分と予測用因子データ部分とを出力する。
最後にフィルタ結果調整部251Cは、因子選択結果データ255に記録されている各因子の予測に対する寄与度を参照する。これにより、因子選択結果データ255から、相関フィルタ部251Bが出力した標本用因子データ部分と予測用因子データ部分について各因子の寄与度がわかる。フィルタ結果調整部251Cは、相関フィルタ部251Bが出力した標本用因子データ部分と予測用因子データ部分の中に、あらかじめ定めた閾値を超える寄与度を示す因子の因子値が含まれているか否かを判定する。
この判定の結果が真の場合、フィルタ結果調整部251Cは、相関フィルタ部251Bが出力した標本用因子データ部分と予測用因子データ部分を出力する。
一方、この判定の結果が偽の場合、フィルタ結果調整部251Cは、範囲フィルタ部251Aが出力した標本用因子データ部分と予測用因子データ部分から、寄与度が閾値を超える因子の標本用因子データ部分と予測用因子データ部分を取得する。フィルタ結果調整部251Cは、取得した標本用因子データ部分と相関フィルタ部251Bが出力した標本用因子データ部分とを含んだデータを標本用因子データ部分352A1として出力する。また、フィルタ結果調整部251Cは、取得した予測用因子データ部分と相関フィルタ部251Bが出力した予測用因子データ部分とを含んだデータを予測用因子データ部分353A1として出力する。
因子フィルタ部251によれば、標本範囲に予測用因子値が収まっている因子のうち、標本範囲に予測用因子値が収まっていない除外される因子と類似した因子が、優先的に出力対象となる。これにより、例えば除外された因子の寄与度が閾値を超えている場合、当該因子と類似した因子の予測用因子値を用いて予測値が算出されることが期待される。結果として、予測誤差の一層の低減が期待できる。
また、因子フィルタ部251によれば、因子間の相関が高い場合、それらの因子のうちの一つの因子に絞られる。これにより、因子選択処理の選択肢としての因子の数が低減され、以って、因子選択演算のアルゴリズムによっては選択肢としての因子の数が多いと因子選択の精度が低下し得るという技術的課題の影響を低減することが期待できる。
また、因子フィルタ部251によれば、絞り込んだ結果として寄与度が閾値を超える因子が無くなった場合には、絞り込みにおいて外された因子のうち寄与度が閾値を超える因子が戻される。これにより、予測誤差の一層の低減が期待できる。
以上が、因子フィルタ部251の詳細の説明である。
(1−4−2)因子選択部252
図6を参照して、因子選択部252のデータフローおよび処理を説明する。なお、図6において、一点鎖線矢印は、後述の第七の実施形態(予測誤差の大きさに応じて因子選択演算の実行頻度を低減すること)に関わる。
因子選択部252は、因子選択処理を行う。因子選択処理は、下記(a)および(b)を含む。
(a)標本用予測対象データ351と、因子フィルタ部251が出力した標本用因子データ部分352A1と予測用因子データ部分353A1とを用いて、予測部253において同定する予測モデルに使用する因子を取捨選択すること。
(b)選択した因子の標本用因子データ部分352A2と予測用因子データ部分353A2とを出力すること。
具体的に因子選択部252は、因子選択要否判定部252Aおよび因子選択演算部252Bを有する。
因子選択要否判定部252Aは、因子フィルタ部251が出力した標本用因子データ部分352A1と予測用因子データ部分353A1に基づいて、因子選択演算部252Bにおいて新たに因子選択演算を行う必要があるか否かの判定を行い、当該判定結果(因子選択演算の実行要否)を示す制御値を出力する。これにより、因子選択演算の実行頻度が減るので、予測誤差の低減に加えて処理負荷の低減が期待できる。例えば因子選択要否判定部252Aは、標本用因子データ部分352A1に対して予測用因子データ部分353A1を加えたことによる情報量の変化量(差分)を算出する。算出した変化量があらかじめ定めた閾値を超える場合、因子選択要否判定部252Aは、新たな因子選択演算の必要があることを表す制御値を出力する。一方、算出された差分があらかじめ定めた閾値以下の場合、因子選択要否判定部252Aは、新たな因子選択演算の必要が無いことを表す制御値を出力する。このようにして、因子選択演算の実行頻度が適切に低減される。
次いで因子選択演算部252Bは、因子選択要否判定部252Aからの制御値が因子選択演算の必要があることを表している場合、標本用予測対象データ351と因子フィルタ部251が出力した標本用因子データ部分352A1とを用いて、予測部253で同定する予測モデルに使用する因子を取捨選択する因子選択演算を行う。因子選択演算部252Bは、標本用因子データ部分352A1と予測用因子データ部分353A1のうち選択した因子に対応した部分を標本用因子データ部分352A2と予測用因子データ部分353A2として出力する。なお本選択演算は、一般的には特徴選択や変数選択と呼ばれる処理でよく、公知の手法が適用された演算でよい。公知の手法とは、予測対象との相関に基づいたフィルタ法、前向き法、後ろ向き法、組合せ最適化応用などのラッパー法、リッジ回帰、ラッソ回帰、エラスティックネットなどの正則化や、ランダムフォレストや勾配ブースティング木などのアンサンブル木を用いた方法などでよい。
因子選択要否判定部252Aからの制御値が因子選択演算の不要を表している場合、因子選択演算部252Bは、因子選択演算無しに因子を選択する。例えば、因子選択演算部252Bは、標本用因子データ部分352A1と予測用因子データ部分353A1のうち因子選択結果データ255に記録されている因子に対応した部分を標本用因子データ部分352A2と予測用因子データ部分353A2として出力する。
なお、因子選択演算部252Bは、選択した各因子について、予測に対する寄与度を算出し、当該選択した因子と算出された寄与度とを表すデータを因子選択結果データ255に追加できる。
以上が、因子選択部252の詳細の説明である。
(1−4−3)予測部253
図7を参照して、予測部253のデータフローおよび処理を説明する。なお、図7において、一点鎖線矢印は、後述の第九の実施形態(因子の寄与度を考慮した予測)に関わる。
予測部253は、予測処理を行う。予測処理は、下記(a)乃至(c)を含む。
(a)標本用予測対象データ351と、因子選択部252が出力した標本用因子データ部分352A2とを用いて、予測対象の予測値を算出する予測モデルを同定すること。
(b)同定された予測モデルに予測用因子データ部分353A2を入力することで予測対象の予測値を算出すること。
(c)算出された予測値を含むデータを予測結果データ254に追加すること。
具体的に予測部253は、予測モデル同定部253Aおよび予測値算出部253Bを有する。
予測モデル同定部253Aは、データ管理装置3から標本用予測対象データ351を取得し、また因子選択部252から標本用因子データ部分352A2と予測用因子データ部分353A2を受ける。次いで予測モデル同定部253Aは、標本用予測対象データ351と標本用因子データ部分352A2とを用いて、予測対象の予測値を算出する予測モデルを同定する。予測モデルは公知のモデルでよい。公知のモデルとは、例えば、下記のいずれでもよい。
・リッジ回帰、ラッソ回帰、エラスティックネットなどの線形モデル。
・回帰木、ランダムフォレスト、ブースティングツリーなどのツリーモデル。
・サポートベクトル回帰、カーネルリッジ回帰、ガウス過程回帰などのカーネル法。
・リカレントネットやLong Short−Term Memoryなどのニューラルネットワーク。
そして予測値算出部253Bは、予測モデル同定部253Aが同定(出力)した予測モデルに対し、因子選択部252が出力した予測用因子データ部分353A1を入力することで、予測対象の予測値を算出し、算出された予測値を含むデータを予測結果データ254に追加する。
以上が、予測部253の詳細の説明である。
(1−5)本願発明の効果の説明
次に図8Aおよび図8Bを参照して、予測システム12の効果の一例を説明する。
図8Aは、予測対象の予測値を算出する予測モデルの同定において、因子Aの複数の標本用因子値が用いられた場合を例示している。典型的には、複数の因子の複数の標本用因子値を用いた多次元の予測モデルが同定されるが、図の簡略化のため、予測モデルの同定に、因子Aのみの複数の標本用因子値が用いられる例が採用されている。
点8A1は、標本用因子値とそれに対応する標本用予測値(標本用予測対象データ351における値)とに該当する座標にプロットされた標本点である。この複数の標本点8A1を用いて同定された予測モデルが、破線曲線8A3である。この予測モデル8A3に対し、標本範囲(図8Aでは、複数の標本点8A1の標本用因子値の最小値から最大値の範囲)の外にある予測用因子値8A4が入力された場合、予測値8A5が出力される。
しかし因子Aの因子値と予測対象の値との真の予測モデルは太線8A2であった場合、予測対象について予測用因子値8A4に対応する値として事後に観測される実際の値は、値8A6であり、予測値8A5よりも大幅に小さい値となる。
したがって因子Aの複数の標本用因子値を用いて予測モデル8A3が同定された場合、因子Aの予測用因子値8A4は標本範囲外であることから、同定された予測モデル8A3の信頼性が低く、結果として大きな予測誤差が生じる。
そこで本実施の形態における因子フィルタ部251による因子フィルタリング処理が行われる。これにより、因子Aは除外される、すなわち、予測モデルの同定に使用されないこととなる。この場合、因子フィルタリング処理において、予測用因子値が標本範囲に収まっている因子のうち、少なくとも、因子Aと相関が強い(例えば、因子Aと寄与度が類似している)因子の一例である因子Xが選択される。因子Xの複数の標本点8A9を用いて予測モデル(曲線)8A8が同定される。予測モデル8A8は、真の予測モデル(太線)8A7と標本範囲において類似している。そして、因子Xの予測用因子値8A10は、標本範囲内である。したがって予測モデル8A8の信頼性は比較的高く、予測用因子値8A10が予測モデル8A8に入力されることで得られた予測値8A11は、事後に観測される実際の値8A12に近い値となる。つまり、予測誤差が小さい。
以上のように本実施の形態において、予測用因子値が標本範囲外であることに起因する予測の過大誤差の発生を低減することが可能となる。
(2)第二の実施の形態
第一の実施の形態では、データ配信装置7およびデータ観測装置6の少なくとも一つから標本用因子データ352および予測用因子データ353が取得されるが、本実施の形態では、標本用因子データ352および予測用因子データ353の少なくとも一部が、情報入出力端末4を介してあらかじめ入力設定される。
具体的に、例えば、ある因子Aについてデータ配信装置7およびデータ観測装置6の少なくとも一つから収集された標本用因子データ352において、標本用因子値の上下限値が「8」と「0」とする(つまり、標本範囲が0以上8以下の範囲とする)。この時、上下限値それぞれに対する標本用予測値が「10」と「1」とする。ここで予測用因子値が「9」であるとした場合、予測用因子値が標本範囲外であることから、因子Aは因子フィルタ部251において除外される。
ここで因子Aの因子値と予測値との関係は原理的に明らかであり、故に、例えば、標本範囲外の因子値「10」に対して予測値が「15」であることが明らかであるとする。この場合、運用管理者(ユーザの一例)が標本用因子データ352に標本用因子値「10」を追加しそれに対応する予測値「15」を標本用予測対象データ351に追加することで、標本範囲が0以上8以下から0以上10以下に変化し、したがって、予測用因子値が上述の「9」であっても、因子Aの除外は回避される。
これにより、因子値と予測値の関係が原理的に明らかであり、かつその標本点(標本用因子値と標本用予測値のペア)が未だ観測されていない場面において、原理的に明らかな上下限の標本点を事前に定義することで、予測用因子値が標本範囲外であることを理由に寄与度が高い因子が除外されてしまうことを回避し、以って、同定される予測モデルの信頼性の低下を回避することができる。
(3)第三の実施の形態
第一の実施の形態では、相関フィルタ部251Bが、互いに強い相関を持つ因子同士の内、一方を除外するが、第三の実施形態では、相関フィルタ部251Bの処理がスキップされ、結果として、範囲フィルタ部251Aの出力が全てフィルタ結果調整部251Cに入力されることがある。例えば、因子フィルタ部251は、範囲フィルタ部251Aにより除外された因子の数が少なく、故に、範囲フィルタ部251Aをパスした因子の数が一定値以上の場合、相関フィルタ部251Bの処理をスキップしてよい。
これにより、互いに強い相関を有しながらもわずかな値の違いで除去されてしまうが予測モデルへの大きな寄与を有する(つまり寄与度が高い)因子が存在する場合、当該因子の除外が回避される。故に、最終的な予測精度の向上させることができる。
(4)第四の実施の形態
第一の実施の形態では、因子フィルタリング処理、因子選択処理および予測処理に至るまでの処理の流れが一度のみであるが、本実施の形態では、予測部253が出力した予測値が新たな予測用因子値として加えられて、因子フィルタリング処理から予測処理までの処理が再帰的に行われる。このとき、当該新たな予測用因子値に対応する新たな標本用因子値として、標本用予測対象データ351もしくは予測結果データ254に格納されている過去の予測値が加えられる。
このように、本実施の形態では、因子フィルタリング処理において、因子として、予測対象が含まれ、因子としての予測対象について、予測用因子値は、算出された予測値であり、複数の標本用因子値は、予測対象について過去に得られた複数の値である。これにより、予測対象が複数の値であり、かつそれらの値の間に相関関係を有する場合、再帰的な予測を行うことで予測値間の相関関係を反映した予測値を出力することが可能となり、予測精度を向上させることができる。より具体的には、予測用因子値が標本範囲外にある因子が予測に使用される因子から除外されるため予測誤差が低減され、故に、予測値の精度は高いので、因子として予測対象を追加し予測値を予測用因子として再帰的な処理を行うことで、予測精度を向上させることができる。
(5)第五の実施の形態
第一の実施の形態では、因子選択演算は公知の手法の演算であるが、本実施の形態では、因子選択演算は、予測部253において用いられる予測モデルを利用した因子選択演算である。
具体的には、先ず因子選択演算部252Bは、公知の手法を用いて、各因子の寄与度(予測に対する寄与度)を算出する。次いで、因子選択演算部252Bは、寄与度の大きい順もしくは小さい順に因子を使用して予測モデルを複数同定する。そして因子選択演算部252Bは、それぞれの予測モデルの予測精度(予測モデルの評価値の一例)を算出し、予測精度が最良となる予測モデルに使用している因子を選択し、選択された因子に対応する標本用因子データ部分352A2と予測用因子データ部分353A2を出力する。
因子選択演算部252Bにおいて算出した因子選択結果には、誤って選択された因子が含まれている場合がある。因子選択演算部252Bにおいて得た因子選択結果を、予測部253で用いられることになる予測モデルを用いて検査することで、予測モデルの予測精度が最良となる因子のみを選択することができ、以って、予測精度を向上させることができる。
(6)第六の実施の形態
第一の実施の形態では、因子選択部252は、因子選択結果データ255を都度更新するか、もしくは過去に行った因子選択処理の結果を流用するが、本実施の形態では、因子選択部252は、過去に行った因子選択結果の重みづけ平均を行う。
具体的に図6における因子選択演算部252Bが、先ず、標本用予測対象データ351と標本用因子データ部分352A1を用いて、予測部253において同定される予測モデルに使用する因子を取捨選択することに加えて、各因子の予測モデルに対する寄与度を算出する。次いで因子選択演算部252Bは、因子選択結果データ255に格納されている全ての寄与度(過去に実施した因子選択処理において得た各因子の予測モデルへの寄与度)を取得する。そして因子選択演算部252Bは、算出および取得した各因子の寄与度を平均化する。平均化は単純な算術平均でもよいし、それぞれの寄与度を示す指標値を算出した日時に基づいた重みづけ平均でもよい。そして因子選択演算部252Bは、算出した各因子の寄与度を用いて、予測モデルの同定に用いる因子の取捨選択を交差検定により行う。
このように、因子選択処理は、各因子について、複数の標本用因子値を基に同定される予測モデルに対する寄与度と、複数の過去の時点にそれぞれ対応した複数の寄与度とを平均化することを含む。因子選択演算は、各因子についての平均化された寄与度を基に因子を選択するための演算である。因子の寄与度は、時間経過に応じて変化し得るが、本実施の形態により、予測モデルへの寄与度の高い因子の時間変化に追従した因子選択が可能となり、故に、因子の誤選択の可能性が低減され、結果として、予測精度を向上させることができる。
(7)第七の実施の形態
第一の実施の形態では、因子選択演算の要否判定の基準として、情報量の変化量が採用れるが、本実施の形態では、情報量の変化量に代えてまたは加えて、予測誤差が採用される。具体的には、因子選択要否判定部252Aは、予測結果データ254を取得し、予測結果データ254に基づいて特定される予測誤差に従う値(例えば、ある単体の予測誤差もしくは所定の過去期間からの予測誤差の平均や累積)があらかじめ定めた閾値を超えるか否かを判定する。この判定の結果が真の場合に(あるいは、情報量の変化量もさらに閾値を超えている場合に)、因子選択演算が必要であることを表す制御値が出力される。この判定の結果が偽の場合に(あるいは、情報量の変化量も閾値以下の場合に)、因子選択演算が不要であることを表す制御値が出力される。
これにより、時間変化に伴う予測誤差拡大を検知し、予測モデルに使用のために選択する因子を時間変化に追従させることができるため、予測精度を維持させることができる。
(8)第八の実施の形態
第一の実施の形態では、因子選択部252は、因子選択結果データ255に因子選択結果を格納するが、本実施の形態では、因子選択部252は、因子選択結果データ255を可視化する。例えば、因子選択部252は、因子選択結果データ255に基づく結果表示画面を、情報入出力端末4に表示する。具体的に図9を用いて説明する。図9は結果表示画面の一例を示す。
結果表示画面90には、第1のグラフ91と第2のグラフ92のうちの少なくとも一つが表示される。
第1のグラフ91は、各因子について標本範囲と予測用因子値との関係を表すグラフである。第1のグラフ91において、縦軸9A1は、因子の軸である。縦軸9A1には、標本用因子データ352および予測用因子データ353から特定される全因子の識別子(例えば名称)が表示される。横軸9A2は、因子値の軸である。横軸9A2には、因子値が表示される。なお、ここでは、各因子の因子値は正規化されて表示される。各因子(例えば因子A)について、符号9A3は、標本範囲を表すオブジェクトである。各因子(例えば因子Aまたは因子D)について、菱形点9A4は、当該因子の予測用因子値を表すオブジェクトである。
図9が例示する第1のグラフ91によれば、因子Dの標本範囲外に因子Dの予測用因子値が存在する。よって因子Dは因子フィルタ部251において選択対象の因子からは除外される。
第2のグラフ92は、各因子について少なくとも一つの因子の除外前後での予測に対する寄与度を表すグラフである。第2のグラフ92において、縦軸9A9は、縦軸9A1と同様、因子の軸である。横軸9A5は、寄与度の軸である。横軸9A5には、各因子の予測モデルに対する寄与度が表示される。第2のグラフ92では、各因子について、二種類の棒が表示される。各因子について、上段の棒は、因子フィルタリング処理を行わずに全因子を対象に因子選択処理を実施した場合での当該因子の寄与度を表す。各因子について、下段の棒は、因子フィルタリング処理を適用し因子選択処理を行った場合での当該因子の寄与度を表す。各因子について、寄与度は、相対的な値であり、故に、少なくとも一つの因子が除外されると、残った各因子の寄与度は変わる。
ここで因子Dは、因子フィルタリング処理が行われない場合、棒9A6によれば高い寄与度の因子ではある。しかし、因子Dは第1のグラフ91のとおり因子選択処理の対象から除外されているため、因子フィルタリング処理が行われた場合、因子Dの寄与度は、棒9A7のとおりゼロとなる。したがって予測部253において、因子Dは予測モデルの同定に使用されないこととなる。
このように因子選択結果データ255を基に結果表示画面が表示される。因子選択結果データ255には、因子フィルタリング処理の後に選択された因子毎の寄与度の他に、因子フィルタリング処理前の各因子の寄与度(因子選択部252により算出された寄与度)や、各因子の標本用因子データおよび予測用因子データから特定される標本範囲および予測用因子値が記録される。このような因子選択結果データ255に基づき、各因子について、標本範囲および予測用因子値との関係と、因子フィルタリング処理の前後の寄与度とのうちの少なくとも一つが表示される。これにより、予測部253において同定した予測モデルに使用している因子の使用根拠を明確にすることができ、本実施の形態における予測システムの利便性を向上させることができる。
(9)第九の実施の形態
第一の実施の形態では、予測部253は、公知の手法で予測モデルを同定するが、本実施の形態では、予測部253は、因子選択部252が出力する各因子の予測モデルへの寄与度を基に予測モデルを同定する。
具体的には、例えば用いる因子が因子x1と因子x2の2種であり、また予測モデルが多変量回帰モデルや自己回帰モデルなどの線形回帰モデルである場合、予測モデルは例えば以下の式でよい。
Y=a*x1*w1+b*x2*w2+c
ここで、Yは、予測値である。またa、bおよびcの各々は、回帰モデルのパラメータである。*は、乗算を意味する。そしてw1およびw2の各々が、因子選択部252が出力した各因子の寄与度である。例えばw1よりw2の方が大きい場合、因子x1より因子x2の方が寄与度が高いことを意味する。
また例えばカーネル法などのデータ同士の類似度に基づいた予測モデルであって、類似度をユークリッド距離で算出する場合、類似度Sは例えば以下の式で与えられる。
S=d_ij〜w1(x1_i−x1_j)^2+w2(x2_i−x2_j)^2
ここでd_ijは、i番目とj番目の標本のユークリッド距離である。〜は、比例を意味する。そしてw1およびw2の各々が寄与度である。
このように、予測処理は、各因子についての予測に対する寄与度を基に、同定される予測モデルに対する当該因子の適合度を調整することと、各因子についての調整後の適合度に基づく予測モデルに対して予測用因子値を入力することとを含む。これにより、因子選択部252が選択した因子の中にあって、さらに予測モデルへの寄与度が高い因子に対し、予測モデルをより強く適合させることができ、予測精度を向上させることができる。
以上、本発明の幾つかの実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態に限定する趣旨ではない。本発明は、他の種々の形態でも実施する事が可能である。例えば、上述した複数の実施の形態のうちの任意の二つ以上の実施の形態を組み合わせる事が可能である。
1…データ管理システム、2…予測演算装置、3…データ管理装置、4…情報入出力端末、5…計画管理装置、6…データ観測装置、7…データ配信装置、8…通信経路、12…予測システム。

Claims (10)

  1. 一つまたは複数の因子から一つまたは二つ以上の因子を選択するための演算である因子選択演算を行うことを含む因子選択処理を行う因子選択部と、
    予測モデルの同定に用いられる複数の標本用因子値の範囲に、予測対象の予測値の算出のために当該予測モデルに入力される予測用因子値が収まっているか否かを、前記因子選択処理が行われる前の一つまたは複数の因子の各々について判定することと、当該判定の結果が偽の因子を除外し除外されない因子を出力することとを含む因子フィルタリング処理を行う因子フィルタ部と、
    前記因子選択処理において選択された因子を含み前記因子フィルタリング処理において除外された因子を含まない一つ以上の因子の各々についての予測用因子値を予測モデルに入力することで予測対象の予測値を算出することを含む予測処理を行う予測部と
    を備える予測システム。
  2. 前記因子フィルタリング処理は、除外した因子がある場合、予測用因子値が複数の標本用因子値の範囲に収まっている因子のうち当該除外した因子との相関が絶対的にまたは相対的に強い少なくとも一つの因子を出力することを含む、
    請求項1に記載の予測システム。
  3. 前記因子選択処理は、一つまたは複数の因子の各々について、複数の標本用因子値を基に同定される予測モデルに対する寄与度と、複数の過去の時点にそれぞれ対応した複数の寄与度とを平均化することを含み、
    前記因子選択演算は、当該一つまたは複数の因子の各々についての平均化された寄与度を基に当該一つまたは複数の因子から前記一つまたは二つ以上の因子を選択するための演算である、
    を含む、
    請求項1に記載の予測システム。
  4. 前記予測処理は、
    前記一つ以上の因子の各々についての予測に対する寄与度を基に、同定される予測モデルに対する当該因子の適合度を調整することと、
    前記一つ以上の因子の各々についての調整後の適合度に基づく予測モデルに対して前記一つ以上の因子の各々についての予測用因子値を入力することと
    を含む、
    請求項1に記載の予測システム。
  5. 前記因子選択処理は、一つまたは複数の因子の各々について、当該因子の複数の標本用因子値を用いて予測モデルを同定し、且つ、同定された予測モデルの評価値を算出することを含み、
    前記因子選択演算は、算出された評価値が最も高い予測モデルに使用された前記一つまたは二つ以上の因子を選択するための演算である、
    を含む、
    請求項1に記載の予測システム。
  6. 前記因子フィルタリング処理において、
    前記一つまたは複数の因子は、予測対象を含み、
    当該一つまたは複数の因子のうち、因子としての予測対象について、予測用因子値は、算出された予測値であり、複数の標本用因子値は、過去に得られた複数の値である、
    請求項1に記載の予測システム。
  7. 前記因子選択処理は、
    前記因子フィルタリング処理において選択された全ての因子の複数の標本用因子値に複数の予測用因子値が追加される前後の情報量の差分が所定の閾値を超えたか否かを判定することと、
    当該判定の結果が偽の場合、新たに予測値を算出するために使用される因子として前記因子選択演算無しに前記一つまたは二つ以上の因子を選択することと、
    当該判定の結果が真の場合、新たに予測値を算出するために使用される因子としての一つまたは二つ以上の因子を選択するために新たに選択演算を行うことと
    を含む、
    請求項1に記載の予測システム。
  8. 前記因子選択処理は、
    前記選択された一つまたは二つ以上の因子の各々についての予測用因子値を基に予測モデルを用いて算出された予測誤差に従う値が所定の閾値を超えたか否かを判定することと、
    当該判定の結果が偽の場合、新たに予測値を算出するために使用される因子として前記因子選択演算無しに前記一つまたは二つ以上の因子を選択することと、
    当該判定の結果が真の場合、新たに予測値を算出するために使用される因子としての一つまたは二つ以上の因子を選択するために新たに選択演算を行うことと
    を含む、
    請求項1に記載の予測システム。
  9. 前記因子選択部が、以下の(A)および(B)のうちの少なくとも一つを表す情報を提示する、
    (A)一つまたは複数の因子の各々について、複数の標本用因子値の範囲に予測用因子値が収まっているか否か、
    (B)一つまたは複数の因子の各々について、因子の除外前後での予測に対する寄与度、
    請求項1に記載の予測システム。
  10. コンピュータが、一つまたは複数の因子から一つまたは二つ以上の因子を選択するための演算である選択演算を行うことを含む因子選択処理を行い、
    コンピュータが、予測モデルの同定に用いられる複数の標本用因子値の範囲に、予測対象の予測値の算出のために当該予測モデルに入力される予測用因子値が収まっているか否かを、前記因子選択処理が行われる前の一つまたは複数の因子の各々について判定することと、当該判定の結果が偽の因子を除外し除外されない因子を出力することとを含む因子フィルタリング処理を行い、
    コンピュータが、前記因子選択処理において選択された因子を含み前記因子フィルタリング処理において除外された因子を含まない一つ以上の因子の各々についての予測用因子値を予測モデルに入力することで予測対象の予測値を算出することを含む予測処理を行う、
    予測方法。
JP2020107291A 2020-06-22 2020-06-22 予測システムおよび予測方法 Active JP7001766B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020107291A JP7001766B2 (ja) 2020-06-22 2020-06-22 予測システムおよび予測方法
AU2021294867A AU2021294867A1 (en) 2020-06-22 2021-01-15 Prediction system and prediction method
EP21829969.1A EP4170566A1 (en) 2020-06-22 2021-01-15 Prediction system and prediction method
US17/911,155 US20230027383A1 (en) 2020-06-22 2021-01-15 Prediction system and prediction method
PCT/JP2021/001254 WO2021260982A1 (ja) 2020-06-22 2021-01-15 予測システムおよび予測方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020107291A JP7001766B2 (ja) 2020-06-22 2020-06-22 予測システムおよび予測方法

Publications (2)

Publication Number Publication Date
JP2022002063A true JP2022002063A (ja) 2022-01-06
JP7001766B2 JP7001766B2 (ja) 2022-01-20

Family

ID=79244745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020107291A Active JP7001766B2 (ja) 2020-06-22 2020-06-22 予測システムおよび予測方法

Country Status (5)

Country Link
US (1) US20230027383A1 (ja)
EP (1) EP4170566A1 (ja)
JP (1) JP7001766B2 (ja)
AU (1) AU2021294867A1 (ja)
WO (1) WO2021260982A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117194982B (zh) * 2023-09-06 2024-02-13 中国民航科学技术研究院 民航客机着陆载荷风险预警方法、系统及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325377A1 (en) * 2012-05-31 2013-12-05 Johnson Controls Technology Company Systems and methods for measuring and verifying energy usage in a building
WO2018124170A1 (ja) * 2016-12-28 2018-07-05 みずほ第一フィナンシャルテクノロジー株式会社 説明変数を選択する装置、方法及びプログラム
WO2019049546A1 (ja) * 2017-09-08 2019-03-14 株式会社日立製作所 予測システム及び方法
JP2020064446A (ja) * 2018-10-17 2020-04-23 株式会社日立製作所 予測システムおよび予測方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5338492B2 (ja) 2009-06-08 2013-11-13 富士電機株式会社 入力変数選択支援装置
JP6274932B2 (ja) 2014-03-19 2018-02-07 三菱日立パワーシステムズ株式会社 予測システム、監視システム、運転支援システム、ガスタービン設備及び予測方法
US10496927B2 (en) * 2014-05-23 2019-12-03 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus
DE112015002433T5 (de) * 2014-05-23 2017-03-23 Datarobot Systeme und Techniken zur prädikativen Datenanalytik
US11443015B2 (en) * 2015-10-21 2022-09-13 Adobe Inc. Generating prediction models in accordance with any specific data sets
US11537847B2 (en) * 2016-06-17 2022-12-27 International Business Machines Corporation Time series forecasting to determine relative causal impact
US11429859B2 (en) * 2016-08-15 2022-08-30 Cangrade, Inc. Systems and processes for bias removal in a predictive performance model
JP2019087027A (ja) * 2017-11-07 2019-06-06 株式会社東芝 需要予測装置、需要予測方法および需要予測プログラム
JP7057199B2 (ja) * 2018-04-16 2022-04-19 株式会社日立製作所 ダイヤ分析支援装置及び方法
US11480934B2 (en) * 2019-01-24 2022-10-25 Uptake Technologies, Inc. Computer system and method for creating an event prediction model
US11501161B2 (en) * 2019-04-04 2022-11-15 Adobe Inc. Method to explain factors influencing AI predictions with deep neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325377A1 (en) * 2012-05-31 2013-12-05 Johnson Controls Technology Company Systems and methods for measuring and verifying energy usage in a building
WO2018124170A1 (ja) * 2016-12-28 2018-07-05 みずほ第一フィナンシャルテクノロジー株式会社 説明変数を選択する装置、方法及びプログラム
WO2019049546A1 (ja) * 2017-09-08 2019-03-14 株式会社日立製作所 予測システム及び方法
JP2020064446A (ja) * 2018-10-17 2020-04-23 株式会社日立製作所 予測システムおよび予測方法

Also Published As

Publication number Publication date
WO2021260982A1 (ja) 2021-12-30
EP4170566A1 (en) 2023-04-26
US20230027383A1 (en) 2023-01-26
AU2021294867A1 (en) 2022-10-13
JP7001766B2 (ja) 2022-01-20

Similar Documents

Publication Publication Date Title
JP6742894B2 (ja) データ予測システムおよびデータ予測方法
Godahewa et al. Monash time series forecasting archive
Hong et al. Probabilistic electric load forecasting: A tutorial review
Fotheringham et al. Exploring, modelling and predicting spatiotemporal variations in house prices
JP5743881B2 (ja) 電力管理システム、電力管理方法、需要家端末及び電力管理装置
JP6837949B2 (ja) 予測システム及び方法
US20150317589A1 (en) Forecasting system using machine learning and ensemble methods
Llanos et al. Load estimation for microgrid planning based on a self-organizing map methodology
JP7157620B2 (ja) 予測システムおよび予測方法
Shao et al. Multivariate statistical and similarity measure based semiparametric modeling of the probability distribution: A novel approach to the case study of mid-long term electricity consumption forecasting in China
US20180248370A1 (en) Methods and systems for energy use normalization and forecasting
Lawal et al. Dynamic line rating forecasting algorithm for a secure power system network
Sigauke Modelling electricity demand in South Africa
WO2021260982A1 (ja) 予測システムおよび予測方法
US20210248481A1 (en) Data Processing System and Data Processing Method
García-Díaz et al. Competitive models for the spanish short-term electricity demand forecasting
Park et al. Demand power forecasting with data mining method in smart grid
JP7231504B2 (ja) 気象数値解析システム、予測対象データ生成システムおよび気象数値解析方法
Raman et al. Demand baseline estimation using similarity‐based technique for tropical and wet climates
Valgaev et al. Building power demand forecasting using k-nearest neighbors model-initial approach
CN115169731A (zh) 一种智慧校园能耗预测方法、装置、设备及介质
JP2016170468A (ja) 電力取引量決定システム、電力取引量決定方法およびプログラム
Basmadjian et al. Day-Ahead Forecasting of the Percentage of Renewables Based on Time-Series Statistical Methods. Energies 2021, 14, 7443
JP2022098117A (ja) データ分析システムおよび方法
Sinitsyna et al. Some practical aspects of electric power consumption time series analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210527

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211224

R150 Certificate of patent or registration of utility model

Ref document number: 7001766

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150