JP2021128478A

JP2021128478A - データ処理システムおよびデータ処理方法

Info

Publication number: JP2021128478A
Application number: JP2020021959A
Authority: JP
Inventors: 徹渡辺; Toru Watanabe; 将人内海; Masahito Utsumi; 郁雄茂森; Ikuo Shigemori; 哲伊藤; Satoru Ito; 潤山崎; Jun Yamazaki; 大輔浜場; Daisuke Hamaba; 洋飯村; Hiroshi Iimura
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2021-09-02
Anticipated expiration: 2040-02-12
Also published as: US20210248481A1; JP7316233B2

Abstract

【課題】予測モデルの同定に用いるデータを適切に決定し得るデータ処理システムを提供する。【解決手段】予測モデルにより予測を行うデータ処理システムであって、データを記憶する記憶部から、予測モデルの同定に用いるデータを選定する選定部と、選定部により選定されたデータを用いて予測モデルの同定を行う処理部と、を備え、選定部は、記憶部から、所定の第１のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、第１のデータと異なる種類および／または条件の第２のデータとを選定する。【選択図】図１

Description

本発明は、データ処理システムおよびデータ処理方法に関し、例えば、予測モデルにより予測を行うデータ処理システムおよびデータ処理方法に適用して好適なものである。

電力事業、ガス事業等のエネルギー事業分野、通信事業分野、タクシーや配送業等の運送事業分野等では、需要家の需要に合わせた設備稼働、資源配分等を行うために、将来の需要量、決済価格等の予測が行われる。

例えば、日時変動する電力の需要に対して供給を計画するため、１時間先、２時間先、３時間先、翌日、１週間先、１か月先、１年先等の指定時間の需要（消費される電力量）の値の予測と、風力発電機、太陽光発電機等で発電される電力量の値の予測とが行われている。

ところで、電力、ガス等のエネルギーの現象の解析および／または予測では、誤差が発生し得る。そのため、解析の限界を想定し、解析および／または予測の誤差を縮小することが行われている。

より高い精度で需要予測をする装置として、所定の情報の予測値を含む予報データと、需要の実績値を含む第１実績データと、に基づいて需要の予測値を示す第１予測データを決定する第１予測決定部と、第１予測データが所定の条件を満たす場合、第１実績データと、所定の情報の実績値を含む第２実績データと、に基づいて需要の予測値を示す第２予測データを決定する第２予測決定部と、を備える、需要予測装置が示されている（特許文献１参照）。

特開２０１９−１１７６０１号公報

ここで、重回帰予測、決定木モデルを用いたベイズ最適な予測、確率関数から導出されるガウス過程を再現するガウス過程回帰を用いた予測の順に予測の精度が高くなる。また、確率モデルを正確に取り入れるほど、予測の精度は高くなる。

しかしながら、特許文献１に記載の需要予測装置においてガウス過程回帰を用いた予測を採用する場合、確率モデルの導出にサンプル数Ｎの二乗でメモリを消費するため、サンプリング期間を短くせざるを得ず、稀頻度事象（気温特異日、発電計画停止、燃料輸送余剰等）のサンプルのデータが抜けるおそれがある。

本発明は、以上の点を考慮してなされたもので、予測モデルの同定に用いるデータを適切に決定し得るデータ処理システム等を提案しようとするものである。

かかる課題を解決するため本発明においては、予測モデルにより予測を行うデータ処理システムであって、データを記憶する記憶部から、前記予測モデルの同定に用いるデータを選定する選定部と、前記選定部により選定されたデータを用いて前記予測モデルの同定を行う処理部と、を備え、前記選定部は、前記記憶部から、所定の第１のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、前記第１のデータと異なる種類および／または条件の第２のデータとを選定するようにした。

上記構成では、例えば、所定の第１のデータと、第１のデータと異なる種類および／または条件の第２のデータとが予測モデルの同定に用いられ、所定の第１のデータに不足していた因果関係を取入れた高精度な予測が実現される。上記構成では、予測モデルの同定に用いるデータから稀頻度事象のデータが抜けてしまう事態を回避することができるので、例えば、カーネル関数を用いた予測モデルを採用してサンプリング期間を短くすることで、メモリの消費量を抑えると共に、予測の精度を高めることができる。

本発明によれば、予測モデルの同定に用いるデータを適切に決定することができる。

第１の実施の形態によるデータ処理システムに係る構成の一例を示す図である。第１の実施の形態によるデータ解析予測システムに係る構成の一例を示す図である。第１の実施の形態によるデータ解析予測システムにおけるデータの流れを示すブロック図である。第１の実施の形態によるデータ解析予測処理に係るフローチャートの一例を示す図である。第１の実施の形態による観測時系列データクラスタリング処理に係るフローチャートの一例を示す図である。第１の実施の形態によるデータおよびインデックス選抜処理に係るフローチャートの一例を示す図である。第１の実施の形態による観測時系列データクラスタリング処理の中間結果の一例を示す図である。第１の実施の形態による決定木モデル生成部による処理結果の一例を示す図である。第１の実施の形態による予測子の重要度と序数とを記憶したテーブルの一例を示す図である。第１の実施の形態による予測モデルの同定に用いる訓練データを保持したテーブルの一例を示す図である。第１の実施の形態による重ね合せグラフの一例を示す図である。第１の実施の形態によるデータ予測方法を用いた発電の予測制御システムの一例を示す図である。

以下図面について、本発明の一実施の形態を詳述する。本実施の形態は、データを予測する技術に関する。本実施の形態に示す構成は、例えば、電力、ガス、燃料等のエネルギーの運用支援システムに適用して好適なものである。

例えば、本実施の形態に係るシステムは、予測対象のデータと説明変数のデータとの間のモデル（回帰式、自己回帰式、写像、確率写像）の解析および／または予測を行い得るシステムである。より具体的には、予測を行うシステムであって、構造的予測モデルを用いて、説明変数（または、予測子、入力データ）により、予測対象のデータ（または、予測出力、予測値、予測データ、出力データ）を予測（分類）する構造分析部と、予測モデル（説明変数と回帰または数理式）に基づいて予測を行う第１の予測部と、第１の予測部に転送する説明変数の種類および説明変数に添える期間、場所等のインデックスを構造分析部の出力から決定する決定部とを備える。

なお、構造的予測モデルは、具体的には、ネットワーク構造であり、更に具体的には、木構造である。予測モデルは、具体的には、カーネル関数を用いた予測モデルであり、更に具体的には、ガウス過程回帰を用いた予測モデルである。

（１）第１の実施の形態
図１において、１００は全体として第１の実施の形態によるデータ処理システムを示す。

図１は、データ処理システム１００に係る構成の一例を示す図である。

図１に示すデータ処理システム１００は、電力事業分野で好適に採用できる。その場合、データ処理システム１００は、観測データおよび／または配信データに基づいて、将来の所定の期間の電力の需要量を予測する。または、データ処理システム１００は、過去の電力の発電市場決済価格の実績量に基づいて、将来の所定の期間の電力の発電市場決済価格を予測する。

ここで、データ処理の目的は、入力、出力と呼ばれるデータの背後にある定量的な関係を解析したり、統計的に関係を推定、回帰、復元したり、関係の構造を特定したり、またその関係に基づいて新たな入力データと対となる出力データを推定したりすることである。一般に、出力データが将来時刻についての値である場合は、当該出力データを推定することを予測するという。特に、限定しない場合は、予測を含めて推定と記すことがある。

予測結果に基づいて、電力事業者は、円滑な電力の需給管理を可能にする。ある電力事業者は、自社設備による発電機の運転計画を的確に策定して、それを実行することができる。また、電力事業者は、他の電力事業者に発電を委託する電力調達の取引計画についても、的確に策定して実行することができる。

データ処理システム１００は、データ解析予測システム１１０、情報入出力端末１２０、計画実行管理装置１３０、データ観測装置１４０、およびデータ配信装置１５０を含んで構成される。データ解析予測システム１１０、情報入出力端末１２０、計画実行管理装置１３０、データ観測装置１４０、およびデータ配信装置１５０は、通信経路１０１を介して通信可能に接続される。

通信経路１０１は、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）である。ただし、通信経路１０１は、データ処理システム１００を構成する各種装置および端末を互いに通信可能に接続できれば他の形態でもかまわない。

データ解析予測システム１１０は、データ格納装置１１１および解析予測演算装置１１２を含んで構成される。

データ格納装置１１１は、入力を構成するデータと、出力を構成する予測対象のデータとを格納可能である。入力を構成するデータは、観測データ、配信データ、データへのインデックスのデータ等である。

データ格納装置１１１は、入力のデータと出力のデータとの間の関係の解析の処理、および／または、出力の推定（または予測）の処理のためにデータを提供する。解析および／または推定の処理に提供される入力のデータおよび出力のデータ、または、処理への提供に備えて記録されるデータを「標本データ」と記す。

データ格納装置１１１は、情報入出力端末１２０から標本データの格納範囲をはじめとする設定入力を受付け可能な構成を備える。また、データ解析予測システム１１０が記憶するデータまたは出力するデータは、情報入出力端末１２０で表示することも可能である。

解析予測演算装置１１２は、図２を用いて後述するように、標本データに基づいて、入力と出力との関係を求める解析処理を行い、この関係に基づいて予測対象のデータ（出力）を算出する。

情報入出力端末１２０は、データ格納装置１１１、解析予測演算装置１１２、および計画実行管理装置１３０への設定入力の機能を構成する。

計画実行管理装置１３０は、解析予測演算装置１１２が算出した出力を基に、所定の目標を達成するための物理的な設備の運転計画の作成と実行とを行う。ここで、物理的な設備の運転計画とは、エネルギー分野においては、例えば、予測した将来のエネルギー需要値または予測した将来のエネルギー需要値に基づいて作成したエネルギー需要計画値を充足させるような、発電機の運転計画である。運転計画には、他の電力事業者の発電機に委託する発電量の計画値が含まれることがある。

データ観測装置１４０は、不図示の予測対象を定期的に計測し、計測データを、データ格納装置１１１と解析予測演算装置１１２とのうち少なくとも１つに送信する。計測データは、電力の消費を計測する計測器データ、送電線に接続された発電機の発電量である発電端メーターのデータ、発電市場決済価格のデータ等である。

データ配信装置１５０は、データ処理システム１００の外部からのデータを受信し、データ格納装置１１１と解析予測演算装置１１２と少なくとも１つに送信する。データ配信装置１５０は、データの受信のために、不図示の気象観測装置および数値気象予測装置、送電線に設置した気象計測装置（気温、水蒸気量の気象データを計測）、送電線の電流計測装置、大口需要設備の管理装置、電力取引市場の管理装置、燃料取引市場の管理装置、傭船事業の管理装置、鉄道事業用設備の管理装置、および通人事業用設備の管理装置のうち少なくとも１つと接続する。なお、気象観測装置および数値気象予測装置は、気象会社、気象庁等の気象機関に設置されていてもよい。

データ配信装置１５０は、気象実績データと、数値気象予測データと、送電電流データと、大口需要設備の稼働データと、電力取引データと、燃料取引データと、燃料輸送等の傭船の稼働データと、鉄道事業用の稼働データと、通信事業用設備の稼働データとのうち少なくとも１つを受信する。

また、データ配信装置１５０は、警察、消防の機関、新聞社等の報道機関等のデータ配信装置と接続し、これら機関から発信される、災害、事故、行楽等のイベントのデータを受信する。

データ処理システム１００の予測対象（出力）には、例えば、電力、ガス、水道等のエネルギー消費量データ、太陽光発電、風力発電等のエネルギーの生産量データ、または、一例として、日本卸電力取引所（ＪＥＰＸ）で取引されるエネルギーの取引量、発電市場決済価格等がある。

また、入力には、例えば、気温、湿度、日射量、風速、気圧等の気象データ、年月日、曜日、任意に設定した日の種別を示すフラグ値等の暦日データ、台風やイベント等の突発事象の発生有無を示すデータ等がある。

これら以外にも、入力には、エネルギーの消費者数、産業動向、景況指数等の経済状況を示すデータ、特急列車の乗車率、乗車客数、予約席数、または道路交通状況等の人、移動体等の移動状況を示すデータ、原油、天然ガス、石油等の燃料のＦＯＢ（Free on Board）価格（本船甲板渡し条件価格）、ＤＥＳ（Delivered Ex Ship）価格（向港着船渡し条件価格）、先物限月価格のデータ等がある。

（データ解析予測システムの具体的な構成）
図２は、データ解析予測システム１１０に係る構成の一例を示す図である。図２は、データ解析予測システム１１０を構成するデータ格納装置１１１のハードウェア構成および機能構成と解析予測演算装置１１２のハードウェア構成および機能構成との一例を示す。

データ格納装置１１１は、ＣＰＵ（Central Processing Unit）２１１、入力装置２１２、出力装置２１３、通信装置２１４、および記憶装置２１５を含んで構成される。データ格納装置１１１は、例えば、パーソナルコンピュータ、サーバコンピュータ、またはハンドヘルドコンピュータ等のデータ処理装置である。

ＣＰＵ２１１は、データ格納装置１１１の動作を統括的に制御する。入力装置２１２は、キーボード、マウス等である。出力装置２１３は、ディスプレイ、プリンタ等である。通信装置２１４は、無線ＬＡＮまたは有線ＬＡＮに接続するためのＮＩＣ（Network Interface Card）を備えて構成される。記憶装置２１５は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ハードディスクドライブ等の記憶媒体である。なお、データ格納装置１１１は、各処理部の出力結果、中間結果を、出力装置２１３を介して適宜出力してもよい。

記憶装置２１５には、観測データ記憶部２２１、配信データ記憶部２２２等のデータベースが格納されている。

観測データ記憶部２２１には、データ観測装置１４０から受信した、予測対象を定期的に計測し、計測データｙの値が観測した時刻、場所といった検索のためのインデックスｔ（複数の情報をインデックスするとするときにはｔはベクトル）を添えて保持されている。この保持されたデータを出力ｙ（ｔ）と記す。

配信データ記憶部２２２には、データ配信装置１５０から受信した、気象実績データ、数値気象予測データ、送電電流データ、大口需要設備の稼働データ、電力取引データ、燃料取引データ、燃料輸送等の傭船の稼働データ、鉄道事業用の稼働データ、通信事業用設備の稼働データ等のデータが各々の名称、発生時刻、発生場所等の検索のためのインデックスｔを添えて保持されている。この保持されたデータを入力ｘ（ｔ）と記す。特に、ｘ（ｔ）が数値気象予測データのように将来予測のデータである場合には、入力ｘ＊（ｔ）と記すことがある。特に、「予測入力ｘ＊（ｔ）」と将来予測のデータであることを記すこともある。

データ解析予測システム１１０では、予測対象の実績値ｙが観測データ記憶部２２１に保持され、予測対象の将来の値である推定のデータｙ＊を出力する。予測対象の実績値ｙは、例えば、関東エリアの送電線の電力需要の計測システムの出力、指定された需要家の計器の合算を求めるシステムの出力、発電市場決済価格の決定システムの出力等である。なお、データｙ＊は、予測対象の背景にある装置およびシステムの出力にあたるため、出力のデータ、出力データ、または単に出力と記すことがある。エリアは、関東エリア、関西エリア、北海道エリアのように複数のエリアがある。データ解析予測システム１１０では、各々のエリアでの予測対象の実績値ｙの保持と、将来の値である推定のデータｙ＊を出力する処理が可能である。

解析予測演算装置１１２は、ＣＰＵ２３１、入力装置２３２、出力装置２３３、通信装置２３４、および記憶装置２３５を含んで構成される。解析予測演算装置１１２は、例えば、パーソナルコンピュータ、サーバコンピュータまたはハンドヘルドコンピュータ等のデータ処理装置である。ＣＰＵ２３１、入力装置２３２、出力装置２３３、通信装置２３４、および記憶装置２３５は、基本的には、ＣＰＵ２１１、入力装置２１２、出力装置２１３、通信装置２１４、および記憶装置２１５と同様である。

記憶装置２３５には、決定木モデル生成部２４１、データ選抜序数算出部２４２、データおよびインデックス選抜部２４３、選抜データ転送処理部２４４、予測モデル同定部２４５、第一予測処理部２４６等の各種コンピュータプログラムが格納されている。

加えて、記憶装置２３５には、誤差評価部２４７のコンピュータプログラムが格納されていてもよい。例えば、誤差評価部２４７からデータおよびインデックス選抜部２４３へのフィードバックが行われる。

加えて、記憶装置２３５には、第二予測処理部２４８、重ね合せ処理部２４９等の各種コンピュータプログラムが格納されていてもよい。第二予測処理部２４８および重ね合せ処理部２４９によれば、例えば、通年のｎ個のデータを用いた予測と、直近のｎ’（＜ｎ）個のデータを使った短期モデルでの精密な予測（予測手段）との出力を比較して、例えば、外れが大きければ短期モデルに折込が足りていないデータがあったことを検知することができる。

また、解析予測演算装置１１２は、各処理部の出力結果、中間結果等は、出力装置２３３を介して適宜出力してもよい。

（データ解析予測システムにおける処理の内容）
図３〜図１１を参照して、データ解析予測システム１１０の処理およびデータフローについて説明する。

図３は、データ解析予測システム１１０におけるデータ（信号）の流れを示すブロック図である。図３の各処理部の処理は、符合番号を示した図４の各ステップとして実行される。なお、図４のステップＳ４０２の詳細については、図５を用いて説明し、図４のステップＳ４０４の詳細については、図６を用いて説明する。

図４は、データ解析予測システム１１０が行う処理（データ解析予測処理）に係るフローチャートの一例を示す図である。データ解析予測処理は、解析予測演算装置１１２が利用者からの入力操作を受け付けたことと、情報入出力端末１２０を介して予め設定した実行時刻が到来したこととの少なくとも１つを契機として始まる。

（ステップＳ４０１）
データ格納装置１１１は、データ観測装置１４０から「入力ｘ」のデータおよび／または入力についての予測値である「入力ｘ＊」のデータを受信して配信データ記憶部２２２に記憶する。また、データ格納装置１１１は、データ配信装置１５０から「出力ｙ」のデータを受信して観測データ記憶部２２１に記憶する。

（ステップＳ４０２）
解析予測演算装置１１２は、決定木モデル生成部２４１において、観測データ記憶部２２１のデータと、配信データ記憶部２２２のデータとから決定木モデルを生成する。決定木モデルは、大量のデータの中から規則性、関連性等の意味のあるデータの分類のルールを自動的に抽出する手法である。

決定木モデル生成部２４１は、分類対象を離散値とした決定木モデルを生成する。まず、決定木モデル生成部２４１は、予測対象の観測データ記憶部２２１のデータを所定の時間長（例えば、２４時間、１２時間、６時間のいずれか）の時系列データとして纏め（これを「観測時系列データ」と記す）、観測時系列データを、図５のフローチャートの手順に従い、周波数スペクトルを特徴量としたクラスタリング処理により離散化する。

図５は、決定木モデル生成部２４１により実行される処理（観測時系列データクラスタリング処理）に係るフローチャートの一例を示す図である。観測時系列データクラスタリング処理は、各エリアでの観測時系列データの概形等の特徴量が概類似している幾つかのクラスタ（需要パターン）に分類し、各クラスタを代表する情報としてクラスタ中心を算出する処理である。決定木モデル生成部２４１は、各エリアの観測時系列データおよび属性情報が与えられると、観測時系列データクラスタリング処理を開始する。

（ステップＳ５０１）
決定木モデル生成部２４１は、取得した観測時系列データを１〜Ｍ個のクラスタにそれぞれ分類した場合の各クラスタのクラスタ中心の集合｛Ｃ_ｋ:ｋ=１、２、…、Ｎ｝（ただし、Nは１からMのいずれかの値）を求める。なお、Mの理論上の最大は観測時系列の全数の値であるが、簡単のためにそれ以下の値に制限してもよい。

より具体的には、決定木モデル生成部２４１は、k-means法により、かかる観測時系列データを１個のクラスタに分類した場合のそのクラスタのクラスタ中心集合｛Ｃ_１｝、かかる観測時系列データを２個のクラスタに分類した場合の各クラスタのクラスタ中心集合｛Ｃ_１、Ｃ_２｝、かかる観測時系列データを３個のクラスタに分類した場合の各クラスタのクラスタ中心集合｛Ｃ_１、Ｃ_２、Ｃ_３｝、……のように、クラスタ数Ｎを順次１〜Ｍ個に変化させながら、観測時系列データを各クラスタに振り分け、そのときの各クラスタのクラスタ中心集合｛Ｃ_１、Ｃ_２、Ｃ_{３、。。。、}Ｃ_N｝を求める。（なお、｛Ｃ_１、Ｃ_２、Ｃ_{３、。。。、}Ｃ_N｝を｛Ｃ_k｝（ｋ∈｛１、２、…、N｝）と記す場合がある）

（ステップＳ５０２）
決定木モデル生成部２４１は、上述のクラスタリング処理の処理結果に基づいて、クラスタ数Ｎをいずれにするのが妥当かを評価するための指数（以下、「妥当性評価値」と記す）を算出するクラスタ数妥当性評価値算出処理を実行する。本実施の形態の場合、決定木モデル生成部２４１は、かかる妥当性評価値として、個々のクラスタ内における観測時系列データのまとまり度合いを表すクラスタ内適合度と、クラスタ同士の分離の度合いを表すクラスタ間平均分離度とを算出する。

（ステップＳ５０３）
決定木モデル生成部２４１は、ステップＳ５０２で算出したクラスタ内適合度およびクラスタ間平均分離度に基づいて、最適なクラスタ数を決定する。

以上の処理により、観測時系列データが適切なクラスタ数のクラスタに分類される。なお、ステップＳ５０１〜ステップＳ５０３については、国際公開第２０１５／１３３６３５号に記載の技術を適宜に援用することができる。

決定木モデル生成部２４１は、離散化した観測時系列データのクラスタ集合の葉「リーフ」にクラスタＩＤを付与する。

図７は、観測時系列データクラスタリング処理の中間結果の一例を示す図である。ここでは、観測時系列データを特徴量の近さからグループに分類した結果のクラスタは、１４個となっている。決定木モデル生成部２４１は、生成したグループにユニークな番号（クラスタＩＤ）をつけ、観測時系列データの各々にクラスタＩＤを付与する。

次いで、決定木モデル生成部２４１は、観測時系列データの各々のクラスタＩＤを教師データとして、観測時系列データを分類する決定木モデルを生成する。より具体的には、決定木モデル生成部２４１は、配信データ記憶部２２２のデータを予測子（分岐条件）として、観測時系列データを分類する決定木モデルＴｒＭを、決定木モデル生成のアルゴリズムを用いて生成する。

決定木モデル生成のアルゴリズムは、一般に知られるＣＡＲＴ（Classification And Regression Trees）を用いる。他にＩＤ３（Iterative Dichotomiser 3）、ＣＨＡＩＤ（Chi-squared Automatic Interaction Detection）等のアルゴリズムを用いてもよい。

決定木モデル生成部２４１は、例えば、予測対象を支配的に決定する因子ほど上の方の枝「ブランチ」に出てくる決定木モデルを生成する。付言するならば、出力を識別するブランチは、説明変数に相当する。

図８は、決定木モデル生成部２４１による処理結果の一例を示す図である。決定木モデルのリーフは、クラスタＩＤとして表示している。観測時系列データの１つ１つは、決定木モデルの分岐条件である予測子と、当該予測子の値の条件により分類されている。予測子は、例えば、図８の図中の予測子表示８０１、予測子表示８０２、予測子表示８０３、予測子表示８０４の枠でかこった配信データであるところの変数である。予測子の値の条件は、例えば、図８の条件表示８１１、条件表示８１２、条件表示８１３、条件表示８１４の枠で囲った変数の大小関係や該当非該当の判別に使われる観測データの値である。

ここでは、前述の周波数スペクトルを特徴量として離散化したクラスタＩＤを教師データとして、決定木モデルをコンパクトにしたことで主要な予測子を抽出することが可能となっている。ただし、簡単のために、離散化の処理を省いて、観測時系列データを分類する決定木モデルを生成するようにしてもよい。

（ステップＳ４０３）
データ選抜序数算出部２４２は、決定木モデルＴｒＭのルートから、リーフに至る各段階の分岐条件の配信データ種類および観測データについて、上位の分岐に重みが大きいガイド値を与えるようにしてもよい。好ましくは、決定木モデルのジニ係数として知られる、決定木モデルの中間のノードでの分類の前後のデータの不純度の減少量をガイド値としてもよく、また各同様に中間のノードでの分岐のエントロピーの減少量をガイド値としてもよい。複数の中間ノードでの分岐条件となっているデータ種類については、ガイド値を加重加算するようにしてもよい。

データ選抜序数算出部２４２は、すべての予測子（変数）について分割によるデータの不純度の減少量を合計し、この合計を分枝ノード数で除算した値を、学習した木における予測子（変数）の重要度とみなす。データ選抜序数算出部２４２は、分岐に用いる予測子の決定に、エントロピーの減少量をガイド値としたときには、エントロピーの減少量を合計し、この合計を分岐ノード数で除算した値を、学習した木における予測子（変数）の重要度とみなす。

データ選抜序数算出部２４２は、予測子の重要度の大きい順に、データの選抜に用いられる序数をデータ種類の各々に付与する。または、データ選抜序数算出部２４２は、学習した木の分岐の順（図８の例では予測子表示８０１、予測子表示８０２、予測子表示８０３、予測子表示８０４に囲われた予測子の順で、同一レベルにある場合には、分岐で分類する観測時系列データの個数が多いものを優先する）で序数を付与してもよい。

図９は、予測子の重要度と序数とを記憶したテーブルの一例を示す図である。

（ステップＳ４０４）
データおよびインデックス選抜部２４３は、後述の予測モデルの同定に用いるデータに追加する配信データおよび観測データの選択を行うためのデータとして決定技モデルＴｒＭの分岐条件の予測子とその値を決定する。すなわち、データおよびインデックス選抜部２４３は、配信データの種類を示すデータ種リストｓＭ、データのへのインデックスの集合を示すインデックスリストｓＴを決定する。なお、データ種リストｓＭは、配信データ記憶部２２２に保持されている配信データのＭ種の中から選択された種類を示す集合である。

以下では、予測対象を「９時の電力需要」として、後述の予測モデルの同定に用いる配信データの種類の標準設定として、「１日前９時電力需要」、「２日前９時電力需要」、「３日前９時電力需要」、「４日前９時電力需要」、「５日前９時電力需要」、「６日前９時電力需要」、「７日前９時電力需要」、「９時東京地点気温」、および「日種別」が設定されているものとして説明する。

気温に関しては、学習の処理では、予報気温にかわり実際の気温を用いるようにしてもよい。また、標本データとして用いる観測データについては、すべての観測データの中から、直近の３０日分の観測データを選択するように標準設定している。これらの標準設定から選ばれるデータ（標準設定のデータ）に対して、稀頻度事象のデータの追加が行われ、予測モデルの同定に用いられる訓練データとされる。

ステップＳ４０４の処理の詳細を、図６のフローチャートと、図１０の予測モデルの同定に用いる訓練データを保持したテーブルの一例（訓練データテーブル１０００）とを参照して説明する。

図６は、データおよびインデックス選抜部２４３が行う処理（データおよびインデックス選抜処理）に係るフローチャートの一例を示す図である。

（ステップＳ６０１）
データおよびインデックス選抜部２４３は、１番目の序数の予測子のデータ種類ｘを読み取る。

（ステップＳ６０２）
データおよびインデックス選抜部２４３は、データ種類ｘが訓練データのデータ種類に選択済みであるか否かを判定する。データおよびインデックス選抜部２４３は、選択済みであると判定した場合、ステップＳ６０３に処理を移し、未選択であると判定した場合、ステップＳ６０４に処理を移す。

（ステップＳ６０３）
データおよびインデックス選抜部２４３は、次の序数の予測子のデータ種類を読み取り、ステップＳ６０２に処理を戻す。

（ステップＳ６０４）
データおよびインデックス選抜部２４３は、訓練データテーブル１０００に保持する項目の指定に、選択したデータ種類ｘをデータ種リストｓＭに追加する。図１０の例では、「３時神奈川地点気温」のデータ種類が、訓練データテーブル１０００のデータ種類を指定するデータ種リストｓＭに追加される。

（ステップＳ６０５）
データおよびインデックス選抜部２４３は、訓練データテーブル１０００に保持されるデータ種類の各々に関して、格納データをプレサーチする。より具体的には、データおよびインデックス選抜部２４３は、訓練データテーブル１０００に指定されるデータ種類の予測子の各々について、予測対象の時刻ｔでの予報値（予測入力ｘ＊（ｔ））を、データ格納装置１１１から検索する。

例えば、データおよびインデックス選抜部２４３は、「９時東京地点気温」を検索して、「９℃」といった検索結果（予報値）を得る。データおよびインデックス選抜部２４３は、決定木モデルＴｒＭの分岐の値である条件値（例えば、図９で示すように序数が「２」となっている予測子の「９時東京地点気温」では、図８に示す例では条件表示８１２および条件表示８１３の枠内にあるように、「１４℃以上／１４℃未満」、「１０℃以上／１０℃未満」である）を参照し、予測入力ｘ＊（ｔ）（ここでは、予測入力ｘ＊（ｔ）に最も近い条件「１０℃」＞予測入力ｘ＊（ｔ）「９℃」）に該当するサンプル（観測時系列データ）が訓練データテーブル１０００の基本サンプル（標準設定のデータ）の中に含まれるかを検索する。

データおよびインデックス選抜部２４３は、基本サンプルに含まれない場合には、決定木モデルＴｒＭの当該分岐より先の部分木に分類されている観測時系列データのインデックス情報を取得し、訓練データの追加のサンプル（選抜データ）となるように、観測時系列データのインデックスリストｓＴに追加する。例えば、図８に示す例では、インデックスリストｓＴには、「日種別」が「３連休日以外」であり、「９時東京地点気温」が「１０℃未満かつ９℃以上」であるサンプルを示す情報（例えば、サンプリング日）が追加される。

また、例えば、データおよびインデックス選抜部２４３は、「３時神奈川地点気温」を検索して、「１７℃」といった検索結果（予報値）を得る。データおよびインデックス選抜部２４３は、決定木モデルＴｒＭの分岐の値である条件値（例えば、図９で示すように序数が「４」となっている予測子の「３時神奈川地点気温」では、図８に示す例では条件表示８１３および条件表示８１４の枠内にあるように、「１６℃以上／１６℃未満、１２℃以上／１２℃未満」である）を参照し、予測入力ｘ＊（ｔ）（ここでは、予測入力ｘ＊（ｔ）に最も近い条件「１６℃」≦予測入力ｘ＊（ｔ）「１７℃」）に該当するサンプルが訓練データテーブル１０００の基本サンプルの中に含まれるかを検索する。

データおよびインデックス選抜部２４３は、基本サンプルに含まれない場合には、決定木モデルＴｒＭの当該分岐より先の部分木に分類されている観測時系列データのインデックス情報を取得し、訓練データの追加のサンプル（選抜データ）となるように、観測時系列データのインデックスリストｓＴに追加する。例えば、図８に示す例では、インデックスリストｓＴには、「日種別」が「３連休日以外」であり、「９時東京地点気温」が「１４℃以上」であり、「３時神奈川地点気温」が「１６℃以上かつ１７℃未満」であるサンプルを示す情報（例えば、サンプリング日）が追加される。

図１０に示した一例では、インデックス情報には、サンプリング日の情報を用いており、「９時東京地点気温」が予報値の「９℃」に該当する、決定木モデルＴｒＭの部分木に分類される観測時系列データのサンプリング日の、「２０１８年１０月３日(水)」、「２０１８年１０月１０日(水）」、「２０１８年９月２７日(木)」がインデックスリストｓＴに追加されている。また、「３時神奈川地点気温」の予報値「１７℃」に該当するサンプリング日の、「２０１７年１０月４日(水)」、「２０１７年１０月３日(火)」、「２０１７年１０月１日（日）」がインデックスリストｓＴに追加されている。

このように、ステップＳ６０５では、標準設定のデータのデータ種の予報値をもとに標準設定のデータに不足しているデータが追加されるようにインデックスリストｓＴが生成される。更に、ステップＳ６０５では、生成される決定木モデルをもとに、標準設定のデータのデータ種にないデータ種がデータ種リストｓＭに追加されると共に、追加されたデータ種については、当該データ種の予報値をもとに標準設定のデータに不足しているデータが追加されるようにインデックスリストｓＴが生成される。

（ステップＳ６０６）
データ種類とデータインデックスの追加において、データおよびインデックス選抜部２４３は、訓練データの数が、上限数ＮＮ（所定値であり、例えば、８０００個）以下であるか否かを判定する。データおよびインデックス選抜部２４３は、訓練データの数が上限数ＮＮであると判定した場合、ステップＳ６０３に処理を戻し、予定個数の上限までの選抜データのデータ種リストｓＭおよびインデックスリストｓＴを生成する。

好ましくは、訓練データの上限数ＮＮは、パラメータとして変更可能な形態をとり、上限数ＮＮの初期値は、小さい値（例えば、５００）とし、後述の誤差評価部２４７の誤差評価値ｄｅｌｔａの減少が続く範囲で、上限数ＮＮの値を増加させるように変更するようにしてもよい。これにより必要かつ充分な訓練データによる予測モデルの同定が実行される。

（ステップＳ４０５）
選抜データ転送処理部２４４は、少なくとも選抜データのデータ種リストｓＭと、インデックスリストｓＴに従い「入力」と「出力」のデータを選抜データとして選択し、通信装置２３４、通信装置２１４を介してデータ格納装置１１１から取得する。また、インデックスリストｓＴ以外に、直近の２週間等の期間を標準的に利用するデータ（標準設定のデータ）の期間としてデータインデックスとして設定し、該当するインデックスのデータをデータ格納装置１１１から合せて取得する。

（ステップＳ４０６）
予測モデル同定部２４５は、前述の選抜データと標準設定のデータ（ｘｉ，ｙｉ）［ｉ∈ｓＭ×（ｓＴ ∪ ｓＴｓ）］（このデータの組の集まりを訓練データと記す）を用いて、予測対象の予測値を算出するための予測モデルを同定する。予測モデルの同定は、例えば、説明変数とするデータが、ｘ１とｘ２との２種である場合と、予測モデルが多変量回帰モデルの重回帰モデルである場合、予測モデルは、下記（式１）で与えられる。

ｙ＊＝ａ×ｘ１＋ｂ×ｘ２＋ｃ・・・（式１）
ｙ＊：目的変数
ａ、ｂ：偏回帰係数
ｃ：定数項（切片）
ｘ１、ｘ２：説明変数

予測対象の予測モデルについては、上述のモデルに限らず、他の公知の手法を適用してよい。公知の手法とは、以下に例示列挙するものをいう。例えば、重回帰モデル等の線形回帰モデル、ロジスティック回帰等の一般化線形モデル等の線形性を仮定する手法、ＡＲＸ（AutoRegressive with Exogenous）モデル等の自己回帰性を仮定する手法、Ｒｉｄｇｅ回帰、Ｌａｓｓｏ回帰、ＥｌａｓｔｉｃＮｅｔ等の縮小推定器を利用する手法、部分最小二乗法、主成分回帰等の次元縮退器を利用する手法、多項式を用いた非線形モデル、サポートベクトル回帰、回帰木、ガウス過程回帰、ニューラルネット等のノンパラメトリック、と呼ばれる手法である。好ましくは、ガウス過程の近似出力をデータからの回帰によりガウス過程回帰をはじめとするカーネル関数を用いたアルゴリズム（カーネル関数予測方式）を適用することで、予測を高い精度で達成することができる。本実施の形態の予測モデル同定部２４５は、同定したガウス過程回帰モデルＧｐＭ（Gauss Pseudospectral Method）を出力する。

なお、一般には、確率変数がランダムな試行の結果で値の決まる変数であるのに対し、パラメータ集合Ｔによって、インデックスを付けられた確率変数の集まり｛Ｘ（ｔ）｜ｔ∈Ｔ｝を確率過程と呼ぶ。Ｔが時間を表す場合には、確率過程は、時間の経過に従ってランダムに変化する値の系列となる。

ただし、本実施の形態では、Ｔは、時間を示す集合に限定しない。ここで、ｔ∈Ｔは、入力と出力のデータ（予測対象の観測データや配信データ）についての、データを特定するインデックスであればよい。例えば、地点インデックスや空間座標のインデックスであってもよく、時刻インデックス、地点インデックスと時刻インデックスの組番号インデックスであってもよく、データ観測装置の各々を特定する計器インデックスであってもよく、予測対象の値ｘが特定の範囲Ｙにあることを示すインデックスｚ（ｚ∈Ｚ，Ｚ＝｛ｔ｜Ｘ（ｔ）⊆Ｙ）｝）であってもよく、予測対象の値を分類する木構造の分岐情報を示す予測子であってもよい。

（ステップＳ４０７）
解析予測演算装置１１２の第一予測処理部２４６は、将来の気温といった将来データの入力ｘ＊、および過去の配信データを入力とした入力ｘと、ガウス過程回帰モデルＧｐＭとを用いて予測対象の予測値である出力ｙ＊を算出する。

なお、入力ｘとするデータの中には、過去の予測対象の出力ｙ、過去に行った予測の出力ｙ＊を含めるようにしてもよい。例えば、予測を実行する日の前日の１２時の需要値ｙ（ｔ１２）を入力ｘ（ｘは、ベクトル）の要素の１つとする。予測は、例えば、（式１）にｘ１、ｘ２の各々に、入力ｘ＊の要素ｘ１＊、ｘ２＊の値が代入されてｙの値を算出して、出力ｙ＊として出力されることを意味する。

（ステップＳ４０８）
解析予測演算装置１１２は、第二予測処理部２４８において、決定木モデルＴｒＭと、将来の気温といった将来データの入力ｘ＊および／または過去の配信データを入力とした入力ｘと、過去の予測対象の出力である観測データｙと、を用いて予測対象についての第二の予測値である出力ｙ〜を算出する。例えば、解析予測演算装置１１２は、配信データおよび観測データで、決定木の分岐条件を順に判定し、予測を行う。さらに、解析予測演算装置１１２は、分岐条件の値が未確定であるときには、決定木モデルに基づくベイズ最適な予測アルゴリズムとして知られている予測計算を行う。

（ステップＳ４０９）
解析予測演算装置１１２は、誤差評価部２４７において、観測データ記憶部２２１と配信データ記憶部２２２とのデータを、乱数を用いて所定の複数組（例えば、２０組）だけ選択し、そのデータでの予測を試行し、実際の予測対象の過去の出力ｙとを比較した予測誤差の平均値を誤差評価値として出力するようにしてもよい。

（ステップＳ４１０）
重ね合わせ処理部２４９は、第一予測処理部２４６の出力ｙ＊に係る情報と、第二予測処理部２４８の出力ｙ〜に係る情報を重ね合わせたグラフ（重ね合せグラフ）を出力する。

図１１は、重ね合せグラフの一例を示す図である。横軸は、時間であり、「０」が現時刻で１０時刻先の予測の時刻を例示している。縦軸は、「−１」から「１」の値を取るように正規化された予測対象の出力の値である。第一予測処理の出力ｙ＊の値１１０１（実線）と、予測対象がガウス過程回帰による９０％予測区間の幅１１０２とが出力されている。さらに、第二予測処理の出力ｙ〜の値１１０３（点線）が出力されている。

なお、一般に、確率過程（stochastic process）は、時間とともに変化する確率変数を意味し、ガウス過程（Gaussian process）は、連続時間の確率過程の一種である。確率過程｛Ｘｔ｝ｔ∈Ｔから、任意に（有限個の）Ｘｔ１，．．．，Ｘｔｋを選んで作った線型結合は、正規分布に従うとき、｛Ｘｔ｝ｔ∈Ｔは、ガウス過程と呼ばれている。

図１２は、データ予測方法を用いた発電と蓄電の予測制御システム１２００の構成の一例を示す図である。

データ解析予測システム１１０では、電力需要の４時間後の予測値を出力している。計測制御装置１２１０は、通常使用する発電１号機１２２０の現在の発電出力、および、発電出力の４時間のうちでの変更可能量である出力変更速度を計測し、４時間後の需要を満たすための発電余力が不足している場合には、予備の発電機（例えば、発電機２号機１２３０）の起動を指令する予測制御を行う。発電１号機１２２０および発電２号機１２３０が発生した電力は、変電設備１２４０により電圧の昇圧が行われ、送電網１２５０を介して送電される。

（総括）
データ解析予測システム１１０は、以下のように総括してもよい。

［１］データ解析予測システム１１０は、決定木モデルの構造を用いて、説明変数（または、予測子、入力データ、出力）により、予測対象のデータ（または、予測出力、予測値、予測データ、出力データ、出力）を予測（分類）する構造分析手段を備える。また、データ解析予測システム１１０は、長期（１年から２年）のデータを解析し、予測に必要なデータの種類と、データのサンプリングの時刻や場所等の条件を決定するデータ選択手段を備える。好ましくは、データ解析予測システム１１０は、予測処理における説明変数の種類および説明変数に添える期間や場所等のインデックスを構造分析手段の出力から決定する変数およびインデックス決定手段を備える。

［２］データ解析予測システム１１０は、データ選択手段で選択したデータを用いて、カーネル関数を用いた予測モデルの同定と予測の処理を行うカーネル関数予測手段を備える。

［３］データ解析予測システム１１０は、好ましくは、決定木モデルに基づく予測手段を備える。

［４］データ解析予測システム１１０は、好ましくは、カーネル関数に基づく予測出力の情報と決定木モデルに基づく予測出力の情報とを表示する予測表示手段を備える。

（本実施の形態の効果）
カーネル関数を用いる統計的機械学習における訓練データとして採用される標本データの種類数Ｍに比例してメモリが必要になるに留まらず、採用される標本数Ｋの二乗で比例してメモリおよび演算量が必要となる。一例では、計測器信号から生成した５分刻みデータを１年分扱うには、ｎ＝１０５１２０となり、おおよそ８００テラバイトのメモリが必要となる。このため、標本データを直近期間に限定するといった場当たり的な標本データの選抜が行われ、高精度な予測の妨げとなる。

本発明の適用の一例では、発電市場決済価格の標本データから、タンカーの通常基準値を超える沖待ち時間（輸送燃料の陸揚げを海上で待つ待ち時間）の発生と、年平均を上回る日射量の発生とが、上位の序数の予測子しとして構造解析され、これらの事象に該当する標本データのインデックスが選択インデックス集合に追加され、解析予測装置のＫ×Ｋ統計量解析処理部に自動的に転送される。

本システムによれば、長期（一例では、２年）にわたる標本データの構造解析（すなわち決定木モデルの生成）により、予測子（構造解析における条件分岐）に序数を与え、序数の上位の予測子にあたる入力データの項目ｉ種（ｉ∈Ｍ）にかかわり、予測子が有意な値をとる標本データを選抜に加えることが実現される。全ての標本（標本数Ｎ）を利用した仮想の予測に比べ、メモリ量および演算量は、Ｋの二乗に比例して削減（削減量＝Ｎ^２−Ｋ^２）できる、かつ直近期間での標本データに不足していた因果関係を取入れた高精度な予測が実現される。

また、図１１に例示されるように、メモリ制約が緩和されている第二予測処理で、１年から２年の標本データを用いた予測を行った結果と、第一予測処理の予測結果および予測区間の計算結果とを比較可能な出力が行われることでの副次的な効果がある。例えば、利用者は、予測結果に大きな違いがないこと、または予測結果に違いがあるときには、予測モデルの同定のための標本データの偏りにより過学習が起きている（例えば、予測区間の幅は狭いが、２つの予測値に相違がある）であるとか、標本データが足りていない（予測区間の幅が大きいが、予測値に相違があり安定していない）であるといったことが、利用者自身により判断する支援情報として活用され得る。

以上、本実施の形態のデータ解析予測システムによる、予測値の説明性と予測値の誤差を低減させ得た効果の説明である。

なお、本データ解析予測システムが有益と認められる背景には、緊急電力融通を困難にする昨今の社会環境があり、その原因には、発送電分離を始めとする電力供給体制の変更もある。すなわち、電力会社において、発電、送配電、および電力販売の３事業に対する企業実態が、従来は単一経営で迅速制御も容易であったところ、昨今になって３分割された例もある。

この例によれば、３分割等の発送電分離が原因で緊急電力融通するための迅速制御も困難、かつコスト増大に直結するという事情がある。これに対し、本データ解析予測システムは、緊急電力融通を未然に予知して低減させることが可能な高精度の電力需要予測を実現して社会貢献するものである。

さらに、本データ解析予測システムが有益と認められる背景には、近年のコンピュータの集積回路の高集積化により、理論式にかわり多様な回帰モデルによる予測が、実業務での処理時間に対応できるようになった反面、理論的な数式や構造モデルが明示されない回帰では非常時に適したデータの内挿および外挿が行われているかの確認の手段がなく、実業務での異常処理に適さないという事情がある。これに対し、本データ解析予測システムは、予測値が決定されるまでの段階を、木構造で正順に並べられた入力データである予測子を読み取ることで、確認させ得ることで、利用者に予測値に基づく適切な業務遂行を実現して、社会貢献するものである。

（２）付記
上述の実施の形態には、例えば、以下のような内容が含まれる。

上述の実施の形態においては、本発明をデータ処理システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラムに広く適用することができる。

上述の実施の形態においては、データ格納装置１１１の機能（観測データ記憶部２２１、配信データ記憶部２２２等）は、例えば、ＣＰＵ２１１がＲＯＭに格納されたプログラムをＲＡＭに読み出して実行すること（ソフトウェア）により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、データ格納装置１１１の機能の一部は、データ格納装置１１１と通信可能な他のコンピュータにより実現されてもよい。

上述の実施の形態においては、解析予測演算装置１１２の機能（決定木モデル生成部２４１、データ選抜序数算出部２４２、データおよびインデックス選抜部２４３、選抜データ転送処理部２４４、予測モデル同定部２４５、第一予測処理部２４６等）は、例えば、ＣＰＵがＲＯＭに格納されたプログラムをＲＡＭに読み出して実行すること（ソフトウェア）により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、解析予測演算装置１１２の機能の一部は、解析予測演算装置１１２と通信可能な他のコンピュータにより実現されてもよい。

また、上述の実施の形態において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部または一部が１つのテーブルであってもよい。

また、上述の実施の形態において、説明の便宜上、ＸＸテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、ＸＸ情報等と表現してもよい。

また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

上述した実施の形態は、例えば、以下の特徴的な構成を有する。

予測モデル（例えば、線形性を仮定する手法、自己回帰性を仮定する手法、縮小推定器を利用する手法、次元縮退器を利用する手法、ノンパラメトリックと呼ばれる手法、または、カーネル関数を用いた手法、の予測モデル）により予測を行うデータ処理システム（例えば、データ処理システム１００、データ解析予測システム１１０）であって、データを記憶する記憶部（例えば、記憶装置２３５、解析予測演算装置１１２、記憶装置２１５、データ格納装置１１１、データ観測装置１４０、データ配信装置１５０）から、前記予測モデルの同定に用いるデータを選定する選定部（例えば、解析予測演算装置１１２、データおよびインデックス選抜部２４３並びに選抜データ転送処理部２４４）と、前記選定部により選定されたデータを用いて前記予測モデルの同定を行う処理部（例えば、解析予測演算装置１１２、予測モデル同定部２４５）と、を備え、前記選定部は、前記記憶部から、所定の第１のデータ（例えば、所定の期間のデータ、標準設定のデータ）と、構造的予測モデルの構造データにおける分岐条件をもとに、前記第１のデータと異なる種類（例えば、データ種）および／または条件（例えば、分岐条件の値）の第２のデータ（例えば、選抜データ）とを選定する。

前記記憶部に記憶されているデータを用いて、前記構造的予測モデルの構造データとして、予測対象（例えば、電力、ガス、水道等のエネルギー消費量データ、太陽光発電、風力発電等のエネルギーの生産量データ、または、日本卸電力取引所（ＪＥＰＸ）で取引されるエネルギーの取引量、発電市場決済価格）を支配的に決定する分岐条件である予測子ほど上位に現れる決定木モデルを生成する生成部（例えば、解析予測演算装置１１２、決定木モデル生成部２４１）と、前記生成部により生成された決定木モデルにおける予測子に、前記選定部におけるデータの選定に用いられる序数を付与する付与部（例えば、解析予測演算装置１１２、データ選抜序数算出部２４２）と、を備え、前記選定部は、前記付与部により付与された序数に従って、所定の数（例えば、上限数ＮＮ）に達するまで、前記記憶部から前記第２のデータを選定する。

上記構成では、決定木の生成により、予測子に序数が与えられ、序数の上位の予測子が有意な値をとるデータが選定される。例えば、カーネル関数を用いた予測モデルの同定を行う場合、全てのデータ（Ｎ）を利用した仮想の予測に比べ、メモリ量および演算量は、第１のデータ数と第２のデータ数との和（Ｋ）の二乗に比例して削減（削減量＝Ｎ^２−Ｋ^２）される。

ここで、稀頻度事象に係る予測子（説明変数）は、相対的に重要度が高くなる。よって、例えば、予測子の重要度が大きい順に序数が与えられた場合、サンプリング期間（所定の期間）を短くしたとしても、予測モデルの同定では、序数の上位の予測子が有意な値をとる第２のデータが用いられるので、稀頻度事象のデータが抜けてしまう事態を回避することができるようになる。

このように、上記構成によれば、メモリの消費量を抑え、かつ、予測モデルの同定に用いるデータから稀頻度事象のデータが抜けてしまう事態を回避することができる。

前記予測モデルは、カーネル関数を用いた予測モデルである。

上記構成では、カーネル関数を用いた予測が行われるので、重回帰予測、決定木モデルを用いたベイズ最適な予測等よりも、高精度な予測が実現される。

前記記憶部に記憶されているデータを用いて、前記生成部により生成された決定木モデルによる予測を行う第二の処理部（例えば、解析予測演算装置１１２、第二予測処理部２４８）と、出力を行う出力部（例えば、解析予測演算装置１１２、重ね合せ処理部２４９）と、を備え、前記処理部（例えば、第一予測処理部２４６）は、前記予測モデルによる予測を行い、前記出力部は、前記処理部の予測の結果と、前記第二の処理部の予測の結果とを出力する。

なお、前記出力部は、前記処理部の予測の結果と前記第二の処理部の予測の結果とを、情報入出力端末１２０に表示してもよいし、ファイルとして情報入出力端末１２０に送信してもよいし、出力装置２３３で印刷してもよいし、その他の出力を行ってもよい。

上記構成では、処理部の予測の結果と、第二の処理部の予測の結果とが出力されるので、例えば、これらの結果が重ね合わせて表示された場合には、利用者は、予測結果に大きな違いがないことを確認できるようになる。また、利用者は、予測結果に違いがあるときには、選定されたデータの偏りにより過学習が起きているであるとか、選定されたデータが足りていないといったことを確認できるようになる。

また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。

「Ａ、Ｂ、およびＣのうちの少なくとも１つ」という形式におけるリストに含まれる項目は、（Ａ）、（Ｂ）、（Ｃ）、（ＡおよびＢ）、（ＡおよびＣ）、（ＢおよびＣ）または（Ａ、Ｂ、およびＣ）を意味することができると理解されたい。同様に、「Ａ、Ｂ、またはＣのうちの少なくとも１つ」の形式においてリストされた項目は、（Ａ）、（Ｂ）、（Ｃ）、（ＡおよびＢ）、（ＡおよびＣ）、（ＢおよびＣ）または（Ａ、Ｂ、およびＣ）を意味することができる。

１００……データ処理システム、１１０……データ解析予測システム、１１２……解析予測演算装置。

Claims

予測モデルにより予測を行うデータ処理システムであって、
データを記憶する記憶部から、前記予測モデルの同定に用いるデータを選定する選定部と、
前記選定部により選定されたデータを用いて前記予測モデルの同定を行う処理部と、
を備え、
前記選定部は、前記記憶部から、所定の第１のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、前記第１のデータと異なる種類および／または条件の第２のデータとを選定する、
データ処理システム。
前記記憶部に記憶されているデータを用いて、前記構造的予測モデルの構造データとして、予測対象を支配的に決定する分岐条件である予測子ほど上位に現れる決定木モデルを生成する生成部と、
前記生成部により生成された決定木モデルにおける予測子に、前記選定部におけるデータの選定に用いられる序数を付与する付与部と、
を備え、
前記選定部は、前記付与部により付与された序数に従って、所定の数に達するまで、前記記憶部から前記第２のデータを選定する、
請求項１に記載のデータ処理システム。
前記予測モデルは、カーネル関数を用いた予測モデルである、
請求項１に記載のデータ処理システム。
前記記憶部に記憶されているデータを用いて、前記生成部により生成された決定木モデルによる予測を行う第二の処理部と、
出力を行う出力部と、
を備え、
前記処理部は、前記予測モデルによる予測を行い、
前記出力部は、前記処理部の予測の結果と、前記第二の処理部の予測の結果とを出力する、
請求項２に記載のデータ処理システム。
予測モデルにより予測を行うデータ処理システムにおけるデータ処理方法であって、
選定部が、データを記憶する記憶部から、前記予測モデルの同定に用いるデータを選定することと、
処理部が、前記選定部により選定されたデータを用いて前記予測モデルの同定を行うことと、
を備え、
前記選定部は、前記記憶部から、所定の第１のデータと、構造的予測モデルの構造データにおける分岐条件をもとに、前記第１のデータと異なる種類および／または条件の第２のデータとを選定する、
データ処理方法。