JP6679086B2

JP6679086B2 - 学習装置、予測装置、学習方法、予測方法、およびプログラム

Info

Publication number: JP6679086B2
Application number: JP2015221663A
Authority: JP
Inventors: 孔明杉浦; 耕司是津
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2020-04-15
Anticipated expiration: 2035-11-11
Also published as: JP2017091278A

Description

本発明は、時系列の測定データを用いて、将来の予測値を算出するための学習データを蓄積する学習装置等に関するものである。

大気汚染は、我々の健康および生活に直結する社会問題である。例えば、近年問題となっている微小粒子状物質ＰＭ２．５による汚染により、中国では２０１３年１月のみで２３０億元（約４５００億円）の経済損失があったと推定されている（張ら,「"煙霧中国"大都市ＰＭ２．５汚染による損失とその規制効果」）。

従来、ＰＭ２．５の予測システムVENUSがあった（非特許文献１）。VENUSとは、国立環境研究所により提供されているＰＭ２．５の予測システムである。VENUSでは、内部的にSPRINTARS（非特許文献１参照）と呼ばれるモデルを用いている。SPRINTARSは、大気汚染を引き起こすエアロゾルと気候の関係をシミュレートするモデルである。

また、非特許文献２では、Linear-chain conditional random fieldによるＰＭ２．５の予測手法が提案されている。

一方、出願人は、これまでDeep Recurrent Neural Network（ＤＲＮＮ）を用いた予測手法をオープンセンサデータに適用し、既存の気象モデルベース手法を上回る結果を達成している（非特許文献３）。かかる予測手法におけるプレトレーニングの手法は、ＤＰＴ(Dynamic Pre-Training)と言う。なお、ＤＲＮＮは、多層の回帰型のニューラルネットワーク（ＮＮ）である。また、学習データは、特徴量を入力層とし、１層以上の中間層を有し、結果値を出力層とする。また、学習データは、入力層を構成する２個以上の各特徴量と２層以上の各中間層と出力層を構成する２個以上の各結果値との間が重みを有するリンクで接続されている回帰型のニューラルネットワークである。また、学習データにおける中間層は２層以上、存在していても良い。また、オープンセンサデータでは、毎回全てのセンサデータが取得されるわけではなく、平均的に２０％ほどの欠損データが存在する。

Takemura,Toshihiko,et al. "Global three-dimensional simulation of aerosol optical thickness distribution of various origins."(2000). Zheng, Yu, Furui Liu, and Hsun-Ping Hsieh. "U-Air: When urban air quality inference meets big data." Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2013. BD Ong, Bun Theang, Komei Sugiura, and Koji Zettsu. "Dynamic pre-training of Deep Recurrent Neural Networks for predicting environmental monitoring data." Big Data (Big Data), 2014 IEEE International Conference on. IEEE, 2014.

しかしながら、従来の予測システムにおいては、予測システムの内部パラメータ数に比べて時系列で得られた測定データの数が少なすぎる場合や、時系列の測定データに多くの欠損がある場合、精度の高い予測値が得られなかった。

さらに、具体的には、Deep Learning（深層学習）により、時系列の測定データを用いて将来の予測値を算出するための学習データを取得する場合に、通常、層ごとに学習を行うプレトレーニングを実施した後に、ＮＮ全体の最適化を行うファインチューニングを実施する。

そして、プレトレーニングにおいて上記のＤＰＴを用いた場合であり、ファインチューニングにおいてＤＲＮＮを用いた場合に、精度高く予測値を算出しようとすれば、通常、大量の測定データがあることが望まれ、如何に測定データを収集するか、如何に測定データを増加させるかが問題となる。大量の測定データを利用する方が、少ない測定データを利用するより、一般的に、予測精度が上がるからである。

一方、上述したように、オープンセンサデータでは２０％ほどの欠損データが存在する。また、学習に使えるＰＭ２．５の測定データは、ここ数年分の蓄積しか無い。つまり、学習データ数がＤＲＮＮのパラメータ数に比べて余りに少なすぎるため、ＤＲＮＮの学習がうまく行かない。

以上より、本願発明は、プレトレーニングにおいてＤＰＴを用いた場合であり、ファインチューニングにおいてＤＲＮＮを用いた場合に、できるだけ少ないセンサ数での予測が可能な手法を提供することを目的とする。

本第一の発明の学習装置は、２個以上の特徴量である特徴量群と結果を示す結果値とを有するベクトルデータであり、時系列の２つ以上のベクトルデータが格納されるベクトルデータ格納部と、２つ以上のベクトルデータの部分集合であり、１個または２個以上の時系列の特徴量群である２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度を与え、重要度を与えられた２個以上の部分時系列であるサンプルを作成し、サンプルを用いて、複数回繰り返して、オートエンコーダの学習を行うプレトレーニング部と、プレトレーニング部における学習結果から得られるＤＲＮＮに対してファインチューニングを行い、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を決定し、ファインチューニング後のＤＲＮＮに対して、決定した１個以上の特徴量の影響を無くす特徴量削除処理を行うファインチューニング部と、ファインチューニング部が行った処理の結果のＤＲＮＮである学習データを蓄積する蓄積部とを具備する学習装置である。

かかる構成により、少ない数のセンサからの時系列の測定データだけでも、精度の高い予測値が得られる学習データを構築できる。

また、本第二の発明の学習装置は、第一の発明に対して、プレトレーニング部は、２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度であり、０から１の間の値をとる重要度であり、学習の回数が進行する場合に、増加する傾向の重要度を与え、重要度を与えられた２個以上の部分時系列であるサンプルを作成し、サンプルを用いて、複数回、オートエンコーダの学習を行い、多層ニューラルネットワークを取得する学習装置である。

かかる構成により、少ない数のセンサからの時系列の測定データだけでも、極めて精度の高い予測値が得られる学習データを構築できる。

また、本第三の発明の予測装置は、第一または第二の発明に対して、特徴量群および結果値は、環境モニタリングデータである予測装置である。

かかる構成により、少ない数のセンサからの時系列の環境モニタリングデータだけでも、ＰＭ２．５の値等の環境データの予測値が精度の高く得られる学習データを構築できる。

また、本第四の発明の予測装置は、第一から第三いずれか１つの発明に対して、学習装置が蓄積した学習データが格納される学習データ格納部と、結果値に対する関連度が、予め決められた条件を満たすほど小さい１個以上の特徴量を特徴量群から除いた２個以上の特徴量である入力特徴量群を学習データに適用し、将来の結果値を取得する予測部と、予測部が取得した結果値を出力する出力部とを具備する予測装置である。

かかる構成により、少ない数のセンサからの時系列の測定データだけでも、精度の高い環境予測値が得られる。

本発明による学習装置等を用いて将来の予測値を算出する場合、時系列の測定データに多くの欠損があっても、精度の高い予測値が得られる。

実施の形態１における学習装置１のブロック図同重要度を模式的に示した図同学習装置１の動作について説明するフローチャート同プレトレーニングの処理を説明するフローチャート同特徴量削減処理を説明するフローチャート実施の形態２における予測装置２のブロック図同予測装置２の動作について説明するフローチャート同学習装置１および予測装置２の動作の概要を示す図同ベクトルデータを示す図同データ例を示す図同パラメータの設定値を示す図同実験結果を示す図同実験結果を示す図同実験結果を示す図同オープンデータを示す図同実験結果を示す図同実験結果を示す図同実験結果を示す図同実験結果を示す図上記実施の形態におけるコンピュータシステムの概観図同コンピュータシステムのブロック図

以下、学習装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、プレトレーニングにおいてＤＰＴを用いた場合であり、ファインチューニングにおいてＤＲＮＮを用いた場合に、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量の影響を無くす特徴量削除処理を行い、学習データを取得する学習装置について説明する。

また、本実施の形態において、１個または２個以上の時系列の特徴量群である２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度を与え、重要度に応じてネットワークの重みを変化させながら、複数回繰り返して、オートエンコーダの学習を行う学習装置について説明する。

さらに、本実施の形態において、測定データとして、ＰＭ２．５等の環境モニタリングデータを用いて、学習データを取得する学習装置について説明する。

図１は、本実施の形態における学習装置１のブロック図である。学習装置１は、ベクトルデータ格納部１１、学習データ格納部１２、プレトレーニング部１３、ファインチューニング部１４、および蓄積部１５を備える。

ベクトルデータ格納部１１は、２つ以上のベクトルデータが格納される。２つ以上のベクトルデータは、時系列のベクトルデータであり、時系列の順序を保っている。ベクトルデータは、２個以上の特徴量である特徴量群と結果を示す結果値とを有する。なお、ベクトルデータは、例えば、時刻を示す時刻情報に対応付いている。ベクトルデータと時刻情報とが対応付いていることは、ベクトルデータが時刻情報を含むことでも良い。また、結果値も特徴量の一つである、と考えても良い。また、特徴量は、例えば、ＰＭ２．５の飛散量、予め決められた１都市または２都市以上の各近隣都市のＰＭ２．５の飛散量、風速、気温、風向き、日射量、湿度、降雨量等である。また、ＰＭ２．５の飛散量は、単にＰＭ２．５と言う場合がある。

学習データ格納部１２は、学習データを格納し得る。学習データは、２個以上の時系列のベクトルデータを学習して得られたＤＲＮＮである。

また、学習データは、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を特徴量群から除いた特徴量群と結果値とを有するベクトルデータであり、時系列の２つ以上のベクトルデータを学習して得られたＤＲＮＮである。

プレトレーニング部１３は、学習データを構成するために、ＤＲＮＮの層ごとの学習を、複数回、繰り返して行う。プレトレーニング部１３は、オートエンコーダの学習を行う。さらに具体的には、プレトレーニング部１３は、２個以上の各部分時系列に対して、学習回数に応じて、変化する重要度を与え、当該重要度を与えられた２個以上の部分時系列であるサンプルを作成し、サンプルを用いて、複数回繰り返して、オートエンコーダの学習を行う。部分時系列とは、２つ以上のベクトルデータの部分集合であり、１個または２個以上の時系列の特徴量群である。なお、学習の回数は、通常、予め決められているが、動的に変化しても良い。学習の回数が動的に変化する場合、例えば、プレトレーニング部１３は、前回の学習結果におけるＤＲＮＮが有する重みベクトルと、今回の学習結果におけるＤＲＮＮが有する重みベクトルとの差異が閾値より小さい場合に、学習を終了するようにする。

また、上記の変化する重要度は、学習の回数が進行する場合に、増加する傾向となることは好適である。また、重要度は、０から１の間の値をとるように変化することは好適である。

つまり、例えば、プレトレーニング部１３は、２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度であり、０から１の間の値をとり得る重要度であり、学習の回数が進行する場合に、増加する傾向の重要度を与え、重要度を与えられた２個以上の部分時系列であるサンプルを作成し、サンプルを用いて、複数回、オートエンコーダの学習を行い、多層ニューラルネットワークを取得する。

さらに具体的には、プレトレーニング部１３は、例えば、以下に説明するＤＰＴというアルゴリズムにより、オートエンコーダの学習を行う。つまり、例えば、Ｌ時間前までの時系列の観測データを用いて、Ｎ時間後のＰＭ２．５等のデータを予測する時系列予測問題では、Ｎが大きくなるにつれて予測誤差が増加すると考えることが合理的である。そこで、ＤＰＴでは、この特徴を利用して学習サンプルを徐々に変化させ、タスクの複雑さを少しずつ増加させる。なお、ＤＰＴは、ＤｙｎＰＴとも言う。

ＤＰＴでは、上述したように、プレトテーニングにおけるオートエンコーダの学習を対象とする。そして、今、長さＤの時系列ベクトル「ｘ＝｛ｘ_１，・・・，ｘ_Ｄ｝」が得られ、ベクトルデータ格納部１１に蓄積された、とする。なお、ここでは、表記の都合上、特徴量は１次元であるものとする。ただし、実際には多次元の特徴量を扱う。プレトレーニング部１３は、入力時系列ｘを、順序を保ったままη個の部分時系列である部分時系列に分割する。分割されたj（＝１，・・・，η）番目の部分時系列ｚ_ｊは以下の数式１により与えられる。

ここに、ｊ＝１，・・・，ηであり、ｍ（＝Ｄ／η）は部分集合（部分時系列）の要素数である。

各部分時系列において、学習の回数であるエポック数ｅに応じて変化する重要度ｗ_ｊ（ｅ）∈［０，１］が割り当てられる。ここでは、例えば、重要度は［０，１］に含まれる実数であるものとする。重要度を模式的に示したものが図２である。図２において、２個以上の各部分時系列に対して、エポック数ｅに応じて、重要度の値が０から１の間に変化し、かつエポック数ｅが進行する場合に、重要度は増加する傾向であることを示す。

また、重要度ｗ_ｊ（ｅ）は、以下の数式２のように更新される。

ここに、ｃ＝ceiling（ｅ／η）、γ＝Ｈ／η、Ｈはエポック数の最大値である。プレトレーニング部１３は、上記のｗ_ｊ（ｅ）を用いて各部分時系列を重み付けして結合し、実際の学習に用いるサンプルｘ^〜（ｅ）を作成する。なお、「ｘ^〜（ｅ）」の「〜」は、「ｘ」の真上に配置される、とする。また、「ｘ^〜（ｅ）」は、以下の数式３で定義される．

ここで、ｅ＝１，・・・，Ｈである。

そして、プレトレーニング部１３は、ｘからｘ^〜に変換された入力を用いて、Stocastic Gradient Descentにより以下の数式４に示す損失関数Ｌ_ＤＰＴを最小化する学習パラメータを探索する。

ここで、ｆ，ｇはそれぞれエンコーダ、デコーダである。

また、プレトレーニング部１３は、ＤＰＴを用いた学習終了後に、学習されたＤＲＮＮを得る。

ファインチューニング部１４は、プレトレーニング部１３における学習結果から得られるＤＲＮＮに対してファインチューニングを行い、ファインチューニング後のＤＲＮＮに対して、特徴量削除処理を行う。なお、ファインチューニングは、ＤＲＮＮ全体の最適化を行う処理であり、公知技術である。

ここで、特徴量削除処理とは、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を決定し、決定した１個以上の特徴量の影響を無くす処理である。特徴量削除処理は、ＤＲＮＮにおいて、決定された１個以上の各特徴量からのリンクの重みをゼロにする処理でも良い。また、特徴量削除処理は、ＤＲＮＮにおいて、決定された１個以上の各特徴量を削除する処理でも良い。なお、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を決定する処理は、例えば、Elastic Net、Ridge、Lasso等が使用可能である。また、Elastic Net等を用いれば、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を除くことができる。

さらに具体的には、ファインチューニング部１４は、例えば、以下のようにして、特徴量削除処理を行う。

つまり、ファインチューニング部１４は、特徴量群に含まれる２個以上の各特徴量ごとに、誤差情報を算出する。そして、ファインチューニング部１４は、特徴量群に含まれる２個以上の各特徴量ごとに、特徴量の影響度を算出する。次に、ファインチューニング部１４は、誤差情報と影響度とをパラメータとする増加関数によりコストを算出する。そして、コストが予め決められた条件を満たすほど大きい特徴量を、結果値に対する関連度が、予め決められた条件を満たすほど小さい特徴量であるとして、使用しない特徴量であると決定する。なお、誤差情報とは、学習データを用いて予測した結果値である予測結果値と実測した結果値である実測結果値との誤差に関する情報である。また、影響度とは、特徴量の結果値に対する影響の度合いを示す情報である。

ファインチューニング部１４は、特徴量群に含まれる２個以上の各特徴量に対して、１以上の重みである１種類以上の重みベクトル（θ）ごとに、特徴量群を用いて予測した結果値である予測結果値と実測した結果値である実測結果値との誤差に関する情報である誤差情報を算出する。

ファインチューニング部１４は、例えば、数式５により、誤差情報を算出する。数式５において、Ｎは、学習データを構成する元になったベクトルデータの数である。また、数式５において「ｙ_ｉ」は実測結果値である。また、「ｙ〜_ｉ」は予測結果値である。なお、数式５において「ｙ〜_ｉ」の「〜」は「ｙ」の真上に配置されている。また、ファインチューニング部１４は、予め格納されている１個以上の予測結果値を読み出すか、１個以上の予測結果値を算出して、１個以上の予測結果値を取得する。また、ファインチューニング部１４は、予め格納されている１個以上の実測結果値を読み出す。そして、ファインチューニング部１４は、例えば、ベクトルデータごとに、実測結果値と予測結果値の差の２乗を算出し、数式５に従って、誤差情報を算出する。なお、予測結果値「ｙ〜_ｉ」は重みベクトル（θ）を用いて算出される。さらに、予測結果値「ｙ〜_ｉ」を算出する技術は公知技術であるので、詳細な説明は省略する。

また、ファインチューニング部１４は、特徴量群に含まれる２個以上の各特徴量に対して、１種類以上の重みベクトルごとに、各特徴量から結果値への１個以上の重みをパラメータとする増加関数により、各特徴量の影響度を算出する。

ファインチューニング部１４は、例えば、数式６により、影響度を算出する。数式６において、λは予め決められた定数である。λは非負値のハイパーパラメータ（nonnegative hyper-parameter）である。また、τは「０＜＝τ＜＝１」を満たす定数である。また、θは１個以上の重みの集合であり、１個以上の重みを要素とするベクトルである。θは、（ｗ_１，ｗ_２，・・・，ｗ_ｎ）である。重み「ｗ_１」「ｗ_２」・・・「ｗ_ｎ」は、着目する特徴量から結果値へ繋がっているニューラルネットワークの重みである。

なお、ファインチューニング部１４が使用する演算式（例えば、数式６）は、使用する特徴量（パラメータ）を減らす働きがある。

次に、ファインチューニング部１４は、特徴量群に含まれる２個以上の各特徴量に対して、１種類以上の重みベクトルごとに、誤差情報と影響度とをパラメータとする増加関数によりコストを算出する。ファインチューニング部１４は、例えば、数式７により、コストを算出する。なお、数式７において、Ｎは学習サンプル数である。

次に、ファインチューニング部１４は、算出したコストが予め決められた条件（適宜、第一条件と言う。）を満たす１個以上の重み（θ）に対応するコストが予め決められた条件（適宜、第二条件と言う。）を満たすか否かを判断する。コストが予め決められた条件を満たすか否かは、通常、コストが閾値以上または閾値より大きいことである。

ファインチューニング部１４は、例えば、コストが最小になる１個以上の重み（θ）に対応するコストが予め決められた条件を満たすか否かを判断することは好適である。なお、例えば、第一条件は、コストが最小であることである。また、第二条件は、例えば、最小のコストが閾値以上であることである。

次に、ファインチューニング部１４は、コストが予め決められた条件を満たすと判断した特徴量を、使用しない特徴量であると決定する。

そして、ファインチューニング部１４は、例えば、プレトレーニング部１３における学習結果から得られるＤＲＮＮに対して、使用しない特徴量であると決定した１個以上の特徴量からのリンクの重みをゼロにする。なお、ファインチューニング部１４が最終的に取得するデータも、ＤＲＮＮである。

なお、ファインチューニング部１４は、プレトレーニング部１３が取得したＤＲＮＮに対して、ファインチューニングを行った後、特徴量削除処理を行うことは好適である。ただし、ファインチューニング部１４は、プレトレーニング部１３が取得したＤＲＮＮに対して、特徴量削除処理を行った後、ＤＲＮＮ全体の最適化を行うファインチューニングを実施しても良い。

蓄積部１５は、ファインチューニング部１４が行った処理の結果のＤＲＮＮである学習データを蓄積する。蓄積部１５は、通常、ローカルの学習データ格納部１２に学習データを蓄積するが、外部の装置に学習データを蓄積しても良い。

ベクトルデータ格納部１１、および学習データ格納部１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

ベクトルデータ格納部１１等にベクトルデータ等が記憶される過程は問わない。例えば、記録媒体を介してベクトルデータ等がベクトルデータ格納部１１等で記憶されるようになってもよく、通信回線等を介して送信されたベクトルデータ等がベクトルデータ格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたベクトルデータ等がベクトルデータ格納部１１等で記憶されるようになってもよい。

プレトレーニング部１３、ファインチューニング部１４、および蓄積部１５は、通常、ＭＰＵやメモリ等から実現され得る。プレトレーニング部１３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、学習装置１の動作について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）プレトレーニング部１３は、２つ以上のベクトルデータをベクトルデータ格納部１１から読み出す。なお、ベクトルデータは、通常、１要素以上の実測値からなる。実測値は、特徴量または結果値である。

（ステップＳ３０２）プレトレーニング部１３は、ステップＳ３０１で読み出した２つ以上のベクトルデータを用いて、プレトレーニングを行う。プレトレーニングの処理は、図４のフローチャートを用いて後述する。

（ステップＳ３０３）ファインチューニング部１４は、ステップＳ３０２で構成された学習データ（ＤＲＮＮ）に対して、通常のファインチューニングを行う。通常のファインチューニングは公知技術である。

（ステップＳ３０４）ファインチューニング部１４は、ステップＳ３０３でファインチューニングされた結果であるＤＲＮＮから、１個以上の特徴量を削減し、処理を終了する。かかる特徴量削減処理は、図５のフローチャートを用いて後述する。

（ステップＳ３０５）蓄積部１５は、ステップＳ３０５で取得された学習済みのＤＲＮＮ（ＤＰＴ−ＤＲＮＮと言っても良い）を、学習データ格納部１２に蓄積する。

次に、ステップＳ３０２のプレトレーニングの処理を、図４のフローチャートを用いて説明する。なお、学習のエポック数に応じて変化する重要度は、例えば、予めベクトルデータ格納部１１に格納されている、とする。

（ステップＳ４０１）プレトレーニング部１３は、２つ以上のベクトルデータから、２個以上の部分時系列を取得する。

（ステップＳ４０２）プレトレーニング部１３は、カウンタｉに１を代入する。

（ステップＳ４０３）プレトレーニング部１３は、ｉ番目の学習を行うか否かを判断する。ｉ番目の学習を行うと判断した場合はステップＳ４０４に行き、ｉ番目の学習を行わないと判断した場合は上位処理にリターンする。

（ステップＳ４０４）プレトレーニング部１３は、ｉ番目の学習における各部分時系列の重要度を取得する。

（ステップＳ４０５）プレトレーニング部１３は、ステップＳ４０４で取得した各部分時系列の重要度を、ステップＳ４０１で取得した２個以上の部分時系列に適用し（通常、乗算し）、サンプルを取得する。

（ステップＳ４０６）プレトレーニング部１３は、ステップＳ４０５で取得したサンプルと最新のＤＲＮＮを用いて、損失関数Ｌ_ＤＰＴを最小化する学習パラメータを取得し、ＤＲＮＮに反映させる。なお、最新のＤＲＮＮとは、初期値のＤＲＮＮまたは前回のループの処理のステップＳ４０６で取得されたＤＲＮＮである。

（ステップＳ４０７）プレトレーニング部１３は、カウンタｉを１、インクリメントし、ステップＳ４０３に戻る。

次に、ステップＳ３０４の特徴量削減処理を、図５のフローチャートを用いて説明する。

（ステップＳ５０１）プレトレーニング部１３は、カウンタｉに１を代入する。

（ステップＳ５０２）プレトレーニング部１３は、削減候補のｉ番目の特徴量が存在するか否かを判断する。ｉ番目の特徴量が存在する場合はステップＳ５０３に行き、ｉ番目の特徴量が存在しない場合は上位処理にリターンする。なお、削減候補の特徴量は、通常、ベクトルデータ格納部１１のベクトルデータを構成するすべての要素である。

（ステップＳ５０３）プレトレーニング部１３は、カウンタｊに１を代入する。

（ステップＳ５０４）プレトレーニング部１３は、コストを算出する対象の重みベクトルのうち、ｊ番目の重みベクトルを使用するか否かを判断する。ｊ番目の重みベクトルを使用する場合はステップＳ５０５に行き、ｊ番目の重みベクトルを使用しない場合はステップＳ５０９に行く。

（ステップＳ５０５）プレトレーニング部１３は、ｊ番目の重みベクトルと、ベクトルデータ格納部１１のベクトルデータとを用いて、誤差情報を取得する。

（ステップＳ５０６）プレトレーニング部１３は、ｊ番目の重みベクトルと、ベクトルデータ格納部１１のベクトルデータとを用いて、影響度を取得する。

（ステップＳ５０７）プレトレーニング部１３は、ステップＳ５０５で算出された誤差情報とステップＳ５０６で算出された影響度とをパラメータとする増加関数によりコストを算出する。

（ステップＳ５０８）プレトレーニング部１３は、カウンタｊを１、インクリメントし、ステップＳ５０４に戻る。

（ステップＳ５０９）プレトレーニング部１３は、ｉ番目の特徴量に対して、ステップステップＳ５０７で算出された１個または２個以上のコストの中から、最小のコストを取得する。

（ステップＳ５１０）プレトレーニング部１３は、ステップＳ５０９で取得された最小のコストが予め決められた条件を満たすか否かを判断する。予め決められた条件を満たす場合はステップＳ５１１に行き、予め決められた条件を満たさない場合はステップＳ５１２に行く。

（ステップＳ５１１）プレトレーニング部１３は、ｉ番目の特徴量を使用しない特徴量であると決定する。そして、プレトレーニング部１３は、ＤＲＮＮに対して、ｉ番目の特徴量からのリンクの重みをゼロにする、またはｉ番目の特徴量を削除する。

（ステップＳ５１２）プレトレーニング部１３は、カウンタｉを１、インクリメントし、ステップＳ５０２に戻る。

以上、本実施の形態によれば、より少ない数の時系列の測定データから、精度の高い予測値が得られる学習データを構築できる。

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における学習装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記憶媒体は、２個以上の特徴量である特徴量群と結果を示す結果値とを有するベクトルデータであり、時系列の２つ以上のベクトルデータが格納されるベクトルデータ格納部を具備し、コンピュータを、前記２つ以上のベクトルデータの部分集合であり、１個または２個以上の時系列の特徴量群である２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度を与え、当該重要度を与えられた２個以上の部分時系列であるサンプルを作成し、当該サンプルを用いて、複数回繰り返して、オートエンコーダの学習を行うプレトレーニング部と、
前記プレトレーニング部における学習結果から得られるＤＲＮＮに対してファインチューニングを行い、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を決定し、前記ファインチューニング後のＤＲＮＮに対して、前記決定した１個以上の特徴量の影響を無くす特徴量削除処理を行うファインチューニング部と、前記ファインチューニング部が行った処理の結果のＤＲＮＮである学習データを蓄積する蓄積部として機能させるためのプログラムである。

また、上記プログラムにおいて、前記プレトレーニング部は、前記２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度であり、０から１の間の値をとる重要度であり、学習の回数が進行する場合に、増加する傾向の重要度を与え、当該重要度を与えられた２個以上の部分時系列であるサンプルを作成し、当該サンプルを用いて、複数回、オートエンコーダの学習を行い、多層ニューラルネットワークを取得するものとして、コンピュータを機能させるプログラムであることは好適である。

（実施の形態２）
本実施の形態において、実施の形態１の学習装置１が取得した学習データを用いた予測装置２について説明する。

図６は、本実施の形態における予測装置２のブロック図である。予測装置２は、学習データ格納部１２、予測部２１、出力部２２を備える。

学習データ格納部１２は、学習装置１が取得した学習データが格納される。この学習データは、上述したＤＰＴ−ＤＲＮＮである。

予測部２１は、結果値に対する関連度が、予め決められた条件を満たすほど小さい１個以上の特徴量が除かれた２個以上の特徴量である入力特徴量群を学習データに適用し、将来の結果値を取得する。この入力特徴量群は、予測装置２に予め格納されていても良いし、予測装置２が受け付けても良い。なお、予測部２１の処理は公知技術であるので、詳細な説明を省略する。

予測部２１は、通常、ＭＰＵやメモリ等から実現され得る。予測部２１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部２２は、予測部２１が取得した結果値を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

出力部２２は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部２２は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、予測装置２の動作について、図７のフローチャートを用いて説明する。

（ステップＳ７０１）予測部１２２は使用する入力特徴量群を読み出す。なお、入力特徴量群には、実施の形態１において、学習データを構築する際に使用しないと決定された１個以上の特徴量は含まれない。

（ステップＳ７０２）予測部１２２は、ステップＳ７０１で読み出した入力特徴量群を、学習データ格納部１２の学習データ（ＤＰＴ−ＤＲＮＮ）に対して適用し、予測結果値を取得する。

（ステップＳ７０３）出力部１３は、ステップＳ７０２で取得された予測結果値を出力し、処理を終了する。

以下、実施の形態１の学習装置１および本実施の形態２の予測装置２の動作の概要について、図８の処理の概念図を用いて説明する。なお、本具体例において、ＰＭ２．５の値を予測する場合について説明する。

学習装置１は、学習フェーズ（図８の８０１）において、以下のように、学習フェーズを実行する。

つまり、まず、プレトレーニング部１３は、２つ以上のベクトルデータ（図９を用いて後述する）をベクトルデータ格納部１１から読み出す。

次に、プレトレーニング部１３は、読み出した２つ以上のベクトルデータを用いて、上述したＤＰＴのアルゴリズムにより、プレトレーニングを行い、ＤＰＴ−ＤＲＮＮを構成する（図８の８０１１）。

次に、ファインチューニング部１４は、ＤＰＴ−ＤＲＮＮに対して、ファインチューニングの処理を行い、かつElastic Netにより１個以上の特徴量を削減する処理を行う（８０１２）。そして、１個以上の特徴量が削減された、学習済みのＤＰＴ−ＤＲＮＮが得られる（８０１３）。

次に、予測装置２の予測部２１は、削減済み特徴量（８０２１）を受け付け、当該削減済み特徴量と、学習装置１によって取得されたＤＰＴ−ＤＲＮＮである学習データを用いて、予測値を取得する（８０２２）。そして、予測部２１が取得した予測値を出力する（８０２３）。なお、削減済み特徴量は、Elastic Netにより選択された関連が高い特徴量である。

（実験結果）
以下、学習装置１および予測装置２の実験について説明する。今、ベクトルデータ格納部１１には、図９に示すような多数のベクトルデータを格納している、とする。ベクトルデータは、予測の対象都市のＰＭ２．５の値、近隣都市のＰＭ２．５の値、風速、風向き、気温、日射量、湿度、降雨量の値（要素）を有する。また、例えば、ベクトルデータ９０１は、３月１日の正午における測定データであり、時刻「ｔ−３」の時点（例えば、３時間前）におけるＰＭ２．５の値「ｘ_１１」、時刻「ｔ−２」の時点（例えば、２時間前）におけるＰＭ２．５の値「ｘ_１２」、時刻「ｔ−１」の時点（例えば、１時間前）におけるＰＭ２．５の値「ｘ_１３」、時刻「ｔ」の時点（例えば、現在）におけるＰＭ２．５の値「ｘ_１４」、時刻「ｔ−３」の時点（例えば、３時間前）における風速「ｘ_１５」、時刻「ｔ−２」の時点（例えば、２時間前）における風速「ｘ_１６」等を有する。

さらに具体的には、本実験において、ＰＭ２．５の値、風速、風向き、気温、日射量、湿度については、独立行政法人国立環境研究所により公開されているデータ（http://www.nies.go.jp/igreen/tj_down.html参照）を用いた。また、降雨量の値は気象庁によって提供されたデータを用いた（http://www.jma.go.jp/jma/indexe.html参照）。

また、入力特徴量の選択には，VENUSで用いられている入力量を参考に選定した。また、ＰＭ２．５（対象都市）は、予測対象の都市の過去Ｄ時間分のデータであり、ＰＭ２．５（近隣都市）は対象都市近隣のＫ個の都市におけるＰＭ２．５の濃度である。用いたデータの例を図１０に示す。図１０の（１）はＰＭ２．５（対象都市）、（２）は降雨量、（３）は風速、（４）は照度である。

また、本実験において、５２箇所の対象都市は日本各地に分散するよう、県庁所在地を中心に選択した。これらの都市における観測値は公開されており、その中から約２年分のデータを用いた。このうち、学習データ（training set）、検証データ（validation set）、テストデータ（test set）の割合を６０％、２０％、２０％とした。手法のハイパーパラメータはクロスバリデーション（Cross-Validation）により自動的に決定した。パラメータの設定値を図１１にまとめる。なお、データの事前処理として標準的に用いられる外れ値の除去および正規化を行った。
（実験１）

上記の状況において、まず、プレトレーニング部１３が行うＤＰＴについて、以下のように評価した。

つまり、ＤＰＴ（ＤｙｎＰＴとも言う。）と標準的なオートエンコーダ（ＣａｎＡＥとも言う。）とノイズ除去されているオートエンコーダ（ＤｅｎＡＥとも言う。）とを比較実験した。なお、標準的なオートエンコーダについては、「Vincent P, Larochelle H, Bengio Y, Manzagol P-A (2008) Extracting and composing robust features with denoising autoencoders. In: Proceedings of the 25th international conference on machine learning, ICML'08, pp 1096-1103, New York, NY, USA. ACM」を参照のこと。また、ＤｅｎＡＥについて、「Vincent, P., Larochelle, H., Bengio, Y., and Manzagol, P. A.: Extracting and Composing Robust Features with Denoising Autoencoders, in Proceedings of the 25th International Conference on Machine Learning, ICML '08, pp. 1096-1103, New York, NY, USA (2008), ACM」を参照のこと。

本実験では、各ケース（ＤｙｎＰＴ、ＣａｎＡＥ、ＤｅｎＡＥ）に対して、５２都市のＰＭ２．５において、１０回実行された。

また、評価の尺度として、以下の数式８の二乗平均平方根（ＲＭＳＥ）を使用した。

数式８において、「ｙ_ｉ」はＰＭ２．５の真値（実測結果値）である。また、「ｙ^_ｉ」は予測値である。さらに、Ｎはベクトルデータの数である。なお、予測の良好さについては種々の尺度があり得るが、本実験では、ＲＭＳＥが小さいことを予測精度が高いとみなす。

そして、本実験において、５２都市における１０回のすべての実行における、ＲＭＳＥの平均値を、各ケースについて算出した。

モデルは、過去の４８時間の情報に基づいて、１２時間の予測を生成するために、ネットワークのＡＥ層と基本MLP層を積層することによって初期化されたニューラルネットワークである。

また、すべてのケースにおいて、ネットワークに対して、プレトレーニングと、確率的勾配降下（stochastic gradient descent）によるファインチューニングが行われた。

本実験では、各ケース（ＤｙｎＰＴ、ＣａｎＡＥ、ＤｅｎＡＥ）に対して、エポック数は２００回であった。また、各ケースに対して、プレトレーニングとファインチューニングのための学習率の値は、それぞれ、０．０１および０．００１に設定された。また、ＤｙｎＰＴでは、一時的な部分時系列数（η）は２５に設定された。ＤｅｎＡＥについて、モデル選択は、欠損率（ν）のいくつかの値に対して行った。ただし、採用したモデルは、欠損率（ν）＝０．２の場合である。この欠損率（ν）は、ＤｅｎＡＥの文献において、推奨されている値である。

以下の図１２は、各ケース（ＤｙｎＰＴ、ＣａｎＡＥ、ＤｅｎＡＥ）の実験結果である。図１２は、各ケースについて、５２都市における１０回のすべての実行における、ＲＭＳＥの平均値を示す。

図１２によれば、ＤｙｎＰＴが、最も優れていることが分かる。また、ＤｅｎＡＥは、ＣａｎＡＥよりも劣っている。この結果は、ＤｅｎＡＥのような先進的なＡＥは、画像分類及び他の分野において優れた性能を実現するが、時系列予測等の分野には適さないことを示している。
（実験２）

また、実験２において、ＰＭ２．５等のデータを予測する時系列予測問題において、４つのニューラルネットワークのアーキテクチャーの中で、最適なアーキテクチャーを決定した。ここで、４つのアーキテクチャーとは、フィードフォワードニューラルネットワーク（ＦＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、ディープフィードフォワードニューラルネットワーク（ＤＦＮＮ）、ＤＲＮＮである。

本実験において、１時間の観測周期で、４８時間の過去の観測データを用いて、１２時間後のＰＮ２．５の値を予測した。また、各ケースにおいて、上記と同様、５２都市のデータに対して、１０回、実行した。かかる場合のパラメータは、図１１である。

４つのニューラルネットワークのタイプのネットワークトポロジーは、４から９層の範囲のレイヤを有し、各レイヤにおいて、３０のノード、および３００のノードを有する場合について実験した。各レイヤにおいて、ノード数は同じである必要はないが、本実験では、簡単化のために同じにした。

本実験の結果を図１３に示す。図１３の（ａ）は各レイヤのノード数が３０の場合のＲＭＳＥを示すグラフであり、図１３の（ｂ）は各レイヤのノード数が３００の場合のＲＭＳＥを示すグラフである。図１３によれば、層の数が増加すれば、急速に過剰適合（過学習）が発生することが分かる。また、本実験の結果、層の数は、４から７のいずれかが好適であり、さらに４または５層がより良いことが分かる。また、図１３によれば、ノード数は３０より３００が良いことが分かる。さらに、図１３によれば、ＤＲＮＮが他の構造より優れていることが分かる。そこで、最も良いアーキテクチャーとトポロジーは、ＤＲＮＮで、５層のレイヤで、各層のノード数が３００であった。
（実験３）

実験３では、実験２で取得したＤＲＮＮで、５層のレイヤで、各層のノード数が３００のニューラルネットワークを用いて、本発明の提案手法（ＤＰＴ−ＤＲＮＮ）の性能とVENUSの性能とを比較した。

VENUSの環境と同じ環境で比較実験をするため、VENUSに与えられる入力と同じ気象データを収集した。収集したデータは、毎時ごとの、ＰＭ２．５の濃度、風速、風向、温度、照度、湿度、降雨であった。

また、公開されているVENUSの予測結果は連続値でないため、２値分類問題として本発明の提案手法との比較評価を行った。また、上述の５２都市に対し、ウェブサイトで公開されているVENUSの予測結果を取得し、1 日平均値の環境基準である３５μｇ/ｍ^３を基準として２値化した。３５μｇ/ｍ^３という基準は、環境基本法第１６条第１項において、人の健康の適切な保護を図るために維持されることが望ましい水準として定められている。ＤＰＴ−ＤＲＮＮについては、出力を上記の基準で２値化した。また、学習データに含まれていないテストデータとして、２０１３年１２月から２０１４年２月のデータを用いた。１２時間後のＰＭ２．５の予測値について、VENUSとＤＰＴ−ＤＲＮＮの予測精度を比較した。ここで、評価尺度として、適合率（Ｐ）、再現率（Ｒ）、およびＦ値（Ｆ＝２ＰＲ／（Ｐ＋Ｒ））を用いた。図１４に評価結果を示す。図１４の値は５２都市の平均を示したものである。図１４より、適合率はＤＰＴ−ＤＲＮＮが優れ，再現率はVENUSが優れることがわかる。ただし，適合率と再現率の調和平均であるＦ値について、ＤＰＴ−ＤＲＮＮが優れている、という結果を得た。

以上の結果は，これまで難しかった都市におけるＰＭ２．５の予測について，提案手法により良好な結果が得られることを示している。都市のＰＭ２．５は社会活動を含む複雑な関係に影響され得るが、提案手法を用いて都市ごとに周辺の都市の状況を取り込んだモデルを別々に学習させることで、既存システムを超える予測精度が達成可能であることを示唆している。
（実験４）

実験４において、データの欠損を前提とした、本手法と他の手法との比較実験を行った。

本実験において、図１５に示すような国立環境研究所が公開しているオープンデータを用いた。本データは、環境モニタリングデータであり、２１％のデータが欠損している（ｍｉｓｓｉｎｇｖａｌｕｅ）。データは、対象都市のＰＭ２．５、近隣都市のＰＭ２．５、風速、風向き、日射量、湿度、降雨量を有する。なお、図１５の矢印は、データの欠損を示す。

また、学習装置１の手法を用いた場合のコストの算出には、上述した数式７を用いた。また、本実験において、（１）Ridge、（２）Lasso、（３）Elastic Net（ＥＮ）、と（４）本手法とを比較した。（１）から（３）は公知の方法である。（１）はデータの欠損が無いベースライン手法である。（２）については、「Tibshirani R (1994) Regression shrinkage and selection via the lasso. J R Stat Soc Ser B 58:267-288」を参照のこと。また、（３）については、「Zou H, Hastie T (2005) Regularization and variable selection via the elastic net. J R Stat Soc Ser B 67:301-320」を参照のこと。

かかる実験結果を図１６に示す。図１６において、「Ｐａｒａｍｅｔｅｒｓ」は、数式７等に与えたλ、τの値である。「Ｓｐａｒｓｉｔｙ」は、スパース度である。「χ／Ｍ」は欠損しているセンサの割合（センサのスパース度とも言う）を示す。本手法（４）において、２１％のデータ（センサ）が欠損しているにも関わらず、すべてのデータが揃っている（１）と「ＲＭＳＥ」は同等であり、本手法の有効性を示している。
（実験５）

ＰＭ２．５の濃度は、頻繁に変化しないであろう、と予測できる。かかる仮説を検証するために、実験５において、本手法によるＰＭ２．５の濃度予測と、自己回帰モデル（ＡＲモデル）によるＰＭ２．５の濃度予測とを比較評価した。なお、ＡＲモデルについて、「Whitle P (1951) Hypothesis testing in time series analysis. Statistics. Almqvist and Wiksells」を参照のこと。

ＡＲモデルは、多くの場合、時系列を記述するために採用されているランダムプロセスのタイプの表現である。ＡＲモデルは、広く予測モデルと比較するために使用される。ＡＲモデルの出力変数は、何ステップ前に遡るかに依存しており、モデルのオーダーと言われている。なお、ＡＲモデルのオーダーＰをＡＲ（Ｐ）と記載することとする。

また、ＤＲＮＮのデータと同じデータを使用する場合の最も良いＡＲモデルのオーダーを決定するために、１から１０の範囲で実験を行ったところ、最も良いＡＲモデルのオーダーは６（ＡＲ（６））であった。

そして、ＡＲ（６）におけるＲＭＳＥは２０．８であり、約３倍も、ＤＲＮＮと比較して悪い結果であった。従って、ＰＭ２．５の予測に、ＡＲモデルは使用できないことが分かった。つまり、ＡＲモデルのような単純なモデルには限界があることが分かる。
（実験６）

次に、標準的な時系列のベンチマークを実施した。ＣＡＴＳベンチマークといわれるベンチマークを実施した。ＣＡＴＳベンチマークは、「Lendasse A, Oja E, Simula O, Verleysen M (2007) Time series prediction competition: the CATS benchmark. Neurocomputing70(13-15):2325-2329」を参照のこと。
本実験の目標は、５０００の観測データのうち、１００の欠損値が存在する場合の予測である。

本実験において、欠損値は、２０の連続した値を有する５組にグループ分けされている。ＣＡＴＳベンチマークにおいて、アルゴリズムの性能を比較するために、平均二乗誤差に基づいた２つのエラー基準が提案されている。２つのエラー基準のうち、第一の基準（Ｅ_１）は、各アルゴリズムのランキングのために使用されており、第二の基準（Ｅ_２）はモデルプロパティの追加情報のための基準である。そこで、本実験では、第一の基準（Ｅ_１）のみを用いた。

本実験において、本手法のＤＲＮＮと、Kuremotoらによって提案されたＲＢＭに基づく手法（以下、ＲＢＭと略記する。）と、ＡＲＩＭＡと、ＭＬＰとを比較した。ＲＢＭは、２つのRestrictedボルツマンマシンからなるＤｅｅｐＢｅｌｉｅｆネットワークベースのモデルを用いている。ＲＢＭの詳細については、「Kuremoto T, Kimura S, Kobayashi K, Obayashi M (2014) Time series forecasting using a deep belief network with restricted Boltzmann machines. Neurocomputing 137:47-56」を参照のこと。また、上記のＲＢＭの文献において、ＲＢＭは、ＭＬＰや線形モデルＡＲＩＭＡ等の従来のニューラルネットワークモデルよりも優れていることが報告されている。なお、ＡＲＩＭＡについて、「Box GEP, Jenkins GM (1976) Time series analysis: forecasting and control. Cambridge University Press, Cambridge」を参照のこと。

そして、本実験では、図１７に示すように、本手法のモデルＤｙｎＰＴにおけるＥ_１スコアは１１９８であり、他のモデルよりも優れていた。
（実験７）

上述したように、ＲＭＳＥは、パラメータλ、τに大きく依存する。そして、本実験において、ＲＭＳＥとセンサのスパース度とを評価するために、λ＝｛０．０１，０．００１，...，０．０００００１｝、τ＝｛０．０１，...，１｝とした。かかる場合の実験結果を図１８に示す。図１８（ａ）は、λおよびτを変動させた場合のＲＭＳＥの変化（単位「100μg/m³」）を示す。図１８（ｂ）は、λおよびτを変動させた場合の「χ／Ｍ」の変化を示す。図１８（ｂ）において、λの値が高いほど、欠損するセンサの数が増加することを示す。図１８（ａ）は、１つまたは２つのセンサが欠損した場合でも、パラメータによっては、ＲＭＳＥは大変悪くなる可能性があることを示している。また、λが小さい場合、ＲＭＳＥは最も小さい値になり、ほぼゼロになる傾向があることが分かる。最小のＲＭＳＥ値は、λ＝１ｅ−４、τ＝０．９で検出された。

また、本実験において、本ネットワークにとって、好適なハイパーパラメータを検出した。図１９に示すように、本実験において、エポック数（Ｈ）を５０から４００に変動させて、ＲＭＳＥ（単位「μg/m³」）を算出した。図１９によれば、エポック数が大きくなれば、ＲＭＳＥは急速に減少し、２００以降はあまり変化がないことが分かる。

以上、本実施の形態によれば、より少ない数の特徴量の時系列の測定データからでも、精度の高い環境予測値が得られた。

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における予測装置２を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムについて、コンピュータがアクセス可能な記憶媒体は、学習装置１が蓄積した学習データが格納される学習データ格納部を具備し、コンピュータを、結果値に対する関連度が、予め決められた条件を満たすほど小さい１個以上の特徴量を特徴量群から除いた２個以上の特徴量である入力特徴量群を前記学習データに適用し、将来の結果値を取得する予測部と、前記予測部が取得した結果値を出力する出力部として機能させるためのプログラムである。

また、図２０は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の学習装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図２０は、このコンピュータシステム３００の概観図であり、図２１は、システム３００のブロック図である。

図２０において、コンピュータシステム３００は、ＣＤ−ＲＯＭドライブ３０１２を含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

図２１において、コンピュータ３０１は、ＣＤ−ＲＯＭドライブ３０１２、ＭＰＵ３０１３、ＣＤ−ＲＯＭドライブ３０１２とＭＰＵ３０１３とに接続されたバス３０１４、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１５、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３０１６、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７を含む。ここでは、図示しないが、コンピュータ３０１は、さらに、インターネット(ネットワーク)への接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の学習装置１等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１に記憶されて、ＣＤ−ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１または図示しないネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の学習装置１等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる学習装置は、より少ない数の特徴量の時系列の測定データからでも、精度の高い予測値が得られるという効果を有し、学習装置等として有用である。

１学習装置
２予測装置
１１ベクトルデータ格納部
１２学習データ格納部
１３プレトレーニング部
１４ファインチューニング部
１５蓄積部
２１予測部
２２出力部

Claims

２個以上の特徴量である特徴量群と結果を示す結果値とを有するベクトルデータであり、時系列の２つ以上のベクトルデータが格納されるベクトルデータ格納部と、
前記２つ以上のベクトルデータの部分集合であり、１個または２個以上の時系列の特徴量群である２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度を与え、当該重要度を与えられた２個以上の部分時系列であるサンプルを作成し、当該サンプルを用いて、複数回繰り返して、オートエンコーダの学習を行うプレトレーニング部と、
前記プレトレーニング部における学習結果から得られるＤＲＮＮに対してファインチューニングを行い、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を決定し、前記ファインチューニング後のＤＲＮＮに対して、前記決定した１個以上の特徴量の影響を無くす特徴量削除処理を行うファインチューニング部と、
前記ファインチューニング部が行った処理の結果のＤＲＮＮである学習データを蓄積する蓄積部とを具備し、
前記ファインチューニング部は、
前記特徴量群に含まれる２個以上の各特徴量ごとに、学習データを用いて予測した結果値である予測結果値と実測した結果値である実測結果値との誤差に関する誤差情報を算出する誤差情報算出処理と、
前記特徴量群に含まれる２個以上の各特徴量ごとに、特徴量の結果値に対する影響の度合いを示す影響度を算出する影響度算出処理と、
前記特徴量群に含まれる２個以上の各特徴量に対して、１種類以上の重みベクトルごとに、誤差情報と影響度とをパラメータとする増加関数によりコストを算出するコスト算出処理とを行い、
前記コストが予め決められた条件を満たすほど大きい特徴量を使用しない特徴量であると決定し、前記ファインチューニング後のＤＲＮＮに対して、前記決定した１個以上の特徴量の影響を無くす特徴量削除処理を行い、
前記誤差情報算出処理は、
格納されている１個以上の予測結果値を読み出すまたは１個以上の予測結果値を算出することにより１個以上の予測結果値を取得し、かつ格納されている１個以上の実測結果値を読み出し、前記特徴量群に含まれる２個以上の各特徴量に対して１種類以上の重みベクトルごとに、予測結果値と実測結果値との誤差に関する誤差情報を算出する処理であり、
前記影響度算出処理は、
前記各特徴量から結果値への１個以上の重みをパラメータとする増加関数により、各特徴量の影響度を算出する処理である学習装置。
請求項１記載の学習装置が蓄積した学習データが格納される学習データ格納部と、
結果値に対する関連度が、予め決められた条件を満たすほど小さい１個以上の特徴量を特徴量群から除いた２個以上の特徴量である入力特徴量群を前記学習データに適用し、将来の結果値を取得する予測部と、
前記予測部が取得した結果値を出力する出力部とを具備する予測装置。
記憶媒体は、
２個以上の特徴量である特徴量群と結果を示す結果値とを有するベクトルデータであり、時系列の２つ以上のベクトルデータが格納されるベクトルデータ格納部を具備し、
プレトレーニング部、ファインチューニング部、および蓄積部により実現される学習方法であって、
前記プレトレーニング部が、前記２つ以上のベクトルデータの部分集合であり、１個または２個以上の時系列の特徴量群である２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度を与え、当該重要度を与えられた２個以上の部分時系列であるサンプルを作成し、当該サンプルを用いて、複数回繰り返して、オートエンコーダの学習を行うプレトレーニングステップと、
前記ファインチューニング部が、前記プレトレーニングステップにおける学習結果から得られるＤＲＮＮに対してファインチューニングを行い、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を決定し、前記ファインチューニング後のＤＲＮＮに対して、前記決定した１個以上の特徴量の影響を無くす特徴量削除処理を行うファインチューニングステップと、
前記蓄積部が、前記ファインチューニングステップで行われた処理の結果のＤＲＮＮである学習データを蓄積する蓄積ステップとを具備し、
前記ファインチューニングステップにおいて、
前記特徴量群に含まれる２個以上の各特徴量ごとに、学習データを用いて予測した結果値である予測結果値と実測した結果値である実測結果値との誤差に関する誤差情報を算出する誤差情報算出処理と、
前記特徴量群に含まれる２個以上の各特徴量ごとに、特徴量の結果値に対する影響の度合いを示す影響度を算出する影響度算出処理と、
前記特徴量群に含まれる２個以上の各特徴量に対して、１種類以上の重みベクトルごとに、誤差情報と影響度とをパラメータとする増加関数によりコストを算出するコスト算出処理とを行い、
前記コストが予め決められた条件を満たすほど大きい特徴量を使用しない特徴量であると決定し、前記ファインチューニング後のＤＲＮＮに対して、前記決定した１個以上の特徴量の影響を無くす特徴量削除処理を行い、
前記誤差情報算出処理は、
格納されている１個以上の予測結果値を読み出すまたは１個以上の予測結果値を算出することにより１個以上の予測結果値を取得し、かつ格納されている１個以上の実測結果値を読み出し、前記特徴量群に含まれる２個以上の各特徴量に対して１種類以上の重みベクトルごとに、予測結果値と実測結果値との誤差に関する誤差情報を算出する処理であり、
前記影響度算出処理は、
前記各特徴量から結果値への１個以上の重みをパラメータとする増加関数により、各特徴量の影響度を算出する処理である学習方法。
記憶媒体は、
請求項１記載の学習装置が蓄積した学習データが格納される学習データ格納部を具備し、
予測部、および出力部により実現される予測方法であって、
前記予測部が、結果値に対する関連度が、予め決められた条件を満たすほど小さい１個以上の特徴量を特徴量群から除いた２個以上の特徴量である入力特徴量群を前記学習データに適用し、将来の結果値を取得する予測ステップと、
前記出力部が、前記予測ステップで取得された結果値を出力する出力ステップとを具備する予測方法。
２個以上の特徴量である特徴量群と結果を示す結果値とを有するベクトルデータであり、時系列の２つ以上のベクトルデータが格納されるベクトルデータ格納部にアクセス可能なコンピュータを、
前記２つ以上のベクトルデータの部分集合であり、１個または２個以上の時系列の特徴量群である２個以上の各部分時系列に対して、学習の回数に応じて、変化する重要度を与え、当該重要度を与えられた２個以上の部分時系列であるサンプルを作成し、当該サンプルを用いて、複数回繰り返して、オートエンコーダの学習を行うプレトレーニング部と、
前記プレトレーニング部における学習結果から得られるＤＲＮＮに対してファインチューニングを行い、結果値に対する関連度が予め決められた条件を満たすほど小さい１個以上の特徴量を決定し、前記ファインチューニング後のＤＲＮＮに対して、前記決定した１個以上の特徴量の影響を無くす特徴量削除処理を行うファインチューニング部と、
前記ファインチューニング部が行った処理の結果のＤＲＮＮである学習データを蓄積する蓄積部として機能させるためのプログラムであり、
前記ファインチューニング部は、
前記特徴量群に含まれる２個以上の各特徴量ごとに、学習データを用いて予測した結果値である予測結果値と実測した結果値である実測結果値との誤差に関する誤差情報を算出する誤差情報算出処理と、
前記特徴量群に含まれる２個以上の各特徴量ごとに、特徴量の結果値に対する影響の度合いを示す影響度を算出する影響度算出処理と、
前記特徴量群に含まれる２個以上の各特徴量に対して、１種類以上の重みベクトルごとに、誤差情報と影響度とをパラメータとする増加関数によりコストを算出するコスト算出処理とを行い、
前記コストが予め決められた条件を満たすほど大きい特徴量を使用しない特徴量であると決定し、前記ファインチューニング後のＤＲＮＮに対して、前記決定した１個以上の特徴量の影響を無くす特徴量削除処理を行い、
前記誤差情報算出処理は、
格納されている１個以上の予測結果値を読み出すまたは１個以上の予測結果値を算出することにより１個以上の予測結果値を取得し、かつ格納されている１個以上の実測結果値を読み出し、前記特徴量群に含まれる２個以上の各特徴量に対して１種類以上の重みベクトルごとに、予測結果値と実測結果値との誤差に関する誤差情報を算出する処理であり、
前記影響度算出処理は、
前記各特徴量から結果値への１個以上の重みをパラメータとする増加関数により、各特徴量の影響度を算出する処理であるものとして、前記コンピュータを機能させるためのプログラム。
請求項１記載の学習装置が蓄積した学習データが格納される学習データ格納部にアクセス可能コンピュータを、
結果値に対する関連度が、予め決められた条件を満たすほど小さい１個以上の特徴量を特徴量群から除いた２個以上の特徴量である入力特徴量群を前記学習データに適用し、将来の結果値を取得する予測部と、
前記予測部が取得した結果値を出力する出力部として機能させるためのプログラム。