JP4887661B2 - Learning device, learning method, and computer program - Google Patents

Learning device, learning method, and computer program Download PDF

Info

Publication number
JP4887661B2
JP4887661B2 JP2005141957A JP2005141957A JP4887661B2 JP 4887661 B2 JP4887661 B2 JP 4887661B2 JP 2005141957 A JP2005141957 A JP 2005141957A JP 2005141957 A JP2005141957 A JP 2005141957A JP 4887661 B2 JP4887661 B2 JP 4887661B2
Authority
JP
Japan
Prior art keywords
learning
time
function
time series
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005141957A
Other languages
Japanese (ja)
Other versions
JP2006318319A (en
Inventor
健一 日台
雅博 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005141957A priority Critical patent/JP4887661B2/en
Publication of JP2006318319A publication Critical patent/JP2006318319A/en
Application granted granted Critical
Publication of JP4887661B2 publication Critical patent/JP4887661B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、過去から現在に至る状態値からなる時系列データを引数として次の時刻における状態値を出力するための関数を近似する処理を行なう学習装置及び学習方法、並びにコンピュータ・プログラムに係り、特に、与えられた学習サンプルからは直接知ることのできない情報を自動的に生成する学習装置及び学習方法、並びにコンピュータ・プログラムに関する。   The present invention relates to a learning apparatus and a learning method for performing a process for approximating a function for outputting a state value at the next time using time series data including state values from the past to the present as an argument, and a computer program. In particular, the present invention relates to a learning apparatus and a learning method that automatically generate information that cannot be directly known from a given learning sample, and a computer program.

さらに詳しくは、本発明は、マルコフ過程に従わない時系列データを予測学習し次の時刻における状態値を出力するための関数を近似する処理を行なう学習装置及び学習方法、並びにコンピュータ・プログラムに係り、特に、リカレント・ニューラル・ネットワーク以外の手法により非マルコフ過程の時系列データの予測関数を学習する学習装置及び学習方法、並びにコンピュータ・プログラムに関する。   More particularly, the present invention relates to a learning apparatus and a learning method for performing a process for approximating a function for predictive learning of time series data not following a Markov process and outputting a state value at the next time, and a computer program. In particular, the present invention relates to a learning apparatus and learning method for learning a prediction function of time-series data of a non-Markov process by a method other than a recurrent neural network, and a computer program.

例えば、人間は同じような出来事を重ねて経験したり、同じような事実を繰り返し観測したりすると、また似たようなことが起こるのではないかと予測したり、何かこれを支配している既存が存在するのではないかと推測する。このように、過去の経験の上に立って新しい知識や技術を習得することを「学習」と言う。   For example, humans are expected to experience similar events over time, repeatedly observe similar facts, and predict that similar things will occur, and do something Guess that an existing one exists. In this way, learning based on past experiences and acquiring new knowledge and techniques is called “learning”.

情報技術(IT)が発展した昨今においては、このような学習のメカニズムをコンピュータ・システム上で実現する研究開発が広く行なわれている。例えば、現在時刻までの状態値を入力として学習を行ない、この学習結果を基に次の時刻における状態値を推測若しくは自動生成する。すなわち、学習器は、過去から現在に至る状態値からなる時系列データを引数として、次の時刻における状態値を出力する関数を近似する処理を行なっていることと等価である。   In recent years when information technology (IT) has been developed, research and development for realizing such learning mechanism on a computer system is widely performed. For example, learning is performed using the state value up to the current time as input, and the state value at the next time is estimated or automatically generated based on the learning result. That is, the learning device is equivalent to performing a process of approximating a function that outputs a state value at the next time using time series data including state values from the past to the present as an argument.

学習器の多くは、過去の履歴とは関係なく、現在の状態のみから未来の確率法則が決定される、というマルコフ過程のモデルを作成して学習を行なう。ところが、学習対象すなわち近似すべき関数がマルコフ過程に従わない(若しくは、2次以上のマルコフ過程である)場合がある。例えば、正弦波は、現在の状態値が同じ値であっても、将来は増加傾向をとる場合と逆に減少傾向をとる場合の2通りがあり、現在の状態のみから未来の状態を自動生成することはできない。   Many learners learn by creating a Markov process model in which the future probability law is determined only from the current state, regardless of the past history. However, there are cases where the learning target, that is, the function to be approximated, does not follow the Markov process (or is a Markov process of second or higher order). For example, even if the current state value is the same value, there are two types of sine waves: when the future tends to increase and when it tends to decrease, the future state is automatically generated only from the current state. I can't do it.

このような非マルコフ過程に関しては、予測学習を行なうより他ないと思料される。非マルコフ過程を予測学習する学習メカニズムの代表例として、リカレント・ニューラル・ネットワーク(Recurrent Neural Network:再帰的ニューラル・ネットワーク)を挙げることができる(例えば、非特許文献1を参照のこと)。   Such a non-Markov process is thought to be nothing but predictive learning. A typical example of a learning mechanism for predictive learning of a non-Markov process is a recurrent neural network (for example, see Non-Patent Document 1).

例えば、学習機構としてリカレント・ニューラル・ネットワークを備えたロボットは、ロボット自身の持つ制御可能な部分によって外界の移動可能な対象物を動かし、知覚センサによって対象物の置かれている環境と、対象物の動きを知覚して、ロボットの各関節部の動かし方と対象物の動きとの関連を学習し、さらに対象物の動きを予測して、ノベルティ・リワーディングにより対象物を動かすモーションを自己学習することができる(例えば、特許文献1を参照のこと)。   For example, a robot equipped with a recurrent neural network as a learning mechanism moves a movable object in the outside world by a controllable part of the robot itself, and an environment in which the object is placed by a perceptual sensor, and the object Learn the relationship between the movement of each joint part of the robot and the movement of the target object, predict the movement of the target object, and self-learn the motion of moving the target object through novelty-rewarding (For example, see Patent Document 1).

しかしながら、リカレント・ニューラル・ネットワークは誤差逆伝播法を用いていることから、学習に時間がかかるという問題がある。   However, since the recurrent neural network uses an error back propagation method, there is a problem that learning takes time.

また、誤差逆伝播法を用いたリカレント・ニューラル・ネットワークでは、コンテキスト・ユニット(文脈情報)の次元数が本来必要と思われる数以上に非常に多く要する。このため、凡化特性に影響が生じる可能性がある。   Further, in the recurrent neural network using the error back propagation method, the number of dimensions of the context unit (context information) is much larger than the number originally considered necessary. This can affect the generalization characteristics.

特開2002−59384号公報JP 2002-59384 A Elman,J.L.著“Finding structure in time”(Cognitive Science,vol.14,1990,pp.179−211)Elman, J.M. L. Author “Finding structure in time” (Cognitive Science, vol. 14, 1990, pp. 179-211)

本発明の目的は、与えられた学習サンプルからは直接知ることのできない情報を自動的に生成することができる、優れた学習装置及び学習方法、並びにコンピュータ・プログラムを提供することにある。   An object of the present invention is to provide an excellent learning device, learning method, and computer program capable of automatically generating information that cannot be directly known from a given learning sample.

本発明のさらなる目的は、マルコフ過程に従わない時系列データを予測学習し、次の時刻における状態値を出力する関数を近似する処理を行なうことができる、優れた学習装置及び学習方法、並びにコンピュータ・プログラムを提供することにある。   A further object of the present invention is to provide an excellent learning apparatus, learning method, and computer capable of predicting and learning time-series data not following a Markov process and approximating a function that outputs a state value at the next time.・ To provide a program.

本発明のさらなる目的は、リカレント・ニューラル・ネットワーク以外の手法により非マルコフ過程の時系列データの予測関数を学習することができる、優れた学習装置及び学習方法、並びにコンピュータ・プログラムを提供することにある。   A further object of the present invention is to provide an excellent learning apparatus and learning method, and a computer program capable of learning a prediction function of time-series data of a non-Markov process by a method other than a recurrent neural network. is there.

本発明は、上記課題を参酌してなされたものであり、その第1の側面は、ある時刻tに関する状態ztに基づいて次の時刻t+1に関する状態zt+1を予測するための時系列予測関数Fの近似を行なう学習装置であって、各時刻tの状態は当該時刻における学習対象の情報xt及び文脈情報ctからなり、
現在時刻Tに至る各時刻t(但し、t=1…T)の前記学習対象の時系列情報{xt}及び文脈情報の時系列{ct}を過去の状態{zt}として入力するデータ入力手段と、
該入力された過去の状態{zt}を用い、所定の学習アルゴリズムに従って時系列予測関数Fを学習する関数学習手段と、
該学習して得られた時系列予測関数Fと状態の初期値z1を用いて、現在時刻Tに至るまでの各時刻tの学習サンプル{xt}を予測する予測手段と、
前記データ入力手段で入力された各時刻tの学習サンプル{xt}と前記予測手段により生成された各時刻tの学習サンプルの予測値との誤差を算出する誤差計算手段と、
該誤差に基づいて前記関数学習手段による時系列予測関数Fの学習が終了したか否かを判定する判定手段と、
を具備することを特徴とする学習装置である。
The present invention has been made in consideration of the above problems, and a first aspect thereof is a time series for predicting a state z t + 1 related to a next time t + 1 based on a state z t related to a certain time t. A learning device for approximating the prediction function F, wherein the state at each time t consists of information x t and context information c t to be learned at the time,
The time series information {x t } of the learning object and the time series {c t } of the context information at each time t (where t = 1... T) up to the current time T are input as past states {z t }. Data input means;
Function learning means for learning the time series prediction function F according to a predetermined learning algorithm using the input past state {z t };
Prediction means for predicting the learning sample {x t } at each time t until the current time T using the time series prediction function F and the state initial value z 1 obtained by the learning;
An error calculating means for calculating an error between the learning sample {x t } at each time t input by the data input means and the predicted value of the learning sample at each time t generated by the prediction means;
Determination means for determining whether learning of the time series prediction function F by the function learning means is completed based on the error;
A learning apparatus comprising:

本発明は、非マルコフ過程の時系列予測関数Fを学習する学習装置に関する。非マルコフ過程の時系列情報の予測関数を学習するために、誤差逆伝播法に基づくリカレント・ニューラル・ネットワークを用いるのが一般的であるが、学習に時間がかかる、文脈情報の次元数が非常に多く凡化特性に影響が生じる可能性がある、といった問題が危惧される。そこで、本発明に係る学習装置では、時系列予測関数Fを学習する学習アルゴリズムとして、連続値関数近似手法を用いる。短時間で大域解へ収束することが保証される連続値関数近似手法の代表例として、Support Vector Regression(以下、SVRとする)を挙げることができる。   The present invention relates to a learning apparatus that learns a time series prediction function F of a non-Markov process. It is common to use a recurrent neural network based on the error back-propagation method to learn the prediction function of non-Markov time series information, but it takes a long time to learn and the number of dimensions of context information is very high. There is a concern that the generalization characteristics may be affected in large numbers. Therefore, in the learning apparatus according to the present invention, a continuous value function approximation method is used as a learning algorithm for learning the time series prediction function F. A representative example of a continuous function approximation method that is guaranteed to converge to a global solution in a short time is Support Vector Regression (hereinafter referred to as SVR).

本発明に係る学習装置は、現在時刻tに関する状態に基づいて次の時刻t+1に関する状態を予測若しくは自動生成するための時系列予測関数Fの近似を行なうものである。ここで、非マルコフ過程である時系列情報に関する時系列予測問題を解決するために、文脈情報を用いている。したがって、ある時刻における状態は、当該時刻における学習サンプルと、同時刻における文脈情報からなる。学習サンプルをn次元、文脈情報をm次元とすると、関数Fは、(n+m)次元入力(n+m)次元出力の時系列予測関数ということになる。   The learning device according to the present invention approximates a time series prediction function F for predicting or automatically generating a state related to the next time t + 1 based on a state related to the current time t. Here, context information is used to solve a time series prediction problem related to time series information which is a non-Markov process. Therefore, the state at a certain time includes a learning sample at the time and context information at the same time. If the learning sample is n-dimensional and the context information is m-dimensional, the function F is a time-series prediction function with an (n + m) -dimensional input (n + m) -dimensional output.

このような場合、学習アルゴリズムにより学習する対象は時系列予測関数Fであるが、文脈情報{ct}が未知であるから、関数Fの学習に併せて文脈情報{ct}の推定を行なわなければならない。そこで、本発明では、文脈情報{ct}の推定と関数Fの学習を交互に繰り返し行なうことで、理想的な解に漸近するようにしている。 In such a case, the object to be learned by the learning algorithm is the time series prediction function F, but since the context information {c t } is unknown, the context information {c t } is estimated together with the learning of the function F. There must be. Therefore, in the present invention, the estimation of the context information {c t } and the learning of the function F are alternately repeated so as to approach the ideal solution.

まず、現在時刻Tに至る各時刻t(但し、t=1…T)の前記学習対象の時系列情報{xt}及び文脈情報の時系列{ct}を過去の状態{zt}として入力し、該入力された過去の状態{zt}からSVRの学習アルゴリズムに従って時系列予測関数Fを学習する。 First, the time series information {x t } of the learning target and the time series {c t } of the context information at each time t (where t = 1... T) up to the current time T are set as past states {z t }. The time series prediction function F is learned from the input past state {z t } according to the SVR learning algorithm.

続いて、学習結果を評価するために、学習して得られた時系列予測関数Fと状態の初期値z1を用いて、現在時刻Tに至るまでの状態{zt}を予測してみる。そして、実際にデータ入力された各時刻tの学習サンプル{xt}と、学習した時系列予測関数Fを用いて予測される各時刻tの学習サンプルの予測値との誤差eを算出し、この誤差eが閾値以下に収まっているかどうかによって学習が終了したか否かを判定することができる。 Subsequently, in order to evaluate the learning result, the state {z t } up to the current time T is predicted using the time series prediction function F obtained by learning and the initial value z 1 of the state. . Then, an error e between the learning sample {x t } at each time t when data is actually input and the predicted value of the learning sample at each time t predicted using the learned time series prediction function F is calculated, Whether or not learning is completed can be determined based on whether or not the error e falls below a threshold value.

ここで、学習が終了されていないと判定されたときには、各時刻tの文脈情報{ct}を修正してから、時系列予測関数Fの再学習を行なう。算出された誤差eに基づいて各時刻tの文脈情報{ct}を修正することができる。具体的には、算出された誤差eを文脈情報{ct}で偏微分した結果得られる勾配ベクトルの方向に文脈情報{ct}を変化させて修正することができる。 Here, when it is determined that the learning is not finished, the time series prediction function F is relearned after correcting the context information {c t } at each time t. The context information {c t } at each time t can be corrected based on the calculated error e. Specifically, the calculated error e can be corrected by changing the context information {c t } in the direction of the gradient vector obtained as a result of partial differentiation of the calculated error e with the context information {c t }.

また、本発明の第2の側面は、ある時刻tに関する状態ztに基づいて次の時刻t+1に関する状態zt+1を予測するための時系列予測関数Fの近似を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、各時刻tの状態は当該時刻における学習対象の情報xt及び文脈情報ctからなり、前記コンピュータ・システムに対し、
現在時刻Tに至る各時刻t(但し、t=1…T)の前記学習対象の時系列情報{xt}及び文脈情報の時系列{ct}を過去の状態{zt}として入力するデータ入力手順と、
該入力された過去の状態を用い、連続値関数近似手法に基づく学習アルゴリズムに従って時系列予測関数Fを学習する関数学習手順と、
該学習して得られた時系列予測関数Fと状態の初期値z1を用いて、現在時刻Tに至るまでの各時刻tの学習サンプル{xt}を予測する予測手順と、
前記データ入力手順で入力された各時刻tの学習サンプル{xt}と前記予測手順において生成された各時刻tの学習サンプルの予測値との誤差を算出する誤差計算手順と、
該誤差に基づいて前記関数学習手順における時系列予測関数Fの学習が終了したか否かを判定する判定手順と、
前記誤差計算手順において算出された誤差に基づいて各時刻tの文脈情報{ct}を修正する文脈修正手順と、
前記判定手順において学習が終了されていないと判定されたときには、前記文脈修正手順において修正された文脈情報を含む各時刻tの状態{zt}を用いて前記関数学習手順における時系列予測関数Fの学習を再度行なわせる繰り返し学習手順と、
を実行させることを特徴とするコンピュータ・プログラムである。
The second aspect of the present invention, a computer processing for when performing approximation of series prediction function F for prediction based on the state z t for a certain time t the state z t + 1 for the next time t + 1 A computer program written in a computer-readable format to be executed on the system, wherein the state at each time t is composed of information xt and context information ct to be learned at the time, and is stored in the computer system. In contrast,
The time series information {x t } of the learning object and the time series {c t } of the context information at each time t (where t = 1... T) up to the current time T are input as past states {z t }. Data entry procedure;
A function learning procedure for learning the time series prediction function F according to a learning algorithm based on a continuous value function approximation method using the input past state;
A prediction procedure for predicting a learning sample {x t } at each time t up to the current time T using the time series prediction function F and the state initial value z 1 obtained by the learning;
An error calculation procedure for calculating an error between the learning sample {x t } at each time t input in the data input procedure and the predicted value of the learning sample at each time t generated in the prediction procedure;
A determination procedure for determining whether learning of the time-series prediction function F in the function learning procedure is completed based on the error;
A context correction procedure for correcting the context information {c t } at each time t based on the error calculated in the error calculation procedure;
When it is determined in the determination procedure that learning has not been completed, the time series prediction function F in the function learning procedure using the state {z t } at each time t including the context information corrected in the context correction procedure. An iterative learning procedure to re-learn
Is a computer program characterized in that

本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る学習装置と同様の作用効果を得ることができる。   The computer program according to the second aspect of the present invention defines a computer program described in a computer-readable format so as to realize predetermined processing on a computer system. In other words, by installing the computer program according to the second aspect of the present invention in the computer system, a cooperative action is exhibited on the computer system, and the learning device according to the first aspect of the present invention. The same effect can be obtained.

本発明によれば、与えられた学習サンプルからは直接知ることのできない情報を自動的に生成することができる、優れた学習装置及び学習方法、並びにコンピュータ・プログラムを提供することができる。   According to the present invention, it is possible to provide an excellent learning device, learning method, and computer program capable of automatically generating information that cannot be directly known from a given learning sample.

また、本発明によれば、リカレント・ニューラル・ネットワーク以外の手法により非マルコフ過程の時系列データの予測関数を学習することができる、優れた学習装置及び学習方法、並びにコンピュータ・プログラムを提供することができる。   In addition, according to the present invention, it is possible to provide an excellent learning device, learning method, and computer program capable of learning a prediction function of time-series data of non-Markov processes by a method other than a recurrent neural network. Can do.

また、本発明によれば、文脈情報を用いて非マルコフ過程の時系列予測問題を解決することができる、優れた学習装置及び学習方法、並びにコンピュータ・プログラムを提供することができる。   Further, according to the present invention, it is possible to provide an excellent learning device, learning method, and computer program that can solve the time-series prediction problem of a non-Markov process using context information.

また、本発明によれば、短時間で大域解への収束が保証されている連続値関数近似手法を用いて非マルコフ過程の時系列データの予測関数を学習することができる、優れた学習装置及び学習方法、並びにコンピュータ・プログラムを提供することができる。   In addition, according to the present invention, an excellent learning device that can learn a prediction function of time-series data of a non-Markov process using a continuous value function approximation method that guarantees convergence to a global solution in a short time. And a learning method and a computer program can be provided.

本発明に係る学習方法によれば、誤差逆伝播法を用いたリカレント・ニューラル・ネットワークよりも高速に学習を完了させることができ、且つ、より少ない文脈情報の次元数mで学習を収束させることができる。   According to the learning method of the present invention, learning can be completed faster than the recurrent neural network using the error back-propagation method, and the learning can be converged with less dimension number m of context information. Can do.

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。   Other objects, features, and advantages of the present invention will become apparent from more detailed description based on embodiments of the present invention described later and the accompanying drawings.

以下、図面を参照しながら本発明の実施形態について詳解する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

本発明では、非マルコフ過程の時系列情報の予測関数を学習するために、誤差逆伝播法を用いたリカレント・ニューラル・ネットワークに代えて、連続値関数近似手法を用いる。短時間で大域解への収束が保証される連続値関数近似手法の代表例としてSVRを挙げることができる。   In the present invention, in order to learn the prediction function of the time series information of the non-Markov process, a continuous value function approximation method is used instead of the recurrent neural network using the error back propagation method. SVR can be given as a representative example of a continuous value function approximation method that guarantees convergence to a global solution in a short time.

SVRは、n次元入力1次元出力の実数値関数f:Rn→Rを、下式(1)に示す形で推定する。 The SVR estimates an n-dimensional input one-dimensional output real value function f: R n → R in the form shown in the following equation (1).

Figure 0004887661
Figure 0004887661

ここで、z∈Rnは入力ベクトル、si∈Rnはサポート・ベクタ、K(.)はカーネル関数、bはバイアス項と呼ばれるスカラ値である。 Here, z∈R n input vectors, s i ∈R n is support vector, K (.) Is a kernel function, b is a scalar value called bias term.

SVRの学習アルゴリズムによれば、T個(すなわち、時刻t=1…T)の学習サンプル{(zk,yk)|k=1…T}とカーネル関数K(.)が与えられると、それらをうまく説明することができるsj、θj、及びbを一意に求めることができる。 According to the learning algorithm of SVR, when T learning samples {(z k , y k ) | k = 1... T} and a kernel function K (.) Are given, It is possible to uniquely determine s j , θ j , and b that can explain them well.

ここで、多次元の時系列情報の予測問題を考える。学習サンプルとして時系列{xt∈Rn|t=1…T}が与えられたとき、下式(2)のように、学習サンプルxをn次元のベクトルとおくことで、n次元入力n次元出力の時系列予測関数F:Rn→RをSVRにより構成することができる。 Here, a prediction problem of multidimensional time series information is considered. When a time series {x t εR n | t = 1... T} is given as a learning sample, an n-dimensional input n is obtained by setting the learning sample x as an n-dimensional vector as shown in the following equation (2). The dimension output time series prediction function F: R n → R can be configured by SVR.

Figure 0004887661
Figure 0004887661

しかしながら、関数Fはマルコフ過程の時系列情報を予測することはできるが、非マルコフ過程(若しくは2次以上のマルコフ過程)の時系列情報を予測することはできない、という問題がある。   However, although the function F can predict time series information of a Markov process, there is a problem that time series information of a non-Markov process (or a second or higher order Markov process) cannot be predicted.

非マルコフ過程の時系列予測問題を解決するためによく採られる方法は2つある。1つは時間遅れ入力を用いる方法であり、もう1つは文脈情報を用いる方法である。本実施形態では、後者の文脈情報を用いている。以下、文脈情報を導入するための仕組みについて詳解する。   There are two common methods for solving the time series prediction problem of non-Markov processes. One is a method using time delay input, and the other is a method using context information. In the present embodiment, the latter context information is used. In the following, the mechanism for introducing context information is explained in detail.

上式(2)で定義される時系列予測関数Fは、現在時刻tにおけるn次元の学習サンプルxtを入力とし、これに基づいて予測される次の時刻t+1におけるn次元の学習サンプルxt+1を出力に持つ。ここでは文脈情報を導入するために、n次元の学習サンプル{xt}とm次元の文脈情報{ct}からなる(n+m)次元の状態{zt}を定義して、学習サンプルを拡張する。そして、関数Fは、現在時刻tに関する状態ztに基づいて次の時刻t+1に関する状態zt+1を予測することとする。したがって、SVRの学習アルゴリズムにより学習すべき関数Fは下式(3)のように表される。 Series prediction function F when it is defined by the above formula (2) as input learning samples x t n-dimensional at the current time t, the next time t + n-dimensional in one learning sample x t that is predicted based on this Has +1 as output. Here to introduce contextual information, define a made of n-dimensional training samples {x t} and m-dimensional context information {c t} (n + m ) dimensional states {z t}, expanded learning sample To do. Then, the function F shall be possible to predict the state z t + 1 for the next time t + 1 based on the state z t for the current time t. Therefore, the function F to be learned by the SVR learning algorithm is expressed as the following equation (3).

Figure 0004887661
Figure 0004887661

このような場合、学習アルゴリズムにより学習する対象は時系列予測関数Fであるが、文脈情報{ct}が未知であるから、関数Fの学習に併せて文脈情報{ct}の推定を行なわなければならない。そこで、本実施形態では、文脈情報{ct}の推定と関数Fの学習を交互に繰り返し行なうことで、理想的な解に漸近するようにしている。この場合の関数学習並びに文脈情報修正のアルゴリズムは以下の通りとなる。 In such a case, the object to be learned by the learning algorithm is the time series prediction function F, but since the context information {c t } is unknown, the context information {c t } is estimated together with the learning of the function F. There must be. Therefore, in the present embodiment, the estimation of the context information {c t } and the learning of the function F are alternately repeated so as to approach the ideal solution. The algorithm for function learning and context information correction in this case is as follows.

(1)学習対象の時系列情報と文脈情報の時系列を入力する。
ここで、学習対象の時系列情報{xt}はn次元であり、1つ前の学習サンプルのみからは予測できない非マルコフ過程である。また、文脈情報{ct}は未知であることから、初期値としてランダムに生成された値を用いる。後述するように、学習が終了するまで文脈情報の修正を繰り返し行なうが、ここではi番目に生成された文脈情報を{c(i) t}と表記する。文脈情報{ct}はm次元とする(但し、mは任意)。
(1) Input time series information to be learned and time series of context information.
Here, the time-series information {x t } to be learned is n-dimensional and is a non-Markov process that cannot be predicted from only the previous learning sample. Further, since the context information {c t } is unknown, a randomly generated value is used as the initial value. As will be described later, the context information is repeatedly corrected until the learning is completed. Here, the i-th generated context information is represented as {c (i) t }. The context information {c t } has m dimensions (where m is arbitrary).

Figure 0004887661
Figure 0004887661

(2)SVRに基づくアルゴリズムに従って、学習対象の時系列情報{xt}と文脈情報の時系列{c(i) t}からなる(n+m)次元の状態{z(i) t}を予測する時系列予測関数Fを学習する。 (2) Predict a (n + m) -dimensional state {z (i) t } composed of time series information {x t } to be learned and time series {c (i) t } of context information according to an algorithm based on SVR. A time series prediction function F is learned.

Figure 0004887661
Figure 0004887661

(3)学習した関数F:Rn+m→Rn+mと状態の初期値z(i) 1を用いて過去の状態{zt}を予測してみる。 (3) Predict the past state {z t } using the learned function F: R n + m → R n + m and the initial value z (i) 1 of the state.

Figure 0004887661
Figure 0004887661

(4)予測した学習対象の時系列情報と、実際に与えられた学習対象の時系列情報との誤差を算出する。例えば2乗誤差eを求め、eが閾値以下であれば、学習が終了したと判定する。 (4) An error between the predicted time series information of the learning target and the time series information of the learning target actually given is calculated. For example, the square error e is obtained, and if e is equal to or less than the threshold value, it is determined that the learning is finished.

Figure 0004887661
Figure 0004887661

(5)予測した学習対象の時系列情報と、実際に与えられた学習対象の時系列情報との誤差eが閾値以内に収まらないときは、文脈情報を修正して関数Fの学習を再度行なう。文脈情報の修正は、算出された誤差eを用いて行なう。 (5) When the error e between the predicted time series information of the learning target and the actually given time series information does not fall within the threshold, the context information is corrected and the learning of the function F is performed again. . The context information is corrected using the calculated error e.

Figure 0004887661
Figure 0004887661

そして、予測した学習対象の時系列情報の誤差が閾値以下に収まるまでは、i←i+1として、文脈情報{ct}の修正と関数Fの学習を交互に繰り返し行なう。 Then, until the predicted error of the time-series information to be learned falls below the threshold value, the correction of the context information {c t } and the learning of the function F are alternately repeated as i ← i + 1.

上式(8)において、文脈情報{c(i) t}を推定するために、誤差eをi回目の推定値{c(i) t}で偏微分した結果得られる勾配ベクトルの方向に{c(i) t}を変化させている。これは、最急降下法のアプローチと同じである。i回目の繰り返しにおける勾配ベクトルは下式(9)のように表される。 In the above equation (8), in order to estimate the context information {c (i) t }, the error e in the direction of the gradient vector obtained as a result of partial differentiation with the i-th estimated value {c (i) t } c (i) t } is changed. This is the same as the steepest descent approach. The gradient vector in the i-th iteration is expressed as the following equation (9).

Figure 0004887661
Figure 0004887661

この勾配ベクトルの求め方について、以下に述べる。但し、以後はi回目を仮定して、添え字(i)を省略する(変数iは別の用途で再利用する)。   A method for obtaining the gradient vector will be described below. However, the subscript (i) is omitted assuming the i-th time thereafter (the variable i is reused for another purpose).

利用するカーネル関数K(.)をガウシアンRBF関数の場合を考える。定義は下式(10)の通りである。   Consider the case where the kernel function K (.) To be used is a Gaussian RBF function. The definition is as in the following formula (10).

Figure 0004887661
Figure 0004887661

まず、時刻t=T−1における文脈情報cT-1の勾配を考える。cT-1から誤差関数eTまでの順伝播は下式(11)の通りである。 First, consider the gradient of the context information c T-1 at time t = T−1. The forward propagation from c T-1 to the error function e T is expressed by the following equation (11).

Figure 0004887661
Figure 0004887661

上式において、Mkはk番目の関数fkにおけるサポート・ベクタの数である。さらに、利便性のため、下式(12)のようにおく。 In the above equation, M k is the number of support vectors in the k-th function f k . Further, for convenience, the following equation (12) is set.

Figure 0004887661
Figure 0004887661

以上より、誤差eTをcT-1の各成分{cT-1|i=1…m}で偏微分すると、次式(13)のようになる。 As described above, the error e T components of c T-1 | when partially differentiated by {c T-1 i = 1 ... m}, the following equation (13).

Figure 0004887661
Figure 0004887661

参考までに、各偏微分は次式(14)の通りである。   For reference, each partial differentiation is as shown in the following equation (14).

Figure 0004887661
Figure 0004887661

以上から、cT-1={cT-1,j|i=1…m}の変更量ΔcT-1,iは下式(15)のようになる。但し、αは任意の学習係数である。 From the above, the change amount Δc T−1, i of c T−1 = {c T−1, j | i = 1... M} is expressed by the following equation (15). Here, α is an arbitrary learning coefficient.

Figure 0004887661
Figure 0004887661

ここまで、最後の時刻における誤差eTに直接影響を与える文脈情報cT-1の変更について考察してきた。{ct|t=1…T−2}においても同様に誤差関数eをctで偏微分していけばよい。但し、時刻tにおける文脈情報ctは時刻t+1の誤差et+1へのみ影響を与えるのではなく、t+1からTにかけてのすべての未来へ影響を与える。このため、変更量Δct,iは下式(16)の通りとなる。 So far, the change of the context information c T-1 that directly affects the error e T at the last time has been considered. Similarly, in {c t | t = 1... T−2}, the error function e may be partially differentiated by c t . However, the context information c t at time t rather than give only impact to the error e t + 1 of time t + 1, it affects from t + 1 to all of the future of over the T. Therefore, the change amount Δct , i is as shown in the following equation (16).

Figure 0004887661
Figure 0004887661

また、文脈情報を変更するアルゴリズムの変更例として、以下が挙げられる。   Moreover, the following is mentioned as an example of a change of the algorithm which changes context information.

(1)アルゴリズム中のc(i+1) tを求める式を下式(17)とする。 (1) An expression for obtaining c (i + 1) t in the algorithm is represented by the following expression (17).

Figure 0004887661
Figure 0004887661

(2)文脈情報{ct}に時間方向の低域通過フィルタをかけると、学習サンプル{xt}と比べて時間スケールの大きな文脈情報を抽出することが可能である。 (2) By applying a low-pass filter in the time direction to the context information {c t }, it is possible to extract context information having a larger time scale than the learning sample {x t }.

(3)低域通過フィルタの通過周波数を変数毎に変化させて同居させることで、異なる時間スケールの現象を意図的に分離することができる。 (3) By changing the pass frequency of the low-pass filter for each variable and allowing them to coexist, phenomena of different time scales can be intentionally separated.

図1には、本発明の一実施形態に係る学習装置1の機能的構成を示している。同図に示す学習装置1は、入力部11と、初期化部12と、関数近似部13と、予測部14と、誤差計算部15と、判定部16と、文脈修正部17を備えている。学習装置1を専用のハードウェア装置としてデザインしてもよいが、各機能モジュールを実現するためのコンピュータ・プログラムを一般的なコンピュータ・システム上で起動するという形態で構成することも可能である。   FIG. 1 shows a functional configuration of a learning device 1 according to an embodiment of the present invention. The learning apparatus 1 shown in FIG. 1 includes an input unit 11, an initialization unit 12, a function approximation unit 13, a prediction unit 14, an error calculation unit 15, a determination unit 16, and a context correction unit 17. . Although the learning device 1 may be designed as a dedicated hardware device, it may be configured in such a manner that a computer program for realizing each functional module is started on a general computer system.

入力部11は、学習対象となるn次元の時系列情報{xt}を入力する。学習対象は、1つ前の学習サンプルのみからは予測できない非マルコフ過程の時系列情報である。また、初期化部12は、m次元の文脈情報{ct}の初期値をランダムに生成する。 The input unit 11 inputs n-dimensional time series information {x t } to be learned. The learning target is time-series information of a non-Markov process that cannot be predicted from only the previous learning sample. In addition, the initialization unit 12 randomly generates an initial value of the m-dimensional context information {c t }.

入力部11より入力されたn次元の学習データとm次元の文脈データは、(n+m)次元の状態{zt}として関数近似部13に入力される。関数近似部13は、SVRの学習アルゴリズムにより、ある時刻tの状態ztから次の時刻t+1における状態zt+1を予測するための時系列予測関数Fの学習すなわち関数近似を行なう。 The n-dimensional learning data and m-dimensional context data input from the input unit 11 are input to the function approximating unit 13 as an (n + m) -dimensional state {z t }. The function approximating unit 13 performs learning, that is, function approximation, of the time series prediction function F for predicting the state z t + 1 at the next time t + 1 from the state z t at a certain time t by the learning algorithm of SVR.

予測部14は、関数近似された予測関数Fと状態の初期値z(i) 1を用いて各時刻tの状態{zt}を予測してみる。 The prediction unit 14 tries to predict the state {z t } at each time t using the prediction function F approximated by the function and the initial value z (i) 1 of the state.

誤差計算部15は、予測部14で予測された学習データと、入力部11から実際に入力された学習データとの誤差eを算出する。   The error calculation unit 15 calculates an error e between the learning data predicted by the prediction unit 14 and the learning data actually input from the input unit 11.

判定部16は、誤差計算部15で算出された誤差eを閾値と比較し、誤差eが閾値以下であれば学習が終了したと判定する。そして、終了判定時の予測関数Fを学習装置1による学習結果として出力する。   The determination unit 16 compares the error e calculated by the error calculation unit 15 with a threshold value, and determines that learning has been completed if the error e is equal to or less than the threshold value. And the prediction function F at the time of completion | finish determination is output as a learning result by the learning apparatus 1. FIG.

予測した学習対象の時系列情報と、実際に与えられた学習対象の時系列情報との誤差eが閾値以内に収まらないときは、文脈修正部17により文脈情報{ct}を修正して、予測関数Fの学習を再度行なう。文脈修正部17は、誤差計算部15により算出された誤差eを用いて文脈情報の修正を行なう。具体的には、算出された誤差eを文脈情報{ct}で偏微分した結果得られる勾配ベクトルの方向に文脈情報{ct}を変化させて修正する(前述)。そして、予測した学習対象の時系列情報の誤差が閾値以下に収まるまでは、文脈情報{ct}の修正と関数Fの学習を交互に繰り返し行なう。 When the error e between the predicted time series information of the learning target and the actually given time series information does not fall within the threshold, the context correction unit 17 corrects the context information {c t }, The prediction function F is learned again. The context correction unit 17 corrects the context information using the error e calculated by the error calculation unit 15. Specifically, varying the contextual information {c t} the calculated error e in the direction of the contextual information {c t} in partial differential obtained as a result of the gradient vector corrected (above). The correction of the context information {c t } and the learning of the function F are alternately repeated until the predicted error in the time-series information to be learned falls below the threshold.

図2には、学習装置1が文脈情報の修正を行ないながら時系列予測関数Fの学習を行なうための処理手順をフローチャートの形式で示している。以下、同図を参照しながら処理手順について説明する。   FIG. 2 shows a processing procedure for learning the time series prediction function F while the learning device 1 corrects the context information in the form of a flowchart. Hereinafter, the processing procedure will be described with reference to FIG.

まず、入力部11から学習データを入力するとともに、初期化部12により文脈データの初期値を生成する(ステップS1)。   First, learning data is input from the input unit 11, and an initial value of context data is generated by the initialization unit 12 (step S1).

次いで、関数近似部13は、学習データと文脈データを参照して、予測関数Fを生成すなわち関数近似する(ステップS2)。   Next, the function approximating unit 13 generates the prediction function F, that is, approximates the function with reference to the learning data and the context data (step S2).

次いで、予測部14は、学習データの初期値を用い、生成された予測関数Fに従って学習データの予測を行なってみる(ステップS3)。   Next, the prediction unit 14 tries to predict the learning data according to the generated prediction function F using the initial value of the learning data (step S3).

次いで、誤差計算部15は、予測関数Fを用いて予測された学習データと、実際に入力部11から入力された学習データとの差分を計算し、予測誤差を算出する(ステップS4)。   Next, the error calculation unit 15 calculates a difference between the learning data predicted using the prediction function F and the learning data actually input from the input unit 11, and calculates a prediction error (step S4).

この誤差計算結果は判定部16に入力される。判定部16では、算出された誤差に基づいて、関数近似部13により生成された予測関数の近似が十分であるかどうかを判定する(ステップS5)。   The error calculation result is input to the determination unit 16. The determination unit 16 determines whether the approximation of the prediction function generated by the function approximation unit 13 is sufficient based on the calculated error (step S5).

ここで、判定部16で終了判定を出せば、当該学習は終了する。   If the determination unit 16 makes an end determination, the learning ends.

一方、終了判定を出さないときには、文脈修正部17が誤差に従って文脈データを修正する(ステップS6)。そして、ステップS1に戻って、予測関数Fの学習を再度行なう。予測した学習対象の時系列情報の誤差が閾値以下に収まるまでは、文脈情報{ct}の修正と関数Fの学習を交互に繰り返し行なう。 On the other hand, when the end determination is not issued, the context correction unit 17 corrects the context data according to the error (step S6). And it returns to step S1 and learning of the prediction function F is performed again. The correction of the context information {c t } and the learning of the function F are repeated alternately until the predicted error in the time-series information to be learned falls below the threshold value.

最後に、本実施形態に係る学習メカニズムを正弦波の時系列予測に適用した実験例について説明する。   Finally, an experimental example in which the learning mechanism according to the present embodiment is applied to sine wave time series prediction will be described.

図3には、このときの学習サンプル{xt∈R|t=1…60}を示している。横軸が時間tであり、縦軸が値xtである。図示の学習サンプルは3周期分の正弦波で構成される。 FIG. 3 shows learning samples {x t εR | t = 1... 60} at this time. The horizontal axis is time t, and the vertical axis is the value x t. The illustrated learning sample is composed of three sine waves.

図4には、学習前の初期状態を示している。同図の上段では、図3に示したと同様の3周期分の正弦波からなる学習サンプル{xt∈R|t=1…60}と、各時刻tにおいてランダムに生成された文脈情報の初期値{c(1) t∈R|t=1…60}が示されている。また、同図の下段では、予測された学習サンプルの時系列値と、予測された文脈情報が示されている。 FIG. 4 shows an initial state before learning. In the upper part of the figure, learning samples {x t εR | t = 1... 60} composed of three sine waves similar to those shown in FIG. 3 and initial context information randomly generated at each time t are shown. The value {c (1) t ∈ R | t = 1... 60} is shown. In the lower part of the figure, the time series value of the predicted learning sample and the predicted context information are shown.

第1回目の文脈情報{ct}の推定と関数Fの学習では、文脈情報{c(1) t}がランダムであるため、図示のように、予測された学習データの予測値は実際に入力された学習データとは異なったものとなっている。文脈情報{ct}の推定と関数Fの学習を交互に繰り返し行なう目的は、この2つの時系列値を同じようにすることにある。 In the first estimation of context information {c t } and learning of the function F, since the context information {c (1) t } is random, as shown in the figure, the predicted value of the predicted learning data is actually It is different from the input learning data. The purpose of alternately estimating the context information {c t } and learning the function F is to make the two time series values the same.

図5には、文脈情報{ct}の推定と関数Fの学習を交互に繰り返し行なうことにより、予測関数Fの学習が収束していく様子を示している。同図に示すように、文脈情報{c(i) t}は、学習サンプル{xt}と半位相だけずれた同一周期の波形となっている。 FIG. 5 shows how learning of the prediction function F converges by repeatedly performing estimation of context information {c t } and learning of the function F alternately. As shown in the figure, the context information {c (i) t } has a waveform with the same period shifted from the learning sample {x t } by a half phase.

同図の上から2段目では、学習サンプルの予測値が実際の学習サンプル{xt}と同一の波形になっていることを示している。しかも、学習されていない時刻t=61以降も、続けて正弦波を予測し続けていることが分かる。 The second row from the top in the figure shows that the predicted value of the learning sample has the same waveform as the actual learning sample {x t }. Moreover, it can be seen that the sine wave is continuously predicted even after the time t = 61 when it is not learned.

また、同図の上から3段目では、学習サンプルの予測値にノイズを付加しながら関数Fを予測させた結果を示している。ノイズを付加しないと同じように、学習サンプルと同一の波形に引き込まれていることが分かる。   Further, the third row from the top in the figure shows the result of predicting the function F while adding noise to the predicted value of the learning sample. It can be seen that the same waveform as the learning sample is drawn in the same manner as when no noise is added.

また、同図の上から4段目では、横軸にステップ数を、縦軸にRMSE(Root Mean Squared Error)をとった学習曲線を示している。同図では、10回で学習が収束していることが分かる。   Further, in the fourth row from the top in the figure, a learning curve is shown in which the horizontal axis represents the number of steps and the vertical axis represents RMSE (Root Mean Squared Error). In the figure, it can be seen that learning has converged after 10 times.

上述したように、本発明に係る学習方法は、短時間で大域解への収束が保証されている連続値関数近似手法に従い、文脈情報を用いて非マルコフ過程の時系列データの予測関数を学習することができる。その際、誤差逆伝播法を用いたリカレント・ニューラル・ネットワークよりも高速に学習を完了させることができ、且つ、より少ない文脈情報の次元数mで学習を収束させることができるという点を十分に理解されたい。   As described above, the learning method according to the present invention learns a prediction function of time-series data of non-Markov processes using context information according to a continuous value function approximation method in which convergence to a global solution is guaranteed in a short time. can do. At that time, it is possible to complete the learning faster than the recurrent neural network using the error back propagation method, and to sufficiently converge the learning with less dimension number m of context information. I want you to understand.

以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。   The present invention has been described in detail above with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiment without departing from the gist of the present invention.

本明細書では、主にSVRに従って予測関数Fの学習を行なう実施形態を中心に説明してきたが、本発明の要旨はこれに限定されるものではない。例えばSVR以外の連続値関数近似手法に基づく学習アルゴリズムや、それ以外の学習アルゴリズムを適用する学習装置に対しても、同様に本発明を適用することができる。   In the present specification, the description has been made mainly on the embodiment in which the prediction function F is learned mainly according to the SVR, but the gist of the present invention is not limited to this. For example, the present invention can be similarly applied to a learning algorithm based on a continuous value function approximation method other than SVR and a learning device to which another learning algorithm is applied.

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、特許請求の範囲を参酌すべきである。   In short, the present invention has been disclosed in the form of exemplification, and the description of the present specification should not be interpreted in a limited manner. In order to determine the gist of the present invention, the claims should be taken into consideration.

図1は、本発明の一実施形態に係る学習装置1の機能的構成を示した図である。FIG. 1 is a diagram showing a functional configuration of a learning device 1 according to an embodiment of the present invention. 図2は、学習装置1が文脈情報の修正を行ないながら時系列予測関数Fの学習を行なうための処理手順示したフローチャートである。FIG. 2 is a flowchart showing a processing procedure for the learning device 1 to learn the time series prediction function F while correcting the context information. 図3は、本発明に係る学習メカニズムを正弦波の時系列予測に適用した実験例を説明するための図である。FIG. 3 is a diagram for explaining an experimental example in which the learning mechanism according to the present invention is applied to time series prediction of a sine wave. 図4は、本発明に係る学習メカニズムを正弦波の時系列予測に適用した実験例を説明するための図である。FIG. 4 is a diagram for explaining an experimental example in which the learning mechanism according to the present invention is applied to time series prediction of a sine wave. 図5は、本発明に係る学習メカニズムを正弦波の時系列予測に適用した実験例を説明するための図である。FIG. 5 is a diagram for explaining an experimental example in which the learning mechanism according to the present invention is applied to sine wave time series prediction.

符号の説明Explanation of symbols

1…学習装置
11…入力部
12…初期化部
13…関数近似部
14…予測部
15…誤差計算部
16…判定部
17…文脈修正部
DESCRIPTION OF SYMBOLS 1 ... Learning apparatus 11 ... Input part 12 ... Initialization part 13 ... Function approximation part 14 ... Prediction part 15 ... Error calculation part 16 ... Determination part 17 ... Context correction part

Claims (5)

ある時刻tに関する状態ztに基づいて次の時刻t+1に関する状態zt+1を予測するための時系列予測関数Fの近似を行なう学習装置であって、各時刻tの状態 t は当該時刻における学習対象の情報xt及び文脈情報ctからなり、
過去の状態{z t }として、現在時刻Tに至る各時刻t(但し、t=1…T)の前記学習対象の時系列情報{xtを入力するとともに、現在時刻Tに至るまでの文脈情報の時系列{c t }をランダムに生成し、又はランダムに生成された文脈情報の時系列{c t }を入力するデータ入力手段と、
該入力された過去の状態{zt}を用い、所定の学習アルゴリズムに従って時系列予測関数Fを学習する関数学習手段と、
該学習して得られた時系列予測関数Fと状態の初期値z1を用いて、現在時刻Tに至るまでの各時刻tの学習サンプル{xt}を予測する予測手段と、
前記データ入力手段で入力された各時刻tの学習サンプル{xt}と前記予測手段により生成された各時刻tの学習サンプルの予測値との誤差を算出する誤差計算手段と、
前記誤差計算手段により算出された誤差eを文脈情報{c t }で偏微分した結果得られる勾配ベクトルの方向に文脈情報{c t }を変化させて修正する文脈修正手段と、
該誤差に基づいて前記関数学習手段による時系列予測関数Fの学習が終了したか否かを判定する判定手段と、
を具備し、
前記判定手段により学習が終了されていないと判定されたときには、前記文脈修正手段により修正された文脈情報を含む各時刻tの状態{z t }を前記関数学習手段に与えて、時系列予測関数Fの再学習を行なう、
ことを特徴とする学習装置。
A learning apparatus for performing an approximation of the series prediction function F when for predicting the state z t + 1 for the next time t + 1 based on the state z t for a certain time t, the state z t at each time t is the time It consists of learning target information x t and context information c t at t ,
As the past state {z t }, the learning target time-series information {x t } at each time t (provided that t = 1... T) up to the current time T is input, and until the current time T is reached. a data input means to generate a time series {c t} contextual information randomly or inputting the time series {c t} randomly contextual information generated,
Function learning means for learning the time series prediction function F according to a predetermined learning algorithm using the input past state {z t };
Prediction means for predicting the learning sample {x t } at each time t until the current time T using the time series prediction function F and the state initial value z 1 obtained by the learning;
An error calculating means for calculating an error between the learning sample {x t } at each time t input by the data input means and the predicted value of the learning sample at each time t generated by the prediction means;
Context correcting means for changing the context information {c t } in the direction of the gradient vector obtained as a result of partial differentiation of the error e calculated by the error calculating means with the context information {c t } ;
Determination means for determining whether learning of the time series prediction function F by the function learning means is completed based on the error;
Equipped with,
When the determination means determines that the learning has not ended , the time learning function {z t } including the context information corrected by the context correction means is given to the function learning means to obtain a time series prediction function. Re-learn F,
A learning apparatus characterized by that.
前記関数学習手段は、連続値関数近似手法に基づく学習アルゴリズムに従って時系列予測関数Fを学習する、
ことを特徴とする請求項1に記載の学習装置。
The function learning means learns the time series prediction function F according to a learning algorithm based on a continuous value function approximation method.
The learning apparatus according to claim 1.
前記関数学習手段は、Support Vector Regressionに基づく学習アルゴリズムに従って時系列予測関数Fを学習する、
ことを特徴とする請求項に記載の学習装置。
The function learning means learns a time series prediction function F according to a learning algorithm based on Support Vector Regression.
The learning apparatus according to claim 2 , wherein:
ある時刻tに関する状態zState z for a certain time t tt に基づいて次の時刻t+1に関する状態zThe state z for the next time t + 1 based on t+1t + 1 を予測するための時系列予測関数Fの近似を行なう学習方法であって、各時刻tの状態zIs a learning method for approximating the time series prediction function F for predicting the state z at each time t tt は当該時刻tにおける学習対象の情報xIs information x to be learned at the time t tt 及び文脈情報cAnd context information c tt からなり、Consists of
過去の状態{zPast state {z tt }として、現在時刻Tに至る各時刻t(但し、t=1…T)の前記学習対象の時系列情報{x}, The time series information {x of the learning target at each time t (where t = 1... T) up to the current time T. tt }を入力するとともに、現在時刻Tに至るまでの文脈情報の時系列{c} And context information time series up to the current time T {c tt }をランダムに生成し、又はランダムに生成された文脈情報の時系列{c} At random, or a time series {c of randomly generated context information tt }を入力するデータ入力ステップと、}, A data input step for inputting
該入力された過去の状態{zThe input past state {z tt }を用い、連続値関数近似手法に基づく学習アルゴリズムに従って時系列予測関数Fを学習する関数学習ステップと、}, A function learning step of learning the time series prediction function F according to a learning algorithm based on a continuous value function approximation method,
該学習して得られた時系列予測関数Fと状態の初期値zTime series prediction function F and state initial value z obtained by learning 11 を用いて、現在時刻Tに至るまでの各時刻tの学習サンプル{xUsing the learning sample {x at each time t until the current time T tt }を予測する予測ステップと、} For predicting,
前記データ入力ステップで入力された各時刻tの学習サンプル{xLearning sample {x at each time t input in the data input step tt }と前記予測ステップにおいて生成された各時刻tの学習サンプルの予測値との誤差を算出する誤差計算ステップと、} And an error calculation step of calculating an error between the prediction value of the learning sample at each time t generated in the prediction step;
前記誤差計算ステップにおいて算出された誤差eを文脈情報{cThe error e calculated in the error calculation step is used as context information {c tt }で偏微分した結果得られる勾配ベクトルの方向に文脈情報{c} In the direction of the gradient vector obtained as a result of partial differentiation with {} tt }を変化させて修正する文脈修正ステップと、} To modify the context and modify the context,
該誤差に基づいて前記関数学習ステップにおける時系列予測関数Fの学習が終了したか否かを判定する判定ステップと、A determination step of determining whether learning of the time series prediction function F in the function learning step is completed based on the error;
を有し、Have
前記判定ステップにおいて学習が終了されていないと判定されたときには、前記文脈修正ステップにおいて修正された文脈情報を含む各時刻tの状態{zWhen it is determined in the determination step that the learning has not been completed, the state {z at each time t including the context information corrected in the context correction step tt }を用いて前記関数学習ステップにおける時系列予測関数Fの学習を再度行なう、} Is used to learn the time series prediction function F in the function learning step again.
ことを特徴とする学習方法。A learning method characterized by that.
ある時刻tに関する状態zState z for a certain time t tt に基づいて次の時刻t+1に関する状態zThe state z for the next time t + 1 based on t+1t + 1 を予測するための時系列予測関数Fの近似を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、各時刻tの状態zIs a computer program written in a computer-readable format so as to execute on a computer system a process for approximating a time series prediction function F for predicting a state z at each time t. tt は当該時刻tにおける学習対象の情報xIs information x to be learned at the time t tt 及び文脈情報cAnd context information c tt からなり、前記コンピュータ・システムに対し、For the computer system
過去の状態{zPast state {z tt }として、現在時刻Tに至る各時刻t(但し、t=1…T)の前記学習対象の時系列情報{x}, The time series information {x of the learning target at each time t (where t = 1... T) up to the current time T. tt }を入力するとともに、現在時刻Tに至るまでの文脈情報の時系列{c} And context information time series up to the current time T {c tt }をランダムに生成し、又はランダムに生成された文脈情報の時系列{c} At random, or a time series {c of randomly generated context information tt }を入力するデータ入力手順と、} The data input procedure to input},
該入力された過去の状態を用い、連続値関数近似手法に基づく学習アルゴリズムに従って時系列予測関数Fを学習する関数学習手順と、A function learning procedure for learning the time series prediction function F according to a learning algorithm based on a continuous value function approximation method using the input past state;
該学習して得られた時系列予測関数Fと状態の初期値zTime series prediction function F and state initial value z obtained by learning 11 を用いて、現在時刻Tに至るまでの各時刻tの学習サンプル{xUsing the learning sample {x at each time t until the current time T tt }を予測する予測手順と、} Prediction procedure for predicting
前記データ入力手順で入力された各時刻tの学習サンプル{xLearning sample {x at each time t input in the data input procedure tt }と前記予測手順において生成された各時刻tの学習サンプルの予測値との誤差を算出する誤差計算手順と、} And an error calculation procedure for calculating an error between the prediction value of the learning sample at each time t generated in the prediction procedure;
前記誤差計算手順で算出された誤差eを文脈情報{cThe error e calculated by the error calculation procedure is used as context information {c tt }で偏微分した結果得られる勾配ベクトルの方向に文脈情報{c} In the direction of the gradient vector obtained as a result of partial differentiation with {} tt }を変化させて修正する文脈修正ステップと、} To modify the context and modify the context,
該誤差に基づいて前記関数学習手順における時系列予測関数Fの学習が終了したか否かを判定する判定手順と、A determination procedure for determining whether learning of the time-series prediction function F in the function learning procedure is completed based on the error;
前記判定手順において学習が終了されていないと判定されたときには、前記文脈修正手順において修正された文脈情報を含む各時刻tの状態{zWhen it is determined in the determination procedure that learning has not been completed, the state {z at each time t including the context information corrected in the context correction procedure {z tt }を用いて前記関数学習手順における時系列予測関数Fの学習を再度行なわせる繰り返し学習手順と、} To repeat the learning of the time series prediction function F in the function learning procedure,
を実行させることを特徴とするコンピュータ・プログラム。A computer program for executing
JP2005141957A 2005-05-13 2005-05-13 Learning device, learning method, and computer program Expired - Fee Related JP4887661B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005141957A JP4887661B2 (en) 2005-05-13 2005-05-13 Learning device, learning method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005141957A JP4887661B2 (en) 2005-05-13 2005-05-13 Learning device, learning method, and computer program

Publications (2)

Publication Number Publication Date
JP2006318319A JP2006318319A (en) 2006-11-24
JP4887661B2 true JP4887661B2 (en) 2012-02-29

Family

ID=37538924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005141957A Expired - Fee Related JP4887661B2 (en) 2005-05-13 2005-05-13 Learning device, learning method, and computer program

Country Status (1)

Country Link
JP (1) JP4887661B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101360790B1 (en) * 2009-04-22 2014-02-11 한국전력공사 Pridiction method for monitoring performance of plant instruments
CN113642767B (en) * 2021-07-09 2024-06-04 武汉科技大学 Multi-dimensional feature combination prediction method based on MI-VMD-DA-EDLSTM-VEC

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274456A (en) * 1992-03-27 1993-10-22 Nippon Telegr & Teleph Corp <Ntt> Learning system for time series pattern
JPH0895949A (en) * 1994-09-21 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> Device for predicting time sequential data
JP4141246B2 (en) * 2002-12-24 2008-08-27 東北電力株式会社 Short-term prediction system based on different phenomena
JP2005063218A (en) * 2003-08-15 2005-03-10 Nippon Telegr & Teleph Corp <Ntt> Disease control support method and disease control support system

Also Published As

Publication number Publication date
JP2006318319A (en) 2006-11-24

Similar Documents

Publication Publication Date Title
Ramos et al. Bayessim: adaptive domain randomization via probabilistic inference for robotics simulators
KR102483643B1 (en) Method and apparatus for training model and for recognizing bawed on the model
Valpola et al. An unsupervised ensemble learning method for nonlinear dynamic state-space models
KR102239714B1 (en) Neural network training method and apparatus, data processing apparatus
JP4710931B2 (en) Learning device, learning method, and program
CN108399406A (en) The method and system of Weakly supervised conspicuousness object detection based on deep learning
CN108140146A (en) For adiabatic quantum computation machine to be used to carry out the discrete variation autocoder system and method for machine learning
Henaff et al. Model-based planning with discrete and continuous actions
US10783452B2 (en) Learning apparatus and method for learning a model corresponding to a function changing in time series
KR102577188B1 (en) Create a control system for the target system
JP2007265345A (en) Information processor and method, learning device and method, and program
JP6955233B2 (en) Predictive model creation device, predictive model creation method, and predictive model creation program
US11195116B2 (en) Dynamic boltzmann machine for predicting general distributions of time series datasets
JP6942203B2 (en) Data processing system and data processing method
CN118298906A (en) Protein and small molecule docking method, device, electronic equipment and storage medium
JP4887661B2 (en) Learning device, learning method, and computer program
Castellini et al. Adversarial Data Augmentation for HMM-based Anomaly Detection
Espinoza et al. Short term chaotic time series prediction using symmetric LS-SVM regression
JP2007157000A (en) Learning device and learning method, and computer program
JP6908286B2 (en) Information processing equipment, information processing methods and programs
CN110826184B (en) Variational Bayesian identification method for NARX model structure and parameters under time-varying lag
JP6942204B2 (en) Data processing system and data processing method
JP2010257344A (en) Sight line position estimating method, sight line position estimating device, program, and recording medium
JP2019095894A (en) Estimating device, learning device, learned model, estimation method, learning method, and program
US11410042B2 (en) Dynamic Boltzmann machine for estimating time-varying second moment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees