JP2019125306A - データ処理方法、データ処理装置およびプログラム - Google Patents
データ処理方法、データ処理装置およびプログラム Download PDFInfo
- Publication number
- JP2019125306A JP2019125306A JP2018007192A JP2018007192A JP2019125306A JP 2019125306 A JP2019125306 A JP 2019125306A JP 2018007192 A JP2018007192 A JP 2018007192A JP 2018007192 A JP2018007192 A JP 2018007192A JP 2019125306 A JP2019125306 A JP 2019125306A
- Authority
- JP
- Japan
- Prior art keywords
- series data
- data
- time
- time series
- variance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 title claims description 12
- 238000000034 method Methods 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 28
- 238000009792 diffusion process Methods 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005309 stochastic process Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 230000005653 Brownian motion process Effects 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000005537 brownian motion Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000013551 empirical research Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Complex Calculations (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
【課題】高頻度非同期データの分散を求める。【解決手段】データ処理方法のステップ10は時系列データを取得する。ステップ20は、時系列データの時間変化の要因である説明変数を取得する。ステップ30は、時系列データと説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化する。ステップ40は、最適化されたパラメータに基づいて、時系列データの分散を推定する。【選択図】図2
Description
本発明は、データ処理方法、データ処理装置およびプログラムに関する。
高頻度かつ非同期に発生する時系列データを統計的に扱う手法として、パラメトリック・モデル下における最尤型推定量に関する研究がされている(例えば、非特許文献1参照)。また時系列データを取り扱うニューラル・ネットワークとして、リカーレント・ニューラル・ネットワーク(Recurrent Neural Network。以下、「RNN」という)の研究がされている。
"Parametric Inference for Nonsynchronously Observed Diffusion Processes in the Presence of Market Microstructure Noise"、Ogihara Teppei、The Institute of Statistical Mathematics、Bernoulli、in press.https://www.e−publications.org/ims/submission/BEJ/user/submissionFile/24948?confirm=f45ce640
観測された時系列データを基にその分散や共分散を計算することは、様々な局面で有用なデータ処理である。ここで分散とは、一般にデータの散らばり度合いを表す値であり、観測されたデータと平均値との差(偏差)の二乗の平均として求められる。また共分散とは、一般に2種類の観測データ同士の関係を表す値であり、各観測データに関する偏差同士の積の平均として求められる。
例えば株式資産のリスク管理において、株価の時系列データの分散・共分散を特定することは極めて重要である。すなわち分散は、当該銘柄の株価変動リスク(ボラティリティ)や値動きの荒さを反映した数値であり、これを把握することはポートフォリオの運用に欠かせない。また共分散は、異なる銘柄同士の株価変動の連動性を反映した数値であるため、やはりその傾向を把握することは重要である。従来、株価の分散・共分散の把握は、その日の終値など1日1回乃至数回程度観測される低頻度のデータを用いて行われてきた。これに対して、時々刻々変動する日内のすべての取引に関する株価データは、株価変動に関する多くの情報を含むため、証券市場の構造分析などに非常に有効なものであると考えられる。
ここで、日内のすべての取引で観測される株価のようなデータには、他の一般的な時系列データ(特に低頻度データ)とは異なる際立った特徴がある点に留意する必要がある。1つはその高頻度性である。株価データは、当該銘柄の証券の取引が成立した瞬間に発生するものである。表1は、ある自動車会社関連株に関し、約30秒の間に実際に発生した証券取引の状況を表す。表1に示されるようにその発生頻度は通常、数秒または数百ミリ秒に1回である。
これは1日の取引時間全体(例えば5時間)に対して、極めて高い頻度であるといえる。今1つの特徴は観測データ同士の非同期性である。一般に異なる銘柄の証券が取引されるタイミングは異なるため、これらの株価データの発生時刻は一致しない。すなわち、異なる銘柄の株価データの観測は非同期的になされる。
株価のような高頻度かつ非同期で発生するデータ(以下、「高頻度非同期データ」と呼ぶ)には、データの膨大さに加えて、分散・共分散計算などの統計解析を困難にする2つの特徴的な要因が伴うことが分かってきた。1つは「マイクロストラクチャー・ノイズ」と呼ばれる仮想的な観測誤差であり、今1つは「非同期観測」に伴う問題である。以下、この2つの要因について説明する。
(マイクロストラクチャー・ノイズ)
株価のボラティリティの推定値と考えられる値の1つに、実現ボラティリティ(Realized Volatility。以下「RV」と呼ぶ)がある。RVは、時間的に隣接する株価(または時間的に隣接する株価の対数値)間の差の2乗値を、一日の取引時間内で合計して得られる値であり、観測データを{Atk}L k=0とすると以下の式で定義される。
株価の対数値(以下、「対数株価」という)Ytが後述の拡散過程に従い、{Ytk}L k=0が観測されると仮定した場合、RVは、maxk(tk−tk−1)→0の極限(高頻度観測極限)でYのボラティリティ<Y>1に収束する。
株価のボラティリティの推定値と考えられる値の1つに、実現ボラティリティ(Realized Volatility。以下「RV」と呼ぶ)がある。RVは、時間的に隣接する株価(または時間的に隣接する株価の対数値)間の差の2乗値を、一日の取引時間内で合計して得られる値であり、観測データを{Atk}L k=0とすると以下の式で定義される。
しかしながら実証研究では、高頻度観測極限でもRVが収束せず、逆にデータが高頻度になるとともにRVが急激に増加する現象が確認されている。図1は、表1に記載された株価の実データを基に、隣接する時間間隔を30秒から1800秒まで変えて計算したRVのプロットである。図1に示される通り、RVは、時間間隔(頻度)が300秒以上では0.0001付近で安定しているが、時間間隔が300秒以下になると急激に増加して発散する。このような、観測頻度を高くするとRVが急激に増加する現象、すなわち観測頻度の増加とともにRVが過大に評価される現象は、実際の株価データの観測時に仮想的な観測ノイズが混入することが原因であると解釈されている。高頻度観測データを解析する際に現れるこの特有のノイズは、「マイクロストラクチャー・ノイズ」と呼ばれている。
(非同期観測)
前述のように、ある銘柄の株価データが観測されるのは、当該銘柄の証券取引が成立した瞬間である。従って複数銘柄の株価データの観測時刻は一致しない。すなわち異なる銘柄の株価データは「非同期に観測される」。このような2種類の非同期に観測される時系列データに対して、線形補間や直前データによる補完などといった簡易な同期化を用いて共分散を算出すると、共分散の深刻な過小評価を招くという問題が発生する。
前述のように、ある銘柄の株価データが観測されるのは、当該銘柄の証券取引が成立した瞬間である。従って複数銘柄の株価データの観測時刻は一致しない。すなわち異なる銘柄の株価データは「非同期に観測される」。このような2種類の非同期に観測される時系列データに対して、線形補間や直前データによる補完などといった簡易な同期化を用いて共分散を算出すると、共分散の深刻な過小評価を招くという問題が発生する。
以上述べたように、高頻度非同期データでは、マイクロストラクチャー・ノイズや非同期観測といった観測上の複雑さの存在が、その統計解析を困難なものとしている。このような観測上の複雑に対処するための先行技術として、パラメトリック・モデル下における最尤型推定量を利用するものがある。これは、対数株価の時間変化が未知パラメータを含む確率微分方程式を満たすと仮定して、疑似尤度関数を用いてこの未知パラメータを推定することによりRVを算出するものである(非特許文献1参照)。この手法は、高頻度非同期データに伴う観測上の複雑さに一定程度対応できるものである。
しかしながら株価データの場合、マイクロストラクチャー・ノイズや非同期観測といった観測上の複雑さに加えて、モデル自体の複雑さも存在する。これには主に「日中季節性」と「長期記憶性」がある。日中季節性とは、一日の取引開始時・取引終了時に取引が集中するという性質である。また長期記憶性とは、一度ボラティリティが上昇すると、それが長期にわたって継続されやすいという性質である。前述の手法を用いても、このようなモデル自体が複雑なものを包括的に扱うことのできるパラメトリック・モデルを事前に設定することは難しい。
こうした場合の有力なアプローチとして、機械学習を用いた手法が考えられる。すなわち、事前にモデルを設定することに代えて、観測されたデータから当該データのモデル構造を学習させるというものである。機械学習は、大量の学習データから当該データの特性を学習させ、コンピュータを用いた計算から背後にあるモデル構造を特定する。近年、時系列データを取り扱うニューラル・ネットワークとして、RNNなどが研究されている。しかしながら、多くの機械学習はユークリッド空間上のデータに対する手法であるため、観測上の複雑さを持つ高頻度非同期データに直接適用することはできない。
これに対し本発明者は、高頻度非同期データを時間の関数とみて関数空間上の要素として扱い、機械学習理論をこの空間上の理論へと発展させることにより、当該データを確率過程論と融合させて扱うことができることに気が付いた。具体的には、高頻度非同期データを扱うことのできる疑似対数尤度関数をニューラル・ネットワークと融合することで、効率的な学習が実現できると考えられる。しかしながら、疑似対数尤度関数をニューラル・ネットワークにそのまま適用すると、疑似対数尤度関数にバイアスが発生する。このため計算が一定の速さで収束しないという問題がある。これは計算精度の低下を招く。従ってこのバイアスをいかに補正するかが課題となる。さらに疑似対数尤度関数の計算では、逆行列を算出するときの計算負荷が非常に大きくなる。従って、この逆行列計算を高速化することも実用上の大きな課題となる。
上記課題を解決するために、本発明のある態様のデータ処理方法は、時系列データを取得するステップと、時系列データの時間変化の要因である説明変数を取得するステップと、時系列データと説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化するステップと、最適化されたパラメータに基づいて、時系列データの分散を推定するステップと、を備える。
パラメータを最適化するステップは、バイアスを補正するステップをさらに含んでもよい。
パラメータを最適化するステップは、高速近似計算を用いて逆行列を計算するステップをさらに含んでもよい。
時系列データは複数種類の時系列データであってもよく、時系列データの分散を推定するステップは、時系列データの共分散を推定するステップをさらに含んでもよい。
パラメータを最適化するステップは、ニューラル・ネットワークを用いてもよい。
本方法は、説明変数を平均化するステップをさらに備えてもよい。
疑似対数尤度関数を最大化するステップは、高速近似計算を用いて、行列式の対数を計算するステップをさらに含んでもよい。
時系列データは、株価データであってよい。
本発明の別の態様のデータ処理装置は、時系列データを取得する時系列データ取得部と、時系列データの時間変化の要因である説明変数を取得する説明変数取得部と、時系列データと説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化するパラメータ最適化部と、最適化されたパラメータに基づいて、時系列データの分散を推定する分散推定部と、を備える。
本発明のさらに別の態様のプログラムは、時系列データを取得するステップと、時系列データの時間変化の要因である説明変数を取得するステップと、時系列データと説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化するステップと、最適化されたパラメータに基づいて、時系列データの分散を推定するステップと、をコンピュータに実行させる。
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、高頻度非同期データの分散・共分散を求めることができる。
具体的な実施例を説明する前に、高頻度非同期データの例として株価データを取り上げて、基礎となる事項を説明する。以下、記号を簡略化するため時間単位を変換し、観測の最終時刻を1に規格化したデータを取り扱う。
複数銘柄の株価を考えたとき、時刻tにおけるi番目の銘柄の株価Yi tは、以下のような確率過程に従って時間変化するものと仮定する。この確率過程は拡散過程と呼ばれる。
ここで、Xtは説明変数、aiおよびbijは未知の非線形関数、Wj sはブラウン運動である。説明変数は上記の銘柄の株価の時間的変化の要因となる変数であって、例えば当該銘柄の値動き、別銘柄の値動き、日経平均株価等の株価指数、取引量などに関する情報である。上記の拡散過程の式の右辺第1項は時間に比例して動く部分を表し、右辺第2項はランダムな拡散項を表す。高頻度非同期データの場合、この拡散項を求めることが課題となる。右辺第2項に含まれる非線形関数bij(t、Xt)は、時刻tにおける瞬間的なボラティリティ(以下、「瞬間的ボラティリティ」という)を表す量である。ボラティリティ<Yi>1および共変動<Yi、Yj>1は、瞬間的ボラティリティbij(t、Xt)に基づいて以下のように算出される。
複数銘柄の株価を考えたとき、時刻tにおけるi番目の銘柄の株価Yi tは、以下のような確率過程に従って時間変化するものと仮定する。この確率過程は拡散過程と呼ばれる。
(実施例)
以下、本発明に係るデータ処理方法の一実施形態を詳細に説明する。
図2は、本実施形態の処理フロー図である。ステップ10で本方法は、観測時刻s1 1、...s1 mおよびs2 1、...、s2 nにおけるそれぞれの時系列データY1 1、...Y1 mおよびY2 1、...、Y2 nを取得する。ここで、上付き添字はデータの種類を表し、下付き添字はデータを取得した順番を示す。例えば時系列データが銘柄1および2の日内対数株価だった場合、s1 iは銘柄1のその日のi番目の取引発生時刻を表し、Y1 iは時刻s1 iにおける銘柄1の対数株価を表す。なお、本例では時系列データの種類が2つの場合について説明するが、これは1種類のみであってもよく、3種類以上であってもよい。時系列データが1種類のみの場合は、後述の分散のみが計算され、共分散は計算されない。
以下、本発明に係るデータ処理方法の一実施形態を詳細に説明する。
図2は、本実施形態の処理フロー図である。ステップ10で本方法は、観測時刻s1 1、...s1 mおよびs2 1、...、s2 nにおけるそれぞれの時系列データY1 1、...Y1 mおよびY2 1、...、Y2 nを取得する。ここで、上付き添字はデータの種類を表し、下付き添字はデータを取得した順番を示す。例えば時系列データが銘柄1および2の日内対数株価だった場合、s1 iは銘柄1のその日のi番目の取引発生時刻を表し、Y1 iは時刻s1 iにおける銘柄1の対数株価を表す。なお、本例では時系列データの種類が2つの場合について説明するが、これは1種類のみであってもよく、3種類以上であってもよい。時系列データが1種類のみの場合は、後述の分散のみが計算され、共分散は計算されない。
ステップ20で本方法は、上記の時系列データの説明変数(t、Xt)を取得する。
ステップ30で本方法は、時系列データの分散を決めるパラメータを最適化する。以下、瞬間的ボラティリティb(t、Xt)の推定値bli kはパラメータβを含むとして、bli k(β)で表す。βを最適化することにより、bli k(β)の最適値が定まり、これによりデータの分散・共分散が計算される。以下に説明するように、βの最適化は、疑似対数尤度関数を最大化することにより達成される。以下、ニューラル・ネットワークを用いてβの最適化を実行する例を説明する。図3は、多次元パラメータβを持つニューラル・ネットワークb(χ;β)を示す。この場合、ニューラル・ネットワークb(χ;β)への入力値は説明変数(t、Xt)であり、ニューラル・ネットワークb(χ;β)からの出力値は瞬間的ボラティリティの推定値bli k(β)である。パラメータβ={βk i,j}に対し、中間層の値uj kを以下のように定める。
(u0 1、u0 2、u0 3)=(t、X1、X2)
uj k=(Σiβk i,juk−1 i)+
bij=ΣlβK+1 l,2i+j−2uK l
ここで記号(・・・)+は、括弧内の値と0とを比較し、いずれか大きい方の値を取ることを意味する。
(u0 1、u0 2、u0 3)=(t、X1、X2)
uj k=(Σiβk i,juk−1 i)+
bij=ΣlβK+1 l,2i+j−2uK l
ここで記号(・・・)+は、括弧内の値と0とを比較し、いずれか大きい方の値を取ることを意味する。
以下、疑似対数尤度関数H(β)を最大化することによりβを最適化する処理について説明する。
先ず、観測区間全体を等間隔のブロック[u0、u1)、[u1、u2)、...、[up−1、up)に分割する。例えば時系列データが日内株価データだった場合、観測区間全体は1日の取引時間全体である。
次に観測の増分Δkを以下の式で表す。
ここでTはベクトルや行列の転置を表す。ノイズが加算的で平均0の正規分布に従うとみなすことにより、Δkは元の確率過程と同様に、局所的に多変量正規分布で近似することができる。
次に分散共分散行列Sk(β、ν1、ν2)を以下の式で定義する。
分散共分散行列Sk(β、ν1、ν2)の各成分は以下の通りである。
bl k(β)=(bli k(β))i
(Ml、k)ij=2δij−δi、j−1−δi−1、j
(Ll、k)ij=δij(sl i−sl i−1)
(L1、2、k)ij=(s1 i∧s2 j−s1 i−1∨s2 j−1)+
ここでδijはクロネッカーのデルタであり、X∧YはXとYの小さい方の値を取り、X∨YはXとYの大きい方の値を取ることを意味する。
そして、ノイズ分散の推定量
に対して、疑似対数尤度関数H(β)を以下のように定義する。
先ず、観測区間全体を等間隔のブロック[u0、u1)、[u1、u2)、...、[up−1、up)に分割する。例えば時系列データが日内株価データだった場合、観測区間全体は1日の取引時間全体である。
次に観測の増分Δkを以下の式で表す。
次に分散共分散行列Sk(β、ν1、ν2)を以下の式で定義する。
bl k(β)=(bli k(β))i
(Ml、k)ij=2δij−δi、j−1−δi−1、j
(Ll、k)ij=δij(sl i−sl i−1)
(L1、2、k)ij=(s1 i∧s2 j−s1 i−1∨s2 j−1)+
ここでδijはクロネッカーのデルタであり、X∧YはXとYの小さい方の値を取り、X∨YはXとYの大きい方の値を取ることを意味する。
そして、ノイズ分散の推定量
非特許文献1に記載された技術では、パラメータβの最適値として、H(β)を最大にするときのβを算出する。しかしながら、以下に説明するように、疑似対数尤度関数をニューラル・ネットワークに適用した場合は、疑似対数尤度関数にバイアスが発生する。これは推定値精度の低下を招く。この問題を解決するために、本発明では発生したバイアスを補正する。以下、バイアス補正処理の一例を説明する。
(バイアスの補正)
ステップ32で本方法は、疑似対数尤度関数のバイアスを補正する。
非特許文献1に記載された技術では、H(β)を最大にするときのβの値をβ#とすると、
「あるβ*が一意に存在してb(Xt)=b(Xt;β*)」 (1)
という条件が成立するときに、ある確率変数Aに対し、
β#−β*〜(m+n)−1/4A
が成立している。ここで、mおよびnはそれぞれY1 iおよびY2 iの観測数である。β#はパラメータ推定量、β*は真のパラメータ値である。すなわちこの場合、観測数が増加するとともに、β#は観測数の−1/4乗の速さで真の値β*に近づいていく。さらにこの収束の速さは、推定量の種類に関わらず、最も速いものであることも証明されていた。
ステップ32で本方法は、疑似対数尤度関数のバイアスを補正する。
非特許文献1に記載された技術では、H(β)を最大にするときのβの値をβ#とすると、
「あるβ*が一意に存在してb(Xt)=b(Xt;β*)」 (1)
という条件が成立するときに、ある確率変数Aに対し、
β#−β*〜(m+n)−1/4A
が成立している。ここで、mおよびnはそれぞれY1 iおよびY2 iの観測数である。β#はパラメータ推定量、β*は真のパラメータ値である。すなわちこの場合、観測数が増加するとともに、β#は観測数の−1/4乗の速さで真の値β*に近づいていく。さらにこの収束の速さは、推定量の種類に関わらず、最も速いものであることも証明されていた。
しかしながら上記の条件(1)は、疑似対数尤度関数をニューラル・ネットワークに適用した場合は通常成立しない。これは疑似対数尤度関数にバイアスが発生するためと考えられる。このようにβ#が(m+n)−1/4の速さで収束しないことは、βの推定精度が低下することを意味する。
本発明者は、以下の手法を用いてバイアスを補正し、補正後の新たな疑似対数尤度関数H&(β)を適用することにより、H&(β)を最大にするときのβの値β&が(m+n)−1/4の速さで収束することに気が付いた。
先ず関数g(x)およびgj l、kを以下のように定義する。
g(x)=x∧(1−x)
gj l、k=g(l/mj k)
ここでmj kは、データ列を複数のブロックに分割したときの、k番目のブロックにおけるj番目の変数の観測数を表す。
さらに、(i、j)成分が以下のように定義される2×2行列Bkを導入する。
g(x)=x∧(1−x)
gj l、k=g(l/mj k)
ここでmj kは、データ列を複数のブロックに分割したときの、k番目のブロックにおけるj番目の変数の観測数を表す。
さらに、(i、j)成分が以下のように定義される2×2行列Bkを導入する。
さらに以下の関数を導入する。
ここで、バイアス補正された疑似対数尤度関数H&(β)を以下のように定義する。
H&(β)=H(β)+1/2・Σp k=2(G1、k(β)+G2、k(β)+G3,k(β))
本式に示されるように、従来のH(β)に補正項(第2項以降)を付加したH&(β)を導入すると、H&(β)を最大にするときのβの値β&は、(m+n)−1/4の速さで収束する。従ってこのようにバイアスを補正することにより、疑似対数尤度関数をニューラル・ネットワークに適用した場合も、パラメータβの最適値β&を得ることができる。
H&(β)=H(β)+1/2・Σp k=2(G1、k(β)+G2、k(β)+G3,k(β))
本式に示されるように、従来のH(β)に補正項(第2項以降)を付加したH&(β)を導入すると、H&(β)を最大にするときのβの値β&は、(m+n)−1/4の速さで収束する。従ってこのようにバイアスを補正することにより、疑似対数尤度関数をニューラル・ネットワークに適用した場合も、パラメータβの最適値β&を得ることができる。
(逆行列の高速近似計算)
ステップ34で本方法は、高速近似計算を用いて逆行列を計算する。
H&(β)を計算するためには、分散共分散行列Skの逆行列
を求める必要がある。通常ニューラル・ネットワークの計算には、GPU(Graphics Processing Unit)による並列化計算が用いられる。しかしながら逆行列計算は並列化が難しいため、実用面での大きなネックとなる。本発明者は、前述の分散共分散行列が特殊な形を持つことに着目し、この特殊な形を利用することにより逆行列を高速に近似計算できることに気が付いた。以下、高速近似計算の一例を説明する。
ステップ34で本方法は、高速近似計算を用いて逆行列を計算する。
H&(β)を計算するためには、分散共分散行列Skの逆行列
分散共分散行列の逆行列は、
と置くことにより、以下のように行列の無限級数として表現することができる。
この級数は収束が速いため、有限のr(例えばr=10)までの部分和による近似計算で高い精度の計算結果が得られる。この部分和による近似は行列の積に帰着することから、結局はEj kの高速化だけが課題となる。すなわちEj kの定義式から分かるように、Ej kの算出には逆行列計算が必要であるため、これを高速化する必要がある。以下、このための高速近似計算の一例を説明する。
まず、
とおく。nj kはその定義から分かるように、複数のブロックを左から順に並べたとき、k番目のブロックにおける一番右側にあるデータYj iの添字iの値である。
これらを基に数列cj、k iを以下のように帰納的に定義する。
(i≧2)
これを用いることにより、Ej kは以下のように表現することができる。
cj、k iは逐次的に計算できることから、結局Ej kの逆行列計算は、計算負荷の小さい行列の積に計算に帰着する。このようにして逆行列計算を高速化することができる。
これらを基に数列cj、k iを以下のように帰納的に定義する。
これを用いることにより、Ej kは以下のように表現することができる。
(行列式の対数の高速近似計算)
H&(β)の計算、すなわちH(β)の計算では、log detSkを算出する必要がある。この行列式の対数の計算も、計算負荷の面で課題となる。本発明者は、以下の手法を用いることにより、これも高速化することができることに気が付いた。
log detSkは、以下のように表現することができる。
これと前述のEj kの表現
から、
となることを用いれば、log detSkを計算することができる。
無限級数
も前述と同様に収束が速いため、有限のrまでの部分和による近似計算で高い精度の計算結果が得られる。
このようにして行列式の対数の計算を高速化することができる。
H&(β)の計算、すなわちH(β)の計算では、log detSkを算出する必要がある。この行列式の対数の計算も、計算負荷の面で課題となる。本発明者は、以下の手法を用いることにより、これも高速化することができることに気が付いた。
log detSkは、以下のように表現することができる。
無限級数
このようにして行列式の対数の計算を高速化することができる。
パラメータβの最適化は、−H&(β)をニューラル・ネットワークの損失関数としてこれを最小化することによって、換言すればH&(β)を最大化することによって実現することができる。具体的な計算には、既存のニューラル・ネットワークの最適化手法が適用されてよい。一例として、AdaDeltaによる手法が用いられてよい。
ステップ40で本方法は、ステップ30で最適化されたパラメータに基づき、時系列データの分散・共分散を計算する。前述のように、パラメータβの最適値が定まると、
bij(β)=ΣlβK+1 l,2i+j−2uK l
から瞬間的ボラティリティの最適値bij(β)が定まる。
これに基づき、Yiのボラティリティ<Yi>1と、Y1、Y2の共変動<Y1、Y2>1を以下のように推定することができる。
以上で本実施形態の説明を終える。
なお本発明は高頻度非同期データを対象とする場合に特に有用であるが、低頻度に発生するデータや同期的に観測されるデータの統計解析に対しても十分な効果を奏することはいうまでもない。
bij(β)=ΣlβK+1 l,2i+j−2uK l
から瞬間的ボラティリティの最適値bij(β)が定まる。
これに基づき、Yiのボラティリティ<Yi>1と、Y1、Y2の共変動<Y1、Y2>1を以下のように推定することができる。
なお本発明は高頻度非同期データを対象とする場合に特に有用であるが、低頻度に発生するデータや同期的に観測されるデータの統計解析に対しても十分な効果を奏することはいうまでもない。
(説明変数の平均化)
一般に時系列データが高頻度非同期データだった場合、その説明変数の観測値Xt=(Xj t)q j=1にもマイクロストラクチャー・ノイズが混入している可能性がある。説明変数に含まれるマイクロストラクチャー・ノイズを除去するために、選択的に、説明変数の平均化処理を行ってもよい。以下、説明変数の平均化処理の一例を説明する。
一般に時系列データが高頻度非同期データだった場合、その説明変数の観測値Xt=(Xj t)q j=1にもマイクロストラクチャー・ノイズが混入している可能性がある。説明変数に含まれるマイクロストラクチャー・ノイズを除去するために、選択的に、説明変数の平均化処理を行ってもよい。以下、説明変数の平均化処理の一例を説明する。
平均化処理では、観測区間全体を等間隔のブロック[u0、u1)、[u1、u2)、...、[up−1、up)に分割した上で、ブロック[uk−1、uk)における説明変数のXi jの平均値Zj kを
で定義する。
ここで、hj kはブロック[uk−1、uk)内のXj iの個数、tj iは観測時刻である(1≦j≦q)。前述の実施形態の各ステップにおける処理では、生の説明変数Xj iに代えて、各ブロックにおけるXj iの平均値Zj kを用いる。このように説明変数に平均化処理を施すことにより、説明変数に混入したマイクロストラクチャー・ノイズの影響を緩和することができ、推定精度をさらに向上させることができる。
ここで、hj kはブロック[uk−1、uk)内のXj iの個数、tj iは観測時刻である(1≦j≦q)。前述の実施形態の各ステップにおける処理では、生の説明変数Xj iに代えて、各ブロックにおけるXj iの平均値Zj kを用いる。このように説明変数に平均化処理を施すことにより、説明変数に混入したマイクロストラクチャー・ノイズの影響を緩和することができ、推定精度をさらに向上させることができる。
(株価の分散・共分散予測への応用)
これまで述べてきたように、日内の株価データは、高頻度非同期データの典型的な例である。本発明を用いた株価の分散・共分散の推定は、ポートフォリオのリスク・コントロール等、様々な局面に応用することができる。
例えば一般に金融機関は、保有する株式の株価変動による金融資産価値の変動をコントロールする必要がある。このため金融機関は、株価データや財務データから統計解析を用いて将来の株価の分散・共分散を予測してリスク・コントロールを行っている。特に年金基金の株式運用やインデックス・ファンドの運用においては、株価変動リスクをより正確にコントロールすることが求められるため、株価の分散・共分散を高い精度で予測することが必要となる。このような目的に対して、本発明の手法を用いた、日内株価データに基づく分散・共分散の予測は極めて有効であることが期待される。
これまで述べてきたように、日内の株価データは、高頻度非同期データの典型的な例である。本発明を用いた株価の分散・共分散の推定は、ポートフォリオのリスク・コントロール等、様々な局面に応用することができる。
例えば一般に金融機関は、保有する株式の株価変動による金融資産価値の変動をコントロールする必要がある。このため金融機関は、株価データや財務データから統計解析を用いて将来の株価の分散・共分散を予測してリスク・コントロールを行っている。特に年金基金の株式運用やインデックス・ファンドの運用においては、株価変動リスクをより正確にコントロールすることが求められるため、株価の分散・共分散を高い精度で予測することが必要となる。このような目的に対して、本発明の手法を用いた、日内株価データに基づく分散・共分散の予測は極めて有効であることが期待される。
大規模災害や金融危機などにより金融市場を取り巻く状況が急変した場合、株価のボラティリティが急激に上昇することはよく知られている。このような場合、終値等の低頻度データだけでは値動きの予測は非常に困難となる。このような場合にも、日内の株価データを観測し、本発明の手法を用いて統計解析することにより、分散・共分散の予測精度を向上させることができる。
その他にも本発明の手法は、株式市場監視の現場で、異常取引や不正取引の検知などに応用することもできる。すなわち、価格操作などが行われる傾向のあるとき、本発明の手法を用いて株価の分散・共分散を解析することにより、特定の投資家が株価ボラティリティを上げるなどの動きを検知することができる。
(電力の需要予測)
高頻度非同期データの別の例として、電力消費量のデータがある。特に猛暑期や特定のイベントがあるときなどは電力需要が大きく変わるため、これを予測することは重要である。本発明は、時々刻々モニタされる電力消費量データに基づいて、電力需要の分散・共分散を予測することに応用することができる。
高頻度非同期データの別の例として、電力消費量のデータがある。特に猛暑期や特定のイベントがあるときなどは電力需要が大きく変わるため、これを予測することは重要である。本発明は、時々刻々モニタされる電力消費量データに基づいて、電力需要の分散・共分散を予測することに応用することができる。
(ネットワーク・サーバの需要予測)
ネットワーク・サーバの運用者にとって、サーバの需要を予測することは、サーバの効率的管理と安定的なサービス提供のために重要な課題である。本発明は、時々刻々モニタされるサーバの利用状況のデータに基づいて、サーバ需要の分散・共分散を予測することに応用することができる。
ネットワーク・サーバの運用者にとって、サーバの需要を予測することは、サーバの効率的管理と安定的なサービス提供のために重要な課題である。本発明は、時々刻々モニタされるサーバの利用状況のデータに基づいて、サーバ需要の分散・共分散を予測することに応用することができる。
(実験例1)
図4A−4Cおよび図5A−5Cは、東京証券取引所における実際の日内株価データを基に、本発明の手法を用いて株価のボラティリティを予測した結果を示す。図4A−4Cは午前の取引時間帯におけるデータ、図5A−5Cは午後の取引時間帯におけるデータである。A、BおよびCの各社は、自動車関連の大型銘柄である。各図とも、株価のボラティリティの大きさを、規格化した時刻tおよび価格xの関数として予測したものである。午前の取引時間帯での予測結果からは、朝の取引開始時にボラティリティが高く、その後午前の取引終了時刻に向けて単調に減少する傾向が見られる。午後の取引時間帯での予測結果からは、やはり取引開始時にボラティリティが高く、その後単調に減少し、銘柄によっては取引終了間際に上昇する傾向が見られる。これらの傾向は、実際に市場で観測される現象と整合している。本実験例によれば、本手法を用いたボラティリティ予測が、日内株価のデータ構造を正しく分析していることが理解できる。
図4A−4Cおよび図5A−5Cは、東京証券取引所における実際の日内株価データを基に、本発明の手法を用いて株価のボラティリティを予測した結果を示す。図4A−4Cは午前の取引時間帯におけるデータ、図5A−5Cは午後の取引時間帯におけるデータである。A、BおよびCの各社は、自動車関連の大型銘柄である。各図とも、株価のボラティリティの大きさを、規格化した時刻tおよび価格xの関数として予測したものである。午前の取引時間帯での予測結果からは、朝の取引開始時にボラティリティが高く、その後午前の取引終了時刻に向けて単調に減少する傾向が見られる。午後の取引時間帯での予測結果からは、やはり取引開始時にボラティリティが高く、その後単調に減少し、銘柄によっては取引終了間際に上昇する傾向が見られる。これらの傾向は、実際に市場で観測される現象と整合している。本実験例によれば、本手法を用いたボラティリティ予測が、日内株価のデータ構造を正しく分析していることが理解できる。
(実験例2)
図6は、2011年3月10日の東日本震災前後における、ある電力会社株のRVについて、30分間隔の実データに基づく算出値と本発明の手法を用いた予測値とを比較した結果である。実データに基づく算出値によると、3月10日以降急激に、極めて大きなRVが発生していることが分かる。本手法による予測値も、実データに基づく算出値に追随して、3月10日以降の高いRVを示している。従来の1日1回程度の低頻度データによる予測では、RVの変動を予測するのに数ヶ月分のデータを要していた。本実験例によれば、本手法を用いたボラティリティ予測値が、ボラティリティの急激な上昇に対して迅速に反応していることが理解できる。
図6は、2011年3月10日の東日本震災前後における、ある電力会社株のRVについて、30分間隔の実データに基づく算出値と本発明の手法を用いた予測値とを比較した結果である。実データに基づく算出値によると、3月10日以降急激に、極めて大きなRVが発生していることが分かる。本手法による予測値も、実データに基づく算出値に追随して、3月10日以降の高いRVを示している。従来の1日1回程度の低頻度データによる予測では、RVの変動を予測するのに数ヶ月分のデータを要していた。本実験例によれば、本手法を用いたボラティリティ予測値が、ボラティリティの急激な上昇に対して迅速に反応していることが理解できる。
以上、本発明を実施例を基に説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
高頻度非同期データには上に挙げたものの他、例えば、為替レート、放送の視聴率、インターネットサイトへのアクセス数、医療用センサからの身体データ、気象データ、地震データ、自動車の交通量、選挙の開票データ等様々なものがある。本発明による手法はこうした様々なデータに適用が可能であり、産業上の利用性が高いものである。
10 時系列データを取得するステップ、 20 説明変数を取得するステップ、 30 パラメータを最適化するステップ、 32 疑似対数尤度関数のバイアスを補正するステップ、 34 高速近似計算を用いて逆行列を計算するステップ、 40 時系列データの分散・共分散を計算するステップ
Claims (10)
- 時系列データを取得するステップと、
前記時系列データの時間変化の要因である説明変数を取得するステップと、
前記時系列データと前記説明変数とに基づいて、疑似対数尤度関数を最大化することにより、前記時系列データの分散を決めるパラメータを最適化するステップと、
最適化された前記パラメータに基づいて、前記時系列データの分散を推定するステップと、
を備える、データ処理方法。 - 前記パラメータを最適化するステップは、バイアスを補正するステップをさらに含む
ことを特徴とする、請求項1に記載のデータ処理方法。 - 前記パラメータを最適化するステップは、高速近似計算を用いて逆行列を計算するステップをさらに含む
ことを特徴とする、請求項1または2に記載のデータ処理方法。 - 前記時系列データは複数種類の時系列データであり、
前記時系列データの分散を推定するステップは、前記時系列データの共分散を推定するステップをさらに含む
ことを特徴とする、請求項1乃至3のいずれか一項に記載のデータ処理方法。 - 前記パラメータを最適化するステップは、ニューラル・ネットワークを用いる
ことを特徴とする、請求項1乃至4のいずれか一項に記載のデータ処理方法。 - 前記説明変数を平均化するステップをさらに備える、
請求項1乃至5のいずれか一項に記載のデータ処理方法。 - 前記パラメータを最適化するステップは、高速近似計算を用いて、行列式の対数を計算するステップをさらに含む
ことを特徴とする、請求項1乃至6のいずれか一項に記載のデータ処理方法。 - 前記時系列データは、株価データである
ことを特徴とする、請求項1乃至7のいずれか一項に記載のデータ処理方法。 - 時系列データを取得する時系列データ取得部と、
前記時系列データの時間変化の要因である説明変数を取得する説明変数取得部と、
前記時系列データと前記説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化するパラメータ最適化部と、
最適化された前記パラメータに基づいて、前記時系列データの分散を推定する分散推定部と、
を備える、データ処理装置。 - 時系列データを取得するステップと、
前記時系列データの時間変化の要因である説明変数を取得するステップと、
前記時系列データと前記説明変数とに基づいて、疑似対数尤度関数を最大化することにより、前記時系列データの分散を決めるパラメータを最適化するステップと、
最適化された前記パラメータに基づいて、前記時系列データの分散を推定するステップと、
をコンピュータに実行させる、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007192A JP2019125306A (ja) | 2018-01-19 | 2018-01-19 | データ処理方法、データ処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018007192A JP2019125306A (ja) | 2018-01-19 | 2018-01-19 | データ処理方法、データ処理装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019125306A true JP2019125306A (ja) | 2019-07-25 |
Family
ID=67398865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018007192A Pending JP2019125306A (ja) | 2018-01-19 | 2018-01-19 | データ処理方法、データ処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019125306A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111370122A (zh) * | 2020-02-27 | 2020-07-03 | 西安交通大学 | 一种基于知识指导的时序数据风险预测方法、系统及其应用 |
JPWO2021033503A1 (ja) * | 2019-08-20 | 2021-02-25 | ||
JPWO2021033502A1 (ja) * | 2019-08-20 | 2021-02-25 | ||
JPWO2021033501A1 (ja) * | 2019-08-20 | 2021-02-25 |
-
2018
- 2018-01-19 JP JP2018007192A patent/JP2019125306A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021033503A1 (ja) * | 2019-08-20 | 2021-02-25 | ||
JPWO2021033502A1 (ja) * | 2019-08-20 | 2021-02-25 | ||
JPWO2021033501A1 (ja) * | 2019-08-20 | 2021-02-25 | ||
JP7216359B2 (ja) | 2019-08-20 | 2023-02-01 | 日本電気株式会社 | 地震観測装置、地震観測方法および地震観測プログラム |
JP7282306B2 (ja) | 2019-08-20 | 2023-05-29 | 日本電気株式会社 | 地震観測装置、地震観測方法および地震観測プログラム |
JP7282305B2 (ja) | 2019-08-20 | 2023-05-29 | 日本電気株式会社 | 地震観測装置、地震観測方法および地震観測プログラム |
US11835670B2 (en) | 2019-08-20 | 2023-12-05 | Nec Corporation | Seismic observation device, seismic observation method, and recording medium in which seismic observation program is recorded |
US11906678B2 (en) | 2019-08-20 | 2024-02-20 | Nec Corporation | Seismic observation device, seismic observation method, and recording medium on which seismic observation program is recorded |
CN111370122A (zh) * | 2020-02-27 | 2020-07-03 | 西安交通大学 | 一种基于知识指导的时序数据风险预测方法、系统及其应用 |
CN111370122B (zh) * | 2020-02-27 | 2023-12-19 | 西安交通大学 | 一种基于知识指导的时序数据风险预测方法、系统及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abu-Shikhah et al. | Medium-term electric load forecasting using singular value decomposition | |
Rathnayaka et al. | A hybrid statistical approach for stock market forecasting based on artificial neural network and ARIMA time series models | |
JP2019125306A (ja) | データ処理方法、データ処理装置およびプログラム | |
Cifter | Value-at-risk estimation with wavelet-based extreme value theory: Evidence from emerging markets | |
Bee et al. | Realizing the extremes: Estimation of tail-risk measures from a high-frequency perspective | |
Dhyani et al. | Stock market forecasting technique using arima model | |
Jadid Abdulkadir et al. | Unscented kalman filter for noisy multivariate financial time-series data | |
Carriero | Forecasting the yield curve using priors from no‐arbitrage affine term structure models | |
Gorgi et al. | Beta observation-driven models with exogenous regressors: A joint analysis of realized correlation and leverage effects | |
Wang et al. | Volatility forecast of stock indices by model averaging using high-frequency data | |
Wichaidit et al. | Predicting SET50 stock prices using CARIMA (cross correlation ARIMA) | |
Sudipa et al. | Trend Forecasting of the Top 3 Indonesian Bank Stocks Using the ARIMA Method | |
Hajdini et al. | Predictable forecast errors in full-information rational expectations models with regime shifts | |
Xu et al. | Causal decomposition on multiple time scales: Evidence from stock price-volume time series | |
Li et al. | Optimal pairs trading with time-varying volatility | |
Lum et al. | Industrial electrical energy consumption forecasting by using temporal convolutional neural networks | |
Ładyżyński et al. | Particle swarm intelligence tunning of fuzzy geometric protoforms for price patterns recognition and stock trading | |
Kim et al. | Neural network heterogeneous autoregressive models for realized volatility | |
Uddin et al. | Comparison of some statistical forecasting techniques with GMDH predictor: A case study | |
Boudrioua et al. | Modeling and forecasting the algerian stock exchange using the Box-Jenkins methodology | |
Mehrdoust et al. | Valuation of option price in commodity markets described by a Markov-switching model: A case study of WTI crude oil market | |
Pavel et al. | Decision Making Process of Stock Trading Implementing DRQN And ARIMA | |
Filipović et al. | Empirical Asset Pricing via Ensemble Gaussian Process Regression | |
Calvet et al. | State-observation sampling and the econometrics of learning models | |
Lei et al. | Analysis of gold and bitcoin price prediction based on LSTM model |