JP2019125306A - データ処理方法、データ処理装置およびプログラム - Google Patents

データ処理方法、データ処理装置およびプログラム Download PDF

Info

Publication number
JP2019125306A
JP2019125306A JP2018007192A JP2018007192A JP2019125306A JP 2019125306 A JP2019125306 A JP 2019125306A JP 2018007192 A JP2018007192 A JP 2018007192A JP 2018007192 A JP2018007192 A JP 2018007192A JP 2019125306 A JP2019125306 A JP 2019125306A
Authority
JP
Japan
Prior art keywords
series data
data
time
time series
variance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018007192A
Other languages
English (en)
Inventor
哲平 荻原
Teppei Ogiwara
哲平 荻原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2018007192A priority Critical patent/JP2019125306A/ja
Publication of JP2019125306A publication Critical patent/JP2019125306A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

【課題】高頻度非同期データの分散を求める。【解決手段】データ処理方法のステップ10は時系列データを取得する。ステップ20は、時系列データの時間変化の要因である説明変数を取得する。ステップ30は、時系列データと説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化する。ステップ40は、最適化されたパラメータに基づいて、時系列データの分散を推定する。【選択図】図2

Description

本発明は、データ処理方法、データ処理装置およびプログラムに関する。
高頻度かつ非同期に発生する時系列データを統計的に扱う手法として、パラメトリック・モデル下における最尤型推定量に関する研究がされている(例えば、非特許文献1参照)。また時系列データを取り扱うニューラル・ネットワークとして、リカーレント・ニューラル・ネットワーク(Recurrent Neural Network。以下、「RNN」という)の研究がされている。
"Parametric Inference for Nonsynchronously Observed Diffusion Processes in the Presence of Market Microstructure Noise"、Ogihara Teppei、The Institute of Statistical Mathematics、Bernoulli、in press.https://www.e−publications.org/ims/submission/BEJ/user/submissionFile/24948?confirm=f45ce640
観測された時系列データを基にその分散や共分散を計算することは、様々な局面で有用なデータ処理である。ここで分散とは、一般にデータの散らばり度合いを表す値であり、観測されたデータと平均値との差(偏差)の二乗の平均として求められる。また共分散とは、一般に2種類の観測データ同士の関係を表す値であり、各観測データに関する偏差同士の積の平均として求められる。
例えば株式資産のリスク管理において、株価の時系列データの分散・共分散を特定することは極めて重要である。すなわち分散は、当該銘柄の株価変動リスク(ボラティリティ)や値動きの荒さを反映した数値であり、これを把握することはポートフォリオの運用に欠かせない。また共分散は、異なる銘柄同士の株価変動の連動性を反映した数値であるため、やはりその傾向を把握することは重要である。従来、株価の分散・共分散の把握は、その日の終値など1日1回乃至数回程度観測される低頻度のデータを用いて行われてきた。これに対して、時々刻々変動する日内のすべての取引に関する株価データは、株価変動に関する多くの情報を含むため、証券市場の構造分析などに非常に有効なものであると考えられる。
ここで、日内のすべての取引で観測される株価のようなデータには、他の一般的な時系列データ(特に低頻度データ)とは異なる際立った特徴がある点に留意する必要がある。1つはその高頻度性である。株価データは、当該銘柄の証券の取引が成立した瞬間に発生するものである。表1は、ある自動車会社関連株に関し、約30秒の間に実際に発生した証券取引の状況を表す。表1に示されるようにその発生頻度は通常、数秒または数百ミリ秒に1回である。
これは1日の取引時間全体(例えば5時間)に対して、極めて高い頻度であるといえる。今1つの特徴は観測データ同士の非同期性である。一般に異なる銘柄の証券が取引されるタイミングは異なるため、これらの株価データの発生時刻は一致しない。すなわち、異なる銘柄の株価データの観測は非同期的になされる。
株価のような高頻度かつ非同期で発生するデータ(以下、「高頻度非同期データ」と呼ぶ)には、データの膨大さに加えて、分散・共分散計算などの統計解析を困難にする2つの特徴的な要因が伴うことが分かってきた。1つは「マイクロストラクチャー・ノイズ」と呼ばれる仮想的な観測誤差であり、今1つは「非同期観測」に伴う問題である。以下、この2つの要因について説明する。
(マイクロストラクチャー・ノイズ)
株価のボラティリティの推定値と考えられる値の1つに、実現ボラティリティ(Realized Volatility。以下「RV」と呼ぶ)がある。RVは、時間的に隣接する株価(または時間的に隣接する株価の対数値)間の差の2乗値を、一日の取引時間内で合計して得られる値であり、観測データを{Atk k=0とすると以下の式で定義される。
株価の対数値(以下、「対数株価」という)Yが後述の拡散過程に従い、{Ytk k=0が観測されると仮定した場合、RVは、max(t−tk−1)→0の極限(高頻度観測極限)でYのボラティリティ<Y>に収束する。
しかしながら実証研究では、高頻度観測極限でもRVが収束せず、逆にデータが高頻度になるとともにRVが急激に増加する現象が確認されている。図1は、表1に記載された株価の実データを基に、隣接する時間間隔を30秒から1800秒まで変えて計算したRVのプロットである。図1に示される通り、RVは、時間間隔(頻度)が300秒以上では0.0001付近で安定しているが、時間間隔が300秒以下になると急激に増加して発散する。このような、観測頻度を高くするとRVが急激に増加する現象、すなわち観測頻度の増加とともにRVが過大に評価される現象は、実際の株価データの観測時に仮想的な観測ノイズが混入することが原因であると解釈されている。高頻度観測データを解析する際に現れるこの特有のノイズは、「マイクロストラクチャー・ノイズ」と呼ばれている。
(非同期観測)
前述のように、ある銘柄の株価データが観測されるのは、当該銘柄の証券取引が成立した瞬間である。従って複数銘柄の株価データの観測時刻は一致しない。すなわち異なる銘柄の株価データは「非同期に観測される」。このような2種類の非同期に観測される時系列データに対して、線形補間や直前データによる補完などといった簡易な同期化を用いて共分散を算出すると、共分散の深刻な過小評価を招くという問題が発生する。
以上述べたように、高頻度非同期データでは、マイクロストラクチャー・ノイズや非同期観測といった観測上の複雑さの存在が、その統計解析を困難なものとしている。このような観測上の複雑に対処するための先行技術として、パラメトリック・モデル下における最尤型推定量を利用するものがある。これは、対数株価の時間変化が未知パラメータを含む確率微分方程式を満たすと仮定して、疑似尤度関数を用いてこの未知パラメータを推定することによりRVを算出するものである(非特許文献1参照)。この手法は、高頻度非同期データに伴う観測上の複雑さに一定程度対応できるものである。
しかしながら株価データの場合、マイクロストラクチャー・ノイズや非同期観測といった観測上の複雑さに加えて、モデル自体の複雑さも存在する。これには主に「日中季節性」と「長期記憶性」がある。日中季節性とは、一日の取引開始時・取引終了時に取引が集中するという性質である。また長期記憶性とは、一度ボラティリティが上昇すると、それが長期にわたって継続されやすいという性質である。前述の手法を用いても、このようなモデル自体が複雑なものを包括的に扱うことのできるパラメトリック・モデルを事前に設定することは難しい。
こうした場合の有力なアプローチとして、機械学習を用いた手法が考えられる。すなわち、事前にモデルを設定することに代えて、観測されたデータから当該データのモデル構造を学習させるというものである。機械学習は、大量の学習データから当該データの特性を学習させ、コンピュータを用いた計算から背後にあるモデル構造を特定する。近年、時系列データを取り扱うニューラル・ネットワークとして、RNNなどが研究されている。しかしながら、多くの機械学習はユークリッド空間上のデータに対する手法であるため、観測上の複雑さを持つ高頻度非同期データに直接適用することはできない。
これに対し本発明者は、高頻度非同期データを時間の関数とみて関数空間上の要素として扱い、機械学習理論をこの空間上の理論へと発展させることにより、当該データを確率過程論と融合させて扱うことができることに気が付いた。具体的には、高頻度非同期データを扱うことのできる疑似対数尤度関数をニューラル・ネットワークと融合することで、効率的な学習が実現できると考えられる。しかしながら、疑似対数尤度関数をニューラル・ネットワークにそのまま適用すると、疑似対数尤度関数にバイアスが発生する。このため計算が一定の速さで収束しないという問題がある。これは計算精度の低下を招く。従ってこのバイアスをいかに補正するかが課題となる。さらに疑似対数尤度関数の計算では、逆行列を算出するときの計算負荷が非常に大きくなる。従って、この逆行列計算を高速化することも実用上の大きな課題となる。
上記課題を解決するために、本発明のある態様のデータ処理方法は、時系列データを取得するステップと、時系列データの時間変化の要因である説明変数を取得するステップと、時系列データと説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化するステップと、最適化されたパラメータに基づいて、時系列データの分散を推定するステップと、を備える。
パラメータを最適化するステップは、バイアスを補正するステップをさらに含んでもよい。
パラメータを最適化するステップは、高速近似計算を用いて逆行列を計算するステップをさらに含んでもよい。
時系列データは複数種類の時系列データであってもよく、時系列データの分散を推定するステップは、時系列データの共分散を推定するステップをさらに含んでもよい。
パラメータを最適化するステップは、ニューラル・ネットワークを用いてもよい。
本方法は、説明変数を平均化するステップをさらに備えてもよい。
疑似対数尤度関数を最大化するステップは、高速近似計算を用いて、行列式の対数を計算するステップをさらに含んでもよい。
時系列データは、株価データであってよい。
本発明の別の態様のデータ処理装置は、時系列データを取得する時系列データ取得部と、時系列データの時間変化の要因である説明変数を取得する説明変数取得部と、時系列データと説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化するパラメータ最適化部と、最適化されたパラメータに基づいて、時系列データの分散を推定する分散推定部と、を備える。
本発明のさらに別の態様のプログラムは、時系列データを取得するステップと、時系列データの時間変化の要因である説明変数を取得するステップと、時系列データと説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化するステップと、最適化されたパラメータに基づいて、時系列データの分散を推定するステップと、をコンピュータに実行させる。
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、高頻度非同期データの分散・共分散を求めることができる。
実際に観測された株価データに関し、隣接する時間間隔を変化させて計算したときのRV値を示す図である。 一実施形態に係るデータ処理方法の処理フロー図である。 一実施形態に係るデータ処理方法に用いるニューラル・ネットワークを示す図である。 実際の午前の取引で発生した日内株価データを基に予測した株価のボラティリティを示す図である。 実際の午後の取引で発生した日内株価データを基に予測した株価のボラティリティを示す図である。 電力会社株のRV値について、実データに基づく算出値と本手法を用いた予測値との比較を示す図である。
具体的な実施例を説明する前に、高頻度非同期データの例として株価データを取り上げて、基礎となる事項を説明する。以下、記号を簡略化するため時間単位を変換し、観測の最終時刻を1に規格化したデータを取り扱う。
複数銘柄の株価を考えたとき、時刻tにおけるi番目の銘柄の株価Y は、以下のような確率過程に従って時間変化するものと仮定する。この確率過程は拡散過程と呼ばれる。
ここで、Xは説明変数、aおよびbijは未知の非線形関数、W はブラウン運動である。説明変数は上記の銘柄の株価の時間的変化の要因となる変数であって、例えば当該銘柄の値動き、別銘柄の値動き、日経平均株価等の株価指数、取引量などに関する情報である。上記の拡散過程の式の右辺第1項は時間に比例して動く部分を表し、右辺第2項はランダムな拡散項を表す。高頻度非同期データの場合、この拡散項を求めることが課題となる。右辺第2項に含まれる非線形関数bij(t、X)は、時刻tにおける瞬間的なボラティリティ(以下、「瞬間的ボラティリティ」という)を表す量である。ボラティリティ<Yおよび共変動<Y、Yは、瞬間的ボラティリティbij(t、X)に基づいて以下のように算出される。
(実施例)
以下、本発明に係るデータ処理方法の一実施形態を詳細に説明する。
図2は、本実施形態の処理フロー図である。ステップ10で本方法は、観測時刻s 、...s およびs 、...、s におけるそれぞれの時系列データY 、...Y およびY 、...、Y を取得する。ここで、上付き添字はデータの種類を表し、下付き添字はデータを取得した順番を示す。例えば時系列データが銘柄1および2の日内対数株価だった場合、s は銘柄1のその日のi番目の取引発生時刻を表し、Y は時刻s における銘柄1の対数株価を表す。なお、本例では時系列データの種類が2つの場合について説明するが、これは1種類のみであってもよく、3種類以上であってもよい。時系列データが1種類のみの場合は、後述の分散のみが計算され、共分散は計算されない。
ステップ20で本方法は、上記の時系列データの説明変数(t、X)を取得する。
ステップ30で本方法は、時系列データの分散を決めるパラメータを最適化する。以下、瞬間的ボラティリティb(t、X)の推定値bli はパラメータβを含むとして、bli (β)で表す。βを最適化することにより、bli (β)の最適値が定まり、これによりデータの分散・共分散が計算される。以下に説明するように、βの最適化は、疑似対数尤度関数を最大化することにより達成される。以下、ニューラル・ネットワークを用いてβの最適化を実行する例を説明する。図3は、多次元パラメータβを持つニューラル・ネットワークb(χ;β)を示す。この場合、ニューラル・ネットワークb(χ;β)への入力値は説明変数(t、X)であり、ニューラル・ネットワークb(χ;β)からの出力値は瞬間的ボラティリティの推定値bli (β)である。パラメータβ={β i,j}に対し、中間層の値u を以下のように定める。
(u 、u 、u )=(t、X、X
=(Σβ i,jk−1
ij=ΣβK+1 l,2i+j−2
ここで記号(・・・)は、括弧内の値と0とを比較し、いずれか大きい方の値を取ることを意味する。
以下、疑似対数尤度関数H(β)を最大化することによりβを最適化する処理について説明する。
先ず、観測区間全体を等間隔のブロック[u、u)、[u、u)、...、[up−1、u)に分割する。例えば時系列データが日内株価データだった場合、観測区間全体は1日の取引時間全体である。
次に観測の増分Δを以下の式で表す。
ここでTはベクトルや行列の転置を表す。ノイズが加算的で平均0の正規分布に従うとみなすことにより、Δは元の確率過程と同様に、局所的に多変量正規分布で近似することができる。
次に分散共分散行列S(β、ν、ν)を以下の式で定義する。
分散共分散行列S(β、ν、ν)の各成分は以下の通りである。
(β)=(bli (β))
(Ml、kij=2δij−δi、j−1−δi−1、j
(Ll、kij=δij(s −s i−1
(L1、2、kij=(s ∧s −s i−1∨s j−1
ここでδijはクロネッカーのデルタであり、X∧YはXとYの小さい方の値を取り、X∨YはXとYの大きい方の値を取ることを意味する。
そして、ノイズ分散の推定量
に対して、疑似対数尤度関数H(β)を以下のように定義する。
非特許文献1に記載された技術では、パラメータβの最適値として、H(β)を最大にするときのβを算出する。しかしながら、以下に説明するように、疑似対数尤度関数をニューラル・ネットワークに適用した場合は、疑似対数尤度関数にバイアスが発生する。これは推定値精度の低下を招く。この問題を解決するために、本発明では発生したバイアスを補正する。以下、バイアス補正処理の一例を説明する。
(バイアスの補正)
ステップ32で本方法は、疑似対数尤度関数のバイアスを補正する。
非特許文献1に記載された技術では、H(β)を最大にするときのβの値をβとすると、
「あるβが一意に存在してb(X)=b(X;β)」 (1)
という条件が成立するときに、ある確率変数Aに対し、
β−β〜(m+n)−1/4
が成立している。ここで、mおよびnはそれぞれY およびY の観測数である。βはパラメータ推定量、βは真のパラメータ値である。すなわちこの場合、観測数が増加するとともに、βは観測数の−1/4乗の速さで真の値βに近づいていく。さらにこの収束の速さは、推定量の種類に関わらず、最も速いものであることも証明されていた。
しかしながら上記の条件(1)は、疑似対数尤度関数をニューラル・ネットワークに適用した場合は通常成立しない。これは疑似対数尤度関数にバイアスが発生するためと考えられる。このようにβが(m+n)−1/4の速さで収束しないことは、βの推定精度が低下することを意味する。
本発明者は、以下の手法を用いてバイアスを補正し、補正後の新たな疑似対数尤度関数H(β)を適用することにより、H(β)を最大にするときのβの値βが(m+n)−1/4の速さで収束することに気が付いた。
先ず関数g(x)およびg l、kを以下のように定義する。
g(x)=x∧(1−x)
l、k=g(l/m
ここでm は、データ列を複数のブロックに分割したときの、k番目のブロックにおけるj番目の変数の観測数を表す。
さらに、(i、j)成分が以下のように定義される2×2行列Bを導入する。
さらに以下の関数を導入する。
ここで、バイアス補正された疑似対数尤度関数H(β)を以下のように定義する。
(β)=H(β)+1/2・Σ k=2(G1、k(β)+G2、k(β)+G3,k(β))
本式に示されるように、従来のH(β)に補正項(第2項以降)を付加したH(β)を導入すると、H(β)を最大にするときのβの値βは、(m+n)−1/4の速さで収束する。従ってこのようにバイアスを補正することにより、疑似対数尤度関数をニューラル・ネットワークに適用した場合も、パラメータβの最適値βを得ることができる。
(逆行列の高速近似計算)
ステップ34で本方法は、高速近似計算を用いて逆行列を計算する。
(β)を計算するためには、分散共分散行列Sの逆行列
を求める必要がある。通常ニューラル・ネットワークの計算には、GPU(Graphics Processing Unit)による並列化計算が用いられる。しかしながら逆行列計算は並列化が難しいため、実用面での大きなネックとなる。本発明者は、前述の分散共分散行列が特殊な形を持つことに着目し、この特殊な形を利用することにより逆行列を高速に近似計算できることに気が付いた。以下、高速近似計算の一例を説明する。
分散共分散行列の逆行列は、
と置くことにより、以下のように行列の無限級数として表現することができる。
この級数は収束が速いため、有限のr(例えばr=10)までの部分和による近似計算で高い精度の計算結果が得られる。この部分和による近似は行列の積に帰着することから、結局はE の高速化だけが課題となる。すなわちE の定義式から分かるように、E の算出には逆行列計算が必要であるため、これを高速化する必要がある。以下、このための高速近似計算の一例を説明する。
まず、
とおく。n はその定義から分かるように、複数のブロックを左から順に並べたとき、k番目のブロックにおける一番右側にあるデータY の添字iの値である。
これらを基に数列cj、k を以下のように帰納的に定義する。
(i≧2)
これを用いることにより、E は以下のように表現することができる。
j、k は逐次的に計算できることから、結局E の逆行列計算は、計算負荷の小さい行列の積に計算に帰着する。このようにして逆行列計算を高速化することができる。
(行列式の対数の高速近似計算)
(β)の計算、すなわちH(β)の計算では、log detSを算出する必要がある。この行列式の対数の計算も、計算負荷の面で課題となる。本発明者は、以下の手法を用いることにより、これも高速化することができることに気が付いた。
log detSは、以下のように表現することができる。
これと前述のE の表現
から、
となることを用いれば、log detSを計算することができる。
無限級数
も前述と同様に収束が速いため、有限のrまでの部分和による近似計算で高い精度の計算結果が得られる。
このようにして行列式の対数の計算を高速化することができる。
パラメータβの最適化は、−H(β)をニューラル・ネットワークの損失関数としてこれを最小化することによって、換言すればH(β)を最大化することによって実現することができる。具体的な計算には、既存のニューラル・ネットワークの最適化手法が適用されてよい。一例として、AdaDeltaによる手法が用いられてよい。
ステップ40で本方法は、ステップ30で最適化されたパラメータに基づき、時系列データの分散・共分散を計算する。前述のように、パラメータβの最適値が定まると、
ij(β)=ΣβK+1 l,2i+j−2
から瞬間的ボラティリティの最適値bij(β)が定まる。
これに基づき、Yのボラティリティ<Yと、Y、Yの共変動<Y、Yを以下のように推定することができる。
以上で本実施形態の説明を終える。
なお本発明は高頻度非同期データを対象とする場合に特に有用であるが、低頻度に発生するデータや同期的に観測されるデータの統計解析に対しても十分な効果を奏することはいうまでもない。
(説明変数の平均化)
一般に時系列データが高頻度非同期データだった場合、その説明変数の観測値X=(X j=1にもマイクロストラクチャー・ノイズが混入している可能性がある。説明変数に含まれるマイクロストラクチャー・ノイズを除去するために、選択的に、説明変数の平均化処理を行ってもよい。以下、説明変数の平均化処理の一例を説明する。
平均化処理では、観測区間全体を等間隔のブロック[u、u)、[u、u)、...、[up−1、u)に分割した上で、ブロック[uk−1、u)における説明変数のX の平均値Z
で定義する。
ここで、h はブロック[uk−1、u)内のX の個数、t は観測時刻である(1≦j≦q)。前述の実施形態の各ステップにおける処理では、生の説明変数X に代えて、各ブロックにおけるX の平均値Z を用いる。このように説明変数に平均化処理を施すことにより、説明変数に混入したマイクロストラクチャー・ノイズの影響を緩和することができ、推定精度をさらに向上させることができる。
(株価の分散・共分散予測への応用)
これまで述べてきたように、日内の株価データは、高頻度非同期データの典型的な例である。本発明を用いた株価の分散・共分散の推定は、ポートフォリオのリスク・コントロール等、様々な局面に応用することができる。
例えば一般に金融機関は、保有する株式の株価変動による金融資産価値の変動をコントロールする必要がある。このため金融機関は、株価データや財務データから統計解析を用いて将来の株価の分散・共分散を予測してリスク・コントロールを行っている。特に年金基金の株式運用やインデックス・ファンドの運用においては、株価変動リスクをより正確にコントロールすることが求められるため、株価の分散・共分散を高い精度で予測することが必要となる。このような目的に対して、本発明の手法を用いた、日内株価データに基づく分散・共分散の予測は極めて有効であることが期待される。
大規模災害や金融危機などにより金融市場を取り巻く状況が急変した場合、株価のボラティリティが急激に上昇することはよく知られている。このような場合、終値等の低頻度データだけでは値動きの予測は非常に困難となる。このような場合にも、日内の株価データを観測し、本発明の手法を用いて統計解析することにより、分散・共分散の予測精度を向上させることができる。
その他にも本発明の手法は、株式市場監視の現場で、異常取引や不正取引の検知などに応用することもできる。すなわち、価格操作などが行われる傾向のあるとき、本発明の手法を用いて株価の分散・共分散を解析することにより、特定の投資家が株価ボラティリティを上げるなどの動きを検知することができる。
(電力の需要予測)
高頻度非同期データの別の例として、電力消費量のデータがある。特に猛暑期や特定のイベントがあるときなどは電力需要が大きく変わるため、これを予測することは重要である。本発明は、時々刻々モニタされる電力消費量データに基づいて、電力需要の分散・共分散を予測することに応用することができる。
(ネットワーク・サーバの需要予測)
ネットワーク・サーバの運用者にとって、サーバの需要を予測することは、サーバの効率的管理と安定的なサービス提供のために重要な課題である。本発明は、時々刻々モニタされるサーバの利用状況のデータに基づいて、サーバ需要の分散・共分散を予測することに応用することができる。
(実験例1)
図4A−4Cおよび図5A−5Cは、東京証券取引所における実際の日内株価データを基に、本発明の手法を用いて株価のボラティリティを予測した結果を示す。図4A−4Cは午前の取引時間帯におけるデータ、図5A−5Cは午後の取引時間帯におけるデータである。A、BおよびCの各社は、自動車関連の大型銘柄である。各図とも、株価のボラティリティの大きさを、規格化した時刻tおよび価格xの関数として予測したものである。午前の取引時間帯での予測結果からは、朝の取引開始時にボラティリティが高く、その後午前の取引終了時刻に向けて単調に減少する傾向が見られる。午後の取引時間帯での予測結果からは、やはり取引開始時にボラティリティが高く、その後単調に減少し、銘柄によっては取引終了間際に上昇する傾向が見られる。これらの傾向は、実際に市場で観測される現象と整合している。本実験例によれば、本手法を用いたボラティリティ予測が、日内株価のデータ構造を正しく分析していることが理解できる。
(実験例2)
図6は、2011年3月10日の東日本震災前後における、ある電力会社株のRVについて、30分間隔の実データに基づく算出値と本発明の手法を用いた予測値とを比較した結果である。実データに基づく算出値によると、3月10日以降急激に、極めて大きなRVが発生していることが分かる。本手法による予測値も、実データに基づく算出値に追随して、3月10日以降の高いRVを示している。従来の1日1回程度の低頻度データによる予測では、RVの変動を予測するのに数ヶ月分のデータを要していた。本実験例によれば、本手法を用いたボラティリティ予測値が、ボラティリティの急激な上昇に対して迅速に反応していることが理解できる。
以上、本発明を実施例を基に説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
高頻度非同期データには上に挙げたものの他、例えば、為替レート、放送の視聴率、インターネットサイトへのアクセス数、医療用センサからの身体データ、気象データ、地震データ、自動車の交通量、選挙の開票データ等様々なものがある。本発明による手法はこうした様々なデータに適用が可能であり、産業上の利用性が高いものである。
10 時系列データを取得するステップ、 20 説明変数を取得するステップ、 30 パラメータを最適化するステップ、 32 疑似対数尤度関数のバイアスを補正するステップ、 34 高速近似計算を用いて逆行列を計算するステップ、 40 時系列データの分散・共分散を計算するステップ

Claims (10)

  1. 時系列データを取得するステップと、
    前記時系列データの時間変化の要因である説明変数を取得するステップと、
    前記時系列データと前記説明変数とに基づいて、疑似対数尤度関数を最大化することにより、前記時系列データの分散を決めるパラメータを最適化するステップと、
    最適化された前記パラメータに基づいて、前記時系列データの分散を推定するステップと、
    を備える、データ処理方法。
  2. 前記パラメータを最適化するステップは、バイアスを補正するステップをさらに含む
    ことを特徴とする、請求項1に記載のデータ処理方法。
  3. 前記パラメータを最適化するステップは、高速近似計算を用いて逆行列を計算するステップをさらに含む
    ことを特徴とする、請求項1または2に記載のデータ処理方法。
  4. 前記時系列データは複数種類の時系列データであり、
    前記時系列データの分散を推定するステップは、前記時系列データの共分散を推定するステップをさらに含む
    ことを特徴とする、請求項1乃至3のいずれか一項に記載のデータ処理方法。
  5. 前記パラメータを最適化するステップは、ニューラル・ネットワークを用いる
    ことを特徴とする、請求項1乃至4のいずれか一項に記載のデータ処理方法。
  6. 前記説明変数を平均化するステップをさらに備える、
    請求項1乃至5のいずれか一項に記載のデータ処理方法。
  7. 前記パラメータを最適化するステップは、高速近似計算を用いて、行列式の対数を計算するステップをさらに含む
    ことを特徴とする、請求項1乃至6のいずれか一項に記載のデータ処理方法。
  8. 前記時系列データは、株価データである
    ことを特徴とする、請求項1乃至7のいずれか一項に記載のデータ処理方法。
  9. 時系列データを取得する時系列データ取得部と、
    前記時系列データの時間変化の要因である説明変数を取得する説明変数取得部と、
    前記時系列データと前記説明変数とに基づいて、疑似対数尤度関数を最大化することにより、時系列データの分散を決めるパラメータを最適化するパラメータ最適化部と、
    最適化された前記パラメータに基づいて、前記時系列データの分散を推定する分散推定部と、
    を備える、データ処理装置。
  10. 時系列データを取得するステップと、
    前記時系列データの時間変化の要因である説明変数を取得するステップと、
    前記時系列データと前記説明変数とに基づいて、疑似対数尤度関数を最大化することにより、前記時系列データの分散を決めるパラメータを最適化するステップと、
    最適化された前記パラメータに基づいて、前記時系列データの分散を推定するステップと、
    をコンピュータに実行させる、プログラム。
JP2018007192A 2018-01-19 2018-01-19 データ処理方法、データ処理装置およびプログラム Pending JP2019125306A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018007192A JP2019125306A (ja) 2018-01-19 2018-01-19 データ処理方法、データ処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018007192A JP2019125306A (ja) 2018-01-19 2018-01-19 データ処理方法、データ処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2019125306A true JP2019125306A (ja) 2019-07-25

Family

ID=67398865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018007192A Pending JP2019125306A (ja) 2018-01-19 2018-01-19 データ処理方法、データ処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2019125306A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111370122A (zh) * 2020-02-27 2020-07-03 西安交通大学 一种基于知识指导的时序数据风险预测方法、系统及其应用
JPWO2021033503A1 (ja) * 2019-08-20 2021-02-25
JPWO2021033502A1 (ja) * 2019-08-20 2021-02-25
JPWO2021033501A1 (ja) * 2019-08-20 2021-02-25

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021033503A1 (ja) * 2019-08-20 2021-02-25
JPWO2021033502A1 (ja) * 2019-08-20 2021-02-25
JPWO2021033501A1 (ja) * 2019-08-20 2021-02-25
JP7216359B2 (ja) 2019-08-20 2023-02-01 日本電気株式会社 地震観測装置、地震観測方法および地震観測プログラム
JP7282306B2 (ja) 2019-08-20 2023-05-29 日本電気株式会社 地震観測装置、地震観測方法および地震観測プログラム
JP7282305B2 (ja) 2019-08-20 2023-05-29 日本電気株式会社 地震観測装置、地震観測方法および地震観測プログラム
US11835670B2 (en) 2019-08-20 2023-12-05 Nec Corporation Seismic observation device, seismic observation method, and recording medium in which seismic observation program is recorded
US11906678B2 (en) 2019-08-20 2024-02-20 Nec Corporation Seismic observation device, seismic observation method, and recording medium on which seismic observation program is recorded
CN111370122A (zh) * 2020-02-27 2020-07-03 西安交通大学 一种基于知识指导的时序数据风险预测方法、系统及其应用
CN111370122B (zh) * 2020-02-27 2023-12-19 西安交通大学 一种基于知识指导的时序数据风险预测方法、系统及其应用

Similar Documents

Publication Publication Date Title
Abu-Shikhah et al. Medium-term electric load forecasting using singular value decomposition
Rathnayaka et al. A hybrid statistical approach for stock market forecasting based on artificial neural network and ARIMA time series models
JP2019125306A (ja) データ処理方法、データ処理装置およびプログラム
Cifter Value-at-risk estimation with wavelet-based extreme value theory: Evidence from emerging markets
Bee et al. Realizing the extremes: Estimation of tail-risk measures from a high-frequency perspective
Dhyani et al. Stock market forecasting technique using arima model
Jadid Abdulkadir et al. Unscented kalman filter for noisy multivariate financial time-series data
Carriero Forecasting the yield curve using priors from no‐arbitrage affine term structure models
Gorgi et al. Beta observation-driven models with exogenous regressors: A joint analysis of realized correlation and leverage effects
Wang et al. Volatility forecast of stock indices by model averaging using high-frequency data
Wichaidit et al. Predicting SET50 stock prices using CARIMA (cross correlation ARIMA)
Sudipa et al. Trend Forecasting of the Top 3 Indonesian Bank Stocks Using the ARIMA Method
Hajdini et al. Predictable forecast errors in full-information rational expectations models with regime shifts
Xu et al. Causal decomposition on multiple time scales: Evidence from stock price-volume time series
Li et al. Optimal pairs trading with time-varying volatility
Lum et al. Industrial electrical energy consumption forecasting by using temporal convolutional neural networks
Ładyżyński et al. Particle swarm intelligence tunning of fuzzy geometric protoforms for price patterns recognition and stock trading
Kim et al. Neural network heterogeneous autoregressive models for realized volatility
Uddin et al. Comparison of some statistical forecasting techniques with GMDH predictor: A case study
Boudrioua et al. Modeling and forecasting the algerian stock exchange using the Box-Jenkins methodology
Mehrdoust et al. Valuation of option price in commodity markets described by a Markov-switching model: A case study of WTI crude oil market
Pavel et al. Decision Making Process of Stock Trading Implementing DRQN And ARIMA
Filipović et al. Empirical Asset Pricing via Ensemble Gaussian Process Regression
Calvet et al. State-observation sampling and the econometrics of learning models
Lei et al. Analysis of gold and bitcoin price prediction based on LSTM model