JP2020522774A

JP2020522774A - サーバ、金融時系列データの処理方法及び記憶媒体

Info

Publication number: JP2020522774A
Application number: JP2019556878A
Authority: JP
Inventors: 正洋李; 海疆李
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-10
Filing date: 2018-09-26
Publication date: 2020-07-30
Anticipated expiration: 2038-09-26
Also published as: CN108615096A; WO2019214143A1; JP6812573B2

Abstract

【解決手段】本発明はサーバ、金融時系列データの処理方法及び記憶媒体を提供し、該方法は、異なる所定時間ステップのスライディングウィンドウを設定し、スライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことによりサンプルデータを得ることと、各サンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各モデルを得て予測モデルとすることと、欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値の平均値を取得して当該欠損値の充填値とすることと、を含む。本願は予測により正確で、客観的な欠損値を得ることができる。

Description

「関連出願の相互参照」
本願は、２０１８年５月１０日に提出された、中国特許出願第２０１８１０４４１４１４６号で、名称が「サーバ、金融時系列データの処理方法及び記憶媒体」である中国特許出願の優先権をパリ条約により主張し、当該出願の全体内容は参照の方式により本願に組み込まれる。

本願は、データ処理技術の分野に関し、特に、サーバ、金融時系列データの処理方法及び記憶媒体に関する。

金融時系列データは時系列という統計的特徴を有し、様々な種類がある。例えば、価格−取引高型の金融時系列データとして、株式、先物、外貨等の始値、終値、高値、安値、取引高データが挙げられ、また派生指標の金融時系列データとして、中債国債最終利回り−中債企業債最終利回り、リスクプレミアム、配当利回り、ＣＲ指標、大型株と小型株の売買回転率の比、ＲＳＲＳ指標、滬深３００プレミアムレート、滬深３００テイクザオファー金額等が挙げられる。実際に、様々な要因により金融時系列データは欠損してしまう。例えば、上場会社の株式取引停止により当日の始値、終値、高値、安値、取引高等情報が欠損すること、オープンプラットフォームでは対応する金融時系列データを取得できないこと、オープンプラットフォームで取得された金融時系列データと実際値との間に顕著な差が存在することが挙げられる。

欠損値を処理するための従来の方法として、手動記入、特殊値充填、平均値充填、近方補完、クラスターリングによる充填等が挙げられる。しかしながら、金融時系列データの場合、時間的な依存関係があるため、従来の単純な処理方法で得られた欠損値は正確性に欠け、実際の金融時系列データの分布を最大限にシミュレーションすることができず、情報の損失を引き起こし、後続の金融時系列データの使用に影響が及ぶことが多い。

本願は、予測により正確で、客観的な欠損値を得るために、サーバ、金融時系列データの処理方法及び記憶媒体を提供することを目的とする。

本願は、上記目的を達成するために、サーバを提供し、前記サーバはストレージ及び前記ストレージに接続されたプロセッサを含み、前記ストレージに前記プロセッサにおいて動作可能な処理システムが記憶され、前記処理システムが前記プロセッサによって実行される時、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップと、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとするステップと、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとするステップと、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とするステップとを実現する。

さらに、本願は、上記目的を達成するために、金融時系列データの処理方法を提供し、前記金融時系列データの処理方法は、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得る、Ｓ１と、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする、Ｓ２と、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする、Ｓ３と、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とする、Ｓ４とを含む。

さらに、本願は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体に処理システムが記憶され、前記処理システムがプロセッサによって実行される時、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップと、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとするステップと、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとするステップと、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とするステップとを実現する。

本願は次の有益な効果を有する。本願は、回帰型ニューラルネットワークモデルを利用して金融時系列データにおける欠損値を処理及び予測することにより、金融時系列データの前後依存関係を捕捉することができ、欠損値の充填値は複数種のモデルの平均値から得られるため、より客観的で、正確であり、実際の金融時系列データの全体的な分布を最大限に再現できる。

本願によるサーバの一つの実施例のハードウェア構成を概略的に示す図である。ＬＳＴＭモデルの構造を概略的に示す図である。図２に変更を加えたＬＳＴＭモデルの構造を概略的に示す図である。本願による金融時系列データの処理方法の一つの実施例のフローチャートである。

本発明の目的、技術的解決手段及び利点をより明確にするために、以下、各図及び実施例を用いて、本願をより詳細に説明する。なお、本明細書に記載される具体的な実施例は本願を解釈するためのものに過ぎず、本願を限定するためのものではない。当業者が本願の実施例に基づき創造的な作業を行うことなく得ているその他の全ての実施例は、いずれも本願の保護範囲に含まれるものとする。

なお、本願で「第１」、「第２」等を含む内容は説明目的のものに過ぎず、相対的な重要性を指示又は示唆するものでも、関係する技術的特徴の数量を暗黙的に指示するものでもない。したがって、「第１」、「第２」で限定される特徴は少なくとも１つの当該特徴を明確に又は暗黙的に含むことができる。また、各実施例による技術的解決手段は互いに組み合わせることができるが、ただし当業者がこれを実現できることは前提となり、技術的解決手段の組み合わせにより矛盾が生じたり実現できなくしたりする場合はかかる技術的解決手段の組み合わせは認められず、本願に求める保護範囲にないものとする。

図１は、本願によるサーバの一つの実施例のハードウェア構成を概略的に示す図である。サーバ１は予め設定された又は記憶されたコマンドに従って、数値計算及び／又は情報処理を自動的に行うことができる機器である。サーバ１はコンピュータ、単一のネットワークサーバ、複数のネットワークサーバからなるサーバ群、又はクラウドコンピューティングに基づく大量のホストもしくはネットワークサーバからなるクラウド型機器とすることができ、そのうちクラウドコンピューティングは分散型コンピュータの一種で、疎結合される複数のコンピュータからなる大型の仮想コンピュータである。

本実施例において、サーバ１はシステムバスを介して互いに通信可能に接続されるストレージ１１、プロセッサ１２及びネットワークインタフェース１３を含むが、ただしこれらに限定されるものではない。ストレージ１１にはプロセッサ１２において動作可能な処理システムが記憶される。なお、図１でコンポーネント１１〜１３を有するサーバ１が示されるが、必ずしもここに示す全てのコンポーネントで実施するとは限らず、その代わりにより多い又は少ないコンポーネントでの実施も可能である。

ただし、ストレージ１１はメモリ及び少なくとも１種の読み取り可能な記憶媒体を含む。メモリはサーバ１が動作するためのキャッシュメモリを提供する。読み取り可能な記憶媒体はフラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ（例えば、ＳＤ又はＤＸメモリ等）、ランダムアクセスメモリ（ＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、プログラマブルリードオンリーメモリ（ＰＲＯＭ）、磁気メモリ、磁気ディスク、光ディスク等不揮発性記憶媒体とすることができる。いくつかの実施例において、読み取り可能な記憶媒体はサーバの内部記憶ユニット、例えばサーバ１のハードディスクとすることができる。別の実施例において、当該不揮発性記憶媒体はサーバ１の外部記憶機器、例えばサーバ１に配置されたプラグイン式ハードディスク、スマートメディアカード（ＳｍａｒｔＭｅｄｉａ(登録商標) Ｃａｒｄ、略称ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ、略称ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）等とすることができる。本実施例において、ストレージ１１の読み取り可能な記憶媒体は一般にサーバ１にインストールされているオペレーティングシステム及び各種のアプリケーションソフトウェア、例えば本願の一つの実施例による処理システムのプログラムコード等を記憶するために用いられる。また、ストレージ１１は、既に出力された又は出力されようとする各種データを一時的に記憶するためにも用いられる。

いくつかの実施例において、プロセッサ１２は中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、略称ＣＰＵ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップとすることができる。プロセッサ１２は一般にサーバ１の全体的な動作を制御し、例えば前記その他の機器とのデータ交換又は通信に関連する制御及び処理を実行するために用いられる。本実施例において、プロセッサ１２はストレージ１１に記憶されているプログラムコードを動作させる又はデータを処理する、例えば処理システムを動作させるために用いられる。

ネットワークインタフェース１３は無線ネットワークインタフェース又は有線ネットワークインタフェースを含んでもよく、ネットワークインタフェース１３は一般にサーバ１とその他の電子機器との間に通信接続を確立するために用いられる。本実施例において、ネットワークインタフェース１３は主にサーバ１と１つ以上の端末機器２を接続して、サーバ１と１つ以上の端末機器２との間にデータ伝送チャネル及び通信接続を確立するために用いられる。

前記処理システムは、ストレージ１１に記憶され、ストレージ１１に記憶されている少なくとも１つのコンピュータ読み取り可能なコマンドを含み、当該少なくとも１つのコンピュータ読み取り可能なコマンドは、プロセッサ１２によって実行されることにより、本願の各実施例による方法を実現し、また、当該少なくとも１つのコンピュータ読み取り可能なコマンドはその各部分が実現する機能によって、異なる論理モジュールに分割されてもよい。

一つの実施例において、上記処理システムがプロセッサ１２によって実行される時、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップを実現する。
ただし、所定時間ステップは、６つの時間単位、１１の時間単位、及び１６の時間単位を含み、時間単位とは金融時系列データの粒度単位を指し、例えば、日を粒度とする金融時系列データの場合、その時間単位は日であり、分間を粒度とする高頻度金融時系列データの場合、その時間単位は分である。

６つの時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は６桁であり、サンプリングして得たサンプルデータの桁数は６桁である。１１の時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は１１桁であり、サンプリングして得たサンプルデータの桁数は６桁である。例えば、サンプリングして得たサンプルデータは（ｘ１，ｘ３，ｘ５，ｘ７，ｘ９，ｘ１１）で、即ちサンプリングウィンドウデータのうちの１桁目、３桁目、５桁目、７桁目、９桁目、１１桁目のデータである。１６の時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は１６桁であり、サンプリングして得たサンプルデータの桁数は６桁である。例えば、サンプリングして得たサンプルデータは（ｘ１，ｘ４，ｘ７，ｘ１０，ｘ１３，ｘ１６）で、即ちサンプリングウィンドウデータのうちの１桁目、４桁目、７桁目、１０桁目、１３桁目、１６桁目のデータである。

ここで、所定時間ステップが異なるスライディングウィンドウを設定することの目的は、サンプルデータの長さを変更することなく、捕捉された情報の時間範囲及び相関関係を拡大させることである。欠損値を含まない金融時系列データに対してサンプリングを行うことによりサンプルデータを得て、当該サンプルデータを利用してモデルをトレーニングすることにより、正確率が比較的高いモデルを得る。

各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする。
ただし、所定の回帰型ニューラルネットワークモデルは２つ以上の回帰型ニューラルネットワークによるハイブリッドモデルであり、好ましくは、長・短期記憶ネットワークモデル（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、略称ＬＳＴＭ）及びゲート付き回帰型ユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、略称ＧＲＵ）からなるハイブリッドモデルであり、ＬＳＴＭモデル及びＧＲＵモデルはいずれも時系列の前後依存関係を捕捉するために用いることができる。

一つの実施例において、当該ステップは、各種類の所定時間ステップに対応するサンプルデータを第１の割合のトレーニングセット及び第２の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第１の割合と第２の割合和は１以下であることと、各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む。

ただし、各所定時間ステップに対応するサンプルデータは独立同分布と見なせるため、トレーニングセット及びテストセットに対してランダムサンプリングを適用し、トレーニングセットが占める割合は７０％、テストセットが占める割合は３０％とし、例えば、トレーニングセットは７万個のサンプルデータを含み、テストセットは３万個のサンプルデータを含む。

好ましくは、トレーニングセットにおいて、交差検証の方式を用いてトレーニングを行い、即ちトレーニングセットにおけるサンプルデータを１０個に分割し、毎回９個を使ってトレーニングを行い、１個のサンプルデータを検証セットとすることにより、検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行う。トレーニングセットにおいてトレーニングを行い、検証セットにおいてテスト結果を取得し、トレーニング回数が増加するに伴い、検証セットにおいてテスト誤差の上昇が確認される場合、即ちテスト誤差が所定の誤差閾値以上である場合、トレーニングを停止してトレーニング後の回帰型ニューラルネットワークモデルを得て、下記テストセットにおいてテストされるモデルとすることにより、モデルの過剰適合を効果的に回避できる。

具体的に、トレーニングセットを利用してＬＳＴＭモデルに対してトレーニングを行い、ＬＳＴＭモデル構造はＢｉ−ｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ構造を用いることができ、トレーニングセットのサンプルデータは（Ｘ１，Ｘ２，Ｘ３，Ｘ４，Ｘ５，Ｘ６）を含み、図２に示すように、（Ｘ１，Ｘ２，Ｘ３，Ｘ４，Ｘ５）は入力層で、Ａは隠れ層で、Ｓｔは出力である。ただし、隠れ層ＡはＬＳＴＭモデルの記憶ユニットで、モデルのパラメータであり、カレントの入力層の入力及び前ステップの隠れ層の出力から算出される。テストセットにおいてトレーニング後のＬＳＴＭモデルの正確率に対してテストを行う時、出力ＳｔとサンプルデータにおけるＸ６を比較することで、テストを行い、テスト結果はモデルの金融時系列データ分布に対する再現能力を示す。ＬＳＴＭモデルの正確率が所定の正確率閾値（例えば、０．９）以上である場合、ＬＳＴＭモデルは要件に合致するとし、当該トレーニング後のＬＳＴＭモデルを予測モデルとする。ＬＳＴＭモデルの正確率が所定の正確率閾値未満である場合、ＬＳＴＭモデルは要件に合致しないとし、ＬＳＴＭモデルの隠れ層の構造を修正し、図３に示すように、本実施例において、各時間点に対応して入力されるサンプルデータの隠れ層を単一隠れ層の形式から二重隠れ層のスタック構造に修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得る。

ＧＲＵモデルはＬＳＴＭモデルと構造が類似するが、ただし隠れ層の構造はＬＳＴＭモデルよりも複雑である。上述したものと同一のトレーニングセットを利用してＧＲＵモデルに対してトレーニングを行い、ＧＲＵモデルをトレーニングする過程はＬＳＴＭモデルをトレーニングする過程と基本的に一致し、且つ、トレーニングセットにおいて一部サンプルデータを抽出して検証セットとすることにより、モデルの過剰適合を効果的に回避できる。トレーニング後にテストセットを利用してトレーニング後のＧＲＵモデルに対してテストを行うことにより、ＧＲＵモデルの正確率を所定の正確率閾値以上にし、ＧＲＵモデルの正確率が当該正確率閾値未満である場合、ＧＲＵモデルの構造を修正してもよく、修正の方式はＬＳＴＭモデルの場合と類似する。

上記トレーニング及びテスト過程により、適合により各所定時間ステップに対応するＬＳＴＭモデル及びＧＲＵモデルを組み合わせてなるハイブリッドモデルを得て、予測モデルとする。

欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする。
本実施例において、最初に、欠損値の位置を特定し、金融時系列データは時系列であるため、欠損値の位置する時点により欠損値の位置を特定することができ、次に各位置の欠損値の桁数、例えば１桁又は２桁等と決定する。予測対象の欠損値の桁数に基づき、モデルに入力された金融時系列データの桁数を決定し、欠損値よりも前方の何桁かのデータを切り出して、入力対象データとする。

ただし、欠損値の桁数は一般に１桁又は２桁であり、入力対象データは５桁、６桁又は７桁であることが好ましく、５桁未満及び７桁超過の場合は通常好ましい効果を得られず、それは、５桁未満だと捕捉された時系列情報は少なく、７桁超過だと時系列が長くなり、情報のズレが大きいからである。好ましくは、欠損値の桁数と入力対象データの桁数の対応関係が以下の表１に示すとおりである。

表１によれば、欠損値の桁数が１桁である場合、切り出されるデータの桁数は５桁、６桁又は７桁と決定し、当該欠損値の位置よりも前方の５桁、６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとする。欠損値の桁数が２桁である場合、切り出されるデータの桁数は６桁又は７桁と決定し、当該欠損値の位置よりも前方の６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとする。

入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とする。

本実施例において、入力対象データを各ＧＲＵモデル及びＬＳＴＭモデルからなるハイブリッドモデルの予測モデルにそれぞれ入力する、即ち６つの時間単位に対応するハイブリッドモデル、１１の時間単位に対応するハイブリッドモデル、１６の時間単位に対応するハイブリッドモデルにそれぞれ入力し、３つのハイブリッドモデルが対応して出力した予測値Ｖ１、Ｖ２、Ｖ３を取得し、当該欠損値の充填値をＶ＝（Ｖ１＋Ｖ２＋Ｖ３）／３により算出し、欠損値の桁数が２桁である場合も、出力された対応する位置の予測値の平均値を算出する。当該欠損値の充填値Ｖは、金融時系列データの前後依存関係を捕捉することができ、且つ、３種類のハイブリッドモデルの平均値から得られるため、より客観的で、正確である。

従来技術と比較すると、本願は、欠損値を含まない金融時系列データに対して、異なる時間ステップのスライディングウィンドウを設定してデータを切り出し、切り出されたデータに対してサンプリングを行うことにより異なる時間ステップに対応するサンプルデータを得て、サンプルデータをトレーニングセット及びテストセットにそれぞれ分割して所定の回帰型ニューラルネットワークモデルをトレーニングすることにより、異なる時間ステップに対応する予測モデルを得る。欠損値を含む金融時系列データに対して、欠損値の位置を特定し且つ欠損値の桁数を決定し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、データを各予測モデルに入力して、各予測モデルによって出力される予測値を得て、各予測値の平均値を当該欠損値の充填値とするように構成され、本願は、回帰型ニューラルネットワークモデルを利用して金融時系列データにおける欠損値を処理及び予測することにより、金融時系列データの前後依存関係を捕捉することができ、欠損値の充填値は複数種のモデルの平均値から得られるため、より客観的で、正確であり、実際の金融時系列データの全体的な分布を最大限に再現できる。

図４は、本願による金融時系列データの処理方法の一つの実施例のフローチャートであり、当該金融時系列データの処理方法は、以下のステップＳ１〜Ｓ４を含む。
ステップＳ１において、異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得る。
ただし、所定時間ステップは、６つの時間単位、１１の時間単位、及び１６の時間単位を含み、時間単位とは金融時系列データの粒度単位を指し、例えば、日を粒度とする金融時系列データの場合、その時間単位は日であり、分間を粒度とする高頻度金融時系列データの場合、その時間単位は分である。

ステップＳ２において、各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする。
ただし、所定の回帰型ニューラルネットワークモデルは２つ以上の回帰型ニューラルネットワークによるハイブリッドモデルであり、好ましくは、長・短期記憶ネットワークモデル（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、略称ＬＳＴＭ）及びゲート付き回帰型ユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、略称ＧＲＵ）からなるハイブリッドモデルであり、ＬＳＴＭモデル及びＧＲＵモデルはいずれも時系列の前後依存関係を捕捉するために用いることができる。

ステップＳ３において、欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする。

本実施例において、最初に、欠損値の位置を特定し、金融時系列データは時系列であるため、欠損値の位置する時点により欠損値の位置を特定することができ、次に各位置の欠損値の桁数、例えば１桁又は２桁等と決定する。予測対象の欠損値の桁数に基づき、モデルに入力された金融時系列データの桁数を決定し、欠損値よりも前方の何桁かのデータを切り出して、入力対象データとする。

ただし、欠損値の桁数は一般に１桁又は２桁であり、入力対象データは５桁、６桁又は７桁であることが好ましく、５桁未満及び７桁超過の場合は通常好ましい効果を得られず、それは、５桁未満だと捕捉された時系列情報は少なく、７桁超過だと時系列が長くなり、情報のズレが大きいからである。好ましくは、上記表１に示すとおりである。

ステップＳ４において、入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とする。

さらに、本願は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体に処理システムが記憶され、前記処理システムがプロセッサによって実行される時、上記金融時系列データの処理方法のステップを実現する。

本願の実施例に記載された各番号は説明目的のものに過ぎず、実施例の優劣を示すものではない。

当業者は、実施形態に関する上記説明により、上記実施例の方法がソフトウェア及び必要な汎用ハードウェアプラットフォームの組み合わせの方式によって実現されてもよければ、ハードウェアによって実現されてもよいが、前者がより好ましい実施形態である場合は多いことを理解できるだろう。このような理解を踏まえ、本願の技術的解決手段の趣旨、即ち従来技術に対して貢献がある部分はソフトウェア製品の形式で表現されてもよく、当該コンピュータソフトウェア製品は１つの記憶媒体（例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶され、１つの端末機器（携帯電話、コンピュータ、サーバ、空調装置、又はネットワーク機器等とすることができる）が本願の各実施例に記載の方法を実行するための複数のコマンドを含む。

上記内容は本願の好ましい実施例に過ぎず、本願の特許請求の範囲を限定するためのものではない。本願の明細書及び図面の内容に基づいて行われる構造上の同等な変更又はプロセス上の変更、又はその他の関連する技術分野への直接又は間接的な適用は、いずれも本願の特許請求の範囲に含まれるものとする。

Claims

サーバであって、
前記サーバはストレージ及び前記ストレージに接続されたプロセッサを含み、前記ストレージに前記プロセッサにおいて動作可能な処理システムが記憶され、前記処理システムが前記プロセッサによって実行される時、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップと、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとするステップと、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとするステップと、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とするステップとを実現する
ことを特徴とするサーバ。
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする前記ステップは、具体的に、
各種類の所定時間ステップに対応するサンプルデータを第１の割合のトレーニングセット及び第２の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第１の割合と第２の割合和は１以下であることと、
各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、
テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、
当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、
当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む
ことを特徴とする請求項１に記載のサーバ。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
ことを特徴とする請求項１に記載のサーバ。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
ことを特徴とする請求項２に記載のサーバ。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
欠損値の桁数が１桁である場合、切り出されるデータの桁数は５桁、６桁又は７桁と決定し、当該欠損値の位置よりも前方の５桁、６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
欠損値の桁数が２桁である場合、切り出されるデータの桁数は６桁又は７桁と決定し、当該欠損値の位置よりも前方の６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
ことを特徴とする請求項３に記載のサーバ。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
欠損値の桁数が１桁である場合、切り出されるデータの桁数は５桁、６桁又は７桁と決定し、当該欠損値の位置よりも前方の５桁、６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
欠損値の桁数が２桁である場合、切り出されるデータの桁数は６桁又は７桁と決定し、当該欠損値の位置よりも前方の６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
ことを特徴とする請求項４に記載のサーバ。
前記所定時間ステップは、６つの時間単位、１１の時間単位及び１６の時間単位であり、前記所定の回帰型ニューラルネットワークモデルは長・短期記憶ネットワークモデル及びゲート付き回帰型ユニットからなるハイブリッドモデルである
ことを特徴とする請求項１又は請求項２に記載のサーバ。
金融時系列データの処理方法であって、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得る、Ｓ１と、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする、Ｓ２と、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする、Ｓ３と、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とする、Ｓ４とを含む
ことを特徴とする金融時系列データの処理方法。
前記ステップＳ２は、具体的に、
各種類の所定時間ステップに対応するサンプルデータを第１の割合のトレーニングセット及び第２の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第１の割合と第２の割合和は１以下であることと、
各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、
テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、
当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、
当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む
ことを特徴とする請求項８に記載の金融時系列データの処理方法。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
ことを特徴とする請求項８に記載の金融時系列データの処理方法。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
ことを特徴とする請求項９に記載の金融時系列データの処理方法。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
欠損値の桁数が１桁である場合、切り出されるデータの桁数は５桁、６桁又は７桁と決定し、当該欠損値の位置よりも前方の５桁、６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
欠損値の桁数が２桁である場合、切り出されるデータの桁数は６桁又は７桁と決定し、当該欠損値の位置よりも前方の６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
ことを特徴とする請求項１０に記載の金融時系列データの処理方法。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
欠損値の桁数が１桁である場合、切り出されるデータの桁数は５桁、６桁又は７桁と決定し、当該欠損値の位置よりも前方の５桁、６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
欠損値の桁数が２桁である場合、切り出されるデータの桁数は６桁又は７桁と決定し、当該欠損値の位置よりも前方の６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
ことを特徴とする請求項１１に記載の金融時系列データの処理方法。
前記所定時間ステップは、６つの時間単位、１１の時間単位及び１６の時間単位であり、前記所定の回帰型ニューラルネットワークモデルは長・短期記憶ネットワークモデル及びゲート付き回帰型ユニットからなるハイブリッドモデルである
ことを特徴とする請求項８又は請求項９に記載の金融時系列データの処理方法。
コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ読み取り可能な記憶媒体に処理システムが記憶され、前記処理システムがプロセッサによって実行される時、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップと、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとするステップと、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとするステップと、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とするステップとを実現する
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする前記ステップは、具体的に、
各種類の所定時間ステップに対応するサンプルデータを第１の割合のトレーニングセット及び第２の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第１の割合と第２の割合和は１以下であることと、
各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、
テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、
当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、
当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む
ことを特徴とする請求項１５に記載のコンピュータ読み取り可能な記憶媒体。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
ことを特徴とする請求項１５に記載のコンピュータ読み取り可能な記憶媒体。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
ことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記憶媒体。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
欠損値の桁数が１桁である場合、切り出されるデータの桁数は５桁、６桁又は７桁と決定し、当該欠損値の位置よりも前方の５桁、６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
欠損値の桁数が２桁である場合、切り出されるデータの桁数は６桁又は７桁と決定し、当該欠損値の位置よりも前方の６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
ことを特徴とする請求項１７に記載のコンピュータ読み取り可能な記憶媒体。
欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
欠損値の桁数が１桁である場合、切り出されるデータの桁数は５桁、６桁又は７桁と決定し、当該欠損値の位置よりも前方の５桁、６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
欠損値の桁数が２桁である場合、切り出されるデータの桁数は６桁又は７桁と決定し、当該欠損値の位置よりも前方の６桁又は７桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
ことを特徴とする請求項１８に記載のコンピュータ読み取り可能な記憶媒体。