JP2020522774A - サーバ、金融時系列データの処理方法及び記憶媒体 - Google Patents

サーバ、金融時系列データの処理方法及び記憶媒体 Download PDF

Info

Publication number
JP2020522774A
JP2020522774A JP2019556878A JP2019556878A JP2020522774A JP 2020522774 A JP2020522774 A JP 2020522774A JP 2019556878 A JP2019556878 A JP 2019556878A JP 2019556878 A JP2019556878 A JP 2019556878A JP 2020522774 A JP2020522774 A JP 2020522774A
Authority
JP
Japan
Prior art keywords
digits
data
missing value
cut out
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019556878A
Other languages
English (en)
Other versions
JP6812573B2 (ja
Inventor
正洋 李
正洋 李
海疆 李
海疆 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2020522774A publication Critical patent/JP2020522774A/ja
Application granted granted Critical
Publication of JP6812573B2 publication Critical patent/JP6812573B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Technology Law (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【解決手段】本発明はサーバ、金融時系列データの処理方法及び記憶媒体を提供し、該方法は、異なる所定時間ステップのスライディングウィンドウを設定し、スライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことによりサンプルデータを得ることと、各サンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各モデルを得て予測モデルとすることと、欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値の平均値を取得して当該欠損値の充填値とすることと、を含む。本願は予測により正確で、客観的な欠損値を得ることができる。

Description

「関連出願の相互参照」
本願は、2018年5月10日に提出された、中国特許出願第2018104414146号で、名称が「サーバ、金融時系列データの処理方法及び記憶媒体」である中国特許出願の優先権をパリ条約により主張し、当該出願の全体内容は参照の方式により本願に組み込まれる。
本願は、データ処理技術の分野に関し、特に、サーバ、金融時系列データの処理方法及び記憶媒体に関する。
金融時系列データは時系列という統計的特徴を有し、様々な種類がある。例えば、価格−取引高型の金融時系列データとして、株式、先物、外貨等の始値、終値、高値、安値、取引高データが挙げられ、また派生指標の金融時系列データとして、中債国債最終利回り−中債企業債最終利回り、リスクプレミアム、配当利回り、CR指標、大型株と小型株の売買回転率の比、RSRS指標、滬深300プレミアムレート、滬深300テイクザオファー金額等が挙げられる。実際に、様々な要因により金融時系列データは欠損してしまう。例えば、上場会社の株式取引停止により当日の始値、終値、高値、安値、取引高等情報が欠損すること、オープンプラットフォームでは対応する金融時系列データを取得できないこと、オープンプラットフォームで取得された金融時系列データと実際値との間に顕著な差が存在することが挙げられる。
欠損値を処理するための従来の方法として、手動記入、特殊値充填、平均値充填、近方補完、クラスターリングによる充填等が挙げられる。しかしながら、金融時系列データの場合、時間的な依存関係があるため、従来の単純な処理方法で得られた欠損値は正確性に欠け、実際の金融時系列データの分布を最大限にシミュレーションすることができず、情報の損失を引き起こし、後続の金融時系列データの使用に影響が及ぶことが多い。
本願は、予測により正確で、客観的な欠損値を得るために、サーバ、金融時系列データの処理方法及び記憶媒体を提供することを目的とする。
本願は、上記目的を達成するために、サーバを提供し、前記サーバはストレージ及び前記ストレージに接続されたプロセッサを含み、前記ストレージに前記プロセッサにおいて動作可能な処理システムが記憶され、前記処理システムが前記プロセッサによって実行される時、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップと、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとするステップと、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとするステップと、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とするステップとを実現する。
さらに、本願は、上記目的を達成するために、金融時系列データの処理方法を提供し、前記金融時系列データの処理方法は、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得る、S1と、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする、S2と、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする、S3と、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とする、S4とを含む。
さらに、本願は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体に処理システムが記憶され、前記処理システムがプロセッサによって実行される時、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップと、
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとするステップと、
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとするステップと、
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とするステップとを実現する。
本願は次の有益な効果を有する。本願は、回帰型ニューラルネットワークモデルを利用して金融時系列データにおける欠損値を処理及び予測することにより、金融時系列データの前後依存関係を捕捉することができ、欠損値の充填値は複数種のモデルの平均値から得られるため、より客観的で、正確であり、実際の金融時系列データの全体的な分布を最大限に再現できる。
本願によるサーバの一つの実施例のハードウェア構成を概略的に示す図である。 LSTMモデルの構造を概略的に示す図である。 図2に変更を加えたLSTMモデルの構造を概略的に示す図である。 本願による金融時系列データの処理方法の一つの実施例のフローチャートである。
本発明の目的、技術的解決手段及び利点をより明確にするために、以下、各図及び実施例を用いて、本願をより詳細に説明する。なお、本明細書に記載される具体的な実施例は本願を解釈するためのものに過ぎず、本願を限定するためのものではない。当業者が本願の実施例に基づき創造的な作業を行うことなく得ているその他の全ての実施例は、いずれも本願の保護範囲に含まれるものとする。
なお、本願で「第1」、「第2」等を含む内容は説明目的のものに過ぎず、相対的な重要性を指示又は示唆するものでも、関係する技術的特徴の数量を暗黙的に指示するものでもない。したがって、「第1」、「第2」で限定される特徴は少なくとも1つの当該特徴を明確に又は暗黙的に含むことができる。また、各実施例による技術的解決手段は互いに組み合わせることができるが、ただし当業者がこれを実現できることは前提となり、技術的解決手段の組み合わせにより矛盾が生じたり実現できなくしたりする場合はかかる技術的解決手段の組み合わせは認められず、本願に求める保護範囲にないものとする。
図1は、本願によるサーバの一つの実施例のハードウェア構成を概略的に示す図である。サーバ1は予め設定された又は記憶されたコマンドに従って、数値計算及び/又は情報処理を自動的に行うことができる機器である。サーバ1はコンピュータ、単一のネットワークサーバ、複数のネットワークサーバからなるサーバ群、又はクラウドコンピューティングに基づく大量のホストもしくはネットワークサーバからなるクラウド型機器とすることができ、そのうちクラウドコンピューティングは分散型コンピュータの一種で、疎結合される複数のコンピュータからなる大型の仮想コンピュータである。
本実施例において、サーバ1はシステムバスを介して互いに通信可能に接続されるストレージ11、プロセッサ12及びネットワークインタフェース13を含むが、ただしこれらに限定されるものではない。ストレージ11にはプロセッサ12において動作可能な処理システムが記憶される。なお、図1でコンポーネント11〜13を有するサーバ1が示されるが、必ずしもここに示す全てのコンポーネントで実施するとは限らず、その代わりにより多い又は少ないコンポーネントでの実施も可能である。
ただし、ストレージ11はメモリ及び少なくとも1種の読み取り可能な記憶媒体を含む。メモリはサーバ1が動作するためのキャッシュメモリを提供する。読み取り可能な記憶媒体はフラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ(例えば、SD又はDXメモリ等)、ランダムアクセスメモリ(RAM)、スタティックランダムアクセスメモリ(SRAM)、リードオンリーメモリ(ROM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、プログラマブルリードオンリーメモリ(PROM)、磁気メモリ、磁気ディスク、光ディスク等不揮発性記憶媒体とすることができる。いくつかの実施例において、読み取り可能な記憶媒体はサーバの内部記憶ユニット、例えばサーバ1のハードディスクとすることができる。別の実施例において、当該不揮発性記憶媒体はサーバ1の外部記憶機器、例えばサーバ1に配置されたプラグイン式ハードディスク、スマートメディアカード(Smart Media(登録商標) Card、略称SMC)、セキュアデジタル(Secure Digital、略称SD)カード、フラッシュカード(Flash Card)等とすることができる。本実施例において、ストレージ11の読み取り可能な記憶媒体は一般にサーバ1にインストールされているオペレーティングシステム及び各種のアプリケーションソフトウェア、例えば本願の一つの実施例による処理システムのプログラムコード等を記憶するために用いられる。また、ストレージ11は、既に出力された又は出力されようとする各種データを一時的に記憶するためにも用いられる。
いくつかの実施例において、プロセッサ12は中央処理装置(Central Processing Unit、略称CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップとすることができる。プロセッサ12は一般にサーバ1の全体的な動作を制御し、例えば前記その他の機器とのデータ交換又は通信に関連する制御及び処理を実行するために用いられる。本実施例において、プロセッサ12はストレージ11に記憶されているプログラムコードを動作させる又はデータを処理する、例えば処理システムを動作させるために用いられる。
ネットワークインタフェース13は無線ネットワークインタフェース又は有線ネットワークインタフェースを含んでもよく、ネットワークインタフェース13は一般にサーバ1とその他の電子機器との間に通信接続を確立するために用いられる。本実施例において、ネットワークインタフェース13は主にサーバ1と1つ以上の端末機器2を接続して、サーバ1と1つ以上の端末機器2との間にデータ伝送チャネル及び通信接続を確立するために用いられる。
前記処理システムは、ストレージ11に記憶され、ストレージ11に記憶されている少なくとも1つのコンピュータ読み取り可能なコマンドを含み、当該少なくとも1つのコンピュータ読み取り可能なコマンドは、プロセッサ12によって実行されることにより、本願の各実施例による方法を実現し、また、当該少なくとも1つのコンピュータ読み取り可能なコマンドはその各部分が実現する機能によって、異なる論理モジュールに分割されてもよい。
一つの実施例において、上記処理システムがプロセッサ12によって実行される時、
異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップを実現する。
ただし、所定時間ステップは、6つの時間単位、11の時間単位、及び16の時間単位を含み、時間単位とは金融時系列データの粒度単位を指し、例えば、日を粒度とする金融時系列データの場合、その時間単位は日であり、分間を粒度とする高頻度金融時系列データの場合、その時間単位は分である。
6つの時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は6桁であり、サンプリングして得たサンプルデータの桁数は6桁である。11の時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は11桁であり、サンプリングして得たサンプルデータの桁数は6桁である。例えば、サンプリングして得たサンプルデータは(x1,x3,x5,x7,x9,x11)で、即ちサンプリングウィンドウデータのうちの1桁目、3桁目、5桁目、7桁目、9桁目、11桁目のデータである。16の時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は16桁であり、サンプリングして得たサンプルデータの桁数は6桁である。例えば、サンプリングして得たサンプルデータは(x1,x4,x7,x10,x13,x16)で、即ちサンプリングウィンドウデータのうちの1桁目、4桁目、7桁目、10桁目、13桁目、16桁目のデータである。
ここで、所定時間ステップが異なるスライディングウィンドウを設定することの目的は、サンプルデータの長さを変更することなく、捕捉された情報の時間範囲及び相関関係を拡大させることである。欠損値を含まない金融時系列データに対してサンプリングを行うことによりサンプルデータを得て、当該サンプルデータを利用してモデルをトレーニングすることにより、正確率が比較的高いモデルを得る。
各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする。
ただし、所定の回帰型ニューラルネットワークモデルは2つ以上の回帰型ニューラルネットワークによるハイブリッドモデルであり、好ましくは、長・短期記憶ネットワークモデル(Long Short−Term Memory、略称LSTM)及びゲート付き回帰型ユニット(Gated Recurrent Unit、略称GRU)からなるハイブリッドモデルであり、LSTMモデル及びGRUモデルはいずれも時系列の前後依存関係を捕捉するために用いることができる。
一つの実施例において、当該ステップは、各種類の所定時間ステップに対応するサンプルデータを第1の割合のトレーニングセット及び第2の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第1の割合と第2の割合和は1以下であることと、各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む。
ただし、各所定時間ステップに対応するサンプルデータは独立同分布と見なせるため、トレーニングセット及びテストセットに対してランダムサンプリングを適用し、トレーニングセットが占める割合は70%、テストセットが占める割合は30%とし、例えば、トレーニングセットは7万個のサンプルデータを含み、テストセットは3万個のサンプルデータを含む。
好ましくは、トレーニングセットにおいて、交差検証の方式を用いてトレーニングを行い、即ちトレーニングセットにおけるサンプルデータを10個に分割し、毎回9個を使ってトレーニングを行い、1個のサンプルデータを検証セットとすることにより、検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行う。トレーニングセットにおいてトレーニングを行い、検証セットにおいてテスト結果を取得し、トレーニング回数が増加するに伴い、検証セットにおいてテスト誤差の上昇が確認される場合、即ちテスト誤差が所定の誤差閾値以上である場合、トレーニングを停止してトレーニング後の回帰型ニューラルネットワークモデルを得て、下記テストセットにおいてテストされるモデルとすることにより、モデルの過剰適合を効果的に回避できる。
具体的に、トレーニングセットを利用してLSTMモデルに対してトレーニングを行い、LSTMモデル構造はBi−directional LSTM構造を用いることができ、トレーニングセットのサンプルデータは(X1,X2,X3,X4,X5,X6)を含み、図2に示すように、(X1,X2,X3,X4,X5)は入力層で、Aは隠れ層で、Stは出力である。ただし、隠れ層AはLSTMモデルの記憶ユニットで、モデルのパラメータであり、カレントの入力層の入力及び前ステップの隠れ層の出力から算出される。テストセットにおいてトレーニング後のLSTMモデルの正確率に対してテストを行う時、出力StとサンプルデータにおけるX6を比較することで、テストを行い、テスト結果はモデルの金融時系列データ分布に対する再現能力を示す。LSTMモデルの正確率が所定の正確率閾値(例えば、0.9)以上である場合、LSTMモデルは要件に合致するとし、当該トレーニング後のLSTMモデルを予測モデルとする。LSTMモデルの正確率が所定の正確率閾値未満である場合、LSTMモデルは要件に合致しないとし、LSTMモデルの隠れ層の構造を修正し、図3に示すように、本実施例において、各時間点に対応して入力されるサンプルデータの隠れ層を単一隠れ層の形式から二重隠れ層のスタック構造に修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得る。
GRUモデルはLSTMモデルと構造が類似するが、ただし隠れ層の構造はLSTMモデルよりも複雑である。上述したものと同一のトレーニングセットを利用してGRUモデルに対してトレーニングを行い、GRUモデルをトレーニングする過程はLSTMモデルをトレーニングする過程と基本的に一致し、且つ、トレーニングセットにおいて一部サンプルデータを抽出して検証セットとすることにより、モデルの過剰適合を効果的に回避できる。トレーニング後にテストセットを利用してトレーニング後のGRUモデルに対してテストを行うことにより、GRUモデルの正確率を所定の正確率閾値以上にし、GRUモデルの正確率が当該正確率閾値未満である場合、GRUモデルの構造を修正してもよく、修正の方式はLSTMモデルの場合と類似する。
上記トレーニング及びテスト過程により、適合により各所定時間ステップに対応するLSTMモデル及びGRUモデルを組み合わせてなるハイブリッドモデルを得て、予測モデルとする。
欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする。
本実施例において、最初に、欠損値の位置を特定し、金融時系列データは時系列であるため、欠損値の位置する時点により欠損値の位置を特定することができ、次に各位置の欠損値の桁数、例えば1桁又は2桁等と決定する。予測対象の欠損値の桁数に基づき、モデルに入力された金融時系列データの桁数を決定し、欠損値よりも前方の何桁かのデータを切り出して、入力対象データとする。
ただし、欠損値の桁数は一般に1桁又は2桁であり、入力対象データは5桁、6桁又は7桁であることが好ましく、5桁未満及び7桁超過の場合は通常好ましい効果を得られず、それは、5桁未満だと捕捉された時系列情報は少なく、7桁超過だと時系列が長くなり、情報のズレが大きいからである。好ましくは、欠損値の桁数と入力対象データの桁数の対応関係が以下の表1に示すとおりである。
表1によれば、欠損値の桁数が1桁である場合、切り出されるデータの桁数は5桁、6桁又は7桁と決定し、当該欠損値の位置よりも前方の5桁、6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとする。欠損値の桁数が2桁である場合、切り出されるデータの桁数は6桁又は7桁と決定し、当該欠損値の位置よりも前方の6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとする。
入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とする。
本実施例において、入力対象データを各GRUモデル及びLSTMモデルからなるハイブリッドモデルの予測モデルにそれぞれ入力する、即ち6つの時間単位に対応するハイブリッドモデル、11の時間単位に対応するハイブリッドモデル、16の時間単位に対応するハイブリッドモデルにそれぞれ入力し、3つのハイブリッドモデルが対応して出力した予測値V1、V2、V3を取得し、当該欠損値の充填値をV=(V1+V2+V3)/3により算出し、欠損値の桁数が2桁である場合も、出力された対応する位置の予測値の平均値を算出する。当該欠損値の充填値Vは、金融時系列データの前後依存関係を捕捉することができ、且つ、3種類のハイブリッドモデルの平均値から得られるため、より客観的で、正確である。
従来技術と比較すると、本願は、欠損値を含まない金融時系列データに対して、異なる時間ステップのスライディングウィンドウを設定してデータを切り出し、切り出されたデータに対してサンプリングを行うことにより異なる時間ステップに対応するサンプルデータを得て、サンプルデータをトレーニングセット及びテストセットにそれぞれ分割して所定の回帰型ニューラルネットワークモデルをトレーニングすることにより、異なる時間ステップに対応する予測モデルを得る。欠損値を含む金融時系列データに対して、欠損値の位置を特定し且つ欠損値の桁数を決定し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、データを各予測モデルに入力して、各予測モデルによって出力される予測値を得て、各予測値の平均値を当該欠損値の充填値とするように構成され、本願は、回帰型ニューラルネットワークモデルを利用して金融時系列データにおける欠損値を処理及び予測することにより、金融時系列データの前後依存関係を捕捉することができ、欠損値の充填値は複数種のモデルの平均値から得られるため、より客観的で、正確であり、実際の金融時系列データの全体的な分布を最大限に再現できる。
図4は、本願による金融時系列データの処理方法の一つの実施例のフローチャートであり、当該金融時系列データの処理方法は、以下のステップS1〜S4を含む。
ステップS1において、異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得る。
ただし、所定時間ステップは、6つの時間単位、11の時間単位、及び16の時間単位を含み、時間単位とは金融時系列データの粒度単位を指し、例えば、日を粒度とする金融時系列データの場合、その時間単位は日であり、分間を粒度とする高頻度金融時系列データの場合、その時間単位は分である。
6つの時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は6桁であり、サンプリングして得たサンプルデータの桁数は6桁である。11の時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は11桁であり、サンプリングして得たサンプルデータの桁数は6桁である。例えば、サンプリングして得たサンプルデータは(x1,x3,x5,x7,x9,x11)で、即ちサンプリングウィンドウデータのうちの1桁目、3桁目、5桁目、7桁目、9桁目、11桁目のデータである。16の時間単位のスライディングウィンドウの場合、対応するウィンドウデータの桁数は16桁であり、サンプリングして得たサンプルデータの桁数は6桁である。例えば、サンプリングして得たサンプルデータは(x1,x4,x7,x10,x13,x16)で、即ちサンプリングウィンドウデータのうちの1桁目、4桁目、7桁目、10桁目、13桁目、16桁目のデータである。
ここで、所定時間ステップが異なるスライディングウィンドウを設定することの目的は、サンプルデータの長さを変更することなく、捕捉された情報の時間範囲及び相関関係を拡大させることである。欠損値を含まない金融時系列データに対してサンプリングを行うことによりサンプルデータを得て、当該サンプルデータを利用してモデルをトレーニングすることにより、正確率が比較的高いモデルを得る。
ステップS2において、各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする。
ただし、所定の回帰型ニューラルネットワークモデルは2つ以上の回帰型ニューラルネットワークによるハイブリッドモデルであり、好ましくは、長・短期記憶ネットワークモデル(Long Short−Term Memory、略称LSTM)及びゲート付き回帰型ユニット(Gated Recurrent Unit、略称GRU)からなるハイブリッドモデルであり、LSTMモデル及びGRUモデルはいずれも時系列の前後依存関係を捕捉するために用いることができる。
一つの実施例において、当該ステップは、各種類の所定時間ステップに対応するサンプルデータを第1の割合のトレーニングセット及び第2の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第1の割合と第2の割合和は1以下であることと、各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む。
ただし、各所定時間ステップに対応するサンプルデータは独立同分布と見なせるため、トレーニングセット及びテストセットに対してランダムサンプリングを適用し、トレーニングセットが占める割合は70%、テストセットが占める割合は30%とし、例えば、トレーニングセットは7万個のサンプルデータを含み、テストセットは3万個のサンプルデータを含む。
好ましくは、トレーニングセットにおいて、交差検証の方式を用いてトレーニングを行い、即ちトレーニングセットにおけるサンプルデータを10個に分割し、毎回9個を使ってトレーニングを行い、1個のサンプルデータを検証セットとすることにより、検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行う。トレーニングセットにおいてトレーニングを行い、検証セットにおいてテスト結果を取得し、トレーニング回数が増加するに伴い、検証セットにおいてテスト誤差の上昇が確認される場合、即ちテスト誤差が所定の誤差閾値以上である場合、トレーニングを停止してトレーニング後の回帰型ニューラルネットワークモデルを得て、下記テストセットにおいてテストされるモデルとすることにより、モデルの過剰適合を効果的に回避できる。
具体的に、トレーニングセットを利用してLSTMモデルに対してトレーニングを行い、LSTMモデル構造はBi−directional LSTM構造を用いることができ、トレーニングセットのサンプルデータは(X1,X2,X3,X4,X5,X6)を含み、図2に示すように、(X1,X2,X3,X4,X5)は入力層で、Aは隠れ層で、Stは出力である。ただし、隠れ層AはLSTMモデルの記憶ユニットで、モデルのパラメータであり、カレントの入力層の入力及び前ステップの隠れ層の出力から算出される。テストセットにおいてトレーニング後のLSTMモデルの正確率に対してテストを行う時、出力StとサンプルデータにおけるX6を比較することで、テストを行い、テスト結果はモデルの金融時系列データ分布に対する再現能力を示す。LSTMモデルの正確率が所定の正確率閾値(例えば、0.9)以上である場合、LSTMモデルは要件に合致するとし、当該トレーニング後のLSTMモデルを予測モデルとする。LSTMモデルの正確率が所定の正確率閾値未満である場合、LSTMモデルは要件に合致しないとし、LSTMモデルの隠れ層の構造を修正し、図3に示すように、本実施例において、各時間点に対応して入力されるサンプルデータの隠れ層を単一隠れ層の形式から二重隠れ層のスタック構造に修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得る。
GRUモデルはLSTMモデルと構造が類似するが、ただし隠れ層の構造はLSTMモデルよりも複雑である。上述したものと同一のトレーニングセットを利用してGRUモデルに対してトレーニングを行い、GRUモデルをトレーニングする過程はLSTMモデルをトレーニングする過程と基本的に一致し、且つ、トレーニングセットにおいて一部サンプルデータを抽出して検証セットとすることにより、モデルの過剰適合を効果的に回避できる。トレーニング後にテストセットを利用してトレーニング後のGRUモデルに対してテストを行うことにより、GRUモデルの正確率を所定の正確率閾値以上にし、GRUモデルの正確率が当該正確率閾値未満である場合、GRUモデルの構造を修正してもよく、修正の方式はLSTMモデルの場合と類似する。
上記トレーニング及びテスト過程により、適合により各所定時間ステップに対応するLSTMモデル及びGRUモデルを組み合わせてなるハイブリッドモデルを得て、予測モデルとする。
ステップS3において、欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする。
本実施例において、最初に、欠損値の位置を特定し、金融時系列データは時系列であるため、欠損値の位置する時点により欠損値の位置を特定することができ、次に各位置の欠損値の桁数、例えば1桁又は2桁等と決定する。予測対象の欠損値の桁数に基づき、モデルに入力された金融時系列データの桁数を決定し、欠損値よりも前方の何桁かのデータを切り出して、入力対象データとする。
ただし、欠損値の桁数は一般に1桁又は2桁であり、入力対象データは5桁、6桁又は7桁であることが好ましく、5桁未満及び7桁超過の場合は通常好ましい効果を得られず、それは、5桁未満だと捕捉された時系列情報は少なく、7桁超過だと時系列が長くなり、情報のズレが大きいからである。好ましくは、上記表1に示すとおりである。
表1によれば、欠損値の桁数が1桁である場合、切り出されるデータの桁数は5桁、6桁又は7桁と決定し、当該欠損値の位置よりも前方の5桁、6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとする。欠損値の桁数が2桁である場合、切り出されるデータの桁数は6桁又は7桁と決定し、当該欠損値の位置よりも前方の6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとする。
ステップS4において、入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とする。
本実施例において、入力対象データを各GRUモデル及びLSTMモデルからなるハイブリッドモデルの予測モデルにそれぞれ入力する、即ち6つの時間単位に対応するハイブリッドモデル、11の時間単位に対応するハイブリッドモデル、16の時間単位に対応するハイブリッドモデルにそれぞれ入力し、3つのハイブリッドモデルが対応して出力した予測値V1、V2、V3を取得し、当該欠損値の充填値をV=(V1+V2+V3)/3により算出し、欠損値の桁数が2桁である場合も、出力された対応する位置の予測値の平均値を算出する。当該欠損値の充填値Vは、金融時系列データの前後依存関係を捕捉することができ、且つ、3種類のハイブリッドモデルの平均値から得られるため、より客観的で、正確である。
さらに、本願は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体に処理システムが記憶され、前記処理システムがプロセッサによって実行される時、上記金融時系列データの処理方法のステップを実現する。
本願の実施例に記載された各番号は説明目的のものに過ぎず、実施例の優劣を示すものではない。
当業者は、実施形態に関する上記説明により、上記実施例の方法がソフトウェア及び必要な汎用ハードウェアプラットフォームの組み合わせの方式によって実現されてもよければ、ハードウェアによって実現されてもよいが、前者がより好ましい実施形態である場合は多いことを理解できるだろう。このような理解を踏まえ、本願の技術的解決手段の趣旨、即ち従来技術に対して貢献がある部分はソフトウェア製品の形式で表現されてもよく、当該コンピュータソフトウェア製品は1つの記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶され、1つの端末機器(携帯電話、コンピュータ、サーバ、空調装置、又はネットワーク機器等とすることができる)が本願の各実施例に記載の方法を実行するための複数のコマンドを含む。
上記内容は本願の好ましい実施例に過ぎず、本願の特許請求の範囲を限定するためのものではない。本願の明細書及び図面の内容に基づいて行われる構造上の同等な変更又はプロセス上の変更、又はその他の関連する技術分野への直接又は間接的な適用は、いずれも本願の特許請求の範囲に含まれるものとする。

Claims (20)

  1. サーバであって、
    前記サーバはストレージ及び前記ストレージに接続されたプロセッサを含み、前記ストレージに前記プロセッサにおいて動作可能な処理システムが記憶され、前記処理システムが前記プロセッサによって実行される時、
    異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップと、
    各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとするステップと、
    欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとするステップと、
    入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とするステップとを実現する
    ことを特徴とするサーバ。
  2. 各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする前記ステップは、具体的に、
    各種類の所定時間ステップに対応するサンプルデータを第1の割合のトレーニングセット及び第2の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第1の割合と第2の割合和は1以下であることと、
    各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、
    テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、
    当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、
    当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む
    ことを特徴とする請求項1に記載のサーバ。
  3. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
    当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
    ことを特徴とする請求項1に記載のサーバ。
  4. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
    当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
    ことを特徴とする請求項2に記載のサーバ。
  5. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
    欠損値の桁数が1桁である場合、切り出されるデータの桁数は5桁、6桁又は7桁と決定し、当該欠損値の位置よりも前方の5桁、6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
    欠損値の桁数が2桁である場合、切り出されるデータの桁数は6桁又は7桁と決定し、当該欠損値の位置よりも前方の6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
    ことを特徴とする請求項3に記載のサーバ。
  6. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
    欠損値の桁数が1桁である場合、切り出されるデータの桁数は5桁、6桁又は7桁と決定し、当該欠損値の位置よりも前方の5桁、6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
    欠損値の桁数が2桁である場合、切り出されるデータの桁数は6桁又は7桁と決定し、当該欠損値の位置よりも前方の6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
    ことを特徴とする請求項4に記載のサーバ。
  7. 前記所定時間ステップは、6つの時間単位、11の時間単位及び16の時間単位であり、前記所定の回帰型ニューラルネットワークモデルは長・短期記憶ネットワークモデル及びゲート付き回帰型ユニットからなるハイブリッドモデルである
    ことを特徴とする請求項1又は請求項2に記載のサーバ。
  8. 金融時系列データの処理方法であって、
    異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得る、S1と、
    各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする、S2と、
    欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする、S3と、
    入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とする、S4とを含む
    ことを特徴とする金融時系列データの処理方法。
  9. 前記ステップS2は、具体的に、
    各種類の所定時間ステップに対応するサンプルデータを第1の割合のトレーニングセット及び第2の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第1の割合と第2の割合和は1以下であることと、
    各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、
    テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、
    当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、
    当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む
    ことを特徴とする請求項8に記載の金融時系列データの処理方法。
  10. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
    当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
    ことを特徴とする請求項8に記載の金融時系列データの処理方法。
  11. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
    当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
    ことを特徴とする請求項9に記載の金融時系列データの処理方法。
  12. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
    欠損値の桁数が1桁である場合、切り出されるデータの桁数は5桁、6桁又は7桁と決定し、当該欠損値の位置よりも前方の5桁、6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
    欠損値の桁数が2桁である場合、切り出されるデータの桁数は6桁又は7桁と決定し、当該欠損値の位置よりも前方の6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
    ことを特徴とする請求項10に記載の金融時系列データの処理方法。
  13. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
    欠損値の桁数が1桁である場合、切り出されるデータの桁数は5桁、6桁又は7桁と決定し、当該欠損値の位置よりも前方の5桁、6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
    欠損値の桁数が2桁である場合、切り出されるデータの桁数は6桁又は7桁と決定し、当該欠損値の位置よりも前方の6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
    ことを特徴とする請求項11に記載の金融時系列データの処理方法。
  14. 前記所定時間ステップは、6つの時間単位、11の時間単位及び16の時間単位であり、前記所定の回帰型ニューラルネットワークモデルは長・短期記憶ネットワークモデル及びゲート付き回帰型ユニットからなるハイブリッドモデルである
    ことを特徴とする請求項8又は請求項9に記載の金融時系列データの処理方法。
  15. コンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ読み取り可能な記憶媒体に処理システムが記憶され、前記処理システムがプロセッサによって実行される時、
    異なる所定時間ステップのスライディングウィンドウを設定し、設定されたスライディングウィンドウを利用して欠損値を含まない金融時系列データにおいてスライディングすることにより複数のウィンドウデータを取得し、各ウィンドウデータに対してサンプリングを行うことにより各所定時間ステップに対応するサンプルデータを得るステップと、
    各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとするステップと、
    欠損値を含む金融時系列データを取得し、当該金融時系列データにおける欠損値の位置及び欠損値の桁数を取得し、当該欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとするステップと、
    入力対象データを各予測モデルに入力し、各予測モデルによって出力される予測値を取得し、各予測値の平均値を取得して当該欠損値の充填値とするステップとを実現する
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
  16. 各所定時間ステップに対応するサンプルデータを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行うことにより、トレーニング後の各所定時間ステップに対応するモデルを得て予測モデルとする前記ステップは、具体的に、
    各種類の所定時間ステップに対応するサンプルデータを第1の割合のトレーニングセット及び第2の割合のテストセットに分割し、各種の所定時間ステップに対応するトレーニングセットを利用して所定の回帰型ニューラルネットワークモデルに対してそれぞれトレーニングを行い、ただし前記第1の割合と第2の割合和は1以下であることと、
    各種類の所定時間ステップに対応するトレーニングセットにおいて所定数量のサンプルデータを抽出して検証セットとし、当該検証セットを利用してトレーニング中の回帰型ニューラルネットワークモデルのパラメータに対してテストを行い、テスト誤差が所定の誤差閾値以上である場合、トレーニングを終了してトレーニング後の回帰型ニューラルネットワークモデルを得ることと、
    テストセットを利用してトレーニング後の回帰型ニューラルネットワークモデルの正確率に対してテストを行うことと、
    当該正確率が所定の正確率閾値以上である場合、当該トレーニング後の回帰型ニューラルネットワークモデルを予測モデルとすることと、
    当該正確率が所定の正確率閾値未満である場合、当該回帰型ニューラルネットワークモデルの隠れ層の構造を修正し、再度トレーニングを行うことにより、正確率が所定の正確率閾値以上の予測モデルを得ることと、を含む
    ことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
  17. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
    当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
    ことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
  18. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、具体的に、
    当該欠損値の桁数に基づき、切り出されるデータの桁数を決定し、当該欠損値の位置よりも前方で且つ決定された桁数と同一の桁数の金融時系列データを切り出し、切り出されたデータを入力対象データとすることを含む
    ことを特徴とする請求項16に記載のコンピュータ読み取り可能な記憶媒体。
  19. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
    欠損値の桁数が1桁である場合、切り出されるデータの桁数は5桁、6桁又は7桁と決定し、当該欠損値の位置よりも前方の5桁、6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
    欠損値の桁数が2桁である場合、切り出されるデータの桁数は6桁又は7桁と決定し、当該欠損値の位置よりも前方の6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
    ことを特徴とする請求項17に記載のコンピュータ読み取り可能な記憶媒体。
  20. 欠損値の位置及び欠損値の桁数に基づき当該欠損値の位置よりも前方の金融時系列データを切り出し、切り出されたデータを入力対象データとする前記ステップは、さらに、
    欠損値の桁数が1桁である場合、切り出されるデータの桁数は5桁、6桁又は7桁と決定し、当該欠損値の位置よりも前方の5桁、6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることと、
    欠損値の桁数が2桁である場合、切り出されるデータの桁数は6桁又は7桁と決定し、当該欠損値の位置よりも前方の6桁又は7桁の金融時系列データを切り出し、切り出されたデータを入力対象データとすることとを含む
    ことを特徴とする請求項18に記載のコンピュータ読み取り可能な記憶媒体。
JP2019556878A 2018-05-10 2018-09-26 サーバ、金融時系列データの処理方法及び記憶媒体 Active JP6812573B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810441414.6A CN108615096A (zh) 2018-05-10 2018-05-10 服务器、金融时序数据的处理方法及存储介质
CN201810441414.6 2018-05-10
PCT/CN2018/107678 WO2019214143A1 (zh) 2018-05-10 2018-09-26 服务器、金融时序数据的处理方法及存储介质

Publications (2)

Publication Number Publication Date
JP2020522774A true JP2020522774A (ja) 2020-07-30
JP6812573B2 JP6812573B2 (ja) 2021-01-13

Family

ID=63662626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019556878A Active JP6812573B2 (ja) 2018-05-10 2018-09-26 サーバ、金融時系列データの処理方法及び記憶媒体

Country Status (3)

Country Link
JP (1) JP6812573B2 (ja)
CN (1) CN108615096A (ja)
WO (1) WO2019214143A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635923A (zh) * 2018-11-20 2019-04-16 北京字节跳动网络技术有限公司 用于处理数据的方法和装置
CN109711665A (zh) * 2018-11-20 2019-05-03 深圳壹账通智能科技有限公司 一种基于金融风控数据的预测模型构建方法及相关设备
CN109886387B (zh) * 2019-01-07 2021-02-26 北京大学 一种基于门控网络和梯度提升回归的交通时序预测方法
CN111798018A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 行为预测方法、装置、存储介质及电子设备
CN110163748B (zh) * 2019-05-28 2021-08-17 京东数字科技控股有限公司 一种流动性期限管理缺失数据回填方法和设备
CN110309136B (zh) * 2019-07-10 2020-08-04 山东大学 一种数据库异常事件缺失数据填充方法及系统
CN110688365A (zh) * 2019-09-18 2020-01-14 华泰证券股份有限公司 金融时间序列的合成方法、装置和存储介质
CN110851505B (zh) * 2019-11-20 2023-12-22 鹏城实验室 一种数据处理框架、方法及系统
CN110911011B (zh) * 2019-11-27 2021-10-19 医惠科技有限公司 一种脓毒血症的预警装置、设备及存储介质
CN111260156B (zh) * 2020-02-18 2023-07-28 中国农业银行股份有限公司 现金流预测模型的构建方法及现金流预测方法及装置
CN111694830A (zh) * 2020-06-12 2020-09-22 复旦大学 基于深度集成学习的缺失数据补全方法
CN113486433A (zh) * 2020-12-31 2021-10-08 上海东方低碳科技产业股份有限公司 用于净零能耗建筑的能耗缺数的计算方法以及填充系统
CN113780666B (zh) * 2021-09-15 2024-03-22 湖北天天数链技术有限公司 一种缺失值的预测方法及装置、可读存储介质
CN113763186B (zh) * 2021-10-22 2024-03-15 平安科技(深圳)有限公司 基于循环神经网络的用户转保预测方法、装置以及设备
CN114820199A (zh) * 2022-03-29 2022-07-29 深圳先进技术研究院 金融衍生品价格的预测方法、预测装置、存储介质和设备
CN116823338B (zh) * 2023-08-28 2023-11-17 国网山东省电力公司临沂供电公司 电力用户经济属性缺失值的推断方法
CN117319312B (zh) * 2023-11-29 2024-03-08 凯美瑞德(苏州)信息科技股份有限公司 一种数据流量控制方法及装置
CN118096244A (zh) * 2024-04-28 2024-05-28 无锡挚达物联科技有限公司 充电桩销量模型训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031378A (ja) * 2004-07-15 2006-02-02 Nippon Hoso Kyokai <Nhk> 時系列データ補完装置、その方法及びそのプログラム
JP2014102779A (ja) * 2012-11-22 2014-06-05 Fujitsu Ltd データ補間装置、データ補間プログラム及びデータ補間方法
CN107577649A (zh) * 2017-09-26 2018-01-12 广州供电局有限公司 缺失数据的插补处理方法及装置
WO2018047655A1 (ja) * 2016-09-06 2018-03-15 日本電信電話株式会社 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19530646C1 (de) * 1995-08-21 1996-10-17 Siemens Ag Lernverfahren für ein rekurrentes neuronales Netz
CN106886846A (zh) * 2017-04-26 2017-06-23 中南大学 一种基于长短期记忆循环神经网络的银行网点备付金预测方法
CN106991506A (zh) * 2017-05-16 2017-07-28 深圳先进技术研究院 智能终端及其基于lstm的股票趋势预测方法
CN107273429B (zh) * 2017-05-19 2018-04-13 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及系统
CN107316108A (zh) * 2017-06-19 2017-11-03 华南理工大学 一种市民出行公交线路选乘滑动窗口多特征预测方法
CN107578124B (zh) * 2017-08-28 2024-05-17 国网山东省电力公司电力科学研究院 基于多层改进gru神经网络的短期电力负荷预测方法
CN107730087A (zh) * 2017-09-20 2018-02-23 平安科技(深圳)有限公司 预测模型训练方法、数据监控方法、装置、设备及介质
CN107563122B (zh) * 2017-09-20 2020-05-19 长沙学院 基于交织时间序列局部连接循环神经网络的犯罪预测方法
CN107832897A (zh) * 2017-11-30 2018-03-23 浙江工业大学 一种基于深度学习的股票市场预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031378A (ja) * 2004-07-15 2006-02-02 Nippon Hoso Kyokai <Nhk> 時系列データ補完装置、その方法及びそのプログラム
JP2014102779A (ja) * 2012-11-22 2014-06-05 Fujitsu Ltd データ補間装置、データ補間プログラム及びデータ補間方法
WO2018047655A1 (ja) * 2016-09-06 2018-03-15 日本電信電話株式会社 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム
CN107577649A (zh) * 2017-09-26 2018-01-12 广州供电局有限公司 缺失数据的插补处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高草木 桂介: "時系列データの欠損部位補間に関する研究", 日本工業大学研究報告, vol. 46, no. 1, JPN6020048027, 25 June 2016 (2016-06-25), pages 41 - 44, ISSN: 0004406207 *

Also Published As

Publication number Publication date
CN108615096A (zh) 2018-10-02
WO2019214143A1 (zh) 2019-11-14
JP6812573B2 (ja) 2021-01-13

Similar Documents

Publication Publication Date Title
JP6812573B2 (ja) サーバ、金融時系列データの処理方法及び記憶媒体
EP3690763A1 (en) Machine learning model training method and device, and electronic device
CN112884092B (zh) Ai模型生成方法、电子设备及存储介质
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
JP6573418B2 (ja) データソースに基づく業務カスタマイズ装置、方法、システム及び記憶媒体
US20200286100A1 (en) Payment complaint method, device, server and readable storage medium
WO2021004324A1 (zh) 资源数据的处理方法、装置、计算机设备和存储介质
CN107678844B (zh) 断点智能分流方法、电子装置及计算机可读存储介质
WO2023169274A1 (zh) 数据处理方法、装置、存储介质以及处理器
WO2022037299A1 (zh) 异常行为检测方法、装置、电子设备及计算机可读存储介质
CN111931848B (zh) 数据的特征提取方法、装置、计算机设备及存储介质
CN112597745A (zh) 一种智能图表的生成方法、装置、计算机系统及可读存储介质
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
WO2019061667A1 (zh) 电子装置、数据处理方法、系统及计算机可读存储介质
JP2022095895A (ja) 交通データ予測方法、交通データ予測装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラム
CN112835682A (zh) 一种数据处理方法、装置、计算机设备和可读存储介质
CN110120082B (zh) 金融数据的图像处理方法、装置、设备及可读存储介质
TWI835478B (zh) 一種操作行為識別方法、裝置、電腦設備及電腦可讀存儲介質
CN110390463B (zh) 风控数据处理方法、装置及终端设备
CN112308149A (zh) 基于机器学习的图像信息识别的优化方法及装置
CN110688451A (zh) 评价信息处理方法、装置、计算机设备及存储介质
CN115757075A (zh) 任务异常检测方法、装置、计算机设备及存储介质
US20220237694A1 (en) Price Superhighway
CN115567283A (zh) 一种身份认证方法、装置、电子设备、系统及存储介质
CN112035159B (zh) 一种稽核模型的配置方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201216

R150 Certificate of patent or registration of utility model

Ref document number: 6812573

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250