JP7364228B2 - 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル - Google Patents

情報処理装置、その制御方法、プログラム、ならびに、学習済モデル Download PDF

Info

Publication number
JP7364228B2
JP7364228B2 JP2020062808A JP2020062808A JP7364228B2 JP 7364228 B2 JP7364228 B2 JP 7364228B2 JP 2020062808 A JP2020062808 A JP 2020062808A JP 2020062808 A JP2020062808 A JP 2020062808A JP 7364228 B2 JP7364228 B2 JP 7364228B2
Authority
JP
Japan
Prior art keywords
time
date
text
texts
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020062808A
Other languages
English (en)
Other versions
JP2021163073A (ja
Inventor
久美子 石井
キン 杜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2020062808A priority Critical patent/JP7364228B2/ja
Priority to US17/913,222 priority patent/US20230162003A1/en
Priority to PCT/JP2021/003815 priority patent/WO2021199657A1/ja
Publication of JP2021163073A publication Critical patent/JP2021163073A/ja
Application granted granted Critical
Publication of JP7364228B2 publication Critical patent/JP7364228B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得る技術に関する。
日時によって価格が変動する対象、たとえば、株式、投資信託、債権、先物、オプション、商品先物、商品現物等については、適時開示資料、ニュース、SNS(Social Network Service)などのテキストにより、対象名やその対象に関する会社やその対象に関連する状況などが公開される。
ここで、ある日時t(たとえば明日)における対象の価格が、その直前の日時t-1(たとえば今日)における当該対象の価格に対して、増えているか減っているかを、当該日時tよりも前の日時t-1, t-2, t-3, …のそれぞれに公開されたテキストに基づいて、深層学習とニューラルネットを利用して予測しようとする研究が進められている(非特許文献1)。しかしながら、このような予測を行うことは、極めて難しい。
一方で、各対象に配分する割合を定めるポートフォリオを最適化する技術については、対象同士の関係に基づく定式化がなされ、たとえば株価同士の共分散を株式のリスク行列として利用して、ポートフォリオを定める技術が提案されている(非特許文献2)。
一方で、テキストを吟味するにあたって、異なるレベルの2つの特徴ベクトルを用いる技術が提案されている(非特許文献3)。
Z. Hu, W. Liu, J. Bian, X. Liu, and T. Liu, "Listening to chaotic whispers: A deep learning framework for news-oriented stock trend prediction", WSDM 2018, pp. 261-269, https://arxiv.org/abs/1712.02136, 2018年 A. Miller, A. Fisch, J. Dodge, A. Karimi, A. Bordes, and J. Weston, "Key-Value Memory Networks for Directly Reading Documents", Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp. 1400-1409, https://www.aclweb.org/anthology/D16-1147, 10.18653/v1/D16-1147, 2016年11月 Harry Markowitz, "Portfolio Selection", The Journal of Finance, Vol. 7, No. 1, pp. 77-91, 1952年3月
したがって、日時によって価格が変動する対象の特徴を表現するため、さまざまな日時に公開されたテキストを参照して、対象の特徴が埋め込まれた埋込ベクトルを得る技術が求められている。
対象の特徴が埋め込まれた埋込ベクトルが得られれば、埋込ベクトルを利用して、対象に対する配分を表すポートフォリオを最適化することも可能となる。
本発明は、上記の課題を解決するためのもので、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得るのに好適な情報処理装置、その制御方法、プログラム、ならびに、学習済モデルを提供することを目的とする。
本発明においては、情報処理装置は、
基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現し、
前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
ことにより、前記モデルを学習する。
また、本発明に係る情報処理装置は、コンピュータが有する中央処理装置(CPU; Central Processing Unit)やグラフィックス処理ユニット(GPU; Graphics Processing Unit)等のプロセッサが、コンピュータ読取可能な非一時的な情報記録媒体(non-transitory computer-readable information recording medium)に記録されたプログラムに含まれるコードを実行することにより実現することができ、当該プログラムは、コンピュータ通信網等の一時的な通信媒体(transitory communication medium)を介して転送することができる。
さらに、本発明に係る情報処理装置は、FPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)などの技術を利用し、コンピュータ読取可能な非一時的な情報記録媒体に記録されたプログラムを設計図として参照し、種々の変換や処理を施すことによって、専用の電子回路、もしくは、専用のハードウェアとして構築することができる。
本発明によれば、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得るのに好適な情報処理装置、その制御方法、プログラム、ならびに、学習済モデルを提供することができる。
本実施形態におけるニューラルネットワークの構成を示す説明図である。 本実施形態によるニューラルネットワークを実験した結果に係る性能を、他の態様と比較するグラフである。 本実施形態によるポートフォリオの最適化をウォールストリート・ジャーナルに対して実験した結果を、他の態様と比較するグラフである。 本実施形態によるポートフォリオの最適化をロイターズ・アンド・ブルームバーグに対して実験した結果を、他の態様と比較するグラフである。 本実施形態における情報処理装置の概要を示す説明図である。
以下に本発明の実施形態を説明する。なお、本実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。
(ニューラルネットワークを実現するコンピュータ)
本実施形態に係るニューラルネットワークは、典型的には、プログラムをコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。
コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。
プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等などの非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPUは、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。
さらに、上記のように、コンピュータは、GPUを備え、各種画像処理計算を高速に行うためのGPUを備えることが望ましい。GPUならびにTensorFlow等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能や分類機能を利用することができるようになる。
なお、汎用のコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置を構成することも可能である。この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGAやASICにより構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。
(ニューラルネットワークの構成)
図1は、本実施形態におけるニューラルネットワークの構成を示す説明図である。以下、本図を参照して説明する。
本図に示すニューラルネットワーク11は、
基準日時より前の過去日時から基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、
複数の対象の価格が基準日時の直前日時から基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力するものであり、
複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデル19に含む。
以下では、複数の対象を、整数j = 1, …, Jにより表現する。
日時の単位は、1日、12時間、1時間、30分等、適当な単位を採用することができ、経過の順に整数によって表現する。したがって、ある日時tの直前の日時は、t-1と表現することになる。
日時の単位として1日を採用した場合、テキストは、公開日ごとにまとめられることになる。
ある日時τに公開されたテキストの集合Ntには、複数のテキストが含まれる。その一つをniと表記すると、ni∈Nτであり、ある日時τに公開されたテキストの数は|Nτ|と表記する。
本実施形態では、ニューラルネットワーク11への入力として、テキストの集合Nt-d, Nt-d+1, …, Ntを採用する。
日時の単位として1日を採用した場合、ニューラルネットワーク11は、
基準日時tに公開されたテキストの集合Nt,
基準日時tの前日に公開されたテキストの集合Nt-1,
…,
基準日時tのd日前である過去日時t-dに公開されたテキストの集合Nt-d
を入力とすることになる。
一方、各日時における対象の価格としては、その日時における当該対象の始値、終値、安値、高値、中間値、平均値など、種々の価格を利用することができる。
以下、対象jのある日時tにおける価格をpj tと記載することとする。基準日時tの直前日時t-1における対象jの価格は、pj t-1になる。
本実施形態では、ニューラルネットワーク11からの出力として、以下の分類
yj t = 1, (pj t ≧ pj t-1);
yj t = 0, (pj t < pj t-1)
を採用する。
日時の単位として1日を採用した場合、ニューラルネットワーク11は、対象jのある日時tにおける価格が前日t-1に比べて増加していれば、分類yj tは1となり、減少していれば、分類yj tは1となる。なお、変化していない場合、上記の定義では、分類yj tは1としているが、以下のような定義
yj t = 1, (pj t > pj t-1);
yj t = 0, (pj t ≦ pj t-1)
を採用することもできる。
本実施形態では、過去日時t-dから基準日時tまでに公開されたテキストに基づいて、基準日時tにおける対象の価格の増減を分類している。したがって、ニューラルネットワーク11は、予測器ではなく、分類器である。これが、本実施形態の特徴の一つである。
基準日時tから過去日時t-dを定めるための正定数dは、任意のものが採用できるが、日時の単位として1日を採用した場合、後述する通り、d=4程度とすることで、好適な結果を得ることができる。
ニューラルネットワーク11の学習を進めるにあたっては、ニューラルネットワーク11の出力の良さを計測する必要がある。たとえば、クロスエントロピーなどを利用して出力の良さを計測することができる。
ここで、ある日時tにおけるある対象jについてのニューラルネットワーク11の出力、すなわち、分類の予測値を、山形のアクセント記号を用いて、y^j tと表記することとする。なお、一般には、アクセント記号は、本図に示すように、英字変数の上に表記することが多い。すると、ニューラルネットワーク11の学習は、
y^j t = f({Nτ)τ∈[t-d,t])
を満たす関数f(.)を、現実の分類yj tとの差が少なくなるように最適化して求めることに相当する。
基準日時tとして、1からTまでの期間をそれぞれ採用し、ニューラルネットワーク11が対象jを分類した予測値y^j 1, y^j 2, … y^j Tと、実際の分類yj 1, yj 2, … yj Tと、を対比すると、当該期間における対象jのクロスエントロピーljは、
CEj = -(1/T) Σt=1 T 〔yj t log y^j t + (1-yj t) log (1-y^j t)〕
と定義される。
したがって、ニューラルネットワーク11の学習にあたっては、全体のクロスエントロピー
CE = Σj=1 J CEj/J
を評価関数(損失関数)として採用することができる。
ニューラルネットワーク11に入力された各テキストni∈Nτからは、2つの異なるレベルの特徴ベクトルnK i, nV iが抽出される。これをデュアルベクトル表現(DVR; Dual Vector Representation)と呼ぶ。
抽出器12aは、テキストniから特徴ベクトルnK iを抽出するもので、テキストに出現する単語もしくは比較的短い長さの単語列の分布の特徴を表している。
本実施形態では、テキストniに出現する各単語kについて、
ニューラルネットワークを用いたテキスト処理において広く用いられるWord2vecを用いて、単語kの単語埋込(word embeddings)ベクトルwkを求め、
単語kのTF-IDF(Term Frequency-Inverse Document Frequency)スコアγk = TFk・IDFkを計算した上で、
テキストniの一方の特徴ベクトルnK iを、
nK i = Σk γk wkk wk
により求める。
一方、抽出器12bは、テキストniから特徴ベクトルnV iを抽出するもので、テキストの全文もしくは比較的長い長さの単語列による文脈の特徴を表している。
本実施形態では、テキストniの他方の特徴ベクトルnV iは、自然言語処理にて提案されているBERT(Bidirectional Encoder Representation from Transformers)エンコーダをテキストniに対してかけることによって求める。
抽出器12a, 12bは、テキストの特徴を抽出するためのモデルを内在している。当該モデルは、特定のコーパス(たとえば、収集されたテキストのすべて、あるいは、ニューラルネットワーク11の入力とするテキストが属するようなコーパス全体等。)に対して学習済みのものをそのまま利用しても良いし、ニューラルネットワーク11のモデル19に含まれるものとして、ニューラルネットワーク11の学習を進めることによって更新されるものとしても良い。
本図に示す例では、抽出器12a, 12bに内在するモデルは既存のものを再利用することとして、ニューラルネットワーク11にて学習されるモデル19とは別のものとしている。
さて、ニューラルネットワーク11にて学習されるモデル19の最も重要な要素は、対象jの特徴、すなわち、対象jの価格と公開されたテキストの関係を表す特徴が埋め込まれた埋込ベクトルsjである。対象jが株価である場合に、この埋込ベクトルを株埋込(Stock Embedding)ベクトルと呼ぶ。
対象j, kの埋込ベクトルsj, skが同じ方向を向いていれば、両者は、価格とテキストに基づく特徴が共通していることになる。
スコア計算器13は、対象jの特徴が埋め込まれた埋込ベクトルsjと、テキストの一方の特徴ベクトルnK iと、の内積をとることで、単語レベルもしくは短いフレーズレベルのスコア
scorei,j = nK i・sj
を計算する。なお、内積ではなく、コサイン類似度や任意の関数を用いた一般化内積を採用することとしても良い。
重み計算機14は、対象{j}に対するテキストniの重みαj iを、ソフトマックス関数を用いて同じ日時に公開された他のテキストに対する相対重みにより、
αj i = exp(scorei,j)/Σi'exp(scorei',j)
のように計算する。
さて、状態計算器14は、日時τにおける対象jの状態mj τを、特徴ベクトルの集合
NV τ = { nV i | ni∈Nτ }
に基づいて、
mj τ = (1/|NV τ|) Σ[ui∈NV τ] αj i ui
のように計算する。ここで、「Σ[ui∈NV τ]」は、「ui∈NV τを満たすuiについて総和をとる」ことを意味する。日時τにおける対象jの状態mj τは、市況ベクトルと呼ぶ。
ここで、|NV τ|は、集合NV τの要素数であり、これは、日時τに公開されたテキストの数に等しい。また、Σ[ui∈NV τ]は、ui∈NV τを満たす特徴ベクトルuiについて総和をとることを意味するものであり、一般的な数学表現では、ui∈NV τは、Σの下もしくは添字により表記されるものである。
そして、市況ベクトルmj τにより表される状態は、分類器16の入力となる。
本願における分類器16は、Bi-GRU(Bidirectional Gated Recurrent Unit)と、MLP(MultiLayer Perceptron)と、シグモイド関数
σ(x) = 1/(1+exp(-x))
の組み合わせにより実現される。すなわち、
hO t = GRU({mj τ}τ∈[t-d,t]);
y^j t = σ(MLP(hO t))
このほか、GRUが各日時τ∈[t-d,t])に対して出力するベクトルhO τに対して、非特許文献1に開示される技術を適用して、再重み付けをすることもできる。すなわち、重みβτを用いて、
hO t = GRU({mj τ}τ∈[t-d,t]);
hO = Στ∈[t-d,t] βτ hO t;
y^j t = σ(MLP(hO))
のように分類を行う。
ここで、重みβτは、ある分類においてある日がどの程度重要かを示す重みである。
このように再重み付けをすることで、学習における過剰適合を避けることができる。
上記のように、分類器16が出力する分類の予測y^j tと、実際の分類yj tと、のずれを小さくするようにニューラルネットワーク11の学習が進められる。
そして、学習が完了すると、対象1, …, j, …, Jに対する埋込ベクトルs1, …, sj, …, sJが、モデル19から得られることになる。
学習済のモデル19を持つニューラルネットワーク11は、日時tまでに公開されたテキストと、日時tの価格の増減と、の関係を推測するものであり、未来の日時における対象の価格を予測するものではない。
しかしながら、2つの対象の埋込ベクトルの類否に基づいて、当該2つの対象の類否を判定することができる。したがって、学習されたモデル19を用いて、対象同士の類否を判定することができる、という技術的効果が得られる。
さらに、後述するように、学習されたモデル19は、ポートフォリオの最適化にも利用することができる。
(分類性能の実験)
以下では、ニューラルネットワーク11の分類性能について実験を行った結果について説明する。当該実験では、日時の単位は1日である。
テキストとして、ウォールストリート・ジャーナル(WSJ)の1年分, 3年分, 16年分のニュース記事、および、ロイターズ・アンド・ブルームバーグ(R&B)の1年分, 3年分, 7年分のニュース記事のヘッドラインを採用した。
対象としては、スタンダード・アンド・プアーズS&P 500の500銘柄の株式のうち、少なくとも100の異なる記事で言及されているものとした。また、指標として、S&P 500インデックスを用いた。
本実験では、株価は、日単位の差分により二値化されるが、一般に、この差分は0付近が最も多くなり、差分が0に近ければ、そもそも価格が増加しているのか減少しているのかが曖昧になる。そこで、log(pj t)-log(pj t-1)について以下のような閾値を設けて、この閾値よりも変動が大きい日のみを抽出した。
WSJ … [-0.0053,0.0079];
R&B … [-0.00587,0.00684]
増加側と減少側で閾値が異なるのは、実験の対象となる期間において景気が向上し、株価が上がった日の方が下がった日よりも多いからである。
以上の条件により、WSJは約2600記事、R&Bは約1200記事を処理の対象とすることとなった。
テキストのコーパスは、訓練(training)用/検証(validation)用/テスト(test)用に、6対2対2の比で分け、10回の試行を行って、その平均を実験結果とした。
ニューラルネットワーク11の学習には、コサイン・アニーリングとともに、Adamオプティマイザを採用した。初期学習率は、5×10-4とし、最小バッチサイズは64とした。
訓練は、検証に対する損失関数の値が下がらなくなったときに終わらせることとし、その後に、評価のためのテストを実行した。
ニュース記事のテキストからは、2つの特徴ベクトルが抽出される。上述の通り、短いレベルの特徴ベクトルnK iは、Word2vecの単語埋込ベクトルを採用し、長いレベルの特徴ベクトルnV iは、TF-IDFスコアに基づいて定めた。
なお、特徴ベクトルnK iの次元は64として、Word2vecのモデルを、上記の記事テキストのコーパスについて学習した。
BERTエンコーダを用いてベクトル化を行った後、主成分分析(PCA; Principal Component Analysis)を実行して、特徴ベクトルnV iの次元を256に落とした。
実験は、4種類を比較することにより行った。
(1)単純平均(Simple Average) … 短いレベルの特徴ベクトルを無視して、αj i = 1としたもの。
(2) 重み付け平均(WA; Weighted Average) … 株-テキスト内積により重み付けをしたもの。分類器は、各株式ごとに独立したものとする。
(3) 重み付け平均+分類器共有(CS; Classifier Sharing) … 上記WAにおいて、本技術と同様に分類器を共有することとしたもの。
(4) 重み付け平均+デュアルベクトル表現 … 2つのレベルの特徴ベクトルにより重み付けをしたもの。分類器は、各株式ごとに独立したものとする。
(5) 重み付け平均+分類器共有+デュアルベクトル表現 … 上記の実施形態(proposed)に係る態様。
図2は、本実施形態によるニューラルネットワークを実験した結果に係る性能を、他の態様と比較するグラフである。以下、本図を参照して説明する。
本図に示すように、テキストのデータセットのサイズ(Dataset Size)が長くなるにしたがって、いずれの手法においても、分類の正確度(Accuracy)は向上している。ただし、どのデータセットのサイズにおいても、上記の実施形態(proposed)による分類の正確度は、最大で68.8%であり、他の4つの手法に比べて格段に高いことがわかる。
(最適ポートフォリオ)
以下、ニューラルネットワーク11において学習されたモデル19に含まれる埋込ベクトルを用いて、ポートフォリオの最適化をする態様について説明する。
上記のように、ポートフォリオの最適化については、非特許文献3に開示される技術により定式化がされている。まず、資産を各対象に配分する割合を表すJ次元のベクトルωを考える。ベクトルωは単位行列であり、
ωT ω = 1
を満たすものとする。すると、当該ポートフォリオのリスクRは、リスク行列Σを利用して、
R = ωT Σ ω
と表現することができる。すると、ポートフォリオ最適化とは、リスクRを最小化するωを探すことに相当する。
各対象の平均利得を表すJ次元のベクトルrを考えると、当該ポートフォリオにおける利得Eは、
E = ωT r
と表現できる。一般に、Eを大きくすると、リスクは高くなる。
非特許文献3では、リスク行列Σとして共分散行列を採用している。すなわち、
Σ = Cov({rj}t) (j∈[1,J])
としている。
しかしながら、対象の価格の変動にはノイズが大きいため、正確なシミュレーションが難しいこと、および、価格の変動を引き起こすようなイベントがテキストによって流布されることを無視していることから、リスク行列Σとして共分散行列を利用したのでは、良い性能が得られない。
一方、本実施形態では、埋込ベクトルに対してコサイン類似度用いて、リスク行列Σの(i,j)要素を
Σi,j = cos(si,sj)
のように設定する。これは、リスク行列として、対象同士の類似度行列を採用することに相当する。なお、リスク行列Σの(i,j)要素Σi,jには、埋込ベクトルsi, sjの類似度が格納されれば良いので、コサイン類似度ではなく、内積や一般化内積等を採用しても良い。
ある期間[b,e]におけるポートフォリオのゲインE[b,e]は、対象jの当該期間開始時bにおける価格pj bと、当該期間終了時eにおけるpj eと、を用いて、
E[b,e] = Σj=1 J ωj(pj e/pj b - 1)
のように計算することができる。
そして、所望の値を利得E[b,e]に設定して制約条件として、リスクR = ωT Σ ωを最小にするようなωを探せば、ポートフォリオの最適化を図ることができる。
(ポートフォリオの実験)
上記のように、16年分のWSJの記事と、7年分のR&Bの記事と、の各年について、所望の利得(Expected Annual Return)Eを0.05から0.29まで0.01刻みで設定して、それぞれリスクが最小となるωを求めた上で、全年の年間平均利得(Real Average Return (averaged over years))を求めた。
図3は、本実施形態によるポートフォリオの最適化をウォールストリート・ジャーナルに対して実験した結果を、他の態様と比較するグラフである。図4は、本実施形態によるポートフォリオの最適化をロイターズ・アンド・ブルームバーグに対して実験した結果を、他の態様と比較するグラフである。
これらの実験では、本実施形態(Stock Embedding)に対する比較対象として、以下の6種類を採用した。
S&P 500インデックス(S&P 500 index);
株価の共分散行列(Covariance);
既存のモデルを利用したWord2vecにより得た分散表現(Word2vec-general);
ニュースのテキストを学習したWord2vecにより得た分散表現(Word2vec-news);
テキストで言及される頻度に比例する重みを用いたBERTの重み付き和(Weighted BERT);
株価の共分散と本実施形態による埋込ベクトル(Covariance - stock emb.);
グラフ上段は、所望の利得に対する実際の利得の関係を表すものであり、グラフ下段は、利得の平均を示すものである。
本図に示すように、上記実施形態(Stock embedding)の成績はほとんどの場合で良好である。たとえば、共分散(Covariance)の成績は、12.5%ならびに12.7%であるのに対し、上記実施形態(Stock embedding)の成績は、17.2%ならびに35.5%であり、大きな利得が得られることがわかる。
上記の実験により、本実施形態の有効性が確認できた。なお、上記実験で採用した種々の条件およびパラメータは適宜変更が可能であり、変更した態様も本発明の技術的範囲に含まれる。
(情報処理装置)
上記のニューラルネットワーク11は、コンピュータにてプログラムを実行する、あるいは、プログラムに基づいて構成された電子回路を動作させることによって学習ならびに分類を実行することができ、埋込ベクトルを含む学習済みモデルを得ることができる。
図5は、本実施形態における情報処理装置の概要を示す説明図である。以下、本図を参照して説明する。
本図に示すように、情報処理装置101は、学習部102を備える。また、情報処理装置101は、省略可能な要素として類似度計算部103、最適化部104を備えても良い。
ここで、学習部102は、ニューラルネットワーク11の学習を進め、埋込ベクトルを含むモデル19を更新する機能を果たす。
一方、類似度計算部103は、学習済みのモデル19に基づいて対象同士の類似度を表す類似度行列を計算する。
そして、最適化部は、当該類似度行列に基づいて、リスクを最小化して、対象の配分を表すポートフォリオベクトルを求める。
(まとめ)
以上説明したように、本実施形態に係る情報処理装置は、
基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現し、
前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
ことにより、前記モデルを学習する学習部
を備える。
また、本実施形態に係る情報処理装置において、
前記一方の特徴ベクトルは、前記各テキストの単語レベルの特徴を表し、
前記他方の特徴ベクトルは、前記各テキストの文脈レベルの特徴を表す
ように構成することができる。
また、本実施形態に係る情報処理装置において、
前記学習器は、Bi-GRU(Bidirectional Gated Recurrent Unit)と、MLP(MultiLayer Perceptron)と、により構成される
ように構成することができる。
また、本実施形態に係る情報処理装置において、
前記学習されたモデルに含まれる埋込ベクトル同士の類似に基づいて、前記複数の対象同士の類似度行列を計算する類似度計算部
をさらに備えるように構成することができる。
また、本実施形態に係る情報処理装置において、
前記複数の対象に対する配分を表すポートフォリオベクトルを、前記計算された類似度行列に基づくリスクを最小化することにより、求める最適化部
をさらに備えるように構成することができる。
本実施形態に係る制御方法は、
基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する情報処理装置を制御し、
前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
ことにより、前記モデルを学習する
処理を前記情報処理装置に実行させる。
また、本実施形態に係るプログラムは、
基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する処理をコンピュータに実行させ、前記プログラムは、前記コンピュータに、
前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
ことにより、前記モデルを学習する
処理を実行させる。
また、本実施形態に係る学習済モデルは、上記 プログラムをコンピュータに実行させることにより学習された埋込ベクトルが含まれる学習済モデルである。
本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
本発明によれば、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得るのに好適な情報処理装置、その制御方法、プログラム、ならびに、学習済モデルを提供することができる。
11 ニューラルネットワーク
12a 抽出器
12b 抽出器
13 スコア計算器
14 重み計算器
15 状態計算器
16 分類器
19 モデル
101 情報処理装置
102 学習部
103 類似度計算部
104 最適化部

Claims (8)

  1. 基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する情報処理装置であって、
    前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
    前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
    前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
    前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
    ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
    ことにより、前記モデルを学習する学習部
    を備えることを特徴とする情報処理装置。
  2. 前記一方の特徴ベクトルは、前記各テキストの単語レベルの特徴を表し、
    前記他方の特徴ベクトルは、前記各テキストの文脈レベルの特徴を表す
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記学習器は、Bi-GRU(Bidirectional Gated Recurrent Unit)と、MLP(MultiLayer Perceptron)と、により構成される
    ことを特徴とする請求項1また2に記載の情報処理装置。
  4. 前記学習されたモデルに含まれる埋込ベクトル同士の類似に基づいて、前記複数の対象同士の類似度行列を計算する類似度計算部
    をさらに備えることを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記複数の対象に対する配分を表すポートフォリオベクトルを、前記計算された類似度行列に基づくリスクを最小化することにより、求める最適化部
    をさらに備えることを特徴とする請求項4に記載の情報処理装置。
  6. 基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する情報処理装置を制御する制御方法であって、
    前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
    前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
    前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
    前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
    ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
    ことにより、前記モデルを学習する
    処理を前記情報処理装置に実行させることを特徴とする制御方法。
  7. 基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する処理をコンピュータに実行させるプログラムであって、前記プログラムは、前記コンピュータに、
    前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
    前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
    前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
    前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
    ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
    ことにより、前記モデルを学習する
    処理を実行させることを特徴とするプログラム。
  8. 請求項7に記載のプログラムをコンピュータに実行させることにより学習された埋込ベクトルが含まれる学習済モデル。
JP2020062808A 2020-03-31 2020-03-31 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル Active JP7364228B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020062808A JP7364228B2 (ja) 2020-03-31 2020-03-31 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル
US17/913,222 US20230162003A1 (en) 2020-03-31 2021-02-02 Information processing device, method of controlling same, program, and learned model
PCT/JP2021/003815 WO2021199657A1 (ja) 2020-03-31 2021-02-03 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020062808A JP7364228B2 (ja) 2020-03-31 2020-03-31 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル

Publications (2)

Publication Number Publication Date
JP2021163073A JP2021163073A (ja) 2021-10-11
JP7364228B2 true JP7364228B2 (ja) 2023-10-18

Family

ID=77928499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020062808A Active JP7364228B2 (ja) 2020-03-31 2020-03-31 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル

Country Status (3)

Country Link
US (1) US20230162003A1 (ja)
JP (1) JP7364228B2 (ja)
WO (1) WO2021199657A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694476A (zh) 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法
WO2018220685A1 (ja) 2017-05-29 2018-12-06 株式会社野村総合研究所 株価分析装置
KR20190116590A (ko) 2018-03-19 2019-10-15 동국대학교 산학협력단 뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018220685A1 (ja) 2017-05-29 2018-12-06 株式会社野村総合研究所 株価分析装置
KR20190116590A (ko) 2018-03-19 2019-10-15 동국대학교 산학협력단 뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법
CN108694476A (zh) 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法

Also Published As

Publication number Publication date
WO2021199657A1 (ja) 2021-10-07
US20230162003A1 (en) 2023-05-25
JP2021163073A (ja) 2021-10-11

Similar Documents

Publication Publication Date Title
Hu et al. Listening to chaotic whispers: A deep learning framework for news-oriented stock trend prediction
Arras et al. Explaining and interpreting LSTMs
Nousi et al. Machine learning for forecasting mid-price movements using limit order book data
US10824815B2 (en) Document classification using attention networks
Passalis et al. Temporal bag-of-features learning for predicting mid price movements using high frequency limit order book data
US20210303970A1 (en) Processing data using multiple neural networks
US11586919B2 (en) Task-oriented machine learning and a configurable tool thereof on a computing environment
CN111160000B (zh) 作文自动评分方法、装置终端设备及存储介质
Petrozziello et al. Deep learning for volatility forecasting in asset management
Ma et al. Jointly trained sequential labeling and classification by sparse attention neural networks
Zhu et al. Mixseq: Connecting macroscopic time series forecasting with microscopic time series data
Merello et al. Investigating timing and impact of news on the stock market
Li et al. A comparison of forecasting models for the resource usage of MapReduce applications
Passalis et al. Forecasting financial time series using robust deep adaptive input normalization
Igual et al. Supervised learning
Yang et al. Enhancing stock movement prediction with market index and curriculum learning
Bhambu Stock Market prediction using deep learning techniques for short and long horizon
Gurgul et al. Forecasting Cryptocurrency Prices Using Deep Learning: Integrating Financial, Blockchain, and Text Data
Sakhare et al. Spatial federated learning approach for the sentiment analysis of stock news stored on blockchain
Elena Predicting the movement direction of omxs30 stock index using xgboost and sentiment analysis
Banerjee et al. Short term stock price prediction in indian market: A neural network perspective
Yu et al. Share price trend prediction using CRNN with LSTM structure
Abd Elminaam et al. CPSMP_ML: Closing price Prediction of Stock Market using Machine Learning Models
Sambasivan et al. Classification and regression using augmented trees
Gu et al. Stock prediction based on news text analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220928

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20220928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230928

R150 Certificate of patent or registration of utility model

Ref document number: 7364228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150