JP6879552B2

JP6879552B2 - 株価予測システム、株価予測方法及び株価予測プログラム

Info

Publication number: JP6879552B2
Application number: JP2017104050A
Authority: JP
Inventors: 鈴木　智也; 智也鈴木
Original assignee: Ibaraki University NUC
Current assignee: Ibaraki University NUC
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2021-06-02
Anticipated expiration: 2037-05-26
Also published as: JP2018200513A

Description

本発明は、株価の予測に適した株価予測システム、株価予測方法及び株価予測プログラムに関する。

近年のＩＣＴ（Information and Communication Technology）技術の発達に伴い、金融業務においても人工知能を応用する動きが盛んである。特に、フィンテック（FinTech）と呼ばれる金融とＩＴ（Information Technology）とを融合した金融工学分野での技術革新に目を見張るものがある。

このような金融業務における金融商品の売買を支援するものとして、特許文献１では、金融派生商品の価格シナリオに基づき２種類の特徴量を算出し、２種類の特徴量から夫々変動の度合いの頻度分布を算出し、夫々の頻度分布を集計し金融派生商品の購入比率を決定する売買契約支援システムを提案している。

また、特許文献２では、予測したい資産に対し、資産とそれ以外に複数の資産を一様乱数を発生させて資産群を設定し、設定した資産群に対し、観測方程式と状態方程式とからなる状態空間モデルを適用し、過去の資産価格から方程式構造を推定し、推定された方程式を用いて資産の価格予測を行う金融資産価格予測システムを提案している。なお、観測方程式は因子分析により推定し、状態方程式は観測方程式と状態方程式から生成されるカルマンフィルタから時系列構造をもつ状態変数を推定している。

特開２００３−２９６５７７号公報特開平０５−１０８６５２号公報

上述した特許文献１の売買契約支援システムでは、価格シナリオに基づいた２種類の特徴量から算出した変動の度合いの夫々の頻度分布を集計し、金融派生商品の購入比率を決定するので、適切な売買計画を立案できる。

一方、上述した特許文献２の金融資産価格予測システムでは、予測したい資産とそれ以外に複数の資産とに対し、一様乱数を発生させて資産群を設定し、過去の資産価格から推定した方程式構造による方程式を用いて資産の価格予測を行うので、予測精度を向上させることができる。

ところで、特許文献１の売買契約支援システム、又は特許文献２の金融資産価格予測システムを、株式投資における収益性の予測に適用しようとすると、次のような不具合を生じるおそれがある。

すなわち、特許文献１の売買契約支援システムは、夫々の頻度分布の集計結果から購入比率を決定するものの、夫々の頻度分布のバラツキが多いため、売買計画における収益予測の精度が低下するおそれがある。

また、特許文献２の金融資産価格予測システムは、観測方程式と状態方程式とからなる状態空間モデルを適用し、過去の資産価格から方程式構造を推定するため、たとえば状態変数の推定結果によっては資産の収益予測の精度が低下するおそれがある。

このようなことから、収益予測の精度を高めることで、株式投資における収益性を高めることができるシステムの開発が望まれている。

本発明は、このような状況に鑑みてなされたものであり、株式投資における収益性を高めることができる株価予測システム、株価予測方法及び株価予測プログラムを提供することを目的とする。

本発明の株価予測システムは、株価の変化要素を示す入力データに基づき、株価の予測値の集合を取得する予測集合取得手段と、前記株価の予測値の集合から予測精度の高い株価の集合知を取得する集合知取得手段とを備え、前記予測集合取得手段は、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する無作為復元抽出部と、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する集団学習部とを有し、前記集合知取得手段は、前記第２の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する平均値取得部を有することを特徴とする。
また、前記集合知取得手段は、前記平均値取得部が取得した予測精度の高い予測値の集合知からコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する標準偏差取得部を有することを特徴とする。
また、前記予測集合取得手段は、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する無作為復元抽出部と、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する集団学習部とを有し、前記集合知取得手段は、前記第２の出力データからコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する標準偏差取得部と、前記第４の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する平均値取得部とを有することを特徴とする。
本発明の株価予測方法は、予測集合取得手段により、株価の変化要素を示す入力データに基づき、株価の予測値の集合を取得する工程と、集合知取得手段により、前記株価の予測値の集合から予測精度の高い株価の集合知を取得する工程とを有し、前記予測集合取得手段は、無作為復元抽出部により、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する工程と、
集団学習部により、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する工程とを有し、前記集合知取得手段は、平均値取得部により、前記第２の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する工程を有することを特徴とする。
また、前記集合知取得手段は、標準偏差取得部により、前記平均値取得部が取得した予測精度の高い予測値の集合知からコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する工程を有することを特徴とする。
また、前記予測集合取得手段は、無作為復元抽出部により、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する工程と、集団学習部により、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する工程とを有し、前記集合知取得手段は、標準偏差取得部により、前記第２の出力データからコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する工程と、平均値取得部により、前記第４の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する工程とを有することを特徴とする。
本発明の株価予測プログラムは、株価予測システムを制御するコンピューターに実行させる株価予測プログラムであって、予測集合取得手段により、株価の変化要素を示す入力データに基づき、株価の予測値の集合を取得する工程と、集合知取得手段により、前記株価の予測値の集合から予測精度の高い株価の集合知を取得する工程とを有し、前記予測集合取得手段は、無作為復元抽出部により、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する工程と、集団学習部により、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する工程とを有し、前記集合知取得手段は、平均値取得部により、前記第２の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する工程を有することを特徴とする。
また、前記集合知取得手段は、標準偏差取得部により、前記平均値取得部が取得した予測精度の高い予測値の集合知からコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する工程を有することを特徴とする。
また、前記予測集合取得手段は、無作為復元抽出部により、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する工程と、集団学習部により、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する工程とを有し、前記集合知取得手段は、標準偏差取得部により、前記第２の出力データからコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する工程と、平均値取得部により、前記第４の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する工程とを有することを特徴とする。
本発明の株価予測システム、株価予測方法及び株価予測プログラムでは、予測集合取得手段により、株価の変化要素を示す入力データに基づき、株価の予測値の集合を取得し、集合知取得手段により、株価の予測値の集合から予測精度の高い株価の集合知を取得する。
すなわち、集合知取得手段により、予測集合取得手段が取得した株価の予測値の集合から予測精度の高い株価の集合知を取得でき、収益予測の精度を高めることができる。

本発明の株価予測システム、株価予測方法及び株価予測プログラムによれば、集合知取得手段により、予測集合取得手段が取得した株価の予測値の集合から予測精度の高い株価の集合知を取得でき、収益予測の精度を高めることができるので、株式投資における収益性を高めることができる。

本発明の株価予測システムの構成の一例を示す図である。図１の予測集合取得部での集団学習について説明するための図である。図１の予測集合取得部でのバックテスト（Back-test）とフォワードテスト（Forward-test）について説明するための図である。図１の予測集合取得部に入力される入力データの一例を示す図である。図４の入力データの元となるデータの一例について説明するための図である。図１の２段階選択部での予測集合取得部からの出力データに基づいた集合知の取得を説明するためのものであり、同図（ａ）は第１の選択（First selection）について説明する図であり、同図（ｂ）は第２の選択（Ssecond selection）について説明するための図である。図１の２段階選択部の平均値取得部からの出力に基づいた予測精度の一例を示す図である。図１の２段階選択部の出力であり、図６（ｂ）の第２の選択（Ssecond selection）で選択された株価銘柄に対する予測精度の一例を示す図である。図１の株価予測システムにおける株価予測の処理について説明するためのフローチャートである。図１の株価予測システムによる東京証券取引所（Tokyo stock exchange）における第１期（ａ）〜第４期（ｄ）でのシミュレーションの一例を示す図である。図１の株価予測システムによるニューヨーク証券取引所（New York stock exchange）における第１期（ａ）〜第４期（ｄ）でのシミュレーションの一例を示す図である。一般的なニューラルネットワークによる予測モデルについて説明するための図である。図１０の予測モデルによる予測精度の一例を示す図である。

以下、本発明の株価予測システムの一実施形態について説明する。
なお、本発明の株価予測システムの一実施形態を説明するに先立ち、図１２および図１３を用い、一般的なニューラルネットワークによる予測精度について説明する。また、以下に説明する予測値は、株価の収益率である。また、以下に説明する予測精度とは、株価の収益率の予測の精度を意味する。

まず、ニューラルネットワークは、どのような予測モデルであっても、次の数１のように記述できる。

すなわち、未来＝Ｆ（過去）として記述できる。ここで、「Ｆ」は過去および将来の動きの関係を意味する。関数Ｆが「過去」のデータを入力として受け取る場合、関数Ｆからの出力として「未来」を予測することができる。

また、一般的なニューラルネットワークの予測モデルは、たとえば図１２に示すように、非線形フィルタ１１を有する複数のニューロン１０と、複数のニューロン１０からの出力に基づき予測値（株価の収益率）を出力するニューロン１２とを混在させた予測モデルで示される。
また、複数のニューロン１０を混在させた予測モデルは、次の数２によって表すことができる。

ここで、｛Ｗl，Ｗ2，…，ＷN｝と数３の変数とは、予測モデルのパラメータである。また、ｄは図示しない第１層のニューロンの数、Ｎは第２層のニューロン１０の数であり、０jは第２の層のｊ番目のニューロン１０からの出力値である。

また、数４で示す式は、［０，１］の値である。

また、一般的なニューラルネットワークでは、入力データから以前の出力データを正確に再現するために、予測モデルのパラメータｗをすべて最適化する必要がある。
ここで、概要を説明すると、数５で示す式が最急降下法によって数６のように修正される。

ここで、ｊ∈｛１、．．．、Ｎ｝であり、ηは訓練係数である。
また、数７での

は出力データであり、数８の

は、教師データ（Teacher data）である。

次に、ニューロン１０の数が図１２のような数であれば、予測モデルパラメータwは、バックプロパゲーションアルゴリズムによって数９のように修正される。

ここで、ｉ∈｛0、．．．、ｄ｝および j ∈｛1、．．．、N｝である。
そして、数１０の平均二乗誤差Ｅが十分に小さくなるように、上記の数９の修正を繰り返す。

このようなトレーニングプロセスをバックテスト（Back-test）と呼び、数１０におけるαはバックテスト（Back-test）の開始時間であり、βはバックテストのトータルの長さである。

また、バックテスト（Back-test）でのトレーニングの合計は数１１の平均二乗誤差Ｅで示される。

ここで、αはバックテスト（Back-test）の開始時間であり、βはテストのトータルの長さである。

そして、すべてのパラメータを訓練した後、ニューラルネットワークを使用して新しいデータを予測することができる。訓練されたニューラルネットワークをＦとすると、数１２に示す予測値（株価の収益率）は、数１３で表される。

ここで、数１３における｛ｘ（ｔ）、ｘ（ｔ−１）、．．．、ｘ（ｔ−ｄ）｝は未学習の新しい入力データである。ここでは、この予測をフォワードテスト（Forward-test）という。

以上のような一般的なニューラルネットワークを用いることで、たとえば図１３に示すフォワードテスト（Forward-test）での予測結果が得られる。すなわち、図１３では、たとえば東京証券取引所（Tokyo stock exchange）とニューヨーク証券取引所（New York stock exchange）での特定の銘柄の株価の収益率の予測結果を示している。

すなわち、たとえば東京証券取引所（Tokyo stock exchange）の場合、第１期が５４．８％、第２期が５５．８％、第３期が５１．６％、第４期が５４．８％とした予測値（株価の収益率）が得られたことを示している。また、ニューヨーク証券取引所（New York stock exchange）場合、第１期が５９．１％、第２期が５２．７％、第３期が５２．０％、第４期が５３．２とした予測精度（上昇又は下降の２択による）が得られたことを示している。

次に、本発明の株価予測システムの一実施形態を、図１〜図１１を参照しながら説明する。なお、以下に説明する入力データａである訓練データ（Training data）は、株価の変化要素を示すものである。株価の変化要素としては、次の式で示される株価の変化率を用いることができる。
株価の変化率x(t) = [株価(t) - 株価(t-1)] / 株価(t-1)

また、株価の変化要素としては、株価の変化率に限らず、次の式で示される対数差分を用いることができる。
株価の対数差分x(t) = log株価(t) - log株価(t-1)

まず、図１を参照し、本発明の株価予測システムの構成の一例について説明する。図１の株価予測システム１００は、予測集合取得部１１０と２段階選択部１４０とを有している。予測集合取得部１１０は、無作為復元抽出部１２０と集団学習部１３０とを有している。

無作為復元抽出部１２０は、詳細については後述するが、入力データａが示す訓練データ（Training data）から複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す出力データｂを出力する。集団学習部１３０は、無作為復元抽出部１２０からの出力データｂが示す訓練データの集合を用いて複数の予測モデルを訓練し、個々に予測値の集合を示す出力データｃを出力する。

２段階選択部１４０は、平均値取得部１５０と標準偏差取得部１６０とを有している。
平均値取得部１５０は、詳細については後述するが、予測集合取得部１１０からの予測値（株価の収益率）の集合を示す出力データｃから予測精度（Prediction accuracy）の低い予測値（株価の収益率）の平均値をとることで互いの予測誤差を相殺し、予測精度（Prediction accuracy）の高い予測値（株価の収益率）の集合知を取得し、取得した集合知を示す出力データｄを出力する。標準偏差取得部１６０は、詳細については後述するが、平均値取得部１５０が取得した予測精度（Prediction accuracy）の高い予測値（株価の収益率）の集合知からコンセンサス比率（Consensus Ratio）の高い（最も信頼性の高い）予測値（株価の収益率）の集合を取得し、取得した集合知の合意度を示す出力データｅを出力する。

なお、詳細については後述するが、出力データｄは株の売買の投資判断に使用でき、出力データｅは予測の自信度の確認に使用できる。

次に、図２を参照し、図１の予測集合取得部１１０での集団学習について説明する。まず、無作為復元抽出部１２０は、複数の予測モデル１２０ａ〜１２０ｎを有している。これらの予測モデル１２０ａ〜１２０ｎは、入力データａの訓練データ（Training data）を再サンプリングしたそれぞれのデータセット（data set）ａ１〜ａｎに基づいて複製されたものである。なお、訓練データ（Training data）および再サンプリングしたデータセット（data set）ａ１〜ａｎの詳細については後述する。これらの予測モデル１２０ａ〜１２０ｎは、それぞれのデータセット（data set）ａ１〜ａｎに基づき、上述したバックテスト（Back-test）およびフォワードテスト（Forward-test）を実行し、たとえばＵｐ又はＤｏｗｎを示す訓練データ（Training data）の集合を示す出力データｂを出力する。なお、データセット（data set）ａ１〜ａｎおよび予測モデル１２０ａ〜１２０ｎの数は任意であるが、本実施形態ではたとえば１０００個としている。

ここで、バックテスト（Back-test）およびフォワードテスト（Forward-test）は、オーバーフィッティングを防ぐための処理である。すなわち、予測集合取得部１１０での集団学習において、評価を最良にするようにNとdとを最適化する。次に、予測モデル１２０ａ〜１２０ｎの汎用性を評価するために未学習の新しい教師データ（Teacher data）を用いてフォワードテスト（Forward-test）を行う。まず、バックテスト（Back-test）においては、たとえば図３に示すように、最初の段階でモデルパラメータｗの訓練（Training of w）と、予測精度の評価（Evaluation of prediction accuracy）とを実行し、次の段階でモデルパラメータｗの訓練（Training of w）と、予測精度の評価（Evaluation of prediction accuracy）とを入れ替え、Nとdとを最適化する。続いて、フォワードテスト（Forward-test）において、未学習の新しい教師データ（Teacher data）を用いバックテスト（Back-test）で最適化された予測モデルを評価する。また、バックテスト（Back-test）においての｛ｗ1，ｗ2，・・・，ｗN｝のパラメータは、上記の数６のように修正される。

また、図２において、集団学習部１３０は、無作為復元抽出部１２０からの出力データｄを用いて複数の予測モデルを訓練することで、フォワードテスト（Forward-test）の新しいデータを個々に予測する。すなわち、集団学習部１３０は、たとえば以下の数１４により、予測値（株価の収益率）を得ることができる。

数１４においては、たとえば独立している予測モデルが１９個あり、それぞれの予測精度をｐとした場合を示している。このときｘ個の予測モデルが正解する確率は数１４で計算できる。次に、多数決が正解する確率は、数１５のようにｘが１０以上のＰ（ｘ）の和を取ることで計算できる。仮に、ｐが０．５３である場合，多数決が正解する確率は０．６０まで向上する。

つまり、集団学習部１３０は、集団学習の効果により、たとえば予測精度を５３％から６０％に上げることができる。

次に、図４を参照し、図１の予測集合取得部１１０に与える入力データａが示す訓練データ（Training data）について説明する。まず、図４（ａ）は、データセット（data set）ａ１〜ａｎを生成するための訓練データ（Training data）を示している。なお、この訓練データ（Training data）は、特定の銘柄の株価を示している。

訓練データ（Training data）は、たとえば＃１に示すように、ｘ（ｔ−１），ｘ（ｔ−２），・・・ｘ（ｔ−ｄ−１）で示すデータおよびｘ（ｔ）で示す教師データ（Teacher data）とを有している。

図４（ｂ）は、図４（ａ）の＃１〜＃１０までの訓練データ（Training data）をランダムに並べた１個のデータセット（data set）ａ１を示している。なお、他のデータセット（data set）ａ２〜ａｎについても、同様にして図４（ａ）の＃１〜＃１０までの訓練データ（Training data）がランダムに並べられたものとなる。つまり、図４（ａ）の＃１〜＃１０までの訓練データ（Training data）をランダムに並べることで、複数のデータセット（data set）ａ１〜ａｎが複製されることになる。なお、図４では、説明の都合上、１セットのデータを＃１〜＃１０までの１０個として示している。ただし、１セットのデータの個数は、１０個に限られるものではなく、１１個以上であってもよい。

次に、図５を参照し、訓練データ（Training data）の元となるデータについて説明する。すなわち、訓練データ（Training data）は、任意の銘柄の株価に該当する。株価の取得元となる市場（Market）は、たとえば東京証券取引所（Tokyo stock exchange）とニューヨーク証券取引所（New York stock exchange）としている。また、株価の取得期間については、第１期（First term）、第２期（Second term）、第３期（Third term）、第４期（Fourth term）に分けている。また、第１期〜第４期毎に、バックテスト（Back-test）で用いるデータ（株価）を５年分とし、フォワードテスト（Forward-test）で用いるデータ（株価）を２．５年分としている。

また、東京証券取引所（Tokyo stock exchange）において、たとえば５９０銘柄の上場株をサンプルとしている。また、ニューヨーク証券取引所（New York stock exchange）において、たとえば５００銘柄の上場株をサンプルとしている。上場株のサンプルを決定するに当たり、継続的なサンプル値（株価）が必要であるため、たとえば上場廃止期間の無い銘柄を選択している。なお、サンプル数については、東京証券取引所（Tokyo stock exchange）においての５９０銘柄、ニューヨーク証券取引所（New York stock exchange）においての５００銘柄に限定されるものではない。任意にサンプル数を決定してもよい。

また、第１期（First term）でのバックテスト（Back-test）のデータ（株価）のサンプル期間は、1991/1~1995/12としている。また、第１期（First term）でのフォワードテスト（Forward-test）のデータ（株価）のサンプル期間は、1996/1~1998/6としている。また、第２期（Second term）でのバックテスト（Back-test）のデータ（株価）のサンプル期間は、1996/1~2000/12としている。また、第２期（Second term）でのフォワードテスト（Forward-test）の入力データ（株価）のサンプル期間は、2001/1~2003/6としている。また、第３期（Third term）でのバックテスト（Back-test）のデータ（株価）のサンプル期間は、200/1~2005/12としている。また、第３期（Third term）でのフォワードテスト（Forward-test）のデータ（株価）のサンプル期間は、2006/1~2008/6としている。また、第４期（Fourth term）でのバックテスト（Back-test）のデータ（株価）のサンプル期間は、2006/1~2010/12としている。また、第４期（Fourth term）でのフォワードテスト（Forward-test）のデータ（株価）のサンプル期間は、2011/1~2013/6としている。

なお、第１期（First term）〜第４期（Fourth term）におけるバックテスト（Back-test）で用いる入力データ（株価）のサンプル期間を５年分としているが、５年に限定されるものではない。ただし、期間を長くしたり、短くしたりすると、予測精度の低下を招くおそれがあるため、５年程度が好ましい。また、フォワードテスト（Forward-test）で用いる入力データ（株価）のサンプル期間は、２．５年分としているが、２．５年に限定されるものではない。ただし、期間を長くしたり、短くしたりすると、予測精度の低下を招くおそれがあるため、２．５年程度が好ましい。

次に、図６を参照し、２段階選択部１４０の平均値取得部１５０および標準偏差取得部１６０による２段階の選択ついて説明する。まず、図６（ａ）は、平均値取得部１５０による第１の選択について説明する図である。図６（ａ）では、縦軸を予測精度（Prediction accuracy）とし、横軸を株番号（Stock No.）としている。平均値取得部１５０は、集団学習部１３０の予測値（株価の収益率）の集合である出力データｃから収益性の高い株式銘柄を取得するために、予測精度の低い株式銘柄を取り除き（Removed）、予測精度の高い株式銘柄を取得する。

すなわち、無作為復元抽出部１２０でのバックテスト（Back-test）において、予測困難な株式銘柄が適用された場合、集団学習部１３０からの予測値（株価の収益率）の集合には偶発的に高いコンセンサス（Consensus）が含まれることがある。これは後述する標準偏差取得部１６０において悪影響を及ぼすので、あらかじめ平均値取得部１５０において予測困難な株式銘柄を取り除く。たとえば集団学習部１３０からの出力データｃから予測精度の低い株式銘柄を７５％取り除き、予測精度の高い（収益性の高い）２５％の株式銘柄を取得する。取得したそれそれの株式銘柄に対する集合知を出力データｄとして出力する。

次に、図６（ｂ）は、標準偏差取得部１６０による第２の選択ついて説明する図である。図６（ｂ）では、縦軸をコンセンサス比率（Consensus Ratios）とし、横軸を時間である毎日のチャート（Daily chart）としている。ここで、標準偏差取得部１６０は、毎日の最大のコンセンサス比率（Consensus Ratios）を示す最も信頼性の高い株式銘柄を適応的に検出する。すなわち、標準偏差取得部１６０でのフォワードテスト（Forward-test）において、コンセンサス比率（Consensus Ratios）Ｃが使用される。コンセンサス比率Ｃは、予測可能な株式銘柄であっても、常に高い値を取るとは限らない。このため、標準偏差取得部１６０は、毎日において最大のコンセンサス比率を示す最も信頼性の高い予測値（株価の収益率）を適応的に検出する。すなわち、標準偏差取得部１６０が出力する出力データｅは、平均値取得部１５０が取得した集合知に対する合意度を示すものとなる。

ここで、標準偏差取得部１６０は、予測精度を向上させるために、以下の数１６を用い、コンセンサス比率（Consensus Ratios）Ｃを求める。

ここで、コンセンサス比率（Consensus Ratios）Ｃの値が大きいほど、平均値取得部１５０が取得した集合知の信頼性が高いことを示す。

次に、図７を参照し、平均値取得部１５０から出力される出力データｄの一例について説明する。なお、出力データｄは、平均値取得部１５０が取得した集合知であり、特定の銘柄の予測値（株価の収益率）でもある。図７に示すように、東京証券取引所（Tokyo stock exchange）の場合、第１期（First term）が５９．９％、第２期（Second term）が５７．９％、第３期（Third term）が５５．５％、第４期（Fourth term）が５７．０％とした予測精度が得られた。また、ニューヨーク証券取引所（New York stock exchange）の場合、第１期（First term）が６１．７％、第２期（Second term）が５５．６％、第３期（Third term）が５５．３％、第４期（Fourth term）が５４．６％とした予測精度が得られた。なお、平均値取得部１５０によって求められた予測値（株価の収益率）は、株の売買の投資判断に使用できる。

次に、図８を参照し、標準偏差取得部１６０から出力される出力データｅの一例について説明する。なお、出力データｅは、標準偏差取得部１６０が平均値取得部１５０によって取得された予測精度（Prediction accuracy）の高い予測値（株価の収益率）の集合知に対するコンセンサス比率（Consensus Ratio）を取得したものであり、図６（ｂ）の第２の選択（Ssecond selection）で選択された株価銘柄に対する予測精度の一例を示す図である。

図８に示すように、東京証券取引所（Tokyo stock exchange）の場合、第１期（First term）が６５．９％、第２期（Second term）が７１．６％、第３期（Third term）が６０．４％、第４期（Fourth term）が６２．１％とした予測精度が得られた。また、ニューヨーク証券取引所（New York stock exchange）の場合、第１期（First term）が８４．０％、第２期（Second term）が６９．０％、第３期（Third term）が６０．５％、第４期（Fourth term）が５７．０％とした予測精度が得られた。

ここで、図７の予測精度と、図８の予測精度とを比較すると、平均値取得部１５０から出力される集合知からコンセンサス比率（Consensus Ratio）の高い（最も信頼性の高い）集合知を取得することで、より精度の高い予測値（株価の収益率）が得られていることが分かる。

また、図７の予測精度および図８の予測精度と、図１３の一般的なニューラルネットワークによる予測精度とを比較してみると、次のようなことが分かる。

すなわち、上述したように、図１３の予測精度では、東京証券取引所（Tokyo stock exchange）の場合、第１期（First term）が５４．８％、第２期（Second term）が５５．８％、第３期（Third term）が５１．６％、第４期（Fourth term）が５４．８％とした予測精度となっている。また、ニューヨーク証券取引所（New York stock exchange）の場合、第１期（First term）が５９．１％、第２期（Second term）が５２．７％、第３期（Third term）が５２．０％、第４期（Fourth term）が５３．２とした予測精度となっている。

図７の予測精度と図１３の予測精度とを比較すると、平均値取得部１５０からの出力データｄである集合知による予測精度が図１３の第１期（First term）から第４期（Fourth term）のいずれの予測精度よりも高いことが分かる。また、図８の予測精度と図１３の予測精度とを比較すると、標準偏差取得部１６０からの出力データｅである集合知の合意度を利用した予測精度の方が、図１３の第１期（First term）から第４期（Fourth term）のいずれの予測精度よりも高いことが分かる。

特に、図１３のニューヨーク証券取引所（New York stock exchange）の第１期（First term）の予測精度が５９．１％であるのに対し、図８のニューヨーク証券取引所（New York stock exchange）の第１期（First term）の予測精度が８４．０％であることからも、本実施形態での株価予測システム１００による予測精度がより高められていることが分かる。

次に、図９を参照し、株価予測システム１００による株価予測の処理について説明する。

（ステップＳ１０１）
訓練データ（Training data）の集合を取得する。
この場合、予測集合取得部１１０の無作為復元抽出部１２０が、訓練データ（Training data）を示す入力データａから複数のデータセットを複製し、その訓練データ（Training data）の集合を取得する。

（ステップＳ１０２）
訓練データ（Training data）の集合を出力する。
この場合、無作為復元抽出部１２０が取得した訓練データ（Training data）の集合を示す出力データｂを出力する。

（ステップＳ１０３）
訓練データ（Training data）の集合から複数の予測モデルを独立に訓練し、それぞれの予測モデルから予測値（株価の収益率）を取得する。
この場合、予測集合取得部１１０の集団学習部１３０が訓練データ（Training data）の集合を示す出力データｂに対し、複数の予測モデルによって予測値（株価の収益率）の集合を取得する。

（ステップＳ１０４）
予測値（株価の収益率）の集合を出力する。
この場合、集団学習部１３０が取得した予測値（株価の収益率）の集合を示す出力データｃを出力する。

（ステップＳ１０５）
予測値（株価の収益率）の集合から予測精度の高い集合知を取得する。
さらに，バックテストとして全ての株価銘柄の集合知を取得し、教師データと比較することで予測精度を取得する。この予測精度は、たとえば上述した図７の予測精度のような結果として得られる。

（ステップＳ１０６）
バックテストを通じて予測精度の低い株式銘柄を取り除いた予測値（株価の収益率）の集合知を出力する。
この場合、平均値取得部１５０が予測精度の低い株式銘柄を取り除き、予測精度の高い株式銘柄の予測値（株価の収益率）の集合知を、出力データｄとして出力する。

（ステップＳ１０７）
フォーワードテストにおいて、予測値（株価の収益率）の集合知からコンセンサス比率（Consensus Ratios）の高い株式銘柄を取得し，その予測値（株価の収益率）の集合知を取得する。
この場合、２段階選択部１４０の標準偏差取得部１６０が、平均値取得部１５０によって取得された予測精度（Prediction accuracy）の高い株式銘柄の集合知からコンセンサス比率（Consensus Ratio）の高い（最も信頼性の高い）集合知の予測値（株価の収益率）を取得する。

（ステップＳ１０８）
集合知の合意度と予測値とを出力する。
この場合、標準偏差取得部１６０が取得したコンセンサス比率（Consensus Ratio）の高い（最も信頼性の高い）集合知の予測値（株価の収益率）およびその集合知の合意度を示す出力データｅを出力する。
この出力データｅを利用することにより、たとえば上述した図８の予測精度のような結果が得られる。また、この出力データｅは、上述したように、株の予測の自信度の確認に使用できる。

次に、図１０および図１１を参照し、株価予測システム１００によるシミュレーションについて説明する。

まず、図１０は、図５に示した東京証券取引所（Tokyo stock exchange）においてのサンプルを、たとえば５９０銘柄とした場合のシミュレーションの結果を示している。また、図１１は、図５に示したニューヨーク証券取引所（New York stock exchange）においてのサンプルを、たとえば５００銘柄とした場合のシミュレーションの結果を示している。ただし、図１０および図１１に示すシミュレーションでは、説明の都合上、株の売買に関わる手数料については省いた結果を示している。

また、図１０および図１１において、符号ｈは株価予測システム１００によって予測した特定銘柄の投資パフォーマンス（資産増幅率）を示している。また、符号ｉは、投資銘柄を毎日ランダムに選択した場合（ランダム戦略）の投資パフォーマンスを示している。また、符号ｊは、東京証券取引所（Tokyo stock exchange）での５９０銘柄の値動きのパフォーマンスの平均、ニューヨーク証券取引所（New York stock exchange）での５００銘柄の値動きのパフォーマンスの平均を示している。

図１０および図１１から分かる通り、株価予測システム１００によって得られた投資パフォーマンスｈは、市場の平均パフォーマンスｊやランダム戦略によるパフォーマンスｉを上回っている。このことは、株価予測システム１００による予測値（株価の収益率）が実際の株式市場での予測可能性と収益性との確認に有益であることを意味するものである。

このように、本実施形態では、株価予測システム１００の予測集合取得部１１０（予測集合取得手段）により、株価の変化要素（株価の変化率又は対数差分）を示す入力データａに基づき、株価の予測値の集合を取得し、２段階選択部１４０（集合知取得手段）により、株価の予測値の集合から予測精度の高い株価の集合知を取得している。

これにより、２段階選択部１４０（集合知取得手段）により、予測集合取得部１１０（予測集合取得手段）が取得した株価の予測値の集合から予測精度の高い株価の集合知を取得でき、収益予測の精度を高めることができるので、投資における収益性を高めることができる。

すなわち、平均値取得部１５０からの出力データｄは、集団学習部１３０からの出力データｃに含まれる予測値（株価の収益率）の集合から予測精度の低い予測値（株価の収益率）の平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値（株価の収益率）の集合知を取得したものであるため、株の売買の投資判断に有効となる。

また、標準偏差取得部１６０が出力する出力データｅは、平均値取得部１５０が取得した集合知に対する合意度であり、予測精度の高い株価銘柄の厳選に有効となる。

なお、本実施形態では、平均値取得部１５０が予測集合取得部１１０からの予測値（株価の収益率）の集合を示す出力データｃから予測精度（Prediction accuracy）の低い予測値（株価の収益率）の平均値をとることで互いの予測誤差を相殺し、予測精度（Prediction accuracy）の高い予測値（株価の収益率）の集合知を取得し、取得した集合知を示す出力データｄを出力し、標準偏差取得部１６０が平均値取得部１５０の取得した予測精度（Prediction accuracy）の高い予測値（株価の収益率）の集合知からコンセンサス比率（Consensus Ratio）の高い（最も信頼性の高い）予測値（株価の収益率）の集合を取得し、取得した集合知の合意度を示す出力データｅを出力する場合として説明したが、この例に限られるものではない。

すなわち、標準偏差取得部１６０が予測集合取得部１１０からの予測値（株価の収益率）の集合を示す出力データｃからコンセンサス比率（Consensus Ratio）の高い（最も信頼性の高い）予測値（株価の収益率）の集合を取得し、平均値取得部１５０が標準偏差取得部１６０の取得した集合知から予測精度（Prediction accuracy）の低い予測値（株価の収益率）の平均値をとることで互いの予測誤差を相殺し、予測精度（Prediction accuracy）の高い予測値（株価の収益率）の集合知を取得するようにしてもよい。

１０、１２ニューロン
１１非線形フィルタ
１００株価予測システム
１１０予測集合取得部
１２０ａ〜１２０ｎ予測モデル
１２０無作為復元抽出部
１３０集団学習部
１４０２段階選択部
１５０平均値取得部
１６０標準偏差取得部
ａ入力データ
ａ１〜ａｎデータセット
ｂ〜ｅ出力データ

Claims

株価の変化要素を示す入力データに基づき、株価の予測値の集合を取得する予測集合取得手段と、
前記株価の予測値の集合から予測精度の高い株価の集合知を取得する集合知取得手段とを備え、
前記予測集合取得手段は、
前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する無作為復元抽出部と、
前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する集団学習部とを有し、
前記集合知取得手段は、
前記第２の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する平均値取得部を有する
ことを特徴とする株価予測システム。
前記集合知取得手段は、前記平均値取得部が取得した予測精度の高い予測値の集合知からコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する標準偏差取得部を有することを特徴とする請求項１に記載の株価予測システム。
前記予測集合取得手段は、
前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する無作為復元抽出部と、
前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する集団学習部とを有し、
前記集合知取得手段は、
前記第２の出力データからコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する標準偏差取得部と、
前記第４の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する平均値取得部とを有する
ことを特徴とする請求項１に記載の株価予測システム。
予測集合取得手段により、株価の変化要素を示す入力データに基づき、株価の予測値の集合を取得する工程と、
集合知取得手段により、前記株価の予測値の集合から予測精度の高い株価の集合知を取得する工程とを有し、
前記予測集合取得手段は、
無作為復元抽出部により、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する工程と、
集団学習部により、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する工程とを有し、
前記集合知取得手段は、
平均値取得部により、前記第２の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する工程を有する
ことを特徴とする株価予測方法。
前記集合知取得手段は、
標準偏差取得部により、前記平均値取得部が取得した予測精度の高い予測値の集合知からコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する工程を有する
ことを特徴とする請求項４に記載の株価予測方法。
前記予測集合取得手段は、
無作為復元抽出部により、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する工程と、
集団学習部により、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する工程とを有し、
前記集合知取得手段は、
標準偏差取得部により、前記第２の出力データからコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する工程と、
平均値取得部により、前記第４の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する工程とを有する
ことを特徴とする請求項４に記載の株価予測方法。
株価予測システムを制御するコンピューターに実行させる株価予測プログラムであって、
予測集合取得手段により、株価の変化要素を示す入力データに基づき、株価の予測値の集合を取得する工程と、
集合知取得手段により、前記株価の予測値の集合から予測精度の高い株価の集合知を取得する工程とを有し、
前記予測集合取得手段は、
無作為復元抽出部により、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する工程と、
集団学習部により、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する工程とを有し、
前記集合知取得手段は、
平均値取得部により、前記第２の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する工程を有する
ことを特徴とする株価予測プログラム。
前記集合知取得手段は、
標準偏差取得部により、前記平均値取得部が取得した予測精度の高い予測値の集合知からコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する工程を有する
ことを特徴とする請求項７に記載の株価予測プログラム。
前記予測集合取得手段は、
無作為復元抽出部により、前記入力データが示す訓練データから複数のデータセットを作成して複数の予測モデルを複製し、それぞれの予測モデルの訓練データの集合を示す第１の出力データを出力する工程と、
集団学習部により、前記第１の出力データが示す訓練データを用いて複数の予測モデルを訓練し、個々に予測値を示す第２の出力データを出力する工程とを有し、
前記集合知取得手段は、
標準偏差取得部により、前記第２の出力データからコンセンサス比率の高い予測値の集合を取得し、取得した集合知の合意度を示す第４の出力データを出力する工程と、
平均値取得部により、前記第４の出力データから平均値をとることで互いの予測誤差を相殺し、予測精度の高い予測値の集合知を示す第３の出力データを出力する工程とを有する
ことを特徴とする請求項７に記載の株価予測プログラム。