JP2005100222A - 株価分析装置および株価の分析結果を格納したデータベースの生成方法 - Google Patents
株価分析装置および株価の分析結果を格納したデータベースの生成方法 Download PDFInfo
- Publication number
- JP2005100222A JP2005100222A JP2003334896A JP2003334896A JP2005100222A JP 2005100222 A JP2005100222 A JP 2005100222A JP 2003334896 A JP2003334896 A JP 2003334896A JP 2003334896 A JP2003334896 A JP 2003334896A JP 2005100222 A JP2005100222 A JP 2005100222A
- Authority
- JP
- Japan
- Prior art keywords
- document data
- stock price
- period
- extracted
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 18
- 239000013598 vector Substances 0.000 claims abstract description 110
- 239000000284 extract Substances 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims description 34
- 238000013500 data storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013075 data extraction Methods 0.000 claims description 5
- 230000035945 sensitivity Effects 0.000 abstract description 42
- 238000000605 extraction Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 5
- 235000012055 fruits and vegetables Nutrition 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
【課題】 企業について書かれた文書と、その文書が発行された時期に生じた、その企業の株価変化との関係を分析する。
【解決手段】 記事データ解析装置7は、記事データが記憶されている記事DB31と、ある期間内の、ある企業に関する複数の記事データを記事DB31から抽出し、抽出されたそれぞれの記事データに含まれる単語を抽出し、抽出された単語に基づき、それぞれの記事データを示す複数の多次元ベクトルを生成するベクトル生成部72と、生成された複数の多次元ベクトルをクラスタリングするクラスタリング部73と、クラスタリングにより得られたクラスタの代表ベクトルを定める代表ベクトル計算部74と、期間の期初および期末の株価に基づいて、その期間における株価変化の感応度を求める感応度算出部75と、代表ベクトルと株価変化の感応度とを対応付けて記憶するベクトルDB21と、を備える。
【選択図】 図11
【解決手段】 記事データ解析装置7は、記事データが記憶されている記事DB31と、ある期間内の、ある企業に関する複数の記事データを記事DB31から抽出し、抽出されたそれぞれの記事データに含まれる単語を抽出し、抽出された単語に基づき、それぞれの記事データを示す複数の多次元ベクトルを生成するベクトル生成部72と、生成された複数の多次元ベクトルをクラスタリングするクラスタリング部73と、クラスタリングにより得られたクラスタの代表ベクトルを定める代表ベクトル計算部74と、期間の期初および期末の株価に基づいて、その期間における株価変化の感応度を求める感応度算出部75と、代表ベクトルと株価変化の感応度とを対応付けて記憶するベクトルDB21と、を備える。
【選択図】 図11
Description
本発明は、株価の変動を分析するための技術に関し、特にニュース記事などの文書との関連において株価変動を分析するための技術に関する。
企業のことが書かれた文書、例えば、ニュース記事などに基づいて、株式売買の意思決定をする投資家は多い。特に、インターネットを用いて個人が手軽に株式売買を行えるようになったことに伴い、ネット上の様々なニュースに基づいて投資判断を行い、売買注文を出す個人投資家は多い。従って、ニュース記事が株価に影響を与えていると考えられる。
しかし、ニュース記事の内容をどのように評価すべきか、その判断は投資家個人の経験とカンに基づくものであった。また、アナリストの分析が付されているニュース記事もあるが、それは、定性的であったり、根拠が明確でないものであったりした。
そこで、本発明の目的は、企業について書かれた文書と、その文書が発行された時期に生じた、その企業の株価変化との関係を分析するための技術を提供することである。
本発明の他の目的は、企業について書かれた文書が株価に与える影響を定量的に評価するときに必要な情報を提供することである。
本発明の一つの実施態様に従う株価分析装置は、文書データが記憶されている文書データ記憶部と、ある期間内の、ある企業に関する複数の文書データを前記文書データ記憶部から抽出する文書データ抽出手段と、抽出されたそれぞれの文書データに含まれる単語を抽出し、抽出された単語に基づき、前記それぞれの文書データを示す複数の多次元ベクトルを生成する手段と、前記生成された複数の多次元ベクトルをクラスタリングする手段と、前記クラスタリングにより得られたクラスタの代表ベクトルを定める手段と、前記期間の期初および期末の株価に基づいて、前記期間における株価変化の指標を求める手段と、前記定められた代表ベクトルと前記株価変化の指標とを対応付けて記憶手段に格納する手段と、を備える。
本発明の一つの実施態様に従う株価分析装置は、文書データが記憶されている文書データ記憶部と、ある期間内の、ある企業に関する複数の文書データを前記文書データ記憶部から抽出する文書データ抽出手段と、前記抽出された文書データの係り受け構造の解析を行う手段と、前記係り受け解析結果に基づいて、特定の単語を含む係り受け関係を抽出する手段と、前記期間の期初および期末の株価に基づいて、前記期間における株価変化の指標を求める手段と、前記企業が属する業種の識別情報と、前記抽出された係り受け関係と、前記株価変化の指標とを対応付けて記憶手段に格納する手段と、を備える。
好適な実施形態では、過去の株価情報に基づいて、株価が一定以上変動した変動期間を抽出する手段をさらに備える。そして、前記文書データ抽出手段は、前記抽出された変動期間内のある企業に関する複数の文書データを抽出する。
以下、本発明を適用した一実施形態について、図面を用いて説明する。
図1は、企業に関する情報を取得して、投資判断を支援する情報を付加してユーザへ提供するシステムの全体構成を示す。本システムは、企業に関する情報に投資判断を支援する情報を付加して提供する投資支援情報提供装置1と、投資支援情報提供装置1に対して情報を提供する情報提供元システム5と、投資支援情報提供装置1から情報提供を受けるユーザが使用するユーザ端末6とがネットワーク2を介して接続される。ユーザ端末6には、表示装置61が接続されている。情報提供元システム5およびユーザ端末6は、それぞれ、複数であってもよい。
投資支援情報提供装置1、情報提供元システム5およびユーザ端末6は、いずれも例えば汎用的なコンピュータシステムにより構成され、以下に説明する各装置1,5,6内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。
図1において、投資支援情報提供装置(以下、単に「情報提供装置」という)1は、文書データ、例えばニュース記事などの文書に書かれている内容を解析し、その記事内容が株価へ与える影響を予測し、投資判断を支援するための情報を配信する。以下、情報提供装置1が行う処理ないし機能について、具体的に説明する。
図1において、情報提供装置1は、情報提供元システム5から記事データを収集する記事収集部11と、記事がどの企業について書かれたものであるかを判定する企業名判定部12と、記事の内容を解析する記事解析部13と、配信する記事に、それと関連する情報または関連情報へのリンク情報を付加する関連情報付与部14と、ユーザ端末6へ情報を配信する情報配信部15とを備える。記事解析部13には、意味ベクトルを用いて記事を解析するベクトル判定部131と、文書の係り受け関係を利用して解析する係受判定部132とをさらに有する。
また、情報提供装置1は、以下のような種々のデータベースをさらに備える。すなわち、情報提供装置1は、ベクトルデータベース21と、係受用語データベース22と、注目語データベース23と、記事を格納するための記事データベース31と、企業情報が格納された企業データベース32と、各企業を業種別に区分した業種データベース33と、株価および株価チャートなどが格納された株価データベース34と、ユーザに関する情報が格納されたユーザデータベース35とを有する。ベクトルデータベース21、および係受用語データベース22は、記事と株価変動との関係が統計的に処理して得られた情報が格納されている。
まず、情報提供装置1が記事データを収集するときの手順について、図2に示すフローチャートを用いて説明する。
<記事収集処理>
記事収集部11が、企業に関する種々の情報を提供している情報提供元システム5から記事データを取得する(S11)。記事データの取得は、情報提供元システム5が自動的に配信する情報を受信するようにしてもよいし、記事収集部11が情報提供元システム5に対してアクセスし、取得してもよい。
記事収集部11が、企業に関する種々の情報を提供している情報提供元システム5から記事データを取得する(S11)。記事データの取得は、情報提供元システム5が自動的に配信する情報を受信するようにしてもよいし、記事収集部11が情報提供元システム5に対してアクセスし、取得してもよい。
この記事データは、例えば、図3に示すようなフォーマットのデータである。すなわち、記事データ100には、記事本文101と、記事の発行日時102と、記事の発行元103と、企業名タグ104とを含む。記事本文101は、企業に関することが書かれた文書である。発行元103は、記事を発行した通信社や新聞社等の名称または識別情報である。企業名タグ104は、その記事本文101がどの企業について書かれたものであるかを示すタグであり、企業コードが設定されている。記事本文101に複数の企業に関することが書かれていれば、企業名タグ104にはそれぞれの企業の企業コードが含まれている。
また、記事データ100によっては、企業名タグ104が付いていない場合もある。そこで、記事収集部11は、取得した記事データ100に企業名タグ104がついているかどうかを判定する(S12)。
企業名タグ104が付いていない場合は、企業名判定部12が記事本文101の内容を解析し、企業データベース32に登録されている企業名を抽出し、企業名タグ104にその企業コードを設定する(S13)。
そして、企業名タグ104に企業コードが設定されている記事データ100を、記事データベース31へ格納する(S14)。
ここで、記事データベース31は、例えば、図4に示すようなデータ構造を有する。すなわち、データ項目として、記事本文311と、発行日時312と、発行元313と、企業名タグ314と、ベクトルID315とを有する。記事データが格納された時点では、ベクトルID315は未設定である。ベクトルID315の設定については後述する。
<記事解析・配信処理>
再び図1を参照すると、上記処理により収集された記事データに対して、記事解析部13が、順次、図5に示すような手順でそれぞれの記事データについて解析を行い、これに基づいて今後の株価の変動傾向を予測する。そして、この予測結果と併せて、記事に関連する情報を付加して配信する。
再び図1を参照すると、上記処理により収集された記事データに対して、記事解析部13が、順次、図5に示すような手順でそれぞれの記事データについて解析を行い、これに基づいて今後の株価の変動傾向を予測する。そして、この予測結果と併せて、記事に関連する情報を付加して配信する。
まず、記事解析部13が記事データベース31から一つの記事データを取得する(S21)。以下の処理ではここで取得された一つの記事データに対して処理を行い、以下の処理が終了すると、次の記事データについて順次処理を行う。
ベクトル判定部131は、ここで取得した記事データの記事本文311に書かれている内容を解析して、多次元の意味ベクトルを生成する(S22)。意味ベクトルの各要素は、記事本文内での所定のキーワードについて、各キーワード別の出現頻度に基いて定める。例えば、意味ベクトルを生成するために、ベクトル判定部131は、記事本文311の文書を形態素解析により分解し、あらかじめ定められたキーワードを抽出する。そして、各キーワードの出現頻度を、過去の記事全体における該当キーワードの偏り具合で調整し、ベクトルの各要素の値を定める。
そして、ベクトル判定部131が、ここで生成された意味ベクトルと、ベクトルデータベース21に格納されているベクトルとを比較する(S23)。
ここで、ベクトルデータベース21には、過去の記事データから生成された意味ベクトルが格納されている。例えば、ベクトルデータベース21は、図7に示すように、企業コード211と、ベクトルを識別するためのベクトルID212と、代表ベクトル213と、感応度214とが対応付けて記憶されている。代表ベクトル213とは、一つ以上の意味ベクトルで構成されるクラスタを代表するベクトルであり、そのクラスタに含まれる記事のおよその意味を示している。ベクトルデータベース21の代表ベクトル213の記憶領域には、代表ベクトル213を構成するすべての要素の値が格納される。企業コード211は、そのクラスタに含まれる記事が言及している企業を示す。感応度214とは、株価の変動の程度を示す指標である。ここでは、感応度214は、代表ベクトル213によって示されるクラスタに属する記事が、その記事発行後の所定期間内に企業コード211の企業の株価変動に与えた影響の度合いを示している。株価が上昇したときは感応度はプラス(ポジティブ)であり、株価が下落したときは感応度はマイナス(ネガティブ)である。なお、ベクトルデータベース21の生成方法の詳細については後述する。
再び図5を参照すると、ステップS23でのベクトル比較は、処理対象記事データの企業名タグ314に含まれる企業コードと一致する企業コード212に対応する代表ベクトル213と、ステップS22で生成されたベクトルとを比較して、類似度を判定する。具体的には、二つのベクトルの内積から余弦尺度を求め、その大きさにより類似度を判定する(S24)。
この類似度判定の結果、生成されたベクトルと類似する代表ベクトル213がある場合(S24:Yes)、例えば、余弦尺度が所定値以上である代表ベクトル213がある場合、この代表ベクトル213と対応付けられている感応度214を、生成されたベクトルに対する感応度とする(S25)。これにより、記事と株価変動との関係の過去の実績に基づいて、ある記事が出たときに、その記事により株価がどの程度上昇または下落するのかを予測しているのである。
生成されたベクトルに類似する代表ベクトル213が複数ある場合は、各代表ベクトル213と対応する感応度214の平均値を求めて、生成されたベクトルの感応度としてもよい。あるいは、最も類似する代表ベクトル213と対応する感応度214を生成されたベクトルの感応度としてもよい。
なお、ベクトル判定部131は、生成されたベクトルに類似すると判定された代表ベクトル213のベクトルID212を記事データベース31のベクトルID315に格納する。
関連情報付与部14は、処理対象となっている記事データに関連する情報を取得して、付加する(S26)。例えば、関連情報付与部14は、処理対象となっている記事に登場する企業に関する最近(例えば、1日、3日または1週間以内など)の記事を、企業タグ314をキーにして検索し、処理対象記事データに付加する。または、処理対象の記事のベクトルID315が示す代表ベクトルと類似する代表ベクトルをベクトルID315に持つ記事データを検索して、その検索により得られた記事データそのもの、または記事データ数を処理対象記事データに付加してもよい。あるいは、その企業の現在の株価、および株価チャートなどを株価データベース34から取得して付加する。
情報配信部15は、処理対象の記事データと、以上の処理により得られた感応度、および関連情報を含む配信データを生成し、あらかじめユーザデータベース35に配信先アドレスなどを含むユーザ情報が登録されているユーザに対して配信する(S27)。配信データ110は、例えば、図8に示すようなデータ構造を有する。つまり、配信データ110には、記事データ111(記事本文112,発行日時113,発行元114,企業名タグ115を含む)と、感応度116と、関連情報117とが含まれる。
一方、ステップS24において、生成されたベクトルと類似する代表ベクトル213が見つからない場合は(S24:No)、図6に示すフローチャートへ処理が移る。そして、図6の処理で感応度が定まると、図5のステップS26以降の処理が行われる。
ステップS24で、類似する代表ベクトルが見つからない場合とは、例えば、余弦尺度が所定値以上である代表ベクトル213がない場合、および、企業の合併などにより、ベクトルデータベース21に対象となっている企業に関する過去の記事データが存在しない場合などがある。
図6のフローチャートは、係受判定部132が行う処理である。係受判定部132は、記事本文の係受け構造を解析して、そこに含まれている特徴語を抽出し、抽出された特徴語に基づいて株価の感応度を定める。
係受判定部132は、処理対象となっている記事データの記事本文311に対して、係り受け解析を行う(S31)。係り受け解析とは、文書の係り受け構造を解析することであり、例えば、係受判定部132が記事本文について形態素解析、構文解析を行い、2項関係および3項関係にある単語群を抽出する(3項関係の抽出は省略してもよい)。
例えば、「輸入青果の拡大などから、国内青果の価格が下落し、国内農家の作付け意欲が減退している。」という例文を係り受け解析すると、2項関係の単語群としては「輸入青果―拡大」、「国内青果―価格」「国内農家―作付け意欲」などが得られる。
次に、係受判定部132は、ここで得られた単語群の中から注目語データベース23に登録されている注目語を含む単語群を抽出する(S32)。注目語データベース23には、ここで行う特徴語抽出において、重要であると思われる語句、例えば述語が注目語として記憶されている。注目語データベース23の生成処理については後述する。
注目語データベース23に、「価格」、「拡大」、「下落」「衰退」、「好調」、「不振」などが登録されている場合、上記の例では「輸入青果―拡大」および「国内青果―価格」が抽出される。
次に、係受用語データベース22および業種データベース33を参照して、対象企業の属する業種の、抽出された単語群に対する感応度を求める(S33)。例えば、処理対象記事データの企業名タグ314に含まれる企業コードをキーに業種データベース33を参照して業種コードを定める。そして、この業種コードおよびステップS32で抽出された単語群をキーにして、係受用語データベース22から感応度223を得る。ここで得た感動度を、処理対象記事の感応度とする。
なお、係受用語データベース22には、過去の記事データから抽出された係受け関係が記憶されている。例えば、図9に示すように、係受用語データベース22には、業種コード221と、係受関係222と、感応度223とが対応付けて記憶されている。ここでは、ある記事について、その記事の対象となっている企業の業種を示す業種コード221と、その記事に含まれている係受関係222にある単語群(上記の例の「輸入青果―拡大」および「国内青果―価格」など)と、その記事が記事の対象となっている企業の株価変動に与えた感応度223とが対応付けられている。係受用語データベース22の生成方法の詳細は、後述する。
次に、図5および図6の処理が実行された結果、配信データ110がユーザ端末6へ配信されると、各ユーザ端末6はそれを受信して、ユーザ端末6が備える表示装置61に表示させる。表示例を図10に示す。
図10(a)の例では、記事本文63と、記事本文63と関連する情報へのリンク64と、記事に書かれている企業に関する情報65とが、表示装置61の表示画面62に表示されている。ここで、関連情報リンク64が選択されると、配信データ110に含まれている関連情報117が表示される。図10の例では、企業情報65には、企業名タグ115に基づいて企業コードと企業名とが表示されている。そして、企業情報65を感応度116がプラスである場合とマイナスである場合とでは異なる表示態様、例えば、異なる色で表示してもよい。これにより、記事本文63に対する株価変動の予測結果(感応度116がプラスのときは上昇傾向、マイナスのときは下落傾向)を、一目瞭然でユーザに提示することができる。さらに、ユーザ(投資家)はこの表示を見て、これを参考にして、その企業の株式に対する売買の意思決定をする。
また、図10(b)の例では、記事本文63と、記事本文の解析結果66とが表示画面62に表示されている。解析結果66には、株価が上昇傾向か下落傾向かを示す株価性向661と、記事本文63から求められた感応度662と、関連情報117に含まれる関連記事数663とが含まれる。株価性向661は、感応度がプラスであればポジティブ、マイナスであればネガティブとなる。関連記事数663は、関連情報117に含まれる関連記事数である。解析結果66に表示する情報は、ユーザ端末6が配信情報110に基づいて定める。
次に、ベクトルデータベース21、係受用語データベース22、および注目語データベース23を生成するための処理について説明する。図11に示す記事データ解析装置7は、記事データを解析し、株価データを分析する。そして、その解析および分析結果に基づいて、ベクトルデータベース21と、係受用語データベース22と、注目語データベース23とを生成する。
記事データ解析装置7は、例えば汎用的なコンピュータシステムにより構成され、以下に説明する記事データ解析装置7内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。また、記事データ解析装置7は、情報提供装置1と同一のコンピュータマシン上に実現することもできる。
記事データ解析装置7は、変動期間抽出部71と、ベクトル生成部72と、クラスタリング部73と、代表ベクトル計算部74と、感応度算出部75と、注目語収集部76と、係受解析部77と、係受用語抽出部78と、過去の記事データが格納されている記事データベース31と、過去の株価に関する情報が格納されている株価データベース34とを備える。
<変動期間および変動企業抽出>
変動期間抽出部71は、企業別に、株価が大きく変動した期間を抽出する。例えば、変動期間抽出部71が、株価データベース34に格納されている株価情報を参照して、一定期間の株価の変動幅が所定のしきい値以上である企業(銘柄)をすべて抽出する。例えば、週初の株価と週末の株価とを比較し、所定のしきい値以上の変動があった企業(変動企業)の企業コード、およびその期間(週初および週末の日付:変動期間)を抽出する。ここで、一定期間としては、例えば、1週間、2週間、1ヶ月などでよい。株価変動のしきい値としては、例えば、5%、10%、15%の上昇または下落としてもよい。
変動期間抽出部71は、企業別に、株価が大きく変動した期間を抽出する。例えば、変動期間抽出部71が、株価データベース34に格納されている株価情報を参照して、一定期間の株価の変動幅が所定のしきい値以上である企業(銘柄)をすべて抽出する。例えば、週初の株価と週末の株価とを比較し、所定のしきい値以上の変動があった企業(変動企業)の企業コード、およびその期間(週初および週末の日付:変動期間)を抽出する。ここで、一定期間としては、例えば、1週間、2週間、1ヶ月などでよい。株価変動のしきい値としては、例えば、5%、10%、15%の上昇または下落としてもよい。
<代表ベクトル生成>
ベクトル生成部72は、変動期間抽出部71により抽出された変動期間内の、変動企業について書かれた記事データを解析して、各記事の意味内容を示すベクトルを生成する。例えば、ベクトル生成部72は、企業名タグ314に変動期間抽出部71で抽出された企業コードが付されていて、発行日時312が変動期間内であるすべての記事データを記事データベース31から抽出する。そして、ベクトル生成部72は、抽出された各記事データの記事本文311を解析して多次元の意味ベクトルを生成する。意味ベクトルの生成方法は、ベクトル判定部131で説明したものと同じである。
ベクトル生成部72は、変動期間抽出部71により抽出された変動期間内の、変動企業について書かれた記事データを解析して、各記事の意味内容を示すベクトルを生成する。例えば、ベクトル生成部72は、企業名タグ314に変動期間抽出部71で抽出された企業コードが付されていて、発行日時312が変動期間内であるすべての記事データを記事データベース31から抽出する。そして、ベクトル生成部72は、抽出された各記事データの記事本文311を解析して多次元の意味ベクトルを生成する。意味ベクトルの生成方法は、ベクトル判定部131で説明したものと同じである。
クラスタリング部73は、ベクトル生成部72により生成された複数の意味ベクトルを、企業別、変動期間別にクラスタリングする。例えば、ある企業について、ある変動期間内の複数の記事データから生成された複数のベクトルを、類似度合いにより1つ以上のクラスタに分類する。
ここで、有意なクラスタ(分析した記事データ数に対して、十分な要素を持つクラスタ)が得られたときは、代表ベクトル算出部74がそのクラスタの重心ベクトルを算出し、これをそのクラスタの代表ベクトルとする。有意なクラスタが複数得られたときは、各クラスタの代表ベクトルを算出する。
それぞれの代表ベクトルは、企業コードおよび次に説明する感応度算出部75で算出された感応度と共に、ベクトルデータベース21に格納される。このとき、ベクトルID212は、ユニークになるように定められる。
<感応度算出>
感応度算出部75は、変動期間抽出部71が抽出した変動企業および変動期間に基づいて、変動期間における変動企業の株価の感応度を算出する。例えば、感応度算出部75は、変動期間の期初および期末の株価を取得し、変動期間内での株価収益率を算出し、これを感応度とする。
感応度算出部75は、変動期間抽出部71が抽出した変動企業および変動期間に基づいて、変動期間における変動企業の株価の感応度を算出する。例えば、感応度算出部75は、変動期間の期初および期末の株価を取得し、変動期間内での株価収益率を算出し、これを感応度とする。
<係受用語抽出>
注目語収集部76は、記事本文から注目語を抽出する。例えば、注目語収集部76は、ベクトル生成部72と同様に、対象企業について書かれた対象期間内の記事データを記事データベース31から抽出する。そして、注目語収集部76は、この記事データに含まれる記事本文311を単語に分解し、出現頻度が多い単語を注目語として抽出する。例えば、注目語として特に述語に注目してもよい。あるいは、あらかじめ定められた単語の中から出現頻度に応じて注目語を抽出してもよい。抽出された注目述語は、注目語データベース23に登録される。
注目語収集部76は、記事本文から注目語を抽出する。例えば、注目語収集部76は、ベクトル生成部72と同様に、対象企業について書かれた対象期間内の記事データを記事データベース31から抽出する。そして、注目語収集部76は、この記事データに含まれる記事本文311を単語に分解し、出現頻度が多い単語を注目語として抽出する。例えば、注目語として特に述語に注目してもよい。あるいは、あらかじめ定められた単語の中から出現頻度に応じて注目語を抽出してもよい。抽出された注目述語は、注目語データベース23に登録される。
係受解析部77は、記事本文の係り受け構造の解析を行う。例えば、係受解析部77は、ベクトル生成部72および注目語収集部76と同様に、対象企業について書かれた対象期間内の記事データを記事データベース31から抽出する。そして、抽出された記事データの記事本文311に対して、係受判定部132と同様の処理により、2項関係および3項関係の単語群を抽出する。
係受用語抽出部78は、係受解析部77で抽出された2項関係または3項関係の単語群から、注目語データベース23に記憶されている注目語を含む単語群を抽出する。また、係受用語抽出部78は、対象企業の属する業種コードを業種データベース33から取得し、抽出された単語群とこの業種コードとを対応付け、さらに感応度算出部75により算出された感応度と併せて係受用語データベース22に格納する。
以上のような処理で生成されたベクトルデータベース21、係受用語データベース22、および注目語データベース23が、上述の情報提供装置1で使用される。従って、記事データ解析装置7は、上記のようにして生成された各データベース21,22,23を情報提供装置1へ提供する。例えば、図12に示すように、情報提供元システム5と、記事データ解析装置7と、情報提供装置1とがネットワーク2を介して接続されているシステムでは、情報提供装置1および記事データ解析装置7が、それぞれ情報提供元システム5から記事データを収集する。そして、記事データ解析装置7が、情報提供装置1へ上述のデータベース21,22,23を提供することができる。
次に、情報提供装置1が出力する配信データ110に基づいて、株式の売買注文を生成し、自動執行する自動売買装置について、図13を用いて説明する。
同図に示すように、自動売買装置8は、ネットワーク2を介して情報提供装置1と、証券会社システム9と接続されている。
自動売買装置8は、例えば汎用的なコンピュータシステムにより構成され、以下に説明する自動売買装置8内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。また、自動売買装置8は、情報提供装置1と同一のコンピュータマシン上に実現することもできる。
自動売買装置8は、信頼度判定部81と、売買注文生成部82と、注文執行部83と、売買条件データベース84と、ポートフォリオデータベース85と、注文データベース86とを備える。
自動売買装置8は、情報提供装置1が生成した配信データ110を取得する。そして、信頼度判定部81が、記事データに基づく株価変動の予測、つまり、配信データ110に含まれている感応度116の信頼度を判定する。例えば、関連情報117に関連記事が多数含まれているときは、その記事数に応じて感応度116の信頼度を判定する。
売買注文生成部82は、信頼度判定部81で、信頼度が一定以上であると判定された企業の株について、ポートフォリオデータベース85に記憶されている現在のポートフォリオに基づいて売買注文データを生成する。例えば、株価の性向がポジティブであれば買い、ネガティブであれば売りとしてもよい。さらに、感応度に応じて売買数量を定めてもよい。また、売買注文生成部82は、例えば、売買金額の上限金額、一日あたりの売買回数などの売買条件があらかじめ記憶されている売買条件データベース84を参照し、この売買条件に従った売買注文データを生成するようにしてもよい。
注文執行部83は、売買注文生成部82で生成された売買注文データに従って、売買注文を執行する。例えば、自動売買装置8は、証券会社システム9へ売買注文データを送信して、証券会社へ売買を依頼する。そして、証券会社システム9へ送信した売買注文を、注文データベース86へ格納する。
証券会社システム9は、売買注文データを受信すると、これに基づいて売買を行う。
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
1:投資支援情報提供装置
2:ネットワーク
5:情報提供元システム
6:ユーザ端末
7:記事データ解析装置
8:自動売買装置
9:証券会社システム
2:ネットワーク
5:情報提供元システム
6:ユーザ端末
7:記事データ解析装置
8:自動売買装置
9:証券会社システム
Claims (7)
- 文書データが記憶されている文書データ記憶部と、
ある期間内の、ある企業に関する複数の文書データを前記文書データ記憶部から抽出する文書データ抽出手段と、
抽出されたそれぞれの文書データに含まれる単語を抽出し、抽出された単語に基づき、前記それぞれの文書データを示す複数の多次元ベクトルを生成する手段と、
前記生成された複数の多次元ベクトルをクラスタリングする手段と、
前記クラスタリングにより得られたクラスタの代表ベクトルを定める手段と、
前記期間の期初および期末の株価に基づいて、前記期間における株価変化の指標を求める手段と、
前記定められた代表ベクトルと前記株価変化の指標とを対応付けて記憶手段に格納する手段と、を備える株価分析装置。 - 文書データが記憶されている文書データ記憶部と、
ある期間内の、ある企業に関する複数の文書データを前記文書データ記憶部から抽出する文書データ抽出手段と、
前記抽出された文書データの係り受け構造の解析を行う手段と、
前記係り受け解析結果に基づいて、特定の単語を含む係り受け関係を抽出する手段と、
前記期間の期初および期末の株価に基づいて、前記期間における株価変化の指標を求める手段と、
前記企業が属する業種の識別情報と、前記抽出された係り受け関係と、前記株価変化の指標とを対応付けて記憶手段に格納する手段と、を備える株価分析装置。 - 過去の株価情報に基づいて、株価が一定以上変動した変動期間を抽出する手段をさらに備え、
前記文書データ抽出手段は、前記抽出された変動期間内のある企業に関する複数の文書データを抽出する請求項1または2に記載の株価分析装置。 - コンピュータが、
文書データが記憶されている文書データ記憶部から、ある期間内の、ある企業に関する複数の文書データを抽出し、
抽出されたそれぞれの文書データに含まれる単語を抽出し、抽出された単語に基づき、前記それぞれの文書データを示す複数の多次元ベクトルを生成し、
前記生成された複数の多次元ベクトルをクラスタリングし、
前記クラスタリングにより得られたクラスタの代表ベクトルを定め、
前記期間の期初および期末の株価に基づいて、前記期間における株価変化の指標を求め、
前記定められた代表ベクトルと前記株価変化の指標とを対応付けて記憶手段に格納する、株価の分析結果を格納したデータベースの生成方法。 - コンピュータに実行されると、
文書データが記憶されている文書データ記憶部から、ある期間内の、ある企業に関する複数の文書データを抽出し、
抽出されたそれぞれの文書データに含まれる単語を抽出し、抽出された単語に基づき、前記それぞれの文書データを示す複数の多次元ベクトルを生成し、
前記生成された複数の多次元ベクトルをクラスタリングし、
前記クラスタリングにより得られたクラスタの代表ベクトルを定め、
前記期間の期初および期末の株価に基づいて、前記期間における株価変化の指標を求め、
前記定められた代表ベクトルと前記株価変化の指標とを対応付けて記憶手段に格納する、株価の分析結果を格納したデータベースを生成するためのコンピュータプログラム。 - コンピュータが、
文書データが記憶されている文書データ記憶部から、ある期間内の、ある企業に関する複数の文書データを抽出し、
前記抽出された文書データの係り受け構造の解析を行い、
前記係り受け解析結果に基づいて、特定の単語を含む係り受け関係を抽出し、
前記期間の期初および期末の株価に基づいて、前記期間における株価変化の指標を求め、
前記企業が属する業種の識別情報と、前記抽出された係り受け関係と、前記株価変化の指標とを対応付けて記憶手段に格納する、株価の分析結果を格納したデータベースの生成方法。 - コンピュータに実行されると、
文書データが記憶されている文書データ記憶部から、ある期間内の、ある企業に関する複数の文書データを抽出し、
前記抽出された文書データの係り受け構造の解析を行い、
前記係り受け解析結果に基づいて、特定の単語を含む係り受け関係を抽出し、
前記期間の期初および期末の株価に基づいて、前記期間における株価変化の指標を求め、
前記企業が属する業種の識別情報と、前記抽出された係り受け関係と、前記株価変化の指標とを対応付けて記憶手段に格納する、株価の分析結果を格納したデータベースを生成するためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003334896A JP2005100222A (ja) | 2003-09-26 | 2003-09-26 | 株価分析装置および株価の分析結果を格納したデータベースの生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003334896A JP2005100222A (ja) | 2003-09-26 | 2003-09-26 | 株価分析装置および株価の分析結果を格納したデータベースの生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005100222A true JP2005100222A (ja) | 2005-04-14 |
Family
ID=34462447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003334896A Pending JP2005100222A (ja) | 2003-09-26 | 2003-09-26 | 株価分析装置および株価の分析結果を格納したデータベースの生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005100222A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233989A (ja) * | 2007-03-16 | 2008-10-02 | Daiwa Securities Group Inc | 証券売買注文管理装置および証券売買注文管理方法 |
JP2018106765A (ja) * | 2015-11-16 | 2018-07-05 | ウバープル カンパニー リミテッド | キーワードと資産価格との関連性評価方法及びその装置及び資産情報のディスプレイ方法 |
JP6408084B1 (ja) * | 2017-07-18 | 2018-10-17 | ヤフー株式会社 | 情報処理装置、配信システム、情報処理方法、及び情報処理プログラム |
JP2019021332A (ja) * | 2017-07-18 | 2019-02-07 | ヤフー株式会社 | 情報処理装置、配信システム、情報処理方法、及び情報処理プログラム |
JP7560595B1 (ja) | 2023-03-30 | 2024-10-02 | 三菱Ufj信託銀行株式会社 | ニュースラベリングシステム及びニュースラベリングサーバ |
-
2003
- 2003-09-26 JP JP2003334896A patent/JP2005100222A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233989A (ja) * | 2007-03-16 | 2008-10-02 | Daiwa Securities Group Inc | 証券売買注文管理装置および証券売買注文管理方法 |
JP2018106765A (ja) * | 2015-11-16 | 2018-07-05 | ウバープル カンパニー リミテッド | キーワードと資産価格との関連性評価方法及びその装置及び資産情報のディスプレイ方法 |
JP2020123401A (ja) * | 2015-11-16 | 2020-08-13 | ウバープル カンパニー リミテッド | 資産情報のディスプレイ方法 |
JP7021289B2 (ja) | 2015-11-16 | 2022-02-16 | ウバープル カンパニー リミテッド | 資産情報のディスプレイ方法 |
JP6408084B1 (ja) * | 2017-07-18 | 2018-10-17 | ヤフー株式会社 | 情報処理装置、配信システム、情報処理方法、及び情報処理プログラム |
JP2019021332A (ja) * | 2017-07-18 | 2019-02-07 | ヤフー株式会社 | 情報処理装置、配信システム、情報処理方法、及び情報処理プログラム |
JP7560595B1 (ja) | 2023-03-30 | 2024-10-02 | 三菱Ufj信託銀行株式会社 | ニュースラベリングシステム及びニュースラベリングサーバ |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066599B (zh) | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 | |
AU2022201654A1 (en) | System and engine for seeded clustering of news events | |
JP5249074B2 (ja) | 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム | |
CN111008321B (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
Alostad et al. | Directional prediction of stock prices using breaking news on twitter | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
CN113342976B (zh) | 一种自动采集处理数据的方法、装置、存储介质及设备 | |
CN109697201B (zh) | 一种查询处理的方法、系统、设备及计算机可读存储介质 | |
Syamala et al. | A Filter Based Improved Decision Tree Sentiment Classification Model for Real-Time Amazon Product Review Data. | |
CN104331817B (zh) | 电子商务推荐模型的用户特征提取方法及系统 | |
CN103309869A (zh) | 数据对象的展示关键词推荐方法及系统 | |
CN106033455B (zh) | 一种处理用户操作信息的方法与设备 | |
Kim et al. | Trend analysis by using text mining of journal articles regarding consumer policy | |
CN111626813A (zh) | 产品推荐方法及其系统 | |
JP2011204199A (ja) | 株価変動イベント情報提供システム及びプログラム | |
JP2005100221A (ja) | 投資判断支援情報提供装置および方法 | |
CN110689407A (zh) | 一种选品比价方法、计算机可读存储介质 | |
US20180357227A1 (en) | System and method for analyzing popularity of one or more user defined topics among the big data | |
CN112989053A (zh) | 一种期刊推荐方法及装置 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
JP2005100222A (ja) | 株価分析装置および株価の分析結果を格納したデータベースの生成方法 | |
CN113127597A (zh) | 搜索信息的处理方法、装置及电子设备 | |
JP2016197332A (ja) | 情報処理システム、情報処理方法、およびコンピュータプログラム | |
Ormos et al. | Impacts of public news on stock market prices: Evidence from S&P500 | |
Pataci et al. | Stock price volatility prediction: A case study with AutoML |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100202 |