JP2021196680A - データ解析プログラム、データ解析方法およびデータ解析装置 - Google Patents

データ解析プログラム、データ解析方法およびデータ解析装置 Download PDF

Info

Publication number
JP2021196680A
JP2021196680A JP2020100693A JP2020100693A JP2021196680A JP 2021196680 A JP2021196680 A JP 2021196680A JP 2020100693 A JP2020100693 A JP 2020100693A JP 2020100693 A JP2020100693 A JP 2020100693A JP 2021196680 A JP2021196680 A JP 2021196680A
Authority
JP
Japan
Prior art keywords
time
data
timing
series data
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020100693A
Other languages
English (en)
Other versions
JP7532922B2 (ja
Inventor
賢 等々力
Masaru Todoroki
裕平 梅田
Yuhei Umeda
健 小林
Takeshi Kobayashi
弘治 丸橋
Hiroharu Maruhashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020100693A priority Critical patent/JP7532922B2/ja
Priority to EP21175234.0A priority patent/EP3923228B1/en
Priority to US17/330,411 priority patent/US20210390623A1/en
Publication of JP2021196680A publication Critical patent/JP2021196680A/ja
Application granted granted Critical
Publication of JP7532922B2 publication Critical patent/JP7532922B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • General Engineering & Computer Science (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】時系列データの特徴を精度よく抽出する。【解決手段】実施形態のデータ解析プログラムは、複数決定する処理と、生成する処理とをコンピュータに実行させる。複数決定する処理は、解析対象の時系列データについて、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、タイミングあたりの個数が同一となるように複数決定する。生成する処理は、決定した数値に基づいて時系列データに関するアトラクタを生成する。【選択図】図1

Description

本発明の実施形態は、データ解析プログラム、データ解析方法およびデータ解析装置に関する。
従来、株価などの時間の経過に伴って変化する時系列データに対してTDA(Topological Data Analysis)によるデータ解析を行い、時系列データの特徴抽出が行われている。
このTDAによるデータ解析については、時系列データを用いて得られたアトラクタに対してパーシステントホモロジを適用し、アトラクタの形状の特徴抽出を行う従来技術が知られている。
特開2017−97643号公報
しかしながら、上記の従来技術では、時系列データに含まれるデータ数が限られるため、アトラクタ形状の特徴を明確に抽出することが困難な場合があり、特徴抽出の性能が劣化するという問題がある。
1つの側面では、時系列データの特徴を精度よく抽出することができるデータ解析プログラム、データ解析方法およびデータ解析装置を提供することを目的とする。
1つの案では、データ解析プログラムは、複数決定する処理と、生成する処理とをコンピュータに実行させる。複数決定する処理は、解析対象の時系列データについて、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、タイミングあたりの個数が同一となるように複数決定する。生成する処理は、決定した数値に基づいて時系列データに関するアトラクタを生成する。
時系列データの特徴を精度よく抽出することができる。
図1は、従来と比較して実施形態の概要を説明する説明図である。 図2は、実施形態にかかるデータ解析装置の機能構成例を示すブロック図である。 図3は、実施形態にかかるデータ解析装置の動作例を示すフローチャートである。 図4は、内挿点の決定例を説明する説明図である。 図5は、アトラクタの概要を説明する説明図である。 図6は、高値・安値の内挿点を含む時系列データの解析例を説明する説明図である。 図7は、始値・終値の内挿点を含む時系列データの解析例を説明する説明図である。 図8は、データ点増加のための要件を説明する説明図である。 図9は、高値・安値の等分割内挿点を含む時系列データのデータ解析を説明する説明図である。 図10は、区切りの時間に投影して内挿点を決定するケースを説明する説明図である。 図11は、コンピュータ構成の一例を示すブロック図である。
以下、図面を参照して、実施形態にかかるデータ解析プログラム、データ解析方法およびデータ解析装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明するデータ解析プログラム、データ解析方法およびデータ解析装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、従来と比較して実施形態の概要を説明する説明図である。図1におけるケースC1は、従来技術によるデータ解析の一例であり、ケースC2は、本実施形態におけるデータ解析の一例である。
図1に示すように、ケースC1、C2におけるデータ解析では、株価の時系列データに対して特徴的な時間シフト項(τ)を導入して再構成(生成)したアトラクタについてTDAによるデータ解析によりパーシステントホモロジを適用し、ベッチ系列(Betti Series)を得る(図示例では0次のベッチ系列)。次いで、得られたベッチ系列をもとにアトラクタの形状の特徴抽出を行うことで、株価変動の特徴抽出を行う。
時系列データは多次元のデータであり、例えば株価の時系列データには始値、高値、安値、終値の4つの価格(四本値)が含まれる。ここで、始値は、所定の期間(例えば半日や一日単位)において最初に取引(約定)された株の価格である。高値は、所定の期間に取引された中で最も高い株の価格である。安値は、所定の期間に取引された中で最も低い株の価格である。終値は、所定の期間において最後に取引された株の価格である。
例えば、株価の時系列データの特徴は、半日や一日単位で現れることが多い。このため、株価の時系列データの解析では、始値、高値、安値、終値の4つの価格の中から終値のデータがしばしば用いられる。
従来技術におけるケースC1では、株価(x)の時系列データにおける終値のみをもとにアトラクタの再構成を行い、生成したアトラクタに対してTDAによりベッチ系列を得ている。このため、データ数が終値に限られるため、アトラクタ形状の特徴を明瞭に抽出することが困難である。例えば、ケースC1のベッチ系列では、スケール(r)小→急降下、その後全体的に滑らかな変化となっており、全体的には変化の滑らかさに欠けることから特徴の明瞭な抽出が困難である。
本実施形態におけるケースC2では、時系列データについて、所定の時間間隔(例えば90分内における1分間隔)ごとのタイミング(時刻i)それぞれにおける特徴を示す数値を、タイミングあたりの個数が同一となるように複数決定し、決定した数値に基づいてアトラクタの再構成を行う。具体的には、各タイミングにおいて、株価の時系列データにおける高値・安値と、その間の内挿点とを、例えば高値・安値の間を等分割して決定する。
このように、各タイミングにおいてタイミングあたりの個数が同一となるように複数決定した特徴を示す数値は、位相空間におけるアトラクタ上の状態点であるとも言える。したがって、これらの数値を用いてアトラクタを再構成することで、位相空間におけるアトラクタの密度が増加し、アトラクタの形状が明確化され、TDAにより得られるベッチ系列が安定化する。具体的には、ケースC2のベッチ系列では、全体的に滑らかな変化となっている。したがって、ケースC2では、ベッチ系列をもとに、時系列データの特徴を精度よく抽出することができる。
また、各タイミングに対応する時間間隔内の最高点および最低点の一例である高値/安値の間には、始値/終値が含まれることから、高値/安値の方が始値/終値よりも、位相空間上でのアトラクタの存在範囲をより広く表現可能である。また、位相空間上でのアトラクタの存在範囲をより広く表現可能であることから、アトラクタ形状の違いとそれに基づくベッチ系列の違いが明瞭に区別できる可能性が高く、その点でも、高値/安値の方が始値/終値よりも良い、と考えられる。
なお、解析対象の時系列データについては、本実施形態では株価の推移を示す時系列データを例示するが、株価の時系列データに限定するものではない。例えば、時系列データは、心拍数以外の生体データ(脳波、脈拍或いは体温などの時系列データ)、ウェアラブルセンサのデータ(ジャイロセンサ、加速度センサ或いは地磁気センサなどの時系列データ)、金融データ(金利、物価、国際収支或いは株価などの時系列データ)、自然環境のデータ(気温、湿度或いは二酸化炭素濃度などの時系列データ)、又は社会データ(労働統計或いは人口統計などのデータ)等であってもよい。
例えば、橋に設置された加速度センサの時系列データの場合は、各タイミングにおいて加速度の最高点および最低点と、その間の内挿点とを決定し、アトラクタを再構成する。次いで、生成したアトラクタに対してTDAによりベッチ系列を得て、時系列データの違いを検出する。これにより、橋の強度劣化等に応じて生じる特徴的な状態を検知し、橋梁劣化を検出することができる。
図2は、実施形態にかかるデータ解析装置の機能構成例を示すブロック図である。図2に示すように、データ解析装置1は、通信部10と、記憶部20と、制御部30とを有する。
通信部10は、制御部30の制御のもと、通信ケーブルなどを介し、他の機器(例えば表示装置やサーバ装置など)と通信を行う。通信部10は、例えば、表示装置と接続する通信インタフェースやLAN(Local Area Network)等の通信ネットワークと接続するNIC(Network Interface Card)などによって実現される。
記憶部20は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。記憶部20は、入力受付部31が受け付けた解析対象の時系列データ21などを格納する。時系列データ21は、例えば株価の場合は、個々の取引(約定時間、株の価格、株数)を示すTickデータなどである。
制御部30は、入力受付部31、決定部32、アトラクタ生成部33、解析処理部34および出力部35を有する。制御部30は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部30は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
入力受付部31は、データ入力を受け付ける処理部である。具体的には、入力受付部31は、キーボード、タッチパネルなどによる操作入力や通信部10を介した通信によるファイル入力などにより解析対象の時系列データ21などの入力を受け付ける。次いで、入力受付部31は、入力された時系列データ21を記憶部20に格納する。
決定部32は、解析対象の時系列データ21について、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、各タイミングあたりの個数が同一となるように複数決定する処理部である。
具体的には、決定部32は、解析対象の時系列データ21について、所定の時間間隔ごとのタイミングそれぞれを基準として所定の時間幅のデータを記憶部20より読み出し、各タイミングにおいて特徴を示す数値を同一の個数分決定する。なお、タイミングをとるための時間間隔および各タイミングを基準として時系列データ21よりデータを読み出す時間幅については、例えばユーザなどにより予め設定される。一例として、タイミングをとるための時間間隔は、1分間隔としてもよい。また、データを読み出す時間幅は、基準とするタイミングから次のタイミングまでの間としてもよい。
また、決定部32が各タイミングにおいて決定する特徴を示す数値は、タイミングそれぞれを基準とした所定の時間幅のデータの中から抽出して決定してもよい。例えば、決定部32は、各タイミングにおける最高点および最低点の値を求める。そして、決定部32は、求めた最高点および最低点間の内挿点を、各タイミングで同じ数、例えば等分割して求める。決定部32は、このように求めた最高点および最低点の値と、最高点および最低点間の内挿点の値とを特徴を示す数値として決定する。
アトラクタ生成部33は、時系列データ21からアトラクタを生成する処理部である。具体的には、アトラクタ生成部33は、時系列データ21の各タイミングにおいて決定部32が決定した複数の数値、すなわち多次元時系列データに対して、次元ごとに特徴的な時間シフト項(τ)を導入して仮想的な時系列データを生成する。そして、アトラクタ生成部33は、生成した仮想的な時系列データからアトラクタを生成する。なお、時系列データから特徴的な時間シフト項(τ)を導入する手法としては、多次元自己相関係数や相互情報量といった、情報学で用いられる公知の統計的手法を利用することができる。
解析処理部34は、アトラクタ生成部33が生成したアトラクタに対して、パーシステントホモロジ変換を実行して、ベッチ系列を生成する処理部である。ここで、「ホモロジ」とは、対象の特徴をm(m≧0)次元の穴の数によって表現する手法である。ここで言う「穴」とはホモロジ群の元のことであり、0次元の穴は連結成分であり、1次元の穴は穴(トンネル)であり、2次元の穴は空洞である。各次元の穴の数はベッチ数と呼ばれる。そして、「パーシステントホモロジ」とは、対象(ここでは、点の集合(Point Cloud))におけるm次元の穴の遷移を特徴付けるための手法であり、パーシステントホモロジによって点の配置に関する特徴を調べることができる。この手法においては、対象における各点が球状に徐々に膨らまされ、その過程において各穴が発生した時刻(発生時の球の半径(radius)で表される)と消滅した時刻(消滅時の球の半径で表される)とが特定される(前述したスケール(r)に相当)。
なお、本実施形態では0次元のベッチ系列を生成する場合を例示するが、解析処理部34は、1次元または2次元のベッチ系列を生成してもよい。
出力部35は、表示装置への表示出力やファイル出力などの出力処理を行う処理部である。具体的には、出力部35は、解析処理部34が解析したベッチ系列などの解析結果を、表示装置への表示出力やファイル出力としてユーザに出力する。なお、出力部35は、解析処理部34が解析したベッチ系列を特徴量とし、公知の機械学習モデルに入力して得られた出力、すなわち機械学習モデルによる分類結果を出力してもよい。
図3は、実施形態にかかるデータ解析装置の動作例を示すフローチャートである。図3に示すように、処理が開始されると、決定部32は、各タイミング(例えば1分間隔)に対応した時系列データ21を記憶部20より読み出す(S1)。決定部32は、読みだしたデータをもとに、各タイミングにおける時間幅の中で最高点(高値)および最低点(安値)の値を特徴を示す数値の一つとして決定する。次いで、決定部32は、各タイミングにおける最高点および最低点の間の内挿点を特徴を示す数値の一つとして決定する(S2)。
図4は、内挿点の決定例を説明する説明図である。図4に示すように、決定部32は、最高点(x)および最低点(x)の間の内挿点(xin1、xin2…)を、各タイミングで同数となるように等分割して決定する。例えば、決定部32は、最高点(x)および最低点(x)の間を10等分割することで、最高点(x)、最低点(x)および内挿点(xin1、xin2…)の数値を各タイミングで計11個決定する。
次いで、アトラクタ生成部33は、各タイミングにおいて決定部32が決定した複数の数値(最高点(x)、最低点(x)および内挿点(xin1、xin2…))に基づいて時系列データ21に関するアトラクタを生成する(S3)。
図5は、アトラクタの概要を説明する説明図である。図5に示すように、アトラクタ生成部33は、決定部32が決定した複数の数値(最高点(x)、最低点(x)および内挿点(xin1、xin2…))それぞれを1つの次元とし、次元ごとに特徴的な時間シフト項(τ)を導入して仮想的な時系列データを生成する。次いで、アトラクタ生成部33は、生成した仮想的な時系列データから次元ごとのアトラクタを生成する。例えば、アトラクタ生成部33は、最高点(x)に対応するアトラクタAT、最低点(x)に対応するATなどを生成する。
図3に戻り、S3に次いで、解析処理部34は、アトラクタ生成部33が生成したアトラクタをもとに、時系列データ21についてTDAによる解析を行う(S4)。具体的には、解析処理部34は、アトラクタ生成部33が生成したアトラクタに対してパーシステントホモロジ変換を実行し、ベッチ系列を生成する。次いで、出力部35は、解析処理部34の解析結果を出力して処理を終了する。
ここで、時系列データ21に関するアトラクタ生成のためのデータ数を増加する要件を説明する。まず、位相空間へアトラクタの再構成を行うために、各タイミングのデータ点数は同数であることが要件として重要である。また、時系列データ21に含まれる特徴点(例えば、株価における始値、高値、安値、終値)の中で、点列の変動が激しく、アトラクタが安定しない虞のある特徴点は、アトラクタ生成のためのデータ数を増加する対象として好ましくない。
例えば、株価における四本値(始値、高値、安値、終値)は、各タイミングにおける代表点(特徴点)に過ぎない。よって、それぞれの四本値ごとに値を繋いだ点列は、本来は時間的につながるデータではないため、物理的な意味は乏しい。しかしながら、アトラクタに再構成した場合には、位相空間上の各点の配置に意味が出てくるため、意味のある点列を選ぶことにより、データの有効利用が可能である。
図6は、高値・安値の内挿点を含む時系列データの解析例を説明する説明図である。図6におけるグラフG11は、株価の時系列データ21における、各タイミング(例えば1分間隔)の高値・安値およびその内挿点のグラフである。グラフG12は、グラフG11をもとにアトラクタ生成部33が生成した位相空間上のアトラクタを示すグラフである。すなわち、グラフG12は、株価の高値・安値およびその内挿点についてのアトラクタ形状を示している。グラフG13は、グラフG12をもとに解析処理部34がTDAによる解析を行って得られたベッチ系列(0次元)を示すグラフである。
図7は、始値・終値の内挿点を含む時系列データの解析例を説明する説明図である。図7におけるグラフG21は、株価の時系列データ21における、各タイミング(例えば1分間隔)の始値・終値およびその内挿点のグラフである。グラフG22は、グラフG21をもとにアトラクタ生成部33が生成した位相空間上のアトラクタを示すグラフである。すなわち、グラフG22は、株価の始値・終値およびその内挿点についてのアトラクタ形状を示している。グラフG23は、グラフG22をもとに解析処理部34がTDAによる解析を行って得られたベッチ系列(0次元)を示すグラフである。
図8は、データ点増加のための要件を説明する説明図である。図8におけるグラフG30は、株価の時系列データ21における四本値(始値、高値、安値、終値)の推移を示すグラフである。図8のグラフG30に示すように、四本値ごとに値を繋いだ点列は、本来は時間的につながるデータではないため、物理的な意味は乏しくなる。これに対し、株価の高値・安値およびその内挿点のアトラクタ形状を示すグラフG12および株価の始値・終値およびその内挿点のアトラクタ形状を示すグラフG22に示すように、アトラクタに再構成した場合には、位相空間上の各点の配置に意味が出てくる。
例えば、グラフG12、G22を比較しても明らかなように、高値・安値およびその内挿点の方が、アトラクタの軌道幅が広くなる。また、高値・安値のアトラクタが上限、下限を決めており、内挿点によりデータ点数を増加させた場合には、アトラクタが明瞭化されることが期待できる。これに対し、始値・終値およびその内挿点のアトラクタの形状は、一見明瞭だが、激しい変動によるノイズの影響でいびつな形状を示しており、また、全体的に点の密度が疎な状態である。
したがって、高値・安値およびその内挿点では、アトラクタを形成する位相点間の距離が広がる。また、高値・安値およびその内挿点のアトラクタによるベッチ系列のグラフG13と、始値・終値およびその内挿点のアトラクタによるベッチ系列のグラフG23とを比較すると、グラフG13では、特に小さいr(スケール)に対して、ベッチ数は大きな値を保持し、本質的な特徴がより強く表現されている。
図9は、高値・安値の等分割内挿点を含む時系列データのデータ解析を説明する説明図である。図9に示すように、株価の高値(x)、安値(x)と、その間を等分割する内挿点(xin1、xin2…)を含む時系列データより再構成したアトラクタAT、ATin1、ATin2…、ATは滑らかに変化している。したがって、アトラクタAT、ATin1、ATin2…、ATに基づいてTDAによる解析を行い生成したベッチ(Betti)系列は、滑らかに変化し、本質的な特徴が捉えやすいものとなる。
図10は、区切りの時間に投影して内挿点を決定するケースを説明する説明図である。図10に示すように、決定部32は、タイミングに対応する時間間隔内の時系列データ21(TickデータD)に含まれる実測値(黒丸)を内挿点(xin1、xin2…)の数値として決定してもよい。
具体的には、決定部32は、TickデータDが示す約定時の価格(黒丸)を1分間隔の各タイミング(区切りの時間)に投影した投影点を内挿点として決定する。なお、内挿点を各タイミングで同数とするために、決定部32は、内挿点として決定する数(指定数)よりも投影点の数が多くなる場合はランダムに選択してもよい。逆に、投影点の数が指定数より少なくなる場合、決定部32は、タイミングそれぞれの投影点の数において最小のものに指定数を合わせても良いし、内挿して指定数に合わせてもよい。
以上のように、データ解析装置1は、決定部32と、アトラクタ生成部33とを有する。決定部32は、解析対象の時系列データ21について、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、各タイミングあたりの個数が同一となるように複数決定する。アトラクタ生成部33は、決定部32が決定した数値に基づいて時系列データ21に関するアトラクタAT、ATin1、ATin2…、ATを生成する。
時系列データ21について、各タイミングあたりの個数を同一となるように各タイミングでの条件を揃えて複数決定した特徴を示す数値は、位相空間におけるアトラクタ上の状態点であるとも言える。したがって、複数決定した特徴を示す数値に基づいてアトラクタAT、ATin1、ATin2…、ATを生成することで、位相空間におけるアトラクタの密度が増加し、位相空間上のアトラクタの存在範囲をより広く表現できる。この結果、アトラクタ形状が明確になり、アトラクタの変化が明確に区別できるようになり、アトラクタやTDAによるベッチ系列が安定化する。また、ベッチ系列は滑らかになる。このようなことから、データ解析装置1では、TDAによるデータ解析での特徴抽出の性能が向上し、時系列データの特徴を精度よく抽出することが可能となる。
また、決定部32は、タイミングに対応する時間間隔内の時系列データ21に含まれる最高点(例えば高値x)および最低点(例えば安値x)の数値と、この最高点および最低点間においてタイミングあたりの個数が同一の内挿点(xin1、xin2…)の数値とを決定する。
最高点および最低点間の内挿点は、アトラクタ上に本来存在する位相点の近傍点であると考えられる。特徴を示す数値として内挿点を決定することで、位相空間におけるアトラクタ上の位相点の密度が増加し、アトラクタの存在範囲をより細かく表現できる。この結果、アトラクタの形状がより明瞭になり、TDAによるデータ解析時において、アトラクタの違いを見分け易くすることができる。
また、決定部32は、最高点および最低点(例えば高値および安値間)間を等分割して内挿点の数値を決定する。このように、データ解析装置1は、最高点および最低点間を等分割して内挿点を決定してもよい。
また、決定部32は、タイミングに対応する時間間隔内の時系列データ21に含まれる実測値(例えば株価における約定時の価格)を内挿点の数値として決定する。タイミングに対応する時間間隔内の時系列データ21に含まれる実測値は、アトラクタ上に本来存在する位相点により近いものと考えられる。したがって、実測値を内挿点の数値として決定することで、アトラクタの形状がより明瞭になり、TDAによるデータ解析時において、アトラクタの違いを見分け易くすることができる。
また、時系列データ21は、株価の時間的な推移を示すデータである。決定部32は、タイミングそれぞれにおいて、株価の高値および安値と、高値および安値の間であってタイミングあたりの個数が同一の内挿点の数値とを決定する。株価における高値および安値の間の内挿点は、株価のゆらぎの程度を表したものに相当する。したがって、株価の高値および安値と、その間の内挿点とを用いてアトラクタを生成することで、アトラクタは株価における実現象の動的な特徴(株価の時間的な推移)がより正確に反映されていると考えられることから、株価の特徴抽出の精度が高まることが期待される。
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、データ解析装置1で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、データ解析装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ(ハードウエア)の一例を説明する。図11は、コンピュータ構成の一例を示すブロック図である。
図11に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203と、スピーカ204とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置205と、各種装置と接続するためのインタフェース装置206と、有線または無線により外部機器と通信接続するための通信装置207とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM208と、ハードディスク装置209とを有する。また、コンピュータ200内の各部(201〜209)は、バス210に接続される。
ハードディスク装置209には、上記の実施形態で説明した入力受付部31、決定部32、アトラクタ生成部33、解析処理部34および出力部35等における各種の処理を実行するためのプログラム211が記憶される。また、ハードディスク装置209には、プログラム211が参照する各種データ212が記憶される。入力装置202は、例えば、操作者から操作情報の入力を受け付ける。モニタ203は、例えば、操作者が操作する各種画面を表示する。インタフェース装置206は、例えば印刷装置等が接続される。通信装置207は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU201は、ハードディスク装置209に記憶されたプログラム211を読み出して、RAM208に展開して実行することで、入力受付部31、決定部32、アトラクタ生成部33、解析処理部34および出力部35等に関する各種の処理を行う。なお、プログラム211は、ハードディスク装置209に記憶されていなくてもよい。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラム211を読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのプログラム211を記憶させておき、コンピュータ200がこれらからプログラム211を読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)解析対象の時系列データについて、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、当該タイミングあたりの個数が同一となるように複数決定し、
決定した前記数値に基づいて前記時系列データに関するアトラクタを生成する、
処理をコンピュータに実行させることを特徴とするデータ解析プログラム。
(付記2)前記複数決定する処理は、前記タイミングに対応する時間間隔内の時系列データに含まれる最高点および最低点の数値と、当該最高点および最低点間において前記タイミングあたりの個数が同一の内挿点の数値とを決定する、
ことを特徴とする付記1に記載のデータ解析プログラム。
(付記3)前記複数決定する処理は、前記最高点および前記最低点間を等分割して前記内挿点の数値を決定する、
ことを特徴とする付記2に記載のデータ解析プログラム。
(付記4)前記複数決定する処理は、前記タイミングに対応する時間間隔内の時系列データに含まれる実測値を前記内挿点の数値として決定する、
ことを特徴とする付記2に記載のデータ解析プログラム。
(付記5)前記時系列データは、株価の時間的な推移を示すデータであり、
前記複数決定する処理は、前記タイミングそれぞれにおいて、前記株価の高値および安値と、当該高値および安値の間であって前記タイミングあたりの個数が同一の内挿点の数値とを決定する、
ことを特徴とする付記1に記載のデータ解析プログラム。
(付記6)解析対象の時系列データについて、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、当該タイミングあたりの個数が同一となるように複数決定し、
決定した前記数値に基づいて前記時系列データに関するアトラクタを生成する、
処理をコンピュータが実行することを特徴とするデータ解析方法。
(付記7)前記複数決定する処理は、前記タイミングに対応する時間間隔内の時系列データに含まれる最高点および最低点の数値と、当該最高点および最低点間において前記タイミングあたりの個数が同一の内挿点の数値とを決定する、
ことを特徴とする付記6に記載のデータ解析方法。
(付記8)前記複数決定する処理は、前記最高点および前記最低点間を等分割して前記内挿点の数値を決定する、
ことを特徴とする付記7に記載のデータ解析方法。
(付記9)前記複数決定する処理は、前記タイミングに対応する時間間隔内の時系列データに含まれる実測値を前記内挿点の数値として決定する、
ことを特徴とする付記7に記載のデータ解析方法。
(付記10)前記時系列データは、株価の時間的な推移を示すデータであり、
前記複数決定する処理は、前記タイミングそれぞれにおいて、前記株価の高値および安値と、当該高値および安値の間であって前記タイミングあたりの個数が同一の内挿点の数値とを決定する、
ことを特徴とする付記6に記載のデータ解析方法。
(付記11)解析対象の時系列データについて、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、当該タイミングあたりの個数が同一となるように複数決定する決定部と、
決定した前記数値に基づいて前記時系列データに関するアトラクタを生成する生成部と、
を有することを特徴とするデータ解析装置。
(付記12)前記決定部は、前記タイミングに対応する時間間隔内の時系列データに含まれる最高点および最低点の数値と、当該最高点および最低点間において前記タイミングあたりの個数が同一の内挿点の数値とを決定する、
ことを特徴とする付記11に記載のデータ解析装置。
(付記13)前記決定部は、前記最高点および前記最低点間を等分割して前記内挿点の数値を決定する、
ことを特徴とする付記12に記載のデータ解析装置。
(付記14)前記決定部は、前記タイミングに対応する時間間隔内の時系列データに含まれる実測値を前記内挿点の数値として決定する、
ことを特徴とする付記12に記載のデータ解析装置。
(付記15)前記時系列データは、株価の時間的な推移を示すデータであり、
前記決定部は、前記タイミングそれぞれにおいて、前記株価の高値および安値と、当該高値および安値の間であって前記タイミングあたりの個数が同一の内挿点の数値とを決定する、
ことを特徴とする付記11に記載のデータ解析装置。
1…データ解析装置
10…通信部
20…記憶部
21…時系列データ
30…制御部
31…入力受付部
32…決定部
33…アトラクタ生成部
34…解析処理部
35…出力部
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…スピーカ
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ
C1、C2…ケース
D…Tickデータ
G11〜G30…グラフ

Claims (7)

  1. 解析対象の時系列データについて、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、当該タイミングあたりの個数が同一となるように複数決定し、
    決定した前記数値に基づいて前記時系列データに関するアトラクタを生成する、
    処理をコンピュータに実行させることを特徴とするデータ解析プログラム。
  2. 前記複数決定する処理は、前記タイミングに対応する時間間隔内の時系列データに含まれる最高点および最低点の数値と、当該最高点および最低点間において前記タイミングあたりの個数が同一の内挿点の数値とを決定する、
    ことを特徴とする請求項1に記載のデータ解析プログラム。
  3. 前記複数決定する処理は、前記最高点および前記最低点間を等分割して前記内挿点の数値を決定する、
    ことを特徴とする請求項2に記載のデータ解析プログラム。
  4. 前記複数決定する処理は、前記タイミングに対応する時間間隔内の時系列データに含まれる実測値を前記内挿点の数値として決定する、
    ことを特徴とする請求項2に記載のデータ解析プログラム。
  5. 前記時系列データは、株価の時間的な推移を示すデータであり、
    前記複数決定する処理は、前記タイミングそれぞれにおいて、前記株価の高値および安値と、当該高値および安値の間であって前記タイミングあたりの個数が同一の内挿点の数値とを決定する、
    ことを特徴とする請求項1に記載のデータ解析プログラム。
  6. 解析対象の時系列データについて、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、当該タイミングあたりの個数が同一となるように複数決定し、
    決定した前記数値に基づいて前記時系列データに関するアトラクタを生成する、
    処理をコンピュータが実行することを特徴とするデータ解析方法。
  7. 解析対象の時系列データについて、所定の時間間隔ごとのタイミングそれぞれにおける特徴を示す数値を、当該タイミングあたりの個数が同一となるように複数決定する決定部と、
    決定した前記数値に基づいて前記時系列データに関するアトラクタを生成する生成部と、
    を有することを特徴とするデータ解析装置。
JP2020100693A 2020-06-10 2020-06-10 データ解析プログラム、データ解析方法およびデータ解析装置 Active JP7532922B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020100693A JP7532922B2 (ja) 2020-06-10 2020-06-10 データ解析プログラム、データ解析方法およびデータ解析装置
EP21175234.0A EP3923228B1 (en) 2020-06-10 2021-05-21 Data analysis method, device and program
US17/330,411 US20210390623A1 (en) 2020-06-10 2021-05-26 Data analysis method and data analysis device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020100693A JP7532922B2 (ja) 2020-06-10 2020-06-10 データ解析プログラム、データ解析方法およびデータ解析装置

Publications (2)

Publication Number Publication Date
JP2021196680A true JP2021196680A (ja) 2021-12-27
JP7532922B2 JP7532922B2 (ja) 2024-08-14

Family

ID=76059715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020100693A Active JP7532922B2 (ja) 2020-06-10 2020-06-10 データ解析プログラム、データ解析方法およびデータ解析装置

Country Status (3)

Country Link
US (1) US20210390623A1 (ja)
EP (1) EP3923228B1 (ja)
JP (1) JP7532922B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230177750A1 (en) * 2021-11-16 2023-06-08 Dtn, Llc System for and method of graphically representing information
CN115113038B (zh) * 2022-08-19 2022-12-30 国网江西省电力有限公司电力科学研究院 基于电流信号相空间重构的断路器故障诊断方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100106436A1 (en) 2008-10-20 2010-04-29 International Business Machines Corporation Power consumption calculation facility
JP6606997B2 (ja) 2015-11-25 2019-11-20 富士通株式会社 機械学習プログラム、機械学習方法及び情報処理装置
JP6992291B2 (ja) 2017-07-07 2022-01-13 富士通株式会社 状態識別方法、状態識別装置及び状態識別プログラム
JP6954070B2 (ja) 2017-12-08 2021-10-27 富士通株式会社 判別プログラム、判別方法および判別装置
JP7040065B2 (ja) 2018-01-31 2022-03-23 富士通株式会社 検出プログラム、検出方法および検出装置
US20210027862A1 (en) 2018-03-30 2021-01-28 Board Of Trustees Of Michigan State University Systems and methods for drug design and discovery comprising applications of machine learning with differential geometric modeling

Also Published As

Publication number Publication date
JP7532922B2 (ja) 2024-08-14
US20210390623A1 (en) 2021-12-16
EP3923228B1 (en) 2023-08-16
EP3923228A1 (en) 2021-12-15

Similar Documents

Publication Publication Date Title
JP6606997B2 (ja) 機械学習プログラム、機械学習方法及び情報処理装置
Barnett et al. Validation of neural spike sorting algorithms without ground-truth information
Bode et al. A time series clustering approach for building automation and control systems
JP6950504B2 (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
EP3923228A1 (en) Data analysis method, device and program
EP3795975A1 (en) Abnormality sensing apparatus, abnormality sensing method, and abnormality sensing program
JP2019125319A (ja) 学習プログラム、学習方法および学習装置
JP7069581B2 (ja) 分析方法、分析装置及び分析プログラム
Verma et al. Feature selection
Costa et al. Fault classification on transmission lines using knn-dtw
US20230273771A1 (en) Secret decision tree test apparatus, secret decision tree test system, secret decision tree test method, and program
JP7040065B2 (ja) 検出プログラム、検出方法および検出装置
JP6954070B2 (ja) 判別プログラム、判別方法および判別装置
EP3425561B1 (en) State classifying program, state classifying method, and state classifying device
Burch et al. Dynamic graph visualization on different temporal granularities
KR20200086548A (ko) 시계열 데이터 압축 및 복원 방법
JP6950505B2 (ja) 判別プログラム、判別方法および判別装置
JP7363889B2 (ja) 学習装置、学習方法、コンピュータプログラム及び記録媒体
JP7062923B2 (ja) 可視化方法、可視化装置及び可視化プログラム
MacKinlay Estimating self-excitation effects for social media using the Hawkes process
Ushakova et al. Multi-level changepoint inference for periodic data sequences
JP6319820B2 (ja) 属性要因分析方法、装置、およびプログラム
WO2023037417A1 (ja) 推定装置、推定方法、及びプログラム
WO2021210413A1 (ja) 判別対象の分類方法、これに用いるプログラム、および、判別装置
JP2018151913A (ja) 情報処理システム、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240715

R150 Certificate of patent or registration of utility model

Ref document number: 7532922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150