JP7275903B2 - データ分析システム、データ分析方法及びプログラム - Google Patents

データ分析システム、データ分析方法及びプログラム Download PDF

Info

Publication number
JP7275903B2
JP7275903B2 JP2019117776A JP2019117776A JP7275903B2 JP 7275903 B2 JP7275903 B2 JP 7275903B2 JP 2019117776 A JP2019117776 A JP 2019117776A JP 2019117776 A JP2019117776 A JP 2019117776A JP 7275903 B2 JP7275903 B2 JP 7275903B2
Authority
JP
Japan
Prior art keywords
data
feature
time
data analysis
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019117776A
Other languages
English (en)
Other versions
JP2021005170A (ja
Inventor
洋一 松尾
丈浩 川田
研 西松
達明 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019117776A priority Critical patent/JP7275903B2/ja
Priority to US17/618,596 priority patent/US20220358352A1/en
Priority to PCT/JP2020/024441 priority patent/WO2020262316A1/ja
Publication of JP2021005170A publication Critical patent/JP2021005170A/ja
Application granted granted Critical
Publication of JP7275903B2 publication Critical patent/JP7275903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Neurology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ分析システム、データ分析方法及びプログラムに関する。
近年、例えば通信ネットワークやセンサ群等の様々なシステムから取得できる時系列データを用いて、所望の事象の予測や分類、回帰等のデータ分析を行うことが一般的になってきている。これらの時系列データには様々な種類のデータがあり、それぞれの種類に応じた特色を持っている。このようなデータの種類としては、例えば、連続値や離散値、カテゴリ数等を取り得る数値データ、文章形式のテキストデータ等が挙げられる。以降では、複数種類のデータを「マルチモーダルデータ」とも表す。
また、時系列データには周期性がある場合が多く、このような周期性や上記のデータの種類に応じた特色等の特徴を把握・抽出することが重要である。時系列データの分析手法としては、従来から様々な手法が提案されている。例えば、与えられた時系列データを用いてDNN(Deep Neural Network)の学習することで、このDNNにより将来の値を予測する手法が知られている。
ここで、時系列データに対してCNN(Convolutional Neural Network)を適用して予測を行う手法としてQRNN(Quasi-Recurrent Neural Network)が知られている(例えば非特許文献1参照)。QRNNでは、時刻t+1に対して、1からtまでのデータ全体を用いて予測を行う。すなわち、時系列データ{x,・・・,x}が与えられた場合に、xt+1=QRNN(x,・・・x)によりxt+1を予測する。QRNNでは、CNNのフィルタが学習によって時系列間の関係性や周期成分等を学習していき、データの時系列方向の特徴を抽出することができる。
また、音声の時系列データに対する予測手法としてWavenetが知られている(例えば非特許文献2参照)。音声の時系列データはデータ間に超長期の影響関係があるため、Wavenetでは、長期間のデータの関係性を抽出できるように、xt+1を予測する場合に、m(ただし、m=2,4,8,16,・・・,M)時刻前のxを入力としたCNNにより予測を行っている。このとき、Wavenetでは、CNNの隠れ層において、これらm時刻のデータ間の関係性も抽出している。
また、複数種類の時系列データの特徴を抽出して予測を行う手法としてDeepsenseと呼ばれる手法が知られている(例えば非特許文献3参照)。Deepsenseでは、角速度や速度等の多次元の特徴の異なるデータに対して、まず各時刻において各データ内の次元間の関係性をCNNにより抽出し、次に各時刻において各データ間の関係性をCNNにより抽出し、最後に時系列間の関係性をRNN(Recurrent Neural Network)により抽出する、という手法である。
Bradbury, James, Merity, Stephen, Xiong, Caiming, and Socher, Richard. Quasi-Recurrent Neural Networks. arXiv preprint arXiv:1611.01576, 2016. A. van den Oord et al. "WaveNet: A Generative Model for Raw Audio". In: ArXiv e-prints (2016). Shuochao Yao, Shaohan Hu, Yiran Zhao, Aston Zhang, and Tarek Abdelzaher. Deepsense: A unified deep learning framework for timeseries mobile sensing data processing. In Proc. 26th International Conference on World Wide Web, pages 351-360. International World Wide Web Conferences Steering Committee, 2017.
マルチモーダルデータのデータ分析を行う場合には、複数種類のデータのそれぞれの特徴を抽出するために、例えば、データを種類ごとに分けて特徴を抽出した上で、各データの特徴全体を予測する、等の工夫が必要なる。このため、上記のQRNNやWavenetはマルチモーダルデータのデータ分析には適さない。一方で、Deepsenseはマルチモーダルデータのデータ分析を行うことができるものの、データの種類がテキストデータ等である場合には扱うことができない。
本発明の実施の形態は、上記の点に鑑みてなされたもので、複数種類の時系列データのデータ分析を実現することを目的する。
上記目的を達成するため、本発明の実施の形態におけるデータ分析システムは、複数の種類の時系列データから、各時刻において、前記時系列データを構成する各データの次元間の特徴を示す第1の特徴量を抽出する第1の特徴量抽出手段と、前記第1の特徴量抽出手段により抽出された第1の特徴量から、各時刻において、前記種類間の特徴を示す第2の特徴量を抽出する第2の特徴量抽出手段と、前記第2の特徴量抽出手段により抽出された第2の特徴量から、各時刻間の特徴を示す第3の特徴量を抽出する第3の特徴量抽出手段と、前記第3の特徴量抽出手段により抽出された第3の特徴量を用いて、所定のデータ分析を行う分析手段と、を有することを特徴とする。
複数種類の時系列データのデータ分析を実現することができる。
本発明の実施の形態におけるデータ分析システムの全体構成(推論時)の一例を示す図である。 本発明の実施の形態におけるデータ分析システムの全体構成(学習時)の一例を示す図である。 本発明の実施の形態におけるデータ分析システムのハードウェア構成の一例を示す図である。 本発明の実施の形態におけるデータ分析処理の一例を示すフローチャートである。 マルチモーダルデータの一例を説明するための図である。 本発明の実施の形態におけるパラメータ更新処理の一例を示すフローチャートである。
以下、本発明の実施の形態について説明する。本発明の実施の形態では、複数種類の時系列データのデータ分析を実現することができるデータ分析システム10について説明する。
本発明の実施の形態では、一例として、データ分析の対象とする時系列データは通信ネットワークやセンサ群等から取得されたデータであるものとする。したがって、データ分析の対象とする時系列データは、複数種類の時系列データ(つまり、マルチモーダルデータの時系列データ)であるものとする。なお、通信ネットワークやセンサ群等から取得されるデータには、例えば、センサ値等の数値データの時系列データ、システムログ等のテキストデータの時系列データ等がある。これら以外にも、例えば、所定の機器での異常発生有無を表す数値データ(つまり、離散値(2値)を取り得る数値データ)の時系列データやIP(Internet Protocol)アドレスが属するカテゴリを表す数値データの時系列データ等もある。
また、本発明の実施の形態では、一例として、データ分析としてデータの予測を行う場合について説明する。ただし、本発明の実施の形態は、データの予測に限られず、例えば、データの分類や回帰等のデータ分析を行う場合についても同様に適用することが可能である。
ここで、上述したように、マルチモーダルデータのデータ分析には、QRNNやWavenetは適さない。一方で、Deepsenseはマルチモーダルデータのデータ分析を行うことができるものの、データの種類がテキストデータ等である場合には扱うことができない。また、RNNはxt+1を予測するためにxt-k,・・・,xを用いるが、このとき、RNNでは、j=0,・・・,kに対して、xt-k+jからxt-k+j+1を予測することを繰り返すことでxt+1を予測する。この方法は勾配爆発又は勾配消失を起こすとも言われており、k時刻前までのデータを用いてもそのデータの情報を利用できているかはわからない。したがって、時系列データに長期間の関係性がある場合には、RNNによるデータ分析は適さない。
一般に、通信ネットワークやセンサ群等のシステムから取得された時系列データは、データの種類ごとに時系列方向の関係性や周期が異なる場合が多い。このため、予測に使用するデータを明示的に決めてモデル化している場合、データの関係性や周期によっては当該モデルに当てはまらず、予測に適さないことがある。
そこで、本発明の実施の形態におけるデータ分析システム10では、複数種類の時系列データに関して時系列方向の長期の関係や周期を抽出することで、予測や分類、回帰等のデータ分析を行う。なお、データ分析システム10には、学習データを用いてニューラルネットワークのパラメータ等を更新する「学習時」と、学習済みのパラメータを用いたニューラルネットワークにより時系列データを分析する「推論時」とがある。
<全体構成>
まず、本発明の実施の形態におけるデータ分析システム10の全体構成について、図1及び図2を参照しながら説明する。図1及び図2は、本発明の実施の形態におけるデータ分析システム10の全体構成の一例を示す図である。
≪推論時≫
図1に示すように、推論時におけるデータ分析システム10は、前処理部101と、第1の関係性抽出部102と、第2の関係性抽出部103と、第3の関係性抽出部104と、出力部105と、ユーザインタフェース部106と、記憶部110とを有する。
記憶部110には、各種データが記憶されている。本発明の実施の形態では、推論時には、データ分析の対象となる複数種類の時系列データが記憶部110に記憶されているものとする。
前処理部101は、データ分析の対象となる時系列データを記憶部110から読み出して、これらの時系列データに対して所定の前処理を行う。前処理としては、例えば、テキストデータの数値化してベクトルデータに変換する、数値データを正規化する、時系列データ全体をタイムウインドウで区切る、等が挙げられる。
第1の関係性抽出部102は、予め学習された学習済みのパラメータを用いたCNNにより実現され、前処理後の時系列データを入力として、データの種類ごとに、各時刻で各データ内の次元間の関係性(特徴)を抽出する。
第2の関係性抽出部103は、予め学習された学習済みのパラメータを用いたCNNにより実現され、第1の関係性抽出部102により抽出された特徴を入力として、各時刻でデータの種類間の関係性(特徴)を抽出する。
第3の関係性抽出部104は、予め学習された学習済みのパラメータを用いたCNNにより実現され、第2の関係性抽出部103により抽出された特徴を入力として、データ分析の対象となる時系列データの時系列間の関係性(特徴)を抽出する。
出力部105は、第3の関係性抽出部104により抽出された特徴を入力として、データ分析結果を出力する。このとき、出力部105は、データの種類ごとに準備された所定の関数を用いてデータ分析結果を出力する。例えば、データ分析として予測や回帰を行う場合には、恒等関数を用いてデータ分析結果を出力する。一方で、例えば、データ分析として分類を行う場合には、ソフトマックス関数を用いてデータ分析結果を出力する。
ユーザインタフェース部106は、出力部105により出力されたデータ分析結果を所定のUI(ユーザインタフェース)に提供する。ここで、所定のユーザインタフェースとしては、ディスプレイ等の表示装置であってもよいし、スピーカ等の音声出力装置であってもよい。これら以外にも、ユーザインタフェース部106は、任意のユーザインタフェースにデータ分析結果を提供してもよい。
≪学習時≫
図2に示すように、学習時におけるデータ分析システム10は、前処理部101と、第1の関係性抽出部102と、第2の関係性抽出部103と、第3の関係性抽出部104と、出力部105と、ユーザインタフェース部106と、パラメータ更新部107と、記憶部110とを有する。なお、前処理部101、第1の関係性抽出部102、第2の関係性抽出部103、第3の関係性抽出部104、出力部105及びユーザインタフェース部106は、それぞれ推論時と同様であるため、その説明を省略する。ただし、第1の関係性抽出部102、第2の関係性抽出部103及び第3の関係性抽出部104は、学習済みでないパラメータを用いたCNNによりそれぞれ実現される。
記憶部110には、各種データが記憶されている。本発明の実施の形態では、学習時には、CNNのパラメータを学習するための学習データが記憶部110に記憶されているものとする。学習データとは、CNNのパラメータの学習に用いられる時系列データと、この時系列データのデータ分析結果の正解(つまり、教師データ)とで構成されるデータのことである。学習時には、CNNのパラメータを学習するために、これらの学習データに含まれる時系列データを用いてデータ分析が行われる。
パラメータ更新部107は、出力部105により出力されたデータ分析結果と、教師データとを用いて、既知の最適化手法により、第1の関係性抽出部102、第2の関係性抽出部103及び第3の関係性抽出部104のそれぞれを実現するCNNのパラメータを更新する。これより、各CNNのパラメータが学習される。
なお、図1及び図2に示すデータ分析システム10の全体構成は一例であって、他の構成であってもよい。例えば、データ分析システム10は複数台の装置で構成されていてもよい。また、この場合、例えば、データ分析システム10が有する各機能部(前処理部101、第1の関係性抽出部102、第2の関係性抽出部103、第3の関係性抽出部104、出力部105、ユーザインタフェース部106及びパラメータ更新部107)は、複数の装置で分散して有していてもよい。
<ハードウェア構成>
次に、本発明の実施の形態におけるデータ分析システム10のハードウェア構成について、図3を参照しながら説明する。図3は、本発明の実施の形態におけるデータ分析システム10のハードウェア構成の一例を示す図である。
図3に示すように、本発明の実施の形態におけるデータ分析システム10は、入力装置201と、表示装置202と、外部I/F203と、RAM(Random Access Memory)204と、ROM(Read Only Memory)205と、プロセッサ206と、通信I/F207と、補助記憶装置208とを有する。これら各ハードウェアは、それぞれがバスBを介して相互に通信可能に接続されている。
入力装置201は、例えばキーボードやマウス、タッチパネル等である。表示装置202は、例えばディスプレイ等である。なお、データ分析システム10は、入力装置201及び表示装置202の少なくとも一方を有していなくてもよい。
外部I/F203は、外部装置とのインタフェースである。外部装置には、記録媒体203a等がある。データ分析システム10は、外部I/F203を介して、記録媒体203a等の読み取りや書き込みを行うことができる。記録媒体203aとしては、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。なお、記録媒体203aには、データ分析システム10が有する各機能部(例えば、前処理部101、第1の関係性抽出部102、第2の関係性抽出部103、第3の関係性抽出部104、出力部105及びユーザインタフェース部106等)を実現する1以上のプログラムが記録されていてもよい。
RAM204は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM205は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。
プロセッサ206は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置であり、ROM205や補助記憶装置208等からプログラムやデータをRAM204上に読み出して処理を実行する。データ分析システム10が有する各機能部は、例えば、補助記憶装置208に格納されている1以上のプログラムがプロセッサ206に実行させる処理により実現される。なお、データ分析システム10は、プロセッサ206としてCPUとGPUとの両方を有していてもよいし、CPU又はGPUのいずれか一方のみを有していてもよい。また、データ分析システム10は、プロセッサ206としてFPGA(field-programmable gate array)等を有していてもよい。
通信I/F207は、データ分析システム10を通信ネットワークに接続するためのインタフェースである。データ分析システム10が有する各機能部を実現する1以上のプログラムは、通信I/F207を介して、所定のサーバ装置等から取得(ダウンロード)されてもよい。
補助記憶装置208は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置208に格納されているプログラムやデータには、例えば、OS(Operating System)、データ分析システム10が有する各機能部を実現する1以上のプログラム等がある。データ分析システム10が有する記憶部110は、補助記憶装置208を用いて実現可能である。ただし、当該記憶部110は、データ分析システム10と通信ネットワークを介して接続される記憶装置等を用いて実現されていてもよい。
本発明の実施の形態におけるデータ分析システム10は、図3に示すハードウェア構成を有することにより、後述するデータ分析処理やパラメータ更新処理を実現することができる。なお、図3に示す例では、本発明の実施の形態におけるデータ分析システム10が1台の装置(コンピュータ)で実現されている場合について説明したが、これに限られない。本発明の実施の形態におけるデータ分析システム10は、複数台の装置(コンピュータ)で実現されていてもよい。また、1台の装置(コンピュータ)には、複数のプロセッサ206や複数のメモリ(RAM204、ROM205、補助記憶装置208等)が含まれていてもよい。
<データ分析処理>
以降では、推論時におけるデータ分析処理について、図4を参照しながら説明する。図4は、本発明の実施の形態におけるデータ分析処理の一例を示すフローチャートである。なお、データ分析処理では、第1の関係性抽出部102、第2の関係性抽出部103及び第3の関係性抽出部104をそれぞれ実現するCNNのパラメータは予め学習済みであるものとする。
まず、前処理部101は、データ分析の対象となる時系列データを記憶部110から読み出して、これらの時系列データに対して所定の前処理を行う(ステップS101)。前処理としては、上述したように、例えば、テキストデータの数値化してベクトルデータに変換する、数値データを正規化する、時系列データ全体をタイムウインドウで区切る、等が挙げられる。
以降では、データ分析の対象となる時系列データがt個のタイムウインドウに区切られたものとして、データの種類ごとに、1つのタイムウインドウに対して1つの時刻インデックスを対応付けるものとする。具体的には、データの種類をk(k=1,・・・,K;ただし、K≧2)、時刻インデックスをt(tは1以上の整数)として、種類kの時刻tにおけるデータをx と表すものとする。また、種類kのデータの次元数をN(ただし、N≧1)と表すものとする。
ここで、テキストデータを数値化する場合、前処理部101は、予め番号が付与されたテンプレートを用いてベクトルデータに変換する。具体的には、テンプレートの総数をNとして、前処理部101は、当該テキストデータの可変部分(例えば、観測値等を表す文字列)以外の固定的な文字列と一致又は類似するテンプレートを特定した上で、特定したテンプレートに付与された番号に対応する要素のみが1、それ以外の要素は0であるN次元のベクトルデータに当該テキストデータを変換する。
また、IPアドレスが属するカテゴリを表す数値データについては、前処理部101は、この数値データをベクトルデータに変換する。具体的には、カテゴリの総数をNとして、前処理部101は、当該IPアドレスが属するカテゴリに対応する要素のみが1、それ以外の要素は0であるN次元のベクトルに当該数値データを変換する。
また、IPアドレスを表すアドレスデータについては、前処理部101は、このアドレスデータをベクトルデータに変換する。具体的には、IPアドレス空間の総数をNとして、前処理部101は、当該アドレスデータが表すIPアドレスが属するIPアドレス空間に対応する要素のみが1、それ以外の要素は0であるN次元のベクトルに当該アドレスデータを変換する。
なお、以降では、次元数が1のデータ(つまり、スカラで表される数値データ)もベクトルデータと表す。これにより、数値データやテキストデータ、アドレスデータ等の各種データは、全てベクトルデータとして表されることになる。
また、時刻tに対応するタイムウインドウ中に複数のベクトルデータが含まれる場合、x は、当該タイムウインドウ中の複数のベクトルデータを集計(合計や平均、中央値の算出等)したベクトルデータ又は当該タイムウインドウ中の複数のベクトルデータのうちの代表となるベクトルデータとすればよい。
ここで、K=2であり、k=1のデータの種類が数値データ、k=2のデータの種類がテキストデータである場合のマルチモーダルデータの例を図5に示す。図5に示す例では、時刻tにおける数値データは1次元のベクトルデータx で表されている。また、時刻tにおけるテキストデータはN次元のベクトルデータx に変換されて、このベクトルデータx で表される。
なお、図5に示す例では、一例として、時刻tに対応するタイムウインドウ中に1つのデータのみが含まれる場合を示している。例えば、時刻tに対応するタイムウインドウ中に2つのテキストデータ(第1のテキストデータ及び第2のテキストデータ)が含まれる場合、x は、例えば、第1のテキストデータに対応する要素のみが1、それ以外の要素が0である第1のベクトルと、第2のテキストデータに対応する要素のみが1、それ以外の要素が0である第2のベクトルとの和で表されるベクトルデータとすればよい。
また、正規化については、前処理部101は、例えば、種類kごとに、学習データに含まれる時系列データの最大値で、データ分析対象の時系列データ全体を割ればよい。具体的には、前処理部101は、各k及び各tに対して、以下により各ベクトルデータx を正規化すればよい。
Figure 0007275903000001
以降では、正規化後のベクトルデータもx で表す。
次に、第1の関係性抽出部102は、上記のステップS101で前処理が行われたベクトルデータx を用いて、各時刻tで各ベクトルデータx 内の次元間の関係性(特徴)を抽出する(ステップS102)。具体的には、第1の関係性抽出部102は、学習済みのパラメータを用いた1dCNN(つまり、ベクトルに対するCNN)にx を入力して、ベクトル
Figure 0007275903000002
を出力する。ここで、1dCNNで出力されるベクトルの次元数は予め設定されたNであるものとする。1dCNNで出力されるベクトルの次元数がNとなるように、CNNのフィルターサイズとスライディングウィンドウとがkごとに調整される。これにより、ベクトルデータx から特徴量を抽出すると共に、kごとに異なるサイズのベクトルデータを同一のサイズにすることができる。
なお、上記のステップS102では、上記の1dCNNの代わりに、例えば、主成分分析(PCA:principal component analysis)が用いられてもよいし、自己符号化器(Autoencoder)のエンコーダ(符号化器)が用いられてもよい。
次に、第2の関係性抽出部103は、上記のステップS102で出力されたベクトルデータ
Figure 0007275903000003
を用いて、各時刻tでベクトルデータの種類k間の関係性(特徴)を抽出する(ステップS103)。具体的には、第2の関係性抽出部103は、
Figure 0007275903000004
を行方向に並べた行列
Figure 0007275903000005
を作成する。そして、第2の関係性抽出部103は、学習済みのパラメータを用いた2dCNN(つまり、行列に対するCNN)にz(1) を入力して、行列
Figure 0007275903000006
を出力する。ここで、k及びNは予め設定される。これにより、各時刻tで各データの種類k間の特徴量を抽出することができる。
次に、第3の関係性抽出部104は、上記のステップS103で出力された行列データ (2) を用いて、時系列間の関係性(特徴)を抽出する(ステップS104)。具体的には、第3の関係性抽出部104は、時刻1からtまでの行列データ (2) を列方向に並べた行列

Figure 0007275903000007
を作成する。そして、第3の関係性抽出部104は、学習済みのパラメータを用いた2dCNNにZ(2)を入力して、行列
Figure 0007275903000008
を出力する。ここで、k及びNは予め設定される。これにより、時刻1からtまでの特徴量を抽出することができる。
続いて、出力部105は、上記のステップS104で出力された行列データZ(3)を用いてデータ分析を行って、データ分析結果を出力する(ステップS105)。すなわち、例えば、データ分析として予測を行う場合には、出力部105は、x t+1を予測して、このx t+1を出力する。上述したように、出力部105は、データの種類kごとに準備された所定の関数(例えば、恒等関数やソフトマックス関数等)を用いてデータ分析結果を出力する。
最後に、ユーザインタフェース部106は、上記のステップS105で出力されたデータ分析結果を所定のUIに提供する(ステップS106)。これにより、データ分析結果がユーザに提示される。
以上のように、本発明の実施の形態におけるデータ分析システム10は、各時刻で各データの次元間の特徴を抽出した後、各時刻で各データ間の特徴を抽出し、最後に時系列間の特徴を抽出する。これにより、本発明の実施の形態におけるデータ分析システム10では、マルチモーダルな時系列データから、データの特徴やデータ間の特徴を抽出しつつ、時系列方向の特徴や周期性も抽出することができ、マルチモーダルな時系列データのデータ分析を高い精度で実現することが可能となる。
<パラメータ更新処理>
以降では、学習時におけるパラメータ更新処理について、図6を参照しながら説明する。図6は、本発明の実施の形態におけるパラメータ更新処理の一例を示すフローチャートである。なお、データ分析処理では、第1の関係性抽出部102、第2の関係性抽出部103及び第3の関係性抽出部104をそれぞれ実現するCNNのパラメータは学習済みでないものとする。
図6のステップS201~ステップS205は、図4のステップS101~ステップS105とそれぞれ同様であるため、その説明を省略する。ただし、データ分析の対象となる時系列データとして、学習データに含まれる時系列データを用いる。
ステップS205に続いて、パラメータ更新部107は、ステップS205で出力されたデータ分析結果と、当該学習データに含まれる教師データとを用いて、第1の関係性抽出部102、第2の関係性抽出部103及び第3の関係性抽出部104をそれぞれ実現するCNNのパラメータを更新する(ステップS206)。すなわち、パラメータ更新部107は、当該データ分析結果と当該教師データとの誤差が小さくなるように、既知の最適化手法によりCNNのパラメータを更新する。このような最適化手法としては、例えば、確率的勾配降下法等を用いればよい。これにより、上記のデータ分析処理を実現するためのCNNのパラメータが学習される。
なお、CNNの層の数やドロップアウトの有無等は任意に設定することが可能である。また、例えば、自己符号化器のエンコーダ等により第1の関係性抽出部102が実現されている場合は、更新対象のパラメータは、このエンコーダのパラメータとなる。
本発明は、具体的に開示された上記の実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
10 データ分析システム
101 前処理部
102 第1の関係性抽出部
103 第2の関係性抽出部
104 第3の関係性抽出部
105 出力部
106 ユーザインタフェース部
107 パラメータ更新部
110 記憶部

Claims (5)

  1. 複数の種類の時系列データから、各時刻において、前記時系列データを構成する各データの次元間の特徴を示す第1の特徴量を抽出する第1の特徴量抽出手段と、
    前記第1の特徴量抽出手段により抽出された第1の特徴量から、各時刻において、前記種類間の特徴を示す第2の特徴量を抽出する第2の特徴量抽出手段と、
    前記第2の特徴量抽出手段により抽出された第2の特徴量から、各時刻間の特徴を示す第3の特徴量を抽出する第3の特徴量抽出手段と、
    前記第3の特徴量抽出手段により抽出された第3の特徴量を用いて、所定のデータ分析を行う分析手段と、
    を有することを特徴とするデータ分析システム。
  2. 前記第1の特徴量抽出手段は、予め学習された学習済みパラメータを用いた畳み込みニューラルネットワーク、主成分分析、又は予め学習された学習済みパラメータを用いた自己符号化器の符号化器のいずれかにより前記第1の特徴量を抽出し、
    前記第2の特徴量抽出手段は、予め学習された学習済みパラメータを用いた畳み込みニューラルネットワークにより前記第2の特徴量を抽出し、
    前記第3の特徴量抽出手段は、予め学習された学習済みパラメータを用いた畳み込みニューラルネットワークにより前記第3の特徴量を抽出する、ことを特徴とする請求項1に記載のデータ分析システム。
  3. 前記分析手段は、
    前記データ分析の目的に応じて前記種類ごとに準備された関数を用いて、前記第3の特徴量からデータ分析結果を出力する、ことを特徴とする請求項1又は2に記載のデータ分析システム。
  4. 複数の種類の時系列データから、各時刻において、前記時系列データを構成する各データの次元間の特徴を示す第1の特徴量を抽出する第1の特徴量抽出手順と、
    前記第1の特徴量抽出手順で抽出された第1の特徴量から、各時刻において、前記種類間の特徴を示す第2の特徴量を抽出する第2の特徴量抽出手順と、
    前記第2の特徴量抽出手順で抽出された第2の特徴量から、各時刻間の特徴を示す第3の特徴量を抽出する第3の特徴量抽出手順と、
    前記第3の特徴量抽出手順で抽出された第3の特徴量を用いて、所定のデータ分析を行う分析手順と、
    をコンピュータが実行することを特徴とするデータ分析方法。
  5. 複数の種類の時系列データから、各時刻において、前記時系列データを構成する各データの次元間の特徴を示す第1の特徴量を抽出する第1の特徴量抽出手順と、
    前記第1の特徴量抽出手順で抽出された第1の特徴量から、各時刻において、前記種類間の特徴を示す第2の特徴量を抽出する第2の特徴量抽出手順と、
    前記第2の特徴量抽出手順で抽出された第2の特徴量から、各時刻間の特徴を示す第3の特徴量を抽出する第3の特徴量抽出手順と、
    前記第3の特徴量抽出手順で抽出された第3の特徴量を用いて、所定のデータ分析を行う分析手順と、
    をコンピュータに実行させることを特徴とするプログラム。
JP2019117776A 2019-06-25 2019-06-25 データ分析システム、データ分析方法及びプログラム Active JP7275903B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019117776A JP7275903B2 (ja) 2019-06-25 2019-06-25 データ分析システム、データ分析方法及びプログラム
US17/618,596 US20220358352A1 (en) 2019-06-25 2020-06-22 Data analysis system, data analysis method, and program
PCT/JP2020/024441 WO2020262316A1 (ja) 2019-06-25 2020-06-22 データ分析システム、データ分析方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019117776A JP7275903B2 (ja) 2019-06-25 2019-06-25 データ分析システム、データ分析方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021005170A JP2021005170A (ja) 2021-01-14
JP7275903B2 true JP7275903B2 (ja) 2023-05-18

Family

ID=74061764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019117776A Active JP7275903B2 (ja) 2019-06-25 2019-06-25 データ分析システム、データ分析方法及びプログラム

Country Status (3)

Country Link
US (1) US20220358352A1 (ja)
JP (1) JP7275903B2 (ja)
WO (1) WO2020262316A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015154845A (ja) 2014-02-20 2015-08-27 パナソニックヘルスケア株式会社 健康管理支援装置およびその制御方法
JP2018198028A (ja) 2017-05-25 2018-12-13 日本電信電話株式会社 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
JP2019008742A (ja) 2017-06-28 2019-01-17 ヤフー株式会社 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015154845A (ja) 2014-02-20 2015-08-27 パナソニックヘルスケア株式会社 健康管理支援装置およびその制御方法
JP2018198028A (ja) 2017-05-25 2018-12-13 日本電信電話株式会社 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
JP2019008742A (ja) 2017-06-28 2019-01-17 ヤフー株式会社 学習装置、生成装置、学習方法、生成方法、学習プログラム、および生成プログラム

Also Published As

Publication number Publication date
JP2021005170A (ja) 2021-01-14
US20220358352A1 (en) 2022-11-10
WO2020262316A1 (ja) 2020-12-30

Similar Documents

Publication Publication Date Title
JP6755849B2 (ja) 人工ニューラルネットワークのクラスに基づく枝刈り
KR101880907B1 (ko) 비정상 세션 감지 방법
Mohan et al. Spatio-temporal deep learning models of 3D turbulence with physics informed diagnostics
WO2019005186A1 (en) NEURONAL NETWORKS OF TOPOLOGY-SENSITIVE GRAPHICS
JP2020126021A (ja) 異常音検知装置および異常音検知方法
Khan et al. Physics-inspired deep learning to characterize the signal manifold of quasi-circular, spinning, non-precessing binary black hole mergers
WO2022095376A1 (zh) 方面级别情感分类方法、装置、设备及可读存储介质
KR102250728B1 (ko) 샘플 처리 방법, 장치, 기기 및 저장 매체
CN115244587A (zh) 高效基础事实注释
CN112257578A (zh) 人脸关键点检测方法、装置、电子设备及存储介质
US20200074277A1 (en) Fuzzy input for autoencoders
Lamere et al. Inference of gene co-expression networks from single-cell RNA-sequencing data
CN116383521B (zh) 主题词挖掘方法及装置、计算机设备及存储介质
JP7275903B2 (ja) データ分析システム、データ分析方法及びプログラム
Guillén et al. Fast feature selection in a gpu cluster using the delta test
CN115206421B (zh) 药物重定位方法、重定位模型的训练方法及装置
Kumar et al. Hybrid evolutionary techniques in feed forward neural network with distributed error for classification of handwritten Hindi ‘SWARS’
Chandra Dynamic cyclone wind-intensity prediction using co-evolutionary multi-task learning
JP7425755B2 (ja) 変換方法、訓練装置及び推論装置
CN113010687A (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
US20210073624A1 (en) Transfer learning with augmented neural networks
CN111724487A (zh) 一种流场数据可视化方法、装置、设备及存储介质
Zhao et al. Neural-Network-Based Feature Learning: Recurrent Neural Network
Kosmopoulos et al. The use of deep learning in the classification of buildings at the post-revolutionary city of Athens
CN117239739B (zh) 一种知识大模型预测用户侧负荷方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230417

R150 Certificate of patent or registration of utility model

Ref document number: 7275903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150