JP6574527B2 - 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム - Google Patents

時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム Download PDF

Info

Publication number
JP6574527B2
JP6574527B2 JP2018538357A JP2018538357A JP6574527B2 JP 6574527 B2 JP6574527 B2 JP 6574527B2 JP 2018538357 A JP2018538357 A JP 2018538357A JP 2018538357 A JP2018538357 A JP 2018538357A JP 6574527 B2 JP6574527 B2 JP 6574527B2
Authority
JP
Japan
Prior art keywords
series data
time
model
feature
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018538357A
Other languages
English (en)
Other versions
JPWO2018047655A1 (ja
Inventor
央 倉沢
央 倉沢
勝義 林
勝義 林
昭典 藤野
昭典 藤野
小笠原 隆行
隆行 小笠原
真澄 山口
真澄 山口
信吾 塚田
信吾 塚田
中島 寛
寛 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2018047655A1 publication Critical patent/JPWO2018047655A1/ja
Application granted granted Critical
Publication of JP6574527B2 publication Critical patent/JP6574527B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Description

本発明は、時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラムに関する。
本願は、2016年9月6日に出願された特願2016−174065号に基づき優先権を主張し、その内容をここに援用する。
時系列データとは、センサで観測された値が時間的な順序を保ってデータ化されたデータである。時系列データが、何らかの都合で観測(計測)できなかったり、観測(計測)した値を失ったりして、一定の時間間隔で観測(計測)されていないことはたびたび起こりうる。このような時系列データを不等間隔時系列データと呼ぶ。
不等間隔時系列データの一例を挙げると、「時刻」と「気温の観測値」で構成されたレコードの群において、時刻と観測値の対が、(10時、20度)、(11時、21度)、(12時、24度)、(14時、28度)、(17時、19度)であったとする。このとき、観測時間の間隔は1時間と2時間、3時間と3通り存在していて、一定でない。
不等間隔時系列データが生成される状況の例を挙げると、IoT(Internet of Things)/M2M(Machine to Machine)環境においては、以下のような事象が発生する。すなわち、センサ端末の故障やバッテリ切れで観測できなかったり、ネットワークで輻輳がおきてデータを失ったりすることがある。このような場合、一定な時間間隔ですべての観測データを得るのが難しい。また、人に常時装着して生体情報を観測するシステムにおいては、入浴時や睡眠時、着替えといった計測対象者の都合によって必ずしも常時観測機器を装着しない。このため、計測は断片的になりやすい。さらに、人の血液や尿を取り扱う検体検査のようなデータにおいては、計測対象者と計測実行者の都合や検査手段の空き状況の影響を受ける。このため、計測の時間間隔を一定にすることは難しい。
不等間隔時系列データから機械学習による分類といった分析を行う場合、不等間隔時系列データからの特徴量抽出が必要となる。特徴量抽出に関しては、1つめの方式では、観測データの時間間隔を問わない特徴量を抽出する。2つめの方式では、時間間隔が一定となるように欠損推定処理(内挿や外挿)をしたうえで経時変化を表す特徴量を抽出する。3つめの方式では、状態空間モデルによって経時変化を変動成分の合成としてモデル化したうえでそれら変動成分のパラメータを特徴量として抽出する。このように、特徴量抽出に関しては、3つの方式が存在する。
1つめの観測データの時間間隔を問わない特徴量を抽出する方式に関して、特徴量は、最大値や最小値、平均、分散値などが例として挙げられる。これらの特徴量はある期間の状態を大まかに表現することはできるが、経時変化を正しく表現することができない。
2つめの方式に関して、欠損推定手法はスプライン補間などが例として挙げられる。また、経時変化を表す特徴量は、離散フーリエ変換やウェーブレット変換のような周波数成分への変換や、Symbolic Aggregate approximation (SAX)のような記号変換が例として挙げられる(非特許文献1)。上述した不等間隔時系列データの例では、1次関数による内挿処理後に離散フーリエ変換をした場合、欠損推定処理の内挿によって(13時、26度)、(15時、25度)、(16時、22度)の3つのレコードが追加されたうえで、離散フーリエ変換によって(185、−15.778−4.121i、2−1i、0.222−0.121i、3、0.222+0.121i、2+1i、−15.778+4.121i)が得られる。この方式は、欠損推定処理と特徴量抽出がそれぞれ独立した処理であるがゆえ、欠損推定処理の精度に特徴量が大きく影響を受ける問題がある。例えば、観測データの時間間隔に大きな偏りがあると欠損推定処理の精度のばらつきも大きくなり、観測データの時間間隔や欠損推定処理に依存したノイズが加わった特徴量が抽出されてしまう。上述の例では、14時から17時の3時間の気温変化の経時変化が1次関数の内挿によって直線的な変化に解釈されてしまい、それがノイズとなってしまう。
3つめの方式に関して、状態空間モデルは状態モデルと観測モデルから構成される。状態モデルはマルコフ性を仮定していて、現在の状態は過去の状態と説明変数とシステムノイズの関数で表される。観測モデルは現在の状態と説明変数と観測ノイズの関数で表される。状態モデルは線形独立を仮定した変動成分をもとに設計する。変動成分として、トレンド成分や、1週間周期の曜日変動成分、自己回帰過程、自己減衰過程などが例として挙げられる(非特許文献2)。この方式は、状態モデルとして設計した変動成分以外は特徴量として抽出することが難しく、ノイズとして扱われてしまう問題がある。
Lin, J., Keogh, E., Lonardi, S. and Chiu, B. A Symbolic Representation of Time Series, with Implications for Streaming Algorithms. In proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery. San Diego, CA. 2003. 村田眞哉,高屋典子,市川裕介,内山匡,"ECサイトにおけるセールシミュレーション",日本応用数理学会論文誌,Vol.23, Issue 2, 2013.
前述したように、従来の技術では、欠損推定処理の精度や変動成分の設計によって、不等間隔で観測された時系列データからデータの経時変化を表す特徴量を正しく抽出できないという問題がある。
本発明は上記事情に着目してなされた。本発明の目的の一例は、不等間隔で観測された時系列データから、データの経時変化を表す特徴量を抽出する時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラムを提供することにある。
上述の課題を解決するために、本発明の一態様に係る時系列データ特徴量抽出装置は、訓練用の不等間隔時系列データ群を受け付ける訓練データ受付部と、入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付けるモデル設計受付部と、前記受け付けた不等間隔時系列データ群を、前記受け付けた入力時系列データ長と前記受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工するデータ加工部と、入力層と出力層と中間層とを有するニューラルネットワークのモデルであって、前記欠損を含む等間隔時系列データ群と前記欠損の有無を表す欠損情報群を結合した行列が前記入力層へ入力され、入力時系列データ長の等間隔時系列データ群の行列が前記出力層から出力され、前記受け付けた特徴量抽出サイズが前記中間層である、前記モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記出力層の出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存するモデル学習部と、特徴量抽出対象の時系列データを受け付け、前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、前記算出された中間層の値をデータの経時変化を表す特徴量として出力する特徴量抽出部とを備える。
前記時系列データ特徴量抽出装置において、前記特徴量抽出部は、前記中間層の値を特徴量が抽出された時系列データとともに出力し、さらに、欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記モデルの出力層の出力結果の要素との差異の情報も出力してもよい。
本発明の一態様に係る時系列データ特徴量抽出方法は、時系列データの特徴量を抽出する時系列データ特徴量抽出装置が行う時系列データ特徴量抽出方法であって、訓練用の不等間隔時系列データ群を受け付け、入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付け、前記受け付けた不等間隔時系列データ群を、前記受け付けた入力時系列データ長と前記受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工し、入力層と出力層と中間層とを有するニューラルネットワークのモデルであって、前記欠損を含む等間隔時系列データ群と前記欠損の有無を表す欠損情報群を結合した行列が前記入力層へ入力され、入力時系列データ長の等間隔時系列データ群の行列が出力層から出力され、前記受け付けた特徴量抽出サイズが前記中間層である、前記モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存し、特徴量抽出対象の時系列データを受け付け、前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、前記算出された中間層の値をデータの経時変化を表す特徴量として出力することを含む。
本発明の一態様に係る時系列データ特徴量抽出プログラムは、コンピュータを、前記時系列データ特徴量抽出装置として機能させる。
本発明によれば、不等間隔で観測された時系列データから、データの経時変化を表す特徴量を抽出することができるという有利な効果が得られる。
本実施形態に係る時系列データ特徴量抽出装置の一例を示す構成図である。 本実施形態における、時系列データ特徴量抽出方法における訓練ステップの一例を示すフローチャートである。 本実施形態における、訓練用の時系列データ群の一例を示す説明図である。 本実施形態における、入力時系列データ長と観測最小間隔と特徴量抽出サイズの一例を示す説明図である。 本実施形態における、等間隔時系列データと欠損情報の一例を示す説明図である。 本実施形態における、モデルの一例を示す説明図である。 本実施形態における、時系列データ特徴量抽出方法における特徴量抽出ステップの一例を示すフローチャートである。 本実施形態における、特徴量抽出対象の時系列データの一例を示す説明図である。 本実施形態における、特徴量抽出対象の時系列データを加工した一例を示す説明図である。
以下、本発明の実施の形態について図面を参照しながら説明する。本実施形態の時系列データ特徴量抽出装置は、不等間隔で観測された時系列データから等間隔時系列データを出力するモデルを学習し、特徴量としてモデルの中間層および特徴量抽出の正確性を表す値を出力する。
図1は、本実施形態に係る時系列データ特徴量抽出装置1のブロック図である。図1に示すように、本発明の実施形態に係る時系列データ特徴量抽出装置1は、訓練データ受付部11と、モデル設計受付部12と、データ加工部13と、モデル学習部14と、メモリ15と、特徴量抽出部16とを備える。
訓練データ受付部11は、訓練用の不等間隔時系列データ群を受け付ける(入力する)。モデル設計受付部12は、入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付ける(入力する)。データ加工部13は、訓練データ受付部11で受け付けた不等間隔時系列データ群を、モデル設計受付部12で受け付けた入力時系列データ長と観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工する。
モデル学習部14は、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群を結合した行列を入力層への入力とし、入力時系列データ長の等間隔時系列データ群の行列を出力層からの出力とする。そして、モデル学習部14は、モデル設計受付部12で受け付けた特徴量抽出サイズが中間層となるニューラルネットワークのモデルに対して、欠損を含む等間隔時系列データ群の行列の欠損していない要素と出力結果の要素との差異を誤差として、各層の重みベクトルを学習し、モデルパラメータを生成する。メモリ15は、モデルパラメータを保存する。
特徴量抽出部16は、特徴量抽出対象の時系列データを受け付けて、受け付けた時系列データをモデルの入力とする。特徴量抽出部16は、保存していたモデルパラメータを用いてモデルの中間層の値を算出し、データの経時変化を表す特徴量を出力する。
本実施形態に係る時系列データ特徴量抽出装置1では、訓練ステップで、訓練用の不等間隔時系列データ群を受け付け、各層の重みベクトルを学習し、モデルパラメータを生成する。メモリ15は、モデルパラメータを保存する。訓練ステップでは、図2に示すステップS101からS107の処理を実行する。
訓練データ受付部11は、訓練用の時系列データ群を受け付ける(ステップS101)。図3に訓練用の時系列データ群の一例を示す。この例では、訓練用の時系列データ群は合計N個の系列(系列「1」〜系列「N」)で構成され、系列「1」の時刻と観測値の対が、(10時、20度)、(11時、21度)、(12時、24度)、(14時、28度)、(17時、19度)である。
次に、モデル設計受付部12は、入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付ける(ステップS102)。図4に入力時系列データ長と観測最小間隔と特徴量抽出サイズの一例を示す。この例では、入力時系列データ長は4時間、観測最小間隔は1時間、特徴量抽出サイズは「2」である。なお、入力時系列データ長と観測最小間隔と特徴量抽出サイズは任意に自由な値を設定できる。
データ加工部13は、訓練用の時系列データ群を、欠損を含む等間隔時系列データ群と、欠損の有無を表す欠損情報群に加工する(ステップS103)。図5に系列「1」の等間隔時系列データと欠損情報の一例を示す。図5の部分(A)に示すように、系列「1」のデータが取得された場合について説明する。この場合、観測最小間隔が1時間であったため、系列「1」は7時と、8時、9時、13時、15時、16時を欠損と解釈される。図5の部分(B)に示すように、入力時系列データ長が4時間であったため、7時から10時、8時から11時、9時から12時、といったように4時間単位に時系列データが区切られ、等間隔時系列データに加工される。図5の部分(C)に示すように、等間隔時系列データへの加工と同時に、データが欠損していなければ「1」が示され、データが欠損していれば「0」が示される欠損情報も生成する。訓練用の時系列データ群の各系列について同様の処理を実行する。
モデル学習部14で取り扱うモデルはニューラルネットワークとする。このモデルは、入力層、出力層、中間層の3層を必ず持つ、3層以上の層から構成されるモデルとする。モデル学習部14に対する入力は、欠損を含む等間隔時系列データ群(図5の部分(B)参照)と欠損の有無を表す欠損情報群(図5の部分(C)参照)を結合した情報とする。このため、入力層は入力時系列データ長の2倍の長さのサイズとする。図4の例では入力時系列データ長が4時間、観測最小間隔が1時間であったため、入力層のサイズは「8」となる。モデル学習部14の出力層は、入力時系列データ長の等間隔時系列データとする。このため、出力層は入力時系列データ長のサイズとする。図4の例では出力層のサイズは「4」となる。中間層はモデル設計受付部12で受け付けた特徴量抽出サイズとするため、図4の例では「2」とする。
図6にモデル学習部14で取り扱うモデルの一例を示す。このモデルは、入力層と出力層と4つの中間層から構成されるモデルである。入力層への値をX、中間層「1」への値をX、中間層「2」への値をX、中間層「3」への値をX、中間層「4」への値をX、及び出力層への値をXと称する。値X〜Xは、それぞれ、以下の式(1a)〜(1f)のように表される。
=x1,1,x1,2,...,x1,8 …(1a)
=x2,1,x2,2,...,x2,8 …(1b)
=x3,1,x3,2,x3,3,x3,4 …(1c)
=x4,1,x4,2 …(1d)
=x5,1,x5,2,x5,3,x5,4 …(1e)
=x6,1,x6,2,x6,3,x6,4 …(1f)
また、各層の値は、以下の(2)式の様な漸化式で表される。
i+1=f(A+B) …(2)
ここで、Aは重みパラメータ、Bはバイアスパラメータ、fは活性化関数を表す。
この例では、活性化関数は、線形結合(単純パーセプトロン)のf1、3、4、と、ReLU(ランプ関数)のfとで構成する。f1、3、の関係は、以下の式(3a)のように表される。fは、以下の式(3b)のように表される。
(x)=f(x)=f(x)=f(x)=x …(3a)
(x)=max(0,x) …(3b)
出力層からの出力値Xは、以下の(4)式のように表される。
=(f(A(f(A(f(A(f(A(f(A+B
)+B))+B))+B))+B)) …(4)
本実施形態のモデルに関して、層の構成やサイズ、活性化関数は上述の例に限定されない。別の具体例として、活性化関数はステップ関数や、シグモイド関数、多項式、絶対値、maxout、ソフトサイン、ソフトプラス、などであっても良い。層の構成に関しては、Long short−term memory(LSTM)に代表されるリカレントニューラルネットワークのように一時点前の中間層からの伝搬を設計に組み込んでも良い。
次に、モデル学習部14は、モデルパラメータを初期化する(ステップS104)。モデルパラメータの重みパラメータAとバイアスパラメータB(i=1,2,3,4,5)にランダムな値を代入する。さらに、この等間隔時系列データの欠損値には「0」が代入される。本実施形態では「0」を欠損値に代入したがこの例に限定されない。平均値や中央値、欠損処理結果を欠損値に代入してもよい。
次に、モデル学習部14は、誤差が最小となるように、モデルを構成する各層の重みベクトルを学習する(ステップS105)。具体的には、等間隔時系列データをP、欠損情報をQ、等間隔時系列データ群と欠損の有無を表す欠損情報群を結合したでデータをRと称する。入力層への値Xには、等間隔時系列データ群と欠損の有無を表す欠損情報群を結合したデータRが入力される。出力層の出力値X(式(4)に示す)と等間隔時系列データPとが欠損していない値に関して限りなく近づくように学習が行われる。誤差関数は、(5)式のように、等間隔時系列データPの欠損していない値PQと、出力層の欠損していない値XQとの二乗誤差で算出する。
(XQ−PQ) …(5)
すなわち、等間隔時系列データPの欠損している値に関しては出力層の値Xではいかなる値をとっても誤差には加味しない。そして、等間隔時系列データPの欠損していない値については出力層の値Xでも同一の値となるように学習することを目的とし、誤差関数を設計する。誤差が最小となるように勾配法でモデルパラメータを最適化する。勾配法としてはAdamを用いる。本実施形態における勾配法はこれに限定されない。勾配法として、SGD、AdaDeltaなど、確率的勾配降下法のいかなる手法を用いてもよい。
次に、モデル学習部14は、誤差の勾配が収束したかを判定する。誤差の勾配が収束していない場合には(ステップS106:No)、処理をステップS105に戻る。誤差の勾配が収束している場合には(ステップS106:Yes)、最適化を終了する。
次に、モデル学習部14は、誤差の勾配が収束したときのモデルパラメータのAとB(i=1,2,3,4,5)を保存する(ステップS107)。
次に、特徴量抽出処理について説明する。図7は、特徴量抽出処理のフローチャートである。特徴量抽出処理では、ステップS201からS204を実行する。
まず、特徴量抽出部16は、メモリ15からモデルパラメータのAとB(i=1,2,3,4,5)を読み込む(ステップS201)。
次に、特徴量抽出部16は、特徴量抽出対象の時系列データを受け付ける(ステップS202)。図8に特徴量抽出対象の時系列データの一例を示す。
次に、特徴量抽出部16は、欠損を含む等間隔時系列データと欠損の有無を表す欠損情報に加工する(ステップS203)。図9に特徴量抽出対象の時系列データを加工した一例を示す。等間隔時系列データをP’、欠損の有無を表す欠損情報をQ’、等間隔時系列データ群と欠損の有無を表す欠損情報群を結合した情報をR’と称する。
次に、特徴量抽出部16は、中間層の値と誤差の大きさを経時変化を表す特徴量として出力する(ステップS204)。中間層の値は、(6)式のようになる。
(f(A(f(A(f(AR’+B))+B))+B)) …(6)
また、欠損を含む等間隔時系列データ群の行列の欠損していない要素とモデルの出力層の出力結果の要素との誤差の大きさは、(7)式のようになる。
((f(A(f(A(f(A(f(A(f(AR’+B))+B))+B))+B))+B))Q’−P’Q’) …(7)
以上説明したように、本実施形態では、訓練用の不等間隔時系列データ群から欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群の2つに変換し、それら2つを入力とし、欠損を含む等間隔時系列データ群が出力となるような自己符号化器として学習し、その中間層の値を経時変化を表す特徴量として出力することができる。つまり、不等間隔で観測された時系列データから欠損推定することなく経時変化を表す特徴量を抽出するため、欠損推定処理に依存したノイズの影響を緩和できる。また、自己符号化器によって表現学習をするため、モデル設計における変動成分の網羅性による影響も緩和できる。さらに、モデルの中間層のサイズが入力時系列データ長よりも小さいとき、低ランク表現された特徴量の抽出も可能とする。
特徴量抽出部16は、中間層の値を特徴量が抽出された時系列データとともに出力し、更に、欠損を含む等間隔時系列データ群の行列の欠損していない要素とモデルの出力層の出力結果の要素との差異の情報も出力しても良い。データの経時変化を表す特徴量から不等間隔で観測された時系列データを復元し、オリジナルの時系列データとの差分の大きさを新たな特徴量として出力することで、データの経時変化特徴量抽出の正確性を加味した不等間隔時系列データの分析ができる。また、経時変化を表す特徴量がオリジナルの時系列データを十分に表せているかを示す指標として分析に使える。
この構成によれば、不等間隔で観測された時系列データからデータの経時変化を表す特徴量を抽出するにあたって、欠損推定処理と特徴量抽出を一括して処理することで、欠損推定処理の精度に特徴量が大きく影響を受けることを避け、機械学習による分類といった分析の精度が向上する。また、何らかの都合で観測(計測)できなかったり、観測(計測)した値を失ったりして、センサで観測された値か時間的な順序を保ってデータ化された時系列データが一定の時間間隔で観測(計測)されていない不等間隔時系列データからの精度の高い機械学習による分類といった分析を実現できる。
時系列データ特徴量抽出装置1の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。ここでいう「コンピュータシステム」は、OSや周辺機器等のハードウェアを含む。
「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含む。
「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
本発明は、時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラムに適用してもよい。
11…訓練データ受付部
12…モデル設計受付部
13… データ加工部
14…モデル学習部
15…メモリ
16…特徴量抽出部

Claims (4)

  1. 訓練用の不等間隔時系列データ群を受け付ける訓練データ受付部と、
    入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付けるモデル設計受付部と、
    前記受け付けた不等間隔時系列データ群を、前記受け付けた入力時系列データ長と前記受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工するデータ加工部と、
    入力層と出力層と中間層とを有するニューラルネットワークのモデルであって、前記欠損を含む等間隔時系列データ群と前記欠損の有無を表す欠損情報群を結合した行列が前記入力層へ入力され、入力時系列データ長の等間隔時系列データ群の行列が前記出力層から出力され、前記受け付けた特徴量抽出サイズが前記中間層である、前記モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記出力層の出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存するモデル学習部と、
    特徴量抽出対象の時系列データを受け付け、前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、前記算出された中間層の値をデータの経時変化を表す特徴量として出力する特徴量抽出部と
    を備える時系列データ特徴量抽出装置。
  2. 前記特徴量抽出部は、前記中間層の値を特徴量が抽出された時系列データとともに出力し、さらに、欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記モデルの出力層の出力結果の要素との差異の情報を出力する請求項1に記載の時系列データ特徴量抽出装置。
  3. 時系列データの特徴量を抽出する時系列データ特徴量抽出装置が行う時系列データ特徴量抽出方法であって、
    訓練用の不等間隔時系列データ群を受け付け、
    入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付け、
    前記受け付けた不等間隔時系列データ群を、前記受け付けた入力時系列データ長と前記受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工し、
    入力層と出力層と中間層とを有するニューラルネットワークのモデルであって、前記欠損を含む等間隔時系列データ群と前記欠損の有無を表す欠損情報群を結合した行列が前記入力層へ入力され、入力時系列データ長の等間隔時系列データ群の行列が出力層から出力され、前記受け付けた特徴量抽出サイズが前記中間層である、前記モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存し、
    特徴量抽出対象の時系列データを受け付け、
    前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、
    前記算出された中間層の値をデータの経時変化を表す特徴量として出力する
    ことを含む時系列データ特徴量抽出方法。
  4. コンピュータを、請求項1または2に記載の時系列データ特徴量抽出装置として機能させるための時系列データ特徴量抽出プログラム。
JP2018538357A 2016-09-06 2017-08-28 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム Active JP6574527B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016174065 2016-09-06
JP2016174065 2016-09-06
PCT/JP2017/030743 WO2018047655A1 (ja) 2016-09-06 2017-08-28 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム

Publications (2)

Publication Number Publication Date
JPWO2018047655A1 JPWO2018047655A1 (ja) 2019-02-28
JP6574527B2 true JP6574527B2 (ja) 2019-09-11

Family

ID=61561446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018538357A Active JP6574527B2 (ja) 2016-09-06 2017-08-28 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム

Country Status (5)

Country Link
US (1) US11449732B2 (ja)
EP (1) EP3511871A4 (ja)
JP (1) JP6574527B2 (ja)
CN (1) CN109643397B (ja)
WO (1) WO2018047655A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11156969B1 (en) 2020-04-24 2021-10-26 MakinaRocks Co., Ltd. Environment factor control device and training method thereof
WO2021215635A1 (ko) * 2020-04-24 2021-10-28 주식회사 마키나락스 환경 인자 조절 장치 및 그 훈련 방법

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615096A (zh) * 2018-05-10 2018-10-02 平安科技(深圳)有限公司 服务器、金融时序数据的处理方法及存储介质
US11775873B2 (en) * 2018-06-11 2023-10-03 Oracle International Corporation Missing value imputation technique to facilitate prognostic analysis of time-series sensor data
CN109375116B (zh) * 2018-08-09 2021-12-14 上海国际汽车城(集团)有限公司 一种基于自编码器的电池系统异常电池识别方法
JP7056493B2 (ja) * 2018-09-28 2022-04-19 日本電信電話株式会社 データ処理装置、データ処理方法およびプログラム
JP7014119B2 (ja) * 2018-09-28 2022-02-01 日本電信電話株式会社 データ処理装置、データ処理方法、及びプログラム
JP7242255B2 (ja) * 2018-11-05 2023-03-20 キヤノンメディカルシステムズ株式会社 X線ct装置および検出器ユニット
EP3864670B1 (en) * 2018-11-13 2024-05-22 Google LLC Prediction of future adverse health events using neural networks by pre-processing input sequences to include presence features
KR102501530B1 (ko) * 2018-12-31 2023-02-21 한국전자통신연구원 시계열 데이터 처리 장치 및 이의 동작 방법
US11157692B2 (en) * 2019-03-29 2021-10-26 Western Digital Technologies, Inc. Neural networks using data processing units
WO2021042250A1 (zh) * 2019-09-02 2021-03-11 西门子(中国)有限公司 用于确定生产设备的生产周期的方法和装置
CN110974211A (zh) * 2019-12-09 2020-04-10 上海数创医疗科技有限公司 高阶多项式激活函数的st段分类神经网络及其应用
KR102553397B1 (ko) * 2020-07-03 2023-07-07 미쓰비시덴키 가부시키가이샤 데이터 처리 장치
CN112380268B (zh) * 2020-10-27 2022-03-18 国网宁夏电力有限公司经济技术研究院 等间隔时间序列压缩方法、装置、设备和存储介质
JP7542459B2 (ja) * 2021-02-22 2024-08-30 三菱電機株式会社 データ分析装置、データ分析システムおよびプログラム
CN117092526B (zh) * 2023-10-20 2023-12-15 广东采日能源科技有限公司 电池故障预警模型的训练方法、装置及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212184A (ja) * 1995-02-01 1996-08-20 Fujitsu Ltd 認識装置および欠損値推定/学習方法
US7424150B2 (en) * 2003-12-08 2008-09-09 Fuji Xerox Co., Ltd. Systems and methods for media summarization
JP4734559B2 (ja) * 2004-12-02 2011-07-27 大学共同利用機関法人情報・システム研究機構 時系列データ分析装置および時系列データ分析プログラム
US9250625B2 (en) * 2011-07-19 2016-02-02 Ge Intelligent Platforms, Inc. System of sequential kernel regression modeling for forecasting and prognostics
JP5889759B2 (ja) * 2012-09-24 2016-03-22 日本電信電話株式会社 欠損値予測装置、欠損値予測方法、欠損値予測プログラム
JP5945062B2 (ja) * 2013-02-28 2016-07-05 株式会社東芝 データ処理装置および物語モデル構築方法
JP5846165B2 (ja) * 2013-07-11 2016-01-20 カシオ計算機株式会社 特徴量抽出装置、方法、およびプログラム
EP3188041B1 (en) * 2015-12-31 2021-05-05 Dassault Systèmes Update of a machine learning system
CN105678422A (zh) * 2016-01-11 2016-06-15 广东工业大学 基于经验模态神经网络的混沌时间序列预测方法
US10832162B2 (en) * 2016-09-08 2020-11-10 International Business Machines Corporation Model based data processing
US11301773B2 (en) * 2017-01-25 2022-04-12 International Business Machines Corporation Method and system for time series representation learning via dynamic time warping
JP7003880B2 (ja) * 2018-09-05 2022-02-10 日本電信電話株式会社 予測装置、方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11156969B1 (en) 2020-04-24 2021-10-26 MakinaRocks Co., Ltd. Environment factor control device and training method thereof
WO2021215635A1 (ko) * 2020-04-24 2021-10-28 주식회사 마키나락스 환경 인자 조절 장치 및 그 훈련 방법
US11797859B2 (en) 2020-04-24 2023-10-24 MakinaRocks Co., Ltd. Environment factor control device and training method thereof

Also Published As

Publication number Publication date
US11449732B2 (en) 2022-09-20
EP3511871A1 (en) 2019-07-17
WO2018047655A1 (ja) 2018-03-15
EP3511871A4 (en) 2020-06-24
US20190228291A1 (en) 2019-07-25
CN109643397A (zh) 2019-04-16
CN109643397B (zh) 2023-07-21
JPWO2018047655A1 (ja) 2019-02-28

Similar Documents

Publication Publication Date Title
JP6574527B2 (ja) 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム
US11551153B2 (en) Localized learning from a global model
EP3579153A1 (en) Learned model provision method and learned model provision device
WO2018039058A1 (en) Real-time estimation of human core body temperature based on non-invasive physiological measurements
US20150112891A1 (en) Information processor, information processing method, and program
JP2020009410A (ja) パラメータの多次元時系列を分類するためのシステムおよび方法
CN110715730B (zh) 多元校准模型维护的聚焦线性模型校正和线性模型校正
Antolini et al. Inference on correlated discrimination measures in survival analysis: a nonparametric approach
US20220309397A1 (en) Prediction model re-learning device, prediction model re-learning method, and program recording medium
CN111899883B (zh) 少样本或零样本的疾病预测设备、方法、装置及存储介质
US20210397951A1 (en) Data processing apparatus, data processing method, and program
JP6631540B2 (ja) 情報処理システム、変化点検出方法、およびプログラム
US20200286626A1 (en) Health management support device, method, and non-transitory computer-readable storage medium storing program
US11941495B2 (en) Information processing device, information processing method, and recording medium
WO2018043232A1 (ja) 温度推定システム、温度推定方法及び温度推定プログラムを記録した記録媒体
JP2009295700A (ja) プロセス制御装置及びプロセス制御方法
JP2021056928A (ja) 最適解獲得プログラム、最適解獲得方法および情報処理装置
CN115329146A (zh) 时序网络中的链路预测方法、电子设备及存储介质
JP2017004493A (ja) データ分析方法、データ分析装置およびプログラム
JP7237895B2 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
JP7135025B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN110795936B (zh) 词向量的获取方法和装置、存储介质及电子装置
Tucker et al. Updating stochastic networks to integrate cross-sectional and longitudinal studies
JP2023062951A (ja) シミュレーションモデルの推定方法及び推定装置
JP2020060473A (ja) 分析装置、分析システムおよび分析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190816

R150 Certificate of patent or registration of utility model

Ref document number: 6574527

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150