JP6929260B2 - 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム - Google Patents

時系列特徴抽出装置、時系列特徴抽出方法及びプログラム Download PDF

Info

Publication number
JP6929260B2
JP6929260B2 JP2018206777A JP2018206777A JP6929260B2 JP 6929260 B2 JP6929260 B2 JP 6929260B2 JP 2018206777 A JP2018206777 A JP 2018206777A JP 2018206777 A JP2018206777 A JP 2018206777A JP 6929260 B2 JP6929260 B2 JP 6929260B2
Authority
JP
Japan
Prior art keywords
time
representative
segments
unit
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018206777A
Other languages
English (en)
Other versions
JP2020071777A (ja
Inventor
滋 真矢
滋 真矢
達哉 稲木
達哉 稲木
晃広 山口
晃広 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018206777A priority Critical patent/JP6929260B2/ja
Priority to US16/563,266 priority patent/US11710066B2/en
Publication of JP2020071777A publication Critical patent/JP2020071777A/ja
Application granted granted Critical
Publication of JP6929260B2 publication Critical patent/JP6929260B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/16Classification; Matching by matching signal segments
    • G06F2218/20Classification; Matching by matching signal segments by applying autoregressive analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

本発明の実施形態は、時系列特徴抽出装置、時系列特徴抽出方法及びプログラムに関する。
IoTの進展に伴い、様々なデータを取得できるようになったため、種々のインフラ設備や製造装置等の状態をリアルタイムに把握できる環境が整いつつある。取得可能なデータには色々なものが含まれるため、前処理として各データの特徴量を抽出する処理が必要となることが多い。
しかしながら、各データについての知識がなく、各データの性質を把握していない場合には、特徴量を抽出するのは困難である。このような場合に対処する手法として、以下の二つがある。
第1の手法は、取得されるデータが時系列データの場合に、時系列データをセグメントに分割する手法である。この手法によれば、相関分析や回帰などを用いてデータの大局的な特徴を抽出することができる。第2の手法は、時系列データの特徴的な部分データを抜き出すことで、局所的な特徴を抽出する手法である。
時系列データの場合、大局的な特徴と局所的な特徴のどちらを抽出するのが望ましいかは、時と場合により大きく異なり、各時系列データごとに前処理の適切な手法を見定める必要がある。また、データにノイズが乗っている場合には、大局的な特徴と局所的な特徴のいずれも、正確に抽出できなくなるおそれがある。
また、時系列データを何らかの手法でクラスタに分けて、各クラスタごとに局所的な特徴である部分データを抽出する手法も提案されているが、各クラスタが類似したデータを含む場合には、抽出した部分データも似通ったものになり、局所的な特徴を正しく抽出できなくなる。
特開2015−103018号公報
本発明の一態様は、時系列データの大局的な特徴と局所的な特徴を正しく抽出できる時系列特徴抽出装置、時系列特徴抽出方法及びプログラムを提供するものである。
本実施形態では、時系列データを複数のセグメントに分類するための計算に用いる係数を出力する係数出力部と、
前記係数に基づいて前記時系列データを前記複数のセグメントに分類する計算を行い、前記複数のセグメントの境界位置に関する情報を出力するセグメント位置出力部と、
前記複数のセグメントを、前記複数のセグメントの数以下の複数のクラスタに分類するクラスタ分類部と、
前記複数のクラスタのそれぞれの局所的な特徴を表し、前記複数のセグメントのそれぞれに設定される代表元を出力する代表元出力部と、
前記代表元の特徴度を算出する特徴度算出部と、
前記特徴度に基づいて前記代表元を更新する代表元更新部と、を備える、時系列特徴抽出装置が提供される。
第1の実施形態による時系列特徴抽出装置1の概略構成を示すブロック図。 対象データ出力部8から出力される時系列データの一例を示す図。 図2の時系列データを、データ整列部9で整列した後の時系列データの一例を示す図。 可視化部13による可視化の一例を示す図。 第1の実施形態による時系列特徴抽出装置1の処理動作を示すフローチャート。 代表元度の可視化の一例を示す図。 第2の実施形態による時系列特徴抽出装置1の概略構成を示すブロック図。 ノイズ除去部18が時系列データのノイズ除去を行う前後の波形を示す図。 第3の実施形態による時系列特徴抽出装置1の概略構成を示すブロック図。 セグメント位置修正部19の処理動作を模式的に示す図。 図9の時系列特徴抽出装置1の処理動作を示すフローチャート。
以下、図面を参照して本発明の実施形態を説明する。以下の実施形態では、時系列特徴抽出装置内の特徴的な構成および動作を主に説明するが、時系列特徴抽出装置には以下の説明で省略した構成および動作が存在しうる。
(第1の実施形態)
図1は第1の実施形態による時系列特徴抽出装置1の概略構成を示すブロック図である。図1の時系列特徴抽出装置1は、時系列データの大局的特徴と局所的特徴を正しく抽出できることを特徴としている。図1の時系列特徴抽出装置1には、一種類又は複数種類の時系列データが入力される。このように、図1の時系列特徴抽出装置1は、複数種類の時系列データからなる多変量の時系列データの入力を受け付けることが可能である。
図1の時系列特徴抽出装置1は、係数出力部2と、セグメント位置出力部3と、クラスタ分類部4と、代表元出力部5と、特徴度算出部6と、代表元更新部7とを備えている。
係数出力部2は、時系列データを複数のセグメントに分類するための計算に用いる係数を出力する。例えば、係数出力部2は、回帰モデルを用いて時系列データを複数のセグメントに分類する場合には、回帰モデルの回帰係数を出力する。
係数出力部2に入力される時系列データは、インフラ設備や種々の製造装置、プラント等の対象データ出力部8から出力されたものである。対象データ出力部8は、複数種類の時系列データを出力してもよい。対象データ出力部8から出力された時系列データは、データ整列部9にて、時系列データをタイムスタンプ順に整列させてもよい。また、データ整列部9で整列された時系列データは、いったん時系列データベース(以下、時系列DB)10に格納され、所望のタイミングで、時系列DB10から読み出された時系列データが係数出力部2に入力されてもよい。
図2は対象データ出力部8から出力される時系列データの一例を示す図である。図2は、センサAとセンサBの時系列データが出力される例を示している。各時系列データとも、センサデータと記録日時とが対になっている。なお、センサデータは、単変量データでも、多変量データでもよい。対象データ出力部8から出力されるデータは、前処理を施したデータであってもよい。前処理として、例えば、各時系列データを0と1に正規化する処理や、多変量データの場合には各時系列データ間の相関性を組み込んだ白色化処理や、各センサデータが取り得る最大値や最小値を指定する処理や、各時系列データの周波数変換処理などを行ってもよい。時系列DB10には、各製品ごとのセンサデータや、特定の時間間隔ごとの時系列データが格納されてもよい。図3は図2の時系列データを、データ整列部9で整列した後の時系列データの一例を示す図である。
なお、係数出力部2の前段側に、図1に示すように変数初期化部11を設けてもよい。変数初期化部11は、時系列データを複数のセグメントに分類するための計算に用いる各種の変数を初期化する。例えば、回帰モデルを用いて時系列データを複数のセグメントに分類する場合、変数初期化部11は回帰モデルに使用される各種の変数を初期化する。また、変数初期化部11では、セグメント位置やクラスタ割当の初期化を行ってもよい。クラスタ割当の初期化は、例えばk-means法や混合正規分布などに基づいて行ってもよい。セグメント位置の初期化は、各セグメントの区間を等間隔に設定してもよい。
図1の係数出力部2から出力された係数はセグメント位置出力部3に入力される。セグメント位置出力部3は、係数出力部2から出力された係数に基づいて時系列データを複数のセグメントに分類する計算を行い、複数のセグメントの境界位置に関する情報を出力する。例えば、セグメント位置出力部3は、係数出力部2から出力された回帰係数を用いた回帰モデルにて、時系列データへのフィッティングを行う。回帰モデルは、複数のクラスタのそれぞれごとに設けられる。そして、セグメント位置出力部3は、最も良好なフィッティング結果が得られる回帰モデルに基づく複数のセグメントの境界位置を出力する。
クラスタ分類部4は、複数のセグメントを、複数のセグメントの数以下の複数のクラスタに分類する。クラスタ分類部4により、各セグメントは、いずれかのクラスタに割り当てられる。セグメントとクラスタの詳細については後述する。
代表元出力部5は、複数のクラスタのそれぞれの局所的な特徴を表し、複数のセグメントのそれぞれに設定される代表元を出力する。代表元は、各セグメントの局所的な特徴を表す指標である。代表元出力部5は、複数のクラスタのそれぞれごとに、予め定めた個数の代表元を出力してもよい。
特徴度算出部6は、代表元の特徴度を算出する。特徴度は、例えば代表元の差異で表される。特徴度算出部6は、代表元が存在するセグメント内の時系列データとの類似度と、代表元が存在しないセグメント内の時系列データとの非類似度と、に基づいて、特徴度を算出してもよい。
代表元更新部7は、特徴度算出部6で算出された特徴度に基づいて代表元を更新する。代表元更新部7は、各セグメントの代表元の差異ができるだけ大きくなるように各代表元を更新する。代表元の差異が大きいほど、局所的な特徴がより際立っていることを示す。
図1の時系列特徴抽出装置1は、パラメータ入力部12を備えていてもよい。パラメータ入力部12は、時系列データを複数のセグメントに分類するためのモデルを生成するのに必要な各種の変数(パラメータ)を、時系列特徴抽出装置1の各部に入力する。
図1の時系列特徴抽出装置1は、可視化部13を備えていてもよい。可視化部13は、係数出力部2に入力される時系列データと、代表元出力部5から出力される複数のクラスタのそれぞれに対応する複数の代表元とを可視化する。可視化部13は、係数出力部2に入力される前で、かつノイズ成分を除去した後の時系列データと、代表元出力部5から出力される複数のクラスタのそれぞれに対応する複数の代表元とを可視化してもよい。可視化は、例えば不図示の表示装置の画面に、入力された時系列データと、セグメント位置と、クラスタ割当とが視認できる形態で表示してもよい。可視化の具体例については後述する。
図1の時系列特徴抽出装置1は、代表元度出力部14を備えていてもよい。代表元度出力部14は、代表元を数値化した代表元度を出力する。代表元度の具体例についても後述する。
図1の時系列特徴抽出装置1は、代表元除外指定部15を備えていてもよい。代表元除外指定部15は、複数のクラスタのうち、代表元出力部5が代表元から除外するべき部分データを指定する。この場合、代表元出力部5は、複数のクラスタのそれぞれごとに、代表元除外指定部15で指定された部分データ以外から代表元を生成する。
図1の時系列特徴抽出装置1は、代表元指定部16を備えていてもよい。代表元指定部16は、複数のクラスタのうち、代表元出力部5が代表元に含めるべき部分データを指定する。この場合、代表元出力部5は、複数のクラスタのそれぞれごとに、代表元指定部16で指定された部分データを含めて代表元を生成する。代表元指定部16と代表元除外指定部15は、可視化を行うGUI画面にて、ユーザがマウス等で、時系列データを表す波形の任意の場所を指定できるようにしてもよい。
図1の時系列特徴抽出装置1は、代表元選抜部17を備えていてもよい。代表元選抜部17は、代表元出力部5から出力された代表元のうち、不要な代表元を除去した残りの代表元を選抜する。この場合、特徴度算出部6は、代表元選抜部17で選抜された代表元の特徴度を算出する。
図4は可視化部13による可視化の一例を示す図である。図4の横軸は時刻、縦軸はセンサデータのセンサ値である。図4は、時系列データを、11個のセグメントに分類して、各セグメントを3つのクラスタのいずれかに割り当てる例を示している。図4では、3つのクラスタを、それぞれ異なるハッチングで区別している。図4の例では、各セグメントに、各クラスタに応じた代表元が一つずつ設けられており、各代表元を太線で表記している。図4に示すように、クラスタの数は、セグメントの数以下であり、代表元は各クラスタごとに決められており、同一のクラスタに属する複数のセグメント内の代表元は、同一の波形形状を有する。代表元は、各セグメントの時系列データのうち、特徴的な波形形状を持った部分データである。
図5は第1の実施形態による時系列特徴抽出装置1の処理動作を示すフローチャートである。図1の時系列特徴抽出装置1は、図5のフローチャートの処理を繰り返し実行する。まず、図1の時系列特徴抽出装置1内の各部にパラメータ入力部12から各種のパラメータを設定する(ステップS1)。
次に、変数初期化部11は、時系列データを複数のセグメントに分類するための回帰モデルの各変数を初期化する(ステップS2)。また、変数初期化部11は、図5のフローチャートの反復回数kを0に初期化する(ステップS3)。
次に、係数出力部2は、時系列DB10から取得した時系列データを複数のセグメントに分類するための回帰係数を算出して出力する(ステップS4)。このステップS4では、例えば(1)式に示す線形回帰式で表される回帰モデルの回帰係数を出力する。
Figure 0006929260
(1)式は、k番目の時系列データ以外の時系列データを用いて、k番目の時系列データの値を回帰する線形回帰式である。
次に、セグメント位置出力部3は、回帰係数に基づく回帰モデルを用いて、時系列データを複数のセグメントに分類し、各セグメントの境界位置情報を出力する(ステップS5)。セグメント位置出力部3は、係数出力部2から出力された回帰係数に基づく回帰モデルで回帰を行った場合に、最も適合するセグメントの境界位置を出力する。
(2)式は、タイムスタンプ数がTのデータのk番目の時系列x(k)を、位置uで二分割する際の線形回帰を用いたフィッティング誤差を表す式である。
Figure 0006929260
上述したステップS5では、例えば(2)式の値が最小になるように各セグメントの境界位置を算出して出力する。
次に、クラスタ分類部4は、複数のセグメントを、複数のセグメントの数以下の複数のクラスタに分類する(ステップS6)。より具体的には、クラスタ分類部4は、セグメント位置出力部3で得られた各セグメントのデータを用いて、どの回帰係数で回帰した場合に誤差が最小になるかを判断基準として、各セグメントのクラスタ割当を行う。回帰係数は各クラスタごとに設けられる。
次に、代表元出力部5は、複数のクラスタのそれぞれの局所的な特徴を表し、各セグメントに設定される代表元を算出して出力する(ステップS7)。代表元としては、例えばシェープレット(Shapelet)を用いてもよい。
次に、特徴度算出部6は、各代表元同士の差異(特徴度)を計算し、差異ができるだけ大きくなるように代表元を更新する(ステップS8)。特徴度算出部6は、例えば以下の(3)式に示す目的関数を用いて、各代表元同士の差異を計算する。
mindis(x1, y1)+mindis(x2, y2)+|C−mindis(x1, y2)|+|C−mindis(x2, y1)| …(3)
(3)式のx1,x2は各セグメントのデータ、y1,y2は各セグメントの代表元である。Cは十分に大きな値であり、mindis(A, B)は、2つの時系列データAとBをずらしたときに最もよく適合する場合の誤差である。(3)式のmindis(x1, y1)は、セグメントx1の時系列データと、その一部である代表元y1との適合度合いを数値化したものであり、できるだけ小さい方が望ましい。同様に、mindis(x2, y2)は、セグメントx2の時系列データと、その一部である代表元y2との適合度合いを数値化したものであり、できるだけ小さい方が望ましい。mindis(x1, y2)は、セグメントx1の時系列データと、セグメントx2の代表元y2との適合度合いを数値化したものであり、できるだけ大きい方が望ましい。よって、|C−mindis(x1, y2)|はできるだけ小さい方が望ましい。また、mindis(x2, y1)は、セグメントx2の時系列データと、セグメントx1の代表元y1との適合度合いを数値化したものであり、できるだけ大きい方が望ましい。よって、|C−mindis(x2, y1)|はできるだけ小さい方が望ましい。
このように、ステップS8では、(3)式の各項の和ができるだけ小さくなるように、代表元を更新する。
次に、変数kを1インクリメントする(ステップS9)。次に、反復回数kが閾値K未満か否かを判定する(ステップS10)。閾値K未満であれば、ステップS4以降の処理を繰り返す。反復回数kが閾値Kに等しくなると、図5の処理を終了する。
時系列特徴抽出装置1は、図5のフローチャートの処理を行うとともに、必要に応じて、図4のように、各時系列データを波形で表し、セグメントの境界位置と、クラスタ割当と、代表元とが視認できる形態で表示する可視化を行ってもよい。あるいは、代表元を例えば以下の(4)式に基づいて、数値化した代表元度を計算して可視化してもよい。
Figure 0006929260
(4)式の分母は、セグメントxiの時系列データと、セグメントxi内の代表元yiとの適合度合いを数値化したものである。(4)式の分子は、セグメントxjの時系列データと、セグメントxi内の代表元yiとの適合度合いを数値化したものである。(4)式の分母は小さいほど望ましく、分子は大きいほど望ましいため、代表元度は大きい方が望ましい。
図6は代表元度の可視化の一例を示す図である。代表元は、クラスタごとに設定されるため、図6では、各クラスタごとに代表元度が数値化されている。図6の例では、クラスタAよりもクラスタBの方が代表元がより適合していることを示している。
図1の時系列特徴抽出装置1内の係数出力部2は、例えば回帰係数を出力するものであるが、回帰係数以外の係数、例えば相関行列の各成分である相関係数を出力してもよい。相関行列として、例えば(5)式に示すような分散共分散行列Sを用いることができる。
log|Σ|+tr|Σ-1S| …(5)
(5)式のΣは、時系列データが多変量正規分布に従うと仮定した場合の変数である。Sは時系列データXの各変数間の分散共分散行列である。相関行列を用いた相関分析を行う場合、図5のステップS4を行う際に、係数出力部2は、時系列データを複数のセグメントに分類するための相関係数を算出して出力する。また、図5のステップS5を行う際に、セグメント位置出力部3は、相関係数に基づく相関行列を用いて、時系列データを複数のセグメントに分類し、各セグメントの境界位置情報を出力する。
このように、第1の実施形態では、時系列データの大局的な特徴を把握するために、時系列データを複数のセグメントに分類するとともに、各セグメントのクラスタ割当を行い、回帰モデル等を用いて各セグメントの境界位置を調整するとともに、クラスタ割当も更新する。また、時系列データの局所的な特徴を把握するために、各クラスタごとに設けられる代表元を各セグメントに設定し、各代表元間の差異ができるだけ大きくなるように代表元を更新する。以上により、時系列データの大局的な特徴と局所的な特徴とをともに把握できるようになる。本実施形態では、複数の時系列データからなる多変量の時系列データについて、各時系列データごとに大局的な特徴と局所的な特徴を把握できるため、大量の種類の時系列データを効率よく処理できる。
(第2の実施形態)
第2の実施形態は、前処理として時系列データのノイズを除去するものである。
図7は第2の実施形態による時系列特徴抽出装置1の概略構成を示すブロック図である。図7の時系列特徴抽出装置1は、図1の時系列特徴抽出装置1の構成に加えて、ノイズ除去部18を備えている。ノイズ除去部18は、時系列DB10と変数初期化部11との間に配置されている。ノイズ除去部18は、時系列DB10から読み出した時系列データのノイズ除去を行う。ノイズ除去の手法は特に問わないが、例えば、主成分分析(PCA:Principal Component Analysis)を行って、有用なデータ成分のみを抽出してもよい。あるいは、回帰式等に、正則化項を付加してもよい。正則化項とは、所定の基準値から離れるほどペナルティを大きくするものである。あるいは、ノイズ除去後の時系列データを他の時系列データから回帰して求めてもよい。この場合の最適化手法としては、ADMM(Alternating Direction Method of Multipliers)などを用いてもよい。例えば、以下の(6)式による回帰により、ノイズ除去後のデータを推定してもよい。
Figure 0006929260
図8はノイズ除去部18が時系列データのノイズ除去を行う前後の波形を示す図である。図8の波形w1はノイズ除去前の時系列データ、波形w2はノイズ除去後の時系列データを示している。図示のように、ノイズ除去を行うことにより、波形の形状を滑らかにすることができる。
このように、第2の実施形態では、ノイズ除去部18を設けて、時系列データに含まれるノイズを除去した後に複数のセグメントに分類してクラスタ割当を行うため、セグメント化とクラスタ割当を行う際にノイズの影響を受けなくなる。
(第3の実施形態)
複数種類の時系列データが、時間的にずれて時系列特徴抽出装置1に入力される場合、一種類の時系列データについての各セグメントの境界位置をそのまま、他の種類の時系列データのセグメント化に利用するのは望ましくない。例えば、センサAの検知開始時刻の5分後にセンサBが検知を開始する場合、センサAのセンサデータとセンサBのセンサデータは、5分のタイムラグを調整するのが望ましい。そこで、第3の実施形態では、各種類の時系列データの時間的なずれを考慮に入れて、セグメント化とクラスタ割当を行うものである。
図9は第3の実施形態による時系列特徴抽出装置1の概略構成を示すブロック図である。図9の時系列特徴抽出装置1は、図1の時系列特徴抽出装置1の構成に加えて、セグメント位置修正部19を備えている。セグメント位置修正部19は、入力される複数種類の時系列データのタイムラグに応じて、セグメント位置出力部3から出力された複数のセグメントの境界位置を修正する。クラスタ分類部4は、複数の時系列データのそれぞれごとに、セグメント位置修正部19で境界位置が修正された複数のセグメントを複数のクラスタに分類する。
図10はセグメント位置修正部19の処理動作を模式的に示す図である。センサAのセンサデータとセンサBのセンサデータが時間的にずれて時系列特徴抽出装置1に入力された場合、そのままで同じ時間基準でセグメント化を行うと、図10(a)に示すように、全く異なる波形形状のセグメントに分類されることになり、各センサデータの特徴を正しく反映されなくなる。そこで、セグメント位置修正部19は、図10(b)に示すように、センサBのセンサデータのセグメントの境界位置を、センサAのセンサデータのセグメントの境界位置から時間的にずらすことで、両方のセンサデータとも、同様の波形形状のセグメントに分類することができる。
図11は図9の時系列特徴抽出装置1の処理動作を示すフローチャートである。ステップS21〜S26は図5のステップS1〜S6と同じである。ステップS27では、異なる時系列データのタイムラグを調整するための変数i、jを1に初期化する(ステップS27)。
次に、セグメント位置修正部19は、i番目の時系列データとj番目の時系列データを比較し、両方の時系列データが最もよく適合するように、各時系列データのセグメントの境界位置を修正する(ステップS28)。次に、変数jを1インクリメントする(ステップS29)。次に、変数jが変数jの総数未満か否かを判定する(ステップS30)。まだ総数を超えていなければ、ステップS28の処理を繰り返す。ステップS30で変数jが総数未満と判定されると、変数iを1インクリメントする(ステップS31)。次に、変数iが変数iの総数未満か否かを判定する(ステップS32)。まだ総数を超えていなければ、ステップS28以降の処理を繰り返す。ステップS32で変数iが総数を超えたと判定されると、反復回数kが閾値Kに到達したか否かを判定し(ステップS33)、到達するまでステップS24以降の処理を繰り返す。ステップS32で変数iが変数iの総数に到達した場合には、図5のステップS7〜S10と同様の処理を行う(ステップS33〜S36)。
このように、第3の実施形態では、セグメント位置修正部19を設けるため、複数種類の時系列データが時間的にずれて時系列特徴抽出装置1に入力された場合でも、各時系列データのタイムラグを修正した上で代表元の算出と更新を行うことができる。これにより、時系列特徴抽出装置1に入力される時系列データのタイムラグで、セグメント化やクラスタ割当が変化するという不具合を防止できる。
上述した実施形態で説明した時系列特徴抽出装置1の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、時系列特徴抽出装置1の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
また、時系列特徴抽出装置1の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 時系列特徴抽出装置、2 係数出力部、3 セグメント位置出力部、4 クラスタ分類部、5 代表元出力部、6 特徴度算出部、7 代表元更新部、8 対象データ出力部、9 データ整列部、10 時系列DB、11 初期化部、12 パラメータ入力部、13 可視化部、14 代表元度出力部、15 代表元除外出力部、16 代表元指定部、17 代表元選抜部、18 ノイズ除去部、19 セグメント位置修正部

Claims (15)

  1. 時系列データを複数のセグメントに分類するための計算に用いる係数を出力する係数出力部と、
    前記係数に基づいて前記時系列データを前記複数のセグメントに分類する計算を行い、前記複数のセグメントの境界位置に関する情報を出力するセグメント位置出力部と、
    前記複数のセグメントを、前記複数のセグメントの数以下の複数のクラスタに分類するクラスタ分類部と、
    前記複数のクラスタのそれぞれの局所的な特徴を表し、前記複数のセグメントのそれぞれに設定される代表元を出力する代表元出力部と、
    前記代表元の特徴度を算出する特徴度算出部と、
    前記特徴度に基づいて前記代表元を更新する代表元更新部と、を備える、時系列特徴抽出装置。
  2. 前記代表元出力部は、前記複数のクラスタのそれぞれごとに、予め定めた個数の前記代表元を出力する、請求項1に記載の時系列特徴抽出装置。
  3. 前記複数のクラスタのうち、前記代表元出力部が前記代表元から除外するべき部分データを指定する代表元除外指定部を備え、
    前記代表元出力部は、前記複数のクラスタのそれぞれごとに、前記代表元除外指定部で指定された前記部分データ以外から前記代表元を生成する、請求項1又は2に記載の時系列特徴抽出装置。
  4. 前記複数のクラスタのうち、前記代表元出力部が前記代表元に含めるべき部分データを指定する代表元指定部を備え、
    前記代表元出力部は、前記複数のクラスタのそれぞれごとに、前記代表元指定部で指定された前記部分データを含めて前記代表元を生成する、請求項1又は2に記載の時系列特徴抽出装置。
  5. 前記特徴度算出部は、前記代表元が存在するセグメント内の時系列データとの類似度と、前記代表元が存在しないセグメント内の時系列データとの非類似度と、に基づいて、前記特徴度を算出する、請求項1に記載の時系列特徴抽出装置。
  6. 入力される複数種類の時系列データのタイムラグに応じて、前記セグメント位置出力部から出力された前記複数のセグメントの境界位置を修正するセグメント位置修正部を備え、
    前記クラスタ分類部は、前記複数種類の時系列データのそれぞれごとに、前記セグメント位置修正部で境界位置が修正された複数のセグメントを前記複数のクラスタに分類する、請求項1乃至5のいずれか一項に記載の時系列特徴抽出装置。
  7. 前記時系列データに含まれるノイズ成分を除去するノイズ除去部を備え、
    前記係数出力部は、前記ノイズ除去部でノイズ成分を除去後の時系列データに基づいて前記係数を出力する、請求項1乃至6のいずれか一項に記載の時系列特徴抽出装置。
  8. 前記ノイズ除去部は、時系列データを複数のセグメントに分類するための計算に用いる式に正則化項を付加することにより、前記時系列データに含まれるノイズ成分を除去する、請求項7に記載の時系列特徴抽出装置。
  9. 前記係数出力部から出力される前記係数は、時系列データを推定する回帰モデルの回帰係数を含み、
    前記セグメント位置出力部は、前記複数のクラスタのそれぞれに対応する前記回帰モデルを用いて時系列データのフィッティングを行って、前記複数のセグメントの境界位置に関する情報を出力する、請求項1乃至8のいずれか一項に記載の時系列特徴抽出装置。
  10. 前記係数出力部から出力される前記係数は、時系列データを推定する相関行列の相関係数を含み、
    前記セグメント位置出力部は、前記複数のクラスタのそれぞれに対応する前記相関行列を用いて時系列データのフィッティングを行って、前記複数のセグメントの境界位置に関する情報を出力する、請求項1乃至8のいずれか一項に記載の時系列特徴抽出装置。
  11. 前記係数出力部に入力される時系列データと、前記代表元出力部から出力される前記複数のクラスタのそれぞれに対応する複数の代表元とを可視化する可視化部を備える、請求項1乃至10のいずれか一項に記載の時系列特徴抽出装置。
  12. 前記可視化部は、前記係数出力部に入力される前で、かつノイズ成分を除去した後の時系列データと、前記代表元出力部から出力される前記複数のクラスタのそれぞれに対応する複数の代表元とを可視化する、請求項11に記載の時系列特徴抽出装置。
  13. 前記代表元出力部から出力された前記代表元のうち、不要な代表元を除去した残りの代表元を選抜する代表元選抜部を備え、
    前記特徴度算出部は、前記代表元選抜部で選抜された代表元の特徴度を算出する、請求項1乃至12のいずれか一項に記載の時系列特徴抽出装置。
  14. 時系列データを複数のセグメントに分類するための計算に用いる係数を出力するステップと、
    前記係数に基づいて前記時系列データを前記複数のセグメントに分類する計算を行い、前記複数のセグメントの境界位置に関する情報を出力するステップと、
    前記複数のセグメントを、前記複数のセグメントの数以下の複数のクラスタに分類するステップと、
    前記複数のクラスタのそれぞれの局所的な特徴を表し、前記複数のセグメントのそれぞれに設定される代表元を出力するステップと、
    前記代表元の特徴度を算出するステップと、
    前記特徴度に基づいて前記代表元を更新するステップと、をコンピュータに実行させる、時系列特徴抽出方法。
  15. 時系列データを複数のセグメントに分類するための計算に用いる係数を出力するステップと、
    前記係数に基づいて前記時系列データを前記複数のセグメントに分類する計算を行い、前記複数のセグメントの境界位置に関する情報を出力するステップと、
    前記複数のセグメントを、前記複数のセグメントの数以下の複数のクラスタに分類するステップと、
    前記複数のクラスタのそれぞれの局所的な特徴を表し、前記複数のセグメントのそれぞれに設定される代表元を出力するステップと、
    前記代表元の特徴度を算出するステップと、
    前記特徴度に基づいて前記代表元を更新するステップと、をコンピュータに実行させるためのプログラム。
JP2018206777A 2018-11-01 2018-11-01 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム Active JP6929260B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018206777A JP6929260B2 (ja) 2018-11-01 2018-11-01 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム
US16/563,266 US11710066B2 (en) 2018-11-01 2019-09-06 Time-series feature extraction apparatus, time-series feature extraction method and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018206777A JP6929260B2 (ja) 2018-11-01 2018-11-01 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020071777A JP2020071777A (ja) 2020-05-07
JP6929260B2 true JP6929260B2 (ja) 2021-09-01

Family

ID=70458594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018206777A Active JP6929260B2 (ja) 2018-11-01 2018-11-01 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム

Country Status (2)

Country Link
US (1) US11710066B2 (ja)
JP (1) JP6929260B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767941B (zh) * 2020-05-15 2022-11-18 上海大学 一种基于对称非负矩阵分解的改进谱聚类及并行化方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1261472A (en) * 1985-09-26 1989-09-26 Yoshinao Shiraki Reference speech pattern generating method
JP2003132088A (ja) * 2001-10-22 2003-05-09 Toshiba Corp 時系列データ検索システム
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
JP4599420B2 (ja) * 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US10853828B2 (en) * 2011-02-28 2020-12-01 Flytxt B.V Methods and systems for providing multivariate time series clustering for customer segmentation
JP5868216B2 (ja) * 2012-02-27 2016-02-24 三菱電機株式会社 クラスタリング装置及びクラスタリングプログラム
JP2013206104A (ja) * 2012-03-28 2013-10-07 Sony Corp 情報処理装置、情報処理方法、及びプログラム
WO2014036173A1 (en) * 2012-08-28 2014-03-06 The Regents Of The University Of California Methods and systems for calculating and using statistical models to predict medical events
JP6206022B2 (ja) * 2013-09-12 2017-10-04 株式会社デンソー 運転支援装置
JP5805169B2 (ja) 2013-11-25 2015-11-04 ヤフー株式会社 行動パターン分析装置および行動パターン分析方法
CN104462217B (zh) * 2014-11-09 2017-09-29 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法
US9904932B2 (en) * 2014-12-29 2018-02-27 Google Llc Analyzing semantic places and related data from a plurality of location data reports
WO2016122591A1 (en) * 2015-01-30 2016-08-04 Hewlett Packard Enterprise Development Lp Performance testing based on variable length segmentation and clustering of time series data
JP6586764B2 (ja) * 2015-04-17 2019-10-09 株式会社Ihi データ分析装置及びデータ分析方法
WO2017034512A1 (en) * 2015-08-21 2017-03-02 Hewlett Packard Enterprise Development Lp Interactive analytics on time series
JP6563357B2 (ja) 2016-03-24 2019-08-21 エヌ・ティ・ティ・コミュニケーションズ株式会社 モデル判定装置、モデル判定方法、及びプログラム
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
US10248713B2 (en) * 2016-11-30 2019-04-02 Business Objects Software Ltd. Time series analysis using a clustering based symbolic representation
US11397633B2 (en) * 2017-01-26 2022-07-26 Siemens Aktiengesellschaft Unifying semi-supervised approach for machine condition monitoring and fault diagnosis
US20190034497A1 (en) * 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval

Also Published As

Publication number Publication date
US11710066B2 (en) 2023-07-25
JP2020071777A (ja) 2020-05-07
US20200143283A1 (en) 2020-05-07

Similar Documents

Publication Publication Date Title
US11216741B2 (en) Analysis apparatus, analysis method, and non-transitory computer readable medium
JP6243080B1 (ja) プリプロセッサおよび異常予兆診断システム
Ravikumar et al. Machine learning approach for automated visual inspection of machine components
Sarda-Espinosa et al. Conditional inference trees for knowledge extraction from motor health condition data
JP7071904B2 (ja) 情報処理装置、情報処理方法及びプログラム
US10884841B2 (en) Information processing device, information processing method, and recording medium
JP2010061415A (ja) 学習装置および方法、認識装置および方法、並びにプログラム
CN108399434B (zh) 基于特征提取的高维时间序列数据的分析预测方法
JP2023040079A (ja) 組立てラインのための組立てエラー修正
Vantuch et al. Evolutionary based ARIMA models for stock price forecasting
JP7419955B2 (ja) データ解析システム、データ解析方法、およびプログラム
CN110956277A (zh) 一种交互式的迭代建模系统及方法
JP6929260B2 (ja) 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム
JP7274434B2 (ja) 流用設計支援システム及び流用設計支援方法
US20210248293A1 (en) Optimization device and optimization method
CN109934352B (zh) 智能模型的自动进化方法
CN114098764B (zh) 数据处理方法、装置、电子设备和存储介质
CN113420733B (zh) 一种高效分布式大数据数据采集实现方法及系统
JP6930195B2 (ja) モデル同定装置、予測装置、監視システム、モデル同定方法および予測方法
Khan et al. Robust band profile extraction using constrained nonparametric machine-learning technique
CN112419047A (zh) 利用特征趋势分析预测银行个人贷款逾期的方法及系统
US12000868B2 (en) Waveform segmentation device and waveform segmentation method
US20240045923A1 (en) Information processing device, information processing method, and computer program product
JP6999207B1 (ja) データ解析方法、データ解析装置、及び、データ解析プログラム
US20230288915A1 (en) Information processing device, information processing method, and computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210810

R151 Written notification of patent or utility model registration

Ref document number: 6929260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151