JP7164060B1

JP7164060B1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7164060B1
Application number: JP2022025592A
Authority: JP
Inventors: 達矢増田; 直人石橋
Original assignee: Fuji Electric Co Ltd
Current assignee: Fuji Electric Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-11-01
Anticipated expiration: 2042-02-22
Also published as: JP2023122124A

Abstract

【課題】複数の時系列データを、容易に精度良くクラスタに分割することができる情報処理装置を提供する。【解決手段】所定のセンサから出力されるｎ個（ｎは２以上の自然数）の時系列データを取得する取得部と、前記ｎ個の時系列データのうちの２個の時系列データの間の類似度を示す指標を成分とし、前記ｎ個と同じ数の行及び列を有する行列を計算する第１計算部と、前記行列に対して固有値分解を行った結果に基づいて、前記ｎ個の時系列データの夫々に対応し、ｍ個（ｍは自然数）の特徴を示す特徴量データを計算する第２計算部と、前記ｎ個の時系列データの夫々に対応する前記特徴量データをクラスタに分割する分割部と、を備える情報処理装置。【選択図】図９

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

近年、工場の設備等に設置されたセンサから出力されるデータを複数収集し、例えば機械学習を用いて、設備等の予測モデルの構築が行われている。

また、例えば特許文献１には、収集した複数のデータを、データ間の類似度に基づいて複数のクラスタに分割し、クラスタ毎に予測モデルを構築する技術が開示されている。

特許６６３７２０６号

ところで、特許文献１の技術は、複数の時系列データ（所定の期間における対象の状態の時間的な変化を示すデータ）をクラスタに分割する技術ではないが、複数の時系列データをクラスタに分割する技術としては、例えば時系列ｋ－ｍｅａｎｓ等が知られている。

しかしながら、一般的に時系列ｋ－ｍｅａｎｓ等の所謂時系列クラスタリングは、比較的高い精度で複数の時系列データをクラスタに分割できるものの、処理が複雑であるため、計算量が多くなる場合がある。

本発明はこのような課題を鑑みてなされたものであり、複数の時系列データを、容易に精度良くクラスタに分割することが可能な情報処理装置を提供することを目的とする。

上記目的を達成するための一の発明は、所定のセンサから出力されるｎ個（ｎは２以上の自然数）の時系列データを取得する取得部と、前記ｎ個の時系列データのうちの２個の時系列データの間の類似度を示す指標を成分とし、前記ｎ個と同じ数の行及び列を有する行列を計算する第１計算部と、前記行列に対して固有値分解を行った結果に基づいて、前記ｎ個の時系列データの夫々に対応し、ｍ個（ｍは自然数）の特徴を示す特徴量データを計算する第２計算部と、前記ｎ個の時系列データの夫々に対応する前記特徴量データをクラスタに分割する分割部と、を備える情報処理装置情報処理装置である。本発明の他の特徴については、本明細書の記載により明らかにする。

本発明によれば、複数の時系列データを、容易に精度良くクラスタに分割することが可能となる。

実施形態の情報処理装置１のハードウェア構成を説明する図である。実施形態の時系列データの一例を説明する図である。実施形態の時系列データの波形の一例を示す図である。実施形態の情報処理装置１の機能ブロックを説明する図である。実施形態の情報処理装置１が各種グラフを表示するまでの処理を説明するフローチャートである。実施形態の情報処理装置１による計算の過程を説明する図である。バッチプロセス毎の時系列データの波形を説明する図である。特徴量データの散布図の一例である。特徴量データを分割した結果の一例を示す図である。第１表示部１１５によって表示されるグラフの一例を示す図である。第１表示部１１５によって表示されるグラフの一例を示す図である。第３表示部１１８によって表示されるグラフの一例を示す図である。

＝＝実施形態＝＝
＜＜情報処理装置＞＞
情報処理装置１は、複数の時系列データを、データ間の類似度に基づいてクラスタに分割するための装置である。以下、情報処理装置１のハードウェア構成、情報処理装置１が扱う時系列データ及び情報処理装置１の機能ブロックの順に説明する。

＜情報処理装置１のハードウェア構成＞
図１は、本発明の一実施形態である情報処理装置１のハードウェア構成を説明する図である。

本実施形態では、情報処理装置１は、サーバ室に設置されている。また、情報処理装置１は、工場に設置された対象装置２と、ネットワークＮＷを介して接続されている。対象装置２には、センサ２０が設置され、情報処理装置１は、ネットワークＮＷを介してセンサ２０の計測値を取得することができる。

対象装置２は、例えば、その運転についての予測モデルを構築する対象となる装置である。対象装置２の具体例としてはモータが挙げられる。センサ２０は、例えば、温度センサ、圧力センサ、振動センサ等が挙げられるが、対象装置２の状態を監視するためのセンサでれば特に制限はない。なお、図１の例では１つのセンサ２０が示されているが、複数の異なる種類のセンサが対象装置２に設置されていてもよい。

情報処理装置１は、ＣＰＵ（Central Processing Unit）１００と、メモリ１０１と、通信装置１０２と、記憶装置１０３と、入力装置１０４と、出力装置１０５と、記録媒体読取装置１０６とを有するコンピュータである。

［ＣＰＵ１００］
ＣＰＵ１００は、メモリ１０１や記憶装置１０３に記憶された情報処理プログラムを実行することにより、情報処理装置１が有する様々な機能を実現する。

［メモリ１０１］
メモリ１０１は、例えばＲＡＭ（Random-Access Memory）等であり、様々なプログラムやデータ等の一時的な記憶領域として用いられる。

［記憶装置１０３］
記憶装置１０３は、ＣＰＵ１００によって、実行または処理される各種データを格納する非一時的な（例えば不揮発性の）記憶装置１０３である。

記憶装置１０３には、複数の時系列データが記憶されている。複数の時系列データは、対象装置２に設置されたセンサ２０によって計測されたデータである。時系列データの詳細は後述する。

［入力装置１０４］
入力装置１０４は、ユーザによるコマンドやデータの入力を受け付ける装置であり、キーボード、タッチパネルディスプレイ上でのタッチ位置を検出するタッチセンサなどの入力インタフェースを含む。

［出力装置１０５］
出力装置１０５は、例えばディスプレイやプリンタなどの装置である。

［通信装置１０２］
通信装置１０２は、ネットワークＮＷを介して、他のコンピュータと各種プログラムやデータの受け渡しを行ったり、各種装置と出力データの受け渡しを行ったりする。

［記録媒体読取装置１０６］
記録媒体読取装置１０６は、ＳＤカードやＤＶＤ、ＣＤＲＯＭ等の記録媒体３に記録された情報処理プログラム等の様々なデータを読み取り、記憶装置１０３に格納する。

＜時系列データ＞
時系列データは、所定の期間における対象装置２の状態の時間的な変化を示すデータである。

本明細書では、「所定の期間」とは、対象装置２が実行する１回の工程の、開始から終了までの期間である。なお、対象装置２が実行する１回の工程を「バッチプロセス」とも称する。

また、「対象装置２の状態」とは、対象装置２に設置されたセンサ２０の計測値とする。また、「対象装置２の状態の時間的な変化を示すデータ」とは、複数の時刻におけるセンサ２０の計測値のセットとする。

つまり、本明細書では、一の時系列データは、一のバッチプロセスの開始から終了までの期間内の複数の時刻におけるセンサの計測値のセットである。

図２は、上述した記憶装置１０３に記憶された複数の時系列データを説明する図である。一行目の「Ｎｏ．」は、バッチプロセスを識別するための識別子である。なお、バッチプロセスを識別するための識別子は、時系列データを識別するための識別子でもある。

また、一行目の「Ｔｉｍｅ１」～「ＴｉｍｅＮ」は、バッチプロセスの開始からの経過時間である。センサ２０は、「Ｔｉｍｅ１」～「ＴｉｍｅＮ」の夫々の時間において計測値を出力する。

図２において、各行には、互いに異なるｎ回のバッチプロセス（Ｂａｔｃｈ１～Ｂａｔｃｈｎ）の夫々に対応する時系列データが示されている。つまり、図２には、ｎ個の時系列データが示されている。ここで、ｎは２以上の自然数である。

ｎ個の時系列データの夫々は、時間Ｔｉｍｅ１、Ｔｉｍｅ２、・・・、ＴｉｍｅＮにおけるセンサ２０の計測値で構成されるデータである。

図３は、時系列データの波形の一例を示す図である。図３は、横軸をバッチプロセスの開始からの経過時間ｔ、縦軸をセンサ２０の計測値（例えば、センサ２０が圧力センサの場合は圧力）として、図２のｎ個の時系列データのうち、一の時系列データをプロットしたものである。

なお、図３において、縦軸（センサ２０の出力値）の上方向は正であり、縦軸の０は、横軸との交点よりも上方に位置する。そのため、図２において時間Ｔｉｍｅ１、Ｔｉｍｅ２及びＴｉｍｅＮでは負の値であるが、ここで省略されている時間（時間Ｔｉｍｅ１、Ｔｉｍｅ２及びＴｉｍｅＮ以外の時間）では正の値も取り得る。

ところで、複数の時系列データをクラスタに分割する手法として、時系列ｋ－ｍｅａｎｓ等の時系列クラスタリングの手法が知られている。時系列クラスタリングにおいては、一の時系列データを、各時間におけるセンサ２０の計測値を成分とする一のベクトルとして、複数のベクトルをクラスタに分割する。

しかしながら、ベクトルの次元の数（本実施形態の場合、Ｎがベクトルの次元数となる）によっては、時系列クラスタリングは計算量が多大になる。

情報処理装置１は、以下に説明するように、このような複数の時系列データであっても、容易に精度良くクラスタに分割することを可能とする装置である。

＜情報処理装置１の機能ブロック＞
図４は、情報処理装置１の機能ブロックを説明する図である。取得部１１０と、第１計算部１１１と、第２計算部１１２と、分割部１１３と、第３計算部１１４と、第１表示部１１５と、第２表示部１１６と、データ作成部１１７と、第３表示部１１８とを含む。これらの各機能は、情報処理装置１のハードウェアによって本実施形態に係る情報処理プログラムが実行されることにより実現される。

［取得部１１０］
取得部１１０は、所定のセンサ２０から出力される複数個の時系列データを取得する。以下、取得部１１０が取得する時系列データの数をｎ個（ｎは２以上の自然数）として説明する。

本実施形態では、ｎ個の時系列データは、ネットワークＮＷを介してセンサ２０から情報処理装置１に受け渡され、記憶装置１０３に記憶されている。取得部１１０は、記憶装置１０３から、ｎ個の時系列データを取得する。

［第１計算部１１１］
第１計算部１１１は、取得部１１０が取得したｎ個の時系列データの間の距離に基づく行列を計算する。なお、以下の説明では、時系列データ間の距離に基づく行列を「距離行列」と称することがある。

本実施形態では、第１計算部１１１は、時系列データ間の距離として、動的時間伸縮法で定義される距離を計算する。従って、本実施形態では、距離行列は、動的時間伸縮法によって定義された距離を成分とする行列である。

なお、第１計算部１１１によって計算される行列としては、この例に限られず、類似度を示す指標に基づく行列であればよい。

ここで、「類似度を示す指標」としては、例えば、余弦類似度、相関係数、各種定義されたデータ間の距離等が挙げられる。データ間の距離としては、上記の例以外に、例えば、ユークリッド距離、マンハッタン距離、動的時間伸縮法によって定義された距離等が挙げられる。

つまり、類似度を示す指標としては、２個のデータが一致する場合に値が最大となる指標であってもよく、２個のデータが一致する場合に値が最小となる指標であってもよい。

例えば、余弦類似度及び相関係数は、２つのデータが一致する場合に値が＋１で最大となる指標である。一方、各種定義されたデータ間の距離は、２つのデータが一致する場合に値が最小で０となる指標である。

なお、上述のような既存の類似度を示す指標に対して、その値域を変動させる変換を施すことにより、新たな類似度を示す指標として定義してもよい。

例えば、余弦類似度の値域は－１以上＋１以下であり、２つのデータが一致する場合に＋１（最大）となる。これに対し、余弦類似度に－１を乗じ、更に＋１を加えたものを、類似度を示す指標として用いてもよい。このように定義された指標の値域は、０以上＋２以下であり、２つのデータが一致する場合に値が０（最小）となる。

また、詳細は後述するが、「類似度を示す指標に基づく行列」とは、ｎ個の時系列データのうちの２個の時系列データの間の類似度を示す指標を成分とする行列である。この行列は、ｎ個と同じ数の行及び列を有する行列である。

［第２計算部１１２］
第２計算部１１２は、上述の距離行列に対して固有値分解を行った結果に基づいて、特徴量データを計算する。具体的には、第２計算部１１２は、多次元尺度構成法を用いて特徴量データを計算する。

ここで、「固有値分解」とは、解析の対象となる行列に対する固有値方程式から固有値を求め、固有値の夫々に対応する固有ベクトルを求める手法である。

また、「多次元尺度構成法」とは、類似度に基づく行列が距離行列である場合に固有値分解を用いる手法である。多次元尺度構成法は、複数のデータのうち任意の２つのデータ間の距離が与えられた場合に、距離が近い２つのデータは互いに近く、距離が遠い２つのデータは互いに遠く配置されるようなデータの座標を求める方法である。

ここで、得られる特徴量データの数は、時系列データの数と同じであるｎ個であり、ｎ個の特徴量データの夫々は、ｎ個の時系列データの夫々に対応する。

また、詳細は後述するが、特徴量データの夫々は、ｍ個（ｍは自然数）の特徴を示すデータである。ここでのｍ個は、多次元尺度構成法において、１個から最大でｎ個（時系列データの数）までの何れかを選択することができる。

［分割部１１３］
分割部１１３は、ｎ個の時系列データの夫々に対応する特徴量データをクラスタに分割する。

つまり、分割部１１３は、ｎ個の特徴量データをクラスタに分割するのであって、ｎ個の時系列データをクラスタに分割するのではない。そのため、情報処理装置１によれば、時系列クラスタリングのような計算量が多大になるアプローチを回避することができる。

特徴量データの夫々は、ｍ個の特徴を示すデータであるため、ｍ個の成分を有する。従って、分割部１１３は、特徴を示すｍ次元の空間（以下、「特徴量空間）と称する）において、ｎ個の特徴量データをクラスタに分割する。

本実施形態では、分割部１１３は、混合ガウスモデルを用いて、特徴量データをクラスタに分割する。

なお、クラスタに分割する手法としては、混合ガウスモデルを用いた手法に限られず、複数の手法から選択することができる。クラスタに分割する手法は、予めクラスタの数を仮定する手法であってもよく、予めクラスタの数を仮定しない（クラスタの数を自動的に推定する）手法であってもよい。

予めクラスタの数を仮定する手法としては、例えば、ｋ－ｍｅａｎｓ、スペクトラル・クラスタリング等を選択することができる。予めクラスタの数を仮定しない手法としては、例えば、混合ガウスモデル、ｘ－ｍｅａｎｓ、ＤＢＳＣＡＮ（Density-based spatial clustering of applications with noise）等を選択することができる。

［第３計算部１１４］
第３計算部１１４は、分割された一のクラスタに属する特徴量データのｍ個の特徴のうち、少なくとも１個の特徴に対する所定の統計量を計算する。

ここで、「所定の統計量」とは、後述する第１表示部１１５によって表示されるグラフの元となる統計量であって、例えば、特徴量データの、各特徴についての分布を示す統計量である。分布を示す統計量としては、例えば、ヒストグラム、カーネル密度推定による確率密度等である（詳細は後述）。

［データ作成部１１７］
データ作成部１１７は、ｎ個の時系列データの夫々に対し、ｎ個の時系列データの夫々に対応するクラスタを示すラベルが紐づけられたデータを作成する。

前述のように、ｎ個の特徴量データが、分割部１１３によってクラスタに分割される。このとき、クラスタの夫々には、夫々を示すラベルが付与される。これによって、ｎ個の特徴量データの夫々は、分類されるクラスタに付与されたラベルが紐づけられることになる。

更に、ｎ個の特徴量データの夫々に紐づけられたラベルは、ｎ個の特徴量データの夫々に対応するｎ個の時系列データの夫々にも紐づけられる。

［第１表示部１１５］
第１表示部１１５は、少なくとも１個の特徴と、所定の統計量との関係を示すグラフ（第１グラフに相当）を表示する。ここでの所定の統計量とは、第３計算部１１４によって計算された統計量である。

第１表示部１１５は、ここでのグラフとして、ヒストグラムと、カーネル密度推定による確率密度を示すグラフとのうち少なくとも一を表示する。

［第２表示部１１６］
第２表示部１１６は、ｍ個の特徴を示す特徴量データの散布図と、分割部１１３が分割したクラスタの重心の散布図とのうち少なくとも一を示すグラフ（第２グラフに相当）を表示する。

［第３表示部１１８］
第３表示部１１８は、一のクラスタを示すラベルが紐づけられたデータに基づく時系列データの波形を示すグラフ（第３グラフに相当）を表示する。

＜グラフを表示するまでの処理＞
情報処理装置１の処理の流れについて、具体例を示しながら詳細に説明する。図５は、情報処理装置１がグラフを表示するまでの処理の流れを説明するフローチャートである。グラフを表示するまでの処理は、ステップＳ１０１～ステップＳ１０９を含んでいる。図６は、情報処理装置１による計算の過程を説明する図である。

なお、以下の説明では、上述した時系列データの数（ｎ）を５００とする。また、特徴量データの夫々の成分である特徴の数（ｍ）を２とする。また、１回のバッチプロセスにおいてセンサ２０が計測値を出力する回数であって、一の時系列データに含まれる計測値の数（Ｎ）を１００とする。

先ず、ステップＳ１０１において、取得部１１０は、図６（ａ）及び図７に示す、センサ２０から出力される５００個の時系列データを取得する。

図６（ａ）には、取得部１１０が取得した５００個の時系列データＤｔが、バッチプロセス（Ｂａｔｃｈ１～Ｂａｔｃｈ５００）毎に各行に示されている。

図７は、図６（ａ）に示されたバッチプロセス（Ｂａｔｃｈ１～Ｂａｔｃｈ５００）毎の時系列データＤｔの波形を説明する図であって、一部のバッチプロセスについて示している。

なお、図７において、縦軸（センサ２０の出力値）の上方向は正であり、縦軸の０は、横軸との交点よりも上方に位置する。そのため、図６（ａ）において時間Ｔｉｍｅ１、Ｔｉｍｅ２及びＴｉｍｅ５００では負の値であるが、ここで省略されている時間（時間Ｔｉｍｅ１、Ｔｉｍｅ２及びＴｉｍｅ５００以外の時間）では正の値も取り得る。

次いで、ステップＳ１０２において、第１計算部１１１は、ステップＳ１０１において取得部１１０が取得した５００個の時系列データＤｔの間の類似度を示す指標に基づく行列（本実施形態では、距離行列）を計算する。

図６（ｂ）には、第１計算部１１１が計算した距離行列Ｍｄが示されている。ここで、ｉ行ｊ列のセルには、距離行列Ｍｄのｉ行ｊ列の成分が示されている（１≦ｉ≦５００，１≦ｊ≦５００）。なお、ここでの距離行列Ｍｄは、５００行５００列の正方行列であり、対角成分は全て０である。

例えば、１行１列のセルには距離行列Ｍｄの１行１列の成分が示され、値は０．００である。距離行列Ｍｄの１行１列の成分は、Ｂａｔｃｈ１に対応する時系列データＤｔと、Ｂａｔｃｈ１に対応する時系列データＤｔ（つまり、いずれもＢａｔｃｈ１に対応する時系列データＤｔ）との間の距離である。また、１行２列のセルには距離行列Ｍｄの１行２列の成分が示され、値は３．２７３である。距離行列Ｍｄの１行２列の成分は、Ｂａｔｃｈ１に対応する時系列データＤｔと、Ｂａｔｃｈ２に対応する時系列データＤｔとの間の距離である。

本実施形態では、距離行列Ｍｄの各成分は、動的時間伸縮法で定義される距離である。つまり、距離行列Ｍｄのｉ行ｊ列の成分は、５００個の時系列データＤｔのうち、Ｂａｔｃｈｉに対応する時系列データＤｔと、Ｂａｔｃｈｊに対応する時系列データＤｔとの間の、動的時間伸縮法で定義される距離である（１≦ｉ≦５００，１≦ｊ≦５００）。

次いで、ステップＳ１０３において、第２計算部１１２は、ステップＳ１０２において第１計算部１１１が計算した距離行列Ｍｄに対して固有値分解を行った結果に基づいて、２個の特徴（特徴Ｘ０及び特徴Ｘ１）を示す特徴量データを計算する（図６（ｃ）参照）。

特徴量データの夫々は、本実施形態では２個の特徴を示すデータとしたが、一般にｍ個（ｍは自然数）の特徴を示すデータである。ｍ個の値としては、好ましくは２個又は３個である。詳細は後述するが、ｍ個が２個又は３個であると、特徴量データを、現実的な２次元又は３次元の空間における散布図として表現することができるため、データ間の距離又は類似度を視覚的に理解しやすくなる。

図６（ｃ）は、第２計算部１１２が計算した特徴量データＤｆが示されている。特徴量データＤｆの夫々は、２個の特徴（特徴Ｘ０及び特徴Ｘ１）を示すデータである。

具体的には、例えば、１番目のバッチプロセス（Ｂａｔｃｈ１）に対応する特徴量データＤｆの特徴Ｘ０の値は０．７９５であり、特徴Ｘ１の値は－０．１５５である。

図８は、図６（ｃ）に示した５００個の特徴量データＤｆの散布図である。図８は、横軸を特徴Ｘ０、縦軸を特徴Ｘ１とした２次元の特徴量空間における５００個の特徴量データＤｆの散布図である。

なお、図８の散布図から、５００個の特徴量データＤｆが、概ね３個のクラスタに分割されることが視覚的に容易に予測される。

次いで、ステップＳ１０４において、分割部１１３は、図９に示すように、ステップＳ１０３において第２計算部１１２が計算した特徴量データＤｆを、クラスタに分割する。本実施形態では、分割部１１３は、混合ガウスモデルを用いて、５００個の特徴量データＤｆをクラスタに分割する。

図９は、５００個の特徴量データＤｆを分割した結果を示す図である。図９は、図８と同様の特徴量空間において示されている。

この例では、５００個の特徴量データＤｆは、３個のクラスタに分割されている。また、分割された３個のクラスタの夫々は、クラスタＩＤ（０、１又は２）で識別されている。クラスタＩＤが０、１及び２のクラスタに分類された特徴量データＤｆは夫々、丸、三角及び四角のマーカーで示されている。

次いで、ステップＳ１０５において、第３計算部１１４は、ステップＳ１０４において分割部１１３が分割したクラスタに属する特徴量データＤｆの特徴に対する所定の統計量を計算する。

ここでの所定の統計量とは、特徴量データＤｆの２個の特徴（特徴Ｘ０及び特徴Ｘ１）についての分布を示す統計量である。この例では、分布を示す統計量としては、ヒストグラム及びカーネル密度推定による確率密度である。

次いで、ステップＳ１０６において、データ作成部１１７は、図６（ｅ）に示すように、５００個の時系列データＤｔの夫々に対し、５００個の時系列データＤｔの夫々に対応するクラスタを示すラベルが紐づけられたデータを作成する。

このステップにおいて、データ作成部１１７は、先ず、図６（ｄ）に示すように、５００個の特徴量データＤｆの夫々に対し、夫々に対応するクラスタを示すラベルが紐づけられたデータを作成する。

図６（ｄ）は、５００個の特徴量データＤｆの夫々に対し、夫々に対応するクラスタを示すラベル（Ｌａｂｅｌ）が紐づけられたデータを示している。ここでのクラスタを示すラベルとは、図９に示したクラスタＩＤを示す値であり、０、１又は２にいずれかである。

具体的には、１番目のバッチプロセス（Ｂａｔｃｈ１）に対応する特徴量データＤｆは、クラスタＩＤが１で識別されるクラスタに分類されていることから、クラスタを示すラベルとして１が紐付けられている。同様に、２番目のバッチプロセス（Ｂａｔｃｈ２）に対応する特徴量データＤｆは、クラスタを示すラベルとして２が紐付けられている。

データ作成部１１７は、次いで、５００個の時系列データＤｔの夫々に対し、夫々に対応する特徴量データＤｆに紐づけられたラベル（図６（ｄ））と同じラベルが紐づけられたデータを作成する。

図６（ｅ）は、５００個の時系列データＤｔの夫々に対し、夫々に対応するクラスタを示すラベルが紐づけられたデータを示している。

具体的には、例えば図６（ｄ）に示すように、１番目のバッチプロセス（Ｂａｔｃｈ１）に対応する時系列データＤｔは、対応する特徴量データＤｆが、クラスタＩＤが１で識別されるクラスタに分類されていることから、クラスタを示すラベルとして１が紐付けられている。同様に、２番目のバッチプロセス（Ｂａｔｃｈ２）に対応する時系列データＤｔは、クラスタを示すラベルとして２が紐付けられている。

次いで、ステップＳ１０７において、第１表示部１１５は、図１０に示すように、特徴（特徴Ｘ０及び特徴Ｘ１）と、所定の統計量との関係を示すグラフＧ１を表示する。ここでの所定の統計量とは、ステップＳ１０５において、第３計算部１１４によって計算された統計量である。

グラフＧ１は、４個のグラフ（グラフＧ１ａ、グラフＧ１ｂ、グラフＧ１ｃ及び、グラフＧ１ｄ）を含んでいる。

なお、グラフＧ１ａ及びグラフＧ１ｃにおいて、クラスタＩＤが０のデータには符号Ｃ０を付し、クラスタＩＤが１のデータには符号Ｃ１を付し、クラスタＩＤが２のデータには符号Ｃ２を付して示している。また、グラフＧ１ｂ及びグラフＧ１ｄにおいて、クラスタＩＤが０のデータは実線で示し、クラスタＩＤが１のデータは点線で示し、クラスタＩＤが２のデータは一点鎖線で示している。

グラフＧ１ａは、５００個の特徴量データＤｆの散布図であって、横軸を特徴Ｘ０、縦軸を特徴Ｘ１として示したグラフである。つまり、グラフＧ１ａは、図８の散布図と同一のグラフである。

グラフＧ１ｂは、５００個の特徴量データＤｆの、特徴Ｘ０についてのヒストグラムである。グラフＧ１ｂの横軸は、グラフＧ１ａの横軸と同様に特徴Ｘ０である。グラフＧ１ｂの縦軸は、特徴Ｘ０の値の所定の区間に属する特徴量データＤｆの数であって、クラスタ毎に示している。

グラフＧ１ｃは、５００個の特徴量データＤｆの散布図であって、横軸を特徴Ｘ１、縦軸を特徴Ｘ０として示したグラフである。つまり、グラフＧ１ｃは、グラフＧ１ａの縦軸と横軸を入れ替えて表示したグラフである。

グラフＧ１ｄは、５００個の特徴量データＤｆの、特徴Ｘ１についてのヒストグラムである。グラフＧ１ｄの横軸は、グラフＧ１ｃの横軸と同様に特徴Ｘ１である。グラフＧ１ｄの縦軸は、特徴Ｘ１の値の所定の区間に属する特徴量データＤｆの数であって、クラスタ毎に示している。

また、図１１は、このステップＳ１０７において第１表示部１１５によって更に表示されるグラフＧ２である。グラフＧ２は、４個のグラフ（グラフＧ２ａ、グラフＧ２ｂ、グラフＧ２ｃ及び、グラフＧ２ｄ）を含んでいる。

なお、図１０と同様に、グラフＧ２ａ及びグラフＧ２ｃにおいて、クラスタＩＤが０のデータには符号Ｃ０を付し、クラスタＩＤが１のデータには符号Ｃ１を付し、クラスタＩＤが２のデータには符号Ｃ２を付して示している。また、グラフＧ２ｂ及びグラフＧ２ｄにおいて、クラスタＩＤが０のデータは実線で示し、クラスタＩＤが１のデータは点線で示し、クラスタＩＤが２のデータは一点鎖線で示している。

グラフＧ２ａ及びグラフＧ２ｃは夫々、図１０に示したグラフＧ１ａ及びグラフＧ１ｃと同一のグラフである。

グラフＧ２ｃ及びグラフＧ２ｄは夫々、図１０に示したグラフＧ１ｃ及びグラフＧ１ｄに対し、ヒストグラムに代えてカーネル密度推定の結果としたグラフである。

次いで、ステップＳ１０８において、第２表示部１１６は、図９又は図１０に示すように、２個の特徴を示す特徴量データＤｆの散布図と、分割部１１３が分割したクラスタの重心の散布図とを示すグラフを表示する。

２個の特徴を示す特徴量データＤｆの散布図を示すグラフは、図９、図１０のＧ１ａ、Ｇ１ｃ、図１１のＧ２ａ、Ｇ２ｃに示したグラフである。クラスタの重心の散布図は、前述の２個の特徴を示す特徴量データＤｆの散布図と共に、クラスタＩＤが０、１及び２のクラスタの夫々の重心に対応する位置に、夫々の重心を示すマーカーを配置したグラフとすればよい。

次いで、ステップＳ１０９において、第３表示部１１８は、図１２に示すように、一のクラスタを示すラベルが紐づけられたデータに基づく時系列データＤｔの波形を示すグラフＧ３を表示する。

図１２は、このステップにおいて第３表示部１１８によって更に表示されるグラフＧ３である。グラフＧ３は、３個のグラフ（グラフＧ３ａ、グラフＧ３ｂ及びグラフＧ３ｃ）を含んでいる。

グラフＧ３ａ、グラフＧ３ｂ及びグラフＧ３ｃは夫々、クラスタを示すラベルが０、１及び２のクラスタに分類された時系列データＤｔのうち、最も典型的なものとして選択された時系列データＤｔの波形を示す図である。

ここで、最も典型的なものとして選択された時系列データＤｔとしては、クラスタ示すラベルが０、１及び２のクラスタ夫々の重心に最も距離が近い時系列データＤｔを選択すればよい。

なお、例えばグラフＧ３ａの他の例として、クラスタ示すラベルが０のクラスタに分類された時系列データＤｔの一部又は全部を選択し、選択された全ての時系列データＤｔの波形を示してもよい。時系列データＤｔの一部を選択する場合には、クラスタ示すラベルが０のクラスタの重心から所定の距離以内である時系列データＤｔを選択してもよい。グラフＧ３ｂ及びグラフＧ３ｃについても同様である。

また、グラフＧ３では、クラスタ毎に異なるグラフ（グラフＧ３ａ、グラフＧ３ｂ及びグラフＧ３ｃ）に時系列データＤｔの波形を示したが、これに限られない。他の例として、クラスタ示すラベルが０、１及び２の夫々に分類される時系列データＤｔの波形を、一のグラフ内に全て示してもよい。

この場合、クラスタ毎に時系列データＤｔの波形を表示する態様（波形の曲線の種類、太さ、色等）を変えて示してもよい。

以上説明した情報処理装置１の処理によれば、複数の時系列データを、容易に精度良くクラスタに分割することが可能となる。

＝＝まとめ＝＝
以上、実施形態の情報処理装置１は、所定のセンサ２０から出力されるｎ個（ｎは２以上の自然数）の時系列データＤｔを取得する取得部１１０と、ｎ個の時系列データＤｔのうちの２個の時系列データＤｔの間の類似度を示す指標を成分とし、ｎ個と同じ数の行及び列を有する行列を計算する第１計算部１１１と、行列に対して固有値分解を行った結果に基づいて、ｎ個の時系列データＤｔの夫々に対応し、ｍ個（ｍは自然数）の特徴を示す特徴量データＤｆを計算する第２計算部１１２と、ｎ個の時系列データＤｔの夫々に対応する前記特徴量データＤｆをクラスタに分割する分割部１１３と、を備える。

このような構成によれば、ｎ個の時系列データＤｔをクラスタに分割する際に、類似度を示す指標を成分とする行列に固有値分解が施し、ｎ個の時系列データＤｔと対応関係にあるｎ個の特徴量データＤｆが得られる。そして、ｎ個の特徴量データＤｆがクラスタに分割される。これらによって、時系列クラスタリングといった手法を用いることを必要とせずに、時系列データＤｔをクラスタに分割することができる。従って、情報処理装置１によれば、複数の時系列データＤｔを、容易に精度良くクラスタに分割することができる。

また、実施形態の情報処理装置１は、分割された一のクラスタに属する特徴量データＤｆのｍ個の特徴のうち、少なくとも１個の特徴に対する所定の統計量を計算する第３計算部１１４と、少なくとも１個の特徴と、所定の統計量との関係を示す第１グラフを表示する第１表示部１１５と、を更に備える。このような構成によれば、ｎ個の時系列データＤｔの間の類似度又は距離を視覚的に容易に把握することができる。

また、実施形態の情報処理装置１において、第１表示部１１５は、第１グラフとして、ヒストグラムと、カーネル密度推定による確率密度を示すグラフとのうち少なくとも一を表示する。このような構成によれば、ｎ個の時系列データＤｔの間の類似度又は距離を視覚的に更に容易に把握することができる。

また、実施形態の情報処理装置１は、ｍ個の特徴を示す特徴量データＤｆの散布図と、分割部１１３が分割したクラスタの重心の散布図とのうち少なくとも一を第２グラフとして表示する第２表示部１１６を更に備える。このような構成によれば、分割されたクラスタの間の類似度又は距離を視覚的に容易に把握することができる。

また、実施形態の情報処理装置１において、ｍ個は、２個又は３個である。このような構成によれば、現実的な２次元又は３次元の空間において特徴量データＤｆを表現することができるため、時系列データＤｔ間の類似度を視覚的に理解しやすくなる。

また、実施形態の情報処理装置１は、ｎ個の時系列データＤｔの夫々に対し、ｎ個の時系列データＤｔの夫々に対応するクラスタを示すラベルが紐づけられたデータを作成するデータ作成部１１７を更に備える。このような構成によれば、直接的な計測データであるｎ個の時系列データＤｔの夫々が、いずれのクラスタに分類されたかを把握することができる。

また、実施形態の情報処理装置１は、一のクラスタを示すラベルが紐づけられたデータに基づく時系列データＤｔの波形を示す第３グラフを表示する第３表示部１１８を更に備える。このような構成によれば、クラスタ毎の時系列データＤｔの波形の特徴を視覚的に理解することができる。

また、実施形態の情報処理装置１において、第１計算部１１１は、類似度を示す指標として、動的時間伸縮法で定義される距離を計算する。このような構成によれば、バッチプロセスの開始時から終了時までの時間がバッチプロセスによってばらついても、精度良く時系列データＤｔ間の距離を計算することができる。

実施形態の情報処理方法は、所定のセンサ２０から出力されるｎ個の時系列データＤｔを取得するステップと、ｎ個の時系列データＤｔのうちの２個の時系列データＤｔの間の類似度を示す指標を成分とし、ｎ個と同じ数の行及び列を有する行列を計算するステップと、行列に対して固有値分解を行った結果に基づいて、ｎ個の時系列データＤｔの夫々に対応し、ｍ個の特徴を示す特徴量データＤｆを計算するステップと、ｎ個の時系列データＤｔの夫々に対応する特徴量データＤｆをクラスタに分割するステップと、を含む。

このような方法によれば、ｎ個の時系列データＤｔをクラスタに分割する際に、類似度を示す指標を成分とする行列に固有値分解が施し、ｎ個の時系列データＤｔと対応関係にあるｎ個の特徴量データＤｆが得られる。そして、ｎ個の特徴量データＤｆがクラスタに分割される。これらによって、時系列クラスタリングといった手法を用いることを必要とせずに、時系列データＤｔをクラスタに分割することができる。従って、実施形態の情報処理方法によれば、複数の時系列データＤｔを、容易に精度良くクラスタに分割することができる。

実施形態の情報処理プログラムは、コンピュータに、所定のセンサ２０から出力されるｎ個の時系列データＤｔを取得する取得部１１０と、ｎ個の時系列データＤｔのうちの２個の時系列データＤｔの間の類似度を示す指標を成分とし、ｎ個と同じ数の行及び列を有する行列を計算する第１計算部１１１と、行列に対して固有値分解を行った結果に基づいて、ｎ個の時系列データＤｔの夫々に対応し、ｍ個の特徴を示す特徴量データＤｆを計算する第２計算部１１２と、ｎ個の時系列データＤｔの夫々に対応する特徴量データＤｆをクラスタに分割する分割部１１３と、を実現させる。

このようなプログラムによれば、ｎ個の時系列データＤｔをクラスタに分割する際に、類似度を示す指標を成分とする行列に固有値分解が施し、ｎ個の時系列データＤｔと対応関係にあるｎ個の特徴量データＤｆが得られる。そして、ｎ個の特徴量データＤｆがクラスタに分割される。これらによって、時系列クラスタリングといった手法を用いることを必要とせずに、時系列データＤｔをクラスタに分割することができる。従って、実施形態の情報処理プログラムによれば、複数の時系列データＤｔを、容易に精度良くクラスタに分割することができる。

１：情報処理装置
１００：ＣＰＵ
１０１：メモリ
１０２：通信装置
１０３：記憶装置
１０４：入力装置
１０５：出力装置
１０６：記録媒体読取装置
１１０：取得部
１１１：第１計算部
１１２：第２計算部
１１３：分割部
１１４：第３計算部
１１５：第１表示部
１１６：第２表示部
１１７：データ作成部
１１８：第３表示部
２：対象装置
２０：センサ

Claims

所定のセンサから出力されるｎ個（ｎは２以上の自然数）の時系列データを取得する取得部と、
前記ｎ個の時系列データのうちの２個の時系列データの間の類似度を示す指標を成分とし、前記ｎ個と同じ数の行及び列を有する行列を計算する第１計算部と、
前記行列に対して固有値分解を行った結果に基づいて、前記ｎ個の時系列データの夫々に対応し、ｍ個（ｍは自然数）の特徴を示す特徴量データを計算する第２計算部と、
前記ｎ個の時系列データの夫々に対応する前記特徴量データをクラスタに分割する分割部と、
を備える情報処理装置。
請求項１に記載の情報処理装置であって、
分割された一のクラスタに属する前記特徴量データの前記ｍ個の特徴のうち、少なくとも１個の特徴に対する所定の統計量を計算する第３計算部と、
前記少なくとも１個の特徴と、前記所定の統計量との関係を示す第１グラフを表示する第１表示部と、を更に備える、
情報処理装置。
請求項２に記載の情報処理装置であって、
前記第１表示部は、前記第１グラフとして、ヒストグラムと、カーネル密度推定による確率密度を示すグラフとのうち少なくとも一を表示する、
情報処理装置。
請求項１に記載の情報処理装置であって、
前記ｍ個の特徴を示す前記特徴量データの散布図と、前記分割部が分割したクラスタの重心の散布図とのうち少なくとも一を第２グラフとして表示する第２表示部を更に備える、
情報処理装置。
請求項１～４のいずれか１項に記載の情報処理装置であって、
前記ｍ個は、２個又は３個である、
情報処理装置。
請求項１に記載の情報処理装置であって、
前記ｎ個の時系列データの夫々に対し、前記ｎ個の時系列データの夫々に対応するクラスタを示すラベルが紐づけられたデータを作成するデータ作成部を更に備える、
情報処理装置。
請求項６に記載の情報処理装置であって、
一のクラスタを示すラベルが紐づけられたデータに基づく時系列波形を示す第３グラフを表示する第３表示部を更に備える、
情報処理装置。
請求項１～７の何れか１項に記載の情報処理装置であって、
前記第１計算部は、前記類似度を示す指標として、動的時間伸縮法で定義される距離を計算する、
情報処理装置。
情報処理装置が、
所定のセンサから出力されるｎ個の時系列データを取得するステップと、
前記ｎ個の時系列データのうちの２個の時系列データの間の類似度を示す指標を成分とし、前記ｎ個と同じ数の行及び列を有する行列を計算するステップと、
前記行列に対して固有値分解を行った結果に基づいて、前記ｎ個の時系列データの夫々に対応し、ｍ個の特徴を示す特徴量データを計算するステップと、
前記ｎ個の時系列データの夫々に対応する前記特徴量データをクラスタに分割するステップと、
を実行する情報処理方法。
コンピュータに、
所定のセンサから出力されるｎ個の時系列データを取得する取得部と、
前記ｎ個の時系列データのうちの２個の時系列データの間の類似度を示す指標を成分とし、前記ｎ個と同じ数の行及び列を有する行列を計算する第１計算部と、
前記行列に対して固有値分解を行った結果に基づいて、前記ｎ個の時系列データの夫々に対応し、ｍ個の特徴を示す特徴量データを計算する第２計算部と、
前記ｎ個の時系列データの夫々に対応する前記特徴量データをクラスタに分割する分割部と、
を実現させる情報処理プログラム。