JP7132263B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7132263B2
JP7132263B2 JP2020049966A JP2020049966A JP7132263B2 JP 7132263 B2 JP7132263 B2 JP 7132263B2 JP 2020049966 A JP2020049966 A JP 2020049966A JP 2020049966 A JP2020049966 A JP 2020049966A JP 7132263 B2 JP7132263 B2 JP 7132263B2
Authority
JP
Japan
Prior art keywords
time
series data
partial waveform
unit
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020049966A
Other languages
English (en)
Other versions
JP2021149652A (ja
Inventor
晃広 山口
滋 真矢
研 植野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020049966A priority Critical patent/JP7132263B2/ja
Priority to US17/015,917 priority patent/US11803613B2/en
Publication of JP2021149652A publication Critical patent/JP2021149652A/ja
Application granted granted Critical
Publication of JP7132263B2 publication Critical patent/JP7132263B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • G06F2218/06Denoising by applying a scale-space analysis, e.g. using wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/16Classification; Matching by matching signal segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の一実施形態は、情報処理装置、情報処理方法及びプログラムに関する。
センサデータなど時系列データのクラス分類では、分類性能に加えて分類の根拠を明確にする必要もある。分類の根拠を明確にする時系列のクラス分類技術として、分類器に加えて分類に有効な少数の部分波形パターンであるshapeletsを同時に学習するshapelets学習法が近年盛んに研究されている。
一方、学習時に必要となるクラスのラベル付けは人間が入力/決定する場合が多いため、ラベルの振り間違えが発生しうる。また、ノイズなどの影響で専門家であっても時系列サンプルによっては正確なラベル付け自体が難しいという問題がある。
KDD '14 Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, Pages 392-401/Josif Grabocka et al IJCAI '17 Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence. Pages 2110-2116. /Hao Li et al.
本発明の一実施形態では、時系列データを精度よく複数のクラスに分類できる情報処理装置、情報処理方法及びプログラムを提供するものである。
上記の課題を解決するために、本発明の一実施形態によれば、複数のクラスにクラス分けされた複数の時系列データに基づいて、複数の部分波形パターンを前記複数のクラスに分類する第1分類部と、
前記部分波形パターンを、同一クラスの前記時系列データにフィッティングさせることにより、前記部分波形パターンの形状を更新する部分波形更新部と、
前記更新された部分波形パターンと前記時系列データの分類及び解釈の困難度とに基づいて前記複数の時系列データを前記複数のクラスに再分類する第2分類部と、を備える、情報処理装置が提供される。
第1の実施形態による情報処理装置の概略構成を示すブロック図。 shapeletsの形状の学習と、各時系列データのクラス分類の学習手法を模式的に説明する図。 新たな時系列データに対するクラス分類を示す図。 第1の実施形態による情報処理装置の処理動作を示すフローチャート。 表示部に表示される具体例を示す図。 スライドバーで分類性能を重視する設定を行う例を示す図。 図6Aの位置にスライドバーを移動させたときのshapeletの形状及びクラス分類結果を示す図。 スライドバーで解釈性能を重視する設定を行う例を示す図。 図7Aの位置にスライドバーを移動させたときのshapeletの形状及びクラス分類結果を示す図。 第6の実施形態による情報処理装置の概略構成を示すブロック図。 熟練者と非熟練者によるラベル付けしたサンプルの一例を示す図。 熟練者のラベル付けの例を示す図。
以下、図面を参照して、情報処理装置の実施形態について説明する。以下では、情報処理装置の主要な構成部分を中心に説明するが、情報処理装置には、図示又は説明されていない構成部分や機能が存在しうる。以下の説明は、図示又は説明されていない構成部分や機能を除外するものではない。
(第1の実施形態)
以下の説明では、時系列データセットをT、時系列データの数をI個、各時系列データの長さをQ、部分波形パターンであるshapeletsの個数をK個、各shapeletの長さをLとして与えられたときを考える。Shapeletとは、時系列データに含まれる代表的な部分波形パターンである。時系列データとは、例えば種々のセンサの出力データである。時系列データは、波形の形状が任意に変更しうる連続値のデータ列である。個々の時系列データの部分列に、shapeletが一致する必要はない。
本実施形態では、個々の時系列データを複数のクラスに分類する。以下では、説明を簡略化するために、正常と異常の2つのクラスに分類する例を主に説明する。なお、実際には、3つ以上のクラスに分類する場合もありうる。本明細書では、クラスに分類することを、ラベルを付けると呼ぶ。ラベルはクラスを識別する情報である。また、本明細書では、入力される時系列データをサンプルと呼ぶことがある。
以下では説明を簡略化するために、各時系列データの長さは同じとし、各shapeletsの長さも同じとして議論するが、本実施形態は、shapeletsの長さが異なる場合にも、同様に適用可能である。また、時系列データは等間隔のサンプリングでデータが取得されており、欠損はないものとする。
これらの変数に加えて、本実施形態では、I個のサンプルの分類&解釈困難度をV、正例の時系列データにフィットするshapeletsの集合をK+、負例の時系列データにフィットするshapeletsの集合をK-とする。分類&解釈困難度とは、時系列データの分類及び解釈のしにくさを表す困難度を意味する。分類&解釈困難度は、時系列データの分類性能と解釈性能を考慮して決定される。正例の時系列データとは、正常と判断される時系列データを指す。負例の時系列データとは、異常と判断される時系列データを指す。
本実施形態による情報処理装置は、分類境界の重みw、部分波形パターンであるshapeletsの形状S、サンプルの分類&解釈困難度V、正例の時系列データにフィットするshapeletsの集合K+、負例の時系列データにフィットするshapeletsの集合K-を求めることができる。分類境界とは、例えば2次元空間に配置された正常と異常の時系列データを識別する境界線を指す。
なお、分類境界の重みwはK次元のベクトルであり、バイアス項は簡略化のため省略する、SはK×Lの行列であり、時系列データセットはI×Qの行列である。VはI次元のベクトルである。
図1は第1の実施形態による情報処理装置1の概略構成を示すブロック図である。図1の情報処理装置1は、入力部2と、第1分類部3と、部分波形更新部4と、第2分類部5と、困難度更新部6とを備えている。
入力部2は、クラスラベル付き学習用時系列データセットを入力する。ここで、shapeletsの個数と長さなどを入力に加えても良いが、加えない場合はデフォルト値としてshapeletsの個数Kを100個、shapeletsの長さLをQ×0.1などと決めてもよい。加えて、入力部2は、上述した行列Sと重みwを初期化する。例えば、重みwの初期化は全ての要素を0とする。行列Sの初期化は時系列データセットから長さLのセグメントを抽出してk-means法などのクラスタリングを行う。これにより、K個のクラスタのセントロイドを初期化したSとする。また、波形パターンフィッティング条件として、以下のように一部または全てのshapeletsを特定のクラスラベルに割り当てることもできる。例えば、正例(正常なクラスの時系列データ)にフィットするshapelets数として1個以上を割り当ててもよい。また、負例(異常なクラスの時系列データ)にフィットするshapelets数として0個以上を割り当ててもよい。
図1の情報処理装置1内の第1分類部3は、複数のクラスにクラス分けされた複数の時系列データに基づいて、複数の部分波形パターンであるshapeletsを複数のクラスに分類する。例えば、第1分類部3は、複数の時系列データを正常と異常の2つのクラスに分類する。なお、本明細書では、2つのクラスに分類する例を示すが、3つ以上のクラスに分類する場合もありうる。
第1分類部3は、特徴量生成機能を有する。特徴量生成機能では、クラス分けされた時系列データに対して、K(Kは2以上の整数)次元の特徴ベクトルを計算する。各特徴ベクトルの要素は、K個の部分波形パターンであるshapeletsと時系列データとの距離である。
部分波形更新部4は、部分波形パターンであるshapeletsを同一クラスの時系列データにフィッティングさせることにより、部分波形パターンを更新する。部分波形パターンの時間長は、時系列データの時間長よりも短い。部分波形更新部4は、部分波形パターンを時系列データの時間軸方向にずらしながら、部分波形パターンと時系列データとの波形形状の比較を行い、部分波形パターンに最も類似する時系列データの部分波形部分が見つかると、その部分波形部分の波形形状に合わせて、部分波形パターンの波形形状を変更する。部分波形更新部4は、クラス分類時の損失が少なく、かつ分類&解釈困難度が低い時系列データを優先させて部分波形パターンとのフィッティングを行って、部分波形パターンであるshapeletsの形状を更新する。ここで、クラス分類時の損失とは、クラス分類を間違う可能性を指す。
第2分類部5は、部分波形更新部4で更新された部分波形パターンと分類&解釈困難度とに基づいて複数の時系列データを複数のクラスに再分類する。ここでは、クラス分類時の損失が少なく、かつ分類&解釈困難度が低い時系列データを優先して、再分類を行う。分類&解釈困難度が低い時系列データとは、分類性能と解釈性能の少なくとも一方に優れた時系列データを指す。
困難度更新部6は、第2分類部5による再分類結果に基づいて、時系列データの分類及び解釈の困難度を算出する。ここでは、クラス分類時の損失が少なく、かつ割り当てられたクラスの部分波形パターン(shapelets)とのフィッティング性に優れた時系列データの分類&解釈困難度が小さくなるようにする。
図1の第1分類部3、部分波形更新部4、第2分類部5、及び困難度更新部6の処理は、所定回数繰り返し実行されて、部分波形パターンの形状が学習されるとともに、複数のクラスを分類する分類境界の位置が学習される。第2分類部5は、更新された部分波形パターンと困難度更新部6で算出された困難度とに基づいて、複数の時系列データを複数のクラスに再分類する。このように、部分波形更新部4、第2分類部5、及び困難度更新部6の処理を繰り返し実行することにより、複数の部分波形パターン(shapelets)の波形形状を、複数の時系列データによりよくフィッティングさせることができるとともに、複数の時系列データを複数のクラスに精度よく分類させることができる。
図2は、shapelets(部分波形パターン)の形状の学習と、各時系列データのクラス分類の学習手法を模式的に説明する図である。図2の例では、正常な時系列データd1~d3と異常な時系列データd4~d6が入力され、正常な時系列データd1~d3から正例のshapelete w10を検出し、異常な時系列データd4~d6から負例のshapelete w11を検出し、これらshapeletsと各時系列データd1~d6との距離により、各時系列データd1~d6を二次元空間上にプロットしている。二次元空間の横軸は負例のshapelete w11からの各時系列データの距離を示し、縦軸は正例のshapelete w10からの各時系列データの距離を示す。
二次元空間には、正常を表す丸印のプロットと、異常を表す×印のプロットとがある。丸印のプロットは二次元空間の右下付近の領域に存在することが多いのに対し、×印のプロットは二次元空間の左上付近の領域に存在することが多い。第1分類部3及び第2分類部5は、これら2つの領域を区分けする分類境界15を学習する。
第1分類部3及び第2分類部5による学習が終わると、図3のような新たな時系列データd7~d9が入力されたときに、学習された第1分類部3及び第2学習部を用いることで、時系列データd7とd8は正常なクラスに、時系列データd9は異常なクラスに容易に分類することができる。
図1の情報処理装置1は、出力部7を備えていてもよい。出力部7は、時系列データと複数の部分波形パターンとの類似度を示す情報と、時系列データに対応する困難度とを出力する。部分波形更新部4は、時系列データを時間軸方向にずらしながら複数の部分波形パターンとの距離を算出する処理を繰り返して、最小の距離を類似度とすることができる。
図1の情報処理装置1は、表示部8を備えていてもよい。表示部8は、出力部7から出力された複数の時系列データのそれぞれと複数の部分波形パターンとの類似度を示す情報に、対応する分類&解釈困難度を加味した複数の指標(例えばプロット)を表示するとともに、複数の指標を複数のクラスに分類するための境界情報を表示することができる。指標は例えばプロットである。
図1の情報処理装置1は、誤り検出部9を備えていてもよい。誤り検出部9は、分類&解釈困難度に基づいて、複数の時系列データのクラス分けの誤りを検出する。分類&解釈困難度が高いほど、時系列データを分類及び解釈することが困難であることを示しており、誤ったクラスに分類されている可能性が高い。そこで、誤り検出部9は、分類&解釈困難度が高い時系列データについては、クラス分けが誤りであると判断する。誤り検出部9は、クラス分けの誤りを検出した時系列データの情報を出力したり、表示部8に表示してもよい。
図1の情報処理装置1は、クラス訂正部10を備えていてもよい。クラス訂正部10は、誤り検出部9で誤りが検出された時系列データのクラスを自動的に訂正する。時系列データのクラス分類であるラベル付けは、作業者が行うことが多く、作業者の熟練度により、ラベル付けの精度が異なる。そこで、クラス訂正部10を設けて、自動的にクラスを訂正できるようにすれば、作業者の熟練度によらず、一定の精度でクラス分類を行うことができる。
図1の情報処理装置1内の入力部2は、学習ペースに関する情報を入力してもよい。上述したように、部分波形パターンの更新や時系列データの再分類は、学習を繰り返すことで、精度を上げることができる。学習は、複数段階に分けて行うのが効果的である。入力部2は、入力される複数の時系列データの数を複数回にわたって段階的に増やす学習ペースに関する情報を入力してもよい。例えば、学習ペースは、学習の序盤、中盤、終盤で、入力される時系列データの数を段階的に増やしてもよい。あるいは、学習の序盤、中盤、終盤のいずれでも、一定の数の時系列データを入力してもよい。
図1の情報処理装置1内の入力部2は、分類&解釈困難度の条件を入力してもよい。例えば、情報処理装置1の保守点検作業の前後では、情報処理装置1の安定度が異なるため、保守点検作業の後は、保守点検作業の前よりも、分類&解釈困難度を低く設定する情報を入力してもよい。困難度更新部6は、第2分類部5による再分類結果と、入力部2から入力された困難度の条件とに基づいて、困難度を算出する。
図1の情報処理装置1内の入力部2は、分類性能及び解釈性能のどちらをどの程度重視するかを示す重み情報を入力してもよい。第2分類部5は、部分波形更新部4で更新された部分波形パターンと重み情報とに基づいて複数の時系列データを複数のクラスに再分類してもよい。
図1の情報処理装置1内の入力部2は、部分波形パターンのフィッティングの条件を入力してもよい。部分波形更新部4は、フィッティングの条件が指定された部分波形パターンについて、指定された条件に基づいて部分波形パターンを更新し、フィッティングの条件が指定されていない部分波形パターンについては、最もよくフィッティングしている時系列データに基づいて部分波形パターンを更新することができる。
図1の情報処理装置1内の入力部2は、特定のクラスに分類可能な部分波形パターンの最小数及び最大数の少なくとも一方の条件を入力してもよい。第1分類部3は、入力部2に入力された条件を満たす数の部分波形パターンを特定のクラスに割り当てることができる。
図4は第1の実施形態による情報処理装置1の処理動作を示すフローチャートである。まず、K(例えばKは1個以上の整数)個の部分波形パターンを初期化するとともに、分類&解釈困難度も初期化する(ステップS1)。このステップS1では、K個の部分波形パターンとして、予め用意した初期パターンを選択する。これら部分波形パターンはshapeletsと呼ばれる。
次に、現状のK個の部分波形パターンを各クラスに割り当てる(ステップS2、S3)。フィッティングの条件にて各クラスの部分波形パターンの数が決まっている場合、その数までの部分波形パターンを、時系列データにフィッティングさせて、各部分波形パターンのクラスを決める。より具体的には、部分波形パターンを、時系列データの時間軸に沿って移動させながら時系列データとの距離を算出し、時系列データに対してK個の部分波形パターンとの最小距離をK次元特徴ベクトルとして生成する(ステップS2)。次に、最小距離となるK個の部分波形パターンのクラスを決定する(ステップS3)。ステップS2及びS3の処理は、図1の第1分類部3が行う。
次に、現状のK個の部分波形パターンの形状を更新する(ステップS4)。この処理は、部分波形更新部4が行う。この処理では、クラス分類の損失が削減され、かつ分類&解釈困難度が低い時系列データが優先されるように割り当てられたクラスの時系列データに部分波形パターンがフィッティングするように、部分波形パターンの形状を更新する。部分波形パターンの形状の更新には、勾配法を用いてもよい。
次に、更新された部分波形パターンに基づいて複数の時系列データを前記複数のクラスに再分類する(ステップS5)。この処理は、第2分類部5が行う。この処理では、クラス分類の損失が削減され、かつ分類&解釈困難度が低い時系列データを優先させて、複数のクラスへの再分類を行う。線形分類器を用いる場合には、重みを更新する。重みの更新は、勾配法を用いてもよい。
次に、現状の分類&解釈困難度を更新する(ステップS6)。この処理は、困難度更新部6が行う。この処理では、クラス分類の損失が削減され、かつ割り当てられたクラスの時系列データと部分波形パターンとのフィッティングがよくなるように分類&解釈困難度を更新する。
次に、入力部2で入力された学習ペースに合わせて、段階的に分類&解釈困難度のより高い時系列データを学習するように、学習に用いる時系列データを選択する(ステップS7)。
次に、ステップS2~S7の処理を、予め設定した所定回数繰り返したか否かを判定する(ステップS8)。
まだ、所定回数に到達していなければ、ステップS2~S7の処理を繰り返す。所定回数に到達すると、誤ってクラス分けした時系列データを検出する(ステップS9)。この処理は、誤り検出部9が行う。次に、誤りが検出された時系列データのクラスを自動的に訂正する(ステップS10)。この処理は、クラス訂正部10が行う。
次に、学習及びクラス訂正後の時系列データのクラス分け情報と、各時系列データの分類&解釈困難度の情報を出力する(ステップS11)。この処理は、出力部7が行う。次に、出力部7から出力された複数の時系列データのそれぞれと複数の部分波形パターンとの類似度を示す情報を、対応する困難度を加味して表す複数の指標を表示するとともに、複数の指標を複数のクラスに分類する分類境界15を表示する(ステップS12)。
図5は表示部8に表示される具体例を示す図である。図5の二次元空間の横軸は正例のシェープレットからの各時系列データの距離を示し、縦軸は負例のシェープレットからの各時系列データの距離を示している。図5では、正常なクラスに分類されるプロットは円形、異常なクラスに分類されるプロットは三角形にしている。なお、プロットの形状は任意である。各プロットは、各時系列データと部分波形パターンとの類似度に応じた位置に配置されている。また、各プロットは、分類&解釈困難度に応じた色又は濃淡度合いで表示されている。さらに、正常と異常を分類するための分類境界15が表示されている。
これにより、各時系列データのクラスを容易に識別でき、また、各時系列データの分類&解釈困難度も視覚的に把握できる。図5において、分類境界15から離れた位置にある時系列データほど、正常又は異常のクラス判定を精度よく行うことができることを示している。逆の言い方をすれば、分類境界15に近い位置にある時系列データは、正常又は異常のクラス判定を誤る可能性が高いことを示している。
図5の左側には、2つの時系列データD1、D2の特徴を示している。時系列データD1は、正常なクラスの部分波形パターンw1にフィッティングする部分波形を有する。このため、時系列データD1は、二次元空間上のプロットp1に対応づけられ、正常なクラスに分類される。これに対して、時系列データD2は、正常なクラスの部分波形パターンw1にフィッティングする部分波形は持っていない。このため、時系列データD2は、二次元空間上のプロットp2に対応づけられ、本来的には異常なクラスに分類されるべきであるが、誤ってクラス分けされた結果、正常なクラスを意味する円形のプロットp2に対応づけられている。そこで、誤り検出部9は、表示部8に表示された複数のプロットのうち、誤ってクラス分けされたプロットp2を検出し、クラス訂正部10にて正しいクラスのプロットp3に自動訂正する。なお、自動訂正する代わりに、誤り検出部9が検出したクラスを強調表示するなどして、作業者に手動で訂正させてもよい。
クラス訂正部10がクラスの訂正を行うか否かを判断する基準として、例えば、分類&解釈困難度が0.8以上の場合としてもよい。あるいは、時系列データと部分波形パターンとの距離、すなわちフィッティング誤差が0.5以上の場合としてもよい。
このように、第1の実施形態では、部分波形パターンを時系列データにフィッティングさせることにより、部分波形パターンの形状を更新し、更新後の部分波形パターンと時系列データの分類及び解釈困難度に基づいて、複数の時系列データを複数のクラスに再分類する。これにより、複数の時系列データを精度よく複数のクラスに分類することができる。また、複数の時系列データを誤ってクラス分けした場合でも、図5のように、各時系列データを、クラス数に応じた多次元空間にプロットし、かつ各プロットに分類&解釈困難度の情報を付与することで、誤ってクラス分けされた時系列データを容易に検出でき、自動でクラスの訂正を行うことができる。
(第2の実施形態)
第2の実施形態は、分類性能及び解釈性能のどちらをどの程度重視するかを示す重み情報をユーザが指定できるようにしたものである。第2の実施形態による情報処理装置1は、図1と同様のブロック構成を備えている。
第2の実施形態による情報処理装置1内の入力部2は、図6Aのようなスライドバー20を表示部8に表示させて、ユーザがマウス等でスライドバー20を任意の位置に移動させることができるようにしている。
図6Aのスライドバー20は、左側ほど時系列データの分類性能を重視し、右側ほど解釈性能を重視するものである。スライドバー20の位置によって、分類性能と解釈性能のどちらをどの程度重視するかを示す重み情報が得られる。図6Aは分類性能を重視する位置にスライドバー20を移動させる例を示している。
図6Aのように分類性能を重視する場合、部分波形パターンが正例または負例の代表的な時系列データにフィットしにくくなることで解釈性を犠牲にするが、分類性能が高い部分波形パターと分類器(第1分類部3及び第2分類部5)を学習することができる。
図6Bは、図6Aの位置にスライドバー20を移動させたときのshapeletの形状及びクラス分類結果を示す図である。図6Aの位置にスライドバー20を移動させると、分類性能が重視されるため、shapelets(部分波形パターン)w2、w3は屈曲点が多くなり、shapeletsの波形の特徴を把握しにくくなる。ただし、二次元空間上のプロットは、分類境界15の両側に正例と負例が整然と分かれており、クラス分類が正しく行われていることがわかる。
一方、図7Aは解釈性能を重視する位置にスライドバー20を移動させる例を示している。図7Aのように解釈性能を重視する場合、部分波形パターンが正例または負例の代表的な時系列データにフィットし解釈性を向上させるが、分類性能は低下する可能性がある。
図7Bは、図7Aの位置にスライドバー20を移動させたときのshapeletの形状及びクラス分類結果を示す図である。図7Aの位置にスライドバー20を移動させると、解釈性能が重視されるため、shapelets(部分波形パターン)w4、w5は屈曲点が少ないため、shapeletsの波形の特徴を把握しやすくなる。ただし、二次元空間上のプロットは、分類境界15の両側に正例と負例の一部が入り交じっており、クラス分類が正しく行われない場合があることがわかる。
これにより、分類性能が多少下がっても解釈しやすい部分波形パターンを知りたい場合や、逆に解釈性は殆ど必要無いがクラス分類性能を少しでも向上したい場合など、事業ニーズに適した部分波形パターンとクラス分類を得ることができる。
このように、第2の実施形態では、分類性能と解釈性能のどちらをどの程度重視するかをユーザが任意に設定できるため、ユーザの意向に応じて、クラス分類を行いやすくしたり、あるいはshapeletsの波形の特徴を把握しやすくすることができる。
(第3の実施形態)
第3の実施形態は、クラスのラベル付けを行う作業員の熟練度を推定したり、非熟練者がラベル付けを行う際のサポートを行うものである。
図8は第3の実施形態による情報処理装置1aの概略構成を示すブロック図である。図8の情報処理装置1は、図1のブロック構成に加えて、熟練度推定部11と、熟練者判定部12とを備えている。
また、図8の情報処理装置1a内の入力部2は、複数の時系列データをクラス分けした作業者の情報を入力する。より詳細には、入力部2は、作業員の情報と、その作業員がラベル付けした時系列データとを対応づけて入力する。
本実施形態では、複数の作業員が複数の時系列データをランダムに選択して、ラベル付け(クラス分け)を行うことを前提としている。複数の作業員の中には、熟練者もいれば、非熟練者もいるものとする。
熟練度推定部11は、第2分類部5によるクラス分けと困難度更新部6で算出された困難度とに基づいて、作業員のラベル付けに関する熟練度を推定する。より具体的には、各作業者がラベル付けした時系列データについて、第2分類部5によるクラス分けと分類&解釈困難度を表す統計値を算出する。統計値は、平均値でもよい。例えば、特定の作業者がラベルを付けた時系列データの分類&解釈困難度が高い場合、その作業者の統計値を低くする。統計値が低いほど、熟練度が低いと推定する。
熟練者判定部12は、熟練度推定部11で推定された熟練度に基づいて、作業者が熟練者か、非熟練者かを判定する。そして、非熟練者には、熟練者がラベル付けした時系列データに基づいて学習された部分波形パターンを提示する。これにより、非熟練者は、時系列データをクラス分けする際に、どのような部分波形の特徴に着目すればよいかを学ぶことができ、短時間で熟練度を向上させることができる。
図9は熟練者と非熟練者によるラベル付けしたサンプルの一例を示す図である。図9では、横軸を正例のシェープレットとの距離、縦軸を負例のシェープレットとの距離にして、各時系列データのサンプルをプロットしている。図9では、熟練者による正例のサンプルを丸プロット、負例のサンプルを上向き三角プロットとし、非熟練者による正例のサンプルを四角プロット、負例のサンプルを下向き三角プロットで表している。本来だと、分類境界15よりも下側に負例のサンプルのプロットが位置し、分類境界15よりも上側に正例のサンプルのプロットが位置するはずであるが、非熟練者によるラベル付けでは、多くの誤りが生じている。
熟練者判定部12は、図9の結果から作業者の熟練度を判定することができる。熟練者判定部12は、非熟練者に対して、図10のような熟練者が時系列データ(サンプル)D3のどこに着目してShapelets w6,w7を設定してラベル付けを行ったかの情報を提供することで、非熟練者を教育することができる。
このように、第3の実施形態では、時系列データをクラス分けした作業員の熟練度を、第2分類部5によるクラス分けと分解&解釈困難度に基づいて推定し、熟練度の低い非熟練者に対しては、熟練度の高い熟練者がクラス分けした時系列データを提示することで、クラス分けのコツを非熟練者に学ばせることができ、非熟練者を短時間で習熟させて、クラス分けの誤りを削減することができる。
上述した実施形態で説明した情報処理装置1、1aの少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理装置1、1aの少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD-ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
また、情報処理装置1、1aの少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
本開示の態様は、上述した個々の実施形態に限定されるものではなく、当業者が想到しうる種々の変形も含むものであり、本開示の効果も上述した内容に限定されない。すなわち、特許請求の範囲に規定された内容およびその均等物から導き出される本開示の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更および部分的削除が可能である。
1、1a 情報処理装置、2 入力部、3 第1分類部、4 部分波形更新部、5 第2分類部、6 困難度更新部、7 出力部、8 表示部、9 誤り検出部、10 クラス訂正部、11 熟練度推定部、12 熟練者判定部

Claims (19)

  1. 複数のクラスにクラス分けされた複数の時系列データに基づいて、前記複数の時系列データを特徴づける複数の部分波形パターンを前記複数のクラスに分類する第1分類部と、
    前記部分波形パターンを、同一クラスの前記時系列データにフィッティングさせることにより、前記部分波形パターンの形状を更新する部分波形更新部と、
    前記更新された部分波形パターンと前記時系列データの分類及び解釈のしにくさを表す困難度とに基づいて前記複数の時系列データを前記複数のクラスに再分類する第2分類部と、を備える、情報処理装置。
  2. 前記第2分類部による再分類結果に基づいて、前記時系列データの前記困難度を更新する困難度更新部と、を備える、請求項1に記載の情報処理装置。
  3. 前記第1分類部、前記部分波形更新部、前記第2分類部、及び前記困難度更新部の処理は、所定回数繰り返し実行され、
    前記第2分類部は、前記更新された部分波形パターンと前記困難度更新部で算出された困難度とに基づいて、前記複数の時系列データを前記複数のクラスに再分類する、請求項2に記載の情報処理装置。
  4. 前記時系列データと前記複数の部分波形パターンとの類似度を示す情報と、前記時系列データに対応する前記困難度とを出力する出力部を備える、請求項2又は3に記載の情報処理装置。
  5. 前記部分波形更新部は、前記時系列データを時間軸方向にずらしながら前記複数の部分波形パターンとの距離を算出する処理を繰り返して、最小の距離を前記類似度とする請求項4に記載の情報処理装置。
  6. 前記出力部から出力された前記複数の時系列データのそれぞれと前記複数の部分波形パターンとの類似度を示す情報に、対応する前記困難度を加味した複数の指標を表示するとともに、前記複数の指標を前記複数のクラスに分類するための境界情報を表示する表示部を備える、請求項4又は5に記載の情報処理装置。
  7. 前記困難度に基づいて、前記複数の時系列データのクラス分けの誤りを検出する、誤り検出部を備える、請求項2乃至6のいずれか一項に記載の情報処理装置。
  8. 前記誤り検出部で誤りが検出された時系列データのクラスを訂正するクラス訂正部を備える、請求項7に記載の情報処理装置。
  9. 入力される前記複数の時系列データの数を複数回にわたって段階的に増やす学習ペースに関する情報を入力する第1情報入力部を備え、
    前記第2分類部は、前記学習ペースに従って前記複数の時系列データを前記複数のクラスに再分類する処理を繰り返し実行し、
    前記困難度更新部は、前記学習ペースに従って前記困難度を算出する処理を繰り返し実行する、請求項2乃至8のいずれか一項に記載の情報処理装置。
  10. 前記困難度の条件を入力する第2情報入力部を備え、
    前記困難度更新部は、前記第2分類部による再分類結果と前記困難度の条件とに基づいて、前記困難度を算出する、請求項2乃至8のいずれか一項に記載の情報処理装置。
  11. 分解性能及び解釈性能のどちらをどの程度重視するかを示す重み情報を入力する第3情報入力部を備え、
    前記困難度更新部は、前記第2分類部による再分類結果と前記重み情報とに基づいて前記困難度を算出し、
    前記第2分類部は、前記更新された部分波形パターンと前記重み情報とに基づいて前記複数の時系列データを前記複数のクラスに再分類する、請求項2乃至10のいずれか一項に記載の情報処理装置。
  12. 前記部分波形パターンのフィッティングの条件を入力する第4情報入力部を備え、
    前記部分波形更新部は、フィッティングの条件が指定された部分波形パターンについて、前記条件に基づいて前記部分波形パターンを更新し、フィッティングの条件が指定されていない部分波形パターンについては、最もよくフィッティングしている時系列データに基づいて前記部分波形パターンを更新する、請求項2乃至11のいずれか一項に記載の情報処理装置。
  13. 特定のクラスに分類可能な前記部分波形パターンの最小数及び最大数の少なくとも一方の条件を入力する第5情報入力部を備え、
    前記第1分類部は、前記第5情報入力部に入力された前記条件を満たす数の部分波形パターンを前記特定のクラスに割り当てる、請求項2乃至12のいずれか一項に記載の情報処理装置。
  14. 前記複数の時系列データをクラス分けした作業者の情報を入力する第6情報入力部と、
    前記第2分類部によるクラス分けと前記困難度更新部で算出された前記困難度とに基づいて、前記作業者のクラス分けに関する熟練度を推定する熟練度推定部と、を備える、請求項2乃至12のいずれか一項に記載の情報処理装置。
  15. 前記推定された熟練度に基づいて、前記作業者が熟練者か、非熟練者かを判定する熟練者判定部を備える、請求項14に記載の情報処理装置。
  16. 前記熟練者判定部にて前記非熟練者であると判定された場合に、前記熟練者がクラス分けした前記複数の部分波形パターンのクラス分けの情報を前記非熟練者に提示する提示部を備える、請求項15に記載の情報処理装置。
  17. 複数のクラスにクラス分けされた複数の時系列データに基づいて、複数の部分波形パターンを前記複数のクラスに分類する第1分類部と、
    前記部分波形パターンを、同一クラスの前記時系列データにフィッティングさせることにより、前記部分波形パターンを更新する部分波形更新部と、
    前記更新された部分波形パターンと前記時系列データの分離及び解釈のしにくさを表す困難度とに基づいて前記複数の時系列データを前記複数のクラスに再分類する第2分類部と、
    前記複数の時系列データのそれぞれと前記複数の部分波形パターンとの類似度を示す情報を、対応する前記困難度を加味して表す複数の指標を表示するとともに、前記複数の指標を前記複数のクラスに分類する境界情報を表示する表示部と、を備える、情報処理装置。
  18. 複数のクラスにクラス分けされた複数の時系列データに基づいて、複数の部分波形パターンを前記複数のクラスに分類し、
    前記部分波形パターンを、同一クラスの前記時系列データにフィッティングさせることにより、前記部分波形パターンの形状を更新し、
    前記更新された部分波形パターンと前記時系列データの分類及び解釈のしにくさを表す困難度とに基づいて前記複数の時系列データを前記複数のクラスに再分類する、情報処理方法。
  19. コンピュータに、
    複数のクラスにクラス分けされた複数の時系列データに基づいて、複数の部分波形パターンを前記複数のクラスに分類するステップと、
    前記部分波形パターンを、同一クラスの前記時系列データにフィッティングさせることにより、前記部分波形パターンの形状を更新するステップと、
    前記更新された部分波形パターンと前記時系列データの分類及び解釈のしにくさを表す困難度とに基づいて前記複数の時系列データを前記複数のクラスに再分類するステップと、を実行させる、プログラム。
JP2020049966A 2020-03-19 2020-03-19 情報処理装置、情報処理方法及びプログラム Active JP7132263B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020049966A JP7132263B2 (ja) 2020-03-19 2020-03-19 情報処理装置、情報処理方法及びプログラム
US17/015,917 US11803613B2 (en) 2020-03-19 2020-09-09 Information processing device, information processing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020049966A JP7132263B2 (ja) 2020-03-19 2020-03-19 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021149652A JP2021149652A (ja) 2021-09-27
JP7132263B2 true JP7132263B2 (ja) 2022-09-06

Family

ID=77746876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020049966A Active JP7132263B2 (ja) 2020-03-19 2020-03-19 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
US (1) US11803613B2 (ja)
JP (1) JP7132263B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492633B (zh) * 2022-01-25 2022-10-28 合肥学院 一种基于多波长透射特性的有色透明塑料分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127229A (zh) 2016-06-16 2016-11-16 南京大学 一种基于时间序列类别的计算机数据分类方法
JP2017138929A (ja) 2016-02-05 2017-08-10 株式会社東芝 時系列データ波形分析装置、方法、及びプログラム
JP2018205994A (ja) 2017-06-01 2018-12-27 株式会社東芝 時系列データ分析装置、時系列データ分析方法およびコンピュータプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013051101A1 (ja) * 2011-10-04 2013-04-11 株式会社日立製作所 時系列データ管理システム,および方法
WO2015163369A1 (ja) * 2014-04-25 2015-10-29 株式会社東芝 心電波形検出装置、及び撮像装置
JP6952488B2 (ja) * 2017-04-19 2021-10-20 日本光電工業株式会社 生体情報波形処理方法、記憶媒体、プログラム及び生体情報波形処理装置
GB2582124A (en) * 2018-09-07 2020-09-16 Transf Ai Ltd Analysis of cardiac data
KR102471871B1 (ko) * 2018-10-25 2022-11-28 삼성에스디에스 주식회사 시계열 데이터 세그먼테이션 방법 및 그 장치
CN114391099A (zh) * 2019-10-02 2022-04-22 株式会社岛津制作所 波形解析方法和波形解析装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017138929A (ja) 2016-02-05 2017-08-10 株式会社東芝 時系列データ波形分析装置、方法、及びプログラム
CN106127229A (zh) 2016-06-16 2016-11-16 南京大学 一种基于时间序列类别的计算机数据分类方法
JP2018205994A (ja) 2017-06-01 2018-12-27 株式会社東芝 時系列データ分析装置、時系列データ分析方法およびコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Josif Grabocka et al.,"Learning Time-Series Shapelets",KDD '14: Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,米国,Association for Computing Machinery,2014年08月,pp.392-401

Also Published As

Publication number Publication date
JP2021149652A (ja) 2021-09-27
US20210295038A1 (en) 2021-09-23
US11803613B2 (en) 2023-10-31

Similar Documents

Publication Publication Date Title
JP6941123B2 (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
JP7071904B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP4623387B2 (ja) 学習装置および方法、認識装置および方法、並びにプログラム
US8595233B2 (en) Data processing apparatus, data processing method, program, and integrated circuit
JP6973625B2 (ja) 学習装置、学習方法および学習プログラム
JP2013125322A (ja) 学習装置、プログラム及び学習方法
CN111328407A (zh) 用于基于学习效率提供私人定制教育内容的机械学习方法、装置及计算机程序
JP2018142097A (ja) 情報処理装置、情報処理方法及びプログラム
JP5340204B2 (ja) 推論装置、その制御方法およびプログラム
JP6985856B2 (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
JP2019197355A (ja) クラスタリング装置、クラスタリング方法およびプログラム
JP7132263B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7422548B2 (ja) ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
CN114742564B (zh) 一种融合复杂关系的虚假评论者群体检测方法
CN112001212B (zh) 波形分段装置以及波形分段方法
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
JPWO2020174689A1 (ja) 判断差異表示装置、判断差異表示方法、及び、判断際表示プログラム
US20230350745A1 (en) Information processing apparatus, factor analysis method and computer-readable recording medium
JP6929260B2 (ja) 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム
EP3748549B1 (en) Learning device and learning method
JP2009186243A (ja) 判別装置、判別方法及びプログラム
CN113313213B (zh) 一种加速目标检测算法训练的数据集处理方法
JP4997524B2 (ja) 多変数決定木構築システム、多変数決定木構築方法および多変数決定木を構築するためのプログラム
CN116452845A (zh) 一种基于数据增强的鸟类细粒度图像分类方法
JP2016062249A (ja) 識別辞書学習システム、認識辞書学習方法および認識辞書学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220729

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220825

R151 Written notification of patent or utility model registration

Ref document number: 7132263

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151