JP7130153B2 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
JP7130153B2
JP7130153B2 JP2021571818A JP2021571818A JP7130153B2 JP 7130153 B2 JP7130153 B2 JP 7130153B2 JP 2021571818 A JP2021571818 A JP 2021571818A JP 2021571818 A JP2021571818 A JP 2021571818A JP 7130153 B2 JP7130153 B2 JP 7130153B2
Authority
JP
Japan
Prior art keywords
variation
samples
classes
label
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021571818A
Other languages
English (en)
Other versions
JPWO2021181654A1 (ja
Inventor
健瑠 白神
信秋 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021181654A1 publication Critical patent/JPWO2021181654A1/ja
Application granted granted Critical
Publication of JP7130153B2 publication Critical patent/JP7130153B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

本開示は、情報処理装置、プログラム及び情報処理方法に関する。
近年、計測技術の発達により、様々なデータが計測され活用されている。例えば、機器の異常診断を行う際には、機器に振動センサ又はマイクを設置して、機器から得られる振動及び音が計測される。そのようにして得られたデータを用いて機器の異常が診断される。
このような計測データを扱うとき、計測環境又はセンシングのばらつきによってデータの品質が低下する場合がある。例えば、計測者が異なることでセンサの取り付け方法に差異が生まれ、それによってデータの性質が変わるようなケースが考えられる。本来の目的とは無関係の要因によるデータのばらつきが大きくなると、本来識別したいラベル、例えば、異常又は正常を識別する上で障害となる。
特許文献1には、時系列データを所定の時間単位毎のデータに分割し、時間単位毎の類似度を算出し、算出された類似度に基づく所定時間毎の相関を、二次元平面の予め定められた位置に表示する相関分析装置が記載されている。
特開2015-225637号公報
特許文献1に記載された相関分析装置は、時間単位毎の類似度に基づく相関を表示することができる。これにより、時間変化によって生じるデータのばらつきが明らかとなる。しかしながら、「計測者」又は「機器の個体」等の時間以外の要因については考慮されていない。
そこで、本開示の一又は複数の態様は、本来の目的とは無関係の要因によって生じるデータのばらつきを確認することができる。
本開示の第1の態様に係る情報処理装置は、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部と、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部と、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部と、前記評価画面画像を表示する表示部と、を備えることを特徴とする。
本開示の第2の態様に係る情報処理装置は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、前記ばらつき結果画面画像を表示する表示部と、を備えることを特徴とする。
本開示の第3の態様に係る情報処理装置は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、前記ばらつき結果画面画像を表示する表示部と、を備えることを特徴とする。
本開示の第1の態様に係るプログラムは、コンピュータを、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部、及び、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部、及び、前記評価画面画像を表示する表示部、として機能させることを特徴とする。
本開示の第2の態様に係るプログラムは、コンピュータを、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、前記ばらつき結果画面画像を表示する表示部、として機能させることを特徴とする。
本開示の第3の態様に係るプログラムは、コンピュータを、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、前記ばらつき結果画面画像を表示する表示部、として機能させることを特徴とする。
本開示の第1の態様に係る情報処理方法は、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成し、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成し、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成し、前記評価画面画像を表示することを特徴とする。
本開示の第2の態様に係る情報処理方法は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記ばらつき結果画面画像を表示することを特徴とする。
本開示の第3の態様に係る情報処理方法は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記ばらつき結果画面画像を表示することを特徴とする。
本開示の一又は複数の態様によれば、本来の目的とは無関係の要因によって生じるデータのばらつきを確認することができる。
実施の形態1に係るデータ可視化装置の構成を概略的に示すブロック図である。 (A)及び(B)は、二つのサンプルの分布間の距離を示すグラフである。 距離行列の一例を示す概略図である。 調整距離行列の第1の例を示す概略図である。 (A)及び(B)は、調整距離行列の第2及び第3の例を示す概略図である。 (A)及び(B)は、調整距離行列の第4及び第5の例を示す概略図である。 調整距離行列の第6の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第1の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第2の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第3の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第4の例を示す概略図である。 調整距離行列を可視化した評価画面画像の第5の例を示す概略図である。 データ可視化装置のハードウェア構成例を示すブロック図である。 実施の形態1に係るデータ可視化装置での処理を示すフローチャートである。 実施の形態2に係るデータ可視化装置の構成を概略的に示すブロック図である。 部分行列の一例を示す概略図である。 算出方法を説明するための概略図である。 実施の形態2に係るデータ可視化装置での第1の処理を示すフローチャートである。 実施の形態2に係るデータ可視化装置での第2の処理を示すフローチャートである。 実施の形態3に係るデータ可視化装置の構成を概略的に示すブロック図である。 実施の形態3に係るデータ可視化装置での処理を示すフローチャートである。
実施の形態1.
図1は、実施の形態1に係る情報処理装置であるデータ可視化装置100の構成を概略的に示すブロック図である。
データ可視化装置100は、入力部101と、記憶部102と、データ取得部103と、距離行列算出部104と、順序調整部105と、可視化部106と、表示部107とを備える。
入力部101は、ユーザからの指示の入力を受ける。例えば、入力部101は、複数のラベルから、一つのラベルを対象ラベルとして指定する入力を受ける。
記憶部102は、データ可視化装置100での処理に必要なプログラム及びデータを記憶する。例えば、記憶部102は、可視化対象のデータセット及びそのラベル情報を記憶する。
データセットは、例えば、計測によって得られる時系列データの集合である。データセットは複数のサンプルの集合として構成される。
データセットを構成するサンプルは、距離行列算出部104で距離行列を算出する一単位である。サンプルは、例えば、振動センサ又はマイクによって得られる時系列データである。
ここでは、サンプルは、各々の時刻において計測等された一つの値を示す1次元のデータであるが、一次元のデータには限らない。サンプルは、各々の時刻において複数の値を示す多次元のデータであってもよい。
ラベル情報は、データセットに含まれる各サンプルに紐付けられている属性を示す。ラベル情報は、複数のサンプルの各々に対して、複数のラベルを用いてラベリングを行なった結果を示す情報である。複数のラベルの各々は、複数のクラスを有する。
ここでは、一例として、機器の異常診断を目的に収集された計測データであるサンプルに紐付けられるラベル情報について説明する。そして、データを計測する目的は、計測データから異常か正常を見分けることとする。
この場合、各サンプルには、検査結果を示すラベルを含むラベル情報が付与されている。このとき、検査結果を示すラベルである検査結果ラベルは、「正常クラス」及び「異常クラス」の二つのクラスで構成されていてもよいし、異常の種類に応じて、「正常クラス」、「第1の異常クラス」及び「第2の異常クラス」というように三つ以上のクラスで構成されていてもよい。ここでのクラスは、同じラベルに含まれるある状態のことを示す。例えば、クラスが異なると、同じラベルに含まれている別の状態を示すこととなる。
また、計測データには、計測データの目的に対応するラベル(ここでは、正常又は異常)とは無関係であると期待されるようなラベルが存在する場合がある。例として、「計測者」、「計測した場所」又は「計測した日時」等が挙げられる。
データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104に与えられる。
距離行列算出部104は、データセットDSから、複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、その順序に従って縦に並べられた複数の行とを備え、その複数の列の内の一つの列と、その複数の行の内の一つの行とで特定される一つの欄に、その一つの列に対応するサンプルと、その一つの行に対応するサンプルとの間の類似度を格納した類似度行列である距離行列を生成する類似度行列生成部である。なお、距離行列に含まれる類似度を、距離行列を構成する要素ともいう。
例えば、距離行列算出部104は、データセットDSに含まれる全てのサンプルの組み合わせでサンプル間距離を算出し、算出されたサンプル間距離により、行数及び列数の各々をサンプル数とする行列である距離行列を生成する。
サンプル間距離は、二つのサンプルの類似度を表す指標である。サンプル間距離は、二つのサンプルが類似しているほど小さな値となり、完全に一致している場合は0となる。このため、距離行列は、類似度行列ともいう。
以下では、異常診断を目的に収集された振動データを例に説明する。
ある条件下で一定時間に計測された計測データを1サンプルとして扱う。今回の例では、1サンプルは、各々の時刻において1次元の値を示す時系列データである。このとき、各サンプルには、機器の検査結果である正常又は異常を示す「検査結果ラベル」及び計測をいつ行ったかを示す「計測日ラベル」がラベル情報として付与されているものとする。
そして、ここでは、計測日ラベルである6月12日に、正常サンプル及び異常サンプルを二つずつ、計測日ラベルである6月13日に、正常サンプル及び異常サンプルを二つずつ計測されたものとする。
以上の場合に、距離行列算出部104が、実際にサンプル間距離を算出し、距離行列を作成する処理の例を示す。ここでの例では、二つのサンプルの確率分布間の類似度を、その二つのサンプル間の類似度とする。
具体的には、距離行列算出部104は、各サンプルが形成する分布を算出する。この時点で一つのサンプルにつき一つの分布が算出される。仮定する分布としては、正規分布等が考えられる。
次に、距離行列算出部104は、サンプル間の類似度の指標として、二つのサンプルが形成する分布間の距離を算出する。分布間の距離を算出する方法として、バタチャリヤ距離、KL(Kullback-Leibler)ダイバージェンス、又は、JS(Jensen-Shannon)ダンバージェンス等が挙げられる。
図2(A)及び(B)は、二つのサンプルの分布間の距離を示すグラフである。
図2(A)は、二つのサンプルの分布間の距離が大きい場合であり、図2(B)は、二つのサンプルの分布間の距離が小さい場合である。
次に、距離行列算出部104は、全てのサンプルの組み合わせで算出された分布間の距離により距離行列を生成する。距離行列の横の列と縦の行とは、それぞれ、八つのサンプルの順序に従って配置されているものとする。
図3は、距離行列の一例を示す概略図である。
ここでは、上記のように、二日にわたり八つのサンプルが存在する。ここでは、各サンプルに、各サンプルを特定するためのサンプル識別情報であるサンプル番号が振られているものとする。このとき、距離行列のN行M列の要素はN番目のサンプルとM番目のサンプルとの距離を表す。ここでは、N及びMは、1以上、8以下の整数である。
図3に示されている距離行列の対角線上の値は、同じサンプルでの距離であるため、全て0となる。
サンプル間距離の算出に、バタチャリヤ距離のような対称性のある手法が使用された場合、サンプルを入れ替えても距離の値は変わらないため、距離行列は対称行列となる。
順序調整部105は、ラベル情報LIを参照して、複数のラベルから指定されたラベルである対象ラベルにおける複数のクラス毎に複数のサンプルが並ぶように、類似度行列における複数のサンプルが並ぶ順序を調整することで、調整類似度行列を生成する。
具体的には、順序調整部105は、距離行列算出部104によって生成された距離行列を構成するサンプルの順序を、指定されたラベルに応じて調整する。具体的には、上記のように、ラベル情報として、「検査結果ラベル」及び「計測日ラベル」が含まれている場合、順序調整部105は、「検査結果ラベル」及び「計測日ラベル」のそれぞれによって、距離行列のサンプルの順序を調整する。
例えば、検査結果ラベルによって距離行列を並び替える場合、検査結果ラベルは、「正常クラス」及び「異常クラス」の二つのクラスを含んでいるため、順序調整部105は、最初に正常クラスに属するサンプル(正常サンプル)、その後ろに異常クラスに属するサンプル(異常サンプル)となるように、クラス毎に並ぶようにサンプルの順序を調整する。例えば、図3に示されているように、八つのサンプルのうち、サンプル番号が奇数のサンプルが正常クラス、偶数のサンプルが異常クラスの場合には、順序調整部105によって、図3に示されている距離行列は、図4に示されている調整距離行列のように、サンプルの順序が調整される。なお、調整距離行列を調整類似度行列ともいう。
また、計測日ラベルによって距離行列を並び替える場合、計測日ラベルは、「6月12日クラス」及び「6月13日クラス」の二つのクラスを含んでいるため、順序調整部105は、最初に6月12日クラスに属するサンプル、その後ろに6月13日クラスに属するサンプルとなるように、サンプルの順序を変更する。例えば、図3に示されているように、八つのサンプルのうち、サンプル番号が1~4番のサンプルが6月12日クラス、5~8番目のサンプルが6月13日クラスの場合には、順序調整部105は、図3に示されている距離行列をそのまま、調整距離行列とする。
可視化部106は、調整距離行列を可視化した評価画面画像を生成し、表示部107にその評価画面画像を表示させることで、ユーザに提示する。
例えば、可視化部106は、順序調整部105によって順序が調整された調整距離行列に含まれている要素の値に応じて、その要素に対応する欄の色の明度を決定することで、評価画面画像を生成する。このように、調整距離行列の要素に対応する欄の明暗を、その欄の値に応じて変更することで、順序変更に使用したラベルに起因するデータセットの品質問題を視覚的に表現することができる。
具体的には、可視化部106は、調整距離行列の欄の値を、予め定められた閾値と比較し、予め定められた閾値未満である場合に、その欄の色を、予め定められた閾値以上の値の欄の色よりも暗くする。
以下、評価画面画像によって得られる効果について説明する前に、「良いデータセット」について説明する。
ここでのデータセットは、異常診断のためのデータセットであるものとする。このため、異常のサンプルと、正常のサンプルとは、出来るだけ異なる性質を持っていることが好ましい。一方で、異常及び正常の診断とは無関係であると期待されるラベルである計測日ラベルについては、クラスが異なる場合でもサンプルの特性が変化しないことが期待される。上記を踏まえて、この例における「良いデータセット」とは、以下の二つの条件を満たすデータセットであるといえる。
第1の条件は、検査結果ラベルにおいてクラスが異なるサンプル間の距離が大きいことである。言い換えると、検査結果ラベルにおいてクラスが異なるサンプル間の類似度が低いことである。
第2の条件は、計測日ラベルにおいて異なるサンプル間の距離がまとまっていないことである。言い換えると、計測日ラベルにおいてクラスが同じでも、異なっていてもサンプル間の類似度が低かったり、高かったりすることである。
距離行列を、指定された一つのラベルに含まれているクラス毎に順序を調整した調整距離行列を可視化することで、データセットが上記の二つの条件を満たしているかどうかを視覚的に確認することができる。
例えば、図5(A)に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整することで、正常クラスに含まれているサンプル同士及び異常クラスに含まれているサンプル同士の距離が予め定められた閾値未満であり、対応する欄の色が暗くなり、正常クラスに含まれているサンプルと、異常クラスに含まれているサンプルとの距離が予め定められた閾値以上であり、対応する欄の色が明るくなっている場合には、上記の第1の条件が満たされていることを確認することができる。
一方、図5(B)に示されているように、計測日ラベルにおいて、6月12日クラス及び6月13日クラスに分けて、サンプルの順序を調整することで、同じクラスのサンプル間と、異なるクラスのサンプル間とで、明るい欄と、暗い欄とがまとまっていない場合には、上記の第2の条件が満たされていることを確認することができる。
これに対して、例えば、図6(A)に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整することで、同じクラスのサンプル間と、異なるクラスのサンプル間とで、明るい欄と、暗い欄とがまとまっていない場合には、上記の第1の条件が満たされていないこととなる。
そして、図6(B)に示されているように、計測日ラベルにおいて、6月12日クラス及び6月13日クラスに分けて、サンプルの順序を調整することで、6月12日クラスに含まれているサンプル同士及び6月13日クラスに含まれているサンプル同士の距離が予め定められた閾値未満であり、対応する欄の色が暗くなり、6月12日クラスに含まれているサンプルと、6月13日クラスに含まれているサンプルとの距離が予め定められた閾値以上であり、対応する欄の色が明るくなっている場合には、上記の第2の条件が満たされていないこととなる。
このような場合、計測日におけるデータのばらつきが、検査結果の悪化の原因であると特定することができる。
なお、以上では、一つのラベルに含まれるクラス毎にサンプルの順序を調整する例を示したが、このような例に限定されない。
例えば、図6(A)に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整した後に、その正常クラス及び異常クラスの各々に含まれているサンプルを、さらに、計測日ラベルに含まれている6月12日クラス及び6月13日クラスに分けて、サンプルの順序を調整してもよい。
このような場合、例えば、図7に示されているように、正常クラス及び異常クラスの中において、さらに、サンプルが6月12日クラス及び6月13日クラスの各々に分類されることとなる。
このとき、図7に示されているように、正常クラス又は異常クラスの各々において、計測日の違い(計測日ラベルの違い)によって行列要素の明暗がまとまってしまうと、計測日におけるデータのばらつきが、検査結果の悪化の原因であることを特定することができる。
可視化された評価画面画像の解釈方法について述べる。
ここでは、九つのサンプル数のデータセットについて、三つのクラス数のラベルによって順序を調整した調整距離行列を評価画面画像として可視化した場合の四つの例を、図8~図12に提示する。
なお、図8~図12では、三つのクラスには、それぞれ1~3の番号が振られていて、距離行列に含まれるサンプルを、昇順に並べることで調整距離行列が生成されたものとする。
図8に示されている調整距離行列120のように、対角線上の区画だけ明度が低く、他の区画の明度が高い場合、同じクラス同士のサンプルは似ているが、別のクラスのサンプルとは類似していないため、対応するラベルによるデータのばらつきが発生しているということである。なお、例えば、二つのクラスの場合には、図6(B)のようになる。
図9に示されている調整距離行列121のように、クラスの違いによって明度の変化が起きず、全ての欄が暗い色である場合、全てのデータが類似していることを表しているため、ラベルによるデータのばらつきは発生していない。
図10に示されている調整距離行列122のように、対角線上の同じサンプル同士の欄以外の全ての欄の色が明るい色である場合は、クラスの違いに関係なく全データがばらついていることが分かる。この場合はラベルによるデータのばらつきは無いが、データセットとしてまとまりが全くないことを表しているため、データの品質に問題がある可能性が高い。
図11に示されている調整距離行列123のように、対角線上の区画(図8を参照)に加えて、1番のクラスに含まれるサンプルと、3番のクラスに含まれるサンプルとの間の値を示す欄の明度が低くなっている場合は、2番のクラスのデータだけが他のクラスのデータと異なる性質を持っていることが分かる。
例えば、クラスがデータの計測者を表す場合、2番のクラスに対応する計測者(ここでは、2番の計測者とする)のデータだけが他の計測者(1番の計測者及び3番の計測者)のデータと異なっていることを視認することができる。これにより、2番の計測者の計測方法に問題があった可能性がある、といったようにデータ品質の劣化要因を考察することができる。
図12に示されている調整距離行列124のように、1番のクラスに属するサンプルと、3番のクラスに属するサンプルとが類似し、2番のクラスに属するサンプルと、1番のクラス及び3番のクラスに属するサンプルとが類似しない場合であって、2番のクラスに属する異なるサンプル同士も類似しない場合にも、2番のクラスのデータのみが1番のクラス及び3番のクラスのデータと異なるとともに、2番のデータ同士にもばらつきがあることが分かる。
なお、可視化を行う際には、図5~図7に示されているように、並び替えに使用したラベルのクラスの順序が分かるように、調整距離行列の左及び上にクラスを示す情報を表示してもよい。
図13は、データ可視化装置100のハードウェア構成例を示すブロック図である。
データ可視化装置100は、入力装置131と、表示装置132と、記憶装置133と、メモリ134と、プロセッサ135とを備えるコンピュータ130により構成することができる。
入力装置131は、マウス、タッチパネル、キーボード、HMD(Head Mounted Display)のジェスチャー操作入力装置、又は、視線操作入力装置等のように、ユーザが指示を入力する装置である。
表示装置132は、可視化の際にユーザに提示するディスプレイ等のアプリケーションを表示する装置である。表示装置132は、例えば、HMDのシースルー型のディスプレイ等も含む。
記憶装置133は、記憶を行なう装置であり、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等を含む。
メモリ134は、一時的な記憶を行なう装置であり、RAM(Random Access Memory)を含む。
プロセッサ135は、CPU(Central Processing Unit)等の処理回路である。
例えば、入力部101は、プロセッサ135が入力装置131を利用することで実現することができる。
表示部107は、プロセッサ135が、表示装置132を利用することで実現することができる。
記憶部102は、プロセッサ135が、メモリ134を利用することで実現することができる。
データ取得部103、距離行列算出部104、順序調整部105及び可視化部106は、プロセッサ135が、記憶装置133に記憶されているプログラムをメモリ134に読み出して、そのプログラムを実行することで実現することができる。
このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
図14は、実施の形態1に係るデータ可視化装置100での処理を示すフローチャートである。
まず、データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する(S10)。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104に与えられる。
距離行列算出部104は、データセットDSを構成する各サンプルの類似度から構成される距離行列を生成する(S11)。例えば、距離行列算出部104は、データセットDSに含まれる全てのサンプルの組み合わせでサンプル間距離を算出し、算出されたサンプル間距離を、行数及び列数の各々をサンプル数とする行列である距離行列を生成する。
次に、入力部101は、距離行列におけるサンプルの順序を調整するため、ユーザからラベルの指定を受け付ける(S12)。指定されたラベルを示すユーザ情報UIは、順序調整部105に与えられる。ここで指定されたラベルを対象ラベルともいう。
順序調整部105は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部104で生成された距離行列を調整することで、調整距離行列を生成する(S13)。
可視化部106は、調整距離行列を可視化した評価画面画像を生成し、表示部107にその評価画面画像を表示させる(S14)。例えば、可視化部106は、順序調整部105によって順序が変更された調整距離行列に含まれている値に応じて、その値が含まれている欄の色の明度を決定することで、評価画面画像を生成する。
そして、順序調整部105は、可視化処理を継続するか否かを判断する(S15)。例えば、順序調整部105は、入力部101からラベルを示すユーザ情報UIが送られてきた場合に、可視化処理を継続すると判断する。順序調整部105は、入力部101から処理を終了する指示を示すユーザ情報UIが送られてきた場合に、可視化処理を継続しないと判断する。可視化処理を継続する場合(S14でYes)には、処理はステップS12に戻り、可視化処理を継続しない場合(S14でNo)には、処理は終了される。
以上のように、実施の形態1によれば、任意のラベルで距離行列におけるサンプルの順序を調整して、可視化することで、指定されたラベルによって生じるデータセットのばらつきを直感的に表すことができる。これにより、調整に使用されたラベルに起因するデータセットの品質問題を明らかにすることができる。
実施の形態2.
実施の形態1では、指定されたラベルによって距離行列のサンプルの順序を調整した結果を可視化することで、ユーザがラベルによるデータのばらつきを解釈していた。
実施の形態2では、予めデータのばらつき度合いを算出し、順序を調整するラベルの指定を支援する。または、算出されたばらつき度合いにより、順序を調整するラベルを自動的に指定する。
図15は、実施の形態2に係るデータ可視化装置200の構成を概略的に示すブロック図である。
データ可視化装置200は、入力部101と、記憶部102と、データ取得部103と、距離行列算出部104と、順序調整部105と、可視化部106と、表示部107と、ばらつき算出部208と、順序調整支援部209とを備える。
実施の形態2におけるデータ可視化装置200の入力部101、記憶部102、データ取得部103、距離行列算出部104、順序調整部105、可視化部106及び表示部107は、実施の形態1におけるデータ可視化装置100の入力部101、記憶部102、データ取得部103、距離行列算出部104、順序調整部105、可視化部106及び表示部107と同様である。
但し、データ取得部103は、取得されたデータセットDS及びラベル情報LIをばらつき算出部208にも与え、距離行列算出部104は、生成した距離行列をばらつき算出部208にも与える。
ばらつき算出部208は、各々のラベルによって生じる、データとしての複数のサンプルのばらつき度合いを算出する。
実施の形態1では、可視化された調整距離行列をユーザが解釈することで品質問題を明らかにしていた。例えば、図8に示されている調整距離行列120のように、対角線上の同じクラス同士が交わる区画の明度が低く、それ以外の区画の明度が高い場合は、ラベルによるばらつきがあると判断することができる。
このような距離行列の特徴をユーザに解釈させるのではなく数値として定量化するのがばらつき算出部208の役割である。ばらつき算出部208によって「特定のラベルによって生じるデータのばらつき度合い」を定量化することが可能となる。以下、ばらつき算出部208の具体的な処理を説明する。
ここでは、サンプル数がN個(Nは、2以上の整数)のデータセットについて、あるラベルによって生じるデータのばらつきを算出する例を説明する。
算出対象のラベルに含まれるクラス数をC個(Cは、2以上の整数)として、それぞれのクラスを1,2,・・・,Cと表すこととする。
また、このデータセットから算出される距離行列のサンプルを、1,2,・・・,Cの順序となるように調整した調整距離行列をMとする。なお、この例では、距離行列がサンプル間のバタチャリヤ距離により構成されているものとする。
Mの要素の数は、N×N個である。ここでは、クラス数がC個のラベルで距離行列のサンプルを調整しているため、調整距離行列M内に、C×C個の領域である部分行列が存在する。これらの部分行列を、図16に示されているように、D11、D12、・・・、DCCと表すこととする。
ijは、クラスi(iは、1≦i≦Cを満たす整数)に属するサンプルと、クラスj(jは、1≦j≦Cを満たす整数)に属するサンプルとによって構成される部分行列となる。
クラスiに属するサンプルの数をNとし、クラスjに属するサンプルの数をNとすると、Dijは、N×Nの行列となる。Dijの各要素は、dkl (ij)と表記する。
ここで、部分行列の要素の平均値μijを算出し、各部分行列Dijに対応する各区画の代表値とする。
調整距離行列Mの対称性により、μijを算出する際には、図17において塗りつぶされた区画が使用される。i=jのときには、Dij自体が対称行列となるため対角線より右上の要素のみを使用して平均値が算出される。また、μij=μjiとなるため、i>jとなる区画については計算を行なう必要がない。
下記の(1)式は、μijの算出式である。
Figure 0007130153000001
なお、ここでは、平均値μijを部分行列Dijの代表値として用いたが、実施の形態2はこのような例に限定されない。例えば、部分行列Dijに含まれている要素の中央値が部分行列Dijの代表値として用いられてもよい。
平均値μijの定性的な意味としては、i≠jの場合は、クラスiに属しているデータと、クラスjに属しているデータとの類似度を表していると考えることができる。例えば、μ12が小さな値を示していた場合、クラス1のデータと、クラス2のデータとが類似しており、クラスの違いによるデータのばらつきは発生していないと見なせる。また、i=jの場合は、平均値μijは、同じクラスに属しているデータ同士のばらつき度合いを表している。
ラベルによってデータのばらつきが発生している状態では、図6(B)又は図8のように、距離行列の対角線上に位置するDiiに含まれる調整距離行列の要素の値が低く、それ以外の要素の値は高くなる。よって、あるラベルによって生じるデータのばらつき度合いVは、例えば、下記の(2)式のように定式化可能である。
Figure 0007130153000002
(2)式の左項は、i≠jのときのμijを全ての組み合わせで算出し、その平均を算出するものである。これは、クラスが異なる場合にデータがどれだけばらつくかどうかを表す。
(2)式の右項は、i=Jのときのμijを全ての組み合わせで算出し、その平均を算出するものである。これは、同じクラス内のデータがどれだけばらついているかどうかを表す。
図6(B)又は図8のように、ラベルによるデータのばらつきが発生しているとき、Vの値が大きくなる。Vは、データセットの識別対象のラベル(ここでは、検査結果ラベル)では高い値となり、そのラベルと無関係であると期待されるラベル(ここでは、計測日ラベル)では低い値となることが望ましい。
以上のように、ばらつき算出部208は、複数のクラスにおいて、異なるクラスに分類されるサンプル間の類似度の代表値の平均から、同じクラスに分類されるサンプル間の類似度の代表値の平均を減算することにより算出されるばらつき度合いVを予め与えられた全てのラベルで算出する。例えば、データセットに5つのラベルが付与されている場合、この処理によって各ラベルに対応した5つのVが得られる。
順序調整支援部209は、ばらつき算出部208によって得られた結果であるばらつき結果画面画像を表示部107に表示させることで、その結果をユーザに提示して、調整に使用するラベルを指定する際の支援を行う。ばらつき結果画面画像は、例えば、ばらつき度合いVの大きい順にラベルを表示する画面画像である。ユーザは、このような画面を参照して、対象ラベルの指定を行えばよい。
順序調整支援部209は、ばらつき結果画面画像を表示するのではなく、ばらつき算出部208によって得られた結果を順序調整部105に通知して、自動的に距離行列に含まれているサンプルの順序を調整することで、調整距離行列を生成させてもよい。例えば、順序調整支援部209は、ばらつき度合いの最も高いラベルを対象ラベルとして指定して、その対象ラベルに従って、順序調整部105に調整距離行列を生成させてもよい。また、順序調整支援部209は、ばらつき度合いの高いものから順に複数のラベルを対象ラベルとして指定してもよい。さらに、順序調整支援部209は、ばらつき度合いの最も高いラベルと、ばらつき度合いの最も低いラベルとを、対象ラベルとして指定してもよい。
実施の形態2に係るデータ可視化装置200も、図13に示されているコンピュータ130により構成することができる。
例えば、ばらつき算出部208及び順序調整支援部209は、プロセッサ135が、記憶装置133に記憶されているプログラムをメモリ134に読み出して、そのプログラムを実行することで実現することができる。
図18は、実施の形態2に係るデータ可視化装置200での第1の処理を示すフローチャートである。
第1の処理は、順序調整支援部209が、ばらつき算出部208によって得られた結果であるばらつき結果画面画像を表示部107に表示させる場合の処理である。
まず、データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する(S20)。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104及びばらつき算出部208に与えられる。
距離行列算出部104は、データセットDSを構成する各サンプルの類似度から構成される距離行列を算出する(S21)。生成された距離行列は、順序調整部105及びばらつき算出部208に与えられる。
次に、ばらつき算出部208は、ラベル情報LIで示されるラベルの数だけステップS23及びS24の処理を繰り返す(S22及びS25)。
ステップS23では、ばらつき算出部208は、ラベル情報LIで示されるラベルから、ばらつき度合いVを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。
ステップS24では、ばらつき算出部208は、調整された距離行列である調整距離行列を基づいて、特定されたラベルによるデータのばらつき度合いVを算出する。
次に、順序調整支援部209は、ばらつき算出部208によって算出されたばらつき度合いVを示すばらつき結果画面画像を表示部107に表示させる(S26)。
次に、入力部101は、距離行列に含まれるサンプルの順序を調整するため、ユーザからラベルの指定を受け付ける(S27)。指定されたラベルを示すユーザ情報UIは、順序調整部105に与えられる。ユーザは、表示部107に表示されるばらつき結果画面画像を参考にして、ラベルを指定すればよい。
順序調整部105は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部104で生成された距離行列を調整することで、調整距離行列を生成する(S28)。
可視化部106は、調整距離行列を可視化した評価画面画像を生成し、表示部107にその評価画面画像を表示させる(S29)。
そして、順序調整部105は、可視化処理を継続するか否かを判断する(S30)。例えば、順序調整部105は、入力部101からラベルを示すユーザ情報UIが送られてきた場合に、可視化処理を継続すると判断する。順序調整部105は、入力部101から処理を終了する指示を示すユーザ情報UIが送られてきた場合に、可視化処理を継続しないと判断する。可視化処理を継続する場合(S30でYes)には、処理はステップS27に戻り、可視化処理を継続しない場合(S30でNo)には、処理は終了される。
図19は、実施の形態2に係るデータ可視化装置200での第2の処理を示すフローチャートである。
第2の処理は、順序調整支援部209が、ばらつき算出部208によって得られた結果であるばらつき結果により、ラベルを指定する場合の処理である。
まず、データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する(S40)。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104及びばらつき算出部208に与えられる。
距離行列算出部104は、データセットDSを構成する各サンプルの類似度から構成される距離行列を算出する(S41)。生成された距離行列は、順序調整部105及びばらつき算出部208に与えられる。
次に、ばらつき算出部208は、ラベル情報LIで示されるラベルの数だけステップS43及びS44の処理を繰り返す(S42及びS45)。
ステップS43では、ばらつき算出部208は、ラベル情報LIで示されるラベルから、ばらつき度合いVを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。
ステップS44では、ばらつき算出部208は、調整された距離行列である調整距離行列を基づいて、特定されたラベルによるデータのばらつき度合いVを算出する。
次に、順序調整支援部209は、ばらつき算出部208によって算出されたばらつき度合いVに応じて、ラベルを指定する(S46)。例えば、順序調整支援部209は、ばらつき度合いVが一番大きなラベルを指定すればよい。
次に、順序調整部105は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部104で生成された距離行列を調整することで、調整距離行列を生成する(S47)。
可視化部106は、調整距離行列を可視化した評価画面画像を生成し、表示部107にその評価画面画像を表示させる(S48)。
以上のように、実施の形態2によれば、ばらつき算出部208によって予め各ラベルによって生じるデータのばらつきを求めることで、距離行列に含まれるサンプルの調整を支援又は自動化することができる。
なお、図19に示されているフローチャートのステップS46において、順序調整支援部209が複数のラベルを指定することで、ステップS47及びS48を介して、複数の評価画面画像が表示部107に表示されてもよい。この場合、順序調整支援部209は、ばらつき度合いVの高いラベルから順に複数のラベルを指定すればよい。
また、実施の形態2において、ラベル指定の自動化と、ユーザによるラベル指定とが組み合わされてもよい。例えば、最初に図19に示されているように自動的に指定されたラベルによる評価画面画像が表示され、その後に、例えば、ユーザからの指示により、ばらつき結果画面画像が表示され、ユーザによってラベルが指定されてもよい。
実施の形態3.
図20は、実施の形態3に係るデータ可視化装置300の構成を概略的に示すブロック図である。
データ可視化装置300は、記憶部102と、データ取得部103と、距離行列算出部104と、表示部107と、ばらつき算出部308とを備える。
実施の形態3に係るデータ可視化装置300の記憶部102、データ取得部103、距離行列算出部104及び表示部107は、実施の形態1に係るデータ可視化装置100の記憶部102、データ取得部103、距離行列算出部104及び表示部107と同様である。
なお、実施の形態3に係るデータ可視化装置300は、実施の形態2に係るデータ可視化装置200と比較して、入力部101、順序調整部105、可視化部106及び順序調整支援部209が設けられていない。
ばらつき算出部308は、実施の形態2におけるばらつき算出部208と同様に、ラベル情報LIで示される全てのラベルの各々によって生じるデータのばらつき度合いを算出する。
そして、ばらつき算出部308は、算出されたばらつき度合いを示すばらつき結果画面画像を表示部107に表示させる。
ばらつき結果画面画像は、例えば、ばらつき度合いVの大きい順に予め定められた数のラベルを表示する画面画像であってもよく、全てのラベルのばらつき度合いVを表示する画面画像であってもよい。言い換えると、ばらつき算出部308は、ラベル情報LIで示される全てのラベルに含まれる少なくとも一つのラベルと、その少なくとも一つのラベルに対応するばらつき度合いとをばらつき結果画面画像に表示させればよい。
図21は、実施の形態3に係るデータ可視化装置300での処理を示すフローチャートである。
まず、データ取得部103は、記憶部102から、データセットDS及びそのラベル情報LIを取得する(S50)。取得されたデータセットDS及びそのラベル情報LIは、距離行列算出部104及びばらつき算出部308に与えられる。
距離行列算出部104は、データセットDSを構成する各サンプルの類似度から構成される距離行列を算出する(S51)。生成された距離行列は、順序調整部105及びばらつき算出部308に与えられる。
次に、ばらつき算出部308は、ラベル情報LIで示されるラベルの数だけステップS53及びS54の処理を繰り返す(S52及びS55)。
ステップS53では、ばらつき算出部308は、ラベル情報LIで示されるラベルから、ばらつき度合いVを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。
ステップS54では、ばらつき算出部308は、調整された距離行列である調整距離行列に基づいて、特定されたラベルによるデータのばらつき度合いVを算出する。
次に、ばらつき算出部308は、算出されたばらつき度合いVを示すばらつき結果画面画像を表示部107に表示させる(S56)。
実施の形態3によれば、各ラベルによるばらつき度合いVをユーザに提示することで、データセットの品質問題に起因するラベルを明らかにすることができる。
以上に記載された実施の形態1~3に係るデータ可視化装置100~300で扱うデータセットの例として、レーザ加工機による切断加工時の加工不良を自動検出することを目的として収集された加工音データが挙げられる。このデータは、加工機の加工ヘッドに音響センサであるマイクを取り付けることで収集が可能である。加工不良を検出することが目的なので、各データには不良の有無を示した「検査結果ラベル」が付与されている。最終的には機械学習により加工音データの特徴から加工不良の有無を検出することが期待される。
データ可視化装置100~300は、データの学習を行う前段階として、データの品質を可視化及び定量化するために使用される。データ可視化装置100~300によって品質劣化と劣化要因とを確認できた場合は、その結果に応じて、「学習に使用するデータを間引きする(言い換えると、品質劣化を招いているデータを使わない)」又は「データ収集方法を改善する」等の対策を取ることで、データ品質の向上を図ることができる。
また、データ収集時に、「計測時刻」、「計測者」、「機体の番号」又は「計測した場所」等の検査結果とは無関係であると期待されるラベルの情報も記録し、実施の形態1~3で記した処理により各ラベルによるデータのばらつき度合いを可視化及び定量化する。
実施の形態1~3では、時刻毎に1次元の値を示す時系列データを扱っているが、1サンプルは必ずしも時刻毎に1次元の値を示すデータである必要はない。時刻毎に多次元の値を示す時系列データ、1次元信号に対して特徴抽出処理を施し多次元データに変換したものが使用されてもよい。また、時系列データである必要もない。
実施の形態2及び3に記載されているばらつき算出部208、308は、「ラベル」毎に、ばらつき度合いを算出しているが、ばらつき算出部208、308は、あるラベルに注目したときに、そのラベルに含まれる「各クラスによって生じるばらつき度合い」を算出してもよい。
クラスc(cは、1≦c≦Cを満たす整数)によって生じるデータのばらつき度合いをV(c)とすると、例えば、V(c)は、下記の(3)式のように定式化可能である。
Figure 0007130153000003
(3)式のように、V(c)は、クラス間のばらつきVout(c)と、クラス内のばらつきVin(c)との差によって算出される。
out(c)は、クラスcのサンプルが他クラスのサンプルとどれだけ乖離しているかを表し、Vin(c)は、クラスc同士のサンプルがどれだけばらついているかを表す。
例えば、図11に示されている調整距離行列123に対して、全てのクラス1~3で、で、V(c)を求めた場合、V(1)及びV(3)に比べ、V(2)の値が大きくなる。これにより、クラス2のサンプルだけが他のクラスのサンプルと異なる性質を持っていることを定量的に示すことが可能となる。
V(c)の値は、データセットの識別対象のラベル(ここでは、検査結果ラベル)に含まれるクラスでは高い値が、そのラベルと無関係であると期待されるラベル(ここでは、計測日ラベル)に含まれるクラスでは低い値が出るのが望ましい。
本来の識別対象とは無関係であると期待されるラベル(例えば、計測者、計測日又は機体番号等)に含まれるクラスのみを算出対象とする場合は、V(c)を下記の(4)式で算出してもよい。
Figure 0007130153000004
即ち、ばらつき算出部208、308は、複数のクラスの内、ばらつき度合いV(c)を算出する一つのクラスを対象クラスとした場合に、対象クラスに分類されるサンプルと、対象クラスを以外のクラスに分類されるサンプルとの類似度の代表値の平均から、対象クラスに分類されるサンプル間の類似度の代表値を減算することによりばらつき度合いV(c)を算出してもよい。
また、ばらつき算出部208、308は、対象クラスに分類されるサンプルと、対象クラス以外のクラスに分類されるサンプルとの類似度の代表値に、対象クラスに分類されるサンプル間の類似度の代表値を加算することによりばらつき度合いV(c)を算出してもよい。
順序調整支援部209、又は、ばらつき算出部308は、複数のクラスと、複数のクラスの各々に対応するばらつき度合いV(c)とを表示するばらつき結果画面画像を生成して、表示部107に表示させてもよい。
この場合、図12に示されている調整距離行列124のクラス2のような「他クラスのデータと乖離しており」かつ「同じクラスのデータ同士のばらつきも大きい」クラスで値が大きくなり、そのクラスが品質劣化の要因であると考えることができる。
以上のように、ばらつき算出部208、308は、与えられた全てのラベルについて、ラベルによるばらつき度合いVと、そのラベルの各クラスによって生じるばらつき度合いV(c)とを算出してもよい。なお、ばらつき度合いVを、ラベルばらつき度合いともいい、ばらつき度合いV(c)をクラスばらつき度合いともいう。
また、上述のV及びV(c)の算出は、あるラベルによる調整を行った後の部分行列Diiに対して実施してもよい。その場合、ばらつき算出部208、308は、あるラベル(例えば、検査結果ラベル)によって調整された調整距離行列Mの対角線上に位置する部分行列Diiに含まれているサンプルを、更にそれ以外のあるラベルで並び替えて、再調整距離行列Mを求めた後に、同様の手順で、再調整距離行列Mからばらつき度合いV及びV(c)を求める。このとき、最終的なV及びV(c)は、例えば、V及びV(c)の平均を取ることで算出可能である。この方法は、予めばらつきが大きいラベルが分かっている場合に、それ以外のラベルのばらつき度合いを算出する際に利用することができる。これにより、最初に調整を行ったラベルの影響を受けずに、他のラベルによるばらつき度合いを算出することが可能となる。
以上のように、ばらつき算出部208、308は、「特定のラベルに含まれる各クラスによるデータのばらつき度合い」を算出してもよい。
例えば、ばらつき算出部208は、入力部101を介して、ユーザがラベルの指定を行なった際に、そのラベルに含まれる各クラスのばらつき度合いV(c)を算出してもよい。また、ばらつき算出部208、308は、ラベル毎のばらつき度合いVと、クラス毎のばらつき度合いV(c)とを算出して、その算出結果であるV及びV(c)を、ばらつき結果画面画像に含めて、表示させてもよい。
以上に記載された実施の形態1及び2では、調整距離行列の欄の値を、予め定められた閾値と比較し、予め定められた閾値未満である場合に、その欄の色を、予め定められた閾値以上の値の欄の色よりも暗くすることで、評価画面画像が生成されているが、実施の形態1及び2は、このような例に限定されない。例えば、調整距離行列をヒートマップとして可視化し、調整距離行列の欄の値を「色の濃淡」で表現してもよい。例えば、値が小さいほど暗い色、値が大きいほど明るい色となるようなヒートマップで可視化が行なわれてもよい。また、ヒートマップによる表現と、閾値による表現とを組み合わせることも可能である。例えば、予め指定された上限値を超えた欄は全て「ヒートマップにおいて一番明るい色(例えば、白)」、予め指定された下限値を下回った欄は全て「ヒートマップにおいて一番暗い色(例えば、黒)」、残りの欄は、ヒートマップに従って可視化する、といった表現方法が取られてもよい。
100,200,300 データ可視化装置、 101 入力部、 102 記憶部、 103 データ取得部、 104 距離行列算出部、 105 順序調整部、 106 可視化部、 107 表示部、 208,308 ばらつき算出部、 209 順序調整支援部。

Claims (20)

  1. 複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部と、
    前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部と、
    前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部と、
    前記評価画面画像を表示する表示部と、を備えること
    を特徴とする情報処理装置。
  2. 前記複数のラベルから、前記対象ラベルの指定を受け付ける入力部をさらに備えること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出するばらつき算出部と、
    前記複数のラベルと、前記複数のラベルの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記表示部に前記ばらつき結果画面画像を表示させる順序調整支援部と、
    前記複数のラベルから、前記対象ラベルの指定を受け付ける入力部と、をさらに備えること
    を特徴とする請求項1に記載の情報処理装置。
  4. 前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記ばらつき度合いが最も高いラベルを、前記対象ラベルとして指定するばらつき算出部をさらに備えること
    を特徴とする請求項1に記載の情報処理装置。
  5. 前記ばらつき度合いは、前記複数のクラスにおいて、異なるクラスに分類されるサンプル間の類似度の代表値から、同じクラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
    を特徴とする請求項3又は4に記載の情報処理装置。
  6. 前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出するばらつき算出部と、
    前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記表示部に前記ばらつき結果画面画像を表示させる順序調整支援部と、をさらに備えること
    を特徴とする請求項1に記載の情報処理装置。
  7. 前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値から、前記対象クラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
    を特徴とする請求項6に記載の情報処理装置。
  8. 前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値に、前記対象クラスに分類されるサンプル間の類似度の代表値を加算することにより算出されること
    を特徴とする請求項6に記載の情報処理装置。
  9. 前記評価画面画像は、前記調整類似度行列の前記複数の列及び前記複数の行に対応付けて、前記対象ラベルにおける前記複数のクラスを示すこと
    を特徴とする請求項1から8の何れか一項に記載の情報処理装置。
  10. データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、
    前記ばらつき結果画面画像を表示する表示部と、を備えること
    を特徴とする情報処理装置。
  11. 前記ばらつき度合いは、前記複数のクラスにおける異なるクラスに分類されるサンプル間の類似度の代表値の平均から、前記複数のクラスにおける同じクラスに分類されるサンプル間の類似度の代表値の平均を減算することにより算出されること
    を特徴とする請求項10に記載の情報処理装置。
  12. データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、
    前記ばらつき結果画面画像を表示する表示部と、を備えること
    を特徴とする情報処理装置。
  13. 前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値の平均から、前記対象クラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
    を特徴とする請求項12に記載の情報処理装置。
  14. 前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値に、前記対象クラスに含まれる同じクラスに分類されるサンプル間の類似度の代表値を加算することにより算出されること
    を特徴とする請求項12に記載の情報処理装置。
  15. コンピュータを、
    複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部、及び、
    前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部、
    前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部、及び、
    前記評価画面画像を表示する表示部、として機能させること
    を特徴とするプログラム。
  16. コンピュータを、
    データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、
    前記ばらつき結果画面画像を表示する表示部、として機能させること
    を特徴とするプログラム。
  17. コンピュータを、
    データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、
    前記ばらつき結果画面画像を表示する表示部、として機能させること
    を特徴とするプログラム。
  18. 複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成し、
    前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成し、
    前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成し、
    前記評価画面画像を表示すること
    を特徴とする情報処理方法。
  19. データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、
    前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、
    前記ばらつき結果画面画像を表示すること
    を特徴とする情報処理方法。
  20. データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、同じクラスにラベリングされるサンプルと、別のクラスにラベリングされるサンプルとにより生じるばらつき度合いを算出し、
    前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、
    前記ばらつき結果画面画像を表示すること
    を特徴とする情報処理方法。
JP2021571818A 2020-03-13 2020-03-13 情報処理装置、プログラム及び情報処理方法 Active JP7130153B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/011066 WO2021181654A1 (ja) 2020-03-13 2020-03-13 情報処理装置、プログラム及び情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2021181654A1 JPWO2021181654A1 (ja) 2021-09-16
JP7130153B2 true JP7130153B2 (ja) 2022-09-02

Family

ID=77671066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021571818A Active JP7130153B2 (ja) 2020-03-13 2020-03-13 情報処理装置、プログラム及び情報処理方法

Country Status (7)

Country Link
US (1) US20220383147A1 (ja)
JP (1) JP7130153B2 (ja)
KR (1) KR102552786B1 (ja)
CN (1) CN115280307A (ja)
DE (1) DE112020006501T5 (ja)
TW (1) TWI807214B (ja)
WO (1) WO2021181654A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114286088A (zh) * 2021-12-21 2022-04-05 长沙景嘉微电子股份有限公司 应用于图形处理器的视频花屏检测方法、设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108111A (ja) 2003-10-01 2005-04-21 Research Organization Of Information & Systems グループ間分別項目決定方法および同方法を実行するためのプログラム
WO2010061813A1 (ja) 2008-11-26 2010-06-03 日本電気株式会社 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
WO2017179258A1 (ja) 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、及び情報処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225637A (ja) 2014-05-30 2015-12-14 アズビル株式会社 相関分析装置、相関分析方法、および相関分析用プログラム
TWI682368B (zh) * 2018-07-03 2020-01-11 緯創資通股份有限公司 利用多維度感測器資料之監控系統及監控方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108111A (ja) 2003-10-01 2005-04-21 Research Organization Of Information & Systems グループ間分別項目決定方法および同方法を実行するためのプログラム
WO2010061813A1 (ja) 2008-11-26 2010-06-03 日本電気株式会社 能動計量学習装置、能動計量学習方法および能動計量学習プログラム
WO2017179258A1 (ja) 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、及び情報処理方法

Also Published As

Publication number Publication date
CN115280307A (zh) 2022-11-01
JPWO2021181654A1 (ja) 2021-09-16
DE112020006501T5 (de) 2022-11-17
KR102552786B1 (ko) 2023-07-06
WO2021181654A1 (ja) 2021-09-16
TW202134922A (zh) 2021-09-16
TWI807214B (zh) 2023-07-01
US20220383147A1 (en) 2022-12-01
KR20220127347A (ko) 2022-09-19

Similar Documents

Publication Publication Date Title
US11551111B2 (en) Detection and use of anomalies in an industrial environment
KR101102004B1 (ko) 3차원 입체 영상에 대한 피로도를 정량화하는 방법 및시스템
US11703845B2 (en) Abnormality predicting system and abnormality predicting method
JP6237774B2 (ja) 情報処理システム、情報処理方法及びプログラム
US20210142099A1 (en) Pointer recognition for analog instrument image analysis
JP6828807B2 (ja) データ解析装置、データ解析方法およびデータ解析プログラム
US20200125481A1 (en) Screen recording preparation method for evaluating software usability, computing system, computer program and computer-readable storage medium implementing the method
JP6952660B2 (ja) 更新支援装置、更新支援方法およびプログラム
JP7130153B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP5995756B2 (ja) 欠陥検出装置、欠陥検出方法および欠陥検出プログラム
JP2022092419A (ja) データ解析装置、方法およびシステム
JP2017010577A5 (ja) 医療診断支援装置、医療診断支援システム、情報処理方法及びプログラム
JP2013218607A (ja) ソフトウェア品質評価装置、ソフトウェア品質評価方法、及び、プログラム
CN113870255B (zh) Mini LED产品缺陷检测方法及相关设备
JP2020057289A (ja) 情報処理装置、算出方法および算出プログラム
JP2022002029A (ja) データ解析システム、データ解析方法及びデータ解析プログラム
JP2023028393A (ja) データ処理装置、方法及びプログラム
CN112513892B (zh) 信息处理装置、计算机可读的记录介质及信息处理方法
JP2017164068A (ja) 判定装置、分析装置、算出装置、判定方法、分析方法、算出方法、判定プログラム、分析プログラムおよび算出プログラム
JP7003334B2 (ja) 情報処理装置、プログラム及び情報処理方法
US20190156530A1 (en) Visualization method, visualization device, and recording medium
US20240094091A1 (en) Manufacturing data analysis device, system, and method
US20240094092A1 (en) Manufacturing data analysis device and method
US20240249541A1 (en) Image analysis method, image analysis device and computer program for implementing image analysis method
US20230103374A1 (en) Visualization method, program for the same, visualization device, and discrimination device having the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211202

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220823

R150 Certificate of patent or registration of utility model

Ref document number: 7130153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150