JP6771705B2 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
JP6771705B2
JP6771705B2 JP2020533929A JP2020533929A JP6771705B2 JP 6771705 B2 JP6771705 B2 JP 6771705B2 JP 2020533929 A JP2020533929 A JP 2020533929A JP 2020533929 A JP2020533929 A JP 2020533929A JP 6771705 B2 JP6771705 B2 JP 6771705B2
Authority
JP
Japan
Prior art keywords
clustering
information processing
determination unit
processing apparatus
possibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020533929A
Other languages
English (en)
Other versions
JPWO2020026332A1 (ja
Inventor
信秋 田中
信秋 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6771705B2 publication Critical patent/JP6771705B2/ja
Publication of JPWO2020026332A1 publication Critical patent/JPWO2020026332A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。
深層学習及びその関連技術の進歩により、画像又は音声に関する複雑な認識タスクを行うことができるシステムが既に一般的なものとなっている。このようなシステムでは、大量の学習データからその潜在的な構造を自動的に見つけだすことができ、これにより深層学習以前の古典的な手法では達成し得なかった高い汎化性能を実現した。
しかし、そのようなシステムは、学習に利用することができる豊富なラベル付きデータが得られないような状況においては機能しない。その一方で、現実に存在する様々なタスクにおいては、豊富な学習データが得られる状況というのは非常に稀である。従って、ほとんどの場合において、深層学習を始めとする非古典的な手法は役に立たないというのが実情である。
例えば、機器から発生する音や振動に基づき、その機器の健全性を自動的に診断する手法は古くから研究されており、これまで様々な手法が開発されている。例えば、非特許文献1に記載されているMT(マハラノビス・タグチ)法は、その中でもっとも代表的な手法のひとつである。MT法では、正常サンプルが分布している特徴空間を事前に基準空間として学習しておき、診断時には観測された特徴ベクトルが基準空間からどの程度乖離しているかによって正常又は異常の判定を行う。
MT法等の古典的な手法では、特徴の抽出において経験的な知見を盛り込んだり、特徴ベクトルの分布に関する仮定をおいたりすることで、学習されるモデルに適切な制約を課すことが容易にできる。そのため、このような手法では深層学習で必要とされるような大量のデータは必要とならない。
立林和夫 著、「入門タグチメソッド」、株式会社日科技連出版社、2004年、P.167−185
しかしながら、古典的な手法では、学習に必要なデータが少量で済む分、その質が高くなければ機能しないという問題がある。ところが、このような分野において、測定するデータの質を向上させるという観点の技術は非常に少ない。特に、対象とするタスクに固有の知識を必要としない一般的な方法はほとんど存在しない上、測定したデータの質を定量的に示す方法すら十分には確立されていない。
そこで、本発明の1又は複数の態様は、使用されるデータ集合の均質性を判定できる一般的な手段を提供することを目的とする。
本発明の1態様に係る情報処理装置は、複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶する記憶部と、前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成する特徴抽出部と、前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定するクラスタリング判定部と、を備えることを特徴とする。
本発明の1態様に係るプログラムは、コンピュータを、複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶する記憶部、前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成する特徴抽出部、及び、前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定するクラスタリング判定部、として機能させることを特徴とする。
本発明の1態様に係る情報処理方法は、複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶し、前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成し、前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定することを特徴とする。
本発明の1又は複数の態様によれば、使用されるデータ集合の均質性を判定できる一般的な手段を提供することができる。
情報処理装置の構成を概略的に示すブロック図である。 (A)及び(B)は、ハードウェア構成例を示すブロック図である。 情報処理装置の第1の動作例を示すフローチャートである。 情報処理装置の第2の動作例を示すフローチャートである。
以降では、実施の形態として、モータの振動を示すデータ集合の均質性を判定する場合を想定する。モータの振動に基づいてそのモータの健全性を判定するような場合、多変量解析又は機械学習を用いるならば、学習に使用するデータ集合は均質でなければならない。ここでは、その均質性を判定する情報処理装置及び情報処理方法を説明する。
図1は、実施の形態1に係る情報処理装置100の構成を概略的に示すブロック図である。
実施の形態1では、センサ110によって対象とするモータの振動を測定する。センサ110による測定結果を示す測定信号SSは、AD変換器111によってデジタルデータDDに変換される。
ラベル付加部112は、AD変換器111により変換されたデジタルデータDDに対応するラベルRDを付加する。デジタルデータDD及びラベルRDは、情報処理装置100に入力され、処理される。なお、ここでは、デジタルデータDDの均質性とは無関係であることが期待されるラベルRDが付加されるものとする。
ここで付加されるラベルRDは、そのデジタルデータDDがいつ測定されたか、誰によって測定されたか、又は、どの場所で測定されたか等を示すものが想定される。このようなラベルRDは、人手で入力するようにしてもよいが、時計を内蔵した計算機等を利用して自動的に生成するようにしてもよい。
情報処理装置100は、入力部101と、記憶部102と、特徴抽出部103と、クラスタリング判定部104と、出力部105と、表示部106とを備える。
入力部101は、AD変換器111で変換されたデジタルデータDD及びラベル付加部112で付加されたラベルRDの入力を受ける。そして、入力部101は、入力されたデジタルデータDD及びラベルRDを記憶部102に送る。なお、AD変換器111及びラベル付加部112からは、順次、デジタルデータDD及びそれに付加されたラベルRDが送られてくるものとする。
記憶部102は、入力部101から送られてきたデジタルデータDD及びラベルRDの集合を、データ集合DG及びラベル集合RGとして記憶する。言い換えると、データ集合DGは、複数のデジタルデータDDを含み、ラベル集合RGは、複数のデジタルデータDDの各々に各々が付加された複数のラベルRDを含む。
特徴抽出部103は、記憶部102から得られるデータ集合DGに含まれている各々のデジタルデータDDから、予め定められた特徴を抽出し、抽出された特徴を示す特徴ベクトルの集合である特徴ベクトル集合BGを生成する。そして、特徴抽出部103は、特徴ベクトル集合BGを、クラスタリング判定部104に与える。振動データであるデジタルデータDDから特徴抽出を行う手法としては、例えば、フィルタバンク分析、ウェーブレット解析、LPC(Linear Predictive Coding)分析又はケプストラム分析等がある。
クラスタリング判定部104は、特徴抽出部103から得られる特徴ベクトル集合BGと、記憶部102から得られるラベル集合RGとに基づき、クラスタリングを試行し、クラスタリングの可能性を判断して、データ集合の均質性を判定する。そして、クラスタリング判定部104は、判定結果REを出力部105に与える。ここでは、クラスタリング判定部104は、クラスタリングの可能性として、クラスタリングを行うことができるか否かを判断するが、例えば、クラスタリングを行うことができる度合いを判断してもよい。
ここでは、誰がそのデータを測定したか等のラベルRDによって教師有りクラスタリングが試行される。例えば、データを測定した人を示すラベルRDを用いてクラスタリングを行う場合を考える。本来的には、誰がセンサ110を用いてモータの振動を測定したかという情報は、データ集合DGの均質性とは無関係であることが期待される。従って、均質性の高いデータを想定するならば、モータの振動を測定した人を示すラベルRDを用いてクラスタリングを試行すると、クラスタリングは失敗するはずである。
このため、もしもモータの振動を測定した人を示すラベルRDを用いたクラスタリングが成功した場合、そのデータ集合DGは測定した人によって異なる偏りが発生していると解釈することができる。
同様に、モータの振動を測定した日付をラベルRDとするクラスタリングが成功した場合は、時間経過を要因とするデジタルデータDDの不均質が生じていると解釈することができる。
以上のように、データ集合DGの均質性とは無関係であるラベルRDを用いて、教師ありのクラスタリングを試行することで、そのデータ集合DGの均質性を判定することができる。その上、どのラベルRDによるクラスタリングが失敗したかが分かれば、データ集合DGに生じている不均質性の要因を特定するための手がかりを得ることができる。さらに、教師有りクラスタリングは、一般的に小規模なデータ集合に対しても頑健なクラスタリングを行うことができるため、大量のデータを収集することが困難なタスクに対しても対応することが可能である。
例えば、クラスタリング判定部104は、線形判別分析、サポートベクターマシン、混合正規分布モデル又はニューラルネットワークといったアルゴリズムを使用して、ラベル集合RGを用いた教師ありのクラスタリングを試行する。具体的には、線形判別分析を用いた場合、クラスタリング判定部104は、同一のクラスタの特徴ベクトル同士が近付き(分散が小さくなり)、異なるクラスタの特徴ベクトル同士が遠くなる(分散が大きくなる)ように特徴ベクトルを変換する行列を計算することで、クラスタリングを試行する。
具体的には、クラスタリング判定部104は、教師ありのクラスタリングにより、特徴ベクトル集合BGに含まれる複数の特徴ベクトルの各々を複数のクラスタの何れかに分類し、複数のクラスタに分類された複数の特徴ベクトルに対してパラメトリックな分布を当て嵌め、複数のクラスタの乖離度合いを用いて、クラスタリングの可能性を判断する。
例えば、クラスタリング判定部104は、複数の特徴ベクトルに対して正規分布を当て嵌め、乖離度合いをマハラノビス距離又はバタチャリヤ距離によって計量すればよい。
また、クラスタリング判定部104は、教師ありのクラスタリングにより、複数の特徴ベクトルを複数のクラスタに分類し、複数のクラスタの各々に分類された複数の特徴ベクトルに対して、複数のクラスタの各々が乖離するような射影変換を行い、複数のクラスタの乖離度合いを用いて、クラスタリングの可能性を判断してもよい。
ここで、クラスタリング判定部104は、射影変換を、判別分析により実行してもよく、マージン最大化基準に基づいて実行してもよい。
出力部105は、クラスタリング判定部104から得られる判定結果REをユーザに出力する。例えば、あるラベルRDによるクラスタリングが成功した場合、出力部105は、そのデータ集合は均質ではないという情報を、表示部106に表示させる。
このとき、クラスタリング判定部104が出力する判定結果REは、必ずしもデータ集合が均質か不均質かの2値である必要はなく、クラスタリングを行うことができる度合いに応じた連続値等でもよい。連続値としては、例えば、異なるクラスタ同士の距離、クラスタリング結果の正解率等があり、そのような連続値により、クラスタリングを行うことができる度合いを示すことができる。このような場合、出力部105はクラスタリング判定部104が出力する値に応じて、そのデータ集合がどの程度均質かをユーザに伝達することができる。
また、出力部105は、クラスタリングが成功したラベルに応じて、そのデータ集合DGに生じている不均質性の要因を表示部106に表示させることで、ユーザにデータ収集工程の改善を促すこともできる。例えば、出力部105は、誰がデータを測定したかを示すラベルによるクラスタリングが成功した場合、人によってデータの測定結果にばらつきがある旨を示す表示画像DIを生成し、その表示画像DIを表示部106に表示させる。
表示部106は、出力部105からの指示に応じて、各種表示画像DIを表示する。
以上に記載された特徴抽出部103、クラスタリング判定部104及び出力部105の一部又は全部は、例えば、図2(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU(Central Processing Unit)等のプロセッサ11とにより構成することができる。このようなプログラムは、ネットワークを通じてコンピュータに提供されてもよく、また、記録媒体に記録されてコンピュータに提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
また、特徴抽出部103、クラスタリング判定部104及び出力部105の一部又は全部は、例えば、図2(B)に示されているように、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuits)又はFPGA(Field Programmable Gate Array)等の処理回路12で構成することもできる。
なお、入力部101は、データを入力するためのインターフェースにより、記憶部102は、メモリ又はハードディスクドライブ等の記憶装置により、表示部106は、ディスプレイにより実現することができる。
図3は、情報処理装置100の第1の動作例を示すフローチャートである。
図3は、ある単一の種類のラベル集合RGを用いてクラスタリングを行い、データ集合DGの均質性の判定を行う場合を示している。
まず、特徴抽出部103は、記憶部102からデータ集合DGを読み込み、クラスタリング判定部104は、記憶部102からラベル集合RGを読み込む(S10)。
特徴抽出部103は、データ集合DGに含まれている各々のデジタルデータDDから特徴抽出を行い、抽出された特徴を示す特徴ベクトルの集合である特徴ベクトル集合BGを生成する(S11)。生成された特徴ベクトル集合BGは、クラスタリング判定部104に与えられる。
クラスタリング判定部104は、特徴抽出部103から得られる特徴ベクトル集合BGと、記憶部102から得られるラベル集合RGとに基づきクラスタリングを試行する(S12)。
そして、クラスタリング判定部104は、クラスタリングの可能性を判断する(S13)。ここでは、クラスタリングの可能性として、クラスタリングに成功したか否かが判断されるものとする。クラスタリングに成功した場合(S13でYes)には、処理はステップS14に進み、クラスタリングに失敗した場合(S13でNo)には、処理はステップS15に進む。
ステップS14では、クラスタリング判定部104は、記憶部102から読み込まれたデータ集合DGを不均質であると判定し、そのような判定結果REを出力部105に与える。出力部105は、そのような判定結果REを示す表示画像DIを生成し、表示部106にその表示画像DIを表示させる。
ステップS15では、クラスタリング判定部104は、記憶部102から読み込まれたデータ集合DGを均質であると判定し、そのような判定結果REを出力部105に与える。出力部105は、そのような判定結果REを示す表示画像DIを生成し、表示部106にその表示画像DIを表示させる。
なお、図3のステップS13では、クラスタリング判定部104は、クラスタリングの可能性の判断として、クラスタリングに成功したか否かを判断しているが、実施の形態は、このような例に限定されない。例えば、ステップS12において、クラスタリング判定部104が、クラスタリングを行うことができる度合いを算出している場合には、ステップS13では、クラスタリング判定部104は、算出された度合いを予め定められた閾値と比較することにより、クラスタリングの可能性が予め定められた可能性以上であり、クラスタリングの可能性が高いと判断した場合には、処理をステップS14に進め、クラスタリングの可能性が予め定められた可能性よりも低く、クラスタリングの可能性が低いと判断した場合には、処理をステップS15に進める。
また、クラスタリング判定部104が、クラスタリングを行うことができる度合いを算出している場合には、クラスタリング判定部104は、図3に示されているステップS13〜S15の処理を行わずに、算出された度合いに応じて、データ集合DGの均質性を示す度合いを、出力部105を介して表示部106に表示させてもよい。このような場合には、クラスタリングを行うことができる度合いが高ければ高いほど、データ集合DGの均質性は、低くなる。
図4は、情報処理装置100の第2の動作例を示すフローチャートである。
図4は、複数の種類のラベル集合RGが存在する場合に、複数のラベル集合RGを用いてクラスタリングを行い、データ集合DGの均質性の判定を行う場合を示している。
まず、特徴抽出部103は、記憶部102からデータ集合DGを読み込み、クラスタリング判定部104は、記憶部102から複数のラベル集合RGを読み込む(S20)。
特徴抽出部103は、データ集合DGに含まれている各々のデジタルデータDDから特徴抽出を行い、抽出された特徴を示す特徴ベクトルの集合である特徴ベクトル集合BGを生成する(S21)。生成された特徴ベクトル集合BGは、クラスタリング判定部104に与えられる。
クラスタリング判定部104は、記憶部102から得られる複数のラベル集合RGの全てをクラスタリングの可能性の判断に使用したか否かを判断する(S22)。未だ使用していないラベル集合RGがある場合(S22でNo)には、処理はステップS23に進み、全てのラベル集合RGを使用した場合(S22でYes)には、処理はステップS27に進む。
ステップS23では、クラスタリング判定部104は、記憶部102から得られる複数のラベル集合RGの内、クラスタリングの可能性の判断に未だ使用されていない1つのラベル集合RGを特定する。
次に、クラスタリング判定部104は、特徴抽出部103から得られる特徴ベクトル集合BGと、ステップS23で特定されたラベル集合RGとに基づきクラスタリングを試行する(S24)。
そして、クラスタリング判定部104は、クラスタリングの可能性を判断する(S25)。クラスタリングに成功した場合(S25でYes)には、処理はステップS26に進み、クラスタリングに失敗した場合(S25でNo)には、処理はステップS22に戻る。
ステップS26では、クラスタリング判定部104は、記憶部102から読み込まれたデータ集合DGを不均質であると判定し、そのような判定結果REを出力部105に与える。出力部105は、そのような判定結果REを示す表示画像DIを生成し、表示部106にその表示画像DIを表示させる。
ステップS27では、クラスタリング判定部104は、記憶部102から読み込まれたデータ集合DGを均質であると判定し、そのような判定結果REを出力部105に与える。出力部105は、そのような判定結果REを示す表示画像DIを生成し、表示部106にその表示画像DIを表示させる。
なお、図4のステップS25では、クラスタリング判定部104は、クラスタリングの可能性の判断として、クラスタリングに成功したか否かを判断しているが、実施の形態は、このような例に限定されない。例えば、ステップS24において、クラスタリング判定部104が、クラスタリングを行うことができる度合いを算出している場合には、ステップS25では、クラスタリング判定部104は、算出された度合いを予め定められた閾値と比較することにより、クラスタリングの可能性が予め定められた可能性以上であり、クラスタリングの可能性が高いと判断した場合には、処理をステップS26に進め、クラスタリングの可能性が予め定められた可能性よりも低く、クラスタリングの可能性が低いと判断した場合には、処理をステップS27に進める。
また、クラスタリング判定部104が、クラスタリングを行うことができる度合いを算出している場合には、クラスタリング判定部104は、図4に示されているステップS22、S25〜S27の処理を行わずに、全てのラベル集合RGについてクラスタリングを行うことができる度合いを算出し、ラベル集合RGの種類毎に、算出された度合いに応じて、データ集合DGの均質性を示す度合いを、出力部105を介して表示部106に表示させてもよい。このような場合には、クラスタリングを行うことができる度合いが高ければ高いほど、データ集合DGの均質性は、低くなる。
以上のように、データ集合DGに付加されたラベル集合RGに基づいてデータ集合DGに対する教師有りのクラスタリングを試行して、クラスタリングの可能性を判断することで、対象とするタスクに固有の知識を必要とせずに、なおかつデータ集合DGが小規模であってもデータ集合DGの均質性を正確に判定することが可能となる。
ここで、デジタルデータDDの均質性とは無関係の内容を示すラベルRDを用いることで、クラスタリングの可能性が低い場合に、データ集合DGが均質であることを判定することができる。
クラスタリング判定部104での判定結果REを示す表示画像DIを表示する表示部106をさらに備えることで、その判定結果REをユーザに伝達することができる。
クラスタリングの可能性は、クラスタリングを行うことができるか否かとすることで、データ集合DGが均質か否かを容易に判定することができる。
クラスタリングの可能性は、クラスタリングを行うことができる度合いとすることで、データ集合DGが均質か否かを容易に判定することができ、また、データ集合DGの均質性も均質である度合いとして示すこともできる。
なお、クラスタリングにより複数のクラスタに分類された複数の特徴ベクトルに対して、パラメトリックな分布を当て嵌め、複数のクラスタの乖離度合いによってクラスタリングの可能性を判断することにより、特徴ベクトル集合BGを直接扱う場合と比較して計算量を低く抑えることができるため、高速なデータ処理が可能となる。
また、上述のパラメトリックな分布として正規分布を用いる場合、正規分布の推定に関する数値計算は、多変量解析等を扱う多くの数値計算ライブラリに実装されており、組み込みが容易であるため、情報処理装置100の実装に掛かるコストを低く抑えることができる。
上述したパラメトリックな分布として正規分布を用い、複数のクラスタの乖離度合いをマハラノビス距離によって計量すれば、分布の形状を考慮した高精度な乖離度合いを求めることができ、均質性の判定精度を高くすることができる。また、マハラノビス距離の算出法は、正規分布関連の数値計算と同様に、多くの数値計算ライブラリに実装されているため、データ処理装置の実装に掛かるコストを低く抑えることができる。
正規分布の乖離度合いにバタチャリヤ距離を用いる場合は、複数のクラスタの乖離度合いを計量する際に同一の分布形状を仮定するマハラノビス距離とは異なり、複数のクラスタの形状の差異が考慮されるため、更に判定精度を高くすることができる。
以上の方法は、基本的にデータ集合の分布が正規分布となることを仮定しているため、そうでない場合は判定精度が劣化する可能性がある。そこで、複数のクラスタの各々に属する特徴ベクトルに対して、複数のクラスタが乖離するような射影変換を行い、変換後の各クラスタの乖離度合いによってクラスタリングの可能性を判断することで、データ集合DGの分布が正規分布でない場合でも高い判定精度が実現できる。
この際、射影変換を判別分析によって生成することができる。判別分析は、扱うデータの規模が大きい場合でも計算を高速に行うことができるため、データ処理に掛かる時間を短縮することができる。
また、射影変換をマージン最大化基準に基づき生成すると、少量のデータでも頑健な判定結果を得ることができる。
100 情報処理装置、 101 入力部、 102 記憶部、 103 特徴抽出部、 104 クラスタリング判定部、 105 出力部、 106 表示部、 110 センサ、 111 AD変換器、 112 ラベル付加部。

Claims (17)

  1. 複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶する記憶部と、
    前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成する特徴抽出部と、
    前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定するクラスタリング判定部と、を備えること
    を特徴とする情報処理装置。
  2. 前記ラベルは、前記デジタルデータの均質性とは無関係の内容を示すこと
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記クラスタリング判定部での判定結果を表示する表示部をさらに備えること
    を特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記クラスタリングの可能性は、前記クラスタリングを行うことができるか否かであること
    を特徴とする請求項1から3の何れか一項に記載の情報処理装置。
  5. 前記クラスタリング判定部は、前記クラスタリングを行うことができると判断した場合には、前記データ集合が不均質であると判定し、前記クラスタリングを行うことができないと判断した場合には、前記データ集合が均質であると判定すること
    を特徴とする請求項4に記載の情報処理装置。
  6. 前記クラスタリングの可能性は、前記クラスタリングを行うことができる度合いであること
    を特徴とする請求項1から3の何れか一項に記載の情報処理装置。
  7. 前記クラスタリング判定部は、前記度合いを予め定められた閾値と比較することで、前記クラスタリングの可能性が高いと判断した場合には、前記データ集合が不均質であると判定し、前記クラスタリングの可能性が低いと判断した場合には、前記データ集合が均質であると判定すること
    を特徴とする請求項6に記載の情報処理装置。
  8. 前記クラスタリング判定部は、前記度合いが高ければ高いほど、前記均質性が低いと判定すること
    を特徴とする請求項6に記載の情報処理装置。
  9. 前記クラスタリング判定部は、前記クラスタリングにより、前記複数の特徴ベクトルの各々を複数のクラスタの何れかに分類し、前記複数の特徴ベクトルに対してパラメトリックな分布を当て嵌め、前記複数のクラスタの乖離度合いを用いて、前記クラスタリングの可能性を判断すること
    を特徴とする請求項1から8の何れか一項に記載の情報処理装置。
  10. 前記パラメトリックな分布は、正規分布であること
    を特徴とする請求項9に記載の情報処理装置。
  11. 前記クラスタリング判定部は、前記乖離度合いをマハラノビス距離によって計量すること
    を特徴とする請求項9又は10に記載の情報処理装置。
  12. 前記クラスタリング判定部は、前記乖離度合いをバタチャリヤ距離によって計量すること
    を特徴とする請求項9又は10に記載の情報処理装置。
  13. 前記クラスタリング判定部は、前記クラスタリングにより、前記複数の特徴ベクトルの各々を複数のクラスタの何れかに分類し、前記複数の特徴ベクトルに対して、前記複数のクラスタの各々が乖離するような射影変換を行い、前記複数のクラスタの乖離度合いを用いて、前記クラスタリングの可能性を判断すること
    を特徴とする請求項1から8の何れか一項に記載の情報処理装置。
  14. 前記クラスタリング判定部は、前記射影変換を、判別分析により実行すること
    を特徴とする請求項13に記載の情報処理装置。
  15. 前記クラスタリング判定部は、前記射影変換を、マージン最大化基準に基づいて実行すること
    を特徴とする請求項13に記載の情報処理装置。
  16. コンピュータを、
    複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶する記憶部、
    前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成する特徴抽出部、及び、
    前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定するクラスタリング判定部、として機能させること
    を特徴とするプログラム。
  17. 複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶し、
    前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成し、
    前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定すること
    を特徴とする情報処理方法。
JP2020533929A 2018-07-31 2018-07-31 情報処理装置、プログラム及び情報処理方法 Active JP6771705B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/028584 WO2020026332A1 (ja) 2018-07-31 2018-07-31 情報処理装置、プログラム及び情報処理方法

Publications (2)

Publication Number Publication Date
JP6771705B2 true JP6771705B2 (ja) 2020-10-21
JPWO2020026332A1 JPWO2020026332A1 (ja) 2020-10-22

Family

ID=69232128

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533929A Active JP6771705B2 (ja) 2018-07-31 2018-07-31 情報処理装置、プログラム及び情報処理方法

Country Status (7)

Country Link
US (1) US11366835B2 (ja)
JP (1) JP6771705B2 (ja)
KR (1) KR102334489B1 (ja)
CN (1) CN112513892B (ja)
DE (1) DE112018007776T5 (ja)
TW (1) TWI735010B (ja)
WO (1) WO2020026332A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI768606B (zh) * 2020-12-18 2022-06-21 日月光半導體製造股份有限公司 感測器監測系統及方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185720A (ja) * 1995-12-28 1997-07-15 Canon Inc 画像抽出装置
JP2001100780A (ja) * 1999-09-28 2001-04-13 Mitsubishi Electric Corp 音声モデル作成装置,音声認識装置,音声モデル作成方法及び音声認識方法
US7003509B2 (en) * 2003-07-21 2006-02-21 Leonid Andreev High-dimensional data clustering with the use of hybrid similarity matrices
US7308451B1 (en) * 2001-09-04 2007-12-11 Stratify, Inc. Method and system for guided cluster based processing on prototypes
US7010167B1 (en) * 2002-04-30 2006-03-07 The United States Of America As Represented By The National Security Agency Method of geometric linear discriminant analysis pattern recognition
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
TWI241499B (en) * 2004-06-30 2005-10-11 Simpleact Inc A Chinese spam filtering method based on text clustering
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
JP5050607B2 (ja) 2006-05-09 2012-10-17 オムロン株式会社 検査装置、検査方法、検査プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
KR100998456B1 (ko) * 2006-07-06 2010-12-06 아사히 가라스 가부시키가이샤 클러스터링 시스템 및 결함 종류 판정 장치
US8972407B2 (en) * 2007-05-30 2015-03-03 International Business Machines Corporation Information processing method for determining weight of each feature in subjective hierarchical clustering
US8631004B2 (en) * 2009-12-28 2014-01-14 Yahoo! Inc. Search suggestion clustering and presentation
US9547830B2 (en) * 2013-05-07 2017-01-17 Wise.Io, Inc. Scalable, memory-efficient machine learning and prediction for ensembles of decision trees for homogeneous and heterogeneous datasets
KR102190484B1 (ko) * 2013-11-11 2020-12-11 삼성전자주식회사 인식기 학습 방법 및 장치, 데이터 인식 방법 및 장치
FR3027417B1 (fr) * 2014-10-20 2016-11-25 Airbus Operations Sas Procede et systeme de generation de rapports d'alertes dans un aeronef
US10552762B2 (en) * 2015-07-16 2020-02-04 Falkonry Inc. Machine learning of physical conditions based on abstract relations and sparse labels
JP6297206B2 (ja) * 2015-08-11 2018-03-20 三菱電機株式会社 ウェブ閲覧装置およびウェブ閲覧プログラム
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
JP6364037B2 (ja) * 2016-03-16 2018-07-25 セコム株式会社 学習データ選択装置
US11176423B2 (en) * 2016-10-24 2021-11-16 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
WO2018122931A1 (ja) * 2016-12-26 2018-07-05 株式会社Pfu 情報処理装置、方法およびプログラム
CN107967912B (zh) * 2017-11-28 2022-02-25 广州势必可赢网络科技有限公司 一种人声分割方法及装置
EP3935576A4 (en) * 2019-03-06 2022-11-23 Telepathy Labs, Inc. METHOD AND SYSTEM TO SUPPORT A DEVELOPER IN IMPROVING THE ACCURACY OF A CLASSIFIER
US20210374525A1 (en) * 2020-05-28 2021-12-02 International Business Machines Corporation Method and system for processing data records

Also Published As

Publication number Publication date
US11366835B2 (en) 2022-06-21
JPWO2020026332A1 (ja) 2020-10-22
KR20210013292A (ko) 2021-02-03
US20210081438A1 (en) 2021-03-18
CN112513892B (zh) 2024-06-25
TW202008223A (zh) 2020-02-16
KR102334489B1 (ko) 2021-12-02
DE112018007776T5 (de) 2021-04-15
WO2020026332A1 (ja) 2020-02-06
TWI735010B (zh) 2021-08-01
CN112513892A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
US10242087B2 (en) Cluster evaluation in unsupervised learning of continuous data
US11703845B2 (en) Abnormality predicting system and abnormality predicting method
CN108228428B (zh) 用于输出信息的方法和装置
KR20150018642A (ko) 머신 상태 모니터링에서 결함 진단을 위한 일반화된 패턴 인식
JP6821614B2 (ja) モデル学習装置、モデル学習方法、プログラム
US12066918B2 (en) System to track and measure machine learning model efficacy
EP3333757B1 (en) Predictive anomaly detection
EP3686805A1 (en) Associating a population descriptor with a trained model
CN110490304B (zh) 一种数据处理方法及设备
JP6771705B2 (ja) 情報処理装置、プログラム及び情報処理方法
US20130268288A1 (en) Device, method, and program for extracting abnormal event from medical information using feedback information
CN113723525B (zh) 基于遗传算法的产品推荐方法、装置、设备及存储介质
US10692256B2 (en) Visualization method, visualization device, and recording medium
JP7003334B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP2022035161A (ja) 異常検出方法
Granstedt et al. Autoencoder embedding of task-specific information
JP7227772B2 (ja) データアセット分析支援システムおよびデータ分析方法
US20230104299A1 (en) Computational approaches to assessing central nervous system functionality using a digital tablet and stylus
US20230252132A1 (en) Control device, computer program product, and control system
Lanckriet et al. A framework for genomic data fusion and its application to membrane protein prediction
CN118228854A (zh) 一种物料备料预测方法、装置、设备及存储介质
CN118657413A (zh) 基于lsa和hmm模型的计算思维水平评估方法和系统
JP2021089459A (ja) 分析装置、分析方法、及び分析プログラム
JP2012003334A (ja) 文書分類装置、文書分類方法、そのプログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200727

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200727

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200929

R150 Certificate of patent or registration of utility model

Ref document number: 6771705

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250