JP6771705B2

JP6771705B2 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: JP6771705B2
Application number: JP2020533929A
Authority: JP
Inventors: 信秋田中
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2020-10-21
Anticipated expiration: 2038-07-31
Also published as: US11366835B2; JPWO2020026332A1; KR20210013292A; US20210081438A1; CN112513892B; TW202008223A; KR102334489B1; DE112018007776T5; WO2020026332A1; TWI735010B; CN112513892A

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。

深層学習及びその関連技術の進歩により、画像又は音声に関する複雑な認識タスクを行うことができるシステムが既に一般的なものとなっている。このようなシステムでは、大量の学習データからその潜在的な構造を自動的に見つけだすことができ、これにより深層学習以前の古典的な手法では達成し得なかった高い汎化性能を実現した。

しかし、そのようなシステムは、学習に利用することができる豊富なラベル付きデータが得られないような状況においては機能しない。その一方で、現実に存在する様々なタスクにおいては、豊富な学習データが得られる状況というのは非常に稀である。従って、ほとんどの場合において、深層学習を始めとする非古典的な手法は役に立たないというのが実情である。

例えば、機器から発生する音や振動に基づき、その機器の健全性を自動的に診断する手法は古くから研究されており、これまで様々な手法が開発されている。例えば、非特許文献１に記載されているＭＴ（マハラノビス・タグチ）法は、その中でもっとも代表的な手法のひとつである。ＭＴ法では、正常サンプルが分布している特徴空間を事前に基準空間として学習しておき、診断時には観測された特徴ベクトルが基準空間からどの程度乖離しているかによって正常又は異常の判定を行う。

ＭＴ法等の古典的な手法では、特徴の抽出において経験的な知見を盛り込んだり、特徴ベクトルの分布に関する仮定をおいたりすることで、学習されるモデルに適切な制約を課すことが容易にできる。そのため、このような手法では深層学習で必要とされるような大量のデータは必要とならない。

立林和夫著、「入門タグチメソッド」、株式会社日科技連出版社、２００４年、Ｐ．１６７−１８５

しかしながら、古典的な手法では、学習に必要なデータが少量で済む分、その質が高くなければ機能しないという問題がある。ところが、このような分野において、測定するデータの質を向上させるという観点の技術は非常に少ない。特に、対象とするタスクに固有の知識を必要としない一般的な方法はほとんど存在しない上、測定したデータの質を定量的に示す方法すら十分には確立されていない。

そこで、本発明の１又は複数の態様は、使用されるデータ集合の均質性を判定できる一般的な手段を提供することを目的とする。

本発明の１態様に係る情報処理装置は、複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶する記憶部と、前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成する特徴抽出部と、前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定するクラスタリング判定部と、を備えることを特徴とする。

本発明の１態様に係るプログラムは、コンピュータを、複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶する記憶部、前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成する特徴抽出部、及び、前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定するクラスタリング判定部、として機能させることを特徴とする。

本発明の１態様に係る情報処理方法は、複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶し、前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成し、前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定することを特徴とする。

本発明の１又は複数の態様によれば、使用されるデータ集合の均質性を判定できる一般的な手段を提供することができる。

情報処理装置の構成を概略的に示すブロック図である。（Ａ）及び（Ｂ）は、ハードウェア構成例を示すブロック図である。情報処理装置の第１の動作例を示すフローチャートである。情報処理装置の第２の動作例を示すフローチャートである。

以降では、実施の形態として、モータの振動を示すデータ集合の均質性を判定する場合を想定する。モータの振動に基づいてそのモータの健全性を判定するような場合、多変量解析又は機械学習を用いるならば、学習に使用するデータ集合は均質でなければならない。ここでは、その均質性を判定する情報処理装置及び情報処理方法を説明する。

図１は、実施の形態１に係る情報処理装置１００の構成を概略的に示すブロック図である。
実施の形態１では、センサ１１０によって対象とするモータの振動を測定する。センサ１１０による測定結果を示す測定信号ＳＳは、ＡＤ変換器１１１によってデジタルデータＤＤに変換される。

ラベル付加部１１２は、ＡＤ変換器１１１により変換されたデジタルデータＤＤに対応するラベルＲＤを付加する。デジタルデータＤＤ及びラベルＲＤは、情報処理装置１００に入力され、処理される。なお、ここでは、デジタルデータＤＤの均質性とは無関係であることが期待されるラベルＲＤが付加されるものとする。
ここで付加されるラベルＲＤは、そのデジタルデータＤＤがいつ測定されたか、誰によって測定されたか、又は、どの場所で測定されたか等を示すものが想定される。このようなラベルＲＤは、人手で入力するようにしてもよいが、時計を内蔵した計算機等を利用して自動的に生成するようにしてもよい。

情報処理装置１００は、入力部１０１と、記憶部１０２と、特徴抽出部１０３と、クラスタリング判定部１０４と、出力部１０５と、表示部１０６とを備える。
入力部１０１は、ＡＤ変換器１１１で変換されたデジタルデータＤＤ及びラベル付加部１１２で付加されたラベルＲＤの入力を受ける。そして、入力部１０１は、入力されたデジタルデータＤＤ及びラベルＲＤを記憶部１０２に送る。なお、ＡＤ変換器１１１及びラベル付加部１１２からは、順次、デジタルデータＤＤ及びそれに付加されたラベルＲＤが送られてくるものとする。

記憶部１０２は、入力部１０１から送られてきたデジタルデータＤＤ及びラベルＲＤの集合を、データ集合ＤＧ及びラベル集合ＲＧとして記憶する。言い換えると、データ集合ＤＧは、複数のデジタルデータＤＤを含み、ラベル集合ＲＧは、複数のデジタルデータＤＤの各々に各々が付加された複数のラベルＲＤを含む。

特徴抽出部１０３は、記憶部１０２から得られるデータ集合ＤＧに含まれている各々のデジタルデータＤＤから、予め定められた特徴を抽出し、抽出された特徴を示す特徴ベクトルの集合である特徴ベクトル集合ＢＧを生成する。そして、特徴抽出部１０３は、特徴ベクトル集合ＢＧを、クラスタリング判定部１０４に与える。振動データであるデジタルデータＤＤから特徴抽出を行う手法としては、例えば、フィルタバンク分析、ウェーブレット解析、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分析又はケプストラム分析等がある。

クラスタリング判定部１０４は、特徴抽出部１０３から得られる特徴ベクトル集合ＢＧと、記憶部１０２から得られるラベル集合ＲＧとに基づき、クラスタリングを試行し、クラスタリングの可能性を判断して、データ集合の均質性を判定する。そして、クラスタリング判定部１０４は、判定結果ＲＥを出力部１０５に与える。ここでは、クラスタリング判定部１０４は、クラスタリングの可能性として、クラスタリングを行うことができるか否かを判断するが、例えば、クラスタリングを行うことができる度合いを判断してもよい。

ここでは、誰がそのデータを測定したか等のラベルＲＤによって教師有りクラスタリングが試行される。例えば、データを測定した人を示すラベルＲＤを用いてクラスタリングを行う場合を考える。本来的には、誰がセンサ１１０を用いてモータの振動を測定したかという情報は、データ集合ＤＧの均質性とは無関係であることが期待される。従って、均質性の高いデータを想定するならば、モータの振動を測定した人を示すラベルＲＤを用いてクラスタリングを試行すると、クラスタリングは失敗するはずである。

このため、もしもモータの振動を測定した人を示すラベルＲＤを用いたクラスタリングが成功した場合、そのデータ集合ＤＧは測定した人によって異なる偏りが発生していると解釈することができる。
同様に、モータの振動を測定した日付をラベルＲＤとするクラスタリングが成功した場合は、時間経過を要因とするデジタルデータＤＤの不均質が生じていると解釈することができる。

以上のように、データ集合ＤＧの均質性とは無関係であるラベルＲＤを用いて、教師ありのクラスタリングを試行することで、そのデータ集合ＤＧの均質性を判定することができる。その上、どのラベルＲＤによるクラスタリングが失敗したかが分かれば、データ集合ＤＧに生じている不均質性の要因を特定するための手がかりを得ることができる。さらに、教師有りクラスタリングは、一般的に小規模なデータ集合に対しても頑健なクラスタリングを行うことができるため、大量のデータを収集することが困難なタスクに対しても対応することが可能である。

例えば、クラスタリング判定部１０４は、線形判別分析、サポートベクターマシン、混合正規分布モデル又はニューラルネットワークといったアルゴリズムを使用して、ラベル集合ＲＧを用いた教師ありのクラスタリングを試行する。具体的には、線形判別分析を用いた場合、クラスタリング判定部１０４は、同一のクラスタの特徴ベクトル同士が近付き(分散が小さくなり)、異なるクラスタの特徴ベクトル同士が遠くなる(分散が大きくなる)ように特徴ベクトルを変換する行列を計算することで、クラスタリングを試行する。

具体的には、クラスタリング判定部１０４は、教師ありのクラスタリングにより、特徴ベクトル集合ＢＧに含まれる複数の特徴ベクトルの各々を複数のクラスタの何れかに分類し、複数のクラスタに分類された複数の特徴ベクトルに対してパラメトリックな分布を当て嵌め、複数のクラスタの乖離度合いを用いて、クラスタリングの可能性を判断する。

例えば、クラスタリング判定部１０４は、複数の特徴ベクトルに対して正規分布を当て嵌め、乖離度合いをマハラノビス距離又はバタチャリヤ距離によって計量すればよい。

また、クラスタリング判定部１０４は、教師ありのクラスタリングにより、複数の特徴ベクトルを複数のクラスタに分類し、複数のクラスタの各々に分類された複数の特徴ベクトルに対して、複数のクラスタの各々が乖離するような射影変換を行い、複数のクラスタの乖離度合いを用いて、クラスタリングの可能性を判断してもよい。

ここで、クラスタリング判定部１０４は、射影変換を、判別分析により実行してもよく、マージン最大化基準に基づいて実行してもよい。

出力部１０５は、クラスタリング判定部１０４から得られる判定結果ＲＥをユーザに出力する。例えば、あるラベルＲＤによるクラスタリングが成功した場合、出力部１０５は、そのデータ集合は均質ではないという情報を、表示部１０６に表示させる。

このとき、クラスタリング判定部１０４が出力する判定結果ＲＥは、必ずしもデータ集合が均質か不均質かの２値である必要はなく、クラスタリングを行うことができる度合いに応じた連続値等でもよい。連続値としては、例えば、異なるクラスタ同士の距離、クラスタリング結果の正解率等があり、そのような連続値により、クラスタリングを行うことができる度合いを示すことができる。このような場合、出力部１０５はクラスタリング判定部１０４が出力する値に応じて、そのデータ集合がどの程度均質かをユーザに伝達することができる。

また、出力部１０５は、クラスタリングが成功したラベルに応じて、そのデータ集合ＤＧに生じている不均質性の要因を表示部１０６に表示させることで、ユーザにデータ収集工程の改善を促すこともできる。例えば、出力部１０５は、誰がデータを測定したかを示すラベルによるクラスタリングが成功した場合、人によってデータの測定結果にばらつきがある旨を示す表示画像ＤＩを生成し、その表示画像ＤＩを表示部１０６に表示させる。
表示部１０６は、出力部１０５からの指示に応じて、各種表示画像ＤＩを表示する。

以上に記載された特徴抽出部１０３、クラスタリング判定部１０４及び出力部１０５の一部又は全部は、例えば、図２（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサ１１とにより構成することができる。このようなプログラムは、ネットワークを通じてコンピュータに提供されてもよく、また、記録媒体に記録されてコンピュータに提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

また、特徴抽出部１０３、クラスタリング判定部１０４及び出力部１０５の一部又は全部は、例えば、図２（Ｂ）に示されているように、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）又はＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の処理回路１２で構成することもできる。

なお、入力部１０１は、データを入力するためのインターフェースにより、記憶部１０２は、メモリ又はハードディスクドライブ等の記憶装置により、表示部１０６は、ディスプレイにより実現することができる。

図３は、情報処理装置１００の第１の動作例を示すフローチャートである。
図３は、ある単一の種類のラベル集合ＲＧを用いてクラスタリングを行い、データ集合ＤＧの均質性の判定を行う場合を示している。

まず、特徴抽出部１０３は、記憶部１０２からデータ集合ＤＧを読み込み、クラスタリング判定部１０４は、記憶部１０２からラベル集合ＲＧを読み込む（Ｓ１０）。
特徴抽出部１０３は、データ集合ＤＧに含まれている各々のデジタルデータＤＤから特徴抽出を行い、抽出された特徴を示す特徴ベクトルの集合である特徴ベクトル集合ＢＧを生成する（Ｓ１１）。生成された特徴ベクトル集合ＢＧは、クラスタリング判定部１０４に与えられる。

クラスタリング判定部１０４は、特徴抽出部１０３から得られる特徴ベクトル集合ＢＧと、記憶部１０２から得られるラベル集合ＲＧとに基づきクラスタリングを試行する（Ｓ１２）。

そして、クラスタリング判定部１０４は、クラスタリングの可能性を判断する（Ｓ１３）。ここでは、クラスタリングの可能性として、クラスタリングに成功したか否かが判断されるものとする。クラスタリングに成功した場合（Ｓ１３でＹｅｓ）には、処理はステップＳ１４に進み、クラスタリングに失敗した場合（Ｓ１３でＮｏ）には、処理はステップＳ１５に進む。

ステップＳ１４では、クラスタリング判定部１０４は、記憶部１０２から読み込まれたデータ集合ＤＧを不均質であると判定し、そのような判定結果ＲＥを出力部１０５に与える。出力部１０５は、そのような判定結果ＲＥを示す表示画像ＤＩを生成し、表示部１０６にその表示画像ＤＩを表示させる。

ステップＳ１５では、クラスタリング判定部１０４は、記憶部１０２から読み込まれたデータ集合ＤＧを均質であると判定し、そのような判定結果ＲＥを出力部１０５に与える。出力部１０５は、そのような判定結果ＲＥを示す表示画像ＤＩを生成し、表示部１０６にその表示画像ＤＩを表示させる。

なお、図３のステップＳ１３では、クラスタリング判定部１０４は、クラスタリングの可能性の判断として、クラスタリングに成功したか否かを判断しているが、実施の形態は、このような例に限定されない。例えば、ステップＳ１２において、クラスタリング判定部１０４が、クラスタリングを行うことができる度合いを算出している場合には、ステップＳ１３では、クラスタリング判定部１０４は、算出された度合いを予め定められた閾値と比較することにより、クラスタリングの可能性が予め定められた可能性以上であり、クラスタリングの可能性が高いと判断した場合には、処理をステップＳ１４に進め、クラスタリングの可能性が予め定められた可能性よりも低く、クラスタリングの可能性が低いと判断した場合には、処理をステップＳ１５に進める。

また、クラスタリング判定部１０４が、クラスタリングを行うことができる度合いを算出している場合には、クラスタリング判定部１０４は、図３に示されているステップＳ１３〜Ｓ１５の処理を行わずに、算出された度合いに応じて、データ集合ＤＧの均質性を示す度合いを、出力部１０５を介して表示部１０６に表示させてもよい。このような場合には、クラスタリングを行うことができる度合いが高ければ高いほど、データ集合ＤＧの均質性は、低くなる。

図４は、情報処理装置１００の第２の動作例を示すフローチャートである。
図４は、複数の種類のラベル集合ＲＧが存在する場合に、複数のラベル集合ＲＧを用いてクラスタリングを行い、データ集合ＤＧの均質性の判定を行う場合を示している。

まず、特徴抽出部１０３は、記憶部１０２からデータ集合ＤＧを読み込み、クラスタリング判定部１０４は、記憶部１０２から複数のラベル集合ＲＧを読み込む（Ｓ２０）。
特徴抽出部１０３は、データ集合ＤＧに含まれている各々のデジタルデータＤＤから特徴抽出を行い、抽出された特徴を示す特徴ベクトルの集合である特徴ベクトル集合ＢＧを生成する（Ｓ２１）。生成された特徴ベクトル集合ＢＧは、クラスタリング判定部１０４に与えられる。

クラスタリング判定部１０４は、記憶部１０２から得られる複数のラベル集合ＲＧの全てをクラスタリングの可能性の判断に使用したか否かを判断する（Ｓ２２）。未だ使用していないラベル集合ＲＧがある場合（Ｓ２２でＮｏ）には、処理はステップＳ２３に進み、全てのラベル集合ＲＧを使用した場合（Ｓ２２でＹｅｓ）には、処理はステップＳ２７に進む。

ステップＳ２３では、クラスタリング判定部１０４は、記憶部１０２から得られる複数のラベル集合ＲＧの内、クラスタリングの可能性の判断に未だ使用されていない１つのラベル集合ＲＧを特定する。

次に、クラスタリング判定部１０４は、特徴抽出部１０３から得られる特徴ベクトル集合ＢＧと、ステップＳ２３で特定されたラベル集合ＲＧとに基づきクラスタリングを試行する（Ｓ２４）。

そして、クラスタリング判定部１０４は、クラスタリングの可能性を判断する（Ｓ２５）。クラスタリングに成功した場合（Ｓ２５でＹｅｓ）には、処理はステップＳ２６に進み、クラスタリングに失敗した場合（Ｓ２５でＮｏ）には、処理はステップＳ２２に戻る。

ステップＳ２６では、クラスタリング判定部１０４は、記憶部１０２から読み込まれたデータ集合ＤＧを不均質であると判定し、そのような判定結果ＲＥを出力部１０５に与える。出力部１０５は、そのような判定結果ＲＥを示す表示画像ＤＩを生成し、表示部１０６にその表示画像ＤＩを表示させる。

ステップＳ２７では、クラスタリング判定部１０４は、記憶部１０２から読み込まれたデータ集合ＤＧを均質であると判定し、そのような判定結果ＲＥを出力部１０５に与える。出力部１０５は、そのような判定結果ＲＥを示す表示画像ＤＩを生成し、表示部１０６にその表示画像ＤＩを表示させる。

なお、図４のステップＳ２５では、クラスタリング判定部１０４は、クラスタリングの可能性の判断として、クラスタリングに成功したか否かを判断しているが、実施の形態は、このような例に限定されない。例えば、ステップＳ２４において、クラスタリング判定部１０４が、クラスタリングを行うことができる度合いを算出している場合には、ステップＳ２５では、クラスタリング判定部１０４は、算出された度合いを予め定められた閾値と比較することにより、クラスタリングの可能性が予め定められた可能性以上であり、クラスタリングの可能性が高いと判断した場合には、処理をステップＳ２６に進め、クラスタリングの可能性が予め定められた可能性よりも低く、クラスタリングの可能性が低いと判断した場合には、処理をステップＳ２７に進める。

また、クラスタリング判定部１０４が、クラスタリングを行うことができる度合いを算出している場合には、クラスタリング判定部１０４は、図４に示されているステップＳ２２、Ｓ２５〜Ｓ２７の処理を行わずに、全てのラベル集合ＲＧについてクラスタリングを行うことができる度合いを算出し、ラベル集合ＲＧの種類毎に、算出された度合いに応じて、データ集合ＤＧの均質性を示す度合いを、出力部１０５を介して表示部１０６に表示させてもよい。このような場合には、クラスタリングを行うことができる度合いが高ければ高いほど、データ集合ＤＧの均質性は、低くなる。

以上のように、データ集合ＤＧに付加されたラベル集合ＲＧに基づいてデータ集合ＤＧに対する教師有りのクラスタリングを試行して、クラスタリングの可能性を判断することで、対象とするタスクに固有の知識を必要とせずに、なおかつデータ集合ＤＧが小規模であってもデータ集合ＤＧの均質性を正確に判定することが可能となる。

ここで、デジタルデータＤＤの均質性とは無関係の内容を示すラベルＲＤを用いることで、クラスタリングの可能性が低い場合に、データ集合ＤＧが均質であることを判定することができる。

クラスタリング判定部１０４での判定結果ＲＥを示す表示画像ＤＩを表示する表示部１０６をさらに備えることで、その判定結果ＲＥをユーザに伝達することができる。

クラスタリングの可能性は、クラスタリングを行うことができるか否かとすることで、データ集合ＤＧが均質か否かを容易に判定することができる。

クラスタリングの可能性は、クラスタリングを行うことができる度合いとすることで、データ集合ＤＧが均質か否かを容易に判定することができ、また、データ集合ＤＧの均質性も均質である度合いとして示すこともできる。

なお、クラスタリングにより複数のクラスタに分類された複数の特徴ベクトルに対して、パラメトリックな分布を当て嵌め、複数のクラスタの乖離度合いによってクラスタリングの可能性を判断することにより、特徴ベクトル集合ＢＧを直接扱う場合と比較して計算量を低く抑えることができるため、高速なデータ処理が可能となる。

また、上述のパラメトリックな分布として正規分布を用いる場合、正規分布の推定に関する数値計算は、多変量解析等を扱う多くの数値計算ライブラリに実装されており、組み込みが容易であるため、情報処理装置１００の実装に掛かるコストを低く抑えることができる。

上述したパラメトリックな分布として正規分布を用い、複数のクラスタの乖離度合いをマハラノビス距離によって計量すれば、分布の形状を考慮した高精度な乖離度合いを求めることができ、均質性の判定精度を高くすることができる。また、マハラノビス距離の算出法は、正規分布関連の数値計算と同様に、多くの数値計算ライブラリに実装されているため、データ処理装置の実装に掛かるコストを低く抑えることができる。

正規分布の乖離度合いにバタチャリヤ距離を用いる場合は、複数のクラスタの乖離度合いを計量する際に同一の分布形状を仮定するマハラノビス距離とは異なり、複数のクラスタの形状の差異が考慮されるため、更に判定精度を高くすることができる。

以上の方法は、基本的にデータ集合の分布が正規分布となることを仮定しているため、そうでない場合は判定精度が劣化する可能性がある。そこで、複数のクラスタの各々に属する特徴ベクトルに対して、複数のクラスタが乖離するような射影変換を行い、変換後の各クラスタの乖離度合いによってクラスタリングの可能性を判断することで、データ集合ＤＧの分布が正規分布でない場合でも高い判定精度が実現できる。

この際、射影変換を判別分析によって生成することができる。判別分析は、扱うデータの規模が大きい場合でも計算を高速に行うことができるため、データ処理に掛かる時間を短縮することができる。

また、射影変換をマージン最大化基準に基づき生成すると、少量のデータでも頑健な判定結果を得ることができる。

１００情報処理装置、１０１入力部、１０２記憶部、１０３特徴抽出部、１０４クラスタリング判定部、１０５出力部、１０６表示部、１１０センサ、１１１ＡＤ変換器、１１２ラベル付加部。

Claims

複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶する記憶部と、
前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成する特徴抽出部と、
前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定するクラスタリング判定部と、を備えること
を特徴とする情報処理装置。
前記ラベルは、前記デジタルデータの均質性とは無関係の内容を示すこと
を特徴とする請求項１に記載の情報処理装置。
前記クラスタリング判定部での判定結果を表示する表示部をさらに備えること
を特徴とする請求項１又は２に記載の情報処理装置。
前記クラスタリングの可能性は、前記クラスタリングを行うことができるか否かであること
を特徴とする請求項１から３の何れか一項に記載の情報処理装置。
前記クラスタリング判定部は、前記クラスタリングを行うことができると判断した場合には、前記データ集合が不均質であると判定し、前記クラスタリングを行うことができないと判断した場合には、前記データ集合が均質であると判定すること
を特徴とする請求項４に記載の情報処理装置。
前記クラスタリングの可能性は、前記クラスタリングを行うことができる度合いであること
を特徴とする請求項１から３の何れか一項に記載の情報処理装置。
前記クラスタリング判定部は、前記度合いを予め定められた閾値と比較することで、前記クラスタリングの可能性が高いと判断した場合には、前記データ集合が不均質であると判定し、前記クラスタリングの可能性が低いと判断した場合には、前記データ集合が均質であると判定すること
を特徴とする請求項６に記載の情報処理装置。
前記クラスタリング判定部は、前記度合いが高ければ高いほど、前記均質性が低いと判定すること
を特徴とする請求項６に記載の情報処理装置。
前記クラスタリング判定部は、前記クラスタリングにより、前記複数の特徴ベクトルの各々を複数のクラスタの何れかに分類し、前記複数の特徴ベクトルに対してパラメトリックな分布を当て嵌め、前記複数のクラスタの乖離度合いを用いて、前記クラスタリングの可能性を判断すること
を特徴とする請求項１から８の何れか一項に記載の情報処理装置。
前記パラメトリックな分布は、正規分布であること
を特徴とする請求項９に記載の情報処理装置。
前記クラスタリング判定部は、前記乖離度合いをマハラノビス距離によって計量すること
を特徴とする請求項９又は１０に記載の情報処理装置。
前記クラスタリング判定部は、前記乖離度合いをバタチャリヤ距離によって計量すること
を特徴とする請求項９又は１０に記載の情報処理装置。
前記クラスタリング判定部は、前記クラスタリングにより、前記複数の特徴ベクトルの各々を複数のクラスタの何れかに分類し、前記複数の特徴ベクトルに対して、前記複数のクラスタの各々が乖離するような射影変換を行い、前記複数のクラスタの乖離度合いを用いて、前記クラスタリングの可能性を判断すること
を特徴とする請求項１から８の何れか一項に記載の情報処理装置。
前記クラスタリング判定部は、前記射影変換を、判別分析により実行すること
を特徴とする請求項１３に記載の情報処理装置。
前記クラスタリング判定部は、前記射影変換を、マージン最大化基準に基づいて実行すること
を特徴とする請求項１３に記載の情報処理装置。
コンピュータを、
複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶する記憶部、
前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成する特徴抽出部、及び、
前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定するクラスタリング判定部、として機能させること
を特徴とするプログラム。
複数のデジタルデータを含むデータ集合、及び、前記複数のデジタルデータの各々に各々が付加された複数のラベルを含むラベル集合を記憶し、
前記複数のデジタルデータの各々から予め定められた特徴を抽出し、前記抽出された特徴を示す特徴ベクトルを生成することで、複数の前記特徴ベクトルを含む特徴ベクトル集合を生成し、
前記ラベル集合を用いて、前記特徴ベクトル集合に教師ありのクラスタリングを試行して、前記クラスタリングの可能性を判断することで、前記データ集合の均質性を判定すること
を特徴とする情報処理方法。