JP2018151913A - 情報処理システム、情報処理方法、及びプログラム - Google Patents
情報処理システム、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2018151913A JP2018151913A JP2017048217A JP2017048217A JP2018151913A JP 2018151913 A JP2018151913 A JP 2018151913A JP 2017048217 A JP2017048217 A JP 2017048217A JP 2017048217 A JP2017048217 A JP 2017048217A JP 2018151913 A JP2018151913 A JP 2018151913A
- Authority
- JP
- Japan
- Prior art keywords
- data set
- items
- data
- unit space
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】学習サンプル数nが、項目数kの所定数倍以上でない場合でも、より高い精度の解析結果を得ることができるようにすること。【解決手段】情報処理システムは、第1の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第1の数の項目を有する1以上のデータの集合である信号データセットを取得する取得部と、前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する基準化部と、前記基準化後の信号データセットに含まれる各データについて、前記第1の数の項目のうち、前記第1の数よりも少ない第2の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する算出部と、前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する解析部と、を有する。【選択図】図7
Description
本発明は、情報処理システム、情報処理方法、及びプログラムに関する。
従来、品質工学等の分野において、多次元情報データによる予測、診断、分析を行う、MT(Mahalanobis Taguchi、マハラノビス・タグチ)システムが知られている(例えば、特許文献1、非特許文献1を参照)。MTシステムは、MT法(Mahalanobis Taguchi法)、MTA法、TS法、T(1)法、T(2)法、RT法、誤圧法等の、多次元情報データを解析する手法の総称である。ここで、MT法は、マハラノビス距離を利用する手法であり、項目間の相関を考慮した簡便かつ精度が比較的高い手法である。
しかしながら、従来のMT法では、学習サンプル数(所定の属性に含まれるデータ数)nが、データの項目数(次元数)kより小さいと計算できないという問題がある。また、nがk以上の場合でも、nがkの所定数(例えば4乃至5)倍以上でない場合、解析結果の精度が低いという問題がある。
そこで、学習サンプル数nが、項目数kの所定数倍以上でない場合でも、より高い精度の解析結果を得ることができる技術を提供することを目的とする。
情報処理システムは、第1の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第1の数の項目を有する1以上のデータの集合である信号データセットを取得する取得部と、前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する基準化部と、前記基準化後の信号データセットに含まれる各データについて、前記第1の数の項目のうち、前記第1の数よりも少ない第2の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する算出部と、前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する解析部と、を有する。
開示の技術によれば、学習サンプル数nが、項目数kの所定数倍以上でない場合でも、より高い精度の解析結果を得ることができる。
以下、図面に基づいて本発明の実施形態を説明する。
<ハードウェア構成例>
図1は、実施形態に係る情報処理システム10のハードウェア構成例を示す図である。図1の情報処理システム10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
図1は、実施形態に係る情報処理システム10のハードウェア構成例を示す図である。図1の情報処理システム10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
情報処理システム10での処理を実現する情報処理プログラムは、記録媒体101によって提供される。情報処理プログラムを記録した記録媒体101がドライブ装置100にセットされると、情報処理プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、情報処理プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされた情報処理プログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って情報処理システム10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。
なお、記録媒体101の一例としては、CD−ROM、DVDディスク、又はUSBメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置102の一例としては、HDD(Hard Disk Drive)又はフラッシュメモリ等が挙げられる。記録媒体101及び補助記憶装置102のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。
<機能構成>
次に、図2を参照し、情報処理システム10の機能構成について説明する。図2は、実施形態に係る情報処理システム10の機能ブロック図の一例を示す図である。情報処理システム10は、取得部11、基準化部12、算出部13、及び解析部14を有する。これら各部は、情報処理システム10にインストールされた1以上のプログラムが、情報処理システム10のCPU104に実行させる処理により実現される。
次に、図2を参照し、情報処理システム10の機能構成について説明する。図2は、実施形態に係る情報処理システム10の機能ブロック図の一例を示す図である。情報処理システム10は、取得部11、基準化部12、算出部13、及び解析部14を有する。これら各部は、情報処理システム10にインストールされた1以上のプログラムが、情報処理システム10のCPU104に実行させる処理により実現される。
取得部11は、3以上の数であるk個(「第1の数」の一例)の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、当該k個の項目を有する1以上のデータの集合である信号データセットを取得する。
基準化部12は、取得部11により取得された信号データセットに含まれる各データを、取得部11により取得された単位空間データセットに基づいて基準化(規格化)する。基準化部12は、例えば、単位空間データセットの各項目の平均値と標準偏差(標本標準偏差)を用いて、信号データセットに含まれる各データを基準化することにより、各項目の単位の違いによらない距離を算出できるようにする。
算出部13は、基準化部12により基準化された後の信号データセットに含まれる各データについて、k個の項目のうち、m(「第2の数」の一例)個の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する。ここで、mは、2≦m≦k−1を満たす整数である。
解析部14は、算出部13により算出された当該複数の組み合わせ毎の距離に基づいて、信号データセットに含まれる各データが、単位空間データセットの所定の属性に含まれるか否かを解析する。
<従来のMT法による処理>
ここで、本実施形態の処理を説明するため、まずは従来のMT法による処理について図3乃至図6を参照しながら説明する。
ここで、本実施形態の処理を説明するため、まずは従来のMT法による処理について図3乃至図6を参照しながら説明する。
図3は、従来のMT法の処理の一例を示すフローチャートである。
≪単位空間のマハラノビスの距離(MD、Mahalanobis Distance)の算出≫
従来のMT法において、まず、単位空間データセット(基準データセット)が取得される(ステップS500)。ここで、単位空間データセットは、所定の属性に含まれる(所定の条件を満たす)データの集合であり、例えば、正常な製品における計測データや、所定の品質の階級(クラス)の製品における計測データである。
従来のMT法において、まず、単位空間データセット(基準データセット)が取得される(ステップS500)。ここで、単位空間データセットは、所定の属性に含まれる(所定の条件を満たす)データの集合であり、例えば、正常な製品における計測データや、所定の品質の階級(クラス)の製品における計測データである。
続いて、単位空間データセットの各項目について、平均値と標本標準偏差が算出される(ステップS501)。
図4は、単位空間データセットの各項目の平均値と標本標準偏差について説明する図である。図4に示すように、単位空間データセットの各項目について、平均値と標本標準偏差が算出される。
続いて、単位空間データセットの各項目の値が基準化される(ステップS502)。ここで、単位空間データセットの各項目の値Xijを基準化することによってxijが算出される。基準化された値xijは以下の式(1)により算出される。なお、基準化することにより、各項目における単位の違いによらない距離を算出できる。
続いて、基準化後の単位空間データセットYの相関行列の逆行列が算出される(ステップS503)。
図6は、単位空間データセットの相関行列の逆行列を算出する処理について説明する図である。図6に示すように、基準化後の単位空間データセットYから、相関行列を算出し、当該相関行列の逆行列Aが算出される。
図6は、単位空間データセットの相関行列の逆行列を算出する処理について説明する図である。図6に示すように、基準化後の単位空間データセットYから、相関行列を算出し、当該相関行列の逆行列Aが算出される。
続いて、単位空間データセットに含まれる各データのMDが算出される(ステップS504)。ここで、以下の式(2)によりMDが算出される。なお、Tは転置を表している。
≪信号データセットのMDの算出≫
続いて、評価対象の各データである信号データセットが取得される(ステップS505)。
続いて、評価対象の各データである信号データセットが取得される(ステップS505)。
続いて、信号データセットに含まれる各データが基準化される(ステップS506)。ここで、各データは、ステップS501で算出された、単位空間データセットの各項目の平均値と標本標準偏差を用いて基準化する。
続いて、信号データセットに含まれる各データのMDが算出される(ステップS507)。ここで、規準化後の信号データセットをY'とすると、信号データセットのMDは、式(2)と同様に、以下の式(3)により算出される。
なお、従来のMT法では、単位空間データセットに含まれるデータの数(学習サンプル数)nが、単位空間データセットに含まれる項目の数kより大きくない場合、図6に示すような、基準化後の単位空間データセットYの相関行列の逆行列Aを算出できないため、MDを算出できない。また、サンプル数nが項目数kよりも十分に大きくないと、解析結果の精度が低いとされている。例えば、小林靖之、「学習サンプル特有の標本マハラノビス距離に関する確率分布の偏り」電子情報通信学会論文誌 D Vol.J98-D No.4 pp.548-559によれば、サンプル数nが項目数kのおおよそ4乃至5倍以上が良いとされる。また、nがk+1に近づくと、単位空間データセットに含まれる各データのMDは1に近づいてしまう。
[第1の実施形態]
<処理>
次に、図7を参照して、第1の実施形態に係る情報処理システム10の処理について説明する。図7は、第1の実施形態に係る情報処理システム10の処理の一例を示すフローチャートである。
<処理>
次に、図7を参照して、第1の実施形態に係る情報処理システム10の処理について説明する。図7は、第1の実施形態に係る情報処理システム10の処理の一例を示すフローチャートである。
≪単位空間のMDの算出≫
ステップS1において、取得部11は、単位空間データセットを取得する。
ステップS1において、取得部11は、単位空間データセットを取得する。
続いて、算出部13は、単位空間データセットに含まれるデータの数nよりも小さい値であり、かつ、単位空間データセットにおける項目数kよりも小さい値である所定の項目数mを選択する(ステップS2)。
以下では、単位空間データセットに含まれる各データのうち、処理対象とするデータを、「処理対象の単位空間データ」と称する。以下のステップS3、ステップS4の処理は、単位空間データセットに含まれる各データについて実行される。
続いて、基準化部12、及び算出部13は、処理対象の単位空間データについて、選択したmの値を所定の項目数とし、当該所定のm項目間における全ての組み合わせ毎に、MDを算出する(ステップS3)。ここで、基準化部12は、従来のMT法と同様に、上述したステップS501乃至ステップS502の処理を行う。そして、従来のMT法とは異なり、算出部13は、m項目間における全ての組み合わせ毎に、上述したステップS503乃至ステップS504の処理を行う。これにより、nが、単位空間データセットに含まれる項目の数kより大きくない場合であっても、MDを算出できる。
ここで、項目数kのうち、m個の項目の組み合わせの数は、CはCombinationとすると、kCmである。例えば、kが4、mが2の場合、4C2=6となり、6通りの全組み合わせについて、MDが算出される。
なお、ステップS503で、相関行列を算出する際の相関係数は、従来のMT法では、項目間の相関係数であるピアソンの積率相関係数を用いている。しかしながら、ピアソンの積率相関係数は直線性に対応するものであり、二次関数等の曲線のような分布では相関係数が小さくなる場合がある。そのため、ピアソンの積率相関係数に代えて、以下の相関係数を用いてもよい。これにより、直線性だけではなく様々な分布に対応した相関係数を利用し精度を向上させることができる。
・スピアマンの順位相関係数
・ケンドールの順位相関係数
・MIC(Maximum information coefficient)
・HSIC(Hilbert-Schmidt indipendence Criteria)
・偏相関係数
続いて、解析部14は、当該処理対象の単位空間データについて、算出した各MDのうち、最も値が大きいMDであるMDmaxを、当該処理対象の単位空間データに対するMDとする(ステップS4)。これにより、単位空間データセットからの、当該処理対象の単位空間データの距離を解析できる。
・スピアマンの順位相関係数
・ケンドールの順位相関係数
・MIC(Maximum information coefficient)
・HSIC(Hilbert-Schmidt indipendence Criteria)
・偏相関係数
続いて、解析部14は、当該処理対象の単位空間データについて、算出した各MDのうち、最も値が大きいMDであるMDmaxを、当該処理対象の単位空間データに対するMDとする(ステップS4)。これにより、単位空間データセットからの、当該処理対象の単位空間データの距離を解析できる。
≪信号データセットのMDの算出≫
続いて、取得部11は、評価対象の各データである信号データセットを取得する(ステップS5)。
続いて、取得部11は、評価対象の各データである信号データセットを取得する(ステップS5)。
以下では、信号データセットに含まれる各データのうち、処理対象とするデータを、「処理対象の信号データ」と称する。以下のステップS6、ステップS7の処理は、信号データセットに含まれる各データについて実行される。
続いて、基準化部12、及び算出部13は、処理対象の信号データについて、ステップS2で選択されたmの値を所定の項目数とし、当該所定のm項目間における全ての組み合わせ毎に、MDを算出する(ステップS6)。ここで、従来のMT法とは異なり、算出部13は、当該全ての組み合わせ毎に、上述したステップS506乃至ステップS507の処理を行う。
続いて、解析部14は、当該処理対象の信号データについて、算出した各MDのうち、最も値が大きいMDであるMDmaxを、当該処理対象の信号データに対するMDとする(ステップS7)。これにより、単位空間データセットからの、当該処理対象の信号データの距離を解析できる。
図8は、処理対象のデータに対するMDを決定する処理について説明する図である。図8(A)は、項目数kが4であり、所定の項目数mが2である場合の例を説明する図である。図8(A)では、MDx、y、zは、x番目のデータに対する、項目yとzについてのMDであることを示している。図8(A)に示すように、各データに対し、6(4C2)通りのMDが算出され、当該各MDのうち値が最大であるMDxが、各データに対するMDであると判定される。
図8(B)は、項目数kが4であり、所定の項目数mが3である場合の例を説明する図である。図8(B)では、MDx、y、z、aは、x番目のデータに対する、項目y、z、aについてのMDであることを示している。図8(B)に示すように、各データに対し、4(4C3)通りのMDが算出され、当該各MDのうち値が最大であるMDxが、各データに対するMDであると判定される。
<変形例1>
ステップS3、ステップS6において、算出部13は、所定のm項目間における全ての組み合わせ毎にMDを算出する代わりに、所定の項目数m、m−1、・・・2間における全ての組み合わせ毎にMDを算出してもよい。例えば、算出部13は、項目数kが4、mが4であれば、4C2+4C3より、6+4=10通りの組み合わせ毎に、MDを算出する。
ステップS3、ステップS6において、算出部13は、所定のm項目間における全ての組み合わせ毎にMDを算出する代わりに、所定の項目数m、m−1、・・・2間における全ての組み合わせ毎にMDを算出してもよい。例えば、算出部13は、項目数kが4、mが4であれば、4C2+4C3より、6+4=10通りの組み合わせ毎に、MDを算出する。
<変形例2>
算出部13は、ステップS2における所定の項目数mを選択する処理を、以下のような処理としてもよい。図9は、所定の項目数mを選択する処理の一例を示すフローチャートである。
算出部13は、ステップS2における所定の項目数mを選択する処理を、以下のような処理としてもよい。図9は、所定の項目数mを選択する処理の一例を示すフローチャートである。
ステップS101において、算出部13は、単位空間データセットに含まれるデータの数nが、単位空間データセットにおける項目数kの4倍以上であるか否かを判定する。
4倍以上である場合、mの値をkの値とし(ステップS102)、処理を終了する。この場合、従来のMT法が用いられる。
4倍以上でない場合、算出部13は、n/4以下となるmの値を選択する(ステップS103)。
続いて、算出部13は、選択したmにおける計算量が、所定の閾値以上であるか否かを判定する(ステップS104)。ここで、例えば、組み合わせの数kCmが、所定数以上の場合に、当該計算量が所定の閾値以上であると判定してもよい。
当該計算量が、所定の閾値以上である場合(ステップS104でYES)、算出部13は、mの値を減少させ(ステップS105)、ステップS104の処理に進む。
当該計算量が、所定の閾値以上でない場合(ステップS104でNO)、処理を終了する。
<評価>
次に、上述した第1の実施形態により算出したMDの精度の評価について説明する。
次に、上述した第1の実施形態により算出したMDの精度の評価について説明する。
≪評価1≫
図10は、評価用のデータについて説明する図である。図10(A)は、評価用の単位空間データセットの例である。図10(B)は、評価用の信号データセットの例である。ここで、図10(A)及び図10(B)の各データは、−1から1の範囲でランダムに生成された各値に対し、項目x1の値は分散0.05、項目x2の値は分散0.1、項目x3の値は分散0.3でランダムに生成した値である。
図10は、評価用のデータについて説明する図である。図10(A)は、評価用の単位空間データセットの例である。図10(B)は、評価用の信号データセットの例である。ここで、図10(A)及び図10(B)の各データは、−1から1の範囲でランダムに生成された各値に対し、項目x1の値は分散0.05、項目x2の値は分散0.1、項目x3の値は分散0.3でランダムに生成した値である。
図10(C)は、従来のMT法のMDと、本実施形態により算出されたMDについて説明する図である。501A乃至508Aは、それぞれ、従来のMT法により算出された、図10(A)の評価用の単位空間データ1乃至4、図10(B)の評価用の信号データ1乃至4のMDである。501B乃至508Bは、それぞれ、本実施形態により算出された、図10(A)の評価用の単位空間データ1乃至4、図10(B)の評価用の信号データ1乃至4のMDである。
図10(C)によれば、従来のMT法では、図10(B)の評価用の信号データ3は、MDの値が8を超えているため、単位空間とのMDがかなり離れていると判定される。また、従来のMT法では、9(A)の評価用の単位空間データ1乃至4のMDは1に近く、均質なデータであると判定される。
一方、図11は、図10の5倍のデータ数を有する評価用のデータについて説明する図である。図11(A)、図11(B)は、図10(A)と同様に生成された、サンプル数がそれぞれ5倍のデータである。この場合、単位空間データセットに含まれるデータの数nが、単位空間データセットにおける項目数kの4倍以上であるため、従来のMT法でも十分な精度でMDを算出できると考えられる。
図11(C)は、従来のMT法のMDと、本実施形態により算出されたMDについて説明する図である。601A乃至630Aは、それぞれ、従来のMT法により算出された、図11(A)の評価用の単位空間データ1乃至15、図11(B)の評価用の信号データ1乃至15のMDである。601B乃至630Bは、それぞれ、本実施形態により算出された、図11(A)の評価用の単位空間データ1乃至15、図11(B)の評価用の信号データ1乃至15のMDである。
図11(C)では、601A乃至630A、601B乃至630Bは、それぞれ、MDは4以下となっていることが分かる。また、図11(B)信号データ15は、図10(B)の信号データ3と同じデータであるが、図10(C)の結果とはことなり、MDは1以下となっている。
これより、従来のMT法では、単位空間データのサンプル数nが項目数kに近いと結果の精度が劣ることが分かる。一方、本実施形態の手法の場合、当該サンプル数nがkに近い場合であっても、比較的妥当な結果が得られていることが分かる。
[第2の実施形態]
第1の実施形態では、処理対象のデータについて、算出した各MDのうち、最も値が大きいMDであるMDmaxを、当該処理対象のデータに対するMDとする例について説明した。第2の実施形態では、処理対象のデータについて、各MDのSN比(「ばらつき度」の一例)を、当該処理対象のデータに対するMDとする例について説明する。第2の実施形態によれば、第1の実施形態と同様の効果を得られる。なお、第2の実施形態の処理は、第1の実施形態の処理と組み合わせて使用してもよい。
第1の実施形態では、処理対象のデータについて、算出した各MDのうち、最も値が大きいMDであるMDmaxを、当該処理対象のデータに対するMDとする例について説明した。第2の実施形態では、処理対象のデータについて、各MDのSN比(「ばらつき度」の一例)を、当該処理対象のデータに対するMDとする例について説明する。第2の実施形態によれば、第1の実施形態と同様の効果を得られる。なお、第2の実施形態の処理は、第1の実施形態の処理と組み合わせて使用してもよい。
<処理>
次に、図12を参照して、第2の実施形態に係る情報処理システム10の処理について説明する。図12は、第2の実施形態に係る情報処理システム10の処理の一例を示すフローチャートである。
次に、図12を参照して、第2の実施形態に係る情報処理システム10の処理について説明する。図12は、第2の実施形態に係る情報処理システム10の処理の一例を示すフローチャートである。
ステップS21乃至ステップS23は、図7のステップS1乃至ステップS3とそれぞれ同様である。
ステップS24において、解析部14は、処理対象の単位空間データについて、算出した各MDのばらつき度を算出し、算出したばらつき度を、当該処理対象の単位空間データに対するMDとする。
ここで、第1の実施形態では、各MDの最大値のみを用いていたが、1つのMDのみが比較的大きい状況と、複数のMDが比較的大きい状況とでは異なると考えられる。そこで、第2の実施形態に係る解析部14は、各MDを用いてSN比等のばらつき度を算出し、算出したばらつき度をMDとして用いる。ここで、ばらつき度は、望小のSN比を用いてもよい。これにより、単位空間データセットからのMDが大きくないデータを、同じグループであると判断できる。
ここで、望小のSN比をSとすると、以下の式(4)、(5)より算出できる。
S = −10×logVt ・・・(4)
Vt = (y1 2+y2 2+y3 2+…+yn 2)/l ・・・(4)
ここで、lは各組み合わせに応じて算出された各MDの数である。また、y1、・・・ynは、各組み合わせに応じて算出された各MDの値である。
Vt = (y1 2+y2 2+y3 2+…+yn 2)/l ・・・(4)
ここで、lは各組み合わせに応じて算出された各MDの数である。また、y1、・・・ynは、各組み合わせに応じて算出された各MDの値である。
なお、ばらつき度は、望小のSN比に限定されず、望目SN比、望大SN比、エネルギー比型のSN比、標準SN比、動特性のSN比など、品質工学における公知のSN比等を用いてもよい。
ステップS25乃至ステップS26は、図7のステップS5乃至ステップS6とそれぞれ同様である。
ステップS27において、解析部14は、処理対象の信号データについて、算出した各MDのばらつき度を算出し、算出したばらつき度を、当該処理対象の信号データに対するMDとする。
[第1の実施形態及び第2の実施形態の評価]
次に、機械学習等の研究で利用されることが多い、ワインの品質データを用いて、第1の実施形態及び第2の実施形態により算出されたMDについて評価した。
次に、機械学習等の研究で利用されることが多い、ワインの品質データを用いて、第1の実施形態及び第2の実施形態により算出されたMDについて評価した。
なお、ワインの品質データは、https://archive.ics.uci.edu/ml/datasets/Wineより取得でき、178個の各サンプルに対し、アルコール、マレイン酸、マグネシウムの量等の13項目毎のデータと、ワインの品質を示すクラス(class)1乃至3のデータを有する。
従来のMT法や本実施形態の手法は、単位空間を決めてそれに対する信号データのMDを求めるため、単位空間のデータは、クラス毎に作成した。
そして、単位空間データのMDの分布と信号データのMDの分布の閾値に基づいて評価した。ここで、MDの分布が途切れている値であり、かつ、当該途切れている値が当該分布の最頻値から所定程度離れている値を、正答か誤答かの閾値として選択した。
図13は、10-fold-cross-validation(交差検証)の結果を示す図である。
178個の各サンプルに対し、約18サンプルずつ10個のテーブルを作成し(18番目のテーブルは16個)、9個のテーブルのデータを単位空間データセットとし、残りの1個のテーブルのデータを信号データセットとした。
単位空間データセットはクラス1乃至3に分類分けされており、単位空間データセットに含まれるデータ数は、クラス1乃至3のそれぞれにおいて、53個、64個、44個であった。
図14は、2-fold-cross-validation(交差検証)の結果を示す図である。
178個の各サンプルに対し、89サンプルずつの2個のテーブルを作成し、一方を単位空間データセット、他方を信号データセットとして1回目を計算し、単位空間データセットと信号データセットを入れ替えて2回目の計算を行った。なお、1回目の計算では、単位空間データセットに含まれるデータ数は、クラス1乃至3のそれぞれにおいて、29個、36個、24個であった。2回目の計算では、単位空間データセットに含まれるデータ数は、クラス1乃至3のそれぞれにおいて、30個、35個、24個であった。
ここで、図13の10-fold-cross-validationでは、項目数13に対して各クラスのサンプルのデータ数が約3〜5倍となっており、図14の2-fold-cross-validationでは、項目数13に対して各クラスのサンプルのデータ数は3倍未満となっている。
図13の10-fold-cross-validationにおいても、図14の2-fold-cross-validationにおいても、本実施形態の手法は、従来のMT法より正答率が良い結果となっている。
図15は、単位空間データセットのサンプル数が項目数に対して十分に多くない場合の従来のMT法のMDと、本実施形態の手法のMDを算出した結果について説明する図である。図15では、14個のサンプルのデータを単位空間データセットとしてランダムに抜き取り、従来のMT法のMDと、本実施形態の手法のMDを算出した結果を示している。ここでは項目数k=13であるため、n=k+1となっている。
図15の例では、従来のMT法の正答率58.18%と、極端に悪い結果となっている。これに対し、本実施形態の手法では正答率80%以上となっている。
図16は、単位空間データセットのサンプル数が項目数以下の場合の本実施形態の手法のMDを算出した結果について説明する図である。なお、従来のMT法と異なり、本実施形態の手法によれば、単位空間データセットのサンプル数nが項目数k以下であってもMDを算出できる。
図16では、n=10として計算した結果を示している。クラス1のデータをクラス1と判断した数が38(正答)、クラス1をクラス1ではない(クラス2またはクラス3)と判断した数が11(誤答)、クラス2またはクラス3をクラス1と判断したのが2(誤答)、クラス1ではないものをクラス2またはクラス3と判断した数は118個(正答)であった。
クラス1の正答率は、2項目間の最大値をMDとする手法で77.55%、2項目間のSN比をMDとする手法で87.76%、3項目間の最大値をMDとする手法71.43%、3項目間のSN比をMDとする手法で85.71%であった。ここで、今回のデータセットでは、nが比較的小さい場合、項目間の最大値をMDとする手法よりも、項目間のSN比をMDとする手法の方がより正答率が高かった。nが大きい場合には、項目間の最大値をMDとする手法と、項目間のSN比をMDとする手法とで有意差は見られなかった。
[項目診断について]
上記第1の実施形態、及び第2の実施形態は、公知の項目診断に利用することも可能である。ディープラーニング等の機械学習で分析した結果は、どうしてそのような結果が分析されたのかを知ることはできない。一方、上記第1の実施形態、及び第2の実施形態によれば、従来のMT法と同様、ディープラーニング等の機械学習で分析した結果に対し、どのような項目に基づいてそのような結果が分析されたのかを推定することができる。
上記第1の実施形態、及び第2の実施形態は、公知の項目診断に利用することも可能である。ディープラーニング等の機械学習で分析した結果は、どうしてそのような結果が分析されたのかを知ることはできない。一方、上記第1の実施形態、及び第2の実施形態によれば、従来のMT法と同様、ディープラーニング等の機械学習で分析した結果に対し、どのような項目に基づいてそのような結果が分析されたのかを推定することができる。
なお、上記第1の実施形態、及び第2の実施形態によれば、従来のMT法と比較して、計測されたサンプル数nが、項目数kの所定数倍以上でない場合でも、より高い精度の項目診断の解析結果を得ることができる。
図17は、項目診断の解析結果について説明する図である。図17(A)は、従来のMT法による項目診断の解析結果の例を示す。図17(B)は、第1の実施形態における2項目間の各MDの最大値をMDとした場合の項目診断の解析結果の例を示す。図17(B)では、ある1つの信号データに対して、25個の項目毎に25個のMDが算出され、各信号データに対する当該項目毎のMDの平均値の例が示されている。
図17(B)において、最もMDが大きい項目は項目6であり、図17(A)に示す従来のMT法の項目診断結果と同じである。
図18は、MDの平均値が最も大きくなる項目の組み合わせについて説明する図である。図18では、項目毎の25個のMDの平均値に基づき、MDの平均値が最も大きくなる項目の組み合わせである、項目2と項目6における分布を示している。この分布において、不合格となる信号データ701を判定できる。すなわち、項目2と項目6の組み合わせにより、不合格と判定されたと推定できる。
また、この項目診断において、どのような項目を測定すれば、異常等の解析ができるかの判定を行うこともできる。
<まとめ>
上述したように、本実施形態によれば、基準化後の信号データセットに含まれる各データについて、k個の項目のうち、m個の項目間の複数の組み合わせ毎に、単位空間データセットからの距離を算出する。そして、当該複数の組み合わせ毎の距離に基づいて、信号データセットに含まれる各データが、単位空間データセットと同じ属性に含まれるか否かを解析する。これにより、学習サンプル数nが、項目数kよりも十分に大きくない場合でも、より高い精度の解析結果を得ることができる。
上述したように、本実施形態によれば、基準化後の信号データセットに含まれる各データについて、k個の項目のうち、m個の項目間の複数の組み合わせ毎に、単位空間データセットからの距離を算出する。そして、当該複数の組み合わせ毎の距離に基づいて、信号データセットに含まれる各データが、単位空間データセットと同じ属性に含まれるか否かを解析する。これにより、学習サンプル数nが、項目数kよりも十分に大きくない場合でも、より高い精度の解析結果を得ることができる。
なお、本実施形態は、従来のMT法と同様、生産ラインの異常等の診断や監視、製品特性値の予測や検査、官能特性値の識別、健康診断、経済分析といった、多次元情報からのパターン認識に適用できる。また、本実施形態によれば、従来のMT法と異なり、例えば、開発段階や初期流動段階において、学習サンプル数nが、項目数kよりも十分に大きくない場合でも、適用可能である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
情報処理システム10の各機能部は、例えば1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。
10 情報処理システム
11 取得部
12 基準化部
13 算出部
14 解析部
11 取得部
12 基準化部
13 算出部
14 解析部
田口玄一「品質工学の数理」(日本規格協会 1999年発行)
Claims (8)
- 第1の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第1の数の項目を有する1以上のデータの集合である信号データセットを取得する取得部と、
前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する基準化部と、
前記基準化後の信号データセットに含まれる各データについて、前記第1の数の項目のうち、前記第1の数よりも少ない第2の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する算出部と、
前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する解析部と、
を有する情報処理システム。 - 前記解析部は、前記複数の組み合わせ毎の距離のうち、最も大きい距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する、
請求項1記載の情報処理システム。 - 前記解析部は、前記複数の組み合わせ毎の距離のばらつき度に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する、
請求項1または2に記載の情報処理システム。 - 前記算出部は、前記基準化後の信号データセットに含まれる各データについて、前記第1の数の項目のうち、前記第1の数よりも少ない第2の数の項目間の全ての組み合わせ毎に、前記単位空間データセットからの距離を算出する、
請求項1乃至3のいずれか一項に記載の情報処理システム。 - 前記算出部は、前記第1の数と、単位空間データセットに含まれるデータの数とに基づいて、前記第2の数を決定する、
請求項1乃至4のいずれか一項に記載の情報処理システム。 - 前記算出部は、スピアマンの順位相関係数、ケンドールの順位相関係数、MIC(Maximum information coefficient)、HSIC(Hilbert-Schmidt indipendence Criteria)、または偏相関係数を用いて、前記単位空間データセットからの距離を算出する、
請求項1乃至5のいずれか一項に記載の情報処理システム。 - 情報処理システムが、
第1の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第1の数の項目を有する1以上のデータの集合である信号データセットを取得する処理と、
前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する処理と、
前記基準化後の信号データセットに含まれる各データについて、前記第1の数の項目のうち、前記第1の数よりも少ない第2の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する処理と、
前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する処理と、
を実行する情報処理方法。 - コンピュータに、
第1の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第1の数の項目を有する1以上のデータの集合である信号データセットを取得する処理と、
前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する処理と、
前記基準化後の信号データセットに含まれる各データについて、前記第1の数の項目のうち、前記第1の数よりも少ない第2の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する処理と、
前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する処理と、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017048217A JP2018151913A (ja) | 2017-03-14 | 2017-03-14 | 情報処理システム、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017048217A JP2018151913A (ja) | 2017-03-14 | 2017-03-14 | 情報処理システム、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018151913A true JP2018151913A (ja) | 2018-09-27 |
Family
ID=63681787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017048217A Pending JP2018151913A (ja) | 2017-03-14 | 2017-03-14 | 情報処理システム、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018151913A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023233927A1 (ja) * | 2022-06-03 | 2023-12-07 | オムロン株式会社 | 異常検知装置、異常検知方法およびプログラム |
-
2017
- 2017-03-14 JP JP2017048217A patent/JP2018151913A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023233927A1 (ja) * | 2022-06-03 | 2023-12-07 | オムロン株式会社 | 異常検知装置、異常検知方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3620983B1 (en) | Computer-implemented method, computer program product and system for data analysis | |
Quinn et al. | Understanding sequencing data as compositions: an outlook and review | |
Yin et al. | Sequential sufficient dimension reduction for large p, small n problems | |
US8595155B2 (en) | Kernel regression system, method, and program | |
Ghasemi et al. | Mahalanobis Taguchi system: a review | |
JP2015170121A (ja) | 異常診断装置及びプログラム | |
US20190180194A1 (en) | Computer-readable recording medium, abnormality candidate extraction method, and abnormality candidate extraction apparatus | |
US20220327394A1 (en) | Learning support apparatus, learning support methods, and computer-readable recording medium | |
Zhou et al. | Automatic feature selection for unsupervised clustering of cycle-based signals in manufacturing processes | |
JP7424474B2 (ja) | 学習装置、異常検知装置、学習方法及び異常検知方法 | |
JP2018151913A (ja) | 情報処理システム、情報処理方法、及びプログラム | |
JP6930195B2 (ja) | モデル同定装置、予測装置、監視システム、モデル同定方法および予測方法 | |
US20210390623A1 (en) | Data analysis method and data analysis device | |
US20190012413A1 (en) | State classifying method, state classifying device, and recording medium | |
US10692256B2 (en) | Visualization method, visualization device, and recording medium | |
US10546243B1 (en) | Predicting particle size distribution and particle morphology | |
US20200134480A1 (en) | Apparatus and method for detecting impact factor for an operating environment | |
EP3163463A1 (en) | A correlation estimating device and the related method | |
JP5517973B2 (ja) | パターン認識装置およびパターン認識方法 | |
WO2009081696A1 (ja) | データ解析装置、データ解析方法、およびプログラム | |
JP2021536087A (ja) | 経験損失推定システム、経験損失推定方法および経験損失推定プログラム | |
Franco et al. | A clustering approach to identify candidates to housekeeping genes based on RNA-seq data | |
CN108735295B (zh) | 基于回归树模型的血液分析方法及终端设备 | |
WO2022070256A1 (ja) | 情報処理装置、情報処理方法、及び、記録媒体 | |
JP5882259B2 (ja) | 信号処理装置、方法、及びプログラム |