JP2018151913A

JP2018151913A - 情報処理システム、情報処理方法、及びプログラム

Info

Publication number: JP2018151913A
Application number: JP2017048217A
Authority: JP
Inventors: 誠松下; Makoto Matsushita; 細川　哲夫; Tetsuo Hosokawa; 哲夫細川; 祥太小屋; Shota Koya
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2018-09-27

Abstract

【課題】学習サンプル数ｎが、項目数ｋの所定数倍以上でない場合でも、より高い精度の解析結果を得ることができるようにすること。【解決手段】情報処理システムは、第１の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第１の数の項目を有する１以上のデータの集合である信号データセットを取得する取得部と、前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する基準化部と、前記基準化後の信号データセットに含まれる各データについて、前記第１の数の項目のうち、前記第１の数よりも少ない第２の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する算出部と、前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する解析部と、を有する。【選択図】図７

Description

本発明は、情報処理システム、情報処理方法、及びプログラムに関する。

従来、品質工学等の分野において、多次元情報データによる予測、診断、分析を行う、ＭＴ（Mahalanobis Taguchi、マハラノビス・タグチ）システムが知られている（例えば、特許文献１、非特許文献１を参照）。ＭＴシステムは、ＭＴ法（Mahalanobis Taguchi法）、ＭＴＡ法、ＴＳ法、Ｔ（１）法、Ｔ（２）法、ＲＴ法、誤圧法等の、多次元情報データを解析する手法の総称である。ここで、ＭＴ法は、マハラノビス距離を利用する手法であり、項目間の相関を考慮した簡便かつ精度が比較的高い手法である。

しかしながら、従来のＭＴ法では、学習サンプル数（所定の属性に含まれるデータ数）ｎが、データの項目数（次元数）ｋより小さいと計算できないという問題がある。また、ｎがｋ以上の場合でも、ｎがｋの所定数（例えば４乃至５）倍以上でない場合、解析結果の精度が低いという問題がある。

そこで、学習サンプル数ｎが、項目数ｋの所定数倍以上でない場合でも、より高い精度の解析結果を得ることができる技術を提供することを目的とする。

情報処理システムは、第１の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第１の数の項目を有する１以上のデータの集合である信号データセットを取得する取得部と、前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する基準化部と、前記基準化後の信号データセットに含まれる各データについて、前記第１の数の項目のうち、前記第１の数よりも少ない第２の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する算出部と、前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する解析部と、を有する。

開示の技術によれば、学習サンプル数ｎが、項目数ｋの所定数倍以上でない場合でも、より高い精度の解析結果を得ることができる。

実施形態に係る情報処理システムのハードウェア構成例を示す図である。実施形態に係る情報処理システムの機能ブロック図の一例を示す図である。従来のＭＴ法の処理の一例を示すフローチャートである。単位空間データセットの各項目の平均値と標本標準偏差について説明する図である。基準化後の単位空間データセットの各項目の平均値と標本標準偏差について説明する図である。単位空間データセットの相関行列の逆行列を算出する処理について説明する図である。第１の実施形態に係る情報処理システムの処理の一例を示すフローチャートである。処理対象のデータに対するＭＤを決定する処理について説明する図である。所定の項目数ｍを選択する処理の一例を示すフローチャートである。評価用のデータについて説明する図である。５倍のデータ数を有する評価用のデータについて説明する図である。第２の実施形態に係る情報処理システム１０の処理の一例を示すフローチャートである。 10-fold-cross-validation（交差検証）の結果を示す図である。 2-fold-cross-validation（交差検証）の結果を示す図である。単位空間データセットのサンプル数が項目数に対して十分に多くない場合の従来のＭＴ法のＭＤと、本実施形態の手法のＭＤを算出した結果について説明する図である。単位空間データセットのサンプル数が項目数以下の場合の本実施形態の手法のＭＤを算出した結果について説明する図である。項目診断の解析結果について説明する図である。ＭＤの平均値が最も大きくなる項目の組み合わせについて説明する図である。

以下、図面に基づいて本発明の実施形態を説明する。

＜ハードウェア構成例＞
図１は、実施形態に係る情報処理システム１０のハードウェア構成例を示す図である。図１の情報処理システム１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５、表示装置１０６、及び入力装置１０７等を有する。

情報処理システム１０での処理を実現する情報処理プログラムは、記録媒体１０１によって提供される。情報処理プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、情報処理プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、情報処理プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされた情報処理プログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って情報処理システム１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。

なお、記録媒体１０１の一例としては、ＣＤ−ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

＜機能構成＞
次に、図２を参照し、情報処理システム１０の機能構成について説明する。図２は、実施形態に係る情報処理システム１０の機能ブロック図の一例を示す図である。情報処理システム１０は、取得部１１、基準化部１２、算出部１３、及び解析部１４を有する。これら各部は、情報処理システム１０にインストールされた１以上のプログラムが、情報処理システム１０のＣＰＵ１０４に実行させる処理により実現される。

取得部１１は、３以上の数であるｋ個（「第１の数」の一例）の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、当該ｋ個の項目を有する１以上のデータの集合である信号データセットを取得する。

基準化部１２は、取得部１１により取得された信号データセットに含まれる各データを、取得部１１により取得された単位空間データセットに基づいて基準化（規格化）する。基準化部１２は、例えば、単位空間データセットの各項目の平均値と標準偏差（標本標準偏差）を用いて、信号データセットに含まれる各データを基準化することにより、各項目の単位の違いによらない距離を算出できるようにする。

算出部１３は、基準化部１２により基準化された後の信号データセットに含まれる各データについて、ｋ個の項目のうち、ｍ（「第２の数」の一例）個の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する。ここで、ｍは、２≦ｍ≦ｋ−１を満たす整数である。

解析部１４は、算出部１３により算出された当該複数の組み合わせ毎の距離に基づいて、信号データセットに含まれる各データが、単位空間データセットの所定の属性に含まれるか否かを解析する。

＜従来のＭＴ法による処理＞
ここで、本実施形態の処理を説明するため、まずは従来のＭＴ法による処理について図３乃至図６を参照しながら説明する。

図３は、従来のＭＴ法の処理の一例を示すフローチャートである。

≪単位空間のマハラノビスの距離（ＭＤ、Mahalanobis Distance）の算出≫
従来のＭＴ法において、まず、単位空間データセット（基準データセット）が取得される（ステップＳ５００）。ここで、単位空間データセットは、所定の属性に含まれる（所定の条件を満たす）データの集合であり、例えば、正常な製品における計測データや、所定の品質の階級（クラス）の製品における計測データである。

続いて、単位空間データセットの各項目について、平均値と標本標準偏差が算出される（ステップＳ５０１）。

図４は、単位空間データセットの各項目の平均値と標本標準偏差について説明する図である。図４に示すように、単位空間データセットの各項目について、平均値と標本標準偏差が算出される。

続いて、単位空間データセットの各項目の値が基準化される（ステップＳ５０２）。ここで、単位空間データセットの各項目の値Ｘ_ijを基準化することによってｘ_ijが算出される。基準化された値ｘ_ijは以下の式（１）により算出される。なお、基準化することにより、各項目における単位の違いによらない距離を算出できる。

図５は、基準化後の単位空間データセットの各項目の平均値と標本標準偏差について説明する図である。図５に示すように、基準化後の単位空間データセットの各項目について、平均値は１となり、標本標準偏差は１となる。

続いて、基準化後の単位空間データセットＹの相関行列の逆行列が算出される（ステップＳ５０３）。
図６は、単位空間データセットの相関行列の逆行列を算出する処理について説明する図である。図６に示すように、基準化後の単位空間データセットＹから、相関行列を算出し、当該相関行列の逆行列Ａが算出される。

続いて、単位空間データセットに含まれる各データのＭＤが算出される（ステップＳ５０４）。ここで、以下の式（２）によりＭＤが算出される。なお、Ｔは転置を表している。

ここで、ＭＤは、ＭＴ法におけるマハラノビスの距離であり、一般的なマハラノビスの距離Ｄを２乗した値を、項目数ｋで除算した値である。なお、単位空間データセットに含まれる各データのＭＤの平均は１となる。なお、マハラノビスの距離は一例である。

≪信号データセットのＭＤの算出≫
続いて、評価対象の各データである信号データセットが取得される（ステップＳ５０５）。

続いて、信号データセットに含まれる各データが基準化される（ステップＳ５０６）。ここで、各データは、ステップＳ５０１で算出された、単位空間データセットの各項目の平均値と標本標準偏差を用いて基準化する。

続いて、信号データセットに含まれる各データのＭＤが算出される（ステップＳ５０７）。ここで、規準化後の信号データセットをＹ'とすると、信号データセットのＭＤは、式（２）と同様に、以下の式（３）により算出される。

そして、信号データセットに含まれる各データのうち、式（３）により算出されたＭＤの値が所定の値（例えば４）よりも大きいデータは、単位空間データセットに含まれる各データとは、性質等が異なるものと判断される。

なお、従来のＭＴ法では、単位空間データセットに含まれるデータの数（学習サンプル数）ｎが、単位空間データセットに含まれる項目の数ｋより大きくない場合、図６に示すような、基準化後の単位空間データセットＹの相関行列の逆行列Ａを算出できないため、ＭＤを算出できない。また、サンプル数ｎが項目数ｋよりも十分に大きくないと、解析結果の精度が低いとされている。例えば、小林靖之、「学習サンプル特有の標本マハラノビス距離に関する確率分布の偏り」電子情報通信学会論文誌 D Vol.J98-D No.4 pp.548-559によれば、サンプル数ｎが項目数ｋのおおよそ４乃至５倍以上が良いとされる。また、ｎがｋ＋１に近づくと、単位空間データセットに含まれる各データのＭＤは１に近づいてしまう。

［第１の実施形態］
＜処理＞
次に、図７を参照して、第１の実施形態に係る情報処理システム１０の処理について説明する。図７は、第１の実施形態に係る情報処理システム１０の処理の一例を示すフローチャートである。

≪単位空間のＭＤの算出≫
ステップＳ１において、取得部１１は、単位空間データセットを取得する。

続いて、算出部１３は、単位空間データセットに含まれるデータの数ｎよりも小さい値であり、かつ、単位空間データセットにおける項目数ｋよりも小さい値である所定の項目数ｍを選択する（ステップＳ２）。

以下では、単位空間データセットに含まれる各データのうち、処理対象とするデータを、「処理対象の単位空間データ」と称する。以下のステップＳ３、ステップＳ４の処理は、単位空間データセットに含まれる各データについて実行される。

続いて、基準化部１２、及び算出部１３は、処理対象の単位空間データについて、選択したｍの値を所定の項目数とし、当該所定のｍ項目間における全ての組み合わせ毎に、ＭＤを算出する（ステップＳ３）。ここで、基準化部１２は、従来のＭＴ法と同様に、上述したステップＳ５０１乃至ステップＳ５０２の処理を行う。そして、従来のＭＴ法とは異なり、算出部１３は、ｍ項目間における全ての組み合わせ毎に、上述したステップＳ５０３乃至ステップＳ５０４の処理を行う。これにより、ｎが、単位空間データセットに含まれる項目の数ｋより大きくない場合であっても、ＭＤを算出できる。

ここで、項目数ｋのうち、ｍ個の項目の組み合わせの数は、ＣはCombinationとすると、_ｋＣ_ｍである。例えば、ｋが４、ｍが２の場合、_４Ｃ_２＝６となり、６通りの全組み合わせについて、ＭＤが算出される。

なお、ステップＳ５０３で、相関行列を算出する際の相関係数は、従来のＭＴ法では、項目間の相関係数であるピアソンの積率相関係数を用いている。しかしながら、ピアソンの積率相関係数は直線性に対応するものであり、二次関数等の曲線のような分布では相関係数が小さくなる場合がある。そのため、ピアソンの積率相関係数に代えて、以下の相関係数を用いてもよい。これにより、直線性だけではなく様々な分布に対応した相関係数を利用し精度を向上させることができる。
・スピアマンの順位相関係数
・ケンドールの順位相関係数
・ＭＩＣ(Maximum information coefficient)
・ＨＳＩＣ(Hilbert-Schmidt indipendence Criteria）
・偏相関係数
続いて、解析部１４は、当該処理対象の単位空間データについて、算出した各ＭＤのうち、最も値が大きいＭＤであるＭＤ_ｍａｘを、当該処理対象の単位空間データに対するＭＤとする（ステップＳ４）。これにより、単位空間データセットからの、当該処理対象の単位空間データの距離を解析できる。

≪信号データセットのＭＤの算出≫
続いて、取得部１１は、評価対象の各データである信号データセットを取得する（ステップＳ５）。

以下では、信号データセットに含まれる各データのうち、処理対象とするデータを、「処理対象の信号データ」と称する。以下のステップＳ６、ステップＳ７の処理は、信号データセットに含まれる各データについて実行される。

続いて、基準化部１２、及び算出部１３は、処理対象の信号データについて、ステップＳ２で選択されたｍの値を所定の項目数とし、当該所定のｍ項目間における全ての組み合わせ毎に、ＭＤを算出する（ステップＳ６）。ここで、従来のＭＴ法とは異なり、算出部１３は、当該全ての組み合わせ毎に、上述したステップＳ５０６乃至ステップＳ５０７の処理を行う。

続いて、解析部１４は、当該処理対象の信号データについて、算出した各ＭＤのうち、最も値が大きいＭＤであるＭＤ_ｍａｘを、当該処理対象の信号データに対するＭＤとする（ステップＳ７）。これにより、単位空間データセットからの、当該処理対象の信号データの距離を解析できる。

図８は、処理対象のデータに対するＭＤを決定する処理について説明する図である。図８（Ａ）は、項目数ｋが４であり、所定の項目数ｍが２である場合の例を説明する図である。図８（Ａ）では、ＭＤ_{ｘ、ｙ、ｚ}は、ｘ番目のデータに対する、項目ｙとｚについてのＭＤであることを示している。図８（Ａ）に示すように、各データに対し、６（_４Ｃ_２）通りのＭＤが算出され、当該各ＭＤのうち値が最大であるＭＤ_ｘが、各データに対するＭＤであると判定される。

図８（Ｂ）は、項目数ｋが４であり、所定の項目数ｍが３である場合の例を説明する図である。図８（Ｂ）では、ＭＤ_{ｘ、ｙ、ｚ、ａ}は、ｘ番目のデータに対する、項目ｙ、ｚ、ａについてのＭＤであることを示している。図８（Ｂ）に示すように、各データに対し、４（_４Ｃ_３）通りのＭＤが算出され、当該各ＭＤのうち値が最大であるＭＤ_ｘが、各データに対するＭＤであると判定される。

＜変形例１＞
ステップＳ３、ステップＳ６において、算出部１３は、所定のｍ項目間における全ての組み合わせ毎にＭＤを算出する代わりに、所定の項目数ｍ、ｍ−１、・・・２間における全ての組み合わせ毎にＭＤを算出してもよい。例えば、算出部１３は、項目数ｋが４、ｍが４であれば、_４Ｃ_２＋_４Ｃ_３より、６＋４＝１０通りの組み合わせ毎に、ＭＤを算出する。

＜変形例２＞
算出部１３は、ステップＳ２における所定の項目数ｍを選択する処理を、以下のような処理としてもよい。図９は、所定の項目数ｍを選択する処理の一例を示すフローチャートである。

ステップＳ１０１において、算出部１３は、単位空間データセットに含まれるデータの数ｎが、単位空間データセットにおける項目数ｋの４倍以上であるか否かを判定する。

４倍以上である場合、ｍの値をｋの値とし（ステップＳ１０２）、処理を終了する。この場合、従来のＭＴ法が用いられる。

４倍以上でない場合、算出部１３は、ｎ／４以下となるｍの値を選択する（ステップＳ１０３）。

続いて、算出部１３は、選択したｍにおける計算量が、所定の閾値以上であるか否かを判定する（ステップＳ１０４）。ここで、例えば、組み合わせの数_ｋＣ_ｍが、所定数以上の場合に、当該計算量が所定の閾値以上であると判定してもよい。

当該計算量が、所定の閾値以上である場合（ステップＳ１０４でＹＥＳ）、算出部１３は、ｍの値を減少させ（ステップＳ１０５）、ステップＳ１０４の処理に進む。

当該計算量が、所定の閾値以上でない場合（ステップＳ１０４でＮＯ）、処理を終了する。

＜評価＞
次に、上述した第１の実施形態により算出したＭＤの精度の評価について説明する。

≪評価１≫
図１０は、評価用のデータについて説明する図である。図１０（Ａ）は、評価用の単位空間データセットの例である。図１０（Ｂ）は、評価用の信号データセットの例である。ここで、図１０（Ａ）及び図１０（Ｂ）の各データは、−１から１の範囲でランダムに生成された各値に対し、項目ｘ１の値は分散０．０５、項目ｘ２の値は分散０．１、項目ｘ３の値は分散０．３でランダムに生成した値である。

図１０（Ｃ）は、従来のＭＴ法のＭＤと、本実施形態により算出されたＭＤについて説明する図である。５０１Ａ乃至５０８Ａは、それぞれ、従来のＭＴ法により算出された、図１０（Ａ）の評価用の単位空間データ１乃至４、図１０（Ｂ）の評価用の信号データ１乃至４のＭＤである。５０１Ｂ乃至５０８Ｂは、それぞれ、本実施形態により算出された、図１０（Ａ）の評価用の単位空間データ１乃至４、図１０（Ｂ）の評価用の信号データ１乃至４のＭＤである。

図１０（Ｃ）によれば、従来のＭＴ法では、図１０（Ｂ）の評価用の信号データ３は、ＭＤの値が８を超えているため、単位空間とのＭＤがかなり離れていると判定される。また、従来のＭＴ法では、９（Ａ）の評価用の単位空間データ１乃至４のＭＤは１に近く、均質なデータであると判定される。

一方、図１１は、図１０の５倍のデータ数を有する評価用のデータについて説明する図である。図１１（Ａ）、図１１（Ｂ）は、図１０（Ａ）と同様に生成された、サンプル数がそれぞれ５倍のデータである。この場合、単位空間データセットに含まれるデータの数ｎが、単位空間データセットにおける項目数ｋの４倍以上であるため、従来のＭＴ法でも十分な精度でＭＤを算出できると考えられる。

図１１（Ｃ）は、従来のＭＴ法のＭＤと、本実施形態により算出されたＭＤについて説明する図である。６０１Ａ乃至６３０Ａは、それぞれ、従来のＭＴ法により算出された、図１１（Ａ）の評価用の単位空間データ１乃至１５、図１１（Ｂ）の評価用の信号データ１乃至１５のＭＤである。６０１Ｂ乃至６３０Ｂは、それぞれ、本実施形態により算出された、図１１（Ａ）の評価用の単位空間データ１乃至１５、図１１（Ｂ）の評価用の信号データ１乃至１５のＭＤである。

図１１（Ｃ）では、６０１Ａ乃至６３０Ａ、６０１Ｂ乃至６３０Ｂは、それぞれ、ＭＤは４以下となっていることが分かる。また、図１１（Ｂ）信号データ１５は、図１０（Ｂ）の信号データ３と同じデータであるが、図１０（Ｃ）の結果とはことなり、ＭＤは１以下となっている。

これより、従来のＭＴ法では、単位空間データのサンプル数ｎが項目数ｋに近いと結果の精度が劣ることが分かる。一方、本実施形態の手法の場合、当該サンプル数ｎがｋに近い場合であっても、比較的妥当な結果が得られていることが分かる。

［第２の実施形態］
第１の実施形態では、処理対象のデータについて、算出した各ＭＤのうち、最も値が大きいＭＤであるＭＤ_ｍａｘを、当該処理対象のデータに対するＭＤとする例について説明した。第２の実施形態では、処理対象のデータについて、各ＭＤのＳＮ比（「ばらつき度」の一例）を、当該処理対象のデータに対するＭＤとする例について説明する。第２の実施形態によれば、第１の実施形態と同様の効果を得られる。なお、第２の実施形態の処理は、第１の実施形態の処理と組み合わせて使用してもよい。

＜処理＞
次に、図１２を参照して、第２の実施形態に係る情報処理システム１０の処理について説明する。図１２は、第２の実施形態に係る情報処理システム１０の処理の一例を示すフローチャートである。

ステップＳ２１乃至ステップＳ２３は、図７のステップＳ１乃至ステップＳ３とそれぞれ同様である。

ステップＳ２４において、解析部１４は、処理対象の単位空間データについて、算出した各ＭＤのばらつき度を算出し、算出したばらつき度を、当該処理対象の単位空間データに対するＭＤとする。

ここで、第１の実施形態では、各ＭＤの最大値のみを用いていたが、１つのＭＤのみが比較的大きい状況と、複数のＭＤが比較的大きい状況とでは異なると考えられる。そこで、第２の実施形態に係る解析部１４は、各ＭＤを用いてＳＮ比等のばらつき度を算出し、算出したばらつき度をＭＤとして用いる。ここで、ばらつき度は、望小のＳＮ比を用いてもよい。これにより、単位空間データセットからのＭＤが大きくないデータを、同じグループであると判断できる。

ここで、望小のＳＮ比をＳとすると、以下の式（４）、（５）より算出できる。

Ｓ = −１０×ｌｏｇＶｔ・・・（４）
Ｖｔ＝（ｙ_１ ^２＋ｙ_２ ^２＋ｙ_３ ^２＋…＋ｙ_ｎ ^２）／ｌ・・・（４）
ここで、ｌは各組み合わせに応じて算出された各ＭＤの数である。また、ｙ_１、・・・ｙ_ｎは、各組み合わせに応じて算出された各ＭＤの値である。

なお、ばらつき度は、望小のＳＮ比に限定されず、望目ＳＮ比、望大ＳＮ比、エネルギー比型のＳＮ比、標準ＳＮ比、動特性のＳＮ比など、品質工学における公知のＳＮ比等を用いてもよい。

ステップＳ２５乃至ステップＳ２６は、図７のステップＳ５乃至ステップＳ６とそれぞれ同様である。

ステップＳ２７において、解析部１４は、処理対象の信号データについて、算出した各ＭＤのばらつき度を算出し、算出したばらつき度を、当該処理対象の信号データに対するＭＤとする。

［第１の実施形態及び第２の実施形態の評価］
次に、機械学習等の研究で利用されることが多い、ワインの品質データを用いて、第１の実施形態及び第２の実施形態により算出されたＭＤについて評価した。

なお、ワインの品質データは、https://archive.ics.uci.edu/ml/datasets/Wineより取得でき、１７８個の各サンプルに対し、アルコール、マレイン酸、マグネシウムの量等の１３項目毎のデータと、ワインの品質を示すクラス（class）１乃至３のデータを有する。

従来のＭＴ法や本実施形態の手法は、単位空間を決めてそれに対する信号データのＭＤを求めるため、単位空間のデータは、クラス毎に作成した。

そして、単位空間データのＭＤの分布と信号データのＭＤの分布の閾値に基づいて評価した。ここで、ＭＤの分布が途切れている値であり、かつ、当該途切れている値が当該分布の最頻値から所定程度離れている値を、正答か誤答かの閾値として選択した。

図１３は、10-fold-cross-validation（交差検証）の結果を示す図である。

１７８個の各サンプルに対し、約１８サンプルずつ１０個のテーブルを作成し（１８番目のテーブルは１６個）、９個のテーブルのデータを単位空間データセットとし、残りの１個のテーブルのデータを信号データセットとした。

単位空間データセットはクラス１乃至３に分類分けされており、単位空間データセットに含まれるデータ数は、クラス１乃至３のそれぞれにおいて、５３個、６４個、４４個であった。

図１４は、2-fold-cross-validation（交差検証）の結果を示す図である。

１７８個の各サンプルに対し、８９サンプルずつの２個のテーブルを作成し、一方を単位空間データセット、他方を信号データセットとして１回目を計算し、単位空間データセットと信号データセットを入れ替えて２回目の計算を行った。なお、１回目の計算では、単位空間データセットに含まれるデータ数は、クラス１乃至３のそれぞれにおいて、２９個、３６個、２４個であった。２回目の計算では、単位空間データセットに含まれるデータ数は、クラス１乃至３のそれぞれにおいて、３０個、３５個、２４個であった。

ここで、図１３の10-fold-cross-validationでは、項目数１３に対して各クラスのサンプルのデータ数が約３〜５倍となっており、図１４の2-fold-cross-validationでは、項目数１３に対して各クラスのサンプルのデータ数は３倍未満となっている。

図１３の10-fold-cross-validationにおいても、図１４の2-fold-cross-validationにおいても、本実施形態の手法は、従来のＭＴ法より正答率が良い結果となっている。

図１５は、単位空間データセットのサンプル数が項目数に対して十分に多くない場合の従来のＭＴ法のＭＤと、本実施形態の手法のＭＤを算出した結果について説明する図である。図１５では、１４個のサンプルのデータを単位空間データセットとしてランダムに抜き取り、従来のＭＴ法のＭＤと、本実施形態の手法のＭＤを算出した結果を示している。ここでは項目数ｋ＝１３であるため、ｎ＝ｋ＋１となっている。

図１５の例では、従来のＭＴ法の正答率５８．１８％と、極端に悪い結果となっている。これに対し、本実施形態の手法では正答率８０％以上となっている。

図１６は、単位空間データセットのサンプル数が項目数以下の場合の本実施形態の手法のＭＤを算出した結果について説明する図である。なお、従来のＭＴ法と異なり、本実施形態の手法によれば、単位空間データセットのサンプル数ｎが項目数ｋ以下であってもＭＤを算出できる。

図１６では、ｎ＝１０として計算した結果を示している。クラス１のデータをクラス１と判断した数が３８（正答）、クラス１をクラス１ではない（クラス２またはクラス３）と判断した数が１１（誤答）、クラス２またはクラス３をクラス１と判断したのが２（誤答）、クラス１ではないものをクラス２またはクラス３と判断した数は１１８個（正答）であった。

クラス１の正答率は、２項目間の最大値をＭＤとする手法で７７．５５％、２項目間のＳＮ比をＭＤとする手法で８７．７６％、３項目間の最大値をＭＤとする手法７１．４３％、３項目間のＳＮ比をＭＤとする手法で８５．７１％であった。ここで、今回のデータセットでは、ｎが比較的小さい場合、項目間の最大値をＭＤとする手法よりも、項目間のＳＮ比をＭＤとする手法の方がより正答率が高かった。ｎが大きい場合には、項目間の最大値をＭＤとする手法と、項目間のＳＮ比をＭＤとする手法とで有意差は見られなかった。

［項目診断について］
上記第１の実施形態、及び第２の実施形態は、公知の項目診断に利用することも可能である。ディープラーニング等の機械学習で分析した結果は、どうしてそのような結果が分析されたのかを知ることはできない。一方、上記第１の実施形態、及び第２の実施形態によれば、従来のＭＴ法と同様、ディープラーニング等の機械学習で分析した結果に対し、どのような項目に基づいてそのような結果が分析されたのかを推定することができる。

なお、上記第１の実施形態、及び第２の実施形態によれば、従来のＭＴ法と比較して、計測されたサンプル数ｎが、項目数ｋの所定数倍以上でない場合でも、より高い精度の項目診断の解析結果を得ることができる。

図１７は、項目診断の解析結果について説明する図である。図１７（Ａ）は、従来のＭＴ法による項目診断の解析結果の例を示す。図１７（Ｂ）は、第１の実施形態における２項目間の各ＭＤの最大値をＭＤとした場合の項目診断の解析結果の例を示す。図１７（Ｂ）では、ある１つの信号データに対して、２５個の項目毎に２５個のＭＤが算出され、各信号データに対する当該項目毎のＭＤの平均値の例が示されている。

図１７（Ｂ）において、最もＭＤが大きい項目は項目６であり、図１７（Ａ）に示す従来のＭＴ法の項目診断結果と同じである。

図１８は、ＭＤの平均値が最も大きくなる項目の組み合わせについて説明する図である。図１８では、項目毎の２５個のＭＤの平均値に基づき、ＭＤの平均値が最も大きくなる項目の組み合わせである、項目２と項目６における分布を示している。この分布において、不合格となる信号データ７０１を判定できる。すなわち、項目２と項目６の組み合わせにより、不合格と判定されたと推定できる。

また、この項目診断において、どのような項目を測定すれば、異常等の解析ができるかの判定を行うこともできる。

＜まとめ＞
上述したように、本実施形態によれば、基準化後の信号データセットに含まれる各データについて、ｋ個の項目のうち、ｍ個の項目間の複数の組み合わせ毎に、単位空間データセットからの距離を算出する。そして、当該複数の組み合わせ毎の距離に基づいて、信号データセットに含まれる各データが、単位空間データセットと同じ属性に含まれるか否かを解析する。これにより、学習サンプル数ｎが、項目数ｋよりも十分に大きくない場合でも、より高い精度の解析結果を得ることができる。

なお、本実施形態は、従来のＭＴ法と同様、生産ラインの異常等の診断や監視、製品特性値の予測や検査、官能特性値の識別、健康診断、経済分析といった、多次元情報からのパターン認識に適用できる。また、本実施形態によれば、従来のＭＴ法と異なり、例えば、開発段階や初期流動段階において、学習サンプル数ｎが、項目数ｋよりも十分に大きくない場合でも、適用可能である。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

情報処理システム１０の各機能部は、例えば１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。

１０情報処理システム
１１取得部
１２基準化部
１３算出部
１４解析部

特開２００３−１４１３０６号公報

田口玄一「品質工学の数理」（日本規格協会１９９９年発行）

Claims

第１の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第１の数の項目を有する１以上のデータの集合である信号データセットを取得する取得部と、
前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する基準化部と、
前記基準化後の信号データセットに含まれる各データについて、前記第１の数の項目のうち、前記第１の数よりも少ない第２の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する算出部と、
前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する解析部と、
を有する情報処理システム。
前記解析部は、前記複数の組み合わせ毎の距離のうち、最も大きい距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する、
請求項１記載の情報処理システム。
前記解析部は、前記複数の組み合わせ毎の距離のばらつき度に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する、
請求項１または２に記載の情報処理システム。
前記算出部は、前記基準化後の信号データセットに含まれる各データについて、前記第１の数の項目のうち、前記第１の数よりも少ない第２の数の項目間の全ての組み合わせ毎に、前記単位空間データセットからの距離を算出する、
請求項１乃至３のいずれか一項に記載の情報処理システム。
前記算出部は、前記第１の数と、単位空間データセットに含まれるデータの数とに基づいて、前記第２の数を決定する、
請求項１乃至４のいずれか一項に記載の情報処理システム。
前記算出部は、スピアマンの順位相関係数、ケンドールの順位相関係数、ＭＩＣ(Maximum information coefficient)、ＨＳＩＣ(Hilbert-Schmidt indipendence Criteria）、または偏相関係数を用いて、前記単位空間データセットからの距離を算出する、
請求項１乃至５のいずれか一項に記載の情報処理システム。
情報処理システムが、
第１の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第１の数の項目を有する１以上のデータの集合である信号データセットを取得する処理と、
前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する処理と、
前記基準化後の信号データセットに含まれる各データについて、前記第１の数の項目のうち、前記第１の数よりも少ない第２の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する処理と、
前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する処理と、
を実行する情報処理方法。
コンピュータに、
第１の数の項目を有し、所定の属性に含まれる複数のデータの集合である単位空間データセットと、前記第１の数の項目を有する１以上のデータの集合である信号データセットを取得する処理と、
前記信号データセットに含まれる各データを、前記単位空間データセットに基づいて基準化する処理と、
前記基準化後の信号データセットに含まれる各データについて、前記第１の数の項目のうち、前記第１の数よりも少ない第２の数の項目間の複数の組み合わせ毎に、前記単位空間データセットからの距離を算出する処理と、
前記複数の組み合わせ毎の距離に基づいて、前記信号データセットに含まれる各データが、前記所定の属性に含まれるか否かを解析する処理と、
を実行させるプログラム。