JP2020154891A

JP2020154891A - 外れ値要因推定支援装置、外れ値要因推定支援方法及び外れ値要因推定支援プログラム

Info

Publication number: JP2020154891A
Application number: JP2019053875A
Authority: JP
Inventors: 知弘米田; Tomohiro Yoneda; 健吉加藤; Kenkichi Kato; 翔太山根; Shota YAMANE
Original assignee: Hitachi Industry and Control Solutions Co Ltd
Current assignee: Hitachi Industry and Control Solutions Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2020-09-24
Anticipated expiration: 2039-03-20
Also published as: JP6719612B1

Abstract

【課題】外れ値の要因を容易に推測することを課題とする。【解決手段】過去における外れ値が生じた要因と、その要因が生じた際の基礎統計量、距離が、対応付けられて格納されている過去統計データ１２２、計測値等が格納されている計測データ１２１を保持され、計測データ１２１を構成するデータは、一方は同種のデータで構成される変数に対応付けられ、他方ではレコードに対応付けられており、所定の外れ値を指定する入力装置１３２と、計測データ１２１において、指定された外れ値と同一のレコードに属すデータについてマハラノビス距離を算出する距離算出処理部１１１と、マハラノビス距離に基づいて、変数のランキングを算出し、変数における基礎統計量と、過去統計データ１２２に格納されている基礎統計量とを比較することで、要因を推定し、変数のランキングと、要因とを表示するランキング表示処理部１１２と、を有することを特徴とする。【選択図】図１

Description

本発明は、外れ値要因推定支援装置、外れ値要因推定支援方法及び外れ値要因推定支援プログラムの技術に関する。

データ分析の相関算出作業において、予測モデルを生成する場合に予測したモデルから大きく外れる値が存在する。そこで、データ分析の分野では、グラフによる可視化により外れ値の要因を、データの特徴に基づきＢＩツール等を用いてユーザが特定していく作業が行われている。この際、ユーザは、過去の経験則や統計的手法等で、外れ値の要因を特定する。
しかし、データが多種多様となると、要因を見つけるまでに時間がかかる上、外れ値毎に要因を探っていったのでは、工数が増大してしまうという課題がある。そこで、これらの作業を自動化することで分析の精度向上と作業の効率向上を図ることが行われている。

このような課題を解決するため、例えば、特許文献１〜３が開示されている。
特許文献１には、「熱処理プレートによる処理温度の測定によって得られた温度データに基づいて、所定の現象が起きたか否かを判定する現象判定過程（ステップＳ４０１、Ｓ４０３、Ｓ４１１、Ｓ４２１、Ｓ４３１、Ｓ４３２）と、現象が起きたと現象判定過程が判定した場合には、起きたと判定された現象の原因、および、その原因を解消するための対策の少なくともいずれかを推定する推定過程（ステップＳ４０２、４０４、４１２、４２２、４３３）と、を備えている」分析方法、分析装置および基板処理装置が開示されている（要約参照）。

特許文献２には、「異常原因特定システム１０は、複数種の警報を発する装置の異常原因を特定する。この異常原因特定システム１０は、警報に対応する異常原因の発生確率に関する統計モデルが予め格納されたモデル記憶部１１と、入力された警報情報、及び統計モデルに基づき異常原因を推論する異常原因推論部１４と、異常原因推論部１４により推論された異常原因に関する情報を表示する表示部１６と、を備えている。異常原因推論部１４は、一定時間において、区切られた所定時間幅それぞれで警報情報及び統計モデルに基づき異常原因候補を求めると共に、当該異常原因候補の種別ごとに度数を算出し、少なくとも度数が最も高い種別の異常原因候補を異常原因として推論する」異常原因特定システムが開示されている（要約参照）。

特許文献３には、「外れ値検出対象であるデータ集合における各データを識別するためのデータ識別子を設定し、データ集合をプロットにより可視化した後、可視化されたデータ集合における各データに対応させてデータ識別子を表示部１０２に表示させる制御部１０３と、可視化されたデータ集合において外れ値のデータに対応するデータ識別子をオペレータに指定させるための入力部１０１とを備えている」外れ値検出支援プログラム、外れ値検出支援方法および外れ値検出支援装置が開示されている（要約参照）。

特開２０１４−２３６０８４号公報特開２０１４−０９２７９９号公報特開２００４−２４６６２２号公報

特許文献１に記載の発明では特定の箇所へのセンサの取り付け、及び、温度の測定がされている。そして、そのセンサの取り付け位置の意味や、温度等のデータの意味が、予め理解されていることが前提となっている。
特許文献２では、ベイジアンネットワークモデルが用いられている。ここで、ベイジアンネットワークモデルは異常(閾値を超える場合)事象において共通条件を抽出している。そのため、ある一定以上の異常の数が必要である。
特許文献３に記載の発明では、高次元のデータを散布図にプロットし、データを可視化することが困難であるため、高次元のデータを低次元（２次元）のデータに圧縮している。このようにすることで、二次元のデータを散布図にプロットし、データの可視化が可能となっている。しかし、高次元のデータを低次元に圧縮する際に、データの正確性が失われるおそれがある。

このような背景に鑑みて本発明がなされたのであり、本発明は、外れ値の要因を容易に推測することを課題とする。

前記した課題を解決するため、本発明は、過去における外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量と、距離とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータが格納されている処理対象データを保持している記憶部と、前記処理対象データを構成するデータは、一方は同種のデータで構成される第１項目に対応付けられ、他方では第２項目に対応付けられており、前記処理対象データにおいて、所定の外れ値を指定する指定部と、前記処理対象データにおいて、指定された前記外れ値と同一の前記第２項目に属するデータである第１データが、前記第１データと同一の前記第１項目に属する第１データ群から、どれほど離れているかの指標を、複数の前記第１項目について算出する指標算出部と、前記指標に基づいて、指定された前記外れ値の要因を推定する要因推定部と、前記推定された要因を表示部に表示する表示処理部と、を有することを特徴とする。
その他の解決手段は実施形態において適宜記載する。

本発明によれば、外れ値の要因を容易に推測することができる。

本実施形態に係る要因推定装置の構成例を示す機能ブロック図である。本実施形態で使用される計測データの一例を示す図である。表示装置に表示される散布図の一例を示す図である。本実施形態における要因推定装置の処理手順を示すフローチャートである。単独のカラム毎についてのマハラノビス距離算出処理の手順を示すフローチャートである。質的データによるマハラノビス距離のイメージを示す図である。量的データにおけるマハラノビス距離のイメージを示す図である。質的データと、質的データとの組み合わせによるマハラノビス距離算出処理の手順を示すフローチャートである。質的データと、質的データとの組み合わせによるマハラノビス距離算出手法を説明する図である。質的データと、質的データとの組み合わせによるマハラノビス距離算出のイメージを示す図（その１）である。質的データと、質的データとの組み合わせによるマハラノビス距離算出のイメージを示す図（その２）である。質的データと、量的データとの組み合わせによるマハラノビス距離算出処理の手順を示すフローチャートである。質的データと、量的データとの組み合わせによるマハラノビス距離算出手法を説明する図である。質的データと、量的データとの組み合わせによるマハラノビス距離算出のイメージを示す図（その１）である。質的データと、量的データとの組み合わせによるマハラノビス距離算出のイメージを示す図（その２）である。ランキング表示処理の手順を示すフローチャートである。本実施形態で使用される過去統計データ１２２の例を示す図である。本実施形態で表示されるランキング表示画面の一例を示す図である。

次に、本発明を実施するための形態（「実施形態」という）について、適宜図面を参照しながら詳細に説明する。各図面において、同一の要素については同一の符号を付して、説明を適宜省略する。

＜装置構成＞
図１は、本実施形態に係る要因推定装置１の構成例を示す機能ブロック図である。
要因推定装置１は、ＰＣ（Personal Computer）等である。そして、図１に示すように、要因推定装置１は、メモリ１００、ＣＰＵ（central Processing Unit）１３１、ＨＤ（Hard Disk）等の記憶装置１２０、キーボードや、マウス等の入力装置１３２、ディスプレイ等の表示装置１３３を有する。
また、記憶装置１２０に格納されているプログラムがメモリ１００にロードされ、ＣＰＵ１３１によって実行される。これによって、処理部１１０、処理部１１０を構成する距離算出処理部１１１、ランキング表示処理部１１２、登録処理部１１３が具現化する。

記憶装置１２０には、図示しない各計測器から取得した計測データ１２１と、過去統計データ１２２とが格納されている。

（計測データ１２１）
ここで、図２を参照して記憶装置１２０に格納されている計測データ１２１について説明する。
図２は、本実施形態で使用される計測データ１２１の一例を示す図である。
図２の例では、計測データ１２１は、レコード（第２項目）Ｒ１〜Ｒ１０を有し、カラム（第１項目）Ｃ１〜Ｃ８を有している。それぞれのカラムＣ１〜Ｃ８は、「交換回数」、「機械使用時間」、「変数Ａ」、「変数Ｂ」、・・・、「変数Ｆ」に対応している。なお、「交換回数」とは「部品の交換回数」である。本実施形態では、「交換回数」、「機械使用時間」、「変数Ａ」、「変数Ｂ」、・・・を、変数と称する。
計測データ１２１の各フィールドに入力されているデータは、図示しない所定の計測器から取得したり、ユーザが手動で入力したものである。

図２に示すように、計測データ１２１のデータには、「Ａ１」、「Ｂ１」等の質的データと、「１０」、「３０」等の量的データとが含まれている。質的データとしては、部品番号や、行った作業の種類、作業の有無等がある。量的データとしては、温度や、計測値等がある。

ここで、図２と、図３とを参照して、本実施形態で行われる内容について説明する。
図３は、図２の計測データ１２１の内、「交換回数」と、「機械使用時間」とが、それぞれを軸とする散布図として表示装置１３３に表示されたものである。図３では、散布図に回帰直線が加わっている。なお、「変数Ａ」、「変数Ｂ」、・・・、「変数Ｆ」は、散布図には示されていない。

ここで、符号２０１に示すデータは、他のデータと比べて、短い機械使用時間にもかかわらず、部品の交換回数が多い外れ値となっている。
この外れ値は、図２の網掛けで示されているレコードＲ２に対応しているものとする。本実施形態では、図３の符号２０１のような外れ値が生じた理由（要因）を、散布図に示されていない「変数Ａ」、「変数Ｂ」、・・・、「変数Ｆ」から探ることを目的とする。

図１の説明に戻る。
過去統計データ１２２は、過去において外れ値が生じた要因と、その外れ値が生じた際のデータの基礎統計量（過去基礎統計量）が対応付けられて格納されている。なお、過去統計データ１２２については後記する。

距離算出処理部１１１は、計測データ１２１に基づいて、外れ値が生じているデータに対応付けられている各データが、どれくらい平均から離れているかを示す指標を算出する。なお、本実施形態では、この指標としてマハラノビス距離が用いられる。前記した図２及び図３の例を参照すると、距離算出処理部１１１は、図２のレコードＲ２において各変数に対応付けられているデータが、どれくらい平均から離れているかを示すマハラノビス距離を算出する。

ランキング表示処理部１１２は、距離算出処理部１１１が算出したマハラノビス距離に基づいて変数のランキングを行う。さらに、ランキング表示処理部１１２は、記憶装置１２０に格納されている過去統計データ１２２を基に、各変数のデータが、平均から離れている要因を推定する。そして、ランキング表示処理部１１２は、ランキング結果と、推定した要因とを表示装置１３３に表示する。

登録処理部１１３は、推定した要因が正しい場合、その変数と、要因に関する基礎統計量及びマハラノビス距離を過去統計データ１２２に追加格納する。

＜フローチャート＞
（全体処理）
図４は、本実施形態における要因推定装置１の処理手順を示すフローチャートである。
まず、処理部１１０によって図３に示すような散布図が表示される（Ｓ１）。
そして、マウス等の入力装置１３２によって、散布図による外れ値が指定される（Ｓ２）。
つまり、表示装置１３３に表示されている図３に示す散布図において、外れ値となっている符号２０１のデータが、マウス等の入力装置１３２によって、手動で指定される。前記したように、外れ値として指定された符号２０１のデータは、図２のレコードＲ２に格納されているものである。
このようにすることで、容易に外れ値を指定することができる。
なお、外れ値は、処理部１１０が指定することも可能である。この場合、処理部１１０は、散布図における互いのプロット点の距離を算出し、その距離が所定の値以上、あるいは、他の距離と比べて所定のパーセンテージ以上（１５０％以上等）である場合、処理部１１０は、そのプロット点を外れ値と判定する。

次に、距離算出処理部１１１が、単独のカラム毎についてのマハラノビス距離を算出する（Ｓ３）。ステップＳ３の処理については後記する。
そして、距離算出処理部１１１が、質的データのカラムと、別の質的データのカラムの組み合わせのすべてにおけるマハラノビス距離を算出する（Ｓ４）。ステップＳ４の処理については後記する。
続いて、距離算出処理部１１１が、質的データのカラムと、別の量的データのカラムとの組み合わせのすべてにおけるマハラノビス距離を算出する（Ｓ５）。ステップＳ５の処理については後記する。
さらに、距離算出処理部１１１が、量的データのカラムと、別の量的データのカラムとの組み合わせのすべてにおけるマハラノビス距離を算出する（Ｓ６）。ステップＳ６では、一般的な２変数のマハラノビス距離を用いればよいので、ここでの詳細な説明を省略する。

次に、ランキング表示処理部１１２が、外れ値の要因を推定し、要因をランキング形式で表示する（ランキング表示処理；Ｓ７）。ステップＳ７の処理については後記する。

（単独のカラム毎についてのマハラノビス距離算出）
図５は、単独のカラム毎についてのマハラノビス距離算出処理の手順を示すフローチャートである。
図５は、図４のステップＳ３で行われる処理である。
距離算出処理部１１１は、計測データ１２１のうち、計算対象とするカラムを決定する（Ｓ３０１）。ここでは、例えば、図２のカラムＣ３（「変数Ａ」）が決定される。
次に、距離算出処理部１１１は、決定されたカラムのデータが質的データであるか否かを判定する（Ｓ３０２）。
質的データである場合（Ｓ３０２→Ｙｅｓ）、距離算出処理部１１１は、決定されたカラムにおける各データをダミー変数に変換する（Ｓ３１１）。
その後、距離算出処理部１１１は、変換したダミー変数を用いて対象となるデータの平均値μ１、及び、標準偏差σ１を算出する（Ｓ３１２）。
続いて、距離算出処理部１１１は、算出された平均μ１、標準偏差σ１を用いて、質的データによるマハラノビス距離Ｄ１を算出する（Ｓ３１３）。
ステップＳ３１１〜Ｓ３１３の処理について図２を参照して説明する。

図２を参照して、質的データによるマハラノビス距離Ｄ１の算出手法を説明する。
ここでは、図２のカラムＣ３（「変数Ａ」）について説明する。
まず、距離算出処理部１１１は、カラムＣ３（「変数Ａ」）のうち、図４のステップＳ２で選択指定された外れ値に対応するデータと同じデータと、それ以外のデータとに分ける。以降では、図４のステップＳ２で選択指定された外れ値を、単に外れ値と称する。そして、距離算出処理部１１１は、外れ値に対応するデータ（第１データ）を「１」（第１数字）、それ以外のデータを「０」（第２数字）とする。
図２の例では、外れ値に対応するレコードはレコードＲ２であり、レコードＲ２における「変数Ａ」のデータは「Ｂ２」である。よって、外れ値に対応するデータは「Ｂ２」、それ以外のデータは「Ａ１」、「Ａ２」、「Ａ３」、「Ｂ１」となる。
そこで、距離算出処理部１１１は、カラムＣ３に格納されているすべてのデータ（第１データ群）について、「Ｂ２」を「１」とし、「Ｂ２」以外（「Ａ１」、「Ａ２」、「Ａ３」、「Ｂ１」）を「０」とする。ここでの「１」、「０」をダミー変数と称する。この処理は、図５のステップＳ３１１に相当する処理である。
図２の例では、「Ｂ２」を有するレコードは、レコードＲ２，Ｒ６，Ｒ９，Ｒ１０の４つである。従って、図２の例では、「１」が４つ、「０」が６つ検出される。

次に、距離算出処理部１１１は、以下の式（１）を用いてマハラノビス距離Ｄ１を算出する。この処理は、図５のステップＳ３１２，Ｓ３１３の処理に相当する。

Ｄ１＝｜（Ｘ１−μ１）｜／σ１・・・（１）

ここで、Ｘ１は、指定されたレコードに属するダミー変数である。ここでは、図２のレコードＲ２が指定されているので、Ｘ１＝「１」（「Ｂ２」）である。
μ１は、処理対象となっているカラムにおけるダミー変数の集合の平均である。σ１は、処理対象となっているカラムにおけるダミー変数の集合の標準偏差である。
ここで、図２のカラムＣ３（「変数Ａ」）の各データは、レコードＲ１から順に、それぞれ「０，１，０，０，０，１，０，０，１，１」とダミー変数に変換される。この「０，１，０，０，０，１，０，０，１，１」が、処理対象となっているカラムにおけるダミー変数の集合である。

図６は、質的データによるマハラノビス距離Ｄ１のイメージを示す図である。
図６に示すように、外れ値に対応しているデータ以外のデータ（「０」）のヒストグラムと、外れ値に対応しているデータ（「１」）のヒストグラムとから、平均μ１、標準偏差σ１が算出される。そして、対象となるデータが平均μ１から、どれくらい離れているかが、標準偏差σ１で正規化された形でマハラノビス距離Ｄ１として算出される。
このような手法でマハラノビス距離Ｄ１を算出することで、対象となるデータが平均μ１から、どれくらい離れているかを顕著に表すことができる。

ちなみに、特許文献２におけるベイジアンネットワークモデルでは、例えば、「Ｂ２」が異常性を有するとすると、「変数Ａ」のデータの種類（「Ａ１」、「Ａ２」、・・・）が多いと、「Ｂ２」の異常性が埋もれてしまう可能性がある。本実施形態に示す手法であれば、「Ｂ２」が異常性を有するとすると、「Ｂ２」の異常性を顕著に表わすことができる。

図５の処理に戻る。
ステップＳ３０２で、量的データである場合（Ｓ３０２→Ｎｏ）、距離算出処理部１１１は、対象となるデータの平均値μ２、及び、標準偏差σ２を算出する（Ｓ３２１）。
続いて、距離算出処理部１１１は、算出された平均μ２、標準偏差σ２を用いて量的データに対するマハラノビス距離Ｄ２を算出する（Ｓ３２２）。

図２を参照して、量的データによるマハラノビス距離Ｄ２の算出手法を説明する。
ここでは、カラムＣ４（「変数Ｂ」）について説明する。
つまり、距離算出処理部１１１は、カラムＣ４（「変数Ｂ」）におけるデータ（１０，３０，１２，・・・）の平均μ２、標準偏差σ２を算出する。この処理は、図５のステップＳ３２１に相当する処理である。

次に、距離算出処理部１１１は、以下の式（２）を用いてマハラノビス距離Ｄ２を算出する。

Ｄ２＝｜（Ｘ２−μ２）｜／σ２・・・（２）

ここで、Ｘ２は、カラムＣ４（「変数Ｂ」）において、外れ値に対応するデータである。図２の例では、レコードＲ２の「変数Ｂ」の値「３０」である。この処理は、図５のステップＳ３２２に相当する処理である。

図７は、量的データにおけるマハラノビス距離Ｄ２のイメージを示す図である。
図７に示すように、量的データにおけるマハラノビス距離Ｄ２は、全体の平均μ２から外れ値に対応するデータ３０１までの距離に相当する。図７において、符号３０１は、図２の例におけるレコードＲ２の「変数Ｂ」の値「３０」に相当する。

図５の処理の説明に戻る。
ステップＳ３１３及びステップＳ３２２の処理の後、距離算出処理部１１１は、すべてのカラムについて処理を終了したか否かを判定する（Ｓ３３１）。
すべてのカラムについて処理を終了していない場合（Ｓ３３１→Ｎｏ）、距離算出処理部１１１は、次のカラムを処理対象として決定し（Ｓ３３２）、ステップＳ３０２へ処理を戻す。
すべてのカラムについて処理を終了している場合（Ｓ３３１→Ｙｅｓ）、距離算出処理部１１１は、図４のステップＳ４へ処理をリターンする。

（質的データと、質的データとの組み合わせによるマハラノビス距離算出）
図８は、質的データと、質的データとの組み合わせによるマハラノビス距離算出処理の手順を示すフローチャートである。
図８は、図４のステップＳ４で行われる処理である。
まず、距離算出処理部１１１はカラムの組み合わせを決定する（Ｓ４０１）。ここで、組み合わされるカラムは、両方とも質的データを有するカラムである。図２の例では、以下の組み合わせが図８の処理の対象となる。
・カラムＣ３（「変数Ａ」）とカラムＣ６（「変数Ｄ」）との組み合わせ。
・カラムＣ３（「変数Ａ」）とカラムＣ７（「変数Ｅ」）との組み合わせ。
・カラムＣ６（「変数Ｄ」）とカラムＣ７（「変数Ｅ」）との組み合わせ。

次に、距離算出処理部１１１は、所定のカラムの組み合わせについて一方の質的データによる絞り込みを行う（Ｓ４０２）。
その後、距離算出処理部１１１は、絞り込まれた結果におけるダミー変数への変換を行う（Ｓ４０３）。
そして、距離算出処理部１１１は、絞り込みの結果を用いて対象となるデータの平均値μ３、及び、標準偏差σ３を算出する（Ｓ４０４）。
続いて、距離算出処理部１１１は、算出された平均μ３、標準偏差σ３を用いてマハラノビス距離Ｄ３を算出する（Ｓ４０５）。
ステップＳ４０２〜Ｓ４０５の処理について図９を参照して説明する。

図９は、質的データと、質的データとの組み合わせによるマハラノビス距離Ｄ３の算出手法を説明する図である。
図９に示すデータは、図２に示すデータと同じものである。
ここでは、カラムＣ３（「変数Ａ」）（第２データ群）と、カラムＣ６（「変数Ｄ」）（第３データ群）との組み合わせについてマハラノビス距離を算出する。
レコードＲ２は、図２と同様、外れ値が含まれるレコードである。そして、レコードＲ２における「変数Ａ」のデータは「Ｂ２」（第２データ）である。
ここで、距離算出処理部１１１は、カラムＣ３（「変数Ａ」）について「Ｂ２」を有するレコードを絞り込む。図９の例では、レコードＲ２，Ｒ６，Ｒ９、Ｒ１０が絞り込まれる（網掛け）（第４データ群）。この処理は、図８のステップＳ４０２に相当する処理である。

次に、距離算出処理部１１１は、「変数Ｄ」において絞り込まれたレコード（第５データ群）を対象として、外れ値に対応するデータを「１」、それ以外のデータを「０」とする。この処理は、図８のステップＳ４０３に相当する処理である。

「変数Ｄ」において、外れ値に対応するレコードＲ２では、「Ｂ」（第３データ）の値を有している。従って、カラムＣ６（「変数Ｄ」）で、絞り込まれたレコード（レコードＲ２，Ｒ６，Ｒ９、Ｒ１０）において、「Ｂ」を「１」（第３数字）、「Ａ」、「Ｆ」を「０」（第４数字）としてダミー変数に変換する。図９の例では、「１」が２つ、「０」が２つとなる。

そして、距離算出処理部１１１は、以下の式（３）によってマハラノビス距離Ｄ３を算出する。この処理は、図８のステップＳ４０４，Ｓ４０５に相当する処理である。

Ｄ３＝｜（Ｘ３−μ３）｜／σ３・・・（３）

ここで、Ｘ３は、絞り込まれたレコードにおいて、外れ値に対応する「変数Ｄ」のデータが変換されたダミー変数（ここでは「１」）である。μ３は、絞り込まれたレコード（レコードＲ２，Ｒ６，Ｒ９、Ｒ１０）における「変数Ｄ」のダミー変数の平均である。また、σ３は、絞り込まれたレコード（レコードＲ２，Ｒ６，Ｒ９、Ｒ１０）における「変数Ｄ」のダミー変数の標準偏差である。

図１０Ａ及び図１０Ｂは、質的データと、質的データとの組み合わせによるマハラノビス距離Ｄ３の算出のイメージを示す図である。
まず、図１０Ａに示すように、距離算出処理部１１１は、まず、一方のカラムについて、外れ値に対応するデータと、それ以外のデータとで分け、外れ値に対応するデータと同じデータを有するレコードで他方のカラムを絞り込む（破線で囲まれた部分）。
そして、図１０Ｂに示すように、距離算出処理部１１１は、絞り込まれたレコードについて、外れ値に対応するデータと、それ以外のデータとで分け、この結果を用いてマハラノビス距離Ｄ３を算出する。
このような手法でマハラノビス距離Ｄ３を算出することで、対象となるデータが平均μ３から、どれくらい離れているかを顕著に表すことができる。

図８の説明に戻る。
そして、ステップＳ４０５の後、距離算出処理部１１１は、すべての質的データ同士のカラムの組み合わせについて処理を終了したか否かを判定する（Ｓ４１１）。
すべての質的データ同士のカラムの組み合わせについて処理を終了していない場合（Ｓ４１１→Ｎｏ）、距離算出処理部１１１は、次のカラムの組み合わせを決定し（Ｓ４１２）、ステップＳ４０２へ処理をリターンする。
すべての質的データ同士のカラムの組み合わせについて処理を終了している場合（Ｓ４１１→Ｙｅｓ）、距離算出処理部１１１は、図４のステップＳ５へ処理をリターンする。

（質的データと、量的データとの組み合わせによるマハラノビス距離算出）
図１１は、質的データと、量的データとの組み合わせによるマハラノビス距離Ｄ４の算出処理の手順を示すフローチャートである。
図１１に示す処理は、図４のステップＳ５で行われる処理である。
まず、距離算出処理部１１１はカラムの組み合わせを決定する（Ｓ５０１）。ここで、組み合わされるカラムは、一方が質的データを有し、他方が量的データを有するカラムである。図２の例では、以下の組み合わせが図１１の処理の対象となる。
・カラムＣ３（「変数Ａ」）とカラムＣ４（「変数Ｂ」）との組み合わせ。
・カラムＣ３（「変数Ａ」）とカラムＣ５（「変数Ｃ」）との組み合わせ。
・カラムＣ３（「変数Ａ」）とカラムＣ８（「変数Ｆ」）との組み合わせ。
・カラムＣ６（「変数Ｄ」）とカラムＣ４（「変数Ｂ」）との組み合わせ。
・カラムＣ６（「変数Ｄ」）とカラムＣ５（「変数Ｃ」）との組み合わせ。
・カラムＣ６（「変数Ｄ」）とカラムＣ８（「変数Ｆ」）との組み合わせ。
・カラムＣ７（「変数Ｅ」）とカラムＣ４（「変数Ｂ」）との組み合わせ。
・カラムＣ７（「変数Ｅ」）とカラムＣ５（「変数Ｃ」）との組み合わせ。
・カラムＣ７（「変数Ｅ」）とカラムＣ８（「変数Ｆ」）との組み合わせ。

次に、距離算出処理部１１１は、所定のカラムの組み合わせについて、質的データによる絞り込みを行う（Ｓ５０２）。
そして、距離算出処理部１１１は、絞り込みの結果を用いて量的データの平均μ４、標準偏差σ４を算出する（Ｓ５０３）．
続いて、距離算出処理部１１１は、算出された量的データの平均μ４、標準偏差σ４を用いてマハラノビス距離Ｄ４を算出する（Ｓ５０４）。
ステップＳ５０２〜Ｓ５０４の処理について図１２を用いて説明する。

図１２は、質的データと、量的データとの組み合わせによるマハラノビス距離Ｄ４の算出手法を説明する図である。
図１２に示すデータは、図２に示すデータと同じものである。
ここでは、カラムＣ３（「変数Ａ」）（第６データ群）と、カラムＣ４（「変数Ｂ」）（第７データ群）との組み合わせについてマハラノビス距離Ｄ４を算出する。

レコードＲ２は、図２と同様、外れ値を含むレコードである。そして、レコードＲ２における「変数Ａ」のデータは「Ｂ２」（第６データ）である。
まず、距離算出処理部１１１は、カラムＣ３（「変数Ａ」）について「Ｂ２」を有するレコードを絞り込む。図１２の例では、レコードＲ２，Ｒ６，Ｒ９、Ｒ１０（第８データ群）が絞り込まれる（網掛け）。この処理は、図１１のステップＳ５０２に相当する処理である。

次に、距離算出処理部１１１は、「変数Ｂ」について絞り込まれたレコードＲ２，Ｒ６，Ｒ９、Ｒ１０（第９データ群）が有するデータの平均μ４、標準偏差σ４を算出する。この処理は、図１１のステップＳ５０３に相当する処理である。図１２の例では、カラムＣ４（「変数Ｂ」）のデータのうち、レコードＲ２，Ｒ６，Ｒ９、Ｒ１０に該当する「３０」、「２１」、「１０」、「９」について平均μ４、標準偏差σ４が算出される。

そして、距離算出処理部１１１は、以下の式（４）を用いてマハラノビス距離Ｄ４を算出する。

Ｄ４＝｜（Ｘ４−μ４）｜／σ４・・・（４）

ここで、Ｘ４は、絞り込まれたレコードにおいて、外れ値に対応する「変数Ｂ」のデータである。図１２の例では、レコードＲ２の「変数Ｂ」の値「３０」（第７データ）である。この処理は、図１１のステップＳ５０４に相当する処理である。

図１３Ａ及び図１３Ｂは、質的データと、量的データとの組み合わせによるマハラノビス距離Ｄ４の算出のイメージを示す図である。
まず、図１３Ａに示すように、距離算出処理部１１１は、まず、質的データのカラムについて、外れ値に対応するデータと、それ以外のデータとで分け、外れ値に対応するデータと同じデータを有するレコードで、量的データを絞り込む（破線で囲まれた部分）。
そして、図１３Ｂに示すように、距離算出処理部１１１は、絞り込まれた量的データのレコードを対象に全体の平均μ４から指定された外れ値に対応するデータ３０２までの距離に相当するマハラノビス距離Ｄ４を算出する。図１３Ｂにおいて、符号３０２は、図１２の例におけるレコードＲ２の「変数Ｂ」の値「３０」に相当する。
このような手法でマハラノビス距離Ｄ４を算出することで、対象となるデータが平均μ４から、どれくらい離れているかを顕著に表すことができる。

図１１の説明に戻る。
そして、ステップＳ５０４の後、距離算出処理部１１１は、質的データと、量的データのカラムのすべての組み合わせについて処理を終了したか否かを判定する（Ｓ５１１）。
質的データと、量的データのカラムのすべての組み合わせについて処理を終了していない場合（Ｓ５１１→Ｎｏ）、距離算出処理部１１１は、次のカラムの組み合わせを決定し（Ｓ５１２）、ステップＳ５０２へ処理をリターンする。
質的データと、量的データのカラムのすべての組み合わせについて処理を終了している場合（Ｓ５１１→Ｙｅｓ）、距離算出処理部１１１は、図５のステップＳ６へ処理をリターンする。

（ランキング表示処理）
図１４は、ランキング表示処理の手順を示すフローチャートである。
図１４の処理は、図４のステップＳ７で行われる処理である。
まず、ランキング表示処理部１１２は、図４のステップＳ３〜Ｓ６で算出されたマハラノビス距離が大きい順に変数及び変数の組み合わせをランキング化する（Ｓ７０１）。
例えば、図２の例では、「変数Ｃ」、（「変数Ｂ」，「変数Ｃ」）、（「変数Ｃ」，「変数Ｆ」）、・・・の順にマハラノビス距離が大きい。なお、（「変数Ｂ」，「変数Ｃ」）は、「変数Ｂ」と「変数Ｃ」との組み合わせを意味する。

次に、ランキング表示処理部１１２は、各変数及び各変数の組み合わせについて外れ値を含めた全体の基礎統計量を算出する（Ｓ７０２）。図２を例として参照すると、ランキング表示処理部１１２は、「変数Ａ」におけるデータの基礎統計量を算出する。なお、基礎統計量の算出には、外れ値に対応するデータ（図２のレコードＲ２のデータ）も含むすべてのデータについて行われる。また、「変数Ａ」のような質的データについては、任意の数字によるダミー変数でデータを変換した上で、基礎統計量が算出されるとよい。次に、ランキング表示処理部１１２は、「変数Ｂ」、「変数Ｃ」、・・・、「変数Ｆ」について、基礎統計量を算出する。

続いて、ランキング表示処理部１１２は、（「変数Ａ」，「変数Ｂ」）におけるデータの基礎統計量を算出する。なお、基礎統計量の算出には、外れ値に対応するデータ（図２のレコードＲ２のデータ）も含むすべてのデータについて行われる。また、「変数Ａ」のような質的データについては、任意の数字によるダミー変数でデータを変換した上で、基礎統計量が算出されるとよい。ちなみに、（「変数Ａ」，「変数Ｂ」）のような２つの変数の組み合わせでは、一般的に各基礎統計量が２つずつ算出される。このように、各基礎統計量が２つずつ存在することを２次元統計量と称することとする。そして、ランキング表示処理部１１２は、（「変数Ａ」，「変数Ｂ」）、（「変数Ａ」，「変数Ｃ」）、・・・、（「変数Ｅ」、「変数Ｆ」）の各組み合わせについて基礎統計量を算出する。
なお、ここで、算出される基礎統計量は、標準偏差、歪度、尖度、中央値、最頻値である。

次に、過去統計データ１２２における基礎統計量と、ステップＳ７０２で算出された基礎統計量とをマッチングする（Ｓ７０３）ことで、要因を推定する。
ここで、図１５に示すように、記憶装置１２０には、過去における外れ値が生じた際におけるデータの基礎統計量と、マハラノビス距離とが過去統計データ１２２として格納されている。基礎統計量は、図１５に示すように標準偏差、歪度、尖度、中央値、最頻値等が含まれる。各基礎統計量と、マハラノビス距離とは、図１５に示すように、外れ値が生じた要因に対応付けられて格納されている。

ちなみに、図１５の例では、要因として（Ａ）誤記、（Ｂ）計測値のエラー、（Ｃ）別の種類が混在、（Ｄ）（Ａ）〜（Ｄ）以外の４種類が格納されている。
（Ａ）の誤記は、小数点の入力ミスや、質的データにおけるデータの打ち間違い等を指す。小数点の入力ミスであれば、本来の値より１０倍や、１００倍大きくなる等といった現象が生じる。一般に、このような場合、マハラノビス距離は大きくなる傾向がある。

（Ｂ）の計測値のエラーは、０．９９９９等、機械が出力し得る値で生じることが多く、量的データに生じることが多い要因である。このような場合、マハラノビス距離が大きくなる傾向がある。

（Ｃ）の別の種類が混入は、例えば、ネジに関するデータ中にナットに関するデータが混入している場合等というように、異なる計測対象のデータが混入している場合である。
（Ｄ）の（Ａ）〜（Ｄ）以外として、例えば、（Ｃ）とは異なり、同じ計測対象のデータではあるが、温度等の計測時の環境条件が異なる場合等である。

ランキング表示処理部１１２は、過去統計データ１２２において、各要因に対応付けられている基礎統計量及びマハラノビス距離と、ステップＳ７０２で算出された基礎統計量とをマッチングする。

例えば、ランキング表示処理部１１２は、「変数Ｃ」における基礎統計量及びマハラノビス距離と、図１５に示す「（Ａ）誤記」の基礎統計量及びマハラノビス距離とをマッチングする。次に、ランキング表示処理部１１２は、「変数Ｃ」における基礎統計量及びマハラノビス距離と、図１５に示す「（Ｂ）計測値のエラー」の基礎統計量及びマハラノビス距離とをマッチングする。さらに、ランキング表示処理部１１２は、「変数Ｃ」における基礎統計量及びマハラノビス距離と、図１５に示す「（Ｃ）別の種類が混在」の基礎統計量及びマハラノビス距離とをマッチングする。続いて、ランキング表示処理部１１２は、「変数Ｃ」における基礎統計量及びマハラノビス距離と、図１５に示す「（Ｄ）（Ａ）〜（Ｃ）以外」の基礎統計量及びマハラノビス距離とをマッチングする。このようにして、ランキング表示処理部１１２は、ランキングの上位から、順にマッチングを行っていく。

基礎統計量及びマハラノビス距離のマッチングは、以下の式（１１）によって行われる。

Ｉ＝｛（ＳＴＤ１−ＳＴＤ２）^２＋（ＳＫ１−ＳＫ２）^２＋（Ｋ１−Ｋ２）^２＋（ＭＥ１−ＭＥ２）^２＋（ＭＯ１−ＭＯ２）^２＋（ＭＤ１−ＭＤ２）^２｝^１／２
・・・（１１）

ここで、Ｉは一致度を示す。また、ＳＴＤ１は、今回データにおける標準偏差を示し、ＳＴＤ２は過去統計データ１２２における標準偏差を示す。今回データとは、前記した例では、「変数Ｃ」であり、過去統計データ１２２における標準偏差は、例えば、「（Ａ）誤記」の標準偏差に相当する。同様に、ＳＫ１は、今回データにおける歪度を示し、ＳＫ２は、過去統計データ１２２における歪度を示す。また、Ｋ１は、今回データにおける尖度を示し、Ｋ２は、過去統計データ１２２における尖度を示す。そして、ＭＥ１は、今回データにおける中央値を示し、ＭＥ２は、過去統計データ１２２における中央値を示す。ＭＯ１は、今回データにおける最頻値を示し、ＭＯ２は過去統計データ１２２における最頻値を示す。そして、ＭＤ１は、今回データにおけるマハラノビス距離を示し、ＭＤ２は、過去統計データ１２２におけるマハラノビス距離を示す。

そして、ランキング表示処理部１１２は、一致度Ｉが最も小さい過去統計データ１２２の要因を、外れ値が生じた要因（外れ値の要因）とする。例えば、「（Ａ）誤記」における基礎統計量と一致度Ｉが最も小さければ、ランキング表示処理部１１２は、外れ値が生じた要因として「（Ａ）誤記」を推定する。

なお、２つの変数の組み合わせ（例えば、「変数Ａ」と「変数Ｂ」との組み合わせ）の場合、マハラノビス距離以外は２次元統計量となる。図１５には示していないが、過去統計データ１２２には、２次元統計量となる場合も含まれており、それぞれの「（Ａ）誤記」等の要因が対応付けられている。

また、今回データが２次元統計量を有する場合の一致度Ｉは、例えば以下のように算出される。
（１）２次元統計量における、それぞれの基礎統計量について、今回データの基礎統計量と、過去統計データ１２２の基礎統計量との差の２乗を足し合わせて、ルートをとったものが一致度Ｉとなる。例えば、一方の変数が、標準偏差ＳＴＤ１１、歪度ＳＫ１１、・・・の基礎統計量を有し、他方の変数が、標準偏差ＳＴＤ１２、歪度ＳＫ１２、・・・の基礎統計量を有しているものとする。また、過去統計データ１２２が、これらの基礎統計量に対応するように、標準偏差ＳＴＤ２１，ＳＴＤ２２、歪度ＳＫ２１，ＳＫ２２、・・・の基礎統計量を有しているものとする。このとき、一致度Ｉは、以下の式（１２）によって算出される。

Ｉ＝｛（ＳＴＤ１１−ＳＴＤ２１）^２＋（ＳＴＤ１２−ＳＴＤ２２）^２＋（ＳＫ１１−ＳＫ２１）^２＋（ＳＫ１２−ＳＫ２２）^２＋・・・＋（ＭＤ１−ＭＤ２）^２｝^１／２
・・・（１２）

（２）２次元統計量における、それぞれの基礎統計量の平均を算出し、この平均を基に一致度が算出される。例えば、一方の変数が、標準偏差ＳＴＤ１１、歪度ＳＫ１１、・・・の基礎統計量を有し、他方の変数が、標準偏差ＳＴＤ１２、歪度ＳＫ１２、・・・の基礎統計量を有しているものとする。そこで、これら２つの標準偏差ＳＴＤ１１，ＳＴＤ１２の平均ＳＴＤＭ１、歪度ＳＫ１１，ＳＫ１２の平均ＳＫＭ１、・・・が算出される。そして、過去統計データ１２２には、これらの平均に対応する基礎統計量（標準偏差ＳＴＤＭ２、歪度ＳＫＭ２、・・・）が格納されている。このとき、一致度Ｉは、以下の式（１３）によって算出される。

Ｉ＝｛（ＳＴＤＭ１−ＳＴＤＭ２）^２＋（ＳＫＭ１−ＳＫＭ２）^２＋・・・＋（ＭＤ１−ＭＤ２）^２｝^１／２
・・・（１３）

変数の組み合わせにより、２次元統計量を算出する場合に、式（１２）の手法を用いるか、式（１３）の手法を用いるかはユーザによって選択される。

図１４の説明に戻る。
ステップＳ７０３の後、ランキング表示処理部１１２は、ランキングの結果と、推定された要因とを対応付けたランキング表示画面を表示装置１３３に表示する（Ｓ７０４）。

図１６は、本実施形態で表示されるランキング表示画面の一例を示す図である。
ランキング表示画面は、「変数名１」、「データ１」、「変数名２」、「データ２」、「影響度」、「判定種別」、「判定種別正解登録」の各カラムを有する。
「変数名１」、「変数名２」では、マハラノビス距離が大きいと判定された変数の組み合わせが格納される。「データ１」、「データ２」には、外れ値に対応する「変数名１」、「変数名２」のデータが表示される。
例えば、図１６の例では、「変数Ｃ」で算出されたマハラノビス距離が最も大きいと判定されている（レコードＲ１１）。従って、この場合、「変数Ｃ」が、先頭に表示されている。そして、「データ１」には、外れ値に対応する図２のレコードＲ２における「変数Ｃ」の値「９０」が表示されている。また、レコードＲ１１は、単独の変数であるので「変数名２」、「データ２」は空欄となっている。

次に、マハラノビス距離が大きいのは、「変数Ｂ」、「変数Ｃ」の組み合わせであるので、「変数名１」には「変数Ｂ」が表示され、「データ１」には、外れ値に対応する「変数Ｂ」のデータ「３０」が表示されている。また、「変数名２」には「変数Ｃ」が表示され、「データ２」には、外れ値に対応する「変数Ｃ」のデータ「９０」が表示されている。

「影響度」は、算出されたマハラノビス距離である。つまり、レコードＲ１１における「影響度」は、「変数Ｃ」で算出されたマハラノビス距離である。
「判定種別」は、図１４のステップＳ７０３におけるマッチングの結果、推定された要因が表示される。ここでは、ランキングが最も上位の「変数Ｃ」の要因として「（Ａ）〜（Ｃ）以外」が表示されている。また、次のランキングの「変数Ｂ」、「変数Ｃ」の要因として「（Ａ）〜（Ｃ）以外」が表示されている。
「判定種別正解登録」では、ユーザによる確認の結果、表示されている要因が正しければ、登録ボタン４０１が入力装置１３２を介して選択入力される。すると、登録処理部１１３が、該当する変数のデータを過去統計データ１２２に追加格納する。例えば、レコードＲ１１の登録ボタン４０１が選択入力されると、過去統計データ１２２の「（Ｄ）（Ａ）〜（Ｃ）以外」のデータとして、ステップＳ７０２で算出された「変数Ｃ」の基礎統計量と、ステップＳ３で算出されたマハラノビス距離が追加登録される（図１４のＳ７１１）。

本実施形態の例では、過去統計データ１２２の「（Ｄ）（Ａ）〜（Ｃ）以外」において「変数Ｃ」の基礎統計量と、マハラノビス距離とが追加される。なお、過去に、「変数Ｃ」において「（Ｄ）（Ａ）〜（Ｃ）以外」が要因として推定されている場合、過去に算出された基礎統計量と、マハラノビス距離とはそのままで、今回新たに算出された基礎統計量と、マハラノビス距離とが追加登録される。つまり、この場合、「変数Ｃ」における過去に算出された基礎統計量及びマハラノビス距離と、今回算出された基礎統計量及びマハラノビス距離とが過去統計データ１２２で並列に格納される。このように、ある変数のある要因について、複数の基礎統計量及びマハラノビス距離が算出された場合、それぞれの基礎統計量及びマハラノビス距離が過去統計データ１２２に格納される。

また、このようにある変数のある要因について、複数の基礎統計量及びマハラノビス距離が過去統計データ１２２に格納されている場合、ステップＳ７０３では、それぞれの基礎統計量及びマハラノビス距離に対してマッチングが行われる。

本実施形態の例において、レコードＲ１１の「変数Ｃ」が温度であれば、「データ１」での温度周辺で、機械使用時間が短くても部品交換回数が多くなる事象が生じていることが分かる。レコードＲ１２や、レコードＲ１３のような組み合わせの条件でも、ユーザは影響度（マハラノビス距離）を確認することができ、所定の環境化では、部品の消耗が激しいという知見も抽出できる。

また、図１６の例では、上位３つのすべてに「変数Ｃ」がランキングされているので、「変数Ｃ」が、外れ値が生じる最大の要因となっている可能性があることを、ユーザが認識できる。

本実施形態では、ユーザがデータの意味を理解していなくても、外れ値の要因を推定することが可能である。
また、本実施形態では、外れ値が、この外れ値に対応している他のカラム(データ)においても外れている点に着目して抽出している。そのため、指定される外れ値のデータは１つでも推定可能である。
さらに、本実施形態では、高次元のデータを低次元（２次元）のデータに圧縮せずに、要因の推定を行っている。従って、本実施形態によれば、データの正確性を維持することができる。
さらに、本実施形態では、外れ値をユーザが選択指定することで、要因の推定処理が開始される。このようにすることで、容易に外れ値の要因の推定を行うことができる。

本実施形態では、単独の質的データについてマハラノビス距離を算出する際、外れ値に対応するデータと同じデータを「１」とし、異なるデータを「０」としている。外れ値に対応するデータと同じデータとは、図２の例の「Ｂ２」であり、異なるデータは図２の例の「Ｂ２」以外である。しかし、外れ値に対応するデータと同じデータを「０」とし、異なるデータを「１」としてもよい。また、「０」、「１」に限らず、外れ値に対応するデータと同じデータと、外れ値に対応するデータと同じデータとは異なるデータを異なる数字とすれば、どのような数字が用いられてもよい。

また、質的データについてマハラノビス距離を算出する際、外れ値に対応するデータと同じデータを「１」とし、異なるデータを「０」としている。しかし、例えば、数量化２類によるダミー変数への変換等が用いられてもよい。

そして、本実施形態では、外れ値に対応するデータが、同じカラムに格納されているデータ群の平均から、どれほど離れているかの指標としてマハラノビス距離が用いられている。しかし、これに限らず、ユークリッド距離等といった、マハラノビス距離以外の距離が用いられてもよい。

さらに、本実施形態では、図３に示す散布図の軸として表示装置１３３に表示されている交換回数や、機械使用時間について図４〜図１６で示す解析が行われていない。しかし、表示装置１３３に表示されている交換回数や、機械使用時間について、図４〜図１６で示す解析が行われてもよい。

また、本実施形態では、図１４のステップＳ７０３におけるマッチングについて、各基礎統計量を用いたユークリッド距離を用いて、対象となるカラムのデータ群の分布が、どの要因に基づく分布に近いかが測られている。しかし、これに限らず、例えば、Ｎ次元のｋ近傍法等によって対象となるカラムのデータ群の分布が、どの要因に基づく分布に近いかが測られてもよい。

さらに、本実施形態では、図３に示すような散布図が表示装置１３３に表示され、マウス等の入力装置１３２によって外れ値２０１が選択指定されている。しかし、これに限らず、例えば、図２に示すような表が表示装置１３３に表示され、その表においてマウス等の入力装置１３２によって外れ値２０１が選択指定されてもよい。

また、本実施形態では、単独の変数（カラム）、２つの変数（カラム）の組み合わせについて解析を行っているが、３つ以上の変数（カラム）の組み合わせについて解析が行われてもよい。

さらに、図１４のステップＳ７０３のマッチングにおいて、ランキング表示処理部１１２は、変数、及び、２つの変数の組み合わせについて基礎統計量を算出し、過去統計データ１２２における過去基礎統計量とのマッチングを行っている。しかし、これに限らず、ランキングの上位（例えば、上位３つ）の変数、及び、２つの変数の組み合わせについて基礎統計量を算出し、過去基礎統計量とのマッチングを行ってもよい。このようにすることで、処理量を軽減することができる。

本発明は前記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を有するものに限定されるものではない。

また、前記した各構成、機能、各部１１０〜１１３、記憶装置１２０等は、それらの一部又はすべてを、例えば集積回路で設計すること等によりハードウェアで実現してもよい。また、図１に示すように、前記した各構成、機能等は、ＣＰＵ１３１等のプロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、ＨＤに格納すること以外に、メモリ１００や、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣ（Integrated Circuit）カードや、ＳＤ（Secure Digital）カード、ＤＶＤ（Digital Versatile Disc）等の記録媒体に格納することができる。
また、各実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。

１要因推定装置（外れ値要因推定支援装置）
１１０処理部
１１１距離算出処理部（指標算出部）
１１２ランキング表示処理部（要因推定部、ランキング処理部、表示処理部）
１１３登録処理部
１２０記憶装置（記憶部）
１２１計測データ（処理対象データ）
１２２過去統計データ（要因データ）
１３２入力装置（指定部）
１３３表示装置（表示部）
Ｓ２外れ値の指定（指定ステップ）
Ｓ３〜Ｓ６マハラノビス距離算出（指標算出ステップ）
Ｓ７０３マッチング（要因推定ステップ）
Ｓ７０４表示（表示ステップ）

前記した課題を解決するため、本発明は、過去における外れ値である第１外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量である第１基礎統計量と、前記第１外れ値が、前記第１外れ値以外のデータからどれほど離れていたかを示す指標である第１指標とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータである処理対象データを保持している記憶部を有し、個々の前記処理対象データは、複数のカラム及び複数のレコードによって構成されるテーブルの各フィールドに格納されており、前記テーブルに格納されている前記処理対象データのうち、特定のカラム及び特定のレコードに対応する前記処理対象データが表示部に表示されている状態で、前記表示部に表示されている前記処理対象データの外れ値である第２外れ値を指定する指定部と、前記テーブルにおいて、指定された前記第２外れ値が格納されている前記レコードにおける前記処理対象データのそれぞれが、それぞれの前記カラムに格納されている他の前記処理対象データから、どれほど離れているかの指標である第２指標、及び、前記カラムに格納されている前記処理対象データの基礎統計量である第２基礎統計量を、前記表示部に表示されている前記特定のカラム以外のすべての前記カラムについて算出する算出部と、前記要因データに格納されている前記第１基礎統計量及び第１指標と、前記算出部によって算出された、それぞれの前記第２基礎統計量及び前記第２指標とを比較することで、指定された前記第２外れ値が生じた要因を推定する要因推定部と、前記推定された要因を表示部に表示する表示処理部と、を有することを特徴とする。
その他の解決手段は実施形態において適宜記載する。

記憶装置１２０には、図示しない各計測器から取得した計測データ１２１（テーブル）と、過去統計データ１２２とが格納されている。

（計測データ１２１）
ここで、図２を参照して記憶装置１２０に格納されている計測データ１２１について説明する。
図２は、本実施形態で使用される計測データ１２１の一例を示す図である。
図２の例では、計測データ１２１は、レコードＲ１〜Ｒ１０を有し、カラムＣ１〜Ｃ８を有している。それぞれのカラムＣ１〜Ｃ８は、「交換回数」、「機械使用時間」、「変数Ａ」、「変数Ｂ」、・・・、「変数Ｆ」に対応している。なお、「交換回数」とは「部品の交換回数」である。本実施形態では、「交換回数」、「機械使用時間」、「変数Ａ」、「変数Ｂ」、・・・を、変数と称する。
計測データ１２１の各フィールドに入力されているデータ（処理対象データ）は、図示しない所定の計測器から取得したり、ユーザが手動で入力したものである。

ここで、符号２０１に示すデータは、他のデータと比べて、短い機械使用時間にもかかわらず、部品の交換回数が多い外れ値（第２外れ値）となっている。
この外れ値は、図２の網掛けで示されているレコードＲ２に対応しているものとする。本実施形態では、図３の符号２０１のような外れ値が生じた理由（要因）を、散布図に示されていない「変数Ａ」、「変数Ｂ」、・・・、「変数Ｆ」から探ることを目的とする。

図１の説明に戻る。
過去統計データ１２２は、過去において外れ値（第１外れ値）が生じた要因と、その外れ値が生じた際のデータの基礎統計量（過去基礎統計量）（第１基礎統計量）が対応付けられて格納されている。なお、過去統計データ１２２については後記する。

次に、距離算出処理部１１１が、単独のカラム毎についてのマハラノビス距離（第２指標）を算出する（Ｓ３）。ステップＳ３の処理については後記する。
そして、距離算出処理部１１１が、質的データのカラムと、別の質的データのカラムの組み合わせのすべてにおけるマハラノビス距離（第２指標）を算出する（Ｓ４）。ステップＳ４の処理については後記する。
続いて、距離算出処理部１１１が、質的データのカラムと、別の量的データのカラムとの組み合わせのすべてにおけるマハラノビス距離（第２指標）を算出する（Ｓ５）。ステップＳ５の処理については後記する。
さらに、距離算出処理部１１１が、量的データのカラム（第５カラム）と、別の量的データのカラム（第６カラム）との組み合わせのすべてにおけるマハラノビス距離を算出する（Ｓ６）。ステップＳ６では、一般的な２変数のマハラノビス距離を用いればよいので、ここでの詳細な説明を省略する。

図２を参照して、質的データによるマハラノビス距離Ｄ１の算出手法を説明する。
ここでは、図２のカラムＣ３（「変数Ａ」）（第２指標の算出対象となっているカラム）について説明する。
まず、距離算出処理部１１１は、カラムＣ３（「変数Ａ」）のうち、図４のステップＳ２で選択指定された外れ値に対応するデータと同じデータと、それ以外のデータとに分ける。以降では、図４のステップＳ２で選択指定された外れ値を、単に外れ値と称する。そして、距離算出処理部１１１は、外れ値に対応するデータを「１」（第１数字）、それ以外のデータを「０」（第２数字）とする。
図２の例では、外れ値に対応するレコードはレコードＲ２（第１レコード）であり、レコードＲ２における「変数Ａ」のデータは「Ｂ２」である。よって、外れ値に対応するデータは「Ｂ２」、それ以外のデータは「Ａ１」、「Ａ２」、「Ａ３」、「Ｂ１」となる。
そこで、距離算出処理部１１１は、カラムＣ３に格納されているすべてのデータについて、「Ｂ２」を「１」とし、「Ｂ２」以外（「Ａ１」、「Ａ２」、「Ａ３」、「Ｂ１」）を「０」とする。ここでの「１」、「０」をダミー変数と称する。この処理は、図５のステップＳ３１１に相当する処理である。
図２の例では、「Ｂ２」を有するレコードは、レコードＲ２，Ｒ６，Ｒ９，Ｒ１０の４つである。従って、図２の例では、「１」が４つ、「０」が６つ検出される。

図９は、質的データと、質的データとの組み合わせによるマハラノビス距離Ｄ３の算出手法を説明する図である。
図９に示すデータは、図２に示すデータと同じものである。
ここでは、カラムＣ３（「変数Ａ」）（第１カラム）と、カラムＣ６（「変数Ｄ」）（第２カラム）との組み合わせについてマハラノビス距離を算出する。
レコードＲ２は、図２と同様、外れ値が含まれるレコードである（第２レコード）。そして、レコードＲ２における「変数Ａ」のデータは「Ｂ２」である。
ここで、距離算出処理部１１１は、カラムＣ３（「変数Ａ」）について「Ｂ２」を有するレコードを絞り込む。図９の例では、レコードＲ２，Ｒ６，Ｒ９、Ｒ１０が絞り込まれる（網掛け）（第３レコード）。この処理は、図８のステップＳ４０２に相当する処理である。

次に、距離算出処理部１１１は、「変数Ｄ」において絞り込まれたレコードを対象として、外れ値に対応するデータを「１」、それ以外のデータを「０」とする。この処理は、図８のステップＳ４０３に相当する処理である。

「変数Ｄ」において、外れ値に対応するレコードＲ２では、「Ｂ」の値を有している。従って、カラムＣ６（「変数Ｄ」）で、絞り込まれたレコード（レコードＲ２，Ｒ６，Ｒ９、Ｒ１０）において、「Ｂ」を「１」（第３数字）、「Ａ」、「Ｆ」を「０」（第４数字）としてダミー変数に変換する。図９の例では、「１」が２つ、「０」が２つとなる。

図１２は、質的データと、量的データとの組み合わせによるマハラノビス距離Ｄ４の算出手法を説明する図である。
図１２に示すデータは、図２に示すデータと同じものである。
ここでは、カラムＣ３（「変数Ａ」）（第３カラム）と、カラムＣ４（「変数Ｂ」）（第４カラム）との組み合わせについてマハラノビス距離Ｄ４を算出する。

レコードＲ２は、図２と同様、外れ値を含むレコードである（第４レコード）。そして、レコードＲ２における「変数Ａ」のデータは「Ｂ２」である。
まず、距離算出処理部１１１は、カラムＣ３（「変数Ａ」）について「Ｂ２」を有するレコードを絞り込む。図１２の例では、レコードＲ２，Ｒ６，Ｒ９、Ｒ１０（第５レコード）が絞り込まれる（網掛け）。この処理は、図１１のステップＳ５０２に相当する処理である。

次に、距離算出処理部１１１は、「変数Ｂ」について絞り込まれたレコードＲ２，Ｒ６，Ｒ９、Ｒ１０が有するデータの平均μ４、標準偏差σ４を算出する。この処理は、図１１のステップＳ５０３に相当する処理である。図１２の例では、カラムＣ４（「変数Ｂ」）のデータのうち、レコードＲ２，Ｒ６，Ｒ９、Ｒ１０に該当する「３０」、「２１」、「１０」、「９」について平均μ４、標準偏差σ４が算出される。

ここで、Ｘ４は、絞り込まれたレコードにおいて、外れ値に対応する「変数Ｂ」のデータである。図１２の例では、レコードＲ２の「変数Ｂ」の値「３０」である。この処理は、図１１のステップＳ５０４に相当する処理である。

次に、ランキング表示処理部１１２は、各変数及び各変数の組み合わせについて外れ値を含めた全体の基礎統計量（第２基礎統計量）を算出する（Ｓ７０２）。図２を例として参照すると、ランキング表示処理部１１２は、「変数Ａ」におけるデータの基礎統計量を算出する。なお、基礎統計量の算出には、外れ値に対応するデータ（図２のレコードＲ２のデータ）も含むすべてのデータについて行われる。また、「変数Ａ」のような質的データについては、任意の数字によるダミー変数でデータを変換した上で、基礎統計量が算出されるとよい。次に、ランキング表示処理部１１２は、「変数Ｂ」、「変数Ｃ」、・・・、「変数Ｆ」について、基礎統計量を算出する。

次に、過去統計データ１２２における基礎統計量と、ステップＳ７０２で算出された基礎統計量とをマッチングする（Ｓ７０３）ことで、要因を推定する。
ここで、図１５に示すように、記憶装置１２０には、過去における外れ値が生じた際におけるデータの基礎統計量と、マハラノビス距離（第１指標）とが過去統計データ１２２として格納されている。基礎統計量は、図１５に示すように標準偏差、歪度、尖度、中央値、最頻値等が含まれる。各基礎統計量と、マハラノビス距離とは、図１５に示すように、外れ値が生じた要因に対応付けられて格納されている。

１要因推定装置（外れ値要因推定支援装置）
１１０処理部
１１１距離算出処理部（算出部）
１１２ランキング表示処理部（要因推定部、ランキング処理部、表示処理部）
１１３登録処理部
１２０記憶装置（記憶部）
１２１計測データ（テーブル、フィールド、処理対象データ）
１２２過去統計データ（要因データ、第１指標及び第１基礎統計量を格納）
１３２入力装置（指定部）
１３３表示装置（表示部）
２０１外れ値（第２外れ値）
Ｃ１〜Ｃ８カラム（第２指標の算出対象となっているカラム、第１カラム〜第４カラム）
Ｒ１〜Ｒ１０レコード（第１レコード〜第５レコード）
Ｓ２外れ値の指定（指定ステップ）
Ｓ３〜Ｓ６マハラノビス距離算出（算出ステップ）
Ｓ７０３マッチング（要因推定ステップ）
Ｓ７０４表示（表示ステップ）

前記した課題を解決するため、本発明は、過去における外れ値である第１外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量である第１基礎統計量と、前記第１外れ値が、前記第１外れ値以外のデータからどれほど離れていたかを示す指標である第１指標とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータである処理対象データを保持している記憶部を有し、個々の前記処理対象データは、複数のカラム及び複数のレコードによって構成されるテーブルの各フィールドに格納されており、前記テーブルに格納されている前記処理対象データのうち、特定のカラム及び特定のレコードに対応する前記処理対象データが表示部に表示されている状態で、前記表示部に表示されている前記処理対象データの外れ値である第２外れ値を指定する指定部と、前記テーブルにおいて、指定された前記第２外れ値が格納されている前記レコードにおける前記処理対象データのそれぞれが、それぞれの前記カラムに格納されている他の前記処理対象データから、どれほど離れているかの指標である第２指標、及び、前記カラムに格納されている前記処理対象データの基礎統計量である第２基礎統計量を、前記表示部に表示されている前記特定のカラム以外のすべての前記カラムについて算出する算出部と、前記要因データに格納されている前記第１基礎統計量及び前記第１指標と、前記算出部によって算出された、それぞれの前記第２基礎統計量及び前記第２指標とを比較することで、指定された前記第２外れ値が生じた要因を推定する要因推定部と、前記推定された要因を前記表示部に表示する表示処理部と、を有し、前記第１基礎統計量及び前記第１指標は、それぞれ過去に前記第２基礎統計量及び前記第２指標として算出されたデータであることを特徴とする。
その他の解決手段は実施形態において適宜記載する。

Claims

過去における外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量と、距離とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータが格納されている処理対象データを保持している記憶部と、
前記処理対象データを構成するデータは、一方は同種のデータで構成される第１項目に対応付けられ、他方では第２項目に対応付けられており、
前記処理対象データにおいて、所定の外れ値を指定する指定部と、
前記処理対象データにおいて、指定された前記外れ値と同一の前記第２項目に属するデータである第１データが、前記第１データと同一の前記第１項目に属する第１データ群から、どれほど離れているかの指標を、複数の前記第１項目について算出する指標算出部と、
前記指標に基づいて、指定された前記外れ値の要因を推定する要因推定部と、
前記推定された要因を表示部に表示する表示処理部と、
を有することを特徴とする外れ値要因推定支援装置。
前記指標は、マハラノビス距離である
ことを特徴とする請求項１に記載の外れ値要因推定支援装置。
前記第１データ群が、質的データで構成されている場合、
前記指標算出部は、
前記第１データ群において、前記第１データと同じデータである場合、当該データを所定の数字である第１数字で変換し、前記第１データとは異なるデータを、前記第１数字とは異なる第２数字で変換し、式（１）に基づく前記マハラノビス距離を算出することで、前記指標を算出する
ことを特徴とする請求項２に記載の外れ値要因推定支援装置。
Ｄ１＝｜（Ｘ１−μ１）｜／σ１・・・（１）
ここで、Ｄ１はマハラノビス距離であり、Ｘ１は、前記第１数字で変換された前記第１データであり、μ１は、前記第１データ群におけるすべての変換されたデータの平均値であり、σ１は、前記第１データ群におけるすべての変換されたデータの標準偏差である。
前記第１データは、第２データおよび第３データで構成されており、
前記第２データと同一の前記第１項目に属するデータ群である第２データ群と、前記第３データと同一の前記第１項目に属するデータ群である第３データ群と、の両方が質的データで構成されており、
前記指標算出部は、
前記第２データ群において、前記第２データと同じデータを有するデータ群である第４データ群を抽出し、
前記第３データ群において、前記第４データ群におけるデータと同じ前記第２項目に属しているデータである第５データ群を抽出し、
前記第５データ群におけるデータのうち、前記第３データと同じデータを第３数字で変換し、前記第５データ群におけるデータのうち、前記第３データとは異なるデータを前記第３数字とは異なる第４数字で変換し、式（２）に基づく前記マハラノビス距離を算出することで、前記指標を算出する
ことを特徴とする請求項２に記載の外れ値要因推定支援装置。
Ｄ３＝｜（Ｘ３−μ３）｜／σ３・・・（１）
ここで、Ｄ３は、マハラノビス距離であり、Ｘ３は、前記第３数字で変換された前記第３データであり、μ３は、前記第３データ群におけるすべての変換されたデータの平均値であり、σ３は、前記第３データ群におけるすべての変換されたデータの標準偏差である。
前記第１データは、第６データおよび第７データで構成されており、
前記第６データと同一の前記第１項目に属するデータ群である第６データ群が質的データで構成されており、前記第７データと同一の前記第１項目に属するデータ群である第７データ群が量的データで構成されており、
前記指標算出部は、
前記第６データ群において、前記第６データと同じデータを有するデータ群である第８データ群を抽出し、
前記第７データ群において、前記第８データ群におけるデータと同じ前記第２項目に属しているデータである第９データ群を抽出し、
前記第９データ群におけるデータにおける前記第７データについて、式（３）に基づく前記マハラノビス距離を算出することで、前記指標を算出する
ことを特徴とする請求項２に記載の外れ値要因推定支援装置。
Ｄ４＝｜（Ｘ４−μ４）｜／σ４・・・（３）
ここで、Ｄ４は、マハラノビス距離であり、Ｘ４は、前記第７データであり、μ４は、前記第９データ群におけるデータの平均値であり、σ４は、前記第９データ群におけるデータの標準偏差である。
前記指標に基づいて、前記第１項目のランキングを算出するランキング処理部
を有することを特徴とする請求項１に記載の外れ値要因推定支援装置。
前記表示処理部は、
前記ランキング処理部によって算出された前記第１項目のランキングを、前記推定した要因とともに前記表示部に表示する
ことを特徴とする請求項６に記載の外れ値要因推定支援装置。
前記要因推定部は、
それぞれの前記第１項目における前記第１データ群の基礎統計量と、前記要因データに格納されている、それぞれの要因に対応付けられている基礎統計量とを比較することで、前記第１項目における前記第１データ群の基礎統計量が、どの要因の基礎統計量と近いかを判定することで、前記外れ値の要因を推定する
ことを特徴とする請求項１に記載の外れ値要因推定支援装置。
前記表示部に表示されている変数に関するデータを、前記要因データに格納する格納処理部
を有することを特徴とする請求項１に記載の外れ値要因推定支援装置。
過去における外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量と、距離とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータが格納されている処理対象データを保持している記憶部と、
前記処理対象データを構成するデータは、一方は同種のデータで構成される第１項目に対応付けられ、他方では第２項目に対応付けられている外れ値要因推定支援装置が、
前記処理対象データにおいて、所定の外れ値を指定する指定ステップと、
前記処理対象データにおいて、指定された前記外れ値と同一の前記第２項目に属すデータである第１データが、前記第１データと同一の前記第１項目に属する第１データ群から、どれほど離れているかの指標を、複数の前記第１項目について算出する指標算出ステップと、
前記指標に基づいて、指定された前記外れ値の要因を推定する要因推定ステップと、
前記推定された要因を表示部に表示する表示ステップと、
を実行することを特徴とする外れ値要因推定支援方法。
過去における外れ値が生じた要因と、その要因が生じた際のデータの基礎統計量と、距離とが、対応付けられて格納されている要因データ、及び、要因推定の対象となるデータが格納されている処理対象データを保持している記憶部を有し、
前記処理対象データを構成するデータは、一方は同種のデータで構成される第１項目に対応付けられ、他方では第２項目に対応付けられているコンピュータに、
前記処理対象データにおいて、所定の外れ値を指定する指定ステップと、
前記処理対象データにおいて、指定された前記外れ値と同一の前記第２項目に属すデータである第１データが、前記第１データと同一の前記第１項目に属する第１データ群から、どれほど離れているかの指標を、複数の前記第１項目について算出する指標算出ステップと、
前記指標に基づいて、指定された前記外れ値の要因を推定する要因推定ステップと、
前記推定された要因を表示部に表示する表示ステップと、
を実行させることを特徴とする外れ値要因推定支援プログラム。