JP2022092419A

JP2022092419A - データ解析装置、方法およびシステム

Info

Publication number: JP2022092419A
Application number: JP2020205231A
Authority: JP
Inventors: 航渡邉; Wataru Watanabe; 孝幸伊東; Takayuki Ito; 純平安藤; Jumpei Ando; 敬介川内; Keisuke Kawauchi; 利幸小野; Toshiyuki Ono
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-06-22
Anticipated expiration: 2040-12-10
Also published as: US20220188307A1; US11775512B2; JP7524045B2

Abstract

【課題】適切な状態検知および原因推定を実行できる。【解決手段】本実施形態に係るデータ解析装置は、取得部と、算出部とを含む。取得部は、解析対象となる複数の製品について、製品ごとに１以上の製造条件を含む製造データを取得する。算出部は、前記製造データから抽出した１つの製造条件に関し取り得る１以上の項目における、前記製品が特定の状態である度合いを示す状態データの偏りに基づいて、前記製品が前記特定の状態となった原因が前記製造条件である度合いを示す指標値を算出する。【選択図】図１

Description

本発明の実施形態は、データ解析装置、方法およびシステムに関する。

製品の製造において、製品に異常があるなど、製品が特定の状態になった場合、その原因を早期に特定することが重要である。製造業の多くは、製造の過程で様々なデータを取得して製造工程を監視することにより、状態の検知および原因の特定に役立てており、特定の状態となった原因が特定できれば、歩留まりの維持向上に繋げることができる。
このような状態を検知する手法としては、例えば、異常と判定された製品の個数を数え上げ、当該個数を指標として提示する手法がある。しかし、当該手法では、製品が異常であるか正常であるかを「０」または「１」の２値で判定することに相当する。そのため、異常である確率が「０～１」の間の不確かさを含む場合には、異常の原因と仮定する製造条件への偏りが小さく見積もられたり、大きく見積もられたりする可能性がある。よって、当該手法により原因究明を行う場合、見逃しや過剰な検出につながり好ましくない。

特許第５０１４５００号公報

本開示は、上述の課題を解決するためになされたものであり、より適切な状態検知および原因推定を実行できることを目的とする。

本実施形態に係るデータ解析装置は、取得部と、算出部とを含む。取得部は、解析対象となる複数の製品について、製品ごとに１以上の製造条件を含む製造データを取得する。算出部は、前記製造データから抽出した１つの製造条件に関し取り得る１以上の項目における、前記製品が特定の状態である度合いを示す状態データの偏りに基づいて、前記製品が前記特定の状態となった原因が前記製造条件である度合いを示す指標値を算出する。

第１の実施形態に係るデータ解析システムを示すブロック図。データ格納装置に格納される製造データの一例を示す図。データ格納装置に格納される状態データの一例を示す図。製造データと状態データとを１つのデータベースに格納した例を示す図。第１の実施形態に係るデータ解析装置のデータ解析処理を示すフローチャート。指標値の算出方法の第１の具体例を示す図。指標値の算出方法の第２の具体例を示す図。第２の実施形態に係るデータ解析システムを示すブロック図。第２の実施形態に係るデータ解析装置のデータ解析処理を示すフローチャート。状態データの第１の生成例を示す図。状態データの第２の生成例を示す図。状態データの第３の生成例を示す図。状態データの第３の生成例の別例を示す図。状態データの第４の生成例を示す図。状態データの第４の生成例の別例を示す図。状態データの第５の生成例を示す図。状態データの第５の生成例の別例を示す図。第４の実施形態に係るデータ解析システムを示すブロック図。第４の実施形態に係る可視化データの表示例を示す図。第１表示領域に表示される第１解析結果の一例を示す図。第１表示領域に表示される第１解析結果の別例を示す図。第２表示領域に表示される第２解析結果の一例を示す図。第２表示領域に表示される第２解析結果の別例を示す図。データ解析装置のハードウェア構成の一例を示す図。

以下、図面を参照しながら本実施形態に係るデータ解析装置、方法およびシステムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜省略する。

（第１の実施形態）
第１の実施形態に係るデータ解析システムについて図１のブロック図を参照して説明する。
データ解析システム１は、データ解析装置１０と、データ格納装置２０を含む。

データ格納装置２０は、製品ごとに、製品の識別子を示す製品番号と、製造工程において取得される製造条件とを含む製造データとを格納する。データ格納装置２０はまた、製品ごとに、製品が特定の状態である度合いを示す状態データを格納する。状態データは、例えば、特定の状態が異常状態である場合は、製品が異常である確率を示す値である。

データ解析装置１０は、データ取得部１０１と、算出部１０２とを含む。
データ取得部１０１は、データ格納装置２０から解析対象となる複数の製品について、製品ごとに１以上の製造条件を含む製造データと状態データとを取得する。
算出部１０２は、データ取得部１０１から製造データと状態データとを受け取り、製造データから抽出した１つの製造条件に関して取り得る１以上の項目における、製品が特定の状態である度合いを示す状態データの偏りに基づいて、製品が特定の状態となった原因が当該製造条件である度合いを示す指標値を算出する。

次に、データ格納装置２０に格納される製造データの一例について図２を参照して説明する。
図２は、製造データを格納するデータベースの一例であり、データベースには、製品番号２０１と、１以上の製造条件を含む製造データ２０２とが対応付けられて１つのエントリとして格納される。なお、製品番号に限らず、製品を一意に識別できる識別子であればよい。

製造データ２０２の製造条件の種類としては、例えば、製品に使用した材料名や、加工や組立てに使用した装置名などを用いることができる。より一般的には、「５Ｍ１Ｅ」に関する情報を用いる。「５Ｍ１Ｅ」は、「Ｍａｎ」、「Ｍａｃｈｉｎｅ」、「Ｍａｔｅｒｉａｌ」、「Ｍｅｔｈｏｄ」、「Ｍｅａｓｕｒｅｍｅｎｔ」および「Ｅｎｖｉｒｏｎｍｅｎｔ」の頭文字を並べた用語で、製造工程の管理のための６つの要因として広く知られる。

例えば、データ格納装置２０は、加工者名（Ｍａｎ）、装置名や製造ライン名、加工時の装置の状態（温度や圧力など）（Ｍａｃｈｉｎｅ）、材料や部品のＩＤや名前（Ｍａｔｅｒｉａｌ）、加工方法や加工プログラムの種類（Ｍｅｔｈｏｄ）、計測を行った装置名や計測箇所（Ｍｅａｓｕｒｅｍｅｎｔ）、建屋名や気温や湿度（Ｅｎｖｉｒｏｎｍｅｎｔ）などを製造データとして格納すればよい。その他、解析や可視化に有用であるとユーザが判断した製造データを取得してもよい。
図２では、例えば製品番号２０１「ＸＸＸＸ－００００１」と、装置（データ１）「Ａ」、材料（データ２）「６」、計測値（データ３）「０．９８４９７６１６７」、建屋（データ４）「６」、プログラム（データ５）「Ａ－１」の製造条件を含む製造データ２０２とが対応付けられる。

次に、データ格納装置２０に格納される状態データの一例について図３を参照して説明する。
図３は、状態データを格納するデータベースの一例であり、データベースには、製品番号２０１と、状態データ３０１とが対応付けられて１つのエントリとして格納される。図２における具体例としては、例えば製品番号２０１「ＸＸＸＸ－００００１」と、状態データ３０１「０．６８５５６９１９５」とが対応付けられる。

本実施形態では、製品の状態データが、「０．０～１．０」の実数である場合を例に説明する。これは、例えば製品が特定の状態となる確率を意味し、製品が特定の状態である可能性が高い場合に「１．０」に近い値をとる。例えば、製品の状態を異常とすると、製品の状態データは、異常の度合い、言い換えれば、製品が異常である確率を表す。本実施形態において、「異常」とは、正常または規定の状態に対し、好ましくない傾向に変化した状態（例えば、製品の出荷基準を満たさない不良品などを含む）を想定する。以下では、特定の状態である場合として、異常である場合を例に説明するが、特定の状態は、これに限らず、製造や製品検査において一般に想定される状態または特定の条件を満たす場合など、任意の状態を対象としてもよい。

なお、これに限らず、例えば、製品の状態が正常である度合い、または規定の状態に対しより好ましい傾向に変化した状態の度合いを対象としてもよい。この場合、製品がより好ましい状態になった原因を推定することができ、例えば歩留まりの向上や製品性能の向上に役立つ可能性がある。また、製品の状態データの値域は、「０．０～１．０」の実数であることに限るものではなく、例えば、任意の実数の範囲の値域をとってもよい。
また、例えば製品の状態が複数存在しうる場合には、状態データも複数存在してもよい。例えば製造現場においては特定の状態の種類として特定のモードが規定されている場合が多い。具体的には異常の種類（モード）が規定されていることが多く、モードごとに状態データを用意することで、モードごとの原因推定を行うことができる。

次に、製造データと状態データとを１つのデータベースに格納した例を図４に示す。
上述の例では、製造データのデータベースおよび状態データのデータベースをそれぞれ分けているが、図４に示すように、１つのデータベースに製造データおよび状態データを組み合わせて格納してもよい。

また、製品の状態データは、既存の装置や方法により設定されてもよいし、手動で設定されてもよい。また、状態データは、製品が特定の状態（異常）であるか否かを評価した結果を複数用意し、複数の結果を平均化するなどの手順により設定されてもよい。例えば、製品の外観の状態のように、評価者によって状態の評価値にばらつきが想定される場合は、複数の評価値を平均化した値を状態データとしてもよい。

データ取得部１０１は、データ格納装置２０から解析対象となる複数の製品について、製品ごとに１以上の製造条件を含む製造データと状態データとを取得する。取得する製品の個数、つまりエントリのデータ数は、解析対象とする一定期間に製造されたデータ数を想定する。一定期間は、例えば、１時間、１日といった任意の期間である。なお、データベースに、各製品の加工や検査を行った時刻や日付などが記録されている場合、一定期間における製品のデータを取得する。また、予め一定期間や一定個数の製品単位を表す番号や文字列（ロット番号またはロットＩＤ）がデータベースに記録されている場合、指定した番号の範囲に該当するロット番号の製品のデータを取得してもよい。その他、ユーザが任意の条件を指定して製品のデータを取得してもよい。

次に、第１の実施形態に係るデータ解析装置１０のデータ解析処理について図５のフローチャートを参照して説明する。
図５では、解析対象となるＤ個（Ｄ＞１の正数）の製品Ｐについて解析処理を行う例について説明する。なお、本実施形態に係る解析対象の製品Ｐの個数Ｄは、例えば数十個から数百個であることを想定するが、解析処理においてデータの偏りを算出できる個数であればよい。また、製造データは、１つの製品Ｐに対してＭ個（Ｍ＞０の正数）の製造条件Ｃ_ｊ（ｊ＝１，... ，Ｍ）と、１つの個別状態データｖ_ｄ（ｄ＝１，... ，Ｄ）が存在する場合を想定する。つまり、解析対象となる製品ＰはＤ個のデータ数を想定しているため、製造条件Ｃは、Ｄ個×Ｍ個のデータ数を有し、状態データＶは、Ｄ個の個別状態データｖ_ｄを有する。

ステップＳ５０１では、データ取得部１０１が、Ｄ個の製品Ｐそれぞれについて、Ｍ個の製造条件Ｃを取得する。
ステップＳ５０２では、データ取得部１０１が、Ｄ個の製品Ｐに関する状態データＶを取得する。

ステップＳ５０３では、算出部１０２が、状態データＶとｊ番目の製造条件Ｃ_ｊ（ｊ＝１，... ，Ｍ）とに基づいて、指標値Ｆ（Ｖ，Ｃ_ｊ）を算出する。指標値Ｆ（Ｖ，Ｃ_ｊ）は、製造条件Ｃ_ｊが状態データＶとなった原因である可能性を表す。例えば、状態データＶが、製品が異常である確率を表す場合、指標値Ｆ（Ｖ，Ｃ_ｊ）は、製造条件Ｃ_ｊが製品の異常の原因であることを表す指標である。
ステップＳ５０４では、算出部１０２が、Ｍ個の製造条件について全て処理したか否かを判定する。言い換えれば、「ｊ＞Ｍ」であるか否かを判定する。Ｍ個の製造データについて全て処理した場合は、処理を終了し、Ｍ個の製造条件について全て処理していない、つまり指標値を算出していない製造条件Ｃ_ｊが存在する場合は、ステップＳ５０５に進む。
ステップＳ５０５では、ｊが１つインクリメントされ、ステップＳ５０３に戻り同様の処理を繰り返す。つまり、次の製造条件Ｃ_ｊについて指標値Ｆ（Ｖ，Ｃ_ｊ）を算出する。

次に、ステップＳ５０３における指標値Ｆ（Ｖ，Ｃ_ｊ）の算出方法の具体例について図６および図７を参照して説明する。
第１の実施形態に係る指標値Ｆ（Ｖ，Ｃ_ｊ）は、状態データＶから算出した値が、特定の製造条件に偏っている度合いを定量化した値を想定する。つまり、状態データＶが製品に異常がある確率を表すことを想定しているため、特定の製造条件における、製品に異常がある確率の総和の偏りを指標値とする。言い換えれば、特定の製造条件における異常である製品の数を、確率による重み付き和でカウントすることに相当する。なお、確率の総和の偏りを指標値とすることに限らず、状態データの偏りを表す指標値であれば、どのような指標を用いてもよい。

図６および図７は、ｊ番目の製造条件Ｃ_ｊが「製造装置の種類」を表す場合における、製造装置ごとの個別状態データｖ_ｄの総和と、総和を算出した母集団となる製品数とを対応付けたテーブルである。製造装置の種類数が、「製造装置の種類」の製造条件に関し取り得る１以上の項目に相当する。図６および図７の例では、製造装置Ａ、製造装置Ｂ、製造装置Ｃの３種類、つまり３つの項目を有するといえる。
例えば、図６の例では、製造装置「Ａ」の項目に関する個別状態データｖ_ｄの総和が「２０．２」、製造装置「Ｂ」の項目に関する個別状態データｖ_ｄの総和が「１９．４」であり、製造装置「Ｃ」の項目に関する状態データの総和が「２０．４」であり、製品数はそれぞれ「１０００」個である。例えば、偏り率を「製造装置ごとの個別状態データｖ_ｄの総和／全製造装置の個別状態データｖ_ｄの総和」と定義し、最大の偏り率を指標値としてもよい。図６の場合、製造装置Ａ～Ｃの偏り率はそれぞれ、「２０．２／６０≒０．３３７」「１９．４／６０≒０．３２３」「２０．４／６０≒０．３４０」となるため、指標値は「０．３４０」となる。

一方、図７は図６と異なり、製造装置「Ｂ」の個別状態データｖ_ｄの総和が、他の製造装置「Ａ」の個別状態データｖ_ｄの総和および製造装置「Ｃ」の個別状態データｖ_ｄの総和よりも大幅に値が大きい場合である。つまり、異常の可能性がある製品が製造される割合が、特定の製造装置に偏っている場合を示す。図７の場合の製造装置Ａ～Ｃの偏り率はそれぞれ、「３．１／６０≒０．０５２」「４９．８／６０≒０．８３」「７．１／６０≒０．１１８」となるため、指標値は「０．８３」となる。

なお、指標値に対する閾値が、例えば「０．７」と定められていた場合、算出部１０２は、指標値「０．８３」が閾値「０．７」よりも高いと判定し、製品に異常が発生している原因は、製造条件Ｃｊが原因である、つまり製造装置の種類に起因するものであり、製造装置「Ｂ」が原因である可能性が高いと推定できる。

なお、状態データが値を持つ製品の数が少ない場合、例えば複数の製造装置の種類のうち、特定の製造装置で製造された製品に関する状態データのみが値を持ち、他の製造装置で製造された製品に関する状態データが「０．０」になる場合は、最大の偏り率が大きくなりやすい。よって、例えば全装置の状態データの総和が小さいほど、最大の偏り率が小さくなるように補正した値を指標値としてもよい。

また、ある製造条件における項目数（条件数）が多い場合も、最大の偏り率が大きくなりやすい。つまり、例えば製造条件が「製造装置の種類」を表す場合は、項目数である製造装置の種類数が多い場合も最大の偏り率が大きくなりやすい。よって、例えば項目数（条件数）が多いほど、最大の偏り率が小さくなるように補正した値を指標値としてもよい。

また、指標値として用いる偏り率のような偏りを、統計的検定の枠組みで定式化して、異常の原因の候補となる製造条件を推定してもよい。本実施形態では、「製造装置」のように名義尺度の変数に対する検定方法として、Ｇ検定を用いる例を示すが、これに限らず、カイ二乗検定などその他の検定手法を用いてもよい。

以下、算出部１０２がＧ検定により指標値を算出する例について説明する。ここでは、製造データが製造装置の種類を示す場合を想定する。
まず、製造条件となる製造装置の種類数（項目数）をＫとした場合、各製造装置で製造した製品数をＮ_ｉ｛ｉ＝１，２，．．．，Ｋ｝と表し、製造装置ごとの個別状態データｖ_ｄの総和をＯ_ｉ｛ｉ＝１，２，．．．，Ｋ｝とそれぞれ表す。また、総製品数をＮ_ａｌｌ＝Ｎ_１＋Ｎ_２＋・・・＋Ｎ_Ｋと表し、全装置の個別状態データｖ_ｄの総和をＮ_ｏ＝Ｏ_１＋Ｏ_２＋・・・＋Ｏ_Ｋと表す。

解析対象となる製造データを母集団と見なし、「特定の状態の製品（異常な製品）の条件ごとの分布は、母集団から無作為抽出した分布と同一である」という帰無仮説を立てる。次に、帰無仮説を検定し、そのｐ値を計算する。ｐ値が小さいほど、仮説が棄却される可能性が高く、無作為抽出と同じとは言えない、つまり特定の条件においてある状態の製品の発生率が高いことが示唆される。このことからｐ値が小さい場合、製造条件Ｃ_ｊが状態データの原因、つまり異常の原因に関連する可能性が高いと考えることができる。（１）式は、Ｇ検定におけるＧ値を算出する式である。

Ｅ_ｉは、帰無仮説で期待される製品の数であり、（２）式で計算される。

Ｐ（ｉ）は期待確率であり、帰無仮説が成立する場合に、項目ｉ（i番目の製造装置）で異常と判定された製品が発生する確率である。確率値の真値が未知である場合は、解析の対象とする製品数の度数分布Ｎ_ｉ／Ｎで近似する。次に、カイ二乗分布ｆ（ｘ、ｋ）を用いて、Ｇ値に対応するｐ値を（３）式で計算する。

ｋ＝Ｋ－１であり、カイ二乗分布の自由度をあらわす。カイ二乗分布は自由度ｋが大きいほどp値が小さくなりにくい。Ｋが多い場合、無作為抽出だとしても偏りが生じやすくなるが、上記の性質により項目数を考慮して、偏りの有意性が評価される。

上述のように算出したｐ値を指標値Ｆ（Ｖ，Ｃ_ｊ）とし、指標値Ｆ（Ｖ，Ｃ_ｊ）が小さいほど原因らしさが高いとする。

なお、上述したＧ検定では、製造データが名義尺度のようなカテゴリカルな製造条件の場合について説明したが、製造条件Ｃ_ｊが連続値の場合においては、例えば、状態データＶと製造条件Ｃ_ｊとの相関係数を用いて偏りを指標値として定量化してもよい。すなわち、状態データが「１．０」に近い製品が、製造条件Ｃ_ｊの高いあるいは低い値に偏っている場合、相関係数の絶対値が大きくなる。そのため、相関係数の絶対値を指標値Ｆ（Ｖ，Ｃ_ｊ）としてもよい。相関係数（ピアソンの相関係数）は（４）式で定義される。

ここではＮ_ａｌｌは、サンプル数であり、本実施形態ではデータベースにおけるエントリ数に相当する。Ｃ_ｊ ^－（Ｃ_ｊの直上にバー）は、Ｃ_ｊの平均であり、Ｖ^－（Ｖの直上にバー）はＶの平均である。なお、ピアソンの相関係数以外の指標を用いてもよく、例えば、状態データＶの分布が線形ではない場合は、スピアマンの相関係数などのような順位相関係数を用いてもよい。

相関係数の検定を行ったp値を指標値Ｆ（Ｖ，Ｃ_ｊ）としてもよい。例えば、相関係数の検定（無相関検定）を用いてもよい。相関係数の検定では、（５）式で示される統計量tが自由度ｎ－２のｔ分布に従うことを利用して、p値を計算することができる。

以上、製造条件Ｃ_ｊがカテゴリカルな場合と連続値の場合とについて、それぞれ製品の状態データＶから算出した値が、特定の製造条件に偏っていることを指標値として定量化する例について説明したが、その他の偏りを算出方法、検定手法を用いてもよい。

以上に示した第１の実施形態によれば、製品の状態データＶから算出した値が連続的な値になっていることを考慮して、特定の製造条件Ｃ_ｊへの偏りを指標値Ｆ（Ｖ，Ｃ_ｊ）として算出することができる。これにより、各製品が異常であるか否かの不確かさを考慮して、特定の製造条件への偏りを算出することができ、見逃しや過剰な検出を低減できる。

（第２の実施形態）
第２の実施形態に係るデータ解析システムについて図８のブロック図を参照して説明する。第２の実施形態に係るデータ解析装置１０は、データ取得部１０１と、算出部１０２と、生成部８０１とを含む。

生成部８０１は、データ格納装置２０から製品それぞれの状態を判定するための個体データを受け取り、個体データから製品の状態データを生成する。個体データは、例えば、製品の寸法、重量といった検査項目に関する計測値が挙げられる。また、製品の種類によって、電気的な特性または物理的な特性を計測した結果を個体データとしてもよい。例えば製品の寸法および重量は、外部の計測装置によって製品ごとに計測され、個体データとしてデータ格納装置２０に格納されればよい。なお、これに限らず、個体データは、製品の状態を把握し、判定可能なデータであれば何でもよい。

次に、第２の実施形態に係るデータ解析装置１０のデータ解析処理について図９のフローチャートを参照して説明する。
図９では、解析対象となるＤ個の製品Ｐそれぞれについて、Ｎ個の個体データＹが存在する場合を想定する。つまり、個体データＹは、Ｄ個×Ｎ個のデータ数を有する。

ステップＳ９０１では、データ取得部１０１が、Ｄ個の製品Ｐそれぞれについて、Ｍ個の製造条件Ｃと、Ｎ個（Ｎ＞０の正数）の個体データＹを取得する。
ステップＳ９０２では、生成部８０１が、ｉ番目の個体データＹ_ｉ（ｉ＝１，... ，Ｎ）を用いて、状態データＶ_Ｙ_ｉを生成する。状態データＶ_Ｙ_ｉは、第１の実施形態と同様の基準を想定する。すなわち、状態データＶ_Ｙ_ｉは、個体データＹ_ｉごとに生成されるため、Ｎ個の状態データＶ_Ｙ_ｉが生成される。
ステップＳ９０３では、算出部１０２が、状態データＶ_Ｙ_ｉとｊ番目の製造条件Ｃ_ｊとに基づいて、指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）を算出する。指標値の算出方法については、第１の実施形態と同様であるため、ここでの説明を省略する。

続いて、ステップＳ５０４およびステップＳ５０５の処理により、ｉ番目の個体データＹ_ｉに関する状態データＶ_Ｙ_ｉに対して、Ｍ個の製造条件Ｃ_ｊそれぞれの指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）が算出される。つまり、ｉ番目の個体データＹ_ｉに基づく状態データＶ_Ｙ_ｉについて、Ｍ個の指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）が算出される。

ステップＳ９０４では、例えば算出部１０２が、Ｎ個の個体データについて全て処理したか否かを判定する。つまり、ｉ＞Ｎとなるか否かを判定するＮ個の個体データについて全て処理した場合は、処理を終了し、未処理の個体データＹ_ｉがある場合には、ステップＳ９０５に進む。
ステップＳ９０５では、ｉを１つインクリメントし、次の個体データＹ_ｉについて処理すべくステップＳ９０２に戻り、同様の処理を繰り返す。

次に、ステップＳ９０２における状態データの第１の生成例について図１０を参照して説明する。
図１０上段及び下段の横軸は個体データＹ_ｉの値（例えば、製品の寸法）を示し、縦軸が個別状態データｖ_ｄ_Ｙ_ｉの値（図では単にｖと表記する。以下同じ）を示す。また、個体データＹ_ｉの値に基づく個別状態データｖ_ｄ_Ｙ_ｉのグラフ１００２を示す。図１０の例では、個別状態データｖ_ｄ_Ｙ_ｉは「０．０」が正常な状態、「１．０」が異常の状態とする。

製品ごとの個体データＹ_ｉ１００１がそれぞれプロットされる。ここで、特定の状態であることを判定するための閾値ＴＨにより、個体データＹ_ｉの状態を区別する。
図１０に示すように、生成部８０１は、閾値ＴＨを含む前後の値域をマージン値域１００３として設け、マージン値域１００３内では、線形補間により、個別状態データｖ_ｄ_Ｙ_ｉの値を「０．０～１．０」で決定する。例えば、マージン値域１００３内のＹｉの最小値は、個別状態データ「ｖ_ｄ_Ｙ_ｉ＝０．０」とし、マージン値域１００３内のＹｉの最大値は、個別状態データ「ｖ_ｄ_Ｙ_ｉ＝１．０」とし、マージン値域１００３内のその他のＹｉについては、Ｙ_ｉの値に比例した個別状態データｖ_ｄ_Ｙ_ｉの値が決定されればよい。

つまり、閾値ＴＨにより、一般的な方法で正常であるか異常であるかを判定する場合は、図１０上段の例では、製品「Ａ」「Ｂ」が正常であり、製品「Ｃ」「Ｄ」「Ｅ」が異常であると二値化されて判定される。一方、本実施形態では、個別状態データｖ_ｄ_Ｙ_ｉの値を「０．０～１．０」で付与するため、製品「Ｂ」は製品「Ａ」よりも正常の可能性を含む、製品「Ｃ」は製品「Ｄ」よりも異常の可能性を含むといったように、その後の異常検知や原因推定において柔軟性を持たせることができる。

なお、閾値ＴＨの決定方法としては、例えば、生産管理で用いられる規格値または管理基準値を閾値ＴＨとすればよい。規格値は、出荷する製品に対して定められたものであり、規格値を超えた製品は出荷することができないため、閾値ＴＨとして用いてもよい。また、管理基準値は、規格値を確保するために、生産管理上設けられた値である。また、規格値または管理基準値そのものに限らず、規格値または管理基準値に関連した値（例えば、管理基準値の８０％または９０％）を閾値ＴＨとして用いてもよい。

また、閾値ＴＨは個体データＹ_ｉから算出されてもよい。例えば、製品の母集団に対し、個体データＹ_ｉの平均と標準偏差とを算出し、個体データＹ_ｉの値が予め定められたσの範囲外である場合に特定の状態である（例えば、異常である）と判定してもよい。製品の母集団は、例えば特定の期間に製造した製品群、特定数の製品群など任意の方法で指定すればよい。σの範囲外という決定方法に限らず、個体データＹ_ｉの値が±３σ、±４σの範囲外の値である場合に、特定の状態であると判定してもよい。また、正負でσの範囲を変えてもよい。

また、製造データには外れ値が含まれることが多いため、最小二乗法の代わりに、中央値と四分位数による外れ値に頑健な推定法を用いてもよい。例えば、計測値の中央値を正規分布の平均μとしてもよい。また標準偏差σ＝０．７４１３×ＩＱＲ（四分位範囲＝第１四分位数と第３四分位数との距離)としてもよい。σ値ではなく、予め定めたパーセンタイル点を基準として閾値ＴＨを決定してもよい。これらの値を用いることで、特定の製品の集団に対し、ばらつきが大きい製品を異常として判定することができる。

また、閾値ＴＨを算出する製品の集団と、判定の対象とする製品の集団は別々であってもよい。例えば、過去の製品の集団から閾値ＴＨを決定し、現在の製品の集団に対し異常を判定してもよい。あるいは、別の環境（別の生産拠点等）の製品の集団から閾値ＴＨを決定してもよい。

なお、図１０では、個体データＹ_ｉの値が閾値ＴＨよりも大きければ、異常である可能性が高いことを想定するが、反対に、個体データＹ_ｉが閾値よりも小さければ異常であるなどの判定でも同様に処理できる。この場合は、グラフ１００２が閾値ＴＨを基準に、反転したグラフとなればよい。

次に、状態データの第２の生成例について図１１を参照して説明する。
図１１は、図１０と同様であるが、マージン値域１００３の代わりに、閾値ＴＨとなるＹ_ｉの場合に個別状態データ「ｖ_ｄ_Ｙ_ｉ＝０．０」を、個体データＹ_ｉの値のうちの最大値１１０１に個別状態データ「ｖ_ｄ_Ｙ_ｉ＝１．０」をそれぞれ設定してもよい。閾値ＴＨと最大値１１０１との間の値では、線形補間により個別状態データｖ_ｄ_Ｙ_ｉの値を設定する。図１１の例では、製品「Ｂ」の個体データＹ_ｉの値が最大であるため、製品「Ｂ」の個体データＹ_ｉの値を最大値１１０１と設定し、閾値ＴＨとの間で線形に個別状態データｖ_ｄ_Ｙ_ｉの値が決定される。これにより、閾値ＴＨとの距離（差分）が大きいほど、異常である度合いを高く判定できる。

次に、状態データの第３の生成例について図１２および図１３を参照して説明する。
第３の生成例では、個体データの値に計測手段または計測条件に起因する計測誤差が存在する場合を想定する。例えば、計測手段で複数回の計測を行った場合、その計測結果は、ばらつき（計測ばらつき）を持つ。これは装置の計測機能の繰り返し精度や、計測時の環境（温度、湿度、振動、その他要因の干渉など）に起因することが多い。このように、閾値を基準に異常である製品を判定しようする場合、計測誤差に起因した不確実性が含まれる。

第２の実施形態に係る生成部８０１は、上述のような計測結果のばらつきを考慮して、個別状態データｖ_ｄ_Ｙ_ｉを算出する。
図１２は、図１０と同様であり、製品「Ａ」および製品「Ｂ」の個体データＹ_ｉは閾値未満であり、製品「Ｃ」および製品「Ｄ」の個体データＹ_ｉは、閾値以上である。

図１２の例では、製品「Ｂ」の個体データＹ_ｉの値において、真の個体データＹ_ｉの値が閾値以上であった確率は、製品「Ａ」の個体データＹ_ｉの確率に比べて高い。反対に、製品「Ｃ」の個体データＹ_ｉについて、真の個体データＹ_ｉの値が閾値未満であった確率は、製品「Ｄ」の個体データＹ_ｉの確率に比べて高い。一方、製品「Ａ」ついては、計測ばらつきの範囲１２０１から十分に離れているため、計測誤差によって、個体データＹ_ｉの値が閾値ＴＨを超える可能性は低い。同様に製品「Ｄ」についても、閾値ＴＨ未満となる可能性は十分に低いと考えられる。

よって、生成部８０１では、例えば計測ばらつきの範囲１２０１を標準偏差σで規定し、計測誤差に起因する不確実性（確率）に基づいて、製品の個別状態データｖ_ｄ_Ｙ_ｉを設定する。例えば、正規分布の累積確率を表す関数１２０３を用いれば、計測ばらつきの範囲１２０１内に存在する個体データＹ_ｉに対応する範囲１２０２において個別状態データｖ_ｄ_Ｙ_ｉの値を決定できる。なお、関数１２０３については、シグモイド関数やロジスティック関数のような関数を用いてもよい。この場合、関数のスケールパラメータに計測ばらつきσ、またはその定数倍を設定してもよい。
なお、計測ばらつきの範囲を正規分布で規定することに限らず、ポワソン分布やｔ分布など、そのほかの方法で規定してもよい。

次に、図１３は、図１２と同様であり、範囲１２０２において、線形補間の関数１３０１を適用して個別状態データｖ_ｄ_Ｙ_ｉの値を決定する例である。なお、図１３のような線形補間に限らず、閾値ＴＨのある点（例えば、閾値ＴＨと関数１３０１との交点）を中心として点対称ではない、非対称な形状としてもよい。

このように、個体データＹ_ｉに含まれる計測誤差に起因する不確実性を考慮して、製品の個別状態データｖ_ｄ＿Ｙ_ｉを設定し、個別状態データｖ_ｄ＿Ｙ_ｉの偏りに基づいて原因推定を行うことができる。そのため、個体データＹ_iに含まれる計測誤差などによる不確実性に起因する、見逃しや過剰な検出を低減できる。

次に、状態データの第４の生成例について図１４および図１５を参照して説明する。
第４の生成例では、個体データＹ_ｉの値に、データの量子化に関する量子化誤差を含む場合を想定する。一般に数値がデータとして記録される場合は、データは量子化される。また、データ容量の制約または有効桁数などの影響により、一定の小数点桁数に丸められて記録されることも多い。例えば、計測性能が小数点以下第３位までであり、量子化幅が０．１であり、四捨五入により量子化されていた場合、０．１の値を持つデータは、０．０５０～０．１４９の間の値であった可能性がある。そのため、記録されたデータは量子化幅の範囲で不確実性を持つ。

そのため、生成部８０１では、例えば、量子化誤差に起因する不確実性（確率）に基づいて、製品の個別状態データｖ_ｄ＿Ｙ_ｉを設定してもよい。
図１４上段は、量子化前の、製品ごとの個体データＹ_ｉの分布図である。横軸は個体データＹ_ｉの値である。図１４中段は、量子化後の、製品ごとの個体データＹ_ｉの分布である。ここでは、ある量子化幅Δで量子化されていると想定する。図１４中段の量子化後の図では、製品「Ｂ」の個体データＹ_ｉは閾値ＴＨ未満の値であるが、量子化幅の範囲で不確実性を持つため、量子化前は、製品「Ｂ」の個体データＹ_ｉは閾値以上の値であった可能性がある。

図１４下段は、図１２と同様であり、量子化誤差を考慮した製品の個別状態データｖ_ｄ_Ｙ_ｉの図を示す。生成部８０１は、量子化幅の範囲１４０１において、状態データＶ_Ｙ_ｉ「０．０～１．０」の値域において、シグモイド関数やロジスティック関数のような関数１４０２を適用し、個別状態データｖ_ｄ_Ｙ_ｉの値を決定する。この場合、関数のスケールパラメータに、量子化幅Δ、もしくはその定数倍を設定してもよい。具体的に図１４では、閾値から±Δ／２の範囲の個体データＹ_ｉを有する製品について、閾値との距離に応じて「０．０～１．０」の値が設定される。

次に、図１５は、図１４と同様であり、範囲１４０１において、状態データＶ_Ｙ_ｉを、「０．０～１．０」の値域において線形補間したグラフ１５０１の例である。なお、図１５のような線形補間に限らず、任意の関数を適用してもよい。

このように、個体データＹ_ｉに含まれる量子化誤差に起因する不確実性を考慮して、製品の個別状態データｖ_ｄ＿Ｙ_ｉを設定し、状態データＶ_Ｙ_ｉの偏りから、原因推定を行うことができる。そのため、個体データＹｉに含まれる量子化誤差に起因する、見逃しや過剰な検出を減らせる可能性を向上させることができる。

次に、状態データの第５の生成例について図１６および図１７を参照して説明する。
生成部８０１は、閾値ＴＨではなく、個体データＹ_ｉの確率分布から、製品の個別状態データｖ_ｄ_Ｙ_ｉを算出してもよい。

図１６は、図１０と同様であり、上段が製品ごとの個体データＹ_ｉの値、下段が個体データＹ_ｉに対応する製品ごとの個別状態データｖ_ｄ_Ｙ_ｉの値を示すグラフである。
図１６上段において、確率分布Ｐ（Ｙ_ｉ）（以下、確率分布１６０１ともいう）は、正常な製品がとりうる個体データＹ_ｉの値の確率分布である。確率分布１６０１は、例えば正常な製品の分布から決定することができる。つまり、確率分布１６０１の峰付近の値域で正常な製品の個体データＹ_ｉが多く分布する。

確率分布１６０１は、例えば、人による判断など、予め正常と判定された製品群をもとに決定されてもよいし、ある期間に製造した製品を正常な製品群とみなして、確率分布１６０１が決定されてもよい。また、例えば特定の日に製造した製品群に対する判定について、例えば、当該特定の日の前日に製造した製品群から確率分布１６０１が決定されてもよい。この場合、日々の製品製造において、日単位で異常検知を行うことができる。なお、日単位ではなく時間単位でもよいし、確率分布１６０１の決定により多数の製品群（例えば直近１週間分など）を用いてもよい。なお、例えば日単位で検知を行う場合、前日の製品群に異常が多い（異常の状態データの総和が大きいなど）場合は、前日の分布を正常とせず、それよりも前の日から確率分布を求めるなどしてもよい。すなわち、異常の状態データの総和が閾値以下となる製品群が得られた日から確率分布を求めてもよい。
なお、図１６の例では、確率分布１６０１は、正規分布などのパラメトリックな分布を想定するが、ヒストグラムやＰａｒｚｅｎ推定など密度推定の枠組みでノンパラメトリックな分布を適用してもよい。

生成部８０１は、例えば、「１－Ｐ（Ｙ_ｉ）」の値を個別状態データｖ_ｄ_Ｙ_ｉとして算出すればよい。これに限らず、確率分布１６０１に基づいて個別状態データｖ_ｄ_Ｙ_ｉを決定できる。

図１７は、多峰の確率分布１７０１となる場合を示す。このように、製造過程において正常な個体データＹの値域が複数に分散する場合は、「１－Ｐ（Ｙ_ｉ）」の値を個別状態データｖ_ｄ_Ｙ_ｉとして算出することにより、個別状態データｖ_ｄ＿Ｙ_ｉを好適に設定できる。
なお、生成部８０１は、製品データの個数Ｄに対応する製品の状態判定値を算出してもよく、｛ｖ_ｄ∈Ｖ：ｄ＝１，．．．，Ｄ｝に基づいて、１以上の状態判定値を算出し出力する。状態判定値は、例えば、｛ｖ_ｄ∈Ｖ：ｄ＝１，．．．，Ｄ｝の総和、平均、最大値または最小値といった統計的な値であり、上述の図６または図７における個別状態データｖ_ｄの総和が一例である。例えば、製品の状態を異常とすると、｛ｖ_ｄ∈Ｖ：ｄ＝１，．．．，Ｄ｝の総和は、Ｄ個の製品の内の重み付き異常個数となる。状態判定値が大きいほど、異常の確率が高い製品が多数発生していることを意味する。

以上に示した第２の実施形態によれば、製品の個体データから状態データを生成することで、製造過程の状況を考慮した、適切な状態データを算出できる。例えば、計測誤差や量子化誤差、または製品の個体データの確率分布などを考慮することで、後段で算出される指標値がより精度の高い値となり、見逃しまたは過剰検出を低減できる。
また、状態データおよび指標値に加えて、製品の状態を統計的に表す状態判定値を出力することにより、例えばユーザに、状態判定値の大きいデータに関する原因推定結果を優先的に提示するなどの利用ができる。

（第３の実施形態）
第３の実施形態では、生成部８０１が、例えば機械学習手法により学習した関数を用いて状態データを推論する点が上述の実施形態と異なる。

第３の実施形態に係る生成部８０１は、個体データが入力され、状態データを出力する関数を用いて、状態データを生成する。生成部８０１が用いる関数としては、例えば、機械学習によりモデルを学習した学習済みモデルを想定する。学習済みモデルは、例えばロジスティック回帰モデル、多層パーセプトロン、ニューラルネットワーク、サポートベクタマシン、ランダムフォレストなどに基づく関数を用いてもよい。ロジスティック回帰モデルは、ある変数を入力とした回帰モデルであり、本実施形態では、入力変数は個体データＹ_ｉ、または個体データとその他のデータである。ロジスティック回帰モデルの出力として、ロジット値「０．０～１．０」の値を出力する。

モデルの機械学習手法としては、例えば個体データを入力データとし、正常な製品には「０．０」の値を、異常な製品には「１．０」の値を付与し教師データとを組とした学習用データにより、モデルを学習すればよい。なお、教師データとして「０．０～１．０」の間の値を与えてもよい。例えば正常か異常か判断が困難な場合については、「０．５」など中間的な値を与えてもよい。このように学習することで、学習用データに含まれる異常な製品に対し、推論対象として入力された個体データが異常として学習された値に近い値を有する場合は、状態データとして「１．０」に近い値が出力される関数が学習される。なお、複数の学習済みモデルからの出力を用いて、アンサンブルにより得られる状態データを出力してもよい。

学習用データが十分に存在していれば、正常と異常との中間的な入力データの場合には、出力も中間的な値（例えば０．５）が出力されることが期待できる。なお、一部のデータに対し、教師データを用意する、半教師あり学習や弱教師あり学習といった方法を用いてよい。また、複数のモデルからの結果の平均または多数決の結果を用いて別のモデル学習させる、いわゆるアンサンブル学習により学習済みモデルが生成されてもよい。

また、最近傍法などの手法を用いて、個体データと学習用データに含まれるデータとの距離を用いて状態データを生成してもよい。例えば、製品の状態を異常とした場合、多数の個体データを用意しておき、新たな入力データが与えられた際には、用意した個体データの中から最も類似度が近いデータを検索する。類似度は、単純には個体データ同士の距離を用いればよい。例えばＮ－近傍法の枠組みでは、新たな入力データについて、予め用意したデータからＮ個の近傍を取得する。それぞれ、予め用意されたデータには、正常な製品には「０．０」、異常な製品には「１．０」の状態データが教師データとして付与されているものとすると、新たな入力データに対する状態データは、Ｎ個の近傍データに付与された教師データ（状態データ）の平均により算出できる。なお、Ｎ個の近傍との距離を重みとした重み付き平均により状態データを決定してもよい。

また、多数の学習用データを用意することが困難な場合もあるため、教師無し学習により生成部８０１の関数を設計してもよい。例えば、製品の状態が異常であるか正常であるかを判定する場合を想定する。正常な製品と異常な製品とは、個体データにおいて異なる傾向を有することが仮定できる場合、例えばクラスタリングを用いて、正常な製品と異常な製品とを個体データのデータ空間において分離する。例えば、異常な製品は正常な製品よりも数が少ないなどと仮定すると、未知の状態からクラスタ分類により、正常と異常とに分類することが可能である。また、クラスタが２つ以上の場合に、正常クラスタと複数の異常クラスタとに分かれたと仮定すると、正常と、複数の異常（異なる異常モード）とに分類することが可能である。このとき、どの異常クラスタに分類されたかに応じてそれぞれ状態データを計算することで、異常モードごとの解析を行うことができる。新たな入力データについては、例えば各クラスタの代表点（セントロイドなど）との距離に応じ、代表点の個体データから算出される状態データに基づいて計算することで、新たな入力データの状態データを設定できる。このように、個体データから状態データを生成する方法をデータドリブンで決定し、その偏りに基づいて原因推定を行うことができる。

なお、上述した個体データは、製品の寸法または重量など計測結果に基づくデータを想定するが、画像データまたは時系列データのような１次元以上の多次元データであってもよい。画像としては、例えば製品の形状および外観の検査を目的とした、ラインセンサデータ、可視画像データ、および超音波画像データなど挙げられる。時系列データとしては、例えば製品の温度変化、電気的な値の変化を計測した値の時系列データ、製品の異音検査などにおける音響データなど挙げられる。

個体データが画像データの場合、生成部８０１において用いる関数として、畳み込みニューラルネットワーク（ＣＮＮ）をベースとして機械学習したモデルを用いてもよい。また、個体データが時系列データの場合でも、生成部８０１において用いる関数として、再帰的ニューラルネットワーク（ＲＮＮ）をベースとして機械学習したモデルを用いてもよい。なお、ＣＮＮおよびＲＮＮに限らず、画像データや時系列データを扱う既存のモデルであれば、どのようなモデルを用いてもよい。

以上に示した第３の実施形態によれば、例えば外観検査を目的とした画像データの場合、汚れの大小など、主観的な検査項目が含まれることがあり、製品の正常、異常を決定的に判別することが難しい場合がある。このような場合でも、個体データを入力し、状態データを出力するように学習した学習済みモデルを用いて、個体データから状態データを推論することで、画像データまたは時系列データである個体データに含まれる不確実性を考慮した状態データを生成でき、状態データの偏りに基づいて原因推定を行うことができる。

（第４の実施形態）
第４の実施形態では、状態データ、指標値など上述の実施形態に係るデータ解析装置で算出した値を可視化して、ディスプレイなどに表示する。

第４の実施形態に係るデータ解析システム１について図１８を参照して説明する。
第４の実施形態に係るデータ解析システム１は、データ解析装置１０と、データ格納装置２０と、表示装置３０とを含む。第４の実施形態に係るデータ解析装置１０は、データ取得部１０１と、算出部１０２と、表示制御部１８０１とを含む。なお、第４の実施形態に係るデータ解析装置１０は、生成部８０１をさらに含んでもよい。

表示制御部１８０１は、算出部１０２から指標値を、データ取得部１０１から、製造データ、状態データおよび必要に応じて状態判定値をそれぞれ取得する。表示制御部１８０１は、生成部８０１がデータ解析装置１０に含まれる場合は生成部８０１から状態データ（および状態判定値）を取得する。表示制御部１８０１は、製造データ、状態データ、指標値、およびその他のデータを用いて可視化データを生成し、外部の表示装置３０などに表示する。表示制御部１８０１は、可視化データを画像、図面として出力してもよいし、表示装置３０で表示可能なデータ形式、ｈｔｍｌ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ｘｍｌ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）およびＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）などの形式で出力してもよい。
表示装置３０は、ディスプレイ、プロジェクタなどのデバイスを想定するが、ユーザが表示装置３０を介してデータを視認可能なデバイスであればよい。なお、表示装置３０は、データ解析装置１０に含まれてもよい。

次に、可視化データの表示例について図１９を参照して説明する。
表示装置３０における可視化データの表示例として、インタフェース画面に第１表示領域と第２表示領域とが表示される。
第１表示領域は、状態データごとに、検査項目と判定値とが表示される。第２の実施形態を例とすれば、Ｎ個の検査項目に関する個体データＹ_ｉについて状態データＶ_Ｙ_ｉが生成されるため、Ｎ個の状態データＶ_Ｙ_ｉと、対応する状態判定値とが表示される。状態判定値は、例えば、検査対象のＤ個の製品についてそれぞれ算出される個別状態データｖ_ｄの総和、または総和を製品数Ｄで除算した値（状態が異常の場合は、異常率を示す）などを用いればよい。
状態判定値の大きさに応じて第１表示領域１９０１に表示される情報が異なる。例えば、状態判定値が第１閾値以上である場合の第１表示領域１９０１には、個体データＹ_ｉに関する情報と、状態判定値と、個体データＹ_ｉに関する第１解析結果１９０２と、第２表示領域１９１１，１９１３および１９１４とが表示される。なお、状態判定値と共に、または状態判定値に変えて状態データＶ_Ｙ_ｉに関する情報が表示されてもよい。

なお、図１９の例では、個体データＹ_ｉに関する情報（「検査項目Ｙ７」）は第１表示領域１９０１の左上に、状態判定値（「判定値：０．１」）は第１表示領域１９０１の右上にそれぞれ表示される。なおこれに限らず、第１表示領域１９０１内のどの位置に表示されてもよいし、個体データＹ_ｉと状態判定値との関係が把握できれば、どのような態様で表示されてもよい。
また、第１表示領域１９０１自体または第１表示領域１９０１内の文字およびグラフを強調表示してもよい。例えば、第１表示領域１９０１を目立つ色で囲んでもよいし、個体データに関する情報を太字にしてもよいし、および警告や注意を示す強調マークを付与してもよい。

続いて、状態判定値が第１閾値未満である場合の第１表示領域１９０３には、第１表示領域１９０１には、個体データＹ_ｉに関する情報と、状態判定値とが表示され、第１解析結果１９０２の表示は省略される。
さらに、状態判定値が第１閾値よりも小さい第２閾値未満である場合の第１表示領域１９０４は、第２閾値未満の状態判定値を有する個体データＹ_ｉに関する情報を１つだけ代表して表示してもよいし、状態判定値が第２閾値以下である旨を表示してもよいし、非表示としてもよい。また、第１表示領域１９０４については、第１表示領域１９０１と比較して目立たなくするように表示されてもよい。例えば、第１表示領域１９０４については色をグレーなど薄い色または破線などで表示してもよい。

第２表示領域１９１１，１９１３および１９１４の表示構造は、上述した第１表示領域１９０１，１９０３および１９０４の表示構造と同様である。例えば、第２表示領域１９１１には、製造条件Ｃ_ｊ、個体データＹ_ｉに関する指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）、指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）に基づく原因の推定結果である第２解析結果１９１２が表示される。図１９の例では、指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）が第３閾値以上である製造条件Ｃ_ｊに関する情報（「要因Ｃ５」）は第２表示領域１９１１の左上に、指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）（「指標値：０．８」）は第２表示領域１９１１の右上にそれぞれ表示される。なおこれに限らず、第１表示領域１９０１内のどの位置に表示されてもよいし、どのような態様で表示されてもよい。指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）が第３閾値未満である場合の第２表示領域１９１３には、製造条件と指標値とのみが表示され、第２解析結果１９１２は表示されない。指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）が第３閾値よりも小さい第４閾値未満である場合の第２表示領域１９１４には、製造条件Ｃ_ｊに関する情報を１つだけ代表して表示してもよいし、製造条件Ｃ_ｊが第４閾値以下である旨を表示してもよい。なお、第１閾値および第２閾値の組と、第３閾値および第４閾値の組とは、それぞれ同じ値の組でもよいし、別の値でもよい。

図１９では、第１表示領域１９０１内に第２表示領域１９１１が含まれるように表示する例を示すが、第１表示領域１９０１と第２表示領域１９１１とがそれぞれ独立して表示されてもよい。また、第１解析結果１９０２と第２解析結果１９１２とは、どちらが優先されて表示されてもよい。例えば、状態判定値が第２閾値以下であり、第１表示領域としては非表示に該当するが、指標値が計算され、当該指標値が閾値以上である場合には、第１表示領域１９０１と同様の表示態様としてもよい。また、第１解析結果１９０２と第２解析結果１９１２とは、プロット図に限らず、表形式など他の表示態様で表現されてもよい。

次に、第１表示領域１９０１に表示される第１解析結果１９０２の一例について図２０および図２１を参照して説明する。
図２０に示すように、個体データＹ_ｉの値の散布図を第１解析結果１９０２として表示する。
縦軸が個体データの値を示し、横軸が識別番号（図２０ではＩＤと表記）を示す。識別番号は、例えば識別番号の若い順に時系列で並べられればよい。各プロットが１つの製品を表す。

図２０に示すように、閾値ＴＨ１よりも個体データＹ_ｉの値が大きい、つまり異常と判定される個体データのプロットが色を変えて表現される。これにより、個体データＹ_ｉの分布だけではなく、異常値の数、異常と判定された個体データと閾値との距離が直感的に把握しやすくなり、ユーザに異常の度合いを視覚的に示すことができる。

さらに、図２１に示すように、状態データの算出基準を示すグラフ２１０１を表示してもよい。図２１の例では、図１２に示した計測ばらつきの範囲１２０１をグラフ２１０１として表示する。

また、散布図の横軸を識別番号順とすることで、異常が発生した製品を特定できる。なお、製品が製造された時刻情報を横軸としてもよい。これにより、異常の発生した時間帯が特定できる。なお、第１解析結果１９０２は散布図に限らず、ヒストグラム、箱ひげ図、ヴァイオリンプロットなどの他の表現方法により表示してもよい。

また、図に限らず、数値データをそのまま表示してもよい。表示制御部１８０１は、解析に含まれる製品の数、異常と判定された製品の数、その他基本的な数値データを解析結果として表示するように制御すればよい。これにより、ユーザは数値データも含めて異常について考察をすることができる。

なお、本実施形態では第２の実施形態を例に、個体データＹ_ｉに関する図を解析結果として表示する例を示したが、第１の実施形態に係る状態データＶもしくはＶiに関する図（Ｖを縦軸もしくは横軸にした散布図、もしくはヒストグラム、箱ひげ図など）を表示してもよい。

なお、表示制御部１８０１は、算出部１０２が複数種類の解析結果を生成した場合は、複数種類の解析結果を表示してもよい。複数の指標値をＧ_ｒ（Ｙ_ｉ）｛ｒ：１，…，Ｑ｝と表し、ここでｒは解析方法の種類を表す。例えば、第１表示領域１９０１に表示される状態判定値であれば、個別状態データｖ_ｄ_Ｙ_ｉの総和を１つの解析結果とし、個別状態データｖ_ｄ_Ｙ_ｉを製品数で割った値を別の解析結果として表示してもよい。また、前回の状態判定値と今回の状態判定値との差または比を、新たな解析結果としてもよい。複数の解析結果を生成することで、多角的にデータを捉えることができ、ユーザの判断を支援できる。

次に、第２表示領域１９１１に表示される第２解析結果１９１２の一例について図２２および図２３を参照して説明する。
第２解析結果１９１２である解析情報Ｇ（Ｙ_ｉ，Ｃ_ｊ）は、指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）に関するより詳細な情報をユーザに提示する。図２２は、縦軸は個体データＹ_ｉの値、横軸は製造条件Ｃ_ｊ、例えば、製造装置の種類を表す散布図とする。図２２の各プロットは、製品一個体を表す。図２２では、指標値Ｆ（Ｖ_Ｙ_ｉ，Ｃ_ｊ）として、異常と判定された製品の特定の製造条件への偏りを用いる場合を想定する。
そのため、判定に用いた閾値ＴＨ１と、特定の製造条件への偏り率を折れ線グラフ２２０１で図示する。また、偏りが大きい製造条件の分布の色を変えて強調してもよい。これにより個体データＹ_ｉの分布と、製造条件Ｃ_ｊごとの偏りが直感的に分かりやすくなり、ユーザに異常の度合いを視覚的に訴えることができる。

図２３は、図２２の散布図に加えて、ヒストグラム２３０１を表示した例である。各製造条件Ｃ_ｊにおけるプロットの度数がヒストグラム２３０１として表示されることにより、容易に状態を把握できる。第２解析結果１９１２も第１解析結果１９０２と同様に、散布図以外の図であってもよい。
また、図２２および図２３の例では、製造条件Ｃ_ｊがカテゴリカルなデータであるものとして説明したが、製造条件Ｃ_ｊは数値データであってもよい。その場合、散布図を解析情報として生成してもよい。また、図２１と同様に状態データの算出基準を示すグラフ２１０１をさらに表示してもよい。指標値に関する情報として、回帰直線や相関係数などを表示する。第１解析結果の場合と同様に、第２解析結果においても複数種類の解析結果を生成してもよい。複数の指標値をＧ_ｓ（Ｙ_ｉ，Ｃ_ｊ）｛ｓ：１，…，Ｓ｝と表す。ここでsは解析方法の種類を表す。なお、第１表示領域の場合と同様に、表示制御部１８０１は、算出部１０２が複数種類の解析結果を生成した場合は、複数種類の解析結果を表示してもよい。第２表示領域１９１１に表示される指標値として、上述の第１の実施形態で示した検定の種類ごとに算出された値をそれぞれ異なる解析結果として用いてもよい。また、前回の指標値と今回の指標値との差または比を、新たな解析結果としてもよい。このように複数の解析結果を生成することで、ユーザを支援できる。

以上に示した第４の実施形態によれば、製品の状態に関する製造データと製造条件に関する製造データを、状態判定値または指標値の大きさに基づいて、解析結果の情報量と優先度を決定して表示する。これにより、ユーザは異常との関係が高いと予想される製造データを優先して監視することができ、ユーザの確認の負担や見逃しが減ることが期待できる。

次に、上述の実施形態に係るデータ解析装置のハードウェア構成の一例を図２４に示す。
データ解析装置は、ＣＰＵ（Central Processing Unit）２４０１と、ＲＡＭ（Random Access Memory）２４０２と、ＲＯＭ（Read Only Memory）２４０３と、ストレージ２４０４と、表示装置２４０５と、入力装置２４０６と、通信装置２４０７とを含み、それぞれバスにより接続される。なお、表示装置２４０５はデータ解析装置のハードウェア構成として含まれなくてもよい。

ＣＰＵ２４０１は、プログラムに従って演算処理および制御処理などを実行するプロセッサである。ＣＰＵ２４０１は、ＲＡＭ２４０２の所定領域を作業領域として、ＲＯＭ２４０３およびストレージ２４０４などに記憶されたプログラムとの協働により各種処理を実行する。
ＲＡＭ２４０２は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）などのメモリである。ＲＡＭ２４０２は、ＣＰＵ２４０１の作業領域として機能する。ＲＯＭ２４０３は、プログラムおよび各種情報を書き換え不可能に記憶するメモリである。

ストレージ２４０４は、ＨＤＤ等の磁気記録媒体、フラッシュメモリなどの半導体による記憶媒体、または、ＨＤＤ（Hard Disc Drive）などの磁気的に記録可能な記憶媒体、または光学的に記録可能な記憶媒体などにデータを書き込みおよび読み出しをする装置である。ストレージ２４０４は、ＣＰＵ２４０１からの制御に応じて、記憶媒体にデータの書き込みおよび読み出しをする。

表示装置２４０５は、ＬＣＤ（Liquid Crystal Display）などの表示デバイスである。表示装置２４０５は、ＣＰＵ２４０１からの表示信号に基づいて、各種情報を表示する。
入力装置２４０６は、マウスおよびキーボード等の入力デバイスである。入力装置２４０６は、ユーザから操作入力された情報を指示信号として受け付け、指示信号をＣＰＵ２４０１に出力する。
通信装置２４０７は、ＣＰＵ２４０１からの制御に応じて外部機器とネットワークを介して通信する。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したデータ解析装置およびデータ解析システムの制御動作による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態のデータ解析装置およびデータ解析システムの制御と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…データ解析システム、１０…データ解析装置、２０…データ格納装置、２９…データ、３０，２４０５…表示装置、１０１…データ取得部、１０２…算出部、２０１…製品番号、２０２…製造データ、３０１…状態データ、８０１…生成部、１００２，１５０１，２１０１…グラフ、１００３…マージン値域、１１０１…最大値、１２０１，１２０２，１４０１…範囲、１２０３，１４０２…関数、１６０１，１７０１…確率分布、１８０１…表示制御部、１９０１，１９０３，１９０４…第１表示領域、１９０２…第１解析結果、１９１１，１９１３，１９１４…第２表示領域、１９１２…第２解析結果、２２０１…折れ線グラフ、２３０１…ヒストグラム、２４０１…ＣＰＵ、２４０２…ＲＡＭ、２４０３…ＲＯＭ、２４０４…ストレージ、２４０５…表示装置、２４０６…入力装置、２４０７…通信装置。

Claims

解析対象となる複数の製品について、製品ごとに１以上の製造条件を含む製造データを取得する取得部と、
前記製造データから抽出した１つの製造条件に関して取り得る１以上の項目における、前記製品が特定の状態である度合いを示す状態データの偏りに基づいて、前記製品が前記特定の状態となった原因が前記製造条件である度合いを示す指標値を算出する算出部と、
を具備するデータ解析装置。
前記取得部は、前記製品個別の計測値を示す個体データをさらに取得し、
前記データ解析装置は、
前記個体データから前記状態データを生成する生成部をさらに具備する、請求項１に記載のデータ解析装置。
前記生成部は、前記個体データの誤差に応じた前記状態データを生成する、請求項２に記載のデータ解析装置。
前記生成部は、前記個体データの計測誤差または量子化誤差に基づいて前記状態データを生成する、請求項２に記載のデータ解析装置。
前記生成部は、個体データが入力され、状態データを出力するように学習された学習済みモデルを用いて、解析対象の個体データから状態データを推論する、請求項２から請求項４のいずれか１項に記載のデータ解析装置。
前記算出部は、前記項目ごとの前記状態データの偏りを表す前記指標値を算出する、請求項１から請求項５のいずれか１項に記載のデータ解析装置。
前記算出部は、前記項目と前記状態データとに対し統計的検定を用いて前記指標値を算出する、請求項１から請求項５のいずれか１項に記載のデータ解析装置。
前記特定の状態は、製品に関する特定のモードである、請求項１から請求項７のいずれか１項に記載のデータ解析装置。
前記特定の状態は、異常状態である、請求項１から請求項８のいずれか１項に記載のデータ解析装置。
前記特定の状態は、未知の状態をクラスタ分類した場合における特定のクラスタに属することを表す、請求項１から請求項７のいずれか１項に記載のデータ解析装置。
前記個体データは、画像データまたは時系列データを含む多次元データのうちの１つである、請求項２に記載のデータ解析装置。
前記状態データに関する情報を第１表示領域に表示し、前記製造条件ごとに前記指標値に関する情報を第２表示領域に表示するように制御する表示制御部をさらに具備する、請求項１から請求項１１のいずれか１項に記載のデータ解析装置。
前記表示制御部は、第１状態データから算出された状態判定値が第１閾値以上であれば、第１状態データに関する解析結果を、第１状態データとは異なる第２状態データに関する解析結果よりも優先して表示し、第１製造条件に関して算出された前記指標値が第２閾値以上であれば、第１製造条件とは異なる第２製造条件に関して算出された指標値および解析結果よりも優先して表示する、請求項１２に記載のデータ解析装置。
前記第１状態データおよび前記第２状態データは、前記製品個別の計測値を示す個体データに関するデータであり、前記解析結果は、前記個体データに関する情報を含む、請求項１３に記載のデータ解析装置。
前記表示制御部は、前記状態データから算出された状態判定値に基づき、前記解析結果を表示する際の情報量を制御する、請求項１３または請求項１４に記載のデータ解析装置。
前記表示制御部は、第１個体データに関する状態データから算出された状態判定値が閾値以上であれば、前記第１個体データに関する解析結果と前記状態判定値とに関する情報を表示し、前記状態判定値が前記閾値未満であれば、前記第１個体データの前記状態判定値に関する情報のみ表示する、請求項１２から請求項１５のいずれか１項に記載のデータ解析装置。
前記状態データは、前記製品個別の計測値を示す個体データに関するデータであり、
前記表示制御部は、第１製造条件に関して算出された前記指標値が閾値以上であれば、前記第１製造条件に関する解析結果と前記指標値とに関する情報を表示し、前記指標値が前記閾値未満であれば、前記第１製造条件の前記指標値に関する情報のみ表示する、請求項１２から請求項１６のいずれか１項に記載のデータ解析装置。
解析対象となる複数の製品について、製品ごとに１以上の製造条件を含む製造データを取得し、
前記製造データから抽出した１つの製造条件に関し取り得る１以上の項目における、前記製品が特定の状態である度合いを示す状態データの偏りに基づいて、前記製品が前記特定の状態となった原因が前記製造条件である度合いを示す指標値を算出する、データ解析方法。
データ格納装置と、データ解析装置と、表示装置とを含むデータ解析システムであって、
前記データ格納装置は、
解析対象となる複数の製品について、製品ごとに１以上の製造条件を含む製造データを格納し、
前記データ解析装置は、
前記データ格納装置から前記製造データを取得する取得部と、
前記製造データから抽出した１つの製造条件に関し取り得る１以上の項目における、前記製品が特定の状態である度合いを示す状態データの偏りに基づいて、前記製品が前記特定の状態となった原因が前記製造条件である度合いを示す指標値を算出する算出部と、を具備し、
前記表示装置は、
前記状態データに関する情報を第１表示領域に表示し、前記製造条件ごとに前記指標値に関する情報を第２表示領域に表示する、データ解析システム。